有關創(chuàng)造力測量的一些思考*

2016-02-28 12:13:35沈汪兵2

心理科學進展 2016年1期

貢喆劉昌沈汪兵2,

(1南京師范大學心理學院暨認知神經(jīng)科學實驗室,南京 210097)

(2河海大學公共管理學院暨應用心理研究所,南京 210098)

1 引言

創(chuàng)造力概念一般被認為包括兩大核心特質(zhì)：新穎性(originality)和適宜性(appropriateness)。其中,新穎性意味著：創(chuàng)造性思維和產(chǎn)品應相對于創(chuàng)造者自身或創(chuàng)新環(huán)境而言具有新穎、獨特的品質(zhì);適宜性則可以歸納為：創(chuàng)造性思維和產(chǎn)品對創(chuàng)造者自身或問題情境具備“有用性”(useful)或是對創(chuàng)新環(huán)境“有價值”(valuable)。這兩大核心特質(zhì)是創(chuàng)造力與其它相近概念的根本不同,亦是從概念上判別創(chuàng)造力的基本標準。依托于此類創(chuàng)造力基本概念,研究者進一步對創(chuàng)造力概念展開量化研究,其中首要的課題即是測量創(chuàng)造力。創(chuàng)造力測量,即依據(jù)一定的創(chuàng)造力理論,使用測驗對創(chuàng)造力進行定量描述的過程。研究者一般認為, 1883年高爾頓發(fā)表的《對人類能力的探求》(Inquiries into Human Faculty)喚起了人們測量創(chuàng)造力的興趣,直到1950年吉爾福特在美國心理學會上的演講后,創(chuàng)造力測量領域的研究開始進入高峰期(Plucker&Renzulli,1999)。這表現(xiàn)在,一方面,創(chuàng)造力測量成為創(chuàng)造力研究的方法學基礎,它為進一步研究創(chuàng)造力提供有力支持。一項研究報告表明,各種創(chuàng)造力量表和問卷是創(chuàng)造力研究中收集信息的第一選擇,遠遠多于訪談法或文獻分析(Hürsen,Kaplan,&?zdal,2014);另一方面,各種創(chuàng)造力測量技術蓬勃發(fā)展,研究者圍繞創(chuàng)造力主體 (Domino,1970;Gough,1979;Kirton, 1976)、創(chuàng)造性思維過程(Guilford,1967;Mednick, 1962;Torrance,1972)、創(chuàng)造性產(chǎn)品(Amabile,1982; Besemer&O'Quin,1987)以及創(chuàng)造性環(huán)境(Amabile, Conti,Coon,Lazenby,&Herron,1996)四個方面對創(chuàng)造力展開測量研究,創(chuàng)造力測驗從量和質(zhì)上都獲得飛躍式發(fā)展。Torrance和Goff(1989)在20余年前的報告中提到,在當時學術界已經(jīng)有不少于255種創(chuàng)造力測驗。雖然暫時未能發(fā)現(xiàn)較新的統(tǒng)計數(shù)據(jù),但可以想見的是,創(chuàng)造力測驗的數(shù)量早已遠遠超過Torrance和Goff(1989)當年的估算?，F(xiàn)如今,創(chuàng)造力測驗已經(jīng)應用于社會生活的各個領域,例如：數(shù)學(Tan,Mourgues,Bolden,& Grigorenko,2014);機械(Colangelo,Kerr,Hallowell, Huesman,&Gaeth,1992);漫畫(Chou,Chen,&Chou, 2014);就業(yè)市場(Paprika&Nagy,2012);網(wǎng)頁設計(Zeng,Proctor&Salvendy,2012);科學研究(Ayas&Sak;2014);教育實踐(Blamires&Peterson, 2014);工程規(guī)劃(Charyton&Merrill,2009)等等。

然而,創(chuàng)造力測量領域,特別是各種創(chuàng)造力測驗在近幾十年的發(fā)展中是否交出了一幅滿意的答卷呢？我們或許要先打上問號。研究者普遍認為,創(chuàng)造力測量領域相較于創(chuàng)造力其他研究領域發(fā)展更為滯后(Plucker&Makel,2010;Silvia, Wigert,Reiter-Palmon,&Kaufman,2012)。作為心理測量領域和創(chuàng)造力研究領域的交集,創(chuàng)造力測驗一些關鍵的測量指標飽受詬病。例如：Simonton (2003)曾經(jīng)激烈抨擊現(xiàn)有創(chuàng)造力測驗：“那些推薦的創(chuàng)造力測量手段沒有一個能跨過能力測驗所必需邁過的心理測量障礙。例如：創(chuàng)造力各種分測驗的分數(shù)與一般智力相關太高,這意味著區(qū)分效度(divergent validity)低下;而這些分測驗之間相關卻又太低,這又說明聚合效度(convergent validity)低下;創(chuàng)造力測驗分數(shù)和客觀的創(chuàng)造力行為指標相關很弱,這還代表預測效度(predictive validity)低下。”在諸多討伐聲中,創(chuàng)造力測驗缺乏預測效度或許是最為嚴重的問題(Kaufman&Baer, 2012;Zeng,Proctor,&Salvendy,2011),這甚至可能意味著許多創(chuàng)造力測驗事實上是無效的。

既然如此,那么如何更準確的測量創(chuàng)造力？為了回答這個問題,研究者從未停止努力的腳步,他們圍繞創(chuàng)造力測量的熱點問題進行研究,提出了多種改進方案。例如：創(chuàng)新測驗方法(Prabhakaran, Green,&Gray,2014);豐富計分手段(Benedek, Mühlmann,Jauk,&Neubauer,2013);完善統(tǒng)計措施(Primi,2014);評估測驗合理性(Lee,Huggins, &Therriault,2014)等等。這些創(chuàng)造力測量技術的新進展,大大推進了創(chuàng)造力測量的客觀性與實用性。鑒于國外有關創(chuàng)造力測量技術的權(quán)威綜述發(fā)表較早,且內(nèi)容類似(見Plucker&Renzulli,1999; Plucke&Makel,2010),國內(nèi)更缺乏與之相關的前沿介紹,因此極有必要對近幾年創(chuàng)造力測量的最新進展進行綜述。

需要說明的問題是：第一,由于近幾年創(chuàng)造性思維過程測驗和創(chuàng)造性產(chǎn)品測驗的應用更為廣泛深入,因此本文主要圍繞這兩個角度選取運用最多、爭議最大的4類主流測量技術進行綜述,其中既包括創(chuàng)造力測驗,即：發(fā)散思維測驗、頓悟類測驗、創(chuàng)造力成就測驗;也包括評分技術,即：同感評估技術。同時值得注意的是,從嚴格意義上看,這4類主流測量技術并不能被認為只隸屬于創(chuàng)造性思維測驗或創(chuàng)造性產(chǎn)品測驗的范疇,它們在實際應用中往往較為靈活。例如：發(fā)散思維測驗一般可歸類為創(chuàng)造性思維測驗,但是發(fā)散思維的成果也可視為創(chuàng)造性的產(chǎn)品,研究者是根據(jù)思維的產(chǎn)物評定其是否有創(chuàng)造性的。因此如果從這個角度出發(fā),把發(fā)散思維測驗歸于測量創(chuàng)造性產(chǎn)品的測驗亦無不可。又如：同感評估技術作為一種評分技術,既可應用于多種發(fā)散思維測驗,亦可運用于某類產(chǎn)品的創(chuàng)造性評估乃至創(chuàng)造性環(huán)境的測評。第二,本文無意于細致羅列各種創(chuàng)造力測驗的具體操作方法,該部分內(nèi)容可見由Kaufman,Plucker和Baer(2008)編著的《Essential of Creativity Assessment》。

下文依次對4類主流創(chuàng)造力測量技術的最新進展及熱點問題進行評述,最后展望創(chuàng)造力測量未來的發(fā)展方向。

2 發(fā)散思維測驗

發(fā)散思維測驗(divergent thinking test)一般以開放性問題的形式呈現(xiàn),要求被試盡可能多的根據(jù)題目要求羅列答案。發(fā)散思維測驗有多種分類方法,例如,從測驗形式將其分為：語言測驗、圖形測驗以及動作測驗;或從測驗內(nèi)容將其分為：靈活使用任務或多用途任務(alternate use task) (給普通物品設計多種新穎用法),舉例任務(instance task)(在普通種類中例舉新穎物品)以及結(jié)果任務(consquence task)(設想某種虛擬條件下可能產(chǎn)生的新穎結(jié)果)(Silvia,2011);又或從領域一般性及特殊性(domain general-specific)角度將其區(qū)分為：領域一般性發(fā)散思維測驗,或領域特殊性發(fā)散思維測驗。發(fā)散思維測驗適用于個體或團體施測,且普及各個年齡段,是應用最為廣泛的創(chuàng)造力測驗形式。使用頻率較高的發(fā)散思維測驗是：Guilford(1967)的智力結(jié)構(gòu)測驗(Structure of the Intellect,SOI);Torrance(1972)的托蘭斯創(chuàng)造力測驗(Torrance Tests of Creative Thinking,TTCT)等等。

發(fā)散思維測驗的基本理論假設是：創(chuàng)造力水平高的個體相較于普通人,最顯著的特點在于他們能夠從多角度思考并解決問題。因此,通過開放性問題評定個體發(fā)散思維水平,就能夠預測個體創(chuàng)造力潛能。然而,該假設并未準確切中創(chuàng)造性思維的兩大核心特質(zhì),即新穎性和適宜性。首先,個體能夠?qū)δ硢栴}從多角度進行思考和解答,未必是創(chuàng)造性思維新穎性的體現(xiàn),反映的可能只是個體在長時記憶中存儲的與該問題相關的信息數(shù)量(Leon,Altmann,Abrams,Gonzalez Rothi,& Heilman,2014)。同樣,個體從多角度思考問題也不意味其思維具有適宜性。理論層面的缺失可能進一步給實證研究帶來不利影響。例如：研究者在采用發(fā)散思維測驗時就經(jīng)常忽視適宜性維度,缺乏適宜性的限制,一些不合邏輯的“新穎”想法就會和創(chuàng)造性思維混為一談。當該類測驗應用于特殊群體時,問題可能會集中出現(xiàn)。Fink,Slamar-Halbedl,Unterrainer和Weiss(2012)的研究發(fā)現(xiàn)創(chuàng)造力與精神質(zhì)(psychoticism)存在顯著正相關,原因可能在于他們在應用發(fā)散思維測驗時并沒有考慮適宜性維度,這就會把一些明顯不合理的答案判定為高新穎性,最終可能導致高估高精神質(zhì)個體的創(chuàng)造力水平。雖然該問題能夠通過改良新穎性計分的方式彌補(Silvia et al.,2008),但由此可見,發(fā)散思維測驗基本理論假設存在的不足,可能引發(fā)一系列應用問題,這需要引起研究者的足夠重視。

發(fā)散思維測驗的應用最為廣泛,在某種程度上或許可稱之為創(chuàng)造力測驗的“代言人”。然而,發(fā)散思維測驗在獲得更多關注的同時也遭到更多指責。發(fā)散思維測驗的客觀性、信度以及效度問題都飽受爭議(Baer,2011;Benedek,K?nen,&Neubauer, 2012;Zeng et al.,2011)。Zeng等人(2011)曾羅列了發(fā)散思維測驗的六大“罪狀”,主要包括：缺乏結(jié)構(gòu)效度、未能整合創(chuàng)造性思維過程、對領域特殊性及專業(yè)知識的忽視、預測能力較弱以及缺乏生態(tài)效度和區(qū)分效度。Baer(2011)還曾在美國心理協(xié)會會議上呼吁盡量避免使用諸如“易拉罐不同尋常的用法”之類的發(fā)散思維測驗,他認為這種測驗根本不是創(chuàng)造性思維合理的測量方式,繼續(xù)使用它們只會令創(chuàng)造力研究步入泥沼。

但同時也有大量研究表明發(fā)散思維具備良好的信、效度(Beaty,Smeekens,Silvia,Hodges,& Kane,2013;Hong,Milgram,&Gorsky,1995;Kim, 2008)。由于發(fā)散思維測驗信、效度指標,特別是效度指標積累了大量矛盾結(jié)論,因此,目前仍然無法確定發(fā)散思維測驗是否“完全”可信且有效,圍繞此問題的爭論勢必一直存在。不過于此同時,研究者開始逐漸意識到發(fā)散思維測驗只是針對創(chuàng)造力潛能的一種估計(Runco&Acar,2012),潛能的發(fā)揮除了依靠能力本身,還需要知識、技能、心理健康乃至機遇(Cropley,2000)。不僅如此,越來越多研究者傾向于支持創(chuàng)造力具有領域特殊性(Baer,2011;Pretz&McCollum,2014),簡言之即創(chuàng)造力在不同領域具有差異化表現(xiàn),創(chuàng)造力測驗亦是如此。因此,一種更為合理的推測是：發(fā)散思維測驗能夠在一定程度上有效評定和預測創(chuàng)造力水平,但有賴于不同領域。例如：Clapham,Cowdery, King和Montang(2005)的研究就發(fā)現(xiàn),智力結(jié)構(gòu)測驗(SOI)中與機械能力有關的分量表,比智力結(jié)構(gòu)測驗(SOI)測驗總分對創(chuàng)造力行為和專利數(shù)量有更好的預測作用;Runco,Millar,Acar和Cramond (2010)一項針對托蘭斯創(chuàng)造力測驗(TTCT)長達50年的縱向研究表明,托蘭斯創(chuàng)造力測驗(TTCT)與個體一些創(chuàng)造力行為有中等相關,但和個體社會層面的創(chuàng)造性成就無關。據(jù)此可見,從整體上判定發(fā)散思維測驗是否有效實際上并不妥當,從不同角度出發(fā),歸納多測驗在多領域中的表現(xiàn),分別總結(jié)其信、效度數(shù)據(jù)或許是更為合理的方法。

對發(fā)散思維測驗計分方法的爭論與改進是近年來創(chuàng)造力測量領域的熱點問題,也是發(fā)散思維測驗研究的重要突破。發(fā)散思維測驗通常包括對被試答案流暢性(fluency)、變通性(flexibility)以及獨特性(uniqueness)或新穎性(originality)的計分。其中,由于發(fā)散思維測驗中多將獨特性維度和新穎性維度視為等同(Benedek et al.,2013),因此本文統(tǒng)一采用“獨特性”表征該維度。學術界對流暢性和變通性的計分較為統(tǒng)一,前者即清點被試答案的個數(shù),后者即計算被試答案囊括的不同種類。而發(fā)散思維測驗獨特性維度的計分方法則一直存有爭議。較早的經(jīng)典計分方法為：研究者將所有答案匯總,如果某個答案是特殊的,即唯一的,那么該答案計1分,其他答案記0分。該計分方法直觀明了,較好的反映了創(chuàng)造力“獨特性”的含義,得到了一定程度上的運用。其他獨特性計分方法還有：列出一張非獨特性答案對照表,如果被試答案不在該表上,即可以在獨特性維度上計分;還有方法給樣本中少于5%的答案記1分,給其它答案記0分。這一類方法采用一種計分模式,即被試憑借獨特性答案得分,分數(shù)最后相加成為獨特性指標(Silvia et al.,2008)。

然而此類方法的問題在于：第一,流暢性和獨特性分數(shù)間相關過高,二者的含義會因此發(fā)生混淆(Clark&Mirels,1970)。Silvia(2008)一項潛變量分析研究就發(fā)現(xiàn),潛在流暢性和獨特性變量相關極高(r=0.88)。依照研究者對流暢性和獨特性的定義,如果說流暢性是發(fā)散思維量的指標,那么獨特性即為發(fā)散思維質(zhì)的指標,質(zhì)需要具有其相對獨立性。但既有研究結(jié)果卻揭示二者間存在不可忽視的高相關,這導致獨特性分數(shù)難以越過流暢性分數(shù)的影響對其他變量進行解釋(Silvia et al., 2008),因此有研究者甚至稱流暢性為污染變量(Hocevar,1979;Kaufman et al.,2008)。第二：獨特性分數(shù)極易受到樣本量誤差的干擾。一個可以預見的情況是,在一項發(fā)散思維測驗里,如果實驗只有30個樣本,那么被試的很多答案都可能被認定為“特殊”,但當樣本擴充到300個乃至更多時,原先“特殊”的答案可能將只是一個普通答案。當樣本數(shù)量極大時,甚至可能出現(xiàn)沒有獨特性答案的現(xiàn)象(Nusbaum&Silvia,2011)。第三,對答案獨特性的判定需要同時考量其是否合理,因為創(chuàng)造力還內(nèi)在具有適宜性的含義。依照傳統(tǒng)計分方法,一些古怪、奇特的答案很可能被納入獨特性得分的范疇,例如：磚頭的用途,某個答案是“吃”。該答案誠然非常特殊,但這顯然并不合理,因此不應當屬于創(chuàng)造力的范疇。

Silvia,Martin和Nusbaum(2009)認為可以借助主觀計分法解決傳統(tǒng)獨特性計分方法的問題,他們要求被試在限時發(fā)散思維任務中給出有創(chuàng)意的答案,并要求評定者依照不尋常、遠距離以及聰明三個指標,對被試給出的答案在5點量表上打分(Silvia et al.,2008)。采取主觀計分法的優(yōu)點在于,第一：流暢性和獨特性指標間不再混淆。多項研究表明采用主觀計分法后流暢性和獨特性相關程度顯著減小(Benedek et al.,2013;Primi, 2014;Silvia et al.,2008;Silvia,Nusbaum,Berg, Martin,&O’Connor,2009)。第二,獨特性水平直接由評定者判定,因此獨特性分數(shù)不再受到樣本量的干擾。第三,一些明顯不符合創(chuàng)造力的古怪答案在主觀計分中可以進行更為準確的判斷并加以剔除。

發(fā)散思維測驗的主觀計分方法主要包括：平均得分法(average scoring)和最優(yōu)項法(Top scoring)。平均得分法即對被試某一道題目多個答案的得分進行平均,得到其創(chuàng)造力的整體評價,用商數(shù)代替求和可以較好的規(guī)避流暢性和獨特性計分的混淆問題。最優(yōu)項法即要求被試在回答完每道問題后自行圈出其認為最有創(chuàng)造力的幾個答案(答案的數(shù)量由實驗者確定,另根據(jù)Benedek等人(2013)的研究表明,選擇3～6個最優(yōu)答案測驗效度最佳),評定者只對這幾個答案進行評價,評價后求平均數(shù)以表征其創(chuàng)造力。Silvia等人(2008)的研究表明,當采用傳統(tǒng)計分方法時,數(shù)據(jù)信度表現(xiàn)最差,只有使用不低于15個測驗任務時,測驗的可靠性指數(shù)才能達到0.80水平。但通常情況下,研究者在實驗中使用的測驗任務不會超過4個;而平均得分法和最優(yōu)項法在信度上都表現(xiàn)較好;在效度上最優(yōu)項法比平均得分法更佳,其解釋力為平均得分法的兩倍,原因可能在于最優(yōu)項法省略了許多缺乏創(chuàng)意的答案,因此可以傳遞更多有價值的信息。Benedek等人(2013)認為,平均得分法由于對被試的所有答案進行平均,可能導致一些關鍵信息的丟失。例如：某高創(chuàng)造性個體在5個答案中有兩個是特別有創(chuàng)意的答案,其余3個答案只是隨意寫下的,其創(chuàng)造力平均得分將會是居中水平;而某個普通創(chuàng)造性個體寫下的5個答案可能既沒有富有創(chuàng)意的答案,但同時也沒有隨意寫下的答案,因此其創(chuàng)造力平均得分同樣是居中。最優(yōu)項法突出了其最具創(chuàng)意的答案,省略了相對次要的內(nèi)容,因此在實際操作中,最優(yōu)項法保留了被試創(chuàng)造力信息中更有代表性的部分。雖然也有研究表明(Plucker,Qian,&Wang,2011)平均得分法在幾類主觀計分方法中表現(xiàn)最好,但原因可能在于Plucker等人(2011)的研究中未要求被試自行圈出最有創(chuàng)意的答案,被試前10個答案或后10個答案不等于其最優(yōu)答案?？傊?究竟哪一種方法更為合適,仍有待于進一步研究佐證。

除此之外,為進一步提高主觀計分法的效率, Silvia等(2009)還創(chuàng)制快照評定法(snapshot scoring)對發(fā)散思維測驗進行計分。不同于一般主觀計分方法,快照評定法只需要評定者對被試某道題目的答案進行整體評判,而不需要對被試的每一個答案進行打分,這無疑能節(jié)省大量的時間,且根據(jù)現(xiàn)有研究成果,快照評定法具備較好的可操作性和可信度,得到了不少研究者的采納。但同時需要注意的是,根據(jù)Silvia等(2009)的研究報告表明,快照評定法相較于一般主觀評定方法可能會令測驗結(jié)果在一定程度上受損。

以上研究雖然傾向于支持主觀計分方法,但同時也有研究者提出質(zhì)疑,Lee(2008)就對Silvia等人(2008)的研究報告提出了批評,他認為主觀評價法實際上無法真正避免傳統(tǒng)計分方法的弊端。例如：最優(yōu)項法要求被試自行選取最有創(chuàng)意的答案,但當要求被試寫出更多答案的時候,出現(xiàn)更特殊答案的可能性同樣提高了,此時流暢性和獨特性并未真正分離。不僅如此,主觀自評的計分方式還會帶來更多問題。例如：最優(yōu)項法容易導致積極偏見(positive bias),即通過該計分方法得到創(chuàng)造力分數(shù)可能遠高于其真實水平,在效標參照測驗中這將會帶入系統(tǒng)誤差。Primi(2014)也指出,當采用主觀計分法時,評定者的標準可能各有高低,當一組標準較高的評定者對被試進行打分時,被試的得分將系統(tǒng)性降低,這勢必會引入誤差。因此,Primi(2014)認為,應當通過統(tǒng)計手段評估主觀計分法可能帶來的誤差,如借助項目反應理論(item response theory)中的羅舒模型(Rasch model)對數(shù)據(jù)實現(xiàn)標準化處理,以便比較評定者之間標準的高低。

總而言之,盡管發(fā)散思維測驗在信、效度問題上承受了很大責難,但是學術界對發(fā)散思維測驗的革新遠未停止。因此研究者依然對發(fā)散思維測驗抱有極大信心(Kim,2011;Runco&Acar, 2012)?？梢哉f,迄今為止,發(fā)散思維測驗仍然是測量創(chuàng)造力的第一選擇。

3 頓悟類測驗

發(fā)散思維是由意識引導,解決界定清晰問題的創(chuàng)造性思維過程,執(zhí)行功能對發(fā)散思維起到關鍵作用。與之相反,創(chuàng)造性思維還具備通過無意識自動聯(lián)想,解決界定模糊任務的能力(Mednick, 1962)。某問題界定模糊意味著,解決該問題的方法和途徑不明確,此時個體需要借助一系列認知加工實現(xiàn)對問題的解決,并繼而產(chǎn)生頓悟的“啊哈”體驗。研究者圍繞該創(chuàng)造性思維設計了一系列創(chuàng)造力問題和測驗,本文將這一類問題和測驗概述為頓悟類測驗。頓悟類測驗的基本理論假設是：高創(chuàng)造性個體能夠憑借諸如：遠距離聯(lián)想、思維重組、原型啟發(fā)等認知加工過程整合并處理與目標有關的信息,從而更好的解決頓悟問題,并產(chǎn)生頓悟體驗。該假設邏輯與創(chuàng)造性思維兩大核心特質(zhì)新穎性與適宜性的結(jié)合較好,不難想象,能夠解答某頓悟問題的答案和策略,勢必是較為新穎且適用于該問題情境的。其中應用最廣的是Mednick(1962)的遠距離聯(lián)想測驗(remote associates test,RAT)。

Mednick(1962)認為創(chuàng)造性思維的本質(zhì)是聯(lián)想。他提出創(chuàng)造力包含“將關聯(lián)的要素結(jié)合以滿足某種特定需求或使之有用”的過程,且個體間創(chuàng)造力的差異往往表現(xiàn)在操作聯(lián)想思維過程上的不同,因此,Mednick(1962)假設個體有聯(lián)想等級(associative hierarchy)的差異。具體表現(xiàn)為：創(chuàng)造力高的個體能夠連接距離更遙遠的要素,據(jù)此理論假設,Mednick(1962)創(chuàng)立了影響深遠的遠距離聯(lián)想測驗。遠距離聯(lián)想測驗一般由30個項目構(gòu)成,每個項目包括三個詞匯,要求被試根據(jù)所呈現(xiàn)的三個詞匯進行聯(lián)想,填入與之相關的新詞。以英文版遠距離聯(lián)想測驗為例,如：光(light),生日(birthday),蠟(wax),正確答案應為：蠟燭(candle)。遠距離聯(lián)想測驗在過去幾十年中于創(chuàng)造力、聯(lián)想、頓悟乃至記憶、精神病理學等研究領域中得到了廣泛運用(Aiello,Jarosz,Cushen,&Wiley,2012; Fodor,1999;Storm,Angello,&Bjork,2011),我國也有系統(tǒng)介紹其使用方法的綜述出現(xiàn)(王燁,余榮軍,周曉林,2005),同時中文版遠距離聯(lián)想測驗的修訂工作也有所進展(李良敏,羅玲玲,劉武, 2015)。

相較于發(fā)散思維測驗,遠距離聯(lián)想測驗最鮮明的特點是,測驗中的題目具備唯一的正確答案。如上文所述,發(fā)散思維測驗要求被試針對某一問題進行多角度的回答,被試答案的流暢性、變通性是極其重要的考量指標。遠距離聯(lián)想測驗并不接受多種可能的答案,因為題目中已經(jīng)暗含了唯一且最佳的答案。然而,遠距離聯(lián)想測驗這一特性引發(fā)的爭執(zhí)隨之產(chǎn)生。早已經(jīng)有研究指出,具有“唯一解”的遠距離聯(lián)想測驗實際上與智力測驗的結(jié)構(gòu)更為類似,且遠距離測驗與發(fā)散思維測驗相關程度很低(Laughlin,Doherty,&Dunn,1968; Taft&Rossiter,1967),因此遠距離聯(lián)想測驗是否能反映個體的創(chuàng)造力水平？為闡明這一問題,有研究者通過分析遠距離聯(lián)想測驗的內(nèi)、外部結(jié)構(gòu)效度以明確該測驗真實反映的心理機能(Chermahini, Hickendorff,&Hommel,2012;Lee et al.,2014)。例如：Lee等人(2014)的研究發(fā)現(xiàn),遠距離聯(lián)想測驗的結(jié)果不僅與發(fā)散思維測驗的相關程度很低(r=?0.05～0.13),還與經(jīng)驗開放性人格呈負相關(r=?0.02)。在過往研究中,經(jīng)驗開放性人格能夠顯著預測個體發(fā)散思維水平;形成鮮明對比的發(fā)現(xiàn)是,遠距離聯(lián)想測驗同流體智力、言語智力則具備較高正相關(r=0.33～0.42)。Lee和Therriault(2013)在結(jié)構(gòu)方程模型中將遠距離聯(lián)想測驗當做聚合思維這一潛變量的指標,他們的研究發(fā)現(xiàn),聯(lián)想類、聚合類以及發(fā)散類思維表征創(chuàng)造力不同的認知結(jié)構(gòu),諸如工作記憶、智力等變量比起發(fā)散思維水平能夠更好的預測個體的聚合思維水平。這些研究繼續(xù)驗證了已有觀點,即遠距離聯(lián)想測驗和發(fā)散測驗的確測量了不同的心理品質(zhì)。更為重要的是Benedek等人(2012)的研究發(fā)現(xiàn),聯(lián)想思維實際在發(fā)散思維的運用中起到基礎作用,他們的研究表明4項聯(lián)想類任務能夠解釋發(fā)散思維半成的變異,而在過去,由于遠距離聯(lián)想測驗和發(fā)散思維相關低下,研究者往往認為聯(lián)想思維與發(fā)散思維毫無關系。該研究在一定程度上說明,遠距離聯(lián)想測驗或許很接近傳統(tǒng)智力測驗,但它仍然是創(chuàng)造力測驗。現(xiàn)在,越來越多的研究者傾向于認為,遠距離聯(lián)想測驗或許不涉及傳統(tǒng)產(chǎn)生性、發(fā)散性的創(chuàng)造力機制,它更著重于聚合性的創(chuàng)造力品質(zhì)。

但同時,Lee等人(2014)也指出,遠距離聯(lián)想測驗與智力測驗有極高相關仍可能存在兩種迥然不同的結(jié)論：第一,遠距離聯(lián)想測驗確實表征聚合性創(chuàng)造力;第二,與之完全相反,遠距離聯(lián)想測驗可能仍舊只是與智力測驗類似的分析思維測驗。因此,遠距離聯(lián)想測驗是否真能反映個體創(chuàng)造力水平？有關該測驗預測效度的數(shù)據(jù),特別是遠距離聯(lián)想測驗與創(chuàng)造力成就之間的關系就十分重要。然而該研究領域目前仍然非常缺乏,所以研究者在使用和解釋遠距離聯(lián)想測驗時仍然需要非常謹慎。

除了遠距離聯(lián)想測驗,其他頓悟類測驗還有諸如經(jīng)典的鄧克爾蠟燭問題(Duncker,1945);九點問題;“腦筋急轉(zhuǎn)彎式”頓悟問題(DeYoung, Flanders,&Peterson,2008);我國研究者設計的三字謎頓悟、原型啟發(fā)頓悟等等(沈汪兵,劉昌,張小將,陳亞林,2011;羅俊龍等,2012)。但通過仔細分析可以發(fā)現(xiàn),一些廣泛使用的聯(lián)想頓悟問題實際最早屬于問題解決范疇,主要用于探討定勢對解決問題的作用,雖然打破定勢是創(chuàng)造性思維的重要環(huán)節(jié),但其并非是創(chuàng)造力水平可靠的評定標準。Beaty,Nusbaum和Silvia(2014)的研究就發(fā)現(xiàn),解決頓悟問題的能力與真實創(chuàng)造力行為水平相關程度極低。而諸如三字謎、原型啟發(fā)等頓悟問題的設計初衷在于,采用ERP、fMRI等認知神經(jīng)科學手段研究頓悟思維本身的腦定位、思維進程等問題。嚴格說,它們并非是針對創(chuàng)造力水平的測驗。雖然有研究表明,聯(lián)想頓悟水平與發(fā)散思維有中等程度相關(Gilhooly&Murphy,2005),但結(jié)合以上所述,頓悟類測驗能否成為創(chuàng)造力水平的合理評估手段,仍然有待于更多研究予以驗證和說明。

4 創(chuàng)造力成就測驗

創(chuàng)造力成就是個體在其一生中所創(chuàng)造出新穎且有價值的產(chǎn)品的集合(Carson,Peterson,&Higgins, 2005)。創(chuàng)造力成就測驗的理論假設最為直觀明了：如果有什么能夠預測未來的創(chuàng)造力潛能,那么最有可能的是已經(jīng)存在的創(chuàng)造力成就。對創(chuàng)造力成就的測量方式主要為：可證實的成就或榮譽的數(shù)量;業(yè)已存在的創(chuàng)造性產(chǎn)品所獲得的評價以及自述創(chuàng)造力成就清單(Wang,Ho,Cheng,& Cheng,2014)。自述創(chuàng)造力成就清單是創(chuàng)造力成就測驗的主流,經(jīng)常被使用的測驗包括：Hocevar (1979)的創(chuàng)造力行為清單(Creative Behavior Inventory,CBI);Ludwig(1992)的創(chuàng)造力成就量表(Creative Achievement Scale,CAS);Carson等人(2005)的創(chuàng)造力成就問卷(Creative Achievement Questionnaire,CAQ);Batey和 Furnham(2008)的創(chuàng)造力行為傳記清單(Biographical Inventory of Creative Behaviours,BICB)等等。Silvia等人(2012)對廣泛使用的創(chuàng)造力成就問卷(CAQ)、創(chuàng)造力行為清單(CBI)等創(chuàng)造力成就測驗的可信度進行了分析,他們采用經(jīng)典測驗理論和項目反應理論系統(tǒng)考察了其項目水平和測驗水平,結(jié)果發(fā)現(xiàn)這些成就自評量表不僅在測量指標上表現(xiàn)較好,幾種量表之間還維持了很好的共變關系。另根據(jù)Wang等人(2014)對現(xiàn)有自述創(chuàng)造力成就清單應用情況的調(diào)查報告,Carson等人(2005)的創(chuàng)造力成就問卷(CAQ)由于囊括了藝術和科學領域10個大類的成就自評而得到了最為廣泛的應用。

自述創(chuàng)造力成就清單采取主觀自評的形式,然而,這種形式本身可能帶來一些問題,其中最為重要的是共同方法變異問題(common method variance)。共同方法變異指的是,實驗結(jié)果來源于測量方法而非測量方法所表征的結(jié)構(gòu)(Podsakoff, MacKenzie,Lee,&Podsakoff,2003)。 Ng和Feldman(2012)指出,當采取主觀自評的方式測量創(chuàng)造力和與創(chuàng)造力相關的變量時,共同方法變異問題極易產(chǎn)生。具體表現(xiàn)為,當對創(chuàng)造力和其他變量進行相關分析時,共同方法變異會導致兩個變量間產(chǎn)生虛高的相關,從而極易誘使研究者出現(xiàn)棄真錯誤。出現(xiàn)這類問題的原因在于,第一：被試會傾向于在一系列主觀評價任務中保持認知層面和態(tài)度層面的一致性,這會導致變量間相關被人為增高;第二：從內(nèi)隱理論角度出發(fā),被試可能會認為接受的一系列測驗存在一定程度上的共變;第三：被試可能出于社會贊許效應故意夸大其創(chuàng)造力水平,特別當主觀自評創(chuàng)造力應用于高風險情境中,例如：招聘、決策等,被試更有可能“裝好人(Faking good)”(Silvia et al.,2012);第四,被試的情緒可能會連續(xù)影響其在一系列測驗中的態(tài)度,導致被試在多項測驗中采取相同回答策略。Kaufman,Evans和Baer(2010)的研究就發(fā)現(xiàn),學生自評創(chuàng)造力水平和其真實創(chuàng)造力表現(xiàn)毫無關聯(lián)。

為說明共同方法變異在主觀創(chuàng)造力測量中可能帶來的影響,Ng和Feldman(2012)系統(tǒng)比較了主觀自評創(chuàng)造力測驗與非主觀評定創(chuàng)造力測驗以及情緒、人格等多個變量之間的關系。結(jié)果發(fā)現(xiàn),主觀自評測驗的確比非主觀自評測驗產(chǎn)生更大的共同變異效應;不過,當變量為“客觀自評”,即要求被試自評其過往生活史等客觀事件時,該變量與創(chuàng)造力間的共同方法變異效應較小;研究還發(fā)現(xiàn),積極情緒和主觀自評創(chuàng)造力不會出現(xiàn)虛高的相關。這提醒研究者一方面在運用自述創(chuàng)造力成就清單對創(chuàng)造測量時需要合理評估可能出現(xiàn)的誤差,另一方面可以采取其他方法減小這種誤差的出現(xiàn)。例如：同時匯報主觀自評創(chuàng)造力和非主觀自評創(chuàng)造力;分時段對創(chuàng)造力和其他相關變量進行測量等等。可以說,通過合理利用測驗和匯報必要測量指標,創(chuàng)造力成就測驗普遍存在的共同方法變異問題能夠得到妥善解決。

除此之外,研究者在應用創(chuàng)造力成就測驗時還應注意：首先,根據(jù)實驗目的妥善選取恰當?shù)膭?chuàng)造力成就測驗,有些創(chuàng)造力成就測驗為領域一般性,例如：創(chuàng)造力行為清單(CBI),創(chuàng)造力行為傳記清單(BICB);而有些測驗為領域特殊性,例如：創(chuàng)造力成就問卷(CAQ)。一些測驗著重考察較高水平或顯著人群的創(chuàng)造力成就,有研究者稱之為Pro–C或Big–C創(chuàng)造力(Kaufman&Beghetto, 2009),例如：創(chuàng)造力成就問卷(CAQ);而另一些測驗著重于考察一般水平或普通人群的創(chuàng)造力,即little–c創(chuàng)造力,例如：創(chuàng)造力行為清單(CBI),創(chuàng)造力行為傳記清單(BICB)。其次,由于該類測驗往往產(chǎn)生分類或計數(shù)數(shù)據(jù),這極易導致數(shù)據(jù)整體成正偏態(tài)分布,因此研究者在處理該類數(shù)據(jù)時需要首先借助統(tǒng)計方法實現(xiàn)其正態(tài)化(Silvia et al., 2012)。

5 同感評估技術

同感評估技術(consensual assessment technique),是當前創(chuàng)造力測量領域中最主要的評分技術。其基本理論假設是：某領域內(nèi)的專家對該領域創(chuàng)造力評估存在一種共識。因此,當評價某產(chǎn)品的創(chuàng)造力水平時,只需要借助該領域?qū)＜覙I(yè)已形成的標準對產(chǎn)品進行評定即可。與創(chuàng)造力成就測驗大多采用自評不同,同感評估技術本質(zhì)上為專家評價法。該技術與之對應的基本要求為：第一,測驗評定者需為該領域?qū)＜?第二,評定者依靠其對創(chuàng)造力的內(nèi)隱態(tài)度對產(chǎn)品進行評判;第三,評定者應獨立對產(chǎn)品進行評估(Amabile,1982)。研究發(fā)現(xiàn),同感評估技術不僅適用于實驗室環(huán)境中的即時創(chuàng)造性產(chǎn)品,同時也適用于業(yè)已存在的準實驗產(chǎn)品(Baer,Kaufman,&Gentile,2004)。由于適用于多種創(chuàng)造性產(chǎn)品的評價且具備良好的信、效度指標,同感評估技術得到了廣泛應用。有研究表明,在西方5種創(chuàng)造力主流學術期刊中,約1/4的創(chuàng)造力測量方法采取了同感評估技術或類似的專家評價方法(Long,2014),我國也不乏介紹并應用該技術的研究(宋曉輝,施建農(nóng),2005)。

但也有一些研究者提出異議,他們認為該技術應用成本過高(必須采用專家進行評定);過程繁復(專家必須分別對每個項目進行評定),評價耗時(Kaufman,Baer,Cole,&Sexton,2008)。因此,有研究者希望可以用非專家代替專家實施同感評估技術。然而有研究表明,盡管非專家在特定類型的研究或產(chǎn)品的評定中可以勝任,但他們表現(xiàn)并不穩(wěn)定,和專家間的評價差異很大(Kaufman& Baer,2012)。例如：Kaufman等人(2008)的研究表明,當非專家采用同感評估技術時,其評分者一致性系數(shù)很低,且評價結(jié)果和專家評定結(jié)果差異很大。為改進這一問題,Cropley和Kaufman(2012)編制了創(chuàng)造性解決方案診斷量表(creative solution diagnosis scale)。該量表包括30個項目,每一個項目對應一個評價維度,要求評定者根據(jù)項目對該產(chǎn)品在該維度上的水平進行打分。他們的研究發(fā)現(xiàn),當施用該量表對產(chǎn)品創(chuàng)造性水平進行評價時,即使評定者為非專家,評價結(jié)果仍具備較高的內(nèi)部一致性系數(shù)。但值得注意的問題是,在使用該量表時,評定者的評價標準實際上直接受到了該量表明確、外顯標準的引導,這與Amabile (1982)強調(diào)評定者個體憑借內(nèi)隱態(tài)度進行評判的理念已經(jīng)背道而馳,與基本理論要求形成矛盾。

同感評估技術的一個突破性貢獻在于其巧妙地解決了創(chuàng)造性產(chǎn)品的標準問題。在同感評估技術提出之前,研究者始終無法在創(chuàng)造性產(chǎn)品的標準上達成共識。雖然研究者普遍認同創(chuàng)造力應具備“新穎性”和“適宜性”,但各領域創(chuàng)造性產(chǎn)品仍然具備不同的標準,特別當標準在跨領域的具體情境中時,我們無法認定某個領域的標準就適用于另一個領域的標準。同感評估技術提出直接采用該領域?qū)＜覍υ摦a(chǎn)品進行評定,因為只有該領域的專家才清楚怎樣的產(chǎn)品是具有創(chuàng)造性的(Plucker&Makel,2010)。不難發(fā)現(xiàn),同感評估技術實際上回避了對于創(chuàng)造力普適性標準的討論,即不同領域的標準無需互相比較,該領域的專家才有實際的發(fā)言權(quán)。然而這在一定程度上引入了一種混亂,即忽視了評定者可能對測驗結(jié)果帶來的不良變異。有研究者稱之為評定者效應(rater effects)(Wolfe,2004),評定者效應體現(xiàn)在兩個層面,表層效應為評定者給出的原始分數(shù),潛層效應為評定者的思維過程和評定認知,這兩個層面的效應共同作用最終可能影響測驗的信、效度(Wolfe&McVay,2012)。

盡管同感評估技術會在研究中采用科隆巴赫alpha系數(shù)報告其評分者一致性信度,以說明評定者打分的可靠性,然而相關系數(shù)高并不意味著評分者實際上采用了相同的標準,只能說明他們給出了類似的分數(shù),或者只是評定者數(shù)量較多帶來的虛假高相關。由于經(jīng)典測量理論將被試分數(shù)理解為真實分數(shù)和誤差的結(jié)合,所以評定者標準的高低等因素無法通過經(jīng)典測量理論進行估計(Stemler,2004)。為闡明評定者效應可能帶來的消極影響及其原因,Long和Pang(2015)結(jié)合定量研究與定性研究的優(yōu)勢,一方面采用概化理論(generalizability theory)技術明確評定者效應對數(shù)據(jù)可靠性帶來的影響;另一方面采取框架分析(framing analysis)技術進一步挖掘其原因。結(jié)果發(fā)現(xiàn)：量化研究顯示,當評定者數(shù)量較少時,概化系數(shù)和依存系數(shù)的指標均不能達到滿意水平;質(zhì)化研究進一步發(fā)現(xiàn),當評定者更強調(diào)知識在創(chuàng)造過程中的功能時,他們往往更關注創(chuàng)造性產(chǎn)品的適宜性且傾向于采用更嚴格的標準。Long(2014)的另一項定性研究也發(fā)現(xiàn),評定者不僅采取新穎性和適宜性標準對創(chuàng)造性產(chǎn)品進行評定,他們還會考慮被試的答案是否有思想,有趣味以及是否聰明。

評定者效應的根源在于評定者作為不同個體具備不同的心理特質(zhì),因此他們在各種情境中難以維持一致的評價標準。有研究發(fā)現(xiàn),評定者效應受到評定者背景、知識經(jīng)驗以及內(nèi)心準則(Bejar, 2012;Cumming,1990),甚至創(chuàng)造性產(chǎn)品作者的性別以及名字特殊性的影響(Lebuda&Karwowski, 2013);且當評價任務改變,評價標準就會發(fā)生變化(Long,2014);接受培訓后的評定者依然存在評定者效應(Hung,Chen,&Chen,2012)。Hempel和Sue-Chan(2010)還從東西方文化差異的角度考慮評定者可能帶來誤差,他們認為,即使東西方學者對創(chuàng)造力概念持有相同意見,但由于不同文化情境中主流價值觀存在巨大差異,該差異可能會直接決定東西方評定者具備不同的評價標準和評價體系,這將最終影響對產(chǎn)品創(chuàng)造性的判定。例如：相較于西方人,中國人在判定某個產(chǎn)品是否具備創(chuàng)造性時,傾向于看重其對社會的進步是否有推動作用(Rudowicz&Hui,1997)。

雖然研究者同時也認為,如果評定者接受恰當培訓,測驗包含明確定義的評價體系,評價者效應能得到有效控制(Long&Pang,2015)。然而,這與同感評估技術的基本精神存在一定矛盾。如果評定者接受了培訓的外在標準,那么評定者也就不再是憑借創(chuàng)造力的內(nèi)隱態(tài)度進行評判。理論的基本要求和應用的客觀限制之間該如何權(quán)衡,或許是同感評估技術下一個需要解決的問題。

6 展望

6.1 基本概念問題

通過分析前文介紹的幾種主流創(chuàng)造力測驗技術,不難發(fā)現(xiàn)它們在創(chuàng)造力概念上具有不同的內(nèi)涵。例如：發(fā)散思維測驗認為創(chuàng)造力就是多角度解決問題的能力;頓悟類測驗側(cè)重于創(chuàng)造力無意識頓悟的一面;創(chuàng)造力成就測驗則更看重個體現(xiàn)實中的創(chuàng)造性實踐和成果。由于測量方式直接依賴于概念,這極易導致：由于基本概念不同,有大量碎片化的創(chuàng)造力測驗被提出,測驗之間聚合效度低下,因此缺乏互相比較的基礎。例如：Mishra和Henriksen(2013)認為除了創(chuàng)造力的新穎性和有效性維度,還應當增加整體性(whole)維度,即相對于問題解決情境的審美標準,他們在此基礎上編制同時測量該三個維度的創(chuàng)造力測驗?？梢韵胂?如果某研究者的創(chuàng)造力概念不包含整體性維度,那么其測驗方法就會與Mishra和Henriksen (2013)的方法差異很大,這不僅導致測量方法之間無法互換使用,還會進一步導致測量結(jié)論難以直接互相印證,最終可能陷入各種測量方法雜亂不堪,研究結(jié)果相互矛盾的境地。有研究者就將這種現(xiàn)狀形容為：進入到Hennessey和Amabile稱之為“繁榮卻破碎”的研究階段(Corbalán, Martín-Brufau,Limi?ana,&García-Pe?as,2014)。破碎意味著諸多創(chuàng)造力測驗彼此分離,無法合力對創(chuàng)造力研究作出貢獻。已有很多研究者指責創(chuàng)造力研究領域的許多矛盾結(jié)論源頭在于創(chuàng)造力測量手段的混亂(Dietrich&Kanso,2010;Lillard et al.,2013)。但實際上,混亂歸根結(jié)底可能還是在于研究者無法從根本上對創(chuàng)造力概念達成共識,這種缺乏共識從領域一般性創(chuàng)造力的核心特質(zhì)到不同領域創(chuàng)造力概念中都有體現(xiàn)。雖然本文開篇提到,大部分研究者認同創(chuàng)造力定義的核心標準是具備“新穎性”和“適宜性”,但仔細分析,其中仍有較大分歧,特別是適宜性維度。例如：適宜性可能從社會環(huán)境角度被理解為“有道德或社會價值”(Forgeard&Mecklenburg,2013);也能從問題解決的角度被理解為“有效或有用”(Sternberg& Lubart,1996)。如果從前者出發(fā),創(chuàng)造力應當只包括具有積極社會意義的想法和行為,但如果從后者出發(fā),創(chuàng)造力同樣也可以是一些“為我所用”的惡意行徑,如近幾年涌現(xiàn)的惡意創(chuàng)造力(malevolent creativity)研究就主要探究具備負性社會價值的創(chuàng)造性行為(Harris,Reiter-Palmon,&Kaufman,2013)。

因此,為解決這一問題,有研究者指出應追根溯源,從定義角度規(guī)范創(chuàng)造力理論,并在此基礎上統(tǒng)一創(chuàng)造力測量方法(Batey,2012)。Treffinge, Renzulli和Feldhusen(1971)也曾指出,創(chuàng)造力測量的困難很大程度上來自于我們無法對創(chuàng)造力概念形成“理論統(tǒng)一(theoretical unity)”。在某一學科研究領域,實現(xiàn)完全的理論統(tǒng)一或許是不可能同時也是沒有必要的。在一定概念框架的基礎上,通過不斷運用創(chuàng)造力測驗,并積極向創(chuàng)造力概念進行反饋,令學術界對創(chuàng)造力的核心特質(zhì)及各領域內(nèi)的基本概念達成真正共識,或許才是解決創(chuàng)造力測量混亂局面的根本途徑。如上文所述,研究者現(xiàn)已普遍認同創(chuàng)造力概念既包括發(fā)散思維,也包括聚合思維,過去發(fā)散思維測驗就能完全表征創(chuàng)造力的觀念被徹底摒棄。研究者現(xiàn)今往往在一項創(chuàng)造力研究中選取多種創(chuàng)造力測驗,以避免方法上的片面,這無疑是研究者在創(chuàng)造力基本概念日益形成共識的基礎上,進一步于測驗定位和選取上獲得的進步。借助此類測驗運用的推進,反過來會有助于研究者對創(chuàng)造力概念進一步達成共識。通過這種概念到測驗,測驗再回到概念且不斷循環(huán)上升的研究邏輯,最終將有助于理清當前創(chuàng)造力測驗領域紛亂的現(xiàn)狀。

6.2 測驗優(yōu)化問題

如前文所述,創(chuàng)造力測驗的一些基本的心理學測量指標仍然飽受批評。例如：發(fā)散思維測驗的信、效度問題;遠距離聯(lián)想測驗的效度問題等等。因此不斷從測驗內(nèi)容、施測過程等方面推進創(chuàng)造力測驗的優(yōu)化工作是當務之急。從測驗內(nèi)容看,研究者需通過對創(chuàng)造力測驗的不斷應用和改進提高創(chuàng)造力測驗的信、效度水平,體現(xiàn)心理測驗的科學性。例如：當采取主觀計分方法測量創(chuàng)造力時,要求被試在2～3分鐘左右完成一道測驗時其新穎性分數(shù)效度最好,時間無需過長,因為即使時間繼續(xù)延長,被試答案的信、效度也沒有顯著提高(Benedek,et al.,2013),同時,時間也不宜過短,因為被試傾向于在創(chuàng)造力測驗的后期表現(xiàn)更好(Beaty&Silvia,2012);又如：Silvia(2011)的研究發(fā)現(xiàn),作為發(fā)散思維測驗經(jīng)常使用的三種測驗形式：靈活使用任務、舉例任務以及結(jié)果任務在信度上有較大差異,彼此并不能互相替代; Gupta,Jang,Mednick和Huber(2012)建議在遠距離聯(lián)想測驗中避免使用高詞頻答案的題目等等。

從施測過程看,傳統(tǒng)創(chuàng)造力測驗時間大多較長,耗時費力;施測采用紙筆測驗的形式,測驗的信息需要通過轉(zhuǎn)錄到電腦中才能進行處理,后期工序十分繁復,增加了諸多主觀不確定因素。因此,一方面,傳統(tǒng)測驗的精簡化在有條不紊的開展中,且收到了良好效果(Althuizen,Wierenga, &Rossiter,2010);另一方面,隨著電子信息技術的發(fā)展,越來越多的研究者試圖在電腦上完成對創(chuàng)造力的測量,以提高創(chuàng)造力測驗的標準化和客觀化(Diener,Wright,Smith,&Wright,2014;Hass, 2015;Kwon,Goetz,&Zellner,1998)。Lau和Cheung (2010)就比較了電子版和紙筆版Wallach-Kogan創(chuàng)造力測驗的不同,結(jié)果發(fā)現(xiàn)電子版和紙筆版測驗都展現(xiàn)出相似水平的信度。不僅如此,多元方差分析還顯示電子版和紙筆版在各項分測驗上均無顯著得分差異。雖然同時有研究表明電子版和紙筆版測驗在某些方面并不相同,特別當該創(chuàng)造力測驗中要求被試進行畫圖等操作時,其在電子版創(chuàng)造力測驗中的表現(xiàn)要比紙筆版更差(Diener et al.,2014;Kwon et al.,1998),但原因可能在于在電腦中操作鼠標進行畫圖比紙筆畫圖更難操作,與之類似的發(fā)現(xiàn)還有,Hass(2015)的研究表明,電子版創(chuàng)造力測驗不會導致被試答案的創(chuàng)新性減少,但會在一定程度上降低其答案的流暢性。雖然創(chuàng)造力電子版測驗尚不成熟,但其在測驗標準化和客觀化,計分自動化以及建立創(chuàng)造力測驗常模大數(shù)據(jù)(big-data)等方面具有不可忽視的潛力。因此,創(chuàng)造力測驗的電子化取向有很大上升空間,未來應在此方向努力。

總而言之,創(chuàng)造力測驗需要通過不斷地優(yōu)化和完善,才能真正成為科學可靠的測量工具,從而為創(chuàng)造力研究提供堅強助力。

6.3 測驗運用問題

創(chuàng)造力測驗數(shù)量龐大,種類繁雜,測驗如何運用同樣是難點問題。根據(jù)研究現(xiàn)狀,首先,研究者在應用測驗時宜采取混合測驗的策略?；旌蠝y驗即在運用創(chuàng)造力測驗時,至少選取兩種或兩種以上的測驗方式,且測驗來自不同角度。主要原因在于：第一,從理論角度看,創(chuàng)造力絕非某種人格特質(zhì),某類思維習慣或某處環(huán)境單獨決定的。眾多心理學家都持有類似觀點：Amabile(1982)提出,創(chuàng)造性問題解決是在任務、動機、領域相關知識和能力、與創(chuàng)造力有關的技能共同作用的條件下達成的;Plucker和Renzulli(1999)曾提出創(chuàng)造性產(chǎn)品的內(nèi)隱理論(implict theory),他們認為個體具備某種認知或人格結(jié)構(gòu),二者互相結(jié)合才能產(chǎn)生創(chuàng)造性產(chǎn)品;Csikszentmihalyi(1999)的系統(tǒng)理論(system theory)也認為,創(chuàng)造力來源于個體、場,以及領域的交互作用;Sternberg和Lubart (1992)認為,創(chuàng)造力包括6個要素：智力、知識、思考方式、人格、動機以及環(huán)境。因此,創(chuàng)造力基本理論不支持應用單一的測量技術。第二,從現(xiàn)實角度看,據(jù)上文所述,一方面,目前尚存在多種創(chuàng)造力概念,因此創(chuàng)造力測量決不能僅僅使用某一種,采取多種測驗同時施測是較為穩(wěn)妥的策略(Cropley,2000)。另一方面,當今流行的各種測驗形式和計分方式各有其利弊,唯有結(jié)合運用才能揚長避短。

當前,較好的混合測驗策略是選取恰當?shù)亩嘟嵌葴y驗,并且確保幾類測驗都有一定程度的重合且能夠分別測量創(chuàng)造力的不同方面(Pinheiro& Cruz,2014);或者采用囊括創(chuàng)造力多角度品質(zhì)的測驗,例如：Sen,Acar和Cetinkaya(2014)認為,創(chuàng)造性活動中的個體和環(huán)境從來就不是孤立存在的,據(jù)此他們編制了個人環(huán)境適應量表(Person-Environment Fit Scale,PEFSC),從個體和環(huán)境兩個角度同時測量創(chuàng)造力。

除此之外,從推進創(chuàng)造力測驗發(fā)展的角度看,一些過往研究中針對某測驗的爭議問題還應當通過有意識的運用該測驗加以解決和驗證。例如：研究者可以嘗試在較長的縱向時間內(nèi)對不同群體施測遠距離聯(lián)想測驗,并在恰當?shù)臅r間節(jié)點選取多類效標,從而為該測驗類型的有效性提供有力說明。如果缺乏主動的驗證,由于絕大多數(shù)的創(chuàng)造力測驗在應用時只是為其他研究目標服務,因此即使某測驗在研究中獲得了廣泛的應用,研究者也可能無法獲取有關該測驗的重要信息。特別是測驗的有效性往往還存在中西方差異,本土化的創(chuàng)造力測驗更需要此類基礎性工作。一些國外研究者在這些方面做出了很好的嘗試(Runco et al., 2010;Silvia et al.,2012),這值得國內(nèi)研究者借鑒。

6.4 測量技術多樣化

雖然正如前文多次提及,創(chuàng)造力測量技術數(shù)量巨大,然而當前應用最廣的測量技術仍然是幾十年前提出的諸如：發(fā)散思維測驗、遠距離聯(lián)想測驗以及同感評估技術等等。這些經(jīng)典測量技術固然有其優(yōu)勢,但亦有諸如：獨特性維度計分問題、評分者效應等頑疾。因此除了對原有測量技術的改進,創(chuàng)造力測量領域依然需要新想法和新突破,這就要求研究者持續(xù)推進創(chuàng)造力測量技術的多樣化發(fā)展,以求從根本上解決問題。

近幾年,研究者開始從語義網(wǎng)絡角度測量創(chuàng)造力(Bossomaier,Harré,Knittel,&Snyder,2009; Prabhakaran et al.,2014),或改進創(chuàng)造力計分方法(Wang,Chang,&Li,2008)。Harbison和Haarmann (2014)就從語義表征角度提出了稱之為“自動化計分”(automated scoring)技術對發(fā)散思維測驗中的特殊性水平進行打分。根據(jù)過往研究,個體在行為中采用的語義表征模式能夠?qū)σ幌盗腥祟愋袨槠鸬筋A測作用。因此,他們借助潛在語義分析和共同逐點信息(pointwise-mutual information)技術對被試的答案和題目之間的語義相似度(similarity)進行分析。結(jié)果發(fā)現(xiàn),相似度越高,被試答案的新穎度越低。據(jù)此,他們提出語義相似度可以作為答案新穎性的有效預測指標。由于潛在語義分析等技術采取的是大數(shù)據(jù)支持下的客觀計算(網(wǎng)頁版測評可見http://lsa.colorado.edu/),因此通過應用該類技術,上文提到主觀評價法可能帶來的評定者效能在一定程度上避免。用客觀化的新指標表征原有的獨特性維度,也可能有助于從徹底規(guī)避前文討論的獨特性維度計分問題。但這種方法是否合適,仍有待于進一步檢驗。

從認知神經(jīng)實驗的角度,Prabhakaran等(2014)還認為,傳統(tǒng)創(chuàng)造力測量手段并不適用于腦成像研究。傳統(tǒng)創(chuàng)造力腦成像技術研究過于依賴被試對任務的反應時或反應數(shù),無法準確捕捉到創(chuàng)造性思維的瞬間。為解決這一問題,他們基于語義網(wǎng)絡理論提出了便于進行腦成像研究的創(chuàng)造力單字發(fā)音(single-word utterances)測驗。即讓被試看到一個名詞,讓其口頭報告一個與該名詞有新穎聯(lián)系的動詞,并利用潛在語義分析技術(Latent Semantic Analysis)分析動詞與名詞的語詞距離,語義距離越大,創(chuàng)造性水平越高。他們的研究結(jié)果發(fā)現(xiàn),語義距離與言語、非言語創(chuàng)造力相關程度很高(β=0.50)。

除此之外,教育學領域提出了更具生態(tài)效度的創(chuàng)造力測量方法(Blamires&Peterson,2014);功能設計領域的創(chuàng)造力研究也為創(chuàng)造性產(chǎn)品測量提供了新的視角。如：Sarkar和Chakrabarti(2011)設計了客觀嚴格的模型和公式對創(chuàng)造力的新穎性和有效性進行計算,以得出對某產(chǎn)品創(chuàng)新水平的判斷。例如：新穎性指標=重要程度×受歡迎程度×使用頻率×使用持續(xù)時間或使用期間受益。Redelinghuys和Bahill(2006)從工程設計的角度將創(chuàng)造性產(chǎn)品理解為設計價值(design value),探究某一產(chǎn)品的價值則需要考察設計過程中的資源消耗和努力投入,他們通過 REV(resources-effortvalue)技術構(gòu)建數(shù)理模型,并將量化的資源、努力以及價值指標帶入演算,以求得創(chuàng)造力指數(shù)。這一系列成果提醒創(chuàng)造力測量領域研究者決不能閉門造車,從其他領域吸取靈感或許能給未來研究打開一片新天地。

李良敏,羅玲玲,劉武.(2015).客觀化創(chuàng)造力測量工具:《中文遠距聯(lián)想測驗》編制.東北大學學報(社會科學版),17(1),19–24.

羅俊龍,覃義貴,李文福,朱海雪,田燕,邱江,張慶林. (2012).創(chuàng)造發(fā)明中頓悟的原型啟發(fā)腦機制.心理科學進展,20(4),504–513.

沈汪兵,劉昌,張小將,陳亞林.(2011).三字字謎頓悟的時間進程和半球效應:一項ERP研究.心理學報,43(3), 229–240.

宋曉輝,施建農(nóng).(2005).創(chuàng)造力測量手段——同感評估技術(CAT)簡介.心理科學進展,13(6),739–744.

王燁,余榮軍,周曉林.(2005).創(chuàng)造性研究的有效工具——遠距離聯(lián)想測驗(RAT).心理科學進展,13(6),734–738.

Aiello,D.A.,Jarosz,A.F.,Cushen,P.J.,&Wiley,J.(2012). Firing the executive:When an analytic approach to problem solving helps and hurts.The Journal of Problem Solving, 4(2),116–127.

Althuizen,N.,Wierenga,B.,&Rossiter,J.(2010).The validity oftwo briefmeasures ofcreative ability.Creativity Research Journal,22(1),53–61.

Amabile,T.M.(1982).Social psychology of creativity:A consensual assessment technique.Journal of Personality and Social Psychology,43,997–1013.

Amabile,T.M.,Conti,R.,Coon,H.,Lazenby,J.,&Herron, M.(1996).Assessing the work environment for creativity.Academy of Management Journal,39(5),1154–1184.

Ayas,M.B.,&Sak,U.(2014).Objective measure of scientific creativity:Psychometric validity of the Creative Scientific Ability Test.Thinking Skills and Creativity,13,195–205.

Baer,J.(2011).How divergent thinking tests mislead us:Are the Torrance Tests still relevant in the 21st century?The Division 10 debate.Psychology of Aesthetics,Creativity, and the Arts,5(4),309–313.

Baer,J.,Kaufman,J.C.,&Gentile,C.A.(2004).Extension of the consensual assessment technique to nonparallel creative products.Creativity Research Journal,16(1),113–117.

Batey,M.(2012).The measurement of creativity:From definitionalconsensus to the introduction ofa new heuristic framework.Creativity Research Journal,24(1), 55–65.

Batey,M.,&Furnham,A.(2008).The relationship between measures of creativity and schizotypy.Personality and Individual Differences,45(8),816–821.

Beaty,R.E.,Nusbaum,E.C.,&Silvia,P.J.(2014).Does insight problem solving predict real–world creativity?.Psychology of Aesthetics,Creativity,and the Arts,8(3), 287–292.

Beaty,R.E.,&Silvia,P.J.(2012).Why do ideas get more creative across time?An executive interpretation of the serial order effect in divergent thinking tasks.Psychology of Aesthetics,Creativity,and the Arts,6(4),309–319.

Beaty,R.E.,Smeekens,B.A.,Silvia,P.J.,Hodges,D.A.,& Kane,M.J.(2013).A first look at the role of domaingeneral cognitive and creative abilities in jazz improvisation.Psychomusicology:Music,Mind,and Brain,23(4),262–268.

Bejar,I.I.(2012).Rater cognition:Implications for validity.Educational Measurement:Issues and Practice,31(3),2–9.

Benedek,M.,K?nen,T.,&Neubauer,A.C.(2012).Associative abilities underlying creativity.Psychology of Aesthetics, Creativity,and the Arts,6(3),273–281.

Benedek,M.,Mühlmann,C.,Jauk,E.,&Neubauer,A.C. (2013).Assessment of divergent thinking by means of the subjective top–scoring method:Effects of the number of top–ideas and time–on–task on reliability and validity.Psychology of Aesthetics,Creativity,and the Arts,7(4), 341–349.

Besemer,S.P.,&O'Quin,K.(1987).Creative product analysis: Testing a model by developing a judging instrument.In S. G.Isaksen(Ed.),Frontiers of creativity research:Beyond the basics(pp.367–389).Buffalo,NY:Bearly.

Blamires,M.,&Peterson,A.(2014).Can creativity be assessed?Towards an evidence–informed framework for assessing and planning progress in creativity.Cambridge Journal of Education,44(2),147–162.

Bossomaier,T.,Harré,M.,Knittel,A.,&Snyder,A.(2009). A semantic network approach to the creativity quotient (CQ).Creativity Research Journal,21(1),64–71.

Carson,S.H.,Peterson,J.B.,&Higgins,D.M.(2005). Reliability,validity,and factor structure of the creative achievement questionnaire.Creativity Research Journal, 17(1),37–50.

Charyton,C.,&Merrill,J.A.(2009).Assessing general creativity and creative engineering design in first year engineering students.Journal of Engineering Education, 98(2),145–156.

Chermahini,S.A.,Hickendorff,M.,&Hommel,B.(2012). Development and validity of a Dutch version of the Remote Associates Task:An item–response theory approach.Thinking Skills and Creativity,7(3),177–186.

Chou,H.W.,Chen,Y.L.,&Chou,S.B.(2014).A method for evaluating the creativity of comic strips.Thinking Skills and Creativity,14,11–19.

Clapham,M.M.,Cowdery,E.M.,King,K.E.,&Montang, M.A.(2005).Predicting work activities with divergent thinking tests:A longitudinalstudy.TheJournalof Creative Behavior,39(3),149–166.

Clark,P.M.,&Mirels,H.L.(1970).Fluency as a pervasive element in the measurement of creativity.Journal of Educational Measurement,7(2),83–86.

Colangelo,N.,Kerr,B.,Hallowell,K.,Huesman,R.,& Gaeth,J.(1992).The Iowa InventivenessInventory: Toward a measure of mechanical inventiveness.Creativity Research Journal,5(2),157–163.

Corbalán,J.,Martín-Brufau,R.,Limi?ana,R.,&García-Pe?as,V.(2014).CREA.10 years in response to the question: Is it really possible to measure creativity?.(Abstract).Personality and Individual Differences,60,S29.

Cropley,A.J.(2000).Defining and measuring creativity:Are creativity tests worth using?.Roeper Review,23(2),72–79.

Cropley,D.H.,& Kaufman,J.C.(2012).Measuring functional creativity:Non–expert raters and the creative solution diagnosis scale.The Journal of Creative Behavior, 46(2),119–137.

Csikszentmihalyi,M.(1999).Implications of a systems perspective for the study of creativity.In R.J.Sternberg (Ed.),Handbook of creativity(pp.313–335).Cambridge, UK:Cambridge University Press.

Cumming,A.(1990).Expertise in evaluating second language compositions.Language Testing,7(1),31–51.

DeYoung,C.G.,Flanders,J.L.,&Peterson,J.B.(2008). Cognitive abilities involved in insight problem solving: An individualdifferencesmodel.CreativityResearch Journal,20(3),278–290.

Diener,M.L.,Wright,C.A.,Smith,K.N.,&Wright,S.D. (2014).Assessing Visual–spatial creativity in youth on the autism spectrum.Creativity Research Journal,26(3),328–337.

Dietrich,A.,&Kanso,R.(2010).A review of EEG,ERP, and neuroimaging studies of creativity and insight.Psychological Bulletin,136(5),822–848.

Domino,G.(1970).Identification of potentially creative persons from the Adjective Check List.Journalof Consulting and Clinical Psychology,35,48–51.

Duncker,K.(1945).On problem-solving.PsychologicalMonographs,58,5.

Fink,A.,Slamar-Halbedl,M.,Unterrainer,H.F.,&Weiss,E. M.(2012).Creativity:Genius,madness,or a combination of both?.Psychology of Aesthetics,Creativity,and the Arts, 6(1),11–18.

Fodor,E.M.(1999).Subclinical inclination toward manicdepression and creativeperformanceon theRemote Associates Test.Personality and Individual Differences, 27(6),1273–1283.

Forgeard,M.J.C.,&Mecklenburg,A.C.(2013).The two dimensions of motivation and a reciprocal model of the creative process.Review of General Psychology,17(3), 255–266.

Gilhooly,K.J.,&Murphy,P.(2005).Differentiating insight from non-insight problems.Thinking&Reasoning,11(3), 279–302.

Gough,H.G.(1979).A creative personality scale for the Adjective Check List.Journal of Personality and Social Psychology,37(8),1398–1405.

Guilford,J.P.(1967).Creativity:Yesterday,today and tomorrow.The Journal of Creative Behavior,1(1),3–14.

Gupta,N.,Jang,Y.,Mednick,S.C.,&Huber,D.E.(2012). The road not taken:Creative solutions require avoidance of high-frequency responses.Psychological Science,23(3), 288–294.

Harbison,J.I.,&Haarmann,H.(2014).Automated scoring of originality using semantic representations.Proceedings of COGSCI,2327–2332.

Harris,D.J.,Reiter-Palmon,R.,&Kaufman,J.C.(2013). The effect of emotional intelligence and task type on malevolent creativity.Psychology of Aesthetics,Creativity, and the Arts,7(3),237–244.

Hass,R.W.(2015).Feasibility of online divergent thinking assessment.Computers in Human Behavior,46,85–93.

Hempel,P.S.,&Sue-Chan,C.(2010).Culture and the assessment of creativity.Management and Organization Review,6(3),415–435.

Hocevar,D.(1979,April).The Development of the creative behavior inventory(CBI).Annual Meeting of the Rocky Mountain Psychological Association.

Hong,E.,Milgram,R.M.,&Gorsky,H.(1995).Original thinking as a predictor of creative performance in young children.Roeper Review,18(2),147–149.

Hung,S.P.,Chen,P.H.,&Chen,H.C.(2012).Improving creativity performance assessment:A rater effect examination with many facet Rasch model.Creativity Research Journal, 24(4),345–357.

Hürsen,?.,Kaplan,A.,& ?zdal,H.(2014).Assessment of creative thinking studies in terms of content analysis.Procedia–Social and Behavioral Sciences,143,1177–1185.

Kaufman,J.C.,& Baer,J.(2012).Beyond new and appropriate:Who decides what is creative?.CreativityResearch Journal,24(1),83–91.

Kaufman,J.C.,Baer,J.,Cole,J.C.,&Sexton,J.D.(2008). A comparison of expert and nonexpert raters using the consensualassessmenttechnique.CreativityResearch Journal,20(2),171–178.

Kaufman,J.C.,&Beghetto,R.A.(2009).Beyond big and little:The four c model of creativity.Review of General Psychology,13(1),1–12.

Kaufman,J.C.,Evans,M.L.,&Baer,J.(2010).The American idol effect:Are students good judges of their creativity across domains?.Empirical Studies of the Arts, 28(1),3–17.

Kaufman,J.C.,Plucker,J.A.,&Baer,J.(Eds.).(2008).Essentials of creativity assessment.Hoboken,NJ:Wiley.

Kim,K.H.(2008).Meta-analyses of the relationship of creative achievement to both IQ and divergent thinking test scores.The Journal of Creative Behavior,42(2),106–130.

Kim,K.H.(2011).Proven reliability and validity of the Torrance Tests of Creative Thinking(TTCT).Psychology of Aesthetics,Creativity,and the Arts,5(4),314–315.

Kirton,M.(1976).Adaptors and innovators:A description and measure.Journal of Applied Psychology,61(5),622–629.

Kwon,M.,Goetz,E.T.,&Zellner,R.D.(1998).Developing a computer–based TTCT:Promises and problems.The Journal of Creative Behavior,32(2),96–106.

Lau,S.,&Cheung,P.C.(2010).Creativity assessment: Comparability of the electronic and paper–and–pencil versions of the Wallach–Kogan Creativity Tests.Thinking Skills and Creativity,5(3),101–107.

Laughlin,P.R.,Doherty,M.A.,&Dunn,R.F.(1968). Intentional and incidental concept formation as a function of motivation,creativity,intelligence,and sex.Journal of Personality and Social Psychology,8,401–409.

Lebuda,I.,&Karwowski,M.(2013).Tell me your name and I'll tell you how creative your work is:Author's name and gender as factors influencing assessment of products' creativity in four different domains.Creativity Research Journal,25(1),137–142.

Lee,C.S.,Huggins,A.C.,&Therriault,D.J.(2014).A measure of creativity or intelligence?Examining internal and external structure validity evidence of the Remote Associates Test.Psychology of Aesthetics,Creativity,and the Arts,8(4),446–460.

Lee,C.S.,& Therriault,D.J.(2013).The cognitive underpinnings ofcreative thought:A latentvariable analysis exploring the roles of intelligence and working memory in three creative thinking processes.Intelligence, 41(5),306–320.

Lee,S.(2008).Commentary:Reliability and validity of uniqueness scoring in creativity assessment.Psychology of Aesthetics,Creativity,and the Arts,2(2),103–108.

Leon,S.A.,Altmann,L.J.P.,Abrams,L.,Gonzalez Rothi,L. J.,&Heilman,K.M.(2014).Divergent task performance in older adults:Declarative memory or creative potential?.Creativity Research Journal,26(1),21–29.

Lillard,A.S.,Lerner,M.D.,Hopkins,E.J.,Dore,R.A., Smith,E.D.,&Palmquist,C.M.(2013).The impact of pretend play on children’s development:A review of the evidence.Psychological Bulletin,139(1),1–34.

Long,H.Y.(2014).More than appropriateness and novelty: Judges’criteria of assessing creative products in science tasks.Thinking Skills and Creativity,13,183–194.

Long,H.Y.,&Pang,W.G.(2015).Rater effects in creativity assessment:A mixed methodsinvestigation.Thinking Skills and Creativity,15,13–25.

Ludwig,A.M.(1992).The creative achievement scale.Creativity Research Journal,5(2),109–119.

Mednick,S.(1962).The associative basis of the creative process.Psychological Review,69(3),220–232.

Mishra,P.,&Henriksen,D.(2013).A new approach to defining and measuring creativity:Rethinking technology &creativity in the 21st century.TechTrends,57(5),10–13.

Ng,T.W.H.,&Feldman,D.C.(2012).A comparison of self–ratings and non–self–report measures of employee creativity.Human Relations,65(8),1021–1047.

Nusbaum,E.C.,&Silvia,P.J.(2011).Are intelligence and creativity really so different?: Fluid intelligence, executive processes,and strategy use in divergent thinking.Intelligence,39(1),36–45.

Paprika,Z.Z.,&Nagy,V.(2012).Assessment of creativity on the job market.Procedia Economics and Finance,3, 166–181.

Pinheiro,I.R.,&Cruz,R.M.(2014).Mapping creativity: Creativity measurements network analysis.Creativity Research Journal,26(3),263–275.

Plucker,J.A.,&Makel,M.C.(2010).Assessment of creativity.In J.C.Kaufman&R.J.Sternberg(Eds.),The Cambridge handbook of creativity(pp.48–73).New York: Cambridge University Press.

Plucker,J.A.,& Renzulli,J.S.(1999).Psycometric approaches to the study of human creativity.In R.J. Sternberg (Ed.),Handbookofcreativity(pp.35–61). Cambridge,UK:Cambridge University Press.

Plucker,J.A.,Qian,M.H.,&Wang,S.J.(2011).Is originality in the eye of the beholder?Comparison of scoring techniques in the assessment of divergent thinking.The Journal of Creative Behavior,45(1),1–22.

Podsakoff,P.M.,MacKenzie,S.B.,Lee,J.Y.,&Podsakoff, N.P.(2003).Common method biases in behavioral research: A critical review of the literature and recommended remedies.Journal of Applied Psychology,88(5),879–903.

Prabhakaran,R.,Green,A.E.,&Gray,J.R.(2014).Thin slices of creativity:Using single–word utterances to assess creative cognition.Behavior Research Methods,46(3), 641–659.

Pretz,J.E.,&McCollum,V.A.(2014).Self–perceptions of creativity do not always reflect actual creative performance.Psychology of Aesthetics,Creativity,and the Arts,8(2), 227–236.

Primi,R.(2014).Divergentproductionsofmetaphors: Combining many–facet Rasch measurement and cognitive psychology in the assessment of creativity.Psychology of Aesthetics,Creativity,and the Arts,8(4),461–474.

Redelinghuys,C.,&Bahill,A.T.(2006).A framework for the assessment of the creativity of product design teams.Journal of Engineering Design,17(2),121–141.

Rudowicz,E.,&Hui,A.N.(1997).The creative personality: Hong Kong perspective.Journal of Social Behavior& Personality,12(1),139–157.

Runco,M.A.,&Acar,S.(2012).Divergent thinking as an indicator of creative potential.Creativity Research Journal, 24(1),66–75.

Runco,M.A.,Millar,G.,Acar,S.,&Cramond,B.(2010). Torrance tests ofcreative thinking as predictors of personal and public achievement:A fifty–year follow–up.Creativity Research Journal,22(4),361–368.

Sarkar,P.,& Chakrabarti,A.(2011).Assessing design creativity.Design Studies,32(4),348–383.

Sen,S.,Acar,S.,&Cetinkaya,C.(2014).Development of the Person–Environment Fit Scale(PEFSC):A new measure of creativity.Psychology of Aesthetics,Creativity,and the Arts,8(4),433–445.

Silvia,P.J.(2008).Creativity and intelligence revisited:A latent variable analysis of Wallach and Kogan(1965).Creativity Research Journal,20(1),34–39.

Silvia,P.J.(2011).Subjective scoring of divergent thinking: Examining the reliability of unusual uses,instances,and consequences tasks.Thinking Skills and Creativity,6(1), 24–30.

Silvia,P.J.,Martin,C.,&Nusbaum,E.C.(2009).A snapshot of creativity:Evaluating a quick and simple method for assessing divergent thinking.Thinking Skills and Creativity,4(2),79–85.

Silvia,P.J.,Nusbaum,E.C.,Berg,C.,Martin,C.,&O’Connor, A.(2009).Openness to experience,plasticity,and creativity: Exploring lower–order,high–order,and interactive effects.Journal of Research in Personality,43(6),1087–1090.

Silvia,P.J.,Wigert,B.,Reiter-Palmon,R.,&Kaufman,J.C. (2012).Assessing creativity with self–report scales:A review and empirical evaluation.Psychology of Aesthetics, Creativity,and the Arts,6(1),19–34.

Silvia,P.J.,Winterstein,B.P.,Willse,J.T.,Barona,C.M., Cram,J.T.,Hess,K.I.,… Richard,C.A.(2008). Assessing creativity with divergent thinking tasks:Exploring the reliability and validity of new subjective scoring methods.Psychology of Aesthetics,Creativity,and theArts,2(2),68–85.

Simonton,D.K.(2003).Expertise,competence,and creative ability:The perplexing complexities.In R.J.Sternberg& E.L.Grigorenko(Eds.),The psychology of abilities, competencies,and expertise(pp.213–239).New York: Cambridge University Press.

Stemler,S.E.(2004).A comparison of consensus,consistency, and measurementapproaches to estimating interrater reliability.Practical Assessment,Research&Evaluation, 9(4).Retrieved April 12,2015 from http://PAREonline. net/getvn.asp?v=9&n=4

Sternberg,R.J.,&Lubart,T.I.(1992).Creativity:Its nature and assessment.School Psychology International,13(3), 243–253.

Sternberg,R.J.,&Lubart,T.I.(1996).Investing in creativity.American Psychologist,51(7),677–688.

Storm,B.C.,Angello,G.,&Bjork,E.L.(2011).Thinking can cause forgetting:Memory dynamics in creative problem solving.Journal of Experimental Psychology:Learning, Memory,and Cognition,37(5),1287–1293.

Taft,R.,&Rossiter,J.R.(1967).The Remote Associates Test:Divergent or convergent thinking?Psychological Reports,19(3),1313–1314.

Tan,M.,Mourgues,C.,Bolden,D.S.,&Grigorenko,E.L. (2014).Makingnumberscometo life:Twoscoring methods for creativity in aurora's cartoon numbers.The Journal of Creative Behavior,48(1),25–43.

Torrance,E.P.(1972).Predictive validity of the Torrance tests of creative thinking.The Journal of Creative Behavior, 6(4),236–262.

Torrance,E.P.,&Goff,K.(1989).A quiet revolution.The Journal of Creative Behavior,23(2),136–145.

Treffinger,D.J.,Renzulli,J.S.,&Feldhusen,J.F.(1971). Problems in the assessment of creative thinking.The Journal of Creative Behavior,5(2),104–112.

Wang,C.C.,Ho,H.C.,Cheng,C.L.,&Cheng,Y.Y.(2014). Application of the Rasch Model to the measurement of creativity:The creative achievement questionnaire.Creativity Research Journal,26(1),62–71.

Wang,H.C.,Chang,C.Y.,&Li,T.Y.(2008).Assessing creative problem–solving with automated text grading.Computers&Education,51(4),1450–1466.

Wolfe,E.W.(2004).Identifying rater effects using latent trait models.Psychology Science,46(1),35–51.

Wolfe,E.W.,&McVay,A.(2012).Application of latent trait modelsto identifying substantively interesting raters.Educational Measurement:Issues and Practice,31(3),31–37. Zeng,L.,Proctor,R.W.,& Salvendy,G.(2011).Can traditional divergent thinking tests be trusted in measuring and predicting real–world creativity?.Creativity Research Journal,23(1),24–37.

Zeng,L.,Proctor,R.W.,&Salvendy,G.(2012).User–based assessment of website creativity:A review and appraisal.Behaviour&Information Technology,31(4),383–400.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放