羅照盛 郭小軍
(江西師范大學(xué)心理學(xué)院, 南昌 330022)
心理學(xué)實(shí)驗(yàn)首先必須保證結(jié)果的有效性和可靠性。實(shí)驗(yàn)信度指的是實(shí)驗(yàn)結(jié)果和結(jié)論的可靠性、穩(wěn)定性及一致性程度。如果實(shí)驗(yàn)結(jié)果是不可靠的,那么研究結(jié)論將毫無(wú)價(jià)值。影響實(shí)驗(yàn)結(jié)果的因素非常多, 而現(xiàn)在認(rèn)知行為實(shí)驗(yàn)已經(jīng)發(fā)展出了許多精巧的實(shí)驗(yàn)研究范式及其變式, 在控制實(shí)驗(yàn)誤差方面也已經(jīng)考慮得非常周到。實(shí)驗(yàn)素材是影響實(shí)驗(yàn)研究結(jié)果的核心因素之一, 它指的是心理學(xué)實(shí)驗(yàn)中使用的各種刺激材料, 實(shí)驗(yàn)素材的選擇會(huì)直接影響實(shí)驗(yàn)的結(jié)果, 實(shí)驗(yàn)素材的選擇需要考慮材料的性質(zhì)及其容量。在認(rèn)知行為實(shí)驗(yàn)研究中, 經(jīng)常是同一種實(shí)驗(yàn)范式下相似的實(shí)驗(yàn)使用了非常不同的素材容量, 那么,什么樣的素材容量才是最合適的呢?眾所周知, 過(guò)少的實(shí)驗(yàn)素材會(huì)影響實(shí)驗(yàn)結(jié)果和結(jié)論的可靠性, 而過(guò)多的實(shí)驗(yàn)材料又可能導(dǎo)致被試疲勞及尾端實(shí)驗(yàn)數(shù)據(jù)不可靠, 同時(shí)還會(huì)導(dǎo)致實(shí)驗(yàn)耗時(shí)、增加實(shí)驗(yàn)成本等。因此, 選擇一個(gè)最佳實(shí)驗(yàn)素材容量對(duì)實(shí)驗(yàn)結(jié)果就顯得非常重要。
不同的實(shí)驗(yàn)素材容量明顯會(huì)對(duì)實(shí)驗(yàn)信度產(chǎn)生影響。在許多已有的實(shí)驗(yàn)研究文獻(xiàn)中, 甚至同一類型實(shí)驗(yàn), 實(shí)驗(yàn)素材的容量并不確定。如認(rèn)知研究IAT范式中, 有采用5個(gè)(吳明證, 2006)、8個(gè)(何安明, 劉華山, 惠秋平, 2013)等不同素材容量進(jìn)行實(shí)驗(yàn); 言語(yǔ)研究中圖-詞干擾范式上有采用48個(gè)(孫勇,郭可教, 1992)、96個(gè)(劉亞, 王振宏, 2011)、256個(gè)(陳雪飛, 蔣軍, 趙曉, 陳安濤, 2010)等不同素材容量; 注意研究的線索提示范式中, 有研究者選擇了160個(gè)(潘運(yùn), 沈德立, 王杰, 2009)、256個(gè)(李迎娣,張學(xué)民, 2010)等不同素材容量; 在雙耳分聽范式(張學(xué)民, 舒華, 唐云, 2008; 郭春彥, 朱謹(jǐn), 侯培莊,1998)與情緒啟動(dòng)效應(yīng)(楊麗珠, 蔣重清, 劉穎, 2005;呂勇, 張偉娜, 沈德立, 2010)等研究范式中也存在這種現(xiàn)象。由此可以看到, 不同研究在相同類型范式的研究中采用的素材容量都存在著明顯的不同,雖然這些具體的實(shí)驗(yàn)之間存在著差異, 但是, 素材容量的選擇還是存在著許多的主觀性, 因此, 探討最佳實(shí)驗(yàn)素材容量的選擇, 從而更好的保證實(shí)驗(yàn)結(jié)果和結(jié)論的信度就顯得非常重要。然而, 至今未發(fā)現(xiàn)專門對(duì)認(rèn)知行為實(shí)驗(yàn)中最佳素材容量問(wèn)題進(jìn)行過(guò)專門的研究。
概化理論(Generalizability Theory, GT) 是一種把測(cè)量誤差作為模型參數(shù)來(lái)處理的測(cè)量理論(Brennan, 2001; 楊志明, 張雷, 2003), 通過(guò)分析各種測(cè)量誤差來(lái)源對(duì)測(cè)量目標(biāo)的影響模式, 進(jìn)而提出改進(jìn)研究方案, 降低實(shí)驗(yàn)誤差, 從而最終提高測(cè)量結(jié)果概化能力(Generalizability)的最佳方案。概化理論中關(guān)于變量的關(guān)鍵概念是測(cè)量目標(biāo)和測(cè)量側(cè)面,測(cè)量目標(biāo)一般就是被試在某項(xiàng)任務(wù)上的成績(jī), 而測(cè)量側(cè)面就是影響測(cè)量目標(biāo)的變量, 也就是測(cè)量誤差來(lái)源。概化理論分為一元與多元概化理論。多元概化理論(Multivariate Generalizability Theory, MGT)是對(duì)一元概化理論(Univariate Generalizability Theory, UGT )的推廣與發(fā)展。多元概化理論指測(cè)量目標(biāo)在某個(gè)特定全域分?jǐn)?shù)上有多個(gè)全域分?jǐn)?shù)。當(dāng)前,針對(duì)MGT開發(fā)的常用軟件是mGENOVA (Brennan,2001), 該軟件使用比較簡(jiǎn)單, 即使對(duì)不太熟悉概化理論的人也容易學(xué)會(huì)。其分析結(jié)果一般包括(楊志明, 張雷, 2003) :第一, 分別估計(jì)測(cè)量目標(biāo)、測(cè)量側(cè)面以及目標(biāo)與側(cè)面或側(cè)面與側(cè)面之間的主效應(yīng)和交互效應(yīng)在各個(gè)變量的方差與變量間協(xié)方差;第二, 估計(jì)考生在各個(gè)變量上全域分?jǐn)?shù)、全域分?jǐn)?shù)的方差、絕對(duì)誤差、相對(duì)誤差等, 并估計(jì)出測(cè)量目標(biāo)在各個(gè)變量上的概化系數(shù)和可靠性指數(shù); 第三,估計(jì)全域合成分?jǐn)?shù)及其方差; 第四, 估計(jì)全域合成分?jǐn)?shù)的絕對(duì)誤差方差和相對(duì)誤差方差以及全域合成分?jǐn)?shù)的可靠性指數(shù)、概化系數(shù)和信噪比; 第五,對(duì)研究者所提出的改進(jìn)方案估計(jì)其合理性。
概化理論根據(jù)樣本值估計(jì)總體真值, 同時(shí)通過(guò)D研究指出真值所適用的空間與概括全域以及相應(yīng)的精度估計(jì)值(G系數(shù)與φ
指數(shù)), 并且以相對(duì)誤差與絕對(duì)誤差的形式探討了經(jīng)典測(cè)量理論中的信度與效度。概化理論可以在多個(gè)范圍上對(duì)測(cè)驗(yàn)分?jǐn)?shù)做推論與解釋, 并且分別提供測(cè)量的精度指標(biāo), 即一個(gè)測(cè)驗(yàn)提供多個(gè)“信度”值, 所以概化理論被廣泛的應(yīng)用在考試(楊志明, 張雷, 馬世曄, 2004; 白娟,2013)、量表編制(楊志明, 張雷, 2003; 何立國(guó), 周愛保, 2006)與人才測(cè)評(píng)(孫曉敏, 張厚粲, 薛剛, 黎堅(jiān), 2009; 康春花, 姜宇, 辛濤, 2010)等研究中, 探討不同變量的容量與整體信度(概化系數(shù)與可靠性指數(shù))之間的關(guān)系。本研究的目的是, 通過(guò)多元概化理論分析技術(shù)對(duì)3個(gè)經(jīng)典認(rèn)知行為實(shí)驗(yàn)范式下的具體實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析, 來(lái)研究認(rèn)知行為實(shí)驗(yàn)研究中最佳實(shí)驗(yàn)素材容量的確定問(wèn)題。以為其他不同的實(shí)驗(yàn)研究在素材容量選擇上提供借鑒, 在保證實(shí)驗(yàn)信度的前提下,使得實(shí)驗(yàn)設(shè)計(jì)更加科學(xué)合理。
本研究選擇了3個(gè)經(jīng)典認(rèn)知行為實(shí)驗(yàn)研究范式的具體實(shí)驗(yàn), 即, 研究認(rèn)知的IAT范式(Greenwald,McGhee, & Schwartz, 1998)、言語(yǔ)的圖-詞干擾范式(Stroop, 1935)與注意的線索提示范式(Posner, 1980),實(shí)驗(yàn)程序統(tǒng)一采用E-prime 1.1軟件編制, 數(shù)據(jù)處理基于多元概化理論, 運(yùn)用mGENOVA軟件對(duì)3個(gè)實(shí)驗(yàn)的數(shù)據(jù)進(jìn)行分析, 以保證實(shí)驗(yàn)信度合理為條件,選擇和確定各實(shí)驗(yàn)中最合適的素材容量。
實(shí)驗(yàn)設(shè)計(jì)中采用的因變量均是反應(yīng)時(shí), 在進(jìn)行多元概化理論分析前, 3個(gè)實(shí)驗(yàn)所收集的數(shù)據(jù)都要經(jīng)過(guò)篩選與預(yù)處理, 統(tǒng)一要求每個(gè)被試的正確率在80%以上, 并且每個(gè)素材所有被試在該項(xiàng)目上的作答正確率為80%以上, 否則作為無(wú)效被試或素材,在此基礎(chǔ)上, 對(duì)于作答錯(cuò)誤素材, 采用在該素材上作答正確被試的平均反應(yīng)時(shí)替換。
3個(gè)認(rèn)知行為實(shí)驗(yàn)采用的是相同的數(shù)據(jù)分析模型, 其中G研究包括兩個(gè)維度的單面p×i交叉設(shè)計(jì),Xpi為被試在維度h (h = 1, 2)中第i個(gè)實(shí)驗(yàn)材料上的正確反應(yīng)時(shí), 則G研究的數(shù)學(xué)模型為:
在模型(1)中, p是指測(cè)量目標(biāo), i指測(cè)量的側(cè)面, pi為測(cè)量目標(biāo)與測(cè)量側(cè)面的交互效應(yīng)。
被試選擇:從某校選擇40名大一新生做被試,其中男生20人, 女生20人, 所有被試都是右利手,矯正視力正常, 沒有做過(guò)類似實(shí)驗(yàn)。
實(shí)驗(yàn)程序:實(shí)驗(yàn)材料選擇了黃色和紅色作為彩色概念, 黑色和灰色做為非彩色概念, 同時(shí)選擇了褒、貶詞各10個(gè)高頻詞匯; 仿照Greenwald花蟲實(shí)驗(yàn)七步驟程序流程, 只選取第四步與第七步的數(shù)據(jù),兩步素材容量分別為20, 共40個(gè)刺激, 注視點(diǎn)(黑色加號(hào)+)呈現(xiàn)時(shí)間為500 ms, 被試按鍵反應(yīng)后或者4000 ms未做出反應(yīng), 則刺激消失。實(shí)驗(yàn)流程通過(guò)e-prime 1.1軟件編制程序, 以保證各個(gè)被試接收的刺激同等, 實(shí)驗(yàn)實(shí)施統(tǒng)一在一個(gè)光線適當(dāng)?shù)臋C(jī)房進(jìn)行, 由負(fù)責(zé)人統(tǒng)一開始, 旁邊由經(jīng)過(guò)專門指導(dǎo)的人員負(fù)責(zé)被試在實(shí)驗(yàn)過(guò)程中可能遇到的問(wèn)題。
數(shù)據(jù)預(yù)處理先按照統(tǒng)一要求篩選合格數(shù)據(jù), 再對(duì)高于3000 ms或者低于300 ms的數(shù)據(jù)分別替換為3000 ms和300 ms, 之后替換作答錯(cuò)誤素材的反應(yīng)時(shí)。對(duì)于是否要求對(duì)數(shù)據(jù)進(jìn)行自然對(duì)數(shù)轉(zhuǎn)換, 目前研究尚有爭(zhēng)議, 本文為了與后續(xù)研究一致, 統(tǒng)一不進(jìn)行轉(zhuǎn)換。
基于模型(1)通過(guò)軟件mGENOVA, 可以得到被試(p)、任務(wù)(i:相容與不相容任務(wù))以及被試與任務(wù)(pi)的交互效應(yīng)在相容與不相容任務(wù)上的方差與協(xié)方差分量的估計(jì)結(jié)果, 如表1。
表1 G研究中效應(yīng)在不同任務(wù)上的方差與協(xié)方差分量估計(jì)
對(duì)IAT的概化理論分析是基于IAT效應(yīng)存在的前提下進(jìn)行的, 從相容與不相容任務(wù)的平均反應(yīng)時(shí)發(fā)現(xiàn), IAT效應(yīng) = M- M= 760.76 - 653.33= 107.43, 說(shuō)明本實(shí)驗(yàn)存在IAT效應(yīng)并且能夠作為IAT范式的一個(gè)代表樣例。由表1可知, 在p (被試)主效應(yīng)上, 相容任務(wù)的方差分量要比不相容任務(wù)的方差分量大, 這說(shuō)明被試在相容任務(wù)上的變異要大于不相容任務(wù)。同時(shí)從協(xié)方差分量與相關(guān)系數(shù)可以看出, 相容任務(wù)與不相容任務(wù)的相關(guān)比較低, 相關(guān)系數(shù)只有0.40; 在i (項(xiàng)目)主效應(yīng)上, 不相容任務(wù)的方差分量要高于相容任務(wù)的方差分量, 說(shuō)明不相容任務(wù)的項(xiàng)目引起的變異要高于相容任務(wù); 在pi交互效應(yīng)上, 不相容任務(wù)的方差分量也要大于相容任務(wù)的方差分量。
根據(jù)G研究估計(jì)的方差和協(xié)方差矩陣, 可以進(jìn)一步估計(jì)不同任務(wù)上的全域分?jǐn)?shù)、誤差的方差分量、概化系數(shù)及可靠性指數(shù), 結(jié)果見表2。
從表2可以看出, 相容任務(wù)的全域方差分量(33140.42)要小于不相容任務(wù)的全域方差分量(13842.32)。從測(cè)量精度來(lái)說(shuō), 由于本文是實(shí)驗(yàn)研究,不是常模參照測(cè)驗(yàn)或標(biāo)準(zhǔn)參照測(cè)驗(yàn), 必須要考慮測(cè)量的絕對(duì)誤差, 在可靠性指數(shù)上, 不相容任務(wù)為0.56, 明顯要低于相容任務(wù)(0.90), 而從絕對(duì)誤差上來(lái)看, 相容任務(wù)要低于不相容任務(wù)的方差分量也能反應(yīng)出來(lái)。
在內(nèi)隱聯(lián)想實(shí)驗(yàn)中, 相容與不相容任務(wù)的實(shí)驗(yàn)素材容量是一樣的, 所以兩者的權(quán)重系數(shù)相同, 各為0.5, 在此基礎(chǔ)上合成全域分?jǐn)?shù), 結(jié)果如表3。
表2 不同任務(wù)上的方差分量值
表3 D研究合成全域分?jǐn)?shù)的方差分量等指標(biāo)估計(jì)
從表3中數(shù)據(jù)可以看出, 全域概化系數(shù)值為0.82, 可靠性指數(shù)為0.81, 處于中等水平。全域總分相對(duì)誤差的方差分量(3478.74)與絕對(duì)誤差的方差分量(3711.94)差異較小, 所以概化系數(shù)與可靠性指數(shù)差異不大, 同時(shí)從可靠性指數(shù)大小而言是可以接受的, 測(cè)量精度中等。
實(shí)驗(yàn)分析了不同任務(wù)類型對(duì)總方差的貢獻(xiàn)比例, 結(jié)果如下表4。
表4 不同任務(wù)對(duì)總方差貢獻(xiàn)比例
不同任務(wù)素材容量一致, 從理論上說(shuō), 按照任務(wù)均等影響, 其貢獻(xiàn)比例應(yīng)是相同, 但受到p (被試)、i (任務(wù))以及pi交互效應(yīng)的影響, 導(dǎo)致相容與不相容任務(wù)的貢獻(xiàn)比例出現(xiàn)變化。在表4中可以看出, p主效應(yīng)在相容任務(wù)的方差分量大于不相容任務(wù)的方差分量, 相容任務(wù)對(duì)全域總分的方差貢獻(xiàn)比例為65.07%, 而不相容任務(wù)只有32.26%。在相對(duì)誤差與絕對(duì)誤差上, 相容任務(wù)的貢獻(xiàn)比例都低于不相容任務(wù)的貢獻(xiàn)比例。
以保證IAT范式實(shí)驗(yàn)信度為目標(biāo), 探討最佳的實(shí)驗(yàn)素材容量的選擇, 結(jié)果見表5。
表5 D研究中不同任務(wù)樣本量與可靠性指數(shù)關(guān)系
當(dāng)不同任務(wù)的素材容量只有1個(gè)時(shí)(基準(zhǔn)), 總分可靠性指數(shù)只有0.18, 素材容量增至5時(shí), 總分可靠性指數(shù)也只有0.52, 增加了0.34, 在實(shí)驗(yàn)中,這樣的精度是不被接受的, 于是素材容量增加到10, 也就是不同任務(wù)各有10個(gè), 總分可靠性指數(shù)增加了0.16, 達(dá)到了0.68, 在實(shí)際中, 這個(gè)實(shí)驗(yàn)信度還是偏低, 于是當(dāng)增加到20, 也就是本文中G研究的樣本素材容量時(shí), 可靠性指數(shù)增加了0.13, 達(dá)到了中等精度要求0.81, 之后繼續(xù)增加實(shí)驗(yàn)素材容量,在增加到60、70、80時(shí), 增量之間的差異非常小, 趨于穩(wěn)定, 相對(duì)在2.5倍模式時(shí), 即素材容量為50時(shí),增量的差異為0.01, 而且增量為0.02, 是隨著素材容量增加, 可靠性指數(shù)變化趨勢(shì)的轉(zhuǎn)折點(diǎn), 同時(shí)全域總分可靠性指數(shù)為0.92, 綜合認(rèn)為在IAT范式中,最佳的素材容量為50。
(stroop效應(yīng))MGT分析
被試選擇:從某校選擇31名大二新生, 其中男生10人, 女生21人, 所有被試都是右利手, 矯正視力正常, 沒有做過(guò)類似實(shí)驗(yàn)。
實(shí)驗(yàn)程序:圖片采用250×200像素, 字體大小為100磅, 干擾條件用紅、綠、黃、藍(lán)4種顏色書寫紅、綠、黃、藍(lán)漢字(不包括呈現(xiàn)顏色與內(nèi)容顏色一致的材料), 控制任務(wù)用紅、綠、黃、藍(lán)4種顏色正三角形、圓形和正方形、正六邊形4種幾何圖形, 每個(gè)刺激在實(shí)驗(yàn)中重復(fù)呈現(xiàn)2次, 并且從4個(gè)圖形中抽取一種顏色作為練習(xí), 使得干擾與控制素材容量一致, 所以被試在正式實(shí)驗(yàn)中, 控制與色詞素材容量分別為24個(gè), 實(shí)驗(yàn)要求忽略詞義對(duì)呈現(xiàn)的顏色作按鍵反應(yīng), 被試按鍵要求分別用左手中指、食指和右手的食指、中指按D鍵、F鍵、J鍵和K鍵(紅、綠、黃、藍(lán)), 每個(gè)實(shí)驗(yàn)界面中下位置會(huì)出現(xiàn)4個(gè)顏色詞與對(duì)應(yīng)按鍵, 注視點(diǎn)(黑色加號(hào)+)呈現(xiàn)時(shí)間為500 ms, 被試按鍵反應(yīng)后或者3000 ms未做出反應(yīng), 則刺激消失。實(shí)驗(yàn)采用E-prime程序編制, 電腦統(tǒng)一采用DELL臺(tái)式, 在計(jì)算機(jī)機(jī)房統(tǒng)一進(jìn)行。
數(shù)據(jù)預(yù)處理采用上文一致標(biāo)準(zhǔn)篩選, 同時(shí)替換錯(cuò)誤作答素材的反應(yīng)時(shí)之后, 再進(jìn)行多元概化理論分析。
被試(p)、任務(wù)(i:色詞與控制任務(wù))以及被試與任務(wù)(pi)的交互效應(yīng)在色詞與控制任務(wù)上的方差與協(xié)方差分量的估計(jì)結(jié)果, 如表6。
表6 G研究中效應(yīng)在不同任務(wù)上的方差與協(xié)方差分量估計(jì)
由表6可以看出, 首先保證stroop效應(yīng)的存在,經(jīng)過(guò)對(duì)色詞與控制任務(wù)分別計(jì)算均值發(fā)現(xiàn), stroop效應(yīng) = M- M= 1092.58 - 966.04 = 126.54。在p (被試)主效應(yīng)上, 色詞的方差分量要高于控制任務(wù)的方差分量值; 在測(cè)量側(cè)面i上, 控制任務(wù)的方差分量為4637.96, 而色詞任務(wù)的方差分量為10767.89, 所以控制任務(wù)的變異明顯要低于色詞任務(wù); 同時(shí)在pi交互效應(yīng)上, 色詞任務(wù)的方差分量也要高于控制任務(wù), 從色詞與控制任務(wù)的相關(guān)與協(xié)方差值可以看出, 兩者呈高度相關(guān)。
根據(jù)G研究估計(jì)的方差和協(xié)方差矩陣, 可以進(jìn)一步估計(jì)不同任務(wù)上的全域分?jǐn)?shù)、誤差的方差分量、概化系數(shù)及可靠性指數(shù), 結(jié)果見表7。
表7 不同任務(wù)上的方差分量值
從全域分?jǐn)?shù)的方差分量來(lái)看, 控制任務(wù)的方差分量明顯要低于色詞任務(wù)的方差分量。在概化系數(shù)與可靠性指數(shù)上, 控制任務(wù)與色詞任務(wù)相差不大,都為0.82以上, 達(dá)到了良好水平, 相對(duì)而言, 色詞任務(wù)的測(cè)量精度更好一些, 但兩者差異不明顯。
實(shí)驗(yàn)中, 由于色詞任務(wù)與控制任務(wù)的素材容量相同, 所以兩者以0.5為權(quán)重合成了全域總分, 結(jié)果如表8。
表8 D研究合成全域分?jǐn)?shù)的方差分量等指標(biāo)估計(jì)
從表8可以看出, 全域總分的概化系數(shù)與可靠性指數(shù)都達(dá)到了0.91以上, 這是一個(gè)比較高的值,說(shuō)明圖-詞干擾范式的實(shí)驗(yàn)控制得比較好, 受誤差影響較低, 精度較高。
不同任務(wù)對(duì)總方差貢獻(xiàn)比例的分析結(jié)果如表9所示,
由表9可知, 色詞任務(wù)的方差貢獻(xiàn)比控制任務(wù)高11%, 同時(shí)在相對(duì)誤差與絕對(duì)誤差上色詞都要高于控制任務(wù), 但各自在相對(duì)與絕對(duì)誤差上差異較小。
以保證實(shí)驗(yàn)信度為目標(biāo), 探討了本實(shí)驗(yàn)范式的最佳實(shí)驗(yàn)素材容量的選擇, 結(jié)果見表10。
表9 不同任務(wù)對(duì)總方差貢獻(xiàn)比例
表10 D研究中不同任務(wù)樣本量與可靠性指數(shù)關(guān)系
從表10可以看出, 色詞與控制任務(wù)素材容量為基準(zhǔn)模式時(shí), 可靠性指數(shù)只有0.30, 當(dāng)容量達(dá)到G研究樣本的0.5倍, 即12時(shí), 可靠性指數(shù)就能達(dá)到0.84, 并且比0.25倍容量增加了0.12, 在增加一倍后, 即為24時(shí), 增量為0.07, 總分可靠性指數(shù)達(dá)到0.91。當(dāng)色詞與控制任務(wù)素材容量各為36與48時(shí), 增量分別為0.03和0.01, 全域總分可靠性指數(shù)為0.94和0.95,之后繼續(xù)增加, 可靠性指數(shù)的增量只有0.01, 同時(shí)在2倍模式時(shí), 與1.5倍模式增量變化為0.01, 與2.5倍模式的增量比較也只有0.01,增量極低。綜合考慮認(rèn)為, 總分可靠性指數(shù)達(dá)到了0.95, 素材容量為48時(shí),實(shí)驗(yàn)素材容量達(dá)到最佳,繼續(xù)增加素材容量時(shí)的可靠性指數(shù)變化不大。
實(shí)驗(yàn)被試:實(shí)驗(yàn)同樣收集了31個(gè)被試的反應(yīng)時(shí)數(shù)據(jù), 其中男生10人, 女生21, 皆為大二學(xué)生。
實(shí)驗(yàn)程序:實(shí)驗(yàn)圖片都采用240×170像素, 以箭頭為提示線索, “*”為目標(biāo)刺激, 線索提示呈現(xiàn)時(shí)間為300~600 ms之間隨機(jī)一個(gè)點(diǎn), 目標(biāo)刺激呈現(xiàn)1500 ms, 在實(shí)驗(yàn)前告知被試線索提示與目標(biāo)一致性概率分別為80%與50%, 對(duì)左右不同位置的目標(biāo)刺激分別按“d”鍵與“k”鍵。正式實(shí)驗(yàn)中, 有效提示與無(wú)效提示素材容量都為25, 共50個(gè)素材。實(shí)驗(yàn)采用E-prime程序編制, 統(tǒng)一在學(xué)院機(jī)房進(jìn)行。
數(shù)據(jù)預(yù)處理在線索提示范式實(shí)驗(yàn)中也采用上文一致標(biāo)準(zhǔn)篩選, 同時(shí)替換錯(cuò)誤作答反應(yīng)時(shí)。
被試(p)、任務(wù)(i:有效提示與無(wú)效提示任務(wù))以及被試與任務(wù)(pi)的交互效應(yīng)在有效提示與無(wú)效提示任務(wù)上的方差與協(xié)方差分量的估計(jì)結(jié)果, 如表11。
表11 G研究中效應(yīng)在不同任務(wù)上的方差與協(xié)方差分量估計(jì)
在表11中, 首先對(duì)線索提示范式的效應(yīng)存在時(shí)進(jìn)行分析, 通過(guò)比較有效提示與無(wú)效提示均值發(fā)現(xiàn), 提示效應(yīng) = M- M= 414.35 - 377.42 =36.93, 說(shuō)明提示效應(yīng)是存在的。在p主效應(yīng)上, 無(wú)效提示的方差分量(3879.22)要高于有效提示的方差分量(3214.10), 說(shuō)明無(wú)效提示變異更大; 對(duì)于不同提示效果的測(cè)量側(cè)面i可以看出, 兩者的方差分量相差不大; 在pi交互效應(yīng)上, 無(wú)效提示的方差分量要高于有效提示的方差分量, 同時(shí)從協(xié)方差與相關(guān)系數(shù)可以看出, 有效與無(wú)效任務(wù)的相關(guān)較高。
根據(jù)G研究估計(jì)的方差和協(xié)方差矩陣, 可以進(jìn)一步估計(jì)不同任務(wù)上的全域分?jǐn)?shù)、誤差的方差分量、概化系數(shù)及可靠性指數(shù)。結(jié)果見表12。
從表12可以看出, 在全域分?jǐn)?shù)的分差分量中,有效提示產(chǎn)生的方差分量明顯要低于無(wú)效提示的方差分量。有效提示和無(wú)效提示的概化系數(shù)分別為0.93和0.94, 可靠性指數(shù)也達(dá)到了0.93和0.94, 說(shuō)明實(shí)驗(yàn)的精度在有效與無(wú)效提示任務(wù)上都比較高,受到誤差影響較小。
由于有效提示為50%, 所以有效提示與無(wú)效提示素材容量的權(quán)重是一樣的, 從而合成了如表13所示的全域總分的不同數(shù)據(jù)指標(biāo)。
表12 不同任務(wù)上的方差分量值
表13 D研究合成全域分?jǐn)?shù)的方差分量等指標(biāo)估計(jì)
全域總分的相對(duì)誤差與絕對(duì)誤差相差較小, 從全域總分的概化系數(shù)與可靠性指數(shù)的差異也可以看出來(lái)。全域總分的概化系數(shù)達(dá)到了0.96, 而可靠性指數(shù)也為0.96, 所以, 絕對(duì)與相對(duì)誤差或者標(biāo)準(zhǔn)差之間的差異都比較小。全域總分的可靠性指數(shù)為0.96, 這是非常高的一個(gè)數(shù)值, 說(shuō)明線索提示范式的實(shí)驗(yàn)測(cè)量精度非常高。
不同提示任務(wù)對(duì)總方差的貢獻(xiàn)比例分析結(jié)果,如表14所示。
表14 不同提示對(duì)總方差貢獻(xiàn)比例
在表14中, 從不同提示任務(wù)對(duì)總方差的貢獻(xiàn)比例可以看出, 雖然無(wú)效提示與有效提示的素材容量是一樣的, 但是無(wú)效提示對(duì)總方差的貢獻(xiàn)明顯要高于有效提示的作用, 兩者分別為52.58%、47.42%,但不同提示任務(wù)在相對(duì)誤差與絕對(duì)誤差上差別還是比較小的。
以保證實(shí)驗(yàn)信度為目標(biāo), 探討了本實(shí)驗(yàn)范式的最佳實(shí)驗(yàn)素材容量的選擇, 結(jié)果見表15。
表15 D研究中不同提示樣本量與可靠性指數(shù)關(guān)系
在表15中, 基準(zhǔn)模式的可靠性指數(shù)只有0.51,到G研究樣本容量25時(shí), 可靠性指數(shù)達(dá)到了0.96以上, 相對(duì)0.5倍模式, 增加了0.02, 當(dāng)素材容量增加至35時(shí), 增量為0.01, 可靠性指數(shù)為0.97, 當(dāng)達(dá)到2倍模式與2.5倍模式時(shí), 增量分別為0.01、0.00,可靠性指數(shù)達(dá)到了0.98、0.98, 但可靠性指數(shù)增量明顯變小, 所以綜合而言, 線索提示范式的最佳素材容量為35, 可靠性指數(shù)為0.97。
在許多的認(rèn)知行為實(shí)驗(yàn)研究中, 典型的素材容量的選擇從20左右到100左右, 相互相差很大, 還未發(fā)現(xiàn)研究者對(duì)各種容量選擇情形下的誤差進(jìn)行解釋。那么, 當(dāng)容量為20時(shí)就夠了嗎?達(dá)到100時(shí)是否合適呢?
在認(rèn)知行為實(shí)驗(yàn)研究中, 如何確定最佳的實(shí)驗(yàn)素材容量?有的研究者可能依據(jù)前人的研究設(shè)計(jì),有的研究者可能依據(jù)自身的經(jīng)驗(yàn), 有的研究者可能會(huì)依據(jù)認(rèn)知行為實(shí)驗(yàn)研究的一般性要求, 有的研究者可能只能根據(jù)素材的實(shí)際可得性條件來(lái)確定。許多相同的實(shí)驗(yàn)范式之間使用的素材容量相差極大。素材容量主要是影響實(shí)驗(yàn)結(jié)果的信度, 即結(jié)果的穩(wěn)定性、一致性程度。研究者當(dāng)然可以通過(guò)不斷增加容量以確保實(shí)驗(yàn)結(jié)果的穩(wěn)定性, 然而, 究竟多少是合適的呢?研究者也許可以通過(guò)不斷試驗(yàn)的方式來(lái)進(jìn)行研究, 但是, 基于概化理論的分析也許是一種更加直接高效的分析架構(gòu), 因?yàn)樗瓤梢苑治龀鲆环N理想的素材容量, 同時(shí)也可以指出當(dāng)素材無(wú)法達(dá)到最佳容量要求時(shí)可能存在的誤差大小。概化理論可以在同時(shí)考慮多個(gè)影響測(cè)量目標(biāo)的因素的情形下分析出最佳的實(shí)驗(yàn)設(shè)計(jì)模式。
本文運(yùn)用多元概化理論技術(shù), 以追求良好的實(shí)驗(yàn)信度為目標(biāo), 同時(shí)考慮實(shí)驗(yàn)成本, 探討了不同實(shí)驗(yàn)(認(rèn)知、語(yǔ)言、注意)的素材容量的最佳選擇。同時(shí)在確定實(shí)驗(yàn)效應(yīng)存在的前提下, 通過(guò)素材容量的改變, 結(jié)合可靠性指數(shù)的增量變化大小, 從而確定最佳實(shí)驗(yàn)素材容量, 為實(shí)驗(yàn)研究在素材容量選擇上提供有價(jià)值的參考。結(jié)合前面對(duì)IAT內(nèi)隱聯(lián)想范式、圖-詞干擾范式、線索提示范式的分析, 以及圖1所示, 可以認(rèn)為, 在IAT實(shí)驗(yàn)上, 相容與不相容任務(wù)的素材容量為50時(shí), 即2.5倍模式, 可靠性指數(shù)為0.92, 之后實(shí)驗(yàn)的可靠性指數(shù)變化趨于直線; 在圖-詞干擾范式中, 素材容量位于2倍模式后, 增幅趨于直線, 所以其素材容量以48為最佳, 可靠性指數(shù)為0.95; 對(duì)線索提示范式, 當(dāng)50%線索為有效提示時(shí), 有效與無(wú)效提示最佳素材容量為35, 即素材容量為1.5倍模式, 其測(cè)量精度為0.97。
圖1 不同實(shí)驗(yàn)素材容量的可靠性指數(shù)
本研究可以為認(rèn)知行為實(shí)驗(yàn)研究者在選擇合適的實(shí)驗(yàn)素材容量時(shí)提供一些有益的借鑒。
Bai, J. (2003). Study of the multivariate generalizability analysis of Chinese medicine entrance tests in 2012.Examinations Research,
(1), 51-56.[白娟. (2013). 2012年全國(guó)碩士研究生入學(xué)中醫(yī)綜合考試的多元概化理論研究.考試研究,
(1), 51-56.]Brennan, R. L. (2001).Generalizability theory
. New York:Springer-Verlag.Chen, X. F., Jiang, J., Zhao, X., & Chen, A. T. (2010). Effects of practice on semantic conflict and response conflict in the Stroop task.Psychological Science, 33
(4), 869-871.[陳雪飛, 蔣軍, 趙曉, 陳安濤. (2010). 練習(xí)對(duì)Stroop效應(yīng)中語(yǔ)義沖突和反應(yīng)沖突的影響.心理科學(xué),
33(4),869-871.]Greenwald, A. G., McGhee, D. E., & Schwartz, J. L. K. (1998).Measuring individual differences in implicit cognition: The implicit association test.Journal of Personal and Social Psychology, 74
(6), 1462-1480.Guo, C. Y., Zhu, Y., & Hou, P. Z. (1998). An experimental study of the influence of binaural hearing and word-fragment completion on immediate recall and delayed recall.Psychological Science, 21
(2), 118-122.[郭春彥, 朱瀅, 侯培莊. (1998). 雙耳分聽和補(bǔ)筆對(duì)立即回憶、延遲回憶影響的實(shí)驗(yàn)研究.心理科學(xué), 21
(2), 118-122.]He, A. M., Liu, H. S., & Hui, Q. P. (2013). An experimental research on implicit and explicit gratitude of undergraduates.Psychological Development and Education, 45
(1), 22-30.[何安明, 劉華山, 惠秋平. (2013). 大學(xué)生感恩內(nèi)隱效應(yīng)的實(shí)驗(yàn)研究.心理發(fā)展與教育, 45
(1), 22-30.]He, L. G., & Zhou, A. B. (2006). A study of life satisfaction scales applicable to Chinese adolescent students by the Generalizability theory.Psychological Science, 29
(5),1199-1202.[何立國(guó), 周愛保. (2006). “青少年學(xué)生生活滿意度量表”的概化理論研究.心理科學(xué), 29
(5), 1199-1202.]Kang, C. H., Jiang, Y., & Xin, T. (2010). Generalizability theory in the study of raters’ consistency of personnel evaluation.Psychological Science, 33
(6), 1456-1460.[康春花, 姜宇, 辛濤. (2010). 概化理論在人事測(cè)評(píng)中的評(píng)分者一致性研究.心理科學(xué), 33
(6), 1456-1460.]Li, Y. D., & Zhang, X. M. (2010). The different cuing effect of three types of cue.Psychological Science, 33
(3), 627-630.[李迎娣, 張學(xué)民. (2010). 不同類型提示線索提示效應(yīng)的大小比較.心理科學(xué), 33
(3), 627-630.]Liu, Y., & Wang, Z. H. (2011). The relationship between the emotional Stroop effect and the Stroop effect.Psychological Science, 34
(4), 806-812.[劉亞, 王振宏. (2011). 情緒Stroop效應(yīng)與Stroop效應(yīng)的關(guān)系.心理科學(xué), 34
(4), 806-812.]Lü, Y., Zhang, W. N., & Shen, D. L. (2010). Subliminal affective priming effect by faces with different valence: An ERP study.Acta Psychologica Sinica, 42
(9), 929-938.[呂勇, 張偉娜, 沈德立. (2010). 不同愉悅度面孔閾下情緒啟動(dòng)效應(yīng),來(lái)自ERP的證據(jù).心理學(xué)報(bào), 42
(9), 929-938.]Pan, Y., Shen, D. L., & Wang, J. (2009). The spatial numerical association of response codes effect of Chinese character number processing in different attention referential cues.Studies of Psychology and Behavior, 7
(1), 2l-26.[潘運(yùn), 沈德立, 王杰. (2009). 不同注意提示線索條件下漢字?jǐn)?shù)字加工的SNARC效應(yīng).心理與行為研究, 7
(1),2l-26.]Posner, M. I. (1980). Orienting of attention.Quarterly Journal of Experimental Psychology, 32
, 22-25.Stroop, J. R. (1935). Studies of interference in serial-verbal reaction.Journal of Experimental Psychology, 18
(6),643-662.Sun, X. M., Zhang, H. C., Xue, G., & Li, J. (2009). The application of the multivariate generalizability theory to a structured interview.Psychological Science, 32
(4), 916-919.[孫曉敏, 張厚粲, 薛剛, 黎堅(jiān). (2009). 多元概化理論在結(jié)構(gòu)化面試中的應(yīng)用研究.心理科學(xué), 32
(4), 916-919.]Sun, Y., & Guo, K. J. (1992). Hemispheric asymmetry in the processing of Stroop stimuli.Psychological Science,
(2),20-25.[孫勇, 郭可教. (1992). Stroop色詞干擾效應(yīng)與大腦兩半球言語(yǔ)功能的不對(duì)稱性.心理科學(xué),
(2), 20-25.]Wu, M. Z. (2006). The relationship between the IAT effect and the target-concept’s association.Psychological Science,29
(3), 580-582, 531.[吳明證. (2006). 內(nèi)隱聯(lián)結(jié)測(cè)驗(yàn)的IAT效應(yīng)和概念聯(lián)系的對(duì)應(yīng)關(guān)系研究.心理科學(xué), 29
(3), 580-582, 531.]Yang, L. Z., Jiang, Z. Q., & Liu, Y. (2005). A comparative study of subliminal affective priming and the emotional Stroop effect.Psychological Science, 28
(4), 784-787.[楊麗珠, 蔣重清, 劉穎. (2005). 閾下情緒啟動(dòng)效應(yīng)和Stroop效應(yīng)之對(duì)比實(shí)驗(yàn)研究.心理科學(xué), 28
(4), 784-787.]Yang Z. M., & Zhang, L. (2003).Generalizability theory and its applications
. Beijing: Educational Science Publishing House.[楊志明, 張雷. (2003).測(cè)評(píng)的概化理論及其應(yīng)用
. 北京:教育科學(xué)出版社.]Yang, Z. M., & Zhang, L. (2003). Can we measure the third factor by WISC-CR? —a study of WISC CR by the Multivariate Generalizability Theory.Psychological Science, 26
(2), 305-307.[楊志明, 張雷. (2003). 韋氏兒童智力量表能否測(cè)量第3因子—WISC-CR的多元概化理論研究.心理科學(xué), 26
(2),305-307.]Yang, Z. M., Zhang, L., & Ma, S. Y. (2004). Multivariate generalizability analysis of the Chinese college entrance comprehensive examination.Psychological Science, 36
(2),195-200.[楊志明, 張雷, 馬世曄. (2004). 從多元概化理論看高考綜合能力測(cè)試的改進(jìn).心理學(xué)報(bào), 36
(2), 195-200.]Zhang, X. M., Shu, H., & Tang, Y. (2008). Phonological effect on Chinese word cognition in dichotic listening task.Applied Linguistics,
(2), 72-80.[張學(xué)民, 舒華, 唐云. (2008). 雙耳分聽任務(wù)中語(yǔ)音相似性對(duì)漢字認(rèn)知的影響.語(yǔ)言文字應(yīng)用,
(2), 72-80.]