李 歡,龍艷林,吳宏宇,李昭君
(1. 西南大學(xué)教育學(xué)部特殊教育學(xué)院,重慶 400715; 2. 教育部人文社科重點(diǎn)研究基地西南大學(xué)西南民族教育與心理研究中心,重慶 400715; 3. 深圳市南山區(qū)龍?jiān)穼W(xué)校,廣東 深圳 518055)
零假設(shè)檢驗(yàn)(null hypothesis significance testing,NHST)是20世紀(jì)二三十年代開(kāi)始在實(shí)驗(yàn)研究中普遍使用的統(tǒng)計(jì)推斷方法[1].但此后NHST一直備受顯著性的邏輯、難以說(shuō)明差異大小等方面的爭(zhēng)論和質(zhì)疑[2].20世紀(jì)60年代,Cohen首次提出運(yùn)用效應(yīng)量(effect size,ES)等方法來(lái)補(bǔ)充或替代NHST[3].ES是一種通過(guò)樣本特征值間的差距或者比例來(lái)衡量實(shí)驗(yàn)干預(yù)效果大小的指標(biāo)[4],具有NHST所缺乏的諸如與測(cè)量單位無(wú)關(guān)、單調(diào)性(monotonicity)、不受樣本容量影響等基本性質(zhì),當(dāng)研究結(jié)果較小且不明顯時(shí),運(yùn)用ES可以提高測(cè)量的精度[5],讓實(shí)驗(yàn)的效果更具有可比性[6].1994年,Cohen對(duì)NHST所存在的爭(zhēng)議進(jìn)行了全面總結(jié)[7].同年,美國(guó)心理學(xué)會(huì)成立統(tǒng)計(jì)推斷小組(The APA Task Force on Statistical Inference),提出實(shí)驗(yàn)結(jié)果應(yīng)超越零假設(shè)檢驗(yàn)的p值陳述,運(yùn)用一些可替代的統(tǒng)計(jì)方法以彌補(bǔ)其檢驗(yàn)力的不足[8],要求公開(kāi)發(fā)表的研究均應(yīng)報(bào)告ES,以幫助解釋研究結(jié)果[9],甚至在APA出版手冊(cè)(APA Publication Manual)中提出“未報(bào)告ES”是一種常見(jiàn)的研究缺陷[5].目前,國(guó)際上大量實(shí)驗(yàn)研究以及定量的系統(tǒng)評(píng)價(jià)均會(huì)運(yùn)用ES指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行描述與解釋[10-11].
我國(guó)特殊教育實(shí)驗(yàn)研究中對(duì)ES的關(guān)注較少,相應(yīng)的研究較為缺乏[12].在特殊教育領(lǐng)域常用的單一被試實(shí)驗(yàn)設(shè)計(jì)中,大多數(shù)采用目視分析的方式評(píng)估干預(yù)效果,而此類方法僅采用重疊比率(percent of overlapping data,POD)對(duì)研究結(jié)果進(jìn)行解釋.如祝澤紅等就合作游戲?qū)ψ蚤]癥譜系障礙(autism spectrum disorder,ASD)兒童同伴交往行為影響的探究[13]、韓嬌嬌運(yùn)用圖片交換溝通系統(tǒng)促進(jìn)重度智力障礙兒童溝通行為的單一被試研究[14]中均僅使用了POD這一種ES.部分研究未重視ES對(duì)研究結(jié)果的解釋作用,如張朝等在采用聽(tīng)覺(jué)統(tǒng)合治療ASD的單一被試研究中并未使用ES來(lái)進(jìn)一步解釋研究結(jié)果[15].少量研究采用多種ES綜合解釋實(shí)驗(yàn)效果,如彭燕采用POD、非重疊Tau系數(shù)(Tau for nonoverlap with baseline trend control,Tau或Tau-U)和平均基線改變率(mean baseline reduction,MBLR)3種ES指標(biāo)評(píng)估錄像示范法對(duì)ASD社交溝通的干預(yù)效果[16].此外,僅有的幾項(xiàng)特殊教育元分析使用Tau系數(shù)、標(biāo)準(zhǔn)化均差(standardized mean difference,SMD)為主的ES評(píng)估特殊教育領(lǐng)域?qū)嶒?yàn)干預(yù)方法的有效性,較少運(yùn)用其他ES.如連福鑫等使用Tau系數(shù)系統(tǒng)評(píng)價(jià)融合教育環(huán)境下同伴介入法對(duì)ASD兒童社會(huì)交往的干預(yù)效果[17],郭曉倩等也采用Tau系數(shù)和點(diǎn)估計(jì)的方式系統(tǒng)評(píng)價(jià)我國(guó)ASD社交溝通障礙干預(yù)方法的效果[18],陳秋珠等的元分析中采用SMD綜合評(píng)價(jià)了我國(guó)幼兒攻擊性行為的干預(yù)效果[19].可見(jiàn),近年來(lái)國(guó)內(nèi)特殊教育領(lǐng)域開(kāi)始關(guān)注ES的使用,但對(duì)ES相關(guān)領(lǐng)域的專業(yè)知識(shí)欠缺,導(dǎo)致其運(yùn)用程度仍然不夠.
因此,本研究通過(guò)系統(tǒng)梳理國(guó)際特殊教育領(lǐng)域近十年運(yùn)用ES的研究,深入分析各類ES的使用情況、判斷標(biāo)準(zhǔn)以及特點(diǎn),以期為我國(guó)特殊教育領(lǐng)域ES的規(guī)范使用提供借鑒,并倡導(dǎo)國(guó)內(nèi)研究者在分析研究數(shù)據(jù)時(shí)使用ES指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行解釋和描述,從而提升研究結(jié)果的解釋力度.
本研究的數(shù)據(jù)來(lái)源于Web of Science(WOS)數(shù)據(jù)庫(kù),根據(jù)Thomson Reuters公司2019年公布的SSCI來(lái)源的40份特殊教育期刊,運(yùn)用布爾邏輯檢索式,擬定“Exceptional Children、Journal of Intellectual Disability Research、Journal of Emotional and Behavioral Disorders”等期刊名稱檢索詞和“effect size、ES、PND、Cohen’s d、R2”等ES相關(guān)檢索詞進(jìn)行文獻(xiàn)檢索.由于本研究旨在分析國(guó)際特殊教育領(lǐng)域ES的使用情況,且近十年的研究更能聚焦國(guó)際學(xué)術(shù)界當(dāng)前對(duì)ES的使用,在參照前人系統(tǒng)評(píng)價(jià)研究[18,20]的基礎(chǔ)上,本研究的文獻(xiàn)納入標(biāo)準(zhǔn)為:1)研究發(fā)布的時(shí)間為2010—2020年(本研究文獻(xiàn)檢索截止時(shí)間為2020年3月);2)研究主題與ES相關(guān);3)至少采用了一種ES解釋實(shí)驗(yàn)結(jié)果,或者該文獻(xiàn)是有關(guān)ES的研究綜述、理論闡述.本研究的檢索過(guò)程如下:1)根據(jù)檢索要求初步獲得1 568篇相關(guān)文獻(xiàn);2)通過(guò)文章標(biāo)題、摘要及關(guān)鍵詞的初步瀏覽,刪除明顯無(wú)關(guān)的文獻(xiàn);3)閱讀剩余文獻(xiàn)的研究設(shè)計(jì)和研究結(jié)果,獲取滿足條件的文獻(xiàn);4)從獲得文獻(xiàn)的參考文獻(xiàn)中進(jìn)行二次搜索,最終納入有效文獻(xiàn)189篇.
本研究的編碼包括“1=發(fā)表年限”“2=ES指標(biāo)”“3=研究設(shè)計(jì)”.編碼時(shí),應(yīng)將所用的ES全部列出,即采用了兩種及以上ES指標(biāo)的文獻(xiàn),必須明確編碼每種ES指標(biāo).研究設(shè)計(jì)主要分為系統(tǒng)評(píng)價(jià)(systematic review,SR)、單一被試研究設(shè)計(jì)(single case design,SCD)、組間(內(nèi))實(shí)驗(yàn)設(shè)計(jì)(group design,GD)以及理論(綜述)研究.
如圖1,在SSCI期刊中檢索的2010—2020年間特殊教育領(lǐng)域使用ES的研究文獻(xiàn)數(shù)量總體呈現(xiàn)上升趨勢(shì).此外,相關(guān)文獻(xiàn)被引次數(shù)超過(guò)1 000次,在國(guó)際特殊教育領(lǐng)域產(chǎn)生了較大影響力[23-24].這些均表明國(guó)外近十年在特殊教育領(lǐng)域?qū)?shí)驗(yàn)ES的關(guān)注度逐漸升高,運(yùn)用廣泛.
圖1 納入文獻(xiàn)數(shù)量分布Fig.1 Distribution of included literature圖2 研究設(shè)計(jì)類型的分布Fig.2 Distribution of research design types
如圖2所示,在189篇ES相關(guān)的文獻(xiàn)中,采用GD設(shè)計(jì)的數(shù)量最多(65.61%),其次為SR(22.75%),而SCD頻次較少(10.58%),有關(guān)ES的綜述類研究?jī)H有兩篇(1.06%).在不同的研究設(shè)計(jì)中,各類ES指標(biāo)的使用頻率存在差異,其中GD中運(yùn)用最多的是Cohen’s d(34.20%),其次為η2(19.35%);在SCD中,控制基線趨勢(shì)的Tau系數(shù)使用頻次最高(29.17%),非重疊率(percentage of non-overlapping data,PND)次之(25.00%);SR研究中,PND使用最多(19.30%),Cohen’s d次之(14.46%).由此可見(jiàn),研究者們嘗試運(yùn)用各種ES對(duì)不同設(shè)計(jì)類型的研究結(jié)果進(jìn)行補(bǔ)充和解釋.
國(guó)際上ES指標(biāo)的種類較多,其分類不盡一致[25].依據(jù)鈕文英等的分類方法[26],本研究將特殊教育領(lǐng)域的ES分為基于目視分析的ES和基于統(tǒng)計(jì)分析的ES兩大類.前者包括非重疊指標(biāo)和改變率指標(biāo),其原理是運(yùn)用不同方式計(jì)算目視分析圖上基線階段與干預(yù)階段數(shù)據(jù)的非重疊比例或者改變率大小[26].后者包括關(guān)聯(lián)強(qiáng)度型(strength of association type)ES和標(biāo)準(zhǔn)差異型(standardized differences type)ES.關(guān)聯(lián)強(qiáng)度型ES主要考察兩個(gè)或多個(gè)變量之間的共變(covariance)關(guān)系,通過(guò)變量間的關(guān)聯(lián)強(qiáng)度獲得自變量解釋因變量的程度;標(biāo)準(zhǔn)差異型ES主要通過(guò)標(biāo)準(zhǔn)化的差異單元來(lái)獲得總體均值間的差異,從而衡量ES大小[27].從特殊教育領(lǐng)域近十年文獻(xiàn)分析可得,基于統(tǒng)計(jì)分析的ES使用頻率高達(dá)71.54%,基于目視分析的ES只占28.46%.具體言之,標(biāo)準(zhǔn)差異型ES使用頻率最高(36.49%),關(guān)聯(lián)強(qiáng)度型ES次之(33.57%),非重疊指標(biāo)使用頻率較低(26.27%),改變率指標(biāo)最少(2.19%),各類ES指標(biāo)的使用比例如表1和表2所示.
表1 基于目視分析ES的計(jì)算及其使用情況[28]Tab.1 Calculation and use of ES based on visual analysis
續(xù)表1
表2 基于統(tǒng)計(jì)分析ES的計(jì)算及其使用情況[29]Tab.2 Calculation and use of ES based on statistical analysis
續(xù)表2
就數(shù)據(jù)處理方式而言,基于目視分析的ES均為非參數(shù)檢驗(yàn)的方法,基于統(tǒng)計(jì)分析的ES在t檢驗(yàn)、ANOVA、非參數(shù)檢驗(yàn)、相關(guān)分析和回歸分析等統(tǒng)計(jì)方法中都有相應(yīng)的估計(jì)方法和報(bào)告形式[12],本研究結(jié)合納入文獻(xiàn)所使用的ES指標(biāo)進(jìn)行分析.
3.2.1 基于目視分析ES的計(jì)算及特點(diǎn)
3.2.1.1 基于目視分析ES的計(jì)算
本研究納入的非重疊指標(biāo)主要包括3種計(jì)算方式,各ES的具體計(jì)算及使用情況如表1所示.1)直接進(jìn)行非重疊比率的計(jì)算,包括PND、超越中數(shù)的比率(percentage of data exceeding the median,PEM)、所有零點(diǎn)數(shù)據(jù)的百分比(percentage of all zero data,PZD)和POD 4種指標(biāo).如Morash-Macneil等運(yùn)用PND、SMD和Tau-U 3種ES對(duì)智力障礙兒童就業(yè)技能的SCD進(jìn)行系統(tǒng)評(píng)價(jià),3種ES的結(jié)果顯示輔助技術(shù)對(duì)就業(yè)技能有很好的提升效果,且PND和Tau-U兩類ES的計(jì)算結(jié)果均以1為參照,有助于快速判斷干預(yù)效果[30].2)先確定重疊數(shù)據(jù)點(diǎn)的數(shù)量,再計(jì)算非重疊比率,包括Pearson的phi相關(guān)系數(shù)(phi correlation,phi)、所有不重疊率(percentage of all non-overlapping data,PAND)和改善率差異量(improvement rate difference,IRD).如Ganz等運(yùn)用IRD直觀表明輔助溝通系統(tǒng)對(duì)僅患有自閉癥的ASD的干預(yù)效果(IRD=0.83)高于伴隨發(fā)育遲緩的ASD(IRD=0.70)[31].3)畫(huà)出基線階段與干預(yù)階段的重疊區(qū)域,將重疊區(qū)域資料點(diǎn)進(jìn)行兩兩配對(duì)比較,再進(jìn)行非重疊率的計(jì)算,包括所有配對(duì)的非重疊率(non-overlap of all pairs,NAP)和Tau-U.如Schlesinger等在采用Tau-U比較多感官教學(xué)和結(jié)構(gòu)化語(yǔ)言教學(xué)兩種方法對(duì)閱讀障礙兒童干預(yù)效果的SCD研究中發(fā)現(xiàn),多感官教學(xué)對(duì)字母發(fā)音的干預(yù)效果(Tau-U=0.58)優(yōu)于結(jié)構(gòu)化語(yǔ)言教學(xué)(Tau-U=0.55),可見(jiàn),當(dāng)研究結(jié)果較小且不明顯時(shí),運(yùn)用Tau-U更有利于提高測(cè)量的精度[32].本研究?jī)H納入一種改變率指標(biāo),即MBLR,主要包括減少比率(針對(duì)負(fù)向行為)和增加比率(針對(duì)正向行為)兩類,MBLR大小取差的絕對(duì)值[26].
3.2.1.2 基于目視分析ES的特點(diǎn)
基于目視分析的ES適用于方差異質(zhì)、總體非正態(tài)以及組之間的樣本容量不一樣時(shí)的實(shí)驗(yàn)設(shè)計(jì)[26],在SCD(74.97%)和SR(61.50%)中運(yùn)用較多.基于目視分析的ES具有以下優(yōu)點(diǎn):第一,計(jì)算簡(jiǎn)單、方便,可以與圖形數(shù)據(jù)的可視化分析很好地結(jié)合,易于理解與解釋.如Tincani等在評(píng)估圖片交換溝通系統(tǒng)對(duì)ASD溝通技能干預(yù)效果的SR中,納入的多數(shù)SCD提供了階段間平均水平的變化和非重疊指標(biāo),即使部分研究未提供原始資料,通過(guò)折線圖亦可分析,且?guī)缀跛蠩S可手動(dòng)計(jì)算完成,不涉及復(fù)雜的統(tǒng)計(jì)分析[33].第二,部分非重疊指標(biāo)可以根據(jù)其抽樣分布計(jì)算置信區(qū)間,或進(jìn)行統(tǒng)計(jì)顯著性檢驗(yàn).如Losinski等運(yùn)用Tau-U、PND等評(píng)估SCD中視頻示范對(duì)情緒和行為障礙兒童挑戰(zhàn)行為的干預(yù)效果,該SR的PND值為75%,Tau-U效應(yīng)大小為0.83,其95%置信區(qū)間的值為0.60~1.05,說(shuō)明視頻示范對(duì)于挑戰(zhàn)行為有較強(qiáng)的干預(yù)效果[34].第三,屬于非參數(shù)檢驗(yàn)的方法,對(duì)樣本量較少、總體數(shù)據(jù)不要求正態(tài)分布的實(shí)驗(yàn)研究適用,只要評(píng)分者受過(guò)專業(yè)訓(xùn)練,其評(píng)分者一致性頗高,信度較好[26].但是,目視分析的ES也具有一些劣勢(shì):第一,改變率和部分非重疊率指標(biāo)對(duì)異常值和趨勢(shì)過(guò)于敏感,容易受到極端值的影響,在基線中出現(xiàn)天花板或地板數(shù)據(jù)(ceiling or floor data points)的情況下,其ES的計(jì)算會(huì)出現(xiàn)誤判[35].第二,存在無(wú)法有效區(qū)分不同曲線形態(tài)、低估直交斜率(orthogonal slope)形態(tài)的介入效果、不能考慮干預(yù)的變異和穩(wěn)定性等缺點(diǎn)[36].如Wolery等通過(guò)PND、PEM等非重疊方法與視覺(jué)分析的比較對(duì)160個(gè)SCD數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)PEM易受極端值影響,而PND無(wú)法有效區(qū)分不同曲線形態(tài)[37].
3.2.2 基于統(tǒng)計(jì)分析ES的計(jì)算及特點(diǎn)
3.2.2.1 基于統(tǒng)計(jì)分析ES的計(jì)算
基于統(tǒng)計(jì)分析的ES主要用于均值差異比較和變量間的相關(guān)分析兩種情況[38].當(dāng)ES用于均值差異比較時(shí),針對(duì)單因素實(shí)驗(yàn)設(shè)計(jì)的獨(dú)立樣本或配對(duì)樣本t檢驗(yàn),主要運(yùn)用標(biāo)準(zhǔn)差異型ES指標(biāo)[27].本研究納入的標(biāo)準(zhǔn)差異型ES包括Cohen’s d、SMD和Hedges’g 3類最常見(jiàn)的ES指標(biāo).如Little等在一項(xiàng)組間實(shí)驗(yàn)中,通過(guò)獨(dú)立樣本t檢驗(yàn)分析實(shí)驗(yàn)組和對(duì)照組的均差從而判斷干預(yù)效果,而Cohen’s d結(jié)果進(jìn)一步表明,在接受了有挑戰(zhàn)性課程的培訓(xùn)后,接受培訓(xùn)學(xué)習(xí)者的數(shù)學(xué)成績(jī)比未接受者有了非常大的提升(d=0.92)[39].在針對(duì)多組均值比較的單因素或多因素被試間、被試內(nèi)或混合設(shè)計(jì)方差分析時(shí),則主要運(yùn)用ω2、η2和ε2等關(guān)聯(lián)強(qiáng)度型ES[40].如Lopata等在一項(xiàng)隨機(jī)對(duì)照實(shí)驗(yàn)研究中運(yùn)用單因素方差分析進(jìn)行組間均差比較,ω2表明輔以計(jì)算機(jī)教學(xué)的心理閱讀(efficacy of mind reading)訓(xùn)練對(duì)提升高功能ASD面部表情識(shí)別能力具有中等強(qiáng)度的干預(yù)效果(ω2=0.298),而僅用心理閱讀的效果較小(ω2=0.185)[41].
3.2.2.2 基于統(tǒng)計(jì)分析ES的特點(diǎn)
基于統(tǒng)計(jì)分析的ES能夠精確地測(cè)量和客觀地分析研究結(jié)果,適用于難以直觀比較的數(shù)據(jù),在GD(99.34%)、SR(38.50%)和SCD(25.03%)中均有使用.相較于基于目視分析的ES,其優(yōu)勢(shì)是:第一,精確的統(tǒng)計(jì)分析方法能排除資料點(diǎn)對(duì)統(tǒng)計(jì)檢定的影響,對(duì)檢測(cè)干預(yù)效果有更高的敏感性和效度,具有較強(qiáng)的實(shí)用性和臨床應(yīng)用價(jià)值[48].第二,基于回歸分析的ES不只檢視資料路徑的水平變化,還能通過(guò)對(duì)基線階段建模去除趨勢(shì)和極端值的影響,正確地監(jiān)測(cè)直交斜率形態(tài)的介入效果.如Parker等的一項(xiàng)SR研究中,運(yùn)用IRD、PND和R2等對(duì)166項(xiàng)SCD的干預(yù)進(jìn)行效果評(píng)估,發(fā)現(xiàn)R2能夠有效地評(píng)估實(shí)驗(yàn)的干預(yù)效果,而基于目視分析的IRD和PND卻表現(xiàn)出了天花板效應(yīng),且PND還存在地板效應(yīng)[49].可見(jiàn),在基線階段存在極端值或者基線期不穩(wěn)定導(dǎo)致無(wú)法預(yù)測(cè)新干預(yù)的效果時(shí),統(tǒng)計(jì)分析更為適用甚至是必要的[50].然而,基于統(tǒng)計(jì)分析的ES同樣存在以下缺點(diǎn):第一,目前的統(tǒng)計(jì)技術(shù)不能同時(shí)考慮數(shù)據(jù)變異性、趨勢(shì)的大小、方向以及平均水平的變化,不能有效地檢測(cè)干預(yù)的及時(shí)效應(yīng),且不能與目視分析有效地結(jié)合.如Vugs等采用Wilcoxon符號(hào)秩檢驗(yàn)進(jìn)行統(tǒng)計(jì)分析,發(fā)現(xiàn)r在訓(xùn)練過(guò)程中不能隨時(shí)測(cè)量?jī)和Z(yǔ)言能力的改變,也不能檢測(cè)由于生活中的特殊事件所導(dǎo)致的兒童語(yǔ)言能力的變化[51].第二,目前的統(tǒng)計(jì)分析技術(shù)大多來(lái)自GD,由于較少的數(shù)據(jù)點(diǎn)會(huì)嚴(yán)重影響干預(yù)效果的判斷,因此對(duì)只有10~15個(gè)或更少數(shù)據(jù)點(diǎn)的研究適用性較差,因而對(duì)單一被試的適用性也有待檢驗(yàn)[52].第三,某些統(tǒng)計(jì)分析ES計(jì)算比較復(fù)雜,需具備一定統(tǒng)計(jì)學(xué)基礎(chǔ)才能進(jìn)行統(tǒng)計(jì)建模分析[53].
3.3.1 基于目視分析ES的判斷標(biāo)準(zhǔn)
目前,ES大小的界定仍存在一定爭(zhēng)議.在基于目視分析的非重疊ES中,使用較多的是Campbell提出的非重疊比率大小[52]和Parker等提出的非重疊比率所在百分等級(jí)[28]兩種判定標(biāo)準(zhǔn),具體如表3和表4所示.
表3 非重疊比率大小判定標(biāo)準(zhǔn)Tab.3 Judgment standard for non-overlap ratio size
表4 非重疊比率的百分等級(jí)大小判定標(biāo)準(zhǔn)Tab.4 Judgment criteria for percentage size of non-overlapping ratio
3.3.2 基于統(tǒng)計(jì)分析ES的判斷標(biāo)準(zhǔn)
基于統(tǒng)計(jì)分析的ES主要可以分為標(biāo)準(zhǔn)差異型、關(guān)聯(lián)強(qiáng)度型兩大類.標(biāo)準(zhǔn)差異型以Cohen’s d為例,Cohen最初提出其判定標(biāo)準(zhǔn)包括實(shí)驗(yàn)組均值位于控制組的相對(duì)位置(百分等級(jí))和兩組分布不重疊的程度兩種.當(dāng)d為0.2、0.5和0.8時(shí),分別對(duì)應(yīng)小、中、大的ES,而相應(yīng)的實(shí)驗(yàn)組均值在控制組的百分等級(jí)分別為58%、69%和79%,兩組分布不重疊的比例分別為14.7%、33.0%和47.4%.關(guān)聯(lián)強(qiáng)度型ES又可以分為非平方尺度和平方尺度兩大類[54],而由Ferguson總結(jié)的基于統(tǒng)計(jì)分析的ES判定標(biāo)準(zhǔn)臨界值更為常用[55],具體判定標(biāo)準(zhǔn)如表5所示.
表5 基于統(tǒng)計(jì)分析的ES大小判定標(biāo)準(zhǔn)Tab.5 Judgment standard of ES based on statistical analysis
美國(guó)著名統(tǒng)計(jì)學(xué)家 Cohen指出:在實(shí)驗(yàn)研究文獻(xiàn)中,很多研究?jī)H講結(jié)果是否顯著,似乎只要在0.05水平上顯著就是對(duì)心理學(xué)理論的發(fā)展做出了貢獻(xiàn).實(shí)際上,統(tǒng)計(jì)的顯著性與ES不是一回事,在0.05 水平上顯著, 自變量對(duì)因變量的效果不一定有“大”的作用;同樣, 在0.01 水平上顯著, 自變量的作用也不一定“很大”.因此,研究者不僅應(yīng)該注意統(tǒng)計(jì)上有無(wú)顯著性, 而且應(yīng)該注意ES的大小[56].本研究發(fā)現(xiàn),國(guó)外特殊教育實(shí)驗(yàn)研究中的ES運(yùn)用廣泛且多元,在不同實(shí)驗(yàn)設(shè)計(jì)中可以使用多種類型的ES指標(biāo).如Saddler等綜合運(yùn)用PEM、PND、Tau-U、Cohen’s d和Hedges’g 5種ES評(píng)估SCD中總結(jié)策略(summarizing strategy)對(duì)情緒與行為障礙兒童寫(xiě)作的影響:首先運(yùn)用PEM、PND和Tau-U檢查每個(gè)階段內(nèi)數(shù)據(jù)的水平、趨勢(shì)和穩(wěn)定性,結(jié)果顯示干預(yù)方案和寫(xiě)作能力提升之間存在確定的功能關(guān)系;再運(yùn)用Cohen’s d和Hedges’g兩種ES對(duì)研究結(jié)果進(jìn)行敏感性分析(sensitivity analysis),以提高研究結(jié)果的科學(xué)效度[11].反觀國(guó)內(nèi),目前特殊教育領(lǐng)域運(yùn)用ES報(bào)告結(jié)果的研究缺乏,對(duì)實(shí)驗(yàn)中應(yīng)該積極使用ES解釋研究結(jié)果的意識(shí)不夠.國(guó)內(nèi)現(xiàn)有使用ES的研究主要集中于SR研究領(lǐng)域,在SCD中則傾向于僅使用基于目視分析的POD指標(biāo).相反,國(guó)外的研究卻常將ES運(yùn)用于GD中,在SCD中則對(duì)Tau系數(shù)使用最多.可見(jiàn),應(yīng)該鼓勵(lì)國(guó)內(nèi)研究者將ES運(yùn)用于特殊教育領(lǐng)域的不同實(shí)驗(yàn)類型中,從而增加實(shí)驗(yàn)研究結(jié)果的解釋力[57].其次,目前關(guān)于ES的分類標(biāo)準(zhǔn)還不一致,有的按照研究學(xué)科差異進(jìn)行分類,如心理學(xué)領(lǐng)域常把ES分為標(biāo)準(zhǔn)差異型和關(guān)聯(lián)強(qiáng)度型[38];有的按照統(tǒng)計(jì)方法分為差異類(difference-type)、相關(guān)類(correlation-type)以及方差比ES(variance-accounted-for indices)[27].Parker等指出,教育證據(jù)來(lái)源于實(shí)驗(yàn)研究,而實(shí)驗(yàn)研究的解釋力度決定了研究結(jié)果的可靠程度[28],ES運(yùn)用的不規(guī)范甚至缺乏,是導(dǎo)致實(shí)驗(yàn)研究結(jié)果解釋力不足的重要原因[58].因此,在今后的研究中應(yīng)根據(jù)ES的理論基礎(chǔ),進(jìn)一步完善ES分類指標(biāo),規(guī)范ES在特殊教育實(shí)驗(yàn)領(lǐng)域的應(yīng)用.最后,有學(xué)者提出ES的判定標(biāo)準(zhǔn)并非固定不變,需要兼顧研究主題的特殊性、已有理論背景、研究設(shè)計(jì)類型、實(shí)證研究過(guò)程的有效性、估計(jì)指標(biāo)的使用前提等綜合權(quán)衡研究結(jié)果的實(shí)際意義,并結(jié)合實(shí)踐進(jìn)一步完善ES指標(biāo)類型的體系和判斷標(biāo)準(zhǔn)[57].
ES的種類很多,根據(jù)不同的研究目的、實(shí)驗(yàn)設(shè)計(jì)以及數(shù)據(jù)類型,可以選擇合適的ES來(lái)衡量研究效果[38].第一,在ES的選擇上,有學(xué)者提出在達(dá)到研究目的要求的情況下,遵循簡(jiǎn)單的原則,即能使用簡(jiǎn)單統(tǒng)計(jì)分析方法說(shuō)明問(wèn)題的,不運(yùn)用復(fù)雜的統(tǒng)計(jì)方法[59].Campbell在一項(xiàng)針對(duì)ASD問(wèn)題行為干預(yù)的SR研究中,運(yùn)用Cohen’s d、PND、MBLR和PZD對(duì)117篇SCD的干預(yù)效果進(jìn)行分析,結(jié)果發(fā)現(xiàn)不同ES對(duì)干預(yù)結(jié)果的評(píng)估產(chǎn)生了相似的效果,這與某些學(xué)者認(rèn)為基于統(tǒng)計(jì)的ES在檢驗(yàn)微妙的干預(yù)效果時(shí)可能更敏感的結(jié)論相悖[52].可見(jiàn),各類ES方法沒(méi)有優(yōu)劣之分,在選用ES時(shí)應(yīng)根據(jù)研究目標(biāo),并結(jié)合各類ES的特點(diǎn)選擇適當(dāng)、便捷的ES計(jì)算方法.第二,在不同類型的實(shí)驗(yàn)設(shè)計(jì)中,效應(yīng)量的使用情況存在一定差異,在SCD實(shí)驗(yàn)設(shè)計(jì)中,使用較多的為基于目視分析的ES,而在GD實(shí)驗(yàn)設(shè)計(jì)中,基于統(tǒng)計(jì)的ES使用較多.由此可見(jiàn),在SCD研究設(shè)計(jì)中,基于目視分析的ES能夠結(jié)合目視分析圖,更加快速、直觀地呈現(xiàn)研究效果.而在SCD中運(yùn)用的基于統(tǒng)計(jì)分析的ES主要包括BC-SMD和d兩種.自從Pustejovsky等在2014年提出擴(kuò)大BC-SMD的應(yīng)用范圍,將其嘗試運(yùn)用在SR和SCD中[60],Valentine等于2016年對(duì)BC-SMD的詳細(xì)使用作了進(jìn)一步的明確說(shuō)明[61]后,基于統(tǒng)計(jì)分析的BC-SMD才逐漸被運(yùn)用于SCD和關(guān)于SCD的系統(tǒng)評(píng)價(jià)中.可見(jiàn),國(guó)外特殊教育領(lǐng)域關(guān)于統(tǒng)計(jì)分析ES在SCD中的應(yīng)用也還不成熟.而GD實(shí)驗(yàn)設(shè)計(jì)一般被試數(shù)量較多,且通常運(yùn)用前、后測(cè)評(píng)估的方式,數(shù)據(jù)點(diǎn)較少,不適合運(yùn)用基于目視分析的ES,基于統(tǒng)計(jì)分析的ES更能夠清楚、高效地解釋研究效果.第三,根據(jù)研究數(shù)據(jù)的類型以及ES類型的多樣性,可能存在不止一種可供選擇的ES指標(biāo),且有時(shí)對(duì)同一ES存在不同的計(jì)算方法,如Tau-U和Taunovlap或MBLR和MBLR’.Heyvaert等運(yùn)用PND、PEM、PAND、MBLR和PZD 5種ES對(duì)研究ASD問(wèn)題行為的231項(xiàng)SCD進(jìn)行系統(tǒng)評(píng)價(jià),發(fā)現(xiàn)PND、PEM、PAND和MBLR均能夠評(píng)估所有研究的干預(yù)效果,而PZD只適用于問(wèn)題行為比率減少的干預(yù)研究[62].可見(jiàn),在報(bào)告實(shí)驗(yàn)結(jié)果時(shí),研究者須明確指出所采用的ES指標(biāo),在必要的情況下,還需出示詳細(xì)的計(jì)算公式[54].此外,由于在實(shí)驗(yàn)研究結(jié)果的分析中,效應(yīng)大小常常存在統(tǒng)計(jì)分析效能(analysis power)不足的情況,而對(duì)ES的區(qū)間估計(jì)將使研究獲得更加可信的估計(jì)精度,由此建議在報(bào)告ES時(shí)也盡可能地呈現(xiàn)ES的置信區(qū)間,從而使研究結(jié)果的報(bào)告更具嚴(yán)謹(jǐn)性和規(guī)范性[63].