許岳培 陸春雷 王 珺 宋瓊雅 賈彬彬 胡傳鵬
(1.中國科學院行為科學重點實驗室(中國科學院心理研究所),北京 100101;2.中國科學院大學心理學系,北京 100049;3.浙江師范大學心理與腦科學研究院,金華 321004;4.中山大學心理學系,廣州 510006;5.上海體育學院心理學院,上海 200438;6.南京師范大學心理學院,南京 210024)
原假設顯著性檢驗(Null hypothesis significance test,NHST,也翻譯為零假設顯著性檢驗或者虛無假設顯著性檢驗)是目前使用最為廣泛的統(tǒng)計推斷方法。在NHST框架下,研究者通常在假定原假設(null hypothesis,H)為真的前提下,根據(jù)p 值是否小于預先設定的α(如:α=0.05)來決定是否拒絕原假設(Wasserstein&Lazar,2016)。若基于當前數(shù)據(jù)計算得出的p 值小于預先設定的α,則認為當原假設為真時,在一次抽樣中出現(xiàn)當前結果(及更極端結果)的可能性非常小,那么研究者就有理由拒絕該原假設。由于NHST 的理論前提是假定原假設為真,這就意味著,p 值大于α 的結果(即統(tǒng)計意義上不顯著的結果)并不能作為支持原假設的證據(jù)(Greenland et al.,2016;Wasserstein&Lazar,2016)。因此,當研究者將零效應(nil effect,“效應量為零”或者“效應不存在”)作為原假設(這樣的原假設又稱零假設,nil hypothesis) 時,無法通過NHST 和p 值來評估零效應。
實際研究中,研究者經(jīng)常需要評估零效應(Linde,Tendeiro,Selker,Wagenmakers,&Ravenzwaaij,2020)。例如,研究者欲證實某干預方法的非劣性,即欲證實新興的、更為經(jīng)濟的治療方案相對于常規(guī)治療方案同樣有效。又如,在一些實驗組/控制組匹配的研究設計中,研究者需要對無關變量進行匹配(如:兩組被試的性別、年齡),即希望通過統(tǒng)計推斷得到“兩組被試來自同一總體”的結論。此外,許多理論會預測在某些情況下某效應不存在,此時證實該特定情況下的零效應可為這些理論提供支持。
另一類常見的情況是,研究者發(fā)現(xiàn)基于收集到的數(shù)據(jù)未能拒絕欲推翻的原假設(即意外的p>0.05 的結果),或是在進行探索性研究(未有明確的研究假設)時發(fā)現(xiàn)p>0.05 的結果。此時,研究者要進一步區(qū)分是“證據(jù)不足”(null of evidence,即由于統(tǒng)計效力低下等其他原因未能探測到本應存在的效應)還是“效應不存在”(evidence of null,即現(xiàn)有數(shù)據(jù)已經(jīng)能夠為效應大小為零提供了足夠證據(jù)),同樣需要合理評估支持零效應的證據(jù)強度(Harms & Lakens,2018)。
NHST 無法評估零效應的局限導致其無法滿足實際研究的需要,而能夠有效評估零效應的統(tǒng)計方法在心理學研究中仍鮮有提及(溫忠麟,方杰,沈嘉琦,譚倚天,李定欣,馬益銘,2021)。這就使得研究者在面對p>0.05 的結果時,往往只是將不顯著結果進行簡單的報告,而無法運用合理的統(tǒng)計方法進行統(tǒng)計推斷。Aczel 等人(2018)的研究發(fā)現(xiàn)在國際知名心理學期刊上發(fā)表的137 篇提及不顯著結果的文章中,僅有10.2%的文章利用貝葉斯分析對不顯著結果進行了統(tǒng)計推斷;而王珺等(2021)分析了2017 和2018 年發(fā)表在中國心理學核心期刊上的500 篇文獻后,發(fā)現(xiàn)其中有180篇在摘要中提及了不顯著結果,但無一運用了除NHST 之外的方法對不顯著結果進行解讀或推斷。這一定程度上表明,大部分國內(nèi)研究者較少了解能夠支持零假設的方法(王珺等,2021)。而忽視對不顯著結果的進一步分析或錯誤地認為所有的不顯著結果都沒有發(fā)表價值,會進一步加深發(fā)表偏見(胡傳鵬,王非,過繼成思,宋夢迪,隋潔,彭 凱 平,2016;Forstmeier,Wagenmakers,&Parker,2017)。
對評估零假設的統(tǒng)計方法缺乏了解還間接導致研究者錯誤地解讀不顯著結果。許多研究表明心理學專業(yè)學生或心理學領域的研究者將p 值誤解為原假設為真的概率,錯誤地將NHST 中不顯著結果作為“支持零效應”的證據(jù)(Amrhein,Greenland,&McShane,2019;Gigerenzer,2004,2018;Greenland et al.,2016;X. Lyu,Xu,Zhao,Zuo,& Hu,2020;Z. Lyu,Peng,& Hu,2018)。例如:呂小康等的調(diào)查發(fā)現(xiàn)有超過半數(shù)(54%)的相關專業(yè)(包括心理學)學生或研究者將“p>0.05”錯誤解讀為“證實了原假設”(X.Lyu,et al.,2020);在提及不顯著結果的已發(fā)表的心理學論文中,研究者也易將“p>0.05”的結果作為“支持零效應”的證據(jù),將其解讀為“沒有差異或效應”(Aczel et al.,2018;王珺等,2021)。
對不顯著結果的錯誤解讀可能會直接導致統(tǒng)計推斷出現(xiàn)偏差。例如:若研究者進行了一次單因素兩水平的被試間實驗,欲證一種新療法的干預效果能夠比肩傳統(tǒng)療法,即欲接受兩種療法在某指標上治療效果相同的原假設。通常的做法是,對因變量進行獨立樣本t 檢驗,但僅憑統(tǒng)計檢驗不顯著(如p>0.05)或兩組因變量差異的效應量較?。ㄈ鏑ohen’s d<0.30),并不能得到兩種療法無差異(或等價)的結論。此時如果武斷地給出兩種療法一樣好或等價的結論,則可能直接導致對研究結論的錯誤推斷。利用貝葉斯因子重新分析發(fā)表文章中不顯著結果的數(shù)據(jù),結果表明:絕大部分不顯著結果無法為“證實了原假設”這一結論提供較強證據(jù)(Aczel et al.,2018;王珺等,2021)。
為彌補NHST 無法評估零效應的局限、幫助更多研究者從不顯著結果中獲取有效信息,本文結合兩個實例來介紹、對比三種可用于評估零效應的統(tǒng)計方法——等價檢驗(Equivalence test)(Meyners,2012;Rogers,Howard,& Vessey,1993)、貝葉斯估計(Bayesian estimation)(Kruschke,2011;McElreath,2020)和貝葉斯因子(Bayes factor)(Aczel et al.,2018;胡傳鵬,孔祥禎,Wagenmakers,Ly,彭凱平,2018)。
評估零效應的思路主要有兩種。一種思路是設定一個足夠小的,幾乎可以認為效應為零的區(qū)間,用于評估零效應(Meyners,2012;Rogers et al.,1993)。這一區(qū)間即為“最小感興趣的效應量區(qū)間”,簡稱為“最小感興趣區(qū)”(smallest effect size of interest,SESOI)。目標效應量在SESOI 內(nèi)時,研究者可以認為效應量幾乎為零,可以忽略不計。采用這種思路進行統(tǒng)計推斷的方法有兩種,分別是頻率統(tǒng)計框架下的等價檢驗和貝葉斯統(tǒng)計框架下的貝葉斯估計。另一種思路,如貝葉斯因子,通過對比效應量為零的原假設為真時與效應量不為零的備擇假設為真時,當前數(shù)據(jù)出現(xiàn)的可能性,即特定先驗分布下不同模型的邊緣似然性之比,從而推斷當前數(shù)據(jù)更支持哪個假設。
等價檢驗從NHST 擴展而來,目的是評估當前效應量是否足夠小。等價檢驗的邏輯來源于最小效應量檢驗(Minimal-effects test)(Murphy,Myors,&Wolach,2014)。當研究者將零效應作為原假設時(即,原假設為“沒有效應”的零假設時),NHST 是將效應量與零做比較,判斷在假定效應為零(H)的情況下出現(xiàn)當前數(shù)據(jù)或者更極端數(shù)據(jù)的概率是否足夠小,從而推斷是否拒絕原假設(圖1A)。如果研究者將H設定為一個區(qū)間,比如[-0.1,0.1],拒絕原假設則要求基于樣本得到的效應量要么在統(tǒng)計學意義上顯著大于0.1,要么在統(tǒng)計學意義上顯著小于-0.1(圖1B),需要進行兩次單側檢驗。這種做法被稱為最小效應量檢驗。
等價檢驗則正好將最小效應量檢驗的H與H所對應的效應區(qū)間對調(diào),H在區(qū)間之內(nèi),而H在區(qū)間之外(Lakens,McLatchie,Isager,Scheel,&Dienes,2018;Lakens,Scheel,&Isager,2018)。如果SESOI為[-0.1,0.1],等價檢驗的原假設是效應量要么大于0.1,要么小于-0.1 的區(qū)間(圖1C),即“存在有意義的效應”;其備擇假設是效應量在[-0.1,0.1]之間,即效應量太小而可以認為“不存在有意義的效應”。如果當前數(shù)據(jù)拒絕了原假設,則可以接受備擇假設,即“不存在有意義的效應”。
圖1 等價檢驗和貝葉斯估計的原理示意圖
等價檢驗中的原假設和備擇假設除了與傳統(tǒng)NHST 的原假設和備擇假設具有不同的意義之外,其對于原假設的設定要求更高。相對于NHST 中原假設假定效應量為零,在等價檢驗中,研究者需要指明原假設的范圍,即備擇假設(SESOI)之外的區(qū)間。結合已有研究和實際情況,SESOI 的設定有特定的方式(詳見補充材料:osf.io/6mzr9),且必須有合理的原因。
實際檢驗過程中,等價檢驗需要將實際數(shù)據(jù)與SESOI 的下限ΔL 和上限ΔU 分別進行單側的顯著性檢驗,即兩次單側檢驗(Two one-side tests,TOST)。一次單側檢驗的原假設是當前數(shù)據(jù)的效應量小于SESOI 的下限ΔL;另一次單側檢驗的原假設則是當前數(shù)據(jù)的效應量大于SESOI 的上限ΔU。最后結合兩個單側檢驗的統(tǒng)計結果進行等價檢驗的推斷:當且僅當TOST 中的兩個p 值均小于α 水平時,依據(jù)NHST框架的邏輯拒絕原假設,可以接受備擇假設(“不存在有意義的效應”)。此時研究者可以認為存在統(tǒng)計上的等價性結果,即此效應足夠小,在這一研究群體中是可以忽略的。但只要TOST 中有一個p 值大于α水平,就無法拒絕原假設(“存在有意義的效應”),即統(tǒng)計結果不能支持等價的結論(Lakens,Scheel,&Isager,2018)。
值得注意的是,等價檢驗也可以通過基于參數(shù)估計的方法實現(xiàn)。頻率統(tǒng)計框架下,研究者可以估計效應的值及其置信區(qū)間(王珺等,2019),然后根據(jù)效應量置信區(qū)間與SESOI 重合的比例進行推斷(Tryon,2001)。例如,當研究者把α 水平設為0.05時,可以對當前數(shù)據(jù)的效應量進行參數(shù)估計計算得到其(1-2α)%(即90%)的置信區(qū)間(由于需獨立進行兩次α 水平為0.05 的單側檢驗,因此等價檢驗需對效應量構建90%的置信區(qū)間,而非95%的,見Linde et al.,2020)。若其效應量90%的置信區(qū)間與設定的SESOI 沒有重合(即其置信區(qū)間的上下限均不超出SESOI 的上下限),這就等同于TOST 中的兩個p 值均小于0.05,意味著存在統(tǒng)計上的等價性結果;反之,若其效應量90%的置信區(qū)間與設定的SESOI 出現(xiàn)了重合(即其置信區(qū)間的上限或/和下限超出了SESOI 的上下限),這就意味著當前結果不能支持存在統(tǒng)計上的等價性結果。
貝葉斯估計是貝葉斯統(tǒng)計框架下的參數(shù)估計方法(Kruschke&Liddell,2018)。貝葉斯統(tǒng)計(bayesian statistics)與頻率統(tǒng)計(frequentist statistics)的主要區(qū)別在于對概率(probability)的理解。頻率統(tǒng)計中的概率表示在無數(shù)次的重復抽樣中對于頻率(frequency)的期望,即長期行為表現(xiàn)的結果。而貝葉斯統(tǒng)計中的概率表示基于已有的信息,發(fā)生當前事件的可信程度(credibility) (Kruschke,2014;McElreath,2018)。具體到推斷統(tǒng)計中,頻率統(tǒng)計認為總體參數(shù)為固定值,而貝葉斯統(tǒng)計認為總體參數(shù)是對應概率分布下的隨機取值,并且概率分布可以隨著數(shù)據(jù)的獲取而不斷更新。貝葉斯統(tǒng)計的核心是貝葉斯法則(Bayes rules)。如果我們?yōu)榱斯烙嬆骋豢傮w分布的參數(shù)(θ)而抽取了一定樣本或“數(shù)據(jù)”(data),基于貝葉斯法則可以得到下述公式:
其中,P(θ)表示在獲得數(shù)據(jù)前對于參數(shù)取值的信念, 即先驗分布(prior distribution);P(θ|data)表示獲得當前數(shù)據(jù)后對先驗分布進行更新后所得到的信念或者概率分布, 即后驗分布(posterior distribution),通常是研究者想進行估計的。計算后驗分布不僅需要先驗信息,還需要P(data|θ)和P(data)。P(θ|data)表示當參數(shù)值為θ時,出現(xiàn)當前數(shù)據(jù)的可能性,即似然性(likelihood),也有文章將其稱為某個參數(shù)取值的預測充分性(predictive adequacy)(van Doorn et al.,2021);P(data)表示參數(shù)所有可能取值的加權求和或者積分得到的邊緣概率或者邊緣概率密度,亦可理解為歸一化因子(normalizing factor)。簡而言之,貝葉斯統(tǒng)計可以隨著數(shù)據(jù)的累積不斷更新后驗,進而改變對參數(shù)不同取值的可信度(Kruschke&Liddell,2018)。
應用貝葉斯估計評估零效應時,通過比較效應為零時的參數(shù)取值范圍與后驗分布下參數(shù)概率分布的差異進行統(tǒng)計推斷(Kirkwood & Westlake,1981;Rouder,2014;Westlake,1976)。這里后驗分布下的參數(shù)概率分布使用最高密度區(qū)間(highest density interval,HDI)表示,而效應為零時的參數(shù)取值范圍是研究者預先設定的實際等價區(qū)(region of practical equivalence,ROPE)(Kruschke,2014,2018)。ROPE 類似于前文介紹的等價檢驗中SESOI,是一個包括零的幾乎可以忽略的效應區(qū)間。確定ROPE 后,可以考察參數(shù)后驗分布的95%HDI 與ROPE 的重合度來評估零效應。當95%HDI完全落在ROPE 之內(nèi)時,說明可能性最高的參數(shù)實際上等價于0,因此可以接受零效應(圖1D);當95%HDI 和ROPE 部分重合時,意味著只有部分可能性高的參數(shù)取值等價于0,此時無法做出明確判斷(圖1E);當95%HDI 完全落在ROPE 之外時,說明可能性最高的參數(shù)全部都不等價于0,因此可以拒絕零效應(圖1F)(Kruschke,2011)。
值得注意的是,貝葉斯估計本身是基于數(shù)據(jù)進行模型擬合的過程,因此研究者可以使用不同的先驗和不同的模型。在這個過程中,需要考慮先驗分布設定的合理性以及MCMC 抽樣收斂(convergence),具體可以參考Depaoli 和van de Schoot(2017)以及van de Schoot 等(2021)。
貝葉斯因子的基本思路是通過模型比較的方式,獲得不同模型下出現(xiàn)當前數(shù)據(jù)的可能性的相對比值。它嘗試回答的問題是當前數(shù)據(jù)更可能在哪個模型為真的情況下出現(xiàn)。當用于假設檢驗時,貝葉斯因子中的模型可參照NHST 中的原假設和備擇假設進行設定。例如要評估效應為零的原假設與效應量不為零的備擇假設時,可將原假設設定為零模型M(即point null model,θ=0,效應量為0 且無須參數(shù)分布),備擇假設為M(θ≠0,效應量不為0 且需要通過模型內(nèi)先驗定義其概率分布)。換而言之,上文式(1)中的P(data|θ)中的參數(shù)θ實質上是在某種模型下的參數(shù)。在進行貝葉斯假設檢驗時,原假設與備擇假設對應的模型參數(shù)(θ)的取值分布均會具體化。P(data|θ)在兩個假設模型之下分別為:P(data|θ,M)和P(data|θ,M)。而貝葉斯因子就是以這兩者的比值定義的(Keysers,Gazzola,&Wagenmakers,2020;Wagenmakers et al.,2018):
其中,BF的下角標中0 在前,1 在后,表示BF為H相對于H的貝葉斯因子。反之,BF就是將式(2)中的分子分母顛倒,表示H相對于H的貝葉斯因子。BF=9 表示當前數(shù)據(jù)出現(xiàn)在H為真的情況下的可能性是出現(xiàn)在H為真的情況下的9 倍??梢罁?jù)貝葉斯因子的大小推斷當前數(shù)據(jù)對兩個模型的支持證據(jù)的相對強度。關于貝葉斯因子的決策標準,可參考Lee 和Wagenmakers(2013) 基于Jeffreys(1961)提出的結果分類陳述(胡傳鵬等,2018)。例如,BF在[3,10]之間時,可以解讀為當前數(shù)據(jù)提供了中等強度的證據(jù)(Moderate evidence)來支持原假設(H)。
作為貝葉斯統(tǒng)計推斷的一種方法,貝葉斯因子同樣涉及先驗的選擇。一般根據(jù)先前研究確定先驗,比如使用元分析得到的效應量及其對應的分布作為先驗。而對于沒有相關元分析的原創(chuàng)性研究,更常見的做法是使用一個標準化的先驗,比如在貝葉斯t 檢驗中,用柯西分布作為備擇假設的先驗(Rouder,Speckman,Sun,Morey,&Iverson,2009),δ ~Cauchy(χ=0,γ=1):其中χ 為位置參數(shù)(location parameter),定義分布下的峰值位置,與正態(tài)分布中的均值類似;γ 為尺度參數(shù)(scale parameter),定義分布下包含峰值50%參數(shù)取值范圍的一半寬度,與正態(tài)分布中標準差類似。為了讓備擇假設的先驗更符合心理學研究中效應量分布的真實狀況,常用的計算貝葉斯因子的R 包BayesFactor 將默認的先驗設定為Cauchy(0,0.707),即以0 為峰值,從-0.707到0.707 包含分布下50%的參數(shù)可能取值(Tendeiro and Kiers 2019)。備擇假設模型中參數(shù)先驗分布的選擇會對最終計算的BF值有較大影響。以貝葉斯t 檢驗為例,其他條件相同的前提下,備擇假設模型內(nèi)的先驗Cauchy 分布尺度參數(shù)γ 越大(分布越離散),貝葉斯因子的計算結果就偏向零模型(BF越大),因此通常情況下需要研究者對貝葉斯因子分析結果進行穩(wěn)健性分析,即考察不同先驗分布下貝葉斯因子的結果獲得更為可靠的統(tǒng)計推斷。
以下將展示如何在兩個真實的數(shù)據(jù)中應用上述三種方法。此二例數(shù)據(jù)均采用NHST 框架下的獨立樣本t 檢驗,且p 值未達到顯著水平。我們采用等價檢驗、貝葉斯估計和貝葉斯因子對此二例數(shù)據(jù)進行重新分析,并從評估零效應的能力、是否用到SESOI/ROPE、是否報告不確定信息和可拓展性方面比較了三種方法。分析使用了R統(tǒng)計軟件包4.0.2(R-Core-Team,2019)。其中,等價檢驗使用的是TOSTER 工具包(Lakens,2017),貝葉斯估計采用BEST 工具包(Kruschke & Meredith,2020),貝葉斯因子采用BayesFactor 工具包(Morey &Rouder,2018)。實例1 展示的是數(shù)據(jù)無較強證據(jù)支持零效應的情況,而實例2 展示的是數(shù)據(jù)相對較強地支持零效應的情況。分析涉及的所有的數(shù)據(jù)、代碼、結果及其解釋見osf.io/54qpv/。
實例1 的數(shù)據(jù)來自JASP(jasp-stat.org)分析軟件的示例數(shù)據(jù)“Kitchen Rolls”。該數(shù)據(jù)源自Wagenmakers 等(2015)對Topolinski 和Sparenberg(2012)進行的重復研究。原研究的第二個實驗中,兩組被試分別以順時針方向(N=30)和逆時針方向(N=30)撥動卷紙,然后填寫一個測量開放性的問卷。結果發(fā)現(xiàn),相比于逆時針撥動的被試,順時針撥動的被試的開放性得分更高,t(58)=2.21,p<0.031,d=0.58。Wagenmakers 等(2015)在預注冊之后,重復了該研究的實驗二。研究的數(shù)據(jù)包含兩組被試在開放性人格特質上的得分,其中一組被試在填寫問卷前順時針旋轉桌面上的紙卷(N=48),而另一組則在填寫問卷前逆時針旋轉紙卷(N=54)。
由于等價檢驗和貝葉斯估計在統(tǒng)計過程中需要用到SESOI 或ROPE,因此首先需要確定SSEOI。本分析參考Simonsohn(2015)提出的重復研究中確定SESOI 邊界的方法,將SESOI 的等價邊界設置為原研究樣本量之下,33%檢驗力可探測到的效應量,即SESOI 為[-0.40,0.40](計算過程見在線R Notebook,osf.io/gn2hm/)。
NHST 未發(fā)現(xiàn)兩組被試在開放性上的得分差異達到統(tǒng)計顯著,t(100)=- 0.75,p=0.453,d=-0.149。貝葉斯因子則為零效應提供了中等強度的證據(jù),BF∈(3,10),具體而言,不同先驗——Cauchy(0,0.707)、Cauchy(0,1)、Cauchy(0,1.5)——之下的貝葉斯因子分別為BF=3.71、5.02、7.31。等價檢驗和貝葉斯估計的結果基本一致,即無法判斷數(shù)據(jù)是否支持零效應:在貝葉斯估計中,95%HDI 和ROPE 部分重合;在等價檢驗中,TOST 左側的p 值大于α 水平(圖2A)。綜合三種方法,可認為該數(shù)據(jù)無法為零效應提供較強的證據(jù),同時也無法為效應的存在提供較強的證據(jù)。這提示研究者需要進一步分析實驗設計中可能存在的問題,并進行下一步研究和分析。
實例2 的數(shù)據(jù)來自Many Labs 2 項目(osf.io/uazdm/)中的一個研究。Many Labs 2由36 個國家和區(qū)域的不同實驗室合力完成,共重復了28 個經(jīng)典的實驗,總樣本量達15305(Klein et al.,2018)。實例2 的數(shù)據(jù)來自報告中的第12 個重復研究“Sociometric status and well-being”。該研究重復原研究中的實驗三,探究相對于社會經(jīng)濟地位,社會關系地位與幸福感的關系是否更緊密(Anderson,Kraus,Galinsky,& Keltner,2012)。原研究中報告了一個顯著的簡單效應分析結果,相對低社會關系地位條件的被試,高社會關系地位條件的被試有更高的 主 觀 幸 福 感,t(115)=3.05,p=0.003,d=0.57,95%CI[0.20,0.93]。Many Labs 2 主要重復了原研究中主觀幸福感有差異的低社會關系地位條件和高社會關系地位條件,共包括6905 個樣本。同實例1,我們用三種統(tǒng)計方法進行分析。在分析之前,我們同樣采用實例1 的方式確定SESOI 和ROPE為[-0.20,0.20]。
NHST 未 發(fā) 現(xiàn) 顯 著 的 效 應,t(6903)=-1.76,p=0.079,d=-0.04。然而等價檢驗、貝葉斯估計和貝葉斯因子的統(tǒng)計檢驗結果均支持了零效應(圖2B)。等價檢驗的結果表明,對SESOI 的下、上限的兩次單側檢驗均顯著(p<0.001)。對于貝葉斯估計,兩組差異效應量的95%HDI 完全落在ROPE內(nèi)。貝 葉 斯 因 子 在Cauchy(0,0.707)、Cauchy(0,1)、Cauchy(0,1.5)三種先驗分布下的結果分別為:BF=7.87、11.11、16.64,達到了中等和較強程度支持零效應的證據(jù)(Lee&Wagenmakers,2013)。其中,當先驗分布的尺度參數(shù)變大時,BF趨向于提供較強程度支持零效應的證據(jù)。三種評估零效應的方法一致支持了零效應,研究者可以較有信心地推斷目標效應為零。
圖2 四種統(tǒng)計檢驗對兩個實例數(shù)據(jù)的分析結果與推論
在NHST 框架下,以上兩個實例數(shù)據(jù)均沒有得到p<0.05 的結果,即未能拒絕原假設。然而,這并不意味著當前數(shù)據(jù)可以支持零效應的存在。實例1 的結果表明,雖然NHST 得到的p 值較大,但等價檢驗、貝葉斯估計、貝葉斯因子分析均表明該數(shù)據(jù)并不能為零效應提供較強的證據(jù)。而實例2的結果則表明,樣本效應量與事先確定的近似于零的區(qū)間(SESOI/ROPE)無差別,而貝葉斯因子也提供了較強的支持零效應的證據(jù),因此可以得到零效應的推論。兩個實例數(shù)據(jù)的研究設計相對簡單,因此三種方法均可以使用。但在更加復雜的研究設計中,是否能夠同時使用三種方法可能需要進行深入地考察。以TOSTER 包為例,等價檢驗目前只包括了t 檢驗、元分析、相關分析等方法(Lakens,2017),這意味著其可拓展性方面存在限制。為了幫助研究者采用合適的方法,本文從幾個維度對NHST 和三種方法進行比較(表1)。
表1 原假設檢驗、等價檢驗、貝葉斯估計和貝葉斯因子的特征及其對比?!癘”表示有此特征,“X”表示無此特征。
首先,等價檢驗、貝葉斯估計和貝葉斯因子均可以用來支持零效應,這是它們區(qū)別于NHST 之處。因此,研究者在得到不顯著結果時,可以采用這三種方法進一步從不顯著結果中提取信息。其次,如果研究者希望支持零效應,使用等價檢驗與貝葉斯估計均需要使用SESOI(Kruschke & Liddell,2018;Lakens,Scheel,&Isager,2018),這意味著研究者需要提前確定一個合理的區(qū)間,才能進行合理的推斷。但是計算貝葉斯因子時,則不需要確定SESOI。第三,等價檢驗和貝葉斯估計提供了關于推斷中不確定性的信息,且后者提供的不確定信息更為詳實,描繪了參數(shù)的不同取值出現(xiàn)的相對概率(Kruschke & Liddell,2018);而貝葉斯因子本身不提供這些信息。第四,從可拓展性上來看,理論上三種方法均可以廣泛適用于各個情境,但不同情境均需要對模型進行設定。從實踐上來看,由于眾多工具包的出現(xiàn)(如R 語言包brms,Bürkner,2017),貝葉斯估計可以相對簡便地運用于線性和一般線性回歸模型的(Kruschke &Liddell,2018;Kruschke & Meredith,2020),但是貝葉斯因子和等價檢驗目前可獲得的工具包則仍然較為限制。具體而言,貝葉斯因子目前主要可用于t 檢驗、相關分析、方差分析和線性回歸分析等常用的統(tǒng)計模型(Morey&Rouder,2018);而等價檢驗(基于TOSTER)主要可用于t 檢驗、元分析和相關分析(Lakens,2017)。對于更加復雜的研究設計,如中介、調(diào)節(jié)分析等,貝葉斯因子和等價檢驗尚未被整合到便利的工具包中。
除了三種方法原理特征上的差異外,隨著樣本量、等價區(qū)間的變化,三種方法的統(tǒng)計檢驗力(即效應量真值在等價區(qū)間內(nèi)時,統(tǒng)計結果判斷為等價的概率)也有不同。Linde 等研究者(2020)通過一系列的模擬發(fā)現(xiàn)貝葉斯因子相對另外兩種方法有更強的統(tǒng)計檢驗力,并且在樣本相對較小的時候有更高的辨別力。
類似地,以上述兩個實例的具體參數(shù)(樣本量、等價邊界)作為模擬參考,我們的模擬也發(fā)現(xiàn),當效應量真值在區(qū)間[0,0.5]時,貝葉斯因子的統(tǒng)計檢驗力(即真實效應量落在等價區(qū)間,統(tǒng)計方法推斷可以看作是效應量為零的比例)較高。但同樣,其假陽性也更高(即真實效應量不在等價區(qū)間,但統(tǒng)計方法的結果認為其效應量可以看作為零的概率)(見圖3)。貝葉斯因子較高的敏感性在樣本量小的時候更加明顯,因此貝葉斯因子可能是小樣本研究中用以支持零效應較好的方法,而適當收緊其判斷標準(如將BF>10 作為等價標準,而非BF>3)是權衡其較高統(tǒng)計檢驗力和較高一類錯誤的有效策略之一。
圖3 等價檢驗、貝葉斯估計和貝葉斯因子在不同樣本量、等價邊界上的統(tǒng)計檢驗力及一類錯誤率
三種方法相對于NHST 均可以用于支持零效應,然而結果解釋上存在理論上的區(qū)別。等價檢驗通過引入SESOI 彌補了NHST 功能上的缺陷,即不能用于推斷效應不存在(Greenland et al.,2016;Wasserstein&Lazar,2016)。其所在的統(tǒng)計框架仍為頻率統(tǒng)計,即將統(tǒng)計推斷建立在無數(shù)次的重復抽樣中對于頻率(frequency)的期望上。而基于貝葉斯統(tǒng)計框架下的貝葉斯因子和貝葉斯估計則有所區(qū)別。貝葉斯因子的統(tǒng)計推斷本質上基于模型比較,即比較當前數(shù)據(jù)在兩個相互競爭的模型中出現(xiàn)的相對概率(Keysers et al.,2020;Wagenmakers et al.,2018;胡傳鵬等,2018)。貝葉斯估計則通過估計后驗分布的95%HDI 與類似于等價檢驗中SESOI 概念的ROPE 進行比較得到結論。推斷的形式上,貝葉斯估計和等價檢驗相似,然而前者的HDI 與后者的CI 在對概率的認識上存在本質上的區(qū)別,也即貝葉斯統(tǒng)計和頻率統(tǒng)計之間對概率不同認識 上 的 區(qū) 別(Kruschke,2014;McElreath,2020)。
心理學研究中不同的統(tǒng)計方法正在相互融合中共同發(fā)展,但對于評估零效應的方法卻仍然受到相當程度的忽視(溫忠麟等,2021)。等價檢驗、貝葉斯估計和貝葉斯因子等統(tǒng)計方法的出現(xiàn),一定程度上彌補了傳統(tǒng)NHST 無法評估零效應的缺陷,幫助研究者進一步區(qū)分“有證據(jù)支持零效應”和“沒有證據(jù)支持有效應”這兩種情況。本文介紹的三種方法在多個方面存在差異,各有特點,研究者可以根據(jù)當前研究的情況選擇合適的方法。例如從便捷性上考慮,使用JASP 軟件進行貝葉斯因子分析是一個不錯的選擇。首先JASP 是一款免費使用的開源統(tǒng)計軟件,能夠覆蓋心理學研究中常用的統(tǒng)計分析方法;其次它依托圖形用戶界面進行操作,對編程的需求相比其他兩種方法更低;最后JASP 的使用手冊比較完備,且有相應的分析與結果報告指南(van Doorn et al.,2021),此外,在其網(wǎng)站(jasp-stats.org)與論壇(https://forum.cogsci.nl/index.php?p=/categories/jasp-bayesfactor)也可以進一步獲取必要的指導信息。如果從方法的嚴謹性上考慮,研究者可以同時采用多種方法評估零效應,便于交叉驗證,提高統(tǒng)計推斷的可靠性。當然這意味著研究者需要投入相當?shù)木θカ@取必要的知識和技能(如形成基本認識,明確使用前提,規(guī)范統(tǒng)計報告等),避免統(tǒng)計方法的濫用和誤用(Gigerenzer,2018)。此外,當研究設計較為復雜時,缺乏必要的統(tǒng)計背景和編程技能會讓一些研究者束手無策或者誤用這些方法,因此,研究初期提出清晰的研究假設并據(jù)此在實驗設計上盡量精簡會對后續(xù)的數(shù)據(jù)分析有裨益(一個較詳盡的如何選擇恰當?shù)姆椒ǖ牧鞒?,可參考補充材料中的流程圖)。
最后,我們建議,評估零效應時注意以下三點:其一,如果采用等價檢驗和貝葉斯估計的方法,需要清楚地報告所采用的SESOI/ROPE,并論證其合理性;如果采用貝葉斯估計或者貝葉斯因子,還需要澄清所采用的先驗及其合理性,也可以報告不同先驗下的結果穩(wěn)定性。其二,如果可行,建議同時采用多種分析方法,交叉驗證同一個結果的穩(wěn)定性,例如上文的兩個實例分別使用三種方法評估零效應。其三,如有可能,在研究開始前或者數(shù)據(jù)分析前進行預注冊,預注冊中可以提供評估零效應的相應方法和參數(shù),比如SESOI/ROPE 和先驗的確定。
在等價檢驗和貝葉斯估計中,都會使用一個區(qū)間來定義一個足夠小的,或者說可以被忽略的效應。在等價檢驗中,稱為最小感興趣區(qū)(SESOI),而貝葉斯估計將其定義為實際等價區(qū)(ROPE)。其他領域的研究者還會使用其他名稱,如臨床領域的臨床等價區(qū)間(interval of clinical equivalence)(Lesaffre 2008) 和藥理學的等價區(qū)間(equivalence interval)(Schuirmann 1987) 等。但這些概念本質上是相似的,都是為了定義一個包括零效應在內(nèi)的足夠小的區(qū)間,或者說更符合實際研究情況的零效應。由于ROPE 與SESOI 的相似,下文將僅從SESOI 視角介紹。通過檢驗目標效應與該區(qū)間的相對關系可推斷當前數(shù)據(jù)支持零效應、拒絕零效應還是無法做出判斷(Lakens,Scheel et al. 2018,Kruschke and Meredith 2020)。當前數(shù)據(jù)的效應量區(qū)間一定時,如果SESOI 比較寬松,則效應量區(qū)間可能完全落在SESOI 內(nèi),得到支持零效應的推斷;而SESOI 范圍較小時,效應量區(qū)間可能未完全在SESOI 內(nèi),得到無法判斷當前數(shù)據(jù)是否支持零效應的結論。因此SESOI 的設定會直接影響零效應評估的結論。
SESOI 的設定需要具體問題具體分析。但是無論使用何種方法,研究者均需要對其設定合理性進行說明(Lakens,Scheel et al.2018)。通常,當研究者所感興趣的效應量已經(jīng)有先前研究進行過探索,則可以參考先前研究的結果。例如,Simonsohn(2015)建議,在重復研究中,可將SESOI 的等價邊界設置為之前研究的33%檢驗力可探測到的效應。其理由在于,檢驗力低于33%時得到的效應有多于66%的概率得到的顯著結果是不可信的(Simonsohn,Nelson et al.2014)。但Simonsohn(2015)的建議并非 唯 一 的 建 議,Kordsmeyer 和 Penke(2017)則建議,在重復性研究中,可將SESOI 的等價邊界設定在先前研究的平均效應量上,并檢驗當前數(shù)據(jù)是否顯著小于之前研究平均水平的效應量。然而這種方法無法排除先前研究隨機性和出版偏見的影響。此外,還有觀點認為可以將等價邊界設定在之前研究正好可以觀測到顯著效應的臨界值(Lakens,Scheel et al.2018)。另一個可能更穩(wěn)健的方法是用元分析中估計效應量的置信區(qū)間(90%或95%)的下邊界(效應為正的情況下)作為等價邊界(Perugini,Gallucci et al.2014)。最后,值得注意的是,在頻率學派和貝葉斯派兩種不同的統(tǒng)計思想的框架下,SESOI 和ROPE 對應的結果解釋是有區(qū)別的(Kruschke and Liddell 2018,Kruschke and Meredith 2020)。
圖4 評估零效應的三種統(tǒng)計方法的使用流程
補充材料參考文獻
Kordsmeyer,T.L. & L. Penke(2017).“The association of three indicators of developmental instability with mating success in humans.”Evolution and Human Behavior 38(6):704-713.
Kruschke,J. & T.M. Liddell(2018).“The Bayesian New Statistics:Hypothesis testing,estimation,meta-analysis,and power analysis from a Bayesian perspective.”Psychonomic Bulletin & Review 25(1):178-206.
Kruschke,J. & M. Meredith(2020). BEST:Bayesian estimation supersedes the t-Test.
Lakens,D.,et al.(2018). “Equivalence testing for psychological research:A tutorial.”Advances in Methods and Practices in Psychological Science 1(2):259-269.
Lesaffre,E.(2008). “Superiority,equivalence,and non-inferiority trials.” Bulletin of the NYU Hospital for Joint Diseases 66(2):150-154.
Perugini,M.,et al.(2014). “Safeguard power as a protection against imprecise power esti mates.”Perspectives on Psychological Science 9(3):319-332.
Schuirmann,D.J.(1987). “A comparison of the two one-sided tests procedure and the power approach for assessing the equivalence of average bioavailability.”Journal of Pharmacokinetics and Biopharmaceutics 15(6):657-680.
Simonsohn,U. (2015). “Small telescopes:Detectability and the evaluation of replication results.”Psychological Science 26(5):559-569.
Simonsohn,U., Nelson,L.D., & Simmons,J.P.(2014). P-curve: A key to the file-drawer.Journal of Experimental Psychology General, 143(2),534-547.