亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        評估零效應(yīng)的三種統(tǒng)計方法

        2022-07-28 09:43:58許岳培陸春雷宋瓊雅賈彬彬胡傳鵬
        應(yīng)用心理學(xué) 2022年4期
        關(guān)鍵詞:等價先驗貝葉斯

        許岳培 陸春雷 王 珺 宋瓊雅 賈彬彬 胡傳鵬

        (1.中國科學(xué)院行為科學(xué)重點實驗室(中國科學(xué)院心理研究所),北京 100101;2.中國科學(xué)院大學(xué)心理學(xué)系,北京 100049;3.浙江師范大學(xué)心理與腦科學(xué)研究院,金華 321004;4.中山大學(xué)心理學(xué)系,廣州 510006;5.上海體育學(xué)院心理學(xué)院,上海 200438;6.南京師范大學(xué)心理學(xué)院,南京 210024)

        1 引 言

        原假設(shè)顯著性檢驗(Null hypothesis significance test,NHST,也翻譯為零假設(shè)顯著性檢驗或者虛無假設(shè)顯著性檢驗)是目前使用最為廣泛的統(tǒng)計推斷方法。在NHST框架下,研究者通常在假定原假設(shè)(null hypothesis,H)為真的前提下,根據(jù)p 值是否小于預(yù)先設(shè)定的α(如:α=0.05)來決定是否拒絕原假設(shè)(Wasserstein&Lazar,2016)。若基于當(dāng)前數(shù)據(jù)計算得出的p 值小于預(yù)先設(shè)定的α,則認(rèn)為當(dāng)原假設(shè)為真時,在一次抽樣中出現(xiàn)當(dāng)前結(jié)果(及更極端結(jié)果)的可能性非常小,那么研究者就有理由拒絕該原假設(shè)。由于NHST 的理論前提是假定原假設(shè)為真,這就意味著,p 值大于α 的結(jié)果(即統(tǒng)計意義上不顯著的結(jié)果)并不能作為支持原假設(shè)的證據(jù)(Greenland et al.,2016;Wasserstein&Lazar,2016)。因此,當(dāng)研究者將零效應(yīng)(nil effect,“效應(yīng)量為零”或者“效應(yīng)不存在”)作為原假設(shè)(這樣的原假設(shè)又稱零假設(shè),nil hypothesis) 時,無法通過NHST 和p 值來評估零效應(yīng)。

        實際研究中,研究者經(jīng)常需要評估零效應(yīng)(Linde,Tendeiro,Selker,Wagenmakers,&Ravenzwaaij,2020)。例如,研究者欲證實某干預(yù)方法的非劣性,即欲證實新興的、更為經(jīng)濟(jì)的治療方案相對于常規(guī)治療方案同樣有效。又如,在一些實驗組/控制組匹配的研究設(shè)計中,研究者需要對無關(guān)變量進(jìn)行匹配(如:兩組被試的性別、年齡),即希望通過統(tǒng)計推斷得到“兩組被試來自同一總體”的結(jié)論。此外,許多理論會預(yù)測在某些情況下某效應(yīng)不存在,此時證實該特定情況下的零效應(yīng)可為這些理論提供支持。

        另一類常見的情況是,研究者發(fā)現(xiàn)基于收集到的數(shù)據(jù)未能拒絕欲推翻的原假設(shè)(即意外的p>0.05 的結(jié)果),或是在進(jìn)行探索性研究(未有明確的研究假設(shè))時發(fā)現(xiàn)p>0.05 的結(jié)果。此時,研究者要進(jìn)一步區(qū)分是“證據(jù)不足”(null of evidence,即由于統(tǒng)計效力低下等其他原因未能探測到本應(yīng)存在的效應(yīng))還是“效應(yīng)不存在”(evidence of null,即現(xiàn)有數(shù)據(jù)已經(jīng)能夠為效應(yīng)大小為零提供了足夠證據(jù)),同樣需要合理評估支持零效應(yīng)的證據(jù)強(qiáng)度(Harms & Lakens,2018)。

        NHST 無法評估零效應(yīng)的局限導(dǎo)致其無法滿足實際研究的需要,而能夠有效評估零效應(yīng)的統(tǒng)計方法在心理學(xué)研究中仍鮮有提及(溫忠麟,方杰,沈嘉琦,譚倚天,李定欣,馬益銘,2021)。這就使得研究者在面對p>0.05 的結(jié)果時,往往只是將不顯著結(jié)果進(jìn)行簡單的報告,而無法運(yùn)用合理的統(tǒng)計方法進(jìn)行統(tǒng)計推斷。Aczel 等人(2018)的研究發(fā)現(xiàn)在國際知名心理學(xué)期刊上發(fā)表的137 篇提及不顯著結(jié)果的文章中,僅有10.2%的文章利用貝葉斯分析對不顯著結(jié)果進(jìn)行了統(tǒng)計推斷;而王珺等(2021)分析了2017 和2018 年發(fā)表在中國心理學(xué)核心期刊上的500 篇文獻(xiàn)后,發(fā)現(xiàn)其中有180篇在摘要中提及了不顯著結(jié)果,但無一運(yùn)用了除NHST 之外的方法對不顯著結(jié)果進(jìn)行解讀或推斷。這一定程度上表明,大部分國內(nèi)研究者較少了解能夠支持零假設(shè)的方法(王珺等,2021)。而忽視對不顯著結(jié)果的進(jìn)一步分析或錯誤地認(rèn)為所有的不顯著結(jié)果都沒有發(fā)表價值,會進(jìn)一步加深發(fā)表偏見(胡傳鵬,王非,過繼成思,宋夢迪,隋潔,彭 凱 平,2016;Forstmeier,Wagenmakers,&Parker,2017)。

        對評估零假設(shè)的統(tǒng)計方法缺乏了解還間接導(dǎo)致研究者錯誤地解讀不顯著結(jié)果。許多研究表明心理學(xué)專業(yè)學(xué)生或心理學(xué)領(lǐng)域的研究者將p 值誤解為原假設(shè)為真的概率,錯誤地將NHST 中不顯著結(jié)果作為“支持零效應(yīng)”的證據(jù)(Amrhein,Greenland,&McShane,2019;Gigerenzer,2004,2018;Greenland et al.,2016;X. Lyu,Xu,Zhao,Zuo,& Hu,2020;Z. Lyu,Peng,& Hu,2018)。例如:呂小康等的調(diào)查發(fā)現(xiàn)有超過半數(shù)(54%)的相關(guān)專業(yè)(包括心理學(xué))學(xué)生或研究者將“p>0.05”錯誤解讀為“證實了原假設(shè)”(X.Lyu,et al.,2020);在提及不顯著結(jié)果的已發(fā)表的心理學(xué)論文中,研究者也易將“p>0.05”的結(jié)果作為“支持零效應(yīng)”的證據(jù),將其解讀為“沒有差異或效應(yīng)”(Aczel et al.,2018;王珺等,2021)。

        對不顯著結(jié)果的錯誤解讀可能會直接導(dǎo)致統(tǒng)計推斷出現(xiàn)偏差。例如:若研究者進(jìn)行了一次單因素兩水平的被試間實驗,欲證一種新療法的干預(yù)效果能夠比肩傳統(tǒng)療法,即欲接受兩種療法在某指標(biāo)上治療效果相同的原假設(shè)。通常的做法是,對因變量進(jìn)行獨立樣本t 檢驗,但僅憑統(tǒng)計檢驗不顯著(如p>0.05)或兩組因變量差異的效應(yīng)量較?。ㄈ鏑ohen’s d<0.30),并不能得到兩種療法無差異(或等價)的結(jié)論。此時如果武斷地給出兩種療法一樣好或等價的結(jié)論,則可能直接導(dǎo)致對研究結(jié)論的錯誤推斷。利用貝葉斯因子重新分析發(fā)表文章中不顯著結(jié)果的數(shù)據(jù),結(jié)果表明:絕大部分不顯著結(jié)果無法為“證實了原假設(shè)”這一結(jié)論提供較強(qiáng)證據(jù)(Aczel et al.,2018;王珺等,2021)。

        為彌補(bǔ)NHST 無法評估零效應(yīng)的局限、幫助更多研究者從不顯著結(jié)果中獲取有效信息,本文結(jié)合兩個實例來介紹、對比三種可用于評估零效應(yīng)的統(tǒng)計方法——等價檢驗(Equivalence test)(Meyners,2012;Rogers,Howard,& Vessey,1993)、貝葉斯估計(Bayesian estimation)(Kruschke,2011;McElreath,2020)和貝葉斯因子(Bayes factor)(Aczel et al.,2018;胡傳鵬,孔祥禎,Wagenmakers,Ly,彭凱平,2018)。

        2 等價檢驗、貝葉斯估計和貝葉斯因子的原理

        評估零效應(yīng)的思路主要有兩種。一種思路是設(shè)定一個足夠小的,幾乎可以認(rèn)為效應(yīng)為零的區(qū)間,用于評估零效應(yīng)(Meyners,2012;Rogers et al.,1993)。這一區(qū)間即為“最小感興趣的效應(yīng)量區(qū)間”,簡稱為“最小感興趣區(qū)”(smallest effect size of interest,SESOI)。目標(biāo)效應(yīng)量在SESOI 內(nèi)時,研究者可以認(rèn)為效應(yīng)量幾乎為零,可以忽略不計。采用這種思路進(jìn)行統(tǒng)計推斷的方法有兩種,分別是頻率統(tǒng)計框架下的等價檢驗和貝葉斯統(tǒng)計框架下的貝葉斯估計。另一種思路,如貝葉斯因子,通過對比效應(yīng)量為零的原假設(shè)為真時與效應(yīng)量不為零的備擇假設(shè)為真時,當(dāng)前數(shù)據(jù)出現(xiàn)的可能性,即特定先驗分布下不同模型的邊緣似然性之比,從而推斷當(dāng)前數(shù)據(jù)更支持哪個假設(shè)。

        2.1 等價檢驗

        等價檢驗從NHST 擴(kuò)展而來,目的是評估當(dāng)前效應(yīng)量是否足夠小。等價檢驗的邏輯來源于最小效應(yīng)量檢驗(Minimal-effects test)(Murphy,Myors,&Wolach,2014)。當(dāng)研究者將零效應(yīng)作為原假設(shè)時(即,原假設(shè)為“沒有效應(yīng)”的零假設(shè)時),NHST 是將效應(yīng)量與零做比較,判斷在假定效應(yīng)為零(H)的情況下出現(xiàn)當(dāng)前數(shù)據(jù)或者更極端數(shù)據(jù)的概率是否足夠小,從而推斷是否拒絕原假設(shè)(圖1A)。如果研究者將H設(shè)定為一個區(qū)間,比如[-0.1,0.1],拒絕原假設(shè)則要求基于樣本得到的效應(yīng)量要么在統(tǒng)計學(xué)意義上顯著大于0.1,要么在統(tǒng)計學(xué)意義上顯著小于-0.1(圖1B),需要進(jìn)行兩次單側(cè)檢驗。這種做法被稱為最小效應(yīng)量檢驗。

        等價檢驗則正好將最小效應(yīng)量檢驗的H與H所對應(yīng)的效應(yīng)區(qū)間對調(diào),H在區(qū)間之內(nèi),而H在區(qū)間之外(Lakens,McLatchie,Isager,Scheel,&Dienes,2018;Lakens,Scheel,&Isager,2018)。如果SESOI為[-0.1,0.1],等價檢驗的原假設(shè)是效應(yīng)量要么大于0.1,要么小于-0.1 的區(qū)間(圖1C),即“存在有意義的效應(yīng)”;其備擇假設(shè)是效應(yīng)量在[-0.1,0.1]之間,即效應(yīng)量太小而可以認(rèn)為“不存在有意義的效應(yīng)”。如果當(dāng)前數(shù)據(jù)拒絕了原假設(shè),則可以接受備擇假設(shè),即“不存在有意義的效應(yīng)”。

        圖1 等價檢驗和貝葉斯估計的原理示意圖

        等價檢驗中的原假設(shè)和備擇假設(shè)除了與傳統(tǒng)NHST 的原假設(shè)和備擇假設(shè)具有不同的意義之外,其對于原假設(shè)的設(shè)定要求更高。相對于NHST 中原假設(shè)假定效應(yīng)量為零,在等價檢驗中,研究者需要指明原假設(shè)的范圍,即備擇假設(shè)(SESOI)之外的區(qū)間。結(jié)合已有研究和實際情況,SESOI 的設(shè)定有特定的方式(詳見補(bǔ)充材料:osf.io/6mzr9),且必須有合理的原因。

        實際檢驗過程中,等價檢驗需要將實際數(shù)據(jù)與SESOI 的下限ΔL 和上限ΔU 分別進(jìn)行單側(cè)的顯著性檢驗,即兩次單側(cè)檢驗(Two one-side tests,TOST)。一次單側(cè)檢驗的原假設(shè)是當(dāng)前數(shù)據(jù)的效應(yīng)量小于SESOI 的下限ΔL;另一次單側(cè)檢驗的原假設(shè)則是當(dāng)前數(shù)據(jù)的效應(yīng)量大于SESOI 的上限ΔU。最后結(jié)合兩個單側(cè)檢驗的統(tǒng)計結(jié)果進(jìn)行等價檢驗的推斷:當(dāng)且僅當(dāng)TOST 中的兩個p 值均小于α 水平時,依據(jù)NHST框架的邏輯拒絕原假設(shè),可以接受備擇假設(shè)(“不存在有意義的效應(yīng)”)。此時研究者可以認(rèn)為存在統(tǒng)計上的等價性結(jié)果,即此效應(yīng)足夠小,在這一研究群體中是可以忽略的。但只要TOST 中有一個p 值大于α水平,就無法拒絕原假設(shè)(“存在有意義的效應(yīng)”),即統(tǒng)計結(jié)果不能支持等價的結(jié)論(Lakens,Scheel,&Isager,2018)。

        值得注意的是,等價檢驗也可以通過基于參數(shù)估計的方法實現(xiàn)。頻率統(tǒng)計框架下,研究者可以估計效應(yīng)的值及其置信區(qū)間(王珺等,2019),然后根據(jù)效應(yīng)量置信區(qū)間與SESOI 重合的比例進(jìn)行推斷(Tryon,2001)。例如,當(dāng)研究者把α 水平設(shè)為0.05時,可以對當(dāng)前數(shù)據(jù)的效應(yīng)量進(jìn)行參數(shù)估計計算得到其(1-2α)%(即90%)的置信區(qū)間(由于需獨立進(jìn)行兩次α 水平為0.05 的單側(cè)檢驗,因此等價檢驗需對效應(yīng)量構(gòu)建90%的置信區(qū)間,而非95%的,見Linde et al.,2020)。若其效應(yīng)量90%的置信區(qū)間與設(shè)定的SESOI 沒有重合(即其置信區(qū)間的上下限均不超出SESOI 的上下限),這就等同于TOST 中的兩個p 值均小于0.05,意味著存在統(tǒng)計上的等價性結(jié)果;反之,若其效應(yīng)量90%的置信區(qū)間與設(shè)定的SESOI 出現(xiàn)了重合(即其置信區(qū)間的上限或/和下限超出了SESOI 的上下限),這就意味著當(dāng)前結(jié)果不能支持存在統(tǒng)計上的等價性結(jié)果。

        2.2 貝葉斯估計的原理

        貝葉斯估計是貝葉斯統(tǒng)計框架下的參數(shù)估計方法(Kruschke&Liddell,2018)。貝葉斯統(tǒng)計(bayesian statistics)與頻率統(tǒng)計(frequentist statistics)的主要區(qū)別在于對概率(probability)的理解。頻率統(tǒng)計中的概率表示在無數(shù)次的重復(fù)抽樣中對于頻率(frequency)的期望,即長期行為表現(xiàn)的結(jié)果。而貝葉斯統(tǒng)計中的概率表示基于已有的信息,發(fā)生當(dāng)前事件的可信程度(credibility) (Kruschke,2014;McElreath,2018)。具體到推斷統(tǒng)計中,頻率統(tǒng)計認(rèn)為總體參數(shù)為固定值,而貝葉斯統(tǒng)計認(rèn)為總體參數(shù)是對應(yīng)概率分布下的隨機(jī)取值,并且概率分布可以隨著數(shù)據(jù)的獲取而不斷更新。貝葉斯統(tǒng)計的核心是貝葉斯法則(Bayes rules)。如果我們?yōu)榱斯烙嬆骋豢傮w分布的參數(shù)(θ)而抽取了一定樣本或“數(shù)據(jù)”(data),基于貝葉斯法則可以得到下述公式:

        其中,P(θ)表示在獲得數(shù)據(jù)前對于參數(shù)取值的信念, 即先驗分布(prior distribution);P(θ|data)表示獲得當(dāng)前數(shù)據(jù)后對先驗分布進(jìn)行更新后所得到的信念或者概率分布, 即后驗分布(posterior distribution),通常是研究者想進(jìn)行估計的。計算后驗分布不僅需要先驗信息,還需要P(data|θ)和P(data)。P(θ|data)表示當(dāng)參數(shù)值為θ時,出現(xiàn)當(dāng)前數(shù)據(jù)的可能性,即似然性(likelihood),也有文章將其稱為某個參數(shù)取值的預(yù)測充分性(predictive adequacy)(van Doorn et al.,2021);P(data)表示參數(shù)所有可能取值的加權(quán)求和或者積分得到的邊緣概率或者邊緣概率密度,亦可理解為歸一化因子(normalizing factor)。簡而言之,貝葉斯統(tǒng)計可以隨著數(shù)據(jù)的累積不斷更新后驗,進(jìn)而改變對參數(shù)不同取值的可信度(Kruschke&Liddell,2018)。

        應(yīng)用貝葉斯估計評估零效應(yīng)時,通過比較效應(yīng)為零時的參數(shù)取值范圍與后驗分布下參數(shù)概率分布的差異進(jìn)行統(tǒng)計推斷(Kirkwood & Westlake,1981;Rouder,2014;Westlake,1976)。這里后驗分布下的參數(shù)概率分布使用最高密度區(qū)間(highest density interval,HDI)表示,而效應(yīng)為零時的參數(shù)取值范圍是研究者預(yù)先設(shè)定的實際等價區(qū)(region of practical equivalence,ROPE)(Kruschke,2014,2018)。ROPE 類似于前文介紹的等價檢驗中SESOI,是一個包括零的幾乎可以忽略的效應(yīng)區(qū)間。確定ROPE 后,可以考察參數(shù)后驗分布的95%HDI 與ROPE 的重合度來評估零效應(yīng)。當(dāng)95%HDI完全落在ROPE 之內(nèi)時,說明可能性最高的參數(shù)實際上等價于0,因此可以接受零效應(yīng)(圖1D);當(dāng)95%HDI 和ROPE 部分重合時,意味著只有部分可能性高的參數(shù)取值等價于0,此時無法做出明確判斷(圖1E);當(dāng)95%HDI 完全落在ROPE 之外時,說明可能性最高的參數(shù)全部都不等價于0,因此可以拒絕零效應(yīng)(圖1F)(Kruschke,2011)。

        值得注意的是,貝葉斯估計本身是基于數(shù)據(jù)進(jìn)行模型擬合的過程,因此研究者可以使用不同的先驗和不同的模型。在這個過程中,需要考慮先驗分布設(shè)定的合理性以及MCMC 抽樣收斂(convergence),具體可以參考Depaoli 和van de Schoot(2017)以及van de Schoot 等(2021)。

        2.3 貝葉斯因子的原理

        貝葉斯因子的基本思路是通過模型比較的方式,獲得不同模型下出現(xiàn)當(dāng)前數(shù)據(jù)的可能性的相對比值。它嘗試回答的問題是當(dāng)前數(shù)據(jù)更可能在哪個模型為真的情況下出現(xiàn)。當(dāng)用于假設(shè)檢驗時,貝葉斯因子中的模型可參照NHST 中的原假設(shè)和備擇假設(shè)進(jìn)行設(shè)定。例如要評估效應(yīng)為零的原假設(shè)與效應(yīng)量不為零的備擇假設(shè)時,可將原假設(shè)設(shè)定為零模型M(即point null model,θ=0,效應(yīng)量為0 且無須參數(shù)分布),備擇假設(shè)為M(θ≠0,效應(yīng)量不為0 且需要通過模型內(nèi)先驗定義其概率分布)。換而言之,上文式(1)中的P(data|θ)中的參數(shù)θ實質(zhì)上是在某種模型下的參數(shù)。在進(jìn)行貝葉斯假設(shè)檢驗時,原假設(shè)與備擇假設(shè)對應(yīng)的模型參數(shù)(θ)的取值分布均會具體化。P(data|θ)在兩個假設(shè)模型之下分別為:P(data|θ,M)和P(data|θ,M)。而貝葉斯因子就是以這兩者的比值定義的(Keysers,Gazzola,&Wagenmakers,2020;Wagenmakers et al.,2018):

        其中,BF的下角標(biāo)中0 在前,1 在后,表示BF為H相對于H的貝葉斯因子。反之,BF就是將式(2)中的分子分母顛倒,表示H相對于H的貝葉斯因子。BF=9 表示當(dāng)前數(shù)據(jù)出現(xiàn)在H為真的情況下的可能性是出現(xiàn)在H為真的情況下的9 倍??梢罁?jù)貝葉斯因子的大小推斷當(dāng)前數(shù)據(jù)對兩個模型的支持證據(jù)的相對強(qiáng)度。關(guān)于貝葉斯因子的決策標(biāo)準(zhǔn),可參考Lee 和Wagenmakers(2013) 基于Jeffreys(1961)提出的結(jié)果分類陳述(胡傳鵬等,2018)。例如,BF在[3,10]之間時,可以解讀為當(dāng)前數(shù)據(jù)提供了中等強(qiáng)度的證據(jù)(Moderate evidence)來支持原假設(shè)(H)。

        作為貝葉斯統(tǒng)計推斷的一種方法,貝葉斯因子同樣涉及先驗的選擇。一般根據(jù)先前研究確定先驗,比如使用元分析得到的效應(yīng)量及其對應(yīng)的分布作為先驗。而對于沒有相關(guān)元分析的原創(chuàng)性研究,更常見的做法是使用一個標(biāo)準(zhǔn)化的先驗,比如在貝葉斯t 檢驗中,用柯西分布作為備擇假設(shè)的先驗(Rouder,Speckman,Sun,Morey,&Iverson,2009),δ ~Cauchy(χ=0,γ=1):其中χ 為位置參數(shù)(location parameter),定義分布下的峰值位置,與正態(tài)分布中的均值類似;γ 為尺度參數(shù)(scale parameter),定義分布下包含峰值50%參數(shù)取值范圍的一半寬度,與正態(tài)分布中標(biāo)準(zhǔn)差類似。為了讓備擇假設(shè)的先驗更符合心理學(xué)研究中效應(yīng)量分布的真實狀況,常用的計算貝葉斯因子的R 包BayesFactor 將默認(rèn)的先驗設(shè)定為Cauchy(0,0.707),即以0 為峰值,從-0.707到0.707 包含分布下50%的參數(shù)可能取值(Tendeiro and Kiers 2019)。備擇假設(shè)模型中參數(shù)先驗分布的選擇會對最終計算的BF值有較大影響。以貝葉斯t 檢驗為例,其他條件相同的前提下,備擇假設(shè)模型內(nèi)的先驗Cauchy 分布尺度參數(shù)γ 越大(分布越離散),貝葉斯因子的計算結(jié)果就偏向零模型(BF越大),因此通常情況下需要研究者對貝葉斯因子分析結(jié)果進(jìn)行穩(wěn)健性分析,即考察不同先驗分布下貝葉斯因子的結(jié)果獲得更為可靠的統(tǒng)計推斷。

        3 等價檢驗、貝葉斯估計、貝葉斯因子的應(yīng)用和比較

        以下將展示如何在兩個真實的數(shù)據(jù)中應(yīng)用上述三種方法。此二例數(shù)據(jù)均采用NHST 框架下的獨立樣本t 檢驗,且p 值未達(dá)到顯著水平。我們采用等價檢驗、貝葉斯估計和貝葉斯因子對此二例數(shù)據(jù)進(jìn)行重新分析,并從評估零效應(yīng)的能力、是否用到SESOI/ROPE、是否報告不確定信息和可拓展性方面比較了三種方法。分析使用了R統(tǒng)計軟件包4.0.2(R-Core-Team,2019)。其中,等價檢驗使用的是TOSTER 工具包(Lakens,2017),貝葉斯估計采用BEST 工具包(Kruschke & Meredith,2020),貝葉斯因子采用BayesFactor 工具包(Morey &Rouder,2018)。實例1 展示的是數(shù)據(jù)無較強(qiáng)證據(jù)支持零效應(yīng)的情況,而實例2 展示的是數(shù)據(jù)相對較強(qiáng)地支持零效應(yīng)的情況。分析涉及的所有的數(shù)據(jù)、代碼、結(jié)果及其解釋見osf.io/54qpv/。

        3.1 實例1:Kitchen Rolls

        實例1 的數(shù)據(jù)來自JASP(jasp-stat.org)分析軟件的示例數(shù)據(jù)“Kitchen Rolls”。該數(shù)據(jù)源自Wagenmakers 等(2015)對Topolinski 和Sparenberg(2012)進(jìn)行的重復(fù)研究。原研究的第二個實驗中,兩組被試分別以順時針方向(N=30)和逆時針方向(N=30)撥動卷紙,然后填寫一個測量開放性的問卷。結(jié)果發(fā)現(xiàn),相比于逆時針撥動的被試,順時針撥動的被試的開放性得分更高,t(58)=2.21,p<0.031,d=0.58。Wagenmakers 等(2015)在預(yù)注冊之后,重復(fù)了該研究的實驗二。研究的數(shù)據(jù)包含兩組被試在開放性人格特質(zhì)上的得分,其中一組被試在填寫問卷前順時針旋轉(zhuǎn)桌面上的紙卷(N=48),而另一組則在填寫問卷前逆時針旋轉(zhuǎn)紙卷(N=54)。

        由于等價檢驗和貝葉斯估計在統(tǒng)計過程中需要用到SESOI 或ROPE,因此首先需要確定SSEOI。本分析參考Simonsohn(2015)提出的重復(fù)研究中確定SESOI 邊界的方法,將SESOI 的等價邊界設(shè)置為原研究樣本量之下,33%檢驗力可探測到的效應(yīng)量,即SESOI 為[-0.40,0.40](計算過程見在線R Notebook,osf.io/gn2hm/)。

        NHST 未發(fā)現(xiàn)兩組被試在開放性上的得分差異達(dá)到統(tǒng)計顯著,t(100)=- 0.75,p=0.453,d=-0.149。貝葉斯因子則為零效應(yīng)提供了中等強(qiáng)度的證據(jù),BF∈(3,10),具體而言,不同先驗——Cauchy(0,0.707)、Cauchy(0,1)、Cauchy(0,1.5)——之下的貝葉斯因子分別為BF=3.71、5.02、7.31。等價檢驗和貝葉斯估計的結(jié)果基本一致,即無法判斷數(shù)據(jù)是否支持零效應(yīng):在貝葉斯估計中,95%HDI 和ROPE 部分重合;在等價檢驗中,TOST 左側(cè)的p 值大于α 水平(圖2A)。綜合三種方法,可認(rèn)為該數(shù)據(jù)無法為零效應(yīng)提供較強(qiáng)的證據(jù),同時也無法為效應(yīng)的存在提供較強(qiáng)的證據(jù)。這提示研究者需要進(jìn)一步分析實驗設(shè)計中可能存在的問題,并進(jìn)行下一步研究和分析。

        3.2 實例2:Sociometric status and well-being

        實例2 的數(shù)據(jù)來自Many Labs 2 項目(osf.io/uazdm/)中的一個研究。Many Labs 2由36 個國家和區(qū)域的不同實驗室合力完成,共重復(fù)了28 個經(jīng)典的實驗,總樣本量達(dá)15305(Klein et al.,2018)。實例2 的數(shù)據(jù)來自報告中的第12 個重復(fù)研究“Sociometric status and well-being”。該研究重復(fù)原研究中的實驗三,探究相對于社會經(jīng)濟(jì)地位,社會關(guān)系地位與幸福感的關(guān)系是否更緊密(Anderson,Kraus,Galinsky,& Keltner,2012)。原研究中報告了一個顯著的簡單效應(yīng)分析結(jié)果,相對低社會關(guān)系地位條件的被試,高社會關(guān)系地位條件的被試有更高的 主 觀 幸 福 感,t(115)=3.05,p=0.003,d=0.57,95%CI[0.20,0.93]。Many Labs 2 主要重復(fù)了原研究中主觀幸福感有差異的低社會關(guān)系地位條件和高社會關(guān)系地位條件,共包括6905 個樣本。同實例1,我們用三種統(tǒng)計方法進(jìn)行分析。在分析之前,我們同樣采用實例1 的方式確定SESOI 和ROPE為[-0.20,0.20]。

        NHST 未 發(fā) 現(xiàn) 顯 著 的 效 應(yīng),t(6903)=-1.76,p=0.079,d=-0.04。然而等價檢驗、貝葉斯估計和貝葉斯因子的統(tǒng)計檢驗結(jié)果均支持了零效應(yīng)(圖2B)。等價檢驗的結(jié)果表明,對SESOI 的下、上限的兩次單側(cè)檢驗均顯著(p<0.001)。對于貝葉斯估計,兩組差異效應(yīng)量的95%HDI 完全落在ROPE內(nèi)。貝 葉 斯 因 子 在Cauchy(0,0.707)、Cauchy(0,1)、Cauchy(0,1.5)三種先驗分布下的結(jié)果分別為:BF=7.87、11.11、16.64,達(dá)到了中等和較強(qiáng)程度支持零效應(yīng)的證據(jù)(Lee&Wagenmakers,2013)。其中,當(dāng)先驗分布的尺度參數(shù)變大時,BF趨向于提供較強(qiáng)程度支持零效應(yīng)的證據(jù)。三種評估零效應(yīng)的方法一致支持了零效應(yīng),研究者可以較有信心地推斷目標(biāo)效應(yīng)為零。

        圖2 四種統(tǒng)計檢驗對兩個實例數(shù)據(jù)的分析結(jié)果與推論

        3.3 等價檢驗、貝葉斯估計、貝葉斯因子的比較

        在NHST 框架下,以上兩個實例數(shù)據(jù)均沒有得到p<0.05 的結(jié)果,即未能拒絕原假設(shè)。然而,這并不意味著當(dāng)前數(shù)據(jù)可以支持零效應(yīng)的存在。實例1 的結(jié)果表明,雖然NHST 得到的p 值較大,但等價檢驗、貝葉斯估計、貝葉斯因子分析均表明該數(shù)據(jù)并不能為零效應(yīng)提供較強(qiáng)的證據(jù)。而實例2的結(jié)果則表明,樣本效應(yīng)量與事先確定的近似于零的區(qū)間(SESOI/ROPE)無差別,而貝葉斯因子也提供了較強(qiáng)的支持零效應(yīng)的證據(jù),因此可以得到零效應(yīng)的推論。兩個實例數(shù)據(jù)的研究設(shè)計相對簡單,因此三種方法均可以使用。但在更加復(fù)雜的研究設(shè)計中,是否能夠同時使用三種方法可能需要進(jìn)行深入地考察。以TOSTER 包為例,等價檢驗?zāi)壳爸话藅 檢驗、元分析、相關(guān)分析等方法(Lakens,2017),這意味著其可拓展性方面存在限制。為了幫助研究者采用合適的方法,本文從幾個維度對NHST 和三種方法進(jìn)行比較(表1)。

        表1 原假設(shè)檢驗、等價檢驗、貝葉斯估計和貝葉斯因子的特征及其對比?!癘”表示有此特征,“X”表示無此特征。

        首先,等價檢驗、貝葉斯估計和貝葉斯因子均可以用來支持零效應(yīng),這是它們區(qū)別于NHST 之處。因此,研究者在得到不顯著結(jié)果時,可以采用這三種方法進(jìn)一步從不顯著結(jié)果中提取信息。其次,如果研究者希望支持零效應(yīng),使用等價檢驗與貝葉斯估計均需要使用SESOI(Kruschke & Liddell,2018;Lakens,Scheel,&Isager,2018),這意味著研究者需要提前確定一個合理的區(qū)間,才能進(jìn)行合理的推斷。但是計算貝葉斯因子時,則不需要確定SESOI。第三,等價檢驗和貝葉斯估計提供了關(guān)于推斷中不確定性的信息,且后者提供的不確定信息更為詳實,描繪了參數(shù)的不同取值出現(xiàn)的相對概率(Kruschke & Liddell,2018);而貝葉斯因子本身不提供這些信息。第四,從可拓展性上來看,理論上三種方法均可以廣泛適用于各個情境,但不同情境均需要對模型進(jìn)行設(shè)定。從實踐上來看,由于眾多工具包的出現(xiàn)(如R 語言包brms,Bürkner,2017),貝葉斯估計可以相對簡便地運(yùn)用于線性和一般線性回歸模型的(Kruschke &Liddell,2018;Kruschke & Meredith,2020),但是貝葉斯因子和等價檢驗?zāi)壳翱色@得的工具包則仍然較為限制。具體而言,貝葉斯因子目前主要可用于t 檢驗、相關(guān)分析、方差分析和線性回歸分析等常用的統(tǒng)計模型(Morey&Rouder,2018);而等價檢驗(基于TOSTER)主要可用于t 檢驗、元分析和相關(guān)分析(Lakens,2017)。對于更加復(fù)雜的研究設(shè)計,如中介、調(diào)節(jié)分析等,貝葉斯因子和等價檢驗尚未被整合到便利的工具包中。

        除了三種方法原理特征上的差異外,隨著樣本量、等價區(qū)間的變化,三種方法的統(tǒng)計檢驗力(即效應(yīng)量真值在等價區(qū)間內(nèi)時,統(tǒng)計結(jié)果判斷為等價的概率)也有不同。Linde 等研究者(2020)通過一系列的模擬發(fā)現(xiàn)貝葉斯因子相對另外兩種方法有更強(qiáng)的統(tǒng)計檢驗力,并且在樣本相對較小的時候有更高的辨別力。

        類似地,以上述兩個實例的具體參數(shù)(樣本量、等價邊界)作為模擬參考,我們的模擬也發(fā)現(xiàn),當(dāng)效應(yīng)量真值在區(qū)間[0,0.5]時,貝葉斯因子的統(tǒng)計檢驗力(即真實效應(yīng)量落在等價區(qū)間,統(tǒng)計方法推斷可以看作是效應(yīng)量為零的比例)較高。但同樣,其假陽性也更高(即真實效應(yīng)量不在等價區(qū)間,但統(tǒng)計方法的結(jié)果認(rèn)為其效應(yīng)量可以看作為零的概率)(見圖3)。貝葉斯因子較高的敏感性在樣本量小的時候更加明顯,因此貝葉斯因子可能是小樣本研究中用以支持零效應(yīng)較好的方法,而適當(dāng)收緊其判斷標(biāo)準(zhǔn)(如將BF>10 作為等價標(biāo)準(zhǔn),而非BF>3)是權(quán)衡其較高統(tǒng)計檢驗力和較高一類錯誤的有效策略之一。

        圖3 等價檢驗、貝葉斯估計和貝葉斯因子在不同樣本量、等價邊界上的統(tǒng)計檢驗力及一類錯誤率

        三種方法相對于NHST 均可以用于支持零效應(yīng),然而結(jié)果解釋上存在理論上的區(qū)別。等價檢驗通過引入SESOI 彌補(bǔ)了NHST 功能上的缺陷,即不能用于推斷效應(yīng)不存在(Greenland et al.,2016;Wasserstein&Lazar,2016)。其所在的統(tǒng)計框架仍為頻率統(tǒng)計,即將統(tǒng)計推斷建立在無數(shù)次的重復(fù)抽樣中對于頻率(frequency)的期望上。而基于貝葉斯統(tǒng)計框架下的貝葉斯因子和貝葉斯估計則有所區(qū)別。貝葉斯因子的統(tǒng)計推斷本質(zhì)上基于模型比較,即比較當(dāng)前數(shù)據(jù)在兩個相互競爭的模型中出現(xiàn)的相對概率(Keysers et al.,2020;Wagenmakers et al.,2018;胡傳鵬等,2018)。貝葉斯估計則通過估計后驗分布的95%HDI 與類似于等價檢驗中SESOI 概念的ROPE 進(jìn)行比較得到結(jié)論。推斷的形式上,貝葉斯估計和等價檢驗相似,然而前者的HDI 與后者的CI 在對概率的認(rèn)識上存在本質(zhì)上的區(qū)別,也即貝葉斯統(tǒng)計和頻率統(tǒng)計之間對概率不同認(rèn)識 上 的 區(qū) 別(Kruschke,2014;McElreath,2020)。

        4 總結(jié)與建議

        心理學(xué)研究中不同的統(tǒng)計方法正在相互融合中共同發(fā)展,但對于評估零效應(yīng)的方法卻仍然受到相當(dāng)程度的忽視(溫忠麟等,2021)。等價檢驗、貝葉斯估計和貝葉斯因子等統(tǒng)計方法的出現(xiàn),一定程度上彌補(bǔ)了傳統(tǒng)NHST 無法評估零效應(yīng)的缺陷,幫助研究者進(jìn)一步區(qū)分“有證據(jù)支持零效應(yīng)”和“沒有證據(jù)支持有效應(yīng)”這兩種情況。本文介紹的三種方法在多個方面存在差異,各有特點,研究者可以根據(jù)當(dāng)前研究的情況選擇合適的方法。例如從便捷性上考慮,使用JASP 軟件進(jìn)行貝葉斯因子分析是一個不錯的選擇。首先JASP 是一款免費使用的開源統(tǒng)計軟件,能夠覆蓋心理學(xué)研究中常用的統(tǒng)計分析方法;其次它依托圖形用戶界面進(jìn)行操作,對編程的需求相比其他兩種方法更低;最后JASP 的使用手冊比較完備,且有相應(yīng)的分析與結(jié)果報告指南(van Doorn et al.,2021),此外,在其網(wǎng)站(jasp-stats.org)與論壇(https://forum.cogsci.nl/index.php?p=/categories/jasp-bayesfactor)也可以進(jìn)一步獲取必要的指導(dǎo)信息。如果從方法的嚴(yán)謹(jǐn)性上考慮,研究者可以同時采用多種方法評估零效應(yīng),便于交叉驗證,提高統(tǒng)計推斷的可靠性。當(dāng)然這意味著研究者需要投入相當(dāng)?shù)木θカ@取必要的知識和技能(如形成基本認(rèn)識,明確使用前提,規(guī)范統(tǒng)計報告等),避免統(tǒng)計方法的濫用和誤用(Gigerenzer,2018)。此外,當(dāng)研究設(shè)計較為復(fù)雜時,缺乏必要的統(tǒng)計背景和編程技能會讓一些研究者束手無策或者誤用這些方法,因此,研究初期提出清晰的研究假設(shè)并據(jù)此在實驗設(shè)計上盡量精簡會對后續(xù)的數(shù)據(jù)分析有裨益(一個較詳盡的如何選擇恰當(dāng)?shù)姆椒ǖ牧鞒蹋蓞⒖佳a(bǔ)充材料中的流程圖)。

        最后,我們建議,評估零效應(yīng)時注意以下三點:其一,如果采用等價檢驗和貝葉斯估計的方法,需要清楚地報告所采用的SESOI/ROPE,并論證其合理性;如果采用貝葉斯估計或者貝葉斯因子,還需要澄清所采用的先驗及其合理性,也可以報告不同先驗下的結(jié)果穩(wěn)定性。其二,如果可行,建議同時采用多種分析方法,交叉驗證同一個結(jié)果的穩(wěn)定性,例如上文的兩個實例分別使用三種方法評估零效應(yīng)。其三,如有可能,在研究開始前或者數(shù)據(jù)分析前進(jìn)行預(yù)注冊,預(yù)注冊中可以提供評估零效應(yīng)的相應(yīng)方法和參數(shù),比如SESOI/ROPE 和先驗的確定。

        5 補(bǔ)充材料

        5.1 最小感興趣區(qū)(SESOI)與實際等價區(qū)(ROPE)的確定

        在等價檢驗和貝葉斯估計中,都會使用一個區(qū)間來定義一個足夠小的,或者說可以被忽略的效應(yīng)。在等價檢驗中,稱為最小感興趣區(qū)(SESOI),而貝葉斯估計將其定義為實際等價區(qū)(ROPE)。其他領(lǐng)域的研究者還會使用其他名稱,如臨床領(lǐng)域的臨床等價區(qū)間(interval of clinical equivalence)(Lesaffre 2008) 和藥理學(xué)的等價區(qū)間(equivalence interval)(Schuirmann 1987) 等。但這些概念本質(zhì)上是相似的,都是為了定義一個包括零效應(yīng)在內(nèi)的足夠小的區(qū)間,或者說更符合實際研究情況的零效應(yīng)。由于ROPE 與SESOI 的相似,下文將僅從SESOI 視角介紹。通過檢驗?zāi)繕?biāo)效應(yīng)與該區(qū)間的相對關(guān)系可推斷當(dāng)前數(shù)據(jù)支持零效應(yīng)、拒絕零效應(yīng)還是無法做出判斷(Lakens,Scheel et al. 2018,Kruschke and Meredith 2020)。當(dāng)前數(shù)據(jù)的效應(yīng)量區(qū)間一定時,如果SESOI 比較寬松,則效應(yīng)量區(qū)間可能完全落在SESOI 內(nèi),得到支持零效應(yīng)的推斷;而SESOI 范圍較小時,效應(yīng)量區(qū)間可能未完全在SESOI 內(nèi),得到無法判斷當(dāng)前數(shù)據(jù)是否支持零效應(yīng)的結(jié)論。因此SESOI 的設(shè)定會直接影響零效應(yīng)評估的結(jié)論。

        SESOI 的設(shè)定需要具體問題具體分析。但是無論使用何種方法,研究者均需要對其設(shè)定合理性進(jìn)行說明(Lakens,Scheel et al.2018)。通常,當(dāng)研究者所感興趣的效應(yīng)量已經(jīng)有先前研究進(jìn)行過探索,則可以參考先前研究的結(jié)果。例如,Simonsohn(2015)建議,在重復(fù)研究中,可將SESOI 的等價邊界設(shè)置為之前研究的33%檢驗力可探測到的效應(yīng)。其理由在于,檢驗力低于33%時得到的效應(yīng)有多于66%的概率得到的顯著結(jié)果是不可信的(Simonsohn,Nelson et al.2014)。但Simonsohn(2015)的建議并非 唯 一 的 建 議,Kordsmeyer 和 Penke(2017)則建議,在重復(fù)性研究中,可將SESOI 的等價邊界設(shè)定在先前研究的平均效應(yīng)量上,并檢驗當(dāng)前數(shù)據(jù)是否顯著小于之前研究平均水平的效應(yīng)量。然而這種方法無法排除先前研究隨機(jī)性和出版偏見的影響。此外,還有觀點認(rèn)為可以將等價邊界設(shè)定在之前研究正好可以觀測到顯著效應(yīng)的臨界值(Lakens,Scheel et al.2018)。另一個可能更穩(wěn)健的方法是用元分析中估計效應(yīng)量的置信區(qū)間(90%或95%)的下邊界(效應(yīng)為正的情況下)作為等價邊界(Perugini,Gallucci et al.2014)。最后,值得注意的是,在頻率學(xué)派和貝葉斯派兩種不同的統(tǒng)計思想的框架下,SESOI 和ROPE 對應(yīng)的結(jié)果解釋是有區(qū)別的(Kruschke and Liddell 2018,Kruschke and Meredith 2020)。

        5.2 評估零效應(yīng)的流程圖

        圖4 評估零效應(yīng)的三種統(tǒng)計方法的使用流程

        補(bǔ)充材料參考文獻(xiàn)

        Kordsmeyer,T.L. & L. Penke(2017).“The association of three indicators of developmental instability with mating success in humans.”Evolution and Human Behavior 38(6):704-713.

        Kruschke,J. & T.M. Liddell(2018).“The Bayesian New Statistics:Hypothesis testing,estimation,meta-analysis,and power analysis from a Bayesian perspective.”Psychonomic Bulletin & Review 25(1):178-206.

        Kruschke,J. & M. Meredith(2020). BEST:Bayesian estimation supersedes the t-Test.

        Lakens,D.,et al.(2018). “Equivalence testing for psychological research:A tutorial.”Advances in Methods and Practices in Psychological Science 1(2):259-269.

        Lesaffre,E.(2008). “Superiority,equivalence,and non-inferiority trials.” Bulletin of the NYU Hospital for Joint Diseases 66(2):150-154.

        Perugini,M.,et al.(2014). “Safeguard power as a protection against imprecise power esti mates.”Perspectives on Psychological Science 9(3):319-332.

        Schuirmann,D.J.(1987). “A comparison of the two one-sided tests procedure and the power approach for assessing the equivalence of average bioavailability.”Journal of Pharmacokinetics and Biopharmaceutics 15(6):657-680.

        Simonsohn,U. (2015). “Small telescopes:Detectability and the evaluation of replication results.”Psychological Science 26(5):559-569.

        Simonsohn,U., Nelson,L.D., & Simmons,J.P.(2014). P-curve: A key to the file-drawer.Journal of Experimental Psychology General, 143(2),534-547.

        猜你喜歡
        等價先驗貝葉斯
        基于無噪圖像塊先驗的MRI低秩分解去噪算法研究
        n次自然數(shù)冪和的一個等價無窮大
        中文信息(2017年12期)2018-01-27 08:22:58
        基于自適應(yīng)塊組割先驗的噪聲圖像超分辨率重建
        貝葉斯公式及其應(yīng)用
        基于貝葉斯估計的軌道占用識別方法
        一種基于貝葉斯壓縮感知的說話人識別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        基于平滑先驗法的被動聲信號趨勢項消除
        收斂的非線性迭代數(shù)列xn+1=g(xn)的等價數(shù)列
        先驗的廢話與功能的進(jìn)路
        環(huán)Fpm+uFpm+…+uk-1Fpm上常循環(huán)碼的等價性
        午夜高清福利| 日韩av无码一区二区三区| 正在播放国产多p交换视频| 色妺妺在线视频| 欧洲乱码伦视频免费| 熟女人妻一区二区三区| 国产乱人对白| 国产熟妇搡bbbb搡bb七区| 日韩在线不卡一区在线观看| 久久国产精品免费一区二区三区 | 亚洲日韩精品欧美一区二区| 日韩精品成人无码AV片| 亚洲中文字幕一二区精品自拍| 熟女体下毛荫荫黑森林| 国产亚洲人成a在线v网站| 国产综合第一夜| 91国产精品自拍视频| 成人免费无码大片a毛片抽搐色欲 日本动漫瀑乳h动漫啪啪免费 | 精品人人妻人人澡人人爽牛牛| 国产精品乱子伦一区二区三区| 日本高清一区二区不卡| 国产成人无码综合亚洲日韩| 成人做爰69片免费看网站| 国产av大片在线观看| 白白色发布会在线观看免费| 少妇性饥渴无码a区免费| 国产综合自拍| 亚洲情精品中文字幕99在线| 精品免费国产一区二区三区四区| 亚洲国产成人va在线观看天堂| 亚洲人成网站18男男| 在线国产激情视频观看| 人妻久久久一区二区三区| 美女裸体无遮挡免费视频的网站| 国产三级一区二区三区在线观看 | 男人的天堂av网站| 亚洲av成本人无码网站| av网站可以直接看的| 精品无码av无码专区| 精品久久人人爽天天玩人人妻| 蜜臀aⅴ永久无码一区二区|