駱大森
(美國賓夕法尼亞印第安納大學,美國)
心理學可重復性危機兩種根源的評估
駱大森
(美國賓夕法尼亞印第安納大學,美國)
心理學的可重復性危機有兩大已知的根源:傳統(tǒng)統(tǒng)計學中虛無假設顯著性檢驗體系的局限,和心理學的學術傳統(tǒng)中的弊端,本文以開放科學協(xié)作組2015年報告的數(shù)據(jù)為依據(jù),試對這兩個根源的影響作一粗略的估算。采用Goodman(1992)和Cumming(2008)提出的方法對傳統(tǒng)統(tǒng)計體系所加諸于可重復性的限制加以分析后,估算的結果表明傳統(tǒng)統(tǒng)計學體系的制約,雖然有舉足輕重的影響,卻遠不能完全解釋該報告中低至36%的可重復率,該報告所反映的狀況,顯然還另有重大的非統(tǒng)計學的根源。本文進一步用Ioannidis(2005)提出的模型對這類非統(tǒng)計學因素的影響加以分析。分析后得到的若干組人為偏差率和Ha真實概率的估算,表明在原來研究所獲得的幾乎清一色的陽性結果中,大約只有不到三分之一或更低的比例是真陽性,而且相當部分的陽性結果,可能由人為偏差所造成。這樣的分析可比較具體地描述該類因素對當前可重復性危機的可能影響。
心理學可重復性危機,傳統(tǒng)統(tǒng)計檢驗的局限,心理學學術傳統(tǒng)中的弊端,備擇假設真實概率,人為偏差,危機根源的評估。
近期來一些大規(guī)模調(diào)查的結果,使心理科學研究的可重復性成了人們議論的焦點,這些議論,不但見諸于影響因子最高的科學期刊上(Open Science Collaboration, 2015; Baker, 2015, 2016;Gilbert, King, Pettigrew, & Wilson, 2016; Anderson et al., 2016),也出現(xiàn)在享有很高聲譽的大眾媒體上(如Carroll, 2017),在中國國內(nèi)的心理學同行中,也引起了相當?shù)年P注(胡傳鵬等, 2016; 焦璨,張敏強, 2014; 朱瀅, 2016)。特別值得注意的是,這一問題并不僅僅困擾著心理學科學工作者,也在其它重要科學領域中掀起不小的波瀾。比如最近經(jīng)過嚴格驗證發(fā)現(xiàn),在五篇有影響的癌癥研究文章中,只有兩篇的結果被重復驗證所肯定(Kaiser, 2017),引起了生物醫(yī)學界中的一場軒然大波。這一系列的情況,使得當前對科學研究可重復性的反思,在一個前所未有的深度和廣度上展開,而積極關注和參與這一反思,是廣大心理工作者,包括中國心理工作者無可推脫的職責。
若干年來,人們對心理學研究的可重復性一直存在著種種疑問,這些疑問中,最引人關切的是心理學在研究的可重復性上是否存在著可稱作危機的嚴重問題。雖然對于危機與否的確定,難免受各人主觀成見的影響,但最近的發(fā)展,至少使得人們對問題的嚴重性有了比較清醒的認識。本文采用危機的提法,主要為了強調(diào)解決這一問題的緊迫性,如聽任流弊相沿,不全面改變心理學研究的現(xiàn)狀,其后果對心理科學的發(fā)展可能是災難性的。當前的分歧其實主要是如何對危機的嚴重程度作一個客觀的評價,例如不少人并不認為局面已經(jīng)到了令人十分悲觀的地步,覺得目前的一些嚴厲評批有言過其實之虞(Gilbert et al.,2016)。對這一危機的嚴重程度作一恰如其分的估價,難度頗大,但有一定的必要性,因為做出一個較準確的估價,將幫助人們提出更有效更有針對性的措施。
正像不少人在討論中所指出的那樣,當前的可重復性危機,既有學術傳統(tǒng)上的根源,也有統(tǒng)計學上的根源(Goodman, 1992; Cumming, 2008;Ioannidis, 2005, 2012; John, Loewenstein, & Prelec,2012; Joober, Schmitz, Annable, & Boksa, 2012; Nosek,Spies, & Motyl, 2012; Wagenmakers, Wetzels,Borsboom, van de Maas, & Kievit, 2012; 胡傳鵬等,2016; 焦璨, 張敏強, 2014),而從這兩個根源各作一些分析,得出某種雖然粗略但合理的估價,可幫助人們在對這一危機的反思中較好地把握分寸。本文擬以盡可能淺顯的方式,提供一點這樣的分析,期能對廣大心理學者的反思有所助益。
2015年,以開放科學協(xié)作組名義發(fā)表的一份報告(OpenScience Collaboration,下文簡稱OSC,2015),在已經(jīng)議論叢生的心理學界引起了巨大地反響。OSC選取了2008年在三家心理學重要期刊上發(fā)表的100個研究結果,對每個選取的結果在新的被試樣本中按原研究程序作了重復觀察,并將重復的結果與原來的結果加以比較。經(jīng)過比較,OSC的總的結論是:原來的結果只有一小部分經(jīng)過重復得到驗證。例如在原來的100個結果中,有百分之九十七達到了0.05水平上的統(tǒng)計顯著性,而在重復觀察的結果中,只有百分之三十六達到了0.05水平上的統(tǒng)計顯著性。原來結果的平均實驗效應值(mean effect size)為0.403(SD=0.188),而重復研究的平均實驗效應值僅為0.197(SD=0.257)。只有47%的原來結果的效應量(effect size)落入重復研究的95%置信區(qū)間(confidence interval),也即意味有一半以上(53%)的原結果在統(tǒng)計上顯著不同于重復結果。OSC認為如此不盡人意的可重復性,反映出心理學在學術傳統(tǒng)上過于強調(diào)研究成果的創(chuàng)新意義,而過于輕視研究成果的可重復性。
OSC的一些主要成員此前還進行過另一個有關心理學研究可重復性的協(xié)作項目(Klein et al.,2014, 以下簡稱Many Labs,2014),該項目的重點是調(diào)查心理學以往一些研究的效應量的可重復性,及幾個可能影響其可重復性的因素。該項目選取了13項以往發(fā)表的結果,由參加該協(xié)作的每家研究機構(共36家)對其中每項結果均做重復實驗,從而可提供每項選取結果的三十多個重復研究結果。在選取的結果中,有些是著名的實驗成果(如若貝爾獎得主Kahneman的兩個經(jīng)典的成果),也有些是比較近期發(fā)表的成果。有些成果已知有優(yōu)良的可重復性,有些成果的可重復性則尚待驗證。最終的數(shù)據(jù)顯示:在13項結果中,有10項的統(tǒng)計顯著性被重復實驗所證實。但這些顯著性被證實的結果,它們的效應量多和重復實驗的效應量不相吻合,例如僅有百分之三十強的重復實驗的效應量中值落入了原來效應量的95%置信區(qū)間(confidence interval)中,其它的重復實驗的效應量中值都較遠地偏離了原效應量。
Many Labs研究組最近又完成了另一項由二十家機構協(xié)作的重復性研究(Ebersolea et al., 2016; 以下簡稱Many Labs 2016)。這次在選取重復對象時,該研究組避開了公認的具有優(yōu)良可重復性的對象,僅選取社會心理學和人格心理學領域里可重復性性質(zhì)不明的一些研究成果作為重復的對象,最后選中的九項都屬于比較引人注意但在可重復性上存在某些疑問的研究成果。這二十家機構對九項中的每項結果都進行了重復研究,從而取得了每項結果的二十個重復樣本。這些重復樣本的數(shù)據(jù)在統(tǒng)計顯著性上只驗證了原來九個結果中的三個,而且其中有一個的原效應量與重復結果的效應量相去較遠。
科學講究嚴密,而這些報告所反映的狀況,難免令人對心理科學的嚴密性打一個不小的問號。如上文所述,如果人們將關注的眼光,延展到超越心理學疆界的更廣大的科研領域中去,就會發(fā)現(xiàn)在研究可重復性方面存在的問題,有著更為普遍深遠的根源,而這些根源,既有統(tǒng)計學上的,又有非統(tǒng)計學的學術傳統(tǒng)上的,亟待人們追本尋源,逐一厘清。本文擬以OSC(2015)的報告為樣本,對這兩大類根源作一區(qū)分,并分別提供對于二者的粗略估價。
傳統(tǒng)虛無假設顯著性檢驗(null hypothesis significance testing, NHST)體系中最關鍵的部分,第一是提出所謂的虛無假設(null hypothesis,H0),第二是根據(jù)現(xiàn)有的數(shù)據(jù)對H0做出保留或拒斥的二元決策。更具體來說,虛無假設可表達為H0=0,或效應量為0,而如果拒斥H0, 則接受H0≠0(也可以是>0或<0)的備擇假設(alternative hypothesis, Ha)。從現(xiàn)有數(shù)據(jù)中所獲得的統(tǒng)計量如果達到事先預定的顯著性標準,則拒斥H0=0并接受Ha, 否則便保留H0=0的虛無假設。這一二元決策的任一結果,都會有錯誤的可能,即一類錯誤(type 1 error)和二類錯誤(type 2 error)。一類錯誤指真實效應量(true effect size)等于0時(H0=0)統(tǒng)計檢驗卻呈顯著的錯誤,而二類錯誤則指真實效應量不等于0(或大于/小于0)時統(tǒng)計檢驗卻呈不顯著的錯誤。
舉例來說,如果有人要比較男女兒童在智商上可能的差異,他/她首先必須闡述H0,也即首先假定男女兒童在智商上的差異為0(效應量=0,或H0=0)。假設檢驗的結果,如果是拒斥了H0,則意味著必須接受Ha,認為男女兒童有智商差異。由于假設檢驗是一種統(tǒng)計的檢驗,檢驗的結論都會有或大或小的錯誤概率。如果最終的決定是拒斥虛無假設(拒斥男女兒童智商差異為0的假設),而實際上虛無假設倒是正確的(男女兒童在智商上差異確實為0),則結論的錯誤屬一類錯誤。倒過來,如結論是肯定男女兒童智商差異差異為0這一H0假設,而Ha卻偏是對的,亦即男女兒童的智商差異實際并不為0,則結論的錯誤屬二類錯誤。
在拒斥虛無假設時,須預先劃定一類錯誤概率的容忍范圍,一般該范圍選擇在0.05(或0.01)以下。如果從現(xiàn)有數(shù)據(jù)獲得的統(tǒng)計量在一類錯誤水平上低于0.05或0.01,通常的說法就是研究的結果在統(tǒng)計上顯著,也即認為這樣小的一類錯誤可以容忍,因而拒斥H0=0,接受Ha。對于這樣的結果有一種誤解,是認為既然現(xiàn)有的數(shù)據(jù)表明H0=0(真實效應量=0)成立的概率低于0.05,那么Ha(H0≠0,或真實效應量≠0,即例子中所述的男女兒童的真實智商差異不為0)成立的概率應大于0.95,也即誤以為在重復研究時發(fā)現(xiàn)男女兒童智商有顯著差異的概率應大于0.95,但實際上,這個概率會遠小于0.95。
Goodman(1992)指出,比較理想的情況下,當真實效應量等于原來研究所報告的效應量時,原來0.05水平的顯著成果,只有約0.50的概率在重復時也呈0.05水平上的顯著,原來0.01水平的顯著成果,只有約0.73的概率在0.05水平上呈顯著(見圖1)。
圖1a取之Goodman(1992, Figure 1),但做了改動。原圖中首次檢驗的統(tǒng)計值的顯著水平由0.01改為0.05。圖1b也據(jù)Goodman(1992, Figure 1)做了部分改動。對于雙向(2-tailed)檢驗,Ha的分布曲線在左側尚有小于–zα/2=–1.96的豎條陰影部分,在圖1a和圖1b中該陰影部分因太微小而無法顯示。
Goodman以簡單的z檢驗說明以上的結論,但同樣的結論也適用于更復雜的t檢驗和F檢驗。仍以男女兒童智商差異為例,根據(jù)H0=0的假設,男女兒童的總體平均差別應等于0。在首次取樣時,女童的樣本平均(sample mean)比男童的樣本平均高出3.0,且由該3.0的差異得出的檢驗統(tǒng)計量z=1.96正好位于雙向(2-tailed)0.05水平顯著的分界點上。假定事先擬定的一類錯誤水平是0.05,那么檢驗的結論就應是男女兒童在智商水平上有顯著差異,從而拒斥H0=0。做出這一結論的依據(jù)是,如果H0=0成立的話,再在男女兒童總體中以同樣的方式反復取樣,將會有95%的男女樣本平均差落在–3.0和3.0之間,而僅有5%的樣本平均差會超出±3.0,如此微小的幾率,使得H0=0難以成立,因此拒斥H0。但這樣的結果并不意味著Ha成立的概率將大于或等于95%。
圖 1 首次檢驗顯著水平為0.05或0.01,假定真實效應量已知,重復驗證時獲0.05水平顯著結果的概率分布
為了便于說明,先假定男女兒童智商的總體平均差異(population mean difference)確實不為0,且該差異恰好是3.0,也即Ha=3.0在兒童總體中成立。這樣的情境,并不意味著在未來的研究中有95%的概率重復女童顯著高于男童的結果,因為男女兒童的樣本平均差(sample mean difference)是一個隨機變量,在未來的研究中也會隨機地在3.0上下浮動,實際女童的樣本平均比男童的樣本平均高3.0或更多的概率在未來的重復實驗中僅有50%(見圖1a)。
以上假設的情境會使人產(chǎn)生一個疑問:在實際的研究中,所獲得的顯著結果極少有可能正好落在0.05的臨界點上,絕大部分的顯著結果會是低于0.05的臨界點,如果這樣的話,顯著結果的可重復性是否會大大提高了呢?圖1b表明即使首次研究的結果明顯地低于0.05的水平,而達到了0.01的水平,在未來的重復實驗中,仍然只有73%的結果會在0.05水平上顯著。以男女兒童智商差異為例,假如在首次實驗中男女兒童的樣本平均差是3.87,樣本統(tǒng)計量z=2.58,顯著水平為0.01。再假定男女兒童的總體平均差確為3.87,但由于男女兒童的樣本平均差是一個隨機變量,在重復取樣時,仍會有27%的樣本平均差會小于3.0而達不到0.05的顯著水平。
以上Goodman(1992)所設想的這些情境都假定真實的效應量是已知的(如男女兒童智商的總體平均差異為已知的3.00或3.87),但在絕大多數(shù)的實際研究中,真實的效應量是無法確定的。Goodman指出,在真實的效應量未知的情境中,顯著結果的可重復率將會更低。
Cumming(2008)進一步分析了真實的效應量未知的情況。如果真實的效應量未知(例如男女兒童智商的總體平均差異未知),已知的僅是在某次實驗中樣本平均差的顯著水平,諸如0.030,0.008之類的低于0.05臨界點的一類錯誤概率水平,人們?nèi)钥梢該?jù)此推算以后在同類實驗中得到顯著結果的概率,只是由于有關真實的效應量的不確定性,顯著結果的可重復率將會低于上述Goodman所列出的水平。圖2是Cumming的分析的一個圖解。該圖據(jù)Cumming(2008, Figure A3)做了改動。原圖中首次檢驗的統(tǒng)計值的顯著水平由p獲得=0.11改為p獲得=0.01。對于雙向(2-tailed)檢驗,Ha的分布曲線在左側尚有小于–zα/2=–1.96的豎條陰影部分,但因其過于微小而無法顯示。圖中左面的鐘型曲線代表了H0=0的分布,橫軸上z=–1.96和z=1.96是雙向0.05顯著水平的臨界點。假定某次實驗中獲得的結果是樣本平均差的顯著水平為0.01,由于該水平低于預先劃定的0.05水平,實驗的結論是拒斥H0=0,接受Ha。圖中右面的曲線代表了獲得0.01顯著水平時Ha的分布,這一曲線并不假設真實的效應量已知,它所依據(jù)的只是獲得的顯著水平p獲得=0.01。這個分布曲線的特點是它的方差要大于左面的曲線,反映出由于真實效應量未知所造成的更大的不確定性。如圖所示,右面曲線覆蓋下的右側豎條陰影區(qū)域代表了在將來類似實驗中可重復0.05水平顯著結果的概率。這一概率是0.67,低于圖1b中的0.73。
圖 2 首次檢驗顯著水平為0.01,假定真實效應量未知,重復驗證時獲0.05水平顯著結果的概率分布
上述Goodman和Cumming的分析表明,傳統(tǒng)H0=0的假設檢驗體系無形中為該體系中產(chǎn)生的成果的可重復性設置了一個上限,心理科學研究的可重復性也受這一無形上限的羈絆而難臻理想的水平。這樣的分析同時也演示了合理的分析方法,可用來幫助估算心理學的可重復性危機的程度。
根據(jù)OSC(2015)的報告,在全部原來研究的0.05水平的顯著結果中,有36%得到了重復驗證。這些原報告的結果,可以在線獲得(https://osf.io/5wup8) 。原報告的結果中列出了所選取的97個達到顯著結果的統(tǒng)計量(F, t, z, χ2, r)以及有關的自由度(df)或樣本量。根據(jù)這些信息可得到這些結果的顯著性水平。為統(tǒng)一起見,所有的t,z和r的顯著水平均根據(jù)雙向(2-tailed)檢驗確定。這樣得出的顯著水平的中值(median)=0.0069,也即原結果的顯著水平在0.0069上下。用Goodman和Cumming的分析方法,可進一步粗略估算OSC報告的研究的可重復率。這樣估算的可重復率,代表了按照NHST體系嚴格操作,排除任何非統(tǒng)計學因素所應當?shù)玫降目芍貜吐?。圖3a和圖3b顯示了原結果的顯著水平在0.0069上下時,用Goodman和Cumming的分析方法所得出的可重復率。二圖在原則上和圖1b和圖2一致,但圖中首次檢驗的統(tǒng)計值的顯著水平為OSC報告所得的顯著水平的中值0.0069。對于雙向(2-tailed)檢驗,Ha的分布曲線在左側尚有小于–zα/2=–1.96的豎條陰影部分,但因其太過微小而無法在二圖中顯示。
按照Goodman(1992)的分析方法,假設真實效應量(true effect size)已知并等于原研究的效應量,從0.0069的顯著水平可推算出0.77的可重復率(見圖3a和附錄A)。按照Cumming(2008)的分析方法,不假定真實效應量已知,當p獲得=0.0069時,可推出可重復率為0.70(見圖3b和附錄A),二者均大大高于OSC報告的0.36的可重復率。這一比較的結果頗發(fā)人深省,這意味著統(tǒng)計學的NHST的制約,只是造成心理學可重復性危機的原因之一,另外還有不能歸咎于統(tǒng)計學的重要因素。
圖 3 首次檢驗顯著水平為0.0069,假定真實效應量未知或未知,重復驗證時獲0.05水平顯著結果的概率分布
Goodman和Cumming所分析的仍然是不受人為偏差干擾的規(guī)范操作,在現(xiàn)實世界里,自選題至發(fā)表結果的整個過程中,尚有種種偏離規(guī)范的人為因素,能進一步削弱研究的可重復性,且這些因素的影響可以逐步累加,最終導致結果的可重復性下降到科學上難以容忍的水平。
更具體地來說,Goodman和Cumming的分析方法,都依據(jù)于一個關鍵的假定,也即假定備擇假設(Ha)為真,而將無法重復顯著結果的根源全部歸咎于二類錯誤,但實際研究的狀況,往往與該假定大相徑庭。首次實驗時獲統(tǒng)計顯著的結果,導致接受備擇假設(Ha),并不就意味著所接受的備擇假設(Ha)就是真實的。而如果接受的備擇假設(Ha)有不真實的可能,則結果的不可重復概率將可能大大高于二類錯誤。如以HTP代表備擇假設(Ha)的真實性概率,以β代表二類錯誤概率,則備擇假設(Ha)為真且得重復的概率是(1–β)HTP, 而不是研究強度(Power)=1–β。例如當HTP=0.5,β=0.30時,真實的備擇假設(Ha)得到重復驗證的概率是(1–0.30)×0.5 =0.35,而不是0.70。
當Ha真實概率(HTP)小于1.0時,還有所謂的假陽性的問題,也即虛假的備擇假設因一類錯誤或其它的原因而呈顯著(也即呈陽性)的可能,如以α代表一類錯誤概率,則因一類錯誤而呈假陽性的概率為α(1–HTP)。例如在OSC(2015)所報告的統(tǒng)計顯著的原結果中,也許只有40%的備擇假設為真,這樣的話,在進行這一系列實驗時,假陽性的概率就會是0.05×(1–0.40)=0.030。假陽性的概率并不僅受一類錯誤的影響,它的另一個影響因子是人為偏誤(bias),諸如辦公桌抽屜效應(desk drawer effect,也即只投送顯著的結果以求發(fā)表, 而將不顯著的結果留在辦公桌抽屜里按下不表), 發(fā)表偏見(publication bias,即只有顯著的結果才得發(fā)表的機會),和可疑研究操作(questionable research practice)之類。如以μ代表人為偏誤(bias)的總概率,則其對假陽性概率的影響可表達為μ(1–α)(1–HTP)。例如當一類錯誤(α)為0.05,Ha真實概率(HTP)為0.40時,虛無假設H0成立的概率是1–HTP =0.60, 避免一類錯誤的概率是1–0.05 =0.95,而如果人為偏差的概率是μ=0.30,那么由于人為偏差造成假陽性的概率是0.30×0.95×0.60=0.171。如以比較通俗的語言來解釋這種情況,則可說在這一批研究中,盡管有60%的虛無假設(H0=0)是實際成立的,盡管一類錯誤(α)為0.05的臨界值使得絕大部分(95%)H0=0分布總體中的樣本不呈陽性(不呈統(tǒng)計顯著性),但由于0.30的人為偏差率,使得這部分(0.95×0.60=0.57)本不應呈陽性的結果中有17.1%呈了陽性!
由于人為偏差是追逐陽性的傾向,它也可造成真陽性。當備擇假設為真時,有部分結果因為二類錯誤而不呈陽性,這部分結果的概率是β×HTP,但由于人為的對于陽性的趨鶩,使得這些結果中的一些由陰轉陽,其概率是μ×β×HTP。設二類錯誤β=0.30,Ha真實概率是HTP=0.50,人為偏差率μ=0.30,這一部分真陽性的概率則為0.30×0.30×0.40=0.036。
表1列出了以上諸項真假陽性概率。如用真陽性總概率除以真陽性總概率與假陽性總概率之和,就得到了所謂的陽性預測值(positive,predicted value, PPV),代表了在所有報告的陽性結果中真陽性的比例。
表 1 真陽性,假陽性和一類錯誤(α),二類錯誤(β),Ha真實概率(HTP),及人為偏差(μ)的關系
Ioannidis(2005)用統(tǒng)計模型對上述這類因素的影響作了系統(tǒng)分析。圖4為Ioannidis模型的一個圖解。該模型為:
其中:
PPV=陽性預測值,
α=一類錯誤,
β=二類錯誤,
μ=人為偏差,
R=Ha真實概率/H0真實概率(在圖中換算成Ha真實概率HTP=R/(1+R))。
Ioannidis的模型參數(shù)包括一類錯誤的概率(如以0.05或0.01作為顯著性檢驗的標準),二類錯誤的可能水平(0.80, 0.60, 0.40, 0.20, 等等),某特定研究領域中所提出和檢驗的備擇假設有多大的比例是真正成立的(例如在各種食品原料和配料中被懷疑為致癌物質(zhì)中究竟有多大的比例是真實致癌的),以及研究過程中種種人為偏向的(如選擇性報告結果,發(fā)表偏見,和可疑研究操作)總概率。Ioannidis發(fā)現(xiàn),當下依賴傳統(tǒng)統(tǒng)計方法的研究領域中,如果把典型的參數(shù)值范圍(例如0.05的一類錯誤,0.40或更高的二類錯誤,低于0.10的Ha真實概率,0.10,0.20或更高的人為偏差概率)代入該模型,得出的結論是大部分的顯著結果實際上并不真實。該模型還可進一步引出一些值得注意的結論,例如在一個探索性的領域中,Ha真實概率(HTP)往往很低,而如果Ha真實概率低于0.09(心理學的某些探索性領域是否能有超出這一水平的Ha真實概率,尚有待認真調(diào)查),即使研究的強度較高(例如低于0.20的二類錯誤),且無非常嚴重的人為偏差(如約為0.20的偏差概率),所報告的顯著成果也僅有低于20%的真實率,使得人為偏差率竟超出了顯著結果的真實概率,令人難免對研究結果的可靠性缺乏信心(見圖4)。又譬如在一個很熱門的領域中,有許多研究團隊在追逐類似的顯著性成果,而任何某團隊所得到的顯著性成果,就其自身而言,僅有很低的真實率。可以想見,在一個既熱門又是探索性的領域中,顯著性成果的真實率將會非常低,如果還存在較明顯的人為偏差的話,則所報道的顯著性成果的真實率,將低于人為偏差的概率。
圖 4 Ioannidis(2005)模型的圖解
OSC和Many Labs所報告的研究結果的重復率在30%多的范圍內(nèi)。如以陽性預測值(positive predictive value,即陽性的報告結果實際上確為陽性的概率)作為研究結果得到重復驗證的指標,這30%多的范圍可作為陽性預測值的樣本估算值(sample estimate)。這樣的估算值,如代入Ioannidis(2005)的模型可用以推算心理學中人為偏差(bias, 以符號μ代表)和Ha真實概率(HTP)。圖5顯示了按照Ioannidis(2005)模型所作的推算。本圖根據(jù)Ioannidis(2005)模型,先假定陽性預測值(PPV)已知,再將設定的一類錯誤值(α),二類錯誤值(β),和Ha真實概率HTP=R/(1+R)代入模型,求出人為偏差率(μ)的方程解。按照OSC(2015)的報告,已知陽性預測值(PPV)=0.36,一類錯誤(α)=0.0069, 取三個不同二類錯誤水平(0.30,0.40,0.50),分別在0.09到0.35的Ha真實概率(HTP)區(qū)間(也即0.10到0.54的R區(qū)間)內(nèi)得出人為偏差率(μ)軌跡。軌跡方程見附錄B。圖中列出了三種可能的研究的二類錯誤水平:0.30(這在心理學中應算相當理想的水平),0.40(在心理學總體中仍然是很不錯的水平)和0.50(可能是心理學研究總體的中上水平)。假設一類錯誤水平為OSC(2015)重復驗證報告中採用的臨界值0.05,則有一系列人為偏差概率(μ)和Ha真實概率(HTP)的組合值可令陽性預測值恰處OSC(2015)報告的36%的水平。
在OSC所選中的100個重復驗證項目中,相對應的原研究均發(fā)表于心理學的一流期刊,從前文采用Goodman(2015)和Cumming(2008)方法分析的結果來看,大部分原研究至少在理論上都達到了二類錯誤(β)=0.30或研究強度(Power)=1 – 0.30 =0.70或更高的水平,故當一類錯誤值為0.05時,強度(Power)=0.70大體代表了這批研究的強度水平。設強度=0.70或二類錯誤β=0.30,在圖5中可選取五種有代表性的Ha真實概率水平:HTP=0.33, HTP=0.25, HTP=0.20,HTP=0.15和HTP=0.09。在這五種水平中,HTP=0.33使得人為偏差率(μ)接近1.0的上限,未免太過極端。第五個水平HTP=0.09對應于Ioannidis所指出的Ha真實概率的下限,倘真反映了心理學的實際,則不免令人沮喪,但對應的μ=0.08左右的人為偏差概率顯然低估了實際的人為偏差程度。HTP=0.25,HTP=0.20,和HTP=0.15這三個對應的組合可能更貼近實際一些。這三組估算值,分別對應于μ=0.48,μ=0.33,μ=0.20的人為偏差率,意味著在OSC所調(diào)查的原結果中,約有不到五分之一到將近一半的顯著結果(包括假陽性和真陽性,但主要是假陽性)乃由非統(tǒng)計學的人為偏差因素(如選擇性的報告和發(fā)表以及可疑研究操作)所造成,同時在原來研究所接受的全部備擇假設(97個)中,可能僅有15%到25%為真。這幾個組合所反映的狀況,自然不免令人蹙額,但仍可說是好于最壞的估計。心理學總體的狀況,可能會比OSC(2015)所報告的一流期刊上發(fā)表的結果更有不如。
圖 5 根據(jù)Ioannidis(2005)模型,已知陽性預測值(PPV) =0.36,一類錯誤(α)=0.0069,在三個二類錯誤水平水平上的Ha真實概率(HTP)和人為偏差率(μ)變化軌跡
從另一個角度來說,這樣比較嚴重的非統(tǒng)計學的學術傳統(tǒng)上的弊端,表明即使基于當前這個有缺陷的統(tǒng)計檢驗體系,心理學家們?nèi)匀皇穷H有可為的。在當前的體系中,如欲超越0.50的陽性預測值,心理學家們需要進一步以增大樣本,選擇研究較大的效應量等方式提高研究的強度,大力降低人為偏差,并在選題上更注重研究假設的真實性而不過于耽溺所謂的“創(chuàng)新探索”。例如在強度(Power)=0.80, 一類錯誤=0.05, 人為偏差μ=0.10,Ha真實概率HTP =0.15的水平上,陽性預測值可達0.50。如進一步降低一類錯誤標準到0.01,則陽性預測值可達0.58。倘再提高HTP到0.20的水平,可將陽性預測值增至0.65。這樣的陽性預測率,如若再結合比NHST體系更有效的統(tǒng)計分析方法,可望使心理學研究的可重復性水平更上一個層次。
本文以OSC(2015)報告的結果為依據(jù),采用Goodman(1992), Cumming(2008), 和Ioannidis(2005)提出的分析方法,分別對傳統(tǒng)NHST統(tǒng)計體系加諸于研究的可重復性的影響和心理科學中非統(tǒng)計學因素造成的有關困擾作了嘗試性的定量評估。這樣的評估當然有其局限。首先,OSC(2015)的結果只是一個不太大的樣本。其次,某個研究未能通過該調(diào)查的重復檢驗,并不必然意味著這個研究的結果就是所謂的假陽性,而被該調(diào)查所支持的那些研究結果,也不一定就都是真陽性的結果,本文中將OSC(2015)所報告的36%的重復率作為所有陽性結果中真陽性的比例(PPV),只是一種粗略的樣本估算。這些分析方法所基于的假設,也都難免對現(xiàn)實世界做了一些也許是過分的簡化,由此而得的分析結果,至多只能算是某種大體的評估,不能替代進一步的大規(guī)模的如OSC(2015)和Many Labs(2014, 2016)一類的調(diào)查研究。但這些粗略的評估,仍可能幫助人們進一步認識心理學所面對的可重復性危機。
傳統(tǒng)H0=0的假設檢驗體系無形中使研究成果的高度可重復性成了一個難以企及的目標,這一統(tǒng)計學上的制約是心理科學研究的可重復性危機的一個重要肇因。雖然統(tǒng)計學界已經(jīng)在開始重估傳統(tǒng)H0=0的假設檢驗體系,一個全新體系的形成,仍需時日,這對統(tǒng)計學的教育改革造成了不小的困難,但認真總結傳統(tǒng)統(tǒng)計教育中的問題,并引用一些難度并不太高的方法和技術,如強調(diào)對結果的置信區(qū)間(confidence interval)的分析, 可以在一定程度上克服傳統(tǒng)體系的障礙(Cumming,2008; 胡竹菁, 董圣鴻, 張闊, 2013),心理學家們應盡快地調(diào)整自己的知識結構以適應這樣的變化。
從心理學家本身來說,長期以來對學科中種種忽視研究可重復性的做法,常采取一種視而不見的態(tài)度,也是一個難以否認的事實。這種長期的忽視,造成了學術傳統(tǒng)上的種種流弊,其后果正如本文的評估所顯示的那樣,嚴重地損害了心理學的科學性。本文的分析也顯示,如果鼎力革除這些弊端,即使在傳統(tǒng)的統(tǒng)計學體系中,也可望長足地提高心理學研究的可重復性。
胡傳鵬, 王非, 過繼成思, 宋夢迪, 隋潔, 彭凱平.(2016). 心理學研究中的可重復性問題: 從危機到契機. 心理科學進展, 24(9), 1504–1518.
胡竹菁, 董圣鴻, 張闊.(2013). 《心理統(tǒng)計學》教學內(nèi)容的新探索. 心理學探新, 33(5), 402–408.
焦璨, 張敏強.(2014). 迷失的邊界: 心理學虛無假設檢驗方法探究. 中國社會科學, (2), 148–163.
朱瀅.(2016). “開放科學 數(shù)據(jù)共享 軟件共享”, 你準備好了嗎?. 心理科學進展, 24(6), 995–996.
Anderson, C. J., Bahník, ?., Barnett-Cowan, M., Bosco, F. A., Chandler, J.,Chartier, C. R., …, Zuni, K.(2016). Response to comment on“Estimating the reproducibility of psychological science.”. Science,351, 1037.
Baker, M. (2015). Over half of psychology studies fail reproducibility test.Nature. http://dx.doi.org/10.1038/nature.2015.182.
Baker, M. (2016). Psychology’s reproducibility problem is exaggerated –say psychologists. Nature. http://dx.doi.org/10.1038/nature.2016.19498.
Carroll, A. E. (2017, May). Science needs a solution for the temptation of positive results. The New York Times. Retrieved from http://www.nytimes.com/.
Cumming, G.(2008). Replication and p intervals: P values predict the future only vaguely, but confidence intervals do much better. Perspectives on Psychological Science, 3(4), 286–300.
Ebersole, C. R., Atherton, O. E., Belanger, A. L., Skulborstad, H. M., Allen,J. M., Banks, J. B., …, Nosek, B. A.(2016). Many Labs 3: Evaluating participant pool quality across the academic semester via replication.Journal of Experimental Social Psychology, 67, 68–82.
Gilbert, D. T., King, G., Pettigrew, S., & Wilson, T. D.(2016). Comment on“Estimating the reproducibility of psychological science ”. Science,351, 1037.
Goodman, S. N.(1992). A comment on replication, P-values and evidence.Statistics in Medicine, 11(7), 875–879.
Ioannidis, J. P. A.(2005). Why most published research findings are false.PLoS Medicine, 2, e124.
Ioannidis, J. P. A.(2012). Why science is not necessarily self-correcting.Perspectives on Psychological Science, 7, 645–654.
John, L. K., Loewenstein, G., & Prelec, D.(2012). Measuring the prevalence of questionable research practices with incentives for truth telling.Psychological Science, 23(5), 524–532.
Joober, R., Schmitz, N., Annable, L., & Boksa, P.(2012). Publication bias:What are the challenges and can they be overcome?. Journal of Psychiatry & Neuroscience, 37(3), 149–152.
Kaiser, J.(2017). Rigorous replication effort succeeds for just two of five cancer papers. Science, , doi: 10.1126/science.aal0628.
Klein, R. A., Ratliff, K. A., Vianello, M., Adams, R. B., Jr., Bahník, ?.,Bernstein, M. J., …, Nosek, B. A.(2014). Investigating variation in replicability: A “many labs” replication project. Social Psychology, 45,142–152.
Nosek, B. A., Spies, J. R., & Motyl, M.(2012). Scientific utopia: II.Restructuring incentives and practices to promote truth over publishability. Perspectives on Psychological Science, 7, 615–631.
Open Science Collaboration.(2015). Estimating the reproducibility of psychological science. Science, 349, aac4716.
Wagenmakers, E. J., Wetzels, R., Borsboom, D., van der Maas, H. L. J., &Kievit, R. A.(2012). An agenda for purely confirmatory research.Perspectives on Psychological Science, 7(6), 632–638.
附錄A
圖3a所說明的是總體效應量已知情況下的可重復率。設φ(z)為標準常態(tài)累計分布函數(shù)方程(cumulative distribution function of the standard normal distribution),在圖3a中,右側豎條陰影部分和左側豎條陰影因太微小而無法呈示的總面積為P = 1–φ(z+zα/2)+ φ(z–zα/2),此面積即重復驗證時結果仍然顯著的概率。其中zα指首次檢驗時顯著性的臨界值,如在雙向(2-tailed)檢驗時z0.05/2= 1.96,z是首次檢驗時實際獲得的z統(tǒng)計量。用Microsoft Excel函數(shù)可表達為:
P=1–NORMSDIST(z+NORMSINV(α/2))+NORMSDIST(z-NORMSINV(α/2)。
例如當首次檢驗時顯著水平是0.0069,可得z=NORMSINV(1–0.0069/2)=2.7016, P=1–NORMSDIST(2.7016+1.96)+NORMSDIST(2.7016–1.96)=0.7709。
圖3b說明的是總體效應量未知時的可重復率。和圖3a不同的是,圖3b右面的代表Ha的鐘形曲線有較大的方差(2倍于左面代表H0的曲線的方差,也即約1.414倍于左面曲線的標準差)。在圖3b中,重復驗證時結果仍然顯著的概率是P=1–φ((z獲得+zα/2)/√2)+ φ((z獲得–zα/2)/√2)。其中z獲得指在首次檢驗時所獲得的z統(tǒng)計量,可從首次驗證時的顯著水平p獲得得出。該方程的Microsoft Excel函數(shù)表達為:
P=1–NORMSDIST((z獲得+NORMSINV(α/2))×SQRT(2)+NORMSDIST(z獲得–NORMSINV(α/2))×SQRT(2))。
例如當首次檢驗時α/2 = 0.025,實際獲得顯著水平是p獲得= 0.0069,可得z獲得=NORMSINV(1–0.0069/2)=2.7016, P=1–NORMSDIST(2.7016+NORMSINV(α/2))×SQRT(2)+NORMSDIST(2.7016-NORMSINV(α/2))×SQRT(2))=0.7005。
附錄B
根據(jù)Ioannidis(2005)的模型:
經(jīng)過代數(shù)的換項整理可得人為偏差率(μ)的方程如下:
例如PPV = 0.36, α = 0.05, 設β = 0.30, HTP取其區(qū)間下限HTP = 0.09也即R = 0.10,將這些數(shù)值代入該方程得人為偏差率:
μ =(0.36×(0.10 + 0.05 – 0.30×0.10)–(1 – 0.30) × 0.10)/(0.30×0.10 – 0.36× (1 – 0.05 +0.30×0.10 ))= 0.08。
A Crude Evaluation on the Two Roots of the Reproducibility Crisis in Psychology
LUO Dasen
(Indiana University of Pennsylvania, USA)
The reproducibility crisis in psychology is known to have two roots, the root in the traditional statistical system of null hypothesis significance testing, and that in the academic tradition of psychology. This article was an attempt to crudely estimate the respective impacts of the two roots on the reproducibility crisis in psychology. The results reported by Open Science Collaboration(2015) were analyzed using the methods suggested by Goodman (1992) and by Cumming (2008) to roughly estimate the limiting influence on reproducibility imposed by the traditional system of statistics. The estimated limiting influence, although quite notable,appears to be far short of being able to account for the reproducibility rate as low as 36% indicated by the report, suggesting that factors other than the traditional system of statistics have played a tremendous role in the crisis. The model proposed by Ioannidis(2005) was adopted to analyze the possible impacts of factors other than the traditional system of statistics, and possible ranges of the joint impact of bias and the probability of true alternative hypotheses were extrapolated。 The analysis led to estimates indicating that, of all original positive results, only no more than one third, and probably even less, was true positive, and a considerable portion of these positive results was caused by bias. These results may help explicate how these factors are likely to contribute to the current crisis.
the reproducibility crisis in psychology, limitations of traditional system of statistical testing, flaws in the academic tradition of psychology, the probability of true alternative hypotheses, bias, evaluation on the roots of the reproducibility crisis.
B841
2017–8–10
駱大森,E-mail: dluo@iup.edu。