Ronald L.Wasserstein,Nicole A.Lazar
(方積乾譯)
·ASA聲明·
編輯按:最近幾年,除統(tǒng)計(jì)學(xué)以外的學(xué)術(shù)界對(duì)統(tǒng)計(jì)學(xué)檢驗(yàn)和p值提出了質(zhì)疑,有的甚至很激烈。例如,ScienceNews(Siegfried,2010)寫道:“這是科學(xué)最骯臟的秘密:統(tǒng)計(jì)分析的‘科學(xué)方法’建立在一個(gè)脆弱的基礎(chǔ)上”。2013年11月Phys.org Science News W ire的一篇文章引用了零假設(shè)意義的檢驗(yàn)中“眾多深度缺陷”。ScienceNews 2014年2月7日的文章(Siegfried,2014)稱“假設(shè)檢驗(yàn)的統(tǒng)計(jì)學(xué)技術(shù)比Facebook的隱私政策有更多的缺陷”。這些觀點(diǎn)片面性極大,嚴(yán)重誤導(dǎo)了學(xué)術(shù)界和社會(huì)輿論。鑒于此,美國(guó)統(tǒng)計(jì)學(xué)會(huì)(ASA)理事會(huì)于2016年2月5日發(fā)表了一個(gè)聲明,并另發(fā)一篇文章說(shuō)明此聲明的背景和目的,以正視聽(tīng)。這個(gè)聲明指出,目前存在關(guān)于統(tǒng)計(jì)學(xué)意義和P-值的錯(cuò)誤應(yīng)用和錯(cuò)誤解釋,全面闡述了統(tǒng)計(jì)界對(duì)這個(gè)問(wèn)題早就形成的6點(diǎn)共識(shí)。這是統(tǒng)計(jì)界的一件大事,我國(guó)統(tǒng)計(jì)學(xué)、醫(yī)學(xué)統(tǒng)計(jì)學(xué)教學(xué)和科研人員,以及與統(tǒng)計(jì)學(xué)的應(yīng)用密切有關(guān)的所有人都應(yīng)該準(zhǔn)確了解這件事,而不應(yīng)當(dāng)?shù)缆?tīng)途說(shuō),人云亦云。為此,中山大學(xué)公共衛(wèi)生學(xué)院醫(yī)學(xué)統(tǒng)計(jì)學(xué)教授方積乾將美國(guó)統(tǒng)計(jì)學(xué)會(huì)聲明的原文翻譯成中文,供同行學(xué)習(xí)參考。
ASA關(guān)于p-值的聲明:背景、過(guò)程和目的
Ronald L.Wasserstein,Nicole A.Lazar
(方積乾譯)
2014年2月,MountHolyoke College的榮譽(yù)退休教授George Cobb在ASA的一個(gè)論壇上提出了以下問(wèn)題:
問(wèn):為何這么多學(xué)校和研究生院教p=0.05?
答:因?yàn)槟鞘强茖W(xué)界和雜志編輯們還在使用的。
問(wèn):為何這么多人還在使用p=0.05?
答:因?yàn)槟鞘菍W(xué)校和研究生院教他們的。
Cobb考慮的是社會(huì)科學(xué)界關(guān)于p<0.05一刀切這個(gè)長(zhǎng)期傷腦筋的循環(huán):“我們教它因?yàn)檫@是我們所做的;我們這樣做因?yàn)檫@是我們所教的?!?/p>
這個(gè)考慮引起了ASA理事會(huì)的注意。ASA理事會(huì)也受刺激于過(guò)去幾年高度醒目的討論。例如,ScienceNews(Siegfried,2010)寫道:“這是科學(xué)最骯臟的秘密:統(tǒng)計(jì)分析的‘科學(xué)方法’建立在一個(gè)脆弱的基礎(chǔ)上”。2013年11月Phys.org Science News W ire的一篇文章引用了零假設(shè)意義的檢驗(yàn)中“眾多深度缺陷”。
ScienceNews2014年2月7日的文章(Siegfried,2014)稱“假設(shè)檢驗(yàn)的統(tǒng)計(jì)學(xué)技術(shù)比Facebook的隱私政策有更多的缺陷?!币恢芎?,統(tǒng)計(jì)學(xué)家、“Simply Statistics”博主Jeff Leek回應(yīng)“問(wèn)題不是人們?cè)愀獾厥褂胮-值,而是絕大部分?jǐn)?shù)據(jù)分析并非由正規(guī)訓(xùn)練過(guò)數(shù)據(jù)分析的人來(lái)實(shí)現(xiàn)的”(Leek,2014)。同一周,統(tǒng)計(jì)學(xué)家和科學(xué)作家Regina Nuzzo在Nature上發(fā)表一篇文章,題為“科學(xué)方法:統(tǒng)計(jì)學(xué)錯(cuò)誤”(Nuzzo,2014),這是目前最 高 度 重 視 的 Nature文 章 之 一 (http://www.altmetric.com/details/2115792#score)。當(dāng)然,這不是單純地回應(yīng)某一篇公開(kāi)發(fā)表的文章。統(tǒng)計(jì)學(xué)界已經(jīng)深度關(guān)注科學(xué)結(jié)論的可重現(xiàn)性和可重復(fù)性問(wèn)題。
我們觀察到,不深入這些術(shù)語(yǔ)的定義和區(qū)別,許多混淆甚至懷疑科學(xué)的真實(shí)性正在發(fā)生。這樣的懷疑會(huì)導(dǎo)致激進(jìn)的選擇,諸如Basic and Applied Social Psychology的編輯們竟決定廢棄p-值(零假設(shè)意義檢驗(yàn))(Trafimow and Marks,2015)。錯(cuò)誤理解或錯(cuò)誤使用統(tǒng)計(jì)推斷只是“可重現(xiàn)性危機(jī)”的原因之一(Peng,2015),但對(duì)于我們統(tǒng)計(jì)學(xué)界而言,這是個(gè)重要原因。當(dāng)ASA理事會(huì)決定接受挑戰(zhàn),發(fā)表一份關(guān)于p-值和統(tǒng)計(jì)學(xué)意義的聲明時(shí),確實(shí)意識(shí)到這不是輕松的一步。ASA以前沒(méi)有對(duì)統(tǒng)計(jì)實(shí)踐的特定事情表過(guò)態(tài)。與此最接近的是一個(gè)關(guān)于教育評(píng)估中使用的增值模型(value-added models,VAM)的聲明(Morganstein and Wasserstein,2014)和一個(gè)關(guān)于風(fēng)險(xiǎn)限制的選舉后審計(jì)的聲明(American Statistical Association,2010)。然而,這些是純系政策相關(guān)的聲明。VAM聲明側(cè)重于一個(gè)關(guān)鍵的教育政策,承認(rèn)事情的復(fù)雜性,說(shuō)明VAM作為有效模型的局限性,催促要有統(tǒng)計(jì)學(xué)家參與模型的建立和解釋。關(guān)于選舉審計(jì)的聲明也是對(duì)一個(gè)大的卻特定的政策問(wèn)題(2008年結(jié)束選舉)的反應(yīng),表示基于統(tǒng)計(jì)學(xué)的選舉審計(jì)必須成為選舉過(guò)程的一個(gè)常規(guī)部分。相比較,理事會(huì)預(yù)想到,這個(gè)關(guān)于p-值和統(tǒng)計(jì)學(xué)意義的聲明將闡明我們領(lǐng)域中經(jīng)常被廣大學(xué)術(shù)界錯(cuò)誤理解和錯(cuò)誤使用的一個(gè)方面,并且在此過(guò)程中,為學(xué)術(shù)界提供服務(wù)。計(jì)劃中的讀者是原非統(tǒng)計(jì)學(xué)家的研究人員、實(shí)際工作者和科學(xué)作家。因此,這個(gè)聲明將和以前嘗試過(guò)的聲明很不相同。
理事會(huì)分派Wasserstein匯集一組代表不同觀點(diǎn)的專家。他代表理事會(huì)接觸超過(guò)24位這樣的對(duì)象,他們都說(shuō)愿意參加。有幾位懷疑能否達(dá)成共識(shí),但是他們確實(shí)表示,如果有討論,他們?cè)敢鈪⑴c。經(jīng)過(guò)好幾個(gè)月,小組成員討論了聲明采取什么形式,試著較具體地設(shè)想該聲明的讀者,并且開(kāi)始發(fā)現(xiàn)共識(shí)點(diǎn)。逐漸變得相對(duì)容易做了,但只是容易找到強(qiáng)烈的分歧點(diǎn)。待到這個(gè)小組能坐下來(lái)一起消除這些分歧點(diǎn),2015年10月20位成員終于在Virginia州Alexandria的ASA辦公室聚會(huì)。Regina Nuzzo促進(jìn)了這個(gè)兩天的會(huì)議,會(huì)議結(jié)尾時(shí),圍繞著這個(gè)聲明形成了一組很好的觀點(diǎn)。接下來(lái)的3個(gè)月,見(jiàn)到了聲明的多份草稿,小組成員、理事會(huì)成員(2015年ASA理事會(huì)會(huì)議上漫長(zhǎng)的討論)和目標(biāo)讀者審閱。最后,2016年1月29日,ASA的執(zhí)行委員會(huì)批準(zhǔn)了這份聲明。這份聲明進(jìn)展的過(guò)程比預(yù)計(jì)的更漫長(zhǎng)、有更多爭(zhēng)議。例如,關(guān)于如何最好地講清多重潛在比較的問(wèn)題(Gelman and Loken,2014),我們就“一個(gè)接近0.05的p-值本身只是反對(duì)零假設(shè)的微弱證據(jù)。”(Johnson,2013)這段話的潛臺(tái)詞爭(zhēng)論了很久。關(guān)于如何敘述p-值的多種替代以及多么詳細(xì)為宜,有很多不同見(jiàn)解。為了使這份聲明適度簡(jiǎn)練,我們并沒(méi)有寫對(duì)立假設(shè)、兩類錯(cuò)誤或功效等其他內(nèi)容,并不是每一位都同意這樣做。
在聲明發(fā)展過(guò)程接近尾聲時(shí),Wasserstein聯(lián)系了Lazar,問(wèn)及這份政策聲明可否在The American Statistician(TAS)發(fā)表。經(jīng)考慮,Lazar決定TAS愿意提供一個(gè)良好平臺(tái),以廣泛傳遞給一般的統(tǒng)計(jì)讀者群。同時(shí),我們決定增加一個(gè)在線討論,提供機(jī)會(huì)來(lái)反映前述爭(zhēng)議,提高TAS讀者的興趣水平。最后,我們聯(lián)系了一組討論者,請(qǐng)他們就這份聲明發(fā)表評(píng)論。人們可以從在線增刊讀到他們的觀點(diǎn)。我們感謝以下各位和我們分享他們深刻的見(jiàn)解:
Naomi Altman,Douglas Altman,Daniel J.Benjamin,YoavBenjamini,Jim Berger,Don Berry,John Carlin,George Cobb,Andrew Gelman,Steve Goodman,Sander Greenland,John Ioannidis,Joseph Horow itz,ValenJohnson,M ichael Lavine,M ichael Lew,Rod Little,Deborah Mayo,M ichele M illar,CharlesPoole,Ken Rothman,Stephen Senn,DaleneStangl,Philip Stark and Steve Ziliak。
雖然對(duì)這份聲明應(yīng)當(dāng)講些什么存在著分歧,但是,關(guān)于ASA必須就這些事情發(fā)聲是高度一致的。必須明確,這份ASA聲明并沒(méi)有新內(nèi)容。統(tǒng)計(jì)學(xué)家和許多其他人已經(jīng)就這些事情敲了幾十年的警鐘,效果甚微。我們希望世界上最大的統(tǒng)計(jì)專業(yè)學(xué)會(huì)發(fā)出的這份聲明將開(kāi)啟新的討論,引起新的和嚴(yán)密的注意,使得利用統(tǒng)計(jì)推斷進(jìn)行的科學(xué)實(shí)踐有所改觀。
1.American Statistical Association(2010),“ASA Statement on Risk-Limiting Post Election Audits,”available at http://www.amstat.org/policy/pdfs/Risk-LimitingEndorsement.pdf
2.Siegfried,T.(2010),“Odds Are,It′s Wrong:Science fails to face the shortcomings of statistics,”Science News,177,26,available at https://www.sciencenews.org/article/odds-are-its-wrong
3.Johnson,V.E.(2013),“Uniform lymost powerful Bayesian tests,”Annals of Statistics,41,1716-1741.
4.Phys.org Science News Wire(2013),“The problem with p values:how significant are they,really?”available at http://phys.org/wire-news/145707973/theproblemwithpvalueshowsignificantaretheyreally.html
5.Gelman,A.,and Loken,E.(2014),“The Statistical Crisis in Science[online],”AmericanScientist,102.Available at http://www.americanscientist.org/issues/feature/2014/6/thestatisticalcrisis-in-science
6.Leek,J.(2014),“On the scalability of statistical procedures:why the p-value bashers just don′tget it,”Simply Statistics blog,available athttp://simplystatistics.org/2014/02/14/on-thescalability-of-statistical-procedures-why-the-p-value-bashers-just-dont-get-it/
7.Nuzzo,R.(2014),“Scientific Method:statistical errors”,Nature,506,150-152,available athttp://www.nature.com/news/scientific-method-statistical-errors-1.14700
8.Morganstein,D.,and Wasserstein,R.(2014),“ASA Statement on Value Added Models,”Statistics and Public Policy,1,108-110,available at http://amstat.tandfonline.com/doi/full/10.1080/2330443X.2014.956906
9.Siegfried,T.(2014),“To make science better,watch out for statistical flaws,”Science News,available at https://www.sciencenews.org/blog/context/make-science-better-watch-out-statisticalflaws
10.Peng,R.(2015),“The reproducibility crisis in science:A statistical counterattack,”Significance,12(3),30-32
11.Trafimow D,MarksM.(2015),editorial in Basic and Applied Social Psychology,37:1-2.