亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        ASA關(guān)于統(tǒng)計(jì)意義和p-值的聲明

        2016-02-06 00:31:252016年2月5日
        中國衛(wèi)生統(tǒng)計(jì) 2016年3期
        關(guān)鍵詞:效應(yīng)意義科學(xué)

        2016年2月5日

        Ronald L.Wasserstein,執(zhí)行主席代表美國統(tǒng)計(jì)學(xué)會理事會

        (方積乾譯)

        ASA關(guān)于統(tǒng)計(jì)意義和p-值的聲明

        2016年2月5日

        Ronald L.Wasserstein,執(zhí)行主席代表美國統(tǒng)計(jì)學(xué)會理事會

        (方積乾譯)

        近些年,科學(xué)研究的日益定量化和大型復(fù)雜數(shù)據(jù)集的激增擴(kuò)充了統(tǒng)計(jì)學(xué)方法應(yīng)用的范圍。它創(chuàng)造了科學(xué)進(jìn)步的新途徑,但也帶來對從研究數(shù)據(jù)提取結(jié)論的關(guān)注??蒲薪Y(jié)論的真實(shí)性,包括其可再現(xiàn)性,不僅僅取決于統(tǒng)計(jì)學(xué)方法。合適地選擇技術(shù)、恰當(dāng)?shù)剡M(jìn)行分析以及正確解釋統(tǒng)計(jì)結(jié)論,在保證結(jié)論正確和確切表達(dá)結(jié)果的不確定性上也起了關(guān)鍵作用。許多發(fā)表的科學(xué)結(jié)論是以p-值這個指標(biāo)評估的“統(tǒng)計(jì)學(xué)意義”概念為支撐的。雖然p-值是一個有用的統(tǒng)計(jì)學(xué)測度,但它普遍地被錯誤使用和錯誤解釋。這已經(jīng)導(dǎo)致某些科學(xué)雜志不鼓勵使用p-值,某些科學(xué)家建議廢棄它,自從引入p-值以來某些爭論就基本上沒有變過。在這個背景下,ASA相信,以一個正式的聲明來澄清關(guān)于正確使用和解釋p-值的若干廣泛贊同的原則,可以使科學(xué)界從中得益。這里提及的內(nèi)容不僅影響科研,而且也影響研究基金、雜志工作、職業(yè)發(fā)展、科學(xué)教育、公共政策、新聞和法律。這個聲明并不想解決與合理統(tǒng)計(jì)實(shí)踐有關(guān)的所有問題,也不想平息基本爭議。而是借這個聲明以非技術(shù)的語言,按照統(tǒng)計(jì)學(xué)界的廣泛共識,闡明若干原則,有助于改善定量科學(xué)的實(shí)施或解釋。

        什么是p-值?

        非正式而言,p-值是在一個特定統(tǒng)計(jì)模型之下,數(shù)據(jù)(例如,兩個比較組樣本均數(shù)之差)的一個統(tǒng)計(jì)學(xué)概括,等于其觀察值或取更極端值的概率。

        原 則

        1.p-值可以表明數(shù)據(jù)和特定統(tǒng)計(jì)模型之間如何不相容。

        p-值提供一個辦法來概括一個特定數(shù)據(jù)集和為其建議的一個模型之間的不相容性。最常見的情形是在一組假定之下構(gòu)建的一個模型和一個所謂的“零假設(shè)”。零假設(shè)常常是效應(yīng)不存在,諸如兩組之間無差異,或者一個因素和一個結(jié)局之間無關(guān)系。如果用以計(jì)算p-值的基本假定成立,p-值越小,數(shù)據(jù)和零假設(shè)之間不相容性越大。這個不相容性可以解釋為質(zhì)疑或提供證據(jù)反對零假設(shè)或基本假定。

        2.p-值并不度量研究假設(shè)為真的概率,或者數(shù)據(jù)純系隨機(jī)產(chǎn)生的概率。

        研究者常常希望把p-值放到關(guān)于零假設(shè)為真,或者觀察數(shù)據(jù)系隨機(jī)產(chǎn)生的敘述中。p-值并非如此。它描述數(shù)據(jù)和特定假設(shè)之間的關(guān)系,而不是描述假設(shè)本身。

        3.科學(xué)結(jié)論和商務(wù)或政策決定不可以僅僅基于一個p-值是否通過特定的閾值。

        將數(shù)據(jù)分析或科學(xué)推斷簡化為機(jī)械的“一刀切”裁定(諸如“p<0.05”),這樣來證明科學(xué)論斷或結(jié)論會導(dǎo)致錯誤的信念和糟糕的決策。在“一刀切”的一側(cè),結(jié)論立即是“正確”,在另一側(cè),立即是“錯誤”。研究者作科學(xué)推斷時(shí)必須考慮許多因素,包括研究的設(shè)計(jì)、測量的品質(zhì)、所研究現(xiàn)象的外部證據(jù),以及數(shù)據(jù)分析背后的假定是否成立。實(shí)踐固然常要求二擇一,作“yes-no”決定,但是,并不意味單靠p-值就能保證一個決定正確與否。將廣泛使用的“統(tǒng)計(jì)學(xué)意義”(通常解釋為“p≤0.05”)作為宣布一個科學(xué)發(fā)現(xiàn)(或真理)的合格證會導(dǎo)致科學(xué)過程相當(dāng)大的歪曲。

        4.正確恰當(dāng)?shù)耐茢嘁笸暾膱?bào)告和透明度

        p-值和有關(guān)的分析決不可選擇性地報(bào)告。數(shù)據(jù)作了多重分析,卻只報(bào)告特定部分的p-值(一般報(bào)告通過了閾值的那些)會使得所報(bào)告的p-值根本不可解釋。專挑有前途的發(fā)現(xiàn),又稱為數(shù)據(jù)捕撈、意義追逐、意義尋覓、選擇性推斷和“p-黑客”,導(dǎo)致已發(fā)表文獻(xiàn)中虛假的、過度統(tǒng)計(jì)學(xué)意義的結(jié)果,必須嚴(yán)格避免。人們一定不要正規(guī)地實(shí)施多重統(tǒng)計(jì)檢驗(yàn)而產(chǎn)生這個問題:每當(dāng)研究者基于根據(jù)統(tǒng)計(jì)結(jié)果選擇報(bào)告什么,如果不告訴讀者如何選擇及其偏倚,那些結(jié)果的解釋必是嚴(yán)重歪曲不實(shí)的。研究者必須公開研究階段被探索假設(shè)的個數(shù)、所有數(shù)據(jù)收集的決策、實(shí)施過的所有統(tǒng)計(jì)分析和計(jì)算過的所有p-值。至少要知道進(jìn)行了多少分析和什么分析以及怎樣選擇某些分析(包括p-值)來報(bào)告,才能基于p-值和相關(guān)的統(tǒng)計(jì)量作出真實(shí)的結(jié)論。

        5.p-值或統(tǒng)計(jì)學(xué)意義并不度量效應(yīng)的大小或結(jié)果的重要性。

        統(tǒng)計(jì)學(xué)意義并不等價(jià)于科學(xué)、人類或經(jīng)濟(jì)意義。較小的p-值不一定意味較大或較重要效應(yīng)的出現(xiàn),較大的p-值不一定意味缺乏重要性或沒有效應(yīng)。任何效應(yīng),不論多小,如果樣本量足夠大或測量精度足夠高,總能產(chǎn)生一個小的p-值;如果樣本量小或測量不精確,大的效應(yīng)也可能產(chǎn)生不起眼的p-值。類似地,如果估計(jì)的精度不同,同一個被估計(jì)的效應(yīng)將有不同的p-值。

        6.p-值本身并不對模型或假設(shè)提供一個好的度量

        研究者必須知道,沒有背景或其他證據(jù),p-值提供的信息是有限的。例如,一個接近0.05的p-值本身只是反對零假設(shè)的微弱證據(jù)。類似地,一個相對大的p-值并不意味證據(jù)有利于零假設(shè);許多其他的假設(shè)可能和觀察到的數(shù)據(jù)同樣或者更加一致。由于這些原因,當(dāng)其他方法適宜和可行時(shí),數(shù)據(jù)分析決不可止于一個p-值的計(jì)算。

        其他方法

        鑒于出現(xiàn)p-值的錯誤使用和錯誤概念,有些統(tǒng)計(jì)學(xué)家愿意以其他方法補(bǔ)充甚至取代p-值。包括比檢驗(yàn)更強(qiáng)調(diào)估計(jì),諸如置信區(qū)間、可信區(qū)間或預(yù)測區(qū)間;貝葉斯方法;證據(jù)的其他測度,諸如似然比或貝葉斯因子;以及其他途徑,諸如決策理論模型和錯誤發(fā)現(xiàn)率。所有這些測度和方法依賴于更多假定,但它們較多直接關(guān)注效應(yīng)的大?。捌溥B帶的不確定性)或假設(shè)是否正確。

        結(jié) 論

        好的統(tǒng)計(jì)實(shí)踐,作為好的科學(xué)實(shí)踐的基本成分,強(qiáng)調(diào)好的研究設(shè)計(jì)和實(shí)施原則,數(shù)據(jù)的多種數(shù)值和圖形概括、理解所研究的現(xiàn)象、結(jié)果的全面和完整的報(bào)告,以及正確邏輯和定量地理解數(shù)據(jù)概括意味什么。沒有任何單一的指標(biāo)可以取代科學(xué)推理。

        (致謝:ASA理事會感謝下列人士在此聲明發(fā)展過程中和我們分享他們的專業(yè)知識和見解。這份聲明未必反映所有人的觀點(diǎn),實(shí)際上,有些觀點(diǎn)可能完全或部分與本聲明相反。無論如何,我們深深地感謝他們的貢獻(xiàn)。

        Naomi Altman,Jim Berger,YoavBenjamini,Don Berry,Brad Carlin,John Carlin,George Cobb,Marie Davidian,Steve Fienberg,Andrew Gelman,Steve Goodman,Sander Greenland,Guido Imbens,John Ioannidis,Valen Johnson,Michael Lavine,MichaelLew,Rod Little,Deborah Mayo,Chuck McCulloch,Michele Millar,Sally Morton,ReginaNuzzo,Hilary Parker,Kenneth Rothman,Don Rubin,Stephen Senn,Uri Simonsohn,DaleneStangl,Philip Stark,Steve Ziliak.)

        一份關(guān)于p-值和統(tǒng)計(jì)學(xué)意義的簡短文獻(xiàn)清單

        以下清單與ASA關(guān)于p-值和統(tǒng)計(jì)學(xué)意義的聲明相伴,它并不全面,但為希望詳細(xì)探索本聲明所提及內(nèi)容的人們提供一個好的起點(diǎn)。

        (排列以字母為序)

        1.A ltman,D.G.,Bland,J.M.(1995),“Absence of evidence is not evidence of absence,”British Medical Journal,311:485.

        2.Altman,D.G.,Machin,D.,Bryant,T.N.,Gardner,M.J.,eds.(2000),Statisticswith Confidence,2nd ed.,London:BMJ Books.

        3.Berger,J.O.,Delampady,M.(1987),”Testing precise hypotheses,”Statistical Science,2,317-335.

        4.Berry,D.(2012),“Multiplicities in Cancer Research:U-biquitous and Necessary Evils,”Journalof the National Cancer Institute,104,1124-1132.

        5.Christensen,R.(2005),“Testing Fisher,Neyman,Pearson,and Bayes,”The American Statistician,59,2,121-126.

        6.Cox,D.R.(1982),“Statistical Significance Tests,”British Journal of Clinical Pharmacology,14,325-331.

        7.Edwards,W.,Lindman,H.,and Savage,L.J.(1963),“Bayesian statistical inference forpsychological research,”Psychological Review,70,193-242.

        8.Gelman,A.,Loken,E.(2014),“The Statistical Crisis in Science[online],”American Scientist,102.Available at http://www.americanscientist.org/issues/feature/2014/6/thestatisticalcrisis-in-science

        9.Gelman,A.,Stern HS.(2006),“The difference between‘significant’and‘not significant’is notitself statistically significant,”The American Statistician,60:328-331.

        10.Gigerenzer,G.(2004),“Mindless statistics,”Journal of Socioeconomics,33:567-606.

        11.Goodman,S.N.(1999a),“Toward Evidence-Based Medical Statistics 1:The P Value Fallacy,”Annals of Internal Medicine,130,995-1004.

        12.____________(1999b),“Toward Evidence-Based Medical Statistics.2:The Bayes Factor,”Annals of Internal Medicine,130,1005-1013.

        13.____________(2008),“A Dirty Dozen:Twelve p-Value Misconceptions,”Seminars in Hematology,45,135-140.

        14.Greenland,S.(2011),“Nullm isinterpretation in statistical testing and its impact on health riskassessment,”Preventive Medicine,53,225-228.

        15.___________(2012).Nonsignificance plus high power does not imply support for the null overthe alternative.Annals of Epidemiology,22:364-368.

        16.Greenland,S.,and Poole,C.(2011),“Problems in common interpretations of statistics inscientific articles,expert reports,and testimony,”Jurimetrics,51,113-129.

        17.Hoenig,J.M.,and Heisey,D.M.(2001).The abuse of power:The pervasive fallacy of power calculations for data analysis.The American Statistician,55:19-24.

        18.Ioannidis,J.P.(2005),“Contradicted and initially stronger effects in highly cited clinical research.”Journal of the American Medical Association,294,218-228.

        19.___________(2008),“Why most discovered true associations are inflated(with discussion),”Epidemiology,19:640-658.

        20.Johnson,V.E.(2013),“Revised standards for statistical evidence,”Proceedings of the National Academy of Sciences,110(48),19313-19317.

        21.__________(2013),“Uniform ly most powerful Bayesian tests,”Annals of Statistics,41,1716-1741.

        22.Lang,J.,Rothman K.J.,and Cann,C.I.(1998),“That confounded P-value.(Editorial),”Epidemiology,9,7-8.

        23.Lavine,M.(1999),“What is Bayesian Statistics and Why Everything Else is Wrong,”UMAP Journal,20:2.

        24.Lew,M.J.(2012),“Bad statistical practice in pharmacology(and other basic biomedical disciplines):you probably don′t know P,”British Journal of Pharmacology,166:5,1559-1567.

        25.Phillips,C.V.(2004),“Publication bias in situ,”BMC Medical Research Methodology,4:20.

        26.Poole,C.(1987),“Beyond the confidence interval,”A-merican Journal of Public Health,77,195-199.

        27.Poole,C.(2001).Low P-values or narrow confidence intervals:Which are more durable?Epidemiology,12,291-294.

        28.Rothman,K.J.(1978),“A show of confidence(Editorial),”New England Journal of Medicine,299,1362-1363.

        29.___________(1986),“Significance questing(Editorial),”Annals of Internal Medicine,105,445-447.

        30.___________(2010),“Curbing type I and type II errors,”European Journal of Epidemiology,25,223-224.

        31.Rothman,K.J.,Weiss,N.S.,Robins,J.,Neutra,R.,and Stellman,S.(1992),“Amicus Curiaebrief for the U.S.Supreme Court,Daubert v.Merrell Dow Pharmaceuticals,Petition for W rit of Certiorari to the United States Court of Appeals for the Ninth Circuit,”No.92-102,October Term,1992.

        32.Rozeboom,W.M.(1960),“The fallacy of the null-hypothesis significance test,”Psychological Bulletin,57:416-428.

        33.Schervish,M.J.(1996),“P Values:What They A re and What They Are Not,”The American Statistician,50:3,203-206.

        34.Simmons,J.P.,Nelson,L.D.,Simonsohn,U.(2011),“False-Positive Psychology:Undisclosed Flexibility in Data Collection and Analysis A llows Presenting Anything as Significant,”Psychological Science,22(11),1359-1366.

        35.Stang,A.,and Rothman,K.J.(2011),“That confounded P-value revisited,”Journal of Clinical Epidemiology,64(9),1047-1048.

        36.Stang,A.,Poole,C.,and Kuss,O.(2010),“The ongoing tyranny of statistical significance testing in biomedical research,”European Journal of Epidemiology,25(4),225-30.

        37.Sterne,J.A.C.(2002).“Teaching hypothesis tests-time for significant change?”Statistics in Medicine,21,985-994.

        38.Sterne,J.A.C.Smith,G.D.(2001).“Sifting the evidence-what′s wrong with significancetests?”British Medical Journal,322,226-231.

        39.Ziliak,S.T.(2010),“The Validus Medicus and a New Gold Standard,”The Lancet,376,9738,324-325.

        40.Ziliak,S.T.,and McCloskey,D.N.(2008),The Cult of Statistical Significance:How the Standard Error Costs Us Jobs,Justice,and Lives,Ann Arbor:University of Michigan Press.

        欲了解英文原文,請參閱:

        Ronald L.Wasserstein&Nicole A.Lazar(2016):The ASA′s statement on p-values:context,process,and purpose,The American Statistician,DOI:10.1080/00031305.2016.1154108

        To link to this article:http://dx.doi.org/10.1080/00031305.2016.1154108

        (責(zé)任編輯:郭海強(qiáng))

        猜你喜歡
        效應(yīng)意義科學(xué)
        一件有意義的事
        新少年(2022年9期)2022-09-17 07:10:54
        鈾對大型溞的急性毒性效應(yīng)
        有意義的一天
        懶馬效應(yīng)
        科學(xué)大爆炸
        應(yīng)變效應(yīng)及其應(yīng)用
        科學(xué)
        科學(xué)拔牙
        詩里有你
        北極光(2014年8期)2015-03-30 02:50:51
        衰落的科學(xué)
        雕塑(1999年2期)1999-06-28 05:01:42
        午夜男女靠比视频免费| 久久精品国产91久久性色tv| 玩弄人妻奶水无码AV在线| 亚洲一区二区三区福利久久蜜桃| 欧美白人战黑吊| 亚洲色www成人永久网址| 亚洲另在线日韩综合色| 少妇一区二区三区精选| 日本三级吃奶头添泬| 亚洲成av人片在线观看无码 | 亚洲五月激情综合图片区| 国产网友自拍视频在线观看| 伊人中文字幕亚洲精品乱码| 欧美日韩色另类综合| 久久国产成人亚洲精品影院老金| 精品黄色一区二区三区| 无码专区一ⅴa亚洲v天堂| 久久综合九色综合网站| 久久精品亚洲精品毛片| 熟女少妇精品一区二区三区| 精品国偷自产在线视频九色| 成午夜福利人试看120秒| 人妻无码αv中文字幕久久琪琪布 美女视频黄的全免费视频网站 | 亚洲天堂av在线免费观看| 国产电影一区二区三区| 在线中文字幕有码中文| 精品中文字幕日本久久久| 蜜桃视频在线观看免费亚洲| 久久久久女人精品毛片| 自拍亚洲一区欧美另类| 色婷婷亚洲一区二区三区在线| 国产亚洲成av人片在线观黄桃| 久久国产精品久久精品国产| 在线不卡中文字幕福利| 蜜桃一区二区三区视频网址| 色先锋av资源中文字幕| 亚洲精品美女自拍偷拍| 午夜少妇高潮在线观看视频| 亚洲av日韩aⅴ无码色老头| 日韩AV无码一区二区三区不卡毛片| 在线观看国产av一区二区|