亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        對統(tǒng)計假設檢驗的誤解與誤用

        2012-01-27 00:48:50濱州醫(yī)學院264003孫紅衛(wèi)董兆舉趙擁軍
        中國衛(wèi)生統(tǒng)計 2012年1期
        關鍵詞:假設檢驗科學研究錯誤

        濱州醫(yī)學院(264003) 孫紅衛(wèi) 董兆舉 趙擁軍

        統(tǒng)計假設檢驗是生物醫(yī)學、臨床醫(yī)學、流行病學、心理學、教育學等領域中廣泛使用的統(tǒng)計分析方法,數(shù)據(jù)分析中通常要給出統(tǒng)計假設檢驗的結(jié)果。但是應用者對統(tǒng)計假設檢驗有很多的誤解,在很多方面假設檢驗并不適合作為數(shù)據(jù)分析的主要方法。本文討論對統(tǒng)計假設檢驗的各種誤解及其作為科學研究工具的局限性,并進一步討論了統(tǒng)計改革的狀況以及統(tǒng)計假設檢驗一直大規(guī)模使用的原因,最后提出應該樹立正確的統(tǒng)計觀念。

        對統(tǒng)計假設檢驗的誤解

        統(tǒng)計假設檢驗是一種利用實驗或調(diào)查數(shù)據(jù)作決策的方法,即在假設零假設成立的情況下,計算統(tǒng)計量獲得現(xiàn)有數(shù)據(jù)以及更不利于零假設的概率,由此判斷是否拒絕零假設。它由Fisher在20世紀早期提出,現(xiàn)在廣泛應用的統(tǒng)計假設檢驗是Fisher和Neyman-Pearson理論的混合體。統(tǒng)計假設檢驗從提出以來不斷受到批評〔1-7〕,這些批評主要集中在方法的應用上。本文對假設檢驗不同角度的誤解整理提煉,提出最關鍵的幾點,分析如下:

        誤解一,P值的大小衡量了原假設成立的可能性

        不少應用認為,P值越小,表示零假設越不可能成立,結(jié)果越不可能由隨機誤差產(chǎn)生。而P值是H0成立的前提下,統(tǒng)計量獲得現(xiàn)有數(shù)據(jù)以及更不利于零假設的概率,即P(D|H0)。零假設成立的可能性是在現(xiàn)有觀測數(shù)據(jù)下H0成立的可能性,應該是條件概率P(H0|D)。而Bayes公式需在實驗前已知零假設的先驗概率P(H0),才可以計算P(H0|D)。

        Lindley-Jeffreys悖論〔8〕揭示了 P(H0|D)與 P(D|H0)可以差異很大。在文獻〔8〕例子中,雖然拒絕了H0,即P(D|H0)≤α,但是即零假設成立的可能性 P(H0|D)卻接近于1。

        Fisher指出:P值是由它們的零假設計算出來的假設概率,它不會導出關于世界上某個事件的概率,而是關于是否愿意接受所檢驗假設的一個合理定義的度量。〔9〕

        對于應用者而言,很容易將這兩個條件概率混淆。應用者希望得到P(H0|D),即結(jié)果由隨機誤差造成的可能性,殊不知統(tǒng)計假設檢驗不會提供這個信息。

        誤解二,檢驗水準α皆取0.05

        檢驗水準α即犯第一類錯誤的概率。現(xiàn)在的應用傾向是,無論是t檢驗、方差分析或回歸分析,無論分析的是什么問題,α基于長期的傳統(tǒng)都取0.05。在Neyman-Pearson的理論中,α是在實驗前,根據(jù)錯誤拒絕原假設引起的損失程度,主觀來確定。

        Fisher也指出:沒有一個科學工作者年復一年無論什么情況下,都有一個固定的檢驗水準,而更應該依據(jù)自己的證據(jù)和思想,對每一種情況給予不同的考慮。〔10〕

        固定α的一個矛盾在“多重比較”中。假設甲通過做實驗來比較A、B、C三種藥物,乙通過做實驗來比較A、B兩種藥物。甲對于零假設“A、B、C三種藥物的平均療效相同”的檢驗水準設定為0.05,乙對于零假設“A、B兩種藥物的平均療效相同”檢驗水準也是0.05。甲為了控制整個實驗的一類錯誤在0.05以內(nèi),如果比較A、B兩種藥物有何差別,其檢驗水準就要在進行校正后小于0.05。這樣乙的實驗就更容易得到陽性結(jié)果。甲的實驗可以獲得更多信息,卻因此受到懲罰,這顯然是不合理的。

        誤解三,P值越小,代表所檢驗總體差異越大

        P值的大小,除了受差異量的影響外,還受樣本量的影響,即同樣的差異,樣本量大的,其P值就小。即便總體之間的很小差異,只要有足夠的樣本量就可以得到很小的P值。一個有實際意義的差異,如果檢驗功效不大,可能沒有統(tǒng)計意義;同樣,有統(tǒng)計學意義的差異,可能沒有實際意義。

        誤解四,假設檢驗能夠回答“樣本的差異是因為總體確有差異引起的,還是僅由隨機誤差造成的”

        假設檢驗不能夠完全做到這一點,實際上,假設檢驗作出結(jié)論可能犯兩類錯誤。其中第一類錯誤,即實際上樣本的差異僅由隨機誤差造成的,卻錯誤拒絕了H0,認為總體確有差異。犯第一類錯誤的概率由檢驗水準控制在α水平。第二類錯誤是當樣本的差異是由總體的差異造成的,卻錯誤地不拒絕H0,認為僅由隨機誤差造成的。犯第二類錯誤的概率β往往比較大,Cohen〔11〕指出,發(fā)表在主要的心理學雜志上的實驗,平均只有0.5的機會鑒別出一個中等大小的效應,而在樣本量較小的生物醫(yī)學實驗中這個數(shù)值會更低。

        處理隨機誤差問題的需要是個很強的動力使得假設檢驗得以大規(guī)模地應用,但是假設檢驗不能完全正確地回答這個問題,回答錯誤的可能性還比較大。

        誤解五,P值越小,表示了在重復實驗中出現(xiàn)有統(tǒng)計學意義結(jié)果的可能性越大

        實驗結(jié)果的可重復性代表了結(jié)果的可靠性。而對一次實驗的假設檢驗,其P值容易誤解成在重復實驗中出現(xiàn)有統(tǒng)計學意義結(jié)果的可能性。比如P=0.01,被誤解成如果做100次實驗會出現(xiàn)99次有統(tǒng)計學意義結(jié)果。設A=“出現(xiàn)有統(tǒng)計學意義結(jié)果”,重復實驗中出現(xiàn)有統(tǒng)計學意義結(jié)果的可能性即為P(A),P(A)=P(H0)P(A|H0)+P(H1)P(A|H1)=P(H0)α+P(H1)(1-β),其需要知道原假設先驗概率P(H0),備擇假設的先驗概率P(H1),以及檢驗功效(1-β),僅知道P值是無法知道在重復實驗中出現(xiàn)有統(tǒng)計學意義結(jié)果的可能性的。

        假設檢驗應用于科學研究的局限性

        統(tǒng)計方法是科學研究的工具,一個好的統(tǒng)計方法應該能促進科學研究,然而假設檢驗應用于科學研究具有局限性。

        首先,在科學研究中,對一個結(jié)論的可靠性,不是僅通過一次實驗,而是通過重復實驗獲得的。一個負責任的研究者不會僅憑一次實驗的結(jié)果就下結(jié)論。而假設檢驗,每做一次實驗就得出結(jié)論,這樣造成的一個情形是,“P≤0.05”的結(jié)論容易被雜志接收,而“P>0.05”的文章容易被拒,由此造成“發(fā)表偏倚”。假設檢驗適用于“必須通過一次實驗就下結(jié)論”的問題(比如質(zhì)量控制中的抽樣檢查),而科學研究需要的是對某個問題“認知”的累積,而不是“決策”的累積。

        其次,科學研究中需要的數(shù)據(jù)分析方法應該能提供兩個關鍵信息,一是感興趣的效應量是多少,二是效應量估計的精確程度。如果一個研究者拒絕了零假設“A等于B”,可以接受備擇假設“A大于B”,他僅得到這個信息,而至于“A比B大多少”卻無法得知。假設檢驗并不能直接反映這兩點,反而會造成誤解(P值越小,差異越大)。與假設檢驗相比,置信區(qū)間更適合于科學研究,它的估計值代表效應量大小,區(qū)間長度代表抽樣誤差大小。

        效應量估計〔12〕被提出用來解決假設檢驗不能回答的問題,其優(yōu)點是避免了由樣本量的變化影響P值從而引起的對P值的誤解。實驗結(jié)果的可靠性和穩(wěn)健性仍然需要通過重復實驗來獲得,研究結(jié)果在重復實驗中的一致性更適合證明效應的存在。在科學研究中,對每個實驗應該思考如何呈現(xiàn)結(jié)果最合適,而不是每個實驗都用同樣的方法。

        統(tǒng)計改革狀況及思考

        假設檢驗從提出后就不斷受到批評,在這些批評下一些雜志改變了編輯原則,提倡置信區(qū)間而非假設檢驗。1977年,New England Journal of Medicine雜志,Journal of the American Medical Association雜志和Circulation Research雜志相繼對結(jié)果報告進行改革。1986年,British Medical Journal提出在結(jié)果報告中鼓勵使用置信區(qū)間。1988年,國際醫(yī)學期刊編輯委員會修訂了其“對生物醫(yī)學期刊投稿的統(tǒng)一要求”:如果可能,將結(jié)果量化并且用合適的指標對誤差和不確定性進行合適的測量(例如置信區(qū)間),避免單一地依賴統(tǒng)計假設檢驗,例如P值的使用,它不能傳達重要的量化信息……〔13〕。

        1996年,美國心理學會的The Board of Scientific Affairs(BSA)成立了Task Force on Statistical Inference(TFSI)組織,該組織的目的是澄清圍繞統(tǒng)計應用有爭議的問題,包括假設檢驗以及其替代方法;替代的基本模型和數(shù)據(jù)轉(zhuǎn)換;能夠用計算機實現(xiàn)的新方法等〔14〕。

        雖然在統(tǒng)計觀念的改革上有進步,但是統(tǒng)計假設檢驗仍然是科學研究中的主要分析方法之一。究其原因,主要有以下幾個:

        1.最主要是源于對假設檢驗的誤解,以為它能解決科學研究中關心的問題:假設成立的可能性有多少?研究結(jié)果的可靠性是多少?效應量是多少?但實際上,假設檢驗不能回答這些問題。

        2.雜志的編輯發(fā)表的標準是“P值越小越好”,這樣研究者就努力以盡量小的P值呈現(xiàn)結(jié)果。

        3.假設檢驗在統(tǒng)計課程中占有很大一部分,這樣讓學生感覺假設檢驗是主要的統(tǒng)計方法。

        4.軟件的使用給人帶來方便高效,但是使得研究者不關心方法的原理,更給人一種錯覺,即統(tǒng)計假設檢驗是一種標準的、任何時侯都適用的統(tǒng)計方法。

        結(jié) 論

        作假設檢驗已經(jīng)成為很多數(shù)據(jù)分析的例行程序,無論假設檢驗能不能提供有效信息,都要給出P值。統(tǒng)計方法作為科學研究的工具,應該是不同的問題用適合的統(tǒng)計方法來解決。對每個問題需要研究者好好思考用什么統(tǒng)計方法來呈現(xiàn)結(jié)果會得到更有效的信息,而不是不作思考只是用例行的程序來分析所有的問題。樹立這樣的觀念,需要雜志編輯、研究者、學校老師等各個領域人員共同的努力。也許這個過程充滿矛盾和沖突,但最終會引導我們正確地應用統(tǒng)計方法來促進科學研究。

        1.William WR.The fallacy of the null-hypothesis significance test.Psychological Bulletin,1960,57:416-428.

        2.Bakan D.The test of significance in psychological research.Psychological Bulletin,1966,66:1-29.

        3.Ronald PC.The case against statistical significance testing.Harvard Educational Review,1978,48(3):378-399.

        4.Fark R.Misconceptions of statistical significance.,Journal of structural learning,1986,9:83-96.

        5.Cohen J.Things I have learned(so far),American Psychologist,1990,45(12):1304-1312.

        6.Falk R,Greenbaum W.Significance tests die hard.Theory & Psychology,1995,5:75-98.

        7.Gigerenzer G.Mindless statistics,The journal of Socio-Economics,2004,33:587-606.

        8.Lindley V.A statistical paradox.Biometrika,1957,44(1-2):187-192.

        9.Fisher RA.Statistical methods and scientific inference.In:Bennett JH,editor.Statistical methods,experimental design and scientific inference.Oxford:Oxford University Press,1990.

        10.Fisher RA.statistical methods and scientific inference.Edinburgh:Oliver& Boyd,1956.

        11.Cohen J.The statistical power of abnormal-social psychological research:A review.Journal of Abnormal and Social Psychology,1962,65:145-153.

        12.Friedman H.Magnitude of experimental effect and a table for its rapid estima tion.Psychological Bulletin,1968,70:245-251.

        13.International Committee of Medical Journal Editors.Uniform Requirements for manuscripts submitted to biomedical journals.Annals of International Medicine,1988,108:258-265.

        14.American Psychological Association.Task Force on Statistical Inference.http://www.a(chǎn)pa.org/science/leadership/bsa/statistical/index.a(chǎn)spx,2010-10-9.

        猜你喜歡
        假設檢驗科學研究錯誤
        歡迎訂閱《林業(yè)科學研究》
        在錯誤中成長
        歡迎訂閱《紡織科學研究》
        紡織科學研究
        紡織科學研究
        統(tǒng)計推斷的研究
        時代金融(2017年6期)2017-03-25 12:02:43
        雙冪變換下正態(tài)線性回歸模型參數(shù)的假設檢驗
        Primary Question and Hypothesis Testing in Randomized Controlled Clinical Trials
        統(tǒng)計學教學中關于假設檢驗問題探討
        不犯同樣錯誤
        久久99国产伦精品免费| 日韩人妻无码一区二区三区久久 | 亚洲日本中文字幕天天更新| 午夜一级在线| 成人短篇在线视频夫妻刺激自拍| 精品日韩一级免费视频| 无码国产伦一区二区三区视频| 99热成人精品免费久久| 最新亚洲av日韩av二区一区| 国产精品狼人久久影院软件介绍| 少妇内射兰兰久久| 在线a免费观看| 日本久久精品在线播放| 中国亚洲一区二区视频| 亚洲av最新在线网址| 精品国产av无码一道| 美女被搞在线观看一区二区三区 | 日本一区二区三区免费| 精品无码av一区二区三区不卡| 亚洲av无码不卡久久| 日本a级大片免费观看| 亚洲中文中文字幕乱码| 国产精品99精品久久免费| 亚洲尺码电影av久久| 亚洲av色香蕉一区二区蜜桃| 精品国产三级a在线观看不卡| 欧美日韩视频在线第一区| 国产一级毛片卡| 日韩精品久久伊人中文字幕| 久久午夜福利无码1000合集| 国产微拍精品一区二区| 五月激情狠狠开心五月| 日韩有码中文字幕在线观看 | 免费a级毛片无码免费视频首页| 国产人妻精品一区二区三区不卡| 久久久久久免费播放一级毛片| 亚洲av色福利天堂久久入口| 狠狠色综合7777久夜色撩人ⅰ| 五月天欧美精品在线观看| 亚洲一区二区一区二区免费视频| 最美女人体内射精一区二区 |