亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

假設(shè)檢驗中P值的深入分析

2021-07-21 09:07:10高娟

統(tǒng)計理論與實踐 2021年6期

關(guān)鍵詞：研究

高娟

（衡水學(xué)院經(jīng)濟(jì)管理學(xué)院，河北衡水 053000）

一、引言

毋庸置疑，P值讓很多研究者感到困惑。關(guān)于P值的內(nèi)涵和怎樣合理運用它解決實際問題，數(shù)據(jù)科學(xué)家Admond Lee花費了比較長的時間，才對其有了真正深刻的理解，有些學(xué)者甚至提出要擯棄P值的極端觀點[1]。人們的日常生活已經(jīng)受到P值潛移默化的影響。在實際生活中做決定或者研究人員做某項檢測，按照概率值P，給最終結(jié)果提供理論支持；公司管理人員做決策，依據(jù)過去相關(guān)數(shù)據(jù)的抽樣分布，估計出P值，給出決策結(jié)論。值得指出的是，由于它只是整個決策過程中的一小部分，所以研究者不應(yīng)該過度依賴P值。事實上，P值是否完全可靠有必要進(jìn)行深入思考。接下來就針對P值的使用誤區(qū)，談一些個人觀點。

二、基本概念解析

（一）P 值定義

當(dāng)原假設(shè)（零假設(shè)）為真時，所得到的樣本觀察結(jié)果或更極端結(jié)果出現(xiàn)的概率，稱為P值（P-value），也稱為觀察到的顯著性水平（observed significance level）。如果P值很小，說明這種情況發(fā)生的概率很小，而如果出現(xiàn)了，根據(jù)小概率原理，就有理由拒絕原假設(shè)[2]。

以標(biāo)準(zhǔn)正態(tài)分布為例給出P值的計算方法如下：

檢驗統(tǒng)計量的樣本觀測值記為Z0，則總體均值假設(shè)檢驗P值可按下述方法計算[3]：

雙側(cè)檢驗：H0：μ=μ0，H1：μ≠μ0，則P值=2P（Z≥|Z0|）

右單側(cè)檢驗：H0：μ≤μ0，H1：μ>μ0，則P值=P（Z≥Z0）

左單側(cè)檢驗：H0：μ≥μ0，H1：μ<μ0，則P值=P（Z≤Z0）

（二）P值的解讀

P值的一個通俗理解是，在原假設(shè)為真的條件下，在具體的樣本統(tǒng)計量觀測值和對應(yīng)的總體參數(shù)假設(shè)值之間的差異中，由抽樣隨機(jī)誤差引起的可能性大小。

P值越小，拒絕原假設(shè)的理由就越充分，然而一個十分小的P值不能推斷出原假設(shè)和備擇假設(shè)哪一個是錯誤的。這是由于P值非常小可能是因為原假設(shè)不正確導(dǎo)致的，也可能只是由于違背研究設(shè)計形成的，抑或是由于研究人員選取的樣本容量比較大引起的。較大的P值意味著在原假設(shè)成立前提下，樣本數(shù)據(jù)的出現(xiàn)并非是罕見情況，但是并不意味著原假設(shè)是對的。也許是因為出現(xiàn)了違背研究設(shè)計的情形，或者是由于研究人員選取的樣本容量比較小造成的。

（三）P值和經(jīng)典臨界值差異

P值是取值在（0，1]范圍的一個數(shù)值，歸根結(jié)底是一個概率。臨界值是由事先給定的顯著性水平α查相應(yīng)分布表得到的數(shù)值。研究者對于P值非此即彼的觀點削弱了其意義：如果P值<α，則稱為“統(tǒng)計上是顯著的”，否則就被認(rèn)為“統(tǒng)計上不顯著”。

由于臨界值是基于顯著性水平查表得到的數(shù)值，而顯著性水平α通常情況又是事先給定的（若沒有規(guī)定α數(shù)值，通常選取α=0.05），所以臨界值是不隨抽樣數(shù)據(jù)變化而變化的；P值是基于樣本數(shù)據(jù)，因而是計算之前無法獲取的分析結(jié)果，故P值被稱為實際觀測到的顯著性水平。

P值檢驗是計算機(jī)時代通行的檢驗方式，無須按照不同的顯著性水平查相關(guān)分布表來確定臨界值。目前，一般的數(shù)據(jù)分析軟件，在推斷參數(shù)的同時都會給出相對應(yīng)的P值。因此，在計算機(jī)時代P值檢驗更加方便可行。

三、常見問題總結(jié)剖析

（一）P值很小拒絕原假設(shè)時，檢驗結(jié)果一定有實際意義

某個結(jié)論在統(tǒng)計上是顯著的，但是不一定有實際價值。由于P值和抽樣的樣本容量n緊密相關(guān)，檢驗統(tǒng)計量的值會隨著樣本容量的增大而增大，而此時P值卻越來越小，就越容易拒絕原假設(shè)。事實上，只要主觀上想拒絕原假設(shè)就一定能拒絕它，只要無限增加樣本容量，幾乎總是可以拒絕原假設(shè)，這就是“欲加之罪，何患無辭”。因此，研究者為了研究結(jié)果可以發(fā)表或者使結(jié)果具有統(tǒng)計顯著性可以人為選擇一些數(shù)據(jù)和方法，基于此，不應(yīng)過于關(guān)注P值的統(tǒng)計學(xué)意義。如果研究總體規(guī)模比較小，噪聲也會把一個極其大的效應(yīng)量淹沒，在這種情形下難以利用統(tǒng)計假設(shè)檢驗得到統(tǒng)計顯著性。

（二）P≤α表示原假設(shè)為假或應(yīng)拒絕原假設(shè)

P值越小，意味著包括原假設(shè)在內(nèi)的所有假設(shè)均為真的前提下，現(xiàn)有樣本數(shù)據(jù)出現(xiàn)的可能性是越小的；但P值較小也可能是由于抽樣不具有代表性或者統(tǒng)計推斷過程中違反了除原假設(shè)以外的其他假設(shè)。

（三）P值是原假設(shè)為真的可能性[4]

也就是說，假如在原假設(shè)為真的條件下，根據(jù)樣本數(shù)據(jù)計算得到P=0.02，那么原假設(shè)為真的概率只有2%；如P=0.30，原假設(shè)為真的概率則有30%。P值是在原驗假設(shè)為真的條件下計算得到的，它只反映現(xiàn)有樣本數(shù)據(jù)與在包括原假設(shè)在內(nèi)的所有假設(shè)成立的前提下預(yù)測情況的一致程度。所以，P=0.02意味著樣本數(shù)據(jù)和根據(jù)模型預(yù)測的情況不是很接近，P=0.30相比之下暗示樣本數(shù)據(jù)和模型分析預(yù)測情況相對來說更為相近。P值并不能體現(xiàn)某一理論是否存在的概率，只是表示在其不正確的前提下，現(xiàn)有樣本數(shù)據(jù)以及有可能獲取但是沒得到的更加極端數(shù)據(jù)出現(xiàn)的可能性。

（四）P值表明的是所觀測到的一致程度是只因偶然因素產(chǎn)生的可能性

例如，若在原假設(shè)成立條件下，得出P值為0.08，則說明有8%的機(jī)率是來自偶然引起的關(guān)聯(lián)。此思想的不盡合理之處在于：以為只由偶然因素造成了現(xiàn)有觀測結(jié)果，也就意味著在邏輯上承認(rèn)包含原假設(shè)在內(nèi)的所有用來計算P值的假設(shè)均是對的。

（五）統(tǒng)計不顯著的檢驗結(jié)果意味著原假設(shè)為真或應(yīng)被接受

P值較大只表明，包括原假設(shè)在內(nèi)的所有假設(shè)均成立時，出現(xiàn)現(xiàn)有樣本數(shù)據(jù)的可能性不是小概率。并不表示零假設(shè)是對的，零假設(shè)錯誤的可能性仍是非常大的，只能說還沒有找到充足的理由去拒絕零假設(shè)。因此，對于原假設(shè)規(guī)范的說法通常是采用“拒絕或不拒絕”，而不是“接受”。

（六）如果P>α，表明沒有觀測到差異或證明了沒有差異

P>α只能說明零假設(shè)是使P值大于α的諸多假設(shè)之一。切記統(tǒng)計推斷（包括參數(shù)估計和假設(shè)檢驗）都是在一定的概率把握程度下討論的，在假設(shè)檢驗中，不管是拒絕還是不拒絕原假設(shè)都不能保證100%正確，因此在假設(shè)檢驗中，“證明了原假設(shè)正確”或“證明了沒有差異”這一表述是錯誤的。

（七）如果依據(jù) P≤α拒絕原假設(shè)，則犯錯誤的可能性為α

如零假設(shè)為真，則當(dāng)拒絕零假設(shè)時，若給定α=0.01，顯然犯錯誤的概率是100%，而非1%。在零假設(shè)及所有其他假設(shè)均成立時，如果反復(fù)抽樣，則可以實施多次檢驗，1%只表示在多次檢驗結(jié)論中，錯誤否定零假設(shè)的頻率。

（八）統(tǒng)計假設(shè)檢驗中均利用雙側(cè)檢驗P值

如果是單側(cè)檢驗時，使用單側(cè)P值更為合適。建議在使用單側(cè)檢驗P值時，可做必要解釋說明和進(jìn)行特別強(qiáng)調(diào)。

（九）若前期研究計算得到了較小的P值，那么針對同一假設(shè)后期實施的另一研究觀測到的P值絕大可能不會高于該P值

即便在相互獨立且各自所有假設(shè)均為真這一理想狀態(tài)下進(jìn)行分析，此種說法也是不正確的。有這種情形，若一項研究結(jié)果為P=0.02，則新研究只有2%的概率結(jié)果為P≤0.02。所以，已觀測到的P值即為后來研究獲得的P值結(jié)果不大于原研究P值結(jié)果的可能性?；旧?，諸如研究規(guī)模，包括零假設(shè)在內(nèi)的其他所有假設(shè)能否被滿足在很大程度上都會對新研究的P值產(chǎn)生影響。

（十）若因為P值>0.05和所得檢驗功效為99%而不拒絕零假設(shè)，那么犯錯誤的概率為1%

如備擇假設(shè)和研究中其余一切假設(shè)均為真，則在各個研究中實施多次檢驗時，意味著其中出錯的頻率是1%，而不是針對單獨一次檢驗進(jìn)行說明。也就是說，1%沒有辦法說明用以估算功效的效應(yīng)量外的其他效應(yīng)量的出錯率。

四、結(jié)語

一直以來，學(xué)者們對P值的弊端進(jìn)行著激烈爭論。研究者已慣于用P值衡量實驗數(shù)據(jù)的可靠性，實際上，P值不具有測量實驗結(jié)果的能力，很多論文的研究結(jié)果是不可靠的。P值大小僅表示數(shù)據(jù)差異在統(tǒng)計學(xué)上是否顯著，不代表實際顯著性，因此要客觀看待P值，做結(jié)論時應(yīng)將統(tǒng)計學(xué)結(jié)果和實際問題結(jié)合起來。鑒于P值在實際運用中存在的諸多問題，要善于運用和慎用P值，要懂得接受不確定性，也可以合理選取二代P值或采取基于真實數(shù)據(jù)基礎(chǔ)上的其他P值統(tǒng)計原則[5]?！?/p>