高 娟
(衡水學(xué)院 經(jīng)濟(jì)管理學(xué)院,河北 衡水 053000)
毋庸置疑,P值讓很多研究者感到困惑。關(guān)于P值的內(nèi)涵和怎樣合理運用它解決實際問題,數(shù)據(jù)科學(xué)家Admond Lee花費了比較長的時間,才對其有了真正深刻的理解,有些學(xué)者甚至提出要擯棄P值的極端觀點[1]。人們的日常生活已經(jīng)受到P值潛移默化的影響。在實際生活中做決定或者研究人員做某項檢測,按照概率值P,給最終結(jié)果提供理論支持;公司管理人員做決策,依據(jù)過去相關(guān)數(shù)據(jù)的抽樣分布,估計出P值,給出決策結(jié)論。值得指出的是,由于它只是整個決策過程中的一小部分,所以研究者不應(yīng)該過度依賴P值。事實上,P值是否完全可靠有必要進(jìn)行深入思考。接下來就針對P值的使用誤區(qū),談一些個人觀點。
當(dāng)原假設(shè)(零假設(shè))為真時,所得到的樣本觀察結(jié)果或更極端結(jié)果出現(xiàn)的概率,稱為P值(P-value),也稱為觀察到的顯著性水平(observed significance level)。如果P值很小,說明這種情況發(fā)生的概率很小,而如果出現(xiàn)了,根據(jù)小概率原理,就有理由拒絕原假設(shè)[2]。
以標(biāo)準(zhǔn)正態(tài)分布為例給出P值的計算方法如下:
檢驗統(tǒng)計量的樣本觀測值記為Z0,則總體均值假設(shè)檢驗P值可按下述方法計算[3]:
雙側(cè)檢驗:H0:μ=μ0,H1:μ≠μ0,則P值=2P(Z≥|Z0|)
右單側(cè)檢驗:H0:μ≤μ0,H1:μ>μ0,則P值=P(Z≥Z0)
左單側(cè)檢驗:H0:μ≥μ0,H1:μ<μ0,則P值=P(Z≤Z0)
P值的一個通俗理解是,在原假設(shè)為真的條件下,在具體的樣本統(tǒng)計量觀測值和對應(yīng)的總體參數(shù)假設(shè)值之間的差異中,由抽樣隨機(jī)誤差引起的可能性大小。
P值越小,拒絕原假設(shè)的理由就越充分,然而一個十分小的P值不能推斷出原假設(shè)和備擇假設(shè)哪一個是錯誤的。這是由于P值非常小可能是因為原假設(shè)不正確導(dǎo)致的,也可能只是由于違背研究設(shè)計形成的,抑或是由于研究人員選取的樣本容量比較大引起的。較大的P值意味著在原假設(shè)成立前提下,樣本數(shù)據(jù)的出現(xiàn)并非是罕見情況,但是并不意味著原假設(shè)是對的。也許是因為出現(xiàn)了違背研究設(shè)計的情形,或者是由于研究人員選取的樣本容量比較小造成的。
P值是取值在(0,1]范圍的一個數(shù)值,歸根結(jié)底是一個概率。臨界值是由事先給定的顯著性水平α查相應(yīng)分布表得到的數(shù)值。研究者對于P值非此即彼的觀點削弱了其意義:如果P值<α,則稱為“統(tǒng)計上是顯著的”,否則就被認(rèn)為“統(tǒng)計上不顯著”。
由于臨界值是基于顯著性水平查表得到的數(shù)值,而顯著性水平α通常情況又是事先給定的(若沒有規(guī)定α數(shù)值,通常選取α=0.05),所以臨界值是不隨抽樣數(shù)據(jù)變化而變化的;P值是基于樣本數(shù)據(jù),因而是計算之前無法獲取的分析結(jié)果,故P值被稱為實際觀測到的顯著性水平。
P值檢驗是計算機(jī)時代通行的檢驗方式,無須按照不同的顯著性水平查相關(guān)分布表來確定臨界值。目前,一般的數(shù)據(jù)分析軟件,在推斷參數(shù)的同時都會給出相對應(yīng)的P值。因此,在計算機(jī)時代P值檢驗更加方便可行。
某個結(jié)論在統(tǒng)計上是顯著的,但是不一定有實際價值。由于P值和抽樣的樣本容量n緊密相關(guān),檢驗統(tǒng)計量的值會隨著樣本容量的增大而增大,而此時P值卻越來越小,就越容易拒絕原假設(shè)。事實上,只要主觀上想拒絕原假設(shè)就一定能拒絕它,只要無限增加樣本容量,幾乎總是可以拒絕原假設(shè),這就是“欲加之罪,何患無辭”。因此,研究者為了研究結(jié)果可以發(fā)表或者使結(jié)果具有統(tǒng)計顯著性可以人為選擇一些數(shù)據(jù)和方法,基于此,不應(yīng)過于關(guān)注P值的統(tǒng)計學(xué)意義。如果研究總體規(guī)模比較小,噪聲也會把一個極其大的效應(yīng)量淹沒,在這種情形下難以利用統(tǒng)計假設(shè)檢驗得到統(tǒng)計顯著性。
P值越小,意味著包括原假設(shè)在內(nèi)的所有假設(shè)均為真的前提下,現(xiàn)有樣本數(shù)據(jù)出現(xiàn)的可能性是越小的;但P值較小也可能是由于抽樣不具有代表性或者統(tǒng)計推斷過程中違反了除原假設(shè)以外的其他假設(shè)。
也就是說,假如在原假設(shè)為真的條件下,根據(jù)樣本數(shù)據(jù)計算得到P=0.02,那么原假設(shè)為真的概率只有2%;如P=0.30,原假設(shè)為真的概率則有30%。P值是在原驗假設(shè)為真的條件下計算得到的,它只反映現(xiàn)有樣本數(shù)據(jù)與在包括原假設(shè)在內(nèi)的所有假設(shè)成立的前提下預(yù)測情況的一致程度。所以,P=0.02意味著樣本數(shù)據(jù)和根據(jù)模型預(yù)測的情況不是很接近,P=0.30相比之下暗示樣本數(shù)據(jù)和模型分析預(yù)測情況相對來說更為相近。P值并不能體現(xiàn)某一理論是否存在的概率,只是表示在其不正確的前提下,現(xiàn)有樣本數(shù)據(jù)以及有可能獲取但是沒得到的更加極端數(shù)據(jù)出現(xiàn)的可能性。
例如,若在原假設(shè)成立條件下,得出P值為0.08,則說明有8%的機(jī)率是來自偶然引起的關(guān)聯(lián)。此思想的不盡合理之處在于:以為只由偶然因素造成了現(xiàn)有觀測結(jié)果,也就意味著在邏輯上承認(rèn)包含原假設(shè)在內(nèi)的所有用來計算P值的假設(shè)均是對的。
P值較大只表明,包括原假設(shè)在內(nèi)的所有假設(shè)均成立時,出現(xiàn)現(xiàn)有樣本數(shù)據(jù)的可能性不是小概率。并不表示零假設(shè)是對的,零假設(shè)錯誤的可能性仍是非常大的,只能說還沒有找到充足的理由去拒絕零假設(shè)。因此,對于原假設(shè)規(guī)范的說法通常是采用“拒絕或不拒絕”,而不是“接受”。
P>α只能說明零假設(shè)是使P值大于α的諸多假設(shè)之一。切記統(tǒng)計推斷(包括參數(shù)估計和假設(shè)檢驗)都是在一定的概率把握程度下討論的,在假設(shè)檢驗中,不管是拒絕還是不拒絕原假設(shè)都不能保證100%正確,因此在假設(shè)檢驗中,“證明了原假設(shè)正確”或“證明了沒有差異”這一表述是錯誤的。
如零假設(shè)為真,則當(dāng)拒絕零假設(shè)時,若給定α=0.01,顯然犯錯誤的概率是100%,而非1%。在零假設(shè)及所有其他假設(shè)均成立時,如果反復(fù)抽樣,則可以實施多次檢驗,1%只表示在多次檢驗結(jié)論中,錯誤否定零假設(shè)的頻率。
如果是單側(cè)檢驗時,使用單側(cè)P值更為合適。建議在使用單側(cè)檢驗P值時,可做必要解釋說明和進(jìn)行特別強(qiáng)調(diào)。
即便在相互獨立且各自所有假設(shè)均為真這一理想狀態(tài)下進(jìn)行分析,此種說法也是不正確的。有這種情形,若一項研究結(jié)果為P=0.02,則新研究只有2%的概率結(jié)果為P≤0.02。所以,已觀測到的P值即為后來研究獲得的P值結(jié)果不大于原研究P值結(jié)果的可能性?;旧?,諸如研究規(guī)模,包括零假設(shè)在內(nèi)的其他所有假設(shè)能否被滿足在很大程度上都會對新研究的P值產(chǎn)生影響。
如備擇假設(shè)和研究中其余一切假設(shè)均為真,則在各個研究中實施多次檢驗時,意味著其中出錯的頻率是1%,而不是針對單獨一次檢驗進(jìn)行說明。也就是說,1%沒有辦法說明用以估算功效的效應(yīng)量外的其他效應(yīng)量的出錯率。
一直以來,學(xué)者們對P值的弊端進(jìn)行著激烈爭論。研究者已慣于用P值衡量實驗數(shù)據(jù)的可靠性,實際上,P值不具有測量實驗結(jié)果的能力,很多論文的研究結(jié)果是不可靠的。P值大小僅表示數(shù)據(jù)差異在統(tǒng)計學(xué)上是否顯著,不代表實際顯著性,因此要客觀看待P值,做結(jié)論時應(yīng)將統(tǒng)計學(xué)結(jié)果和實際問題結(jié)合起來。鑒于P值在實際運用中存在的諸多問題,要善于運用和慎用P值,要懂得接受不確定性,也可以合理選取二代P值或采取基于真實數(shù)據(jù)基礎(chǔ)上的其他P值統(tǒng)計原則[5]?!?/p>