劉利紅
(紹興文理學(xué)院 計(jì)劃財(cái)務(wù)處,浙江 紹興312000)
在進(jìn)行統(tǒng)計(jì)學(xué)檢驗(yàn)時(shí),經(jīng)常使用P值對(duì)是否拒絕零假設(shè)進(jìn)行判斷.最近國際權(quán)威學(xué)術(shù)雜志《Political Analysis》公開表示不再接收在文章中使用P值的論文[1].這個(gè)事件看似對(duì)傳統(tǒng)統(tǒng)計(jì)學(xué)的公然挑戰(zhàn),但實(shí)際上也是對(duì)誤用統(tǒng)計(jì)學(xué)敲響了警鐘.針對(duì)這個(gè)問題筆者嘗試給予理論上的探討,并以一個(gè)財(cái)務(wù)數(shù)據(jù)的檢驗(yàn)問題給予展示.
本文首先針對(duì)統(tǒng)計(jì)學(xué)檢驗(yàn)給予P值一個(gè)明確的定義.P值是某一統(tǒng)計(jì)摘要的絕對(duì)值在零假設(shè)分布下大于其實(shí)現(xiàn)值的絕對(duì)值的概率.
自從Pearson(1900)[2]作為統(tǒng)計(jì)檢驗(yàn)的一種輔助指標(biāo)導(dǎo)入P值以來,無論在自然科學(xué)還是社會(huì)科學(xué)幾乎所有領(lǐng)域P值都有著廣泛的應(yīng)用.很多情況下研究者只看P值的大小就做出了實(shí)證分析的最終結(jié)論.在統(tǒng)計(jì)分析中P值的強(qiáng)勢(shì)幾乎可以說是獨(dú)一無二.
雖然P值在統(tǒng)計(jì)學(xué)應(yīng)用中有著上述的重要地位,但歷史上一直存在著關(guān)于P值誤用的議論.這個(gè)問題其實(shí)在《Political Analysis》的論文之前《American Psychological Association》已經(jīng)在Wasserstein and Lazar (2016)[3]中對(duì)P值的作用和使用上的問題提出了以下幾點(diǎn)聲明.
(1)P值能夠表現(xiàn)數(shù)據(jù)和模型之間的不一致.
(2)P值并不能表示零假設(shè)下模型為真實(shí)模型的概率,也不能表示偶然生成現(xiàn)有數(shù)據(jù)的概率.
(3) 在進(jìn)行科學(xué)研究,商務(wù)決策或者政策制定時(shí),不應(yīng)該僅僅根據(jù)P值是否超出一定的顯著水平做出決定.
(4) 完善的統(tǒng)計(jì)推測(cè)應(yīng)該展示全面和透明的結(jié)果.
(5)P值的大小和統(tǒng)計(jì)意義上的顯著性并不能證明某種效果的強(qiáng)度或者某一結(jié)果的重要性.
(6) 判斷模型是否恰當(dāng)或者零假設(shè)是否正確,P值自身并不是很好的指標(biāo).
P值的問題只是存在于統(tǒng)計(jì)檢驗(yàn)問題的冰山一角.Rao(2004)[4]提出了統(tǒng)計(jì)學(xué)特別是統(tǒng)計(jì)檢驗(yàn)的弱點(diǎn).Rao指出,在比較兩個(gè)不同的政策或者措施的處理效應(yīng)時(shí),分析者往往過度地重視了兩個(gè)處理效應(yīng)一致這樣的零假設(shè),而這種零假設(shè)實(shí)際上根本不可能是真實(shí)的.與其做這樣的零假設(shè)檢驗(yàn),不如把重點(diǎn)放在估計(jì)處理效應(yīng)的差異上.
為了能夠具體地理解P值誤用的危害,下面的章節(jié)將繼續(xù)從理論和實(shí)驗(yàn)的角度,對(duì)P值使用的問題進(jìn)行詳盡的探討.
P值最常見的應(yīng)用是在t檢驗(yàn)中的應(yīng)用.以兩個(gè)不同母體均值差檢驗(yàn)為例,首先計(jì)算均值差的t值,然后根據(jù)統(tǒng)計(jì)學(xué)理論推導(dǎo)出t值的分布.兩個(gè)母體的方差一致的情況下,t值通常服從自由度為樣本量減2的t分布.然后推導(dǎo)出t值所對(duì)應(yīng)的P值.雙側(cè)檢驗(yàn)時(shí),如果P值<顯著水平則拒絕母體的均值間沒有差別的零假設(shè).單側(cè)檢驗(yàn)時(shí)如果零假設(shè)是均值差≥0,當(dāng)t值<零,自然是接受零假設(shè),當(dāng)t值>零則利用P值進(jìn)行判斷.如果P值/2<顯著水平則拒絕母體的均值差≥零的零假設(shè).零假設(shè)≤零時(shí)以此類推.P值在絕大多數(shù)的統(tǒng)計(jì)檢驗(yàn)中都可以應(yīng)用,使用方法和t檢驗(yàn)時(shí)類似.
利用P值進(jìn)行檢驗(yàn)從數(shù)理統(tǒng)計(jì)的理論角度講不存在任何問題.當(dāng)樣本不斷增大最終一定能夠得到正確的結(jié)論.但是從實(shí)踐角度考慮這種正確結(jié)論是否能被正確領(lǐng)會(huì),是否存在誤解是需要探討的.
假設(shè)有兩個(gè)隨機(jī)變量X和Y,均值分別為μ1和μ2,方差相同為σ2.假設(shè)μ1和μ2之間只有微妙的差別,也就是說與σ相比μ1-μ2很小.這時(shí)我們的樣本如果不是很大,通常很難拒絕零假設(shè),也就是說這種情況下檢驗(yàn)的功效很低.但根據(jù)中心極限定理和大數(shù)法則,只要我們不斷增加樣本總歸會(huì)拒絕零假設(shè).這在數(shù)理理論上是無可厚非的,但如果在實(shí)踐上通過不斷增加樣本最終達(dá)到了拒絕零假設(shè)的目的,進(jìn)而因?yàn)楦鶕?jù)檢驗(yàn)結(jié)果X和Y存在統(tǒng)計(jì)學(xué)意義上顯著的差別,而下結(jié)論認(rèn)為在實(shí)踐的意義上X和Y存在有意義的差別,有時(shí)是會(huì)導(dǎo)致判斷的嚴(yán)重錯(cuò)誤.
極端地講,完全等均值的兩個(gè)母體在現(xiàn)實(shí)中是很難存在的.例如,假設(shè)A、B兩組各種屬性完全匹配的患者,對(duì)A組進(jìn)行某種藥物治療而對(duì)B組僅僅使用安慰劑.假設(shè)該藥物并沒有足夠的治療效果,但雖然微乎其微還是有一點(diǎn)點(diǎn)的效果,兩個(gè)群體的治療后平均壽命幾乎相同但也有微乎其微的差別.這時(shí)如果不斷增大樣本,最終還是可以拒絕零假設(shè)也就是拒絕藥物無效的假設(shè).這在統(tǒng)計(jì)學(xué)意義上講檢驗(yàn)方法沒有任何錯(cuò)誤,可是如果我們錯(cuò)誤的以統(tǒng)計(jì)學(xué)的顯著性代替藥物的有效性,將造成判斷錯(cuò)誤.原因在于,微乎其微的差別在統(tǒng)計(jì)學(xué)上雖然通過增加樣本可以檢驗(yàn)出來,可是這樣的微乎其微的差別實(shí)在太小,在實(shí)際的醫(yī)療實(shí)踐中沒有任何意義.不能僅僅依據(jù)統(tǒng)計(jì)檢驗(yàn)的顯著性對(duì)實(shí)際問題作出結(jié)論.只有結(jié)合實(shí)際才能正確判斷.
為了更清楚地展示P值的誤用可能性,做一個(gè)財(cái)務(wù)數(shù)據(jù)的模擬.實(shí)驗(yàn)內(nèi)容是對(duì)某大學(xué)兩個(gè)不同學(xué)院的財(cái)務(wù)管理進(jìn)行比較.比較A、B兩個(gè)學(xué)院的科研人員個(gè)人研究經(jīng)費(fèi)中差旅費(fèi)比例.設(shè)定A、B兩個(gè)學(xué)院的個(gè)人研究經(jīng)費(fèi)中差旅費(fèi)比例分別服從相互獨(dú)立的truncated standard normal distribution.A的上限和下限是0.1和0.9,B的上限和下限為0.11和0.91,均值分別為0.5和0.51.樣本量設(shè)置8種:100、200、500、1 000、2 000、5 000、10 000、100 000.生成數(shù)據(jù),針對(duì)每一種樣本量重復(fù)模擬1000次.假設(shè)已知方差相同的信息,對(duì)兩個(gè)學(xué)院的差旅費(fèi)比例均值是否存在差異利用P值進(jìn)行t檢驗(yàn).
模擬實(shí)驗(yàn)的具體程序代碼如下:
模擬用Matlab程序代碼rng(0);
p=zeros(8,100);
pd=makedist('Normal','mu',0.1,'sigma',0.9);
pdt=truncate(pd,0,1);
forj=1:1000
num=[100 200 500 1000 2000 5000 10000 100000];
for i= 1:8
n=num(i);
x=random(pdt,n,2);
varx=2*var([x(:,1);x(:,2)]);
t=n^0.5*mean(x(:,1)-x(:,2)+0.01)/(varx^0.5);
p(i,j)=1-tcdf(abs(t),2*n-2);
end
end
(sum(p'<0.025)/1000)
模擬的結(jié)果見表1.從表1的結(jié)果可以看到,隨著樣本量的增大零假設(shè)被拒絕的比例越來越高.當(dāng)樣本量在500以下時(shí),只有10%以下零假設(shè)被拒絕.當(dāng)樣本量達(dá)到5 000時(shí)拒絕比例接近一半,當(dāng)樣本量增加到10 000時(shí)70%以上被拒絕,最終當(dāng)樣本量為10萬時(shí)1 000次的模擬100%拒絕零假設(shè).
模擬的結(jié)果說明雖然兩個(gè)學(xué)院的個(gè)人差旅費(fèi)比例均值相差只有1%,而這個(gè)1%只有總體分布的標(biāo)準(zhǔn)差的1/30左右.這樣小的差異在財(cái)務(wù)管理上沒有任何實(shí)際意義.但如果我們不斷增加樣本,就會(huì)和模擬的結(jié)果一樣拒絕兩個(gè)學(xué)院之間沒有差異的零假設(shè).這時(shí)如果錯(cuò)誤地忽略了樣本均值差異的大小而僅僅依賴P值,判斷兩個(gè)學(xué)院有顯著的差異,將會(huì)誤導(dǎo)財(cái)務(wù)管理,造成工作失誤.
表1 模擬實(shí)驗(yàn)結(jié)果
樣本量10020050010002000500010000100000拒絕零假設(shè)比例0.0620.0550.0890.1290.2140.4380.7041.000
本文對(duì)P值的應(yīng)用誤區(qū)進(jìn)行了理論探討,并且通過模擬實(shí)驗(yàn)展示了在應(yīng)用統(tǒng)計(jì)檢驗(yàn)時(shí)誤用P值的可能性和后果.在實(shí)際應(yīng)用中,不能僅僅依賴P值對(duì)實(shí)際問題進(jìn)行判斷,必須結(jié)合各個(gè)領(lǐng)域的實(shí)際情況,參考其他指標(biāo)和該領(lǐng)域的理論知識(shí)和實(shí)踐經(jīng)驗(yàn).學(xué)習(xí)和使用統(tǒng)計(jì)學(xué)應(yīng)從數(shù)理角度正確理解統(tǒng)計(jì)學(xué)理論知識(shí).同時(shí)掌握如何在實(shí)踐中正確使用統(tǒng)計(jì)學(xué)分析實(shí)際問題.
參考文獻(xiàn):
[1]GILL J. Comments from the new editor[J]. Political Analysis, 2018, 26(1):1-2.
[2]Karl P X. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling[J]. Philosophical Magazine Series 5, 1900,50(302): 157-175.
[3]Ronald L W, Nicole A L. The asa's statement on p -values: context, process, and purpose[J]. Am Stat, 2016, 70(2): 129-133.
[4]Rao C. Statistics: reflections on the past and visions for the future[J]. Communstat Theory Methods, 2001, 30(11): 2235-2257.