亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

P值問題及高校財(cái)務(wù)數(shù)據(jù)模擬

2018-05-02 11:47:44劉利紅

紹興文理學(xué)院學(xué)報(bào)(自然科學(xué)版) 2018年1期

劉利紅

(紹興文理學(xué)院計(jì)劃財(cái)務(wù)處,浙江紹興312000)

0 引言

在進(jìn)行統(tǒng)計(jì)學(xué)檢驗(yàn)時(shí)，經(jīng)常使用P值對(duì)是否拒絕零假設(shè)進(jìn)行判斷.最近國際權(quán)威學(xué)術(shù)雜志《Political Analysis》公開表示不再接收在文章中使用P值的論文[1].這個(gè)事件看似對(duì)傳統(tǒng)統(tǒng)計(jì)學(xué)的公然挑戰(zhàn)，但實(shí)際上也是對(duì)誤用統(tǒng)計(jì)學(xué)敲響了警鐘.針對(duì)這個(gè)問題筆者嘗試給予理論上的探討，并以一個(gè)財(cái)務(wù)數(shù)據(jù)的檢驗(yàn)問題給予展示.

1 理論探討

1.1 P值的定義

本文首先針對(duì)統(tǒng)計(jì)學(xué)檢驗(yàn)給予P值一個(gè)明確的定義.P值是某一統(tǒng)計(jì)摘要的絕對(duì)值在零假設(shè)分布下大于其實(shí)現(xiàn)值的絕對(duì)值的概率.

自從Pearson(1900)[2]作為統(tǒng)計(jì)檢驗(yàn)的一種輔助指標(biāo)導(dǎo)入P值以來，無論在自然科學(xué)還是社會(huì)科學(xué)幾乎所有領(lǐng)域P值都有著廣泛的應(yīng)用.很多情況下研究者只看P值的大小就做出了實(shí)證分析的最終結(jié)論.在統(tǒng)計(jì)分析中P值的強(qiáng)勢(shì)幾乎可以說是獨(dú)一無二.

雖然P值在統(tǒng)計(jì)學(xué)應(yīng)用中有著上述的重要地位，但歷史上一直存在著關(guān)于P值誤用的議論.這個(gè)問題其實(shí)在《Political Analysis》的論文之前《American Psychological Association》已經(jīng)在Wasserstein and Lazar (2016)[3]中對(duì)P值的作用和使用上的問題提出了以下幾點(diǎn)聲明.

(1)P值能夠表現(xiàn)數(shù)據(jù)和模型之間的不一致.

(2)P值并不能表示零假設(shè)下模型為真實(shí)模型的概率，也不能表示偶然生成現(xiàn)有數(shù)據(jù)的概率.

(3) 在進(jìn)行科學(xué)研究，商務(wù)決策或者政策制定時(shí)，不應(yīng)該僅僅根據(jù)P值是否超出一定的顯著水平做出決定.

(4) 完善的統(tǒng)計(jì)推測(cè)應(yīng)該展示全面和透明的結(jié)果.

(5)P值的大小和統(tǒng)計(jì)意義上的顯著性并不能證明某種效果的強(qiáng)度或者某一結(jié)果的重要性.

(6) 判斷模型是否恰當(dāng)或者零假設(shè)是否正確，P值自身并不是很好的指標(biāo).

P值的問題只是存在于統(tǒng)計(jì)檢驗(yàn)問題的冰山一角.Rao(2004)[4]提出了統(tǒng)計(jì)學(xué)特別是統(tǒng)計(jì)檢驗(yàn)的弱點(diǎn).Rao指出，在比較兩個(gè)不同的政策或者措施的處理效應(yīng)時(shí)，分析者往往過度地重視了兩個(gè)處理效應(yīng)一致這樣的零假設(shè)，而這種零假設(shè)實(shí)際上根本不可能是真實(shí)的.與其做這樣的零假設(shè)檢驗(yàn)，不如把重點(diǎn)放在估計(jì)處理效應(yīng)的差異上.

為了能夠具體地理解P值誤用的危害，下面的章節(jié)將繼續(xù)從理論和實(shí)驗(yàn)的角度，對(duì)P值使用的問題進(jìn)行詳盡的探討.

1.2 P值的使用方法

P值最常見的應(yīng)用是在t檢驗(yàn)中的應(yīng)用.以兩個(gè)不同母體均值差檢驗(yàn)為例，首先計(jì)算均值差的t值，然后根據(jù)統(tǒng)計(jì)學(xué)理論推導(dǎo)出t值的分布.兩個(gè)母體的方差一致的情況下，t值通常服從自由度為樣本量減2的t分布.然后推導(dǎo)出t值所對(duì)應(yīng)的P值.雙側(cè)檢驗(yàn)時(shí)，如果P值<顯著水平則拒絕母體的均值間沒有差別的零假設(shè).單側(cè)檢驗(yàn)時(shí)如果零假設(shè)是均值差≥0，當(dāng)t值<零，自然是接受零假設(shè)，當(dāng)t值>零則利用P值進(jìn)行判斷.如果P值/2<顯著水平則拒絕母體的均值差≥零的零假設(shè).零假設(shè)≤零時(shí)以此類推.P值在絕大多數(shù)的統(tǒng)計(jì)檢驗(yàn)中都可以應(yīng)用，使用方法和t檢驗(yàn)時(shí)類似.

1.3 利用P值進(jìn)行檢驗(yàn)時(shí)可能產(chǎn)生的問題

利用P值進(jìn)行檢驗(yàn)從數(shù)理統(tǒng)計(jì)的理論角度講不存在任何問題.當(dāng)樣本不斷增大最終一定能夠得到正確的結(jié)論.但是從實(shí)踐角度考慮這種正確結(jié)論是否能被正確領(lǐng)會(huì)，是否存在誤解是需要探討的.

假設(shè)有兩個(gè)隨機(jī)變量X和Y，均值分別為μ1和μ2，方差相同為σ2.假設(shè)μ1和μ2之間只有微妙的差別,也就是說與σ相比μ1-μ2很小.這時(shí)我們的樣本如果不是很大，通常很難拒絕零假設(shè)，也就是說這種情況下檢驗(yàn)的功效很低.但根據(jù)中心極限定理和大數(shù)法則，只要我們不斷增加樣本總歸會(huì)拒絕零假設(shè).這在數(shù)理理論上是無可厚非的，但如果在實(shí)踐上通過不斷增加樣本最終達(dá)到了拒絕零假設(shè)的目的，進(jìn)而因?yàn)楦鶕?jù)檢驗(yàn)結(jié)果X和Y存在統(tǒng)計(jì)學(xué)意義上顯著的差別，而下結(jié)論認(rèn)為在實(shí)踐的意義上X和Y存在有意義的差別，有時(shí)是會(huì)導(dǎo)致判斷的嚴(yán)重錯(cuò)誤.

極端地講，完全等均值的兩個(gè)母體在現(xiàn)實(shí)中是很難存在的.例如，假設(shè)A、B兩組各種屬性完全匹配的患者，對(duì)A組進(jìn)行某種藥物治療而對(duì)B組僅僅使用安慰劑.假設(shè)該藥物并沒有足夠的治療效果，但雖然微乎其微還是有一點(diǎn)點(diǎn)的效果，兩個(gè)群體的治療后平均壽命幾乎相同但也有微乎其微的差別.這時(shí)如果不斷增大樣本，最終還是可以拒絕零假設(shè)也就是拒絕藥物無效的假設(shè).這在統(tǒng)計(jì)學(xué)意義上講檢驗(yàn)方法沒有任何錯(cuò)誤，可是如果我們錯(cuò)誤的以統(tǒng)計(jì)學(xué)的顯著性代替藥物的有效性，將造成判斷錯(cuò)誤.原因在于，微乎其微的差別在統(tǒng)計(jì)學(xué)上雖然通過增加樣本可以檢驗(yàn)出來，可是這樣的微乎其微的差別實(shí)在太小，在實(shí)際的醫(yī)療實(shí)踐中沒有任何意義.不能僅僅依據(jù)統(tǒng)計(jì)檢驗(yàn)的顯著性對(duì)實(shí)際問題作出結(jié)論.只有結(jié)合實(shí)際才能正確判斷.

2 財(cái)務(wù)數(shù)據(jù)模擬實(shí)驗(yàn)

為了更清楚地展示P值的誤用可能性，做一個(gè)財(cái)務(wù)數(shù)據(jù)的模擬.實(shí)驗(yàn)內(nèi)容是對(duì)某大學(xué)兩個(gè)不同學(xué)院的財(cái)務(wù)管理進(jìn)行比較.比較A、B兩個(gè)學(xué)院的科研人員個(gè)人研究經(jīng)費(fèi)中差旅費(fèi)比例.設(shè)定A、B兩個(gè)學(xué)院的個(gè)人研究經(jīng)費(fèi)中差旅費(fèi)比例分別服從相互獨(dú)立的truncated standard normal distribution.A的上限和下限是0.1和0.9，B的上限和下限為0.11和0.91，均值分別為0.5和0.51.樣本量設(shè)置8種：100、200、500、1 000、2 000、5 000、10 000、100 000.生成數(shù)據(jù)，針對(duì)每一種樣本量重復(fù)模擬1000次.假設(shè)已知方差相同的信息，對(duì)兩個(gè)學(xué)院的差旅費(fèi)比例均值是否存在差異利用P值進(jìn)行t檢驗(yàn).

模擬實(shí)驗(yàn)的具體程序代碼如下：

模擬用Matlab程序代碼rng(0);

p=zeros(8,100);

pd=makedist('Normal','mu',0.1,'sigma',0.9);

pdt=truncate(pd,0,1);

forj=1:1000

num=[100 200 500 1000 2000 5000 10000 100000];

for i= 1:8

n=num(i);

x=random(pdt,n,2);

varx=2*var([x(:,1);x(:,2)]);

t=n^0.5*mean(x(:,1)-x(:,2)+0.01)/(varx^0.5);

p(i,j)=1-tcdf(abs(t),2*n-2);

end

(sum(p'<0.025)/1000)

模擬的結(jié)果見表1.從表1的結(jié)果可以看到，隨著樣本量的增大零假設(shè)被拒絕的比例越來越高.當(dāng)樣本量在500以下時(shí)，只有10%以下零假設(shè)被拒絕.當(dāng)樣本量達(dá)到5 000時(shí)拒絕比例接近一半，當(dāng)樣本量增加到10 000時(shí)70%以上被拒絕，最終當(dāng)樣本量為10萬時(shí)1 000次的模擬100%拒絕零假設(shè).

模擬的結(jié)果說明雖然兩個(gè)學(xué)院的個(gè)人差旅費(fèi)比例均值相差只有1%，而這個(gè)1%只有總體分布的標(biāo)準(zhǔn)差的1/30左右.這樣小的差異在財(cái)務(wù)管理上沒有任何實(shí)際意義.但如果我們不斷增加樣本，就會(huì)和模擬的結(jié)果一樣拒絕兩個(gè)學(xué)院之間沒有差異的零假設(shè).這時(shí)如果錯(cuò)誤地忽略了樣本均值差異的大小而僅僅依賴P值，判斷兩個(gè)學(xué)院有顯著的差異，將會(huì)誤導(dǎo)財(cái)務(wù)管理，造成工作失誤.

表1 模擬實(shí)驗(yàn)結(jié)果

樣本量10020050010002000500010000100000拒絕零假設(shè)比例0.0620.0550.0890.1290.2140.4380.7041.000

3 結(jié)論

本文對(duì)P值的應(yīng)用誤區(qū)進(jìn)行了理論探討，并且通過模擬實(shí)驗(yàn)展示了在應(yīng)用統(tǒng)計(jì)檢驗(yàn)時(shí)誤用P值的可能性和后果.在實(shí)際應(yīng)用中，不能僅僅依賴P值對(duì)實(shí)際問題進(jìn)行判斷，必須結(jié)合各個(gè)領(lǐng)域的實(shí)際情況，參考其他指標(biāo)和該領(lǐng)域的理論知識(shí)和實(shí)踐經(jīng)驗(yàn).學(xué)習(xí)和使用統(tǒng)計(jì)學(xué)應(yīng)從數(shù)理角度正確理解統(tǒng)計(jì)學(xué)理論知識(shí).同時(shí)掌握如何在實(shí)踐中正確使用統(tǒng)計(jì)學(xué)分析實(shí)際問題.

參考文獻(xiàn)：

[1]GILL J. Comments from the new editor[J]. Political Analysis, 2018, 26(1):1-2.

[2]Karl P X. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling[J]. Philosophical Magazine Series 5, 1900,50(302): 157-175.

[3]Ronald L W, Nicole A L. The asa's statement on p -values: context, process, and purpose[J]. Am Stat, 2016, 70(2): 129-133.

[4]Rao C. Statistics: reflections on the past and visions for the future[J]. Communstat Theory Methods, 2001, 30(11): 2235-2257.