亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        正態(tài)性檢驗(yàn)的幾種方法比較

        2015-07-30 12:33:54
        統(tǒng)計(jì)與決策 2015年14期
        關(guān)鍵詞:正態(tài)錯誤率樣本量

        楊 斌

        0 引言

        正態(tài)分布是許多檢驗(yàn)的基礎(chǔ),在實(shí)際使用統(tǒng)計(jì)分析時,人們總是樂于正態(tài)假定,但該假定是否成立,牽涉到正態(tài)性檢驗(yàn)。比如χ2檢驗(yàn)、F檢驗(yàn)以及t檢驗(yàn)等在總體不是正態(tài)分布時是沒有任何意義的,因此,對一個總體是否來自正態(tài)總體的檢驗(yàn)至關(guān)重要。另外,方差分析、回歸分析等統(tǒng)計(jì)分析中也都首先驗(yàn)證待分析的數(shù)據(jù)是否服從正態(tài)分布,檢驗(yàn)樣本的正態(tài)性一直以來都是統(tǒng)計(jì)學(xué)里比較重要的問題,檢驗(yàn)方法的多樣性使得這個問題始終保持著活力。歷史上不僅有D'Agostino,Kolmogorov-Smirnov(Lillie檢驗(yàn)),Shapiro-Wilk,Ryan-Joiner等一系列的檢驗(yàn)方法,還有Anderson-Darling test(ad檢驗(yàn)),Cramer-von Mises test(cvm檢驗(yàn)),Pearson chi-square test(pearson檢驗(yàn)),Shapiro-Francia test(sf檢驗(yàn))等這些都是檢驗(yàn)樣本正態(tài)性的方法[1]。但對這幾種不同的檢驗(yàn)方法,有些檢驗(yàn)法針對小樣本,有些針對大樣本,有些則對于任何大小的樣本量都可以用,但可能效果不太好,這些不同的檢驗(yàn)方法隨著樣本的變化有何不同?檢驗(yàn)的錯誤率大小如何?檢驗(yàn)的結(jié)果是否合理,這些問題都需要進(jìn)一步分析和解決。本文概述了Anderson-Darling test(ad檢驗(yàn))、Pearson chi-square test(pearson檢驗(yàn))以及Kolmogorov-Smirnov(Lillie檢驗(yàn))的統(tǒng)計(jì)原理,通過隨機(jī)模擬實(shí)現(xiàn)了這幾種不同檢驗(yàn)方法的結(jié)果,并針對ad檢驗(yàn)給出了具體檢驗(yàn)的統(tǒng)計(jì)方法,著重比較了ad檢驗(yàn)、cvm檢驗(yàn)、lillie檢驗(yàn)、pearson檢驗(yàn)、sf檢驗(yàn)這五種方法的優(yōu)劣。分析了來自不同總體的樣本數(shù)據(jù),并做了結(jié)論分析,為更好的做正態(tài)性檢驗(yàn)提供了更加準(zhǔn)確的方法參考。

        1 檢驗(yàn)的統(tǒng)計(jì)原理

        1.1 ad檢驗(yàn)原理

        已知樣本為 X1,X2,…,Xn,做如下檢驗(yàn):

        H0:Xi~N(0,1)?H1:Xi不服從N(0,1)(i=1,2,…,n)

        zi=,其中Φ(x)表示標(biāo)準(zhǔn)正態(tài)分布函數(shù) :,mean(x)表示樣本的均值:,sd(x)表示樣本標(biāo)準(zhǔn)差:

        可以知道[2],這里 Fn是經(jīng)驗(yàn)分布函數(shù),F(xiàn)0是零假設(shè)下樣本服從的分布(在本文中F0為標(biāo)準(zhǔn)正態(tài)分布)。在文獻(xiàn)[3]中提到了A2的特征函數(shù)為:,由逆轉(zhuǎn)公式及傅里葉變換:

        1.2 lillie檢驗(yàn)原理

        該檢驗(yàn)是對Kolmogorov-Smirnov檢驗(yàn)的修正,故先介紹Kolmogorov-Smirnov檢驗(yàn),Kolmogorov-Smirnov檢驗(yàn)是基于經(jīng)驗(yàn)分布函數(shù)(ECDF)的檢驗(yàn)。其檢驗(yàn)方法是以樣本數(shù)據(jù)的累積頻數(shù)分布與理論正態(tài)分布比較,若兩者間的差距很小,則推斷該樣本取自某正態(tài)分布族。F0(x)表示分布的分布函數(shù),F(xiàn)n(x)表示一組隨機(jī)樣本的累計(jì)概率函數(shù)。,設(shè) D 為 F0(x)與Fn(x)差距的最大值,定義如下式:D=max|Fn(x)-F0(x)|,當(dāng)原假設(shè)為真時,D的值應(yīng)較小,若過大,則懷疑原假設(shè),從而,對于給定的 α ,拒絕域?yàn)椋篟={D >d },p=P{D >d}=α,結(jié)論:當(dāng)實(shí)際觀測 D>Dn,則接受 H1,反之則不拒絕 H0假設(shè)。又,該檢驗(yàn)是對Kolmogorov-Smirnov檢驗(yàn)的修正,參數(shù)未知時,由可計(jì)算得檢驗(yàn)統(tǒng)計(jì)量的值。

        1.3 pearson檢驗(yàn)原理(基于經(jīng)驗(yàn)分布函數(shù)(ECDF)的檢驗(yàn))

        檢驗(yàn)統(tǒng)計(jì)量為[4]:

        其中r是被估參數(shù)的個數(shù),fi為樣本中Ai發(fā)生的實(shí)際頻數(shù),npi為H0為真時Ai發(fā)生的理論頻數(shù)。若 χ2=0,則 fi=npi,意味著對于Ai,觀測頻數(shù)與期望頻數(shù)完全一致,即完全擬合。

        觀察頻數(shù)與期望頻數(shù)越接近,則χ2值越小。當(dāng)原假設(shè)為真時,有大數(shù)定理,與 pi不應(yīng)有較大差異,即 χ2值應(yīng)較小。若 χ2值過大,則懷疑原假設(shè)。拒絕域?yàn)镽={χ2≥d },判斷統(tǒng)計(jì)量是否落入拒絕域,得出結(jié)論。從而拒絕域?yàn)?R={χ2≥d},對于給定的α,P{χ2≥d}=α,又,判斷統(tǒng)計(jì)量是否落入拒絕域,得出結(jié)論。

        2 檢驗(yàn)方法

        2.1 當(dāng)樣本來自正態(tài)總體

        本文進(jìn)行隨機(jī)模擬的辦法抽取樣本 X1,X2,…,Xn~N(0,1),而樣本量n我們分別取10,100,1000,來觀察檢驗(yàn)方法的p值大小(實(shí)驗(yàn)次數(shù)為1000次),嘗試對樣本進(jìn)行程序包nortest里的ad檢驗(yàn)、cvm檢驗(yàn)、lillie檢驗(yàn)、pearson檢驗(yàn)、sf檢驗(yàn)五種檢驗(yàn)方法分別計(jì)算得到的p值的箱線圖如下:

        圖1 樣本n=10,100,1000時的箱線圖

        并且我們得到了判斷錯誤率(得到p值小于0.05的次數(shù)占1000次試驗(yàn)的比例)如表1所示:

        表1 判斷錯誤率

        我們進(jìn)行隨機(jī)模擬的辦法抽取簡單隨機(jī)樣本X1,X2,…,Xn~H(x) ,其中 H(x)=εΦ(x)+(1-ε)Φ(,我們?nèi)?ε=0.9 ,樣 本 量 n=10,100,1000 ,以 及 k=3,10,30,100分別對得到的樣本做ad正態(tài)性檢驗(yàn)。我們得到了圖2:

        對于不同的樣本量,觀測不同的k值的影響:

        從圖1中看出在樣本量較小(n=10)的情況下,lillie檢驗(yàn)和pearson檢驗(yàn)的p值均值較大,但是pearson檢驗(yàn)錯誤率很高,其他檢驗(yàn)的錯誤較低,同時p值的均值較大。說明在小樣本的情況下,pearson檢驗(yàn)不夠穩(wěn)定,我們可以選用其他4個檢驗(yàn)較好。在樣本量較大(n=100,1000)的情況下,pearson檢驗(yàn)的p值均值較小,并且錯誤率也較高(在n=100時0.061),sf檢驗(yàn)的錯誤率也比較高(在n=1000時,0.061),所以在樣本量較大時,選用ad檢驗(yàn)、cvm檢驗(yàn)、lillie檢驗(yàn)較好。

        2.2 當(dāng)樣本來自混合正態(tài)總體

        圖2 不同樣本量ad正態(tài)性檢驗(yàn)箱線圖

        對于不同的k值,觀測不同樣本影響:

        圖3 不同的k值ad正態(tài)性檢驗(yàn)箱線圖

        從圖2和圖3發(fā)現(xiàn):

        對于樣本量比較小n=10,無論k值大小,在ad檢驗(yàn)下樣本多數(shù)為正態(tài),而對于樣本量較大的情況(n=100,1000),除了k=1.5,n=100的情況下檢驗(yàn)基本上都拒絕零假設(shè),也就是樣本并不從正態(tài)總體中得到。所以我們對該問題有如下結(jié)論:

        當(dāng)樣本量較小時,無論k值的大小,該混合正態(tài)模型在ad檢驗(yàn)下都服從正態(tài)總體。

        當(dāng)樣本量較大時,如果k值較小(k在1到3之間),那么混合正態(tài)模型在ad檢驗(yàn)下也一定依概率服從正態(tài)總體,如果k值較大(大于3),那么該混合正態(tài)模型在ad檢驗(yàn)下基本上不符合正態(tài)總體。

        2.3 當(dāng)樣本來自t分布總體

        對t分布的漸近性質(zhì)進(jìn)行隨機(jī)模擬的檢驗(yàn)。從總體中抽取樣本量為n=100的簡單隨機(jī)樣本 X1,X2,…,Xn~t(d)我們對于自由度分別為d=5,10,…,100用ad檢驗(yàn)做正態(tài)性檢驗(yàn),得到圖4:(x軸為不同的自由度,y軸為對應(yīng)的p值)。

        圖4 d=5,10,…,100時ad正態(tài)性檢驗(yàn)箱線圖

        于是我們對自由度d=5,6,…,20重復(fù)上面的步驟,得到圖5:(x軸為不同的自由度,y軸為對應(yīng)的p值)。

        圖5 d=5,6,…,20時ad正態(tài)性檢驗(yàn)箱線圖

        我們可以從圖5看出當(dāng)自由度d較小(小于等于20)的時候,該樣本(從t分布中抽取)并不能在ad檢驗(yàn)下服從正態(tài)分布,而當(dāng)自由度d較大(大于20)的時候,該樣本可以認(rèn)為是從正態(tài)總體中得到。

        3 結(jié)論

        本文介紹了正態(tài)性檢驗(yàn)的原理及概述了幾個常用的正態(tài)性檢驗(yàn)方法,并在取不同樣本量的情況下通過隨機(jī)模擬的方法,分別計(jì)算得到五種檢驗(yàn)方法的p值并作出箱線圖。而且分別考慮了當(dāng)樣本來自正態(tài)總體、混合正態(tài)總體以及t分布總體的情況下各檢驗(yàn)方法的特點(diǎn)。并得到如下結(jié)論:

        (1)在樣本量較小(n=10)的情況下,當(dāng)樣本來自正態(tài)總體時,lillie檢驗(yàn)和pearson檢驗(yàn)的p值均值較大,但是pearson檢驗(yàn)錯誤率很高,其他檢驗(yàn)的錯誤較低,同時p值的均值較大。說明在小樣本的情況下,pearson檢驗(yàn)不夠穩(wěn)定,我們可以選用其他4個檢驗(yàn)較好。在樣本量較大(n=100,1000)的情況下,pearson檢驗(yàn)的p值均值較小,并且錯誤率也較高(在n=100時0.061),sf檢驗(yàn)的錯誤率也比較高(在n=1000時,0.061),所以在樣本量較大時,選用ad檢驗(yàn)、cvm檢驗(yàn)、lillie檢驗(yàn)較好。

        (2)當(dāng)樣本量較小時,無論k值的大小,混合正態(tài)模型在ad檢驗(yàn)下都服從正態(tài)總體;當(dāng)樣本量較大時,如果k值較小(k在1到3之間),那么混合正態(tài)模型在ad檢驗(yàn)下也一定依概率服從正態(tài)總體,如果k值較大(大于3),那么該混合正態(tài)模型在ad檢驗(yàn)下基本上不符合正態(tài)總體。

        (3)當(dāng)自由度d較小(小于等于20)的時候,樣本(從t分布中抽?。┎⒉荒茉赼d檢驗(yàn)下服從正態(tài)分布。而當(dāng)自由度d較大(大于20)的時候,樣本可以認(rèn)為是從正態(tài)總體中得到。

        [1] 章剛勇,阮陸寧.基于Monte Carlo隨機(jī)模擬的幾種正態(tài)性檢驗(yàn)方法的比較[J].統(tǒng)計(jì)與決策,2011,(7).

        [2] Anderson T W,Darling D A.A Test of Goodness of Fit[J].Journal of The American Statistical Association,1954,(49).

        [3] Anderson T W,Darling D A.Asymptotic Theory of Certain Goodness of Fit Criteria Based on Stochastic Processes[J].Annals of Mathemati?cal Statistics,1952,(23).

        [4] Stephens M A.EDF Statistics for Goodness of Fit and Some Compari?sons[J].Journal of The American Statistical Association,1974,(69).

        猜你喜歡
        正態(tài)錯誤率樣本量
        核電廠周邊大氣環(huán)境中核素活度濃度正態(tài)性研究
        限制性隨機(jī)試驗(yàn)中選擇偏倚導(dǎo)致的一類錯誤率膨脹*
        醫(yī)學(xué)研究中樣本量的選擇
        航空裝備測試性試驗(yàn)樣本量確定方法
        Sample Size Calculations for Comparing Groups with Binary Outcomes
        正視錯誤,尋求策略
        教師·中(2017年3期)2017-04-20 21:49:49
        解析小學(xué)高段學(xué)生英語單詞抄寫作業(yè)錯誤原因
        基于泛正態(tài)阻抗云的諧波發(fā)射水平估計(jì)
        半?yún)?shù)EV模型二階段估計(jì)的漸近正態(tài)性
        降低學(xué)生計(jì)算錯誤率的有效策略
        日本一区二区三区看片| 国产精品国产午夜免费看福利 | 亚洲综合激情另类小说区| 国产精品沙发午睡系列990531| 亚洲伊人久久成人综合网| 加勒比一本大道大香蕉| 国产一区二区三区三区四区精品| 日韩精品无码中文字幕电影| 国产一级毛片AV不卡尤物| 国产成人综合亚洲国产| 久久天堂一区二区三区av| 欧美精品videossex少妇| 亚洲av日韩av综合aⅴxxx| 日韩精品资源在线观看免费| 免费av片在线观看网址| 国产高清在线精品一区| 精品18在线观看免费视频| 99麻豆久久精品一区二区| 欧美成人猛片aaaaaaa| 一本大道久久香蕉成人网| 亚洲日本无码一区二区在线观看| av天堂亚洲另类色图在线播放 | 成人区视频| 天堂av一区二区麻豆| 男人的天堂av高清在线| 国产精品久久久久久无码| 亚洲九九九| 91久久国产香蕉熟女线看| 丰满多毛的大隂户毛茸茸| 五月天综合网站| 国产成人久久精品二区三区| 精品香蕉99久久久久网站| 精品一区二区久久久久久久网站| 亚洲AV成人无码天堂| 青青河边草免费在线看的视频 | 91白浆在线视频| 亚洲天堂av在线免费播放| 手机看黄av免费网址| 精品国产午夜福利在线观看| 久久中文字幕av第二页| 欧美白人战黑吊|