李玉梅
(懷化學(xué)院數(shù)學(xué)與計(jì)算科學(xué)學(xué)院,湖南懷化418008)
數(shù)據(jù)的正態(tài)性檢驗(yàn)方法
李玉梅
(懷化學(xué)院數(shù)學(xué)與計(jì)算科學(xué)學(xué)院,湖南懷化418008)
在進(jìn)行數(shù)據(jù)的統(tǒng)計(jì)處理和統(tǒng)計(jì)檢驗(yàn)時(shí),往往假定數(shù)據(jù)來(lái)自于正態(tài)總體,因此對(duì)數(shù)據(jù)進(jìn)行正態(tài)性檢驗(yàn)十分必要.本文介紹了描述數(shù)據(jù)分布的QQ圖及適用于小樣本情形下數(shù)據(jù)正態(tài)性檢驗(yàn)的夏皮羅-威爾克檢驗(yàn)法和“Mudholkar”檢驗(yàn)法.
正態(tài)分布;QQ圖;小樣本;假設(shè)檢驗(yàn)
正態(tài)分布,又名高斯分布,是概率論中最重要的一種概率分布.一些常用的概率分布如對(duì)數(shù)正態(tài)分布、χ2分布、t分布等可以由正態(tài)分布直接導(dǎo)出.生產(chǎn)與科學(xué)實(shí)驗(yàn)中很多隨機(jī)變量的概率分布可以近似地用正態(tài)分布來(lái)描述.例如,在生產(chǎn)條件不變的情況下,產(chǎn)品的強(qiáng)力、抗壓強(qiáng)度、口徑、長(zhǎng)度等指標(biāo);同一種生物體的身長(zhǎng)、體重等指標(biāo);同一種種子的重量;測(cè)量同一物體的誤差;某個(gè)地區(qū)的年降水量;以及理想氣體分子的速度分量等等.一般來(lái)說(shuō),如果一個(gè)隨機(jī)變量是由許多微小的獨(dú)立隨機(jī)因素影響的結(jié)果,那么就可以認(rèn)為這個(gè)隨機(jī)變量具有正態(tài)分布.通常人們?cè)谶M(jìn)行數(shù)據(jù)處理和統(tǒng)計(jì)分析時(shí),總是假定數(shù)據(jù)來(lái)自于正態(tài)總體,但該假定是否成立,需要對(duì)數(shù)據(jù)進(jìn)行正態(tài)性檢驗(yàn).本文將介紹正態(tài)性檢驗(yàn)的QQ圖及用于小樣本情形下的夏皮羅-威爾克檢驗(yàn)法和“Mudholkar”檢驗(yàn)法.
對(duì)應(yīng)于正態(tài)分布的QQ圖,是由標(biāo)準(zhǔn)正態(tài)分布的(修正)分位數(shù)為橫坐標(biāo),樣本值為縱坐標(biāo)的散點(diǎn)圖.要利用QQ圖鑒別樣本數(shù)據(jù)是否近正態(tài)分布檢驗(yàn),只需看QQ圖上的點(diǎn)是否近似地在一條直線附近,而且該直線的斜率為標(biāo)準(zhǔn)差,截距為均值.
假定有來(lái)自總體X的一組數(shù)據(jù)x1,x2,…,xn,x(1)≤x(2)≤…≤x(n)為次序統(tǒng)計(jì)量.設(shè)Φ(x)為標(biāo)準(zhǔn)正態(tài)分布N(0,1)的分布函數(shù),Φ-1(x)為其反函數(shù).則散點(diǎn)圖
即為QQ圖.若樣本來(lái)自正態(tài)分布N(μ,σ2),則散點(diǎn)在直線y=σx+μ附近.
例1.100個(gè)女生的血清蛋白含量(g/L)數(shù)據(jù)如下[1]:
用SAS軟件proc capability過(guò)程繪制正態(tài)QQ圖如圖1,說(shuō)明數(shù)據(jù)來(lái)自正態(tài)總體.
圖1 正態(tài)QQ圖
W檢驗(yàn)法由夏皮羅-威爾克在1965年提出,目前被公認(rèn)為是檢驗(yàn)效果比較好的方法,它的突出優(yōu)點(diǎn)是不需要大樣本數(shù)據(jù),只需要小樣本n<50就能推斷是否總體具有正態(tài)性.W檢驗(yàn)法的具本步驟如下:
假設(shè)檢驗(yàn)問(wèn)題為:H0∶F(x)是正態(tài)分布函數(shù)
若原假設(shè)H0為真,則W接近1,否則拒絕.
對(duì)例1做正態(tài)性W檢驗(yàn),可以由SAS軟件proc univariate過(guò)程得W0=0.9904,p=PH0(W≤0.9904)=0.6943>α=0.05,故不能拒絕H0,說(shuō)明數(shù)據(jù)來(lái)自正態(tài)總體.
“Mudholkar”法(簡(jiǎn)稱M檢驗(yàn)法)是Mudllolk于1981年提出,它的特點(diǎn)是簡(jiǎn)便、靈敏,而且僅需要10個(gè)以上的數(shù)據(jù)便可.M檢驗(yàn)法的具體步驟如下:
(1)設(shè)有檢測(cè)數(shù)據(jù)xi(i=1,2,…,n),計(jì)算均值ˉxi,方差,及變量yi
表1 正態(tài)檢驗(yàn)計(jì)算表
(2)計(jì)算ˉxi及yi兩變量之間的相關(guān)系數(shù)r0.
(3)查相關(guān)系數(shù)r表(見(jiàn)表2),一般取5%顯著性水平時(shí)n所對(duì)應(yīng)的r值.若r表≥r0,說(shuō)明此樣本來(lái)自正態(tài)總體[2].
例2:有一批17個(gè)檢測(cè)數(shù)據(jù)(表1),用M檢驗(yàn)法對(duì)其進(jìn)行正態(tài)性檢驗(yàn).
由表計(jì)算得ˉxi及yi兩變量之間的相關(guān)系數(shù)r=0.3475.本例中n=17,r表=0.65>0.3475(a=0.05),說(shuō)明這批數(shù)據(jù)來(lái)自正態(tài)總體.
表2 正態(tài)性檢驗(yàn)相關(guān)系數(shù)制定值
QQ圖是描述數(shù)據(jù)分布的一種方法.利用QQ圖,我們可以直觀的判斷數(shù)據(jù)分布是否近似于正態(tài)分布.在對(duì)數(shù)據(jù)進(jìn)行正態(tài)性屆驗(yàn)時(shí),如果是小樣本(樣本大小n<50)的情形,可以采用夏皮羅-威爾克檢驗(yàn)法和“Mudholkar”檢驗(yàn)法.
[1]梅長(zhǎng)林,范金城.數(shù)據(jù)分析方法[M].高等教育出版社,2003:5-6.
[2]孫玉芝,李春祿.介紹兩種正態(tài)性檢驗(yàn)方法[J].天津師大學(xué)報(bào),1992(1):3-4.
The M ethods for Testing Normal Distribution of Data
LIYu-mei
(College of Mathematicsand Computational Science,Huaihua University,Huaihua,Hunan 418008)
In statistical analysis and statistical inference of the data,it is often assumed that the data is normal distribution.Thus testing for normal distribution is necessary for data analysis.This paper introduces threemethods on how to testa setof data with normal distribution,including QQ chart,Shapiro-Wilk test and Mudholkar test for small samples.
normal distribution;QQ chart;small sample;hypothesis test
O211
A
1671-9743(2015)11-0081-02
2015-07-27
懷化學(xué)院教改項(xiàng)目.
李玉梅,1974年生,女,湖南洪江人,副教授,博士,研究方向:統(tǒng)計(jì)遺傳.