王丙參,魏艷華,丁恒飛
(天水師范學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,甘肅 天水 741001)
正態(tài)分布應(yīng)用廣泛,比如許多統(tǒng)計(jì)方法(如方差分析、回歸分析等)都是以正態(tài)分布為前提建立的[1]17-50[2]118-150[3-4]。因此,對(duì)數(shù)據(jù)進(jìn)行正態(tài)性檢驗(yàn)在理論和應(yīng)用上都十分有意義。正態(tài)概率紙檢驗(yàn)通過(guò)數(shù)據(jù)變換能使正態(tài)總體的取值x和分布函數(shù)值F(x)組成的數(shù)對(duì)(x,F(x))在具有特殊刻度的坐標(biāo)紙上呈現(xiàn)一條直線,從而通過(guò)觀察概率紙上的散點(diǎn)是否在一條直線附近來(lái)判斷數(shù)據(jù)是否來(lái)自正態(tài)總體。因此,正態(tài)概率紙檢驗(yàn)是一種直觀、簡(jiǎn)單、方便的圖形檢驗(yàn),特別適合于工程應(yīng)用,但是,它具有一定的主觀性,不太嚴(yán)。正態(tài)概率紙檢驗(yàn)歷史悠久,學(xué)者主要將其作為其他正態(tài)檢驗(yàn)方法的定性補(bǔ)充[1]17-50[5]258-270,曹晉華等根據(jù)正態(tài)概率紙檢的基本思想將其推廣到威布爾分布、對(duì)數(shù)正態(tài)分布,但它們也是定性觀察,沒(méi)有量化[6]400-430。朱力行與許王莉等給出數(shù)據(jù)近似呈現(xiàn)一條直線可通過(guò)相關(guān)系數(shù)進(jìn)行量化[7]1-26,孟杰與王佐仁等根據(jù)蒙特卡洛方法仿真目標(biāo)分布,得到感興趣的量,這為“概率紙上的散點(diǎn)在一條直線附近”進(jìn)行量化提供了方法[3,4]。簽于此,本文利用蒙特卡洛方法在正態(tài)概率紙檢驗(yàn)中引入相關(guān)系數(shù)等指標(biāo),將定性與定量判斷相結(jié)合,使得檢驗(yàn)結(jié)果更加客觀,最后將此方法推廣到了對(duì)數(shù)正態(tài)分布、指數(shù)分布、威布爾分布。
如果樣本x1,x2,…,xn的次序統(tǒng)計(jì)量記為x(1)≤x(2)≤…≤x(n),則樣本的經(jīng)驗(yàn)分布函數(shù)就是:
國(guó)標(biāo)GB/T 4882-2001建議使用修正2,但也不反對(duì)使用其它兩個(gè)修正。隨著樣本容量的增大,3種修正方法的區(qū)別也越來(lái)越小,且無(wú)法從理論上證明哪種修正嚴(yán)格更優(yōu)。進(jìn)一步有:
i=1,2,…,n。
顯然,概率紙檢驗(yàn)具有很大的主觀性。為了克服概率紙檢驗(yàn)的主觀性缺點(diǎn),可作以下改進(jìn):首先將觀測(cè)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化的排序處理并標(biāo)在概率紙上,然后計(jì)算標(biāo)準(zhǔn)化數(shù)據(jù)的簡(jiǎn)單相關(guān)系數(shù)
‖Y*-aX*-b‖=E(Y*-aX*-b)2
=1+a2-2aρ+b2
=(a-ρ2)+b2+1-ρ2
其中,ρ是X*、Y*的相關(guān)系數(shù)。顯然,當(dāng)a=ρ,b=0時(shí),‖Y*-aX*-b‖最小,值為1-ρ2。這說(shuō)明:Y*關(guān)于X*的最佳線性預(yù)測(cè)為h(X*)=ρX*,|ρ|越大,預(yù)測(cè)效果越好。當(dāng)|ρ|=1時(shí),Y*可以由X*完全準(zhǔn)確的線性預(yù)測(cè)。因此,相關(guān)系數(shù)也稱為線性相關(guān)系數(shù)。
假定n個(gè)觀測(cè)數(shù)據(jù)x1,x2,…,xn來(lái)自總體F(x),先將觀測(cè)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化的排序處理,然后求得n個(gè)觀測(cè)數(shù)據(jù)在概率紙上對(duì)應(yīng)散點(diǎn)的簡(jiǎn)單相關(guān)系數(shù)為r0??紤]以下假設(shè)檢驗(yàn)問(wèn)題:
H0∶F(x)=F0(x);
H1∶F(x)≠F0(x),其中F0(x)為正態(tài)分布。
生成n個(gè)標(biāo)準(zhǔn)正態(tài)分布隨機(jī)數(shù),并計(jì)算這些隨機(jī)數(shù)在概率紙上對(duì)應(yīng)散點(diǎn)的簡(jiǎn)單相關(guān)系數(shù),一共重復(fù)m次,相關(guān)系數(shù)分別記為r1,r2,…,rm。對(duì)于給定的顯著性水平α,計(jì)算相關(guān)系數(shù)r1,r2,…,rm的α分位數(shù),并記為rα(m)。將r0與rα(m)進(jìn)行比較,如果觀測(cè)數(shù)據(jù)的簡(jiǎn)單相關(guān)系數(shù)r0≥rα(m),則不能拒絕原假設(shè)(在二者差距較大時(shí)也可認(rèn)為接受原假設(shè)),即不能拒絕觀測(cè)數(shù)據(jù)來(lái)自正態(tài)總體F0(x);如果r0 下面對(duì)改進(jìn)的正態(tài)概率紙檢驗(yàn)進(jìn)行蒙特卡洛分析。 假定每次生成n=100個(gè)標(biāo)準(zhǔn)正態(tài)分布N(0,1)隨機(jī)數(shù),并計(jì)算這些隨機(jī)數(shù)在概率紙上對(duì)應(yīng)散點(diǎn)的相關(guān)系數(shù),一共重復(fù)m=1 000次,相關(guān)系數(shù)的直方圖如圖1左所示,其0.05下側(cè)分位數(shù)為0.987 8。 圖1 參考相關(guān)系數(shù)直方圖(左)與F(10,10)的正態(tài)概率檢驗(yàn)圖 假設(shè)觀測(cè)數(shù)據(jù)來(lái)自F(10,10)總體,即利用計(jì)算機(jī)隨機(jī)生成100個(gè)F(10,10)隨機(jī)數(shù),其概率紙檢驗(yàn)圖如圖1右所示,對(duì)應(yīng)的相關(guān)系數(shù)r0=0.906 8。顯然,它是一條曲線,可直觀上判斷觀測(cè)數(shù)據(jù)不是來(lái)自正態(tài)總體。因?yàn)?.906 8<0.987 7,故拒絕原假設(shè),即認(rèn)為觀測(cè)數(shù)據(jù)不是來(lái)自正態(tài)總體??梢?jiàn),QQ圖的直觀判斷與定量判斷是一致的,且都與真實(shí)情況吻合。 假定觀測(cè)數(shù)據(jù)來(lái)自總體F(10,10),χ2(6),分別利用計(jì)算機(jī)模擬1 000次,對(duì)應(yīng)的簡(jiǎn)單相關(guān)系數(shù)如圖2所示,正確判斷的概率分別為1,0.990 0。顯然,對(duì)于一般總體而言,本文中概率紙檢驗(yàn)改進(jìn)方法的正確率高,即概率紙改進(jìn)方法可靠性高。 圖2 總體F(10,10)(左)與χ2(6)(右)在正態(tài)概率紙檢驗(yàn)下對(duì)應(yīng)參考相關(guān)系數(shù)的直方圖 假定觀測(cè)數(shù)據(jù)來(lái)自總體t(3),t(30),分別利用計(jì)算機(jī)模擬1 000次,對(duì)應(yīng)的簡(jiǎn)單相關(guān)系數(shù)如圖3所示,正確判斷的頻率分別為0.903 0,0.045 0.這說(shuō)明:假定數(shù)據(jù)來(lái)自總體F(x)(不是正態(tài)總體),如果F(x)與正態(tài)總體越接近,則正確判斷的概率會(huì)越低。對(duì)于t分布而言,當(dāng)其參數(shù)較大時(shí),它非常接近正態(tài)分布,故否定原假設(shè)的可能性很低,即正確判斷的概率很低。事實(shí)上,t(30)可以用N(0,1)近似,即兩個(gè)總體幾乎沒(méi)有區(qū)分,即來(lái)自t(30)的數(shù)據(jù)檢驗(yàn)為“不拒絕來(lái)自總體N(0,1)”也是合理的。 圖3 總體t(3)(左)與t(30)(右)在正態(tài)概率紙檢驗(yàn)下對(duì)應(yīng)參考相關(guān)系數(shù)的直方圖 進(jìn)一步模擬,如果數(shù)據(jù)來(lái)自正態(tài)總體,在顯著性水平取0.05的前提下,本文方法的正確率很高,接近0.95,這與假設(shè)檢驗(yàn)理論相吻合。 (1)對(duì)數(shù)正態(tài)分布 (2)指數(shù)分布 設(shè)X~Exp(λ),即F(x)=1-exp{-λx},x≥0,則-ln(1-F(x))=λx,x≥0。它表明(x,-ln(1-F(x)))是一條過(guò)原點(diǎn)的直線,斜率為λ。實(shí)際上,(-ln(1-F(x)),x)也是一條直線。因?yàn)樗鼈冊(cè)诒举|(zhì)上是一樣的,只是斜率互為倒數(shù)。為便于表述與計(jì)算,本文采用前一種表示方法。所以,如果樣本數(shù)據(jù)來(lái)自指數(shù)總體X,則散點(diǎn)圖: 在概率紙上大體呈直線,且該直線過(guò)原點(diǎn)。相仿,若樣本數(shù)據(jù)來(lái)自雙參數(shù)指數(shù)總體: F(x)=1-exp{-λ(x-μ)},x≥0 (3)威布爾分布 在概率紙上大體呈直線,則樣本數(shù)據(jù)來(lái)自威布爾總體,反之則否。 下面對(duì)改進(jìn)的威布爾分布概率紙檢驗(yàn)進(jìn)行蒙特卡洛分析。假定觀測(cè)數(shù)據(jù)來(lái)自F(10,10)總體,即利用計(jì)算機(jī)生成100個(gè)F(10,10)隨機(jī)數(shù)xi,i=1,2,…,n??紤]以下假設(shè)檢驗(yàn):H0:F(x)=Weibull(m,x0)。其威布爾概率紙檢驗(yàn)圖如圖4右所示,對(duì)應(yīng)的相關(guān)系數(shù)r0=0.959 1。顯然,它是一條曲線,可直觀上判斷觀測(cè)數(shù)據(jù)不來(lái)自威布爾分布。 圖4 F(10,10)的參考相關(guān)系數(shù)直方圖(左)與的威布爾概率檢驗(yàn)圖 因?yàn)?.959 1<0.978 7,故拒絕原假設(shè),即認(rèn)為觀測(cè)數(shù)據(jù)不是來(lái)自威布爾總體??梢?jiàn),威布爾概率檢驗(yàn)圖的直觀判斷與定量判斷是一致的,且都與真實(shí)情況吻合。進(jìn)一步模擬可知,對(duì)于總體F(10,10),本文方法的正確率在80%附近,具有較大的參考價(jià)值。但客觀來(lái)說(shuō),這有點(diǎn)偏低,主要是因?yàn)閿?shù)據(jù)總體F(10,10)與威布爾分布具有一定的相似性。這也是所有檢驗(yàn)存在的共性問(wèn)題,即數(shù)據(jù)總體與檢驗(yàn)總體有差異且差異越小,檢驗(yàn)的效率越低。 假定觀測(cè)數(shù)據(jù)來(lái)自總體Weibull(3,5),Exp(0.1),同上,一次模擬結(jié)果如圖5和6所示。 對(duì)于總體Exp(0.1),r0=0.996 2>R0.05=0.978 2,故接受原假設(shè),認(rèn)為觀測(cè)數(shù)據(jù)來(lái)自威布爾總體。這與威布爾概率檢驗(yàn)圖的結(jié)果一致,且都與事實(shí)相符,因?yàn)橹笖?shù)分布是特殊的威布爾分布。 圖5 Weibull(3,5)的參考相關(guān)系數(shù)直方圖(左)與威布爾概率檢驗(yàn)圖(右) 對(duì)于總體Weibull(3,5),r0=0.994 9>R0.05=0.976 4,故接受原假設(shè),即認(rèn)為觀測(cè)數(shù)據(jù)來(lái)自威布爾總體。這與威布爾概率檢驗(yàn)圖的結(jié)果一致,且都與事實(shí)相符。 圖6 Exp(0.1)的參考相關(guān)系數(shù)直方圖(左)與威布爾概率檢驗(yàn)圖(右) 進(jìn)一步模擬可知,對(duì)于總體Weibull(3,5)與Exp(0.1),本文方法的正確率很高,在99.5%附近。 本文根據(jù)傳統(tǒng)的正態(tài)概率紙檢驗(yàn),通過(guò)生成正態(tài)隨機(jī)數(shù)xi,i=1,2,…,n,并計(jì)算概率紙上對(duì)應(yīng)隨機(jī)數(shù)yi,i=1,2,…,n及二者簡(jiǎn)單相關(guān)系數(shù),結(jié)合顯著性水平確定假設(shè)檢驗(yàn)的臨界值。最后,將此方法推廣到對(duì)數(shù)正態(tài)分布、指數(shù)分布、威布爾分布。通過(guò)大量仿真實(shí)驗(yàn)可以看出,通過(guò)將定性與定量判斷相結(jié)合,提高了傳統(tǒng)概率紙檢驗(yàn)的客觀性。注意,概率紙檢驗(yàn)的正確率與數(shù)據(jù)來(lái)自總體有關(guān),數(shù)據(jù)總體與檢驗(yàn)分布有差異且差異越小正確率越低,如果二者一致,正確率接近95%(假定顯著性水平為0.05),與假設(shè)檢驗(yàn)理論相符。 [1] 劉軍著,唐年勝,周勇,徐亮譯.科學(xué)計(jì)算中的蒙特卡羅策略[M].北京大學(xué)出版社,2009. [2] Givens G H,Hoeting J A著,王兆軍,劉民千,鄒長(zhǎng)亮等譯.計(jì)算統(tǒng)計(jì)[M].北京:人民郵電出版社,2009. [3] 孟杰,王欣,張然.修正Benford分布律及其模擬研究[J].統(tǒng)計(jì)與信息論壇,2017,32 (9). [4] 王佐仁,徐生霞.蒙特卡羅方法下線性模型的異方差性檢驗(yàn)方法[J].統(tǒng)計(jì)與信息論壇,2016,31 (11). [5] 魏艷華,王丙參編著.概率論與數(shù)理統(tǒng)計(jì)[M].成都:西南交通大學(xué)出版社,2013. [6] 曹晉華,程侃著.可靠性數(shù)學(xué)引論[M].高等教育出版社,2006. [7] 朱力行,許王莉著.非參數(shù)蒙特卡羅檢驗(yàn)及其應(yīng)用[M].北京:科學(xué)出版社,2008. [8] 郝麗,劉樂(lè)平,申亞飛.統(tǒng)計(jì)顯著性:一個(gè)被誤讀的p值[J].統(tǒng)計(jì)與信息論壇,2016,31 (12) .三、概率紙檢驗(yàn)及其改進(jìn)的推廣
四、結(jié)論