亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于信息熵和Monte Carlo方法的分布檢驗(yàn)

2019-03-13 13:01:18張志娟李星野

經(jīng)濟(jì)研究導(dǎo)刊 2019年3期

張志娟李星野

摘要：在統(tǒng)計(jì)分析中，分布檢驗(yàn)非常重要，應(yīng)用較多的檢驗(yàn)方法有卡方檢驗(yàn)、K-S檢驗(yàn)、S-W檢驗(yàn)、A-D檢驗(yàn)等。提出一種借助Monte Carlo方法、采用信息熵指標(biāo)實(shí)現(xiàn)統(tǒng)計(jì)分布檢驗(yàn)的方法，檢驗(yàn)結(jié)果的對(duì)比表明信息熵方法簡(jiǎn)便有效。

關(guān)鍵詞：信息熵;均勻分布;置信區(qū)間;卡方檢驗(yàn)

中圖分類(lèi)號(hào)：O21 ? ? ? ?文獻(xiàn)標(biāo)志碼：A ? ? ?文章編號(hào)：1673-291X（2019）03-0159-03

引言

在數(shù)據(jù)統(tǒng)計(jì)領(lǐng)域，分布檢驗(yàn)是其中的重要步驟，具有方便、快速、準(zhǔn)確等優(yōu)點(diǎn)，現(xiàn)已廣泛應(yīng)用在醫(yī)學(xué)、統(tǒng)計(jì)學(xué)等領(lǐng)域，在判斷實(shí)驗(yàn)結(jié)果是否符合預(yù)期，產(chǎn)品質(zhì)量是否合格等方面作用重大?？ǚ綑z驗(yàn)是基于統(tǒng)計(jì)樣本中實(shí)際觀測(cè)值與理論推斷值兩者偏離程度而發(fā)展起來(lái)的一種典型的分布檢驗(yàn)方法，該方法可以解決檢驗(yàn)數(shù)據(jù)是否符合假設(shè)的分布類(lèi)型的問(wèn)題，可以很好地描述分類(lèi)資料統(tǒng)計(jì)推斷的特點(diǎn)。但是由于卡方檢驗(yàn)較為依賴樣本空間的劃分，不同的樣本空間分段數(shù)會(huì)導(dǎo)致不同的結(jié)論[1～3]。K-S檢驗(yàn)方法是另外一種較為典型的分布檢驗(yàn)方法，它需要將做統(tǒng)計(jì)分析的數(shù)據(jù)和另一組標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行對(duì)比，求得它和標(biāo)準(zhǔn)數(shù)據(jù)之間的偏差，但是當(dāng)數(shù)據(jù)規(guī)模較小時(shí)，相應(yīng)參數(shù)檢驗(yàn)是無(wú)效的，統(tǒng)計(jì)推斷是不可信的[2，4～6];與K-S檢驗(yàn)方法相對(duì)的是S-W檢驗(yàn)方法，S-W檢驗(yàn)解決了小樣本情況下數(shù)據(jù)服從正態(tài)分布的統(tǒng)計(jì)檢驗(yàn)，但是這種檢驗(yàn)方法在大樣本情況下的適用性是不明確的[4]。A-D檢驗(yàn)方法成功解決了上述兩種方法的問(wèn)題，且可以用于多種分布類(lèi)型的檢驗(yàn)，但是，A-D檢驗(yàn)受兩端異常值的影響較大[4]。本文提出了一種新的分布檢驗(yàn)方法，該方法基于Monte Carlo方法，運(yùn)用信息熵理論，求得不同置信度的檢驗(yàn)下邊界，可以檢驗(yàn)隨機(jī)數(shù)的分布類(lèi)型，信息熵方法更加簡(jiǎn)便有效。

一、信息熵方法實(shí)現(xiàn)分布檢驗(yàn)的原理

（一）檢驗(yàn)原理

本文對(duì)經(jīng)典的分布檢驗(yàn)方法不再贅述，根據(jù)假設(shè)檢驗(yàn)的基本原理，可以利用來(lái)自總體X的樣本x1，x2，x3…xn檢驗(yàn)總體是否服從特定分布F0（X）。此時(shí)，檢驗(yàn)的原假設(shè)為H0：F（x）=F0（x），備擇假設(shè)為H1：F（x）≠F0（x）。當(dāng)原假設(shè)成立時(shí)，隨機(jī)變量Y=F0（X）服從[0，1]上的均勻分布[7]。因此，檢驗(yàn)樣本x1，x2，x3…xn是否服從分布F0（X），可以轉(zhuǎn)化為檢驗(yàn)y1，y2，y3…yn（其中yi=F0（xi））是否服從[0，1]上的均勻分布。對(duì)于均勻分布的檢驗(yàn)，本文借助信息熵指標(biāo)，基于Monte Carlo方法，求得檢驗(yàn)均勻分布的下邊界，實(shí)現(xiàn)分布檢驗(yàn)。

（二）信息熵

信息熵最早是從熱力學(xué)中熵這個(gè)概念演化而來(lái)，熵的物理意義表示體系混亂程度的度量[8]。信息論之父Shannon 指出，任何信息都存在冗余，冗余大小與信息中每個(gè)符號(hào)（數(shù)字、字母或單詞）的出現(xiàn)概率或者說(shuō)不確定性有關(guān)[9]。信息熵表示信息中排除了冗余后的平均信息量，本文選取以e為底的自然對(duì)數(shù)，信息熵可以表示為：

式中，i∈[1，k]表示樣本空間劃分后的第i個(gè)區(qū)間，P（i）指樣本空間劃分后，在樣本含有n個(gè)子樣本的觀察中落入i區(qū)間的頻數(shù)ni與樣本個(gè)數(shù)n的比值。

在判斷一組隨機(jī)數(shù)是否服從均勻分布時(shí)，根據(jù)數(shù)據(jù)的均勻性質(zhì)，越均勻的數(shù)據(jù)，其混亂程度越低，包含的信息量越大，信息熵越大。當(dāng)數(shù)據(jù)完全均勻時(shí)，信息熵達(dá)到最大值，如下所示：

其中，k表示樣本空間分段數(shù)。當(dāng)數(shù)據(jù)完全均勻時(shí)，樣本容量大小對(duì)信息熵沒(méi)有影響。

二、下邊界擬合過(guò)程

當(dāng)大量的值都具有計(jì)算出的概率時(shí)，國(guó)內(nèi)外通用的方法是運(yùn)用Monte Carlo方法求得問(wèn)題的解。Monte Carlo方法是指使用隨機(jī)數(shù)（或更常見(jiàn)的偽隨機(jī)數(shù)）來(lái)解決很多計(jì)算問(wèn)題的方法[9]。本文為了得到下邊界，采用Monte Carlo方法。實(shí)驗(yàn)數(shù)據(jù)是通過(guò)隨機(jī)數(shù)生成器生成的，隨機(jī)生成服從[0，1]上均勻分布的數(shù)據(jù)，數(shù)據(jù)包含100組，樣本容量為n，n∈{100， 200，300，400，500，600，700，800，900，1 000}。

（一）95%下邊界擬合過(guò)程

論文運(yùn)用基于信息熵為指標(biāo)的均勻分布檢驗(yàn)的方法對(duì)數(shù)據(jù)進(jìn)行檢驗(yàn)的過(guò)程中，為了得到下邊界，本文以樣本容量n=100及95%下邊界為例進(jìn)行說(shuō)明，首先計(jì)算95%下邊界與樣本空間分段數(shù)的關(guān)系。當(dāng)樣本容量n=100時(shí)，把樣本空間分成互不相容的k=2個(gè)區(qū)間，計(jì)算得到100個(gè)信息熵Hk，挑選升序排列的第6個(gè)信息熵作為95%熵，保證在95%熵以上包含95%的信息熵（改變置信度，邊界以上包含信息熵的個(gè)數(shù)不同，可以得到不同置信度的下邊界）。改變k∈[2，17]值，得到16個(gè)與樣本空間分段數(shù)k相關(guān)的95%熵，求得95%熵與樣本空間分段數(shù)k的關(guān)系擬合95%下邊界當(dāng)數(shù)據(jù)容量n∈{200，300，400，500，600，700，800，900，1 000}時(shí)，95%下邊界與樣本空間分段數(shù)關(guān)系的計(jì)算方法同上。其次，計(jì)算95%下邊界與樣本容量的關(guān)系。

本文首先研究了95%下邊界與樣本空間分段數(shù)k的關(guān)系及與樣本完全均勻時(shí)的信息熵Hk的距離。假設(shè)95%下邊界的形式為lnk-f（n，k），為了求的f（n，k）的具體形式，將16個(gè)95%熵與對(duì)應(yīng)k的最大信息熵lnk作差，即yk=lnk-95%熵，yk為f（n，k）的真實(shí)值。

圖1為當(dāng)n=100時(shí)，差值yk和分段數(shù)k的折線圖，由圖中可以看出，差值yk隨著k的增大呈上升趨勢(shì)。為了進(jìn)一步得到y(tǒng)k和k之間的關(guān)系，本文假設(shè)兩者之間為線性關(guān)系，函數(shù)形式為yk=a+b1k。將yk與k做OLS回歸，得a=0.0044，b1=0.00746，調(diào)整的R2為0.98516。但由于常數(shù)項(xiàng)a太小，假設(shè)函數(shù)不包含常數(shù)項(xiàng)為yk=b1k，OLS回歸結(jié)果為b1=0.00783，調(diào)整的R2為0.99685，OLS擬合效果很好。同時(shí)，觀察圖中差值和擬合函數(shù)曲線之間的關(guān)系，可以得出擬合函數(shù)對(duì)原曲線的擬合效果很好，因此假設(shè)yk和k之間的函數(shù)關(guān)系為線性是恰當(dāng)?shù)摹?/p>

本文進(jìn)而研究了95%下邊界與樣本容量n的關(guān)系，當(dāng)改變樣本容量n的值，求出b2，b3，b4…b10。下頁(yè)圖2為系數(shù)b與樣本容量n的關(guān)系，由圖中可以看出，系數(shù)b隨著樣本容量n的增加呈現(xiàn)出逐漸下降的趨勢(shì)。為了得到曲線的具體形式，假設(shè)曲線的函數(shù)形式為b=cnd，以非線性函數(shù)線性化方法計(jì)算c、d的值，得c=0.60571，d=-0.93745，調(diào)整的R2為0.99544。同時(shí)，觀察圖2中擬合函數(shù)曲線，對(duì)比擬合函數(shù)曲線與系數(shù)圖可知，擬合函數(shù)曲線對(duì)系數(shù)b與樣本容量n之間關(guān)系的擬合效果較好，且通過(guò)計(jì)算求得系數(shù)預(yù)測(cè)值與系數(shù)真實(shí)值之間的差值很小。因此，假設(shè)曲線的函數(shù)形式為冪函數(shù)是適當(dāng)?shù)摹?/p>

根據(jù)上述步驟，通過(guò)計(jì)算得：

則95%下邊界的公式可以表示為：

（二）樣本外數(shù)據(jù)驗(yàn)證及其他下邊界

為了檢驗(yàn)通過(guò)以上方法得到的95%下邊界的準(zhǔn)確性，需要通過(guò)樣本外數(shù)據(jù)進(jìn)行驗(yàn)證。隨機(jī)生成服從（0，1）上均勻分布的數(shù)據(jù)，數(shù)據(jù)包含100組，每組數(shù)據(jù)的樣本容量為n，n∈{280，420，500，650，880，1 100，1 500}。檢驗(yàn)結(jié)果為：當(dāng)n=280，k=15時(shí)，95%下邊界=2.66522<95%熵=2.66594;當(dāng)n=420，k=5時(shí)，95%下邊界=1.59982>95%熵=1.59946;當(dāng)n=500，k=6時(shí)，95%下邊界=1.78203>95%熵=1.78194;當(dāng)n=650，k=8時(shí)，95%下邊界=2.0694<95%熵=2.06972;當(dāng)n=880，k=11時(shí)，95%下邊界=2.38761<95%熵=2.38796;當(dāng)n=1100，k=15時(shí)，95%下邊界=2.69678>5%熵=2.69647;當(dāng)n=1500，k=17時(shí)，95%下邊界=2.82378<95%熵=2.82434。

對(duì)于樣本外數(shù)據(jù)進(jìn)行任意分段時(shí)，通過(guò)以上方法得出的95%熵有較大部分大于95%下邊界，說(shuō)明95%下邊界作為檢驗(yàn)隨機(jī)數(shù)是否服從均勻分布的邊界是恰當(dāng)?shù)?。例如，?dāng)樣本容量n=280、分段數(shù)k=15時(shí)，得到的95%熵為2.66594，是大于95%下邊界2.66522的，信息熵方法得到的95%下邊界是合適的。但是由于給出的邊界是不會(huì)包含所有的均勻分布數(shù)據(jù)的，還有一小部分的95%熵是小于95%下邊界的。

根據(jù)上述方法，可以得出不同置信度的下邊界。當(dāng)置信區(qū)間為90%時(shí)，下邊界為lnk-0.58775n-0.96634k;當(dāng)置信區(qū)間為91%時(shí)，下邊界為lnk-0.59545n-0.96469k;當(dāng)置信區(qū)間為92%時(shí)，下邊界為lnk-0.60894n-0.96497k;當(dāng)置信區(qū)間為93%時(shí)，下邊界為lnk-0.61176n-0.9621k;當(dāng)置信區(qū)間為94%時(shí)，下邊界為lnk-0.68140 n-0.97612k;當(dāng)置信區(qū)間為95%時(shí)，下邊界為lnk-0.69751n-0.97577k;當(dāng)置信區(qū)間為96%時(shí)，下邊界為lnk-0.72685n-0.97819k;當(dāng)置信區(qū)間為97%時(shí)，下邊界為lnk-0.73876n-0.97331;當(dāng)置信區(qū)間為98%時(shí)，下邊界為lnk-0.86220n-0.99301k;當(dāng)置信區(qū)間為99%時(shí)，下邊界為lnk-0.99351n-1.00611k;當(dāng)置信區(qū)間為100%時(shí)，下邊界為lnk-0.98126n-0.98655k。隨著置信區(qū)間的增大，下邊界逐漸遠(yuǎn)離數(shù)據(jù)服從完全均勻分布時(shí)的上邊界。當(dāng)樣本數(shù)據(jù)密度增加時(shí)，即使樣本分段數(shù)和樣本容量不同，下邊界也逐漸趨于重合。

三、信息熵方法與卡方檢驗(yàn)比較

為了驗(yàn)證本文運(yùn)用信息熵和Monte Carlo方法得出的檢驗(yàn)邊界的有效性，本文使用卡方檢驗(yàn)來(lái)驗(yàn)證上述實(shí)驗(yàn)數(shù)據(jù)的均勻性。在用卡方檢驗(yàn)檢驗(yàn)本文實(shí)驗(yàn)數(shù)據(jù)的均勻性過(guò)程中，選取不同樣本容量、不同分段數(shù)的95%信息熵的數(shù)據(jù)組進(jìn)行檢驗(yàn)。對(duì)于相同樣本容量，不同分段數(shù)會(huì)出現(xiàn)95%信息熵?cái)?shù)據(jù)組是同一組數(shù)據(jù)的現(xiàn)象，為了避免重復(fù)計(jì)算，以下只需選取相同樣本容量的任意一個(gè)分段數(shù)進(jìn)行卡方檢驗(yàn)，檢驗(yàn)結(jié)果同時(shí)作為其他分段數(shù)的結(jié)果。由于數(shù)據(jù)量大，檢驗(yàn)結(jié)果只呈現(xiàn)一部分，以此說(shuō)明結(jié)果的表示形式如：當(dāng)樣本容量為100，分段數(shù)為2時(shí)，卡方檢驗(yàn)P值為0.046;當(dāng)樣本容量為100，分段數(shù)為3時(shí)，卡方檢驗(yàn)P值為0.059;當(dāng)樣本容量為100.分段數(shù)為4時(shí)，卡方檢驗(yàn)P值為0.073等等，依此類(lèi)推。

在對(duì)95%信息熵?cái)?shù)據(jù)組進(jìn)行卡方檢驗(yàn)的結(jié)果中，有94組數(shù)據(jù)的卡方檢驗(yàn)p值是大于0.05的，表明在5%的顯著性水平下這些數(shù)據(jù)是不能拒絕服從均勻分布的原假設(shè)的，其余的數(shù)據(jù)在5%的顯著性水平下不能接受服從均勻分布的原假設(shè)。由于本文所用到的實(shí)驗(yàn)數(shù)據(jù)是運(yùn)用Monte Carlo方法隨機(jī)生成的服從均勻分布的數(shù)據(jù)，運(yùn)用本文的信息熵方法在95%下邊界檢驗(yàn)下均是服從均勻分布的。但是在卡方檢驗(yàn)下，95%信息熵?cái)?shù)據(jù)組有41.25%的數(shù)據(jù)在5%（下轉(zhuǎn)168頁(yè)）（上接161頁(yè)）的顯著性水平下不能接受服從均勻分布的原假設(shè)。由此說(shuō)明，在信息熵方法與卡方檢驗(yàn)的對(duì)比下，卡方檢驗(yàn)是稍顯嚴(yán)格的。

結(jié)語(yǔ)

本文根據(jù)均勻分布的性質(zhì)和信息熵指標(biāo)的意義，運(yùn)用Monte Carlo方法通過(guò)仿真實(shí)驗(yàn)得出檢驗(yàn)均勻分布的90%～100%的下邊界，經(jīng)過(guò)樣本外數(shù)據(jù)的驗(yàn)證，最后運(yùn)用信息熵方法與卡方檢驗(yàn)進(jìn)行對(duì)比，從而得出以下結(jié)論：信息熵方法計(jì)算過(guò)程簡(jiǎn)便，結(jié)果準(zhǔn)確有效，在實(shí)際運(yùn)用中既優(yōu)化了計(jì)算步驟，又降低了應(yīng)用復(fù)雜度。

根據(jù)其他類(lèi)型分布與均勻分布的關(guān)系，本文所提出的信息熵方法不僅可以實(shí)現(xiàn)均勻分布的檢驗(yàn)，而且對(duì)于其他類(lèi)型的分布也可以有效實(shí)現(xiàn)分布檢驗(yàn)。