亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于信息熵和Monte Carlo方法的分布檢驗(yàn)

        2019-03-13 13:01:18張志娟李星野
        經(jīng)濟(jì)研究導(dǎo)刊 2019年3期
        關(guān)鍵詞:均勻分布置信區(qū)間信息熵

        張志娟 李星野

        摘 要:在統(tǒng)計(jì)分析中,分布檢驗(yàn)非常重要,應(yīng)用較多的檢驗(yàn)方法有卡方檢驗(yàn)、K-S檢驗(yàn)、S-W檢驗(yàn)、A-D檢驗(yàn)等。提出一種借助Monte Carlo方法、采用信息熵指標(biāo)實(shí)現(xiàn)統(tǒng)計(jì)分布檢驗(yàn)的方法,檢驗(yàn)結(jié)果的對(duì)比表明信息熵方法簡(jiǎn)便有效。

        關(guān)鍵詞:信息熵;均勻分布;置信區(qū)間;卡方檢驗(yàn)

        中圖分類號(hào):O21 ? ? ? ?文獻(xiàn)標(biāo)志碼:A ? ? ?文章編號(hào):1673-291X(2019)03-0159-03

        引言

        在數(shù)據(jù)統(tǒng)計(jì)領(lǐng)域,分布檢驗(yàn)是其中的重要步驟,具有方便、快速、準(zhǔn)確等優(yōu)點(diǎn),現(xiàn)已廣泛應(yīng)用在醫(yī)學(xué)、統(tǒng)計(jì)學(xué)等領(lǐng)域,在判斷實(shí)驗(yàn)結(jié)果是否符合預(yù)期,產(chǎn)品質(zhì)量是否合格等方面作用重大??ǚ綑z驗(yàn)是基于統(tǒng)計(jì)樣本中實(shí)際觀測(cè)值與理論推斷值兩者偏離程度而發(fā)展起來(lái)的一種典型的分布檢驗(yàn)方法,該方法可以解決檢驗(yàn)數(shù)據(jù)是否符合假設(shè)的分布類型的問(wèn)題,可以很好地描述分類資料統(tǒng)計(jì)推斷的特點(diǎn)。但是由于卡方檢驗(yàn)較為依賴樣本空間的劃分,不同的樣本空間分段數(shù)會(huì)導(dǎo)致不同的結(jié)論[1~3]。K-S檢驗(yàn)方法是另外一種較為典型的分布檢驗(yàn)方法,它需要將做統(tǒng)計(jì)分析的數(shù)據(jù)和另一組標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行對(duì)比,求得它和標(biāo)準(zhǔn)數(shù)據(jù)之間的偏差,但是當(dāng)數(shù)據(jù)規(guī)模較小時(shí),相應(yīng)參數(shù)檢驗(yàn)是無(wú)效的,統(tǒng)計(jì)推斷是不可信的[2,4~6];與K-S檢驗(yàn)方法相對(duì)的是S-W檢驗(yàn)方法,S-W檢驗(yàn)解決了小樣本情況下數(shù)據(jù)服從正態(tài)分布的統(tǒng)計(jì)檢驗(yàn),但是這種檢驗(yàn)方法在大樣本情況下的適用性是不明確的[4]。A-D檢驗(yàn)方法成功解決了上述兩種方法的問(wèn)題,且可以用于多種分布類型的檢驗(yàn),但是,A-D檢驗(yàn)受兩端異常值的影響較大[4]。本文提出了一種新的分布檢驗(yàn)方法,該方法基于Monte Carlo方法,運(yùn)用信息熵理論,求得不同置信度的檢驗(yàn)下邊界,可以檢驗(yàn)隨機(jī)數(shù)的分布類型,信息熵方法更加簡(jiǎn)便有效。

        一、信息熵方法實(shí)現(xiàn)分布檢驗(yàn)的原理

        (一)檢驗(yàn)原理

        本文對(duì)經(jīng)典的分布檢驗(yàn)方法不再贅述,根據(jù)假設(shè)檢驗(yàn)的基本原理,可以利用來(lái)自總體X的樣本x1,x2,x3…xn檢驗(yàn)總體是否服從特定分布F0(X)。此時(shí),檢驗(yàn)的原假設(shè)為H0:F(x)=F0(x),備擇假設(shè)為H1:F(x)≠F0(x)。當(dāng)原假設(shè)成立時(shí),隨機(jī)變量Y=F0(X)服從[0,1]上的均勻分布[7]。因此,檢驗(yàn)樣本x1,x2,x3…xn是否服從分布F0(X),可以轉(zhuǎn)化為檢驗(yàn)y1,y2,y3…yn(其中yi=F0(xi))是否服從[0,1]上的均勻分布。對(duì)于均勻分布的檢驗(yàn),本文借助信息熵指標(biāo),基于Monte Carlo方法,求得檢驗(yàn)均勻分布的下邊界,實(shí)現(xiàn)分布檢驗(yàn)。

        (二)信息熵

        信息熵最早是從熱力學(xué)中熵這個(gè)概念演化而來(lái),熵的物理意義表示體系混亂程度的度量[8]。信息論之父Shannon 指出,任何信息都存在冗余,冗余大小與信息中每個(gè)符號(hào)(數(shù)字、字母或單詞)的出現(xiàn)概率或者說(shuō)不確定性有關(guān)[9]。信息熵表示信息中排除了冗余后的平均信息量,本文選取以e為底的自然對(duì)數(shù),信息熵可以表示為:

        式中,i∈[1,k]表示樣本空間劃分后的第i個(gè)區(qū)間,P(i)指樣本空間劃分后,在樣本含有n個(gè)子樣本的觀察中落入i區(qū)間的頻數(shù)ni與樣本個(gè)數(shù)n的比值。

        在判斷一組隨機(jī)數(shù)是否服從均勻分布時(shí),根據(jù)數(shù)據(jù)的均勻性質(zhì),越均勻的數(shù)據(jù),其混亂程度越低,包含的信息量越大,信息熵越大。當(dāng)數(shù)據(jù)完全均勻時(shí),信息熵達(dá)到最大值,如下所示:

        其中,k表示樣本空間分段數(shù)。當(dāng)數(shù)據(jù)完全均勻時(shí),樣本容量大小對(duì)信息熵沒(méi)有影響。

        二、下邊界擬合過(guò)程

        當(dāng)大量的值都具有計(jì)算出的概率時(shí),國(guó)內(nèi)外通用的方法是運(yùn)用Monte Carlo方法求得問(wèn)題的解。Monte Carlo方法是指使用隨機(jī)數(shù)(或更常見(jiàn)的偽隨機(jī)數(shù))來(lái)解決很多計(jì)算問(wèn)題的方法[9]。本文為了得到下邊界,采用Monte Carlo方法。實(shí)驗(yàn)數(shù)據(jù)是通過(guò)隨機(jī)數(shù)生成器生成的,隨機(jī)生成服從[0,1]上均勻分布的數(shù)據(jù),數(shù)據(jù)包含100組,樣本容量為n,n∈{100, 200,300,400,500,600,700,800,900,1 000}。

        (一)95%下邊界擬合過(guò)程

        論文運(yùn)用基于信息熵為指標(biāo)的均勻分布檢驗(yàn)的方法對(duì)數(shù)據(jù)進(jìn)行檢驗(yàn)的過(guò)程中,為了得到下邊界,本文以樣本容量n=100及95%下邊界為例進(jìn)行說(shuō)明,首先計(jì)算95%下邊界與樣本空間分段數(shù)的關(guān)系。當(dāng)樣本容量n=100時(shí),把樣本空間分成互不相容的k=2個(gè)區(qū)間,計(jì)算得到100個(gè)信息熵Hk,挑選升序排列的第6個(gè)信息熵作為95%熵,保證在95%熵以上包含95%的信息熵(改變置信度,邊界以上包含信息熵的個(gè)數(shù)不同,可以得到不同置信度的下邊界)。改變k∈[2,17]值,得到16個(gè)與樣本空間分段數(shù)k相關(guān)的95%熵,求得95%熵與樣本空間分段數(shù)k的關(guān)系擬合95%下邊界當(dāng)數(shù)據(jù)容量n∈{200,300,400,500,600,700,800,900,1 000}時(shí),95%下邊界與樣本空間分段數(shù)關(guān)系的計(jì)算方法同上。其次,計(jì)算95%下邊界與樣本容量的關(guān)系。

        本文首先研究了95%下邊界與樣本空間分段數(shù)k的關(guān)系及與樣本完全均勻時(shí)的信息熵Hk的距離。假設(shè)95%下邊界的形式為lnk-f(n,k),為了求的f(n,k)的具體形式,將16個(gè)95%熵與對(duì)應(yīng)k的最大信息熵lnk作差,即yk=lnk-95%熵,yk為f(n,k)的真實(shí)值。

        圖1為當(dāng)n=100時(shí),差值yk和分段數(shù)k的折線圖,由圖中可以看出,差值yk隨著k的增大呈上升趨勢(shì)。為了進(jìn)一步得到y(tǒng)k和k之間的關(guān)系,本文假設(shè)兩者之間為線性關(guān)系,函數(shù)形式為yk=a+b1k。將yk與k做OLS回歸,得a=0.0044,b1=0.00746,調(diào)整的R2為0.98516。但由于常數(shù)項(xiàng)a太小,假設(shè)函數(shù)不包含常數(shù)項(xiàng)為yk=b1k,OLS回歸結(jié)果為b1=0.00783,調(diào)整的R2為0.99685,OLS擬合效果很好。同時(shí),觀察圖中差值和擬合函數(shù)曲線之間的關(guān)系,可以得出擬合函數(shù)對(duì)原曲線的擬合效果很好,因此假設(shè)yk和k之間的函數(shù)關(guān)系為線性是恰當(dāng)?shù)摹?/p>

        本文進(jìn)而研究了95%下邊界與樣本容量n的關(guān)系,當(dāng)改變樣本容量n的值,求出b2,b3,b4…b10。下頁(yè)圖2為系數(shù)b與樣本容量n的關(guān)系,由圖中可以看出,系數(shù)b隨著樣本容量n的增加呈現(xiàn)出逐漸下降的趨勢(shì)。為了得到曲線的具體形式,假設(shè)曲線的函數(shù)形式為b=cnd,以非線性函數(shù)線性化方法計(jì)算c、d的值,得c=0.60571,d=-0.93745,調(diào)整的R2為0.99544。同時(shí),觀察圖2中擬合函數(shù)曲線,對(duì)比擬合函數(shù)曲線與系數(shù)圖可知,擬合函數(shù)曲線對(duì)系數(shù)b與樣本容量n之間關(guān)系的擬合效果較好,且通過(guò)計(jì)算求得系數(shù)預(yù)測(cè)值與系數(shù)真實(shí)值之間的差值很小。因此,假設(shè)曲線的函數(shù)形式為冪函數(shù)是適當(dāng)?shù)摹?/p>

        根據(jù)上述步驟,通過(guò)計(jì)算得:

        則95%下邊界的公式可以表示為:

        (二)樣本外數(shù)據(jù)驗(yàn)證及其他下邊界

        為了檢驗(yàn)通過(guò)以上方法得到的95%下邊界的準(zhǔn)確性,需要通過(guò)樣本外數(shù)據(jù)進(jìn)行驗(yàn)證。隨機(jī)生成服從(0,1)上均勻分布的數(shù)據(jù),數(shù)據(jù)包含100組,每組數(shù)據(jù)的樣本容量為n,n∈{280,420,500,650,880,1 100,1 500}。檢驗(yàn)結(jié)果為:當(dāng)n=280,k=15時(shí),95%下邊界=2.66522<95%熵=2.66594;當(dāng)n=420,k=5時(shí),95%下邊界=1.59982>95%熵=1.59946;當(dāng)n=500,k=6時(shí),95%下邊界=1.78203>95%熵=1.78194;當(dāng)n=650,k=8時(shí),95%下邊界=2.0694<95%熵=2.06972;當(dāng)n=880,k=11時(shí),95%下邊界=2.38761<95%熵=2.38796;當(dāng)n=1100,k=15時(shí),95%下邊界=2.69678>5%熵=2.69647;當(dāng)n=1500,k=17時(shí),95%下邊界=2.82378<95%熵=2.82434。

        對(duì)于樣本外數(shù)據(jù)進(jìn)行任意分段時(shí),通過(guò)以上方法得出的95%熵有較大部分大于95%下邊界,說(shuō)明95%下邊界作為檢驗(yàn)隨機(jī)數(shù)是否服從均勻分布的邊界是恰當(dāng)?shù)?。例如,?dāng)樣本容量n=280、分段數(shù)k=15時(shí),得到的95%熵為2.66594,是大于95%下邊界2.66522的,信息熵方法得到的95%下邊界是合適的。但是由于給出的邊界是不會(huì)包含所有的均勻分布數(shù)據(jù)的,還有一小部分的95%熵是小于95%下邊界的。

        根據(jù)上述方法,可以得出不同置信度的下邊界。當(dāng)置信區(qū)間為90%時(shí),下邊界為lnk-0.58775n-0.96634k;當(dāng)置信區(qū)間為91%時(shí),下邊界為lnk-0.59545n-0.96469k;當(dāng)置信區(qū)間為92%時(shí),下邊界為lnk-0.60894n-0.96497k;當(dāng)置信區(qū)間為93%時(shí),下邊界為lnk-0.61176n-0.9621k;當(dāng)置信區(qū)間為94%時(shí),下邊界為lnk-0.68140 n-0.97612k;當(dāng)置信區(qū)間為95%時(shí),下邊界為lnk-0.69751n-0.97577k;當(dāng)置信區(qū)間為96%時(shí),下邊界為lnk-0.72685n-0.97819k;當(dāng)置信區(qū)間為97%時(shí),下邊界為lnk-0.73876n-0.97331;當(dāng)置信區(qū)間為98%時(shí),下邊界為lnk-0.86220n-0.99301k;當(dāng)置信區(qū)間為99%時(shí),下邊界為lnk-0.99351n-1.00611k;當(dāng)置信區(qū)間為100%時(shí),下邊界為lnk-0.98126n-0.98655k。隨著置信區(qū)間的增大,下邊界逐漸遠(yuǎn)離數(shù)據(jù)服從完全均勻分布時(shí)的上邊界。當(dāng)樣本數(shù)據(jù)密度增加時(shí),即使樣本分段數(shù)和樣本容量不同,下邊界也逐漸趨于重合。

        三、信息熵方法與卡方檢驗(yàn)比較

        為了驗(yàn)證本文運(yùn)用信息熵和Monte Carlo方法得出的檢驗(yàn)邊界的有效性,本文使用卡方檢驗(yàn)來(lái)驗(yàn)證上述實(shí)驗(yàn)數(shù)據(jù)的均勻性。在用卡方檢驗(yàn)檢驗(yàn)本文實(shí)驗(yàn)數(shù)據(jù)的均勻性過(guò)程中,選取不同樣本容量、不同分段數(shù)的95%信息熵的數(shù)據(jù)組進(jìn)行檢驗(yàn)。對(duì)于相同樣本容量,不同分段數(shù)會(huì)出現(xiàn)95%信息熵?cái)?shù)據(jù)組是同一組數(shù)據(jù)的現(xiàn)象,為了避免重復(fù)計(jì)算,以下只需選取相同樣本容量的任意一個(gè)分段數(shù)進(jìn)行卡方檢驗(yàn),檢驗(yàn)結(jié)果同時(shí)作為其他分段數(shù)的結(jié)果。由于數(shù)據(jù)量大,檢驗(yàn)結(jié)果只呈現(xiàn)一部分,以此說(shuō)明結(jié)果的表示形式如:當(dāng)樣本容量為100,分段數(shù)為2時(shí),卡方檢驗(yàn)P值為0.046;當(dāng)樣本容量為100,分段數(shù)為3時(shí),卡方檢驗(yàn)P值為0.059;當(dāng)樣本容量為100.分段數(shù)為4時(shí),卡方檢驗(yàn)P值為0.073等等,依此類推。

        在對(duì)95%信息熵?cái)?shù)據(jù)組進(jìn)行卡方檢驗(yàn)的結(jié)果中,有94組數(shù)據(jù)的卡方檢驗(yàn)p值是大于0.05的,表明在5%的顯著性水平下這些數(shù)據(jù)是不能拒絕服從均勻分布的原假設(shè)的,其余的數(shù)據(jù)在5%的顯著性水平下不能接受服從均勻分布的原假設(shè)。由于本文所用到的實(shí)驗(yàn)數(shù)據(jù)是運(yùn)用Monte Carlo方法隨機(jī)生成的服從均勻分布的數(shù)據(jù),運(yùn)用本文的信息熵方法在95%下邊界檢驗(yàn)下均是服從均勻分布的。但是在卡方檢驗(yàn)下,95%信息熵?cái)?shù)據(jù)組有41.25%的數(shù)據(jù)在5%(下轉(zhuǎn)168頁(yè))(上接161頁(yè))的顯著性水平下不能接受服從均勻分布的原假設(shè)。由此說(shuō)明,在信息熵方法與卡方檢驗(yàn)的對(duì)比下,卡方檢驗(yàn)是稍顯嚴(yán)格的。

        結(jié)語(yǔ)

        本文根據(jù)均勻分布的性質(zhì)和信息熵指標(biāo)的意義,運(yùn)用Monte Carlo方法通過(guò)仿真實(shí)驗(yàn)得出檢驗(yàn)均勻分布的90%~100%的下邊界,經(jīng)過(guò)樣本外數(shù)據(jù)的驗(yàn)證,最后運(yùn)用信息熵方法與卡方檢驗(yàn)進(jìn)行對(duì)比,從而得出以下結(jié)論:信息熵方法計(jì)算過(guò)程簡(jiǎn)便,結(jié)果準(zhǔn)確有效,在實(shí)際運(yùn)用中既優(yōu)化了計(jì)算步驟,又降低了應(yīng)用復(fù)雜度。

        根據(jù)其他類型分布與均勻分布的關(guān)系,本文所提出的信息熵方法不僅可以實(shí)現(xiàn)均勻分布的檢驗(yàn),而且對(duì)于其他類型的分布也可以有效實(shí)現(xiàn)分布檢驗(yàn)。

        猜你喜歡
        均勻分布置信區(qū)間信息熵
        基于信息熵可信度的測(cè)試點(diǎn)選擇方法研究
        定數(shù)截尾場(chǎng)合三參數(shù)pareto分布參數(shù)的最優(yōu)置信區(qū)間
        p-范分布中參數(shù)的置信區(qū)間
        多個(gè)偏正態(tài)總體共同位置參數(shù)的Bootstrap置信區(qū)間
        接觸壓力非均勻分布下彎曲孔道摩阻損失分析
        列車定位中置信區(qū)間的確定方法
        基于信息熵的實(shí)驗(yàn)教學(xué)量化研究
        電磁感應(yīng)綜合應(yīng)用檢測(cè)題
        一種基于信息熵的雷達(dá)動(dòng)態(tài)自適應(yīng)選擇跟蹤方法
        基于信息熵的IITFN多屬性決策方法
        日韩A∨精品久久久久| 久久久99精品成人片| 人妻少妇中文字幕乱码| 国产熟妇搡bbbb搡bbbb搡| 爆乳无码AV国内| 久久亚洲免费精品视频| 精品一区二区三区免费视频| 国产精品麻豆aⅴ人妻| 人人爽亚洲aⅴ人人爽av人人片| 国产av剧情精品麻豆| 看久久久久久a级毛片| 久久亚洲精品ab无码播放| 国产亚洲AV片a区二区| 亚洲激情综合中文字幕| 狠狠色综合7777久夜色撩人| 三上悠亚精品一区二区久久| 少妇一区二区三区乱码| 国产午夜视频在线观看免费| 亚洲码国产精品高潮在线| 国产真人无遮挡免费视频| 国产午夜福利av在线麻豆| 天天综合网网欲色| 日本乱人伦在线观看| 一区二区三区国产美女在线播放| 国产老熟女伦老熟妇露脸| 午夜理论片yy6080私人影院| 亚洲人成无码网站久久99热国产| 亚洲妇女av一区二区| 亚洲乱码中文字幕在线播放| 先锋影音av最新资源| AV无码免费不卡在线观看| 你懂的视频网站亚洲视频| 人妻体内射精一区二区三四| 久久夜色撩人精品国产小说| 国产精品黄页免费高清在线观看| 日本丰满老妇bbw| 亚洲中文字幕无码久久2020| 国产人成在线成免费视频| 色综合久久中文综合网亚洲| 四川少妇大战4黑人| 亚洲AV无码乱码精品国产草莓|