亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

最大熵原理與假設(shè)檢驗方法探討

2012-03-12 06:03:16張鳳寬

統(tǒng)計與決策 2012年15期

關(guān)鍵詞：指數(shù)分布正態(tài)分布導(dǎo)數(shù)

張鳳寬

（天津商業(yè)大學(xué) 理學(xué)院，天津 300134）

0 引言

在沈世鎰教授的文章[1]中給出了一種改進(jìn)的經(jīng)驗分布函數(shù)的定義，使之更適用于Shannon熵的計算，并利用推導(dǎo)出的有關(guān)結(jié)果及最大熵原理給出了一個分布檢驗的新方法，即《分布的熵—矩檢驗法》。為了使這種方法的應(yīng)用更廣泛，本文擬將一維推廣到二維及至多維的情形。

1 二維經(jīng)驗分布函數(shù)

對于任意給定的二維隨機向量(X,Y)的樣本為了給出它的經(jīng)驗分布函數(shù)，我們先進(jìn)行如下討論：

從(1)式出發(fā)可以得到一維樣本x1,x2,..xm，排序后得x[1]≤x[2]≤...≤x[m],相應(yīng)地有：

即 {(x[i],yx[i])}(i=1,2...,m)為(2)中的所有樣本，取0＜α＜1/4 ，記 n=m12,n1=m1/2+α,n2=m1/2-α,顯然n2=m,n1.n2=m,定義[1]（帶“^”者均為經(jīng)驗分布，以后出現(xiàn)“^”意思相同，不再敘述）

為X的Ⅱ型經(jīng)驗分布函數(shù)。

相應(yīng)的有分布密度函數(shù)：

對于每一個k(0≤k≤n2-1):x[kn1+1],x[kn1+2],..x[kn1+n1]對應(yīng)于(2)中的

排序得：

取 0＜α'＜1/4，記 n0=n11 2,n3=n11/2+α',n4=n11/2-α',從而n3.n4=n1,=n1（顯然m→∞時，n1=m1/2+α→∞）。

定義

為y關(guān)于x的條件經(jīng)驗分布函數(shù)。

相應(yīng)的分布密度函數(shù)為：

當(dāng) x[kn1]＜x≤x[(k+1)n1]時。

所以當(dāng) x[kn1]＜x≤x[(k+1)n1],yk[ln3]＜y≤yk[(l+1)n3]時，有：

將(3)、(6)式代入(8)式即得二維隨機向量的經(jīng)驗分布函數(shù)：

其相應(yīng)的分布密度函數(shù)為:

不妨假設(shè)(1)式中的樣本是來自分布密度函數(shù)為f(x,y)的總體中，下面討論 f?m,α,α'(x,y)與 f(x,y)之間的關(guān)系。

定理1如果 f(x,y)為支集S上的分布密度函數(shù)且為二元連續(xù)的。其條件分布密度函數(shù) f(y|x),f(x|y)關(guān)于x,y有一致有界導(dǎo)數(shù)，其邊際分布密度函數(shù) f1(x),f2(y)分別具有一致有界的導(dǎo)數(shù)，且在S上 f1(x)＞0,f2(y)＞0，則對任何，有

證明：

由已知條件 f(y|x)關(guān)于 x,y有一致有界導(dǎo)數(shù)，而∫f(x,y)dy=1，從而 f(y|x)有界。又由[1]中結(jié)論：當(dāng) f1(x)有一致有界導(dǎo)數(shù)時：

所以：

同時由 f1(x)有一致有界導(dǎo)數(shù)及∫f1(x)dx=1知 f1(x)有界。從而由(12)式知：

對于任意給定的x0：對應(yīng)于每一個固定的m。有且僅有一個k，使得x[kn1]＜x0≤x[(k+1)n1]，所以：

而對于(15)式中的每一個(x[kn1],x[(k+1)n1]]，當(dāng)m→∞時，n1→∞。且(x[kn1],x[(k+1)n1]]→x0

證畢。

從（1）式出發(fā)又可以得到一維樣本y1,y2,...,ym，按照定義的方法可以得到關(guān)于y的經(jīng)驗分布密度函數(shù)，同樣與類似定義可得到

定理2在定理1的條件下，若∫f(y|x)|logf(y|x)|dy存在，∫f(y|x)|logf(y|x)|dy關(guān)于x一致有界（以概率1），則：

證明：

由文[1]的結(jié)論有：

可知：

由于∫f(y|x)logf(y|x)dy以概率1關(guān)于x一致有界，故存在M1＞0，使得

再考慮(12)式即知：

對于任意給定的x，由∫f(y|x)|logf(y|x)|dy的存在性及的證明過程，可用(15)～(16)式的極限方法證得：

考慮(14)式即有：

由(20)、(21)、(24)式即知：

定理2證畢。

3 多維的情形

已知多維隨機向量(x1,x2,...xn)(n≥3)的樣本序列為：從上述討論看出，可以從二維樣本(x11,x21),(x12,x22),...(x1m,x2m)出發(fā)首先得到m,α,α'(x1,x2)（見（6）式）及相應(yīng)的（見（7）式），對于每一個給定的k及l(fā)，有x3的相應(yīng)樣本序列(xkl[1],xkl[2],...xkl[n3])

然后與一維推廣到二維完全類似，按照(6)～(9)式的定義方式可以得到：

對于n維情形，可通過

4 最大熵原理與假設(shè)檢驗

由此可見，在某些條件下，當(dāng)且僅當(dāng)分布密度函數(shù)屬于指數(shù)分布族時其熵達(dá)到最大。所以以下的討論都是在指數(shù)分布族中進(jìn)行。

例1：如何判別一個多元樣本序列

是否服從多元正態(tài)分布。

首先從（29）式出發(fā)計算數(shù)學(xué)期望和方差估計值：

當(dāng)然如果期望和方差均為已知或者二者之一為已知，則不必再計算其估計值。

記 X=(x1,x2,...xn)',A=,B=,（如果ai,bij為已知，則令

如果隨機向量X服從多員正態(tài)分布，則其相應(yīng)的B=(bij)為正定陣，從而有非奇異陣L，使B=LL'，對應(yīng)于A,B的n元正態(tài)分布密度Nn(A,B)為:

由此 f(x1,x2,...xn)可以計算出:

對(31)做如下線性變換:

則逆變換為:

變換（34）的雅可比行列式為:

因此:

由此即知以 f(x1,x2,...xn)為分布密度的多元正態(tài)隨機向量的模擬數(shù)據(jù)可以從標(biāo)準(zhǔn)正態(tài)分布的模擬數(shù)據(jù)求得，

即：如取作為n個獨立模擬的標(biāo)準(zhǔn)正態(tài)隨機變數(shù)據(jù)序列（這種序列可以從（0,1）上均勻分布的模擬數(shù)據(jù)得到，具體模擬方法見[6]）。經(jīng)過變換（34）式所得到的X的相應(yīng)序列:

即為服從Nn(A,B)的多元正態(tài)隨機向量序列。關(guān)于這一點從（31）～（36）的推導(dǎo)過程中易見。對于不同的（37）中序列就有對應(yīng)的（38）中的不同序列（服從Nn(A,B)）,并且可以有無窮多組不同的序列（37）、（38），不妨取（38）中的100組。計算其相應(yīng)的(j=1,2,...100)再與（32）式比較即得Δj=-Hj(f)|(j=1,2,...100)從Δj中依次挑出11個最大值[3]，將它們從大到小排列，分別記為Δm0,Δm1,...Δm10，取Δm1,Δm2,Δm5,Δm10為樣本容量為m時的擬顯著水平α=0.01,0.02,0.05,0.10的臨界值。此即可作為Δ=|H(f?)-H(f)|當(dāng) f為n元正態(tài)分布密度時的判別標(biāo)準(zhǔn)。增大樣本容量m或增加模擬次數(shù)均可提高這種標(biāo)準(zhǔn)的精確度。

對于指數(shù)分布族中的其它的連續(xù)型向量也可以做類似于例1的處理，即先計算Shannon熵的精確值H(f)，再從樣本出發(fā)計算H(f?)，通過模擬得到一個Δ=|H(f?) -H(f)|的判別標(biāo)準(zhǔn)。

上述判別法的缺點在于造表（即Δ的大小判別標(biāo)準(zhǔn)或?qū)?yīng)臨界值表）時比較麻煩，但是具體用表時比較簡易。從樣本出發(fā)計算H(f?)時在計算機上較易實現(xiàn)。對維數(shù)較低的隨機向量這種方法精確度較高，從而比高維時更適用。

[1]沈世鎰.關(guān)于Shannon熵的統(tǒng)計計算及其在分布檢驗中的應(yīng)用[J].高校應(yīng)用數(shù)學(xué)學(xué)報,1988,12.

[2]Jhon,Willy S.Kullback.Information Theory and Statistics[M].New York:Wiley,1959.

[3]沈世鎰,張潤楚,肖蕓茹.熵矩檢驗法與熵矩檢驗表[D].南開大學(xué), 1985.

[4]張潤楚.多元統(tǒng)計分析[M].天津：南開大學(xué)出版社,1986.

[5]林畛.變分法與最優(yōu)控制[M].哈爾濱：哈爾濱工業(yè)大學(xué)出版社, 1987.

[6]肖蕓茹.概率統(tǒng)計計算[M].天津：南開大學(xué)出版社,1986.