屈云利,朱永忠
(河海大學(xué)理學(xué)院,南京 210098)
目前,用于解決小樣本問(wèn)題的方法之一就是Bayes方法。利用Bayes方法的關(guān)鍵是如何有效地利用先驗(yàn)信息來(lái)合理地確定先驗(yàn)分布。許多學(xué)者對(duì)此進(jìn)行了研究,如:Raiffa和Schlaifer[1]提出了利用共軛先驗(yàn)分布來(lái)確定先驗(yàn)分布;Jeffreys[2]研究提出了Jeffreys原則;Box和Tiao[3]對(duì)無(wú)信息先驗(yàn)分布作了詳細(xì)的研究;20世紀(jì)50年代以 Robbins[4]為代表提出用經(jīng)驗(yàn) Bayes方法(EB)確定先驗(yàn)分布。
隨著信息論的產(chǎn)生,Jaynes等[5]利用信息論中熵的概念提出用最大熵法來(lái)確定先驗(yàn)分布,在獲得少量的統(tǒng)計(jì)樣本值時(shí)就可以獲得它的概率密度函數(shù)。這種方法充分利用了樣本中給定的信息,可以做到準(zhǔn)確地確定概率密度分布以及相關(guān)的各個(gè)參數(shù)。隨著計(jì)算機(jī)的發(fā)展,對(duì)于小樣本問(wèn)題,常利用一些非參數(shù)的統(tǒng)計(jì)方法(如Bootstrap[6]方法和S-SMART(sample-smoothing amplification technique)[7]方法確定先驗(yàn)分布,并取得了較好的應(yīng)用效果。一些參數(shù)方法都是針對(duì)大樣本的[8]。研究表明S-SMART方法比Bootstrap方法更穩(wěn)健,尤其在小樣本的情形下比Bootstrap方法更精確、效果更好[7]。最大熵法也不需要對(duì)試驗(yàn)數(shù)據(jù)進(jìn)行假設(shè)就能確定先驗(yàn)分布,它是一種較好地處理不完全先驗(yàn)信息和盡量避免主觀因素的方法[9]。在先驗(yàn)樣本數(shù)據(jù)較多時(shí),可替代經(jīng)典統(tǒng)計(jì)學(xué)中通過(guò)直方圖確定概率分布的方法,且給出的是連續(xù)分布函數(shù),便于利用Bayes公式進(jìn)行計(jì)算。由此本文結(jié)合S-SMART方法和最大熵法的特點(diǎn)來(lái)進(jìn)行相關(guān)研究,提出應(yīng)用S-SMART最大熵法可以直接由試驗(yàn)數(shù)據(jù)得到未知參數(shù)的連續(xù)概率密度函數(shù),且?guī)缀醪恍枰藶榧僭O(shè),完全依賴樣本信息,客觀地得出該樣本的近似分布密度函數(shù)。
S-SMART最大熵法的基本思想是:通過(guò) SSMART方法將小樣本問(wèn)題轉(zhuǎn)化成大樣本問(wèn)題后,再利用最大熵法求出其概率密度函數(shù),從而解決小樣本情況下Bayes統(tǒng)計(jì)方法中的先驗(yàn)分布確定問(wèn)題。
信息論中熵用來(lái)表示不確定性的量度。信息熵的定義是
其中:Pi為隨機(jī)變量取 xi時(shí)的概率;SUM為累加和。
當(dāng)x為連續(xù)型時(shí),熵的定義可以寫(xiě)成
其中f(x)為隨機(jī)變量分布的概率密度函數(shù)。
最大熵的實(shí)質(zhì)就是在已知部分知識(shí)的前提下,關(guān)于未知分布最合理的推斷,就是符合已知知識(shí)最不確定或最隨機(jī)的推斷,即信息量最大的概率密度函數(shù)就是最佳(偏差最小)的概率密度函數(shù)。
設(shè)θ是連續(xù)型隨機(jī)變量,p(θ)是 θ的概率密度。
其中mi為隨機(jī)變量θ的各階原點(diǎn)矩。
通過(guò)構(gòu)造拉格朗日方程,使熵達(dá)到最大值,通過(guò)計(jì)算可得隨機(jī)變量θ的概率密度函數(shù)
其中 λ0,λ1,…λm為待定系數(shù)[10],可由式(4)、(5)求解。
考慮如下問(wèn)題:設(shè)隨機(jī)樣本 X=(x1,x2,…,xn)是來(lái)自未知的總體分布F。當(dāng)n很大時(shí)(即大樣本數(shù)據(jù)),可以采用經(jīng)驗(yàn)分布函數(shù)法、直方圖法來(lái)近似求得總體的概率分布;但當(dāng)n不大時(shí)(即小樣本數(shù)據(jù)),上述方法的誤差會(huì)比較大?,F(xiàn)以小樣本問(wèn)題為例來(lái)說(shuō)明S-SMART最大熵法的實(shí)現(xiàn)步驟。
1)對(duì)已知的樣本觀測(cè)值進(jìn)行再抽樣得到SSMART樣本。具體的抽樣過(guò)程是:首先將原始樣本的2.5% ~97.5%的百分位點(diǎn)概率等分為k份(k為樣本的放大倍數(shù)),然后計(jì)算相應(yīng)的分位點(diǎn)和原始樣本的標(biāo)準(zhǔn)差,之后以服從上述步驟中獲得的百分位點(diǎn)為均值,以原始樣本的標(biāo)準(zhǔn)差為標(biāo)準(zhǔn)差的正態(tài)分布來(lái)模擬產(chǎn)生k組S-SMART子樣,最后將這 k組S-SMART子樣結(jié)合起來(lái)獲得 SSMART樣本。
2) 記所要考察的未知參數(shù)θ^=R(X,F(xiàn)),θ^可以是總體的均值、方差或分布密度函數(shù)等分布特征。
3)借助計(jì)算機(jī),利用Monte-Carlo方法對(duì)步驟1)和步驟2)進(jìn)行N次模擬,得到估計(jì)參數(shù)的序列
其中Θ為參數(shù)空間。結(jié)合以上步驟可獲得p(θ)的表達(dá)式,從而可對(duì)隨機(jī)變量進(jìn)行相關(guān)的假設(shè)檢驗(yàn)。
根據(jù)以上步驟并不能得到p(θ)的解析表達(dá)式,只能利用數(shù)值方法進(jìn)行求解。一般情況下,m取到3或4即可滿足較高的精度和工程需要,視具體情況而定。本文以m=4為例來(lái)進(jìn)行仿真模擬試驗(yàn)。
1)以不同的放大倍數(shù)和不同的分布為例,設(shè)隨機(jī)樣本分別來(lái)自標(biāo)準(zhǔn)正態(tài)分布N(0,1)和參數(shù)為10的指數(shù)分布,每個(gè)含有n個(gè)隨機(jī)數(shù),n取20,利用S-SMART方法進(jìn)行10次和50次的再抽樣,應(yīng)用Matlab[11]中統(tǒng)計(jì)工具箱計(jì)算各自的各階矩。
圖1~4分別表示運(yùn)用S-SMART最大熵法放大10倍、50倍的模擬結(jié)果與理論的標(biāo)準(zhǔn)正態(tài)分布和參數(shù)為10的指數(shù)分布的比較,其中‘o’是樣本點(diǎn)。由圖1~4可以看出,在小樣本情形下,利用S-SMART最大熵法確定的先驗(yàn)分布與各理論分布相近,若直接將小樣本進(jìn)行擬合則與實(shí)際結(jié)果相差很大。由此可見(jiàn)S-SMART最大熵法是可行、有效的。這表明S-SMART最大熵法根據(jù)小樣本數(shù)據(jù)求取未知參數(shù)的先驗(yàn)分布不需要對(duì)分布作假設(shè)即可得到連續(xù)的概率密度函數(shù),便于進(jìn)行理論分析。該方法即可有效地?cái)U(kuò)充樣本數(shù)據(jù),同時(shí)也能充分利用樣本信息,盡量避免主觀因素的影響,因此得到的先驗(yàn)分布也更能令人信服。
圖4 放大50倍的S-SMART最大熵法與理論分布的比較
[1]Raiffa H,Schlaifer R.Applied Statistical Decision Theory[M].Boston:Harvard University Press,1961.
[2]JeffreysH.Theory of Probability[M].Oxford:Oxford University Press,1961.
[3]Box C,Tiao G C.BayesianInferenceinStatisticalAnalysis[M].USA:Addision-Wrsley,1973.
[4]Robbines H.The Empirical Bayes Approach to Statistical Decision Problem[J].Ann.Math.Stat.,1964,35:1 -20.
[5]Jaynes E T.Information Theory and Statistical Mechanics[J].Phys.Rev,1957,108(2):171 -190.
[6]Efron B.Bootstrap Method:Another Look At The Jackknife[J].Ann Statist,1979,1:1 - 26.
[7]Haiyan Bai.A New Resampling Method to Improve Quality of Research with Small Samples[D].Cincinnati:University of Cincinnati,2006.
[8]余嘉元.基于神經(jīng)網(wǎng)絡(luò)集成的IRT參數(shù)估計(jì)[J].江南大學(xué)學(xué)報(bào),2009(5):505-508.
[9]康文興,谷小松,黃希利.自助最大熵法確定先驗(yàn)分布及其在導(dǎo)彈命中概率估計(jì)中的應(yīng)用[J].裝備指揮技術(shù)學(xué)院學(xué)報(bào),2007(3):109-113.
[10]張煥珍.基于蒙特卡羅和最大熵法的水泵測(cè)試不確定度研究[D].沈陽(yáng):沈陽(yáng)工業(yè)大學(xué),2010.
[11]蘇金明,張蓮花,劉波,等.MATLAB工具箱應(yīng)用[M].北京:電子工業(yè)出版社,2004.