李磊,葉友皓,袁永生
(河海大學(xué)理學(xué)院,江蘇南京211100)
在工程實(shí)踐中,由于電子產(chǎn)品的特性、運(yùn)行成本等因素的影響,一般不可能進(jìn)行大量的重復(fù)試驗(yàn)。從而造成實(shí)際能獲取的指標(biāo)樣本數(shù)據(jù)往往是小樣本數(shù)據(jù),采用經(jīng)典統(tǒng)計(jì)方法得到評(píng)估結(jié)果可信度一般都比較低。想要提高評(píng)估結(jié)果精度,縮短置信區(qū)間,就需要增加試驗(yàn)數(shù)據(jù)。目前,工程領(lǐng)域已經(jīng)擁有不少成熟的方法來處理小樣本問題[1-3],這些方法大致可以分為兩大類:一類是傳統(tǒng)的估計(jì)方法Bayesian方法,該方法因?yàn)槟軌蚶脷v史信息和專家經(jīng)驗(yàn)等先驗(yàn)信息從而得到了廣泛應(yīng)用。但是由于驗(yàn)前信息來源廣泛各異,而且其分布形式的選擇也帶有很大的主觀性,使得Bayesian方法常常備受爭(zhēng)議,相比之下另外一類方法是以Bayesian Bootstrap方法為代表的方法[4-6]。該方法不需要任何的主觀假設(shè)和額外信息、完全依賴于試驗(yàn)樣本本身信息且具有良好的穩(wěn)健性,工程上易實(shí)現(xiàn),比較適合分析小樣本問題[7]。
但是這種方法在特小樣本情況下,其估計(jì)結(jié)果可信度[15]會(huì)降低。針對(duì)這種情況,本文提出了改進(jìn)的Bayesian Bootstrap方法,這種方法的好處在于適當(dāng)擴(kuò)大樣本量的同時(shí),合理的引進(jìn)了深度函數(shù)[16]以降低異常點(diǎn)的權(quán)重、緩解了異常點(diǎn)對(duì)整體數(shù)據(jù)的影響、充分的利用了全部樣本數(shù)據(jù)。從而在相同的置信水平下,有效的提高了預(yù)測(cè)精度,縮短了置信區(qū)間,使區(qū)間估計(jì)更具有穩(wěn)健性。
從統(tǒng)計(jì)學(xué)角度分析,產(chǎn)品性能參數(shù)[4]的研究可以歸為參數(shù)估計(jì)的范疇,是參數(shù)估計(jì)的具體實(shí)例。大量產(chǎn)品的性能參數(shù)我們都可以抽象的看成是某一個(gè)具體的隨機(jī)變量。為了下文的敘述方便,我們?cè)诒疚闹杏秒S機(jī)變量X來表示某種產(chǎn)品的任一性能參數(shù)。通過大量的試驗(yàn)表明,隨機(jī)變量X通常是服從正態(tài)分布的,通常情況下要求產(chǎn)品的性能參數(shù)應(yīng)該始終在允許的誤差范圍內(nèi),即:
式(1)中,X?表示性能參數(shù)標(biāo)準(zhǔn)值;ΔX是性能參數(shù)允許的最大偏差。于是有
在(2)(3)中:XS表示性能參數(shù)的允許上限[8],XI表示性能參數(shù)的允許下限。
在工程研究中,假設(shè)某種產(chǎn)品的性能參數(shù)X獨(dú)立同分步,其樣本數(shù)據(jù)為(X1,X2,…,Xn),記為樣本X。其中Xi服從正態(tài)分布N(μ,σ2)μ,σ2未知,i=1,2,.…n,n為試驗(yàn)的樣本總數(shù),由上文可知性能參數(shù)評(píng)估的關(guān)鍵是μ和σ2的確定 所以如何利用Bayesian Bootstrap方法[14]來更精確的估計(jì)μ和σ2是至關(guān)重要的。該方法的步驟[9]如下:
1)在區(qū)間(0,1)產(chǎn)生n-1個(gè)分布均勻隨機(jī)數(shù),U1,U2,…,Un-1,令U0=0,Un=1構(gòu)造隨機(jī)變量序列Vi=Ui-Ui-1(1,2,…,n),顯然有V1+V2+…Vn=1.0 且上述隨機(jī)變量滿足Dirichlet分布。
2)試驗(yàn)樣本均值
3)試驗(yàn)樣本方差
4)重復(fù)步驟1)至3),直到上式(4)(5)計(jì)算結(jié)果的平均值達(dá)到穩(wěn)定為止,從而求出均值和方差的估計(jì)。顯然該方法的實(shí)質(zhì)就是針對(duì)小樣本,通過數(shù)字仿真來增大樣本量,從而更好的達(dá)到參數(shù)估計(jì)的目的。
根據(jù)已有的相關(guān)研究經(jīng)驗(yàn)[5]可以知道,Bayesian Bootstrap方法參數(shù)估計(jì)精度的高低嚴(yán)重依賴于樣本X的容量,只有當(dāng)樣本容量n比較大時(shí),樣本均值θμ和樣本方差θS的估計(jì)值才能更好的逼近μ和σ2,這主要是因?yàn)樵摲椒ㄊ窃谄湓行畔⒌幕A(chǔ)上產(chǎn)生一定量的隨機(jī)數(shù)來擴(kuò)大樣本容量,從而以達(dá)到參數(shù)估計(jì)的目的。然而在樣本量特別小的情況下(n≤10),θμ和θS與μ和σ2之間產(chǎn)生的差異就會(huì)比較大。文獻(xiàn)[9]中認(rèn)為樣本容量在10左右就可以用Bayesian Bootstrap方法。下面給出一個(gè)簡(jiǎn)單的例子來進(jìn)行說明,在這種情況下用Bayesian Bootstrap方法來進(jìn)行估計(jì)的結(jié)果可能會(huì)與參數(shù)的真實(shí)值差別過大。
假設(shè)某種產(chǎn)品的性能參數(shù)服從正態(tài)分布N(100,25),從中隨機(jī)抽取兩組樣本,樣本容量n=10。
利用Bayesian Bootstrap方法分別對(duì)樣本一和樣本二作出均值和方差的抽樣分布如圖1所示。
圖1 樣本一和樣本二均值和方差的抽樣分析圖
假設(shè)其仿真次數(shù)為10 000次。由圖可以看出用此種方法仿真出來的均值都集中在μ附近,然而樣本仿真出來的方差則偏離σ2較大,當(dāng)樣本容量過于小時(shí),用Bayesian Bootstrap方法仿真得出結(jié)果的可信度是值得懷疑的,有待進(jìn)一步推敲。鑒于上述問題,應(yīng)盡力尋找一種方法。該方法應(yīng)該盡量達(dá)到擴(kuò)大樣本容量的目的。
針對(duì)上述方法產(chǎn)生的問題,本文提出了對(duì)Bayesian Bootstrap方法[13]的進(jìn)一步改進(jìn)措施,在介紹改進(jìn)方法之前,先介紹一種穩(wěn)健的區(qū)間估計(jì)方法:改進(jìn)的PWM方法[10-12],PWM方法是一種由左義君首次提出的一種有效,穩(wěn)定的區(qū)間估計(jì)法。這種方法的好處在于對(duì)樣本數(shù)據(jù)進(jìn)行加工處理,并合理的利用深度函數(shù)來減少異常點(diǎn)和重尾分布的影響。但是從已有的文獻(xiàn)中可以看出、該方法本身是存在缺陷的。特別是樣本容量較小的情況下,會(huì)出現(xiàn)溢出、按深度截尾得到的區(qū)間會(huì)出現(xiàn)倒置的情況。基于PWM方法本身的優(yōu)點(diǎn)、和其可能存在的缺陷。本文介紹了一種改進(jìn)的PWM方法[10],這種方法的優(yōu)點(diǎn)在于對(duì)原來的深度函數(shù)進(jìn)行了重新定義,并使用深度函數(shù)來抑制異常點(diǎn)的影響,從而使得到的置信區(qū)間更加精確。
1)設(shè)X=(x1,x2,…xn)為任意樣本,令Med(X)作為樣本的中位數(shù)、MAD(X)作為{x-Med(X),(i=1,2,…n)}的中位數(shù)。
2)定義深度函數(shù):
3)定義權(quán)函數(shù):
該權(quán)函數(shù)是負(fù)指數(shù)類型的權(quán)函數(shù),這里的k是正整數(shù),c是權(quán)重的控制系數(shù),m是影響半徑。
4)定義深度加權(quán)平均PWM:ωi=ω(PD(xi,X)),,在這里,可以證明PWM不僅是具有漸進(jìn)正態(tài)性的,而且還有PWM(X)→μ(n→∞ )。
5)利用Bayesian Bootstrap方法對(duì)原始樣本進(jìn)行抽樣,可以得到B個(gè)樣本,對(duì)每一個(gè)樣本都按照上述步驟,可以得到PWM(1)PWM(2)…PWM(B),對(duì)這些值,按照從小到大的順序排序,可以得到PWM(1),PWM(2),…PWM(B),然后可以按照百分位法截尾,可以得到置信水平為1-α的置信區(qū)間是。
假定(X1,X2…Xn)是隨機(jī)來自總體的的n個(gè)樣本,將這n個(gè)數(shù)據(jù)按時(shí)間順序分成K組,每組數(shù)據(jù)的長(zhǎng)度記為h,記為B1=(X1,…Xh),…BK=(XK,…Xn),其中K=n-h+1;經(jīng)過拆分,就是指對(duì)這K組數(shù)據(jù)進(jìn)行了重新抽樣,如果n可以整除h,將這n h個(gè)數(shù)據(jù)組重新拼在一起的樣本容量大小仍然為n。對(duì)樣本的重組擴(kuò)充步驟[5]如下:
1)將B1=(X1,…Xn)中的數(shù)據(jù)按順序從小到大排列,排好的數(shù)據(jù)為:(X(1),X(2)…X(h)),對(duì)順序統(tǒng)計(jì)量X(i)的觀測(cè)值x(i)作如下的鄰域:
這里的p≥2。
2)在鄰域U1=[x(1)-(x(2)-x(1))/p,x(1)+(x(2)-x(1))/p]中取得x(0)在鄰域Uh=[x(h)-(x(h)-x(h-1))/p,x(h)+(x(h)-x(h-1))/p]中取得x(h+1);通過這種方式,把第一組的樣本量擴(kuò)充為h+2個(gè)。
3)重復(fù)上述步驟1)~2),可以將這K組數(shù)據(jù)進(jìn)行樣本容量的擴(kuò)充,那么擴(kuò)充后的樣本容量增加為n+2K個(gè)。
4)把這K組擴(kuò)充后的樣本再合并,作為再生樣本進(jìn)行抽樣,并且利用Bayesian Bootstrap方法對(duì)擴(kuò)充合并后的樣本進(jìn)行再抽樣得到B1個(gè)樣本,對(duì)于這每一個(gè)樣本都按照3.1中的步驟進(jìn)行,可以得到改進(jìn)后 置 信 水 平 為 1-α的 置 信 區(qū) 間 是。
本文分別選取正態(tài)總體N(0,1),泊松分布總體P(4)以及指數(shù)分布總體Exp(1/4),然后運(yùn)用MATLAB軟件進(jìn)行模擬抽樣,分別取出服從這3種分布的隨機(jī)樣本,令樣本容量分別為7,10,20,并且取重抽樣的次數(shù)M為500次。運(yùn)用經(jīng)典方法、百分位法、及改進(jìn)的Bayesian Bootstrap進(jìn)行區(qū)間估計(jì),程序運(yùn)行得到的結(jié)果如表1所示。通過表1可以看出:在分布是同一總體的分布下,改進(jìn)的Bayesian Bootstrap方法較傳統(tǒng)經(jīng)典方法和百分位法得到的結(jié)果更好,精度更高,而且所得到的置信區(qū)間的平均長(zhǎng)度也更短。
表1 3種方法下3種分布置信水平為95%的隨機(jī)模擬500次置信區(qū)間的平均長(zhǎng)度
為了驗(yàn)證上述方法的有效性,我們以航天飛機(jī)的某種電子元件為例來進(jìn)行驗(yàn)證分析。假設(shè)這種電子元件的壽命服從正態(tài)分布,從一批產(chǎn)品中隨機(jī)抽取10個(gè),測(cè)得其壽命為:1 216.36,1 208.73,1 214.38,1206.27,1116.72,1178.37,1259.46,1142.68,1259.55,1 259.46。借助計(jì)算機(jī)仿真10 000次,然后我們分別用傳統(tǒng)的小樣本估計(jì)方法、Bayesian Bootstrap方法、改進(jìn)Bayesian Bootstrap方法來對(duì)參數(shù)μ作點(diǎn)估計(jì)和區(qū)間估計(jì)。
如果我們采用傳統(tǒng)的方法來計(jì)算,可以得到μ的點(diǎn)估計(jì)μˉ=1 200.6,則μ的置信度為0.95的置信區(qū)間為[1 173.88,1 226.26]因?yàn)閚=10樣本容量非常小,如果直接采用傳統(tǒng)的方法來對(duì)參數(shù)進(jìn)行估計(jì),則所得到結(jié)果可信度將是大打折扣的,如果考慮運(yùn)用改進(jìn)Bayesian Bootstrap方法。構(gòu)造并產(chǎn)生N=10 000組的自助統(tǒng)計(jì)量,運(yùn)用經(jīng)典的統(tǒng)計(jì)方法及Bayesian Bootstrap方法和改進(jìn)的Bayesian Bootstrap方法方法得到參數(shù)μ的點(diǎn)估計(jì)見表2。
表2 3種方法的評(píng)估結(jié)果比較表
由表2的數(shù)據(jù)顯示,改進(jìn)的Bayesian Bootstrap方法對(duì)參數(shù)μ的點(diǎn)估計(jì)與參數(shù)的真實(shí)值是最接近的,精度也有所提高。而且在置信度相同的情況下對(duì)參數(shù)μ的區(qū)間估計(jì)精度明顯要比經(jīng)典的統(tǒng)計(jì)方法、和Bayesian Bootstrap方法要好。
在樣本容量為小樣本數(shù)據(jù)的情況下,本文提出一種改進(jìn)的Bayesian Bootstrap方法,通過相關(guān)的數(shù)據(jù)模擬和實(shí)例驗(yàn)證分析,分別比較了經(jīng)典的統(tǒng)計(jì)方法、百分位方法和改進(jìn)的Bayesian Bootstrap方法、結(jié)果顯示改進(jìn)的Bayesian Bootstrap方法較之以前的方法具有更高的精度,在同等置信水平下,得到置信區(qū)間的長(zhǎng)度較短,真值覆蓋率較高。因此該方法能夠很好的應(yīng)用于武器精度,和產(chǎn)品壽命等小樣本估計(jì)問題的相關(guān)領(lǐng)域中。
[1]王囡.Bayes可靠性評(píng)價(jià)中驗(yàn)前信息的可靠度研究[D].長(zhǎng)沙:國防科技技術(shù)大學(xué),2012.
[2]張雷.基于Bayes理論的重型數(shù)控機(jī)床可靠性評(píng)定方法研究[D].燕山:燕山大學(xué),2013.
[3]江賽.基于Bayes Bootstrap的特種設(shè)備可靠性模型參數(shù)確定方法[J].電子工程設(shè)計(jì),2012,20(4):67-72.
[4]萬讓鑫,吳西良.基于Bayesian Bootstrap小樣本產(chǎn)品性能可靠性評(píng)估[J].信息技術(shù),2012(5):174-176.
[5]孫慧玲,胡偉文.Bayes Bootstrap方法在小樣本參數(shù)估計(jì)中的應(yīng)用[J].計(jì)算機(jī)與數(shù)字工程,2016(5):1-4.
[6]曹軍海,杜海東,申瑩.基于改進(jìn)Bayes-Bootstrap方法的系統(tǒng)可靠性仿真評(píng)估[J].裝甲兵工程學(xué)院學(xué)報(bào),2016,30(1):95-98.
[7]孫慧玲,胡偉文.小樣本條件下參數(shù)估計(jì)方法比較研究[J].統(tǒng)計(jì)與決策,2014(12):1-5.
[8]劉江,姚安東.新型彈藥可靠性評(píng)估方法[J].兵工自動(dòng)化,2014(5):1-3.
[9]黃金龍,汪立新.基于改進(jìn)Bayes Bootstrap陀螺儀壽命預(yù)測(cè)研究[J].壓電與聲光,2014(6):384-387.
[10]相榮霞.有效的再抽樣區(qū)間估計(jì)及在新壩安全監(jiān)測(cè)中的應(yīng)用[D].南京:河海大學(xué),2013.
[11]呂鵬,袁永生,等.小樣本下改進(jìn)的PTM方法及其在導(dǎo)彈精度評(píng)定中的應(yīng)用[J].重慶理工大學(xué)學(xué)報(bào):自然科學(xué)版,2014(4):139-142.
[12]相榮霞,袁永生,戴啟璠,等.改進(jìn)的PWM方法及小樣本下的穩(wěn)健區(qū)間的估計(jì)[J].曲阜師范大學(xué)學(xué)報(bào),2012 38(4):25-27.
[13]康慧,戴啟璠,袁永生,兩種改進(jìn)的PWM方法及其在徑流區(qū)間估計(jì)中的應(yīng)用[J].云南民族大學(xué)學(xué)報(bào),2015,24(4):354-358.
[14]盛驟,謝式千,潘承毅.概率論與數(shù)理統(tǒng)計(jì)[M].4版.北京:高等教育出版社,2008.
[15]黃瑋,馮蘊(yùn)雯,呂震宙.基于Bootstrap方法的小子樣試驗(yàn)評(píng)估方法研究[J].機(jī)械科學(xué)與技術(shù),2006,25(1):31-35.
[16]LIU Xiao-hui,ZUO Yi-jun,Computing projection depth and its associated estimators[M].New York:Springer Science,2012.