柯肇捷, 周文雅
(1.大連理工大學(xué) 石油與化學(xué)工程學(xué)院, 遼寧 盤錦 124221; 2.大連理工大學(xué) 航空航天學(xué)院, 遼寧 大連 116024)
武器裝備試驗(yàn)鑒定是武器裝備全壽命管理中的一個(gè)重要環(huán)節(jié),隨著武器裝備的網(wǎng)絡(luò)化、體系化、智能化發(fā)展,試驗(yàn)?zāi)康膹?fù)雜多樣,試驗(yàn)成本越來越高,致使試驗(yàn)鑒定難度越來越大,通常只能進(jìn)行少量的外場(chǎng)對(duì)抗性試驗(yàn)[1],小樣本試驗(yàn)數(shù)據(jù)的參數(shù)估計(jì)、基于小樣本試驗(yàn)數(shù)據(jù)的評(píng)估等技術(shù)已成為裝備試驗(yàn)鑒定領(lǐng)域急需解決的關(guān)鍵難題。
目前的小樣本數(shù)據(jù)處理主要采取兩個(gè)思路:
1) 概率統(tǒng)計(jì)法,包括經(jīng)典的統(tǒng)計(jì)方法和Bayes方法。經(jīng)典的統(tǒng)計(jì)方法對(duì)樣本分布模型進(jìn)行假設(shè),基于數(shù)學(xué)期望對(duì)原始試驗(yàn)數(shù)據(jù)進(jìn)行點(diǎn)估計(jì),但是由于試驗(yàn)過程的動(dòng)態(tài)性和不確定性,原始試驗(yàn)數(shù)據(jù)在本質(zhì)上未必屬于同一總體,難以滿足關(guān)于獨(dú)立、同分布的前提,使得統(tǒng)計(jì)處理出現(xiàn)較大的風(fēng)險(xiǎn)。Bayes方法在小子樣處理領(lǐng)域獲得了較為廣泛的應(yīng)用[1-4],如:文獻(xiàn)[3]利用Bayes理論和驗(yàn)前信息,提出了利用序貫驗(yàn)后加權(quán)檢驗(yàn)方法以及截尾序貫驗(yàn)后加權(quán)檢驗(yàn)方法對(duì)維修性指標(biāo)進(jìn)行驗(yàn)證評(píng)定;文獻(xiàn)[4]基于Bayes可靠性理論建立某挖掘機(jī)小樣本數(shù)據(jù)的可靠性模型。Bayes方法能在保證決策風(fēng)險(xiǎn)盡可能小的情況下綜合利用多種信息類型,但是需要利用驗(yàn)前信息,而如何獲得驗(yàn)前信息并確定其概率分布形式是應(yīng)用的難題。
2)基于不確定性理論的非統(tǒng)計(jì)法包括兩種模式:一種是直接利用不確定理論相關(guān)方法,如文獻(xiàn)[5]結(jié)合泛函的范數(shù)理論和灰色系統(tǒng)[6]的灰色關(guān)聯(lián)原理,提出了灰色距離信息方法來進(jìn)行電子裝備試驗(yàn)數(shù)據(jù)的參數(shù)估計(jì)處理,這種方法不能給出參數(shù)估計(jì)的置信度;另一種是利用不確定理論相關(guān)方法產(chǎn)生虛擬總體樣本[7],通過數(shù)據(jù)融合進(jìn)行參數(shù)估計(jì)。如:文獻(xiàn)[8]提出一種乏信息空間機(jī)械臂隨機(jī)振動(dòng)數(shù)據(jù)估計(jì)的灰自助方法[9-10],以解決經(jīng)典的統(tǒng)計(jì)學(xué)方法無法解決的乏信息數(shù)據(jù)評(píng)估問題,該方法不涉及原始數(shù)據(jù)的概率分布問題;文獻(xiàn)[11]提出一種適用于小樣本巖土參數(shù)區(qū)間估計(jì)的改進(jìn)灰自助方法。
本文基于灰自助和未確知數(shù)學(xué)方法[12-13],提出小樣本數(shù)據(jù)處理的一種新途徑,介紹處理流程和實(shí)現(xiàn)模型,并進(jìn)行算例驗(yàn)證。
在武器裝備試驗(yàn)中,假設(shè)針對(duì)某一測(cè)試指標(biāo)得到的測(cè)量數(shù)據(jù)集合為
X={x(t);t=1,2,…,N},
(1)
式中:x(t)為第t個(gè)測(cè)量數(shù)據(jù);N為測(cè)量數(shù)據(jù)總數(shù)。N個(gè)小樣本數(shù)據(jù)所攜帶的信息不足以確定測(cè)試指標(biāo)的真實(shí)狀態(tài)和數(shù)量關(guān)系,決策者只能部分地認(rèn)識(shí)測(cè)試指標(biāo)的真實(shí)狀態(tài)。按照灰色系統(tǒng)理論的觀點(diǎn),這種認(rèn)知呈現(xiàn)出典型的“部分已知、部分未知”的灰色狀態(tài)。
自助抽樣原理的基本思路是從測(cè)量數(shù)據(jù)集合X中等概率可放回地隨機(jī)抽取1個(gè)數(shù)據(jù),記為x1(1),該抽取過程重復(fù)m次即可得到第1個(gè)自助樣本,記為
X1={x1(1),x1(2),…,x1(m)}.
(2)
將上述獲得自助樣本的整體抽取過程連續(xù)重復(fù)A次,會(huì)得到A個(gè)自助再抽樣樣本,再抽樣樣本集合可記為
Y={X1,X2,…,Xi,…,XA},
(3)
式中:Xi={xi(1),xi(2),…,xi(m)}。
針對(duì)自助樣本Xi建立灰色模型GM(1,1),假設(shè)其一次累加生成序列為
(4)
(5)
(6)
(7)
式中:k=1,2,…,m.
在(7)式中令k=m-1,m,通過一次累減生成算法即可得到自助樣本Xi中第m+1個(gè)預(yù)測(cè)值,記為
(8)
于是得到新的測(cè)試指標(biāo)測(cè)量數(shù)據(jù)集合為
X={x(1),…,x(N),x(N+1),…,x(N+A)}.
(9)
由此可以看出,使用灰自助方法可以對(duì)原始乏信息數(shù)據(jù)序列進(jìn)行充分挖掘,擬合生成較多的系統(tǒng)信息,且生成過程不依賴于原始數(shù)據(jù)序列的概率分布信息。需要指出的是:并非所有小樣本試驗(yàn)數(shù)據(jù)均適用灰自助再抽樣方法,需要根據(jù)發(fā)展系數(shù)等參數(shù)的取值范圍確定模型GM(1,1)是否適用;另外,模型GM(1,1)具有明確均值GM(1,1)模型(EGM)、原始差分GM(1,1)模型(ODGM)、均值差分GM(1,1)模型(EDGM)等多種基本形式,實(shí)際建模過程中需要根據(jù)數(shù)據(jù)形態(tài)選擇合適的GM(1,1)模型形式[14]。
第1節(jié)挖掘生成的測(cè)量數(shù)據(jù)集合X中N+A個(gè)數(shù)據(jù)不能使決策者完全把握測(cè)試指標(biāo)的真實(shí)狀態(tài),對(duì)測(cè)試指標(biāo)真實(shí)狀態(tài)的認(rèn)知在性質(zhì)上還是“部分已知、部分未知”,但是相比于N個(gè)數(shù)據(jù)所表征灰色信息的“部分已知、部分未知”,它們又有重要的區(qū)別,前者“部分已知、部分未知”中已知部分要多于后者。對(duì)N+A個(gè)數(shù)據(jù)進(jìn)行參數(shù)估計(jì),如果采用常規(guī)的統(tǒng)計(jì)方法,則首先必須假設(shè)數(shù)據(jù)的分布特征,但是這個(gè)假設(shè)的合理性和可行性難以驗(yàn)證。而表征測(cè)試指標(biāo)真實(shí)狀態(tài)的N+A個(gè)數(shù)據(jù)在本質(zhì)上屬于未確知信息的范疇,是純主觀上、認(rèn)識(shí)上的不確定性信息,未確知信息通常用未確知有理數(shù)進(jìn)行描述。因此本文直接引入未確知有理數(shù)方法,避免對(duì)生成數(shù)據(jù)進(jìn)行分布規(guī)律的假設(shè)。
針對(duì)(9)式所示挖掘生成的測(cè)量數(shù)據(jù)集合X,可以利用N+A個(gè)數(shù)據(jù)來構(gòu)造一個(gè)k(k a=min{x(1),…,x(N),x(N+1),…,x(N+A)}, (10) b=max{x(1),…,x(N),x(N+1),…,x(N+A)}, (11) (12) 很顯然,(12)式中a≤xi≤b,通常對(duì)區(qū)間[a,b]進(jìn)行2k個(gè)等值劃分,使得該區(qū)間數(shù)據(jù)值xi的領(lǐng)域控制半徑均相等,則可得到試驗(yàn)數(shù)據(jù)取值xi的表達(dá)式為 (13) 可信度αi則用試驗(yàn)數(shù)據(jù)值xi控制半徑內(nèi)數(shù)據(jù)出現(xiàn)的頻率進(jìn)行表示,即有 (14) 利用未確知有理數(shù)對(duì)挖掘生成后的測(cè)量數(shù)據(jù)集合進(jìn)行表達(dá),較好地反映了測(cè)試指標(biāo)的數(shù)據(jù)值分布情況,可信度αi只是表明了取值xi的不確定性程度。信息論中熵被定義為信息的均值,不確定性越大,熵也越大。針對(duì)測(cè)量數(shù)據(jù)集合,將未確知有理數(shù)中k個(gè)取值所提供的平均信息量定義為可信度熵,則可信度熵反映了對(duì)該測(cè)試指標(biāo)認(rèn)識(shí)的不確定性程度。區(qū)間[a,b]上取值xi的頻率越均勻(即取值越分散),對(duì)測(cè)試指標(biāo)的刻畫越復(fù)雜,不確定性程度就越大,未確知有理數(shù)的可信度熵也就越大。為了從不確定的事情中獲取最大的信息量,所構(gòu)造未確知有理數(shù)的可信度熵越大就越能刻畫測(cè)試指標(biāo)。因此,當(dāng)可信度熵取最大值時(shí),可以估計(jì)未確知有理數(shù)的最佳階數(shù)。 對(duì)于(12)式構(gòu)造的k階未確知有理數(shù),其可信度熵定義為 (15) 基于2.1節(jié)的構(gòu)造與2.2節(jié)的優(yōu)化過程,將描述測(cè)量數(shù)據(jù)集合X的k*階未確知有理數(shù)A記為[[a,b],φ(x)],其中 (16) 通過k*階未確知有理數(shù)A的構(gòu)造,實(shí)際上有了測(cè)試指標(biāo)樣本總體的離散化值x1,…,xk*,通過小樣本的灰自助生成已求得其中每一個(gè)xi的出現(xiàn)頻率,但仍然不能確定樣本總體的分布類型?;诰毓烙?jì)法,稱下列1階未確知有理數(shù) (17) 為未確知有理數(shù)A的數(shù)學(xué)期望,也稱E(A)為未確知期望或均值。 用方差D(A)來描述未確知有理數(shù)A到E(A)的離散程度,即 D(A)=E(A-E(A))2. (18) (19) (20) 則定義上述點(diǎn)估計(jì)的置信度為 (21) 除了用上述點(diǎn)估計(jì)給出測(cè)試指標(biāo)的近似值外,還可以用區(qū)間估計(jì)法給出其取值范圍,即將估計(jì)誤差用醒目的形式標(biāo)示出來。但是區(qū)間估計(jì)需要假設(shè)樣本總體的分布特征,對(duì)于武器裝備的測(cè)試指標(biāo)數(shù)據(jù),一般假設(shè)其服從正態(tài)分布。需要指出的是,區(qū)間估計(jì)中的置信水平反映了估計(jì)的可靠性(與未確知有理數(shù)中的可信度有本質(zhì)的區(qū)別),表達(dá)了待估參數(shù)落入估計(jì)區(qū)間的概率大小,概率越大,可靠性越高。 給定置信水平1-β,從表1所示的常用標(biāo)準(zhǔn)正態(tài)分布上側(cè)β分位點(diǎn)表中查詢u(β/2),基于(22)式計(jì)算給定置信水平下的置信區(qū)間半長(zhǎng)度ε: (22) 表1 常用標(biāo)準(zhǔn)正態(tài)分布上側(cè)β分位點(diǎn)表Tab.1 Upper β quantilesTable of standard normal distribution 針對(duì)挖掘生成的N+A個(gè)數(shù)據(jù),假設(shè)有t個(gè)數(shù)據(jù)位于上述置信區(qū)間之外,則定義置信水平1-β下區(qū)間估計(jì)的置信度為 (23) 基于灰自助和未確知有理數(shù)的小樣本數(shù)據(jù)估計(jì)方法,就是將灰色自助方法和未確知有理數(shù)處理方法有機(jī)地結(jié)合起來,對(duì)小樣本數(shù)據(jù)進(jìn)行點(diǎn)估計(jì)和區(qū)間估計(jì),其原理如圖1所示。 圖1 基于灰自助和未確知有理數(shù)的數(shù)據(jù)估計(jì)原理Fig.1 Data estimation principle based on grey bootstrap method and unascertained rational number 為了驗(yàn)證算法的有效性,對(duì)某型裝備試驗(yàn)中的干擾功率測(cè)試數(shù)據(jù)X={93.5,92.6,93.7,92.5,93.1,93.5}進(jìn)行參數(shù)估計(jì)。 利用灰自助方法獲得新的測(cè)試指標(biāo)測(cè)量數(shù)據(jù)集合為{93.5, 92.6, 93.7, 92.5, 93.1, 93.5, 93.1, 92.7, 93.2, 93.6, 92.8, 94.0, 93.0, 92.5, 93.4, 93.0, 92.7, 92.2, 92.9, 92.1, 93.1, 93.4, 93.0, 92.5, 93.4, 92.8, 92.1, 92.9, 92.6, 94.0}、總共30個(gè)數(shù)據(jù),其中最大值為94.0,最小值為92.1. 分別構(gòu)造k階未確知有理數(shù),其對(duì)應(yīng)的可信度熵Sk如表2所示。 表2 不同階數(shù)未確知有理數(shù)的可信度熵Tab.2 Credibility entropies of unascertained rational numbers of different orders 根據(jù)表2中計(jì)算結(jié)果和未確知有理數(shù)階數(shù)優(yōu)化原理,本算例構(gòu)造3階未確知有理數(shù)[[92.1,94.0],φ(x)],其中 假設(shè)置信水平為0.99,則β=0.01,計(jì)算給定置信水平下的置信區(qū)間半長(zhǎng)度ε=0.93,則得到置信區(qū)間為[92.07,93.93],這時(shí)生成數(shù)據(jù)集合有2個(gè)點(diǎn)位于上述區(qū)間之外,覆蓋全部原始測(cè)試數(shù)據(jù),區(qū)間估計(jì)的置信度為pi=93.3%. 本文提出了基于灰自助和未確知有理數(shù)的小樣本數(shù)據(jù)估計(jì)方法,給出了其點(diǎn)估計(jì)、區(qū)間估計(jì)以及估計(jì)置信度模型,并進(jìn)行了算例驗(yàn)證。得出以下結(jié)論: 1) 同一置信水平下,相比于灰自助方法,基于本文方法的估計(jì)區(qū)間能更多地覆蓋生成數(shù)據(jù)集合和原始測(cè)試數(shù)據(jù)。例如置信水平0.99時(shí),本文方法覆蓋生成數(shù)據(jù)集合28個(gè)點(diǎn)和全部原始測(cè)試數(shù)據(jù),灰自助方法僅覆蓋生成數(shù)據(jù)集合11個(gè)點(diǎn)和1個(gè)原始測(cè)試數(shù)據(jù)。 2) 相比于Bootstrap方法,本文方法有效地?cái)U(kuò)展了原始觀測(cè)數(shù)據(jù)。 3) 該方法不假設(shè)原始數(shù)據(jù)的概率分布特征,能有效地解決裝備測(cè)試數(shù)據(jù)的參數(shù)估計(jì)問題。 4) 針對(duì)本方法的推廣應(yīng)用,下一步可對(duì)灰自助抽樣生成數(shù)據(jù)的精度問題、生成數(shù)據(jù)的樣本量?jī)?yōu)化問題等進(jìn)行深入研究。2.2 未確知有理數(shù)階數(shù)的優(yōu)化
3 基于未確知有理數(shù)的參數(shù)估計(jì)
3.1 基于未確知有理數(shù)的點(diǎn)估計(jì)
3.2 基于未確知有理數(shù)的區(qū)間估計(jì)
4 小樣本試驗(yàn)數(shù)據(jù)估計(jì)算例
5 結(jié)論