龐亮
(中國人民解放軍92493 部隊,遼寧葫蘆島 125000)
裝備試驗數(shù)據(jù)是各類裝備試驗活動過程中使用和產(chǎn)生的所有數(shù)據(jù)的總稱,是裝備數(shù)據(jù)的重要組成部分。在大數(shù)據(jù)時代,高質(zhì)量的裝備試驗數(shù)據(jù)是裝備可靠運行、試驗數(shù)據(jù)高效處理,并有效挖掘試驗數(shù)據(jù)潛在價值的基礎,是減少人力、物力和提升效率的有效途徑。對試驗數(shù)據(jù)質(zhì)量評價,有助于了解并掌握試驗數(shù)據(jù)的不足,為后續(xù)試驗數(shù)據(jù)價值的深度挖掘提供支撐[1-5]。
神經(jīng)網(wǎng)絡算法各要素之間在結(jié)構上交互連接、相互影響,具有較強的自我學習能力。而數(shù)據(jù)質(zhì)量的各評估指標之間有些規(guī)則往往是相互交叉和關聯(lián)的,應用粗糙集對評估指標進行篩選,在保證能力不變的前提下,可有效去除不相關的冗余指標。因此,文中將粗糙集和BP 神經(jīng)網(wǎng)絡相結(jié)合構建評估模型,對裝備試驗數(shù)據(jù)質(zhì)量進行定量評估[6-10]。
粗糙集理論是由波蘭科學家Z.Pawlak 提出的,是一種主要用于處理不精確或不相容問題的數(shù)學工具,通過對各種屬性進行約簡,從而發(fā)掘潛在的信息,在數(shù)據(jù)挖掘等相關領域得到廣泛應用??梢杂靡粋€四元組來表示該系統(tǒng),即:
其中,L={x1,x2,…,xm}為有限的非空集合;A={a1,a2,…,an}為有限非空的屬性集合;R為屬性a的值域;f為系統(tǒng)函數(shù),f:L×A→R,f(x,a)∈R[11-13]。
BP 神經(jīng)網(wǎng)絡是基于誤差反向傳播學習的多層前饋神經(jīng)網(wǎng)絡,常用的為三層BP神經(jīng)網(wǎng)絡,其原理如下:
網(wǎng)絡的三層結(jié)構主要包括輸入層X、中間層Y、輸出層Z。假定理想的輸出層為O,中間層的第j個神經(jīng)元yj,以及輸出層的第k個神經(jīng)元zk分別滿足:
其中,wij、aj表示輸入層至中間層的權值和閾值;wjk、bk表示中間層至輸出層的權值和閾值;f1、f2為激活函數(shù)。BP 網(wǎng)絡模型是通過對原始激活函數(shù)進行迭代訓練,動態(tài)調(diào)整權值和閾值,從而達到實際輸出與理想輸出之間的誤差最小化[14-16]。
神經(jīng)網(wǎng)絡具有準確的逼近收斂能力和較高的精度,粗糙集算法可有效簡化網(wǎng)絡模型的訓練樣本,因此,將兩者相結(jié)合,就可以得到一種理解方便、收斂速度快的評估模型。具體的試驗數(shù)據(jù)質(zhì)量評估流程如圖1 所示。
圖1 試驗數(shù)據(jù)質(zhì)量評估流程
由于數(shù)據(jù)的應用范圍廣泛,應用場景不一,導致對數(shù)據(jù)的要求多樣化。因此,目前還沒有一套適合所有數(shù)據(jù)應用領域的通用數(shù)據(jù)質(zhì)量評估指標體系。鑒于裝備試驗數(shù)據(jù)具有屬性多元、來源多維、分布多地、形式多樣等特點,根據(jù)裝備試驗數(shù)據(jù)工程數(shù)據(jù)的全生命周期特性,分主觀和客觀兩大類別,構建涵蓋十一項指標的裝備試驗數(shù)據(jù)質(zhì)量評估指標體系,具體如圖2 所示。
圖2 試驗數(shù)據(jù)質(zhì)量評估指標體系
可信性:指對數(shù)據(jù)的置信和可靠程度。
可理解性:數(shù)據(jù)準確表達而無歧義的程度。
規(guī)范性:評估是否有數(shù)據(jù)收集、錄入等統(tǒng)一標準規(guī)范。
完整性:對數(shù)據(jù)的結(jié)構、內(nèi)容和其他基本特征進行綜合測量。
及時性:反映數(shù)據(jù)在預期某一時段內(nèi)對特定應用的及時程度。
易用性:數(shù)據(jù)能夠被訪問和使用的程度,以及便于被更新、維護和管理的程度。
重復性:對存在于裝備試驗相關的各系統(tǒng)內(nèi)部或者子系統(tǒng)間的特定字段、記錄等進行的重復測量。
準確性:數(shù)據(jù)與實際描述對象的匹配程度。
效用性:數(shù)據(jù)是否能產(chǎn)生預期效果。
全面性:數(shù)據(jù)占應收集數(shù)據(jù)總體的比例。
一致性:在不同地方存儲和使用的同一數(shù)據(jù)的一致程度。
2.3.1 試驗數(shù)據(jù)質(zhì)量評估元
裝備試驗數(shù)據(jù)的質(zhì)量評估從主觀和客觀兩個屬性維度出發(fā),構建評估網(wǎng)絡,用X表示主觀屬性,Y表示客觀屬性,K、M表示屬性的權重,權重比例分別用α和β來表示,μ為相關系數(shù),δ是外部影響因子。對于其中一個評估單元來說,X和Y代表輸入,Z代表輸出,其表達式為:
其中,屬性的權重大小就表示對應的評估指標對裝備試驗數(shù)據(jù)質(zhì)量評估結(jié)果的影響程度。
2.3.2 試驗數(shù)據(jù)質(zhì)量評估網(wǎng)絡
精確的評估裝備試驗數(shù)據(jù)質(zhì)量需要將多個評估元交互連接,構成多層復雜的網(wǎng)絡評估模型。經(jīng)過權衡算法的復雜度和評估效果,神經(jīng)網(wǎng)絡采用三層結(jié)構即可滿足任意精度的逼近。
圖3 即為三層裝備試驗數(shù)據(jù)質(zhì)量評估網(wǎng)絡,其中,輸入X和Y,輸出為Z,輸出單一分量zi可表示為:
圖3 裝備試驗數(shù)據(jù)質(zhì)量評估網(wǎng)絡
裝備試驗數(shù)據(jù)質(zhì)量評估模型可以用六元組的形式表示:
其中,D代表需要進行評估的數(shù)據(jù)集;I代表對D進行評估時選取的指標,針對不同的測試數(shù)據(jù)集,從評估指標體系中選取不同的指標;R代表與選取指標相對應的評估規(guī)則;E代表對每一項規(guī)則R的期望值(取值為0~100);S表示每一項規(guī)則R的最終得分值(取值為0~100);J表示指標得分S與期望值E進行對比,并將評估結(jié)果劃分為合格與不合格兩種,達到期望值即為1,否則為0,最終形成信息集。裝備試驗數(shù)據(jù)質(zhì)量評估模型如表1 所示。
表1 裝備試驗數(shù)據(jù)質(zhì)量評估模型
在裝備試驗過程中會產(chǎn)生和使用大量的試驗數(shù)據(jù),不同的應用場景對評估指標要求不同,因此各項指標得分也會有一定差別,邀請多位該領域權威專家和數(shù)據(jù)使用者,采用專家打分法對每組數(shù)據(jù)集的各項指標進行綜合打分,結(jié)果如表2 所示。
表2 8組數(shù)據(jù)集的評估指標得分表
其中F表示綜合得分。將上述評分結(jié)果與相應指標的期望值進行對比,滿足期望值即為1,否則即為0,最終可以得到一張如表3 所示的裝備試驗數(shù)據(jù)質(zhì)量評估信息表。
從表3 中可以看出,指標得分I1和I5相同,I2和I6相同,I7和I9相同,因此,三組中每一組只需保留一個,即保留指標I1、I2和I7,剔除指標I5、I6和I9,得到如表4 所示的評估約簡信息表。
表3 8組數(shù)據(jù)集的評估信息表
表4 8組數(shù)據(jù)集的評估簡約信息表
從表4 可得出,D={D1,D2,D3,D4,D5,D6,D7,D8},I0={I1,I2,I3,I4,I7,I8},則等價關系I1,I2,I3,I4,I7,I8有以下等價類:
通過不可分辨關系計算,則關系ind(I0)可以得到以下等價類:
根據(jù)上述結(jié)果可知,指標I1、I3和I8與I0是信息等價的,可簡化掉,因此得到了約簡后的指標集{I2,I4,I7}。通過粗糙集算法將初始的9 項指標約簡成3 項核心的評價指標。
當條件屬性比較多時,采用粗糙集算法得到的決策規(guī)則較為復雜,且評估結(jié)果與指標之間的關系通常并不直觀,因此,可采用BP 神經(jīng)網(wǎng)絡對裝備試驗數(shù)據(jù)的質(zhì)量進行預測評估。
采用通過約簡得到的指標集合和相應的原始數(shù)據(jù)表作為最新的學習樣本集,該學習樣本集中僅保留了影響質(zhì)量評估結(jié)果的幾項核心指標。將原始數(shù)據(jù)集的數(shù)據(jù)質(zhì)量評估得分表作為訓練樣本,對BP 神經(jīng)網(wǎng)絡模型進行訓練。經(jīng)過粗糙集的約簡,可以得到模型輸入數(shù)量N為3,輸出數(shù)量M為1,中間層神經(jīng)元的數(shù)目經(jīng)過對比2、3、5、7、9 后選取網(wǎng)絡泛化能力最佳的5 個。裝備試驗數(shù)據(jù)質(zhì)量評估網(wǎng)絡模型如圖4 所示。
圖4 裝備試驗數(shù)據(jù)質(zhì)量評估網(wǎng)絡模型
按照BP 神經(jīng)網(wǎng)絡的一般設計原則,中間層神經(jīng)元的傳遞函數(shù)采用S 型正切函數(shù),輸出層神經(jīng)元的傳遞函數(shù)采用S 型對數(shù)函數(shù),并對其進行歸一化與反歸一化。簡化后的指標集{I2,I4,I7} 分別作為評估網(wǎng)絡的輸入,裝備試驗數(shù)據(jù)質(zhì)量評估值F作為評估網(wǎng)絡的輸出。在模型訓練過程中,在正向傳播時,訓練樣本數(shù)據(jù)從網(wǎng)絡模型的輸入端{I2,I4,I7} 輸入,經(jīng)過包含5 個神經(jīng)元的中間層,得到輸出值F,將F與期望值進行比較,當誤差較大時,進行反向傳播,即將比較后得到的誤差從輸出層經(jīng)中間層,反向傳導到輸入層,然后不斷調(diào)整各層的權重值,通過多次迭代計算,最終使輸出誤差達到理想目標0.01 以內(nèi),停止訓練,并得到最終訓練好的各層權值與完整的網(wǎng)絡模型。將模型用于該數(shù)據(jù)集的質(zhì)量評估預測,就可以得出該數(shù)據(jù)集的預測綜合評估質(zhì)量F,并與實際評估值進行對比,如圖5 所示。
圖5 預測評估結(jié)果與實際評估結(jié)果對比圖
由圖5 可知,通過粗糙集-神經(jīng)網(wǎng)絡模型預測的數(shù)據(jù)質(zhì)量結(jié)果與實際值曲線基本吻合,誤差很小,因此,可以采用此模型對該類型裝備試驗數(shù)據(jù)資源開展數(shù)據(jù)質(zhì)量評估。針對不同類型的裝備試驗數(shù)據(jù)集,當添加了新的數(shù)據(jù)質(zhì)量評估指標時,可以采用該方法對模型重新進行修正和訓練。
裝備試驗數(shù)據(jù)質(zhì)量評估是對裝備試驗產(chǎn)生和使用的數(shù)據(jù)進行質(zhì)量定量評估,有效提升數(shù)據(jù)質(zhì)量可提高裝備試驗效率,提升裝備試驗數(shù)據(jù)潛在價值,具有重要的理論意義。文中在BP 神經(jīng)網(wǎng)絡模型前端添加粗糙集算法,通過屬性約簡減少了BP 神經(jīng)網(wǎng)絡評估模型中的評估指標和樣本數(shù)量,有效提高了評估效率,增強了裝備試驗數(shù)據(jù)質(zhì)量評估的科學性和客觀性,且預測評估誤差較小?;诖植诩?神經(jīng)網(wǎng)絡模型的裝備試驗數(shù)據(jù)質(zhì)量評估模型,有效結(jié)合了粗糙集和BP 神經(jīng)網(wǎng)絡兩種算法的優(yōu)勢,是裝備試驗數(shù)據(jù)質(zhì)量評估的新嘗試。