張磊,李世民,康淑瑰,王鐵寧,郭猛超
(1.山西大同大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,山西 大同 037009;2.63963部隊(duì),北京 100072;3.陸軍裝甲兵學(xué)院,北京 100072;4.陸裝駐西安地區(qū)軍事代表局,陜西 西安 710032)
通過算法實(shí)現(xiàn)裝備保障需求的有效預(yù)測(cè),是未來智能化戰(zhàn)爭(zhēng)中裝備保障的重要環(huán)節(jié)。隨著我軍各類高新武器裝備使用頻率和強(qiáng)度的提升,造成裝備故障損毀的隨機(jī)因素增多,且樣本數(shù)據(jù)量少,規(guī)律難以把握。因此,如何在少量歷史樣本信息的條件下合理有效地預(yù)測(cè)裝備維修器材需求,成為近年來的研究熱點(diǎn)之一。
目前,我軍裝甲裝備主要采用結(jié)合現(xiàn)有庫存標(biāo)準(zhǔn)數(shù)量進(jìn)行定額計(jì)算的方法確定器材需求數(shù)量,不夠精確合理。因此基于小樣本裝備維修器材需求預(yù)測(cè)問題主要的研究方向集中于基于可靠性仿真的預(yù)測(cè)方法以及基于數(shù)據(jù)驅(qū)動(dòng)模型的預(yù)測(cè)方法兩方面?;诳煽啃苑抡娴姆椒ㄍ枰僭O(shè)維修器材的使用壽命服從某種具體分布,在少量樣本條件下運(yùn)用蒙特卡洛法生成模擬隨機(jī)數(shù)據(jù)進(jìn)而確定分布參數(shù),效果比較理想。吳龍濤等提出了運(yùn)用貝葉斯法和蒙特卡洛法預(yù)測(cè)威布爾型裝備維修器材需求的預(yù)測(cè)方法。陳頂?shù)冉Y(jié)合蒙特卡洛仿真方法,運(yùn)用灰色生滅過程理論對(duì)裝備備件預(yù)測(cè)問題進(jìn)行了研究。徐廷學(xué)等結(jié)合蒙特卡洛仿真和馬爾可夫模型研究了導(dǎo)彈裝備備件需求預(yù)測(cè)模型?;跀?shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)模型依靠挖掘小樣本數(shù)據(jù)中的器材需求規(guī)律,對(duì)維修器材需求量進(jìn)行預(yù)測(cè)。Chiou等運(yùn)用灰色GM(1,1)模型預(yù)測(cè)了臺(tái)灣海軍裝備備件需求量。Chen等運(yùn)用冪函數(shù)優(yōu)化GM(1,1)模型研究了庫存、維修和大修器材需求預(yù)測(cè)模型。Hu等運(yùn)用反向傳播(BP)神經(jīng)網(wǎng)絡(luò)(BPNN)預(yù)測(cè)了農(nóng)用機(jī)械備件消耗需求。Ju等研究了支持向量回歸(SVR)在電力消耗需求預(yù)測(cè)中的運(yùn)用。張彤等運(yùn)用SVR預(yù)測(cè)了彈藥消耗需求。
基于數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)模型僅需利用樣本數(shù)據(jù)中的信息,不需要裝備承制單位提供各類器材的壽命分布類型或者具體分布參數(shù),同時(shí)也可以兼顧裝備操作不當(dāng)和任務(wù)需求等因素造成的器材隨機(jī)需求。而基于可靠性仿真的預(yù)測(cè)方法則受樣本數(shù)據(jù)不足的影響較小,結(jié)合具體分布特點(diǎn)得到預(yù)測(cè)結(jié)果,兩種方法均有廣泛應(yīng)用。但是,裝甲裝備的構(gòu)造和工況環(huán)境相對(duì)復(fù)雜多樣,受臨時(shí)任務(wù)、動(dòng)用強(qiáng)度或操作經(jīng)驗(yàn)影響較大,且器材需求樣本數(shù)據(jù)少,在保障需求預(yù)測(cè)難度大的同時(shí)也具有較頻繁的預(yù)測(cè)需求。較理想的是預(yù)測(cè)方法能夠兼顧上述兩類模型的優(yōu)勢(shì),突破可利用數(shù)據(jù)不足這一條件的限制,充分發(fā)揮傳統(tǒng)依靠大樣本數(shù)據(jù)驅(qū)動(dòng)的SVR和神經(jīng)網(wǎng)絡(luò)等模型的運(yùn)算優(yōu)勢(shì),改進(jìn)預(yù)測(cè)效果,然而目前關(guān)于這方面的研究較少。
本文圍繞這一問題展開研究,首先以滾動(dòng)機(jī)制預(yù)測(cè)模式為算法基礎(chǔ),以不同時(shí)段器材累積消耗數(shù)量為相似度量改進(jìn)了親和傳播(AP)聚類算法,通過不同時(shí)段器材消耗趨勢(shì)的相似度迭代,將具有相似累積消耗值的數(shù)據(jù)段聚類為同一類別,并將聚類為同一類別數(shù)據(jù)的各報(bào)告期器材相對(duì)消耗值考慮為正態(tài)分布數(shù)據(jù)。同時(shí)計(jì)算待預(yù)測(cè)數(shù)據(jù)與各類別數(shù)據(jù)的相似度,并計(jì)算待預(yù)測(cè)數(shù)據(jù)的正態(tài)隨機(jī)數(shù)字特征,最后生成適用于待預(yù)測(cè)數(shù)據(jù)的大樣本訓(xùn)練集,提高了模型預(yù)測(cè)結(jié)果的可信性。
用于預(yù)測(cè)維修器材需求的數(shù)據(jù)驅(qū)動(dòng)模型通常是以器材的歷史消耗數(shù)據(jù)為依據(jù)進(jìn)行計(jì)算而得到預(yù)測(cè)結(jié)果。由于大項(xiàng)任務(wù)、裝備計(jì)劃、隨機(jī)動(dòng)用以及臨時(shí)管理需求等原因,裝甲裝備因故障造成的各類器材消耗情況具有較強(qiáng)的階段性特點(diǎn),在階段周期內(nèi)根據(jù)器材的累積消耗情況進(jìn)行預(yù)測(cè)所得的結(jié)果具有更好的可靠性。因此在確定各因素作用周期的條件下,運(yùn)用滾動(dòng)機(jī)制預(yù)測(cè)模型進(jìn)行預(yù)測(cè)較為理想。
滾動(dòng)機(jī)制預(yù)測(cè)是指運(yùn)用時(shí)間序列中相對(duì)靠近待預(yù)測(cè)數(shù)據(jù)的部分樣本數(shù)據(jù)參與模型預(yù)測(cè)。在預(yù)測(cè)下一時(shí)間點(diǎn)數(shù)值時(shí),最新的已知時(shí)間點(diǎn)數(shù)據(jù)補(bǔ)充進(jìn)入模型解釋變量,而最遠(yuǎn)離待預(yù)測(cè)點(diǎn)的變量退出模型解釋變量,從而確保解釋變量的數(shù)量不變。
對(duì)于含有個(gè)樣本值的器材消耗時(shí)間序列:()={(1),(2),…,()},其滾動(dòng)機(jī)制預(yù)測(cè)值()的表達(dá)式為
式中:為用于構(gòu)建訓(xùn)練集的樣本維度,即基于前-1個(gè)數(shù)據(jù)構(gòu)建預(yù)測(cè)模型,預(yù)測(cè)第個(gè)數(shù)據(jù)。()的訓(xùn)練數(shù)據(jù)可進(jìn)一步整理為
式中:L為訓(xùn)練集中的樣本向量數(shù)。同時(shí)Y可進(jìn)一步表示為
式中:y=[y(1) y(2) … y(n)],i=1,2,…,L,y(1)為第i個(gè)消耗向量分量中的基期消耗值,初始化后被統(tǒng)一為1,y(2),y(3),…為報(bào)告期的器材消耗量。
矩陣Y為L(zhǎng)×n階矩陣,前n-1列為訓(xùn)練集輸入數(shù)據(jù),第n列為訓(xùn)練集標(biāo)簽值。由(1)式可知,不同行向量代表的消耗階段序列的時(shí)間起點(diǎn)不同,消耗總量也會(huì)產(chǎn)生較大差異,為便于分析不同時(shí)間段消耗規(guī)律的合理消耗差異,對(duì)Y的行向量y進(jìn)行初值化,得到向量x:
由(4)式可以看出,歸一化后的x(2),x(3),…可以視為y(2),y(3),…相對(duì)于基期y(1)的相對(duì)消耗量。因此(1)式可表示為
而最終需求預(yù)測(cè)結(jié)果可以表示為
由于基期的器材消耗量統(tǒng)一為1,而隨后的第k個(gè)數(shù)值為報(bào)告期數(shù)據(jù)y(k)(k=2,…,n)相對(duì)于各自基期器材數(shù)據(jù)y(1)的消耗量,因而不同的x(k)之間具有相似的隨機(jī)特性。
裝備維修器材需求量主要與裝備故障損壞相關(guān),許多導(dǎo)致裝備損壞的因素是呈階段性特點(diǎn)體現(xiàn)的,如計(jì)劃動(dòng)用裝備或者因臨時(shí)任務(wù)隨機(jī)動(dòng)用裝備時(shí)器材需求較多,而裝備封存或保養(yǎng)期間器材需求較少。雖然不同時(shí)間階段作用的隨機(jī)因素不同,但相似的作業(yè)和強(qiáng)度等隨機(jī)條件必然會(huì)導(dǎo)致相近的器材需求,因此本文通過改進(jìn)AP聚類算法,將相似的隨機(jī)消耗數(shù)據(jù)段聚類到一起,挖掘相似條件下器材數(shù)據(jù)的變化規(guī)律,為進(jìn)一步構(gòu)建器材消耗訓(xùn)練集數(shù)據(jù)做好準(zhǔn)備工作。
AP聚類算法屬于無監(jiān)督學(xué)習(xí)類算法,核心步驟是計(jì)算相似度矩陣s(i,p),然后運(yùn)用相似度矩陣定義吸引度矩陣r(i,p)和歸屬度矩陣a(i,p),矩陣中的變量i和p均表示向量的角標(biāo),且相對(duì)于基期的相對(duì)消耗量時(shí)間序列同樣可以表示為x=[1 x(2) … x(n)],p=1,2,…,L;矩陣r(i,p)和a(i,p)均表示向量x和向量x之間的關(guān)系信息。AP聚類算法不同于其他無監(jiān)督聚類算法,不需要提前人為指定數(shù)據(jù)類別的數(shù)量,僅通過數(shù)據(jù)點(diǎn)間的相似度迭代完成數(shù)據(jù)分類,分類效果極好。為避免在迭代過程中產(chǎn)生數(shù)據(jù)的震蕩,定義迭代式為
式中:v為僅能取正整數(shù)的迭代變量;λ為衰減阻尼系數(shù),是介于0~1之間的實(shí)數(shù),通常定義為0.5;矩陣r(i,p)描述了向量x適合作為向量x聚類中心的程度,表示從x到x的消息:
q為向量的遍歷角標(biāo);矩陣a(i,p)描述了向量x選擇向量x作為其據(jù)聚類中心的適合程度,表示從x到x的消息:
s為相似度矩陣,當(dāng)i≠p時(shí)s(i,p)通常取向量x和向量x的歐氏距離負(fù)值:
當(dāng)i=p時(shí)通常取整個(gè)相似度矩陣的最小值或中位數(shù),經(jīng)過固定步數(shù)的迭代并收斂后完成分類。
然而,對(duì)于不同階段的器材累積消耗情況,運(yùn)用歐式距離作為標(biāo)準(zhǔn)將難以將具有相似消耗規(guī)律的訓(xùn)練集數(shù)據(jù)聚類為同一類別(見圖1(b)),因此需對(duì)AP聚類算法的相似度標(biāo)準(zhǔn)進(jìn)行改進(jìn)。
在時(shí)刻t為1~4,器材的累積消耗值S可以表示為
式中:x(t)為器材消耗的時(shí)間連續(xù)函數(shù)(見圖1(a));S表示曲線x(t)、直線t=1、直線t=4以及x軸圍成的面積,在實(shí)際問題中,器材的消耗值是以離散值序列x(k)的形式體現(xiàn)的,k=1,2,3,4(見圖1(b))。
AP聚類算法的相似標(biāo)準(zhǔn)建立在向量與向量之間歐氏距離的負(fù)值基礎(chǔ)上,但在一段時(shí)間內(nèi)難以直接反映器材需求累積量之間的相似關(guān)系。如圖1(b)所示,若:x=[1 x(2) x(3) x(4)],x=[1 x(2) x(3) x(4)]兩個(gè)向量采用歐式距離度量,則x與x存在較大差別,因此用(10)式進(jìn)行相似度量標(biāo)準(zhǔn)進(jìn)行迭代,將無法實(shí)現(xiàn)準(zhǔn)確聚類。
由于在遂行任務(wù)時(shí)或操作使用因素導(dǎo)致器材損耗統(tǒng)計(jì)具有一定的階段性和滯后性,器材需求統(tǒng)計(jì)數(shù)據(jù)絕大多數(shù)情況下為離散形式(參照?qǐng)D1(a)),且器材消耗向量序列應(yīng)該為(4)式一樣更加一般化表達(dá)形式x(k),k=1,2,…,n。因此器材累計(jì)消耗量S可以表示為
(12)式用于計(jì)算近一段時(shí)間以來器材的消耗歷史總量,而經(jīng)迭代聚類后聚類為同一類的消耗積累值勢(shì)必差別較小,因此(10)式可進(jìn)一步改進(jìn)為將(13)式作為相似度量代入(8)式和(9)式進(jìn)行計(jì)算,通過循環(huán)迭代將具有相似消耗歷史的數(shù)據(jù)聚類在一起。
式中:l為第m類向量所含的樣本數(shù)。
由于數(shù)據(jù)容量限制,聚類為同一類別的器材數(shù)據(jù)雖然有相似的器材累積消耗特點(diǎn),但遠(yuǎn)未能將所有消耗情況反映出來,因此可以運(yùn)用生成的隨機(jī)模擬數(shù)據(jù)擴(kuò)充模型的訓(xùn)練集,最終實(shí)現(xiàn)模型的合理預(yù)測(cè)。
同時(shí),當(dāng)樣本數(shù)量不足時(shí),如果各已知樣本向量能夠體現(xiàn)相對(duì)全面的各類隨機(jī)因素作用效果(迭代聚類的類別數(shù)量較少),便可基于現(xiàn)有數(shù)據(jù)最大限度地挖掘其隨機(jī)特征,聚類為同一類別的報(bào)告期數(shù)據(jù)()也可進(jìn)一步考慮為
式中:()為第類輸入向量中第個(gè)分量的樣本標(biāo)準(zhǔn)差,樣本均值和樣本標(biāo)準(zhǔn)差的具體表達(dá)式為
對(duì)于待測(cè)試數(shù)據(jù)的預(yù)測(cè),由于最后一個(gè)報(bào)告期數(shù)據(jù)未知,無法準(zhǔn)確估計(jì)測(cè)試向量所屬的類別。因此需要根據(jù)測(cè)試數(shù)據(jù)和各類別訓(xùn)練集的相關(guān)程度合理確定測(cè)試向量各報(bào)告期數(shù)據(jù)符合的隨機(jī)特征,形成最符合待預(yù)測(cè)數(shù)據(jù)變化規(guī)律的大樣本數(shù)據(jù)。因而待測(cè)試向量分量x()的模擬隨機(jī)數(shù)字特征為
式中:w為待測(cè)試向量和第類訓(xùn)練集向量的相關(guān)度權(quán)重,
時(shí)表明預(yù)測(cè)結(jié)果輸出穩(wěn)定,最終得到預(yù)測(cè)結(jié)果。預(yù)測(cè)流程見圖3。
圖3 算法計(jì)算流程Fig.3 Calculation process of algorithm
為全面直觀評(píng)估基于模擬樣本數(shù)據(jù)的模型預(yù)測(cè)效果,本文引入相對(duì)誤差:
平均絕對(duì)誤差:
平均絕對(duì)百分比誤差:
擬合優(yōu)度:
式中:相對(duì)誤差表示每一個(gè)預(yù)測(cè)結(jié)果和實(shí)際值的接近程度;平均絕對(duì)誤差和平均絕對(duì)百分比誤差則反映了總體預(yù)測(cè)結(jié)果和真實(shí)值之間的絕對(duì)差距和相對(duì)差距;擬合優(yōu)度指標(biāo)位于0~1之間,越接近1,表示總體擬合效果越好。
以裝甲裝備某型戰(zhàn)術(shù)維修器材需求預(yù)測(cè)為例,利用本文方法并基于MATLAB軟件進(jìn)行分析討論。已知器材需求時(shí)間序列為()={234,260,258,275,285,329,347,365,396,432},取前8個(gè)值作為擬合模型訓(xùn)練數(shù)據(jù),后2個(gè)數(shù)據(jù)為測(cè)試數(shù)據(jù)。具體步驟如下。
1 由于數(shù)據(jù)量較少,取=4根據(jù)(4)式對(duì)數(shù)據(jù)進(jìn)行初始化,根據(jù)(12)式計(jì)算各階段器材消耗積累值,取迭代次數(shù)為500,衰減阻尼系數(shù)=0.5,運(yùn)用(7)式、(8)式、(9)式、(13)式進(jìn)行迭代聚類,結(jié)果見圖4。圖4中不同顏色代表不同類別,初值化后的5組數(shù)據(jù)經(jīng)過聚類后被劃分為3個(gè)類別,表明數(shù)據(jù)具有3種不同類別的器材需求類型。
圖4 算例1數(shù)據(jù)聚類結(jié)果Fig.4 Data clustering results of Example 1
2 由(17)式計(jì)算各類別數(shù)據(jù)的隨機(jī)數(shù)字特征,結(jié)果見表1。
表1 各類別數(shù)據(jù)的隨機(jī)數(shù)字特征Tab.1 Random number characteristics of each cluster of data
3 由(18)式~(21)式計(jì)算待預(yù)測(cè)輸入向量的隨機(jī)數(shù)字特征值,計(jì)算結(jié)果見表2。
表2 模擬數(shù)據(jù)的特征Tab.2 Random eigenvalue of simulated data
4 由表2中計(jì)算出的模擬數(shù)據(jù)數(shù)字特征,運(yùn)用MATLAB軟件分別隨機(jī)生成大容量模擬數(shù)據(jù)。結(jié)合模擬訓(xùn)練數(shù)據(jù),運(yùn)用裝備維修器材需求預(yù)測(cè)常用的大數(shù)據(jù)驅(qū)動(dòng)預(yù)測(cè)模型支持向量回歸SVR和BP神經(jīng)網(wǎng)絡(luò)兩種預(yù)測(cè)模型進(jìn)行回歸預(yù)測(cè),檢驗(yàn)其預(yù)測(cè)效果提升情況。
SVR模型采用Sigmoid核函數(shù),稀疏懲罰參數(shù)為0.01,運(yùn)算采用Libsvm模塊。BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)為3-3-1,迭代次數(shù)為500。模擬樣本數(shù)據(jù)容量由10開始,每增加10個(gè)模擬樣本,兩個(gè)模型都會(huì)計(jì)算并輸出。針對(duì)同一組待預(yù)測(cè)數(shù)據(jù)運(yùn)用不同的模型進(jìn)行預(yù)測(cè)比較,結(jié)果見圖5。
圖5(a)、圖5(b)分別為針對(duì)不同待預(yù)測(cè)數(shù)據(jù)的預(yù)測(cè)結(jié)果。BP神經(jīng)網(wǎng)絡(luò)模型隨機(jī)賦予權(quán)值初始值,通過樣本信息不斷迭代,反向傳播誤差信息計(jì)算最優(yōu)權(quán)值。但由圖5可以看出,由于前期采用模擬樣本容量較少,BP神經(jīng)網(wǎng)絡(luò)易產(chǎn)生過擬合現(xiàn)象,因此計(jì)算結(jié)果穩(wěn)定性較差,變化幅度較大。隨著模擬樣本數(shù)據(jù)容量增多,BP神經(jīng)網(wǎng)絡(luò)的計(jì)算結(jié)果逐步趨于穩(wěn)定。
圖5 算例1模擬數(shù)據(jù)的計(jì)算過程Fig.5 Calculation process of simulated data of Example 1
SVR采用不敏感損失函數(shù),通過搜索最優(yōu)解的方式確定最優(yōu)回歸參數(shù),但在模擬樣本數(shù)據(jù)容量較小時(shí)同樣存在預(yù)測(cè)結(jié)果變動(dòng)幅度較大且結(jié)果輸出不夠穩(wěn)定的情況。隨著樣本容量增大,輸出結(jié)果逐步穩(wěn)定,表明較少數(shù)量的器材消耗樣本難以支持大數(shù)據(jù)驅(qū)動(dòng)模型的合理預(yù)測(cè)。由圖5可以看出,模擬樣本數(shù)量大于2 000左右時(shí),模擬樣本容量基本滿足模型針對(duì)這一組器材需求數(shù)據(jù)的預(yù)測(cè)需求。
同時(shí)由圖5還可以看出,隨著模擬樣本數(shù)據(jù)容量的增大,針對(duì)同一組待預(yù)測(cè)數(shù)據(jù),SVR和BP神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)結(jié)果基本穩(wěn)定于同一數(shù)值附近。表明根據(jù)現(xiàn)有樣本信息中所蘊(yùn)含的隨機(jī)變化情況已經(jīng)隨著模擬樣本數(shù)據(jù)的增加而逐步被充分遍歷挖掘出來,不會(huì)因模型運(yùn)算機(jī)理不同而得到不同的預(yù)測(cè)結(jié)果。同時(shí)也避免了因模型運(yùn)算性能差異導(dǎo)致的運(yùn)算結(jié)果可參照性不強(qiáng),極大地提高了模型預(yù)測(cè)結(jié)果的可信性,進(jìn)而為保障決策提供可靠參照。
為進(jìn)一步分析大樣本模擬數(shù)據(jù)對(duì)于模型性能的提升效果,將后3 000步輸出結(jié)果的平均值作為輸出結(jié)果,分別運(yùn)用GM(1,1)、SVR和BPNN的傳統(tǒng)方法預(yù)測(cè)結(jié)果進(jìn)行比較研究,運(yùn)用(23)式~(26)式計(jì)算結(jié)果評(píng)價(jià)指標(biāo),計(jì)算結(jié)果見表3。
表3 不同模型的計(jì)算結(jié)果比較Tab.3 Comparison of calculated results of different models
由表3可知,在小樣本條件下,SVR和BP神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)效果并不比GM(1,1)效果理想,且由于模型運(yùn)算機(jī)理差異的原因,預(yù)測(cè)結(jié)果差異較大?;诖髽颖灸M數(shù)據(jù)SVR和BP神經(jīng)網(wǎng)絡(luò)兩個(gè)模型的計(jì)算結(jié)果非常接近,且其、和等評(píng)價(jià)指標(biāo)均優(yōu)于傳統(tǒng)GM(1,1)、SVR和BPNN,表明大樣本模擬數(shù)據(jù)可在小樣本條件下,有效提升大數(shù)據(jù)驅(qū)動(dòng)器材需求預(yù)測(cè)模型的預(yù)測(cè)效果。
同時(shí)由算例1可以看出,聚類的準(zhǔn)確性很大程度上決定了生成模擬數(shù)據(jù)的合理程度,算例1中的數(shù)據(jù)被分為了3類。顯然,如果類別過多(如每個(gè)數(shù)據(jù)點(diǎn)單獨(dú)劃分為1類)則無法確定模擬數(shù)據(jù)的樣本標(biāo)準(zhǔn)差,進(jìn)而無法根據(jù)數(shù)據(jù)的隨機(jī)特性生成數(shù)據(jù),這類情況表明該類小樣本數(shù)據(jù)不具有可預(yù)測(cè)性。
為進(jìn)一步驗(yàn)證改進(jìn)AP聚類生成模擬數(shù)據(jù)算法的運(yùn)算性能,以另一組某裝甲器材倉(cāng)庫某型器材需求歷史數(shù)據(jù)為例進(jìn)行分析討論。器材消耗時(shí)間序列為:()={86,91,102,91,103,101,93,94,107,99},同樣取前8個(gè)值作為擬合模型訓(xùn)練數(shù)據(jù),后2個(gè)數(shù)據(jù)為測(cè)試數(shù)據(jù)。具體步驟和計(jì)算過程與算例1相同,數(shù)據(jù)聚類結(jié)果見圖6。
圖6 算例2數(shù)據(jù)聚類結(jié)果Fig.6 Data clustering results of Example 2
由圖6的分類結(jié)果可知,5組數(shù)據(jù)被劃分為同一類別,表明來自于同一樣本的5組數(shù)據(jù)雖然有細(xì)微的差別,但是所體現(xiàn)出的器材消耗累積規(guī)律全部相近,待預(yù)測(cè)輸入向量分量服從的體現(xiàn)各自隨機(jī)特征的正態(tài)分布數(shù)字特征和訓(xùn)練樣本數(shù)據(jù)一致,在與算例1相同的計(jì)算條件下,計(jì)算輸出結(jié)果見圖7。
由圖7可知,與算例1相似,在模擬樣本數(shù)據(jù)量較少時(shí),BP神經(jīng)網(wǎng)絡(luò)模型和SVR的輸出結(jié)果均變化幅度較大,隨著模擬樣本容量增加,兩類模型的輸出結(jié)果趨于穩(wěn)定,SVR的預(yù)測(cè)結(jié)果為103.72和96.23,BP神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)結(jié)果為103.78和95.99。兩類模型的預(yù)測(cè)結(jié)果非常接近,表明模擬數(shù)據(jù)使大數(shù)據(jù)驅(qū)動(dòng)模型預(yù)測(cè)結(jié)果的可信性得到了有效提升,同時(shí)也表明改進(jìn)后AP聚類算法并不會(huì)因整體數(shù)據(jù)的較小差別而刻意劃分?jǐn)?shù)據(jù)類別,具有很好的穩(wěn)定性,從而為裝備器材高效率保障提供高效可靠的決策支持。
圖7 算例2模擬數(shù)據(jù)的計(jì)算過程Fig.7 Calculation process of simulated data of Example 2
本文將不同時(shí)間段的器材累積消耗數(shù)據(jù)作為基本相似度量,改進(jìn)了AP聚類算法。經(jīng)過迭代聚類后,劃分為同一類向量數(shù)據(jù)的各分量均服從正態(tài)分布。通過待預(yù)測(cè)輸入向量和各類別向量的相似度分析,求解待預(yù)測(cè)數(shù)據(jù)的正態(tài)分布數(shù)字特征,并運(yùn)用數(shù)學(xué)軟件生成大量隨機(jī)模擬樣本驅(qū)動(dòng)大樣本數(shù)據(jù)預(yù)測(cè)模型,完成小樣本維修器材需求預(yù)測(cè)。通過聚類分析和算法設(shè)計(jì)弱化相關(guān)度較低的類別數(shù)據(jù)對(duì)于訓(xùn)練數(shù)據(jù)集的干擾影響,提升了模型預(yù)測(cè)結(jié)果的準(zhǔn)確性。同時(shí)結(jié)合算法挖掘到的特征數(shù)據(jù)生成模擬數(shù)據(jù),在已有數(shù)據(jù)特征的基礎(chǔ)上模擬各類數(shù)據(jù)變化的隨機(jī)情況。既可以突出可靠性仿真類模型的特點(diǎn),形成具有合理分布特性的仿真數(shù)據(jù)源,也可給大樣本數(shù)據(jù)驅(qū)動(dòng)模型提供足夠的數(shù)據(jù)支撐,充分發(fā)揮了大樣本數(shù)據(jù)驅(qū)動(dòng)模型的預(yù)測(cè)優(yōu)勢(shì)。
通過分析研究發(fā)現(xiàn),本文方法可充分挖掘小樣本數(shù)據(jù)中的隨機(jī)信息,使大數(shù)據(jù)驅(qū)動(dòng)預(yù)測(cè)模型輸出穩(wěn)定預(yù)測(cè)值,且計(jì)算步驟簡(jiǎn)單,避免因不同模型運(yùn)算機(jī)理差異而導(dǎo)致預(yù)測(cè)結(jié)果不一致,有效提升了大樣本數(shù)據(jù)驅(qū)動(dòng)模型進(jìn)行小樣本維修器材需求預(yù)測(cè)結(jié)果的可信性。