李鼎哲, 彭靖波, 趙澤平, 王瑋軒, 趙 彪
(空軍工程大學(xué)航空工程學(xué)院, 西安, 710038)
航空發(fā)動(dòng)機(jī)工作狀態(tài)識(shí)別屬于模式識(shí)別中的多分類問(wèn)題。目前,已有學(xué)者將SVM與SVDD方法用于航空發(fā)動(dòng)機(jī)工作狀態(tài)識(shí)別,文獻(xiàn)[1]基于最小二乘支持向量機(jī)(LS-SVM)將一對(duì)一、一對(duì)多以及糾錯(cuò)輸出編碼3種分類方法進(jìn)行了比較,并采用糾錯(cuò)輸出編碼方法對(duì)某架次發(fā)動(dòng)機(jī)工作狀態(tài)進(jìn)行了識(shí)別。但所提方法在追求分類速度的同時(shí)犧牲了一定的分類精度,并且數(shù)據(jù)缺失對(duì)分類性能有較大的影響。文獻(xiàn)[2]構(gòu)建了一種基于超橢球分類面支持向量數(shù)據(jù)描述(HE-SVDD)分類器,具備了快速?gòu)拇笠?guī)模飛行數(shù)據(jù)中識(shí)別航空發(fā)動(dòng)機(jī)工作狀態(tài)的能力。但所提方法的分類性能依賴于核函數(shù)的選取,且核函數(shù)的選取只能依靠經(jīng)驗(yàn)。文獻(xiàn)[3]針對(duì)HE-SVDD方法存在的部分缺陷進(jìn)行改進(jìn),提出了一種改進(jìn)BA優(yōu)化的多核支持向量數(shù)據(jù)描述(CRBA-MKSVDD)分類算法,進(jìn)一步提高分類器的性能。但所提方法作為一種單分類器,存在響應(yīng)時(shí)間長(zhǎng)等缺點(diǎn)。
隨機(jī)森林(Random Forest, RF)作為一種統(tǒng)計(jì)學(xué)習(xí)理論,利用Bootstrap重抽樣方法從原始樣本中抽取多個(gè)樣本,對(duì)每個(gè)樣本建立決策樹(shù)模型,然后組合多棵決策樹(shù)的預(yù)測(cè),通過(guò)投票得出最終預(yù)測(cè)結(jié)果。該方法內(nèi)部執(zhí)行交叉驗(yàn)證,對(duì)于復(fù)雜和非線性數(shù)據(jù),有很好的預(yù)測(cè)效果,并且有訓(xùn)練速度快、不易過(guò)擬合等優(yōu)點(diǎn)[4-5],近年來(lái)廣泛應(yīng)用于故障診斷[6-7]、聚類識(shí)別[8-9]、回歸預(yù)測(cè)[10-11]等領(lǐng)域。PCA法作為一種數(shù)據(jù)處理分析方法,主要應(yīng)用于圖形、語(yǔ)音等方面的處理和識(shí)別以及特征選擇[12-14]。為此,本文將主成分分析法(Principal Component Analysis, PCA)與隨機(jī)森林(RF)結(jié)合對(duì)航空發(fā)動(dòng)機(jī)工作狀態(tài)進(jìn)行識(shí)別。
PCA是一種常用的數(shù)據(jù)分析方法,其原理是通過(guò)一個(gè)向量矩陣將原始數(shù)據(jù)從高維空間投影到一個(gè)低維的向量空間[15-16]。換言之即通過(guò)線性變換將原始數(shù)據(jù)變換為一組各維度線性無(wú)關(guān)的表示,以此提取數(shù)據(jù)的主要線性分量。PCA法的流程為:①樣本向量集;②計(jì)算矩陣X的協(xié)方差矩陣C;③計(jì)算協(xié)方差矩陣C的特征值和對(duì)應(yīng)特征向量;④將所得特征向量從大到小排列對(duì)應(yīng)的特征向量組成特征矩陣U;⑤使用特征矩陣U將樣本特征矩陣X進(jìn)行變換;⑥輸出主成分。
設(shè)一個(gè)n維樣本向量集X={x1,x2,…,xn},則X?Rm×n,令:
(1)
得到樣本集的協(xié)方差矩陣為:
(2)
將矩陣C正交分解,得到:
C=U·Λ·UT
(3)
式中:Λ=diag(λ1,λ2,…,λn)是對(duì)角陣,由C的n個(gè)按降序排列的特征值λi組成。特征矩陣U=[u1,u2,…,un]由特征值λi對(duì)應(yīng)的特征向量ui(i=1,2,…,n)組成的特征矩陣。λk對(duì)應(yīng)的貢獻(xiàn)度為:
(4)
為了提取樣本集中信息量大的主元,用貢獻(xiàn)率θ來(lái)表示,得到前d個(gè)主元的貢獻(xiàn)率為:
(5)
設(shè)定閾值為P,使得θ≥P,確定主元,可得到主元模型:
V=UTX
(6)
原先的矩陣X可以重構(gòu)為:
(7)
這樣就可以將前d個(gè)特征向量構(gòu)成的PCA子空間的大部分特征信息體現(xiàn)出來(lái),實(shí)現(xiàn)了屬性約簡(jiǎn)的目的。
決策樹(shù)(Decision Tree)[17]方法可認(rèn)為是一棵分類模型樹(shù),包含根節(jié)點(diǎn)、內(nèi)部節(jié)點(diǎn)和葉節(jié)點(diǎn),圖1為決策樹(shù)的基本構(gòu)成。
圖1 決策樹(shù)基本構(gòu)成圖
其中,根節(jié)點(diǎn)包含整個(gè)數(shù)據(jù)集,每個(gè)內(nèi)部節(jié)點(diǎn)是一個(gè)判斷條件,它將根據(jù)判斷條件的測(cè)試結(jié)果,將數(shù)據(jù)集分配到2個(gè)或多個(gè)子節(jié)點(diǎn),子節(jié)點(diǎn)繼續(xù)分裂直至產(chǎn)生葉節(jié)點(diǎn),包含最終的數(shù)據(jù)類別。但決策樹(shù)生長(zhǎng)過(guò)渡會(huì)使其產(chǎn)生過(guò)擬合的問(wèn)題,且對(duì)于不平衡樣本的分類性能較差,信息增益容易偏向樣本量大的特征。
隨機(jī)森林是由多棵決策樹(shù)組成的組合分類器,圖2為隨機(jī)森林的算法流程圖。通過(guò)訓(xùn)練多個(gè)樹(shù)狀分類器,將多棵決策樹(shù)的預(yù)測(cè)組合,最后經(jīng)過(guò)投票的方式得到預(yù)測(cè)結(jié)果。其基本思想是先采用Bootstrap抽樣從原始訓(xùn)練集中抽取k個(gè)樣本,其次建立k個(gè)決策樹(shù)模型,獲得k種分類結(jié)果,最后對(duì)所有結(jié)果投票表決,確定最終歸屬于哪一類別。其模型函數(shù)為:
(8)
式中:k為決策樹(shù)的數(shù)量;Y為輸出變量(目標(biāo)變量);I為示性函數(shù);H(x)表示組合分類模型;hi(x)表示第i棵決策樹(shù)的分類模型。
圖2 隨機(jī)森林流程圖
隨機(jī)森林通過(guò)構(gòu)造不同的訓(xùn)練集增加分類模型間的差異,從而提高組合分類模型的外推預(yù)測(cè)能力[1]。其隨機(jī)性主要體現(xiàn)在以下方面:第一,訓(xùn)練樣本選擇具有隨機(jī)性,即通過(guò)多次有放回抽樣形成子集;第二,特征子集的選擇具有隨機(jī)性,即隨機(jī)抽取特征集合;第三,所有決策樹(shù)模型不進(jìn)行剪枝,自由成長(zhǎng)。因此,隨機(jī)森林很好地解決了過(guò)擬合的問(wèn)題,將多個(gè)弱分類器集成一個(gè)強(qiáng)分類器。
算法設(shè)計(jì)流程主要包含了某型發(fā)動(dòng)機(jī)飛參數(shù)據(jù)的采集與預(yù)處理、特征提取以及工作狀態(tài)識(shí)別。
首先,將相關(guān)發(fā)動(dòng)機(jī)參數(shù)從飛參記錄器轉(zhuǎn)錄至地面處理設(shè)備(通常是便攜式計(jì)算機(jī)),進(jìn)行數(shù)據(jù)的預(yù)處理,隨后按一定比例選取訓(xùn)練集和測(cè)試集。再采用PCA方法對(duì)數(shù)據(jù)集進(jìn)行特征提取,利用降維后的訓(xùn)練集對(duì)隨機(jī)森林分類器進(jìn)行訓(xùn)練,再導(dǎo)入測(cè)試集進(jìn)行發(fā)動(dòng)機(jī)工作狀態(tài)的分類識(shí)別,并計(jì)算分類準(zhǔn)確率和測(cè)試時(shí)間。
1)采集飛參數(shù)據(jù),提取相關(guān)特征參數(shù)并進(jìn)行預(yù)處理。
2)通過(guò)PCA方法將所提取的飛參特征數(shù)據(jù)進(jìn)行降維,根據(jù)貢獻(xiàn)率選擇n個(gè)主成分,輸出對(duì)應(yīng)的特征向量矩陣,組成訓(xùn)練數(shù)據(jù)集。
3)在訓(xùn)練數(shù)據(jù)集中通過(guò)Bootstrap方法有放回抽取k個(gè)樣本集,構(gòu)建k棵決策樹(shù)。
4)在每一棵樹(shù)的各節(jié)點(diǎn)處隨機(jī)抽取m個(gè)特征屬性(m≤n),對(duì)評(píng)估效果最佳的屬性在對(duì)應(yīng)節(jié)點(diǎn)處遵循節(jié)點(diǎn)不純度原則進(jìn)行分裂生長(zhǎng)。
5)每棵決策樹(shù)充分生長(zhǎng),不進(jìn)行任何剪枝。
6)將生長(zhǎng)得到的k棵樹(shù)組成隨機(jī)森林,根據(jù)分類器的投票數(shù)量得到相應(yīng)分類結(jié)果。
上述算法設(shè)計(jì)流程如圖3所示。
圖3 算法流程圖
某型發(fā)動(dòng)機(jī)的穩(wěn)定工作狀態(tài)包含慢車、節(jié)流、中間、小加力和全加力(最大)狀態(tài),在外場(chǎng)工作中,通常需要將油門桿角度與其他同發(fā)動(dòng)機(jī)相關(guān)的參數(shù)結(jié)合起來(lái)人工判讀發(fā)動(dòng)機(jī)工作狀態(tài),因此在特征飛參數(shù)據(jù)的選取上將會(huì)以此作為參考。
以下原則將會(huì)在參數(shù)選取過(guò)程中被考慮:①以該型號(hào)發(fā)動(dòng)機(jī)技術(shù)說(shuō)明中明確規(guī)定的相關(guān)技術(shù)指標(biāo)以及對(duì)應(yīng)參數(shù)為準(zhǔn)。②若飛參數(shù)據(jù)之間存在較強(qiáng)的相關(guān)性,則選擇相對(duì)工作狀況強(qiáng)相關(guān)的參數(shù),如換算轉(zhuǎn)速與轉(zhuǎn)速之間存在關(guān)聯(lián),考慮到轉(zhuǎn)速作為發(fā)動(dòng)機(jī)工作狀態(tài)劃分的主要依據(jù)之一(如慢車狀態(tài)轉(zhuǎn)速通常為中間狀態(tài)轉(zhuǎn)速的0.4~0.6倍),而換算轉(zhuǎn)速更多的用于發(fā)動(dòng)機(jī)相關(guān)參數(shù)的控制規(guī)律,那么就選擇轉(zhuǎn)速作為特征參數(shù)。
綜上,最終選擇油門桿角度(APL,(°))、低壓轉(zhuǎn)速(n1,%)、高壓轉(zhuǎn)速(n2,%)、滑油壓力(Pm,MPa)、主燃油量(Wf,kg)、渦輪后溫度(T6,℃)、渦輪后壓力(P6,kPa)、發(fā)動(dòng)機(jī)排氣溫度(T9,℃)、噴口面積(A9,cm2)以及加力接通信號(hào)(K)共計(jì)10個(gè)特征參數(shù)。
從外場(chǎng)收集該型航空發(fā)動(dòng)機(jī)2018年5月日常飛行訓(xùn)練中的飛參數(shù)據(jù)。隨機(jī)選中4個(gè)無(wú)故障飛行架次,對(duì)上述的特征參數(shù)進(jìn)行提取,根據(jù)文獻(xiàn)[18]所提方法進(jìn)行如下預(yù)處理:
1)異常值剔除。對(duì)于明顯偏離參數(shù)正常變化范圍且同一時(shí)間點(diǎn)其余參數(shù)均正常的點(diǎn),為避免影響分類效果,應(yīng)當(dāng)剔除。
2)同步性處理。某型飛機(jī)飛參記錄器1 s記錄4幀飛參數(shù)據(jù),但由于不同的參數(shù)采樣頻率不同,在時(shí)間上并不同步,需要進(jìn)行同步性處理,處理的辦法是對(duì)各參數(shù)在1 s內(nèi)求均值。
3)數(shù)據(jù)歸一化。由于所選參數(shù)的測(cè)量精度以及量綱的不同,需要進(jìn)行歸一化處理,將所有參數(shù)歸一化至0~1之間。
按照上述原則和處理方法最后得到原始樣本數(shù)據(jù)38 826個(gè),其中慢車、節(jié)流、中間、小加力、全加力數(shù)據(jù)數(shù)量分別為10 416、9 892、12 208、2 398和3 912個(gè)。
為降低特征維數(shù)以及減少各特征間相關(guān)性,采用PCA方法對(duì)選取的10個(gè)特征進(jìn)行融合和約簡(jiǎn)。
5個(gè)狀態(tài)下的樣本各取70%作為訓(xùn)練集,余下30%作為測(cè)試集。對(duì)所取訓(xùn)練集進(jìn)行PCA處理,可以得到10個(gè)特征值矩陣Λ以及對(duì)應(yīng)的特征向量U。選取主元累計(jì)貢獻(xiàn)率θ為95%,得到相應(yīng)的k值為5。前6個(gè)主元的累計(jì)貢獻(xiàn)率分別為59.1%,69.6%,79.4%,87.8%,95.2%,96.6%。
在進(jìn)行狀態(tài)識(shí)別前,需要選擇最優(yōu)的決策樹(shù)數(shù)目。決策樹(shù)數(shù)目與分類準(zhǔn)確率的關(guān)系如圖4所示。可以看到當(dāng)決策樹(shù)棵樹(shù)為15時(shí),分類準(zhǔn)確率達(dá)到98.43%,且隨著決策樹(shù)數(shù)目增多,準(zhǔn)確率趨于穩(wěn)定。但決策樹(shù)增多會(huì)使計(jì)算復(fù)雜度隨之上升,伴隨著計(jì)算時(shí)間的增加。因此,選擇15棵決策樹(shù)組成隨機(jī)森林分類器,進(jìn)行發(fā)動(dòng)機(jī)工作狀態(tài)的識(shí)別,既能保證分類精度,又能合理的減小計(jì)算復(fù)雜度,縮短計(jì)算時(shí)間。
圖4 分類準(zhǔn)確率與決策樹(shù)數(shù)目關(guān)系圖
表1比較了未使用和使用PCA方法進(jìn)行屬性約簡(jiǎn)后的隨機(jī)森林分類器(決策樹(shù)數(shù)量同為15)分類準(zhǔn)確率和訓(xùn)練時(shí)間??梢钥闯?,對(duì)數(shù)據(jù)進(jìn)行屬性約簡(jiǎn)后,訓(xùn)練時(shí)間將會(huì)顯著減少,而且分類精度仍然較高。
表1 2種方法準(zhǔn)確率比較
實(shí)驗(yàn)過(guò)程中,選擇屬性約簡(jiǎn)后的訓(xùn)練集對(duì)不同的分類器(BP-ANN、LS-SVM、BA-MKSVDD和RF)進(jìn)行訓(xùn)練,用同樣經(jīng)過(guò)屬性約簡(jiǎn)的測(cè)試集對(duì)訓(xùn)練后的分類器進(jìn)行分類精度檢驗(yàn)。圖5為反映分類器識(shí)別效果的受試者工作特性(ROC)曲線。
對(duì)比分析圖5可知,所提出的PCA-RF方法在發(fā)動(dòng)機(jī)的5種工作狀態(tài)下都具有比較優(yōu)異的分類性能,相比于其它3種識(shí)別方法尤其是BP神經(jīng)網(wǎng)絡(luò)和LS-SVM而言,其對(duì)5種工作狀態(tài)下的特征數(shù)據(jù),在較低的異常樣本接受率下都能夠正確的接受大部分目標(biāo)樣本,更適合用作狀態(tài)識(shí)別分類器。
表2和表3分別為使用PCA降維前后4種分類器分類精度和測(cè)試時(shí)間。從表2可知,RF的識(shí)別準(zhǔn)確率最高,明顯高于LS-SVM與BP-ANN,尤其表現(xiàn)在發(fā)動(dòng)機(jī)進(jìn)入加力工作狀態(tài)之前的3個(gè)工作狀態(tài)上。由于發(fā)動(dòng)機(jī)進(jìn)入加力狀態(tài)工作時(shí)間較少,以及加力狀態(tài)下飛參數(shù)據(jù)具有波動(dòng)性強(qiáng)、穩(wěn)定性低的特點(diǎn),因此造成識(shí)別準(zhǔn)確率的下降。由表3可知,使用PCA降維后,能夠顯著減少識(shí)別時(shí)間,但同時(shí)會(huì)使識(shí)別準(zhǔn)確率有小幅下降。綜合看來(lái),本文所選的PCA-RF方法既可以有效提高識(shí)別效率,又能夠保證較高的識(shí)別精度。
圖5 不同工作狀態(tài)的ROC曲線
表2 使用PCA降維前各分類器的分類精度與測(cè)試時(shí)間
表3 使用PCA降維后各分類器的分類精度與測(cè)試時(shí)間
使用本文提出的算法,節(jié)選該型發(fā)動(dòng)機(jī)的某次飛行訓(xùn)練中的一段飛參數(shù)據(jù)進(jìn)行工作狀態(tài)識(shí)別,在進(jìn)行發(fā)動(dòng)機(jī)工作狀態(tài)狀態(tài)識(shí)別前需要利用2.1節(jié)中提出的原則對(duì)飛參數(shù)據(jù)進(jìn)行預(yù)處理。
在選取的這段飛參數(shù)據(jù)內(nèi),該型發(fā)動(dòng)機(jī)先后經(jīng)歷了慢車、節(jié)流、慢車、中間、節(jié)流、小加力、全加力、最大、節(jié)流和慢車狀態(tài),圖6為識(shí)別結(jié)果。
圖6 某架次發(fā)動(dòng)機(jī)工作狀態(tài)識(shí)別結(jié)果
可以看出,預(yù)測(cè)結(jié)果同實(shí)際結(jié)果吻合度較高。使用本文所提方法對(duì)該段發(fā)動(dòng)機(jī)工作狀態(tài)識(shí)別準(zhǔn)確率達(dá)到97.89%,已經(jīng)基本符合發(fā)動(dòng)機(jī)的實(shí)際工作狀況,可以體現(xiàn)本文方法的有效性。
本文提出了一種基于PCA的特征提取方法和RF的航空發(fā)動(dòng)機(jī)工作狀態(tài)識(shí)別方法。通過(guò)對(duì)某型發(fā)動(dòng)機(jī)工作狀態(tài)的識(shí)別實(shí)例,得出以下結(jié)論:
1)利用PCA方法進(jìn)行屬性約簡(jiǎn)對(duì)識(shí)別準(zhǔn)確率影響較小,同時(shí)能提高識(shí)別效率。
2)經(jīng)過(guò)對(duì)比實(shí)驗(yàn),本文所提方法具有較高的識(shí)別準(zhǔn)確率和識(shí)別效率。
3)節(jié)選某架次航空發(fā)動(dòng)機(jī)飛參數(shù)據(jù)進(jìn)行工作狀態(tài)識(shí)別,結(jié)果表明本文所提方法對(duì)發(fā)動(dòng)機(jī)工作狀態(tài)能有效識(shí)別,具有研究應(yīng)用價(jià)值。
此外,隨機(jī)森林分類器的分類性能易受樣本數(shù)量影響,對(duì)于小樣本數(shù)據(jù)的分類效果仍有提高的空間。