黎 明, 宋海龍, 茍 江
(中電科航空電子有限公司, 成都 611731)
航空發(fā)動機系統(tǒng)屬于高科技復雜系統(tǒng),具有自動化程度高、結構復雜、專業(yè)化程度高的特點,其性能變化將直接影響飛機的安全運行。 發(fā)動機系統(tǒng)又因其造價高、使用頻次高和保障費用高等特點,對安全性和可維護性等具有極高的要求。 基于復雜系統(tǒng)的可靠性、安全性、經濟性考慮,對故障預測與健康管理(Prognostics Health Management,PHM)技術的需求極為迫切。
PHM 技術的核心之一是故障預測,根據收集到的發(fā)動機實時狀態(tài)信息,預測發(fā)動機發(fā)生故障的時間,并在故障發(fā)生之前估計發(fā)動機能夠正常運行的剩余使用壽命(Remaining Useful Life,RUL),對發(fā)動機的全壽命周期內的健康狀態(tài)進行有效管理,不僅可以提高航空公司的飛行安全和整體運行品質,還可提高維修質量、降低維修成本,為機隊長期可靠性運營提供有力的支持。
從數據挖掘的角度出發(fā),基于機器學習的數據驅動預測方法,是目前行業(yè)研究的主流方向。 眾多學者對航空發(fā)動機剩余使用壽命預測進行了深入研究。 裴洪等詳細分析了基于機器學習的設備剩余壽命預測方法,根據機器學習模型結構的深度,將其分為基于淺層機器學習的方法和基于深度學習的方法。 周俊將數據驅動的預測方法細分為基于人工智能的方法、基于隨機過程的方法、基于時間序列分析的方法、基于回歸分析的方法和基于狀態(tài)估計的方法,并對多種RUL 預測方法進行融合,提高了RUL 預測的精度和魯棒性。 Schwabacher 等將數據驅動的方法分為傳統(tǒng)數值方法和機器學習方法,傳統(tǒng)數值方法包括線性回歸和卡爾曼濾波等,機器學習方法則主要是采用神經網絡、決策樹、支持向量機等智能算法。 Tsui 等將數據驅動的預測技術分為基于獨立增量過程的模型、基于馬爾可夫鏈的模型、基于濾波器的模型、比例風險模型、門限回歸模型。 Zhang 等則將數據驅動的方法分為隨機系數模型、人工智能方法和基于趨勢的方法。 于會越將一種改進的GBDT 引入發(fā)動機剩余使用壽命預測領域,與經典算法相比,改進后模型的性能評測指標有明顯提升。 馬忠等采用改進的卷積神經網絡(CNN)方法,對發(fā)動機剩余壽命進行預測,擁有更高的預測精度。 車暢暢等應用一維卷積神經網絡(1D-CNN)和雙向長短時記憶神經網絡(Bi-LSTM),建立航空發(fā)動機剩余壽命預測模型,結果表明混合模型更準確可靠。 胡啟國等提出基于核主成分分析(KPCA) 和雙向長短時記憶(BLSTM)神經網絡的多信息融合壽命預測模型。李杰等針對航空發(fā)動機剩余壽命預測問題,提出了一種將卷積神經網絡和長短期記憶網絡相融合的數據驅動模型,融合模型結合了兩種神經網絡的優(yōu)點,利用卷積神經網絡提取數據中的空間特征,并采用長短期記憶網絡提取時間特征。
本文在現(xiàn)有研究成果的基礎之上,根據算法的功能和形式的類似性,把常用的回歸類算法進行分類,選取每類中比較經典的算法進行預測與分析,最后采用基于精度的加權融合和基于信息熵的融合方法,對RUL 預測結果進行融合與對比。
根據機器學習算法的功能和形式的類似性,本文盡量把常用的回歸類算法按照最容易理解的方式,將其分為6 大類。 其中包括:基于線性算法、基于貝葉斯算法、基于實例算法、基于核算法、基于樹算法和基于神經網絡的算法。 當然,機器學習的范圍非常龐大,有些算法很難明確歸屬于某一類。
線性回歸是一種回歸分析技術,本質上是一個函數估計的問題,找出因變量與自變量之間的因果關系。 線性模型形式簡單、易于建模,但卻蘊含著機器學習中一些重要的基本思想,許多功能更為強大的非線性模型可在線性模型的基礎上通過引入層級結構或高維映射而得。 多元線性回歸是基于線算法的典型代表。
貝葉斯線性回歸是使用統(tǒng)計學中貝葉斯推斷方法求解的線性回歸模型,將線性模型的參數視為隨機變量,并通過模型參數的先驗計算其后驗,具有貝葉斯統(tǒng)計模型的基本性質。
K 近鄰法(K-Nearest Neighbor,KNN)是一種非常經典的基于實例的分類和回歸算法,也是機器學習所有算法中理論最簡單,最好理解的算法。 通過先選取一批樣本數據,然后根據某些近似性將新數據與樣本數據進行比較,通過這種方法來尋找最佳匹配。 回歸時,通過找出一個樣本的個最近鄰居,將這些鄰居某些屬性的平均值賦給該樣本,就可得到該樣本對應屬性的預測值。
支持向量機回歸是一種基于核函數的學習方法, 是把輸入數據映射到一個高階的向量空間,從而可以更好的來解決各種非線性的回歸問題。
決策樹(Decision Tree)吸引人的地方在于其模型的可解釋性,是以樹狀圖為基礎。 一般情況下,一棵決策樹包含一個根節(jié)點、若干個內部節(jié)點和若干個葉節(jié)點。 決策樹學習的目的是為了產生一棵泛化能力強的決策樹,其基本流程遵循簡單而直觀的“分而治之”的策略。
集成學習(Ensemble Learning)通過構建并結合多個學習器來完成學習任務,用一些相對較弱的學習模型,獨力地就同樣的樣本進行訓練,然后把結果整合起來進行整體預測,常可獲得比單一學習器顯著優(yōu)越的泛化性能。 本文基于樹的集成學習算法,選取隨機森林(Random Forest)和XGBoost 算法進行分析研究。
基于神經網絡的算法是模擬生物神經網絡,是一類模式匹配算法,通常用于解決分類和回歸問題。人工神經網絡對一組輸入信號和一組輸出信號之間的關系進行建模,使用人工神經元或者節(jié)點的網絡來解決學習問題。
深度學習的概念源于對人工神經網絡的進一步研究,是對人工神經網絡的發(fā)展,尤其隨著云計算、大數據時代的到來,計算能力大幅度提高的今天,深度學習試圖建立更大更復雜的神經網絡,用來處理大規(guī)模數據集。
本文單一預測方法中使用到的算法分類與常用算法見表1。
表1 算法分類與常用算法Tab.1 Common algorithm classification
航空發(fā)動機系統(tǒng)十分復雜,零部件眾多、運行環(huán)境與工作載荷復雜多變、故障模式多樣,并且經常是多種失效模式復合,加上設備個體之間的差異、監(jiān)測的傳感器數量等因素影響,目前還沒有能夠適用于所有情況的預測方法。 針對于此,可采取對多種RUL 預測方法進行融合,相比單個預測方法,多種預測方法的融合能夠有效提升RUL 預測的精度和魯棒性。
為了進行比較,本文分別采用基于精度的加權融合和基于信息熵融合方法,對RUL 預測結果進行融合。
由于各種預測方法和模型的預測精度并不相同,有些方法的預測效果更好。 根據各種預測方法預測精度的不同,賦予不同的權重,然后對各種預測方法的預測結果進行加權求和。
基于精度的加權融合方法公式為:
關于權重的計算,本文根據單一預測方法的判定系數進行確定,判定系數越大,則權重越高。根據判定系數確定各預測方法權重的計算公式為:
基于信息熵融合方法的基本原理是:對于各種預測方法,如果預測誤差的變異度很大,在融合時其對應的權重應該比較小。
由于本文只對判定系數≥09 的預測方法進行融合,相對誤差值偏小,使得權重值呈現(xiàn)均勻分布。 因此基于信息熵融合時,利用各種預測方法在所有時刻的預測值與實際值之間的絕對誤差值構建的信息熵計算權重初始數據矩陣進行計算,具體過程如下:
假設,對種方法的預測結果進行融合,第種預測方法在時刻的預測值為rul。 首先計算第種預測方法在時刻預測的絕對誤差值:
其次,對每一種預測方法計算在所有時刻點的預測絕對誤差,得到由絕對誤差組成的序列,并對其進行歸一化處理:
式中,min 為絕對誤差序列的最小值,max 為絕對誤差序列的最大值。
再次對歸一化后的數據序列計算數據比重:
之后計算第種預測方法絕對誤差序列的信息熵,其計算公式為:
式中,為常數,1ln。
接著計算第種預測方法的變異度系數d。 由于0≤d≤1,根據預測絕對誤差序列的信息熵大小與變異度相反的原則,變異度系數d的計算公式為:
最后,計算各個預測方法的權重w, 計算公式為:
在本文中,由于難以獲得航空發(fā)動機全壽命周期的完整的樣本數據,所以采用美國國家航空航天局NASA 公布的渦扇發(fā)動機退化仿真數據集,作為此次剩余使用壽命預測的研究對象。
該數據集由4 組不同的數據構成,每組數據均由3 個操作參數和21 個傳感器監(jiān)測參數組成,本文選取其中的train_FD001 數據作為研究對象。
首先對數據進行預處理,其過程如下:
(1)計算“剩余使用壽命” (),將其作為機器學習回歸模型的目標變量。 假設隨時間線性下降,且在發(fā)動機最后一個時間周期的值為0。使用發(fā)動機最大運行周期(max_cycle)減去當前運行周期(cycle)計算。
(2)特征選擇。 對數據進行分析發(fā)現(xiàn):參數風扇入口溫度(2)、風扇入口壓力(2)、發(fā)動機壓力比率()、燃燒室燃料燒空氣比()、風扇轉速(_)、校正后風扇轉速(_) 等參數不含任何可用信息,因此做丟棄處理。
(3)通過蓋帽法,消除可能存在的異常值。 將所有參數中小于1%及大于99%的值,分別用1%分位數和99%分位數替換。
(4)特征衍生。 選取時間窗口長度20,對于運行周期序列號20 的數據,根據當前的參數數據及前20 個連續(xù)的參數數據,衍生出新的特征——均值和波動(最大值與最小值之差除以均值)。 而對于≤20 的數據,做丟棄處理。
(5)將預處理后的數據,采用最?。畲笾禋w一化方法,將數據歸一化在[0,1]范圍內。 歸一化公式為:
式中,為傳感器參數數據的最小值,為傳感器參數數據的最大值。
(6)劃分訓練集和測試集。 隨機選取80%的數據作為訓練集,20%的數據作為測試集。 評估每個算法的性能時,為保證每次劃分的結果相同,隨機種子設定為919。
通過對數據進行上述步驟的預處理,最終形成的數據包括影響發(fā)動機剩余使用壽命的參數共45個,作為目標變量,數據總量18 631 條。 其中訓練集14 904 條,測試集3 727 條。
將表1 中的9 個算法分別在訓練集上進行建模,并在相同的測試集上對模型進行評估。 選取均方根誤差(Root Mean Squared Error,RMSE)和判定系數() 作為模型的評估指標。
表2 列出了采用單一預測方法進行預測所得結果的評估結果;圖1 展示了單一預測方法均方根誤差的折線圖;圖2 展示了單一預測方法判定系數的折線圖。
圖1 單一預測方法的RMSEFig.1 RMSE of single prediction method
圖2 單一預測方法的判定系數Fig.2 Determination coefficient of single prediction method
表2 單一預測方法的評估結果Tab.2 Evaluation results of single prediction method
結果顯示:基于樹的3 種算法(決策樹、隨機森林和XGBoost)預測結果中,判定系數均超過0.9,屬于最佳類別;隨機森林的預測結果無論是在均方根誤差還是在判定系數方面均最佳。 而基于實例的算法KNN 也取得非常好的預測效果,相對于該算法的簡單性,效果出乎意料。 受訓練集樣本量大小的限制,深度學習算法并未發(fā)揮應有的優(yōu)勢,但模型預測效果也比較良好。
本節(jié)將選取單一預測方法中預測效果最佳的隨機森林模型做進一步的分析。
隨機選取編號25、50、62、88 的發(fā)動機,使用隨機森林方法預測的和實際對比結果如圖3所示。 可以看出:發(fā)動機在全壽命周期階段,模型的預測值和實際值的擬合程度都比較準確,總體分布在實際值附近。 隨機森林模型針對發(fā)動機這類復雜設備,具有較高的預測精度。
圖3 隨機森林方法的RUL 預測結果Fig.3 RUL prediction results of random forest
預測結果的誤差范圍,在一定程度上可以反映預測結果的精確性與穩(wěn)定性。 隨機森林預測方法在測試集的預測誤差分布如圖4 所示。 可以看出:預測誤差主要集中在0 附近,且誤差范圍相對較小,表明預測模型擁有很高的精確性和很好的穩(wěn)定性。
圖4 隨機森林方法的預測誤差分布Fig.4 Prediction error distribution of random forest
本文采用基于精度的加權融合與基于信息熵的融合方法,對RUL 預測結果進行融合。
由于不同預測方法的判定系數差異性較大,只選擇判定系數≥09 的預測方法進行融合。 兩種融合預測方法計算的各單一預測方法的權重值見表3。
表3 單一預測方法的權重值Tab.3 Weight of single prediction method
采用單一預測方法進行預測以及對預測結果進行融合后,所得評估結果見表4;單一預測方法和融合預測方法的均方根誤差的折線如圖5 所示;單一預測方法和融合預測方法的判定系數的折線如圖6 所示。
圖5 單一/融合預測方法的RMSEFig.5 RMSE of single/fusion prediction method
圖6 單一/融合預測方法的判定系數Fig.6 Determination coefficient of single/fusion prediction method
表4 單一/融合預測方法的評估結果Tab.4 Evaluation results of single/fusion prediction method
上述結果表明:融合預測方法的預測結果較單一預測方法擁有更高的預測精度,對多種預測方法的融合是提升預測精度的有效措施之一。
本文基于NASA 公布的渦扇發(fā)動機退化仿真數據,根據算法的功能和形式的類似性,將常用的回歸類算法進行分類,然后選取每類中比較經典的算法進行預測對比。 實例分析結果表明:基于樹的算法屬于最佳類別。 其中,隨機森林算法的單一預測效果最佳。
采用基于精度的加權融合與基于信息熵融合方法,對預測結果進行融合。 其結果表明: 融合預測方法無論在均方根誤差() 還是在判定系數() 方面,較單一預測方法都有一定的提升,其中基于精度的加權融合效果最佳。