張 豹,劉 瓊,吳細(xì)寶,陳雯柏
(北京信息科技大學(xué)自動化學(xué)院,北京 100192)
隨著對核心設(shè)備可靠性和安全性要求的不斷提高,高效預(yù)測設(shè)備的使用壽命,已經(jīng)成為近二十年來研究的熱點問題[1]。大量的工程實踐證明,良好的預(yù)測與健康管理(prognostics and health management,PHM)不僅可以優(yōu)化設(shè)備的資源管理配置、保障維修、延壽工作,還可以提高設(shè)備運行的可靠性和安全性[2]。作為PHM技術(shù)的核心基礎(chǔ),剩余使用壽命(remaining useful lifetime, RUL)預(yù)測是依據(jù)設(shè)備的歷史狀態(tài)監(jiān)測數(shù)據(jù),評估設(shè)備的健康狀態(tài),從而實現(xiàn)對設(shè)備的健康管理和合理維護(hù)。渦扇發(fā)動機(jī)作為航天設(shè)備的核心部件,高效預(yù)測其剩余使用壽命,適時評估其健康狀態(tài),對減少重大事故的發(fā)生具有重要的意義[3]。
根據(jù)不同的實驗機(jī)理和實驗方法,建立不同的剩余壽命預(yù)測模型。如,分析導(dǎo)致系統(tǒng)失效的物理、化學(xué)原因,建立基于失效機(jī)理的剩余壽命預(yù)測方法[4];利用監(jiān)測數(shù)據(jù)和失效數(shù)據(jù),通過機(jī)器學(xué)習(xí)擬合系統(tǒng)性能變化規(guī)律,建立基于機(jī)器學(xué)習(xí)的監(jiān)測數(shù)據(jù)與失效時間之間的映射關(guān)系,實現(xiàn)剩余壽命預(yù)測[5];統(tǒng)計系統(tǒng)日常運行監(jiān)測數(shù)據(jù),提取可以反映系統(tǒng)健康狀態(tài)的性能變量,建立系統(tǒng)性能退化趨勢演化規(guī)律的隨機(jī)過程模型完成剩余壽命預(yù)測[6]。
傳統(tǒng)的剩余壽命預(yù)測方法大部分是基于Gamma過程、Markov鏈、隱含馬氏過程[7]等,由于此類方法具有單一性和不可逆性,使得在實際應(yīng)用中存在諸多局限。目前,渦扇發(fā)動機(jī)的剩余使用壽命預(yù)測模型大多是建立在深度神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上。如,朱霖[8]等提出了一種采用遺傳算法優(yōu)選時序卷積網(wǎng)絡(luò) (temporal convolutional network, TCN)的基元,并對優(yōu)選基元進(jìn)行集成的剩余使用壽命預(yù)測模型。宋亞[9]等建立了一種整合自編碼神經(jīng)網(wǎng)絡(luò)(Autoencoder)和雙向長短期記憶(bidirectional long short-term memory, BLSTM)神經(jīng)網(wǎng)絡(luò)優(yōu)勢的混合健康狀態(tài)預(yù)測模型,優(yōu)化預(yù)測剩余使用壽命。徐碩[10]等提出一種將變分自編碼器和雙判別器對抗式生成網(wǎng)絡(luò)(dual discriminator generative adversarial nets, D2GAN)相結(jié)合的預(yù)訓(xùn)練特征提取模型,之后利用長短時記憶網(wǎng)絡(luò)(long short-term memory,LSTM)建立預(yù)測模型。然而,此類基于深度神經(jīng)網(wǎng)絡(luò)的預(yù)測模型雖然具有較高的預(yù)測精度,但收斂速度慢、對數(shù)據(jù)量的要求高,且過于依賴網(wǎng)絡(luò)初值和網(wǎng)絡(luò)的隱節(jié)點數(shù),降低了模型的預(yù)測效率。
XGBoost算法采用的Pre-Sorted特征排序方式和Block數(shù)據(jù)存儲結(jié)構(gòu),高效地節(jié)省了訓(xùn)練時間,算法中加入的正則項,便于控制模型的復(fù)雜度,有利于避免過擬合,提高模型的泛化能力。本文基于XGBoost算法建立的預(yù)測模型,預(yù)測精度在可接受的偏差范圍內(nèi),同時提升了運算速度和穩(wěn)定性,提高了模型的綜合預(yù)測效率。
本文的實驗數(shù)據(jù)集使用NASA官網(wǎng)的渦扇發(fā)動機(jī)仿真數(shù)據(jù)集(C-MAPSS)的Kaggle版本。該數(shù)據(jù)集包含渦扇發(fā)動機(jī)全生命周期的模擬數(shù)據(jù)和某時刻采集的剩余壽命值。由FD001、FD002、FD003、FD004四組數(shù)據(jù)構(gòu)成,其中每一組數(shù)據(jù)均是在不同的操作條件和故障模式下采集得到,數(shù)據(jù)集情況如表1所示。
表1 C-MAPSS數(shù)據(jù)集
每一組退化軌跡數(shù)據(jù)均由設(shè)備號、循環(huán)周期、3種設(shè)置參數(shù)和21個傳感器的測量數(shù)據(jù)構(gòu)成。實驗中,使用循環(huán)周期來重構(gòu)渦扇發(fā)動機(jī)的剩余壽命數(shù)據(jù);3種設(shè)置參數(shù)和21個傳感器的測量數(shù)據(jù)對渦扇發(fā)動機(jī)的剩余壽命影響各不相同,會呈現(xiàn)出正相關(guān)、負(fù)相關(guān)、不相關(guān)和不確定的關(guān)系,因此,需對該數(shù)據(jù)進(jìn)行特征選擇處理,以便剔除無關(guān)變量、篩選重要特征、減少運算量。以FD001組數(shù)據(jù)為例,對數(shù)據(jù)預(yù)處理分析和特征選擇過程進(jìn)行詳細(xì)介紹。
FD001組的數(shù)據(jù)集是根據(jù)每臺設(shè)備在某一時刻下開始采集得到的剩余使用壽命數(shù)據(jù)。FD001組100臺設(shè)備的剩余使用壽命分布情況如圖1所示。其中,橫坐標(biāo)所代表的剩余使用壽命是指設(shè)備在完成數(shù)據(jù)采集后的剩余飛行次數(shù)。
人事檔案管理需要完善健全的制度,只有這樣才能綜合性提升其管理水平,才能切實提升人事檔案管理的成效。當(dāng)前,大部分事業(yè)單位人事檔案管理工作中,缺乏科學(xué)完善的制度,缺乏全面系統(tǒng)的體系,管理不夠規(guī)范。
圖1 FD001組數(shù)據(jù)集中RUL分布情況
由于某一時刻采集的剩余壽命數(shù)值無法體現(xiàn)設(shè)備的整個退化軌跡過程,因此,需要補(bǔ)全整條退化軌跡數(shù)據(jù),才能完整分析出3種設(shè)置參數(shù)和21個傳感器的測量數(shù)據(jù)如何影響渦扇發(fā)動機(jī)的剩余壽命。根據(jù)訓(xùn)練集和測試集數(shù)據(jù),建立如下公式重構(gòu)退化軌跡數(shù)據(jù):
重構(gòu)后的剩余壽命數(shù)據(jù)如圖2所示。
圖2 重構(gòu)后的渦扇發(fā)動機(jī)剩余壽命數(shù)據(jù)
由圖2可知,重構(gòu)后的數(shù)據(jù),包含了渦扇發(fā)動機(jī)在各個采集時刻的剩余壽命值,即渦扇發(fā)動機(jī)剩余壽命的完整退化軌跡。
特征選擇對算法性能起著主導(dǎo)性作用,旨在從數(shù)據(jù)集中提取具有代表性的特征。一方面,提高模型的預(yù)測性能,另一方面,減少運算量。對重構(gòu)后的數(shù)據(jù)進(jìn)行分析,3種設(shè)置參數(shù)和21個傳感器的測量數(shù)據(jù)與渦扇發(fā)動機(jī)的剩余使用壽命關(guān)系定義如下:
1) 正相關(guān):隨著剩余壽命值減小而傳感器測量值逐漸減小的特征,即正相關(guān)特征。
2) 負(fù)相關(guān):隨著剩余壽命值減小而傳感器測量值逐漸增大的特征,即負(fù)相關(guān)特征。
3) 不相關(guān):方差為0的特征,即不相關(guān)特征。
4) 不確定:不隨剩余壽命值的減小而規(guī)律變化的特征,即不確定特征。
表2 不同特征與RUL之間的相關(guān)性分類
考慮到 Setting_1、Setting_2與 FD001組第一臺設(shè)備的剩余壽命存在不確定的關(guān)系,故將其劃分到可用特征范圍內(nèi),24個特征最終篩選出16個可用特征。圖3~圖6分別展示了4類不同相關(guān)性特征與第一臺設(shè)備的剩余壽命退化軌跡之間的關(guān)系。其中1 psia=6 895 Pa ,1 kft=304.8 m。
圖3 核心機(jī)物理轉(zhuǎn)速與RUL退化軌跡的關(guān)系
圖4 風(fēng)扇物理轉(zhuǎn)速與RUL退化軌跡的關(guān)系
圖5 風(fēng)扇進(jìn)口壓強(qiáng)與RUL退化軌跡的關(guān)系
圖6 飛行高度與RUL退化軌跡的關(guān)系
Boosting集成學(xué)習(xí)[11]通過將多個弱學(xué)習(xí)器串行迭代得到強(qiáng)學(xué)習(xí)器?;具^程是:首先依據(jù)初始訓(xùn)練集生成一個基學(xué)習(xí)器,在每一層訓(xùn)練的時候,根據(jù)基學(xué)習(xí)器的表現(xiàn),更新訓(xùn)練數(shù)據(jù)的權(quán)值分布,對前一層基學(xué)習(xí)器分錯的樣本,給予更高的權(quán)重;然后基于改變后的訓(xùn)練數(shù)據(jù)訓(xùn)練下一個基學(xué)習(xí)器,層層疊加,直至得到預(yù)期的M個基學(xué)習(xí)器或達(dá)到規(guī)定的錯誤率;最后根據(jù)各基學(xué)習(xí)器的誤差結(jié)果進(jìn)行加權(quán)組合,構(gòu)成一個強(qiáng)的集成學(xué)習(xí)器。
梯度提升決策樹算法(Gradient Boosting Decision Tree,GBDT)將 Gradient Boosting思想與 Boosting Tree結(jié)合,選擇回歸樹作為基學(xué)習(xí)器,沿著負(fù)梯度的方向擬合每棵回歸樹,使殘差逐漸減小。實現(xiàn)步驟如下:
在GBDT算法的基礎(chǔ)之上,陳天奇于2015年提出了 XGBoost(extreme gradient boosting)算法[14]。二者最大的區(qū)別在于損失函數(shù)的不同,GBDT算法在求解基函數(shù)中使用負(fù)梯度近似殘差值,即對損失函數(shù)做泰勒公式的一階展開,而XGBoost 算法對損失函數(shù)進(jìn)行了二階泰勒公式展開,相比較一階泰勒公式展開,該方法與實際損失函數(shù)值更接近、收斂速度更快、準(zhǔn)確率更高。
本文基于XGBoost算法框架建立剩余壽命預(yù)測模型。以回歸樹作為基學(xué)習(xí)器,通過對平方差損失函數(shù)的二階泰勒公式展開逼近殘差,迭代至預(yù)期的M個基學(xué)習(xí)器。并采用網(wǎng)格搜索方法,對模型的參數(shù)進(jìn)行優(yōu)化。模型結(jié)構(gòu)如圖7所示。
圖7 模型結(jié)構(gòu)框圖
模型訓(xùn)練過程的具體步驟如下:
1) 數(shù)據(jù)重構(gòu),根據(jù)公式(1)重構(gòu)出可以反映渦扇發(fā)動機(jī)剩余使用壽命的完整退化軌跡數(shù)據(jù);
2) 特征選擇,分析每個特征與RUL退化軌跡之間的關(guān)系,分類、篩選出可用特征作為輸入數(shù)據(jù);
3) 讀取數(shù)據(jù),迭代訓(xùn)練,更新權(quán)值,網(wǎng)格搜索,優(yōu)化參數(shù),保存模型;
4) 輸入待預(yù)測數(shù)據(jù),輸出預(yù)測結(jié)果;
5) 比較結(jié)果,分析原因。
算法實現(xiàn)如圖8所示。
圖8 算法實現(xiàn)框圖
該研究以北京信息科技大學(xué)智能科學(xué)與技術(shù)系視覺實驗室的計算機(jī)網(wǎng)絡(luò)、工作站和微機(jī)環(huán)境為實驗平臺,選擇C-MAPSS渦扇發(fā)動機(jī)仿真數(shù)據(jù)集為實驗數(shù)據(jù),基于PyTorch深度學(xué)習(xí)框架實現(xiàn)。
實驗采用均方根誤差(RMSE)和擬合優(yōu)度(r2)對模型的預(yù)測性能進(jìn)行評價。
RMSE越小說明模型的性能越好;擬合優(yōu)度反應(yīng)了x對y變化的描述程度,即r2越接近1,說明模型的擬合效果越好。
將測試集中每臺設(shè)備的最后一行數(shù)據(jù),即包含16個可用特征的數(shù)據(jù)輸入兩種模型后,預(yù)測結(jié)果如圖9所示。
圖9 GBDT與XGBoost模型預(yù)測結(jié)果
從圖9可以看出,XGBoost的預(yù)測結(jié)果更接近RUL的實際分布情況,模型預(yù)測性能優(yōu)于GBDT。不同的模型實驗結(jié)果對比如表3所示。
表3 不同模型性能指標(biāo)結(jié)果
分析表3可知,與CNN-LSTM方法相比,本文基于XGBoost算法的模型預(yù)測精度雖然略低,但運行時間較短,綜合效率更高。基于XGBoost算法的模型預(yù)測性能優(yōu)于GBDT算法,其中,擬合優(yōu)度(r2)提升了約5%;均方根誤差(RMSE)降低約6.83%。
此外,模型還可輸出基于F score的特征重要性定量評價結(jié)果,便于更進(jìn)一步的特征篩選,得分越高,說明該特征對模型預(yù)測性能影響越大。16個可用特征的重要性排序結(jié)果如圖10所示。
圖10 不同特征對模型預(yù)測性能的影響重要性
本文針對C-MAPSS渦扇發(fā)動機(jī)的剩余壽命退化軌跡數(shù)據(jù),分別建立了基于GBDT和XGBoost算法的剩余壽命預(yù)測模型,并對比分析了不同模型的預(yù)測性能和實驗結(jié)果。雖然優(yōu)化后的GBDT和XGBoost模型預(yù)測精度略低于CNN-LSTM方法,但集成學(xué)習(xí)的運行時間較短,綜合效率更高,同時還可以輸出特征重要性程度的排序,分析影響渦扇發(fā)動機(jī)剩余壽命的主要因素。未來將進(jìn)一步研究影響模型性能的關(guān)鍵因素,并改進(jìn)模型優(yōu)化方法,以進(jìn)一步提高RUL預(yù)測精度。