朱 霖,寧 芊*,雷印杰,陳炳才
(1.四川大學電子信息學院,成都 610065;2.大連理工大學計算機科學與技術學院,遼寧大連 116085)
(?通信作者電子郵箱ningq@scu.edu.cn)
渦扇發(fā)動機是航空航天領域中非常常見,且非常重要的部件。渦扇發(fā)動機的運行狀態(tài)對評估航空器的壽命,有著決定性的作用。因此,跟蹤發(fā)動機的機械狀態(tài)和預測潛在的故障,是航空器維護中關鍵且必要的一環(huán)。基于狀態(tài)的維護(Condition-Based Maintenance,CBM)是一種常用的維護技術。它采用諸如監(jiān)視、分類和預測等手段來提高系統完好性和安全性,增強物流和供應鏈能力,同時降低維護和倉儲成本[1]。而剩余壽命(Remaining Useful Life,RUL)是CBM 中非常重要的指標之一。它指示了到設備失效之前,設備還能工作的時長[2]。準確地預測渦扇發(fā)動機的剩余壽命,能夠為設備的檢修與維護提供參考,從而避免因為過度維護帶來的成本提升,或因為疏于維護而導致的安全隱患。
設備的退化是兩大類原因共同造成的:一種是隨著時間的推移,某些部件發(fā)生了緩慢的退化。另一種則是在某一時間點,某些部件受到了強烈的外部作用而導致的劇烈的退化。而這兩種原因又會相互影響。因此,對渦扇發(fā)動機的剩余壽命預測,需要把握住瞬時變化與長期演化之間的辯證關系。當前,預測剩余壽命的手段大致包括:實驗驅動型、數據驅動型、物理模型驅動型以及混合型四種[3]。實驗驅動型方法依靠過往同型設備的歷史故障數據與經驗知識,為退化擬合出一套概率學的隨機過程。因為設備的使用環(huán)境和制造條件各不相同,預測的結果常常會有很大的誤差?;谖锢砟P万寗有偷姆椒?,會為設備的退化過程構建一個精確的物理模型,再依據這個模型來預測剩余壽命。而數據驅動型的方式僅依賴于收集到的狀態(tài)監(jiān)測(Condition Monitoring,CM)數據和一個精巧的數學模型。它們的差別主要在于:基于數據驅動的方式并不需要了解很多的物理知識或工程原理。最后一種混合型則是通過結合兩種或更多的預測方法,來完成預測工作。在這些數據驅動技術中,基于馬爾可夫過程和循環(huán)神經網絡(Recurrent Neural Network,RNN)的技術得到了廣泛的應用。以基于三態(tài)(正常工作、開始退化、工作失效)的連續(xù)時間隱馬爾可夫模型(Hidden Markov Model,HMM)為例,在潤滑油的監(jiān)測[4]、渦扇發(fā)動機的剩余壽命預測[5]以及齒輪箱的早期故障檢測[6]等領域,都有其應用場景?;贖MM 的模型通常假定設備的退化是一個隱藏的馬爾可夫過程,而退化過程是從觀測到的參數中推斷得到。在這個隨機過程中,任意時刻的狀態(tài)僅僅取決于前一刻的狀態(tài)。因此,在捕捉長時間的數據關聯時,需要付出巨大的計算成本與儲存成本。
循環(huán)神經網絡是另一類得到廣泛應用的模型,其工作原理是:通過其內部的循環(huán)結構單元不斷的遞歸計算,將狀態(tài)在自身網絡中循環(huán)傳遞,從時間序列中提取信息。文獻[7]通過時間梯度計算神經網絡反向傳播,改進了RNN 訓練的過程,并獲得了IEEE 2008 PHM 會議挑戰(zhàn)問題的第二名。文獻[8]則采用了動態(tài)優(yōu)化參數的RNN,完成了對鋰電池的剩余壽命預測工作。在RNN 的訓練過程中,由于RNN 獨特的遞歸結構,當前時刻的輸出依賴于前一時刻的狀態(tài)。這種依賴關系導致了RNN 的訓練過程無法并行地進行,因此需要消耗大量的計算資源。此外,長時間之前的信息也會在迭代的過程中逐漸變得模糊,而不能被很好地利用。這也導致了基于RNN的模型難以取得更精確的預測結果[9]。
為了解決信息模糊的問題,一種RNN 的變形——長短期記憶(Long-Short Term Memory,LSTM)網絡在RNN 的基礎上引入了控制門(gate),通過其內部輸入門、輸出門與遺忘門的配合,來傳遞長期有效的信息。LSTM及其變體在針對時序信息處理的研究中得到了廣泛的應用。例如,在關于滾動軸承的研究中,文獻[10]利用LSTM 構建了一個基于循環(huán)神經網絡的健康狀態(tài)指標(Recurrent Neural Network based Health Indicator,RNN-HI),利用粒子濾波算法將健康狀態(tài)指標(Health Indicator,HI)預測到預定義的閾值,對軸承的剩余壽命進行RUL 分析。在渦扇發(fā)動機的監(jiān)測研究中,文獻[11]用LSTM實現了對渦扇發(fā)動機剩余壽命的預測,并將其與卷積神經網絡(Convolutional Neural Network,CNN)進行了對比。LSTM 的另一種變體是雙向長短期記憶(Bidirectional Long-Short Term Memory,Bi-LSTM)網絡,通過將時序數據在不同的方向上進行處理,來得到更加豐富的信息。文獻[12]利用雙向長短期記憶網絡預測了渦扇發(fā)動機的剩余使用壽命。
盡管LSTM 通過在循環(huán)結構體上引入控制門解決了信息模糊的問題,但是,LSTM 在處理信息時仍舊依賴于循環(huán)結構體的迭代。此外由于控制門帶來的額外計算開銷,其訓練過程比RNN 更加漫長。時序卷積網絡(Temporal Convolutional Network,TCN)[13]是基于卷積結構的、專門用于處理序列信息的一種網絡結構,不僅能夠從局部到全局上把握序列的總體信息,而且使用卷積替代了遞歸,因此在訓練速度上也具有很大的優(yōu)勢。目前在音頻合成和機器翻譯等任務上,其優(yōu)勢已經得到了驗證。在這些任務上,TCN 的訓練速度明顯快于LSTM,同時其精度也不輸于一系列遞歸結構的網絡。在自然語言處理領域,文獻[14]提出了融合了TCN 的Transformer-XL 模型,不僅比RNN 有著更快的訓練速度,也更好地提取到了自然語言中存在的長期依賴關系。在語音識別領域提出的Conv-TasNet[15],也利用卷積結構帶來了更小的模型與更短的延遲。此外,文獻[16]也利用時序卷積網絡來構建健康指標HI,并借此對軸承健康狀態(tài)進行判斷。文獻[17]則結合LSTM 與TCN 兩種模型,構建出工業(yè)設備的剩余壽命預測模型。
當前有關數據驅動型剩余壽命預測的研究中,RNN 仍然占據著主流地位。在為數不多的涉及到時序卷積神經網絡的研究中,其都被用作補充手段,而并沒有發(fā)揮出TCN 獨特的性能優(yōu)勢。鑒于此,本文提出了一種遺傳算法優(yōu)選時序卷積網絡基模型的集成方法(Genetic Algorithm-based Selective ENsembling and Temporal Convolutional Network,GASENTCN),旨在為處于退化階段的渦扇發(fā)動機預測剩余使用壽命。一方面,利用時序卷積網絡訓練較快與善于捕捉長期依賴關系的優(yōu)點,來提供較為精確的預測結果;另一方面,通過基于遺傳算法的集成方法,來彌補時序卷積網絡對數據集敏感的缺陷。這一融合結合了各自的技術優(yōu)勢,使對渦扇發(fā)動機的剩余壽命預測更加準確,從而對設備的健康管理與維護決策提供有力的支撐。
時序卷積網絡(TCN)(并非文獻[18]提出的同名模型)在典型的卷積神經網絡(CNN)與殘差網絡(Residual Network,Res-Net)[19]的基礎上,對卷積的方式進行了改進。通過引入空洞卷積與數據切片,得到了擁有因果性和長效性的時序空洞卷積(Dilated Causal Convolution)。因果性意味著當前的卷積結果只取決于現在的和以前的輸入,而長效性則為卷積帶來了很大的感受野(Large Receptive Field)。TCN 的卷積結構[13]如圖1所示。
假定輸入序列x=(x0,x1,…,xT),輸出序列y=(y0,y1,…,yT)與輸入序列有著相同的長度,且yt只涉及時間t和時間t之前的元素。為了能夠實現等長的因果卷積,TCN在卷積之前,對輸入進行了預處理,將變換函數記作f。假設當前時間點為t0,一維因果卷積則將所有t 然而,如果僅僅采用一維因果卷積,需要一個非常深的網絡來從一個很長的持續(xù)時間中提取信息。因為隨著深度的提升,其感受野的提升是很緩慢的。為了克服這一缺點,TCN采用了膨脹卷積的手段。膨脹卷積運算是對具有固定間隙的單元進行卷積。如圖1 所示,δ為擴張因子,擴張因子隨著網絡層數的上升而增大。很明顯,采用膨脹卷積時,其感受野的擴張遠快于普通卷積運算。 圖1 時序卷積網絡(TCN)結構Fig.1 Structure of Temporal Convolutional Network(TCN) 渦扇發(fā)動機在正常運行時,其工況穩(wěn)定且退化情況很不明顯;而當其臨近失效時,發(fā)動機會發(fā)生急劇退化。因此,需要對RUL 進行標定。由于待預測的系統其狀態(tài)未知,因此在評估一個預測剩余壽命的模型時,生成其壽命標簽的過程較為復雜。常用的標定策略是通過分段函數實現[12,20]。如果RUL 標定策略函數記作g,將設定的上界記為U。那么函數g可以表示為式(2): g(x)的函數圖像如圖2 所示,其上界的選取與渦扇發(fā)動機的退化情況緊密相關。依據文獻[7]的實驗,上界選取范圍在120~130較為合適。本文采用的上界為125。 圖2 分段RUL標定曲線Fig.2 Piece-wise RUL calibration curve 在處理多變量時間序列問題中,常常會遇到不同的數據軌跡長度不同的問題。為了能夠挖掘長期數據之間的依賴關系,常用的處理手段是通過滑動時間窗口技術(sliding time window processing technique)[21]將一段時間內的傳感器數據采集為一個個等長的高維向量。這一做法人為地切斷了不同向量之間的聯系,不利于把握全局的退化過程。因此,本文中采取的是另一種手段,通過將不同長度的數據軌跡進行0 填充(Padding),來對齊不同的樣本。 如圖3 所示,設所有軌跡的長度組成的向量為T=(t1,t2,…,tn),其中軌跡C 為所有樣本中最長的軌跡,長度為tmax。對任意軌跡A,設其持續(xù)時間為tn,在軌跡A的t=tn之后填充tp=tmax-tn個零。 圖3 通過填充手段來對齊不同長度的軌跡Fig.3 Aligning tracks with different lengths by padding method 為了捕捉特征之間的長期關聯,同時不遺漏關鍵的瞬時信息,本文采用了組合多個改進后的時序殘差塊組成的殘差時序神經網絡作為集成方法中的基處理器,其主要結構如圖4 所示。網絡依次序堆疊了四個擁有不同的膨脹系數的時序殘差塊(TCN Block)與一個全連接層(Fully Connected Layer)。每一個殘差塊主要包括了兩個時序空洞卷積(Dilated Causal Convolution)與一個1×1 的短路連接卷積。每一個殘差塊內部的時序空洞卷積都擁有著相同的膨脹系數。而在不同的殘差塊中,后一級殘差塊的膨脹系數是前一級的兩倍。通過膨脹系數的逐層增長,保證了卷積的局部感受野能夠有次序地拓張,從而做到:在把握部分關鍵信息的同時,也能夠從整體上綜合考慮。 在最后一級的殘差塊之后,僅僅提取出某一時間點的數據,輸出到下一級。對于某一數據軌跡χi來說,其軌跡長度為ti。則對應的最后一級的輸出Oi∈Rc×l。其中,c為傳感器通道維度,l為時間維度。提取操作是將對應持續(xù)時間t=ti處的所有通道數據取出,得到∈Rc×1。最終將結果輸出到全連接層,輸出預測出的剩余壽命RUL。 由于殘差時序卷積神經網絡其出色的擬合能力,在訓練集合規(guī)模不大的情況下,很容易出現過擬合的情況。為了提升其泛化能力,降低由于方差(Variance)帶來的誤差,本文采用以殘差時序卷積神經網絡為子學習器,以基于遺傳算法的集成方法來作為組織這些學習器的手段,完成模型的構建。剪枝是一種非常常用的優(yōu)化手段。對于集成方法而言,利用剪枝來優(yōu)化,即刪去子模型池中那些泛化性能差的子模型,不僅能夠減小最終模型的規(guī)模,還能夠提升模型整體的表現。因此,本文采用遺傳算法來評價各個子模型對泛化性能的貢獻,最終淘汰掉部分貢獻較小的子模型來完成優(yōu)化工作。 圖4 殘差時序卷積神經網絡結構Fig.4 Structure of residual temporal convolutional neural network 基于遺傳算法的集成神經網絡的訓練主要分為兩個階段:基學習器的訓練與模型選優(yōu)。在訓練集成神經網絡之前,首先將訓練集χ劃分為兩部分:模型池訓練集χt與模型池驗證集χv。其中的模型池訓練集用來訓練模型池中神經網絡,模型池驗證集則是用作后續(xù)模型選優(yōu)。 在訓練模型時,模型池中的網絡各自獨立地從模型池訓練集中通過自助采樣法(Bootstrapping)的方式采樣得到,且χt與擁有相同規(guī)模的模型。然后,隨機從中保留10 個通道的傳感器信息,即:模型池中的每個模型都各自獨立地得到了訓練集的一個切面。模型選優(yōu)的過程,則是為模型池中的模型構建一個權重向量w,再根據從訓練集中劃分出來的χv與遺傳算法(GA),訓練得到一個最優(yōu)的權重向量w'。最終根據權重值的不同,淘汰掉一批泛化能力差的模型后,得到一組可用的模型。詳細的步驟如算法1所示。 算法1 基于遺傳算法的自助聚集算法。 本文的驗證數據來源于商用模塊化航空推進系統模擬模型(Commercial Modular Aero-Propulsion System Simulation,C-MAPSS)[22]。所生成的數據具有不同的運行條件和故障模式,如表1 所示。每一組都有自己的訓練集和測試集:訓練集包括了測試對象完整的生命周期數據;測試集中的數據軌跡,則是停止于測試對象失效前的某一個時間點。 表1 C-MAPSS 數據集信息Tab.1 Information of C-MAPSS dataset 每條數據軌跡在每個時刻都采集了24條數據,這24條數據是由21 個未知傳感器測量數據和3 個操作設定信號組成。由于操作設定信號與傳感器數據有著強相關關系,因此在預處理過程中要排除操作設定信號的影響。首先,將操作信號分為6 組,對傳感器測量數據在其范疇內進行標準化;然后,測量每組傳感器的信號與目標RUL 的相關關系進行衡量,將不相關的傳感器信號丟棄。實際操作中,相關性閾值設定為±0.2。最后保留下來的數據軌跡χ是由編號為2、3、4、7、8、9、11、12、13、14、15、17、20、21 的傳感器數據組成的。另外,參考當下流行的研究,本文將訓練集和測試集的剩余壽命標簽設置為了一個分段的線性函數。當RUL的值超過125時統一指定為125。 為了能夠較為全面地反映不同模型之間的差異,本文從不同角度摘選了幾個指標。令一批測試樣本χ包括n條數據軌跡,其真實的剩余壽命記作列向量RULa,預測的剩余壽命記作列向量RULp。經典的評價指標包括均方根誤差(Root Mean Squared Error,RMSE)、平均絕對誤差(Mean Absolute Error,MAE),其計算式如下: 除了RMSE 和MAE 之外,本文還采用了另外兩個相對指標:指數評價函數(Scoring Function,SF)和相對準確率(Accuracy)。相對指標對剩余壽命預測偏少與偏多設置了不同的懲罰系數,分別記作α1與α2。并且當α1>α2時,相較預測剩余壽命偏多,評價體系會偏好于預測偏少的模型。這是因為,比起設備失效后預警,在設備失效之前預警顯然會帶來較小的損失。 如圖5 所示,參考流行的文獻[20],文中采取的懲罰因子為:α1=13,α2=10。 圖5 指數評價函數H(d)的函數圖(α1=13,α2=10)Fig.5 Function graph of scoring function H(d)(α1=13,α2=10) 為了驗證GASEN-TCN 的效果,在FD001~FD004 數據集上,與三組不同的機器學習模型進行了對比:第一組是經典的支持向量回歸(Support Vector Regression,SVR);第二組是同樣采用了集成學習思想的隨機森林回歸(Random Forest,RF),與近兩年流行的基于決策樹的提升機器算法LightGBM(Light Gradient Boosting Machine)[23];第三組則是以Bi-LSTM[12]、BHSLSTM(Bidirectional HandShaking LSTM)[20]與TCN 為代表的基于神經網絡的回歸模型。其中,Bi-LSTM 與BHSLSTM 采取了不同的雙向提取信息的方式。GASEN-TCN的初始參數如表2 所示,主要包含基學習器的訓練參數與繼承剪枝時的參數。實驗共進行了三次,最終取三次實驗的平均值作為結果,詳細的實驗結果如表3 所示。圖6 則展示了FD001數據集上各個模型的主要指標之間的差異。 表2 GASEN-TCN 模型初始化參數設置Tab.2 GASEN-TCN model initialization parameter setting 表3 GASEN-TCN與當下流行方法的對比Tab.3 Comparison of GASEN-TCN with currently popular methods 根據實驗結果可以得知,GASEN-TCN 在不同的工作狀況和故障模式下都取得了很好的效果。以FD001 數據集為例:與第二組模型的比較結果表明,利用TCN 而不是簡單決策樹作為基學習器,能夠為繼承帶來更好的效果;與第三組的比較結果表明,對神經網絡的集成比單個神經網絡有著更好效果。 另外,為了體現GASEN-TCN引入了剪枝策略帶來的泛化性能提升效果,在FD001 數據集上,訓練了24 個子學習器,對兩組不同的集成手段進行了對比。第一種GASEN-TCN 通過遺傳算法選優(yōu)保留了80%的子學習器模型。而另一組Bagging 則為全部保留。作為對比,第三組TCN 則是24 個子學習器的平均性能指標。最終結果如圖7 和表4 所示,GASEN-TCN 通過淘汰了部分模型,確實帶來了泛化性能上的提升。 圖6 不同方法在FD001數據集上的主要指標對比Fig.6 Comparison of main indicators of different methods on FD001 dataset 圖7 GASEN帶來的泛化性能提升Fig.7 Improvement of generalization performance brought by GASEN 表4 以剪枝策略為集成方法帶來的泛化性能提升Tab.4 Generalization performance improvement brought by using pruning strategy as ensembling method 本文為實現渦扇發(fā)動機連續(xù)監(jiān)測數據,提出了GASENTCN模型來對數據中的信息進行提取。其優(yōu)勢在于兼顧了時序卷積神經網絡的在學習能力上的優(yōu)勢和集成方法對減小數據集方差的作用,從而能夠構建一個泛化性能良好的模型。盡管這一模型在預測的精度上有著其獨特的優(yōu)勢,然而,由于GASEN 需要訓練多個模型然后進行剪枝,訓練過程較長,得到的模型也比較大。未來可以探索更加有效的模型篩選方式,以及可以嘗試更加有效的基學習器來替代TCN,以期在帶來預測精度提升的同時,消耗更少的計算資源。1.2 分段RUL標定策略
2 本文模型
2.1 多變量時序數據處理
2.2 殘差時序卷積神經網絡
2.3 基于遺傳算法的集成方法
3 實驗與結果分析
3.1 C-MAPSS數據集與預處理
3.2 評價指標
3.3 結果對比與分析
4 結語