馬依琳,陶慧玲,董啟文,王 曄
(華東師范大學 數(shù)據(jù)科學與工程學院,上海 200062)
隨著在線購物的日益普及,我國物流行業(yè)蓬勃發(fā)展.航空物流作為現(xiàn)代物流的重要組成部分,具有高時效性的顯著特點,能夠滿足人們對物流速度更高的需求.在近兩年全球疫情形勢下,航空物流更是表現(xiàn)出了其重要的戰(zhàn)略作用.我國航空物流的體量較大,2020 年我國航空貨郵周轉量完成了240.2 億噸公里,規(guī)模穩(wěn)居全球第二[1].但相比發(fā)達國家,我國航空物流發(fā)展的起點較晚,存在前期投入高、運營成本高等問題.根據(jù)國際咨詢機構Armstrong &Associates 估算的數(shù)據(jù),2019 年中國物流費用約占GDP 的14.50%,相比美國8.00%的占比,仍有很大的發(fā)展?jié)摿2].在復雜多變的國際形勢下,如何降低航空物流的成本,提高服務質(zhì)量,保障國內(nèi)國際雙循環(huán),是我國航空物流下一階段發(fā)展的挑戰(zhàn)[1].
確保飛機安全運行是整個運輸流程中首要保證的環(huán)節(jié),一旦飛機發(fā)生意外事故,不僅會造成巨大的財產(chǎn)損失,更會造成不可挽回的人員傷亡,后果不堪設想.對飛機進行維護和修理的費用在航空公司運營成本中占據(jù)了很大部分,單機單次檢修的成本高達100 萬元至800 萬元[3].發(fā)動機作為飛機最核心的部件,它的可靠性和安全性在飛機整體運行中起著至關重要的作用.由于航空發(fā)動機的結構十分復雜,零部件眾多,又經(jīng)常處于高溫、高壓、高速旋轉的高負荷工作環(huán)境,不可避免地會出現(xiàn)性能退化或故障的情況.有資料顯示[4],航空發(fā)動機的維修成本占飛機總維修成本的1/3 以上.
傳統(tǒng)的發(fā)動機維修方式可以分為基于故障的維修和基于時間的維修[4].基于故障的維修是指當故障發(fā)生以后,對特定的故障零部件進行維修或更換,這種事后的維修方式無法對未來可能發(fā)生的故障起到預防的作用.基于時間的維修是指根據(jù)發(fā)動機制造商所提供的維修時間表,定期地對發(fā)動機進行檢查和修理,是一種預防性維修方式.但是定期維修沒有考慮到發(fā)動機的個體差異,無法對每個發(fā)動機制定科學合理的維修時間間隔,過度維修會加重維修成本負擔,而缺乏維護則會導致嚴重的事故發(fā)生.如何在降低維修成本的同時,確保航空發(fā)動機的安全性和可靠性,是航空發(fā)動機發(fā)展中所遇到的難題.
故障預測和健康管理 (Prognostics and Health Management,PHM) 是美國等航空發(fā)達國家所提出的一種健康管理技術[5],旨在推動維修保障模式改革,提高發(fā)動機的安全性和經(jīng)濟性.其中,剩余使用壽命 (Remaining Useful Life,RUL) 預測是指根據(jù)設備當前的健康狀態(tài)、工作環(huán)境和傳感器監(jiān)測信息等,結合物理模型、歷史數(shù)據(jù),對未來故障發(fā)生的時間進行預測,估計設備的剩余使用壽命,是故障預測技術中最具挑戰(zhàn)性和最核心的部分.根據(jù)所預測發(fā)動機的剩余使用壽命,可以合理地制訂飛行計劃和檢修計劃,及時地發(fā)現(xiàn)隱蔽的故障,預防事故的發(fā)生,進行健康管理.
目前,國內(nèi)外對RUL 預測的研究大致分為3 類: 基于物理模型的方法、數(shù)據(jù)驅動的方法和兩者混合的方法.基于物理模型的方法是指根據(jù)發(fā)動機的失效機理或損傷法則、設備的結構特點以及專家經(jīng)驗等多方面因素,對研究對象構建相應的物理模型,該物理模型能夠具體地解釋產(chǎn)品退化規(guī)律,如Paris 等[6]針對機械材料疲勞裂紋擴展問題而建立的Paris-Erdogan 模型,經(jīng)過不斷的改進和更新,得到了廣泛的應用[7-9].雖然基于物理模型的方法準確性較高,但它對研究對象的先驗知識要求非常高,而且對于航空發(fā)動機這類結構特別復雜的設備,通常難以構建準確、全面的物理失效模型,適用性較低.
數(shù)據(jù)驅動的方法是指對大量的監(jiān)測數(shù)據(jù)直接建模,從數(shù)據(jù)中得到設備的潛在退化規(guī)律,從而預測設備的RUL.數(shù)據(jù)驅動的方法不要求研究者具備大量關于設備運行原理的先驗知識,而且從數(shù)據(jù)中更能發(fā)現(xiàn)一些難以人工發(fā)現(xiàn)的、比較隱蔽的故障特征.因此,數(shù)據(jù)驅動的方法在航空發(fā)動機RUL 預測問題中被廣泛研究.根據(jù)所使用的算法不同,數(shù)據(jù)驅動的方法又可以細分為基于統(tǒng)計分析的方法、基于傳統(tǒng)機器學習的方法和基于深度學習的方法.基于統(tǒng)計分析的方法將傳感器數(shù)據(jù)擬合為某一用來模擬產(chǎn)品退化過程的隨機過程模型,如基于維納過程的模型[10-11]、基于伽馬過程的模型[12]和基于逆高斯過程的模型[13]等,以此估計產(chǎn)品的剩余使用壽命.此類方法通常對產(chǎn)品的退化過程做了一定的限制和假定,在實際過程中很難被保證,從而限制了其實用性和可靠性.與之相比,機器學習的方法不對設備的退化過程做任何前提假設,直接建立從輸入數(shù)據(jù)到RUL 的映射模型,對發(fā)動機這類復雜設備來說,此類方法更具有實用意義.一些早期的研究使用了傳統(tǒng)機器學習的方法,如Nieto 等[14]實現(xiàn)了基于混合粒子群優(yōu)化支持向量機參數(shù)的模型對發(fā)動機RUL 進行預測、Khelif 等[15]使用支持向量回歸擬合RUL.傳統(tǒng)機器學習方法只能以標量的形式獨立地處理時序數(shù)據(jù),在特征處理方面具有一定的局限性;而基于深度學習的方法不需要進行繁瑣的特征工程,且更適合處理大量的、高維度的數(shù)據(jù).因此,基于深度學習的方法在航空發(fā)動機RUL 預測問題上具有更廣闊的應用前景,受到了更多的關注.
循環(huán)神經(jīng)網(wǎng)絡 (Recurrent Neural Network,RNN)和卷積神經(jīng)網(wǎng)絡 (Convolutional Neural Network,CNN) 是在RUL 預測中最常使用的兩種深度學習神經(jīng)網(wǎng)絡.由于RNN 存在梯度消失和梯度爆炸的問題,其變體長短期記憶網(wǎng)絡 (Long Short Term Memory,LSTM)和門控循環(huán)單元 (Gated Recurrent Unit,GRU) 通過門控制單位對其做了改進,得到了更廣泛的應用,例如: Shuai 等[16]提出了基于LSTM 的RUL 估計方法,并在3 個廣泛使用的公開數(shù)據(jù)集上進行了驗證;Ren 等[17]使用多尺度全連接GRU 網(wǎng)絡對軸承的RUL 進行了預測;Wang 等[18]提出了基于雙向長短期記憶 (Bidirectional Long Short Term Memory,BiLSTM) 的方法,實現(xiàn)了RUL 預測;Hu 等[19]等提出的雙向遞歸神經(jīng)網(wǎng)絡(Deep Bidirectional Recurrent Neural Network,DBRNN)集成方法,構建了幾種不同的DBRNN,將得到的一系列RUL 值重新封裝,從而得到最終的結果;Li 等[20]首先利用主成分分析 (Principal Component Analysis,PCA) 對傳感器數(shù)據(jù)進行降維,然后利用LSTM 對提取的時間序列數(shù)據(jù)進行預測,建立RUL 預測模型;Li 等[21]提出的基于深度卷積神經(jīng)網(wǎng)絡 (Deep Convolutional Neural Network,DCNN) 的RUL 預測模型,沿時間維度進行卷積運算;Li 等[22]采用時間卷積網(wǎng)絡 (Temporal Convolutional Network,TCN) 來估計RUL;Zeng 等[23]提出了一種新的深度注意力殘差神經(jīng)網(wǎng)絡模型用于RUL 預測;Abderrezek 等[24]提出了卷積自動編碼器 (Convolutional Auto-Encoder,CAE) 和BiLSTM 網(wǎng)絡混合的模型來預測RUL;Remadna 等[25]提出的使用CNN 提取空間特征和BiLSTM 網(wǎng)絡提取時間特征的混合RUL 預測模型.
然而,基于RNN 的方法由于本身結構的限制,無法充分利用并行計算,存在運行效率低的問題.基于CNN 的模型在處理時序特征上視野受卷積核大小的限制,存在無法捕獲遠距離特征的問題.Transformer 模型是由Vaswani 等[26]提出的一種基于自我注意力機制的網(wǎng)絡,該模型既能有效處理隨時間變化的長期依賴關系,又能通過并行計算提高運行效率,在自然語言處理等領域取得了巨大的成功.最近,已有學者將Transformer 模型應用到RUL 預測問題上,例如: Mo 等[27]將Transformer 編碼器作為模型的主干,并使用1 個門卷積單元合并每個時間步局部上下文的信息,實現(xiàn)了RUL 的預測;Zhang 等[28]使用完全基于自注意力的編碼器解碼器結構,提出了由傳感器特征和時間步長特征作為輸入的雙編碼器Transformer 結構,取得了不錯的預測結果.
以上研究中,缺乏對輸入數(shù)據(jù)時間步長選取的考慮,以及對操作條件和傳感器之間、傳感器與傳感器之間的影響關系的研究.針對現(xiàn)存的問題,本文提出了一種基于Transformer 的多編碼器特征輸出融合的模型,主要工作有以下3 個方面.
(1) 選取2 個不同時間長度作為輸入,利用Transformer 模型的并行計算能力,分別輸入2 個編碼器層進行獨立的訓練,將這2 個編碼器層的輸出結果進行融合,增強短時間序列特征信息的同時,保留長期依賴關系.
(2) 通過添加排列熵嵌入層,將能夠反映信號單調(diào)性和變化趨勢的排列熵信息融合到傳感器數(shù)據(jù),使模型能更好地捕捉不同傳感器之間的關系信息.
(3) 將操作條件和傳感器數(shù)據(jù)分離,使其各自作為獨立的輸入通過不同的編碼器層訓練,避免操作條件和傳感器數(shù)據(jù)之間的干擾,提升模型的預測精度.
本文將所提出的模型在航空發(fā)動機CMAPSS (Commercial Modular Aero-Propulsion System Simulation)數(shù)據(jù)集上進行了驗證,且與目前先進的模型相比,得到了更好的預測效果,體現(xiàn)了本文方法的有效性.本文的后續(xù)結構: 第1 章介紹所提模型的具體結構和理論基礎;第2 章描述實驗細節(jié),展示實驗結果,并進行結果分析以及消融研究;第3 章對全文工作進行總結,并展望未來工作的方向.
本文基于Transformer 的結構,提出了多編碼器特征輸出融合的模型,其具體架構如圖1 所示.由圖1 可知,模型主要分為多編碼器層和解碼器層2 個部分.多編碼器層可以同時對不同的輸入分別進行特征提取,包括2 個不同時間步長的編碼器層、傳感器排列熵編碼器層以及操作條件編碼器層.各個編碼器層的輸出經(jīng)過融合后,作為解碼器層的輸入,通過解碼器層對來自不同方面的特征進行提取后,通過前饋全連接網(wǎng)絡輸出RUL 的預測值.
圖1 模型總體架構圖Fig.1 Architecture of the proposed model
發(fā)動機當前的狀態(tài)信息,由當前時間點的傳感器信號和過去一定時間點的信號得到.本文采用滑動時間窗口方法對時間序列數(shù)據(jù)進行分割,圖2 展示了采樣過程.
圖2 滑動時間窗口采樣示意圖Fig.2 Sliding time window sampling process
如何選取滑動窗口的時間長度,對預測結果起到很關鍵的作用.如果時間長度過長,距離當前時間點過久的信息可能會成為無用信息甚至是干擾信息,混淆模型的預測結果;如果時間長度太短,又會造成信息的丟失,影響預測結果.現(xiàn)有的研究通常嘗試不同的時間步長作為輸入,最終選取效果最好的1 個時間步長作為模型的輸入.
Transformer 模型相較于傳統(tǒng)的RNN、CNN 等深度學習模型,具有可并行計算的優(yōu)點,隨著計算力的發(fā)展,可以在一定程度上犧牲內(nèi)存換取更好的實驗結果.利用Transformer 模型的并行性,本文創(chuàng)新性地提出了選取2 個不同時間步長的輸入,分別獨立地進行特征提取,一方面保留了長時間序列的特征信息,另一方面又能更集中高效地處理短時間序列的特征信息,最終將2 個編碼器層的特征輸出進行融合.
本文所使用的多個編碼器層的結構相似,具體如圖3 所示.從圖3 可以看到,每個編碼器層由多個結構相同的子編碼器層堆疊而成;每個子編碼器層包括多頭自注意力層和前饋全連接層,并且都應用了殘差連接以及標準歸一化操作,以防止梯度消失,加速模型收斂.
圖3 編碼器層結構Fig.3 Structure of the encoder layer
由于輸入數(shù)據(jù)具有時序性,而Transformer 的自注意力機制無法直接捕捉到輸入的順序.因此,在原始數(shù)據(jù)進入雙時間步長編碼器層前,需要先通過1 個位置編碼層,對其添加相對位置信息,使模型能更好地捕捉到時序特征.本文采用Transformer 中最常用的位置編碼模式,即正弦位置編碼和余弦位置編碼[26].相應計算公式為
公式 (1) 中:t表示時間點;d表示傳感器的維度; 2i表示偶數(shù)位傳感器,用正弦函數(shù)(sin)來編碼;2i+1表示奇數(shù)位傳感器,用余弦函數(shù)(cos)來編碼.
自注意力機制是Transformer 模型中的核心部分.將上一層的輸出矩陣X分別與3 個權重矩陣Wq、Wk和Wv相乘后得到對應的3 個向量,分別為查詢向量Q、鍵向量K和內(nèi)容向量V.對應公式為
通過計算Q和K的點積獲得關聯(lián)矩陣,經(jīng)過Softmax 函數(shù)激活后得到每個位置對應的權重,最后再將此權重疊加到V得到自注意力輸出.具體公式為
本文所提的模型中,多頭自注意力層采用了多頭注意力機制,即計算了多組Q、K、V,再將多組注意力輸出拼接后作為最終輸出,以均衡同一種注意力機制可能產(chǎn)生的偏差,從而提升模型效果.相應計算公式為
公式 (4) 中:W表示多頭注意力權重矩陣;hi指第i個自注意力輸出;H為注意力頭數(shù).
通過對時間步長數(shù)據(jù)進行轉置,得到傳感器排列熵編碼層的輸入,傳感器排列熵編碼器層將沿著傳感器的維度進行特征提取.然而,由于傳感器之間的位置關系不明確,模型不能夠有效獲取不同傳感器之間的位置信息.二階排列熵是一種能夠反映信號的單調(diào)性和變化趨勢的非線性動力學參數(shù)[29],能夠放大時間序列的微弱變化,度量時間序列的復雜性,從而有效地反映不同傳感器的特征.在輸入編碼器層之前,本文添加了排列熵編碼層,先對輸入數(shù)據(jù)進行了排列熵編碼處理,以此注入傳感器之間的關系,使編碼器層能更好地學習到不同傳感器之間的影響.
假設第i個傳感器的測量序列為{si(1),si(2),···,si(t)},采用相空間對其進行重構,并取嵌入維數(shù)為2,得到相空間重構矩陣
其中τ表示延遲時間.將矩陣中的每一行看作1 個重構向量,對其進行升序排列,得到索引的2 種排列方式;統(tǒng)計對應排列方式出現(xiàn)的概率并記為p1和p2;最后使用公式
求得該傳感器的排列熵.
計算得到每個傳感器的二階排列熵后,對其進行線性映射以適應輸入矩陣的大小;在排列熵編碼器層對輸入矩陣進行編碼,添加排列熵信息.添加公式為
公式 (7) 中:X表示輸入矩陣;S表示傳感器二階排列熵向量;We表示排列熵權重矩陣.
操作條件是指現(xiàn)實環(huán)境和運行條件數(shù)據(jù)與傳感器信號數(shù)據(jù)之間的相關性較弱,現(xiàn)有的研究通常將操作條件數(shù)據(jù)和傳感器信號數(shù)據(jù)混為一談.編碼器層中自注意力機制會計算不同傳感器之間的相關性,假如操作器數(shù)據(jù)也在其中,會加重模型的計算負擔,卻不能得到一個合理有效的結果.本文將操作器數(shù)據(jù)和傳感器信號數(shù)據(jù)分離,并行地作為另一個編碼器層的輸入提取特征,在減少對傳感器信號數(shù)據(jù)干擾的同時,不浪費操作條件中所包含的特征信息,從而提升模型的預測效果.
在多個編碼器層完成特征提取后,需要進行特征融合;特征融合層將各個編碼器層輸出的結果連接后,通過線性映射作為多編碼器層融合的輸出O.相應公式為
公式 (8) 中:Ot1、Ot2、Os、Oc分別對應時間步長1 編碼器層、時間步長2 編碼器層、傳感器排列熵編碼器層和操作條件編碼器層的特征輸出結果;Wo表示特征融合權重矩陣.
解碼器層和圖3 中編碼器層的結構類似,由多個子解碼器層組成,每個子解碼器層包括2 個多頭自注意力層和1 個前饋全連接層.相應地,每個層都進行了殘差連接和標準歸一化: 第一個多頭自注意力層添加了掩碼操作,即將QKT向量點乘1 個同樣大小的上三角掩碼,避免模型提前觀察到未來時間點的數(shù)據(jù);第二個多頭注意力層為編碼器解碼器注意力層,將前一層的輸出作為查詢向量,將解碼器層的輸出作為鍵向量和內(nèi)容向量進行計算;最終,依次通過展開層和全連接層輸出所預測的RUL,得到最終結果.
CMAPSS 數(shù)據(jù)集是由美國國家航空航天局 (National Aeronautics and Space Administration,NASA) 阿姆斯研究中心,在其開發(fā)的航空推進系統(tǒng)仿真平臺CMAPSS 上,對渦扇發(fā)動機的關鍵部件退化過程進行大量仿真實驗所得到并公開的1 組數(shù)據(jù)[30],在航空發(fā)動機RUL 預測問題上被廣泛使用.圖4 展示了CMAPSS 中渦扇發(fā)動機仿真模型的結構圖.其中,Fan 表示發(fā)動機風扇,LPC (Low Pressure Compressor)表示低壓壓氣機,HPC (High Pressure Compressor)表示高壓壓氣機,Combustor表示燃燒室,N1 表示風機軸,N2 表示核心軸,LPT (Low Pressure Turbine)表示低壓渦輪,HPT(High Pressure Turbine)表示高壓渦輪,Nozzle 表示噴嘴.
圖4 發(fā)動機仿真模型結構圖[30]Fig.4 Structure of engine simulation model
CMPASS 數(shù)據(jù)集共包含4 個子數(shù)據(jù)集,分別仿真了在不同工作狀況和不同的故障模式下渦扇發(fā)動機的傳感器數(shù)據(jù).本文選取包含同一種工作狀況的數(shù)據(jù)集1 和數(shù)據(jù)集3 對本文模型進行驗證: 數(shù)據(jù)集1 模擬了高壓壓氣機性能退化這一故障;數(shù)據(jù)集3 模擬了高壓壓氣機性能退化和風扇退化這2 種故障模式.每個子數(shù)據(jù)集包括訓練集和測試集: 訓練集包括100 臺發(fā)動機從某一時刻開始到完全失效這一時段內(nèi)每個飛行循環(huán)的操作條件數(shù)據(jù)和傳感器數(shù)據(jù);測試集包括另100 臺發(fā)動機在某段時間內(nèi)每個飛行循環(huán)的操作條件數(shù)據(jù)和傳感器數(shù)據(jù),并給出了對應的剩余使用壽命.數(shù)據(jù)集1 和數(shù)據(jù)集3 都用飛行循環(huán)作為衡量單位.其中,操作條件數(shù)據(jù)包括飛行高度、馬赫數(shù)和油門解算器角度這3 個發(fā)動機工作環(huán)境參數(shù);而傳感器數(shù)據(jù)則記錄了21 個傳感器測量值,每個傳感器的詳細描述詳見表1.由于本文采用的CMAPSS 數(shù)據(jù)集是由NASA 提供的公共數(shù)據(jù)集,因此,本文描述傳感器數(shù)據(jù)時,遵照了該數(shù)據(jù)集的官方設置,所使用的單位是航空動力學領域的常用單位.
表1 傳感器詳細描述Tab.1 Description of sensors
2.2.1 數(shù)據(jù)歸一化
從表1 可以看到,各個傳感器的數(shù)值單位不一致.為了增強不同傳感器數(shù)據(jù)之間的比較性,提高模型的收斂速度和精度,本文先對傳感器數(shù)據(jù)做了縮放處理.在對比了標準歸一化和最大–最小歸一化后,本文選擇效果更好的最大–最小歸一化方法.計算過程為
公式 (9) 中:xi表示當前時間點的值;分別指當前傳感器在所有時間點內(nèi)的最大值和最小值;表示歸一化計算后所得到的數(shù)據(jù).
2.2.2 傳感器選擇
通過觀察發(fā)現(xiàn),在21 個傳感器的數(shù)據(jù)中,傳感器1、5、6、10、16、18、19 的監(jiān)測數(shù)據(jù)一直保持恒定.因此,應該剔除這些無法反映發(fā)動機退化信息的數(shù)據(jù),只留下剩余的14 個有價值的傳感器數(shù)據(jù)作為模型的輸入.圖5 展示了數(shù)據(jù)集1 中發(fā)動機的傳感器數(shù)據(jù).其橫坐標為飛行循環(huán),縱坐標為歸一化后的傳感器數(shù)據(jù)().
圖5 發(fā)動機1 號歸一化后的傳感器數(shù)據(jù)Fig.5 Scaled sensor data of engine 1
2.2.3 排列熵計算
根據(jù)公式 (6),取延遲時間τ=5,計算得到14 個傳感器的排列熵值,得到熵值如表2 所示.將計算所得的排列熵作為傳感器二階排列熵向量添加到排列熵編碼器層.
表2 傳感器二階排列熵計算結果Tab.2 Computation results of the second permutation entropy of sensors
2.2.4 RUL 標簽設置
有研究顯示[31],分段線性退化模型能較好地處理CMAPSS 數(shù)據(jù)集的RUL 預測問題.該模型假設發(fā)動機在運行初期屬于正常狀態(tài),各項傳感器的數(shù)據(jù)較為平穩(wěn),因此,認為在這段時間里RUL 值均等于1 個根據(jù)經(jīng)驗設定的RUL 最大值.當發(fā)動機運行一段時間后,發(fā)動機進入退化狀態(tài),RUL 隨著運行時長線性遞減,如圖6 所示.圖6 中,橫坐標為實際飛行循環(huán)數(shù);縱坐標為設置的RUL 標簽,表示剩余飛行循環(huán)數(shù).本文采取分段線性退化模型對訓練集中的數(shù)據(jù)設置RUL 標簽,并根據(jù)預測效果,將RUL 標簽最大值設定為125 個飛行循環(huán).
圖6 分段線性退化模型Fig.6 Piecewise linear degradation model
2.2.5 評價指標
為了驗證模型預測結果的有效性和準確性,本文使用了2 個常用的指標來進行評價: 均方根誤差(Root Mean Square Error,RMSE),本文用RRMSE表示;預測分數(shù) (Score),本文用Sscore表示.這二者都是值越小,表示預測的效果越好.RRMSE是回歸問題中常用的指標,其計算公式為
公式 (10) 中:N表示樣本數(shù)量;表示樣本j的預測RUL 值;Lj表示樣本j的RUL 真實值.
Sscore是NASA 針對此公開研究問題提供的官方評價指標.在RUL 預測值小于真實RUL 時,意味著預測的發(fā)動機故障時間超前于真實的故障時間,根據(jù)這個測試結果所做出的維修決策偏向于保守,比較安全,Sscore的值較小;而當RUL 預測值大于真實值時,可能會導致意外的事故或危險發(fā)生,后果更為嚴重,此時Sscore的值更高.其具體的計算公式為
公式 (11) 中:N表示樣本數(shù)量;表示樣本j的預測RUL 值;Lj表示樣本j的真實RUL 值.
在模型訓練中,為了更充分地利用訓練集的數(shù)據(jù),本文采用了滑動窗口步長為1 對訓練集中的數(shù)據(jù)進行分割,比較了不同時間長度的預測效果后.對數(shù)據(jù)集1,選取20 個和30 個飛行循環(huán)的時間長度作為雙時間長度編碼器的輸入;對數(shù)據(jù)集3,選取20 個和40 個飛行循環(huán)的時間長度作為雙時間長度編碼器的輸入.表3 描述和記錄了模型中其他重要超參數(shù)的設置.
表3 模型超參數(shù)設置Tab.3 Setting of model hyperparameters
使用表3 中的最優(yōu)參數(shù),將模型在數(shù)據(jù)集1 和數(shù)據(jù)集3 中進行訓練和預測.在訓練過程中,將訓練集中90%的樣本數(shù)據(jù)作為訓練樣本,在剩下10%的樣本數(shù)據(jù)上進行驗證;以均方誤差(Mean Square Error,MSE)作為損失函數(shù),使用Adam 算法優(yōu)化模型權值;最后在測試集中進行測試,得到最終的結果.表4 展示了本文模型中所得到的RRMSE以及與其他模型的對比;表5 展示了本文模型所得到的Sscore以及與其他模型的對比.RRMSE和Sscore的值越低,代表模型的預測精度越高,效果越好.表4、表5 中,字體加粗顯示的結果代表所有方法中最好的成績,下劃線顯示的結果代表所有方法中第二好的成績.
表4 RMSE 結果對比Tab.4 Comparison of RMSE results
從表4 和表5 中的對比結果可以看出,本文模型在數(shù)據(jù)集1 上取得了優(yōu)于其他先進模型的效果,RRMSE和Sscore這2 個評價指標都得到了最好的結果: 對于Mo 等[27]提出的GCU-Transformer 模型,由于其原文并未提供Sscore指標的結果,因此,本文只比較了在RRMSE上的成績,可以看到本文模型在RRMSE上取得了2%的降低;相較于Zhang 等[28]提出的DAST 模型,本文模型的RRMSE下降了3.4%;本文模型的Sscore相較于Li 等[22]提出的TCN 模型結果下降了13%.
表5 Score 結果對比Tab.5 Comparison of score results
對于數(shù)據(jù)集3,從RRMSE來看,本文模型略高于Zeng 等[23]所提出的DARNN 模型,但在Sscore指標上大幅度地超過了DARNN 的結果,效果提升了35%;與DAST 模型相比,本文模型Sscore分數(shù)略高,但在RRMSE分數(shù)上取得了很大的下降,效果提升了5.6%.如前所述,與數(shù)據(jù)集1 相比,數(shù)據(jù)集3 包含更多的故障模式,因此,數(shù)據(jù)集3 的情況更為復雜些,對于RUL 預測任務而言更具考驗.相比DARNN 模型和DAST 模型在其中一個指標上取得了最佳效果,而另一指標效果不佳的情況,本文模型在這2 個指標上都取得了第二的效果.由此可見,本文模型穩(wěn)定性較好,可以實現(xiàn)整體性能和安全性的均衡.
綜合來看,相比現(xiàn)有的先進模型,本文模型在2 個評價指標上都取得了不錯的結果,且在2 個數(shù)據(jù)集上都得到了驗證,顯示出了本文模型的可靠程度較高.
本文采用DAST 模型[28]作為基準模型.DAST 模型是由傳感器特征和時間步長特征作為輸入的雙編碼器Transformer 結構,得益于自注意力機制,它能夠有效處理長時間序列數(shù)據(jù).本文所提出的模型對其做了3 方面的改進工作: 一是使用雙時間步長編碼器輸入;二是添加排列熵編碼層;三是獨立拆分操作條件輸入.在數(shù)據(jù)集1 上進行消融實驗,以研究每一部分工作對整體預測結果的影響.表6所示數(shù)據(jù)顯示了消融實驗的結果,驗證了每一模塊的有效性.
表6 消融實驗結果Tab.6 Results of ablation study
本文提出了一種新的基于Transformer 的多編碼器特征輸出融合的RUL 預測模型: 使用2 個不同步長的編碼器層分別進行特征提取,保留長短時間序列中不同的信號特征;采用二階排列熵對傳感器進行位置編碼,使模型能更好地捕捉到不同傳感器之間的影響關系,并將操作條件數(shù)據(jù)與傳感器數(shù)據(jù)分離;使用獨立的編碼器進行訓練.利用Transformer 模型可并行計算的優(yōu)勢,將多個不同的編碼器層的輸出進行融合后,通過解碼器層得到最終的RUL 結果.通過在廣泛使用的航空發(fā)動機CMAPSS 數(shù)據(jù)集上進行的實驗,結果表明,本文模型的預測效果優(yōu)于現(xiàn)有的其他先進算法,驗證了本文模型能夠有效提高航空發(fā)動機RUL 預測的精度.
在未來的工作中,可以繼續(xù)以下3 方面的研究,以期進一步提升預測效果: 第一,可以研究更優(yōu)化的標簽設置方法;第二,可以探索數(shù)據(jù)中存在的不平衡問題;第三,可以嘗試利用無監(jiān)督數(shù)據(jù)進行預訓練來提升模型性能.