代鈺,趙蓉,郭浩男,高振,楊雷
(1.東北大學(xué) 軟件學(xué)院,沈陽(yáng) 110169;2.東北大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,沈陽(yáng) 110169)
對(duì)軌道交通裝備以及關(guān)鍵耗損性部件進(jìn)行壽命預(yù)測(cè),可以根據(jù)剩余使用壽命對(duì)相關(guān)零部件進(jìn)行維護(hù)或者更換,從而減少設(shè)備非計(jì)劃停機(jī)時(shí)間,避免因計(jì)劃外停機(jī)而帶來(lái)的經(jīng)濟(jì)損失。傳統(tǒng)的剩余壽命預(yù)測(cè)方法通常需要2個(gè)基礎(chǔ)步驟:
1)建立性能退化指標(biāo);
2)研究預(yù)測(cè)模型[1]。王鳳飛[2]等提出了一種考慮隨機(jī)效應(yīng)的多源信息融合剩余壽命預(yù)測(cè)方法,利用了同類設(shè)備的先驗(yàn)信息,提高了參數(shù)估計(jì)和剩余壽命預(yù)測(cè)的精度。這種傳統(tǒng)的剩余壽命預(yù)測(cè)方法需要對(duì)歷史退化數(shù)據(jù)和失效壽命數(shù)據(jù)進(jìn)行合理融合,需要充分了解這些多源信息,也需要一定的經(jīng)驗(yàn)和專業(yè)知識(shí),這降低了壽命預(yù)測(cè)的智能性。
利用信號(hào)采集和計(jì)算機(jī)技術(shù),可以獲取機(jī)械設(shè)備運(yùn)行過(guò)程中大量的狀態(tài)監(jiān)測(cè)數(shù)據(jù),這推動(dòng)了數(shù)據(jù)驅(qū)動(dòng)的設(shè)備剩余壽命預(yù)測(cè)方法研究的發(fā)展。這些監(jiān)測(cè)數(shù)據(jù)使得利用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法進(jìn)行剩余壽命預(yù)測(cè)成為可能。齊盛[3]等提出了基于貝葉斯和極值分析的剩余壽命預(yù)測(cè)方法,該方法使用極值分布確定尺度參數(shù)和剩余壽命預(yù)測(cè)公式,最終得到壽命預(yù)測(cè)值。但是貝葉斯模型只在小規(guī)模的數(shù)據(jù)集上表現(xiàn)較好,當(dāng)數(shù)據(jù)較多時(shí),貝葉斯模型預(yù)測(cè)精度會(huì)下降。
深度學(xué)習(xí)中的循環(huán)神經(jīng)網(wǎng)絡(luò)能夠利用全生命周期時(shí)序數(shù)據(jù)的前后關(guān)聯(lián)關(guān)系[4],故可以將其應(yīng)用到剩余壽命預(yù)測(cè)問(wèn)題中。劉樹鑫[5]等采用灰色關(guān)聯(lián)分析法和皮爾遜相關(guān)系數(shù)法剔除冗余信息,進(jìn)行特征選擇,最后利用LSTM模型進(jìn)行訓(xùn)練。但是循環(huán)神經(jīng)網(wǎng)絡(luò)由于梯度爆炸和梯度消失的問(wèn)題難以訓(xùn)練,這使得模型缺乏學(xué)習(xí)長(zhǎng)期依賴的能力[6]。雖然LSTM設(shè)計(jì)了遺忘門在一定程度上解決了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)會(huì)出現(xiàn)的梯度爆炸、消失問(wèn)題,但是如果超過(guò)了100個(gè)隨時(shí)間反向傳播(BPTT)步驟,也會(huì)存在誤差積累的情況,同樣也會(huì)有以上問(wèn)題的出現(xiàn)[7]。循環(huán)神經(jīng)網(wǎng)絡(luò)在長(zhǎng)序列預(yù)測(cè)建模中還存在路徑過(guò)長(zhǎng)的問(wèn)題,路徑越短,在神經(jīng)網(wǎng)絡(luò)中進(jìn)行前向傳播和反向傳播的次數(shù)越少,意味著輸入與輸出之間采集信息的累計(jì)誤差越小,長(zhǎng)期依賴也捕捉得更清晰。然而,LSTM在進(jìn)行時(shí)間序列預(yù)測(cè)時(shí),最長(zhǎng)路徑可達(dá)到O(L),L為序列長(zhǎng)度[6],過(guò)長(zhǎng)的路徑導(dǎo)致輸入與輸出之間的累積誤差過(guò)大,降低模型捕捉長(zhǎng)期依賴的能力。現(xiàn)有的循環(huán)神經(jīng)網(wǎng)絡(luò)模型大多是在時(shí)間序列長(zhǎng)度較短的情況下訓(xùn)練的,長(zhǎng)度一般在48或者更短,如Li[8]等提出的DCRNN模型,Yu[9]采用的HOT-RNN結(jié)構(gòu)。當(dāng)輸入時(shí)間序列較長(zhǎng)時(shí),以上模型很難精確捕捉長(zhǎng)期序列之間的依賴關(guān)系,預(yù)測(cè)精度會(huì)降低。
與LSTM類似,為了解決RNN中出現(xiàn)的梯度問(wèn)題,在剩余壽命預(yù)測(cè)問(wèn)題中也會(huì)使用門控循環(huán)單元(GRU)模型。袁燁[10]利用門控循環(huán)單元,對(duì)時(shí)序關(guān)系進(jìn)行建模,提取了數(shù)據(jù)時(shí)間上的特征,建立了特征與真實(shí)剩余壽命值之間的映射關(guān)系,從而得到剩余壽命預(yù)測(cè)值。姚德臣[11]等提出了注意力GRU算法,將注意力機(jī)制與門控循環(huán)單元相融合進(jìn)行剩余壽命預(yù)測(cè)。但是以上方法只使用兩個(gè)甚至一個(gè)門控循環(huán)單元,網(wǎng)絡(luò)層數(shù)較少,無(wú)法提取較高層次的特征,導(dǎo)致模型預(yù)測(cè)精度不高。
本文就軌道交通裝備及關(guān)鍵零部件剩余壽命預(yù)測(cè)中的由于時(shí)間序列長(zhǎng)度增加導(dǎo)致模型捕捉長(zhǎng)期依賴的能力降低這一問(wèn)題進(jìn)行分析,提出了基于Transformer的LongTransformer剩余壽命預(yù)測(cè)模型。LongTransformer模型對(duì)Transformer網(wǎng)絡(luò)中的編碼器層進(jìn)行改進(jìn),通過(guò)自注意力蒸餾機(jī)制將級(jí)聯(lián)層輸入減半來(lái)突出主導(dǎo)注意力,增強(qiáng)了對(duì)于長(zhǎng)周期時(shí)間序列依賴關(guān)系特征的提取,從而能夠有效地處理更長(zhǎng)的輸入序列。首先將獲取的歷史數(shù)據(jù)進(jìn)行位置編碼,作為編碼器層的輸入;將真實(shí)的剩余壽命值輸入到解碼器層中,經(jīng)過(guò)掩蓋多頭注意機(jī)制,再與編碼器層的輸出值一起輸入到多頭注意力機(jī)制中,通過(guò)全連接層得到最終的剩余壽命預(yù)測(cè)值。與傳統(tǒng)的剩余壽命預(yù)測(cè)方法相比,LongTransformer模型需要的先驗(yàn)知識(shí)更少,泛化能力更強(qiáng)。利用LongTransformer有效捕捉長(zhǎng)時(shí)間序列之間精確的依賴關(guān)系的能力,在與LSTM模型輸入相同長(zhǎng)度的時(shí)間序列時(shí),LongTransformer的最長(zhǎng)路徑可減少到理論上最短的O(1)[6],大大降低了路徑長(zhǎng)度,累積誤差減小,捕捉時(shí)間序列之間依賴關(guān)系的能力增強(qiáng),提高了剩余壽命預(yù)測(cè)的準(zhǔn)確率。
本文使用的實(shí)驗(yàn)數(shù)據(jù)采用中車株洲電力機(jī)車有限公司提供的軌道交通裝備及關(guān)鍵零部件數(shù)據(jù)集。此數(shù)據(jù)集包含了2015年11月至2021年11月一列車組在行駛過(guò)程中列車各零部件參數(shù)的變化情況。此列車組由8列車廂組成,每列車廂有4根軸承。車廂按照功能可分為3類:有司機(jī)室動(dòng)車(Mc)、帶受電弓拖車(Tp)、動(dòng)車(M),列車組的整體結(jié)構(gòu)如下圖所示。
圖1 列車組示意圖
此數(shù)據(jù)集包含8個(gè)子數(shù)據(jù)集,每個(gè)子數(shù)據(jù)集記錄一列車廂行駛中各零部件的狀態(tài)監(jiān)測(cè)數(shù)據(jù),數(shù)據(jù)的采樣間隔為1min。不同種類車廂所監(jiān)控的零部件類型不同,本實(shí)驗(yàn)以軸承為例對(duì)算法進(jìn)行測(cè)試,在驗(yàn)證過(guò)程中選用了Mc1車廂的1號(hào)軸承數(shù)據(jù)集(下文用Mc1-1表示),Mc1-1共31列傳感器監(jiān)測(cè)數(shù)據(jù),實(shí)驗(yàn)時(shí)取前80%數(shù)據(jù)作為模型的訓(xùn)練集,剩余的20%數(shù)據(jù)作為測(cè)試集輸入。
首先對(duì)軸承狀態(tài)監(jiān)測(cè)數(shù)據(jù)進(jìn)行篩選,篩選的意義在于某些特征參數(shù)在列車運(yùn)行過(guò)程中近似恒定不變,對(duì)于模型的訓(xùn)練過(guò)程沒有任何價(jià)值。經(jīng)過(guò)計(jì)算后,有3列狀態(tài)監(jiān)測(cè)數(shù)據(jù)不隨時(shí)間變化,故舍棄,使用其余28列狀態(tài)監(jiān)測(cè)數(shù)據(jù)進(jìn)行剩余使用壽命預(yù)測(cè)。
下面需要對(duì)每列數(shù)據(jù)分別進(jìn)行標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化是將數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間。這樣做的好處是提高模型訓(xùn)練性能,簡(jiǎn)化計(jì)算。本文采用min-max標(biāo)準(zhǔn)化,計(jì)算公式如式(1)所示:
式(1)中,xj‘‘為min-max標(biāo)準(zhǔn)化后的第j個(gè)數(shù)據(jù),j=1,2···,n;xj為原始的第j個(gè)數(shù)據(jù);xj,min為該列數(shù)據(jù)的最小值,xj,max為該列數(shù)據(jù)的最大值。
為了量化模型性能,確保模型的準(zhǔn)確性與可用性,需要計(jì)算評(píng)價(jià)指標(biāo)對(duì)模型進(jìn)行綜合評(píng)估。本文采用的模型評(píng)價(jià)指標(biāo)如下:
平均絕對(duì)誤差(MAE):是絕對(duì)誤差的平均值,這是一種更一般化的求誤差方法,計(jì)算公式為:
式(2)中,n為剩余壽命預(yù)測(cè)值的個(gè)數(shù);yi為剩余壽命真實(shí)值;為剩余壽命預(yù)測(cè)值。均方根誤差(RMSE):是預(yù)測(cè)值與真實(shí)值殘差的標(biāo)準(zhǔn)差,均方根誤差具有無(wú)偏性,計(jì)算公式為:
本文使用滑動(dòng)窗口構(gòu)建訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù),滑動(dòng)窗口是指將數(shù)據(jù)集中連續(xù)的n條數(shù)據(jù)打包成二維矩陣,此時(shí)稱滑動(dòng)窗口的大小為n;這樣做的目的是將前n-1條數(shù)據(jù)與第n條數(shù)據(jù)同時(shí)放入模型中進(jìn)行訓(xùn)練,以便獲取數(shù)據(jù)間的隱藏關(guān)系,得出更好的結(jié)果。
在具有固定大小的滑動(dòng)窗口的預(yù)測(cè)設(shè)置下,本文輸入數(shù)據(jù)格式為X(t)=[x1(t-N+1),...,xN(t)]T的矩陣,大小為M×N。其中xn(t-N+n)表示在t時(shí)刻,采用第t-N+n時(shí)刻的傳感器數(shù)據(jù)對(duì)零部件進(jìn)行預(yù)測(cè),大小為M×1。M為監(jiān)測(cè)某個(gè)零部件的傳感器的數(shù)量,N為滑動(dòng)窗口的大小,yt代表的t時(shí)刻該軸承真實(shí)的剩余壽命值。模型的輸出值即預(yù)測(cè)目標(biāo)為Y=y'',表示模型對(duì)該零部件剩余壽命的預(yù)測(cè)值。
Transformer拋棄了傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)完全是由注意力機(jī)制組成,即由self-Attention和Feed-Forward Neural Network組成。與LSTM等傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)相比,Transformer輸入與輸出之間的路徑較短,捕捉長(zhǎng)時(shí)間序列依賴的能力較強(qiáng)。然而,隨著工業(yè)技術(shù)的升級(jí),短周期的軌道交通關(guān)鍵零部件狀態(tài)監(jiān)測(cè)數(shù)據(jù)已經(jīng)不能顯著反映剩余壽命的變化,剩余壽命對(duì)已有算法的預(yù)測(cè)能力也提出了更高的要求即需要處理更長(zhǎng)周期依賴性特征,從而提高模型預(yù)測(cè)的準(zhǔn)確率。為了解決這一挑戰(zhàn),本文提出了基于改進(jìn)Transformer剩余壽命預(yù)測(cè)算法(Long-Transformer),整體結(jié)構(gòu)如圖2所示。該模型分別搭建了2層編碼器和解碼器,編碼器層包括多頭自注意力機(jī)制、自注意力蒸餾機(jī)制以及前饋神經(jīng)網(wǎng)絡(luò),解碼器層由掩蓋多頭注意機(jī)制、多頭注意力機(jī)制、前饋神經(jīng)網(wǎng)絡(luò)組成。接下來(lái)對(duì)各個(gè)部分做詳細(xì)說(shuō)明。
圖2 LongTransformer整體結(jié)構(gòu)圖
本文利用LongTransformer中的Encoder層來(lái)捕獲關(guān)鍵零部件剩余壽命的長(zhǎng)期與短期依賴關(guān)系。Encoder層包括三個(gè)部分,分別是Multi-Head Self-Attention(多頭自注意力模塊)、Self-Attention Distilling(自注意力蒸餾模塊)和Feed-Forward Neural Network(前饋神經(jīng)網(wǎng)絡(luò)模塊)。另外,為了解決深度學(xué)習(xí)中的退化問(wèn)題,多頭自注意力模塊使用了殘差網(wǎng)絡(luò)中的short-cut結(jié)構(gòu)。
2.1.1 Multi-Head Attention
當(dāng)采用自注意力模型時(shí),模型只能關(guān)注到單方面的信息,無(wú)法將多方面的信息合并,使得模型預(yù)測(cè)精度不高。由于剩余壽命預(yù)測(cè)
問(wèn)題需要關(guān)注每條數(shù)據(jù)不同特征部分,捕捉到數(shù)據(jù)之間潛在的依賴信息。所以本文使用多頭自注意力機(jī)制將模型分為多個(gè)子空間,每個(gè)子空間關(guān)注不同方面的信息。多頭自注意力模塊將Query向量(Q)、Key向量(K)以及Value向量(V)進(jìn)行N次拆分,并將每次拆分分別通過(guò)不同的頭傳遞,再將所有頭計(jì)算的結(jié)果合并得到最終的注意力得分,這可以使多頭注意力關(guān)注到不同的信息,提高剩余壽命預(yù)測(cè)的準(zhǔn)確率。在自注意力中,每條數(shù)據(jù)有三個(gè)不同的向量,分別是Query向量(Q)、Key向量(K)以及向量Value(V),這三個(gè)向量由輸入的數(shù)據(jù)與三個(gè)值不同、維度相同的權(quán)值矩陣Wq、Wk和Wv相乘得到。多頭自注意力模塊實(shí)際上是多個(gè)不同的Self-Attention(自注意力)的集成,本文的多頭自注意力模塊包括4個(gè)自注意力模塊,即head個(gè)數(shù)為4。步驟如下:首先,每個(gè)head根據(jù)輸入數(shù)據(jù)得到K、V、Q三個(gè)向量:
在head為4的情況下,多頭自注意力模塊的步驟為:首先,將得到的注意力矩陣連接,接著經(jīng)過(guò)softmax激活函數(shù),最后,與一個(gè)隨機(jī)初始化的權(quán)重矩陣WA相乘得到最后的注意力矩陣,即多頭自注意力模塊的輸出:
2.1.2 Self-Attention Distilling
由于編碼器層的特征映射存在值V的冗余組合,導(dǎo)致模型空間復(fù)雜度較高,不能接受較長(zhǎng)的輸入序列。但是,短期的零部件監(jiān)測(cè)數(shù)據(jù)輸入序列,已經(jīng)不能顯著地反映出剩余壽命的趨勢(shì),所以,需要能夠處理更長(zhǎng)周期輸入序列的模型。因此在自注意力蒸餾模塊中,通過(guò)將級(jí)聯(lián)層輸入減半這一步驟來(lái)突出主導(dǎo)注意力并優(yōu)先處理,具體做法是對(duì)具有主導(dǎo)特性的優(yōu)勢(shì)特征賦予更高的權(quán)重,蒸餾操作將總空間復(fù)雜度降低到O((2-α)LlogL),這有助于接受更長(zhǎng)的輸入序列。該模塊從第j層推進(jìn)到第j+1層的過(guò)程如該公式所示:
其中,一維卷積層Conv1d使用的卷積核大小為3,最大池化層MaxPool的步長(zhǎng)為2。
2.1.3 Feed-Forward Neural Network
在多頭自注意力機(jī)制的內(nèi)部結(jié)構(gòu)中,主要進(jìn)行的是矩陣乘法,即線性變換,線性變換的學(xué)習(xí)能力與非線性變換相比較弱,但是,由于剩余壽命預(yù)測(cè)的數(shù)據(jù)時(shí)間跨度較長(zhǎng),需要具有更強(qiáng)學(xué)習(xí)能力的模型來(lái)捕捉輸入與輸出之間的長(zhǎng)周期依賴特征。所以本文通過(guò)采用激活函數(shù)的方式來(lái)強(qiáng)化多頭自注意力模塊的學(xué)習(xí)能力。前饋神經(jīng)網(wǎng)絡(luò)模塊由兩個(gè)線性變換組成,激活函數(shù)為ReLU函數(shù)。公式表示為:
其中,x為多頭自注意力模塊的輸出,W1、b1分別為第一層線性變換的權(quán)重和偏置項(xiàng),W2、b2分別為第二層線性變換的權(quán)重和偏置項(xiàng)。
傳統(tǒng)的解碼器層的輸入是上一層和編碼器的輸出,由于預(yù)測(cè)偏差會(huì)逐漸積累,導(dǎo)致最終預(yù)測(cè)結(jié)果精度降低,所以本文將壽命預(yù)測(cè)的真實(shí)值(ground-truth)和編碼器層的輸出作為編碼器層的輸入,讓數(shù)據(jù)的真實(shí)值輸入到解碼器層進(jìn)行訓(xùn)練,以緩解誤差的積累,提高預(yù)測(cè)準(zhǔn)確率。解碼器層包括masked Multi-Head Attention模塊、Multi-Head Attention模塊和Linear模塊。Masked Multi-Head Attention模塊的作用為防止模型看到要預(yù)測(cè)的數(shù)據(jù),由于解碼過(guò)程是一個(gè)順序操作的過(guò)程,也就是指當(dāng)解碼第i個(gè)特征向量時(shí),模型只能看到第i-1及其之前的解碼結(jié)果。向量Xde經(jīng)過(guò)位置編碼后,與特征矩陣相乘后得到向量Q,K,V,作為Masked Multi-Head Attention模塊的輸入,向量Xde的計(jì)算公式為:
其中,X是數(shù)據(jù)集中的真實(shí)剩余壽命,X0是需要補(bǔ)充的占位符,值設(shè)置為0。
Multi-Head Attention模塊的K和V來(lái)自于編碼器層的輸出,Q來(lái)自于Masked Multi-Head Attention模塊的輸出,計(jì)算過(guò)程與編碼器層相同。
由于LongTransformer模型的編碼器層和解碼器層不包含循環(huán)和卷積網(wǎng)絡(luò),因此不能利用輸入序列的前后順序,所以要在編碼和解碼之前注入序列中關(guān)于數(shù)據(jù)之間位置關(guān)系的信息。本文采用不同頻率的正弦函數(shù)和余弦函數(shù)來(lái)計(jì)算輸入數(shù)據(jù)的位置信息,通過(guò)位置編碼(position Encoding),使LongTransformer有了捕捉長(zhǎng)時(shí)間序列順序的能力,之所以選擇正弦函數(shù)和余弦函數(shù),是因?yàn)閷?duì)于任意確定的偏移k,可以表示為的線性函數(shù),這允許模型很容易學(xué)習(xí)對(duì)相對(duì)位置的關(guān)注。位置編碼一般是一個(gè)長(zhǎng)度為d的特征向量,這樣便于和輸入的數(shù)據(jù)進(jìn)行單位加的操作,編碼公式如下:
其中,pi表示第i條數(shù)據(jù)的位置編碼,s表示數(shù)據(jù)的維度。這樣,對(duì)于給定任意的長(zhǎng)度l,pi+l與pi都有線性關(guān)系,即pi+l的位置向量可以表示pi為的位置向量的線性變化,這方便捕捉數(shù)據(jù)之間的相對(duì)位置關(guān)系。
本實(shí)驗(yàn)分為兩個(gè)部分,第一部分討論在相同滑動(dòng)窗口長(zhǎng)度下,不同模型的預(yù)測(cè)結(jié)果比較及分析;第二部分討論隨著滑動(dòng)窗口的長(zhǎng)度增加,不同模型的評(píng)價(jià)指標(biāo)對(duì)比。本文使用的基線模型為L(zhǎng)STM,Attention-GRU[11]。
首先,當(dāng)滑動(dòng)窗口的長(zhǎng)度為60時(shí),不同模型的預(yù)測(cè)結(jié)果隨時(shí)間增加的變化情況如圖3所示。
圖3 滑動(dòng)窗口長(zhǎng)度為60時(shí)模型預(yù)測(cè)情況
從圖3 中可以看出,相比較于其他兩個(gè)模型,Attention-GRU模型的預(yù)測(cè)結(jié)果浮動(dòng)較大,精度稍差。當(dāng)測(cè)試集數(shù)據(jù)在前400分鐘內(nèi)時(shí),本文提出的LongTransformer模型與基線LSTM模型預(yù)測(cè)結(jié)果都較為準(zhǔn)確,隨著時(shí)間推移,兩模型的預(yù)測(cè)精度逐步下降。這是由于開始時(shí)的測(cè)試數(shù)據(jù),在時(shí)間上距離訓(xùn)練數(shù)據(jù)較近,測(cè)試集與訓(xùn)練集的數(shù)據(jù)相似度較高,容易得到準(zhǔn)確性較高的結(jié)果。隨著時(shí)間推移,狀態(tài)監(jiān)測(cè)數(shù)據(jù)發(fā)生變化,測(cè)試集與訓(xùn)練集的數(shù)據(jù)相似性逐步降低,預(yù)測(cè)值的準(zhǔn)確性也逐漸降低。
為了進(jìn)一步比較三種模型的預(yù)測(cè)結(jié)果隨時(shí)間的變化趨勢(shì),下表分別列出0~420分鐘,421~960分鐘以及961分鐘之后三種模型預(yù)測(cè)值與真實(shí)值的MAE與RMSE情況。
從表1中可以看出,在前420分鐘內(nèi),LSTM模型MAE與RMSE兩項(xiàng)指標(biāo)均好于本文提出的模型,表現(xiàn)最差的為Attention-GRU模型。當(dāng)時(shí)間在421~960分鐘時(shí),表現(xiàn)最好的模型為L(zhǎng)ongTransformer,其MAE相較于LSTM、Attention-GRU模型分別降低了6.63%、58.73%,RMSE值分別降低了2.41%、45.83%。隨著時(shí)間的增加,三種模型的MAE與RMSE值繼續(xù)增大,在961分鐘后,表現(xiàn)最好的依舊為本文提出的LongTransformer,其MAE與RMSE值相較于LSTM模型分別提高了2.16%,2.05%;相較于Attention-GRU模型,這兩項(xiàng)指標(biāo)分別提升了45.83%,49.08%。這是因?yàn)橄噍^于基線模型,LongTransformer能夠更好的捕捉相鄰輸入序列之間的相關(guān)性,具備預(yù)測(cè)更長(zhǎng)時(shí)間序列的能力。
表1 (a) 0~420分鐘內(nèi)不同模型的評(píng)價(jià)指標(biāo)
表1 (b) 421~960分鐘內(nèi)不同模型的評(píng)價(jià)指標(biāo)
表1 (c) 961分鐘后不同模型的評(píng)價(jià)指標(biāo)
下面討論隨著滑動(dòng)窗口的長(zhǎng)度增加,即輸入數(shù)據(jù)的周期變長(zhǎng),不同模型平均絕對(duì)誤差與均方根誤差的變化情況,結(jié)果如圖4所示。
圖4 (a) 不同滑動(dòng)窗口長(zhǎng)度下不同模型的MAE值比較
圖4 (b) 不同滑動(dòng)窗口長(zhǎng)度下不同模型的RMSE值比較
本實(shí)驗(yàn)的輸入滑動(dòng)窗口長(zhǎng)度為180~1440分鐘,即3~24小時(shí),中間每3小時(shí)進(jìn)行一次測(cè)試,從圖中可以看到,不同模型下MAE與RMSE的變化趨勢(shì)基本相同。當(dāng)滑動(dòng)窗口長(zhǎng)度為180分鐘時(shí),兩評(píng)價(jià)指標(biāo)最低的模型均為L(zhǎng)ongTransformer,其次為L(zhǎng)STM,最次為Attention-GRU。相較于后兩個(gè)模型,LongTransformer的MAE值分別降低了19.07%,29.32%;RMSE值分別降低了13.11%,30.47%。隨著滑動(dòng)窗口長(zhǎng)度增加,小滑動(dòng)窗口期間表現(xiàn)較好的LSTM模型的兩個(gè)評(píng)價(jià)指標(biāo)迅速增長(zhǎng),到720分鐘后,評(píng)價(jià)指標(biāo)變化平穩(wěn),當(dāng)輸入序列長(zhǎng)度為1440分鐘時(shí),LSTM模型的MAE與RMSE值分別為4281.85,4283.68,預(yù)測(cè)精度降低明顯,故此模型不適用與長(zhǎng)周期序列預(yù)測(cè)。這是因?yàn)檩斎胄蛄羞^(guò)長(zhǎng),導(dǎo)致LSTM在訓(xùn)練過(guò)程中產(chǎn)生梯度消失,模型參數(shù)無(wú)法迭代更新。
Attention-GRU模型與LongTransformer模型的精度雖然也隨滑動(dòng)窗口輸入周期的增加而降低,但評(píng)價(jià)指標(biāo)變化相較平穩(wěn),當(dāng)滑動(dòng)窗口長(zhǎng)度為1440分鐘時(shí),表現(xiàn)最優(yōu)的為L(zhǎng)ongTransformer模型,MAE值與RMSE值分別為738.60,810.45;其次為Attention-GRU模型,兩值分別為1085.66,1136.01。前者與后者相比,兩評(píng)價(jià)指標(biāo)分別降低了31.97%,28.66%。這是因?yàn)橄噍^于Attention-GRU,LongTransformer模型能夠更好地提取長(zhǎng)距離輸入內(nèi)部的依賴關(guān)系,而忽略數(shù)據(jù)之間的無(wú)關(guān)信息。
本文提出了基于LongTransformer的軌道交通裝備及關(guān)鍵零部件件剩余壽命預(yù)測(cè)方法。通過(guò)自注意力蒸餾操作中的級(jí)聯(lián)層輸入減半方法大幅降低了空間復(fù)雜度,增強(qiáng)了對(duì)長(zhǎng)時(shí)間序列依賴關(guān)系特征的提取能力。實(shí)驗(yàn)結(jié)果表明,本文所提出的方法優(yōu)于兩種較先進(jìn)的基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法,在剩余壽命預(yù)測(cè)問(wèn)題上有更高的準(zhǔn)確率。