魏 偉,趙小強(qiáng),3,丁艷華,范亮亮
(1.蘭州理工大學(xué) 電氣工程與信息工程學(xué)院,甘肅 蘭州 730050;2.甘肅省工業(yè)過(guò)程先進(jìn)控制重點(diǎn)實(shí)驗(yàn)室,甘肅 蘭州 730050;3.蘭州理工大學(xué) 國(guó)家級(jí)電氣與控制工程實(shí)驗(yàn)室教學(xué)中心,甘肅 蘭州 730050;4.中國(guó)鐵路蘭州局集團(tuán)有限公司 高鐵基礎(chǔ)設(shè)施維修段,甘肅 蘭州 730050;5.中國(guó)鐵路蘭州局集團(tuán)有限公司 蘭州電務(wù)段,甘肅 蘭州 730050)
車(chē)載設(shè)備作為列車(chē)運(yùn)行控制系統(tǒng)的核心組成部分,掌控著列車(chē)運(yùn)行的速度、距離等要素,是保障列車(chē)運(yùn)行安全的關(guān)鍵。文獻(xiàn)[1]表明,目前列控車(chē)載設(shè)備故障診斷主要依靠人工經(jīng)驗(yàn)判斷,已不能滿(mǎn)足大流量、高密度的運(yùn)輸需求。因此,運(yùn)用智能故障診斷技術(shù),及時(shí)準(zhǔn)確地查找列控車(chē)載設(shè)備故障成為各學(xué)者研究的熱點(diǎn)。
故障診斷是對(duì)設(shè)備異常工作狀態(tài)進(jìn)行檢測(cè)、隔離、識(shí)別的過(guò)程。早期學(xué)者運(yùn)用基于知識(shí)表示的方法定性完成鐵路信號(hào)設(shè)備故障診斷。文獻(xiàn)[2]根據(jù)故障類(lèi)型和特征,基于電路原理邏輯和專(zhuān)家經(jīng)驗(yàn)知識(shí)建立專(zhuān)家系統(tǒng),實(shí)現(xiàn)車(chē)站信號(hào)控制設(shè)備故障的分析與診斷。文獻(xiàn)[3]針對(duì)故障樹(shù)分析法(Fault Tree Analysis, FTA)的動(dòng)態(tài)失效問(wèn)題,建立動(dòng)態(tài)FTA模型,并采用分層迭代法優(yōu)化運(yùn)算,提高了車(chē)載ATP設(shè)備可靠性分析的精度。文獻(xiàn)[4]將案例推理技術(shù)引入車(chē)載設(shè)備故障診斷,以歷史案例完全表達(dá)為依據(jù),采用分層引索策略克服了案例檢索效率低的問(wèn)題。這類(lèi)以專(zhuān)家系統(tǒng)為代表的知識(shí)表示故障診斷方法,存在專(zhuān)家知識(shí)難以完全收集,建立的知識(shí)庫(kù)不易更新,推理規(guī)則過(guò)多等問(wèn)題。
近年來(lái),機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在故障診斷領(lǐng)域得到了廣泛應(yīng)用。文獻(xiàn)[5]基于粗糙集理論簡(jiǎn)約故障特征,利用貝葉斯網(wǎng)絡(luò)決策和推理完成車(chē)載故障診斷。文獻(xiàn)[6]針對(duì)貝葉斯網(wǎng)絡(luò)先驗(yàn)知識(shí)不足的缺點(diǎn),綜合運(yùn)用模糊數(shù)學(xué)理論建立了一個(gè)多屬性指標(biāo)下故障態(tài)勢(shì)的模糊貝葉斯決策模型,但貝葉斯網(wǎng)絡(luò)需要假設(shè)故障屬性之間相互獨(dú)立,這在實(shí)際中難以滿(mǎn)足。文獻(xiàn)[7]采用獨(dú)熱表示方式獲得故障現(xiàn)象與故障原因之間的映射,基于DBN完成車(chē)載故障診斷。文獻(xiàn)[8]建立故障診斷決策表,運(yùn)用GA優(yōu)化BP完成車(chē)載故障診斷。文獻(xiàn)[9]基于粗糙集和PSO算法優(yōu)化BP,實(shí)現(xiàn)車(chē)載應(yīng)答器信息接收模塊故障診斷。文獻(xiàn)[10]基于Apriori算法時(shí)間序列數(shù)據(jù)進(jìn)行簡(jiǎn)約,構(gòu)建LSTM模型完成車(chē)載測(cè)速測(cè)距單元故障診斷?;谏窠?jīng)網(wǎng)絡(luò)的故障診斷方法需要將故障數(shù)據(jù)預(yù)處理成適合輸入的格式,需要投入大量人工和時(shí)間成本,同時(shí)也難免造成原始數(shù)據(jù)中有用信息的丟失。
在大數(shù)據(jù)的時(shí)代背景下,基于數(shù)據(jù)驅(qū)動(dòng)的故障診斷方法成為研究的主流。車(chē)載設(shè)備故障數(shù)據(jù)包括兩種:自然語(yǔ)言形式的人工故障記錄和安全計(jì)算機(jī)生成的AElog文件。文獻(xiàn)[11]以人工故障記錄為依據(jù), 利用pLSA主題模型對(duì)故障追蹤表進(jìn)行語(yǔ)義特征提取,搭建貝葉斯網(wǎng)絡(luò)完成故障診斷。文獻(xiàn)[12]提出一種融合語(yǔ)義特征的兩級(jí)故障特征提取方法,將χ2統(tǒng)計(jì)提取的詞義特征與LDA提取的語(yǔ)義特征融合,分級(jí)完成車(chē)載設(shè)備故障診斷,但由于車(chē)載故障數(shù)據(jù)均為短文本,故利用LDA提取文本主題效果并不理想。文獻(xiàn)[13]以困惑度為指標(biāo)評(píng)價(jià)了不同主題個(gè)數(shù)的LDA模型,通過(guò)融合不同的主題特征空間,提出一種多粒度的LDA故障診斷方法,能有效提取短文本主題特征,但主題模型屬于無(wú)監(jiān)督模型,文本特征的提取具有較大的隨意性,不利于故障文本分類(lèi)。針對(duì)以上問(wèn)題,文獻(xiàn)[14]依據(jù)現(xiàn)場(chǎng)先驗(yàn)知識(shí),采用Labeled-LDA主題模型提取故障文本特征,并用PSO優(yōu)化SVM完成故障分類(lèi),該模型預(yù)設(shè)標(biāo)簽與主題對(duì)應(yīng),提高了故障診斷的精度,但不能識(shí)別ATP設(shè)備誤報(bào)信息。
人工故障記錄不具有時(shí)間序列特性,車(chē)載安全計(jì)算機(jī)自動(dòng)生成的AElog文件可按時(shí)間順序記錄列車(chē)的運(yùn)行狀態(tài),電務(wù)人員結(jié)合列車(chē)歷史、未來(lái)的運(yùn)行狀態(tài),能對(duì)當(dāng)前時(shí)刻的故障做出更準(zhǔn)確的判斷。但AElog文件屬于非結(jié)構(gòu)數(shù)據(jù),冗余信息較多,語(yǔ)義特征不易提取,常作為間接數(shù)據(jù)用于統(tǒng)計(jì)分析[3,5-7],未得到充分利用。文獻(xiàn)[15]通過(guò)Word2vec模型將AElog文件轉(zhuǎn)化為詞向量,以句子為單位輸入LSTM-BP級(jí)聯(lián)模型,完成車(chē)載設(shè)備故障診斷,通過(guò)分析故障數(shù)據(jù)之間時(shí)序關(guān)系,并結(jié)合列車(chē)歷史運(yùn)行狀態(tài)完成故障診斷,提高了關(guān)機(jī)誤報(bào)等非故障信息的診斷精度,但Word2vec模型存在語(yǔ)義歧義問(wèn)題,且LSTM僅考慮列車(chē)故障前的運(yùn)行狀態(tài),而在實(shí)際中列車(chē)故障后的運(yùn)行狀態(tài)對(duì)故障分析同樣重要。
為此,本文采用加權(quán)的變壓器雙向編碼表示(Weighted BERT, wBERT)實(shí)現(xiàn)文本向量化表示,并基于雙向長(zhǎng)短期記憶(Bidirectional Long Short Term Memory, BiLSTM)和改進(jìn)注意力機(jī)制(Improved Attention Mechanism, IAtt),提出wBERT-BiLSTM-IAtt車(chē)載設(shè)備故障診斷模型。首先,由BERT得到包含上下文語(yǔ)義信息的詞向量,并以各詞的TF-IDF值為權(quán)重加權(quán)求和得到句向量,相較于傳統(tǒng)BERT直接求和得到句向量的方法,wBERT能準(zhǔn)確地表示出句子語(yǔ)義,可為后續(xù)文本分類(lèi)任務(wù)提供更好的數(shù)據(jù)基礎(chǔ);然后,以句向量為單位輸入BiLSTM,與傳統(tǒng)LSTM僅考慮單方向的時(shí)序關(guān)系不同,BiLSTM能分析列車(chē)故障時(shí)刻前后的運(yùn)行狀態(tài),充分捕獲具有時(shí)序特性的故障特征;最后,以高維的故障特征作為改進(jìn)注意力機(jī)制層的輸入,分析故障文本與各句子之間的權(quán)重關(guān)系,增加重點(diǎn)句子的關(guān)注度,忽略冗余句子的影響,解決短文本語(yǔ)義表達(dá)模糊問(wèn)題,進(jìn)一步提高故障文本分類(lèi)的正確率。
車(chē)載設(shè)備、地面設(shè)備、GSM-R通信網(wǎng)絡(luò)構(gòu)成了規(guī)模龐大、結(jié)構(gòu)復(fù)雜的列車(chē)運(yùn)行控制系統(tǒng)。其中,車(chē)載設(shè)備主要有300T、300S、300H、200H、200C等5種型號(hào),本文以300T型車(chē)載設(shè)備為例進(jìn)行分析。300T型車(chē)載設(shè)備結(jié)構(gòu)見(jiàn)圖1,采用C2/C3級(jí)一體化的分布式設(shè)計(jì),主要包括列車(chē)超速防護(hù)單元(ATPCU)、C2控制單元(C2CU)、應(yīng)答器信息接收模塊(BTM)、測(cè)速測(cè)距單元(SDU)、軌道電路信息讀取模塊(TCR)、安全輸入輸出單元(VDX)、安全無(wú)線傳輸系統(tǒng)(STU-V)、司法記錄單元(JRU)、人機(jī)界面單元(DMI)等,各個(gè)部分通過(guò)Profibus和車(chē)輛MVB雙總線連接,實(shí)現(xiàn)列車(chē)運(yùn)行的動(dòng)態(tài)速度和目標(biāo)距離控制[1]。
圖1 300T型車(chē)載設(shè)備結(jié)構(gòu)
列車(chē)運(yùn)行過(guò)程中,ATPCU自動(dòng)生成記錄列車(chē)運(yùn)行狀態(tài)的AElog文件,每個(gè)AElog文件包含250條狀態(tài)信息,這些信息以“堆?!钡男问酱鎯?chǔ),閱讀時(shí)需要按時(shí)間順序從后往前讀。AElog文件截圖(部分)見(jiàn)圖2。
圖2 AElog文件截圖(部分)
由圖2可見(jiàn),AElog文件記錄了故障發(fā)生的時(shí)間、文件名、任務(wù)號(hào)、故障碼、故障語(yǔ)句等信息,故障分析時(shí),主要依據(jù)故障語(yǔ)句做出故障診斷。故障語(yǔ)句由英文短句描述,例如“Radio service lost”和“Network resource not available”表示網(wǎng)絡(luò)資源不可用造成車(chē)地通信中斷故障。從模式識(shí)別角度看,基于AElog文件的車(chē)載設(shè)備故障診斷,就是依據(jù)故障語(yǔ)句識(shí)別文本語(yǔ)義完成文本分類(lèi)的過(guò)程,主要存在以下難點(diǎn):
(1)故障數(shù)據(jù)冗余。AElog文件屬于半結(jié)構(gòu)化數(shù)據(jù),含雜著大量冗余信息,這些信息對(duì)語(yǔ)義特征提取無(wú)任何作用,需通過(guò)數(shù)據(jù)預(yù)處理刪除。
(2)故障信息誤報(bào)。ATP設(shè)備在系統(tǒng)斷電前后或者檢修作業(yè)期間會(huì)記錄部分模塊故障的信息,這些故障信息多由人為操作造成,而設(shè)備本身并無(wú)故障。
(3)故障特征復(fù)雜。AElog文本中的故障語(yǔ)句存在一詞多義或多詞一義的情況。若將故障語(yǔ)句比作故障特征,即存在多個(gè)特征表征一種故障或者一種故障表現(xiàn)不同故障特征的情況。比如:故障語(yǔ)句“radio service lost”“No network connection available”“No station registrated”“RD Connection ACK timeout”均表示無(wú)線通信相關(guān)故障。
綜上所述,基于文本挖掘的車(chē)載設(shè)備故障診斷不是簡(jiǎn)單的文本信息檢索過(guò)程,需要深度挖掘文本語(yǔ)義,綜合上下文信息才能做出準(zhǔn)確的故障判斷。
文本向量化表示是處理自然語(yǔ)言任務(wù)的第一步,有學(xué)者從潛在語(yǔ)義角度出發(fā),提出了LSA、LDA等主題模型,將原始高維特征詞空間映射到低維潛在主題空間以獲得文本層面的語(yǔ)義信息,然而這些模型缺乏對(duì)短句和詞語(yǔ)等低層語(yǔ)義表示,不善于處理短文本。2013年Mikolov提出Word2vec模型[16],從“詞”粒度層面進(jìn)行文本信息提取,更精細(xì)地表達(dá)文本語(yǔ)義,但Word2vec模型忽略了詞與上下文的關(guān)系,存在一詞多義的問(wèn)題。2018年ELMo模型被提出,該模型可結(jié)合語(yǔ)境為每個(gè)單詞創(chuàng)建與上下文關(guān)聯(lián)的詞向量,克服了Word2vec模型的缺點(diǎn)[17],但是其文本特征提取能力有限。
2018年谷歌AI團(tuán)隊(duì)集成各語(yǔ)言模型的優(yōu)點(diǎn)提出了BERT模型,該模型采用具有雙向信息流的Transformer編碼器[18],能夠同時(shí)完成遮蔽語(yǔ)言建模和下一句話(huà)預(yù)測(cè)兩個(gè)無(wú)監(jiān)督任務(wù)[19],可為每個(gè)單詞根據(jù)上下文語(yǔ)義靈活選擇詞向量,消除了語(yǔ)義表示歧義問(wèn)題,在各項(xiàng)自然語(yǔ)言處理任務(wù)中取得了領(lǐng)先效果。BERT模型結(jié)構(gòu)見(jiàn)圖3。圖3中,Wn為原始詞向量;On為訓(xùn)練后融合全局語(yǔ)義信息的詞向量;Trm為T(mén)ransformer編碼器。
圖3 BERT模型結(jié)構(gòu)
LSTM由Hochreiter等[20]于1997年提出,該模型具有學(xué)習(xí)長(zhǎng)依賴(lài)性數(shù)據(jù)特征的能力,同時(shí)克服了循環(huán)神經(jīng)網(wǎng)絡(luò)(Rrecurrent Neural Network, RNN)訓(xùn)練過(guò)程中梯度消失和梯度爆炸的問(wèn)題,廣泛用于各領(lǐng)域故障診斷任務(wù)[21-23]。LSTM單元結(jié)構(gòu)見(jiàn)圖4。
圖4 LSTM單元結(jié)構(gòu)
LSTM訓(xùn)練過(guò)程如下:
ft=σ(Wfxt+Ufht-1+bf)
(1)
it=σ(Wixt+Uiht-1+bi)
(2)
ot=σ(Woxt+Uoht-1+bo)
(3)
(4)
(5)
ht=ottanh(Ct)
(6)
式中:ft、it、ot分別為遺忘門(mén)、輸入門(mén)、輸出門(mén)當(dāng)前時(shí)刻的輸出;Wf、Wi、Wo分別為遺忘門(mén)、輸入門(mén)、輸出門(mén)當(dāng)前時(shí)刻網(wǎng)絡(luò)輸入xt的權(quán)值矩陣;Uf、Ui、Uo分別遺忘門(mén)、輸入門(mén)、輸出門(mén)t-1時(shí)刻隱藏層輸出ht-1的權(quán)值矩陣;bf、bi、bo分別為遺忘門(mén)、輸入門(mén)、輸出門(mén)的偏置值。
BiLSTM由正、反向兩個(gè)LSTM構(gòu)成,二者參數(shù)獨(dú)立,共享網(wǎng)絡(luò)輸入,訓(xùn)練得到正、反向兩個(gè)隱藏層輸出,合并后即為當(dāng)前時(shí)刻網(wǎng)絡(luò)輸出,因此BiLSTM可以同時(shí)從兩個(gè)方向上獲取時(shí)序信息,理論上更利于挖掘更深層的文本語(yǔ)義信息。
注意力機(jī)制最早應(yīng)用于圖像處理領(lǐng)域[24],可提高模型對(duì)圖像重點(diǎn)目標(biāo)區(qū)域的關(guān)注度。后來(lái),Bahdanau等[25]將注意力機(jī)制與RNN結(jié)合應(yīng)用于機(jī)器翻譯任務(wù),證明了注意力機(jī)制在自然語(yǔ)言處理任務(wù)中的有效性。近年,注意力機(jī)制在故障診斷領(lǐng)域也得到廣泛關(guān)注。文獻(xiàn)[26]基于Inception-CNN模型完成滾動(dòng)軸承故障分類(lèi)任務(wù),在CNN提取故障特征后加入注意力機(jī)制,權(quán)衡不同特征的重要程度,提高模型分類(lèi)的精度。文獻(xiàn)[27]將注意力機(jī)制和多尺度網(wǎng)絡(luò)引入高速列車(chē)EPR電纜故障診斷,分析了PRPD譜圖在不同通道域的權(quán)值分配,實(shí)驗(yàn)表明,引入注意力機(jī)制得到了更低損失函數(shù)值和更高模型正確率??梢?jiàn),在故障診斷任務(wù)中引入注意力機(jī)制的本質(zhì)在于從復(fù)雜的故障特征中篩選重要信息,過(guò)濾或弱化冗雜信息,以提高故障診斷精度。
本文提出的wBERT-BiLSTM-IAtt車(chē)載設(shè)備故障診斷模型見(jiàn)圖5。首先將AElog文件預(yù)處理成統(tǒng)一格式,基于wBERT得到句向量;再以句向量為單位輸入BiLSTM提取文本語(yǔ)義信息,引入改進(jìn)注意力機(jī)制層調(diào)整不同句子的權(quán)重;最后輸入Softmax分類(lèi)器完成故障分類(lèi)。
圖5 wBERT-BiLSTM-IAtt車(chē)載設(shè)備故障診斷模型
與傳統(tǒng)文本分類(lèi)數(shù)據(jù)集不同,AElog文件屬于半結(jié)構(gòu)化數(shù)據(jù),含有大量冗余信息,在人工分析數(shù)據(jù)時(shí),僅依據(jù)關(guān)鍵的3~5條故障語(yǔ)句即可做出故障判斷。因此,需要對(duì)故障數(shù)據(jù)進(jìn)行清洗和整理,刪除冗余信息,僅保留故障語(yǔ)句,并完成故障類(lèi)別標(biāo)注,該過(guò)程由Python正則表達(dá)式自動(dòng)匹配實(shí)現(xiàn)。
2.1.1 詞向量表示層
AElog文件中故障語(yǔ)句s={w1,w2,…,wn}由n個(gè)單詞wi組成,1≤i≤n。經(jīng)BERT模型訓(xùn)練得到3種向量:?jiǎn)卧~向量pwi、段落向量psi、位置向量ppi,分別表示單詞的語(yǔ)義信息、所在段落信息、詞序信息。使用時(shí)結(jié)合語(yǔ)境,選擇適當(dāng)?shù)?種向量求和得到最終詞向量Zi,即
Zi=pwi⊕psi⊕ppi
(7)
由式(7)可見(jiàn),相較于傳統(tǒng)詞向量工具,由BERT生成的詞向量Zi包含了更多的參數(shù),文本語(yǔ)義表示更加準(zhǔn)確。
2.1.2 句向量表示層
詞向量不僅能夠表示單詞的語(yǔ)義特征,而且可以采用詞向量相加減的方式表示句子或文本的語(yǔ)義特征[16],因此,句向量Si可由句子中各單詞對(duì)應(yīng)的詞向量Zi累加求和得到,即
(8)
但是AElog文件中故障語(yǔ)句短,組成文本的特征詞少,句子語(yǔ)義不易表示。另外,由詞向量累加求和得到句向量的方法,忽略了不同單詞對(duì)句子語(yǔ)義的不同影響,易造成語(yǔ)義丟失。為此本文提出wBERT文本向量化方法,即由BERT生成詞向量后,以各單詞詞頻為權(quán)重,通過(guò)加權(quán)求和的方式得到句向量,以此調(diào)整句子中不同單詞的權(quán)重,突出重點(diǎn)單詞對(duì)句子語(yǔ)義的貢獻(xiàn)度,可最大程度保留句子的原始語(yǔ)義。
詞頻-逆文本頻率(Term Frequency-Inverse Document Frequency, TF-IDF)是一種評(píng)估單詞對(duì)于一個(gè)文本集中某一類(lèi)文本重要程度的統(tǒng)計(jì)方法,由詞頻tf和逆向文件頻率idf組成,計(jì)算式為
(9)
(10)
由此,得
(11)
以式(11)為權(quán)重,代入式(8)得到wBERT的句向量為
(12)
本文選擇BiLSTM作為特征提取層,構(gòu)造2個(gè)LSTM,從正、反兩個(gè)方向捕獲前后句子之間的依賴(lài)關(guān)系,挖掘AElog文件深層的語(yǔ)義。故障文本T={S1,S2,…,Sm}中包含m個(gè)故障語(yǔ)句Si,分別輸入正、反向LSTM,按照式(1)~式(6)訓(xùn)練后得到
(13)
(14)
(15)
為進(jìn)一步提高重點(diǎn)故障語(yǔ)句對(duì)AElog文本的重要性,在故障特征提取層后引入注意力機(jī)制層。傳統(tǒng)做法是將BiLSTM正、反向輸出合并后作為注意力機(jī)制層的輸入[28],這種接入方式忽略了正、反向LSTM獲取的特征受注意力機(jī)制的不同影響。為此,本文改進(jìn)注意力機(jī)制的接入模式,如圖5所示,分別將正、反向LSTM獲取的特征單獨(dú)作為注意力機(jī)制層的輸入,并分配獨(dú)立的參數(shù)進(jìn)行訓(xùn)練,然后將加權(quán)后的正、反向LSTM輸出合并,獲得最終特征表示。改進(jìn)注意力機(jī)制層計(jì)算過(guò)程為
(16)
(17)
(18)
將故障特征向量Ht輸入Softmax分類(lèi)器,得到待分類(lèi)故障文本的結(jié)果輸出為
y=Softmax(WsHt+bs)
(19)
式中:y為實(shí)際故障類(lèi)別;Ws為權(quán)重矩陣;bs為偏置。本文采用反向傳播算法(Back propagation, BP)迭代更新參數(shù),使用交叉熵?fù)p失函數(shù)優(yōu)化網(wǎng)絡(luò),即
(20)
本文收集某局集團(tuán)有限公司電務(wù)段自2017年1月至2019年12月300T型車(chē)載設(shè)備AElog文件作為實(shí)驗(yàn)數(shù)據(jù)。首先依時(shí)間順序與人工故障記錄對(duì)比,確認(rèn)AElog文件故障類(lèi)型,然后從中選取800條典型的故障數(shù)據(jù)預(yù)處理后完成故障標(biāo)注,形成實(shí)驗(yàn)數(shù)據(jù)集。參照文獻(xiàn)[12, 14]車(chē)載設(shè)備故障分類(lèi)方式,將不常發(fā)生的故障類(lèi)型合并為一類(lèi),并忽略司機(jī)誤操作等人為原因造成的故障,整理后的車(chē)載設(shè)備故障分類(lèi)見(jiàn)表1。
表1 車(chē)載設(shè)備故障分類(lèi)
車(chē)載設(shè)備故障診斷為多分類(lèi)問(wèn)題,引入正確率Accuracy、準(zhǔn)確率P、召回率R,以及準(zhǔn)確率與召回率的調(diào)和平均數(shù)F1值等多個(gè)指標(biāo)評(píng)價(jià)模型為
(21)
(22)
(23)
(24)
式中:TP為標(biāo)簽i且被分到標(biāo)簽i類(lèi)的故障數(shù);TN為非標(biāo)簽i且被分到非標(biāo)簽i類(lèi)的故障數(shù);FP為非標(biāo)簽i被分到標(biāo)簽i類(lèi)的故障數(shù);FN為標(biāo)簽i被分到非標(biāo)簽i類(lèi)的故障數(shù)。
3.2.1 參數(shù)設(shè)置
本次實(shí)驗(yàn)基于TensorFlow2.0深度學(xué)習(xí)框架完成,將數(shù)據(jù)集按8∶2分為訓(xùn)練集和測(cè)試集;Word2vec詞向量維度為150,BERT采用Google預(yù)訓(xùn)練后的XLM-R[Large]模型;CNN采用一維卷積網(wǎng)絡(luò),設(shè)置3個(gè)大小為2,3,4的卷積窗口[29];LSTM的輸入層節(jié)點(diǎn)數(shù)、詞向量維度與BiLSTM的一致,隱藏層節(jié)點(diǎn)數(shù)為64,隱藏層后設(shè)Dropout層丟棄概率為0.5防止過(guò)擬合,注意力機(jī)制層節(jié)點(diǎn)數(shù)為64;模型訓(xùn)練使用Adam,學(xué)習(xí)率為0.001,批次訓(xùn)練為50,迭代次數(shù)為20;SVM采用LIVSVM工具包,設(shè)置類(lèi)型為C-SVC;核函數(shù)采用徑向基函數(shù),懲罰因子為10,核函數(shù)控制因子為0.01。
3.2.2 詞向量工具對(duì)比實(shí)驗(yàn)
分別采用Word2vec、ELMo、BERT,以及本文提出的wBERT實(shí)現(xiàn)文本向量化,并基于BiLSTM完成車(chē)載設(shè)備故障診斷,對(duì)比不同詞向量工具對(duì)模型性能的影響?;诓煌~向量工具的實(shí)驗(yàn)結(jié)果對(duì)比見(jiàn)表2。由表2可見(jiàn),各模型都獲得了80%以上的故障診斷正確率,說(shuō)明從詞級(jí)層面提取文本特征在短文本向量化方面取得了不錯(cuò)的效果;ELMo是一種動(dòng)態(tài)詞向量模型,具有多義詞的識(shí)別能力,正確率較Word2vec提高了2.5%;BERT采用Tranformer編碼器,文本信息提取能力優(yōu)于ELMo,正確率達(dá)到了89.5%;本文提出的wBERT模型進(jìn)一步提升了重點(diǎn)詞權(quán)重,同時(shí)降低冗余詞的影響,獲得了最高的故障診斷正確率,達(dá)到90.6%。
表2 基于不同詞向量工具的實(shí)驗(yàn)結(jié)果 %
3.2.3 故障特征提取層對(duì)比實(shí)驗(yàn)
基于wBERT實(shí)現(xiàn)文本向量化,將句向量輸入4種不同的神經(jīng)網(wǎng)絡(luò)模型完成車(chē)載故障診斷,對(duì)比不同故障特征提取層對(duì)模型性能的影響?;诓煌收咸卣魈崛拥膶?shí)驗(yàn)結(jié)果對(duì)比見(jiàn)表3。由表3可見(jiàn),相較于CNN,LSTM、BiLSTM、BiGRU更利于分析具有時(shí)序特性的故障數(shù)據(jù),它們能結(jié)合上下文提取語(yǔ)義信息,因此,CNN模型正確率低于其他3種模型;LSTM僅從單方向考慮句子之間的關(guān)系,即上文語(yǔ)義信息,而AElog文件分析時(shí)需結(jié)合上下文語(yǔ)義信息才能做出更準(zhǔn)確的判斷,特別在判斷誤報(bào)信息時(shí),如果僅考慮列車(chē)故障前的運(yùn)行狀態(tài),容易把誤報(bào)記錄判斷為故障;BiLSTM和BiGRU彌補(bǔ)了單向LSTM的缺點(diǎn),從兩個(gè)時(shí)序方向提取文本特征,綜合上下文語(yǔ)義信息對(duì)故障文本做出判斷,提升了模型學(xué)習(xí)能力,正確率得到提高。
表3 基于不同故障特征提取層的實(shí)驗(yàn)結(jié)果 %
LSTM、BiLSTM、BiGRU 3種模型的正確率、損失值隨網(wǎng)絡(luò)迭代次數(shù)增加的變化過(guò)程見(jiàn)圖6。從圖6(a)明顯看出,BiGRU與BiLSTM均得到較高的正確率和低的損失值;BiGRU是BiLSTM的改進(jìn)[30],將LSTM中遺忘門(mén)、輸入門(mén)、輸出門(mén)簡(jiǎn)化為更新門(mén)和重置門(mén),因此,BiGRU參數(shù)少于BiLSTM。從圖6(b)看出,BiGRU能夠更快收斂,損失值下降快于BiLSTM,但是迭代10次左右時(shí)兩者均獲得90%左右的正確率,BiLSTM略高??紤]列控車(chē)載設(shè)備故障診斷需要具備較高的可靠性,故本文選擇BiLSTM為故障特征提取層。
圖6 3種模型正確率、損失值隨迭代次數(shù)增加的變化過(guò)程
3.2.4 注意力機(jī)制層對(duì)模型性能的影響
為驗(yàn)證引入注意力機(jī)制的必要性,本文構(gòu)建wBERT-BiLSTM、wBERT-BiLSTM-Att、wBERT-BiLSTM-IAtt 3種模型進(jìn)行對(duì)比實(shí)驗(yàn)。基于不同模型的實(shí)驗(yàn)結(jié)果對(duì)比見(jiàn)表4。
表4 基于不同模型的實(shí)驗(yàn)結(jié)果 %
注意力機(jī)制層可以有效識(shí)別重點(diǎn)句子對(duì)文本語(yǔ)義的影響,從表4看出,接入注意力機(jī)制層正確率提升了2%以上。本文提出改進(jìn)注意力機(jī)制層,獨(dú)立分配正、反向LSTM輸出特征的權(quán)重,進(jìn)一步加持了BiLSTM故障特征提取的效果,故障診斷正確率提升了3%左右。
AElog文件經(jīng)過(guò)改進(jìn)的注意力機(jī)制層后各句子權(quán)重分配可視化效果見(jiàn)圖7。該故障類(lèi)別為“BTM端口無(wú)效”,經(jīng)過(guò)改進(jìn)注意力機(jī)制層后,關(guān)鍵故障語(yǔ)句“Balise Port1 invalid”和 “StatusPort notvaild in BTM1”被分配了更多的權(quán)重,說(shuō)明得到模型更多的關(guān)注,提高了AElog文件的可分性。
圖7 改進(jìn)注意力機(jī)制層輸出特征可視化效果
3.2.5 基線模型實(shí)驗(yàn)對(duì)比
本文基于加權(quán)BERT實(shí)現(xiàn)文本信息表示,并結(jié)合雙向長(zhǎng)短期記憶網(wǎng)絡(luò)和改進(jìn)的注意機(jī)制,提出wBERT-BiLSTM-IAtt車(chē)載故障診斷模型,為進(jìn)一步說(shuō)明該模型的性能,與其他模型進(jìn)行對(duì)比實(shí)驗(yàn)。
(1)TF-IDF-SVM。TF-IDF是一種基于詞頻的文本特征提取方法,原理簡(jiǎn)單、運(yùn)行速度快,提取文本特征后利用SVM完成文本分類(lèi),是最簡(jiǎn)單的文本分類(lèi)模型,以此作為基線模型。
(2)Labeled-LDA-PSO-SVM。文獻(xiàn)[14]克服LDA模型主題分散的缺點(diǎn),結(jié)合專(zhuān)家經(jīng)驗(yàn)預(yù)設(shè)主題標(biāo)簽,從隱語(yǔ)義層面提取文本信息,采用PSO算法優(yōu)化SVM完成多故障分類(lèi)。
(3)Word2vec-LSTM-BP-BR。文獻(xiàn)[15]采用Word2vec提取文本語(yǔ)義特征,基于LSTM從時(shí)間序列角度分析,利用BR優(yōu)化BP,完成故障分類(lèi)。
不同模型下各類(lèi)別故障的診斷結(jié)果見(jiàn)表5。
表5 基于不同模型車(chē)載故障診斷結(jié)果 %
由表5可見(jiàn):
(1)TF-IDF-SVM模型基于詞頻對(duì)文本分類(lèi),不能有效解決一詞多義問(wèn)題,語(yǔ)義信息丟失嚴(yán)重,正常類(lèi)故障診斷準(zhǔn)確率僅為68.98%,說(shuō)明受冗余信息影響故障特征不明顯的AElog文件被劃分為正常類(lèi)別,整體診斷精度僅為72.62%。
(2)文獻(xiàn)[14]改進(jìn)主題模型,從文本層面提取語(yǔ)義信息,各類(lèi)別結(jié)果得到了提升,故障診斷精度達(dá)到81.5%;但未考慮故障數(shù)據(jù)之間的時(shí)序特性,不能準(zhǔn)確識(shí)別誤報(bào)信息,正常類(lèi)故障診斷準(zhǔn)確率為79.8%;另外,各類(lèi)別仍有提升空間,說(shuō)明主題模型的短文本特征提取效果不夠理想。
(3)文獻(xiàn)[15]基于Word2vec生成詞向量,采用LSTM結(jié)合上文故障語(yǔ)句判斷故障,正確率達(dá)到89.37%;值得注意的是,正常類(lèi)診斷準(zhǔn)確率相對(duì)于文獻(xiàn)[14]方法增加了7%左右,說(shuō)明LSTM有效增加了誤報(bào)信息的診斷準(zhǔn)確率。
(4)本文模型從文本向量化方法、故障特征提取和故障文本分類(lèi)三個(gè)方面優(yōu)化,提高了各類(lèi)別診斷的準(zhǔn)確率、召回率、F1值,故障診斷正確率為93.75%,優(yōu)于其他模型,說(shuō)明了本文模型的有效性。
(1)本文結(jié)合TF-IDF和BERT提出wBERT文本向量化方法,通過(guò)加權(quán)求和的方式得到AElog文件中故障語(yǔ)句的向量化表示,然后將句向量輸入BiLSTM提取故障特征,再接入改進(jìn)的注意力機(jī)制層調(diào)整不同句子的權(quán)重,最后利用Softmax對(duì)故障文本分類(lèi),實(shí)現(xiàn)了車(chē)載設(shè)備故障診斷。
(2)為了驗(yàn)證模型合理性,與Word2vec、ELMo、BERT對(duì)比了文本向量化效果,與CNN、LSTM、BiGRU對(duì)比了故障特征提取性能,同時(shí)驗(yàn)證了引入改進(jìn)注意力機(jī)制的必要性。
(3)為進(jìn)一步說(shuō)明本文模型的有效性,基于真實(shí)故障數(shù)據(jù),與其他文獻(xiàn)提出的車(chē)載故障模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明,本文模型在準(zhǔn)確率、召回率、F1值三方面均取得了最優(yōu)的結(jié)果,可為電務(wù)人員車(chē)載故障診斷與設(shè)備維護(hù)提供有力指導(dǎo)。
下一步研究工作將基于BERT生成不同維度的詞向量,驗(yàn)證詞向量維度對(duì)實(shí)驗(yàn)結(jié)果的影響,并收集更多數(shù)據(jù),嘗試解決在不均衡樣本下的車(chē)載故障診斷問(wèn)題。