彭 聰,上官偉,2,邢玉龍,蔡伯根,2
(1.北京交通大學(xué) 電子信息工程學(xué)院, 北京 100044;2.北京交通大學(xué) 軌道交通控制與安全國家重點(diǎn)實(shí)驗(yàn)室,北京 100044)
我國《中長期鐵路規(guī)劃網(wǎng)》(2016—2030)中規(guī)劃了“八縱八橫”的高速鐵路網(wǎng),“交通強(qiáng)國”戰(zhàn)略引領(lǐng)我國高速鐵路發(fā)展進(jìn)入新的階段,更高的效率、更優(yōu)越的系統(tǒng)性能對高速列車的運(yùn)行安全提出了更加嚴(yán)苛的要求。
列車運(yùn)行控制系統(tǒng)是高速鐵路系統(tǒng)的核心組成,車載設(shè)備是保障列車運(yùn)行控制系統(tǒng)功能正常實(shí)現(xiàn)的必不可少的部分。車載設(shè)備組成部件眾多,結(jié)構(gòu)復(fù)雜,且各單元之間信息交互頻繁,快速、高效地實(shí)現(xiàn)車載設(shè)備的故障診斷對保證列車運(yùn)行安全具有重大意義。
故障診斷是確定故障位置及類型的過程。故障診斷算法可以分為基于知識的方法、基于模型的算法、基于信號的方法和基于數(shù)據(jù)驅(qū)動的方法[1-2]。鑒于車載設(shè)備的復(fù)雜性,近年來,利用數(shù)據(jù)挖掘技術(shù)基于數(shù)據(jù)驅(qū)動對車載設(shè)備文本數(shù)據(jù)進(jìn)行故障特征提取,進(jìn)而實(shí)現(xiàn)對車載設(shè)備的故障診斷成為當(dāng)前車載設(shè)備故障診斷的研究方向。文獻(xiàn)[3]使用屬性簡約后的車載設(shè)備故障數(shù)據(jù)訓(xùn)練貝葉斯算法,以此構(gòu)建分類模型,實(shí)現(xiàn)車載設(shè)備的故障診斷。文獻(xiàn)[4]利用鐵路維護(hù)部門的故障文本數(shù)據(jù),改進(jìn)主題模型進(jìn)行故障特征提取,使用支持向量機(jī)對故障模式進(jìn)行分類,實(shí)現(xiàn)車載設(shè)備的故障診斷。文獻(xiàn)[5]利用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)車載日志內(nèi)部特征提取,結(jié)合代價敏感學(xué)習(xí)的隨機(jī)森林算法對不均衡數(shù)據(jù)進(jìn)行處理,對所提取特征進(jìn)行分類,實(shí)現(xiàn)車載設(shè)備故障診斷。文獻(xiàn)[6]提出一種貝葉斯網(wǎng)絡(luò)與粗糙集模型約簡技術(shù)相融合的故障診斷方法。文獻(xiàn)[7]針對文本數(shù)據(jù)的不規(guī)則性,使用主題模型進(jìn)行特征提取,采用貝葉斯網(wǎng)絡(luò)算法實(shí)現(xiàn)車載設(shè)備的故障診斷。文獻(xiàn)[8]使用主題模型對日志數(shù)據(jù)的語義特征進(jìn)行特征提取,采用基于粒子群優(yōu)化的支持向量機(jī)對日志文本的故障進(jìn)行分類,實(shí)現(xiàn)車載設(shè)備的故障診斷。文獻(xiàn)[9]以車載設(shè)備中應(yīng)答器信息接收模塊BTM故障文本數(shù)據(jù)作為樣本,提出一種基于粗糙集和改進(jìn)布谷鳥搜索算法優(yōu)化神經(jīng)網(wǎng)絡(luò)的列控車載設(shè)備故障診斷方法。上述方法在一定程度上可以實(shí)現(xiàn)車載設(shè)備的故障診斷,但也存在一定的弊端,主要體現(xiàn)在:故障特征提取的過程沒有考慮實(shí)際情況中出現(xiàn)的故障模式分布不平衡問題;大多數(shù)研究均采用淺層模型對故障特征進(jìn)行特征提取,忽略了語序、句序?qū)收咸卣魈崛〉挠绊?,對故障特征提取不充分,使得分類器的性能下降,降低了故障診斷的精度。
為此,本文在對車載設(shè)備故障文本數(shù)據(jù)進(jìn)行分析,以及總結(jié)目前故障特征提取過程中存在問題的基礎(chǔ)上,提出一種基于雙視圖故障特征提取的列控系統(tǒng)車載設(shè)備故障診斷方法。首先在兩個不同的視圖下分別對故障文本數(shù)據(jù)進(jìn)行故障特征提??;然后利用PCA技術(shù)[10]對兩者進(jìn)行融合,得到可以用于學(xué)習(xí)的PCA特征集合;最后將該特征集合注入極端梯度提升[11](eXtreme Gradient Boosting,XGBoost)分類器進(jìn)行訓(xùn)練,對不平衡的故障模式進(jìn)行分類,從而實(shí)現(xiàn)車載設(shè)備的故障診斷。該方法不僅解決了故障模式分布不平衡問題,也解決了故障特征提取不充分問題,同時通過PCA技術(shù)對級聯(lián)后故障特征集合進(jìn)行降維,還解決了故障特征維度高問題。相比于傳統(tǒng)的故障特征提取方法,本文方法可以充分準(zhǔn)確地提取故障特征,在提高分類器分類性能的同時也提高了故障診斷的分類精度。
目前CTCS-3級列控系統(tǒng)的車載設(shè)備主要有300T、300S和300H三種類型,其中300T型車載設(shè)備應(yīng)用于武廣客專、哈大客專、京石武客專等多條線路,應(yīng)用范圍廣,因此本文選取300T型車載設(shè)備作為研究對象。
在列車運(yùn)行過程中,車載設(shè)備會產(chǎn)生大量運(yùn)行日志數(shù)據(jù),故障類型繁雜,歸結(jié)起來分為三類:硬件故障、軟件故障和外部環(huán)境干擾故障[12]。為了有效記錄系統(tǒng)運(yùn)行的狀態(tài)數(shù)據(jù),專門在車載設(shè)備中開辟了非易失存儲區(qū),用于記錄系統(tǒng)的運(yùn)行狀態(tài)。對于300T型車載設(shè)備,其故障數(shù)據(jù)主要為AE-Log文件,記錄列車在運(yùn)行過程中車載設(shè)備的啟機(jī)成功、測試完成等重要進(jìn)程事件,以及測試失敗、系統(tǒng)異常等故障事件。
由于AE-Log文件中的故障數(shù)據(jù)是以文本形式進(jìn)行存儲,無法直接對其進(jìn)行分析診斷,因此需要對故障數(shù)據(jù)進(jìn)行預(yù)處理。故障數(shù)據(jù)預(yù)處理是指對故障文本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化和規(guī)范化處理,使之轉(zhuǎn)換成計算機(jī)可以識別的形式,以供后續(xù)進(jìn)行特征提取。預(yù)處理操作主要包括刪除特殊字符、單詞規(guī)范化、分詞等。其中,單詞規(guī)范化是將單詞小寫化、提取詞干;分詞是利用英文中的空格和標(biāo)點(diǎn)符號作為分隔符來得到單詞;刪除特殊字符是對除英文字符、數(shù)字之外的其他字符進(jìn)行過濾篩選。
目前,從300T型車載設(shè)備AE-Log文件中提取的故障特征存在以下問題:
(1)故障模式分布不平衡。通過對車載設(shè)備故障模式的統(tǒng)計,發(fā)現(xiàn)某一類故障數(shù)量(大類)要遠(yuǎn)遠(yuǎn)大于另一類故障數(shù)量(小類),使用這樣的不平衡數(shù)據(jù)集進(jìn)行故障診斷,分類器容易將小類別故障類型誤診為大類別故障類型,使分類性能下降。
(2)故障特征提取不充分。傳統(tǒng)的特征提取模式忽略了故障文本數(shù)據(jù)語序?qū)ζ涮卣骷系挠绊?,故障特征提取不充分,使得特征集合的質(zhì)量降低,在一定程度上使分類器性能下降。
(3)故障特征維度高。故障文本數(shù)據(jù)中包含大量語料,對該語料庫進(jìn)行單詞規(guī)范化、刪除特殊字符、去除停用詞后得到的特征集合維度高,使用大多數(shù)學(xué)習(xí)算法對高維特征集合進(jìn)行學(xué)習(xí)會占用大量的時間、空間資源。
針對上述問題,本文提出一種雙視圖故障特征提取方法,在語義和語序兩個視圖下對故障文本數(shù)據(jù)進(jìn)行特征提取。在語義視圖下,提出改進(jìn)的互信息(Improved Mutual Information,IMI)特征提取方法實(shí)現(xiàn)不平衡數(shù)據(jù)集下的特征提取,得到IMI特征;同時增加類別比重因子用于調(diào)整大類故障模式和小類故障模式的特征權(quán)重,解決不平衡數(shù)據(jù)集對分類器性能造成的影響。類別比重因子包括平均類詞頻和倒轉(zhuǎn)類別頻率兩部分。在語序視圖下,使用句向量的分布記憶模型(Distributed Memory Model of Paragraph Vectors,PV-DM)實(shí)現(xiàn)故障特征的充分提取,得到PV-DM特征。相較于傳統(tǒng)的特征提取方法,本文方法考慮了語序和句序?qū)收咸卣魈崛〉挠绊懀軌虺浞痔崛」收衔谋緮?shù)據(jù)中的故障特征,解決特征提取不充分問題。然后,利用PCA技術(shù)對IMI特征和PV-DM特征進(jìn)行融合,將兩者轉(zhuǎn)化為線性不相關(guān)的PCA特征,解決故障文本數(shù)據(jù)維度高的問題。雙視圖故障特征提取方法流程見圖1。
圖1 雙視圖故障特征提取方法流程
在語義視圖下,基于IMI的特征提取方法通過增加類別比重因子δ來改變原有的特征空間,提高小類故障的權(quán)重,減少大類故障的權(quán)重。在δ中,考慮到高頻特征很可能與最終診斷的總體性能相關(guān),因此特征在故障文本數(shù)據(jù)中出現(xiàn)的頻率TF可以用做特征選擇的一個因素;IMI方法的目的是希望更準(zhǔn)確地對大、小類故障模式加以區(qū)分,而不同的特征對類別的區(qū)分能力存在一定的差異,出現(xiàn)在小類中的詞條顯然具有較好的區(qū)分類別的能力,因此倒轉(zhuǎn)類別頻率ICF可以作為特征選擇的另一個因素;類比于常用于文本加權(quán)的TF-IDF[13]方法,將TF與ICF的乘積作為類別比重因子δ。
2.1.1 互信息
互信息經(jīng)常用來衡量特征之間相互依賴的程度,是信息論中的重要概念[14]。對于給定的類別c和特征ti,它們之間的互信息MI(ti,c)定義為
(1)
式中:P(ti∩c)為故障文本語句中特征ti與類別c同時出現(xiàn)的概率,即類別c中包含特征ti的概率;P(ti)為特征在整個故障文本語句中出現(xiàn)的概率;P(c)為類別c出現(xiàn)的概率?;バ畔⒅翟酱?,表明特征所帶來的信息量也就越大。當(dāng)互信息達(dá)到最大值時,該特征即為判定類別歸屬的最佳特征。
設(shè){c1,c2,…,cm}為故障文本數(shù)據(jù)集中m類故障的集合,則特征ti與故障文本數(shù)據(jù)集的互信息MI(ti)為
(2)
進(jìn)行特征選擇時,對每個特征計算其與故障文本數(shù)據(jù)集的互信息值并進(jìn)行排序,選取前τ個互信息值最高的特征作為最終的特征集合。
2.1.2 基于IMI的故障特征提取方法
由互信息定義分析可知,互信息具有以下不足:
(1)僅考慮了特征在某類以及整個數(shù)據(jù)集中的文檔頻率,忽略了詞頻因素,從而傾向于選擇低頻特征,會造成更具有代表性、與類別依存關(guān)系更強(qiáng)的特征項(xiàng)被過濾掉。
(2)當(dāng)互信息值為負(fù)數(shù)時,說明該特征在當(dāng)前類別中很少或者不出現(xiàn),而在其他類別中出現(xiàn),這樣的特征項(xiàng)對類別的正確判斷具有重要作用。而式(2)采用累加求和的方式將正相關(guān)和負(fù)相關(guān)的作用進(jìn)行中和,會影響特征集合的選擇,特別是在數(shù)據(jù)集不平衡的情況下,小類故障的分類精度會受到很大影響。
(3)由于數(shù)據(jù)集故障模式分布不平衡,而互信息度量特征的信息量是在假定數(shù)據(jù)集類別分布相對均勻的情況下進(jìn)行的,因此,如果不對互信息進(jìn)行改進(jìn),對于小類故障而言,診斷效果會大幅度下降。
本文通過增加類別比重因子δ來解決上述問題,δ包含TF和ICF兩部分。
某一特征ti在數(shù)據(jù)集中出現(xiàn)的頻率TFti為
(3)
式中:nti為特征ti出現(xiàn)的次數(shù);N為特征總數(shù)。TFti反映了該特征在故障文本數(shù)據(jù)集中的分布情況,出現(xiàn)該特征的次數(shù)越多,TF越大,意味著該特征的區(qū)分能力就越差。同時考慮到TF是特征在數(shù)據(jù)集中出現(xiàn)的頻率,不能很好地體現(xiàn)特征在某一類中出現(xiàn)的頻率,因此進(jìn)一步使用類詞頻TFC表示特征在某一類中出現(xiàn)的頻率,定義為
(4)
對式(4)取平均后得到平均類詞頻ATFC為
(5)
式中:nti,cj為特征ti在類cj中出現(xiàn)的次數(shù);m為故障類別總數(shù)。特征ti在類cj中出現(xiàn)的次數(shù)越多,在其他類中出現(xiàn)的次數(shù)越少,ATFC越大,說明該特征更能代表該類。
倒轉(zhuǎn)類別頻率ICF可以用來衡量特征對類別的重要程度,計算式為
(6)
式中:|{j:ti∈cj}|為包含特征ti的類別數(shù)量。特征ti的ICF反映了該特征在整個類別中的分布情況,出現(xiàn)該特征的類別數(shù)越少,ICF越大,該特征的區(qū)分類別能力就越好。在計算中,為避免ICF為0,對式(6)進(jìn)行加1處理。處理后的ICF為
(7)
將特征的ATFC與ICF相乘作為類別比重因子δ,δ值越大,說明特征在該類別中出現(xiàn)的頻率越高,與該類別的關(guān)系更為密切,特征的區(qū)別能力越好,該特征能更好地代表該類別。δ計算式為
δti=ATFCti×ICFti
(8)
在互信息計算過程中,會出現(xiàn)上述式(2)中出現(xiàn)的正負(fù)相關(guān)相互抵消的問題,對此在求解特征ti與類別c之間的互信息值時,做絕對值處理。
綜上所述,本文提出特征ti改進(jìn)的互信息IMI(ti)計算式為
(9)
基于改進(jìn)的互信息故障特征提取方法流程如下:
Step1初始化故障文本數(shù)據(jù)D,故障模式集合C,集合D中元素數(shù)ND,集合C中元素數(shù)m,生成的IMI特征集合維度τ。
Step2對于D中每一條文本數(shù)據(jù)Di,1≤i≤ND,去除特殊字符、小寫化、分詞后得到詞集合,合并所有詞集合并去重后得到特征詞集合Ω。
Step3對于特征詞集合Ω中的每一個特征ti,故障模式集合C中每一個類別cj,根據(jù)式(1)計算ti和cj的互信息值MI(ti,cj),根據(jù)式(4)、式(5)計算特征詞ti的ATFCti,根據(jù)式(7)計算特征詞ti的ICFti。
Step5根據(jù)式(9)計算特征詞ti的IMI(ti),IMI(ti)從大到小依次排序,選取前τ個IMI(ti)作為特征集合FD輸出,F(xiàn)D={t1,t2,…,tτ}。
Step6利用特征集合FD,采用One-Hot編碼的方式對ti進(jìn)行編碼,得到特征表示向量wi。
Step7輸出IMI特征矩陣FIMI=[w1w2…wτ]T。
2.2.1 PV-DM模型
PV-DM模型是一種神經(jīng)網(wǎng)絡(luò)模型,可以將故障文本數(shù)據(jù)映射成為一個結(jié)構(gòu)化向量。相比于傳統(tǒng)的特征提取方法,PV-DM模型考慮了語序?qū)ξ谋咎卣魈崛〉挠绊?,能夠更?zhǔn)確地表達(dá)故障特征。
詞嵌入是一種將文本中的詞匯轉(zhuǎn)化為數(shù)值向量的方法,由于文本不能被計算機(jī)直接識別,因此在數(shù)據(jù)處理中生成詞向量就顯得異常的重要。Word2Vec[15]是一種常見的詞嵌入方法,以大型的文本語料為輸入,生成詞匯的對應(yīng)向量空間。Doc2vec[16]在Word2vec 的基礎(chǔ)上增加了一個特征向量,并將這個特征向量看作是一個表示當(dāng)前文檔中其余部分信息或者主題信息的向量。PV-DM模型是Doc2vec兩種模型中的一種,通過給定上下文來預(yù)測目標(biāo)特征。PV-DM模型結(jié)構(gòu)見圖2。
圖2 PV-DM模型結(jié)構(gòu)
以故障文本數(shù)據(jù)中某一文本{ω1,ω2,ω3,ω4,ω5}={bsa,permanent,error,inactive,btm1}為例(見圖2),在訓(xùn)練過程中,該文本的段落ID=2且保持不變,用段落向量DMj表示,j為該文本在整個數(shù)據(jù)集中的位置,文本中的每個特征共享該段落向量。同時文本中每個特征通過One-Hot編碼的方式映射為一個獨(dú)立的特征向量Wi,i為該特征在文本中的位置。將段落向量DMj與相鄰的特征向量{Wi+1,Wi-1}求和得到一個矩陣,用來預(yù)測Wi。在給定上下文和DMj的條件下,PV-DM模型的目標(biāo)是預(yù)測中心特征最大平均似然估計,即
(10)
式中:T為文本長度;k為上下文窗口長度。
本文利用Softmax函數(shù)[17]完成預(yù)測任務(wù)為
(11)
每個yi都為輸出特征i的非標(biāo)準(zhǔn)化對數(shù)概率,即
y=b+Uh(ωt-k,…,ωt+k;W+DM)
(12)
式中:U、b為Softmax的參數(shù);h由段落向量DM與特征向量W求和構(gòu)成,兩者使用反向傳播算法[18]獲得隨機(jī)梯度進(jìn)行訓(xùn)練。每一步的隨機(jī)梯度下降,都是在任意一個隨機(jī)段落里使用采樣的方式獲得上下文信息,通過PV-DM模型計算梯度誤差并更新相應(yīng)的參數(shù)。通過這樣的訓(xùn)練方式,能夠?qū)⒕哂嘘P(guān)聯(lián)的詞映射到向量空間中相似的位置上,解決序列中詞與詞序之間的關(guān)聯(lián)問題。
2.2.2 基于PV-DM模型的故障特征提取方法
(13)
式中:Wi,e為第e輪訓(xùn)練過程中第i個文本被映射成的特征向量;η為迭代次數(shù)。
基于PV-DM模型的故障特征提取方法流程如下:
Step1初始化故障文本數(shù)據(jù)D,集合D中元素總數(shù)ND,迭代次數(shù)η,上下文窗口長度k,生成的PV-DM特征維度ρ。
Step2對于D中每一條文本數(shù)據(jù)Di,1≤i≤ND,去除特殊字符、小寫化、分詞后得到詞集合。
Step3根據(jù)式(10)~式(12),利用隨機(jī)梯度下降方法訓(xùn)練詞集合,其中上下文窗口長度設(shè)置為k。
Step4重復(fù)訓(xùn)練η次,得到η個特征詞向量集合{Wi,1,Wi,2,…,Wi,η}。
2.3.1 PCA
PCA是一種用來對高維特征降維的技術(shù),對于pm維特征矩陣Fpm=[f1f2…fpm]T,通過PCA技術(shù)可以將其降維后形成pn維PCA特征矩陣,pn Step1對所有的特征進(jìn)行中心化處理,用每一列數(shù)值減去每列均值,得到矩陣X,求矩陣X的協(xié)方差矩陣R。 (14) Step2利用Rx=λx求協(xié)方差矩陣R的特征值λ和特征向量x。 2.3.2 PCA特征融合 Step1初始化FIMI、FPV-DM,以及PCA特征維度γ。 Step3根據(jù)式(14)計算F的協(xié)方差矩陣R,并計算協(xié)方差矩陣R的特征值λ和特征向量x。 選用鐵路運(yùn)營部門收集的300T型車載設(shè)備故障文本數(shù)據(jù)作為數(shù)據(jù)集。通過對故障文本數(shù)據(jù)的統(tǒng)計,發(fā)現(xiàn)車載設(shè)備在不同故障模式之間具有明顯的不平衡性。具體的故障模式及樣本比例見表1。 表1 故障模式及樣本比例 由表1可見,F(xiàn)M1和FM2占據(jù)的比例較大,屬于大類別故障;相對的其他故障類型所占比例較小,屬于小類別故障。其中,F(xiàn)M1與FM4的樣本比例接近8∶1;FM1與FM5的樣本比例達(dá)到7∶1。樣本分布的不均衡性在進(jìn)行診斷分類時易將小類別樣本錯誤地診斷為大類別的故障類型,對于大類別的準(zhǔn)確率影響較小,但是會大大降低小類別的準(zhǔn)確率,從而影響分類器的性能。 為了全面衡量本文方法的有效性,基于準(zhǔn)確率P和召回率R兩個指標(biāo),將準(zhǔn)確率與召回率的調(diào)和平均數(shù)F1作為度量車載設(shè)備故障診斷的最終評價指標(biāo)。 (15) (16) (17) 式中:TP為正確分類的正樣本;FP為分類為負(fù)樣本的正樣本;FN為分類為正樣本的負(fù)樣本。 為了驗(yàn)證本文提出的雙視圖文本特征提取方法的有效性,使用本文建立的數(shù)據(jù)集,以XGBoost作為診斷模型,以F1值作為評價指標(biāo),分別采用基于卡方分布[19](Chi-squared Distribution, CHI)、TF-IDF、MI、IMI、PV-DM模型,以及本文提出的故障特征提取方法進(jìn)行對比實(shí)驗(yàn)。使用不同故障特征提取方法分類器不同類別的混淆矩陣見圖3。 圖3 各種故障特征提取方法下不同類別的混淆矩陣 由圖3(a)~圖3(d)可見,對于小類別故障模式FM4、FM5而言,分類器更傾向于將其分類成大類別故障FM1、FM2,這是數(shù)據(jù)集不均衡導(dǎo)致的。未添加特征類別因子時,在特征空間中更能代表FM4、FM5的故障特征占比小,往往會被傳統(tǒng)特征提取方法所忽略,使得FM4、FM5的分類精度降低。從圖3(e)中可以看出,添加了類別比重因子后,F(xiàn)M4、FM5的分類精度得到了大幅度提高,但是FM1、FM2的召回率反而下降,這是FM1、FM2故障特征提取不充分導(dǎo)致的,增加類別比重因子后,特征空間中FM4、FM5的故障特征占比變大,F(xiàn)M1與FM2之間故障特征的差異變小,分類器無法很好地對兩者進(jìn)行區(qū)分,使得FM1、FM2的召回率下降。本文提出的雙視圖故障特征提取方法混淆矩陣見圖3(f),在小類別分類精度和大類別召回率上都取得了很好的效果。 各種故障特征提取方法下的分類器分類精度見圖4。由圖4可見,對于小類別故障模式FM4,采用CHI、TD-IDF、MI的故障特征提取方法后的分類精度分別為66.7%、66.7%、55.6%;對于FM5,采用CHI、TD-IDF、MI的故障特征提取方法后的分類精度分別為30.0%、40.0%、30.0%;增加類別比重因子后,小類別故障模式特征空間增大,基于IMI的特征提取方法對于小類別故障模式FM4、FM5的分類精度升高,分別為77.8%、60.0%;將IMI與PV-DM模型融合后的基于雙視圖文本特征提取方法,對于小類別故障模式FM4、FM5的分類精度分別為88.9%、80.0%,相比較于基于IMI特征提取方法,分別增加了11.1%和20.0%。 圖4 各種故障特征提取方法下的分類器分類精度 各種故障特征提取方法下分類器性能對比見表2。從表2中可以看出,相比較于基于MI的故障特征提取方法,基于IMI的故障特征提取方法下的分類器分類精度雖然總體提升了1.3%,但是其召回率下降了3.8%,使得最終評價指標(biāo)F1值反而下降了0.031,這是由于對大類別故障模式特征提取不充分導(dǎo)致的。在沒有添加類別比重因子時,由于故障模式的不均衡性,能代表小類故障模式的故障特征沒有被提取出來,故障模式的差異主要體現(xiàn)在大類故障模式之間,大類別故障模式的召回率會升高;在增加類別比重因子后,小類別故障模式特征空間趨近于大類別故障模式特征空間,能代表小類別故障模式的故障特征被充分提取,大類別故障模式特征之間的差異變小,召回率下降,使得最終評價指標(biāo)F1反而下降。因此,本文在IMI基礎(chǔ)上增加基于PV-DM的模型,并對兩者進(jìn)行融合。融合后的故障特征提取方法得到的分類器分類精度為99.2%,召回率為98.8%,F(xiàn)1為0.988,相比于IMI和PV-DM而言,分類精度分別增加了1.8%、4.1%,召回率分別增加了8.7%、4.7%,最終評價指標(biāo)F1分別增加了0.063、0.037,證明了融合后的雙視圖故障特征提取方法的有效性。 表2 各種故障特征提取方法下分類器性能對比 (1)針對實(shí)際應(yīng)用中列控系統(tǒng)車載設(shè)備故障診斷領(lǐng)域面臨的故障文本數(shù)據(jù)維度高、故障模式分布不平衡、故障特征提取不充分三大問題,提出雙視圖文本特征提取方法。首先利用基于IMI的特征提取方法在語義視圖下解決了故障模式分布不平衡問題;其次利用PV-DM模型在語序視圖下對故障文本數(shù)據(jù)充分提取,解決了故障特征提取不充分的問題;最后利用PCA方法對通過兩個視圖得到的特征集合進(jìn)行融合,解決了故障文本數(shù)據(jù)維度高的問題。 (2)以鐵路運(yùn)營部門收集的300T型車載設(shè)備運(yùn)行日志數(shù)據(jù)為例,采用XGBoost作為分類器,F(xiàn)1作為評價指標(biāo),對本文提出方法的有效性進(jìn)行實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,本文提出的基于雙視圖文本特征提取方法,其分類器性能優(yōu)于基于傳統(tǒng)的特征提取方法(如IMI和PV-DM),評價指標(biāo)F1分別增加了0.063、0.037,證明了本文提出方法的有效性。3 實(shí)驗(yàn)驗(yàn)證及結(jié)果分析
3.1 數(shù)據(jù)集及評價指標(biāo)
3.2 實(shí)驗(yàn)結(jié)果
4 結(jié)論