楊連報,沈翔,李新琴,董興芝,薛蕊,徐貴紅
(中國鐵道科學(xué)研究院集團有限公司,北京100081)
道岔作為高速鐵路信號地面設(shè)備的重要組成,是列車進出站實現(xiàn)進路轉(zhuǎn)換的重要關(guān)鍵設(shè)備。通過對近十年來高鐵信號地面設(shè)備故障發(fā)生數(shù)量統(tǒng)計分析,道岔故障占比約為1/3,是影響高鐵行車組織和安全的重要因素。
目前,我國主要采用微機監(jiān)測系統(tǒng)實時監(jiān)測道岔動作電流的模擬量數(shù)據(jù)和道岔狀態(tài)的開關(guān)量數(shù)據(jù),并由現(xiàn)場作業(yè)人員根據(jù)電流動作曲線的異常來判斷道岔發(fā)生的相關(guān)故障類別進行處置。在學(xué)術(shù)上,國內(nèi)外專家學(xué)者進行了相關(guān)研究。文獻[1]提出應(yīng)用時間延遲網(wǎng)絡(luò)(Time-Delay Neural Network,TDNN),通過對道岔有關(guān)動作電流和受力情況的分析實現(xiàn)道岔故障診斷和預(yù)測;文獻[2-3]采用Fisher準則實現(xiàn)對道岔動作電流的特征提取,并通過計算待測樣本和故障模式之間的灰關(guān)聯(lián)度實現(xiàn)故障診斷;文獻[4]通過建立模糊神經(jīng)網(wǎng)絡(luò),輸入為特征抽取后的道岔動作電流,輸出為各類特征向量對應(yīng)的典型故障類型,然后經(jīng)過對神經(jīng)網(wǎng)絡(luò)的訓(xùn)練并結(jié)合專家經(jīng)驗實現(xiàn)道岔故障診斷;文獻[5]通過對定量的道岔動作電流曲線的轉(zhuǎn)化為定性的趨勢片段,實現(xiàn)基于定性趨勢分析的道岔故障診斷;文獻[6]采用轉(zhuǎn)轍機拉力參數(shù)為訓(xùn)練數(shù)據(jù),實現(xiàn)基于粒子群算法優(yōu)化支持向量機(PSO-SVM)的道岔故障診斷。文獻[7]通過建立道岔轉(zhuǎn)轍機故障分析與故障診斷監(jiān)測系統(tǒng),實現(xiàn)ZD6轉(zhuǎn)轍機多種故障識別。
與以道岔動作電流或轉(zhuǎn)轍機拉力變化的結(jié)構(gòu)化數(shù)據(jù)進行道岔故障診斷方法不同,提出一種新的基于非結(jié)構(gòu)化道岔故障的文本描述和原因處置過程故障診斷方法。首先對道岔故障發(fā)生的文本描述進行預(yù)處理和特征提取,主要包含文本停用詞去除、中文分詞、特征向量生成、道岔故障編碼等,然后通過應(yīng)用支持向量機(Support Vector Machine,SVM)實現(xiàn)道岔故障分類模型的學(xué)習(xí),從而為現(xiàn)場作業(yè)人員提供一種客觀的、基于海量歷史數(shù)據(jù)的故障診斷模型。
我國高鐵通過“引進、消化、吸收、再創(chuàng)新”的技術(shù)路線,走出了一條通信信號系統(tǒng)快速發(fā)展的道路。目前,我國高鐵主要采用CTCS-3級列控系統(tǒng)和CTCS-2級列控系統(tǒng)保障列車安全、可靠、高效運行。CTCS-3級列控系統(tǒng)是基于GSM-R無線通信基礎(chǔ),實現(xiàn)車-地信息雙向傳輸,并采用無線閉塞中心(RBC)生成行車許可,采用目標距離連續(xù)速度控制的列控系統(tǒng);CTCS-2級列控系統(tǒng)是基于軌道電路和應(yīng)答器,傳輸列車行車許可信息,并采用目標距離連續(xù)速度控制模式監(jiān)控列車安全運行的列控系統(tǒng)。CTCS-3和CTCS-2級列控系統(tǒng)均包括車載設(shè)備和地面設(shè)備,兩類設(shè)備構(gòu)成如下。
(1)車載設(shè)備。我國高速鐵路列控車載設(shè)備主要包括CTCS3-300T型ATP車載設(shè)備、CTCS3-300H型ATP車載設(shè)備、CTCS3-300S型ATP車載設(shè)備、CTCS2-200C型ATP車載設(shè)備、CTCS2-200H型ATP車載設(shè)備等。其中CTCS3-300T型ATP車載設(shè)備是我國最早投入商業(yè)運營的CTCS-3級列控車載設(shè)備。目前已廣泛應(yīng)用在京滬、京廣、哈大、滬寧、滬杭、鄭西等高速鐵路。
(2)地面設(shè)備。我國高速鐵路信號地面設(shè)備主要包含以下4類:①信號基礎(chǔ)設(shè)備。主要包括信號機、轉(zhuǎn)轍機及其安裝裝置、軌道電路、電源、電纜電線等。②列控地面設(shè)備。主要包括列控中心(含LEU)、臨時限速服務(wù)器(TSRS)、無線閉塞中心(RBC)、應(yīng)答器等。③計算機聯(lián)鎖系統(tǒng)。④CTC/TDCS系統(tǒng)。道岔是機車車輛從一股道轉(zhuǎn)入或越過另一軌道時必不可少的線路設(shè)備,主要包含基本軌、尖軌、翼軌、轍叉心、護軌等部分,同時道岔的動作需要轉(zhuǎn)轍機來提供動力。道岔具有構(gòu)造復(fù)雜、養(yǎng)護維修投入大的特點,按功能和用途主要分為單開道岔、對稱道岔、三開道岔、交叉渡線、復(fù)式交分道岔5種類型。
通過對我國高鐵近十年來地面設(shè)備中的故障數(shù)量統(tǒng)計和分析,道岔故障件數(shù)居首位(故障占比39.0%)。道岔故障責(zé)任原因較多,主要包括材質(zhì)、檢修不良、尖軌卡物等。同時,根據(jù)現(xiàn)場數(shù)據(jù),道岔故障率和季節(jié)有關(guān)系,極端的天氣如雨雪等對道岔的正常運轉(zhuǎn)有較大影響(如冰雪造成道岔卡阻、季節(jié)變換導(dǎo)致鋼軌材質(zhì)的熱脹冷縮)。由于高鐵作業(yè)均在夜間,因晝夜溫差導(dǎo)致道岔適應(yīng)性調(diào)整不當,道岔缺口動態(tài)變化超過轉(zhuǎn)轍機的缺口變化允許范圍。
通過正則表達式進行道岔故障文本描述數(shù)據(jù)中有關(guān)日期、時間、地點、特殊字符、標點和英文符號的預(yù)處理,應(yīng)用融合鐵路領(lǐng)域詞典的中文分詞工具Jieba進行分詞,并通過Word2Vec和TF-IDF分別生成特征向量,最后應(yīng)用SVM模型實現(xiàn)道岔故障的智能分類。
高鐵道岔故障文本數(shù)據(jù)記錄了道岔故障發(fā)生的時間、線路、區(qū)間和道岔故障原因及處理過程,示例數(shù)據(jù)見表1。
傳統(tǒng)的分類是由業(yè)務(wù)人員根據(jù)道岔故障概況和原因分析的文本描述,實現(xiàn)道岔故障分類。這種方式主要依靠業(yè)務(wù)人員對文本描述的理解和個人經(jīng)驗進行判斷,造成分類的不客觀、不準確。同時,在應(yīng)對海量文本描述數(shù)據(jù)時,存在效率低下等問題。通過文本分析的方式,計算機可以根據(jù)道岔故障文本的描述,實現(xiàn)道岔故障的自動分類。
表1 高鐵道岔故障記錄文本數(shù)據(jù)示例
(1)通過定義高鐵道岔故障分類的標準,生成道岔故障分類編號,以便計算機識別(見表2)。
表2 高鐵道岔故障分類標準
(2)通過定義常用停用詞和標點符號的詞典,如“的”“地”“但”“但是”“,”“:”等實現(xiàn)自動過濾;并通過定義高鐵道岔故障描述相關(guān)的常見詞匯如:“轉(zhuǎn)轍機”“密貼檢查器”“卡阻”“定位無表示”等實現(xiàn)高鐵道岔故障文本的中文分詞,為文本特征向量表示做好準備。
針對分好的中文詞匯,文本特征向量表示最常用的方法為TF-IDF(Term Frequency-Inverse Document Frequency)和Word2Vec。TF-IDF是一種基于統(tǒng)計的常用加權(quán)方法,廣泛應(yīng)用于檢索與文本分析中[8]。Word2Vec是Google于2013年開源的詞向量分布式表示算法[9-10],可以在百萬數(shù)量級的詞典和上億數(shù)據(jù)集上進行訓(xùn)練,成為目前文本向量分布式表示的主要方法。
Word2Vec算法的實質(zhì)為一個淺層神經(jīng)網(wǎng)絡(luò),主要包含CBoW(Continuous Bag-of-Words Model)和Skipgram模型。CBoW模型利用給定上下文的向量表示,預(yù)測目標詞的向量表達。Skip-gram模型則是根據(jù)目標詞的向量表示,獲得上下文的向量表示。二者均是用學(xué)習(xí)到的權(quán)重系數(shù)來表示所有詞的向量。Skip-gram模型的整體架構(gòu)見圖1。
圖1 Skip-gram模型整體架構(gòu)
輸入層為某個給定詞的1×N維的文本,one-hot為向量;隱含層是由V個隱含層神經(jīng)元組成,輸出層為N個Softmax輸出神經(jīng)元歸一化,獲得的權(quán)重系數(shù)為每個詞的向量表示。
Skip-gram模型最終目標是通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)隱含層中的權(quán)重,根據(jù)給定詞one-hot詞向量預(yù)測輸出詞的概率最大。神經(jīng)網(wǎng)絡(luò)的隱含層像1個word embedding查找表,其輸出的1×V維的向量就是詞向量。主要采用Word2Vec中的Skip-gram模型生成每個中文分詞的詞向量,然后將每一條高速鐵路道岔故障記錄文本中的詞向量加權(quán)求和,表征每一條文本記錄向量。
式中:Di為某條高鐵道岔故障文本記錄的向量;m為該條記錄中分詞的數(shù)量;Wij為該記錄中每個中文分詞的向量表示。
在獲得高鐵道岔故障文本記錄的特征向量表示后,需要設(shè)計分類模型實現(xiàn)高鐵道岔故障分類,研究選擇SVM分類模型。通過構(gòu)造1個超平面f(x),使得該函數(shù)能夠表示類別y與樣本向量x的關(guān)系。定義線性x不敏感損失函數(shù)為:
如果存在1個超平面:
其中ω∈Rn,b∈R,使得:
則稱樣本集D是ε線性近似的,f(x)為線性回歸估計函數(shù)。樣本點{xi,yi}到超平面的距離為:
為得到最優(yōu)的超平面分類,轉(zhuǎn)換為一個優(yōu)化問題,即使||ω||2最小。
針對非線性問題,SVM分類模型通過非線性映射φ(x)將樣本映射為高維特征空間,并通過核函數(shù)的方式計算內(nèi)積。此時優(yōu)化問題的目標函數(shù)可表示為:
式中:ξi、為超平面不同分類界限的松弛變量;C為懲罰因子(C越大表示對誤差大的樣本懲罰越大,調(diào)整C可改變SVM的泛化能力)。
選取2018年我國高鐵道岔故障記錄數(shù)據(jù)為試驗數(shù)據(jù),其中80%作為訓(xùn)練,20%作為驗證數(shù)據(jù)集,主要采取準確率(Precision)、召回率(Recall)和F-score作為模型評價和對比的指標。
Precision計算公式為:
Recall計算公式為:
F-score計算公式為:
式中:TPi為被正確分到此類的實例個數(shù);TNi為被正確識別不在此類的實例個數(shù);FPi為被誤分到此類的實例個數(shù);FNi為屬于此類但被誤分到其他類的實例個數(shù);C為所有類別的總數(shù)。
在SVM分類模型選擇線性核函數(shù),C=1的情況下,通過比較不同的道岔文本特征向量提取的模型表現(xiàn)如下:
(1)當應(yīng)用TF-IDF進行道岔故障文本特征向量提取時,在驗證集上的總體準確率達到86.4%。但對于“工務(wù)設(shè)備”“密貼檢查器”的故障樣例數(shù)據(jù)較少,分類效果不理想,二者的F1值在60%左右(見圖2)。
(2)當應(yīng)用Word2Vec進行道岔故障文本特征向量提取時,在驗證集上的總體準確率達到78.2%,對于故障樣例數(shù)據(jù)較少的“工務(wù)設(shè)備”“密貼檢查器”的分類效果不理想,二者的F1值在22%左右。對于原因不明的分類沒有較好的區(qū)分,說明應(yīng)用Word2Vec特征提取時,效果整體不如TF-IDF的特征提取效果(見圖3)。
圖2 基于TF-IDF特征提取的道岔故障診斷模型訓(xùn)練結(jié)果
圖3 基于Word2Vec特征提取的道岔故障診斷模型訓(xùn)練結(jié)果
針對高鐵道岔故障樣本數(shù)據(jù),選取的特征提取模型不一定是非常復(fù)雜的Word2Vec模型,需要結(jié)合數(shù)據(jù)特點選擇合適的特征提取方法;針對高鐵道岔故障樣本數(shù)據(jù)類別不平衡的問題,可以通過自動生成較少樣本數(shù)據(jù)的方式以及分類模型融合的方式進行解決,此次不做深入研究。
高速鐵路道岔故障文本分類是典型的垂直行業(yè)文本分類問題,提出基于SVM的高鐵道岔故障分類模型,彌補了對非結(jié)構(gòu)化道岔故障文本數(shù)據(jù)分析缺乏等問題,避免了依靠個人經(jīng)驗進行道岔故障分類的弊端,為高鐵電務(wù)安全管理提供一種客觀和科學(xué)高效的技術(shù)手段,對規(guī)范高鐵道岔故障管理、提高作業(yè)標準和道岔設(shè)備運用質(zhì)量具有重要意義。然而,在道岔故障文本數(shù)據(jù)量較少的情況下,通過TF-IDF和Word2Vec等特征工程獲得的向量表示,可為故障自動分類提供參考。考慮到道岔故障文本數(shù)據(jù)量較大時,傳統(tǒng)的SVM、邏輯回歸等分類器難以取得較好效果,基于深度學(xué)習(xí)方法進行特征的自動學(xué)習(xí)是未來的研究方向。