侯 通,鄭啟明,姚新文,陳光武,王小敏
(1.西南交通大學(xué) 信息科學(xué)與技術(shù)學(xué)院,四川 成都 611756;2.蘭州交通大學(xué) 自動(dòng)化與電氣工程學(xué)院,甘肅 蘭州 730070)
軌道電路作為信號(hào)設(shè)備的重要組成部分,在我國(guó)軌道交通運(yùn)營(yíng)線路中得到了廣泛應(yīng)用。由于軌道電路設(shè)備結(jié)構(gòu)組成復(fù)雜,分布范圍較廣等特點(diǎn),其工作狀態(tài)容易受多部門作業(yè)檢修、設(shè)備器材質(zhì)量及天氣環(huán)境等因素影響,導(dǎo)致軌道電路故障原因復(fù)雜多樣,故障診斷處理耗時(shí)較長(zhǎng),對(duì)鐵路運(yùn)輸影響較大[1]。軌道電路故障文本記錄包含大量有價(jià)值故障信息,其中的故障原因直接反映了故障問(wèn)題所在。目前,針對(duì)軌道電路故障文本數(shù)據(jù)主要依賴人工處理分析,容易受主觀因素影響,存在故障歸類不準(zhǔn)確、效率低等問(wèn)題;此外,由于缺乏對(duì)故障類型的細(xì)粒度統(tǒng)計(jì)分析,造成大量有價(jià)值故障數(shù)據(jù)資源的浪費(fèi)。在大數(shù)據(jù)背景下,應(yīng)用故障文本智能挖掘分析,提高故障文本數(shù)據(jù)利用率,已成為亟待解決的問(wèn)題。
文本挖掘主要包含文本分類、文本聚類、信息抽取等任務(wù),關(guān)注于在非結(jié)構(gòu)化文本中通過(guò)模式發(fā)現(xiàn)來(lái)描述文本內(nèi)容[2]。文本數(shù)據(jù)在使用前須經(jīng)過(guò)文本預(yù)處理、特征提取及文本表示等工作,常用算法有信息增益[3]、詞頻(Term Frequency,TF)、詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)、隱含狄利克留分布(Latent Dirichlet Allocation,LDA)、Word2vec[4]等,其中TF-IDF、LDA及Word2vec在文本挖掘任務(wù)中應(yīng)用較為廣泛。
文獻(xiàn)[5]采用TF-IDF對(duì)鐵路信號(hào)設(shè)備故障文本進(jìn)行特征提取,結(jié)合多分類器集成學(xué)習(xí)方式,從信號(hào)設(shè)備類型角度提出不平衡故障文本數(shù)據(jù)分類模型。文獻(xiàn)[6]利用Word2vec訓(xùn)練詞向量,通過(guò)多池化層卷積神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)鐵路信號(hào)設(shè)備故障文本分類。由于鐵路信號(hào)設(shè)備故障原因復(fù)雜多樣,以上研究從系統(tǒng)設(shè)備類型角度劃分故障類型,無(wú)法直觀有效的分析故障原因。文本聚類是實(shí)現(xiàn)從大量文本信息中高效獲取有價(jià)值信息的一種重要方法,常用算法有基于距離的K-Means、無(wú)監(jiān)督學(xué)習(xí)主題模型等。文獻(xiàn)[7]針對(duì)地鐵信號(hào)設(shè)備故障記錄,融合了從詞項(xiàng)層和語(yǔ)義層聚類得到的特征詞,采用KNN算法實(shí)現(xiàn)故障文本自動(dòng)預(yù)處理,但由于兩種聚類均基于詞袋方法,丟失了詞序特征,對(duì)于文本特征的學(xué)習(xí)仍然不足。文獻(xiàn)[8-9]針對(duì)列控車載設(shè)備日志數(shù)據(jù),利用主題模型得到故障語(yǔ)義特征,并基于支持向量機(jī)建立了車載設(shè)備故障診斷模型。
目前,對(duì)于軌道電路故障的研究,多以信號(hào)系統(tǒng)電氣設(shè)備故障為研究對(duì)象,基于監(jiān)測(cè)量數(shù)據(jù)實(shí)現(xiàn)故障診斷[10],基于歷史故障文本記錄的研究較少。隨著我國(guó)鐵路綜合維修生產(chǎn)一體化體系的不斷推進(jìn)[11],綜合考慮不同故障致因類型中的影響因素,有利于提高現(xiàn)場(chǎng)多部門綜合養(yǎng)護(hù)維修效率。軌道電路與電務(wù)、工務(wù)設(shè)備維護(hù)管理密切相關(guān),因此參照相關(guān)規(guī)程,從故障致因類型角度劃分軌道電路故障,有助于現(xiàn)場(chǎng)工作人員進(jìn)行軌道電路故障統(tǒng)計(jì)分析和管理工作。此外,針對(duì)電務(wù)、工務(wù)致因類型故障文本進(jìn)一步聚類挖掘,獲取細(xì)粒度故障主題類型及故障致因,對(duì)后續(xù)軌道電路故障分析、制定工電綜合檢修措施等具有重要意義。
對(duì)此,提出一種基于文本挖掘的軌道電路細(xì)粒度故障致因分析方法。首先,利用改進(jìn)的TF-IDF算法對(duì)不同致因類型故障文本進(jìn)行特征提取及向量表示,引入合成少數(shù)類過(guò)采樣技術(shù)(Synthetic Minority Oversampling Technique,SMOTE)算法對(duì)少數(shù)類數(shù)據(jù)進(jìn)行自動(dòng)生成,采用SVM算法實(shí)現(xiàn)均衡后的故障文本數(shù)據(jù)自動(dòng)分類,并對(duì)不同分詞模式下的分類模型效果進(jìn)行分析;其次,采用K-means聚類算法對(duì)基于Word2vec向量表示的電務(wù)、工務(wù)致因故障文本數(shù)據(jù)進(jìn)行聚類挖掘分析,基于聚類結(jié)果通過(guò)統(tǒng)計(jì)分析獲取細(xì)粒度故障主題類型及易發(fā)多發(fā)性故障致因,實(shí)現(xiàn)細(xì)粒度軌道電路故障致因分析??紤]故障文本記錄的敘述共性,本文提出的方法對(duì)于其他信號(hào)設(shè)備同樣具有借鑒意義。選取某鐵路局集團(tuán)公司2015—2018年軌道電路故障文本數(shù)據(jù)進(jìn)行分析,實(shí)驗(yàn)結(jié)果表明本方法的有效性,對(duì)設(shè)備維護(hù)具有較好的輔助指導(dǎo)作用。
在鐵路現(xiàn)場(chǎng)工作中積累的大量軌道電路故障文本數(shù)據(jù),主要通過(guò)現(xiàn)場(chǎng)工作人員以自然語(yǔ)言形式記錄。根據(jù)不同故障致因,軌道電路故障可分為6類故障,即電務(wù)致因C0、工務(wù)致因C1、供電致因C2、設(shè)備器材質(zhì)量C3、自然災(zāi)害C4及其他外部致因C5。故障文本記錄中通常包含故障現(xiàn)象、故障原因、處置過(guò)程、設(shè)備信息等內(nèi)容,部分故障記錄如表1所示。
表1 軌道電路故障文本記錄(部分)
作為專業(yè)領(lǐng)域文本數(shù)據(jù),軌道電路故障文本存在以下特點(diǎn):
(1)不同故障致因類型間故障文本數(shù)據(jù)不均衡。故障文本記錄存在口語(yǔ)化、不規(guī)范化問(wèn)題;并且故障文本記錄長(zhǎng)度不一,故障現(xiàn)象描述較短,故障原因描述詳細(xì)程度不同。
(2)軌道電路故障文本含有大量鐵路信號(hào)專業(yè)詞匯,但由于不同人員記錄方式不同,存在多詞一義的現(xiàn)象。例如“451AG冗余衰耗器材質(zhì)不好”“11331G室內(nèi)衰耗盤不良”“中繼3站22039G室內(nèi)衰耗盒底座接觸不良”,故障原因都涉及衰耗冗余控制器同一種設(shè)備,但記錄形式完全不同。
(3)故障記錄文本為短文本,且特征詞匯在不同故障類型文本中的分布情況具有差異性,存在一些特征詞可作為具有類別特征的關(guān)鍵詞,但在特定類別中出現(xiàn)頻次較高,而在其他類別出現(xiàn)頻次較低。
(4)故障文本中包含有時(shí)間、車次號(hào)、區(qū)段名稱、器材編號(hào)等內(nèi)容,作為噪聲數(shù)據(jù)不利于后續(xù)提取有效文本特征,因此需要對(duì)故障文本數(shù)據(jù)進(jìn)行清洗。
由于不同人員對(duì)故障的理解和敘述習(xí)慣不同,對(duì)故障管理規(guī)程認(rèn)識(shí)水平不一,存在人工處理故障文本歸類不準(zhǔn)確、效率低的問(wèn)題;此外,對(duì)不同故障致因類型缺乏細(xì)粒度故障分析,有價(jià)值的故障數(shù)據(jù)信息尚未在現(xiàn)場(chǎng)綜合檢修工作中得到充分利用。
針對(duì)軌道電路故障日志的特殊性,提出軌道電路故障文本的細(xì)粒度故障致因挖掘方案見圖1,用于提取軌道電路的細(xì)粒度故障主題類型及故障致因,為現(xiàn)場(chǎng)故障分析及預(yù)防提供決策支持。
圖1 軌道電路細(xì)粒度故障致因挖掘方案
首先,對(duì)故障文本數(shù)據(jù)進(jìn)行預(yù)處理,結(jié)合構(gòu)建的鐵路信號(hào)專業(yè)詞典,通過(guò)分詞初步去除無(wú)意義詞項(xiàng),得到分詞后的故障文本數(shù)據(jù)。其次,對(duì)不同分詞模式下的故障文本數(shù)據(jù),基于改進(jìn)TF-IDF算法進(jìn)行文本特征提取,轉(zhuǎn)換為詞項(xiàng)文本矩陣;利用SMOTE[12]算法對(duì)少數(shù)類故障數(shù)據(jù)進(jìn)行自動(dòng)生成,基于SVM分類器模型實(shí)現(xiàn)均衡后故障樣本數(shù)據(jù)的自動(dòng)分類。最后,選取分類結(jié)果中與電務(wù)、工務(wù)部門維檢工作密切相關(guān)且包含故障因素較多的C0及C1致因類型故障文本數(shù)據(jù),采用Word2vec模型獲取故障文本向量表示,基于K-Means算法分別進(jìn)行聚類挖掘分析,獲取細(xì)粒度故障主題類型及故障致因。
針對(duì)軌道電路故障文本特點(diǎn),主要進(jìn)行以下預(yù)處理工作:
(1)文本清洗。通過(guò)分析故障文本中包含的故障時(shí)間、車次號(hào)、區(qū)段名稱、數(shù)字編號(hào)等文本記錄形式,人工編寫正則表達(dá)式對(duì)其進(jìn)行清理,例如車次號(hào)的提取范式如下
[KZTXGDC]d{1,5}[次]‖d{1,5}[次]
(2) 文本分詞及去停用詞。考慮到故障文本包含大量鐵路專業(yè)詞匯,為實(shí)現(xiàn)對(duì)專業(yè)詞匯的準(zhǔn)確切分,減小文本噪聲項(xiàng)對(duì)后續(xù)文本特征提取干擾,構(gòu)建鐵路專業(yè)詞庫(kù)及停用詞詞庫(kù)見圖2,其中鐵路專業(yè)詞庫(kù)主要包含各專業(yè)部門設(shè)備名稱及專業(yè)術(shù)語(yǔ)。利用Jieba分詞工具獲取詞項(xiàng)級(jí)分詞結(jié)果,并過(guò)濾文本中標(biāo)點(diǎn)符號(hào)和無(wú)實(shí)際意義的詞匯。字符級(jí)分詞基于詞項(xiàng)級(jí)分詞結(jié)果對(duì)詞匯進(jìn)一步切分為單字。
圖2 鐵路專業(yè)詞庫(kù)構(gòu)建
傳統(tǒng)TF-IDF是一種加權(quán)的詞頻統(tǒng)計(jì)方法,用于表征文本中每個(gè)詞的重要程度,TF-IDF值越大,說(shuō)明詞項(xiàng)攜帶的信息量越大,對(duì)于所在文本可認(rèn)為此詞越關(guān)鍵。TF-IDF包含兩部分,即
tf-idf(i,j)=tf(i,j)×idf(i)
( 1 )
式中:tf為詞頻;tf(i,j)為文本j中第i個(gè)詞的詞頻;逆文檔頻率idf(i)表示經(jīng)平滑處理后第i個(gè)詞的idf權(quán)值,即
( 2 )
其中,n為文本集中文本總數(shù);df(i)為文本集中包含詞i的文本數(shù)。
傳統(tǒng)TF-IDF應(yīng)用于短文本數(shù)據(jù)時(shí),由于每條文本中詞匯出現(xiàn)頻次均較少,其詞頻特征接近于One-hot特征表示,并且忽略了特征詞在類別間的分布情況,對(duì)于短文本中高頻詞特征提取效果不佳。而軌道電路故障文本數(shù)據(jù)中,由于不同故障致因類型區(qū)別,類別特征的特征詞在相應(yīng)類別中出現(xiàn)頻次較高。因此,提出一種改進(jìn)的TF-IDF算法,考慮類別間特征詞分布情況,將tf表示為詞i在不同類別中的詞頻,結(jié)合idf權(quán)值,提升類別間關(guān)鍵詞特征提取效果,改進(jìn)后TF-IDF表達(dá)式為
tf-idf(ik,Ck)={tf(ik,Ck):ik∈Ck}×idf(i)
( 3 )
式中:{tf(ik,Ck):ik∈Ck}為類別Ck中詞i的詞頻tf(ik,Ck);k為文本類別個(gè)數(shù)。
通過(guò)式( 3 )計(jì)算得到文本j的結(jié)構(gòu)化向量表示,為提高泛化能力,對(duì)每一文本向量進(jìn)行規(guī)范化,向量維度與文本總詞匯量m大小一致,得到最終文本的稀疏向量表示,即
( 4 )
式中:wj為文本j的向量表示;q為文本j中特征詞的個(gè)數(shù)。
以C2供電致因故障類別為例,經(jīng)過(guò)改進(jìn)TF-IDF算法得到某文本分詞后的各詞項(xiàng)權(quán)值如表2所示,可以得知文本中與C2類別特征相關(guān)的外電網(wǎng)、電源等特征詞權(quán)值均有所提升。
表2 故障文本特征提取
由于軌道電路故障文本中存在多詞一義問(wèn)題,不僅需要人工維護(hù)專業(yè)詞典,而且經(jīng)分詞后會(huì)造成詞袋總量增加。因此基于詞項(xiàng)級(jí)分詞結(jié)果進(jìn)一步按字切分,減少因故障文本記錄不規(guī)范及多詞一義現(xiàn)象對(duì)特征提取的影響,降低文本表示后的特征向量維度。
故障文本表示及分類模型流程見圖3。SVM算法在文本分類任務(wù)中應(yīng)用較為廣泛,基于結(jié)構(gòu)風(fēng)險(xiǎn)最小理論構(gòu)建一個(gè)超平面,根據(jù)間隔最大化準(zhǔn)則使任何類之間最近的訓(xùn)練數(shù)據(jù)點(diǎn)有最大的距離。軌道電路故障文本分類為多分類問(wèn)題,為解決類別間數(shù)據(jù)不均衡問(wèn)題,采用SMOTE算法對(duì)改進(jìn)TF-IDF特征提取及向量表示的少數(shù)類故障文本向量進(jìn)行自動(dòng)生成,將均衡后的樣本數(shù)據(jù)輸入到SVM分類器模型中進(jìn)行訓(xùn)練,實(shí)現(xiàn)對(duì)故障文本致因類型自動(dòng)分類。
圖3 故障文本表示及分類模型流程
由于軌道電路故障多樣性,不同故障致因類型中又包含多種故障影響因素,因此在2.1節(jié)故障文本分類處理基礎(chǔ)上,進(jìn)一步選取與現(xiàn)場(chǎng)軌道電路設(shè)備維檢工作密切相關(guān)的C0及C1故障致因類型文本數(shù)據(jù)進(jìn)行聚類分析,提取相應(yīng)細(xì)粒度故障主題類型及故障致因。
因TF-IDF無(wú)法解釋文本詞匯間相似性[13],而隨著數(shù)據(jù)及詞匯量的增加,其文本向量維度也隨之增加,存在維度災(zāi)難問(wèn)題。Word2vec基于詞與詞之間的上下文關(guān)系,通過(guò)雙層淺神經(jīng)網(wǎng)絡(luò)對(duì)大量文本語(yǔ)料庫(kù)的學(xué)習(xí),將每個(gè)詞映射為向量表示,依據(jù)相似位置的詞具有相似含義的分布假設(shè)推斷詞的含義。由于詞向量維度可以通過(guò)訓(xùn)練設(shè)定,相對(duì)于詞袋模型中的TF-IDF方法,Word2vec訓(xùn)練得到的詞向量維度更低。因此,本文在文本聚類中采用基于Word2vec 的文本分布式表示方法來(lái)挖掘更多的文本特征信息。
Word2vec采用Skip-gram詞向量訓(xùn)練模型,利用目標(biāo)詞預(yù)測(cè)上下文詞,其訓(xùn)練速度較慢但學(xué)習(xí)效果更好[14],其模型結(jié)構(gòu)見圖4,圖4中的ω(i)表示第i個(gè)詞的向量表示。
圖4 Skip-gram網(wǎng)絡(luò)模型圖
以大量經(jīng)過(guò)文本預(yù)處理的軌道電路故障文本作為語(yǔ)料庫(kù),通過(guò)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)隱含層中的權(quán)重系數(shù),訓(xùn)練出每個(gè)詞的詞向量表示。將每條文本j中所有詞的平均詞向量vj作為此條文本向量表示,即
( 5 )
式中:ωij為經(jīng)過(guò)訓(xùn)練后文本j中第i個(gè)詞的詞向量。
聚類模型中K-means算法是一種典型的基于距離的聚類算法,在處理大規(guī)模數(shù)據(jù)時(shí)快速且高效。采用歐式距離[15]作為故障文本向量距離dist(X,Y)。
( 6 )
式中:X,Y為廣義上兩個(gè)多維向量(x1x2x3…xn),(y1y2y3…yn),此處X,Y表示兩個(gè)128維的文本向量,即n=128。
由于故障類型數(shù)K不確定,本文采用輪廓系數(shù)評(píng)估聚類效果并確定最優(yōu)K值。輪廓系數(shù)[7]綜合考慮了聚類的緊密性和分離程度,輪廓系數(shù)值處于[-1,1]之間,值越接近1表示聚類效果越好,計(jì)算式為
( 7 )
對(duì)聚類結(jié)果中每一類故障文本數(shù)據(jù)統(tǒng)計(jì)分析,基于提取的關(guān)鍵詞信息歸納細(xì)粒度故障主題類型描述,同時(shí)根據(jù)專家人工標(biāo)記的類別信息評(píng)估聚類方法有效性,對(duì)每一故障主題類型中故障原因詞項(xiàng)進(jìn)行詞頻統(tǒng)計(jì)及排序,獲取每種故障主題類型中的多發(fā)性故障致因。并根據(jù)故障主題類型占比及故障致因的頻次排序,將故障占比高的故障主題類型及多發(fā)性故障致因作為輔助軌道電路維護(hù)及故障分析的有效信息,作為現(xiàn)場(chǎng)檢修及維護(hù)工作中的檢查重點(diǎn),采取相應(yīng)預(yù)防措施,提高軌道電路工作穩(wěn)定性。
實(shí)驗(yàn)數(shù)據(jù)選取某鐵路局集團(tuán)有限公司2015—2018年軌道電路故障文本,去除文本字符長(zhǎng)度過(guò)少的故障文本記錄,共計(jì)1 988條,各類別樣本分布如表3所示。實(shí)驗(yàn)?zāi)P筒捎肞ython3.6語(yǔ)言及Scikit-learn庫(kù)實(shí)現(xiàn)。
表3 軌道電路故障類別分布情況
由表3可知軌道電路故障文本數(shù)據(jù)長(zhǎng)度較短,屬于短文本數(shù)據(jù),且各故障類型數(shù)據(jù)不均衡,大類別故障數(shù)據(jù)反映出軌道電路故障的主要致因來(lái)源。
選取傳統(tǒng)TF-IDF和改進(jìn)TF-IDF文本特征提取方法,分別基于原始文本數(shù)據(jù)及經(jīng)SMOTE算法生成的數(shù)據(jù),通過(guò)SVM分類器模型進(jìn)行實(shí)驗(yàn)分析,并對(duì)不同分詞級(jí)別模式下的分類模型效果進(jìn)行實(shí)驗(yàn)分析。在故障文本分類實(shí)驗(yàn)中,從隨機(jī)打亂的樣本數(shù)據(jù)中選取75%作為訓(xùn)練集,25%作為測(cè)試集。
3.1.1 評(píng)價(jià)指標(biāo)
對(duì)于多分類問(wèn)題,常采用混淆矩陣評(píng)估每個(gè)類別的分類效果,矩陣中每行表示樣本真實(shí)類別,每列表示樣本預(yù)測(cè)類別,從而表示出真實(shí)類別被正確分類及錯(cuò)誤劃分到其他類別的樣本數(shù)量。因原始文本數(shù)據(jù)存在不均衡特征,本文采用精確率Precision、召回率Recall及F1值作為故障文本分類模型的評(píng)估指標(biāo),計(jì)算式分別為
( 8 )
( 9 )
(10)
式中:TPi為類別之真實(shí)正類被預(yù)測(cè)為正類的個(gè)數(shù);FPi為類別之真實(shí)負(fù)類被預(yù)測(cè)為正類的個(gè)數(shù);FNi為類別之真實(shí)正類被預(yù)測(cè)為負(fù)類的個(gè)數(shù);Pi、Ri及F1i分別為類別i的精確率、召回率及F1值;K為類別總數(shù),此處K取值為6。
3.1.2 故障文本數(shù)據(jù)均衡處理分類實(shí)驗(yàn)
為檢驗(yàn)本文引入SMOTE算法對(duì)軌道電路故障文本分類效果,選取傳統(tǒng)TF-IDF算法分別對(duì)故障文本數(shù)據(jù)均衡處理前后進(jìn)行SVM故障文本分類對(duì)比實(shí)驗(yàn),圖5和圖6為兩種分類模型混淆矩陣。
圖5 TF-IDF+SVM分類模型混淆矩陣
圖6 TF-IDF+SMOTE+SVM分類模型混淆矩陣
由圖5及圖6可以看出,分類模型傾向于將少數(shù)類別C3及C4樣本預(yù)測(cè)為多數(shù)類別,經(jīng)過(guò)SMOTE處理后少數(shù)類別C3及C4樣本被正確分類的比率得到大幅提升,驗(yàn)證了文中引入SMOTE算法處理不均衡樣本數(shù)據(jù)的有效性。
3.1.3 基于改進(jìn)TF-IDF算法的分類實(shí)驗(yàn)
為進(jìn)一步驗(yàn)證提出的改進(jìn)TF-IDF算法在軌道電路故障文本分類中的有效性,將其與傳統(tǒng)TF-IDF及Word2vec兩種文本特征提取表示方法進(jìn)行對(duì)比實(shí)驗(yàn),分析不同文本特征提取表示方法對(duì)于故障文本分類效果的影響。
圖7為不同特征提取算法下的軌道電路故障文本分類F1值,其中Word2vec文本向量維度設(shè)定為128維,訓(xùn)練參數(shù)窗口長(zhǎng)度為8。為實(shí)現(xiàn)同等條件下對(duì)比分析,采用奇異值分解(Singular Value Decomposition,SVD)算法分別對(duì)傳統(tǒng)TF-IDF及改進(jìn)TF-IDF文本特征表示向量降維至128維。由圖7可知,在軌道電路故障短文本分類問(wèn)題中,同一SVM分類器條件下,改進(jìn)TF-IDF文本特征提取后分類效果優(yōu)于傳統(tǒng)TF-IDF及Word2vec,說(shuō)明改進(jìn)TF-IDF算法對(duì)不同故障致因類型文本特征提取效果最優(yōu);從整體上看,基于改進(jìn)TF-IDF+SMOTE算法的分類模型對(duì)不同故障致因類型文本數(shù)據(jù)分類效果比其他組合模型更優(yōu)。
圖7 三種文本特征下的軌道電路故障文本分類F1值
3.1.4 不同分詞模式下分類模型實(shí)驗(yàn)
為分析不同分詞模式對(duì)故障文本分類模型的影響,本文在詞項(xiàng)級(jí)和字符級(jí)對(duì)Word2vec、傳統(tǒng)TF-IDF及改進(jìn)TF-IDF三種文本特征提取表示方法及經(jīng)SMOTE處理后的三種方法分別在SVM分類器下進(jìn)行實(shí)驗(yàn)分析,其中為驗(yàn)證專業(yè)詞庫(kù)對(duì)故障文本分類的影響,選取未使用專業(yè)詞庫(kù)分詞處理的傳統(tǒng)TF-IDF+SMOTE及改進(jìn)TF-IDF+SMOTE方法作對(duì)比分析。此外,采用文獻(xiàn)[5-6]中的文本分類模型方法進(jìn)行對(duì)比實(shí)驗(yàn),其中文獻(xiàn)[5]在詞項(xiàng)級(jí)對(duì)TF-IDF文本表示向量進(jìn)行歸一化及SVM-SMOTE均衡化處理,采用Voting多分類器集成學(xué)習(xí)算法,其最優(yōu)分類器組合模型為Multinomial NB+Random Forest+SVM,需說(shuō)明的是該方法未對(duì)TF-IDF文本表示向量進(jìn)行降維處理,因此本文在兩種分詞模式下采用該集成學(xué)習(xí)方法僅對(duì)文本特征表示向量進(jìn)行歸一化處理,而文本表示向量維度與詞袋總量一致;文獻(xiàn)[6]在詞項(xiàng)級(jí)采用Word2vec+MCNN文本分類模型,在卷積神經(jīng)網(wǎng)絡(luò)池化層采用兩個(gè)最大池化及平均池化的混合池化方法。
將Precision、Recall、F1及運(yùn)行時(shí)間Time作為評(píng)估指標(biāo),不同分詞模式下故障文本分類模型的分類性能對(duì)比如表4所示,實(shí)驗(yàn)結(jié)果取10次實(shí)驗(yàn)平均值。
由表4可知,字符級(jí)分詞模式下,各分類方法分類效果相比詞項(xiàng)級(jí)分詞模式均有提升,改進(jìn)TF-IDF+SMOTE+SVM方法在三個(gè)指標(biāo)上均優(yōu)于其他方法模型,說(shuō)明在降維前字符級(jí)分詞模式下故障文本特征表示向量維度縮減有利于分類性能的提升。
表4 不同分詞模式下軌道電路故障文本分類結(jié)果
詞項(xiàng)級(jí)分詞模式下,文獻(xiàn)[5]方法與本文采用改進(jìn)TF-IDF+SMOTE方法的分類效果接近,但由于文獻(xiàn)[5]方法未經(jīng)過(guò)降維處理,當(dāng)詞袋總量隨文本數(shù)據(jù)量增加時(shí),詞向量維度增大導(dǎo)致分類模型運(yùn)算時(shí)間增加,而本文方法文本表示向量經(jīng)降維處理后維度更低,在文本分類模型計(jì)算過(guò)程中保證較高精確率的前提下速度更快。對(duì)比三種基于Word2vec向量表示的分類模型,在兩種分詞模式下文本分類效果均低于本文方法,其效果依賴于語(yǔ)料庫(kù)訓(xùn)練的Word2vec模型質(zhì)量且易受類別間數(shù)據(jù)不均衡影響,表明在軌道電路故障文本分類問(wèn)題中,詞項(xiàng)統(tǒng)計(jì)特征較語(yǔ)義特征在分類模型中表現(xiàn)更優(yōu)。
專業(yè)詞庫(kù)的應(yīng)用可以實(shí)現(xiàn)專業(yè)詞匯準(zhǔn)確切分,減少噪聲詞項(xiàng)的產(chǎn)生,表4在兩種分詞模式下,使用專業(yè)詞庫(kù)的分類模型效果較未使用專業(yè)詞庫(kù)有較明顯的提升。而字符級(jí)分詞模式下,由于字符級(jí)分詞本質(zhì)上以字為基本單位,最終均以字符切分,受專業(yè)詞庫(kù)的影響較小,因此對(duì)于分類模型效果影響較小。
選取與現(xiàn)場(chǎng)檢修維護(hù)工作密切相關(guān)的故障致因類別C0及C1故障文本數(shù)據(jù),進(jìn)一步聚類挖掘細(xì)粒度故障主題類型及故障致因。為獲取故障文本語(yǔ)義特征,采用Word2vec訓(xùn)練得到故障文本向量表示,訓(xùn)練參數(shù)如上節(jié)設(shè)定。通過(guò)式( 7 )對(duì)類別C0、C1分別計(jì)算輪廓系數(shù)與聚類數(shù)目K的關(guān)系以確定最優(yōu)聚類個(gè)數(shù),見圖8。分別選取輪廓系數(shù)最大值時(shí)的聚類數(shù)目K0=5和K1=4,作為類別C0及C1的最優(yōu)聚類個(gè)數(shù),采用K-means聚類算法進(jìn)行故障文本聚類。
圖8 不同K值下輪廓系數(shù)
針對(duì)聚類結(jié)果中每一類故障文本數(shù)據(jù),采用改進(jìn)TF-IDF算法進(jìn)行關(guān)鍵詞提取并排序,依據(jù)權(quán)重值由高到低排序的特征詞歸納故障主題類型描述。結(jié)合最優(yōu)K值由專家對(duì)故障文本類別信息進(jìn)行人工標(biāo)注,采用準(zhǔn)確率(Acc)[16]作為細(xì)粒度故障主題類型聚類結(jié)果的評(píng)估標(biāo)準(zhǔn)。表5列舉出C0及C1聚類結(jié)果中故障主題類型的所占比例以及準(zhǔn)確率,通過(guò)10次聚類實(shí)驗(yàn)計(jì)算其平均值。
表5 C0和C1故障致因類別下的故障主題及準(zhǔn)確率 /%
由表5可知,基于Word2vec文本表示的兩種致因類型故障文本主題聚類性能較好。聚類結(jié)果具有不平衡特征,其中電務(wù)致因C0類型器材不良相關(guān)故障主題類型占比最高,工務(wù)致因C1類型鋼軌絕緣處相關(guān)故障主題類型占比最高,可作為電務(wù)及工務(wù)部門故障分析及維護(hù)檢修工作的重點(diǎn)方向。通過(guò)對(duì)聚類后故障文本數(shù)據(jù)分析發(fā)現(xiàn),由于軌道電路故障文本記錄中對(duì)器材不良相關(guān)故障主題類型描述方式相近,基于Word2vec語(yǔ)義特征提取后,導(dǎo)致器材不良故障主題類型相似文本數(shù)據(jù)被聚類為同一簇,而聚類結(jié)果中仍包含了多種不同故障致因。
為進(jìn)一步獲取細(xì)粒度故障致因,將聚類得到的故障主題類型作為一級(jí)故障主題類型,采用詞頻統(tǒng)計(jì)方法,分別統(tǒng)計(jì)排序各故障主題類型文本中的故障原因詞項(xiàng),作為二級(jí)故障致因并過(guò)濾其他類型詞項(xiàng)。詞頻信息可表征各故障主題類別中二級(jí)故障致因的發(fā)生概率,這些信息可以突出現(xiàn)場(chǎng)軌道電路運(yùn)行過(guò)程中的潛在風(fēng)險(xiǎn)及可能的故障致因,可指導(dǎo)現(xiàn)場(chǎng)維護(hù)人員進(jìn)行故障分析及預(yù)防,避免遺漏潛在故障風(fēng)險(xiǎn)因素,如故障器件及故障區(qū)域。表6中列出了C0及C1部分二級(jí)故障致因及其詞頻。
表6 不同故障主題下二級(jí)故障因素(部分)
由表6可知,通過(guò)對(duì)軌道電路不同故障主題類型進(jìn)一步統(tǒng)計(jì)分析,得到了電務(wù)及工務(wù)致因類型下的細(xì)粒度故障致因。如器材不良相關(guān)故障類型中,最容易導(dǎo)致軌道電路故障的是接收盒;鋼軌絕緣處相關(guān)故障類型中,鐵屑是最可能影響軌道電路故障的致因。在軌道電路現(xiàn)場(chǎng)運(yùn)行維護(hù)中應(yīng)將它們作為重點(diǎn)關(guān)注對(duì)象,有利于現(xiàn)場(chǎng)維護(hù)人員掌握軌道電路在運(yùn)行過(guò)程中的薄弱點(diǎn),并在日常檢修工作中將其作為重點(diǎn)檢查對(duì)象,可提高維護(hù)作業(yè)質(zhì)量;輔助現(xiàn)場(chǎng)人員制定預(yù)防性維護(hù)措施,消除潛在風(fēng)險(xiǎn)減少故障發(fā)生,提高軌道電路工作穩(wěn)定性。
(1)針對(duì)軌道電路故障文本數(shù)據(jù)不均衡問(wèn)題,經(jīng)SMOTE算法對(duì)樣本數(shù)據(jù)均衡處理后,分類模型對(duì)小類別故障文本數(shù)據(jù)分類效果有較高提升,有利于分類模型對(duì)小類別樣本數(shù)據(jù)的識(shí)別。
(2)基于軌道電路故障文本數(shù)據(jù)量及數(shù)據(jù)特點(diǎn),在故障文本分類問(wèn)題中,改進(jìn)TF-IDF文本特征表示方法優(yōu)于傳統(tǒng)TF-IDF及Word2vec;改進(jìn)TF-IDF算法對(duì)于不同故障類別中具有類別特征的高頻詞有較好的提取效果,結(jié)合數(shù)據(jù)均衡處理提升了故障文本分類模型效果。
(3)針對(duì)故障文本敘述不規(guī)范以及分詞處理問(wèn)題,雖然詞項(xiàng)級(jí)分詞更有利于人們直觀理解,但采用字符級(jí)分詞模式,不僅有利于減少對(duì)專業(yè)詞典的人工維護(hù),也有利于解決多詞一義現(xiàn)象造成分詞后特征向量維度增加問(wèn)題。本文結(jié)合詞項(xiàng)級(jí)和字符級(jí)分詞獲得總詞頻特征,不涉及語(yǔ)義及詞序特征,因此在故障文本分類時(shí)不受人工記錄的語(yǔ)法結(jié)構(gòu)和語(yǔ)序表述的影響。
(4)由聚類結(jié)果可知,基于Word2vec的文本表示對(duì)相似詞匯以及故障文本語(yǔ)義特征有較好的學(xué)習(xí)效果,對(duì)于同義詞及相似語(yǔ)義文本識(shí)別效果較好。以最優(yōu)K值實(shí)現(xiàn)聚類能夠得到各軌道電路故障致因類別下的故障主題類型及發(fā)生比例,進(jìn)一步依據(jù)詞頻特征統(tǒng)計(jì)分析,可獲取每種故障主題類型中的易發(fā)高發(fā)性故障致因。但受故障文本記錄時(shí)專業(yè)用詞不規(guī)范化和筆誤影響,可導(dǎo)致故障致因的提取存在一定誤差。因此,現(xiàn)場(chǎng)工作人員應(yīng)盡可能按鐵路專業(yè)術(shù)語(yǔ)或縮略詞進(jìn)行記錄,減少筆誤,保證故障文本記錄的規(guī)范度便于挖掘利用。
提出一種軌道電路細(xì)粒度故障致因文本挖掘分析方法,基于改進(jìn)TF-IDF實(shí)現(xiàn)故障文本向量表示,采用SVM算法實(shí)現(xiàn)SMOTE均衡后的不同故障致因類型文本數(shù)據(jù)自動(dòng)分類;針對(duì)電務(wù)及工務(wù)致因故障類型文本數(shù)據(jù),基于Word2vec實(shí)現(xiàn)文本向量表示,采用K-means算法進(jìn)一步聚類挖掘分析,提取關(guān)鍵詞歸納細(xì)粒度故障主題類型,并通過(guò)詞頻統(tǒng)計(jì)獲取易發(fā)多發(fā)性二級(jí)故障致因。通過(guò)對(duì)某鐵路局集團(tuán)有限公司軌道電路故障文本記錄實(shí)驗(yàn),驗(yàn)證了故障文本分類模型的有效性及準(zhǔn)確性;故障文本聚類實(shí)現(xiàn)了軌道電路故障類型的進(jìn)一步細(xì)分挖掘,不同故障主題類型間具有較高區(qū)分度,借助文本挖掘分析方法,為現(xiàn)場(chǎng)細(xì)粒度統(tǒng)計(jì)分析軌道電路故障致因及制定預(yù)防性維護(hù)措施提供了新思路。