高 凡 ,王富章 ,張 銘 ,趙俊華 ,李高科
(1.中國鐵道科學(xué)研究院,北京 100081;2.北京經(jīng)緯信息技術(shù)有限公司,北京 100081)
安全問題歷來是鐵路運輸?shù)闹攸c關(guān)注問題,在鐵路安全監(jiān)控體系中,為減少運營過程中可能存在的安全隱患,減少設(shè)備故障,保障系統(tǒng)穩(wěn)定運行,安全人員根據(jù)日常巡檢、專項巡檢、重大節(jié)假日排查等計劃定期到現(xiàn)場檢查存在的安全生產(chǎn)故障隱患,并將問題記錄為文本形式存儲。管理人員依據(jù)這些問題記錄,分析、總結(jié)與整改問題。在長期形成的海量的安全問題文本文件中,采用文本分類技術(shù)將安全問題自動歸類,輔助管理人員更好地掌握與處理安全問題,在鐵路安全領(lǐng)域的重要性日漸凸顯。
一般來說,文本分類過程有以下3 個步驟[1]:預(yù)處理、文本表示和文本分類。其中,文本預(yù)處理包括分詞、去除停頓詞、去除不規(guī)則數(shù)據(jù)等。文本表示即將提取的文本特征轉(zhuǎn)換為計算機可處理的數(shù)據(jù)類型(通常用向量表示)。文本表示方法包括詞袋模型(BOW)、詞頻-逆向文件頻率(Term Frequency-Inverse Document Frequency,TF-IDF),以及基于深度學(xué)習(xí)的Word2vec 表示方法等[2]。在構(gòu)造分類器時使用的技術(shù)大體包括單個的基分類器、集成分類器以及深度學(xué)習(xí)模型[3]。集成分類器主要包含Bagging 和Boosting 兩種,Bagging 的主要算法是隨機森林,Boosting 的主要算法是梯度提升樹。在深度學(xué)習(xí)領(lǐng)域,有基于深度信念網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)[4-5]、循環(huán)神經(jīng)網(wǎng)絡(luò)等完成文本分類任務(wù)[6]。
目前,國內(nèi)學(xué)者在鐵路文本分析領(lǐng)域研究較多。王廣采用貝葉斯網(wǎng)絡(luò)的預(yù)測模型和自適應(yīng)增強算法(Adaptive Boosting,AdaBoost)的預(yù)測模型實現(xiàn)天氣相關(guān)的鐵路道岔故障預(yù)測[7];趙陽等以故障文本信息為依據(jù),針對高鐵信號車載設(shè)備,提出貝葉斯結(jié)構(gòu)學(xué)習(xí)算法(HDBN_SL)[8];李佳奇等將面向Agent 的分布式人工智能技術(shù)引入到信號設(shè)備故障診斷系統(tǒng)中[9];楊連報針對信號故障不平衡數(shù)據(jù),采用SVM-SMOTE 算法對TF-IDF轉(zhuǎn)換后的小類別文本向量數(shù)據(jù)隨機生成,分別采用基分類器和集成分類對數(shù)據(jù)進行分類[10]。本文處理安全問題為事故故障發(fā)生前人員檢查時發(fā)現(xiàn)的風(fēng)險、隱患內(nèi)容,通常包括安全問題發(fā)生的時間、地點、問題描述等關(guān)鍵要素[11],所以針對每一類安全問題,存在特定的關(guān)鍵詞,本文在文本特征抽取上采用TF-IDF 表示,針對Bagging集成分類器的基礎(chǔ)上,采用遺傳算法優(yōu)化,提升分類準(zhǔn)確性[12]。
安全問題文本分類屬于文本挖掘中的分類問題,應(yīng)用文本分析的處理流程,進化集成分類器模型分為3層:數(shù)據(jù)預(yù)處理層、進化優(yōu)化層以及智能決策層[13],如圖1 所示?;赥F-IDF,數(shù)據(jù)預(yù)處理層對安全問題描述文本進行特征提取和特征向量化表示,通過基分類器決策樹(Decision Tree)對上述文本進行分類并建立相應(yīng)的基模型,再基于Bagging 集成分類器對預(yù)處理結(jié)果進行采樣訓(xùn)練,產(chǎn)生集成分類器分類模型[14]。在數(shù)據(jù)預(yù)處理層Bagging 訓(xùn)練過程中產(chǎn)生的每個基模型的解的基礎(chǔ)上,進化優(yōu)化層使用遺傳算法優(yōu)化集成分類器并最終得到具有更高分類準(zhǔn)確度的基分類器組合。最上層智能決策層為用事先定義好的指標(biāo)評價模型,經(jīng)調(diào)整和改進后的模型直接用于文本自動分類[15]。
安全問題中存在的大量鐵路專用術(shù)語,如低壓過流、閉鎖、紅光帶等,本文采用基于字典的結(jié)巴分詞工具,構(gòu)建了包括通用語料及專業(yè)語料的鐵路安全問題語料庫,以便對安全問題準(zhǔn)確分詞。
圖1 進化集成分類器模型整體框架
表1 鐵路信號安全問題表述
安全問題以文本形式記錄在信息系統(tǒng)中。表1 列舉了鐵路領(lǐng)域各類別安全問題的典型實例,根據(jù)對安全問題的表述,可見雖然鐵路安全問題類別較多,但在各類別中都有各自特征的高頻詞,同時在其他安全問題類別中呈低頻出現(xiàn),如圖2 所示。
在本文的模型中,應(yīng)用TF-IDF 將經(jīng)過分詞的詞語過濾低頻詞后再計算詞頻。
詞頻(Term Frequency,TF)和逆向文件頻率(Inverse Document Frequency,IDF)均表示搜索關(guān)鍵詞在所有文檔中出現(xiàn)的頻率,前者頻率越高,證明該關(guān)鍵詞與文檔相關(guān)性越高;后者頻率越高,表示該關(guān)鍵詞與文檔相關(guān)性越低。所以,為了對文檔中某一詞語的出現(xiàn)次數(shù)進行歸一化處理,可以通過分析該詞語的詞頻。對于詞語ti,在某個文檔中的重要程度可表示為:
式中,TFi,j為詞頻,ni,j是詞語ti在dj文件中檢索到的次數(shù),是dj中所有字、詞出現(xiàn)的次數(shù)之和。
逆向文件頻率由總文件數(shù)據(jù)除以包含某詞語的文件數(shù)據(jù)取對數(shù)得到,用于度量一個詞語普遍重要程度,其公式如下:
式中,IDFi為逆向文件頻率,|D|為總文件數(shù),為包含某一詞語的文件數(shù)。
高權(quán)重wi,j=TFi,j×IDFi,由文檔內(nèi)的高詞語頻率乘以該詞語在整個文檔集合的低文件頻率。
圖2 安全問題內(nèi)容特征分析
數(shù)據(jù)預(yù)處理流程如圖3 所示。首先在既有語料庫的基礎(chǔ)上,根據(jù)不同的安全問題進行分詞,同時統(tǒng)計特征詞語所在的文檔及其出現(xiàn)次數(shù),然后通過TF-IDF 方法計算該特征詞語的詞頻并過濾低頻詞,最終形成矩陣X和矩陣Y,其中矩陣X 代表文檔特征的權(quán)重,矩陣Y 代表分類類別。
圖3 數(shù)據(jù)預(yù)處理流程
決策樹分類器是訓(xùn)練一棵大規(guī)模的樹結(jié)構(gòu),對該樹進行減枝,直到達到合適的規(guī)模和分類效率。本文采用ID3算法,ID3 依據(jù)信息增益選擇屬性。其中屬性TF-IDF 過濾后的單詞,若屬性w 的值將樣本集T 劃分成T1,T2,…,Tm,共m 個子集,其信息增益表示為:
式中,|T|為T 的樣本個數(shù),|Ti|為子集Ti的樣本個數(shù)。其中inf o(T)的計算公式為:
式中,freq(Cj,T)為T 中的樣本屬于Cj類別的頻率,s 是T 中的樣本的類別數(shù)量。
本文采用決策樹作為基分類器。假設(shè)原始訓(xùn)練數(shù)據(jù)量是n。在原始數(shù)據(jù)集隨機抽取訓(xùn)練數(shù)據(jù),抽取的數(shù)據(jù)量為n′(n′≤n),用抽取的數(shù)據(jù)訓(xùn)練第一個決策樹,用同樣的方法做m 次有放回抽取,訓(xùn)練m 個決策樹,將測試集放到每一個決策樹中預(yù)測,最后通過最優(yōu)分類器與其他分類器的加權(quán)投票組合,選出表現(xiàn)性能最優(yōu)的組合集成分類器,其學(xué)習(xí)過程如下:
(1)輸入訓(xùn)練集
(2)過程:
其中,ξ 為基分類器算法;T 為訓(xùn)練輪數(shù)。
(3)輸出:
遺傳算法是一種自適應(yīng)全局優(yōu)化的搜索算法,通過對初始解進行遺傳迭代,每一次迭代通過適應(yīng)度函數(shù)對當(dāng)前解進行優(yōu)劣進行評價,在評價的基礎(chǔ)上產(chǎn)生優(yōu)秀的下一代。進化集成分類器是建立在給定的某個Bagging集成分類器上,通過遺傳算法優(yōu)化該集成分類器并最終得到的具有更高分類準(zhǔn)確度的基分類器組合。進化集成分類器的核心主要為基因編碼及種群繁殖過程。
3.3.1 基因編碼機制
進化集成分類器搜索最優(yōu)解的目標(biāo)為得到基分類器的最優(yōu)組合。根據(jù)這一原則,本文設(shè)定50 個基分類器,種群(個體)規(guī)模為25,為了模擬基分類器是否被選擇,設(shè)定個體大小(基因長度)與基分類器數(shù)量一致,采用0、1 編碼基因,0 表示基分類器未選擇,1 表示被選擇。所以初始個體基因由0、1 隨機編碼長度為50 的二進制符號串組成。
3.3.2 種群繁殖過程
種群繁殖過程是將種群內(nèi)個體不斷地經(jīng)過選擇、交叉、變異的操作,把適應(yīng)度較高的個體遺傳到下一代,通過這一迭代過程最終得到一個優(yōu)良個體的過程。可以認(rèn)為,這一最終得到個體的表現(xiàn)型是最接近該問題的最優(yōu)解。本文中迭代次數(shù)G=100。
(1)初始適應(yīng)度計算:初始適應(yīng)度計算以每個基分類的準(zhǔn)確度為準(zhǔn),準(zhǔn)確度越高的其適應(yīng)度越高。pi(0<i<50)代表每個基分類器(決策樹)的準(zhǔn)確度,pˉ代表全部基分類器的均值,σp代表全部基分類器的方差,個體適應(yīng)度公式為:
(2)選擇:選擇過程即根據(jù)個體適應(yīng)度,選擇優(yōu)秀的個體遺傳到下一代。本文以個體靈敏度隨機選擇要交叉的兩個個體,個體初始靈敏度ps=0.95,個體靈敏度計算過程如下:
①s=min((ps+c×0.010),ps)
②for i=1,2,…,n do
③ps=((s-1)/(s×len(a))2-(1))×((s×len(a))2-(i))
其中,c 反映經(jīng)過迭代后其準(zhǔn)確度是否有提升,如果有提升加1。經(jīng)過計算,準(zhǔn)確度越高的個體其靈敏度就越低,越不容易被選擇變異。a 為個體總數(shù)。
通過上述計算,本文將適應(yīng)度最大的精英個體保留下來。
(3)交叉:對于種群中的所有個體,以隨機原則將其兩兩搭配成對,對于每一對個體組合,設(shè)定一定的概率來交換兩個個體間的部分染色體,本文設(shè)定交叉概率Pc=0.75。
(4)變異:針對個別滿足變異的個體,進行隨機變化。變異過程可產(chǎn)生新的個體,不僅增加了種群的多樣性,也為尋找最優(yōu)解提供了潛在的可能,本為的變異概率Pm=0.05。
(5)評價函數(shù):經(jīng)過變異后的種群用評價函數(shù)來評價個體的好壞,每個個體為一個基分類器組合(0 為選擇,1 為不選擇),通過評價函數(shù)式(6)計算該基分類器組合的準(zhǔn)確度,從而得到最優(yōu)解,按照準(zhǔn)確度從大到小的原則篩選出準(zhǔn)確度最大的個體,并將其作為精英個體保留下來。
本文設(shè)置的終止條件為總的進化代數(shù)ng 超過設(shè)定代數(shù)G。
為分析本文提出的進化集成分類器進化過程,以某鐵路局供電接觸網(wǎng)安全問題為實例,采用精準(zhǔn)率(Precision)、召回率(Recall)和精確值和召回率的調(diào)和均值(F-score)作為模型評價和對比的指標(biāo)驗證分類結(jié)果。實現(xiàn)數(shù)據(jù)包括6 種問題類別2 400 條數(shù)據(jù)。
精準(zhǔn)率(Precision):
式中,TP 代表被正確檢索到的樣本,F(xiàn)P 代表被誤檢索到的樣本,F(xiàn)N 代表屬于此類而被誤檢索為其他類的樣本。
圖4 中顯示了模型進化過程中種群的多樣性(Diversity)、種群分類的平均值(AverageScore)、方差(StandardScore)以及最優(yōu)值(BestScore)。由實驗結(jié)果可見,當(dāng)種群迭代次數(shù)達到45 次時,種群繁殖過程中的平均值、方差和分類最大值均達到最大值,種群多樣性保持在80%~100%之間。
為了對比不同類型分類器對同一安全問題的分類結(jié)果,本文在以TF-IDF 方法表示安全問題文本的基礎(chǔ)上,分別采用基分類器、Bagging 集成分類器及進化集成分類器對同一安全問題進行分類,最終結(jié)果如表2 所示。從表2 中可以看出,進化集成分類器分類指標(biāo)最高,Bagging 集成分類器分類指標(biāo)次之,基分類器分類指標(biāo)最差。
表2 分類模型結(jié)果對比
圖4 種群繁殖過程
本文采用TF-IDF 方法表示安全問題文本,通過遺傳算法優(yōu)化集成分類器并最終得到具有更高分類準(zhǔn)確度的基分類器組合,提出了Evolutionary Ensemble Classifier文本分類模型,應(yīng)用某路局安全接觸網(wǎng)問題進行驗證,實驗證明Evolutionary Ensemble Classifier 模型在安全接觸網(wǎng)問題具有較高的準(zhǔn)確性,也可以為處理鐵路其他文本分類問題提供參考模型。