亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本挖掘的鐵路信號設(shè)備故障自動分類方法

        2022-03-24 09:56:54林海香陸人杰
        關(guān)鍵詞:分類文本故障

        林海香,陸人杰,盧 冉,許 麗

        (蘭州交通大學(xué) 自動化與電氣工程學(xué)院,甘肅 蘭州 730070)

        鐵路信號設(shè)備在保障鐵路行車安全中發(fā)揮著重要作用,在日常的運營維護過程中,積累了大量故障文本數(shù)據(jù)[1],這些數(shù)據(jù)包含了鐵路信號設(shè)備故障現(xiàn)象、原因及維修方法等非結(jié)構(gòu)化的描述性數(shù)據(jù),由于鐵路信號設(shè)備故障文本數(shù)據(jù)通常保存在鐵路電務(wù)部門,未被充分利用,且當(dāng)前故障分類任務(wù)仍主要依賴鐵路工作人員,分類結(jié)果可能具有隨意性和不準確性[2]. 因此,在智慧鐵路和鐵路大數(shù)據(jù)時代的背景下,亟需采取智能手段,基于故障文本數(shù)據(jù),挖掘故障記錄與其對應(yīng)故障設(shè)備類別之間的模式關(guān)系,得到故障記錄文本自動分類器,實現(xiàn)鐵路信號設(shè)備故障的智能分類;對故障文本數(shù)據(jù)的定量分析能為信號設(shè)備檢修計劃的變更與制定提供基本的數(shù)據(jù)支撐,而自然語言處理也在國發(fā)〔2017〕35 號文件中被視為關(guān)鍵共性技術(shù)[3],故充分利用文本數(shù)據(jù)能為智能化鐵路的發(fā)展提供創(chuàng)新動力,且符合電務(wù)大數(shù)據(jù)智能運維需求.

        實現(xiàn)故障文本自動分類的核心在于文本表示和分類器選擇兩個方面. 文本向量化的優(yōu)劣會對分類器的性能產(chǎn)生較大影響,傳統(tǒng)文本表示方法大多依賴于詞袋模型,例如獨熱編碼、詞頻-逆文檔頻率(Term Frequency–Inverse Document Frequency,TF-IDF)等. 李陽慶等[4]以鐵路無線閉塞中心故障追蹤記錄表為數(shù)據(jù)來源,基于獨熱編碼構(gòu)建故障文檔矩陣;劉浩[5]利用TF-IDF 向量化高鐵列控系統(tǒng)車載設(shè)備的故障文本,但獨熱編碼、TF-IDF 等方法未考慮字詞間順序和相關(guān)性,且形成的詞向量維度過大. 而詞嵌入模型[6]可有效避免這些問題,詞嵌入模型能將字詞表示成更低維度的向量,同時將上下文特征融入到字詞向量中,當(dāng)前已有故障文本分類研究[7-8]利用該類模型進行文本向量化表示. 在構(gòu)建文本分類器時,支持向量機(Support Vector Machine,SVM)[9]、樸素貝葉斯(Na?ve Bayes,NB)[10]、K 最近鄰(K-Nearest Neighbor, KNN)[11]等機器學(xué)習(xí)方法已取得了不錯的效果,例如鐘志旺等[12]利用SVM 模型實現(xiàn)對高速鐵路道岔故障文本的分類;趙陽等[13]以鐵路車載設(shè)備故障文本為依據(jù),通過LDA 主題模型完成特征提取后,將Bayes 結(jié)構(gòu)學(xué)習(xí)算法應(yīng)用于故障分類. 但上述傳統(tǒng)機器學(xué)習(xí)算法為淺層學(xué)習(xí)算法,直接利用向量化后的文本進行分類,所用向量不能表達出語義的深層含義,分類能力受到限制. 較之傳統(tǒng)機器學(xué)習(xí)算法,深度學(xué)習(xí)模型則依賴于自身的深層模型結(jié)構(gòu),關(guān)注對隱藏特征和高維度特征的抽取[14],可以在文本向量的基礎(chǔ)上進一步自動抽取語義特征,實現(xiàn)端到端的學(xué)習(xí),所以基于深度學(xué)習(xí)的故障文本分類模型逐漸成為當(dāng)前研究熱點. 此外,數(shù)據(jù)樣本類別分布的均衡與否也會對最終分類結(jié)果產(chǎn)生較大的影響.

        本文在已有研究的基礎(chǔ)上,針對鐵路信號設(shè)備故障文本記錄數(shù)據(jù),提出了一種基于Word2vec+SMOTE+CNN 的鐵路信號設(shè)備故障文本自動分類方法,通過Word2vec 得到具有語義相似性關(guān)系的文本向量表示,接著采用SMOTE 算法實現(xiàn)小類別文本向量數(shù)據(jù)自動生成,從而解決故障文本數(shù)據(jù)不平衡問題,再利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)進一步提取局部上下文深層特征并實現(xiàn)對故障文本的智能化自動分類,為信號設(shè)備的定期維護提供參考價值,也為故障文本數(shù)據(jù)的高效利用提供了解決方案.

        1 鐵路信號設(shè)備故障數(shù)據(jù)分析

        鐵路信號設(shè)備故障按照設(shè)備的功能和故障現(xiàn)象劃分,可分為如圖1 中所示的9 類故障,圖1 中顯示了某鐵路局電務(wù)段于2016 至2019 年的鐵路信號設(shè)備各故障類型的占比,通過統(tǒng)計可以看出故障類別存在明顯的不均衡分布,數(shù)量上的不均衡比最大可達1∶42,若直接通過分類模型,則在分類時易忽略少數(shù)類對分類的影響從而造成少數(shù)類預(yù)測精度比多數(shù)類的預(yù)測精度低.

        本文研究數(shù)據(jù)主要來源于電務(wù)工作人員記錄的鐵路信號設(shè)備故障文本數(shù)據(jù),這里只展示出本文研究所需的信息,即故障現(xiàn)象描述及對應(yīng)的故障類型,鐵路信號設(shè)備故障文本數(shù)據(jù)示例如表1 所示. 由于當(dāng)前缺乏統(tǒng)一的記錄標(biāo)準,以及故障文本的高維和稀疏特性,這給計算機識別和處理文本數(shù)據(jù)帶來難度.

        2 鐵路信號設(shè)備故障自動分類方法設(shè)計

        本文設(shè)計的鐵路信號設(shè)備故障自動分類方法如圖2 所示,主要包含4 個模塊:故障文本預(yù)處理、Word2vec 詞向量訓(xùn)練、故障少數(shù)類別樣本自動生成以及CNN 分類模塊. 該設(shè)計方法的優(yōu)點主要有:①Word2vec 訓(xùn)練的詞向量維度固定,并能較好表征詞和詞之間的語義相似性關(guān)系;②SMOTE 算法的使用有效避免在深度學(xué)習(xí)過程中出現(xiàn)欠擬合現(xiàn)象;③CNN 具有的權(quán)值共享的特性可以提高訓(xùn)練效率.

        圖2 鐵路信號設(shè)備故障文本自動分類方法設(shè)計Fig. 2 Design of automatic classification method of railway signal equipment fault

        2.1 信號設(shè)備故障文本預(yù)處理模塊 第一個模塊主要是對鐵路信號設(shè)備故障文本進行中文分詞和去停用詞處理. 文本的精準分詞是實現(xiàn)文本挖掘各項功能的必要條件,分詞將自然語言文本這種非結(jié)構(gòu)化數(shù)據(jù)切分成多個信息塊,每個塊都可看成可計數(shù)的離散元素. 去停用詞則是將一些對鐵路信號設(shè)備故障文本數(shù)據(jù)表征能力不強的介詞、副詞、虛詞等過濾掉,因為這些詞不僅對于文本分類結(jié)果幾乎沒有影響,還增加了文本表示的維度.

        2.2 Word2vec 詞向量訓(xùn)練模塊 該模塊實現(xiàn)對分詞后的文本集合的數(shù)值向量化表示,向量化后才可被分類模型識別與計算. 本文以Word2vec 工具進行詞向量訓(xùn)練,可將故障文本中的每個詞轉(zhuǎn)化為計算機可識別的分布式詞向量,相同語境下的詞在語義上也相似,通過余弦距離表征,其包含Skip-gram 和CBOW兩種訓(xùn)練模式,前者的輸入為當(dāng)前詞的詞向量,輸出為上下文詞的詞向量,而后者的輸入和輸出形式與前者相反. 以CBOW 模型為例,針對故障文本數(shù)據(jù)的模型訓(xùn)練過程示例如圖3 所示.

        圖3 CBOW 模型的訓(xùn)練過程Fig. 3 The training process of the CBOW model

        2.3 故障少數(shù)類別樣本數(shù)據(jù)自動生成模塊 在傳統(tǒng)分類問題中,大多會假設(shè)數(shù)據(jù)類別平衡,但在本文這種假設(shè)無法成立,鐵路信號設(shè)備故障文本類別分布并不均衡,為了使數(shù)據(jù)不平衡現(xiàn)象對分類器精度的影響盡可能小,本文從數(shù)據(jù)本身層面出發(fā)對數(shù)據(jù)集重構(gòu),從而改變樣本數(shù)量的分布結(jié)構(gòu),使不平衡數(shù)據(jù)集內(nèi)不同類別之間的數(shù)量達到相對平衡,通過SMOTE 人工合成新的少數(shù)類別樣本來減輕類別的不平衡. 圖4 為SMOTE 算法示意,其基本思想是對每一個少數(shù)類別樣本的K(K為大于1 的奇數(shù))近鄰進行分析,并對少數(shù)類別和其近鄰之間通過式(1)以線性插值的方式生成新的少數(shù)類別樣本.

        圖4 SMOTE 算法示意(K=3)Fig. 4 Schematic of SMOTE algorithm(K=3)

        式中,xnew為新數(shù)據(jù),xi為少數(shù)類別樣本,xij為xi的近鄰點,u為隨機數(shù).

        2.4 CNN 自動分類模塊 第4 個模塊的主要功能是實現(xiàn)鐵路信號設(shè)備故障文本數(shù)據(jù)的深層特征提取和自動分類,工作流程如圖5 所示.

        圖5 CNN 模塊工作流程Fig. 5 Workflow of CNN module

        2.4.1 輸入層設(shè)計 設(shè)輸入的鐵路信號設(shè)備故障文本數(shù)據(jù)中某個語句的長度為m,xi(xi∈Rn,n代表詞向量維數(shù))為語句中第i個詞的詞向量,則該語句可用文本矩陣呈現(xiàn)為:

        其中, ⊕代表串接操作.

        2.4.2 卷積層設(shè)計 將文本矩陣X1:m經(jīng)卷積核w∈Rh×n(h為卷積核窗口高度,寬度與詞向量維數(shù)n一致)卷積運算后的結(jié)果作為非線性激活函數(shù)f的輸入,通過f提取局部上下文高層特征,再輸出特征圖:

        式中,“*”為卷積操作,bi為偏置項,它是一個常數(shù),其數(shù)值可隨模型訓(xùn)練而自動調(diào)整.

        此外,在卷積核滑動時若越過文本矩陣邊界,需采取補零方式以防邊緣信息丟失.

        2.4.3 池化層設(shè)計 卷積層僅提取了故障文本特征矩陣的局部特征,還需經(jīng)過池化層來深度挖掘故障文本特征,對卷積后的數(shù)據(jù)實現(xiàn)進一步降維.池化方式主要有最大池化和均值池化,本文采用前者,即對每個特征圖取一個最大值. 池化后的特征圖可表示為:

        鐵路信號設(shè)備故障文本分類結(jié)果由softmax函數(shù)轉(zhuǎn)換為0 到1 之間的概率數(shù)值所體現(xiàn),數(shù)值最大的一類作為最終的分類結(jié)果,具體表達式如下:

        式中,Pz為屬于第z類故障的概率,A為故障類別數(shù)量,W和B分別為全連接層的權(quán)重矩陣和偏置項.

        3 實驗過程

        3.1 實驗環(huán)境 本文的實驗環(huán)境采用Windows10操作系統(tǒng),CPU 為Intel Core i7-8550U 1.80 GHz,內(nèi)存為8 GB,采用Python 編程語言,詞向量訓(xùn)練工具包為gensim,深度學(xué)習(xí)框架是以Tensorflow 為后端的Keras 框架.

        3.2 鐵路信號設(shè)備故障文本預(yù)處理 故障文本預(yù)處理過程如圖6 所示,實驗在通用詞典的基礎(chǔ)上構(gòu)建了鐵路信號設(shè)備專業(yè)領(lǐng)域詞典,得到表征故障文本信息的特征詞集合. 構(gòu)建專業(yè)領(lǐng)域詞典的目的是為了準確切分故障特征詞,通常這些詞隱含著關(guān)鍵的故障類別信息,因此在分詞處理中應(yīng)當(dāng)做一個詞項. 本實驗采用jieba 庫中的精確模式完成自動分詞,該模式可將語句中的詞精準地切分開.

        圖6 故障文本預(yù)處理過程Fig. 6 The process of fault text preprocessing

        3.3 詞向量訓(xùn)練實驗 將預(yù)處理好的文本語料保存到一個新的文本文件中,利用Python 提供的“gensim”庫,完成鐵路信號設(shè)備故障文本的詞向量化. 進行詞向量訓(xùn)練時,由于CBOW 模型的訓(xùn)練效率相對更高,因此本文選用CBOW 模型通過上下文詞預(yù)測當(dāng)前詞構(gòu)造語言模型,并在模型的輸出層使用哈夫曼樹算法提升詞向量的訓(xùn)練效率. 該模型的窗口大小和詞向量維數(shù)需要設(shè)置適當(dāng)?shù)膬蓚€重要參數(shù),原則上窗口大小越大,考慮上下文的關(guān)系越全面,但也會導(dǎo)致訓(xùn)練時間較長. 由于本文的鐵路信號設(shè)備故障文本大多為短文本數(shù)據(jù),為避免關(guān)聯(lián)到較多語義不相關(guān)的詞匯,因此本實驗的窗口長度不宜太大,設(shè)置為3 即可.

        為了測定最佳的詞向量維度,設(shè)定不同維度的詞向量在故障文本數(shù)據(jù)集上進行驗證,F(xiàn)1 值隨不同詞向量維度的變化如圖7 所示,可以看出當(dāng)詞向量維度為200~300 維時,F(xiàn)1 值逐漸穩(wěn)定,因此本實驗將詞向量的維度數(shù)設(shè)置成200.

        圖7 不同詞向量維度所對應(yīng)的F1 值Fig. 7 F1-Score corresponding to different word vector dimensions

        3.4 故障少數(shù)類別樣本自動生成實驗 通過SMOTE 算法自動生成小類別文本向量數(shù)據(jù),原始數(shù)據(jù)量以及對少數(shù)類別的故障數(shù)據(jù)樣本進行人工合成后的結(jié)果如圖8 所示,可以看出少數(shù)類別樣本數(shù)量得到提升,故障類別總體分布基本達到均衡,數(shù)據(jù)量由原來的2 464 條變?yōu)? 302 條.

        圖8 原始數(shù)據(jù)與經(jīng)SMOTE 生成后的數(shù)據(jù)Fig. 8 Original data and data generated by SMOTE

        3.5 CNN 模塊構(gòu)建實驗 將經(jīng)過SMOTE 算法生成后的數(shù)據(jù)中的每一類以0.90∶0.10 的比例劃分成訓(xùn)練集和測試集(通過sklearn 包中的train_test_split函數(shù)). 本文將交叉熵損失函數(shù)作為誤差代價,執(zhí)行梯度下降使誤差代價最小化訓(xùn)練CNN,使用AdamOptimizer 更新學(xué)習(xí)速率. 關(guān)于卷積神經(jīng)網(wǎng)絡(luò)相關(guān)參數(shù)的設(shè)定,由于在多尺寸卷積核的相互作用下能提取出更多的文本特征,因此實驗選用大小為3、4、5 的3 種卷積核(每種128 個,維數(shù)為200)進行卷積;將ReLU 作為卷積后的激活函數(shù);此外,為了增強CNN 模塊的泛化效果,在模型訓(xùn)練過程中添加Dropout 層,如此可在每次迭代中隨機讓一部分神經(jīng)元停止參與運算,避免在隱層神經(jīng)元權(quán)重更新時產(chǎn)生過擬合情況;將批處理參數(shù)Batch 設(shè)為64,學(xué)習(xí)率和Dropout 率的取值分別是0.001 和0.5.

        提升迭代次數(shù),訓(xùn)練誤差和測試誤差的走勢如圖9 所示,從圖9 中可看出當(dāng)?shù)?0 次時,訓(xùn)練和測試誤差均達到較小的數(shù)值.

        圖9 識別誤差隨迭代次數(shù)的變化Fig. 9 Change of recognition error with number of iterations

        4 實驗結(jié)果與分析

        4.1 評價指標(biāo) 選取3 個指標(biāo)對所提方法實施評價和對比:①準確率(Precision)、②召回率(Recall)、③F1 值. 第一項指標(biāo)反映分類結(jié)果的精確程度;第二項指標(biāo)反映分類結(jié)果的全面程度,它的值越大,表明分類結(jié)果越全面;F1 值為前兩者的綜合評價指標(biāo),它的值越大,表明分類的綜合性能越出色. 上述指標(biāo)由混淆矩陣中的參數(shù)決定,具體見表2.

        表2 評價指標(biāo)的參數(shù)Tab. 2 Parameters of evaluation indexs

        準確率和召回率可以分別從查準和查全兩個角度反映分類結(jié)果,計算公式分別為:

        F1 值是前兩項指標(biāo)的調(diào)和平均,計算公式為:

        4.2 結(jié)果評價 根據(jù)表2 的描述,利用混淆矩陣以可視化的方式直觀地展現(xiàn)出本文所提方法對各故障類別在測試集上的判別結(jié)果,如圖10 所示,該矩陣橫縱坐標(biāo)中的數(shù)字1~9 代表故障樣本類別(按圖8 橫坐標(biāo)的顯示順序),主對角線上的數(shù)字表示測試集中各類別正確分類的個數(shù).

        圖10 測試結(jié)果的混淆矩陣Fig. 10 Confusion matrix of test results

        圖10 中統(tǒng)計的目標(biāo)為樣本個數(shù),而當(dāng)面對數(shù)量較多的數(shù)據(jù)時,不能僅通過計算個數(shù)衡量本文所提方法的性能優(yōu)劣. 針對鐵路信號設(shè)備故障文本的分類評價結(jié)果如表3 所示. 由表3 可以看出,本文方法可較好地對鐵路信號設(shè)備故障文本進行自動分類,整體的分類準確率可達到90%以上,準確率、召回率、F1 值3 個指標(biāo)的平均值分別是95.26%、94.32%、94.79%.

        表3 鐵路信號設(shè)備故障文本分類評價結(jié)果Tab. 3 Classification evaluation results of fault text of railway signal equipment %

        4.3 對比實驗分析 在文本特征表示部分,將本文使用的Word2vec 詞向量方法與文獻[4]中的One-hot 向量法、文獻[5]中的TF-IDF 算法、文獻[15]中的Glove 詞向量法進行對比實驗,上述4 種文本表示模型均與CNN 結(jié)合,應(yīng)用于鐵路信號設(shè)備故障文本分類時所取得的分類效果如圖11 所示.

        圖11 不同文本表示模型的實驗結(jié)果Fig. 11 Test results of different text representation models

        圖11 結(jié)果表明,使用One-hot 方法所得到的結(jié)果相較來說最差,這是因為該方法丟失了詞和詞之間的順序,未能將詞和詞之間存在的語義關(guān)聯(lián)性納入考量,且有維數(shù)災(zāi)難的困擾,因此難以獲得理想的文本抽象表示;TF-IDF 算法的本質(zhì)也是屬于詞袋模型,無法有效識別同義詞問題;Glove 和Word2vec 都是詞的嵌入式表示方法,前者利用了共現(xiàn)矩陣的全局信息進行訓(xùn)練,準確率有所增加,訓(xùn)練效率也較高,但也同樣無法獲取對文本整體的精確語義信息. Word2vec 的特征表示方法則在3項指標(biāo)上均取得了良好效果,證明該方法可為后續(xù)模型提供較為理想的特征表示形式,以期在此后分類模型的訓(xùn)練中通過不斷調(diào)整優(yōu)化,能更全面地表示鐵路信號設(shè)備故障文本特征.

        在分類器的比較實驗方面,由于KNN、SVM、NB 是機器學(xué)習(xí)算法中已在故障文本分類任務(wù)中獲得不錯效果的分類器[16-17],因此將這3 種算法與本文方法進行對比實驗,得到的具體結(jié)果如表4 所示.

        由表4 可以看出,在鐵路信號設(shè)備故障文本分類任務(wù)中,在與本文方法進行對比的3 種方法中,Word2vec+SMOTE+SVM 方法效果最優(yōu),但仍比本文所提方法的準確率低了6.96%,召回率低了4.75%,F(xiàn)1 值低了5.86%,因此本文所采用的方法相比另外3 種方法能有更好的分類結(jié)果. 能取得上述效果的原因,可以總結(jié)為兩點:①相較于普通詞袋模型生成的向量,本實驗用Word2vec 訓(xùn)練生成的詞向量能更好地表征詞語間的特征;②CNN 所特有的卷積與池化操作能更好地提煉故障文本深層語義信息,是鐵路信號設(shè)備故障文本分類中的有效模型.

        5 結(jié)論

        本文以鐵路信號設(shè)備故障文本數(shù)據(jù)為樣本研究故障分類方法,對故障文本進行預(yù)處理后引入Word2vec 訓(xùn)練詞向量,針對故障數(shù)據(jù)的不平衡性,采用SMOTE 實現(xiàn)小類別故障數(shù)據(jù)的自動生成,再利用卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)故障文本數(shù)據(jù)的深層特征提取和智能化自動分類. 通過對某鐵路局電務(wù)段的鐵路信號設(shè)備故障文本數(shù)據(jù)進行試驗分析,分類的準確率和召回率分別可達95.26%和94.32%,驗證了本文所提方法能夠有效提升鐵路信號設(shè)備故障文本的分類效果. 未來研究方向還需針對鐵路大數(shù)據(jù)平臺研究文本數(shù)據(jù)的統(tǒng)計分析、存儲及故障檢索技術(shù),加強對鐵路信號設(shè)備故障知識的推理研究及應(yīng)用.

        猜你喜歡
        分類文本故障
        分類算一算
        故障一點通
        在808DA上文本顯示的改善
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        奔馳R320車ABS、ESP故障燈異常點亮
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        故障一點通
        av手机免费在线观看高潮| 亚洲av免费高清不卡| 亚洲国产精品激情综合色婷婷| 精品无码国产自产在线观看水浒传| 亚洲天堂av福利在线| 国产综合精品一区二区三区 | 狠狠噜天天噜日日噜视频麻豆| 欧美成人久久久| 台湾自拍偷区亚洲综合| 久久精品人搡人妻人少妇| 老色鬼在线精品视频| 国产女女做受ⅹxx高潮| 国产女精品| 亚洲精品一区二区视频| 国产精品第一二三区久久| 国产精品久久久久影院| 亚洲av成人精品日韩一区| 亚洲大尺度动作在线观看一区| 视频一区视频二区亚洲| 美艳善良的丝袜高跟美腿| 免费人妻无码不卡中文字幕系| 亚洲肥老熟妇四十五十路在线| 亚洲综合日韩中文字幕| 热门精品一区二区三区| 亚洲色图视频在线免费看| 另类老妇奶性生bbwbbw| 久久99久久久无码国产精品色戒| 亚洲一区二区女优av| 澳门蜜桃av成人av| 久久99精品久久久久久秒播| 国产av无码专区亚洲av手机麻豆| 亚洲ⅤA中文字幕无码| 国产一区二区三区中出| 成人网站在线进入爽爽爽| 国产精品亚洲综合一区在线观看| 亚洲国产免费公开在线视频| 精品久久人妻av中文字幕| 日本做受120秒免费视频| 一区二区传媒有限公司| 成年女人A级毛片免| av在线免费播放网站|