亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LDA的軌道交通信號系統(tǒng)故障文本數(shù)據(jù)處理方法研究

        2021-06-01 06:39:12徐安雄趙雪李坤王小敏
        鐵道通信信號 2021年5期
        關(guān)鍵詞:文本故障模型

        徐安雄 趙雪 李坤 王小敏

        隨著我國軌道交通數(shù)字化平臺的發(fā)展,逐漸采用數(shù)字化技術(shù)建立故障信息數(shù)據(jù)庫,以存儲系統(tǒng)及設(shè)備的故障數(shù)據(jù)。軌道交通信號系統(tǒng)作為保障列車行車安全的重要系統(tǒng),要求維修和檢修人員對其故障現(xiàn)場、診斷結(jié)果和處理情況進(jìn)行詳細(xì)記錄,以反映設(shè)備在運(yùn)營過程中的使用情況,對系統(tǒng)的下一步維修和檢修計(jì)劃有重要的指導(dǎo)意義[1]。然而在整理故障數(shù)據(jù)時,由于數(shù)據(jù)的分類標(biāo)準(zhǔn)不同,造成數(shù)據(jù)分類粗糙、雜亂;同時,由于采用自然語言的記錄形式,使得語句中有大量與現(xiàn)象(原因)無關(guān)的記錄內(nèi)容,需要研究人員進(jìn)行故障特征提取。因此,急需一種自動分類標(biāo)記方法,將文本信息高效地轉(zhuǎn)化為可利用的數(shù)值信息[2-3]。

        針對上述情況,本文提出了一種基于LDA(隱含狄利克雷分布)的根因標(biāo)記方法,即一種文檔生成模型,采用詞向量改進(jìn)TextRank算法,為LDA模型抓取字典,并作為清洗語料的依據(jù)進(jìn)行LDA建模,利用分類結(jié)果組詞實(shí)現(xiàn)根因分析。該方法能夠滿足軌道交通信號系統(tǒng)故障分類需求,實(shí)現(xiàn)相關(guān)數(shù)據(jù)的故障分類,為不同研究人員對數(shù)據(jù)分類提供了統(tǒng)一的參考標(biāo)準(zhǔn),為下一步智能診斷建立基礎(chǔ)。

        1 算法原理

        軌道交通信號系統(tǒng)故障數(shù)據(jù)庫中,以Excel形式存儲了歷年的故障記錄數(shù)據(jù)。為了提高文本質(zhì)量,首先采用jieba分詞庫對故障文本進(jìn)行數(shù)據(jù)清洗,形成可用語料。為了提高分詞正確率,文本為jieba加載軌道交通信號系統(tǒng)詞語庫;根據(jù)詞性標(biāo)記結(jié)果自動濾去介詞、助詞等詞性不重要的詞語[4]。通 過 文 本 清 洗 得 到 可 用 語 料,采 用Word2Vec及TextRank算法對故障記錄數(shù)據(jù)進(jìn)行處理并獲得字典,輸入LDA模型進(jìn)行學(xué)習(xí),通過召回率及精確度等評價(jià)指標(biāo),對關(guān)鍵文本信息進(jìn)行標(biāo)記及展示。分類-標(biāo)記短語方法流程見圖1。

        圖1 分類-標(biāo)記短語方法流程

        1.1 LDA模型

        LDA采用詞袋模型,不考慮詞匯出現(xiàn)的先后順序,構(gòu)建“詞-主題-文檔”的三層貝葉斯概率模型[5],如圖2所示。

        圖2 LDA模型

        其中,α為約束文檔-主題關(guān)聯(lián)度,對任意一篇文檔d,其主題分布θd服從α的Dirichlet分布;以η反映主題-詞的分布情況,對于任意一個主題k,其詞概率分布βk服從η的Dirichlet分布;D為文檔數(shù),K表示主題數(shù)量,對任意一篇文檔d中的第n個詞,它所屬的主題編號服從zd,n分布;對于任意一個主題k,在文檔d中發(fā)現(xiàn)詞n的概率服從wd,n分布,α、θd、zα形成Dirichlet-Multi共軛[6]。根據(jù)貝葉斯推理思想,得到文檔-主題的后驗(yàn)分布和主題-詞的后驗(yàn)分布為

        1.2 詞向量

        詞向量可從語義層面對詞關(guān)系進(jìn)行學(xué)習(xí),兩詞間的關(guān)聯(lián)程度通過向量距離反映。本文使用Word2Vec工具學(xué)習(xí)詞向量,其模型主要有CBOW(Bag-of-Word)和SG(Skip-Gram)2種[7-8]。Word2vec有2套優(yōu)化算法,分別為Hierarchical Softmax和Negative Sampling,用于優(yōu)化Softmax函數(shù)計(jì)算的模型。基于軌道交通信號系統(tǒng)故障文本特點(diǎn),本文選擇SG+Negative Sampling模型進(jìn)行詞向量學(xué)習(xí),訓(xùn)練文本詞向量,作為后續(xù)文本分類模型的輸入數(shù)據(jù)。

        1.3 TextRank算法

        TextRank特征詞提取算法由Rada Mihalcea等[9]根據(jù)谷歌網(wǎng)頁排名PageRank算法的思想提出,已有廣泛應(yīng)用。TextRank算法根據(jù)候選關(guān)鍵詞間的共現(xiàn)關(guān)系,將所有候選關(guān)鍵詞V構(gòu)成詞圖G=(V,E),E為詞圖的邊集。給定詞圖后,由公式(3)計(jì)算得到候選關(guān)鍵詞vi的TextRank值WS(Vi),根據(jù)設(shè)定的特征詞字?jǐn)?shù),即可得到相應(yīng)語料下的特征詞。

        式中:c為阻尼系數(shù),通常取0.85;任意兩點(diǎn)vi、vj的邊權(quán)為Wij,無明確定義時通常以兩詞的共現(xiàn)關(guān)系衡量;k為任意一個主題。

        為解決傳統(tǒng)TextRank算法準(zhǔn)確度低的問題,本文通過詞向量學(xué)習(xí),對TextRank算法進(jìn)行改進(jìn),將語義層面信息納入詞重要度計(jì)算。改進(jìn)算法對公式(3)中的邊權(quán)Wij計(jì)算加入詞向量余弦相似度ρij,ρij=cos(Rvi,Rvj)。其 中,Rvi,Rvj分 別 代 表兩個詞的向量矩陣[10-11]。由于共現(xiàn)關(guān)系通常不考慮詞語出現(xiàn)的先后順序,即cij=cji,因此得出

        式中:cij為詞vi和vj的共現(xiàn)次數(shù);Co(Vj)為該詞窗的所有詞向量;V(k)∈Co(Vj)是遍歷每個詞向量;k為任意一個主題。

        計(jì)算時,考慮到記錄數(shù)據(jù)的形式和大小,調(diào)整t值驗(yàn)證算法性能,取0.3、0.5、0.7進(jìn)行分析,迭代計(jì)算時選取閾值為0.001。根據(jù)計(jì)算結(jié)果對詞語逆序排列,抓取字典。

        1.4 主題學(xué)習(xí)

        字典構(gòu)建完成后,通過該字典對可用語料進(jìn)行過濾,保留每條記錄的語干作為LDA模型的輸入。計(jì)算流程如下。

        2)對每篇文檔的每個詞隨機(jī)賦予主題編號z。

        3)利用Gibbs采樣公式更新每個詞的主題編號z,直至收斂。

        計(jì)算如下:

        式中:為文檔d在 主題k下除 去 詞i的詞個 數(shù);K為 主 題 數(shù);N為 詞 總 量;為 主 題k下 除 去 第i個詞時詞t的個數(shù);αk為主題k的文檔-主題參數(shù);ηt為詞t的主題-詞參數(shù)。

        4)計(jì)算得到文檔-主題分布θd及主題-詞分布βk為

        1.5 評價(jià)指標(biāo)

        文本處理結(jié)果中,常用的評價(jià)指標(biāo)包括召回率R、精確度P和F值。P和R的取值都為0~1,結(jié)果越接近1,效果越好。F值則是綜合考慮了準(zhǔn)確率和召回率。計(jì)算如下:

        式中:Arc為抽取的關(guān)鍵詞總數(shù);Com為人工標(biāo)記的關(guān)鍵詞總數(shù)。

        文本處理中另一個重要指標(biāo)為困惑度(perplexity),表示對故障日志進(jìn)行主題模型訓(xùn)練時,文檔屬于某個主題不確定的程度,perplexity的值越小越好。計(jì)算如下:

        式中:b通常取2;M為文本數(shù);Nd為第d篇文本的大?。▎卧~數(shù));p(w)為測試集中單詞出現(xiàn)的可能性,計(jì)算如下:

        式中,p(z|d)為每篇文本下對應(yīng)每個主題的概率;p(w|z)為字典中每個單詞在某個主題下出現(xiàn)的概率。

        2 案例分析與測試驗(yàn)證

        以某軌道交通信號系統(tǒng)2015—2017年的6 000條維修日志為研究對象,主要包括故障發(fā)生的日期、單位、車間、工區(qū)、故障地點(diǎn)、設(shè)備地點(diǎn)、設(shè)備類別、設(shè)備部位、故障設(shè)備名稱、發(fā)生時間、恢復(fù)時間、故障現(xiàn)象處理經(jīng)過及采取的措施、原因分析等信息。根據(jù)本文的研究目的,最終在原數(shù)據(jù)基礎(chǔ)上選擇了故障現(xiàn)象和原因分析這2個信息。部分維修日志數(shù)據(jù)示例見表1。

        表1 部分維修日志數(shù)據(jù)

        本文選取列車車載設(shè)備500條維修日志作為測試集,根據(jù)所得詞向量結(jié)果,通過TextRank及TextRank改進(jìn)算法,對測試集分別抽取5個、7個、10個特征詞情況下進(jìn)行試驗(yàn)。通過公式(3)和公式(4)分別提取測試集中關(guān)鍵詞,通過設(shè)置TextRank改 進(jìn) 算 法 中t值 參 數(shù)(t取0.3、0.5、0.7),計(jì)算得到評價(jià)指標(biāo)精確度P、召回率R和F值,測試結(jié)果見圖3。

        圖3 測試集在分別抽取5、7、10個特征詞下的計(jì)算結(jié)果

        由圖3可以看出:①改進(jìn)TextRank算法比傳統(tǒng)TextRank算法在精確度P、召回率R和F值方面有明顯提高,能有效提高測試集的關(guān)鍵詞提取能力;②TextRank改進(jìn)算法中t=0.5,提取10個關(guān)鍵詞時具有較高精確度;③TextRank改進(jìn)算法中t=0.3及t=0.7,提取5個及7個關(guān)鍵詞時具有較高召回率R;④TextRank改進(jìn)算法中t=0.3時,F(xiàn)值的平均綜合指標(biāo)較高,在抽取特征詞數(shù)相同的情況下,對不同語料表現(xiàn)更為穩(wěn)定。

        根據(jù)LDA的perplexity值確定主題數(shù)量,通過設(shè)置20、40、60、80、100不同迭代次數(shù),計(jì)算得到不同主題數(shù)下的perplexity值,見圖4。可以得出,對測試集迭代100次,主題數(shù)K=55時perplexity值最小。

        因此,本文在訓(xùn)練LDA模型時,主題個數(shù)確定為55,之后再設(shè)置主題的其他參數(shù),主題分布的先驗(yàn)Dirichlet參數(shù)α設(shè)為0.1,詞分布的先驗(yàn)Dirichlet參數(shù)η設(shè)為0.01,迭代次數(shù)設(shè)為100,訓(xùn)練LDA模型,最終生成“文檔-主題”分布和“主題-詞”分布。通過訓(xùn)練LDA主題模型,對維修日志故障文本數(shù)據(jù)進(jìn)行主題提取,得到每個主題下的故障特征詞項(xiàng)。隨機(jī)選取最終得到的故障詞庫中800字特征詞作為展示,得到特征詞字典見圖5。經(jīng)過LDA主題模型訓(xùn)練,得到特征詞字典,如“ATP”“ATO”“站臺”“車載”等關(guān)鍵詞得到凸顯,是測試集中常見的故障發(fā)生部位。

        圖5 測試集的特征詞字典展示

        測試集55主題中選取每個主題前10個詞作為候選詞,對無字典和有字典分類進(jìn)行比較。無字典情況下,短語總數(shù)為136,可用率為27.2%;有字典情況下,短語總數(shù)為93,可用率為60.2%??梢钥闯?,有字典的LDA模型比無字典的LDA模型的短語數(shù)量更少,可用率更高,有字典的LDA更能夠適應(yīng)信號系統(tǒng)故障文本的需求,為同一主題下的語料提取客觀的精簡短語。

        3 結(jié)論

        本文針對軌道交通信號系統(tǒng)故障數(shù)據(jù)提出了一種分類-標(biāo)記短語方法。該方法利用Word2Vec訓(xùn)練獲得的詞向量改進(jìn)TextRank算法,為LDA模型抓取字典,并對分類結(jié)果進(jìn)行組詞。試驗(yàn)表明,改進(jìn)的TextRank算法較原算法在準(zhǔn)確度、召回率和F值上均有提升;加載字典的LDA能夠適應(yīng)不同信號系統(tǒng)的需求,為同一主題下的語料提取客觀的精簡短語,統(tǒng)一不同分析方式下的研究對象描述,為利用該類數(shù)據(jù)的研究者提供極大便利。但是該模型的缺點(diǎn)是未考慮LDA對文檔分類的準(zhǔn)確度,下一步將考慮LDA中同義詞對主題分類的影響,并在標(biāo)記短語確定的研究對象基礎(chǔ)上,對軌道交通信號系統(tǒng)進(jìn)行智能運(yùn)維和診斷。

        猜你喜歡
        文本故障模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        故障一點(diǎn)通
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        3D打印中的模型分割與打包
        奔馳R320車ABS、ESP故障燈異常點(diǎn)亮
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        故障一點(diǎn)通
        公厕偷拍一区二区三区四区五区| 思思久久96热在精品不卡| 亚洲高清一区二区三区在线观看| av在线不卡免费中文网| 观看在线人视频| 亚洲欧美日韩综合久久久| 国产亚洲真人做受在线观看| 一本久道久久综合婷婷五月| 米奇亚洲国产精品思久久| 精品人妻久久一日二个| 性无码专区无码| 国产女人18毛片水真多| 亚洲日产国无码| 国产av在线观看一区二区三区| 蜜臀色欲av在线播放国产日韩| 国产欧美成人| 蜜桃视频网站在线免费观看| 国产精品一区二区韩国av| 久久精品国产亚洲av麻豆图片| 成人做爰69片免费看网站| 黄片在线观看大全免费视频| 国产自拍偷拍视频免费在线观看| 国产欧美日韩一区二区加勒比| 国产成人亚洲精品无码mp4| 成人无码区免费AⅤ片WWW| 日韩精品人妻一区二区三区蜜桃臀 | 精品性高朝久久久久久久| 亚欧免费无码AⅤ在线观看 | 三个男吃我奶头一边一个视频| 超碰97人人做人人爱少妇| 国产一区二区三区免费精品| 在线观看免费视频发布白白色| 4455永久免费视频| 日日躁夜夜躁狠狠躁超碰97| 亚洲AV无码成人精品区H| 中文字幕av长濑麻美| 亚洲av日韩av无码污污网站| 日日摸日日碰人妻无码老牲| 在线看高清中文字幕一区| av无码国产在线看免费网站| 精品88久久久久88久久久|