亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于TF-IDF 進化集成分類器的鐵路安全故障文本分類*

        2021-04-24 11:36:52王富章趙俊華李高科
        電子技術(shù)應(yīng)用 2021年4期
        關(guān)鍵詞:分類文本模型

        高 凡 ,王富章 ,張 銘 ,趙俊華 ,李高科

        (1.中國鐵道科學(xué)研究院,北京 100081;2.北京經(jīng)緯信息技術(shù)有限公司,北京 100081)

        0 引言

        安全問題歷來是鐵路運輸?shù)闹攸c關(guān)注問題,在鐵路安全監(jiān)控體系中,為減少運營過程中可能存在的安全隱患,減少設(shè)備故障,保障系統(tǒng)穩(wěn)定運行,安全人員根據(jù)日常巡檢、專項巡檢、重大節(jié)假日排查等計劃定期到現(xiàn)場檢查存在的安全生產(chǎn)故障隱患,并將問題記錄為文本形式存儲。管理人員依據(jù)這些問題記錄,分析、總結(jié)與整改問題。在長期形成的海量的安全問題文本文件中,采用文本分類技術(shù)將安全問題自動歸類,輔助管理人員更好地掌握與處理安全問題,在鐵路安全領(lǐng)域的重要性日漸凸顯。

        一般來說,文本分類過程有以下3 個步驟[1]:預(yù)處理、文本表示和文本分類。其中,文本預(yù)處理包括分詞、去除停頓詞、去除不規(guī)則數(shù)據(jù)等。文本表示即將提取的文本特征轉(zhuǎn)換為計算機可處理的數(shù)據(jù)類型(通常用向量表示)。文本表示方法包括詞袋模型(BOW)、詞頻-逆向文件頻率(Term Frequency-Inverse Document Frequency,TF-IDF),以及基于深度學(xué)習(xí)的Word2vec 表示方法等[2]。在構(gòu)造分類器時使用的技術(shù)大體包括單個的基分類器、集成分類器以及深度學(xué)習(xí)模型[3]。集成分類器主要包含Bagging 和Boosting 兩種,Bagging 的主要算法是隨機森林,Boosting 的主要算法是梯度提升樹。在深度學(xué)習(xí)領(lǐng)域,有基于深度信念網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)[4-5]、循環(huán)神經(jīng)網(wǎng)絡(luò)等完成文本分類任務(wù)[6]。

        目前,國內(nèi)學(xué)者在鐵路文本分析領(lǐng)域研究較多。王廣采用貝葉斯網(wǎng)絡(luò)的預(yù)測模型和自適應(yīng)增強算法(Adaptive Boosting,AdaBoost)的預(yù)測模型實現(xiàn)天氣相關(guān)的鐵路道岔故障預(yù)測[7];趙陽等以故障文本信息為依據(jù),針對高鐵信號車載設(shè)備,提出貝葉斯結(jié)構(gòu)學(xué)習(xí)算法(HDBN_SL)[8];李佳奇等將面向Agent 的分布式人工智能技術(shù)引入到信號設(shè)備故障診斷系統(tǒng)中[9];楊連報針對信號故障不平衡數(shù)據(jù),采用SVM-SMOTE 算法對TF-IDF轉(zhuǎn)換后的小類別文本向量數(shù)據(jù)隨機生成,分別采用基分類器和集成分類對數(shù)據(jù)進行分類[10]。本文處理安全問題為事故故障發(fā)生前人員檢查時發(fā)現(xiàn)的風(fēng)險、隱患內(nèi)容,通常包括安全問題發(fā)生的時間、地點、問題描述等關(guān)鍵要素[11],所以針對每一類安全問題,存在特定的關(guān)鍵詞,本文在文本特征抽取上采用TF-IDF 表示,針對Bagging集成分類器的基礎(chǔ)上,采用遺傳算法優(yōu)化,提升分類準(zhǔn)確性[12]。

        1 進化集成分類器模型

        安全問題文本分類屬于文本挖掘中的分類問題,應(yīng)用文本分析的處理流程,進化集成分類器模型分為3層:數(shù)據(jù)預(yù)處理層、進化優(yōu)化層以及智能決策層[13],如圖1 所示?;赥F-IDF,數(shù)據(jù)預(yù)處理層對安全問題描述文本進行特征提取和特征向量化表示,通過基分類器決策樹(Decision Tree)對上述文本進行分類并建立相應(yīng)的基模型,再基于Bagging 集成分類器對預(yù)處理結(jié)果進行采樣訓(xùn)練,產(chǎn)生集成分類器分類模型[14]。在數(shù)據(jù)預(yù)處理層Bagging 訓(xùn)練過程中產(chǎn)生的每個基模型的解的基礎(chǔ)上,進化優(yōu)化層使用遺傳算法優(yōu)化集成分類器并最終得到具有更高分類準(zhǔn)確度的基分類器組合。最上層智能決策層為用事先定義好的指標(biāo)評價模型,經(jīng)調(diào)整和改進后的模型直接用于文本自動分類[15]。

        2 TF-IDF 法數(shù)據(jù)處理

        安全問題中存在的大量鐵路專用術(shù)語,如低壓過流、閉鎖、紅光帶等,本文采用基于字典的結(jié)巴分詞工具,構(gòu)建了包括通用語料及專業(yè)語料的鐵路安全問題語料庫,以便對安全問題準(zhǔn)確分詞。

        圖1 進化集成分類器模型整體框架

        表1 鐵路信號安全問題表述

        安全問題以文本形式記錄在信息系統(tǒng)中。表1 列舉了鐵路領(lǐng)域各類別安全問題的典型實例,根據(jù)對安全問題的表述,可見雖然鐵路安全問題類別較多,但在各類別中都有各自特征的高頻詞,同時在其他安全問題類別中呈低頻出現(xiàn),如圖2 所示。

        在本文的模型中,應(yīng)用TF-IDF 將經(jīng)過分詞的詞語過濾低頻詞后再計算詞頻。

        詞頻(Term Frequency,TF)和逆向文件頻率(Inverse Document Frequency,IDF)均表示搜索關(guān)鍵詞在所有文檔中出現(xiàn)的頻率,前者頻率越高,證明該關(guān)鍵詞與文檔相關(guān)性越高;后者頻率越高,表示該關(guān)鍵詞與文檔相關(guān)性越低。所以,為了對文檔中某一詞語的出現(xiàn)次數(shù)進行歸一化處理,可以通過分析該詞語的詞頻。對于詞語ti,在某個文檔中的重要程度可表示為:

        式中,TFi,j為詞頻,ni,j是詞語ti在dj文件中檢索到的次數(shù),是dj中所有字、詞出現(xiàn)的次數(shù)之和。

        逆向文件頻率由總文件數(shù)據(jù)除以包含某詞語的文件數(shù)據(jù)取對數(shù)得到,用于度量一個詞語普遍重要程度,其公式如下:

        式中,IDFi為逆向文件頻率,|D|為總文件數(shù),為包含某一詞語的文件數(shù)。

        高權(quán)重wi,j=TFi,j×IDFi,由文檔內(nèi)的高詞語頻率乘以該詞語在整個文檔集合的低文件頻率。

        圖2 安全問題內(nèi)容特征分析

        數(shù)據(jù)預(yù)處理流程如圖3 所示。首先在既有語料庫的基礎(chǔ)上,根據(jù)不同的安全問題進行分詞,同時統(tǒng)計特征詞語所在的文檔及其出現(xiàn)次數(shù),然后通過TF-IDF 方法計算該特征詞語的詞頻并過濾低頻詞,最終形成矩陣X和矩陣Y,其中矩陣X 代表文檔特征的權(quán)重,矩陣Y 代表分類類別。

        圖3 數(shù)據(jù)預(yù)處理流程

        3 基于遺傳算法的進化集成分類器

        3.1 決策樹基分類器

        決策樹分類器是訓(xùn)練一棵大規(guī)模的樹結(jié)構(gòu),對該樹進行減枝,直到達到合適的規(guī)模和分類效率。本文采用ID3算法,ID3 依據(jù)信息增益選擇屬性。其中屬性TF-IDF 過濾后的單詞,若屬性w 的值將樣本集T 劃分成T1,T2,…,Tm,共m 個子集,其信息增益表示為:

        式中,|T|為T 的樣本個數(shù),|Ti|為子集Ti的樣本個數(shù)。其中inf o(T)的計算公式為:

        式中,freq(Cj,T)為T 中的樣本屬于Cj類別的頻率,s 是T 中的樣本的類別數(shù)量。

        3.2 Bagging 集成分類器

        本文采用決策樹作為基分類器。假設(shè)原始訓(xùn)練數(shù)據(jù)量是n。在原始數(shù)據(jù)集隨機抽取訓(xùn)練數(shù)據(jù),抽取的數(shù)據(jù)量為n′(n′≤n),用抽取的數(shù)據(jù)訓(xùn)練第一個決策樹,用同樣的方法做m 次有放回抽取,訓(xùn)練m 個決策樹,將測試集放到每一個決策樹中預(yù)測,最后通過最優(yōu)分類器與其他分類器的加權(quán)投票組合,選出表現(xiàn)性能最優(yōu)的組合集成分類器,其學(xué)習(xí)過程如下:

        (1)輸入訓(xùn)練集

        (2)過程:

        其中,ξ 為基分類器算法;T 為訓(xùn)練輪數(shù)。

        (3)輸出:

        3.3 進化集成分類器

        遺傳算法是一種自適應(yīng)全局優(yōu)化的搜索算法,通過對初始解進行遺傳迭代,每一次迭代通過適應(yīng)度函數(shù)對當(dāng)前解進行優(yōu)劣進行評價,在評價的基礎(chǔ)上產(chǎn)生優(yōu)秀的下一代。進化集成分類器是建立在給定的某個Bagging集成分類器上,通過遺傳算法優(yōu)化該集成分類器并最終得到的具有更高分類準(zhǔn)確度的基分類器組合。進化集成分類器的核心主要為基因編碼及種群繁殖過程。

        3.3.1 基因編碼機制

        進化集成分類器搜索最優(yōu)解的目標(biāo)為得到基分類器的最優(yōu)組合。根據(jù)這一原則,本文設(shè)定50 個基分類器,種群(個體)規(guī)模為25,為了模擬基分類器是否被選擇,設(shè)定個體大小(基因長度)與基分類器數(shù)量一致,采用0、1 編碼基因,0 表示基分類器未選擇,1 表示被選擇。所以初始個體基因由0、1 隨機編碼長度為50 的二進制符號串組成。

        3.3.2 種群繁殖過程

        種群繁殖過程是將種群內(nèi)個體不斷地經(jīng)過選擇、交叉、變異的操作,把適應(yīng)度較高的個體遺傳到下一代,通過這一迭代過程最終得到一個優(yōu)良個體的過程。可以認(rèn)為,這一最終得到個體的表現(xiàn)型是最接近該問題的最優(yōu)解。本文中迭代次數(shù)G=100。

        (1)初始適應(yīng)度計算:初始適應(yīng)度計算以每個基分類的準(zhǔn)確度為準(zhǔn),準(zhǔn)確度越高的其適應(yīng)度越高。pi(0<i<50)代表每個基分類器(決策樹)的準(zhǔn)確度,pˉ代表全部基分類器的均值,σp代表全部基分類器的方差,個體適應(yīng)度公式為:

        (2)選擇:選擇過程即根據(jù)個體適應(yīng)度,選擇優(yōu)秀的個體遺傳到下一代。本文以個體靈敏度隨機選擇要交叉的兩個個體,個體初始靈敏度ps=0.95,個體靈敏度計算過程如下:

        ①s=min((ps+c×0.010),ps)

        ②for i=1,2,…,n do

        ③ps=((s-1)/(s×len(a))2-(1))×((s×len(a))2-(i))

        其中,c 反映經(jīng)過迭代后其準(zhǔn)確度是否有提升,如果有提升加1。經(jīng)過計算,準(zhǔn)確度越高的個體其靈敏度就越低,越不容易被選擇變異。a 為個體總數(shù)。

        通過上述計算,本文將適應(yīng)度最大的精英個體保留下來。

        (3)交叉:對于種群中的所有個體,以隨機原則將其兩兩搭配成對,對于每一對個體組合,設(shè)定一定的概率來交換兩個個體間的部分染色體,本文設(shè)定交叉概率Pc=0.75。

        (4)變異:針對個別滿足變異的個體,進行隨機變化。變異過程可產(chǎn)生新的個體,不僅增加了種群的多樣性,也為尋找最優(yōu)解提供了潛在的可能,本為的變異概率Pm=0.05。

        (5)評價函數(shù):經(jīng)過變異后的種群用評價函數(shù)來評價個體的好壞,每個個體為一個基分類器組合(0 為選擇,1 為不選擇),通過評價函數(shù)式(6)計算該基分類器組合的準(zhǔn)確度,從而得到最優(yōu)解,按照準(zhǔn)確度從大到小的原則篩選出準(zhǔn)確度最大的個體,并將其作為精英個體保留下來。

        本文設(shè)置的終止條件為總的進化代數(shù)ng 超過設(shè)定代數(shù)G。

        4 實驗結(jié)果與分析

        為分析本文提出的進化集成分類器進化過程,以某鐵路局供電接觸網(wǎng)安全問題為實例,采用精準(zhǔn)率(Precision)、召回率(Recall)和精確值和召回率的調(diào)和均值(F-score)作為模型評價和對比的指標(biāo)驗證分類結(jié)果。實現(xiàn)數(shù)據(jù)包括6 種問題類別2 400 條數(shù)據(jù)。

        精準(zhǔn)率(Precision):

        式中,TP 代表被正確檢索到的樣本,F(xiàn)P 代表被誤檢索到的樣本,F(xiàn)N 代表屬于此類而被誤檢索為其他類的樣本。

        圖4 中顯示了模型進化過程中種群的多樣性(Diversity)、種群分類的平均值(AverageScore)、方差(StandardScore)以及最優(yōu)值(BestScore)。由實驗結(jié)果可見,當(dāng)種群迭代次數(shù)達到45 次時,種群繁殖過程中的平均值、方差和分類最大值均達到最大值,種群多樣性保持在80%~100%之間。

        為了對比不同類型分類器對同一安全問題的分類結(jié)果,本文在以TF-IDF 方法表示安全問題文本的基礎(chǔ)上,分別采用基分類器、Bagging 集成分類器及進化集成分類器對同一安全問題進行分類,最終結(jié)果如表2 所示。從表2 中可以看出,進化集成分類器分類指標(biāo)最高,Bagging 集成分類器分類指標(biāo)次之,基分類器分類指標(biāo)最差。

        表2 分類模型結(jié)果對比

        圖4 種群繁殖過程

        5 結(jié)論

        本文采用TF-IDF 方法表示安全問題文本,通過遺傳算法優(yōu)化集成分類器并最終得到具有更高分類準(zhǔn)確度的基分類器組合,提出了Evolutionary Ensemble Classifier文本分類模型,應(yīng)用某路局安全接觸網(wǎng)問題進行驗證,實驗證明Evolutionary Ensemble Classifier 模型在安全接觸網(wǎng)問題具有較高的準(zhǔn)確性,也可以為處理鐵路其他文本分類問題提供參考模型。

        猜你喜歡
        分類文本模型
        一半模型
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        在808DA上文本顯示的改善
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        3D打印中的模型分割與打包
        久久综合一本中文字幕| 少妇久久久久久人妻无码| 人与人性恔配视频免费| 国产人妻大战黑人20p| 在线视频观看免费视频18| 天美传媒精品1区2区3区| 欧美一级三级在线观看| 日韩一二三四精品免费| 日本最新一区二区三区视频| 免费人成在线观看播放视频| 2020国产在视频线自在拍| 凹凸国产熟女精品视频app| 最近免费mv在线观看动漫| 午夜福利视频合集1000| 18禁美女裸体网站无遮挡| 九九九影院| 国产大屁股白浆一区二区三区| 亚洲天堂亚洲天堂亚洲色图| 色偷偷色噜噜狠狠网站30根| 肉体裸交137日本大胆摄影| 久久久久国产精品熟女影院| 亚洲AV无码成人网站久久精品| 丰满人妻一区二区乱码中文电影网 | 日本小视频一区二区三区| 国产精品亚洲一区二区麻豆| 18禁止看的免费污网站| 伊人久久大香线蕉亚洲五月天| 丰满多毛少妇做爰视频| 无码av一区在线观看| 久草视频在线播放免费| 粉嫩极品国产在线观看免费一区 | 亚洲天堂资源网| 少妇人妻字幕一区二区| 日本一区二区三区四区高清不卡| 国产区精品一区二区不卡中文| 中文字幕在线亚洲日韩6页| 亚洲饱满人妻视频| 香港三日本三级少妇三级视频| 中国a级毛片免费观看| 天天躁日日躁狠狠躁一区| 青青草视频原手机在线观看|