亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Fasttext網(wǎng)絡(luò)的煤礦事故案例文本分類方法對比

        2021-11-29 08:50:26周法國葛逸凡
        煤炭工程 2021年11期
        關(guān)鍵詞:煤礦分類案例

        閆 琰,楊 夢,周法國,葛逸凡

        (中國礦業(yè)大學(xué)(北京) 機(jī)電與信息工程學(xué)院,北京 100083)

        近年來我國礦難事故頻繁發(fā)生,給人民生命財產(chǎn)造成巨大損失,造成事故的原因很多,在線事故案例是對煤礦事故發(fā)生原因以及分析的詳細(xì)總結(jié)[1]。挖掘煤礦事故案例包含的信息,對案例進(jìn)行分析,提出應(yīng)對措施,一定程度上有利于減少煤礦事故的發(fā)生,對煤礦企業(yè)安全生產(chǎn)和管理具有重要意義。煤炭事故原因分類可以方便管理人員查詢、統(tǒng)計和總結(jié),吸取導(dǎo)致相同事故發(fā)生的經(jīng)驗教訓(xùn),提取事故案例的精華相應(yīng)建立案例數(shù)據(jù)庫,后期煤礦作業(yè)中盡量避免同樣的失誤,為提高安全生產(chǎn)提供有效的預(yù)警和支撐。應(yīng)用信息化的技術(shù),自動化對事故案例分類,可以大大減少搜索的工作,為煤礦安全開采保駕護(hù)航[2]。目前,大多數(shù)學(xué)者對煤礦數(shù)據(jù)挖掘集中在監(jiān)測數(shù)據(jù)這一領(lǐng)域的研究。而事故發(fā)生后,網(wǎng)站公布的有關(guān)事故發(fā)生原因以及采取的舉措等方面的研究較少。造成這種現(xiàn)象的原因是因為數(shù)據(jù)是結(jié)構(gòu)化文本信息,而原因分析等大多以非結(jié)構(gòu)化信息形式出現(xiàn),使得挖掘用于指導(dǎo)煤礦安全生產(chǎn)、安全管理的難度不斷增大。如何高效的表示煤礦事故案例文本數(shù)據(jù),將直接影響煤礦事故案例自動分類。

        伴隨互聯(lián)網(wǎng)大數(shù)據(jù)的發(fā)展,促使煤炭領(lǐng)域積累了大量煤炭數(shù)據(jù)資源。但是煤炭領(lǐng)域有著自己獨(dú)有的特點,大量專有詞匯以及常用煤炭俚語都不包含在常用的詞典庫中。文本向量化表示方法有著固有的缺點,傳統(tǒng)分類方法的理論假設(shè)和實際情況相比存在較大差異,導(dǎo)致在煤炭領(lǐng)域的文本中難以達(dá)到預(yù)期的表示和分類效果。

        本文將以深度學(xué)習(xí)理論為基礎(chǔ),針對煤礦事故案例文本對比基于Fasttext模型的文本表示與文本分類方法。

        1 文本表示與文本分類方法

        近年來將文本簡化為BOW(Bag-of-Words,BOW)表示,在特征處理和統(tǒng)計學(xué)習(xí)算法的基礎(chǔ)上,獲得文本語義內(nèi)容及類別信息,逐漸成為文本分類的標(biāo)準(zhǔn)模式。從理論角度考慮,基于詞袋模型或者向量空間模型(Vector Space Model,VSM)這樣的表示形式,只包含單詞的詞頻信息,潛在的默認(rèn)了單詞彼此是獨(dú)立的,忽略了句子的上下文關(guān)系。這種淺層的文本表示對原始文檔的語義表達(dá)造成了極大的信息損失,使得后續(xù)的文本挖掘任務(wù),例如文本分類面臨著巨大的挑戰(zhàn)[3]。

        隨著工業(yè)界和學(xué)術(shù)界對文本表示模型的深入研究,文本表示模型開始向基于語義的文本表示方法演變,也就是從特征選擇轉(zhuǎn)變?yōu)樘卣魈崛?。還有一些研究工作希望通過借鑒自然語言處理的技術(shù)考慮被BOW忽略的語義單元間的聯(lián)系,因此,詞義及短語等復(fù)雜的項被應(yīng)用到文本表示中[4]。隨著計算機(jī)性能的提升,使得訓(xùn)練單詞的詞向量[5](word embedding)表示取代初始的詞袋模型表示特征項,賦予不同的單詞不同的含義。這種基于word embedding的表示也被稱為分布式表示。到目前為止,已經(jīng)驗證了理論上的合理性。

        文本分類的方法主要分為兩類,基于規(guī)則的分類方法和基于統(tǒng)計的分類方法。目前,大量的基于統(tǒng)計的機(jī)器學(xué)習(xí)方法被應(yīng)用于文本分類系統(tǒng)中,應(yīng)用最早的機(jī)器學(xué)習(xí)方法是樸素貝葉斯(Naive Bayes,NB)。隨后,幾乎所有重要的機(jī)器學(xué)習(xí)算法在文本分類領(lǐng)域都得到了應(yīng)用,比如K近鄰算法(K Nearest Neighbor,KNN)、支持向量機(jī)(Support vector machine,SVM)、神經(jīng)網(wǎng)絡(luò)(Neural Nets)、最小二乘和決策樹等。這些方法采用詞袋子模型,N-gram和TF-IDF等典型特征作為機(jī)器學(xué)習(xí)算法的輸入,模型通常嚴(yán)重依賴于費(fèi)力的特征工程或大量額外的語言特征,流程往往由多個獨(dú)立的模塊組成,每個步驟是一個獨(dú)立的任務(wù),其結(jié)果的好壞會影響到下一步驟,從而影響整個訓(xùn)練的結(jié)果[6]。

        而深度學(xué)習(xí)模型在訓(xùn)練過程中,從輸入端(輸入數(shù)據(jù))到輸出端會得到一個預(yù)測結(jié)果[7],與真實結(jié)果相比較會得到一個誤差,這個誤差在模型中的每一層傳遞(反向傳播),每一層的表示都會根據(jù)這個誤差來做調(diào)整,直到模型收斂或達(dá)到預(yù)期的效果才結(jié)束,也就是端到端的方法[8-10]。Lecun等人采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),利用卷積、降采樣兩大技術(shù)從數(shù)據(jù)提取特征,通過權(quán)重共享的方式減少模型參數(shù),進(jìn)而提高模型訓(xùn)練性能。文獻(xiàn)[11]提出了一種聯(lián)合卷積神經(jīng)網(wǎng)絡(luò)模型的端到端的表示方法,在圖像檢索任務(wù)上的速度和精確率都有很可觀的效果。Okada[12]等人利用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)可以獲取文本的上下文信息,提高了分類精度。Nowak[13]等人使用長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)對短文本進(jìn)行分類,LSTM特有的細(xì)胞結(jié)構(gòu)能夠?qū)⑦h(yuǎn)距離的語義信息與當(dāng)前位置的語義信息結(jié)合,彌補(bǔ)了RNN感受野小的缺點。文獻(xiàn)[14]提出了基于子詞的Fasttext分詞模型,在訓(xùn)練中將原詞分解成數(shù)個子詞,基于skip-gram模型進(jìn)行訓(xùn)練,在處理生僻詞和未登錄詞方面取得了較好的效果。文獻(xiàn)[15]提出了Fasttext文本分類模型,使用hierarchical結(jié)構(gòu)對輸出層優(yōu)化,使得該模型在與其他深度網(wǎng)絡(luò)模型精度相同的前提下,將每輪訓(xùn)練時間由數(shù)小時縮短至數(shù)秒。文獻(xiàn)[16]提出了一種基于Capsule的神經(jīng)網(wǎng)絡(luò),能夠同時提取特征和對應(yīng)的空間信息,在處理旋轉(zhuǎn)圖像以及不同視角圖像有更好的效果。文獻(xiàn)[17]提出一種融合局部和全局的圖嵌入自動編碼器模型,在訓(xùn)練中通過設(shè)置三部分代價函數(shù),更好的捕獲數(shù)據(jù)的空間結(jié)構(gòu)信息,顯著提升分類性能。文獻(xiàn)[18]基于word2vec構(gòu)建煤礦事故案例自動分類模型,節(jié)約分類的人力、時間,對提高企業(yè)的分類效率具有實際意義??傊?,表征學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)的最新進(jìn)展大大提高了文本分類任務(wù)的性能。

        2 實驗?zāi)P?/h2>

        2.1 Fasttext模型結(jié)構(gòu)

        Fasttext模型是由Tomas Mikolov等人為了提升模型效率、減少模型訓(xùn)練的時間代價而提出的簡單模型,它由輸入層、隱層、輸出層三層結(jié)構(gòu)組成。整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

        圖1 Fasttext模型圖

        輸入層:輸入層輸入的是N個單詞x1,x2,…,xN,其中N為序列長度(文本單詞數(shù)),通過語義映射矩陣A得到單詞對應(yīng)的d維詞向量,最后輸出N個d維向量。

        隱層:隱層僅由一層網(wǎng)絡(luò)層構(gòu)成。該層將N個d維詞向量相加求平均得到文本特征向量V。

        輸出層:輸出層權(quán)重為矩陣B,使用softmax函數(shù)f計算每個類別概率,同時使用Hierarchical結(jié)構(gòu)進(jìn)行優(yōu)化。Fasttext使用對數(shù)似然損失函數(shù),由上述參數(shù)可得,對于總數(shù)為N的樣本集合,有以下?lián)p失函數(shù)公式:

        其中,xn為第n個文本的序列輸入;yn為其對應(yīng)類別;A和B為權(quán)重矩陣;f為softmax函數(shù)。

        2.2 Hierarchical softmax

        2.3 Fasttext詞向量模型

        Fasttext詞向量模型使用的是基于子詞n-gram的skip-gram或CBOW模型[19]。普通模型在訓(xùn)練詞向量時只使用考慮單詞整體形式,故而會遺漏單詞字母間順序包含的語義信息。Fasttext則加入了單詞的子詞n-gram特征共同訓(xùn)練,如詞(<>為前后綴),當(dāng)n取3時可以劃分出5個子詞,并將子詞與原單詞都放入詞典中共同訓(xùn)練。

        對于煤炭案例事故文本而言,中文語句不像英文語句使用空格作為天然分詞符號,因此本文采用jieba分詞工具來獲取煤炭案例事故文本的分詞。中文與英文在子詞模型上還有另一處區(qū)別。構(gòu)成英文單詞的基本元素是字母,單詞平均字母數(shù)約為8,所以fasttext處理英文模型時通常取3~6長度的子詞;而構(gòu)成中文單詞的基本元素是漢字,在煤炭案例事故文本中,中文單詞大都為2字詞或單字詞,最長不超過5字詞。因此本文使用fasttext處理煤炭事故文本時,將子詞n-gram長度設(shè)定為1~6,此時的fasttext模型實際上學(xué)習(xí)的是每個漢字的語義。這種學(xué)習(xí)方式對于煤礦專有名詞有很強(qiáng)的適應(yīng)性,在訓(xùn)練好的fasttext模型中,‘違章’與‘違規(guī)’的相似度高達(dá)0.702,‘軌道’與‘導(dǎo)軌’的相似度高達(dá)0.618,而在其他詞向量模型,如word2vec中,很難達(dá)到這樣的高的相似度。

        2.4 Fasttext 模型使用的關(guān)鍵參數(shù)

        對于Fasttext模型而言,子詞n-gram方法可以學(xué)習(xí)到詞干本身的特征,對數(shù)據(jù)清洗過多反而會造成信息流失。因此本文盡可能保留文本的原始特征而不做過多預(yù)處理。

        Fasttext關(guān)鍵參數(shù)主要有wordvec dim(生成的詞向量維數(shù))、window size(訓(xùn)練詞向量時,預(yù)測時選取的上下文單詞數(shù))、epoch(訓(xùn)練輪數(shù))和word-n-gram(訓(xùn)練詞向量時n-gram中n的大小)。本文實驗過程中通過控制變量方式,共做了四組實驗,分別驗證了這四種參數(shù)的最優(yōu)取值。最終確認(rèn)了wordvec dim為150,window size為5,epoch為180,word-n-gram為2是本文實驗的最佳參數(shù)。

        3 實驗設(shè)計和分析

        3.1 實驗數(shù)據(jù)集介紹

        本文爬取中國煤礦安全生產(chǎn)網(wǎng)上的事故案例。每一份事故調(diào)查報告中都會包含事故直接原因、事故間接原因、事故性質(zhì)以及對事故責(zé)任者和責(zé)任單位的處理意見等。本文主要做的是對事故案例分類,所以選用事故直接原因(文獻(xiàn)[18]也是選用事故直接原因,因此本文參考做同樣的處理)。網(wǎng)站上每一個案例都有標(biāo)題,我們爬取標(biāo)題并抽取相應(yīng)的實體作為標(biāo)簽,比如“江西煤業(yè)集團(tuán)有限責(zé)任公司尚莊煤礦“6·13”頂板事故調(diào)查報告”這樣的文章標(biāo)題,本文把這篇事故標(biāo)注為“頂板事故”類別。本文爬取了從2018年12月29日到2020年7月7日的數(shù)據(jù),一共646條事故案例(數(shù)量前16名的事故類別見表1)。經(jīng)過分析發(fā)現(xiàn)樣本極度不均衡,類別數(shù)量排在前八名的事故案例占總數(shù)的91%,而數(shù)量在后八名的事故案例僅占總數(shù)的9%。為了與已有研究學(xué)者的實驗設(shè)置保持一致,本文參考文獻(xiàn)[18]的處理方式,最終選取前八名的事故案例數(shù)據(jù)進(jìn)行實驗。這八種事故案例分別為:瓦斯事故、頂板事故、運(yùn)輸事故、工傷事故、機(jī)電事故、透水事故、火災(zāi)事故和爆炸事故。

        表1 煤炭數(shù)據(jù)案例數(shù)據(jù)統(tǒng)計(前16類)

        為了驗證模型的可擴(kuò)展性,除了煤炭事故的文本分類,本文還在其它文本數(shù)據(jù)集上進(jìn)行了實驗,比如新聞領(lǐng)域文本數(shù)據(jù)集BBC news data,生物醫(yī)學(xué)文本領(lǐng)域數(shù)據(jù)集medical。BBC news data數(shù)據(jù)集由BBC網(wǎng)站上的新聞文檔組成。數(shù)據(jù)集一共包括2225篇文檔分別對應(yīng)5個主題:商業(yè)510篇、娛樂386篇、政治417篇、運(yùn)動511篇和科技401篇。medical是Springer網(wǎng)上Scientific medical abstract數(shù)據(jù)集,包括39類,平均每類樣本文檔數(shù)目為300篇。數(shù)據(jù)集描述見表2。

        表2 數(shù)據(jù)集描述

        3.2 實驗對比方法以及對應(yīng)的參數(shù)設(shè)置

        為了對比Fasttext模型在文本分類的應(yīng)用,本文選取了另外五種基于深度神經(jīng)網(wǎng)絡(luò)的模型(RNN、LSTM、CNN、B-CNN[6]和Capsule),除此以外,還選取一些傳統(tǒng)但是經(jīng)典的機(jī)器學(xué)習(xí)方法LDA(Latent Dirichlet Allocation)和SVM做對比。以下是這些方法的簡要介紹和參數(shù)設(shè)置。

        RNN模型是一種專門用于處理時間序列樣本的神經(jīng)網(wǎng)絡(luò)。它只有一層網(wǎng)絡(luò)層,該層需要當(dāng)前時間點的樣本輸入和前一個時間點的輸出共同作為該層的輸入,為下一個時間點輸出一個隱藏狀態(tài),該隱藏狀態(tài)是RNN獲取上文信息的關(guān)鍵。本文在RNN層后接入兩個全聯(lián)接層,第一個全連接層的目的是提取文本向量特征,第二個全連接層用來輸出分類。參數(shù)設(shè)置:輸入端不固定長度,RNN層的神經(jīng)元個數(shù)設(shè)置為256,第一和第二全連接層的神經(jīng)元個數(shù)分別設(shè)置為32和數(shù)據(jù)集對應(yīng)的類別個數(shù)。

        LSTM模型是一種特殊的RNN模型。LSTM的神經(jīng)元被稱為細(xì)胞,與普通RNN神經(jīng)元相比,LSTM細(xì)胞多了門控單元和細(xì)胞狀態(tài)。這兩個結(jié)構(gòu)可以將樣本在每個時間點的語義更新信息存儲起來,更新的規(guī)模根據(jù)當(dāng)前樣本攜帶的特征決定。與RNN模型設(shè)置一樣,本文在LSTM層后接兩個同樣功能的全聯(lián)接層。參數(shù)設(shè)置:輸入端不固定長度,LSTM層的神經(jīng)元個數(shù)設(shè)置為256,第一和第二全連接層的神經(jīng)元個數(shù)分別設(shè)置為32和數(shù)據(jù)集對應(yīng)的類別個數(shù)。

        CNN模型由多層神經(jīng)元有規(guī)律的彼此連接構(gòu)成,同時融合了局部感受野、共享權(quán)值和空間域或時間域上的次采樣這三種結(jié)構(gòu)性的方法。本文實驗使用的CNN模型由六個網(wǎng)絡(luò)層組成:輸入層、卷積層1、池化層1、卷積層2、池化層2、輸出層。輸入層將文本轉(zhuǎn)化為詞向量,卷積層1和卷積層2提取文本向量特征,池化層壓縮數(shù)據(jù)降低維數(shù),輸出層使用softmax激活函數(shù)輸出每個類別的概率。參數(shù)設(shè)置:輸入端固定文本的長度,長度為每個數(shù)據(jù)集文本長度的均值,單個文檔長度超過均值截斷,短于均值補(bǔ)充,輸出層的神經(jīng)元數(shù)定為類別數(shù)。

        B-CNN模型[6]是本文之前的一個研究工作,基于CNN并融合深度玻爾茲曼機(jī)(Deep Boltzmann Machine,DBM)的分類模型。主要由三部分組成:模型的輸入(文本表示),特征提取和模型的輸出(文本分類)。輸入層:B-CNN輸入是特征提取的信息來源,因此在模型的輸入端要盡量保留最原始的信息。針對煤礦事故案例文本,本文借助jieba分詞工具和煤炭專有詞典(維基百科知識庫)進(jìn)行分詞,然后基于word embedding方法對每一個分好的詞進(jìn)行word2vec的向量表示。實際輸入時為嵌入word embedding表示之后的向量。特征提?。築-CNN中的CNN通過局部滑動窗口可以很好的提取局部上下文信息。煤礦領(lǐng)域和其他大眾新聞不同,比如“頂板”、“煉焦煤”、“排氣孔”、“頂錨”等是煤炭領(lǐng)域的常用詞和專有詞,針對煤礦案例文本,本文結(jié)合煤礦命名實體作為全局特征補(bǔ)充文本信息。輸出層:本文基于softmax方法對提取的特征進(jìn)行分類。由于本文實驗所選的數(shù)據(jù)集都是多類數(shù)據(jù),所以針對不同的數(shù)據(jù)集更改輸出的類別個數(shù)。參數(shù)設(shè)置:B-CNN模型的輸入端固定文本的長度,長度為每個數(shù)據(jù)集文本長度的均值,單個文檔長度超過均值截斷,短于均值補(bǔ)充;每個數(shù)據(jù)集領(lǐng)域的命名實體統(tǒng)一由工具包自動抽取,作為相應(yīng)文本全局特征的補(bǔ)充。

        Capsule網(wǎng)絡(luò)是一種新型的、復(fù)雜的神經(jīng)網(wǎng)絡(luò),它使用膠囊來替代神經(jīng)元,每個膠囊接收多個向量,輸出一個向量,而不像普通神經(jīng)元輸出一個數(shù)值。它由五部分組成:輸入層、LSTM層、主膠囊層、數(shù)字膠囊(輸出分類)層和解碼器層。輸入層:將文本轉(zhuǎn)化為詞向量。LSTM層:通常情況下膠囊網(wǎng)絡(luò)使用卷積層進(jìn)行特征提取,而本文實驗使用的樣本是文本,所以使用更加適合提取文本特征的LSTM層替代卷積層。循環(huán)神經(jīng)網(wǎng)絡(luò)可以很好地處理文本這種不等長輸入序列及完成seq2seq任務(wù)。主膠囊層:將提取到的文本向量特征轉(zhuǎn)化為多通道向量,該層用于連接特征與數(shù)字膠囊層。數(shù)字膠囊層:每個類別使用一個膠囊來判斷對應(yīng)類別的概率大小,概率大小表現(xiàn)為膠囊輸出的向量模長,同時該層使用動態(tài)路由算法進(jìn)行優(yōu)化。解碼層:解碼層可以通過數(shù)字膠囊層提取出的特征來還原文本,用來輔助數(shù)字膠囊層提取更有效的特征。參數(shù)設(shè)置:輸入端不固定長度,數(shù)字膠囊個數(shù)取類別數(shù),每個膠囊處理向量的維數(shù)定為16維。

        SVM是一種二分類模型,目標(biāo)是求解能夠正確劃分訓(xùn)練數(shù)據(jù)集,并且?guī)缀伍g隔最大的分離超平面。訓(xùn)練階段基于一定數(shù)量的樣本建立模型,模型中包含數(shù)據(jù)的特征詞、特征詞對應(yīng)的特征值,以及與數(shù)據(jù)相對應(yīng)的類別,算法可以通過此模型對測試數(shù)據(jù)集分類預(yù)測。參數(shù)設(shè)置:在本文的實驗中,分別修改模型的輸出,與三個數(shù)據(jù)集的類別個數(shù)對應(yīng)。

        LDA是一種基于監(jiān)督學(xué)習(xí)處理的主題模型,目標(biāo)是“投影后類內(nèi)方差最小,類間方差最大”,也就是使得不同類別的數(shù)據(jù)的類別中心距離盡可能的大。LDA方法建模主要分兩步,首先是建立模型也是訓(xùn)練過程,然后是預(yù)測也即推理過程。參數(shù)設(shè)置:針對本文的三個數(shù)據(jù)集,也是修改分類端的類別輸出個數(shù)。

        3.3 實驗評價指標(biāo)

        由于本文所選的數(shù)據(jù)集樣本比例都不是太均衡,所以實驗結(jié)果中沒有選用分類正確率(accuracy)來衡量,而是使用少數(shù)類的準(zhǔn)確率(Precision)、召回率(Recall)和二者的綜合(F1-measure)指標(biāo)衡量。準(zhǔn)確率是檢索出相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率,衡量的是檢索系統(tǒng)的查準(zhǔn)率;召回率是檢索出的相關(guān)文檔數(shù)和文檔庫中所有的相關(guān)文檔數(shù)的比率,衡量的是檢索系統(tǒng)的查全率。F值是召回率和準(zhǔn)確率的加權(quán)調(diào)和平均,最常用的是F1測量指標(biāo)。這些評測指標(biāo)的相關(guān)關(guān)系見表3,計算分別如下。

        表3 評測指標(biāo)相關(guān)關(guān)系

        實驗時隨機(jī)選擇數(shù)據(jù)集里80%的樣本作為訓(xùn)練樣本,20%作為測試樣本測試模型的性能。實驗基于十次交叉驗證訓(xùn)練并選取參數(shù)。除此之外,基于單核GPU平臺和cuda工具包加快模型的訓(xùn)練。對每個數(shù)據(jù)集做以下部分的單獨(dú)處理:數(shù)據(jù)集1(煤礦)和數(shù)據(jù)集3(生物醫(yī)學(xué))是專業(yè)領(lǐng)域,因此選擇專業(yè)的word embedding詞典庫進(jìn)行擴(kuò)充以及命名實體工具包,數(shù)據(jù)集2(新聞)選用Mikolov的詞典庫。提取命名實體的工具包是本實驗室基于維基百科開發(fā)的,本文所用到的工具包、數(shù)據(jù)集以及實驗代碼均共享在GitHub上。以下呈現(xiàn)的實驗結(jié)果均是模型在測試集上性能。

        3.4 實驗結(jié)果和分析

        實驗對比結(jié)果見表4,從表4可以得出,在三個數(shù)據(jù)集上基于深度神經(jīng)網(wǎng)絡(luò)的模型(LSTM、CNN、B-CNN、Capsule和Fasttext)要優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法(SVM和LDA)。對比SVM和LDA,SVM算法的精度要稍低于LDA,而且SVM的計算復(fù)雜度更高一些。這是因為LDA模型的求解目標(biāo)是計算doc-topic和topic-word的分布矩陣,訓(xùn)練過程中選取最優(yōu)參數(shù)建立模型,每一個測試數(shù)據(jù)根據(jù)參數(shù)計算文檔的topic分布,從而得出預(yù)測的分類。SVM算法的優(yōu)劣主要取決于核函數(shù)的選取,本文采用libsvm工具包,表4中是取不同核函數(shù)平均值的結(jié)果。SVM在進(jìn)行分類的時候,訓(xùn)練和測試是兩個不同的過程,尤其針對本文的多類數(shù)據(jù)集,數(shù)值求解和支持向量的個數(shù)有關(guān),因此復(fù)雜度比較高。針對煤礦數(shù)據(jù)集,由于每類樣本數(shù)量分布不均勻,所以基于SVM的煤礦數(shù)據(jù)集結(jié)果要更差一些。

        表4 實驗對比結(jié)果 %

        Fasttext在處理文本時隱層采取的是求和取平均的方式,所以當(dāng)文本單詞數(shù)較多時,此法提取的信息過于駁雜,反而影響了分類效果,即Fasttext更適用于短文本分類。實驗中三個數(shù)據(jù)集的平均長度分別為:數(shù)據(jù)集1平均長度為41.581、數(shù)據(jù)集2平均長度為2262.936、數(shù)據(jù)集3平均長度為140.927。因此Fasttext模型在數(shù)據(jù)集1(煤礦數(shù)據(jù)集)上取得了最好的結(jié)果。Fasttext模型基于hierarchical softmax,采用的是霍夫曼樹結(jié)構(gòu),大大提高了訓(xùn)練時間,在訓(xùn)練與預(yù)測分類的耗時也遠(yuǎn)遠(yuǎn)小于其他模型。

        RNN和LSTM都是循環(huán)神經(jīng)網(wǎng)絡(luò)模型,但是LSTM在煤礦事故案例數(shù)據(jù)集上的表現(xiàn)明顯優(yōu)于RNN,這是因為在短文本分類中,LSTM獨(dú)特的細(xì)胞結(jié)構(gòu)提取上下文信息的能力強(qiáng)于RNN。同時,LSTM與RNN一樣,對于長度過長的序列很難捕捉到其遠(yuǎn)端的語義信息,所以LSTM在另外兩個數(shù)據(jù)的表現(xiàn)并沒有比RNN更加突出。此外,RNN和LSTM本身結(jié)構(gòu)較為簡單,其功能主要用于提取語義特征,需要配合其他深度學(xué)習(xí)分類模型才能達(dá)到更高的分類精度。RNN模型的性能并沒有比傳統(tǒng)方法SVM和LDA更加突出,是因為其結(jié)構(gòu)簡單,在提取特征的過程中僅僅能保留近幾個時間序列的信息;而本文使用SVM分類前利用TF-IDF基于頻率的方法提取文檔特征,LDA也是基于全局詞頻率求得topic-word的分布矩陣,這兩種方法均有效利用了文檔全局特征,因此RNN模型的效果僅和SVM持平,未能超過LDA。LSTM模型是對原始RNN模型的一種改進(jìn),它的細(xì)胞結(jié)構(gòu)可以部分利用到全局信息,取得了更好的準(zhǔn)確率。

        CNN與B-CNN都是深度學(xué)習(xí)的模型,CNN是同層結(jié)點的采樣和計算,通過卷積操作能很好的捕捉文檔的局部信息;DBM是最近鄰兩層的結(jié)點計算,B-CNN更好的融合了橫縱向兩個維度的信息。除此以外,B-CNN加入了命名實體作為數(shù)據(jù)的全局特征。尤其在Recall和F1值兩個指標(biāo)上,B-CNN也明顯優(yōu)于CNN,這是因為結(jié)合DBM能有效去除文本的噪聲,也就是降低非特征詞的權(quán)重,從而更好的實現(xiàn)分類。

        Capsule網(wǎng)絡(luò)通過數(shù)個膠囊來進(jìn)行分類,其權(quán)重使用動態(tài)路由算法更新,當(dāng)分類數(shù)過多時,動態(tài)路由算法得到的模型精度就會下降,因此在數(shù)據(jù)集3(medical)上的表現(xiàn)較差;Capsule網(wǎng)絡(luò)在專業(yè)數(shù)據(jù)集上的表現(xiàn)也不太理想,這是因為專業(yè)數(shù)據(jù)集文本中提供的信息較為單一,而Capsule網(wǎng)絡(luò)的設(shè)計理念在于提取多種特征及特征對應(yīng)狀態(tài),在本文實驗過程中,該網(wǎng)絡(luò)訓(xùn)練煤炭和醫(yī)藥數(shù)據(jù)集時都出現(xiàn)了過擬合的情況。

        3.5 煤礦事故案例數(shù)據(jù)可視化

        數(shù)據(jù)可視化是通過圖表等方式比較直觀且清楚的顯示數(shù)據(jù)中某些關(guān)鍵方面的特征,進(jìn)而達(dá)到在相對無序與較為零碎的數(shù)據(jù)集的基礎(chǔ)之上解析數(shù)據(jù)的目的。本文用Word cloud方法針對煤礦事故案例數(shù)據(jù)集進(jìn)行標(biāo)簽云(Tag Clouds)的可視化處理,使文本的特點能夠更加直觀有效的展現(xiàn)出來。標(biāo)簽云是指具有可視權(quán)重的標(biāo)簽的集合。標(biāo)簽與其所描述的實體間的關(guān)聯(lián)的質(zhì)量通常可由該標(biāo)簽被標(biāo)注的頻度和新穎度來衡量。本文的實驗步驟為:先構(gòu)造Word Cloud生成詞云的構(gòu)造函數(shù),然后加載煤礦事故案例的文本數(shù)據(jù)(數(shù)據(jù)已放在github上共享:https://github.com/zouyishan/code),每條案例為一條數(shù)據(jù)。針對每條數(shù)據(jù),在處理的過程中把造成事故的直接原因做分詞和去停用詞數(shù)據(jù)清洗,再合并成一個字符串。本文的實驗是基于這些字符串生成詞云,針對煤礦事故案例數(shù)據(jù)集可視化的結(jié)果如圖2所示,由圖中標(biāo)簽云中的單詞可以很直觀的看出文本的關(guān)鍵詞以及基本內(nèi)容,方便且更直觀的讓讀者了解這類文本的數(shù)據(jù)特點。

        圖2 煤礦事故數(shù)據(jù)集可視化結(jié)果

        4 結(jié) 語

        本文對比了一種基于Fasttext的煤礦事故案例文本分類方法,更好的挖掘非結(jié)構(gòu)化文本中隱含的語義信息,并設(shè)計自動化文本分類模型。實驗表明基于深度學(xué)習(xí)的模型遠(yuǎn)高于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,在后面的研究中,將基于學(xué)習(xí)和借鑒歷史案例中的經(jīng)驗知識,模擬人類專家處理煤礦事故的方案,為及時、科學(xué)、有效地指揮和協(xié)調(diào)應(yīng)急救援工作提供有力的支撐。

        猜你喜歡
        煤礦分類案例
        分類算一算
        案例4 奔跑吧,少年!
        少先隊活動(2021年2期)2021-03-29 05:40:48
        隨機(jī)變量分布及統(tǒng)計案例拔高卷
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        發(fā)生在你我身邊的那些治超案例
        中國公路(2017年7期)2017-07-24 13:56:38
        大型煤礦自動化控制系統(tǒng)的設(shè)計與應(yīng)用
        一個模擬案例引發(fā)的多重思考
        上半年確定關(guān)閉煤礦名單513處
        99国产精品久久久蜜芽| 日韩亚洲一区二区三区在线| 亚洲国产综合精品中久| 在线观看二区视频网站二区 | 日韩一区二区三区精品视频| 国产一区二区三区中文在线| 少妇高潮惨叫久久久久久电影 | 久久狠狠爱亚洲综合影院| 亚洲综合av一区在线| 日本人妻伦理在线播放| 色综合色狠狠天天综合色| 久久精品国产四虎| 亚洲女同精品久久女同| 国产主播一区二区三区在线观看| 福利利视频在线观看免费 | 成人免费毛片aaaaaa片| 桃花色综合影院| 亚洲色大成人一区二区| 国产精品亚洲一区二区极品| 91久久精品一二三区色| 免费一区二区三区女优视频| 欧美日韩亚洲中文字幕二区| 丰满老熟妇好大bbbbb| 日韩国产一区| 另类人妖在线观看一区二区 | 人人妻人人澡人人爽超污| 人妻激情另类乱人伦人妻| 亚洲欧美中文在线观看4| 日本一区二区三区中文字幕视频| av一区二区三区有码| 亚洲 日本 欧美 中文幕| 亚洲国产精品久久久久秋霞影院| 久久精品片| 亚洲国产综合性感三级自拍| 国产一区二区三区成人| 国产成人精品无码片区在线观看| 丰满人妻av无码一区二区三区| 九九精品无码专区免费| 久久久精品人妻一区二| 少妇一区二区三区久久| 亚洲第一最快av网站|