亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于交互注意力機(jī)制網(wǎng)絡(luò)模型的故障文本分類

        2021-02-25 12:59:12劉鵬程孫林夫張常有
        關(guān)鍵詞:分類特征文本

        劉鵬程,孫林夫+,張常有,王 波

        (1.西南交通大學(xué) 信息科學(xué)與技術(shù)學(xué)院,四川 成都 610031;2.西南交通大學(xué) 制造業(yè)產(chǎn)業(yè)鏈協(xié)同與信息化支撐技術(shù)四川省重點(diǎn)實(shí)驗(yàn)室,四川 成都 610031 3.中國(guó)科學(xué)院 軟件研究所,北京 100190;4.成都國(guó)龍信息工程有限責(zé)任公司,四川 成都 610031)

        0 引言

        整車服務(wù)價(jià)值鏈中積累了大量故障文本數(shù)據(jù),這些文本數(shù)據(jù)中包含了整車故障現(xiàn)象、故障原因及故障維修方法等非結(jié)構(gòu)化的描述性數(shù)據(jù),但這些數(shù)據(jù)的價(jià)值并未得到充分發(fā)掘。在當(dāng)前數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)研究背景下,如何從這些非結(jié)構(gòu)化的故障文本數(shù)據(jù)中挖掘知識(shí),對(duì)提升服務(wù)站的故障維修效率,降低維修成本具有重要意義。

        由于基于故障文本數(shù)據(jù)構(gòu)建文本分類模型可以為故障診斷[1-4]、案例檢索、狀態(tài)評(píng)價(jià)[5]等諸多應(yīng)用提供基礎(chǔ)支撐,本文以基于故障文本數(shù)據(jù)構(gòu)建文本分類模型作為數(shù)據(jù)增值的一個(gè)重要切入點(diǎn)。基于故障文本的分類模型是以相關(guān)領(lǐng)域中設(shè)備的故障文本案例、缺陷文本記錄、事故文本數(shù)據(jù)和維修日志等數(shù)據(jù)為基礎(chǔ),利用傳統(tǒng)機(jī)器學(xué)習(xí)算法或深度學(xué)習(xí)算法構(gòu)建故障文本分類模型任務(wù)[1-4,6-8]。

        對(duì)故障文本分類模型而言,模型以傳統(tǒng)機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)模型為主,由于深度學(xué)習(xí)模型具備端到端學(xué)習(xí)能力,可實(shí)現(xiàn)語義特征的自動(dòng)抽取,深度學(xué)習(xí)模型較傳統(tǒng)機(jī)器學(xué)習(xí)模型有著更廣泛的應(yīng)用。鑒于深度學(xué)習(xí)在分類性能中的良好表現(xiàn)[6],本文將以深度學(xué)習(xí)模型為基礎(chǔ)開展故障文本分類的研究。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)兩類深度學(xué)習(xí)模型是故障文本分類任務(wù)中廣泛應(yīng)用的模型[1-4,6,8-10]。CNN提取局部文本特征,但有時(shí)會(huì)存在與主題無關(guān)的冗余特征,RNN提取全局序列特征,但有些特征中缺少關(guān)鍵分類特征,而當(dāng)前故障文本分類的多數(shù)文獻(xiàn)中并未對(duì)這兩類模型所提取的全局和局部特征中的關(guān)鍵特征進(jìn)行合理的篩選和融合。

        對(duì)于故障文本而言,文本中的不同內(nèi)容對(duì)分類結(jié)果具有不同程度的影響,如在“客戶反映車輛拉手剎時(shí)右后輪制動(dòng)電機(jī)吱吱異響”這段文本中,“后輪制動(dòng)電機(jī)”為故障件,“異響”為故障現(xiàn)象,這兩項(xiàng)內(nèi)容對(duì)文本的分類結(jié)果較其他內(nèi)容有著更大的影響,而當(dāng)前多數(shù)研究在構(gòu)建模型時(shí)并未考慮文本的關(guān)鍵內(nèi)容項(xiàng)對(duì)模型性能的影響。

        鑒于上述原因,為提升故障文本分類模型的性能,本文提出一種基于交互注意力機(jī)制的文本分類模型,利用交互注意力機(jī)制實(shí)現(xiàn)對(duì)全局序列特征與局部文本特征中的關(guān)鍵特征的捕獲和融合,同時(shí)結(jié)合注意力機(jī)制實(shí)現(xiàn)對(duì)文本中故障件和故障現(xiàn)象兩項(xiàng)關(guān)鍵內(nèi)容的關(guān)注,本文主要貢獻(xiàn)包括以下4方面:

        (1)提出一種組合卷積神經(jīng)網(wǎng)絡(luò)與雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(Bidirectional Long Short Term Memory, BiLSTM)的交互注意力機(jī)制網(wǎng)絡(luò)模型用于故障文本分類。

        (2)基于交互注意力機(jī)制關(guān)注局部文本特征和全局序列特征中的關(guān)鍵特征提升分類性能,基于全局特征和局部特征進(jìn)行交互注意力計(jì)算,通過交互注意力機(jī)制實(shí)現(xiàn)對(duì)全局和局部關(guān)鍵特征的提取和融合。

        (3)考慮文本中關(guān)鍵內(nèi)容對(duì)分類性能的影響,利用故障件注意力機(jī)制和故障模式注意力機(jī)制關(guān)注文本中的關(guān)鍵分類特征。

        (4)為評(píng)估本文所提出的故障分類模型的有效性,利用真實(shí)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)分析和驗(yàn)證,結(jié)果展示所提模型具有較好的分類性能。

        1 相關(guān)工作

        文本分類作為一種信息組織和管理的有效方法[11],在諸多方面有著重要的應(yīng)用,如情感分析、垃圾郵件識(shí)別[12]、推薦系統(tǒng)[13]、專利文檔分類[14-16]等。故障文本分類是一類文本分類問題,基于文本分類的基本框架,本文將故障文本分類框架簡(jiǎn)要?dú)w納為文本向量化表示和文本分類器兩個(gè)模塊。

        (1)文本向量化模塊 實(shí)現(xiàn)對(duì)文本集合的數(shù)值向量化表示,向量化后的文本集合才能被分類模型識(shí)別和計(jì)算。文本向量化的優(yōu)劣會(huì)對(duì)分類器的性能產(chǎn)生較大影響。早期文本向量化表示的方法主要有獨(dú)熱編碼、詞頻—逆文檔頻率(Term Frequency-Inverse Document Frequency, TF-IDF)等,文獻(xiàn)[5]利用獨(dú)熱編碼和分類器進(jìn)行電力設(shè)備故障文本的分類;文獻(xiàn)[6]利用TF-IDF向量化電力設(shè)備缺陷開展文本分類;文獻(xiàn)[4]利用TF-IDF向量化高速鐵路道岔的故障文本。但是獨(dú)熱編碼、TF-IDF等方法未考慮字/詞間順序和相關(guān)性,且形成后的詞向量維度過大。而詞嵌入模型避免了這些問題,詞嵌入模型可以將字/詞表示到更低維度的向量,其維度遠(yuǎn)小于詞典中詞的數(shù)量,同時(shí)將上下文特征融入到字/詞向量中,因此基于詞嵌入模型的向量化表示有著廣泛的應(yīng)用,當(dāng)前有諸多故障文本分類研究[3,8-9]利用該類模型進(jìn)行文本向量化表示。

        (2)文本分類器模塊 以監(jiān)督學(xué)習(xí)算法為主,其中傳統(tǒng)的機(jī)器學(xué)習(xí)分類算法如k近鄰(K-Nearest Neighbor,KNN)模型、支持向量機(jī)模型(Support Vector Machine, SVM)等均在該任務(wù)中得到了應(yīng)用。文獻(xiàn)[5]利用隱馬爾可夫模型(Hidden Markov Model, HMM)對(duì)文本進(jìn)行預(yù)處理,基于詞頻排序構(gòu)建文本向量,提出基于自主區(qū)間搜索的KNN斷路器缺陷文本分類算法,基于分類結(jié)果實(shí)現(xiàn)對(duì)斷路器設(shè)備的狀態(tài)評(píng)價(jià);文獻(xiàn)[4]基于高速鐵路道岔的故障文本,利用SVM模型對(duì)故障文本進(jìn)行分類;文獻(xiàn)[17]基于故障文本信息對(duì)高鐵車載設(shè)備進(jìn)行故障分類,采用主題模型進(jìn)行特征提取,將貝葉斯結(jié)構(gòu)學(xué)習(xí)算法應(yīng)用于故障分類。

        傳統(tǒng)的機(jī)器學(xué)習(xí)算法為淺層學(xué)習(xí)算法,直接利用向量化的文本進(jìn)行分類,所用向量不能表達(dá)語義的深層含義[15],分類能力有限[10]。較傳統(tǒng)機(jī)器學(xué)習(xí)算法,深度學(xué)習(xí)模型依賴于自身的深層模型結(jié)構(gòu)關(guān)注對(duì)隱藏特征和高維度特征的抽取[18],即深度學(xué)習(xí)模型伴隨分類任務(wù)可以在文本向量的基礎(chǔ)上進(jìn)一步自動(dòng)抽取語義特征,實(shí)現(xiàn)端到端的學(xué)習(xí),降低特征構(gòu)建的難度,因此基于深度學(xué)習(xí)的故障文本分類模型逐漸成為研究熱點(diǎn)。

        當(dāng)前卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是兩類主流的深度學(xué)習(xí)文本分類模型,文獻(xiàn)[19]首次將CNN應(yīng)用于文本分類,通過在卷積層設(shè)計(jì)不同尺寸的卷積核提取句中不同位置的n-gram語言特征,實(shí)現(xiàn)對(duì)局部文本特征的抽取,CNN中的池化層將抽取卷積層中各個(gè)通道特征值,通過合并各池化層中的輸出特征值作為全連接層的輸入實(shí)現(xiàn)分類;文獻(xiàn)[3]基于CNN,利用max和avg兩種并行池化方式對(duì)卷積層的特征進(jìn)行抽取操作以獲取全面的特征信息,實(shí)驗(yàn)結(jié)果顯示該CNN模型較KNN和SVM在鐵路信號(hào)設(shè)備故障短文本分類任務(wù)中有著更優(yōu)的分類效果;文獻(xiàn)[8]針對(duì)飛機(jī)設(shè)備維修文本數(shù)據(jù),提出了基于卷積神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林構(gòu)建故障文本分類模型,運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)提取出的文本向量作為訓(xùn)練數(shù)據(jù),并基于該文本向量及其他維修特征訓(xùn)練隨機(jī)森林模型,形成最后的故障文本分類模型,實(shí)驗(yàn)驗(yàn)證該模型較其他傳統(tǒng)機(jī)器學(xué)習(xí)分類器有著更優(yōu)的分類性能,該文獻(xiàn)同時(shí)展示了卷積神經(jīng)網(wǎng)絡(luò)提取的文本特征較其他模型有著更優(yōu)的表現(xiàn);文獻(xiàn)[6]利用多組不同尺寸的卷積核構(gòu)建卷積神經(jīng)網(wǎng)絡(luò),針對(duì)電力設(shè)備缺陷文本進(jìn)行文本分類,與多種傳統(tǒng)機(jī)器學(xué)習(xí)分類模型的對(duì)比結(jié)果表明該卷積神經(jīng)網(wǎng)絡(luò)模型有著更為顯著的分類性能。

        文本具有上下文相關(guān)序列的依賴關(guān)系,CNN對(duì)句子整體結(jié)構(gòu)和序列信息的特征抽取能力不足,不能形成全面的語義表達(dá)[20],而RNN善于提取序列信息,因此被大量應(yīng)用于文本分類任務(wù)。由于簡(jiǎn)單RNN模型在學(xué)習(xí)長(zhǎng)序列數(shù)據(jù)時(shí)存在梯度消失或梯度爆炸等問題,在實(shí)際研究中,長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short Term Memory,LSTM)和門控循環(huán)神經(jīng)網(wǎng)絡(luò)(Gated Recurrent Unit,GRU)算法等RNN變體算法的應(yīng)用更為普遍。LSTM和GRU通過設(shè)計(jì)相應(yīng)的門控運(yùn)算,可以在處理更長(zhǎng)序列數(shù)據(jù)的過程中取得較好的效果。文獻(xiàn)[21]利用優(yōu)化后的輸入特征向量訓(xùn)練LSTM模型用于文本數(shù)據(jù)分類。LSTM和GRU僅能捕獲與當(dāng)前輸入詞相關(guān)的前序信息,而雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(BiLSTM)和雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)(Bidirectional GRU,BiGRU)模型的出現(xiàn)進(jìn)一步完善了循環(huán)神經(jīng)網(wǎng)絡(luò)的模型結(jié)構(gòu)。雙向結(jié)構(gòu)模型可以同時(shí)捕獲句子中正向序列和反向序列的依賴關(guān)系,實(shí)現(xiàn)模型在各時(shí)刻均能輸出對(duì)前后序列的理解。文獻(xiàn)[1]基于電力設(shè)備典型故障案例,利用BiLSTM模型抽取事件文本中的深層語義實(shí)現(xiàn)對(duì)故障案例的分類,實(shí)驗(yàn)結(jié)果表明BiLSTM較CNN和LSTM有著更高的分類性能。在故障文本分類應(yīng)用方面,文獻(xiàn)[2]以電網(wǎng)故障巡檢報(bào)告文本為數(shù)據(jù)源,利用向量化文本和LSTM實(shí)現(xiàn)對(duì)輸入文本的故障識(shí)別,并通過實(shí)驗(yàn)分析了LSTM的結(jié)構(gòu)對(duì)分類性能的影響;文獻(xiàn)[9]利用基于Transformer的雙向編碼表示(Bidirectional Encoder Representation from Transformers, BERT)完成詞向量的分布式表示,采用BiLSTM捕獲文本的語義特征實(shí)現(xiàn)對(duì)電網(wǎng)設(shè)備缺陷的分類,實(shí)驗(yàn)結(jié)果顯示BiLSTM較傳統(tǒng)SVM模型有著更高的分類性能。

        2 基于CNN與RNN的組合模型

        RNN模型能捕獲文本長(zhǎng)序列中全局語義特征,提取文本主題信息,卻不能識(shí)別重要局部語義特征;CNN模型能捕獲文本關(guān)鍵局部語義特征,有助于提升分類性能,卻不能獲取文本長(zhǎng)序列的全局主題特征。鑒于CNN與RNN各自存在的局限性,如何充分結(jié)合RNN與CNN模型各自優(yōu)點(diǎn)實(shí)現(xiàn)全局特征與局部特征的融合已成為文本分類的一個(gè)研究熱點(diǎn)。同時(shí),由于本文模型基于CNN與RNN的特征提取和組合,本章將對(duì)CNN與RNN的文本特征抽取特點(diǎn)和CNN與RNN的模型組合進(jìn)行分析。

        2.1 基于CNN模型的文本分類

        基于上述分析可以發(fā)現(xiàn),卷積操作和池化操作提取了原始數(shù)據(jù)中某一顯著局部特征,不同卷積核側(cè)重于提取不同的局部特征(本文將CNN提取所得的特征稱為顯著局部特征),利用池化操作實(shí)現(xiàn)對(duì)原始數(shù)據(jù)中顯著局部特征的提取,由于池化組合后的特征并不包含長(zhǎng)序信息,CNN不能抽取長(zhǎng)序信息[10]。

        2.2 基于RNN模型的文本分類

        RNN利用一組特征變換矩陣實(shí)現(xiàn)對(duì)全局?jǐn)?shù)據(jù)序列特征的抽取,對(duì)于數(shù)據(jù)x=[x1,x2,…,xn],利用ht=φ(wxhxt+whhht-1+bh)取得隱藏層輸出,yt=whyht+by取得當(dāng)前輸入項(xiàng)的輸出,其中:wxh為輸入到隱藏層的特征轉(zhuǎn)換,whh為上個(gè)時(shí)刻的隱藏層輸出的轉(zhuǎn)換,why為當(dāng)前隱藏層到輸出的轉(zhuǎn)換,bh為偏置項(xiàng),φ為非線性激活函數(shù)??梢园l(fā)現(xiàn),t時(shí)刻的輸出yt融合了當(dāng)前的輸入xt與前t-1時(shí)刻的輸入內(nèi)容ht-1(本文將RNN最后時(shí)刻提取的特征稱為全局序列特征),因此最后時(shí)刻n的輸出yn融合了整個(gè)序列的信息。由于文本序列間具有前后依賴性,利用雙向RNN可以取得當(dāng)前任意時(shí)刻的正向前序和反向后序信息,實(shí)現(xiàn)對(duì)上下文信息的捕獲,但此時(shí)部分時(shí)刻的全局序列特征中會(huì)缺少顯著的分類特征。

        2.3 基于CNN與RNN組合模型的文本分類

        通過對(duì)文獻(xiàn)的研究,將CNN與RNN的組合方式歸納為串聯(lián)和并聯(lián)兩種組合模式。

        2.3.1 串聯(lián)組合模式

        該模式通過將CNN與RNN進(jìn)行串行級(jí)聯(lián)形成串聯(lián)組合模型,實(shí)現(xiàn)文本特征的提取。該組合模式分為CNN-RNN和RNN-CNN兩種,串聯(lián)組合模型通過CNN與RNN雙層結(jié)構(gòu)進(jìn)行特征抽取。

        (1)CNN-RNN串聯(lián)組合模式 該模式的第一層利用CNN的卷積操作對(duì)原始數(shù)據(jù)集進(jìn)行局部特征的提取,生成一組差異的顯著局部特征,而后利用RNN捕獲局部特征間的序列信息生成全局特征,以該全局特征作為全連接層的分類輸入特征,該模式的結(jié)構(gòu)如圖1所示。CNN-RNN組合模式利用RNN對(duì)CNN提取的差異化顯著局部特征進(jìn)行有序組合,提取顯著局部特征中的序列特征。

        在基于CNN-RNN模式的串聯(lián)組合模型中,第一層利用CNN的不同卷積核提取差異化的局部顯著特征,經(jīng)過CNN后的特征較原始輸入向量有著更為豐富的特征表示,將第一層中差異化的局部顯著特征輸入第二層RNN以抽取文本的序列特征,進(jìn)而提升RNN分類正確率。但是,CNN抽取的顯著局部特征并不是均有助于分類,RNN會(huì)將輸入到模型中的顯著局部特征均融入到全局特征中,導(dǎo)致對(duì)全局序列特征的抽取依然建立在部分與主題不相關(guān)的特征基礎(chǔ)上。文獻(xiàn)[18]提出基于CNN和BiLSTM并結(jié)合注意力機(jī)制的文本分類模型,以捕獲句中關(guān)鍵特征進(jìn)而提升分類的性能,利用CNN模型不同尺寸的多通道卷積核捕獲不同長(zhǎng)度的語義信息,同時(shí)利用BiLSTM捕獲正向和反向句子序列依賴關(guān)系抽取特征實(shí)現(xiàn)分類。

        (2)RNN-CNN串聯(lián)組合模式 該模式的第一層利用RNN從原始文本向量中抽取各個(gè)時(shí)刻的序列特征(該特征可以是單向的前向序列特征,也可為前后雙向序列特征)作為第二層CNN的輸入特征,以CNN抽取的顯著局部特征作為全連接層的分類輸入特征進(jìn)行分類。該模式結(jié)構(gòu)如圖2所示。

        RNN-CNN組合模式中第二層CNN抽取的特征內(nèi)包含長(zhǎng)序列特征,形成包含序列特征的顯著分類特征,從而提升分類正確率。對(duì)于RNN每個(gè)時(shí)刻的輸出可以視為不同尺寸的局部特征(最后一個(gè)時(shí)刻除外),如在t時(shí)刻的輸出是由前序[1:t]的時(shí)序特征構(gòu)成,代表了整個(gè)t時(shí)刻前的序列內(nèi)容;但相對(duì)于整個(gè)序列而言,[1:t]特征屬于局部特征,僅最后時(shí)刻n的[1:n]特征代表了全局特征,由RNN作為第一層所抽取的時(shí)段特征輸入到第二層CNN模型,此時(shí)CNN卷積操作于包含不同的時(shí)段[1:t]特征之上,而非直接從文本輸入向量中抽取的短時(shí)段[t-(i-1):t]特征(其中i為卷積核尺寸),因此RNN-CNN抽取的顯著時(shí)段特征[1:t]較原始CNN而言包含時(shí)段整體特征及序列信息。但是分析整個(gè)全序列角度可以發(fā)現(xiàn),CNN抽取的所有時(shí)刻的輸出特征均由不同尺寸的時(shí)段[1:t]特征構(gòu)成,所以RNN-CNN模式下CNN卷積主要抽取不同粒度的顯著時(shí)段局部特征,雖然雙向RNN的各個(gè)時(shí)刻的輸出包含了上下文的特征,但這種特征是以某個(gè)時(shí)間點(diǎn)為分段的兩段序列特征各自的表示,較以最后時(shí)刻形成的全局序列特征存在區(qū)別,因此這種抽取可能會(huì)導(dǎo)致全局序列特征的弱化。文獻(xiàn)[22]提出基于BiGRU與CNN的串聯(lián)組合模型進(jìn)行文本分類,首先利用BiGRU提取輸入文本各個(gè)時(shí)刻的全局序列特征,并利用CNN提取序列文本中的局部語義特征,實(shí)現(xiàn)時(shí)間序列特征與局部上下文內(nèi)容的結(jié)合,實(shí)驗(yàn)結(jié)果表明該組合方式有著較好的性能;文獻(xiàn)[10]通過組合RNN和CNN構(gòu)建RCNN文本分類模型,以RNN層的輸出作為CNN的輸入,達(dá)到捕獲上下文與精確表達(dá)文本語義的目的,實(shí)驗(yàn)結(jié)果表明該組合模型RCNN較CNN和RNN有著更優(yōu)的分類性能。

        除了上述兩種基本串聯(lián)組合方式,還存在其他串聯(lián)組合方式,這些方式多以CNN與RNN多次交替串聯(lián)進(jìn)行組合,如文獻(xiàn)[11]利用BiLSTM和CNN的各自優(yōu)勢(shì)設(shè)計(jì)了BLSMT-C文本分類模型,實(shí)驗(yàn)表明該組合模型較對(duì)比模型具有更優(yōu)性能;文獻(xiàn)[23]提出一種基于CNN與LSTM的串聯(lián)組合模型,該模型基于LSTM,CNN和LSTM順序構(gòu)建三層串聯(lián)組合模型。

        2.3.2 并聯(lián)組合模式

        該模式通過將CNN與RNN進(jìn)行并聯(lián)組合實(shí)現(xiàn)文本特征的提取,利用CNN提取顯著局部特征,利用RNN提取全局序列特征,而后形成由全局和局部特征組合構(gòu)成的分類特征,該模式的結(jié)構(gòu)如圖3所示。

        CNN與RNN并聯(lián)組合模式運(yùn)用CNN與RNN進(jìn)行并聯(lián)組合,可以同時(shí)利用CNN抽取的局部顯著特征和RNN抽取的全局序列特征進(jìn)行分類,但CNN與RNN的并聯(lián)組合直接運(yùn)用CNN和RNN所抽取的特征進(jìn)行分類,這種方法依然存在著與主題不相關(guān)的冗余特征等問題。文獻(xiàn)[24]提出基于CNN與BiLSTM進(jìn)行并行組合構(gòu)建分類模型,通過設(shè)置3種不同尺寸的多通道卷積核抽取原始數(shù)據(jù)集的局部特征形成新特征,同時(shí)利用BiLSTM抽取原始數(shù)據(jù)集的全局序列特征,通過拼接組合CNN與BiLSTM所抽取的特征作為全連接神經(jīng)網(wǎng)絡(luò)的輸入特征形成分類結(jié)果。

        針對(duì)上述對(duì)串聯(lián)和并聯(lián)兩種組合方式的分析可以發(fā)現(xiàn),兩種組合方式的共性在于將全局序列特征與局部顯著分類特征相結(jié)合構(gòu)建新的語義特征,以避免單一模型對(duì)語義特征提取的局限性,但在具體特性方面又存在差異性,串聯(lián)組合模型的輸出特征依賴于第二層的級(jí)聯(lián)模型,若以CNN為第二層模型則抽取特征以顯著分類特征為主,若以RNN為第二層模型則以主題特征為主,而并聯(lián)組合模式以兩種特征并重。串聯(lián)組合模式相較于并聯(lián)模式存在更深的網(wǎng)絡(luò)結(jié)構(gòu),這將導(dǎo)致時(shí)間復(fù)雜度的上升,出現(xiàn)梯度消失和特征冗余等問題[25],同時(shí)基于對(duì)故障文本分類實(shí)驗(yàn)結(jié)果的分析發(fā)現(xiàn),并聯(lián)組合模式較串聯(lián)組合模式有著更優(yōu)的分類性能,因此本文將選擇并聯(lián)組合模式作為模型的基本結(jié)構(gòu)。

        3 交互注意力機(jī)制網(wǎng)絡(luò)分類模型

        在自然語言處理領(lǐng)域,注意力機(jī)制最早被應(yīng)用于機(jī)器翻譯任務(wù)[26],用于實(shí)現(xiàn)基于RNN模型的機(jī)器翻譯任務(wù)中模型decoder部分的翻譯輸出序列與encoder部分的輸入序列的有效對(duì)齊,以提升機(jī)器翻譯的性能。隨后注意力機(jī)制開始在文本分類、文本摘要、問答系統(tǒng)等自然語言處理領(lǐng)域廣泛應(yīng)用[27]。在文本分類應(yīng)用中,注意力機(jī)制通過選擇關(guān)鍵特征實(shí)現(xiàn)對(duì)特征的權(quán)重組合,達(dá)到提升分類性能的目的,目前對(duì)如何將注意力機(jī)制與CNN或RNN進(jìn)行結(jié)合提升模型性能的研究已成為文本分類的研究熱點(diǎn)。文獻(xiàn)[28]基于注意力機(jī)制融合BiLSTM特征形成分類輸入特征;文獻(xiàn)[29]利用注意力機(jī)制克服BiLSTM不能正確捕獲長(zhǎng)序列數(shù)據(jù)中關(guān)鍵特征的缺點(diǎn);文獻(xiàn)[30]通過注意力機(jī)制提升對(duì)特定方面詞的關(guān)注以抽取出相關(guān)的感情語義信息提升了分類性能。

        通過第2章中對(duì)CNN和RNN模型的分析可以發(fā)現(xiàn),有效捕獲關(guān)鍵特征對(duì)提升分類性能有著積極的作用,由于注意力機(jī)制具有對(duì)關(guān)鍵特征的捕獲能力,本文將注意力機(jī)制與全局序列特征和局部顯著特征中關(guān)鍵特征的篩選相結(jié)合,實(shí)現(xiàn)對(duì)全局和局部語義特征的合理篩選和融合。同時(shí),考慮文本中關(guān)鍵內(nèi)容對(duì)分類性能的影響,利用故障件注意力機(jī)制和故障模式注意力機(jī)制提升分類任務(wù)對(duì)故障文本中故障內(nèi)容項(xiàng)的關(guān)注程度。基于此,本文提出面向故障文本分類的交互注意力機(jī)制網(wǎng)絡(luò)模型,結(jié)合注意力機(jī)制最終實(shí)現(xiàn)“全局—局部分類特征”+“故障件—故障模式關(guān)鍵特征”的特征組合,以達(dá)到更優(yōu)的分類性能,如圖4所示為交互注意力機(jī)制網(wǎng)絡(luò)模型的總體結(jié)構(gòu)。

        交互注意力機(jī)制網(wǎng)絡(luò)模型由輸入模塊、交互注意力機(jī)制模塊、故障件注意力機(jī)制模塊、故障模式注意力機(jī)制模塊和分類模塊構(gòu)成。輸入模塊用于對(duì)輸入文本進(jìn)行向量化表示;交互注意力機(jī)制模塊實(shí)現(xiàn)對(duì)文本的全局和局部語義特征的提取,形成全局—局部特征;故障件注意力機(jī)制模塊關(guān)注文本中故障件特征,故障模式注意力機(jī)制模塊關(guān)注文本中故障模式特征,基于這兩個(gè)模塊的輸出形成故障件—故障模式特征。

        3.1 輸入模塊

        輸入模塊Player由一系列操作構(gòu)成,實(shí)現(xiàn)原始文本集合D到向量序列I的特征轉(zhuǎn)換,即Player:DI,利用該模塊生成的字向量作為模型的輸入。選用字向量的原因在于故障現(xiàn)象描述以短文本居多,短文本會(huì)給分類性能帶來挑戰(zhàn)[31]。首先,短文本存在語義不足的問題;其次,短文描述內(nèi)容多存在不規(guī)范用語,這將導(dǎo)致較差的分詞效果。因?yàn)樽窒蛄客瑯影S富語義,與詞向量相較而言,以字向量作為模型輸入不僅擴(kuò)充了語義特征量,還避免了分詞帶來的問題[31],所以本文利用字向量作為模型的輸入。Player模塊對(duì)文本的處理過程如圖5所示,主要包括文本編碼、字嵌入向量的訓(xùn)練和文本向量化表示3個(gè)主要步驟,具體如下:

        步驟2訓(xùn)練字嵌入向量。該步驟以字典中的字為基本單元,設(shè)置字向量長(zhǎng)度,基于文本利用Word2Vec模型訓(xùn)練字典中各字的語義向量。

        3.2 交互注意力機(jī)制模塊

        交互注意力機(jī)制模塊是整個(gè)模型的核心模塊,該模塊的目的在于結(jié)合CNN與RNN特征提取的優(yōu)點(diǎn),實(shí)現(xiàn)對(duì)文本中局部特征和序列特征的關(guān)鍵內(nèi)容提取,該模塊由全局與局部特征提取子模塊Elayer和交互注意力子模塊Alayer組成。

        3.2.1 全局與局部特征提取子模塊

        (1)全局序列特征提取

        遺忘門負(fù)責(zé)控制對(duì)長(zhǎng)期狀態(tài)的保存,其計(jì)算公式為:

        ft=σ(Wf·[ht-1,wt]+bf)。

        (1)

        輸入門控制當(dāng)前時(shí)序點(diǎn)的輸入特征中哪些信息保存到長(zhǎng)期狀態(tài)中。首先,確定輸入字向量特征中的更新值,其公式為:

        it=σ(Wi·[ht-1,xt]+bi)。

        (2)

        其次,利用tanh生成新的候選向量,其計(jì)算公式為:

        (3)

        最后利用式(3)與式(4)確定各個(gè)基本單元需要添加的新信息,其計(jì)算公式為:

        (4)

        輸出門確定當(dāng)前時(shí)序點(diǎn)的輸出狀態(tài)值,其計(jì)算公式為:

        ht=σ(Wo·[ht-1,xt]+bo)⊙tanh(Ct)。

        (5)

        (2)局部文本特征提取

        1)卷積操作 設(shè)該子模塊獲得輸入層Player:DkIk生成的第k個(gè)文本記錄Dk的向量序列本文將采用c種不同尺寸的卷積核對(duì)Ik進(jìn)行卷積操作,以提取不同尺寸的局部序列特征,其中:為第j個(gè)尺寸為si×n的卷積核,Ik,[t,si]中[t,si]表示提取第t個(gè)字向量的局部特征范圍為si,bsi,j為偏置項(xiàng),f為激活函數(shù)。設(shè)為第si種卷積尺寸下第j個(gè)卷積的操作結(jié)果,其中q為第si種尺寸下第j個(gè)卷積操作后的向量維度,其中l(wèi)為第i種尺寸的卷積總數(shù)目,將不同尺寸的卷積核所得特征輸入到池化層中進(jìn)一步提取特征。

        3.2.2 交互注意力子模塊

        交互注意力機(jī)制是實(shí)現(xiàn)全局與局部關(guān)鍵特征提取的重要內(nèi)容,為避免單獨(dú)使用CNN或BiLSTM模型對(duì)分類性能產(chǎn)生的影響,通過處理全局序列特征與局部顯著文本特征的關(guān)系,實(shí)現(xiàn)對(duì)CNN與BiLSTM模型所提取特征的結(jié)合,文獻(xiàn)[32]以全局序列特征為主要分類特征,基于注意力機(jī)制利用局部文本特征關(guān)注全局序列特征中的關(guān)鍵特征,但并沒有完全融合局部文本特征;文獻(xiàn)[33]基于局部特征和全局特征構(gòu)建了多個(gè)子局部特征空間和全局特征空間實(shí)現(xiàn)全局—局部特征的交互注意力機(jī)制,由于模型復(fù)雜度高影響了模型的泛化性,在部分?jǐn)?shù)據(jù)集上分類性能受到了影響。本文將基于文獻(xiàn)[32-33]的研究,利用交互注意力機(jī)制捕獲全局序列特征中的關(guān)鍵分類特征和局部文本特征中與主題相關(guān)的特征,弱化相關(guān)性較低的特征,實(shí)現(xiàn)對(duì)全局序列特征和局部文本特征中關(guān)鍵分類信息的關(guān)注。

        (1)注意力機(jī)制模型

        注意力機(jī)制通過篩選語義特征中的重要信息,捕獲關(guān)鍵語義特征,其計(jì)算過程包括兩個(gè)步驟:①計(jì)算各個(gè)神經(jīng)元輸入特征的注意力權(quán)重,確定當(dāng)前輸入對(duì)輸出的影響權(quán)重;②基于注意力分配權(quán)重,計(jì)算加權(quán)輸出值,實(shí)現(xiàn)對(duì)特定輸入特征的關(guān)注。本文將利用特定任務(wù)向量q∈Rn(所關(guān)注的特征)篩選語義特征[v1,v2,…,vn],注意力機(jī)制的基本計(jì)算函數(shù)如下:

        scorei=γ(q,vi),

        (6)

        (7)

        (8)

        式(6)為對(duì)齊函數(shù),計(jì)算出特定任務(wù)向量和待篩選語義特征向量間的匹配程度,通過式(7)計(jì)算出待篩選語義特征對(duì)特定任務(wù)向量的相對(duì)匹配權(quán)重,利用式(8)計(jì)算出待篩選語義特征相對(duì)于特定任務(wù)向量的注意力值。在注意力機(jī)制的基本計(jì)算框架中最關(guān)鍵的是對(duì)齊函數(shù),常見的基本對(duì)齊函數(shù)主要有以下3種:

        1)加性對(duì)齊函數(shù)[26,34]。γ(q,vi)=wTtanh(Wq+Uvi),其中w∈Rn,W∈Rn×n,U∈Rn×n為權(quán)重矩陣。

        2)乘法對(duì)齊函數(shù)[35]。γ(q,vi)=qTWvi,其中W∈Rn×n為權(quán)重矩陣。

        3)多層感知機(jī)對(duì)齊函數(shù)[27]。γ(q,vi)=σ(wTtanh(Wq+Uvi+b1)+b2),其中w∈Rn,W∈Rn×n,U∈Rn×n為權(quán)重矩陣,b1∈Rn為偏置向量,b2∈R為偏置標(biāo)量。

        (2)交互注意力機(jī)制子模塊

        基于注意力機(jī)制定義全局—局部交互注意力機(jī)制,利用交互注意力機(jī)制子模塊實(shí)現(xiàn)對(duì)全局和局部關(guān)鍵語義特征的提取和融合。

        Ag和Al函數(shù)提取全局和局部語義關(guān)鍵特征,各自產(chǎn)生的注意力向量中融合了彼此的語義特征,基于定義2,下文將展示交互注意力機(jī)制子模塊的具體結(jié)構(gòu)(如圖9)及子模塊對(duì)全局和局部關(guān)鍵語義特征的提取和融合,具體步驟如下:

        步驟1模塊輸入特征。以BiLSTM所提取的文本特征作為全局輸入特征Hg,以CNN所提取的局部文本特征作為局部輸入特征Cl。

        基于上述操作,提取全局序列特征Hg中關(guān)鍵分類特征,提取局部文本特征Cl中主題相關(guān)的特征,實(shí)現(xiàn)全局和局部語義特征的融合。

        3.3 故障件與故障模式注意力機(jī)制模塊

        故障文本分類語料內(nèi)容以短文本表述為主,其描述方式主要為某個(gè)部件出現(xiàn)某種故障模式,如“右后輪制動(dòng)電機(jī)吱吱異響”,制動(dòng)電機(jī)為部件,異響為故障模式,對(duì)于該故障文本,并不是所有內(nèi)容對(duì)于故障分類均有同等重要的作用,針對(duì)分類問題需求,通過故障件定位故障類型,基于故障模式確定故障解決方法,如在“右后輪制動(dòng)電機(jī)吱吱異響”故障現(xiàn)象文本中,最重要的分類內(nèi)容是“制動(dòng)電機(jī)”故障部位和“異響”故障模式。

        考慮到故障部位和故障模式在分類中的作用,本文利用故障件與故障模式注意力機(jī)制分別關(guān)注文本中故障件與故障模式內(nèi)容,構(gòu)建故障件詞典、故障模式詞典和字嵌入向量來初始化注意力特定任務(wù)向量,故障件詞典中主要存儲(chǔ)故障現(xiàn)象中常見的故障零部件,故障件詞典中主要存儲(chǔ)故障現(xiàn)象中常見的故障模式,如圖10所示。

        故障件與故障模式注意力機(jī)制子模塊從輸入模塊中捕獲故障件和故障模式的關(guān)鍵特征,各個(gè)模塊間的關(guān)系如圖11所示,故障件與故障模式注意力機(jī)制子模塊利用輸入模塊實(shí)現(xiàn)詞典的向量化表示,采用乘法對(duì)齊函數(shù)計(jì)算實(shí)現(xiàn)注意力數(shù)值的計(jì)算,具體步驟如下:

        步驟1計(jì)算注意力特定任務(wù)向量。設(shè)故障件詞典為Pd和故障模式詞典為Gd,設(shè)面向詞典的注意力特定任務(wù)向量函數(shù)為avg,對(duì)于故障件詞典Pd,利用Player:Pd計(jì)算各字對(duì)應(yīng)向量,計(jì)算故障件注意力特定任務(wù)向量為同理計(jì)算故障模式注意力特定任務(wù)向量

        3.4 分類模塊

        輸入模塊實(shí)現(xiàn)原始文本的向量化表示,利用交互注意力機(jī)制模塊、故障件與故障模式注意力機(jī)制模塊自動(dòng)對(duì)原始文本向量進(jìn)行特征提取,以所提取特征作為分類模塊的輸入特征,實(shí)現(xiàn)故障文本的分類。

        Ok=softmax(σ(AfVa,k+bf))。

        (9)

        3.5 模型訓(xùn)練

        (10)

        4 實(shí)驗(yàn)分析

        4.1 實(shí)驗(yàn)數(shù)據(jù)

        為探究交互注意力機(jī)制網(wǎng)絡(luò)模型對(duì)故障文本分類問題的效果,面向故障現(xiàn)象文本分類的需求,從汽車產(chǎn)業(yè)鏈云服務(wù)平臺(tái)[36]的業(yè)務(wù)系統(tǒng)中抽取某汽車制造廠與服務(wù)商間的服務(wù)業(yè)務(wù)協(xié)同過程中所產(chǎn)生的部分售后維修數(shù)據(jù)作為本次實(shí)驗(yàn)數(shù)據(jù),實(shí)驗(yàn)選取底盤部件中制動(dòng)系統(tǒng)、傳動(dòng)系統(tǒng)、轉(zhuǎn)向系統(tǒng)、懸架系統(tǒng)和輪胎共計(jì)5個(gè)系統(tǒng)14類故障現(xiàn)象分類數(shù)據(jù)開展故障分類實(shí)驗(yàn)及分析,該數(shù)據(jù)集的具體分類情況如圖12所示。

        從平臺(tái)數(shù)據(jù)庫(kù)中抽取6 159條底盤部件故障現(xiàn)象文本數(shù)據(jù),依據(jù)8∶1∶1比例將該數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)集、驗(yàn)證數(shù)據(jù)集和測(cè)試數(shù)據(jù)集,數(shù)據(jù)集中的14類故障類型數(shù)目分布如表1所示

        表1 故障現(xiàn)象分類數(shù)據(jù)

        續(xù)表1

        4.2 模型分類性能分析

        4.2.1 模型參數(shù)分析

        (1)模型卷積核尺寸分析

        卷積尺寸影響交互注意力機(jī)制網(wǎng)絡(luò)模型中局部特征的提取。在交互注意力機(jī)制網(wǎng)絡(luò)模型中,運(yùn)用基于全局序列特征的注意力機(jī)制關(guān)注與主題相關(guān)的卷積核,為與主題相關(guān)的卷積核賦予較高權(quán)重。如

        圖13所示為針對(duì)10組不同的數(shù)據(jù)集訓(xùn)練模型,注意力機(jī)制對(duì)不同卷積尺寸的賦權(quán)結(jié)果,每組數(shù)據(jù)的卷積核尺寸如表2所示。

        表2 各組數(shù)據(jù)的卷積核尺寸

        在圖13中,與主題相關(guān)的卷積核被賦予了較高的權(quán)重,這些卷積核尺寸在圖中的顏色較深,與主題不相關(guān)的卷積核賦予較低權(quán)重,該類卷積核尺寸在圖中的顏色較淺。對(duì)圖13中各數(shù)據(jù)集在表2參數(shù)下的實(shí)驗(yàn)結(jié)果進(jìn)行統(tǒng)計(jì)可以發(fā)現(xiàn),尺寸為2的卷積核提取的特征與主題的相關(guān)性較高,其次是尺寸為3、4和7的卷積核,而在多數(shù)實(shí)驗(yàn)數(shù)據(jù)上尺寸為5、6的卷積核相關(guān)性較弱,同時(shí)實(shí)驗(yàn)結(jié)果表明尺寸為8和9的卷積核所提取的局部特征與全局序列的主題特征幾乎無相關(guān)性。

        (2)模型BiLSTM隱藏層神經(jīng)元數(shù)目分析

        交互注意力機(jī)制網(wǎng)絡(luò)模型利用BiLSTM抽取故障文本的全局序列特征,本節(jié)對(duì)影響B(tài)iLSTM性能的隱藏層神經(jīng)元個(gè)數(shù)進(jìn)行分析,較少的隱藏層節(jié)點(diǎn)數(shù)目將導(dǎo)致BiLSTM模型不能形成較好的學(xué)習(xí)能力,但較多的神經(jīng)元數(shù)目將導(dǎo)致模型的復(fù)雜度上升,這不僅會(huì)影響模型的運(yùn)算速度,還將導(dǎo)致最終結(jié)果陷入局部最優(yōu),因此本節(jié)分析BiLSTM隱藏層神經(jīng)元數(shù)目對(duì)整個(gè)模型分類性能的影響效果。

        設(shè)BiLSTM模型隱藏層神經(jīng)元數(shù)目num={50k|1≤k≤6,k∈N*},設(shè)置正確率和F1值為評(píng)價(jià)指標(biāo),如圖14所示,隨著模型隱藏層神經(jīng)元數(shù)目的逐漸增大,交互注意力機(jī)制網(wǎng)絡(luò)模型的性能整體表現(xiàn)出先提升后下降的趨勢(shì),當(dāng)神經(jīng)元個(gè)數(shù)為150時(shí)取得實(shí)驗(yàn)參數(shù)設(shè)置區(qū)間中的最大值。

        4.2.2 故障件和故障模式注意力機(jī)制分析

        故障文本分類中并不是所有文本內(nèi)容項(xiàng)對(duì)故障分類性能的影響均有著同等作用,針對(duì)分類問題的需求,基于對(duì)故障文本的分析和研究可以發(fā)現(xiàn)故障件和故障模式兩類信息是影響多數(shù)故障文本分類問題的關(guān)鍵特征,如“客戶反映手剎有異響”中,對(duì)于該故障現(xiàn)象分類中最重要的是“手剎”故障件和“異響”故障模式,因此本文在全局和局部特征提取和融合的基礎(chǔ)上,引入故障件和故障模式注意力機(jī)制,以進(jìn)一步提升分類任務(wù)對(duì)故障信息的關(guān)注程度。

        如圖15所示為基于故障件和故障模式注意力機(jī)制對(duì)故障文本中故障件和故障模式內(nèi)容的關(guān)注效果。圖15中包括了“客戶反映拉手剎有異響”和“客戶進(jìn)站反映,車輛行駛中踩踏制動(dòng)踏板時(shí),車輛剎車抖動(dòng)”兩條故障現(xiàn)象文本記錄。

        通過分析注意力權(quán)重可以發(fā)現(xiàn),較大的故障件注意力權(quán)重主要集中于故障件位置,如第一條記錄中的手剎,第二條記錄中的制動(dòng)踏板、剎車。較大的故障件模式注意力權(quán)重主要集中于故障模式位置,如第一條記錄中的異響,第二條記錄中的抖動(dòng)。通過分析故障件和故障模式對(duì)故障文本內(nèi)容項(xiàng)的注意力權(quán)重分布,可以發(fā)現(xiàn)該注意力機(jī)制可以在一定程度上捕獲故障件和故障模式關(guān)鍵特征。

        4.2.3 基于交互注意力機(jī)制網(wǎng)絡(luò)模型的故障文本分類結(jié)果分析

        本節(jié)將對(duì)制動(dòng)系統(tǒng)、傳動(dòng)系統(tǒng)、轉(zhuǎn)向系統(tǒng)、懸架系統(tǒng)和輪胎5類系統(tǒng)的14類子故障現(xiàn)象分類數(shù)據(jù)開展實(shí)驗(yàn)和分析。將數(shù)據(jù)集以8∶1∶1的比例劃分為訓(xùn)練數(shù)據(jù)集、驗(yàn)證數(shù)據(jù)集和測(cè)試數(shù)據(jù)集,分類結(jié)果的混淆矩陣如圖16所示。以分類正確率為評(píng)價(jià)依據(jù),分析圖16中的分類混淆矩陣可以發(fā)現(xiàn),S14的準(zhǔn)確率達(dá)到了100%,S4和S7達(dá)到了95%及以上,S2、S5、S8、S10、S11達(dá)到80%以上,S1、S3、S12略低于60%,但S6、S9、S13均低于50%。下面將對(duì)影響該分類結(jié)果的因素進(jìn)行分析。

        首先,分析類樣本數(shù)據(jù)量對(duì)分類性能的影響。表3羅列了各種故障類型的類樣本數(shù)據(jù)量與分類正確率的對(duì)應(yīng)關(guān)系,通過分析可以發(fā)現(xiàn)S4擁有最高的數(shù)據(jù)量,其分類正確率也為最高,同樣S2、S5、S8、S10、S11也有著較高的數(shù)據(jù)量,也擁有較好的分類正確率,而其余故障類型的數(shù)據(jù)量相對(duì)較少,其分類正確率也相對(duì)較低,因此類樣本數(shù)據(jù)量對(duì)分類性能具有一定程度的影響。

        表3 各系統(tǒng)樣本數(shù)與分類正確率的對(duì)應(yīng)關(guān)系

        其次,分析樣本數(shù)據(jù)內(nèi)容對(duì)分類性能的影響。通過分析圖16可以發(fā)現(xiàn),S9中有65%的數(shù)據(jù)被分配到S10中,這是由于S9與S10均為懸架系統(tǒng)的故障類型,兩者在故障描述內(nèi)容數(shù)據(jù)方面具有較大的相似度,如同樣對(duì)于“用戶反映車輛打方向時(shí)異響”的記錄,會(huì)基于具體維修情況歸于S9或S10類。

        最后,分析系統(tǒng)復(fù)雜性對(duì)分類性能的影響。在制動(dòng)系統(tǒng)數(shù)據(jù)集中分為5類系統(tǒng),由于故障均在同一系統(tǒng)中會(huì)造成文本描述模糊性和相似性,這將對(duì)多分類的性能產(chǎn)生影響,導(dǎo)致制動(dòng)系統(tǒng)中部分類的正確率較低。對(duì)于輪胎系統(tǒng),由于子類別單一,針對(duì)部件和故障的描述均指向該類型,從而S14類在數(shù)據(jù)集較少的情況下依然保持較高的正確率。

        4.3 不同模型分類性能對(duì)比分析

        生成10組故障現(xiàn)象文本數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),每組數(shù)據(jù)按照8∶1∶1的比例劃分為訓(xùn)練數(shù)據(jù)集、驗(yàn)證數(shù)據(jù)集和測(cè)試數(shù)據(jù)集,以正確率(Acc)和F1值作為分類性能評(píng)價(jià)指標(biāo)進(jìn)行對(duì)比分析。與本文所提交互注意力機(jī)制網(wǎng)絡(luò)模型(Mutual Attention Mechanism Network, MAMN)進(jìn)行實(shí)驗(yàn)對(duì)比的模型包括兩類:第一類是傳統(tǒng)機(jī)器學(xué)習(xí)模型,包括k近鄰(KNN)、樸素貝葉斯(Naive Bayesian, NB)、支持向量機(jī)(SVM)和邏輯斯蒂回歸(Logistic)4種模型;第二類是深度學(xué)習(xí)模型,包括基本深度學(xué)習(xí)模型TextCNN[19]、LSTM和BiLSTM、串聯(lián)組合模型CNN-LSTM[37]、BiLSTM-CNN、并聯(lián)組合模型Oslcfit[24]、基于局部注意力機(jī)制的模型CRAN[20]。

        第一類模型以輸入模塊Player生成的輸出向量的均值作為分類模型的輸入向量直接進(jìn)行分類,因此第一類模型較第二類深度學(xué)習(xí)模型缺少對(duì)輸入特征的進(jìn)一步抽取。

        在第二類模型中,TextCNN[12]為基本的CNN分類模型,抽取故障文本的局部特征;LSTM和BiLSTM為基本的RNN分類模型,抽取故障文本的全局序列特征。

        第二類模型中的組合模型包括串聯(lián)組合模型CNN-LSTM和BiLSTM-CNN,并聯(lián)組合模型Oslcfit。由于CNN-LSTM和BiLSTM-CNN以逐層特征疊加的方式對(duì)全局和局部特征進(jìn)行抽取,第二層模型的特征抽取效果將受第一層的影響;并聯(lián)組合模型的特征抽取采用對(duì)全局與局部特征并行抽取的方式,拼接融合全局與局部特征進(jìn)行分類。

        第二類模型中的CRAN模型利用局部注意力機(jī)制捕獲BiLSTM中的關(guān)鍵分類序列信息,從提升BiLSTM分類性能的視角進(jìn)行模型優(yōu)化。

        本文提出的交互注意力機(jī)制網(wǎng)絡(luò)模型(MAMN)為第二類分類模型。與第一類模型相比,MAMN作為深度學(xué)習(xí)模型可以抽取更深層的語義特征,實(shí)現(xiàn)端到端的特征自動(dòng)提?。慌c第二類模型中的串聯(lián)組合模型相比,MAMN采用并聯(lián)結(jié)構(gòu)作為模型的基礎(chǔ)結(jié)構(gòu),避免逐層特征疊加對(duì)分類性能的影響;與第二類模型中的基本模型和并聯(lián)組合模型相比,MAMN利用交互注意力機(jī)制實(shí)現(xiàn)對(duì)全局和局部關(guān)鍵特征的提取和融合,分別利用基于全局注意力機(jī)制的局部特征提取實(shí)現(xiàn)對(duì)與主題不相關(guān)的局部特征的篩選,基于局部注意力機(jī)制的全局特征提取實(shí)現(xiàn)對(duì)全局序列特征中的關(guān)鍵分類特征的篩選;與第二類模型中的注意力機(jī)制模型相比,MAMN不僅運(yùn)用交互注意力機(jī)制捕獲關(guān)鍵特征,還運(yùn)用基于故障件和故障模式的注意力機(jī)制捕獲文本中故障件和故障模式相關(guān)的關(guān)鍵分類信息,具有更為豐富的分類特征信息。

        如表4和表5所示為第一類—傳統(tǒng)機(jī)器學(xué)習(xí)模型(KNN、NB、Logstic、SVM)、第二類—深度學(xué)習(xí)模型(TextCNN、LSTM、BiLSTM、CNN-LSTM、BiLSTM-CNN、Oslcfit、CRAN)與本文所提MAMN模型在10組故障現(xiàn)象文本數(shù)據(jù)集上的分類性能對(duì)比,性能對(duì)比指標(biāo)包括正確率(Acc)和F1值。對(duì)表4和表5的數(shù)據(jù)集測(cè)試結(jié)果進(jìn)行分析,第一類模型的整體分類性能低于第二類模型,在分類結(jié)果中樸素貝葉斯正確率和F1值最低,這是由于模型的輸入向量為連續(xù)型數(shù)據(jù),對(duì)該數(shù)據(jù)的離散化表示將導(dǎo)致信息的丟失,進(jìn)而影響到分類性能;其次是k近鄰模型,這是由于該模型的歐氏距離在該向量空間中不能達(dá)到較好的度量效果;邏輯斯蒂回歸和支持向量機(jī)的效果較好,表明該模型在此數(shù)據(jù)集上有著良好的泛化性。

        表4 數(shù)據(jù)集1~5的測(cè)試結(jié)果

        表5 數(shù)據(jù)集6~10的測(cè)試結(jié)果

        在第二類分類模型中,基于CNN類的模型分類性能普遍高于基于RNN類的模型,這是由于所用故障文本數(shù)據(jù)集以短文數(shù)據(jù)居多的原因,導(dǎo)致RNN類模型的序列特征抽取能力不能得以凸顯。在組合模型類的對(duì)比中,CNN-LSTM和BiLSTM-CNN這兩類串聯(lián)組合模型的分類性能低于并聯(lián)組合模型Oslcfit,同時(shí),串聯(lián)組合模型與并聯(lián)組合模型的對(duì)比實(shí)驗(yàn)表明,基于串聯(lián)組合的特征疊加抽取模型的分類性能低于基于并聯(lián)特征拼接的模型,這是由于無論CNN-LSTM還是BiLSTM-CNN均以兩層結(jié)構(gòu)進(jìn)行特征抽取,以第一層作為數(shù)據(jù)特征的預(yù)抽取,第二層在第一層的基礎(chǔ)上對(duì)特征進(jìn)行再次抽取,則第二層模型的特征抽取效果將受第一層的影響,但并聯(lián)組合模型的特征抽取采用并行處理的方式,全局或局部特征的抽取并不基于其他模型,所以并聯(lián)組合的分類方式有著更優(yōu)的分類結(jié)果。對(duì)于基于注意力機(jī)制的CRAN模型,通過運(yùn)用局部注意力機(jī)制對(duì)全局序列特征中的關(guān)鍵特征進(jìn)行篩選,對(duì)提升BiLSTM分類性能有著較好的效果。最后,本文提出的交互注意力機(jī)制網(wǎng)絡(luò)模型(MAMN)以并聯(lián)模型結(jié)構(gòu)為基礎(chǔ),結(jié)合交互注意力機(jī)制實(shí)現(xiàn)對(duì)故障文本的全局特征和局部特征中關(guān)鍵特征的捕獲和融合,并引入故障件和故障模式注意力機(jī)制以提升分類任務(wù)對(duì)故障信息的關(guān)注,產(chǎn)生更為豐富的分類特征信息,達(dá)到了較優(yōu)的分類效果。

        5 結(jié)束語

        本文面向整車故障現(xiàn)象文本分類任務(wù),研究了基于深度學(xué)習(xí)的故障文本分類模型。針對(duì)CNN、RNN模型對(duì)特征提取存在的不足,提出了基于交互注意力機(jī)制的網(wǎng)絡(luò)模型,該模型利用交互注意力機(jī)制構(gòu)建全局—局部分類語義特征,實(shí)現(xiàn)了對(duì)故障文本的全局特征和局部特征的融合。同時(shí),針對(duì)故障現(xiàn)象文本中故障件和故障模式兩類關(guān)鍵分類信息,引入了故障件和故障模式注意力機(jī)制,提升了分類任務(wù)對(duì)故障信息的關(guān)注程度。模型最終實(shí)現(xiàn)“全局—局部分類特征”+“故障件—故障模式關(guān)鍵特征”的組合特征,達(dá)到更優(yōu)的分類性能。

        MANM作為深度學(xué)習(xí)模型,較傳統(tǒng)機(jī)器學(xué)習(xí)模型可以提取更深的語義特征,由于MANM采用并聯(lián)組合模式,較串聯(lián)組合模式有著更優(yōu)的性能,交互注意力機(jī)制的運(yùn)用使得MANM較并聯(lián)組合模型擁有更利于分類的特征提取能力。同時(shí),故障件和故障模式注意力機(jī)制的引入使得MANM擁有更為豐富的分類特征信息。

        實(shí)驗(yàn)部分展示了本文模型對(duì)CNN局部分類特征的篩選能力,以及故障件和故障模式注意力機(jī)制對(duì)故障文本中關(guān)鍵信息的捕獲。以正確率和F1值為性能指標(biāo),在10組整車故障現(xiàn)象文本數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明交互注意力機(jī)制網(wǎng)絡(luò)模型相比傳統(tǒng)機(jī)器學(xué)習(xí)算法、基本深度學(xué)習(xí)模型和組合深度學(xué)習(xí)模型具有更優(yōu)的分類性能。

        下一階段將針對(duì)全局序列特征對(duì)模型分類性能的影響進(jìn)行深入的研究,進(jìn)一步改善模型對(duì)全局序列特征的提取能力,進(jìn)而提升交互注意力機(jī)制網(wǎng)絡(luò)模型的整體性能。

        猜你喜歡
        分類特征文本
        分類算一算
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        不忠誠(chéng)的四個(gè)特征
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        高清亚洲精品一区二区三区| 性一交一乱一伦a片| AV无码最在线播放| 国产女主播强伦视频网站| 青青草视频在线观看绿色| 亚洲av成人无码一二三在线观看| 丰满人妻av无码一区二区三区| 亚洲女同精品一区二区久久| 久久久一本精品久久久一本| 国产情侣自拍一区视频| 高清破外女出血av毛片| 无码 制服 丝袜 国产 另类| 色偷偷亚洲女人的天堂| 日本一区二区视频免费在线看| av网站可以直接看的| 三级日韩视频在线观看| 日韩一区国产二区欧美三区| 亚洲永久无码动态图| 扒下语文老师的丝袜美腿| av网站在线观看亚洲国产| 国产精品网站91九色| 97在线观看视频| 91老司机精品视频| 日日噜噜夜夜久久密挑| 漂亮人妻洗澡被公强 日日躁| 亚洲人成电影在线观看天堂色 | 亚洲女同性恋第二区av| 色偷偷888欧美精品久久久| 国产精品污www一区二区三区| 亚州五十路伊人网| 日本超级老熟女影音播放| 国产精品久久久久9999赢消| 日本a在线看| 日韩熟女精品一区二区三区视频| 亚洲日韩成人无码| 亚洲综合精品成人| 中文字幕人妻系列一区尤物视频| 白丝美女扒开内露出内裤视频| 国产精品国产三级国产a| 亚洲精品乱码8久久久久久日本 | 亚洲免费女女在线视频网站|