陳超,吳迪,唐昕,馮斌,張又文,郭創(chuàng)新
(1.國網(wǎng)浙江平湖市供電有限公司,浙江 平湖 314200;2.國網(wǎng)嘉興供電公司,浙江 嘉興 314033;3.浙江大學(xué) 電氣工程學(xué)院,浙江 杭州 310027)
隨著電網(wǎng)在線監(jiān)測裝置的普及,狀態(tài)評價(jià)和故障診斷的自動(dòng)化程度不斷提升。然而受限于在線監(jiān)測裝置的覆蓋率、可靠性與故障研判類型局限性問題,在目前設(shè)備運(yùn)維實(shí)踐中,仍有大量設(shè)備巡檢記錄依賴人工完成,且這部分信息常以文本形式進(jìn)行記錄[1]。近年來,學(xué)者開始將自然語言處理應(yīng)用于電力設(shè)備文本分析。邱劍博士[2]利用K近鄰方法實(shí)現(xiàn)故障文本分類,將文本挖掘技術(shù)應(yīng)用于斷路器全壽命狀態(tài)評價(jià)。文獻(xiàn)[3]與文獻(xiàn)[4]在此基礎(chǔ)上深入研究,提出了卷積神經(jīng)網(wǎng)絡(luò)與雙向長短期記憶網(wǎng)絡(luò),提升了分類效果。
上述研究對模型結(jié)構(gòu)進(jìn)行了多種探索,但在文本預(yù)處理與特征融合方面并未開展較多研究。為提升電力缺陷文本挖掘效果,本文在文本數(shù)據(jù)預(yù)處理與特征融合方面開展研究。首先采用新詞發(fā)現(xiàn)算法,擴(kuò)充電力專業(yè)詞匯;其次在特征融合方面,融合字與詞級別特征;最終通過注意力機(jī)制優(yōu)化的卷積神經(jīng)網(wǎng)絡(luò)對電力設(shè)備缺陷文本進(jìn)行訓(xùn)練,并開展對比試驗(yàn)。
為全面覆蓋具體的訓(xùn)練語料中所有的專業(yè)詞匯,除了通過導(dǎo)則規(guī)范梳理出專業(yè)詞匯外,還需對訓(xùn)練語料基于新詞發(fā)現(xiàn)算法進(jìn)行數(shù)據(jù)挖掘,再經(jīng)由人工審核作為詞典的補(bǔ)充。本文采用基于NGRAM凝固度的新詞發(fā)現(xiàn)方法,對于一個(gè)字符串序列,用凝固度表征幾個(gè)字符之間聯(lián)系的緊密程度。以三個(gè)字符構(gòu)成的字符串為例,其凝固度定義如下:
(1)
式中:P為在語料中該字符串出現(xiàn)的概率;N為字符串的凝固度;abc為由三個(gè)字符a、b、c構(gòu)成的字符串。通過限定不同GRAM的凝固度閾值,篩選出所有高于閾值要求的NGRAM字符串集合,并保留這些字符串的左右鄰居字符,再將這些候選字符串通過自由度進(jìn)行一定的篩選。某字符串的自由度為所有左鄰居字符和所有右鄰居字符的信息熵中較小的一個(gè),如式(2)所示。
R=min{-∑P(cleft)log2P(cleft),
-∑P(cright)log2P(cright)}
(2)
式中:P為在語料中該字符串出現(xiàn)的概率;Plog2P為該字符的信息熵;cleft和cright為該字符的左鄰居字符和右鄰居字符。對不同GRAM詞語進(jìn)行自由度的閾值設(shè)置,進(jìn)一步篩選出自由度高于閾值標(biāo)準(zhǔn)的詞語,即可獲得最終的新詞。
在電力設(shè)備缺陷記錄文本中,有部分無用信息,需要在分詞階段識別出這些無用特征并加以剔除。停用詞包括:各種中文標(biāo)點(diǎn)符號;一些無實(shí)義的錯(cuò)誤記錄,如“其他”“1號”和“Ⅱ回”等表征設(shè)備編號的詞語。
本文采用word2vec模型[5]作為特征提取方法。它是一種常用的文本特征表示方法,利用局部上下文窗口的方式進(jìn)行滾動(dòng)訓(xùn)練,然后利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練結(jié)束后的模型參數(shù)作為向量化依據(jù),生成向量蘊(yùn)含豐富的上下文信息。
利用字、詞兩種層次對輸入文本進(jìn)行劃分,能夠更好地保留不同級別的信息供模型分析組合,流程如圖1所示。
圖1 NLP任務(wù)中自注意力機(jī)制示意圖
文本卷積神經(jīng)網(wǎng)絡(luò)[6]輸入為尺寸為N×K的二維空間向量。卷積部分使用三種卷積核尺寸,分別為3×K、4×K和5×K,利用三種不同尺寸卷積核進(jìn)行特征提取,并利用池化均值池化或最大值池化,進(jìn)一步縮減特征維度?;诰矸e操作的特征提取是模型的關(guān)鍵。
注意力機(jī)制(attention)[7]是模仿人類注意力所設(shè)計(jì)的一種學(xué)習(xí)機(jī)制,利用可學(xué)習(xí)的注意力權(quán)重作為輸入的不同部分,分配不同的注意力,以保證模型能夠在大量的輸入特征中快速地獲取有效信息。
注意力機(jī)制可以抽象結(jié)構(gòu)為求取Query、Key和Value之間的關(guān)系。
自注意力機(jī)制(self attention)當(dāng)中,Query、Key和Value本質(zhì)上都采用相同內(nèi)容,從而獲取輸入不同文本特征單元之間的依賴關(guān)系,如圖2所示。具體計(jì)算公式如式(3)所示。
圖2 NLP任務(wù)中自注意力機(jī)制示意圖
(3)
式中:Q、K、V分別為輸入問詢Query、鍵Key和Value值;dk為字/詞向量維度;Attention為注意力值;Softmax為歸一化指數(shù)函數(shù)。
傳統(tǒng)的文本卷積網(wǎng)絡(luò)雖能夠?qū)崿F(xiàn)高維特征的抽取,但未對關(guān)鍵性的元素加強(qiáng)“注意”,對特征的關(guān)鍵程度判別能力不足。自注意力機(jī)制,通過對文本向量進(jìn)行注意力計(jì)算獲得加權(quán)后的向量特征,再基于文本卷積網(wǎng)絡(luò)提取特征,以實(shí)現(xiàn)分類模型效果的優(yōu)化,如圖3所示。
圖3 注意力機(jī)制優(yōu)化文本卷積網(wǎng)絡(luò)結(jié)構(gòu)
利用隨機(jī)抽樣將某地區(qū)電網(wǎng)缺陷單數(shù)據(jù)按8∶2劃分為訓(xùn)練集及測試集。
測試評價(jià)指標(biāo)為測試集、測試集的準(zhǔn)確率(accuracy)和Ma-cro-F1值。二分類問題中常用的判別指標(biāo)為準(zhǔn)確率(accuracy)、F1-measure等。準(zhǔn)確率為分類正確的樣本數(shù)除以總樣本數(shù),F(xiàn)1-measure為精確率與召回率的調(diào)和平均值,其中精準(zhǔn)率是預(yù)測和真實(shí)類別均為正的樣本數(shù)除以預(yù)測類別為正的樣本總數(shù),召回率是預(yù)測和真實(shí)類別均為正的樣本數(shù)除以真實(shí)類別為正的樣本總數(shù)。
對于N分類問題,可以將每一類數(shù)據(jù)輪流作為正類,其他類別均作為負(fù)類,計(jì)算N次F1-measure,記作F11,F(xiàn)12,……,F(xiàn)1N。Macro-F1可表示為:
(4)
式中:N為分類數(shù)目;F1i為第i類數(shù)據(jù)作為正類時(shí)的F1-measure值。
為驗(yàn)證所提出數(shù)據(jù)預(yù)處理與特征融合方法的有效性,開展如下對比試驗(yàn):第一組為只采用字級別特征;第二組為采用僅基于jieba默認(rèn)分詞后的詞級別特征;第三組為基于新詞發(fā)現(xiàn)擴(kuò)充詞典后的詞級別特征;第四組獲取一、三組特征,實(shí)現(xiàn)字詞級別特征融合。四組模型均為本文所提出的注意力機(jī)制優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)(ATT+CNN),結(jié)果如表1所示。
表1 不同輸入特征分類結(jié)果對比
通過表1對比試驗(yàn)顯示,采用詞級別特征比字級別特征能夠獲得更好的分類效果,而基于新詞發(fā)現(xiàn)預(yù)處理能夠使效果獲得進(jìn)一步提升。基于新詞發(fā)現(xiàn)以及融合字、詞級別特征的方法,在測試集和訓(xùn)練的Macro-F1和準(zhǔn)確率上均取得了一般效果。通過融合字和詞級別特征,使模型能夠獲得更豐富的特征輸入,可獲得更好的缺陷分類效果。
本文主要對比所提出模型與其他深度學(xué)習(xí)模型分類效果,結(jié)果如表2所示。
表2 三種深度學(xué)習(xí)模型分類效果對比
對比試驗(yàn)顯示,基于注意力機(jī)制優(yōu)化的卷積神經(jīng)網(wǎng)絡(luò),在四項(xiàng)指標(biāo)上均取得了三種模型中的最佳效果,驗(yàn)證了本文所提出方法的有效性。
本文考慮了電力領(lǐng)域?qū)S谜Z料特點(diǎn),針對電力設(shè)備缺陷語料庫提出了基于注意力機(jī)制優(yōu)化的卷積神經(jīng)網(wǎng)絡(luò)文本信息挖掘方法。新詞發(fā)現(xiàn)和字詞特征融合有效地提升了模型對文本的信息挖掘能力?;谧⒁饬C(jī)制優(yōu)化的卷積神經(jīng)網(wǎng)絡(luò)文本信息挖掘方法相比于其他傳統(tǒng)的深度學(xué)習(xí)方法(CNN、BiLSTM)對電力缺陷文本的信息獲取能力更優(yōu)。該方法使電網(wǎng)缺陷文本分類由傳統(tǒng)的人工分類轉(zhuǎn)變?yōu)樽詣?dòng)分類,以促進(jìn)智能化運(yùn)維。