亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于新詞發(fā)現(xiàn)與特征融合的電力設(shè)備缺陷文本挖掘

2021-05-13 05:44:22陳超吳迪唐昕馮斌張又文郭創(chuàng)新

電氣自動(dòng)化 2021年2期

陳超，吳迪，唐昕，馮斌，張又文，郭創(chuàng)新

(1.國網(wǎng)浙江平湖市供電有限公司，浙江平湖 314200;2.國網(wǎng)嘉興供電公司，浙江嘉興 314033;3.浙江大學(xué) 電氣工程學(xué)院，浙江杭州 310027)

0 引言

隨著電網(wǎng)在線監(jiān)測裝置的普及，狀態(tài)評價(jià)和故障診斷的自動(dòng)化程度不斷提升。然而受限于在線監(jiān)測裝置的覆蓋率、可靠性與故障研判類型局限性問題，在目前設(shè)備運(yùn)維實(shí)踐中，仍有大量設(shè)備巡檢記錄依賴人工完成，且這部分信息常以文本形式進(jìn)行記錄[1]。近年來，學(xué)者開始將自然語言處理應(yīng)用于電力設(shè)備文本分析。邱劍博士[2]利用K近鄰方法實(shí)現(xiàn)故障文本分類，將文本挖掘技術(shù)應(yīng)用于斷路器全壽命狀態(tài)評價(jià)。文獻(xiàn)[3]與文獻(xiàn)[4]在此基礎(chǔ)上深入研究，提出了卷積神經(jīng)網(wǎng)絡(luò)與雙向長短期記憶網(wǎng)絡(luò)，提升了分類效果。

上述研究對模型結(jié)構(gòu)進(jìn)行了多種探索，但在文本預(yù)處理與特征融合方面并未開展較多研究。為提升電力缺陷文本挖掘效果，本文在文本數(shù)據(jù)預(yù)處理與特征融合方面開展研究。首先采用新詞發(fā)現(xiàn)算法，擴(kuò)充電力專業(yè)詞匯；其次在特征融合方面，融合字與詞級別特征；最終通過注意力機(jī)制優(yōu)化的卷積神經(jīng)網(wǎng)絡(luò)對電力設(shè)備缺陷文本進(jìn)行訓(xùn)練，并開展對比試驗(yàn)。

1 基于新詞發(fā)現(xiàn)的文本數(shù)據(jù)預(yù)處理

1.1 基于凝固度-自由度的新詞發(fā)現(xiàn)

為全面覆蓋具體的訓(xùn)練語料中所有的專業(yè)詞匯，除了通過導(dǎo)則規(guī)范梳理出專業(yè)詞匯外，還需對訓(xùn)練語料基于新詞發(fā)現(xiàn)算法進(jìn)行數(shù)據(jù)挖掘，再經(jīng)由人工審核作為詞典的補(bǔ)充。本文采用基于NGRAM凝固度的新詞發(fā)現(xiàn)方法，對于一個(gè)字符串序列，用凝固度表征幾個(gè)字符之間聯(lián)系的緊密程度。以三個(gè)字符構(gòu)成的字符串為例，其凝固度定義如下：

(1)

式中:P為在語料中該字符串出現(xiàn)的概率；N為字符串的凝固度；abc為由三個(gè)字符a、b、c構(gòu)成的字符串。通過限定不同GRAM的凝固度閾值，篩選出所有高于閾值要求的NGRAM字符串集合，并保留這些字符串的左右鄰居字符，再將這些候選字符串通過自由度進(jìn)行一定的篩選。某字符串的自由度為所有左鄰居字符和所有右鄰居字符的信息熵中較小的一個(gè)，如式(2)所示。

R=min{-∑P(cleft)log2P(cleft),

-∑P(cright)log2P(cright)}

(2)

式中:P為在語料中該字符串出現(xiàn)的概率；Plog2P為該字符的信息熵；cleft和cright為該字符的左鄰居字符和右鄰居字符。對不同GRAM詞語進(jìn)行自由度的閾值設(shè)置，進(jìn)一步篩選出自由度高于閾值標(biāo)準(zhǔn)的詞語，即可獲得最終的新詞。

1.2 停用詞表構(gòu)建

在電力設(shè)備缺陷記錄文本中，有部分無用信息，需要在分詞階段識別出這些無用特征并加以剔除。停用詞包括：各種中文標(biāo)點(diǎn)符號；一些無實(shí)義的錯(cuò)誤記錄，如“其他”“1號”和“Ⅱ回”等表征設(shè)備編號的詞語。

2 融合字詞特征的文本向量化表示

2.1 文本特征表示

本文采用word2vec模型[5]作為特征提取方法。它是一種常用的文本特征表示方法，利用局部上下文窗口的方式進(jìn)行滾動(dòng)訓(xùn)練，然后利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練結(jié)束后的模型參數(shù)作為向量化依據(jù)，生成向量蘊(yùn)含豐富的上下文信息。

2.2 字詞特征融合

利用字、詞兩種層次對輸入文本進(jìn)行劃分，能夠更好地保留不同級別的信息供模型分析組合，流程如圖1所示。

圖1 NLP任務(wù)中自注意力機(jī)制示意圖

3 深度學(xué)習(xí)模型構(gòu)建

3.1 文本卷積網(wǎng)絡(luò)

文本卷積神經(jīng)網(wǎng)絡(luò)[6]輸入為尺寸為N×K的二維空間向量。卷積部分使用三種卷積核尺寸，分別為3×K、4×K和5×K，利用三種不同尺寸卷積核進(jìn)行特征提取，并利用池化均值池化或最大值池化，進(jìn)一步縮減特征維度?；诰矸e操作的特征提取是模型的關(guān)鍵。

3.2 自注意力機(jī)制

注意力機(jī)制(attention)[7]是模仿人類注意力所設(shè)計(jì)的一種學(xué)習(xí)機(jī)制，利用可學(xué)習(xí)的注意力權(quán)重作為輸入的不同部分，分配不同的注意力，以保證模型能夠在大量的輸入特征中快速地獲取有效信息。

注意力機(jī)制可以抽象結(jié)構(gòu)為求取Query、Key和Value之間的關(guān)系。表示鍵值對，即通過某一鍵Keyi，能夠查詢到某一值Valuei作為輸出，Query則為輸入的問詢。通過計(jì)算Query和Key之間的相似度，得到不同的注意力權(quán)重，再將權(quán)重為Value賦值，可得最終輸出結(jié)果。

自注意力機(jī)制(self attention)當(dāng)中，Query、Key和Value本質(zhì)上都采用相同內(nèi)容，從而獲取輸入不同文本特征單元之間的依賴關(guān)系，如圖2所示。具體計(jì)算公式如式(3)所示。

圖2 NLP任務(wù)中自注意力機(jī)制示意圖

(3)

式中:Q、K、V分別為輸入問詢Query、鍵Key和Value值；dk為字/詞向量維度；Attention為注意力值;Softmax為歸一化指數(shù)函數(shù)。

3.3 注意力優(yōu)化的卷積網(wǎng)絡(luò)文本分類模型

傳統(tǒng)的文本卷積網(wǎng)絡(luò)雖能夠?qū)崿F(xiàn)高維特征的抽取，但未對關(guān)鍵性的元素加強(qiáng)“注意”，對特征的關(guān)鍵程度判別能力不足。自注意力機(jī)制，通過對文本向量進(jìn)行注意力計(jì)算獲得加權(quán)后的向量特征，再基于文本卷積網(wǎng)絡(luò)提取特征，以實(shí)現(xiàn)分類模型效果的優(yōu)化，如圖3所示。

圖3 注意力機(jī)制優(yōu)化文本卷積網(wǎng)絡(luò)結(jié)構(gòu)

4 算例分析

4.1 數(shù)據(jù)劃分與評價(jià)指標(biāo)說明

利用隨機(jī)抽樣將某地區(qū)電網(wǎng)缺陷單數(shù)據(jù)按8∶2劃分為訓(xùn)練集及測試集。

測試評價(jià)指標(biāo)為測試集、測試集的準(zhǔn)確率(accuracy)和Ma-cro-F1值。二分類問題中常用的判別指標(biāo)為準(zhǔn)確率(accuracy)、F1-measure等。準(zhǔn)確率為分類正確的樣本數(shù)除以總樣本數(shù)，F(xiàn)1-measure為精確率與召回率的調(diào)和平均值，其中精準(zhǔn)率是預(yù)測和真實(shí)類別均為正的樣本數(shù)除以預(yù)測類別為正的樣本總數(shù)，召回率是預(yù)測和真實(shí)類別均為正的樣本數(shù)除以真實(shí)類別為正的樣本總數(shù)。

對于N分類問題，可以將每一類數(shù)據(jù)輪流作為正類，其他類別均作為負(fù)類，計(jì)算N次F1-measure，記作F11，F(xiàn)12，……，F(xiàn)1N。Macro-F1可表示為：

(4)

式中:N為分類數(shù)目；F1i為第i類數(shù)據(jù)作為正類時(shí)的F1-measure值。

4.2 數(shù)據(jù)預(yù)處理及特征融合效果校驗(yàn)

為驗(yàn)證所提出數(shù)據(jù)預(yù)處理與特征融合方法的有效性，開展如下對比試驗(yàn)：第一組為只采用字級別特征；第二組為采用僅基于jieba默認(rèn)分詞后的詞級別特征；第三組為基于新詞發(fā)現(xiàn)擴(kuò)充詞典后的詞級別特征；第四組獲取一、三組特征，實(shí)現(xiàn)字詞級別特征融合。四組模型均為本文所提出的注意力機(jī)制優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)(ATT+CNN)，結(jié)果如表1所示。

表1 不同輸入特征分類結(jié)果對比

通過表1對比試驗(yàn)顯示，采用詞級別特征比字級別特征能夠獲得更好的分類效果，而基于新詞發(fā)現(xiàn)預(yù)處理能夠使效果獲得進(jìn)一步提升。基于新詞發(fā)現(xiàn)以及融合字、詞級別特征的方法，在測試集和訓(xùn)練的Macro-F1和準(zhǔn)確率上均取得了一般效果。通過融合字和詞級別特征，使模型能夠獲得更豐富的特征輸入，可獲得更好的缺陷分類效果。

4.3 多模型對比試驗(yàn)

本文主要對比所提出模型與其他深度學(xué)習(xí)模型分類效果，結(jié)果如表2所示。

表2 三種深度學(xué)習(xí)模型分類效果對比

對比試驗(yàn)顯示，基于注意力機(jī)制優(yōu)化的卷積神經(jīng)網(wǎng)絡(luò)，在四項(xiàng)指標(biāo)上均取得了三種模型中的最佳效果，驗(yàn)證了本文所提出方法的有效性。

5 結(jié)束語

本文考慮了電力領(lǐng)域?qū)Ｓ谜Z料特點(diǎn)，針對電力設(shè)備缺陷語料庫提出了基于注意力機(jī)制優(yōu)化的卷積神經(jīng)網(wǎng)絡(luò)文本信息挖掘方法。新詞發(fā)現(xiàn)和字詞特征融合有效地提升了模型對文本的信息挖掘能力?；谧⒁饬C(jī)制優(yōu)化的卷積神經(jīng)網(wǎng)絡(luò)文本信息挖掘方法相比于其他傳統(tǒng)的深度學(xué)習(xí)方法(CNN、BiLSTM)對電力缺陷文本的信息獲取能力更優(yōu)。該方法使電網(wǎng)缺陷文本分類由傳統(tǒng)的人工分類轉(zhuǎn)變?yōu)樽詣?dòng)分類，以促進(jìn)智能化運(yùn)維。