亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于混合神經(jīng)網(wǎng)絡(luò)的電力調(diào)度文本事件抽取方法

        2022-11-16 09:33:50劉赫皮俊波宋鵬程趙翰林張?jiān)?/span>劉顯壯
        中國(guó)電力 2022年9期
        關(guān)鍵詞:文本故障模型

        劉赫,皮俊波,宋鵬程,趙翰林,張?jiān)剑瑒@壯

        (1. 國(guó)家電網(wǎng)有限公司 國(guó)家電力調(diào)度控制中心,北京 100031;2. 南瑞集團(tuán)有限公司(國(guó)網(wǎng)電力科學(xué)研究院有限公司),江蘇 南京 211106;3. 北京科東電力控制系統(tǒng)有限責(zé)任公司,北京 100192)

        0 引言

        電力調(diào)度文本中含有大量保障電網(wǎng)安全穩(wěn)定運(yùn)行的知識(shí)[1-2]。面對(duì)日益復(fù)雜的電網(wǎng)調(diào)度業(yè)務(wù),研究電力調(diào)度文本實(shí)體識(shí)別和事件抽取具有重要意義[3-7]。電力調(diào)度文本實(shí)體識(shí)別和事件抽取屬于自然語(yǔ)言處理范疇。

        傳統(tǒng)的實(shí)體識(shí)別和事件抽取方法存在人工成本高、靈活性低等問題。為了實(shí)現(xiàn)文本特征智能識(shí)別,深度學(xué)習(xí)領(lǐng)域循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)被應(yīng)用于提取文本序列特征[8],但存在梯度消失問題,難以有效識(shí)別長(zhǎng)文本序列特征。文獻(xiàn)[9]提出了基于具有門控機(jī)制的長(zhǎng)短期記憶網(wǎng)絡(luò)(long short term memory,LSTM)實(shí)體識(shí)別方法。文獻(xiàn)[10-12]分別采用卷積雙向長(zhǎng)短期記憶網(wǎng)絡(luò)、雙向長(zhǎng)短期記憶網(wǎng)絡(luò)等方法完成識(shí)別工作。在電網(wǎng)領(lǐng)域中,文獻(xiàn)[13-14]提出電力調(diào)度文本實(shí)體識(shí)別和事件抽取是建設(shè)智能調(diào)控機(jī)器人應(yīng)用場(chǎng)景的關(guān)鍵技術(shù),也是調(diào)控人工智能平臺(tái)的基礎(chǔ)能力。文獻(xiàn)[15]通過提取調(diào)度規(guī)程故障處置要點(diǎn),提升了線路故障處置效率和規(guī)范性。文獻(xiàn)[16]建立了停電計(jì)劃文本實(shí)體識(shí)別模型。文獻(xiàn)[17]基于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)-條件隨機(jī)場(chǎng)(bidirectional long short term memory-conditional random field,BiLSTM-CRF)建立變壓器缺陷文本實(shí)體識(shí)別模型。綜上,目前電力文本解析常基于深度學(xué)習(xí)建立實(shí)體識(shí)別模型,難以對(duì)文本事件中所有要素按照語(yǔ)言邏輯進(jìn)行提取。

        本文基于變換器雙向編碼器表征技術(shù)(bidirectional encoder representations from transformers,BERT)訓(xùn)練的動(dòng)態(tài)詞向量表示預(yù)案文本特征?;陔p向長(zhǎng)短期記憶網(wǎng)絡(luò)-條件隨機(jī)場(chǎng)訓(xùn)練預(yù)案實(shí)體特征和觸發(fā)詞特征?;谖谋揪矸e神經(jīng)網(wǎng)絡(luò)(text convolutional neural network,TextCNN)訓(xùn)練預(yù)案觸發(fā)詞與實(shí)體間的關(guān)系特征,建立以預(yù)案觸發(fā)詞為中心的事件抽取模型,從而提升電力調(diào)度文本事件抽取準(zhǔn)確率。

        1 電力調(diào)度文本特點(diǎn)

        電力調(diào)度文本種類多樣,包含調(diào)度規(guī)程、故障處置預(yù)案、工作票、停電計(jì)劃以及啟動(dòng)方案等。其中故障處置預(yù)案變化頻繁,但對(duì)調(diào)度業(yè)務(wù)具有重要作用,因此本文選擇故障處置預(yù)案作為研究對(duì)象。

        故障處置預(yù)案隨電網(wǎng)運(yùn)行方式、季節(jié)等因素變化頻繁,各地區(qū)調(diào)控中心每年都會(huì)編制迎峰度夏預(yù)案。故障處置預(yù)案包含電網(wǎng)在各種運(yùn)行方式下重大故障和處置方式,對(duì)保障電網(wǎng)安全穩(wěn)定運(yùn)行至關(guān)重要?,F(xiàn)行故障處置預(yù)案是調(diào)度員憑借工作經(jīng)驗(yàn)離線進(jìn)行編制。電網(wǎng)故障處置措施需要結(jié)合電網(wǎng)運(yùn)行方式進(jìn)行校核,對(duì)不合適的處置措施進(jìn)行輔助修改。對(duì)于校核后的故障處置預(yù)案,可以支撐故障處置預(yù)案在線監(jiān)視和故障處置預(yù)案智能推送。故障處置預(yù)案校核的基礎(chǔ)是預(yù)案電子化,需要得到預(yù)案事件種類、操作對(duì)象名稱、操作對(duì)象程度等電子化信息進(jìn)行校核。故障處置預(yù)案構(gòu)成如圖1所示。故障處置預(yù)案文本以非結(jié)構(gòu)化形式存在。在預(yù)案校核過程中,需要對(duì)故障處置措施以及故障后運(yùn)行方式等內(nèi)容進(jìn)行解析,生成預(yù)案解析后的信息。根據(jù)故障處置預(yù)案應(yīng)用需求,本文提出了以預(yù)案執(zhí)行動(dòng)詞為觸發(fā)詞的預(yù)案事件要素抽取方法。

        圖1 故障處置預(yù)案構(gòu)成Fig. 1 Composition of fault handling plan

        2 電力調(diào)度文本事件抽取方法

        2.1 混合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        BERT預(yù)訓(xùn)練模型主要通過文本預(yù)處理層提升對(duì)自然語(yǔ)言特征表示能力,BERT模型結(jié)構(gòu)可以參考文獻(xiàn)[18-22]。本文基于BERT訓(xùn)練的動(dòng)態(tài)詞向量表示預(yù)案文本特征。電力調(diào)度文本首先須進(jìn)入文本預(yù)處理層,將輸入文本進(jìn)行隨機(jī)遮掩,采用非監(jiān)督學(xué)習(xí)方法預(yù)測(cè)遮掩詞匯,使語(yǔ)言模型能夠利用信息進(jìn)行編碼,從而加強(qiáng)BERT模型的雙向語(yǔ)言表征能力。

        電力調(diào)度文本前后字符語(yǔ)義關(guān)聯(lián)性較強(qiáng),本文通過LSTM識(shí)別命名實(shí)體標(biāo)簽。與此同時(shí),為了獲取電力調(diào)度文本雙向語(yǔ)義信息,采用BiLSTM識(shí)別實(shí)體標(biāo)簽,雙層網(wǎng)絡(luò)從預(yù)案文本正向訓(xùn)練得到隱含層向量hp,從預(yù)案文本反向訓(xùn)練得到隱含層向量ht,通過將hp和ht首尾拼接得到保留雙向語(yǔ)義的隱含層向量ht2。ht2的維度與電力調(diào)度文本命名實(shí)體標(biāo)簽數(shù)相同,各維數(shù)值中最大的對(duì)應(yīng)的預(yù)案實(shí)體標(biāo)簽基本為預(yù)案實(shí)體字符正確標(biāo)簽。

        在識(shí)別電力調(diào)度文本實(shí)體時(shí),BiLSTM提取了文本雙向語(yǔ)義信息,但還未能考慮預(yù)案實(shí)體間的依存聯(lián)系,因此本文采用條件隨機(jī)場(chǎng)(conditional random field,CRF)表示電力調(diào)度文本實(shí)體中字符標(biāo)簽與全局字符標(biāo)簽的依存關(guān)系,從而預(yù)測(cè)出最優(yōu)的實(shí)體字符標(biāo)簽。CRF可對(duì)電力調(diào)度文本實(shí)體字符標(biāo)簽進(jìn)行綜合評(píng)分。

        采用TextCNN網(wǎng)絡(luò)[23-25]訓(xùn)練電力調(diào)度文本不同實(shí)體對(duì)與實(shí)體關(guān)系標(biāo)簽的映射關(guān)系,實(shí)現(xiàn)對(duì)實(shí)體關(guān)系的識(shí)別和分類。具體結(jié)構(gòu)如圖2所示。

        圖2 TextCNN網(wǎng)絡(luò)結(jié)構(gòu)Fig. 2 Network structure of TextCNN

        將經(jīng)過BERT模型轉(zhuǎn)化的電力調(diào)度文本向量序列作為TextCNN輸入。卷積層通過3個(gè)不同尺寸的卷積核對(duì)電力調(diào)度文本向量進(jìn)行特征提取,經(jīng)過激活函數(shù)得到每個(gè)特征步向量。經(jīng)過卷積操作,得到當(dāng)前濾波器輸出的特征圖表達(dá)式。最后經(jīng)過池化操作,通過選取每個(gè)特征圖的最大值捕捉電力調(diào)度文本重要特征信息,采用拼接方法得到電力調(diào)度文本新的特征向量?;谌B接層計(jì)算電力調(diào)度文本所對(duì)應(yīng)的實(shí)體關(guān)系標(biāo)簽概率值,選擇概率最大的實(shí)體關(guān)系標(biāo)簽作為文本序列預(yù)測(cè)的正確結(jié)果。

        電力文本事件抽取混合神經(jīng)網(wǎng)絡(luò)由BERT、BiLSTM-CRF、TextCNN共3種神經(jīng)網(wǎng)絡(luò)構(gòu)成,基于BERT預(yù)訓(xùn)練的動(dòng)態(tài)詞向量將電力專業(yè)文本轉(zhuǎn)化為可計(jì)算的詞向量,采用BiLSTM-CRF網(wǎng)絡(luò)框架建立預(yù)案實(shí)體識(shí)別模型,采用TextCNN建立預(yù)案實(shí)體關(guān)系抽取模型。網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。在圖3中,xn、hn、cn分別為第n個(gè)輸入字符、字符隱含層向量、信息記憶單元向量。

        圖3 混合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig. 3 Hybrid neural network structure

        通過BERT將調(diào)度專業(yè)文本字符轉(zhuǎn)化為768維向量,將預(yù)案實(shí)體向量輸入BiLSTM網(wǎng)絡(luò)模型,采用前向和后向2個(gè)不同LSTM網(wǎng)絡(luò)訓(xùn)練文本序列特征,通過CRF層提升預(yù)案實(shí)體觸發(fā)詞和名詞的準(zhǔn)確率。其中LSTM網(wǎng)絡(luò)單元隱藏層狀態(tài)維度為200,隱含層數(shù)為2。通過BiLSTM-CRF識(shí)別的預(yù)案實(shí)體種類主要為實(shí)體名詞(noun)和實(shí)體動(dòng)詞(action)。動(dòng)詞為文中所定義的預(yù)案事件觸發(fā)詞。

        在TextCNN訓(xùn)練預(yù)案的實(shí)體關(guān)系識(shí)別過程中,設(shè)定3個(gè)卷積核寬分別為1、3、5,卷積核數(shù)分別為30、40、50。故障處置預(yù)案實(shí)體關(guān)系抽取本質(zhì)是多分類問題,本文采用Softmax函數(shù)實(shí)現(xiàn)故障處置預(yù)案實(shí)體關(guān)系分類。預(yù)案實(shí)體關(guān)系依據(jù)觸發(fā)詞與各實(shí)體名詞間的語(yǔ)法可以劃分為操作發(fā)起者(sub-object)、操作對(duì)象(object)、操作對(duì)象補(bǔ)語(yǔ)(com-object)、操作對(duì)象前置狀語(yǔ)(preobject)、操作對(duì)象后置狀語(yǔ)(rea-object)。

        2.2 預(yù)案事件觸發(fā)詞標(biāo)記及識(shí)別

        通過分析故障處置預(yù)案語(yǔ)言特點(diǎn),每條預(yù)案事件均含有執(zhí)行動(dòng)詞,因此本文提出了以執(zhí)行動(dòng)詞為觸發(fā)詞的故障處置預(yù)案標(biāo)記方法。預(yù)案實(shí)體名詞與觸發(fā)詞存在語(yǔ)法關(guān)系,這樣可以通過識(shí)別觸發(fā)詞將預(yù)案事件中所有事件要素提取出來(lái),從而提高預(yù)案實(shí)體識(shí)別和事件抽取準(zhǔn)確率。部分預(yù)案事件特征分析結(jié)果如表1所示。

        表1 預(yù)案事件特征分析結(jié)果Table 1 Characteristic analysis results of plan events

        以執(zhí)行動(dòng)作為觸發(fā)詞的預(yù)案事件抽取方法可以解決預(yù)案專業(yè)語(yǔ)言表述倒裝、語(yǔ)序混雜以及電力設(shè)備實(shí)體表述不規(guī)范等問題。從表1中可以看出,預(yù)案事件中的動(dòng)詞位置不固定,導(dǎo)致語(yǔ)法各成分位置不固定,基于規(guī)則和機(jī)器學(xué)習(xí)方法建立的實(shí)體識(shí)別模型難以較好地解析預(yù)案。本文所提以觸發(fā)詞為中心的預(yù)案識(shí)別方法首先識(shí)別觸發(fā)詞位置和各實(shí)體名詞位置,然后通過識(shí)別觸發(fā)詞與各實(shí)體名詞的語(yǔ)法關(guān)系,可以將預(yù)案事件中各成分準(zhǔn)確識(shí)別出來(lái)。以“控制南湖電廠出力不超過100萬(wàn)kW”典型預(yù)案為例,首先識(shí)別“控制”觸發(fā)詞和“南湖電廠”“不超過100萬(wàn)kW”實(shí)體名詞,然后識(shí)別“控制”與“南湖電廠”間關(guān)系為操作對(duì)象,“控制”與“不超過100萬(wàn)kW”間關(guān)系為操作對(duì)象后置狀語(yǔ),只要在觸發(fā)詞識(shí)別準(zhǔn)確的情況下,可以有效地實(shí)現(xiàn)預(yù)案事件抽取。對(duì)于電力設(shè)備實(shí)體表述不規(guī)范情況,如“東湖I、II線”的實(shí)體名詞包含2個(gè)電力實(shí)體“東湖I線”“東湖II線”,先用模型識(shí)別“東湖I、II線”整個(gè)實(shí)體,再使用規(guī)則進(jìn)行實(shí)體拆分。具體預(yù)案標(biāo)記實(shí)例如圖4所示。

        圖4 故障處置預(yù)案文本標(biāo)記實(shí)例Fig. 4 Marking example of fault handling plan text

        3 算例分析

        3.1 電力調(diào)度文本事件抽取效果

        采用某調(diào)控中心歷史故障處置預(yù)案作為研究對(duì)象,將每個(gè)預(yù)案的標(biāo)題、穩(wěn)定控制要求和緊急控制階段處置措施對(duì)應(yīng)的預(yù)案文本作為試驗(yàn)數(shù)據(jù)。通過本文方法標(biāo)記2種預(yù)案實(shí)體和5種實(shí)體關(guān)系,共標(biāo)記1 000個(gè)預(yù)案語(yǔ)句,每個(gè)預(yù)案語(yǔ)句中有1個(gè)觸發(fā)詞,生成預(yù)案實(shí)體4 110個(gè),生成預(yù)案實(shí)體關(guān)系3 110個(gè),其中3 690個(gè)實(shí)體和2 790個(gè)實(shí)體關(guān)系作為訓(xùn)練樣本,剩余420個(gè)實(shí)體和320個(gè)實(shí)體關(guān)系作為測(cè)試樣本。本文基于Pytorch框架搭建算法,方法的訓(xùn)練環(huán)境為Intel處理器,CPU運(yùn)行內(nèi)存為128 GB,GPU 為NVIDIA 16 GB。

        本文采用典型的精確率Pre、召回率Rec和評(píng)價(jià)值F1作為評(píng)價(jià)故障處置預(yù)案實(shí)體和實(shí)體關(guān)系識(shí)別結(jié)果的評(píng)價(jià)指標(biāo),即

        式中:TP為預(yù)測(cè)正確樣本數(shù);FP為非一類的樣本被錯(cuò)誤地預(yù)測(cè)到一類的樣本數(shù)量;FN為一類文本被誤預(yù)測(cè)到其他類別的樣本數(shù)量。

        通過本文方法計(jì)算訓(xùn)練樣本預(yù)案實(shí)體識(shí)別的Pre、Rec和F1分別為98.93%、98.88%和98.90%。采用該模型識(shí)別測(cè)試樣本420個(gè)預(yù)案實(shí)體,2類預(yù)案實(shí)體的識(shí)別效果如表2所示?;赥extCNN網(wǎng)絡(luò)對(duì)2 790個(gè)預(yù)案實(shí)體關(guān)系進(jìn)行分類訓(xùn)練,基于預(yù)案實(shí)體關(guān)系抽取模型對(duì)測(cè)試樣本320個(gè)預(yù)案實(shí)體關(guān)系進(jìn)行識(shí)別,5類實(shí)體關(guān)系的識(shí)別效果如表3所示。從表2~3中可以看出,本文方法對(duì)故障處置預(yù)案實(shí)體和實(shí)體關(guān)系具有較高的識(shí)別準(zhǔn)確率。2種預(yù)案實(shí)體識(shí)別的平均F1為95.01%,5種預(yù)案實(shí)體關(guān)系識(shí)別的平均F1為89.71%。

        表2 預(yù)案實(shí)體識(shí)別效果Table 2 Effect of plan entity recognition

        表3 預(yù)案實(shí)體關(guān)系抽取效果Table 3 Effect of plan entity relation extraction

        3.2 模型對(duì)比

        將本文方法與基于正則表達(dá)式、基于word2vec詞向量的BiLSTM-CRF+TextCNN所建立的預(yù)案事件抽取模型對(duì)比,各模型對(duì)于測(cè)試樣本2種預(yù)案實(shí)體和5種預(yù)案實(shí)體關(guān)系識(shí)別的平均F1如表4所示。將各模型預(yù)案實(shí)體識(shí)別和實(shí)體關(guān)系平均精確率、召回率和評(píng)價(jià)值對(duì)比繪制如圖5所示。

        表4 各模型預(yù)案事件識(shí)別效果Table 4 Plan event recognition effects of various models

        圖5 預(yù)案事件抽取效果Fig. 5 Comparison of plan event extraction effects

        結(jié)合表4和圖5可以看出,本文所提模型的實(shí)體識(shí)別和實(shí)體關(guān)系抽取效果要明顯優(yōu)于其他模型。采用上述試驗(yàn)中典型故障處置預(yù)案文本驗(yàn)證各模型效果,對(duì)于“xx站1#變壓器”“xx站1#主變”“xx站1#變”3個(gè)含義相同的預(yù)案實(shí)體,正則表達(dá)式模型難以有效地識(shí)別實(shí)體的邊界線,導(dǎo)致實(shí)體識(shí)別出現(xiàn)錯(cuò)誤。對(duì)于“控制南湖電廠出力不超過100萬(wàn)kW”和“南湖電廠出力調(diào)整范圍不能高于100萬(wàn)kW”2個(gè)語(yǔ)義相同但表述不同的文本,基于正則表達(dá)式的模型可以預(yù)配置觸發(fā)詞識(shí)別“控制”和“調(diào)整”,但很難根據(jù)語(yǔ)法識(shí)別觸發(fā)詞與“南湖電廠”名詞實(shí)體的關(guān)系為object,導(dǎo)致預(yù)案事件識(shí)別錯(cuò)誤,故基于正則表達(dá)式的模型難以應(yīng)對(duì)多樣性表述的預(yù)案文本,其他2種模型通過訓(xùn)練標(biāo)記樣本,能夠較為準(zhǔn)確地抽取事件要素,泛化能力優(yōu)于正則表達(dá)式。與以word2vec為詞向量的模型相比,以BERT為詞向量的模型實(shí)體識(shí)別和實(shí)體關(guān)系抽取的F1分別高出2.86個(gè)百分點(diǎn)和4.98個(gè)百分點(diǎn),說明BERT模型比word2vec詞向量模型更能夠提取電力調(diào)度專業(yè)文本語(yǔ)義特征,更適合對(duì)電力調(diào)度文本進(jìn)行編碼。

        4 結(jié)語(yǔ)

        為了提升電力調(diào)度文本事件抽取準(zhǔn)確率,提出基于混合神經(jīng)網(wǎng)絡(luò)的電力調(diào)度文本事件抽取方法,通過分析電網(wǎng)故障處置預(yù)案特點(diǎn),提出了以觸發(fā)詞為中心的電力文本標(biāo)記方法和事件抽取方法,通過BERT模型生成調(diào)度專業(yè)語(yǔ)言詞向量,采用BiLSTM-CRF建立預(yù)案識(shí)別模型,采用TextCNN建立預(yù)案實(shí)體關(guān)系抽取模型。通過某調(diào)控中心歷史預(yù)案驗(yàn)證,所提方法具有較好的事件抽取效果。

        猜你喜歡
        文本故障模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        故障一點(diǎn)通
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        3D打印中的模型分割與打包
        奔馳R320車ABS、ESP故障燈異常點(diǎn)亮
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        故障一點(diǎn)通
        久久九九精品国产av| 337p日本欧洲亚洲大胆色噜噜| 中文字幕高清无码不卡在线| 日本女优久久精品观看| 奇米影视色777四色在线首页| 老外和中国女人毛片免费视频| 91久久久久无码精品露脸| 亚洲一区二区女优视频| 日本最新一区二区三区视频观看| 2018国产精华国产精品| 99精品一区二区三区免费视频| 国模一区二区三区白浆| 中文乱码字字幕在线国语| 亚洲 自拍 另类小说综合图区| 久久这里只精品国产99热| 91亚洲最新国语中文字幕| 45岁妇女草逼视频播放| 少妇丰满大乳被男人揉捏视频| 日韩一区二区肥| 女同同成片av免费观看| 国产亚洲成性色av人片在线观| 88久久精品无码一区二区毛片| 国产一级在线现免费观看| 色小姐在线视频中文字幕| √天堂资源中文www| 日韩人妻精品无码一区二区三区| 精品久久久久88久久久| 国产精品一区久久综合| 国产精品久久久久9999吃药| 一区二区国产在线观看| 精品一区二区亚洲一二三区| 久久综合99re88久久爱| 亚洲av男人的天堂在线观看| 亚洲片在线视频| 国产极品大奶在线视频| 亚洲va中文字幕无码毛片| 日韩二三区| 中文字幕亚洲永久精品| 久久综合狠狠综合久久综合88| 18禁男女爽爽爽午夜网站免费| 91国产自拍视频在线|