基于文本特征增強(qiáng)的電力命名實(shí)體識(shí)別

2022-11-14 06:29:02劉文松胡竹青張錦輝劉雪菁

電力系統(tǒng)自動(dòng)化 2022年21期

劉文松，胡竹青，張錦輝，2，劉雪菁，林峰，俞俊

（1. 南瑞集團(tuán)有限公司（國網(wǎng)電力科學(xué)研究院有限公司），江蘇省南京市 211106；2. 江蘇瑞中數(shù)據(jù)股份有限公司，江蘇省南京市 211106）

0 引言

命名實(shí)體識(shí)別（named entity recognition，NER）指識(shí)別文本中具有特定意義的專有名詞［1］，分通用和特定兩大類。通用NER 一般指識(shí)別人名、地名、機(jī)構(gòu)名等名詞；特定NER［2］指識(shí)別電力、財(cái)經(jīng)、司法、海洋、醫(yī)療等特定行業(yè)的名詞。電力命名實(shí)體識(shí)別具有鮮明的行業(yè)特定語義，在電力設(shè)備管理［3］、二次設(shè)備診斷［4］、電網(wǎng)調(diào)控［5］、資源中臺(tái)元數(shù)據(jù)建模等場合有著廣泛應(yīng)用，是文本分析的第1 步。以“柔性直流”為例，如將其識(shí)別為“柔性”和“直流”，即使采用實(shí)體消歧算法也無法有效糾正，直接影響后續(xù)處理［6］。因此，如何針對(duì)中文電力命名實(shí)體的特點(diǎn)，進(jìn)一步提升識(shí)別效果，值得深入研究。

中文電力命名實(shí)體的特點(diǎn)包括：1）語料規(guī)模小，無公開、標(biāo)準(zhǔn)數(shù)據(jù)集；2）實(shí)體嵌套，表現(xiàn)為實(shí)體組成復(fù)雜且長，如“靜止同步串聯(lián)補(bǔ)償器”；3）實(shí)體縮寫，表現(xiàn)為特定簡稱，如“柔性直流”簡稱為“柔直”。針對(duì)這些特點(diǎn)，傳統(tǒng)的模板法嚴(yán)格依賴于特定場景下的人工特征選擇和規(guī)則設(shè)計(jì)，無法有效解決實(shí)體縮寫和嵌套的問題。經(jīng)典的機(jī)器學(xué)習(xí)方法加強(qiáng)了特征挖掘能力，但性能提升有限［7-10］。隨著深度學(xué)習(xí)興起，雙向長短時(shí)記憶（bidirectional long short-term memory，BiLSTM）網(wǎng)絡(luò)與條件隨機(jī)場（conditional random field，CRF）［11-12］相結(jié)合，在大規(guī)模語料的支撐下，在通用命名實(shí)體識(shí)別方面取得良好效果。文獻(xiàn)［13］針對(duì)上下文學(xué)習(xí)時(shí)的噪聲影響，引入注意力機(jī)制（attention mechanism，AM）對(duì)實(shí)體信息進(jìn)行動(dòng)態(tài)加權(quán)。以BiLSTM-AM-CRF 為代表的NER 模型已逐漸成為研究主流，文獻(xiàn)［5］首次將其用于電網(wǎng)調(diào)控領(lǐng)域的實(shí)體識(shí)別，應(yīng)用于電網(wǎng)核心生產(chǎn)業(yè)務(wù)。

針對(duì)特定NER 的性能提升，現(xiàn)有研究可以主要概括為以下4 個(gè)方向：

1）優(yōu)化BiLSTM-AM-CRF 的向量輸入。常見方法是用詞向量工具Word2vec［14］獲取文本的向量表達(dá)。Word2vec 計(jì)算單詞/單字在文本中的靜態(tài)分布概率，也就是用單詞/單字的靜態(tài)分布概率來量化表示文本。文獻(xiàn)［15］提出基于語言模型的詞向量（embedding from language model，ELMo）［16］，相較Word2vec 引入更多的單詞/單字分布的上下文特征。文獻(xiàn)［17］提出基于Transformer 的雙向編碼器表征模型（bidirectional encoder representation from Transformers，BERT），BERT 依托超大規(guī)模算力（含64 塊NPU 的計(jì)算集群），充分學(xué)習(xí)33 億單詞量的語料庫，獲得的向量表達(dá)是動(dòng)態(tài)的，可以解決一詞多義問題。很多研究直接應(yīng)用BERT 單字向量進(jìn)行實(shí)體識(shí)別，取得較大性能提升［18］。

2）優(yōu)化BiLSTM-AM-CRF 的模型構(gòu)成。文獻(xiàn)

［19］提出門控循環(huán) 單元（gated recurrent unit，GRU），相比長短時(shí)記憶（long short-term memory，LSTM）網(wǎng)絡(luò)的結(jié)構(gòu)更簡潔，收斂速度更快，在數(shù)據(jù)集較小的場合也表現(xiàn)更好。文獻(xiàn)［20］提出雙向門控循環(huán) 單元（bidirectional gated recurrent unit，BiGRU）并應(yīng)用于實(shí)體識(shí)別中。

3）優(yōu)化文本特征的表達(dá)。文獻(xiàn)［21-22］采用卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural network，CNN）來學(xué)習(xí)單詞內(nèi)部的字符級(jí)特征，與單詞向量拼接后，輸入NER 模型學(xué)習(xí)。文獻(xiàn)［23］用CNN 處理漢字部首，獲得漢字形態(tài)特征。文獻(xiàn)［24］用CNN 處理特定領(lǐng)域名詞后綴，獲得專有名詞特征。相關(guān)研究雖已運(yùn)用了單詞的語義信息，但未提及如何合理控制分詞誤差。雖然通過CNN 學(xué)習(xí)單詞的字符級(jí)特征，但沒有結(jié)合中文電力命名實(shí)體的特點(diǎn)引入更多文本特征，且未結(jié)合分詞策略進(jìn)行優(yōu)化。

4）提出新的NER 模型結(jié)構(gòu)。與BiLSTM-AMCRF 不同，文獻(xiàn)［25］提出級(jí)聯(lián)LSTM，即輸入單字向量的LSTM 與輸入單詞向量的LSTM 構(gòu)成級(jí)聯(lián)網(wǎng)絡(luò)。一方面，單字向量輸入的LSTM 降低了分詞誤差的影響。另一方面，文本序列中所有可能組詞的單詞向量輸入到LSTM 中，也會(huì)引入較多的無關(guān)信息。對(duì)此，文獻(xiàn)［26］探索引入門控去噪機(jī)制來過濾無關(guān)的文本信息。

參考以上特定NER 研究，結(jié)合電力命名實(shí)體的特點(diǎn)，開展電力命名實(shí)體的方法研究，重點(diǎn)在于小規(guī)模語料條件下，進(jìn)一步豐富增強(qiáng)構(gòu)成電力命名實(shí)體的單詞特征，從而提升實(shí)體識(shí)別模型的效果。據(jù)此，本文提出一種基于文本特征增強(qiáng)的電力實(shí)體識(shí)別方法。首先，通過預(yù)設(shè)先驗(yàn)詞庫和低粒度分詞來降低分詞誤差帶來的影響；其次，設(shè)計(jì)詞級(jí)BiGRU 學(xué)習(xí)中文單詞的組成和順序特征，結(jié)合詞性、詞長特征，實(shí)現(xiàn)單詞特征增強(qiáng)；最后，通過BiGRU 完成文本的實(shí)體特征學(xué)習(xí)，采用注意力機(jī)制加強(qiáng)與實(shí)體特征相關(guān)的信息加權(quán)，降低單字對(duì)訓(xùn)練的干擾，并用CRF完成文本標(biāo)簽的解碼輸出。綜合上述3 個(gè)方法，提高電力命名實(shí)體識(shí)別的性能。

1 方法設(shè)計(jì)

1.1 基于預(yù)設(shè)詞庫的低粒度分詞

中文NER 任務(wù)包括單詞、單字兩種顆粒度。文獻(xiàn)［22，24-26］提出字詞聯(lián)合的實(shí)體識(shí)別，但均未提到如何克服分詞誤差的影響。部分研究［18］為回避分詞誤差，直接基于單字向量訓(xùn)練NER 模型。但由于中文語言的特點(diǎn)，基于單字顆粒度訓(xùn)練向量時(shí)，割裂了字與詞的關(guān)系，比如，“同步”拆成“同”與“步”時(shí)，含義已經(jīng)不準(zhǔn)確、不充分，用其表示文本特征是不合適的。

對(duì)于電力命名實(shí)體嵌套，其表現(xiàn)特點(diǎn)是電力專用名詞由多個(gè)細(xì)粒度單詞共同組成，如“靜止同步串聯(lián)補(bǔ)償器”是由“靜止”“同步”“串聯(lián)”“補(bǔ)償器”等名詞組成。因此，重點(diǎn)是能保證最小粒度的單詞被正確分出。而這也降低了分詞的難度，尤其是降低了復(fù)雜語境下錯(cuò)誤分詞的可能。因此，本文采用預(yù)設(shè)詞庫和低粒度分詞結(jié)合的方式，把“靜止”“同步”“串聯(lián)”等常用詞納入詞庫，基于預(yù)設(shè)詞庫的正向和逆向最大匹配完成分詞。從可拓展性的角度，常用詞最大長度不大于4。結(jié)合以上考慮，本文將183 796個(gè)電力領(lǐng)域常用詞納入預(yù)設(shè)詞庫，采用基于預(yù)設(shè)詞庫的低粒度分詞，電力文本語料同時(shí)包含單字和單詞，表達(dá)能力更強(qiáng)，同時(shí)可將分詞誤差控制在較低的范圍內(nèi)。

1.2 基于詞級(jí)BiGRU 的單詞特征增強(qiáng)

引入中文單詞以后，充分、全面地表達(dá)單詞特征，對(duì)于NER 模型學(xué)習(xí)電力命名實(shí)體的特征，從而提高整體的識(shí)別率尤為重要。為此，首先設(shè)計(jì)詞級(jí)BiGRU 學(xué)習(xí)單詞內(nèi)部的組成和順序特征，即單詞的構(gòu)造特征，單個(gè)GRU 結(jié)構(gòu)如圖1 所示。

圖1 GRU 結(jié)構(gòu)Fig.1 GRU structure

GRU 前向傳播權(quán)重參數(shù)更新公式如下：

式中：σ為sigmoid 函數(shù)；xt為t時(shí)刻輸入；rt和zt分別為t時(shí)刻重置門和更新門的輸出；ht-1為t-1 時(shí)刻隱藏狀態(tài)；?h t為t時(shí) 刻候選隱藏狀態(tài)；ht為t時(shí) 刻記憶內(nèi)容；Wxr和Whr分別為重置門中當(dāng)前輸入xt和上一時(shí)刻隱藏狀態(tài)ht-1的權(quán)重參數(shù)；Wxz和Whz分別為更新門中當(dāng)前輸入xt和上一時(shí)刻隱藏狀態(tài)ht-1的權(quán)重參數(shù)；Wxh和Whh分別為計(jì)算候選隱藏狀態(tài)?h t時(shí)當(dāng)前輸入xt和rt?ht-1的權(quán)重參數(shù)；?為Hadmard乘積；br、bz、bh分別為重置門、更新門和計(jì)算候選隱藏狀態(tài)?h t的偏差參數(shù)。

結(jié)合圖1 和式（1）分析GRU 運(yùn)行機(jī)制：更新門zt可以組合控制上一時(shí)刻ht-1和候選隱藏狀態(tài)?h t，更新輸出ht，決定過去到未來的信息量。重置門rt趨近零時(shí)，重置和遺忘上一時(shí)刻ht-1的狀態(tài)信息，將候選隱藏狀態(tài)?h t重置為當(dāng)前輸入信息xt，即決定過去信息的被遺忘量。GRU 通過更新門和重置門的門控機(jī)制，能夠保存長期序列中的信息并決定輸出哪些信息。

據(jù)此設(shè)計(jì)詞級(jí)BiGRU 學(xué)習(xí)單詞內(nèi)部的組成和順序特征，如圖2 所示：包括兩個(gè)GRU 序列，每個(gè)GRU 序列包含4 個(gè)完全相同的GRU 單元，二者僅輸入方向不同。可見，詞級(jí)BiGRU 是針對(duì)基于預(yù)設(shè)詞庫的低粒度分詞方法專門設(shè)計(jì)的BiGRU。中文語料經(jīng)過低粒度分詞后，第i個(gè)單詞wi由單字ci1、ci2、ci3、ci4組成（如單詞長度小于4 就填0 補(bǔ)齊），將對(duì)應(yīng)的單字向量v′i1、v′i2、v′i3、v′i4輸入詞級(jí)BiGRU。此處的單字向量源于前文所提同一份中文語料，不做分詞，采用詞向量工具Word2vec 對(duì)單字集合{c1，c2，…，cM}進(jìn)行處理，獲取M個(gè)單字向量組成的集合{v′1，v′2，…，v′M}。由于訓(xùn)練主體是中文單詞內(nèi)部的單字字符，其標(biāo)簽設(shè)置為單字在單詞內(nèi)的順序編碼即可。通過GRU 序列計(jì)算，獲得第i個(gè)單詞wi的前向特征向量vFi和后向特征向量vBi，拼接成單詞構(gòu)造特征向量vSi=[vFi，vBi]。因此，相對(duì)于CNN學(xué)習(xí)單詞的字符級(jí)特征，詞級(jí)BiGRU 可以同時(shí)獲得單詞的組成和順序特征。

圖2 基于詞級(jí)BiGRU 的單詞構(gòu)造特征學(xué)習(xí)Fig.2 Word structure feature learning based on wordlevel BiGRU

其次，引入單詞的詞性特征和詞長特征。詞性可以表示單詞的類別信息，一般情況下，中文詞性可以分為12 類，其中名詞、動(dòng)詞、形容詞、數(shù)詞、量詞和代詞是實(shí)詞，副詞、介詞、連詞、助詞、擬聲詞和嘆詞是虛詞。除去擬聲詞和嘆詞，共選用10 類詞性。對(duì)于第i個(gè)單詞wi的詞性向量vpi，采用onehot 編碼，向量長度為10。詞長可以表示單詞的邊界信息，對(duì)于第i個(gè)單詞wi的詞長向量vli，由于最大詞長限定為4，采用onehot 編碼，向量長度為4。

綜上所述，單詞的特征增強(qiáng)就是引入單詞的構(gòu)造特征vSi、詞性特征vpi和詞長特征vli，與原有單詞向量vi進(jìn)行拼接，得向量vei=[vi，vSi，vpi，vli]，將其輸入NER 模型進(jìn)行實(shí)體特征學(xué)習(xí)。和v′i不同，此處vi是指經(jīng)過低粒度分詞處理得到單詞和單字后，采用詞向量工具獲得的向量（既包括單詞向量，也包括單字向量）。對(duì)于單詞向量，進(jìn)行增強(qiáng)處理；但對(duì)于單字向量，考慮到單字不易判別詞性，且單字也不存在所謂的構(gòu)造特征，因此不做增強(qiáng)處理。因此，vei相對(duì)于單字向量更長，在輸入NER 模型前需填0對(duì)齊。

1.3 基于BiGRU-AM-CRF 的實(shí)體特征學(xué)習(xí)

基于單詞特征增強(qiáng)，設(shè)計(jì)合適的NER 模型進(jìn)行實(shí)體特征的學(xué)習(xí)，需要考慮的因素包括：1）已有文獻(xiàn)證明GRU 在數(shù)據(jù)集較小的場合下表現(xiàn)更好，貼近中文電力語料規(guī)模較小的情景；2）采用低粒度分詞后，依然存在的單字可能會(huì)干擾NER 模型對(duì)實(shí)體特征學(xué)習(xí)的效果。因此，引入注意力機(jī)制，通過與實(shí)體有關(guān)的上下文信息進(jìn)行加權(quán)。采用BiGRU-AMCRF 作為NER 模型。

基于詞級(jí)BiGRU 的電力實(shí)體識(shí)別模型結(jié)構(gòu)如圖3 所示，電力實(shí)體識(shí)別過程為：首先，基于預(yù)設(shè)詞庫的低粒度分詞后，獲得包含N個(gè)單字和單詞的文本集合{w1，w2，…，wN}；其次，將單詞輸入詞級(jí)BiGRU 獲取單詞構(gòu)造特征向量，將其與詞性向量、詞長向量、單詞向量拼接，實(shí)現(xiàn)文本特征的增強(qiáng)；然后，將增強(qiáng)后的單詞向量與單字向量輸入到BiGRU中，進(jìn)一步學(xué)習(xí)電力中文語料中單詞和單字的全局分布特征和上下文關(guān)系，獲得實(shí)體特征向量序列H=[h1，h2，…，hN]。BiGRU 原理與詞級(jí)BiGRU原理相似，不再贅述。

圖3 基于詞級(jí)BiGRU 的電力實(shí)體識(shí)別模型Fig.3 Electric NER model based on word-level BiGRU

針對(duì)單字可能造成的影響，引入注意力機(jī)制對(duì)t時(shí)刻的實(shí)體特征向量ht進(jìn)行權(quán)重分配，動(dòng)態(tài)生成不同連接的權(quán)重bt，從而完成與實(shí)體相關(guān)的特征加權(quán)，計(jì)算最大概率值的標(biāo)簽并輸出t時(shí)刻的注意力狀態(tài)向量x′t。注意力機(jī)制公式如下：

權(quán)重bt=[bt1，bt2，…，btD]的計(jì)算公式如下：

式中：etj為t時(shí)刻通過tanh 激活函數(shù)獲得的向量元素；α、β、γ為權(quán)重；btj為t時(shí)刻實(shí)體特征向量ht第j個(gè)維度的權(quán)重；D為BiGRU 維數(shù)；k為求和變量。

通過CRF 建立標(biāo)簽相關(guān)性，解碼輸出最后標(biāo)簽。輸入注意力狀態(tài) 向量序列X′=[x′1，x′2，…，x′N]，可得預(yù)測(cè)標(biāo)簽序列Y=[y1，y2，…，yN]的轉(zhuǎn)移概率p(Y|X′)為：

式中：S(X′，Y)為注意力機(jī)制輸出狀態(tài)序列經(jīng)過線性鏈條件隨機(jī)場后預(yù)測(cè)得到的標(biāo)簽序列預(yù)測(cè)分?jǐn)?shù)；pi，yi為第i個(gè) 位置判為標(biāo) 簽yi的非歸一化概率；Ayi+1，yi為標(biāo)簽yi+1轉(zhuǎn)移到y(tǒng)i的概率。

根據(jù)式（4），訓(xùn)練過程中損失函數(shù)表示為：

采用Viterbi 算法，通過動(dòng)態(tài)規(guī)劃尋找概率最大路徑，實(shí) 現(xiàn) 預(yù) 測(cè) 標(biāo) 簽序列Y=[y1，y2，…，yN] 的求解。

訓(xùn)練開始時(shí)，詞級(jí)BiGRU 的參數(shù)采用Xavier uniform 進(jìn)行初始化，并在訓(xùn)練過程中持續(xù)從后續(xù)網(wǎng)絡(luò)中獲得反向傳播的梯度信息，從而進(jìn)行該部分參數(shù)的優(yōu)化。梯度信息來源于模型的損失函數(shù)，即將CRF 的動(dòng)態(tài)規(guī)劃解碼結(jié)果（本質(zhì)是預(yù)測(cè)標(biāo)簽的概率分布）與真實(shí)標(biāo)簽的對(duì)數(shù)似然函數(shù)作為損失函數(shù)，損失函數(shù)對(duì)當(dāng)前參數(shù)的偏導(dǎo)即為參數(shù)的梯度，通過沿梯度方向調(diào)整參數(shù)以使對(duì)數(shù)似然函數(shù)最大化，實(shí)現(xiàn)預(yù)測(cè)標(biāo)簽的概率分布盡可能接近真實(shí)標(biāo)簽，從而提升整體訓(xùn)練效果。

2 實(shí)驗(yàn)分析

2.1 實(shí)驗(yàn)數(shù)據(jù)和評(píng)價(jià)標(biāo)準(zhǔn)

考慮到電力領(lǐng)域暫無公開的標(biāo)準(zhǔn)語料數(shù)據(jù)集，而已有的公開數(shù)據(jù)集缺乏電力專業(yè)特色，無法驗(yàn)證方法的有效性，因此選用國網(wǎng)電力科學(xué)研究院的研究報(bào)告、專利和論文共900 份作為語料，定義三大類電力實(shí)體類型，包括652 個(gè)電力行業(yè)機(jī)構(gòu)、754 種電力設(shè)備及材料、1 984 項(xiàng)電力技術(shù)，涵蓋電氣技術(shù)、電力工程材料、水力發(fā)電、火力發(fā)電、風(fēng)力及太陽能發(fā)電、環(huán)境保護(hù)與勞動(dòng)保護(hù)等9 類專業(yè)領(lǐng)域，涉及雙碳和新型電力系統(tǒng)、電力自動(dòng)化及繼電保護(hù)、電力信息通信、特高壓輸電及柔性輸電、發(fā)電及節(jié)能環(huán)保、軌道交通及工業(yè)自動(dòng)化等25 種技術(shù)類別，具有較好的代表性。標(biāo)注方法為BIOE，B 表示實(shí)體開始，I 表示實(shí)體內(nèi)部，E 表示實(shí)體結(jié)束，O 表示不是實(shí)體。

使用準(zhǔn)確率P、召回率R和F1 分?jǐn)?shù)來評(píng)價(jià)算法效果，具體公式如下：

式中：T為正樣本判為正的數(shù)量；FP為正樣本判為負(fù)的數(shù)量；FN為負(fù)樣本判為正的數(shù)量；F1為F1 分?jǐn)?shù)，是準(zhǔn)確率P和召回率R的綜合值，表示既希望較高的召回率，也希望較高的準(zhǔn)確率。

2.2 實(shí)驗(yàn)方法

電力命名實(shí)體識(shí)別的效果與詞向量工具的選擇、文本特征的學(xué)習(xí)、模型構(gòu)成有直接關(guān)系。因此，本文從以下幾個(gè)方面驗(yàn)證方法的有效性。

1）不同文本向量對(duì)實(shí)體識(shí)別性能的影響

基于文本特征增強(qiáng)的電力命名實(shí)體識(shí)別方法，分別采用Word2vec、ELMo、BERT 獲得中文電力文本的向量表達(dá)，測(cè)試不同文本向量對(duì)命名實(shí)體識(shí)別效果的影響。BiGRU 的學(xué)習(xí)率為0.01，隱節(jié)點(diǎn)數(shù)為150，Dropout 為0.5，迭代次數(shù)為100。實(shí)驗(yàn)采用5 折交叉驗(yàn)證，即將數(shù)據(jù)集隨機(jī)劃分為5 份，4 份用于模型訓(xùn)練，剩下的1 份用于測(cè)試，對(duì)結(jié)果取平均值。實(shí)驗(yàn)結(jié)果見表1。

由表1 可知，得益于文本向量的性能提升，命名實(shí)體識(shí)別的性能也得以提升。但隨著文本向量的能力提升，也意味著計(jì)算、存儲(chǔ)資源占用更多，需要結(jié)合電力業(yè)務(wù)的具體應(yīng)用場景選擇合適的詞向量工具。

表1 不同文本向量的性能比較Table 1 Performance comparison of different text vectors

2）不同模型構(gòu)成對(duì)實(shí)體識(shí)別性能的影響

基于同一詞向量工具Word2vec，采用本文的基于預(yù)設(shè)詞庫的低粒度分詞以及文本增強(qiáng)方法，分別測(cè)試BiLSTM-CRF、BiGRU-CRF、BiGRU-AM-CRF 3 種模型的實(shí)體識(shí)別效果，實(shí)驗(yàn)結(jié)果見表2。

表2 不同NER 模型的性能比較Table 3 Performance comparison of different NER models

由表2 可知，基于本文的小樣本量中文電力語料數(shù)據(jù)，BiLSTM 和BiGRU 性能接近，甚至BiGRU的準(zhǔn)確率還略高一些。在此基礎(chǔ)上，加入注意力機(jī)制后，識(shí)別效果有了較大提升。這也證明，詞級(jí)BiGRU 重點(diǎn)完成文本局部特征（單詞構(gòu)造特征）學(xué)習(xí)，而NER 模型中的BiGRU 則著重于文本序列中單字和單詞之間整體的上下文學(xué)習(xí)，并通過注意力機(jī)制加強(qiáng)了實(shí)體特征的權(quán)重分配，降低了單字的影響。相關(guān)方法的組合運(yùn)用有良好的互補(bǔ)作用。

3）不同處理方法對(duì)實(shí)體識(shí)別性能的影響

基于同一文本向量Word2vec 表達(dá)，選取文獻(xiàn)［5］、文獻(xiàn)［22］、文獻(xiàn)［25］和本文方法進(jìn)行比較。其中，文獻(xiàn)［5］、文獻(xiàn)［22］和文獻(xiàn)［25］均采用Jieba 分詞工具完成分詞，本文采用基于預(yù)設(shè)詞庫的低粒度分詞。文獻(xiàn)［5］在電力領(lǐng)域?qū)Ｓ妹~識(shí)別取得良好應(yīng)用，其核心方法是BiLSTM-AM-CRF 模型。文獻(xiàn)［22］是在BiLSTM-AM-CRF 基礎(chǔ)上，采用CNN 學(xué)習(xí)單詞的字符級(jí)特征，實(shí)現(xiàn)文本特征增強(qiáng)的代表性方法。文獻(xiàn)［25］是基于Lattice-LSTM 模型，通過單字向量的LSTM 與單詞向量的LSTM 級(jí)聯(lián)來完成實(shí)體識(shí)別模型訓(xùn)練。本文是通過詞級(jí)BiGRU 學(xué)習(xí)單詞的內(nèi)部構(gòu)造特征，實(shí)現(xiàn)文本特征增強(qiáng)，同時(shí)采用BiGRU-AM-CRF 完成實(shí)體識(shí)別。實(shí)驗(yàn)結(jié)果見表3。

表3 不同識(shí)別方法的性能比較Table 3 Performance comparison of different recognition methods

由表3 可知，基于相同的詞向量工具，本文方法相對(duì)于文獻(xiàn)［5］、文獻(xiàn)［22］和文獻(xiàn)［25］取得更好效果。文獻(xiàn)［25］引入當(dāng)前單字可能匹配到的全部單詞，客觀上帶來更多的冗余信息，會(huì)影響實(shí)體特征識(shí)別的準(zhǔn)確性。相比于文獻(xiàn)［5］，文獻(xiàn)［22］通過引入單詞的字符級(jí)特征，從而帶來效果提升。和文獻(xiàn)［22］相比，本文一方面采用基于預(yù)設(shè)詞庫的細(xì)粒度分詞控制分詞誤差；另一方面采用詞級(jí)BiGRU 學(xué)習(xí)單詞的內(nèi)部構(gòu)造特征，既包含單字內(nèi)部組成和順序特征，也結(jié)合了詞長和詞性特征，較CNN 獲取的字符級(jí)特征更為豐富。

2.3 驗(yàn)證分析

以“定子雙繞組內(nèi)反饋串級(jí)調(diào)速高壓電動(dòng)機(jī)及調(diào)速控制裝置”為實(shí)例，給出了文獻(xiàn)［5］、文獻(xiàn)［22］、文獻(xiàn)［25］和本文方法的實(shí)驗(yàn)效果，如表4 所示，其中，紅色字體表示識(shí)別出的電力命名實(shí)體。在本例中，“高壓電動(dòng)機(jī)”“調(diào)速控制裝置”是電力設(shè)備及材料名稱（power equipment and materials，PEM），“定子雙繞組”“串級(jí)調(diào)速”是電力技術(shù)名稱（electrical technologies，ET），均屬于電力專有名詞。同時(shí)，這些實(shí)體具有一定的模糊性。文獻(xiàn)［5］的方法識(shí)別出“雙繞組”“控制裝置”“調(diào)速高壓電動(dòng)機(jī)”，但“定子雙繞組”“調(diào)速控制裝置”沒有被完整識(shí)別，且未識(shí)別“串級(jí)調(diào)速”而是將“調(diào)速”與“高壓電動(dòng)機(jī)”識(shí)別在一起。類似地，采用文獻(xiàn)［22］方法，“定子雙繞組”“調(diào)速控制裝置”等實(shí)體未能完整識(shí)別，且“串級(jí)調(diào)速”沒有被識(shí)別成電力專有名詞，而是識(shí)別為普通詞。文獻(xiàn)［25］方法考慮所有關(guān)聯(lián)詞，造成“組”與后面的“內(nèi)反饋”“串級(jí)調(diào)速”識(shí)別到一起。本文方法正確識(shí)別出“定子雙繞組”“串級(jí)調(diào)速”是電力技術(shù)實(shí)體，“高壓電動(dòng)機(jī)”“控制裝置”為電力設(shè)備及材料實(shí)體，雖然未能將“調(diào)速控制裝置”識(shí)別完整，但是整體而言，對(duì)電力專有名詞的識(shí)別效果得到改善。

表4 不同方法的實(shí)施效果Table 4 Implement effects of different methods

3 應(yīng)用實(shí)例

本方法已在科研管理業(yè)務(wù)的技術(shù)能力地圖中得以應(yīng)用。技術(shù)能力地圖是以科研管理系統(tǒng)中的科技項(xiàng)目和研究成果為基礎(chǔ)數(shù)據(jù)構(gòu)建的電力科技圖譜，可以為量化評(píng)估科研能力、關(guān)聯(lián)查找專家團(tuán)隊(duì)提供支撐［27］。技術(shù)能力地圖的一個(gè)重要數(shù)據(jù)來源是研究成果，大量技術(shù)點(diǎn)隱含在專利、論文、軟著、研究報(bào)告等科技文獻(xiàn)中，人工檢索困難，需要依賴準(zhǔn)確的算法提取。

為在技術(shù)能力地圖中柔性關(guān)聯(lián)和展示挖掘到的技術(shù)點(diǎn)，設(shè)計(jì)了體系、項(xiàng)目、單位、人員、文獻(xiàn)和技術(shù)六大圖譜本體。知識(shí)圖譜中的本體是指同一類實(shí)體及其屬性和關(guān)系的集合。對(duì)于體系本體，技術(shù)體系內(nèi)每層、每類的技術(shù)類別名稱，就是體系實(shí)體，技術(shù)體系內(nèi)的層數(shù)是實(shí)體屬性；對(duì)于項(xiàng)目本體，各類科技項(xiàng)目名稱就是項(xiàng)目實(shí)體，項(xiàng)目層次（國家級(jí)、省部級(jí)、地市級(jí)等）等是實(shí)體屬性；對(duì)于單位本體，科研項(xiàng)目的執(zhí)行機(jī)構(gòu)就是單位實(shí)體，單位性質(zhì)（企業(yè)、高校、院所）作為單位實(shí)體屬性；對(duì)于人員本體，科研項(xiàng)目的負(fù)責(zé)人或核心骨干就是人員實(shí)體，職稱、職位作為實(shí)體屬性；對(duì)于文獻(xiàn)本體，科研項(xiàng)目產(chǎn)出的專利、軟著、論文、研究報(bào)告等為文獻(xiàn)實(shí)體，文獻(xiàn)類別作為文獻(xiàn)實(shí)體的屬性；對(duì)于技術(shù)本體，指科技文獻(xiàn)中描述的技術(shù)點(diǎn)，比如人工智能、量子加密、5G 通信等。對(duì)于體系、項(xiàng)目、單位、人員、文獻(xiàn)5 類本體，依托現(xiàn)有科研管理信息系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫，從中抽取相應(yīng)的實(shí)體和屬性數(shù)據(jù)加入知識(shí)圖譜中。對(duì)于技術(shù)類本體，采用本文方法從文獻(xiàn)實(shí)體中抽取技術(shù)點(diǎn)，并自動(dòng)建立技術(shù)實(shí)體與文獻(xiàn)實(shí)體的關(guān)聯(lián)。在此基礎(chǔ)上，以科技項(xiàng)目實(shí)體為核心，向上關(guān)聯(lián)體系實(shí)體，橫向關(guān)聯(lián)單位實(shí)體、人員實(shí)體和文獻(xiàn)實(shí)體，向下關(guān)聯(lián)技術(shù)實(shí)體，從而最終得到技術(shù)能力地圖，在顯性展示科研合作網(wǎng)絡(luò)的同時(shí)，從電力技術(shù)實(shí)體的視角展示技術(shù)熱點(diǎn)，如圖4 所示。對(duì)于部分識(shí)別不準(zhǔn)確的電力技術(shù)實(shí)體，一方面可以結(jié)合無監(jiān)督的信息熵挖掘算法進(jìn)行輔助校驗(yàn)，并通過詞頻予以過濾；一方面通過開放分發(fā)的方式交由科研人員編輯糾正。

圖4 技術(shù)能力地圖Fig.4 Map of technology capability

4 結(jié)語

電力領(lǐng)域的文本語料來源于電力設(shè)備管理、二次設(shè)備診斷、電網(wǎng)調(diào)控、資源中臺(tái)元數(shù)據(jù)模型、電網(wǎng)營銷等一線生產(chǎn)環(huán)境的運(yùn)行數(shù)據(jù)及相關(guān)技術(shù)文獻(xiàn)，具有專業(yè)性強(qiáng)、規(guī)模小的特點(diǎn)。電力實(shí)體識(shí)別可將這些業(yè)務(wù)場景中的文本信息轉(zhuǎn)化成可用的知識(shí)，有利于電網(wǎng)專業(yè)知識(shí)的快速查詢和智能檢索。

本文提出一種文本特征增強(qiáng)的電力命名實(shí)體識(shí)別方法，通過預(yù)設(shè)先驗(yàn)詞庫和低粒度分詞，合理利用中文單詞蘊(yùn)含的語義信息，降低分詞誤差帶來的影響；基于詞級(jí)BiGRU 學(xué)習(xí)單詞構(gòu)造特征，結(jié)合詞長、詞性特征，與單詞向量拼接后，實(shí)現(xiàn)文本特征增強(qiáng)；在此基礎(chǔ)上，通過BiGRU 完成文本序列的全局特征學(xué)習(xí)，采用注意力機(jī)制加強(qiáng)與實(shí)體特征相關(guān)的信息加權(quán)，降低單字對(duì)訓(xùn)練的干擾，最后通過CRF 完成文本標(biāo)簽的解碼輸出。

基于中文電力語料進(jìn)行測(cè)試，以上方法的綜合實(shí)施取得了良好效果，為相關(guān)研究提供了新的思路。但還需要獲取更多的應(yīng)用場景語料測(cè)試方法的普適性，引入更多的電力行業(yè)特征及字形、讀音等特征，進(jìn)一步探索模型訓(xùn)練參數(shù)對(duì)識(shí)別性能的影響。后續(xù)，可針對(duì)以上不足進(jìn)一步開展相應(yīng)的研究和測(cè)試，同時(shí)探索集成多類深度學(xué)習(xí)或機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)工程應(yīng)用中識(shí)別性能的綜合提升。

采用本文方法訓(xùn)練的電力命名實(shí)體識(shí)別模型經(jīng)封裝后，以網(wǎng)絡(luò)服務(wù)形式對(duì)外公開測(cè)試。在測(cè)試文本框界面中輸入一段文字資料，點(diǎn)擊測(cè)試按鍵，即返回識(shí)別的電力命名實(shí)體結(jié)果。相關(guān)脫敏的中文電力語料也同步公開，詳見http://www.aeps-info.com:5014/。

本文研究得到國網(wǎng)電力科學(xué)研究院有限公司科技項(xiàng)目“知識(shí)圖譜技術(shù)研究及在科技領(lǐng)域應(yīng)用”資助，特此感謝！

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放