亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本特征增強(qiáng)的電力命名實(shí)體識(shí)別

        2022-11-14 06:29:02劉文松胡竹青張錦輝劉雪菁
        電力系統(tǒng)自動(dòng)化 2022年21期
        關(guān)鍵詞:單字分詞語料

        劉文松,胡竹青,張錦輝,2,劉雪菁,林 峰,俞 俊

        (1. 南瑞集團(tuán)有限公司(國網(wǎng)電力科學(xué)研究院有限公司),江蘇省南京市 211106;2. 江蘇瑞中數(shù)據(jù)股份有限公司,江蘇省南京市 211106)

        0 引言

        命名實(shí)體識(shí)別(named entity recognition,NER)指識(shí)別文本中具有特定意義的專有名詞[1],分通用和特定兩大類。通用NER 一般指識(shí)別人名、地名、機(jī)構(gòu)名等名詞;特定NER[2]指識(shí)別電力、財(cái)經(jīng)、司法、海洋、醫(yī)療等特定行業(yè)的名詞。電力命名實(shí)體識(shí)別具有鮮明的行業(yè)特定語義,在電力設(shè)備管理[3]、二次設(shè)備診斷[4]、電網(wǎng)調(diào)控[5]、資源中臺(tái)元數(shù)據(jù)建模等場合有著廣泛應(yīng)用,是文本分析的第1 步。以“柔性直流”為例,如將其識(shí)別為“柔性”和“直流”,即使采用實(shí)體消歧算法也無法有效糾正,直接影響后續(xù)處理[6]。因此,如何針對(duì)中文電力命名實(shí)體的特點(diǎn),進(jìn)一步提升識(shí)別效果,值得深入研究。

        中文電力命名實(shí)體的特點(diǎn)包括:1)語料規(guī)模小,無公開、標(biāo)準(zhǔn)數(shù)據(jù)集;2)實(shí)體嵌套,表現(xiàn)為實(shí)體組成復(fù)雜且長,如“靜止同步串聯(lián)補(bǔ)償器”;3)實(shí)體縮寫,表現(xiàn)為特定簡稱,如“柔性直流”簡稱為“柔直”。針對(duì)這些特點(diǎn),傳統(tǒng)的模板法嚴(yán)格依賴于特定場景下的人工特征選擇和規(guī)則設(shè)計(jì),無法有效解決實(shí)體縮寫和嵌套的問題。經(jīng)典的機(jī)器學(xué)習(xí)方法加強(qiáng)了特征挖掘能力,但性能提升有限[7-10]。隨著深度學(xué)習(xí)興起,雙向長短時(shí)記憶(bidirectional long short-term memory,BiLSTM)網(wǎng)絡(luò)與條件隨機(jī)場(conditional random field,CRF)[11-12]相結(jié)合,在大規(guī)模語料的支撐下,在通用命名實(shí)體識(shí)別方面取得良好效果。文獻(xiàn)[13]針對(duì)上下文學(xué)習(xí)時(shí)的噪聲影響,引入注意力機(jī)制(attention mechanism,AM)對(duì)實(shí)體信息進(jìn)行動(dòng)態(tài)加權(quán)。以BiLSTM-AM-CRF 為代表的NER 模型已逐漸成為研究主流,文獻(xiàn)[5]首次將其用于電網(wǎng)調(diào)控領(lǐng)域的實(shí)體識(shí)別,應(yīng)用于電網(wǎng)核心生產(chǎn)業(yè)務(wù)。

        針對(duì)特定NER 的性能提升,現(xiàn)有研究可以主要概括為以下4 個(gè)方向:

        1)優(yōu)化BiLSTM-AM-CRF 的向量輸入。常見方法是用詞向量工具Word2vec[14]獲取文本的向量表達(dá)。Word2vec 計(jì)算單詞/單字在文本中的靜態(tài)分布概率,也就是用單詞/單字的靜態(tài)分布概率來量化表示文本。文獻(xiàn)[15]提出基于語言模型的詞向量(embedding from language model,ELMo)[16],相 較Word2vec 引入更多的單詞/單字分布的上下文特征。文獻(xiàn)[17]提出基于Transformer 的雙向編碼器表征模型(bidirectional encoder representation from Transformers,BERT),BERT 依托超大 規(guī)模算力(含64 塊NPU 的計(jì)算集群),充分學(xué)習(xí)33 億單詞量的語料庫,獲得的向量表達(dá)是動(dòng)態(tài)的,可以解決一詞多義問題。很多研究直接應(yīng)用BERT 單字向量進(jìn)行實(shí)體識(shí)別,取得較大性能提升[18]。

        2)優(yōu)化BiLSTM-AM-CRF 的模型構(gòu)成。文獻(xiàn)

        [19]提 出 門 控 循 環(huán) 單 元(gated recurrent unit,GRU),相比長短時(shí)記憶(long short-term memory,LSTM)網(wǎng)絡(luò)的結(jié)構(gòu)更簡潔,收斂速度更快,在數(shù)據(jù)集較小的場合也表現(xiàn)更好。文獻(xiàn)[20]提出雙向門控 循 環(huán) 單 元(bidirectional gated recurrent unit,BiGRU)并應(yīng)用于實(shí)體識(shí)別中。

        3)優(yōu)化文本特征的表達(dá)。文獻(xiàn)[21-22]采用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)來學(xué)習(xí)單詞內(nèi)部的字符級(jí)特征,與單詞向量拼接后,輸入NER 模型學(xué)習(xí)。文獻(xiàn)[23]用CNN 處理漢字部首,獲得漢字形態(tài)特征。文獻(xiàn)[24]用CNN 處理特定領(lǐng)域名詞后綴,獲得專有名詞特征。相關(guān)研究雖已運(yùn)用了單詞的語義信息,但未提及如何合理控制分詞誤差。雖然通過CNN 學(xué)習(xí)單詞的字符級(jí)特征,但沒有結(jié)合中文電力命名實(shí)體的特點(diǎn)引入更多文本特征,且未結(jié)合分詞策略進(jìn)行優(yōu)化。

        4)提出新的NER 模型結(jié)構(gòu)。與BiLSTM-AMCRF 不同,文獻(xiàn)[25]提出級(jí)聯(lián)LSTM,即輸入單字向量的LSTM 與輸入單詞向量的LSTM 構(gòu)成級(jí)聯(lián)網(wǎng)絡(luò)。一方面,單字向量輸入的LSTM 降低了分詞誤差的影響。另一方面,文本序列中所有可能組詞的單詞向量輸入到LSTM 中,也會(huì)引入較多的無關(guān)信息。對(duì)此,文獻(xiàn)[26]探索引入門控去噪機(jī)制來過濾無關(guān)的文本信息。

        參考以上特定NER 研究,結(jié)合電力命名實(shí)體的特點(diǎn),開展電力命名實(shí)體的方法研究,重點(diǎn)在于小規(guī)模語料條件下,進(jìn)一步豐富增強(qiáng)構(gòu)成電力命名實(shí)體的單詞特征,從而提升實(shí)體識(shí)別模型的效果。據(jù)此,本文提出一種基于文本特征增強(qiáng)的電力實(shí)體識(shí)別方法。首先,通過預(yù)設(shè)先驗(yàn)詞庫和低粒度分詞來降低分詞誤差帶來的影響;其次,設(shè)計(jì)詞級(jí)BiGRU 學(xué)習(xí)中文單詞的組成和順序特征,結(jié)合詞性、詞長特征,實(shí)現(xiàn)單詞特征增強(qiáng);最后,通過BiGRU 完成文本的實(shí)體特征學(xué)習(xí),采用注意力機(jī)制加強(qiáng)與實(shí)體特征相關(guān)的信息加權(quán),降低單字對(duì)訓(xùn)練的干擾,并用CRF完成文本標(biāo)簽的解碼輸出。綜合上述3 個(gè)方法,提高電力命名實(shí)體識(shí)別的性能。

        1 方法設(shè)計(jì)

        1.1 基于預(yù)設(shè)詞庫的低粒度分詞

        中文NER 任務(wù)包括單詞、單字兩種顆粒度。文獻(xiàn)[22,24-26]提出字詞聯(lián)合的實(shí)體識(shí)別,但均未提到如何克服分詞誤差的影響。部分研究[18]為回避分詞誤差,直接基于單字向量訓(xùn)練NER 模型。但由于中文語言的特點(diǎn),基于單字顆粒度訓(xùn)練向量時(shí),割裂了字與詞的關(guān)系,比如,“同步”拆成“同”與“步”時(shí),含義已經(jīng)不準(zhǔn)確、不充分,用其表示文本特征是不合適的。

        對(duì)于電力命名實(shí)體嵌套,其表現(xiàn)特點(diǎn)是電力專用名詞由多個(gè)細(xì)粒度單詞共同組成,如“靜止同步串聯(lián)補(bǔ)償器”是由“靜止”“同步”“串聯(lián)”“補(bǔ)償器”等名詞組成。因此,重點(diǎn)是能保證最小粒度的單詞被正確分出。而這也降低了分詞的難度,尤其是降低了復(fù)雜語境下錯(cuò)誤分詞的可能。因此,本文采用預(yù)設(shè)詞庫和低粒度分詞結(jié)合的方式,把“靜止”“同步”“串聯(lián)”等常用詞納入詞庫,基于預(yù)設(shè)詞庫的正向和逆向最大匹配完成分詞。從可拓展性的角度,常用詞最大長度不大于4。結(jié)合以上考慮,本文將183 796個(gè)電力領(lǐng)域常用詞納入預(yù)設(shè)詞庫,采用基于預(yù)設(shè)詞庫的低粒度分詞,電力文本語料同時(shí)包含單字和單詞,表達(dá)能力更強(qiáng),同時(shí)可將分詞誤差控制在較低的范圍內(nèi)。

        1.2 基于詞級(jí)BiGRU 的單詞特征增強(qiáng)

        引入中文單詞以后,充分、全面地表達(dá)單詞特征,對(duì)于NER 模型學(xué)習(xí)電力命名實(shí)體的特征,從而提高整體的識(shí)別率尤為重要。為此,首先設(shè)計(jì)詞級(jí)BiGRU 學(xué)習(xí)單詞內(nèi)部的組成和順序特征,即單詞的構(gòu)造特征,單個(gè)GRU 結(jié)構(gòu)如圖1 所示。

        圖1 GRU 結(jié)構(gòu)Fig.1 GRU structure

        GRU 前向傳播權(quán)重參數(shù)更新公式如下:

        式中:σ為sigmoid 函數(shù);xt為t時(shí)刻輸入;rt和zt分別為t時(shí)刻重置門和更新門的輸出;ht-1為t-1 時(shí)刻隱藏 狀 態(tài);?h t為t時(shí) 刻 候 選 隱 藏 狀 態(tài);ht為t時(shí) 刻 記 憶內(nèi)容;Wxr和Whr分別為重置門中當(dāng)前輸入xt和上一時(shí)刻隱藏狀態(tài)ht-1的權(quán)重參數(shù);Wxz和Whz分別為更新門中當(dāng)前輸入xt和上一時(shí)刻隱藏狀態(tài)ht-1的權(quán)重參數(shù);Wxh和Whh分別為計(jì)算候選隱藏狀態(tài)?h t時(shí)當(dāng)前輸入xt和rt?ht-1的權(quán)重參數(shù);?為Hadmard乘積;br、bz、bh分別為重置門、更新門和計(jì)算候選隱藏狀態(tài)?h t的偏差參數(shù)。

        結(jié)合圖1 和式(1)分析GRU 運(yùn)行機(jī)制:更新門zt可以組合控制上一時(shí)刻ht-1和候選隱藏狀態(tài)?h t,更新輸出ht,決定過去到未來的信息量。重置門rt趨近零時(shí),重置和遺忘上一時(shí)刻ht-1的狀態(tài)信息,將候選隱藏狀態(tài)?h t重置為當(dāng)前輸入信息xt,即決定過去信息的被遺忘量。GRU 通過更新門和重置門的門控機(jī)制,能夠保存長期序列中的信息并決定輸出哪些信息。

        據(jù)此設(shè)計(jì)詞級(jí)BiGRU 學(xué)習(xí)單詞內(nèi)部的組成和順序特征,如圖2 所示:包括兩個(gè)GRU 序列,每個(gè)GRU 序列包含4 個(gè)完全相同的GRU 單元,二者僅輸入方向不同。可見,詞級(jí)BiGRU 是針對(duì)基于預(yù)設(shè)詞庫的低粒度分詞方法專門設(shè)計(jì)的BiGRU。中文語料經(jīng)過低粒度分詞后,第i個(gè)單詞wi由單字ci1、ci2、ci3、ci4組成(如單詞長度小于4 就填0 補(bǔ)齊),將對(duì)應(yīng)的單字向量v′i1、v′i2、v′i3、v′i4輸入詞級(jí)BiGRU。此處的單字向量源于前文所提同一份中文語料,不做分詞,采用詞向量工具Word2vec 對(duì)單字集合{c1,c2,…,cM}進(jìn)行處理,獲取M個(gè)單字向量組成的集合{v′1,v′2,…,v′M}。由于訓(xùn)練主體是中文單詞內(nèi)部的單字字符,其標(biāo)簽設(shè)置為單字在單詞內(nèi)的順序編碼即可。通過GRU 序列計(jì)算,獲得第i個(gè)單詞wi的前向特征向量vFi和后向特征向量vBi,拼接成單詞構(gòu)造特征向量vSi=[vFi,vBi]。因此,相對(duì)于CNN學(xué)習(xí)單詞的字符級(jí)特征,詞級(jí)BiGRU 可以同時(shí)獲得單詞的組成和順序特征。

        圖2 基于詞級(jí)BiGRU 的單詞構(gòu)造特征學(xué)習(xí)Fig.2 Word structure feature learning based on wordlevel BiGRU

        其次,引入單詞的詞性特征和詞長特征。詞性可以表示單詞的類別信息,一般情況下,中文詞性可以分為12 類,其中名詞、動(dòng)詞、形容詞、數(shù)詞、量詞和代詞是實(shí)詞,副詞、介詞、連詞、助詞、擬聲詞和嘆詞是虛詞。除去擬聲詞和嘆詞,共選用10 類詞性。對(duì)于第i個(gè)單詞wi的詞性向量vpi,采用onehot 編碼,向量長度為10。詞長可以表示單詞的邊界信息,對(duì)于第i個(gè)單詞wi的詞長向量vli,由于最大詞長限定為4,采用onehot 編碼,向量長度為4。

        綜上所述,單詞的特征增強(qiáng)就是引入單詞的構(gòu)造特征vSi、詞性特征vpi和詞長特征vli,與原有單詞向量vi進(jìn)行拼接,得向量vei=[vi,vSi,vpi,vli],將其輸入NER 模型進(jìn)行實(shí)體特征學(xué)習(xí)。和v′i不同,此處vi是指經(jīng)過低粒度分詞處理得到單詞和單字后,采用詞向量工具獲得的向量(既包括單詞向量,也包括單字向量)。對(duì)于單詞向量,進(jìn)行增強(qiáng)處理;但對(duì)于單字向量,考慮到單字不易判別詞性,且單字也不存在所謂的構(gòu)造特征,因此不做增強(qiáng)處理。因此,vei相對(duì)于單字向量更長,在輸入NER 模型前需填0對(duì)齊。

        1.3 基于BiGRU-AM-CRF 的實(shí)體特征學(xué)習(xí)

        基于單詞特征增強(qiáng),設(shè)計(jì)合適的NER 模型進(jìn)行實(shí)體特征的學(xué)習(xí),需要考慮的因素包括:1)已有文獻(xiàn)證明GRU 在數(shù)據(jù)集較小的場合下表現(xiàn)更好,貼近中文電力語料規(guī)模較小的情景;2)采用低粒度分詞后,依然存在的單字可能會(huì)干擾NER 模型對(duì)實(shí)體特征學(xué)習(xí)的效果。因此,引入注意力機(jī)制,通過與實(shí)體有關(guān)的上下文信息進(jìn)行加權(quán)。采用BiGRU-AMCRF 作 為NER 模 型。

        基于詞級(jí)BiGRU 的電力實(shí)體識(shí)別模型結(jié)構(gòu)如圖3 所示,電力實(shí)體識(shí)別過程為:首先,基于預(yù)設(shè)詞庫的低粒度分詞后,獲得包含N個(gè)單字和單詞的文本 集 合{w1,w2,…,wN};其 次,將 單 詞 輸 入 詞 級(jí)BiGRU 獲取單詞構(gòu)造特征向量,將其與詞性向量、詞長向量、單詞向量拼接,實(shí)現(xiàn)文本特征的增強(qiáng);然后,將增強(qiáng)后的單詞向量與單字向量輸入到BiGRU中,進(jìn)一步學(xué)習(xí)電力中文語料中單詞和單字的全局分布特征和上下文關(guān)系,獲得實(shí)體特征向量序列H=[h1,h2,…,hN]。BiGRU 原 理 與 詞 級(jí)BiGRU原理相似,不再贅述。

        圖3 基于詞級(jí)BiGRU 的電力實(shí)體識(shí)別模型Fig.3 Electric NER model based on word-level BiGRU

        針對(duì)單字可能造成的影響,引入注意力機(jī)制對(duì)t時(shí)刻的實(shí)體特征向量ht進(jìn)行權(quán)重分配,動(dòng)態(tài)生成不同連接的權(quán)重bt,從而完成與實(shí)體相關(guān)的特征加權(quán),計(jì)算最大概率值的標(biāo)簽并輸出t時(shí)刻的注意力狀態(tài)向量x′t。注意力機(jī)制公式如下:

        權(quán)重bt=[bt1,bt2,…,btD]的計(jì)算公式如下:

        式中:etj為t時(shí)刻通過tanh 激活函數(shù)獲得的向量元素;α、β、γ為權(quán)重;btj為t時(shí)刻實(shí)體特征向量ht第j個(gè)維度的權(quán)重;D為BiGRU 維數(shù);k為求和變量。

        通過CRF 建立標(biāo)簽相關(guān)性,解碼輸出最后標(biāo)簽。輸 入 注 意 力 狀 態(tài) 向 量 序 列X′=[x′1,x′2,…,x′N],可得預(yù)測(cè)標(biāo)簽序列Y=[y1,y2,…,yN]的轉(zhuǎn)移概率p(Y|X′)為:

        式中:S(X′,Y)為注意力機(jī)制輸出狀態(tài)序列經(jīng)過線性鏈條件隨機(jī)場后預(yù)測(cè)得到的標(biāo)簽序列預(yù)測(cè)分?jǐn)?shù);pi,yi為 第i個(gè) 位 置 判 為 標(biāo) 簽yi的 非 歸 一 化 概 率;Ayi+1,yi為標(biāo)簽yi+1轉(zhuǎn)移到y(tǒng)i的概率。

        根據(jù)式(4),訓(xùn)練過程中損失函數(shù)表示為:

        采用Viterbi 算法,通過動(dòng)態(tài)規(guī)劃尋找概率最大路 徑,實(shí) 現(xiàn) 預(yù) 測(cè) 標(biāo) 簽 序 列Y=[y1,y2,…,yN] 的求解。

        訓(xùn)練開始時(shí),詞級(jí)BiGRU 的參數(shù)采用Xavier uniform 進(jìn)行初始化,并在訓(xùn)練過程中持續(xù)從后續(xù)網(wǎng)絡(luò)中獲得反向傳播的梯度信息,從而進(jìn)行該部分參數(shù)的優(yōu)化。梯度信息來源于模型的損失函數(shù),即將CRF 的動(dòng)態(tài)規(guī)劃解碼結(jié)果(本質(zhì)是預(yù)測(cè)標(biāo)簽的概率分布)與真實(shí)標(biāo)簽的對(duì)數(shù)似然函數(shù)作為損失函數(shù),損失函數(shù)對(duì)當(dāng)前參數(shù)的偏導(dǎo)即為參數(shù)的梯度,通過沿梯度方向調(diào)整參數(shù)以使對(duì)數(shù)似然函數(shù)最大化,實(shí)現(xiàn)預(yù)測(cè)標(biāo)簽的概率分布盡可能接近真實(shí)標(biāo)簽,從而提升整體訓(xùn)練效果。

        2 實(shí)驗(yàn)分析

        2.1 實(shí)驗(yàn)數(shù)據(jù)和評(píng)價(jià)標(biāo)準(zhǔn)

        考慮到電力領(lǐng)域暫無公開的標(biāo)準(zhǔn)語料數(shù)據(jù)集,而已有的公開數(shù)據(jù)集缺乏電力專業(yè)特色,無法驗(yàn)證方法的有效性,因此選用國網(wǎng)電力科學(xué)研究院的研究報(bào)告、專利和論文共900 份作為語料,定義三大類電力實(shí)體類型,包括652 個(gè)電力行業(yè)機(jī)構(gòu)、754 種電力設(shè)備及材料、1 984 項(xiàng)電力技術(shù),涵蓋電氣技術(shù)、電力工程材料、水力發(fā)電、火力發(fā)電、風(fēng)力及太陽能發(fā)電、環(huán)境保護(hù)與勞動(dòng)保護(hù)等9 類專業(yè)領(lǐng)域,涉及雙碳和新型電力系統(tǒng)、電力自動(dòng)化及繼電保護(hù)、電力信息通信、特高壓輸電及柔性輸電、發(fā)電及節(jié)能環(huán)保、軌道交通及工業(yè)自動(dòng)化等25 種技術(shù)類別,具有較好的代表性。標(biāo)注方法為BIOE,B 表示實(shí)體開始,I 表示實(shí)體內(nèi)部,E 表示實(shí)體結(jié)束,O 表示不是實(shí)體。

        使用準(zhǔn)確率P、召回率R和F1 分?jǐn)?shù)來評(píng)價(jià)算法效果,具體公式如下:

        式中:T為正樣本判為正的數(shù)量;FP為正樣本判為負(fù)的數(shù)量;FN為負(fù)樣本判為正的數(shù)量;F1為F1 分?jǐn)?shù),是準(zhǔn)確率P和召回率R的綜合值,表示既希望較高的召回率,也希望較高的準(zhǔn)確率。

        2.2 實(shí)驗(yàn)方法

        電力命名實(shí)體識(shí)別的效果與詞向量工具的選擇、文本特征的學(xué)習(xí)、模型構(gòu)成有直接關(guān)系。因此,本文從以下幾個(gè)方面驗(yàn)證方法的有效性。

        1)不同文本向量對(duì)實(shí)體識(shí)別性能的影響

        基于文本特征增強(qiáng)的電力命名實(shí)體識(shí)別方法,分別采用Word2vec、ELMo、BERT 獲得中文電力文本的向量表達(dá),測(cè)試不同文本向量對(duì)命名實(shí)體識(shí)別效果的影響。BiGRU 的學(xué)習(xí)率為0.01,隱節(jié)點(diǎn)數(shù)為150,Dropout 為0.5,迭代次數(shù)為100。實(shí)驗(yàn)采用5 折交叉驗(yàn)證,即將數(shù)據(jù)集隨機(jī)劃分為5 份,4 份用于模型訓(xùn)練,剩下的1 份用于測(cè)試,對(duì)結(jié)果取平均值。實(shí)驗(yàn)結(jié)果見表1。

        由表1 可知,得益于文本向量的性能提升,命名實(shí)體識(shí)別的性能也得以提升。但隨著文本向量的能力提升,也意味著計(jì)算、存儲(chǔ)資源占用更多,需要結(jié)合電力業(yè)務(wù)的具體應(yīng)用場景選擇合適的詞向量工具。

        表1 不同文本向量的性能比較Table 1 Performance comparison of different text vectors

        2)不同模型構(gòu)成對(duì)實(shí)體識(shí)別性能的影響

        基于同一詞向量工具Word2vec,采用本文的基于預(yù)設(shè)詞庫的低粒度分詞以及文本增強(qiáng)方法,分別測(cè)試BiLSTM-CRF、BiGRU-CRF、BiGRU-AM-CRF 3 種模型的實(shí)體識(shí)別效果,實(shí)驗(yàn)結(jié)果見表2。

        表2 不同NER 模型的性能比較Table 3 Performance comparison of different NER models

        由表2 可知,基于本文的小樣本量中文電力語料數(shù)據(jù),BiLSTM 和BiGRU 性能接近,甚至BiGRU的準(zhǔn)確率還略高一些。在此基礎(chǔ)上,加入注意力機(jī)制后,識(shí)別效果有了較大提升。這也證明,詞級(jí)BiGRU 重點(diǎn)完成文本局部特征(單詞構(gòu)造特征)學(xué)習(xí),而NER 模型中的BiGRU 則著重于文本序列中單字和單詞之間整體的上下文學(xué)習(xí),并通過注意力機(jī)制加強(qiáng)了實(shí)體特征的權(quán)重分配,降低了單字的影響。相關(guān)方法的組合運(yùn)用有良好的互補(bǔ)作用。

        3)不同處理方法對(duì)實(shí)體識(shí)別性能的影響

        基于同一文本向量Word2vec 表達(dá),選取文獻(xiàn)[5]、文獻(xiàn)[22]、文獻(xiàn)[25]和本文方法進(jìn)行比較。其中,文獻(xiàn)[5]、文獻(xiàn)[22]和文獻(xiàn)[25]均采用Jieba 分詞工具完成分詞,本文采用基于預(yù)設(shè)詞庫的低粒度分詞。文獻(xiàn)[5]在電力領(lǐng)域?qū)S妹~識(shí)別取得良好應(yīng)用,其核心方法是BiLSTM-AM-CRF 模型。文獻(xiàn)[22]是在BiLSTM-AM-CRF 基礎(chǔ)上,采用CNN 學(xué)習(xí)單詞的字符級(jí)特征,實(shí)現(xiàn)文本特征增強(qiáng)的代表性方法。文獻(xiàn)[25]是基于Lattice-LSTM 模型,通過單字向量的LSTM 與單詞向量的LSTM 級(jí)聯(lián)來完成實(shí)體識(shí)別模型訓(xùn)練。本文是通過詞級(jí)BiGRU 學(xué)習(xí)單詞的內(nèi)部構(gòu)造特征,實(shí)現(xiàn)文本特征增強(qiáng),同時(shí)采用BiGRU-AM-CRF 完成實(shí)體識(shí)別。 實(shí)驗(yàn)結(jié)果見表3。

        表3 不同識(shí)別方法的性能比較Table 3 Performance comparison of different recognition methods

        由表3 可知,基于相同的詞向量工具,本文方法相對(duì)于文獻(xiàn)[5]、文獻(xiàn)[22]和文獻(xiàn)[25]取得更好效果。文獻(xiàn)[25]引入當(dāng)前單字可能匹配到的全部單詞,客觀上帶來更多的冗余信息,會(huì)影響實(shí)體特征識(shí)別的準(zhǔn)確性。相比于文獻(xiàn)[5],文獻(xiàn)[22]通過引入單詞的字符級(jí)特征,從而帶來效果提升。和文獻(xiàn)[22]相比,本文一方面采用基于預(yù)設(shè)詞庫的細(xì)粒度分詞控制分詞誤差;另一方面采用詞級(jí)BiGRU 學(xué)習(xí)單詞的內(nèi)部構(gòu)造特征,既包含單字內(nèi)部組成和順序特征,也結(jié)合了詞長和詞性特征,較CNN 獲取的字符級(jí)特征更為豐富。

        2.3 驗(yàn)證分析

        以“定子雙繞組內(nèi)反饋串級(jí)調(diào)速高壓電動(dòng)機(jī)及調(diào)速控制裝置”為實(shí)例,給出了文獻(xiàn)[5]、文獻(xiàn)[22]、文獻(xiàn)[25]和本文方法的實(shí)驗(yàn)效果,如表4 所示,其中,紅色字體表示識(shí)別出的電力命名實(shí)體。在本例中,“高壓電動(dòng)機(jī)”“調(diào)速控制裝置”是電力設(shè)備及材料名稱(power equipment and materials,PEM),“定子雙繞組”“串級(jí)調(diào)速”是電力技術(shù)名稱(electrical technologies,ET),均屬于電力專有名詞。同時(shí),這些實(shí)體具有一定的模糊性。文獻(xiàn)[5]的方法識(shí)別出“雙繞組”“控制裝置”“調(diào)速高壓電動(dòng)機(jī)”,但“定子雙繞組”“調(diào)速控制裝置”沒有被完整識(shí)別,且未識(shí)別“串級(jí)調(diào)速”而是將“調(diào)速”與“高壓電動(dòng)機(jī)”識(shí)別在一起。類似地,采用文獻(xiàn)[22]方法,“定子雙繞組”“調(diào)速控制裝置”等實(shí)體未能完整識(shí)別,且“串級(jí)調(diào)速”沒有被識(shí)別成電力專有名詞,而是識(shí)別為普通詞。文獻(xiàn)[25]方法考慮所有關(guān)聯(lián)詞,造成“組”與后面的“內(nèi)反饋”“串級(jí)調(diào)速”識(shí)別到一起。本文方法正確識(shí)別出“定子雙繞組”“串級(jí)調(diào)速”是電力技術(shù)實(shí)體,“高壓電動(dòng)機(jī)”“控制裝置”為電力設(shè)備及材料實(shí)體,雖然未能將“調(diào)速控制裝置”識(shí)別完整,但是整體而言,對(duì)電力專有名詞的識(shí)別效果得到改善。

        表4 不同方法的實(shí)施效果Table 4 Implement effects of different methods

        3 應(yīng)用實(shí)例

        本方法已在科研管理業(yè)務(wù)的技術(shù)能力地圖中得以應(yīng)用。技術(shù)能力地圖是以科研管理系統(tǒng)中的科技項(xiàng)目和研究成果為基礎(chǔ)數(shù)據(jù)構(gòu)建的電力科技圖譜,可以為量化評(píng)估科研能力、關(guān)聯(lián)查找專家團(tuán)隊(duì)提供支撐[27]。技術(shù)能力地圖的一個(gè)重要數(shù)據(jù)來源是研究成果,大量技術(shù)點(diǎn)隱含在專利、論文、軟著、研究報(bào)告等科技文獻(xiàn)中,人工檢索困難,需要依賴準(zhǔn)確的算法提取。

        為在技術(shù)能力地圖中柔性關(guān)聯(lián)和展示挖掘到的技術(shù)點(diǎn),設(shè)計(jì)了體系、項(xiàng)目、單位、人員、文獻(xiàn)和技術(shù)六大圖譜本體。知識(shí)圖譜中的本體是指同一類實(shí)體及其屬性和關(guān)系的集合。對(duì)于體系本體,技術(shù)體系內(nèi)每層、每類的技術(shù)類別名稱,就是體系實(shí)體,技術(shù)體系內(nèi)的層數(shù)是實(shí)體屬性;對(duì)于項(xiàng)目本體,各類科技項(xiàng)目名稱就是項(xiàng)目實(shí)體,項(xiàng)目層次(國家級(jí)、省部級(jí)、地市級(jí)等)等是實(shí)體屬性;對(duì)于單位本體,科研項(xiàng)目的執(zhí)行機(jī)構(gòu)就是單位實(shí)體,單位性質(zhì)(企業(yè)、高校、院所)作為單位實(shí)體屬性;對(duì)于人員本體,科研項(xiàng)目的負(fù)責(zé)人或核心骨干就是人員實(shí)體,職稱、職位作為實(shí)體屬性;對(duì)于文獻(xiàn)本體,科研項(xiàng)目產(chǎn)出的專利、軟著、論文、研究報(bào)告等為文獻(xiàn)實(shí)體,文獻(xiàn)類別作為文獻(xiàn)實(shí)體的屬性;對(duì)于技術(shù)本體,指科技文獻(xiàn)中描述的技術(shù)點(diǎn),比如人工智能、量子加密、5G 通信等。對(duì)于體系、項(xiàng)目、單位、人員、文獻(xiàn)5 類本體,依托現(xiàn)有科研管理信息系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫,從中抽取相應(yīng)的實(shí)體和屬性數(shù)據(jù)加入知識(shí)圖譜中。對(duì)于技術(shù)類本體,采用本文方法從文獻(xiàn)實(shí)體中抽取技術(shù)點(diǎn),并自動(dòng)建立技術(shù)實(shí)體與文獻(xiàn)實(shí)體的關(guān)聯(lián)。在此基礎(chǔ)上,以科技項(xiàng)目實(shí)體為核心,向上關(guān)聯(lián)體系實(shí)體,橫向關(guān)聯(lián)單位實(shí)體、人員實(shí)體和文獻(xiàn)實(shí)體,向下關(guān)聯(lián)技術(shù)實(shí)體,從而最終得到技術(shù)能力地圖,在顯性展示科研合作網(wǎng)絡(luò)的同時(shí),從電力技術(shù)實(shí)體的視角展示技術(shù)熱點(diǎn),如圖4 所示。對(duì)于部分識(shí)別不準(zhǔn)確的電力技術(shù)實(shí)體,一方面可以結(jié)合無監(jiān)督的信息熵挖掘算法進(jìn)行輔助校驗(yàn),并通過詞頻予以過濾;一方面通過開放分發(fā)的方式交由科研人員編輯糾正。

        圖4 技術(shù)能力地圖Fig.4 Map of technology capability

        4 結(jié)語

        電力領(lǐng)域的文本語料來源于電力設(shè)備管理、二次設(shè)備診斷、電網(wǎng)調(diào)控、資源中臺(tái)元數(shù)據(jù)模型、電網(wǎng)營銷等一線生產(chǎn)環(huán)境的運(yùn)行數(shù)據(jù)及相關(guān)技術(shù)文獻(xiàn),具有專業(yè)性強(qiáng)、規(guī)模小的特點(diǎn)。電力實(shí)體識(shí)別可將這些業(yè)務(wù)場景中的文本信息轉(zhuǎn)化成可用的知識(shí),有利于電網(wǎng)專業(yè)知識(shí)的快速查詢和智能檢索。

        本文提出一種文本特征增強(qiáng)的電力命名實(shí)體識(shí)別方法,通過預(yù)設(shè)先驗(yàn)詞庫和低粒度分詞,合理利用中文單詞蘊(yùn)含的語義信息,降低分詞誤差帶來的影響;基于詞級(jí)BiGRU 學(xué)習(xí)單詞構(gòu)造特征,結(jié)合詞長、詞性特征,與單詞向量拼接后,實(shí)現(xiàn)文本特征增強(qiáng);在此基礎(chǔ)上,通過BiGRU 完成文本序列的全局特征學(xué)習(xí),采用注意力機(jī)制加強(qiáng)與實(shí)體特征相關(guān)的信息加權(quán),降低單字對(duì)訓(xùn)練的干擾,最后通過CRF 完成文本標(biāo)簽的解碼輸出。

        基于中文電力語料進(jìn)行測(cè)試,以上方法的綜合實(shí)施取得了良好效果,為相關(guān)研究提供了新的思路。但還需要獲取更多的應(yīng)用場景語料測(cè)試方法的普適性,引入更多的電力行業(yè)特征及字形、讀音等特征,進(jìn)一步探索模型訓(xùn)練參數(shù)對(duì)識(shí)別性能的影響。后續(xù),可針對(duì)以上不足進(jìn)一步開展相應(yīng)的研究和測(cè)試,同時(shí)探索集成多類深度學(xué)習(xí)或機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)工程應(yīng)用中識(shí)別性能的綜合提升。

        采用本文方法訓(xùn)練的電力命名實(shí)體識(shí)別模型經(jīng)封裝后,以網(wǎng)絡(luò)服務(wù)形式對(duì)外公開測(cè)試。在測(cè)試文本框界面中輸入一段文字資料,點(diǎn)擊測(cè)試按鍵,即返回識(shí)別的電力命名實(shí)體結(jié)果。相關(guān)脫敏的中文電力語料也同步公開,詳見http://www.aeps-info.com:5014/。

        本文研究得到國網(wǎng)電力科學(xué)研究院有限公司科技項(xiàng)目“知識(shí)圖譜技術(shù)研究及在科技領(lǐng)域應(yīng)用”資助,特此感謝!

        猜你喜歡
        單字分詞語料
        河北大名話單元音韻母、單字調(diào)及雙音節(jié)非輕聲詞連調(diào)的實(shí)驗(yàn)語音學(xué)初探
        結(jié)巴分詞在詞云中的應(yīng)用
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        值得重視的分詞的特殊用法
        “對(duì)仗不宜分解到單字”毋庸置疑——答顧紳先生“四點(diǎn)質(zhì)疑”
        中華詩詞(2016年11期)2016-07-21 14:56:16
        鹽城方言單字調(diào)聲學(xué)實(shí)驗(yàn)研究
        華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
        《苗防備覽》中的湘西語料
        國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
        《通鑒釋文》所反映的宋代單字音特殊變化
        色偷偷久久久精品亚洲| 99精品国产闺蜜国产在线闺蜜| 看全色黄大色大片免费久久久| 区一区二区三区四视频在线观看| 国产成人精品2021| 欧美变态口味重另类在线视频| 亚洲午夜久久久久中文字幕久| 久久熟女少妇一区二区三区 | 国产成人av综合色| av免费在线国语对白| 亚洲av无码无限在线观看 | 欧美老妇多毛xxxxx极瑞视频| 亚洲 欧美 影音先锋| 久久久调教亚洲| 91精品国产91综合久久蜜臀| 午夜免费啪视频| 推油少妇久久99久久99久久 | 亚洲国产成人精品无码区99| 精品视频专区| 久久色悠悠综合网亚洲| 久久午夜福利无码1000合集| 精品国产av 无码一区二区三区| 久久精品国产88久久综合| 三级国产高清在线观看| 丰满少妇a级毛片| 欧美婷婷六月丁香综合色| 一区二区三区婷婷中文字幕| 一本久道竹内纱里奈中文字幕| 人妻有码中文字幕| 久久AV中文综合一区二区| 久久综合九色综合久久久| 欧美性生交活xxxxxdddd| 青青青国产精品一区二区| 亚洲一区二区三区中文视频| 亚洲婷婷久悠悠色悠在线播放| 亚洲人成无码网站在线观看| 色综合久久无码中文字幕app| 日韩成人高清不卡av| 99无码精品二区在线视频| 中文字幕+乱码+中文字幕无忧| 蜜桃视频中文字幕一区二区三区|