李書琴 張明美 劉 斌
(西北農(nóng)林科技大學(xué)信息工程學(xué)院, 陜西楊凌 712100)
受病蟲害的侵害和種植人員對種植技術(shù)掌握不全面的影響,我國獼猴桃果實品質(zhì)整體水平不高[1]?;谥R圖譜的獼猴桃種植領(lǐng)域問答系統(tǒng)利用知識圖譜可以準(zhǔn)確快速回答獼猴桃種植人員的專業(yè)問題,而命名實體識別(Named entity recognition,NER)是知識圖譜構(gòu)建任務(wù)中重要且關(guān)鍵的步驟[2],因此,如何準(zhǔn)確快速識別出獼猴桃種植領(lǐng)域命名實體對于確保獼猴桃種植業(yè)健康發(fā)展具有重要作用。
早期基于統(tǒng)計機器學(xué)習(xí)的條件隨機場(Conditional random field,CRF)方法將實體識別看作序列標(biāo)注問題,充分利用了內(nèi)部和上下文信息,在農(nóng)業(yè)領(lǐng)域得到廣泛應(yīng)用[3-4]。但該方法過于依賴人工特征,特征的設(shè)計需要很多專家知識,特征選擇的好壞更是直接影響到命名實體識別系統(tǒng)的性能[5]。近年來,基于深度學(xué)習(xí)的方法在NER任務(wù)中取得了顯著效果。深度學(xué)習(xí)可以自動學(xué)習(xí)文本特征,從而擺脫對人工特征的依賴,其中,卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)以及注意力機制等常用的深度學(xué)習(xí)方法與機器學(xué)習(xí)聯(lián)合使用的方式已經(jīng)被成功地應(yīng)用到農(nóng)業(yè)垂直領(lǐng)域的命名實體識別任務(wù)中[6-7]。
但以上方法在處理獼猴桃種植領(lǐng)域文本時,需要先進行中文分詞(Chinese word split,CWS),CWS的準(zhǔn)確性直接影響到中文命名實體識別效果。且獼猴桃種植領(lǐng)域命名實體識別任務(wù)主要關(guān)注獼猴桃種植文本中的獼猴桃品種、病蟲害、危害部位、藥劑、種植技術(shù)等實體,由于獼猴桃種植領(lǐng)域文本中涉及的病蟲害、藥劑及種植技術(shù)等多種實體術(shù)語專業(yè)性較強,CWS容易產(chǎn)生大量的未登錄詞(Out-of-vocabulary,OOV),從而影響模型識別效果。
MENG等[8]在中文自然語言處理中通過大量的實驗表明,“字”的表現(xiàn)總是優(yōu)于“詞”的表現(xiàn)。一些研究者[5,9-11]為了避免CWS錯誤,直接使用基于word2vec等詞向量訓(xùn)練模型訓(xùn)練的字向量作為嵌入層。但以上詞向量訓(xùn)練模型在單個字符上語義表征不充分導(dǎo)致模型識別性能欠佳。
BERT[12]等預(yù)訓(xùn)練語言模型采用雙向的Transformer編碼器對大規(guī)模語料進行訓(xùn)練,可以得到表征能力更強的字向量[13]。已有研究人員將預(yù)訓(xùn)練語言模型引入農(nóng)林業(yè)領(lǐng)域命名實體識別任務(wù)中[14-17]。但實體識別任務(wù)與其它自然語言處理任務(wù)不同的是,大部分實體屬于詞,詞中蘊含著豐富的實體信息,而字符向量卻缺少該類信息。ZHANG等[18]提出的Lattice-LSTM模型,將每個字符匹配到的單詞通過注意力機制進行加權(quán)求和作為字符表示,但由于每個字符對應(yīng)的詞數(shù)目不同,無法分批處理,導(dǎo)致識別速度較慢,且由于模型結(jié)構(gòu)復(fù)雜,無法遷移到其它網(wǎng)絡(luò)結(jié)構(gòu)中。針對該問題,LIU等[19]提出了4種不同的策略將詞進行固定數(shù)目的編碼,使其可以分批處理從而適應(yīng)各種網(wǎng)絡(luò)結(jié)構(gòu)。MA等[20]提出了一個更為簡單高效的SoftLexicon模型,利用4個詞集來表示每個字符在詞中的位置,同時采用詞的頻率作為權(quán)重對詞集進行壓縮,簡化了序列建模結(jié)構(gòu),提高了模型計算效率。但詞集內(nèi)的詞語義信息往往是相似的,上述研究忽略了不同詞對于當(dāng)前字符的重要程度,詞集中包含的詞信息沒有得到充分利用。
基于以上問題和研究,本文提出一種融合字詞語義信息的獼猴桃種植實體識別方法。首先采用多頭自注意力(Multiple self-attention mechanisms,MHA)[21]來調(diào)整SoftLexicon詞集中每個詞語的權(quán)重,緩解靜態(tài)詞頻作為權(quán)重?zé)o法學(xué)習(xí)到更為重要的詞特征問題;然后采用注意力機制自動獲取每個詞集的重要程度,增強重要詞集信息的同時抑制不重要詞集信息;最后融合詞集表示和BERT的字符表示作為命名實體識別任務(wù)的嵌入層。同時使用雙向門控循環(huán)網(wǎng)絡(luò)(Bi-directional gated recurrent unit,BiGRU)進一步提取字符之間的關(guān)系特征,最終使用CRF得到全局最優(yōu)標(biāo)簽序列。
模型主要由3部分構(gòu)成,嵌入層、BiGRU編碼層以及CRF層。嵌入層使用融合字詞語義信息的表示,字符語義信息使用BERT預(yù)訓(xùn)練模型生成的字符表示,詞語義信息使用注意力加權(quán)得到的詞集向量表示。編碼層采用BiGRU網(wǎng)絡(luò),最后通過CRF進行標(biāo)簽推理,獲取全局最優(yōu)標(biāo)簽序列。模型整體結(jié)構(gòu)如圖1所示。
模型嵌入層融合了基于改進的SoftLexicon模型生成的詞向量信息和采用BERT預(yù)訓(xùn)練語言模型生成的字符向量信息。
圖1 融合字詞語義信息的獼猴桃種植實體識別模型Fig.1 Kiwifruit planting entity recognition model integrating character and word information fusion
圖2 詞組匹配分類Fig.2 Word matching classification
詞向量由4個詞集組成,對于輸入文本序列S=(c1,c2,…,cT),將序列中相鄰的字符在詞典中匹配詞組,并按照每個字符ci在詞組中的不同位置,分別用標(biāo)簽為B、M、E、S的4個集合來記錄,集合B(ci)表示字符ci在開頭且長度大于1的詞集合,集合M(ci)表示字符ci在中間位置且長度大于1的詞集合,集合E(ci)表示字符ci在結(jié)尾且長度大于1的詞集合,集合S(ci)表示單個字符ci,如果集合為空,則用“None”來填補。如圖2所示,輸入句子“獼猴桃根腐病危害軟棗獼猴桃根部”,以字符c4為例,因為該字符出現(xiàn)在“根腐病”的開頭,“獼猴桃根腐病”的中間,“獼猴桃根”的結(jié)尾,所以B(c4)為{“根腐病”},M(c4)為{“獼猴桃根腐病”},E(c4)為{“獼猴桃根”},S(c4)則為{“根”}。
獲得每個字符對應(yīng)的B、M、E、S標(biāo)簽詞集后,需要對每個詞集進行壓縮得到4個標(biāo)簽的詞向量。原始的SoftLexicon模型只使用詞頻z(w),即每個詞w在詞典中出現(xiàn)的次數(shù)作為權(quán)重進行壓縮,同時對于所有詞集中不滿足最大長度lmax的詞集用0進行填充,并記錄該詞的z(w)為1。詞集向量B的具體計算方式(M、E、S同理)為
(1)
(2)
式中ew(w)——詞w對應(yīng)的詞向量
vi——詞集向量
對于要識別的獼猴桃種植領(lǐng)域文本中的實體,僅使用詞頻作為權(quán)重時,容易出現(xiàn)準(zhǔn)確率較低但召回率較高的情況,例如針對“果實軟腐病”的“果”字,“果實軟腐病”和“果實”均屬于B集合,“果實軟腐病”中字符“果”的正確標(biāo)簽為“B-DIS”,但由于“果實”在詞典中出現(xiàn)的頻率較高且沒有使用注意力等方式計算權(quán)重,“果實軟腐病”中的字符“果”被標(biāo)記為“B-PART”,導(dǎo)致精確率較低但召回率較高。針對以上問題,本文采用MHA機制動態(tài)地調(diào)整每個詞語權(quán)重,學(xué)習(xí)到更為重要的特征后再進行壓縮,詞集B的具體計算公式(M、E、S同理)為
(3)
MHA(Q,K,V)=Concat(head1,head2,…,headn)Wo
(4)
headj=Attention(Qj,Kj,Vj)
(5)
(6)
式中 MHA(Q,K,V)——多頭注意力輸出
head——注意力頭
Concat——合并操作
Wo——多頭自注意力權(quán)重矩陣
Attention(Qj,Kj,Vj)——當(dāng)前詞在自注意力層的輸出
Qj、Kj、Vj—— 查詢向量、鍵向量、值向量
上述方式對每個詞集中不同詞進行了權(quán)重調(diào)整,但不同詞集之間的重要程度沒有被區(qū)分,使用4個詞集的目的是區(qū)分字符在詞組中的不同位置,但當(dāng)部分詞集壓縮之后的結(jié)果非常相似時,容易導(dǎo)致后續(xù)步驟不能明顯區(qū)分字符ci在所有詞中所處的4種位置,使用4個詞集的優(yōu)勢也相對被削弱。因此,為了進一步考慮各個詞集的不同重要程度,本文采用注意力機制自動獲取每個詞集的重要程度,根據(jù)不同的重要程度增強重要的詞集信息并抑制用處不大的詞集信息,充分發(fā)揮4個詞集的優(yōu)勢。注意力權(quán)重ai的計算公式為
(7)
其中
(8)
式中Vi——4個詞集合并后的矩陣,維度為4×dw
W——權(quán)重矩陣,維度d×dw
U——權(quán)重矩陣,維度1×dw
dw——詞向量維度
最終得到重要度矩陣ai的維度為1×4,4個值分別代表4個詞集的重要程度,使用該向量對4個詞集進行重要度加權(quán)后可以得到更有說服力的詞集表示。
為了避免本文模型受太多分詞影響,在最終的嵌入層表示中融入了特征向量xBERT,該向量是BERT預(yù)訓(xùn)練語言模型在大規(guī)模語料下通過學(xué)習(xí)上下文語義信息得到的,能夠表征字的多義性,增強句子的語義表示,更好地挖掘結(jié)構(gòu)復(fù)雜的獼猴桃種植領(lǐng)域命名實體特征信息。
將4個詞集表示和字符向量連接后,得到字符的最終表示為
(9)
式中ai1、ai2、ai3、ai4——對應(yīng)字符ci的4個詞集B、M、E、S的重要程度
編碼層將融合字詞語義信息的嵌入層最終表示序列作為輸入,對序列中的字與字之間的關(guān)系進行特征提取。采用GRU作為特征提取層,該網(wǎng)絡(luò)與長短期記憶網(wǎng)絡(luò)(Long short-term memory,LSTM)類似,與LSTM的區(qū)別是不再采用單元狀態(tài)記錄或傳輸信息,將遺忘門和輸入門合并為一個單一的更新門,用隱藏狀態(tài)控制信息傳輸和記錄,用更新門和重置門控制隱藏層狀態(tài)的最終輸出,用隱藏狀態(tài)控制信息傳輸和記錄。
但單向的GRU只能獲取目標(biāo)詞的前文信息。例如,針對獼猴桃病害實體“獼猴桃葉斑病”,目標(biāo)詞為“斑”,GRU只能提取到“斑”的前一個字“葉”的特征,提取不到后面“病”的特征。而目標(biāo)詞的上下文信息均會影響到對目標(biāo)詞的預(yù)測,進而影響命名實體的識別性能。因此,為了精確識別獼猴桃種植領(lǐng)域命名實體,本文采用雙向GRU(BiGRU)網(wǎng)絡(luò)模型。
BiGRU的輸出由正向GRU和反向GRU組成,對于輸入文本序列X=(x1,x2,…,xt,…,xn),xt是t時刻的輸入向量,正向GRU輸出計算公式為
zt=σ(WZ[ht-1,xt])
(10)
rt=σ(Wr[ht-1,xt])
(11)
(12)
(13)
式中zt——更新門rt——重置門
σ——sigmoid函數(shù)
WZ、Wr——權(quán)重矩陣
ht、ht-1——t和t-1時刻的輸出
獼猴桃種植領(lǐng)域命名實體標(biāo)簽推理的任務(wù)是對序列文本中每個字符進行分類,類別包括B-VAR、M-DIS、O等。通過BiGRU編碼層得到的特征向量是相互獨立的,直接輸入到全連接層中判定每個字符的標(biāo)簽時無法學(xué)習(xí)到文本標(biāo)簽間的約束關(guān)系,如B-VAR后面不可能是M-DIS。采用CRF全局優(yōu)化來學(xué)習(xí)獼猴桃種植領(lǐng)域文本序列標(biāo)簽間的約束關(guān)系。
考慮到標(biāo)簽之間的約束關(guān)系,CRF引入一個轉(zhuǎn)移矩陣A。對于輸入句子X來說,輸出標(biāo)簽序列y={y1,y2,…,yn}的得分定義為
(14)
式中Ni,yi——第i個字是標(biāo)簽yi的概率
Ayi,yi+1——標(biāo)簽轉(zhuǎn)移概率
score(X,y)——輸出序列得分
對所有輸出序列y計算得分,采用Viterb動態(tài)規(guī)劃算法得到獼猴桃種植領(lǐng)域文本序列標(biāo)簽的最優(yōu)序列,進而對命名實體標(biāo)簽進行推理和預(yù)測。
本文實驗數(shù)據(jù)主要是通過爬蟲框架,抓取百度百科和360百科網(wǎng)站有關(guān)獼猴桃種植的語料,少量數(shù)據(jù)摘取自與獼猴桃種植領(lǐng)域相關(guān)的知網(wǎng)文獻和書籍。對獲取的句子進行清洗和去重后做人工標(biāo)注,得到12 477個獼猴桃種植領(lǐng)域相關(guān)的句子作為最終實驗數(shù)據(jù)集。
獼猴桃種植領(lǐng)域?qū)嶓w共7類,類別定義如表1所示。
表1 獼猴桃種植領(lǐng)域?qū)嶓w類別Tab.1 Kiwifruit planting field entity category
采用BMESO標(biāo)注策略:B(Begin)表示實體開始,M(Median)表示中間部分,E(End)表示結(jié)尾部分,S(Single)表示單個字符的實體,O(Other)表示其它非命名實體字符,并在最后加上實體類別。如“桑/B-PEST白/M-PEST蚧/E-PEST的/O主/O要/O危/O害/O部/O位/O是/O葉/B-PART片/E-PART”。在訓(xùn)練時,添加了保證訓(xùn)練長度一致的PAD占位符,同時用[CLS]和[SEP]標(biāo)記句子的首部和尾部。
將自建的實驗數(shù)據(jù)按7∶1∶2劃分為訓(xùn)練集、驗證集和測試集,訓(xùn)練集8 734條,驗證集1 248條,測試集2 495條,數(shù)據(jù)規(guī)模如表2所示。
表2 實驗數(shù)據(jù)規(guī)模Tab.2 Experimental data scale
數(shù)據(jù)集中包含實體24 740個,其中品種5 364個、病害887個、蟲害1 784個、部位7 985個、藥劑1 314個、區(qū)域7 201個、氣候205個。不同類型實體在訓(xùn)練集、驗證集和測試集中的統(tǒng)計如表3所示。
表3 不同類別實體數(shù)據(jù)規(guī)模Tab.3 Data size of different types of entities
實驗環(huán)境:操作系統(tǒng)Ubuntu 16.04,CUDA 9.2,cudnn 7.6.5;4個E5-2620 v4 @2.10 GHz的CPU,一個GTX TITAN X GPU;內(nèi)存94 GB,顯存12 GB;編譯環(huán)境為Python 3.6.3和PyTorch 1.8.1。
本文實驗使用Glove無監(jiān)督模型在大規(guī)模獼猴桃種植語料下訓(xùn)練得到的詞典。模型使用Adam優(yōu)化算法進行參數(shù)調(diào)整,最大迭代次數(shù)為50,選取其中最優(yōu)結(jié)果作為最終實驗結(jié)果。為了與其它方法對比,本文模型同樣采用單層BiGRU網(wǎng)絡(luò)。具體參數(shù)設(shè)置如表4所示。
表4 模型參數(shù)設(shè)置Tab.4 Parameter setting of model
命名實體識別的評價標(biāo)準(zhǔn)有精確率(Precision,P)、召回率(Recall,R)和F1值(F-measure)。
為了驗證本文模型在獼猴桃種植領(lǐng)域的命名實體識別效果,在同一實驗環(huán)境下,使用不同模型進行對比實驗,對比模型包括:BiLSTM-CRF模型[22]、Lattice-LSTM模型[18]、WC-LSTM模型[19]、SoftLexicon模型[20]和BERT-BiLSTM-CRF模型[23],6組實驗結(jié)果如表5所示。
表5 不同模型實體識別結(jié)果Tab.5 Entity recognition results of different models %
本文BiLSTM-CRF模型使用Glove無監(jiān)督模型訓(xùn)練得到的字向量作為嵌入層,然后將其輸入到BiLSTM-CRF中進行序列標(biāo)注,雖然Glove模型得到的字向量能夠在一定程度上捕捉到字的一些語義特性,但識別的F1值只有88.17%,識別效果不佳。Lattice-LSTM模型使用注意力機制對當(dāng)前字符匹配到的詞進行加權(quán)求和,顯著提高了識別效果,F(xiàn)1值提高0.89個百分點,說明引入外部詞匯可以有效提高獼猴桃種植領(lǐng)域命名實體識別性能。WC-LSTM模型對當(dāng)前字符所有匹配到的詞采用自注意力編碼生成權(quán)重向量后,與字向量直接拼接得到最終的字符表示,序列編碼依舊使用BiLSTM-CRF結(jié)構(gòu),F(xiàn)1值高達89.99%。SoftLexicon模型為了簡化模型結(jié)構(gòu),在嵌入層使用詞頻代替注意力加權(quán)的方式,同時加入了表示當(dāng)前字符在詞不同位置的4個詞集標(biāo)簽,將壓縮得到的4個詞集向量和字符向量進行拼接得到最終字符表示,與使用注意力加權(quán)的WC-LSTM模型相比,F(xiàn)1值提高0.34個百分點,說明引入4種詞集信息可以有效提高文本命名實體的識別性能。BERT-BiLSTM-CRF模型只使用BERT預(yù)訓(xùn)練增強的字符向量作為嵌入層,F(xiàn)1值高達90.56%,與使用Glove模型字向量作為嵌入層相比,F(xiàn)1值提高2.39個百分點,說明BERT預(yù)訓(xùn)練模型可以學(xué)習(xí)到更全面的字符特征。
本文模型采用MHA和Attention對詞和詞集加權(quán),將得到的詞集向量與BERT預(yù)訓(xùn)練語言模型得到字符向量融合后作為字符的最終表示,并使用BiGRU進行序列編碼,CRF模型進行標(biāo)簽推理,實驗結(jié)果表明,本文模型的F1值達91.91%,相較于其它模型,本文模型在獼猴桃種植領(lǐng)域命名實體識別任務(wù)中表現(xiàn)更加出色。
為了驗證添加MHA調(diào)整詞權(quán)重和Attention獲取詞集重要程度對模型的影響,本文對添加MHA和Attention進行對比實驗,實驗結(jié)果如表6所示。
表6 MHA和Attention影響實驗結(jié)果Tab.6 MHA and Attention affected experiment results %
從表6可以看出,在SoftLexicon模型中添加MHA對詞集中的詞進行權(quán)重調(diào)整時,F(xiàn)1值提高0.52個百分點;當(dāng)在SoftLexicon模型中添加Attention調(diào)整詞集取值時,F(xiàn)1值提高0.25個百分點,同時添加兩者時,精確率、召回率和F1值均有顯著提高,與未添加任何機制的SoftLexicon模型相比,F(xiàn)1值總體提高0.82個百分點,比單獨添加MHA或Attention機制效果都好。因此,使用MHA對詞向量進行加權(quán)和使用Attention對詞集向量進行調(diào)整可以提升模型性能,兩者同時使用可以進一步提升獼猴桃種植領(lǐng)域命名實體識別性能。
為了驗證使用BERT預(yù)訓(xùn)練語言模型增強字符表示和引入詞集向量作為外部詞匯對于模型的提升效果,分別使用Glove字符表示和詞集向量融合表示、基于BERT的字符增強表示以及BERT字符增強和詞集向量融合的表示作為嵌入,其中SoftLexicon表示以Glove字符表示和詞集向量融合表示作為嵌入層的模型,結(jié)果如表7所示。
表7 字詞融合實驗結(jié)果
本文詞集向量均沒有添加MHA和Attention機制,僅使用詞頻作為權(quán)重計算詞集信息,編碼層均為單層的BiLSTM。SoftLexicon模型融合Glove字符向量和詞集向量作為嵌入,由于Glove模型特征提取能力有限,無法獲取更全面的語義信息,得到的字詞向量包含上下文信息較少,而且獼猴桃種植領(lǐng)域?qū)嶓w專業(yè)性較強,結(jié)構(gòu)復(fù)雜,從而導(dǎo)致模型的識別性能不佳。使用BERT預(yù)訓(xùn)練語言模型得到字符向量作為嵌入層時,與使用Glove字詞向量相比,其F1值提高0.23個百分點,原因是BERT預(yù)訓(xùn)練語言模型可以提取出序列中與領(lǐng)域相關(guān)的更豐富的上下文信息,增強字符表示。融合BERT增強的字符向量和詞集信息作為嵌入層時,識別性能有了顯著提高,其F1值高達91.02%,與使用Glove字詞向量和單純使用BERT字符向量相比,F(xiàn)1值分別提高0.69個百分點和0.46個百分點,表明使用BERT預(yù)訓(xùn)練語言模型增強的字符表示和引入外部詞匯信息融合的方式確實可以提高本文獼猴桃種植領(lǐng)域命名實體識別效果。
為了驗證BiGRU編碼層對模型的影響,分別使用BiLSTM、CNN、Transformer和BiGRU作為編碼層進行實驗對比,結(jié)果如表8所示。
表8 編碼層實驗結(jié)果Tab.8 Experimental results of coding layer %
從表8可以看出,BiGRU作為編碼層時,與BiLSTM、CNN或Transformer作為編碼層相比,模型的識別效果最好,F(xiàn)1值達到90.59%,說明使用BiGRU作為編碼層更適合獼猴桃種植領(lǐng)域命名實體識別任務(wù),可以進一步提高命名實體識別水平。
本文提出的添加MHA和Attention機制以及使用BERT預(yù)訓(xùn)練語言模型的方法僅改變了嵌入層,可以與不同的序列建模層聯(lián)合使用,具有較好的通用性。為了驗證不同序列建模層在本文模型中的通用性,將序列建模層的單層BiGRU更換為CNN,卷積層個數(shù)為2,卷積核大小為1和3,通用性實驗結(jié)果如表9所示。
表9 通用性實驗結(jié)果Tab.9 Performance of commonality test %
由表9可知,本文模型的識別效果最優(yōu),與基于字的CNN和SoftLexicon模型相比,精確率分別提高5.77、4.25個百分點。說明本文模型能夠更好地利用外部詞匯信息,具有更好的通用性。并且與 表7 進行對比時,可以看出編碼層使用BiGRU時,模型識別效果更優(yōu)。
為了驗證本文模型嵌入層各個部分對整體模型的影響,對添加MHA機制、Attention機制和BERT預(yù)訓(xùn)練模型增強的字符進行消融實驗,實驗結(jié)果如表10所示。
表10 消融實驗結(jié)果Tab.10 Ablation experimental results %
從表10可以看出,使用BERT預(yù)訓(xùn)練語言模型增強的字符表示對模型性能提升最明顯,F(xiàn)1值提高0.62個百分點,相比之下,添加MHA機制的提升效果最小,但總體來看,本文提出的每個改進點,均對模型性能有一定程度的提升。
表11對比了BiLSTM-CRF模型[22]、Lattice-LSTM模型[18]、WC-LSTM模型[19]、SoftLexicon模型[20]、BERT-BiLSTM-CRF模型[23]和本文模型在7類實體上的識別效果。
從表11可以看出,本文提出的模型識別效果優(yōu)于其它模型。使用BERT預(yù)訓(xùn)練的字向量作為嵌入層時,與SoftLexicon模型相比,除病害類別外,其它6種類別實體的識別效果均有所提升,說明使用BERT預(yù)訓(xùn)練的字向量可以有效提升本文命名實體識別效果。本文模型部位類別識別的F1值高達96.87%,病害類別識別的F1值為96.17%,對于實體結(jié)構(gòu)復(fù)雜的蟲害識別F1值高達95.70%,與SoftLexicon模型相比,在7種類別實體上識別效果均有所提升,說明融合BERT預(yù)訓(xùn)練語言模型增強的字符表示和添加不同層次注意力機制等方法可以有效提升本文模型在獼猴桃種植領(lǐng)域?qū)嶓w識別效果。本文模型與BERT-BiLSTM-CRF模型相比,在6種實體類別上也有不同幅度的提升,進一步驗證了本文方法在獼猴桃種植領(lǐng)域?qū)嶓w識別任務(wù)上的優(yōu)勢。與SoftLexicon模型相比,本文模型對蟲害類別的F1值提升最高,提升3.13個百分點,原因是該類別存在蟲害嵌套、歧義等干擾信息,在沒有其它充足的上下文語義信息時容易預(yù)測錯誤,例如在識別“棉紅蜘蛛”和“紅蜘蛛”、“盲椿象”和“椿象”、“二點葉螨”和“葉螨”等實體時,SoftLexicon模型只識別出“紅蜘蛛”、“椿象”和“葉螨”等,從而造成實體識別效果差,而本文模型則可以識別出正確的實體。
為了驗證本文模型泛化性和穩(wěn)定性,本文在ResumeNER公開數(shù)據(jù)集上開展了實驗。實驗結(jié)果如表12所示。結(jié)果表明,本文模型表現(xiàn)良好,F(xiàn)1值達到96.17%,顯著高于BiLSTM-CRF模型[22],與Lattice-LSTM[18]、WC-LSTM[19]、SoftLexicon[20]、BERT-BiLSTM-CRF[23]模型相比也均有提升。
表11 不同類別實體識別結(jié)果Tab.11 Entity recognition results of different types %
表12 各模型在公開數(shù)據(jù)集上識別效果對比Tab.12 Comparison of recognition effect of each model on public data set %
本文面向獼猴桃種植領(lǐng)域,提出一種融合字詞語義信息的命名實體識別模型,有效解決了獼猴桃種植領(lǐng)域命名實體結(jié)構(gòu)復(fù)雜、識別精確率較低的問題。該模型使用MHA調(diào)整詞向量權(quán)重,并使用注意力機制進一步獲取每個詞集的重要程度,使模型更好地利用外部詞匯信息,融入BERT預(yù)訓(xùn)練語言模型提取的字符增強表示,使嵌入層輸出包含更豐富的上下文信息,編碼層使用BiGRU模型進一步提高識別效果。通過實驗證明,本文模型對7種獼猴桃種植領(lǐng)域?qū)嶓w的識別F1值高達91.91%,在公開數(shù)據(jù)集ResumeNER上也有較好的效果。