貴向泉,郭 亮,李 立
(蘭州理工大學(xué) 計(jì)算機(jī)與通信學(xué)院,甘肅 蘭州 730050)
命名實(shí)體識別是自然語言處理(Natural Language Processing,NLP)中的熱點(diǎn)研究方向之一,它的實(shí)質(zhì)就是從一段自然語言中找出相關(guān)的實(shí)體,并標(biāo)注出實(shí)體的位置及其類型。在有色冶金產(chǎn)業(yè)的相關(guān)文本中存在許多有色冶金行業(yè)內(nèi)部的專有名詞,如公司名稱、產(chǎn)品名稱和產(chǎn)業(yè)信息等。在對這些文本進(jìn)行分析時,這些行業(yè)內(nèi)部的命名實(shí)體就會成為重要的信息來源,它們也是構(gòu)建有色冶金產(chǎn)業(yè)企業(yè)畫像和建立產(chǎn)業(yè)知識圖譜的重要依據(jù)。有色冶金是中國工業(yè)生產(chǎn)中的重要支柱產(chǎn)業(yè),但是截至目前,很少有研究人員和學(xué)者針對有色冶金領(lǐng)域命名實(shí)體識別進(jìn)行研究,也沒有相關(guān)數(shù)據(jù)集支持。
為了推進(jìn)有色冶金產(chǎn)業(yè)的發(fā)展,更好地分析企業(yè)和有色冶金產(chǎn)業(yè)的運(yùn)行情況,該文首先針對建立產(chǎn)業(yè)企業(yè)畫像和產(chǎn)業(yè)知識圖譜的命名實(shí)體需求,構(gòu)建了有色冶金領(lǐng)域命名實(shí)體識別數(shù)據(jù)集,然后結(jié)合機(jī)器閱讀理解框架(Machine Reading Comprehension,MRC)[1]和知識增強(qiáng)的語義表示模型(Enhanced Representation Through Knowledge Integration,ERNIE)[2]對命名實(shí)體識別的流程進(jìn)行了改進(jìn)。最終建立了MEAB (MRC-ERNIE-Attention-BiLSTM)命名實(shí)體識別模型結(jié)構(gòu),并在構(gòu)建的有色冶金領(lǐng)域命名實(shí)體識別數(shù)據(jù)集和公共數(shù)據(jù)集上進(jìn)行了命名實(shí)體識別的實(shí)驗(yàn)。實(shí)驗(yàn)證明,該模型可以更好地為后續(xù)構(gòu)建有色冶金產(chǎn)業(yè)企業(yè)畫像和產(chǎn)業(yè)知識圖譜提供實(shí)體。
命名實(shí)體識別的發(fā)展按時間主要分為三個階段,分別為基于詞典和規(guī)則的方法,基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。
基于詞典和規(guī)則的方法是指利用專家判斷的方式手工制定出命名實(shí)體識別的規(guī)則和模板,并利用這些規(guī)則將需要識別的命名實(shí)體進(jìn)行匹配和識別。雖然基于詞典和規(guī)則的方法對特定范圍內(nèi)的命名實(shí)體的識別效果比較好,但是其中使用的規(guī)則也具有泛化程度低的特點(diǎn)。特別對大規(guī)模語料進(jìn)行命名實(shí)體識別時,基于詞典和規(guī)則方法的效率相比其他方法要低很多。
隨著大規(guī)模語料的出現(xiàn),基于機(jī)器學(xué)習(xí)方法的命名實(shí)體識別得到了廣泛應(yīng)用,也可以進(jìn)一步將其分為有監(jiān)督機(jī)器學(xué)習(xí)和無監(jiān)督機(jī)器學(xué)習(xí)兩類。在無監(jiān)督的機(jī)器學(xué)習(xí)中主要使用聚類的方法進(jìn)行命名實(shí)體識別[3],例如Xu等人[4]提出了一種共享最近鄰的聚類方法,并將其應(yīng)用在生物醫(yī)學(xué)名稱的識別和提取中。在有監(jiān)督的機(jī)器學(xué)習(xí)中,命名實(shí)體識別則被看作是一種序列標(biāo)注的問題[5],例如Yu等人[6]提出了一種基于級聯(lián)馬爾可夫模型的中文命名體識別方法,通過雙重的模型識別來提高識別精度。雖然基于機(jī)器學(xué)習(xí)的方法避免了繁瑣的人工工作,但是復(fù)雜的特征工程是不可避免的。
基于深度學(xué)習(xí)的方法解決了機(jī)器學(xué)習(xí)中需要復(fù)雜特征工程的問題,同時基于深度學(xué)習(xí)的命名實(shí)體識別采用了端到端的訓(xùn)練方式,可以構(gòu)建更為復(fù)雜的網(wǎng)絡(luò)。例如Kong等人[7]建立了多級卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)并結(jié)合了注意力機(jī)制來捕獲短期和長期的上下文信息,提高了中文臨床醫(yī)學(xué)命名實(shí)體識別的準(zhǔn)確率。毛存禮等人[8]提出了一種基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)架構(gòu)的有色金屬領(lǐng)域?qū)嶓w識別方法,該方法可以有效獲取有色金屬領(lǐng)域?qū)嶓w中字符間的緊密結(jié)合特征。同時,循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)和圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Network,GCN)也是進(jìn)行命名實(shí)體識別的主流方法。Liu等人[9]提出了一種詞字符的長短時神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)模型,他們將詞信息添加到詞的開始或結(jié)束字符中,在獲得詞邊界信息的同時減輕分詞錯誤帶來的影響。Tang等人[10]使用交叉GCN塊同時處理兩個方向的詞字符,并在其中引入了全局注意力機(jī)制改進(jìn)了長距離的依賴捕獲。近年來,基于編碼器-解釋器模型(Transformer)[11]被大量應(yīng)用于命名實(shí)體識別當(dāng)中,其中最具代表性的就是基于編碼器-解碼器的雙向編碼表示法(Bidirectional Encoder Representations From Transformers,BERT)[12]模型。Usman等人[13]使用ALBERT(Lite BERT)[14]模型在大規(guī)模生物醫(yī)學(xué)語料上訓(xùn)練,更好地學(xué)習(xí)了上下文相關(guān)的表示,提高了訓(xùn)練的效率。
雖然進(jìn)行命名實(shí)體識別的方法有很多,并且國內(nèi)外學(xué)者都對其做了大量的研究,但是這些方法都不適用于有色冶金領(lǐng)域命名實(shí)體識別的研究,原因有以下幾點(diǎn)。
(1)由于研究領(lǐng)域的獨(dú)特性,已有的研究很少涉及到有色冶金產(chǎn)業(yè),也沒有相關(guān)數(shù)據(jù)集對其支持。
(2)在有色冶金領(lǐng)域命名實(shí)體當(dāng)中存在很多嵌套的命名實(shí)體,進(jìn)一步增加了實(shí)體識別的難度。
(3)已有的命名實(shí)體識別模型無法充分提取有色冶金領(lǐng)域文本中的語義特征和信息。
(4)已有的命名實(shí)體識別模型無法充分利用有色冶金領(lǐng)域文本當(dāng)中標(biāo)簽的先驗(yàn)知識,影響了命名實(shí)體識別的準(zhǔn)確率。
為了解決上述問題,該文構(gòu)建了有色冶金領(lǐng)域命名實(shí)體識別數(shù)據(jù)集,并提出了MEAB命名實(shí)體識別模型。首先,在該模型中引入了MRC框架,將傳統(tǒng)命名實(shí)體識別模型中的序列標(biāo)注與問答任務(wù)相結(jié)合,提高模型對普通實(shí)體和嵌套命名實(shí)體的識別準(zhǔn)確率;然后,在該模型中使用ERNIE預(yù)訓(xùn)練模型將序列標(biāo)注后的標(biāo)注數(shù)據(jù)集和引入自然語言問題的問答數(shù)據(jù)集轉(zhuǎn)化為詞向量,使模型能夠充分提取出文本當(dāng)中的語義特征和信息;接著,引入注意力機(jī)制作為模型的信息融合層,將通過ERNIE處理的兩類文本特征向量進(jìn)行融合,使模型能夠充分利用標(biāo)簽當(dāng)中的先驗(yàn)知識,并通過BiLSTM模型進(jìn)一步提取語義特征和信息;最后,通過多層嵌套實(shí)體識別器輸出在嵌套命名實(shí)體中的所有實(shí)體。相比其他模型該模型可以更好地提取和利用文本當(dāng)中的特征和先驗(yàn)知識,提高了對嵌套命名實(shí)體的識別準(zhǔn)確率,并能輸出嵌套命名實(shí)體當(dāng)中的所有實(shí)體。
針對有色冶金產(chǎn)業(yè)的特點(diǎn),經(jīng)研究發(fā)現(xiàn)其主要的數(shù)據(jù)來源以新聞報(bào)道、企業(yè)年報(bào)、專利信息和期刊論文為主。對于新聞報(bào)道數(shù)據(jù),該文采用了網(wǎng)絡(luò)爬蟲技術(shù)從今日頭條等新聞媒體平臺進(jìn)行了收集,但是新聞報(bào)道數(shù)據(jù)整體的文本結(jié)構(gòu)比較松散,所以在收集時需要對文本進(jìn)行去噪處理。對于企業(yè)年報(bào)數(shù)據(jù)和專利信息,因?yàn)檫@類數(shù)據(jù)整體的文本結(jié)構(gòu)比較緊密,所以直接使用即可。對于期刊論文類的數(shù)據(jù),鑒于其摘要已經(jīng)對論文整體進(jìn)行了總結(jié),所以直接選用摘要作為數(shù)據(jù)集。最終收集到了20 000多條有色冶金領(lǐng)域的文本,總共有300多萬字。
針對構(gòu)建產(chǎn)業(yè)企業(yè)畫像和產(chǎn)業(yè)知識圖譜的命名實(shí)體需求,定義的產(chǎn)業(yè)實(shí)體類別一共有六種:人名,企業(yè)名稱,組織名稱,產(chǎn)品名稱,項(xiàng)目名稱,技術(shù)名稱。各個實(shí)體類別的標(biāo)注符號以及實(shí)例如表1所示。
表1 實(shí)體標(biāo)注符號及其實(shí)例
由于有色冶金領(lǐng)域命名實(shí)體識別研究的獨(dú)特性和復(fù)雜性,在構(gòu)建的有色冶金領(lǐng)域數(shù)據(jù)集中存在大量的嵌套命名實(shí)體,大大增加了實(shí)體識別的難度。例如在某新聞報(bào)道中出現(xiàn)的命名實(shí)體“金川集團(tuán)鎳鈷資源產(chǎn)品開發(fā)創(chuàng)新聯(lián)合體”中就包含了多層實(shí)體,其最外層的為ORG實(shí)體:“金川集團(tuán)鎳鈷資源產(chǎn)品開發(fā)創(chuàng)新聯(lián)合體”,其內(nèi)部也包含COM實(shí)體:“金川集團(tuán)”,PRO實(shí)體:“鎳”“鈷”,ORG實(shí)體:“開發(fā)創(chuàng)新聯(lián)合體”。同時在PRO類別的實(shí)體中,很多實(shí)體都包含了大小寫字母和特殊的字符,如 “Ni999(0#鎳)”,其內(nèi)部就包含了字母、數(shù)字和特殊字符,在其中也存在另一種PRO實(shí)體:“鎳”。
傳統(tǒng)的命名實(shí)體識別方法只能準(zhǔn)確識別非嵌套的命名實(shí)體,對于嵌套的命名實(shí)體識別準(zhǔn)確率不高,并且無法完全提取出這些嵌套命名實(shí)體中的內(nèi)部實(shí)體,由此可能會導(dǎo)致沒有獲取到足夠的實(shí)體去構(gòu)建有色冶金產(chǎn)業(yè)的企業(yè)畫像和產(chǎn)業(yè)知識圖譜。因此,該文設(shè)計(jì)了多層嵌套實(shí)體識別器來滿足識別多層嵌套實(shí)體的需求。
在進(jìn)行命名實(shí)體識別時,首先需要對文本當(dāng)中的每個實(shí)體進(jìn)行標(biāo)注。為了提高實(shí)體標(biāo)注的效率,該文使用了Label Studio軟件工具對有色冶金領(lǐng)域數(shù)據(jù)集進(jìn)行實(shí)體標(biāo)注。在標(biāo)注方法的選擇上,采用了BIO序列標(biāo)注方法對有色冶金領(lǐng)域數(shù)據(jù)集進(jìn)行標(biāo)注。
為了將MRC框架引入有色冶金領(lǐng)域命名實(shí)體識別任務(wù)當(dāng)中,還需要將數(shù)據(jù)集轉(zhuǎn)換為問答數(shù)據(jù)集。若給定的文本為X={x1,x2,…,xn},其中xi為文本當(dāng)中的每一個字符,n為給定文本長度,而對于在文本當(dāng)中的每一個命名實(shí)體就可以表示為Xstart,end={Xstart,…,Xend}。在構(gòu)建問答數(shù)據(jù)集時,需要為每一個實(shí)體標(biāo)簽分配一個自然語言形式的問題qy=q1,q2,…,qm,其中m是問題qy的長度。則每一個在文本當(dāng)中的實(shí)體就可以表示成三元組(qy,Xstart,end,X),這也是每一個實(shí)體在問答數(shù)據(jù)集當(dāng)中的表現(xiàn)形式。
基于此,對于每一個實(shí)體它的自然語言形式的問題就非常重要,因?yàn)閱栴}中會包含著當(dāng)前實(shí)體標(biāo)簽的先驗(yàn)知識,這對最終模型的效果有顯著影響。經(jīng)過分析和比較,最終選擇以引導(dǎo)說明的方式構(gòu)建實(shí)體的自然語言形式的問題,每種實(shí)體及其對應(yīng)的自然語言問題如表2所示。
表2 實(shí)體類型及其對應(yīng)的自然語言問題
MRC任務(wù)就是先讓計(jì)算機(jī)識別給定文本當(dāng)中的語義信息,然后對應(yīng)的給一個問題,讓計(jì)算機(jī)根據(jù)識別到的語義信息去回答問題,且問題的答案必須是能夠在給定文本當(dāng)中找到的一段話或者是幾個詞。MRC任務(wù)可以分為四個子任務(wù),即填空型閱讀理解任務(wù)、選擇型閱讀理解任務(wù)、片段抽取型閱讀理解任務(wù)以及自由回答型閱讀理解任務(wù),隨著NLP技術(shù)的不斷進(jìn)步,四種MRC任務(wù)都有著快速的發(fā)展[15]。在命名實(shí)體識別任務(wù)中借助MRC框架,可以更加快速有效地識別出嵌套的命名實(shí)體,同時,在一定程度上也可以提高非嵌套命名實(shí)體的識別準(zhǔn)確率[16]。
隨著深度學(xué)習(xí)的不斷發(fā)展,BERT等自然語言預(yù)處理模型可以很好地捕捉原始文本當(dāng)中的語義模式,并可以根據(jù)不同的NLP任務(wù)進(jìn)行微調(diào)。但是現(xiàn)有的預(yù)訓(xùn)練模型很少有結(jié)合到知識圖譜,而知識圖譜可以提供豐富的結(jié)構(gòu)化知識,并可以更好地進(jìn)行語義的理解,因?yàn)橹R圖譜當(dāng)中有很多富含信息的實(shí)體和外部知識可以增強(qiáng)文本的語義特征。而ERNIE就是利用知識圖譜和大規(guī)模中文語料訓(xùn)練得到的語言表征模型,它可以充分利用語法、語義還有知識的優(yōu)勢。相關(guān)實(shí)驗(yàn)表明,ERNIE相比BERT等預(yù)訓(xùn)練模型在實(shí)體識別、問答系統(tǒng)、語言推理和文本分類當(dāng)中可以達(dá)到較好的效果[2]。
ERNIE和BERT都是基于Transformer中Encoder層的大規(guī)模預(yù)訓(xùn)練語言模型。相比于BERT,ERNIE改進(jìn)了BERT在MLM(Masked LM)預(yù)訓(xùn)練任務(wù)中的掩蓋策略,提出了一種多階段的掩蓋策略代替了在BERT中知識的直接嵌入,將短語和知識實(shí)體集成到了文本的語言特征當(dāng)中,ERNIE的多階段掩蓋策略如圖1所示。
圖1 ERNIE的多階段掩蓋策略
首先第一個階段是基礎(chǔ)掩蓋,中文的基本語言單元是漢字,在進(jìn)行訓(xùn)練時隨機(jī)掩蓋15%的基本語言單元,其他的基本語言單元作為輸入來預(yù)測被掩蓋的基本語言單元,但是由于這種方式只是在基本語義單元的掩蓋策略上訓(xùn)練的,所以模型很難提取到文本的深層語義特征。第二個階段是短語掩蓋,在進(jìn)行訓(xùn)練時隨機(jī)掩蓋文本中的幾個短語,這其中包括短語里面的所有基本語言單元,然后對被掩蓋的基本語言單元進(jìn)行預(yù)測。第三個階段是實(shí)體掩蓋,在進(jìn)行訓(xùn)練時對所有命名實(shí)體進(jìn)行掩蓋和預(yù)測。經(jīng)過這三個階段,ERNIE可以學(xué)習(xí)到文本中知識的依賴以及更長的語義依賴來讓模型更具泛化性。
單純的在命名實(shí)體識別任務(wù)中使用MRC模塊,雖然會比傳統(tǒng)的命名實(shí)體識別方法有一定的提升,但是將MRC模塊簡單地加入命名實(shí)體識別模型,即將問答數(shù)據(jù)集作為模型單一的輸入之后,模型并沒有充分利用到標(biāo)簽的知識信息。為了讓模型充分抽取到原始文本的特征,并讓模型能夠利用標(biāo)簽所包含的先驗(yàn)知識,該文將模型的輸入分為兩部分,一部分是BIO標(biāo)注之后的標(biāo)注數(shù)據(jù)集,另一部分是將實(shí)體轉(zhuǎn)換為三元組(qy,Xstart,end,X)的問答數(shù)據(jù)集。將兩部分同時輸入進(jìn)ERNIE預(yù)訓(xùn)練模型,進(jìn)而可以得到兩種具有不同語言特征的詞向量,再將兩種詞向量進(jìn)行信息融合,就可以讓模型同時學(xué)習(xí)到原始文本的信息和標(biāo)簽本身所具有的先驗(yàn)知識。
該文在信息融合時采用了一種語義指導(dǎo)的Attention機(jī)制,其過程如下:
(1)在進(jìn)行語義融合前準(zhǔn)備兩種具有不同語言特征且共享權(quán)重的詞向量hx和hy,其中hx∈Rn×d,hy∈R|c|×m×d,n為一條標(biāo)注數(shù)據(jù)集的長度,|c|和m分別表示一條問答數(shù)據(jù)集中實(shí)體類別的數(shù)量和長度。
(1)
(2)
(3)
(4)
最后,對每一條標(biāo)注數(shù)據(jù)集和問答數(shù)據(jù)集都進(jìn)行上述流程,就可以得到經(jīng)過信息融合之后的詞向量表示。
RNN是一種用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),相比于一般的神經(jīng)網(wǎng)絡(luò)來說能夠很好地處理序列變化的數(shù)據(jù)。但是普通的RNN會存在梯度消失和梯度爆炸的問題,LSTM針對以上問題對RNN進(jìn)行了改進(jìn),它可以在學(xué)習(xí)過程中對有價值的信息進(jìn)行記憶,放棄冗余的記憶,所以相比于普通的RNN,LSTM在更長的序列中有更好的表現(xiàn)。但是在識別文本的語義特征時,單一的LSTM模型無法提取從后向前的語義信息,而BiLSTM則是由向前的LSTM與向后的LSTM組合而成,所以BiLSTM可以更好地捕獲文本的雙向語義。
LSTM的結(jié)構(gòu)如圖2所示。在圖2中,向量ct-1經(jīng)過LSTM模型然后以ct作為輸出,在整個向量的傳輸過程中只是經(jīng)過了簡單的線性操作,這樣可以實(shí)現(xiàn)長期的記憶保留。對于信息的更新和輸出,LSTM則是通過遺忘門、輸入門和輸出門實(shí)現(xiàn)。
圖2 LSTM模型結(jié)構(gòu)
LSTM的計(jì)算公式如下所示:
ft=σ(Wf·[ht-1,xt]+bf)
(5)
it=σ(Wi·[ht-1,xt]+bi)
(6)
(7)
(8)
ot=σ(Wo·[ht-1,xt]+bo)
(9)
ht=ot·tanh(ct)
(10)
MRC框架抽取答案的方法是識別答案的開始位置和結(jié)束位置,即設(shè)置兩個預(yù)測器,兩個預(yù)測器分別預(yù)測答案的開始位置和結(jié)束位置,但是這方法只能得到一個答案,無法處理句子中有多層實(shí)體的問題。
為了讓模型識別出嵌套命名實(shí)體當(dāng)中的多層實(shí)體,該文在MRC抽取方法的基礎(chǔ)上進(jìn)行了改進(jìn),其過程如下:
(1)先讓兩個預(yù)測器預(yù)測嵌套實(shí)體的位置,得到預(yù)測之后實(shí)體的起始位置Ostart和結(jié)束位置Oend。
(2)為了保證實(shí)體為最外層的實(shí)體,將原來實(shí)體的位置范圍進(jìn)行一定程度的擴(kuò)大,得到新的起始位置Nstart和結(jié)束位置Nend。
Nstart=dstart·Ostart
(11)
Nend=dend·Oend
(12)
(4)通過公式(13)預(yù)測每一對開始位置和結(jié)束位置匹配的概率Pi。
(13)
針對研究領(lǐng)域的獨(dú)特性和現(xiàn)有方法在命名實(shí)體識別任務(wù)中的不足,該文構(gòu)建了MEAB模型進(jìn)行有色冶金領(lǐng)域文本命名實(shí)體的識別,模型的結(jié)構(gòu)如圖3所示。該模型主要有文本輸入層、特征轉(zhuǎn)換層、信息融合層、特征提取層和定位輸出層五大模塊。在文本輸入層中,標(biāo)注數(shù)據(jù)集和問答數(shù)據(jù)集會被輸入進(jìn)ERNIE預(yù)訓(xùn)練模型中,在特征轉(zhuǎn)換層ERNIE預(yù)訓(xùn)練模型會將兩種數(shù)據(jù)集轉(zhuǎn)換為詞向量,在信息融合層會將這兩種詞向量進(jìn)行融合,使融合的詞向量同時具有原始文本的語義信息和標(biāo)簽本身所具有的先驗(yàn)知識,并提交給特征提取層。在特征提取層會從前后兩個方向?qū)﹂L距離的文本特征和潛在語義信息進(jìn)行充分提取,最后在定位輸出層輸出嵌套命名實(shí)體當(dāng)中的所有實(shí)體。
圖3 MEAB模型結(jié)構(gòu)
在選取評價指標(biāo)時,該文選取了精確率(P)、召回率(R)和F1值來評價模型的命名實(shí)體識別的效果,評價指標(biāo)的計(jì)算公式如下:
(14)
(15)
(16)
實(shí)驗(yàn)基于Tensorflow1.12.0搭建了模型,為了驗(yàn)證模型識別有色冶金領(lǐng)域命名實(shí)體的性能,對構(gòu)建的有色冶金領(lǐng)域文本數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。同時為了證明該模型在命名實(shí)體識別任務(wù)中的泛化性,還選取了MSRA公共數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。MSRA數(shù)據(jù)集是微軟亞洲研究院提供的命名實(shí)體識別數(shù)據(jù)集,在數(shù)據(jù)集中包含了人名、地名和組織機(jī)構(gòu)名三種實(shí)體類型。在實(shí)驗(yàn)過程中,兩種數(shù)據(jù)集均按照3∶1∶1劃分為訓(xùn)練集、驗(yàn)證集和測試集,在每種數(shù)據(jù)集的基礎(chǔ)上又將該數(shù)據(jù)集分為標(biāo)注數(shù)據(jù)集和問答數(shù)據(jù)集兩種輸入類型,兩種數(shù)據(jù)集的相關(guān)數(shù)據(jù)統(tǒng)計(jì)如表3所示。
表3 數(shù)據(jù)集數(shù)據(jù)統(tǒng)計(jì)
為了驗(yàn)證構(gòu)建的MEAB模型在命名實(shí)體識別任務(wù)當(dāng)中的效果,并證明MEAB模型中所采用的各個模塊對命名實(shí)體的識別是有提升的,選取了如下基線模型進(jìn)行對比。
(1)BERT:該模型僅使用BERT進(jìn)行命名實(shí)體的識別,輸入數(shù)據(jù)為標(biāo)注數(shù)據(jù)集。
(2)ERNIE:該模型僅使用ERNIE進(jìn)行命名實(shí)體的識別,輸入數(shù)據(jù)為標(biāo)注數(shù)據(jù)集。
(3)BiLSTM-CRF:該模型是NLP命名實(shí)體識別任務(wù)當(dāng)中的經(jīng)典模型,輸入數(shù)據(jù)為標(biāo)注數(shù)據(jù)集。
(4)ERNIE-CRF:該模型利用ERNIE先將標(biāo)注數(shù)據(jù)集進(jìn)行編碼,再通過CRF進(jìn)行解碼輸出。
(5)ERNIE-BiLSTM-CRF[17]:該模型利用ERNIE先將標(biāo)注數(shù)據(jù)集進(jìn)行編碼,再通過BiLSTM模型進(jìn)行特征提取,最后通過CRF進(jìn)行解碼輸出。
(6)MRC-BERT[18]:該模型在BERT的基礎(chǔ)上加入了MRC框架,輸入數(shù)據(jù)為問答數(shù)據(jù)集。
(7) MRC-ERNIE:該模型在ERNIE的基礎(chǔ)上加入了MRC框架,輸入數(shù)據(jù)為問答數(shù)據(jù)集。
(8)MRC-ERNIE-BiLST:該模型在MRC-ERNIE的基礎(chǔ)上加入了BiLSTM模型進(jìn)行特征提取,輸入數(shù)據(jù)為問答數(shù)據(jù)集。
(9)MRC-ERNIE-BiLSTM-C:該模型在MRC-ERNIE-BiLSTM基礎(chǔ)上加入了MEAB模型中的多層嵌套實(shí)體識別器,以驗(yàn)證該識別器的效果。但是相比MEAB模型,該模型沒有信息融合層,即該模型的輸入數(shù)據(jù)也僅為問答數(shù)據(jù)集。
該文構(gòu)建的MEAB模型以及基線模型在有色冶金領(lǐng)域文本數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果如表4所示。實(shí)驗(yàn)結(jié)果可以表明,相比其他基線模型,構(gòu)建的MEAB模型在有色冶金領(lǐng)域命名實(shí)體識別任務(wù)當(dāng)中效果最優(yōu),它的精確率、召回率和F1值分別達(dá)到了78.77%、79.76%和79.26%。
表4 有色冶金領(lǐng)域數(shù)據(jù)集實(shí)驗(yàn)結(jié)果 %
在實(shí)驗(yàn)結(jié)果中,ERNIE相比BERT在精確率、召回率和F1值上分別高了4.35、5.25和4.80百分點(diǎn),且在加入了MRC框架之后,MRC-ERNIE 仍比MRC-BERT分別高了3.87、4.73和3.30百分點(diǎn),可以證明ERNIE相比BERT在有色冶金領(lǐng)域命名實(shí)體識別任務(wù)當(dāng)中更占優(yōu)勢。
在MRC-ERNIE和ERNIE、MRC-BERT和BERT的比較中可以發(fā)現(xiàn),在有色冶金領(lǐng)域命名實(shí)體識別任務(wù)當(dāng)中加入MRC框架之后表現(xiàn)更優(yōu),在精確率、召回率和F1值上分別比原生的ERNIE和BERT高出了8.02、7.78、6.75和8.50、8.30、8.40百分點(diǎn)。
相比MRC-ERNIE,MRC-ERNIE-BiLSTM在精確率、召回率和F1值上分別高了1.85、1.11和2.48百分點(diǎn),可以證明引入BiLSTM模型作為特征提取層可以更好地提取到文本當(dāng)中的語義特征。
為了進(jìn)一步驗(yàn)證該文構(gòu)建的MEAB模型在有色冶金領(lǐng)域嵌套命名實(shí)體識別上是有效的,選取了數(shù)據(jù)集中嵌套命名實(shí)體占比最高的PRO類實(shí)體進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示。加入了定位輸出層之后,在PRO類型實(shí)體中MRC-ERNIE-BiLSTM-C相比MRC-ERNIE-BiLSTM在精確率、召回率和F1值上分別高了7.83、7.69和7.76百分點(diǎn)??梢宰C明提出的多層嵌套實(shí)體識別器在有色冶金領(lǐng)域的嵌套命名實(shí)體識別任務(wù)當(dāng)中是有效的。
表5 有色冶金領(lǐng)域數(shù)據(jù)集中PRO類型實(shí)體實(shí)驗(yàn)結(jié)果 %
構(gòu)建的MEAB模型在MRC-ERNIE-BiLSTM-C的基礎(chǔ)上加入了信息融合層之后,相比MRC-ERNIE-BiLSTM-C在PRO類型實(shí)體的識別上分別高了1.71、0.75和1.24百分點(diǎn),可以證明該文引入的信息融合策略在有色冶金領(lǐng)域的嵌套命名實(shí)體識別中是有效的。在有色冶金領(lǐng)域文本數(shù)據(jù)集中全類別實(shí)驗(yàn)的相似實(shí)驗(yàn)結(jié)果,也可以證明多層嵌套實(shí)體識別器和信息融合策略是有效的。
分析實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),由于有色冶金領(lǐng)域數(shù)據(jù)集的實(shí)體類別較多且個別類別的實(shí)體較為復(fù)雜,導(dǎo)致BiLSTM-CRF這種經(jīng)典的命名實(shí)體識別模型性能較差,而且BiLSTM-CRF只能有效識別非嵌套的命名實(shí)體,無法識別多層嵌套的命名實(shí)體。對于只是簡單使用了BERT、ERNIE預(yù)訓(xùn)練模型的方法,雖然比BiLSTM-CRF模型在性能上有一定的提升,但是這種提升只是在文本語義信息的提取方面,對于多層嵌套的命名實(shí)體的識別效率提升不大。該文提出的MEAB模型在ERNIE和BiLSTM充分提取文本語義信息的基礎(chǔ)上,引入了MRC框架和基于Attention的信息融合機(jī)制,加強(qiáng)了模型對嵌套命名實(shí)體識別的整體性能,同時針對數(shù)據(jù)集中多層嵌套實(shí)體的特點(diǎn),設(shè)計(jì)了一種多層嵌套實(shí)體識別器,對多層嵌套實(shí)體進(jìn)行比較并提取。因此,該文提出的MEAB模型在識別有色冶金命名實(shí)體時具有更好的性能,優(yōu)于其他基線模型。
構(gòu)建的MEAB模型以及基線模型在MSRA數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果如表6所示。實(shí)驗(yàn)結(jié)果可以表明,相比其他基線模型,構(gòu)建的MEAB模型在MSRA數(shù)據(jù)集中的命名實(shí)體識別效果最優(yōu),它的精確率、召回率和F1值分別達(dá)到了97.70%、97.90%和97.80%??梢宰C明,提出的MEAB模型在命名實(shí)體識別任務(wù)當(dāng)中具有一定的泛化性。
表6 MSRA數(shù)據(jù)集實(shí)驗(yàn)結(jié)果 %
該文選擇參數(shù)量和浮點(diǎn)運(yùn)算次數(shù)(FLOPs)來評價MEAB模型的計(jì)算復(fù)雜度,并與經(jīng)典模型進(jìn)行對比。如表7所示,由于構(gòu)建的MEAB模型使用了ERNIE預(yù)訓(xùn)練模型和BiLSTM模型,所以在參數(shù)量方面比BERT稍大,同時在模型的浮點(diǎn)運(yùn)算次數(shù)上MEAB模型也比BERT稍大。綜合兩種模型在有色冶金領(lǐng)域文本數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,可以說明MEAB模型可以在沒有顯著增加計(jì)算復(fù)雜度的情況下,能夠大幅提高對有色冶金領(lǐng)域命名實(shí)體的識別精度。
表7 計(jì)算復(fù)雜度對比
有色冶金領(lǐng)域命名實(shí)體識別是構(gòu)建有色冶金產(chǎn)業(yè)企業(yè)畫像和建立產(chǎn)業(yè)知識圖譜的重要信息來源和依據(jù)。鑒于當(dāng)前有色冶金領(lǐng)域命名實(shí)體數(shù)據(jù)集缺失的問題,首先,構(gòu)建了有色冶金產(chǎn)業(yè)領(lǐng)域命名實(shí)體識別的數(shù)據(jù)集,并在此基礎(chǔ)上構(gòu)建了標(biāo)注數(shù)據(jù)集和問答數(shù)據(jù)集。然后,在MRC框架、ERNIE預(yù)訓(xùn)練模型和BiLSTM模型的基礎(chǔ)上,引入了信息融合策略和多層嵌套實(shí)體識別器,構(gòu)建了MEAB命名實(shí)體識別模型。相比已有的命名實(shí)體識別模型,該模型可以充分提取出文本原有的語義特征,并更好地利用標(biāo)簽當(dāng)中的先驗(yàn)知識,提高了對命名實(shí)體包括嵌套命名實(shí)體的識別準(zhǔn)確率。在構(gòu)建的有色冶金領(lǐng)域命名實(shí)體識別數(shù)據(jù)集上的實(shí)驗(yàn)表明,MEAB模型可以有效識別數(shù)據(jù)集中的嵌套命名實(shí)體和非嵌套命名實(shí)體,精確率、召回率和F1值分別達(dá)到了78.77%、79.76%和79.26%。在后續(xù)的研究中,可以進(jìn)一步完善并擴(kuò)大有色冶金領(lǐng)域的語料庫,并在有色冶金領(lǐng)域命名實(shí)體識別的基礎(chǔ)上構(gòu)建有色冶金產(chǎn)業(yè)的企業(yè)畫像,建立產(chǎn)業(yè)的知識圖譜。