俞海亮,彭冬亮,谷 雨*
(1.杭州電子科技大學(xué) 圣光機(jī)聯(lián)合學(xué)院,浙江 杭州 310018;2.杭州電子科技大學(xué) 自動(dòng)化學(xué)院,浙江 杭州 310018)
隨著軍事信息化的快速發(fā)展,網(wǎng)絡(luò)公開的軍事新聞數(shù)據(jù)越來(lái)越多,但是非結(jié)構(gòu)化的軍事武器信息不利于國(guó)防工作者提取有效信息,尤其軍事武器實(shí)體信息。因此,從非結(jié)構(gòu)化的軍事文本新聞中準(zhǔn)確識(shí)別出軍事武器實(shí)體、屬性、實(shí)體之間的關(guān)系等信息是至關(guān)重要的。軍事武器實(shí)體識(shí)別就是從海量公開軍事新聞數(shù)據(jù)中識(shí)別出軍事武器實(shí)體,是軍事知識(shí)本體庫(kù)構(gòu)建的關(guān)鍵一步。常見的軍事武器實(shí)體包括飛機(jī)、艦船、坦克、火炮、槍械和導(dǎo)彈6大類,本文也是基于這6類武器實(shí)體構(gòu)建數(shù)據(jù)集,實(shí)現(xiàn)識(shí)別任務(wù),從而構(gòu)建系統(tǒng)的軍事武器本體知識(shí)庫(kù),為軍事武器情報(bào)信息檢索提供輔助支持。
傳統(tǒng)的實(shí)體識(shí)別方法主要以統(tǒng)計(jì)學(xué)和語(yǔ)言學(xué)為基礎(chǔ),通過詞性分析和依存句法分析等技術(shù)人工建立規(guī)則模板實(shí)現(xiàn)文本的實(shí)體識(shí)別,主要包含基于規(guī)則的方法[1-2]、基于統(tǒng)計(jì)的方法[3-4]以及基于統(tǒng)計(jì)和規(guī)則相結(jié)合的方法[5-6]。隨著機(jī)器學(xué)習(xí)尤其是深度學(xué)習(xí)技術(shù)的發(fā)展,實(shí)體識(shí)別實(shí)現(xiàn)了重大突破,研究者借助支持向量機(jī)(Support Vector Machine,SVM)[7]、隱馬爾科夫模型(Hidden Markov Model,HMM)[8]和條件隨機(jī)場(chǎng)模型(Conditional Random Field,CRF)[9-10]將實(shí)體識(shí)別問題轉(zhuǎn)化為分類問題或者序列標(biāo)注任務(wù)。
使用深度學(xué)習(xí)方法,可以利用深度學(xué)習(xí)模型自動(dòng)學(xué)習(xí)詞語(yǔ)本身的向量化信息作為輸入,對(duì)輸入特征自動(dòng)學(xué)習(xí)能力更強(qiáng)。趙洪等[11]提出了BiLSTM-CRF深度學(xué)習(xí)模型,該方法的F1值達(dá)到了84.52%,相比于以往基于統(tǒng)計(jì)學(xué)習(xí)和淺層機(jī)器學(xué)習(xí)方法效果有所提升。馬建紅等[12]為提高新能源汽車領(lǐng)域?qū)嶓w識(shí)別準(zhǔn)確率,在使用BiLSTM提取特征基礎(chǔ)上,加入注意力機(jī)制(Attention Mechanism)[13],實(shí)現(xiàn)對(duì)關(guān)鍵詞信息的提取。實(shí)驗(yàn)結(jié)果表明,加入注意力機(jī)制后,實(shí)驗(yàn)精度進(jìn)一步提高。2020年,吳俊等[14]提出基于BERT嵌入BiLSTM-CRF模型的中文專業(yè)實(shí)體識(shí)別研究,該模型相對(duì)于上述2種模型采用BERT字向量嵌入代替詞向量嵌入,該模型對(duì)實(shí)體提取的F1值為92.96%。
上述方法在輸入特征層面,都只考慮了字符特征或者詞典特征等單一特征,或者只是將二者進(jìn)行了一個(gè)簡(jiǎn)單拼接。然而實(shí)際情況是,對(duì)于某一特征在嵌入層以及在命名實(shí)體識(shí)別任務(wù)中的語(yǔ)義理解上的重要程度是不一樣的。因此為區(qū)別不同特征的重要性,本文提出了一種新的軍事武器實(shí)體識(shí)別方法,采用雙層自注意力機(jī)制與BiLSTM-CRF模型結(jié)合的方法識(shí)別候選實(shí)體,然后參考軍事武器實(shí)體構(gòu)詞特點(diǎn)加入校驗(yàn)機(jī)制,對(duì)候選實(shí)體過濾,從而得到最終實(shí)體。為驗(yàn)證本文提出模型的性能,在自建的軍事武器實(shí)體識(shí)別數(shù)據(jù)集上,進(jìn)行了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果驗(yàn)證了本文提出方法的有效性。論文主要?jiǎng)?chuàng)新點(diǎn)包括以下2個(gè)方面:
① 為了區(qū)別字符不同輸入特征對(duì)實(shí)體識(shí)別效果的影響,本文使用多頭自注意力對(duì)字符特征、位置特征以及標(biāo)簽特征進(jìn)行加權(quán)融合,從而獲得更優(yōu)的字符嵌入。
② 針對(duì)具有軍事背景的武器實(shí)體識(shí)別任務(wù),結(jié)合武器實(shí)體構(gòu)詞特點(diǎn),加入正則匹配模板,對(duì)模型識(shí)別的武器實(shí)體進(jìn)行過濾,進(jìn)一步降低了誤識(shí)別率。
注意力機(jī)制最早在計(jì)算機(jī)視覺領(lǐng)域被提出,它指出注意力機(jī)制可以對(duì)傳統(tǒng)的視覺搜索方法進(jìn)行優(yōu)化,通過調(diào)整視覺對(duì)網(wǎng)絡(luò)的處理,減少了需要處理的樣本數(shù)據(jù)并且增加了樣本的特征匹配[15-16]。
注意力機(jī)制的本質(zhì)來(lái)自于人類視覺注意力機(jī)制,人類往往根據(jù)需求會(huì)著重關(guān)注于特定的一部分,而不是全部。在自然語(yǔ)言處理任務(wù)中,希望通過注意力機(jī)制能夠?qū)W習(xí)到對(duì)文本語(yǔ)義理解起關(guān)鍵作用的詞或者字符。
傳統(tǒng)的注意力機(jī)制廣泛應(yīng)用于Encoder-Decoder框架中,輸入和輸出內(nèi)容是不一樣的。比如對(duì)于機(jī)器翻譯任務(wù)來(lái)說(shuō),輸入是英文句子,輸出目標(biāo)是對(duì)應(yīng)中文句子,注意力機(jī)制發(fā)生在輸出目標(biāo)元素和輸入元素之間,將查詢矩陣和鍵矩陣進(jìn)行相似度計(jì)算得到權(quán)重。然后通過softmax函數(shù)對(duì)權(quán)重進(jìn)行歸一化,最后將權(quán)重和相應(yīng)的鍵值加權(quán)求和得到注意力表示,采用的是加權(quán)求和的方式。而自注意力機(jī)制只需要考慮輸入句子內(nèi)部之間的信息,不需要考慮外部信息。然后通過計(jì)算每個(gè)詞和句子內(nèi)部所有詞的注意力函數(shù),所以可以更好地捕獲詞語(yǔ)在長(zhǎng)距離文本依賴中的語(yǔ)義關(guān)系。
在軍事武器實(shí)體識(shí)別任務(wù)中,高質(zhì)量的軍事新聞文本語(yǔ)料相對(duì)較少,而且軍事武器實(shí)體構(gòu)成多為多種類型字符組合,如中英文混合以及與數(shù)字字符組合,給識(shí)別任務(wù)造成了一定的困難。因此,使用自注意力機(jī)制可以動(dòng)態(tài)學(xué)習(xí)字符的關(guān)鍵特征,而且使用多頭自注意力機(jī)制也可以提取字符的重要語(yǔ)義特征,從而更準(zhǔn)確地識(shí)別所有軍事武器實(shí)體。
軍事武器實(shí)體識(shí)別任務(wù)通常被當(dāng)作序列標(biāo)注任務(wù)來(lái)處理,模型整體結(jié)構(gòu)如圖1所示。模型主要包括Embedding層、MHA-BiLSTM-MHA層以及CRF層。為了區(qū)分不同輸入特征在實(shí)體識(shí)別任務(wù)中的重要程度,本文在BiLSTM層之前加入多頭自注意力機(jī)制[17],使用多頭自注意力機(jī)制給予輸入特征不同的權(quán)重系數(shù)。BiLSTM層用于學(xué)習(xí)句子序列的時(shí)序信息,并且對(duì)文本進(jìn)行特征提取,后面一層多頭自注意力層用于獲取文本序列的關(guān)鍵字符信息以及字符之間的依賴信息,最后通過CRF層獲得最終的標(biāo)簽序列。
圖1 模型整體結(jié)構(gòu)Fig.1 Overall structure of the model
軍事武器實(shí)體和其他命名實(shí)體有很大不同,它具有很強(qiáng)的軍事背景,構(gòu)成較為復(fù)雜,通常由多種類型字符組合而成,例如“殲-20”“天燕1號(hào)”等。因此直接使用jieba等分詞器對(duì)原始新聞文本分詞,效果較差,分詞結(jié)果不符合軍事武器實(shí)體特點(diǎn),從而導(dǎo)致生成的詞向量嵌入不具有武器實(shí)體語(yǔ)義特征。因此加入自定義敘詞表,將常見軍事武器實(shí)體加入自定義詞典中,然后對(duì)新聞文本進(jìn)行分詞。
2.1.1 字符特征
字符特征表征字符的語(yǔ)義信息,本文首先在中文維基百科數(shù)據(jù)集中加入從新浪軍事網(wǎng)站爬取的大規(guī)模中文軍事數(shù)據(jù),經(jīng)過自定義軍事領(lǐng)域詞典進(jìn)行分詞以及去除常見停用詞處理之后,使用word2vec訓(xùn)練得到詞向量表Vw=[vw1,vw2,…,vwn],vwi表示經(jīng)過訓(xùn)練之后生成的每個(gè)字符的向量。
然后對(duì)于分詞后的軍事武器新聞文本數(shù)據(jù)在詞向量表中查找其對(duì)應(yīng)的詞向量,對(duì)于沒有在詞向量表中找到的字符集合,隨機(jī)生成其向量,于是對(duì)于輸入序列得到其字符嵌入表示為Vc=[vc1,vc2,…,vcn],其中,vci表示第i個(gè)字符的嵌入向量。
2.1.2 位置特征
字符特征僅表征了字符本身的語(yǔ)義信息,對(duì)于文本理解實(shí)體的依賴關(guān)系沒有效果。位置特征則解決了該問題,例如對(duì)于新聞文本序列“武直-10兩側(cè)武器短翼可掛載反坦克導(dǎo)彈以及空對(duì)空導(dǎo)彈”,通過表示字符之間的位置特征,可以學(xué)習(xí)實(shí)體之間的依賴關(guān)系,以便于準(zhǔn)確識(shí)別“武直-10”“反坦克導(dǎo)彈”“空對(duì)空導(dǎo)彈”所有武器實(shí)體,而且不會(huì)有所遺漏。
首先基于新聞文本中出現(xiàn)的所有字符集合構(gòu)建詞典集合,然后通過前序詞典匹配以及后序詞典匹配方法,標(biāo)記每個(gè)字符距離最近標(biāo)簽實(shí)體的相對(duì)位置。然后通過向量化方式將其映射為低維向量,于是對(duì)于輸入文本序列可以得到其位置嵌入表示為Vp=[vp1,vp2,…,vpn],其中,vpi表示第i個(gè)字符的位置向量。
2.1.3 標(biāo)簽特征
除了考慮字符特征和位置特征,也考慮了標(biāo)簽特征。通過學(xué)習(xí)字符的標(biāo)簽特征,可以將字符與標(biāo)簽建立聯(lián)系,有助于對(duì)字符標(biāo)簽的預(yù)測(cè)。本文采用BIO數(shù)據(jù)標(biāo)注格式,對(duì)于分詞后的字符,得到其對(duì)應(yīng)的“B-Gun”“I-Gun”“O”等標(biāo)簽特征。
為了便于將標(biāo)簽特征轉(zhuǎn)化為向量形式,將所有字符對(duì)應(yīng)的標(biāo)簽信息隨機(jī)初始化為一個(gè)向量,然后通過此向量代替對(duì)應(yīng)的標(biāo)簽信息,于是對(duì)于每一個(gè)輸入文本序列中的字符,都可以通過查找映射表得到該標(biāo)簽的向量表示,從而對(duì)于每一段輸入文本序列都可以得到其標(biāo)簽嵌入,表示為Vb=[vb1,vb2,…,vbn],其中,vbi表示第i個(gè)字符的標(biāo)簽向量。
經(jīng)過Embedding層,得到3種嵌入向量表示,傳統(tǒng)方法通常對(duì)3種向量做拼接得到最終BiLSTM層的輸入向量。該方法將所有特征默認(rèn)看成是同等重要的,然而對(duì)于不同的文本序列,不同特征在語(yǔ)義理解上所產(chǎn)生的效果不同,因此有必要?jiǎng)討B(tài)生成3種特征的權(quán)重,本文中采用多頭自注意力機(jī)制,生成3種特征的權(quán)重系數(shù)。
將輸入序列表示為S={x1,x2,…,xn},n為輸入文本序列的字符個(gè)數(shù),使用多頭自注意力機(jī)制,對(duì)字符特征Vc、位置特征Vp和標(biāo)簽特征Vb生成不同的權(quán)重系數(shù),分別表示它們對(duì)文本語(yǔ)義理解的重要程度,于是最終的嵌入向量可以表示為:
V=α·Vc⊕β·Vp⊕γ·Vb,
(1)
式中,·表示乘積運(yùn)算符;⊕表示向量拼接運(yùn)算符。
2.2.1 BiLSTM神經(jīng)網(wǎng)絡(luò)模型
本文采用了BiLSTM對(duì)輸入向量進(jìn)行特征提取。BiLSTM網(wǎng)絡(luò)不止有前向傳播而且也包含反向傳播,因此可以學(xué)習(xí)到句子的前后時(shí)序信息,有助于文本的語(yǔ)義理解。BiLSTM網(wǎng)絡(luò)主要由LSTM網(wǎng)絡(luò)構(gòu)成,LSTM單元結(jié)構(gòu)如圖2所示。
圖2 LSTM單元結(jié)構(gòu)Fig.2 Structure of LSTM unit
LSTM結(jié)構(gòu)由3個(gè)門控單元組成,分別是輸入門、遺忘門和輸出門,計(jì)算公式為:
ft=σ(Wf·[ht-1,xt]+bf),
(2)
it=σ(Wi·[ht-1,xt]+bi),
(3)
(4)
(5)
ot=σ(Wo·[ht-1,xt]+bo),
(6)
ht=ot*tanh(Ct),
(7)
式中,ft,it,ot分別代表遺忘門、輸入門、輸出門;x,h表示輸入層、隱藏層;W,b代表權(quán)重矩陣和偏置向量;*為點(diǎn)積。BiLSTM模型通過對(duì)輸入文本特征提取,得到句子級(jí)別特征,最終輸出每個(gè)字符對(duì)應(yīng)標(biāo)簽類別的概矩陣記為矩陣P=[p1,p2,…,pn],其中,pi表示該字符對(duì)應(yīng)各標(biāo)簽類別的分?jǐn)?shù)。
2.2.2 多頭自注意力機(jī)制
使用多頭自注意力機(jī)制可以學(xué)習(xí)文本序列中更為重要的信息,本文中2次使用多頭自注意力機(jī)制,分別是對(duì)特征嵌入,使用多頭自注意力機(jī)制得到3種特征輸入的權(quán)重系數(shù),以及在BiLSTM特征提取過程中,使用多頭自注意力機(jī)制提取關(guān)鍵字符的語(yǔ)義信息。單個(gè)字符注意力計(jì)算公式為:
(8)
(9)
Q,K,V首先經(jīng)過一個(gè)線性變換,然后輸入到放縮點(diǎn)積Attention,注意這里要做h次,也就是所謂的多頭,本文中h為8,頭之間參數(shù)不共享,即每次線性變換的參數(shù)W是不一樣的。然后將8次的放縮點(diǎn)積Attention結(jié)果進(jìn)行拼接,再進(jìn)行一次線性變換得到的值作為多頭Attention的結(jié)果。
經(jīng)過MHA-BiLSTM-MHA層得到每個(gè)字符屬于哪一類標(biāo)簽的概率矩陣P,也就是狀態(tài)分?jǐn)?shù)矩陣同時(shí)也是CRF的發(fā)射概率矩陣,定義pij表示i字符對(duì)應(yīng)標(biāo)簽j的概率。對(duì)于預(yù)測(cè)序列y={y1,y2,…,yn},它的概率計(jì)算為:
(10)
式中,矩陣A是狀態(tài)轉(zhuǎn)移矩陣;Aij表示從標(biāo)簽i轉(zhuǎn)移到標(biāo)簽j的概率;y0,yn是預(yù)測(cè)句子開始和結(jié)束的標(biāo)志。在訓(xùn)練過程中標(biāo)記序列的似然函數(shù)為:
(11)
通過式(11)可以計(jì)算出所有可能的標(biāo)記輸出序列,最終通過式(12)輸出概率最大的一組標(biāo)記序列,即為最優(yōu)的標(biāo)注結(jié)果:
(12)
盡管使用上述模型對(duì)軍事武器實(shí)體識(shí)別已有不錯(cuò)的效果,但還是會(huì)存在一定的誤識(shí)別。所以對(duì)經(jīng)過模型識(shí)別之后的武器實(shí)體進(jìn)行二次過濾是很有必要的。對(duì)爬取的大量軍事武器新聞文本分析,發(fā)現(xiàn)軍事武器實(shí)體構(gòu)詞有如下特點(diǎn):軍事武器實(shí)體多為名詞或名詞短語(yǔ)組成,軍事武器實(shí)體命名規(guī)則單一,一般由4個(gè)部分中的幾個(gè)組合而成,分別是“武器系列”“型號(hào)字符串”“特定漢字”“武器系列”[18]。
參考以上軍事武器實(shí)體命名規(guī)則,如AK-47突擊步槍,由武器系列(英文字符AK),型號(hào)(數(shù)字47),武器類型(突擊步槍)組成,根據(jù)不同的軍事武器實(shí)體類型構(gòu)建對(duì)應(yīng)的正則表達(dá)式模板,部分規(guī)則匹配模板如表1所示。
表1 部分武器實(shí)體正則匹配模板Tab.1 Some weapon entity regular matching templates
結(jié)合軍事武器實(shí)體命名規(guī)則,按以下步驟對(duì)軍事武器實(shí)體進(jìn)行過濾。先過濾掉非名詞和名詞短語(yǔ)的候選實(shí)體,然后利用正則匹配模板對(duì)候選實(shí)體進(jìn)行下一步過濾,最后對(duì)刪除的候選實(shí)體進(jìn)行人工校驗(yàn)避免因模板不夠全面而導(dǎo)致的誤刪的情況,最終得到實(shí)體。對(duì)候選實(shí)體的校驗(yàn)規(guī)則流程如圖3所示。
圖3 候選實(shí)體過濾流程Fig.3 Candidate entity filtering flowchart
利用網(wǎng)絡(luò)爬蟲技術(shù)以“武器”“坦克”“導(dǎo)彈”“航空母艦”等為關(guān)鍵詞爬取網(wǎng)絡(luò)公開軍事新聞數(shù)據(jù),本文從新浪軍事網(wǎng)站(URL:https:∥mil.news.sina.com.cn/roll/index.d.html)爬取公開軍事新聞數(shù)據(jù)、原始數(shù)據(jù)為非結(jié)構(gòu)化文本數(shù)據(jù),然后對(duì)數(shù)據(jù)進(jìn)行專題數(shù)據(jù)篩選,去除與軍事武器無(wú)關(guān)的軍事新聞數(shù)據(jù),得到最終需要標(biāo)注的數(shù)據(jù)。
通過閱讀現(xiàn)有的軍事武器實(shí)體庫(kù),學(xué)習(xí)軍事武器專業(yè)實(shí)體,然后對(duì)以上數(shù)據(jù)采用BIO數(shù)據(jù)標(biāo)注格式完成對(duì)語(yǔ)料的標(biāo)注。B表示實(shí)體起始字符,I表示實(shí)體內(nèi)部字符,O表示當(dāng)前字符不再是實(shí)體,圖4給出了軍事武器實(shí)體標(biāo)注示例。
圖4 軍事武器實(shí)體標(biāo)注示例Fig.4 Examples of military weapon entity labeling
標(biāo)注完成后,將標(biāo)注后的數(shù)據(jù)集按照7∶2∶1分別劃分為訓(xùn)練集、驗(yàn)證集以及測(cè)試集。訓(xùn)練集用于對(duì)模型的訓(xùn)練,驗(yàn)證集對(duì)學(xué)習(xí)過后的模型進(jìn)行驗(yàn)證,調(diào)整模型相應(yīng)參數(shù)、優(yōu)化模型,測(cè)試集最終評(píng)判模型的優(yōu)劣。數(shù)據(jù)集統(tǒng)計(jì)信息如表2所示。
表2 數(shù)據(jù)集統(tǒng)計(jì)Tab.2 Statistics of datasets
本實(shí)驗(yàn)的服務(wù)器環(huán)境配置如表3所示。
表3 實(shí)驗(yàn)環(huán)境配置Tab.3 Configuration of experimental environment
本實(shí)驗(yàn)的實(shí)驗(yàn)參數(shù)設(shè)置如表4所示。
表4 實(shí)驗(yàn)參數(shù)設(shè)置Tab.4 Settings of experimental parameters
為檢驗(yàn)本文提出模型在軍事武器實(shí)體識(shí)別領(lǐng)域的具體效果,以BiLSTM-MHA-CRF為基準(zhǔn)模型,作為本文提出的MHA-BiLSTM-MHA-CRF模型的實(shí)驗(yàn)對(duì)比,模型的具體識(shí)別結(jié)果如表5所示。從實(shí)驗(yàn)結(jié)果中可以看出,對(duì)于文本語(yǔ)義簡(jiǎn)單的新聞文本,2種模型均能準(zhǔn)確識(shí)別出所有武器實(shí)體,而對(duì)于存在干擾實(shí)體或者武器實(shí)體間距很小的新聞文本中,BiLSTM-MHA-CRF模型則會(huì)出現(xiàn)錯(cuò)誤識(shí)別的情況,例如將“渦扇-10發(fā)動(dòng)機(jī)”識(shí)別為飛機(jī)實(shí)體、“鷹擊62和鷹擊83空對(duì)艦導(dǎo)彈”識(shí)別為一個(gè)導(dǎo)彈實(shí)體。但MHA-BiLSTM-MHA-CRF模型依然能夠準(zhǔn)確識(shí)別出所有實(shí)體,由此推斷出雙層自注意力相比于單層自注意力在實(shí)體識(shí)別方面更具有優(yōu)勢(shì)。
為具體評(píng)判本文提出方法的性能,采用2階段對(duì)比實(shí)驗(yàn),驗(yàn)證本文提出方法的優(yōu)越性,首先采用不同模型在字符嵌入作為輸入特征上做實(shí)驗(yàn)對(duì)比得到實(shí)驗(yàn)結(jié)果,然后從一階段實(shí)驗(yàn)結(jié)果中選取最佳模型作為基準(zhǔn)模型與本文提出的雙層多頭自注意力機(jī)制模型分別在字符特征與融合特征方面做實(shí)驗(yàn)對(duì)比,由此驗(yàn)證本文提出方法的優(yōu)勢(shì)。
采用精確率(Precision,P),召回率(Recall,R)和F1值(F1-score,F(xiàn)1)作為評(píng)價(jià)指標(biāo),得到一階段實(shí)驗(yàn)結(jié)果如表6所示。
表6 基準(zhǔn)模型實(shí)驗(yàn)結(jié)果對(duì)比Tab.6 Comparison of benchmark model experiment results
從表6中的實(shí)驗(yàn)1,2,4可知:CRF與HMM和BiLSTM相比,CRF表現(xiàn)出更好的性能,由此可以推斷出CRF在序列標(biāo)注等任務(wù)上有較大的優(yōu)勢(shì);表6中的實(shí)驗(yàn)3,5分別利用CNN網(wǎng)絡(luò)和BiLSTM網(wǎng)絡(luò)提取特征,然后使用CRF模型生成實(shí)體標(biāo)注序列,發(fā)現(xiàn)CNN網(wǎng)絡(luò)和BiLSTM網(wǎng)絡(luò)相比,在提取文本序列特征時(shí),CNN效果較差。而BiLSTM-CRF模型在使用BiLSTM網(wǎng)絡(luò)提取特征之后相比于CRF模型在精度、召回率和F1值上均有提升,說(shuō)明BiLSTM在序列標(biāo)注任務(wù)上提取特征是有效的,可以增強(qiáng)CRF模型的實(shí)體識(shí)別效果。
從表6中的實(shí)驗(yàn)7可知:BiLSTM-MHA-CRF模型確實(shí)優(yōu)于其他模型,因此將BiLSTM-MHA-CRF作為基準(zhǔn)模型,與本文提出的MHA-BiLSTM-MHA-CRF模型進(jìn)行實(shí)驗(yàn)對(duì)比,論證雙層自注意力在輸入特征融合方面的優(yōu)越性,實(shí)驗(yàn)結(jié)果如表7所示。
表7 本文提出方法實(shí)驗(yàn)結(jié)果對(duì)比Tab.7 Comparison of experimental results of the proposed method
從以上實(shí)驗(yàn)結(jié)果可以看出,當(dāng)使用字符、位置、標(biāo)簽3種特征拼接作為BiLSTM-MHA-CRF模型輸入時(shí),在精確率、召回率以及F1值方面均比僅使用字符特征嵌入有所提升。然后通過BiLSTM-MHA-CRF與MHA-BiLSTM-MHA-CRF模型對(duì)比,發(fā)現(xiàn)在字符特征嵌入對(duì)比實(shí)驗(yàn)中,2種模型實(shí)驗(yàn)在精確率等評(píng)價(jià)指標(biāo)上很接近,但是在使用字符、位置和標(biāo)簽3種特征融合時(shí),MHA-BiLSTM-MHA-CRF相比于BiLSTM-MHA-CRF在精確率、召回率以及F1值上分別提升了0.92%,0.9%,0.82%,由此可以看出,在BiLSTM層之前使用多頭自注意力機(jī)制確實(shí)可以對(duì)輸入特征向量進(jìn)行有效的加權(quán)融合,可以在不同新聞文本實(shí)體識(shí)別過程中動(dòng)態(tài)地賦予關(guān)鍵特征更高的權(quán)重,使得識(shí)別效果達(dá)到更優(yōu)。最后,通過結(jié)合軍事武器實(shí)體構(gòu)成特點(diǎn),加入校驗(yàn)機(jī)制對(duì)武器實(shí)體進(jìn)一步過濾,可以進(jìn)一步完善實(shí)體識(shí)別效果。
本文提出了一種結(jié)合雙層多頭自注意力機(jī)制和BiLSTM-CRF模型的軍事武器實(shí)體識(shí)別方法,實(shí)驗(yàn)結(jié)果表明通過雙層多頭自注意力機(jī)制,不僅可以在BiLSTM層之后找到關(guān)鍵字符信息,而且能夠在BiLSTM層之前對(duì)輸入的不同特征進(jìn)行有效的加權(quán)融合,生成最終輸入的特征嵌入,使得實(shí)體識(shí)別效果更好,同時(shí)對(duì)于軍事武器實(shí)體,利用正則匹配構(gòu)建規(guī)則模板對(duì)武器實(shí)體過濾也具有不錯(cuò)的效果。