亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于預(yù)訓(xùn)練模型的軍事領(lǐng)域命名實(shí)體識(shí)別研究

2022-10-27 14:52:52童昭王露笛朱小杰杜一

數(shù)據(jù)與計(jì)算發(fā)展前沿 2022年5期

童昭，王露笛，朱小杰，杜一

中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心，北京 100083

引言

近年來(lái)，隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展，以神經(jīng)網(wǎng)絡(luò)為代表的人工智能算法為部隊(duì)信息化與智能化建設(shè)提供了一種有效的手段。知識(shí)圖譜[1]作為描述真實(shí)世界中實(shí)體和概念以及他們之間關(guān)系的一種工具，能夠?qū)?fù)雜、海量的數(shù)據(jù)整合在一起，利用圖譜中的關(guān)系和節(jié)點(diǎn)描述語(yǔ)義關(guān)聯(lián)信息。知識(shí)圖譜中的實(shí)體是知識(shí)庫(kù)中的基本單位，同時(shí)也是構(gòu)建圖譜的核心要素，通過(guò)命名實(shí)體識(shí)別任務(wù)中包含的實(shí)體，為知識(shí)圖譜構(gòu)建提供知識(shí)支撐。為了從海量的信息中抽取有價(jià)值的數(shù)據(jù)，發(fā)掘隱藏的應(yīng)用價(jià)值，通常需要用到自然語(yǔ)言處理（Natural Language Processing,NLP）技術(shù)，而NLP 中應(yīng)用最廣泛的就是命名實(shí)體識(shí)別（Named Entity Recognition,NER）技術(shù)。命名實(shí)體識(shí)別是指從非結(jié)構(gòu)的文本數(shù)據(jù)集中抽取出結(jié)構(gòu)化的信息，并分類到預(yù)先定義的，如人名、地名、組織機(jī)構(gòu)名等特定類別中。傳統(tǒng)的命名實(shí)體識(shí)別任務(wù)主要分為三大類（實(shí)體類、時(shí)間類和數(shù)字類），或者更具體的七小類（人名、地名、機(jī)構(gòu)名、地點(diǎn)、時(shí)間、日期、貨幣和百分比）[2]。命名實(shí)體識(shí)別是實(shí)現(xiàn)信息抽取、搜索推薦等自然語(yǔ)言處理中的基礎(chǔ)任務(wù)，命名實(shí)體的準(zhǔn)確識(shí)別可以促進(jìn)智能問(wèn)答、知識(shí)圖譜構(gòu)建等下游任務(wù)的研究。本文的研究目標(biāo)是以自建的軍事語(yǔ)料作為數(shù)據(jù)支撐，以準(zhǔn)確高效地識(shí)別軍事命名實(shí)體為目標(biāo)，利用深度學(xué)習(xí)的算法作為技術(shù)手段，為后續(xù)戰(zhàn)場(chǎng)信息情報(bào)獲取、知識(shí)圖譜構(gòu)建等提供支持，進(jìn)一步加速軍事作戰(zhàn)指揮的智能化轉(zhuǎn)型。

軍事命名實(shí)體識(shí)別涉及的實(shí)體范疇遠(yuǎn)遠(yuǎn)不止傳統(tǒng)命名實(shí)體識(shí)別的三大類和七小類，由于軍事命名實(shí)體的構(gòu)成有其自己獨(dú)特的命名法則和規(guī)律，對(duì)于這類實(shí)體的識(shí)別需要同時(shí)兼顧語(yǔ)言的規(guī)律性和軍事特征，因此本文的研究重點(diǎn)是識(shí)別帶有軍事領(lǐng)域特色的實(shí)體。相較于開(kāi)放式傳統(tǒng)三大類和七小類的實(shí)體識(shí)別，需要構(gòu)建模型識(shí)別特定的軍事領(lǐng)域?qū)嶓w。本文將識(shí)別的實(shí)體分為五類：組織機(jī)構(gòu)、型號(hào)、行為、起飛地、目的地。軍事實(shí)體識(shí)別的任務(wù)可以描述為：首先，將軍事文本語(yǔ)料進(jìn)行預(yù)處理；然后，從中提取句子特征；最后，將特征輸入到實(shí)體識(shí)別模型中，從而識(shí)別出具有特定意義的軍事實(shí)體。

通過(guò)調(diào)研已有文獻(xiàn)，軍事領(lǐng)域的實(shí)體識(shí)別的通常做法是借鑒通用領(lǐng)域的主流方法和思想，再根據(jù)軍事語(yǔ)料中識(shí)別實(shí)體的特點(diǎn)進(jìn)行一些適應(yīng)性的改進(jìn)。根據(jù)選取主流方法的不同，可以分為：基于模板規(guī)則匹配的方法[2]、基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法[3]和基于深度學(xué)習(xí)的方法[4]。近年來(lái)，鑒于深度學(xué)習(xí)強(qiáng)大的學(xué)習(xí)能力和表達(dá)能力，越來(lái)越多的研究者開(kāi)始開(kāi)展基于深度神經(jīng)網(wǎng)絡(luò)的研究，通用做法之一是將神經(jīng)網(wǎng)絡(luò)模型與CRF 結(jié)合。由于NER 任務(wù)在自然語(yǔ)言處理中屬于序列標(biāo)注模型，所以通常使用BiLSTM[5]作為序列標(biāo)注模型的特征提取網(wǎng)絡(luò)。在處理中文文本時(shí)，為了避免分詞造成的語(yǔ)義歧義，常采用以字符向量作為輸入序列。對(duì)軍事領(lǐng)域的命名實(shí)體識(shí)別的優(yōu)化通常是在特征處理階段，例如加入字或者詞的相關(guān)特征即可對(duì)識(shí)別效果有較大的提升[6]。而對(duì)于神經(jīng)網(wǎng)絡(luò)模型的優(yōu)化，文獻(xiàn)[7]提出一種層疊式的識(shí)別方法：該方法首先結(jié)合軍事目標(biāo)及屬性特點(diǎn)，采用樹(shù)結(jié)構(gòu)定義層級(jí)式目標(biāo)及屬性實(shí)體、活動(dòng)要素及屬性實(shí)體，細(xì)化實(shí)體類別粒度，依據(jù)層級(jí)式特點(diǎn)對(duì)語(yǔ)料進(jìn)行標(biāo)注，然后采用標(biāo)簽約束轉(zhuǎn)移矩陣優(yōu)化后的BiLSTM-CRF 模型進(jìn)行實(shí)體識(shí)別，實(shí)現(xiàn)細(xì)粒度更高的實(shí)體與關(guān)聯(lián)屬性識(shí)別。除此之外，有研究把長(zhǎng)短期記憶網(wǎng)絡(luò)模型（Long Short Term Memory,LSTM）結(jié)構(gòu)替換為更容易訓(xùn)練的門(mén)循環(huán)控制模型（Gate Recurrent Unit,GRU）結(jié)構(gòu)[8]，同時(shí)研究人員加入注意力機(jī)制[9]，在一定程度上提升了神經(jīng)網(wǎng)絡(luò)模型的識(shí)別性能。

本文針對(duì)中文命名實(shí)體識(shí)別準(zhǔn)確率低的問(wèn)題，提出一種BERT-BiLSTM-CRF 的模型。首先，本文未使用傳統(tǒng)的Word2vec 算法生成詞向量的表示，而使用表達(dá)能力更強(qiáng)的BERT 模型生成詞向量的特征表示，將其得到的表示序列輸入BiLSTM 網(wǎng)絡(luò)，獲得上下文的全局特征表示，最終經(jīng)過(guò)CRF 模塊進(jìn)行最優(yōu)標(biāo)簽序列的提取。本文在自建的開(kāi)源軍事語(yǔ)料數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)，驗(yàn)證本文提出的方法的有效性，同時(shí)加入多種baseline 實(shí)驗(yàn)進(jìn)行對(duì)比分析，結(jié)果表明，在命名實(shí)體識(shí)別任務(wù)中，本文提出的BERT 模型方法在一定程度上解決了邊界劃分問(wèn)題，同時(shí)解決了在數(shù)據(jù)集不足的情況下實(shí)體識(shí)別任務(wù)表現(xiàn)不佳的問(wèn)題。

1 基于BERT 模型的軍事命名實(shí)體識(shí)別模型

1.1 實(shí)體分類

由于軍事語(yǔ)料不同于傳統(tǒng)通用的命名實(shí)體識(shí)別，所以首先需要建立軍事領(lǐng)域內(nèi)的命名實(shí)體的分類體系。結(jié)合開(kāi)源語(yǔ)料數(shù)據(jù)情況并加入專家經(jīng)驗(yàn)與知識(shí)，本文將識(shí)別的目標(biāo)實(shí)體分為五類：國(guó)家、型號(hào)、行為、起飛地、目的地。針對(duì)軍事業(yè)務(wù)實(shí)際需求，在對(duì)通用性與軍事領(lǐng)域數(shù)據(jù)的特點(diǎn)深入分析的基礎(chǔ)上，建立了能夠準(zhǔn)確、全面描述各類型軍事知識(shí)的實(shí)體表征模型，可對(duì)復(fù)雜多樣、動(dòng)態(tài)演化、時(shí)空性強(qiáng)的軍事知識(shí)要素進(jìn)行表征。五類軍事領(lǐng)域目標(biāo)實(shí)體具體的類型名稱、代號(hào)和示例如表1所示。

表1 目標(biāo)實(shí)體分類Table 1 Target Entity Classification

五類實(shí)體中，組織機(jī)構(gòu)指的是不同國(guó)家的軍種簡(jiǎn)稱，如美空軍、美海軍；型號(hào)指的是采取行為的主體作戰(zhàn)型號(hào)，如KC-135R 加油機(jī)；行為是指在每一條非結(jié)構(gòu)化的軍事語(yǔ)料中的主體所采取的行動(dòng)，如返回基地；起飛地是指主體起飛地點(diǎn)，如南海；目的地是指主體最終所要抵達(dá)的終點(diǎn)，如沖繩嘉手納基地。

1.2 模型架構(gòu)

本研究中模型構(gòu)建的思路是使用預(yù)訓(xùn)練語(yǔ)言模型獲取中文單字的字向量，利用字向量中的語(yǔ)言規(guī)律和語(yǔ)義知識(shí)輔助軍事實(shí)體的識(shí)別，以提升實(shí)體識(shí)別的性能。同時(shí)融合字的含邊界詞性特征，進(jìn)一步優(yōu)化神經(jīng)網(wǎng)絡(luò)模型的輸入。

本文結(jié)合BERT 預(yù)訓(xùn)練模型[10]的上下文深層語(yǔ)義編碼、BiLSTM 神經(jīng)網(wǎng)絡(luò)的序列解碼和CRF 的序列標(biāo)注，構(gòu)建BERT-BiLSTM-CRF 實(shí)體識(shí)別框架，整體框架結(jié)構(gòu)如圖1所示，該框架以文本中的字序列、語(yǔ)義塊、字位置及其詞性序列為輸入，輸出為每一個(gè)字對(duì)應(yīng)的目標(biāo)類型的標(biāo)簽序列。下文依次對(duì)模型的各個(gè)模塊進(jìn)行詳細(xì)分析。

圖1 模型架構(gòu)圖Fig.1 Model architecture

1.2.1 BERT 層

傳統(tǒng)使用Word2vec 的方式去訓(xùn)練詞向量，雖然訓(xùn)練得到的向量可以表示詞語(yǔ)之間的關(guān)系，但這種方式的一個(gè)缺點(diǎn)是詞和詞之間的表示是一一對(duì)應(yīng)的靜態(tài)關(guān)系，無(wú)法根據(jù)上下文的語(yǔ)境對(duì)輸入序列進(jìn)行動(dòng)態(tài)的表示，也正因?yàn)榇?，使用Word2vec 得到的詞向量會(huì)對(duì)NER 效果產(chǎn)生重要影響。

BERT 模型作為深度雙向語(yǔ)言表征模型，被視為一種替代靜態(tài)詞向量表示的方案，它通過(guò)利用維基百科等大規(guī)模的語(yǔ)料數(shù)據(jù)進(jìn)行自監(jiān)督學(xué)習(xí)的訓(xùn)練，使用一種稱為雙向的Transformer 編碼結(jié)構(gòu)，使得模型能夠獲取輸入文本中的語(yǔ)義信息，接下來(lái)對(duì)BERT模型做詳細(xì)研究分析。

1.2.1.1 輸入和輸出層

根據(jù)下游任務(wù)的不同，BERT 模型的輸入序列可以單句形式出現(xiàn)，也可以語(yǔ)句對(duì)的形式成對(duì)出現(xiàn)。在本文中，BERT 的輸入為具有連續(xù)語(yǔ)義的自然文本。在BERT 中首先會(huì)對(duì)輸入文本進(jìn)行預(yù)處理，在文本開(kāi)頭和句子之間分別插入[CLS]和[SEP]符號(hào)。其次，對(duì)于最終的向量表示，BERT 使用字符的嵌入向量、分割向量和位置向量疊加得到，其中字符的嵌入向量是輸入序列中每個(gè)字符本身的向量表示；分割向量用于區(qū)分每一個(gè)字符屬于句子A 還是句子B。如果輸入序列只有一個(gè)句子，就只是用EA 表示；位置向量編碼了輸入中每個(gè)字符出現(xiàn)的位置。這些向量均在訓(xùn)練過(guò)程中通過(guò)學(xué)習(xí)得到。對(duì)于BERT 模型的輸出同樣也有兩種形式，一種是字符級(jí)別的向量表示，對(duì)應(yīng)著輸入中的每個(gè)字符；另一種輸出形式是句子級(jí)別的語(yǔ)義向量，即整個(gè)句子的語(yǔ)義表示。在本文的研究中，BERT 模型的輸出采用了第一種形式，即輸入序列的每個(gè)字符都有對(duì)應(yīng)的向量表示，該輸出接著作為輸入傳遞給后序模塊進(jìn)行進(jìn)一步的處理。

1.2.1.2 Transformer 編碼層

在BERT 模型中使用了多層雙向的Transformer編碼器對(duì)輸入的序列數(shù)據(jù)進(jìn)行編碼，其模型結(jié)構(gòu)圖如圖2 所示：其中每個(gè)Trm對(duì)應(yīng)一個(gè)單元的編碼器，E1,E2,...,En是模型的輸入，為字符向量，T1,T2,..,Tn為模型的輸出向量。

圖2 BERT 預(yù)訓(xùn)練語(yǔ)言模型Fig.2 BERT Pre-trained language model

從結(jié)構(gòu)來(lái)說(shuō)，BERT 是將多個(gè)Transformer 編碼器堆疊進(jìn)行特征提取，而Transformer 編碼器是由Self-Attention 層和前向神經(jīng)網(wǎng)絡(luò)組成。Self-Attention的核心計(jì)算公式如下所示：

公式中Q,K,V是由矩陣Wq,WK,WV相乘可得，而Wq,WK,WV為可學(xué)習(xí)的模型訓(xùn)練參數(shù)。舉例來(lái)說(shuō)，當(dāng)計(jì)算某個(gè)詞語(yǔ)對(duì)其他詞語(yǔ)的重要度時(shí)，讓當(dāng)前單詞的Q向量與其余單詞的K向量進(jìn)行點(diǎn)積數(shù)學(xué)運(yùn)算。對(duì)點(diǎn)積計(jì)算的結(jié)果使用這樣做的目的是減少語(yǔ)句長(zhǎng)短對(duì)語(yǔ)句重要度的影響，同時(shí)也為了讓訓(xùn)練時(shí)梯度更加穩(wěn)定。隨后將計(jì)算得到的結(jié)果分值經(jīng)過(guò)softmax層得到一維的概率向量。使用Soft-Attention機(jī)制的意義是不僅可以完成對(duì)上下文的重要度進(jìn)行編碼，同時(shí)解決了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)長(zhǎng)依賴的問(wèn)題，加速了模型的計(jì)算能力。

基于上述的分析，我們可以總結(jié)出BERT 模型具有以下優(yōu)點(diǎn)：

（1）BERT 在進(jìn)行詞向量表示的過(guò)程中充分結(jié)合編碼詞的上下文，克服了目前大多數(shù)詞向量生成機(jī)制的單向性問(wèn)題。

（2）使用基于Transformer 作為特征提取器，底層使用Attention 機(jī)制編碼，增強(qiáng)了模型的并行計(jì)算能力，縮短了訓(xùn)練時(shí)間。

1.2.2 BiLSTM 層

BiLSTM 層是由一個(gè)前向LSTM 網(wǎng)絡(luò)和后向LSTM 組成，相比于LSTM，BiLSTM 可以分別獲得兩個(gè)方向的上下文特征。在得到BERT 層的輸出后，BiLSTM 層會(huì)將句子的字向量序列作為各個(gè)時(shí)間的輸入，通過(guò)反向傳播算法，模型自動(dòng)提取句子中的語(yǔ)義特征，學(xué)習(xí)符合上下文語(yǔ)境語(yǔ)義信息，softmax函數(shù)給出當(dāng)前單詞對(duì)預(yù)設(shè)標(biāo)簽的標(biāo)簽概率?；贐iLSTM 的上下文特征抽取模型的結(jié)構(gòu)如圖3 所示。

圖3 BiLSTM 模型架構(gòu)圖Fig.3 BiLSTM architecture

LSTM 層的主要結(jié)構(gòu)可以表示公式：

其中，σ 是sigmod函數(shù)，i、f、o和c分別表示輸入門(mén)、遺忘門(mén)、輸出門(mén)和記憶單元；?是點(diǎn)積運(yùn)算，W和B代表輸入門(mén)、遺忘門(mén)和輸出門(mén)的權(quán)重矩陣和偏置向量；Xt指的是t時(shí)刻的輸入，同時(shí)是對(duì)于表示層的輸出。

1.2.3 CRF 層

在神經(jīng)網(wǎng)絡(luò)的輸出層，一般是用softmax函數(shù)，而對(duì)NER 這種序列任務(wù)建模時(shí)，CRF 層的作用是對(duì)BiLSTM 網(wǎng)絡(luò)的輸出進(jìn)行編碼和規(guī)約，得到具有最大概率的合理預(yù)測(cè)序列。CRF 使用的是條件隨機(jī)場(chǎng)，是一種根據(jù)輸入序列預(yù)測(cè)輸出序列的判別式模型。給定輸入X，輸出預(yù)測(cè)結(jié)果y的計(jì)算公式如下所示：

其中，Ayi, yi+1表示從標(biāo)簽yi轉(zhuǎn)移到y(tǒng)i+1的概率值，yi為y中的元素。pi,y表示第i個(gè)詞語(yǔ)標(biāo)記為yi的概率值。在給定輸入X情況下，輸出預(yù)測(cè)結(jié)果y的概率公式為：

其中，x表示能夠組成的所有標(biāo)簽，y表示真實(shí)標(biāo)簽。模型的目標(biāo)是最大化p(y|X),在訓(xùn)練時(shí)通過(guò)求解似然函數(shù)如下：

在訓(xùn)練時(shí)，根據(jù)公式最大化得分結(jié)果：

2 實(shí)驗(yàn)結(jié)果和分析

2.1 實(shí)驗(yàn)數(shù)據(jù)

針對(duì)軍事領(lǐng)域的命名實(shí)體識(shí)別問(wèn)題，本文提出了一種基于預(yù)訓(xùn)練模型BERT 的軍事領(lǐng)域命名實(shí)體識(shí)別方法。本文針對(duì)軍事領(lǐng)域中的軍事情報(bào)數(shù)據(jù)，以開(kāi)源數(shù)據(jù)作為訓(xùn)練語(yǔ)料。對(duì)組織機(jī)構(gòu)、型號(hào)、行為、起飛地、目的地等五類目標(biāo)進(jìn)行識(shí)別，驗(yàn)證本文所提出模型的正確性與有效性。

目前由于軍事語(yǔ)料領(lǐng)域的特殊性，并未有開(kāi)源的軍事語(yǔ)料以供訓(xùn)練。同時(shí)在軍事語(yǔ)料領(lǐng)域缺乏統(tǒng)一的標(biāo)注方法，本文利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)構(gòu)建訓(xùn)練數(shù)據(jù)集，采用開(kāi)源的工具Doccano[18]和專家知識(shí)進(jìn)行數(shù)據(jù)預(yù)處理與標(biāo)注，構(gòu)建中文軍事領(lǐng)域開(kāi)源情報(bào)訓(xùn)練數(shù)據(jù)集。

本實(shí)驗(yàn)利用爬蟲(chóng)工具從公開(kāi)權(quán)威的軍事網(wǎng)站上搜集得到開(kāi)源軍事新聞?wù)Z料，來(lái)源包括國(guó)防科技信息網(wǎng)、網(wǎng)易軍事、環(huán)球網(wǎng)軍事、新浪軍事等。從新聞網(wǎng)頁(yè)上采集語(yǔ)料時(shí)以“軍情動(dòng)態(tài)”、“軍事速遞”為主題詞，在爬取數(shù)據(jù)完成后，首先，對(duì)文本數(shù)據(jù)中不符合主題的“臟數(shù)據(jù)”進(jìn)行數(shù)據(jù)預(yù)處理的操作，以文本的形式保留在本地磁盤(pán)。然后，按照統(tǒng)一的數(shù)據(jù)規(guī)范進(jìn)行“數(shù)據(jù)治理”，具體做法是通過(guò)正則表達(dá)式將爬蟲(chóng)獲取后與網(wǎng)頁(yè)相關(guān)的符號(hào)、標(biāo)記等刪除，語(yǔ)料爬取完成后，需要對(duì)良莠不齊的文本進(jìn)行分辨，篩選不符合主題的文本將其去除，選取其中高質(zhì)量、相關(guān)度較高的文本，以純文本的格式保存至本地，按照統(tǒng)一的規(guī)范進(jìn)行預(yù)處理，通過(guò)代碼編寫(xiě)正則表達(dá)式將文本內(nèi)容中無(wú)用的網(wǎng)頁(yè)符號(hào)、網(wǎng)頁(yè)標(biāo)簽和特殊字符剔除掉，將繁體字轉(zhuǎn)換為正常的簡(jiǎn)體中文字符，以及統(tǒng)一全半角字符，將文本按句進(jìn)行拆分，每一行代表一句，同時(shí)要求長(zhǎng)度不得超過(guò)LSTM 設(shè)置的最大長(zhǎng)度。

由于軍事領(lǐng)域的命名實(shí)體標(biāo)注尚未確定統(tǒng)一的標(biāo)準(zhǔn)，故本文實(shí)驗(yàn)對(duì)已構(gòu)建的小量的數(shù)據(jù)集采取人工標(biāo)注并校正的方法。數(shù)據(jù)的標(biāo)注采用BMEO 四段標(biāo)記法：對(duì)于每個(gè)實(shí)體，將其第一個(gè)字標(biāo)記為“B-實(shí)體類型”，非首位字符標(biāo)記為“M-實(shí)體類型”，結(jié)尾的標(biāo)記為“I-實(shí)體類型”，對(duì)于無(wú)關(guān)字一律標(biāo)記為O。本文實(shí)驗(yàn)需要識(shí)別的軍事實(shí)體共包括5種類型，數(shù)據(jù)經(jīng)過(guò)BMIO 標(biāo)注處理后共分15 類，如表2 所示：（B-ORG，M-ORG，E-ORG，B-VER，M-VER，E-VER，B-ACT，M-ACT，E-ACT，B-TAF，M-TAF，E-TAF，B-DES，M-DES，E-DES，O，）。同時(shí)為保證訓(xùn)練時(shí)采用的長(zhǎng)度一致（均為256×1維），因此需要額外添加了一個(gè)占位符。

表2 目標(biāo)實(shí)體分類Table 2 Target entity Classification

2.2 結(jié)果評(píng)價(jià)指標(biāo)

實(shí)驗(yàn)采用自然語(yǔ)言處理領(lǐng)域3個(gè)通用的評(píng)測(cè)指標(biāo)，準(zhǔn)確率P、召回率R 和F1 值（F-score)，其中F1 值可以體現(xiàn)整體的測(cè)試結(jié)果，計(jì)算公式如下：

最終采用以上3種性能評(píng)測(cè)指標(biāo)的加權(quán)平均值作為實(shí)驗(yàn)的性能評(píng)測(cè)指標(biāo)。

2.3 實(shí)驗(yàn)設(shè)置

本文基于BERT-BiLSTM-CRF 的實(shí)體識(shí)別模型是使用BERT 進(jìn)行語(yǔ)料字符級(jí)別特征向量的獲取，使用BiLSTM 針對(duì)字向量進(jìn)行上下文的特征提取，借文本中長(zhǎng)依賴的問(wèn)題，最后使用CRF 層進(jìn)行輸出標(biāo)簽的規(guī)約限制，最終獲得全局的最優(yōu)標(biāo)簽序列?；贐ERT-BiLSTM-CRF 的參數(shù)設(shè)置如表3 所示。

表3 參數(shù)配置表Table 3 Parameter Configuration

2.4 實(shí)驗(yàn)結(jié)果和分析

為驗(yàn)證模型在軍事語(yǔ)料領(lǐng)域識(shí)別的正確性與有效性，在實(shí)驗(yàn)階段設(shè)計(jì)了對(duì)比實(shí)驗(yàn)，在相同數(shù)據(jù)集上針對(duì)不同的模型選取合適的模型超參數(shù)進(jìn)行微調(diào)。選取的對(duì)比模型有：

CRF：本文以文獻(xiàn)[17]提出的基于CRF 的面向軍事文本的命名實(shí)體識(shí)別模型作為基線對(duì)比實(shí)驗(yàn)，建立融合詞特征、詞性特征、英文字母和短橫線以及數(shù)字的組合特征、左右邊界詞特性和中心詞特性的多種特征模板，使用公開(kāi)的CRF++0.58 訓(xùn)練工具進(jìn)行模型的訓(xùn)練和效果預(yù)測(cè)。

HMM：本文以文獻(xiàn)[11]提出的基于HMM 作為軍事命名實(shí)體識(shí)別的對(duì)比實(shí)驗(yàn)，構(gòu)建狀態(tài)集合、觀測(cè)集合以及狀態(tài)轉(zhuǎn)移矩陣，并使用開(kāi)源的Scikit-Learn 開(kāi)源的機(jī)器學(xué)習(xí)框架構(gòu)建。

BiLSTM：BiLSTM[12]的網(wǎng)絡(luò)模型是使用雙向的LSTM 網(wǎng)絡(luò)構(gòu)建特征提取器，并使用開(kāi)源的Scikit-Learn[13]開(kāi)源的機(jī)器學(xué)習(xí)框架構(gòu)建。

BiLSTM-CRF：本文以文獻(xiàn)[14]提出的基于BiLSTM-CRF 網(wǎng)絡(luò)模型的結(jié)構(gòu)作為對(duì)比實(shí)驗(yàn)。采用Google 開(kāi)源的詞向量工具Word2vec[15]方法訓(xùn)練的字符界別的特征向量，通過(guò)在字嵌入層上進(jìn)行Dropout處理來(lái)防止訓(xùn)練模型過(guò)擬合，并將該字向量的結(jié)果作為BiLSTM 網(wǎng)絡(luò)模型的輸入，得到基于上下文的特征矩陣，最后將特征矩陣交由CRF 模塊進(jìn)行編碼與規(guī)約，最終得到基于全局的最優(yōu)標(biāo)簽序列。

2.4.1 對(duì)比實(shí)驗(yàn)結(jié)果分析

從實(shí)驗(yàn)結(jié)果，如表4 和圖4 可以得到，本文提出的基于BERT-BiLSTM-CRF 網(wǎng)絡(luò)結(jié)構(gòu)的軍事命名實(shí)體識(shí)別模型優(yōu)于其他4 種實(shí)體識(shí)別模型。相較于HMM 和CRF 模型，BiLSTM 模型可以學(xué)到更多的語(yǔ)義特征信息。本文提出的模型相較與CRF 模型在F 值上提高11.04%，召回率提高10.85%，精準(zhǔn)率提高8.32%。相較于不使用BERT的BiLSTM-CRF模型，本文提出的模型在F 值上提高了1.87%，召回率提高了1.71%，精準(zhǔn)率提高了2.64%。實(shí)驗(yàn)表明，實(shí)體識(shí)別任務(wù)中經(jīng)常會(huì)出現(xiàn)標(biāo)簽之間結(jié)果不成立的現(xiàn)象，而CRF 中的轉(zhuǎn)移矩陣能很好地解決標(biāo)簽之間的順序問(wèn)題。除此之外，BiLSTM-CRF 比CRF 具有更加優(yōu)異的性能表現(xiàn)，這是因?yàn)锽iLSTM 考慮了輸入信息之間的雙向語(yǔ)義依賴，可以從前后兩個(gè)方向來(lái)捕捉輸入信息的特征，對(duì)于實(shí)體識(shí)別這種序列標(biāo)注問(wèn)題具有更高的適用性，而結(jié)合字級(jí)別的特征向量?jī)H考慮字的特征而忽略了結(jié)合上下文進(jìn)行實(shí)體識(shí)別的不足，本文模型結(jié)合了字特征、句子特征、位置特征生成字向量，并使用Transformer[16]訓(xùn)練字向量，充分考慮上下文信息對(duì)實(shí)體的影響，實(shí)驗(yàn)取得了更優(yōu)的實(shí)體識(shí)別效果。

表4 實(shí)驗(yàn)結(jié)果表Table 4 Experiment Result

圖4 實(shí)驗(yàn)結(jié)果柱狀圖Fig.4 Experimental result graph

3 展望與下一步工作

本文以軍事領(lǐng)域目標(biāo)實(shí)體為識(shí)別對(duì)象，預(yù)先設(shè)定國(guó)家、型號(hào)、行為、起飛地、目的地等五類需要預(yù)測(cè)的目標(biāo)標(biāo)簽，提出一種將預(yù)訓(xùn)練語(yǔ)言模型BERT和BiLSTM-CRF 模型相結(jié)合應(yīng)用于軍事語(yǔ)料的命名實(shí)體識(shí)別的模型。BERT 模型利用大規(guī)模的語(yǔ)料進(jìn)行，不同于傳統(tǒng)的靜態(tài)語(yǔ)言模型，BERT 模型可以根據(jù)實(shí)際的業(yè)務(wù)場(chǎng)景以及上下文生成動(dòng)態(tài)的中文詞向量，然后與經(jīng)典的BiLSTM-CRF 神經(jīng)網(wǎng)絡(luò)模型進(jìn)行堆疊，生成對(duì)預(yù)先定義的五類實(shí)體的預(yù)測(cè)識(shí)別。由于本文使用的是在維基百科和書(shū)籍語(yǔ)料庫(kù)中進(jìn)行預(yù)訓(xùn)練的BERT 的雙向結(jié)構(gòu)和動(dòng)態(tài)向量表征，能有效地學(xué)習(xí)更豐富和準(zhǔn)確的語(yǔ)義信息，無(wú)需人工定義的特征，因此可以提升識(shí)別模型的上下文雙向特征抽取能力，在相對(duì)較少的標(biāo)注語(yǔ)料成本上也能獲得效果的提升。將人工收集的軍事演習(xí)領(lǐng)域小型語(yǔ)料庫(kù)經(jīng)過(guò)預(yù)處理作為本次實(shí)驗(yàn)的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)，通過(guò)實(shí)驗(yàn)證明了該方法取得了比其他幾種通用方法更好的效果，在一定程度上解決了命名實(shí)體的邊界劃分問(wèn)題以及實(shí)體識(shí)別任務(wù)在數(shù)據(jù)集不足的情況下表現(xiàn)不佳的問(wèn)題。未來(lái)，會(huì)考慮使用在軍事領(lǐng)域的語(yǔ)料預(yù)訓(xùn)練的BERT 模型，進(jìn)一步優(yōu)化任務(wù)表現(xiàn)，提高在軍事命名實(shí)體識(shí)別領(lǐng)域的性能。

利益沖突聲明

所有作者聲明不存在利益沖突關(guān)系。