亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于預(yù)訓(xùn)練模型的軍事領(lǐng)域命名實(shí)體識(shí)別研究

        2022-10-27 14:52:52童昭王露笛朱小杰杜一
        關(guān)鍵詞:文本實(shí)驗(yàn)模型

        童昭,王露笛,朱小杰,杜一

        中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京 100083

        引言

        近年來(lái),隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,以神經(jīng)網(wǎng)絡(luò)為代表的人工智能算法為部隊(duì)信息化與智能化建設(shè)提供了一種有效的手段。知識(shí)圖譜[1]作為描述真實(shí)世界中實(shí)體和概念以及他們之間關(guān)系的一種工具,能夠?qū)?fù)雜、海量的數(shù)據(jù)整合在一起,利用圖譜中的關(guān)系和節(jié)點(diǎn)描述語(yǔ)義關(guān)聯(lián)信息。知識(shí)圖譜中的實(shí)體是知識(shí)庫(kù)中的基本單位,同時(shí)也是構(gòu)建圖譜的核心要素,通過(guò)命名實(shí)體識(shí)別任務(wù)中包含的實(shí)體,為知識(shí)圖譜構(gòu)建提供知識(shí)支撐。為了從海量的信息中抽取有價(jià)值的數(shù)據(jù),發(fā)掘隱藏的應(yīng)用價(jià)值,通常需要用到自然語(yǔ)言處理(Natural Language Processing,NLP)技術(shù),而NLP 中應(yīng)用最廣泛的就是命名實(shí)體識(shí)別(Named Entity Recognition,NER)技術(shù)。命名實(shí)體識(shí)別是指從非結(jié)構(gòu)的文本數(shù)據(jù)集中抽取出結(jié)構(gòu)化的信息,并分類到預(yù)先定義的,如人名、地名、組織機(jī)構(gòu)名等特定類別中。傳統(tǒng)的命名實(shí)體識(shí)別任務(wù)主要分為三大類(實(shí)體類、時(shí)間類和數(shù)字類),或者更具體的七小類(人名、地名、機(jī)構(gòu)名、地點(diǎn)、時(shí)間、日期、貨幣和百分比)[2]。命名實(shí)體識(shí)別是實(shí)現(xiàn)信息抽取、搜索推薦等自然語(yǔ)言處理中的基礎(chǔ)任務(wù),命名實(shí)體的準(zhǔn)確識(shí)別可以促進(jìn)智能問(wèn)答、知識(shí)圖譜構(gòu)建等下游任務(wù)的研究。本文的研究目標(biāo)是以自建的軍事語(yǔ)料作為數(shù)據(jù)支撐,以準(zhǔn)確高效地識(shí)別軍事命名實(shí)體為目標(biāo),利用深度學(xué)習(xí)的算法作為技術(shù)手段,為后續(xù)戰(zhàn)場(chǎng)信息情報(bào)獲取、知識(shí)圖譜構(gòu)建等提供支持,進(jìn)一步加速軍事作戰(zhàn)指揮的智能化轉(zhuǎn)型。

        軍事命名實(shí)體識(shí)別涉及的實(shí)體范疇遠(yuǎn)遠(yuǎn)不止傳統(tǒng)命名實(shí)體識(shí)別的三大類和七小類,由于軍事命名實(shí)體的構(gòu)成有其自己獨(dú)特的命名法則和規(guī)律,對(duì)于這類實(shí)體的識(shí)別需要同時(shí)兼顧語(yǔ)言的規(guī)律性和軍事特征,因此本文的研究重點(diǎn)是識(shí)別帶有軍事領(lǐng)域特色的實(shí)體。相較于開(kāi)放式傳統(tǒng)三大類和七小類的實(shí)體識(shí)別,需要構(gòu)建模型識(shí)別特定的軍事領(lǐng)域?qū)嶓w。本文將識(shí)別的實(shí)體分為五類:組織機(jī)構(gòu)、型號(hào)、行為、起飛地、目的地。軍事實(shí)體識(shí)別的任務(wù)可以描述為:首先,將軍事文本語(yǔ)料進(jìn)行預(yù)處理;然后,從中提取句子特征;最后,將特征輸入到實(shí)體識(shí)別模型中,從而識(shí)別出具有特定意義的軍事實(shí)體。

        通過(guò)調(diào)研已有文獻(xiàn),軍事領(lǐng)域的實(shí)體識(shí)別的通常做法是借鑒通用領(lǐng)域的主流方法和思想,再根據(jù)軍事語(yǔ)料中識(shí)別實(shí)體的特點(diǎn)進(jìn)行一些適應(yīng)性的改進(jìn)。根據(jù)選取主流方法的不同,可以分為:基于模板規(guī)則匹配的方法[2]、基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法[3]和基于深度學(xué)習(xí)的方法[4]。近年來(lái),鑒于深度學(xué)習(xí)強(qiáng)大的學(xué)習(xí)能力和表達(dá)能力,越來(lái)越多的研究者開(kāi)始開(kāi)展基于深度神經(jīng)網(wǎng)絡(luò)的研究,通用做法之一是將神經(jīng)網(wǎng)絡(luò)模型與CRF 結(jié)合。由于NER 任務(wù)在自然語(yǔ)言處理中屬于序列標(biāo)注模型,所以通常使用BiLSTM[5]作為序列標(biāo)注模型的特征提取網(wǎng)絡(luò)。在處理中文文本時(shí),為了避免分詞造成的語(yǔ)義歧義,常采用以字符向量作為輸入序列。對(duì)軍事領(lǐng)域的命名實(shí)體識(shí)別的優(yōu)化通常是在特征處理階段,例如加入字或者詞的相關(guān)特征即可對(duì)識(shí)別效果有較大的提升[6]。而對(duì)于神經(jīng)網(wǎng)絡(luò)模型的優(yōu)化,文獻(xiàn)[7]提出一種層疊式的識(shí)別方法:該方法首先結(jié)合軍事目標(biāo)及屬性特點(diǎn),采用樹(shù)結(jié)構(gòu)定義層級(jí)式目標(biāo)及屬性實(shí)體、活動(dòng)要素及屬性實(shí)體,細(xì)化實(shí)體類別粒度,依據(jù)層級(jí)式特點(diǎn)對(duì)語(yǔ)料進(jìn)行標(biāo)注,然后采用標(biāo)簽約束轉(zhuǎn)移矩陣優(yōu)化后的BiLSTM-CRF 模型進(jìn)行實(shí)體識(shí)別,實(shí)現(xiàn)細(xì)粒度更高的實(shí)體與關(guān)聯(lián)屬性識(shí)別。除此之外,有研究把長(zhǎng)短期記憶網(wǎng)絡(luò)模型(Long Short Term Memory,LSTM)結(jié)構(gòu)替換為更容易訓(xùn)練的門(mén)循環(huán)控制模型(Gate Recurrent Unit,GRU)結(jié)構(gòu)[8],同時(shí)研究人員加入注意力機(jī)制[9],在一定程度上提升了神經(jīng)網(wǎng)絡(luò)模型的識(shí)別性能。

        本文針對(duì)中文命名實(shí)體識(shí)別準(zhǔn)確率低的問(wèn)題,提出一種BERT-BiLSTM-CRF 的模型。首先,本文未使用傳統(tǒng)的Word2vec 算法生成詞向量的表示,而使用表達(dá)能力更強(qiáng)的BERT 模型生成詞向量的特征表示,將其得到的表示序列輸入BiLSTM 網(wǎng)絡(luò),獲得上下文的全局特征表示,最終經(jīng)過(guò)CRF 模塊進(jìn)行最優(yōu)標(biāo)簽序列的提取。本文在自建的開(kāi)源軍事語(yǔ)料數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),驗(yàn)證本文提出的方法的有效性,同時(shí)加入多種baseline 實(shí)驗(yàn)進(jìn)行對(duì)比分析,結(jié)果表明,在命名實(shí)體識(shí)別任務(wù)中,本文提出的BERT 模型方法在一定程度上解決了邊界劃分問(wèn)題,同時(shí)解決了在數(shù)據(jù)集不足的情況下實(shí)體識(shí)別任務(wù)表現(xiàn)不佳的問(wèn)題。

        1 基于BERT 模型的軍事命名實(shí)體識(shí)別模型

        1.1 實(shí)體分類

        由于軍事語(yǔ)料不同于傳統(tǒng)通用的命名實(shí)體識(shí)別,所以首先需要建立軍事領(lǐng)域內(nèi)的命名實(shí)體的分類體系。結(jié)合開(kāi)源語(yǔ)料數(shù)據(jù)情況并加入專家經(jīng)驗(yàn)與知識(shí),本文將識(shí)別的目標(biāo)實(shí)體分為五類:國(guó)家、型號(hào)、行為、起飛地、目的地。針對(duì)軍事業(yè)務(wù)實(shí)際需求,在對(duì)通用性與軍事領(lǐng)域數(shù)據(jù)的特點(diǎn)深入分析的基礎(chǔ)上,建立了能夠準(zhǔn)確、全面描述各類型軍事知識(shí)的實(shí)體表征模型,可對(duì)復(fù)雜多樣、動(dòng)態(tài)演化、時(shí)空性強(qiáng)的軍事知識(shí)要素進(jìn)行表征。五類軍事領(lǐng)域目標(biāo)實(shí)體具體的類型名稱、代號(hào)和示例如表1所示。

        表1 目標(biāo)實(shí)體分類Table 1 Target Entity Classification

        五類實(shí)體中,組織機(jī)構(gòu)指的是不同國(guó)家的軍種簡(jiǎn)稱,如美空軍、美海軍;型號(hào)指的是采取行為的主體作戰(zhàn)型號(hào),如KC-135R 加油機(jī);行為是指在每一條非結(jié)構(gòu)化的軍事語(yǔ)料中的主體所采取的行動(dòng),如返回基地;起飛地是指主體起飛地點(diǎn),如南海;目的地是指主體最終所要抵達(dá)的終點(diǎn),如沖繩嘉手納基地。

        1.2 模型架構(gòu)

        本研究中模型構(gòu)建的思路是使用預(yù)訓(xùn)練語(yǔ)言模型獲取中文單字的字向量,利用字向量中的語(yǔ)言規(guī)律和語(yǔ)義知識(shí)輔助軍事實(shí)體的識(shí)別,以提升實(shí)體識(shí)別的性能。同時(shí)融合字的含邊界詞性特征,進(jìn)一步優(yōu)化神經(jīng)網(wǎng)絡(luò)模型的輸入。

        本文結(jié)合BERT 預(yù)訓(xùn)練模型[10]的上下文深層語(yǔ)義編碼、BiLSTM 神經(jīng)網(wǎng)絡(luò)的序列解碼和CRF 的序列標(biāo)注,構(gòu)建BERT-BiLSTM-CRF 實(shí)體識(shí)別框架,整體框架結(jié)構(gòu)如圖1所示,該框架以文本中的字序列、語(yǔ)義塊、字位置及其詞性序列為輸入,輸出為每一個(gè)字對(duì)應(yīng)的目標(biāo)類型的標(biāo)簽序列。下文依次對(duì)模型的各個(gè)模塊進(jìn)行詳細(xì)分析。

        圖1 模型架構(gòu)圖Fig.1 Model architecture

        1.2.1 BERT 層

        傳統(tǒng)使用Word2vec 的方式去訓(xùn)練詞向量,雖然訓(xùn)練得到的向量可以表示詞語(yǔ)之間的關(guān)系,但這種方式的一個(gè)缺點(diǎn)是詞和詞之間的表示是一一對(duì)應(yīng)的靜態(tài)關(guān)系,無(wú)法根據(jù)上下文的語(yǔ)境對(duì)輸入序列進(jìn)行動(dòng)態(tài)的表示,也正因?yàn)榇?,使用Word2vec 得到的詞向量會(huì)對(duì)NER 效果產(chǎn)生重要影響。

        BERT 模型作為深度雙向語(yǔ)言表征模型,被視為一種替代靜態(tài)詞向量表示的方案,它通過(guò)利用維基百科等大規(guī)模的語(yǔ)料數(shù)據(jù)進(jìn)行自監(jiān)督學(xué)習(xí)的訓(xùn)練,使用一種稱為雙向的Transformer 編碼結(jié)構(gòu),使得模型能夠獲取輸入文本中的語(yǔ)義信息,接下來(lái)對(duì)BERT模型做詳細(xì)研究分析。

        1.2.1.1 輸入和輸出層

        根據(jù)下游任務(wù)的不同,BERT 模型的輸入序列可以單句形式出現(xiàn),也可以語(yǔ)句對(duì)的形式成對(duì)出現(xiàn)。在本文中,BERT 的輸入為具有連續(xù)語(yǔ)義的自然文本。在BERT 中首先會(huì)對(duì)輸入文本進(jìn)行預(yù)處理,在文本開(kāi)頭和句子之間分別插入[CLS]和[SEP]符號(hào)。其次,對(duì)于最終的向量表示,BERT 使用字符的嵌入向量、分割向量和位置向量疊加得到,其中字符的嵌入向量是輸入序列中每個(gè)字符本身的向量表示;分割向量用于區(qū)分每一個(gè)字符屬于句子A 還是句子B。如果輸入序列只有一個(gè)句子,就只是用EA 表示;位置向量編碼了輸入中每個(gè)字符出現(xiàn)的位置。這些向量均在訓(xùn)練過(guò)程中通過(guò)學(xué)習(xí)得到。對(duì)于BERT 模型的輸出同樣也有兩種形式,一種是字符級(jí)別的向量表示,對(duì)應(yīng)著輸入中的每個(gè)字符;另一種輸出形式是句子級(jí)別的語(yǔ)義向量,即整個(gè)句子的語(yǔ)義表示。在本文的研究中,BERT 模型的輸出采用了第一種形式,即輸入序列的每個(gè)字符都有對(duì)應(yīng)的向量表示,該輸出接著作為輸入傳遞給后序模塊進(jìn)行進(jìn)一步的處理。

        1.2.1.2 Transformer 編碼層

        在BERT 模型中使用了多層雙向的Transformer編碼器對(duì)輸入的序列數(shù)據(jù)進(jìn)行編碼,其模型結(jié)構(gòu)圖如圖2 所示:其中每個(gè)Trm對(duì)應(yīng)一個(gè)單元的編碼器,E1,E2,...,En是模型的輸入,為字符向量,T1,T2,..,Tn為模型的輸出向量。

        圖2 BERT 預(yù)訓(xùn)練語(yǔ)言模型Fig.2 BERT Pre-trained language model

        從結(jié)構(gòu)來(lái)說(shuō),BERT 是將多個(gè)Transformer 編碼器堆疊進(jìn)行特征提取,而Transformer 編碼器是由Self-Attention 層和前向神經(jīng)網(wǎng)絡(luò)組成。Self-Attention的核心計(jì)算公式如下所示:

        公式中Q,K,V是由矩陣Wq,WK,WV相乘可得,而Wq,WK,WV為可學(xué)習(xí)的模型訓(xùn)練參數(shù)。舉例來(lái)說(shuō),當(dāng)計(jì)算某個(gè)詞語(yǔ)對(duì)其他詞語(yǔ)的重要度時(shí),讓當(dāng)前單詞的Q向量與其余單詞的K向量進(jìn)行點(diǎn)積數(shù)學(xué)運(yùn)算。對(duì)點(diǎn)積計(jì)算的結(jié)果使用這樣做的目的是減少語(yǔ)句長(zhǎng)短對(duì)語(yǔ)句重要度的影響,同時(shí)也為了讓訓(xùn)練時(shí)梯度更加穩(wěn)定。隨后將計(jì)算得到的結(jié)果分值經(jīng)過(guò)softmax層得到一維的概率向量。使用Soft-Attention機(jī)制的意義是不僅可以完成對(duì)上下文的重要度進(jìn)行編碼,同時(shí)解決了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)長(zhǎng)依賴的問(wèn)題,加速了模型的計(jì)算能力。

        基于上述的分析,我們可以總結(jié)出BERT 模型具有以下優(yōu)點(diǎn):

        (1)BERT 在進(jìn)行詞向量表示的過(guò)程中充分結(jié)合編碼詞的上下文,克服了目前大多數(shù)詞向量生成機(jī)制的單向性問(wèn)題。

        (2)使用基于Transformer 作為特征提取器,底層使用Attention 機(jī)制編碼,增強(qiáng)了模型的并行計(jì)算能力,縮短了訓(xùn)練時(shí)間。

        1.2.2 BiLSTM 層

        BiLSTM 層是由一個(gè)前向LSTM 網(wǎng)絡(luò)和后向LSTM 組成,相比于LSTM,BiLSTM 可以分別獲得兩個(gè)方向的上下文特征。在得到BERT 層的輸出后,BiLSTM 層會(huì)將句子的字向量序列作為各個(gè)時(shí)間的輸入,通過(guò)反向傳播算法,模型自動(dòng)提取句子中的語(yǔ)義特征,學(xué)習(xí)符合上下文語(yǔ)境語(yǔ)義信息,softmax函數(shù)給出當(dāng)前單詞對(duì)預(yù)設(shè)標(biāo)簽的標(biāo)簽概率?;贐iLSTM 的上下文特征抽取模型的結(jié)構(gòu)如圖3 所示。

        圖3 BiLSTM 模型架構(gòu)圖Fig.3 BiLSTM architecture

        LSTM 層的主要結(jié)構(gòu)可以表示公式:

        其中,σ 是sigmod函數(shù),i、f、o和c分別表示輸入門(mén)、遺忘門(mén)、輸出門(mén)和記憶單元;?是點(diǎn)積運(yùn)算,W和B代表輸入門(mén)、遺忘門(mén)和輸出門(mén)的權(quán)重矩陣和偏置向量;Xt指的是t時(shí)刻的輸入,同時(shí)是對(duì)于表示層的輸出。

        1.2.3 CRF 層

        在神經(jīng)網(wǎng)絡(luò)的輸出層,一般是用softmax函數(shù),而對(duì)NER 這種序列任務(wù)建模時(shí),CRF 層的作用是對(duì)BiLSTM 網(wǎng)絡(luò)的輸出進(jìn)行編碼和規(guī)約,得到具有最大概率的合理預(yù)測(cè)序列。CRF 使用的是條件隨機(jī)場(chǎng),是一種根據(jù)輸入序列預(yù)測(cè)輸出序列的判別式模型。給定輸入X,輸出預(yù)測(cè)結(jié)果y的計(jì)算公式如下所示:

        其中,Ayi, yi+1表示從標(biāo)簽yi轉(zhuǎn)移到y(tǒng)i+1的概率值,yi為y中的元素。pi,y表示第i個(gè)詞語(yǔ)標(biāo)記為yi的概率值。在給定輸入X情況下,輸出預(yù)測(cè)結(jié)果y的概率公式為:

        其中,x表示能夠組成的所有標(biāo)簽,y表示真實(shí)標(biāo)簽。模型的目標(biāo)是最大化p(y|X),在訓(xùn)練時(shí)通過(guò)求解似然函數(shù)如下:

        在訓(xùn)練時(shí),根據(jù)公式最大化得分結(jié)果:

        2 實(shí)驗(yàn)結(jié)果和分析

        2.1 實(shí)驗(yàn)數(shù)據(jù)

        針對(duì)軍事領(lǐng)域的命名實(shí)體識(shí)別問(wèn)題,本文提出了一種基于預(yù)訓(xùn)練模型BERT 的軍事領(lǐng)域命名實(shí)體識(shí)別方法。本文針對(duì)軍事領(lǐng)域中的軍事情報(bào)數(shù)據(jù),以開(kāi)源數(shù)據(jù)作為訓(xùn)練語(yǔ)料。對(duì)組織機(jī)構(gòu)、型號(hào)、行為、起飛地、目的地等五類目標(biāo)進(jìn)行識(shí)別,驗(yàn)證本文所提出模型的正確性與有效性。

        目前由于軍事語(yǔ)料領(lǐng)域的特殊性,并未有開(kāi)源的軍事語(yǔ)料以供訓(xùn)練。同時(shí)在軍事語(yǔ)料領(lǐng)域缺乏統(tǒng)一的標(biāo)注方法,本文利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)構(gòu)建訓(xùn)練數(shù)據(jù)集,采用開(kāi)源的工具Doccano[18]和專家知識(shí)進(jìn)行數(shù)據(jù)預(yù)處理與標(biāo)注,構(gòu)建中文軍事領(lǐng)域開(kāi)源情報(bào)訓(xùn)練數(shù)據(jù)集。

        本實(shí)驗(yàn)利用爬蟲(chóng)工具從公開(kāi)權(quán)威的軍事網(wǎng)站上搜集得到開(kāi)源軍事新聞?wù)Z料,來(lái)源包括國(guó)防科技信息網(wǎng)、網(wǎng)易軍事、環(huán)球網(wǎng)軍事、新浪軍事等。從新聞網(wǎng)頁(yè)上采集語(yǔ)料時(shí)以“軍情動(dòng)態(tài)”、“軍事速遞”為主題詞,在爬取數(shù)據(jù)完成后,首先,對(duì)文本數(shù)據(jù)中不符合主題的“臟數(shù)據(jù)”進(jìn)行數(shù)據(jù)預(yù)處理的操作,以文本的形式保留在本地磁盤(pán)。然后,按照統(tǒng)一的數(shù)據(jù)規(guī)范進(jìn)行“數(shù)據(jù)治理”,具體做法是通過(guò)正則表達(dá)式將爬蟲(chóng)獲取后與網(wǎng)頁(yè)相關(guān)的符號(hào)、標(biāo)記等刪除,語(yǔ)料爬取完成后,需要對(duì)良莠不齊的文本進(jìn)行分辨,篩選不符合主題的文本將其去除,選取其中高質(zhì)量、相關(guān)度較高的文本,以純文本的格式保存至本地,按照統(tǒng)一的規(guī)范進(jìn)行預(yù)處理,通過(guò)代碼編寫(xiě)正則表達(dá)式將文本內(nèi)容中無(wú)用的網(wǎng)頁(yè)符號(hào)、網(wǎng)頁(yè)標(biāo)簽和特殊字符剔除掉,將繁體字轉(zhuǎn)換為正常的簡(jiǎn)體中文字符,以及統(tǒng)一全半角字符,將文本按句進(jìn)行拆分,每一行代表一句,同時(shí)要求長(zhǎng)度不得超過(guò)LSTM 設(shè)置的最大長(zhǎng)度。

        由于軍事領(lǐng)域的命名實(shí)體標(biāo)注尚未確定統(tǒng)一的標(biāo)準(zhǔn),故本文實(shí)驗(yàn)對(duì)已構(gòu)建的小量的數(shù)據(jù)集采取人工標(biāo)注并校正的方法。數(shù)據(jù)的標(biāo)注采用BMEO 四段標(biāo)記法:對(duì)于每個(gè)實(shí)體,將其第一個(gè)字標(biāo)記為“B-實(shí)體類型”,非首位字符標(biāo)記為“M-實(shí)體類型”,結(jié)尾的標(biāo)記為“I-實(shí)體類型”,對(duì)于無(wú)關(guān)字一律標(biāo)記為O。本文實(shí)驗(yàn)需要識(shí)別的軍事實(shí)體共包括5種類型,數(shù)據(jù)經(jīng)過(guò)BMIO 標(biāo)注處理后共分15 類,如表2 所示:(B-ORG,M-ORG,E-ORG,B-VER,M-VER,E-VER,B-ACT,M-ACT,E-ACT,B-TAF,M-TAF,E-TAF,B-DES,M-DES,E-DES,O,)。同時(shí)為保證訓(xùn)練時(shí)采用的長(zhǎng)度一致(均為256×1維),因此需要額外添加了一個(gè)占位符。

        表2 目標(biāo)實(shí)體分類Table 2 Target entity Classification

        2.2 結(jié)果評(píng)價(jià)指標(biāo)

        實(shí)驗(yàn)采用自然語(yǔ)言處理領(lǐng)域3個(gè)通用的評(píng)測(cè)指標(biāo),準(zhǔn)確率P、召回率R 和F1 值(F-score),其中F1 值可以體現(xiàn)整體的測(cè)試結(jié)果,計(jì)算公式如下:

        最終采用以上3種性能評(píng)測(cè)指標(biāo)的加權(quán)平均值作為實(shí)驗(yàn)的性能評(píng)測(cè)指標(biāo)。

        2.3 實(shí)驗(yàn)設(shè)置

        本文基于BERT-BiLSTM-CRF 的實(shí)體識(shí)別模型是使用BERT 進(jìn)行語(yǔ)料字符級(jí)別特征向量的獲取,使用BiLSTM 針對(duì)字向量進(jìn)行上下文的特征提取,借文本中長(zhǎng)依賴的問(wèn)題,最后使用CRF 層進(jìn)行輸出標(biāo)簽的規(guī)約限制,最終獲得全局的最優(yōu)標(biāo)簽序列?;贐ERT-BiLSTM-CRF 的參數(shù)設(shè)置如表3 所示。

        表3 參數(shù)配置表Table 3 Parameter Configuration

        2.4 實(shí)驗(yàn)結(jié)果和分析

        為驗(yàn)證模型在軍事語(yǔ)料領(lǐng)域識(shí)別的正確性與有效性,在實(shí)驗(yàn)階段設(shè)計(jì)了對(duì)比實(shí)驗(yàn),在相同數(shù)據(jù)集上針對(duì)不同的模型選取合適的模型超參數(shù)進(jìn)行微調(diào)。選取的對(duì)比模型有:

        CRF:本文以文獻(xiàn)[17]提出的基于CRF 的面向軍事文本的命名實(shí)體識(shí)別模型作為基線對(duì)比實(shí)驗(yàn),建立融合詞特征、詞性特征、英文字母和短橫線以及數(shù)字的組合特征、左右邊界詞特性和中心詞特性的多種特征模板,使用公開(kāi)的CRF++0.58 訓(xùn)練工具進(jìn)行模型的訓(xùn)練和效果預(yù)測(cè)。

        HMM:本文以文獻(xiàn)[11]提出的基于HMM 作為軍事命名實(shí)體識(shí)別的對(duì)比實(shí)驗(yàn),構(gòu)建狀態(tài)集合、觀測(cè)集合以及狀態(tài)轉(zhuǎn)移矩陣,并使用開(kāi)源的Scikit-Learn 開(kāi)源的機(jī)器學(xué)習(xí)框架構(gòu)建。

        BiLSTM:BiLSTM[12]的網(wǎng)絡(luò)模型是使用雙向的LSTM 網(wǎng)絡(luò)構(gòu)建特征提取器,并使用開(kāi)源的Scikit-Learn[13]開(kāi)源的機(jī)器學(xué)習(xí)框架構(gòu)建。

        BiLSTM-CRF:本文以文獻(xiàn)[14]提出的基于BiLSTM-CRF 網(wǎng)絡(luò)模型的結(jié)構(gòu)作為對(duì)比實(shí)驗(yàn)。采用Google 開(kāi)源的詞向量工具Word2vec[15]方法訓(xùn)練的字符界別的特征向量,通過(guò)在字嵌入層上進(jìn)行Dropout處理來(lái)防止訓(xùn)練模型過(guò)擬合,并將該字向量的結(jié)果作為BiLSTM 網(wǎng)絡(luò)模型的輸入,得到基于上下文的特征矩陣,最后將特征矩陣交由CRF 模塊進(jìn)行編碼與規(guī)約,最終得到基于全局的最優(yōu)標(biāo)簽序列。

        2.4.1 對(duì)比實(shí)驗(yàn)結(jié)果分析

        從實(shí)驗(yàn)結(jié)果,如表4 和圖4 可以得到,本文提出的基于BERT-BiLSTM-CRF 網(wǎng)絡(luò)結(jié)構(gòu)的軍事命名實(shí)體識(shí)別模型優(yōu)于其他4 種實(shí)體識(shí)別模型。相較于HMM 和CRF 模型,BiLSTM 模型可以學(xué)到更多的語(yǔ)義特征信息。本文提出的模型相較與CRF 模型在F 值上提高11.04%,召回率提高10.85%,精準(zhǔn)率提高8.32%。相較于不使用BERT的BiLSTM-CRF模型,本文提出的模型在F 值上提高了1.87%,召回率提高了1.71%,精準(zhǔn)率提高了2.64%。實(shí)驗(yàn)表明,實(shí)體識(shí)別任務(wù)中經(jīng)常會(huì)出現(xiàn)標(biāo)簽之間結(jié)果不成立的現(xiàn)象,而CRF 中的轉(zhuǎn)移矩陣能很好地解決標(biāo)簽之間的順序問(wèn)題。除此之外,BiLSTM-CRF 比CRF 具有更加優(yōu)異的性能表現(xiàn),這是因?yàn)锽iLSTM 考慮了輸入信息之間的雙向語(yǔ)義依賴,可以從前后兩個(gè)方向來(lái)捕捉輸入信息的特征,對(duì)于實(shí)體識(shí)別這種序列標(biāo)注問(wèn)題具有更高的適用性,而結(jié)合字級(jí)別的特征向量?jī)H考慮字的特征而忽略了結(jié)合上下文進(jìn)行實(shí)體識(shí)別的不足,本文模型結(jié)合了字特征、句子特征、位置特征生成字向量,并使用Transformer[16]訓(xùn)練字向量,充分考慮上下文信息對(duì)實(shí)體的影響,實(shí)驗(yàn)取得了更優(yōu)的實(shí)體識(shí)別效果。

        表4 實(shí)驗(yàn)結(jié)果表Table 4 Experiment Result

        圖4 實(shí)驗(yàn)結(jié)果柱狀圖Fig.4 Experimental result graph

        3 展望與下一步工作

        本文以軍事領(lǐng)域目標(biāo)實(shí)體為識(shí)別對(duì)象,預(yù)先設(shè)定國(guó)家、型號(hào)、行為、起飛地、目的地等五類需要預(yù)測(cè)的目標(biāo)標(biāo)簽,提出一種將預(yù)訓(xùn)練語(yǔ)言模型BERT和BiLSTM-CRF 模型相結(jié)合應(yīng)用于軍事語(yǔ)料的命名實(shí)體識(shí)別的模型。BERT 模型利用大規(guī)模的語(yǔ)料進(jìn)行,不同于傳統(tǒng)的靜態(tài)語(yǔ)言模型,BERT 模型可以根據(jù)實(shí)際的業(yè)務(wù)場(chǎng)景以及上下文生成動(dòng)態(tài)的中文詞向量,然后與經(jīng)典的BiLSTM-CRF 神經(jīng)網(wǎng)絡(luò)模型進(jìn)行堆疊,生成對(duì)預(yù)先定義的五類實(shí)體的預(yù)測(cè)識(shí)別。由于本文使用的是在維基百科和書(shū)籍語(yǔ)料庫(kù)中進(jìn)行預(yù)訓(xùn)練的BERT 的雙向結(jié)構(gòu)和動(dòng)態(tài)向量表征,能有效地學(xué)習(xí)更豐富和準(zhǔn)確的語(yǔ)義信息,無(wú)需人工定義的特征,因此可以提升識(shí)別模型的上下文雙向特征抽取能力,在相對(duì)較少的標(biāo)注語(yǔ)料成本上也能獲得效果的提升。將人工收集的軍事演習(xí)領(lǐng)域小型語(yǔ)料庫(kù)經(jīng)過(guò)預(yù)處理作為本次實(shí)驗(yàn)的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),通過(guò)實(shí)驗(yàn)證明了該方法取得了比其他幾種通用方法更好的效果,在一定程度上解決了命名實(shí)體的邊界劃分問(wèn)題以及實(shí)體識(shí)別任務(wù)在數(shù)據(jù)集不足的情況下表現(xiàn)不佳的問(wèn)題。未來(lái),會(huì)考慮使用在軍事領(lǐng)域的語(yǔ)料預(yù)訓(xùn)練的BERT 模型,進(jìn)一步優(yōu)化任務(wù)表現(xiàn),提高在軍事命名實(shí)體識(shí)別領(lǐng)域的性能。

        利益沖突聲明

        所有作者聲明不存在利益沖突關(guān)系。

        猜你喜歡
        文本實(shí)驗(yàn)模型
        一半模型
        記一次有趣的實(shí)驗(yàn)
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        在808DA上文本顯示的改善
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        3D打印中的模型分割與打包
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        在线成人爽a毛片免费软件| 亚洲精品av一区二区日韩| 91精品久久久中文字幕| 免费a级毛片无码a∨中文字幕下载 | 97在线视频免费| 亚洲中文字幕免费精品| www国产亚洲精品| 曰批免费视频播放免费直播| 在线精品日韩一区二区三区| 男的和女的打扑克的视频| 国产女人精品视频国产灰线| 少妇无码一区二区三区免费| 国产在线不卡视频| 能看不卡视频网站在线| 国产freesexvideos中国麻豆| 亚洲av无码国产剧情| 激情中文丁香激情综合| av高潮一区二区三区| 日本又色又爽又黄的a片18禁| 精品国产三级a在线观看| 国产又粗又猛又黄色呦呦| 久久精品国产亚洲av高清三区| 精品三级av无码一区| 性导航app精品视频| 亚洲精品在线观看自拍| 久久精品99国产精品日本| 无码国产色欲xxxxx视频| 国产精品成人无码久久久久久| 国产午夜免费一区二区三区视频| 强奷乱码中文字幕| 可以免费在线看黄的网站| 精品自拍偷拍一区二区三区| 公和我做好爽添厨房| 免费观看又色又爽又黄的韩国| 少妇熟女淫荡丰满| 中文字幕午夜精品久久久| 人妻少妇精品视频无码专区| 韩国精品一区二区三区| 精品视频手机在线免费观看| 亚洲 中文 欧美 日韩 在线| 国产小毛片|