亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于對(duì)抗遷移學(xué)習(xí)的軍事科技領(lǐng)域命名實(shí)體識(shí)別

2022-10-28 13:42:42連堯馮俊池丁皓

電子設(shè)計(jì)工程 2022年20期

連堯，馮俊池，丁皓

（軍事科學(xué)院系統(tǒng)工程研究院后勤科學(xué)與技術(shù)研究所，北京 100071）

隨著軍事科技的迅速發(fā)展和軍事科技文本數(shù)據(jù)的不斷積累，實(shí)現(xiàn)軍事科技領(lǐng)域信息的自動(dòng)抽取，有助于獲取高價(jià)值知識(shí)與情報(bào)以及掌握國(guó)內(nèi)外軍事科學(xué)技術(shù)發(fā)展態(tài)勢(shì)，更好為我國(guó)國(guó)防建設(shè)服務(wù)。命名實(shí)體識(shí)別用于識(shí)別出文本大數(shù)據(jù)中的技術(shù)、實(shí)體及其發(fā)展、應(yīng)用等信息，是軍事科技領(lǐng)域信息抽取任務(wù)的關(guān)鍵和基礎(chǔ)。通用領(lǐng)域命名實(shí)體識(shí)別對(duì)象主要為人名、地名和組織機(jī)構(gòu)名稱等，且現(xiàn)有語(yǔ)料庫(kù)大多面向通用領(lǐng)域。針對(duì)軍事科技領(lǐng)域技術(shù)實(shí)體的特點(diǎn)，該文構(gòu)建了軍事科技領(lǐng)域語(yǔ)料庫(kù)，通過(guò)預(yù)訓(xùn)練掩碼語(yǔ)言模型和對(duì)抗遷移學(xué)習(xí)進(jìn)行領(lǐng)域適配和任務(wù)適配，并采用自注意力機(jī)制和虛擬對(duì)抗訓(xùn)練提高模型的魯棒性，提升了軍事科技領(lǐng)域數(shù)據(jù)命名實(shí)體識(shí)別效果。

1 相關(guān)研究

國(guó)防大數(shù)據(jù)是指保衛(wèi)國(guó)家主權(quán)、領(lǐng)土完整和安全而開展的軍事活動(dòng)所生成的數(shù)據(jù)資源以及與軍事有關(guān)的政治、經(jīng)濟(jì)、科技、外交、教育等方面的活動(dòng)所生成的數(shù)據(jù)資源，是大數(shù)據(jù)技術(shù)及其支撐下的應(yīng)用系統(tǒng)的總稱[1]。國(guó)防大數(shù)據(jù)中產(chǎn)生的軍事科技相關(guān)文本數(shù)據(jù)中，技術(shù)與實(shí)體及其相關(guān)信息所包含的內(nèi)容與通用領(lǐng)域?qū)嶓w不同，其特點(diǎn)是通常比較長(zhǎng)，可能同時(shí)包含多種詞性的義原，經(jīng)常還存在多詞一義、一詞多義以及實(shí)體嵌套等問(wèn)題，如“民兵-3”型洲際彈道導(dǎo)彈、“布拉莫斯”超音速巡航導(dǎo)彈、彈頭再入技術(shù)、有效載荷等。

隨著機(jī)器學(xué)習(xí)在自然語(yǔ)言處理（Natural Language Process，NLP）領(lǐng)域逐漸嶄露頭角，條件隨機(jī)場(chǎng)模型（Conditional Random Field，CRF）[2]被用來(lái)進(jìn)行序列標(biāo)注，并且取得了較好的效果。當(dāng)前預(yù)訓(xùn)練模型在常見(jiàn)的NLP 基礎(chǔ)任務(wù)中較傳統(tǒng)模型取得了顯著的進(jìn)步，如BERT[3]、XLNET[4]等。預(yù)訓(xùn)練模型通過(guò)海量數(shù)據(jù)進(jìn)行無(wú)監(jiān)督學(xué)習(xí)，并在具體的任務(wù)中進(jìn)行微調(diào)，以獲得一個(gè)更加符合上下文語(yǔ)義的表征。

遷移學(xué)習(xí)是指利用舊知識(shí)來(lái)學(xué)習(xí)新知識(shí)，主要目標(biāo)是將已經(jīng)學(xué)會(huì)的知識(shí)快速地遷移到一個(gè)新的領(lǐng)域中[5]。近年來(lái)，深度遷移學(xué)習(xí)模型已經(jīng)成為解決小樣本問(wèn)題的重要方法。2014 年由Goodfellow 等人首次提出的生成對(duì)抗網(wǎng)絡(luò)模型（Generative Adversarial Network，GAN）啟發(fā)的對(duì)抗技術(shù)在多個(gè)小樣本學(xué)習(xí)數(shù)據(jù)集上取得了較好結(jié)果[6]。Ganin 等人提出了領(lǐng)域?qū)股窠?jīng)網(wǎng)絡(luò)[7]，Tzeng 等人提出了對(duì)抗領(lǐng)域自適應(yīng)的通用框架[8]，Zhang 等人提出了對(duì)抗網(wǎng)絡(luò)的領(lǐng)域自適應(yīng)方法[9]，Liu 等人將對(duì)抗遷移學(xué)習(xí)應(yīng)用于中文分詞任務(wù)[10]。以上方法將對(duì)抗技術(shù)應(yīng)用于深度遷移學(xué)習(xí)模型，利用判別模型和對(duì)抗損失，解決領(lǐng)域之間負(fù)遷移的問(wèn)題。該文在雙向長(zhǎng)短期記憶網(wǎng)絡(luò)結(jié)合條件隨機(jī)場(chǎng)BiLSTM-CRF（Bidirectional Long Short-Term Memory Network and Conditional Random Field）模型中加入對(duì)抗自適應(yīng)，分別實(shí)現(xiàn)從中文分詞和通用命名實(shí)體識(shí)別任務(wù)到軍事科技命名實(shí)體識(shí)別任務(wù)的任務(wù)適配優(yōu)化。

2 軍事科技領(lǐng)域命名實(shí)體識(shí)別

2.1 BERT簡(jiǎn)介

現(xiàn)在有很多利用預(yù)訓(xùn)練的語(yǔ)言表征來(lái)完成下游自然語(yǔ)言處理任務(wù)的研究，其代表BERT模型在11個(gè)獨(dú)立的下游自然語(yǔ)言處理任務(wù)中刷新了最好成績(jī)[3]，效果顯著。BERT采用新的預(yù)訓(xùn)練目標(biāo)函數(shù)，其中MLM方法是隨機(jī)遮蔽（Mask）輸入中的一些Tokens，然后在預(yù)訓(xùn)練中對(duì)其進(jìn)行預(yù)測(cè)，使學(xué)習(xí)到的表征能夠融合兩個(gè)方向上的文本信息。另外，為了使模型更適用于句子級(jí)別的任務(wù)，BERT 中還采用了一種稱之為“下一句預(yù)測(cè)”的目標(biāo)函數(shù)，來(lái)使模型能更好地捕捉句子信息。BERT 較之前的Word2Vec[11]和Glove 等詞向量模型，對(duì)一詞多義等情形的表達(dá)更加準(zhǔn)確，能充分描述字符級(jí)、詞級(jí)、句子級(jí)關(guān)系特征。因此，該文在設(shè)計(jì)模型時(shí)，均將BERT 作為模型的最底層進(jìn)行字嵌入（Embedding）。

2.2 命名實(shí)體識(shí)別模型

軍事科技領(lǐng)域的實(shí)體識(shí)別任務(wù)中，由于許多詞匯是軍事科技領(lǐng)域內(nèi)的專有詞匯，因此需要對(duì)領(lǐng)域內(nèi)語(yǔ)料進(jìn)行定制訓(xùn)練。通用領(lǐng)域的語(yǔ)料庫(kù)對(duì)提高實(shí)體識(shí)別的準(zhǔn)確率有很好的幫助。軍事科技領(lǐng)域可能包含多個(gè)學(xué)科的細(xì)分領(lǐng)域，各個(gè)細(xì)分領(lǐng)域有自身特殊的實(shí)體命名規(guī)則。另外，實(shí)體識(shí)別注釋標(biāo)準(zhǔn)比較模糊，使同一實(shí)體在不同領(lǐng)域數(shù)據(jù)集上的標(biāo)注結(jié)果也存在分歧，盡管這些異構(gòu)的語(yǔ)料數(shù)據(jù)集可以互相幫助，但整個(gè)數(shù)據(jù)集仍然不夠大，還存在稀疏和不平衡的問(wèn)題，無(wú)法提供足夠的語(yǔ)言知識(shí)。

針對(duì)軍事科技領(lǐng)域數(shù)據(jù)的上述特點(diǎn)，該文模型基于BERT設(shè)計(jì)，采用BiLSTM+CRF模型結(jié)構(gòu)。將BERT層獲得的字向量表示通過(guò)BiLSTM 層提取訓(xùn)練特征，再通過(guò)CRF層預(yù)測(cè)輸出標(biāo)簽，標(biāo)簽集為{B,M,E,O,S}。

第一層：BERT Embedding 層，使用的是基于預(yù)訓(xùn)練模型BERT 字向量表示，進(jìn)行句子特征的提取。實(shí)體識(shí)別任務(wù)本質(zhì)屬于序列標(biāo)注任務(wù)，由于BERT 訓(xùn)練的過(guò)程中采用掩碼語(yǔ)言模型，所以BERT框架本身就非常適合用于序列標(biāo)注任務(wù)。

第二層：雙向LSTM 特征提取層，將BERT 的字向量表示結(jié)果通過(guò)雙向LSTM 層提取特征。

t時(shí)刻BiLSTM 的輸出為：

其中，ht為BiLSTM 的輸出。

第三層：條件隨機(jī)場(chǎng)CRF 層，預(yù)測(cè)輸出序列的標(biāo)簽，完成實(shí)體識(shí)別序列標(biāo)注任務(wù)。

BiLSTM 的輸出通過(guò)全連接層獲得字級(jí)別的標(biāo)簽概率預(yù)測(cè)，再接入CRF 層，利用預(yù)測(cè)標(biāo)簽的轉(zhuǎn)移概率，進(jìn)行句子級(jí)別的標(biāo)簽預(yù)測(cè)，使得序列標(biāo)注過(guò)程不再是對(duì)各個(gè)字單元獨(dú)立分類。在CRF 層中，標(biāo)簽序列的概率形式化公式為：

這里y∈{B,M,E,S,O}作為標(biāo)簽，是訓(xùn)練參數(shù)，s(X,t)=為評(píng)分函數(shù)。

2.3 領(lǐng)域適配

由于BERT 預(yù)訓(xùn)練語(yǔ)言模型是在海量通用語(yǔ)料上預(yù)訓(xùn)練得到的，所以針對(duì)領(lǐng)域內(nèi)的實(shí)體識(shí)別任務(wù)，需要實(shí)現(xiàn)從通用向領(lǐng)域內(nèi)的領(lǐng)域適配，即需要在領(lǐng)域語(yǔ)料數(shù)據(jù)上預(yù)訓(xùn)練。對(duì)領(lǐng)域適配預(yù)訓(xùn)練的算法采用MLM 掩碼語(yǔ)言模型，訓(xùn)練語(yǔ)料是通過(guò)業(yè)務(wù)中的積累和專業(yè)網(wǎng)站上爬取兩種手段獲得的大量未標(biāo)注領(lǐng)域的語(yǔ)料數(shù)據(jù)。

為了訓(xùn)練深度雙向表征，BERT 采用一種直接方法，隨機(jī)遮蔽掉文本中的某些字詞，然后用模型預(yù)測(cè)被遮蔽的字詞，如圖1 所示。在這個(gè)過(guò)程中，對(duì)應(yīng)于遮蔽詞塊的最終隱藏向量被反饋到輸出交叉熵（softmax）函數(shù)中，預(yù)測(cè)詞匯表中所有詞匯的概率。

圖1 掩碼語(yǔ)言模型

其中，被遮蔽掉的部分可以是直接隨機(jī)選擇的字Token，也可以是隨機(jī)選擇連續(xù)的能組成一個(gè)詞匯的全部字Token，后者稱為全詞遮蔽（Whole Word Masking，WWM）[12]。

由于在后續(xù)任務(wù)微調(diào)期間，模型從未看到被遮蔽的[M]詞塊，會(huì)產(chǎn)生創(chuàng)建預(yù)訓(xùn)練和微調(diào)任務(wù)之間不適配的情況，因此從輸入中選取15%的單詞采取如下處理措施：

1）80%的幾率替換為[M]（mask）；

2）10%的幾率替換為一個(gè)隨機(jī)單詞；

3）10%的幾率保持不變。

通過(guò)這樣的設(shè)計(jì)，BERT 的Transformer 編碼器（Encoder）層被動(dòng)保持了每個(gè)輸入詞塊的分布特征與語(yǔ)境表征。并且由于替換為隨機(jī)單詞的詞匯只有1.5%，所以不會(huì)損害BERT 的語(yǔ)言理解能力。

領(lǐng)域適配預(yù)訓(xùn)練實(shí)驗(yàn)中，采用全詞遮蔽方式，訓(xùn)練數(shù)據(jù)是50 萬(wàn)條未標(biāo)注軍事科技領(lǐng)域的各類語(yǔ)料數(shù)據(jù)，在NVIDIA Tesla V100 32GB 8 顯卡GPU 服務(wù)器上，訓(xùn)練10 輪，用時(shí)近70 h。

2.4 任務(wù)適配

軍事科技領(lǐng)域的命名實(shí)體識(shí)別任務(wù)，較通用實(shí)體識(shí)別更為復(fù)雜困難，這主要表現(xiàn)為：1）漢語(yǔ)文本中沒(méi)有表示詞語(yǔ)邊界的分割符號(hào)，命名實(shí)體識(shí)別效果與文本分詞效果相互影響，而通用的分詞方法在軍事科技領(lǐng)域文本數(shù)據(jù)中效果會(huì)受領(lǐng)域知識(shí)的影響；2）通用實(shí)體識(shí)別任務(wù)的目的是識(shí)別文本中的事物名稱，如人名、地名、機(jī)構(gòu)名。該文研究的是軍事科技領(lǐng)域文本數(shù)據(jù)，包括軍事科技領(lǐng)域科研項(xiàng)目文獻(xiàn)、各國(guó)軍事科技情報(bào)文獻(xiàn)、軍事科技專利技術(shù)文獻(xiàn)、軍事論文期刊類文獻(xiàn)、軍事科技實(shí)驗(yàn)類文獻(xiàn)等。該文針對(duì)其中的武器裝備、組織機(jī)構(gòu)、科學(xué)技術(shù)、性能指標(biāo)、技術(shù)背景、專家學(xué)者及軍事術(shù)語(yǔ)七大類進(jìn)行識(shí)別標(biāo)注。

基于領(lǐng)域?qū)棺赃m應(yīng)的遷移學(xué)習(xí)模型如圖2 所示?；谲娛驴萍碱I(lǐng)域命名實(shí)體識(shí)別任務(wù)的特點(diǎn)，分別為源任務(wù)域和目標(biāo)任務(wù)域提供特定域的特征提取器BiLSTM，并建立一個(gè)共享特征提取器來(lái)學(xué)習(xí)獲取域無(wú)關(guān)特征，將共享特征提取器（共享BiLSTM）的輸出送入資源對(duì)抗鑒別器，通過(guò)對(duì)抗學(xué)習(xí)，減少負(fù)遷移。并且在訓(xùn)練中使獲取源任務(wù)域數(shù)據(jù)與目標(biāo)任務(wù)域數(shù)據(jù)的概率都等于50%，避免出現(xiàn)數(shù)據(jù)規(guī)模不均的問(wèn)題。對(duì)抗鑒別器的作用是在源任務(wù)的特征中選擇有利于目標(biāo)任務(wù)性能提高的特征，同時(shí)防止負(fù)遷移，即減少對(duì)目標(biāo)任務(wù)沒(méi)有幫助的特征信息進(jìn)入共享特征空間。訓(xùn)練完成之后，對(duì)抗鑒別器趨于無(wú)法區(qū)分共享特征提取器中的特征表示是來(lái)自源任務(wù)域還是目標(biāo)任務(wù)域，可認(rèn)為共享特征都是能對(duì)目標(biāo)任務(wù)提供幫助的特征。

圖2 基于領(lǐng)域?qū)棺赃m應(yīng)的遷移學(xué)習(xí)模型

該文設(shè)計(jì)在BiLSTM 層后加入自注意力機(jī)制，捕獲兩個(gè)字符之間的長(zhǎng)距離依賴關(guān)系并學(xué)習(xí)句子的內(nèi)部結(jié)構(gòu)信息。

1）共享與獨(dú)有特征提取BiLSTM

共享特征提取器：輸入為目標(biāo)任務(wù)域和源任務(wù)域，提取任務(wù)共享的邊界信息，對(duì)于共享BiLSTM 的輸出與目標(biāo)BiLSTM 的輸出，有：

2）自注意力層Self-attention

該文應(yīng)用了多頭自注意力（Multi-head Selfattention）機(jī)制[13]，獲取句子內(nèi)部詞匯間的結(jié)構(gòu)與關(guān)聯(lián)關(guān)系。

Self-attention 層的輸入是特征提取器BiLSTM 的輸出H=(h1,h2,h3…h(huán)n)。Q(Query)、K(Key)、V(Value)三個(gè)矩陣均來(lái)自H。首先計(jì)算得分，為Q與K的點(diǎn)乘：score=Q·K。為使梯度穩(wěn)定，歸一化score，除以其中dk為一個(gè)Query 和Key 向量的維度。再通過(guò)交叉熵激活函數(shù)將其結(jié)果歸一化為概率分布并與V點(diǎn)乘，得到權(quán)重求和的表示。最終的輸出結(jié)果矩陣為：

利用自注意力機(jī)制的特性，在BiLSTM 抽取句子文本特征的基礎(chǔ)上，進(jìn)一步獲取詞與詞之間的依賴關(guān)系與結(jié)構(gòu)信息。

3）對(duì)抗任務(wù)域鑒別器

與生成對(duì)抗網(wǎng)絡(luò)類似，共享BiLSTM 屬于生成器，其后加入一個(gè)資源判別器，用于判斷生成器所生成的特征來(lái)自哪個(gè)任務(wù)域。通過(guò)讓資源判別器分辨不出特征出自哪個(gè)任務(wù)域，使共享BiLSTM 所抽取到的特征是任務(wù)之間的共有特征，減少了負(fù)遷移的影響。

通過(guò)最大池化（Max Pooling）層和交叉熵層識(shí)別特征來(lái)自哪個(gè)領(lǐng)域，可以表示為：

其中，S表示共享自注意力輸出的最大池化結(jié)果，θd表示任務(wù)鑒別器的參數(shù)，Wd和bd是可訓(xùn)練參數(shù)。

通過(guò)引入對(duì)抗損失函數(shù)Ladv，如式（7）所示，防止源任務(wù)的特定信息進(jìn)入共享空間。

其中，θs表示共享特征提取器可訓(xùn)練參數(shù)，K是任務(wù)數(shù)，Es表示共享特征提取器，Tk是任務(wù)k訓(xùn)練實(shí)例的數(shù)量，是任務(wù)k的第i個(gè)實(shí)例。

通過(guò)在領(lǐng)域鑒別器softmax 層與共享特征提取器（共享BiLSTM）之間，添加一個(gè)梯度反轉(zhuǎn)層（Gradient Reversal Layer,GRL），完成極小化極大算法優(yōu)化。GRL 層在前向傳播過(guò)程中實(shí)現(xiàn)恒等變換；在反向傳播過(guò)程中，使域分類損失的梯度反向傳播到共享特征提取器的參數(shù)之前自動(dòng)取反，進(jìn)而實(shí)現(xiàn)了類似GAN 的對(duì)抗損失。使共享特征提取器產(chǎn)生的共享特征在訓(xùn)練過(guò)程中趨向誤導(dǎo)領(lǐng)域鑒別器。相關(guān)數(shù)學(xué)表示如式（8）所示：

4）虛擬對(duì)抗訓(xùn)練

虛擬對(duì)抗訓(xùn)練（Virtual Adversarial Training,VAT）[14]是針對(duì)具有給定條件的標(biāo)簽分布p(y|x)的數(shù)據(jù)，度量此分布局部光滑性的一種方法。將條件標(biāo)簽概率約束成光滑的，進(jìn)行正則化，在輸入x變化很小的情況下，輸出p(y|x)也很小。滿足光滑，表示對(duì)抗樣本相比于原樣本變化很小，標(biāo)簽也不會(huì)有太大變化。VAT 通過(guò)迭代求解，迭代過(guò)程中其損失函數(shù)如下：

其中，輸入x、y為預(yù)測(cè)的輸出標(biāo)簽并不是實(shí)際標(biāo)簽，p(y|x,θ)是輸出分布，θ是模型參數(shù)，迭代過(guò)程中是上一步的p(y|x,θ)，D是非負(fù)度量函數(shù)交叉熵，用于量化分布之間的距離。rqadv是對(duì)抗的擾動(dòng)，也就是VAT 一方面需要找出對(duì)模型影響最大的擾動(dòng)量，另一方面要盡量減小這個(gè)擾動(dòng)量對(duì)模型的影響。VAT 通過(guò)迭代近似計(jì)算，執(zhí)行梯度下降，更新模型參數(shù)。

VAT 在對(duì)抗訓(xùn)練時(shí)不需要標(biāo)簽信息，所以可以應(yīng)用于無(wú)監(jiān)督學(xué)習(xí)，文中應(yīng)用VAT 提高模型的魯棒性。

目標(biāo)任務(wù)的CRF 損失函數(shù)為：

源任務(wù)域的CRF 損失函數(shù)為：

模型最終的損失函數(shù)為：

其中，Dtarget代表目標(biāo)任務(wù)域，Dsource代表源任務(wù)域，x是模型的輸入，λ是超參。

為了解決資源數(shù)據(jù)不平衡的問(wèn)題，在訓(xùn)練的過(guò)程中，以同樣概率從源任務(wù)域與目標(biāo)任務(wù)域中獲取訓(xùn)練數(shù)據(jù)。最后利用Adam優(yōu)化算法來(lái)進(jìn)行損失函數(shù)的優(yōu)化。

3 實(shí)驗(yàn)結(jié)果及分析

3.1 實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)與說(shuō)明

為了評(píng)估模型在軍事科技領(lǐng)域命名實(shí)體識(shí)別任務(wù)的效果，在表1 所示的4 個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，包括1 839 條有6 種標(biāo)注類別的軍事科技領(lǐng)域內(nèi)命名實(shí)體識(shí)別數(shù)據(jù)集（DomainNER）作為目標(biāo)任務(wù)數(shù)據(jù)，以8∶1∶1 的比例建立訓(xùn)練集、驗(yàn)證集、測(cè)試集；SIGHAN2006NER 數(shù)據(jù)集（SighanNER，Levow，2006）作為源任務(wù)數(shù)據(jù)；MSR 數(shù)據(jù)集（from SIGHAN2005）[15]作為對(duì)比實(shí)驗(yàn)用的源中文分詞（CWS）任務(wù)數(shù)據(jù)；業(yè)務(wù)中積累的無(wú)標(biāo)注數(shù)據(jù)以及國(guó)防科技信息網(wǎng)（www.dsti.net）與簡(jiǎn)氏防務(wù)中文網(wǎng)爬取的領(lǐng)域無(wú)標(biāo)注數(shù)據(jù)共50 余萬(wàn)條，作為領(lǐng)域適配語(yǔ)料。

表1 數(shù)據(jù)集統(tǒng)計(jì)

以DomainNER 的準(zhǔn)確率（P）、召回率（R）、F1 值作為實(shí)驗(yàn)對(duì)比分析內(nèi)容。

3.2 命名實(shí)體識(shí)別結(jié)果及分析

首先使用BMESO 格式預(yù)處理DomainNER 數(shù)據(jù)，訓(xùn)練過(guò)程中采用五折交叉驗(yàn)證，分別按照損失（loss）和F1 保存模型，共10 個(gè)模型，最大訓(xùn)練輪數(shù)（epoch）為27 輪，訓(xùn)練過(guò)程會(huì)根據(jù)損失提前停止。（基線模型（Baseline）是將哈工大BERT-wwm-ext[16]不進(jìn)行微調(diào)獲得的字嵌入輸入到BiLSTM+CRF 模型獲得的結(jié)果）。所有的LSTM 隱藏層神經(jīng)元個(gè)數(shù)為128，丟棄法超參數(shù)取0.1。如前文所述，領(lǐng)域適配預(yù)訓(xùn)練實(shí)驗(yàn)中，以哈工大BERT-wwm-ext 預(yù)訓(xùn)練模型為基礎(chǔ)，掩碼語(yǔ)言模型MLM 同樣采用WWM 的方式，在NVIDIA Tesla V100 32GB 8顯卡GPU服務(wù)器上，對(duì)50余萬(wàn)條領(lǐng)域適配語(yǔ)料進(jìn)行訓(xùn)練。訓(xùn)練10 輪，用時(shí)近70 h。

表2 和表3 展示了該文介紹的模型和基線模型在目標(biāo)領(lǐng)域和目標(biāo)任務(wù)DomainNER(NER1)上的實(shí)驗(yàn)結(jié)果，源任務(wù)分別為通用領(lǐng)域命名實(shí)體識(shí)別任務(wù)NER2和通用領(lǐng)域中文分詞任務(wù)CWS，每個(gè)實(shí)驗(yàn)?zāi)Ｐ偷恼f(shuō)明如下：

表2 實(shí)驗(yàn)結(jié)果（未使用遷移學(xué)習(xí)）

表3 實(shí)驗(yàn)結(jié)果（使用遷移學(xué)習(xí)）

BiLSTM+CRF：輸入是目標(biāo)任務(wù)域數(shù)據(jù)通過(guò)固定參數(shù)的BERT-wwm-ext Embedding結(jié)果；

MLM+BiLSTM+CRF：使用掩碼語(yǔ)言模型MLM對(duì)BERT-wwm-ext 在目標(biāo)領(lǐng)域數(shù)據(jù)上進(jìn)行微調(diào)，完成領(lǐng)域適配；

MLM+BiLSTM+CRF+task-transfer：在BiLSTM+CRF 模型上，進(jìn)行從源任務(wù)域NER2到目標(biāo)任務(wù)域NER1的遷移學(xué)習(xí)，沒(méi)有計(jì)算對(duì)抗學(xué)習(xí)損失；

MLM+BiLSTM+CRF+adversarial：與MLM +BiLSTM+CRF+task-transfer模型相比，加入了對(duì)抗學(xué)習(xí)部分，優(yōu)化了基于領(lǐng)域?qū)棺赃m應(yīng)的遷移學(xué)習(xí)模型；

MLM+BiLSTM+CRF+adversarial+VAT：在對(duì)抗遷移學(xué)習(xí)模型的基礎(chǔ)上，加入了虛擬對(duì)抗訓(xùn)練VAT。

從實(shí)驗(yàn)結(jié)果可總結(jié)出以下結(jié)論。

領(lǐng)域適配的效果：使用MLM 對(duì)BERT-wwm-ext進(jìn)行微調(diào)之后，F(xiàn)1 值有了0.23%的提升。BERTwwm-ext 本身是采用WWM 方式進(jìn)行的預(yù)訓(xùn)練，訓(xùn)練數(shù)據(jù)覆蓋面非常廣，因此提升效果不大；

任務(wù)適配遷移學(xué)習(xí)的效果：MLM+BiLSTM+CRF+task-transfer 模型的F1值從MLM+BiLSTM+CRF 的76.84%提升到了78.92%與79.70%，對(duì)不同源任務(wù)數(shù)據(jù)的提升分別是2.08%與2.86%，效果明顯；

對(duì)抗訓(xùn)練的效果：對(duì)比MLM+BiLSTM+CRF+tasktransfer 模型，加入對(duì)抗訓(xùn)練模塊以后，對(duì)不同源任務(wù)數(shù)據(jù)，F(xiàn)1值的提升分別是0.73%與0.48%。證明了在目標(biāo)域上，對(duì)抗訓(xùn)練可以阻止源任務(wù)的私有特征進(jìn)入共享BiLSTM中產(chǎn)生噪聲，即對(duì)抗訓(xùn)練有效阻止了負(fù)遷移；

虛擬對(duì)抗訓(xùn)練的效果：虛擬對(duì)抗訓(xùn)練由于VAT的加入，使F1 值分別提升了0.40%與0.97%，證明其可以提高模型的魯棒性；

源任務(wù)的影響：通過(guò)多輪對(duì)比，一般情況下，語(yǔ)義信息更豐富的中文分詞任務(wù)CWS 比僅有三個(gè)實(shí)體類別的通用命名實(shí)體識(shí)別任務(wù)NER2對(duì)模型預(yù)測(cè)結(jié)果的提升更大。

實(shí)驗(yàn)表明，該文介紹的用于領(lǐng)域適配的MLM 模型與用于任務(wù)適配的對(duì)抗遷移學(xué)習(xí)框架對(duì)軍事科技領(lǐng)域命名實(shí)體識(shí)別任務(wù)相較基線模型，有明顯的提升，使F1 值從76.61%提升到81.15%。同時(shí)，實(shí)驗(yàn)也表明，中文分詞的詞匯邊界信息等特征對(duì)于命名實(shí)體識(shí)別任務(wù)非常重要。

4 結(jié)論

該文針對(duì)軍事科技領(lǐng)域文本數(shù)據(jù)的特點(diǎn)，將領(lǐng)域適配與任務(wù)適配的方法應(yīng)用到軍事科技領(lǐng)域的命名實(shí)體識(shí)別任務(wù)中，提出了基于掩碼語(yǔ)言模型的領(lǐng)域適配方法和基于對(duì)抗遷移學(xué)習(xí)的任務(wù)適配方法。應(yīng)用對(duì)抗遷移學(xué)習(xí)，既可以將源任務(wù)的詞匯邊界信息等特征共享給目標(biāo)任務(wù)，又可以阻止源任務(wù)的負(fù)遷移特征產(chǎn)生噪聲。方法中使用自注意力機(jī)制獲取句子內(nèi)部詞匯間的結(jié)構(gòu)與關(guān)聯(lián)關(guān)系，使用虛擬對(duì)抗訓(xùn)練提高模型的魯棒性。實(shí)驗(yàn)表明，文中方法所生成模型在軍事科技領(lǐng)域命名實(shí)體識(shí)別任務(wù)上有較明顯的提升效果；使用不同通用領(lǐng)域的源任務(wù)測(cè)試其對(duì)目標(biāo)任務(wù)結(jié)果的影響，發(fā)現(xiàn)當(dāng)語(yǔ)義信息更豐富的分詞任務(wù)作為遷移學(xué)習(xí)的源任務(wù)時(shí)，對(duì)目標(biāo)任務(wù)的提升更大。