亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于對(duì)抗遷移學(xué)習(xí)的軍事科技領(lǐng)域命名實(shí)體識(shí)別

        2022-10-28 13:42:42連堯馮俊池丁皓
        電子設(shè)計(jì)工程 2022年20期
        關(guān)鍵詞:特征提取模型

        連堯,馮俊池,丁皓

        (軍事科學(xué)院系統(tǒng)工程研究院后勤科學(xué)與技術(shù)研究所,北京 100071)

        隨著軍事科技的迅速發(fā)展和軍事科技文本數(shù)據(jù)的不斷積累,實(shí)現(xiàn)軍事科技領(lǐng)域信息的自動(dòng)抽取,有助于獲取高價(jià)值知識(shí)與情報(bào)以及掌握國(guó)內(nèi)外軍事科學(xué)技術(shù)發(fā)展態(tài)勢(shì),更好為我國(guó)國(guó)防建設(shè)服務(wù)。命名實(shí)體識(shí)別用于識(shí)別出文本大數(shù)據(jù)中的技術(shù)、實(shí)體及其發(fā)展、應(yīng)用等信息,是軍事科技領(lǐng)域信息抽取任務(wù)的關(guān)鍵和基礎(chǔ)。通用領(lǐng)域命名實(shí)體識(shí)別對(duì)象主要為人名、地名和組織機(jī)構(gòu)名稱等,且現(xiàn)有語(yǔ)料庫(kù)大多面向通用領(lǐng)域。針對(duì)軍事科技領(lǐng)域技術(shù)實(shí)體的特點(diǎn),該文構(gòu)建了軍事科技領(lǐng)域語(yǔ)料庫(kù),通過(guò)預(yù)訓(xùn)練掩碼語(yǔ)言模型和對(duì)抗遷移學(xué)習(xí)進(jìn)行領(lǐng)域適配和任務(wù)適配,并采用自注意力機(jī)制和虛擬對(duì)抗訓(xùn)練提高模型的魯棒性,提升了軍事科技領(lǐng)域數(shù)據(jù)命名實(shí)體識(shí)別效果。

        1 相關(guān)研究

        國(guó)防大數(shù)據(jù)是指保衛(wèi)國(guó)家主權(quán)、領(lǐng)土完整和安全而開展的軍事活動(dòng)所生成的數(shù)據(jù)資源以及與軍事有關(guān)的政治、經(jīng)濟(jì)、科技、外交、教育等方面的活動(dòng)所生成的數(shù)據(jù)資源,是大數(shù)據(jù)技術(shù)及其支撐下的應(yīng)用系統(tǒng)的總稱[1]。國(guó)防大數(shù)據(jù)中產(chǎn)生的軍事科技相關(guān)文本數(shù)據(jù)中,技術(shù)與實(shí)體及其相關(guān)信息所包含的內(nèi)容與通用領(lǐng)域?qū)嶓w不同,其特點(diǎn)是通常比較長(zhǎng),可能同時(shí)包含多種詞性的義原,經(jīng)常還存在多詞一義、一詞多義以及實(shí)體嵌套等問(wèn)題,如“民兵-3”型洲際彈道導(dǎo)彈、“布拉莫斯”超音速巡航導(dǎo)彈、彈頭再入技術(shù)、有效載荷等。

        隨著機(jī)器學(xué)習(xí)在自然語(yǔ)言處理(Natural Language Process,NLP)領(lǐng)域逐漸嶄露頭角,條件隨機(jī)場(chǎng)模型(Conditional Random Field,CRF)[2]被用來(lái)進(jìn)行序列標(biāo)注,并且取得了較好的效果。當(dāng)前預(yù)訓(xùn)練模型在常見(jiàn)的NLP 基礎(chǔ)任務(wù)中較傳統(tǒng)模型取得了顯著的進(jìn)步,如BERT[3]、XLNET[4]等。預(yù)訓(xùn)練模型通過(guò)海量數(shù)據(jù)進(jìn)行無(wú)監(jiān)督學(xué)習(xí),并在具體的任務(wù)中進(jìn)行微調(diào),以獲得一個(gè)更加符合上下文語(yǔ)義的表征。

        遷移學(xué)習(xí)是指利用舊知識(shí)來(lái)學(xué)習(xí)新知識(shí),主要目標(biāo)是將已經(jīng)學(xué)會(huì)的知識(shí)快速地遷移到一個(gè)新的領(lǐng)域中[5]。近年來(lái),深度遷移學(xué)習(xí)模型已經(jīng)成為解決小樣本問(wèn)題的重要方法。2014 年由Goodfellow 等人首次提出的生成對(duì)抗網(wǎng)絡(luò)模型(Generative Adversarial Network,GAN)啟發(fā)的對(duì)抗技術(shù)在多個(gè)小樣本學(xué)習(xí)數(shù)據(jù)集上取得了較好結(jié)果[6]。Ganin 等人提出了領(lǐng)域?qū)股窠?jīng)網(wǎng)絡(luò)[7],Tzeng 等人提出了對(duì)抗領(lǐng)域自適應(yīng)的通用框架[8],Zhang 等人提出了對(duì)抗網(wǎng)絡(luò)的領(lǐng)域自適應(yīng)方法[9],Liu 等人將對(duì)抗遷移學(xué)習(xí)應(yīng)用于中文分詞任務(wù)[10]。以上方法將對(duì)抗技術(shù)應(yīng)用于深度遷移學(xué)習(xí)模型,利用判別模型和對(duì)抗損失,解決領(lǐng)域之間負(fù)遷移的問(wèn)題。該文在雙向長(zhǎng)短期記憶網(wǎng)絡(luò)結(jié)合條件隨機(jī)場(chǎng)BiLSTM-CRF(Bidirectional Long Short-Term Memory Network and Conditional Random Field)模型中加入對(duì)抗自適應(yīng),分別實(shí)現(xiàn)從中文分詞和通用命名實(shí)體識(shí)別任務(wù)到軍事科技命名實(shí)體識(shí)別任務(wù)的任務(wù)適配優(yōu)化。

        2 軍事科技領(lǐng)域命名實(shí)體識(shí)別

        2.1 BERT簡(jiǎn)介

        現(xiàn)在有很多利用預(yù)訓(xùn)練的語(yǔ)言表征來(lái)完成下游自然語(yǔ)言處理任務(wù)的研究,其代表BERT模型在11個(gè)獨(dú)立的下游自然語(yǔ)言處理任務(wù)中刷新了最好成績(jī)[3],效果顯著。BERT采用新的預(yù)訓(xùn)練目標(biāo)函數(shù),其中MLM方法是隨機(jī)遮蔽(Mask)輸入中的一些Tokens,然后在預(yù)訓(xùn)練中對(duì)其進(jìn)行預(yù)測(cè),使學(xué)習(xí)到的表征能夠融合兩個(gè)方向上的文本信息。另外,為了使模型更適用于句子級(jí)別的任務(wù),BERT 中還采用了一種稱之為“下一句預(yù)測(cè)”的目標(biāo)函數(shù),來(lái)使模型能更好地捕捉句子信息。BERT 較之前的Word2Vec[11]和Glove 等詞向量模型,對(duì)一詞多義等情形的表達(dá)更加準(zhǔn)確,能充分描述字符級(jí)、詞級(jí)、句子級(jí)關(guān)系特征。因此,該文在設(shè)計(jì)模型時(shí),均將BERT 作為模型的最底層進(jìn)行字嵌入(Embedding)。

        2.2 命名實(shí)體識(shí)別模型

        軍事科技領(lǐng)域的實(shí)體識(shí)別任務(wù)中,由于許多詞匯是軍事科技領(lǐng)域內(nèi)的專有詞匯,因此需要對(duì)領(lǐng)域內(nèi)語(yǔ)料進(jìn)行定制訓(xùn)練。通用領(lǐng)域的語(yǔ)料庫(kù)對(duì)提高實(shí)體識(shí)別的準(zhǔn)確率有很好的幫助。軍事科技領(lǐng)域可能包含多個(gè)學(xué)科的細(xì)分領(lǐng)域,各個(gè)細(xì)分領(lǐng)域有自身特殊的實(shí)體命名規(guī)則。另外,實(shí)體識(shí)別注釋標(biāo)準(zhǔn)比較模糊,使同一實(shí)體在不同領(lǐng)域數(shù)據(jù)集上的標(biāo)注結(jié)果也存在分歧,盡管這些異構(gòu)的語(yǔ)料數(shù)據(jù)集可以互相幫助,但整個(gè)數(shù)據(jù)集仍然不夠大,還存在稀疏和不平衡的問(wèn)題,無(wú)法提供足夠的語(yǔ)言知識(shí)。

        針對(duì)軍事科技領(lǐng)域數(shù)據(jù)的上述特點(diǎn),該文模型基于BERT設(shè)計(jì),采用BiLSTM+CRF模型結(jié)構(gòu)。將BERT層獲得的字向量表示通過(guò)BiLSTM 層提取訓(xùn)練特征,再通過(guò)CRF層預(yù)測(cè)輸出標(biāo)簽,標(biāo)簽集為{B,M,E,O,S}。

        第一層:BERT Embedding 層,使用的是基于預(yù)訓(xùn)練模型BERT 字向量表示,進(jìn)行句子特征的提取。實(shí)體識(shí)別任務(wù)本質(zhì)屬于序列標(biāo)注任務(wù),由于BERT 訓(xùn)練的過(guò)程中采用掩碼語(yǔ)言模型,所以BERT框架本身就非常適合用于序列標(biāo)注任務(wù)。

        第二層:雙向LSTM 特征提取層,將BERT 的字向量表示結(jié)果通過(guò)雙向LSTM 層提取特征。

        t時(shí)刻BiLSTM 的輸出為:

        其中,ht為BiLSTM 的輸出。

        第三層:條件隨機(jī)場(chǎng)CRF 層,預(yù)測(cè)輸出序列的標(biāo)簽,完成實(shí)體識(shí)別序列標(biāo)注任務(wù)。

        BiLSTM 的輸出通過(guò)全連接層獲得字級(jí)別的標(biāo)簽概率預(yù)測(cè),再接入CRF 層,利用預(yù)測(cè)標(biāo)簽的轉(zhuǎn)移概率,進(jìn)行句子級(jí)別的標(biāo)簽預(yù)測(cè),使得序列標(biāo)注過(guò)程不再是對(duì)各個(gè)字單元獨(dú)立分類。在CRF 層中,標(biāo)簽序列的概率形式化公式為:

        這里y∈{B,M,E,S,O}作為標(biāo)簽,是訓(xùn)練參數(shù),s(X,t)=為評(píng)分函數(shù)。

        2.3 領(lǐng)域適配

        由于BERT 預(yù)訓(xùn)練語(yǔ)言模型是在海量通用語(yǔ)料上預(yù)訓(xùn)練得到的,所以針對(duì)領(lǐng)域內(nèi)的實(shí)體識(shí)別任務(wù),需要實(shí)現(xiàn)從通用向領(lǐng)域內(nèi)的領(lǐng)域適配,即需要在領(lǐng)域語(yǔ)料數(shù)據(jù)上預(yù)訓(xùn)練。對(duì)領(lǐng)域適配預(yù)訓(xùn)練的算法采用MLM 掩碼語(yǔ)言模型,訓(xùn)練語(yǔ)料是通過(guò)業(yè)務(wù)中的積累和專業(yè)網(wǎng)站上爬取兩種手段獲得的大量未標(biāo)注領(lǐng)域的語(yǔ)料數(shù)據(jù)。

        為了訓(xùn)練深度雙向表征,BERT 采用一種直接方法,隨機(jī)遮蔽掉文本中的某些字詞,然后用模型預(yù)測(cè)被遮蔽的字詞,如圖1 所示。在這個(gè)過(guò)程中,對(duì)應(yīng)于遮蔽詞塊的最終隱藏向量被反饋到輸出交叉熵(softmax)函數(shù)中,預(yù)測(cè)詞匯表中所有詞匯的概率。

        圖1 掩碼語(yǔ)言模型

        其中,被遮蔽掉的部分可以是直接隨機(jī)選擇的字Token,也可以是隨機(jī)選擇連續(xù)的能組成一個(gè)詞匯的全部字Token,后者稱為全詞遮蔽(Whole Word Masking,WWM)[12]。

        由于在后續(xù)任務(wù)微調(diào)期間,模型從未看到被遮蔽的[M]詞塊,會(huì)產(chǎn)生創(chuàng)建預(yù)訓(xùn)練和微調(diào)任務(wù)之間不適配的情況,因此從輸入中選取15%的單詞采取如下處理措施:

        1)80%的幾率替換為[M](mask);

        2)10%的幾率替換為一個(gè)隨機(jī)單詞;

        3)10%的幾率保持不變。

        通過(guò)這樣的設(shè)計(jì),BERT 的Transformer 編碼器(Encoder)層被動(dòng)保持了每個(gè)輸入詞塊的分布特征與語(yǔ)境表征。并且由于替換為隨機(jī)單詞的詞匯只有1.5%,所以不會(huì)損害BERT 的語(yǔ)言理解能力。

        領(lǐng)域適配預(yù)訓(xùn)練實(shí)驗(yàn)中,采用全詞遮蔽方式,訓(xùn)練數(shù)據(jù)是50 萬(wàn)條未標(biāo)注軍事科技領(lǐng)域的各類語(yǔ)料數(shù)據(jù),在NVIDIA Tesla V100 32GB 8 顯卡GPU 服務(wù)器上,訓(xùn)練10 輪,用時(shí)近70 h。

        2.4 任務(wù)適配

        軍事科技領(lǐng)域的命名實(shí)體識(shí)別任務(wù),較通用實(shí)體識(shí)別更為復(fù)雜困難,這主要表現(xiàn)為:1)漢語(yǔ)文本中沒(méi)有表示詞語(yǔ)邊界的分割符號(hào),命名實(shí)體識(shí)別效果與文本分詞效果相互影響,而通用的分詞方法在軍事科技領(lǐng)域文本數(shù)據(jù)中效果會(huì)受領(lǐng)域知識(shí)的影響;2)通用實(shí)體識(shí)別任務(wù)的目的是識(shí)別文本中的事物名稱,如人名、地名、機(jī)構(gòu)名。該文研究的是軍事科技領(lǐng)域文本數(shù)據(jù),包括軍事科技領(lǐng)域科研項(xiàng)目文獻(xiàn)、各國(guó)軍事科技情報(bào)文獻(xiàn)、軍事科技專利技術(shù)文獻(xiàn)、軍事論文期刊類文獻(xiàn)、軍事科技實(shí)驗(yàn)類文獻(xiàn)等。該文針對(duì)其中的武器裝備、組織機(jī)構(gòu)、科學(xué)技術(shù)、性能指標(biāo)、技術(shù)背景、專家學(xué)者及軍事術(shù)語(yǔ)七大類進(jìn)行識(shí)別標(biāo)注。

        基于領(lǐng)域?qū)棺赃m應(yīng)的遷移學(xué)習(xí)模型如圖2 所示?;谲娛驴萍碱I(lǐng)域命名實(shí)體識(shí)別任務(wù)的特點(diǎn),分別為源任務(wù)域和目標(biāo)任務(wù)域提供特定域的特征提取器BiLSTM,并建立一個(gè)共享特征提取器來(lái)學(xué)習(xí)獲取域無(wú)關(guān)特征,將共享特征提取器(共享BiLSTM)的輸出送入資源對(duì)抗鑒別器,通過(guò)對(duì)抗學(xué)習(xí),減少負(fù)遷移。并且在訓(xùn)練中使獲取源任務(wù)域數(shù)據(jù)與目標(biāo)任務(wù)域數(shù)據(jù)的概率都等于50%,避免出現(xiàn)數(shù)據(jù)規(guī)模不均的問(wèn)題。對(duì)抗鑒別器的作用是在源任務(wù)的特征中選擇有利于目標(biāo)任務(wù)性能提高的特征,同時(shí)防止負(fù)遷移,即減少對(duì)目標(biāo)任務(wù)沒(méi)有幫助的特征信息進(jìn)入共享特征空間。訓(xùn)練完成之后,對(duì)抗鑒別器趨于無(wú)法區(qū)分共享特征提取器中的特征表示是來(lái)自源任務(wù)域還是目標(biāo)任務(wù)域,可認(rèn)為共享特征都是能對(duì)目標(biāo)任務(wù)提供幫助的特征。

        圖2 基于領(lǐng)域?qū)棺赃m應(yīng)的遷移學(xué)習(xí)模型

        該文設(shè)計(jì)在BiLSTM 層后加入自注意力機(jī)制,捕獲兩個(gè)字符之間的長(zhǎng)距離依賴關(guān)系并學(xué)習(xí)句子的內(nèi)部結(jié)構(gòu)信息。

        1)共享與獨(dú)有特征提取BiLSTM

        共享特征提取器:輸入為目標(biāo)任務(wù)域和源任務(wù)域,提取任務(wù)共享的邊界信息,對(duì)于共享BiLSTM 的輸出與目標(biāo)BiLSTM 的輸出,有:

        2)自注意力層Self-attention

        該文應(yīng)用了多頭自注意力(Multi-head Selfattention)機(jī)制[13],獲取句子內(nèi)部詞匯間的結(jié)構(gòu)與關(guān)聯(lián)關(guān)系。

        Self-attention 層的輸入是特征提取器BiLSTM 的輸出H=(h1,h2,h3…h(huán)n)。Q(Query)、K(Key)、V(Value)三個(gè)矩陣均來(lái)自H。首先計(jì)算得分,為Q與K的點(diǎn)乘:score=Q·K。為使梯度穩(wěn)定,歸一化score,除以其中dk為一個(gè)Query 和Key 向量的維度。再通過(guò)交叉熵激活函數(shù)將其結(jié)果歸一化為概率分布并與V點(diǎn)乘,得到權(quán)重求和的表示。最終的輸出結(jié)果矩陣為:

        利用自注意力機(jī)制的特性,在BiLSTM 抽取句子文本特征的基礎(chǔ)上,進(jìn)一步獲取詞與詞之間的依賴關(guān)系與結(jié)構(gòu)信息。

        3)對(duì)抗任務(wù)域鑒別器

        與生成對(duì)抗網(wǎng)絡(luò)類似,共享BiLSTM 屬于生成器,其后加入一個(gè)資源判別器,用于判斷生成器所生成的特征來(lái)自哪個(gè)任務(wù)域。通過(guò)讓資源判別器分辨不出特征出自哪個(gè)任務(wù)域,使共享BiLSTM 所抽取到的特征是任務(wù)之間的共有特征,減少了負(fù)遷移的影響。

        通過(guò)最大池化(Max Pooling)層和交叉熵層識(shí)別特征來(lái)自哪個(gè)領(lǐng)域,可以表示為:

        其中,S表示共享自注意力輸出的最大池化結(jié)果,θd表示任務(wù)鑒別器的參數(shù),Wd和bd是可訓(xùn)練參數(shù)。

        通過(guò)引入對(duì)抗損失函數(shù)Ladv,如式(7)所示,防止源任務(wù)的特定信息進(jìn)入共享空間。

        其中,θs表示共享特征提取器可訓(xùn)練參數(shù),K是任務(wù)數(shù),Es表示共享特征提取器,Tk是任務(wù)k訓(xùn)練實(shí)例的數(shù)量,是任務(wù)k的第i個(gè)實(shí)例。

        通過(guò)在領(lǐng)域鑒別器softmax 層與共享特征提取器(共享BiLSTM)之間,添加一個(gè)梯度反轉(zhuǎn)層(Gradient Reversal Layer,GRL),完成極小化極大算法優(yōu)化。GRL 層在前向傳播過(guò)程中實(shí)現(xiàn)恒等變換;在反向傳播過(guò)程中,使域分類損失的梯度反向傳播到共享特征提取器的參數(shù)之前自動(dòng)取反,進(jìn)而實(shí)現(xiàn)了類似GAN 的對(duì)抗損失。使共享特征提取器產(chǎn)生的共享特征在訓(xùn)練過(guò)程中趨向誤導(dǎo)領(lǐng)域鑒別器。相關(guān)數(shù)學(xué)表示如式(8)所示:

        4)虛擬對(duì)抗訓(xùn)練

        虛擬對(duì)抗訓(xùn)練(Virtual Adversarial Training,VAT)[14]是針對(duì)具有給定條件的標(biāo)簽分布p(y|x)的數(shù)據(jù),度量此分布局部光滑性的一種方法。將條件標(biāo)簽概率約束成光滑的,進(jìn)行正則化,在輸入x變化很小的情況下,輸出p(y|x)也很小。滿足光滑,表示對(duì)抗樣本相比于原樣本變化很小,標(biāo)簽也不會(huì)有太大變化。VAT 通過(guò)迭代求解,迭代過(guò)程中其損失函數(shù)如下:

        其中,輸入x、y為預(yù)測(cè)的輸出標(biāo)簽并不是實(shí)際標(biāo)簽,p(y|x,θ)是輸出分布,θ是模型參數(shù),迭代過(guò)程中是上一步的p(y|x,θ),D是非負(fù)度量函數(shù)交叉熵,用于量化分布之間的距離。rqadv是對(duì)抗的擾動(dòng),也就是VAT 一方面需要找出對(duì)模型影響最大的擾動(dòng)量,另一方面要盡量減小這個(gè)擾動(dòng)量對(duì)模型的影響。VAT 通過(guò)迭代近似計(jì)算,執(zhí)行梯度下降,更新模型參數(shù)。

        VAT 在對(duì)抗訓(xùn)練時(shí)不需要標(biāo)簽信息,所以可以應(yīng)用于無(wú)監(jiān)督學(xué)習(xí),文中應(yīng)用VAT 提高模型的魯棒性。

        目標(biāo)任務(wù)的CRF 損失函數(shù)為:

        源任務(wù)域的CRF 損失函數(shù)為:

        模型最終的損失函數(shù)為:

        其中,Dtarget代表目標(biāo)任務(wù)域,Dsource代表源任務(wù)域,x是模型的輸入,λ是超參。

        為了解決資源數(shù)據(jù)不平衡的問(wèn)題,在訓(xùn)練的過(guò)程中,以同樣概率從源任務(wù)域與目標(biāo)任務(wù)域中獲取訓(xùn)練數(shù)據(jù)。最后利用Adam優(yōu)化算法來(lái)進(jìn)行損失函數(shù)的優(yōu)化。

        3 實(shí)驗(yàn)結(jié)果及分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)與說(shuō)明

        為了評(píng)估模型在軍事科技領(lǐng)域命名實(shí)體識(shí)別任務(wù)的效果,在表1 所示的4 個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),包括1 839 條有6 種標(biāo)注類別的軍事科技領(lǐng)域內(nèi)命名實(shí)體識(shí)別數(shù)據(jù)集(DomainNER)作為目標(biāo)任務(wù)數(shù)據(jù),以8∶1∶1 的比例建立訓(xùn)練集、驗(yàn)證集、測(cè)試集;SIGHAN2006NER 數(shù)據(jù)集(SighanNER,Levow,2006)作為源任務(wù)數(shù)據(jù);MSR 數(shù)據(jù)集(from SIGHAN2005)[15]作為對(duì)比實(shí)驗(yàn)用的源中文分詞(CWS)任務(wù)數(shù)據(jù);業(yè)務(wù)中積累的無(wú)標(biāo)注數(shù)據(jù)以及國(guó)防科技信息網(wǎng)(www.dsti.net)與簡(jiǎn)氏防務(wù)中文網(wǎng)爬取的領(lǐng)域無(wú)標(biāo)注數(shù)據(jù)共50 余萬(wàn)條,作為領(lǐng)域適配語(yǔ)料。

        表1 數(shù)據(jù)集統(tǒng)計(jì)

        以DomainNER 的準(zhǔn)確率(P)、召回率(R)、F1 值作為實(shí)驗(yàn)對(duì)比分析內(nèi)容。

        3.2 命名實(shí)體識(shí)別結(jié)果及分析

        首先使用BMESO 格式預(yù)處理DomainNER 數(shù)據(jù),訓(xùn)練過(guò)程中采用五折交叉驗(yàn)證,分別按照損失(loss)和F1 保存模型,共10 個(gè)模型,最大訓(xùn)練輪數(shù)(epoch)為27 輪,訓(xùn)練過(guò)程會(huì)根據(jù)損失提前停止。(基線模型(Baseline)是將哈工大BERT-wwm-ext[16]不進(jìn)行微調(diào)獲得的字嵌入輸入到BiLSTM+CRF 模型獲得的結(jié)果)。所有的LSTM 隱藏層神經(jīng)元個(gè)數(shù)為128,丟棄法超參數(shù)取0.1。如前文所述,領(lǐng)域適配預(yù)訓(xùn)練實(shí)驗(yàn)中,以哈工大BERT-wwm-ext 預(yù)訓(xùn)練模型為基礎(chǔ),掩碼語(yǔ)言模型MLM 同樣采用WWM 的方式,在NVIDIA Tesla V100 32GB 8顯卡GPU服務(wù)器上,對(duì)50余萬(wàn)條領(lǐng)域適配語(yǔ)料進(jìn)行訓(xùn)練。訓(xùn)練10 輪,用時(shí)近70 h。

        表2 和表3 展示了該文介紹的模型和基線模型在目標(biāo)領(lǐng)域和目標(biāo)任務(wù)DomainNER(NER1)上的實(shí)驗(yàn)結(jié)果,源任務(wù)分別為通用領(lǐng)域命名實(shí)體識(shí)別任務(wù)NER2和通用領(lǐng)域中文分詞任務(wù)CWS,每個(gè)實(shí)驗(yàn)?zāi)P偷恼f(shuō)明如下:

        表2 實(shí)驗(yàn)結(jié)果(未使用遷移學(xué)習(xí))

        表3 實(shí)驗(yàn)結(jié)果(使用遷移學(xué)習(xí))

        BiLSTM+CRF:輸入是目標(biāo)任務(wù)域數(shù)據(jù)通過(guò)固定參數(shù)的BERT-wwm-ext Embedding結(jié)果;

        MLM+BiLSTM+CRF:使用掩碼語(yǔ)言模型MLM對(duì)BERT-wwm-ext 在目標(biāo)領(lǐng)域數(shù)據(jù)上進(jìn)行微調(diào),完成領(lǐng)域適配;

        MLM+BiLSTM+CRF+task-transfer:在BiLSTM+CRF 模型上,進(jìn)行從源任務(wù)域NER2到目標(biāo)任務(wù)域NER1的遷移學(xué)習(xí),沒(méi)有計(jì)算對(duì)抗學(xué)習(xí)損失;

        MLM+BiLSTM+CRF+adversarial:與MLM +BiLSTM+CRF+task-transfer模型相比,加入了對(duì)抗學(xué)習(xí)部分,優(yōu)化了基于領(lǐng)域?qū)棺赃m應(yīng)的遷移學(xué)習(xí)模型;

        MLM+BiLSTM+CRF+adversarial+VAT:在對(duì)抗遷移學(xué)習(xí)模型的基礎(chǔ)上,加入了虛擬對(duì)抗訓(xùn)練VAT。

        從實(shí)驗(yàn)結(jié)果可總結(jié)出以下結(jié)論。

        領(lǐng)域適配的效果:使用MLM 對(duì)BERT-wwm-ext進(jìn)行微調(diào)之后,F(xiàn)1 值有了0.23%的提升。BERTwwm-ext 本身是采用WWM 方式進(jìn)行的預(yù)訓(xùn)練,訓(xùn)練數(shù)據(jù)覆蓋面非常廣,因此提升效果不大;

        任務(wù)適配遷移學(xué)習(xí)的效果:MLM+BiLSTM+CRF+task-transfer 模型的F1值從MLM+BiLSTM+CRF 的76.84%提升到了78.92%與79.70%,對(duì)不同源任務(wù)數(shù)據(jù)的提升分別是2.08%與2.86%,效果明顯;

        對(duì)抗訓(xùn)練的效果:對(duì)比MLM+BiLSTM+CRF+tasktransfer 模型,加入對(duì)抗訓(xùn)練模塊以后,對(duì)不同源任務(wù)數(shù)據(jù),F(xiàn)1值的提升分別是0.73%與0.48%。證明了在目標(biāo)域上,對(duì)抗訓(xùn)練可以阻止源任務(wù)的私有特征進(jìn)入共享BiLSTM中產(chǎn)生噪聲,即對(duì)抗訓(xùn)練有效阻止了負(fù)遷移;

        虛擬對(duì)抗訓(xùn)練的效果:虛擬對(duì)抗訓(xùn)練由于VAT的加入,使F1 值分別提升了0.40%與0.97%,證明其可以提高模型的魯棒性;

        源任務(wù)的影響:通過(guò)多輪對(duì)比,一般情況下,語(yǔ)義信息更豐富的中文分詞任務(wù)CWS 比僅有三個(gè)實(shí)體類別的通用命名實(shí)體識(shí)別任務(wù)NER2對(duì)模型預(yù)測(cè)結(jié)果的提升更大。

        實(shí)驗(yàn)表明,該文介紹的用于領(lǐng)域適配的MLM 模型與用于任務(wù)適配的對(duì)抗遷移學(xué)習(xí)框架對(duì)軍事科技領(lǐng)域命名實(shí)體識(shí)別任務(wù)相較基線模型,有明顯的提升,使F1 值從76.61%提升到81.15%。同時(shí),實(shí)驗(yàn)也表明,中文分詞的詞匯邊界信息等特征對(duì)于命名實(shí)體識(shí)別任務(wù)非常重要。

        4 結(jié)論

        該文針對(duì)軍事科技領(lǐng)域文本數(shù)據(jù)的特點(diǎn),將領(lǐng)域適配與任務(wù)適配的方法應(yīng)用到軍事科技領(lǐng)域的命名實(shí)體識(shí)別任務(wù)中,提出了基于掩碼語(yǔ)言模型的領(lǐng)域適配方法和基于對(duì)抗遷移學(xué)習(xí)的任務(wù)適配方法。應(yīng)用對(duì)抗遷移學(xué)習(xí),既可以將源任務(wù)的詞匯邊界信息等特征共享給目標(biāo)任務(wù),又可以阻止源任務(wù)的負(fù)遷移特征產(chǎn)生噪聲。方法中使用自注意力機(jī)制獲取句子內(nèi)部詞匯間的結(jié)構(gòu)與關(guān)聯(lián)關(guān)系,使用虛擬對(duì)抗訓(xùn)練提高模型的魯棒性。實(shí)驗(yàn)表明,文中方法所生成模型在軍事科技領(lǐng)域命名實(shí)體識(shí)別任務(wù)上有較明顯的提升效果;使用不同通用領(lǐng)域的源任務(wù)測(cè)試其對(duì)目標(biāo)任務(wù)結(jié)果的影響,發(fā)現(xiàn)當(dāng)語(yǔ)義信息更豐富的分詞任務(wù)作為遷移學(xué)習(xí)的源任務(wù)時(shí),對(duì)目標(biāo)任務(wù)的提升更大。

        猜你喜歡
        特征提取模型
        一半模型
        特征提取和最小二乘支持向量機(jī)的水下目標(biāo)識(shí)別
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        Bagging RCSP腦電特征提取算法
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        国产一品二品三品精品久久| 一本大道久久东京热无码av| 欧美色综合高清视频在线| 亚洲av永久无码精品成人| 青青操视频手机在线免费观看| 亚洲一二三四五区中文字幕| 国产免费操美女逼视频| 国产黄大片在线观看画质优化| 成人无码免费一区二区三区| 国产精品每日更新在线观看| 91亚洲精品久久久中文字幕| 老女老肥熟女一区二区| 激情偷乱人成视频在线观看| 国产小屁孩cao大人| 日本一区二区三区免费| 亚洲综合天堂av网站在线观看| 国产成人精品日本亚洲11| 日本熟妇hd8ex视频| 男人天堂亚洲一区二区| 日本午夜理论片在线观看| 色爱无码av综合区| 久久久久亚洲av无码专区体验 | 免费a级毛片无码a∨中文字幕下载 | 久久精品这里只有精品| 日韩中文字幕一区二十| 男人国产av天堂www麻豆| a级国产乱理论片在线观看 | 中文字幕人妻丝袜成熟乱| 亚洲乱码日产精品bd| 国产亚洲欧美另类久久久| 中国亚洲av第一精品| 国产精品99精品无码视亚| 国产视频毛片| 亚洲日本国产一区二区三区| 蜜臀久久99精品久久久久久| 国产成人一区二区三区在线观看| 91热爆在线精品| 漂亮人妻被强了中文字幕| 日本91一区二区不卡| 波多野结衣在线播放| 国产成人无码精品午夜福利a |