亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT_IDCNN_CRF的軍事領(lǐng)域命名實(shí)體識(shí)別研究

        2021-11-30 02:28:48李成軍劉敬蜀
        航天電子對(duì)抗 2021年5期
        關(guān)鍵詞:方法模型

        張 祺,李成軍,劉敬蜀

        (中國人民解放軍91977部隊(duì),北京100036)

        0 引言

        命名實(shí)體識(shí)別(NER)是一種可以從一段自然語言文本中,提取出命名實(shí)體、位置等三大類、七小類信息的方法[1],三大類是指時(shí)間類、實(shí)體類和數(shù)字類,七小類是指時(shí)間、地點(diǎn)、人名、機(jī)構(gòu)名、百分比、日期和貨幣。命名實(shí)體識(shí)別的研究,有助于計(jì)算機(jī)更好地處理自然語言文本數(shù)據(jù)[2]。目前命名實(shí)體識(shí)別技術(shù)已廣泛應(yīng)用于知識(shí)圖譜構(gòu)建[3]、問答系統(tǒng)[4]等多種自然語言處理任務(wù)中。

        目前命名實(shí)體識(shí)別的常用方法有:基于規(guī)則和詞典的方法、基于統(tǒng)計(jì)的方法以及統(tǒng)計(jì)與規(guī)則相結(jié)合的方法?;谝?guī)則和詞典的方法需要經(jīng)常完善詞典內(nèi)容,費(fèi)時(shí)費(fèi)力,且無法發(fā)現(xiàn)新實(shí)體,在識(shí)別率和召回率上很難再有新的突破[5]?;诮y(tǒng)計(jì)的命名實(shí)體識(shí)別方法主要依托于機(jī)器學(xué)習(xí),解決了無法發(fā)現(xiàn)新實(shí)體的問題。Morwal[6]使用隱馬爾可夫模型(HMM)算法解決序列標(biāo)注問題,實(shí)驗(yàn)結(jié)果證明此模型具有一定的適用性,但由于輸出獨(dú)立性假設(shè)的局限性,使得文本中的上下文特征不能很好地發(fā)揮作用。MeCallum等[7]提出了最大熵隱馬模型(MEMM),通過使用局部最優(yōu)值方法解決了隱馬爾科夫模型的問題,但卻帶來了標(biāo)記偏見的問題。2001年,Laffrt等[8]提出了條件隨機(jī)場(CRF),該方法對(duì)最大熵模型和隱馬爾可夫模型進(jìn)行了一定的融合,通過監(jiān)督學(xué)習(xí)的方式,使實(shí)體識(shí)別任務(wù)更加高效,還可以對(duì)新實(shí)體進(jìn)行預(yù)測,但識(shí)別率較低?;诮y(tǒng)計(jì)的方法通常缺少語料庫的輔助,識(shí)別率難以提高?;旌戏椒▌t融合了基于規(guī)則、詞典的方法和基于統(tǒng)計(jì)的方法的優(yōu)點(diǎn),使最終的識(shí)別率得到了一定的提升。Google于2018年提出了一種基于雙向Transformer的大規(guī)模預(yù)訓(xùn)練語言模型(Bert)[9],該模型在解決命名實(shí)體識(shí)別領(lǐng)域的問題上取得了較好的效果。Strubell等[10]提出了一種Iterated Dilated CNN+CRF模型,該模型在命名實(shí)體識(shí)別領(lǐng)域取得了較好的效果,但存在召回率不夠理想的問題。Huang等[11]提出了Bi LSTM-CRF模型,該模型充分利用了文本中上下文的特征,識(shí)別率和召回率都有了一定的提升。趙耀全[12]等針對(duì)醫(yī)療領(lǐng)域提出了一種基于N-grams新詞發(fā)現(xiàn)的Lattice-LSTM的多粒度命名實(shí)體識(shí)別模型,構(gòu)建了一個(gè)醫(yī)療領(lǐng)域的詞典,適合醫(yī)療領(lǐng)域的命名實(shí)體識(shí)別問題,但不適合其他領(lǐng)域。同樣,周曉進(jìn)[13]提出的面向中文電子病歷的多粒度模型也僅僅適用于醫(yī)療領(lǐng)域的中文電子病歷的識(shí)別。2020年,楊春明等[14]提出了一種基于BERT-Bi LSTM-CRF的命名實(shí)體識(shí)別模型,該模型主要針對(duì)政務(wù)領(lǐng)域的實(shí)體,政務(wù)領(lǐng)域?qū)嶓w具有長度較長、實(shí)體并列、別稱等特點(diǎn),該模型能較好的解決政務(wù)領(lǐng)域的問題,但同樣不適用于其他領(lǐng)域。

        上述模型或因方法問題,導(dǎo)致實(shí)體識(shí)別率和召回率不高,或因模型單一,領(lǐng)域性較強(qiáng)。本文提出了一種基于BERT-IDCNN-CRF的命名實(shí)體識(shí)別方法,融合BERT、IDCNN、CRF模型的優(yōu)點(diǎn)。通過BERT預(yù)訓(xùn)練語言模型得到字的上下文表示,再結(jié)合IDCNNCRF模型,在保持BERT模型優(yōu)點(diǎn)的同時(shí),減少相應(yīng)的訓(xùn)練參數(shù),取得了較好效果。

        1 軍事領(lǐng)域命名實(shí)體識(shí)別模型

        1.1 BERT預(yù)訓(xùn)練語言模型

        近年來,在預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)作為語言模型的基礎(chǔ)上,使用微調(diào)的方式處理垂直任務(wù)取得了一定的效果。在典型的語言模型中,通過預(yù)訓(xùn)練模型可以獲得固定的詞向量,但固定的詞向量無法表示詞的多義性,BERT模型的提出解決了一詞多義的問題[15]。BERT模型可以表征句子結(jié)構(gòu)以及詞的多義性,并且可以獲得詞的上下文相關(guān)表示。BERT模型如圖1所示。

        圖1 BERT預(yù)訓(xùn)練語言模型

        為每個(gè)詞的表示都能夠融合詞的上下文信息,BERT模型的編碼器采用了雙向Transformer。雙向transformer編碼結(jié)構(gòu)也是BERT模型最重要的部分,其基于自注意力機(jī)制,替代了RNN循環(huán)式網(wǎng)絡(luò)結(jié)構(gòu),對(duì)文本進(jìn)行建模。雙向Transformer編碼單元如圖2所示。

        圖2 Transformer編碼單元

        自注意力(Self-Attention)機(jī)制是編碼單元的核心機(jī)制,如公式(1)所示。

        式中輸入詞向量矩陣Q、K、V分別表示Query、Key、Value向量,dk為輸入向量維度。

        自注意力機(jī)制的核心思想認(rèn)為,一段話中不同詞之間的聯(lián)系以及詞在一段話中的重要程度可以由詞與詞之間的關(guān)系所體現(xiàn)。因此Q KT表示計(jì)算詞向量之間的關(guān)系,并通過dk縮小后,使用softmax函數(shù)歸一化,得到每個(gè)詞的權(quán)重。這種新的表達(dá)方式不僅可以表達(dá)詞本身,也可以表達(dá)詞在所在句子中的上下文關(guān)系,這種表達(dá)方式相比傳統(tǒng)詞向量更能體現(xiàn)全局性。

        為使模型在不同位置上都具備良好的表達(dá)能力,Transformer采用了“多頭(Multi Head)”模式,擴(kuò)大注意力單元表示子空間,如公式(2)和(3)所示:

        與其他預(yù)訓(xùn)練模型相比,BERT模型可以充分地利用詞的上下文信息,因此擁有較好的詞分布式表示。

        1.2 IDCNN層

        膨脹卷積(dilated convolution)也叫空洞卷積,其主要目的是在不增加模型參數(shù)和保持模型速度前提下,增大模型的感受野[16]。

        在典型的卷積神經(jīng)網(wǎng)絡(luò)中,卷積核在連續(xù)的區(qū)域內(nèi)滑動(dòng)計(jì)算特征,而膨脹卷積在經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)中加入了膨脹寬度,在卷積核進(jìn)行特征計(jì)算時(shí)會(huì)跳過膨脹寬度間的數(shù)據(jù),以此保證在卷積核的大小不變的前提下,可以得到更廣的輸入矩陣,增大卷積核的感受野。圖3為普通CNN與膨脹CNN結(jié)構(gòu)的對(duì)比。針對(duì)窗口大小為3的三層卷積神經(jīng)網(wǎng)絡(luò),在膨脹卷積神經(jīng)網(wǎng)絡(luò)第二層卷積時(shí),跳過了中心相鄰節(jié)點(diǎn),出現(xiàn)了2個(gè)空洞,直接捕獲了與中心相鄰的節(jié)點(diǎn),膨脹率為2。因此,普通卷積神經(jīng)網(wǎng)絡(luò)的第三層中每個(gè)節(jié)點(diǎn)僅能捕捉到第二層前后三個(gè)節(jié)點(diǎn)的信息,但是膨脹卷積神經(jīng)網(wǎng)絡(luò)中在保持參數(shù)與模型速度不變的前提下,第三層的節(jié)點(diǎn)可以捕捉到第二層中前后九個(gè)節(jié)點(diǎn)的信息,此時(shí)膨脹率為4,出現(xiàn)了6個(gè)空洞。膨脹卷積最大程度上提高了模型的有效性和準(zhǔn)確性。

        圖3 普通CNN與膨脹CNN結(jié)構(gòu)對(duì)比

        1.3 CRF層

        膨脹卷積神經(jīng)網(wǎng)絡(luò)可以抽取語句特征,并使用softmax分類器對(duì)標(biāo)簽進(jìn)行預(yù)測,但是softmax分類器沒有考慮標(biāo)簽間的依賴關(guān)系,因此,特征序列的聯(lián)合概率表示需要使CRF對(duì)數(shù)線性模型[17]。

        若句子長度為n,句子序列為x=(x1,x2,x3,...,x n)且對(duì)應(yīng)預(yù)測標(biāo)簽為y=(y1,y2,y3,...,y n),則預(yù)測列總份數(shù)如公式(4)所示,其中轉(zhuǎn)換矩陣W,經(jīng)過線性映射得到的標(biāo)簽分?jǐn)?shù)P。

        因?yàn)轭A(yù)測序列存在多重可能性,且僅有一種是正確的,因此需要對(duì)所有可能序列進(jìn)行處理,使其全局歸一化,如公式(5)所示:

        1.4 BERT_IDCNN_CRF模型

        BERT_IDCNN_CRF模型圖如圖4所示,以“美國空軍在華盛頓完成實(shí)驗(yàn)”作為輸入語句為例,語句首先通過BERT預(yù)訓(xùn)練模型將語句轉(zhuǎn)化為向量表示,然后通過IDCNN提取詞句特征,最終通過CRF獲得預(yù)測結(jié)果。

        環(huán)己烷主要用于制備環(huán)己酮、環(huán)己醇,在涂料工業(yè)中廣泛用作溶劑[1]。異丙醇也是重要的有機(jī)化學(xué)原料,用于化工、制藥工業(yè)、汽車和航空燃料中[2,3]。在生產(chǎn)過程中,它們會(huì)混合在一起,大量存在工業(yè)廢水中。因此,需對(duì)混合物分離和回收。常壓下,異丙醇-環(huán)己烷形成最低共沸物,共沸溫度:68.6℃,共沸組成:0.33(異丙醇質(zhì)量分?jǐn)?shù))[4]。因此,該體系不能用普通精餾分離,需要用特殊精餾方法。

        圖4 BERT-IDCNN-CRF模型圖

        2 實(shí)驗(yàn)及結(jié)果分析

        2.1 模型參數(shù)設(shè)置

        本文參數(shù)設(shè)置見表1。

        表1 參數(shù)設(shè)置

        2.2 數(shù)據(jù)集

        由于本文的目標(biāo)是識(shí)別軍事命名實(shí)體,所以采集了一些軍事網(wǎng)站的相關(guān)報(bào)道作為標(biāo)注語料庫的原始語料,即生語料,然后對(duì)準(zhǔn)備好的生語料進(jìn)行標(biāo)注。本實(shí)驗(yàn)以字為單位進(jìn)行標(biāo)注,采用BIO標(biāo)注模式進(jìn)行標(biāo)注,將每個(gè)元素標(biāo)注為B-X、I-X和O。其中,B-X表示此字所在的詞語屬于X類型并且此字在此詞語的開頭,I-X表示此字所在的詞語屬于X類型并且此字在此詞語的非開始位置,O表示此字不屬于任何類型。本實(shí)驗(yàn)的軍事命名實(shí)體標(biāo)注見表2。

        表2 軍事命名實(shí)體標(biāo)注

        標(biāo)注完成后,生語料就標(biāo)注成了熟語料,數(shù)據(jù)分布情況見表3。

        表3 數(shù)據(jù)集劃分

        對(duì)于本文的命名實(shí)體識(shí)別而言,依照慣例引入P,R,F(xiàn)1評(píng)測指標(biāo)來評(píng)價(jià)試驗(yàn)結(jié)果如下:

        對(duì)于部隊(duì)、軍事地名、武器裝備和人名4類軍事命名實(shí)體基于BERT_IDCNN_CRF的軍事命名實(shí)體識(shí)別效果見表4。

        表4 基于BERT_IDCNN_CRF的各類軍事命名實(shí)體識(shí)別效果

        2.3 實(shí)驗(yàn)結(jié)果

        為驗(yàn)證BERT_IDCNN_CRF模型的有效性,本文對(duì)比了Bi LSTM_CRF,IDCNN_CRF,Lattice_LSTM_CRF等命名實(shí)體識(shí)別方法,實(shí)驗(yàn)結(jié)果見表5。

        表5 命名實(shí)體識(shí)別的對(duì)比結(jié)果

        基于BERT_IDCNN_CRF的軍事命名實(shí)體識(shí)別模型效果明顯優(yōu)于Bi LSTM_CRF、IDCNN_CRF、Lattice_LSTM_CRF,且F1值分別提升了4.84%、5.86%、1.63%,相比于傳統(tǒng)的詞向量表示方法,BERT效果更好。

        相較于其他的命名實(shí)體識(shí)別模型,基于BERT_IDCNN_CRF的軍事命名實(shí)體識(shí)別模型使用基于BERT的字向量生成模塊集合了文本的字特征、位置特征和句子特征,使用BERT微調(diào)機(jī)制進(jìn)行特征向量的生成,使用IDCNN模型,經(jīng)過卷積層提取特征,再經(jīng)過映射層連接到CRF層。

        基于CRF的編碼模塊,對(duì)序列進(jìn)行全局最優(yōu)的標(biāo)簽預(yù)測。使得識(shí)別效果超過其他3種模型。

        3 結(jié)束語

        本文通過分析軍事實(shí)體的數(shù)據(jù)特征,結(jié)合現(xiàn)有命名實(shí)體識(shí)別算法特點(diǎn),設(shè)計(jì)提出了基于BERT_IDCNN_CRF的軍事目標(biāo)命名實(shí)體識(shí)別模型,經(jīng)過對(duì)比,本文提出的模型在F1分?jǐn)?shù)上效果更優(yōu)。未來工作中,將嘗試提升部隊(duì)、軍事實(shí)體別名等命名實(shí)體的識(shí)別效果,以彌補(bǔ)現(xiàn)有模型的缺陷。

        猜你喜歡
        方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        學(xué)習(xí)方法
        可能是方法不對(duì)
        3D打印中的模型分割與打包
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        中文字幕美人妻亅u乚一596| 亚洲成人福利在线视频| 色多多性虎精品无码av| 欧美大屁股xxxxhd黑色| 亚洲AV永久天堂在线观看| 精品国产乱码一区二区三区 | 亚洲av中文aⅴ无码av不卡| 一区二区三区极品少妇| 国模冰莲极品自慰人体| 国产精品毛片无码| 天天中文字幕av天天爽| av在线不卡免费中文网| 日本丰满熟妇videossex一| 八区精品色欲人妻综合网| 国产精品自拍首页在线观看| 人妻少妇中文字幕,久久精品| 内射人妻少妇无码一本一道| 狠狠人妻久久久久久综合| 米奇亚洲国产精品思久久| 亚洲av乱码二区三区涩涩屋| 日韩人妻无码精品久久久不卡| 伊人22综合| 国产丝袜在线福利观看| 亚洲av福利院在线观看| 人妻丰满熟妇av无码区免| 久久久久久免费播放一级毛片| 国产在线精品成人一区二区三区| 麻豆av一区二区三区| 国产最新网站| 国产肥熟女视频一区二区三区| 国产日韩厂亚洲字幕中文| v一区无码内射国产| 狠狠干视频网站| 国产精品国产三级国产专区50| 亚州国产av一区二区三区伊在| 一卡二卡三卡视频| 亚洲妇女av一区二区| 漂亮人妻被强了完整版| 三级在线看中文字幕完整版| 激情 一区二区| 海外华人在线免费观看|