亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Bi-LSTM+CRF模型的航母情報實體識別方法應用

        2023-01-30 04:08:10許山山史涯晴
        計算機時代 2023年1期
        關鍵詞:情報信息編隊航母

        許山山,史涯晴

        (陸軍工程大學指揮控制工程學院,江蘇 南京 210007)

        0 引言

        互聯(lián)網(wǎng)快速發(fā)展,信息量劇增,開源情報分析面臨巨大挑戰(zhàn)和困難。自然語言處理的基礎任務之一是命名實體識別NER(Named Entity Recognition),從航母編隊信息中識別實體是基礎環(huán)節(jié),也是較難的環(huán)節(jié)。首先,航母情報信息的結構化數(shù)據(jù)不多,來自百科和新聞網(wǎng)站的半結構化、非結構化數(shù)據(jù)不能直接利用;其次,航母編隊可利用的已標注的數(shù)據(jù)集幾乎沒有。另外,航母編隊信息中包含軍事領域的專業(yè)名詞和表述,如艦艇領導者信息、艦艇指揮機構信息、航母戰(zhàn)斗群的任務記錄、航母艦載機信息等,直接將通用領域實體識別方法應用到艦船情報分析領域效果不佳。為了解決上述問題,本文構建了航母編隊實體識別語料庫,采用基于Bi-LSTM+CRF 實體識別算法,實現(xiàn)航母編隊情報信息的實體識別,輔助情報分析人員進一步挖掘和分析相關情報信息奠定基礎。

        1 航母信息實體識別

        命名實體的研究主要分為三大類。①基于詞典和規(guī)則的方法[1]。如果獲取的樣本數(shù)據(jù)較少,利用這種方法能夠提高精度和執(zhí)行效率,但是該方法過度依賴詞典規(guī)模及詞典覆蓋率,同時需要耗費巨大時間和精力生成規(guī)則[2]。②基于機器學習算法的方法[3-4]。常用的算法模型有條件隨機場CRF(Conditional Random Field)和支持向量機SVM(Support Vector Machine)等。③基于深度學習策略的方法[5-6]。通過大量數(shù)據(jù)支持,利用神經(jīng)網(wǎng)絡訓練,生成基于向量嵌入的特征表示,進而實現(xiàn)特定領域的實體識別。

        1.1 模型框架

        Bi-LSTM+CRF 模型方法綜合應用特征模板和神經(jīng)網(wǎng)絡,其中,Bi-LSTM 是常見的的循環(huán)神經(jīng)網(wǎng)絡,能夠解決中文“詞”在中文句子中的遠距離依賴問題;CRF(Conditional Random Field)是指條件隨機場模型,是一種鑒別式機率模型,可以利用之前標注過的標簽。該模型由三部分組成:輸入層、編碼層和預測層[7],如圖1所示。輸入層作用是對中文字符或詞語進行編碼,將文本向量化表示。編碼層作用是提取文本序列的抽象特征,尤其是字符或詞語的上下文聯(lián)系。雙向LSTM 包括前向LSTM 和反向LSTM,比單向LSTM 挖掘文本序列的整體隱含特征更加全面。預測層作用是處理編碼層的輸出,結合上下文向量的特征,輸出最終識別結果。

        圖1 Bi-LSTM+CRF模型

        1.2 Bi-LSTM結構

        LSTM 是一種基于RNN 的被廣泛使用模型,可以有效地解決順序標記問題[8]。LSTM 網(wǎng)絡引入門的策略解決反向傳播過程中的梯度消失等問題。圖2 是Bi-LSTM 的細胞單元結構示意圖[7]。在時刻t,xt是輸入向量,它是一個輸入字符的嵌入,ht-1是前一時刻的隱藏狀態(tài),神經(jīng)元權重W和偏差b是可訓練參數(shù),Γf、Γu、Γo分別表示t時刻的遺忘門、記憶門、輸出門。表示t時刻的單元狀態(tài)、其中σ(x)=、tanh=。LSTM 細胞單元計算存儲單元Ct和ht的過程如下:遺忘門決定應該丟棄多少先前的信息,0 表示全部丟棄,1 表示全部保留;記憶門決定應該向單元存儲器中添加多少信息,使用tanh函數(shù)可以更新臨時單元的狀態(tài)信息;t時刻的每個隱藏狀態(tài)Ct和ht都由輸出門決定。圖2中每個門結構的作用及數(shù)學表達式如表1所示。

        圖2 Bi-LSTM細胞單元結構

        表1 Bi-LSTM細胞單元結構數(shù)學表達式及門結構功能

        1.3 CRF結構

        由于不同文本屬于各個標簽結果的概率值計算相互獨立,CRF 解決局部標簽和上下文信息不會被歸一化函數(shù)計算的問題,通過融合相關標簽數(shù)據(jù),將附近標簽的相關性納入計算范圍,實現(xiàn)較為準確的標注。

        CRF 可以看作是一個線性鏈,給定一個詞序列,如下:

        CRF 標記在w中的每個符號,并輸出相應的標記序列,如下:

        定義一組K 個特征函數(shù)f(ti-1,ti,w,i),K 是特征函數(shù)的個數(shù),如下:

        i 是一個符號在句子w中的位置,yi是當前符號的標簽,yi-1是前一個符號的標簽,如果滿足特征函數(shù)的條件,則輸出為1,否則為0。利用特征函數(shù)對候選序列進行評分,最終得分是所有特征函數(shù)給出的得分之和:

        根據(jù)得分,選擇最可能的序列作為輸出序列,即最大概率序列。借助于歸一化因子Z,獲得每個候選序列的概率。因此,條件概率P(t|w)計算如下:

        通過學習,獲得最佳的權重λ,得到最佳的CRF,而CRF作為模型的輸出層,生成文本的序列標注結果。

        2 實驗數(shù)據(jù)

        2.1 數(shù)據(jù)集

        針對航母實體識別分析研究,本文使用的航母編隊的專項領域BIO 標注集的原始數(shù)據(jù)來自百度百科[9],軍事特定領域文本標注數(shù)據(jù)集中命名實體的類型共有四種:人名PER(Person)、地名LOC(Location)、機構名ORG(Organization)和裝備EQU(Equipment),非命名實體組成部分記為O。利用BIO 三元集的標注方法進行標注,B-PER:人名(開頭),I-PER:人名(非開頭),B-LOC:地點(開頭),I-LOC地點(非開頭),BORG:組織機構(開頭),I-ORG:組織機構(非開頭),B-EQU:裝備(開頭),I-EQU:裝備(非開頭)。本文通過改造通用領域BIO 標注集,構建的航母編隊專項領域BIO 標注集的數(shù)據(jù)規(guī)模,通用領域Train_data 數(shù)據(jù)集2220533 字符,Test_data 數(shù)據(jù)集177231 字符,航母編隊專項領域數(shù)據(jù)集Train_data 和Test_data 數(shù)據(jù)集108969字符。

        2.2 實驗評價標注與參數(shù)設置

        對于航母實體識別模型的識別效果,本文采用命名實體識別的通用測試指標正確率、召回率和F1值,定義如下:

        Bi-LSTM+CRF訓練模型的重要參數(shù),如表2所示。

        表2 訓練模型重要參數(shù)表

        3 實驗

        3.1 實驗設計

        為了驗證Bi-LSTM-CRF 方法對航母信息實體的識別能力,本文進行兩類實驗:實驗類型Ⅰ:Bi-LSTM+CRF 識別效果檢測;實驗類型Ⅱ:通用數(shù)據(jù)集和專用數(shù)據(jù)集實體識別對比。

        3.2 實驗結果分析

        3.2.1 實驗一:Bi-LSTM-CRF識別效果檢測

        圖3所示為模型訓練的總體情況,圖4至圖7分別所示EQU、LOC、ORG 及PER 四個類別的實體識別正確率(precision)、召回率(recall)和F1 值隨迭代次數(shù)(epoch)變化的曲線。根據(jù)曲線圖可以看出,在經(jīng)過32 輪(epoch)迭代之后,正確率(precision)、召回率(recall)和F1 值都相對穩(wěn)定在90%左右。對武器裝備類(EQU)實體的識別效果最好,達到95%以上;對人名(PER)實體的識別效果最差,僅85%左右。

        圖3 ALL結果圖

        圖4 EQU結果

        圖5 LOC結果

        圖6 ORG結果

        圖7 PER結果

        3.2.2 實驗二:通用數(shù)據(jù)集和專用數(shù)據(jù)集實體識別對比

        為了驗證Bi-LSTM+CRF 模型對航母情報的實體識別效果,本文訓練了兩個Bi-LSTM+CRF 模型。模型Ⅰ的訓練數(shù)據(jù)為通用領域的BIO 標注集,在此基礎上通過改造,形成模型Ⅱ的通用領域的BIO 標注集+航母編隊的專項領域BIO標注集。這兩個模型識別出的實體數(shù)和識別正確的實體數(shù),模型Ⅰ標注實體總數(shù)9977,返回實體總數(shù)9879,識別正確總數(shù)6665,模型Ⅱ標注實體總數(shù)9977,返回實體總數(shù)9760,識別正確總數(shù)9090。這兩個模型對于總體和分類別的實體識別正確率(precision)、召回率(recall)、F1 值和返回的實體數(shù)(found)的結果如表3所示。

        表3 不同模型針對不同類別實體識別結果

        通過表3 中數(shù)據(jù)對比,可得出以下結論:①在模型Ⅱ中,非實體被識別為實體和實體名稱識別不全的數(shù)量比模型Ⅰ有所減少;②在模型Ⅱ中,將實體類別識別錯誤的數(shù)量比模型Ⅰ少;③在模型Ⅱ中,沒有識別出B 標簽的情況比模型Ⅰ少;④在模型Ⅱ中,正確識別的實體數(shù)目明顯多于模型Ⅰ識別出的數(shù)目,特別是與航母密切相關的武器裝備類(EQU)實體。綜合以上實驗分析和結論,Bi-LSTM+CRF 航母實體識別模型的性能達到了預期目標。

        4 結束語

        基于改造的BIO 標注集,構建了航母情報信息中文實體識別語料庫,通過BI-LSTM+CRF 模型算法訓練出航母實體識別模型,實現(xiàn)了對航母情報信息的有效實體識別。實驗證明,Bi-LSTM+CRF 航母實體識別模型的性能可以達到預期目標,本研究有效提高了航母編隊情報信息領域命名實體識別的效率和正確率。在未來的研究中,將考慮實體間的關系抽取,為進一步實現(xiàn)提高航母情報分析能力和效率奠定堅實基礎。

        猜你喜歡
        情報信息編隊航母
        2023年1月25日,美軍一次演習期間,空軍正在進行編隊飛行
        軍事文摘(2023年5期)2023-03-27 08:56:26
        航母召喚,艦載機返航
        航母愛出糗
        基于事件驅動的多飛行器編隊協(xié)同控制
        我愛航母
        在航母上起飛
        學與玩(2017年3期)2017-02-16 07:04:58
        淺談新時期科技情報信息工作的重要性
        我國情報信息主導警務模式應用中的問題與對策探索
        基于情報信息的空防安全威脅評估回歸模型研究
        基于預測控制的無人機編隊內部避碰
        国产av一区二区三区在线播放 | 精品日本韩国一区二区三区| 国产在线视频一区二区三区不卡| 国产成人91久久麻豆视频| 成人做受视频试看60秒| 男女男在线精品网站免费观看| 在线无码免费看黄网站| av在线播放免费观看| 亚洲hd高清在线一区二区| 嫩草伊人久久精品少妇av| 天天躁夜夜躁狠狠躁2021a2| 久久久久亚洲av无码专区体验| 国产精品入口蜜桃人妻| 亚洲国产综合精品一区最新| 久久99精品久久久久久琪琪| 国精无码欧精品亚洲一区| 精品久久久久中文字幕APP| 丰满人妻一区二区乱码中文电影网| 国产少妇高潮在线视频| 欧美肥婆性猛交xxxx| 国精产品一品二品国在线| 国产精品欧美亚洲韩国日本| 无人视频在线播放免费| 亚洲a∨无码一区二区三区| 久久久久99精品成人片试看| 亚洲av偷拍一区二区三区| 美妇炮灰被狂躁爽到高潮h| 国产麻传媒精品国产av| 狠狠躁狠狠躁东京热无码专区| 国产91大片在线观看| 18禁裸体动漫美女无遮挡网站 | 国产午夜福利不卡在线观看视频| 在线观看国产精品自拍| 男女18视频免费网站| 毛片内射久久久一区| 久久久精品456亚洲影院| 自拍偷拍韩国三级视频| 亚洲国产精品无码久久| 欧美日韩中文制服有码| 99久久精品国产一区色| 亚洲av无码无线在线观看|