亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于BiLSTM-CRF紀(jì)檢監(jiān)察事件命名實(shí)體識(shí)別

2022-07-20 02:16:06陳俊杰劉曉玲

計(jì)算機(jī)仿真 2022年6期

樊昊，陳俊杰，高靜，劉曉玲

(1. 內(nèi)蒙古農(nóng)業(yè)大學(xué)計(jì)算機(jī)與信息工程學(xué)院，內(nèi)蒙古呼和浩特 010000；2. 內(nèi)蒙古自治區(qū)農(nóng)牧業(yè)大數(shù)據(jù)研究與應(yīng)用重點(diǎn)實(shí)驗(yàn)室，內(nèi)蒙古呼和浩特 010000)

1 引言

隨著我國(guó)經(jīng)濟(jì)的飛速發(fā)展以及人民日益增長(zhǎng)的美好生活需要，世界各領(lǐng)域都趨于自動(dòng)化與信息化。在紀(jì)檢監(jiān)察領(lǐng)域工作中有事件數(shù)據(jù)量較大、事件中蘊(yùn)含實(shí)體較多、事件涉及范圍較廣等特點(diǎn)，特別是紀(jì)檢監(jiān)察體制改革以來(lái)各類案件數(shù)量攀升，統(tǒng)計(jì)分析耗時(shí)耗力，導(dǎo)致辦案復(fù)雜度不斷升高，實(shí)時(shí)性和有效性的保證成為了一大難關(guān)。針對(duì)這一現(xiàn)存問(wèn)題，紀(jì)檢監(jiān)察領(lǐng)域?qū)崿F(xiàn)信息自動(dòng)化成為了國(guó)家法制體系邁入信息時(shí)代的必然趨勢(shì)，紀(jì)檢監(jiān)察領(lǐng)域的信息自動(dòng)化可為國(guó)家反腐敗提供了便利條件，可減輕有關(guān)人員的工作負(fù)擔(dān)，提高紀(jì)檢監(jiān)察工作的效率和質(zhì)量。

2 相關(guān)工作

命名實(shí)體識(shí)別(Named Entity Recognition，NER)是自然語(yǔ)言處理(Natural language processin g， NLP)中的一項(xiàng)基本任務(wù)[1]，起初在 MUC-6(Message Understan ding Conference)會(huì)議上被正式提出，在機(jī)器翻譯、問(wèn)答系統(tǒng)等方面具有重要意義[2]。其主要工作是從一段特定文本中識(shí)別出特定類型的實(shí)體(如人名，組織名，地名，時(shí)間等)。為了解決命名實(shí)體識(shí)別的問(wèn)題，從基于規(guī)則和詞典的方法[3]、到基于統(tǒng)計(jì)的方法，再到基于深度學(xué)習(xí)的方法[4]，國(guó)內(nèi)外已有大量的研究和深入的探討。

基于規(guī)則和字典的方法多采用人工方式，依據(jù)數(shù)據(jù)集特征，制定規(guī)則或者詞典。包括統(tǒng)計(jì)信息，標(biāo)點(diǎn)符號(hào)等性能。如Rau 等學(xué)者[5]用人工制定的規(guī)則與啟發(fā)式想法相結(jié)合，實(shí)現(xiàn)了自動(dòng)抽取公司名稱類型的命名實(shí)體。

基于統(tǒng)計(jì)的方法對(duì)特征選擇有很高的要求。需要從文本中選擇影響任務(wù)的各種特征，并將這些特征添加到特征向量中[6]。目前常用的統(tǒng)計(jì)模型包括隱馬爾可夫模型(Hidden Markov Mode，HMM)[7，8]，支持向量機(jī)(Support Vector Ma-chine，SVM)[7]，最大熵模型(Maxm-ium Entr-opy)[9]等，周曉輝[10]使用HMM方法進(jìn)行法律命名實(shí)體識(shí)別，在地名和組織名上比在斯坦福NER上有所提高。Collins等[11]人使用MEM模型來(lái)進(jìn)行命名體識(shí)別任務(wù)，并對(duì)于MEM模型中參數(shù)如何修改、估計(jì)等問(wèn)題，提出了解決方法；McCallum等[12]首先使用CRF模型應(yīng)用在命名實(shí)體識(shí)別任務(wù)，該模型實(shí)現(xiàn)方法簡(jiǎn)單，識(shí)別快速。

基于深度學(xué)習(xí)的方法將神經(jīng)網(wǎng)絡(luò)引入進(jìn)行命名體識(shí)別任務(wù)[13]。Huang[14]運(yùn)用雙向長(zhǎng)短期記憶模型結(jié)合條件隨機(jī)場(chǎng)(BilSTM-CRF)，在基準(zhǔn)標(biāo)注數(shù)據(jù)集進(jìn)行識(shí)別任務(wù)，取得了較好的效果。Guillaume Lample等[15]使用基于LSTM-CRF的識(shí)別模型，結(jié)合詞向量的表示方式，在英語(yǔ)、荷蘭語(yǔ)、德語(yǔ)以及西班牙語(yǔ)上都取得了較好的識(shí)別結(jié)果。武惠[16]等人使用遷移學(xué)習(xí)模型，在特定的小數(shù)據(jù)集上，其機(jī)構(gòu)名準(zhǔn)確率、召回率和F值與其他方法比較取得了較好的效果。

為解決紀(jì)檢監(jiān)察領(lǐng)域命名實(shí)體識(shí)別問(wèn)題，提出一種基于BiLSTM-CRF深度學(xué)習(xí)模型進(jìn)行紀(jì)檢監(jiān)察事件的命名實(shí)體識(shí)別，并構(gòu)建了紀(jì)檢監(jiān)察事件語(yǔ)料庫(kù)為數(shù)據(jù)集，使用BIOES序列標(biāo)注方法標(biāo)記該數(shù)據(jù)集的實(shí)體并與其他模型比較，實(shí)驗(yàn)結(jié)果表明文中提出的模型在紀(jì)檢監(jiān)察領(lǐng)域?qū)嶓w識(shí)別上是有效的。

3 BiLSTM-CRF模型的構(gòu)建

3.1 模型整體架構(gòu)

本文構(gòu)建的紀(jì)檢監(jiān)察命名實(shí)體識(shí)別模型如圖1。該模型主要包括：字符級(jí)輸入層、BiLSTM隱藏層、CRF層。首先將輸入語(yǔ)句按照字符拆分進(jìn)行輸入，再將字符轉(zhuǎn)化為向量作為模型的輸入，通過(guò)隱藏層進(jìn)行特征信息提取，最后通過(guò)條件隨機(jī)場(chǎng)進(jìn)行輸出結(jié)果得到模型最終的輸出結(jié)果。

圖1 BiLSTM-CRF模型結(jié)構(gòu)圖

3.2 Embedding層

Embedding層主要是負(fù)責(zé)將輸入窗口的字進(jìn)行字向量映射，也就是將離散字符映射到分布式表示中。首先將已標(biāo)注好的語(yǔ)料進(jìn)行簡(jiǎn)單的預(yù)處理(去除多余的字符)，然后采用初始化了一個(gè)隨機(jī)矩陣n*d，n是矩陣的長(zhǎng)，即字典的大小，d是用來(lái)表示字典中每個(gè)元素的屬性向量的維數(shù)，形成的n*d向量矩陣作為模型的輸入。

3.3 BiLSTM層

LSTM 是 RNN 的一種改變類型，可以學(xué)習(xí)長(zhǎng)期依賴信息，通過(guò)門(mén)的設(shè)計(jì)來(lái)避免長(zhǎng)期依賴問(wèn)題，將記住信息進(jìn)行傳遞。LSTM 結(jié)構(gòu)如圖2。

圖2 LSTM結(jié)構(gòu)圖

ft=σ(Wf[ht-1，xt]+bf)

(1)

it=σ(Wf[ht-1，xt]+bi)

(2)

(3)

(4)

ot=σ(Wo[ht-1，xt]+bo)

(5)

ht=ot*tanh(ct)

(6)

由式(1)～(6)計(jì)算后，可以得到與句子長(zhǎng)度相同的隱層狀態(tài)序列{h0，h1，…h(huán)n-1}。BiLSTM神經(jīng)網(wǎng)絡(luò)模型是將兩個(gè)LSTM進(jìn)行前后向傳遞，最終將兩個(gè)隱狀態(tài)序列進(jìn)行拼接，這樣既可以接收到前邊的信息，又能兼顧到后面句子的信息，可以使得效果更好。

3.4 CRF層

為了解決從BiLSTM模型中輸出的標(biāo)簽序列可能無(wú)效的問(wèn)題，提出將CRF模型連接在BiLSTM模型的輸出之后，對(duì)BiLSTM模型輸出的標(biāo)簽序列進(jìn)行解碼，進(jìn)行句子級(jí)的序列標(biāo)注，而不是單獨(dú)解碼每個(gè)標(biāo)簽。

CRF模塊可以通過(guò)從訓(xùn)練集學(xué)習(xí)到一些約束，以確保最終預(yù)測(cè)到的實(shí)體標(biāo)簽序列是有效的，從而解決基于神經(jīng)網(wǎng)絡(luò)方法的預(yù)測(cè)標(biāo)簽序列可能無(wú)效的問(wèn)題。在CRF模塊的損失函數(shù)中，輸出分?jǐn)?shù)最大的序列為標(biāo)簽預(yù)測(cè)序列，假設(shè)給定序列X，設(shè)序列標(biāo)注結(jié)果為y，則定義分?jǐn)?shù)為

(7)

其中，P是BiLSTM模塊隱層輸出經(jīng)線性操作后得到的初始得分矩陣，A是轉(zhuǎn)換得分矩陣。Ai，j為標(biāo)簽i后面接標(biāo)簽j的概率，Pi，j為詞Wi映射到標(biāo)簽j的概率。對(duì)輸入序列X對(duì)應(yīng)的輸出標(biāo)簽序列y計(jì)算分?jǐn)?shù)，最終的預(yù)測(cè)標(biāo)簽序列為得分最高的序列。

4 實(shí)驗(yàn)及結(jié)果分析

4.1 數(shù)據(jù)集構(gòu)建

4.1.1 數(shù)據(jù)語(yǔ)料說(shuō)明

本文實(shí)驗(yàn)所用的紀(jì)檢監(jiān)察數(shù)據(jù)為爬取的中央紀(jì)委國(guó)家監(jiān)委網(wǎng)站內(nèi)各省市的“審查調(diào)查”欄的黨政違紀(jì)處分文本。

4.1.2 實(shí)體類別說(shuō)明

本文對(duì)3646條紀(jì)檢監(jiān)察數(shù)據(jù)進(jìn)行實(shí)體標(biāo)注識(shí)別工作，在實(shí)體類別上，設(shè)定三種實(shí)體：

1)人名

在每條紀(jì)檢監(jiān)察數(shù)據(jù)中，會(huì)涉及到犯罪嫌疑人、行賄受賄人等姓名信息，是整個(gè)事件中是主體，是該事件的最基本信息。

2)立案組織機(jī)構(gòu)名

立案組織機(jī)構(gòu)是事件中涉事嫌疑人的定罪機(jī)構(gòu)，如“遼寧省紀(jì)委監(jiān)委”等，該組織機(jī)構(gòu)反映該事件的有關(guān)案件審理，鑒定，移交，處理等流程信息。

3) 處分名

處分名包含如“開(kāi)除黨籍”、“開(kāi)除公職”等實(shí)體名，是涉事嫌疑人經(jīng)過(guò)立案機(jī)構(gòu)監(jiān)察調(diào)查后，得到的由立案機(jī)構(gòu)的處理結(jié)果。

4.1.3 數(shù)據(jù)標(biāo)注過(guò)程與統(tǒng)計(jì)

4.1.3.1 數(shù)據(jù)標(biāo)注過(guò)程

數(shù)據(jù)標(biāo)注采用原始標(biāo)注的方法，將3646條數(shù)據(jù)中的每個(gè)文字進(jìn)行標(biāo)注，采用五標(biāo)記BIOES標(biāo)注，其中字符B(Begin)代表一個(gè)實(shí)體的開(kāi)始，I(Intermediate)代表一個(gè)實(shí)體的中間部分，E(End)代表一個(gè)實(shí)體的尾部，S(Signal)代表單個(gè)字符，O(Other)代表無(wú)關(guān)字符。標(biāo)注數(shù)據(jù)樣式如圖3。

圖3 語(yǔ)料標(biāo)注模式

4.1.3.2 數(shù)據(jù)統(tǒng)計(jì)

從中央紀(jì)委國(guó)家監(jiān)委網(wǎng)站獲取各省市紀(jì)檢監(jiān)察數(shù)據(jù)3646條，共計(jì)109.7萬(wàn)字。原始語(yǔ)料標(biāo)注見(jiàn)表1。

表1 原始語(yǔ)料標(biāo)注情況

實(shí)體標(biāo)注數(shù)量如下表2。

表2 實(shí)體標(biāo)注情況

4.2 評(píng)測(cè)指標(biāo)

本文涉及的命名實(shí)體識(shí)別任務(wù)有三類，需要進(jìn)行單個(gè)類別和整體系統(tǒng)性能的評(píng)估，采用準(zhǔn)確率(Precision，P)、召回率(Recall，R)、F值(F-score)作為命名實(shí)體識(shí)別性能的評(píng)價(jià)指標(biāo)。

它們的計(jì)算公式分別如表3、式(8)、(9)、(10)。

表3 混淆矩陣分類表

準(zhǔn)確率公式如下

(8)

召回率公式如下

(9)

F值公式如下

(10)

4.3 實(shí)驗(yàn)結(jié)果及分析

4.3.1 Val＿loss值隨迭代次數(shù)對(duì)比

從圖4、5中可知，在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練初期，各個(gè)模型的初始loss值較高，隨著迭代次數(shù)的增加 loss值逐漸減小，最終loss值達(dá)到一個(gè)很小的數(shù)值，并處于一個(gè)很小范圍浮動(dòng)的狀態(tài)，表明各個(gè)模型具有較好的訓(xùn)練學(xué)習(xí)效果。

圖4 BiLSTM模型迭代次數(shù)對(duì)Val＿loss值影響

圖5 BiLSTM-CRF模型迭代次數(shù)對(duì)Val＿loss值影響

4.3.2 每個(gè)標(biāo)簽上的F1值進(jìn)行對(duì)比

從圖6可以看出，人名和組織機(jī)構(gòu)名兩種實(shí)體預(yù)測(cè)的F值低于處分名實(shí)體，主要原因是因?yàn)樘幏置^為有結(jié)構(gòu)，不存在大量縮略詞，名稱嵌套等干擾信息，且出現(xiàn)的位置也較為固定，而人名和組織機(jī)構(gòu)名有大量縮略詞。因此，在預(yù)測(cè)中處分名F值高于人名和組織機(jī)構(gòu)名約1.5個(gè)百分點(diǎn)。

圖6 BiLSTM模型與BiLSTM-CRF模型各類實(shí)體F值

4.3.3 兩模型標(biāo)簽P，R，F(xiàn)值對(duì)比

由表4可以看出，BiLSTM-CRF模型F值略高于BiLSTM模型F值，說(shuō)明CRF學(xué)習(xí)的轉(zhuǎn)移矩陣起了一定的作用，使其標(biāo)簽之間的聯(lián)系更加密切，充分利用序列的整體信息，但二者差別不大，究其原因可能是因?yàn)榧o(jì)檢監(jiān)察的語(yǔ)料少，使CRF的轉(zhuǎn)移矩陣不能很好的學(xué)習(xí)到；有些實(shí)體會(huì)出現(xiàn)在文本固定的位置，即文本存在結(jié)構(gòu)性，使模型可以精準(zhǔn)預(yù)測(cè)到，其次可能是識(shí)別的實(shí)體種類過(guò)少，造成兩模型性能差別不大。

表4 BiLSTM與BiLSTM-CRF評(píng)測(cè)指標(biāo)

5 紀(jì)檢監(jiān)察命名實(shí)體識(shí)別系統(tǒng)的開(kāi)發(fā)

5.1 中文命名實(shí)體平臺(tái)在線演示系統(tǒng)的設(shè)計(jì)

系統(tǒng)設(shè)計(jì)流程如圖7。

圖7 系統(tǒng)設(shè)計(jì)流程圖

5.2 中文命名實(shí)體平臺(tái)在線演示系統(tǒng)的實(shí)現(xiàn)

首先進(jìn)入登陸界面，輸入用戶名，密碼，驗(yàn)證成功后方可進(jìn)入首頁(yè)，如下圖8、9。

圖8 中文命名體識(shí)別平臺(tái)登陸界面

圖9 中文命名體識(shí)別平臺(tái)主頁(yè)

在左側(cè)導(dǎo)航欄選擇命名體識(shí)別按鈕后，會(huì)跳轉(zhuǎn)到識(shí)別界面，在上方文本框中輸入待識(shí)別文本，然后點(diǎn)擊中間的“立即提交”按鈕，有關(guān)這個(gè)案例的所有命名體被識(shí)別出來(lái)并且顯示在下方的文本框中。或者點(diǎn)擊中間上傳文件，可以上傳案例事件，點(diǎn)擊中間“上傳”按鈕，有關(guān)文本文件中事件的命名實(shí)體都會(huì)顯示在下方文本框中，輸出界面如圖10。

圖10 系統(tǒng)輸出界面

6 結(jié)論與展望

本文提出了基于 BiLSTM-CRF的紀(jì)檢監(jiān)察領(lǐng)域命名實(shí)體識(shí)別模型。模型在實(shí)驗(yàn)數(shù)據(jù)集上取得了較好的效果，平均準(zhǔn)確率達(dá)到了99.63% 。隨著深度學(xué)習(xí)理論的快速發(fā)展，對(duì)命名實(shí)體識(shí)別的研究也會(huì)越來(lái)越深入。本文提出的模型在很多地方需要繼續(xù)改進(jìn)并爭(zhēng)取更進(jìn)一步的提高，對(duì)于后續(xù)的改進(jìn)工作，主要可以從以下方面嘗試：

1)數(shù)據(jù)集的規(guī)模較小，且實(shí)體類型少，下一步將進(jìn)行實(shí)體類別擴(kuò)充，可以考慮地名、時(shí)間、依據(jù)條例等實(shí)體進(jìn)行識(shí)別。

2)進(jìn)一步地修正數(shù)據(jù)集標(biāo)注是提高模型訓(xùn)練效果的有效方法。

3)后期可以加入注意力機(jī)制或建立該領(lǐng)域的詞典提升命名體識(shí)別準(zhǔn)確率。