亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的警情記錄關(guān)鍵信息自動(dòng)抽取

        2022-12-02 05:29:12崔雨萌王靖亞閆尚義陶知眾
        大數(shù)據(jù) 2022年6期
        關(guān)鍵詞:警情集上注意力

        崔雨萌,王靖亞,閆尚義,陶知眾

        中國人民公安大學(xué)信息網(wǎng)絡(luò)安全學(xué)院,北京 100038

        0 引言

        隨著基層公安機(jī)關(guān)對社會管控的增強(qiáng),群眾報(bào)案的手段從單一的電話報(bào)警擴(kuò)展到語音留言、短信、手機(jī)App和微信等,警方接收大量語音、文本等非結(jié)構(gòu)化信息。快速準(zhǔn)確地提取報(bào)警信息中的關(guān)鍵信息并進(jìn)行指揮調(diào)度成為公安機(jī)關(guān)亟須解決的業(yè)務(wù)痛點(diǎn)。因此,公安機(jī)關(guān)迫切地需要科技手段輔助提取出關(guān)鍵信息以便進(jìn)行快速地指揮調(diào)度。命名實(shí)體識別(named entity recognition,NER)是自然語言處理(natural language processing,NLP)的一個(gè)重要分支,它是信息提取、機(jī)器翻譯、信息檢索等技術(shù)的關(guān)鍵[1],也是處理和分析警情數(shù)據(jù)的基礎(chǔ)。命名實(shí)體識別主要負(fù)責(zé)對原始文本中具有特定意義的實(shí)體進(jìn)行提取和分類,然后將非結(jié)構(gòu)化的信息轉(zhuǎn)換成半結(jié)構(gòu)化或結(jié)構(gòu)化的信息,最后將信息提供給其他技術(shù),并用于特定領(lǐng)域[2]。在公安實(shí)戰(zhàn)中,命名實(shí)體識別可以從報(bào)警記錄中提取報(bào)警人姓名、案發(fā)地址、涉案機(jī)構(gòu)等實(shí)體,并將其應(yīng)用于后續(xù)的工作中,如管理涉疫人員、匹配出警單位、分析區(qū)域案件趨勢、多次報(bào)案提醒、累犯重犯記錄等。

        近年來,在深度學(xué)習(xí)的基礎(chǔ)上實(shí)現(xiàn)命名實(shí)體識別已成為主流,通過循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)或其他神經(jīng)網(wǎng)絡(luò)模型提取輸入文本的特征,通過非線性激活函數(shù)學(xué)習(xí)特征[2],然后通過條件隨機(jī)場(conditional random field,CRF)[3]求解最優(yōu)標(biāo)注序列。與英文不同,中文文本沒有明顯的詞邊界,依賴傳統(tǒng)的字符詞向量無法解決一詞多義問題,分詞方法也無法解決分詞錯(cuò)誤造成的傳遞錯(cuò)誤。因此,找到一種合適的中文分詞方法是實(shí)現(xiàn)中文警情命名實(shí)體識別任務(wù)的一個(gè)重要研究方向。此外,報(bào)警記錄的保密性和敏感性導(dǎo)致當(dāng)前缺少警情實(shí)體識別數(shù)據(jù)集,并且公安領(lǐng)域缺乏統(tǒng)一的標(biāo)注標(biāo)準(zhǔn),這極大地增加了本文實(shí)施的難度。

        鑒于以上問題,本文對中國某市公安局的300條、包括12 513個(gè)漢字的實(shí)際報(bào)警記錄進(jìn)行人工標(biāo)注,構(gòu)建標(biāo)準(zhǔn)化警情命名實(shí)體識別數(shù)據(jù)集PRD-PSB;并提出了一種融合自注意力機(jī)制(self-attention mechanism)和BERT-BiGRU-CRF的警情實(shí)體識別模型——BERT-BiGRU-SelfAtt-CRF。該模型引入BERT(bidirectional encoder representations from transformers)預(yù)訓(xùn)練模型來生成包含豐富語義信息的詞向量,使用BiGRU(bidirectional gated recurrent unit)來捕捉文本序列的時(shí)序特征和上下文語義,并融合了自注意力機(jī)制來挖掘文本間的潛在依賴關(guān)系,最后使用CRF完成序列標(biāo)注。在自行標(biāo)注的警情數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明,本模型的精確率(precision,P)、召回率(recall,R)和F1值(F1 value,F(xiàn)1)分別達(dá)到了82.45%、79.03%和80.72%,該模型的表現(xiàn)較其他基線模型更優(yōu)。

        1 相關(guān)工作

        在早期,命名實(shí)體識別主要是基于字典和規(guī)則的(如規(guī)則構(gòu)建或特征工程),但這些方法開銷較大且十分依賴具體知識庫。之后,命名實(shí)體識別逐漸發(fā)展成為基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法,其通常被轉(zhuǎn)化為序列標(biāo)注問題。傳統(tǒng)機(jī)器學(xué)習(xí)方法主要基于支持向量機(jī)(support vector machine,SVM)[4]、CRF[5-6]、隱馬爾可夫模型(hidden Markov model,HMM)[7-8]和最大熵(maximum entropy,ME)[9-10]。近年來,隨著詞嵌入技術(shù)的提出及算力的發(fā)展,神經(jīng)網(wǎng)絡(luò)能夠有效地處理多種命名實(shí)體識別任務(wù)。在深度學(xué)習(xí)的基礎(chǔ)上,神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練不再依靠傳統(tǒng)的特征工程或流水線模式,而是成為一個(gè)端到端的過程。這一特點(diǎn)使命名實(shí)體識別能夠適用于非線性轉(zhuǎn)換,節(jié)約成本開銷,并能夠構(gòu)建更復(fù)雜的網(wǎng)絡(luò)。

        隨著深度學(xué)習(xí)在命名實(shí)體識別各方面的廣泛使用,能夠獲取上下文相關(guān)信息的RNN模型也被應(yīng)用于該領(lǐng)域[11]。與RNN相比,長短期記憶(long short-term memory,LSTM)增強(qiáng)了序列記憶能力,并結(jié)合CRF組成LSTM-CRF架構(gòu),該架構(gòu)已被廣泛應(yīng)用于中文命名實(shí)體識別領(lǐng)域[12-15]。Huang Z H等人[16]提出用BiLSTM和CRF相結(jié)合的方式解決序列標(biāo)注問題,其中BiLSTM可以高效地使用過去和未來的輸入特征,CRF則確保模型可以利用句子級的標(biāo)簽信息。Chen Y等人[17]將基于詞特征的BiLSTM-CRF應(yīng)用于中文不良藥品實(shí)體提取,發(fā)現(xiàn)模型的平均F1值高達(dá)94.35%。李一斌等人[18]將基于BiGRU-CRF的識別方法應(yīng)用在中文包裝產(chǎn)品實(shí)體識別中,實(shí)驗(yàn)結(jié)果表明,該方法F1值最高可達(dá)81.40%,相較于傳統(tǒng)序列標(biāo)注結(jié)構(gòu)和RNN,有更高的準(zhǔn)確率和召回率。在人工神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,參考文獻(xiàn)[14-15]引進(jìn)了中文偏旁信息以提高識別準(zhǔn)確率,并且參考文獻(xiàn)[15,19-20]還采用了注意力機(jī)制來增強(qiáng)實(shí)體和標(biāo)簽之間的語義關(guān)系,進(jìn)一步優(yōu)化模型效果。

        除此之外,輸入數(shù)據(jù)應(yīng)轉(zhuǎn)換為計(jì)算機(jī)可以識別的格式,而且詞向量的訓(xùn)練和生成對整個(gè)模型提取效果有顯著影響。盡管傳統(tǒng)的獨(dú)熱編碼方式簡單,但產(chǎn)生的向量維度高且稀疏,并不能表達(dá)出詞之間的關(guān)系。Mikolov T等人[21]提出的基于分布表示的Word2vec是詞嵌入應(yīng)用的典型,但它不能解決一詞多義和詞的多層特征問題。在2018年被提出的BERT預(yù)訓(xùn)練語言模型[22]可以通過微調(diào)為大量任務(wù)提供高級模型,并且針對特定任務(wù),只需要新增一個(gè)輸出層,而不用對模型結(jié)構(gòu)進(jìn)行大量修改。在中文命名實(shí)體識別任務(wù)中,將BERT作為詞向量層可以出色地提取單詞之間的上下文關(guān)系,并為特定的子任務(wù)提供支持,因此它已被廣泛應(yīng)用于許多中文命名實(shí)體識別任務(wù)中[3,23-26]。

        2 模型構(gòu)建

        神經(jīng)網(wǎng)絡(luò)模型的實(shí)現(xiàn)和構(gòu)建需要綜合考慮警情文本的短文本性、中文詞語邊界的模糊性、實(shí)體語境的關(guān)聯(lián)性和警情實(shí)體識別的實(shí)時(shí)性等要求。本文以BiGRUCRF為基本框架,采用BERT預(yù)訓(xùn)練語言模型生成中文詞向量,并融合自注意力機(jī)制來增加上下文相關(guān)的語義信息,捕捉文本之間的潛在語義特征。BERT-BiGRUSelfAtt-CRF的基本架構(gòu)如圖1所示,整體提取模型可分為4層。首先,每個(gè)輸入的文字由3個(gè)詞嵌入共同表示,BERT層根據(jù)每個(gè)文字的3個(gè)詞嵌入的加和生成對應(yīng)的詞向量。之后,通過BiGRU層(前向GRU和后向GRU)模型可以更好地利用輸入的過去和未來的特征。然后,自注意力層可以加強(qiáng)對重要信息的捕捉,更好地獲取文本長距離依賴關(guān)系。最后,利用CRF層實(shí)現(xiàn)序列標(biāo)注,使模型學(xué)習(xí)到句子的約束條件,有效地利用句子級別的標(biāo)記信息。

        本文的目標(biāo)是從電子報(bào)警記錄中提取出報(bào)警人姓名、案發(fā)地點(diǎn)和涉案機(jī)構(gòu)3類警情實(shí)體。具體的流程如下。

        第一,對警情數(shù)據(jù)集進(jìn)行預(yù)處理。數(shù)據(jù)集R= {r1,r2,…,rn},其中R表示整個(gè)記錄數(shù)據(jù)集,第i個(gè)記錄ri由組成,wik表示第i個(gè)記錄中的第k個(gè)中文文字。

        第二,構(gòu)建警情訓(xùn)練數(shù)據(jù)集。在本文中,采用BIO標(biāo)記體系來標(biāo)注訓(xùn)練數(shù)據(jù)集,其實(shí)體類別數(shù)據(jù)集C={B-PER,I-PER, B-LOC,I-LOC,B-ORG,I-ORG,O}。標(biāo)記是針對字級別文本進(jìn)行的,訓(xùn)練數(shù)據(jù)集中的每一個(gè)漢字都用換行符分隔,然后用空格將漢字和對應(yīng)的標(biāo)注類別分隔。

        第三,訓(xùn)練BERT-BiGRU-SelfAtt-CRF模型。將已標(biāo)記的訓(xùn)練數(shù)據(jù)集Dtraining= {w1,w2,…,wn}輸入模型,其中wi表示訓(xùn)練數(shù)據(jù)集中的第i個(gè)中文文字。之后,輸出結(jié)果集合Ppredict={,,…,},其中ci表示第i個(gè)中文文字的預(yù)測類別。然后結(jié)合預(yù)定義標(biāo)注類別集合Pdefine,根據(jù)精確率、召回率和F1值,對模型進(jìn)行訓(xùn)練和調(diào)整。

        2.1 BERT層

        BERT是一種深度無監(jiān)督的雙向語言表示模型,在原始未標(biāo)注文本中,通過對上下文語境進(jìn)行共同條件化,對所有層進(jìn)行預(yù)訓(xùn)練[22]。如圖1所示,對于每個(gè)給定的漢字,BERT的輸入表示由3個(gè)詞嵌入部分的總和組成,即詞嵌入、段嵌入和位置嵌入。圖1中,Ei為位置嵌入,代表在輸入語句中的第i個(gè)位置;EA為段嵌入,A表示屬于第1句話。此外,Transformer采用了位置編碼方式,并加入編碼和嵌入數(shù)據(jù),從而加入相對位置信息。最終,BERT輸出生成的詞向量Xi。

        與傳統(tǒng)的單向語言模型或簡單地拼接兩個(gè)單向模型進(jìn)行預(yù)訓(xùn)練不同,BERT采用一種新的掩碼語言模型(masked language model,MLM)來生成深層雙向語言表征。此外,其采用深度雙向Transformer編碼器來構(gòu)建整個(gè)模型架構(gòu)。Transformer[27]采用了自注意力機(jī)制,以確保模型的并行計(jì)算能力,多頭自注意力機(jī)制(multi-head self-attention mechanism)使模型能夠捕獲更豐富的特征,還采用了殘差機(jī)制來保證計(jì)算兩個(gè)位置之間的相關(guān)性所需的操作不會隨著距離增加而增加。另外,在預(yù)訓(xùn)練階段,BERT采用了兩個(gè)訓(xùn)練任務(wù):MLM和下一句預(yù)測(next sentence prediction,NSP)。由于其龐大的參數(shù)和強(qiáng)大的特征提取能力,BERT可以有效地從大量的語料庫中學(xué)習(xí)到語義信息。

        2.2 BiGRU層

        GRU是原始RNN的一個(gè)改進(jìn)版本,旨在解決RNN中的梯度消失問題,并且由于其相似的基本概念,它也可以被視為LSTM的一個(gè)變體[28]。一般來說,為了保證重要信息在長期傳播過程中不會丟失,并解決標(biāo)準(zhǔn)RNN中的梯度消失問題,GRU和LSTM都使用多種門函數(shù)來保留關(guān)鍵特征。此外,GRU的結(jié)構(gòu)和組成比LSTM更加簡潔,因此其參數(shù)更少,訓(xùn)練速度更快。在單向GRU網(wǎng)絡(luò)中,狀態(tài)有規(guī)律地從前向后傳遞。然而,在警情實(shí)體識別領(lǐng)域,實(shí)體與其前后文本具有很強(qiáng)的關(guān)聯(lián)性。因此,本文試圖將當(dāng)前時(shí)間的輸出與未來的狀態(tài)結(jié)合起來。需要BiGRU來建立這些連接,BiGRU模型結(jié)構(gòu)如圖2所示。在BiGRU中,輸入將同時(shí)提供給兩個(gè)相反方向的GRU,輸出由兩個(gè)單向GRU共同決定。因此,BiGRU的當(dāng)前隱藏層狀態(tài)由3個(gè)部分決定:當(dāng)前時(shí)刻t輸入xt,t-1時(shí)刻前向隱藏層 狀 態(tài) 的輸出,t-1時(shí)刻后向狀態(tài)的輸出。相應(yīng)計(jì)算式如式(1)~式(3)所示。最終狀態(tài)ht將是從輸入的每個(gè)警情記錄文字提取出來的特征,bt表示t時(shí)刻隱藏層狀態(tài)的偏置。

        圖2 BiGRU模型結(jié)構(gòu)

        2.3 自注意力層

        注意力機(jī)制最早被應(yīng)用于視覺圖像領(lǐng)域,其思想來源于人類視覺注意力機(jī)制,即人類視覺在感知物體的時(shí)候會先將注意力放于某個(gè)特定最重要的部分。Bahdanau D等人[29]將注意力機(jī)制應(yīng)用于神經(jīng)機(jī)器翻譯模型,首次在自然語言處理領(lǐng)域引入了注意力機(jī)制。自注意力機(jī)制[30]屬于一種特殊的注意力機(jī)制,其將每一個(gè)詞都和文本內(nèi)部的所有詞進(jìn)行縮放點(diǎn)積注意力(scaled dot-product attention)計(jì)算,以捕獲文本內(nèi)部結(jié)構(gòu),學(xué)習(xí)內(nèi)部的依賴關(guān)系。縮放點(diǎn)積注意力計(jì)算式如式(4)所示,其中Q、K和V分別代表查詢矩陣、鍵矩陣和值矩陣,dK為輸入向量的維度。且在自注意力機(jī)制中,Q、K、V都等于BiGRU輸出的結(jié)果向量。

        單一自注意力機(jī)制的性能往往是有限的,因此本文所使用的自注意力機(jī)制是多頭自注意力機(jī)制。其是基于自注意力機(jī)制進(jìn)行改善的,通過多次計(jì)算,可以使模型從多個(gè)角度提取文本中的隱含依賴關(guān)系,在不同的表示子空間中學(xué)習(xí)到相關(guān)信息[27]。多頭自注意力機(jī)制的結(jié)構(gòu)如圖3所示,其中h代表多頭自注意力機(jī)制的頭數(shù),Q、K、V首先經(jīng)過h次不同參數(shù)的線性變換,然后分別輸入h個(gè)縮放點(diǎn)積注意力進(jìn)行計(jì)算,并將結(jié)果進(jìn)行拼接。最后,再進(jìn)行一次線性變換,得到多頭自注意力機(jī)制的輸出結(jié)果。計(jì)算式如式(5)和式(6)所示,其中i表示第i個(gè)頭。WiQ、WiK和WiV分別代表第i個(gè)頭中Q、K和V的參數(shù)矩陣,WO代表輸出時(shí)線性變化的參數(shù)矩陣。

        圖3 多頭自注意力機(jī)制的結(jié)構(gòu)

        2.4 CRF層

        在BiGRU層,對BiGRU網(wǎng)絡(luò)的最終隱藏狀態(tài)進(jìn)行拼接和計(jì)算,以獲得每個(gè)文字屬于各個(gè)標(biāo)簽的分?jǐn)?shù)。命名實(shí)體識別可以被視為序列標(biāo)記問題,如果沒有CRF層,直接選擇BiGRU層中得分最高的標(biāo)簽也是可以理解的。然而,BiGRU只考慮警情記錄中的上下文信息,而不考慮標(biāo)簽之間的依賴關(guān)系,因此無法保證能夠輸出有意義的標(biāo)簽序列。CRF[30]是一種判別式無向圖機(jī)器學(xué)習(xí)模型,其可以添加很多約束條件,以確保最終的預(yù)測是有價(jià)值的。CRF層的輸入是報(bào)警記錄序列x=(x1,x2,…,xt),輸出是最佳標(biāo)簽序列y=(y1,y2,…,yt)。首先,式(7)用于計(jì)算標(biāo)簽序列位置分?jǐn)?shù)。在式(7)中,P是BiGRU層的輸出矩陣,A是轉(zhuǎn)移分?jǐn)?shù)矩陣,其中Ai,j表示從標(biāo)簽i到標(biāo)簽j的轉(zhuǎn)移分?jǐn)?shù)。

        預(yù)測序列y的歸一化概率如式(8)所示。此外,對于每個(gè)訓(xùn)練樣本,將通過式(9)計(jì)算對數(shù)似然函數(shù)。

        最終,通過最大化對數(shù)似然函數(shù)和式(10)中的維特比算法,將得分最高的標(biāo)簽序列作為預(yù)測結(jié)果。

        3 實(shí)驗(yàn)

        3.1 實(shí)驗(yàn)環(huán)境

        在本文中,BERT-BiGRU-SelfAtt-CRF模型的開發(fā)語言是Python 3.7,該模型是在深度學(xué)習(xí)框架Tensorflow的基礎(chǔ)上實(shí)現(xiàn)的。硬件環(huán)境采用6核Intel Xeon E5-2620 v3 2.40 GHz CPU,64 GB RAM和Windows Server 2012 R2 64位操作系統(tǒng)。該模型相關(guān)參數(shù)設(shè)置見表1。

        表1 BERT-BiGRU-SelfAtt-CRF模型參數(shù)設(shè)置

        3.2 數(shù)據(jù)準(zhǔn)備

        本文的實(shí)驗(yàn)數(shù)據(jù)由兩組構(gòu)成。第一組是兩個(gè)公開數(shù)據(jù)集,目的是更全面地驗(yàn)證本模型在大數(shù)據(jù)集上的性能和可提升空間以及在不同領(lǐng)域上的泛化能力。其中一個(gè)公開數(shù)據(jù)集是北京大學(xué)根據(jù)1998年《人民日報(bào)》數(shù)據(jù)建立的語料庫,并從其中抽取出20 864條訓(xùn)練樣本、4 636條測試樣本和2 318條驗(yàn)證樣本;另一個(gè)數(shù)據(jù)集為微軟亞洲研究院提供的MSRA數(shù)據(jù)集[31],并從其中抽取46 364句文本組成訓(xùn)練集,抽取4 365句文本組成測試集。

        第二組是本文基于中國某市公安局的300條電子警情記錄進(jìn)行人工標(biāo)注而構(gòu)建的報(bào)警記錄數(shù)據(jù)集PRD-PSB,目的是驗(yàn)證本模型在警情領(lǐng)域小數(shù)據(jù)集上的可行性和可推廣性。由于在公安實(shí)戰(zhàn)中,不同城市的地名和機(jī)構(gòu)名存在很大的差異,因此在實(shí)際應(yīng)用中,部署模型前需要根據(jù)當(dāng)?shù)鼐橛涗涍M(jìn)行標(biāo)注和訓(xùn)練。而且,公安領(lǐng)域缺少標(biāo)準(zhǔn)的警情實(shí)體識別數(shù)據(jù)集和統(tǒng)一的實(shí)體數(shù)據(jù)標(biāo)注規(guī)范,在實(shí)體數(shù)據(jù)標(biāo)注中需要消耗很大的成本。因此,為了便于實(shí)戰(zhàn)應(yīng)用,本文在小規(guī)模警情數(shù)據(jù)集上進(jìn)行驗(yàn)證,雖然小規(guī)模語料訓(xùn)練會在一定程度上限制模型的表現(xiàn),但符合一線公安工作需求,便于各地普及應(yīng)用。而且,在小規(guī)模數(shù)據(jù)集上滿足基本實(shí)體提取需求后,各地公安機(jī)關(guān)前期只需要花費(fèi)很少的標(biāo)注成本就可以實(shí)際應(yīng)用此模型,并可以在后期針對性地對實(shí)體進(jìn)行擴(kuò)充。

        考慮報(bào)警信息文本的結(jié)構(gòu)、各實(shí)體出現(xiàn)的頻率以及實(shí)際警務(wù)工作的需要,將報(bào)警信息文本的內(nèi)容分為4類:報(bào)警人姓名、案發(fā)地址、涉案機(jī)構(gòu)和非實(shí)體。在模型訓(xùn)練之前,本文對數(shù)據(jù)進(jìn)行了預(yù)處理,包括去除非法字符、無效空格、無意義的換行符等。最終從300條電子警情記錄中篩選出395個(gè)句子和12 513個(gè)字。經(jīng)過統(tǒng)計(jì),PRDPSB數(shù)據(jù)集的非實(shí)體文字共8 290個(gè),中文實(shí)體文字共4 223個(gè),其中案發(fā)地址3 447個(gè)字,報(bào)警人姓名585個(gè)字,涉案機(jī)構(gòu)191個(gè)字。PRD-RSB數(shù)據(jù)集的占比分布如圖4所示。

        圖4 PRD-PSB數(shù)據(jù)集的占比分布

        接下來,處理過的數(shù)據(jù)被逐字標(biāo)記并分類到單獨(dú)的訓(xùn)練文本文檔中。其次,將所有數(shù)據(jù)按照8:1:1的比例拆分為訓(xùn)練、測試和驗(yàn)證集。警情數(shù)據(jù)標(biāo)注格式如圖5所示,數(shù)據(jù)按照這種格式進(jìn)行處理和標(biāo)注,文字之間用換行符分隔,文字和標(biāo)簽之間用空格分隔。本文采用BIO標(biāo)注方案,有7個(gè)標(biāo)簽:B-LOC、I-LOC、B-PER、I-PER、B-ORG、I-ORG和O。BIO機(jī)制各個(gè)標(biāo)簽的文本實(shí)例和含義見表2。

        表2 BIO機(jī)制實(shí)例

        圖5 警情數(shù)據(jù)標(biāo)注格式

        3.3 評價(jià)指標(biāo)

        在可靠性方面,本文將精確率、召回率和F1值作為評價(jià)指標(biāo)。此外,考慮到模型的性能和應(yīng)用價(jià)值,本文還統(tǒng)計(jì)了每個(gè)模型訓(xùn)練所消耗的時(shí)間。精確率和召回率均保持在較高水平是最理想的,但實(shí)際上,兩者在某些情況下是矛盾的。在不同的情況下,要判斷需要高準(zhǔn)確率還是高召回率。因此,評估方法中引入了F1值作為另一個(gè)評估指標(biāo),它同時(shí)考慮了準(zhǔn)確率和召回率,可以看作二者的加權(quán)平均值。

        4 結(jié)果與分析

        在實(shí)驗(yàn)階段,本模型對比了CNNLSTM、BiLSTM-CRF和BiGRU-CRF,測試了三者在公開數(shù)據(jù)集和PRD-PSB數(shù)據(jù)集上的性能。另外,實(shí)驗(yàn)部分還分別對比了Word2vec和BERT兩種詞嵌入方法對每個(gè)模型表現(xiàn)的影響以及引入自注意力機(jī)制的效果。表3展示了8個(gè)模型在公開數(shù)據(jù)集上的結(jié)果。很明顯,在大型公開數(shù)據(jù)集中,未引入自注意力機(jī)制的基線模型中,除CNN-LSTM之外,其余5個(gè)模型均表現(xiàn)優(yōu)良,且BiLSTM-CRF和BiGRU-CRF的3個(gè)評價(jià)指標(biāo)基本上高于其他模型。在F1值大致相同的情況下,BiGRU-CRF的時(shí)間成本遠(yuǎn)低于BiLSTM-CRF。雖然BiGRUCRF和BiLSTM-CRF在公開數(shù)據(jù)集上的評價(jià)指標(biāo)差別不大,但BiGRU-CRF的訓(xùn)練時(shí)間卻比BiLSTM-CRF縮短了153 min,原因可能是BiGRU的模型結(jié)構(gòu)比BiLSTM簡單,參數(shù)較少,因此BiGRU-CRF最適合公開數(shù)據(jù)集。因此,在BiGRU-CRF的基礎(chǔ)上,本文對比了自注意力機(jī)制的效果,但在語料規(guī)模較大的數(shù)據(jù)集中,自注意力機(jī)制的引入對模型的性能提升不是十分明顯。

        表3 在《人民日報(bào)》和MSRA數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

        表4描述了基于PRD-PSB數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果,由于PRD-PSB數(shù)據(jù)集的樣本量遠(yuǎn)小于公開語料庫,因此訓(xùn)練的時(shí)間大大降低。BERT的引入會極大地提高模型的性能,雖然加載BERT可能會花費(fèi)時(shí)間,但引入BERT后,模型可以以較短的訓(xùn)練周期獲得更出色的識別效果。另外,在小數(shù)據(jù)集上,自注意力機(jī)制能幫助模型更好地捕獲文本潛在的語義信息,在F1值方面,對BiGRU-CRF模型提升了2.23個(gè)百分點(diǎn),對BERT-BiGRU-CRF模型提升了2.86個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果顯示,在所有基線模型中,BERT-BiGRU-CRF的精確率、召回率和F1值最高,其時(shí)間成本也可以接受,僅需10個(gè)訓(xùn)練周期。因此,BERT-BiGRU-CRF是所有基線模型中最適合警情實(shí)體識別任務(wù)的。本文在此基礎(chǔ)上,引入自注意力機(jī)制構(gòu)建了BERT-BiGRU-SelfAtt-CRF模型,對模型的效果有了進(jìn)一步的提升。

        表4 在PRD-PSB數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

        圖6分別比較了在兩種數(shù)據(jù)集中引入自注意力機(jī)制對模型整體表現(xiàn)的影響。首先,如圖6(a)所示,在公開數(shù)據(jù)集上引入自注意力機(jī)制對模型效果的提升較為有限。結(jié)合表3可知,引入自注意力機(jī)制,BiGRU-CRF和BERT-BiGRU-CRF的F1值僅提高了0.07個(gè)百分點(diǎn)和0.06個(gè)百分點(diǎn)。這可能是由于大規(guī)模語料庫中存在大量樣本、豐富的語義信息和充足的詞特征,并且BERT在大量數(shù)據(jù)中可以有效地生產(chǎn)包含豐富語義的詞向量。因此,自注意力機(jī)制的幫助不是特別明顯。而由圖6(b)可知,在小規(guī)模的警情數(shù)據(jù)集上,引入自注意力機(jī)制的效果較為明顯。結(jié)合表4可知,BiGRU-CRF在引入自注意力機(jī)制后,F(xiàn)1值提高了2.23個(gè)百分點(diǎn)。對于BERT-BiGRU-SelfAtt-CRF模型,較引入自注意力機(jī)制之前,精確率、召回率和F1值分別提升了2.76個(gè)百分點(diǎn)、2.91個(gè)百分點(diǎn)和2.86個(gè)百分點(diǎn),并且精確率和F1值都提升到了80%以上。因此,當(dāng)模型被應(yīng)用于規(guī)模較小的數(shù)據(jù)集時(shí),引入自注意力機(jī)制是很有必要的,模型的整體表現(xiàn)都有較為明顯的提升,對警情實(shí)體識別任務(wù)有重要的意義。

        圖6 在數(shù)據(jù)集中引入自注意力機(jī)制對模型整體表現(xiàn)的影響

        本文基于PRD-PSB數(shù)據(jù)集,對3個(gè)模型進(jìn)行了訓(xùn)練,訓(xùn)練過程中未引入BERT的模型準(zhǔn)確率隨訓(xùn)練周期的變化如圖7(a)所示。綜合來看,BiGRU-CRF的準(zhǔn)確率最高,其次是BiLSTM-CRF,最后是CNNLSTM。因此,將BiGRU-CRF作為本文警情實(shí)體識別模型的基本架構(gòu)進(jìn)行改進(jìn)。此外,圖7(b)展示了在BiGRU-SelfAtt-CRF模型中引入BERT在30個(gè)訓(xùn)練周期對識別準(zhǔn)確率的影響。由圖7(b)可知,引入BERT后,模型可以在3個(gè)訓(xùn)練周期內(nèi)將模型準(zhǔn)確率快速提高到95%以上,而未引入BERT的模型則需要15個(gè)訓(xùn)練周期才能將準(zhǔn)確率穩(wěn)定在95%以上。并且,引入了BERT的模型,整體準(zhǔn)確率要更高。另外,根據(jù)圖6(b)及表4可知,在PRD-PSB數(shù)據(jù)集上,引入BERT可以將BiGRU-SelfAtt-CRF的F1值提高13.98個(gè)百分點(diǎn)。因此,在小規(guī)模的警情數(shù)據(jù)集上,引入BERT可以使模型的準(zhǔn)確率提高得更快,而且可以明顯優(yōu)化模型整體效果。

        圖7 在PRD-PSB數(shù)據(jù)集上引入BERT對模型準(zhǔn)確率變化的影響

        5 結(jié)束語

        為了準(zhǔn)確有效地提取電子報(bào)警記錄中的報(bào)警人姓名、案發(fā)地址和涉案機(jī)構(gòu),本文構(gòu)建了BERT-BiGRU-SelfAtt-CRF模型來完成報(bào)警信息的命名實(shí)體識別任務(wù)。此外,本文還比較了3種經(jīng)典的命名實(shí)體識別框架:CNN-LSTM、BiLSTM-CRF和BiGRU-CRF。在《人民日報(bào)》語料庫、MSRA和PRD-PSB數(shù)據(jù)集上,BiGRUCRF和BiLSTM-CRF具有相似的識別效果,并且比CNN-LSTM的效果更好。另外,本文還探究了引入BERT和自注意力機(jī)制對實(shí)驗(yàn)效果的影響。最終,本文通過實(shí)驗(yàn)得出如下結(jié)論。

        (1)在大規(guī)模公開數(shù)據(jù)集上,由于數(shù)據(jù)量充足,語義信息豐富,BERT并沒有提高模型性能,反而增加了時(shí)間成本。而在小規(guī)模警情數(shù)據(jù)集中,BERT能在很短的訓(xùn)練周期內(nèi)顯著提升各項(xiàng)指標(biāo)。在PRD-PSB數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,對于BiGRU-CRF模型來說,引入BERT將其F1值提高了13.35個(gè)百分點(diǎn)。因此,在數(shù)據(jù)集有限的情況下,BERT可以生成包含更豐富語義信息的詞向量,提高后續(xù)實(shí)體識別的性能。

        (2)類似地,自注意力機(jī)制也是在小規(guī)模警情數(shù)據(jù)集上的效果更加明顯。對于BERT-BiGRU-CRF模型來說,在PRDPSB數(shù)據(jù)集中引入自注意力機(jī)制后,精確率、召回率和F1值分別提升了2.76、2.91和2.86個(gè)百分點(diǎn)。多頭自注意力機(jī)制可以從多個(gè)方向、多個(gè)表示子空間中提取文本的隱藏依賴關(guān)系,捕捉文本結(jié)構(gòu),提高模型識別的表現(xiàn)。

        (3)BiGRU模型在保證BiLSTM模型效果的基礎(chǔ)上,結(jié)構(gòu)更加簡單,參數(shù)更少。本文模型采用BiGRU模型,能加快模型的收斂速度,降低時(shí)間成本,符合實(shí)際公安工作的需求。另外,本文提出的BERTBiGRU-SelfAtt-CRF模型在標(biāo)注體量有限的警情數(shù)據(jù)集上,實(shí)體提取的精確率和F1值都達(dá)到了80%以上,可以滿足公安實(shí)戰(zhàn)中的準(zhǔn)確率要求。并且在小規(guī)模警情數(shù)據(jù)集上進(jìn)行驗(yàn)證,可以證明模型的可行性,并證明在實(shí)戰(zhàn)部署中具備可推廣性,不需要消耗大量的標(biāo)注成本。此外,也在大規(guī)模的公開數(shù)據(jù)集上驗(yàn)證了此模型的性能,其各方面指標(biāo)都可以達(dá)到90%以上,可以泛化到不同領(lǐng)域,隨著數(shù)據(jù)集的增大,模型有提升的空間。

        綜上所述,BERT模型中的多頭自注意力機(jī)制與BiGRU模型中的雙向結(jié)構(gòu)保證了該模型能夠充分考慮報(bào)警信息中的上下文關(guān)系,解決中文詞邊界模糊的問題,從而增加實(shí)體提取準(zhǔn)確性。自注意力機(jī)制可以保證模型學(xué)習(xí)到文本內(nèi)部結(jié)構(gòu),捕獲文本中的長距離依賴關(guān)系。另外,BiGRU模型結(jié)構(gòu)簡單,參數(shù)較少,節(jié)約了模型的訓(xùn)練時(shí)間。最后,CRF層可以從實(shí)際訓(xùn)練數(shù)據(jù)中學(xué)習(xí)約束條件。在標(biāo)簽層面,其考慮了標(biāo)簽之間的順序,優(yōu)化了提取效果。該項(xiàng)目總體上能夠滿足公安實(shí)戰(zhàn)工作的需要,填補(bǔ)了當(dāng)前警務(wù)工作信息化的空白。

        但實(shí)際警情數(shù)據(jù)中也存在著各類實(shí)體比例不均衡等問題,在未來的工作中,筆者將在數(shù)據(jù)集方面豐富實(shí)體類別,著重增加稀疏實(shí)體數(shù)量。在模型方面,筆者將嘗試構(gòu)建更優(yōu)秀的深度學(xué)習(xí)模型來完成警情命名實(shí)體識別任務(wù),探索出效果更優(yōu)的模型。

        猜你喜歡
        警情集上注意力
        讓注意力“飛”回來
        Cookie-Cutter集上的Gibbs測度
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        復(fù)扇形指標(biāo)集上的分布混沌
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        不能吃的餃子
        派出所工作(2017年9期)2017-05-30 10:48:04
        “霉神”彥哥
        派出所工作(2017年9期)2017-05-30 10:48:04
        警情多,賴別人的嘴?
        派出所工作(2017年9期)2017-05-30 10:48:04
        A Beautiful Way Of Looking At Things
        警情支持系統(tǒng)之構(gòu)建研究
        国产精品美女久久久久av福利| 亚洲av中文字字幕乱码| 黄片国产一区二区三区| 高清毛茸茸的中国少妇| 国产白丝无码视频在线观看| 妺妺窝人体色www聚色窝韩国| 中文字幕一区二区在线看| 亚洲夫妻性生活免费视频| 国产涩涩视频在线观看| 免费无码中文字幕A级毛片| 性色av一区二区三区密臀av| 包皮上有一点一点白色的| 精产国品一二三产品蜜桃| 精品国产免费久久久久久| 翘臀诱惑中文字幕人妻| 久久成人成狠狠爱综合网| 女人扒开下面无遮挡| 国产亚洲精品不卡在线| 亚州av高清不卡一区二区| 无码人妻丰满熟妇区五十路| 亚洲av日韩精品久久久久久 | 精品国产乱码一区二区三区| 成人性生交大片免费入口| 欧洲精品免费一区二区三区| 无码国产精品第100页| 日韩人妻美乳中文字幕在线| 吃奶摸下高潮60分钟免费视频| 亚洲精品国产成人无码区a片| 2021年性爱喷水视频| 国产精品综合一区久久| 国产性生交xxxxx无码| 国产精品短视频| 国产精品视频白浆免费看| 欧洲熟妇色xxxx欧美老妇软件| 三上悠亚av影院在线看| 狠狠亚洲超碰狼人久久老人| 中文字幕人妻在线少妇| 激情第一区仑乱| 国产成人av在线影院无毒| 日韩一级精品视频免费在线看| 成人免费直播|