亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于 BERT?BiLSTM?CRF 的非法出入境筆錄文本提取模型

        2023-07-17 09:30:30郭婧婧李俊杰周衛(wèi)等
        計(jì)算機(jī)應(yīng)用文摘 2023年13期

        郭婧婧 李俊杰 周衛(wèi)等

        摘要:為提高非法出入境筆錄信息提取方面的命名實(shí)體識(shí)別能力,提出了一種融合語(yǔ)言模型的非法出入境筆錄信息提取模型。該模型首先利用BERT模型對(duì)輸入序列中的單詞進(jìn)行編碼,得到每個(gè)單詞的向量表示,然后將這些向量輸入到BiLSTM網(wǎng)絡(luò)中,利用LSTM網(wǎng)絡(luò)時(shí)輸入序列進(jìn)行建模,學(xué)習(xí)輸入序列中的上下文信息和語(yǔ)法結(jié)構(gòu)等。最后,通過(guò)一個(gè)CRF層對(duì)BiLSTM網(wǎng)絡(luò)的輸出進(jìn)行標(biāo)注.從而得到最終的輸出序列。實(shí)驗(yàn)結(jié)果表明,該模型能較好地應(yīng)用于非法出入境筆錄文本提取的任務(wù)。在與廣西邊防檢查總站的合作項(xiàng)目里,最終將該模型應(yīng)用于實(shí)際生產(chǎn)工作中,為邊檢警方的筆錄提取工作提供便利。

        關(guān)鍵詞:非法出入境筆錄文本;命名實(shí)體識(shí)別;BERT預(yù)訓(xùn)練語(yǔ)言模型;BiLSTM;CRF

        中圖法分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A

        1 引言

        廣西地處西南邊陲,與越南毗鄰,是中國(guó)對(duì)外開(kāi)放的“橋頭堡”,且擁有多個(gè)國(guó)家級(jí)和省級(jí)的對(duì)外開(kāi)放口岸。近年來(lái),越南和廣西之間的交流日益頻繁,但大規(guī)模、高頻次的跨境流動(dòng)人口中夾雜大量非法勞工,相關(guān)部門(mén)在對(duì)非法入境人員進(jìn)行立案時(shí),必須對(duì)被收容人的姓名、性別、國(guó)籍、民族、戶(hù)籍、學(xué)歷、身份證、手機(jī)等多項(xiàng)個(gè)人信息做詳細(xì)的記錄,而傳統(tǒng)的人工采集方式需要消耗大量人力物力,且效率低下。為解決上述問(wèn)題,本文通過(guò)廣西出入境邊防檢查總站提供的原始筆錄數(shù)據(jù)構(gòu)建非法出入境筆錄文本的命名實(shí)體識(shí)別語(yǔ)料庫(kù),提出了基于預(yù)訓(xùn)練模型的非法出入境筆錄信息提取模型,并取得了較好的效果。

        2 相關(guān)工作

        1996 年,R. Grishman 和B. Sundheim 在MessageUnderstanding Conference(MUC?6) 上提出了“命名實(shí)體”的概念,該概念被廣泛應(yīng)用于自然語(yǔ)言處理領(lǐng)域[1] 。早期的命名實(shí)體識(shí)別主要依賴(lài)于規(guī)則和詞典等手動(dòng)構(gòu)建的模板,與被識(shí)別的文檔進(jìn)行匹配以抽取實(shí)體。之后,基于特征工程和機(jī)器學(xué)習(xí)的方法成為主流,常用的方法包括最大熵[2] 、隱馬爾可夫模型[3] 、支持向量機(jī)[4] 和條件隨機(jī)場(chǎng)[5] 等。近年來(lái),命名實(shí)體識(shí)別中出現(xiàn)了越來(lái)越多的神經(jīng)網(wǎng)絡(luò)模型[6] ,例如LSTM 模型[7] ,在LSTM 的基礎(chǔ)上,研究人員引入條件隨機(jī)場(chǎng)來(lái)增強(qiáng)模型的約束條件,預(yù)訓(xùn)練模型也逐漸被廣泛應(yīng)用于命名實(shí)體識(shí)別領(lǐng)域,提高了中文實(shí)體識(shí)別的效果。

        國(guó)內(nèi)外對(duì)于非法出入境筆錄信息的命名實(shí)體研究較少,且可用的數(shù)據(jù)集稀缺,該領(lǐng)域的信息抽取問(wèn)題亟待解決,主要包括:(1)基于機(jī)器學(xué)習(xí)的實(shí)體識(shí)別方法對(duì)人工特征依賴(lài)驗(yàn)證,難以捕獲長(zhǎng)距離上下文信息;(2)目前專(zhuān)門(mén)針對(duì)筆錄信息提取領(lǐng)域的命名實(shí)體識(shí)別研究還十分稀少,也未構(gòu)建相應(yīng)的語(yǔ)料庫(kù);(3)筆錄信息中常包含特征相似的實(shí)體,如越南身份證號(hào)碼和越南手機(jī)號(hào)碼均為數(shù)字組成,且位數(shù)相同,對(duì)于存在相似特征的實(shí)體,會(huì)增加實(shí)體提取的難度。

        3 BERT?BiLSTM?CRF 模型

        本文將非法出入境筆錄文本作為原始語(yǔ)料,分段清洗后并對(duì)其進(jìn)行標(biāo)注。這些標(biāo)注數(shù)據(jù)被輸入到BERT?BiLSTM?CRF 模型中進(jìn)行實(shí)體識(shí)別。該模型由3 個(gè)部分組成。(1)BERT 預(yù)訓(xùn)練模型,用于提取文本的豐富特征,并表示為字向量。(2)BiLSTM 模型,通過(guò)雙向循環(huán)神經(jīng)網(wǎng)絡(luò)提取雙向文本信息,將上一層輸出的字向量輸入到BiLSTM 模型中得到雙向狀態(tài)序列,進(jìn)一步獲取數(shù)據(jù)隱藏層的高級(jí)特征。(3)CRF 模型,用于根據(jù)相鄰標(biāo)簽的概率關(guān)系獲得最優(yōu)標(biāo)注序列。結(jié)合CRF 中的狀態(tài)轉(zhuǎn)移矩陣對(duì)BiLSTM 模型的輸出序列進(jìn)行約束處理,根據(jù)相鄰標(biāo)簽信息得到一個(gè)全局最優(yōu)標(biāo)簽序列。通過(guò)將三者結(jié)合起來(lái),BERT?BiLSTM?CRF 模型可以獲得語(yǔ)義表示和序列信息的最佳結(jié)合。BERT?BiLSTM?CRF 模型架構(gòu)如圖1 所示。

        3.1 BERT

        BERT(Bidirectional Encoder Representations fromTransformers)是一種預(yù)訓(xùn)練語(yǔ)言模型,由J. Devlin 等在2018 年提出。其基于Transformer 架構(gòu),主要由2個(gè)部分組成:編碼器和多頭注意力機(jī)制。BERT 使用大量的文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)了語(yǔ)言中的上下文關(guān)系。在實(shí)際應(yīng)用中,BERT 可以將文本數(shù)據(jù)轉(zhuǎn)換為語(yǔ)義表示,并將這些表示作為上層模型的輸入,以解決各種自然語(yǔ)言處理任務(wù)。

        3.2 BiLSTM

        BiLSTM 是雙向LSTM 的縮寫(xiě),意味著該模型同時(shí)從正向和反向2 個(gè)方向讀取序列數(shù)據(jù)。雙向LSTM 的模型結(jié)構(gòu)如下所示:一個(gè)正向LSTM 層,讀取序列數(shù)據(jù)從左到右;一個(gè)反向LSTM 層,讀取序列數(shù)據(jù)從右到左;兩個(gè)LSTM 層的輸出連接在一起,作為最終的語(yǔ)義表示。

        3.3 CRF

        CRF(Conditional Random Fields)是一種用于標(biāo)記序列數(shù)據(jù)的生成模型。CRF 層利用序列的上下文信息和語(yǔ)法結(jié)構(gòu),對(duì)每個(gè)單詞的標(biāo)注結(jié)果進(jìn)行聯(lián)合建模,使得標(biāo)注結(jié)果不僅取決于當(dāng)前單詞的特征,還考慮了整個(gè)序列中標(biāo)注結(jié)果的一致性。

        4 數(shù)據(jù)集及參數(shù)指標(biāo)

        4.1 數(shù)據(jù)集

        本文采用的是自建數(shù)據(jù)集,所用的語(yǔ)料為廣西邊防檢查總站提供的非法出入境筆錄文本數(shù)據(jù),通過(guò)對(duì)筆錄文本數(shù)據(jù)進(jìn)行清洗分類(lèi),選取有效文本2 822 個(gè),通過(guò)分析筆錄文本數(shù)據(jù)的特點(diǎn),設(shè)置了9 種實(shí)體類(lèi)別,各類(lèi)實(shí)體的統(tǒng)計(jì)信息如表1 所列。

        4.2 參數(shù)指標(biāo)

        本文采用命名實(shí)體識(shí)別的3 個(gè)常用評(píng)價(jià)指標(biāo),即準(zhǔn)確率(P)、召回率(R)和F1 值。各項(xiàng)指標(biāo)的具體計(jì)算公式如式(1) ~式(3)所示:

        5 實(shí)驗(yàn)與分析

        5.1 實(shí)驗(yàn)環(huán)境

        實(shí)驗(yàn)采用的網(wǎng)絡(luò)架構(gòu)為Tensorflo,1.14.0, Python版本為3.7。本文模型參數(shù)設(shè)置如表2 所列。

        5.2 實(shí)驗(yàn)結(jié)果

        本文構(gòu)建數(shù)據(jù)集的標(biāo)注采用的是BIO 的方式,并將其分為訓(xùn)練集、測(cè)試集和驗(yàn)證集,占比分別為70%,15%,15%。模型識(shí)別結(jié)果如表3 所列。

        模型對(duì)于非法出入境筆錄信息中name,gender,birth,nation,education 的識(shí)別效果都達(dá)到了95% 以上,對(duì)country,IDnumber,PNumber,site 的識(shí)別效果都達(dá)到了80%以上。由于非法出入境的筆錄文本中部分被查獲人員的IDnumber 和PNumber 有缺失,導(dǎo)致數(shù)據(jù)量不足,因此實(shí)體識(shí)別存在一定難度。但在有限的數(shù)據(jù)樣本中,本文的模型結(jié)果仍能達(dá)到95%左右的識(shí)別水平。

        6 結(jié)束語(yǔ)

        本文針對(duì)非法出入境筆錄文本提取的專(zhuān)業(yè)領(lǐng)域分析,采用了BERT?BiLSTM?CRF 模型,并對(duì)其進(jìn)行命名實(shí)體識(shí)別,提取出筆錄文本中被查獲人的個(gè)人信息。實(shí)驗(yàn)結(jié)果表明,在自建的非法出入境筆錄文本數(shù)據(jù)集上,采用BERT?BiLSTM?CRF 模型表現(xiàn)良好,這為后續(xù)的筆錄信息分析提供了基礎(chǔ)。在未來(lái)的工作中,需要繼續(xù)完善數(shù)據(jù)集以提高模型的魯棒性,同時(shí)增加實(shí)體類(lèi)別的劃分,以平衡每個(gè)實(shí)體類(lèi)別的數(shù)量。

        參考文獻(xiàn):

        [1] GRISHMAN R, SUNDHEIM B M. Message understandingconference?6:A brief history[C] ∥COLING,1996 Volume1: The 16th International Conference on ComputationalLinguistics,1996,1:466?471.

        [2] BERGER A,DELLA PIETRA S A,DELLA PIETRA V J.Amaximum entropy approach to natural language processing[J].Computational linguistics,1996,22(1):39?71.

        [3] HU W, TIAN G, KANG Y, et al. Dual sticky hierarchicalDirichlet process hidden Markov model and its application tonatural language description of motions[J].IEEE transactionson pattern analysis and machine intelligence,2017,40(10):2355?2373.

        [4] CHEN P H,LIN C J,SCH?LKOPF B. A tutorial on ν ‐support vector machines[J]. Applied Stochastic Models inBusiness and Industry,2005,21(2):111?136.

        [5] LEE C,HWANG Y G,OH H J,et al. Fine?grained namedentity recognition using conditional random fields for questionanswering[ J]. Lecture notes in computer science, 2006,4182: 581?587.

        [6] COLLOBERT R, WESTON J, BOTTOU L, et al. Naturallanguage processing (almost) from scratch[J]. Journal ofmachine learning research, 2011, 12 ( ARTICLE): 2493?2537.

        [7] HAMMERTON J. Named entity recognition with long short?term memory[C]∥Proceedings of the seventh conference onNatural language learning at HLT?NAACL 2003,2003: 172?175.

        作者簡(jiǎn)介:

        郭婧婧(1996—),碩士,研究方向:自然語(yǔ)言處理。

        李俊杰(1984—),本科,研究方向:應(yīng)用系統(tǒng)研發(fā)( 通信作者)。

        加勒比av在线一区二区| 在教室伦流澡到高潮hgl视频| 亚洲日韩国产精品第一页一区| 无码一区二区三区不卡AV| 久久精品国产视频在热| 亚洲国产精品激情综合色婷婷| 国产禁区一区二区三区| 婷婷五月婷婷五月| 国产精品区一区第一页| 国产不卡视频一区二区在线观看 | 日韩一区av二区三区| 免费看又色又爽又黄的国产软件| 日本熟妇色xxxxx欧美老妇| 国产精品1区2区| 午夜一区二区在线视频| 91成人自拍在线观看| 国产色在线 | 日韩| 欧美性猛交内射兽交老熟妇| 久久久久久久尹人综合网亚洲| 久久精品国产亚洲av专区| 精品人妖一区二区三区四区| 一本久久a久久精品vr综合| 男女边吃奶边做边爱视频| 亚洲啊啊啊一区二区三区| 国产高潮迭起久久av| 色婷婷五月综合激情中文字幕| 99精品国产99久久久久久97| 亚洲成在人网av天堂| 长腿丝袜在线观看国产| 色哟哟亚洲色精一区二区| 国产免费人成视频在线观看| 女女同性黄网在线观看| 国内激情一区二区视频| 国产变态av一区二区三区调教| 天天狠天天添日日拍| 国内精品视频一区二区三区 | 亚洲精品色播一区二区| 日韩女优精品一区二区三区| 成人午夜性a级毛片免费| 在线观看无码一区二区台湾| 狼人综合干伊人网在线观看|