亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT-BiLSTM-CRF模型的中文實(shí)體識別①

        2020-07-25 09:06:30楊俊安
        關(guān)鍵詞:特征信息模型

        謝 騰,楊俊安,劉 輝

        (國防科技大學(xué) 電子對抗學(xué)院,合肥 230037)

        引言

        命名實(shí)體識別(Named Entity Recognition,NER)是自然語言處理的關(guān)鍵技術(shù)之一,同時也是作為知識抽取的一項(xiàng)子任務(wù),其主要作用就是從海量文本中識別出特定類別的實(shí)體,例如人名、地名、組織機(jī)構(gòu)名以及領(lǐng)域?qū)S性~匯等.中文命名實(shí)體識別是信息抽取、信息檢索、知識圖譜、機(jī)器翻譯和問答系統(tǒng)等多種自然語言處理技術(shù)必不可少的組成部分,在自然語言處理技術(shù)走向?qū)嵱没倪^程中占有重要地位.因此,命名實(shí)體識別作為自然語言處理最基礎(chǔ)的任務(wù),對它的研究則具有非凡的意義與作用.在中文實(shí)體識別任務(wù)中,其難點(diǎn)主要表現(xiàn)在以下幾個方面:(1)命名實(shí)體類型與數(shù)量眾多,而且不斷有新的實(shí)體涌現(xiàn),如新的人名、地名等;(2)命名實(shí)體構(gòu)成結(jié)構(gòu)較復(fù)雜,如組織機(jī)構(gòu)存在大量的嵌套、別名以及縮略詞等問題,沒有嚴(yán)格的命名規(guī)律;(3)命名實(shí)體識別常常與中文分詞、淺層語法分析等相結(jié)合,而這兩者的可靠性也直接決定命名實(shí)體識別的有效性,使得中文命名實(shí)體識別更加困難.因此,中文命名實(shí)體識別研究還存在很大的提升空間,有必要對其做進(jìn)一步的研究.

        1 相關(guān)工作

        命名實(shí)體識別從最早期開始,主要是基于詞典與規(guī)則的方法,它們依賴于語言學(xué)家的手工構(gòu)造的規(guī)則模板,容易產(chǎn)生錯誤,不同領(lǐng)域間無法移植.因此,這種方法只能處理一些簡單的文本數(shù)據(jù),對于復(fù)雜非結(jié)構(gòu)化的數(shù)據(jù)卻無能為力.隨后主要是基于統(tǒng)計機(jī)器學(xué)習(xí)的方法,這些方法包括隱馬爾可夫模型(HMM)、最大熵模型(MEM)、支持向量機(jī)(SVM)和條件隨機(jī)場(CRF)等.例如,彭春艷等人[1]就利用CRF結(jié)合單詞結(jié)構(gòu)特性與距離依賴性,在生物命名實(shí)體上取得較好的結(jié)果;鞠久朋等人[2]提出把CRF與規(guī)則相結(jié)合來進(jìn)行地理空間命名實(shí)體識別,該算法有效地提高了地理空間命名實(shí)體識別的性能;樂娟等人[3]提出基于HMM的京劇機(jī)構(gòu)命名實(shí)體識別算法,并且取得相當(dāng)不錯的效果.在基于機(jī)器學(xué)習(xí)的方法中,NER被當(dāng)作序列標(biāo)注問題,利用大規(guī)模語料來學(xué)習(xí)標(biāo)注模型.但是這些方法在特征提取方面仍需要大量的人工參與,且嚴(yán)重依賴于語料庫,識別效果并非很理想.近些年來,深度學(xué)習(xí)被應(yīng)用到中文命名實(shí)體識別研究上.基于深度學(xué)習(xí)的方法,是通過獲取數(shù)據(jù)的特征和分布式表示,避免繁瑣的人工特征抽取,具有良好的泛化能力.最早使用神經(jīng)網(wǎng)絡(luò)應(yīng)用到命名實(shí)體研究上是Hammerton 等人[4],他們使用單向的長短期記憶網(wǎng)絡(luò)(LSTM),該網(wǎng)絡(luò)具有良好的序列建模能力,因此LSTM-CRF成為了實(shí)體識別的基礎(chǔ)架構(gòu);后來在該模型的基礎(chǔ)上,Guillaume Lample 等人[5]提出雙向長短期記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory,BiLSTM)和條件隨機(jī)場(CRF)結(jié)合的神經(jīng)網(wǎng)絡(luò)模型,這種雙向結(jié)構(gòu)能夠獲取上下文的序列信息,因此在命名實(shí)體識別等任務(wù)中得到相當(dāng)廣泛的應(yīng)用,并且他們利用BiLSTM-CRF模型在語料庫CoNLL-2003 取得了比較高的F1值90.94%;Collobert 等人[6]就首次使用CNN與CRF結(jié)合的方式應(yīng)用于命名實(shí)體識別研究中,在CoNLL-2003上取得不錯的效果;Huang等人[7]在BiLSTM-CRF模型的基礎(chǔ)上融入人工設(shè)計的拼寫特征,在CoNLL-2003語料上達(dá)到了88.83%的F1值;Chiu和Nichols 等人[8]在LSTM模型前端加入CNN處理層,在CoNLL-2003語料庫上達(dá)到了91.26%的F1值;在生物醫(yī)學(xué)領(lǐng)域上,李麗雙等人[9]利用CNN-BiLSTM-CRF神經(jīng)網(wǎng)絡(luò)模型在Biocreative Ⅱ GM和JNLPBA2004語料上取得了目前最好的F1值,分別為89.09%和74.40%;在化學(xué)領(lǐng)域上,Ling Luo 等人[10]采用基于attention 機(jī)制的BiLSTMCRF模型,在BioCreative IV數(shù)據(jù)集上取得91.14%的F1值;Fangzhao Wu 等人[11]提出聯(lián)合分詞與CNNBiLSTM-CRF模型共同訓(xùn)練,增強(qiáng)中文NER模型實(shí)體識別邊界的能力,同時又介紹了一種從現(xiàn)有標(biāo)記數(shù)據(jù)中生成偽標(biāo)記樣本的方法,進(jìn)一步提高了實(shí)體識別的性能;秦婭等人[12]在深度神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上,提出一種結(jié)合特征模板的CNN-BiLSTM-CRF網(wǎng)絡(luò)安全實(shí)體識別方法,利用人工特征模板提取局部上下文特征,在大規(guī)模網(wǎng)絡(luò)安全數(shù)據(jù)集上F1值達(dá)到86%;武惠等人[13]聯(lián)合遷移學(xué)習(xí)和深度學(xué)習(xí)應(yīng)用到中文NER上,也取得了較好的效果;王紅斌[14]、王銀瑞[15]利用遷移學(xué)習(xí)來進(jìn)行實(shí)體識別,該方法相對監(jiān)督學(xué)習(xí)方法很大程度上減少了人工標(biāo)注語料的工作量;Dong 等[16]提出了Radical-BiLSTM-CRF模型使用雙向LSTM提取字根序列的特征,然后與字向量拼接組成模型的輸入;劉曉俊等人[17]利用基于attention 機(jī)制的DC-BiLSTMCRF模型在MSRA語料上F1值最高可達(dá)到92.05%;Zhang 等人[18]提出的Lattice LSTM模型,它顯式地利用了詞與詞序列信息,避免了分詞錯誤的傳遞,在MSRA語料上取得了較高的F1值93.18%;Liu 等人[19]提出WC-LSTM模型,把詞信息加入到整個字符的開頭或末尾,增強(qiáng)語義信息,在MSRA語料上取得了93.74%的F1值;王蕾等人[20]則是利用片段神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)特征的自動學(xué)習(xí),并在MSRA語料上取得90.44%的F1值.

        然而以上方法存在這樣的一個問題:這些方法無法表征一詞多義,因?yàn)樗鼈冎饕⒅卦~、字符或是詞與詞之間的特征提取,而忽略了詞上下文的語境或語義,這樣提取出來的只是一種不包含上下文語境信息的靜態(tài)詞向量,因而導(dǎo)致其實(shí)體識別能力下降.為解決該問題,谷歌團(tuán)隊(duì)Jacob Devlin 等人[21]所提出來一種BERT (Bidirectional Encoder Representation from Transformers)語言預(yù)處理模型來表征詞向量,BERT作為一種先進(jìn)的預(yù)訓(xùn)練詞向量模型,它進(jìn)一步增強(qiáng)詞向量模型泛化能力,充分描述字符級、詞級、句子級甚至句間關(guān)系特征,更好地表征不同語境中的句法與語義信息.Fábio Souza 等人[22]采用BERT-CRF模型應(yīng)用到Portuguese NER上,在HAREM I上取得最佳的F1值;Jana Straková等人[23]把BERT 預(yù)處理模型應(yīng)用到實(shí)體識別上,在CoNLL-2002 Dutch、Spanish和CoNLL-2003 English上取得相當(dāng)理想的效果.由于BERT具有表征一詞多義的能力,本文在此基礎(chǔ)上提出一種BERTBiLSTM-CRF神經(jīng)網(wǎng)絡(luò)模型,該模型首先利用BERT預(yù)訓(xùn)練出詞向量,再將詞向量輸入到BiLSTM做進(jìn)一步訓(xùn)練,最后通過CRF解碼預(yù)測最佳序列.實(shí)驗(yàn)結(jié)果表明,該模型在MSRA語料和人民日報語料庫上分別達(dá)到了94.65%和95.67%的F1值.

        本文的創(chuàng)新點(diǎn)主要有以下兩點(diǎn):① 將語言預(yù)訓(xùn)練模型BERT應(yīng)用到中文實(shí)體識別中,語言預(yù)訓(xùn)練是作為中文實(shí)體識別的上游任務(wù),它把預(yù)訓(xùn)練出來的結(jié)果作為下游任務(wù)BiLSTM-CRF的輸入,這就意味著下游主要任務(wù)是對預(yù)訓(xùn)練出來的詞向量進(jìn)行分類即可,它不僅減少了下游任務(wù)的工作量,而且能夠得到更好的效果;② BERT語言預(yù)訓(xùn)練模型不同于傳統(tǒng)的預(yù)訓(xùn)練模型,BERT預(yù)訓(xùn)練出來的是動態(tài)詞向量,能夠在不同語境中表達(dá)不同的語義,相較于傳統(tǒng)的語言預(yù)訓(xùn)練模型訓(xùn)練出來的靜態(tài)詞向量(無法表征一詞多義),在中文實(shí)體識別中具有更大的優(yōu)勢.

        2 BERT-BiLSTM-CRF模型

        2.1 模型概述

        近幾年來,對于實(shí)體識別的上游任務(wù)語言預(yù)處理而言,它一直是研究的熱點(diǎn)問題.而BERT作為先進(jìn)的語言預(yù)處理模型,可以獲取高質(zhì)量的詞向量,從而更有利于實(shí)體識別的下游任務(wù)進(jìn)行實(shí)體提取和分類.本文提出的BERT-BiLSTM-CRF模型整體結(jié)構(gòu)如圖1所示,這個模型主要分3個模塊.首先標(biāo)注語料經(jīng)過BERT 預(yù)訓(xùn)練語言模型獲得相應(yīng)的詞向量,之后再把詞向量輸入到BiLSTM模塊中做進(jìn)一步處理,最終利用CRF模塊對BiLSTM模塊的輸出結(jié)果進(jìn)行解碼,得到一個預(yù)測標(biāo)注序列,然后對序列中的各個實(shí)體進(jìn)行提取分類,從而完成中文實(shí)體識別的整個流程.

        圖1 BERT-BiLSTM-CRF模型框架

        本文模型最大的優(yōu)勢在于BERT語言預(yù)處理模型的應(yīng)用,它不再需要提前訓(xùn)練好字向量和詞向量,只需要將序列直接輸入到BERT中,它就會自動提取出序列中豐富的詞級特征、語法結(jié)構(gòu)特征和語義特征.Ganesh Jawahar 等人[24]對BERT模型的內(nèi)在機(jī)理做了進(jìn)一步的研究,指出對于BERT模型每一層學(xué)習(xí)到的特征是不盡相同的.BERT模型的底層主要是獲取短語級別的特征信息,中層主要是學(xué)習(xí)到句法結(jié)構(gòu)特征信息,頂層則是捕獲整個句子的語義信息,經(jīng)過BERT處理過后能夠獲得語境化的詞向量,對處理長距離依賴信息的語句有很好的效果.而對于傳統(tǒng)模型,它們主要集中在詞語或字符級別特征信息的獲取,而對于句法結(jié)構(gòu)以及語義信息很少涉及.可以看出BERT模型特征抽取能力明顯強(qiáng)于傳統(tǒng)模型.

        2.2 BERT模塊

        多年來,對語言模型的研究先后經(jīng)歷了one-hot、Word2Vec、ELMO、GPT到BERT,前幾個語言模型均存在一些缺陷,如Word2Vec模型訓(xùn)練出來的詞向量是屬于靜態(tài)Word Embedding,無法表示一詞多義;GPT 則是單向語言模型,無法獲取一個字詞的上下文.而對BERT模型而言,它是綜合ELMO和GPT 這兩者的優(yōu)勢而構(gòu)造出來的模型.Fábio Souza[22]利用BERT提取更強(qiáng)的句子語義特征來進(jìn)行命名實(shí)體識別,并取得相當(dāng)不錯的效果.由于BERT 具有很強(qiáng)的語義表征優(yōu)勢,本文就利用BERT 獲取語境化的詞向量來提高實(shí)體識別的性能.但是本文采取的BERT模塊與Fábio Souza[22]有不同之處:在對句子進(jìn)行前期處理時,他采用的是以字符為單位進(jìn)行切分句子.因此,這樣的分詞方式會把一個完整的詞切分成若干個子詞,在生成訓(xùn)練樣本時,這些被分開的子詞會隨機(jī)被Mask.而本文則按照中文的分詞習(xí)慣,于是將全詞Mask[25]的方法應(yīng)用到中文上,在全詞Mask中,如果一個完整的詞的部分被Mask,則同屬該詞的其他部分也會被Mask.具體如表1所示.

        表1 全詞Mask

        具體BERT模型結(jié)構(gòu)如圖2所示.

        圖2 BERT模型結(jié)構(gòu)

        對于任意序列,首先通過分詞處理得到分詞文本序列;然后對分詞序列的部分詞進(jìn)行全詞Mask,再為序列的開頭添加一個特殊標(biāo)記[CLS],句子間用標(biāo)記[SEP]分隔.此時序列的每個詞的輸出Embedding 由3部分組成:Token Embedding、Segment Embedding和Position Embedding.將序列向量輸入到雙向Transformer進(jìn)行特征提取,最后得到含有豐富語義特征的序列向量.

        對于BERT而言,其關(guān)鍵部分是Transformer結(jié)構(gòu).Transformer是個基于“自我注意力機(jī)制”的深度網(wǎng)絡(luò),其編碼器結(jié)構(gòu)圖如圖3所示.

        該編碼器的關(guān)鍵部分就是自注意力機(jī)制,它主要是通過同一個句子中的詞與詞之間的關(guān)聯(lián)程度調(diào)整權(quán)重系數(shù)矩陣來獲取詞的表征:

        其中,Q,K,V是字向量矩陣,dk是Embedding 維度.而多頭注意力機(jī)制則是通過多個不同的線性變換對Q,K,V進(jìn)行投影,最后將不同的Attention結(jié)果拼接起來,公式如式(2)和式(3):

        圖3 Transformer編碼器

        因此模型就可以得到不同空間下的位置信息,其中W是權(quán)重矩陣.

        由于Transformer 并沒有像RNN 一樣能夠獲取整個句子的序列能力,因此為解決這個問題,Transformer在數(shù)據(jù)預(yù)處理前加入了位置編碼,并與輸入向量數(shù)據(jù)進(jìn)行求和,得到句子中每個字的相對位置.

        而Transformer結(jié)構(gòu)中的全鏈接前饋網(wǎng)絡(luò)有兩層dense:第一層的激活函數(shù)是ReLU,第二層是一個線性激活函數(shù).如果多頭注意力機(jī)制的輸出表示為Z,b是偏置向量,則FFN(全鏈接前饋網(wǎng)絡(luò))可以表示為:

        2.3 BiLSTM模塊

        LSTM (Long-Short Term Memory,長短期記憶網(wǎng)絡(luò)),是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體.它解決了RNN 訓(xùn)練時所產(chǎn)生的梯度爆炸或梯度消失.LSTM 巧妙地運(yùn)用門控概念實(shí)現(xiàn)長期記憶,同時它也能夠捕捉序列信息.LSTM 單元結(jié)構(gòu)如圖4.

        LSTM的核心主要是以下結(jié)構(gòu):遺忘門、輸入門、輸出門以及記憶Cell.輸入門與遺忘門兩者的共同作用就是舍棄無用的信息,把有用的信息傳入到下一時刻.對于整個結(jié)構(gòu)的輸出,主要是記憶Cell的輸出和輸出門的輸出相乘所得到的.其結(jié)構(gòu)用公式表達(dá)如下:

        其中,σ是激活函數(shù),W是權(quán)重矩陣,b是偏置向量,zt是待增加的內(nèi)容,ct是t時刻的更新狀態(tài),it,ft,ot分別是輸入門、遺忘門及輸出門的輸出結(jié)果,ht則是整個LSTM 單元t時刻的輸出.

        圖4 LSTM 單元結(jié)構(gòu)

        由于單向的LSTM模型無法同時處理上下文信息,而Graves A 等人[26]提出的BiLSTM (Bidirectional Long-Short Term Memory,雙向長短期記憶網(wǎng)絡(luò)),其基本思想就是對每個詞序列分別采取前向和后向LSTM,然后將同一個時刻的輸出進(jìn)行合并.因此對于每一個時刻而言,都對應(yīng)著前向與后向的信息.具體結(jié)構(gòu)如圖5所示.其中輸出如以下式所示:

        圖5 BiLSTM模型結(jié)構(gòu)

        2.4 CRF模塊

        在命名實(shí)體識別任務(wù)中,BiLSTM 善于處理長距離的文本信息,但無法處理相鄰標(biāo)簽之間的依賴關(guān)系.而CRF 能通過鄰近標(biāo)簽的關(guān)系獲得一個最優(yōu)的預(yù)測序列,可以彌補(bǔ)BiLSTM的缺點(diǎn).對于任一個序列X=(x1,x2,···,xn),在此假定P是BiLSTM的輸出得分矩陣,P的大小為n×k,其中n為詞的個數(shù),k為標(biāo)簽個數(shù),Pij表示第i個詞的第j個標(biāo)簽的分?jǐn)?shù).對預(yù)測序列Y=(y1,y2,···,yn)而言,得到它的分?jǐn)?shù)函數(shù)為:

        A表示轉(zhuǎn)移分?jǐn)?shù)矩陣,Aij代表標(biāo)簽i轉(zhuǎn)移為標(biāo)簽j的分?jǐn)?shù),A的大小為k+2.預(yù)測序列Y產(chǎn)生的概率為:

        兩頭取對數(shù)得到預(yù)測序列的似然函數(shù):

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)集

        本文主要采用人民日報語料庫和MSRA語料作為實(shí)驗(yàn)的數(shù)據(jù)集,這兩個數(shù)據(jù)集是國內(nèi)公開的中文評測數(shù)據(jù)集.它們包含了3種實(shí)體類型,分別是人名、地名和組織機(jī)構(gòu).本實(shí)驗(yàn)主要對人名、地名以及組織機(jī)構(gòu)進(jìn)行識別評測.語料具體規(guī)模如表2所示.

        表2 語料規(guī)模介紹(單位:句)

        3.2 數(shù)據(jù)集標(biāo)注與評價指標(biāo)

        命名實(shí)體識別常用的標(biāo)注體系有BIO體系、BIOE體系以及BIOES體系,本文選用的是BIO體系,該體系的標(biāo)簽有7個,分別是“O”、“B-PER”、“I-PER”、“B-ORG”、“I-ORG”、“B-LOC”、“I-LOC”.

        本文采用召回率R、精確率P和F1值來評判模型的性能,各評價指標(biāo)的計算方法如下:

        式中,a是識別正確的實(shí)體數(shù),A是總實(shí)體個數(shù),B是識別出的實(shí)體數(shù).

        3.3 實(shí)驗(yàn)環(huán)境與實(shí)驗(yàn)參數(shù)配置

        3.3.1 實(shí)驗(yàn)環(huán)境配置

        本實(shí)驗(yàn)是基于Tensorflow平臺搭建,具體訓(xùn)練環(huán)境配置如表3所示.

        表3 訓(xùn)練環(huán)境配置

        3.3.2 實(shí)驗(yàn)參數(shù)配置

        訓(xùn)練過程中,采用Adam 優(yōu)化器,學(xué)習(xí)速率選取0.001.同時,還設(shè)置LSTM_dim為200,batch_size為64,max_seq_len為128.為防止過擬合問題,在BiLSTM的輸入輸出中使用Dropout,取值為0.5.具體超參數(shù)設(shè)定如表4所示.

        表4 參數(shù)設(shè)置

        3.4 實(shí)驗(yàn)結(jié)果

        為了對本文模型做出更加客觀的評價,本文分別對人民日報語料和MSRA語料進(jìn)行測評,具體實(shí)驗(yàn)結(jié)果如表5至表8所示(注:表中的BERT-BiLSTMCRF指的是全詞Mask下的BERT-BiLSTM-CRF).

        表5 人民日報語料測試結(jié)果(單位:%)

        表6 MSRA語料測試結(jié)果(單位:%)

        表7 訓(xùn)練時間(單位:s)

        表8 在MSRA語料測試的模型對比(單位:%)

        3.4.1 BERT-BiLSTM-CRF和傳統(tǒng)經(jīng)典神經(jīng)網(wǎng)絡(luò)模型的對比實(shí)驗(yàn)

        首先,比較LSTM-CRF和BiLSTM-CRF這兩者實(shí)驗(yàn)結(jié)果,后者的F1值在人民日報語料和MSRA語料上比前者分別高出3.09%、3.56%.從此可看出,BiLSTM能夠利用雙向結(jié)構(gòu)獲取上下文序列信息,因此效果要優(yōu)于LSTM.其次,比較BiLSTM與BiLSTM-CRF的實(shí)驗(yàn)結(jié)果,增加CRF模塊后,F1值在兩者語料上分別提高了5.04%、7.99%,這主要?dú)w因于CRF模塊能夠充分利用彼此相鄰標(biāo)簽的關(guān)聯(lián)性,像“B-PER I-ORG ···”這樣的標(biāo)簽序列無法有效地輸出,從而可以獲得全局最優(yōu)的標(biāo)簽序列,進(jìn)而能夠改善實(shí)體識別性能.隨后在BiLSTM-CRF的基礎(chǔ)上,引入BERT模型(原始Mask)進(jìn)行詞向量預(yù)處理,從實(shí)驗(yàn)的各項(xiàng)指標(biāo)來看,效果相當(dāng)理想,F1值高達(dá)94.74%、94.21%,同比BiLSTMCRF模型,F1值已經(jīng)提高了9.65%、9.17%.加入的BERT模型,該模型可以充分提取字符級、詞級、句子級甚至句間關(guān)系的特征,從而使預(yù)訓(xùn)練出來的詞向量能夠更好地表征不同語境中的句法與語義信息,進(jìn)而增強(qiáng)模型泛化能力,提高實(shí)體識別的性能.當(dāng)全詞Mask取代原始Mask的BERT時,在人民日報語料、MSRA語料上分別提高了0.93%、0.44%,說明其提取的特征能力更強(qiáng).

        此外,本文還對比分析了前20輪的F1值更新情況(以人民日報測試結(jié)果為例),如圖6所示.在訓(xùn)練初期,兩種BERT-BiLSTM-CRF模型就能夠達(dá)到一個較高的水平,并且會持續(xù)提升,最后保持在相當(dāng)高的水平上;而對于傳統(tǒng)經(jīng)典神經(jīng)網(wǎng)絡(luò)模型,在初期就處于一個相當(dāng)?shù)偷乃?只有經(jīng)過多次迭代更新才會上升到一個較高的水平,但還是無法超過BERT-BiLSTM-CRF模型.

        圖6 F1值更新情況

        同時也對比各模型訓(xùn)練一輪所需的時間(以人民日報測試結(jié)果為例),如表7所示.

        值得比較的是后兩個模型,BERT-BiLSTM-CRF(原始Mask)訓(xùn)練一輪的所需時間是本文模型的15倍左右,而且本文模型的訓(xùn)練時間在所有模型中是最少的,說明全詞Mask的BERT 具有更高的訓(xùn)練效率.

        3.4.2 BERT-BiLSTM-CRF和現(xiàn)有其他工作的對比

        從表8中可以看出,DC-BiLSTM-CRF模型利用DC-BiLSTM來學(xué)習(xí)句子特征,應(yīng)用自注意力機(jī)制來捕捉兩個標(biāo)注詞語的關(guān)系;Radical-BiLSTM-CRF模型使用雙向LSTM提取字根序列的特征,然后與字向量拼接組成模型的輸入;Lattice-LSTM模型則是把傳統(tǒng)的LSTM單元改進(jìn)為網(wǎng)格LSTM,然后顯式地利用詞與詞序信息,避免了分詞錯誤的傳遞;對于WC-LSTM而言,則是利用詞語信息加強(qiáng)語義信息,減少分詞錯誤的影響;片段神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)通過片段信息對片段整體進(jìn)行分配標(biāo)記,從而完成實(shí)體識別.這幾種改進(jìn)模型很大程度上提高了F1值.

        但是上述的改進(jìn)模型始終停留在對字符和詞語特征的提取,導(dǎo)致這些改進(jìn)模型有一定的局限性.例如,“南京市長江大橋”,這個短語可以理解為“南京市-長江大橋”,以也可以理解為“南京市長-江大橋”,然而上述的模型只能獲取其中的一種意思,無法同時表征兩種意思.而本文提出的BERT-BiLSTM-CRF模型能很好地解決這個問題.BERT是構(gòu)建于Transformer之上的預(yù)訓(xùn)練語言模型,它的特點(diǎn)之一就是所有層都聯(lián)合上下文語境進(jìn)行預(yù)訓(xùn)練.因此BERT模型網(wǎng)絡(luò)不僅可以學(xué)習(xí)到短語級別的信息表征以及豐富的語言學(xué)特征,而且也能夠?qū)W習(xí)到豐富的語義信息特征.對于上面的“南京市長江大橋”這個例子,BERT根據(jù)上下文不同的語境信息能夠準(zhǔn)確區(qū)分出這兩種意思.所以本文提出的BERT-BiLSTM-CRF與BERT-IDCNNCRF模型兩者相差不大,而本文模型的F1值在MSRA語料上達(dá)到了94.65%.通過對上述多種模型的對比分析,BERT-BiLSTM-CRF模型在所有模型中都表現(xiàn)出最佳的效果,說明BERT相比其他模型,其特征抽取能力更強(qiáng).

        4 結(jié)語

        針對中文實(shí)體識別任務(wù),本文通過BERT語言預(yù)處理模型獲得語境化的詞向量,再結(jié)合經(jīng)典神經(jīng)網(wǎng)絡(luò)模型BiLSTM-CRF,構(gòu)建BERT-BiLSTM-CRF模型.在人民日報語料庫和MSRA語料上分別進(jìn)行評測,相比其他模型,本文的BERT-BiLSTM-CRF模型在這兩者語料上都取得了最佳的結(jié)果.本文模型,其最大的優(yōu)勢在于BERT能夠結(jié)合上下文的語義信息進(jìn)行預(yù)訓(xùn)練,能夠?qū)W習(xí)到詞級別、句法結(jié)構(gòu)的特征和上下文的語義信息特征,使得該模型相比其他模型,具有更優(yōu)的性能.同時利用BiLSTM對詞向量做進(jìn)一步處理,再結(jié)合CRF的優(yōu)勢,進(jìn)一步提高了中文實(shí)體識別的效果.下一步工作可以考慮將其應(yīng)用到其他領(lǐng)域,進(jìn)行相應(yīng)的領(lǐng)域?qū)嶓w識別.

        猜你喜歡
        特征信息模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        如何表達(dá)“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        3D打印中的模型分割與打包
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        国产一级一片内射在线| 亚洲精品天堂成人片av在线播放| 精品一区二区三区免费播放| 日日摸夜夜欧美一区二区| 国产成人自拍小视频在线| 91偷自国产一区二区三区| 中文字幕日韩欧美一区二区三区 | 国产精品午夜高潮呻吟久久av | 我也色自拍俺也色自拍| 国99精品无码一区二区三区| 国产高清在线精品一区二区三区 | 97精品国产91久久久久久久 | 亚洲 欧美 激情 小说 另类| 熟女不卡精品久久av| 亚洲国产婷婷六月丁香| 丰满少妇高潮惨叫正在播放| 国产日韩欧美911在线观看| 亚洲国产高清一区av| 国产av熟女一区二区三区| 国产chinese男男gay视频网| 国产三级精品美女三级| 日本一区二区免费看片| 又黄又爽又无遮挡免费的网站| 八戒网站免费观看视频| 美女极度色诱视频国产免费| 亚洲国产区中文在线观看| 亚洲av无码乱码在线观看牲色| 久久久久亚洲精品天堂| 99日本亚洲黄色三级高清网站| 美女露出奶头扒开内裤的视频| 国产亚洲精品美女久久久| 首页动漫亚洲欧美日韩| 国产性感丝袜美女av| 免费在线观看视频播放| 日本aⅴ大伊香蕉精品视频 | 手机在线免费看av网站| 亚洲国产精品高清一区| 欧美成人片一区二区三区| 亚洲成a人网站在线看| av一区二区在线网站| 国产青榴视频在线观看|