亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Bert-BLSTM-CRF模型的中文命名實(shí)體識(shí)別

        2021-03-14 12:26:26王遠(yuǎn)志曹子瑩
        關(guān)鍵詞:命名實(shí)體向量

        王遠(yuǎn)志,曹子瑩

        (安慶師范大學(xué)計(jì)算機(jī)與信息學(xué)院,安徽安慶246133)

        命名實(shí)體識(shí)別(Named Entity Recognition,NER)是自然語言文本數(shù)據(jù)處理工作中的一項(xiàng)基礎(chǔ)且至關(guān)重要的環(huán)節(jié)[1],其在信息的查詢和抽取、智能問答以及機(jī)器翻譯等領(lǐng)域均有廣泛應(yīng)用。

        隨著計(jì)算機(jī)硬件的迅速發(fā)展,神經(jīng)網(wǎng)絡(luò)能夠有效地處理命名實(shí)體識(shí)別任務(wù)。與統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法相比,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法擁有較低的人工依賴性和較強(qiáng)的泛化性[2],得到了NLP(Natural Language Processing)領(lǐng)域研究者的廣泛關(guān)注。Collobert等[3]提出采用CNN(Convolutional Neural Networks)與CRF(Conditional Random Field)相結(jié)合的方法進(jìn)行命名實(shí)體識(shí)別研究,獲得了較好的實(shí)體識(shí)別結(jié)果。馬建紅等[4]采用基于Attention的雙向長短期記憶網(wǎng)絡(luò)BLSTM(Bidirectional Long Short-Term Memory)與CRF相結(jié)合實(shí)現(xiàn)了新能源汽車專利文本實(shí)體的識(shí)別。Huang等[5]將BLSTM和CRF應(yīng)用于NLP的基準(zhǔn)標(biāo)注數(shù)據(jù)集,減少了對(duì)字詞嵌入的依賴并提高了準(zhǔn)確率。Li等[6]在生物學(xué)文本研究中采用了基于條件隨機(jī)場(chǎng)的BLSTM神經(jīng)網(wǎng)絡(luò)模型,識(shí)別出了不規(guī)則的實(shí)體,準(zhǔn)確率達(dá)81.09%。

        采用BLSTM模型能夠解決當(dāng)前機(jī)器學(xué)習(xí)中存在的人工標(biāo)注特征和領(lǐng)域知識(shí)依賴性較強(qiáng)的問題。但是,在BLSTM模型輸出的結(jié)果中,會(huì)存在詞的標(biāo)注結(jié)果分散的情況,這導(dǎo)致識(shí)別結(jié)果無法形成合理的標(biāo)注序列,因此添加CRF層作為BLSTM輸出的解碼層。CRF可以更好地關(guān)注預(yù)測(cè)結(jié)果,優(yōu)化標(biāo)注序列。采用BLSTM模型和CRF模型相結(jié)合的方法能夠有效提高命名實(shí)體識(shí)別的準(zhǔn)確率。

        中文與英文最大的不同點(diǎn)是中文有字和詞的區(qū)別,因此在中文NER中有3種識(shí)別方案,分別為關(guān)于字的、關(guān)于詞的、關(guān)于字和詞結(jié)合的命名實(shí)體識(shí)別。He等[7]通過對(duì)命名實(shí)體識(shí)別中的基于字級(jí)別和基于詞級(jí)別的研究和對(duì)比,得到了基于詞的NER方法沒有基于字的NER方法的識(shí)別效果好。因此,一些研究人員,如Chen等[8]在基于神經(jīng)網(wǎng)絡(luò)的中文NER模型中使用了基于字的NER方法,Xu等[9]為了融合分詞信息把分詞和命名實(shí)體識(shí)別結(jié)合訓(xùn)練,Peng等[10]通過將分詞信息作為soft feature來增強(qiáng)識(shí)別效果。

        難以表達(dá)字的多義性是目前中文命名實(shí)體識(shí)別方法中存在的最大問題,為此,研究者提出了采用預(yù)訓(xùn)練語言模型的新方法,此方法中的詞表示既可以包含多樣化的句法和語義,又可以對(duì)多義詞進(jìn)行建模。Bert預(yù)訓(xùn)練語言模型具有強(qiáng)健的表義能力。因此,本文在命名實(shí)體識(shí)別研究中采用Bert預(yù)訓(xùn)練語言模型,并在此基礎(chǔ)上提出Bert-BLSTM-CRF網(wǎng)絡(luò)結(jié)構(gòu)。

        1 Bert-BLSTM-CRF模型

        本文提出的模型由Bert、BLSTM和CRF三個(gè)模塊構(gòu)成,模型框架如圖1所示。待識(shí)別句子首先輸入到Bert模塊層進(jìn)行預(yù)訓(xùn)練,然后將輸出的字向量序列輸入到BLSTM模塊中做語義編碼處理,最后將BLSTM層的輸出結(jié)果送入CRF層,計(jì)算出最優(yōu)化的標(biāo)簽序列。與其他傳統(tǒng)的深度學(xué)習(xí)命名實(shí)體識(shí)別方法相比,引入Bert預(yù)訓(xùn)練語言模型是最主要的不同之處。Bert-BLSTM-CRF模型是在大量語料上學(xué)習(xí)研究得到的,它能夠根據(jù)字的上下文信息計(jì)算出字的向量表示,可以表征字的多義性,增強(qiáng)句子的語義表示。

        圖1 基于Bert-BLSTM-CRF的NER模型

        1.1 Bert預(yù)訓(xùn)練語言模型

        Bert模型于2018年由Devlin等[11]提出。圖2是Bert模型的結(jié)構(gòu)圖,模型使用雙向Transformer作為編碼器預(yù)訓(xùn)練深度雙向表示,這一點(diǎn)與其他語言表示模型不同。該模型還提出了兩種新的無監(jiān)督預(yù)測(cè)任務(wù),即“Masked語言模型”和“下一句預(yù)測(cè)”任務(wù),并對(duì)兩個(gè)任務(wù)的結(jié)果進(jìn)行結(jié)合,前者是用來獲取詞級(jí)別的表示,后者是用來獲取句子級(jí)別的表示。

        圖2 Bert預(yù)訓(xùn)練語言模型

        為了能夠訓(xùn)練深度雙向表征,“Masked語言模型”使用一個(gè)比較直白的方法,即隨機(jī)蓋住輸入token的部分詞語,然后讓編碼器預(yù)測(cè)被蓋住的token的原始詞。實(shí)驗(yàn)的訓(xùn)練樣本由隨機(jī)遮蓋句子中15%的詞組成,其中:(1)采用masked token標(biāo)記來替換的概率為80%;(2)采用隨機(jī)采樣的一個(gè)詞來替換的概率為10%;(3)不做替換的概率為10%。

        “下一句預(yù)測(cè)”使Bert預(yù)訓(xùn)練語言模型具有學(xué)習(xí)待識(shí)別句子之間關(guān)系的能力,采用預(yù)訓(xùn)練一個(gè)二值化的模型來實(shí)現(xiàn)。自然語言推斷和問答等NLP任務(wù)都需要對(duì)句子之間的關(guān)系進(jìn)行理解,“下一句預(yù)測(cè)”利用上一個(gè)句子對(duì)隨機(jī)替換的句子進(jìn)行IsNext/NotNext的預(yù)測(cè)來學(xué)習(xí)句子之間的關(guān)系。

        雙向Transformer是基于注意力機(jī)制來對(duì)一段文本進(jìn)行建模,摒棄了RNN(Recurrent Neural Network)的循環(huán)式網(wǎng)絡(luò)結(jié)構(gòu),是Bert最關(guān)鍵的部分,其編碼單元如圖3所示。

        圖3 Transformer編碼單元

        自注意力部分是Transformer編碼單元最重要的模塊,其基本原理是算出一句話中所有詞與這句話中每個(gè)詞彼此之間的關(guān)聯(lián)性及重要程度。每個(gè)詞新的表示就可以根據(jù)這些關(guān)聯(lián)性和重要程度來獲得,如下式所示:

        其中Q、K、V均是輸入字向量矩陣,dk為輸入向量維度。

        Transformer模型中的自注意力機(jī)制增加了傳統(tǒng)自注意力機(jī)制沒有的多頭自注意力機(jī)制來擴(kuò)大注意力單元的“表示子空間”,提高模型專注于不同位置的能力,如下式:

        此外,Transformer編碼單元中還加入了殘差網(wǎng)絡(luò)和層歸一化來處理深度學(xué)習(xí)中的退化問題,如下式:

        時(shí)序特征在自然語言處理中是一個(gè)很關(guān)鍵的特征,Transformer添加時(shí)序信息解決自注意力機(jī)制不能抽取時(shí)序特征的問題,通過使用位置嵌入的方法完成,如下式所示:

        Bert的輸入表示為每個(gè)詞對(duì)應(yīng)的詞向量、segment向量、位置向量相加。與其他語言模型相比較,Bert預(yù)訓(xùn)練語言模型可以對(duì)詞前后兩側(cè)的信息進(jìn)行充分利用,得到更佳的詞分布式表征。

        1.2 雙向長短期記憶網(wǎng)絡(luò)BLSTM

        (a)LSTM單元

        LSTM是一種改進(jìn)的RNN,由Hochreiter和Schmidhuber[12]于2014年提出,LSTM模型有效地解決了傳統(tǒng)RNN存在的梯度消失問題,并實(shí)現(xiàn)了對(duì)長距離信息的有效利用。LSTM網(wǎng)絡(luò)結(jié)構(gòu)由三個(gè)稱之為“門”的控制單元和一個(gè)記憶單元構(gòu)成。輸入門(input gate)、輸出門(output gate)和遺忘門(forget gate)是LSTM網(wǎng)絡(luò)結(jié)構(gòu)中的三個(gè)門。輸入門決定什么樣的信息會(huì)被保留,遺忘門則決定什么樣的信息會(huì)被遺棄,輸出門決定有多少信息可以輸出。LSTM能夠記憶長期依賴的關(guān)鍵是輸入門和遺忘門。記憶單元的功能是對(duì)信息進(jìn)行管理和保存,其核心思想是學(xué)習(xí)LSTM單元中三個(gè)門的參數(shù)來管理記憶單元中的信息,使有用的信息經(jīng)過較長的序列也能保存在記憶單元中。圖4是LSTM的單元結(jié)構(gòu)圖。

        圖4 LSTM單元結(jié)構(gòu)圖

        從圖4可以看到,在t時(shí)刻LSTM單元的輸入由三個(gè)部分組成,分別為:記憶單元ct-1,上一個(gè)單元的隱含層ht-1和輸入層xt。隱含層ht和記憶單元ct構(gòu)成了t時(shí)刻該單元的輸出。

        t時(shí)刻隱含層的計(jì)算流程:先算出輸入門、輸出門和遺忘門的信息,再計(jì)算出記憶單元內(nèi)的信息,最后由輸出門和記憶單元的值計(jì)算得到該時(shí)刻隱含層的值。具體計(jì)算如下:

        式(8)中的σ是激活函數(shù)sigmod,tanh是雙曲正切激活函數(shù),it是輸入門,ft是遺忘門,ot是輸出門,xt是當(dāng)前的單元輸入,W和b分別代表三個(gè)門的權(quán)重矩陣和偏置向量,ct表示記憶單元的狀態(tài),c~t表示t時(shí)刻的狀態(tài),是由當(dāng)前輸入取得的中間狀態(tài),主要作用是更新當(dāng)前時(shí)刻的狀態(tài),ht為t時(shí)刻的輸出。

        (b)BLSTM模型

        LSTM只獲得了待識(shí)別文本中的上文信息,而下文信息對(duì)于NER任務(wù)也有非常重要的參考意義。BLSTM是在LSTM的基礎(chǔ)上優(yōu)化而來,其在NLP領(lǐng)域的序列標(biāo)記任務(wù)上具有非常突出的表現(xiàn)[13]。因此,為了同時(shí)獲取上下文信息,本文使用雙向LSTM進(jìn)行模型訓(xùn)練,其結(jié)構(gòu)如圖5所示。

        圖5 BLSTM結(jié)構(gòu)

        圖5中,xt表示模型在t時(shí)刻的輸入數(shù)據(jù);矩形框中的LSTM為式(8)所描述的模型;和正向的LSTM與反向的LSTM在t時(shí)刻的輸出,直接組合與得到為BLSTM在t時(shí)刻的輸出表示。BLSTM最終的輸出由過去的隱藏信息和將來的隱藏信息兩部分共同構(gòu)成。

        1.3 條件隨機(jī)場(chǎng)

        條件隨機(jī)場(chǎng)是2001年由Lafferty等[14]提出的一種典型的判別式模型。鑒于BLSTM層輸出的結(jié)果會(huì)存在一些沒有意義的字符,不會(huì)考慮到標(biāo)簽之間存在的依賴關(guān)系,而CRF模型能夠合理地考慮到上下文信息之間存在的依賴關(guān)系,所以采用BLSTM與CRF相結(jié)合的模型不僅能夠融合上下文信息,而且能夠合理地考慮到相鄰標(biāo)簽之間存在的依賴關(guān)系,保證最終的識(shí)別結(jié)果是正理的。

        CRF模塊的輸入是經(jīng)過Bert和BLSTM層訓(xùn)練后的詞向量,由CRF的輸入求出句子級(jí)的序列標(biāo)記。每個(gè)詞向量特征fj相應(yīng)的權(quán)重值λj通過前兩個(gè)模塊的訓(xùn)練已經(jīng)獲得了,使用score(l|s)=算出每個(gè)標(biāo)記序列l(wèi)的值來標(biāo)記整個(gè)句子s,并獲得該標(biāo)記序列的分?jǐn)?shù)。其中,s是待標(biāo)記的句子,i為詞在句子中的位置,li是當(dāng)前詞的標(biāo)簽,li-1是上一個(gè)詞的標(biāo)簽,m是相應(yīng)的特征數(shù),n是相應(yīng)的句子長度。將分?jǐn)?shù)歸一化轉(zhuǎn)化為0~1的概率值,如下所示:

        表1 實(shí)驗(yàn)環(huán)境

        計(jì)算出每個(gè)標(biāo)記序列l(wèi)的p(l|s),概率值最大的l就是最終的標(biāo)記序列。

        2 實(shí)驗(yàn)結(jié)果與分析

        2.1 實(shí)驗(yàn)條件

        實(shí)驗(yàn)使用《人民日?qǐng)?bào)》預(yù)料庫對(duì)中文人名、地名、機(jī)構(gòu)名進(jìn)行命名實(shí)體識(shí)別。語料庫隨機(jī)分成訓(xùn)練集、評(píng)估集和測(cè)試集,其中測(cè)試集包含4 636個(gè)句子、1 405 788個(gè)字,訓(xùn)練集包含20 864個(gè)句子、6 277 429個(gè)字,評(píng)估集包含2 318個(gè)句子、702 455個(gè)字。所有實(shí)驗(yàn)采用的環(huán)境如表1所示。

        2.2 標(biāo)注與評(píng)價(jià)

        目前,序列標(biāo)注的方法有BIO、BIOSE、IOB、BILOU、BMEWO,其中前三種最為常見。本文的命名實(shí)體識(shí)別序列標(biāo)注使用BIO標(biāo)注方法,在實(shí)體預(yù)測(cè)時(shí)預(yù)測(cè)實(shí)體邊界和類型,待預(yù)測(cè)的標(biāo)記有“B-PER”,“I-PER”,“B-LOC”,“I-LOC”,“B-ORG”,“I-ORG”和“O”7種,其中實(shí)體開始部分用B(Begin)表示、實(shí)體非開始部分用I(Inside)表示、非實(shí)體部分用O(Outside)表示。在預(yù)測(cè)過程中,實(shí)體預(yù)測(cè)正確的條件是實(shí)體的邊界和類型全都預(yù)測(cè)正確。

        本文采用準(zhǔn)確率P、召回率R和F1值作為命名實(shí)體識(shí)別的評(píng)價(jià)指標(biāo),定義如下:

        2.3 實(shí)驗(yàn)參數(shù)設(shè)置

        實(shí)驗(yàn)采用Bert參數(shù):BERT-Base版本,網(wǎng)絡(luò)層數(shù)為12,隱藏層為768,頭為12,總參數(shù)量為110 M。模型訓(xùn)練參數(shù)如表2所示。

        表2 模型訓(xùn)練參數(shù)

        2.4 實(shí)驗(yàn)結(jié)果

        Bert-BLSTM-CRF模型訓(xùn)練的F1值如圖6所示,該模型訓(xùn)練的F1最高值95.12%是在第12個(gè)epoch得到的,BLSTM-CRF模型的F1最高值87.56%是在第17個(gè)epoch得到的,E-CNN-BLSTM-CR模型的F1值在第39個(gè)epoch才達(dá)到最優(yōu)。

        圖6 F1值變化圖

        經(jīng)過上述實(shí)驗(yàn)后,三類實(shí)體(人名、地名、機(jī)構(gòu)名)的準(zhǔn)確率P、召回率R、F1值如表3所示。

        表3 不同類型命名實(shí)體識(shí)別結(jié)果

        從表3中可以看出,人名和地名兩種類型實(shí)體預(yù)測(cè)的準(zhǔn)確率比機(jī)構(gòu)類實(shí)體高,主要原因在于人名和地名兩種類型的實(shí)體中不存在大量的縮略詞、地名嵌套、歧義等干擾信息;而機(jī)構(gòu)名則相反。因此,在沒有足夠的上下文信息時(shí)預(yù)測(cè)正確的概率較低。

        為了證明Bert-BLSTM-CRF模型的有效性,將其和下述5種方法進(jìn)行實(shí)驗(yàn)對(duì)比。

        (1)CRF模型采用CRF開源工具CRF++0.58工具包創(chuàng)建模型,對(duì)連續(xù)的數(shù)據(jù)信息進(jìn)行標(biāo)記,從而識(shí)別出中文命名實(shí)體。

        (2)BLSTM模型采用正向和反向的LSTM單元在語料庫上完成對(duì)中文機(jī)構(gòu)名命名實(shí)體的識(shí)別。

        (3)BLSTM-CRF模型利用事先預(yù)訓(xùn)練好的字向量進(jìn)行字級(jí)別的標(biāo)注,然后輸入BLSTM-CRF模型中進(jìn)行訓(xùn)練,此模型是一個(gè)經(jīng)典的序列標(biāo)注模型。

        (4)CNN-BLSTM-CRF模型[15],該模型首先利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)訓(xùn)練出單詞的具有形態(tài)特征的字符級(jí)向量,并從語料訓(xùn)練中獲得具有語義特征信息的詞向量,然后將二者結(jié)合作為輸入,再構(gòu)造適合生物醫(yī)學(xué)命名實(shí)體識(shí)別的BLSTM-CR模型。

        (5)E-CNN-BLSTM-CRF模型[16],為了能夠得到多個(gè)詞之間更加豐富的邊界特征信息,對(duì)CNN中的卷積層采用設(shè)定不同卷積窗口大小的方法,然后把集成的特征信息傳送到BLSTM模型進(jìn)行訓(xùn)練,最后由CRF模型取得最后的序列標(biāo)注。

        多種不同模型命名實(shí)體識(shí)別實(shí)驗(yàn)結(jié)果如表4所示。

        從表4可以看出,方法1和方法2分別采用了CRF模型、BLSTM模型,實(shí)體識(shí)別的F1值分別為68.87%和79.02%。這兩個(gè)方法可以識(shí)別出部分實(shí)體,但整體識(shí)別結(jié)果不理想,而且方法1沒有方法2的識(shí)別效果好,這是由于CRF模型需要提供人工標(biāo)記語料信息量較大,而BLSTM是可以融合上下文語義信息進(jìn)行訓(xùn)練。

        方法3采用了BLSTM和CRF相結(jié)合的模型進(jìn)行實(shí)體識(shí)別,識(shí)別結(jié)果的F1值為87.56%,通過方法3和前兩種方法的比較可以看出,BLSTM-CRF模型能夠有效地提高中文命名實(shí)體識(shí)別的準(zhǔn)確率,其F1值相對(duì)于只采用CRF模型和只采用BLSTM模型的F1值分別提高了18.69%和8.54%。這是由于BLSTM-CRF模型不僅可以結(jié)合上下文的信息,而且還可以考慮到句子前后標(biāo)簽間的依賴關(guān)系,所以方法3能夠取得比較不錯(cuò)的實(shí)體識(shí)別效果。方法4采用CNN-BLSTM-CRF模型的識(shí)別效果比較好,其召回率為88.88%,高于方法5,但是在正確率上略低于方法5。

        表4 不同模型命名實(shí)體識(shí)別結(jié)果

        方法6在方法3的基礎(chǔ)上引入了Bert,其識(shí)別結(jié)果的F1值比方法3提高了7.56%。引入Bert可以正確地識(shí)別出更多的命名實(shí)體,并且顯著地提高了召回率和準(zhǔn)確率。說明Bert預(yù)訓(xùn)練語言模型可以較好地表征字的多義性。方法6與方法4、方法5相比效果更好,說明Bert的特征提取性能較好,特征的提取相比于筆畫特征的單獨(dú)訓(xùn)練和字詞結(jié)合特征的效果要好。綜上所述,本文提出的Bert-BLSTM-CRF模型可以取得比傳統(tǒng)的基于神經(jīng)網(wǎng)絡(luò)模型更好的識(shí)別效果。

        3 結(jié)束語

        針對(duì)中文命名實(shí)體識(shí)別中基于傳統(tǒng)的字向量表征過于單一、無法很好地處理字的多義性特征等問題,本文提出了Bert-BLSTM-CRF模型中文命名實(shí)體識(shí)別方法。Bert模型通過聯(lián)合調(diào)節(jié)所有層中的上下文,使用雙向Transformer作為編碼器。經(jīng)過對(duì)比實(shí)驗(yàn),本文提出的模型在人名、地名、機(jī)構(gòu)名的總體識(shí)別效果要優(yōu)于其他模型,具有較好的精確性,提高了實(shí)體識(shí)別的準(zhǔn)確率。

        猜你喜歡
        命名實(shí)體向量
        向量的分解
        命名——助力有機(jī)化學(xué)的學(xué)習(xí)
        聚焦“向量與三角”創(chuàng)新題
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        中國外匯(2019年18期)2019-11-25 01:41:54
        有一種男人以“暖”命名
        東方女性(2018年3期)2018-04-16 15:30:02
        為一條河命名——在白河源
        散文詩(2017年17期)2018-01-31 02:34:08
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        向量垂直在解析幾何中的應(yīng)用
        精品中文字幕久久久久久| 一区二区三区精品亚洲视频| 午夜免费观看国产视频| 国产精品极品美女自在线观看免费| 国产亚洲av综合人人澡精品 | 日本在线观看一二三区| 久久精品国产自在天天线| 国产精品视频一区二区噜噜| 少妇熟女淫荡丰满| 日本综合视频一区二区| av免费不卡国产观看| 亚洲暴爽av人人爽日日碰| 亚洲AV成人无码天堂| 在线日本国产成人免费精品| 午夜免费啪视频| 国产精品麻豆最新AV| 无人视频在线播放在线观看免费| 人妻丰满精品一区二区 | 国产熟妇另类久久久久| 久久久男人天堂| 色婷婷精品国产一区二区三区| 娇小女人被黑人插免费视频| 中文字幕一区在线观看视频| 精品91亚洲高清在线观看| 久久久精品国产老熟女| 亚洲精品国精品久久99热| 国产精品久久久久久人妻精品| 日本人妻少妇精品视频专区| 日韩中文字幕一区二区二区| 色噜噜狠狠狠综合曰曰曰| 国产999视频| 国产精品久久三级精品| 性久久久久久| 久久夜色撩人精品国产小说| 国产精品亚洲精品日产久久久| 与漂亮的女邻居少妇好爽 | 国产喷白浆精品一区二区| 女同同志熟女人妻二区| 黑人巨大跨种族video| 精品少妇一区一区三区| 国产一区二区三区亚洲|