亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的命名實體識別方法研究

        2023-10-31 11:39:42關(guān)菁華黃啟亮呂澤華譚夢琪
        軟件導(dǎo)刊 2023年10期
        關(guān)鍵詞:全詞命名實體

        關(guān)菁華,黃啟亮,呂澤華,譚夢琪

        (大連外國語大學(xué) 軟件學(xué)院,遼寧 大連 116044)

        0 引言

        隨著大數(shù)據(jù)時代的快速發(fā)展,數(shù)據(jù)呈爆炸式增長。這一現(xiàn)象使得有意義的信息提取成為一項重要且關(guān)鍵的任務(wù),因此自然語言處理中,信息提取技術(shù)應(yīng)運而生。命名實體識別(Named Entity Recognition,NER)[1]作為自然語言處理研究的基礎(chǔ),近年來備受關(guān)注,其主要任務(wù)是識別文本中的地名、人名、組織機構(gòu)名等專有名詞[2],其識別效果對后續(xù)的機器翻譯、事件抽取、知識圖譜構(gòu)建等任務(wù)影響很大。中文比英語在命名實體識別上更加復(fù)雜,英語中的命名實體有著明顯邊界,例如地名人名的首字母大寫等,對于中文而言,命名實體沒明顯邊界、構(gòu)成結(jié)構(gòu)復(fù)雜、類型多種多樣且不斷有新的命名實體涌現(xiàn),因此中文命名實體識別依然是一個重要且值得深入研究的課題。

        1 相關(guān)工作

        從目前研究情況看,低資源語言(例如藏語、蒙古語)[3]受關(guān)注范圍較廣,而且中文命名實體識別在國內(nèi)一直備受科研人員的高度重視。目前,命名實體識別實現(xiàn)方法主要有傳統(tǒng)的統(tǒng)計模型和神經(jīng)網(wǎng)絡(luò)模型。NER 方法[4-6]主要分為以下4類:

        (1)基于規(guī)則的方法。依賴于手工制定的規(guī)則,可以基于特定領(lǐng)域的地名詞典、語法規(guī)則。著名的基于規(guī)則的NER 方法有l(wèi)ase-ii、NetOwl、Facile、SAR、FASTUS 和LTG,這些方法主要基于手工制定的語義和語法識別實體,由于特定領(lǐng)域的規(guī)則加上詞典的不完整性,這些方法往往具有高精確度、低召回率等特點,領(lǐng)域遷移十分困難。

        (2)無監(jiān)督方法。主要基于聚類的方法,根據(jù)文本相似度分析得到不同的文本簇,表示不同的實體組別。

        (3)基于特征的監(jiān)督學(xué)習(xí)方法。通過監(jiān)督學(xué)習(xí)將NER任務(wù)轉(zhuǎn)換為多分類任務(wù)或者是序列標(biāo)簽任務(wù),因此這類方法依賴于特征工程。特征工程使用一個特征向量表示文本中的詞,進而可以使用許多機器學(xué)習(xí)算法——隱馬爾科夫模型(Hidden Markov Model,HMM)[7-8]、條件隨機場(Conditional Random Field,CRF)[9]和支持向量機(Support Vector Machine,SVM)[10]等。

        (4)基于深度學(xué)習(xí)的方法。與其他方法相比,基于深度學(xué)習(xí)的NER 模型目前已經(jīng)處于主導(dǎo)地位并取得了最先進的成果。深度學(xué)習(xí)可以通過分布式向量表達(dá),更好地自動發(fā)現(xiàn)隱藏的特征從而實現(xiàn)端到端的訓(xùn)練,并建立更復(fù)雜的NER 模型。

        標(biāo)準(zhǔn)的基于深度學(xué)習(xí)的NER 模型[11-12]由輸入層、編碼層和解碼層3 層結(jié)構(gòu)組成。輸入層使用詞級別或者字符級別的向量表示。詞級別表示的常用詞嵌入方法有:Word2vec[13-14]、Glove、fastText、SENNA。字符級別表示的常用字符嵌入方法有:基于CNN[15]和基于RNN[16],字符嵌入可緩解未登錄詞(OOV)問題。

        隨著近幾年預(yù)訓(xùn)練模型在自然語言處理上的重大突破,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型在命名實體識別任務(wù)中表現(xiàn)得更加優(yōu)秀。在預(yù)訓(xùn)練模型被提出前,以Word2vec為代表的詞向量技術(shù)是最常用的文本特征表達(dá)方法,直到ELMo[17]提出了與上下文相關(guān)的文本特征表示方法后,預(yù)訓(xùn)練模型才得到發(fā)展并在NER 任務(wù)中大放異彩。

        基于深度學(xué)習(xí)的命名實體識別研究已經(jīng)持續(xù)了多年,現(xiàn)已進入相對成熟的階段,Bert-BiLSTM-CRF[18]是NER 模型中使用較多且效果不錯的模型之一,其中Bert(Bidirectional Encoder Representation from Transformers,BERT)模型在預(yù)處理時將進行2 項任務(wù),分別是Masked LM(Masked Language Model,MLM)和下一句預(yù)測(Next Sentence Prediction,NSP),其中MLM 會對每個序列進行靜態(tài)掩蓋,在一個序列中隨機靜態(tài)掩蓋掉15%的標(biāo)簽,雖然在統(tǒng)計學(xué)意義上依舊可以學(xué)習(xí)到特征,但實際上破壞了中文特有的詞結(jié)構(gòu)(例如[MASK]球)。MLM 任務(wù)在每個Epoch 中,對于同一個序列掩蓋的標(biāo)簽是相同的,如果訓(xùn)練數(shù)據(jù)較小,就會破壞詞之間的相互依賴關(guān)系。雖然基于Bert 的NER 模型可以達(dá)到很好的效果,但其不足之處在于規(guī)模太大,需要很強的計算能力,導(dǎo)致資源占用過多、訓(xùn)練時間過長,而且很難在便攜式設(shè)備上進行訓(xùn)練。

        為了解決上述問題,本文結(jié)合中文特有的詞結(jié)構(gòu)[19]和語言學(xué)特征,使用不同的自注意力機制預(yù)訓(xùn)練模型并結(jié)合BiLSTM-CRF[20]模型在保證精確度的前提下進行微調(diào)實驗。使用一種魯棒優(yōu)化的BERT 預(yù)訓(xùn)練方法——全詞掩蓋(A Robustly Optimized BERT Pretraining Approach——Whole Word Masking,RoBERTa-WWM)[21],將全詞掩蓋預(yù)訓(xùn)練模型作為預(yù)訓(xùn)練的輸入進行實驗,此預(yù)訓(xùn)練模型將在每個Epoch 的相同序列中動態(tài)地選擇15%的詞進行掩蓋,而不是在字符級上進行15%的掩蓋,這更符合中文語言的詞結(jié)構(gòu),提高了模型對特征能力的提取。由于BERT 是超大規(guī)模預(yù)訓(xùn)練模型,在便攜式設(shè)備上訓(xùn)練時間長、占用資源過多,因此使用其輕量化模型ALBERT[22]進行研究,在保留精度的前提下提高模型訓(xùn)練速度。

        2 Albert-BiLSTM-CRF 與RoBERTa-BiLSTM-CRF

        2.1 Albert預(yù)訓(xùn)練模型

        在NLP 任務(wù)中,好的預(yù)訓(xùn)練模型至關(guān)重要,從目前的Bert、XLNet[23]、RoBERTa 看,性能越好的模型,其參數(shù)量也越大。如果想要擴大預(yù)訓(xùn)練模型的規(guī)模,會遇到內(nèi)存限制。為了解決此問題,Albert 降低了參數(shù)量,提升了參數(shù)使用效率。為了更好地發(fā)揮參數(shù)的功能,它使用了2 種減少參數(shù)量的方法。①跨層參數(shù)共享:在Albert 中,全連接層和注意力層參數(shù)全部共享,很大程度上減少了參數(shù)量;②Embedding 因式分解:利用矩陣分解的思想,在嵌入詞向量后添加一個全連接層,將E 映射到H 維度,因此Albert 模型的Embedding 層設(shè)置為128 維,利用全連接層進行映射,使得映射后的維度與Hidden 層的維度相同,將參數(shù)量從O(V·H)減少到O(V·E+E·H)。

        Albert 在預(yù)處理時會進行2 項任務(wù),分別是Masked LM和句子順序判斷(Sentence Order Prediction,SOP)。Albert與Bert 的MLM 任務(wù)相同,均是隨機遮罩進行預(yù)測。但在后續(xù)研究中發(fā)現(xiàn),Bert 模型中的NSP 任務(wù)并不能使模型學(xué)習(xí)到句子間的連貫性信息,在下游任務(wù)中進行NSP 任務(wù)反而會使模型性能下降。因此Albert 使用了SOP,此任務(wù)會進行句子順序的預(yù)測,使得模型可以學(xué)習(xí)句子之間的連貫性信息并在一定程度上解決NSP 任務(wù)。

        2.2 RoBERTa-WWM 預(yù)訓(xùn)練模型

        RoBERTa-WWM 模型是Bert 模型的優(yōu)化版本,主要在Bert模型上進行以下調(diào)整:

        (1)采用更大的模型參數(shù)和訓(xùn)練數(shù)據(jù)。訓(xùn)練時間更長,batch size 更大,訓(xùn)練數(shù)據(jù)更多,模型參數(shù)量更大。

        (2)對訓(xùn)練方法進行改進。由于NSP 任務(wù)對模型沒有實質(zhì)性的性能優(yōu)化,因而RoBERTa-WWM 移除了NSP任務(wù)。

        (3)加長訓(xùn)練序列。訓(xùn)練序列更長,有助于提升模型性能。

        (4)動態(tài)掩碼與全詞掩蓋。每次向模型輸入一個序列時,就進行一次隨機掩碼,隨著數(shù)據(jù)的輸入,模型會適應(yīng)不同的掩碼策略,從而學(xué)習(xí)到不同的語言特征。全詞掩蓋針對中文特有的詞結(jié)構(gòu)進行全詞掩碼,使得模型可以更好地學(xué)習(xí)到中文語言復(fù)雜的語言特征。

        (5)文本編碼(Byte-Pair Encoding,BPE)。該編碼方式是字符級和單詞表示的混合,可以處理自然語言語料庫中常見的大量詞匯且不依賴于完整單詞,而是依賴于子詞(sub-word)單元。子詞單元是根據(jù)自然語言語料庫進行統(tǒng)計分析而得,是一種統(tǒng)一的編碼方式。

        2.3 BiLSTM

        RNN 的結(jié)構(gòu)能夠很好地利用序列之間的關(guān)系,可以動態(tài)地獲取序列間的信息并對其進行記憶保存,但是RNN在實現(xiàn)時容易出現(xiàn)梯度消失問題。LSTM 模型是在RNN模型上加入門限機制和記憶單元從而解決了梯度消失問題。在后續(xù)研究中發(fā)現(xiàn),無論是RNN 還是LSTM,都是從前向后傳遞信息,在NER 任務(wù)中,現(xiàn)在的詞性也會與后面的詞有關(guān),類似于BRNN 的雙向LSTM 被提出以解決此問題,其結(jié)構(gòu)如圖1所示。

        Fig.1 BiLSTM model structure圖1 BiLSTM 模型結(jié)構(gòu)

        雙向的LSTM 也稱BiLSTM,它將訓(xùn)練2 條LSTM,一條從左到右,另一條從右到左,隨后進行狀態(tài)序列拼接并輸出。在t時刻,給定輸入xt,LSTM 的隱藏層輸出表示具體計算過程如下:

        其中,W為模型參數(shù)矩陣,b為偏置向量,C為記憶單元的狀態(tài),σ和tanh為2 種不同的激活函數(shù),ft、it、ot分別是遺忘門、輸入門、輸出門,Xt、ht分別為狀態(tài)向量和輸入向量。這種門限機制可以有效捕獲序列前后信息從而解決梯度消失問題。

        2.4 CRF

        BiLSTM 可以學(xué)習(xí)到上下文信息,但是并不能使模型學(xué)習(xí)到前后標(biāo)簽的約束關(guān)系。由于CRF 中有著特征轉(zhuǎn)移矩陣,可以使模型學(xué)習(xí)到標(biāo)簽之間的順序和一些約束規(guī)則,可以更好地對標(biāo)簽進行預(yù)測。

        2.5 Albert-BiLSTM-CRF 與RoBERTa-BiLSTM-CRF命名實體識別模型

        Albert-BiLSTM-CRF 與RoBERTa-BiLSTM-CRF 均 是將預(yù)訓(xùn)練模型與BiLSTM 網(wǎng)絡(luò)和CRF 模型結(jié)合起來的 2 種模型,模型結(jié)構(gòu)如圖2所示。

        Fig.2 Pre-trained model-BiLSTM-CRF model structure圖2 預(yù)訓(xùn)練模型-BiLSTM-CRF 模型結(jié)構(gòu)

        由圖2 可以看出,命名實體模型是以BERT 等預(yù)訓(xùn)練模型作為輸入,經(jīng)過BiLSTM 層對每個序列分別進行向前和向后處理,使模型學(xué)習(xí)到上下文關(guān)系后,輸出給CRF 層進行序列前后標(biāo)簽約束關(guān)系的學(xué)習(xí)。

        3 實驗與分析

        3.1 實驗數(shù)據(jù)及評價指標(biāo)

        實驗數(shù)據(jù)來源于開源的新聞網(wǎng)站,實驗采用BIO 序列標(biāo)注模式,對每個字符進行標(biāo)注,B 表示實體類型的第一個詞,I 表示實體類型其余的詞,O 表示非實體類型。本次任務(wù)分為7 種實體類型,如表1 所示。數(shù)據(jù)共有216 547字,其中CW 標(biāo)簽有3 295 個,ORG 標(biāo)簽有9 010 個,LOC 標(biāo)簽有2 903 個,F(xiàn)NAME 標(biāo)簽有840 個,LNAME 標(biāo)簽有3 820個,DATE 標(biāo)簽有17 425 個,其余為O 標(biāo)簽,訓(xùn)練集與驗證集以7∶3的比例劃分。

        Table 1 Entity type definition表1 實體類型定義

        對于每一種實體類型,本次實驗都采用準(zhǔn)確率(Precision,P)、召回率(Recall,R)和F1 值(F1-score)作為衡量模型性能的標(biāo)準(zhǔn)。各指標(biāo)計算公式如下:

        其中,TP 表示預(yù)測為正類且樣本為正類,F(xiàn)P 表示預(yù)測為正類且樣本為負(fù)類,F(xiàn)N 表示預(yù)測為負(fù)類且樣本為正類,TP+FP 表示預(yù)測為正類的樣本數(shù),TP+FN 表示實際為正類的樣本數(shù)。

        3.2 模型搭建與參數(shù)設(shè)置

        本文提及的模型采用Pytorch 框架進行搭建。Pytorch是由Facebook 人工智能研究院基于Torch 開發(fā)的深度學(xué)習(xí)框架,其被廣泛應(yīng)用于深度學(xué)習(xí)模型的研究與應(yīng)用。在RoBERTa-BiLSTM-CRF 模型上,相較于張芳叢等[24]的研究,其在數(shù)據(jù)方面有著明顯區(qū)別。此外,在Albert-BiLSTM-CRF 模型上,相比網(wǎng)絡(luò)開源代碼所使用的框架keras,本次實驗使用Pytorch 框架實現(xiàn)。本次研究采用谷歌發(fā)布的Bert_Large 預(yù)訓(xùn)練模型結(jié)合BiLSTM 和CRF 作為baseline,該預(yù)訓(xùn)練模型嵌入層數(shù)和隱藏層數(shù)為24 層,嵌入層維度和隱藏層維度為1 024,注意力頭數(shù)為16。本研究采用的另外2 個預(yù)訓(xùn)練模型分別為Albert_Base 和RoBERTa_Base-WWM。模型具體參數(shù)如下:Albert_Base 的嵌入層數(shù)和隱藏層數(shù)為12 層,隱藏層維度為768,嵌入層維度為128,注意力頭數(shù)為12;RoBERTa_Base-WWM 的嵌入層數(shù)和隱藏層數(shù)為24 層,嵌入層維度和隱藏層維度為1 024,注意力頭數(shù)為16。預(yù)訓(xùn)練模型-BiLSTM-CRF 模型訓(xùn)練參數(shù)如下:最大序列長度(max_seq_length)為128,batch size為16,dropout 設(shè)置為0.5。在Albert 上分別采用batch size為8和16進行實驗。

        3.3 實驗結(jié)果與分析

        本實驗設(shè)置不同的epoch 值,在一定時間內(nèi)記錄不同模型的準(zhǔn)確率、召回率、F1 值,并進行訓(xùn)練結(jié)果比較,實驗結(jié)果如表2 所示。此外,還記錄了不同模型在各標(biāo)簽上的效果,實驗結(jié)果如表3—表5所示。

        Table 3 Consumption of resources by different models表3 不同模型對資源的消耗情況

        Table 4 P,R,F(xiàn)1 value of each label of Bert-BiLSTM-CRF表4 Bert-BiLSTM-CRF 的各標(biāo)簽的準(zhǔn)確率、召回率、F1值

        Table 5 P,R,F(xiàn)1 value of each label of Albert-BiLSTM-CRF表5 Albert-BiLSTM-CRF 的各標(biāo)簽的準(zhǔn)確率、召回率、F1值

        從表2 和表3 可以看出,Albert-BiLSTM-CRF 與Bert-BiLSTM-CRF 在F1 值上相差1.1%,將Albert-BiLSTM-CRF的batch size 減小到8 時模型有著明顯的性能提升并且超過了Bert-BiLSTM-CRF,在Albert-BiLSTM-CRF 上可以適當(dāng)減小batch size 以得到更優(yōu)結(jié)果。Albert_Base 消耗的資源僅為Bert_Large 的1/4,并且在相同時間下最終效果提升了至少2%,Albert_Base 與RoBERTa_Base-WWM 相比,資源消耗減少了一半但是F1 值僅減少了不到3%,并且不到3G 的資源消耗在如今的便攜式設(shè)備基本上都可以進行訓(xùn)練。RoBERTa-WWM-BiLSTM-CRF 在采取更符合中文詞特征的全詞掩蓋和動態(tài)掩蓋后F1 值提升了5%,這體現(xiàn)了全詞掩蓋和動態(tài)掩碼在中文命名實體識別研究上的優(yōu)越性。Albert 采用的參數(shù)共享機制在減少大量參數(shù)后,各項評價指標(biāo)和Bert 模型相差無幾。實驗表明,Bert 模型中有大量的參數(shù)冗余導(dǎo)致訓(xùn)練效率低于Albert。

        由表4—表6 可知,Bert-BiLSTM-CRF 在DATE 和LABEL 標(biāo)簽上相較于其他標(biāo)簽差距較大,其中DATE 標(biāo)簽的F1 值僅有86.90%。Albert-BiLSTM-CRF 在LNAME 標(biāo)簽上的效果最差,僅有81.31%,與其他標(biāo)簽相比相差不止10%,但是在LABEL 標(biāo)簽上效果很好。RoBERTa-WWM-BiLSTM-CRF 在各標(biāo)簽上平均高達(dá)97%,但相較自身ORG、DATE 和LABEL 標(biāo)簽效果還有待提升??傮w看來,RoBERTa-WWM-BiLSTM-CRF 在各標(biāo)簽的效果相較于其他2 個模型有不小提升,而Bert-BiLSTM-CRF 和Albert-BiLSTMCRF 在特定標(biāo)簽上F1 值未達(dá)到預(yù)期效果,由此看來動態(tài)掩碼任務(wù)和全詞掩蓋任務(wù)在識別特定標(biāo)簽上具有一定的優(yōu)越性。

        Table 6 P,R,F(xiàn)1 value of each label of RoBERTa-BiLSTM-CRF表6 RoBERTa-BiLSTM-CRF 的各標(biāo)簽的準(zhǔn)確率、召回率、F1值

        4 結(jié)語

        本文針對Bert-BiLSTM-CRF 模型消耗資源過多、訓(xùn)練時間過長的問題進行模型改進,采用Albert 預(yù)訓(xùn)練模型以減少模型參數(shù)量,降低資源消耗,并提升了實體識別能力。同時,基于Bert 預(yù)訓(xùn)練模型在預(yù)訓(xùn)練任務(wù)上的不足,采用RoBERTa-WWM 預(yù)訓(xùn)練模型代替Bert 進行研究,實驗表明,動態(tài)掩碼和全詞掩蓋在中文命名實體識別上有著不小的提升,并且Albert 消耗的資源很少,可以在便攜式設(shè)備上進行訓(xùn)練。后續(xù)工作中,將考慮進行數(shù)據(jù)增強、數(shù)據(jù)優(yōu)化和領(lǐng)域遷移以提升模型性能和泛化能力。

        猜你喜歡
        全詞命名實體
        命名——助力有機化學(xué)的學(xué)習(xí)
        前海自貿(mào)區(qū):金融服務(wù)實體
        中國外匯(2019年18期)2019-11-25 01:41:54
        不吹不黑
        汽車工人之歌
        有一種男人以“暖”命名
        東方女性(2018年3期)2018-04-16 15:30:02
        為一條河命名——在白河源
        散文詩(2017年17期)2018-01-31 02:34:08
        實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
        兩會進行時:緊扣實體經(jīng)濟“釘釘子”
        振興實體經(jīng)濟地方如何“釘釘子”
        梅花引?荊溪阻雪
        意林(2011年19期)2011-02-11 11:09:16
        亚洲全国最大的人成网站| 777精品久无码人妻蜜桃| 久久精品国产色蜜蜜麻豆 | 亚洲男人综合久久综合天堂| 女人18片毛片60分钟| 无码视频在线观看| 日本视频一中文有码中文| 亚洲 另类 小说 国产精品| 国产午夜手机精彩视频| 久久精品免视看国产成人| 国产真人无遮挡作爱免费视频| 中文字幕不卡高清免费| 一区二区av日韩免费| av天堂中文亚洲官网| 国产精品午夜夜伦鲁鲁| 欧美精品国产综合久久| 性色av一区二区三区| 亚洲AV无码不卡无码国产| 国产真实乱XXXⅩ视频| 国产亚洲精品视频在线| 久久国产精品一区av瑜伽| 久久影院午夜理论片无码| 久久99精品国产麻豆不卡| 亚洲av无码一区二区三区网站| 久久婷婷香蕉热狠狠综合| 国产精品主播视频| 中文字幕麻豆一区二区| 日本午夜理论一区二区在线观看| 国产亚洲成性色av人片在线观| 亚洲精品成人av在线| 国产无遮挡又黄又爽又色| 国产91色在线|亚洲| 日韩精品极品视频在线观看蜜桃| 日本高清中文字幕二区在线| 综合激情五月三开心五月| 国产精品天天看天天狠| 亚洲午夜福利在线视频| 亚洲欧美国产日韩天堂在线视 | 日韩中文字幕素人水野一区| 无码人妻精品一区二区三区夜夜嗨| 成片免费观看视频大全|