亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合多種嵌入表示的中文命名實(shí)體識(shí)別

        2022-06-25 01:59:42鄭肇謙龐海婷
        關(guān)鍵詞:標(biāo)簽語義向量

        彭 雪, 趙 輝, 鄭肇謙, 龐海婷

        (長春工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,吉林 長春 130012)

        0 引 言

        近年來,自然語言處理(Natural Language Processing,NLP)技術(shù)蓬勃發(fā)展,而NER作為其重要分支,也發(fā)展正盛。NER是NLP領(lǐng)域的一項(xiàng)基礎(chǔ)性關(guān)鍵技術(shù),目的是從文本中識(shí)別出具有特定意義或指代性強(qiáng)的實(shí)體,通常包括人名、地名、組織機(jī)構(gòu)名、日期、時(shí)間、貨幣和百分比等,其識(shí)別結(jié)果直接影響到關(guān)系抽取、問答系統(tǒng)、機(jī)器翻譯等下游NLP任務(wù)的性能。

        NER通常被看作序列標(biāo)注任務(wù)。近年來,隨著各種詞嵌入方法、預(yù)訓(xùn)練語言模型的出現(xiàn)和以神經(jīng)網(wǎng)絡(luò)為核心的深度學(xué)習(xí)在各個(gè)領(lǐng)域快速發(fā)展,利用深度學(xué)習(xí)方法解決序列標(biāo)注問題,尤其是NER問題成為一種趨勢(shì)。

        由于漢字結(jié)構(gòu)繁雜,文本中詞與詞之間沒有明顯的邊界,存在一字多音且在不同語境下表達(dá)的意思也不相同的現(xiàn)象,現(xiàn)有的NER方法通常基于字或詞進(jìn)行建模,沒有考慮句子的全局語義信息,利用預(yù)訓(xùn)練語言模型獲得嵌入表示,雖然一定程度上增強(qiáng)了語義特征,但是沒有充分利用到漢字本身的字音、字形特征,所以NER效果不理想。針對(duì)上述問題,文中基于深度學(xué)習(xí)方法,在融合字、句級(jí)語義特征的基礎(chǔ)上,充分結(jié)合漢字的字音、字形特征,提出融合多種嵌入表示的中文命名實(shí)體識(shí)別(Chinese Named Entity Recognition Fusing Multiple Embedding Representations,F(xiàn)MER-CNER)模型。主要貢獻(xiàn)如下:

        1)為了得到更適用于中文的嵌入表示,文中將百度自研的ERNIE預(yù)訓(xùn)練語言模型訓(xùn)練得到的字嵌入和句子嵌入進(jìn)行拼接、融合得到字句融合嵌入表示,從而達(dá)到同時(shí)融合字級(jí)和句子級(jí)語義特征的目的。

        2)為了充分利用漢字本身的特征來增強(qiáng)語義表示,文中在字句融合嵌入的基礎(chǔ)上充分結(jié)合了漢字的五筆、四角碼和拼音特征信息,從而達(dá)到融合漢字的字音、字形特征的目的。

        3)為了減小拼接后向量的維數(shù),融合并獲取對(duì)識(shí)別來說更重要的特征,文中在輸入表示層中添加向量融合層。每次向量拼接后用全連接層融合各自的特征,減小矩陣維度,然后送入BiLSTM網(wǎng)絡(luò)提取特征,最后,利用多頭注意力機(jī)制進(jìn)一步聚焦局部關(guān)鍵信息,減小無關(guān)、冗余特征的影響。

        1 相關(guān)工作

        早期NER大都使用基于規(guī)則和詞典的方法,后來統(tǒng)計(jì)機(jī)器學(xué)習(xí)興起,開始被用于解決NER問題。其中,CRF是最受NER研究者青睞的機(jī)器學(xué)習(xí)模型。

        近些年,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)得到快速發(fā)展,對(duì)NER的研究也轉(zhuǎn)向了深度學(xué)習(xí)。常用于NER的神經(jīng)網(wǎng)絡(luò)包括卷積神經(jīng)網(wǎng)絡(luò)[1]、循環(huán)神經(jīng)網(wǎng)絡(luò)等及其變體。目前,NER領(lǐng)域最常用的是將深度學(xué)習(xí)與機(jī)器學(xué)習(xí)相結(jié)合的方法,Huang Z等[2]將以word embedding為輸入的BiLSTM-CRF模型用于解決序列標(biāo)注問題。也有研究者把多個(gè)神經(jīng)網(wǎng)絡(luò)同時(shí)應(yīng)用于NER任務(wù),Ma X等[3]提出BiLSTM-CNNs-CRF模型。張晗等[4]將生成式對(duì)抗網(wǎng)絡(luò)與BiLSTM-Attention-CRF模型相結(jié)合用于信息安全領(lǐng)域的實(shí)體識(shí)別。

        在以往的中文NER任務(wù)中,研究者大都采用基于詞嵌入的方法,但由于中文文本沒有明顯的詞邊界且極易產(chǎn)生分詞錯(cuò)誤,會(huì)對(duì)實(shí)體識(shí)別結(jié)果產(chǎn)生很大影響,所以,不少研究者采用基于字嵌入的方法,Liu Z X等[5]證明了字嵌入比詞嵌入更適用于中文NER任務(wù)。但是,基于字符的方法又不能利用詞級(jí)信息,于是有研究者通過在基于字嵌入的模型中引入詞典信息來提高識(shí)別效果。Zhang Y等[6]提出Lattice-LSTM模型,通過加入詞典信息將鏈?zhǔn)浇Y(jié)構(gòu)轉(zhuǎn)換成圖結(jié)構(gòu),避免了由于分詞錯(cuò)誤造成的識(shí)別誤差。除了引入詞典信息之外,研究者還通過引入額外特征來豐富模型的語義表示。趙浩新等[7]直接利用中文筆畫序列生成字向量來增強(qiáng)漢字的特征表示。Xu C W等[8]在字、詞嵌入的基礎(chǔ)上融入了漢字的部首特征,提升了NER的效果,并驗(yàn)證了部首信息的有效性。

        預(yù)訓(xùn)練語言模型的出現(xiàn)大大提升了NER的性能。Word2Vec[9]和Glove[10]將單詞表示為向量且相似的單詞有相似的向量表示。ELMo[11]、GPT[12]則能夠獲得上下文相關(guān)的詞向量。谷歌在2018年發(fā)布了BERT[13],是目前最常用的預(yù)訓(xùn)練語言模型之一。很多研究者在獲取BERT的隱藏層表征后經(jīng)過微調(diào)用于自己模型。王子牛等[14]利用BERT獲取上下文抽象特征提出BERT-BiLSTM-CRF模型。但是BERT在預(yù)訓(xùn)練時(shí)僅對(duì)單個(gè)字進(jìn)行掩碼,分割了語義表示,沒有充分學(xué)習(xí)到中文的語義特征。百度基于BERT進(jìn)行改進(jìn)發(fā)布了ERNIE預(yù)訓(xùn)練語言模型,能夠建模海量文本中的語義關(guān)系,增強(qiáng)下游模型的語義理解能力。朱海東等[15]將百度ERNIE應(yīng)用于中文情感分類領(lǐng)域,顯著提升了模型性能。

        中文中普遍存在一字多音不同義和一音多字不同義的現(xiàn)象,而拼音刻畫了漢字的字音特征,能夠增強(qiáng)對(duì)語義的理解。漢字結(jié)構(gòu)繁雜,通常具有相同組成結(jié)構(gòu)的漢字表達(dá)的意思也相近,這對(duì)醫(yī)學(xué)等專業(yè)領(lǐng)域的實(shí)體識(shí)別尤為重要。五筆和四角碼依據(jù)筆畫或字形特征對(duì)漢字進(jìn)行編碼,具有相似筆畫結(jié)構(gòu)的漢字其編碼也相似,比如“胳”“膊”兩個(gè)字都有“月”且都與人體相關(guān),所以對(duì)應(yīng)的五筆碼“etk”和“egef”也有相同的部分;“桂”“林”都有“木”又都與樹相關(guān),所以對(duì)應(yīng)的四角碼“44914”和“44990” 也相似。由此可見,融入字音、字形特征對(duì)增強(qiáng)中文語義表示是有意義的。

        綜上所述,以往的NER方法僅對(duì)文本中的字或詞進(jìn)行建模,忽略了句子包含的全局語義特征和漢字本身的字音、字形特征;傳統(tǒng)預(yù)訓(xùn)練語言模型對(duì)中文語義特征的提取能力不足,對(duì)漢字潛在的字形特征表示不充分。為解決上述問題,文中利用具有更強(qiáng)中文語義特征表示能力的百度ERNIE預(yù)訓(xùn)練語言模型得到字句嵌入表示,再融入字音、字形特征得到融合嵌入表示;把它送入BiLSTM-CRF模型中進(jìn)行特征提取和標(biāo)簽解碼得到最優(yōu)標(biāo)簽序列。在MSRA數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明,提出的方法提升了中文NER結(jié)果。

        2 FMER-CNER模型

        2.1 模型概述

        文中提出的FMER-CNER模型以當(dāng)前主流的BiLSTM-CRF模型為基礎(chǔ),融合了字句級(jí)別的語義特征以及包括拼音、五筆和四角碼在內(nèi)的字音、字形特征,以增強(qiáng)模型對(duì)漢字潛在特征的表示能力,從而達(dá)到提升NER效果的目的。

        模型整體結(jié)構(gòu)如圖1所示。

        圖1 模型整體結(jié)構(gòu)

        由圖1可以看出,自下而上分為輸入表示層、BiLSTM特征提取層和CRF標(biāo)簽解碼層。

        對(duì)于文本序列X,首先在輸入表示層得到包含字句級(jí)特征和字音、字形特征的融合嵌入T;然后在BiLSTM特征提取層把T作為輸入,通過BiLSTM神經(jīng)網(wǎng)絡(luò)前向和后向訓(xùn)練進(jìn)行特征提取,得到輸出嵌入H經(jīng)過全連接層分類和降維后得到包含上下文信息的全局隱含特征G;最后把特征矩陣G送入CRF標(biāo)簽解碼層學(xué)習(xí)標(biāo)簽間的約束關(guān)系,解碼得到最優(yōu)的標(biāo)簽序列,完成NER任務(wù)。

        2.2 輸入表示層

        輸入表示層的目的是對(duì)輸入文本進(jìn)行編碼,表示成機(jī)器能讀懂的向量形式。文中在輸入表示層融合了字、句、拼音、五筆和四角碼五種嵌入表示。

        輸入表示層結(jié)構(gòu)如圖2所示。

        圖2 輸入表示層結(jié)構(gòu)

        輸入文本序列X=(x1,x2,…,xi,…,xn)是一個(gè)有n個(gè)字的句子,xi表示句子中第i個(gè)字。對(duì)兩兩拼接的矩陣進(jìn)行融合和降維,通過向量融合層完成,最終得到融合嵌入T=(t1,t2,…,ti,…,tn)是一個(gè)維度為n×768的矩陣,它是整個(gè)輸入表示層的輸出,同時(shí)也是BiLSTM特征提取層的輸入。

        2.2.1 向量融合層

        為了更好地將兩兩拼接的矩陣進(jìn)行融合和降維,文中設(shè)計(jì)了向量融合層。將兩個(gè)矩陣拼接后,通過全連接層融合特征并減小矩陣維度,然后送入BiLSTM提取全局特征,但這些特征并不都對(duì)識(shí)別有作用,所以再用能刻畫句子中每個(gè)信息重要性的多頭注意力機(jī)制(Multi-head Attention Mechanism)來聚焦局部關(guān)鍵信息,使得到的融合嵌入集成了全局特征和局部特征。

        注意力機(jī)制[16]類似于人的認(rèn)知機(jī)制,能夠從眾多信息中選擇出對(duì)當(dāng)前任務(wù)目標(biāo)更重要的信息,為其賦予更大的權(quán)值,然后對(duì)這些信息投入更多的注意力,減少對(duì)非重要信息的關(guān)注。多頭注意力機(jī)制能夠讓模型關(guān)注到不同位置、不同表示空間的信息,可抽象表示為

        (1)

        式中:Q——查詢矩陣;

        K——鍵矩陣;

        V——值矩陣。

        首先做一次線性映射,將維度為d的Q,K,V映射到Q∈Rm×dk,K∈Rm×dk,V∈Rm×dv,然后計(jì)算出權(quán)重。

        (2)

        式中:headi——單頭注意力單元,頭數(shù)為12;

        Q,K,V——訓(xùn)練好的權(quán)重參數(shù)。

        MultiHead(Q,K,V)=

        Concat(head1,head2,…,headn)WO,

        (3)

        式中:WO——線性變化參數(shù)。

        多次并行進(jìn)行以上操作,式(3)將所有結(jié)果拼接起來,得到一個(gè)融合所有注意力頭信息的矩陣。

        2.2.2 字句嵌入

        利用ERNIE[17]預(yù)訓(xùn)練語言模型,將包含n個(gè)字的輸入文本序列X經(jīng)過預(yù)訓(xùn)練分別得到一個(gè)n×768維的字嵌入矩陣和一個(gè)768維的句子向量,將n個(gè)這樣的句子向量組合成一個(gè)n×768維的句子矩陣,與字嵌入矩陣進(jìn)行拼接,再經(jīng)過向量融合層進(jìn)行融合和降維,得到維度為n×768的字句融合嵌入K,以增強(qiáng)模型在字和句子層面的語義表示。

        2.2.3 ERNIE預(yù)訓(xùn)練語言型

        ERNIE是百度自研的基于知識(shí)增強(qiáng)的預(yù)訓(xùn)練語言模型,通過對(duì)大規(guī)模語料中的詞、實(shí)體和實(shí)體間關(guān)系等先驗(yàn)知識(shí)進(jìn)行建模,讓模型學(xué)習(xí)到海量文本中所蘊(yùn)含的潛在語義關(guān)系,以增強(qiáng)語義表示能力。ERNIE將多層雙向Transformer的Encoder作為編碼器,每一層都由一個(gè)Encoder單元構(gòu)成,共6層。Encoder單元結(jié)構(gòu)如圖3所示。

        圖3 Encoder單元結(jié)構(gòu)

        輸入Embedding與對(duì)應(yīng)的位置信息相加作為Encoder的輸入,首先經(jīng)過Multi-head Attention學(xué)習(xí)詞與詞之間的相關(guān)性;接著進(jìn)入Add & Norm層,Add用殘差的方式對(duì)不同的輸出相加,Norm用Layer Normalization對(duì)Embedding做歸一化;然后進(jìn)行Feed Forward的前向計(jì)算;最后再接一層Add & Norm防止梯度消失。

        2.2.4 拼音、五筆、四角碼的融合

        將輸入文本序列X分別轉(zhuǎn)化成拼音、五筆和四角碼序列,然后進(jìn)行向量化,得到維度均為n×768的拼音嵌入L、五筆嵌入M和四角碼嵌入Q,接下來進(jìn)行矩陣融合。

        把字句融合嵌入K與拼音嵌入L進(jìn)行拼接,在向量融合層進(jìn)行融合和降維之后得到融合嵌入T1。同理,T1與五筆嵌入M進(jìn)行融合降維得到融合嵌入T2,然后T2再與四角碼嵌入Q進(jìn)行融合降維得到最終的融合嵌入表示T。

        2.3 特征提取和標(biāo)簽解碼

        “神經(jīng)網(wǎng)絡(luò)+條件隨機(jī)場(chǎng)”是目前NER任務(wù)的常用方法,文中使用“BiLSTM-CRF”組合模型,充分發(fā)揮了各模型的優(yōu)勢(shì)。將BiLSTM作為特征提取器,用于提取上下文中蘊(yùn)含的全局語義特征,然后經(jīng)過全連接層得到每個(gè)字到每個(gè)類別標(biāo)簽的得分,最后送入CRF中學(xué)習(xí)標(biāo)簽之間的約束關(guān)系,解碼得到最優(yōu)的標(biāo)簽序列。BiLSTM-CRF模型結(jié)構(gòu)如圖4所示。

        圖4 BiLSTM-CRF模型結(jié)構(gòu)

        T=(t1,t2,…,ti,…,tn)是輸入表示層得到的融合矩陣,ti表示序列中每個(gè)字的融合嵌入,經(jīng)過BiLSTM-CRF模型后輸出的是每個(gè)字的類別標(biāo)簽。

        2.3.1 BiLSTM特征提取層

        對(duì)輸入表示層得到的融合嵌入表示T進(jìn)行特征提取,通過雙向的長短時(shí)記憶網(wǎng)絡(luò)(Bidirectional Long and Short Term Memory,BiLSTM)完成。長短時(shí)記憶網(wǎng)絡(luò)(Long and Short Term Memory,LSTM)是一種特殊的RNN,獨(dú)特之處在于引入了門控機(jī)制,可以有選擇地保存上文信息,并且能夠有效利用長距離信息,實(shí)現(xiàn)長期記憶,克服了RNN的梯度消失和長期依賴等問題。

        LSTM單元結(jié)構(gòu)如圖5所示。

        圖5 LSTM單元結(jié)構(gòu)

        每個(gè)LSTM單元都包含細(xì)胞狀態(tài)(Cell State)和遺忘門、輸入門、輸出門三個(gè)不同的門結(jié)構(gòu)。其計(jì)算過程可抽象表示為:

        ft=σ(Wf·[ht-1,xt]+bf),

        (4)

        it=σ(Wi·[ht-1,xt]+bi),

        (5)

        (6)

        (7)

        ot=σ(Wo·[ht-1,xt]+bo),

        (8)

        ht=ot·tanh(Ct),

        (9)

        BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。

        圖6 BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)

        接下來,輸出嵌入H經(jīng)過全連接層分類、降維后得到特征矩陣

        G=(g1,g2,…,gi,…,gn)∈Rn×d,

        它是BiLSTM特征提取層的輸出,隨后送入CRF層進(jìn)行標(biāo)簽解碼。其中,H的維度是n×768,G的維度是n×d,n是輸入序列的最大長度,d是標(biāo)簽種類數(shù),文中是7。

        2.3.2 CRF標(biāo)簽解碼層

        條件隨機(jī)場(chǎng)(Conditional Random Fields,CRF)是一種概率無向圖模型,常用于序列標(biāo)注任務(wù),尤其是NER任務(wù)。它能夠考慮到序列的全局信息,學(xué)習(xí)到標(biāo)簽之間的約束關(guān)系,再根據(jù)約束規(guī)則選擇最優(yōu)標(biāo)簽序列。

        文中使用線性鏈CRF:對(duì)于任意輸入文本序列

        X=(x1,x2,…,xi,…,xn),

        若在給定X的條件下,輸出的預(yù)測(cè)標(biāo)簽序列

        Y=(y1,y2,…,yi,…,yn)

        的條件概率P(Y|X)構(gòu)成CRF,即滿足馬爾科夫性

        P(yi|X,y1,…,yi-1,yi+1,…,yn)=

        P(yi|X,yi-1,yi+1),

        (10)

        則稱P(Y|X)為線性鏈CRF。

        BiLSTM特征提取層的輸出矩陣G,其矩陣元素Gi,j表示句子中第i個(gè)字第j個(gè)標(biāo)簽的得分;CRF的轉(zhuǎn)移矩陣為A,矩陣元素Ai,j代表標(biāo)簽i轉(zhuǎn)移到標(biāo)簽j的得分。則在給定輸入序列X的條件下,輸出的預(yù)測(cè)標(biāo)簽序列Y的總得分為

        (11)

        式中:y0——輸出序列開始標(biāo)簽;

        yn+1——輸出序列結(jié)束標(biāo)簽。

        因此A是維度為(k+2)的方陣。產(chǎn)生預(yù)測(cè)標(biāo)簽序列Y的概率分布為

        (12)

        兩邊同時(shí)取對(duì)數(shù),得到正確預(yù)測(cè)序列的對(duì)數(shù)似然函數(shù),

        (13)

        YX——所有可能的標(biāo)注序列。

        訓(xùn)練時(shí)最大化似然函數(shù),解碼后,得分最高的輸出序列為

        (14)

        預(yù)測(cè)時(shí),用Viterbi動(dòng)態(tài)規(guī)劃算法求解出最優(yōu)標(biāo)簽序列。

        3 實(shí)驗(yàn)與分析

        3.1 數(shù)據(jù)集及標(biāo)簽標(biāo)注規(guī)則

        3.1.1 數(shù)據(jù)集

        實(shí)驗(yàn)所用的MSRA數(shù)據(jù)集是由微軟亞洲研究院發(fā)布的專門用于NER任務(wù)的中文數(shù)據(jù)集。其中訓(xùn)練集有46 364條語句,測(cè)試集有4 365條語句,共計(jì)5萬余條,包含人名、地名和組織機(jī)構(gòu)名三種實(shí)體類型。

        數(shù)據(jù)集中各類實(shí)體統(tǒng)計(jì)見表1。

        表1 各類實(shí)體統(tǒng)計(jì)表

        3.1.2 標(biāo)簽標(biāo)注規(guī)則

        文中數(shù)據(jù)集采用BIO標(biāo)記法,B表示實(shí)體最開始部分,I表示實(shí)體內(nèi)部,O表示不是實(shí)體;PER、LOC和ORG分別代表人名、地名和組織機(jī)構(gòu)名。所以,三種實(shí)體類型共有6種標(biāo)簽,加上O標(biāo)簽,總共有7種標(biāo)簽。

        具體標(biāo)簽種類見表2。

        表2 標(biāo)簽種類表

        3.2 實(shí)驗(yàn)參數(shù)設(shè)置

        實(shí)驗(yàn)環(huán)境見表3。

        表3 實(shí)驗(yàn)環(huán)境表

        模型訓(xùn)練時(shí),使用Adam優(yōu)化算法加快收斂速度,通過Dropout防止過擬合。

        具體模型參數(shù)設(shè)置見表4。

        表4 模型參數(shù)表

        3.3 評(píng)價(jià)指標(biāo)

        模型采用準(zhǔn)確率P、召回率R和F1值作為評(píng)價(jià)指標(biāo),對(duì)模型性能進(jìn)行全面評(píng)估。各指標(biāo)計(jì)算公式如下:

        (15)

        (16)

        (17)

        式中:TP——正確識(shí)別出的命名實(shí)體數(shù)量;

        FP——識(shí)別錯(cuò)誤的命名實(shí)體數(shù)量;

        FN——未識(shí)別出的命名實(shí)體數(shù)量;

        F1——綜合了準(zhǔn)確率和召回率,體現(xiàn)出模型的均衡性。

        3.4 實(shí)驗(yàn)結(jié)果及分析

        為驗(yàn)證FMER-CNER模型的有效性和優(yōu)越性,文中進(jìn)行了四組實(shí)驗(yàn)。

        3.4.1 模型效果驗(yàn)證

        為探究模型對(duì)每類實(shí)體的識(shí)別效果,實(shí)驗(yàn)中取得最大F1值時(shí),各類實(shí)體的準(zhǔn)確率P、召回率R和F1值見表5。

        表5 各類實(shí)體識(shí)別結(jié)果 %

        由此可見,模型對(duì)人名的識(shí)別效果相對(duì)較好,F(xiàn)1值最高,準(zhǔn)確率也達(dá)到97.08%;對(duì)組織機(jī)構(gòu)名的識(shí)別效果最差,準(zhǔn)確率、召回率和F1值均最低。分析原因,可能是中文人名相對(duì)較短且結(jié)構(gòu)明確,一般為2到3個(gè)字,少數(shù)為4個(gè)字以上,由“姓+名”的格式組成,所以相對(duì)容易識(shí)別;而組織機(jī)構(gòu)名一般字?jǐn)?shù)較多且結(jié)構(gòu)相對(duì)復(fù)雜,大部分還與地名嵌套出現(xiàn),所以識(shí)別起來相對(duì)困難。

        3.4.2 融合嵌入表示的有效性驗(yàn)證

        在其他條件保持不變的情況下,僅改變輸入表示層的嵌入表示進(jìn)行對(duì)比實(shí)驗(yàn),見表6。

        表6 模型對(duì)比結(jié)果 %

        由實(shí)驗(yàn)結(jié)果可知,文中提出的FMER-CNER模型F1值最高,達(dá)到了96.06%,綜合效果最好,說明同時(shí)融合字、句、拼音、五筆和四角碼這些特征是有意義的,增強(qiáng)了語義表示,提升了命名實(shí)體識(shí)別效果。

        3.4.3 預(yù)訓(xùn)練模型的優(yōu)越性驗(yàn)證

        在NER任務(wù)中,由眾多前人的工作可知,BiLSTM-CRF組合模型的效果要明顯優(yōu)于BiLSTM、CRF這樣單一模型的效果,而加入了預(yù)訓(xùn)練模型后的識(shí)別效果更優(yōu)。所以,為驗(yàn)證百度ERNIE預(yù)訓(xùn)練模型的優(yōu)越性,文中在其他條件保持不變的情況下,僅把百度ERNIE換成BERT的兩個(gè)改進(jìn)模型ALBERT和RoBERTa進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果見表7。

        表7 ALBERT,RoBERTa與ERNIE實(shí)驗(yàn)對(duì)比 %

        由表7可以看出,加入百度ERNIE的BiLSTM-CRF模型F1值達(dá)到95.34%,識(shí)別效果明顯優(yōu)于加ALBERT和RoBERTa的模型。而同時(shí)獲取ERNIE的字、句嵌入模型F1值達(dá)到95.66%,高于只獲取ERNIE字嵌入的模型0.32個(gè)百分點(diǎn)。充分說明在中文NER方面,百度ERNIE對(duì)中文語義的理解能力要好于ALBERT和RoBERTa,驗(yàn)證了其優(yōu)越性,也說明同時(shí)獲取ERNIE的字、句嵌入是有意義的,豐富了模型句子級(jí)別的語義表示。

        3.4.4 模型對(duì)比實(shí)驗(yàn)

        為驗(yàn)證本模型的優(yōu)越性,與同樣使用MSRA數(shù)據(jù)集的其他模型進(jìn)行對(duì)比,結(jié)果見表8。

        表8 與其他模型的對(duì)比結(jié)果 %

        1)CAN-NER[18]模型雖然用具有局部注意力的CNN對(duì)字詞信息進(jìn)行編碼,用具有全局注意力的BiGRU-CRF捕獲全局特征和預(yù)測(cè)最終標(biāo)簽,但它沒有關(guān)注到漢字的字音、字形特征,F(xiàn)1值只有92.97%。

        2)Lattice-LSTM-CRF[6]模型在基于字符模型的基礎(chǔ)上,利用注意力機(jī)制融合詞典信息,將LSTM的線性結(jié)構(gòu)轉(zhuǎn)化成圖結(jié)構(gòu),F(xiàn)1值達(dá)到93.18%。

        3)LR-CNN[19]模型是一種含有Rethinking機(jī)制的多層CNN網(wǎng)絡(luò),在不同層融合字詞向量,實(shí)現(xiàn)了并行化;添加反饋層反饋高級(jí)特征來細(xì)化word embedding的權(quán)重,解決了Lattice-LSTM模型存在的詞典沖突問題。模型的F1值達(dá)到93.71%,較Lattice-LSTM模型提高0.53個(gè)百分點(diǎn)。

        4)BERT-BiLSTM-CRF[20]模型利用BERT預(yù)訓(xùn)練生成詞向量,相比前面模型的F1值有所提升,達(dá)到94.65%,說明預(yù)訓(xùn)練模型在詞表示方面具有優(yōu)勢(shì),語義理解能力更強(qiáng)。

        5)BSTTC[21]模型利用BERT預(yù)訓(xùn)練生成動(dòng)態(tài)字向量,然后用星型Transformer-TextCNN聯(lián)合模型提取特征,最后經(jīng)過CRF解碼得到最終標(biāo)簽序列,模型F1值達(dá)到95.69%。

        6)文中FMER-CNER模型既考慮了預(yù)訓(xùn)練模型在語義理解方面的優(yōu)勢(shì),又考慮了句子的全局特征和漢字本身的字音、字形特點(diǎn),準(zhǔn)確率和F1值均優(yōu)于前面的模型,證明了模型在中文NER任務(wù)中的有效性和優(yōu)越性。

        4 結(jié) 語

        針對(duì)以往的中文NER模型只對(duì)字或詞進(jìn)行建模,很少關(guān)注句子的全局信息和漢字本身特有的字音、字形信息,以及預(yù)訓(xùn)練模型對(duì)中文語義表示不足等問題,提出了融合多種嵌入表示的中文NER模型FMER-CNER。在利用百度ERNIE預(yù)訓(xùn)練語言模型對(duì)字和句子進(jìn)行建模,得到字句嵌入表示的基礎(chǔ)上,充分考慮漢字本身的字音、字形特征,將拼音、五筆和四角碼作為額外特征融入字句嵌入表示中,以增強(qiáng)模型的語義表示能力。在MSRA數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證,F(xiàn)1值達(dá)到96.06%,超越了文中其他對(duì)比實(shí)驗(yàn)結(jié)果,證明了模型的有效性和優(yōu)越性。未來,將會(huì)在現(xiàn)有工作的基礎(chǔ)上繼續(xù)進(jìn)行探索優(yōu)化,嘗試解決復(fù)雜命名實(shí)體嵌套和領(lǐng)域命名實(shí)體遷移等問題。

        猜你喜歡
        標(biāo)簽語義向量
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        語言與語義
        無懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        標(biāo)簽化傷害了誰
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        基于多進(jìn)制查詢樹的多標(biāo)簽識(shí)別方法
        欧美日韩综合在线视频免费看| 国产香港明星裸体xxxx视频| 国产熟女内射oooo| 无码熟熟妇丰满人妻啪啪| 亚洲av午夜成人片精品| 国产精品日韩亚洲一区二区| 少妇被又大又粗又爽毛片| 久久精品国产亚洲av麻| 久久久久亚洲AV无码专| 丝袜美腿亚洲综合玉足| 一区二区三区人妻少妇| 又嫩又硬又黄又爽的视频| 国产成人无码一区二区在线观看 | 国产美女主播福利一区| 在线观看一区二区三区在线观看| 亚洲av无码偷拍在线观看| 中文字幕在线精品视频入口一区| 免费精品无码av片在线观看| 久久精品国产亚洲AV古装片| 精品国产一区二区三区香 | 丝袜美腿诱惑一二三区| 色哟哟亚洲色精一区二区| 国产熟妇高潮呻吟喷水| 国产精品黄色片在线观看| 亚洲综合中文日韩字幕| 草草地址线路①屁屁影院成人| 国产成人无码一区二区在线观看| 亚洲自拍另类欧美综合| av东京热一区二区三区| 中文字幕精品一区久久| 超碰cao已满18进入离开官网| 无码专区久久综合久中文字幕| 亚洲熟女av中文字幕网站| 亚洲国产精品日韩av专区| 比较有韵味的熟妇无码| 福利一区在线观看| 一区二区视频资源在线观看| 7194中文乱码一二三四芒果| 久久久久亚洲av无码专区体验| 亚洲欧洲日产国码久在线观看| 中文字幕人成乱码中文|