亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BSTTC模型的中文命名實(shí)體識(shí)別①

        2021-06-28 06:28:18張英俊謝斌紅趙紅燕
        關(guān)鍵詞:星型結(jié)點(diǎn)字符

        申 暉,張英俊,謝斌紅,趙紅燕

        (太原科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,太原030024)

        命名實(shí)體識(shí)別(Named Entity Recognition,NER),又稱作“專名識(shí)別”,是自然語言處理中的一項(xiàng)基礎(chǔ)任務(wù)[1–3],應(yīng)用范圍非常廣泛.命名實(shí)體一般指的是文本中具有特定意義或者指代性強(qiáng)的實(shí)體,通常包括人名、地名、機(jī)構(gòu)名、日期時(shí)間和專有名詞等.

        早期,基于詞典和規(guī)則的方法是命名實(shí)體識(shí)別任務(wù)中的主流方法,但這種方法只能夠在特定的語料上獲得較高的識(shí)別效果,而且費(fèi)時(shí)費(fèi)力、可移植性差,在面對眾多領(lǐng)域的復(fù)雜文本時(shí),該方法不再適用.隨著機(jī)器學(xué)習(xí)在自然語言處理領(lǐng)域的興起[4–6],將該方法應(yīng)用于NER 任務(wù)中成為一種新趨勢.在這種趨勢下,如何更好的解決序列標(biāo)注問題成為提升命名實(shí)體識(shí)別效果的關(guān)鍵.然而這種方法對特征選取的要求較高,不僅需要從文本中選擇對該項(xiàng)任務(wù)有影響的各種特征加入到特征向量中,而且需要依據(jù)特定命名實(shí)體識(shí)別所面臨的主要困難和所表現(xiàn)出的特性,選擇能有效反映該類實(shí)體特性的特征集合,導(dǎo)致其通用性不佳,泛化能力差.近年來,由于分布式表示學(xué)習(xí)技術(shù)的蓬勃發(fā)展,各種詞向量表示方法層出不窮,基于深度神經(jīng)網(wǎng)絡(luò)方法在NER這種典型的序列化標(biāo)注問題上取得了較大進(jìn)展.

        1 相關(guān)工作

        隨著深度學(xué)習(xí)的快速發(fā)展,源于神經(jīng)網(wǎng)絡(luò)模型的深度學(xué)習(xí)技術(shù)在NER 任務(wù)中的表現(xiàn)越來越突出,這種不依賴人工特征的端到端方案逐漸占據(jù)主流.該方法對于NER 問題的解決大致分為3 個(gè)階段:通過學(xué)習(xí)嵌入模型,以向量形式表示文本信息;將以向量表示的文本輸入到神經(jīng)網(wǎng)絡(luò)編碼,對文本序列建模;最后解碼層進(jìn)行解碼得到全局最優(yōu)標(biāo)注序列.目前,常用的生成詞向量工具有Mikolov 等提出的Word2Vec 模型[7]和Pennington 等提出的Glove 模型[8].但它們都無法解決多義詞問題,這兩種模型對于不同語境下的詞語產(chǎn)生的詞向量是相同的,這會(huì)對后續(xù)任務(wù)的結(jié)果產(chǎn)生影響.谷歌于2018年提出了BERT (Bidirectional Encoder Represe-ntations from Transformers)模型[9],該模型能夠更深層次地提取文本的語義信息,并且可以針對不同的上下文信息動(dòng)態(tài)生成詞向量,并使NLP 領(lǐng)域多個(gè)任務(wù)實(shí)驗(yàn)效果得到了大幅提升.

        在序列標(biāo)注任務(wù)當(dāng)中,常用的編碼方式有循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)、長短期記憶神經(jīng)網(wǎng)絡(luò)[10,11](Long Short-Term Memory,LSTM)和卷積神經(jīng)網(wǎng)絡(luò)[12,13](Convolutional Nerual Networks,CNN).CNN 通過使用與字符向量維度相同的卷積核與字符向量組成的矩陣進(jìn)行卷積得到其局部特征,最后通過池化操作使得輸出維度與輸入維度保持一致.CNN的優(yōu)點(diǎn)在于可以利用GPU 并行性快速提取局部特征,缺點(diǎn)是很難使提取的字符特征包含全局信息.RNN 由于其具有良好的序列建模能力而常常被應(yīng)用于命名實(shí)體識(shí)別任務(wù)中.然而其缺點(diǎn)在于隨著序列長度的增加,RNN 會(huì)逐步喪失學(xué)習(xí)能力,出現(xiàn)“梯度消失”現(xiàn)象.針對該問題,有學(xué)者提出RNN 的變體網(wǎng)絡(luò)—LSTM.通過添加門控機(jī)制緩解了“梯度消失”問題.但由于它的循環(huán)結(jié)構(gòu)無法利用GPU 并行性,這限制了它的計(jì)算效率.為了解決CNN 存在的無法捕獲全局信息與RNN 運(yùn)算效率低下的問題,谷歌于2017年提出了具有更強(qiáng)大特征抽取能力的Transformer 編碼器模型,并在多個(gè)NLP 任務(wù)中取得了良好的結(jié)果.但由于Transformer 模型[14]的結(jié)構(gòu)為全連接結(jié)構(gòu),所以它的計(jì)算和內(nèi)存開銷是句子長度的平方倍,參數(shù)量也較大,需要較長的訓(xùn)練時(shí)間.而在解碼階段,常用的模型有Softmax、條件隨機(jī)場(Conditional Random Field,CRF).其中,條件隨機(jī)場模型是目前解決序列標(biāo)注問題的最為經(jīng)典的方法.因?yàn)樵撃P统浞挚紤]了標(biāo)簽與前后文標(biāo)注的關(guān)系,所以能夠較好地解決標(biāo)注偏置等問題.

        由于LSTM 在處理時(shí)間序列數(shù)據(jù)時(shí)可以很好地獲取和保存序列的上下文信息,目前LSTM-CRF 已成為NER 任務(wù)的基礎(chǔ)網(wǎng)絡(luò)架構(gòu)之一,許多研究人員嘗試在其基礎(chǔ)上添加各種相關(guān)特征來提高最終的識(shí)別效果.例如Lample 等[15]于2016年提出BiLSTM-CRF 模型,該模型使用雙向LSTM 提取字符特征,并取得了當(dāng)時(shí)最好的識(shí)別效果;Huang 等[16]在BiLSTM-CRF 基礎(chǔ)上加入手工拼寫特征;Ma 等[17]在預(yù)訓(xùn)練好的詞向量中融入了字符級(jí)CNN 抽取的特征;而Chiu 等[18]還加入了多種預(yù)訓(xùn)練好的詞典特征.上述這些方法中使用的初始向量表示都是通過隨機(jī)生成或Word2Vec 預(yù)訓(xùn)練語言模型產(chǎn)生,導(dǎo)致其識(shí)別效果并未達(dá)到最好.也有基于CNN 的命名實(shí)體識(shí)別方案,例如Collobert 等[19]提出了CNN-CRF 網(wǎng)絡(luò)結(jié)構(gòu);Santos 等[20]又?jǐn)U展了該網(wǎng)絡(luò)結(jié)構(gòu),在其基礎(chǔ)上添加卷積層提取字符級(jí)特征;Strubell等[21]首次提出了空洞卷積網(wǎng)絡(luò)(IDCNN)來提取特征,擴(kuò)大了感受野的同時(shí)減少了參數(shù)數(shù)量.由于以上方法使用CNN為基本結(jié)構(gòu)提取特征無法充分獲取全局信息,所以其識(shí)別效果還有待提高.

        以上所述方法都存在共同的問題:初始嵌入無法表示一詞多義.由于BERT 可以充分表征不同語境中的句法與語義信息,近幾年,開始有研究人員考慮使用BERT 模型來生成初始嵌入,例如:Straková等[22]將BERT 模型應(yīng)用在嵌套命名實(shí)體識(shí)別中,提升了識(shí)別效果;謝騰等[23]采用了BERT-BiLSTM-CRF 模型進(jìn)行中文命名實(shí)體識(shí)別,在MSRA 數(shù)據(jù)集上達(dá)到了較高F1值94.65%;李妮等[24]提出基于BERT-IDCNN-CRF的中文命名實(shí)體識(shí)別方法,該方法通過BERT 預(yù)訓(xùn)練語言模型得到字的上下文表示,再將字向量序列輸入IDCNN-CRF 模型中進(jìn)行訓(xùn)練.雖然這些方法使用了BERT 模型得到文本向量表示,但在特征抽取速度和效果上還需進(jìn)一步提高.

        近年來,隨著中文命名實(shí)體識(shí)別的效果不斷提高,將命名實(shí)體方法應(yīng)用于某個(gè)特定領(lǐng)域成為了一個(gè)新的研究熱點(diǎn).例如:李麗雙等[25]為了抽取出生物醫(yī)學(xué)語料中的相關(guān)命名實(shí)體,提出了CNN-BiLSTM-CRF 網(wǎng)絡(luò)模型,并得到了較好的效果;周曉磊等[26]針對財(cái)產(chǎn)糾紛審判案件文書提出SVM-BiLSTM-CRF 模型,首先利用SVM 篩選出關(guān)鍵句子,并將其以字符向量表示,輸入BiLSTM-CRF 模型中抽取出動(dòng)產(chǎn)、不動(dòng)產(chǎn)、知識(shí)財(cái)產(chǎn)3 類實(shí)體;楊文明等[27]提出了IndRNN-CRF和IDCNN-BiLSTM-CRF 模型,并將其應(yīng)用于醫(yī)療文本中的命名實(shí)體抽取任務(wù)中,使得該模型在F1 值和精確率上都優(yōu)于經(jīng)典的BiLSTM-CRF 模型.

        為了解決一詞多義問題,并且可以在提高特征抽取速度的同時(shí)保證模型的識(shí)別效果,本文提出了一種基于BSTTC 模型的中文命名實(shí)體識(shí)別方法,使用BERT 動(dòng)態(tài)生成句子的表示矩陣,將該矩陣輸入聯(lián)合模型中進(jìn)一步抽取特征,最后由CRF 模型得到最佳預(yù)測序列.實(shí)驗(yàn)結(jié)果表明,模型在MSRA 數(shù)據(jù)集上的F1 值達(dá)到了95.69%.與BERT-Transformer-CRF 模型相比,訓(xùn)練時(shí)間大約節(jié)省了65%的時(shí)間.

        2 BSTTC 模型

        模型主要由3 個(gè)模塊構(gòu)成,分別是語言表示模塊、特征抽取與融合模塊以及標(biāo)簽解碼模塊,其整體結(jié)構(gòu)如圖1所示.模型首先利用BERT 預(yù)訓(xùn)練語言模型將標(biāo)注語料動(dòng)態(tài)表示為含有上下文語義信息的字符向量序列;然后將其分別輸入具有輕量結(jié)構(gòu)的星型Transformer 模型與TextCNN 模型中進(jìn)一步提取局部特征與全局特征;接著將兩種特征進(jìn)行融合得到新的向量序列;最后將經(jīng)過特征融合后的向量輸入CRF 層進(jìn)行解碼,得到每個(gè)字符的標(biāo)簽類別.

        圖1 BSTTC 模型結(jié)構(gòu)

        與現(xiàn)有的中文命名實(shí)體識(shí)別方法相比,本文提出的方法優(yōu)勢在于:① 利用BERT 預(yù)訓(xùn)練語言模型動(dòng)態(tài)得到了含有豐富語義信息的句子表示,解決了一詞多義的問題;② 使用了星型Transformer 模型和TextCNN分別提取局部特征和全局特征,將其進(jìn)行融合,使得每一個(gè)字符向量既具有句子表示又具有字符級(jí)表示;③ 星型Transformer 模型在Transformer 模型的基礎(chǔ)上優(yōu)化了網(wǎng)絡(luò)結(jié)構(gòu),大大減少了參數(shù)數(shù)量,縮短了訓(xùn)練時(shí)間,同時(shí)提高了F1 值.

        2.1 BERT 預(yù)訓(xùn)練語言模型

        詞嵌入技術(shù)是為了將自然語言中的詞映射到一個(gè)低維度稠密的連續(xù)向量空間中,使得語義相似的詞可以共享上下文信息,從而提升泛化能力.但是傳統(tǒng)的詞嵌入學(xué)到的是一個(gè)詞的固定語義,無法解決一詞多義問題.針對該問題,本文采用了谷歌發(fā)布的中文BERT預(yù)訓(xùn)練語言模型.

        BERT 預(yù)訓(xùn)練語言模型采用雙向Transformer 作為特征抽取器,完全基于多頭自注意力機(jī)制對一段文本進(jìn)行建模,可以無損失捕獲更長的上下文信息,提高了特征抽取能力.同時(shí),使用“Masked 語言模型”無監(jiān)督預(yù)測任務(wù)捕捉詞級(jí)別表示,充分利用詞左右上下文信息獲得更好的詞分布式表示.該任務(wù)使用隨機(jī)遮擋方法為BERT 模型賦予了一定的文本糾錯(cuò)能力,而且緩解了finetune 時(shí)候與預(yù)訓(xùn)練時(shí)輸入不匹配的問題(預(yù)訓(xùn)練時(shí)輸入句子當(dāng)中有mask,而finetune 時(shí)的輸入是完整的句子,即為輸入不匹配問題).

        在中文命名實(shí)體識(shí)別任務(wù)中,BERT 的輸入為單個(gè)句子.句子中每個(gè)字符對應(yīng)3 個(gè)向量,其中,Token Embeddings為字符向量,用于下游的分類任務(wù);Segment Embeddings為分段向量,在句子對任務(wù)中用于區(qū)分不同句子;Position Embeddings為位置向量,用于得到每個(gè)字符在序列中的相對位置信息.

        通過使用BERT 預(yù)訓(xùn)練語言模型,最終得到一個(gè)由字符嵌入序列組成的句子矩陣E∈Rn×d,矩陣中的一行代表一個(gè)字符向量.所以,一個(gè)由n個(gè)字符組成的句子X={x1,x2,···,xn}可以被表示為:E=[e1,e2,···,en],其中em是第m個(gè)字符嵌入.

        2.2 星型Transformer 模型

        Transformer 模型由于其獨(dú)特的結(jié)構(gòu)組合,在自然語言處理任務(wù)中表現(xiàn)出了良好的特征抽取能力.但由于Transformer 模型的結(jié)構(gòu)為全連接結(jié)構(gòu),如圖2所示,所以它的計(jì)算和內(nèi)存開銷是句子長度的平方倍,參數(shù)量較大,導(dǎo)致模型的訓(xùn)練需要較長時(shí)間.針對該問題,本文提出使用Transformer 模型的變體—星型Transformer模型提取句子特征,該模型具有輕量級(jí)的結(jié)構(gòu),核心思想是通過將完全連接的拓?fù)浣Y(jié)構(gòu)變換成星形結(jié)構(gòu)來稀疏架構(gòu).模型結(jié)構(gòu)[28]如圖3所示.

        圖2 Transformer 模型結(jié)構(gòu)

        在圖3星型Transformer 模型中,包含兩種結(jié)點(diǎn):一個(gè)中心結(jié)點(diǎn)和n個(gè)衛(wèi)星結(jié)點(diǎn).每個(gè)衛(wèi)星結(jié)點(diǎn)之間以及衛(wèi)星結(jié)點(diǎn)與中心結(jié)點(diǎn)之間都存在信息的傳遞.其中,衛(wèi)星結(jié)點(diǎn)之間的連接使得每個(gè)衛(wèi)星節(jié)點(diǎn)從其相鄰結(jié)點(diǎn)收集信息;衛(wèi)星結(jié)點(diǎn)與中心結(jié)點(diǎn)的連接可以使得每兩個(gè)非相鄰的衛(wèi)星節(jié)點(diǎn)可以通過中心結(jié)點(diǎn)進(jìn)行信息傳遞.

        圖3 星型Transformer 模型結(jié)構(gòu)

        與Transformer 中的建模機(jī)制相同,星型Transformer中每個(gè)結(jié)點(diǎn)的狀態(tài)同樣基于多頭自注意力機(jī)制進(jìn)行更新,其中,自注意力機(jī)制過程如式(1)所示.

        在自注意力機(jī)制中,每個(gè)初始字符嵌入向量乘以3 個(gè)不同的權(quán)值矩陣wq、wk、wv,從而得到3 個(gè)維度相同的向量,分別為Query 向量(Q)、Key 向量(K)和Value 向量(V).QKT計(jì)算出每個(gè)字向量之間的緊密程度得分,然后除以一個(gè)懲罰因子,使得Q、K的內(nèi)積保持在一個(gè)合理范圍內(nèi).接著使用Softmax對其進(jìn)行歸一化處理得到Attention值,并與Value向量相乘,最后輸出所有字符向量的帶權(quán)和,使得每個(gè)新的字符向量都包含了其余每個(gè)字符的信息.

        由于事物具有多面性,而自注意力機(jī)制只能關(guān)注到單方面的信息,為使模型能夠同時(shí)關(guān)注到來自不同位置與不同子空間的信息,星型Transformer 同樣采用了“多頭”模式,既將每個(gè)頭得到的信息進(jìn)行拼接,將拼接后得到的矩陣轉(zhuǎn)換為一個(gè)新的向量,如式(2)、式(3)所示.

        2.2.1 衛(wèi)星結(jié)點(diǎn)的更新

        當(dāng)使用星型Transformer 編碼長度為n的文本序列時(shí),設(shè)它的初始嵌入矩陣為:E∈Rn×d,所有衛(wèi)星結(jié)點(diǎn)與中心結(jié)點(diǎn)更新一次為一步更新.假設(shè)在t步更新后,中心節(jié)點(diǎn)的狀態(tài)為st∈R1×d,所有n個(gè)衛(wèi)星節(jié)點(diǎn)的狀態(tài)為(字符維度設(shè)為d維)

        初始化H0=E,s0=average(E).

        在第t步更新時(shí),每個(gè)衛(wèi)星節(jié)點(diǎn)與其上下文做多頭注意力,其上下文信息包括序列中的相鄰節(jié)點(diǎn)、、中心節(jié)點(diǎn)st?1、該結(jié)點(diǎn)先前狀態(tài)與其對應(yīng)的字符嵌入,更新過程如式(4)、式(5)所示:

        在信息交換之后,對每個(gè)衛(wèi)星結(jié)點(diǎn)進(jìn)行層歸一化操作,如式(6)所示:

        2.2.2 中心結(jié)點(diǎn)的更新

        在第t步更新時(shí),所有衛(wèi)星結(jié)點(diǎn)更新之后,中心結(jié)點(diǎn)與所有更新后的衛(wèi)星節(jié)點(diǎn)Ht及其先前狀態(tài)st?1做多頭注意力,然后進(jìn)行層歸一化操作,更新過程如式(7)–式(9)所示:

        最終,通過多步更新衛(wèi)星和中心結(jié)點(diǎn),星型Transformer 模型最終得到新的句子矩陣:H=[h1,h2,···,hn],H∈Rn×d.其整體更新過程如算法1 所示.

        算法1.星型Transformer 整體更新算法輸入:H=[h1,h2,···,hn]E=[e1,e2,···,en]輸出:1.//初始化h01,···,h0n←e1,···,en 2.s0←average(e1,···,en)3.4.for t 1 to T do 5.//更新全部衛(wèi)星結(jié)點(diǎn)6.for i 1 to n do Cti=■ei;st?1;ht?1i?1;ht?1i;ht?1i+1■7.hti=MultiAtt(Cti,ht?1i )8.hti=LayerNorm(ReLU(hti)),i∈[1,n]9.10.//更新中心結(jié)點(diǎn)Cti=[Ht;st?1]11.st=MultiAtt(Cti,st?1)12.st=LayerNorm(ReLU(st))13.14.//輸出由衛(wèi)星結(jié)點(diǎn)狀態(tài)組成的句子矩陣:H=[h1,h2,···,hn]

        2.3 TextCNN 模型

        由于星型Transformer 模型改變了Transformer 模型中的全連接結(jié)構(gòu),使得信息傳遞過程局限于鄰近結(jié)點(diǎn),無法像全連接結(jié)構(gòu)一樣充分提取句子的全局信息.鑒于卷積操作可以充分利用GPU 并行性,基于該問題,本文提出使用TextCNN 模型[29]提取句子特征,得到含有全局信息的句子向量.

        該模型結(jié)構(gòu)如圖4所示,圖中文本矩陣由BERT預(yù)訓(xùn)練語言模型產(chǎn)生的字符嵌入向量組成,卷積層的過濾器大小分別為3、4、5、6.在卷積層使用不同的卷積核由上往下滑動(dòng)與矩陣做卷積操作,卷積核的寬度和字符向量的維度一致,每個(gè)卷積核獲得一列feature map.卷積過程如式(10)、式(11)所示:

        圖4 TextCNN 模型

        其中,ei:i+h?1∈Rh×d表示由字符嵌入序列ei,ei+1,···,ei+h?1組成的矩陣,w∈Rh×d是卷積核,f是非線性函數(shù),b是偏置,c為卷積核w獲得的feature map.

        每個(gè)feature map 通過max-pooling 都會(huì)得到一個(gè)特征值,這個(gè)操作也使得TextCNN 能處理不同長度的文本.連接每個(gè)特征值形成一個(gè)一維向量作為含有Dropout 層的全連接層的輸入,經(jīng)過激活函數(shù)輸出.并在全連接層上添加L2 正則化參數(shù).最后將全連接層的輸出使用Softmax函數(shù),獲取文本分到不同類別的概率.本文中旨在使用TextCNN 模型得到該句子的全局特征,所以丟掉最后一層.最終該模型的輸出為一維句子向量:v∈R1×d.

        在中文命名實(shí)體識(shí)別任務(wù)中,字符的標(biāo)簽判別過程不僅要考慮該字符周圍的信息,即局部特征,句子中包含的全局信息也有助于最終的標(biāo)簽預(yù)測,所以,融合局部特征和全局特征是有必要的.目前,常用的特征融合策略有兩種:concat和add.由于concat是通過將向量拼接來融合信息,維度增加,最終導(dǎo)致計(jì)算量的增加,所以,本文采用了add 融合策略得到最終的文本表示矩陣,即:將TextCNN與Star-Transformer 模型的輸出進(jìn)行融合:H′=[(h1+v),···,(hn+v)],H′∈Rn×d.

        2.4 CRF 模型

        命名實(shí)體識(shí)別本質(zhì)上是一種多分類問題,所以在解碼階段Softmax分類器是一種常用的方法.但由于該方法只是單純的分類,沒有考慮到標(biāo)簽之間含有依存關(guān)系.因此,本文使用條件隨機(jī)場模型(CRF).CRF是給定一組輸入序列條件下另一組輸出序列的條件概率分布模型,在自然語言處理中得到了廣泛應(yīng)用.

        在CRF 中,每個(gè)句子X={x1,x2,···,xn}都有一個(gè)待選標(biāo)簽序列集合YX,通過計(jì)算集合中每個(gè)標(biāo)簽序列Y={y1,y2,···,yn}的得分來決定最終的標(biāo)注序列,計(jì)算得分過程如式(12)所示.

        其中,P∈Rn×k是一個(gè)得分矩陣,k為所有標(biāo)簽數(shù)量,Pi,j表示句子中第i個(gè)字符對應(yīng)第j個(gè)標(biāo)簽的分?jǐn)?shù);A∈R(k+2)×(k+2)是一個(gè)包含了句子開始與結(jié)束標(biāo)簽的轉(zhuǎn)移矩陣,Ai,j則表示標(biāo)簽i到標(biāo)簽j的轉(zhuǎn)移分?jǐn)?shù).

        最后將每個(gè)標(biāo)簽序列的分?jǐn)?shù)進(jìn)行歸一化得到概率,其中概率最大的標(biāo)簽序列即為該句子的最終標(biāo)注序列,歸一化過程如式(13)所示.

        3 實(shí)驗(yàn)及結(jié)果分析

        3.1 實(shí)驗(yàn)環(huán)境

        本文所做實(shí)驗(yàn)均在Ubuntu 操作系統(tǒng)上進(jìn)行;處理器為i7-6700HQ@2.60 GHz;內(nèi)存大小16 GB;顯存大小為10 GB;使用深度學(xué)習(xí)框架PyTorch 1.2.0 構(gòu)建所有神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練和測試;使用Python 3.6 編程語言進(jìn)行代碼編寫.

        3.2 實(shí)驗(yàn)數(shù)據(jù)

        本文采用微軟亞洲研究院公開的MSRA 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn).該數(shù)據(jù)集中含有訓(xùn)練集與測試集,包含的實(shí)體類型有人名、機(jī)構(gòu)名、地名.其中,訓(xùn)練集和測試集分別由46 400 個(gè)句子和4400 個(gè)句子組成.數(shù)據(jù)集中各類實(shí)體統(tǒng)計(jì)如表1所示.

        表1 數(shù)據(jù)集實(shí)體個(gè)數(shù)

        3.3 標(biāo)注策略與評(píng)價(jià)指標(biāo)

        在命名實(shí)體識(shí)別任務(wù)中,有BOI、BOIE、BOIES 三種標(biāo)注方法.本文采用了BOI 標(biāo)注策略,其中實(shí)體中第一個(gè)字符用“B”代表,“O”表示該字符為非實(shí)體,實(shí)體中第一個(gè)字符以外的字符用“I”表示.所以,將實(shí)體邊界與實(shí)體類型結(jié)合可以得到7 種待預(yù)測標(biāo)簽:“O”,“B-PER”,“B-LOC”,“B-ORG”,“I-PER”,“I-LOC”和“I-ORG”.

        在命名實(shí)體識(shí)別任務(wù)中,精確率P、召回率R和F1 值是常用的3 種評(píng)價(jià)指標(biāo).每種評(píng)價(jià)指標(biāo)的具體計(jì)算過程如公式14 所示.其中,TP為預(yù)測出是實(shí)體并預(yù)測正確的個(gè)數(shù),FP為預(yù)測出為實(shí)體但預(yù)測錯(cuò)誤的個(gè)數(shù),FN為是實(shí)體但預(yù)測為非實(shí)體的個(gè)數(shù).

        3.4 參數(shù)設(shè)置

        本實(shí)驗(yàn)使用BERT-Base 預(yù)訓(xùn)練語言模型作為向量表示層,該模型共有12 層,在多頭注意力中頭數(shù)為12,隱層輸出為768 維,參數(shù)大小為110 MB.星型Transformer模型的層數(shù)分別設(shè)為1、2、3、4 層,TextCNN 中采用單通道方式,由于數(shù)據(jù)集中實(shí)體最大長度為6,所以卷積核設(shè)置四種不同的尺寸,寬度與字符向量維度一致,高度分別為3、4、5、6.具體網(wǎng)絡(luò)訓(xùn)練參數(shù)設(shè)置如表2所示.

        表2 參數(shù)配置

        3.5 實(shí)驗(yàn)過程及結(jié)果分析

        在實(shí)驗(yàn)中,首先驗(yàn)證了星型Transformer 模型層數(shù)對F1 值的影響.隨著訓(xùn)練迭代次數(shù)增加,BSTTC 模型的F1 值變化如圖5所示,其中,每條折線代表了不同星型結(jié)構(gòu)層數(shù)時(shí)模型的F1 值變化.Star-Transformer-1 表示星型結(jié)構(gòu)的層數(shù)為1 層,其他模型以此類推.實(shí)驗(yàn)中其余超參數(shù)不變,只改變星型結(jié)構(gòu)層數(shù).實(shí)驗(yàn)表明,效果最好的是Star-Transformer-3 模型,并在第16 個(gè)epoch 時(shí)F1 值達(dá)到最大95.69%.

        圖5 星型結(jié)構(gòu)模型不同層數(shù)的F1 值

        表3中分別列出了取得最大F1 值時(shí)數(shù)據(jù)集中每種實(shí)體識(shí)別的準(zhǔn)確率、召回率和F1 值.與人名和地名實(shí)體相比,機(jī)構(gòu)類實(shí)體的識(shí)別效果較差,原因可能在于大部分機(jī)構(gòu)名中都嵌套有地名,這對于最終的預(yù)測造成了較大的干擾,導(dǎo)致預(yù)測效果不佳.

        表3 BSTTC 不同類型命名實(shí)體識(shí)別結(jié)果(%)

        為了驗(yàn)證星型Transformer 模型輕量結(jié)構(gòu)的優(yōu)越性,還在該語料上與BERT-Transformer-CRF 模型進(jìn)行了對比,對比結(jié)果如圖6所示.可以看出,BSTTC 模型的收斂速度更快,在訓(xùn)練初期,就能夠達(dá)到一個(gè)較高的F1 值,并且持續(xù)提升,最后保持在一個(gè)相當(dāng)高的水平上.而BERT-Transformer-CRF 模型在多次迭代更新后才會(huì)上升到一個(gè)較高水平,但還是無法超過 BSTTC 模型.

        圖6 實(shí)驗(yàn)結(jié)果對比

        表4中分別列出了BERT-Transformer-CRF和BSTTC 模型迭代訓(xùn)練的累計(jì)時(shí)間及其對應(yīng)的F1 值.可以看到,BERT-Transformer-CRF 模型在第18 個(gè)epoch 時(shí)得到最優(yōu)F1 值94.85%,而BSTTC 模型在第16 個(gè)epoch 時(shí)就達(dá)到最大F1 值95.69%,此時(shí)它們的訓(xùn)練時(shí)間分別為19238 s與54725 s,與BERT-Transformer-CRF 模型相比,BSTTC 的訓(xùn)練時(shí)間大約節(jié)省了65%.

        表4 迭代訓(xùn)練累計(jì)時(shí)間

        此外,為了驗(yàn)證模型的有效性,本文還在該語料上與以下模型進(jìn)行了對比:

        1) Radical-BiLSTM-CRF 模型,由Dong 等[30]提出.該模型將字的嵌入和筆畫表示的連接輸入到BiLSTMCRF 中進(jìn)行訓(xùn)練.

        2) Lattice-LSTM-CRF 模型,由Zhang 等[31]提出,該模型在嵌入層利用注意力機(jī)制融合了字符與詞粒度特征,其中單詞選取原則為該字符居于單詞末位.

        3) DEM-attention 模型,由Zhang 等[32]提出,該模型同樣利用注意力機(jī)制在嵌入層中動(dòng)態(tài)結(jié)合了字符和單詞粒度的特征,只是單詞選取原則稍有不同,該字符在句子中對應(yīng)的所有單詞都包含在內(nèi),然后將其輸入BiLSTM-CRF 中進(jìn)行訓(xùn)練.

        4) BERT-BiLSTM-CRF 模型,該模型采用預(yù)訓(xùn)練好的BERT 模型產(chǎn)生字向量,輸入BiLSTM-CRF 模型中進(jìn)行訓(xùn)練.

        5) CAN 模型,由Zhu 等[33]提出,該模型將預(yù)訓(xùn)練好的詞向量輸入CNN和GRU 網(wǎng)絡(luò)從相鄰字符和句子上下文中捕獲信息,并使用了CRF 進(jìn)行標(biāo)簽預(yù)測.

        6) BERT-Transformer-CRF 模型,該模型類似于BERT-BiLSTM-CRF 模型,將BiLSTM 層替換為Transformer 層.

        7) BERT-Star-Transformer-CRF 模型,該模型類似于BERT-BiLSTM-CRF 模型,將BiLSTM 層替換為Star-Transformer 層.

        表5中分別列出了每種模型的精確率、召回率和F1 值實(shí)驗(yàn)結(jié)果.

        表5 與其它模型對比結(jié)果(%)

        從對比結(jié)果可以看出,與其它模型相比,BSTTC模型在精確率、召回率和F1 值3 方面均有提高.

        1) 將模型4與模型1、模型2、模型3、模型5作對比,可以發(fā)現(xiàn)模型4 的F1 值最高,說明BERT 抽取的特征比單獨(dú)訓(xùn)練筆畫特征和字詞融合特征更豐富,BERT 字向量更好的結(jié)合了上下文,可以更好的表示字的語義信息.

        2)將模型6與模型4 做對比,可以發(fā)現(xiàn)與BiLSTM相比,Transformer 模型的特征抽取能力更強(qiáng),可以得到具有更豐富語義信息的字符特征.

        3)將模型6、模型7 對比,可以發(fā)現(xiàn)在召回率和F1 值上都有一定程度的提高,在精確率上有所下降,說明星型Transformer 模型在簡化結(jié)構(gòu)的同時(shí)保留了絕大部分捕獲長期依賴的能力.

        4)將模型7、模型8 做對比,加入TextCNN 模型后,精確率、召回率和F1 值都有所提高,且都高于BERTTransformer-CRF 模型,充分表明了與Transformer 模型捕獲的特征相比,TextCNN 捕獲的全局特征與星型Transformer 模型融合后的特征更加豐富,更有助于標(biāo)簽的判別.

        4 結(jié)束語

        針對傳統(tǒng)詞向量表示方法無法表征字多義性,以及Transformer 特征抽取模型參數(shù)量大,訓(xùn)練時(shí)間長,無法充分提取全局信息的問題,提出了基于特征融合的BSTTC 模型.該模型摒棄了傳統(tǒng)語言模型的缺點(diǎn),使用BERT 動(dòng)態(tài)生成含有豐富語義特征與語法結(jié)構(gòu)特征的字符向量,然后通過星型Transformer與TextCNN聯(lián)合模型進(jìn)一步提取特征,在減少訓(xùn)練時(shí)間的同時(shí)保證了特征抽取能力.結(jié)果表明,與以往模型相比,本文的BSTTC 模型在MSRA 數(shù)據(jù)集上取得了最好的效果.下一步將考慮引入外部信息,提升復(fù)雜嵌套實(shí)體的識(shí)別效果.

        猜你喜歡
        星型結(jié)點(diǎn)字符
        尋找更強(qiáng)的字符映射管理器
        增加斷電連鎖 減少絞傷風(fēng)險(xiǎn)
        字符代表幾
        一種USB接口字符液晶控制器設(shè)計(jì)
        電子制作(2019年19期)2019-11-23 08:41:50
        金銀點(diǎn)綴
        消失的殖民村莊和神秘字符
        Ladyzhenskaya流體力學(xué)方程組的確定模與確定結(jié)點(diǎn)個(gè)數(shù)估計(jì)
        D-π-A星型分子的合成及非線性光學(xué)性質(zhì)
        基于Raspberry PI為結(jié)點(diǎn)的天氣云測量網(wǎng)絡(luò)實(shí)現(xiàn)
        活化的星型膠質(zhì)細(xì)胞生成Aβ對阿爾茨海默病的影響
        经典黄色一区二区三区| 国产成人精品无码播放| 亚洲AV无码国产永久播放蜜芽| 中文字幕日本女优在线观看| 国产成人av三级在线观看韩国 | 美女黄网站永久免费观看网站| 蜜桃视频一区二区三区四| 亚州性无码不卡免费视频| 小sao货水好多真紧h视频| 亚洲精品成人国产av| 中文字幕视频一区懂色| 亚洲人成网站在线播放2019 | 草草影院发布页| 欧美日韩一区二区综合| 久久狠狠高潮亚洲精品暴力打| 亚洲一区二区三区久久久| 公厕偷拍一区二区三区四区五区 | 97无码人妻福利免费公开在线视频| 91精品国产综合久久青草| 97人妻中文字幕总站| 美国少妇性xxxx另类| 久久久国产一区二区三区四区小说 | 亚洲AV色欲色欲WWW| 日韩免费精品在线观看| 欧美日韩国产精品自在自线| 久久久窝窝午夜精品| 熟女丝袜美腿亚洲一区二区三区 | 亚洲天堂色婷婷一区二区| 精品亚洲一区二区三区四区五区 | 国产成人+亚洲欧洲+综合| 亚洲精品中文字幕二区| 国产91色综合久久免费| 在线播放免费播放av片| 成人无码h真人在线网站| 丰满人妻一区二区三区52| 永久免费毛片在线播放| 国产精品成人免费视频网站京东| 久久久99久久久国产自输拍| 国产免费一区二区在线视频| 丰满人妻一区二区三区视频53| 久久噜噜噜|