亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于注意力增強的點陣Transformer的中文命名實體識別方法

2022-12-08 13:39:18韓曉凱史偉亮

廈門大學學報(自然科學版) 2022年6期

韓曉凱，岳頎，褚晶，史偉亮，韓展

(西安郵電大學自動化學院，陜西西安710121)

命名實體識別(named entity recognition, NER)是自然語言處理(natural language processing,NLP)中的一項基本任務，其結(jié)果會影響其他后續(xù)的NLP任務.NER的目的是從文本中提取具有特定含義的詞語，包括人名、地名、機構名以及專有名詞.相比于英文實體識別，中文實體識別需要先對中文語句進行分詞處理，且分詞結(jié)果的好壞對模型的識別效果有很大影響，因此中文實體識別的難度更大.以句子“西安櫻花廣場”為例，若將“櫻花廣場”分詞為“櫻花”和“廣場”，那么實體“櫻花廣場”會被錯誤的識別為“櫻花”和“廣場”兩個實體.為了解決該問題，Zhang等[1]提出了可以同時考慮字和詞的點陣結(jié)構，并將這種結(jié)構使用在點陣長短期記憶網(wǎng)絡(long short-term memory,LSTM)模型上.如圖1(a) 所示.該結(jié)構通過將句子與詞典進行匹配，從而獲得句子中包含的所有詞語，并對句子中的每個字以及匹配到的詞語進行特征提取，之后模型會通過上下文信息判斷“櫻花廣場”是一個實體還是兩個實體，避免因分詞錯誤造成的識別錯誤.Li等[2]對點陣結(jié)構進行修改，結(jié)合Transformer-XL[3]，提出 FLAT(flat-lattice-Transformer).FLAT中使用的點陣為扁平式點陣，如圖1(b) 所示.這種點陣將從詞典中匹配到的詞語放置在輸入語句的末尾，并通過位置編碼確定這些詞在原始語句中的位置.然而，該方法不僅增加了序列長度，還增加了低相關性的上下文信息，導致Transformer[4]出現(xiàn)注意力分散的現(xiàn)象.

Zhao等[5]認為，注意力模型關注所有上下文信息會導致注意力不集中，因此提出了稀疏注意力機制，使注意力模型只關注最相關的信息，并在NLP任務上進行實驗，證明了該方法的有效性.

圖1 點陣結(jié)構與扁平式點陣Fig.1Lattice structure and flat lattice

由于點陣模型引入的信息量比基于字或詞的實體識別模型引入的信息量更多，低相關性以及噪聲對注意力機制的干擾更為明顯，受Dai等[3]啟發(fā)，本研究提出了一種新的NER模型——注意力增強的點陣Transformer(attention-enhanced lattice Transformer，AELT).AELT對注意力矩陣進行顯式稀疏處理，通過注意力分數(shù)對信息進行評價，只保留有價值的信息，這樣可以提升高相關性信息參與編碼時的占比，使得注意力更加集中，且減少了低相關性信息和噪聲對模型造成的干擾.這種機制稱為Top-k機制，可通過調(diào)整參數(shù)k的大小來控制注意力機制的注意范圍.由于輸入序列的長度是不同的，固定的參數(shù)k難以使模型達到最好的識別效果.因此本研究還對參數(shù)k的選擇進行了優(yōu)化，使其能夠跟隨輸入序列的長度進行動態(tài)調(diào)整.除此之外，本研究還為AELT并行添加了一個專門用于分析句子語義信息的Transformer，使其能夠更多地關注句子本身的信息.為了驗證所提出方法的有效性，在主流的中文NER數(shù)據(jù)集上對比AELT、 FLAT、Lattice-LSTM等模型的識別性能.總的來說，本研究的主要工作內(nèi)容包括：

1) 為基于點陣的Transformer設計了Top-k機制，對點陣引入的信息進行篩選過濾，將低相關性信息進行屏蔽，讓有價值的信息參與AELT的學習過程.

2) 為AELT并行添加了用于獨立分析句子語義信息的Transformer，使其能夠更多地關注句子本身，并與點陣Transformer聯(lián)合完成NER任務.

3) 將AELT在Weibo、Resume、Ontonotes和MSRA數(shù)據(jù)集上進行實驗測試，并與FLAT等主流方法進行對比.

1 相關工作

1.1 NER深度學習模型

隨著深度學習的發(fā)展，人們開始嘗試使用深度學習模型來解決NER問題.Hammerton[6]使用LSTM完成了NER任務，使得LSTM成為最早用來解決NER問題的深度學習模型之一.Collobert等[7]提出了一種基于卷積神經(jīng)網(wǎng)絡(convolutional neural networks,CNN)和多層神經(jīng)網(wǎng)絡的NLP領域通用模型，其可在大量未標記的訓練數(shù)據(jù)上學習內(nèi)部表示.Huang等[8]使用雙向LSTM(Bi-directional LSTM,BiLSTM)解決LSTM只能單向提取特征的問題，并將其與條件隨機場(conditional random field,CRF)結(jié)合，在NER任務中得到了不錯的表現(xiàn).為了使模型能充分利用GPU并行計算的能力，Vaswani等[4]提出了基于自注意力機制的Transformer模型，并在機器翻譯任務中驗證了該方法的有效性，該模型能夠同時考慮全文語義信息對字或詞進行語義編碼，實質(zhì)上是一種能夠優(yōu)化語義編碼的模型，因此該模型成為了包括NER在內(nèi)的NLP領域通用模型.Dai等[3]認為Transformer對長程依賴的建模能力不足，并對其進行了改進，提出了Transformer-XL模型，改進后的模型對長程依賴的建模能力提高了80%,為解決NER問題提供了新思路.

1.2 中文NER

不同于英文NER，中文NER沒有明確的詞邊界信息，這使得詞語邊界的識別在中文NER中尤為重要.相較于基于字的中文NER方法，基于詞語方法能夠更好地識別實體邊界，但該方法首先需要進行分詞處理，因此分詞質(zhì)量的好壞對模型的識別效果有決定性的影響.Liu等[9]分別對基于字和基于詞的方法進行了討論，認為在經(jīng)驗上基于字的方法是一個更好的選擇.但該方法會損失許多詞語信息.為了更好地利用這些詞信息，Zhang等[1]提出了一種點陣結(jié)構的LSTM，命名為Lattice LSTM.該模型可以同時考慮字信息和詞信息，且不存在分詞錯誤的現(xiàn)象.Gui等[10]提出了重思考機制，并將其應用在LR-CNN(lexicon rethinking CNN)上，通過結(jié)合輸入語句中的二元詞和三元詞來重新對字符進行編碼，使其能夠包含多元詞語中的語義信息.Zhu等[11]結(jié)合包含局部注意力機制的CNN和包含全局注意力的門控循環(huán)單元來捕獲相鄰字符以及上下文信息，提出卷積注意力網(wǎng)絡(convolutional attention network,CAN)模型.Gui等[12]提出一種基于詞典的圖神經(jīng)網(wǎng)絡(lexicon-based graph neural network,LGN),使用圖神經(jīng)網(wǎng)絡將詞典匹配到的潛在詞語信息，并引入到模型中完成NER任務.Xue等[13]通過位置關系來增強自注意力，并引入多孔機制來增強局部建模，提出結(jié)合點陣結(jié)構與Transformer的多孔點陣Transformer(porous lattice transformer encoder,PLTE)方法.Li等[2]也對點陣進行了改進，提出FLAT模型，該模型結(jié)合Transformer-XL，將點陣轉(zhuǎn)換為一種扁平狀的結(jié)構，并使用位置信息來模擬點陣的原始結(jié)構，F(xiàn)LAT能夠在考慮詞語語義信息的同時增強對上下文信息的建模.

2 AELT模型

點陣Transformer能夠利用句子中包含的詞語信息作為輔助信息來完成實體識別任務，但需要處理的信息量也因此大幅增長.實際上模型在對形符(Token)進行編碼時并非所有信息都值得考慮.大量的信息反而會分散模型的注意力，使有效信息所占權重降低，導致最終編碼包含噪聲，影響模型性能.而且詞語等信息作為一種輔助信息輔助模型完成識別任務時，模型應該更多關注句子本身的語義，有助于對實體邊界的判別.為此，本研究提出了一種名為AELT的新模型.模型的網(wǎng)絡結(jié)構圖如圖2所示，其主要包含3大模塊：點陣輸入模塊、AELT編碼模塊以及CRF解碼模塊.其中AELT編碼模塊有兩個獨立的Transformer模塊，分別用來完成點陣語義信息的編碼和句子語義信息的編碼.

圖2 AELT結(jié)構Fig.2AELT structure

2.1 點陣輸入層

點陣輸入模塊與FLAT中的Flat-Lattice層相同，該層用來對輸入語句完成點陣的組建并轉(zhuǎn)換為字詞嵌入.點陣的結(jié)構信息用位置編碼來表示.Top-kTransformer編碼器的輸入為點陣的字詞向量以及相對位置編碼.字Transformer的輸入通過去除點陣序列中的詞語部分來獲得.因此點陣輸入層的處理流程如圖3所示.以句子“西安櫻花廣場”為例，句子中的字與詞典進行匹配后得到潛在詞語“西安”、“櫻花”、“廣場”、“櫻花廣場”，將這些詞語拼接至句子末尾，構成點陣序列L={l1,l2,…,ln}.之后，使用以下兩種方式分別對得到Top-kTransformer和字Transformer編碼模塊的輸入數(shù)據(jù).

(1)

(2)

(3)

(4)

(5)

(6)

(7)

圖3 點陣輸入層Fig.3Lattice input layer

2.2 AELT編碼器

圖4 AELT編碼器結(jié)構Fig.4AELT encoder construction

模型在對實體邊界進行判別的過程中，詞語信息是有效的，但同時句子本身的語義信息也起到了非常重要的作用.雖然包含詞語信息的Top-kTransformer編碼器具備提取句子語義信息的能力，但由于引入的大量詞語分散了對句子的關注程度，導致模型對句子語義信息的提取能力減弱.因此，本研究為模型添加了單獨對句子進行語義特征提取的字Transformer來彌補這一缺陷.

具體地，AELT編碼器包含有兩個子編碼器，分別為字Transformer編碼器(圖4(a))和Top-kTransformer編碼器(圖4(b))，用于分別完成對句子語義信息的編碼和對點陣語義信息的編碼.字Transformer編碼器采用了與Vaswani等[8]提出的Transformer編碼器相同的結(jié)構，同時也是Top-kTransformer編碼器的基礎結(jié)構，因此下文先對字Transformer編碼器進行介紹，之后詳細介紹Top-kTransformer編碼器.

2.2.1 字Transformer編碼器

詞語等信息只能輔助模型完成NER任務，模型在利用這些信息的同時，句子本身的語義更應該值得關注.例如句子“西安櫻花廣場”中“櫻花廣場”應該被識別為一個實體還是應該被識別為“櫻花”和“廣場”兩個實體，需要對整個句子的語義進行分析才能更好地判斷.因此，本研究在AELT中并行添加了一個專用于分析句子語義信息的獨立字Transformer編碼器.其結(jié)構由自注意力機制層和前饋神經(jīng)網(wǎng)絡層組成，計算式如式(8)～(11)所示，每一層之后跟隨一層殘差連接和歸一化處理層(為避免累贅，下文計算式中未體現(xiàn)).

(8)

(9)

AC=softmax(Sij)VC,

(10)

(11)

2.2.2 Top-kTransformer編碼器

Top-kTransformer編碼器與FLAT編碼器類似，區(qū)別在于Transformer中注意力機制的執(zhí)行.圖5展示了二者的主要不同.本研究認為在對形符進行編碼時，并非所有信息都對編碼有價值.因此引入了Top-k的稀疏機制，該機制會對注意力分數(shù)矩陣進行稀疏處理，對編碼貢獻較高的信息將被保留，低相關性的信息則不予考慮.這種方法能有效保留重要信息，并消除噪聲帶來的不利影響，使得模型注意力能更加集中在有價值的信息上.Top-kTransformer編碼器先通過式(12)～(13)計算出點陣注意力分數(shù)矩陣SL：

(12)

(13)

圖5 FLAT編碼器與Top-k Transformer編碼器的主要區(qū)別Fig.5 The main differences between FLAT encoder and Top-k Transformer encoder

(14)

AL=softmax(S*)VL,

(15)

(16)

圖6 Top-k機制算法Fig.6Top-k mechanism algorithm

對Top-k機制通俗的解釋為，點陣注意力矩陣的第i行中包含第i個形符與該句子中其他所有形符的相似度分數(shù)，通過閾值ti篩選后，保留與第i個形符相關性最高的前k個形符，使這k個形符參與第i個形符的編碼，由于相關性較低的其他形符未參與第i個形符的編碼，因此第i個形符的編碼受到的干擾更小，更專注于表達它原本的語義信息.通過該機制，高相關性的信息會被保留，相關性低的信息、噪聲等將被剔除.使模型的注意力能夠集中在最有價值的要素上.

Top-k機制中參數(shù)k的大小能夠控制模型的注意范圍.k越大，編碼時參考的信息越多，抗干擾能力就會越差，k越小，包含的語義信息會越少，因此參數(shù)k的選擇會直接影響模型的性能.由于輸入語句的長度不同以及匹配的詞語數(shù)量也不同，使用固定的參數(shù)k很難達到理想的過濾效果，因此本研究使用一種計算簡單的動態(tài)方法，使k能夠根據(jù)序列的長度做出相應的調(diào)整，如式(17)：

(17)

其中,N是超參數(shù)，nL表示點陣序列L的長度.

對于Top-kTransformer和字Transformer的輸出結(jié)果，本研究針對不同大小的數(shù)據(jù)集使用了不同的特征融合方式，對于Weibo這類小型數(shù)據(jù)集，將兩個子編碼器的輸出結(jié)果相加后得到AELT編碼器的輸出結(jié)果，如式(18)所示.對于Resume、Ontonotes以及MSRA這類中大型數(shù)據(jù)集使用拼接的方式融合兩個子編碼器的輸出結(jié)果，如式(19)所示.

X=XC+XL,

(18)

X=XC⊕XL.

(19)

2.3 CRF解碼器

在注意力增強Transformer編碼器中完成對特征的提取和編碼后，使用CRF解碼器進行解碼，輸出標注序列.CRF可以考慮標簽之間的依賴關系，參考句子的整體信息，以在序列標記任務中獲得更好的結(jié)果，因此該方法也是大多數(shù)NER模型所采用的解碼方法.如式(20)～(21)所示，對于序列X={x1,x2,…,xm}，對應的序列標簽為Y={y1,y2,…,ym}，則y的概率為P*.

P*(y|x)=

(20)

(21)

其中:tk(yi-1,yi,x,i)為轉(zhuǎn)移特征函數(shù)，sl(yi,x,i)為狀態(tài)特征函數(shù)，兩者取值均為1或0；λk和ul是相對應的權重系數(shù)，是可學習的參數(shù).

3 實驗

3.1 數(shù)據(jù)集與對比模型

本研究共開展了如下3種實驗.實驗一：在Weibo[14-15]、Resume[1]、 Ontonotes[16]以及MSRA[17]數(shù)據(jù)集上對AELT進行了評估實驗，使用F1、準確率(P)、和召回率(R)作為評估標準，并與主流的中文實體識別模型進行性能對比.實驗二：還對AELT編碼器中兩個子編碼器輸出特征的融合方式進行了實驗.實驗三：對模型進行了消融實驗，用來驗證模型結(jié)構的有效性.

3.2 實驗環(huán)境及超參數(shù)設置

在實驗中，采用與Lattice LSTM[1]實驗中相同的詞典、預訓練字嵌入、二元語法嵌入以及詞語嵌入，實驗代碼在FLAT[2]代碼的基礎上進行修改，并在Colab云計算平臺上選用Tesla P100計算卡進行性能評估實驗.

超參數(shù)方面，對于不同的數(shù)據(jù)集，模型超參數(shù)的設置也不同，在各數(shù)據(jù)集上超參數(shù)的設置如表1所示.

3.3 中文NER實驗結(jié)果

AELT在Weibo數(shù)據(jù)集上的實驗結(jié)果如表2所示.以F1分數(shù)為衡量標準，在N=3時AELT在Weibo數(shù)據(jù)集上取得了最好效果，F(xiàn)1分數(shù)為61.89%，精確率P為62.86%，召回率R為61.03%.相較于FLAT，AELT的F1分數(shù)提升1.57個百分點，提升效果顯著.LR-CNN在精確率上依舊具有優(yōu)勢，但其F1分數(shù)較AELT低5.35個百分占點，差距明顯.

表1 超參數(shù)設置

表2 AELT在Weibo數(shù)據(jù)集上的實驗結(jié)果

AELT在Resume數(shù)據(jù)集上的實驗結(jié)果如表3所示.AELT在中型數(shù)據(jù)集上的表現(xiàn)也有較大提升，同樣以F1分數(shù)為標準，在N=1.3時識別效果最佳，F(xiàn)1分數(shù)為95.93%，相較于FLAT，其F1分數(shù)提升0.48個百分點.AELT的P為95.80%，R為96.06%，二者非常接近，這說明AELT模型在查準和查全兩個方面上的性能比較均衡.

為了驗證AELT在大型數(shù)據(jù)集上的表現(xiàn)，在Ontonotes數(shù)據(jù)集上進行實驗，實驗結(jié)果見表4.在N=4.5時模型性能達到最佳，F(xiàn)1分數(shù)為76.91%，相比FLAT提升0.46個百分點，P為76.49%，R為77.32%，模型性能提升明顯.而在N=2時AELT的P和R最為接近，相差0.15個百分點，此時模型的性能最為穩(wěn)定，F(xiàn)1分數(shù)也較FLAT高0.38個百分點，說明Top-k機制對無關信息的過濾是有效的.

表3 AELT在Resume數(shù)據(jù)集上的實驗結(jié)果

表4 AELT在Ontonotes數(shù)據(jù)集上的實驗結(jié)果

MSRA：除了Ontonotes外，常用的大型中文實體識別數(shù)據(jù)集還有MSRA，AELT在該數(shù)據(jù)集上也有不錯的表現(xiàn)，實驗結(jié)果見表5，在N=5時模型F1分數(shù)為94.60%，識別效果達到最佳，相比FLAT提升了0.48個百分點.

表5 AELT在MSRA數(shù)據(jù)集上的實驗結(jié)果

3.4 不同編碼融合方式對實驗結(jié)果的影響

為了研究對兩個子編碼器的輸出結(jié)果使用不同融合方法后對AELT模型性能的影響，在小型數(shù)據(jù)集Weibo和大型數(shù)據(jù)集Ontonotes上進行了對比實驗，實驗結(jié)果如表6所示.在Weibo 數(shù)據(jù)集上，AELT對兩個子編碼器的輸出結(jié)果使用相加的處理方式能取得更好的效果，而在Ontonotes數(shù)據(jù)集上，使用拼接的方式處理兩個子編碼器的輸出則能取得更好的識別效果.其原因可能是，使用Weibo這類小型數(shù)據(jù)集訓練參數(shù)較多的AELT模型，會導致模型參數(shù)欠擬合，相比拼接的處理方式，相加的處理方式能夠減少模型的訓練參數(shù)，使AELT能在小型數(shù)據(jù)集上更好地完成識別任務.

3.5 消融實驗

為了驗證模型各結(jié)構的有效性，在Ontonotes數(shù)據(jù)集上對模型進行了消融實驗研究，超參數(shù)N設置為4.5時.通過對AELT結(jié)構進行拆解，使其逐步還原為FLAT，以此來研究模型各部分對實體識別性能的影響.實驗結(jié)果如表7所示.AELT在Ontonotes數(shù)據(jù)集上得到的F1分數(shù)為76.91%，P為76.49%，R為77.32%.首先拆除掉AELT的字Transformer編碼器模塊：AELT的F1分數(shù)為76.62%，下降0.29個百分點;P為76.16%，下降0.33個百分點;R為77.08%，下降0.24個百分點.再將Top-kTransformer模塊中的Top-k模塊去除，此時模型還原為FLAT:F1分數(shù)進一步下降0.19個百分點，P反而上升0.09個百分點，R進一步下降0.47個百分點.實驗證明，AELT上的兩處改進都為模型的性能帶來了提升.

表6 AELT使用不同編碼融合方式后的實驗結(jié)果

表7 AELT消融實驗結(jié)果

4 結(jié)論及未來的工作

本文中提出了一種名為注意力增強點陣Transformer的新模型，用于完成中文NER任務.它可以整合詞典信息，利用字級和詞語級信息，并通過Top-k機制控制注意力的集中程度，從而解決上下文中不相關信息引起的注意力分散問題，同時模型還配備了單獨處理句子語義信息的Transformer模塊，在利用詞語信息的同時，綜合考慮句子的整體語義信息，使模型更好地對實體邊界進行判斷.在主流的4個數(shù)據(jù)集上的實驗證明，本文模型性能更好.在今后的工作中，希望能夠優(yōu)化k參數(shù)的設置，使其能夠自動匹配最優(yōu)參數(shù)，在抗干擾性能不受影響的同時，最大限度利用有效信息，同時減少調(diào)整模型超參數(shù)所需要的資源.