鄭洪浩,于洪濤,李邵梅
基于改進(jìn)的Transformer編碼器的中文命名實(shí)體識(shí)別
鄭洪浩,于洪濤,李邵梅
(信息工程大學(xué),河南 鄭州 450002)
為了提高中文命名實(shí)體識(shí)別的效果,提出了基于XLNET-Transformer_P-CRF模型的方法,該方法使用了Transformer_P編碼器,改進(jìn)了傳統(tǒng)Transformer編碼器不能獲取相對(duì)位置信息的缺點(diǎn)。實(shí)驗(yàn)結(jié)果表明,XLNET-Transformer_P-CRF模型在MSRA、OntoNotes4.0、Resume、微博數(shù)據(jù)集4類數(shù)據(jù)集上分別達(dá)到95.11%、80.54%、96.70%、71.46%的1值,均高于中文命名實(shí)體識(shí)別的主流模型。
中文命名實(shí)體識(shí)別;Transformer編碼器;相對(duì)位置信息
命名實(shí)體識(shí)別(NER, named entity recognition)最早是在1995年11月的MUC-6會(huì)議中提出的信息抽取子任務(wù),主要是識(shí)別文本中的Entity Name(人名、地名、機(jī)構(gòu)名),Temporal Expressions(日期、時(shí)間、持續(xù)時(shí)間)和Number Expressions(貨幣、度量衡、百分比表達(dá)式)[1]。當(dāng)前,命名實(shí)體識(shí)別成為自然語(yǔ)言處理任務(wù)的重要組成部分,在智能問(wèn)答[2]、機(jī)器翻譯[3]、信息檢索[4]等復(fù)雜的自然語(yǔ)言處理領(lǐng)域發(fā)揮著重要的作用。命名實(shí)體識(shí)別的基本原理是通過(guò)序列標(biāo)注方法,在對(duì)每個(gè)字進(jìn)行標(biāo)注的基礎(chǔ)上,預(yù)測(cè)實(shí)體的邊界和類型。早期的命名實(shí)體識(shí)別主要使用基于規(guī)則和字典的方法,該方法效率較低、靈活性差,且往往需要大量的領(lǐng)域知識(shí)。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展及其在自然語(yǔ)言處理領(lǐng)域的廣泛應(yīng)用,基于深度學(xué)習(xí)的命名實(shí)體識(shí)別逐漸成為主流。深度學(xué)習(xí)技術(shù)可以直接將原始文本通過(guò)多步的特征抽取、轉(zhuǎn)換和組合得到一種特征表示,并進(jìn)一步輸入預(yù)測(cè)函數(shù)得到實(shí)體識(shí)別結(jié)果[5]。深度學(xué)習(xí)不需要手工特征提取這一耗時(shí)費(fèi)力的工作,且端到端的學(xué)習(xí)模式避免了錯(cuò)誤傳播。
基于深度學(xué)習(xí)的命名實(shí)體識(shí)別模型通??梢苑譃榍度雽?、編碼層和輸出層三部分,其中,嵌入層旨在將字詞級(jí)別的特征轉(zhuǎn)化為特征向量,編碼層旨在獲取文本上下文特征,輸出層旨在獲取序列之間的規(guī)則特征并對(duì)編碼層輸出的特征向量進(jìn)行分類[6]。目前,基于深度學(xué)習(xí)的主流研究是圍繞這三層的功能實(shí)現(xiàn)展開的,各個(gè)模型的異同也主要體現(xiàn)在這三層的結(jié)構(gòu)上。
對(duì)于編碼層,基于RNN結(jié)構(gòu)的編碼器因其在處理序列類時(shí)間流數(shù)據(jù)上的優(yōu)勢(shì)被廣泛使用[7-10],但其在結(jié)構(gòu)上存在串行計(jì)算、梯度消失(爆炸)[11]和單向建模的問(wèn)題,這些問(wèn)題限制了基于RNN結(jié)構(gòu)的編碼器在命名實(shí)體識(shí)別任務(wù)上的效果。Transformer編碼器[12]可以有效地解決基于RNN結(jié)構(gòu)的編碼器存在的3個(gè)問(wèn)題,具體解決方案如下。①Transformer編碼器不同于基于RNN結(jié)構(gòu)的編碼器的串行計(jì)算結(jié)構(gòu),采用了并行計(jì)算結(jié)構(gòu)以充分利用計(jì)算機(jī)的并行計(jì)算資源。②Transformer編碼器采用自注意力機(jī)制,在結(jié)構(gòu)上消除了梯度消失和梯度爆炸的問(wèn)題,可以獲取長(zhǎng)文本的依賴信息。③Transformer編碼器不同于基于RNN結(jié)構(gòu)的編碼器的雙向拼接,可以實(shí)現(xiàn)雙向參數(shù)的統(tǒng)一更新,不會(huì)割裂上下文關(guān)系。然而,Guo等[13]的研究表明Transformer編碼器直接應(yīng)用到命名實(shí)體識(shí)別領(lǐng)域并不會(huì)得到有效提升。
本文對(duì)Transformer編碼器在命名實(shí)體識(shí)別任務(wù)上效果較差的現(xiàn)象進(jìn)行了分析,并提出了具體的改進(jìn)。Transformer編碼器的功能實(shí)現(xiàn)主要源于自注意力機(jī)制,自注意力機(jī)制是無(wú)法從結(jié)構(gòu)上獲取相對(duì)位置信息的[14-15],其中相對(duì)位置信息主要指字之間的距離和方向信息。然而,相對(duì)位置信息在命名實(shí)體識(shí)別任務(wù)中起到了重要的作用,如在句子“華納兄弟創(chuàng)立了華納兄弟公司”中,地點(diǎn)實(shí)體通常在“創(chuàng)立了”之后,人名實(shí)體通常在“創(chuàng)立了”之前??梢?,字之間的相對(duì)位置信息在命名實(shí)體識(shí)別任務(wù)中極為重要。針對(duì)該問(wèn)題,本文對(duì)Transformer編碼器嵌入相對(duì)位置信息,即通過(guò)對(duì)注意力機(jī)制的擴(kuò)展,將輸入結(jié)構(gòu)建模成一個(gè)含有方向性信息的結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果顯示,嵌入相對(duì)位置信息的改進(jìn)有效提升了Transformer模型在命名實(shí)體識(shí)別任務(wù)上的效果,改進(jìn)后的Transformer編碼器命名為Transformer_P。
此外,本文對(duì)嵌入層模型進(jìn)行了研究與實(shí)驗(yàn)。傳統(tǒng)的深度學(xué)習(xí)模型采用Word2vec等模型[16]生成靜態(tài)字向量,靜態(tài)字向量雖然可以攜帶字的簡(jiǎn)單語(yǔ)義信息,但是無(wú)法表征字的多義性,如在句子“陸軍上校重新校對(duì)了作戰(zhàn)方案”中,靜態(tài)字向量對(duì)于“?!币蛔侄家怨潭ǖ南蛄縼?lái)表示,然而,前后兩個(gè)“?!弊值恼Z(yǔ)義信息截然不同,前者代指一種軍銜,后者代指一種動(dòng)作,這類一字多義的問(wèn)題影響了命名實(shí)體識(shí)別的效果。針對(duì)該問(wèn)題,楊飄等[17]提出了一種用BERT預(yù)訓(xùn)練模型[18]生成的動(dòng)態(tài)字向量替換靜態(tài)量的方法,實(shí)驗(yàn)表明基于動(dòng)態(tài)字向量的方法有更好的表現(xiàn)。然而,以下兩個(gè)問(wèn)題會(huì)限制BERT的使用效果。一是忽視了訓(xùn)練時(shí)被掩蓋(Mask)掉的符號(hào)(token)之間的相關(guān)關(guān)系;二是訓(xùn)練時(shí)使用掩蓋策略,而實(shí)際應(yīng)用中沒有,造成訓(xùn)練與實(shí)際應(yīng)用不一致的問(wèn)題。2019年,Yang等[19]提出XLNET模型,該預(yù)訓(xùn)練語(yǔ)言模型利用自回歸語(yǔ)言模型的天然優(yōu)勢(shì),避免了BERT模型訓(xùn)練應(yīng)用不一致和無(wú)法獲取token之間相關(guān)關(guān)系的問(wèn)題。鑒于此,本文將XLNET模型引入嵌入層以表征字的多義性。綜上所述,為了提升中文命名實(shí)體識(shí)別的效果,本文改進(jìn)了傳統(tǒng)Transformer編碼器不能獲取相對(duì)位置的缺陷,并提出了基于XLNET-Transformer_P-CRF模型的中文命名實(shí)體識(shí)別方法。
Transformer是Vaswani等[12]提出的一種利用自注意力機(jī)制的編碼器,其編碼層由兩個(gè)子層構(gòu)成,自注意力層和全連接層。與基于RNN結(jié)構(gòu)的編碼器相比,Transformer在結(jié)構(gòu)上并不能直接獲取絕對(duì)位置信息和相對(duì)位置信息[12,18]。為避免該問(wèn)題,Vaswani等[12]設(shè)計(jì)了由不同頻率的正弦編碼組成的位置向量,并采用位置向量與字向量相加的方式嵌入位置信息。本節(jié)對(duì)傳統(tǒng)Transformer編碼器的核心模塊自注意力層和位置向量分別進(jìn)行了介紹。
對(duì)于既不使用卷積也不使用遞歸結(jié)構(gòu)的Transformer來(lái)說(shuō),在結(jié)構(gòu)上是無(wú)法直接獲取位置信息的[20]。Vaswani等[12]的解決方案是使用頻率不同的正弦編碼構(gòu)建位置向量。
針對(duì)已有方法的不足,本文提出了基于XLNET-Transformer_P-CRF模型的中文命名實(shí)體識(shí)別方法。如圖1所示,首先文本輸入嵌入層,利用XLNET預(yù)訓(xùn)練模型得到動(dòng)態(tài)字向量;然后在編碼層,Transformer_P編碼器對(duì)XLNET輸出的向量進(jìn)行編碼,通過(guò)嵌入相對(duì)位置信息,最大化獲取上下文語(yǔ)義信息;最后,通過(guò)輸出層的CRF模型獲取標(biāo)簽之間的規(guī)則特征,并輸出概率最大的標(biāo)簽序列。
圖1 XLNET-Transformer_P-CRF模型
Figure1 Model of XLNET-Transformer_P-CRF
與傳統(tǒng)的命名實(shí)體識(shí)別方法相比,基于XLNET-Transformer_P-CRF模型的方法主要改進(jìn)在于:將改進(jìn)后的Transformer_P編碼器替換基于RNN結(jié)構(gòu)的編碼器,解決了基于RNN結(jié)構(gòu)的編碼器存在的串行計(jì)算、梯度消失(爆炸)和單向建模的問(wèn)題。此外,引入了XLNET預(yù)訓(xùn)練模型,該模型是在大規(guī)模無(wú)監(jiān)督語(yǔ)料上訓(xùn)練所得,可以通過(guò)上下文計(jì)算動(dòng)態(tài)字向量以表征字的多義性。
XLNET是一種可以獲得雙向上下文信息的自回歸語(yǔ)言模型。傳統(tǒng)的自回歸模型采用單向預(yù)測(cè),無(wú)法獲取雙向信息。XLNET使用排列語(yǔ)言模型來(lái)獲取雙向的上下文信息,同時(shí)維持自回歸模型原有的單向形式。對(duì)于長(zhǎng)度為的文本,只有!種不同的排列方式,如果能考慮到所有排列順序的文本,就變相地獲取了雙向上下文信息,其損失函數(shù)的具體公式如下。
此外,該模型引入了雙流自注意力機(jī)制和循環(huán)機(jī)制。前者為排列語(yǔ)言模型分離了位置信息與內(nèi)容信息。后者整合了Transformer-XL[14]到預(yù)訓(xùn)練模型中,并將Transformer-XL 中的兩項(xiàng)重要技術(shù)(相對(duì)位置編碼范式和分割循環(huán)機(jī)制)融合進(jìn)XLNET,使XLNET在處理長(zhǎng)文本時(shí)具有更強(qiáng)大的優(yōu)勢(shì)。
XLNET預(yù)訓(xùn)練模型與其他的預(yù)訓(xùn)練模型相比,可以充分利用字兩邊的信息,更好地表征字的多義性。
本節(jié)對(duì)傳統(tǒng)Transformer編碼器的位置嵌入方式進(jìn)行分析,并針對(duì)其不能獲取相對(duì)位置信息的缺陷做出了具體改進(jìn)。
本文假設(shè)距離過(guò)長(zhǎng)的相對(duì)位置信息對(duì)于命名實(shí)體的識(shí)別來(lái)說(shuō)并不會(huì)起到信息增益的效果,反而會(huì)帶來(lái)噪聲。本文將相對(duì)位置的最大距離設(shè)置為。
本文模型中的輸出層采用主流的CRF,通過(guò)標(biāo)簽之間的依賴關(guān)系獲得全局最優(yōu)標(biāo)簽序列[23]。CRF的步驟如下。
在訓(xùn)練中,實(shí)驗(yàn)采用反向傳播算法更新全部參數(shù)(包括對(duì)XLNET模型的微調(diào))。同時(shí),實(shí)驗(yàn)采用了隨機(jī)梯度下降和動(dòng)量聯(lián)合的方法優(yōu)化損失函數(shù),其中,學(xué)習(xí)率更新采用三角法[24]。
對(duì)于嵌入層,實(shí)驗(yàn)選取了哈爾濱工業(yè)大學(xué)訊飛聯(lián)合實(shí)驗(yàn)室在5.4 B詞數(shù)的百科、新聞、問(wèn)答類數(shù)據(jù)上訓(xùn)練而成的XLNET模型,該模型共包含24層、768個(gè)隱層、12頭注意力,2.09×108個(gè)參數(shù)。
(1)數(shù)據(jù)集
實(shí)驗(yàn)共選取了4個(gè)來(lái)源多樣的中文數(shù)據(jù)集,其中,MSRA、OntoNotes4.0主要來(lái)源于新聞行業(yè),Resume數(shù)據(jù)集來(lái)自簡(jiǎn)歷摘要,微博數(shù)據(jù)集主要來(lái)自社交媒體。
①M(fèi)SRA數(shù)據(jù)集[25]是微軟公開的數(shù)據(jù)集,包含人名、機(jī)構(gòu)名、地名3類實(shí)體。
②OntoNotes4.0[26]是一個(gè)多語(yǔ)言的大型數(shù)據(jù)集,本文實(shí)驗(yàn)只選取了其中的中文數(shù)據(jù)部分。
③Resume數(shù)據(jù)集[27]是中文簡(jiǎn)歷數(shù)據(jù)集,包含國(guó)家、教育機(jī)構(gòu)、地點(diǎn)、人名、組織名、職業(yè)、民族、職務(wù)等8類實(shí)體。
④微博數(shù)據(jù)集[28]是社交媒體類數(shù)據(jù)集,共包含地緣政治、人名、地名和組織名4類實(shí)體。
數(shù)據(jù)集詳細(xì)信息如表1所示。
(2)標(biāo)注規(guī)則
實(shí)驗(yàn)采用BMES標(biāo)注規(guī)則,其中“B”表示一個(gè)實(shí)體的開始位置,“M”表示一個(gè)實(shí)體的中間位置,“E”表示一個(gè)實(shí)體的末尾位置,“S”表示一個(gè)單獨(dú)的實(shí)體。
實(shí)驗(yàn)一 Transformer_P編碼器有效性驗(yàn)證
為了驗(yàn)證Transformer_P編碼器在中文命名實(shí)體識(shí)別任務(wù)上的有效性,本部分在4類數(shù)據(jù)集上進(jìn)行了Transformer_P編碼器與其他編碼器的對(duì)比實(shí)驗(yàn),采用的指標(biāo)為1值。為控制實(shí)驗(yàn)變量,嵌入層統(tǒng)一使用Word2vec模型,輸出層統(tǒng)一使用CRF模型。
如表2所示,在MSRA、OntoNotes4.0、Resume和微博4類數(shù)據(jù)集上,基于Transformer編碼器的模型取得的1值均不如基于RNN結(jié)構(gòu)編碼器的模型。在加入了相對(duì)位置信息之后,基于Transformer_P編碼器的模型在4類數(shù)據(jù)集上的1值有明顯提升,分別高于基于傳統(tǒng)Transformer編碼器的模型的1值2.68%、5.81%、1.57%、5.82%?;赥ransformer編碼器的模型除在微博數(shù)據(jù)集上達(dá)到次好的1值以外,在MSRA、Onto Notes4、Resume三類數(shù)據(jù)集上達(dá)到了最高的1值。Transformer_P編碼器在微博數(shù)據(jù)集上未達(dá)到最高1值的原因主要是:微博數(shù)據(jù)集中數(shù)據(jù)較少,致使Transformer_P編碼器的參數(shù)無(wú)法全部收斂,限制了效果。
表1 中文命名實(shí)體識(shí)別數(shù)據(jù)集詳細(xì)信息
表2 Transformer_P編碼器與其他編碼器的F1值對(duì)比結(jié)果
綜上所述,Transformer_P編碼器被證明是有效的,對(duì)傳統(tǒng)Transformer編碼器進(jìn)行嵌入相對(duì)位置信息的改進(jìn)后,可以更有效地獲取上下文信息。
實(shí)驗(yàn)二 XLNET-Transformer_P-CRF模型的有效性驗(yàn)證
為驗(yàn)證本文所提模型XLNET-Transformer_P- CRF的有效性,實(shí)驗(yàn)在4類數(shù)據(jù)集上進(jìn)行了本文所提模型與主流模型的對(duì)比實(shí)驗(yàn),采用的指標(biāo)為召回率、精確率和1值,其中,Max指獲取最佳效果時(shí),相對(duì)位置的最大距離。
如表3所示,在MSRA數(shù)據(jù)集上,Chen等[29]、Zhang等[30]和Zhou等[31]做了大量的特征工程,是該數(shù)據(jù)集上表現(xiàn)較好的統(tǒng)計(jì)模型。Dong等[32]使用BILSTM-CRF模型和字符特征進(jìn)行實(shí)體識(shí)別,相對(duì)于詞級(jí)特征的實(shí)體識(shí)別,效果顯著提升。Zhang等[27]、Sui等[33]和Li等[34]使用了字詞融合的方式提升中文命名實(shí)體識(shí)別的效果。通過(guò)比較,本文模型在MSRA數(shù)據(jù)集上達(dá)到了最好的效果,1值高于次好的模型0.76%。
表3 MSRA數(shù)據(jù)集上的各指標(biāo)對(duì)比結(jié)果
如表4所示,在OntoNotes4.0數(shù)據(jù)集上,實(shí)驗(yàn)將本文模型和基于該數(shù)據(jù)集效果最佳的中文命名實(shí)體識(shí)別模型進(jìn)行比較。Wang等[35]采用一種有效利用雙語(yǔ)數(shù)據(jù)半監(jiān)督學(xué)習(xí)的方法,在該數(shù)據(jù)集上獲得了74.32%1值的效果。Che等[36]采用將不同語(yǔ)言的約束信息提高中文命名實(shí)體識(shí)別的效果,相對(duì)于基線效果,1值提升了近5%。Yang等[37]在文獻(xiàn)[36]的基礎(chǔ)上,豐富了輸入特征,提升了命名實(shí)體識(shí)別的效果。Zhang等[27]、Sui等[33]和Li等[34]使用了字詞融合的方式提升中文命名實(shí)體識(shí)別的效果。通過(guò)比較,本文模型在OntoNotes4.0數(shù)據(jù)集上達(dá)到了最好的效果,1值高于次好的模型4.84%。
表4 OntoNotes4.0數(shù)據(jù)集上的各指標(biāo)對(duì)比結(jié)果
如表5所示,在Resume數(shù)據(jù)集上,Zhang等[27]將詞典信息與字向量通過(guò)LSTM網(wǎng)絡(luò)相融合,在訓(xùn)練中統(tǒng)一更新權(quán)重,有效解決了字詞融合的問(wèn)題。在此基礎(chǔ)上,Liu等[38]利用了4種不同的策略來(lái)將單詞信息編碼為固定大小的矢量,使其可以分批訓(xùn)練并適應(yīng)各種應(yīng)用場(chǎng)景。Gui等[39]提出對(duì)圖節(jié)點(diǎn)進(jìn)行分類,從而實(shí)現(xiàn)序列標(biāo)注。Li等[34]使用了Transformer的自注意機(jī)制使字符能夠直接與潛在的單詞交互,實(shí)現(xiàn)更好的字詞融合效果。通過(guò)比較,本文模型在Resume數(shù)據(jù)集上達(dá)到了最好的效果,1值高于次好的模型1.77%。
表5 Resume數(shù)據(jù)集上的各指標(biāo)對(duì)比結(jié)果
如表6所示,在微博數(shù)據(jù)集中,Peng等[28]、He等[40]、Zhang等[27]3種效果較佳的命名實(shí)體識(shí)別模型分別利用了豐富輸入特征、多領(lǐng)域特征和半監(jiān)督方法獲得數(shù)據(jù)、字詞融合特征的方法。Sui等[33]提出一種字符級(jí)的協(xié)作圖神經(jīng)網(wǎng)絡(luò),全方位獲得詞語(yǔ)信息。Li等[34]將所有字符與自匹配詞直接交互,利用了潛在的單詞信息。通過(guò)比較,本文模型在微博數(shù)據(jù)集上達(dá)到了最好的效果,1值高于次好的模型8.04%。
表6 微博數(shù)據(jù)集上的各指標(biāo)對(duì)比結(jié)果
從表3~表6可以看出,與現(xiàn)有的方法相比,本文提出的基于XLNET-Transformer_P-CRF模型的方法更具有競(jìng)爭(zhēng)力,在4類數(shù)據(jù)集上都達(dá)到了最好的效果。因此,該方法被證明是十分有效的。Transformer_P編碼器采用自注意力機(jī)制,與同樣基于自注意力機(jī)制的預(yù)訓(xùn)練語(yǔ)言模型XLNET相結(jié)合,可以更為顯著地提高中文命名實(shí)體識(shí)別的效果。
本文提出了基于XLNET-Transformer_P-CRF深度學(xué)習(xí)模型方法。與傳統(tǒng)的方法相比,本文創(chuàng)新點(diǎn)體現(xiàn)在對(duì)Transformer編碼器進(jìn)行改進(jìn),克服了Transformer編碼器不能獲得相對(duì)位置關(guān)系的缺陷。實(shí)驗(yàn)表明,本文方法具有有效性,在4類數(shù)據(jù)集上都達(dá)到了最好的效果。
根據(jù)實(shí)驗(yàn)發(fā)現(xiàn),Transformer_P編碼器參數(shù)量大、對(duì)數(shù)據(jù)的依賴性強(qiáng),在小數(shù)據(jù)集中效果一般。因此,后續(xù)需要研究如何在保證模型效果的前提下,減少模型的參數(shù)。
[1] GRISHMAN R, SUNDHEIM B. Message understanding conference-6: a brief history[C]//International Conference on Computational Linguistics, 1996: 466-471.
[2] PIZZATO L A, MOLLA D, PARIS C. Pseudo relevance feedback using named entities for question answering[C]//Proceedings of the 2006 Australian Language Technology Workshop (ALTW-2006). 2006: 89-90.
[3] BABYCH B, HARTLEY A. Improving machine translation quality with automatic named entity recognition[C]//Proceedings of the 7th International EAMT Workshop on MT and other Language Technology Tools, Improving MT Through other Language Technology Tools: Resources and Tools for Building MT, Association for Computational Linguistics. 2003: 1-8.
[4] MANDL T, WOMSER-HACKER C. The effect of named entities on effectiveness in cross-language information retrieval evaluation[C]//Proceedings of the 2005 ACM Symposium on Applied Computing. 2005: 1059-1064.
[5] 邱錫鵬. 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)[M]. 北京: 機(jī)械工業(yè)出版社,2020.
QIU X P, Neural networks and deep learning[M]. Beijing: China Machine Press, 2020.
[6] LI J, SUN A, HAN J, et al. A survey on deep learning for named entity recognition[J]. IEEE Transactions on Knowledge and Data Engineering, 2020: 1.
[7] HAMMERTON J. Named entity recognition with long short-term memory[C]//North American Chapter of the Association for Computational Linguistics. 2003: 172-175.
[8] HUANG Z, XU W, YU K, et al. Bidirectional LSTM-CRF models for sequence tagging[J]. arXiv: Computation and Language, 2015.
[9] MA X, HOVY E. End-to-end sequence labeling via bi-directional LSTM-CNNs-CRF[J]. arXiv: Learning, 2016.
[10] CHIU J P, NICHOLS E. Named entity recognition with bidirectional LSTM-CNNs[J]. Transactions of the Association for Computational Linguistics, 2016, 4(1): 357-370.
[11] BENGIO Y, SIMARD P Y, FRASCONI P, et al. Learning long-term dependencies with gradient descent is difficult[J]. IEEE Transactions on Neural Networks, 1994, 5(2): 157-166.
[12] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Neural Information Processing Systems. 2017: 5998-6008.
[13] GUO Q P , QIU X P, LIU P F, et al. Star transformer[C]//NAACL. 2019: 1315-1325.
[14] DAI Z, YANG Z, YANG Y, et al. Transformer-XL: attentive language models beyond a fixed-length context[J]. arXiv: Learning, 2019.
[15] HUANG A, VASWANI A, USZKOREIT J, et al. Music transformer: generating music with long-term structure[C]//International Conference on Learning Representations, 2019.
[16] MIKOLOV T, CHEN K, CORRADO G S, et al. Efficient estimation of word representations in vector space[C]//International Conference on Learning Representations. 2013.
[17] 楊飄, 董文永. 基于BERT嵌入的中文命名實(shí)體識(shí)別方法[J]. 計(jì)算機(jī)工程, 2020, 46(04): 40-45, 52.
YANG P, DONG W Y. Chinese NER based on BERT embedding[J]. Computer Engineering, 2020, 46(4): 40-45, 52.
[18] DEVLIN J, CHANG M, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[J]. arXiv: Computation and Language, 2018.
[19] YANG Z, DAI Z, YANG Y, et al. XLNet: generalized autoregressive pretraining for language understanding[J]. arXiv: Computation and Language, 2019.
[20] PARIKH A P, TACKSTROM O, DAS D, et al. A decomposable attention model for natural language inference[C]//Empirical Methods in Natural Language Processing. 2016: 2249-2255.
[21] YAN H, DENG B, LI X, et al. TENER: adapting transformer encoder for named entity recognition[J]. arXiv: Computation and Language, 2019.
[22] SHAW P, USZKOREIT J, VASWANI A, et al. SELF-attention with relative position representations[C]//North American Chapter of the Association for Computational Linguistics. 2018: 464-468.
[23] LAFFERTY J, MCCALLUM A, PEREIRA F, et al. Conditional random fields: probabilistic models for segmenting and Labeling Sequence Data[C]//International Conference on Machine Learning. 2001: 282-289.
[24] SMITH L N. Cyclical learning rates for training neural networks[C]//Workshop on Applications of Computer Vision, 2017: 464-472.
[25] LEVOW G. The third international chinese language processing Bakeoff: word segmentation and named entity recognition[C]// Meeting of the Association for Computational Linguistics. 2006: 108-117.
[26] Ralph Weischedel. Ontonotes release 4.0 LDC2011T03[S]. 2011.
[27] ZHANG Y, YANG J. Chinese NER using lattice LSTM[C]//Meeting of the Association for Computational Linguistics. 2018: 1554-1564.
[28] PENG N, DREDZE M. Named entity recognition for chinese social media with jointly trained embeddings[C]//Empirical Methods in Natural Language Processing. 2015: 548-554.
[29] CHEN A, PENG F, SHAN R, et al. Chinese named entity recognition with conditional probabilistic models[C]//Meeting of the Association for Computational Linguistics. 2006: 173-176.
[30] ZHANG S, QIN Y, WEN J, et al. Word segmentation and named entity recognition for SIGHAN Bakeoff3[C]//Meeting of the Association for Computational Linguistics. 2006: 158-161.
[31] ZHOU J S, QU W G, ZHANG F. Chinese named entity recognition via joint identification and categorization[J]. Chinese Journal of Electronics, 2013, 22(2): 225-230.
[32] DONG C H, ZHANG J J, ZONG C Q. Character based LSTM-CRF with radical-level features for Chinese named entity recognition[C]//International Conference on Computer Processing of Oriental Languages. 2016: 239-250.
[33] SUI D, CHEN Y, LIU K, et al. Leverage lexical knowledge for chinese named entity recognition via collaborative graph network[C]//International Joint Conference on Natural Language Processing. 2019: 3828-3838.
[34] QIU X P, LI X N, YAN H. Flat chinese ner using flat-lattice transformer[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. 2020: 6836-6842.
[35] WANG M, CHE W, MANNING C D, et al. Effective bilingual constraints for semi-supervised learning of named entity recognizers[C]//National Conference on Artificial Intelligence. 2013: 919-925.
[36] CHE W, WANG M, MANNING C D, et al. Named entity recognition with bilingual constraints[C]//North American Chapter of the Association for Computational Linguistics. 2013: 52-62.
[37] YANG J, ZHANG Y, DONG F, et al. Neural word segmentation with rich pretraining[C]//Meeting of the Association for Computational Linguistics. 2017: 839-849.
[38] LIU W, XU T, XU Q, et al. An encoding strategy based word-character LSTM for chinese NER[C]//North American Chapter of the Association for Computational Linguistics. 2019: 2379-2389.
[39] GUI T, ZOU Y, ZHANG Q, et al. A lexicon-based graph neural network for chinese NER[C]//International Joint Conference on Natural Language Processing. 2019: 1040-1050.
[40] HE H, SUN X. A unified model for cross-domain and semi-supervised named entity recognition in chinese social media[C]//National Conference on Artificial Intelligence. 2017: 3216-3222.
Chinese NER based on improved Transformer encoder
ZHENG Honghao, YU Hongtao, LI Shaomei
Information Engineering University, Zhengzhou 450002, China
In order to improve the effect of chinese named entity recognition, a method based on the XLNET-Transformer_P-CRF model was proposed, which used the Transformer_Pencoder, improved the shortcomings of the traditional Transformer encoder that couldn’t obtain relative position information. Experiments show that the XLNET-Transformer_P-CRF model achieves 95.11%, 80.54%, 96.70%, and 71.46%1 values on the four types of data sets: MSRA, OntoNotes4.0, Resume, and Weibo, which are all higher than other mainstream chinese NER model.
Chinese named entity recognition, Transformer encoder, relative position information
TP391
A
10.11959/j.issn.2096?109x.2021041
2020?08?13;
2020?12?25
鄭洪浩,1140820290@qq.com
國(guó)家自然基金青年基金(62002384),國(guó)家重點(diǎn)研發(fā)計(jì)劃(2016QY03D0502),鄭州市協(xié)同創(chuàng)新重大專項(xiàng)(162/32410218)
The National Natural Science Foundation of China (62002384), The National Key R&D Program of China (2016QY03D0502), Major Collaborative Innovation Projects of Zhengzhou (162/32410218)
鄭洪浩, 于洪濤, 李邵梅. 基于改進(jìn)的Transformer編碼器的中文命名實(shí)體識(shí)別[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2021, 7(5): 105-112.
ZHENG H H, YU H T, LI S M. Chinese NER based on improved Transformer encoder[J]. Chinese Journal of Network and Information Security, 2021, 7(5): 105-112.
鄭洪浩(1992? ),男,山東濟(jì)寧人,信息工程大學(xué)碩士生,主要研究方向?yàn)槊麑?shí)體識(shí)別、關(guān)系抽取。
于洪濤(1970? ),男,遼寧丹東人,博士,信息工程大學(xué)研究員,主要研究方向?yàn)榇髷?shù)據(jù)與人工智能。
李邵梅(1982? ),女,湖北鐘祥人,博士,信息工程大學(xué)副研究員,主要研究方向?yàn)橛?jì)算機(jī)視覺。