左亞堯,陳皓宇,陳致然,洪嘉偉,陳坤
融合多語義特征的命名實(shí)體識別方法
左亞堯*,陳皓宇,陳致然,洪嘉偉,陳坤
(廣東工業(yè)大學(xué) 計算機(jī)學(xué)院,廣州 510006)( ? 通信作者電子郵箱yyzuo@gdut.edu.cn)
針對語言普遍存在的字符間非線性關(guān)系,為捕獲更豐富的語義特征,提出了一種基于圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)和自注意力機(jī)制的命名實(shí)體識別(NER)方法。首先,借助深度學(xué)習(xí)方法有效提取字符特征的能力,采用GCN學(xué)習(xí)字符間的全局語義特征,并且采用雙向長短時記憶網(wǎng)絡(luò)(BiLSTM)提取字符的上下文依賴特征;其次,融合以上特征并引入自注意力機(jī)制計算其內(nèi)部重要度;最后,使用條件隨機(jī)場(CRF)從融合特征中解碼出最優(yōu)的編碼序列,并以此作為實(shí)體識別的結(jié)果。實(shí)驗(yàn)結(jié)果表明,與單一采用BiLSTM和CRF的方法相比,所提方法在微軟亞洲研究院(MSRA)數(shù)據(jù)集和BioNLP/NLPBA 2004數(shù)據(jù)集上的精確率分別至少提高了2.39%和15.2%??梢娫摲椒ㄔ谥形暮陀⑽臄?shù)據(jù)集上都具備良好的序列標(biāo)注能力,且泛化能力較強(qiáng)。
命名實(shí)體識別;序列標(biāo)注;自注意力機(jī)制;圖卷積網(wǎng)絡(luò);雙向長短時記憶網(wǎng)絡(luò)
命名實(shí)體識別(Named Entity Recognition, NER)是自然語言處理領(lǐng)域的重要研究方向之一,其目的是識別文本數(shù)據(jù)中的具有特定意義的實(shí)體,如人名、地名、機(jī)構(gòu)名、組織名等,在關(guān)系抽取、信息檢索、機(jī)器翻譯等任務(wù)中有著重要作用。因其基石性地位,國內(nèi)外學(xué)者圍繞命名實(shí)體識別的性能、普適性和面向語系等不同方面做了較多研究,并利用監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)或無監(jiān)督學(xué)習(xí)等不同手段,衍生出一批從特征工程到深度學(xué)習(xí)的方法。
作為序列標(biāo)注的子任務(wù),命名實(shí)體識別一般可以抽象為三層結(jié)構(gòu):特征表示層、特征編碼層和標(biāo)簽解碼層。其中編碼層可采用隨機(jī)初始化字符編碼或預(yù)訓(xùn)練編碼;特征編碼層可采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)或循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)學(xué)習(xí)上下文編碼信息;標(biāo)簽解碼層可采用條件隨機(jī)場(Conditional Random Field, CRF)解碼出實(shí)體識別結(jié)果的序列。
近年來,Huang等[1]所構(gòu)建的雙向長短時記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory network, BiLSTM)-CRF模型取得突破性成果,其F1在CoNLL2003數(shù)據(jù)集上達(dá)90.10%,成為實(shí)現(xiàn)命名實(shí)體識別任務(wù)的代表方法。該方法證明了BiLSTM在學(xué)習(xí)字符上下文信息方面的優(yōu)越性,并且CRF充分考慮全局特征后在解碼時具有一定優(yōu)勢,后續(xù)有許多方法都在此基礎(chǔ)上進(jìn)行改進(jìn)。
為了提高識別效果,學(xué)者們著手研究如何輸入更豐富的特征。Song等[2]通過對比多種詞嵌入方法,最后選擇以Word2Vec為詞嵌入;Luo等[3]針對BiLSTM連續(xù)性和單一輸入的特點(diǎn),提出了分層語義表示增強(qiáng)模型,通過融合句子級信息和文檔級信息,使模型能夠充分利用全局信息;Gajendran等[4]考慮了字符級和單詞級的特征,提出雙向命名實(shí)體識別(Bidirectional Named Entity Recognition, BNER)神經(jīng)網(wǎng)絡(luò),在沒有大量標(biāo)注數(shù)據(jù)的情況下取得了較好的效果。
相對于英文語系,中文命名實(shí)體識別通常采用字符作為觀測序列。其原因在于,中文的詞邊界不明顯,前序工作所產(chǎn)生的分詞誤差將給后續(xù)實(shí)體識別任務(wù)帶來噪聲。故在通用領(lǐng)域數(shù)據(jù)集中,相比基于詞匯的方法,基于字符的命名實(shí)體識別通常有較好的表現(xiàn)。文獻(xiàn)[5]基于中文的字符級表示構(gòu)建BiLSTM-CRF神經(jīng)網(wǎng)絡(luò),在微軟亞洲研究院(MicroSoft Research Asia, MSRA)數(shù)據(jù)集上取得F1值90.95%的性能結(jié)果。
基于字符的方法雖然沒有引入噪聲,但同樣丟失了詞匯信息等特征,而詞匯邊界對實(shí)體切分有著重要作用。因此,學(xué)者開始研究詞匯增強(qiáng)的方法。例如,文獻(xiàn)[6]在字符特征的基礎(chǔ)上引入詞性特征,而文獻(xiàn)[7]從漢字的特點(diǎn)出發(fā),將字形特征以五筆編碼的形式用于信息增強(qiáng)。這些方法通過在原有字符的基礎(chǔ)上改進(jìn)模型,使其可以接收詞匯信息的輸入,從而提高識別精度。Lattice LSTM[8]是最先提出的詞匯增強(qiáng)命名實(shí)體識別方法,其通過詞典匹配句子獲取詞匯節(jié)點(diǎn),再將詞匯節(jié)點(diǎn)加入原有BiLSTM,形成一個有向無環(huán)圖,以此融合詞匯信息。但該方法由于增加了個數(shù)不定的詞匯節(jié)點(diǎn),無法并行化處理,計算性能相對較低。同時因?yàn)锽iLSTM本身特點(diǎn),模型只能獲取到以當(dāng)前字符為結(jié)尾的線性詞匯信息,且前向和后向不能共享,故容易產(chǎn)生詞匯信息沖突。
對于引入的詞匯信息等外部特征,為避免RNN類算法在順序計算過程中造成信息丟失,使模型根據(jù)信息重要程度分配不同權(quán)重,從而更關(guān)注實(shí)體相關(guān)的字符,學(xué)者采用注意力機(jī)制選擇輸入的特征。在中文問答任務(wù)[9]、多粒度實(shí)體識別[10]中以及信息安全領(lǐng)域?qū)嶓w識別[11]的實(shí)驗(yàn)表明,注意力的引入可以幫助快速提取數(shù)據(jù)的重要特征。由于這些方法需要依賴外部信息,故模型容易出現(xiàn)泛化能力不強(qiáng)的情況。
作為注意力機(jī)制的一種變體,自注意力機(jī)制更擅長捕捉特征的內(nèi)部相關(guān)性,減少模型對外部特征的依賴。在許多領(lǐng)域任務(wù)都取得較好效果的Transformer[12],正是利用自注意力(Self-Attention)機(jī)制學(xué)習(xí)文本表示中的關(guān)聯(lián)信息。文獻(xiàn)[13]中同樣利用Self-Attention關(guān)注學(xué)習(xí)到的詞向量,得到句子的內(nèi)部表示,進(jìn)而實(shí)現(xiàn)法律文書中的實(shí)體識別。在文本應(yīng)用中,通過Self-Attention計算字符間的相互影響,可以彌補(bǔ)BiLSTM在遠(yuǎn)距離依賴捕獲上的不足。
綜上所述,采用字作為輸入BiLSTM-CRF模型是當(dāng)前的主流方法,為捕獲更豐富的語義特征,Lattice LSTM將詞典匹配的詞匯與字節(jié)點(diǎn)首尾相連,實(shí)驗(yàn)表明實(shí)體識別效果有所提升;但該方法只能看到前序信息,無法捕捉遠(yuǎn)距離的依賴關(guān)系,導(dǎo)致模型過于重視局部特征,且運(yùn)行效率低下。圖卷積網(wǎng)絡(luò)(Graph Convolutional Network, GCN)則是以圖網(wǎng)絡(luò)的方法聚合的局部信息,但需要復(fù)雜的模型結(jié)構(gòu),且相應(yīng)的詞典并非時??傻谩a槍ι鲜鰡栴},提出一種融合多語義特征的命名實(shí)體識別模型(Self-Attention-BiLSTM-GCN-CRF, BGCN),采用隨機(jī)初始化向量作為字符嵌入,BiLSTM作為編碼層,學(xué)習(xí)字符之間的上下文信息;通過GCN學(xué)習(xí)字符的全局語義信息,即遠(yuǎn)距離依賴關(guān)系,并將其與上下文信息一起經(jīng)過自注意力融合。在兩個數(shù)據(jù)集上的對比實(shí)驗(yàn)表明,精度優(yōu)于現(xiàn)有的BiLSTM-CRF模型。
在命名實(shí)體識別研究中,深度學(xué)習(xí)已被證實(shí)是自動學(xué)習(xí)和提取深度特征的有效工具。對于特征表示,學(xué)者們大多選用符號、詞性、詞邊界、上下文和語義等,設(shè)計相應(yīng)的組合特征。
對于特征編碼,為了能分別捕獲過去和將來的信息,學(xué)者改進(jìn)長短時記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò),提出了BiLSTM,該模型將每個序列向前和向后呈現(xiàn)為兩個單獨(dú)的隱藏狀態(tài),再將兩個隱藏狀態(tài)連接起來形成最終輸出。
對于特征解碼,CRF是用于解決序列標(biāo)注問題的主流判別式模型。為了適應(yīng)各自領(lǐng)域,學(xué)者就原有CRF進(jìn)行相關(guān)改進(jìn),如Chen等[14]提出級聯(lián)CRF;Sun等[15]利用CRF完成多視圖序列標(biāo)注。因?yàn)榭紤]了上下文標(biāo)簽的關(guān)系,借助特征表示層提取的特征,CRF可較好地完成序列標(biāo)注任務(wù)。
基于BiLSTM-CRF這一主流模型,各行業(yè)領(lǐng)域產(chǎn)生了許多應(yīng)用,包括自動提取客戶咨詢問題序列中的實(shí)體特征[16]、微博評論[17]、生物信息領(lǐng)域[18]和社會突發(fā)事件[19]的實(shí)體識別,以及惡意軟件名稱[20]。縱觀序列標(biāo)注的相關(guān)研究可以發(fā)現(xiàn),以BiLSTM-CRF模型為核心的端到端模型在序列標(biāo)注任務(wù)上可以取得不錯的效果,該模型可以有效完成實(shí)體識別任務(wù)。該組合模型的結(jié)構(gòu)如圖1所示。
圖1 BiLSTM-CRF模型
近幾年,圖卷積網(wǎng)絡(luò)(Graph Convolutional Network, GCN)的成功推動了自然語言處理領(lǐng)域相關(guān)研究的發(fā)展。許多深度學(xué)習(xí)任務(wù),如語義分隔、文本分類和動作識別,由以往使用歐氏數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)和RNN方法轉(zhuǎn)變?yōu)槭褂梅菤W氏數(shù)據(jù)的GNN[21]方法。模型利用循環(huán)神經(jīng)結(jié)構(gòu)傳播周圍節(jié)點(diǎn)的信息,經(jīng)過迭代到達(dá)一個穩(wěn)定的不動點(diǎn),從而得到目標(biāo)節(jié)點(diǎn)的向量表示。在GNN的推動下,通過借鑒CNN、RNN等神經(jīng)網(wǎng)絡(luò)的思想,相關(guān)學(xué)者定義和設(shè)計了用于處理圖結(jié)構(gòu)數(shù)據(jù)的GCN,并將之應(yīng)用于分類任務(wù)[22]。
現(xiàn)有實(shí)驗(yàn)證明GCN具有強(qiáng)大的特征提取能力,能提取圖結(jié)構(gòu)的數(shù)據(jù)特征并應(yīng)用在關(guān)系分類、標(biāo)簽分類等領(lǐng)域上。本文利用現(xiàn)有GCN對圖結(jié)構(gòu)數(shù)據(jù)的處理能力來提取遠(yuǎn)距離的字符間的特征。
本文結(jié)合自注意力機(jī)制、GCN模型、BiLSTM模型和CRF模型特點(diǎn),采用GCN模型提取字符之間全局語義特征,并融合BiLSTM模型學(xué)習(xí)的字符序列間的依賴關(guān)系特征,再將其輸入到自注意力層中關(guān)注特征的內(nèi)部重要度后輸入CRF模型來進(jìn)行解碼得到最優(yōu)編碼序列。本文將從模型構(gòu)建、全局語義學(xué)習(xí)、上下文語義學(xué)習(xí)、語義融合、CRF解碼和算法描述等方面來介紹模型。
該模型首先利用滑動窗口構(gòu)建共現(xiàn)矩陣的方法來處理語料獲得候選詞語,根據(jù)點(diǎn)互信息(Pointwise Mutual Information, PMI)計算字符之間的關(guān)聯(lián)度,進(jìn)而構(gòu)成字符鄰接矩陣;之后,將語料數(shù)據(jù)編碼為字符向量輸入到BiLSTM模型學(xué)習(xí)得到上下文特征向量,并將字符鄰接矩陣及特征矩陣輸入GCN得到全局語義特征向量,最后融合兩者并經(jīng)過多頭自注意力關(guān)注后輸入到CRF中進(jìn)行序列標(biāo)注。其整體流程如圖2所示。
圖2 BGCN模型流程
其中,每層GCN能夠?qū)W習(xí)到一階距離的節(jié)點(diǎn)信息,通過疊加多層GCN可使圖中每個節(jié)點(diǎn)都可以學(xué)習(xí)到全局范圍的特征信息,其傳播過程如式(6)所示:
LSTM是一種特殊的RNN,能夠?qū)W習(xí)長距離依賴的關(guān)系,一定程度上可緩解RNN中梯度消失的問題。LSTM單元由輸入門、更新門、遺忘門和記憶單元4部分組成,其中記憶單元的作用是對信息進(jìn)行管理和保存,而三個門的作用是控制記憶單元中信息的更新變化。BiLSTM由前向LSTM與后向LSTM組成,可以更好地捕捉雙向的語義依賴信息,故本文采用BiLSTM捕獲字符的上下文語義依賴特征。LSTM模型的單元結(jié)構(gòu)如圖3所示。
圖3 LSTM單元結(jié)構(gòu)
LSTM單元在時刻的傳播公式如式(8)~(13)所示:
其中:、、是在訓(xùn)練中學(xué)習(xí)得到的權(quán)重矩陣。
CRF是一種概率無向圖模型,其原理是計算給定序列中的最優(yōu)聯(lián)合概率分布,從而優(yōu)化整個序列,而不是單獨(dú)求出每個時刻的最優(yōu)解后,再進(jìn)行拼接。本文使用CRF模型約束注意力層提取的特征向量,進(jìn)而解碼得到最優(yōu)標(biāo)注序列。
在訓(xùn)練過程中采用最大似然估計方法對CRF模型進(jìn)行參數(shù)優(yōu)化,其對數(shù)似然函數(shù)如式(21)所示:
基于上述各模塊,本文提出融合多特征的命名實(shí)體識別算法,整體由3個部分組成,分別為全局語義特征的學(xué)習(xí)模塊、上下文特征的學(xué)習(xí)模塊和序列解碼模塊。其中,句子融合語義通過GCN和BiLSTM捕獲并融合,CRF所生成的標(biāo)注采用最大似然方法進(jìn)行更新。
算法1 融合多特征的命名實(shí)體識別算法。
2) 重復(fù)以下操作,直到完成訓(xùn)練輪數(shù):
③根據(jù)式(13)計算得到上下文特征向量;
④融合全局語義特征向量和上下文特征向量, 并根據(jù)式(14)計算融合特征向量的內(nèi)部重要度;
3) 根據(jù)學(xué)到的模型,預(yù)測測試集中的句子對應(yīng)的標(biāo)注序列。
算法1描述了融合多特征的命名實(shí)體識別算法。整個算法分為三個部分:全局語義特征的學(xué)習(xí)和上下文特征的學(xué)習(xí),以及利用最大似然估計對CRF所生成的標(biāo)注進(jìn)行更新。
將BGCN模型在各數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并與其他方法比較;分析不同參數(shù)配置對模型性能的影響,以及去除注意力層后的模型效果。
1) MSRA:微軟亞洲研究院2006年SIGHAN命名實(shí)體識別語料庫,由50 729條中文命名實(shí)體識別標(biāo)注數(shù)據(jù)組成,包括地點(diǎn)、機(jī)構(gòu)和人物。SIGHAN(Special Interest Group for Chinese Language Processing of the Association for Computational Linguistics)是國際計算語言學(xué)會(ACL)中文語言處理小組的簡稱。
2) BioNLP/NLPBA(Biomedical Natural Language Processing/Natural Language Processing in Biomedical Applications) 2004數(shù)據(jù)集:來自GENIA版本3.02語料的2000MEDLINE摘要,該摘要由生物醫(yī)學(xué)術(shù)語{human, transcription factor, blood cell}組成。經(jīng)處理后僅使用蛋白質(zhì)(protein)、DNA、RNA、細(xì)胞系(cell line)和細(xì)胞類型(cell type)等命名實(shí)體。
MSRA和BioNLP/NLPBA 2004是公開數(shù)據(jù)集,并且已經(jīng)給出詞性標(biāo)注,但需將其詞性標(biāo)注轉(zhuǎn)換為BIO(Begin Inside Other)系統(tǒng),其中B表示命名實(shí)體的首字符,I表示除命名實(shí)體首字符外的其他實(shí)體字符,O表示非命名實(shí)體字符。其中,MSRA數(shù)據(jù)集有3個實(shí)體類別,如表1所示;BioNLP/NLPBA 2004數(shù)據(jù)集有5個實(shí)體類別,如表2所示。
表1MSRA實(shí)體標(biāo)簽
Tab.1 MSRA entity labels
表2BioNLP/NLPBA 2004實(shí)體標(biāo)簽
Tab.2 BioNLP/NLPBA 2004 entity labels
將帶有實(shí)體標(biāo)簽的數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集與測試集,數(shù)據(jù)集的劃分情況如表3所示。
表3數(shù)據(jù)集劃分情況
Tab.3 Dataset division condition
表4模型參數(shù)設(shè)置
Tab.4 Model parameter setting
本文的實(shí)驗(yàn)環(huán)境及配置如表5所示。
表5軟硬件環(huán)境
Tab.5 Software and hardware environments
本文使用3個指標(biāo)作為評價標(biāo)準(zhǔn):實(shí)體標(biāo)簽精確率(Precision,)、實(shí)體標(biāo)簽的召回率(Recall,)和綜合評價指標(biāo)F1值(1)。計算公式如式(23)~(25)所示:
為了驗(yàn)證模型參數(shù)設(shè)置的有效性,在MSRA數(shù)據(jù)集上對不同滑動窗口的模型,以及不同初始向量維度的模型分別進(jìn)行實(shí)驗(yàn),如圖5、圖6所示。結(jié)果表明,當(dāng)滑動窗口大小取5,初始化向量維度為100時,模型的F1值達(dá)到最大值93.76%。
圖5 不同大小滑動窗口的效果對比
圖6 不同嵌入向量維度的效果對比
實(shí)驗(yàn)使用Pytorch深度學(xué)習(xí)框架,在MSRA和BioNLP/NLPBA 2004數(shù)據(jù)集進(jìn)行訓(xùn)練,并利用測試集進(jìn)行測試。BGCN模型與其他模型的對比結(jié)果如表6、7所示。
表6MSRA數(shù)據(jù)集上的對比結(jié)果 單位:%
Tab.6 Comparison results on MSRA dataset unit:%
表7BioNLP/NLPBA 2004數(shù)據(jù)集上的對比結(jié)果 單位:%
Tab.7 Comparison results on BioNLP/NLPBA dataset unit:%
在中文數(shù)據(jù)集MSRA上,BGCN模型的F1值較文獻(xiàn) [23]、文獻(xiàn)[24]、文獻(xiàn)[25]、文獻(xiàn)[5]和文獻(xiàn)[6]的最優(yōu)值提高了2.83%,召回率較之最優(yōu)值提高了2.79%,精確率較之最優(yōu)值提高了2.39%。通過相關(guān)對比可以發(fā)現(xiàn),BGCN模型在中文命名實(shí)體識別任務(wù)上也領(lǐng)先于文中提及的其他模型。
在英文數(shù)據(jù)集BioNLP/NLPBA 2004上,BGCN模型F1值比文獻(xiàn)[26]、文獻(xiàn)[2]和文獻(xiàn)[27]等的最優(yōu)值提高了8.49%,精確率比其提高了15.20%,召回率比其提高了13.27%。實(shí)驗(yàn)結(jié)果表明,BGCN模型能夠?qū)W習(xí)到更有用的語義特征,在英文命名實(shí)體識別任務(wù)表現(xiàn)上比現(xiàn)有模型優(yōu)越。
從圖7和圖8中可以看出,BGCN模型在MSRA數(shù)據(jù)集上只需要8輪即可達(dá)到收斂,在BioNLP/NLPBA 2004數(shù)據(jù)集上則需要25輪達(dá)到收斂,這從側(cè)面反映了BGCN模型時間性能的優(yōu)越性。相對于中文數(shù)據(jù)集,模型在英文數(shù)據(jù)集上難收斂的原因是英文數(shù)據(jù)集需抽取的實(shí)體類型有5類而中文數(shù)據(jù)集只有3類。這反映了實(shí)體類型的增加會使得抽取任務(wù)難度倍增,也體現(xiàn)了BGCN模型在處理復(fù)雜的實(shí)體抽取問題上,具有較優(yōu)的泛化能力。
為了驗(yàn)證BGCN組合模型的有效性,將模型的自注意力層去除,并在BioNLP/NLPBA 2004數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),訓(xùn)練過程如圖9。實(shí)驗(yàn)表明,去除自注意力層的模型(BiLSTM-GCN-CRF)雖然能較快收斂,但其對文本深層特征的學(xué)習(xí)不夠充分,在測試集上F1值為76.80%;而帶有自注意力層的BGCN模型,由于需要學(xué)習(xí)的參數(shù)較多,雖然前期分?jǐn)?shù)增長較慢,但在第15輪后分?jǐn)?shù)迅速爬升,收斂后F1值為79.00%,較前者提升了2.2個百分點(diǎn)。
圖7 MSRA驗(yàn)證集訓(xùn)練效果
圖8 BioNLP/NLPBA 2004 驗(yàn)證集訓(xùn)練效果
圖9 BGCN去除自注意力層前后效果對比
本文針對不同語系下黏著程度和語序不一的特點(diǎn),提出一種新穎的命名實(shí)體識別模型BGCN。實(shí)驗(yàn)結(jié)果表明,模型對不同語言習(xí)慣的中文和英文語料均能捕獲豐富的語義特征,精確率比傳統(tǒng)序列模型和圖模型有明顯的提升。同時,在實(shí)體類別數(shù)量不同的語料上,雖在時間性能稍有不足,但能取得較優(yōu)的精度,表現(xiàn)出較好的泛化能力。下一步將考慮在其他語言的語料上進(jìn)行測試,改進(jìn)實(shí)體分類方法,以降低時間消耗,進(jìn)一步提高模型泛化能力。
[1] HUANG Z H, XU W, YU K. Bidirectional LSTM-CRF models for sequence tagging[EB/OL]. (2015-08-09) [2020-05-01].https://arxiv.org/pdf/1508.01991.pdf.
[2] SONG H J, JO B C, PARK C Y, et al. Comparison of named entity recognition methodologies in biomedical documents[J]. Biomedical Engineering Online, 2018, 17: No.158.
[3] LUO Y, XIAO F S, ZHAO H. Hierarchical contextualized representation for named entity recognition[C]// Proceedings of the 2020 AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 8441-8448.
[4] GAJENDRAN S, MANJULA D, SUGUMARAN V. Character level and word level embedding with bidirectional LSTM-Dynamic recurrent neural network for biomedical named entity recognition from literature[J]. Journal of Biomedical Informatics, 2020, 112(1): No.103609.
[5] DONG C H, ZHANG J J, ZONG C Q, et al. Character-based LSTM-CRF with radical-level features for Chinese named entity recognition[C]// Proceedings of the 2016 International Conference on Computer Processing of Oriental Languages/2016 National CCF Conference on Natural Language Processing and Chinese Computing, LNCS 10102. Cham: Springer, 2016: 239-250.
[6] 張海楠,伍大勇,劉悅,等. 基于深度神經(jīng)網(wǎng)絡(luò)的中文命名實(shí)體識別[J]. 中文信息學(xué)報, 2017, 31(4):28-35.(ZHANG H N, WU D Y, LIU Y, et al. Chinese named entity recognition based on deep neural network[J]. Journal of Chinese Information Processing, 2017, 31(4):28-35.)
[7] 劉宇瀚,劉常健,徐睿峰,等. 結(jié)合字形特征與迭代學(xué)習(xí)的金融領(lǐng)域命名實(shí)體識別[J]. 中文信息學(xué)報, 2020, 34(11): 74-83.(LIU Y H, LIU C J, XU R F, et al. Utilizing glyph feature and iterative learning for named entity recognition in finance text[J]. Journal of Chinese Information Processing, 2020, 34(11): 74-83.)
[8] ZHANG Y, YANG J. Chinese NER using lattice LSTM[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: Association for Computational Linguistics, 2018: 1554-1564.
[9] YU X M, FENG W Z, WANG H, et al. An attention mechanism and multi-granularity-based Bi-LSTM model for Chinese Q&A system[J]. Soft Computing, 2020, 24(8):5831-5845.
[10] DAI J H, FENG C, BAI X F, et al. AERNs: attention-based entity region networks for multi-grained named entity recognition[C]// Proceedings of the IEEE 31st International Conference on Tools with Artificial Intelligence. Piscataway: IEEE, 2019: 408-415.
[11] 張晗,郭淵博,李濤. 結(jié)合GAN與BiLSTM-Attention-CRF的領(lǐng)域命名實(shí)體識別[J]. 計算機(jī)研究與發(fā)展, 2019, 56(9):1851-1858.(ZHANG H, GUO Y B, LI T. Domain named entity recognition combining GAN and BiLSTM-Attention-CRF[J]. Journal of Computer Research and Development, 2019, 56(9):1851-1858.)
[12] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.
[13] 王得賢,王素格,裴文生,等. 基于JCWA-DLSTM的法律文書命名實(shí)體識別方法[J]. 中文信息學(xué)報, 2020, 34(10): 51-58.(WANG D X, WANG S G, PEI W S, et al. Named entity recognition based on JCWA-DLSTM for legal instruments[J]. Journal of Chinese Information Processing, 2020, 34(10): 51-58.)
[14] CHEN X Y, SHI S H, ZHAN S Y, et al. Named entity recognition of Chinese electronic medical records based on cascaded conditional random field[C]// Proceedings of the IEEE 4th International Conference on Big Data Analytics. Piscataway: IEEE, 2019: 364-368.
[15] SUN X L, SUN S L, YIN M Z, et al. Hybrid neural conditional random fields for multi-view sequence labeling[J]. Knowledge-Based Systems, 2020, 189: No.105151.
[16] LIU J M, SUN C, YUAN Y. The BERT-BiLSTM-CRF question event information extraction method[C]// Proceedings of the IEEE 3rd International Conference on Electronic Information and Communication Technology. Piscataway: IEEE, 2020: 729-733.
[17] HU J M, ZHENG X. Opinion extraction of government microblog comments via BiLSTM-CRF model [C]// Proceedings of the 2020 ACM/IEEE Joint Conference on Digital Libraries. New York: ACM, 2020: 473-475.
[18] YANG X M, GAO Z H, LI Y M, et al. Bidirectional LSTM-CRF for biomedical named entity recognition[C]// Proceedings of the 14th International Conference on Natural Computation, Fuzzy Systems and Knowledge Discovery. Piscataway: IEEE, 2018: 239-242.
[19] 胡慧君,王聰,代建華,等.基于BiLSTM-CRF 的社會突發(fā)事件研判方法[J]. 中文信息學(xué)報, 2022, 36(3):154-161. (HU H J, WANG C, DAI J H,et al. Social emergency event judgement based on BiLSTM-CRF[J]. Journal of Chinese Information Processing, 2022, 36(3):154-161.)
[20] 古雪梅,劉嘉勇,程芃森,等. 基于增強(qiáng) BiLSTM-CRF 模型的推文惡意軟件名稱識別[J]. 計算機(jī)科學(xué), 2020, 47(2): 245-250.(GU X M, LIU J Y, CHENG P S, et al. Malware name recognition in tweets based on enhanced BiLSTM-CRF model[J]. Computer Science, 2020, 47(2): 245-250.)
[21] WU Z H, PAN S R, CHEN F W, et al. A comprehensive survey on graph neural networks[J]. IEEE Transactions on Neural Networks and Learning Systems, 2021, 32(1): 4-24.
[22] YAO L, MAO C S, LUO Y. Graph convolutional networks for text classification[C]// Proceedings of the 33rd AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2019: 7370-7377.
[23] ZHOU J S, HE L, DAI X Y, et al. Chinese named entity recognition with a multi-phase model[C]// Proceedings of the 5th SIGHAN Workshop on Chinese Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2006: 213-216.
[24] CHEN A T, PENG F C, SHAN R, et al. Chinese named entity recognition with conditional probabilistic models[C]// Proceedings of the 5th SIGHAN Workshop on Chinese Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2006: 173-176.
[25] ZHOU J H, QU W G, ZHANG F. Chinese named entity recognition via joint identification and categorization[J]. Chinese Journal of Electronics, 2013, 22(2):225-230.
[26] YIMAM S M, BIEMANN C, MAJNARIC L, et al. An adaptive annotation approach for biomedical entity and relation recognition[J]. Brain Informatics, 2016, 3:157-168.
[27] SONG Y, KIM E, LEE G G, et al. POSBIOTM-NER in the shared task of BioNLP/NLPBA2004[C]// Proceedings of the 2004 International Joint Workshop on Natural Language Processing in Biomedicine and its Applications. [S.l.]: COLING, 2004:103-106.
ZUO Yayao, born in 1974, Ph. D., associate professor. His research interests include temporal information processing, data mining, natural language processing.
CHEN Haoyu, born in 1995, M.S. candidate. His research interests include natural language processing, deep learning.
CHEN Zhiran, born in 1996, M. S. candidate. His research interests include natural language processing, machine learning.
HONG Jiawei, born in 1999. His research interests include natural language processing, image recognition.
CHEN Kun, born in 2001. Her research interests include data mining, natural language processing.
Named entity recognition method combining multiple semantic features
ZUO Yayao*, CHEN Haoyu, CHEN Zhiran, HONG Jiawei, CHEN Kun
(,,510006,)
Aiming at the common non-linear relationship between characters in languages, in order to capture richer semantic features, a Named Entity Recognition (NER) method based on Graph Convolutional Network (GCN) and self-attention mechanism was proposed. Firstly, with the help of the effective extraction ability of character features of deep learning methods, the GCN was used to learn the global semantic features between characters, and the Bidirectional Long Short-Term Memory network (BiLSTM) was used to extract the context-dependent features of the characters. Secondly, the above features were fused and their internal importance was calculated by introducing a self-attention mechanism. Finally, the Conditional Random Field (CRF) was used to decode the optimal coding sequence from the fused features, which was used as the result of entity recognition. Experimental results show that compared with the method that only uses BiLSTM or CRF, the proposed method has the recognition precision increased by 2.39% and 15.2% respectively on MicroSoft Research Asia (MSRA) dataset and Biomedical Natural Language Processing/Natural Language Processing in Biomedical Applications (BioNLP/NLPBA) 2004 dataset, indicating that this method has good sequence labeling capability on both Chinese and English datasets, and has strong generalization capability.
Named Entity Recognition (NER); sequence labeling; self-attention mechanism; Graph Convolution Network (GCN); Bidirectional Long Short-Term Memory network (BiLSTM)
This work is partially supported by Natural Science Foundation of Guangdong Province (501190013).
TP391.1 文
A
1001-9081(2022)07-2001-08
10.11772/j.issn.1001-9081.2021050861
2021?05?25;
2021?09?09;
2021?10?12。
廣東省自然科學(xué)基金資助項(xiàng)目(501190013)。
左亞堯(1974—),男,湖北荊州人,副教授,博士,主要研究方向:時態(tài)信息處理、數(shù)據(jù)挖掘、自然語言處理; 陳皓宇(1995—),男,廣東廣州人,碩士研究生,主要研究方向:自然語言處理、深度學(xué)習(xí); 陳致然(1996—),男,廣東汕尾人,碩士研究生,主要研究方向:自然語言處理、機(jī)器學(xué)習(xí); 洪嘉偉(1999—),男,廣東普寧人,主要研究方向:自然語言處理、圖像識別; 陳坤(2001—),女,廣東梅州人,主要研究方向:數(shù)據(jù)挖掘、自然語言處理。