束文豪,奚雪峰,3,崔志明,3,顧晨凱
1.蘇州科技大學(xué) 電子與信息工程學(xué)院,江蘇 蘇州 215000
2.蘇州市虛擬現(xiàn)實智能交互及應(yīng)用技術(shù)重點實驗室,江蘇 蘇州 215000
3.蘇州智慧城市研究院,江蘇 蘇州 215000
命名實體識別(named entity recognition,NER)[1]是信息抽取任務(wù)之一,在自然語言處理(natural language processing,NLP)任務(wù)中得到了廣泛的應(yīng)用,如自動問答、機器翻譯和自動文本摘要等。NER的主要目的是從非結(jié)構(gòu)化文本中提取預(yù)先指定的“專有名詞”,如人名、地名、機構(gòu)名,和日期[2]。但隨著研究的不斷深入,學(xué)者們對名詞類型做了更加細粒度的劃分。例如,地名可以細分為國家、省、州和城市[3]等,人名可以細分為政治家、演員和其他角色[4]等。隨著神經(jīng)網(wǎng)絡(luò)的快速發(fā)展以及中文NER研究的進一步開展,近幾年,越來越多的學(xué)者對中文NER 進行了深入的研究。與英文NER 相比,中文NER中的實體因缺少明確的邊界,以及復(fù)雜的詞序構(gòu)造和嵌套實體關(guān)系的定義,而更加難以識別。對于解決中文NER 中存在的實體邊界問題,本文整理了行之有效的解決方法,并研究了在特定領(lǐng)域以及低資源領(lǐng)域的NER。同時,本文還分析了NER中實體消歧、實體鏈接和嵌套NER等相關(guān)任務(wù)的最新研究進展。
早期NER 技術(shù)通常依賴于人工構(gòu)建規(guī)則和模板。例如,20 世紀(jì)90 年代初,Rau 等人[5]手動構(gòu)建了大量規(guī)則和模板,并使用啟發(fā)式算法成功地從財經(jīng)新聞中識別出公司的企業(yè)身份。該方法遠超人工提取的效率,并且評估指標(biāo)超過90%。但是這種方法需要領(lǐng)域?qū)<易远x規(guī)則,耗費時間和精力,不能應(yīng)用于其他領(lǐng)域,泛化能力和可移植性較差。
隨著將機器學(xué)習(xí)應(yīng)用于NER 任務(wù)之后,領(lǐng)域?qū)<也辉傩枰謩訕?gòu)建規(guī)則和模板,而是借助于帶注釋的語料庫來訓(xùn)練模型。其中,隱馬爾科夫模型(hidden Markov model,HMM)和條件隨機域模型(conditional random field,CRF)就是具有代表性的模型。例如,2015年,韓春燕等人[6]使用CRF 提取特征級別、句子級別和詞匯級別的特征,并將它們與詞典特征一起輸入到另一個CRF 中,用于微博等網(wǎng)絡(luò)社交領(lǐng)域的實體識別。隨后,F(xiàn)eng 等人[7]結(jié)合了HMM 和詞匯特征以及橋梁領(lǐng)域的專有規(guī)則來識別橋梁實體。但由于這兩種方法都是基于機器學(xué)習(xí)的,需要提取特征,因此在訓(xùn)練過程中模型中會出現(xiàn)誤差傳播。鑒于此,學(xué)者們逐漸開始將研究重點轉(zhuǎn)向深度學(xué)習(xí)。
深度學(xué)習(xí)已經(jīng)成為一種直接從數(shù)據(jù)中學(xué)習(xí)特征表示的強有力的方法。與傳統(tǒng)淺層機器學(xué)習(xí)相比,基于深度學(xué)習(xí)的實體識別可以在原始數(shù)據(jù)中自動學(xué)習(xí)特征,在一定程度上降低了對領(lǐng)域?qū)<业囊蕾?,解決了模型訓(xùn)練中的誤差傳播問題。因此,在NER中,基于深度學(xué)習(xí)方法的準(zhǔn)確率已經(jīng)超越基于傳統(tǒng)淺層機器學(xué)習(xí)的方法。NER 任務(wù)中主要用到的深度學(xué)習(xí)方法包括各類神經(jīng)網(wǎng)絡(luò),下文將逐一介紹。
在2011年,Collobert等人[8]首次在NER任務(wù)中應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)。2019 年,Cao 等人[9]在CNN 的基礎(chǔ)上增加了CRF,并提出了CNN-CRF 模型,用于中文電子病例的實體提取。使用該模型后,精度和速度都有所提高。由于傳統(tǒng)的CNN模型不能解決長距離信息丟失的問題,在2021年,Kong 等人[10]提出了一種增加注意力機制的CNN 模型,該模型中不同卷積核和殘差結(jié)構(gòu)的CNN融合提高了從不同維度捕獲長文本上下文信息的能力,以此來處理長距離信息的丟失。
循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)在NER 任務(wù)中也得到了廣泛的應(yīng)用。Huang 等人[11]提出將長短期記憶網(wǎng)絡(luò)(long short term memory,LSTM)應(yīng)用于NER任務(wù),并提出了基于LSTM的多個變體模型,其中雙向長短期記憶網(wǎng)絡(luò)(bi-directional long short term memory,BiLSTM)最具代表性。利用BiLSTM 模型可以得到文本在過去和未來兩個方向上的特征。在此基礎(chǔ)上,Yang等人[12]使用BiLSTM模型從電子病例數(shù)據(jù)中提取了22 種實體類型、如疾病、癥狀、身體部位和其他成分,實驗F1 值達到80.52%。2019 年,Ji 等人[13]在BiLSTM 模型的基礎(chǔ)上引入了注意力機制來計算文本中關(guān)鍵特征的權(quán)重,提高了文本特征的提取能力。2020 年,Liu 等人[14]提出了一種新的網(wǎng)絡(luò)結(jié)構(gòu),即結(jié)合CNN和LSTM 端到端的模型結(jié)構(gòu),CNN和CRF都被用于獲得基于詞的表示。
近年來,除了CNN 和RNN 之外,利用Transformer模型進行NER 也成為學(xué)者們研究的熱點。Transformer主要由注意力機制實現(xiàn),這不僅提高了識別精度,還縮短了訓(xùn)練時間。在NER 中使用Transformer 的代表有Yan 等人[15]提出的TENER 模型和Li 等人[16]提出的Transformer-CRF 模型,該模型在提取文本特征的基礎(chǔ)上,引入CRF 對實體進行分類和識別。Shen 等人[17]在2022 年提出了BERT-BiLSTM-CRF 模型。該模型將RNN與注意力機制結(jié)合,通過神經(jīng)網(wǎng)絡(luò)提取句子特征,利用注意力機制解決長距離依賴問題,有效地提高了模型的整體識別能力。因此,注意力機制在NER 任務(wù)中的應(yīng)用拓展了NER的研究方向。
隨著研究發(fā)現(xiàn),在編碼層中,CNN和RNN都存在梯度消失、梯度爆炸和數(shù)據(jù)空間限制等問題,這嚴(yán)重影響了模型的準(zhǔn)確性和擴展性。但是,研究人員發(fā)現(xiàn)圖神經(jīng)網(wǎng)絡(luò)[18]在NER上也能取得很好的效果,并且該模型打破了神經(jīng)網(wǎng)絡(luò)的序列化處理結(jié)構(gòu),充分發(fā)揮了圖的優(yōu)勢,實現(xiàn)了從歐幾里德空間向非歐幾里德空間的突破,能有效地解決上述問題。本文接下來將著重介紹圖神經(jīng)網(wǎng)絡(luò)及其應(yīng)用,最后進行本文總結(jié)和展望。
圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)是深度學(xué)習(xí)在圖結(jié)構(gòu)上的一個分支,除了能夠?qū)W習(xí)結(jié)構(gòu)化數(shù)據(jù)之外,還能學(xué)習(xí)到非結(jié)構(gòu)數(shù)據(jù),比如文本和圖像信息等,并能夠在提取出的圖結(jié)構(gòu)中進行推理。早期的GNN存在許多問題,之后衍生了諸多變體,本文將在1.2節(jié)、1.3節(jié)、1.4節(jié)中詳細介紹。下面給出GNN的說明和定義。
GNN的目標(biāo)是學(xué)習(xí)得到一個狀態(tài)嵌入向量hv∈Rs。這個向量包含每個節(jié)點的鄰居節(jié)點信息,其中,hv表示節(jié)點v的狀態(tài)向量,這個向量可以用于產(chǎn)生輸出ov,比如輸出可以是節(jié)點的標(biāo)簽;設(shè)f是帶有參數(shù)的函數(shù),叫作局部轉(zhuǎn)化函數(shù),這個函數(shù)在所有節(jié)點中共享,并根據(jù)鄰居節(jié)點的輸入來更新節(jié)點狀態(tài);設(shè)g為局部輸出函數(shù),這個函數(shù)用于描述輸出的產(chǎn)生方式。那么hv和ov按照如下式子產(chǎn)生:
其中,xv、xco[v]、hNv和xNv分別表示節(jié)點的特征向量、節(jié)點v邊的特征向量、節(jié)點v鄰居節(jié)點的狀態(tài)向量和節(jié)點v鄰居節(jié)點特征向量。
假設(shè)將所有的狀態(tài)向量,所有的輸出向量,所有的特征向量疊加起來分別使用矩陣H、O、X和XN來表示,那么可以得到更加緊湊的公式:
其中,F(xiàn)表示全局轉(zhuǎn)化函數(shù),G表示全局輸出函數(shù),分別是所有節(jié)點f和g的疊加形式,H是方程(3)的不動點,并且在F為收縮映射的假設(shè)下H被唯一地定義。根據(jù)Banach 的不動點定理,GNN 使用如下的傳統(tǒng)迭代方法來計算狀態(tài)參量:
其中,Ht+1表示H的第t個迭代周期的張量,方程(5)迭代的系統(tǒng)按指數(shù)級收斂,收斂到最終的不動點。
但早期的GNN對不動點使用迭代的方法來更新節(jié)點的隱藏狀態(tài)效率并不高,并且GNN 在迭代中使用相同的參數(shù),而其他比較著名的模型在不同的網(wǎng)絡(luò)層采用不同的參數(shù)來進行分層特征提取,使得模型能夠?qū)W習(xí)到更深的特征表達。
同時圖中的一些邊上可能會存在某些信息特征不能被有效地考慮進去。此外,如何學(xué)習(xí)邊的隱藏狀態(tài)也是一個重要問題。
圖循環(huán)神經(jīng)網(wǎng)絡(luò)(graph recurrent network,GRN)是在傳播步驟中使用門循環(huán)單元(GRU)[19]或LSTM[20]這樣的RNN 的門機制,以減少早期GNN 模型的表達結(jié)果,并提高圖中信息長期傳播的有效性。
Li 等人[21]提出了在支撐步驟中使用GRU的門控圖形神經(jīng)網(wǎng)絡(luò)(gated graph neural network,GGNN)算法。它對固定數(shù)目的T步驟展開RNN,并通過時間反向傳播計算梯度。具體傳播模型的基本遞歸如下公式:
節(jié)點v首先聚合來自其鄰居節(jié)點的信息,其中Av是鄰接矩陣A的子矩陣,表示節(jié)點v與其鄰居節(jié)點的連接。類似于GRU-like的更新函數(shù)使用每個節(jié)點的鄰居節(jié)點上的信息和上一個時間步驟的信息來更新節(jié)點的隱藏狀態(tài)。向量a收集節(jié)點v、z和r的鄰域信息,同時這三個節(jié)點也是更新和重置門,⊙是Hardamard 乘積運算。
GGNN 模型是針對圖上需要輸出序列的問題而設(shè)計的,而現(xiàn)有模型只能生成單一的輸出,如節(jié)點級或圖級分類。
Li等人[22]進一步提出了門控圖序列神經(jīng)網(wǎng)絡(luò)(gated graph sequence neural network,GGS-NN),它使用多個GGNN產(chǎn)生一個輸出序列o(1),o(2),…,o(K)。如圖1所示,對于k-th輸出步驟,節(jié)點注釋的矩陣表示為X(k)。該體系結(jié)構(gòu)使用了兩個GGNN:F(k)o預(yù)測從X(k)到o(k)的過程和F(k)x預(yù)測從X(k)到X(k+1)的過程。本文用H(k,t)來表示k-th輸出步驟的t-th傳播步長。
圖1 門控圖序列神經(jīng)網(wǎng)絡(luò)的架構(gòu)Fig.1 Architecture of gated graph sequence neural network
每個步驟k的H(k,1)的值由X(k)初始化。每個步驟t的H(t,1)的值初始化為X(t)。F(k)o和F(k)x可以是不同的模型,也可以共享相同的參數(shù)。
對于一個給定節(jié)點vi,圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional network,GCN)[23]使用卷積函數(shù)在hit-1的基礎(chǔ)上計算hit。假定用于信息交換的上下文與GRN例子情況相同。分別采取式(11)和式(12)來為無向圖和有向圖計算mti和xit:
GCN和GRN之間的主要區(qū)別在于更新節(jié)點隱含狀態(tài)的方式不同:GRN 采用LSTM 來更新節(jié)點狀態(tài),而GCN則使用卷積函數(shù)進行這一操作,如式(13)所示:
式(13)可以被視作一個標(biāo)準(zhǔn)卷積濾波器操作,其中,Wm、Wx和bx是模型參數(shù)。
一種GCN的變體使用不同的權(quán)重收集來自不同類型邊的信息(即具有不同標(biāo)簽的邊)。即將連接節(jié)點vi和vk的邊標(biāo)簽表示為l(i,k),將vi和vk的邊的方向表示為dir(i,k)。可以通過將式(13)替換為式(14)、(15)來定義GCN。
其中,是用于替換式(13)中Wm的|L|×2 組模型參數(shù);L是邊標(biāo)簽的集合。同樣地,類似的方法可以用于擴展Wx和bx。
為了控制從hk傳遞到hi的信息量,可以在式(14)、(15)的基礎(chǔ)上添加控制門,形成另一種GCN 的變體。具體來說,控制門gi,k t的值如式(16)所示:
使用控制門后,可以將式(14)拓展為式(17)的形式:
圖注意力神經(jīng)網(wǎng)絡(luò)(graph attention network,GAT)[24]可以被視為一種通過對鄰居節(jié)點進行操作來表示每個節(jié)點的自注意力神經(jīng)網(wǎng)絡(luò)(self-attention network,SAN)[25]。具體而言,為了計算在時間步t時刻的vi節(jié)點的隱含狀態(tài)hit,使用其相鄰節(jié)點的先前狀態(tài)的加權(quán)和,如式(18)所示:
式中的權(quán)重αik是由先前的隱含狀態(tài)hit-1和htk-1計算得到的,如式(19)和式(20)所示:
其中,W是模型參數(shù)。相較于早期GNN來說,GAT采用的注意力機制能夠為不同的鄰居節(jié)點分配不同的權(quán)重。
隨著NER 技術(shù)的不斷成熟,目前GNN 已應(yīng)用到多個NER任務(wù)中,并取得了不錯效果。GNN在NER中主要應(yīng)用于實體邊界檢測、實體鏈接、實體消歧、(特定)低資源NER、關(guān)系抽取以及嵌套NER 等相關(guān)任務(wù)。本章詳細介紹研究人員對上述任務(wù)做的相關(guān)工作及成果。
NER 的目標(biāo)是檢測文本中實體的邊界和實體的類型,表1 展示了邊界檢測的相關(guān)數(shù)據(jù)集。相較于英文NER,中文命名實體識別(CNER)研究難度更大。在英文文本中,單詞作為閱讀的基本單位是以空格作為劃分。而在中文文本中,語句由漢字緊密排列組成,并且沒有明確的分界符號。漢字是中文閱讀的基本單位,人在閱讀過程中會主動對語句進行分詞。相較于英文的詞粒度嵌入向量,中文的詞粒度向量需要進行分詞任務(wù),然而分詞產(chǎn)生的錯誤會導(dǎo)致實體識別錯誤,甚至?xí)淖兾谋菊Z義表達。
表1 邊界檢測的實體數(shù)據(jù)集Table 1 Entity datasets for boundary detection
為了解決上述問題,Chen等人[26]提出了一種邊界增強的方法。首先,利用Star-Transformer[27]構(gòu)建了一個輕量級baseline 系統(tǒng)。由于Star-Transformer 具有獨特的星形拓?fù)浣Y(jié)構(gòu),因此在表示長距離序列方面具有更大的優(yōu)勢,從而使得模型的baseline 性能達到了與SOTA 相當(dāng)?shù)乃?。該方法從兩個角度增強了邊界信息。一方面,添加了一個附加的GAT 層來捕獲短語的內(nèi)部依賴關(guān)系。通過這種方式,可以隱含地區(qū)分界限,同時增強短語中的語義信息;另一方面,增加了一個輔助任務(wù)來預(yù)測實體的頭部和尾部。最后,利用多任務(wù)學(xué)習(xí)框架學(xué)習(xí)邊界信息。
Sui 等人[28]提出了一種基于字符的協(xié)同圖網(wǎng)絡(luò)(CGN),具體來說,在圖層中有三個字符交互圖。第一個是C圖,它是為整合自匹配詞匯而設(shè)計的,模擬了字符和自匹配詞匯之間的聯(lián)系。第二個是T圖,它建立了字符和最近的上下文匹配詞之間的直接聯(lián)系,有助于直接整合最近的上下文單詞。第三個是L圖。L圖通過多跳隱含地捕獲自匹配詞匯和最近的上下文詞匯的信息。這些圖是在沒有外部NLP工具的情況下構(gòu)建的,可以避免錯誤傳播的問題。此外,該模型第一次將GAT和自動構(gòu)建語義圖引入NER任務(wù)。
上述方法使用了詞典信息和圖網(wǎng)絡(luò)來識別實體,但由于詞之間的依賴關(guān)系有助于確定實體邊界,利用與句法依賴關(guān)系相關(guān)的信息來提高NER性能至關(guān)重要。因此,Zhu 等人[29]提出了一種新穎的基于GGNN 的句法依賴圖信息學(xué)習(xí)模型,并將學(xué)習(xí)到的信息融合到經(jīng)典的BiLSTM-CRF 模型中,此外,他們還從多個中文分詞(CWS)和詞性標(biāo)注任務(wù)(POS)中提取了各種任務(wù)特定的隱藏信息,進一步改進了NER模型。最后,利用多個自注意力組件來整合多種提取的信息用于NER。在CNER中,實體邊界還存在重疊字詞的情況,因此Zhong等人[30]提出一種基于GGNN的CNER模型。首先,利用BERT 生成字符的預(yù)訓(xùn)練編碼向量,引入全局節(jié)點獲取全局信息,然后構(gòu)造一個GGNN 來表示相應(yīng)的字符和詞。通過圖形結(jié)構(gòu)中字符、匹配詞和整個句子全局節(jié)點信息的多重交互對中文實體進行識別。
雖然通過引入多圖注意力網(wǎng)絡(luò),使CGN 模型獲得了較強的知識整合能力以及高效的處理速度。但該模型在嵌入層中沒有充分利用詞邊界的信息,而且采用傳統(tǒng)靜態(tài)的GAT 影響了圖注意力的表達能力。因此,宋旭暉等人[31]在對該模型中的GAT進行改進的基礎(chǔ)上,提出了一種融入分詞信息的CNER 方法。該方法首先在嵌入層融入詞語的分詞信息以生成包含詞邊界信息的字向量,從而更好地利用詞的邊界信息。其次在編碼層使用BiLSTM模型初步獲取文本的上下文信息,并利用改進后的GAT 對文本特征進行提取,優(yōu)化傳統(tǒng)GAT 中相關(guān)系數(shù)的計算方式以增強模型的特征提取能力。最后利用CRF進行解碼從而實現(xiàn)對實體的標(biāo)注。
在中文NER醫(yī)療領(lǐng)域,Lee等人[32]提出了ME-MGNN模型,該模型結(jié)合從部首、字符到單詞級別的不同粒度的多個嵌入,以擴展字符表示,并將其輸入到多個GGS-NN中,以識別命名實體并對其類型進行分類。
中文電子病歷的NER 旨在識別和分類臨床術(shù)語,目前大多數(shù)基于深度學(xué)習(xí)的方法存在許多薄弱環(huán)節(jié),如特征提取不足、低資源實體識別不力、邊界劃分不準(zhǔn)確等。針對邊界劃分不準(zhǔn)確的問題,Zong等人[33]提出了一個新方法,該方法使用具有多向圖結(jié)構(gòu)的GGNN來捕獲醫(yī)學(xué)詞典提供的特征。使用CNN來獲取詞之間的邊界特征。這兩個特征被連接成一個特征向量,并輸入到Bi-Mogrifier-LSTM-Attention模塊中。該模型將字典特征集成到深度神經(jīng)網(wǎng)絡(luò)中,以更好地處理罕見的臨床命名實體。多頭注意力模塊強調(diào)當(dāng)前信息與上下文信息在許多方面的相關(guān)性和依賴性,這削弱了醫(yī)學(xué)和臨床治療無關(guān)的語義特征的權(quán)重。
因此為了以統(tǒng)一的方式利用多源知識,將詞匯或知識圖譜(knowledge graph,KG)概念與中文臨床NER的邊界很好地結(jié)合起來。Xiong等人[34]提出了一種新的基于關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò),稱為MKRGCN。多元知識增強中文臨床NER模型。通過關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)對外部詞典單詞和KG 概念進行整合,建立了詞典單詞或KG概念與其邊界統(tǒng)一匹配的模型。
Sui 等人[28]提出的模型不區(qū)分字詞的邊界,因此可能會混淆字符和詞之間的信息流。Zhao 等人[35]將邊界劃分為10 類,利用可訓(xùn)練的嵌入方法表示字與詞之間的關(guān)系,通過詞頻計數(shù)和無監(jiān)督的新詞提取來整合數(shù)據(jù)集中的統(tǒng)計信息。提出了一個基于關(guān)系和統(tǒng)計水平的中文NER 多通道GAT(MCGAT)模型,該網(wǎng)絡(luò)具有3個詞修正GAT,用于整合詞匯信息。該模型還可以進一步提高像BERT 這樣的預(yù)訓(xùn)練模型作為下游網(wǎng)絡(luò)的性能。
Wang等人[36]提出了一種多態(tài)GAT(PGAT)模型,旨在從多個維度捕捉字符與匹配詞之間的動態(tài)相關(guān)性,以提高字符的表示能力。通過從詞典中獲取字符的匹配詞,將字符映射到四個位置:B(開始)、M(中間)、E(結(jié)束)和S(單個詞)。提出的基于GAT的語義融合單元可以動態(tài)地調(diào)節(jié)B、M、E 和S 這4 個維度中匹配詞和字符的注意力,從而可以顯式地捕獲每個維度中字符和匹配詞之間的細粒度相關(guān)性。實驗結(jié)果表明,該方法具有良好的注意捕獲和融合能力。
Zhang 等人[37]提出了一個在Cetoli 等人[38]研究的基礎(chǔ)上,將GAT 應(yīng)用于NER 的模型。使用GAT 對句子成分中意識范疇進行情感分析,并利用GAT 生成選擇分析樹中節(jié)點的表示。將GAT 應(yīng)用于中文社交媒體的NER,充分利用句子的語法信息,并且使用自注意力機制來發(fā)現(xiàn)序列本身的特征,而不需要使用外部字典。該模型在輸入方面也得到了改進,為了解決分詞錯誤和OOV(out of vocabulary)問題,采用了字符向量和詞向量的組合作為輸入,并將詞性信息融入其中。這樣不僅可以利用分詞信息,而且可以在一定程度上減少分詞造成的誤差。
表2對比總結(jié)了實體邊界檢測的模型性能,據(jù)表中數(shù)據(jù)F1 的值可知,在Weibo 和OntoNotes 數(shù)據(jù)集中,加入BERT 或Transformer 與GAT 構(gòu)建的模型會比單純基于GAT的模型性能顯著提升,為此在接下來關(guān)于CNER的研究中可以利用BERT+Transformer+GAT構(gòu)建模型,以此獲得優(yōu)秀的中文邊界檢測的效果。
表2 實體邊界檢測模型性能對比Table 2 Performance comparison of entity boundary detection models
實體鏈接(entity link,EL)旨在將文本中的實體提及與知識庫(knowledge base,KB)聯(lián)系起來,神經(jīng)網(wǎng)絡(luò)模型在這方面已經(jīng)取得了成功,表3展示了實體鏈接的相關(guān)數(shù)據(jù)集。然而,現(xiàn)有的方法大多依賴于局部上下文來獨立地解決實體問題,由于局部信息的數(shù)據(jù)稀疏性,這種方法往往會失敗。為了解決這個問題,Cao 等人[39]提出了一種新的集體實體連接神經(jīng)網(wǎng)絡(luò)模型(NCEL)。NCEL 應(yīng)用GCN 集成地方上下文特征和實體連接的全局一致性信息。為了提高計算效率,Cao 等人[39]近似地對相鄰實體提及的子圖進行圖卷積,而不是對整個文本進行圖卷積。為了提高NCEL 對數(shù)據(jù)噪聲的魯棒性,該模型進一步引入了注意力機制,并在Wikipedia 超鏈接上對其進行訓(xùn)練,以避免過擬合和域偏差。在實驗中,Cao 等人[39]評估了5 個公開數(shù)據(jù)集上的NCEL,以驗證鏈接性能和泛化能力,對時間復(fù)雜度、關(guān)鍵模塊的影響以及定性結(jié)果進行了分析,證明了模型的有效性和效率。
表3 實體鏈接主要數(shù)據(jù)集Table 3 Entity link primary datasets
Jia等人[40]提出了一種將共注意力機制與GCN相結(jié)合的模型,用于KG 與實體之間的聯(lián)系,從上下文中自動提取提及和實體的特征。具體而言,在給出實體提及上下文及其候選實體上下文的情況下,引入共注意力機制來研究實體提及上下文與候選實體上下文之間的關(guān)系,并在考慮這種關(guān)系的基礎(chǔ)上構(gòu)建提及表征。此外,Jia 等人[40]還提出了一種基于上下文感知的實體表示GCN,該網(wǎng)絡(luò)同時考慮了候選實體的圖結(jié)構(gòu)以及與實體提及上下文的關(guān)聯(lián)性。
在生物醫(yī)學(xué)領(lǐng)域中,疾病名稱不僅需要確定,而且還需要標(biāo)準(zhǔn)化或與描述MeSH 等疾病的臨床稅收學(xué)相關(guān)聯(lián)。因此,Pujary 等人[41]研究了一種疾病正?;奶娲椒ǎㄟ^利用MeSH 的圖結(jié)構(gòu)來表示疾病名稱,以及使用圖嵌入分類法中可用的詞匯信息,結(jié)合神經(jīng)NER模型和Pujary等人[41]的基于圖的實體連接方法,通過多任務(wù)學(xué)習(xí)提高了在NCBⅠ語料庫疾病識別效果。
通過GCN對實體相關(guān)性進行建??梢燥@著提高實體鏈接的效率。然而,現(xiàn)有的實體鏈接模型未能考慮到一組實體的結(jié)構(gòu)圖不僅取決于給定文件的上下文信息,還取決于模型不同聚合層的自適應(yīng)變化,從而導(dǎo)致在捕獲實體之間的結(jié)構(gòu)信息方面存在不足。由此,Wu 等人[42]提出了一個動態(tài)的GCN結(jié)構(gòu),在訓(xùn)練過程中,研究人員對模型中的圖結(jié)構(gòu)進行動態(tài)計算和修改。通過動態(tài)鏈接節(jié)點的知識聚合,GCN 模型能夠共同識別文本與KG之間的實體映射,有效地捕獲整個文本中提到的各個實體之間的主題一致性。
而Chen等人[43]提出了一種新的基于異構(gòu)圖的全局實體連接器(HEGEL),它為每個文本建立了一個信息豐富的異構(gòu)圖,以收集各種鏈接線索。然后,HEGEL利用一種新的異構(gòu)GNN 對不同類型的流形信息進行集成,并對它們之間的相互作用進行建模。
在保證提及關(guān)系和實體關(guān)系一致性的約束下,集體實體將文本中實體的提及映射連接到知識庫(KB)中的相應(yīng)詞目。Zhang 等人[44]的目標(biāo)是通過GNN 處理集體實體鏈接。該方法將同一文本中的提及解析為提及圖,并從整個KB中提取包含其候選實體的子圖。然后,在提及圖和實體圖上,分別用兩個GAT 以迭代的方式更新節(jié)點表示和匹配得分。這樣,匹配得分和節(jié)點表示可以相互不斷改進,從而得到更好的映射。
對于在KG 上進行復(fù)雜會話問題回答的任務(wù)中,Kacupaj等人[45]提出了LASAGNE,該模型是第一種采用GAT 擴展的transformer 結(jié)構(gòu)進行多任務(wù)神經(jīng)語義分析的模型。LASAGNE 使用Transformer 模型來生成基本的邏輯表單,而GAT 則用于利用實體類型和謂詞之間的相關(guān)性來生成節(jié)點表示。LASAGNE 模型還包括一個新穎的實體識別模塊,可以檢測、鏈接和排序問題上下文中的所有相關(guān)實體。
近幾年,基于神經(jīng)網(wǎng)絡(luò)的生物醫(yī)學(xué)實體連接得到了顯著的效果。然而,現(xiàn)有大多數(shù)的研究沒有充分利用其模型中的主題一致性。而且大多數(shù)集合模型使用基于序列的方法,這可能會傳播錯誤。最重要的是,這些模型忽略了單個文本中提及內(nèi)容之間的關(guān)系,這對于鏈接實體非常有用。因此,Bo等人[46]提出了一種有效的基于GAT 的模型,它可以動態(tài)捕獲實體提及之間的關(guān)系,并學(xué)習(xí)連貫的表示。此外,與一般領(lǐng)域中的基于圖的模型不同,該模型不需要大量額外的資源來學(xué)習(xí)表示。
表4 對比總結(jié)了命名實體鏈接的方法性能,從表中數(shù)據(jù)可以看出,在ACE2004 和AQUAⅠNT 兩個數(shù)據(jù)集上,動態(tài)的GCN 模型(DGN)取得了遠超其他模型的效果。
表4 實體鏈接模型性能對比Table 4 Performance comparison of entity link models
知識圖譜實體消歧的目的是將模糊實體與KG 中的相應(yīng)實體進行匹配,這與實體鏈接的目的一致,表5展示了實體消歧的相關(guān)數(shù)據(jù)集?,F(xiàn)有的實體消歧方法通常是利用實體及其屬性的上下文信息來獲取實體提及嵌入向量,并與候選實體嵌入向量進行相似性比較,通過相似性進行實體匹配。這種方法的缺點是忽略了實體所在KG 的結(jié)構(gòu)特征,即實體與實體之間的聯(lián)系,因此無法獲得實體的全局語義特征。為了改善實體消歧問題的準(zhǔn)確率和召回率,Ma 等人[47]提出了基于實體和圖嵌入的實體消歧模型(EDEGE),它利用了實體關(guān)系的語義嵌入向量和子圖結(jié)構(gòu)特征的嵌入向量。EDEGE 首先訓(xùn)練實體關(guān)系的語義向量,然后訓(xùn)練實體所在子圖的圖結(jié)構(gòu)向量,并通過實體相似度函數(shù)平衡這兩個向量的權(quán)重。最后,將平衡向量輸入到GNN中,輸出實體之間的匹配,實現(xiàn)實體的消歧。
表5 實體消歧主要數(shù)據(jù)集Table 5 Entity disambiguation primary datasets
Shaw等人[48]提出了一種基于擴展Transformer自注意力機制的GNN 體系結(jié)構(gòu),以利用輸入元素之間的關(guān)系。Shaw等人[48]展示了這種GNN架構(gòu)在語義解析中的應(yīng)用,以給定自然語言語句和潛在相關(guān)實體的圖形表示為條件。該方法能夠與自然語言語句一起處理模糊和潛在沖突的實體候選者,從而在解析之前完全消除一組相關(guān)實體的歧義。這個模擬圖還使我們能夠在可用的情況下合并關(guān)于實體之間關(guān)系的知識。結(jié)合解碼時的復(fù)制機制,該模型還提供了一種概念上簡單的方法,用于生成帶有接地實體的邏輯表單。
Gui等人[49]介紹了一種基于詞典的圖形神經(jīng)網(wǎng)絡(luò)模型(LGN),它實現(xiàn)了中文NER 作為一個節(jié)點的分類任務(wù)。該模型打破了神經(jīng)網(wǎng)絡(luò)的序列化處理結(jié)構(gòu),通過細致的連接,可以獲得更好的字詞交互效果。詞典知識通過連接相關(guān)字符來捕捉局部成分。同時,設(shè)計了一個全局中繼節(jié)點來捕獲遠程依賴和高級特征。LGN遵循鄰域聚合方案,其中節(jié)點表示通過遞歸聚合其傳入邊和全局中繼節(jié)點來計算。由于聚合的多次迭代,該模型可以利用全局上下文信息反復(fù)比較歧義詞,以便更好地進行預(yù)測。
地名詞典被證明是NER的有用資源[50],現(xiàn)有將地名錄納入基于機器學(xué)習(xí)的NER系統(tǒng)的許多方法依賴于手動定義的選擇策略或手工制作的模板,這并不能得到最佳效果,尤其是在涉及多個地名錄時。對于中文NER的任務(wù)尤其如此,其中單詞沒有自然標(biāo)記,會導(dǎo)致歧義。為了自動學(xué)習(xí)將多個地名詞典整合到NER 中,Ding等人[51]提出了一種基于GGNN的新方法,該方法具有多圖結(jié)構(gòu),可捕獲地名詞典提供的信息。對各種數(shù)據(jù)集的實驗表明,該模型能夠有效地結(jié)合豐富的地名詞典信息進行NER,同時解決實體歧義問題。
由于醫(yī)學(xué)知識庫中的實體和源文本片段之間的詞語差異,現(xiàn)有的醫(yī)療實體消歧方法是不夠的。因此,Vretinaris等人[52]介紹了基于3種典型GNN(GraphSAGE、R-GCN 和MAGNN)的ED-GNN 在醫(yī)學(xué)實體消歧中的應(yīng)用。該方法開發(fā)了兩種優(yōu)化技術(shù)來微調(diào)和改進EDGNN。首先,引入一種新的策略,將文本片段中提到的實體表示為查詢圖。然后,設(shè)計了一種有效的負(fù)采樣策略來識別硬負(fù)樣本,以提高模型的消歧能力。
隨著出版物規(guī)模的迅速擴大,名稱歧義問題受到了越來越多的挑戰(zhàn)?,F(xiàn)有的工作主要集中在利用內(nèi)容信息來區(qū)分不同的名稱實體。Zhang等人[53]利用聯(lián)合內(nèi)容信息和關(guān)系信息來消除同一實體名稱的歧義。首先,基于合作者、機構(gòu)和場所等出版物的元信息構(gòu)建異構(gòu)學(xué)術(shù)網(wǎng)絡(luò)。然后,將網(wǎng)絡(luò)轉(zhuǎn)換成單獨的齊次圖。在此基礎(chǔ)上,提出了通過優(yōu)化嵌入向量來聯(lián)合學(xué)習(xí)內(nèi)容和關(guān)系信息的GAT。最后,提出了一種聚類算法來收集最有可能代表同一個人的作者姓名。
表6 對比總結(jié)了命名實體消歧的方法性能。表中數(shù)據(jù)可以看出,在通用領(lǐng)域里該任務(wù)處理的效果很好,但是在中文的特定領(lǐng)域中,比如在微博地名領(lǐng)域中消除歧義的效果就不是很出色。
表6 實體消歧模型性能對比Table 6 Performance comparison of disambiguation models
NER在一般領(lǐng)域得到了很好的研究,現(xiàn)有的系統(tǒng)在識別常見實體類型方面已經(jīng)取得了人類水平的性能。然而,對于特定領(lǐng)域來說,NER性能仍然是適中的,這些領(lǐng)域往往具有復(fù)雜的上下文和行話實體類型,表7給出了與其相關(guān)的部分?jǐn)?shù)據(jù)集。為了應(yīng)對這些挑戰(zhàn),Chen等人[54]提出了基于全局共參照關(guān)系和局部依賴關(guān)系的明確連接實體提及,以構(gòu)建更好的實體表示。在實驗中,該模型利用GAT結(jié)合了實體提及關(guān)系,結(jié)果表明該方法在不同領(lǐng)域的兩個數(shù)據(jù)集上顯著地提高了NER性能。進一步實驗表明,提出的輕量級系統(tǒng)可以有效地提高NER 性能到一個更高的水平,即使只有少量領(lǐng)域特定的標(biāo)記數(shù)據(jù)可用。
表7 低資源NER的主要數(shù)據(jù)集Table 7 Primary datasets for low resource NER
缺乏人工注釋一直是低資源領(lǐng)域中NER的主要障礙之一。為了解決這個問題,學(xué)者們已經(jīng)做了很多工作,根據(jù)特定領(lǐng)域的詞典自動生成銀色注釋。然而,領(lǐng)域詞典的信息是有限的,并且生成的注釋可能是嘈雜的,這對學(xué)習(xí)有效的模型提出了重大挑戰(zhàn)。因此,Luo等人[55]通過引入詞典引導(dǎo)的GAT 模型來解決這些問題。首先,利用領(lǐng)域特定詞典,通過圖匹配算法提取領(lǐng)域?qū)嶓w的候選詞,從而捕獲領(lǐng)域?qū)嶓w的詞匯模式。此外,利用詞提及交互圖將實體的語義和邊界信息集成到它們的上下文中。
傳統(tǒng)的NER 對于結(jié)構(gòu)簡單的傳統(tǒng)數(shù)據(jù)集是有效的,但是對于體育領(lǐng)域的文本來說就不那么有效了。對此,Seti 等人[56]提出了一種應(yīng)用于中文體育領(lǐng)域的CNER 模型,該模型基于字符級圖卷積神經(jīng)網(wǎng)絡(luò)(Char GCN)和自注意力機制。該方法將體育文本中的每個漢字視為一個節(jié)點。節(jié)點之間的邊緣使用相似的字符位置和體育文本中命名實體的字符特征來構(gòu)造。該實體的內(nèi)部結(jié)構(gòu)信息是使用字符映射CNN提取的。自注意力機制捕捉體育文本的等級語義信息,以加強命名實體之間的關(guān)系,并捕捉字符之間的相關(guān)性和依賴性。CRF分類函數(shù)能夠準(zhǔn)確識別中文體育文本中的命名實體。
對于在特殊語種領(lǐng)域的NER 任務(wù),Haisa 等人[57]通過引入一種混合神經(jīng)網(wǎng)絡(luò)模型,利用具有多維特征和注意力機制的詞語語義對哈薩克語命名實體進行識別。該任務(wù)有兩個挑戰(zhàn):第一,哈薩克語是一種具有粘性和形態(tài)學(xué)豐富性的語言,由于數(shù)據(jù)稀少,對NER提出了挑戰(zhàn);第二,是哈薩克語命名實體邊界不清、一詞多義、嵌套現(xiàn)象嚴(yán)重。處理文本數(shù)據(jù)稀疏的一個常用策略是應(yīng)用字詞分割。因此,該方法從哈薩克語詞法分析系統(tǒng)出發(fā),將詞和詞干的語義結(jié)合起來。此外,該模型構(gòu)造了一個實體的圖結(jié)構(gòu),以詞、實體和實體類別作為節(jié)點,以包含關(guān)系作為邊,并使用帶注意力機制的GGNN更新節(jié)點。最后,通過CRF,提取最終的結(jié)果。表8 總結(jié)了低資源領(lǐng)域命名實體識別的模型性能對比,由此可以看出,在小語種和特定領(lǐng)域的NER資源匱乏,但模型取得的效果顯著,尤其是字符GCN(Char GCN)模型。
表8 低資源命名實體識別模型性能對比Table 8 Performance comparison of low resource named entity recognition models
聯(lián)合NER 和關(guān)系提取是NLP 中的一項重要任務(wù),其目的是以端到端的方式識別實體并提取相應(yīng)的關(guān)系,表9 展示了關(guān)系抽取任務(wù)的相關(guān)數(shù)據(jù)集。Hong 等人[58]將聯(lián)合提取分為兩個子任務(wù),首先檢測實體跨度和同時識別實體關(guān)系類型。為了考慮實體和關(guān)系之間的完整交互,Hong 等人[58]提出了一種新的關(guān)系感知注意力機制來獲得兩個實體跨度之間的關(guān)系表示。因此,基于所有提取的實體跨度構(gòu)造一個完整的圖,其中節(jié)點是實體跨度,邊是關(guān)系表示。
表9 關(guān)系抽取相關(guān)實體數(shù)據(jù)集Table 9 Relationship extraction of relevant entity datasets
此外,該方法改進了原始GCN,以便在編碼節(jié)點特征時同時利用相鄰節(jié)點特征和邊緣信息。目前,與NER任務(wù)相比,關(guān)系抽取任務(wù)對復(fù)雜文本的識別效果較差。為了解決這一問題,Lai 等人[59]提出了一種新的聯(lián)合模型,即通過改進的GAT(ERⅠGAT)提取實體和關(guān)系,增強了關(guān)系提取任務(wù)的能力。該模型引入了GAT,通過構(gòu)造對稱關(guān)系來提取圖嵌入后的實體和關(guān)系。為了解決GCN過于平滑的問題,受到矩陣分解的啟發(fā),Lai等人[59]通過設(shè)計一種新的多頭注意力機制和共享注意力參數(shù)來改進GAT。
Fu等人[60]提出了一種基于GCN的端到端關(guān)系抽取模型(GraphRel),該模型利用GCN 聯(lián)合學(xué)習(xí)命名實體和關(guān)系。與以往的Baseline模型相比,該方法考慮了命名實體和關(guān)系之間的相互作用,通過關(guān)系加權(quán)的GCN,以更好地提取關(guān)系。該方法利用線性結(jié)構(gòu)和依賴結(jié)構(gòu)提取文本的連續(xù)特征和區(qū)域特征,進一步利用完全詞圖提取文本中所有詞對之間的隱含特征。
使用行政文件交流和業(yè)務(wù)信息記錄需要能夠以穩(wěn)健有效的方式自動從此類文件中提取和理解內(nèi)容。此外,這些報告的半結(jié)構(gòu)化性質(zhì)特別適合使用基于圖形的表示,這些表示足夠靈活,可以適應(yīng)來自不同文檔模板的變體。此外,GNN 提供了適當(dāng)?shù)姆椒▉韺W(xué)習(xí)這些文檔中數(shù)據(jù)元素之間的關(guān)系。在這項工作中,Carbonell等人[61]研究了利用GNN解決半結(jié)構(gòu)化文本中的實體識別和關(guān)系抽取問題。
從電子病歷中挖掘大規(guī)模醫(yī)學(xué)實體和實體關(guān)系,對于構(gòu)建醫(yī)學(xué)KG、醫(yī)學(xué)智能輔助診斷等應(yīng)用具有重要意義?,F(xiàn)有的方法大多將醫(yī)學(xué)實體識別和實體關(guān)系分類作為獨立的子任務(wù),采用流水線模型來解決這兩個子任務(wù)之間存在的錯誤傳播和不能實現(xiàn)子任務(wù)之間交互的問題。Pang等人[62]提出了一種利用GCN進行中文醫(yī)學(xué)實體及其關(guān)系提取的聯(lián)合模型。
Kambar 等人[63]對生物醫(yī)學(xué)文本關(guān)系提?。≧ⅠFRE)的GNN模型(Bio-RⅠFRE)進行了改進,提出了一種從生物醫(yī)學(xué)文本中聯(lián)合提取化學(xué)基因命名實體及其相互作用的RⅠFRE模型。該模型利用異構(gòu)圖GNN模型強化生物醫(yī)學(xué)文本的表示和關(guān)系抽取。結(jié)果表明,Bio-RⅠFRE在CHEMPROT 數(shù)據(jù)集上比其他聯(lián)合實體關(guān)系提取模型的F1 得分提高了3%。此外,在實體重疊情況下,當(dāng)句子中的關(guān)系數(shù)增加時,該模型具有較強的魯棒性,能夠獲得較好的F1值。
軍事實體與描述性實體之間關(guān)系的提取是軍事KG自動化構(gòu)建的關(guān)鍵任務(wù)。這類文本非結(jié)構(gòu)化存在諸如實體長度不固定、實體之間的間隔可能過長,以及代詞過多等問題。傳統(tǒng)的單一神經(jīng)網(wǎng)絡(luò)模型缺乏提取長區(qū)間實體關(guān)系信息的能力,無法很好地解決上述問題。為了解決這些問題,Li等人[64]提出了一種新的命名實體關(guān)系提取模型DTGCN,結(jié)合了依賴樹和GCN。由表10中的數(shù)據(jù)可知,GCN 對實體關(guān)系抽取任務(wù)的作用很突出。未來的研究可以多進行些利用GCN處理實體關(guān)系抽取工作。
表10 實體關(guān)系模型性能對比Table 10 Performance comparison of entity-relationship models
嵌套NER旨在識別復(fù)雜層次句子中命名實體的邊界和類別。針對嵌套NER問題,Luo等人[65]提出了一種新的二部平面圖網(wǎng)絡(luò)(BiFlaG),該模型包含兩個子圖模塊:最外層實體的flat-NER模塊和內(nèi)層所有實體的圖模塊。采用BiLSTM和GCN聯(lián)合學(xué)習(xí)平面實體及其內(nèi)部依賴關(guān)系。以往的模型只考慮信息從最內(nèi)層到外層(或從外到內(nèi))的單向傳遞,但是,該模型卻有效地捕獲了信息之間的雙向交互。該方法首先是利用平面NER模塊所識別的實體構(gòu)造一個實體圖,并將實體圖提供給下一個實體圖模塊。從圖模塊中學(xué)到的更豐富的表示包含了內(nèi)部實體的依賴性,可以用來改進最外層實體的預(yù)測。
KG中的嵌套NER旨在獲取所有有意義的實體,包括長文本區(qū)域中句子的嵌套實體。對此,Zhou等人[66]提出了一個POS 感知的嵌套NER 模型(PANNER),以解決上述問題。具體來說,該方法首先通過引入詞性信息來構(gòu)造一個異構(gòu)圖;其次,設(shè)計了一個基于語法路徑的擴張隨機游走(DRW)算法,為每個節(jié)點抽取固定大小的鄰居節(jié)點;然后,通過注意力機制聚合來自不同類型鄰居節(jié)點的信息;最后,使用雙向譯碼模塊對所有基于節(jié)點分層嵌入的平面實體和嵌套實體進行識別和分類。
有些嵌套NER 是使用基于字符級、詞級或詞典級的模型完成的。然而,這些研究忽視了補充注釋的作用。Sui 等人[67]提出了一種基于觸發(fā)器的GNN 模型(Trigger-GNN)來處理嵌套NER。它通過實體觸發(fā)編碼和語義匹配獲得補充的注釋嵌入,并利用一種高效的圖信息傳遞體系結(jié)構(gòu)——聚合-更新模式來處理嵌套實體。Sui等人[67]假設(shè)使用實體觸發(fā)器作為外部標(biāo)注可以在整個句子上添加互補的監(jiān)督信號。它有助于模型更有效地學(xué)習(xí)和推廣,并具有成本效益。
Tran等人[68]引入了一種句法信息詞表示法(SⅠWR),它可以在不改變其結(jié)構(gòu)的情況下將句法信息整合到神經(jīng)模型中。該模型由依賴樹上的兩層GCN層以及自身和順序信息組成。GCN用于將句法信息包含到基本單詞表示中,SⅠWR聯(lián)合預(yù)測POS和句法依賴。由表11中可以看出,在ACE2005 和GENⅠA 數(shù)據(jù)集中PANNER 模型的性能顯著,但是該模型在精度上沒有得到最好的結(jié)果,這是值得思考和解決的問題。
表11 嵌套命名實體識別模型性能對比Table 11 Performance comparison of nested named entity recognition models
在2.1節(jié)實體邊界檢測任務(wù)中提到過,Cetoli等人[38]利用一組GCN研究了依賴樹在命名實體識別器中的作用。通過對不同的NER 結(jié)構(gòu)進行比較,他們發(fā)現(xiàn)句子的語法對結(jié)果有積極的影響。在OntoNotes5.0 數(shù)據(jù)集上進行的實驗表明,其性能得到了改進,而不需要大量的特征工程或者額外的語言特定知識。
Jin 等人[69]討論了從KB 中推斷實體細粒度類型的問題。他們將該問題轉(zhuǎn)化為基于圖的半監(jiān)督分類任務(wù),提出了分層多圖卷積神經(jīng)網(wǎng)絡(luò)(HMGCN)。該方法構(gòu)造了三種連通矩陣來捕獲實體之間不同類型的語義關(guān)聯(lián),并提出了一種遞歸正則化方法來建模給定類型層次結(jié)構(gòu)中類型之間的sub-class-of關(guān)系。
由于直接疊加GCN和LSTM在建立依賴樹和上下文信息之間的交互模型方面存在困難。Xu等人[70]提出了synergiized-LSTM(Syn-LSTM)模型,這是一種新的RNN 體系結(jié)構(gòu),它使用額外的圖編碼表示更新內(nèi)存和隱藏狀態(tài),每個單詞的圖編碼表示可以通過GCN 獲得。Syn-LSTM允許cell接收來自圖編碼表示的結(jié)構(gòu)化信息,并利用門控機制,使該模型能夠分別對從詞表示和圖編碼表示中檢索到的信息量進行獨立的評估。這種機制能夠更好地收集上下文信息和結(jié)構(gòu)化信息。
如何在復(fù)雜句子中使用遠距離詞語交流和保證命名實體的完整性仍然是一個未解決的問題,因此Sun等人[71]提出利用語法和語義依賴特征進行NER。該模型基于BiLSTM-CRF 和GCN,通過處理語法和語義依賴來獲得句子中單詞的遠距離交流。
Zaratiana 等人[72]提出了GNNer 框架(GCN 和GAT)模型,該框架使用GNN 來豐富跨度表示,以減少NER預(yù)測過程中重疊跨度的數(shù)量。與Baseline方法相比,該方法減少了重疊跨度的數(shù)量,同時保證了較強的性能。
綜上所述,本文總結(jié)了眾多利用GNN 進行NER 任務(wù)的研究,從各個角度分析了NER 任務(wù)的解決策略。就現(xiàn)階段本文提到研究工作中取得的成果和存在的問題而言,未來重要的研究可能還有如下多個方向。
(1)低資源特定領(lǐng)域的NER:由于在低資源和特定領(lǐng)域?qū)ER 的研究頗少,所以該方向是一個值得研究的方向。但該領(lǐng)域的數(shù)據(jù)極不規(guī)范且復(fù)雜,如交通、軍事、體育和一些小眾語種等領(lǐng)域,在提取命名實體時經(jīng)常識別不出名詞實體,因此需要結(jié)合特定領(lǐng)域?qū)I(yè)知識來提高NER的性能,同時可以利用GNN 進一步提高實體識別的準(zhǔn)確性。
(2)多模態(tài)融合NER:隨著深度學(xué)習(xí)在語音、文本和圖像上單模態(tài)的深度研究,逐漸地將多個領(lǐng)域信息聯(lián)合起來形成新的網(wǎng)絡(luò),稱為多模態(tài)融合技術(shù)。同樣地,通過將文本信息和視覺信息聯(lián)合進行多模態(tài)NER,可以依賴上下文語境和實體關(guān)聯(lián)圖像并利用GNN 關(guān)聯(lián)圖像,消除多義詞表達時的歧義,能夠更有效地提取文本中的命名實體。額外的圖像信息可以引導(dǎo)更多的文本內(nèi)容,指正歧義實體。因此,將GNN結(jié)合多模態(tài)融合成新的網(wǎng)絡(luò)模型進行NER研究也可以是未來的一個探索方向。
(3)NER與交叉應(yīng)用領(lǐng)域:將NER應(yīng)用在更多的學(xué)科領(lǐng)域,例如智能家具、智慧城市、智能交通等建筑領(lǐng)域是一個值得探索的研究方向。通過GNN 進行NER 是眾多NLP任務(wù)的上游任務(wù),為此,可以利用NER的結(jié)果以及結(jié)合KG進行更深層的研究,文獻[40]和文獻[49]的實驗證實該方法的可行性,未來可以利用此方法在城市交通的安全風(fēng)險識別分析上進行研究與突破,這也是今后的研究方向,希望能夠利用該方法實現(xiàn)在更多領(lǐng)域的擴展。