陳浩 王興芬
北京信息科技大學(xué) 北京 100192
近年來,在網(wǎng)絡(luò)攻擊數(shù)量迅猛增長(zhǎng)、復(fù)雜度日漸增加情況下,為了更有效的促進(jìn)安全信息共享,保證信息系統(tǒng)的安全,Gartner 于2013 年提出了威脅情報(bào)的概念:“威脅情報(bào)是基于證據(jù)的知識(shí),包括場(chǎng)景、機(jī)制、指標(biāo)、含義和可操作的建議。這些知識(shí)是關(guān)于現(xiàn)存的、或者即將出現(xiàn)的、針對(duì)資產(chǎn)的威脅或危險(xiǎn),可為主體響應(yīng)相關(guān)威脅或危險(xiǎn)提供決策信息”。威脅情報(bào)所包含的網(wǎng)絡(luò)安全威脅信息,對(duì)于由企業(yè)或組織實(shí)施主動(dòng)網(wǎng)絡(luò)防御有重要作用。所以,從開源的互聯(lián)網(wǎng)文章或報(bào)告中有效抽取威脅情報(bào)信息,并將其轉(zhuǎn)換為標(biāo)準(zhǔn)化、結(jié)構(gòu)化的形式,對(duì)網(wǎng)絡(luò)安全研究有著非常重要的意義與實(shí)際應(yīng)用價(jià)值。
對(duì)威脅情報(bào)進(jìn)行信息抽取主要包括命名實(shí)體識(shí)別和關(guān)系抽取兩個(gè)步驟,實(shí)體識(shí)別是從大量的原始信息中找出特定的某種實(shí)體信息,如人名、地點(diǎn)等文本信息中的實(shí)體具有豐富的語義,同時(shí)也直接影響對(duì)整個(gè)上下文的理解。關(guān)系抽取是從非結(jié)構(gòu)化文本中抽取實(shí)體和關(guān)系的文本處理技術(shù),它是自然語言理解的基礎(chǔ),在智能問答、信息檢索等領(lǐng)域有重要應(yīng)用。因此如何能夠從大量的信息庫中找出具有參考價(jià)值的實(shí)體數(shù)據(jù)和關(guān)系非常關(guān)鍵。常采用的方法有管道模型和聯(lián)合模型。管道模型通常需要兩個(gè)子任務(wù)單獨(dú)工作順序執(zhí)行,也就是可以先進(jìn)行實(shí)體識(shí)別,再做關(guān)系抽取工作,這種方案流程靈活便捷,且子任務(wù)之間可以獨(dú)立工作單獨(dú)實(shí)現(xiàn)各自的工作內(nèi)容,但這種模型也會(huì)存在問題,如子任務(wù)之間傳遞識(shí)別信息互相影響可能會(huì)產(chǎn)生較大數(shù)據(jù)誤差等。相比之下,聯(lián)合模型能夠有效的改善上述管道模型中存在的問題。在命名實(shí)體識(shí)別過程中,傳統(tǒng)的實(shí)體識(shí)別的相關(guān)模型無法解決實(shí)體嵌套的情況,因?yàn)樵谇短讓?shí)體識(shí)別中,同一個(gè)字可能會(huì)有兩個(gè)及以上不同的序列標(biāo)簽。例如:“北京信息科技大學(xué)”中的“北”同時(shí)屬于B-Location,也屬于B-Organization,而“京”也擁有I-Location與I-Organization兩個(gè)標(biāo)簽,所以實(shí)體嵌套問題是研究難點(diǎn)。關(guān)系重疊問題在實(shí)體關(guān)系抽取中會(huì)影響抽取的性能,所以解決各種關(guān)系重疊類型的實(shí)體關(guān)系抽取、提高抽取性能是對(duì)威脅情報(bào)進(jìn)行信息抽取研究的重點(diǎn)。基于此,本文基于邊界檢測(cè)與跨度表示進(jìn)行實(shí)體識(shí)別,利用圖注意力網(wǎng)絡(luò)模型對(duì)實(shí)體關(guān)系聯(lián)合抽取進(jìn)行處理,不僅能夠快速準(zhǔn)確的檢索到實(shí)體邊界與類別信息,還能夠?qū)⒎侵饕膶?shí)體信息與主要的關(guān)系信息相互結(jié)合,有效的緩解關(guān)系重疊對(duì)嵌套實(shí)體關(guān)系抽取模型的影響。
綜上,本文利用聯(lián)合模型提出一種準(zhǔn)確率更高的基于圖注意力網(wǎng)絡(luò)的實(shí)體關(guān)系抽取模型SRG應(yīng)用于威脅情報(bào)的信息抽取,創(chuàng)新點(diǎn)如下:命名實(shí)體識(shí)別方面,針對(duì)實(shí)體識(shí)別過程中存在實(shí)體嵌套導(dǎo)致準(zhǔn)確率下降問題,采用邊界預(yù)測(cè)的方法得到更為準(zhǔn)確的不同跨度實(shí)體,再與隱藏層實(shí)體共同進(jìn)行跨度表示,得到多尺度跨度的實(shí)體特征,可有效識(shí)別嵌套實(shí)體,提升實(shí)體邊界與類型識(shí)別準(zhǔn)確率;關(guān)系抽取方面,為了提升模型在抽取時(shí)的準(zhǔn)確性和泛化性,利用圖注意力神經(jīng)網(wǎng)絡(luò)對(duì)實(shí)體間關(guān)系進(jìn)行特征提取,有效捕捉實(shí)體內(nèi)部的依賴關(guān)系,減少邊界錯(cuò)誤數(shù)量,提升模型泛化能力以及抽取的準(zhǔn)確率。
目前基于深度學(xué)習(xí)的實(shí)體識(shí)別已經(jīng)能夠在最初大量的語料數(shù)據(jù)中主動(dòng)學(xué)習(xí)目標(biāo)的表示,還可以在非線性映射函數(shù)里對(duì)較為復(fù)雜的特征進(jìn)行學(xué)習(xí)和掌握。大多數(shù)研究將命名實(shí)體識(shí)別任務(wù)視為傳統(tǒng)的序列標(biāo)注問題[1],并提出了大量基于Bi-LSTM-CRF架構(gòu)的命名實(shí)體識(shí)別模型[2],該模型主要是從輸入詞里捕捉對(duì)詞語在語料中的表達(dá),并利用上下文編碼器獲取新的語義單詞的表達(dá),再在標(biāo)簽解碼器中,形成對(duì)應(yīng)的輸出標(biāo)簽。
Finkel等[3]指出大量的命名實(shí)體都是嵌套的。對(duì)于嵌套命名實(shí)體識(shí)別的早期研究工作是基于規(guī)則的[4]。但是這種基于人工規(guī)則的缺陷也是十分明顯的,針對(duì)不同數(shù)據(jù)集,都需要手工的構(gòu)建相關(guān)規(guī)則來進(jìn)行處理。現(xiàn)在對(duì)于嵌套命名實(shí)體識(shí)別的處理方式更多的是基于跨度的方法[5]。在基于跨度的方法中,嵌套實(shí)體屬于不同的子序列從而易被檢測(cè)。Xu等[6]嘗試通過將每個(gè)子序列編碼表示為固定大小來直接對(duì)句子的所有子序列進(jìn)行分類。但是由于在邊界檢測(cè)的過程中缺乏有效的監(jiān)督信息,與基于序列標(biāo)簽的方法相比,基于跨度的方法在確定實(shí)體的邊界時(shí)性能較差。
為了緩解上述問題,本文采用了跨度分類框架,通過將邊界檢測(cè)學(xué)習(xí)過程納入到模型中,幫助模型學(xué)習(xí)實(shí)體的邊界信息,可以有效減少候選實(shí)體的數(shù)量。通過生成高質(zhì)量的實(shí)體,減少整體模型的實(shí)體數(shù)量,降低模型的時(shí)間復(fù)雜度。
關(guān)系抽取簡(jiǎn)單來說指的是從一段指定文本中抽出其中的三元組。即按照語言學(xué)的習(xí)慣,形式化的將一個(gè)句子表示為(主語,謂語,賓語),也就是(subject, predicate, object)。因此,三元組有時(shí)候也被稱為“SPO 三元組”。因?yàn)檎Z言表達(dá)存在復(fù)雜性和多樣性,特別是在漢語語言關(guān)系的表達(dá)中,常常存在形式簡(jiǎn)單卻語義復(fù)雜的表述,因此,想要從這樣的語言環(huán)境中抽取出正確的關(guān)系是研究難點(diǎn),且非常依賴于系統(tǒng)對(duì)于語篇的分析和理解程度。
關(guān)系抽取在自然語言處理領(lǐng)域中挖掘文本中事實(shí)知識(shí)的任務(wù)[7]。對(duì)于有標(biāo)注的實(shí)體識(shí)別,該任務(wù)就可以簡(jiǎn)化為一個(gè)簡(jiǎn)單的分類任務(wù),即關(guān)系分類。Zeng 等[8]利用CNN 或RNN 來解決關(guān)系分類任務(wù)。然而,這些方法忽略了從句子中提取實(shí)體關(guān)系時(shí),不能真正的確定實(shí)體與關(guān)系的對(duì)應(yīng)事實(shí)。當(dāng)句子中沒有任何標(biāo)注實(shí)體時(shí),研究人員提出了幾種聯(lián)合提取實(shí)體和關(guān)系的方法?,F(xiàn)有對(duì)多關(guān)系抽取任務(wù)的研究可以分為四種范式:(1)基于流水線的方法,如 Zelenko等[9]先識(shí)別實(shí)體,再進(jìn)行關(guān)系分類;(2)基于表格填充的方法,如 Miwa等[10]使用共享參數(shù)表示實(shí)體和關(guān)系,但單獨(dú)提取實(shí)體和關(guān)系;(3)基于標(biāo)簽的方法,如Zheng[11]和Dai等[12],將此任務(wù)視為序列標(biāo)注問題,需要設(shè)計(jì)復(fù)雜的標(biāo)注模式來進(jìn)行實(shí)體關(guān)系抽??;(4)基于 Seq2seq的方法,如 Zeng[13]、Zhang[14]、Liu等[15]應(yīng)用seq2seq模型直接生成關(guān)系三元組。
本文提出一種基于圖注意力網(wǎng)絡(luò)的實(shí)體關(guān)系抽取聯(lián)合模型SRG(Span Representation GAT),用來提升威脅情報(bào)在信息抽取過程中嵌套實(shí)體識(shí)別及關(guān)系重疊提取的準(zhǔn)確率。該方法主要將實(shí)體關(guān)系聯(lián)合抽取劃分為三個(gè)子任務(wù),即邊界預(yù)測(cè)、實(shí)體跨度表示和實(shí)體關(guān)系抽取。SRG由四個(gè)模塊構(gòu)成:編碼(Bert-Bi-LSTM)模塊、邊界預(yù)測(cè)(Boundary prediction)模塊、跨度表示(Span representation)模塊和基于圖注意力網(wǎng)絡(luò)(Graph Attention Networks)的嵌套實(shí)體關(guān)系抽取模塊。首先通過Bert-Bi-LSTM編碼器對(duì)語料庫進(jìn)行特征提取,再聯(lián)合執(zhí)行邊界預(yù)測(cè)和跨度表示模塊進(jìn)行多尺度實(shí)體跨度預(yù)測(cè),利用聯(lián)合模型對(duì)不同跨度實(shí)體邊界與類別信息進(jìn)行識(shí)別。以實(shí)體為節(jié)點(diǎn),實(shí)體關(guān)系為邊構(gòu)造圖結(jié)構(gòu)作為圖注意力網(wǎng)絡(luò)輸入,通過Attention機(jī)制的引入,使得圖模型在進(jìn)行訓(xùn)練的過程中,能夠同時(shí)獲取邊信息與相鄰節(jié)點(diǎn)特征進(jìn)行,豐富了實(shí)體跨度與關(guān)系間的交互,提升模型抽取效果。
本文中提出的聯(lián)合實(shí)體關(guān)系抽取SRG模型總體框架設(shè)計(jì)如圖1所示。
圖1 SRG模型框架圖
本文中編碼器采用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)。這種編碼器的好處在于能夠在同一時(shí)間段內(nèi)多方獲取目標(biāo)單詞在語境中的上下文含義,這種編碼器能夠把詞嵌入層檢索到的詞向量放入到整體的語境中,從而得到層次更為多元的數(shù)據(jù)。
例如,給定一個(gè)句子S=[w1,w2,wu, ……,wn],句子中的wu為第u個(gè)單詞,n是句子長(zhǎng)度。每一個(gè)字輸入嵌入xu均由字符級(jí)嵌入、詞級(jí)嵌入這兩部分組成。其中字符級(jí)嵌入向量通過Bert模型得到,詞級(jí)嵌入則通過將字符級(jí)嵌入表達(dá)輸入到Bi-LSTM模型通過計(jì)算得到的最終隱藏狀態(tài)生成。hu為通過將wu輸入到Bi-LSTM模型獲得的隱藏狀態(tài)向量,它是由現(xiàn)在所處位置的前向和后向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)兩個(gè)隱層狀態(tài)向量拼接而成,從兩個(gè)方向深入挖掘輸入序列之間存在的依賴關(guān)系。最終將兩個(gè)層次的嵌入表達(dá)拼接在一起共同構(gòu)成輸入語料的最終編碼向量xu=[wu;hu]。
圖2 編碼器模塊框架圖
有別于傳統(tǒng)采用BIO和BILOU序列標(biāo)注法進(jìn)行的命名實(shí)體識(shí)別,在BIO中B代表Begin表示一個(gè)命名實(shí)體的開頭字符,I代表Inside表示一個(gè)命名實(shí)體中的字符,O代表Outside表示不屬于命名實(shí)體中的字符;而BILOU則更進(jìn)一步,其中L代表Last表示一個(gè)命名實(shí)體的最后一個(gè)字符,U代表一個(gè)單自命名實(shí)體。邊界檢測(cè)的目的在于對(duì)一個(gè)實(shí)體的首尾字進(jìn)行預(yù)判,并選用兩個(gè)標(biāo)記分類器來明確首尾邊界的位置信息。這樣對(duì)于命名實(shí)體識(shí)別不再停留在token-level的分類問題上,避免了每一個(gè)字符級(jí)僅能對(duì)應(yīng)一種標(biāo)簽類型,不能夠有效解決嵌套實(shí)體識(shí)別的問題。
同時(shí)定義首尾單字的兩個(gè)交叉熵之和作為該邊界預(yù)測(cè)任務(wù)的損失函數(shù)。其中分別代表了該單字是否是命名實(shí)體的首尾單字。
通過邊界檢測(cè)明確了單字為命名實(shí)體的首尾概率后,對(duì)首尾單字進(jìn)行有效的組合,得到跨度下的實(shí)體的向量表達(dá)??缍缺硎局荚讷@得與跨度對(duì)應(yīng)的語義標(biāo)簽,并根據(jù)跨度邊界對(duì)單詞的表示進(jìn)行概括??缍缺硎镜姆椒ㄍǔ椋浩骄鼗?、最大池化和基于自注意力機(jī)制的池化。這里我們將對(duì)應(yīng)實(shí)體的跨度表示定義為e其中當(dāng)給定一個(gè)跨度窗口為s=[i,j]時(shí),對(duì)應(yīng)x?ij即為該跨度窗口下的編碼向量的平均池化為首位字符的編碼向量,xe為末尾字符的編碼向量。得到實(shí)體的跨度表示后,將ek送入多層感知器MLP中。然后使用softmax層計(jì)算該實(shí)體所對(duì)應(yīng)的實(shí)體類型。
本文全面的考慮到實(shí)體與關(guān)系之間的相互作用,采用基于圖注意力網(wǎng)絡(luò)擴(kuò)展的一種對(duì)帶有關(guān)系特征邊的圖進(jìn)行編碼的關(guān)系抽取方法。本部分就結(jié)合數(shù)學(xué)方法來對(duì)圖注意力網(wǎng)絡(luò)的基本工作原理過程進(jìn)行概述。已知圖注意力網(wǎng)絡(luò)可以直接作用于圖結(jié)構(gòu)G=(V,E)的神經(jīng)網(wǎng)絡(luò)上,如公式(4)所示,其中V和E分別是節(jié)點(diǎn)和邊的集合。對(duì)于頂點(diǎn)ej,逐個(gè)計(jì)算它的鄰居們和它自己之間的相似系數(shù)。
公式(4)中,ei為目標(biāo)節(jié)點(diǎn),N(i)是節(jié)點(diǎn)ei的鄰域;W是可學(xué)習(xí)的共享權(quán)重參數(shù),相當(dāng)于對(duì)頂點(diǎn)的特征進(jìn)行了一個(gè)線性映射,進(jìn)行了數(shù)據(jù)增維;[·||·]是對(duì)于頂點(diǎn)ei,j的變換后的特征進(jìn)行了拼接。
注意力機(jī)制計(jì)算過程如圖3所示。具體計(jì)算過程如下所示:
圖3 注意力機(jī)制的計(jì)算過程
上述公式(5)中hi′就是圖注意力網(wǎng)絡(luò)輸出的對(duì)每一個(gè)頂點(diǎn)ei融合了相關(guān)鄰域信息的新特征向量,為了進(jìn)一步增加在實(shí)體關(guān)系對(duì)匹配時(shí)候的健壯性,引入多頭注意力機(jī)制進(jìn)一步增強(qiáng)注意力的優(yōu)勢(shì),具體公式(6)如下所示:
本文采用關(guān)系圖注意力網(wǎng)絡(luò)優(yōu)勢(shì)在于其可以將關(guān)系特征集成到節(jié)點(diǎn)中,這樣相對(duì)于傳統(tǒng)方法來說,更有利于捕獲長(zhǎng)距離依賴,并且在計(jì)算過程中,圖注意力網(wǎng)絡(luò)是逐結(jié)點(diǎn)進(jìn)行運(yùn)算的,每一次運(yùn)算都需要循環(huán)遍歷圖上的所有頂點(diǎn)來完成,因此可以更好的將頂點(diǎn)之間的特征的相關(guān)性融入到模型中。
本文采用2005年自動(dòng)內(nèi)容提?。ˋuto-matic Content Extraction,ACE)公開數(shù)據(jù)集,開展實(shí)驗(yàn),數(shù)據(jù)集綜合統(tǒng)計(jì)情況如表1所示。
表1 ACE2005語料庫統(tǒng)計(jì)
其中,公共數(shù)據(jù)集ACE05選用通過LDC公開發(fā)布的標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行測(cè)試,這套數(shù)據(jù)由于保有非常多的嵌套實(shí)體,其實(shí)體識(shí)別的難度較大也較繁雜。因此,多數(shù)的關(guān)系抽取工作也更常選用其進(jìn)行分析,具有較高的代表性。此外,還可以用于事件抽取方面的操作,能夠支持對(duì)實(shí)體識(shí)別、關(guān)系、事件、值和事件表達(dá)式等多方面的研究,普適性也極強(qiáng)。但在本文中,主要是通過選用ACE05數(shù)據(jù)集進(jìn)行實(shí)體識(shí)別操作,其含有地理命名實(shí)體 (GPE)、組織 (ORG)、人 (PER)、地點(diǎn)(LOC)、車輛(VEH)、設(shè)施 (FAC)和武器 (WEA)這七類實(shí)體,適合本文的識(shí)別研究的現(xiàn)實(shí)需要和理論專業(yè)要求。
模型的基本參數(shù)進(jìn)行設(shè)置如下:選擇256維Bert作為固定字嵌入;Bi-LSTM的隱藏狀態(tài)為200維;隨機(jī)失活設(shè)置為默認(rèn)值0.5;Adam優(yōu)化器的學(xué)習(xí)率設(shè)置為0.001。
為進(jìn)一步保證SRG模型結(jié)果的有效性,本文利用基線模型進(jìn)行輔助論證,具體模型如下所述:利用Multi-trunQA[16]為實(shí)體關(guān)系的抽取找到了一種多輪對(duì)話的全新視角,可以基于上下文語境的整體環(huán)境對(duì)實(shí)體關(guān)系進(jìn)行檢索和抽取。利用Span-level[17]模型可以將全部跨度進(jìn)行建模操作以達(dá)到聯(lián)合實(shí)體關(guān)系檢索的效果。利用GraphRel模型[18]能夠?qū)Χ说蕉说年P(guān)系建立加權(quán)關(guān)系圖,此外,通過圖可以分析出實(shí)體與關(guān)系的影響與邏輯。
3.3.1 實(shí)驗(yàn)一:嵌套實(shí)體關(guān)系抽取
結(jié)合表1和表3中的數(shù)據(jù)可以看出,雖然數(shù)據(jù)集中存在著許多嵌套實(shí)體,其中中重疊實(shí)體就有37.5% 的占比,但本文中設(shè)計(jì)的SRG模型的在該數(shù)據(jù)集上進(jìn)行實(shí)體識(shí)別仍取得了較高的準(zhǔn)確率,達(dá)到87.1%的性能,在Span-level方面有1.1%的進(jìn)步。由此也可以論證,本文涉及的相關(guān)模型的實(shí)體嵌套解決能力非常高效;在關(guān)系抽取工作的解決方面,盡管數(shù)據(jù)集內(nèi)含有的關(guān)系重疊占比很低,但該模型的F1值依然能夠得到62.1%的良好成績(jī)。Multi-trunQA能夠?qū)h(yuǎn)距離實(shí)體和關(guān)系的相關(guān)數(shù)據(jù)進(jìn)行編碼,通過多輪問答形式解決實(shí)體關(guān)系的抽取工作,相比于其他模型來說,這種模型因?yàn)槎啻蔚木幋a而增加了模型的操作難度,通過對(duì)比上表數(shù)據(jù)可以發(fā)現(xiàn),這種情況更適合基于跨度的表示的模型。
表3 數(shù)據(jù)集ACE05 上的結(jié)果
Span-level模型為準(zhǔn)確得到跨度表示,需要先在輸入端操作跨度排列步驟,然后對(duì)關(guān)系作softmax 分類,這種操作極容易產(chǎn)生實(shí)體冗余。相比之下,本文設(shè)計(jì)的模型通過對(duì)關(guān)系加以分類管理,能夠極大的降低分析錯(cuò)誤的產(chǎn)生。此外,盡管DYGIE模型的動(dòng)態(tài)相關(guān)跨度表示比較全面,卻在實(shí)體與關(guān)系的分析上較為不足,相比之下,本文設(shè)計(jì)的模型由于具備邊界檢測(cè)能夠極大的強(qiáng)化跨度識(shí)別的精準(zhǔn),此外,實(shí)體關(guān)系圖還能將跨度與關(guān)系間的交互作用得以強(qiáng)化,能夠快速彌補(bǔ)前模型在實(shí)體嵌套方面的不足。
3.3.2 實(shí)驗(yàn)二:消融實(shí)驗(yàn)
為了詳盡的說明各個(gè)組件的功能,本文還基于ACE05和NYT兩組數(shù)據(jù)集完成了消融實(shí)驗(yàn)研究,實(shí)驗(yàn)主要從邊界預(yù)測(cè)和圖神經(jīng)網(wǎng)絡(luò)等方面進(jìn)行分析,結(jié)果如表5所示。
表5 消融實(shí)驗(yàn)
對(duì)ACE05和NYT兩組數(shù)據(jù)集來看,去除邊界預(yù)測(cè)模塊導(dǎo)致的降低有3.9%和3.2%,還對(duì)模型在關(guān)系抽取工作產(chǎn)生作用。此外,普通模型在區(qū)分重疊時(shí)會(huì)受到假陽性的影響,而降低了模型的準(zhǔn)確度,但邊界預(yù)測(cè)能夠快速的對(duì)重疊進(jìn)行有效區(qū)分,能夠很好的保障跨度表示的準(zhǔn)確性。通過上述分析可以發(fā)現(xiàn),各組件都對(duì)實(shí)體識(shí)別與關(guān)系抽取的有效進(jìn)行具有重要意義,應(yīng)注意不同子任務(wù)間的協(xié)調(diào)配合。
針對(duì)嵌套命名實(shí)體識(shí)別的問題本文所提出了一種基于圖注意力神經(jīng)網(wǎng)絡(luò)的嵌套命名實(shí)體識(shí)別模型來對(duì)威脅情報(bào)進(jìn)行信息抽取,這種模型結(jié)構(gòu)主要采用Bert-Bi-LSTM網(wǎng)絡(luò)作為共享編碼層,對(duì)系統(tǒng)輸入的句子進(jìn)行編碼,然后提取其特征。為有效解決實(shí)體嵌套問題,模型中還加入了邊界檢測(cè)模塊,該模塊的作用是為模型提供高質(zhì)量的實(shí)體跨度。將邊界檢測(cè)后實(shí)體與編碼器輸出隱藏層共同進(jìn)行跨度表示后輸入圖注意力網(wǎng)絡(luò)構(gòu)建實(shí)體間關(guān)系圖完成信息抽取。在公共數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,驗(yàn)證結(jié)果表明,其在解決實(shí)體嵌套的問題上可以起到十分關(guān)鍵的作用。
雖然本文提出的基于圖注意力神經(jīng)網(wǎng)絡(luò)的嵌套命名實(shí)體識(shí)別模型,相較于傳統(tǒng)管道模型解決了一些現(xiàn)存缺陷,也在各項(xiàng)實(shí)驗(yàn)中取得了不錯(cuò)的性能,能夠通過參數(shù)共享的方式使得實(shí)體關(guān)系抽取子任務(wù)之間產(chǎn)生了依賴關(guān)系,但在獲取高質(zhì)量候選實(shí)體時(shí),仍然會(huì)產(chǎn)生冗余信息,后續(xù)研究將對(duì)模型不足之處繼續(xù)完善。