黨雪云,王 劍*
(1.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500;2.云南省人工智能重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)
新聞要素關(guān)系抽取可以看作實(shí)體關(guān)系抽?。≧elation Extraction,RE)任務(wù)。實(shí)體關(guān)系抽取是指抽取兩個(gè)實(shí)體之間可能存在的語義關(guān)系,是信息抽取、構(gòu)建問答系統(tǒng)的關(guān)鍵基礎(chǔ)任務(wù)之一。以涉案輿情新聞為例,法院與人之間包含“審判”關(guān)系,人與罪名之間包含“涉嫌罪名”關(guān)系,原告和被告之間包含“涉事雙方”關(guān)系等,從新聞中自動(dòng)抽取這些關(guān)系,對(duì)于人們快速理解輿情信息起著重要作用。當(dāng)前,篇章級(jí)的要素關(guān)系抽取任務(wù)面臨標(biāo)注數(shù)據(jù)較少、任務(wù)復(fù)雜度更高的問題,導(dǎo)致抽取效果不佳,是一個(gè)值得研究的方向?,F(xiàn)有的關(guān)系抽取方法主要側(cè)重于從單個(gè)句子中抽取要素關(guān)系,通過對(duì)大量新聞文本進(jìn)行分析會(huì)發(fā)現(xiàn)很多實(shí)體關(guān)系常??缇渥哟嬖?,如圖1 所示,通過整篇文本可分析出“品某良”和“張某雷”兩者都是案件當(dāng)事人,明顯存在關(guān)系,但僅從其中某一個(gè)句子并不能抽取兩者之間存在的關(guān)系,因?yàn)槎邲]有在同一句子同時(shí)出現(xiàn)過。通過對(duì)文章中多個(gè)句子中的要素關(guān)系進(jìn)行分析,結(jié)合上下文語義,才能推斷出兩者之間存在的關(guān)系。因此,本文提出一種通過異構(gòu)圖模型融合多個(gè)句子的鄰接關(guān)系、從屬關(guān)系、句法依賴關(guān)系、要素間的多跳關(guān)系等多種特征的方法,通過挖掘篇章級(jí)文本中潛在的上下文信息,提升跨句子要素關(guān)系抽取的準(zhǔn)確率和性能。
圖1 篇章級(jí)要素關(guān)系問題分析
目前,按照訓(xùn)練文本的類型,關(guān)系抽取任務(wù)可以分為句子級(jí)關(guān)系抽取和篇章級(jí)關(guān)系抽取兩大類,本文主要針對(duì)篇章級(jí)的要素關(guān)系抽取任務(wù)。篇章級(jí)關(guān)系抽取的目的主要是識(shí)別出整篇文章中要素之間的關(guān)系,包括單個(gè)句子中存在的實(shí)體關(guān)系,也包括跨多個(gè)句子存在的要素關(guān)系。根據(jù)輸入文本的結(jié)構(gòu),可以將篇章級(jí)的實(shí)體關(guān)系抽取方法分為基于序列的篇章級(jí)實(shí)體關(guān)系抽取模型和基于圖的篇章級(jí)實(shí)體關(guān)系抽取模型兩類。
基于序列的篇章級(jí)實(shí)體關(guān)系抽取模型利用不同的序列編碼獲得詞語表示,之后通過平均池化、注意力池化等各種池化操作計(jì)算實(shí)體關(guān)系的表示。ZENG等人[1]使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行正則化的研究,利用外部知識(shí)資源如WordNet、位置相關(guān)特征、詞對(duì)信息以及詞匯特征集等特征拼接為特征向量作為輸入,進(jìn)行關(guān)系分類;WANG 等人[2]在卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)上引入了一種新的多級(jí)注意力機(jī)制來捕獲特定于要素的注意力和特定于目標(biāo)關(guān)系的注意力,使其能夠檢測(cè)到更微妙的線索以自動(dòng)學(xué)習(xí)與關(guān)系分類相關(guān)的部分;HE 等人[3]提出了一種帶有注意力機(jī)制的長(zhǎng)短期記憶(Long-Short Term Memory,LSTM)網(wǎng)絡(luò),該方法避免了標(biāo)注數(shù)據(jù)存在誤報(bào),在提取過程中不采用人為設(shè)計(jì)的規(guī)則來提升效率,因此本研究利用詞級(jí)別的注意特征提取關(guān)系,結(jié)合實(shí)例級(jí)別的注意機(jī)制處理數(shù)據(jù)中的誤報(bào)問題;MIWA 等人[4]討論的一種方法使用了雙向LSTM,將實(shí)體識(shí)別視為序列標(biāo)注問題,模型嵌入層主要處理單詞、依賴類型、詞性標(biāo)簽及要素標(biāo)簽的嵌入,序列層主要用于單詞在句子中的順序信息,下一層通過一個(gè)神經(jīng)網(wǎng)絡(luò),從左向右以一種貪心的策略分配要素標(biāo)簽,最后一個(gè)單詞的標(biāo)簽用來預(yù)測(cè)當(dāng)前的單詞標(biāo)簽,最后一層提取預(yù)測(cè)到的要素之間的關(guān)系;GAO 等人[5]提出了神經(jīng)雪球的方法,只需要使用少數(shù)的新關(guān)系樣例,便可利用現(xiàn)有關(guān)系的先驗(yàn)知識(shí)從未標(biāo)注數(shù)據(jù)中迭代地積累新的實(shí)例和事實(shí),從而訓(xùn)練一個(gè)較好的神經(jīng)關(guān)系分類器,實(shí)驗(yàn)結(jié)果進(jìn)一步表明了其模型的效率和魯棒性。
為了進(jìn)一步捕獲長(zhǎng)期依賴關(guān)系,基于圖的實(shí)體關(guān)系抽取模型被提出,通過構(gòu)造圖結(jié)構(gòu),距離較遠(yuǎn)的單詞或者要素均可以成為相鄰節(jié)點(diǎn)。相對(duì)序列編碼器而言,圖編碼器可以聚合來自所有鄰居節(jié)點(diǎn)的信息以捕獲更長(zhǎng)的依賴關(guān)系。ZENG[6]等人為了更好地處理篇章級(jí)關(guān)系抽取任務(wù),提出一種雙圖模型,引入了一種要素級(jí)別的異構(gòu)圖和一種圖神經(jīng)網(wǎng)絡(luò)來模擬文章中不同要素之間的交互,他們還引入了要素級(jí)圖并提出了一種新的路徑推理機(jī)制,用于要素之間的關(guān)系推理;CHRISTOPOULOU[7]等人提出一種新的面向邊的圖神經(jīng)網(wǎng)絡(luò)模型用于篇章級(jí)關(guān)系抽取,該模型不同于現(xiàn)有模型,它專注于構(gòu)建獨(dú)特的節(jié)點(diǎn)和邊,將信息編碼為邊表示而不是節(jié)點(diǎn)表示;ZHANG[8]等人提出一種新穎的篇章級(jí)關(guān)系抽取模型,該模型構(gòu)建雙層異構(gòu)圖用于連續(xù)建模文章結(jié)構(gòu)并實(shí)現(xiàn)關(guān)系推理;YANG[9]等人針對(duì)關(guān)系抽取提出了兩種樹結(jié)構(gòu)的圖卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn)策略,一種策略是集成層次化注意力機(jī)制和主體、對(duì)象之間的相關(guān)性分析分別生成句子和要素向量,另一種策略合并命名實(shí)體識(shí)別子網(wǎng)絡(luò)和圖卷積網(wǎng)絡(luò)樹結(jié)構(gòu),以實(shí)現(xiàn)關(guān)系抽取和要素抽取的聯(lián)合學(xué)習(xí)。
本文將篇章級(jí)的實(shí)體關(guān)系抽取任務(wù)定義如下:給定一篇標(biāo)注文章,實(shí)體集合為,其中表示第i個(gè)句子中有個(gè)單詞,而表示第i個(gè)實(shí)體中有個(gè)單詞,最終的目標(biāo)是預(yù)測(cè)每個(gè)實(shí)體對(duì)之間的所有句內(nèi)和句間關(guān)系。經(jīng)過對(duì)長(zhǎng)文本的大量分析發(fā)現(xiàn),許多要素關(guān)系其實(shí)是跨多個(gè)句子存在的,所以篇章級(jí)的關(guān)系抽取任務(wù)比傳統(tǒng)的句子級(jí)的關(guān)系抽取任務(wù)要更復(fù)雜,篇章級(jí)的關(guān)系抽取模型需要較強(qiáng)的語義建模能力和關(guān)系推理能力。
圖2 是本文關(guān)系抽取模型的系統(tǒng)架構(gòu)圖。該模型主要分為五層:輸入層主要負(fù)責(zé)將輸入的詞進(jìn)行向量化表征,文本編碼層是任意的序列編碼器,用于為每個(gè)單詞生成上下文表示;結(jié)構(gòu)化建模層負(fù)責(zé)建模文本中固有的結(jié)構(gòu)信息,包括文本的鄰接關(guān)系、從屬關(guān)系以及句法依賴關(guān)系;關(guān)系推理層負(fù)責(zé)捕獲文本中要素間的多跳關(guān)系,最后是輸出層,負(fù)責(zé)輸出可能存在的要素關(guān)系,相當(dāng)于一個(gè)多標(biāo)簽分類層。
圖2 雙層異構(gòu)圖模型
輸入層負(fù)責(zé)對(duì)單詞的語義信息、擴(kuò)充信息進(jìn)行編碼并嵌入到單詞的輸入特征中。具體來說,就是先使用dw維的詞向量wi來表征文本的上下文語義信息,再增加要素的類型表征ti用于表征每個(gè)要素的類型信息;其次,增加指代特征ci用于標(biāo)記指代詞所屬的要素,幫助模型獲取要素共指的信息;最后將這三種表征拼接起來構(gòu)成輸入特征xi=[wi;ti;ci]∈,其中[·;·]表示向量拼接的操作,dx=dw+dt+dc。
文本編碼層負(fù)責(zé)捕獲單詞的上下文信息。具體來講,把整篇文章看作一個(gè)包含n個(gè)單詞的長(zhǎng)序列,然后使用序列編碼器雙向LSTM 來編碼長(zhǎng)序列中每個(gè)單詞的上下文信息。若將LSTM 單元對(duì)xi的操作表示為L(zhǎng)STM(xi),則該單詞的上下文語義信息可以表示為:
式中:hi和F是一個(gè)線性函數(shù),dh表示LSTM 單元的隱藏層的維度。通過這種方式,可以捕獲特定時(shí)間單詞的前向狀態(tài)和后向狀態(tài)的特征表示,最后使用HW={h1,h2,…,hn}作為輸入序列的表征向量。
結(jié)構(gòu)化建模層將文本序列的每一個(gè)句子、每一個(gè)單詞均視為圖中的一個(gè)節(jié)點(diǎn)。通常,一篇文章由多個(gè)句子組成,一個(gè)句子由多個(gè)單詞組成,所以本文采用以下5 種類型的邊來建模文章內(nèi)在結(jié)構(gòu)信息:
(1)字-字鄰接邊,在文章每?jī)蓚€(gè)相鄰的字節(jié)點(diǎn)之間建立一條邊,以保持文章中每個(gè)字的自然順序結(jié)構(gòu);
(2)句子-句子鄰接邊,在文章每?jī)蓚€(gè)相鄰句子節(jié)點(diǎn)之間建立一條邊,以保持文章中句子間的自然順序結(jié)構(gòu);
(3)句子-句子補(bǔ)全邊,將文章中沒有相鄰的句子節(jié)點(diǎn)之間連接一條邊,以增強(qiáng)圖結(jié)構(gòu)的連通性;
(4)詞-詞依賴關(guān)系邊,為了對(duì)語法結(jié)構(gòu)進(jìn)行編碼,如果兩個(gè)單詞節(jié)點(diǎn)在句子級(jí)的依存關(guān)系樹中相鄰的話,則在它們之間連一條邊;
(5)詞-句子關(guān)聯(lián)邊,為了建模文章的層次結(jié)構(gòu),將單詞節(jié)點(diǎn)和它們所在的句子節(jié)點(diǎn)之間連一條邊。
結(jié)構(gòu)化建模層直接利用文本編碼層的輸出作為單詞節(jié)點(diǎn)的初始化特征,對(duì)每個(gè)句子中的所有單詞節(jié)點(diǎn)進(jìn)行最大池化操作得到句子節(jié)點(diǎn)的表示,即,最后,然后利用圖神經(jīng)網(wǎng)絡(luò)中常用的消息傳播策略更新單詞和句子節(jié)點(diǎn)的表示:
式中:Hs={s1,…,sNs}指一篇文章中所有句子節(jié)點(diǎn)表征的集合,HW是輸入序列的詞表征,WR(·)表示圖神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的消息傳播機(jī)制。最后對(duì)于每個(gè)單詞節(jié)點(diǎn),將其在WR之前和之后的特征拼接起來作為輸出的表示,這種表示方式結(jié)合了詞節(jié)點(diǎn)和句子節(jié)點(diǎn)的順序特征和結(jié)構(gòu)特征,為下一步推理提供基礎(chǔ)。
關(guān)系推理層中將要素提及及要素當(dāng)作圖中的節(jié)點(diǎn),建立如下4 種類型的邊:
(1)提及共現(xiàn)邊,在同一句中的兩個(gè)提及或要素之間建立一條邊,用于表征句內(nèi)關(guān)系;
(2)提及共指邊,如果兩個(gè)提及節(jié)點(diǎn)指向同一個(gè)實(shí)體,則在它們之間連一條邊,用于表征句內(nèi)關(guān)系;
(3)提及要素關(guān)聯(lián)邊,如果提及指向某要素,則在它們之間連一條邊,用于傳遞提及層面的消息到要素層面;
(4)要素-要素互補(bǔ)邊,將所有要素兩兩之間連一條邊,用于防止出現(xiàn)不連通圖,增強(qiáng)多跳關(guān)系。
具體來講,對(duì)于文本中第s個(gè)單詞到第t個(gè)單詞組成的提及m,將其表征初始化為m=1/[(s-t+1),則一個(gè)要素e的表征可以表示為其所有提及表征的平均值,即e=(∑jmj)/(nm),與結(jié)構(gòu)化建模層中的消息傳播機(jī)制類似,,其中HM和HE分別指提及節(jié)點(diǎn)和要素節(jié)點(diǎn)的表征集合,經(jīng)過L次的消息傳遞之后,便能得到所有節(jié)點(diǎn)的最終表征。
將關(guān)系預(yù)測(cè)看作一個(gè)多標(biāo)簽分類問題,對(duì)于每個(gè)要素對(duì)(ei,ej),將這些要素特征和相對(duì)距離表征向量拼接起來,并使用一個(gè)雙線性函數(shù)來計(jì)算每個(gè)關(guān)系的概率:
本文使用的新聞要素關(guān)系語料集一共包含1 200 篇新聞文本數(shù)據(jù),共4 類關(guān)系。其中,涉案人員-涉案人員關(guān)系共2 352 組,涉案人員-受理法院關(guān)系共1 348 組,涉案人員-涉嫌罪名關(guān)系共1 732 組,受理法院-判處罪名關(guān)系共1 285 組,具體信息如表1 所示。
表1 涉案輿情篇章級(jí)要素關(guān)系抽取語料庫信息
實(shí)驗(yàn)采用128 維的詞向量對(duì)輸入文本進(jìn)行初始化,得到其向量化表示。訓(xùn)練時(shí),Dropout 設(shè)置為0.8,學(xué)習(xí)率lr 設(shè)置為0.01,訓(xùn)練輪次epoch 設(shè)置為200,batch_size 設(shè)置為10,優(yōu)化器使用SGD。
本文采用準(zhǔn)確率(Precision,P)、召回率(Recall,R)和F1 值(F1-Measure,F(xiàn)1)作為評(píng)價(jià)指標(biāo),其計(jì)算公式如下:
式中:TP表示把正例預(yù)測(cè)為正的概率,F(xiàn)P表示把負(fù)例預(yù)測(cè)為正的概率,F(xiàn)N表示把正例預(yù)測(cè)成負(fù)的概率。
本文采用如下3 個(gè)基準(zhǔn)模型:ME-CNN 模型[10]使用具有語言特征的最大熵模型、具有多級(jí)語義特征的卷積神經(jīng)網(wǎng)絡(luò)分別用于提取句間要素關(guān)系和句內(nèi)要素關(guān)系,并在訓(xùn)練階段考慮要素之間的上位詞關(guān)系以構(gòu)建更精確的訓(xùn)練實(shí)例;RPCNN 模型[11]提出一個(gè)將領(lǐng)域知識(shí)、注意力機(jī)制、分段池化以及多實(shí)例學(xué)習(xí)策略結(jié)合的篇章級(jí)循環(huán)分段卷積神經(jīng)網(wǎng)絡(luò);GCNN 模型[12]提出了一種使用圖卷積神經(jīng)網(wǎng)絡(luò)來捕獲本地和非本地依賴關(guān)系的句間關(guān)系抽取模型,在篇章級(jí)的圖上構(gòu)建了一個(gè)帶標(biāo)簽邊的圖卷積神經(jīng)網(wǎng)絡(luò),這也是在篇章級(jí)關(guān)系抽取中利用圖神經(jīng)網(wǎng)絡(luò)的首次嘗試。實(shí)驗(yàn)結(jié)果如表2 所示,本文模型與其他模型相比,F(xiàn)1 值有0.46~4.09 個(gè)百分點(diǎn)的提升;對(duì)比ME-CNN 和RPCNN,實(shí)驗(yàn)結(jié)果表明圖神經(jīng)網(wǎng)絡(luò)模型的確具有一定的優(yōu)越性;對(duì)比GCNN,結(jié)果表明了雙層異構(gòu)圖在要素關(guān)系抽取任務(wù)上的多跳推理能力。
表2 本文模型與基準(zhǔn)模型實(shí)驗(yàn)對(duì)比結(jié)果
本文還進(jìn)行了消融實(shí)驗(yàn),逐一去掉模型中不同類型的邊特征進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3 所示。
表3 消融實(shí)驗(yàn)結(jié)果
分析表3 的結(jié)果可知,字字鄰接邊表征了文章中每個(gè)字的自然順序,對(duì)模型的準(zhǔn)確率做出了較大貢獻(xiàn);詞句關(guān)聯(lián)邊對(duì)模型的層次進(jìn)行建模,有效提高了模型的性能;句子-句子鄰接邊保證了句子的順序結(jié)構(gòu),也增強(qiáng)了模型的準(zhǔn)確性;提及共現(xiàn)邊捕捉了提及之間的全局關(guān)系;提及實(shí)體關(guān)聯(lián)邊傳遞提及和實(shí)體間的關(guān)系。這些邊的建立提高了模型的整體性能。
本文針對(duì)新聞要素關(guān)系抽取任務(wù),通過對(duì)新聞文本中的詞、句子作為圖節(jié)點(diǎn)建模,根據(jù)節(jié)點(diǎn)間的位置及語義關(guān)系精心設(shè)計(jì)多種邊特征,捕獲了文本的序列、語法、層次等固有結(jié)構(gòu)信息,并利用圖模型的多跳推理能力,對(duì)新聞文本上下文信息進(jìn)行有效的表征,最終篇章級(jí)要素關(guān)系抽取的性能得到了較好的提升。