摘 "要: 關(guān)系抽取任務(wù)可以從非結(jié)構(gòu)化文本中抽取出實(shí)體對(duì)的關(guān)系信息,是信息抽取的核心任務(wù)。遠(yuǎn)程監(jiān)督可以通過自動(dòng)構(gòu)建訓(xùn)練數(shù)據(jù)的方式降低人工的成本和壓力,但原始語料本身存在數(shù)據(jù)不平衡的現(xiàn)象,導(dǎo)致長(zhǎng)尾分布問題。針對(duì)這一問題,基于多示例學(xué)習(xí)的思想,提出一種基于約束圖的遠(yuǎn)程監(jiān)督長(zhǎng)尾關(guān)系抽取方法。首先根據(jù)知識(shí)圖譜本體結(jié)構(gòu)構(gòu)建約束圖,利用圖卷積神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行編碼;其次利用分段膨脹卷積神經(jīng)網(wǎng)絡(luò)和實(shí)體注意力機(jī)制對(duì)句子進(jìn)行編碼;最后結(jié)合上述編碼信息進(jìn)行分類預(yù)測(cè)。在公開數(shù)據(jù)集NYT10上,相較于主流最優(yōu)模型在Hits@10、Hits@15和Hits@20上分別提高了約0.6%、1.5%和2.6%,證明了實(shí)體類型和關(guān)系之間的約束信息對(duì)遠(yuǎn)程監(jiān)督長(zhǎng)尾關(guān)系抽取的重要性。
關(guān)鍵詞: 關(guān)系抽?。?遠(yuǎn)程監(jiān)督; 長(zhǎng)尾分布; 約束圖; 深度學(xué)習(xí); 知識(shí)圖譜; 注意力機(jī)制; 膨脹卷積
中圖分類號(hào): TN911?34; TP391.1 " " " " " " " " "文獻(xiàn)標(biāo)識(shí)碼: A " " " " " " " " " " 文章編號(hào): 1004?373X(2024)21?0091?06
Distantly?supervised long?tailed relation extraction based on constraint graph
ZHANG Wanli1, TONG An2, LI Wenqiao2
(1. Unit 93209 of PLA, Beijing 100085, China; 2. Computer School, Beijing Information Science and Technology University, Beijing 100101, China)
Abstract: In the relation extraction task, the relationship information of entity pairs can be extracted from unstructured text. The relation extraction task is the core task of information extraction. Remote supervision can reduce labor costs and pressure by constructing training data automatically. However, the data imbalance occurs to the original corpus itself, which leads to the long?tailed distribution. In view of this, a distantly?supervised long?tailed relation extraction method on the basis of constraint graph is proposed based on the idea of multiple instance learning. A constraint graph is constructed based on the ontology structure of the knowledge graph, and then the constraint graph is encoded by a graph convolutional network (GCN). The sentences are encoded with segmented dilation CNN and entity attention mechanism. Classification prediction are implemented based on the above coded information. On the public dataset NYT10, the Hits@10, Hits@15 and Hits@20 of the proposed model are improved by approximately 0.6%, 1.5% and 2.6%, respectively, in comparison with those of the mainstream optimal models. It is proved that the constraint information between entity types and relations is important for distantly?supervised long?tailed relation extraction.
Keywords: relation extraction; distantly?supervision; long?tailed distribution; constraint graph; deep learning; knowledge graph; attention mechanism; dilation convolution
0 "引 "言
關(guān)系抽取(Relation Extraction, RE)旨在從無規(guī)則的文本數(shù)據(jù)中提取出結(jié)構(gòu)化知識(shí)三元組,通過lt;實(shí)體1,關(guān)系,實(shí)體2gt;的三元組形式存儲(chǔ)展示,可以為知識(shí)圖譜構(gòu)建等下游任務(wù)做準(zhǔn)備。長(zhǎng)尾關(guān)系是指在遠(yuǎn)程監(jiān)督關(guān)系抽取數(shù)據(jù)集中示例樣本數(shù)較少的關(guān)系類別。這類關(guān)系大多較為特殊或過于專業(yè)化,導(dǎo)致包含這些關(guān)系的原始語料數(shù)量較少,使得數(shù)據(jù)集中該關(guān)系的示例難以較為全面的表達(dá)全部特征。
基于深度學(xué)習(xí)的遠(yuǎn)程監(jiān)督關(guān)系抽取方法可以利用大規(guī)模的知識(shí)庫進(jìn)行訓(xùn)練,從而可以快速擴(kuò)展到新的關(guān)系類型和領(lǐng)域。深度學(xué)習(xí)模型具有很強(qiáng)的表征能力和自適應(yīng)能力,可以有效地提取實(shí)體和關(guān)系之間的語義信息,從而提高遠(yuǎn)程監(jiān)督關(guān)系抽取的準(zhǔn)確性。文獻(xiàn)[1]提出遠(yuǎn)程監(jiān)督的思想來解決有監(jiān)督關(guān)系抽取數(shù)據(jù)集嚴(yán)重缺乏的問題,利用關(guān)系信息較為完善的知識(shí)圖譜對(duì)語料集快速進(jìn)行標(biāo)注,并對(duì)構(gòu)建的數(shù)據(jù)集進(jìn)行關(guān)系分類。文獻(xiàn)[2]通過構(gòu)建大規(guī)模的關(guān)系抽取系統(tǒng)以覆蓋語言變化的實(shí)際范圍,學(xué)習(xí)基于語法的關(guān)系抽取規(guī)則,使用高效的依賴解析器快速學(xué)習(xí)實(shí)體關(guān)系規(guī)則特征,并基于學(xué)習(xí)到的規(guī)則信息進(jìn)行關(guān)系抽取,雖最終模型效果較好,但過高的時(shí)間和經(jīng)濟(jì)成本背離了遠(yuǎn)程監(jiān)督關(guān)系抽取任務(wù)的初衷。文獻(xiàn)[3]為充分利用知識(shí)圖譜中的有用知識(shí),提出一種新的基于雙向知識(shí)蒸餾的關(guān)系抽取模型,使用兩個(gè)神經(jīng)網(wǎng)絡(luò)分別在文本語料庫和知識(shí)圖譜領(lǐng)域進(jìn)行學(xué)習(xí),通過協(xié)同使用不同信息源,緩解遠(yuǎn)程監(jiān)督關(guān)系提取任務(wù)中的噪聲標(biāo)簽問題。文獻(xiàn)[4]利用示例數(shù)據(jù)較為豐富的頭部關(guān)系知識(shí)來提高尾部關(guān)系抽取的性能,從知識(shí)圖嵌入中利用類別標(biāo)簽之間的隱式關(guān)系知識(shí),并使用圖卷積網(wǎng)絡(luò)學(xué)習(xí)顯式關(guān)系知識(shí),通過從粗到細(xì)的知識(shí)感知注意力機(jī)制將關(guān)系知識(shí)整合到關(guān)系提取模型中。文獻(xiàn)[5]提出一種基于動(dòng)態(tài)關(guān)系抽取神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取模型,采用一種新穎的動(dòng)態(tài)參數(shù)生成器,動(dòng)態(tài)設(shè)計(jì)有利于不同實(shí)體類型下關(guān)鍵詞變化引起的潛在風(fēng)格轉(zhuǎn)變,同時(shí)融合可以跨不同關(guān)系類進(jìn)行訓(xùn)練的實(shí)體類型信息,進(jìn)行長(zhǎng)尾關(guān)系抽取。文獻(xiàn)[6]為將小樣本學(xué)習(xí)應(yīng)用于遠(yuǎn)程監(jiān)督關(guān)系抽取領(lǐng)域,基于Wikipedia構(gòu)建了小樣本關(guān)系抽取數(shù)據(jù)集FewRel,并采用最新最先進(jìn)的小樣本學(xué)習(xí)方法進(jìn)行關(guān)系分類。文獻(xiàn)[7]認(rèn)為FewRel數(shù)據(jù)集的語料均來自同一個(gè)領(lǐng)域,不符合實(shí)際的需求,因此在文學(xué)、金融和醫(yī)學(xué)等領(lǐng)域進(jìn)行少量學(xué)習(xí),并提出了關(guān)系抽取數(shù)據(jù)集FewRel2.0。文獻(xiàn)[8]認(rèn)為在基于文本的小樣本學(xué)習(xí)場(chǎng)景中,并不是所有的實(shí)例對(duì)關(guān)系原型的貢獻(xiàn)都相等,通過使用上下文注意力機(jī)制,為實(shí)例分配權(quán)重以突出實(shí)例在關(guān)系原型下的重要性,來緩解原型偏離問題。文獻(xiàn)[9]提出的一種基于句子級(jí)別注意力的關(guān)系抽取模型,使用卷積神經(jīng)網(wǎng)絡(luò)嵌入句子的語義,通過在多個(gè)實(shí)例上構(gòu)建句子級(jí)別的注意力來降低噪聲實(shí)例的權(quán)重。文獻(xiàn)[10]提出一種基于解釋學(xué)習(xí)的方法,能夠利用無標(biāo)簽數(shù)據(jù)有效地學(xué)習(xí)關(guān)系抽取規(guī)則。Jat等人提出協(xié)作關(guān)系增強(qiáng)注意力模型[11],以同時(shí)處理錯(cuò)誤標(biāo)記和長(zhǎng)尾關(guān)系,在關(guān)系增強(qiáng)注意力網(wǎng)絡(luò)的基礎(chǔ)上,在層次結(jié)構(gòu)中引入關(guān)系間共享的合作關(guān)系特征,以促進(jìn)關(guān)系增強(qiáng)過程,并平衡長(zhǎng)尾關(guān)系的訓(xùn)練數(shù)據(jù)。文獻(xiàn)[12]提出一種從未標(biāo)注文本中學(xué)習(xí)關(guān)系原型的通用方法,通過從具有充足訓(xùn)練數(shù)據(jù)的關(guān)系類型中遷移知識(shí)來促進(jìn)長(zhǎng)尾關(guān)系抽取。文獻(xiàn)[13]提出一種基于路徑搜索的長(zhǎng)尾關(guān)系抽取模型,它將關(guān)系抽取視作在關(guān)系層次樹上的路徑搜索任務(wù)。
然而,上述方法致力于更好地利用數(shù)據(jù)集本身或使用其他外部知識(shí)來提高模型泛化能力,沒有結(jié)合實(shí)體類型與關(guān)系的約束信息。因此,本文創(chuàng)新性地使用約束圖來補(bǔ)充實(shí)體類型與關(guān)系的約束信息。首先,利用圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Network, GCN)的鄰居聚合機(jī)制來促進(jìn)不同關(guān)系節(jié)點(diǎn)之間的信息傳播;其次,使用PDCNN對(duì)句子進(jìn)行編碼,分段卷積操作可以更好地捕捉實(shí)體的上下文信息和特征,膨脹卷積網(wǎng)絡(luò)可以捕捉到更多的句子特征;然后,引入實(shí)體注意力機(jī)制,獲得句子的特征表示;最后,將PDCNN和實(shí)體注意力模塊的句子編碼相加,融合約束圖信息,對(duì)句子進(jìn)行分類預(yù)測(cè),提高長(zhǎng)尾關(guān)系抽取的準(zhǔn)確率。
1 "基于約束圖的長(zhǎng)尾關(guān)系抽取模型
1.1 "約束圖
約束圖是一種新型關(guān)系依賴結(jié)構(gòu)[14],它借助關(guān)系與實(shí)體類型的約束信息來顯式地建模關(guān)系依賴路徑。約束圖示例如圖1所示,每個(gè)有向邊均是由關(guān)系節(jié)點(diǎn)到實(shí)體類型節(jié)點(diǎn)或是從實(shí)體類型的節(jié)點(diǎn)到關(guān)系節(jié)點(diǎn)。約束圖的構(gòu)建依托于知識(shí)圖譜本體結(jié)構(gòu),舍棄本體結(jié)構(gòu)中的屬性等無關(guān)信息,只保留實(shí)體類型和關(guān)系。約束圖中每一條邊均表示在知識(shí)圖譜中,該邊代表的關(guān)系至少有一條示例數(shù)據(jù)。約束圖不包含實(shí)體關(guān)系的示例數(shù)據(jù),只包含實(shí)體類型和關(guān)系之間的約束關(guān)系,使得圖形結(jié)構(gòu)較為簡(jiǎn)單,容易對(duì)其進(jìn)行建模,且建模結(jié)果的向量表示更小。
1.2 "模型架構(gòu)
搜索實(shí)體類型與關(guān)系之間的約束信息和句子中單詞蘊(yùn)含的潛在信息對(duì)于提高模型在長(zhǎng)尾關(guān)系抽取任務(wù)上的表現(xiàn)十分重要。本節(jié)將對(duì)基于約束圖的遠(yuǎn)程監(jiān)督長(zhǎng)尾關(guān)系抽取方法做詳細(xì)的介紹,提出了模型的整體框架如圖2所示。
1) 圖編碼器:圖編碼器負(fù)責(zé)從約束圖中抽取出關(guān)系和實(shí)體類型的向量表示。給定一個(gè)約束圖[G={ν,ε}],圖編碼器首先將其中的每個(gè)節(jié)點(diǎn)轉(zhuǎn)換為嵌入向量形式,然后使用圖卷積神經(jīng)網(wǎng)絡(luò)[15](GCN)提取出約束圖中每個(gè)關(guān)系節(jié)點(diǎn)和實(shí)體類型節(jié)點(diǎn)的向量表示。
2) 句子編碼器:將“詞嵌入?位置嵌入?詞性嵌入”進(jìn)行拼接得到句子的嵌入表示,經(jīng)過膨脹卷積和分段卷積等操作,獲得更合理的句子向量表示。
3) 實(shí)體注意力模塊:輸入與句子編碼器相同,利用額外實(shí)體信息有助于縮小關(guān)系的可能性,通過生成不同實(shí)體對(duì)關(guān)系的注意力分?jǐn)?shù),采用分段池化方法對(duì)注意力加權(quán)詞嵌入進(jìn)行池化,生成句子向量表示。
4) 分類層:將句子編碼器和實(shí)體注意力模塊所生成的句子向量表示相加,并融合約束圖中的約束信息,以句子包為整體,進(jìn)行關(guān)系預(yù)測(cè)。
1.3 "圖編碼器
約束圖[G]由邊集[ν]和節(jié)點(diǎn)集[ε]組成,節(jié)點(diǎn)之間通過有向的箭頭相連。首先為每個(gè)節(jié)點(diǎn)根據(jù)與邊集的相連情況構(gòu)建鄰接矩陣[A∈Rn×nn=ν],構(gòu)建過程如式(1)所示:
[Aij=1, " " νi,νj∈ε0, " " "otherwise] (1)
式中:[νi]和[νj]是邊集中的兩條邊,隨機(jī)為其初始化一個(gè)維度為[dv]的嵌入向量[ν(0)i]。約束圖的簡(jiǎn)單嵌入包含一個(gè)嵌入矩陣[V(0)={ν(0)1,ν(0)2,…,ν(0)n}]和一個(gè)鄰接矩陣[A]。
將約束圖嵌入表示作為GCN的輸入,獲得其在第[k]層中對(duì)于第[i]個(gè)節(jié)點(diǎn)的向量表示,如式(2)所示:
[νki=ρj=1nAijWkνk-1j+bk] (2)
式中:[W(k)]表示第[k]層的權(quán)重矩陣;[b(k)]為第[k]層的偏置向量;[ρ(?)]表示非線性函數(shù)tanh。GCN的輸出結(jié)果是一個(gè)矩陣[V(2)∈Rn×dh],每行均為一個(gè)節(jié)點(diǎn)的抽象表示,其中[dh]為句子向量的維度。
約束圖的矩陣包括實(shí)體節(jié)點(diǎn)和關(guān)系節(jié)點(diǎn)的抽象表示,按照節(jié)點(diǎn)類型的不同,對(duì)[V(2)]進(jìn)行分割,得到關(guān)系表示[R∈Rnr×dh]和實(shí)體類型表示[T∈Rnt×dh]。
最后,將關(guān)系[ri]的向量表示[Ri]和兩個(gè)實(shí)體類型的向量表示[Te1ri]和[Te2ri]進(jìn)行拼接,得到最終的向量表示,如式(3)所示:
[Ci=Ri;Te1ri;Te2ri∈R3dh] (3)
1.4 nbsp;句子編碼器
句子編碼器利用分段膨脹卷積神經(jīng)網(wǎng)絡(luò)[16]對(duì)句子進(jìn)行編碼。模型輸入為由“詞嵌入?位置嵌入?詞性嵌入”進(jìn)行拼接得到的句子表示。首先根據(jù)兩個(gè)實(shí)體的位置,將句子分割為三部分,對(duì)每一部分的句子詞嵌入[xi]進(jìn)行膨脹卷積操作,再對(duì)齊進(jìn)行最大池化操作,降低向量維度,通過tanh函數(shù)得到句子最終的特征抽取向量表示[Xi]。
模型將句子按實(shí)體位置劃分為三個(gè)部分,即頭實(shí)體前、頭尾實(shí)體之間和尾實(shí)體后,并針對(duì)每一部分分別采用膨脹卷積的方式來提取語義信息。膨脹卷積核尺寸[K]的計(jì)算方法如式(4)如示:
[K=k+k-1×rate-1] (4)
式中:[k]表示默認(rèn)的膨脹卷積核大?。籟rate]表示空洞大小。句子詞嵌入[xi]經(jīng)過膨脹卷積處理以后,向量矩陣融合了更多的特征信息,矩陣大小如式(5)所示:
[Wout=Win+2×padding-Kstride-1] (5)
式中:[Wout]表示膨脹卷積后輸出的詞向量矩陣大?。籟Win]表示詞嵌入[xi]的矩陣大?。籟padding]表示補(bǔ)齊操作中補(bǔ)充0的個(gè)數(shù);[stride]表示卷積核每次移動(dòng)的步長(zhǎng)。
由于分段卷積操作對(duì)句子進(jìn)行了分割,導(dǎo)致需要對(duì)[dc1]、[dc2]、[dc3]三個(gè)部分分別進(jìn)行最大值池化,降低整個(gè)句子的向量維度,如公式(6)所示:
[q1i=max1≤j≤d1?cijq2i=maxl1+1≤j≤d2?cijq3i=maxl2+1≤j≤d3?cij] (6)
式中,[1≤i≤m],[m]為卷積核個(gè)數(shù)。經(jīng)過池化操作后,三個(gè)向量的維度依然保持一致,根據(jù)分段卷積神經(jīng)網(wǎng)絡(luò)的思想,將其進(jìn)行拼接,得到句子整體的向量表示結(jié)果,然后使用tanh函數(shù)進(jìn)行非線性變換,得到最終的句子特征抽取向量表示,如公式(7)所示:
[Xi=ρq1:m∈R3dh] (7)
式中:[q1:m]表示從[q1]~[qm]的拼接向量;[Xi]為句子最終的高維特征向量表示。
最后,將句子的向量表示[Xi]和兩個(gè)實(shí)體類型表示[Te1si]和[Te2si]進(jìn)行拼接,得到本模塊的最終輸出,如式(8)所示:
[Gi=Xi;Te1si;Te2si∈R3dh] (8)
1.5 "實(shí)體注意力模塊
在遠(yuǎn)程監(jiān)督關(guān)系抽取任務(wù)中,實(shí)體附近的單詞蘊(yùn)含著一定的信息,這種額外的信息限定了關(guān)系的可能性,對(duì)遠(yuǎn)程監(jiān)督關(guān)系抽取任務(wù)具有極大的幫助。實(shí)體注意力(Entity Attention, EA)模型[17]是一種用于處理關(guān)系抽取任務(wù)的深度學(xué)習(xí)模型,它旨在對(duì)文本中的實(shí)體進(jìn)行建模和理解,從而提高文本理解和信息提取的準(zhǔn)確性。
給定一個(gè)句子集[Sq={s1,s2,…,sn}]和實(shí)體對(duì)[ej, j∈[1,2]]。一個(gè)句子有[k]個(gè)單詞[xi,i∈[1,k]],其中,每個(gè)[xi∈R1×d]是一個(gè)詞嵌入,[{eemb1,eemb2}]是兩個(gè)實(shí)體的嵌入表示。第[j]個(gè)單詞相對(duì)于第[k]個(gè)實(shí)體的實(shí)體特定注意力[ei, j]的計(jì)算如式(9)所示:
[ei, j=xi,eembj×Ak×rk, " i∈1,k, j∈1,2] (9)
式中:[[xi,eembj]]是單詞和實(shí)體的拼接表示;[Ak]和[rk]是學(xué)習(xí)參數(shù)。雙線性算子[Ak]決定關(guān)系向量[rk]的詞嵌入和實(shí)體嵌入的相關(guān)性。直觀來說,對(duì)于給定的關(guān)系,應(yīng)該更加關(guān)注與實(shí)體相關(guān)的詞語。[ei, j]使用Softmax函數(shù)進(jìn)行歸一化,生成給定單詞的注意力分?jǐn)?shù)[ai, j]如式(10)所示:
[ai, j=expei, jl=1Mei,l] (10)
式中[ai, j]與每個(gè)詞的詞嵌入進(jìn)行元素積后得到加權(quán)的詞嵌入[ci, j]。最后采用分段池化方法對(duì)注意力加權(quán)詞嵌入進(jìn)行池化,生成句子嵌入表示[Sea]。
1.6 "分類層
句子編碼器和實(shí)體注意力模型分別得到了句子的向量表示[Gi]和[Sea],將兩個(gè)向量表示直接進(jìn)行相加,同時(shí)融合PDCNN和EA模型的向量特征表示,得到最終的句子向量表示如式(11)所示:
[Qi=Gi+Sea] (11)
圖編碼器將實(shí)體類型和關(guān)系的約束關(guān)系編碼成向量表示,需要將關(guān)系[r]的約束表示[Cr]與句子的向量表示[Qi]相融合,獲得關(guān)系[r]在句中的嵌入表示[ei]。模型以包為整體進(jìn)行輸入,計(jì)算包中第[i]條句子對(duì)關(guān)系[r]的注意力分?jǐn)?shù),如式(12)所示:
[αi=expeij=1Bexpej] (12)
獲取到包內(nèi)所有句子對(duì)關(guān)系[r]的注意力分?jǐn)?shù)以后,與句子向量表示相乘,得到該句子的示例表示,然后對(duì)包內(nèi)所有句子進(jìn)行加權(quán)和,如式(13)所示:
[z=i=1BαiQi] (13)
計(jì)算句子包對(duì)關(guān)系分類結(jié)果的向量表示,如式(14)所示:
[oi=Wizi+bi] (14)
式中:[Wi]表示關(guān)系類別對(duì)于句子示例表示的權(quán)重矩陣;[bi]表示偏移量。通過Softmax函數(shù)計(jì)算每個(gè)關(guān)系的條件概率,如式(15)所示:
[PiM,θ=expoik=1nrexpok] (15)
式中:[i∈(1,2,…,nr)],[nr]表示關(guān)系數(shù)量;[M]表示所有句子的集合。
為了訓(xùn)練出多個(gè)關(guān)系類別抽取的最佳模型,本文模型研究的目標(biāo)函數(shù)選用交叉熵?fù)p失函數(shù),其具體定義如式(16)所示:
[Jθ=-i=1klogiM,θ] (16)
式中[θ]是訓(xùn)練得到的參數(shù),通過反向傳播算法計(jì)算得到的參數(shù)梯度會(huì)被用來更新優(yōu)化參數(shù)。在所有預(yù)測(cè)關(guān)系中,利用argmax函數(shù)計(jì)算概率最高的關(guān)系作為最終的預(yù)測(cè)結(jié)果,如式(17)所示:
[ri=argmax PiM,θ] (17)
2 "實(shí)驗(yàn)與分析
2.1 "數(shù)據(jù)集
本文研究使用的數(shù)據(jù)集為遠(yuǎn)程監(jiān)督關(guān)系抽取領(lǐng)域最常用的數(shù)據(jù)集,該數(shù)據(jù)集由Riedel等人于2010年提出。其文本來源于《紐約時(shí)報(bào)》所標(biāo)注的語料,包含超過170萬篇新聞文章和400萬個(gè)實(shí)體之間的關(guān)系,涵蓋了不同類型的實(shí)體,包括人、組織、地點(diǎn)、工作、電影等。其中,涉及到的關(guān)系包括常見的家庭成員、就職、成立、出生地等,以及一些特殊關(guān)系,如“被任命為”的關(guān)系。表1展示了該數(shù)據(jù)集的數(shù)量統(tǒng)計(jì)情況。
2.2 "實(shí)驗(yàn)設(shè)置
該實(shí)驗(yàn)的訓(xùn)練與測(cè)試均在Ubuntu 18.04的操作系統(tǒng)上運(yùn)行,使用的CPU為Intel[?] Xeon[?] Platinum 8358P CPU@2.60 GHz,GPU為NVIDIA GeForce RTX 3090,Python版本為3.8,并基于PyTorch 1.11.0版本的深度學(xué)習(xí)框架,CUDA版本為11.6。
在圖編碼器階段,采用預(yù)訓(xùn)練模型Word2Vec[18]對(duì)詞嵌入進(jìn)行初始化。如果實(shí)體名由多個(gè)詞組成,則這些詞將被組合成一個(gè)詞進(jìn)行處理。在網(wǎng)絡(luò)的其余部分中,所有嵌入矩陣和權(quán)重矩陣都采用Xavier初始化方法[19],偏置向量默認(rèn)初始化為0。
詞向量的訓(xùn)練在句子編碼器階段進(jìn)行,采用Word2Vec模型的Skip Gram+負(fù)采樣方法。為避免過擬合,模型在分類層之前均使用了Dropout策略[20]。經(jīng)過多次實(shí)驗(yàn)驗(yàn)證后,模型的最終超參數(shù)設(shè)置如表2所示。
2.3 "實(shí)驗(yàn)結(jié)果分析
2.3.1 "模型對(duì)比實(shí)驗(yàn)
為了驗(yàn)證基于約束圖與實(shí)體注意力的長(zhǎng)尾關(guān)系抽?。–GEA)模型在長(zhǎng)尾關(guān)系抽取領(lǐng)域的效果,選擇了9種遠(yuǎn)程監(jiān)督關(guān)系抽取模型與本文所提出的CGEA模型進(jìn)行對(duì)比實(shí)驗(yàn)。本文將上述模型針對(duì)NYT10數(shù)據(jù)集進(jìn)行復(fù)現(xiàn),并與CGEA模型進(jìn)行對(duì)比。關(guān)系抽取模型的Hits@[k]指標(biāo)對(duì)比結(jié)果如表3所示。
CGRE和CGEA均使用了實(shí)體類型與關(guān)系之間的約束作為句子的外部知識(shí),相較于關(guān)系層次樹,在Hits@[k]上明顯領(lǐng)先于其他模型。句子包中由實(shí)體類型與關(guān)系類型不匹配的問題引發(fā)了一定的噪聲問題,約束信息不僅去除了這部分噪聲對(duì)抽取結(jié)果的不利影響,而且熱門關(guān)系在向量表示層面上的知識(shí)遷移可以幫助完善長(zhǎng)尾關(guān)系的向量表示。實(shí)驗(yàn)證明了約束圖對(duì)于長(zhǎng)尾關(guān)系抽取問題具有一定的幫助作用。但本文的CGEA模型通過結(jié)合使用PDCNN和EA模型,將PDCNN作為預(yù)訓(xùn)練模型為EA提供更準(zhǔn)確的特征表示和上下文信息,可以獲得更全面和準(zhǔn)確的關(guān)系抽取結(jié)果。NYT10數(shù)據(jù)示例如圖3所示。
如圖3所示,在NYT10數(shù)據(jù)集中的一條數(shù)據(jù)除了頭實(shí)體以及尾實(shí)體,正確關(guān)系為PLACE_OF_DEATH,CGEA采用雙重卷積核結(jié)構(gòu),對(duì)輸入特征進(jìn)行卷積后,通過偏置項(xiàng)的引入以及Sigmoid函數(shù)的非線性轉(zhuǎn)換,使得輸出特征圖具有更高的稀疏性和更高的對(duì)比度,這種結(jié)構(gòu)優(yōu)化有助于提升模型的性能,使句子特征提取更加合理,最終正確識(shí)別出關(guān)系為PLACE_OF_DEATH。而CGRE則因?yàn)榫渥泳幋a器僅由PCNN構(gòu)成,僅根據(jù)句子結(jié)構(gòu)和關(guān)鍵詞的位置提取關(guān)系,對(duì)句子的信息提取效果不佳,導(dǎo)致關(guān)系錯(cuò)誤提取為CAUSE_OF_DEATH。
2.3.2 "消融實(shí)驗(yàn)
為進(jìn)一步驗(yàn)證CGEA模型中不同部件對(duì)長(zhǎng)尾關(guān)系抽取任務(wù)的貢獻(xiàn)和影響,本文針對(duì)基準(zhǔn)模型——CGRE進(jìn)行了消融實(shí)驗(yàn),分別探究了使用PDCNN的影響和實(shí)體注意力機(jī)制對(duì)模型效果的影響。CGRE模型首次在遠(yuǎn)程監(jiān)督關(guān)系抽取領(lǐng)域提出約束圖的概念,并用GCN對(duì)約束圖進(jìn)行編碼,使用PCNN對(duì)句子進(jìn)行編碼,最后使用約束感知注意力模塊對(duì)圖編碼器和句子編碼器的結(jié)果進(jìn)行結(jié)合,得到最終的關(guān)系抽取結(jié)果。CGRE+PDCNN是指把CGRE的句子編碼器從PCNN替換為PDCNN。CGRE+EA是指在CGRE的基礎(chǔ)上融合實(shí)體注意力機(jī)制。關(guān)系抽取模型的Hits@[k]指標(biāo)對(duì)比結(jié)果如表4所示。
CGEA模型相比CGRE、CGRE+PDCNN和CGRE+EA模型在Hits@[k]指標(biāo)上均有提升,表明了PDCNN模塊和EA模塊均對(duì)長(zhǎng)尾關(guān)系抽取任務(wù)有著積極的幫助。DCNN模型在膨脹卷積操作的影響下,為句子保留了更多的特征信息,而實(shí)體注意力模型則可以通過賦予影響關(guān)鍵單詞更高的權(quán)重來獲得更合理的句子向量表示,從而提升關(guān)系抽取任務(wù)整體的性能。
綜上所述,CGEA模型相較于其他遠(yuǎn)程監(jiān)督長(zhǎng)尾關(guān)系抽取模型更能保證模型預(yù)測(cè)的準(zhǔn)確性,符合實(shí)際應(yīng)用的要求。
3 "結(jié) "語
針對(duì)遠(yuǎn)程監(jiān)督導(dǎo)致的長(zhǎng)尾分布問題,本文提出一種基于約束圖的遠(yuǎn)程監(jiān)督長(zhǎng)尾關(guān)系抽取模型,該模型充分利用了不同關(guān)系和實(shí)體類型之間的約束關(guān)系和句子中單詞蘊(yùn)含的潛在信息。此方法在NYT10數(shù)據(jù)集上取得了較優(yōu)的效果,證明了約束圖對(duì)于彌補(bǔ)長(zhǎng)尾關(guān)系數(shù)據(jù)匱乏的現(xiàn)狀有一定的幫助,在一定程度上提高了關(guān)系抽取的準(zhǔn)確率。后續(xù)工作可以考慮利用知識(shí)圖譜實(shí)體的相關(guān)屬性信息進(jìn)一步增強(qiáng)實(shí)體表示效果,以提高模型的魯棒性。
參考文獻(xiàn)
[1] MINTZ M, BILLS S, SNOW R, et al. Distant supervision for relation extraction without labeled data [C]// Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. [S.l.]: ACL, 2009: 1003?1011.
[2] KRAUSE S, LI H, USZKOREIT H, et al. Large?scale learning of relation?extraction rules with distant supervision from the web [C]// Proceedings of the 11th International Semantic Web Conference. Heidelberg: Springer, 2012: 263?278.
[3] LEI K, CHEN D Y, LI Y L, et al. Cooperative denoising for distantly supervised relation extraction [C]// Proceedings of the 27th International Conference on Computational Linguistics. [S.l.]: ACL, 2018: 426?436.
[4] ZHANG N Y, DENG S M, SUN Z L, et al. Long?tail relation extraction via knowledge graph embeddings and graph convolution networks [C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). [S.l.]: ACL, 2019: 3016?3025.
[5] GOU Y J, LEI Y J, LIU L Q, et al. DNNRE: A dynamic neural network for distant supervised relation extraction [EB/OL]. [2023?03?04]. http://arxiv.org/abs/1911.06489.
[6] HAN X, ZHU H, YU P F, et al. FewRel: A large?scale supervised few?shot relation classification dataset with state?of?the?art evaluation [C]// Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. [S.l.]: ACL, 2018: 4803?4809.
[7] GAO T Y, HAN X, ZHU H, et al. FewRel 2.0: Towards more challenging few?shot relation classification [C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. [S.l.]: ACL, 2019: 6249?6254.
[8] HUI B, LIU L, CHEN J, et al. Few?shot relation classification by context attention?based prototypical networks with BERT [J]. EURASIP journal on wireless communications and networking, 2020(1): 118.
[9] LIN Y K, SHEN S Q, LIU Z Y, et al. Neural relation extraction with selective attention over instances [C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). [S.l.]: ACL, 2016: 2124?2133.
[10] GUI Y C, LIU Q, ZHU M, et al. Exploring long tail data in distantly supervised relation extraction [C]// Processing of the National Language Understanding and Intelligent Applications. Heidelberg: Springer, 2016: 514?522.
[11] JAT S, KHANDELWAL S, TALUKDAR P P. Improving distantly supervised relation extraction using word and entity based attention [EB/OL]. [2018?04?19]. https://arxiv.org/abs/1804.06987.
[12] CAO Y, KUANG J, GAO M, et al. Learning relation prototype from unlabeled texts for long?tail relation extraction [J]. IEEE transactions on knowledge and data engineering, 2023, 35(2): 1761?1774.
[13] WANG J. RH?Net: Improving neural relation extraction via reinforcement learning and hierarchical relational searching [EB/OL]. [2020?10?27]. https://arxiv.org/abs/2010.14255.
[14] 梁天銘.遠(yuǎn)程監(jiān)督長(zhǎng)尾關(guān)系抽取研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2021.
[15] KIPF T N, WELLING M. Semi?supervised classification with graph convolutional networks [EB/OL]. [2019?06?25]. https://openreview.net/forum?id=SJU4ayYgl.
[16] 金軸,李成軍,劉旭波.基于深度學(xué)習(xí)的軍事領(lǐng)域?qū)嶓w關(guān)系抽取研究[J].航天電子對(duì)抗,2022,38(5):32?36.
[17] SHEN Y T, HUANG X J. Attention?based convolutional neural network for semantic relation extraction [C]// Proceedings of the Conference on International Conference on Computational Linguistics. [S.l.]: ACL, 2016: 2526?2536.
[18] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality [C]// Proceedings of the 26th International Conference on Neural Information Processing Systems. [S.l.: s.n.], 2013: 3111?3119.
[19] GLOROT X, BENGIO Y. Understanding the difficulty of training deep feedforward neural networks [J]. Journal of machine learning research, 2010, 9: 249?256.
[20] SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: A simple way to prevent neural networks from overfitting [J]. Journal of machine learning research, 2014, 15(1): 1929?1958.
作者簡(jiǎn)介:張萬里(1977—),男,河南上蔡人,副研究員,主要研究領(lǐng)域?yàn)樾畔⑻幚怼?/p>
佟 "安(1998—),男,河北保定人,碩士研究生,主要研究領(lǐng)域?yàn)橹R(shí)圖譜。
李文橋(1999—),女,甘肅武威人,碩士研究生,主要研究領(lǐng)域?yàn)閳D像處理。