尹 鵬,周 林,郭 強(qiáng),劉鎮(zhèn)江
(江南計(jì)算技術(shù)研究所,江蘇 無(wú)錫 214083)
關(guān)系抽取(relation extraction)是指從自由文本中抽取給定兩個(gè)實(shí)體的關(guān)系的方法,是自然語(yǔ)言處理的重要任務(wù)之一,也是是構(gòu)建知識(shí)圖譜(knowledge graph)和知識(shí)庫(kù)(knowledge base)的重要步驟之一。關(guān)系抽取基于如下問(wèn)題:假設(shè)有兩個(gè)實(shí)體e1,e2和可能的關(guān)系集合r,如何判斷e1,e2之間屬于r中哪一類(lèi)關(guān)系?然而僅僅依靠實(shí)體獲得的信息太少,難以訓(xùn)練有效的模型。因此,通常通過(guò)e1,e2的語(yǔ)義信息提取關(guān)系信息r,即在自由文本中抽取同時(shí)包含e1,e2的句子,通過(guò)分析句子的語(yǔ)義信息得到實(shí)體對(duì)(e1,e2)的關(guān)系r。
早期關(guān)系抽取方法大多依賴(lài)于手工構(gòu)建特征工程。在自然語(yǔ)言中,同樣的關(guān)系可能有很多種不同的表達(dá)方式,可能是詞匯,短語(yǔ),也有可能體現(xiàn)在上下文語(yǔ)義中。因此,提出了很多基于特征的方法和基于核的方法[1-3]。然而這些方法大部分都是基于已有的自然語(yǔ)言處理工具構(gòu)建深度特征,難免會(huì)把這些工具中的錯(cuò)誤傳播到后續(xù)分類(lèi)中,對(duì)分類(lèi)結(jié)果造成干擾。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,端對(duì)端的神經(jīng)網(wǎng)絡(luò)模型逐漸發(fā)展成熟[4-6],詞向量嵌入[4-6]和注意力機(jī)制[7]的引入也顯著提升了模型的性能。注意力機(jī)制通過(guò)設(shè)計(jì)合理的算法,對(duì)每一個(gè)單詞或每一個(gè)句子計(jì)算一個(gè)關(guān)注度,經(jīng)過(guò)訓(xùn)練使關(guān)鍵的單詞或句子有較高的權(quán)重,有助于在后續(xù)的模塊中更能有效地提取關(guān)鍵特征。Ji等[8]和Jat等[9]在注意力機(jī)制中引入了實(shí)體信息,然而,他們?cè)谧⒁饬C(jī)制中只使用了標(biāo)注實(shí)體短語(yǔ)的第一個(gè)詞向量,并沒(méi)有充分利用實(shí)體信息。在大部分情況下,實(shí)體都是由實(shí)體短語(yǔ)表示,例如實(shí)體對(duì):“Zoran Abadi”,“University of Belgrade, main campus”??梢钥闯鲈谠搶?shí)體對(duì)中,實(shí)體都由多個(gè)詞組成,如果僅使用第一個(gè)詞,可能導(dǎo)致實(shí)體信息獲取不全面。
文中引入包含實(shí)體的注意力機(jī)制訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),首先充分利用實(shí)體短語(yǔ)的信息。使用卷積神經(jīng)網(wǎng)絡(luò)獲取實(shí)體短語(yǔ)的深度特征表示,由于實(shí)體短語(yǔ)的長(zhǎng)度不確定,使用卷積神經(jīng)網(wǎng)絡(luò)可以達(dá)到壓縮實(shí)體信息的效果,同時(shí)也能提取到實(shí)體的深層向量表示。其次引入短語(yǔ)級(jí)的注意力機(jī)制。在很多實(shí)例中,體現(xiàn)實(shí)體關(guān)系的是一個(gè)短語(yǔ),因此,抓住關(guān)鍵短語(yǔ)特征可以有效提升識(shí)別能力。卷積神經(jīng)網(wǎng)絡(luò)的卷積過(guò)程(卷積窗口長(zhǎng)度為l)可以認(rèn)為是把長(zhǎng)度為l的短語(yǔ)映射到高維空間,因此可以通過(guò)對(duì)卷積層添加注意力機(jī)制達(dá)到短語(yǔ)級(jí)注意力機(jī)制的效果。Ji等[8]表明了TransE思想在實(shí)例級(jí)注意力機(jī)制中有較好的表現(xiàn),因此把TransE思想引入到短語(yǔ)級(jí)注意力機(jī)制中。再次引入標(biāo)簽平滑正則化(label smoothing regularization)降低錯(cuò)誤標(biāo)簽的不良影響,同時(shí)減輕過(guò)擬合風(fēng)險(xiǎn)。遠(yuǎn)程監(jiān)督的數(shù)據(jù)集有大量的噪聲數(shù)據(jù),這些數(shù)據(jù)使訓(xùn)練的模型性能大打折扣,因此對(duì)非0即1的標(biāo)簽做平滑處理,對(duì)每一個(gè)類(lèi)賦予一個(gè)置信度,得到平滑的軟標(biāo)簽,減少錯(cuò)誤標(biāo)簽的干擾。
關(guān)系抽取任務(wù)通常被認(rèn)為是多分類(lèi)多標(biāo)簽問(wèn)題,傳統(tǒng)方法中比較有代表性的是:基于特征的方法[1,10-12],通過(guò)分析語(yǔ)義信息構(gòu)建特征;核方法:卷積樹(shù)核[13]、子序列核[14]、依存樹(shù)核[15]。這些方法都是基于手工精心構(gòu)建的特征,或者基于已有的NLP工具構(gòu)建的特征,它們都會(huì)不可避免地把NLP工具中的錯(cuò)誤信息帶入后續(xù)分類(lèi)中,影響了分類(lèi)性能[16]。
從對(duì)數(shù)據(jù)的利用方式進(jìn)行分類(lèi),關(guān)系抽取可分為有監(jiān)督、無(wú)監(jiān)督、半監(jiān)督、遠(yuǎn)程監(jiān)督和開(kāi)放式[17]的關(guān)系抽取方法。隨著知識(shí)庫(kù)和知識(shí)圖譜的規(guī)模不斷增大,模型訓(xùn)練需要的數(shù)據(jù)規(guī)模需求也在不斷增加。然而基于監(jiān)督的方法需要大量的標(biāo)記數(shù)據(jù),將會(huì)消耗大量的人力和時(shí)間成本。Mintz等[18]提出的遠(yuǎn)程監(jiān)督方法有效降低了構(gòu)建數(shù)據(jù)集的時(shí)間和人力成本。遠(yuǎn)程監(jiān)督方法并不對(duì)單個(gè)句子進(jìn)行標(biāo)注,而是先從結(jié)構(gòu)化的數(shù)據(jù)(如freebase)中得到實(shí)體與關(guān)系的三元組(e1,e2,r),然后再把實(shí)體與自由文本對(duì)齊,把包含同一個(gè)實(shí)體對(duì)的句子組成一個(gè)數(shù)據(jù)包,并給這個(gè)數(shù)據(jù)包標(biāo)記關(guān)系r,基于遠(yuǎn)程監(jiān)督方法設(shè)計(jì)的模型目標(biāo)就是從實(shí)例包中抽取關(guān)系r。然而遠(yuǎn)程監(jiān)督也引入了大量錯(cuò)誤標(biāo)簽,為了緩解錯(cuò)誤標(biāo)簽問(wèn)題的影響,Riedel等[19],Hoffmann等[20],Surdeanu等[21]把遠(yuǎn)程監(jiān)督問(wèn)題當(dāng)作多實(shí)例多標(biāo)簽學(xué)習(xí)問(wèn)題。
近年來(lái),神經(jīng)網(wǎng)絡(luò)在眾多領(lǐng)域都有令人矚目的表現(xiàn),并在詞性標(biāo)注[22]、情感分析[23]、機(jī)器翻譯[24]等方面取得了較好的效果。任智慧等[25]使用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)進(jìn)行中文分詞。孫紫陽(yáng)等[26]把傳統(tǒng)的句法特征加入詞向量輸入的特征中,帶入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,使輸入具有結(jié)構(gòu)化的句法信息。肜博輝等[27]使用多種詞向量的預(yù)處理方式構(gòu)建多通道,再帶入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,豐富了詞向量的表達(dá)方式。Zeng等[4]使用端到端的卷積神經(jīng)網(wǎng)絡(luò)模型,并使用柔性最大值softmax作為分類(lèi)器。Santos等[28]提出了排序分類(lèi)(classification by ranking)的方法,減少了關(guān)系分類(lèi)中人工添加的類(lèi)(other類(lèi))對(duì)關(guān)系分類(lèi)的不利影響。Zeng等[29]提出了分段卷積池化(PCNN)的思想,通過(guò)兩個(gè)實(shí)體的位置把句子分成三段,每段分別進(jìn)行最大池化,避免了使用NLP工具導(dǎo)致的錯(cuò)誤傳播問(wèn)題,并且把實(shí)體位置信息加入到關(guān)系抽取任務(wù)中,提升分類(lèi)性能。
注意力機(jī)制的使用使得神經(jīng)網(wǎng)絡(luò)在關(guān)系抽取中有更好的表現(xiàn),注意力通過(guò)對(duì)實(shí)例包中的每一個(gè)句子計(jì)算一個(gè)關(guān)注度,加權(quán)求和得到實(shí)例包的深度特征。王紅等[30]通過(guò)比較LSTM中輸入與輸出的關(guān)系構(gòu)建注意力機(jī)制,獲取整體特征,再使用詞向量特征與整體特征融合得到分類(lèi)結(jié)果。Lin等[7]把注意力機(jī)制引入到關(guān)系抽取任務(wù)中,通過(guò)對(duì)實(shí)例包中的每一個(gè)句子計(jì)算一個(gè)關(guān)注度,加權(quán)求和得到實(shí)例包的深度特征,充分利用了實(shí)例包的所有句子。Ji等[8]加強(qiáng)了實(shí)體的作用,在實(shí)例級(jí)的注意力機(jī)制中引入了實(shí)體信息,并用TransE思想表示兩個(gè)實(shí)體間潛在的關(guān)系信息,即v=e1-e2。Jat等[9]把實(shí)體注意力作用于深層特征,用每個(gè)實(shí)體分別對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)的深度特征做注意力機(jī)制,最后拼接得到深度特征。Jat等對(duì)實(shí)體短語(yǔ)的利用不充分,文中實(shí)驗(yàn)表明,通過(guò)實(shí)體短語(yǔ)抽取實(shí)體關(guān)系特征有助于提高模型性能。
假設(shè)S={s1,s2,…,sn}是數(shù)據(jù)集中的一個(gè)實(shí)例包,其中的每一個(gè)實(shí)例都包含實(shí)體對(duì)(e1,e2)。r={r1,r2,…,rc}表示兩個(gè)實(shí)體可能的關(guān)系集合。模型如圖1所示,先用預(yù)訓(xùn)練的詞向量矩陣進(jìn)行嵌入,得到單詞的詞向量表示,接著通過(guò)一個(gè)卷積層得到短語(yǔ)級(jí)的深度特征表示,并在該層引入實(shí)體深度特征并添加注意力機(jī)制,最后通過(guò)一個(gè)最大池化層得到該實(shí)例的深度特征。
圖1 引入實(shí)體信息的短語(yǔ)級(jí)注意力機(jī)制關(guān)系抽取方法模型
詞向量嵌入是目前自然語(yǔ)言處理中比較常用的方法,通過(guò)一個(gè)隨機(jī)生成或者預(yù)訓(xùn)練的詞向量矩陣把單詞轉(zhuǎn)換成向量。令s表示一個(gè)句子,wi表示詞向量,用one-hot編碼,則句子可以表示為s={w1,w2,…,wt}。V∈da×|V|表示詞向量嵌入的編碼矩陣,詞向量嵌入的過(guò)程表示如下:
mi=wiV
位置嵌入:Zeng等[4]和Santos等[28]展示了單詞與實(shí)體的距離的大小會(huì)對(duì)關(guān)系有不同的貢獻(xiàn)。對(duì)每一個(gè)單詞計(jì)算與實(shí)體(e1,e2)的相對(duì)距離,例如在句子“馬云是阿里巴巴的創(chuàng)始人”中,“創(chuàng)始人”與兩個(gè)實(shí)體“馬云”和“阿里巴巴”的距離為-4和-2。類(lèi)似詞向量的表示方法,位置信息也可以映射到高維空間中。這里令mi表示wi在詞向量和位置向量嵌入后的向量表示。則mi∈d(d=da+db×2),其中db是位置向量的維度。
卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練關(guān)系抽取模型中有不錯(cuò)的表現(xiàn),相比循環(huán)神經(jīng)網(wǎng)絡(luò)而言,卷積神經(jīng)網(wǎng)絡(luò)更加容易獲取全局特征。能夠?qū)⑷我忾L(zhǎng)度的句子壓縮成一個(gè)固定的低維向量,同時(shí),卷積神經(jīng)網(wǎng)絡(luò)能更好地并行處理數(shù)據(jù),提高訓(xùn)練速度。同時(shí),合適的卷積窗口能把短語(yǔ)整體映射到高維向量空間中,因此,卷積后的向量體現(xiàn)了短語(yǔ)的整體信息。
定義卷積矩陣W∈dc×(l×d),其中dc是詞向量嵌入后句子的長(zhǎng)度,l是卷積窗口大小,令qi∈l×d表示句子的第i個(gè)卷積窗口:
qi=wi-l+1:i(1≤i≤m+l-1)
由于卷積窗口滑動(dòng)到邊緣時(shí),窗口邊緣會(huì)超出句子的范圍,因此使用一個(gè)特定的向量填充超出的部分。因此,每一個(gè)卷積核的卷積過(guò)程表示如下:pi=[Wqi+b]i。其中b是偏置向量。
經(jīng)過(guò)卷積層卷積以后,詞向量被映射到更高維的向量空間,并且每一個(gè)向量pi都包含了從第i-l+1到第i個(gè)詞的信息。顯然,只要選擇合適的卷積窗口,體現(xiàn)關(guān)系的關(guān)鍵短語(yǔ)的信息一定在某個(gè)pj中。因此,可以針對(duì)p={p1,p2,…,pt}使用注意力機(jī)制,對(duì)每一個(gè)pi分配權(quán)重,并希望反映關(guān)系的關(guān)鍵向量pr有最高的權(quán)重,減少非重點(diǎn)信息的干擾,從而提高模型性能。
近年來(lái),許多知識(shí)圖譜的處理中都用到了TransE的思想[31-33],即把關(guān)系信息當(dāng)作頭實(shí)體到尾實(shí)體的轉(zhuǎn)義,即e1+r≈e2,并且取得了比較好的效果。Ji等[8]認(rèn)為向量vrelation=e1-e2包含了關(guān)系r的特征。如果一個(gè)實(shí)例體現(xiàn)了某一個(gè)關(guān)系r,那么該實(shí)例的特征向量將會(huì)與vrelation有較高的相似度。
文中從更細(xì)的粒度分析關(guān)系信息。若某實(shí)例體現(xiàn)關(guān)系r,那么短語(yǔ)級(jí)的特征pr將會(huì)與vrelation有較多的相似信息。另一方面,在多數(shù)情況下,每個(gè)實(shí)體并不是單獨(dú)的一個(gè)單詞,大部分的人名,機(jī)構(gòu),學(xué)校等實(shí)體信息會(huì)由多個(gè)單詞表示。考慮如下的實(shí)體對(duì):(“Zoran Abadi”,“University of Belgrade,main campus”),其中每個(gè)實(shí)體都是詞組,若直接使用實(shí)體位置信息抽取實(shí)體,則只會(huì)提取到第一個(gè)單詞。使用2.2節(jié)的卷積神經(jīng)網(wǎng)絡(luò)提取實(shí)體信息,并接一個(gè)最大池化層得到實(shí)體的深度信息表示,記為(xe1,xe2)。
圖2展示了注意力機(jī)制方法。
圖2 注意力機(jī)制方法
令vr=xe1-xe2,設(shè)計(jì)的注意力機(jī)制如下:
ui=wT(tanh(A[pi;vr]))+b
其中,wT∈1×(2k)和A∈2k是參數(shù)矩陣,A是一個(gè)對(duì)角矩陣,k是卷積核個(gè)數(shù)。注意力機(jī)制對(duì)每一個(gè)pi求得權(quán)重αi,得到加權(quán)的向量表示:
ci=αipi
加入池化操作對(duì)卷積進(jìn)行池化,抽取實(shí)例的深度特征。與傳統(tǒng)的最大池化不同,Zeng等[29]通過(guò)兩個(gè)實(shí)體的位置把句子分成三段,對(duì)每一段分別做最大池化操作,可以得到比單一池化更好的性能。該過(guò)程可以表示如下:兩個(gè)實(shí)體把ci分成三段,得到ci=(ci1,ci2,ci3),對(duì)每一個(gè)部分做最大池化:
xij=max(cij)
最后得到實(shí)例s的深度特征為:
為了得到模型對(duì)每個(gè)分類(lèi)的預(yù)測(cè),通過(guò)一個(gè)線性層和softmax計(jì)算各個(gè)類(lèi)別的置信度,如下所示:
o=Wsx+bs
其中,Ws是參數(shù)矩陣,bs是偏置向量,最后計(jì)算每個(gè)類(lèi)的置信度:
在關(guān)系抽取中引入標(biāo)簽平滑正則化(label smoothing regularization,LSR)方法,LSR是由Szegedy等[34]提出的,通過(guò)平滑標(biāo)簽中不同類(lèi)別的概率,把原來(lái)有很強(qiáng)置信度的one-hot標(biāo)簽變成一個(gè)在每個(gè)類(lèi)都有一定置信度的平滑標(biāo)簽。對(duì)遠(yuǎn)程監(jiān)督數(shù)據(jù)集而言,大量噪聲數(shù)據(jù)的存在導(dǎo)致了模型性能表現(xiàn)不夠理想,每一個(gè)實(shí)例包中的實(shí)例只是“可能”體現(xiàn)實(shí)體反映的關(guān)系信息。引入LSR可以把這個(gè)“可能性”加入到標(biāo)簽中,更符合實(shí)際情況。對(duì)所有標(biāo)簽進(jìn)行統(tǒng)計(jì),得到一個(gè)分布μ(r),這是一個(gè)與標(biāo)簽無(wú)關(guān)的分布,把這個(gè)分布添加到one-hot標(biāo)簽中,得到如下新的軟標(biāo)簽:
p'(ri|x)=(1-ε)p(ri|x)+εμ(ri)
其中,ε是表示標(biāo)簽“硬度”的置信度。ε越小,標(biāo)簽越“硬”,得到的新標(biāo)簽越接近原來(lái)的one-hot標(biāo)簽。反之,ε越大,則標(biāo)簽的原有特征越弱,各個(gè)標(biāo)簽的區(qū)分度也越來(lái)越不明顯。
由于模型預(yù)測(cè)的標(biāo)簽p(r|θ,s)與標(biāo)注的標(biāo)簽p'(r|x)都是軟標(biāo)簽,因此使用相對(duì)熵(即KL散度)評(píng)估兩個(gè)標(biāo)簽之間的差異。在信息論中,相對(duì)熵表示當(dāng)用概率分布p擬合真實(shí)分布時(shí)所產(chǎn)生的信息損耗:
J(θ)=∑iD(p'(si)‖p(si,θ))
其中,θ表示模型的所有參數(shù),si表示每一個(gè)實(shí)例包。希望找到合適的θ,使模型生成的分布與真實(shí)分布的平均距離最小。
在實(shí)驗(yàn)中,使用dropout[35]策略減少模型過(guò)擬合,并采用Adam算法優(yōu)化目標(biāo)函數(shù)。
GIDS(Google-IISc distant supervision)是由Jat等[9]在2017年神經(jīng)信息處理系統(tǒng)大會(huì)(NIPS)自動(dòng)化知識(shí)庫(kù)建設(shè)研討會(huì)(AKBC)上發(fā)布的數(shù)據(jù)集,通過(guò)谷歌關(guān)系抽取語(yǔ)料庫(kù)作為種子數(shù)據(jù)生成的數(shù)據(jù)集。由于目前許多遠(yuǎn)程監(jiān)督數(shù)據(jù)集存在大量錯(cuò)誤標(biāo)簽問(wèn)題[18-19],即不一定滿足假設(shè):“在一個(gè)實(shí)例包中至少有一個(gè)實(shí)例反映實(shí)體對(duì)的真實(shí)關(guān)系”,導(dǎo)致模型訓(xùn)練結(jié)果不理想。GIDS在構(gòu)造數(shù)據(jù)集時(shí),確保了在一個(gè)實(shí)例包中,至少有一個(gè)實(shí)例真正反映了實(shí)體的關(guān)系。GIDS數(shù)據(jù)集詳細(xì)信息如表1和表2所示,包含了訓(xùn)練集、測(cè)試集和開(kāi)發(fā)集。共有5個(gè)二元關(guān)系,其中包含一個(gè)人工構(gòu)建的other類(lèi)(NA)。
表1 GIDS數(shù)據(jù)集基本信息統(tǒng)計(jì)
表2 GIDS數(shù)據(jù)集關(guān)系信息統(tǒng)計(jì)
用Zeng等[29]出的分段卷積神經(jīng)網(wǎng)絡(luò)模型(PCNN)和Jat等[9]提出的集成學(xué)習(xí)模型作為比較的基準(zhǔn)算法。
分段卷積神經(jīng)網(wǎng)絡(luò):PCNN算法是關(guān)系分類(lèi)中比較常用的方法,比通常的MIML-RE基線算法有更好的性能。PCNN是Zeng等[29]針對(duì)實(shí)體關(guān)系抽取任務(wù)提出的算法。在關(guān)系抽取任務(wù)中,句子中單詞和實(shí)體的相對(duì)位置不同可能導(dǎo)致結(jié)果的不同,而且實(shí)體兩邊的單詞和實(shí)體之間的單詞對(duì)分類(lèi)結(jié)果的貢獻(xiàn)也不相同,因此PCNN方法比CNN有更好的表現(xiàn)。
Jat等[9]提出的集成學(xué)習(xí)模型是由詞語(yǔ)級(jí)注意力機(jī)制模型(BGWA)和添加實(shí)體的注意力機(jī)制模型(EA)集成得到,是目前GIDS數(shù)據(jù)集上取得最好性能的算法。BGWA模型首先通過(guò)雙向循環(huán)神經(jīng)網(wǎng)絡(luò)把句子映射到一個(gè)更高維空間中,然后對(duì)每個(gè)詞添加自注意力機(jī)制,最后通過(guò)分片最大池化層提取實(shí)例的深度特征。EA模型仍然使用雙向卷積神經(jīng)網(wǎng)絡(luò)獲得單詞的高階表示,引入了兩個(gè)實(shí)體的信息,并用兩個(gè)實(shí)體分別與循環(huán)神經(jīng)網(wǎng)絡(luò)生成的結(jié)果連接做注意力機(jī)制,再經(jīng)過(guò)分片最大池化層得到深度特征。集成的方法則把WA,EA,PCNN三個(gè)模型的結(jié)果集成起來(lái),通過(guò)加權(quán)投票的方法計(jì)算結(jié)果。
為了保證模型的一致性和評(píng)估的準(zhǔn)確性,文中模型參數(shù)與基準(zhǔn)算法模型參數(shù)相同。使用Word2Vec作為詞向量嵌入,用dw=50維的向量把單詞轉(zhuǎn)換成詞向量。用一個(gè)dp=5維的隨機(jī)初始化向量把位置信息轉(zhuǎn)化成向量,卷積層使用lk=230個(gè)卷積核,每個(gè)卷積核窗口大小為l=3,池化層根據(jù)兩個(gè)實(shí)體的位置采用分段取最大值。
使用Adam作為優(yōu)化算法,權(quán)值衰減(L2正則化)設(shè)置為w=0.000 2,學(xué)習(xí)率為lr=0.001。與隨機(jī)梯度下降不同,Adam算法通過(guò)計(jì)算梯度的一階矩估計(jì)和二階矩估計(jì)改變學(xué)習(xí)率,能更快收斂,也適用于解決高噪聲和稀疏梯度的問(wèn)題。文中模型每一批的數(shù)據(jù)量為50個(gè)包,訓(xùn)練輪數(shù)為20輪,Dropout參數(shù)為0.5,開(kāi)發(fā)平臺(tái)使用python3.6+torch0.4,使用英偉達(dá)Tesla P4顯卡進(jìn)行訓(xùn)練。
采用準(zhǔn)確率-召回率曲線(P-R曲線)評(píng)估模型的性能。圖3是文中模型在添加TransE方法前后的比較,作為對(duì)比的“Ensemble”算法來(lái)自Jat等[9]發(fā)布的數(shù)據(jù)??梢钥闯觯挥凶⒁饬C(jī)制的算法(ATT)和添加TransE方法的注意力機(jī)制算法(ATT+TransE)都要優(yōu)于“Ensemble”算法。而添加了TransE方法的注意力機(jī)制算法比單獨(dú)使用注意力機(jī)制的算法性能上提高了1%。
圖4是文中模型性能與Jat等[9]和Zeng等[29]的模型性能比較的結(jié)果。其中作為對(duì)比的PCNN,EA,WA,Ensemble模型的準(zhǔn)確率-召回率曲線(P-R曲線)數(shù)據(jù)均來(lái)自公開(kāi)發(fā)表的文章。從圖中可以看出,PCNN算法與EA算法有相近的性能,都要優(yōu)于BGWA算法,集成了PCNN,EA,BGWA的Ensemble算法優(yōu)于上述三種算法。該模型在總體性能上超過(guò)了上述幾種方法,平均準(zhǔn)確率(曲線下的面積)達(dá)到0.9。這表明對(duì)實(shí)體信息的充分利用以及結(jié)合短語(yǔ)級(jí)的注意力機(jī)制能顯著提高算法性能。短語(yǔ)級(jí)的注意力機(jī)制能夠有效捕捉關(guān)鍵短語(yǔ)的特征,同時(shí)使用卷積神經(jīng)網(wǎng)絡(luò)提取實(shí)體短語(yǔ)的深度特征也有助于注意力機(jī)制定位關(guān)鍵短語(yǔ)。
圖3 添加TransE方法的注意力機(jī)制和只添加注意力機(jī)制的模型比較
圖4 短語(yǔ)級(jí)注意力機(jī)制與其他模型的性能比較
文中提出了引入實(shí)體信息的短語(yǔ)級(jí)注意力機(jī)制的關(guān)系抽取模型。結(jié)果表明使用短語(yǔ)級(jí)的注意力機(jī)制有助于更好地獲取實(shí)體關(guān)系信息。同時(shí),對(duì)實(shí)體短語(yǔ)采用卷積神經(jīng)網(wǎng)絡(luò)獲取深度信息使得實(shí)體信息利用得更充分,利用實(shí)體短語(yǔ)能更好地表達(dá)TransE模型。標(biāo)簽平滑方法的使用減少了遠(yuǎn)程監(jiān)督數(shù)據(jù)集中錯(cuò)誤標(biāo)簽帶來(lái)的不利影響。