李成奇,雷海衛(wèi),李 帆,呼文秀
(中北大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山西 太原 030051)
實(shí)體關(guān)系抽取是信息抽取的核心任務(wù)之一[1],其目的是從結(jié)構(gòu)化和非結(jié)構(gòu)化的文本中抽取所包含的關(guān)系[2]并以三元組<實(shí)體,關(guān)系,實(shí)體>的形式表現(xiàn)出來。在專利領(lǐng)域,實(shí)體之間的關(guān)系非常復(fù)雜,隨著專利數(shù)量的快速增長,單純依靠人工進(jìn)行專利查閱,很難及時(shí),快速獲取專利中的創(chuàng)新知識資源[3],因此,從更細(xì)粒度的方面對專利數(shù)據(jù)進(jìn)行語義分析可以為更多的下游任務(wù)提供數(shù)據(jù)支持。如應(yīng)用于專利分析、知識圖譜構(gòu)建、專利侵權(quán)檢測等領(lǐng)域。
本文采用專利摘要作為目標(biāo)抽取文本,與現(xiàn)有中文數(shù)據(jù)集DUIE[4]相比,專利領(lǐng)域的目標(biāo)文本長度更長,實(shí)體關(guān)系更加復(fù)雜,更長的文本意味著關(guān)系的復(fù)雜化和實(shí)體的反復(fù),進(jìn)而帶來了實(shí)體重疊[5]問題。導(dǎo)致實(shí)體、關(guān)系抽取變得更加困難。針對以上問題本文根據(jù)專利文本特點(diǎn)在PRGC[6](potential relation and global correspondence based joint relational triple extraction)網(wǎng)絡(luò)的基礎(chǔ)上作出了改進(jìn),并在PERD數(shù)據(jù)集上取得了良好的實(shí)體關(guān)系抽取結(jié)果,相比基線模型PRGC,本文模型在F1值上提升了12.64個(gè)百分點(diǎn)。
本文主要貢獻(xiàn)如下:
(1)標(biāo)注了一個(gè)專利領(lǐng)域?qū)嶓w關(guān)系抽取數(shù)據(jù)集PERD;
(2)提出了最近對尋址實(shí)體位置的方法;
(3)針對實(shí)體對齊存在信息損失,推理速度慢的問題,使用注意力機(jī)制改進(jìn)了實(shí)體對齊的方法;
(4)改進(jìn)了實(shí)體抽取方法,引入了文本主客體表征向量,提出了輔助抽取器模塊,提高了實(shí)體關(guān)系抽取準(zhǔn)確性。
流水線模式下的實(shí)體關(guān)系抽取主要包含兩個(gè)任務(wù):任務(wù)一是命名實(shí)體識別[7],即首先識別出文本中所有的實(shí)體;任務(wù)二是關(guān)系分類,即預(yù)測識別出的實(shí)體之間是否存在已經(jīng)定義好的某種關(guān)系。流水線方法雖然簡單靈活,但是忽略了任務(wù)間的聯(lián)系,導(dǎo)致誤差信息累計(jì)傳播[7],造成結(jié)果的不可逆性。
Sun等[8]提出一種可學(xué)習(xí)的語法傳輸注意力圖卷積網(wǎng)絡(luò)LST-AGCN(learnable syntax transport attention graph convolutional network)通過引入連接節(jié)點(diǎn)的依存關(guān)系類型將樹轉(zhuǎn)換為句法傳輸圖,進(jìn)而進(jìn)行關(guān)系提取。Chen等[9]提出一種基于MRC(machine reading comprehension)的模式分類器來識別關(guān)系模式,引入一種基于跨度的方法,在模式產(chǎn)出參數(shù)化問題的指導(dǎo)下來提取實(shí)體,緩解了錯(cuò)誤傳播的問題。
在中文領(lǐng)域中,彭正陽等[10]提出一種基于動態(tài)損失函數(shù)的遠(yuǎn)程監(jiān)督關(guān)系抽取方法,通過動態(tài)優(yōu)化損失函數(shù)提高關(guān)系抽取準(zhǔn)確率,李昊等[11]提出一種基于實(shí)體邊界組合的關(guān)系抽取方法,該方法通過對實(shí)體邊界兩兩組合來進(jìn)行關(guān)系抽取,使得錯(cuò)誤擴(kuò)散的問題有一定程度的緩解。
Joint聯(lián)合模型采取端到端的方式[12]將兩個(gè)子任務(wù)整合到一起,通過參數(shù)共享和聯(lián)合解碼的方式使得兩個(gè)任務(wù)有所交互,在一定程度上降低了誤差傳遞。
Wei等提出一個(gè)級聯(lián)框架Casrel[13],首先識別句子中所有可能的主體實(shí)體,然后對每個(gè)主體實(shí)體,應(yīng)用基于Span的標(biāo)記,基于每個(gè)關(guān)系來識別相應(yīng)的客體。Wang等[14]提出一種握手標(biāo)記策略的TP-Linker模型,通過對句子中的主語和謂語的首字符建立3種標(biāo)注標(biāo)簽,通過窮舉存在判斷的解碼實(shí)現(xiàn)對重疊關(guān)系三元組的抽取。Zheng等[6]提出一個(gè)基于潛在關(guān)系和全局對應(yīng)的聯(lián)合三元組提取框架PRGC,有效緩解了關(guān)系判斷冗余,抽取泛化能力差和主客體對齊效率低的問題。Shang等[15]提出一種將聯(lián)合提取任務(wù)轉(zhuǎn)換為細(xì)粒度三元分類問題的聯(lián)合模型OneRel,有效緩解了級聯(lián)錯(cuò)誤和冗余信息的問題。
在中文領(lǐng)域中,葛君偉等[16]提出一種基于字詞混合的聯(lián)合抽取方法,對于分詞的邊界問題,在詞嵌入的基礎(chǔ)上,結(jié)合字向量增加位置信息來保證字與字之間的正確順序。李代祎等[17]提出一種面向中文的實(shí)體關(guān)系聯(lián)合抽取方法,將關(guān)系建模為頭實(shí)體映射到句子中尾實(shí)體的函數(shù)。
本文提出的最近對尋址的實(shí)體關(guān)系抽取模型如圖1所示主要包含:詞嵌入模塊;關(guān)聯(lián)性矩陣模塊;實(shí)體關(guān)系抽取模塊;輔助抽取器模塊。左虛線框表示詞嵌入與關(guān)聯(lián)性矩陣模塊,右虛線框表示實(shí)體關(guān)系抽取和輔助抽取器模塊。
圖1 模型結(jié)構(gòu)設(shè)計(jì)
圖2將圖1右虛線框中實(shí)體關(guān)系抽取和輔助抽取器模塊的具體實(shí)現(xiàn)細(xì)節(jié)進(jìn)一步說明,同時(shí)重新選取了部分專利句“消毒裝置包括箱體,位于箱體的底部有氣缸”作為說明對象。
圖2 實(shí)體抽取模型
圖2中模型訓(xùn)練階段分別獲取到關(guān)系向量、文本句向量、主客體表征向量,三者向量拼接后在實(shí)體關(guān)系抽取模塊中作為輸入向量,直接進(jìn)行線性層分類預(yù)測主客體,在輔助抽取器模塊之中,主客體表征向量通過BILSTM[18]層,線性層和CRF層[19]用來約束實(shí)體預(yù)測的準(zhǔn)確性,該模塊不直接用于實(shí)體關(guān)系的抽取。
2.2.1 主客體位置查詢
本文提出最近對尋址方法來獲取實(shí)體位置信息,在輸入文本中,確定每對主客體所有位置下標(biāo),計(jì)算兩者之間絕對距離,當(dāng)距離最小時(shí)取得實(shí)體位置下標(biāo)。不同于PRGC模型,其查詢實(shí)體首次出現(xiàn)的首字位置下標(biāo),本文認(rèn)為獲取首字位置下標(biāo)并不能很好的體現(xiàn)主客體間的聯(lián)系,還會對模型產(chǎn)生偏差影響。
如圖3所示,上方箭頭表示傳統(tǒng)獲取實(shí)體位置下標(biāo)方法,下方箭頭表示本文方法。與圖2采用相同的專利句,且設(shè)其包含三元組<箱體,設(shè)置有,氣缸>,若文本下標(biāo)從1開始,傳統(tǒng)方法得到的實(shí)體位置下標(biāo)對為(7,18),最近對尋址方法得到的實(shí)體位置下標(biāo)對為(12,18),由分析可知,本文方法在獲取實(shí)體位置下標(biāo)時(shí)更具優(yōu)勢,BERT[20]采用動態(tài)編碼,其根據(jù)上下文的意思來決定當(dāng)前詞的編碼,位置相近的詞之間會互相產(chǎn)生較大的權(quán)重,所以本文方法更契合BERT編碼思想,主客體聯(lián)系更密切,而傳統(tǒng)方法在一定程度上會造成偏差。
圖3 主客體位置下標(biāo)查詢
2.2.2 向量編碼
輸入文本s={w1,w2,w3…wn}, 其中wi∈sn×1代表文本單字,首先對文本進(jìn)行BIO標(biāo)記[21],主體首字使用B-H標(biāo)記其余使用I-H標(biāo)記,客體首字使用B-T標(biāo)記其余使用I-T標(biāo)記。本文使用BERT作為文本向量編碼器,對于輸入文本s, 向量化過程如式(1)所示
H(s)={h1,h2,h3…h(huán)n|hi∈Rd×1}
(1)
其中,n是token的數(shù)量,hi是BERT編碼后字向量,d是嵌入維度,R是關(guān)系集,選擇BERT模型是因?yàn)槠洳捎肨ransformer[22]的Encoder模塊進(jìn)行疊加,所以在句子編碼時(shí)自動引入了注意力機(jī)制,動態(tài)編碼的機(jī)制使得文本中相同實(shí)體擁有不同的編碼向量,在做句子的特征抽取時(shí),其更加擅長捕捉詞語之間的內(nèi)部相關(guān)性。
關(guān)聯(lián)性矩陣模塊的主要用途是產(chǎn)生字符向量之間的聯(lián)系。具體建模情況如圖4所示,實(shí)體位置下標(biāo)在關(guān)聯(lián)性矩陣中的應(yīng)用本文將分3種情況討論。
圖4 關(guān)聯(lián)性矩陣
(1)實(shí)體首字標(biāo)記法
傳統(tǒng)方法查詢到實(shí)體首字下標(biāo)后建立關(guān)聯(lián)性矩陣,圖4中上方虛線框左上角標(biāo)注的1表示實(shí)體首字間存在聯(lián)系,該方法的問題是只關(guān)注了實(shí)體間部分聯(lián)系,除非該實(shí)體是單字,否則這樣做會損失文字信息,對模型結(jié)果產(chǎn)生不利的影響。
(2)實(shí)體首詞標(biāo)記法
圖4中上方虛線框標(biāo)注為1的方陣,考慮到了實(shí)體間所有文字信息交互,但其獲取的是實(shí)體首字下標(biāo)位置,雖然實(shí)體名稱相同,但因?yàn)槲恢玫钠羁赡軐?dǎo)致在學(xué)習(xí)迭代的過程中機(jī)器學(xué)到錯(cuò)誤的信息,尋找實(shí)體的跨度太大在一定程度上造成理解偏差。
(3)最近對尋址標(biāo)記法
圖4中下方虛線框標(biāo)注為1的方陣,考慮到了實(shí)體間所有信息交互,又考慮到了實(shí)體真實(shí)的位置信息,因?yàn)榇嬖跇O少情況下的單字實(shí)體,實(shí)體間的聯(lián)系應(yīng)該考慮到實(shí)體中每個(gè)字的交互性,這就類似于Transformer中的自注意力機(jī)制[23],同理BERT編碼時(shí)也不僅僅是考慮單個(gè)字的情況,動態(tài)的編碼規(guī)則使得BERT能夠考慮一整個(gè)句子中的所有字之間的聯(lián)系,從而能夠發(fā)現(xiàn)字與字,詞與詞之間的內(nèi)部聯(lián)系,進(jìn)而使得相同的詞在不同位置、不同的語境中編碼為不同的向量,受此啟發(fā)本文提出了此種主客體關(guān)聯(lián)性矩陣建模方法,相比PRGC網(wǎng)絡(luò)模型本文方法更具嚴(yán)謹(jǐn)性,也更具有科學(xué)性,符合BERT編碼的思想。
驗(yàn)證階段會在建模關(guān)聯(lián)性矩陣的基礎(chǔ)上來預(yù)測矩陣中1出現(xiàn)的位置,為此設(shè)定一個(gè)實(shí)體閾值α, 當(dāng)預(yù)測值大于閾值時(shí),認(rèn)定位置信息預(yù)測正確。
本文采用自注意力機(jī)制建模關(guān)聯(lián)性矩陣,對于給定的句子s通過向量BERT編碼后得到句向量H如式(1)所示,句向量H經(jīng)過線性變換,得到Q,K,V這3個(gè)向量如式(2)~式(4)所示,使用自注意力機(jī)制的好處是在建模矩陣的過程時(shí),相比向量間的拼接擴(kuò)展,其建模速度更快,占用內(nèi)存空間更小,運(yùn)算速度更快,同時(shí)考慮到了信息交互的問題。
在關(guān)聯(lián)性矩陣中文本間得關(guān)聯(lián)性按照式(5)的計(jì)算方法進(jìn)行
Q=WQHS
(2)
K=WKHS
(3)
V=WVHS
(4)
(5)
其中,softmax代表激活函數(shù)[24],dk代表字嵌入維度,T表示轉(zhuǎn)置,WQ,WK,WV代表可訓(xùn)練的超參數(shù)。
2.4.1 關(guān)系抽取
訓(xùn)練階段將BERT輸出的句向量經(jīng)過平均池化[25]如式(6)所示,再進(jìn)行線性分類如式(7)所示,將輸出維度映射到關(guān)系數(shù)上,得到的結(jié)果再次經(jīng)過sigmoid激活函數(shù),將分類結(jié)果值映射到[0,1]區(qū)間,如式(8)所示,驗(yàn)證階段選取分類結(jié)果中值大于設(shè)定關(guān)系閾值β的結(jié)果作為可能存在的關(guān)系,上述過程類似多標(biāo)簽的二分類任務(wù),在所有關(guān)系中預(yù)測可能存在的關(guān)系,這樣做大大減少了關(guān)系冗余的可能性
outputsavg=Avgpool(outputs)∈Rd×1
(6)
outputs=Linear(outputsavg)∈Rd×1
(7)
outputs=σ(Wr*outputs+br)
(8)
Prel(s)={r1,r2,r3,…rn|ri∈Rd×1}
(9)
其中,Avgpool表示平均池化操作,Linear表示線性層分類,σ表示sigmoid激活函數(shù),Prel表示大于閾值的關(guān)系集,Wr,br表示可訓(xùn)練的超參數(shù)Wr∈Rd×1。
2.4.2 實(shí)體抽取
實(shí)體抽取分為使用和不使用主客體表征向量抽取實(shí)體,對于不使用主客體表征向量方法,將輸入文本s和預(yù)測的關(guān)系ri, 分別預(yù)測文本中的主客體,如式(10)、式(11)所示
Presub=ReLU(Linear(Wsub(s⊕ri|ri∈Rd×1)+bsub))
(10)
Preobj=ReLU(Linear(Wobj(s⊕ri|ri∈Rd×1)+bobj))
(11)
其中,?表示輸入文本向量與預(yù)測的關(guān)系向量進(jìn)行拼接,Wsub,Wobj∈Rd×3,bsub,bobj表示可訓(xùn)練的超參數(shù)。
對于使用主客體表征向量方法,首先分別獲取主客體表征向量,通過句向量?主體向量?關(guān)系向量來預(yù)測客體,通過句向量?客體向量?關(guān)系向量來預(yù)測主體,如式(12)、式(13)所示
Presub=ReLU(Linear(Wsub(s⊕ri⊕sub|ri∈Rd×1,
sub∈nd×1)+bsub))
(12)
Preobj=ReLU(Linear(Wobj(s⊕ri⊕obj|ri∈Rd×1,
obj∈nd×1)+bobj))
(13)
其中,sub,obj代表真實(shí)的主客體向量,ReLU表示激活函數(shù)。
本模塊不直接作用于實(shí)體的預(yù)測,僅對實(shí)體預(yù)測起輔助約束作用。對于輸入文本s, 提取文本中所有主體、客體向量分別進(jìn)行拼接,之后將主客體表征向量分別經(jīng)過BILSTM層與Linear層和Dropout層[26],再傳入CRF層計(jì)算主客體表征向量與標(biāo)簽的極大似然函數(shù)值,近似為二者的損失,其公式分別如式(14)、式(15)所示,因?yàn)樵缙趯ξ谋具M(jìn)行了序列標(biāo)注所以采取CRF層是為結(jié)果序列增加標(biāo)簽先后順序的約束。
該模塊不僅增加了模型標(biāo)簽的約束,如:B-xx必須出現(xiàn)在I-xx之前,還從局部的角度上約束實(shí)體預(yù)測的準(zhǔn)確性,也就是說,既約束實(shí)體邊界又約束實(shí)體順序,例如:“抽風(fēng)機(jī)”是個(gè)嵌套實(shí)體,既包含實(shí)體“抽風(fēng)機(jī)”,又包含實(shí)體“風(fēng)機(jī)”,約束邊界指的是在文本中如果出現(xiàn)抽風(fēng)機(jī),則必須約束對抽風(fēng)機(jī)實(shí)體的邊界,就是在抽風(fēng)機(jī)對應(yīng)的位置標(biāo)記不為O,約束實(shí)體順序指的是,預(yù)測出抽風(fēng)機(jī)之后抽風(fēng)機(jī)的標(biāo)簽應(yīng)該是B-xx,I-xx,I-xx而不是B-xx,B-xx,I-xx,也就是說當(dāng)“風(fēng)機(jī)”實(shí)體前出現(xiàn)“抽”的字樣時(shí),CRF層便約束此預(yù)測“風(fēng)”的標(biāo)簽不為B-xx,這在一定程度上有助于解決實(shí)體嵌套問題
sub,obj=Dropout(Linear(BiLstm(extra(s))))
(14)
sub,obj=CRF(sub|obj)
(15)
其中,extra表示抽取表征向量,sub,obj代表輸出向量。
模型總損失由4部分損失組成,首先是關(guān)聯(lián)性矩陣的損失,預(yù)測的矩陣M′∈Rd×1與真實(shí)的標(biāo)注矩陣M∈Rd×1做交叉熵?fù)p失[27]如式(16)所示,其次是關(guān)系預(yù)測的損失,對于給定句子s中預(yù)測的關(guān)系ri∈Rd×1和真實(shí)含有的關(guān)系集R做交叉熵?fù)p失如式(17)所示,再其次是實(shí)體預(yù)測的損失如式(18)、式(19)所示,實(shí)體預(yù)測時(shí)我們同時(shí)預(yù)測了主體和客體,對于給定的句子s,在可能是主客體出現(xiàn)的位置做三分類標(biāo)記也就是開始提到的 {B,I,O} 標(biāo)記,預(yù)測的序列與真實(shí)的序列做交叉熵?fù)p失如式(18)、式(19)所示,最后是輔助抽取器模塊中的CRF損失,如式(20)所示
(16)
(17)
(18)
(19)
(20)
式(16)中Tisub,jobj表示真實(shí)標(biāo)簽,Pisub,jobj表示預(yù)測標(biāo)簽,式(17)~式(19)中Ti表示真實(shí)標(biāo)簽,Prel,Psub,Pobj分別表示預(yù)測的關(guān)系、主體和客體,式(20)中esi表示的是第i條路徑的得分,Xiyi表示的是第i個(gè)單詞被yi標(biāo)記的分?jǐn)?shù),Tyiyi+1表示的是從標(biāo)簽yi轉(zhuǎn)移到標(biāo)簽yi+1的得分。
針對專利領(lǐng)域沒有公開的實(shí)體關(guān)系抽取數(shù)據(jù)集的問題,通過分析專利文本的結(jié)構(gòu)與特點(diǎn)及參考了公開英文數(shù)據(jù)集NYT[28]的標(biāo)注樣例形式后,通過doccano軟件協(xié)助,在中文專利領(lǐng)域人工標(biāo)注了一個(gè)實(shí)體關(guān)系抽取數(shù)據(jù)集(PERD),其文本語料組成主要集中于中文專利下的一個(gè)小類A61L,數(shù)據(jù)集具體參數(shù)見表1且專利數(shù)據(jù)標(biāo)注樣例見表2。
表1 數(shù)據(jù)集參數(shù)
表2 專利實(shí)體關(guān)系樣例
表2中選取專利句樣例“一種消毒包,其中消毒包包括:包體,包體包括可彎折的圍板和兩個(gè)側(cè)板,兩側(cè)板設(shè)于圍板的相對兩側(cè),包體具有圍合狀態(tài)和展開狀態(tài),在圍合狀態(tài),圍板的相對兩側(cè)分別與連側(cè)板的側(cè)邊連接,以圍合形成消毒腔;在所展開狀態(tài),圍板的兩相對側(cè)邊至少部分分別與兩側(cè)板的部分側(cè)邊連接;殺菌組件,殺菌組件設(shè)于消毒腔”。
上述樣例共標(biāo)注了7組實(shí)體關(guān)系三元組,其包含4種關(guān)系模式,在專利數(shù)據(jù)集PERD中,一共存在8種關(guān)系模式分別是“主附件”、“安裝連接有”、“設(shè)置有”、“連通”、“同級零件”、“位于”、“作用于”和“組成構(gòu)成”,上述樣例僅展示了部分關(guān)系模式。
實(shí)驗(yàn)參數(shù)具體見表3,其中訓(xùn)練批次的選取是顯存滿負(fù)荷的狀態(tài)下所能采用的最大值,編碼階段采用BERT預(yù)訓(xùn)練模型來編碼文本向量,在訓(xùn)練階段設(shè)置Epoch數(shù)為200,并采取提前停止策略[29],如果模型在連續(xù)10個(gè)epoch中F1值沒有提升,則訓(xùn)練結(jié)束。
表3 實(shí)驗(yàn)參數(shù)
在2.3節(jié)、2.4節(jié)中提到實(shí)體閾值α和關(guān)系閾值β, 這兩個(gè)閾值的選取也決定了評價(jià)指標(biāo)的高低,表4實(shí)驗(yàn)結(jié)果均是在二者均取最優(yōu)的情況下得到的實(shí)驗(yàn)結(jié)果,為了選取最優(yōu)的α,β值,本文通過控制變量法將實(shí)體閾值或關(guān)系閾值分別固定為0.1,增大另一個(gè)閾值,每次增量為0.1,得到的兩者閾值對實(shí)驗(yàn)結(jié)果的影響分別如圖5、圖6所示。
表4 實(shí)驗(yàn)結(jié)果
圖5 實(shí)體閾值
圖6 關(guān)系閾值
如圖5所示,在關(guān)系閾值不變的情況下,F(xiàn)1值隨著實(shí)體閾值的增大呈現(xiàn)出先增加后減小的趨勢,當(dāng)α取0.5時(shí)F1值取得最好結(jié)果72.04%,對應(yīng)的精確率73.87%,召回率70.3%。隨著閾值的繼續(xù)增加,精確率的繼續(xù)提升,召回率大幅下降,使得整體F1值下降,當(dāng)α值增加時(shí),模型對于實(shí)體邊界的判斷標(biāo)準(zhǔn)不斷變得嚴(yán)格,所以精確率呈現(xiàn)上升的趨勢,α值越大精確率越高,但是也因此導(dǎo)致更少的實(shí)體邊界被預(yù)測。
如圖6所示,在實(shí)體閾值不變的情況下,隨著關(guān)系閾值的增大,模型F1值也呈現(xiàn)出先上升后下降的趨勢,當(dāng)β取0.3時(shí)F1值取得最好結(jié)果70.34%,對應(yīng)的精確率68.03%,召回率72.82%,因?yàn)棣轮殿A(yù)測的是一條文本中存在的潛在關(guān)系,所以,當(dāng)閾值過低時(shí)會將所有的關(guān)系都當(dāng)做潛在關(guān)系,這樣做就失去了預(yù)測的意義,當(dāng)β值過高時(shí),模型會預(yù)測不全一條文本中存在的真實(shí)關(guān)系,如一條文本中包含4種關(guān)系的三元組,但是只預(yù)測出了兩種關(guān)系,這就必然導(dǎo)致該文本中不屬于這兩種關(guān)系的三元組被強(qiáng)勢分配為預(yù)測的關(guān)系,所以導(dǎo)致模型性能的下降。
根據(jù)上述實(shí)驗(yàn),選取實(shí)體閾值0.5和關(guān)系閾值0.3,實(shí)驗(yàn)結(jié)果見表4,NPAM模型精確率為75.62%,召回率為70.07%,F(xiàn)1值為72.74%,在兩者閾值取最優(yōu)時(shí)模型F1值比實(shí)體閾值取最優(yōu)時(shí)提高了0.7個(gè)百分點(diǎn),比關(guān)系閾值取最優(yōu)時(shí)提高了2.4個(gè)百分點(diǎn),這也說明了閾值選取的合理性和實(shí)驗(yàn)結(jié)果的準(zhǔn)確性。
本文采用精確率P(Precision)、召回率R(Recall)、F1值(F1-Score)作為評價(jià)指標(biāo),公式定義如式(21)~式(23)所示
(21)
(22)
(23)
其中,TP表示實(shí)際為正樣本數(shù)量且被正確預(yù)測為正樣本的數(shù)量,F(xiàn)P表示實(shí)際為負(fù)樣本但被錯(cuò)誤預(yù)測為正樣本的數(shù)量,F(xiàn)N表示實(shí)際為正樣本但被預(yù)測為負(fù)樣本的數(shù)量。
在實(shí)體關(guān)系抽取領(lǐng)域中,一般認(rèn)定模型預(yù)測出的主客體及其順序同主客體之間的關(guān)系都正確的時(shí)候,那么抽取出的這一條三元組才算正確。
為了評估本文模型性能,選取了4組已發(fā)表方法作為參照實(shí)驗(yàn)。
(1)RIFRE模型:Zhao等[30]利用異構(gòu)圖來表示實(shí)體與關(guān)系之間的聯(lián)系,通過圖神經(jīng)網(wǎng)絡(luò)對它們進(jìn)行聯(lián)合建模;
(2)CasRel模型:Wei等[13]提出層疊式指針標(biāo)注方法,將關(guān)系建模為主體到客體的函數(shù),該模型對不同的關(guān)系重疊模式有良好的效果;
(3)TP-Linker模型:Wang等[14]將聯(lián)合提取歸結(jié)為標(biāo)記對鏈接問題,并引入一種新的握手方案,解決了暴露偏差和誤差累積問題。
(4)PRGC模型:Zheng等[6]將實(shí)體關(guān)系抽取轉(zhuǎn)化為3個(gè)子任務(wù),關(guān)系判斷、實(shí)體抽取、主客體對齊,解決了三元組實(shí)體重疊問題。
相比模型PRGC,本文模型在F1值上提升了12.64個(gè)百分點(diǎn),取得良好競爭力的原因是該模型對于解決實(shí)體跨度和反復(fù)的情況作出了更多的貢獻(xiàn)。
RIFRE也取得較好成績,說明基于圖的模型能夠更好地描述實(shí)體間的聯(lián)系,在一定程度上緩解了長距離實(shí)體信息傳遞能力不足的問題,casrel模型使用流水線方式提取實(shí)體,誤差的傳遞使得結(jié)構(gòu)相較于聯(lián)合提取模型表現(xiàn)不足,TP-Linker模型實(shí)體、關(guān)系分開標(biāo)注策略使二者間交互不深,且標(biāo)簽稀疏,針對較長文本,稀疏的標(biāo)簽矩陣使得模型得到更少的信息,PRGC模型使用部分實(shí)體信息來體現(xiàn)實(shí)體聯(lián)系,信息損失及位置信息的差異導(dǎo)致模型未能產(chǎn)生更好的結(jié)果,而本文模型在更好關(guān)注實(shí)體間聯(lián)系及位置信息后,模型表現(xiàn)出良好的結(jié)果。
為了探究本文提出的最近對尋址位置下標(biāo)的方法對網(wǎng)絡(luò)模型的影響,PRGC*使用了最近對尋址位置下標(biāo)的方法替換掉原網(wǎng)絡(luò)的位置信息獲取方法,在使用本文的方法之后,相比原網(wǎng)絡(luò)模型精確率、召回率和F1值分別提升了4.29、7.99和6.25個(gè)百分點(diǎn),這表明在一定程度上本文提出的最近對尋址位置下標(biāo)方法能夠解決在文本中實(shí)體反復(fù)出現(xiàn),因?yàn)閷?shí)體跨度較大導(dǎo)致的主客體匹配不準(zhǔn)的問題。
本文進(jìn)行消融實(shí)驗(yàn)來說明模型中不同模塊對于實(shí)驗(yàn)結(jié)果的影響,具體結(jié)果見表5。
表5 消融實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)1代表去掉了輔助抽取器模塊,其精確率、召回率和F1值分別下降了2.88、4.42和3.85個(gè)百分點(diǎn),實(shí)驗(yàn)2代表不使用主客體表征向量來進(jìn)行實(shí)體抽取,其精確率、召回率和F1值分別下降了3.85、4.90和4.21個(gè)百分點(diǎn),輔助抽取器模塊與不使用主客體表征向量的抽取方法,對模型的影響力主要表現(xiàn)在召回率上,二者對模型均會產(chǎn)生4個(gè)百分點(diǎn)以上的影響力,究其原因,因?yàn)橐阎畔⒌臏p少導(dǎo)致模型獲取的語義信息僅來源于句向量,使得實(shí)體的權(quán)重變小模型對其的關(guān)注度變小,從而引起預(yù)測數(shù)量的減少,召回率的下降。
實(shí)驗(yàn)3代表不使用注意力機(jī)制進(jìn)行關(guān)聯(lián)性矩陣建模,其精確率上升了1.35個(gè)百分點(diǎn),召回率下降了1.67個(gè)百分點(diǎn),F(xiàn)1值下降了0.31個(gè)百分點(diǎn)。不使用注意力機(jī)制建模矩陣對模型影響較小其在準(zhǔn)確率上反而有所提高,本文認(rèn)為是原網(wǎng)絡(luò)字向量間的拼接融合包含的信息比注意力打分機(jī)制更多,但使用注意力打分機(jī)制,在不使F1值下降的情況下明顯減少了模型顯存占用與模型推理時(shí)間,因?yàn)橄蛄块g的拼接導(dǎo)致向量維度變大,字?jǐn)?shù)更長的文本建模矩陣時(shí)所占用空間更多,推理速度也相應(yīng)變慢。
從數(shù)值上分析,最近對尋址位置下標(biāo)方法對網(wǎng)絡(luò)模型影響最大,在不使用最近對尋址的前提下又分為兩種情況:①使用首字模型;②使用全詞模型的方法去建模關(guān)聯(lián)性矩陣,實(shí)驗(yàn)結(jié)果分別如實(shí)驗(yàn)4和實(shí)驗(yàn)5所示,使用首字模型時(shí)F1值下降了47.82個(gè)百分點(diǎn),使用全詞模型時(shí)F1值下降了5.62個(gè)百分點(diǎn),分析原因,針對文本實(shí)體反復(fù)情況,首字模型會失去大部分文字信息,造成信息偏差,全詞模型考慮了所有文字信息所以結(jié)果表現(xiàn)更好,但是基線PRGC模型使用首字模型并未出現(xiàn)如此大的實(shí)驗(yàn)差距,是因?yàn)檫@與關(guān)聯(lián)性矩陣的建模方法也有一定的關(guān)系。
本文提出了一種NPAM實(shí)體關(guān)系抽取模型,相比基線模型在評價(jià)指標(biāo)上的提升,這得益于我們針對性的根據(jù)中文專利數(shù)據(jù)集的特點(diǎn)做出了對PRGC模型的改進(jìn)與創(chuàng)新,使用最近對尋址和融合注意力機(jī)制的矩陣建模等方法提升了模型準(zhǔn)確抽取三元組的能力,實(shí)驗(yàn)結(jié)果驗(yàn)證了我們工作的有效性,在專利領(lǐng)域成功實(shí)現(xiàn)了實(shí)體關(guān)系的抽取任務(wù)。
未來將繼續(xù)探索中文實(shí)體關(guān)系抽取的方法,并在其它領(lǐng)域的實(shí)體關(guān)系抽取任務(wù)中檢驗(yàn)?zāi)P偷姆夯芰汪敯粜浴?/p>