李昊,陳艷平*,唐瑞雪,黃瑞章,秦永彬,王國(guó)蓉,譚曦
基于實(shí)體邊界組合的關(guān)系抽取方法
李昊1,2,陳艷平1,2*,唐瑞雪1,2,黃瑞章1,2,秦永彬1,2,王國(guó)蓉1,2,譚曦3
(1.貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴陽(yáng) 550025; 2.公共大數(shù)據(jù)國(guó)家重點(diǎn)實(shí)驗(yàn)室(貴州大學(xué)),貴陽(yáng) 550025; 3.貴州青朵科技有限公司,貴陽(yáng) 550025)(*通信作者電子郵箱ypench@gmail.com)
關(guān)系抽取旨在從文本中抽取實(shí)體與實(shí)體之間的語(yǔ)義關(guān)系。作為關(guān)系抽取的上層任務(wù),實(shí)體識(shí)別所產(chǎn)生的錯(cuò)誤將擴(kuò)散至關(guān)系抽取,從而導(dǎo)致級(jí)聯(lián)錯(cuò)誤。與實(shí)體相比,實(shí)體邊界粒度小且具有二義性,更易識(shí)別。因此,提出一種基于實(shí)體邊界組合的關(guān)系抽取方法,通過(guò)跳過(guò)實(shí)體,對(duì)實(shí)體邊界兩兩組合來(lái)進(jìn)行關(guān)系抽取。由于邊界性能高于實(shí)體性能,所以錯(cuò)誤擴(kuò)散的問(wèn)題得到了緩解;并且通過(guò)特征組合的方法將實(shí)體類(lèi)型特征和位置特征加入模型中,性能得到了進(jìn)一步提高,再次減輕了錯(cuò)誤擴(kuò)散帶來(lái)的影響。實(shí)驗(yàn)結(jié)果表明,所提方法在ACE 2005英文數(shù)據(jù)集的宏平均F1值優(yōu)于表格-序列編碼器方法8.61個(gè)百分點(diǎn)。
關(guān)系抽??;實(shí)體識(shí)別;級(jí)聯(lián)錯(cuò)誤;實(shí)體邊界組合;特征組合
在自然語(yǔ)言處理中,關(guān)系抽取扮演著一個(gè)十分重要的角色,其目的是從句子中識(shí)別出兩個(gè)不同的實(shí)體之間的關(guān)系。例如,“……朱婉清目前是從洛杉磯跑到東岸的紐約……”這個(gè)句子中,“朱婉清”和“東岸的紐約”分別為該句中不同的兩個(gè)實(shí)體。實(shí)體關(guān)系抽取任務(wù)就是識(shí)別出“朱婉清”和“東岸的紐約”兩個(gè)實(shí)體間存在的語(yǔ)義關(guān)系,即“地理位置關(guān)系(PHYS)”。
在實(shí)際應(yīng)用中,關(guān)系抽取具有十分重要的意義。例如:蛋白質(zhì)關(guān)系抽取研究對(duì)于生命科學(xué)各領(lǐng)域的研究具有廣泛的應(yīng)用價(jià)值,從生物醫(yī)學(xué)文獻(xiàn)中抽取蛋白質(zhì)(基因)相互作用關(guān)系對(duì)蛋白質(zhì)知識(shí)網(wǎng)絡(luò)的建立、蛋白質(zhì)關(guān)系的預(yù)測(cè)、新藥的研制等均具有重要的意義。除此之外,關(guān)系抽取對(duì)于知識(shí)圖譜[1]、問(wèn)答系統(tǒng)[2]的應(yīng)用等也具有十分重要的意義。
目前來(lái)說(shuō),傳統(tǒng)的方法是基于管道方式進(jìn)行命名實(shí)體識(shí)別和實(shí)體關(guān)系抽取,該方式將命名實(shí)體識(shí)別和實(shí)體關(guān)系抽取看成兩個(gè)獨(dú)立的子任務(wù),遵循著先進(jìn)行命名實(shí)體識(shí)別,然后進(jìn)行實(shí)體關(guān)系抽取的流程。如果命名實(shí)體識(shí)別階段出現(xiàn)錯(cuò)誤,可能會(huì)導(dǎo)致錯(cuò)誤擴(kuò)散,使得實(shí)體關(guān)系抽取任務(wù)無(wú)法充分利用兩個(gè)任務(wù)之間的依存信息,最后影響實(shí)體關(guān)系抽取的性能。
經(jīng)研究發(fā)現(xiàn),Chen等[3]提出了一種基于深度邊界組合的嵌套命名實(shí)體識(shí)別模型,它在ACE 2005中文數(shù)據(jù)集上識(shí)別開(kāi)始邊界和結(jié)束邊界的宏平均F1值分別達(dá)到了94.06%和94.88%,而最終的實(shí)體識(shí)別宏平均F1值則為80.12%,表明實(shí)體邊界識(shí)別的性能高于實(shí)體識(shí)別的性能,識(shí)別實(shí)體的邊界相對(duì)于直接識(shí)別實(shí)體來(lái)說(shuō)更加容易;并且邊界相對(duì)于實(shí)體粒度更小,如果接受“B-O(開(kāi)始邊界-其他)”(或“E-O(結(jié)束邊界-其他)”)編碼,不太可能造成它們之間的歧義;其次,邊界更多地依賴(lài)于局部特征,自動(dòng)識(shí)別它們將會(huì)更加容易:所以使用邊界代替實(shí)體進(jìn)行關(guān)系抽取將更有利于預(yù)測(cè)關(guān)系的類(lèi)別。
對(duì)于上文中提出的錯(cuò)誤傳播等問(wèn)題,其主要原因在于實(shí)體性能較低,導(dǎo)致了錯(cuò)誤傳播;而邊界性能較實(shí)體性能更高,可以很好地緩解錯(cuò)誤傳播的問(wèn)題,并且經(jīng)Chen等[4]提出的方法可知,通過(guò)加入特征可以幫助提升關(guān)系抽取的性能,從而進(jìn)一步緩解錯(cuò)誤。因此,本文將識(shí)別出的實(shí)體邊界和特征應(yīng)用在下一步的關(guān)系抽取中。
本文的主要工作包括:
1)提出了一種邊界組合的關(guān)系抽取方法,跳過(guò)實(shí)體直接使用實(shí)體邊界進(jìn)行關(guān)系抽??;
2)本文方法結(jié)合了Chen等[5]提出的多通道深度神經(jīng)網(wǎng)絡(luò)模型思想以及特征組合的方法以減輕錯(cuò)誤擴(kuò)散對(duì)關(guān)系抽取的影響;
3)在ACE 2005英文數(shù)據(jù)集上驗(yàn)證了該方法的宏平均F1值優(yōu)于表格-序列編碼器方法[6]。
有監(jiān)督的關(guān)系抽取方法包含了管道學(xué)習(xí)和聯(lián)合學(xué)習(xí)兩種[7],其中管道學(xué)習(xí)方法是指在先進(jìn)行實(shí)體識(shí)別,再進(jìn)行關(guān)系抽??;聯(lián)合學(xué)習(xí)方法主要是基于神經(jīng)網(wǎng)絡(luò)的端到端模型,同時(shí)完成實(shí)體的識(shí)別和實(shí)體間關(guān)系的抽取。
基于管道的方法進(jìn)行關(guān)系抽取的主要流程可以描述為:針對(duì)已經(jīng)標(biāo)注好目標(biāo)實(shí)體對(duì)的句子進(jìn)行關(guān)系抽取,最后把存在實(shí)體關(guān)系的三元組作為預(yù)測(cè)結(jié)果輸出。Hashimoto等[8]提出了一個(gè)基于句法樹(shù)的遞歸神經(jīng)網(wǎng)絡(luò);Zeng等[9]提出了一種使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)模型進(jìn)行關(guān)系抽取的方法;Wang等[10]提出的CNN架構(gòu)依賴(lài)于一種新穎的多層次注意力機(jī)制來(lái)捕獲對(duì)指定實(shí)體的注意力和指定關(guān)系的池化注意力;Li等[11]提出了一種基于低成本序列特征的雙向長(zhǎng)短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory-Recurrent Neural Network, Bi-LSTM-RNN)模型。但是,基于管道的方法存在錯(cuò)誤傳播,忽視了兩個(gè)子任務(wù)之間存在的關(guān)系,會(huì)產(chǎn)生冗余信息等問(wèn)題,影響了最終的分類(lèi)性能。因此,提高第一個(gè)子任務(wù)的準(zhǔn)確率和宏平均F1值將是減輕錯(cuò)誤傳播等問(wèn)題的重要方法。
基于聯(lián)合學(xué)習(xí)的方法能夠利用實(shí)體和關(guān)系間緊密的交互信息,同時(shí)抽取實(shí)體并分類(lèi)實(shí)體對(duì)的關(guān)系,很好地解決了管道方法所存在的問(wèn)題。Miwa等[12]首次將神經(jīng)網(wǎng)絡(luò)的方法用于聯(lián)合表示實(shí)體和關(guān)系;Li等[13]將Miwa的模型用于提取細(xì)菌和細(xì)菌位置之間存在的“Live-In”關(guān)系;Katiyar等[14]首次將深度雙向長(zhǎng)短期記憶(Bi-directional Long Short-Term Memory,Bi-LSTM)神經(jīng)網(wǎng)絡(luò)序列標(biāo)注的方法用于聯(lián)合提取觀點(diǎn)實(shí)體和IS-FROM、ISABOUT關(guān)系;之后,Katiyar等[15]在自己模型的基礎(chǔ)上,首次將注意力機(jī)制與Bi-LSTM一起用于聯(lián)合提取實(shí)體和分類(lèi)關(guān)系;Zheng等[16]提出了一種基于新的標(biāo)注策略的實(shí)體關(guān)系抽取方法;Li等[17]提出了一種增量聯(lián)合框架;Zhang等[18]提出了一種基于全局優(yōu)化的端到端關(guān)系抽取模型;Li等[19]提出了一種新的實(shí)體關(guān)系提取任務(wù)范式,將任務(wù)轉(zhuǎn)換為多輪問(wèn)答的問(wèn)題;Wang等[6]提出了一種新的表序列編碼器。聯(lián)合學(xué)習(xí)方法很好地改善了管道方法中存在的錯(cuò)誤累積傳播問(wèn)題、忽視兩個(gè)子任務(wù)間關(guān)系依賴(lài)的問(wèn)題以及冗余實(shí)體的問(wèn)題。
針對(duì)傳統(tǒng)關(guān)系抽取任務(wù)因?yàn)槊麑?shí)體識(shí)別任務(wù)階段得到的實(shí)體錯(cuò)誤率大導(dǎo)致實(shí)體關(guān)系抽取任務(wù)階段受到錯(cuò)誤擴(kuò)散影響大的問(wèn)題,本文根據(jù)關(guān)系抽取任務(wù)的特點(diǎn),利用兩實(shí)體的開(kāi)始邊界或結(jié)束邊界代替?zhèn)鹘y(tǒng)的兩實(shí)體對(duì)句子進(jìn)行切分,跳過(guò)實(shí)體直接用邊界識(shí)別關(guān)系,進(jìn)而獲得更好的實(shí)驗(yàn)性能。
本文中關(guān)系抽取分為兩個(gè)階段,分別為邊界識(shí)別階段和關(guān)系抽取階段。其中,邊界識(shí)別階段用邊界識(shí)別模型來(lái)識(shí)別實(shí)體邊界,關(guān)系抽取階段利用邊界識(shí)別模型識(shí)別出來(lái)的實(shí)體邊界通過(guò)關(guān)系抽取模型識(shí)別實(shí)體間的關(guān)系。
在邊界識(shí)別階段,本文根據(jù)Chen等[3]提出的一種基于深度邊界組合的嵌套命名實(shí)體識(shí)別模型的方法采用兩個(gè)雙向長(zhǎng)短期記憶條件隨機(jī)場(chǎng)(Bi-directional Long Short-Term Memory-Conditional Random Field,Bi-LSTM-CRF)模型分別識(shí)別實(shí)體的開(kāi)始邊界和結(jié)束邊界,它們均由字嵌入(Embedding)層、Bi-LSTM層和CRF層組成,其中邊界識(shí)別模型如圖1所示。在Embedding層中本文通過(guò)BERT(Bidirectional Encoder Representations from Transformers)預(yù)訓(xùn)練技術(shù)將每個(gè)字轉(zhuǎn)化為低維稠密向量,以此來(lái)克服淺層模型無(wú)法有效利用外部資源的缺點(diǎn);在Bi-LSTM層,為了捕獲上下文信息,本文利用了其可長(zhǎng)度依賴(lài)和避免梯度消失或爆炸的能力;最后在CRF層,本文在此獲取最大概率轉(zhuǎn)移路徑,從而得到識(shí)別出來(lái)的實(shí)體邊界以及實(shí)體類(lèi)型,例如“B-PER(開(kāi)始邊界-人名實(shí)體)”。其中Chen等[3]提出的方法主要貢獻(xiàn)在于將邊界識(shí)別以及邊界組合用于嵌套實(shí)體識(shí)別,而本文主要將邊界識(shí)別模型用于邊界識(shí)別從而進(jìn)行關(guān)系抽取,并借助在該階段得到的實(shí)體類(lèi)型特征提高關(guān)系抽取的性能。
圖1 邊界識(shí)別模型
圖2 關(guān)系抽取模型
2.2.1 實(shí)體邊界組合
2.2.2 特征組合
該部分是利用特征組合方法生成帶有句子結(jié)構(gòu)信息的復(fù)合特征。在文本中存在著許多能被應(yīng)用到關(guān)系抽取任務(wù)上的特征,但經(jīng)研究發(fā)現(xiàn),關(guān)系抽取時(shí)如果只使用某一種特征并不能起到很好的效果,Chen等[4]提出了一種集合空間模型(Set Space Model, SSM),利用語(yǔ)言特征將句子的特征分組到不同的集合中,該研究的實(shí)驗(yàn)表明特征組合對(duì)關(guān)系抽取任務(wù)是有效的。特征組合的方法通過(guò)將不同的特征相結(jié)合,使之生成呈現(xiàn)偏態(tài)分布的復(fù)合特征,會(huì)更有利于預(yù)測(cè)不同的關(guān)系類(lèi)型,因此,特征組合對(duì)關(guān)系抽取任務(wù)有著重要的作用。在邊界識(shí)別模型進(jìn)行實(shí)體邊界識(shí)別的過(guò)程中可以同時(shí)得到該實(shí)體邊界代表實(shí)體的實(shí)體類(lèi)型特征,結(jié)合實(shí)體邊界的位置可以得到位置特征。
特征對(duì)于關(guān)系抽取任務(wù)來(lái)說(shuō)十分重要,能夠使其達(dá)到更好的抽取效果。本文把在句子中不能被再分割的特征稱(chēng)為原子特征,這些原子特征就包括了實(shí)體類(lèi)型特征;而且這些原子特征可以通過(guò)與其他特征組合生成新的復(fù)合特征用于關(guān)系抽取,以提高關(guān)系抽取的性能。
基于以上分組的特征集,本文采用了兩種復(fù)合特征:
2.2.3 CNN模型
在CNN模型的卷積層中,卷積運(yùn)算表示為:
最后再由softmax層輸出預(yù)測(cè)類(lèi)別的概率分布,它可以表示為:
總的來(lái)說(shuō),本文關(guān)系抽取模型可以被表示為:
實(shí)體邊界組合方法利用命名實(shí)體識(shí)別階段識(shí)別出來(lái)的實(shí)體邊界,將一個(gè)句子中不同的兩個(gè)實(shí)體的實(shí)體開(kāi)始邊界(或結(jié)束邊界)進(jìn)行組合,再通過(guò)組合后的實(shí)體邊界將句子分成三個(gè)部分作為CNN模型的輸入。在本文的關(guān)系抽取模型中,為了有效地融合句子結(jié)構(gòu)和語(yǔ)義特征,復(fù)合特征將會(huì)被直接映射成對(duì)應(yīng)的向量表示,不會(huì)經(jīng)過(guò)卷積層和池化層,而是直接與最大池化層輸出的句子向量表示拼接,拼接后再一起輸入全連接層中。為了防止過(guò)擬合,本文將Dropout層添加到了關(guān)系抽取模型的全連接層中。在全連接層之后的softmax函數(shù)將通過(guò)關(guān)系類(lèi)型的概率分布來(lái)得到最終的關(guān)系預(yù)測(cè)結(jié)果。
實(shí)驗(yàn)的訓(xùn)練集采用語(yǔ)言數(shù)據(jù)聯(lián)盟(LDC)發(fā)布的ACE 2005語(yǔ)料庫(kù),包括ACE 2005中文數(shù)據(jù)集和ACE 2005英文數(shù)據(jù)集。該數(shù)據(jù)集對(duì)實(shí)體識(shí)別、關(guān)系抽取、事件抽取等經(jīng)典任務(wù)進(jìn)行了標(biāo)注,目標(biāo)是開(kāi)發(fā)自動(dòng)內(nèi)容提取技術(shù)。
ACE 2005數(shù)據(jù)集中包含6類(lèi)實(shí)體關(guān)系類(lèi)型:PHYS(地理位置關(guān)系)、ART(制造使用關(guān)系)、GEN-AFF(類(lèi)屬關(guān)系)、ORG-AFF(組織結(jié)構(gòu)從屬關(guān)系)、PART-WHOLE(局部整體關(guān)系)、PER-SOC(人物關(guān)系)。其中,中文數(shù)據(jù)集一共包含了633篇文檔,英文數(shù)據(jù)集一共包含了599篇文檔。
將ACE 2005中文數(shù)據(jù)集按照6∶2∶2的比例切分為訓(xùn)練集、驗(yàn)證集和測(cè)試集;將ACE 2005英文數(shù)據(jù)集根據(jù)Miwa等[12]文章中的設(shè)置,按照351∶80∶80的比例切分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。其中訓(xùn)練集由中文數(shù)據(jù)集和英文數(shù)據(jù)集中已標(biāo)注的關(guān)系實(shí)例和通過(guò)已標(biāo)注的實(shí)體對(duì)組合生成的負(fù)例組成;測(cè)試集和驗(yàn)證集則采用邊界識(shí)別后得到的結(jié)果進(jìn)行邊界組合生成。
3.4.1 實(shí)體邊界組合方法的有效性驗(yàn)證
利用邊界識(shí)別的方法得到實(shí)體開(kāi)始邊界、實(shí)體結(jié)束邊界以及經(jīng)過(guò)邊界組合后的結(jié)果如表1所示。
表1 ACE 2005數(shù)據(jù)集上的邊界識(shí)別結(jié)果 單位: %
由表1可得知,在ACE 2005中文數(shù)據(jù)集和ACE 2005英文數(shù)據(jù)集上,開(kāi)始邊界和結(jié)束邊界的宏平均F1值和準(zhǔn)確率遠(yuǎn)高于邊界組合后,因此本文將利用邊界識(shí)別后的實(shí)體邊界代替實(shí)體進(jìn)行關(guān)系抽取任務(wù)。
表2 ACE 2005數(shù)據(jù)集不同復(fù)合特征對(duì)開(kāi)始邊界和結(jié)束邊界性能的影響 單位: %
由表2可知:
1)實(shí)體開(kāi)始邊界與實(shí)體結(jié)束邊界應(yīng)用在關(guān)系抽取上時(shí),準(zhǔn)確率與宏平均F1值相差不大。原因在于邊界識(shí)別后開(kāi)始邊界和結(jié)束邊界的邊界識(shí)別性能相差不大,并且開(kāi)始邊界和結(jié)束邊界在作用于句子上時(shí),考慮到的結(jié)構(gòu)信息和語(yǔ)義信息也無(wú)太大差別。
2)在ACE 2005中文數(shù)據(jù)集和英文數(shù)據(jù)集進(jìn)行同樣操作時(shí),得到的結(jié)果相差卻很大,宏平均F1值最大相差達(dá)到13.95個(gè)百分點(diǎn)。原因在于ACE 2005中文數(shù)據(jù)集邊界識(shí)別的性能高于ACE 2005英文數(shù)據(jù)集,最重要的是中文的結(jié)構(gòu)是由單個(gè)的漢字組成的,能夠?yàn)槊總€(gè)漢字構(gòu)建一個(gè)查找表,而英文則是由不同的語(yǔ)法構(gòu)成的,不能夠?yàn)槊總€(gè)單詞構(gòu)建一個(gè)查找表。
3.4.2 不同研究方法的性能對(duì)比
采用同樣的實(shí)驗(yàn)設(shè)置、通過(guò)與同樣使用ACE 2005英文數(shù)據(jù)集的關(guān)系抽取方法進(jìn)行對(duì)比來(lái)驗(yàn)證本文方法的可行性,宏平均F1值對(duì)比結(jié)果如表3所示,其中:Entity表示實(shí)體識(shí)別部分性能;Relation則代表的是關(guān)系抽取的性能。
表3 不同方法的性能對(duì)比 單位: %
針對(duì)關(guān)系抽取的特點(diǎn),本文提出了一種邊界組合的關(guān)系抽取方法,該方法通過(guò)識(shí)別得到的實(shí)體邊界替代實(shí)體進(jìn)行關(guān)系抽取,并結(jié)合多通道深度神經(jīng)網(wǎng)絡(luò)模型及特征組合來(lái)獲取句子語(yǔ)義信息和結(jié)構(gòu)信息。實(shí)驗(yàn)結(jié)果表明本文方法相比基于神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法有明顯優(yōu)勢(shì)。
對(duì)于實(shí)體邊界方法,本文僅將此用于管道式的關(guān)系抽取方法,未來(lái)可以嘗試將實(shí)體邊界用于聯(lián)合學(xué)習(xí)的方法中,同時(shí)進(jìn)行實(shí)體識(shí)別和關(guān)系抽取的任務(wù),轉(zhuǎn)換為端到端的模型。
[1] 劉嶠,李楊,段宏,等.知識(shí)圖譜構(gòu)建技術(shù)綜述[J]. 計(jì)算機(jī)研究與發(fā)展,2016,53(3):582-600.(LIU Q, LI Y, DUAN H, et al. Knowledge graph construction techniques[J]. Journal of Computer Research and Development, 2016, 53(3): 582-600.)
[2] 徐健,張智雄,吳振新.實(shí)體關(guān)系抽取的技術(shù)方法綜述[J]. 現(xiàn)代圖書(shū)情報(bào)技術(shù),2008,24(8):18-23.(XU J, ZHANG Z X, WU Z X. Review on techniques of entity relation extraction[J]. New Technology of Library and Information Service, 2008, 24(8): 18-23.)
[3] CHEN Y P, WU Y F, QIN Y B, et al. Recognizing nested named entity based on the neural network boundary assembling model[J]. IEEE Intelligent Systems, 2020, 35(1): 74-81.
[4] CHEN Y P, WANG G R, ZHENG Q H, et al. A set space model to capture structural information of a sentence[J]. IEEE Access, 2019, 7:142515-142530.
[5] CHEN Y P, WANG K, YANG W Z, et al. A multi-channel deep neural network for relation extraction[J]. IEEE Access, 2020, 8: 13195-13203.
[6] WANG J, LU W. Two are better than one: joint entity and relation extraction with table-sequence encoders[C]// Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2020: 1706-1721.
[7] 鄂海紅,張文靜,肖思琪,等. 深度學(xué)習(xí)實(shí)體關(guān)系抽取研究綜述[J]. 軟件學(xué)報(bào), 2019, 30(6):1793-1818.(E H H, ZHANG W J, XIAO S Q, et al. Survey of entity relationship extraction based on deep learning[J]. Journal of Software, 2019, 30(6):1793-1818.)
[8] HASHIMOTO K, MIWA M, TSURUOKA Y, et al. Simple customization of recursive neural networks for semantic relation classification[C]// Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2013: 1372-1376.
[9] ZENG D J, LIU K, LAI S W, et al. Relation classification via convolutional deep neural network[C]// Proceedings of the 25th International Conference on Computational Linguistics: Technical Papers. Stroudsburg, PA: ACL, 2014: 2335-2344.
[10] WANG L L, CAO Z, DE MELO G, et al. Relation classification via multi-level attention CNNs[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: ACL, 2016: 1298-1307.
[11] LI F, ZHANG M S, FU G H, et al. A Bi-LSTM-RNN model for relation classification using low-cost sequence features[EB/OL]. [2021-10-28].https://arxiv.org/pdf/1608.07720.pdf.
[12] MIWA M, BANSAL M. End-to-end relation extraction using LSTMs on sequences and tree structures[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: ACL, 2016: 1105-1116.
[13] LI F, ZHANG M S, FU G H, et al. A neural joint model for extracting bacteria and their locations[C]// Proceedings of the 2017 Pacific-Asia Conference on Knowledge Discovery and Data Mining, LNCS 10235/LNAI 10235. Cham: Springer, 2017: 15-26.
[14] KATIYAR A, CARDIE C. Investigating LSTMs for joint extraction of opinion entities and relations[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: ACL, 2016: 919-929.
[15] KATIYAR A, CARDIE C. Going out on a limb: joint extraction of entity mentions and relations without dependency trees[C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: ACL, 2017: 917-928.
[16] ZHENG S C, WANG F, BAO H Y, et al. Joint extraction of entities and relations based on a novel tagging scheme[C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: ACL, 2017: 1227-1236.
[17] LI Q, JI H. Incremental joint extraction of entity mentions and relations[C]// Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: Association for Computational Linguistics, 2014: 402-412.
[18] ZHANG M S, ZHANG Y, FU G H. End-to-end neural relation extraction with global optimization[C]// Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2017: 1730-1740.
[19] LI X Y, YIN F, SUN Z J, et al. Entity-relation extraction as multi-turn question answering[C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2019: 1340-1350.
Relation extraction method based on entity boundary combination
LI Hao1,2, CHEN Yanping1,2*, TANG Ruixue1,2, HUANG Ruizhang1,2, QIN Yongbin1,2, WANG Guorong1,2, TAN Xi3
(1,,550025,;2(),550025,;3,550025,)
Relation extraction aims to extract the semantic relationships between entities from the text. As the upper-level task of relation extraction, entity recognition will generate errors and spread them to relation extraction, resulting in cascading errors. Compared with entities, entity boundaries have small granularity and ambiguity, making them easier to recognize. Therefore, a relationship extraction method based on entity boundary combination was proposed to realize relation extraction by skipping the entity and combining the entity boundaries in pairs. Since the boundary performance is higher than the entity performance, the problem of error propagation was alleviated; in addition, the performance was further improved by adding the type features and location features of entities through the feature combination method, which reduced the impact caused by error propagation. Experimental results on ACE 2005 English dataset show that the proposed method outperforms the table-sequence encoders method by 8.61 percentage points on Macro average F1-score.
relation extraction; entity recognition; cascading error; entity boundary combination; feature combination
This work is partially supported by National Natural Science Foundation of China (62066008), Key Project of Science and Technology Foundation of Guizhou Province (Qianke Hejichu [2020] 1Z055).
LI Hao, born in 1996, M. S. candidate. His research interests include natural language processing, relation extraction.
CHEN Yanping, born in 1980, Ph. D., associate professor. His research interests include artificial intelligence, natural language processing.
TANG Ruixue, born in 1987, Ph. D. candidate. Her research interests include natural language processing.
HUANG Ruizhang, born in 1979, Ph. D., professor, Her research interests include data mining, text mining, machine learning, information retrieval.
QIN Yongbin, born in 1980, Ph. D., professor, His research interests include intelligent computing, machine learning, algorithm design.
WANG Guorong, born in 1995, Ph. D. candidate. Her research interests include natural language processing.
TP391.1
A
1001-9081(2022)06-1796-06
10.11772/j.issn.1001-9081.2021091747
2021?10?12;
2021?11?11;
2021?11?17。
國(guó)家自然科學(xué)基金資助項(xiàng)目(62066008);貴州省科學(xué)技術(shù)基金重點(diǎn)項(xiàng)目(黔科合基礎(chǔ)[2020]1Z055)。
李昊(1996—),男,四川成都人,碩士研究生,CCF會(huì)員,主要研究方向:自然語(yǔ)言處理、關(guān)系抽?。魂惼G平(1980—),男,貴州長(zhǎng)順人,副教授,博士,CCF會(huì)員,主要研究方向:人工智能、自然語(yǔ)言處理;唐瑞雪(1987—),女,貴州貴陽(yáng)人,博士研究生,主要研究方向:自然語(yǔ)言處理;黃瑞章(1979—),女,天津人,教授,博士,CCF會(huì)員,主要研究方向:數(shù)據(jù)挖掘、文本挖掘、機(jī)器學(xué)習(xí)、信息檢索;秦永彬(1980—),男,山東招遠(yuǎn)人,教授,博士,CCF會(huì)員,主要研究方向:智能計(jì)算、機(jī)器學(xué)習(xí)、算法設(shè)計(jì);王國(guó)蓉(1995—),女,貴州甕安人,博士研究生,主要研究方向:自然語(yǔ)言處理。