饒東寧,李 冉
(廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,廣東 廣州 510000)
實(shí)體關(guān)系抽取是知識(shí)圖譜構(gòu)建、智能問答、信息檢索等下游任務(wù)的核心技術(shù)之一,旨在從非結(jié)構(gòu)化文本中抽取出結(jié)構(gòu)化信息,即抽取出實(shí)體及其間關(guān)系,并以三元組的形式<頭實(shí)體,關(guān)系,尾實(shí)體>展現(xiàn),例如“甄嬛傳由鄭曉龍執(zhí)導(dǎo)”經(jīng)過實(shí)體關(guān)系抽取得到三元組<甄嬛傳,導(dǎo)演,鄭曉龍>。
早期基于神經(jīng)網(wǎng)絡(luò)的實(shí)體關(guān)系抽取工作采取流水線式抽取方法,先抽取實(shí)體再進(jìn)行關(guān)系分類,這種方法實(shí)現(xiàn)起來比較簡(jiǎn)單,但存在錯(cuò)誤積累、交互缺失和實(shí)體冗余等問題。后期的聯(lián)合式抽取方法[1]能夠在一個(gè)模型中實(shí)現(xiàn)實(shí)體抽取和關(guān)系抽取,這種方法能夠進(jìn)一步利用兩個(gè)子任務(wù)之間的潛在信息,緩解流水線式方法所帶來的問題,逐漸成為實(shí)體關(guān)系抽取主流方法。然而,目前大部分聯(lián)合式抽取方法主要存在3 個(gè)問題:首先,針對(duì)中文文本的實(shí)體關(guān)系抽取,在進(jìn)行分詞時(shí)常會(huì)因邊界切分錯(cuò)誤而引起歧義問題;其次,無法解決實(shí)體冗余和關(guān)系重疊問題;最后,關(guān)系種類和數(shù)量均是預(yù)定的,往往存在不夠全面的問題。
針對(duì)以上問題,本文在已有方法的基礎(chǔ)上:首先采用基于字詞混合嵌入的方式避免實(shí)體邊界切分錯(cuò)誤引起的歧義問題,在保留字的靈活性的基礎(chǔ)上融合了詞的信息,并加入位置嵌入保留字的位置信息;其次采用指針標(biāo)注的方式解決實(shí)體嵌套和關(guān)系重疊的問題,通過識(shí)別出的頭實(shí)體信息標(biāo)記其對(duì)應(yīng)的關(guān)系和尾實(shí)體,每個(gè)頭實(shí)體可存在多個(gè)關(guān)系和尾實(shí)體;最后提出基于Schema 增強(qiáng)的方法,根據(jù)不同數(shù)據(jù)集抽取出其對(duì)應(yīng)的實(shí)體類型以及關(guān)系種類之間存在的模式并進(jìn)行融合,構(gòu)建出適配于不同數(shù)據(jù)集的Schema,以提高實(shí)體關(guān)系抽取方法在不同數(shù)據(jù)集間的可遷移性,同時(shí)可以解決實(shí)體冗余的問題。本文將該方法稱為基于Schema 增強(qiáng)的中文實(shí)體關(guān)系抽取方法,簡(jiǎn)稱為SCHEMA。
早期的實(shí)體關(guān)系抽取工作多采用基于規(guī)則的方法,需要專家設(shè)計(jì)大量規(guī)則或人工進(jìn)行特征篩選,不但需要操作人員有專業(yè)的知識(shí)背景,而且對(duì)數(shù)據(jù)的遷移且信息遷移很差,無法滿足大規(guī)模的實(shí)體關(guān)系抽取。近年來,由于深度學(xué)習(xí)技術(shù)[2]的持續(xù)發(fā)展與水平提高,神經(jīng)網(wǎng)絡(luò)模型框架[3]日漸豐富,神經(jīng)網(wǎng)絡(luò)方法也被引入到實(shí)體關(guān)系抽取任務(wù)中?,F(xiàn)階段,基于神經(jīng)網(wǎng)絡(luò)的實(shí)體關(guān)系抽取方法根據(jù)實(shí)體識(shí)別和關(guān)系抽取這兩個(gè)子任務(wù)是否獨(dú)立,分為流水線式抽取方法和聯(lián)合式抽取方法兩類。流水線式抽取方法通常先進(jìn)行命名實(shí)體識(shí)別[4],再進(jìn)行實(shí)體對(duì)間的關(guān)系分類[5],其優(yōu)點(diǎn)為實(shí)現(xiàn)起來比較簡(jiǎn)單,可以靈活針對(duì)兩個(gè)子任務(wù)分別選擇合適的實(shí)體識(shí)別和關(guān)系抽取模型,在工業(yè)界被廣泛運(yùn)用。但同時(shí)缺點(diǎn)也是顯而易見的,首先命名實(shí)體識(shí)別階段的錯(cuò)誤會(huì)影響下一步關(guān)系分類的表現(xiàn),存在誤差積累問題;其次,需要逐一遍歷任意兩個(gè)實(shí)體對(duì),判斷是否存在關(guān)系并進(jìn)行關(guān)系分類,但并不是所有實(shí)體對(duì)之間都存在關(guān)系,存在實(shí)體冗余問題;最后,忽略了這兩個(gè)子任務(wù)間天然存在的語義聯(lián)系和依賴關(guān)系,存在交互缺失問題。
聯(lián)合式抽取方法使用一個(gè)模型進(jìn)行實(shí)體識(shí)別和關(guān)系抽取,考慮到了兩個(gè)子任務(wù)之間潛在存在的交互關(guān)系,可以進(jìn)一步利用兩個(gè)子任務(wù)之間的潛在信息,在一定程度上避免了流水線式方法中存在的弊端,與之前的方法相比有明顯提高,但大多數(shù)現(xiàn)有方法無法解決文本邊界切分錯(cuò)誤引起的歧義問題,同時(shí)無法處理句子中包含的實(shí)體冗余以及關(guān)系重疊的情況,也存在不同數(shù)據(jù)集的關(guān)系不能很好遷移的問題。
為了應(yīng)對(duì)句子中包含關(guān)系的重疊情況,許多研究者進(jìn)行了改進(jìn)。例如,Bekoulis 等[6]提出的MHS 模型使用條件隨機(jī)域[7]層將實(shí)體識(shí)別任務(wù)和關(guān)系提取任務(wù)建模為一個(gè)多頭選擇問題;Zhang 等[8]提出的Seq2UMTree 模型通過將三元組中的解碼長(zhǎng)度限制為3 個(gè),并通過去除三元組之間的順序來最小化曝光偏差的影響;Ren 等[9]提出的CoType模型使用數(shù)據(jù)驅(qū)動(dòng)的文本分割算法來抽取實(shí)體,并將實(shí)體、關(guān)系、文本特征和類型標(biāo)簽共同嵌入到二個(gè)低維空間,分別進(jìn)行實(shí)體和關(guān)系抽??;Wei 等[10]提出一種級(jí)聯(lián)式解碼實(shí)體關(guān)系抽取框架CASREL,使用多層二元指針網(wǎng)絡(luò)標(biāo)記實(shí)體,將關(guān)系建模為將頭實(shí)體映射到尾實(shí)體的函數(shù),級(jí)聯(lián)解碼器包含一個(gè)頭實(shí)體標(biāo)注器和一系列關(guān)系特定的尾實(shí)體標(biāo)注器,將兩個(gè)子任務(wù)轉(zhuǎn)化為序列標(biāo)注問題;Wang 等[11]提出的TPLinker 模型是一種單階段聯(lián)合式的實(shí)體關(guān)系抽取模型,將實(shí)體關(guān)系聯(lián)合抽取轉(zhuǎn)化為標(biāo)記對(duì)接問題,采用統(tǒng)一的標(biāo)注方法提取實(shí)體和重疊關(guān)系,模型不存在訓(xùn)練與推理之間的間隙,可以解決暴露偏差問題;Ye 等[12]提出的CGT 模型是一個(gè)帶有生成式Transformer 的對(duì)比學(xué)習(xí)實(shí)體關(guān)系三元組提取的框架,該框架是一個(gè)共享的Transformer模塊,將三元組抽取視為一個(gè)序列生成任務(wù),并提出一種新穎的三元組校準(zhǔn)算法,能夠在推理階段過濾掉錯(cuò)誤的三元組;葛君偉等[13]采用分層標(biāo)注的方式進(jìn)行實(shí)體關(guān)系的聯(lián)合抽取,能夠在一定程度上解決關(guān)系重疊的問題。
為解決文本邊界切分錯(cuò)誤引起的歧義問題,許多研究者進(jìn)行了嘗試。例如,Li 等[14]提出的MG Lattice 模型將字級(jí)信息集成到字符序列輸入中,從而避免分割錯(cuò)誤,同時(shí)利用外部語言知識(shí)減輕多義歧義;Zhong[15]提出一種融合詞級(jí)信息和字符級(jí)信息的深度學(xué)習(xí)框架FGGRM,利用多粒度特征與門控循環(huán)機(jī)制的高效融合動(dòng)態(tài)學(xué)習(xí)語義信息,以減少分割錯(cuò)誤的影響;Zhong[16]設(shè)計(jì)了一個(gè)多級(jí)門控循環(huán)機(jī)制的框架MGRSA,將詞粒度信息統(tǒng)一為字符粒度信息。為了減少多義性歧義,在兩部分上使用了自我注意,包括具有外部語義知識(shí)的詞向量;葛君偉等[13]采用基于字詞混合嵌入的方式,在詞向量的基礎(chǔ)上融合字向量信息,并且加入了位置嵌入來保留字在文本中的順序,能夠在一定程度上解決中文分詞時(shí)邊界切分錯(cuò)誤所造成的歧義問題。
然而,目前已有的方法往往不能同時(shí)解決實(shí)體冗余、關(guān)系重疊以及中文文本的邊界切分問題,同時(shí)不同方法對(duì)特定的訓(xùn)練預(yù)料依賴性較高,可遷移性較差。因此,本文融合Wei 等[10]和葛君偉等[13]的思想,分別使用指針標(biāo)注的方法和字詞混合嵌入的方法解決關(guān)系重疊以及中文文本邊界切分的問題,同時(shí)自行構(gòu)建了一個(gè)融合不同數(shù)據(jù)集實(shí)體類型和關(guān)系種類之間模式的Schema,以解決實(shí)體冗余問題,同時(shí)可以提高實(shí)體關(guān)系抽取方法在不同數(shù)據(jù)集之間的可遷移性。
本文模型結(jié)構(gòu)如圖1 所示。首先進(jìn)行字id 序列的輸入,利用字詞混合嵌入得出相應(yīng)的文本向量序列,再加上位置嵌入,進(jìn)入編碼層進(jìn)行編碼,得到經(jīng)過編碼后的序列H。將文本向量序列H 輸入主體指針網(wǎng)絡(luò),從而得到頭實(shí)體S;然后查詢與頭實(shí)體S 對(duì)應(yīng)的Schema,篩選出所有的候選關(guān)系作為先驗(yàn)特征與S 對(duì)應(yīng)的子序列HS以及編碼序列H 進(jìn)行相加;最后將相加后的序列輸入Transformer 層,對(duì)S在Schema 中對(duì)應(yīng)的每一個(gè)候選關(guān)系均預(yù)測(cè)對(duì)應(yīng)的尾實(shí)體的首、尾位置,最終得到文本中所有的三元組。在整個(gè)過程中,對(duì)于在Schema 中不存在對(duì)于關(guān)系的頭實(shí)體,則不進(jìn)行其對(duì)應(yīng)關(guān)系的尾實(shí)體抽取。
Fig.1 Chinese entity relationship extraction model based on Schema enhancement圖1 基于Schema增強(qiáng)的中文實(shí)體關(guān)系抽取模型
在中文分詞中往往會(huì)出現(xiàn)詞語邊界切分錯(cuò)誤所引起的歧義問題,不同的分詞邊界往往代表作不同的含義,例如對(duì)于“下雨天留客天留我不留”,不同的分詞方式會(huì)造成完全不同的含義,分別為“下雨天留客/天留我不留”和“下雨天/留客天/留我不/留”。通常采取字標(biāo)注的方法避免這個(gè)問題,即以字為單位進(jìn)行輸入。然而單純的字嵌入難以存儲(chǔ)有效的語義信息,為更有效地融入語義信息,本文采取葛君偉等[13]使用的字詞混合嵌入思想,即預(yù)先訓(xùn)練一個(gè)word2vec 模型,通過該模型加載對(duì)應(yīng)的詞向量,然后與字向量進(jìn)行融合。為保持向量維度不變,使用一個(gè)變換矩陣對(duì)詞向量的維度進(jìn)行轉(zhuǎn)換。通過公式(1)進(jìn)行字向量與詞向量的融合:
式中,ti表示字詞向量混合的結(jié)果向量,wk表示加載的第k個(gè)詞向量,E為變換矩陣。為保持維度不變,詞向量重復(fù)轉(zhuǎn)換、融合的次數(shù)與該詞語的字?jǐn)?shù)相同。
在執(zhí)行實(shí)體關(guān)系抽取任務(wù)時(shí),字在文本中的的位置也非常重要,字與字之間的不同順序會(huì)影響對(duì)整個(gè)句子的意思理解。為充分利用字的位置信息,在融合字向量與詞向量的基礎(chǔ)上加入位置向量。具體做法為從0 開始依次加1對(duì)句子中的每一個(gè)字進(jìn)行編碼,用于代表每個(gè)字在句子中的不同順序,然后全零初始化一個(gè)與字向量維度相同的嵌入層,傳入位置編碼信息后輸出對(duì)應(yīng)的位置向量pi,然后與融合字詞向量的結(jié)果ti相加傳到下一層。
傳統(tǒng)的序列標(biāo)注方案假定每個(gè)字只有一種標(biāo)簽,無法解決實(shí)體嵌套問題。同時(shí)這類標(biāo)注方案假定一個(gè)實(shí)體對(duì)之間最多存在一種關(guān)系,無法解決關(guān)系重疊問題。為解決實(shí)體嵌套和關(guān)系重疊問題,本文采用Wei 等[10]的指針網(wǎng)絡(luò)標(biāo)記方案CASREL 的思想。
在頭實(shí)體識(shí)別階段,首先抽取出所有可能存在的實(shí)體。頭實(shí)體的開始和結(jié)束字符均用1 表示,不是邊界的字符用0 表示。對(duì)于文本中存在的多個(gè)實(shí)體,采用就近原則,某個(gè)開始位置為1 的字符到其后最近的結(jié)束位置為1的字符之間的詞就是一個(gè)頭實(shí)體。通過公式(2)、(3)計(jì)算字符是頭實(shí)體邊界的可能性:
在關(guān)系—尾實(shí)體識(shí)別階段,針對(duì)每一個(gè)頭實(shí)體,遍歷其所有在Schema 中的候選關(guān)系 r,為每一個(gè)關(guān)系 r 都確定相應(yīng)的尾實(shí)體。如果存在多個(gè)尾實(shí)體,則采用就近原則確定實(shí)體邊界;如果尾實(shí)體不存在,則采用null 型尾實(shí)體表示。通過公式(3)、(4)計(jì)算字符為頭實(shí)體特定關(guān)系對(duì)應(yīng)的尾實(shí)體邊界的可能性:
本文所使用的Schema 是指已標(biāo)注數(shù)據(jù)集的三元組中實(shí)體類型與關(guān)系種類之間存在的模式。在進(jìn)行模型訓(xùn)練前,首先根據(jù)已有的數(shù)據(jù)集去構(gòu)建其關(guān)系模式Schema,進(jìn)而在模型訓(xùn)練過程中將Schema 作為先驗(yàn)特征輸入模型中,以提高實(shí)體關(guān)系抽取的效果。
2.3.1 Schema構(gòu)建過程
首先針對(duì)不同的數(shù)據(jù)集自動(dòng)抽取其Schema,對(duì)于Du-IE 數(shù)據(jù)集,其已對(duì)實(shí)體類型進(jìn)行了標(biāo)注,且本身數(shù)據(jù)標(biāo)注比較詳細(xì)且規(guī)范,因此直接根據(jù)數(shù)據(jù)集中所有的頭實(shí)體類型、關(guān)系種類、尾實(shí)體類型抽取出對(duì)應(yīng)的Schema;對(duì)于FinRE 以及SanWen,由于原始數(shù)據(jù)集沒有對(duì)實(shí)體類型進(jìn)行標(biāo)注,因此本文先對(duì)其數(shù)據(jù)集中的所有實(shí)體進(jìn)行了類型的標(biāo)注,使用方法為Stanford CoreNLP,并使用了自定義詞典進(jìn)行文本分詞,以提高分詞準(zhǔn)確性。在對(duì)數(shù)據(jù)集的實(shí)體進(jìn)行類型標(biāo)注后,采取與DuIE 同樣的方式抽取出各自對(duì)應(yīng)的Schema。最后合并3 個(gè)數(shù)據(jù)集對(duì)應(yīng)的Schema,作為一個(gè)Schema 庫,通過整體實(shí)體關(guān)系抽取任務(wù)的先驗(yàn)特征進(jìn)行效果增強(qiáng)。本文使用的Schema 示例如圖2 所示,其中subject_type 表示首實(shí)體類型,predicate 表示關(guān)系名,object_type 表示尾實(shí)體類型。
Fig.2 Schema example圖2 Schema示例
2.3.2 利用Schema進(jìn)行增強(qiáng)的方法
將構(gòu)建好的Schema 庫包含的所有關(guān)系模式標(biāo)注上特定的序號(hào),變成一個(gè)數(shù)字與模式一一對(duì)應(yīng)的詞典。當(dāng)模型輸入一個(gè)新文本時(shí),首先經(jīng)過頭實(shí)體識(shí)別步驟,識(shí)別出所有實(shí)體,對(duì)于每個(gè)頭實(shí)體,根據(jù)其實(shí)體類型去Schema 庫中進(jìn)行匹配,定位頭實(shí)體類型所存在的關(guān)系種類以及對(duì)應(yīng)的尾實(shí)體類型,將其轉(zhuǎn)化為與標(biāo)注結(jié)構(gòu)相同的0/1 向量,與編碼向量進(jìn)行相加,然后進(jìn)行下一步尾實(shí)體的標(biāo)注。對(duì)于在Schema 庫中找不到對(duì)應(yīng)類型的頭實(shí)體,則不進(jìn)行下一步的尾實(shí)體標(biāo)注任務(wù)。
2.3.3 使用Schema進(jìn)行增強(qiáng)的作用
一方面對(duì)于所有標(biāo)注出的實(shí)體均根據(jù)其實(shí)體類型在Schema 庫中進(jìn)行匹配,不存在對(duì)應(yīng)關(guān)系種類的實(shí)體則不進(jìn)行后續(xù)的尾實(shí)體標(biāo)注任務(wù),可以在一定程度上解決實(shí)體冗余的問題;另一方面,由于融合了不同數(shù)據(jù)集的關(guān)系模式,且針對(duì)一個(gè)新的數(shù)據(jù)集均可抽取出其關(guān)系模式進(jìn)行初始的Scheme 擴(kuò)展,可以在一定程度上增強(qiáng)實(shí)體關(guān)系抽取方法在不同領(lǐng)域數(shù)據(jù)集的可遷移性以及關(guān)系種類的約束。
本文使用的數(shù)據(jù)集為DuIE、FinRE、SanWen 三大主流中文實(shí)體關(guān)系抽取數(shù)據(jù)集,原因是這3 個(gè)數(shù)據(jù)集均為開源免費(fèi)的數(shù)據(jù)集,原始數(shù)據(jù)獲取比較簡(jiǎn)單,可供大部分人進(jìn)行研究,而且這3 個(gè)數(shù)據(jù)集的文本表述規(guī)范程度不同,代表了不同領(lǐng)域的數(shù)據(jù)。①DuIE 數(shù)據(jù)集[17]是來自百度信息抽取比賽的公開數(shù)據(jù)集,數(shù)據(jù)來源于百度百科和百度新聞?wù)?,文本表述整體相對(duì)規(guī)范;②FinRE 數(shù)據(jù)集是Li 等[14]手動(dòng)標(biāo)注的來自新浪財(cái)經(jīng)和財(cái)經(jīng)新聞的數(shù)據(jù)集,文本表述整體比較規(guī)范,包含44 類關(guān)系(包含雙向關(guān)系),其中包含一類特殊關(guān)系NA,表示標(biāo)記的實(shí)體對(duì)之間不存在關(guān)系;③SanWen 數(shù)據(jù)集[18]包含837 篇中文散文,文本表述整體比較口語化,包含9 類關(guān)系,其中訓(xùn)練集695 篇,測(cè)試集84篇,驗(yàn)證集58篇。數(shù)據(jù)集統(tǒng)計(jì)信息如表1所示。
Table 1 Statistics Information of datasets表1 數(shù)據(jù)集統(tǒng)計(jì)信息
實(shí)體關(guān)系抽取任務(wù)通常使用精確率(precision)、召回率(recall)和F1(F-measure)值作為評(píng)價(jià)指標(biāo),計(jì)算公式如下:
操作系統(tǒng)為Ubuntu 18.04.4,CPU 型號(hào)為Inter(R)Xeon Silver 4110,顯卡型號(hào)為GeForce RTX 2080Ti。實(shí)驗(yàn)環(huán)境為Python3.6、Tensorflow1.14。編碼器為BERT,其版本為谷歌官方提供的中文Base 版模型。字詞混合嵌入使用的word2vec 詞向量已在百度百科以及搜狗實(shí)驗(yàn)室數(shù)據(jù)集上預(yù)先訓(xùn)練完成,模型訓(xùn)練時(shí)直接加載word2vec 詞向量。實(shí)驗(yàn)中初始化字嵌入向量維度為128,詞嵌入向量維度為256,位置向量維度為128。訓(xùn)練過程采用學(xué)習(xí)率為0.001的反向傳播算法,dropout 取0.25,批大小為32。在訓(xùn)練階段使用Adam 優(yōu)化器,激活函數(shù)為sigmoid。
為驗(yàn)證在對(duì)中文數(shù)據(jù)集進(jìn)行實(shí)體關(guān)系抽取時(shí)SCHEMA 的提升效果,在3 個(gè)數(shù)據(jù)集上與文獻(xiàn)[6]、[8]、[9]、[14]、[15]、[16]中的方法進(jìn)行比較實(shí)驗(yàn),結(jié)果如表2 所示。可以看出,本文方法是所有比較方法中表現(xiàn)最好的。在DuIE 數(shù)據(jù)集上,SCHEMA 與比較方法中表現(xiàn)最好的分別實(shí)現(xiàn)了precision、recall 以及F1 值近7%、10%、10%的提升;在FinRE 數(shù)據(jù)集上,SCHEMA 與比較方法中表現(xiàn)最好的分別實(shí)現(xiàn)了precision、recall 以及F1 值近14%、22%、18%的提升;在SanWen 數(shù)據(jù)集上,SCHEMA 與比較方法中表現(xiàn)最好的分別實(shí)現(xiàn)了precision、recall 以及F1 值近11%、10%、10%的提升??梢?,SCHEMA 在FinRE 和DuIE 數(shù)據(jù)集上具有更好的表現(xiàn),但在SanWen 數(shù)據(jù)集中的表現(xiàn)不如在DuIE和FinRE 上的表現(xiàn),這可能是由于SanWen 中的句子均較口語化,非正式表達(dá)句子中的實(shí)體關(guān)系抽取面臨的挑戰(zhàn)更大。值得一提的是,SCHEMA 在FinRE 數(shù)據(jù)集上的表現(xiàn)與其他已有方法相比有較大提升,說明SCHEMA 對(duì)于類似于FinRE 數(shù)據(jù)集這種較為規(guī)范化書寫的文本有較大提升,進(jìn)一步表明了利用Schema 增強(qiáng)的有效性。雖然SCHEMA 在不同數(shù)據(jù)集上的表現(xiàn)略有不同,但從整體性能來看SCHEMA 的性能最為均衡,表現(xiàn)出其在不同數(shù)據(jù)集上的可遷移性。同時(shí),SCHEMA 可以解決關(guān)系重疊問題,如“甄嬛傳由鄭曉龍執(zhí)導(dǎo),孫儷、陳建斌主演”,SCHEMA 可抽取出三元組<甄嬛傳,主演,孫儷>以及<甄嬛傳,主演,陳建斌>。
Table 2 Comparison of experimental results表2 實(shí)驗(yàn)結(jié)果比較
為進(jìn)一步研究SCHEMA 的各個(gè)模塊組件對(duì)整體性能的貢獻(xiàn),本文還對(duì)所有數(shù)據(jù)集進(jìn)行了消融實(shí)驗(yàn),結(jié)果如表3所示,其中w/o 表示不使用??梢钥闯觯衷~混合嵌入提供了5%以上的F1值提升改進(jìn),Schema 將其提高了1 倍,獲得近10%的F1值改進(jìn),進(jìn)一步表明了利用Schema 進(jìn)行增強(qiáng)方法的有效性。具體而言,在DuIE 數(shù)據(jù)集上只使用Schema,不使用字詞混合嵌入的方法,出現(xiàn)了最高的precision值(87.1%),但recall 和F1 值并不高,表明Schema 與字詞混合嵌入方法結(jié)合的有效性;在FinRE 數(shù)據(jù)集上進(jìn)行Schema增強(qiáng)取得的性能提高最顯著,說明Schema 增強(qiáng)方法對(duì)類似于新聞這種行文比較規(guī)范的數(shù)據(jù)集更加友好;在DuIE和FinRE 數(shù)據(jù)集上進(jìn)行字詞混合嵌入帶來的性能改進(jìn)比在SanWen 數(shù)據(jù)集上更為顯著,可能是由于word2vec 的訓(xùn)練材料是百度百科詞條,比散文的表述要正式。
Table 3 Ablation experiment results表3 消融實(shí)驗(yàn)結(jié)果
本文提出的基于Schema 增強(qiáng)的中文實(shí)體關(guān)系抽取模型通過構(gòu)建Schema 改善目前實(shí)體關(guān)系抽取面臨的關(guān)系種類和數(shù)量不夠全面的問題,提高了模型在不同數(shù)據(jù)集之間的遷移性以及在一定程度上解決了實(shí)體冗余的問題。該模型同時(shí)采用字詞混合嵌入和指針標(biāo)注的方法,分別解決了中文分詞可能遇到的邊界切分出錯(cuò)問題和實(shí)體重疊問題。比較實(shí)驗(yàn)結(jié)果表明,該模型在DuIE、FinRE 和SanWen數(shù)據(jù)集上的表現(xiàn)優(yōu)于MHS、Seq2UMTree、CoType 等現(xiàn)有模型。Zhong 等[19]研究表明實(shí)體類型信息對(duì)于實(shí)體關(guān)系抽取任務(wù)至關(guān)重要,后續(xù)將嘗試將實(shí)體類型與關(guān)系抽取任務(wù)進(jìn)行融合[20-21],進(jìn)一步提升中文實(shí)體關(guān)系抽取效果。