薛麗娟,席夢隆,王夢婕,王昊奮,阮 彤
華東理工大學(xué) 信息科學(xué)與工程學(xué)院,上海 200237
基于規(guī)則推理引擎的實體關(guān)系抽取研究*
薛麗娟,席夢隆,王夢婕,王昊奮,阮彤+
華東理工大學(xué) 信息科學(xué)與工程學(xué)院,上海 200237
關(guān)系抽取;關(guān)系推理;遠(yuǎn)程監(jiān)督;規(guī)則推理引擎
實體關(guān)系抽取是信息抽取的子任務(wù),其主要目的是把無結(jié)構(gòu)的自然語言文本中所蘊含的實體之間的語義關(guān)系抽取出來,并以結(jié)構(gòu)化的形式表示出來,供用戶查詢和分析使用。遠(yuǎn)程監(jiān)督學(xué)習(xí)(distant supervision learning)是訓(xùn)練大規(guī)模關(guān)系抽取器的主要方法。
傳統(tǒng)的實體關(guān)系抽取方法需要針對預(yù)先定義好的每一類實體關(guān)系人工標(biāo)注大量的訓(xùn)練語料,然后利用機器學(xué)習(xí)的方法訓(xùn)練分類器進行新的實體關(guān)系識別。人工標(biāo)注大量的訓(xùn)練數(shù)據(jù)是非常耗時和耗力的,因此本文將實體關(guān)系抽取和實體關(guān)系推理結(jié)合起來,只需要在少量訓(xùn)練數(shù)據(jù)的情況下就可以訓(xùn)練出大規(guī)模關(guān)系抽取器。另外傳統(tǒng)的實體關(guān)系抽取只注重一種特定類型的數(shù)據(jù)源,怎樣充分利用不同的數(shù)據(jù)源并沒有得到充分研究。本文提出的方法將綜合多種數(shù)據(jù)源,不僅從無結(jié)構(gòu)的文本中可以抽取出實體關(guān)系,從半結(jié)構(gòu)的實體屬性中也可以抽取出實體關(guān)系。
本文主要從百度知識圖譜大賽提供的數(shù)據(jù)文件中抽取人物實體之間的關(guān)系,針對于此,提出了一種新穎的基于規(guī)則推理引擎的實體關(guān)系抽取方法。本文的主要貢獻在于:
(1)綜合多種數(shù)據(jù)源抽取實體關(guān)系,不僅可以從無結(jié)構(gòu)文本中抽取出實體關(guān)系,從半結(jié)構(gòu)的實體屬性中也可以抽取出實體關(guān)系。
(2)將關(guān)系抽取和關(guān)系推理結(jié)合起來增加訓(xùn)練數(shù)據(jù)的數(shù)量。原始的訓(xùn)練數(shù)據(jù)比較稀疏,使用規(guī)則推理引擎推理出一些關(guān)系作為訓(xùn)練數(shù)據(jù),用來幫助從無結(jié)構(gòu)文本中抽取關(guān)系三元組,將從無結(jié)構(gòu)文本中抽取出的高置信度的關(guān)系三元組再加入到種子集中,因此整個過程是不斷迭代進行的,在每一輪迭代中,抽取出的高置信度的關(guān)系三元組將作為新的種子。
(3)本文的實體關(guān)系抽取主要是人物關(guān)系抽取,關(guān)系抽取時將實體本身固有的屬性作為特征將會大大提高關(guān)系抽取的準(zhǔn)確率,比如實體的性別屬性以及實體的姓名特征。
實體關(guān)系抽取是信息抽取的一個應(yīng)用,在過去幾年里得到了廣泛的研究。封裝器歸納法(wrapper induction)是一種用于從半結(jié)構(gòu)化數(shù)據(jù)中抽取信息的方法。Multi-view learner[1]和Vertex![2]使用監(jiān)督學(xué)習(xí)方法從手動標(biāo)注的數(shù)據(jù)中學(xué)習(xí)抽取規(guī)則。信息抽取的另一種方法就是從文本中抽取信息,Snowball[3]和TextRunner[4]就是典型的例子。Snowball的輸入是語料和種子集,通過總結(jié)語料中種子出現(xiàn)的模式學(xué)習(xí)抽取模式(extraction patterns)。Banko等人構(gòu)建的TextRunner系統(tǒng)在沒有事先定義規(guī)則和手動標(biāo)注種子的情況下從語料中學(xué)習(xí)所有的關(guān)系。Reverb[5]使用句法分析確定關(guān)系短語,將出現(xiàn)在兩個名詞短語之間的動詞短語作為關(guān)系短語。Wu等人[6]的WOE系統(tǒng)使用種子式擴展方法從Wikipedia的Infoboxes中學(xué)習(xí)抽取patterns。Reverb和WOE只能抽取出所有關(guān)系短語是動詞的關(guān)系,同時它們也忽略了上下文,因此抽取的關(guān)系三元組并不是事實。為了改善這些缺陷,Mausam等人[7]提出了OLLIE系統(tǒng),OLLIE可以抽取出關(guān)系短語不是動詞的短語,并且可以抽取出使關(guān)系成立的條件。TextRunner、Reverb、WOE和OLLIE都是在沒有事先定義規(guī)則和沒有事先給出目標(biāo)關(guān)系的情況下抽取所有的關(guān)系,因此這些方法都屬于開放域關(guān)系抽?。╫pen information extraction, Open IE)。本文需要從文本中學(xué)習(xí)出給定的目標(biāo)關(guān)系,這是本文工作和Open IE方法很大不同的地方。
NELL[8]、SOFIE[9]和PROSPERA[10]是需要給定目標(biāo)類別和關(guān)系的信息抽取工具。NELL的輸入數(shù)據(jù)由包含幾百個類別和關(guān)系的初始本體以及每個類別和關(guān)系的少量實例組成。SOFIE通過將學(xué)習(xí)得到的pattern和文本進行匹配,從文本中抽取本體事實,并將這些事實鏈接到本體知識庫中,它在現(xiàn)存的知識庫上做本體推理,目的是對詞義進行消歧。因此SOFIE是一個將模式匹配、詞義消歧和本體推理集合在一起的系統(tǒng)。Nakashole等人提出的PROSPERA 對SOFIE進行了改善。PROSPERA對pattern做N-gram,目的是對pattern進行泛化以增加召回率。KYLIN[11]使用迭代的方法構(gòu)造訓(xùn)練數(shù)據(jù),用構(gòu)造的訓(xùn)練數(shù)據(jù)學(xué)習(xí)兩種分類器,一種分類器用于識別,另一種分類器用于過濾。KOG[12]使用機器學(xué)習(xí)中的支持向量機(support vector machine,SVM)和馬爾可夫邏輯網(wǎng)絡(luò)(Markov logic network,MLN)中聯(lián)合推理的方法將Wikipedia的Infoboxes和WordNet結(jié)合起來建立了一個豐富的本體。NELL、SOFIE和PROSPERA都需要手動定義一些規(guī)則來幫助pattern的學(xué)習(xí),而在本文的工作中并不需要手動地定義規(guī)則。
信息抽取的一個趨勢是從發(fā)布在網(wǎng)上的數(shù)據(jù)中抽取信息,包括網(wǎng)頁、開放鏈接數(shù)據(jù)和動態(tài)網(wǎng)站上的列表和表格。Gentile等人[13]提出多策略學(xué)習(xí)的方法,該方法將文本抽取和包裝器歸納學(xué)習(xí)結(jié)合起來,從列表、表格和網(wǎng)頁中抽取知識。雖然這種方法看起來似乎很好,但是在他們的文章中并沒有清楚地說明實驗評估結(jié)果。另一方面,遠(yuǎn)程監(jiān)督是利用不同種類數(shù)據(jù)源之間冗余信息的有效方法,文獻[14-15]就是使用遠(yuǎn)程監(jiān)督學(xué)習(xí)的方法抽取關(guān)系。
3.1問題定義
本文的語料集S由實體描述屬性中的分句構(gòu)成,每個分句至少包含兩個實體。本文的任務(wù)可以描述為:給定關(guān)系類型體系 R={r1,r2,…,rm},實體集合E={e1,e2,…,en}以及每個實體ei的全部屬性和少量的實體關(guān)系種子集合Seed={(eirkej)|rk∈R,ei,ej∈E},對于?s∈S,給定句子S中的兩個實體ei∈E,ej∈E,預(yù)測ei、ej在S中的關(guān)系對應(yīng)于集合R中的一個或多個rk。例如,給定句子“姚沁蕾是籃球明星姚明的女兒”以及實體“姚明”和“姚沁蕾”,本文的任務(wù)就是預(yù)測出<姚明,姚沁蕾>在句子S中是“女兒”關(guān)系。分析了語料庫中的數(shù)據(jù)之后可以得到以下的觀察:
(1)可以從實體的一些屬性中抽取出實體關(guān)系,比如從實體的“parent”屬性中可以抽取出“父母”關(guān)系。
(2)現(xiàn)有的規(guī)則推理引擎可以推理出新的實體關(guān)系??梢詫嶓w關(guān)系文件給出的實體關(guān)系以及從實體屬性中抽取的實體關(guān)系作為輸入,用規(guī)則推理引擎推理出更多的實體關(guān)系。在本文中,規(guī)則推理引擎還需要實體性別作為輸入。
(3)一些關(guān)系類型之間具有層次關(guān)系,如“父母”關(guān)系和“父親”、“母親”這兩個關(guān)系具有層次關(guān)系。確定了“父母”關(guān)系后,可以根據(jù)實體的性別進一步確定是“父親”關(guān)系還是“母親”關(guān)系,以<姚沁蕾父母姚明>為例,如果可以確定“姚明”的性別為“男”,那么可以將上述關(guān)系三元組細(xì)化為<姚沁蕾父親姚明>。因此識別出實體的性別有助于關(guān)系的抽取。
3.2整體流程
本文的目標(biāo)是找到一種識別語料庫中任意實體對之間關(guān)系的方法。實體關(guān)系文件已經(jīng)給出少量的實體關(guān)系作為種子,但是這些種子對于訓(xùn)練抽取器是遠(yuǎn)遠(yuǎn)不夠的。根據(jù)3.1節(jié)的觀察,可以通過兩種途徑擴充種子的數(shù)量:一種是從實體的屬性中抽取實體關(guān)系;另一種是用規(guī)則推理引擎推理出新的實體關(guān)系。將以上實體關(guān)系作為種子幫助從實體的“description”屬性中抽取實體關(guān)系。實體的“description”屬性可以看作是一種無結(jié)構(gòu)的文本,因此整個過程就是遠(yuǎn)程監(jiān)督學(xué)習(xí)的過程。本文的工作主要分為3步:實體性別識別、規(guī)則引擎推理和實體關(guān)系抽取。整體流程如圖1所示。
4.1實體性別識別
通過觀察,實體的性別可以通過3種途徑獲得:
Fig.1 Overall workflow of algorithm圖1 算法整體流程圖
(1)從實體的“gender”屬性中識別實體的性別。對于一些實體,它們本身包含“gender”屬性,因此可以直接確定這些實體的屬性。
(2)使用一些預(yù)先定義的啟發(fā)式規(guī)則從實體的“description”屬性中識別實體的性別。實體的“description”屬性由一個或多個分句組成,如果“description”屬性的第一個分句包含“,男,”或者“,女,”,那么就可以直接確定該實體的性別。
(3)從實體關(guān)系文件的三元組中識別實體的性別。部分關(guān)系三元組中的關(guān)系謂詞和性別有關(guān),比如三元組<姚明女兒姚沁蕾>,根據(jù)關(guān)系謂詞“女兒”可以確定“姚沁蕾”的性別為“女”。
以上3條觀察可以識別一部分實體的性別,但是大部分實體的性別還是無法確定。因為使用上述3條觀察識別出的實體性別準(zhǔn)確率很高,所以把這些實體作為訓(xùn)練數(shù)據(jù),實體性別識別任務(wù)就可以視為一個二分類問題,使用支持向量機為分類模型。
使用分類法識別實體性別的過程如下:
(1)特征抽取
高頻詞作為特征:用S表示訓(xùn)練數(shù)據(jù)中所有實體的“description”屬性的分句集合,使用Stanford Parser 對S分詞,選擇出現(xiàn)次數(shù)超過50次的詞為高頻詞。
實體的“weight”和“heigh”屬性作為特征:因為男性和女性的身高、體重具有很明顯的差別,所以“weight”和“height”屬性對分類具有很大的貢獻?!皐eight”和“height”的屬性值經(jīng)過標(biāo)準(zhǔn)化和離散化之后作為特征值。
建立姓名庫作為特征:通??梢愿鶕?jù)姓名中的某些字確定實體的性別,選擇經(jīng)常出現(xiàn)在男性姓名中的字建立一個男性姓名庫,選擇經(jīng)常出現(xiàn)在女性姓名中的字建立一個女性姓名庫,然后把男性姓名庫和女性姓名庫分別作為特征。
(2)特征選擇
并不是所有的特征都對分類有貢獻,在分類之前需要進行特征選擇,本文使用信息增益選擇對分類有貢獻的特征。
(3)訓(xùn)練分類模型
使用訓(xùn)練數(shù)據(jù)訓(xùn)練SVM分類模型,用訓(xùn)練好的分類模型對性別未知的實體進行分類。
4.2規(guī)則引擎推理
規(guī)則推理引擎通常有規(guī)則和事實兩個輸入,目的是把已知的事實按照一定的規(guī)則推理出新的事實。在本文中,事實是關(guān)系三元組,根據(jù)關(guān)系謂詞的性質(zhì),人工總結(jié)出如下8條規(guī)則。
(1)關(guān)系謂詞具有反函數(shù)性,則存在規(guī)則:
如:
(2)關(guān)系謂詞加條件后具有反函數(shù)性,則存在規(guī)則:
如:
(3)關(guān)系謂詞具有對稱性,則存在規(guī)則:
如:
(4)關(guān)系謂詞加條件后具有對稱性,則存在規(guī)則:
如:
(5)關(guān)系謂詞具有傳遞性,則存在規(guī)則:
如:
(6)關(guān)系謂詞具有多重復(fù)合關(guān)系,則存在規(guī)則:
[with conditions]?
如:
(7)關(guān)系謂詞具有層次性,則存在規(guī)則:
如:
(8)關(guān)系謂詞具有互斥性,則存在規(guī)則:
如:
從實體的“parent”、“spouse”屬性中可以抽取出實體關(guān)系,將抽取出的實體關(guān)系和關(guān)系文件中給出的實體關(guān)系作為種子用于規(guī)則推理引擎的推理,規(guī)則推理引擎推理出的實體關(guān)系加入到種子集中。本文使用Drools和Tuffy兩種規(guī)則推理引擎。
4.3實體關(guān)系抽取
實體的“description”屬性由一個或多個句子組成,因此可以將“description”屬性看作是無結(jié)構(gòu)的文本。使用種子數(shù)據(jù)從實體的“description”屬性中抽取出至少包含一個實體且該實體不是當(dāng)前實體的分句,對于只包含一個實體的分句,使用簡單的規(guī)則加上當(dāng)前實體,這樣就得到訓(xùn)練數(shù)據(jù)。本文從實體的上下文、句法、詞性等信息中抽取特征訓(xùn)練分類器,從而完成關(guān)系抽取任務(wù)。每一種關(guān)系的抽取都視為一個二分類問題,為每一種關(guān)系訓(xùn)練一個分類模型。為某種關(guān)系訓(xùn)練分類模型時,當(dāng)前關(guān)系作為正例,其他所有關(guān)系作為負(fù)例。
4.3.1最短依賴路徑作為抽取特征
使用Stanford Parser對分句做依存關(guān)系分析,從產(chǎn)生的依賴路徑中學(xué)習(xí)出對關(guān)系抽取有用的patterns。以下面的句子為例:
姚沁蕾是籃球明星姚明的女兒。
產(chǎn)生的依賴路徑為:nsubj(女兒-7,姚沁蕾-1),cop(女兒-7,是-2),nn(明星-4,籃球-3),nn(女兒-7,明星-4),assmod(女兒-7,姚明-5),case(姚明-5,的-6),root(ROOT-0,女兒-7)。這些依賴路徑形成一個有向圖
這種路徑叫作核心路徑,可以看出核心路徑對預(yù)測兩個實體之間的關(guān)系是很有用的。
為了解決數(shù)據(jù)稀疏的問題,本文對核心路徑進行泛化,用詞性標(biāo)注取代核心路徑中的詞語。同時,所有的專有名詞都抽象為“NN”,所有的復(fù)合名詞(如“NN nn NN”)都抽象為“NN”。以上述核心路徑為例,泛化后的路徑為,把這種泛化后的核心路徑作為pattern。
由于產(chǎn)生的pattern比較稀疏,需要對pattern進行合并。pattern的合并分兩種情況:
(1)對pattern在一定的編輯范圍內(nèi)進行合并。如果一個pattern和另一個pattern只有一個詞性或依賴關(guān)系不同,就把這兩個pattern合并成“或”的關(guān)系。比如:pattern1為“prnmod VV dobj NN dep”,pattern2為“prnmod VV dobj NN assmod”,這兩個pattern只有一個依賴關(guān)系不同,可以合并成“prnmod VV dobj NN dep|assmod”。
(2)對pattern進行規(guī)約處理。如果一個pattern是另一個pattern的一部分,就把這兩個pattern合并成父子關(guān)系。比如:pattern1為“nsubj VV ccomp VV nsubj”,pattern2為“nsubj VV ccomp VV nsubj NN conj”,pattern1是子pattern,pattern2為父pattern,父pattern可以寫成“子pattern*”。
4.3.2關(guān)鍵詞作為抽取特征
分句中的關(guān)鍵詞對確定實體之間的關(guān)系非常有用。當(dāng)兩個分句的句式結(jié)構(gòu)相同時就需要通過關(guān)鍵詞語來確定實體之間的關(guān)系,以下面兩個句子為例:
姚沁蕾是籃球明星姚明的女兒。
張慕童是港星張智霖的兒子。
關(guān)鍵詞作為特征的表示形式為:“W1|W2|W3| W4|W5”,其中W1、W2、W3、W4和W5表示同一個意思的詞語,“|”表示或關(guān)系。使用Fudan Natural Language Process中的關(guān)鍵詞抽取方法抽取出每個分句的關(guān)鍵詞,抽取出的關(guān)鍵詞需要經(jīng)過詞義統(tǒng)一和詞義擴展兩步處理。詞義統(tǒng)一是為了使表示同一個意思的詞語為同一維特征,如“兒子”和“獨子”表示同一個意思;詞義擴展是為了使在訓(xùn)練數(shù)據(jù)中沒有出現(xiàn)但是和抽取的關(guān)鍵詞表示同一個意思的詞語為同一維特征,如從訓(xùn)練數(shù)據(jù)中抽取的關(guān)鍵詞沒有“次子”一詞,但“次子”和“兒子”、“獨子”表示同一個意思。經(jīng)過詞義統(tǒng)一和詞義擴展之后,表示“兒子”關(guān)系的這一維特征為“兒子|長子|獨子|次子|幼子”。
關(guān)系集R中的部分關(guān)系和實體的性別有關(guān),如“父親”、“女兒”等關(guān)系。實體本身具有的屬性對關(guān)系抽取很有幫助,因此對于和性別有關(guān)的關(guān)系,抽取特征除了最短依賴路徑和關(guān)鍵詞之外還包括實體的性別。本文對“父親”關(guān)系增加了一維其獨有的特征,就是判斷兩個實體的“姓”是否相同,如果相同就置這一維特征為“1”,否則為“0”。
并不是所有的特征都對分類有貢獻,因此在訓(xùn)練分類器之前要對特征進行特征選擇,本文選用信息增益作為特征選擇方法。雖然本文使用的方法是為每一種關(guān)系都訓(xùn)練一個分類模型,但是所有的分類模型包含的特征類型都相同。
5.1實驗數(shù)據(jù)與設(shè)置
本文所用的語料庫Corpus是百度知識圖譜大賽提供的3個數(shù)據(jù)文件:實體屬性文件、實體關(guān)系文件、實體模式文件。實體屬性文件(entity)共包含11 445個實體,描述的是每個實體所包含的屬性以及對應(yīng)的屬性值,實體屬性主要包括“name”、“sid”、“weight”、“height”、“description”、“parent”等屬性。實體關(guān)系文件(relation)用關(guān)系三元組
雖然本文方法是半監(jiān)督的,但是需要標(biāo)注數(shù)據(jù)去評估抽取質(zhì)量。本文使用準(zhǔn)確率Precision和召回率Recall作為評價標(biāo)準(zhǔn),若A表示抽取出的正確的關(guān)系三元組,B表示抽取出的錯誤的關(guān)系三元組,C表示沒有抽取出的關(guān)系三元組,則準(zhǔn)確率和召回率的定義分別如下:
5.2實驗結(jié)果與分析
5.2.1實體性別識別的結(jié)果分析
實體性別識別時所用的特征包括高頻詞(words)、“height”和“weight”屬性(attributes)、男女姓名庫(names)3類,每一類特征對實驗結(jié)果的影響如圖2(a)所示。本文在性別識別時選擇支持向量機、決策樹(decision tree,DT)、樸素貝葉斯(Na?ve Bayes,NB)和邏輯回歸(logistic regression,LR)4種不同的學(xué)習(xí)算法訓(xùn)練分類模型,對這些模型進行比較,選擇識別準(zhǔn)確率最高的模型作為最終的分類模型。不同學(xué)習(xí)算法的比較結(jié)果如圖2(b)所示。
5.2.2實體關(guān)系抽取的結(jié)果分析
Fig.2 Comparison of different feature combinations and models圖2 不同特征組合和模型比較
本文對“妻子”、“師生”、“祖孫”、“兄弟”和“父親”5種關(guān)系進行了實驗。根據(jù)4.2節(jié)的描述,使用規(guī)則推理引擎對種子關(guān)系三元組進行推理以增加種子的數(shù)量,對Drools和Tuffy兩種規(guī)則推理引擎的比較如表1所示。由于Tuffy執(zhí)行時把事實存放在關(guān)系數(shù)據(jù)庫中,判斷查詢通過SQL語句實現(xiàn),由于用到數(shù)據(jù)庫技術(shù),所需的內(nèi)存就較小,但是本地I/O頻繁,導(dǎo)致運行速度較慢;而Drools執(zhí)行時把事實存放在內(nèi)存中,使用Rete算法對判斷和查詢進行優(yōu)化,因此所需的內(nèi)存較大,但是運行速度快。本文選擇了Drools作為規(guī)則推理引擎。
Table 1 Comparison of rule-based inference engines表1 規(guī)則推理引擎的比較
使用推理前和推理后的種子數(shù)據(jù)分別進行實驗,這里只使用NaiveBayes作為分類器,對抽取結(jié)果的影響如表2所示。使用規(guī)則推理引擎推理后,種子數(shù)據(jù)的數(shù)量增加,對于“妻子”一些關(guān)系的準(zhǔn)確率會有所降低,但是抽取出的條數(shù)會大幅度增多,大大提高了召回率。
Table 2 Reasoning comparison表2 推理前后比較
本文試圖找到最適合的種子數(shù)量去學(xué)習(xí)最佳的分類模型,這里只使用Na?ve Bayes分類器,不同數(shù)量的種子對抽取的準(zhǔn)確率和召回率的影響分別如圖3 (a)和圖3(b)所示。本文綜合考慮準(zhǔn)確率和召回率,在保證有較高準(zhǔn)確率的前提下又有較高的召回率。為每一種關(guān)系選擇了一個最佳的種子數(shù)量,“妻子”、“師生”、“祖孫”、“兄弟”和“父親”5種關(guān)系的最佳種子數(shù)量分別是50、20、30、30和100。但是在關(guān)系文件中5種關(guān)系的種子數(shù)都達不到上述標(biāo)準(zhǔn),因此需要使用規(guī)則推理引擎推理出更多的關(guān)系三元組加入到種子集中。
根據(jù)4.3節(jié)的描述,本文對pattern特征進行合并處理,pattern合并前后的準(zhǔn)確率如圖4(a)所示。對關(guān)鍵詞特征進行了合并擴展處理,關(guān)鍵詞合并擴展前后的準(zhǔn)確率如圖4(b)所示??梢钥闯觯瑢attern進行合并和對關(guān)鍵詞進行合并擴展可以提高抽取的準(zhǔn)確率。
在對每一種關(guān)系進行分類時,本文同樣選擇了4種不同的學(xué)習(xí)算法SVM、DT、NB和LR訓(xùn)練分類模型,不同學(xué)習(xí)算法對結(jié)果的影響如表3所示。本文綜合考慮抽取的準(zhǔn)確率和召回率為不同的關(guān)系選擇不同的分類模型,對于“兄弟”關(guān)系,NB學(xué)習(xí)算法明顯優(yōu)于其他學(xué)習(xí)算法,但對于“祖孫”關(guān)系,各種學(xué)習(xí)算法沒有很大區(qū)別。
Fig.3 Precision and recall of different seed amount圖3 不同種子數(shù)下的準(zhǔn)確率和召回率
Fig.4 Comparison of pattern and keyword圖4 Pattern和關(guān)鍵詞的比較
Table 3 Comparison for different models表3 不同模型的比較
本文針對傳統(tǒng)實體關(guān)系抽取需要人工標(biāo)注大量數(shù)據(jù)并只注重一種特定類型的數(shù)據(jù)源的問題,提出了一種基于規(guī)則推理引擎的從多種數(shù)據(jù)源抽取實體關(guān)系的方法。從實體的多種屬性中抽取出實體關(guān)系,經(jīng)規(guī)則推理引擎推理出更多的實體關(guān)系作為種子;幫助從無結(jié)構(gòu)的文本中抽取實體關(guān)系。本文方法的優(yōu)點在于將實體關(guān)系推理和實體關(guān)系抽取結(jié)合起來,大大增加了訓(xùn)練數(shù)據(jù)的數(shù)量,解決了人工標(biāo)注大量數(shù)據(jù)的問題。在數(shù)據(jù)集上的實驗結(jié)果表明,本文方法達到較高的準(zhǔn)確率和召回率。接下來計劃將規(guī)則推理引擎應(yīng)用于其他領(lǐng)域的關(guān)系推理中。本文方法在百度知識圖譜大賽中獲得第一名的成績。
References:
[1]Hao Qiang,Cai Rui,Pang Yanwei,et al.From one tree to a forest:a unified solution for structured Web data extraction [C]//Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval,Beijing,China,Jul 24-28,2011.New York:ACM, 2011:775-784.
[2]Gulhane P,Madaan A,Mehta R,et al.Web-scale information extraction with vertex[C]//Proceedings of the 2011 IEEE 27th International Conference on Data Engineering,Hannover,Germany,Apr 11-16,2011.Piscataway,USA:IEEE, 2011:1209-1220.
[3]Agichtein E,Gravano L.Snowball:extracting relations from large plain-text collections[C]//Proceedings of the 5th ACM Conference on Digital Libraries,San Antonio,USA, Jun 2-7,2000.New York:ACM,2000:85-94.
[4]Banko M,Cafarella M J,Soderland S,et al.Open information extraction from the Web[C]//Proceedings of the 20th International Joint Conference on Artificial Intelligence, Hyderabad,India,Jan 6-12,2007:2670-2676.
[5]Fader A,Soderland S,Etzioni O.Identifying relations for open information extraction[C]//Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing,Edinburgh,UK,Jul 27-31,2011.Stroudsburg, USA:ACL,2011:1535-1545.
[6]Wu Fei,Weld D S.Open information extraction using Wikipedia[C]//Proceedings of the 48th Annual Meeting of the AssociationforComputationalLinguistics,Uppsala,Sweden, Jul 11-16,2010.Stroudsburg,USA:ACL,2010:118-127.
[7]Mausam,Schmitz M,Bart R,et al.Open language learning for information extraction[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, Jeju Island,Korea,Jul 12-14,2012.Stroudsburg,USA: ACL,2012:523-534.
[8]Carlson A,Betteridge J,Kisiel B,et al.Toward an architecture for never-ending language learning[C]//Proceedings of the 24th AAAI Conference on Artificial Intelligence,Atlanta, USA,Jul 11-15,2010.Menlo Park,USA:AAAI,2010.
[9]Suchanek F M,Sozio M,Weikum G.SOFIE:a self-organizing framework for information extraction[C]//Proceedings of the 18th International Conference on World Wide Web,Madrid,Spain,Apr 20-24,2009.NewYork:ACM,2009:631-640.
[10]Nakashole N,Theobald M,Weikum G.Scalable knowledge harvesting with high precision and high recall[C]//Proceedings of the 4th ACM International Conference on Web Search and Data Mining,Hong Kong,China,Feb 9-12,2011. New York:ACM,2011:227-236.
[11]Wu Fei,Weld D S.Autonomously semantifying Wikipedia [C]//Proceedings of the 16th ACM Conference on Information and Knowledge Management,Lisbon,Portugal,Nov 6-10,2007.New York:ACM,2007:41-50.
[12]Wu Fei,Weld D S.Automatically refining the Wikipedia infobox ontology[C]//Proceedings of the 17th International Conference on World Wide Web,Beijing,China,Apr 21-25,2008. New York:ACM,2008:635-644.
[13]Gentile A L,Zhang Ziqi,Ciravegna F.Web scale information extraction with LODIE[C]//AAAI 2013 Fall Symposium,Semantics for Big Data,Arlington,USA,Nov 15-17, 2013.Menlo Park,USA:AAAI,2013.
[14]Mintz M,Bills S,Snow R,et al.Distant supervision for relation extraction without labeled data[C]//Proceedings of the 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing of the AFNLP,Singapore,Aug 2-7,2009.Stroudsburg,USA:ACL,2009:1003-1011.
[15]Roth B,Barth T,Wiegand M,et al.Effective slot filling based on shallow distant supervision methods[C]//Proceedings of the 6th Text Analysis Conference,Gaithersburg, USA,Nov 18-19,2013.arXiv:1401.1158.
XUE Lijuan was born in 1988.She is an M.S.candidate at East China University of Science and Technology. Her research interests include natural language processing,data mining and information extraction,etc.
薛麗娟(1988—),女,安徽當(dāng)涂人,華東理工大學(xué)碩士研究生,主要研究領(lǐng)域為自然語言處理,數(shù)據(jù)挖掘,信息抽取等。
XI Menglong was born in 1991.He is an M.S.candidate at East China University of Science and Technology. His research interests include question answer system,data mining and knowledge graph,etc.
席夢隆(1991—),男,河南登封人,華東理工大學(xué)碩士研究生,主要研究領(lǐng)域為問答系統(tǒng),數(shù)據(jù)挖掘,知識圖譜等。
WANG Mengjie was born in 1993.She is an M.S.candidate at East China University of Science and Technology. Her research interests include natural language processing,information extraction and data mining,etc.
王夢婕(1993—),女,安徽亳州人,華東理工大學(xué)碩士研究生,主要研究領(lǐng)域為自然語言處理,信息抽取,數(shù)據(jù)挖掘等。
WANG Haofen was born in 1982.He received the Ph.D.degree from Shanghai Jiao Tong University in 2013. Now he is a lecturer at East China University of Science and Technology.His research interests include semantic search,graph database,Web mining and information extraction,etc.
王昊奮(1982—),男,上海人,2013年于上海交通大學(xué)獲得博士學(xué)位,現(xiàn)為華東理工大學(xué)講師,主要研究領(lǐng)域為語義搜索,圖數(shù)據(jù)庫,Web挖掘,信息抽取等。
RUAN Tong was born in 1973.She received the Ph.D.degree from Chinese Academy of Sciences in 2002.Now she is a professor and M.S.supervisor at East China University of Science and Technology.Her research interests include natural language processing,information extraction and data quality,etc.
阮彤(1973—),女,上海人,2002年于中國科學(xué)院獲得博士學(xué)位,現(xiàn)為華東理工大學(xué)教授、碩士生導(dǎo)師,主要研究領(lǐng)域為自然語言處理,信息抽取,數(shù)據(jù)質(zhì)量等。
Entity Relation Extraction Based on Rule Inference Engine*
XUE Lijuan,XI Menglong,WANG Mengjie,WANG Haofen,RUAN Tong+
College of Information Science and Engineering,East China University of Science and Technology,Shanghai 200237,China
+Corresponding author:E-mail:ruantong@ecust.edu.cn
XUE Lijuan,XI Menglong,WANG Mengjie,et al.Entity relation extraction based on rule inference engine. Journal of Frontiers of Computer Science and Technology,2016,10(9):1310-1319.
Entity relation extraction refers to extract semantic relationships between entities from unstructured natural language text and express in a structured form.Traditional entity relation extraction methods only focus on a particular type of data source,and label large numbers of training data by humans to train extraction model.Manually labeling training data are labor-intensive and time consuming.So this paper proposes a method integrating diversity data sources, and combines rule-based inference engine to discover relation triples.More precisely,integrating structured and unstructured data sources,and in the case of having small amount of seeds provided by structured data,a large number of entity relationships are reasoned by rule-based inference engine.The newly entity relationships are fed as seeds to distantly supervise the learning process to extract entity relationships from unstructured text.The final entity relationships are obtained through multiple iterations.The experimental results show the effectiveness of the proposed method.
relation extraction;relation reasoning;distant supervision;rule-based inference engine
實體關(guān)系抽取是指從無結(jié)構(gòu)的自然語言文本中抽取實體之間的語義關(guān)系,并以結(jié)構(gòu)化的形式表示出來。傳統(tǒng)的實體關(guān)系抽取方法只注重一種特定類型的數(shù)據(jù)源,并需要標(biāo)注大量的訓(xùn)練數(shù)據(jù)來訓(xùn)練抽取模型,人工成本高。因此提出了一種綜合多種數(shù)據(jù)源,并結(jié)合規(guī)則推理引擎的實體關(guān)系抽取方法,準(zhǔn)確地說就是綜合結(jié)構(gòu)化和非結(jié)構(gòu)化兩種數(shù)據(jù)源,在結(jié)構(gòu)化數(shù)據(jù)提供少量種子的情況下用規(guī)則推理引擎推理出更多的實體關(guān)系。然后使用遠(yuǎn)程監(jiān)督學(xué)習(xí)方法從無結(jié)構(gòu)的文本中抽取實體關(guān)系,通過多次迭代獲得最終的實體關(guān)系。實驗結(jié)果證明了該方法的有效性。
2015-08,Accepted 2015-10.
*The Software and Integrated Circuit Industry Development Special Funds of Shanghai Economic and Information Commission under Grant No.140304(上海市經(jīng)信委“軟件和集成電路產(chǎn)業(yè)發(fā)展專項資金”).
CNKI網(wǎng)絡(luò)優(yōu)先出版:2015-10-20,http://www.cnki.net/kcms/detail/11.5602.TP.20151020.1042.016.html
A
TP391