母克東,萬琪
(四川大學(xué)計算機學(xué)院,成都 610065)
關(guān)系抽取研究綜述
母克東,萬琪
(四川大學(xué)計算機學(xué)院,成都 610065)
信息抽取、自然語言理解、信息檢索等應(yīng)用需要更好地理解兩個實體之間的語義關(guān)系,對關(guān)系抽取進(jìn)行概況總結(jié)。將關(guān)系抽取劃分為兩個階段研究:特定領(lǐng)域的傳統(tǒng)關(guān)系抽取和開放領(lǐng)域的關(guān)系抽取。并對關(guān)系抽取從抽取算法、評估指標(biāo)和未來發(fā)展趨勢三個部分對關(guān)系抽取系統(tǒng)進(jìn)行系統(tǒng)的分析總結(jié)。
關(guān)系抽?。粰C器學(xué)習(xí);信息抽取;開放關(guān)系抽取
隨著大數(shù)據(jù)的不斷發(fā)展,海量信息以半結(jié)構(gòu)或者純原始文本的形式展現(xiàn)給信息使用者,如何采用自然語言處理和數(shù)據(jù)挖掘相關(guān)技術(shù)從中幫助用戶獲取有價值的信息,是當(dāng)代計算機研究技術(shù)迫切的需求。因此,信息抽取技術(shù)應(yīng)運而生,信息抽取的主要目的是從自然語言文本中抽取指定的實體(Entity)、關(guān)系(Relation)、事件(Event)等事實信息。信息抽取技術(shù)可以經(jīng)過一些列處理把文本中蘊含的無規(guī)律化信息轉(zhuǎn)化成結(jié)構(gòu)化的信息存儲到數(shù)據(jù)庫中,方便用戶快速獲取急需的信息,而關(guān)系抽取(Relation Extraction)是信息抽取的一個重要子任務(wù),首次于1998年在MUC[1]會議正式提出,主要任務(wù)是確定兩個實體之間的語義關(guān)系。實體關(guān)系抽取技術(shù)已經(jīng)被廣泛應(yīng)用到信息檢索(information extraction)、基因疾病關(guān)系挖掘(gene-disease)、蛋白質(zhì)交互作用(protein-protein)等眾多應(yīng)用領(lǐng)域。
實體間的關(guān)系可被形式化描述為關(guān)系三元組<E1,R,E2>,其中E1和E2是實體類型,R是關(guān)系描述類型。實體關(guān)系抽取的主要目的是把無結(jié)構(gòu)的自然語言文本中所蘊含的實體語義關(guān)系挖掘出來,整理成三元組<E1,R,E2>存儲在數(shù)據(jù)庫中,供進(jìn)一步分析利用或查詢。當(dāng)前主流關(guān)系抽取研究主要朝著2個方向進(jìn)行:面向領(lǐng)域的傳統(tǒng)關(guān)系抽?。═raditional Relation Extraction, TRE)和開放領(lǐng)域的關(guān)系抽?。∣pen Relation Extraction, ORE)。
1.1 特定領(lǐng)域的傳統(tǒng)關(guān)系抽取
(1)基于規(guī)則的方法
基于規(guī)則的方法需要提前定義能夠描述兩個實體所在結(jié)構(gòu)的規(guī)則,Aone等人[2]通過對語料文本特點總結(jié),邀請知識領(lǐng)域?qū)<揖帉懳谋娟P(guān)系描述規(guī)則從而抽取關(guān)系實例。Humphreys等人[3]首先對句子進(jìn)行句法樹分析,從而手工構(gòu)造一系列復(fù)雜的規(guī)則識別實體之間的語義關(guān)系。此方法要求規(guī)則構(gòu)建者對領(lǐng)域的背景和特點有深入的了解,缺點是人工參與量大大,難以移植到其他領(lǐng)域。
(2)基于機器學(xué)習(xí)的方法
目前基于機器學(xué)習(xí)的實體關(guān)系抽取的研究主要集中于以下三類方法:有指導(dǎo)方法、半指導(dǎo)、無指導(dǎo)的方法。
①有指導(dǎo)的關(guān)系抽?。⊿upervised Approaches)
有指導(dǎo)方法將關(guān)系抽取看作一個分類問題,即通過2個實體的一系列特征來判斷該實體對是否屬于提前定義好的關(guān)系類型。這類方法一般需要人工標(biāo)注足夠多的數(shù)據(jù)作為訓(xùn)練語料庫,然后抽取能描述刻畫關(guān)系表達(dá)的上下文特征,利用不同的分類模型對關(guān)系實例進(jìn)行學(xué)習(xí)判別,對新來的實體關(guān)系樣例進(jìn)行關(guān)系類型預(yù)測。其算法框架如圖1所示。
圖1 有指導(dǎo)方法框架
基于特征向量抽取以及基于核函數(shù)的方法是當(dāng)前實體關(guān)系抽取領(lǐng)域最流行的基于有指導(dǎo)的方法。
基于特征向量抽取的方法主要從關(guān)系實例實體的上下文信息、詞性、句法等信息中抽取一系列特征[f1,f2,…,fn]訓(xùn)練一個分類器(樸素貝葉斯、支撐向量機、最大熵等),從而完成關(guān)系抽取任務(wù)。Kambhatla等人[4]首次采用最大熵分類器對關(guān)系抽取進(jìn)行建模,考慮實體上下文信息、句法分析樹、依存關(guān)系在內(nèi)的多種特征,結(jié)果表明實體上下文豐富的語言特征對關(guān)系表達(dá)具有豐富的價值,為后續(xù)關(guān)系抽取奠定了基礎(chǔ)。Jiang等人[5]對從各種信息中抽取特征進(jìn)行了系統(tǒng)性的研究和描述,根據(jù)自然語言處理技術(shù)復(fù)雜度不同,將特征按照不同的維度劃分為不同的子空間,實驗結(jié)果表明這種劃分在一定程度上能有效提升關(guān)系結(jié)果的準(zhǔn)確率。董靜等人[6]結(jié)合中文語料庫的特點,將實體關(guān)系劃分為包含實體關(guān)系抽取子任務(wù)以及非包含實體關(guān)系抽取子任務(wù),采用不同的句法特征、詞匯特征等信息,在條件隨機場模型下,在ACE2007語料庫中進(jìn)行實驗,取得較好的抽取效果。
基于核函數(shù)的方法是指利用核函數(shù)直接計算兩個實例之間的相似度來訓(xùn)練關(guān)系分類模型。最核心的一步是如何設(shè)計計算兩個實例(X,Y)相似度的核函數(shù)K(X,Y)。Bunescu等人[7]對短語句法和依存句法上的核函數(shù)進(jìn)行深入的研究。Zhang M等人[8]和Zhou GD等人[9]利用兩個實體間最短路徑封閉樹(Shortest Path Enclosed Tree),考慮不同層面語義關(guān)系特征,定義了基于樹的卷積核(Convolution Tree Kernel),并綜合考慮謂詞上下文,實驗結(jié)果表明在關(guān)系抽取任務(wù)中使用卷積核函數(shù)可以得到更好的性能。
②半指導(dǎo)的關(guān)系抽取(Semi-supervised Approaches)
半指導(dǎo)的關(guān)系抽取方法是從關(guān)系種子(Seed)進(jìn)行自舉(Bootstrapping),在一定包含種子實例的文本語料庫中抽取實體之間的關(guān)系。典型工作有DIPRE[10]、Snowball[11]、KnowItAll[12]。該方法優(yōu)點在于不需要訓(xùn)練語料,從而可以有效地減少對標(biāo)注語料的依賴和人工參與,而且能獲得很高的準(zhǔn)確率,并且能自動擴展到大規(guī)模語料的任務(wù)中,目前廣泛被使用。缺點在于,對初識種子的依賴程度很敏感,必須要具有一定的代表性和一般性。該方法目前研究重點在于如何獲取可信度較高的新關(guān)系實例和抽取模板。
③無指導(dǎo)的關(guān)系抽?。║nsupervised Approaches)
無指導(dǎo)的關(guān)系抽取一種自底向上的信息抽取策略,直接從大規(guī)模的文本數(shù)據(jù)集出發(fā),假設(shè)擁有相同關(guān)系類型的實體對,可以通過相似的上下文信息來表達(dá)刻畫,可以通過聚類(Cluster)的方法來自動抽取其上下文集合來刻畫實體對的語義關(guān)系。Hasegawa等人[13]利用前面的假設(shè)信息,通過對2個實體之間的文本信息聚類,類簇集合來表達(dá)關(guān)系類別,結(jié)果表明聚類方法在關(guān)系抽取中具有很好的可行性。Zhang等人[14]利用淺層句法樹(shallow parsing tree)來表達(dá)關(guān)系,利用自頂向下層次聚類算法,自己定義句法樹之間的相似度函數(shù),從而獲取關(guān)系抽取結(jié)果。無指導(dǎo)方法優(yōu)點在于不依賴當(dāng)前實體關(guān)系類型定義體系,從而方便算法進(jìn)行跨領(lǐng)域的移植,缺點在于該方法產(chǎn)生的聚類結(jié)果很依賴語料庫的質(zhì)量,并且很多結(jié)果并沒有實際的意義,難以定義合適的類別給類簇,另外,該方法對低頻的實體對處理能力有限,往往還需要進(jìn)行人工篩選,準(zhǔn)確性和完整性沒有統(tǒng)一的評價標(biāo)準(zhǔn)。
1.2 開放領(lǐng)域的關(guān)系抽取
開放領(lǐng)域關(guān)系抽取使用兩個實體上下文中的一些詞語來描述實體之間的語義關(guān)系,從而避免構(gòu)建關(guān)系類型體系。主要任務(wù)是從文本中抽取關(guān)系三元組(實體1,關(guān)系指示詞,實體2),其中關(guān)系指示詞是指上下文中能夠描述實體對語義關(guān)系的詞或詞序列。Banko等人[15]最早提出開放式關(guān)系抽?。∣RE)的概念,利用啟發(fā)式規(guī)則和簡單的句法特征訓(xùn)練分類器的TextRunner系統(tǒng)。Wu等人[16]提出WOE系統(tǒng),使用維基百科中信息框來標(biāo)注關(guān)系抽取語料。Yao等人[17]認(rèn)為一個關(guān)系模板可以描述不同的關(guān)系樣例,提出了基于LDA的關(guān)系模板聚類方法構(gòu)建關(guān)系類型體系。
對于傳統(tǒng)的關(guān)系抽取研究一般是在某個具體的領(lǐng)域語料定義多個關(guān)系類別,對每個子類別進(jìn)行評估或者對多個類別進(jìn)行評價評估。針對整個關(guān)系結(jié)果,可以通過計算對應(yīng)的準(zhǔn)確率(Precision)、召回率(Recall)和F1度量值來衡量抽取結(jié)果,其對應(yīng)的公式如下:
其中ri表示正確識別的第i個類別的實例數(shù)目;ti被識別成第i類的關(guān)系實例數(shù)目;ai實際上是第i類關(guān)系的實例數(shù)目。
對于開放關(guān)系抽取,一般通過考察抽取關(guān)系的準(zhǔn)確性來評價系統(tǒng)性能。綜合考慮算法的時間復(fù)雜度(運行時間)和空間復(fù)雜度。
3.1 從二元關(guān)系抽取到多元關(guān)系抽取的轉(zhuǎn)化
當(dāng)前的關(guān)系抽取系統(tǒng)主要集中在兩個實體之間的二元關(guān)系抽取,但不是所有的關(guān)系都是二元的,如有些關(guān)系實例需要考慮時間和地點等信息,所以會考慮更多的論元。
3.2 面向知識庫構(gòu)建的關(guān)系抽取
當(dāng)前主流思想是采用遠(yuǎn)距離監(jiān)督(Distant Supervision)方法,即利用已有知識庫(FreeBase、維基百科等)蘊含的潛在的關(guān)系信息作為背景,并訓(xùn)練出一個潛在的關(guān)系分類抽取模型,在大規(guī)模未標(biāo)注的語料上獲取帶有一定可信軟關(guān)系類標(biāo)的關(guān)系實例,從而補充已有知識庫。
3.3 領(lǐng)域自適應(yīng)的關(guān)系抽取
目前的研究工作主要面向特定的關(guān)系類型或者特定領(lǐng)域,使用特定的語料庫,很難做到領(lǐng)域自動遷移,所以,是否可以搞一套領(lǐng)域自適應(yīng)的關(guān)系抽取研究框架,系統(tǒng)可以自動發(fā)現(xiàn)關(guān)系類型、挖掘關(guān)系描述模式、抽取實體對?;蛘咴谝延蓄I(lǐng)域標(biāo)注語料庫基礎(chǔ)上,使用遷移學(xué)習(xí)(transfer learning)的方法推廣到其他領(lǐng)域。
綜上所述,經(jīng)過多年的發(fā)展,關(guān)系抽取的相關(guān)理論和方法已經(jīng)越來越完善,從最開始的基于規(guī)則的匹配到后面的基于機器學(xué)習(xí)的方法,到現(xiàn)在流行的開放領(lǐng)域關(guān)系抽取。關(guān)系抽取已經(jīng)變成機器學(xué)習(xí)和人工智能的重要研究方向,其關(guān)注點已從特定領(lǐng)域、特定類型的關(guān)系分類轉(zhuǎn)變?yōu)槊嫦騑eb大規(guī)模語料的開放實體關(guān)系自動發(fā)現(xiàn)。隨著關(guān)系抽取技術(shù)進(jìn)一步發(fā)展,將對大數(shù)據(jù)處理、QA系統(tǒng)、本體自動構(gòu)建、醫(yī)學(xué)信息學(xué)等領(lǐng)域產(chǎn)生深遠(yuǎn)的作用。
[1] Automatic Content Extraction(ACE)Evaluation[EB/OL].[2013-06-24].http://www.itl.nist.gov/iad/mig//tests/ace/
[2] Aone C,Halverson L,Hampton T,et al.SRA:Description of the IE2 System Used for MUC-7[C].(MUC-7),1998
[3] Kambhatla N.Combining Lexical,Syntactic,Semantic Features with Maximum Entropy Models for Extracting Relations[C]ACL 2004
[4] Humphreys K,Gaizauskas R,Azzam S,et al.University of Sheffield:Description of the LaSIE-II System as Used for MUC-7[C].In: Proceedings of the 7th Message Understanding Conference(MUC-7),1998
[5] Jiang J,Zhai C X.A Systematic Exploration of the Feature Space for Relation Extraction[C].NAACL-HLT'07.2007:113~120
[6] 董靜,孫樂,馮元勇,等.中文實體關(guān)系抽取中的特征選擇研究[J].中文信息學(xué)報,2007,21(4):80~85
[7] Bunescu R C,Mooney R J.A Shortest Path Dependency Kernel for Relation Extraction[C].ACL,2005:724~731
[8] Zhang M,Zhang J,Su J,et al.A Composite Kernel to Extract Relations Between Entities with Both Flat and Structured Features[C]. ACL,2006:825~832
[9] Zhou G D,Zhang M,Ji D H,et al.Tree Kernel-based Relation Extraction with Context-Sensitive Structured Parse Tree Information[C].EMNLP/CoNLL-2007.2007:728~736
[10] Brin S.Extracting Patterns and Relations from the World Wide Web[C].In:Proceedings of International Workshop on the World Wide Web and Databases.London,UK:Springer-Verlag,1999:172~183
[11] Agichtein E,Gravano L.Snowball:Extracting Relations from Large Plain-text Collections[C].In:Proceedings of the 5th ACM Conference on Digital Libraries.ACM,2000:85~94
[12] Etzioni O,Cafarella M,Downey D,et al.Unsupervised Named-entity Extraction from the Web:An Experimental Study[J].Artificial Intelligence,2005,165(1):91~134
[13] Hasegawa T,Sekine S,Grishman R.Discovering Relations Among Named Entities from Large Corpora[C].ACL 2004
[14] Zhang M,Su J,Wang D,et al.Discovering Relations Between Named Entities from a Large Raw Corpus Using Tree Similarity-based Clustering[C].IJCNLP'05.Berlin,Heidelberg:Springer-Verlag,2005:378~389
[15] Banko M.Open Information Extraction for the Web[D].University of Washington,2009
[16] Wu F,Weld D S.Open information extraction using Wikipedia.ACL'10.2010:118~127
[17] Yao L,Riedel S,McCallum A.Unsupervised Relation Discovery with Sense Disambiguation.ACL'12.2012:712~720
Survey of the Research on Relation Extraction
MU Ke-dong,WAN Qi
(School of Computer Science,Sichuang University,Chengdu 610065)
Many applications in natural language understanding,information extraction,information retrieval require an understanding of the semantic relations between entities.Carries on the summary to the relation extraction.There are two paradigms extracting the relation-ship between two entities:the Traditional Relation Extraction and the Open Relation Extraction.Makes detailed introduction and analysis of the algorithm of relation extraction,evaluation indicators and the future of the relation extraction system.
Relation Extraction;Information Extraction;Machine Learning;Open Relation Extraction
1007-1423(2015)03-0018-04
10.3969/j.issn.1007-1423.2015.03.005
母克東(1989-),男,四川南充人,碩士研究生,講師,研究方向為數(shù)據(jù)挖掘與自然語言處理
萬琪(1991-),男,湖北荊門人,碩士研究生,研究方向為數(shù)據(jù)挖掘與自然語言處理
2014-12-09
2014-12-29