亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于合一句法和實(shí)體語(yǔ)義樹的中文語(yǔ)義關(guān)系抽取

2010-06-19 06:25:42虞歡歡錢龍華周國(guó)棟朱巧明

中文信息學(xué)報(bào) 2010年5期

虞歡歡,錢龍華,周國(guó)棟,朱巧明

(1.蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇蘇州 215006;2.江蘇省計(jì)算機(jī)信息處理技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇蘇州 215006)

1 引言

信息抽取(IE,Information Extraction)是自然語(yǔ)言處理領(lǐng)域的一個(gè)熱門研究課題,旨在解決如何從大量的自然語(yǔ)言文本(如Web網(wǎng)頁(yè))中識(shí)別出相關(guān)信息,然后轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)起來。根據(jù)ACE對(duì)目前信息抽取定義的任務(wù)看,信息抽取主要包括實(shí)體識(shí)別和跟蹤(EDT,Entity Detection and Tracking)、關(guān)系識(shí)別和描述(RDC,Relation Detection and Characterization)以及事件識(shí)別和描述(EDC,Event Detection and Characterization)三個(gè)方面的子任務(wù)。本文的研究重點(diǎn)是關(guān)系識(shí)別和描述,也就是通常所指的命名實(shí)體間語(yǔ)義關(guān)系抽取,有時(shí)候簡(jiǎn)稱為語(yǔ)義關(guān)系抽取。

目前主流的語(yǔ)義關(guān)系抽取方法主要是基于機(jī)器學(xué)習(xí)的有指導(dǎo)方法。根據(jù)關(guān)系實(shí)例的表示方法,它又可分為基于特征向量的方法和基于核函數(shù)的方法。

典型的基于特征向量的方法包括在英文語(yǔ)料庫(kù)上的最大熵模型(MaxEnt)[1]和支持向量機(jī)(SVM)[2-4]等。在中文語(yǔ)義關(guān)系抽取方面,車萬(wàn)翔等[5]提取了實(shí)體的類型/小類、實(shí)體間的位置關(guān)系、實(shí)體前后的詞匯等信息,然后采用SVM方法進(jìn)行訓(xùn)練和分類。在ACE RDC 2004中文語(yǔ)料庫(kù)上的七個(gè)大類的關(guān)系抽取實(shí)驗(yàn)表明,其最好的F指數(shù)達(dá)到了73.3。董靜等[6]則進(jìn)一步將關(guān)系實(shí)例劃分為包含關(guān)系和非包含關(guān)系,并在詞匯、實(shí)體類型和相對(duì)位置等特征的基礎(chǔ)上對(duì)非包含關(guān)系再加入句法結(jié)構(gòu)信息(如兩個(gè)實(shí)體的祖先結(jié)點(diǎn)、實(shí)體之間的路徑、依存動(dòng)詞及實(shí)體到依存動(dòng)詞的路徑等)。采用條件隨機(jī)場(chǎng)(CRF,Conditional Random Fields)方法在ACE RDC 2007中文語(yǔ)料庫(kù)上的關(guān)系抽取測(cè)試中,最佳F指數(shù)達(dá)到了65.8。文獻(xiàn)[7]則進(jìn)一步探索了實(shí)體間的結(jié)構(gòu)關(guān)系(如包含關(guān)系、鄰近關(guān)系和分隔關(guān)系等)對(duì)抽取性能的影響,同時(shí)采用基于字的一元或二元上下文特征以避免中文分詞錯(cuò)誤所帶來的問題?；谔卣飨蛄康姆椒ūM管速度很快,然而由于實(shí)體間語(yǔ)義關(guān)系表達(dá)的復(fù)雜性和可變性,要抽取出新的詞匯、句法或語(yǔ)義特征從而進(jìn)一步提高關(guān)系抽取的性能已經(jīng)很困難了。

另一方面,由于核方法可以充分利用特征方法無(wú)法表示的結(jié)構(gòu)化信息,因此在語(yǔ)義關(guān)系抽取方面獲得了廣泛的應(yīng)用,如淺層句法樹核[8]、依存樹核[9]、最短路徑依存樹核[10]、卷積樹核[11-13]。在中文語(yǔ)義關(guān)系抽取方面,文獻(xiàn)[14-15]分別采用編輯距離核函數(shù)和字符串核函數(shù)來比較中文詞串的相似度,并在比較過程中考慮了一定的詞匯語(yǔ)義相似度,在少量關(guān)系種類的抽取實(shí)驗(yàn)中取得了不錯(cuò)的性能。文獻(xiàn)[16]初步探索了卷積樹核函數(shù)和最短依存樹核函數(shù)在中文語(yǔ)義關(guān)系抽取中的應(yīng)用,不過在ACE RDC 2007中文語(yǔ)料庫(kù)上的大類關(guān)系抽取測(cè)試結(jié)果表明,其性能極低(F指數(shù)約為30)。當(dāng)然,這并不說明核方法本身存在問題,而只能說明在中文關(guān)系抽取中較難找到能合理和確切表示語(yǔ)義關(guān)系的結(jié)構(gòu)化信息以及結(jié)構(gòu)化信息的相似度計(jì)算方法?？偟膩碚f,在中文語(yǔ)義關(guān)系抽取的研究中,由于是研究人員采用的語(yǔ)料庫(kù)、所抽取的關(guān)系類別及實(shí)驗(yàn)方法等方面的不同,往往難于判斷抽取方法本身的好壞。

受卷積樹核函數(shù)在英文領(lǐng)域的關(guān)系抽取中的成功[13]所啟發(fā),本文深入探討了卷積樹核函數(shù)在中文語(yǔ)義關(guān)系抽取中的有效性問題。在采用最短路徑包含樹來表示關(guān)系實(shí)例的基礎(chǔ)上,進(jìn)一步加入實(shí)體類型、引用類型、GPE角色等與實(shí)體相關(guān)的語(yǔ)義信息,從而生成合一句法和實(shí)體語(yǔ)義關(guān)系樹。在ACE RDC 2005基準(zhǔn)語(yǔ)料上的測(cè)試表明,該方法能顯著提高中文語(yǔ)義關(guān)系抽取系統(tǒng)的性能,實(shí)驗(yàn)結(jié)果與原型系統(tǒng)相比有了明顯的提高。

2 基于合一句法和實(shí)體語(yǔ)義樹的中文語(yǔ)義關(guān)系抽取

本節(jié)首先介紹了關(guān)系實(shí)例的結(jié)構(gòu)化實(shí)例表示方法,然后描述了合一句法和實(shí)體語(yǔ)義樹的構(gòu)造方法,最后說明本文所使用的樹相似度計(jì)算方法—卷積樹核函數(shù)。

2.1 結(jié)構(gòu)化關(guān)系實(shí)例表示方法

在語(yǔ)義關(guān)系抽取中最先可用的結(jié)構(gòu)化信息是最小完全句法樹(Minimum Complete Tree,MCT),即在完全句法樹中包含關(guān)系的兩個(gè)實(shí)體且未作任何修改的最小部分,如圖1(左)。MCT雖然包含了豐富的結(jié)構(gòu)化信息,有利于語(yǔ)義關(guān)系的抽取,但是對(duì)于關(guān)系的識(shí)別而言,由于其規(guī)模過于龐大,且包含了太多的與語(yǔ)義關(guān)系無(wú)關(guān)的噪音,并不適合于基于卷積樹核函數(shù)的語(yǔ)義關(guān)系抽取。

為了尋找更合適的用于語(yǔ)義關(guān)系抽取的結(jié)構(gòu)化信息,Zhang等[11]中提出了五種句法樹的擴(kuò)展方法,其中最短路徑包含樹(Shortest Path-Enclosed Tree,簡(jiǎn)稱PT)結(jié)構(gòu)取得的效果最好。這種樹是以兩個(gè)實(shí)體的最近公共父節(jié)點(diǎn)為根,并裁剪掉第一個(gè)實(shí)體左邊和第二個(gè)實(shí)體右邊的所有節(jié)點(diǎn)后所生成的樹,如圖1(右)。雖然對(duì)于英文語(yǔ)義關(guān)系抽取而言,上下文相關(guān)的最短路徑包含樹[12]和基于依存規(guī)則的動(dòng)態(tài)關(guān)系樹[13]取得了更好的性能,但是為了便于驗(yàn)證卷積樹核在中文語(yǔ)義關(guān)系抽取中的作用,本文仍按照最短路徑包含樹(PT)結(jié)構(gòu)進(jìn)行對(duì)最小完全樹進(jìn)行裁剪。

其中MCT樹和PT樹是句子“…記者滯留在機(jī)場(chǎng)…”兩個(gè)實(shí)體“記者”和“機(jī)場(chǎng)”之間的關(guān)系實(shí)例的兩種不同表示形式。MCT表示以關(guān)系兩個(gè)實(shí)體的公共父節(jié)點(diǎn)為根節(jié)點(diǎn)并包含兩個(gè)實(shí)體的最小完全樹,PT表示最短路徑包含樹。

圖1 一個(gè)關(guān)系實(shí)例的最短路徑包含樹(PT)表示形式

2.2 合一句法和實(shí)體語(yǔ)義樹

根據(jù)ACE的定義,實(shí)體語(yǔ)義特征(如GPE,引用類型①GPE:Geo-Political Entity,實(shí)體的GPE角色(GPE-role)信息主要針對(duì)GPE類別的實(shí)體,它反映了在實(shí)體的提及中實(shí)體究竟扮演人物、組織、設(shè)施、GPE中何種角色。引用類型:一個(gè)實(shí)體可以通過名稱來引用,也可以通過名詞性詞語(yǔ)或代詞來引用。因此實(shí)引用類型可分為名稱、名詞性詞語(yǔ)和代詞等三種方式。等)對(duì)實(shí)體間的語(yǔ)義關(guān)系具有很強(qiáng)的約束作用。大多數(shù)的基于卷積樹核的關(guān)系抽取方法[11-12]都采用復(fù)合核函數(shù)來集成結(jié)構(gòu)化信息和實(shí)體語(yǔ)義信息,因此需要確定兩者之間的復(fù)合系數(shù),該復(fù)合系數(shù)的最佳值通常采用交叉驗(yàn)證的方法來確定。為了避免這一問題,本文將實(shí)體語(yǔ)義信息作為與結(jié)構(gòu)化信息一樣重要的部分合并到結(jié)構(gòu)化句法信息,即PT樹中。

實(shí)體語(yǔ)義信息結(jié)合到PT樹中的方法有很多,可以把兩個(gè)實(shí)體各自屬性組合加在實(shí)體節(jié)點(diǎn)(E1或E2)上,也可以把屬性作為一個(gè)子節(jié)點(diǎn)掛在實(shí)體節(jié)點(diǎn)(E1或E2)下面,還可以像圖2(右)中那樣把兩個(gè)實(shí)體的屬性作為根節(jié)點(diǎn)的子節(jié)點(diǎn)依次掛在根節(jié)點(diǎn)下面。在ACE RDC 2004英文語(yǔ)料庫(kù)上的實(shí)驗(yàn)表明[13],當(dāng)屬性節(jié)點(diǎn)掛在樹的根節(jié)點(diǎn)下面時(shí)取得的性能最佳,因此本文在默認(rèn)情況下采用這種配置。同時(shí),文獻(xiàn)[13]探討了屬性節(jié)點(diǎn)之間相結(jié)合的不同方法:特征列表樹(Bag Of Features,BOF)、特征匹配樹(Feature-Paired T ree,FPT)和實(shí)體匹配樹(Entity-Paired T ree,EPT),其中FPT樹取得的效果最好。本文將FPT樹加到PT樹的根節(jié)點(diǎn)上,形成了合一句法和實(shí)體語(yǔ)義樹(Unified Parse and Entity Semantic T ree,UPEST),如圖2(右)。合一句法和實(shí)體關(guān)系樹不僅包含了必要的結(jié)構(gòu)化句法信息,還集成了多種與實(shí)體相關(guān)的語(yǔ)義信息,從而試圖同時(shí)捕獲關(guān)系實(shí)例的結(jié)構(gòu)化信息和實(shí)體語(yǔ)義信息。

圖2 合一句法和實(shí)體語(yǔ)義樹(UPEST)的形成

2.3 卷積樹核函數(shù)

在確定了關(guān)系實(shí)例的結(jié)構(gòu)化表示方法之后,接下來就要解決結(jié)構(gòu)樹之間的相似度計(jì)算問題。Collins和 Duffy[17]的卷積樹核函數(shù)(Convolution Tree Kernel,CTK),為樹之間的結(jié)構(gòu)相似度計(jì)算提供了一個(gè)合理的方法,在句法分析、語(yǔ)義角色標(biāo)注和關(guān)系抽取等領(lǐng)域中取得了廣泛的應(yīng)用。所謂卷積樹核函數(shù),即通過計(jì)算樹之間的相同子樹的數(shù)目來衡量?jī)煽脴渲g的結(jié)構(gòu)相似度,其計(jì)算公式為:

其中 N1和 N2分別為 T1和 T2的節(jié)點(diǎn)集合,Δ(n1,n2)用來計(jì)算以n1和n2為根節(jié)點(diǎn)的兩棵子樹之間的相似度,它可以通過下列遞歸的方法得出:

1)如果n1和n2的產(chǎn)生式(采用上下文無(wú)關(guān)文法)不同,則 Δ(n1,n2)=0;否則轉(zhuǎn) 2);

2)如果n1和 n2是詞性(POS)標(biāo)記,則 Δ(n1,n2)=1×λ;否則轉(zhuǎn)3);

3)遞歸計(jì)算 Δ(n1,n2)

其中ch(n)是節(jié)點(diǎn)n的子節(jié)點(diǎn)數(shù)目,ch(n,k)是節(jié)點(diǎn)n的第k個(gè)子節(jié)點(diǎn),而λ(0＜λ＜1)則是衰減因子,用來防止子樹的相似度過度依賴于子樹的大小。

3 實(shí)驗(yàn)設(shè)置及結(jié)果分析

本節(jié)首先說明實(shí)驗(yàn)所使用的語(yǔ)料庫(kù)及相應(yīng)的實(shí)驗(yàn)方法,然后對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行討論和分析。

3.1 實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集:我們使用ACE RDC 2005中文基準(zhǔn)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。ACE 2005語(yǔ)料庫(kù)中包含633篇文檔,其中 BNEWS有 238篇,NWIRE有 298篇,WEBLOG有97篇。我們對(duì)這些文檔進(jìn)行了預(yù)處理,由于其中一些文章中的單句字?jǐn)?shù)過多或語(yǔ)法不規(guī)范等原因過濾掉了101篇,最終從中選取了532個(gè)文檔,總共有關(guān)系正例7630 個(gè),負(fù)例83063 個(gè)。ACE 2005數(shù)據(jù)集里總共定義了7大類實(shí)體類型(Person,Organization,Location,Geo-Political Entity,Facility,Vehicle,Weapon),6個(gè)關(guān)系大類(PH YS,PER-SOC,PART-WHOLE,ORG-AFF,ART,GEN-AFF)和36個(gè)關(guān)系子類。在本文中,我們假定實(shí)體及其相應(yīng)的語(yǔ)義特征均已知,而且出現(xiàn)在同一個(gè)句子里的所有實(shí)體對(duì)都被視作潛在的關(guān)系實(shí)例進(jìn)行抽取。

實(shí)驗(yàn)預(yù)處理:從 ACE RDC 2005語(yǔ)料庫(kù)的SGM文件中提取純文本,并對(duì)其進(jìn)行分句、分詞、句法分析,然后再?gòu)腁pf.xml文件中提取實(shí)體和關(guān)系信息添加到句法分析樹中。

分類器的訓(xùn)練和測(cè)試速度的優(yōu)化:基于卷積樹核函數(shù)的方法存在著訓(xùn)練和測(cè)試速度慢的問題(初步實(shí)驗(yàn)表明在單個(gè)數(shù)據(jù)集上運(yùn)行的時(shí)間將近39個(gè)小時(shí))。鑒于此,本文采用路徑長(zhǎng)度截?cái)嗟姆椒╗18]來減少訓(xùn)練實(shí)例數(shù),即在構(gòu)造SVM訓(xùn)練集時(shí),去除路徑長(zhǎng)度大于等于某一長(zhǎng)度l的所有正例和負(fù)例,但保留SVM測(cè)試集中的所有實(shí)例;接著在此訓(xùn)練集上得到分類模型;在測(cè)試時(shí),對(duì)于所有路徑長(zhǎng)度大于等于l的實(shí)例均自動(dòng)判斷為無(wú)關(guān)系。所謂路徑長(zhǎng)度即該路徑上的語(yǔ)法成分節(jié)點(diǎn)數(shù)(除去實(shí)體節(jié)點(diǎn)本身)。例如在圖1的句法樹中,“E1”和“E2”的路徑節(jié)點(diǎn)長(zhǎng)度就為6。初步實(shí)驗(yàn)結(jié)果表明,當(dāng)截?cái)嚅L(zhǎng)度l為9時(shí),訓(xùn)練集大大減小了,單個(gè)數(shù)據(jù)集的訓(xùn)練和測(cè)試時(shí)間縮短為2小時(shí)左右,而抽取性能與截?cái)嘀跋啾然疽恢隆?/p>

分類器:本文實(shí)驗(yàn)中選用支持卷積樹核的SVM分類器SVMLight-TK(Moschitti 2004)①http://download.joachims.org/svm_light/current/svm_light.tar.gz并采用五倍交叉驗(yàn)證的方法計(jì)算平均性能。

評(píng)價(jià)方法:采用召回率(R),精確率(P)和F值(F)的方式評(píng)價(jià)系統(tǒng)的抽取性能。

3.2 實(shí)驗(yàn)結(jié)果及分析

我們首先比較不同的實(shí)體語(yǔ)義特征對(duì)中文語(yǔ)義關(guān)系抽取的影響。如圖2所示,在PT樹的根節(jié)點(diǎn)下面按照潛在重要性的順序加入各個(gè)實(shí)體語(yǔ)義特征節(jié)點(diǎn)。為了體現(xiàn)單一實(shí)體語(yǔ)義特征對(duì)語(yǔ)義關(guān)系抽取的影響,我們采用兩種方法加入語(yǔ)義特征:

?獨(dú)立方式:每個(gè)語(yǔ)義特征單獨(dú)加入到PT樹中;

?累加方式:每個(gè)語(yǔ)義特征依次加入到PT樹中,并根據(jù)加入后的性能變化來確定是否保留該特征到下一步,這樣最后就形成了合一句法和實(shí)體語(yǔ)義樹。

表1列出了每一步過程得到的關(guān)系探測(cè)和大類關(guān)系抽取的性能指標(biāo),其中括號(hào)外的表示獨(dú)立方式的性能,括號(hào)內(nèi)的表示累加方式的性能。特征前面的“+”表明該特征是有效的并且該特征加入到下一輪的關(guān)系抽取中。實(shí)驗(yàn)表明,含有實(shí)體小類特征、大類特征、GPE角色和實(shí)體類別的合一句法和實(shí)體語(yǔ)義樹在關(guān)系探測(cè)和關(guān)系抽取中取得了最高的性能,其F值分別為71.7和67.0,這說明基于合一句法和實(shí)體語(yǔ)義樹的中文語(yǔ)義關(guān)系抽取是行之有效,同時(shí)它還表明:

表1 實(shí)體語(yǔ)義特征對(duì)抽取性能的影響

?在PT樹的基礎(chǔ)上單獨(dú)添加實(shí)體小類、實(shí)體大類屬性和GPE角色等特征后,關(guān)系抽取性能提升很明顯,其F值分別提高了12.1,10.8,2.4,這說明在ACE 2005語(yǔ)料庫(kù)上定義的實(shí)體大類和小類信息對(duì)關(guān)系抽取非常重要,同時(shí)GPE角色也對(duì)關(guān)系類型具有很好的指示作用。我們還進(jìn)一步發(fā)現(xiàn)實(shí)體子類特征對(duì)中文關(guān)系抽取性能的影響要大于實(shí)體大類特征,這是因?yàn)閷?shí)體子類特征對(duì)PART-WHOLE類的逆向關(guān)系、ART類以及GEN-AFF類的逆向關(guān)系等關(guān)系類別的約束性較實(shí)體大類特征更強(qiáng),而這幾類在整個(gè)語(yǔ)料庫(kù)中占了很大的比重(約46%);

?在PT樹上單獨(dú)添加入引用類型、LDC類型,LDC屬性,實(shí)體類別后,對(duì)系統(tǒng)的性能不但沒有提升,性能反而有所下降,這說明這些信息要么是過于稀疏(如實(shí)體的提及)要么是過于籠統(tǒng)(如實(shí)體類別等),以至于對(duì)關(guān)系類型的區(qū)分沒有有益的幫助;

?在累加方式中,實(shí)體小類、實(shí)體大類、GPE角色和實(shí)體類別等特征對(duì)系統(tǒng)的性能都有提升作用,F值在上一輪的基礎(chǔ)上分別提高了12.1,0.5,0.2,0.5,而其他三種特征對(duì)系統(tǒng)性能沒有任何提升作用。比較特殊的是實(shí)體類別特征,當(dāng)以獨(dú)立方式加入時(shí)對(duì)性能沒有提高,而在累加方式中同其他屬性一起加入時(shí)系統(tǒng)性能有所提高,這可能是由于實(shí)體類別特征本身區(qū)分性不大,但同其特征結(jié)合組合起來就具有一定的區(qū)分性。

為了進(jìn)一步分析實(shí)體語(yǔ)義信息對(duì)不同關(guān)系類型的抽取性能的影響,表2按照關(guān)系類型比較了最短路徑包含樹和合一句法和實(shí)體語(yǔ)義樹這兩種結(jié)構(gòu)化信息在ACE RDC 2005中文語(yǔ)料庫(kù)上的大類抽取性能,其中合一句法和實(shí)體語(yǔ)義樹包含了能有效提高抽取性能的實(shí)體大類、實(shí)體小類、GPE角色和實(shí)體類別等四個(gè)實(shí)體語(yǔ)義特征。由于語(yǔ)義關(guān)系往往是不對(duì)稱的,因此每一種關(guān)系類型又分為正向和逆向兩種(如 PHSY表示正向物理位置關(guān)系,而 R.PHSY則表示逆向物理位置關(guān)系)。

表2 最短路徑包含樹和合一句法和實(shí)體語(yǔ)義樹的分類比較

續(xù)表

從表2可以看出:

?在大部分關(guān)系類型上,合一句法和實(shí)體語(yǔ)義樹的性能普遍好于PT樹,這進(jìn)一步說明了實(shí)體語(yǔ)義特征對(duì)改善關(guān)系抽取性能的作用,且對(duì)于不同的關(guān)系類別,性能改善的幅度也不相同。如對(duì)于“R.PER-SOC”類型,性能提高最明顯;而對(duì)于“GENAFF”類型,則提高很少,這是由于實(shí)體語(yǔ)義特征(如實(shí)體類型)對(duì)不同類型語(yǔ)義關(guān)系的約束程度不同,因而效果也不一樣。同時(shí),合一句法和實(shí)體語(yǔ)義樹的F指數(shù)的提高主要來源于召回率的明顯上升和準(zhǔn)確率的小幅上升,這說明實(shí)體語(yǔ)義信息的加入有助于發(fā)現(xiàn)更多的關(guān)系實(shí)例。

? 對(duì)于關(guān)系類型“PER-SOC”,“PARTWHOLE”和“R.PART-WHOLE”,合一句法和實(shí)體語(yǔ)義樹的F指數(shù)要略低于PT樹,這說明對(duì)于這幾類關(guān)系類型,實(shí)體語(yǔ)義特征沒有明顯的區(qū)分作用,不過由于這幾類關(guān)系實(shí)例占總體實(shí)例的比例較小(約28%),因此它們的性能少許下降并不影響總體性能的顯著改善。

最后,表3比較了幾種在ACE語(yǔ)料庫(kù)上的中文語(yǔ)義關(guān)系抽取方法的大類抽取性能,同時(shí)也列出目前在ACE英文語(yǔ)料庫(kù)上取得的最佳性能。需要說明的是,由于中英文語(yǔ)料庫(kù)的差異,它們之間的性能比較僅作參考,因?yàn)榧词故窍嗤闹形恼Z(yǔ)料庫(kù),本系統(tǒng)過濾掉了一些實(shí)例,采用的是ACE RDC 2005部分語(yǔ)料,和Li等[7]所采用的訓(xùn)練實(shí)例數(shù)量和實(shí)驗(yàn)方法也不同。不過,大體可以看出的是,基于樹核的實(shí)體關(guān)系抽取性能在中文和英文語(yǔ)料庫(kù)上還是存在一定差距的,一般認(rèn)為這是由于現(xiàn)階段中英文的句法分析性能存在較大差距(中文80%左右,英文90%以上)所導(dǎo)致的。另外一點(diǎn)可以肯定的是,同黃瑞紅等[19]采用卷積樹核方法在ACE 2007語(yǔ)料庫(kù)上的實(shí)驗(yàn)相比,在ACE 2005中文語(yǔ)料庫(kù)上的基于卷積樹核的方法是行之有效的,盡管離實(shí)用化還有一定的距離。

表3 與其他關(guān)系抽取系統(tǒng)的性能比較

4 總結(jié)與展望

本文描述了采用合一句法和實(shí)體語(yǔ)義樹的中文語(yǔ)義關(guān)系抽取方法。通過實(shí)驗(yàn)我們發(fā)現(xiàn),合一句法和實(shí)體語(yǔ)義樹能有效捕獲實(shí)體的結(jié)構(gòu)化特征和實(shí)體語(yǔ)義特征,因而顯著提高了語(yǔ)義關(guān)系抽取的性能,在大類抽取中最佳F值達(dá)到了67.0。具體而言,在句法樹上有針對(duì)性地添加實(shí)體語(yǔ)義信息,如實(shí)體小類、實(shí)體大類、GPE角色和實(shí)體類別等,抽取性能得到明顯提高,其中實(shí)體子類屬性的作用最大,其次是實(shí)體大類屬性,GPE角色也有很好的指示作用。當(dāng)與其他屬性組合時(shí),實(shí)體類別也能取得一定的效果。

下一步我們要做的工作是對(duì)用于卷積樹核的最短路徑包含樹進(jìn)行改進(jìn),采用英文語(yǔ)義關(guān)系中較成熟的上下文相關(guān)的最短路徑包含樹[13]或基于成分依存關(guān)系的動(dòng)態(tài)關(guān)系樹,從而進(jìn)一步中文語(yǔ)義關(guān)系抽取的性能。

[1]Nanda Kambhatla.Combining lexical,syntactic and semantic features with Maximum Entropy models for extracting relations[C]//ACL.Morristown,NJ,USA,2004:178-181.

[2]Zhou GuoDong,Su Jian,Zhang Jie,et al.Exploring various knowledge in relation extraction[C]//ACL,2005:427-434.

[3]Zhao S.B.and Grishman R.Extracting relations with integrated information using kernel methods[C]//ACL.Ann Arbor,USA,2005:419-426.

[4]Wang Ting,Li Yaoyong,Kalina Bontcheva,et al.Automatic Extraction of Hierarchical Relations from Text[C]// Proceedings of the Third European Semantic Web Conference(ESWC 2006),2006:401-416.

[5]車萬(wàn)翔,劉挺,李生.實(shí)體關(guān)系自動(dòng)抽取[J].中文信息學(xué)報(bào),2005,19(2):1-6.

[6]董靜,孫樂,馮元勇,黃瑞紅.中文實(shí)體關(guān)系抽取中的特征選擇研究[J].中文信息學(xué)報(bào),2007:21(4):80-85,91.

[7]Li W.J.,Zhang P.,Wei F.R.,Hou Y.X.,and Lu Q.A Novel Feature-based Approach to Chinese Entity Relation Extraction[C]//ACL.Columbus,Ohio,USA,2008:89-92.

[8]Zelenko D,Aone C,Richardella A.Kernel methods for relation extraction [J].Journal of Machine Learning Research,2003,3(2003):1083-1106.

[9]Culotta A,Sorensen J.Dependency tree kernels for relation extraction[C]//ACL.Barcelona,Spain,2004:423-429.

[10]Bunescu R.C,Raymond J.M.A Shortest Path Dependency Kernel for Relation Extraction[C]//EM NLP.Vancover,B.C,2005:724-731..

[11]Zhang M.,Zhang J.,Su J.,and Zhou G.D.A Composite Kernelto Extract Relations between Entities with both Flat and Structured Features[C]//COLING-ACL.Sydney,Australia,2006:825-832.

[12]Zhou G.D.,Zhang M.,Ji D.H.,and Zhu Q.M.T ree Kernel-based Relation Extraction with Context-Sensitive Structured Parse T ree Information[C]//EMNLP/CoNLL'2007.Prague Czech,2007:728-736.

[13]Qian L.H.,Zhou G.D.,Zhu Q.M.,et al.Exploiting constituent dependencies for tree kernel based semantic relation extraction[C]//COLING'2008.Manchester,UK,2008:697-704.

[14]Che W.X.,Jiang,J.M.Su Z.,Pan Y.,and Liu T.Improved-Edit-Distance Kernel for Chinese Relation Extraction[C]//Proceedings of the 2nd international Joint Conference on Natural Language Processing(IJCNLP'05).Jeju Island,Korea,2005:134-139.

[15]劉克彬,李芳,劉磊,韓穎.基于核函數(shù)中文關(guān)系自動(dòng)抽取系統(tǒng)的實(shí)現(xiàn)[J].計(jì)算機(jī)研究與發(fā)展,2007,44(8):1406-1411.

[16]Huang R.H.,Sun L.,and Feng Y.Y.Study of Kernel-Based Methods for Chinese Relation Extraction[C]//LNCS(Lecture Notes in Computer Science).Springer Berlin/Heidelberg,2008:598-604.

[17]Collins M.and Duffy N.Covolution kernels for natural language[C]//NIPS'2001:Cambridge,M A,2001:625-632.

[18]莊成龍,錢龍華,周國(guó)棟.基于樹核函數(shù)的實(shí)體語(yǔ)義關(guān)系抽取方法研究[J].中文信息學(xué)報(bào),2009,23(1):1-8.

[19]黃瑞紅,孫樂,馮元勇,黃云平.基于核方法的中文實(shí)體關(guān)系抽取研究[J].中文信息學(xué)報(bào),2008,22(5):102-108.