亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于卷積樹核的無指導中文實體關系抽取研究

2010-07-18 03:11:56黃晨錢龍華周國棟朱巧明

中文信息學報 2010年4期

關鍵詞：方法

黃晨,錢龍華,周國棟,朱巧明

(1.蘇州大學計算機科學與技術學院,江蘇蘇州215006;2.張家港廣播電視大學,江蘇張家港215600)

1 引言

信息抽取(Information Extraction,IE)[1]的目的是從自由文本中找出用戶感興趣的事件、實體及其關系,并將這些信息以結構化的形式存儲在數(shù)據(jù)庫中,為情報分析和檢測、自動文摘、文本分類等各種應用提供基礎服務。在許多自然語言理解系統(tǒng)中,不但需要識別出文本中的實體(如地名、人名和機構名),而且還要根據(jù)上下文來確定這些實體之間所存在的關系,即實體關系抽取,簡稱關系抽取。一般來說,實體間的關系類型都是預先定義好的,例如文本短語“微軟公司執(zhí)行總裁”中“微軟公司執(zhí)行總裁”和“微軟公司”分別為人物(PER)和組織(ORG)實體,兩者之間又構成了雇傭關系(Org-Aff.Employment),即“微軟公司執(zhí)行總裁”受雇于“微軟公司”。關系抽取不僅是信息抽取中的重要環(huán)節(jié),而且在問答系統(tǒng)、知識獲取和自然語言接口等應用中也非常重要。

隨著近十幾年關系抽取技術的不斷發(fā)展,研究人員提出了眾多不同的方法來實現(xiàn)關系抽取。根據(jù)它們對語料庫的不同需求大致可分成指導性學習方法、弱指導學習方法和無指導學習方法等三大類。

指導性學習方法把關系抽取轉換成一個分類問題,利用已標注的語料庫訓練一個分類器模型(如SVM、W INNOW),然后利用該模型來判別未標注實例的關系類型,代表工作有基于特征向量的方法[2-6]和基于核函數(shù)的方法[7-13]。目前指導性關系抽取雖然取得了最好的性能,但是它們需要大規(guī)模的人工標注語料庫作為訓練數(shù)據(jù),因而通用性不強。弱指導性學習方法則從少量種子集開始,不斷從未標注語料庫中抽取出可靠性較高的關系實例來增強訓練集,最終期望得到較好的抽取性能,如采用自舉方法的DIPRE[14]和Snowball[15],采用協(xié)同訓練的BootProject算法[16]和標注傳播算法[17]。弱指導方法能極大地減少指導性學習方法對大規(guī)模標注語料的依賴,其主要問題是初始種子的選擇比較困難,對最終的性能影響較大。而無指導學習方法不需要人工標注的語料庫,也無需預先定義關系的種類。它通過直接對未標注語料庫中的所有關系實例進行聚類,即將具有相似關系的實體對歸在一類中,并對它們賦予某一標記。

無指導學習方法由于不需要人工標注的數(shù)據(jù),因而可以節(jié)省大量的時間和人力。雖然存在著無法自動衡量其抽取性能的缺點,但無指導的學習方法為關系抽取指明了一個新的研究方向。目前的研究方法采用上下文詞匯集合[18]或句法樹[19]來表示關系實例,然后分別使用詞匯相似度和句法樹相似度來衡量關系實例之間的相似性,從而實現(xiàn)實體關系的抽取。另一方面,由于基于特征向量的方法很難找出新的有效的詞匯、句法和語義等平面特征,因而樹核函數(shù)特別是能有效捕獲結構化特征的卷積樹核函數(shù)[10-12]在指導性關系抽取中獲得了廣泛的應用,其抽取性能也不斷提高。受卷積樹核函數(shù)在指導性英文實體關系抽取中的積極作用所啟發(fā),本文提出了基于卷積樹核函數(shù)的無指導中文實體關系抽取方法。其主要思想是首先使用簡潔而有效的句法樹—最短路徑包含樹來表示潛在的關系實例,然后再利用卷積樹核函數(shù)來計算兩個句法樹之間的相似度,從而實現(xiàn)中文實體關系的抽取。由于卷積樹核函數(shù)能有效捕獲句法樹的結構化信息,我們期待該方法能有效實現(xiàn)無指導的關系抽取。

本文的后續(xù)內容組織如下：第2節(jié)回顧中文實體關系抽取和無指導實體關系抽取方面的相關研究工作;第3節(jié)介紹我們所使用的方法;第4節(jié)給出實驗數(shù)據(jù),并進行結果分析;最后為總結全文和指明將來的工作方向。

2 相關工作

從理論上講,英文實體關系抽取中的方法和原理都可以使用在中文實體關系抽取的研究中,但是,一方面由于中英文在語法結構上的諸多不同,另一方面,中文實體關系抽取研究的起步也較晚,因此其方法基本上都集中于指導性的統(tǒng)計機器學習方法,包括基于特征向量的方法和基于核函數(shù)的方法兩大類。

對于基于特征向量的中文實體關系抽取而言,其關鍵問題仍然是如何選擇有效的詞匯、句法和語義等特征,如車萬翔等[20]提取了實體的類型/小類、兩個實體間的位置關系、兩個實體前后的詞匯等信息;董靜等[21]進一步將關系實例劃分為包含實體關系和非包含實體關系,并對非包含實體關系進一步加入了句法結構信息(如兩個實體的祖先節(jié)點、實體之間的路徑、依存動詞及實體到依存動詞的路徑等);Li等[22]則進一步探索了實體間的結構關系(如包含關系、鄰近關系和分隔關系等)對抽取性能的影響,同時采用基于字的一元或二元上下文特征以避免中文分詞錯誤所產生的影響。

在基于核函數(shù)的中文實體關系抽取方法中,Che等[23](編輯距離核)和劉克彬等[24](字符串核)的核函數(shù)都是基于比較中文詞串的相似度,并在比較過程中考慮了一定的詞匯語義相似度。Huang等[25]初步探索了卷積樹核函數(shù)和最短依存樹核函數(shù)在中文實體關系抽取中的應用,但其性能極低(F指數(shù)約為30)。當然,這并不說明核方法本身存在問題,而只能說明在中文關系抽取中較難找到能合理和確切表示實體關系的結構化信息以及結構化信息的相似度計算方法。

在無指導關系抽取的研究方面,H asegawa等[18]首先識別出文本中的命名實體及其類型,當實體對的共現(xiàn)頻率超過一定閾值時,把它們作為一個潛在的實體關系,并通過計算實體對之間的詞匯相似度的方法進行聚類,然后給每個發(fā)現(xiàn)的實體關系賦予一個合適的類別名稱。在1995年《紐約時報》語料上的測試表明,應用該方法發(fā)現(xiàn)公司實體對(COM-COM)之間的關系,F指數(shù)可達到75。不過,該方法不考慮出現(xiàn)次數(shù)少于30的命名實體對,因而湮滅了這些命名實體對之間潛在的關系。

Zhang等[19]通過計算包含實體對的句法樹的相似度進行聚類,探討了無指導學習方法在關系抽取中的應用。在同樣的1995年《紐約時報》語料上,該方法能有效地發(fā)現(xiàn)高頻和低頻命名實體對之間的關系,相比 Hasegawa等[18]的實驗結果,其F指數(shù)提高了5。但在無指導關系抽取中,聚類數(shù)目的確定和代表關系類別的詞匯選擇方面仍然存在著問題。

Chen等[26]在確定命名實體對之間關系的數(shù)量和特征集大小時,采用多次取樣方法(Resamp le)通過反復的實驗尋找目標函數(shù)的最優(yōu)值,從而找到最自然的關系個數(shù)及其相對應的特征集,然后利用判別類型匹配方法(DCM)選擇最重要的詞匯特征作為某類關系的名稱。在ACE語料庫上的實驗表明,該方法在PER-ORG、ORG-GPE和ORG-ORG實體對之間的關系抽取的準確率分別為41.3%、50.6%和42.4%,同Hasegawa等(2004)[18]的方法相比,性能有大幅度的提高。

在中文實體關系抽取方面,目前還沒有采用無指導學習方法的相關研究工作。同時,由于卷積樹核函數(shù)在英文實體關系抽取中取得了一定的成功,因此本文采用卷積樹核函數(shù)的方法來實現(xiàn)無指導的中文實體關系抽取,其關鍵問題是如何選擇合適的結構化信息來表示中文實體關系實例以及采用什么樣的聚類方法,本文就這兩方面展開研究。

3 基于卷積樹核的無指導學習

基于樹核函數(shù)的無指導實體關系抽取,第一步是如何表示關系實例的結構化信息和計算結構化信息之間的相似度;第二步是在關系實例的相似度基礎之上,對實體對進行聚類,即將相似的實體對歸為相同的簇(即實體關系類別),從而實現(xiàn)實體關系的抽取。

3.1 關系實例的結構化表示

Zhang等[10]最早研究了從包含兩個實體的最小完全樹(MCT)中抽取出5種結構化子樹用于表示關系實例的方法,其中兩個實體之間的最短路徑包含樹(SPT)取得了最好的性能。Zhou等[11]在SPT樹的基礎上動態(tài)擴充與謂詞連接有關的上下文相關信息,產生了上下文相關的最短路徑包含樹(CS-SPT),抽取性能得到了進一步的提高。Qian等[12]則利用成分依存關系來決定最小完全樹中的哪些成分對實體關系是有用的,從而形成一棵能有效捕獲關系實例結構化信息的動態(tài)句法樹(DSPT)。盡管這些結構化表達方式對指導性關系抽取的最終性能存在著一定的影響[12],但是考慮到我們要研究的主要問題是樹核函數(shù)在無指導關系抽取中的有效性,為了處理的簡化起見,我們采用比較方便但仍然有效的表達方式—最短路徑包含樹。

圖1顯示了在短語“…將恐怖分子從監(jiān)獄當中釋放出來…”中實體“恐怖分子”(PER)和“監(jiān)獄”(FAC)之間的關系實例的結構化表示形式。其中T1為最小完全樹,T2為經過裁剪后的最短路徑包含樹,即在最小完全樹中兩個實體之間的最短路徑(“E1—NP—VP—PP—NP—E2”)所包含的子樹。

圖1 關系實例的結構化信息表示(SPT)

3.2 樹的相似度計算

在得到了關系實例的結構化信息之后,下一步要解決結構化信息之間的相似度計算問題。卷積核函數(shù)用離散對象的子結構來捕獲它們之間的結構相似性,如句法樹核函數(shù)、字符串核函數(shù)和圖形核函數(shù)等。我們采用Co llins和Du ffy[27]的卷積樹核函數(shù)(Convolution Tree Kernel,CTK)來計算兩棵樹之間的相似度,即通過計算它們之間的相同子樹的數(shù)目來衡量它們之間的相似度,其公式為：

其中 N1和N 2分別為T1和 T2的節(jié)點集合,Δ(n1,n2)用來計算以n1和n2為根節(jié)點的兩棵子樹之間的相似度,它可以通過下列遞歸的方法得出：

1)如果和的產生式(采用上下文無關文法)不同,則 Δ(n1,n2)=0;否則轉 2);

2)如果和是詞性(POS)標記,則 Δ(n1,n2)=1×λ;否則轉3);

3)遞歸計算下式：

其中#ch(n)是節(jié)點的子節(jié)點數(shù)目,ch(n,k)是節(jié)點的第k個子節(jié)點,而λ(0<λ<1)則是衰減因子,用來防止子樹的相似度過度依賴于子樹的大小。

由于卷積樹核函數(shù)能有效捕獲離散數(shù)據(jù)對象中的結構化信息,因而在信息抽取以及自然語言處理的其他領域中取得了廣泛的應用,如語義角色標注和指代消解等。

3.3 關系實例的聚類

聚類[28]的目的是將一組對象劃分成若干組或類別,即相似元素同組、相異元素不同組。本質上說,聚類是指根據(jù)樣本之間的某種距離在無指導條件下的聚簇過程。聚類算法一般可分為兩大類：層級聚類和非層級聚類。其中層次聚類的特點是每個節(jié)點都是其父類的一個子類,聚類結果通?？梢员硎境蓸鋱D的形式;非層次聚類則類別結構簡單,類別之間沒有層次關系,非層次聚類中最典型的算法是K-means算法。不過,由于K-means算法中的數(shù)據(jù)必須表示成歐氏空間的特征向量,而本文采用樹結構來表示關系實例,因此采用層次聚類算法比較適合,采用層次聚類的另一個好處是不用預先定義聚類的簇數(shù)量。

在層次聚類算法中需要用到兩個聚類簇之間相似度的計算方法,由于一個簇中含有多個關系實例,因此可以選擇下列三種簇相似度計算方法：

單連通：計算兩個簇之間最相似樣本之間的相似度;

全連通：計算兩個簇之間最不相似樣本之間的相似度;

平均連通：計算兩個簇之間所有樣本的平均相似度。

4 實驗結果及分析

本節(jié)首先說明本文實驗所使用的語料庫及評測指標,然后再對實驗結果進行分析和討論。

4.1 實驗設置

本文使用ACE RDC 2005中文標注語料庫作為無指導關系抽取的實驗數(shù)據(jù)。ACE RDC 2005語料庫共包含633篇文檔,其中BNEWS有238篇,NW IRE有298篇,WEBLOG有97篇。我們對這些文檔進行了預處理,由于單句字數(shù)過多和句法錯誤等原因過濾掉了101篇,最終從中選取了532個文檔,其中標注有關系的實體對(即關系正例)為7 630個,沒有關系的實體對(即關系負例)為83 063個。ACE RDC 2005中文語料庫的實體關系類型共有6個大類,36個小類。由于關系負例之間的結構差異很大,因此本文聚類的對象僅局限于關系正例。表1列出了各個關系大類實例數(shù)量的分布情況,從中可以看出其分布是不均勻的。

表1 ACE RDC 2005中文語料庫關系實例統(tǒng)計信息

ACE RDC 2005語料庫的原始形式是SGM L(Standard Generalized M ark-up Language)文件,即實體及其關系的標注信息是通過SGM L標記插入到文本中的。為了便于句法分析,我們首先將標注信息和純文本分離開來,其中標注的實體及其關系實例存放到單獨的標注文件中;然后對剩余的純文本進行分句和分詞,再將分詞后的句子進行句法分析,從而得到每個句子的句法樹;最后對每個句子中出現(xiàn)的所有實體進行兩兩配對,如果一個實體對存在關系,則它所對應的最短路徑包含樹及其相對應的關系類型加入到實驗數(shù)據(jù)中。

本文所采用的基于卷積樹核的相似度計算工具來自于SVMLight-TK①http：//dow nload.joachims.org/svm_ligh t/curren t/svm_ligh t.tar.gz.,其中的衰減因子λ采用默認值(即0.4)。不過,我們僅抽取其中與樹的相似度計算相關的部分代碼。聚類算法軟件包采用東京大學的C/C++聚類庫函數(shù)②http：//bonsai.im s.u-tokyo.ac.jp/ ～ mdehoon/software/cluster/cluster-1.46.tar.gz.,該軟件包支持K-m eans聚類、層次聚類等功能。不過,由于它不直接支持采用樹結構形式的數(shù)據(jù)實例,因此我們首先計算好關系實例兩兩之間的相似度,然后再把這些數(shù)值輸入到聚類軟件包中,并分別用三種簇相似度計算方法(單連通、完全連通和平均連通)進行層次聚類。

4.2 評測指標

對于無指導的關系抽取,一般采用與指導性關系抽取相類似的性能評測指標,如準確率(P recision)、召回率(Recall)和 F值(F-Score)等。與關系抽取不同的是,在關系聚類中,一個聚類簇內的關系實例的正確類別不是由它自身的關系類別所決定,而是由該簇的大多數(shù)實例的關系類別所決定。具體而言,假設經過聚類后得到N個簇(1,2,…,N),若某一簇中的大多數(shù)關系實例都屬于表1中的某一類別,則該類別被認為是該簇的關系類別,最后,若兩個簇的關系類別相同,則將他們合并為一個簇。

本實驗評測指標與Hasegaw a[18]的指標基本相同,具體描述如下：

其中 Ncorrect為某一簇中被正確分類的實例數(shù)量,Nincor rect為該簇中被錯誤分類的實例數(shù)量,而Nkey為語料庫中具有該簇類別的實例總數(shù)。由于相同類別的簇最終會被合并,因此聚類后的簇的數(shù)量總是不大于語料庫中實際關系類別的數(shù)量。與Hasegawa等[18]方法不同的是,以上方法計算出的指標是針對某一類別的,對于最后的平均性能,我們采用對各類別進行加權平均的方法來獲得Pavg與Ravg,然后再計算出Favg。

4.2 實驗結果及分析

圖2比較了聚類簇的數(shù)量對單連通聚類、全連通聚類和平均連通聚類關系抽取的性能影響。

圖2 簇的數(shù)量對兩種聚類算法的性能影響(F指數(shù))

為了說明問題的方便,僅列出了相應的平均F指數(shù)。從圖中可以看出,單連通聚類的性能與全連通聚類和平均連通聚類的性能相差較大,這是由于單連通聚類只考慮了兩個簇之間最相似樣本之間的相似值,隨著簇內部樣本數(shù)量的增加,這個度量值越來越偏離實際情況;同時,后兩者的加權F平均值最高分別達到了58.8和60.1,這表明基于卷積樹核的方法在無指導的中文實體關系抽取中是有效和可行的。針對全連通聚類和平均連通聚類,可以看出：

(1)隨著聚類簇數(shù)量的增加,兩種聚類算法的最終性能基本呈上升趨勢。這是由于聚類的粒度越大(即簇數(shù)量越小),則不同類別的關系實例被聚類于同一簇中的概率也就越大,因而其總體性能也就越低。

(2)平均連通聚類在性能上要普遍優(yōu)于全連通聚類(除了簇數(shù)量為18以外),不過隨著簇數(shù)量的增加,兩者的差距明顯縮小直至基本相同。這是由于全連通聚類考慮的是兩個簇之間最不相似樣本之間的相似度,當簇數(shù)量較少時,每一簇內的實例數(shù)量較多,它們之間的差異也越大,全連通方法所得到的相似度誤差也就越大;而平均連通聚類采用的是兩個簇之間樣本相似度的平均值,因此即使在簇數(shù)量較少時,也能在一定程度上較好地反映出簇之間的相似度。但是,當簇的數(shù)量增加時,每一簇內的實例數(shù)量變少,它們之間的差異也變小,因而即使是全連通方法也能較好地刻劃簇之間的相似度,所以兩者之間的性能差距接近。

(3)當簇的數(shù)量達到36時,兩種聚類算法均取得較好的性能,而當簇數(shù)量再進一步增加時,聚類性能變化不大,甚至略微減少。一種合理的解釋是由于ACE RDC 2005語料庫將6個關系大類進一步劃分為36個關系子類,因而簇數(shù)量為36時最能體現(xiàn)關系實例的自然簇結構。當簇的數(shù)量再進一步增加時,一個小類中的實例或許被強行聚類到不同的簇中,但這并不能提高聚類的性能。這在另一方面也說明在ACE RDC 2005語料庫中的關系類別定義還是相當合理的。

圖3 簇的數(shù)量對各大類關系識別的性能影響(平均連通聚類)

圖3比較了在平均連通聚類中簇的數(shù)量對各個關系大類聚類性能的影響,仍然采用F指數(shù)來衡量。從圖中可以看出,其變化趨勢與平均性能變化趨勢基本一致。特別地,Physical,Part-w hole和ORG-A ffiliation等三個關系類別的聚類性能較好,其在簇數(shù)量為36時的F指數(shù)分別達到了 59.0、69.6和65.9,這主要是由于這三個大類的關系實例數(shù)量較多并且其內部結構一致性較好的原因。

由于目前還沒有相關的無指導中文實體關系抽取系統(tǒng),因此我們在表2中比較了無指導關系抽取和下列兩種方法之間的性能差別：

?基準(Baseline)方法：基于特征向量的中文實體關系聚類,采用Zhou等[4]的方法從文本中抽取出詞匯、實體、重疊、語塊等特征構成特征向量,然后計算特征向量之間的相似度,再以此為基礎進行單連通、平均連通和全連通等層次聚類。實驗表明,當采用全連通聚類方法、簇的數(shù)量為36時,聚類性能F值取得最高值56.7;

?指導性關系分類方法：在所有關系正例上進行關系分類的 5倍交叉驗證。首先將實例集(7 630個實例)分成大小相同的5份,每次取4份作為訓練集,用基于樹核的分類器SVMLight-TK訓練出一個模型,然后在剩余一份上進行測試,計算出關系分類的一次性能,最后取5次實驗的平均值。

從表2中可以看出,相對于基于特征向量的方法而言,基于卷積樹核的無指導關系分類取得了一定的進步,F值提高了約3點,這主要是由于難于獲得有效的平面特征來表示中文實體關系實例,而卷積樹核能有效地捕獲實體關系的結構化特征,同時也說明基于樹核的層次聚類方法對于無指導中文關系抽取具有一定的有效性。不過,同指導性關系抽取相比差距仍很大,F值低約17點。由于關系抽取在自然語言處理領域是一個相當困難的問題,特別是對于中文實體關系,與英文實體關系抽取相比,指導性抽取方法尚且還不能取得令人滿意的結果,因此今后仍需進一步提高指導性中文實體關系抽取的性能。

表2 中文ACE 2005關系抽取性能比較

5 結論

本文提出了一種基于卷積樹核的無指導中文實體關系抽取方法,以最短路徑包含樹來表示關系實例的結構化信息,采用卷積樹核函數(shù)來計算結構化信息之間的相似度,然后使用單連通、全連通和平均連通三種分層聚類算法來實現(xiàn)無指導的中文實體關系抽取。在ACE RDC 2005中文語料庫上的實體關系聚類實驗表明,聚類簇的數(shù)量對各關系大類乃至整個關系抽取的性能具有很大的影響。特別地,當聚類簇數(shù)量為預定義的關系小類數(shù)量時,全連通聚類和平均連通聚類的F加權平均值取得了較高值,分別達到了58.8和60.1,這些結果表明基于卷積樹核的方法在無指導的中文實體關系抽取中能有效捕獲關系實例的自然簇結構,在一定程度上是行之有效的。

我們下一步的工作是對未標注的中文語料庫進行實體關系聚類,并進行聚類簇的標記,即給每一個簇賦予一個合理的關系名稱,同時對不可靠的簇進行修剪,進一步提高無指導中文實體關系抽取的實用性。

[1] 李保利,陳玉忠,俞士汶.信息提取研究綜述[J].計算機工程與應用,2003,39(10)：1-5.

[2] Kambhatla N.Combining lexical,syntactic and semantic featuresw ith Maximum Entropy mode ls for extracting relations[C]//ACL-2004(Poster)：178-181.

[3] Zhao S B and G rishman R.Ex tracting relations w ith integrated information using kernel-basedmethods[C]//ACL-2005：419-426.

[4] Zhou G D,Su J,Zhang Jand Zhang M.Exp loring various know ledge in re lation ex traction[C]//ACL-2005：427-434.

[5] Jiang J and ZhaiC X.A Systematic Exploration of the Feature Space for Relation Extraction[C]//NAACLH LT-2007：113-120.

[6] 奚斌 ,錢龍華 ,周國棟 ,等.語言學組合特征在語義關系抽取中的應用[J].中文信息學報,2008,22(3)：44-49,63.

[7] Zelenko D,Aone C and Richardella A.Kernel-based methods for relation extraction[J].Journal of Machine Learning Research,2003,3(Feb)：1083-1106.

[8] Cu lotta A and Sorensen J.Dependency tree kernels for relation ex trac tion[C]//ACL-2004：423-429.

[9] Bunescu R and Mooney R J.A shortest path dependency kernel for relation extraction[C]//H LT-EMNLP-2005：724-731.

[10] Zhang M,Zhang J,Su Jand Zhou G D.A Composite Kernel to Ex tract Relations betw een Entities w ith both Flat and Structured Features[C]//COLINGACL-2006：825-832.

[11] Zhou G D,Zhang M,Ji D H,Zhu Q M.Tree Kernel-based Relation Ex traction w ith Context-Sensitive Structured Parse T ree In formation[C]//EMNLPCoNLL-2007：728-736.

[12] Qian L H,Zhou G D,Zhu QM,Qian PD.Exploiting constituent dependencies for tree kernel-based semantic re lation extraction[C]//COLING-2008：697-704.

[13] 莊成龍 ,錢龍華 ,周國棟.基于樹核函數(shù)的實體語義關系抽取方法研究[J].中文信息學報,2009,23(1)：4-8,34.

[14] Brin S.Extracting patterns and relations from the World W ide Web[C]//Proceedings of WebDBWorkshop at 6th International Conference on Extending Database Technology(EDBT'98),1998.

[15] Agichtein E and G ravano L.Snow ball：Ex tracting Relations from Large Plain-Tex t Co llec tions[C]//Proceedings of the fifth ACM conference on Digital libraries,2000.

[16] Zhang Z.W eak ly supervised relation classification for Information Extraction[C]//CIKM-2004：581-588.

[17] Chen JX,Ji D H and Tan C L.Relation Extraction using Label Propagation Based Sem i supervised Learning[C]//COLING-ACL-2006：126-139.

[18] H asegawa T,Sekine S and Grishman R.Discovering Relations among Named Entities from Large Corpora[C]//ACL-2004：415-422.

[19] Zhang M,Sun J,Wang D M,eta l.Discovering Relations betw een Named Entities from a Large Raw Corpus Using T ree Sim ilarity-base Clustering[C]//IJCNLP-2005：378-389.

[20] 車萬翔,劉挺,李生.實體關系自動抽取[J].中文信息學報,2005,19(2)：1-6.

[21] 董靜,等.中文實體關系抽取中的特征選擇研究[J].中文信息學報,2007,21(4)：80-85,91.

[22] LiW J,Zhang P,Wei F R,H ou Y X and Lu Q.A Novel Feature-based A pp roach to Chinese Entity Relation Extraction[C]//ACL-2008(short paper)：89-92.

[23] Che W X,et a l..Im proved-Edit-Distance Kernel for Chinese Relation Ex trac tion[C]//IJCNLP,2005：132-137.

[24] 劉克彬,等.基于核函數(shù)中文關系自動抽取系統(tǒng)的實現(xiàn)[J].計算機研究與發(fā)展,2007,44(8)：1406-1411.

[25] H uang R H,Sun L,Feng Y Y.Study of Kernel-Based Methods for Chinese Relation Extraction[C]//LNCS(Lecture Notes in Computer Science),2008(4993)：598-604.

[26] Chen J X,Ji D H,Tan C L,et a l.Unsupervised Feature Selection for Relation Extraction[C]//CIKM-2007：411-418.

[27] Collins M and Duffy N.Convolution Kernels for Natural Language[C]//N IPS-2001：625-632.

[28] Christopher D.Manning,H inrich Schtze.Foundations of Statistical Natural Language Processing[M].Beijing：Pub lishing House of Electronics Industry,2005.