基于模式的遠監(jiān)督關(guān)系抽取算法

2017-10-11 07:10:00王加楠

中文信息學報 2017年4期

關(guān)鍵詞：特征向量實例實體

王加楠，魯強

(中國石油大學(北京) 計算機科學與技術(shù)系，北京 102249)

基于模式的遠監(jiān)督關(guān)系抽取算法

王加楠，魯強

(中國石油大學(北京) 計算機科學與技術(shù)系，北京 102249)

遠監(jiān)督關(guān)系抽取算法能夠自動將關(guān)系庫中的關(guān)系與無標注的文本對齊，以進行文本中的關(guān)系抽取。目前提出的遠監(jiān)督關(guān)系抽取算法中，大多數(shù)是基于特征的。然而，此類算法在將實例轉(zhuǎn)換為特征時，經(jīng)常會出現(xiàn)關(guān)鍵信息不突出、數(shù)據(jù)集線性不可分等問題，影響關(guān)系抽取的效果。該文提出了一種基于模式的遠監(jiān)督關(guān)系抽取算法，其中引入了基于模式的向量，并使用了基于核的機器學習算法來克服上述問題。實驗結(jié)果表明，該文提出的基于模式的遠監(jiān)督關(guān)系抽取算法，能夠有效地提升遠監(jiān)督關(guān)系抽取的準確率。

遠監(jiān)督；關(guān)系抽??；模式；核方法

Abstract: Distant supervision for relation extraction is an approach that can extract relations from texts automatically by aligning a database of facts with texts. Most of existing solutions are feature-based algorithms with certain defects. In this paper, we propose a pattern-based algorithm for distant supervised relation extraction with pattern-based vector. A kernel-based method is used in the algorithm to overcome the problems in feature-based algorithm. The experimental result shows that our algorithm can successfully improve the precision of distant supervision for relation extraction.

Key words: distant supervision； relation extraction； pattern； kernel method

1 引言

文本信息提取是指自動從文本中提取出人們感興趣的信息，并以結(jié)構(gòu)化的形式存儲，以便進一步利用。關(guān)系抽取作為文本信息抽取中一項重要任務(wù)，其主要目標是識別并獲取實體間的關(guān)系信息?；跈C器學習的關(guān)系抽取算法主要包括: 有監(jiān)督的關(guān)系抽取算法[1-3]，無監(jiān)督的關(guān)系抽取算法[4-5]，以及遠監(jiān)督的關(guān)系抽取算法[6-8]。

有監(jiān)督的關(guān)系抽取算法發(fā)展得相對成熟，具有較高的性能。然而，由于所需的人工標注代價太大，導致訓練數(shù)據(jù)缺乏，使其無法勝任海量數(shù) 據(jù)背景下的關(guān)系抽取任務(wù)。無監(jiān)督的關(guān)系抽取算法無需人工標注，通常用于開放領(lǐng)域及未知領(lǐng)域的關(guān)系抽取。然而，其準確率相對較低，且得到的關(guān)系沒有名稱，因此在抽取后需要進一步篩選和命名才可以使用。遠監(jiān)督的關(guān)系抽取算法，主要解決了有監(jiān)督關(guān)系抽取算法中對標注數(shù)據(jù)的依賴問題。其利用已有的關(guān)系庫，將關(guān)系庫中的關(guān)系與文本數(shù)據(jù)中的實例建立映射，這一過程也被稱為“對齊”。由于遠監(jiān)督的關(guān)系抽取算法很好地解決了有監(jiān)督和無監(jiān)督關(guān)系抽取算法中的問題，既不依賴于標注數(shù)據(jù)，又具有標準的關(guān)系名稱，因此在提出后獲得了很多學者的研究。

在實現(xiàn)遠監(jiān)督關(guān)系抽取的眾多算法中，有一類使用特征對文本實例進行表示的算法，稱為基于特征的遠監(jiān)督關(guān)系抽取算法。基于特征的表示方法廣泛應(yīng)用于自然語言處理任務(wù)中，然而在關(guān)系抽取任務(wù)中，該方法具有以下局限性。首先，沒有突出關(guān)鍵的特征信息?；谔卣鞯膶嵗硎痉椒?，通過獲取文本語句中所含的詞法、句法、語法等特征信息，構(gòu)造特征向量，并應(yīng)用于分類器中。在關(guān)系抽取任務(wù)中，應(yīng)盡量選取有利于關(guān)系識別的特征信息，特別要突出具有決定作用的特征信息。例如，要確定圖1中句1中兩個實體間的關(guān)系，關(guān)鍵的特征信息是兩個實體的類型“PER”和“ORG”，以及連接兩個實體的動詞“創(chuàng)辦”。而對于圖1中的句2，最重要的特征信息則是詞項“CEO”?；谔卣鞯姆椒ㄟx取了大量的特征信息，但每個特征都是獨立平等的，沒有針對關(guān)系抽取任務(wù)做出優(yōu)化。其次，實例在特征空間中往往是線性不可分的。一些特征，如實體之間的距離特征，具有普遍性。這類特征出現(xiàn)在大量甚至所有的實例中，使得所構(gòu)造的特征向量在向量空間中通常是線性不可分的。而基于特征的模型大多使用了具有線性性質(zhì)的分類器，如邏輯回歸分類器等，導致算法的準確率在一定程度上打了折扣。

圖1 “實例—關(guān)系”示例

在有監(jiān)督的關(guān)系抽取中，為了解決以上問題，提出了基于核的實例表示方法?；诤说姆椒ú⒉伙@式地抽取特征信息，而是直接使用核函數(shù)對實例進行計算。由于不同方法中核函數(shù)的設(shè)計不同，因此其對不同特征的側(cè)重也不同。例如，最短依賴路徑核函數(shù)以實體間的最短依賴路徑作為計算的主要依據(jù)。此外，當對線性不可分的數(shù)據(jù)進行線性分類的時候，基于核的算法能夠在一定程度提升分類的準確率[9]?；诤说膶嵗硎痉椒ㄔ谟斜O(jiān)督關(guān)系抽取中得到了廣泛的應(yīng)用，并取得了良好的效果。

核函數(shù)本質(zhì)上是特征空間中的內(nèi)積函數(shù)，因此要求相關(guān)的算法模型在執(zhí)行過程中僅依賴于內(nèi)積。然而此類算法多為有監(jiān)督的學習算法，如支持向量機等。遠監(jiān)督關(guān)系抽取算法中無法直接利用監(jiān)督信息，因此不能直接應(yīng)用核函數(shù)。為了解決這一問題，本文對基于特征的遠監(jiān)督關(guān)系抽取算法做了擴展，提出了基于模式的遠監(jiān)督關(guān)系抽取算法。本文的主要工作如下：

(1) 提出了基于模式的遠監(jiān)督關(guān)系抽取算法(第3.2節(jié))。該算法對已有的基于特征的遠監(jiān)督關(guān)系抽取算法做了擴展，在其中使用了基于模式的向量。該算法提供了通用的擴展接口，因此可應(yīng)用于任何基于特征的遠監(jiān)督關(guān)系抽取算法。

(2) 借鑒無監(jiān)督關(guān)系抽取中模式的概念，設(shè)計了基于模式的向量(第4.1節(jié))。在傳統(tǒng)的特征向量中，每一個維度對應(yīng)一個特征。但在本文設(shè)計的模式向量中，每一個維度對應(yīng)一個模式。為了與傳統(tǒng)的特征向量相區(qū)分，本文中所使用的向量稱為模式向量。模式向量能夠有效地區(qū)分不同關(guān)系的實例，從而提升關(guān)系抽取的準確率。

(3) 提出了模式向量的構(gòu)造方法(第4.2節(jié))。以分層聚類為基礎(chǔ)，在其中應(yīng)用了基于核的實例表示方法，從而克服了基于特征的實例表示方法帶來的局限性。

(4) 通過實驗，驗證了基于模式的遠監(jiān)督關(guān)系抽取算法能夠有效地提升關(guān)系抽取的準確率(第5節(jié))。

2 背景

2.1 遠監(jiān)督關(guān)系抽取遠監(jiān)督關(guān)系抽取的基本思想是將關(guān)系庫中的關(guān)系與文本實例進行對齊[10-11]，對齊的主要依據(jù)是關(guān)系與文本實例所共有的實體對。因此，可以將實例與關(guān)系按照實體對進行分組。圖2即是一個簡單的分組，可以看到，關(guān)系庫中的兩個關(guān)系與文本庫中的四個實例通過其共有的實體“比爾蓋茨”、“微軟”建立了簡單的聯(lián)系，每一個實例都可能表達了其中的某個關(guān)系。遠監(jiān)督關(guān)系抽取的目標就是自動地將實例與其真正表達的關(guān)系對應(yīng)起來。

圖2 遠監(jiān)督關(guān)系抽取中的實例與關(guān)系分組示例

2.2 基于核的實例表示方法

基于特征的方法將實例轉(zhuǎn)化為一系列的特征，然后生成特征向量。在自然語言處理中，實例大多具有內(nèi)在的句法、語法結(jié)構(gòu)，轉(zhuǎn)換為特征后會損失一定的結(jié)構(gòu)信息。例如，解析樹被轉(zhuǎn)化為特征后，丟失了其樹形的結(jié)構(gòu)，形式上與其他特征并無二致。

基于核的實例表示方法[12]保持了實例原有的表達形式，使用一個精心設(shè)計的核函數(shù)直接對實例進行計算。核函數(shù)是符合特定條件的相似度函數(shù)，一個核函數(shù)必須是對稱且半正定的。核函數(shù)本質(zhì)上是在高維空間中計算實例間的內(nèi)積，從而將一對實體(x,y)映射為它們的相似度得分K(x,y)∈[0,∞]。

核函數(shù)無需顯式地對實例進行轉(zhuǎn)換，而是直接對實例中的特征進行計算。例如，在解析樹核[13]中，直接對實例的解析樹進行計算。其核函數(shù)計算了兩個實例的解析樹中公共子樹的數(shù)量。

基于核的方法的關(guān)鍵問題在于核函數(shù)的構(gòu)建。針對不同的任務(wù)，核函數(shù)應(yīng)盡量利用對該任務(wù)的效果具有關(guān)鍵意義的特征信息。

許多算法中直接利用了實例間的內(nèi)積，這類算法被稱為dual學習算法。將其中的內(nèi)積替換為特定的核函數(shù)，即可用在基于核的學習算法中。支持向量機是應(yīng)用最為廣泛的dual學習算法。

3 基于模式的遠監(jiān)督關(guān)系抽取算法

3.1 問題基于特征的實例表示方法，從文本中獲取詞法、句法、語法等特征信息，并構(gòu)造特征向量。特征向量的每一個維度均對應(yīng)一個特征，維數(shù)等于語料庫中所有不重復的特征的數(shù)量。每一個維度上的分量取值為0或1，代表實例是否具有該維度所對應(yīng)的特征。表1給出了兩個實例、對應(yīng)的關(guān)系,以及從實例獲取的部分特征。

表1 基于特征的實例表示示例

從表1可以看出，雖然兩個實例所表達的關(guān)系并不相同，但它們的特征中卻有相當一部分是重復的，如surface_distance。這些重復的特征幾乎在所有關(guān)系的實例中均會出現(xiàn)，對識別、區(qū)分關(guān)系的意義并不大。而表1中真正關(guān)鍵的特征，如argtype，僅占特征中的一小部分。此外，依賴樹包含了句子的主干結(jié)構(gòu)，對于關(guān)系抽取具有重要意義。而表1中的依賴樹特征僅僅是一個簡單的字符串，已經(jīng)丟失了結(jié)構(gòu)信息。由此可見，基于特征的方法并沒有突出關(guān)系抽取任務(wù)中所需的關(guān)鍵特征。

此外，由于特征的重復出現(xiàn)，導致實例在該特征空間中往往是線性不可分的。基于特征的遠監(jiān)督關(guān)系抽取模型，通常使用具有線性性質(zhì)的分類器，如邏輯回歸分類器等，從而導致關(guān)系抽取的準確率在一定程度上打了折扣。

3.2 算法設(shè)計

本文的目標是使用基于核的方法，替代基于特征的方法，從而改善后者的局限性。為了實現(xiàn)這一目標，本文對基于特征的遠監(jiān)督關(guān)系抽取算法進行了擴展，提出了基于模式的遠監(jiān)督關(guān)系抽取算法。算法中訓練部分的描述見圖3。

圖3 基于模式的遠監(jiān)督關(guān)系抽取訓練算法

由圖3可見，基于模式的遠監(jiān)督關(guān)系抽取算法，使用模式向量替換了已有算法模型中的特征向量。而訓練算法中所用到的模型，仍然為原有算法中的模型。模式向量在形式上與特征向量一致，因此具有通用性，任何基于特征的遠監(jiān)督關(guān)系抽取算法均可使用本文提出的算法進行擴展?；谀Ｊ降倪h監(jiān)督關(guān)系抽取算法是一種簡單易行的解決方案。

4 模式向量

4.1 基本定義

4.1.1 模式的定義在人工制定的關(guān)系抽取規(guī)則中，模式是特定的詞法、句法、語法結(jié)構(gòu)的組合，這符合人們書寫文本的規(guī)律。例如，要表達“雇員(A，B)”這一關(guān)系，可以使用“A在B工作”這樣的模式，而該模式則唯一表達了上述關(guān)系。一個定義完善的模式，其所表達的語義是唯一且確定的，從而能夠準確地對實體間的關(guān)系進行判別。

由于語言的多樣性，對同一種關(guān)系的表述可能有多種模式。如圖4所示，可以建立“關(guān)系—模式—

實例”三級關(guān)聯(lián)，其中每種關(guān)系對應(yīng)的模式的數(shù)量是有限的。因此，表達某種關(guān)系的所有實例，可以依據(jù)其模式分為多個組。

圖4 關(guān)系—模式—實例三級關(guān)系示例

本文中采用Bunescu與Mooney[14]對模式的定義，即: 模式是由兩個實體的類型以及實體間的最短依賴路徑組成的。實體間的最短依賴路徑通常包含了一句話的骨干結(jié)構(gòu)，與人工制定的規(guī)則中的模式類似。

4.1.2 模式向量的定義

本節(jié)提出了模式向量的定義。模式向量中每一個維度均對應(yīng)于一個模式，因此模式向量的維數(shù)等于模式的數(shù)量。在理想情況下，每個實例唯一對應(yīng)一個模式，則該實例的特征向量中，除了相應(yīng)模式對應(yīng)維度的分量為1，其他維度的分量均為0。模式向量建立了“模式—實例”這兩級間的關(guān)聯(lián)，而訓練后所得到的模型，則建立了“關(guān)系—模式”兩級間的關(guān)聯(lián)。

然而，在實際的學習過程中，很難準確地建立實例與模式間的聯(lián)系。因此，本文采用以下方法定義模式向量，作為對理想的模式向量的近似。對每個實例x，定義其模式向量為式(1)。

f(x)=[K(x,p1),K(x,p2),…,K(x,pN)]

(1)

其中，pi(i=1,2,…,N)為所有的模式，N為模式的數(shù)量，K(x,pi)∈[0,1]表示實例x對應(yīng)于模式pi的可能程度，f(x)即為所構(gòu)造的模式向量。同時，該模式向量為歸一化的向量，即所有維度的分量之和為1。

4.2 模式向量的構(gòu)造算法

根據(jù)上一節(jié)中的定義，模式向量的構(gòu)造算法如圖5所示。

圖5 模式向量構(gòu)造算法

4.2.1 相似度函數(shù)

模式向量中的分量K(x,pi)表示實例x與模式pi對應(yīng)的可能性，本文以實例x與模式pi之間的相似度作為可能性的近似值。具體的計算方法如下: 首先提取實例x的模式px，然后計算兩個模式的相似度K′(px,pi)，最后對各個分量進行歸一化。

對于兩個模式a和b，按照4.1.1節(jié)對模式的定義，a1a2…am和b1b2…bn為對應(yīng)的兩條最短依賴路徑。Bunescu和Mooney[14]通過式(2)計算相似度。

(2)

其中,c(ai,bi)=|ai∪bi|是ai與bi共有特征的數(shù)量。例如，在圖6中，S為原始語句所對應(yīng)的依賴圖，P為實體Protesters與實體stations對應(yīng)的模式，包括最短依賴路徑及該路徑上元素的特征(方括號中)。

圖6 最短依賴路徑核示例

本文對該最短依賴路徑核函數(shù)做了部分改動，去除了實體詞特征，如圖6方括號中的protesters與stations。因為對于模式的相似度而言，無需考慮實體詞。

4.2.2 模式提取

構(gòu)造模式向量之前，首先要提取出所有模式，即pi(i=1,2,…,N)。本文根據(jù)模式的相似度，將實例進行聚簇，并認為每個簇中的實例具有相同的模式。之后，選擇位于簇中心的實例，提取其模式作為該簇對應(yīng)的模式。

本文所使用的聚簇方法基于分層聚類。分層聚類可以分為凝聚的分層聚類(HAC)和分裂的分層聚類，前者采用自底向上的策略，后者采用自頂向下的策略。本文采用改進的HAC方法。

如圖7所示，基本的HAC算法首先將每個實例視為一個簇，然后迭代地合并最相似的兩個簇，直到所有簇之間的相似度都小于某個特定的閾值為止。描述簇與簇之間的相似度通常有三種方法: 單連接、全連接和平均連接。算法從兩簇中各選取一個實例組成一對，計算其相似度。上述三種方法分別取所有實例對中的最大相似度、最小相似度和平均相似度作為簇與簇之間的相似度。

圖7 HAC算法示例

HAC算法中，最終得到的聚簇的數(shù)量，取決于上文提到的相似度閾值。本文采用Rosenfeld和Feldman[4]提出的方法進行計算，該方法無需設(shè)定相似度閾值，因此無需指定聚簇的數(shù)目。在聚簇中使用單連接來刻畫簇間相似度，并將聚簇的停止條件設(shè)置為: “兩個簇的元素之間的平均相似度小于最大相似度的α倍”，其中，α為一常數(shù)且0<α<1。

聚簇完成之后，對每一個簇，要選擇該簇的中心元素，并提取其模式作為該簇的模式。根據(jù)K-medoids算法中對聚簇中心的定義，本文通過以下方法選擇聚簇中心實例: 對簇中每一個實例，分別計算其與簇中其他實例的相似度并求和，相似度總和最大的元素則為該簇的聚簇中心。

整個模式提取算法的描述見圖8。

圖8 模式提取算法

5 實驗與評估

5.1 實驗數(shù)據(jù) 本文實驗使用了Google Research提供的數(shù)據(jù)集。該數(shù)據(jù)集包含了維基百科中的文本片段，以及從該片段中提取出的關(guān)系三元組。每個關(guān)系三元組均對應(yīng)有人工的評估結(jié)果，可用于判斷關(guān)系的正確性。本文以該數(shù)據(jù)集為基礎(chǔ)，將其中的語料與Freebase進行對齊，并選取其中的出生日期、出生地、教育程度及機構(gòu)四種關(guān)系進行實驗。

實驗前，對Google Research提供的數(shù)據(jù)集進行了以下處理，以便實驗使用。

首先，將數(shù)據(jù)集中的三元組與文本片段建立關(guān)聯(lián)。由于三元組中的兩個實體均以Freebase中MID的形式表示，而文本片段中含有多個實體，需要確定關(guān)系三元組對應(yīng)于文本中的哪一對實體。處理過程中，少量文本未能與關(guān)系三元組進行對應(yīng)，這一部分數(shù)據(jù)未在實驗中使用。

其次，數(shù)據(jù)集中包含了五位評估者對關(guān)系正確性的判斷。實驗中，當有四位或超過四位評估者給出“yes”的判斷時，則認為該實例表達了相應(yīng)關(guān)系，否則認為該實例并未表達關(guān)系。

最終在實驗中使用的數(shù)據(jù)集構(gòu)成見表2。其中，訓練集與測試集按照4∶1的比例隨機采樣生成。

表2 實驗數(shù)據(jù)集的構(gòu)成

5.2 實驗結(jié)果與評估

5.2.1 模式向量評估與傳統(tǒng)的特征向量相比，模式向量能夠有效地區(qū)分不同關(guān)系的實例。即表達不同關(guān)系的兩個實例，其相似度應(yīng)盡量小。本文使用以下方法進行驗證。

對任意兩個關(guān)系r1、r2、X1、X2分別為對應(yīng)于這兩個關(guān)系的實例集合。對每個實例對(a,b)∈{(x1,x2)|x1∈X1,x2∈X2}，分別使用特征向量和模式向量計算實例間的余弦相似度，稱為特征相似度和模式相似度。最后，對相似度為0的實例對進行統(tǒng)計，結(jié)果見表3。

表3 相似度為0的實例對的數(shù)量及占比

從表3中可見，使用傳統(tǒng)特征向量的情況下，僅有不到10%的實例對的相似度為0。這意味著不同關(guān)系的實例或多或少共享了一部分特征，正是造成數(shù)據(jù)集線性不可分的主要原因。而模式向量則大幅提升了這一結(jié)果，90%以上的實體對的相似度為0，因此能夠?qū)Σ煌P(guān)系的實例進行更好的區(qū)分，從而提高關(guān)系抽取的準確率。

5.2.2 基于模式的關(guān)系抽取算法評估

本文提出的關(guān)系抽取算法，能夠?qū)κ褂锰卣飨蛄孔鳛檩斎氲乃惴Ｐ瓦M行擴展。通過對基準模型進行擴展，并比較擴展后與擴展前模型的性能，對本文提出的算法進行評估。本文選擇了以下三種基準模型進行實驗。

(1) Mintz++。該模型基于Mintz等[6]提出的模型，主要做了如下改進: (1)對應(yīng)于同一實體對的實例不再合并，(2)允許同一實體對具有多種關(guān)系。

(2) Hoffmann。即Hoffmann[15]提出的MultiR模型。該模型將關(guān)系抽取視為多實例、多標簽問題，并基于“at-least-one”假設(shè)。在學習過程中并未使用分類器，而是使用感知器算法。

(3) MIML-RE。該模型由Surdeanu[16]提出，將關(guān)系抽取視為多實例、多標簽問題，并在學習過程中使用邏輯回歸分類器。其中，關(guān)系級的分類器在“at-least-one”假設(shè)的基礎(chǔ)上，還對關(guān)系間的依賴進行了建模。

具體的實驗結(jié)果見表4。可以看出，與三種基準模型相比，基于模式的關(guān)系抽取算法在準確率上均有一定的提升，但在召回率上則有小幅的下降。

實驗結(jié)果對應(yīng)的準確率/召回率曲線見圖9。從Mintz模型可以看出，當召回率達到0.7左右時，基于模式的算法保持了一定的準確率，沒有出現(xiàn)大幅度的下滑。在Hoffmann模型中，在召回率達到0.7左右時，基于模式的算法在準確率方面表現(xiàn) 得較

為穩(wěn)定。在MIML-RE模型中，基于模式的算法均維持了較高的準確率。在上述三個模型中，基于模式的算法對應(yīng)的曲線的最右端橫坐標均小于原始算法的最右端橫坐標。

表4 三種基準模型及其改進模型的實驗結(jié)果

綜上所述，基于模式的算法對基準模型的提升主要體現(xiàn)在召回率達到一定高度時,在召回率略微下降的前提下，明顯地提升了關(guān)系抽取的準確率。對于使用線性分類器的多實例、多標簽?zāi)Ｐ停鏜IML-RE模型，本算法帶來的準確率提升更加顯著。

6 相關(guān)工作

有監(jiān)督的關(guān)系抽取通常被視為分類問題，按照實例表示方法的不同可以分為基于特征的分類模型和基于核的分類模型。多位研究者提出了不同的特征提取策略，用來將序列、解析樹、依賴樹等結(jié)構(gòu)中可能有用的信息轉(zhuǎn)換為特征向量[2]?；谔卣鞯姆椒y點在于如何選擇合適的特征。Jiang和Zhai[17]對此做了詳細的研究?；诤说姆椒ㄊ褂酶幼匀坏姆椒?，允許使用大量特征但并不顯式地提取它們。在之前的研究中，多種核函數(shù)被提出，如卷積樹核[18]，子序列核[19]，依賴樹核[14]等。

圖9 三種基準模型及其改進模型的PR曲線圖

遠監(jiān)督關(guān)系抽取方法的提出，主要是為了解決有監(jiān)督關(guān)系抽取中缺乏標注數(shù)據(jù)的問題。遠監(jiān)督方法最早由Craven和Kumlien[10]引入信息抽取領(lǐng)域，主要用于抽取蛋白質(zhì)與基因間的關(guān)系，使用Yeast Protein Database作為關(guān)系庫。之后，Mintz等[6]將其引入關(guān)系抽取中，并作出如下假設(shè): (1)每個實體對僅具有一種關(guān)系，(2)所有包含該實體對的實例均表達了此關(guān)系。Riedel等[7]放松了假設(shè)(2)，提出了重要的“at-least-one”假設(shè)，即“至少有一個包含該實體對的實例表達了該關(guān)系”。Hoffmann等[15]則進一步放松了假設(shè)(1)，允許兩個實體間具有多種關(guān)系。之后，Surdeanu等[16]引入了多實例、多標簽學習框架，建立了更為形式化的模型。除了上述基于特征的模型之外，部分學者從其他角度提出了多種模型。Alfonseca等[20]提出了分層主題模型，使用三個主題模型分別來捕捉背景模式、對應(yīng)于實體對的模式和對應(yīng)于關(guān)系的模式。Takamatsu等[8]則通過對常見模式的預(yù)測，判斷其是否真正表達了目標關(guān)系，從而移除錯誤的關(guān)系標簽。

無監(jiān)督關(guān)系抽取算法主要利用無監(jiān)督的聚簇技術(shù)來發(fā)現(xiàn)文本中的關(guān)系。Rosenfeld和Feldman[4]使用實體詞之間的文本作為模式，并利用k-means和HAC算法來進行聚類。Bollegala等[21]不僅使用了詞法特征，還使用了淺層的句法特征作為模式，并同時對實體對和模式進行聚類。Wang等[22]在聚類時，利用過濾技術(shù)去除了不太可能表達關(guān)系的實例。

7 結(jié)論和展望

本文提出了一種基于模式的遠監(jiān)督關(guān)系抽取算法，利用模式向量，對現(xiàn)有的基于特征的遠監(jiān)督關(guān)系抽取算法進行了擴展。在模式向量的構(gòu)造過程中，應(yīng)用了基于核的實例表示方法。因此，擴展后的算法克服了基于特征的算法中的局限性。實驗結(jié)果表明，模式向量能夠有效地區(qū)分不同關(guān)系的實例，基于模式的遠監(jiān)督關(guān)系抽取算法對關(guān)系抽取的準確率有明顯的提升。

下一步的工作，是設(shè)計出更為合理的核函數(shù)及聚類算法，使基于模式的特征向量能夠更加準確地對實例進行表示，從而進一步提升算法的性能。

此外，現(xiàn)階段的研究尚未能做到直接將基于核的方法應(yīng)用到遠監(jiān)督關(guān)系抽取中，在今后的工作中可以更深入地探討基于核的遠監(jiān)督關(guān)系抽取算法的設(shè)計與實現(xiàn)。

[1] Zelenko D, Aone C, Richardella A. Kernel methods for relation extraction[J]. The Journal of Machine Learning Research, 2003(3): 1083-1106.

[2] Kambhatla N. Combining lexical, syntactic, and semantic features with maximum entropy models for extracting relations[C]//Proceedings of the ACL 2004 on interactive poster and demonstration sessions. Association for Computational Linguistics, 2004: 22.

[3] GuoDong Z, Jian S, Jie Z, et al. Exploring various knowledge in relation extraction[C]//Proceedings of the 43rd annual meeting on association for computational linguistics. Association for Computational Linguistics, 2005: 427-434.

[4] Rosenfeld B, Feldman R. Clustering for unsupervised relation identification[C]//Proceedings of the sixteenth ACM conference on Conference on Information and Knowledge Management. ACM, 2007: 411-418.

[5] Yan Y, Okazaki N, Matsuo Y, et al. Unsupervised relation extraction by mining Wikipedia texts using information from the web[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2-Volume 2. Association for Computational Linguistics, 2009: 1021-1029.

[6] Mintz M, Bills S, Snow R, et al. Distant supervision for relation extraction without labeled data[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2-Volume 2. Association for Computational Linguistics, 2009: 1003-1011.

[7] Riedel S, Yao L, McCallum A. Modeling relations and their mentions without labeled text[M].Machine learning and knowledge discovery in databases. Springer Berlin Heidelberg, 2010: 148-163.

[8] Takamatsu S, Sato I, Nakagawa H. Reducing wrong labels in distant supervision for relation extraction[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers-Volume 1. Association for Computational Linguistics, 2012: 721-729.

[9] Pham A T, Raich R. Kernel-based instance annotation in multi-instance multi-label learning[C]//Proceedings of Machine Learning for Signal Processing (MLSP), 2014 IEEE International Workshop on. IEEE, 2014: 1-6.

[10] Craven M, Kumlien J. Constructing biological knowledge bases by extracting information from text sources[C]//Proceedings of the ISMB, 1999: 77-86.

[11] Bunescu R, Mooney R. Learning to extract relations from the Web using minimal supervision[C]//Proceedings of the Annual meeting-Association for Computational Linguistics. 2007, 45(1): 576.

[12] Cristianini N, Shawe-Taylor J. An introduction to support vector machines and other kernel-based learning methods[M]. Cambridge university press, 2000.

[13] Collins M, Duffy N. Convolution kernels for natural language[C]//Proceedings of the Advances in Neural Information Processing Systems. 2001: 625-632.

[14] Bunescu R C, Mooney R J. A shortest path dependency kernel for relation extraction[C]//Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2005: 724-731.

[15] Hoffmann R, Zhang C, Ling X, et al. Knowledge-based weak supervision for information extraction of overlapping relations[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1. Association for Computational Linguistics, 2011: 541-550.

[16] Surdeanu M, Tibshirani J, Nallapati R, et al. Multi-instance multi-label learning for relation extraction[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Association for Computational Linguistics, 2012: 455-465.

[17] Jiang J, Zhai C X. A Systematic exploration of the feature space for relation extraction[C]//Proceedings of the HLT-NAACL. 2007: 113-120.

[18] Qian L, Zhou G, Kong F, et al. Exploiting constituent dependencies for tree kernel-based semantic relation extraction[C]//Proceedings of the 22nd International Conference on Computational Linguistics-Volume 1. Association for Computational Linguistics, 2008: 697-704.

[19] Mooney R J, Bunescu R C. Subsequence kernels for relation extraction[C]//Proceedings of the Advances in neural information processing systems. 2005: 171-178.

[20] Alfonseca E, Filippova K, Delort J Y, et al. Pattern learning for relation extraction with a hierarchical topic model[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Short Papers-Volume 2. Association for Computational Linguistics, 2012: 54-59.

[21] Bollegala D T, Matsuo Y, Ishizuka M. Relational duality: Unsupervised extraction of semantic relations between entities on the web[C]//Proceedings of the 19th international conference on World wide Web. ACM, 2010: 151-160.

[22] Wang W, Besan?on R, Ferret O, et al. Filtering and clustering relations for unsupervised information extraction in open domain[C]//Proceedings of the 20th ACM international conference on Information and knowledge management. ACM, 2011: 1405-1414.

王加楠(1990—)，碩士，主要研究領(lǐng)域為自然語言處理、信息抽取。

E-mail: piovano@outlook.com

魯強(1977—)，通信作者,博士，副教授，碩士生導師，主要研究領(lǐng)域為知識工程、演化計算。

E-mail: luqiang@cup.edu.cn

Pattern-Based Distant Supervision for Relation Extraction Algorithm

WANG Jianan, LU Qiang

(Department of Computer Science and Technology, China University of Petroleum, Beijing 102249, China)

1003-0077(2017)04-0122-10

TP391

2015-12-17 定稿日期: 2016-03-23

國家自然科學基金(61402532)

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于模式的遠監(jiān)督關(guān)系抽取算法

1 引言

2 背景

3 基于模式的遠監(jiān)督關(guān)系抽取算法

4 模式向量

5 實驗與評估

6 相關(guān)工作

7 結(jié)論和展望