劉 煒,劉菲京,王 東,劉宗田
(上海大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,上海 200444)
一種基于事件本體的文本事件要素提取方法
劉 煒,劉菲京,王 東,劉宗田
(上海大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,上海 200444)
在事件信息的抽取中,事件要素的提取是一個(gè)難點(diǎn)?,F(xiàn)有的事件要素抽取主要是基于機(jī)器學(xué)習(xí)的方法,這類方法容易受到語料稀疏性的影響。該文提出一種基于事件本體的事件要素提取方法,該方法將事件要素推理分為兩步: 一、通過事件要素詞和事件指示詞的位置關(guān)系來初步填充要素值,并將得出的置信度較高的事件作為種子事件;二、利用第一步得出的種子事件,查詢事件本體中的事件類約束和基于事件非分類關(guān)系的推理規(guī)則,并對(duì)要素進(jìn)行推理,進(jìn)一步對(duì)事件要素進(jìn)行填充和修正。實(shí)驗(yàn)結(jié)果表明,該方法能較好地提升事件要素提取的準(zhǔn)確度。
事件本體;事件要素;事件要素推理
在自然語言處理領(lǐng)域,“事件”可以描述比“概念”粒度更大的、動(dòng)態(tài)的、具有完整意義的結(jié)構(gòu)化知識(shí),更加符合人類的認(rèn)知規(guī)律,是近年來倍受關(guān)注的一種知識(shí)模型。因此,從自然語言中抽取事件信息也顯得越來越重要。事件信息抽取中的關(guān)注點(diǎn)包括兩個(gè)方面,即發(fā)生了什么事情(事件識(shí)別)和與事件密切相關(guān)的信息(事件要素信息,如時(shí)間、地點(diǎn)和人物)。同時(shí),借助基于事件的文本表示方法,通過事件要素建立事件之間的關(guān)系,把描述這些事件的文檔聯(lián)系起來,可實(shí)現(xiàn)如文本分類、話題檢測與跟蹤等任務(wù)。
目前,事件要素的識(shí)別和抽取主要采用機(jī)器學(xué)習(xí)的方法,如文獻(xiàn)[1-3]中的方法。這種方法將事件抽取任務(wù)轉(zhuǎn)化為分類問題,雖然具有較好的魯棒性,但分類器的構(gòu)建、特征的發(fā)現(xiàn)和選擇,以及作為模型訓(xùn)練基礎(chǔ)的大規(guī)模語料庫的標(biāo)注工作都需要大量的人力和時(shí)間花費(fèi)。針對(duì)機(jī)器學(xué)習(xí)方法的不足,本文提出一種基于事件本體的文本事件要素提取方法,該方法使機(jī)器能夠模仿人的閱讀習(xí)慣,通過事件本體對(duì)事件信息進(jìn)行聯(lián)想,對(duì)地點(diǎn)、時(shí)間、主體、客體四個(gè)事件要素進(jìn)行推理。
事件的抽取分為事件類型的識(shí)別和事件要素抽取等任務(wù)。事件類型識(shí)別的目的是將事件分類,而要素的識(shí)別是為了事件信息的補(bǔ)全,將事件的發(fā)生時(shí)間、地點(diǎn)、人物等信息填充到相應(yīng)事件中?,F(xiàn)有的事件抽取方法中,利用最大熵分類器對(duì)事件的命名實(shí)體、時(shí)間等要素進(jìn)行識(shí)別[4-5]是較常見的做法。文獻(xiàn)[6]結(jié)合MegaM和TiMBL兩種機(jī)器學(xué)習(xí)方法在ACE語料上均取得了不錯(cuò)的效果,但較小語料規(guī)模造成了一定的數(shù)據(jù)稀疏。文獻(xiàn)[7]通過對(duì)事件類別的確定獲得了該類事件的模板,將事件要素識(shí)別轉(zhuǎn)化為二元分類問題,從一定程度上提高了事件要素識(shí)別效果,但還是不可避免的受到語料規(guī)模限制。文獻(xiàn)[8] 采用基于關(guān)鍵詞與觸發(fā)詞相結(jié)合的過濾方法進(jìn)行事件類型的識(shí)別,進(jìn)而采用基于最大熵分類方法對(duì)事件元素進(jìn)行識(shí)別,但該方法對(duì)學(xué)習(xí)語料的依賴性較強(qiáng)。此外,模式匹配的方法在事件要素識(shí)別中也被經(jīng)常使用。其思路是建立一系列的模式,把句子與模板進(jìn)行匹配達(dá)到事件識(shí)別與抽取的目的。這種方法只適合于特定的領(lǐng)域,缺乏通用性。典型例子是針對(duì)開放域的事件抽取系統(tǒng)FSA[9]。文獻(xiàn)[10-11]采用基于規(guī)則的方法分別從金融領(lǐng)域和突發(fā)事件領(lǐng)域抽取事件要素。規(guī)則的制定需要人工參與,不同規(guī)則之間還有可能出現(xiàn)沖突。文獻(xiàn)[12]采用多層模式匹配的方法在ACE中文語料上識(shí)別事件要素,但所采用的規(guī)則有限導(dǎo)致識(shí)別效果不夠理想。在準(zhǔn)確率上,模式匹配的方法一般比機(jī)器學(xué)習(xí)的方法高,但過于依賴具體領(lǐng)域,可移植性差。
基于現(xiàn)有方法中存在的問題,本文采用基于事件本體的要素推理方法來實(shí)現(xiàn)事件要素的提取,首先根據(jù)詞語位置關(guān)系初次填充要素,然后借助事件本體通過少量的推理規(guī)則來進(jìn)行事件要素推理和填充。此方法可以從一定程度上解決對(duì)語料的依賴和規(guī)則制定的問題。
本文以文獻(xiàn)[13]所提出的事件及事件關(guān)系概念為基礎(chǔ),并在此基礎(chǔ)上提出上層事件本體結(jié)構(gòu),由此來構(gòu)建針對(duì)事件要素提取的事件本體。以下對(duì)文獻(xiàn)[13]中所提出的事件、事件類和事件關(guān)系等概念進(jìn)行簡單介紹。
2.1 事件相關(guān)定義
定義1 事件(Event)和事件類,事件是指在某個(gè)特定的時(shí)間和環(huán)境下發(fā)生的,由若干角色參與,表現(xiàn)出若干動(dòng)作特征的一件事情。事件類(Event Class)指具有共同特征的事件的集合。事件在形式上定義為一個(gè)六元組結(jié)構(gòu):
A表示動(dòng)作;O表示對(duì)象;T表示時(shí)間;V表示地點(diǎn);P表示斷言;L表示語言表現(xiàn)。本文主要對(duì)事件的對(duì)象(主體和客體)、時(shí)間以及地點(diǎn)要素進(jìn)行推理。
定義2 事件關(guān)系,指的是存在于事件或事件類之間的分類關(guān)系和非分類關(guān)系。事件分類關(guān)系即事件類的包含關(guān)系,例如,自然災(zāi)害類包含地震類。事件非分類關(guān)系指的是事件或事件類之間存在的因果關(guān)系、跟隨關(guān)系、并發(fā)關(guān)系和組成關(guān)系。通常這些關(guān)系既存在于事件實(shí)例之間,也存在于事件類之間。關(guān)于事件關(guān)系的語義定義見文獻(xiàn)[13]。
2.2 上層事件本體結(jié)構(gòu)
為支持事件要素的推理,在文獻(xiàn)[13]事件本體結(jié)構(gòu)的基礎(chǔ)上,構(gòu)建一個(gè)上層事件本體結(jié)構(gòu)。上層事件本體結(jié)構(gòu)定義了事件的分類層次結(jié)構(gòu),如表1所示。
表1 上層事件本體分類結(jié)構(gòu)
續(xù)表
上層事件結(jié)構(gòu)的第一層根據(jù)事件類的主體類別劃分為兩大類: 人類事件類和自然事件類。
第二層進(jìn)一步地根據(jù)事件類的主體數(shù)量把人類事件類劃分為個(gè)人事件類和公共事件類。多人參與的事件類為公共事件類,而單個(gè)人參與的事件類為個(gè)人事件。例如,駕駛和交通事故的區(qū)別。自然事件類中的第二層分為自然力事件和非自然力事件,自然力事件的主體通常是大自然,如臺(tái)風(fēng)、山洪暴發(fā)等;非自然力事件的主體是一切除了人類和大自然的物體,可以是大自然中的物質(zhì),如一氧化碳、石頭等,也可以是人類社會(huì)生產(chǎn)出來的物品,如高速公路、汽車等。
在上層本體的第三層,人類事件類根據(jù)事件類的客體劃分為人類客體事件類、非人類客體事件類和不及物事件類。不及物事件類一般描述事件主體內(nèi)部狀態(tài)的變化,不會(huì)對(duì)其他事物產(chǎn)生影響,如生病和死亡等。自然事件類的第三層也是根據(jù)事件類的客體進(jìn)行劃分,自然力事件類下面分為人類客體自然力事件類、非人類客體自然力事件類以及不及物自然力事件類,非自然力事件類也是同樣的劃分方法。但是實(shí)際情況下,自然事件的客體往往是可以忽略的,因?yàn)檫@些事件大多數(shù)是自發(fā)事件,例如,地震事件和汽車爆炸事件。
第四層則是在第三層事件類基礎(chǔ)上根據(jù)時(shí)間來劃分。根據(jù)事件的時(shí)間要素,可以分為瞬時(shí)事件和持續(xù)事件。這樣劃分有利于分析事件的包含和組成關(guān)系,因?yàn)槿绻掷m(xù)事件的時(shí)間較長,則在該持續(xù)事件發(fā)生的時(shí)間段內(nèi)可能包含了瞬時(shí)事件和其他持續(xù)事件。
2.3 事件本體的建立
在事件本體的開發(fā)過程中,上層事件本體是不需要建立的,都是被預(yù)先定義好的抽象類。新建的具體事件類則需要根據(jù)事件類要素來進(jìn)行劃分,使之歸類到上層事件本體中的某個(gè)事件類。并建立具體事件類之間的關(guān)系,形成具體的事件本體。
具體事件類通過擴(kuò)展OWL語言進(jìn)行描述。事件關(guān)系包括并發(fā)(concur)、因果(cause)、跟隨(follow)和組成(is_part_of)幾種關(guān)系。這些事件關(guān)系在OWL中通過ObjectProperty類型建立,每個(gè)事件類都有若干個(gè)ObjectProperty類型的屬性,如因果、跟隨等,用restriction來限制一個(gè)事件類在某個(gè)ObjectProperty類型上與其他事件類的一一對(duì)應(yīng)關(guān)系。Restriction定義了三種類型:allvaluesfrom、somevaluesfrom、hasvalue。Allvaluesfrom表示指定屬性的所有可能取值都只能從指定的類中選取。Somevaluesfrom表示指定屬性的部分值從指定的類中選取,而hasvalue表示必須取規(guī)定的特定值。例如,倒塌事件類定義了一個(gè)表示因果關(guān)系的ObjectProperty,cause屬性的約束restriction為“somevaluesfrom地震”,即表示“倒塌”事件部分是由于“地震”引起的。這種方式不僅能夠描述事件類的關(guān)系類型,還能夠描述事件關(guān)系的概率。圖1是包含了上層事件結(jié)構(gòu)的事件本體模型。
事件本體是一個(gè)包含所有的事件類及事件類之間關(guān)系的集合。特定事件的要素約束條件可以通過查詢事件本體得到。但是只是通過要素的約束條件很難在符合條件的大量要素中完成要素識(shí)別任務(wù)。對(duì)于事件要素的識(shí)別,可以根據(jù)上下文中與某個(gè)事件相關(guān)聯(lián)的要素來推理出這個(gè)事件的相關(guān)信息。本文模擬這種聯(lián)系上下文的方式來制定推理規(guī)則,使用事件關(guān)系來建立文章中事件的聯(lián)系。本節(jié)分析了事件類之間的關(guān)系及其各自對(duì)要素推理的作用,分別定義了推理規(guī)則,并描述了要素識(shí)別的流程。
3.1 針對(duì)四類關(guān)系的要素推理規(guī)則
本文的中事件類之間的關(guān)系分為分類關(guān)系和非分類關(guān)系,兩類關(guān)系對(duì)要素推理的作用各不相同。對(duì)于分類關(guān)系,根據(jù)查詢到某事件在上層事件結(jié)構(gòu)中所屬的抽象事件類,可以獲得該事件的要素約束條件。例如,一個(gè)事件類(如打雷)屬于瞬時(shí)自然力事件類,那它的開始時(shí)間和結(jié)束時(shí)間相同,而且它的客體為空。
圖1 事件本體結(jié)構(gòu)圖
非分類關(guān)系在文本事件要素的推理過程中起到聯(lián)接上下文的作用,是要素推理的主要內(nèi)容。經(jīng)過對(duì)上層本體中所有第四層次的事件類型特征的研究以及大量案列的分析,根據(jù)事件之間的關(guān)系,我們針對(duì)每一種事件類型組合,分別提出了一組事件要素的推理規(guī)則,包括對(duì)地點(diǎn)、時(shí)間、主體和客體四個(gè)要素的推理,形成一個(gè)事件要素推理規(guī)則庫。表2是針對(duì)兩個(gè)Continue_PO_PublicEvent事件類型(簡稱為CPOPE類型,即存在關(guān)系的兩個(gè)事件都是屬于多人參與的公共持續(xù)事件)事件之間的關(guān)系所制定的12條推理規(guī)則,同樣,我們針對(duì)其它的不同類型事件之間的關(guān)系組合也可以分別制定推理規(guī)則。在這些推理規(guī)則中,Sub(ei)表示ei的主體對(duì)象,Obj(ei)表示客體對(duì)象,P(ei)表示事件ei的地點(diǎn)要素,ST(ei)表示事件開始時(shí)間,ET(ei)表示結(jié)束時(shí)間。表2中的推理規(guī)則解釋如下。
(1) 組成關(guān)系
存在組成關(guān)系的兩個(gè)事件通常具有相同的地點(diǎn)要素和主體要素,如“救助”和“現(xiàn)場施救”的主體都是“醫(yī)療人員”。在組成關(guān)系中,小事件的客體通常是大事件客體的一部分,例如,“現(xiàn)場施救”的客體“傷員”是“救助”的客體“所有在事故現(xiàn)場受傷的人”的組成部分。由以上規(guī)則還可以推出組成事件類的兄弟子事件類通常具有某些相同的要素(如主體和地點(diǎn)),例如,“救助”的子事件“現(xiàn)場施救”和“趕赴現(xiàn)場”具有相同的主體“醫(yī)療人員”和相同的地點(diǎn)“事故現(xiàn)場”??偨Y(jié)歸納可得到表3中的規(guī)則a到規(guī)則d,即對(duì)于CPOPE類型的事件e1和事件e2,若e1是e2的組成事件,規(guī)則a表示e2的時(shí)間區(qū)間包含e1的時(shí)間區(qū)間;規(guī)則b表示事件e1和e2在相同的地點(diǎn)發(fā)生;規(guī)則c表示事件e1和e2具有相同的主體;規(guī)則d表示e1的客體是e2客體的一部分。
(2) 因果關(guān)系
對(duì)于存在因果關(guān)系的兩個(gè)CPOPE類型事件,其發(fā)生的地點(diǎn)往往是相同的,時(shí)間上起因事件通常發(fā)生在結(jié)果事件之前。規(guī)則e表示起因事件e1的起始時(shí)間在結(jié)果事件e2的起始時(shí)間之前;f表示起因事件e1和結(jié)果事件e2通常發(fā)生在相同地點(diǎn);g表示起因事件e1的客體通常是結(jié)果事件e2的主體。
(3) 跟隨關(guān)系
對(duì)于存在跟隨關(guān)系的兩個(gè)CPOPE類型事件,其發(fā)生的時(shí)間通常有先后,而且相隔時(shí)間較短,兩個(gè)事件在時(shí)間區(qū)間上不存在重疊。此外,兩個(gè)事件類一般具有相同的主體和地點(diǎn)要素。若e2跟隨e1發(fā)生,規(guī)則h表示事件e1結(jié)束之后事件e2才發(fā)生;i表示事件e1和事件e2的發(fā)生地點(diǎn)是相同的;j表示事件e1和事件e2的主體是相同的。
(4) 并發(fā)關(guān)系
存在并發(fā)關(guān)系的兩個(gè)CPOPE類型事件通常是同時(shí)發(fā)生,兩個(gè)事件的時(shí)間要素和地點(diǎn)要素通常是相同的。規(guī)則k表示存在并發(fā)關(guān)系的兩個(gè)CPOPE類型事件的地點(diǎn)要素相同。規(guī)則l表示存在并發(fā)關(guān)系的兩個(gè)CPOPE類型事件的發(fā)生時(shí)間存在重疊。
表2 針對(duì)CPOPE×CPOPE事件關(guān)系的要素推理規(guī)則
3.2 事件要素識(shí)別過程
本文主要針對(duì)新聞報(bào)道文本中四個(gè)要素(地點(diǎn)、時(shí)間、主體、客體)進(jìn)行識(shí)別和填充。對(duì)于一篇文章,抽取出其中所有命名實(shí)體,地點(diǎn)詞、人物詞和時(shí)間詞等能夠表示事件要素的詞語,可構(gòu)建一個(gè)二維矩陣,縱向維度的各行表示不同事件,橫向維度的各列表示事件要素詞。矩陣中的各個(gè)數(shù)值代表不同的要素類型表征: 0表示要素不隸屬于該事件,1表示地點(diǎn)要素,2和3分別表示開始時(shí)間和結(jié)束時(shí)間要素,4和5分別表示主體和客體對(duì)象要素。通過不斷更新這個(gè)矩陣,實(shí)現(xiàn)事件要素的填充。例如,Aij描述了一篇文章中所有事件所構(gòu)成的矩陣。
w1w2w3w4w5w6w7w8w9w10
事件要素識(shí)別過程主要包含三個(gè)階段: 數(shù)據(jù)的預(yù)處理、基于詞位置的要素初步填充、要素的推理。
數(shù)據(jù)的預(yù)處理首先要對(duì)文章進(jìn)行分詞并手工修正分詞過細(xì)的結(jié)果,然后標(biāo)出事件觸發(fā)詞和對(duì)應(yīng)的事件要素詞。以句子為單位標(biāo)出詞在句子中的序號(hào),以便能夠在后面步驟中計(jì)算詞的位置關(guān)系。
初步填充階段需要在預(yù)處理階段標(biāo)出了詞語在文中的段落序號(hào)、句子序號(hào)、和詞語序號(hào)的基礎(chǔ)上,計(jì)算觸發(fā)詞和要素詞的距離關(guān)系,將距離最近的詞作為要素初步填充的結(jié)果。對(duì)于文中的事件e,初步填充要素的步驟見表3。這里的α、β和γ是用于計(jì)算置信度的權(quán)值,分別代表要素詞和事件觸發(fā)詞在同一個(gè)句子、同一個(gè)段落、不在一個(gè)段落。為了保證置信度隨著距離的增加而減小(一般來說,要素詞和觸發(fā)詞在相同句子的置信度比在不同句子的置信度大),將三個(gè)置信度權(quán)值分別取值為α=100,β=10,γ=1。
表3 要素初步填充步驟
第三階段利用第二階段填充的結(jié)果,對(duì)事件要素進(jìn)行推理。首先查詢事件所屬的上層事件類,得到該事件的要素約束條件,例如,有些事件的某個(gè)要素是缺省的則不填充,有些事件的主體只能是人,則選擇表示人物的命名實(shí)體來填充。為了保證推理的準(zhǔn)確性,需要從初步填充結(jié)果中選擇置信度最大的事件作為種子事件進(jìn)行推理。把種子事件作為輸入對(duì)事件本體進(jìn)行查詢,找到與其存在非分類關(guān)系的事件類,然后查詢每一對(duì)關(guān)聯(lián)的兩個(gè)事件類的上層事件類型,根據(jù)所關(guān)聯(lián)的兩個(gè)事件類的上層類型定位要素推理規(guī)則庫,接下來利用推理規(guī)則進(jìn)行推理。
3.3 實(shí)例分析
以下是一段半自動(dòng)標(biāo)注后的新聞,ei表示事件觸發(fā)詞,li表示地點(diǎn)詞,ti表示時(shí)間詞,pi表示參與者(包括了主體和客體):
新快報(bào)訊,8月20日早上6點(diǎn)(t1),阿爾及利亞以東150公里的卜伊拉(l1)發(fā)生汽車炸彈(p1)爆炸(e1)事件,造成11人(p2)死亡(e2)。
當(dāng)?shù)孛襟w報(bào)道稱,包括4名軍事人員在內(nèi)的31人(p3)受傷(e3)。目前(t2),當(dāng)?shù)?l2)正對(duì)傷者(p4)進(jìn)行救治(e4)。
第一步,通過詞語位置遠(yuǎn)近填充的事件要素如表4,conf為置信度。
表4 通過詞語位置遠(yuǎn)近填充的事件要素
第二步,通過事件本體中的事件類約束進(jìn)行推理。
e1is_aInstant_NonNatureForceEvent
(1)
式(1)說明,把e1映射到本體中得到其上層的事件類型為Instant_NonNatureForceEvent,一是可以得出e1是瞬時(shí)事件,則開始時(shí)間和結(jié)束時(shí)間相同,二是該事件描述的是主體自身的變化,沒有客體。由于第一步會(huì)把距離最近的要素詞p1填充為e1的客體,不符合Instant_NonNatureForceEvent類型沒有客體的約束,所以第二步修正e1的客體為空。同理,可以得出:
e2is_aInstant_NonObject_SinglePersonEvent
=>e2.ST=e1.ET=t1,e2.OBJECT=null
e3is_aContinue_NonObject_SinglePersonEvent
=>e3.OBJECT=null,e3.ET>e3.ST=t1
e4is_aContinue_PersonObject_PublicEvent
=>e4.OBJECT= 傷者,e4.ET>e4.ST=t2
其中,e4.SUBJECT=醫(yī)療人員,根據(jù)具體的“救治”事件類得出它在本體中的主體要素。
第三步,從事件本體中查詢獲得以下幾種事件關(guān)系:e1causee2、e1causee3、e2concure3、e3causee4。將e1作為種子事件,根據(jù)事件1和事件2的類型,在推理規(guī)則庫中查找相應(yīng)的規(guī)則,然后對(duì)其他事件的事件要素進(jìn)行推理:
e1causee2=>e1.ST
e2concure3=>e2.ST=e3.ST=>e3.ST=e3.ET=t1+
e3causee4=>e3.ST
e3causee4=>e3.LOC=e4.LOC(l2=l1)=>e4.LOC=l1
最后得到的結(jié)果如表5所示。
表5 要素推理結(jié)果
可以看出,通過推理把本身沒有對(duì)象要素的事件的對(duì)象值設(shè)置為空。更新了事件發(fā)生的時(shí)間,并且從本體中填充了默認(rèn)的要素“醫(yī)務(wù)人員”,將如“目前”、“當(dāng)?shù)亍钡认鄬?duì)時(shí)間和地點(diǎn)推理出其絕對(duì)的事件和地點(diǎn),在一定程度上填充了事件要素。
4.1 數(shù)據(jù)集和評(píng)價(jià)標(biāo)準(zhǔn)
本實(shí)驗(yàn)的數(shù)據(jù)采用突發(fā)事件語料庫(Chinese Emergency Corpus, CEC)[14],其中包含了地震、火災(zāi)、交通事故、恐怖襲擊以及食物中毒五類突發(fā)事件的語料共332篇。事件本體采用文獻(xiàn)[15]中構(gòu)建的突發(fā)事件本體,包含事件類421個(gè)、事件間的因果和跟隨等關(guān)系307個(gè)。
通過準(zhǔn)確率(precision)、召回率(recall)、F值(F-Measure)這三個(gè)標(biāo)準(zhǔn)來評(píng)價(jià)要素填充的效果。
其中,準(zhǔn)確率是計(jì)算正確填充要素的事件數(shù)占所有事件總數(shù)的比例。
召回率用來計(jì)算正確填充某要素的事件數(shù)占包含該要素的事件總數(shù)的比例。
F1值的計(jì)算方法如式(1)所示。
4.2 實(shí)驗(yàn)設(shè)計(jì)
實(shí)驗(yàn)選取CEC語料中的若干個(gè)事件,分別進(jìn)行主體、客體、地點(diǎn)和時(shí)間要素的填充,實(shí)驗(yàn)設(shè)計(jì)為兩個(gè)部分。
實(shí)驗(yàn)一: 使用鄰近的要素進(jìn)行填充,也就是根據(jù)事件觸發(fā)詞和要素詞之間的位置關(guān)系來填充。對(duì)于報(bào)道中的一些格式化的詞語,比如“據(jù)新華社報(bào)道”、“某人說”,如果將其作為要素補(bǔ)充的候選,會(huì)對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生干擾。此外,這一類事件的描寫通常不是用來描述事情的發(fā)展情況。所以,這類事件在實(shí)驗(yàn)中會(huì)被剔除掉。利用分詞工具標(biāo)注的人稱代詞和命名實(shí)體等概念,以及地名和時(shí)間等要素也會(huì)因?yàn)楸硎镜母袷讲煌瑤砼袛嗖灰恢虑闆r,要對(duì)這些詞語進(jìn)行統(tǒng)一。有些事件的客體是缺省的,例如,“海嘯”的客體為空,所以這一類事件的客體不需要統(tǒng)計(jì)結(jié)果。
實(shí)驗(yàn)二: 根據(jù)本文所提出的事件關(guān)系推理規(guī)則,利用推理的結(jié)果來填充事件要素。要素推理需要選取一個(gè)置信度較高的事件通過非分類關(guān)系推理出關(guān)聯(lián)事件的要素。文章的標(biāo)題和第一段中提到的事件通常不會(huì)把事件要素缺省,對(duì)于這些事件,從第一部分實(shí)驗(yàn)中得到數(shù)據(jù)較為準(zhǔn)確。所以實(shí)驗(yàn)二將在實(shí)驗(yàn)一得到較優(yōu)結(jié)果的基礎(chǔ)上分兩種情況進(jìn)行實(shí)驗(yàn): (1)選擇置信度最高且出現(xiàn)在第一段中的事件作為種子事件進(jìn)行推理;(2)選擇置信度最高且出現(xiàn)在其他段落中的事件作為種子事件進(jìn)行推理。
4.3 實(shí)驗(yàn)結(jié)果分析
實(shí)驗(yàn)一對(duì)CEC語料中隨機(jī)抽取的195個(gè)事件的統(tǒng)計(jì)結(jié)果如表6所示。其中,對(duì)于地點(diǎn)要素和時(shí)間要素的填充結(jié)果,準(zhǔn)確率、召回率和F1值都超過了60%。由此可見,利用觸發(fā)詞和事件要素詞的位置關(guān)系實(shí)現(xiàn)對(duì)這兩種要素的抽取,能初步達(dá)到理想的效果。文本中地點(diǎn)要素詞和事件要素詞所涉及的范圍可以根據(jù)其在篇章結(jié)構(gòu)的遠(yuǎn)近來初步判斷。而對(duì)主體和客體的填充效果不如時(shí)間、地點(diǎn)要素,原因包括三點(diǎn): 第一,文章中主體和客體詞出現(xiàn)的次數(shù)明顯多于主體和客體,容易造成其在句子中的分布互相干擾;第二,主體詞可能在其他事件中充當(dāng)客體,客體詞也可能在一些事件中成為主體,即主體和客體的標(biāo)注不像地點(diǎn)詞和時(shí)間詞那樣明確;第三,一些事件的主體和客體會(huì)出現(xiàn)多個(gè),但是只能填充其中的一個(gè)。
表6 不同關(guān)系的鄰近要素填充結(jié)果
從實(shí)驗(yàn)一中得出的置信度最高的事件分布,如圖2。
根據(jù)圖2可以看出,置信度最高和次高的事件通常會(huì)出現(xiàn)在文章的第一自然段,其次是第二自然段,其他的自然段分布比較均勻。通常一篇文章的核心事件都是分布在第一自然段,敘述也較為詳細(xì),而且會(huì)在一句話中交待該事件的主要要素。分布在其他自然段的置信度高的事件則通常不是文章的核心事件。
實(shí)驗(yàn)一只運(yùn)用了詞語間的位置關(guān)系,事件的類型、上下文關(guān)系等因素沒有考慮進(jìn)去,所以實(shí)驗(yàn)二利用本體查詢事件關(guān)系和上層事件類型,通過基于非分類關(guān)系推理更新第一步的填充結(jié)果。實(shí)驗(yàn)結(jié)果如表7。
表7 針對(duì)不同種子事件的要素推理填充結(jié)果
圖2 置信度值最高和次高的事件數(shù)量分布圖
由表7中可知,實(shí)驗(yàn)二的事件要素的識(shí)別效果比實(shí)驗(yàn)一顯著提高。在各類要素的填充過程中,只要兩個(gè)事件存在關(guān)系,即使在文中的位置關(guān)系并不相近,也能夠推理出地點(diǎn)上的相似或者時(shí)間上的前后關(guān)系,識(shí)別效果得到提高,排除了詞位置關(guān)系的干擾。主體和客體的識(shí)別上也避免了實(shí)驗(yàn)一中的不足,特別是當(dāng)主體連續(xù)執(zhí)行多個(gè)事件的時(shí)候,能夠過濾掉句子中夾雜的客體詞,把連續(xù)事件的主體統(tǒng)一填充為該主體。此外,實(shí)驗(yàn)二中事件映射到本體中的事件類,獲得要素的約束條件,充分考慮了這些要素詞語的類別和事件類要素缺省的情況。通過實(shí)驗(yàn)二從本體中獲得的事件約束,可以對(duì)實(shí)驗(yàn)一的填充結(jié)果進(jìn)行修正。對(duì)于非缺省的要素,通過事件類的要素約束選擇出更合適的要素詞能夠提高實(shí)驗(yàn)的效果。在選取種子事件時(shí),第一種情況的實(shí)驗(yàn)效果要略好于第二種情況。原因是第一種情況的種子事件往往是文中較為重要的事件,與其存在非分類關(guān)系的事件較多,所以通過這類種子事件進(jìn)行修正的關(guān)聯(lián)事件較多。從實(shí)驗(yàn)結(jié)果可以看出,利用基于事件非分類關(guān)系的推理能夠有效地識(shí)別出事件要素,選擇文章首段的事件作為種子,能夠獲得更好的實(shí)驗(yàn)效果。
與文獻(xiàn)[2]采用基于機(jī)器學(xué)習(xí)的方法所獲得的比較理想的實(shí)驗(yàn)結(jié)果對(duì)比,本文方法在地點(diǎn)和時(shí)間抽取的準(zhǔn)確率和召回率略低,主體和客體的抽取準(zhǔn)確率和召回率明顯提高,綜合四種不同要素的抽取,本文方法效果更理想,如表8所示。此外,由于本文采用的實(shí)驗(yàn)數(shù)據(jù)是具有普遍性的新聞文本, 精確度和召回率相比文獻(xiàn)[8]略低,但是降低了對(duì)特有語料的依賴性。
表8 準(zhǔn)確率和召回率的比較
本文針對(duì)傳統(tǒng)事件要素識(shí)別方法所存在的缺點(diǎn),提出了一種基于事件本體的文本事件要素識(shí)別和推理方法。建立了面向事件要素推理的包含兩層結(jié)構(gòu)的事件本體; 定義了基于事件類關(guān)系的要素推理規(guī)則。相比基于規(guī)則的方法,本文方法所需要的規(guī)則數(shù)量更少;相比傳統(tǒng)的基于機(jī)器學(xué)習(xí)的方法,本文的方法對(duì)語料的依賴性大大減弱,且對(duì)語料的數(shù)量沒有具體的要求。實(shí)驗(yàn)表明,對(duì)于新聞報(bào)道類的文本,本文所提出的方法能夠有效地提高事件要素的識(shí)別效果。需要改進(jìn)的地方體現(xiàn)在目前事件指示詞和事件要素的自動(dòng)識(shí)別準(zhǔn)確度還不能達(dá)到較理想的程度,另外事件本體的結(jié)構(gòu)影響要素識(shí)別效果,本體中事件要素的約束條件以及針對(duì)事件類關(guān)系的推理規(guī)則定義還需進(jìn)一步完善。
[1] Saeedi P, Faili H. Feature engineering using shallow parsing in argument classification of Persian verbs[C]//Proceedings of the 16th CSI International Symposium on Artificial Intelligence and Signal Processing (AISP 2012), 2012: 333-338.
[2] Wang W, Zhao D Y, Wang D. Chinese news event 5w1h elements extraction using semantic role labeling[C]//Proceedings of the Third International Symposium on Information Processing (ISIP), 2010: 484-489.
[3] 楊爾弘. 突發(fā)事件信息提取研究[D]. 北京語言大學(xué)博士學(xué)位論文, 2005.
[4] Chieu H L, Ng H T. A maximum entropy approach to information extraction from semi-structured and free text[C]//Proceedings of the 18thNational Conference on Artificial Intelligence(AAAI 2002), 2002:786-791.
[5] Chen Z, Ji H. Language specific issue and feature exploration in Chinese event extraction[C]//Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Companion Volume: Short Papers, 2009: 209-212.
[6] Ahn D. The stages of event extraction[C]//Proceedings of COLING/ACL 2006 Workshop on Annotating and Reasoning about Time and Events, 2006: 1-8.
[7] 趙妍妍, 秦兵, 車萬翔, 等. 中文事件抽取技術(shù)研究[J]. 中文信息學(xué)報(bào), 2008, 22(1): 3-8.
[8] 丁效, 宋凡, 秦兵, 等. 音樂領(lǐng)域典型事件抽取方法研究[J]. 中文信息學(xué)報(bào), 2011, 25(2): 15-20.
[9] Surdeanu M, Harabagiu S. Infrastructure for open-domain information extraction[C]//Proceedings of the Human Language Technology Conference (HLT 2002), 2002: 325-330.
[10] 周劍輝, 苑春法, 黃錦輝, 等. 金融領(lǐng)域內(nèi)信息抽取規(guī)則的自動(dòng)獲取, in Advances in Computation of Oriental Languages[C]//Proceedings of the 20th International Conference on Computer Processing of Oriental Languages, Shenyang, China, 2003: 410-416.
[11] 梁晗, 陳群秀, 吳平博. 基于事件框架的信息抽取系統(tǒng)[J]. 中文信息學(xué)報(bào), 2006, 20(2): 40-46.
[12] Tan H Y, Zhao T J, Zheng J H. Identification of Chinese event and their argument roles[C]//Proceedings of IEEE 8th International Conference on Computer and Information Technology Workshops, 2008: 14-19.
[13] 劉宗田, 黃美麗, 周文, 等. 面向事件的本體研究[J]. 計(jì)算機(jī)科學(xué), 2009, 36(11): 189-192.
[14] CEC-Corpus, https://github.com/daselab/CEC-Corpus[OL].
[15] 仲兆滿. 事件本體及其在查詢擴(kuò)展中的應(yīng)用[D]. 上海大學(xué)博士學(xué)位論文,2011.
A Text Event Elements Extraction Method Based on Event Ontology
LIU Wei, LIU Feijing, WANG Dong, LIU Zongtian
(School of Computer Engineering and Science, Shanghai University, Shanghai 200444, China)
Extraction of event elements is a challenge in event-based information extraction. Currently, the main solutions are based on machine learning method which is subject to the corpus sparsity. This paper proposes an event element extraction method based on event ontology. Event elements reasoning process includes two steps: Firstly, elements values are initially complemented according to positional relations between event elements words and event indicators words, selecting the event with the highest confidence as the seed event; Secondly, search the seed events to for their event classes restrictions and non-taxonomic relations from event ontology, to complement and revise event elements. The experimental results show that this method can improve the accuracy of event elements extraction.
Event Ontology; Event Elements; Event Elements Reasoning
劉煒(1978-),博士,副研究員,主要研究領(lǐng)域?yàn)檎Z義本體、知識(shí)表示。E-mail:liuw@shu.edu.cn劉菲京(1989-),碩士研究生,主要研究領(lǐng)域?yàn)槭录倔w建模及本體映射技術(shù)。E-mail:liufeijing0307@163.com王東(1986-),碩士研究生,主要研究領(lǐng)域?yàn)楸倔w技術(shù)、事件知識(shí)表示等。E-mail:ming123@shu.edu.cn
1003-0077(2016)04-0167-09
2014-10-15 定稿日期: 2015-05-20
國家自然科學(xué)基金(61305053);國家自然科學(xué)基金(61273328)
TP391
A