?
中文事件相關(guān)性語(yǔ)料庫(kù)構(gòu)建及識(shí)別方法*
通信地址:215006 江蘇省蘇州市蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院Address:School of Computer Science and Technology,Soochow University,Suzhou 215006,Jiangsu,P.R.China
黃一龍,李培峰,朱巧明
(1.蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006;
2.江蘇省計(jì)算機(jī)信息處理技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215006)
摘要:事件往往圍繞主題展開(kāi),相互間存在相關(guān)性。在大數(shù)據(jù)時(shí)代,從海量信息中篩選出和某個(gè)主題相關(guān)的事件,有助于信息抽取、文本摘要、文本生成等自然語(yǔ)言處理任務(wù)。首先提出一種相關(guān)事件的標(biāo)注方法,并標(biāo)注了一個(gè)中文事件相關(guān)性語(yǔ)料庫(kù)。然后,初步提出了一個(gè)基于多種特征的相關(guān)性事件識(shí)別方法。在標(biāo)注語(yǔ)料上的實(shí)驗(yàn)表明,性能在基準(zhǔn)系統(tǒng)上F1值提高了4.08%。
關(guān)鍵詞:相關(guān)事件語(yǔ)料庫(kù);標(biāo)注;相關(guān)性;事件關(guān)系
1引言
如今,互聯(lián)網(wǎng)已成為人們交流信息和獲取資料的主要平臺(tái),在其為人們生活提供便利的同時(shí),每天還會(huì)產(chǎn)生海量數(shù)據(jù),這些數(shù)據(jù)中有大部分以文本形式存儲(chǔ),記錄了大量事件,而其中有許多事件相互關(guān)聯(lián)。當(dāng)人們使用搜索引擎查找某個(gè)特定事件時(shí),不但希望獲取所關(guān)心的事件,還希望能夠獲得與之相關(guān)的事件。
事件是描述特定目標(biāo)在某個(gè)時(shí)間、地點(diǎn)的某種狀態(tài)。ACE(ACE Guidelines 5.5.1, http:∥www.ldc.upenn.edu/Projects/ACE/)對(duì)事件作如下定義:事件是包含參與者的具體發(fā)生的事情,常被用來(lái)描述狀態(tài)的改變。在事件之間的多種關(guān)系中,時(shí)序關(guān)系、因果關(guān)系等方面的研究相對(duì)較多,而在相關(guān)關(guān)系方面的研究較少。舍恩伯格在《大數(shù)據(jù)時(shí)代》中認(rèn)為,建立在相關(guān)關(guān)系分析法上面的預(yù)測(cè)是大數(shù)據(jù)的核心,只有在完成了對(duì)相關(guān)性分析后,才有可能研究更深層次的因果關(guān)系,找出背后的為什么。而且,由于因果關(guān)系較為復(fù)雜,對(duì)它的定義理論學(xué)界還存在爭(zhēng)議,標(biāo)注一個(gè)因果關(guān)系的語(yǔ)料庫(kù)存在很大困難。為此,本文從事件的相關(guān)性入手研究事件關(guān)系。
在一篇文章中,事件圍繞主題為中心展開(kāi),文章內(nèi)容由其所包含的各個(gè)事件進(jìn)行描述,因此這些圍繞一個(gè)特定主題的事件在一定程度上具有關(guān)聯(lián)性。其中關(guān)聯(lián)性大的事件稱為相關(guān)事件。一般情況,一篇文章可看成由幾個(gè)話題組成,話題中的事件往往是相關(guān)的。
例1國(guó)民黨副主席吳伯雄最近訪問(wèn)(E1)了中國(guó)大陸,并且會(huì)見(jiàn)(E2)了中國(guó)高層領(lǐng)導(dǎo)人。
(——VOM20001129.0700.2200)
例2以色列士兵7號(hào)在以色列和黎巴嫩的邊界對(duì)一群扔(E1)石頭的巴勒斯坦示威者開(kāi)火(E2),結(jié)果造成兩名巴勒斯坦人喪生(E3)和10多人受傷(E4)。
(——CBS20001008.1000.0742)
在例1中,“訪問(wèn)”和“會(huì)見(jiàn)”具有順序性,并且后者是前者的目的。在例2中,“開(kāi)火”是“喪生”和“受傷”的原因。容易看出,相關(guān)事件往往有相同或相似的論元,而且事件類型也較固定。例如,在ACE2005中文語(yǔ)料庫(kù)中,“Start-Position”(任職)類型事件與“Be-Born”(出生)、“Marry”(結(jié)婚)等類型的事件無(wú)關(guān)。
本文提出一種中文事件相關(guān)性語(yǔ)料庫(kù)構(gòu)建方法,并提出基于多種特征的事件相關(guān)性識(shí)別方法。正確識(shí)別兩個(gè)事件的相關(guān)關(guān)系,可以更好地表示文章主題,將事件中的時(shí)間、地點(diǎn)、角色、類型等語(yǔ)義信息相關(guān)聯(lián)。這有助于人們獲取更多與該事件相關(guān)的信息。同時(shí),信息抽取、文本摘要、文檔生成、自動(dòng)問(wèn)答等任務(wù)也能夠根據(jù)其相關(guān)事件,提取到更多有價(jià)值的信息。
本文組織結(jié)構(gòu)如下:第2節(jié)介紹相關(guān)工作;第3節(jié)介紹相關(guān)性語(yǔ)料庫(kù)構(gòu)建及標(biāo)注結(jié)果;第4節(jié)介紹針對(duì)識(shí)別事件相關(guān)性提出的特征;第5節(jié)為事件相關(guān)性識(shí)別的實(shí)驗(yàn)結(jié)果;最后一節(jié)對(duì)本文工作進(jìn)行總結(jié),并展望將來(lái)的工作。
2相關(guān)工作
馬彬[1]對(duì)相同話題收集多篇文章,使用依存關(guān)系構(gòu)建依存線索集。根據(jù)線索集計(jì)算事件依存強(qiáng)度,以判斷標(biāo)題事件相關(guān)性。楊雪蓉[2]在馬彬的語(yǔ)料上,提出利用核心詞、依存實(shí)體、共現(xiàn)實(shí)體關(guān)聯(lián)因子,構(gòu)造事件關(guān)聯(lián)因子,通過(guò)事件關(guān)聯(lián)因子的大小判斷標(biāo)題事件對(duì)是否相關(guān)。
Zou H[3]提出一種中文事件模式標(biāo)注方法,他們定義了7種事件關(guān)系,分別為:因果關(guān)系(Causality)、同指關(guān)系(Co-reference)、順序關(guān)系(Sequential)、目的關(guān)系(Purpose)、部分-整體關(guān)系(Part-while)、并列關(guān)系(Juxtaposition)、對(duì)比關(guān)系(Contrast)。并且認(rèn)為同一篇報(bào)道中的事件是有一定關(guān)系的。
Mirza P[4]提取了事件對(duì)之間的特征,如詞法特征、句法特征等,使用SVM分類器進(jìn)行事件對(duì)時(shí)序關(guān)系的識(shí)別。Chambers N[5,6]使用ILP(Integer Linear Programming)方法,對(duì)識(shí)別結(jié)果進(jìn)行全局優(yōu)化,將互相矛盾的結(jié)果進(jìn)行重新識(shí)別。Ittoo A[7]對(duì)語(yǔ)料進(jìn)行句法分析后,利用少量已知的因果模板,尋找新的因果關(guān)系,再利用新找到的因果關(guān)系繼續(xù)尋找新的模板,在語(yǔ)料庫(kù)中循環(huán)迭代用于抽取因果關(guān)系和模板。Sorgente A[8]使用模板匹配的方法找出所有可能含有因果關(guān)系的句子,使用規(guī)則方法抽取這些句子中可能的原因和結(jié)果,最后使用詞匯、語(yǔ)義、依存特征,對(duì)是否有因果關(guān)系進(jìn)行分類。
Wolff P[9]使用條件概率表示兩個(gè)事件之間的因果關(guān)系強(qiáng)度,并給出四種事件關(guān)系:因果(Cause)、促進(jìn)(Enable)、阻止(Prevent)、抑制(Despite)。給出判斷這四種關(guān)系的三個(gè)特征:受影響因素(Patient)是否有到達(dá)目標(biāo)狀態(tài)的趨向,影響因素(Affector)與受影響因素的出現(xiàn)或缺失是否一致,是否達(dá)到目標(biāo)狀態(tài)。
相關(guān)工作中,事件關(guān)系研究集中在因果關(guān)系與時(shí)序關(guān)系,而中文事件關(guān)系識(shí)別較少。在事件相關(guān)關(guān)系方面,馬彬[1]、楊雪蓉[2]等側(cè)重使用無(wú)監(jiān)督方法,利用文檔內(nèi)容信息,識(shí)別相同話題下,不同文檔標(biāo)題事件之間的相關(guān)性。本文側(cè)重標(biāo)注和識(shí)別同一文檔內(nèi)事件相關(guān)性,而同一文檔內(nèi)可能含有多個(gè)話題。
3相關(guān)性語(yǔ)料庫(kù)構(gòu)建
因果關(guān)系局限于事件類型,且在定義上分歧較大,本文從相關(guān)性角度研究事件關(guān)系。相關(guān)性概念廣泛,可認(rèn)為萬(wàn)物相關(guān),也可認(rèn)為萬(wàn)物不相關(guān)。因此,需要對(duì)相關(guān)性制定準(zhǔn)則。本節(jié)提出基于子話題的事件相關(guān)性標(biāo)注規(guī)則,將細(xì)粒度的傳統(tǒng)事件關(guān)系進(jìn)行粗粒度標(biāo)注。目的是為了保證標(biāo)注一致性和下一步的識(shí)別工作。
傳統(tǒng)的事件關(guān)系可以分為7類[3]:因果關(guān)系、同指關(guān)系、順序關(guān)系、目的關(guān)系、部分-整體關(guān)系、并列關(guān)系、對(duì)比關(guān)系。
本文將上述關(guān)系簡(jiǎn)化,將屬于上述7種關(guān)系的事件對(duì)標(biāo)注為相關(guān),否則標(biāo)注為不相關(guān)。
子話題:文章通常圍繞某一主題,從多個(gè)方面進(jìn)行敘述。假設(shè)文章中若干事件圍繞某一事件展開(kāi),描寫(xiě)該事件的過(guò)程、后續(xù)、結(jié)果等信息,則將該事件作為子話題,而描寫(xiě)子話題的若干事件作為其內(nèi)容,使文章在局部形成層次結(jié)構(gòu)。
在標(biāo)注時(shí),采用如下規(guī)則進(jìn)行標(biāo)注:
(1)將文章分為多個(gè)子話題。
(2)對(duì)每一個(gè)事件,判斷其屬于哪一個(gè)子話題,將同一子話題的事件歸類。
對(duì)于不同子話題下的事件,標(biāo)注為不相關(guān);對(duì)于相同子話題下的事件,根據(jù)其事件的觸發(fā)詞、事件類型、論元等信息,判斷是否屬于7類事件關(guān)系中的一種,如果是,則標(biāo)注為相關(guān),否則標(biāo)注為不相關(guān)。
例3他同時(shí)稱,阿拉法特還將同克林頓討論以色列對(duì)巴勒斯坦人民的持續(xù)侵犯(E1)的問(wèn)題。
……另?yè)?jù)報(bào)道,當(dāng)天在加沙地帶和約旦河西岸地區(qū)仍有零星的沖突(E2)發(fā)生,已經(jīng)造成了2人死亡(E3),10多人受傷(E4)?!谖鞑畟愂兄行牡莫q太人定居點(diǎn)外,巴勒斯坦示威者與警察發(fā)生了沖突(E5)。
(——CTV20001106.1330.1311)
分析文章內(nèi)容,“沖突(E2)”和“沖突(E5)”由“侵犯(E1)”引出,而“死亡(E3)”和“受傷(E4)”由“沖突(E2)”引出。因此,將E1、E2、E5作為子話題,而E3、E4作為E2的內(nèi)容??梢詫⒗?中的事件層次結(jié)構(gòu)化如圖1所示。
Figure 1 Local hierarchical structure of the article圖1 文章局部層次結(jié)構(gòu)
從圖1可看出,同一子話題下的事件在樹(shù)型結(jié)構(gòu)上為兄弟、祖先、后代關(guān)系,只有滿足上述關(guān)系時(shí),才可能相關(guān),否則不相關(guān)。
根據(jù)標(biāo)注規(guī)則,(E1,E2)、(E1,E5)為部分-整體關(guān)系,標(biāo)注為相關(guān)。(E2,E3)、(E2,E4)為因果關(guān)系,標(biāo)注為相關(guān)。(E3,E4)為并列關(guān)系,標(biāo)注為相關(guān)。(E1,E3)、(E1,E4)可通過(guò)E2做媒介,構(gòu)成因果關(guān)系,標(biāo)注為相關(guān)。而(E3,E5)、(E4,E5)在不同子話題下,標(biāo)注為不相關(guān)。
對(duì)于ACE2005中定義的Transport(移動(dòng))類型,由于這類事件可以出現(xiàn)在任何主題的文檔中,且表述形式多樣。
例4警方據(jù)報(bào)趕到了現(xiàn)場(chǎng),將頭部被毆打成傷(E1)的林姓男子送(E2)醫(yī)急救。
(——CTS20001206.1300.0398)
例5這9名逃犯是22號(hào)從曼谷西南40公里的一所監(jiān)獄越獄(E1)的。
(——CTV20001123.1330.1541)
例6哥倫比亞武裝分子日前越過(guò)(E1)邊境,在巴拿馬大林省殺害一名12歲兒童并打(E2)傷(E3)12人。
(——CBS20001016.0800.0768)
上述例子中,“送”“越獄”“越過(guò)”事件在語(yǔ)料中為T(mén)ransport類型事件,但是觸發(fā)詞意義卻相差甚遠(yuǎn)。這類事件對(duì)標(biāo)注工作帶來(lái)很大干擾,因此本文規(guī)定,Transport類型的事件與另一事件為目的關(guān)系或因果關(guān)系時(shí),才將其關(guān)系標(biāo)注為相關(guān)。如在例4中,(E1,E2)存在因果關(guān)系,因此將其標(biāo)注為相關(guān)。例6中,“越過(guò)”只是發(fā)生在“打”“傷”之前,即順序關(guān)系,并無(wú)必然聯(lián)系,因此將(E1,E2)和(E1,E3)標(biāo)注為不相關(guān)。
在標(biāo)注時(shí)有以下性質(zhì):
(1) (E1,E2)相關(guān)?(E2,E1)相關(guān);
(2) (E1,E2)不相關(guān)?(E2,E1)不相關(guān);
(3) (E1,E2)相關(guān),(E2,E3)相關(guān)?/(E1,E3)相關(guān)。
性質(zhì)(1)和性質(zhì)(2)說(shuō)明相關(guān)關(guān)系具有對(duì)稱性,這是顯然的。而性質(zhì)(3)說(shuō)明相關(guān)關(guān)系沒(méi)有傳遞性,因?yàn)槿绻褂脗鬟f性,結(jié)合對(duì)稱性,會(huì)將大量沒(méi)有關(guān)系的事件對(duì)標(biāo)注為相關(guān)。在例3中,(E1,E3)相關(guān),(E1,E5)相關(guān),但是(E3,E5)不相關(guān)。
本文選取ACE2005中文語(yǔ)料庫(kù)作為基礎(chǔ),ACE2005中文語(yǔ)料庫(kù)中的語(yǔ)料有三個(gè)來(lái)源,分別為broadcast news、newswire、weblog。本文選取來(lái)源為broadcast news的文檔進(jìn)行標(biāo)注,因?yàn)樵擃愇臋n中每個(gè)文檔往往存在多個(gè)不同的話題。broadcast news文檔共298篇,包括1 398個(gè)事件實(shí)例。本文對(duì)每篇文檔的所有事件進(jìn)行兩兩組合,剔除互為同指關(guān)系的事件對(duì)(互為同指關(guān)系的事件必為相關(guān)事件),共構(gòu)成9 300個(gè)事件對(duì)。本文對(duì)這9 300個(gè)事件對(duì)進(jìn)行標(biāo)注。
標(biāo)注過(guò)程由兩位標(biāo)注者分別獨(dú)立完成,一位是標(biāo)注規(guī)則制定者,在標(biāo)注前已對(duì)所要標(biāo)注的語(yǔ)料已有一定了解和研究。另一位標(biāo)注者主要研究事件時(shí)序關(guān)系,對(duì)ACE語(yǔ)料庫(kù)的內(nèi)容比較了解,但是對(duì)事件相關(guān)關(guān)系沒(méi)有研究。最終標(biāo)注結(jié)果如表1所示。
Table 1 Results of corpus annotation
本文使用Kappa值作為衡量標(biāo)注一致性指標(biāo),最終Kappa值為78.18%。分析標(biāo)注不一致的事件對(duì),發(fā)現(xiàn)判定子話題存在較大歧義。
例7沖突(E1)已經(jīng)使100多人喪生,其中大部分都是巴勒斯坦人。在星期三的幾次會(huì)談(E2)上……。
(——VOM20001018.1800.0119)
在例7中,規(guī)則制定者認(rèn)為“沖突”為子話題且導(dǎo)致“會(huì)談”事件,因此(E1,E2)相關(guān)。而另一位標(biāo)注者認(rèn)為(E1,E2)不相關(guān)。因此,確定子話題是標(biāo)注工作中非常重要的環(huán)節(jié)。
4事件相關(guān)性識(shí)別
本節(jié)在第3節(jié)的基礎(chǔ)上,參考事件時(shí)序、因果關(guān)系的工作,提出基本特征構(gòu)建基準(zhǔn)系統(tǒng),并提出一系列擴(kuò)展特征,可分為位置、詞匯、句子、類型特征。
本文參考事件時(shí)序、因果關(guān)系[7~10]的工作,提出以下基本特征構(gòu)建基準(zhǔn)系統(tǒng):
(1)事件特征:事件觸發(fā)詞、類型、子類型、形態(tài)、極性、泛型、時(shí)態(tài);
(2) 論元特征:事件對(duì)是否有相同論元;
(3) 句子級(jí)特征:事件對(duì)的句子距離,事件對(duì)的句法路徑、依存路徑。
在基準(zhǔn)系統(tǒng)上,本文提出7種擴(kuò)展特征,可分為位置、詞匯、句子、類型特征。
例8這3名反對(duì)黨領(lǐng)導(dǎo)人這次被捕(E1-1)前保釋在外,有關(guān)方面下令讓他們明年4月出庭受審(E2-1)。反對(duì)黨領(lǐng)導(dǎo)人指責(zé)馬哈蒂爾政府因?yàn)樵谧h會(huì)選舉中失利而下令逮捕(E1-2)這3個(gè)人。
(——VOM20001223.0700.0222)
以上內(nèi)容多次涉及同指事件這一概念。同指事件是對(duì)一個(gè)事件實(shí)例的多次描述。在例8中,被捕(E1-1)與逮捕(E1-2)指的是同一個(gè)事件,因此它們互為同指事件。
(1) 位置特征。
事件對(duì)最短距離:事件對(duì)能夠通過(guò)同指事件達(dá)到的最短距離。統(tǒng)計(jì)語(yǔ)料時(shí)發(fā)現(xiàn)當(dāng)兩個(gè)事件在同一句話內(nèi)時(shí),相關(guān)的概率最大,達(dá)到68.89%,其次是兩個(gè)事件分布在相鄰句子中。因此,考慮通過(guò)同指事件縮短事件對(duì)距離。在例8中,E1-2與E2-1的句子距離為1,但是E1-1與E2-1的句子距離為0,小于E1-2與E2-1的距離,因此該特征記為0。
包含特征:是否存在一個(gè)事件,它在文章中出現(xiàn)數(shù)次(及存在同指事件),且能夠在位置上包含待識(shí)別的兩個(gè)事件。由于本文語(yǔ)料庫(kù)多數(shù)來(lái)自新聞報(bào)道,而新聞的特點(diǎn)是將文章的子話題分為 “總-分-總”的形式,即先提及子話題,再描述其細(xì)節(jié),最后做總結(jié),因此子話題常常包含其相關(guān)事件。在例8中,事件出現(xiàn)順序?yàn)镋1-1、E2-1、E1-2,可以看到E2-1被E1-1和E1-2包含,因此該特征為true。
(2) 詞匯特征。
觸發(fā)詞相似度:使用HowNet(http:∥www.keenage.com/html/e_index.html)計(jì)算兩個(gè)事件觸發(fā)詞的相似度。
連接詞:兩個(gè)觸發(fā)詞之間是否有連接詞(詞性為CC或CS,“造成”“結(jié)果”等),并且只判斷同一句子內(nèi)或相鄰句子內(nèi)是否有連接詞。
(3) 句子特征。
句子相似度:對(duì)事件對(duì)所在句子進(jìn)行分詞,事件1所在句子分詞后單詞數(shù)為num1,事件2所在句子單詞數(shù)為num2,它們有num個(gè)相同單詞,則:
(1)
當(dāng)sim(num1,num2,num)>α?xí)r,將特征置為high,否則置為low。
句子相似度衡量?jī)蓚€(gè)句子分詞后相同詞的數(shù)量,事件涉及的實(shí)體可能會(huì)在句子中多次提到,因此這些多次出現(xiàn)的實(shí)體在計(jì)算相似度時(shí)會(huì)被多次計(jì)算,放大實(shí)體的影響。
(4) 類型特征。
類型是否相同:兩個(gè)事件類型是否相同,如果相同,則置該特征為事件類型的值,否則將值置為false。在例8中,E1-1與E2-1的類型都為“Justice(審判)”,因此該特征為Justice。
子類型是否相同:兩個(gè)事件子類型是否相同,如果相同,則置該特征為子類型的值,否則將值置為false。很顯然,類型或子類型相同的事件往往是一篇報(bào)道中的子話題(泛型屬性為Generic)與具體事件(泛型屬性為Specific)。在例8中,E1-1與E2-1的子類型不同,分別為“Arrest-Jail(逮捕)”“Trial-Hearing(審理)”,因此該特征為false。
5實(shí)驗(yàn)及結(jié)果
本文使用ICTCLAS2015(http:∥ictclas.nlpir.org/downloads)進(jìn)行分詞,Stanford Parser(http:∥nlp.stanford.edu/software/lex-parser.shtml)進(jìn)行句法分析和依存分析。使用Mallet(http:∥mallet.cs.umass.edu/)工具包中的最大熵分類器,按文檔進(jìn)行5倍交叉驗(yàn)證。每次實(shí)驗(yàn)取1/5文檔作為開(kāi)發(fā)集。使用正確率(Accuracy)、準(zhǔn)確率(Precision)、召回率(Recall)、F1值作為系統(tǒng)性能評(píng)價(jià)指標(biāo)。使用的特征中,事件基本特征、同指事件、論元在ACE2005中文語(yǔ)料庫(kù)已標(biāo)注,可以直接從語(yǔ)料庫(kù)中抽取使用。
經(jīng)開(kāi)發(fā)集調(diào)試,句子相似度特征取α=0.2。實(shí)驗(yàn)結(jié)果如表2所示。從實(shí)驗(yàn)結(jié)果中可看到,擴(kuò)展特征能提升系統(tǒng)識(shí)別性能。
經(jīng)驗(yàn)證,使用不同特征組合進(jìn)行實(shí)驗(yàn),基準(zhǔn)系統(tǒng)+所有特征的識(shí)別性能為最優(yōu)。
從實(shí)驗(yàn)結(jié)果可以看出:
(1) 加入事件對(duì)最短距離特征能使性能提高0.64%,表明跨句子識(shí)別性能較低,通過(guò)縮短事件對(duì)距離能夠提高識(shí)別性能。
(2) 句子相似度特征能明顯地提高識(shí)別性能,達(dá)到1.36%?;鶞?zhǔn)系統(tǒng)使用論元相同特征,但是句子中的實(shí)體未必是事件的論元。從性能提升中可發(fā)現(xiàn),該特征的確能夠捕獲句子中的實(shí)體信息。
(3) 包含特征和連接詞特征分別能使性能提高0.3%和0.33%,提升并不明顯。分析識(shí)別錯(cuò)誤的事件關(guān)系發(fā)現(xiàn),雖然包含特征能很好地識(shí)別相關(guān)性,但是只占總數(shù)的49.57%。而連接詞特征噪音較大,對(duì)于長(zhǎng)句子,連接詞可能并不連接事件對(duì)。
Table 2 Recognition results of relevant events
(4) 類型和子類型是否相同的加入,能使識(shí)別性能有明顯提升,分別達(dá)到1.84%和2.38%。當(dāng)兩個(gè)事件對(duì)的類型(子類型)相同時(shí),并不給出一個(gè)true標(biāo)記,而是給出具體類型(子類型)的值,目的是捕獲Movement(Transport)類型事件,因?yàn)樵擃愂录蠖嗖幌嚓P(guān)。
(5) 所有特征加入后,系統(tǒng)性能提升4.08%,可以看出,這些特征有效。但是,性能提升總量明顯少于所有單個(gè)特征提升的總和,原因是這些特征并不獨(dú)立,它們之間相互重疊。如觸發(fā)詞相似度,類型、子類型是否相同特征的重疊性大,因?yàn)橛|發(fā)詞相似度大的事件,往往有相同的類型和子類型。而句子相似度與基準(zhǔn)系統(tǒng)中的事件距離特征有較大重疊,因?yàn)槿绻麅蓚€(gè)事件原先就在同一句子內(nèi),那么句子相似度必定非常高,而跨句子且相似度高的事件對(duì)僅占19.24%,這大大影響了跨句子的識(shí)別性能。
6結(jié)束語(yǔ)
本文首先提出了一種構(gòu)建相關(guān)性語(yǔ)料庫(kù)的方法,并且從ACE2005中文語(yǔ)料庫(kù)中選取298篇,經(jīng)過(guò)標(biāo)注后形成本文實(shí)驗(yàn)所用語(yǔ)料。其次在標(biāo)注結(jié)果上,提取事件對(duì)之間的特征,使用分類器進(jìn)行相關(guān)性識(shí)別,使性能F1值提高4.08%。
下一步工作可以從以下方面對(duì)本文工作進(jìn)行擴(kuò)展:
(1)對(duì)無(wú)法縮短距離的事件對(duì),抽取更多句子級(jí)別特征,提高跨句子事件對(duì)的識(shí)別性能。
(2)將具有相關(guān)關(guān)系的事件對(duì)進(jìn)行細(xì)粒度劃分,從而更好地刻畫(huà)事件關(guān)系。
(3)考慮使用圖模型,以引入文檔中其他事件信息,充分利用句子中的實(shí)體,避免孤立地看待兩個(gè)事件對(duì)之間的特征。
參考文獻(xiàn):附中文
[1]Ma Bin,Hong Yu,Yang Xue-rong,et al.Using event dependency cue inference to recognize event relation [J].Acta Scientiarum Naturalium Universitatis Pekinensis,2013,49(1):109-116.(in Chinese)
[2]Yang Xue-rong,Hong Yu,Ma Bin,et al.Event relation recognition by event term and entity inference [J].Journal of Chinese Information Processing,2014,28(2):100-108.(in Chinese)
[3]Zou H,Yang E,Gao Y,et al.The annotation of event schema in Chinese[C]∥Proc of the 23rd International Conference on Computational Linguistics,2010:72-79.
[4]Mirza P,Sprugnoli R,Tonelli S,et al.Annotating causality in the tempeval-3 corpus[C]∥Proc of the EACL 2014 Workshop on Computational Approaches to Causality in Language (CAtoCL), 2014:10-19.
[5]Chambers N,Wang S,Jurafsky D.Classifying temporal relations between events [C]∥Proc of the 45th Annual Meeting of the ACL on Interactive Poster and Demonstration Sessions, Association for Computational Linguistics,2007:173-176.
[6]Chambers N, Jurafsky D. Jointly combining implicit constraints improves temporal ordering[C]∥Proc of the Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics,2008:698-706.
[7]Ittoo A,Bouma G.Extracting explicit and implicit causal relations from sparse,domain-specific texts[C]∥Proc of NLDB’11,2011:52-63.
[8]Sorgente A, Vettigli G, Mele F. Automatic extraction of cause-effect relations in natural language text[C]∥DART@ AI* IA,2013,2013:37-48.
[9]Wolff P.Representing causation[J].Journal of Experimental Psychology:General,2007,136(1):82-88.
[10]Bethard S,Corvey W,Klingenstein S,et al.Building a corpus of temporal-causal structure[C]∥Proc of the 6th Internat-
ional Conference on Language Resources & Evaluation Lrec,2008:908-915.
[11]Rink B, Bejan C A, Harabagiu S. Learning textual graph patterns to detect causal event relations[C]∥Proc of the 23rd Florida Artificial Intelligence Research Society International Conference(FLAIRS’10), Applied Natural Language Processing Track,2010:1.
[12]Zhong Zhao-man,Liu Zong-tian,Zhou Wen, et al.The model of event relation representation [J].Journal of Chinese Information Processing,2009,23(6):56-60.(in Chinese)
[1]馬彬,洪宇,楊雪蓉,等.基于語(yǔ)義依存線索的事件關(guān)系識(shí)別方法研究[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,49(1):109-116.
[2]楊雪蓉,洪宇,馬彬,等.基于核心詞和實(shí)體推理的事件關(guān)系識(shí)別方法[J].中文信息學(xué)報(bào),2014,28(2):100-108.
[12]仲兆滿,劉宗田,周文,等.事件關(guān)系表示模型[J].中文信息學(xué)報(bào),2009,23(6):56-60.
黃一龍(1991-),男,浙江溫州人,碩士生,研究方向?yàn)橹形男畔⑻幚?。E-mail:Yilonghuang123@163.com
HUANG Yi-long,born in 1991,MS candidate,his research interest includes Chinese information processing.
李培峰(1971-),男,江蘇蘇州人,博士,教授,研究方向?yàn)橹形男畔⑻幚?。E-mail:pfli@suda.edu.cn
LI Pei-feng,born in 1971,PhD,professor,his research interest includes Chinese information processing.
朱巧明(1971-),男,江蘇昆山人,博士,教授,研究方向?yàn)橹形男畔⑻幚怼-mail:qmzhu@suda.edu.cn
ZHU Qiao-ming,born in 1971,PhD,professor,his research interest includes Chinese information processing.
Construction and its recognition of Chinese relevant event
HUANG Yi-long,LI Pei-feng,ZHU Qiao-ming
(1.School of Computer Science and Technology,Soochow University,Suzhou 215006;
2.Province Key Lab of Computer Information Processing Technology of Jiangsu,Suzhou 215006,China)
Abstract:There are many relevant events concerning a topic. In the era of big data, extracting those events which are relevant to a specific topic is helpful for many natural language processing applications, such as information extraction, text summarization, and text generation. We propose a method to annotate relevant events and construct a Chinese relevant event corpus. We then put forward a relevant event recognition approach based on various distances and semantic features. Experimental results on the annotated corpus show that the proposed approach outperforms the baseline by 4.08% in F1-measure.
Key words:relevant event corpus;annotation;relevance;event relation
作者簡(jiǎn)介:
doi:10.3969/j.issn.1007-130X.2015.12.017
中圖分類號(hào):TP391.1
文獻(xiàn)標(biāo)志碼:A
基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61472265);國(guó)家自然科學(xué)基金重點(diǎn)資助項(xiàng)目(61331011);江蘇省前瞻性聯(lián)合研究資助項(xiàng)目(BY2014059-08);軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心部分資助項(xiàng)目
收稿日期:修回日期:2015-10-26
文章編號(hào):1007-130X(2015)12-2306-06