賀瑞芳,段紹楊
1(天津大學(xué) 智能與計(jì)算學(xué)部,天津 300350)
2(天津市認(rèn)知計(jì)算與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,天津 300350)
人工智能的終極目標(biāo)是語(yǔ)言理解.作為自然語(yǔ)言處理中信息抽取的子任務(wù),事件抽取旨在從非結(jié)構(gòu)化的文本中識(shí)別出預(yù)先定義的事件,并判斷其類型及參與者.由此產(chǎn)生的語(yǔ)義理解可應(yīng)用于自動(dòng)文摘[1]、個(gè)性化新聞系統(tǒng)[2]和金融分析[3]等.相關(guān)國(guó)際評(píng)測(cè)會(huì)議——MUC(Message Understanding Conference)會(huì)議和 ACE(Automatic Content Extraction)會(huì)議的成功舉辦推動(dòng)了該領(lǐng)域的技術(shù)進(jìn)步并促進(jìn)了工業(yè)應(yīng)用的拓展.本文面向ACE國(guó)際評(píng)測(cè)語(yǔ)料(https://catalog.ldc.upenn.edu/LDC2006T06)進(jìn)行中文事件抽取的研究.
事件抽取通常被劃分為兩個(gè)子任務(wù)[4-9].即:事件觸發(fā)詞識(shí)別/分類及事件元素識(shí)別/分類.事件觸發(fā)詞識(shí)別/分類的目標(biāo)是從候選文本中識(shí)別出觸發(fā)事件的核心詞(通常為動(dòng)詞或者名詞)并判斷其類型和子類型;事件元素識(shí)別/分類的目標(biāo)則是從已識(shí)別的事件中標(biāo)注事件的參與者及屬性(包括事件發(fā)生的時(shí)間、地點(diǎn)和人物等信息).例1(文檔編號(hào):CBS20001216.1000.0355)是一個(gè)標(biāo)準(zhǔn)的ACE事件標(biāo)注樣例,它包含一個(gè)由觸發(fā)詞“設(shè)立”觸發(fā)的Start-Org事件,該事件涉及兩個(gè)事件元素,分別為Place事件元素(“新加坡”)和Org事件元素(“價(jià)值36億美元的精元廠”).
當(dāng)前,主要存在兩種事件抽取模型:(i) 管道模型[4-9];(ii) 聯(lián)合模型[10,11].前者首先完成事件觸發(fā)詞識(shí)別/分類,然后進(jìn)行事件元素識(shí)別/分類.后者同時(shí)完成事件觸發(fā)詞識(shí)別/分類及事件元素識(shí)別/分類.管道模型不僅容易產(chǎn)生級(jí)聯(lián)錯(cuò)誤,而且處于下游的任務(wù)無(wú)法將信息反饋至上游任務(wù),輔助上游任務(wù)的識(shí)別.例如:例1和例2(文檔編號(hào):XIN20001207.0800.0071)都包含“設(shè)立”一詞,該詞通常作為 Start-Org事件的觸發(fā)詞.對(duì)于管道模型,由于其在事件觸發(fā)詞識(shí)別/分類階段無(wú)法獲取到事件元素的標(biāo)注信息,不僅使得模型將例 1中的“設(shè)立”識(shí)別為 Start-Org事件的可信值不高,還導(dǎo)致模型容易將例2中的“設(shè)立”錯(cuò)誤地識(shí)別為Start-Org事件.而在聯(lián)合模型中,由于讓事件觸發(fā)詞識(shí)別/分類和事件元素識(shí)別/分類同時(shí)進(jìn)行.不僅能夠解決錯(cuò)誤級(jí)聯(lián)問(wèn)題,而且能夠有效捕捉事件觸發(fā)詞和事件元素的相互依賴關(guān)系.當(dāng)聯(lián)合模型在識(shí)別候選事件觸發(fā)詞“設(shè)立”時(shí),能夠捕捉到例1中包含Org事件元素(“價(jià)值36億美元的精元廠”)的信息(Org事件元素通常出現(xiàn)在Start-Org事件中).因而聯(lián)合模型具有很高的可信值,將例1中的“設(shè)立”識(shí)別為Start-Org事件;而在例2中,由于聯(lián)合模型捕捉到候選事件提及中并沒(méi)有包含任何事件元素的信息,因而聯(lián)合模型也具有很高的可信值,將例 2中的“設(shè)立”標(biāo)注為非事件(這里的非事件是指不屬于ACE會(huì)議定義的33類事件).
例1:新加坡(A1)將設(shè)立(E1)價(jià)值36億美元的精元廠(A2).
例2:咨詢室將建立學(xué)生心理健康檔案,設(shè)立心理信箱,開(kāi)通心理咨詢熱線.
例 3:來(lái)自印度控制的克什米爾地區(qū)的兩名武裝分子(A1),前晚(A2)對(duì)印度的著名歷史古跡德里紅堡(A3)進(jìn)行了襲擊(E1),打(E2)死(E3)三人(A4).
盡管目前已有一些事件抽取聯(lián)合模型的工作[10,11],但卻很少有工作關(guān)注聯(lián)合模型帶來(lái)的事件元素的多標(biāo)簽問(wèn)題(當(dāng)一個(gè)事件提及中包含多個(gè)事件時(shí),同一實(shí)體往往會(huì)在不同的事件中扮演不同的角色).例如:在例 3(文檔編號(hào):ZBN20001224.0400.0009)中共包含 3個(gè)事件:E1、E2和 E3,觸發(fā)詞分別為“襲擊”“打”和“死”.其中,E1和E2為Attack事件,E3為Die事件;共包含4個(gè)事件元素:A1、A2、A3和A4.其中,A1、A2、A4是多個(gè)事件共享的事件元素.事件元素A1在事件提及E1和E2中扮演Attacker角色,而在事件提及E3中卻扮演Agent角色.對(duì)于聯(lián)合模型,當(dāng)其遇到事件元素A1時(shí),由于事件元素A1本身具有兩個(gè)“身份”,導(dǎo)致聯(lián)合模型無(wú)法確定應(yīng)該將其標(biāo)注為哪個(gè)“身份”,給模型識(shí)別帶來(lái)干擾.同樣的情況也發(fā)生在事件元素A3和A4中,事件元素A3在事件提及E1中扮演Target角色,而在事件提及E3中卻扮演Place角色;事件元素A4在事件提及E2中扮演Target角色,而在事件提及E3中卻扮演Victim角色.表1給出了例3中所有候選事件的事件觸發(fā)詞標(biāo)注及事件元素標(biāo)注的結(jié)果.
Table 1 The labeling results about Example 3表1 例3的標(biāo)注結(jié)果
本文通過(guò)對(duì)ACE 2005中文語(yǔ)料的統(tǒng)計(jì)發(fā)現(xiàn),語(yǔ)料中約有36.5%的事件存在1個(gè)事件提及中包含多個(gè)事件的情況.為此,本文采用分類訓(xùn)練策略(即為每類事件分別訓(xùn)練一個(gè)中文事件抽取聯(lián)合模型),以解決聯(lián)合模型中事件元素的多標(biāo)簽問(wèn)題.經(jīng)過(guò)分類訓(xùn)練后,當(dāng)例3出現(xiàn)在Attack事件對(duì)應(yīng)的聯(lián)合模型中時(shí),事件元素A1、A3和A4將被分別標(biāo)注為Attacker、Target和Target角色;當(dāng)例3出現(xiàn)在Die事件對(duì)應(yīng)的聯(lián)合模型中時(shí),事件元素A1、A3和A4將被分別標(biāo)注為Agent、Place和Victim角色,從而有效地避免了事件元素的多標(biāo)簽情況.
采用分類訓(xùn)練策略盡管能夠解決事件元素的多標(biāo)簽問(wèn)題,但也帶來(lái)了嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題.圖 1是 ACE 2005中文語(yǔ)料中各類事件的分布情況.其中,Transport事件、Attack事件和Die事件的數(shù)目最多,約占事件總數(shù)的47%;而Acquit事件、Extradite事件和Execute事件的數(shù)目最少,約占事件總數(shù)的不到1%.對(duì)于事件數(shù)目較少的事件,由于訓(xùn)練集所包含的信息量非常少,使得模型在事件數(shù)目較少的事件類別中無(wú)法獲取到足夠豐富的信息.因此,如何挖掘相關(guān)類別事件的關(guān)聯(lián)信息變得尤為重要.通過(guò)觀察發(fā)現(xiàn),盡管不同類型的事件所包含的事件元素不盡相同,但處于同一事件大類下的事件子類(相關(guān)概念見(jiàn)第 2.1節(jié)),其包含的事件元素有很強(qiáng)的關(guān)聯(lián)性.如例4(文檔編號(hào):XIN20001017.2000.0178)和例5(文檔編號(hào):CTV20001123.1330.1541).
例 4:他說(shuō),以軍(A1)還無(wú)端向拉法海關(guān)出口處的巴邊防哨卡(A2)開(kāi)槍,打死(E1)一名巴邊防警察(A3).
例5:另外有一名警察(A1)在交火中受傷(E1).
例4和例5分別包含了一個(gè)Die事件和一個(gè)Injure事件,觸發(fā)詞分別為“死”和“受傷”.雖然Die事件和Injure事件是兩類不同的事件,但二者同屬于 Life事件大類.在上述兩個(gè)事件提及中,事件參與者都是“警察”,并且“警察”在上述兩個(gè)事件中都作為Victim事件元素.一個(gè)直覺(jué)的想法是能否通過(guò)這種事件子類別的相互關(guān)聯(lián)關(guān)系在一定程度上彌補(bǔ)語(yǔ)料規(guī)模小的問(wèn)題.為此,本文將采用多任務(wù)學(xué)習(xí)方法捕捉事件子類別之間的相互關(guān)聯(lián)關(guān)系.
Fig.1 Event distribution in ACE 2005 Chinese corpus圖1 ACE 2005中文語(yǔ)料中各類事件的分布
本文第 1節(jié)介紹當(dāng)前中英文事件抽取方法的研究現(xiàn)狀,并總結(jié)前人方法所存在的問(wèn)題.第 2節(jié)描述基于CRF的事件抽取聯(lián)合模型.第3節(jié)描述基于CRF的多任務(wù)學(xué)習(xí)事件抽取聯(lián)合模型.第4節(jié)給出實(shí)驗(yàn)結(jié)果與討論.第5節(jié)進(jìn)行總結(jié)和展望.
目前,事件抽取研究大致分為 3類:(1) 面向 ACE的事件抽取[4-23];(2) 面向生物信息的事件抽取[24-26];(3)開(kāi)放域事件抽取[27,28].本文工作聚焦于ACE事件抽取,因此下面將圍繞該相關(guān)工作進(jìn)行總結(jié)分析.
ACE評(píng)測(cè)會(huì)議由美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究所(NIST)組織,旨在開(kāi)發(fā)自動(dòng)信息抽取技術(shù)以支持語(yǔ)言文本的自動(dòng)處理,迄今為止,共舉辦過(guò)8次.在ACE評(píng)測(cè)會(huì)議中,事件被分為8個(gè)大類,33個(gè)子類,具體見(jiàn)表2.ACE會(huì)議不僅對(duì)事件的類別進(jìn)行了定義,還根據(jù)每類事件的特點(diǎn)定義了相應(yīng)的事件元素,包括事件參與者和事件屬性.下面將介紹有關(guān)的定義及術(shù)語(yǔ).
? 事件提及:包含事件的句子或者短語(yǔ);
? 事件觸發(fā)詞:觸發(fā)事件的關(guān)鍵詞,通常是動(dòng)詞或者名詞;
? 事件元素:參與事件的一些實(shí)體或者短語(yǔ),包括事件參與者和事件屬性;
? 事件類別:事件的類別由觸發(fā)詞的類別決定;
? 事件觸發(fā)詞識(shí)別/分類:識(shí)別觸發(fā)事件的關(guān)鍵詞,并判定其所屬的類別;
? 事件元素識(shí)別/分類:識(shí)別參與事件的實(shí)體或者短語(yǔ),并判斷其在事件中扮演的“角色”.
Table 2 ACE event type and subtype表2 ACE事件類型及子類型
現(xiàn)有的事件抽取研究大多聚焦于英文.其中,基于有監(jiān)督的機(jī)器學(xué)習(xí)模型占主導(dǎo)地位,該類方法進(jìn)一步分為基于特征(feature-based)的模型和基于表示(representation-based)的模型.
(1) 基于特征的模型:早期的事件抽取方法大多采用基于特征的模型,其采用 one-hot向量表示預(yù)處理過(guò)程中提取出的詞法、句法和語(yǔ)義特征,并將這些特征作為抽取事件的線索送入分類器中.根據(jù)選取特征范圍的不同又分為句子級(jí)事件抽取模型[4]和跨句子級(jí)事件抽取模型[5-8].前者無(wú)法處理句內(nèi)信息不足或者句內(nèi)信息缺失的情況.后者致力于捕捉句子之外的信息,通過(guò)更高層次的信息輔助句子級(jí)的事件抽取.代表工作有 Ji等人[5]的跨文檔推理方法;Liao等人[6]的跨事件推理方法;Hong等人[7]的跨實(shí)體推理方法;以及Liao等人[8]結(jié)合文檔主題特征的事件抽取模型.
(2) 基于表示的模型:近年來(lái),大量事件抽取研究者將目光投向基于表示的模型.在基于表示的事件抽取模型中,候選事件采用詞嵌入(word embedding)表示,通過(guò)神經(jīng)網(wǎng)絡(luò)對(duì)其降維,得到其抽象表示并最終完成事件分類.相比于基于特征的模型,(i) 其無(wú)需手工提取特征,降低了人力花銷;(ii) 詞嵌入的引入不僅有利于模型獲取語(yǔ)料之外的先驗(yàn)信息,而且使模型具有很強(qiáng)的泛化能力.但是由于模型需要優(yōu)化大量參數(shù),導(dǎo)致其需要大量標(biāo)注語(yǔ)料以及巨額的計(jì)算開(kāi)銷.代表工作有Chen等人[12]、Nguyen等人[13]和Feng等人[14]構(gòu)建的基于CNN的事件抽取模型以及Nguyen等人[11]構(gòu)建的基于RNN的事件抽取模型.
當(dāng)前,針對(duì)中文的事件抽取研究相對(duì)較少.大致分為語(yǔ)言特殊性研究和基礎(chǔ)模型研究.
(1) 語(yǔ)言特殊性研究:該類研究針對(duì)漢語(yǔ)語(yǔ)言的特點(diǎn)制定相應(yīng)的事件抽取規(guī)則.其中,Chen等人[16]聚焦中文分詞與事件觸發(fā)詞分割的不一致性,采用全局觸發(fā)詞勘誤表和基于字的事件觸發(fā)詞識(shí)別模型解決該問(wèn)題并分別探索詞法、句法和語(yǔ)義信息對(duì)中文事件抽取性能的影響;Li等人[17]考慮漢語(yǔ)中詞的語(yǔ)義通常由組成詞的字決定以及中文是一種篇章驅(qū)動(dòng)(discourse-driven)的語(yǔ)言,因而其運(yùn)用組合語(yǔ)義和篇章一致性(discourseconsistency)識(shí)別中文未登錄的事件觸發(fā)詞(僅出現(xiàn)在測(cè)試語(yǔ)料中的觸發(fā)詞).由于單純地運(yùn)用組合語(yǔ)義會(huì)引入大量的負(fù)樣例,因而影響了模型的準(zhǔn)確率.Li等人[18]將組合語(yǔ)義、形態(tài)結(jié)構(gòu)和義原相結(jié)合,有效地過(guò)濾假的事件觸發(fā)詞,大幅提升了模型準(zhǔn)確率.此外,針對(duì)中文事件觸發(fā)詞抽取中存在的事件論元語(yǔ)義信息難以獲取以及部分貧信息事件實(shí)例難以抽取的問(wèn)題,Li等人[20]提出了基于語(yǔ)義的中文事件觸發(fā)詞抽取聯(lián)合模型.
(2) 基礎(chǔ)模型研究:該類研究聚焦于算法的選擇及建模過(guò)程的改進(jìn).Zhao等人[21]受 Ahn[4]的啟發(fā),將事件抽取看作是一個(gè)分步進(jìn)行的詞分類任務(wù).與 Ahn不同的是,Zhao等人在模型中加入了漢語(yǔ)同義詞擴(kuò)展,并將 Ahn的多分類模型轉(zhuǎn)化為二分類模型,有效地平衡了模型中正負(fù)樣例的比例.Fu等人[22]認(rèn)為,不同的特征對(duì)模型的貢獻(xiàn)程度不同,提出一種特征加權(quán)方法進(jìn)行特征權(quán)重的再分配.然而,上述方法構(gòu)建的都是管道模型.不僅容易產(chǎn)生級(jí)聯(lián)錯(cuò)誤,而且下游任務(wù)無(wú)法將信息反饋至上游任務(wù),輔助上游任務(wù)的識(shí)別.因此,其后,大量研究者將工作重心轉(zhuǎn)向構(gòu)建中文事件抽取聯(lián)合模型上.Li等人[19]構(gòu)建了事件觸發(fā)詞識(shí)別和事件觸發(fā)詞分類聯(lián)合模型,并在預(yù)處理階段運(yùn)用大量推理規(guī)則過(guò)濾假的事件觸發(fā)詞;Chen等人[23]在Li等人工作[17]的基礎(chǔ)上分別進(jìn)行了機(jī)器學(xué)習(xí)擴(kuò)展和語(yǔ)言學(xué)擴(kuò)展,并分別構(gòu)建了事件觸發(fā)詞識(shí)別和事件觸發(fā)詞分類聯(lián)合模型以及事件元素識(shí)別和事件元素分類聯(lián)合模型;Li等人[29]聚焦構(gòu)建事件元素識(shí)別和事件元素分類聯(lián)合模型,并獲取句子之外的篇章級(jí)(discourse-level)信息,使得模型的事件元素識(shí)別/分類的F1值有較大幅度的提升.
多任務(wù)學(xué)習(xí)是同時(shí)學(xué)習(xí)多個(gè)相關(guān)任務(wù)的機(jī)器學(xué)習(xí)算法,使用共同學(xué)習(xí)(joint learning)取代原先常見(jiàn)的獨(dú)立學(xué)習(xí)(independent learning)[30].其不僅能利用相關(guān)任務(wù)的相互關(guān)聯(lián)性緩解語(yǔ)料由于規(guī)模小帶來(lái)的訓(xùn)練欠擬合問(wèn)題,而且還能提升模型的泛化能力.近年來(lái),多任務(wù)學(xué)習(xí)已成為自然語(yǔ)言處理的一個(gè)研究熱點(diǎn)[31-36],如Liu等人[32]采用基于多任務(wù)學(xué)習(xí)的表示學(xué)習(xí)完成語(yǔ)義分類及信息檢索任務(wù);Daumé等人[35]將多任務(wù)學(xué)習(xí)模型應(yīng)用于跨領(lǐng)域的情感分析;Prettenhofer等人[36]通過(guò)多任務(wù)學(xué)習(xí)模型進(jìn)行跨語(yǔ)言的文本分類等.目前在事件抽取領(lǐng)域只有Liu等人[15]有類似的工作.他們利用FrameNet語(yǔ)料輔助完成ACE事件抽取任務(wù)的前半部分(事件觸發(fā)詞識(shí)別與事件觸發(fā)詞分類),但是,由于Liu等人沒(méi)有采用機(jī)器學(xué)習(xí)算法學(xué)習(xí)兩種語(yǔ)料的關(guān)聯(lián)性,而是基于先驗(yàn)知識(shí)人為地構(gòu)建規(guī)則來(lái)捕捉二者的相互關(guān)系,因而并不算嚴(yán)格意義上的多任務(wù)學(xué)習(xí)模型.考慮對(duì)ACE語(yǔ)料進(jìn)行分類訓(xùn)練后會(huì)大幅降低訓(xùn)練語(yǔ)料規(guī)模,并且不同類型事件之間缺乏信息交互,因此,本文工作借助Sun等人[37]基于CRF的多任務(wù)學(xué)習(xí)思想,通過(guò)多任務(wù)學(xué)習(xí)方法挖掘同一大類下不同事件子類之間的相互關(guān)聯(lián)關(guān)系.
綜上所述,盡管目前已有一些工作聚焦于構(gòu)建中文事件抽取聯(lián)合模型,但本文的聯(lián)合模型與這些工作不同.多數(shù)中文事件抽取聯(lián)合抽取模型要么聚焦于構(gòu)建事件觸發(fā)詞識(shí)別/分類的聯(lián)合模型,要么聚焦于構(gòu)建事件元素識(shí)別/分類的聯(lián)合模型.很少有工作構(gòu)建上述4個(gè)子過(guò)程的聯(lián)合模型.目前,Li等人[10]和Nguyen等人[11]構(gòu)建了上述 4個(gè)子過(guò)程的聯(lián)合模型,但本文工作與他們的工作有所不同.本文聚焦于解決聯(lián)合模型帶來(lái)的事件元素多標(biāo)簽問(wèn)題,并在聯(lián)合模型之上構(gòu)建了基于多任務(wù)學(xué)習(xí)的事件抽取聯(lián)合模型.
由于管道模型不僅容易產(chǎn)生錯(cuò)誤級(jí)聯(lián)問(wèn)題,而且無(wú)法捕捉事件觸發(fā)詞識(shí)別/分類對(duì)于事件元素識(shí)別/分類的后向依賴關(guān)系,為此,本文將事件抽取任務(wù)看作是序列標(biāo)注任務(wù),并采用條件隨機(jī)場(chǎng)(CRF)進(jìn)行建模,實(shí)現(xiàn)同時(shí)完成事件觸發(fā)詞識(shí)別/分類和事件元素識(shí)別/分類的目標(biāo).然而,將所有類別的事件混合進(jìn)行訓(xùn)練會(huì)給模型帶來(lái)事件元素多標(biāo)簽問(wèn)題,如例 3.為此,本文將模型按照事件的類別進(jìn)行分類訓(xùn)練,下面將給出本文構(gòu)建的中文事件抽取聯(lián)合模型的細(xì)節(jié).
CRF是 Lafferty等人[38]于 2001年提出的一種判別式的概率無(wú)向圖模型.其不僅能獲取上下文信息,克服HMM 的獨(dú)立性假設(shè),還能克服 MEMMs的標(biāo)記偏置問(wèn)題.其在中文分詞[39]、中文命名實(shí)體識(shí)別[40]等自然語(yǔ)言處理任務(wù)中都有不錯(cuò)的效果.由于本文工作將 CRF用于序列標(biāo)注模型,因此,后文僅介紹鏈?zhǔn)?CRF.假設(shè)一個(gè)特征函數(shù)將成對(duì)的觀測(cè)序列x和標(biāo)注序列y映射到一個(gè)全局特征向量f中,則條件概率P(y|x)能夠形式化為公式(1)[37].
在公式(1)中,x表示輸入序列,y表示對(duì)應(yīng)輸入序列x的標(biāo)注序列,f(y,x)表示特征函數(shù),wT表示特征權(quán)重.是歸一化項(xiàng).假設(shè)訓(xùn)練集是包含n個(gè)樣例的標(biāo)注序列{(xi,yi),i=1,…,n}.在參數(shù)估計(jì)階段,模型通過(guò)最大化公式(2)來(lái)求解權(quán)重參數(shù)w.
在公式(2)中,logP(yi|xi,w)為公式(1)的對(duì)數(shù)形式;R(w)是防止過(guò)擬合的正則化項(xiàng).本文采用L2正則化,即:,其中,σ為正則化參數(shù).為了后文表示簡(jiǎn)單,本文用l(i,w)表示logP(yi|xi,w),將公式(2)重寫為公式(3).
為了聯(lián)合事件觸發(fā)詞識(shí)別任務(wù)、事件觸發(fā)詞分類任務(wù)、事件元素識(shí)別任務(wù)和事件元素分類任務(wù),本文首先借鑒了Chen等人[23]的思想.Chen等人將事件觸發(fā)詞識(shí)別任務(wù)和事件觸發(fā)詞分類任務(wù)合并為一個(gè)34類的多分類任務(wù)(33類事件觸發(fā)詞和1個(gè)NULL類(NULL類表示該詞既不是觸發(fā)詞也不是事件元素)),將事件元素識(shí)別任務(wù)和事件元素分類任務(wù)合并為一個(gè)36類的多分類任務(wù)(35類事件元素和1個(gè)NULL類).與Chen等人不同的是,本文將合并后的兩個(gè)子任務(wù)(34類多分類任務(wù)和 36類多分類任務(wù))進(jìn)一步合并為 69類的序列標(biāo)注任務(wù)(33類事件觸發(fā)詞+35類事件元素+1個(gè)NULL類),并通過(guò)CRF模型模擬事件觸發(fā)詞標(biāo)簽和事件元素標(biāo)簽之間的相互依賴關(guān)系.
本文的中文事件抽取聯(lián)合模型形式化為:在給定輸入句子x={x1,x2,…,xn}的條件下,預(yù)測(cè)概率最大的標(biāo)注序列y={y1,y2,…,yn}.其中,下標(biāo)n表示句子長(zhǎng)度;xi表示輸入句子的第i個(gè)詞,xi∈R,R表示中文詞表;yi表示對(duì)詞xi的標(biāo)注結(jié)果,yi∈{Triggers∪Arguments∪Null}.其中,Triggers表示事件觸發(fā)詞標(biāo)簽(共包含 33類標(biāo)簽),Arguments表示事件元素標(biāo)簽(共包含35類標(biāo)簽).圖2所示為本文的中文事件抽取聯(lián)合模型輸出樣例(見(jiàn)例1).
Fig.2 The labeling result of Example 1圖2 例1的標(biāo)注結(jié)果
盡管上述模型能夠讓事件觸發(fā)詞識(shí)別/分類和事件元素識(shí)別/分類同時(shí)進(jìn)行,但卻無(wú)法處理同一事件元素的多標(biāo)簽問(wèn)題.如果在一句話中包含多個(gè)事件,那么詞xi在不同的事件中往往扮演不同的角色.圖3所示為本文的中文事件抽取聯(lián)合模型對(duì)例 3的標(biāo)注結(jié)果.為了表示簡(jiǎn)單,我們只截取其中一部分,旨在舉例說(shuō)明事件元素的多標(biāo)簽問(wèn)題.在圖3中,由于x7在不同的事件中扮演不同的角色(Victim和Target),聯(lián)合模型將無(wú)法給x7標(biāo)注相應(yīng)的標(biāo)簽.
Fig.3 The labeling result of Example 3圖3 例3的標(biāo)注結(jié)果
為解決事件元素的多標(biāo)簽問(wèn)題,本文將事件進(jìn)行分類訓(xùn)練.即為每類事件分別訓(xùn)練一個(gè)基于CRF的中文事件抽取聯(lián)合模型.經(jīng)過(guò)預(yù)處理后的原始文本將被分別放入這些模型中,在特定類型的聯(lián)合標(biāo)注模型中,該聯(lián)合模型僅僅標(biāo)注與該類事件相對(duì)應(yīng)的事件元素,因而有效地避免了事件元素的多標(biāo)簽問(wèn)題.圖 3所示的樣例將被分別送到33個(gè)分類器中,當(dāng)圖3所示的樣例出現(xiàn)在Attack事件對(duì)應(yīng)的分類器中時(shí),將被標(biāo)注為y′,當(dāng)圖3所示的樣例出現(xiàn)在Die事件對(duì)應(yīng)的分類器中時(shí),將被標(biāo)注為y″.具體如圖4所示.
Fig.4 The labeling result of Example 3 after classification training圖4 例3分類訓(xùn)練后的標(biāo)注結(jié)果
在基于CRF的事件抽取聯(lián)合模型中,采用分類訓(xùn)練策略避免了事件元素的多標(biāo)簽問(wèn)題,但也使得模型的訓(xùn)練語(yǔ)料規(guī)模大幅降低.因此,很難得到相對(duì)完備的訓(xùn)練模型.通過(guò)觀察發(fā)現(xiàn),在ACE定義的33類事件中,處于同一事件大類下的事件子類,其事件元素有著高度的相互關(guān)聯(lián)性,如例4和例5.表3將Personnel事件大類下各子類事件的事件元素進(jìn)行了對(duì)比.觀察表3可以發(fā)現(xiàn):盡管事件的子類別有所不同,但其事件元素角色卻極為相似.為此,本文將同一事件大類下的事件子類作為可以相互促進(jìn)的多任務(wù)同時(shí)進(jìn)行標(biāo)注,通過(guò)多任務(wù)學(xué)習(xí)模型挖掘不同事件子類別之間的相互關(guān)聯(lián)關(guān)系,進(jìn)而強(qiáng)化事件抽取聯(lián)合模型.本文共構(gòu)建了7個(gè)基于CRF多任務(wù)學(xué)習(xí)的事件抽取聯(lián)合模型(Movement事件大類只包含1個(gè)子類,因而無(wú)法構(gòu)建多任務(wù)學(xué)習(xí)模型).事件的多任務(wù)劃分如圖5所示.
Fig.5 Multi-task division of events圖5 事件的多任務(wù)劃分
Table 3 The comparison of event argument in Personnel category表3 Personnel事件大類下各子類事件的事件元素對(duì)比
本節(jié)將介紹我們采用的多任務(wù)學(xué)習(xí)框架[37].對(duì)于每個(gè)正整數(shù)q,我們定義Nq={1,…,q}.令T表示想要同時(shí)學(xué)習(xí)的任務(wù)數(shù)(同一事件大類下的事件子類數(shù)).對(duì)于每個(gè)任務(wù)t∈NT,存在n個(gè)數(shù)據(jù)樣例{(xt,i,yt,i):i∈Nn},其中,xt,i表示分詞后的句子及其相應(yīng)的特征,yt,i表示對(duì)詞的標(biāo)注.事實(shí)上,每個(gè)任務(wù)的樣例數(shù)量是不同的,但是為了表示簡(jiǎn)單,我們將樣例數(shù)設(shè)為定值.使用D表示n×T的矩陣,其第t列是由數(shù)據(jù)樣例dt構(gòu)成的.我們的目標(biāo)能夠轉(zhuǎn)化為從數(shù)據(jù)D中學(xué)習(xí)特征權(quán)值矩陣W={w1,…,wT}.通過(guò)最大化目標(biāo)函數(shù)(見(jiàn)公式(4))求解W.
其中,Likelihood(W,D)是所有任務(wù)的累計(jì)概率之和,見(jiàn)公式(5);R(w)為防止過(guò)擬合的正則化項(xiàng),本文采用L2正則化,見(jiàn)公式(6).
公式(5)中l(wèi)(wt,D)定義為公式(7).在公式(6)中,σt為第t個(gè)任務(wù)的正則化因子;wt為第t個(gè)任務(wù)的特征權(quán)值矩陣.
在公式(7)中,αt,t′是衡量任務(wù)t與任務(wù)t′的相關(guān)聯(lián)程度的變量.一個(gè)直觀的認(rèn)識(shí)是,越是相關(guān)的任務(wù),其權(quán)值矩陣w越相近.本文采用兩種核函數(shù)來(lái)評(píng)估任務(wù)之間的相關(guān)聯(lián)程度.包括高斯核函數(shù)(見(jiàn)公式(8))和多項(xiàng)式核函數(shù)(見(jiàn)公式(9));l(wt,dt′)與公式(2)類似,表示CRF概率目標(biāo)函數(shù)的對(duì)數(shù)形式,見(jiàn)公式(10).
在公式(8)和公式(9)中,C是一個(gè)實(shí)數(shù)常數(shù),用來(lái)控制任務(wù)之間相關(guān)聯(lián)程度的量級(jí);公式(8)中的σ是高斯核參數(shù);公式(9)中的d是多項(xiàng)式核參數(shù).
在公式(10)中,Nn表示任務(wù)t中的n個(gè)訓(xùn)練樣例,為了表示簡(jiǎn)單,我們定義.最終,本文的多任務(wù)學(xué)習(xí)目標(biāo)函數(shù)如公式(11)所示.
為了描述簡(jiǎn)單,我們引入一個(gè)T×T的矩陣A.其中,本文采用一種啟發(fā)式的算法求解任務(wù)之間的相關(guān)性矩陣A,并采用交替式的方法優(yōu)化模型的特征權(quán)值W(如下面的算法所示).首先初始化權(quán)值矩陣W(初始化為零矩陣)和相關(guān)性矩陣A(初始化為單位矩陣,表示任務(wù)只與自身存在相互關(guān)聯(lián)關(guān)系).接著,通過(guò)公式(11)求解各個(gè)任務(wù)的模型特征權(quán)值向量wt,然后根據(jù)求解出的wt運(yùn)用公式(8)兩兩進(jìn)行αt,t′的計(jì)算(即:更新相關(guān)程度矩陣A).循環(huán)交替更新直至模型收斂并最終得到相關(guān)性矩陣A和特征權(quán)值矩陣W.
算法.基于CRF的多任務(wù)學(xué)習(xí)算法.
本文采用ACE 2005中文語(yǔ)料進(jìn)行實(shí)驗(yàn),該語(yǔ)料共包含633個(gè)文檔,內(nèi)容涉及新聞、廣播、博客、論壇和電話錄音等.我們采用如下評(píng)測(cè)標(biāo)準(zhǔn).即:
事件觸發(fā)詞識(shí)別/分類:一個(gè)事件觸發(fā)詞被正確識(shí)別當(dāng)且僅當(dāng)該事件觸發(fā)詞在文本的位置和類型與標(biāo)準(zhǔn)標(biāo)注文檔中的候選事件觸發(fā)詞的位置和類型完全匹配.
事件元素識(shí)別/分類:一個(gè)事件元素被正確識(shí)別當(dāng)且僅當(dāng)該事件元素在文本的位置和類型與標(biāo)準(zhǔn)標(biāo)注文檔中的候選事件元素的位置和類型完全匹配.
與大多數(shù)事件抽取研究的評(píng)價(jià)方法一致,我們采用準(zhǔn)確率(P)、召回率(R)以及F1值對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià).見(jiàn)公式(12)~公式(14).
本文采用哈爾濱工業(yè)大學(xué) LTP平臺(tái)(http://www.ltp-cloud.com/)進(jìn)行實(shí)驗(yàn)預(yù)處理,包括分詞、詞性標(biāo)注、命名實(shí)體識(shí)別和句法分析.與前人工作一致,本文也將ACE 2005中文語(yǔ)料提供的實(shí)體、值和時(shí)間信息當(dāng)作已知信息使用.為使實(shí)驗(yàn)結(jié)果更具可比性,我們采用與基線方法[17-19]一致的語(yǔ)料劃分方法.即:隨機(jī)選取567篇文檔作為訓(xùn)練集,66篇文檔作為測(cè)試集.此外,從訓(xùn)練集中隨機(jī)選取33篇文檔作為開(kāi)發(fā)集.為了驗(yàn)證本文基于多任務(wù)學(xué)習(xí)的中文事件抽取聯(lián)合模型(MTL-CRF)的有效性,將從如下3個(gè)方面進(jìn)行論證.
1) 對(duì)基于CRF的事件抽取聯(lián)合模型,分類訓(xùn)練能否改善混合訓(xùn)練的事件元素多標(biāo)簽沖突問(wèn)題?
2) 聯(lián)合模型能否提升分步模型的性能?
3) 引入多任務(wù)學(xué)習(xí)之后,聯(lián)合模型的性能能否進(jìn)一步提升?
為了驗(yàn)證問(wèn)題1),我們?cè)O(shè)計(jì)了兩個(gè)系統(tǒng):基于混合訓(xùn)練的事件抽取聯(lián)合模型(MIX-CRF)(MIX-CRF、CLASSCRF以及 MTL-CRF均為本文根據(jù)模型的特點(diǎn)所起的名字)和基于分類訓(xùn)練的事件抽取聯(lián)合模型(CLASSCRF),實(shí)驗(yàn)結(jié)果見(jiàn)第4.3.2節(jié)中的表6;為了驗(yàn)證問(wèn)題2),我們將模型CLASS-CRF與目前性能最優(yōu)的中文事件抽取分步模型(見(jiàn)表4)進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果見(jiàn)第4.3.3節(jié)中的表7.為了驗(yàn)證問(wèn)題3),本文將CLASS-CRF模型與基于多任務(wù)學(xué)習(xí)的中文事件抽取聯(lián)合模型(MTL-CRF)進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果見(jiàn)第 4.3.3節(jié).另外,由于在條件隨機(jī)場(chǎng)中,不同的特征模板會(huì)對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生較大影響,為了充分挖掘?qū)κ录槿∮杏玫奶卣?本文設(shè)計(jì)了 3種不同的特征模板,分別為Tempalte 1、Template 2、Tempalte 3,并在接下來(lái)的所有實(shí)驗(yàn)中選取性能最優(yōu)的特征模板進(jìn)行實(shí)驗(yàn).3種特征模板的實(shí)驗(yàn)結(jié)果見(jiàn)第4.3.1節(jié)中的表5,所選取的具體特征如下.
· Template 1
詞匯信息(6):當(dāng)前詞本身;當(dāng)前詞的詞性;當(dāng)前詞的命名實(shí)體標(biāo)簽;前一詞本身;前一詞詞性;前一詞的命名實(shí)體標(biāo)簽.
句法信息(2):當(dāng)前詞在句法分析樹(shù)中的位置;前一詞在句法分析樹(shù)中的位置.
最近實(shí)體信息(2):當(dāng)前詞的實(shí)體類型/子類型;前一詞的實(shí)體類型/子類型.
· Tempalte 2
詞匯信息(9):當(dāng)前詞本身;當(dāng)前詞的詞性;當(dāng)前詞的命名實(shí)體標(biāo)簽;前一詞本身;前一詞詞性;前一詞的命名實(shí)體標(biāo)簽;后一詞本身;后一詞詞性;后一詞的命名實(shí)體標(biāo)簽.
句法信息(3):當(dāng)前詞在句法分析樹(shù)中的位置;前一詞在句法分析樹(shù)中的位置;后一詞在句法分析樹(shù)中的位置.
最近實(shí)體信息(3):當(dāng)前詞的實(shí)體類型/子類型;前一詞的實(shí)體類型/子類型;后一詞的實(shí)體類型/子類型.
· Tempalte 3
詞匯信息(15):當(dāng)前詞本身;當(dāng)前詞的詞性;當(dāng)前詞的命名實(shí)體標(biāo)簽;前兩詞本身;前兩詞詞性;前兩詞的命名實(shí)體標(biāo)簽;后兩詞本身;后兩詞詞性;后兩詞的命名實(shí)體標(biāo)簽.
句法信息(5):當(dāng)前詞在句法分析樹(shù)中的位置;前兩詞在句法分析樹(shù)中的位置;后兩詞在句法分析樹(shù)中的位置.
最近實(shí)體信息(5):當(dāng)前詞的實(shí)體類型/子類型;前兩詞的實(shí)體類型/子類型;后兩詞的實(shí)體類型/子類型.
Table 4 Comparison algorithms for Chinese event extraction表4 中文事件抽取對(duì)比算法
為了驗(yàn)證核函數(shù)對(duì)任務(wù)相關(guān)度的影響,本文還分析了不同核函數(shù)(見(jiàn)公式(8)和公式(9))對(duì)MTL-CRF實(shí)驗(yàn)性能的影響,見(jiàn)第4.4.1節(jié).并且給出了任務(wù)相關(guān)系數(shù)C值(公式(8)和公式(9))的討論,見(jiàn)第4.4.2節(jié).
4.3.1 不同CRF特征模板的性能比較
表 5是本文 CLASS-CRF事件抽取聯(lián)合模型在選取不同特征模板時(shí)的實(shí)驗(yàn)結(jié)果.從表 5中能夠發(fā)現(xiàn):當(dāng)CLASS-CRF選取 Template 2作為特征模板時(shí)實(shí)驗(yàn)性能最優(yōu).其事件觸發(fā)詞分類結(jié)果的F1值達(dá)到 68%,比Template 1高 1.2%,比 Template 3高 3.2%;事件元素分類結(jié)果的F1值達(dá)到 51.8%,比 Template 1高 2.8%,比Template 3高0.7%.分析造成該情況的原因如下:(1) Template 2比Template 1增加了后一詞的詞匯信息、句法信息以及最近實(shí)體信息,模型因?yàn)樵黾恿诉m當(dāng)?shù)南挛男畔⒍沟眯阅芴嵘?(2) 與Template 2相比,Template 3雖然將前后詞的依賴長(zhǎng)度擴(kuò)展為兩個(gè)詞,但造成了語(yǔ)料稀疏,反而有損模型性能.
Table 5 Performance comparison of different CLASS-CRF feature templates表5 CLASS-CRF模型在不同特征模板下的實(shí)驗(yàn)性能對(duì)比
4.3.2 事件元素的多標(biāo)簽情況對(duì)事件抽取性能的影響
為了解決事件元素的多標(biāo)簽問(wèn)題,我們提出將基于 CRF的事件抽取模型進(jìn)行分類訓(xùn)練(CLASS-CRF).MIX-CRF則將所有事件合在一起,訓(xùn)練一個(gè)統(tǒng)一的基于CRF的事件抽取聯(lián)合模型.相比于MIX-CRF,CLASS-CRF事件觸發(fā)詞分類結(jié)果的F1值提升了14.1個(gè)百分點(diǎn),事件元素分類結(jié)果的F1值提升了6.8個(gè)百分點(diǎn).這說(shuō)明在聯(lián)合模型中,事件元素的多標(biāo)簽情況不容忽視.本文分析 CLASS-CRF性能顯著提升的原因有兩點(diǎn):(1) 一個(gè)事件提及中包含多個(gè)事件的情況約占總事件數(shù)目的 36.5%,分類訓(xùn)練將有助于這些事件標(biāo)注樣例的性能提升. (2)由于在MIX-CRF中,事件元素多標(biāo)簽沖突的樣例將被視為噪聲,會(huì)給一個(gè)事件提及中只包含一個(gè)事件的情況造成影響.
Table 6 Comparison of experimental performance of mixed CRF and classified CRF表6 混合CRF和分類CRF的實(shí)驗(yàn)性能對(duì)比
4.3.3 本文方法與基線方法的對(duì)比
通過(guò)觀察表 7可以發(fā)現(xiàn):本文的 CLASS-CRF模型的事件觸發(fā)詞分類結(jié)果的F1值優(yōu)于 ECS+DC模型(高1.1%),劣于EMS+S模型(低0.2%)和ILP+MEMM+CRF模型(低2.2%);事件元素分類結(jié)果的F1值優(yōu)于ECS+DC模型(高1%),劣于EMS+S模型(低0.2%)和ILP+MEMM+CRF模型(低2.1%).達(dá)到了與基線方法可比較的水平.此外,本文的MTL-CRF模型的事件觸發(fā)詞分類結(jié)果的F1值優(yōu)于ECS+DC模型(高2%)、EMS+S模型(高0.7%)和CLASS-CRF模型(高0.9%),低于ILP+MEMM+CRF模型(低1.3%);事件元素分類結(jié)果的F1值優(yōu)于ECS+DC模型(高2.3%)、EMS+S模型(高1.1%)和CLASS-CRF模型(高1.3%),略低于ILP+MEMM+CRF模型(低0.8%).
Table 7 Comparison of single-task model,multi-task model and baseline method表7 單任務(wù)模型和多任務(wù)模型與基線方法的實(shí)驗(yàn)對(duì)比
本文聯(lián)合模型(CLASS-CRF和 MTL-CRF)相比于基線方法擁有更高的準(zhǔn)確率,但召回率卻低于基線方法,接下來(lái)將從兩方面對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行深入分析.
(1) 準(zhǔn)確率方面:本文的 CLASS-CRF模型及 MTL-CRF模型在事件觸發(fā)詞分類和事件元素分類的準(zhǔn)確率上都顯著優(yōu)于基線方法.這得益于如下幾點(diǎn):(a) 漢語(yǔ)是篇章驅(qū)動(dòng)(discourse-driven)的語(yǔ)言[17],不同的詞在不同的上下文中往往具有不同的含義,很多假的事件觸發(fā)詞很難通過(guò)詞性過(guò)濾或者形態(tài)結(jié)構(gòu)過(guò)濾方法消除.(b) 事件抽取聯(lián)合模型使事件觸發(fā)詞識(shí)別/分類和事件元素識(shí)別/分類同時(shí)進(jìn)行,模型在進(jìn)行事件觸發(fā)詞分類的過(guò)程中也能獲取事件元素的分類信息,該信息將輔助完成事件觸發(fā)詞識(shí)別/分類.(c) 事件觸發(fā)詞分類的正收益也會(huì)通過(guò)聯(lián)合模型傳遞到事件元素分類過(guò)程中,當(dāng)模型的事件觸發(fā)詞分類的準(zhǔn)確率提高了,也就代表著模型檢測(cè)事件的準(zhǔn)確率提高了,相應(yīng)的事件元素分類的準(zhǔn)確率也會(huì)隨之提高.此外,MTL-CRF模型相比于CLASS-CRF,其準(zhǔn)確率也有一定的提升,這也說(shuō)明相關(guān)子類別事件確實(shí)可以起到相互增強(qiáng)的效果.
(2) 召回率方面:本文的 CLASS-CRF模型及 MTL-CRF模型在事件觸發(fā)詞分類和事件元素分類的召回率上都低于基線方法.主要有如下原因:(a) 由于聯(lián)合模型構(gòu)建了事件觸發(fā)詞識(shí)別/分類對(duì)于事件元素識(shí)別/分類的后向依賴關(guān)系,使得模型判定事件的“門檻”更高,很多正例事件由于沒(méi)有事件元素或者部分事件元素缺失,使得模型很難將其判定為正例事件.同樣,這種負(fù)收益也會(huì)通過(guò)聯(lián)合模型構(gòu)建的相互依賴關(guān)系傳遞到事件元素識(shí)別/分類中.(b) 另一方面,由于本文沒(méi)有采用基線方法所使用的組合語(yǔ)義方法識(shí)別未登錄的事件觸發(fā)詞,導(dǎo)致模型召回率不高.例如“中彈(injure)”“草菅人命(die)”“引火自焚(attack)”等詞無(wú)法被本文模型識(shí)別為事件觸發(fā)詞.(c) 分詞錯(cuò)誤也是影響本文模型性能的很重要的因素,很多事件觸發(fā)詞和事件元素由于分詞錯(cuò)誤,導(dǎo)致模型無(wú)法準(zhǔn)確識(shí)別其類別.例如:在測(cè)試語(yǔ)料中,“爆炸案”一詞很難被準(zhǔn)確地識(shí)別為 Attack事件,原因就是分詞工具將“爆炸”和“案”分在一起,而在標(biāo)注文檔中“爆炸”才是觸發(fā)詞.
(3) 相比于文獻(xiàn)[19],本文在事件觸發(fā)詞分類和事件元素分類的F1值上都處于劣勢(shì).本文分析造成該情況的原因有如下兩點(diǎn):(a) 單字的事件觸發(fā)詞存在很強(qiáng)的歧義性,諸如“投”“中”“做”等.文獻(xiàn)[19]采用基于依存句法分析的推理規(guī)則進(jìn)行單字觸發(fā)詞的特殊處理.本文由于沒(méi)有對(duì)單字觸發(fā)詞進(jìn)行特殊處理,導(dǎo)致對(duì)單字觸發(fā)詞的識(shí)別效果并不好,經(jīng)統(tǒng)計(jì),單字觸發(fā)詞的識(shí)別錯(cuò)誤率高達(dá)42.2%.(b) ACE 2005中文語(yǔ)料中存在一些標(biāo)注不合理的情況.文獻(xiàn)[19]通過(guò)構(gòu)建一些規(guī)則將其過(guò)濾,而在本文模型中,這些樣例被視為模型的噪聲,因而有損模型的性能.諸如下面兩個(gè)樣例:(A) 主要軍港設(shè)立了18個(gè)環(huán)境檢測(cè)站.(B) 廣州等地設(shè)立了代表處.上述(A)、(B)兩句中的“設(shè)立”表達(dá)涵義基本一致,但標(biāo)注語(yǔ)料中僅將(A)句中“設(shè)立”標(biāo)注為事件觸發(fā)詞,(B)句中未被標(biāo)出.經(jīng)本文統(tǒng)計(jì),在測(cè)試集中共包含11個(gè)“設(shè)立”的正例事件,只有1個(gè)事件被本文模型準(zhǔn)確識(shí)別為Start-Org事件.
4.3.4 CLASS-CRF模型與MTL-CRF模型在各事件大類下的性能對(duì)比
觀察圖6可以發(fā)現(xiàn):MTL-CRF模型相比于CLASS-CRF模型,總體性能有所提升.其事件觸發(fā)詞分類結(jié)果的F1值在Transaction事件大類下提升約20%,在Business事件大類下提升約3%,在Personnel事件大類下提升約4%.事件元素分類結(jié)果的F1值在Life事件大類下提升約6%,在Transaction事件大類下提升約10%,在Business事件大類下提升約1%,在Personnel事件大類下提升約5%.對(duì)于性能沒(méi)有提升的事件大類,本文分析造成該情況的原因主要有如下幾點(diǎn):(a) 標(biāo)注的事件數(shù)目過(guò)于稀少,事件子類別之間幾乎沒(méi)有什么可以相互增強(qiáng)的信息(如:Justice事件大類).(b) 事件元素的標(biāo)簽本身就不太相關(guān)聯(lián)(如 Conflict事件大類).(c) 選取的測(cè)試樣本數(shù)太少,沒(méi)有顯現(xiàn)出MTL-CRF的性能優(yōu)勢(shì)(如Contact事件大類).
Fig.6 Comparison on performances of single-task and multi-task圖6 單任務(wù)模型和多任務(wù)模型的性能對(duì)比
此外,對(duì)于性能提升的事件大類,本文分析原因如下:單任務(wù)事件抽取聯(lián)合模型(CLASS-CRF)由于將語(yǔ)料進(jìn)行分類訓(xùn)練,導(dǎo)致訓(xùn)練語(yǔ)料規(guī)模大幅縮小,使得最終模型包含的信息有限,極大地影響了模型的召回率、加入多任務(wù)學(xué)習(xí)模型后,由于相關(guān)任務(wù)共享模型所學(xué)信息,使得模型所包含的信息有所增長(zhǎng),能夠有效地緩解語(yǔ)料稀疏問(wèn)題并最終提升事件抽取模型的召回率.例如,測(cè)試樣例“在警方驅(qū)散示威人群的過(guò)程中,至少有5個(gè)人受傷.”在CLASS-CRF模型中沒(méi)有準(zhǔn)確地將“警方”識(shí)別為Agent事件元素,而在MTL-CRF中則準(zhǔn)確地將“警方”識(shí)別為Agent事件元素.本文通過(guò)觀察語(yǔ)料發(fā)現(xiàn),由于“警方”一詞在Injure事件的訓(xùn)練語(yǔ)料中沒(méi)有作為Agent事件元素出現(xiàn)的情況,因此,CLASS-CRF模型無(wú)法在測(cè)試過(guò)程中將“警方”標(biāo)注為Agent事件元素.而“警方”一詞在Die事件的訓(xùn)練語(yǔ)料中作為Agent事件元素卻出現(xiàn)了很多次,因此,MTL-CRF模型通過(guò)信息共享機(jī)制,能夠準(zhǔn)確地將上述樣例中的“警方”標(biāo)注為Agent事件元素.
4.4.1 關(guān)于核函數(shù)的討論
在引入多任務(wù)學(xué)習(xí)增強(qiáng)相關(guān)子事件識(shí)別的過(guò)程中,本文分別采用高斯核函數(shù)以及多項(xiàng)式核函數(shù)來(lái)評(píng)估任務(wù)之間的相關(guān)程度(見(jiàn)公式(8)和公式(9)).圖 7所示為兩種核函數(shù)分別在事件觸發(fā)詞識(shí)別和事件元素識(shí)別上的性能對(duì)比.整體上看,兩種核函數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響并不明顯,但是高斯核函數(shù)能夠取得相對(duì)更優(yōu)的實(shí)驗(yàn)結(jié)果.(a) 對(duì)于事件觸發(fā)詞分類,多項(xiàng)式核函數(shù)僅在 Justice事件大類下的實(shí)驗(yàn)性能優(yōu)于高斯核函數(shù)(高 1%左右);而在Life事件大類、Conflict事件大類都劣于高斯核函數(shù)(分別低2%左右和3%左右).(b) 對(duì)于事件元素分類,高斯核函數(shù)僅在Justice類上實(shí)驗(yàn)性能略低于多項(xiàng)式核函數(shù)(低0.2%左右),而在Life事件大類、Business事件大類、Conflict事件大類和Personnel事件大類都優(yōu)于多項(xiàng)式核函數(shù)(分別高3%左右、1.5%左右、1%左右、0.3%左右).因此,本文采用高斯核函數(shù)作為事件子類別相關(guān)程度的度量.
Fig.7 Discussion on kernel function圖7 核函數(shù)對(duì)系統(tǒng)性能的影響
4.4.2 關(guān)于任務(wù)相關(guān)系數(shù)C值的討論
本小節(jié)將討論在不同的事件大類下,當(dāng)選擇高斯核函數(shù)來(lái)度量任務(wù)之間的相關(guān)性時(shí),任務(wù)相關(guān)系數(shù)C(公式(8)中的C值)的選擇對(duì)實(shí)驗(yàn)結(jié)果的影響.觀察圖8可以發(fā)現(xiàn):當(dāng)C值取1~20時(shí),MTL-CRF模型的F1值隨著C值的增大而增大,當(dāng)C值超過(guò)20時(shí),性能反而出現(xiàn)一定程度的下滑.本文分析造成該情況有如下原因:(1) 當(dāng)C值取值為1時(shí),公式(8)中的αt,t′取值為[0,1],此時(shí)的實(shí)驗(yàn)效果并不好,說(shuō)明該區(qū)間范圍并不能很好地模擬同一事件大類下事件子類之間的相互關(guān)系.(2) 隨著C值的增大,實(shí)驗(yàn)性能也隨之提升,并且在C=20時(shí)性能達(dá)到最優(yōu),此時(shí),αt,t′取值范圍為[0,0.05],說(shuō)明該區(qū)間范圍能夠模擬事件子類之間的相互關(guān)系.(3) 當(dāng)C值繼續(xù)增大時(shí),由于αt,t′的取值范圍進(jìn)一步縮小,導(dǎo)致任務(wù)子類之間的相關(guān)性減弱,因此模型性能越來(lái)越趨向于單任務(wù)模型的性能.
Fig.8 Discussion on correlation coefficientC圖8 相關(guān)系數(shù)C對(duì)系統(tǒng)性能的影響
本文面向中文事件抽取提出采用基于CRF多任務(wù)學(xué)習(xí)的聯(lián)合標(biāo)注模型.通過(guò)總結(jié)前人方法存在的問(wèn)題,從如下3個(gè)方面進(jìn)行事件抽取模型的改進(jìn).(1) 為了解決管道事件抽取模型所帶來(lái)的錯(cuò)誤級(jí)聯(lián)問(wèn)題,以及事件觸發(fā)詞分類過(guò)程與事件元素分類過(guò)程缺乏交互的問(wèn)題,本文將事件抽取看作是序列標(biāo)注任務(wù),對(duì)事件觸發(fā)詞和事件元素進(jìn)行聯(lián)合標(biāo)注.(2) 為了解決聯(lián)合標(biāo)注模型帶來(lái)的事件元素多標(biāo)簽問(wèn)題,我們?yōu)槊款愂录謩e訓(xùn)練一個(gè)基于 CRF的事件抽取聯(lián)合模型.(3) 為了解決分類訓(xùn)練后語(yǔ)料規(guī)模小和數(shù)據(jù)稀疏問(wèn)題,提出采用多任務(wù)學(xué)習(xí)方法增強(qiáng)基于CRF的中文事件抽取聯(lián)合模型,通過(guò)共享相關(guān)事件所學(xué)到的信息,有效緩解數(shù)據(jù)規(guī)模小和數(shù)據(jù)不平衡的問(wèn)題.在ACE 2005中文語(yǔ)料上的實(shí)驗(yàn)結(jié)果表明了本文方法的有效性.
通過(guò)實(shí)驗(yàn)發(fā)現(xiàn):在ACE 2005中文語(yǔ)料中存在很多事件類,其正樣例數(shù)只有個(gè)位數(shù)的情況.諸如:Acquit類事件、Pardon類事件和Execute類事件等.對(duì)于這些事件,即使改進(jìn)模型也很難取得令人滿意的實(shí)驗(yàn)結(jié)果.因此,接下來(lái)的工作中,本文將聚焦獲取 ACE 2005中文語(yǔ)料之外的信息或者事件抽取任務(wù)之外的信息.通過(guò)構(gòu)建多任務(wù)學(xué)習(xí)模型,將其他與事件抽取相關(guān)的任務(wù)通過(guò)信息遷移的方式加入到ACE事件抽取任務(wù)中,以進(jìn)一步改善事件抽取的性能.此外,盡管分類訓(xùn)練策略能夠有效解決事件元素的多標(biāo)簽問(wèn)題,但并不能完全杜絕該情況的發(fā)生,經(jīng)過(guò)本文對(duì) ACE 2005中文語(yǔ)料進(jìn)行統(tǒng)計(jì),同一事件大類下的事件元素依然存在多標(biāo)簽的情況,占比約為5.4%,同一事件子類下的事件元素也存在多標(biāo)簽的情況,占比約為 4.2%.如何完全消除事件元素的多標(biāo)簽情況也將成為本文接下來(lái)的研究重心.
致謝衷心感謝審稿專家的悉心指導(dǎo)及本刊編輯的辛勤工作.