王 俊 史存會 張 瑾 俞曉明 劉 悅 程學(xué)旗,3
1(中國科學(xué)院計(jì)算技術(shù)研究所數(shù)據(jù)智能系統(tǒng)研究中心 北京 100190) 2(中國科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室(中國科學(xué)院計(jì)算技術(shù)研究所) 北京 100190) 3(中國科學(xué)院大學(xué) 北京 100049) (wyswangjun@163.com)
文章如新聞通常描述一系列事件的發(fā)生,這些事件看似離散地被敘述著,其實(shí)存在著一定的聯(lián)系,其中最重要的一種事件聯(lián)系為時(shí)序關(guān)系.時(shí)序關(guān)系表示事件發(fā)生的先后順序,其串聯(lián)了文章中事件的發(fā)展演化.如果能準(zhǔn)確地抽取文章中的事件時(shí)序關(guān)系,將有助于理解文章信息,梳理事件脈絡(luò).因此,事件時(shí)序關(guān)系抽取成為了一項(xiàng)重要的自然語言理解任務(wù),受到越來越多的關(guān)注.
事件時(shí)序關(guān)系抽取的目標(biāo)為抽取文本中包含的事件時(shí)序關(guān)系,如圖1中的例子,其包含4個(gè)事件:刺殺(E1)、暴行(E2)、屠殺(E3)和內(nèi)戰(zhàn)(E4),其中可抽取出時(shí)序圖中的6對事件時(shí)序關(guān)系.圖1中時(shí)序關(guān)系BEFORE表示事件在另一個(gè)事件之前發(fā)生;時(shí)序關(guān)系INCLUDES表示一個(gè)事件包含另一個(gè)事件;時(shí)序關(guān)系VAGUE表示兩個(gè)事件之間不存在特定的時(shí)序關(guān)系.
Fig.1 An sample of event temporal relation extraction圖1 事件時(shí)序關(guān)系抽取樣例
目前,與實(shí)體關(guān)系抽取[1]類似,已有的事件時(shí)序關(guān)系抽取方法往往將事件時(shí)序關(guān)系抽取任務(wù)視為句子級事件對的分類問題,以事件對和事件對所在的句子信息作為輸入,使用基于規(guī)則、基于傳統(tǒng)機(jī)器學(xué)習(xí)或基于深度學(xué)習(xí)的方法識別事件對的時(shí)序關(guān)系類別.然而,這種句子級的事件時(shí)序關(guān)系抽取方法使用的事件對所在的句子信息十分有限,往往不足以支持事件時(shí)序關(guān)系的識別,限制了事件時(shí)序關(guān)系識別的精度.同時(shí),句子級的事件時(shí)序關(guān)系抽取方法孤立地識別事件對的時(shí)序關(guān)系,未考慮文章中其他事件對的時(shí)序關(guān)系,其抽取的事件時(shí)序關(guān)系可能與其他事件時(shí)序關(guān)系沖突(即不滿足時(shí)序關(guān)系的自反性、傳遞性等),使得全文的事件時(shí)序關(guān)系一致性難以得到保證.
為此,本文提出一種融合上下文信息的篇章級事件時(shí)序關(guān)系抽取方法.該方法使用基于雙向長短期記憶(bidirectional long short-term memory, Bi-LSTM)的神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)文章中每個(gè)事件對的時(shí)序關(guān)系表示,再使用自注意力機(jī)制學(xué)習(xí)待識別事件對與其文章上下文中其他事件對的聯(lián)系,利用聯(lián)系結(jié)合上下文中其他事件對的信息,得到更優(yōu)的事件對的時(shí)序關(guān)系表示,從而增強(qiáng)事件時(shí)序關(guān)系抽取模型的效果.為了驗(yàn)證模型的性能,本文在TB-Dense(timebank dense)數(shù)據(jù)集[2]和MATRES(multi-axis temporal relations for start-points)數(shù)據(jù)集[3]上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證明本文方法的有效性.
按照事件時(shí)序關(guān)系抽取研究的發(fā)展,其方法主要可以分為3類:基于規(guī)則的事件時(shí)序關(guān)系抽取方法、基于傳統(tǒng)機(jī)器學(xué)習(xí)的事件時(shí)序關(guān)系抽取方法和基于深度學(xué)習(xí)的事件時(shí)序關(guān)系抽取方法.
事件時(shí)序關(guān)系抽取研究發(fā)展的早期,由于缺乏相關(guān)的成熟語料庫,主流的事件時(shí)序關(guān)系抽取方法通常是基于人工制定的規(guī)則展開的.Passonneau[4]提出使用文本中的時(shí)態(tài)與體態(tài)信息來構(gòu)造規(guī)則,用以推斷事件的時(shí)序關(guān)系.Hitzeman和Moens等人[5]提出的話語時(shí)序結(jié)構(gòu)分析方法,考慮了時(shí)態(tài)、體態(tài)、時(shí)間狀語和修辭結(jié)構(gòu)的影響.
基于規(guī)則的方法實(shí)現(xiàn)簡單,但其效果極大地依賴于規(guī)則的數(shù)量和質(zhì)量,其實(shí)用性不高.
隨著國際標(biāo)準(zhǔn)化組織制定了TimeML[6](time markup language)標(biāo)注體系,以及時(shí)序關(guān)系抽取領(lǐng)域的一些重要標(biāo)準(zhǔn)數(shù)據(jù)集(如TimeBank[7])的構(gòu)建.傳統(tǒng)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法開始被廣泛應(yīng)用于事件時(shí)序關(guān)系識別研究.Mani與Schiffman等人[8]提出基于決策樹分類模型的新聞事件時(shí)序關(guān)系識別方法,該方法使用時(shí)序關(guān)系連接詞、時(shí)態(tài)、語態(tài)和時(shí)間狀語等特征.之后,Mani等人[9]又提出基于最大熵分類算法的時(shí)序關(guān)系分類方法,使用數(shù)據(jù)集給定的TimeML特征(如事件類別、時(shí)態(tài)、體態(tài)等).Chambers等人[10]在Mani等人提出方法的特征之上,添加了詞性、句法樹結(jié)構(gòu)等詞法和句法特征,以及WordNet中獲得的形態(tài)學(xué)特征,較之前的方法有了3%的提升.Ning等人[11]使用手工制作的特征作為輸入,在訓(xùn)練過程中對全局的事件時(shí)序關(guān)系結(jié)構(gòu)進(jìn)行建模,利用結(jié)構(gòu)化學(xué)習(xí)優(yōu)化時(shí)間圖的全局一致性.
基于傳統(tǒng)機(jī)器學(xué)習(xí)的事件時(shí)序關(guān)系抽取的方法研究重點(diǎn)主要集中在特征工程,方法的有效性極大地依賴于特征工程的設(shè)計(jì).
隨著深度學(xué)習(xí)技術(shù)的發(fā)展與興起,神經(jīng)網(wǎng)絡(luò)模型被引入到事件時(shí)序關(guān)系抽取任務(wù)中來.Meng等人[12]提出一種簡單的基于LSTM(long short-term memory)網(wǎng)絡(luò)結(jié)構(gòu)的事件時(shí)序關(guān)系抽取模型.該模型以事件之間的最短的句法依賴關(guān)系路徑作為輸入,識別相同句子或相鄰句子中的事件時(shí)序關(guān)系類別,在TB-Dense數(shù)據(jù)集上取得不錯(cuò)效果.類似地,Cheng等人[13]采取最短句法依賴關(guān)系路徑作為輸入,構(gòu)造了一種基于雙向長短期記憶的神經(jīng)網(wǎng)絡(luò)模型,同樣取得不錯(cuò)的效果.之后,Han等人[14]提出了一種結(jié)合結(jié)構(gòu)化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型.該模型包括遞歸神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)成對事件時(shí)序關(guān)系的評分函數(shù),以及結(jié)構(gòu)化支持向量機(jī)(structured support vector machine, SSVM)進(jìn)行聯(lián)合預(yù)測.其中神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)事件所在情境的時(shí)序關(guān)系表示,來為結(jié)構(gòu)化模型提供魯棒的特征,而SSVM則將時(shí)序關(guān)系的傳遞性等領(lǐng)域知識作為約束條件,來做出更好的全局一致決策,通過聯(lián)合訓(xùn)練提升整體模型性能.
基于深度學(xué)習(xí)的事件時(shí)序關(guān)系抽取方法,相較于基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法,能自動(dòng)學(xué)習(xí)并表示特征,無需繁雜的特征工程且模型性能更高而泛化性能力更強(qiáng),如今已經(jīng)成為了事件時(shí)序關(guān)系抽取領(lǐng)域的研究趨勢.
現(xiàn)有的事件時(shí)序關(guān)系抽取方法,無論是基于規(guī)則還是基于傳統(tǒng)機(jī)器學(xué)習(xí)或深度學(xué)習(xí),其本質(zhì)上都是一個(gè)句子級的事件對的時(shí)序關(guān)系分類器.其實(shí)現(xiàn)方式為
rij=f(sentij),
(1)
其中,rij表示任意事件對ei,ej的時(shí)序關(guān)系,f為時(shí)序關(guān)系分類器,sentij為事件對所在句子.可以看出時(shí)序關(guān)系rij僅基于事件對所在的句子信息,而這有限的局部信息導(dǎo)致識別的精度較低且無法保證全文整體的時(shí)序關(guān)系的一致性.
針對句子級事件時(shí)序關(guān)系抽取方法的局限性,本文提出結(jié)合上下文信息的篇章級事件時(shí)序關(guān)系抽取模型.可形式化為
rij=f(sentij,contextij),
(2)
其中,contextij為事件對ei,ej的上下文,即事件對所在文章信息.
本文提出篇章級的事件時(shí)序關(guān)系抽取模型,稱為上下文信息增強(qiáng)的事件時(shí)序關(guān)系抽取模型(context information enhanced event temporal relation extraction model, CE-TRE).模型的整體框架如圖2所示,主要包含3個(gè)部分:1)事件對的時(shí)序關(guān)系編碼模塊;2)事件對的上下文增強(qiáng)模塊;3)輸出模塊.其中,我們分別將每個(gè)事件對的句子級時(shí)序關(guān)系表示Sk通過全連接層得到Query:Qk,Key:Kk,Value:Vk.CE-TRE模型以文章作為基本輸入單元.按照事件對分句后,事件對的時(shí)序關(guān)系編碼模塊使用基于Bi-LSTM的神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)事件對的時(shí)序關(guān)系表示;事件對上下文增強(qiáng)模塊利用自注意力機(jī)制結(jié)合上下文中其他事件對的信息,得到更完備的事件對時(shí)序關(guān)系表示;輸出模塊根據(jù)事件對時(shí)序關(guān)系表示預(yù)測事件對的時(shí)序關(guān)系類別.
Fig.2 Context information enhanced event temporal relation extraction model圖2 上下文信息增強(qiáng)的事件時(shí)序關(guān)系抽取模型
時(shí)序關(guān)系編碼模塊用于初步編碼每個(gè)事件對的句子級時(shí)序關(guān)系表示.CE-TRE模型以文章作為輸入單元,對于每個(gè)文章輸入,先將其按一個(gè)個(gè)事件對把文章分為一個(gè)個(gè)句子(存在一個(gè)句子包含多個(gè)事件對的情況),得到所有事件對的所在句子集合.時(shí)序關(guān)系編碼模塊就以每個(gè)事件對的所在句子作為輸入,編碼事件對的句子級時(shí)序關(guān)系表示.具體如圖3所示.
Fig.3 Temporal relation coding module圖3 時(shí)序關(guān)系編碼模塊
給定事件對所在的句子(可以是單獨(dú)的1個(gè)句子或連續(xù)的2個(gè)句子),表示為tk=(tk1,…,tki,…,tkj,…,tkL),其中k表示該句子是文章按事件對分句后的第k個(gè)句子,tki和tkj為事件對應(yīng)的詞.
首先本文使用預(yù)訓(xùn)練好的BERT[15]模型計(jì)算每個(gè)詞的詞嵌入vki,得到句子的向量表示sentk.使用BERT計(jì)算詞嵌入的目的是為了得到上下文有關(guān)的詞向量表示,使得后續(xù)模塊能更好地學(xué)習(xí)事件對的時(shí)序關(guān)系表示.因?yàn)轭A(yù)訓(xùn)練的BERT只用于計(jì)算詞向量,不參與整體模型的訓(xùn)練,因此不會影響整體模型的訓(xùn)練難度.形式化過程為
sentk=(vk1,vk2,…,vkL)=EmbeddingBERT(tk).
(3)
接著,將事件對所在句子sentk通過Bi-LSTM模型,可以得到句子長度的隱藏狀態(tài)序列Hk=(hk1,…,hki,…,hkj,…,hkL).將2個(gè)事件的位置(i和j)相對應(yīng)的隱藏狀態(tài)hki和hkj串聯(lián)起來,得到事件對的句子級時(shí)序關(guān)系向量表示Sk=(hki;hkj).上述過程可形式化為
(hk1,hk2,…,hkL),hkL=Bi_LSTM(sentk,hk0),
(4)
最后,1個(gè)句子可能包含多個(gè)事件對,因此本模塊針對1個(gè)句子輸入,可能輸出多個(gè)事件對向量表示,一起匯總成文章的事件對表示集合.
本文將時(shí)序關(guān)系編碼模塊得到的每個(gè)事件對的句子級的時(shí)序關(guān)系表示,輸入到事件對上下文增強(qiáng)模塊,得到上下文信息增強(qiáng)的事件對時(shí)序關(guān)系表示.具體如圖4所示:
Fig.4 Context enhancement module for event pairs圖4 事件對上下文增強(qiáng)模塊
Fig.5 Self-Attention diagram圖5 Self-Attention示意圖
(5)
(6)
該過程可簡寫為
(7)
本模塊用于輸出事件對的時(shí)序關(guān)系的分類預(yù)測值.如圖6所示,本模塊將上下文增強(qiáng)后的事件對時(shí)序關(guān)系表示,通過一層全連接層和用于分類的softmax層,得到該事件對的T維的時(shí)序關(guān)系概率向量Rk.其中第j個(gè)元素表示將其判別為第j個(gè)時(shí)序關(guān)系類型的概率值.我們采用真實(shí)時(shí)序關(guān)系類型和預(yù)測概率的交叉熵誤差作為損失函數(shù):
(8)
其中,N為事件對總數(shù),I為指示函數(shù).
Fig.6 Output module圖6 輸出模塊
本節(jié)主要介紹實(shí)驗(yàn)部分的相關(guān)細(xì)節(jié).首先介紹本文所使用的公開數(shù)據(jù)集與實(shí)驗(yàn)的評價(jià)指標(biāo),接著介紹實(shí)驗(yàn)對比的基線方法,隨后介紹實(shí)驗(yàn)的參數(shù)設(shè)置,最后對實(shí)驗(yàn)結(jié)果進(jìn)行分析與探討.
本文在公開的TB-Dense和MATRES數(shù)據(jù)集上對模型的效果和性能進(jìn)行評估,這2個(gè)數(shù)據(jù)集的規(guī)模信息如表1所示:
Table 1 Statistics of TB-Dense and MATRES Datasets表1 數(shù)據(jù)集TB-Dense和MATRES的規(guī)模統(tǒng)計(jì)
表1詳細(xì)說明為:
1) TB-Dense數(shù)據(jù)集是Cassidy等人[2]基于TimeBank數(shù)據(jù)集,通過標(biāo)注相同或相鄰句子中的所有事件對的時(shí)序關(guān)系,構(gòu)建的稠密標(biāo)注語料,解決了TimeBank的標(biāo)注稀疏性,近年來已被廣泛應(yīng)用于事件時(shí)序關(guān)系抽取研究.TB-Dense包含6類時(shí)序關(guān)系:VAGUE,BEFORE,AFTER,SIMULTANEOUS,INCLUDES,IS_INCLUDED.
2) MATRES是Ning等人[3]在2018年基于TempRels3數(shù)據(jù)集(TempEval第3次評測任務(wù)[17]構(gòu)建的數(shù)據(jù)集,包括TimeBank,AQUAINT(advanced question-answering for intelligence),Platinum)構(gòu)建的新數(shù)據(jù)集.該數(shù)據(jù)集通過使用多軸注釋方案并采用事件起點(diǎn)比較時(shí)序來改進(jìn)注釋者之間的一致性,進(jìn)一步提高了數(shù)據(jù)質(zhì)量,成為近幾年來值得關(guān)注的一個(gè)新數(shù)據(jù)集.MATRES只包含4類時(shí)序關(guān)系:VAGUE,BEFORE,AFTER,SIMULTANEOUS.
為了與已有相關(guān)研究進(jìn)行對比,本實(shí)驗(yàn)采用2套微平均F1值作為評價(jià)指標(biāo),具體為:
1) 針對數(shù)據(jù)集TB-Dense,使用全部6個(gè)時(shí)序關(guān)系類別的Micro-F1.
2) 針對數(shù)據(jù)集MATRES,使用除了“VAGUE”外的3個(gè)時(shí)序關(guān)系類別的Micro-F1.
1) CAEVO.Chambers等人[18]于2014年提出的有序篩網(wǎng)式流水線模型.其中每個(gè)篩子可以是基于規(guī)則的分類器,也可以是機(jī)器學(xué)習(xí)模型.
2) CATENA.Mirza等人[19]于2016年提出了多重篩網(wǎng)式的事件關(guān)系抽取系統(tǒng),可利用時(shí)序關(guān)系抽取模型和因果關(guān)系抽取模型之間的交互作用,增強(qiáng)時(shí)序和因果關(guān)系的提取和分類.
3) 文獻(xiàn)[13]方法.Cheng等人[13]于2017年提出了一種基于雙向長短期記憶(Bi-LSTM)的神經(jīng)網(wǎng)絡(luò)模型,該模型采取最短句法依賴關(guān)系路徑作為輸入,能達(dá)到與基于人工特征相當(dāng)?shù)男阅?
4) 文獻(xiàn)[20]方法.Vashishtha等人[20]于2019年提出了一個(gè)用于建模細(xì)粒度時(shí)序關(guān)系和事件持續(xù)時(shí)間的新語義框架,該框架將成對的事件映射到實(shí)值尺度,以構(gòu)建文檔級事件時(shí)間軸.基于此框架,訓(xùn)練模型聯(lián)合預(yù)測細(xì)粒度的時(shí)序關(guān)系和事件持續(xù)時(shí)間.
5) 文獻(xiàn)[21]方法.Meng等人[21]于2018年提出了上下文感知的事件時(shí)序關(guān)系抽取的神經(jīng)網(wǎng)絡(luò)模型,模型以事件最短依存路徑作為輸入,按敘述順序儲存處理過的時(shí)序關(guān)系,用于上下文感知.
6) 文獻(xiàn)[22]方法.Han等人[22]于2019年提出了一種具有結(jié)構(gòu)化預(yù)測的事件和事件時(shí)序關(guān)系聯(lián)合抽取模型.該模型讓事件抽取模塊和事件時(shí)序關(guān)系抽取模塊共享相同的上下文嵌入和神經(jīng)表示學(xué)習(xí)模塊,從而改善了事件表示.利用結(jié)構(gòu)化的推理共同分配事件標(biāo)簽和時(shí)序關(guān)系標(biāo)簽,避免了常規(guī)管道模型中的錯(cuò)誤傳遞.
CE-TRE中,Bi-LSTM層的輸出維度為100,線性層的輸入維度為400和100;模型訓(xùn)練的batch_size大小為1(因?yàn)槠录壍氖录r(shí)序關(guān)系抽取以文章為基本單位 ,一篇文章包含若干的事件對).
此外由于篇章級時(shí)序關(guān)系抽取以文章為輸入單位,而不同文章包含的事件對的數(shù)目是不同的.這種差異導(dǎo)致不同batch包含的事件對數(shù)目存在明顯差異,如果使用一樣的學(xué)習(xí)率進(jìn)行訓(xùn)練,會使得模型更新不均衡,導(dǎo)致模型優(yōu)化過程不穩(wěn)定.因此,本文使用的解決策略為設(shè)置動(dòng)態(tài)學(xué)習(xí)率,為包含事件對多的文章樣例增大學(xué)習(xí)率,即學(xué)習(xí)率與事件對數(shù)目正相關(guān):
(9)
其中,lr_base為基準(zhǔn)學(xué)習(xí)率,設(shè)置為0.000 1;lr_decay為學(xué)習(xí)率衰減,設(shè)置為0.9,每5輪進(jìn)行1次衰減;rel_num為文本包含的事件對數(shù)目,學(xué)習(xí)率與其成正比.
為了驗(yàn)證本文提出的模型CE-TRE在不同數(shù)據(jù)集上的抽取效果,本文選取了近幾年的主流模型(如3.2節(jié)所述)與CE-TRE在公開的TB-Dense和MATRES數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn).
3.4.1 驗(yàn)證CE-TRE模型性能
實(shí)驗(yàn)1.在TB-Dense數(shù)據(jù)集上驗(yàn)證CE-TRE模型性能.
在數(shù)據(jù)集TB-Dense上實(shí)驗(yàn)的原因是該數(shù)據(jù)是事件時(shí)序關(guān)系抽取任務(wù)的傳統(tǒng)數(shù)據(jù)集,有著充分的前人工作可以對比.實(shí)驗(yàn)結(jié)果如表2所示, 與近幾年的主流模型對比,本文提出的CE-TRE模型在TB-Dense取得了最高的Micro-F1評分,這說明CE-TRE模型很有競爭力.
實(shí)驗(yàn)2.在MATRES數(shù)據(jù)集上驗(yàn)證CE-TRE模型性能.
在數(shù)據(jù)集MATRES上實(shí)驗(yàn)的原因是該數(shù)據(jù)是個(gè)新的標(biāo)注質(zhì)量更高且數(shù)據(jù)規(guī)模更大的數(shù)據(jù)集,可以進(jìn)一步驗(yàn)證本文提出模型的效果.實(shí)驗(yàn)結(jié)果如表3所示,在MATRES數(shù)據(jù)集上,本文提出的CE-TRE模型的效果優(yōu)于2019年最優(yōu)的文獻(xiàn)[22]方法[22].
Table 2 Comparative Experiment of CE-TRE and 6 Baselines on TB-Dense
Table 3 Comparative Experiment of CE-TRE and the Best Baseline on MATRES
3.4.2 驗(yàn)證結(jié)合上下文信息對模型的增強(qiáng)效果
實(shí)驗(yàn)3.驗(yàn)證結(jié)合上下文的有效性.
為了驗(yàn)證結(jié)合上下文信息,是否對事件時(shí)序關(guān)系抽取模型有著增益效果,本實(shí)驗(yàn)對比有無上下文信息增強(qiáng)的模型的效果.實(shí)驗(yàn)結(jié)果如表4所示,在2個(gè)數(shù)據(jù)集上,結(jié)合上下文信息的CE-TRE模型均優(yōu)于未結(jié)合上下文信息的TRE(without CE)模型.此結(jié)果表明,結(jié)合上下文信息確實(shí)能夠增強(qiáng)事件對時(shí)序關(guān)系抽取模型的效果.
Table 4 Comparative Experiment Between CE-TREand TRE (without CE)
此外,通過對比2個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),CE-TRE模型相比于TRE模型,在數(shù)據(jù)集TB-Dense上的性能提升較為顯著(采用McNemar檢驗(yàn),所得p<0.005),而在數(shù)據(jù)集MATRES上的性能差距較小.本文認(rèn)為原因是:MATRES數(shù)據(jù)集的標(biāo)注類別只包含4類,相較于TB-Dense的6類,MATRES中的事件時(shí)序關(guān)系的識別難度較低.同時(shí),MATRES數(shù)據(jù)集中的句子平均長度長于TB-Dense數(shù)據(jù)集,通常情況下,MATRES的句子包含的時(shí)序關(guān)系信息也會更多.這2點(diǎn)使得未結(jié)合上下文信息的TRE模型在MATRES數(shù)據(jù)集上也能取得較高的得分,從而CE-TRE模型相比TRE模型提升較小.同時(shí),TRE(without CE)模型在2個(gè)數(shù)據(jù)集上的性能還優(yōu)于許多基線模型,本文認(rèn)為:TRE雖未結(jié)合上下文信息,但模型的訓(xùn)練方式和CE-TRE一樣,以文章作為單位輸入,使得模型的每次更新優(yōu)化只針對1篇文本的數(shù)據(jù),可以集中學(xué)習(xí)每篇文章所屬文意的時(shí)序關(guān)系,從而學(xué)習(xí)出更優(yōu)的模型.
3.4.3 實(shí)驗(yàn)結(jié)果樣例分析
如表5中的樣例,需判斷事件E1與事件E2之間的時(shí)序關(guān)系.對于未結(jié)合上下文信息的事件對時(shí)序關(guān)系識別模型TRE,其預(yù)測結(jié)果為“VAGUE”,預(yù)測錯(cuò)誤.而結(jié)合上下文信息的事件對時(shí)序關(guān)系識別模型CE-TRE的預(yù)測結(jié)果為“BEFORE”,預(yù)測正確.通過分析樣例可知,TRE預(yù)測錯(cuò)誤的原因是樣例的句子信息不足以判別事件對的時(shí)序關(guān)系.而CE-TRE通過結(jié)合上文中的“1991年,查爾斯·基廷在州法院被判協(xié)助詐騙數(shù)千名投資者,這些投資者購買了基廷在林肯儲蓄貸款公司員工出售的高風(fēng)險(xiǎn)垃圾債券.”的信息可知,基廷于1991年被判協(xié)助詐騙,導(dǎo)致投資者購買了垃圾債券,之后債券變得一文不值.由此推斷1996年基廷的判決被推翻發(fā)生在債券變得一文不值之后.
Table 5 A Sample from TB-Dense Dataset表5 來自TB-Dense數(shù)據(jù)集的樣例
由TRE和CE-TRE在樣例上的預(yù)測結(jié)果進(jìn)一步驗(yàn)證了結(jié)合上下文的有效性.
綜合實(shí)驗(yàn)1和實(shí)驗(yàn)2的結(jié)果,本文提出的CE-TRE模型在2個(gè)數(shù)據(jù)集上均取得優(yōu)于近年來的最新模型,說明了本文方法的有效性.其次通過對比有上下文增強(qiáng)的CE-TRE模型和無上下文增強(qiáng)的TRE(without CE)模型的評分,以及兩者在表5中樣例的預(yù)測結(jié)果可以看出,結(jié)合上下文信息確實(shí)能夠增強(qiáng)事件對時(shí)序關(guān)系抽取模型的效果.
事件時(shí)序關(guān)系抽取技術(shù)是一種從文本中獲取事件的時(shí)序結(jié)構(gòu)信息的重要手段,有著很高的研究價(jià)值和實(shí)用價(jià)值.現(xiàn)有的事件時(shí)序關(guān)系抽取方法往往都是句子級的抽取方法,存在時(shí)序關(guān)系識別精度低且無法保證全文一致性的問題.本文提出了一種融合上下文信息的篇章級事件時(shí)序關(guān)系抽取方法,并通過TB-Dense數(shù)據(jù)集和MATRES數(shù)據(jù)集上的多組實(shí)驗(yàn)驗(yàn)證了本文方法的有效性.
目前事件時(shí)序關(guān)系抽取的數(shù)據(jù)集規(guī)模都較小,限制了神經(jīng)網(wǎng)絡(luò)模型的抽取性能.在未來的工作中,我們將進(jìn)一步研究如何豐富相關(guān)數(shù)據(jù)集或如何引入外部資源來進(jìn)一步提升事件時(shí)序關(guān)系抽取模型的性能.