亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

融合上下文信息的篇章級事件時(shí)序關(guān)系抽取方法

2021-11-05 12:04:48史存會俞曉明程學(xué)旗

計(jì)算機(jī)研究與發(fā)展 2021年11期

王俊史存會張瑾俞曉明劉悅程學(xué)旗,3

1(中國科學(xué)院計(jì)算技術(shù)研究所數(shù)據(jù)智能系統(tǒng)研究中心北京 100190) 2(中國科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室(中國科學(xué)院計(jì)算技術(shù)研究所) 北京 100190) 3(中國科學(xué)院大學(xué) 北京 100049) (wyswangjun@163.com)

文章如新聞通常描述一系列事件的發(fā)生，這些事件看似離散地被敘述著，其實(shí)存在著一定的聯(lián)系，其中最重要的一種事件聯(lián)系為時(shí)序關(guān)系.時(shí)序關(guān)系表示事件發(fā)生的先后順序，其串聯(lián)了文章中事件的發(fā)展演化.如果能準(zhǔn)確地抽取文章中的事件時(shí)序關(guān)系，將有助于理解文章信息，梳理事件脈絡(luò).因此，事件時(shí)序關(guān)系抽取成為了一項(xiàng)重要的自然語言理解任務(wù)，受到越來越多的關(guān)注.

事件時(shí)序關(guān)系抽取的目標(biāo)為抽取文本中包含的事件時(shí)序關(guān)系，如圖1中的例子，其包含4個(gè)事件：刺殺(E1)、暴行(E2)、屠殺(E3)和內(nèi)戰(zhàn)(E4)，其中可抽取出時(shí)序圖中的6對事件時(shí)序關(guān)系.圖1中時(shí)序關(guān)系BEFORE表示事件在另一個(gè)事件之前發(fā)生；時(shí)序關(guān)系INCLUDES表示一個(gè)事件包含另一個(gè)事件；時(shí)序關(guān)系VAGUE表示兩個(gè)事件之間不存在特定的時(shí)序關(guān)系.

Fig.1 An sample of event temporal relation extraction圖1 事件時(shí)序關(guān)系抽取樣例

目前，與實(shí)體關(guān)系抽取[1]類似，已有的事件時(shí)序關(guān)系抽取方法往往將事件時(shí)序關(guān)系抽取任務(wù)視為句子級事件對的分類問題，以事件對和事件對所在的句子信息作為輸入，使用基于規(guī)則、基于傳統(tǒng)機(jī)器學(xué)習(xí)或基于深度學(xué)習(xí)的方法識別事件對的時(shí)序關(guān)系類別.然而，這種句子級的事件時(shí)序關(guān)系抽取方法使用的事件對所在的句子信息十分有限，往往不足以支持事件時(shí)序關(guān)系的識別，限制了事件時(shí)序關(guān)系識別的精度.同時(shí)，句子級的事件時(shí)序關(guān)系抽取方法孤立地識別事件對的時(shí)序關(guān)系，未考慮文章中其他事件對的時(shí)序關(guān)系，其抽取的事件時(shí)序關(guān)系可能與其他事件時(shí)序關(guān)系沖突(即不滿足時(shí)序關(guān)系的自反性、傳遞性等)，使得全文的事件時(shí)序關(guān)系一致性難以得到保證.

為此，本文提出一種融合上下文信息的篇章級事件時(shí)序關(guān)系抽取方法.該方法使用基于雙向長短期記憶(bidirectional long short-term memory, Bi-LSTM)的神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)文章中每個(gè)事件對的時(shí)序關(guān)系表示，再使用自注意力機(jī)制學(xué)習(xí)待識別事件對與其文章上下文中其他事件對的聯(lián)系，利用聯(lián)系結(jié)合上下文中其他事件對的信息，得到更優(yōu)的事件對的時(shí)序關(guān)系表示，從而增強(qiáng)事件時(shí)序關(guān)系抽取模型的效果.為了驗(yàn)證模型的性能，本文在TB-Dense(timebank dense)數(shù)據(jù)集[2]和MATRES(multi-axis temporal relations for start-points)數(shù)據(jù)集[3]上進(jìn)行實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果證明本文方法的有效性.

1 相關(guān)工作

按照事件時(shí)序關(guān)系抽取研究的發(fā)展，其方法主要可以分為3類：基于規(guī)則的事件時(shí)序關(guān)系抽取方法、基于傳統(tǒng)機(jī)器學(xué)習(xí)的事件時(shí)序關(guān)系抽取方法和基于深度學(xué)習(xí)的事件時(shí)序關(guān)系抽取方法.

1.1 基于規(guī)則的事件時(shí)序關(guān)系抽取方法

事件時(shí)序關(guān)系抽取研究發(fā)展的早期，由于缺乏相關(guān)的成熟語料庫，主流的事件時(shí)序關(guān)系抽取方法通常是基于人工制定的規(guī)則展開的.Passonneau[4]提出使用文本中的時(shí)態(tài)與體態(tài)信息來構(gòu)造規(guī)則，用以推斷事件的時(shí)序關(guān)系.Hitzeman和Moens等人[5]提出的話語時(shí)序結(jié)構(gòu)分析方法，考慮了時(shí)態(tài)、體態(tài)、時(shí)間狀語和修辭結(jié)構(gòu)的影響.

基于規(guī)則的方法實(shí)現(xiàn)簡單，但其效果極大地依賴于規(guī)則的數(shù)量和質(zhì)量，其實(shí)用性不高.

1.2 基于傳統(tǒng)機(jī)器學(xué)習(xí)的事件時(shí)序關(guān)系抽取方法

隨著國際標(biāo)準(zhǔn)化組織制定了TimeML[6](time markup language)標(biāo)注體系，以及時(shí)序關(guān)系抽取領(lǐng)域的一些重要標(biāo)準(zhǔn)數(shù)據(jù)集(如TimeBank[7])的構(gòu)建.傳統(tǒng)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法開始被廣泛應(yīng)用于事件時(shí)序關(guān)系識別研究.Mani與Schiffman等人[8]提出基于決策樹分類模型的新聞事件時(shí)序關(guān)系識別方法，該方法使用時(shí)序關(guān)系連接詞、時(shí)態(tài)、語態(tài)和時(shí)間狀語等特征.之后，Mani等人[9]又提出基于最大熵分類算法的時(shí)序關(guān)系分類方法，使用數(shù)據(jù)集給定的TimeML特征(如事件類別、時(shí)態(tài)、體態(tài)等).Chambers等人[10]在Mani等人提出方法的特征之上，添加了詞性、句法樹結(jié)構(gòu)等詞法和句法特征，以及WordNet中獲得的形態(tài)學(xué)特征，較之前的方法有了3%的提升.Ning等人[11]使用手工制作的特征作為輸入，在訓(xùn)練過程中對全局的事件時(shí)序關(guān)系結(jié)構(gòu)進(jìn)行建模，利用結(jié)構(gòu)化學(xué)習(xí)優(yōu)化時(shí)間圖的全局一致性.

基于傳統(tǒng)機(jī)器學(xué)習(xí)的事件時(shí)序關(guān)系抽取的方法研究重點(diǎn)主要集中在特征工程，方法的有效性極大地依賴于特征工程的設(shè)計(jì).

1.3 基于深度學(xué)習(xí)的事件時(shí)序關(guān)系抽取方法

隨著深度學(xué)習(xí)技術(shù)的發(fā)展與興起，神經(jīng)網(wǎng)絡(luò)模型被引入到事件時(shí)序關(guān)系抽取任務(wù)中來.Meng等人[12]提出一種簡單的基于LSTM(long short-term memory)網(wǎng)絡(luò)結(jié)構(gòu)的事件時(shí)序關(guān)系抽取模型.該模型以事件之間的最短的句法依賴關(guān)系路徑作為輸入，識別相同句子或相鄰句子中的事件時(shí)序關(guān)系類別，在TB-Dense數(shù)據(jù)集上取得不錯(cuò)效果.類似地，Cheng等人[13]采取最短句法依賴關(guān)系路徑作為輸入，構(gòu)造了一種基于雙向長短期記憶的神經(jīng)網(wǎng)絡(luò)模型，同樣取得不錯(cuò)的效果.之后，Han等人[14]提出了一種結(jié)合結(jié)構(gòu)化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型.該模型包括遞歸神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)成對事件時(shí)序關(guān)系的評分函數(shù)，以及結(jié)構(gòu)化支持向量機(jī)(structured support vector machine, SSVM)進(jìn)行聯(lián)合預(yù)測.其中神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)事件所在情境的時(shí)序關(guān)系表示，來為結(jié)構(gòu)化模型提供魯棒的特征，而SSVM則將時(shí)序關(guān)系的傳遞性等領(lǐng)域知識作為約束條件，來做出更好的全局一致決策，通過聯(lián)合訓(xùn)練提升整體模型性能.

基于深度學(xué)習(xí)的事件時(shí)序關(guān)系抽取方法，相較于基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法，能自動(dòng)學(xué)習(xí)并表示特征，無需繁雜的特征工程且模型性能更高而泛化性能力更強(qiáng)，如今已經(jīng)成為了事件時(shí)序關(guān)系抽取領(lǐng)域的研究趨勢.

2 結(jié)合上下文的篇章級事件時(shí)序關(guān)系抽取

現(xiàn)有的事件時(shí)序關(guān)系抽取方法，無論是基于規(guī)則還是基于傳統(tǒng)機(jī)器學(xué)習(xí)或深度學(xué)習(xí)，其本質(zhì)上都是一個(gè)句子級的事件對的時(shí)序關(guān)系分類器.其實(shí)現(xiàn)方式為

rij=f(sentij)，

(1)

其中,rij表示任意事件對ei,ej的時(shí)序關(guān)系，f為時(shí)序關(guān)系分類器，sentij為事件對所在句子.可以看出時(shí)序關(guān)系rij僅基于事件對所在的句子信息，而這有限的局部信息導(dǎo)致識別的精度較低且無法保證全文整體的時(shí)序關(guān)系的一致性.

針對句子級事件時(shí)序關(guān)系抽取方法的局限性，本文提出結(jié)合上下文信息的篇章級事件時(shí)序關(guān)系抽取模型.可形式化為

rij=f(sentij,contextij)，

(2)

其中，contextij為事件對ei,ej的上下文，即事件對所在文章信息.

2.1 上下文信息增強(qiáng)的事件時(shí)序關(guān)系抽取模型

本文提出篇章級的事件時(shí)序關(guān)系抽取模型，稱為上下文信息增強(qiáng)的事件時(shí)序關(guān)系抽取模型(context information enhanced event temporal relation extraction model, CE-TRE).模型的整體框架如圖2所示，主要包含3個(gè)部分：1)事件對的時(shí)序關(guān)系編碼模塊；2)事件對的上下文增強(qiáng)模塊；3)輸出模塊.其中，我們分別將每個(gè)事件對的句子級時(shí)序關(guān)系表示Sk通過全連接層得到Query：Qk，Key：Kk，Value：Vk.CE-TRE模型以文章作為基本輸入單元.按照事件對分句后，事件對的時(shí)序關(guān)系編碼模塊使用基于Bi-LSTM的神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)事件對的時(shí)序關(guān)系表示；事件對上下文增強(qiáng)模塊利用自注意力機(jī)制結(jié)合上下文中其他事件對的信息，得到更完備的事件對時(shí)序關(guān)系表示；輸出模塊根據(jù)事件對時(shí)序關(guān)系表示預(yù)測事件對的時(shí)序關(guān)系類別.

Fig.2 Context information enhanced event temporal relation extraction model圖2 上下文信息增強(qiáng)的事件時(shí)序關(guān)系抽取模型

2.2 時(shí)序關(guān)系編碼模塊

時(shí)序關(guān)系編碼模塊用于初步編碼每個(gè)事件對的句子級時(shí)序關(guān)系表示.CE-TRE模型以文章作為輸入單元，對于每個(gè)文章輸入，先將其按一個(gè)個(gè)事件對把文章分為一個(gè)個(gè)句子(存在一個(gè)句子包含多個(gè)事件對的情況)，得到所有事件對的所在句子集合.時(shí)序關(guān)系編碼模塊就以每個(gè)事件對的所在句子作為輸入，編碼事件對的句子級時(shí)序關(guān)系表示.具體如圖3所示.

Fig.3 Temporal relation coding module圖3 時(shí)序關(guān)系編碼模塊

給定事件對所在的句子(可以是單獨(dú)的1個(gè)句子或連續(xù)的2個(gè)句子)，表示為tk=(tk1,…,tki,…,tkj,…,tkL)，其中k表示該句子是文章按事件對分句后的第k個(gè)句子，tki和tkj為事件對應(yīng)的詞.

首先本文使用預(yù)訓(xùn)練好的BERT[15]模型計(jì)算每個(gè)詞的詞嵌入vki，得到句子的向量表示sentk.使用BERT計(jì)算詞嵌入的目的是為了得到上下文有關(guān)的詞向量表示，使得后續(xù)模塊能更好地學(xué)習(xí)事件對的時(shí)序關(guān)系表示.因?yàn)轭A(yù)訓(xùn)練的BERT只用于計(jì)算詞向量，不參與整體模型的訓(xùn)練，因此不會影響整體模型的訓(xùn)練難度.形式化過程為

sentk=(vk1,vk2,…,vkL)=EmbeddingBERT(tk).

(3)

接著，將事件對所在句子sentk通過Bi-LSTM模型，可以得到句子長度的隱藏狀態(tài)序列Hk=(hk1,…,hki,…,hkj,…,hkL).將2個(gè)事件的位置(i和j)相對應(yīng)的隱藏狀態(tài)hki和hkj串聯(lián)起來，得到事件對的句子級時(shí)序關(guān)系向量表示Sk=(hki;hkj).上述過程可形式化為

(hk1,hk2,…,hkL),hkL=Bi_LSTM(sentk,hk0)，

(4)

最后，1個(gè)句子可能包含多個(gè)事件對，因此本模塊針對1個(gè)句子輸入，可能輸出多個(gè)事件對向量表示，一起匯總成文章的事件對表示集合.

2.3 事件對上下文增強(qiáng)模塊

本文將時(shí)序關(guān)系編碼模塊得到的每個(gè)事件對的句子級的時(shí)序關(guān)系表示，輸入到事件對上下文增強(qiáng)模塊，得到上下文信息增強(qiáng)的事件對時(shí)序關(guān)系表示.具體如圖4所示:

Fig.4 Context enhancement module for event pairs圖4 事件對上下文增強(qiáng)模塊

Fig.5 Self-Attention diagram圖5 Self-Attention示意圖

(5)

(6)

該過程可簡寫為

(7)

2.4 輸出模塊

本模塊用于輸出事件對的時(shí)序關(guān)系的分類預(yù)測值.如圖6所示，本模塊將上下文增強(qiáng)后的事件對時(shí)序關(guān)系表示，通過一層全連接層和用于分類的softmax層，得到該事件對的T維的時(shí)序關(guān)系概率向量Rk.其中第j個(gè)元素表示將其判別為第j個(gè)時(shí)序關(guān)系類型的概率值.我們采用真實(shí)時(shí)序關(guān)系類型和預(yù)測概率的交叉熵誤差作為損失函數(shù)：

(8)

其中，N為事件對總數(shù)，I為指示函數(shù).

Fig.6 Output module圖6 輸出模塊

3 實(shí) 驗(yàn)

本節(jié)主要介紹實(shí)驗(yàn)部分的相關(guān)細(xì)節(jié).首先介紹本文所使用的公開數(shù)據(jù)集與實(shí)驗(yàn)的評價(jià)指標(biāo)，接著介紹實(shí)驗(yàn)對比的基線方法，隨后介紹實(shí)驗(yàn)的參數(shù)設(shè)置，最后對實(shí)驗(yàn)結(jié)果進(jìn)行分析與探討.

3.1 數(shù)據(jù)集與評價(jià)指標(biāo)

本文在公開的TB-Dense和MATRES數(shù)據(jù)集上對模型的效果和性能進(jìn)行評估，這2個(gè)數(shù)據(jù)集的規(guī)模信息如表1所示:

Table 1 Statistics of TB-Dense and MATRES Datasets表1 數(shù)據(jù)集TB-Dense和MATRES的規(guī)模統(tǒng)計(jì)

表1詳細(xì)說明為：

1) TB-Dense數(shù)據(jù)集是Cassidy等人[2]基于TimeBank數(shù)據(jù)集，通過標(biāo)注相同或相鄰句子中的所有事件對的時(shí)序關(guān)系，構(gòu)建的稠密標(biāo)注語料，解決了TimeBank的標(biāo)注稀疏性，近年來已被廣泛應(yīng)用于事件時(shí)序關(guān)系抽取研究.TB-Dense包含6類時(shí)序關(guān)系：VAGUE，BEFORE，AFTER，SIMULTANEOUS，INCLUDES，IS_INCLUDED.

2) MATRES是Ning等人[3]在2018年基于TempRels3數(shù)據(jù)集(TempEval第3次評測任務(wù)[17]構(gòu)建的數(shù)據(jù)集，包括TimeBank，AQUAINT(advanced question-answering for intelligence)，Platinum)構(gòu)建的新數(shù)據(jù)集.該數(shù)據(jù)集通過使用多軸注釋方案并采用事件起點(diǎn)比較時(shí)序來改進(jìn)注釋者之間的一致性，進(jìn)一步提高了數(shù)據(jù)質(zhì)量，成為近幾年來值得關(guān)注的一個(gè)新數(shù)據(jù)集.MATRES只包含4類時(shí)序關(guān)系：VAGUE，BEFORE，AFTER，SIMULTANEOUS.

為了與已有相關(guān)研究進(jìn)行對比，本實(shí)驗(yàn)采用2套微平均F1值作為評價(jià)指標(biāo)，具體為：

1) 針對數(shù)據(jù)集TB-Dense，使用全部6個(gè)時(shí)序關(guān)系類別的Micro-F1.

2) 針對數(shù)據(jù)集MATRES，使用除了“VAGUE”外的3個(gè)時(shí)序關(guān)系類別的Micro-F1.

3.2 基準(zhǔn)方法

1) CAEVO.Chambers等人[18]于2014年提出的有序篩網(wǎng)式流水線模型.其中每個(gè)篩子可以是基于規(guī)則的分類器，也可以是機(jī)器學(xué)習(xí)模型.

2) CATENA.Mirza等人[19]于2016年提出了多重篩網(wǎng)式的事件關(guān)系抽取系統(tǒng)，可利用時(shí)序關(guān)系抽取模型和因果關(guān)系抽取模型之間的交互作用，增強(qiáng)時(shí)序和因果關(guān)系的提取和分類.

3) 文獻(xiàn)[13]方法.Cheng等人[13]于2017年提出了一種基于雙向長短期記憶(Bi-LSTM)的神經(jīng)網(wǎng)絡(luò)模型，該模型采取最短句法依賴關(guān)系路徑作為輸入，能達(dá)到與基于人工特征相當(dāng)?shù)男阅?

4) 文獻(xiàn)[20]方法.Vashishtha等人[20]于2019年提出了一個(gè)用于建模細(xì)粒度時(shí)序關(guān)系和事件持續(xù)時(shí)間的新語義框架，該框架將成對的事件映射到實(shí)值尺度，以構(gòu)建文檔級事件時(shí)間軸.基于此框架，訓(xùn)練模型聯(lián)合預(yù)測細(xì)粒度的時(shí)序關(guān)系和事件持續(xù)時(shí)間.

5) 文獻(xiàn)[21]方法.Meng等人[21]于2018年提出了上下文感知的事件時(shí)序關(guān)系抽取的神經(jīng)網(wǎng)絡(luò)模型，模型以事件最短依存路徑作為輸入，按敘述順序儲存處理過的時(shí)序關(guān)系，用于上下文感知.

6) 文獻(xiàn)[22]方法.Han等人[22]于2019年提出了一種具有結(jié)構(gòu)化預(yù)測的事件和事件時(shí)序關(guān)系聯(lián)合抽取模型.該模型讓事件抽取模塊和事件時(shí)序關(guān)系抽取模塊共享相同的上下文嵌入和神經(jīng)表示學(xué)習(xí)模塊，從而改善了事件表示.利用結(jié)構(gòu)化的推理共同分配事件標(biāo)簽和時(shí)序關(guān)系標(biāo)簽，避免了常規(guī)管道模型中的錯(cuò)誤傳遞.

3.3 實(shí)驗(yàn)參數(shù)設(shè)置

CE-TRE中，Bi-LSTM層的輸出維度為100，線性層的輸入維度為400和100；模型訓(xùn)練的batch_size大小為1(因?yàn)槠录壍氖录r(shí)序關(guān)系抽取以文章為基本單位，一篇文章包含若干的事件對).

此外由于篇章級時(shí)序關(guān)系抽取以文章為輸入單位，而不同文章包含的事件對的數(shù)目是不同的.這種差異導(dǎo)致不同batch包含的事件對數(shù)目存在明顯差異，如果使用一樣的學(xué)習(xí)率進(jìn)行訓(xùn)練，會使得模型更新不均衡，導(dǎo)致模型優(yōu)化過程不穩(wěn)定.因此，本文使用的解決策略為設(shè)置動(dòng)態(tài)學(xué)習(xí)率，為包含事件對多的文章樣例增大學(xué)習(xí)率，即學(xué)習(xí)率與事件對數(shù)目正相關(guān)：

(9)

其中，lr_base為基準(zhǔn)學(xué)習(xí)率，設(shè)置為0.000 1；lr_decay為學(xué)習(xí)率衰減，設(shè)置為0.9，每5輪進(jìn)行1次衰減；rel_num為文本包含的事件對數(shù)目，學(xué)習(xí)率與其成正比.

3.4 實(shí)驗(yàn)結(jié)果與分析

為了驗(yàn)證本文提出的模型CE-TRE在不同數(shù)據(jù)集上的抽取效果，本文選取了近幾年的主流模型(如3.2節(jié)所述)與CE-TRE在公開的TB-Dense和MATRES數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn).

3.4.1 驗(yàn)證CE-TRE模型性能

實(shí)驗(yàn)1.在TB-Dense數(shù)據(jù)集上驗(yàn)證CE-TRE模型性能.

在數(shù)據(jù)集TB-Dense上實(shí)驗(yàn)的原因是該數(shù)據(jù)是事件時(shí)序關(guān)系抽取任務(wù)的傳統(tǒng)數(shù)據(jù)集，有著充分的前人工作可以對比.實(shí)驗(yàn)結(jié)果如表2所示, 與近幾年的主流模型對比，本文提出的CE-TRE模型在TB-Dense取得了最高的Micro-F1評分,這說明CE-TRE模型很有競爭力.

實(shí)驗(yàn)2.在MATRES數(shù)據(jù)集上驗(yàn)證CE-TRE模型性能.

在數(shù)據(jù)集MATRES上實(shí)驗(yàn)的原因是該數(shù)據(jù)是個(gè)新的標(biāo)注質(zhì)量更高且數(shù)據(jù)規(guī)模更大的數(shù)據(jù)集，可以進(jìn)一步驗(yàn)證本文提出模型的效果.實(shí)驗(yàn)結(jié)果如表3所示，在MATRES數(shù)據(jù)集上，本文提出的CE-TRE模型的效果優(yōu)于2019年最優(yōu)的文獻(xiàn)[22]方法[22].

Table 2 Comparative Experiment of CE-TRE and 6 Baselines on TB-Dense

Table 3 Comparative Experiment of CE-TRE and the Best Baseline on MATRES

3.4.2 驗(yàn)證結(jié)合上下文信息對模型的增強(qiáng)效果

實(shí)驗(yàn)3.驗(yàn)證結(jié)合上下文的有效性.

為了驗(yàn)證結(jié)合上下文信息，是否對事件時(shí)序關(guān)系抽取模型有著增益效果，本實(shí)驗(yàn)對比有無上下文信息增強(qiáng)的模型的效果.實(shí)驗(yàn)結(jié)果如表4所示，在2個(gè)數(shù)據(jù)集上，結(jié)合上下文信息的CE-TRE模型均優(yōu)于未結(jié)合上下文信息的TRE(without CE)模型.此結(jié)果表明，結(jié)合上下文信息確實(shí)能夠增強(qiáng)事件對時(shí)序關(guān)系抽取模型的效果.

Table 4 Comparative Experiment Between CE-TREand TRE (without CE)

此外，通過對比2個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn)，CE-TRE模型相比于TRE模型，在數(shù)據(jù)集TB-Dense上的性能提升較為顯著(采用McNemar檢驗(yàn)，所得p<0.005)，而在數(shù)據(jù)集MATRES上的性能差距較小.本文認(rèn)為原因是：MATRES數(shù)據(jù)集的標(biāo)注類別只包含4類，相較于TB-Dense的6類，MATRES中的事件時(shí)序關(guān)系的識別難度較低.同時(shí)，MATRES數(shù)據(jù)集中的句子平均長度長于TB-Dense數(shù)據(jù)集，通常情況下，MATRES的句子包含的時(shí)序關(guān)系信息也會更多.這2點(diǎn)使得未結(jié)合上下文信息的TRE模型在MATRES數(shù)據(jù)集上也能取得較高的得分，從而CE-TRE模型相比TRE模型提升較小.同時(shí)，TRE(without CE)模型在2個(gè)數(shù)據(jù)集上的性能還優(yōu)于許多基線模型，本文認(rèn)為：TRE雖未結(jié)合上下文信息，但模型的訓(xùn)練方式和CE-TRE一樣，以文章作為單位輸入，使得模型的每次更新優(yōu)化只針對1篇文本的數(shù)據(jù)，可以集中學(xué)習(xí)每篇文章所屬文意的時(shí)序關(guān)系，從而學(xué)習(xí)出更優(yōu)的模型.

3.4.3 實(shí)驗(yàn)結(jié)果樣例分析

如表5中的樣例，需判斷事件E1與事件E2之間的時(shí)序關(guān)系.對于未結(jié)合上下文信息的事件對時(shí)序關(guān)系識別模型TRE，其預(yù)測結(jié)果為“VAGUE”，預(yù)測錯(cuò)誤.而結(jié)合上下文信息的事件對時(shí)序關(guān)系識別模型CE-TRE的預(yù)測結(jié)果為“BEFORE”，預(yù)測正確.通過分析樣例可知，TRE預(yù)測錯(cuò)誤的原因是樣例的句子信息不足以判別事件對的時(shí)序關(guān)系.而CE-TRE通過結(jié)合上文中的“1991年，查爾斯·基廷在州法院被判協(xié)助詐騙數(shù)千名投資者，這些投資者購買了基廷在林肯儲蓄貸款公司員工出售的高風(fēng)險(xiǎn)垃圾債券.”的信息可知，基廷于1991年被判協(xié)助詐騙，導(dǎo)致投資者購買了垃圾債券，之后債券變得一文不值.由此推斷1996年基廷的判決被推翻發(fā)生在債券變得一文不值之后.

Table 5 A Sample from TB-Dense Dataset表5 來自TB-Dense數(shù)據(jù)集的樣例

由TRE和CE-TRE在樣例上的預(yù)測結(jié)果進(jìn)一步驗(yàn)證了結(jié)合上下文的有效性.

綜合實(shí)驗(yàn)1和實(shí)驗(yàn)2的結(jié)果，本文提出的CE-TRE模型在2個(gè)數(shù)據(jù)集上均取得優(yōu)于近年來的最新模型，說明了本文方法的有效性.其次通過對比有上下文增強(qiáng)的CE-TRE模型和無上下文增強(qiáng)的TRE(without CE)模型的評分，以及兩者在表5中樣例的預(yù)測結(jié)果可以看出，結(jié)合上下文信息確實(shí)能夠增強(qiáng)事件對時(shí)序關(guān)系抽取模型的效果.

4 總結(jié)

事件時(shí)序關(guān)系抽取技術(shù)是一種從文本中獲取事件的時(shí)序結(jié)構(gòu)信息的重要手段，有著很高的研究價(jià)值和實(shí)用價(jià)值.現(xiàn)有的事件時(shí)序關(guān)系抽取方法往往都是句子級的抽取方法，存在時(shí)序關(guān)系識別精度低且無法保證全文一致性的問題.本文提出了一種融合上下文信息的篇章級事件時(shí)序關(guān)系抽取方法，并通過TB-Dense數(shù)據(jù)集和MATRES數(shù)據(jù)集上的多組實(shí)驗(yàn)驗(yàn)證了本文方法的有效性.

目前事件時(shí)序關(guān)系抽取的數(shù)據(jù)集規(guī)模都較小，限制了神經(jīng)網(wǎng)絡(luò)模型的抽取性能.在未來的工作中，我們將進(jìn)一步研究如何豐富相關(guān)數(shù)據(jù)集或如何引入外部資源來進(jìn)一步提升事件時(shí)序關(guān)系抽取模型的性能.