劉澤旖,余文華,洪智勇,柯冠舟,譚榮杰
五邑大學(xué) 智能制造學(xué)部,廣東 江門529020
隨著互聯(lián)網(wǎng)和科學(xué)技術(shù)的發(fā)展,各種數(shù)據(jù)爆發(fā)式增長(zhǎng)。為了應(yīng)對(duì)大數(shù)據(jù)時(shí)代帶來的嚴(yán)峻挑戰(zhàn),信息抽取技術(shù)應(yīng)運(yùn)而生。信息抽取技術(shù)[1]是指將嵌入在文本中的非結(jié)構(gòu)化信息自動(dòng)提取轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)的過程,即自動(dòng)提取、重構(gòu)海量的數(shù)據(jù)內(nèi)容中的關(guān)鍵信息。信息抽取技術(shù)的推進(jìn)能促進(jìn)文本分析[2]、知識(shí)圖譜[3]等領(lǐng)域蓬勃發(fā)展,而且其在信息檢索[4]、情感分類[5]等領(lǐng)域也都有著廣泛的應(yīng)用。
事件抽取(event extraction,EE)[6]任務(wù)是信息抽取任務(wù)的子任務(wù)之一,而“事件”指在特定的時(shí)空下,由一個(gè)或多個(gè)角色(事件主體)參與的,圍繞某個(gè)主題開展的一系列活動(dòng)。表1實(shí)例展示了事件抽取任務(wù),該事件描述了“Personal:Nominate”事件類型,由“提名”觸發(fā)得到的,并根據(jù)事件類型附帶其提取的論元參數(shù)(例如,“Personal:Nominate”事件類型的論元角色為“Person”和“Position”)填補(bǔ)一組語義角色的實(shí)體。該示例來自數(shù)據(jù)集ACE2005中文數(shù)據(jù)集[7],原始數(shù)據(jù)集中事件類型及論元類別注釋信息皆為英文。
表1 事件抽取示例Table 1 Event extraction example
事件抽取包括事件檢測(cè)和論元抽取兩個(gè)子任務(wù),其實(shí)現(xiàn)方式主要分為兩類:(1)流水線工作方式,首先識(shí)別觸發(fā)詞然后識(shí)別并抽取論元參數(shù)。即先進(jìn)行事件檢測(cè)子任務(wù),再進(jìn)行論元抽取子任務(wù)。(2)觸發(fā)詞和論元參數(shù)聯(lián)合抽取方法。是目前主流的事件抽取方法,其相對(duì)于流水線工作方式的優(yōu)點(diǎn)是減少由觸發(fā)詞識(shí)別錯(cuò)誤導(dǎo)致論元抽取的錯(cuò)誤傳播。早期事件抽取工作大多數(shù)以詞為單元進(jìn)行語義信息融合,Chen等人[8]設(shè)計(jì)動(dòng)態(tài)多池化卷積層對(duì)事件句不同短語或詞匯的最大值進(jìn)行提取,進(jìn)而保留更多關(guān)鍵信息,但該模型屬于流水線工作方式;為解決DMCNN模型[8]存在的囤積誤差等問題,Nguyen等人[9]通過用遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)聯(lián)合方法解決事件抽取的問題,并繼承了DMCNN方法的優(yōu)點(diǎn),克服了流水線工作方式的缺陷。近年來,Chen和Ng[10]研究了一系列從字符層面到文章層面的特征工作,是一種基于特征學(xué)習(xí)的聯(lián)合抽取方法;而Zeng等人[11]采用長(zhǎng)短記憶(long short term memory,LSTM)模型[12]進(jìn)行字符間的特征提取,捕獲更細(xì)粒度的語義信息;Lin等人[13]通過對(duì)字符級(jí)學(xué)習(xí)得到混合表示進(jìn)而獲取字符和單詞間的結(jié)構(gòu)和語義信息。以上算法雖然在一定程度上提高了事件抽取的效果,但是僅從訓(xùn)練的文本數(shù)據(jù)中捕獲的文本特征限制了模型的學(xué)習(xí)潛力,且普通神經(jīng)網(wǎng)絡(luò)存在需要花費(fèi)更高的成本設(shè)計(jì)和訓(xùn)練成本的缺點(diǎn)。
2018年,Google提出BERT(bidirectional encoder representation from transformer)預(yù)訓(xùn)練模型[14],其采用雙向Transformer框架在大型文本語料庫上進(jìn)行預(yù)訓(xùn)練使得多項(xiàng)NLP任務(wù)有了突破性進(jìn)展。在中文事件抽取領(lǐng)域中,Xu等人[15]設(shè)計(jì)了一種通過事件關(guān)系進(jìn)行觸發(fā)詞和參數(shù)聯(lián)合提取的框架,該框架依賴BERT編碼解決了中文事件抽取中的角色重疊問題;文獻(xiàn)[16]提出了一種基于BERT的轉(zhuǎn)換系統(tǒng)來提取統(tǒng)網(wǎng)絡(luò)中的嵌套實(shí)體、關(guān)系和事件的方法。上述的中文事件抽取方法雖然有一定的提升效果,但模型的成本設(shè)計(jì)依舊復(fù)雜且皆為分類思想,限制了模型對(duì)更深入的學(xué)習(xí)表征的理解。隨著研究的深入,研究英文事件抽取任務(wù)的學(xué)者為解決更細(xì)粒度問題逐漸從傳統(tǒng)的分類思想轉(zhuǎn)變到其他范式的研究思想。Chen等人[17]通過將機(jī)器閱讀理解的思想引入到事件抽取中,通過對(duì)來自注釋手冊(cè)的漂白語句的增量細(xì)化來消除部分論元角色帶來的歧義等問題。Xin等人[18]通過將事件抽取任務(wù)范式轉(zhuǎn)化為一個(gè)問題回答(question answering,QA)任務(wù)[19],通過對(duì)給定問題和事件句進(jìn)行語義理解和解析,對(duì)事件句內(nèi)容進(jìn)行查詢和推理得到答案。各項(xiàng)實(shí)驗(yàn)數(shù)據(jù)表明,引入問題回答、閱讀理解等范式到英文事件抽取中可以有效地改善局部詞語之間帶來的歧義等問題,且可以降低設(shè)計(jì)模型的復(fù)雜度。
目前中文事件抽取方法中還存在無法捕捉到不同事件類型中具有相似性的參數(shù)角色的語義信息問題。例如:事件類型“Justice:Execute”和“Justice:Fine”都具有“Person”論元角色,并且兩種論元角色都指的是被判定有罪行的人(物),忽略掉二者之間共通的語義信息可能會(huì)影響抽取的性能。受文獻(xiàn)[18]的啟發(fā),問題回答范式允許捕獲相似性的角色參數(shù)之間的語義信息。為進(jìn)一步提升中文事件抽取效果,解決上述問題,本文將問題回答模式應(yīng)用到中文事件抽取任務(wù)中,并針對(duì)文獻(xiàn)[18]設(shè)計(jì)的英文問題模板受到語言特性限制等問題,本文根據(jù)ACE數(shù)據(jù)集中的數(shù)據(jù)特性設(shè)計(jì)了一套符合中文事件抽取的問題模板生成規(guī)則,并選擇預(yù)訓(xùn)練模型BERT作為中文事件抽取的基礎(chǔ)模型將問題回答模式應(yīng)用到中文事件抽取任務(wù)中。結(jié)果證明,依賴本文設(shè)計(jì)的問題模板在問題回答模式中文事件抽取模型取得了良好的效果,且與幾種主流方法進(jìn)行性能相比表現(xiàn)優(yōu)異。通過消融實(shí)驗(yàn)驗(yàn)證,與直接在BERT預(yù)訓(xùn)練模型上進(jìn)行微調(diào)的結(jié)果相比,使用基于BERT的問題回答模型在事件抽取任務(wù)上效果更佳。證明了采用問題回答模式在預(yù)訓(xùn)練模型上進(jìn)行中文事件抽取效果更佳。
由于中英文之間存在語言壁壘問題,本文設(shè)計(jì)了一套中文問題模板的生成規(guī)則,該規(guī)則不僅更適合中文事件抽取任務(wù),且可以快速實(shí)現(xiàn)。
在事件檢測(cè)任務(wù)中,以獲得輸入語句中的“觸發(fā)詞”和“事件類別”的參數(shù)答案為目的,本文設(shè)計(jì)了兩種問題模板。如表2所示,模板1的問題內(nèi)容設(shè)計(jì)為“動(dòng)詞”“動(dòng)作”“觸發(fā)詞”“事件類型”。模板2的問題內(nèi)容設(shè)計(jì)為“<動(dòng)詞>+<疑問詞>”“<觸發(fā)詞>+<疑問詞>”等組合。例如,若選擇模板2“<動(dòng)詞>+<疑問詞>”,則表1中的示例的輸入序列為:
表2 事件檢測(cè)問題模板Table 2 Event detection question templates
[CLS]該句子中的動(dòng)詞是什么?[SEP]佛羅里達(dá)州奧蘭治縣縣長(zhǎng)梅爾·馬丁內(nèi)斯被提名為住房和城市發(fā)展部部長(zhǎng)[SEP]。
對(duì)于論元抽取子任務(wù),如表3所示,ACE數(shù)據(jù)集包含8種事件類別,在這8種事件類別中又細(xì)分為了33種子事件類別。Doddington等人[7]根據(jù)事件屬性將8種事件類別歸為了5類:(1)銷毀。描述組織團(tuán)體等某項(xiàng)活動(dòng)或者合作發(fā)生了終結(jié)的結(jié)果的事件。(2)創(chuàng)建。描述組織的誕生或者不同組織之間開展的活動(dòng)的初始狀態(tài)等事件。(3)移動(dòng)。描述轉(zhuǎn)移對(duì)象從一個(gè)地方被轉(zhuǎn)移到另一個(gè)地方的過程的事件,目的地需要顯示地表示,且轉(zhuǎn)移對(duì)象可被明確標(biāo)記。(4)轉(zhuǎn)移。與“移動(dòng)”事件相比,“轉(zhuǎn)移”事件用于描述轉(zhuǎn)移對(duì)象被從一個(gè)地方轉(zhuǎn)移到另一個(gè)地方,且所有權(quán)發(fā)生了變化。(5)交互。描述具有雙方或者多方進(jìn)行交流互動(dòng)并生成了一定的結(jié)果的事件。
表3 ACE數(shù)據(jù)集分類Table 3 ACE dataset classification
ACE數(shù)據(jù)集的貢獻(xiàn)者設(shè)定了四種通用角色,Agent、object、source和target。本文針對(duì)中文數(shù)據(jù)集特性,重新設(shè)定了更適用于中文數(shù)據(jù)集的四種通用角色:(1)Agent。用于描述影響事件類型的主要參與者角色。(2)Time。用于描述影響事件類別的時(shí)間,實(shí)際應(yīng)用中多為時(shí)刻,而非時(shí)間段。(3)Place。用于描述影響事件類別的地點(diǎn),地點(diǎn)皆為可標(biāo)記的名詞。(4)Person。用于描述事件中的人物參與者角色,不同事件包含不同數(shù)量的人物參與者角色。該四種通用角色基本符合5種事件屬性的論元參數(shù)抽取的基本要求。不同的事件屬性的事件除包含上述總結(jié)的4種通用角色外,還包含一些特定的角色,如表4所示。例如,事件屬性為“Movement”的事件還多添加了3組論元角色——Aritifact:被轉(zhuǎn)移對(duì)象,一般指武器或者工件;Vehicle:專指轉(zhuǎn)移過程中的運(yùn)輸工具;Orgin:表示轉(zhuǎn)移過程的起點(diǎn)位置。
表4 事件角色總結(jié)Table 4 Event roles summary
因此,本文在論元抽取之前,先判斷事件句的事件屬性,再通過事件檢測(cè)獲得到事件類別。根據(jù)事件類別和事件屬性確定所抽取的參數(shù)角色的一般語義類型,最后根據(jù)問題模板設(shè)計(jì)出問題語句。本文分別設(shè)計(jì)了三種問題模板。如表5所示。
表5 論元抽取問題模板Table 5 Argument extraction question templates
模板1,將問題設(shè)計(jì)為參數(shù)角色名稱,例如:代理、時(shí)間等進(jìn)行實(shí)例化。
模板2,將問題設(shè)計(jì)為“參數(shù)角色名稱+疑問詞”,先確定參數(shù)角色的一般語義類型:人物、地點(diǎn)等,再構(gòu)建相關(guān)的疑問詞:“誰”“哪里”等。與模板1相比,模板2包含了更多的語義信息。
模板3,根據(jù)事件子類型,將確定的參數(shù)角色實(shí)例化為符合事件子類型的語義角色。例如:表1中的實(shí)例已確定為“Nominate”事件類型,通過表3得知該事件屬性為交互,則Agent表示提名的主辦方,Time表示提名的時(shí)間,Place表示被提名的地點(diǎn),Person表示被提名者,Position表示獲得的獎(jiǎng)勵(lì)。模板3相對(duì)于模板2,包含了更多的語義信息,但是問題設(shè)計(jì)得過于具體也會(huì)存在使得模型存在過擬合的風(fēng)險(xiǎn)。
本文設(shè)計(jì)的問題模板規(guī)則不僅適用于ACE數(shù)據(jù)集的33種事件類別的事件,還適用于符合5種事件屬性的其他事件類別,具有可擴(kuò)展性。
本文選擇BERT預(yù)訓(xùn)練模型作為中文事件抽取的模型,BERT是一種基于微調(diào)的多層雙向Transformer框架[20]的預(yù)訓(xùn)練模型,其先以無監(jiān)督的學(xué)習(xí)方式在圖書語料庫和維基百科的無標(biāo)注文本獲得詞語間上下文語義表示。
Transformer的框架如圖1所示,該框架是由編碼器(encoder)和解碼器(decoder)組成的,其中編碼器中包含了6個(gè)基本層堆疊而成的,每個(gè)基本層中有兩個(gè)子層組成,第一個(gè)子層為多頭注意力機(jī)制層(muti-head attention),第二個(gè)子層為全連接前饋神經(jīng)網(wǎng)絡(luò)層,且每個(gè)子層中都使用殘差連接(residual connection)和歸一化(layer nomalization)操作。解碼器與編碼器結(jié)構(gòu)相似,都由6個(gè)基本層堆疊而成的,每個(gè)基本層中除了多頭注意力機(jī)制層和全連接前饋神經(jīng)網(wǎng)絡(luò)層以外,還增加了一個(gè)掩碼式多頭注意力機(jī)制層(masked muti-head attention),該子層的作用是確保模型預(yù)測(cè)的token的依賴信息是已知輸出信息。
圖1 Transformer Fig.1 Transformer
BERT包含兩種預(yù)訓(xùn)練方式,一種是捕獲詞語間的特征信息的掩碼語言模型(masked language model,MLM),其隨機(jī)地屏蔽了輸入中的一些token去預(yù)測(cè),預(yù)測(cè)僅基于其上下文的被遮罩的原始詞匯去預(yù)測(cè)被屏蔽的token。另一種預(yù)訓(xùn)練方式為通過獲取句子間的語境信息去進(jìn)行下一個(gè)句子預(yù)測(cè)(next sentence prediction,NSP),目的是提升模型判斷句子間的語義關(guān)系。其輸入編碼如圖2所示,由toekn embedding、position embedding和segment embedding組成。
圖2 BERT輸入編碼向量Fig.2 BERT input representation
其中輸入編碼向量中的[CLS]作為輸出結(jié)果的分類結(jié)果,是分類任務(wù)中常用的符號(hào)。[SEP]則是作為分隔符來分割開不同的句子。
本文使用的模型如圖3所示,該模型由BERT預(yù)訓(xùn)練模型和一個(gè)可以計(jì)算出文本答案的開始token的損失和終止token的損失的線性層組成的。
圖3 問題回答任務(wù)Fig.3 Question answering task
輸入的一般格式為:[CLS]<問題>[SEP]<句子>[SEP]。通過BERT模型得到輸入token的上下文表示:
應(yīng)用Softmax函數(shù)計(jì)算輸入token生成答案文本跨度的初始/終止的概率:
其中,Ws∈RH×1和We∈RH×1,H是隱藏層的大小。事件類型類別的預(yù)測(cè)應(yīng)用Softmax函數(shù)計(jì)算生成事件類型的概率:
其中Wtr∈RH×T,T是事件類型的數(shù)量加1(包括句子中無觸發(fā)詞的情況)。在測(cè)試階段,選擇使得Ptr獲取最大值的一組token上下文表示。在訓(xùn)練模型的過程中,設(shè)定參數(shù)提取的模型損失為答案跨度初始token損失和終止token損失之和。對(duì)于沒有答案的情況,將答案的初始token和終止token設(shè)定在[CLS]token上。
不同的事件句中可能包含多個(gè)論元參數(shù),本文采用動(dòng)態(tài)閾值的推理[14]獲取有效論元參數(shù),首先枚舉所有可能的參數(shù)跨度組合并計(jì)算每個(gè)跨度組合的分?jǐn)?shù),再根據(jù)概率閾值過濾掉不符合的論元參數(shù)。
本文使用的是ACE2005數(shù)據(jù)集[7],它包含了在2003年到2005年間從多個(gè)領(lǐng)域采集的文件,如新聞專線、網(wǎng)絡(luò)博客、廣播對(duì)話和廣播新聞。用于評(píng)估的部分完全包含了33種事件類型。受Zhang等人[21]工作啟發(fā),采用相同的數(shù)據(jù)分割和預(yù)處理步驟。
2.2.1 實(shí)驗(yàn)環(huán)境
本文的模型的實(shí)驗(yàn)設(shè)置:在CentOS Linux7的平臺(tái)上,NVIDIA Quadro P5000圖形處理單元(GPU)和16 GB的內(nèi)存。本文的實(shí)驗(yàn)使用Pytorch深度學(xué)習(xí)框架進(jìn)行實(shí)現(xiàn),和Python語言進(jìn)行編寫。
2.2.2 訓(xùn)練參數(shù)設(shè)置
本文采用BERT模型部分默認(rèn)的設(shè)置參數(shù):融合快速優(yōu)化器(FusedAdam)[14]進(jìn)行模型參數(shù)優(yōu)化,衰減率為0.01,Dropout丟棄率[22]設(shè)置為0.1。經(jīng)過多次實(shí)驗(yàn)調(diào)參,得出的抽取效果較好的模型的其他主要參數(shù)為:學(xué)習(xí)率為4E-5,batch_size為8,訓(xùn)練epoch的數(shù)量為6。
事件抽取的判別標(biāo)準(zhǔn)主要分為4個(gè)方面:(1)識(shí)別的事件觸發(fā)詞的偏移量與正確觸發(fā)詞的偏移量位置相同,則正確識(shí)別。(2)預(yù)測(cè)的事件類型與正確事件類型相同,則正確歸類。(3)識(shí)別的論元參數(shù)和該事件句中任意正確的論元參數(shù)相匹配,則正確識(shí)別。(4)預(yù)測(cè)的論元角色與正確論元角色相同,則正確歸類。
本文采用準(zhǔn)確率(precision,P)、召回率(recall,R)和F1值(F1-score,F(xiàn)1)三個(gè)指標(biāo)來衡量模型效果。準(zhǔn)確率是正確標(biāo)注的實(shí)體數(shù)占預(yù)測(cè)標(biāo)注實(shí)體總數(shù)的比例,召回率是指正確標(biāo)注的實(shí)體數(shù)占實(shí)際標(biāo)準(zhǔn)標(biāo)注實(shí)體總數(shù)的比例,為了綜合評(píng)價(jià)模型的性能,又引入F1評(píng)價(jià)指標(biāo),即準(zhǔn)確率和召回率的加權(quán)幾何平均值。三個(gè)評(píng)價(jià)指標(biāo)的計(jì)算公式如下:
其中,TP為正確標(biāo)注的實(shí)體數(shù),F(xiàn)P為錯(cuò)誤標(biāo)注的實(shí)體數(shù),F(xiàn)N為實(shí)際錯(cuò)誤標(biāo)注的實(shí)體數(shù)。
2.4.1 性能對(duì)比分析
本文在觸發(fā)詞識(shí)別以及分類結(jié)果實(shí)驗(yàn)中選擇了8種主流的模型:DMCNN[8]、Rich-C[10]、C-BiLSTM[12]、NPNs[13]、TLNN[23]、BERT[14]、Lattice-transition-pipeline[16]和Latticetransition-joint[16]。其中Huang等人[16]主要針對(duì)事件檢測(cè)任務(wù)的觸發(fā)詞分類進(jìn)行實(shí)驗(yàn)分析工作。表6為事件檢測(cè)任務(wù)的實(shí)驗(yàn)結(jié)果。其中,與TLNN模型相比,觸發(fā)詞識(shí)別任務(wù)在精確率、召回率和F1值上分別提升了5.4、8.6和6.7個(gè)百分點(diǎn);相比于模型DMCNN,在精確率、召回率和F1值上分別提升了6.1、19.7和12.6個(gè)百分點(diǎn)。
表6 各模型在事件檢測(cè)子任務(wù)上的結(jié)果對(duì)比Table 6 Comparison of results of each model on task of Event Detection 單位:%
在觸發(fā)詞分類實(shí)驗(yàn)中,實(shí)驗(yàn)結(jié)果表明,Lattice-transitionjoint模型因采用單字符和詞語雙字符組合作為編碼器的輸入使得該模型具有較強(qiáng)的特征提取能力,本文的模型在僅依存單字符編碼就達(dá)到了與Lattice-transitionjoint模型相持平的抽取能力,且在召回率指標(biāo)上高于其1.4個(gè)百分點(diǎn)。NPNs模型[13]因針對(duì)中文詞匯邊界模糊問題提出的字詞混合表示使得該精確率達(dá)到了73.8%,然而由于其本身的字詞組合方式導(dǎo)致召回率為59.6%,本文模型并未采用字詞組合思想,對(duì)于字與字之間的組合分配也未限制,從召回率指標(biāo)上對(duì)比,本文模型高于NPNs模型14.3個(gè)百分點(diǎn)。表明問題回答模式對(duì)觸發(fā)詞類型具有更細(xì)粒度的判別能力。
在論元參數(shù)識(shí)別以及論元角色分類實(shí)驗(yàn)中選擇了5種主流的模型:Rich-C[10]、C-BiLSTM[12]、BERT[14]、MCEE[15]和JMCEE[15]。表7為論元抽取任務(wù)的實(shí)驗(yàn)結(jié)果。其中在論元參數(shù)識(shí)別任務(wù)上,本文模型的F1指標(biāo)都優(yōu)于Rich-C、BERT和MCEE模型。
表7 各模型在論元抽取子任務(wù)上的結(jié)果對(duì)比Table 7 Comparison of results of each model on task of Argument Extraction 單位:%
在論元角色分類實(shí)驗(yàn)中,JMCEE模型因在依賴的BERT編碼中添加了多組二進(jìn)制分類器,提高了該模型在事件句中捕獲更深層次的文本表示能力;C-BiLSTM[14]模型考慮了獲取字向量的語義信息,提高了模型對(duì)詞向量信息獲取能力。然而本模型僅選擇字向量的BERT編碼,在精確率指標(biāo)上高于JMCEE模型5.0個(gè)百分點(diǎn),且在F1指標(biāo)上高于C-BiLSTM模型1.1個(gè)百分點(diǎn),原因是本文使用的問題回答模式可以更精確地判斷論元角色,且該模式能夠捕獲具有相似性的參數(shù)角色的語義信息。
2.4.2 消融實(shí)驗(yàn)結(jié)果分析
如表6、表7所示,本小節(jié)展示了直接在BERT預(yù)訓(xùn)練模型上進(jìn)行微調(diào)的結(jié)果,與基于BERT的問題回答模型相比,無論是事件檢測(cè)還是論元抽取子任務(wù),性能效果都略為遜色。在觸發(fā)詞識(shí)別的實(shí)驗(yàn)中,在F1指標(biāo)上低于問題回答模式7.5個(gè)百分點(diǎn)。實(shí)驗(yàn)表明與直接在BERT預(yù)訓(xùn)練模型上進(jìn)行事件抽取任務(wù)相比,基于BERT的問題回答模式模型還依賴于問題語句提供的語義信息,使得模型可以通過更多的等價(jià)數(shù)據(jù)信息來提升模型泛化能力。因此,采用問題回答模式在預(yù)訓(xùn)練模型上進(jìn)行中文事件抽取效果更佳。
本節(jié)展示了針對(duì)論元抽取子任務(wù)設(shè)計(jì)的問題模板的性能對(duì)比,如表8所示,模板1在論元參數(shù)識(shí)別和論元角色分類的實(shí)驗(yàn)上表現(xiàn)略微遜色,與詞匯短語相對(duì)于句子含帶的語義信息較少有關(guān)。模板2和模板3在兩個(gè)實(shí)驗(yàn)結(jié)果中表現(xiàn)相對(duì)理想,其中在論元參數(shù)識(shí)別實(shí)驗(yàn)中,模板2的F1值達(dá)到了46.8%,而模板3的F1值為47.4%。而在論元角色分類的實(shí)驗(yàn)中,模板3的F1值高于模板2的F1值0.7個(gè)百分點(diǎn)。因此模板3更具備攜帶更通用且精準(zhǔn)的語義信息的能力。
表8 各問題模板在論元抽取任務(wù)上的結(jié)果對(duì)比Table 8 Comparison of results of each question template on Argument Extraction 單位:%
本文在1.1節(jié)提到,模板3中的問題語句設(shè)計(jì)得過于具體可能會(huì)使得模型過擬合,因此本文設(shè)計(jì)了一組由模板2和模板3聯(lián)合組成的問題模板,針對(duì)不同的事件類型的事件句選擇不同的模板,結(jié)果證明,由模板2和模板3聯(lián)合組成的問題模板相較單一模板在論元抽取任務(wù)中性能更優(yōu)。
預(yù)訓(xùn)練模型可以通過大型語料庫學(xué)習(xí)到通用的語言表示,有利于下游NLP任務(wù),本節(jié)選擇預(yù)訓(xùn)練模型BERT編碼、Roberta[24]編碼以及BERT-wwm編碼放置到本文提出的模型的詞嵌入層進(jìn)行對(duì)比實(shí)驗(yàn),分析不同的編碼輸入對(duì)模型輸出的影響。
BERT編碼,在圖書語料庫和維基百科上進(jìn)行預(yù)訓(xùn)練學(xué)習(xí),使用大小為30 000的字符級(jí)BPE[25]詞匯表,該詞匯表是在使用啟發(fā)式標(biāo)記化規(guī)則對(duì)輸入進(jìn)行預(yù)處理后學(xué)習(xí)的;RoBERTa編碼,在維基百科、CCNews語料庫上進(jìn)行預(yù)訓(xùn)練學(xué)習(xí),使用包含50 000子字單元的更大字節(jié)級(jí)BPE詞匯表;BERT-wwm編碼,在圖書語料庫和維基百科上進(jìn)行預(yù)訓(xùn)練學(xué)習(xí)。同一名稱的編碼也存在具有不同版本的模型的情況,因此效果也存在差異。
本節(jié)選擇了事件檢測(cè)子任務(wù)進(jìn)行模型的性能比較。如表9所示,該表展示的是模型在事件檢測(cè)任務(wù)的驗(yàn)證集上得到的F1值,使用不同的編碼會(huì)影響模型最后的輸出結(jié)果和運(yùn)行時(shí)間。模型使用BERT編碼和BERT-wwm編碼均需要訓(xùn)練3次epoch才達(dá)到最優(yōu)值,而使用RoBERTa編碼則需要訓(xùn)練4次epoch才能達(dá)到最優(yōu)解。因此使用RoBERTa編碼則需要的訓(xùn)練時(shí)間較長(zhǎng)。從實(shí)驗(yàn)結(jié)果方面進(jìn)行比較,BERT-wwm編碼的結(jié)果最優(yōu),其中在觸發(fā)詞識(shí)別上超過BERT編碼1.6個(gè)百分點(diǎn),RoBERTa編碼則低于BERT編碼0.5個(gè)百分點(diǎn);在觸發(fā)詞分類上,BERT-wwm編碼超過BERT編碼1.0個(gè)百分點(diǎn),RoBERTa編碼低于BERT編碼1.7個(gè)百分點(diǎn)。
表9 三種編碼在事件檢測(cè)任務(wù)上的結(jié)果對(duì)比Table 9 Comparison of results of three encodings on task of Event Detection 單位:%
圖4為該任務(wù)在訓(xùn)練過程中的損失值變化圖,可得使用RoBERTa編碼的模型在訓(xùn)練第2個(gè)epoch過程中,收斂速度較慢,而BERT-wwm編碼和BERT編碼的收斂趨勢(shì)較為近似。
圖4 三種編碼在訓(xùn)練過程中的變化圖Fig.4 Variation diagram of three encodings modules during training process
從表9和圖4可得,不同的編碼對(duì)模型的結(jié)果有一定的影響,但結(jié)果的相差并不大,這表明本文的模型具有良好的延伸性。
本文介紹了使用問題回答模式處理事件抽取任務(wù),該模式可以捕捉到不同事件類型中具有相似性的參數(shù)角色的語義信息。受相關(guān)學(xué)者提出的采用問題回答模式的英文事件抽取方法的啟發(fā),將問題回答模式應(yīng)用到中文事件抽取任務(wù)中,并針對(duì)基于問題回答任務(wù)的英文事件抽取中提出的問題生成規(guī)則受語言壁壘限制無法提供正確且全面的提問信息,本文設(shè)計(jì)了一套符合中文事件抽取的問題模板生成規(guī)則,選擇預(yù)訓(xùn)練語言模型BERT作為中文事件抽取的基礎(chǔ)模型,并選取幾種主流方法進(jìn)行性能比較。
結(jié)果證明,本文設(shè)計(jì)的問題模板應(yīng)用在BERT預(yù)訓(xùn)練模型上表現(xiàn)優(yōu)異,尤其是在觸發(fā)詞識(shí)別和觸發(fā)詞分類的評(píng)價(jià)指標(biāo)上,F(xiàn)1值分別達(dá)到77.7%和68.5%。并檢驗(yàn)了不同類型的問題模板的性能,由于句子級(jí)的問題模板攜帶更多的語義信息,所以性能優(yōu)于詞匯級(jí)的問題模板。通過消融實(shí)驗(yàn)驗(yàn)證,與直接在BERT預(yù)訓(xùn)練模型上進(jìn)行微調(diào)的結(jié)果相比,使用基于BERT的問題回答模型在事件抽取任務(wù)上效果更佳。證明了采用問題回答模式在預(yù)訓(xùn)練模型上進(jìn)行中文事件抽取效果更佳。