韓 娜, 張昊洋
(黑龍江科技大學(xué) 計(jì)算機(jī)與信息工程學(xué)院, 哈爾濱 150022)
目前,事件抽取是自然語言處理研究的熱點(diǎn)和難點(diǎn)。事件抽取是從非結(jié)構(gòu)化的自然語言文本中自動(dòng)抽取用戶感興趣的事件信息并以結(jié)構(gòu)化的形式表示[1]。事件抽取得到的優(yōu)質(zhì)結(jié)構(gòu)化知識(shí)信息,能指導(dǎo)智能模型進(jìn)行深層次的事物理解和精準(zhǔn)的任務(wù)查詢及一定的邏輯推理[2]。事件抽取在信息收集、信息檢索、文檔合成和金融趨勢(shì)預(yù)測(cè)[3]等方面有著廣泛應(yīng)用。事件被自動(dòng)內(nèi)容抽取(Automatic content extraction, ACE)國際評(píng)測(cè)會(huì)議定義為:發(fā)生在某個(gè)特定時(shí)間點(diǎn)或時(shí)間段,某個(gè)特定地域范圍內(nèi),由一個(gè)或者多個(gè)角色參與的一個(gè)或者多個(gè)動(dòng)作組成的事情或者狀態(tài)的改變[4]。事件抽取的技術(shù)方法可以分為基于模式匹配的方法和基于機(jī)器學(xué)習(xí)方法兩大類,前者需要在特定模式指導(dǎo)下進(jìn)行事件識(shí)別和抽取,在特定領(lǐng)域表現(xiàn)出色;而后者將深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)作為主要手段,成為目前的主流研究方向。Feng等[5]提出用雙向長短期記憶網(wǎng)絡(luò)進(jìn)行事件監(jiān)測(cè),但沒有研究事件元素的抽取方法。Nguyen等[6]利用雙向LSTM抽取句子的語義特征,聯(lián)合句子結(jié)構(gòu)特征同時(shí)抽取事件觸發(fā)詞和事件元素。Zeng等[7]使用雙向長短期記憶網(wǎng)絡(luò)和條件隨機(jī)場(chǎng)抽取句子特征,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)抽取上下文語義特征完成中文事件抽取,提高了性能。武國亮等[8]提出了基于命名實(shí)體識(shí)別任務(wù)反饋增強(qiáng)的中文突發(fā)事件抽取方法,以解決多任務(wù)聯(lián)合學(xué)習(xí)產(chǎn)生的損失不平衡問題。季忠祥等[9]采用CNN-BiLSTM-CRF模型抽取中文事件。劉輝熊[10]抽取研究了特定的司法數(shù)據(jù)事件和生物醫(yī)學(xué)事件。上述學(xué)者或是僅關(guān)注事件抽取的某個(gè)子任務(wù),或是針對(duì)特定領(lǐng)域事件進(jìn)行抽取,對(duì)通用事件抽取任務(wù)的效果無法評(píng)價(jià)。而針對(duì)中文事件的事件抽取模型則未能考慮模型的開銷、性能和算力等方面的平衡,且測(cè)試數(shù)據(jù)集(ACE、CEC[9])規(guī)模相對(duì)較小,在大規(guī)模數(shù)據(jù)集上應(yīng)用效果不明確。
針對(duì)現(xiàn)有研究的不足,筆者提出基于ALBERT+BiLSTM+CRF的事件抽取模型,通過與多種模型進(jìn)行對(duì)比實(shí)驗(yàn),驗(yàn)證其在大規(guī)模中文事件抽取中的有效性。
事件抽取按照ACE的定義包含事件觸發(fā)詞和事件元素等子任務(wù)。事件抽取通?;谑录|發(fā)詞識(shí)別出文本中的事件和事件類型,并進(jìn)一步從事件中識(shí)別出事件元素并確定元素角色,事件抽取依賴于命名實(shí)體識(shí)別、關(guān)系抽取等底層自然語言處理任務(wù)的結(jié)果,同時(shí),還需要結(jié)合上下文的語義分析才能完成。
隨著語料數(shù)量的增加和機(jī)器計(jì)算能力的提高,事件抽取越來越多采用深度學(xué)習(xí)的各類模型,尤其是預(yù)訓(xùn)練語言模型BERT[11]、RoBERT[12]和ALBERT[13]的提出推動(dòng)了事件抽取的研究和發(fā)展。事件抽取可以分為由觸發(fā)詞識(shí)別,以及由事件類型分類構(gòu)成的事件識(shí)別。事件元素(論元)識(shí)別和角色分類組成了角色分類的兩個(gè)子任務(wù)。按照事件抽取子任務(wù),文中擬采取聯(lián)合標(biāo)注策略,利用ALBERT作為編碼器,同時(shí),識(shí)別事件元素及其對(duì)應(yīng)事件類型,并在大規(guī)模中文數(shù)據(jù)集DuEE上進(jìn)行實(shí)驗(yàn),驗(yàn)證模型的有效性。
文中提出的ALBERT+BiLSTM+CRF模型結(jié)構(gòu)如圖1所示。模型由三個(gè)層次構(gòu)成,ALBERT層將輸入的文本經(jīng)過預(yù)訓(xùn)練生成詞向量,將得到的詞向量作為BiLSTM層的輸入。通過BiLSTM層雙向訓(xùn)練,提取特征信息,經(jīng)過CRF層確定全局最優(yōu)序列。
ALBERT層中使用多層的Transformer Encoder模型(圖1中簡寫為Trm),通過注意力機(jī)制將任意位置的兩個(gè)單詞的距離轉(zhuǎn)換成1。
圖1 ALBERT+BiLSTM+CRF模型Fig. 1 ALBERT+BiLSTM+CRF Model
ALBERT預(yù)訓(xùn)練模型
2018年,Google團(tuán)隊(duì)結(jié)合不同語言模型的優(yōu)點(diǎn),提出BERT模型[11-12],該模型在命名實(shí)體識(shí)別等11個(gè)NLP任務(wù)上取得了最好效果。該模型基于雙向Transformer Encoder神經(jīng)網(wǎng)絡(luò)編碼器構(gòu)建,增強(qiáng)了預(yù)訓(xùn)練詞向量的泛化能力,解決了一詞多義的問題。但BERT模型中詞嵌入?yún)?shù)E與隱層大小H相等,實(shí)際詞匯表的大小V很大,導(dǎo)致出現(xiàn)模型訓(xùn)練時(shí)間過長,算力要求過高的問題。2019年,Google實(shí)驗(yàn)室的Lan等[13]提出了ALBERT(A Lite BERT)預(yù)訓(xùn)練語言模型,在維持性能的前提下,獲得了更好的模型擴(kuò)展性。
為控制BERT中參數(shù)規(guī)模問題,ALBERT從減少模型參數(shù)量的角度進(jìn)行了改進(jìn),模型示意如圖2所示。
圖2 ALBERT模型Fig. 2 ALBERT model
ALBERT模型通過因式分解以達(dá)到減少參數(shù)的目標(biāo),即將嵌入詞矩陣的維度先映射到大小為E的低維度空間,然后通過高維映射變換到隱藏層的方式,既保證了與上下文相關(guān)的隱層大小H增大,又使整體的復(fù)雜度從O(V×H)降低到O(V×E+E×H)的目的。同時(shí),ALBERT實(shí)現(xiàn)了全連接層與注意力層之間全部參數(shù)的共享策略,即將全連接層和注意力層間的參數(shù)減為單頭,壓縮了參數(shù)總量。減少參數(shù)的同時(shí),為了保證性能不變甚至更優(yōu),ALBERT引入了一個(gè)自監(jiān)督損失函數(shù),提出用SOP取代NSP,保證模型學(xué)習(xí)時(shí)關(guān)注句子的連貫性,以實(shí)現(xiàn)下一句預(yù)測(cè)任務(wù)更加符合實(shí)際情況。
BiLSTM+ CRF 特征提取
H=[h1,h2,…,hn] 。
(1)
由式(1)可知,H中的每一行hi都代表將前向和后向的隱向量拼接得到的句子特征。
由于BiLSTM沒有考慮標(biāo)簽間的關(guān)聯(lián)性,所以需要在BiLSTM的輸出層加上一個(gè)CRF(條件隨機(jī)場(chǎng))模型,利用CRF中的轉(zhuǎn)移矩陣表示標(biāo)簽間的相關(guān)性。對(duì)BiLSTM輸出的給定句子x,其標(biāo)簽序列為y的概率為
(2)
s=∑iPE(xi,yi)+PT(yi-1,yi),
(3)
式中:PE——發(fā)射概率,即BiLSTM輸出的概率;
PT——對(duì)應(yīng)CRF轉(zhuǎn)移概率,即轉(zhuǎn)移矩陣對(duì)應(yīng)的數(shù)值。
事件抽取模型的驗(yàn)證需要事件抽取數(shù)據(jù)集的支撐,目前,使用比較廣泛的數(shù)據(jù)集包括ACE 2005、TAC KBP和中文突發(fā)事件語料庫(CEC)。ACE 2005是多語言語料庫,包含英語、阿拉伯語和中文數(shù)據(jù),使用最廣泛;TAC KBP也提供英語、西班牙語和中文數(shù)據(jù)。CEC是專門為中文事件抽取設(shè)計(jì)的涵蓋五種突發(fā)事件類型的小數(shù)據(jù)集。上述數(shù)據(jù)集規(guī)模均相對(duì)較小,大規(guī)模數(shù)據(jù)集相對(duì)匱乏。在此基礎(chǔ)上,百度公司推出了由19 640個(gè)事件組成的DuEE數(shù)據(jù)集[16],該數(shù)據(jù)集可以映射到121個(gè)論元角色,包含41 520個(gè)事件論元。該數(shù)據(jù)集劃分了65種事件類型,由人工眾包審核的方式完成標(biāo)注,保證其標(biāo)注準(zhǔn)確率高于95%,數(shù)據(jù)來源于百度搜索的熱門話題,更接近真實(shí)世界場(chǎng)景。由于該數(shù)據(jù)集規(guī)模、數(shù)據(jù)質(zhì)量和對(duì)中文的支持程度都優(yōu)于常用的數(shù)據(jù)集,故文中使用DuEE作為實(shí)驗(yàn)數(shù)據(jù)集,該數(shù)據(jù)集以事件為例,訓(xùn)練集、測(cè)試集、驗(yàn)證集的占比分別為69%、22%和9%。具體標(biāo)注示例如下:
文本實(shí)例 8月20日消息,據(jù)騰訊新聞《一線》報(bào)道,知情人士表示,為了控制成本支出,蔚來計(jì)劃將美國分公司的人員規(guī)模除自動(dòng)駕駛業(yè)務(wù)相關(guān)人員外,減少至200人左右。截至美國時(shí)間8月16日,蔚來位于美國硅谷的分公司已裁減100名員工。
標(biāo)注結(jié)果 [ {
"event_type": "組織關(guān)系-裁員",
"trigger": "裁減",
"arguments": [
{ "role": "時(shí)間",
"argument": "8月16日"},
{"role": "裁員方",
"argument": "蔚來"},
{ "role": "裁員人數(shù)",
"argument": "100名員工"} ]
class": "組織關(guān)系"
} ]。
實(shí)例標(biāo)注了事件類型(event_type)、事件觸發(fā)詞(trigger)、事件關(guān)系(class)和事件的論元列表(arguments)。事件論元列表中根據(jù)事件關(guān)系標(biāo)識(shí)出特定事件類型中的論元,如本示例中標(biāo)識(shí)出事件的時(shí)間、事件的參與方(裁員方和裁員人數(shù))。
事件抽取的評(píng)價(jià)方法一般采用正確率P、召回率R和F1值,三者的計(jì)算公式為
(4)
(5)
(6)
式中:Tp——正確抽取的事件個(gè)數(shù);
Fp——將負(fù)例事件預(yù)測(cè)為正確事件的個(gè)數(shù);
Fn——將正確事件預(yù)測(cè)為負(fù)例事件(即未抽取出事件)的個(gè)數(shù)。
3個(gè)評(píng)價(jià)指標(biāo)數(shù)值越高,代表模型性能越好。
本實(shí)驗(yàn)環(huán)境配置為Ubuntu18.04.5的Linux操作系統(tǒng),GPU為Tesla K80。實(shí)驗(yàn)中batch_size設(shè)置為16,epochs為10,采用adam作為優(yōu)化器,ALBERT模型編碼向量為128,隱藏層的大小為1 024,學(xué)習(xí)率為1×10-3。
實(shí)驗(yàn)采用DuEE數(shù)據(jù)集進(jìn)行事件抽取的訓(xùn)練,多輪訓(xùn)練后在對(duì)應(yīng)測(cè)試集上進(jìn)行測(cè)試。以事件抽取的時(shí)間、地點(diǎn)、觸發(fā)詞和論元為評(píng)測(cè)對(duì)象,實(shí)驗(yàn)結(jié)果如表1所示。
表1 事件抽取模型實(shí)驗(yàn)結(jié)果Table 1 Experiment results of Event Extraction model
從表1可以看出,事件元素地點(diǎn)F1值最高,其次是觸發(fā)詞和時(shí)間。論元的F1值相對(duì)較低。通過分析數(shù)據(jù)集可以發(fā)現(xiàn),地點(diǎn)和觸發(fā)詞在標(biāo)注集中相對(duì)比較完善和具體,出現(xiàn)次數(shù)較多,而論元在不同的事件中其語法相對(duì)復(fù)雜,且種類豐富多樣,導(dǎo)致論元的F1值偏低。
目前事件抽取模型主要仍以深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)為主。本模型的預(yù)訓(xùn)練模型采用ALBERT,特征抽取采用BiLSTM+CRF完成。為了對(duì)比本模型在事件抽取中的有效性,選擇RoBERT替換ALBERT,特征提取則用循環(huán)神經(jīng)網(wǎng)絡(luò)模型變體BiGRU替換BiLSTM,結(jié)合CRF完成。對(duì)比模型中的RoBERT是BERT到ALBERT發(fā)展過程中的改進(jìn)模型。由于事件抽取過程中對(duì)多個(gè)時(shí)間、地點(diǎn)、觸發(fā)詞和論元進(jìn)行多要素評(píng)價(jià),這里采用個(gè)模型的宏平均值進(jìn)行比較說明。宏平均是對(duì)每個(gè)模型中所有不同類型評(píng)價(jià)要素統(tǒng)計(jì)其指標(biāo),再計(jì)算所有類的算術(shù)平均值。本模型與其他模型在事件抽取中的實(shí)驗(yàn)結(jié)果對(duì)比如表2所示。
表2 不同事件抽取模型實(shí)驗(yàn)結(jié)果對(duì)比Table 2 Comparison of experimental results of different event extraction models
由表2可知,在事件抽取中,特征提取使用BiGRU+CRF的兩個(gè)模型(②和③)其F1值均低于使用BiLSTM+CRF的模型;特征提取為BiLSTM+CRF的模型(①和④)效果更好,究其原因是減少了人為干預(yù),同時(shí)保證模型輸出的標(biāo)簽序列最優(yōu),從而增加準(zhǔn)確率。在預(yù)訓(xùn)練模型RoBERT(①)和ALBERT(④)的模型實(shí)驗(yàn)結(jié)果中,可以看出模型④的準(zhǔn)確率遠(yuǎn)高于模型①,但召回率則是模型①略高于模型④,最終模型④的F1值比模型①高一個(gè)百分點(diǎn)。綜合來看,文中采用的模型④仍然是多個(gè)不同模型中的最優(yōu)算法。
文中提出以訓(xùn)練語言模型ALBERT作為編碼器,通過對(duì)事件句子進(jìn)行標(biāo)注,使用BiLSTM與CRF結(jié)合句子特征提取并獲得最優(yōu)序列的方式完成中文事件抽取模型。文中提出的模型在大規(guī)模中文事件抽取數(shù)據(jù)集DuEE上F1值為85.7%,表明了該方案的有效性。但本模型僅在句子級(jí)別的事件抽取中有較好的效果,下一步需要研究如何將其應(yīng)用到篇章級(jí)文本的事件抽取中。