亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        封閉域深度學(xué)習事件抽取方法研究綜述

        2023-03-10 00:10:24焦磊云靜劉利民鄭博飛袁靜姝
        計算機與生活 2023年3期
        關(guān)鍵詞:模板文獻文本

        焦磊,云靜+,劉利民,鄭博飛,袁靜姝

        1.內(nèi)蒙古工業(yè)大學(xué) 數(shù)據(jù)科學(xué)與應(yīng)用學(xué)院,呼和浩特010080

        2.內(nèi)蒙古自治區(qū)基于大數(shù)據(jù)的軟件服務(wù)工程技術(shù)研究中心,呼和浩特010080

        “事件”是指在某個特定的時間片段和地域范圍內(nèi)發(fā)生的,由一個或多個角色參與,由一個或多個動作組成的一件事情[1]。事件抽取作為自然語言處理(natural language processing,NLP)中的一項重要任務(wù),在許多領(lǐng)域中都有著很高的應(yīng)用價值,給人們帶來了很大的便利。例如,從事件中提取出結(jié)構(gòu)化信息可以填充知識庫,為信息檢索提供有價值的信息,以便進一步進行邏輯推理[2-3]。并且事件抽取也能用于政府公共事務(wù)管理,使相關(guān)人員及時掌握社會熱點事件的爆發(fā)和演變,有助于當局迅速做出反應(yīng)與決策[4-8]。在金融領(lǐng)域,事件抽取還可以幫助公司快速發(fā)現(xiàn)其產(chǎn)品的市場反應(yīng),并將推斷用于風險分析和交易建議[9-11]。在生物醫(yī)學(xué)領(lǐng)域,事件抽取可以用來識別科學(xué)文獻中描述的生物分子(例如基因和蛋白質(zhì))的狀態(tài)變化或多個生物分子之間的相互作用,以了解其性質(zhì)和(或)發(fā)病機制[12]。簡而言之,許多領(lǐng)域都可以從事件抽取技術(shù)和系統(tǒng)的進步中受益。

        傳統(tǒng)的事件抽取方法,需要進行特征設(shè)計,著重構(gòu)建有效的特征來捕獲文本中不同組成成分之間的關(guān)系,來提高事件抽取的性能。而深度學(xué)習事件抽取方法不僅可以自動構(gòu)建語義特征,節(jié)省人工成本,還能自動組合構(gòu)建更高級的語義特征,獲得更加豐富的事件信息。近年來眾多研究者利用深度學(xué)習模型實現(xiàn)事件抽取,取得很多突破性的進展。

        面對眾多的事件抽取方法,文獻[1]較早對事件抽取方法進行歸納整理,為后續(xù)的相關(guān)工作提供了極大的幫助。但該文獻更多是對事件抽取的任務(wù)進行定義,方法總結(jié)較少,對于發(fā)展趨勢的描述較為模糊,存在一定的局限性。而當前調(diào)研文獻的歸納方法較為簡單,只是根據(jù)神經(jīng)網(wǎng)絡(luò)的不同而進行分類,并不能把握其背后的發(fā)展邏輯。本文通過大量調(diào)研,總結(jié)其方法思想,將深度學(xué)習事件抽取方法進行分類并詳細介紹,最后總結(jié)對于事件抽取方法的發(fā)展趨勢。

        1 封閉域事件抽取任務(wù)定義

        事件抽取作為自然語言處理中的一項重要技術(shù),其目標是從新聞文本中提取出該新聞包含事件信息的元素,例如時間、人物、地點等。而封閉域事件抽取則是指事件抽取使用預(yù)定義的事件模式從文本中發(fā)現(xiàn)和提取所需的特定類型的事件并且進行實驗的數(shù)據(jù)已通過人為定義標注,提供了評測的標準。

        ACE 2005 是一個多語言語料庫,新聞數(shù)據(jù)種類及來源較為廣泛,并且由于其任務(wù)定義明確,故其成為事件抽取任務(wù)中最具影響力的標桿。國內(nèi)外的研究大部分都在該數(shù)據(jù)集上進行實驗,此后構(gòu)建的事件抽取數(shù)據(jù)集也大多遵循其事件定義。綜上所述,本文沿用ACE[13]中的術(shù)語定義事件結(jié)構(gòu):

        (1)事件提及:描述事件的短語或句子,包括一個觸發(fā)詞和幾個論元。

        (2)事件觸發(fā)詞:能夠清楚地表達事件發(fā)生的主詞,通常是動詞或名詞。

        (3)事件參數(shù):在事件中充當參與者或具有特定角色的屬性的實體、時間表達式或值。

        (4)參數(shù)角色:指事件參數(shù)與其參與的事件之間的關(guān)系。

        文獻[14]首先提出將ACE 事件抽取任務(wù)分為四個子任務(wù):觸發(fā)詞檢測、事件類型識別、事件參數(shù)檢測和參數(shù)角色識別。例如,在“5 月14 日,據(jù)《印度經(jīng)濟時報》報道,IBM 將裁員300 人,主要集中在軟件服務(wù)部門。”這條新聞中存在“裁員”類型的事件。觸發(fā)詞識別器會首先識別句子中的事件提及并判斷事件類型;接著會提取出這條新聞中與“裁員”事件相關(guān)的事件參數(shù)(事件參數(shù)檢測)并根據(jù)預(yù)定義好的事件結(jié)構(gòu)標注出它們各自的參數(shù)角色。如圖1 所示,圖中左邊是ACE 2005 中預(yù)先定義好的事件結(jié)構(gòu),右邊的事件抽取模型代表觸發(fā)詞檢測、事件類型識別、事件參數(shù)檢測和參數(shù)角色識別四個任務(wù),事件抽取模型根據(jù)預(yù)定義事件類型表提取出文本中包含的事件結(jié)構(gòu)。

        圖1 封閉域事件抽取示例Fig.1 Example of closed domain event extraction

        2 基于深度學(xué)習的封閉域事件抽取模型

        近年來,隨著深度學(xué)習的發(fā)展,神經(jīng)網(wǎng)絡(luò)已經(jīng)廣泛地應(yīng)用于自然語言處理任務(wù)中,并且取得了良好的處理效果[15-24]。研究者同樣利用深度學(xué)習方法為事件抽取進行建模,并針對不同的應(yīng)用場景,例如數(shù)據(jù)文本長度、數(shù)據(jù)量等,提出了不同的解決方案。本文根據(jù)不同的應(yīng)用場景,將深度學(xué)習事件抽取方法分為句子級、篇章級、低資源事件抽取方法三大類,并對類別中的經(jīng)典方法進行詳細介紹。

        2.1 句子級事件抽取

        在句子級事件抽取研究中,根據(jù)子任務(wù)之間的相關(guān)性,研究者將事件抽取模型分為以下兩個模塊:

        (1)事件檢測模塊:識別句子中的觸發(fā)詞并判斷事件類型。事件檢測模塊一般包含特征提取層和分類層。特征提取層用來捕獲文本中包含的高級語義信息,分類層則對文本中的每個字/詞進行分類。最后根據(jù)分類結(jié)果識別觸發(fā)詞,完成事件檢測。

        (2)事件參數(shù)提取模塊:識別句子中的實體并判斷參數(shù)角色類型。在網(wǎng)絡(luò)結(jié)構(gòu)上,該模塊與事件檢測模塊類似。但在參數(shù)角色識別時,模塊要根據(jù)事件類型對事件參數(shù)進行分類。因此在構(gòu)建事件參數(shù)提取模塊時,需要導(dǎo)入事件檢測模塊的信息。

        通過以上內(nèi)容,可以看出兩個模塊之間具有較強的依賴關(guān)系。構(gòu)建模塊之間的關(guān)聯(lián)不僅是句子級事件抽取方法的主要挑戰(zhàn),同時也是各個研究工作的不同之處。本文將按照不同的關(guān)聯(lián)方法,對這些句子級事件抽取方法進行分類,并介紹每種分類中的代表性工作。

        2.1.1 基于管道方式的事件抽取方法

        使用深度學(xué)習實現(xiàn)事件抽取的過程中,最初工作者們使用管道(Pipeline)方式的思想實現(xiàn)事件抽取。即將事件抽取任務(wù)分解為一個類似流水線任務(wù),對這兩個模塊分別建模,先識別出事件的類型,然后根據(jù)事件類型對其進行事件參數(shù)提取。圖2 為管道模型的處理流程。

        圖2 管道式事件抽取模型處理流程Fig.2 Pipeline event extraction model flow chart

        而對于神經(jīng)網(wǎng)絡(luò)的選擇上,研究者最先提出使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)進行事件抽取。文獻[25]是最早地將神經(jīng)網(wǎng)絡(luò)應(yīng)用于事件抽取的研究工作之一,該方法基于CNN 進行建模。本文提出了一種動態(tài)多池卷積神經(jīng)網(wǎng)絡(luò)(dynamic multi-pooling convolutional neural networks,DMCNN),該方法通過動態(tài)卷積層分別提取單詞和句子級別的文本特征,從而獲取句子的各個部分的有效信息。DMCNN 的輸入包含三部分:單詞嵌入、位置嵌入以及事件類型嵌入。在事件檢測時,使用DMCNN 對輸入進行卷積提取語義特征后,將單詞級別特征與句子級別特征分別池化獲取信息,最后使用Softmax 分類得到觸發(fā)詞,如果存在觸發(fā)詞,則進行事件參數(shù)提取。在事件參數(shù)提取過程中,本文同樣使用DMCNN進行事件參數(shù)提取。不同的是,在池化過程中,DMCNN 會對觸發(fā)詞以及候選的事件參數(shù)以及句子級別特征分別池化再進行分類。

        此外也有一些工作者提出了基于CNN 改進的模型[26-29]。例如,文獻[27]設(shè)計了一個語義增強的模型Dual-CNN(dual-representation convolutional neural network),它在傳統(tǒng)的CNN 中增加了語義層來捕捉上下文信息。文獻[28]提出了一種改進的CNN 模型PMCNN(Parallel multi-pooling convolutional neural networks)用于生物醫(yī)學(xué)事件抽取。在獲取文本深層表達特征時,PMCNN 會并行執(zhí)行不同大小的濾波器,在不同的細粒度上對文本特征進行卷積操作,因此它可以捕獲句子的組合語義特征。此外PMCNN 還利用基于依存關(guān)系的嵌入來表示單詞的語義和句法表示,并采用校正的線性單元作為非線性函數(shù)。文獻[29]使用自舉(bootstrapping)的方法構(gòu)建了全局上下文的表示,并將這種表示集成到CNN 事件抽取模型中。

        但對上述使用CNN 的模型來說,因為CNN 會對連續(xù)的單詞執(zhí)行卷積操作,獲取當前單詞與其相鄰單詞的上下文關(guān)系,所以它們不能很好地捕捉到距離較遠的兩個單詞之間潛在的相互依賴關(guān)系。而深度學(xué)習中的另一種經(jīng)典神經(jīng)網(wǎng)絡(luò)——循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)可以利用直接或間接連接的任何兩個單詞之間的潛在依賴關(guān)系,這使得它能夠廣泛應(yīng)用于許多自然語言處理任務(wù)[30],因此一些研究人員使用RNN 或者CNN+RNN 來進行事件抽取。文獻[31]提出了一種方法,首先使用RNN 來獲取文本在時序上的句子特征,然后使用了一個卷積層對文本進行卷積操作以獲取短語級別的文本信息,最后將這兩種特征信息融合后進行事件抽取。表1 總結(jié)了上述方法的貢獻及其缺陷不足。

        表1 基于管道模型的事件抽取方法總結(jié)Table 1 Summary of event extraction methods based on pipeline model

        2.1.2 基于聯(lián)合方式的事件抽取方法

        基于聯(lián)合方式的事件抽取方法就是利用觸發(fā)詞與事件參數(shù)之間的關(guān)系,為兩個模塊構(gòu)建依賴關(guān)聯(lián),使得兩個模塊可以進行信息交互,達到抽取性能的提升。如圖3 所示,聯(lián)合模型利用觸發(fā)詞與事件參數(shù)之間的關(guān)聯(lián)性為兩個子任務(wù)構(gòu)建依賴關(guān)系。文獻[32]為事件抽取設(shè)計了一個雙向循環(huán)神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)(joint event extraction via recurrent neural networks,JRNN),該模型由雙向循環(huán)神經(jīng)網(wǎng)絡(luò)組成,每個循環(huán)神經(jīng)網(wǎng)絡(luò)都由門控神經(jīng)單元(gated recurrent unit,GRU)[33]構(gòu)成。同時,為了構(gòu)建兩個模塊之間的依賴關(guān)系,文獻[32]利用記憶矩陣保存三種依賴信息:(1)觸發(fā)詞類型之間的依賴信息;(2)事件參數(shù)之間的依賴信息;(3)觸發(fā)詞和事件參數(shù)之間的依賴信息。該方法的聯(lián)合提取階段包括兩部分:編碼部分和預(yù)測部分。在編碼部分,利用JRNN 捕獲語義特征。在預(yù)測部分,在聯(lián)合抽取時,先進行事件類型檢測,然后將提取出的觸發(fā)詞也當作事件參數(shù)提取模塊輸入的一部分進行分類。最后對記憶矩陣進行更新,完成聯(lián)合抽取過程。除此之外,句子中單詞之間的關(guān)系也可以用來擴充基本的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。例如,文獻[34]通過將兩個神經(jīng)元的句法依賴連接添加到模型中,設(shè)計了一個dbRNN(dependency-bridgeRNN)。除了使用依賴橋之外,句子的句法依賴樹也可以直接用來構(gòu)建樹結(jié)構(gòu)的循環(huán)神經(jīng)網(wǎng)絡(luò)[35]。在經(jīng)典的Bi-LSTM(bi-directional long short-term memory)的基礎(chǔ)上,文獻[36]通過轉(zhuǎn)換用于中文事件檢測的句法依賴分析器的原始依賴樹進一步構(gòu)建了以目標詞為中心的依賴樹。文獻[37]提出用外部實體本體知識進一步擴充依賴樹,用于生物醫(yī)學(xué)事件抽取。文獻[38]通過引入抽象語義表示(abstract meaning representation)圖[39]來減少長依賴,同時使用了圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)[40-42]來對其建模。在輸入層使用Bi-LSTM 對文本序列、詞性嵌入、實體標簽以及位置信息進行編碼,然后使用圖卷積網(wǎng)絡(luò)進行句法信息特征提取。在聯(lián)合抽取中使用的方法大體與JRNN 類似,不同的是,在觸發(fā)詞識別模塊中使用自注意力機制來提升提取觸發(fā)詞的性能,然后將觸發(fā)詞和特征序列拼接作為事件參數(shù)提取模塊的輸入進行分類判斷,損失函數(shù)使用聯(lián)合負對數(shù)似然損失函數(shù)。雖然基于聯(lián)合模型的事件抽取方法將子任務(wù)之間的關(guān)系連接起來減少傳播誤差,但與此同時也產(chǎn)生了訓(xùn)練困難、遷移性較差等問題。表2 總結(jié)了基于聯(lián)合方式的事件抽取方法的貢獻及不足。

        表2 基于聯(lián)合模型的事件抽取方法總結(jié)Table 2 Summary of event extraction methods based on joint model

        圖3 聯(lián)合模型框架圖Fig.3 Framework diagram of joint model

        2.1.3 基于端到端的事件抽取方法

        采用端到端(end-to-end)的思想構(gòu)建網(wǎng)絡(luò)模型,以純文本作為輸入,以事件結(jié)構(gòu)作為輸出。相較于上述兩種事件抽取方法,端到端的事件抽取方法模型不再對某一任務(wù)單獨設(shè)計模塊,省去在每個任務(wù)執(zhí)行前將數(shù)據(jù)重新標注輸入的過程,達到簡化模型和減少誤差傳播的效果。此外,得益于預(yù)訓(xùn)練語言模型(ELMO[43]、BERT[44]等)強大的語言表征和特征提取能力,研究者可以從閱讀理解、文本生成等不同的角度重新審視事件抽取的任務(wù)結(jié)果,使得事件抽取的發(fā)展進入了一個新的階段。本文從以下三種類型介紹基于端到端的事件抽取方法。

        (1)基于序列標注的事件抽取方法

        序列標注(sequence labeling)方法就是利用模型對文本序列中的每個位置標注一個相應(yīng)的標簽,在NER 中有著廣泛的應(yīng)用[15]。而在事件抽取中,事件參數(shù)本質(zhì)就是一個在特定類型事件下扮演相應(yīng)角色的實體。如圖4 所示[45],當句子輸入模型后,BERT 捕獲句子中的語義特征并進行序列標注,然后使用CRF條件隨機場(conditional random field,CRF)層約束生成的標簽,最終得到每個實體的標注結(jié)果。這種方式簡化了事件抽取,并且取得了不錯的效果。但是面對事件抽取中角色重疊、同義消除等問題,還具有一定挑戰(zhàn)性。

        圖4 BERT+CRF 實現(xiàn)事件抽取Fig.4 BERT+CRF for event extraction

        針對角色重疊問題,文獻[46]提出了一種基于預(yù)訓(xùn)練語言模型的多層標簽指針網(wǎng)絡(luò)(pre-trained language model based multi-layer label pointer-net,BMPN)。BMPN 在進行序列標注時,每個事件參數(shù)的起始位置都由一個頭指針(start)和尾指針(end)組成的二分類網(wǎng)絡(luò)確定,同時疊加多則二分類網(wǎng)絡(luò),便可以解決角色重疊問題。表3 總結(jié)了基于序列標注的事件抽取方法的貢獻及不足。

        表3 基于序列標注的事件抽取方法總結(jié)Table 3 Summary of event extraction methods based on sequence labeling

        (2)基于機器閱讀理解的事件抽取方法

        基于機器閱讀理解(machine reading comprehension,MRC)的事件抽取方法通過定義問題引導(dǎo)模型在文中找到答案。相較于以往的工作,MRC 方法并不依賴實體識別。另外,在不同的事件中,事件參數(shù)可能含有相同的語義相似性。通過MRC 方式能使模型更好地學(xué)習到不同事件參數(shù)之間的語義相似性,從而提高模型的泛化能力。

        文獻[47]是第一個基于MRC 的事件抽取方法。圖5 為文獻[47]的模型結(jié)構(gòu)圖,整體模型分為觸發(fā)詞識別和事件參數(shù)抽取兩個階段,觸發(fā)詞抽取和論元抽取均設(shè)置了問題模板。第一階段,利用預(yù)先設(shè)定的觸發(fā)詞問題模板,識別文本中的觸發(fā)詞;第二階段,利用預(yù)先設(shè)定的參數(shù)模板識別事件參數(shù)。文中設(shè)計了三種抽取模板:針對觸發(fā)詞抽取階段的問題模板,作者直接將觸發(fā)詞設(shè)計為問題(question);對于事件參數(shù)抽取,根據(jù)事件參數(shù)的不同類型進行提問,例“who for person”“where for place”等;最后一個問題模板則是針對觸發(fā)詞與事件參數(shù)之間的關(guān)系進行設(shè)計,例如“[who for person] is the [argument] in[trigger]?”。三個模板逐層遞進,充分利用語義信息。而文獻[48]針對問題模板定義過于復(fù)雜的問題,提出了一種更加抽象的定義方法,將參數(shù)模板定義為“Person-based”“Normal”“Place-based”三類。表4為基于MRC 的事件抽取方法的貢獻及不足。

        圖5 基于MRC 的事件抽取方法Fig.5 Event ExtractionbyMRC

        表4 基于MRC 的事件抽取方法總結(jié)Table 4 Summary of event extraction methods based on MRC

        (3)基于模板提示的事件抽取方法

        采用基于模板提示的方法,就是在模板的指導(dǎo)下進行事件的識別和抽取,模型從文本里找到“答案”并填充到問題模板中,屬于序列生成任務(wù)。與MRC 的事件抽取方法類似,該方法并不依賴實體識別,同樣具有較強的遷移性。但不同之處在于,基于模板提示的方法直接針對不同的事件類型構(gòu)建模板,不需要對觸發(fā)詞以及事件參數(shù)單獨構(gòu)建,減少了額外的人工操作。

        基于模板提示的事件抽取方法遵循序列生成任務(wù)中的Seq2Seq 方法,如圖6 所示,模型將給定輸入序列編碼為隱藏狀態(tài),利用解碼器將該隱藏狀態(tài)解碼為另一個序列并輸出。文獻[49]提出了一個基于模板提示的事件參數(shù)識別模型。該模型架構(gòu)使用了預(yù)訓(xùn)練語言模型BART[50]、T5[51]。在進行事件參數(shù)抽取時,首先將模板和文本拼接輸入到BART 編碼器,然后編碼器對模板中各個參數(shù)占位符進行信息交互,同時生成文本編碼。最后BART 解碼器根據(jù)文本編碼中的詞匯輸出模板中的占位符生成對應(yīng)的具體內(nèi)容,完成事件抽取。文獻[52]利用不同粒度的模板信息,構(gòu)建了一個通用信息抽?。╱niversal information extraction,UIE)模型。該模型設(shè)計了一種結(jié)構(gòu)化模板,能夠同時實現(xiàn)關(guān)系抽取、事件抽取等四種信息抽取任務(wù)。

        圖6 基于模板的事件抽取方法Fig.6 Event extraction method based on template

        面對上述方法中人工構(gòu)建的問題模板,文獻[53]認為,人工構(gòu)建的模板不一定最優(yōu),并且在抽取時只考慮當前事件類型,忽略了其他事件之間的聯(lián)系。故文獻[53]利用Prefix-Tuning(在保持模型參數(shù)固定的情況下,只對特定任務(wù)向量優(yōu)化)方法融合上下文及特定事件類型信息的動態(tài)前綴,解決上述存在的問題。文獻[54]研究了在抽取設(shè)置下的提示調(diào)優(yōu),并提出了一種新的方法實現(xiàn)論元抽取的參數(shù)交互。它擴展了基于問答的模型來處理多個參數(shù)抽取并利用了預(yù)訓(xùn)練模型的優(yōu)勢。該文獻提出了三種類型模板:人工模板、融合模板和軟提示模板。使得模型在句子和文檔層面都具有不錯的表現(xiàn),并且簡化了模板提示式設(shè)計的要求。表5 總結(jié)了基于模板提示的事件抽取方法的貢獻及不足。

        表5 基于模板提示的事件抽取方法總結(jié)Table 5 Summary of event extraction methods based on template

        2.2 篇章級事件抽取方法

        篇章級事件抽取方法是在文檔層面進行事件抽取,更加貼近現(xiàn)實世界中的實際需要。由于文檔由多條語句組成,包含更加復(fù)雜的全局語義特征。相較于句子級事件抽取方法,篇章級事件抽取方法不能單獨依靠觸發(fā)詞識別事件,還需考慮不同句子的語義信息。除此之外,文檔中待抽取的事件參數(shù)較為分散,如何讓篇章級事件抽取方法準確識別事件參數(shù)是一個亟需解決的問題。

        傳統(tǒng)的句子級事件抽取一般分為觸發(fā)詞識別和事件參數(shù)提取兩個過程,而文獻[55]認為事件抽取的目標是識別事件類型并提取事件參數(shù),而觸發(fā)詞只是這個任務(wù)的中間結(jié)果。并且在現(xiàn)實中,一類事件可能有多個觸發(fā)詞,若對數(shù)據(jù)進行觸發(fā)詞標注會消耗大量的人工成本。故基于無觸發(fā)詞的篇章級事件抽取方法成為主要的研究方法。

        文獻[56]提出了一個基于無觸發(fā)詞設(shè)計的篇章級別事件抽取模型Doc2EDAG。該模型的核心思想是將文檔級別的事件表填充任務(wù)(document-level event table filling,DEE)轉(zhuǎn)化為基于實體的有向無環(huán)圖的路徑擴展任務(wù)(entity-based directed acyclic graph,EDAG)。Doc2EDAG 首先將文檔級別的文本信息編碼并進行命名實體識別,然后在事件檢測過程中設(shè)計了一種無觸發(fā)詞檢測,利用線性分類器對輸入中可能存在的事件進行事件觸發(fā)檢測;在事件參數(shù)提取過程中,首先識別出每個實體的參數(shù)角色并將相同實體進行融合,然后在事件表填充時,根據(jù)事件參數(shù)提取預(yù)定義的順序,使用有向無環(huán)圖的路徑擴展方法對其進行填充。另外在有向無環(huán)圖路徑擴展中還設(shè)計了一個記憶機制來對每個事件參數(shù)進行標記,以此解決同一事件參數(shù)屬于不同事件類型的問題。圖7為EDAG示意圖。

        圖7 EDAG 示意圖Fig.7 Schematic diagram of EDAG

        除此之外,研究人員也提出了其他的無觸發(fā)詞事件抽取方法[47-48]。針對單事件條件,文獻[47]提出了一個篇章級事件抽取模型ATTDEE(attention-based document-level event extraction),該模型的主要貢獻在于使用文檔中心句進行事件檢測。該方法認為當一篇文檔中包含一個事件時,總是存在一個提及事件發(fā)生且包含了最多關(guān)鍵參數(shù)的事件中心句,其他事件參數(shù)則有規(guī)律地分布在中心句的周圍。而對于關(guān)鍵參數(shù)的定義,文獻[57]采用了詞頻-逆文檔頻率(term frequency-inverse document frequency,TF-IDF)方法,用于判斷事件參數(shù)在文檔中的重要程度。在抽取階段,利用Transformer 根據(jù)事件參數(shù)的重要程度以及與中心句的距離進行抽取,簡化了單事件抽取過程。而在多事件條件下,文獻[58]利用Transformer 進行句子級編碼,同時使用圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)將實體句子之間的關(guān)系連接起來,獲得更加豐富的文檔級語義信息。另外,受到文獻[56]的啟發(fā),該模型設(shè)計了一個追蹤(Tracker)模塊用于多事件填充。Tracker 模塊按照預(yù)定義事件參數(shù)順序,利用約束擴展樹的方式進行路徑擴展,并持續(xù)跟蹤事件提取記錄,在進行事件抽取時查詢?nèi)钟洃?,利用其他記錄的相互依賴信息,預(yù)測參數(shù)角色,從而提升模型的性能。表6 總結(jié)了基于無觸發(fā)詞的事件抽取方法的貢獻及不足。

        表6 篇章級事件抽取方法總結(jié)Table 6 Summary of document-level event extraction methods

        2.3 低資源事件抽取方法

        由于深度學(xué)習方法需要調(diào)整神經(jīng)網(wǎng)絡(luò)中的大量參數(shù),通常數(shù)據(jù)集越大,標注質(zhì)量越好,模型的效果就越好。然而,數(shù)據(jù)集的標注是一項巨大的工作量,需要消耗大量的成本,因此許多的數(shù)據(jù)集標注規(guī)模并不大,存在覆蓋領(lǐng)域小、標注質(zhì)量差的問題。近年來,針對低資源下事件抽取效果差的問題,研究者提出利用小樣本學(xué)習[59-60]、引入外部知識[61-63]等方法,來提升事件抽取模型的性能。

        2.3.1 小樣本事件抽取方法

        小樣本學(xué)習(few-shot learning,F(xiàn)SL)與傳統(tǒng)監(jiān)督學(xué)習不同,其思想是讓模型學(xué)習不同類別之間的差異性,從而獲得區(qū)分不同類別的能力。面對數(shù)據(jù)較少、樣本分布稀疏等問題,小樣本學(xué)習可以有效提高模型的識別性能和泛化能力。在事件抽取的研究中,研究者也提出了一些小樣本學(xué)習方法,它們的一般過程為:使用訓(xùn)練集預(yù)訓(xùn)練一個相似判斷網(wǎng)絡(luò),讓其學(xué)習到不同事件類型之間的差異性。然后利用支持集提供的少量樣本對網(wǎng)絡(luò)進行微調(diào),并為標簽信息生成特征向量。最后在預(yù)測階段,輸入一個查詢文本,模型生成對應(yīng)的特征向量,將這個向量與標簽向量進行比較,得到最終的分類結(jié)果。

        目前小樣本學(xué)習采用K-WayN-Shot(支持集中有K類,每類有N個樣本)的采樣方法。當N值較小時,模型可利用信息不充分,容易產(chǎn)生樣本偏差問題。文獻[59]提出了一種小樣本事件檢測方法,該方法利用動態(tài)神經(jīng)網(wǎng)絡(luò)(dynamic memory networks,DMN)進行建模。使用DMN 多次從事件提及中提取上下文信息,從而讓模型學(xué)習更好的類型表示。面對同樣的問題,文獻[60]認為,此前的方法僅僅依賴查詢實例與支持集之間的相似信息,并沒有考慮支持集中的樣本類別信息。為此,文獻[60]在訓(xùn)練函數(shù)中加入類間和類內(nèi)損失,以此進一步增強模型的類型表示能力。

        2.3.2 引入外部知識的事件抽取方法

        目前研究使用的數(shù)據(jù)集大多存在數(shù)據(jù)規(guī)模小、類型分布不均的問題,這些問題會造成模型在稀疏的數(shù)據(jù)上訓(xùn)練較差,而在密集的數(shù)據(jù)上過擬合。對此,研究者提出利用大型知識庫擴展訓(xùn)練數(shù)據(jù),從而提升模型識別性能[61-63]。

        文獻[61]認為,F(xiàn)rameNet 知識庫包含大量的文本框架,每個文本框架由一個詞匯單元(lexical unit)和多個框架元素(frame elements)構(gòu)成,該結(jié)構(gòu)與ACE 2005數(shù)據(jù)集中定義的事件結(jié)構(gòu)十分類似。因此,文獻[61]提出一種將FrameNet 的文本框架映射為ACE 事件結(jié)構(gòu)的方法。首先,使用ACE 2005 數(shù)據(jù)集訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)模型;然后,使用該模型對FrameNet 的句子進行類型識別,得到初始分類結(jié)果;最后,根據(jù)預(yù)先設(shè)計的假設(shè)對初始分類結(jié)果進行修正,得到擴展數(shù)據(jù)。

        文獻[62]提出利用遠程監(jiān)督[20]的方法對訓(xùn)練語料進行自動標注。該方法首先利用Freebase 挑選出每個事件類型中的關(guān)鍵事件參數(shù),再根據(jù)關(guān)鍵事件參數(shù)確定表達事件的觸發(fā)詞。獲得初始觸發(fā)詞集合后,通過詞嵌入技術(shù)將其映射到FrameNet 中,篩選出置信度高的觸發(fā)詞。最后使用一種軟遠程監(jiān)督的方法重新篩選和標注句子,從而得到自動標注的數(shù)據(jù)。

        針對標記數(shù)據(jù)的長尾問題(即某種事件類型僅有少量的標記數(shù)據(jù)),文獻[63]提出一種利用開放域觸發(fā)詞知識增強模型事件檢測的方法。具體而言,文獻[63]設(shè)計了一個師生(Teacher-Student)模型,首先使用WordNet 收集到的開放域觸發(fā)詞知識訓(xùn)練Teacher模型,然后在Student 模型訓(xùn)練時,使用沒有知識增強的數(shù)據(jù)來模仿Teacher模型的輸出,并利用KL 散度最小化概率分布之間的差異。最后,將Teacher 模型和Student模型進行聯(lián)合優(yōu)化,完成整體模型訓(xùn)練。

        3 封閉域事件抽取數(shù)據(jù)集

        本章介紹封閉域事件抽取任務(wù)的數(shù)據(jù)資源。隨著研究的發(fā)展,許多研究機構(gòu)為事件抽取任務(wù)提供了數(shù)據(jù)支持,根據(jù)任務(wù)定義對數(shù)據(jù)進行人工標注,將其用于監(jiān)督學(xué)習下的神經(jīng)網(wǎng)絡(luò)訓(xùn)練和測試中;數(shù)據(jù)標注一般由具有專業(yè)領(lǐng)域知識的人員完成,標注后的數(shù)據(jù)標簽可以認為是真實有效的。但是此種標注方法存在標注過程復(fù)雜、成本高昂的問題,導(dǎo)致許多公共數(shù)據(jù)集的規(guī)模以及覆蓋性不高。

        由于數(shù)據(jù)的來源有多種方式,并且需要盡可能貼近現(xiàn)實,在原始數(shù)據(jù)收集時,在收集數(shù)據(jù)時會進行數(shù)據(jù)分析,對于獲取到的原始數(shù)據(jù)進行主題分類,得到這些數(shù)據(jù)的事件類型,例如人生、事故、組織行為等。然后針對以上每種事件類型的數(shù)據(jù),會對其進行下一步的數(shù)據(jù)分析(關(guān)鍵詞分析等),得到事件子類型以及定義事件架構(gòu),最終對每條數(shù)據(jù)按照標準進行標注,得到可用的數(shù)據(jù)。

        3.1 ACE 2005 數(shù)據(jù)集

        ACE 2005 數(shù)據(jù)集[13]是語言數(shù)據(jù)聯(lián)盟(LDC)于2005 年發(fā)布的,ACE 2005 數(shù)據(jù)集定義了8 種事件類型和33 種子類型,為每一種子類型的事件構(gòu)造了一種事件結(jié)構(gòu),其中的參數(shù)角色也不盡相同,所有事件子類型的事件參數(shù)角色總共有36 種。表7 羅列出了ACE 2005 數(shù)據(jù)集中的每種事件類型及其包含的子類型事件。ACE 2005 數(shù)據(jù)集是從新聞專線、廣播新聞、廣播對話、博客、新聞組、對話式電話語音6 種媒體收集而成,包括中文、英語、阿拉伯語3 種語言,共標注了599 個文檔和大約6 000 個事件。表8 提供了它們的數(shù)據(jù)來源統(tǒng)計。

        表7 ACE 2005 數(shù)據(jù)集的事件類型及其子類型Table 7 Event types and subtypes of ACE 2005 dataset

        表8 ACE 2005 數(shù)據(jù)集的數(shù)據(jù)來源Table 8 Data source of ACE 2005 dataset 單位:%

        3.2 TAC-KBP 數(shù)據(jù)集

        TAC-KBP 2015 數(shù)據(jù)集[64]由LDC提供,用 于TAC-KBP 2015 事件跟蹤比賽,數(shù)據(jù)從新聞文章和論壇中收集而成,共有360 個標注文檔,其中158 個文檔作為先前訓(xùn)練集,202 個文檔作為比賽正式評估的測試集。參考ACE 2005 數(shù)據(jù)集,TAC-KBP 2015 數(shù)據(jù)集定義了9 種事件類型和38 個子類型事件。在TAC-KBP 2015 數(shù)據(jù)集只有英文一種語言的數(shù)據(jù),但在TAC-KBP 2016 比賽提供的數(shù)據(jù)集中增加了中文和西班牙語數(shù)據(jù)集。

        3.3 DUEE1.0 數(shù)據(jù)集

        DUEE1.0 數(shù)據(jù)集[45]由百度公司標注,用于2020語言與智能技術(shù)競賽事件抽取比賽當中。DUEE1.0數(shù)據(jù)集是目前公開的規(guī)模最大的句子級別的中文事件抽取數(shù)據(jù)集。DUEE1.0 數(shù)據(jù)集由19 640 個事件組成,包含65 個事件類型的1.7 萬個具有事件信息的句子。數(shù)據(jù)從百度信息流資訊中收集而成,相對于ACE 2005、TAC-KBP 數(shù)據(jù)集,DUEE1.0 中收集的中文事件包含很多新時代網(wǎng)絡(luò)用語,事件文本語法有著很高的自由度,事件抽取的難度也更大。該任務(wù)也接近于現(xiàn)實場景,例如,單個實例被允許包含多個事件,不同的事件被允許共享相同的參數(shù)角色,并且一個事件參數(shù)在不同的事件中被允許扮演不同的參數(shù)角色。

        3.4 特定領(lǐng)域數(shù)據(jù)集

        上述3 種數(shù)據(jù)集都是公共領(lǐng)域,包含不同的類型的新聞文本。而對于一些特定領(lǐng)域,因其含有大量專業(yè)名詞,所以需要對這些特殊領(lǐng)域進行單獨收集數(shù)據(jù)并標注,以提供更加可靠的數(shù)據(jù)支撐。

        3.4.1 生物事件數(shù)據(jù)集

        BioNLP(BioNLP-ST)生物文本挖掘比賽,其目的是為了從生物醫(yī)學(xué)領(lǐng)域的科學(xué)文獻中提取細粒度的生物分子事件。該比賽提供了多個由專業(yè)領(lǐng)域人員標注的生物事件數(shù)據(jù)集,例如Genia 數(shù)據(jù)集[65]、BioInfer數(shù)據(jù)集[66]。

        3.4.2 金融領(lǐng)域事件數(shù)據(jù)集

        針對金融領(lǐng)域事件,文獻[56]使用遠程監(jiān)督算法[20]構(gòu)建了一個大型的文檔級別金融領(lǐng)域事件抽取數(shù)據(jù)集ChFinAnn,共有32 040 個標注文檔,其中包含5 種金融事件類型。數(shù)據(jù)來源于2008—2018 年共10 年的中國金融事件新聞。表9 提供該數(shù)據(jù)集的事件類型及其事件參數(shù)類型。

        表9 ChFinAnn 數(shù)據(jù)集的事件類型及事件參數(shù)類型Table 9 Event types and event parameters of ChFinAnn dataset

        DUEE_fin 數(shù)據(jù)集[45]:由百度公司標注,用于2020語言與智能技術(shù)競賽事件抽取比賽當中。該數(shù)據(jù)集含有1.17 萬篇新聞,共標注了13 個事件類型及其對應(yīng)的92 個論元角色類別。

        4 事件抽取性能比較

        上述這些神經(jīng)網(wǎng)絡(luò)模型在不同的語料庫上進行了實驗,不太可能對它們進行公平的比較。本章主要將這些方法在不同數(shù)據(jù)集上的結(jié)果進行展示。

        觸發(fā)詞識別(trigger detection,TD):識別出觸發(fā)詞在文本中的位置。

        事件類型識別(trigger identification,TI):識別出觸發(fā)詞的事件類型與設(shè)定中的事件類型是否一致。

        參數(shù)識別(argument detection,AD):事件參數(shù)是否被正確識別。

        事件參數(shù)類型識別(argument identification,AI):事件參數(shù)類型被正確識別。

        4.1 ACE 2005 數(shù)據(jù)集實驗結(jié)果

        表10、表11 分別給出了在ACE 2005 數(shù)據(jù)集下中文和英文數(shù)據(jù)集中不同方法報告的事件提取結(jié)果,判斷指標為F1 分數(shù)。F1 分數(shù)是統(tǒng)計學(xué)中用來衡量二分類模型精確度的一種指標,兼顧召回率和精度。TP為真陽性(true positive),F(xiàn)N為假陰性(false negative),F(xiàn)P為假陽性(false positive)。

        通過表10、表11 中結(jié)果可知,針對英文的事件抽取方法在數(shù)量方面要比中文多,同時性能也比中文好。造成該結(jié)果的原因在于:一方面,由于事件抽取任務(wù)提出與研究國外都比國內(nèi)早,中文數(shù)據(jù)集的缺少以及標注質(zhì)量不高,大多數(shù)研究者比較集中于英文事件抽?。涣硪环矫?,由于中文與英文語法存在巨大差別,英文的句法結(jié)構(gòu)相對固定,在抽取過程中較中文更容易捕獲文本特征。雖然近年來例如中文分詞、句法分析等底層子任務(wù)的發(fā)展迅速,但中文沒有顯式分隔,在分詞時會產(chǎn)生一定的誤差,對觸發(fā)詞的判定造成影響。

        表10 在ACE 2005 中文數(shù)據(jù)集上的事件抽取性能比較Table 10 Performance comparison of Chinese event extraction on ACE 2005 dataset

        表11 在ACE 2005 英文數(shù)據(jù)集上的事件抽取性能比較Table 11 Performance comparison of English event extraction on ACE 2005 dataset

        此外,通過實驗結(jié)果可以看到,基于MRC 和模板提示的事件抽取方法[51-58]的性能較之傳統(tǒng)的方法性能并沒有明顯提高,甚至某些方法的性能還有下降。主要原因在于這兩類方法都需要人工定義問題模板,模型的性能很大程度受到人工模板的影響。在后續(xù)的研究中,解決人工模板帶來的誤差問題,提升模板質(zhì)量將是提升這兩類方法性能的關(guān)鍵所在。

        4.2 其他數(shù)據(jù)集實驗結(jié)果

        表12和表13分別展示了在ChFinAnn和DUEE1.0數(shù)據(jù)集下的不同方法的抽取結(jié)果[46-50]。根據(jù)結(jié)果可以看到,相較于ACE 2005 數(shù)據(jù)集,在ChFinAnn 和DUEE1.0 數(shù)據(jù)集實驗的方法整體性能要更好。原因在于,這兩個數(shù)據(jù)集的數(shù)據(jù)標注質(zhì)量較好,且數(shù)據(jù)量大。另外ChFinAnn 數(shù)據(jù)集屬于金融領(lǐng)域數(shù)據(jù)集,事件類型少,文本語法結(jié)構(gòu)化較為固定。

        表12 在DUEE1.0 數(shù)據(jù)集上的事件抽取性能比較Table 12 Performance comparison of event extraction on DUEE1.0 dataset

        表13 在ChFinAnn 數(shù)據(jù)集上的事件抽取性能比較Table 13 Performance comparison of event extraction on ChFinAnn dataset

        通過上述分析,可以發(fā)現(xiàn)對于監(jiān)督學(xué)習下的事件抽取模型,標注的數(shù)據(jù)越多,文本中包含的事件參數(shù)越完整,模型就能學(xué)習到更多的文本語義信息,模型的性能就會越好。

        5 未來展望

        事件抽取是自然語言處理中的一項重要任務(wù),由于其廣泛的應(yīng)用,事件抽取已經(jīng)得到了廣泛的重視,近年來深度學(xué)習等許多新技術(shù)的快速發(fā)展,使得事件抽取這項任務(wù)得到了深入的研究。但目前封閉域事件抽取最大的困難和挑戰(zhàn)有以下方面:

        (1)由于自然語言的靈活性強,復(fù)雜性高,文本轉(zhuǎn)換為詞嵌入時會造成一些信息的丟失,造成事件抽取方法性能下降。雖然有大量的研究人員利用各種方式對文本詞嵌入信息進行補充,但這些方法大多基于假設(shè)或特定場景,存在一定的局限性,故語義信息丟失問題仍需探究。

        (2)數(shù)據(jù)集有待進一步完善?,F(xiàn)有的數(shù)據(jù)集存在覆蓋領(lǐng)域小、包含的事件數(shù)量較少、事件信息較為簡單以及整體數(shù)據(jù)集的規(guī)模不大等問題。而基于深度學(xué)習的事件抽取方法非常依賴于大量的、貼近現(xiàn)實的標注數(shù)據(jù)進行訓(xùn)練,因此導(dǎo)致事件抽取效果還不夠理想。

        (3)現(xiàn)有方法大多集中于句子級別的事件抽取,由于這些方法對于捕獲文本上下文之間的信息能力不強,在面對角色共享以及共指消解(即同一實體的不同表達)等實際問題時,不能很好地解決上述問題,因此當前的事件抽取方法并不能滿足現(xiàn)實生活中對于長新聞文本分析的需要。除此之外,事件抽取對于實體識別、關(guān)系抽取等底層任務(wù)的依賴性很高,這些底層任務(wù)出現(xiàn)誤差時會給事件抽取帶來級聯(lián)錯誤,影響抽取性能。

        雖然存在諸多挑戰(zhàn),但隨著事件抽取受到更多的關(guān)注以及技術(shù)的發(fā)展,這些困難也會逐漸攻克,未來發(fā)展趨勢如下:

        (1)隨著大規(guī)模預(yù)訓(xùn)練語言模型的發(fā)展,利用海量數(shù)據(jù)進行預(yù)訓(xùn)練得到的詞嵌入擁有更多的信息,將預(yù)訓(xùn)練語言模型應(yīng)用到事件抽取上也逐漸受到更多學(xué)者的關(guān)注。

        (2)針對數(shù)據(jù)集缺少的情況,現(xiàn)有的大型知識庫例如FrameNet、Freebase、Wikipedia、WordNet 含有豐富的知識,在當前的研究中已經(jīng)有學(xué)者使用遠程監(jiān)督,利用知識庫構(gòu)建了大型的數(shù)據(jù)集。故利用知識庫的豐富信息提升事件抽取的性能也將會成為研究的熱點。

        (3)隨著研究的深入,利用閱讀理解、序列生成的方式可以避免對于實體識別等技術(shù)的依賴。這些方法將大大促進文檔級事件抽取的發(fā)展,吸引著更多學(xué)者的探索。

        6 結(jié)束語

        作為自然語言處理的重要任務(wù)之一,事件抽取為智慧問答、信息檢索等基于知識驅(qū)動的下游任務(wù)提供了重要支撐。本文首先對封閉域事件抽取的任務(wù)定義,然后分析、對比不同的深度學(xué)習事件抽取方法,列舉當前的數(shù)據(jù)支撐,最后總結(jié)出當前深度學(xué)習事件抽取方法存在的困難。在未來,使用大型數(shù)據(jù)庫補充數(shù)據(jù),對于預(yù)訓(xùn)練語言模型給予更多關(guān)注,提升特征獲取的方式,使其能夠處理更長的文本,將是事件抽取的重要研究方向。

        猜你喜歡
        模板文獻文本
        鋁模板在高層建筑施工中的應(yīng)用
        鋁模板在高層建筑施工中的應(yīng)用
        Hostile takeovers in China and Japan
        速讀·下旬(2021年11期)2021-10-12 01:10:43
        在808DA上文本顯示的改善
        Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
        大東方(2019年12期)2019-10-20 13:12:49
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
        The Role and Significant of Professional Ethics in Accounting and Auditing
        商情(2017年1期)2017-03-22 16:56:36
        鋁模板在高層建筑施工中的應(yīng)用
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        亚洲av乱码中文一区二区三区| 国产av一级片在线观看| 中国孕妇变态孕交xxxx| 亚洲av成人无码网站大全| 男男受被攻做哭娇喘声视频| 亚洲成a人片在线网站| 久久一日本道色综合久久大香| 黄片亚洲精品在线观看| 激情综合五月婷婷久久| 国语精品一区二区三区| 四虎影视在线观看2413| 国产盗摄XXXX视频XXXX| 国产精品99久久不卡二区| 国产毛片视频一区二区三区在线| 国产精品麻豆va在线播放| 亚洲精品久久久久久久久久吃药| 水蜜桃亚洲一二三四在线| 日韩中文字幕欧美亚洲第一区| 国产av专区一区二区三区| 午夜视频在线观看日本| 日本免费大片一区二区| 精品成人av一区二区三区| 亚洲AV无码一区二区三区ba| 最新亚洲视频一区二区| 久青草影院在线观看国产| 亚洲一区二区三区成人网站| 97色综合| 亚洲av日韩专区在线观看| 成人午夜视频精品一区| 久久亚洲精品无码va大香大香| 欧美洲精品亚洲精品中文字幕| 国产av无毛无遮挡网站| 乱中年女人伦av一区二区| 香蕉视频一级| 亚洲av成人无网码天堂 | 国产成人精品自拍在线观看| 日本精品一区二区三区二人码| 精品少妇一区二区三区免费观| 最新四色米奇影视777在线看| 日本一区二区三区在线播放| 亚洲精品国产综合久久|