亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        限定域中文事件抽取研究綜述

        2022-09-21 05:37:30李華昱畢經(jīng)綸
        關(guān)鍵詞:方法模型

        李華昱,畢經(jīng)綸,閆 陽(yáng)

        中國(guó)石油大學(xué)(華東)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東 青島266580

        近年來,隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,互聯(lián)網(wǎng)上的信息量正以指數(shù)級(jí)別的速度進(jìn)行增長(zhǎng),其中很大一部分信息是以半結(jié)構(gòu)化、非結(jié)構(gòu)化的形式存在的,很難快速地從中獲得有用的信息,因此自動(dòng)化的信息抽取非常關(guān)鍵。信息抽取指的是利用計(jì)算機(jī)把文本、圖像、視頻等這些非結(jié)構(gòu)化信息轉(zhuǎn)化為結(jié)構(gòu)化信息的過程,事件抽取是信息抽取領(lǐng)域的一個(gè)具有挑戰(zhàn)性的任務(wù)。

        事件抽取可分為限定域的事件抽取與開放域的事件抽取。其中限定域的事件抽取指的是在抽取之前,預(yù)先定義好目標(biāo)事件的類別及每種事件類型包含的事件元素,因此針對(duì)某一特定領(lǐng)域,限定域的事件抽取更具有研究?jī)r(jià)值。

        傳統(tǒng)的事件抽取研究一般采用基于模式匹配的方法和基于機(jī)器學(xué)習(xí)的方法,前者需要領(lǐng)域?qū)<以O(shè)計(jì)模板,并且可移植性差,后者則涉及復(fù)雜的特征工程。隨著深度學(xué)習(xí)理論技術(shù)的快速發(fā)展,基于深度學(xué)習(xí)的方法成為了現(xiàn)在的主流方法。本文重點(diǎn)對(duì)基于深度學(xué)習(xí)的方法進(jìn)行介紹?;谏疃葘W(xué)習(xí)的方法往往需要大量的訓(xùn)練語料,但是現(xiàn)在事件抽取的數(shù)據(jù)集往往面臨訓(xùn)練數(shù)據(jù)缺乏的問題,因此本文對(duì)少樣本條件下的事件抽取關(guān)鍵任務(wù)進(jìn)行歸納總結(jié)。中文事件抽取因?yàn)橹形牡恼Z言特性問題,面臨較大挑戰(zhàn),因此需要針對(duì)中文語言特性進(jìn)行深入研究。

        1 任務(wù)定義與面臨的挑戰(zhàn)

        1.1 事件抽取任務(wù)定義

        事件是發(fā)生在某個(gè)特定時(shí)間點(diǎn)或時(shí)間段、某個(gè)特定地域范圍內(nèi),由一個(gè)或者多個(gè)角色參與的一個(gè)或者多個(gè)動(dòng)作組成的事情或者狀態(tài)的改變。根據(jù)ACE(automatic content extraction)的評(píng)測(cè)標(biāo)準(zhǔn)定義,事件是由觸發(fā)詞、事件類型、事件元素及元素角色四個(gè)部分組成的。因此事件抽取可以分解為以下四個(gè)子任務(wù):觸發(fā)詞識(shí)別、事件類型分類、事件元素識(shí)別和元素角色分類。其中觸發(fā)詞識(shí)別,事件類型分類兩個(gè)任務(wù)可以合并為事件檢測(cè)任務(wù),事件元素識(shí)別、元素角色分類兩個(gè)任務(wù)可以合并為事件元素抽取任務(wù)。

        本文用ACE術(shù)語介紹幾個(gè)定義:

        事件提及:描述事件的短語或者句子,包括觸發(fā)詞以及元素。

        事件觸發(fā)詞:最能表達(dá)事件發(fā)生的詞,一般為一個(gè)動(dòng)詞或者名詞。

        事件元素:事件的參與者,主要由實(shí)體、時(shí)間和值組成。

        元素角色:指的是事件元素在某個(gè)事件中扮演的角色。

        例如在圖1中,檢測(cè)到一個(gè)“競(jìng)賽行為-勝負(fù)”事件類型,其觸發(fā)詞為“打敗”,事件元素為“中國(guó)女排”“荷蘭女排”和“世界杯第九輪”。其元素角色分別為“勝者”“敗者”和“賽事名稱”。

        圖1 事件抽取樣例Fig.1 Event extraction example

        1.2 中文事件抽取中面臨的挑戰(zhàn)

        1.2.1 中文詞語與觸發(fā)詞不符問題

        中文有自己的語言特性。不像英文,在中文的一句話中,詞與詞之間沒有明顯的間隔符。如果只是簡(jiǎn)單的判斷一個(gè)單詞是否為觸發(fā)詞不夠準(zhǔn)確,如圖2 所示,Zeng 等人[1]將分詞錯(cuò)誤而造成觸發(fā)詞不能正確識(shí)別總結(jié)為以下兩種情況:

        (1)觸發(fā)詞由多個(gè)詞組成

        一個(gè)觸發(fā)詞是由多個(gè)詞語組成的。如圖2句子(a)中,“比賽結(jié)束”這個(gè)事件的觸發(fā)詞應(yīng)該是“落下帷幕”,而不是“落下”或者“帷幕”。

        (2)觸發(fā)詞含于一個(gè)詞

        一個(gè)詞語中包含了多個(gè)觸發(fā)詞,或者觸發(fā)詞為這個(gè)詞語的一部分。如圖2 句子(b)中,“射殺”這個(gè)詞語中包含了兩個(gè)事件的觸發(fā)詞“射”和“殺”,這兩個(gè)觸發(fā)詞分別對(duì)應(yīng)“射擊”事件和“擊殺”事件。圖2 句子(c)中,詞語“兇殺案”中包含了“謀殺”事件的觸發(fā)詞“兇殺”。

        圖2 中文詞語與觸發(fā)詞不符樣例Fig.2 Examples of inconsistency between Chinese words and trigger words

        1.2.2 觸發(fā)詞歧義問題

        中文事件檢測(cè)除了在觸發(fā)詞識(shí)別階段的錯(cuò)誤,還有在觸發(fā)詞分類時(shí)錯(cuò)誤的問題,因?yàn)橹形脑~語的多義性,存在觸發(fā)詞不能被正確地分類到其所屬類別的可能性。例如,這個(gè)燈泡報(bào)銷了。這句話中的報(bào)銷兩個(gè)字在這個(gè)語境下指的是報(bào)廢的意思,但是報(bào)銷這個(gè)詞匯還有報(bào)賬的意思。所以鑒于以上問題,如何將觸發(fā)詞正確地從句子中抽取并正確地分類是中文事件抽取的難點(diǎn)。

        1.2.3 中文觸發(fā)詞表達(dá)多樣問題

        中文中對(duì)于同一個(gè)事件類型,觸發(fā)詞的表達(dá)方式較多,很多訓(xùn)練集中出現(xiàn)的詞語可能不會(huì)在測(cè)試集中出現(xiàn)。很多學(xué)者如Li 等人[2]針對(duì)這個(gè)問題提出利用中文形態(tài)語義組合學(xué)進(jìn)行事件檢測(cè)。

        中文形態(tài)語義組合學(xué)指的是中文觸發(fā)詞的構(gòu)成有一定的組成規(guī)律,漢語單詞的意義在很大程度上取決于其組成字符的意義。并且大多數(shù)中文觸發(fā)器都有一個(gè)中心字符來表示其事件類型。例如“受了傷”這個(gè)觸發(fā)詞是由一個(gè)動(dòng)詞(受)、一個(gè)副詞(了)、一個(gè)名詞(傷)組成的,并且“傷”這個(gè)中心字符能夠表達(dá)出一個(gè)受傷事件。能夠充分利用這些中文特性或許是提高中文事件抽取系統(tǒng)性能的關(guān)鍵。

        1.2.4 中文句子元素缺失問題

        中文的句子結(jié)構(gòu)較為松散,表達(dá)方式較為靈活。很多時(shí)候會(huì)對(duì)句子的主語、賓語進(jìn)行省略。這會(huì)造成事件元素在句子層面的缺失,很多時(shí)候需要從文檔層面去補(bǔ)全事件元素。而且這種特性也意味著利用依存句法等特征在中文事件抽取的效果不如英文等語言明顯。因此需要針對(duì)中文特性提取出更適合的特征。

        1.2.5 元素重疊問題

        Sheng等人[3]將元素重疊問題總結(jié)為三種情況:

        (1)一個(gè)詞匯在多個(gè)事件中擔(dān)任觸發(fā)詞,如圖3(1)所示,“收購(gòu)”這個(gè)詞語不僅是“投資”事件的觸發(fā)詞,而且是“股權(quán)轉(zhuǎn)移”事件的觸發(fā)詞。

        (2)一個(gè)元素在多個(gè)事件中充當(dāng)不同的角色。如圖3(1)所示,“世紀(jì)華通”這個(gè)元素不僅是“投資”事件的“主體”角色,還是“股份股權(quán)轉(zhuǎn)移”事件的“股權(quán)收購(gòu)者”角色。

        (3)一個(gè)元素在一個(gè)事件中充當(dāng)多個(gè)角色。如圖3(2)所示,“富達(dá)實(shí)業(yè)”這個(gè)元素同時(shí)是“股權(quán)減少”事件中的“主體”角色和“股權(quán)減少者”角色。

        圖3 元素重疊樣例Fig.3 Element overlap example

        2 主要研究方法

        在早期,事件抽取主要通過模式匹配的方法進(jìn)行抽取,這種方法能在特定領(lǐng)域下取得很好的效果,但是卻需要專家來編寫模板,并且泛化能力較差。基于機(jī)器學(xué)習(xí)的事件抽取方法將模型建立在統(tǒng)計(jì)學(xué)基礎(chǔ)上,將事件抽取任務(wù)視作分類或者序列標(biāo)注等方法,這種方法的關(guān)鍵在于根據(jù)數(shù)據(jù)的分布情況選擇恰當(dāng)?shù)姆椒ㄌ崛〕龊线m的特征。

        基于深度學(xué)習(xí)的事件抽取方法根據(jù)四個(gè)子任務(wù)是否聯(lián)合建??煞譃楣艿朗匠槿『吐?lián)合抽取,管道式抽取先抽取觸發(fā)詞,然后根據(jù)抽取結(jié)果抽取事件元素,例如DMCNN[4]模型。這種方法對(duì)觸發(fā)詞的抽取要求較高,觸發(fā)詞的抽取結(jié)果直接影響到事件元素的抽取,容易造成錯(cuò)誤傳播,因此很多學(xué)者對(duì)聯(lián)合抽取進(jìn)行研究。聯(lián)合抽取將四個(gè)子任務(wù)建模為一個(gè)聯(lián)合學(xué)習(xí)框架,這種方法能利用觸發(fā)詞與元素之間的潛在關(guān)系,從而相互促進(jìn)觸發(fā)詞和事件元素的兩者之間的抽取效果,例如JRNN[5]模型,下面對(duì)這些方法進(jìn)行詳細(xì)介紹。

        2.1 基于模式匹配的事件抽取

        基于模式匹配的事件抽取方法指的是在模式的指導(dǎo)下進(jìn)行事件抽取,主要分為兩個(gè)步驟,模板的構(gòu)建和事件抽取。最先,模板的設(shè)計(jì)是由領(lǐng)域?qū)<沂謩?dòng)設(shè)計(jì)的。第一個(gè)基于模式的抽取系統(tǒng)是1993 年Riloff 構(gòu)建的用于恐怖事件的抽取系統(tǒng)AutoSlog[6]。AutoSlog依賴句法分析器和預(yù)定義的13種語言模式對(duì)人工標(biāo)注的語料庫(kù)進(jìn)行模式提取,然后根據(jù)提取的模式對(duì)文本進(jìn)行預(yù)測(cè)。此方法在特定語料庫(kù)上取得了不錯(cuò)的效果,隨后很多方法都借鑒了這種思想在很多領(lǐng)域取得成功。

        但是這種方法需要專家消耗大量的精力來設(shè)計(jì)復(fù)雜的模板,而且模板構(gòu)建的好壞直接影響抽取的結(jié)果。因此后續(xù)很多方法采用機(jī)器學(xué)習(xí)的方法自動(dòng)設(shè)計(jì)模板,姜吉發(fā)在博士學(xué)位論文中提出了一種領(lǐng)域無關(guān)的模式自動(dòng)學(xué)習(xí)方法GenPAM[7]。GenPAM 整個(gè)過程是在WordNet等外部知識(shí)庫(kù)的支持下完成的,用戶只需要對(duì)信息抽取任務(wù)進(jìn)行定義,系統(tǒng)就能自動(dòng)從未標(biāo)注的語料中學(xué)習(xí)模式,這種方法很大程度上減輕了對(duì)人力的消耗。梁晗等人[8]提出了一種基于框架的事件抽取方法,利用框架的繼承方法對(duì)某些框架的構(gòu)建過程進(jìn)行了簡(jiǎn)化,并完成了對(duì)災(zāi)難性事件的抽取。

        總體來說,基于模式匹配的方法雖然在特定領(lǐng)域上表現(xiàn)較好,但是可移植性以及靈活性較差,而且模板的制作過程費(fèi)時(shí)費(fèi)力。所以現(xiàn)在對(duì)事件抽取的研究主要集中在基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法上。

        2.2 基于機(jī)器學(xué)習(xí)的事件抽取

        基于機(jī)器學(xué)習(xí)的方法將事件抽取任務(wù)轉(zhuǎn)化為分類或者序列標(biāo)注任務(wù),其中兩個(gè)關(guān)鍵步驟包括分類器的設(shè)計(jì)以及特征的提取。在特征的提取方面主要是依賴底層的NLP 技術(shù),用NLP 工具從文本中提取語法級(jí)別特征、詞匯級(jí)別特征、實(shí)體類型特征等特征,然后利用最大熵模型、隱馬爾可夫模型、支持向量機(jī)等機(jī)器學(xué)習(xí)模型進(jìn)行分類。

        最早將機(jī)器學(xué)習(xí)方法引入事件抽取的是Chieu 等人[9],他們?cè)谑录槿∪蝿?wù)中引入了最大熵分類器,用于事件元素的分類,在講座通告、人事事件管理兩個(gè)數(shù)據(jù)集中取得了不錯(cuò)的效果。Ahn[10]用了兩種機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)了一個(gè)事件抽取系統(tǒng),先后使用MegaM 算法和Tim bl算法實(shí)現(xiàn)對(duì)觸發(fā)詞的識(shí)別和事件分類,然后針對(duì)每個(gè)事件類型訓(xùn)練一個(gè)分類器抽取事件元素,這種方法在ACE 2005 數(shù)據(jù)集中取得了很高的F1 值。但是此方法判別觸發(fā)詞時(shí)對(duì)句子中的每個(gè)單詞都進(jìn)行判別,這樣會(huì)引用大量的反例,使得正反例很不平衡。因此,趙妍妍[11]提出了一種自動(dòng)擴(kuò)展事件觸發(fā)詞的方法,使用《同義詞詞林》自動(dòng)對(duì)訓(xùn)練集中的觸發(fā)詞進(jìn)行擴(kuò)展,根據(jù)觸發(fā)詞獲取候選事件。然后結(jié)合底層特征通過最大熵分類器對(duì)觸發(fā)詞進(jìn)行二元分類,對(duì)事件類型進(jìn)行判別。這種方法減少了反例的個(gè)數(shù)。

        Li等人[2]引用了中文的形態(tài)結(jié)構(gòu)來更好地表示隱含在中文觸發(fā)詞內(nèi)部的組合語義,并且提出了一個(gè)自動(dòng)識(shí)別觸發(fā)詞中的支配義原的核心詞素的機(jī)制。例如,信任和擔(dān)任雖然有相同的BV(“任”),但是卻有不同的含義。而出任和擔(dān)任雖然詞性不同,但是卻指得是同一個(gè)事件。

        因?yàn)橹形脑~與詞之間沒有間隔符,因此Chen 等人[12]提出了一種基于字符級(jí)別的事件抽取。提取出詞匯等特征使用隱馬爾可夫模型以字符級(jí)別對(duì)觸發(fā)詞進(jìn)行檢測(cè)。侯立斌等人[13]在Chen等人[12]的基礎(chǔ)上,使用了條件隨機(jī)場(chǎng)(conditional random fields,CRF)解決了隱馬爾可夫模型的標(biāo)記偏置問題。

        為了避免管道式抽取的錯(cuò)誤傳播問題,Chen等人[14]提出了一種聯(lián)合抽取的方法,將事件抽取任務(wù)轉(zhuǎn)化為兩個(gè)聯(lián)合抽取任務(wù),并研究了很多從字符到篇章層面的特征,運(yùn)用了豐富的語言學(xué)特征對(duì)中文進(jìn)行事件抽取。李培峰等人[15]針對(duì)中文句法多省略的特點(diǎn),提出了核心元素和輔助元素抽取方法,對(duì)觸發(fā)詞的抽取效果進(jìn)一步提升。賀瑞芳等人[16]提出了一種基于CRF 的聯(lián)合抽取模型,采用一種分類訓(xùn)練策略解決事件元素的多標(biāo)簽問題。并且針對(duì)ACE數(shù)據(jù)集中同一大類中某子類數(shù)據(jù)量較少的問題,采用多任務(wù)學(xué)習(xí)的方法對(duì)子類進(jìn)行互增強(qiáng)的聯(lián)合學(xué)習(xí),解決了數(shù)據(jù)稀疏問題。

        2.3 基于深度學(xué)習(xí)的事件抽取

        2.3.1 句子級(jí)別事件抽取

        (1)基于卷積神經(jīng)網(wǎng)絡(luò)的方法

        傳統(tǒng)的方法通常需要復(fù)雜的特征工程和現(xiàn)有的NLP工具,這樣會(huì)造成錯(cuò)誤傳播,并且消耗大量的人力、缺乏通用性。因此人們開始用深度學(xué)習(xí)的方法[4,17-18]自動(dòng)提取特征。Nguyen 等人[17]提出使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)進(jìn)行事件檢測(cè),和傳統(tǒng)方法相比不需要大量的外部資源,并且在跨域能力方面表現(xiàn)優(yōu)異。Chen等人[4]認(rèn)為CNN只能捕捉句子中最關(guān)鍵的信息,然而一個(gè)句子中可能含有多個(gè)事件,并且一個(gè)元素在不同事件中扮演不同的角色,因此提出了DMCNN 框架,在CNN 的基礎(chǔ)上設(shè)計(jì)了一個(gè)動(dòng)態(tài)多池層,提取一個(gè)句子的每個(gè)部分中的最關(guān)鍵的信息,對(duì)句子中的單詞進(jìn)行分類判別事件觸發(fā)詞,DMCNN結(jié)構(gòu)圖如圖4所示。

        圖4 DMCNN模型結(jié)構(gòu)Fig.4 DMCNN model structure

        上述方法在事件抽取任務(wù)中得到了較好的效果,但是如果單詞和觸發(fā)詞不匹配的情況下,特別是在中文中,沒有明顯的單詞分隔符的情況下效果較差。因此Zeng等人[1]將事件檢測(cè)任務(wù)轉(zhuǎn)化為序列標(biāo)注任務(wù),分別使用Bi-LSTM和CNN捕捉句子級(jí)別特征和詞匯級(jí)別特征,并分別將文本處理成詞匯級(jí)別和字符級(jí)別作為模型的輸入,最后輸出為BIO格式標(biāo)注的序列。后面元素角色的判定將其視為觸發(fā)詞和元素配對(duì)后進(jìn)行分類的任務(wù)。Lin 等人[18]針對(duì)中文觸發(fā)詞組成特點(diǎn)提出了NPNs模型,模型分為觸發(fā)詞識(shí)別與分類兩個(gè)部分,以字符為檢測(cè)級(jí)別,先把詞匯級(jí)別特征融入到字符特征中,然后將觸發(fā)詞識(shí)別為以字符與上下文組成一定長(zhǎng)度的塊狀結(jié)構(gòu),隨后對(duì)提出的觸發(fā)詞進(jìn)行分類。

        (2)基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法

        相比于CNN,循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)隱藏層之間的節(jié)點(diǎn)有連接,隱藏層的輸入包含輸入層的輸出和上一時(shí)刻隱藏層的輸出,能夠更好地處理序列信息,因此RNN被廣泛應(yīng)用于各種NLP的任務(wù)中,下面介紹使用RNN[5,19-20]處理事件抽取的方法。

        Nguyen等人[5]提出了聯(lián)合抽取模型JRNN用于事件抽取,相較于pipeline 模型,Joint 模型能減少錯(cuò)誤傳播。JRNN 分為編碼階段和預(yù)測(cè)階段,編碼階段使用雙向RNN學(xué)習(xí)句子的特征表示,在預(yù)測(cè)階段,引入記憶矩陣和記憶向量表示觸發(fā)詞類型和元素角色的依賴關(guān)系,同時(shí)預(yù)測(cè)事件類型和元素角色,這是第一個(gè)在神經(jīng)網(wǎng)絡(luò)方法中進(jìn)行聯(lián)合抽取的。

        Sha等人[19]認(rèn)為上述方法并沒有充分利用句法信息和事件元素之間的關(guān)系,因此提出了DBRNN 框架,通過依賴橋把句法信息建模到單詞中,在RNN 中同時(shí)使用了樹結(jié)構(gòu)和順序結(jié)構(gòu)增強(qiáng)單詞的表示,并且設(shè)計(jì)了一個(gè)張量層來捕獲事件元素之間的潛在關(guān)系。

        在中文事件抽取中,針對(duì)觸發(fā)詞歧義問題,Ding 等人[21]提出了TLNN 框架用于事件檢測(cè),模型結(jié)構(gòu)如圖5所示。該模型引用了外部知識(shí)庫(kù)HowNet獲得了字符和詞匯的多含義特征,然后使用樹狀LSTM融合三種特征對(duì)每個(gè)字符進(jìn)行分類,此方法能夠減輕觸發(fā)詞歧義問題。Xi 等人[22]則認(rèn)為字符級(jí)別模型不能表達(dá)出觸發(fā)詞內(nèi)部結(jié)構(gòu)和句子層次的語義關(guān)系,因此通過字符級(jí)別表示、詞匯級(jí)別表示、位置表示、語言模型表示四種特征增強(qiáng)中文語義特征表示。

        圖5 TLNN模型結(jié)構(gòu)Fig.5 TLNN model structure

        (3)基于圖神經(jīng)網(wǎng)絡(luò)的方法

        前面很多方法把句子表示為順序結(jié)構(gòu),然后通過CNN、RNN等模型對(duì)文本序列進(jìn)行建模,但是這些方法不能很好地捕獲具有長(zhǎng)依賴距離的單詞之間的關(guān)系,并且這些關(guān)系中很多關(guān)系如主謂關(guān)系能對(duì)事件檢測(cè)等任務(wù)有著較大幫助,因此文獻(xiàn)[23-24]利用依存句法樹將句子表示為圖結(jié)構(gòu),然后采用圖卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行事件檢測(cè),這種方法加強(qiáng)了觸發(fā)詞與關(guān)鍵元素之間的聯(lián)系,對(duì)觸發(fā)詞的識(shí)別與分類有較大幫助,并且這種方法能夠縮短觸發(fā)詞之間的距離,加強(qiáng)了事件之間的信息交互,對(duì)多事件識(shí)別有很大提升。

        但是這種方法隨著層數(shù)的增加,相鄰節(jié)點(diǎn)會(huì)變得越來越相似,因此為了保證節(jié)點(diǎn)的多樣性,Yan等人[25]通過注意力機(jī)制顯性地建模和聚合觸發(fā)詞的多階句法特征,Lai等人[26]則利用了圖和模型之間的一致性增強(qiáng)了候選觸發(fā)詞的特征表示,而且在每層網(wǎng)絡(luò)引入門控機(jī)制過濾了與候選觸發(fā)詞無關(guān)的噪音信息。

        上述方法沒有考慮依存句法樹中邊的類型,因此Cui 等人[27]將句法樹邊類型信息引入到圖結(jié)構(gòu)中,根據(jù)上下文信息不斷更新關(guān)系表示。Liu 等人[28]則認(rèn)為文獻(xiàn)[27]的方法會(huì)帶來噪聲,因此使用了自注意力機(jī)制深入挖掘節(jié)點(diǎn)之間潛在關(guān)系,并利用圖殘差網(wǎng)絡(luò)解決圖信息消失問題。

        然而中文表達(dá)較靈活,經(jīng)常會(huì)有主語或者賓語的省略,因此將句法特征在中文效果并不佳,所以Cui等人[29]利用圖結(jié)構(gòu)加強(qiáng)了單詞與字符之間的信息交互,并利用事件標(biāo)簽中的語義信息加強(qiáng)觸發(fā)器的識(shí)別,模型結(jié)構(gòu)如圖6所示。Wu等人[30]給出了中文字符與依存句法結(jié)果相結(jié)合的方式,并使用圖注意力網(wǎng)絡(luò)充分捕捉依存句法樹中長(zhǎng)依賴單詞之間的關(guān)系。

        圖6 L-HGAT模型結(jié)構(gòu)Fig.6 L-HGAT model structure

        (4)基于注意力機(jī)制的方法

        注意力機(jī)制最先被提出用于計(jì)算機(jī)視覺,注意力機(jī)制的提出是為了使計(jì)算機(jī)模仿人類的認(rèn)知功能,使計(jì)算機(jī)能夠更加關(guān)注某些信息,現(xiàn)在廣泛用于NLP的各個(gè)領(lǐng)域中。因此文獻(xiàn)[31-33]將注意力機(jī)制引入事件抽取中,使模型關(guān)注更重要的信息。Liu等人[31]通過注意力機(jī)制把事件元素信息引入到事件檢測(cè)中。使用一種監(jiān)督學(xué)習(xí)方法來訓(xùn)練注意力向量,從而使得事件元素在句子中得到更多的權(quán)重。Zhang等人[32]認(rèn)為實(shí)體關(guān)系和事件類型之間存在潛在關(guān)系,因此提出利用實(shí)體關(guān)系進(jìn)行事件檢測(cè),使用注意力機(jī)制對(duì)單詞分配不同的注意力來捕捉更關(guān)鍵的信息。Ding 等人[33]為了表達(dá)單詞深層次的語義特征,使用語言模型對(duì)單詞進(jìn)行表示而不是詞向量表,然后使用一種注意力機(jī)制把觸發(fā)詞和候選元素融入到句子特征中。

        在中文事件抽取中,由于中文中沒有分隔符,因此Wu等人[34]提出一種字符級(jí)別注意力機(jī)制用于中文事件抽取,把字符特征融合到詞語特征中去,考慮到詞語的含義與詞語中各字符的含義并不一定相同,并且字符的含義與其在詞語中的位置也有關(guān)系,因此需要考慮各個(gè)字符與詞語之間的權(quán)重,然后對(duì)觸發(fā)詞和事件元素聯(lián)合解碼。字符與詞語的向量拼接方式如圖7所示。

        圖7 字符向量與詞向量結(jié)合方式Fig.7 Combination of character vector and word vector

        (5)基于Transformer模型的方法

        預(yù)訓(xùn)練模型可以根據(jù)單詞的上下文動(dòng)態(tài)地獲得單詞的語義,在文本分類、信息抽取等多個(gè)NLP任務(wù)取得了非常好的效果。因此很多學(xué)者使用預(yù)訓(xùn)練模型解決事件抽取任務(wù)。

        Yang 等人[35]提出了PLMEE 框架用于事件抽取,首先為了解決訓(xùn)練數(shù)據(jù)不足的問題,利用預(yù)訓(xùn)練模型進(jìn)行數(shù)據(jù)生成。然后為了解決元素重疊問題,在元素抽取時(shí)根據(jù)角色個(gè)數(shù)設(shè)計(jì)多組分類器,對(duì)每個(gè)元素角色分開抽取。最后根據(jù)元素角色在事件中的重要性重新加權(quán)損失函數(shù)。Xu等人[36]將預(yù)訓(xùn)練模型應(yīng)用到中文事件抽取中,把事件抽取任務(wù)轉(zhuǎn)化為抽取事件三元組(觸發(fā)詞,元素角色,元素)的任務(wù),在文獻(xiàn)[35]的基礎(chǔ)上兩階段共享參數(shù),設(shè)計(jì)多個(gè)二分類器中判別中觸發(fā)詞和元素的起始位置與終止位置,模型結(jié)構(gòu)圖如圖8所示。

        圖8 JMCEE模型結(jié)構(gòu)Fig.8 JMCEE model structure

        上面的方法通常通過分類或者序列標(biāo)注的方法進(jìn)行抽取,這些方法依賴命名實(shí)體識(shí)別并且需要大量數(shù)據(jù)。因此文獻(xiàn)[37-39]等將事件抽取任務(wù)轉(zhuǎn)化為閱讀理解任務(wù)。把事件中的每一個(gè)元素角色表述為相應(yīng)自然語言描述的問題,通過BERT判斷出答案片段的起始位置和終止位置,這種方法更好地利用了元素角色類別的先驗(yàn)信息。Zhou 等人[40]在閱讀理解框架的基礎(chǔ)上增加新的任務(wù),借助于命名實(shí)體識(shí)別的結(jié)果,通過閱讀理解的方法對(duì)候選元素進(jìn)行角色分類,并通過兩個(gè)過程的結(jié)果擴(kuò)展訓(xùn)練集。

        Li 等人[41]認(rèn)為一個(gè)事件的事件元素之間存在著強(qiáng)關(guān)系,某個(gè)元素的角色的確定可以通過其他元素角色判別出來。因此設(shè)計(jì)了一個(gè)多輪對(duì)話引導(dǎo)的事件抽取系統(tǒng),通過強(qiáng)化學(xué)習(xí)和增量學(xué)習(xí)建模事件元素之間的關(guān)系,使用已經(jīng)提取的事件元素來提取難以提取的事件元素,并使用新獲得的知識(shí)改善之前提取元素的決策,此方法在事件檢測(cè)和元素抽取兩個(gè)任務(wù)上均取得了較好的效果。

        文獻(xiàn)[42]將事件抽取任務(wù)轉(zhuǎn)化為文本生成任務(wù),將觸發(fā)詞、元素以及它們的標(biāo)簽統(tǒng)一作為自然語言生成,在數(shù)據(jù)標(biāo)注方面只需要粗粒度的文本-事件記錄,而不需要細(xì)粒度令牌級(jí)的標(biāo)注,提出了一種約束解碼算法,通過事件模式指導(dǎo)生成過程,并使用課程學(xué)習(xí)算法加強(qiáng)模型的訓(xùn)練過程。這種方法簡(jiǎn)化了數(shù)據(jù)標(biāo)注過程,在一個(gè)模型中統(tǒng)一建模了多個(gè)任務(wù),高效地以端到端的形式從文本提取事件。

        基于深度學(xué)習(xí)的方法和基于機(jī)器學(xué)習(xí)的方法相比能自動(dòng)提取高層次特征,避免了復(fù)雜的特征工程,近年來大多數(shù)事件抽取方法都基于深度學(xué)習(xí),本文對(duì)這些方法進(jìn)行了對(duì)比,如表1所示。

        表1 基于深度學(xué)習(xí)的方法對(duì)比Table 1 Comparison of methods based on deep learning

        2.3.2 文檔級(jí)別事件抽取

        相較于句子級(jí)別事件抽取,文檔級(jí)別事件抽取任務(wù)中,一個(gè)事件的事件元素可能分散于一篇文檔的多個(gè)句子中,因此需要對(duì)整篇文檔的內(nèi)容進(jìn)行全面理解。而且一篇文檔可能包含多個(gè)事件,這使文檔級(jí)別事件抽取任務(wù)變得更加復(fù)雜。

        現(xiàn)階段中文文檔級(jí)別事件抽取大多集中于金融領(lǐng)域,很多學(xué)者對(duì)大量金融通告進(jìn)行了分析,提出了文檔級(jí)別事件抽取方法。其中文獻(xiàn)[43-45]仍在句子級(jí)別事件抽取的基礎(chǔ)上,增加了一些全局策略,對(duì)事件元素進(jìn)行補(bǔ)全,從而得到篇章級(jí)的事件信息。但是這些方法僅在句子范圍內(nèi)對(duì)元素角色進(jìn)行判定,沒有考慮到全局上下文信息,忽略了跨句子的事件元素之間的信息交互。

        因此,后續(xù)的很多方法[46-49]從全局角度出發(fā),對(duì)候選元素和句子進(jìn)行聯(lián)合建模,并且放棄了句子級(jí)別中的對(duì)觸發(fā)詞的抽取,從全局的角度檢測(cè)事件,進(jìn)而對(duì)事件元素進(jìn)行分類。Zheng等人[47]先通過篇章層面特征獲取事件類型,然后定義好元素角色的識(shí)別順序,把元素角色識(shí)別任務(wù)轉(zhuǎn)化為多個(gè)路徑擴(kuò)展的子任務(wù)。但是這種順序識(shí)別的方法,前序角色的識(shí)別沒有考慮后序角色的識(shí)別結(jié)果,因此文獻(xiàn)[48]使用了一種多粒度解碼器并行地對(duì)元素角色進(jìn)行判定。

        文獻(xiàn)[49-50]則將文檔建模為圖形結(jié)構(gòu),這種方法能夠加強(qiáng)事件之間的關(guān)系。Xu等人[49]通過了圖結(jié)構(gòu)加強(qiáng)了候選元素和句子之間的信息交互,促進(jìn)了相似事件之間的元素角色判定。Huang等人[50]通過實(shí)體共現(xiàn)關(guān)系把句子建模為圖結(jié)構(gòu),并使用圖注意力網(wǎng)絡(luò)加強(qiáng)了句子之間的關(guān)系,將事件表示為其中的子圖。

        2.4 少樣本場(chǎng)景下的事件抽取

        上述方法大多遵循監(jiān)督學(xué)習(xí)范式,這需要大量的標(biāo)記數(shù)據(jù),如果只是基于少量的標(biāo)記數(shù)據(jù),上述方法表現(xiàn)欠佳,因此很多學(xué)者[51-53]研究了少樣本事件抽取的一些方法,通過引入外部資源或者多任務(wù)學(xué)習(xí)等方法提高事件抽取的效果,本節(jié)對(duì)這些方法進(jìn)行介紹。

        2.4.1 訓(xùn)練語料的補(bǔ)充

        現(xiàn)有的研究大多基于ACE2005 數(shù)據(jù)集,數(shù)據(jù)集規(guī)模小、類型分布不均,因此模型訓(xùn)練效果較差。所以,很多學(xué)者[51-53]提出利用外部資源庫(kù)對(duì)訓(xùn)練語料進(jìn)行補(bǔ)充。Liu等人[51]提出了利用FrameNet框架補(bǔ)充訓(xùn)練語料。文中認(rèn)為FrameNet中定義的框架與ACE定義的事件在結(jié)構(gòu)上非常相似,框架中的詞匯單元類似事件中的觸發(fā)詞,框架中的元素類似于事件中的元素。因此,文中通過將FrameNet中的框架映射為事件從而補(bǔ)充了訓(xùn)練語料。

        Chen 等人[52]提出利用遠(yuǎn)程監(jiān)督的方法對(duì)訓(xùn)練語料進(jìn)行自動(dòng)標(biāo)注。文中首先利用Freebase 挑選出每個(gè)事件類型的關(guān)鍵元素,然后通過關(guān)鍵元素標(biāo)記出事件并找出觸發(fā)詞,然后利用FrameNet 過濾噪聲觸發(fā)詞并對(duì)觸發(fā)詞進(jìn)行擴(kuò)展。最后通過一種軟遠(yuǎn)程監(jiān)督的方法自動(dòng)標(biāo)注訓(xùn)練語料。Wang等人[53]使用生成對(duì)抗網(wǎng)絡(luò)進(jìn)一步提升了生成數(shù)據(jù)集的質(zhì)量,首先將候選集分為可靠集和不可靠集,然后把可靠集做為正例,將生成器選擇的數(shù)據(jù)做為負(fù)例,同時(shí)對(duì)判別器和生成器進(jìn)行訓(xùn)練,使生成器選擇容易混淆的實(shí)例來“欺騙”判別器。

        BERT 等模型在大量語料庫(kù)上進(jìn)行預(yù)訓(xùn)練,能更好地捕捉上下文信息,因此Yang等人[35]通過預(yù)訓(xùn)練模型生成標(biāo)注樣本補(bǔ)充訓(xùn)練語料,通過編輯原型的方法生成訓(xùn)練語料。首先使用masked語言模型任務(wù)在ACE2005數(shù)據(jù)集上進(jìn)行微調(diào)。然后將原型中的元素替換為與其扮演相同角色的相似元素,并通過微調(diào)后的BERT 重寫adjunct tokens。最后對(duì)這種方法生成后的事件進(jìn)行打分,保證生成事件的高質(zhì)量。

        2.4.2 基于少樣本學(xué)習(xí)的事件抽取

        前面的方法[4-5,24]大多在監(jiān)督學(xué)習(xí)下進(jìn)行事件抽取的,但是這種方法卻需要大量標(biāo)注語料,不能快速理解新事件類型,因此文獻(xiàn)[54-56]等探究了低資源條件下的事件抽取,包括零樣本學(xué)習(xí)與少樣本學(xué)習(xí)。

        文獻(xiàn)[54-56]使用了零樣本學(xué)習(xí)的方法用于事件抽取。Huang 等人[54]先使用AMR 解析工具識(shí)別觸發(fā)詞和元素,然后將事件本體和事件提及映射到一個(gè)語義空間,將事件分類為空間中最接近的事件類型。這種方法能夠通過現(xiàn)有事件類型的手動(dòng)注釋數(shù)據(jù),來預(yù)測(cè)無標(biāo)注數(shù)據(jù)的新事件類型,并且這種方法抽取性能可以和很多監(jiān)督方法相媲美。

        Deng等人[55]在文獻(xiàn)[54]的基礎(chǔ)上擴(kuò)展了事件本體,把事件之間的聯(lián)系建模到本體中,可以通過建立新事件類型與現(xiàn)有事件類型之間的關(guān)聯(lián),學(xué)習(xí)到新的事件類型。Zhang等人[56]將標(biāo)簽語義信息引入到零樣本事件抽取中,通過預(yù)訓(xùn)練模型計(jì)算觸發(fā)詞和元素與其相應(yīng)標(biāo)簽的語義相似度,從而實(shí)現(xiàn)觸發(fā)詞與元素的分類。

        少樣本學(xué)習(xí)中往往會(huì)采用C-wayK-shot 的數(shù)據(jù)采樣方法,當(dāng)K的值較小的情況下,可能會(huì)出現(xiàn)樣本偏差問題。因此Deng等人[57]提出了一個(gè)基于動(dòng)態(tài)記憶的原型網(wǎng)絡(luò),多次從事件提及中提取上下文信息,從而能在樣本較小的情況下更好地學(xué)習(xí)事件原型的上下文表示。Lai等人[58]則通過建??缛蝿?wù)之間的關(guān)系來減輕樣本中異常值的影響。文獻(xiàn)[59]考慮了支持集樣本之間的關(guān)系,進(jìn)一步提升了抽取效果。

        因?yàn)榭紤]到不同事件的觸發(fā)詞差異較大,Cong 等人[60]將觸發(fā)詞識(shí)別與分類合并成一個(gè)序列標(biāo)注任務(wù),首先提出了PA-CRF來模擬少樣本場(chǎng)景下的標(biāo)簽依賴性,并引入高斯分布緩解了因數(shù)據(jù)不足而造成的不確定性估計(jì)問題。

        2.4.3 基于多任務(wù)學(xué)習(xí)的事件抽取

        很多事件抽取的方法往往依賴于實(shí)體識(shí)別,但是大部分方法均將實(shí)體當(dāng)作已知條件,這樣不符合一般應(yīng)用場(chǎng)景,并且如果對(duì)多個(gè)子任務(wù)單獨(dú)抽取會(huì)造成錯(cuò)誤傳播。因此文獻(xiàn)[61-64]使用了全局特征對(duì)實(shí)體識(shí)別、事件抽取等多個(gè)子任務(wù)聯(lián)合建模,Nguyen 等人[61]通過雙向RNN共享特征表示,對(duì)實(shí)體識(shí)別、事件檢測(cè)和元素識(shí)別三個(gè)任務(wù)聯(lián)合預(yù)測(cè),通過三個(gè)子任務(wù)隱藏關(guān)系提高事件抽取性能。

        文獻(xiàn)[62-63]則提出了一種基于全局跨度的方法,將觸發(fā)詞與實(shí)體表示為圖結(jié)構(gòu)中的節(jié)點(diǎn),將觸發(fā)詞與實(shí)體、實(shí)體與實(shí)體之間的關(guān)系表示為邊,對(duì)實(shí)體識(shí)別、關(guān)系抽取、事件抽取和共指消解四個(gè)任務(wù)聯(lián)合建模,根據(jù)它們的監(jiān)督信號(hào)通過圖傳播來捕獲全局上下文信息,不斷更新跨度表示。Lin等人[64]則認(rèn)為上述方法對(duì)多個(gè)子任務(wù)使用獨(dú)立的分類器,沒有顯式建模了多個(gè)子任務(wù)之間和實(shí)例之間的關(guān)系,因此在解碼階段,使用全局信息捕獲子任務(wù)之間和實(shí)例之間的關(guān)系,并通過束搜索找到全局最優(yōu)圖。

        2.4.4 利用文檔層面的事件抽取

        大多數(shù)事件檢測(cè)方法只利用了句子層面的信息,但是很多時(shí)候句子層面的信息不夠豐富,只考慮句子層面的信息不足以推斷出事件類型,因此文獻(xiàn)[65-67]使用了文檔層面信息建模語義信息。這種方法能夠考慮文檔中事件之間的關(guān)系,對(duì)消除事件的歧義性有很大幫助。

        文獻(xiàn)[65-66]通過注意力機(jī)制將文檔信息融入到句子特征中,但是這種方法不能很好地模擬句子之間的關(guān)系,因此Lou 等人[67]通過堆疊多個(gè)雙向解碼器的方式,在句子之間迭代地傳播信息。文獻(xiàn)[68]為了更好地捕獲長(zhǎng)距離文檔級(jí)上下文信息,因此動(dòng)態(tài)地從文檔中只選擇與目標(biāo)句子最相關(guān)的上下文句子,輸入到BERT進(jìn)行事件檢測(cè),這樣也解決了BERT輸入限制問題。

        2.4.5 跨語言事件抽取

        由于數(shù)據(jù)的注釋成本較高,很多學(xué)者[69-71]提出利用多語言資源來提高事件抽取系統(tǒng)的性能??缯Z言方法將多種源語言的知識(shí)遷移到目標(biāo)語言中,以提高事件抽取的抽取性能。His等人[69]提出在多種語言的語料庫(kù)上進(jìn)行訓(xùn)練,并通過依賴于語言的特征和不依賴于語言的特征使性能得到提升。Liu等人[70]為了緩解單語中觸發(fā)詞的歧義性,使用了一種門控多語言注意力機(jī)制對(duì)兩種語言的特征進(jìn)行融合。

        很多跨語言方法都依賴機(jī)器翻譯系統(tǒng)或者通過人工來對(duì)齊文檔,這需要大量的并行資源,然而現(xiàn)實(shí)中可能沒有這么多的并行資源。因此Liu等人[71]提出了一種基于最少并行資源的跨語言事件檢測(cè)方法,針對(duì)不同語言的詞匯映射問題,提出了一種上下文相關(guān)的翻譯方法,然后針對(duì)不同語言的語序差異問題,提出了一種多語言協(xié)同訓(xùn)練的共享句法順序事件檢測(cè)器。

        Subburathinam 等人[72]和Ahmad 等人[73]將圖神經(jīng)網(wǎng)絡(luò)應(yīng)用到跨語言方法中,Subburathinam等人[72]利用語言無關(guān)特征,將實(shí)體提及、觸發(fā)詞以及上下文表示到一個(gè)多語言空間中,然后從資源豐富的源語言訓(xùn)練一個(gè)抽取器,將其應(yīng)用到在資源匱乏的目標(biāo)語言中去,此方法在多種語言數(shù)據(jù)集上取得了良好的效果。Ahmad 等人[73]則為了更好地建模長(zhǎng)依賴距離關(guān)系的單詞,引入了自我注意機(jī)制,明確地融合結(jié)構(gòu)信息來學(xué)習(xí)不同句法距離的詞與詞之間的依賴關(guān)系。

        前面方法大多只在單語中進(jìn)行訓(xùn)練,這可能導(dǎo)致單語偏見問題,因此文獻(xiàn)[74]利用了無標(biāo)注的目標(biāo)語言數(shù)據(jù),通過類的語義特征和語言無關(guān)特征,更好地跨語言遷移知識(shí)。

        2.5 領(lǐng)域事件抽取

        金融領(lǐng)域、法律領(lǐng)域等具有大量復(fù)雜的非結(jié)構(gòu)化信息,這些信息中包含很多有價(jià)值的內(nèi)容,事件抽取可以幫助人們快速地對(duì)這些內(nèi)容進(jìn)行分析,得到規(guī)范化的信息,領(lǐng)域事件抽取方法如表2所示。

        表2 領(lǐng)域事件抽取總結(jié)Table 2 Domain event extraction summary

        Yang 等人[43]、Zheng 等人[47]對(duì)大量金融公告深入研究,給出了金融領(lǐng)域的文檔級(jí)別事件抽取方法,能幫助金融人員預(yù)測(cè)股市并做出正確的投資。

        為了使法官更方便快捷地了解案情,Li等人[75]提出了法律領(lǐng)域的事件抽取方法,多個(gè)事件共享事件元素這一現(xiàn)象,作者定義了焦點(diǎn)事件這一機(jī)制,先抽取出預(yù)定義的12 個(gè)transition label,然后第二步再抽取出事件元素角色。文獻(xiàn)[76]在Li等人[75]的基礎(chǔ)上,增加了時(shí)間線機(jī)制,將提取的事件以時(shí)間序列的形式顯示。Shen 等人[77]為了區(qū)分相似法律事件,為事件檢測(cè)設(shè)置了分層的事件特征,并為了解決事件元素共指消解問題,提出了一種踏板注意機(jī)制。Feng 等人[78]提出使用事件抽取完成法律判決預(yù)測(cè)任務(wù),先提出了一種層次化的事件結(jié)構(gòu),然后通過兩種約束聯(lián)合學(xué)習(xí)事件抽取與法律判決預(yù)測(cè)兩個(gè)任務(wù)。

        生物醫(yī)學(xué)文本中含有大量事件信息,對(duì)生物醫(yī)學(xué)研究對(duì)藥物研發(fā)和疾病醫(yī)治有很大幫助。Wang等人[79]提出了一種生物醫(yī)學(xué)領(lǐng)域的多特征融合的事件抽取方法,在特征提取方面結(jié)合依存句法分析結(jié)果獲得詞匯豐富的語義表示信息,并利用詞性特征補(bǔ)充句子結(jié)構(gòu)信息。Yu 等人[80]提出了一個(gè)基于LSTM 的端到端框架用于生物醫(yī)學(xué)事件抽取,通過依存句法分析使用Tree-LSTM完成了元素抽取,為了減少級(jí)聯(lián)錯(cuò)誤,使用了一個(gè)整體的損失函數(shù)對(duì)模型進(jìn)行訓(xùn)練。此方法在BioNLP09等數(shù)據(jù)集取得了很高的F1值。

        3 數(shù)據(jù)集

        對(duì)中文事件抽取常用的數(shù)據(jù)集進(jìn)行介紹,包括句子級(jí)別數(shù)據(jù)集和文檔級(jí)別數(shù)據(jù)集,句子級(jí)別數(shù)據(jù)集指的是某個(gè)事件的元素僅在一個(gè)句子的范圍內(nèi)出現(xiàn),而文檔級(jí)別數(shù)據(jù)集指的是某個(gè)事件的元素分散于一篇文檔的多個(gè)句子中,并且一個(gè)文檔中可能包含多個(gè)事件,而且這些事件之間往往存在著因果、轉(zhuǎn)折等關(guān)聯(lián)關(guān)系。數(shù)據(jù)集規(guī)模如表3所示。

        表3 中文事件抽取數(shù)據(jù)集統(tǒng)計(jì)Table 3 Chinese event extraction data set statistics

        3.1 句子級(jí)別數(shù)據(jù)集

        ACE2005 數(shù)據(jù)集:ACE 2005 數(shù)據(jù)集是語言數(shù)據(jù)聯(lián)盟(LDC)發(fā)布的包含漢語、英語和阿拉伯語三種語言的數(shù)據(jù)集,被用于2005 年自動(dòng)內(nèi)容提?。ˋCE)的評(píng)測(cè)。數(shù)據(jù)集由實(shí)體、關(guān)系和事件等多種數(shù)據(jù)類型組成,包含了8 大類事件類型和33 小類事件類型,共計(jì)633 篇文檔。ACE 數(shù)據(jù)集是事件抽取領(lǐng)域最具影響力的基準(zhǔn)數(shù)據(jù)集。

        上海大學(xué)CEC 數(shù)據(jù)集:CEC 數(shù)據(jù)集是由上海大學(xué)語義智能實(shí)驗(yàn)室創(chuàng)建的中文突發(fā)事件數(shù)據(jù)集。實(shí)驗(yàn)室從互聯(lián)網(wǎng)上收集了5種突發(fā)事件(地震、火災(zāi)等)的新聞報(bào)道生成數(shù)據(jù)集,共計(jì)332篇文檔。CEC數(shù)據(jù)集的規(guī)模與ACE等數(shù)據(jù)集相比較小,但是事件要素的標(biāo)注較為全面。

        Text analysis conference knowledge base filling(TAC KBP)數(shù)據(jù)集:TAC KBP事件跟蹤的目標(biāo)是提取有關(guān)事件的信息,并以合適的結(jié)構(gòu)輸入到知識(shí)庫(kù)中。TAC KBP事件評(píng)測(cè)的任務(wù)包括檢測(cè)和鏈接事件的事件塊任務(wù)、提取事件參數(shù)和鏈接屬于同一事件參數(shù)的事件參數(shù)任務(wù)。其中TAC KBP 2016 和TAC KBP 2017 的數(shù)據(jù)集中包含了漢語、英語和西班牙語三種語言,共有8種事件類型和18種子事件類型。

        DUEE[81]數(shù)據(jù)集:DuEE 數(shù)據(jù)來源于百家號(hào),其事件類型涵蓋了百度搜索中的很多熱門話題。DuEE 具有19 640 個(gè)事件,包含65 種事件類型,是迄今為止最大的中文事件抽取數(shù)據(jù)集,被用于2020 語言與智能技術(shù)競(jìng)賽的事件抽取任務(wù)的評(píng)測(cè)。DUEE 的抽取場(chǎng)景更有挑戰(zhàn)性,一個(gè)句子可能包含多個(gè)事件,并且存在事件元素重疊問題。

        FewFC數(shù)據(jù)集:FewFC數(shù)據(jù)來源于真實(shí)的金融新聞數(shù)據(jù),由金融專業(yè)人員標(biāo)注,被用于CCKS 2020金融領(lǐng)域跨類遷移事件抽取評(píng)測(cè)任務(wù)。FewFC 是一個(gè)包含質(zhì)押事件、股份股權(quán)轉(zhuǎn)讓事件、投資事件等10個(gè)事件類別的小樣本金融領(lǐng)域數(shù)據(jù)集。

        LEVEN:LEVEN[82]是一個(gè)大規(guī)模的中文法律領(lǐng)域事件檢測(cè)數(shù)據(jù)集。該數(shù)據(jù)集事件本體涵蓋較全面,涉及法律案例中的常見事件如逃逸事件,對(duì)法律案例分析有較大幫助。該數(shù)據(jù)集包含8 116篇法律文檔,108個(gè)事件類型,超過15萬個(gè)事件實(shí)例。

        3.2 文檔級(jí)別數(shù)據(jù)集

        DCFEE:DCFEE[43]是金融領(lǐng)域的文檔級(jí)別數(shù)據(jù)集,其數(shù)據(jù)來源于搜狐證券網(wǎng)上企業(yè)發(fā)布的公告,并通過遠(yuǎn)程監(jiān)督的方法對(duì)數(shù)據(jù)進(jìn)行標(biāo)注的,包含股權(quán)凍結(jié)事件、股權(quán)質(zhì)押事件、股權(quán)回購(gòu)事件和股權(quán)增持事件四種類型,共計(jì)2 976個(gè)公告。

        ChFinAnn:ChFinAnn[47]數(shù)據(jù)集是實(shí)驗(yàn)人員搜集了近10年的金融公告并通過遠(yuǎn)程監(jiān)督的方法生成的金融領(lǐng)域數(shù)據(jù)集。ChFinAnn 包括32 040 份文件,由股權(quán)凍結(jié)、股權(quán)回購(gòu)、股權(quán)減持、股權(quán)增持和股權(quán)質(zhì)押5個(gè)事件類型組成,其中超30%的文檔中包含多個(gè)事件。

        DUEE-FIN:Duee-Fin 是百度發(fā)布的金融領(lǐng)域文檔級(jí)別數(shù)據(jù)集,由1.17 萬個(gè)文檔組成,包含13 個(gè)事件類型,同時(shí)存在一部分非目標(biāo)文檔作為負(fù)樣本,數(shù)據(jù)來源于真實(shí)金融領(lǐng)域的公告和新聞。被用于2021語言與智能技術(shù)競(jìng)賽的文檔級(jí)別事件抽取的評(píng)估。

        FinReason:文獻(xiàn)[83]提出了一個(gè)金融領(lǐng)域的用于事件因果關(guān)系抽取的數(shù)據(jù)集FinReason。此數(shù)據(jù)集總共包含8 794 個(gè)文檔,由12 861 個(gè)金融事件和11 006 個(gè)原因片段。數(shù)據(jù)集包含了多事件、多重原因和隱含原因等多個(gè)復(fù)雜場(chǎng)景。

        4 評(píng)價(jià)指標(biāo)與各方法對(duì)比

        4.1 評(píng)價(jià)指標(biāo)

        事件抽取常用的指標(biāo)有精準(zhǔn)率、召回率、F1值。事件抽取的四個(gè)子任務(wù)分別為:

        (1)觸發(fā)詞識(shí)別:識(shí)別出句子中的觸發(fā)詞片段,如果預(yù)測(cè)的觸發(fā)詞片段與標(biāo)注中的觸發(fā)詞片段一樣,則認(rèn)為抽取正確。

        (2)事件類型分類:對(duì)識(shí)別后的觸發(fā)詞進(jìn)行分類,如果與標(biāo)注中的事件類型一樣,則認(rèn)為是分類正確。

        (3)事件元素識(shí)別:在獲得事件類型后,識(shí)別出句子中的事件元素,如果預(yù)測(cè)的事件元素片段與標(biāo)注中的事件元素片段一樣,則認(rèn)為抽取正確。

        (4)事件元素分類:對(duì)抽取后的事件元素進(jìn)行分類,如果識(shí)別的事件元素類型與標(biāo)注中的類型一樣,則認(rèn)為分類正確。

        研究選擇使用標(biāo)準(zhǔn)精確度(Precision,P)、召回率(Recall,R)和F測(cè)度(F1)作為評(píng)價(jià)指標(biāo)來評(píng)估結(jié)果。計(jì)算公式分別如下所示:

        其中,TP表示為被模型預(yù)測(cè)為正類的正樣本個(gè)數(shù)、FP表示為被模型預(yù)測(cè)為正類的負(fù)樣本個(gè)數(shù)、FN表示被模型預(yù)測(cè)為負(fù)類的正樣本個(gè)數(shù)。

        除此之外,由于中文識(shí)別最小單位為字符,在2020年百度舉辦的語言與智能技術(shù)競(jìng)賽的事件抽取任務(wù)[74]中,還使用了字級(jí)別的評(píng)測(cè)方法對(duì)事件元素的抽取結(jié)果進(jìn)行評(píng)價(jià):

        字級(jí)別匹配P值:預(yù)測(cè)出的元素和人工標(biāo)注的元素共有字的數(shù)量/預(yù)測(cè)元素字?jǐn)?shù)。如式(4)所示,表示第i個(gè)預(yù)測(cè)的元素與對(duì)應(yīng)標(biāo)注的元素共有的字?jǐn)?shù),表示標(biāo)注元素的字?jǐn)?shù)。

        字級(jí)別匹配R值:預(yù)測(cè)出的元素和人工標(biāo)注的元素共有字的數(shù)量/人工標(biāo)注的元素的字?jǐn)?shù),表示預(yù)測(cè)元素的字?jǐn)?shù)。

        字級(jí)別匹配F1值:2×字級(jí)別匹配P值×字級(jí)別匹配R值/(字級(jí)別匹配P值+字級(jí)別匹配R值)

        預(yù)測(cè)元素得分=事件類型是否準(zhǔn)確×元素角色是否準(zhǔn)確×字級(jí)別匹配F1 值。如式(5)所示,Met和Mar分別表示事件類型和元素角色是否正確。

        P=預(yù)測(cè)元素得分總和/所有預(yù)測(cè)元素的數(shù)量。NP表示預(yù)測(cè)元素個(gè)數(shù)。

        R=預(yù)測(cè)元素得分總和/所有人工標(biāo)注元素的數(shù)量。NA表示所有定義元素角色個(gè)數(shù)。

        4.2 各方法對(duì)比

        本節(jié)主要總結(jié)事件抽取模型優(yōu)缺點(diǎn),比較其在基準(zhǔn)數(shù)據(jù)集上的性能,評(píng)價(jià)指標(biāo)主要有精確率、召回率和F測(cè)度。

        4.2.1 事件檢測(cè)結(jié)果對(duì)比

        目前大多數(shù)中文事件抽取的研究集中在事件檢測(cè)任務(wù)上,本文選取ACE 2005 中文數(shù)據(jù)集與TAC KBP 2017 兩個(gè)基準(zhǔn)數(shù)據(jù)集進(jìn)行事件檢測(cè)效果對(duì)比,如表4所示。

        表4 事件檢測(cè)方法的精確率、召回率、F1值對(duì)比Table 4 Comparison of accuracy,recall and F1 value of event detection methods %

        從結(jié)果上可以看出,基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法Rich-C[14]在事件分類任務(wù)上有著較高的F1值,能與很多深度學(xué)習(xí)方法相媲美,但是這種方法需要人工提取特征。由于基于深度學(xué)習(xí)的方法能自動(dòng)提取高層特征,近幾年的方法[18,21,29]要明顯優(yōu)于基于機(jī)器學(xué)習(xí)[14]的方法。

        NPN[18]、TLNN[21]和L-HGAT[29]等方法在兩個(gè)數(shù)據(jù)集中均表現(xiàn)較好,證明了其方法的魯棒性。BERT 等預(yù)訓(xùn)練模型在龐大的語料庫(kù)進(jìn)行預(yù)訓(xùn)練,能夠更好地捕捉全局信息,因此在所有深度學(xué)習(xí)的方法中,基于BERT 的方法效果最好。JMCEE[36]和CAEE[30]在一個(gè)統(tǒng)一的框架下聯(lián)合訓(xùn)練,對(duì)事件抽取兩階段任務(wù)進(jìn)行聯(lián)合抽取,避免了錯(cuò)誤傳播,在抽取的效果上要優(yōu)于pipeline的方法。

        4.2.2 元素抽取結(jié)果對(duì)比

        目前對(duì)中文事件元素抽取的研究大多基于ACE 2005中文數(shù)據(jù)集,本文選取ACE 2005中文數(shù)據(jù)集作為元素抽取的基準(zhǔn)數(shù)據(jù)集,事件元素抽取結(jié)果如表5 所示,從結(jié)果可以看出,中文事件元素識(shí)別和分類的F1值并不高,還有很大的提升空間?;谏疃葘W(xué)習(xí)的方法明顯優(yōu)于機(jī)器學(xué)習(xí)的方法,基于聯(lián)合抽取的方法避免了管道模型方法的錯(cuò)誤傳播問題,效果要優(yōu)于管道模型方法。

        表5 元素角色識(shí)別方法的精確率、召回率、F1值對(duì)比Table 5 Comparison of accuracy,recall and F1 value of element role recognition methods %

        其中MTL-CRF[16]并沒有使用深度學(xué)習(xí)模型,使用了一種基于CRF的多任務(wù)學(xué)習(xí)框架有效挖掘了元素之間的相互關(guān)系,在元素的識(shí)別和分類上均有較高的精準(zhǔn)度。MRC-EAE[39]方法將任務(wù)轉(zhuǎn)化為機(jī)器閱讀理解的任務(wù),在模型中編碼了元素角色信息,在召回率和F1值上有著明顯提升。

        4.2.3 文檔級(jí)別抽取結(jié)果對(duì)比

        本文選取F1 值作為評(píng)價(jià)指標(biāo),并把ChFinAnn[47]作為文檔級(jí)別事件抽取方法的評(píng)價(jià)數(shù)據(jù)集,此數(shù)據(jù)集包含股權(quán)凍結(jié)(EF)、股權(quán)回購(gòu)(ER)、股權(quán)減持(EU)、股權(quán)增持(EO)和股權(quán)質(zhì)押(EP)五種數(shù)據(jù)類型。各方法的F1值對(duì)比如表6所示。

        表6 文檔級(jí)別事件抽取方法F1值對(duì)比Table 6 Comparison of F1 values of document level event extraction methods %

        DCFEE-O 和DCFEE-M 是DCFEE[43]的兩個(gè)版本,DCFEE-O只從文檔中抽取一個(gè)事件,DCFEE-M能抽取多個(gè)事件。GreedyDec 是Doc2EDAG[47]的簡(jiǎn)化版,只貪婪地從文檔中抽取單個(gè)事件記錄。

        從結(jié)果中可以得出,由于DCFEE[43]對(duì)全局信息理解不夠充分,因此F1 值要明顯低于后面對(duì)全局進(jìn)行建模[47-50]的方法。GIT[49]和SCDEE[50]使用了圖神經(jīng)網(wǎng)絡(luò)對(duì)事件關(guān)系進(jìn)行建模,對(duì)文檔有著更充分的理解,有著較高的F1值,并在股權(quán)回購(gòu)事件類型上效果最好,明顯高于其他方法。

        5 未來展望

        (1)中文特性挖掘

        近年來,對(duì)中文事件抽取的研究大多集中在事件檢測(cè)上,由于中文詞語之間沒有分隔符并且觸發(fā)詞表達(dá)方式較多,因此中文事件檢測(cè)難度較大。因此需要挖掘如中文觸發(fā)詞組成特點(diǎn)等中文語言特性,與深度學(xué)習(xí)模型相結(jié)合提取出更適合中文的語義特征應(yīng)用到事件抽取中。

        (2)文檔級(jí)事件抽取

        中文是一種篇章驅(qū)動(dòng)的語言,中文語法多省略,某個(gè)事件的元素往往需要從篇章層面補(bǔ)全或者共指消解,而且文檔級(jí)事件抽取更符合現(xiàn)實(shí)生活中的應(yīng)用場(chǎng)景,因此對(duì)中文文檔級(jí)事件抽取有較深的研究意義,如何對(duì)文檔內(nèi)事件關(guān)系進(jìn)行建模是對(duì)文檔整體理解的關(guān)鍵。

        (3)零樣本事件抽取

        現(xiàn)有的事件抽取方法大多需要大量的訓(xùn)練語料,但是無法快速地應(yīng)對(duì)新事件類型,零樣本事件抽取方法能快速理解新事件類型,研究?jī)r(jià)值較大,如何正確地建立事件本體與事件實(shí)例的關(guān)系從而提升抽取效果值得深入研究。

        (4)基于問答的事件抽取

        近幾年,很多學(xué)者使用基于問答的方法進(jìn)行事件抽取,這種方法能利用元素角色的語義信息,在樣本較少的情況下表現(xiàn)較好。問題的設(shè)計(jì)的好壞及問題與文本特征融合的方式等都會(huì)對(duì)結(jié)果有所影響,需要進(jìn)一步討論。

        (5)面向開放域的事件抽取

        現(xiàn)在很多深度學(xué)習(xí)的方法都基于限定域的事件抽取,事件本體是預(yù)定義的情況下。但是面對(duì)新領(lǐng)域,事件類型未知的情況下,開放域的事件抽取能快速幫助人們理解新事件。

        (6)面向領(lǐng)域的事件抽取研究

        日常生活中人們常常需要對(duì)某一領(lǐng)域進(jìn)行研究,但是領(lǐng)域中有很多專業(yè)術(shù)語,如何設(shè)計(jì)更有效的方法,來提取領(lǐng)域文本的深層語義信息和上下文信息[84],使深度學(xué)習(xí)模型深入理解領(lǐng)域知識(shí)很關(guān)鍵。因此需要針對(duì)特定領(lǐng)域展開深度研究。

        6 結(jié)論

        本文全面介紹了中文事件抽取的研究現(xiàn)狀,對(duì)基于模式匹配、基于機(jī)器學(xué)習(xí)、基于深度學(xué)習(xí)的方法進(jìn)行歸納總結(jié),其中基于深度學(xué)習(xí)的方法能自動(dòng)提取特征,成為了現(xiàn)在的主流方法,因此本文詳細(xì)介紹了基于深度學(xué)習(xí)的事件抽取方法。由于中文特性問題,本文對(duì)中文事件抽取中面臨的挑戰(zhàn)進(jìn)行了總結(jié),并對(duì)監(jiān)督學(xué)習(xí)方法中樣本缺失的條件下,少樣本事件抽取方法進(jìn)行總結(jié),然后介紹了中文事件抽取相關(guān)數(shù)據(jù)集,最后對(duì)未來的發(fā)展趨勢(shì)進(jìn)行了分析和展望。

        猜你喜歡
        方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        學(xué)習(xí)方法
        可能是方法不對(duì)
        3D打印中的模型分割與打包
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        用力草我小逼视频在线播放| 日本又色又爽又黄的a片18禁| 国产成a人亚洲精品无码樱花| 天天躁日日躁狠狠躁欧美老妇| 毛多水多www偷窥小便| 亚洲精品无码国模| 亚洲av成人在线网站| 日本一区二区三区在线| 中文字幕乱码琪琪一区| 国产精品久久婷婷六月丁香| 久久精品国产亚洲av蜜点| 99在线精品免费视频| 国内精品卡一卡二卡三| 国产精品成人99一区无码| 精品国产18禁久久久久久久| 久久精品国产99精品九九| 国产精品自线在线播放| 日美韩精品一区二区三区| 免费看黄视频亚洲网站| 大地资源网在线观看免费官网| 影音先锋男人av鲁色资源网| 免费a级毛片无码a∨免费软件| 国产人妻无码一区二区三区免费| 澳门毛片精品一区二区三区| 蜜桃av无码免费看永久| 中文字幕人妻av四季| 一区二区三区国产精品乱码| 精品国产乱码久久久久久郑州公司 | 亚洲伊人久久一次| 青春草在线观看免费视频| 精品国产一区二区三区香| 无码国内精品人妻少妇蜜桃视频| 国产成人av大片大片在线播放| 人妻av一区二区三区精品| 99久久精品国产自在首页| 99国语激情对白在线观看| 青青草骚视频在线观看| 婷婷色婷婷开心五月四房播播| aaaaa级少妇高潮大片免费看| 国产农村三片免费网站| 日本岛国一区二区三区|