亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        事件抽取綜述

        2022-11-08 12:48:22馬春明李秀紅李哲王惠茹楊丹
        計(jì)算機(jī)應(yīng)用 2022年10期
        關(guān)鍵詞:語義方法模型

        馬春明,李秀紅*,李哲,王惠茹,楊丹

        (1.新疆大學(xué) 信息科學(xué)與工程學(xué)院,烏魯木齊 830046;2.香港理工大學(xué) 電子及資訊工程學(xué)系,香港 999077)

        0 引言

        事件抽取研究具有重大意義和實(shí)用價(jià)值,是不同學(xué)科發(fā)展和融合的需要。在實(shí)際生活中,事件抽取研究在信息收集、信息檢索、文檔合成、信息問答等方面有著廣泛應(yīng)用,促使自然語言處理技術(shù)的發(fā)展取得了重大突破。事件抽取可以定義為檢測(cè)特定類型事件并識(shí)別有關(guān)信息,即事件類別識(shí)別和事件元素識(shí)別。

        將事件句從文本中檢測(cè)出來,然后根據(jù)其特征判斷其所屬類別,即事件類別識(shí)別。在事件句的檢測(cè)過程中,一般使用基于觸發(fā)詞的方法,在訓(xùn)練時(shí)實(shí)例化其中的每一個(gè)詞,可以判定觸發(fā)詞是否存在于機(jī)器學(xué)習(xí)模型中。然而許多反例也被引進(jìn)來,使正反例嚴(yán)重失衡。為解決上述問題,文獻(xiàn)[1]中首先進(jìn)行事件檢測(cè),然后對(duì)事件進(jìn)行分類。這種方法是對(duì)部分事件進(jìn)行特征選擇,把特征選擇中的正特征和負(fù)特征組合在一起,識(shí)別的效果較好。在基于觸發(fā)詞的方法中,不僅正反例嚴(yán)重失衡,還產(chǎn)生了數(shù)據(jù)稀疏性問題。為解決此問題,文獻(xiàn)[2]中提出了一種全新的關(guān)于自動(dòng)識(shí)別事件類別的算法。在事件句的分類問題中,主要使用了最大熵模型(Maximum Entropy Model,MEM)和支持向量機(jī)(Support Vector Machine,SVM)分類器進(jìn)行分類。在進(jìn)行候選事件句類別識(shí)別時(shí),文獻(xiàn)[3-4]中在基于二分類策略中均使用了以上兩種分類器。在實(shí)際應(yīng)用中,使用多元分類處理一個(gè)事件句屬于多個(gè)事件類別的情況比使用二元分類更好,而用合適的事件特征來描述事件句以此提高分類的準(zhǔn)確性是事件句分類的難點(diǎn)。文獻(xiàn)[5]中利用選取詞、上下文及其詞典信息描述候選事件,在ACE(Automatic Content Extraction)2005 上進(jìn)行測(cè)試,該方法的F 值為61.2%,效果良好。如果在原來的基礎(chǔ)上引進(jìn)依存分析,然后尋找觸發(fā)詞和別的詞已有的句法關(guān)系,最后根據(jù)這個(gè)特征讓事件句在支持向量機(jī)分類器上進(jìn)行分類,該方法的F 值為69.3%。為提高事件類別的相關(guān)識(shí)別率,未來研究將會(huì)重點(diǎn)放在分類器和事件特征的選取上。

        識(shí)別出真正關(guān)于命名實(shí)體、時(shí)間表達(dá)式和屬性值的事件元素,然后對(duì)它們進(jìn)行正確的角色標(biāo)注,即事件元素識(shí)別。事件句一般包含許多實(shí)體、時(shí)間表達(dá)式、屬性值等事件信息。為了過濾真實(shí)的事件元素,必須首先識(shí)別并標(biāo)注信息,對(duì)于信息理解會(huì)議(Message Understanding Conference,MUC)來說,這是很重要的研究內(nèi)容。對(duì)于事件元素識(shí)別來說,如果事件信息識(shí)別及其標(biāo)注在文本預(yù)處理時(shí)已經(jīng)結(jié)束,事件元素識(shí)別在任務(wù)方面會(huì)產(chǎn)生和語義角色標(biāo)簽(Semantic Role Labeling,SRL)類似的效果。在一個(gè)句子中,動(dòng)詞(謂詞)和有關(guān)聯(lián)的不同短語的語句間有著語義關(guān)系,根據(jù)語義關(guān)系把語義角色信息給予這些句子的成分,即語義角色標(biāo)注。例如施事、受事或者工具等。文獻(xiàn)[6]中角色標(biāo)注了任職事件和會(huì)見事件的元素,在條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)取得了良好的標(biāo)注效果,這也說明事件元素和語義角色之間存在一定的聯(lián)系。

        文獻(xiàn)[7]中在進(jìn)行事件元素的識(shí)別時(shí)運(yùn)用了上述聯(lián)系。對(duì)于底層的模塊,如分詞以及句法分析等,很依賴這種聯(lián)系;如果它們不夠成熟,可能造成很多級(jí)聯(lián)錯(cuò)誤,對(duì)事件元素的識(shí)別有一定影響。為解決此問題,使用分類問題的思想來進(jìn)行事件元素的識(shí)別,運(yùn)用了MEM。在對(duì)候選元素進(jìn)行描述時(shí),從四種特征多方面進(jìn)行:取詞法、類別、上下文以及句法結(jié)構(gòu)。為實(shí)現(xiàn)事件元素進(jìn)行自動(dòng)識(shí)別,運(yùn)用了二元和多元兩種分類策略[3]。

        在最近的事件抽取研究中,文獻(xiàn)[8]中提出了一種基于對(duì)比學(xué)習(xí)的預(yù)訓(xùn)練框架CLEVE,讓預(yù)訓(xùn)練模型更好地從大型無監(jiān)督數(shù)據(jù)中學(xué)習(xí)事件知識(shí)和對(duì)應(yīng)的語義結(jié)構(gòu),從而在有監(jiān)督和無監(jiān)督的兩種場(chǎng)景下都取得了良好結(jié)果。

        本文從不同角度對(duì)事件抽取的研究現(xiàn)狀進(jìn)行了總結(jié)與展望。可大致分為5 個(gè)部分:

        1)從全局出發(fā)總結(jié)事件抽取算法以及評(píng)價(jià)方法,并介紹事件抽取所用的各種數(shù)據(jù)集以及與之相關(guān)的事件表示方法。

        2)根據(jù)事件抽取的研究方向,詳細(xì)介紹了元事件抽取和主題事件抽取的抽取方式以及使用不同抽取方式的研究現(xiàn)狀。

        3)介紹了中英文事件抽取的研究現(xiàn)狀以及成果;跨語言事件抽取面臨的問題及其解決方法,以及在未來研究中跨語言事件抽取的研究趨勢(shì)。

        4)根據(jù)不同研究角度,總結(jié)事件抽取相關(guān)技術(shù),包括事件表示、元事件抽取、主題事件抽取、跨語言事件抽取的分類及特點(diǎn)。

        5)事件抽取研究面臨的問題以及未來研究趨勢(shì)。

        1 相關(guān)事件抽取算法及評(píng)價(jià)方法

        事件抽取算法可分為四種:基于建立事件、事件句模板或者事件本體的模式匹配法;基于關(guān)鍵詞的觸發(fā)詞法;基于領(lǐng)域本體的本體方法;把不同模型利用不同技術(shù)聯(lián)合在一起的前沿聯(lián)合模型方法。下文將對(duì)這四種事件抽取算法以及當(dāng)前事件抽取主要的評(píng)價(jià)方法進(jìn)行介紹。

        1.1 基于模式匹配算法

        以人工或自動(dòng)構(gòu)建的事件句子特征形式表示模板為指導(dǎo)的事件抽取,一般稱為模式匹配。語義角色標(biāo)注法與事件本體法是現(xiàn)有研究中最常用的構(gòu)建模板的方法。

        1.1.1 語義角色標(biāo)注法

        事件元素對(duì)應(yīng)其語義角色,即語義角色標(biāo)注法。對(duì)于實(shí)體、中心詞詞性以及關(guān)鍵詞的層次,它們的語義約束在事件元素中完成定義。如果要使事件被匹配到,必要元素與相應(yīng)的語義角色對(duì)應(yīng)就會(huì)出現(xiàn)。首先預(yù)處理文本信息,然后在文本信息里進(jìn)行語義角色標(biāo)注,語義角色標(biāo)注的語義信息通過詞法分析對(duì)應(yīng)得到;接著通過語義信息建立概念圖,如果領(lǐng)域場(chǎng)景能被匹配到,就讓規(guī)則庫中的規(guī)則和映射規(guī)則一起匹配;最后,通過映射信息點(diǎn)實(shí)現(xiàn)抽取[9]。基于語義角色與概念圖的抽取流程如圖1 所示。

        1.1.2 事件本體法

        定義實(shí)體元素組、事件類別和事件的關(guān)系,從中得到特征項(xiàng)構(gòu)建,再根據(jù)得到的特征項(xiàng)對(duì)事件和事件間的關(guān)系進(jìn)行挖掘,即事件本體法。文獻(xiàn)[10]中提出了一種基于事件本體的文本特征重構(gòu)方法,該方法表明了事件本體法的實(shí)用性。在構(gòu)建事件的特征項(xiàng)時(shí),包括兩個(gè)流程:一是基于本體進(jìn)行特征壓縮,這主要指對(duì)同義項(xiàng)進(jìn)行合并;二是基于本體進(jìn)行擴(kuò)充,這主要指在事件文本中,添加已經(jīng)失去的事件元素特征。

        在“中獎(jiǎng)欺詐”“網(wǎng)絡(luò)色情”“非法交易”三類語料庫上比較了基于事件本體并且支持向量機(jī)的方法和只支持向量機(jī)的方法的準(zhǔn)確性,實(shí)驗(yàn)結(jié)果如表1 所示,與只支持向量機(jī)的方法(平均準(zhǔn)確率為85.0%)相比,基于事件本體并且支持向量機(jī)的方法(平均準(zhǔn)確率為78.7%)更加準(zhǔn)確,這也說明了事件本體能讓分類變得更準(zhǔn)確。

        表1 基于支持向量機(jī)與基于事件本體+支持向量機(jī)的文本分類結(jié)果Tab.1 Text classification results based on support vector machine and based on event ontology+support vector machine

        1.2 觸發(fā)詞法

        觸發(fā)詞法也叫作事件關(guān)鍵詞法。在統(tǒng)計(jì)處理事件句時(shí),在句子的文本中有一類情況出現(xiàn)的事件句比較多,這種情況基本都是在句子文本中有某一種術(shù)語或者詞匯,因此可以通過創(chuàng)建事件觸發(fā)詞詞典,使得事件抽取出現(xiàn)更好的效果[11]。

        創(chuàng)建事件觸發(fā)詞詞典的方法有兩類:一是在應(yīng)用中,如果觸發(fā)詞的詞量沒發(fā)生多少變化,就基于領(lǐng)域經(jīng)驗(yàn)由領(lǐng)域?qū)<沂止?chuàng)建,不過這種方法很依賴領(lǐng)域?qū)<业慕?jīng)驗(yàn);二是根據(jù)詞匯在事件句中已經(jīng)存在的分析統(tǒng)計(jì),把觸發(fā)詞從相應(yīng)的事件句中提取出來,這類方法比第一類方法在觸發(fā)詞的查重率方面有所提高。在觸發(fā)詞字典中,也有兩類方法進(jìn)行系統(tǒng)應(yīng)用:一是通過程序自動(dòng)地讀取建立的觸發(fā)詞庫,這種方法比較靈活并且容易維護(hù);二是在程序代碼中直接寫入觸發(fā)詞,這種方法不夠靈活,必須通過對(duì)程序進(jìn)行修改才能進(jìn)行觸發(fā)詞的增減操作[12]。

        1.3 基于領(lǐng)域本體的本體方法

        領(lǐng)域本體事件基于專業(yè)領(lǐng)域的概念、領(lǐng)域概念的屬性、方法及其概念之間的關(guān)系,但是這些概念可能并不僅僅是事件,甚至有些基本不包含事件。如果把某一領(lǐng)域的事件作為研究的對(duì)象,那么該領(lǐng)域概念可以用事件來表示,并且概念間關(guān)系對(duì)應(yīng)于事件間關(guān)系;但在事件實(shí)體里面,元素之間的關(guān)系一般不存在[13]。在事件抽取算法中,都會(huì)有一個(gè)預(yù)處理階段,這個(gè)階段一般包括有分詞、詞性標(biāo)注、去噪、特征提取等。通過本體例庫里存在的命名實(shí)體以及命名實(shí)體之間的關(guān)系等語義信息,合并有聯(lián)系的詞,刪掉無用信息構(gòu)成領(lǐng)域?qū)嶓w;為了使特征項(xiàng)變少,可以合并同義概念,增加預(yù)處理性能。鄰域本體通常和觸發(fā)詞、模式匹配、語義分析或者機(jī)器學(xué)習(xí)算法一起使用,即基于本體的事件抽取算法。

        1.4 前沿聯(lián)合模型方法

        前沿聯(lián)合模型方法是利用技術(shù)把不同的模型聯(lián)合在一起。下面介紹三種聯(lián)合模型。

        1.4.1 模式識(shí)別和支持向量機(jī)聯(lián)合

        文獻(xiàn)[14]中在進(jìn)行模式識(shí)別時(shí),使用了基于SVM 的算法。在實(shí)驗(yàn)中設(shè)計(jì)了單分類器和多分類器兩種算法,這是根據(jù)多元關(guān)系的特征進(jìn)行研究,抽取事件的關(guān)系識(shí)別及其關(guān)系元。對(duì)于識(shí)別多元關(guān)系的全部角色,研究只使用了一種分類器,即單分類器算法;對(duì)于不一樣語義約束的角色進(jìn)行識(shí)別,研究在多種分類器上進(jìn)行,即多分類器算法,實(shí)驗(yàn)結(jié)果表明,后者的算法效果比前者好。

        1.4.2 機(jī)器學(xué)習(xí)和詞嵌入聯(lián)合

        文獻(xiàn)[15]中提出了一種抽取中文事件的方法。這屬于商務(wù)事件抽取中的一種全新方法。在深度學(xué)習(xí)中,研究對(duì)模式、詞嵌入技術(shù)以及機(jī)器學(xué)習(xí)模型進(jìn)行集成。為擴(kuò)展事件觸發(fā)詞的字典,運(yùn)用了詞嵌入以及事件觸發(fā)詞字典。在機(jī)器學(xué)習(xí)的算法中,引入了觸發(fā)器特征,這種特征在字典中是存在的,研究使得事件類型識(shí)別變得更精細(xì)。

        1.4.3 深度學(xué)習(xí)和詞嵌入聯(lián)合

        文獻(xiàn)[16]中提出了一種表示方法,該方法屬于多重分布式表示,可應(yīng)用在生物醫(yī)學(xué)事件抽取中。在訓(xùn)練模型時(shí),該方法中深度學(xué)習(xí)模型的輸入使用了基于依賴的詞嵌入和任務(wù)特征的分布式方法;在標(biāo)記示例候選時(shí)使用了Softmax 分類器。實(shí)驗(yàn)結(jié)果表明了該方法的先進(jìn)性。

        1.5 事件抽取評(píng)價(jià)方法

        主流的事件抽取評(píng)價(jià)方法有兩種:

        1)微平均值法。

        設(shè)P表示正確標(biāo)注的數(shù)量與系統(tǒng)中進(jìn)行標(biāo)注的總數(shù)之比,即準(zhǔn)確率;R表示正確標(biāo)注的數(shù)量與按語料標(biāo)準(zhǔn)進(jìn)行標(biāo)注的總數(shù)之比,即召回率;F為它們的綜合度量值。計(jì)算公式如式(1)所示:

        2)錯(cuò)誤識(shí)別代價(jià)法。

        設(shè)L表示丟失率;M表示誤報(bào)率;Cmiss表示一次丟失代價(jià);Cfa表示一次誤報(bào)代價(jià);Ltar表示當(dāng)系統(tǒng)作出肯定判斷時(shí)的先驗(yàn)概率,一般為常值。錯(cuò)誤識(shí)別代價(jià)C的計(jì)算公式如式(2)所示:

        在分析不同的算法效果時(shí)要運(yùn)用不同的評(píng)價(jià)方法。通常單一的事件抽取都使用微平均值法來進(jìn)行測(cè)評(píng),而對(duì)于需要作出錯(cuò)誤判斷的事件比如話題追蹤類任務(wù)等常用錯(cuò)誤識(shí)別代價(jià)法來進(jìn)行測(cè)評(píng)。

        2 相關(guān)數(shù)據(jù)集

        目前為止,事件抽取技術(shù)大多使用ACE2005 數(shù)據(jù)集,但是它數(shù)據(jù)規(guī)模較小,具有嚴(yán)重的數(shù)據(jù)稀疏問題,因此后續(xù)研究又使用了其他數(shù)據(jù)集或者借助其他資源來解決數(shù)據(jù)集問題。

        2.1 ACE2005數(shù)據(jù)集

        ACE2005 數(shù)據(jù)集是一種以阿拉伯文、英文以及中文作為培訓(xùn)數(shù)據(jù)并由關(guān)系、實(shí)體以及事件注釋構(gòu)成的不同類型的數(shù)據(jù)集。

        ACE 語料解決了實(shí)體、值、關(guān)系、時(shí)間表達(dá)式以及事件這5 個(gè)子任務(wù)識(shí)別的問題,文檔中存在的語言數(shù)據(jù)通過系統(tǒng)處理,這是子任務(wù)的要求。此外文檔還要輸出提到或者討論子任務(wù)的信息。

        下面是關(guān)于此版本中數(shù)據(jù)量、注釋狀態(tài)以及數(shù)據(jù)源縮略語信息:

        adj、fp1、fp2、timex2norm 文件夾分別表示不同的標(biāo)注過程。ACE 語料在所有任務(wù)上都是通過兩個(gè)獨(dú)立工作的標(biāo)注器來進(jìn)行標(biāo)注。第一輪的標(biāo)注成為1P,與之獨(dú)立的雙重第一輪標(biāo)注成為DUAL。對(duì)于1P 和DUAL 來說,一個(gè)標(biāo)注器完成文件的所有任務(wù)。文件是通過自動(dòng)標(biāo)注工作流程系統(tǒng)(Annotation Work-flow System,AWS)來進(jìn)行分配的,而且文件分配是雙盲的。Note:1P 和DUAL 在文件夾里都是以fp1和fp2 來存放的,也就是說1P 和fp1 對(duì)應(yīng),DUAL 和fp2 對(duì)應(yīng)。每個(gè)文件的1P 和DUAL 版本之間的差異由資深標(biāo)注員或者小組負(fù)責(zé)人來進(jìn)行裁決,從而得到一個(gè)高質(zhì)量的gold standard 文件。gold standard 裁決文件被稱為ADJ(即ADJ 文件夾)。在裁決之后,TIMEX2 值被標(biāo)準(zhǔn)化處理以后得到NORM。這個(gè)語料中的所有數(shù)據(jù)集都已經(jīng)被NORM 標(biāo)注。表2 為英文數(shù)據(jù)源的注釋狀態(tài),表3 為中文和阿拉伯文數(shù)據(jù)源的注釋狀態(tài)。

        表2 英文數(shù)據(jù)源的注釋狀態(tài)Tab.2 Annotation status of English data sources

        表3 中文和阿拉伯文數(shù)據(jù)源的注釋狀態(tài)Tab.3 Annotation status of Chinese and Arabic data sources

        2.2 第四次信息理解會(huì)議數(shù)據(jù)集

        第四次信息理解會(huì)議(Fourth Message Understanding Conference,MUC-4)事件抽取數(shù)據(jù)集包含1 700 篇發(fā)生在拉丁美洲恐怖襲擊的新聞報(bào)道。MUC-4 數(shù)據(jù)集被切分為了1個(gè)dev 集和4 個(gè)測(cè)試集,其中dev 集包含1 300 篇文檔,每個(gè)測(cè)試集中包含100 篇文檔。在使用MUC-4 數(shù)據(jù)集時(shí),使用了dev 集中的1 300 篇文章進(jìn)行訓(xùn)練,test1+test2中的200 篇文章作為dev集,test3+test4 中的200 篇文章作為測(cè)試集。

        MUC-4包含4 種類型的事件模板ARSON、ATTACK、BOMBING、KIDN。事件共用4 種槽位Prepetrator、Instrument、Target 和Victim。Prepetrator 是Prepetrator Invdividual 和Prepetrator Organization 的組合。MUC-4 數(shù)據(jù)集的標(biāo)注樣例如圖2 所示。

        2.3 Freebase數(shù)據(jù)集

        Freebase 包含超過1.25×108個(gè)tuple 關(guān)系元組、超 過4 000 種類別、超過7 000 種屬性,支持超大規(guī)模的collaborative data creation and maintenance,也就是支持信息之間的豐富關(guān)聯(lián)并且賦予這種關(guān)聯(lián)的使用。

        Freebase 里的數(shù)據(jù)包含非常多話題和類型的知識(shí),如關(guān)于人類、媒體、地理位置等信息。同時(shí)Freebase 不僅提供一個(gè)數(shù)據(jù)集或數(shù)據(jù)庫,還提供較為便捷的訪問方式。它支持面向?qū)ο蟮牟樵冋Z言(Metaweb Query Language,MQL)與結(jié)構(gòu)化的查詢對(duì)象;還支持HTTPweb(Hyper Text Transfer Protocol web)端的訪問和JSON(JavaScript Object Notation)數(shù)據(jù)格式的API(Application Program Interface)。

        2.4 其他數(shù)據(jù)集

        1)FrameNet(Frame Network)數(shù)據(jù)集是一個(gè)人讀和機(jī)讀的英語詞匯數(shù)據(jù)庫。它的基本思想很簡單:事件、實(shí)體或者關(guān)系以及對(duì)參與者的描述叫作語義框架,而借助語義框架可以很好地對(duì)大部分單詞含義進(jìn)行理解。在ACE2005 數(shù)據(jù)集中許多類別事件存在著數(shù)據(jù)稀疏問題;為了解決該問題,引入FrameNet 數(shù)據(jù)集,在定義的事件類型里,讓它與ACE2005數(shù)據(jù)集匹配,從而建立新的事件識(shí)別數(shù)據(jù)集。

        2)TAC KBP(Text Analysis Conference,Knowledge Base Population)數(shù)據(jù)集2009—2018。TAC KBP 是通過美國國防高級(jí)研究計(jì)劃局進(jìn)行資助的一種對(duì)實(shí)體鏈接的評(píng)測(cè),TAC KBP 數(shù)據(jù)集一般可用于事件抽取中,用手工進(jìn)行標(biāo)注,新聞與論壇是數(shù)據(jù)來源。

        3)中文事件語料庫(Chinese Emergency Corpus,CEC)屬于生語料數(shù)據(jù)集,生語料來自互聯(lián)網(wǎng)上5 種突發(fā)事件的新聞報(bào)道,經(jīng)過了一系列操作處理,最終把標(biāo)注結(jié)果保存到語料庫。該語料庫總計(jì)332篇,全面標(biāo)注了事件及其事件的要素。

        3 事件表示

        把信息通過結(jié)構(gòu)化的形式表示出來,即事件。而把結(jié)構(gòu)化形式的信息表示為計(jì)算機(jī)能夠理解的形式稱為事件表示,它促進(jìn)了人工智能的發(fā)展,與事件抽取任務(wù)有著密切聯(lián)系。人們?cè)缙诨臼褂秒x散的事件表示,后來開始研究以深度學(xué)習(xí)為基礎(chǔ),用神經(jīng)網(wǎng)絡(luò)來進(jìn)行向量表示的稠密事件表示。

        3.1 離散的事件表示

        早期研究者們基本都使用由事件元素構(gòu)成元組的離散事件表示。如文獻(xiàn)[17]中使用三元組(Oi,P,t)對(duì)事件進(jìn)行表示,O表示給定對(duì)象集合,對(duì)象的謂詞Oi?O;P表示對(duì)象與對(duì)象的關(guān)系或者屬性;t表示事件的發(fā)生時(shí)間。文獻(xiàn)[18]中則在事件表示中加入了角色元素,使用了六元組(P,O1,O2,O3,O4,t)進(jìn)行標(biāo)記,其中,P為事件發(fā)生時(shí)的動(dòng)作或者狀態(tài),也即對(duì)象與對(duì)象的關(guān)系或者屬性;O1為不同數(shù)量事件的實(shí)施者;O2為不同數(shù)量事件作用的對(duì)象;O3為使不同數(shù)量事件發(fā)生的工具;O4表示一個(gè)或者多個(gè)地點(diǎn);t為時(shí)間戳,也即事件的發(fā)生時(shí)間。文獻(xiàn)[19]中使用了四元組(O1,P,O2,t),P表示事件動(dòng)作,也即對(duì)象與對(duì)象的關(guān)系或者屬性;O1為實(shí)施事件者;O2為受事者,也即不同數(shù)量事件作用的對(duì)象;t為時(shí)間戳。一個(gè)事件僅有一個(gè)實(shí)施事件者和受事者。文獻(xiàn)[20]中提出了一種事件表示方法。在腳本事件預(yù)測(cè)任務(wù)里,以時(shí)間為順序?qū)⒃摲椒ㄅc有關(guān)事件合成事件鏈。而在該方法中,構(gòu)成以每個(gè)事件表示為動(dòng)作并且動(dòng)作和角色之間存在依存關(guān)系的二元組。由于角色在相同事件鏈中都是相同的,所以不用在事件表示中加入角色。

        在離散的事件表示研究中,研究者們做了大量工作來對(duì)事件進(jìn)行泛化,提出了基于語義的知識(shí)庫,這很好地解決了離散事件表示所面臨的稀疏性問題。例如文獻(xiàn)[19]在事件元素中,基于WordNet(Word Network)把單詞還原成詞干,為得到泛化事件,把事件動(dòng)作詞泛化為一種類別名稱,該類別名稱存在于VerbNet(Verb Network)里。

        3.2 稠密的事件表示

        研究者們?cè)谏疃葘W(xué)習(xí)技術(shù)不斷發(fā)展的基礎(chǔ)上對(duì)文本學(xué)習(xí)分布式的語義表示進(jìn)行了探索。把字、詞等文本單元嵌入向量空間,對(duì)于任意文本單元語義信息,由語義單元所在的向量空間位置確立,即分布式語義。在此基礎(chǔ)上產(chǎn)生了稠密的事件表示,它的基礎(chǔ)是預(yù)訓(xùn)練詞向量,對(duì)此按照事件的結(jié)構(gòu)進(jìn)行語義組合。對(duì)于低維、稠密的向量,可計(jì)算事件的向量表示。稠密的事件表示分為兩類:基于詞向量參數(shù)化加法的事件表示和基于張量神經(jīng)網(wǎng)絡(luò)的事件表示。

        3.2.1 基于詞向量參數(shù)化加法的事件表示

        對(duì)事件元素的詞向量進(jìn)行相加或拼接操作,再根據(jù)輸入的參數(shù)化函數(shù)將它映射到事件空間向量,即基于詞向量參數(shù)化加法的事件表示。文獻(xiàn)[21]中提出對(duì)事件元素詞向量進(jìn)行操作,求取它的平均值。該方法屬于基線方法。文獻(xiàn)[22]中提出了一種向量表示方法,該方法拼接了事件元素詞向量。文獻(xiàn)[23]中提出一種詞向量組合方法,組合前拼接了事件元素詞向量,在多層全連接神經(jīng)網(wǎng)絡(luò)里面進(jìn)行輸入再組合操作。而文獻(xiàn)[24]中忽視了組合事件元素的詞向量,在文獻(xiàn)[25-26]中直接用事件向量進(jìn)行事件表示。不僅在事件表示中用事件元素向量的和或者平均值來表示,而且在不同的事件元素角色中出現(xiàn)相同詞時(shí)使用不同詞向量來表示。用|V|表示詞表的大小,|R|表示角色的數(shù)量,H表示詞向量的維數(shù),三維張量T∈R|V|×|R|×H由不同角色詞向量組成。通過三個(gè)矩陣A、B、C來表示三維張量T,并且用F個(gè)一階張量的乘積來表示張量的分解,減少了模型參數(shù)數(shù)量。如式(3)所示:

        設(shè)r表示角色獨(dú)熱向量,r和三維張量T的切片相對(duì)應(yīng)。r和T的切片wr如式(4)所示:

        最后,對(duì)于事件元素對(duì)應(yīng)角色的詞向量矩陣,可以在其中尋找其詞向量,并且和所有事件元素詞向量組合成事件向量。

        3.2.2 基于張量神經(jīng)網(wǎng)絡(luò)的事件表示

        對(duì)于基于詞向量參數(shù)化加法的事件表示,雖然取得了良好效果,使詞向量信息被完全利用,但對(duì)于建模事件元素來說,很難以實(shí)現(xiàn)交互,而且在建模時(shí),事件表面形式的微小差異使之很困難。為了解決其中的問題,基于張量神經(jīng)網(wǎng)絡(luò)的事件表示被提出,該方法的事件元素通過雙線性張量運(yùn)算組合得到。

        v1,v2∈Rd表示兩個(gè)事件元素向量,三維張量神經(jīng)網(wǎng)絡(luò)T∈Rk×d×d,可得張量計(jì)算公式如式(5)所示:

        vcomp的結(jié)果是k維向量,由向量v1、v2以及矩陣Ti相乘得到k維向量里一個(gè)維度i上的元素。為了取得事件論元的交互,在雙線性張量運(yùn)算中,模型作了相乘運(yùn)算;因此,雖然事件論元只有很小的表面區(qū)別,但是對(duì)于事件表示來說,語義上會(huì)有很大差別。

        文獻(xiàn)[27]中使用了三元組(O1,P,O2),P表示事件動(dòng)作或者狀態(tài),O1為實(shí)施事件者,O2為受事者。研究考慮了它的事件結(jié)構(gòu),使用了神經(jīng)張量網(wǎng)絡(luò)模型,模型結(jié)構(gòu)如圖3 所示。若使用O1、P、O2分別表示三種事件元素的詞向量,即實(shí)施事件者O1的詞向量為O1、事件動(dòng)作或者狀態(tài)P的詞向量為P、受事者O2的詞向量為O2,使用E表示組合兩個(gè)向量的最終事件向量,Wi和bi均為張量參數(shù)。由張量運(yùn)算、線性運(yùn)算以及激活函數(shù)f組合起來,計(jì)算公式如式(6)~(8)所示:

        文獻(xiàn)[21]中同樣使用了三元組(s,p,o),考慮了事件結(jié)構(gòu),其中:s表示主語,p表示謂語,o表示賓語,使用了謂詞張量模型以及角色—因式張量模型,模型結(jié)構(gòu)見圖4。對(duì)謂語p用三維張量T進(jìn)行建模。分別用s表示主語s的向量、p表示謂語p的向量、o表示賓語o的向量,事件向量e由主語向量s和賓語向量o通過張量T語義組合形成,它的每個(gè)元素ei的計(jì)算公式如下:

        謂詞張量(Predicate Tensor)模型通過張量T由謂語詞向量p動(dòng)態(tài)計(jì)算得出,然后由張量T語義組合主語和賓語。模型參數(shù)用W和U來表示,d表示詞向量維數(shù),W和U都是d×d×d的三維張量,如式(10)~(11)所示:

        角色-因式張量(Role-Factored Tensor)模型單獨(dú)地對(duì)事件的主語及謂語、謂語及賓語進(jìn)行語義組合,組合后的兩個(gè)向量通過線性變換后相加得到事件向量,如式(12)~(14)所示:

        文獻(xiàn)[28]中使用了較小維度的張量值來分解低矢量的張量,使模型參數(shù)變少了。低秩張量分解運(yùn)算的示意圖見圖5。用T1∈Rk×d×r、T2∈Rk×d×r、t∈Rk×d這三個(gè)參數(shù)來代替三階張量參數(shù)T,而T的近似值為Tappr,表示每一個(gè)切片,如式(15)所示:

        在使用低矢量張量的分解時(shí),不僅減少了模型參數(shù),還能取得和以前模型差不多甚至更好的性能效果。

        4 元事件抽取技術(shù)

        元事件抽取方式有三類:基于模式匹配、基于機(jī)器學(xué)習(xí)和基于神經(jīng)網(wǎng)絡(luò)的元事件抽取。本章將對(duì)這三種類型進(jìn)行詳細(xì)介紹。

        4.1 基于模式匹配的元事件抽取

        模式的作用是在目標(biāo)信息的上下文指定構(gòu)成約束環(huán),并且對(duì)語言和領(lǐng)域知識(shí)進(jìn)行融合。在模式的指導(dǎo)下對(duì)元事件進(jìn)行識(shí)別和抽取,即基于模式匹配的元事件抽取。為了使模式約束的信息得到滿足,必須使用多種模式匹配算法進(jìn)行抽取,構(gòu)建模式是核心。基于模式匹配的元事件抽取分為兩步:模式獲取、元事件抽取,它的抽取框架見圖6。

        在基于模式匹配的元事件抽取中,早期使用手工方法獲取模式,這種方法費(fèi)時(shí)間和人力,而且用戶要有相當(dāng)高的技能水平。文獻(xiàn)[29]中對(duì)句型模板進(jìn)行填充時(shí)建立了抽取規(guī)則,該規(guī)則是通過手工來確定的。在文本進(jìn)行處理后,對(duì)事件信息進(jìn)行抽取并填充句型模板。文獻(xiàn)[30]中研究了自動(dòng)獲取模式,提出了一種學(xué)習(xí)方法,該方法基于領(lǐng)域無關(guān)概念知識(shí)庫。在學(xué)習(xí)模式中,信息抽?。↖nformation Extraction,IE)任務(wù)被用戶定義,在沒有分類和標(biāo)準(zhǔn)語料中,IE 模式能自動(dòng)被系統(tǒng)學(xué)習(xí)出來,降低了對(duì)用戶的勞動(dòng)力和技能的要求。文獻(xiàn)[31]中將軍事演習(xí)組塊的識(shí)別和領(lǐng)域詞典結(jié)合起來了,這是一種基于種子模式的自舉方法。實(shí)驗(yàn)結(jié)果說明了該方法的有效性。

        通常,使用模式匹配的方法來進(jìn)行元事件抽取可以在特定領(lǐng)域內(nèi)產(chǎn)生更好的結(jié)果;但是系統(tǒng)的可移植性不好,從一個(gè)領(lǐng)域移到另一個(gè)領(lǐng)域時(shí),必須重新創(chuàng)建模式。建模既費(fèi)時(shí)又費(fèi)力,并且需要該領(lǐng)域的專家指導(dǎo)。盡管引入機(jī)器學(xué)習(xí)方法可以在一定程度上加快模式的獲取,但是模式之間的沖突也是一個(gè)難題。此外,大多數(shù)可用的研究語義級(jí)別仍處于句法級(jí)別,并且語義級(jí)別仍需要改進(jìn)。

        4.2 基于機(jī)器學(xué)習(xí)的元事件抽取

        4.2.1 基于機(jī)器學(xué)習(xí)的元事件抽取方法

        基于機(jī)器學(xué)習(xí)的元事件抽取有兩類方法:管道式抽取方法、聯(lián)合學(xué)習(xí)方法。

        管道式元事件抽取方法將抽取分為觸發(fā)詞以及論元識(shí)別等任務(wù),它被轉(zhuǎn)化為多階段進(jìn)行分類的問題。抽取的基礎(chǔ)是觸發(fā)詞的識(shí)別,后面的抽取依賴觸發(fā)詞識(shí)別取得的成果。文獻(xiàn)[3]中在抽取元事件時(shí)使用了管道式方法,分成觸發(fā)詞檢測(cè)、論元檢測(cè)、事件對(duì)齊以及事件關(guān)系檢測(cè)四部分,并對(duì)它們進(jìn)行特征選擇,模型構(gòu)建時(shí)選擇了K近鄰以及MEM 算法,針對(duì)同一任務(wù)對(duì)兩類算法進(jìn)行性能對(duì)比。

        由于在管道式方法中,先進(jìn)行觸發(fā)詞檢測(cè)再進(jìn)行論元檢測(cè),論元信息在前者不能被考慮到,這對(duì)前者的精度有所影響。針對(duì)該問題,研究者們提出了聯(lián)合學(xué)習(xí)方法。這種方法對(duì)各個(gè)任務(wù)都建立了一個(gè)聯(lián)合學(xué)習(xí)的模型,使得在提取觸發(fā)詞與論元信息時(shí),它們之間有相互促進(jìn)的良好效果。文獻(xiàn)[32]中使用了聯(lián)合預(yù)測(cè)模型,使用帶不精確搜索的結(jié)構(gòu)化感知器來聯(lián)合提取同一句子中同時(shí)發(fā)生的觸發(fā)點(diǎn)和論據(jù)。根據(jù)當(dāng)前模型w尋找最佳配置z∈y,f(x,y′)表示特征向量,如式(16)所示:

        感知器在線學(xué)習(xí)模型w,設(shè)D=為訓(xùn)練實(shí)例集(j索引當(dāng)前訓(xùn)練實(shí)例)。在每次迭代中,x在當(dāng)前模型下找到最優(yōu)配置z,如果z不正確,則更新權(quán)值,如式(17)所示:

        由于技術(shù)的挑戰(zhàn),還沒有將聯(lián)合產(chǎn)出結(jié)構(gòu)作為一項(xiàng)單一任務(wù)進(jìn)行預(yù)測(cè)的工作。而文獻(xiàn)[33]中將實(shí)體識(shí)別和事件抽取作為一個(gè)聯(lián)合任務(wù)進(jìn)行,并用基于轉(zhuǎn)移的神經(jīng)方法進(jìn)行建模。為了解決問題,研究使用了基于神經(jīng)轉(zhuǎn)換的框架建立了第一個(gè)模型,在狀態(tài)轉(zhuǎn)換過程中逐步預(yù)測(cè)復(fù)雜的關(guān)節(jié)結(jié)構(gòu),動(dòng)作預(yù)測(cè)模型見圖7。在該預(yù)測(cè)模型中,存儲(chǔ)歷史行為用棧A表示;存儲(chǔ)的部分實(shí)體用棧e表示;維護(hù)未被處理的單詞用緩沖區(qū)β表示;維護(hù)處理過的元素用棧σ表示;維護(hù)暫時(shí)從σ中出棧的元素;未來還會(huì)回棧的用隊(duì)列δ表示;λ是一個(gè)變量,每次只提及一個(gè)元素。在標(biāo)準(zhǔn)基準(zhǔn)上的結(jié)果顯示了聯(lián)合模型的優(yōu)勢(shì),它給出了文獻(xiàn)中最好的結(jié)果。

        文獻(xiàn)[34]中設(shè)計(jì)了一種基于跨度的事件提取器,采用聯(lián)合學(xué)習(xí)抽取的方法對(duì)所有帶注釋的事件現(xiàn)象進(jìn)行抽取。在新冠肺炎的預(yù)測(cè)任務(wù)中,自動(dòng)提取的癥狀信息改善了測(cè)試結(jié)果的預(yù)測(cè)。該方法還將在事件抽取相關(guān)領(lǐng)域繼續(xù)使用。

        總而言之,盡管基于機(jī)器學(xué)習(xí)的元事件抽取方法對(duì)語料的內(nèi)容格式不是很依賴,然而卻存在著數(shù)據(jù)稀疏性問題,必須使用大規(guī)模語料?,F(xiàn)如今的語料不能滿足要求,使用人工標(biāo)注又比較浪費(fèi)人力資源;另外,機(jī)器學(xué)習(xí)的結(jié)果與特征選取有關(guān)。因此機(jī)器學(xué)習(xí)方法研究的重點(diǎn)是解決數(shù)據(jù)稀疏性問題和選擇合適特征。

        4.2.2 核心任務(wù)及面臨問題

        事件類別識(shí)別、分類和事件元素識(shí)別是元事件識(shí)別的兩種核心任務(wù)。當(dāng)識(shí)別元事件利用機(jī)器學(xué)習(xí)的方法時(shí),元事件的分類及其文本分類存在差異,它的主要特點(diǎn)是分類簡短,大部分是完整的句子。由于它是事件表述語句,因此語句中包含的信息量很大。

        在事件元素的識(shí)別任務(wù)中,文獻(xiàn)[35]中第一次引入MEM,實(shí)現(xiàn)了事件抽取。該模型在估計(jì)概率時(shí)使用了除所施加的約束以外盡可能少的假設(shè)原則。這些約束通常來自訓(xùn)練數(shù)據(jù),表達(dá)特征和結(jié)果之間的某種關(guān)系。滿足上述性質(zhì)的概率分布是具有MEM 的概率分布,它是唯一的,與最大似然分布一致,并具有指數(shù)形式,如式(18)所示:

        其中:o表示結(jié)果;h表示歷史(或上下文);Z(h)是歸一化函數(shù)。每個(gè)特征函數(shù)是二元函數(shù)。例如,在預(yù)測(cè)單詞是否屬于單詞類時(shí),o是true 或false,h指的是周圍的上下文。如式(19)所示:

        文獻(xiàn)[36]中在研究語義角色標(biāo)注時(shí),用了CRF 模型來做實(shí)驗(yàn)。這還有利于在TimeML(Time Markup Language)進(jìn)行事件抽取,使得系統(tǒng)的性能大大提高了。為了使系統(tǒng)識(shí)別的能力提升,有時(shí)候讓機(jī)器學(xué)習(xí)和模型匹配混合使用或者使用多個(gè)機(jī)器學(xué)習(xí)算法。如文獻(xiàn)[3]中為了完成事件類別識(shí)別和元素識(shí)別,把MegaM 和TiMBL(Tilburg Memory-Based Learner)這兩類機(jī)器學(xué)習(xí)算法聯(lián)系在一起,并在ACE 語料庫上進(jìn)行了實(shí)驗(yàn),證明了該方法比單一算法好。

        以上對(duì)于事件的探測(cè),都利用了觸發(fā)詞,但它只占全部詞的小部分,致使在訓(xùn)練時(shí)許多反例被引進(jìn)來,正反例嚴(yán)重失衡。并且在判斷每個(gè)詞的時(shí)候,增加了額外的計(jì)算量。為了解決此問題,文獻(xiàn)[37]中在對(duì)事件類別進(jìn)行識(shí)別時(shí),采用了將觸發(fā)詞擴(kuò)展與二元分類結(jié)合的方法。在相同特征下,分別測(cè)試文獻(xiàn)[2]與文獻(xiàn)[37]中的方法,實(shí)驗(yàn)對(duì)比結(jié)果如表4所示,表明了文獻(xiàn)[2]中的方法更有優(yōu)勢(shì)。此外,在訓(xùn)練模型時(shí),文獻(xiàn)[2]中的詞典收錄了觸發(fā)詞并且擴(kuò)展了同義詞,解決了正反例嚴(yán)重失衡的問題,還使數(shù)據(jù)稀疏得到了緩解,在ACE 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示得了良好的效果。

        表4 相同特征下不同方法的實(shí)驗(yàn)結(jié)果對(duì)比 單位:%Tab.4 Comparison of experimental results of different methods under same features unit:%

        文獻(xiàn)[2]和文獻(xiàn)[4]在進(jìn)行事件探測(cè)時(shí)不使用傳統(tǒng)的基于觸發(fā)詞方法,而使用了基于事件實(shí)例方法。該方法識(shí)別實(shí)例為句子而不是詞語,解決了正反例嚴(yán)重失衡的問題,數(shù)據(jù)稀疏也得到了緩解。在文獻(xiàn)[2]的實(shí)驗(yàn)中,為把非事件句篩選掉,使用了二元分類器,再對(duì)取得的候選事件句進(jìn)行分類,使用了多元分類器。在實(shí)驗(yàn)中,分別對(duì)8 類事件類別以及33類事件子類別進(jìn)行測(cè)試和訓(xùn)練,實(shí)驗(yàn)結(jié)果如表5。文獻(xiàn)[4]中則將問題轉(zhuǎn)化為聚類問題,以此得到事件句。

        表5 文獻(xiàn)[2]方法在不同事件類別上的實(shí)驗(yàn)結(jié)果 單位:%Tab.5 Experimental results of literature[2] method on different types of events unit:%

        此外,文獻(xiàn)[38]中提出了一個(gè)新的學(xué)習(xí)范式,將事件抽取轉(zhuǎn)換成為一個(gè)機(jī)器閱讀理解問題。該方法是將事件模式轉(zhuǎn)換成一組自然問題,是一種基于網(wǎng)絡(luò)的問答過程,以事件抽取的形式檢索答案。實(shí)驗(yàn)結(jié)果顯示了該方法在解決數(shù)據(jù)稀疏性和正反例失衡問題的優(yōu)越性。

        4.3 基于神經(jīng)網(wǎng)絡(luò)的抽取方法

        在元事件抽取方法中,結(jié)合神經(jīng)網(wǎng)絡(luò)進(jìn)行抽取是一種主要方法,該方法屬于有監(jiān)督多元分類,該方法有特征選擇以及分類模型兩大流程。本文分別從使用特征的范圍不同、模型學(xué)習(xí)方式不同、是否融合外部資源三方面對(duì)該方法進(jìn)行描述。

        4.3.1 根據(jù)使用特征的范圍分類

        句子級(jí)和篇章級(jí)是元事件抽取根據(jù)使用特征范圍的分類。特征僅由句子內(nèi)部得到的是句子級(jí)事件抽取,它的特征適用于全部事件抽??;特征里面有跨句子、跨文檔信息的是篇章級(jí)事件抽取,它的特征適用于面向?qū)嶋H任務(wù)挖掘。

        在句子級(jí)基于神經(jīng)網(wǎng)絡(luò)的事件抽取中,與傳統(tǒng)離散特征的區(qū)別是它的特征是連續(xù)型向量,并在此基礎(chǔ)上學(xué)習(xí)了更抽象的特征,該特征依托在各種各樣神經(jīng)網(wǎng)絡(luò)模型上。如文獻(xiàn)[5]中在事件抽取和事件識(shí)別任務(wù)中都使用了同樣的方法,即神經(jīng)網(wǎng)絡(luò)方法。在傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模型中,為使性能方面有所突破,加入了動(dòng)態(tài)多池(dynamic multi-pooling)機(jī)制,構(gòu)成了動(dòng)態(tài)多池CNN(Dynamic Multi-pooling CNN,DMCNN),DMCNN的結(jié)構(gòu)[5]如圖8 所示。

        對(duì)于當(dāng)前詞,輸入這個(gè)詞和它前后的c個(gè)詞的embedding,通過DMCNN 可以得到特征向量,再通過特征向量進(jìn)行有監(jiān)督訓(xùn)練完成抽取和識(shí)別。此外,對(duì)于事件抽取和識(shí)別,在初始表示每個(gè)單詞時(shí)都選擇了預(yù)訓(xùn)練詞向量;在建模研究中,都對(duì)單詞的語義和語法信息進(jìn)行了組合。實(shí)驗(yàn)結(jié)果表明使用神經(jīng)網(wǎng)絡(luò)特征對(duì)句子級(jí)事件進(jìn)行抽取可以取得良好效果。

        在篇章級(jí)基于神經(jīng)網(wǎng)絡(luò)的事件抽取中,需要跨句子或跨文檔信息,以此作為特征來完成任務(wù)。如文獻(xiàn)[7]中首先研究端到端神經(jīng)序列模型(帶有預(yù)先訓(xùn)練的語言模型表示)如何在文檔級(jí)角色填充提取中執(zhí)行,以及捕獲的上下文長度如何影響模型的性能。為了動(dòng)態(tài)地聚集在不同粒度級(jí)別(例如句子級(jí)和段落級(jí)),提出了一種新的多粒度閱讀器。

        在多粒度閱讀器模型結(jié)構(gòu)嵌入層中,每個(gè)token 通過單詞嵌入和上下文符號(hào)表征拼接表示;詞嵌入使用GloVe(Global Vectors for word representation)詞向量模型,獲得固定長度的預(yù)訓(xùn)練詞向量。預(yù)訓(xùn)練語言模型表征已經(jīng)被證明了擁有可以超出句子邊界建模上下文的能力,并且在一系列自然語言處理任務(wù)上表現(xiàn)良好。在MUC-4 事件抽取數(shù)據(jù)集上評(píng)估了該模型,結(jié)果表明最佳系統(tǒng)比以前的工作表現(xiàn)更好。多粒度閱讀器模型結(jié)構(gòu)如圖9 所示。該模型與DMCNN 類似,均是由嵌入層到句子級(jí)別,再進(jìn)行后續(xù)抽取和識(shí)別;而與DMCNN 分類器提取結(jié)果不同的是該模型使用了融合機(jī)制再到CRF 的過程。

        文獻(xiàn)[39]中提出了一種文檔級(jí)別的神經(jīng)事件參數(shù)抽取模型,通過將任務(wù)公式轉(zhuǎn)化為事件模板后的條件生成,還通過創(chuàng)建一個(gè)端到端的零觸發(fā)事件提取框架表明了模型的移植性。

        在以前的事件抽取研究中,大多數(shù)方法都直接基于觸發(fā)詞的有關(guān)特性進(jìn)行研究,如一些分類的任務(wù)被用來輔助論元角色;但在對(duì)觸發(fā)詞進(jìn)行識(shí)別的任務(wù)里,沒有研究論元信息對(duì)它的作用。文獻(xiàn)[40]中通過結(jié)合注意力模型,在事件識(shí)別里面成功地輸入了論元信息,該注意力模型屬于有監(jiān)督論元。實(shí)驗(yàn)結(jié)果表明當(dāng)識(shí)別事件觸發(fā)詞時(shí),可以使用論元信息進(jìn)行輔助。在該論元注意力模型中,在進(jìn)行觸發(fā)詞的識(shí)別時(shí),將論元信息直接與之結(jié)合起到輔助作用,這與在聯(lián)合模型中間接地對(duì)觸發(fā)詞和論元信息進(jìn)行結(jié)合然后共同輔助是不一樣的。如果把事件檢測(cè)當(dāng)成多分類任務(wù),而在句子中,將每一個(gè)符號(hào)全當(dāng)成候選觸發(fā)詞,對(duì)候選觸發(fā)詞進(jìn)行分類就是它的目標(biāo)。

        論元注意力模型由上下文表示學(xué)習(xí)和事件檢測(cè)器兩部分組成。其中,上下文表示學(xué)習(xí)的主要作用是通過注意機(jī)制獲取上下文詞匯的表示和實(shí)體類型信息的表示;事件檢測(cè)器的作用是基于已經(jīng)學(xué)習(xí)到的表示來對(duì)每一個(gè)候選詞進(jìn)行分類,也就是對(duì)事件進(jìn)行分類。模型結(jié)構(gòu)如圖10 所示,該模型與DMCNN 均采用了分部分層次進(jìn)行事件抽取的操作,最后均由分類器對(duì)結(jié)果進(jìn)行輸出。

        4.3.2 根據(jù)模型學(xué)習(xí)的方式分類

        根據(jù)模型學(xué)習(xí)方式分類的元事件抽取有流水線和聯(lián)合模型。

        流水線模型把元事件抽取分為觸發(fā)詞識(shí)別和論元識(shí)別等任務(wù),依次完成全部任務(wù)。其中,在所有元事件抽取流程中,基礎(chǔ)是觸發(fā)詞識(shí)別,它取得的成果將會(huì)對(duì)之后的工作產(chǎn)生很大影響。由于文獻(xiàn)[3]中沒有考慮到論元信息,其觸發(fā)詞的精確度有影響,因此研究者們提出了聯(lián)合學(xué)習(xí)方法。

        文獻(xiàn)[32]中在進(jìn)行事件識(shí)別及其對(duì)論元角色進(jìn)行分類時(shí),采用了聯(lián)合學(xué)習(xí)的方法。結(jié)構(gòu)化感知機(jī)(structured perceptron)在研究中起到輔助作用,用來在聯(lián)合學(xué)習(xí)中完成2 個(gè)任務(wù),即實(shí)體識(shí)別和實(shí)體對(duì)的關(guān)系分類。研究中還使用離散特征進(jìn)行特征表示。該研究發(fā)現(xiàn)了聯(lián)合學(xué)習(xí)方法比流水線方法效率更高,這在論元角色進(jìn)行分類時(shí)更為突出。在基于神經(jīng)網(wǎng)絡(luò)的元事件抽取中,使用聯(lián)合神經(jīng)網(wǎng)絡(luò)模型還簡化了特征工程。文獻(xiàn)[41]中在進(jìn)行事件識(shí)別及其對(duì)論元角色進(jìn)行分類時(shí),也采用了聯(lián)合學(xué)習(xí)的方法,設(shè)計(jì)了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的模型。為進(jìn)行特征表示,設(shè)計(jì)了局部和全局特征,其中,文本序列和局部窗口特征屬于局部特征。在基于RNN 的模型中傳入句子表示,序列特征由此獲得;局部窗口特征通過窗口里面的詞向量獲得。此外,還設(shè)計(jì)了記憶網(wǎng)絡(luò)(Memory Network)模型進(jìn)行建模,由此獲取了全局特征,并且2 個(gè)任務(wù)的性能也有所提升,取得了良好效果。

        以前大多采用聯(lián)合學(xué)習(xí)方法進(jìn)行事件識(shí)別及其對(duì)論元角色進(jìn)行分類,而文獻(xiàn)[42]中首次對(duì)聯(lián)合學(xué)習(xí)實(shí)體進(jìn)行識(shí)別。在文檔中抽取事件以及實(shí)體,在此環(huán)節(jié)通過聯(lián)合推斷讓信息流貫穿3 個(gè)子模塊,并且在全局優(yōu)化中為觸發(fā)變量t、論元角色變量r及實(shí)體變量α賦值,如式(20)所示:

        式(20)由三部分組成:第一項(xiàng)是在事件內(nèi)部結(jié)構(gòu)模塊的預(yù)估參數(shù)上單個(gè)事件置信度之和;第二項(xiàng)是事件對(duì)模塊的預(yù)估參數(shù)上事件之間關(guān)系的置信度之和;第三項(xiàng)是實(shí)體識(shí)別的置信度之和。實(shí)驗(yàn)結(jié)果在置信度上取得了良好效果,該研究也在聯(lián)合學(xué)習(xí)實(shí)體識(shí)別任務(wù)上取得了重大突破。

        此外,文獻(xiàn)[43]中提出了一種事件提取的可解釋方法,通過為兩個(gè)目標(biāo)聯(lián)合訓(xùn)練來緩解泛化和可解釋之間的緊張關(guān)系。使用一個(gè)編碼器-解碼器架構(gòu),它聯(lián)合訓(xùn)練一個(gè)用于事件提取的分類器以及一個(gè)規(guī)則解碼器,生成解釋事件分類器決策的語法-語義規(guī)則。在解釋事件分類器中,有以下學(xué)習(xí)以及訓(xùn)練過程,如式(21)~(26)所示:

        其中:Wq、WK、Wv為學(xué)習(xí)矩陣,維數(shù)為200×200;HE包含雙向長短時(shí)記憶(Bi-directional Long Short-Term Memory,Bi-LSTM)的隱藏狀態(tài);Hz是HE中實(shí)體z的隱藏狀態(tài)。將每個(gè)上下文向量C與實(shí)體向量H連接起來,并使用一個(gè)Softmax 函數(shù)將連接的向量提供給兩個(gè)前饋層,使用其輸出預(yù)測(cè)該位置是否有觸發(fā)器,使用二進(jìn)制日志損失函數(shù)計(jì)算分類器的損失。這種方法可以用于半監(jiān)督學(xué)習(xí),并且當(dāng)在由基于規(guī)則的系統(tǒng)生成的自動(dòng)標(biāo)記的數(shù)據(jù)上進(jìn)行訓(xùn)練時(shí),其性能得到了提高。

        文獻(xiàn)[44]中提出利用事件中參數(shù)的角色信息,設(shè)計(jì)一個(gè)分層策略網(wǎng)絡(luò)(Hierarchical Policy Network,HPNet)來執(zhí)行聯(lián)合事件抽?。‥vent Extraction,EE)。整個(gè)事件處理過程是通過一個(gè)兩級(jí)層次結(jié)構(gòu)來完成的,該結(jié)構(gòu)由兩個(gè)用于事件檢測(cè)和參數(shù)檢測(cè)的策略網(wǎng)絡(luò)組成,實(shí)現(xiàn)了子任務(wù)之間的深層信息交互,處理多事件問題更加自然。在ACE2005 和TAC2015進(jìn)行大量實(shí)驗(yàn),分別使用MEM[35]、DMCNN[5]、HPNet[44]的實(shí)驗(yàn)結(jié)果如表6 所示。從表6 可以看出HPNet 具有最先進(jìn)的性能,并且對(duì)于具有多個(gè)事件的句子,優(yōu)勢(shì)更明顯。

        表6 ACE2005和TAC2015數(shù)據(jù)集上各個(gè)模型的結(jié)果對(duì)比 單位:%Tab.6 Results comparison of different models on ACE2005 and TAC2015 datasets unit:%

        4.3.3 根據(jù)是否融合外部資源分類

        在元事件抽取任務(wù)中,大多使用ACE2005 數(shù)據(jù)集,它含有很稀缺的有標(biāo)記事件數(shù)據(jù),但是標(biāo)注質(zhì)量不太好,而且規(guī)模很小、事件類型也很稀疏,這對(duì)完成事件抽取整體任務(wù)有很大影響,所以大量研究都試著使用外部資源來完成抽取。根據(jù)是否融合外部資源,可分成基于同源數(shù)據(jù)和融合外部資源兩類。

        文獻(xiàn)[45]職工為解決事件類型稀疏的問題,使用了FrameNet 數(shù)據(jù)集來輔助抽取。將ACE2005 的事件類型上加入FrameNet 里面的框架進(jìn)行匹配,研究設(shè)計(jì)了全新的基于FrameNet 的數(shù)據(jù)集,該數(shù)據(jù)集在事件識(shí)別等任務(wù)上取得了良好效果。

        對(duì)從FrameNet 檢測(cè)到的事件進(jìn)行間接評(píng)估,它基于的直覺是具有更高精度的事件預(yù)計(jì)會(huì)給基本模型帶來更多的改進(jìn)。使用自動(dòng)檢測(cè)到的事件擴(kuò)充ACE 語料,然后分別使用文獻(xiàn)[5]方法、文獻(xiàn)[40]方法、文獻(xiàn)[41]方法、只使用人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)[45]、在ANN 中加入FrameNet 方法[45]共5 種方法進(jìn)行實(shí)驗(yàn),結(jié)果如表7 所示??芍墨I(xiàn)[45]中的兩個(gè)方法在FrameNet 事件檢測(cè)中的有效性。

        表7 使用自動(dòng)檢測(cè)到的事件擴(kuò)展訓(xùn)練數(shù)據(jù)的效果 單位:%Tab.7 Effect of expanding training data with events automatically detected unit:%

        此外,文獻(xiàn)[46]中融合外部資源,研究設(shè)計(jì)了一個(gè)基于維基百科的事件數(shù)據(jù)集,該數(shù)據(jù)集使用了Freebase 來輔助設(shè)計(jì)。在Freebase中,首先使用了統(tǒng)計(jì)方法找到在它任一事件類型里面的關(guān)鍵論元集合,然后通過在維基百科里面的每個(gè)句子,判斷它里面是否存在Freebase 里的任一事件實(shí)例的全部關(guān)鍵論元,以此來判斷里面有沒有存在事件。在存在事件的維基百科句子里使用了統(tǒng)計(jì)方法,以此找到每個(gè)Freebase事件類型里面的重要觸發(fā)詞。為對(duì)觸發(fā)詞進(jìn)行篩選和對(duì)名詞性的觸發(fā)詞進(jìn)行擴(kuò)展,還借用了FrameNet 來輔助進(jìn)行,最后得到了數(shù)據(jù)集。該數(shù)據(jù)集是從維基百科中得到的有標(biāo)注的數(shù)據(jù)集,它被用來和ACE2005 數(shù)據(jù)集一起訓(xùn)練模型。

        為了獲取事件抽取所需數(shù)據(jù)的方法,可用Freebase 和FrameNet 進(jìn)行自動(dòng)標(biāo)注。任一事件類型的關(guān)鍵論元與觸發(fā)詞都可以通過以上方法探測(cè)得到,最后利用得到的關(guān)鍵論元與觸發(fā)詞來從文本中標(biāo)注事件。該方法的體系結(jié)構(gòu)如圖11。

        文獻(xiàn)[47]中使用了外部資源來建立批量事件數(shù)據(jù)集,該數(shù)據(jù)集是從維基百科和Freebase 中建立的。為確定事件是否發(fā)生,該研究以是否含有關(guān)鍵論元來確定,這和以前在ACE2005 中用觸發(fā)詞的方式來確定有所不同。此外,為獲得每個(gè)事件類型的關(guān)鍵論元集,該研究也使用了統(tǒng)計(jì)方法,從Freebase 里面進(jìn)行抽取。設(shè)計(jì)中還含有事件抽取正例,這是從事件實(shí)例的關(guān)鍵論元的維基百科句子得來的。此外,為得到質(zhì)量更高的有標(biāo)注數(shù)據(jù)集,該研究還對(duì)遠(yuǎn)距離監(jiān)督的進(jìn)程實(shí)現(xiàn)了約束。

        在以上研究中,事件抽取是直接抽取關(guān)鍵的論元,再加上論元大多是詞組,因此將事件抽取轉(zhuǎn)化成一個(gè)序列標(biāo)注問題。目標(biāo)是標(biāo)出句子里的標(biāo)簽結(jié)構(gòu)BIO(Beginning,Inside,Outside),從而找到了這一堆實(shí)體,再去元數(shù)據(jù)CVT(Compound Value Types)表里匹配即可。序列標(biāo)注的模型使用Bi-LSTM+CRF+整數(shù)線性規(guī)劃(Integer Linear Programming,ILP)。Bi-LSTM 可以對(duì)于每個(gè)單獨(dú)的詞,很好地預(yù)測(cè)標(biāo)簽BIO;CRF 的目標(biāo)函數(shù)是整個(gè)序列的聯(lián)合概率,可以讓相鄰的標(biāo)簽之間滿足該有的依存規(guī)則;ILP 的過程是最大化目標(biāo)函數(shù),如式(27)所示:

        其中:P和A分別是CRF 中的發(fā)射分?jǐn)?shù)(emission score)和過渡分?jǐn)?shù)(transition score);Pi,j表示標(biāo)簽i到標(biāo)簽j的概率;Ai,j表示標(biāo)簽i到標(biāo)簽j的過渡分?jǐn)?shù),是給定的參數(shù)。

        此外,文獻(xiàn)[48]中使用了外部資源來進(jìn)行事件抽取,通過設(shè)計(jì)一種面向任務(wù)的對(duì)話系統(tǒng),形成了一個(gè)由強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的框架,實(shí)現(xiàn)了利用事件參數(shù)關(guān)系來進(jìn)行事件抽取,并在ACE2005 上評(píng)估了該方法的優(yōu)越性。文獻(xiàn)[49]中則是將事件抽取范例公式化為一個(gè)問答任務(wù),基于問答系統(tǒng)以端到端的方式提取事件參數(shù),實(shí)驗(yàn)結(jié)果表明了該方法的優(yōu)越性。

        5 主題事件抽取技術(shù)

        元事件抽取只能在句子層面進(jìn)行抽取,為了滿足對(duì)一個(gè)及其以上的文檔進(jìn)行抽取,主題事件抽取應(yīng)運(yùn)而生,它是由一個(gè)以上的動(dòng)作或者狀態(tài)構(gòu)成。為了對(duì)相同主題事件中的文檔進(jìn)行描述,需要確定進(jìn)行描述的文檔集合;并且在主題事件的集合里面有許多片段,需要將它們進(jìn)行合并,這些是主題事件抽取的核心。將主題事件抽取分為基于事件框架和基于本體的主題事件抽取兩類。

        5.1 基于事件框架的主題事件抽取

        對(duì)事件框架進(jìn)行定義,將它結(jié)構(gòu)化、層次化,然后對(duì)主題事件抽取進(jìn)行指導(dǎo),通過框架來闡述主題事件的各方面以及歸納事件信息,即基于事件框架的主題事件抽取。可以把框架當(dāng)作一類知識(shí)表示的方法,可對(duì)有關(guān)概念的輪廓框架進(jìn)行刻畫。在人們處在一個(gè)新的狀態(tài)時(shí),會(huì)在人腦中進(jìn)行搜索,從眾多情景狀態(tài)里面找到其中一個(gè),讓它來認(rèn)識(shí)新事物。這些眾多的情景狀態(tài)就叫知識(shí)框架。對(duì)于事件側(cè)面,在語義上能夠?qū)λM(jìn)行分離,因此框架結(jié)構(gòu)屬于一種分類體系,把它用來對(duì)各種各樣的事件側(cè)面進(jìn)行分隔。對(duì)于事件,需要用詞語形容它的不同側(cè)面,這樣的詞語稱為“側(cè)面詞”。而分類體系可通過“側(cè)面詞”進(jìn)行創(chuàng)建,這就是事件框架。對(duì)于框架方法,核心是要出現(xiàn)完全的事件框架體系;對(duì)于研究者們,研究的方向是提高構(gòu)建框架的完整性和自動(dòng)化程度,這也是研究的重點(diǎn)。

        5.2 基于本體的主題事件抽取

        在知識(shí)工程與人工智能中,本體是很重要的課題,主要用來得到有關(guān)的領(lǐng)域知識(shí)。關(guān)于領(lǐng)域知識(shí),它們之間有共同理解,還能找到其中一起認(rèn)可的詞匯,對(duì)于這一系列詞匯彼此之間的關(guān)系,能從各種各樣的層次形式化模式里得到。根據(jù)本體的特點(diǎn),很適合進(jìn)行主題事件抽取。對(duì)于基于本體的主題事件抽取,主要是按照本體描述的信息來進(jìn)行抽取,該信息包括概念、關(guān)系等,抽取的內(nèi)容是文本里面的有關(guān)實(shí)體信息和側(cè)面事件。抽取按照3 步進(jìn)行:建立領(lǐng)域本體,是后續(xù)抽取工作的基礎(chǔ);基于領(lǐng)域本體根據(jù)文本內(nèi)容進(jìn)行自動(dòng)語義標(biāo)注;基于語義標(biāo)注進(jìn)行抽取。

        文獻(xiàn)[50]中設(shè)計(jì)了一類基于本體的事件抽取。在建立本體的過程中,提出了領(lǐng)域?qū)?、類別層、事件層、擴(kuò)展概念層4 層模型。本體中所在領(lǐng)域的名稱是領(lǐng)域?qū)?,許多個(gè)專家定義的類別層構(gòu)成了它;任一類別都包括一系列事件集合;任一類別包含的事件類由事件層定義;事件和對(duì)象的概念以及對(duì)任一類事件相關(guān)的角色和概念及對(duì)應(yīng)的子事件,這在擴(kuò)展概念層進(jìn)行定義。當(dāng)對(duì)新聞事件進(jìn)行抽取和在自動(dòng)文摘中,可使用這個(gè)構(gòu)建模型的本體,實(shí)驗(yàn)結(jié)果表明在中文氣象這類新聞事件抽取時(shí)能更好地運(yùn)用這個(gè)系統(tǒng)。

        文獻(xiàn)[51]中構(gòu)建了一個(gè)進(jìn)化的事件知識(shí)本體,以此探索從文本中自動(dòng)獲取事件知識(shí)的框架,指出未來研究將用此框架擴(kuò)展數(shù)據(jù),并將進(jìn)化的事件本體擴(kuò)展到大規(guī)模的事件實(shí)例中。

        6 跨語言事件抽取

        6.1 中文事件抽取

        中文事件抽取存在著一系列問題:一方面是方法問題;另外一方面是語言特性問題,其中詞句意合特性是首要問題。中文詞語之間未曾出現(xiàn)顯式間隔,并且分詞之間顯然存在著錯(cuò)誤與誤差。

        在中文事件抽取中,文獻(xiàn)[52]中指出觸發(fā)詞的不一致,并把該問題分為跨語言不一致以及內(nèi)詞語不一致兩個(gè)類別。為解決上述問題,提出了兩種方法:1)在基于詞語的觸發(fā)詞標(biāo)注中,可以對(duì)測(cè)試集里面分詞不一致的觸發(fā)詞進(jìn)行修正;使用訓(xùn)練集創(chuàng)建一個(gè)全局勘誤表,該表可以對(duì)測(cè)試集進(jìn)行修改。2)在基于字符的觸發(fā)詞標(biāo)注中,可以對(duì)觸發(fā)詞檢測(cè)進(jìn)行操作,將它轉(zhuǎn)變?yōu)樾蛄袠?biāo)注問題。基于詞語和字符的方法之間的性能比較如表8 所示,實(shí)驗(yàn)結(jié)果表明基于字符的方法比基于詞語的方法性能更好。

        表8 基于詞語和字符的方法之間的性能比較 單位:%Tab.8 Performance comparison between methods based on words and characters unit:%

        文獻(xiàn)[53]中除了利用基于序列的字符標(biāo)注法,還運(yùn)用了Bi-LSTM 以及CRF,利用它們來抽取句子特征。在對(duì)上下文語義特征進(jìn)行抽取時(shí),還使用了CNN,更好地完成了中文事件抽取。另外,中文事件抽取還存在著嚴(yán)重的數(shù)據(jù)稀疏問題,觸發(fā)詞相當(dāng)多,而大量未知的觸發(fā)詞將會(huì)出現(xiàn)在測(cè)試集中。文獻(xiàn)[54]中對(duì)未知的以及分詞錯(cuò)誤的觸發(fā)詞進(jìn)行識(shí)別時(shí),使用了中文語言組合語義以及語言一致性,使得系統(tǒng)性能有很大提升。

        6.2 英文事件抽取

        基于統(tǒng)計(jì)以及機(jī)器學(xué)習(xí)的方法是研究英文事件抽取的主要方法。文獻(xiàn)[35]中使用了MEM 來進(jìn)行事件抽取研究,在命名實(shí)體等不復(fù)雜特征上具有很好成效。

        文獻(xiàn)[3]中將事件類型與觸發(fā)詞的識(shí)別進(jìn)行等同,基于觸發(fā)詞進(jìn)行事件抽取。在對(duì)事件類別和子類別進(jìn)行識(shí)別時(shí),除了使用觸發(fā)詞識(shí)別的二元分類以外,還使用了多元分類器,在ACE2005 上顯示了其效果很好。文獻(xiàn)[55]中創(chuàng)建了關(guān)于跨文檔的事件抽取系統(tǒng),對(duì)當(dāng)前句信息進(jìn)行操作,在其基礎(chǔ)上,把有關(guān)的文本背景知識(shí)植入進(jìn)去。文獻(xiàn)[56]中使用了文檔級(jí)別信息,用它提升了系統(tǒng)性能。文獻(xiàn)[32]中提出了一個(gè)聯(lián)合學(xué)習(xí)模型,該模型基于結(jié)構(gòu)化感知機(jī),在實(shí)驗(yàn)中對(duì)事件觸發(fā)詞與論元進(jìn)行學(xué)習(xí)然后抽取,該實(shí)驗(yàn)效果良好。

        6.3 跨語言事件抽取

        基于易得的大規(guī)模語料,事件抽取在中英等單語上已經(jīng)取得足夠優(yōu)秀的成果,而跨語言事件抽取仍然面臨著許多問題。

        迄今為止,利用跨語言訓(xùn)練來提高性能的工作非常有限。為解決此問題,文獻(xiàn)[57]中對(duì)眾多雙語平行語料進(jìn)行操作,對(duì)跨語言謂詞集進(jìn)行抽取,接著使用抽到的謂詞集對(duì)中英文事件抽取進(jìn)行操作,以提高其召回率。文獻(xiàn)[58]中對(duì)特征進(jìn)行疊加,以此融合雙語信息,還在中英文事件中都完成了觸發(fā)詞分類。文獻(xiàn)[59]中則是提出了一種全新的跨語言事件抽取方法。這種方法訓(xùn)練了大量的語言,并通過語言特征的依賴性和不依賴性來促使性能提高。該方法不采用高質(zhì)量的機(jī)器翻譯或者手動(dòng)對(duì)齊文檔,因?yàn)榻o定目標(biāo)語言是無法滿足該需求的。

        此外,跨語言還需解決缺乏標(biāo)注數(shù)據(jù)給事件檢測(cè)帶來的挑戰(zhàn)性問題,通過在不一樣的語言之間傳遞知識(shí),促使性能提升。以前的方法嚴(yán)重依賴并行資源,限制了適用性。為解決此問題,文獻(xiàn)[60]中提出了跨語言檢測(cè)的新方法,實(shí)現(xiàn)了并行資源的最小依賴。為了構(gòu)建不同語言之間的詞匯映射,設(shè)計(jì)了一種上下文依賴的翻譯方法;為了解決語序差異問題,提出了一種用于多語言聯(lián)合訓(xùn)練的共享句法順序事件檢測(cè)器。在兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明該方法在執(zhí)行不同方向的跨語言遷移和解決注解不足的情況下具有良好的效果。

        從資源不足以及注釋不足的語料庫中進(jìn)行復(fù)雜語義結(jié)構(gòu)的識(shí)別(例如事件和實(shí)體關(guān)系)是很困難的,這已經(jīng)成為了一個(gè)具有挑戰(zhàn)性的跨語言事件抽取任務(wù)。為解決此問題,文獻(xiàn)[61]中通過使用CNN,將所有實(shí)體信息片段、事件觸發(fā)詞、事件背景放入一個(gè)復(fù)雜、結(jié)構(gòu)化多語言公共空間,然后從源語言注釋中訓(xùn)練一個(gè)事件抽取器,并將它應(yīng)用于目標(biāo)語言。文獻(xiàn)[62]中引入了一個(gè)圖形注意力轉(zhuǎn)換編碼器(Graph Attention Transformer Encoder,GATE)。由于對(duì)句法分析的依賴,GATE 產(chǎn)生了健壯性,有助于跨語言的傳輸。實(shí)驗(yàn)結(jié)果表明了該方法在跨語言事件抽取上的良好遷移效果。

        基于以前的研究,很多小語種缺少標(biāo)注語料。由于面臨著語義表征等問題,面向小語種的跨語言事件任務(wù)成為目前研究的難點(diǎn)。

        7 事件抽取技術(shù)總結(jié)

        在事件抽取中,元事件抽取是動(dòng)作狀態(tài)級(jí)的,動(dòng)作產(chǎn)生或狀態(tài)發(fā)生變化,一般由動(dòng)詞驅(qū)動(dòng);而主題事件抽取是事件級(jí)別的,指的是核心或者與之有關(guān)的事件或者活動(dòng)。表9 詳細(xì)總結(jié)了事件抽取與之相關(guān)的各項(xiàng)技術(shù)分類以及特點(diǎn)。

        表9 事件抽取技術(shù)總結(jié)Tab.9 Summary of event extraction technologies

        8 事件抽取面臨的問題及未來研究趨勢(shì)

        8.1 面臨的問題

        事件抽取經(jīng)過長期的發(fā)展已經(jīng)取得了大量的研究成果,尤其在最近幾年,隨著社會(huì)化網(wǎng)絡(luò)、電子商務(wù)應(yīng)用的快速發(fā)展,事件抽取的研究進(jìn)步更明顯。但是從整體來看,還是存在以下問題需要解決:

        1)目前研究事件抽取主要用的是ACE 標(biāo)注語料,但是定義事件類型有限。當(dāng)前方法僅僅對(duì)特定類型事件有用,缺乏可移植性和可擴(kuò)展性。

        2)現(xiàn)階段的事件框架體系不是通用的。僅通過人工來標(biāo)注語料數(shù)據(jù),費(fèi)時(shí)費(fèi)力且成本高昂,并且通過這種方式產(chǎn)生的事件語料數(shù)據(jù)規(guī)模小、類型少。

        3)事件抽取依賴于子任務(wù)結(jié)果,為實(shí)現(xiàn)多任務(wù)聯(lián)合,怎樣設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)模型是一大難點(diǎn)。

        4)大量小語種缺少標(biāo)注語料,面向小語種的跨語言事件抽取面臨著語義表征等問題。

        8.2 未來研究趨勢(shì)

        在事件抽取技術(shù)的研究與發(fā)展過程中,盡管面臨諸多挑戰(zhàn),也必將受到研究者越來越多的關(guān)注,并在未來的研究中呈現(xiàn)出以下趨勢(shì):

        1)如今對(duì)事件抽取進(jìn)行研究時(shí),都是分開提取短語和依存句法分析信息的特征,怎樣對(duì)這兩種句法分析獲取的信息進(jìn)行全面分析,獲得更有效的句法特征需要進(jìn)一步研究。

        2)在事件抽取中,對(duì)當(dāng)前方法的局限性進(jìn)一步分析;對(duì)任一子任務(wù)的影響程度進(jìn)行量化。不僅需要提升句法分析這些基本任務(wù)性能,還需要使用新的方法與技術(shù)來提升事件抽取中任一子任務(wù)的精度。

        3)如今對(duì)中文事件進(jìn)行抽取時(shí),大多都是基于現(xiàn)有語料的,實(shí)體信息都是已經(jīng)標(biāo)注好的語料,在沒有標(biāo)注好的生語料中抽取效果很不好。怎樣對(duì)沒有標(biāo)注文本的中文事件進(jìn)行抽取也值得進(jìn)一步研究。

        4)如何解決標(biāo)注語料的缺失、面臨語義表征等問題的面向小語種跨語言事件抽取是進(jìn)一步研究的重點(diǎn)和難點(diǎn)。

        9 結(jié)語

        從當(dāng)前研究來看,盡管研究者們對(duì)事件抽取技術(shù)已經(jīng)進(jìn)行了大量研究,在理論以及應(yīng)用上都取得了許多成果,但依然沒有達(dá)到實(shí)際應(yīng)用的水平,事件抽取仍然存在大量需要研究的方向,同時(shí)還有許多問題需要解決,如如何更好地從無結(jié)構(gòu)純文本中自動(dòng)抽取結(jié)構(gòu)化事件知識(shí)等。研究者可能最需要關(guān)注的是可移植性以及系統(tǒng)性能問題;從作者自身角度上說,如今的事件抽取技術(shù)可能大多集中在某一領(lǐng)域進(jìn)行研究,希望未來研究能滲透到不同領(lǐng)域,讓事件抽取技術(shù)在多個(gè)領(lǐng)域?qū)崿F(xiàn)創(chuàng)新和發(fā)展;諸如小樣本和零樣本這樣的事件抽取研究甚少,希望未來研究能解決某些技術(shù)性難題,在這些方面有所貢獻(xiàn);主題事件抽取的研究尚未成熟,還面臨著許多困難,能否借鑒神經(jīng)網(wǎng)絡(luò)以及外部資源來進(jìn)行主題事件抽取是作者自身的一個(gè)猜想。

        此外,事件抽取是自然語言處理的一個(gè)分支,它的研究價(jià)值已得到廣泛重視和認(rèn)可,不僅需要認(rèn)識(shí)并研究它,還需要對(duì)比它和自然語言其他領(lǐng)域的區(qū)別和聯(lián)系,以求創(chuàng)新來引導(dǎo)事件抽取研究的不斷發(fā)展和進(jìn)步。

        猜你喜歡
        語義方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        語言與語義
        可能是方法不對(duì)
        3D打印中的模型分割與打包
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        日本入室强伦姧bd在线观看| 五月综合丁香婷婷久久| 蜜桃a人妻精品一区二区三区| 日本一区二区在线播放| 女人做爰高潮呻吟17分钟| 九九99久久精品在免费线97| 中文亚洲爆乳av无码专区 | 精品一区二区三区婷婷| 丝袜美腿亚洲一区二区| 亚洲av国产精品色午夜洪2| 在线精品免费观看| 人妻av一区二区三区av免费| 久久精品国产亚洲av热东京热 | 少妇被粗大的猛烈进出免费视频| 全免费a级毛片免费看视频| 在线观看视频日本一区二区三区| 国产成人精品日本亚洲i8| wwww亚洲熟妇久久久久| 国产高级黄区18勿进一区二区| 亚洲国产成人av第一二三区| 人妻久久久一区二区三区蜜臀| 精品久久久久香蕉网| 亚洲一区中文字幕在线电影网| 亚洲av高清在线观看三区| av在线一区二区精品| 午夜性色一区二区三区不卡视频| 丰满少妇被猛烈进入| 久久老子午夜精品无码| 美女被黑人巨大入侵的的视频| 国产精品久久久福利| 99热久久精里都是精品6| 国产成人精品免费久久久久| 美女被搞在线观看一区二区三区 | 搞黄色很刺激的网站二区| 人妻少妇被粗大爽.9797pw| 欧美日本国产va高清cabal| 亚洲另类激情专区小说婷婷久 | 精品精品国产三级av在线| 女的扒开尿口让男人桶30分钟| 一本色道av久久精品+网站| 产精品无码久久_亚洲国产精|