亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于神經(jīng)網(wǎng)絡(luò)方法的事件抽取研究

        2020-11-26 10:31:34彭楚越
        現(xiàn)代計算機 2020年6期
        關(guān)鍵詞:論元神經(jīng)網(wǎng)絡(luò)分類

        彭楚越

        (四川大學(xué)計算機學(xué)院,成都610065)

        0 引言

        隨著信息技術(shù)的飛速發(fā)展,人類社會邁入大數(shù)據(jù)時代,大量網(wǎng)絡(luò)平臺每天都有數(shù)以萬計的自然語言文本產(chǎn)生,為了精準、快速地從海量的數(shù)據(jù)中篩選、獲取可用信息,信息抽取研究已然成為自然語言處理研究領(lǐng)域的熱點分支。事件抽取是信息抽取的重要子任務(wù),目標是從包含事件信息的非結(jié)構(gòu)化的文本中將事件信息以結(jié)構(gòu)化的形式抽取出來。事件抽取可應(yīng)用于反恐情報收集、新聞自動摘要等任務(wù),結(jié)構(gòu)化的事件信息可進一步應(yīng)用于事件推理、信息檢索、知識庫建設(shè)等任務(wù),具有豐富的研究價值。事件抽取的研究發(fā)展到現(xiàn)階段以基于神經(jīng)網(wǎng)絡(luò)的方法為主,將事件抽取任務(wù)轉(zhuǎn)化為事件識別和論元角色分類任務(wù),訓(xùn)練神經(jīng)網(wǎng)絡(luò)從標注數(shù)據(jù)中自動學(xué)習(xí)分類特征,在事件抽取研究工作中取得了較好成效。本文第一部分對事件抽取的定義作出詳細解釋,第二部分重點介紹自神經(jīng)網(wǎng)絡(luò)方法被應(yīng)用到事件抽取研究以來的相關(guān)工作。

        1 事件抽取的定義

        1.1 限定域/開放域的事件抽取

        事件抽取可按照是否預(yù)先定義事件類型結(jié)構(gòu)(事件類型及每類事件包含的事件角色),分為限定域的事件抽取和開放域的事件抽取。限定域的事件抽取會預(yù)先定義好抽取哪些類型的事件,如“襲擊”事件、“殺人”事件、“審判”事件等。在定義事件類型的同時,也會定義好每類事件的參與者的角色,如“襲擊”事件中包含“襲擊者”、“受害者”、“工具”、“時間”、“地點”等事件角色。開放域的事件抽取旨在抽取出所有表達了事件的文本中的事件信息,不需要預(yù)先定義事件類型結(jié)構(gòu)。通常在文章不特指“開放域”的情況下,所述的事件抽取都是限定域的事件抽取,本文主要研究“限定域”的事件抽取,下文提及的事件抽取皆指限定域的事件抽取。

        1.2 事件抽取的相關(guān)術(shù)語

        事件:在特定環(huán)境、特定時間發(fā)生,并有若干角色參與的一件事情。

        事件提及:包含有事件觸發(fā)詞及若干事件論元的一段文本。

        事件觸發(fā)詞:清晰表達事件發(fā)生的核心詞。

        事件論元:在事件中充當(dāng)了某個角色的實體提及、時間表達、數(shù)值表達。

        論元角色:事件論元在事件中充當(dāng)?shù)氖录巧?/p>

        事件抽取就是從包含有事件信息的非結(jié)構(gòu)化文本中,將事件觸發(fā)詞與事件論元以結(jié)構(gòu)化的形式呈現(xiàn)出來。

        1.3 事件抽取的具體任務(wù)

        事件抽取具體可分為四個子任務(wù):事件觸發(fā)詞識別、事件類型分類、事件論元識別、論元角色分類。前兩個子任務(wù)可合并為事件識別任務(wù),即識別事件提及中的觸發(fā)詞及其觸發(fā)的事件類型,后兩個子任務(wù)可合并為論元角色分類任務(wù),即識別在事件提及中充當(dāng)了事件角色的論元及其充當(dāng)?shù)氖录巧?/p>

        例:假設(shè)定義“襲擊”事件為待抽取事件類型之一,針對自然語言文本“五名旁觀者在格拉斯哥機場襲擊事件中受傷”,事件抽取的任務(wù)是識別出觸發(fā)詞“襲擊”,表達的事件類型為“襲擊”,并且識別出事件論元“五名旁觀者”、“格拉斯哥機場”,在此襲擊事件中充當(dāng)?shù)慕巧謩e為“受害者”、“地點”。

        2 基于神經(jīng)網(wǎng)絡(luò)方法的事件抽取

        初期事件抽取的研究主要基于規(guī)則匹配或統(tǒng)計分析、人工設(shè)計特征的方法[1-5],這些方法或依賴于特定領(lǐng)域的專家對該領(lǐng)域掌握的專業(yè)知識,在不同領(lǐng)域之間的可移植性很低,或依賴于人為構(gòu)建特征工程,工作量大且仍受人類知識局限的影響。近年來,將神經(jīng)網(wǎng)絡(luò)應(yīng)用于自然語言處理任務(wù)的研究取得了良好的進展,事件抽取的主流方法也發(fā)展為基于神經(jīng)網(wǎng)絡(luò)的方法,旨在利用神經(jīng)網(wǎng)絡(luò)自動地從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到可用于事件抽取任務(wù)的數(shù)據(jù)特征。本文主要研究基于神經(jīng)網(wǎng)絡(luò)方法的事件抽取。

        2.1 管道式/聯(lián)合式神經(jīng)網(wǎng)絡(luò)事件抽取模型

        基于神經(jīng)網(wǎng)絡(luò)方法的事件抽取按照解決事件識別、論元角色分類這兩個子任務(wù)的流程又可分為管道式的事件抽取和聯(lián)合式的事件抽取。管道式的事件抽取將事件識別與論元角色分類兩個子任務(wù)以先后順序獨立進行。Chen等人[6]在2015年提出的DMCNN(動態(tài)多池化卷積神經(jīng)網(wǎng)絡(luò))就是很經(jīng)典的管道式事件抽取模型,此模型將句子中每個詞編碼為詞嵌入向量,并加入了相對位置嵌入向量作為輔助事件類型分類的特征,在得到句子級別的特征時,與傳統(tǒng)CNN(卷積神經(jīng)網(wǎng)絡(luò))普遍采用的最大池化方式的不同之處在于,Chen的方法考慮到了一個句子中可能包含多個事件的情況,采用動態(tài)多池化的方式。在事件識別階段,根據(jù)當(dāng)前待預(yù)測的候選觸發(fā)詞的位置,將句子經(jīng)過卷積得到的特征圖進行分段池化,保留每個分段的最大值,這樣做可以捕獲句子不同部位的突出特征。完成事件識別任務(wù)后,觸發(fā)詞的事件類型得以確定,需要填充的事件角色隨之確定,再進入論元角色分類階段,根據(jù)觸發(fā)詞與候選事件論元的位置將句子經(jīng)過卷積得到的特征圖分為三段進行池化,將各段池化的結(jié)果拼接構(gòu)成句級特征。

        管道式的事件抽取存在錯誤傳播的問題,事件類型識別錯誤,直接導(dǎo)致論元角色分類錯誤,且管道式的過程不可逆轉(zhuǎn),論元角色的分類信息無法對事件識別任務(wù)起到輔助作用。聯(lián)合式的事件抽取對事件識別和論元角色分類兩個子任務(wù)進行聯(lián)合建模,利用子任務(wù)之間的交互信息達到協(xié)同訓(xùn)練事件抽取模型的效果,提升事件抽取模型的整體性能。Nguyen[7]等人在2016年提出將RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))運用到事件觸發(fā)詞和事件論元的聯(lián)合抽取任務(wù)中,對事件識別和論元角色分類兩個子任務(wù)進行聯(lián)合建模,該模型利用雙向的RNN從前到后、從后到前地為句中每個詞進行編碼,預(yù)測當(dāng)前候選觸發(fā)詞的事件類型時,使用記憶向量記錄之前預(yù)測出的事件類型,以達到利用事件之間的關(guān)聯(lián)特征輔助后續(xù)事件識別的效果,若當(dāng)前詞被識別為觸發(fā)詞,則將當(dāng)前詞與各候選事件論元分別配對進行論元角色分類,在預(yù)測當(dāng)前候選事件論元的角色時,使用記憶向量矩陣記錄之前預(yù)測出的事件類型和論元角色,以輔助當(dāng)前候選事件論元的角色分類。Sha等人[8]針對過去神經(jīng)網(wǎng)絡(luò)事件抽取模型對句法信息的利用不充分的現(xiàn)象,在2018年提出了DBRNN(Dependency-Bridge RNN,依存橋循環(huán)神經(jīng)網(wǎng)絡(luò)),若兩詞之間具有依存句法關(guān)聯(lián)則建立依存橋,在預(yù)測當(dāng)前詞是否為觸發(fā)詞及其觸發(fā)的事件類型時,考慮到與之以依存橋相連的詞的編碼信息,并為每類依存句法關(guān)系學(xué)習(xí)了權(quán)重,在融合信息時采取加權(quán)的形式。另外,作者利用張量刻畫所有候選事件論元之間的關(guān)聯(lián)特征,以提升論元角色分類的效果。

        上述聯(lián)合式的事件抽取模型均通過共享神經(jīng)網(wǎng)絡(luò)底層參數(shù)和向量的方式達到聯(lián)合建模抽取事件觸發(fā)詞和事件論元的目的,但盡管在同一模型中,事件識別與論元角色分類仍存在先后順序,并非同時進行,如何真正意義上同步實現(xiàn)事件觸發(fā)詞和事件論元的聯(lián)合抽取,仍是事件抽取研究的難題之一。

        2.2 解決缺乏事件標注數(shù)據(jù)問題的工作

        基于神經(jīng)網(wǎng)絡(luò)的方法依賴大量標注數(shù)據(jù),當(dāng)前用于事件抽取研究的最廣泛也是最權(quán)威的數(shù)據(jù)集ACE2005規(guī)模較小,只涵蓋33個事件類型,且其中超過一半的事件類型的標注實例不超過100個。標注數(shù)據(jù)的稀缺是事件抽取研究面臨的一大瓶頸,而人工獲取事件信息的標注數(shù)據(jù),對時間和人力資源的消耗亦是巨大的。于是,自動地獲取更多標注數(shù)據(jù)成為事件抽取的一大研究趨勢。Liu等人[9]在2016年提出融合框架關(guān)系詞典FrameNet擴充事件標注數(shù)據(jù)集,利用現(xiàn)有ACE2005數(shù)據(jù)集訓(xùn)練ANN(人工神經(jīng)網(wǎng)絡(luò))事件識別模型,識別FrameNet中與ACE2005數(shù)據(jù)集中定義的33種事件類型存在良好映射的框架類型的例句,得到該例句的候選事件類型,再通過3個約束確定其事件類型,由此構(gòu)建了基于FrameNet和ACE2005的事件標注數(shù)據(jù)集。Chen等人[10]在2017年提出將語義知識庫Freebase中的CVT看作事件實例,統(tǒng)計每類事件中事件角色被論元填充的頻數(shù),計算每個事件角色與事件類型的相關(guān)度,選擇相關(guān)度高的事件角色作為該類事件的關(guān)鍵論元角色,依靠遠程監(jiān)督的方法為Wikipedia語料中包含了某類事件關(guān)鍵論元的句子標注對應(yīng)的事件類型,由此得到基于Wikipedia語料構(gòu)建的事件標注數(shù)據(jù)集。Huang等人[11]在2018年提出將零樣本遷移學(xué)習(xí)的方法用于事件抽取,利用已有標注數(shù)據(jù)的事件類型的標注數(shù)據(jù)CNN對所有事件類型結(jié)構(gòu)(包括沒有標注數(shù)據(jù)的事件類型)和事件提及的AMR語義結(jié)構(gòu)進行編碼,使事件提及與其所屬事件類型的語義結(jié)構(gòu)特征相似度盡可能高而與其他類別的語義結(jié)構(gòu)特征相似度低,從而實現(xiàn)事件提及的事件類型分類,此方法不需要針對新定義的事件類型重新人工標注數(shù)據(jù),也能進行對新定義事件類型的識別。

        以上工作為解決事件抽取研究缺乏可用標注數(shù)據(jù)的問題作出了貢獻,但不同語種的語料資源和自然語言處理工具的開發(fā)差異仍限制著許多事件抽取研究工作的跨語言通用性。

        3 結(jié)語

        本文首先描述了事件抽取的研究背景、研究意義,接著對事件抽取的相關(guān)術(shù)語及任務(wù)的定義進行了闡述,簡要概括了基于規(guī)則匹配、特征工程的事件抽取方法的短板,引出基于神經(jīng)網(wǎng)絡(luò)方法的事件抽取相關(guān)工作,將神經(jīng)網(wǎng)絡(luò)事件抽取模型分為管道式和聯(lián)合式兩類進行了重點介紹。基于神經(jīng)網(wǎng)絡(luò)方法的事件抽取研究在不斷進步,但神經(jīng)網(wǎng)絡(luò)方法對大量標注數(shù)據(jù)的依賴與現(xiàn)有事件標注數(shù)據(jù)集規(guī)模小、人工標注事件數(shù)據(jù)代價大之間存在的沖突對事件抽取研究的發(fā)展形成了不小的阻礙,近年來為了解決缺乏事件標注數(shù)據(jù)的問題,有學(xué)者提出融合外部資源的方法自動地產(chǎn)生事件標注數(shù)據(jù)并獲取了值得肯定的結(jié)果,但事件抽取研究仍有很多難題等待著我們?nèi)スタ恕?/p>

        猜你喜歡
        論元神經(jīng)網(wǎng)絡(luò)分類
        分類算一算
        神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        成分重量和粵方言雙及物結(jié)構(gòu)的論元語序
        基于論元結(jié)構(gòu)和題元指派對漢語處置義“把”字句的句法語義分析
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機控制模型建立
        重型機械(2016年1期)2016-03-01 03:42:04
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        基于支持向量機回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
        av在线天堂国产一区| 亚洲视频99| 少妇特殊按摩高潮惨叫无码| 人妻少妇偷人精品一区二区| 在线观看av片永久免费| 中文字幕一区在线直播| 精品久久av一区二区| 男女后进式猛烈xx00动态图片| 丰满少妇被猛烈进入| 亚洲日产无码中文字幕| 国产一区二区美女主播| 大肉大捧一进一出好爽视频动漫| 国产自偷自偷免费一区| 狠狠丁香激情久久综合| 亚洲精品国产av成拍色拍| 加勒比hezyo黑人专区| 精品亚洲欧美无人区乱码| 亚洲综合色一区二区三区另类| 久99久精品免费视频热77| 日本女同视频一区二区三区 | 一二三四在线视频社区3| 亚洲AV秘 无码一区二区久久| 国产一区二区三区色哟哟| 亚洲精品无码久久久影院相关影片 | 今井夏帆在线中文字幕| 日韩少妇内射免费播放18禁裸乳| 国产人妖视频一区二区| 亚洲av网一区天堂福利| av在线观看免费天堂| 最近中文字幕视频完整版在线看| 亚洲爆乳大丰满无码专区| 性感的小蜜桃在线观看| 欧洲多毛裸体xxxxx| 青青草国产成人99久久| 亚洲精品日本久久久中文字幕| 久久精品亚洲熟女av蜜謦| 亚洲日本中文字幕天天更新| 欧美成人高清手机在线视频| 久久精品亚洲国产av网站| 成人午夜视频精品一区| 夜夜爽无码一区二区三区|