亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于閱讀理解框架的中文事件論元抽取

        2022-01-01 13:11:06李培峰王中卿朱巧明
        中文信息學(xué)報(bào) 2022年10期
        關(guān)鍵詞:論元編碼模板

        陳 敏,吳 凡,李培峰,王中卿,朱巧明

        (蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)

        0 引言

        作為信息抽取(Information Extraction)中的重要子任務(wù),事件(Event)抽取是指從描述事件信息的文本中識(shí)別并抽取出包含的事件信息,并以結(jié)構(gòu)化的形式呈現(xiàn)出來(lái)。事件抽取任務(wù)一般分為兩個(gè)步驟,觸發(fā)詞(Trigger)抽取和論元(Argument)抽取。觸發(fā)詞抽取是根據(jù)上下文識(shí)別出觸發(fā)詞并判斷其事件類(lèi)型(Event Type);論元抽取是根據(jù)事件類(lèi)型,抽取出參與事件的論元,并分配論元角色(Argument Role)。在ACE2005數(shù)據(jù)集中,定義了33種事件子類(lèi)型(8種事件大類(lèi))和35種論元角色。例1給出了數(shù)據(jù)集中包含1個(gè)觸發(fā)詞和3個(gè)論元角色的事件句。觸發(fā)詞抽取部分需要識(shí)別出觸發(fā)詞E1,其對(duì)應(yīng)的事件類(lèi)型為宣判(Sentence)。論元抽取部分需要識(shí)別出參與宣判的論元并分配對(duì)應(yīng)的角色。該事件的論元包括A1、A2和A3,分別對(duì)應(yīng)角色法官(Adjudicator)、被告(Defendant)和判決結(jié)果(Sentence)。

        當(dāng)前中文事件抽取研究更多的是解決觸發(fā)詞抽取問(wèn)題[1-4],而針對(duì)中文論元抽取的工作相對(duì)較少。

        例1: 法官(A1)隨即判(E1)被告(A2)7年預(yù)防性監(jiān)禁(A3)。

        Zeng等[5]利用CNN和Bi-LSTM捕獲句子和詞匯信息,然后把論元抽取視為實(shí)體提及的多分類(lèi)任務(wù)。賀等[6]利用條件隨機(jī)場(chǎng)(CRF)和多任務(wù)學(xué)習(xí)的框架,把論元抽取視為序列標(biāo)注任務(wù)。盡管這種多分類(lèi)或序列標(biāo)注的方式被認(rèn)為是事件抽取的一個(gè)很好的解決辦法,但是這樣的做法仍然存在問(wèn)題,論元角色標(biāo)簽本身的語(yǔ)義信息和論元存在著重要關(guān)系,現(xiàn)有的研究工作并不能利用論元角色標(biāo)簽本身的先驗(yàn)信息。如例1中,判決結(jié)果(Sentence)這類(lèi)論元角色出現(xiàn)頻率較低,而這個(gè)類(lèi)別在多分類(lèi)或序列標(biāo)注訓(xùn)練中,僅被視為交叉熵中的一個(gè)獨(dú)熱向量,這種不清楚抽取什么往往導(dǎo)致劣質(zhì)的性能。

        本文工作主要研究中文事件抽取中的論元抽取。針對(duì)論元抽取存在的上述問(wèn)題,提出了基于BERT閱讀理解框架的論元抽取方法,將論元抽取視為完型填空式的機(jī)器閱讀理解(Machine Reading Comprehension)任務(wù)。該方法的總體流程如圖1所示。如想要抽取的角色為判決結(jié)果(Sentence),通過(guò)回答問(wèn)題“觸發(fā)詞是判,宣判的判決結(jié)果是什么?”來(lái)預(yù)測(cè)該角色對(duì)應(yīng)的論元“7年預(yù)防性監(jiān)禁”,從而實(shí)現(xiàn)對(duì)該論元的識(shí)別和角色分配。這樣的方式可以編碼論元角色的先驗(yàn)信息,能夠有效抽取出論元角色類(lèi)別較少的論元。

        總的來(lái)說(shuō),本文的方法利用已知的事件模式信息,將不同事件類(lèi)型下的論元特征表述為自然語(yǔ)言問(wèn)題,論元通過(guò)在事件句的上下文中回答這些問(wèn)題來(lái)完成抽取。該方法通過(guò)BERT預(yù)訓(xùn)練模型學(xué)習(xí)問(wèn)題和句子的初始隱向量表示,利用雙向GRU更好地學(xué)習(xí)句子的上下文特征,然后對(duì)每個(gè)字進(jìn)行二分類(lèi)確定論元的跨度,采用合理的規(guī)則優(yōu)化論元跨度,最終利用已知的實(shí)體提及完成論元角色識(shí)別和分配。在ACE2005中文語(yǔ)料上的實(shí)驗(yàn)證明,本文提出的基于閱讀理解框架的論元抽取方法,優(yōu)于傳統(tǒng)的多分類(lèi)或序列標(biāo)注的方法,驗(yàn)證了閱讀理解方法對(duì)論元抽取任務(wù)的有效性。

        本文組織結(jié)構(gòu)如下: 第1部分介紹了論元抽取的相關(guān)工作;第2部分詳細(xì)描述了本文提出的模型;第3部分介紹實(shí)驗(yàn)部分并進(jìn)行了具體分析;第四部分是總結(jié)和展望。

        1 相關(guān)工作

        事件抽取一直以來(lái)都是自然語(yǔ)言處理研究者們關(guān)注的重點(diǎn)領(lǐng)域。大多數(shù)工作把事件抽取看成兩個(gè)階段的問(wèn)題,包括事件觸發(fā)詞抽取和論元抽取。觸發(fā)詞抽取工作近年來(lái)已經(jīng)取得了很大的發(fā)展,論元抽取成為了事件抽取發(fā)展的瓶頸。目前論元抽取相關(guān)研究大部分是面向英文文本,中文論元抽取的發(fā)展較為緩慢。

        在英文上,傳統(tǒng)的基于特征表示的方法依靠人工設(shè)計(jì)的特征和模式。Liao等[7]提出跨文檔的方法來(lái)利用全局信息和其他事件信息。Hong等[8]充分利用了事件句中實(shí)體類(lèi)型的一致性特征,提出一種跨實(shí)體推理方法來(lái)提高事件抽取性能。Li等[9]提出了一種基于結(jié)構(gòu)預(yù)測(cè)的聯(lián)合框架,合并全局特征,顯式地捕獲多個(gè)觸發(fā)詞和論元的依賴(lài)關(guān)系。隨著神經(jīng)網(wǎng)絡(luò)的流行,研究者們開(kāi)始利用預(yù)訓(xùn)練好的詞向量作為初始化表示[10-11],進(jìn)而建模單詞的語(yǔ)義信息和語(yǔ)法信息。Chen等[12]對(duì)普通卷積神經(jīng)網(wǎng)絡(luò)做出改進(jìn),提出一種動(dòng)態(tài)多池化卷積神經(jīng)網(wǎng)絡(luò)模型(DMCNN),把事件抽取看做兩個(gè)階段的多分類(lèi)任務(wù),先執(zhí)行觸發(fā)詞分類(lèi),再執(zhí)行論元分類(lèi),很好地解決了一個(gè)句子中包含多個(gè)事件的問(wèn)題,但沒(méi)有利用好觸發(fā)詞和論元之間的語(yǔ)義。Nguyen等[13]通過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)學(xué)習(xí)句子表示,聯(lián)合預(yù)測(cè)觸發(fā)詞和論元,增加了離散特征。為了捕獲觸發(fā)詞和論元之間的依賴(lài)關(guān)系,引入記憶向量和記憶矩陣來(lái)存儲(chǔ)在標(biāo)記過(guò)程中的預(yù)測(cè)信息。Liu等[14]提出了一種新穎的聯(lián)合事件抽取框架(JMEE),通過(guò)引入句法短弧來(lái)增強(qiáng)信息流動(dòng),以解決句子編碼的長(zhǎng)距離依賴(lài)問(wèn)題,利用基于注意力的圖卷積網(wǎng)絡(luò)來(lái)建模圖信息,從而聯(lián)合抽取多個(gè)事件觸發(fā)詞和論元。Wang等[15]在DMCNN的基礎(chǔ)上,提出了一種分層模塊化的論元抽取模型,該模型采用靈活的模塊網(wǎng)絡(luò)(Modular Networks),利用了論元角色相關(guān)的層次概念作為有效的歸納偏置,不同論元角色共享相同的高層次的單元模塊,有助于更好地抽取出特定的事件論元。

        隨著深度學(xué)習(xí)的進(jìn)一步發(fā)展,一些先進(jìn)的技術(shù)也被用于英文事件抽取,包括零樣本學(xué)習(xí)[16]、遠(yuǎn)程監(jiān)督[17]、BERT預(yù)訓(xùn)練模型[18]等。

        相對(duì)于英文論元抽取,中文論元抽取工作發(fā)展較緩,中文需要分詞、缺少時(shí)態(tài)等自身特點(diǎn)給該任務(wù)帶來(lái)一定的挑戰(zhàn)。盡管如此,近年來(lái)也取得了一些進(jìn)展。傳統(tǒng)方法更多地在挖掘語(yǔ)義和語(yǔ)法特征,很大程度上依賴(lài)于手工制作的特征和模式。Li等[19]引入形態(tài)結(jié)構(gòu)來(lái)表示隱含在觸發(fā)詞內(nèi)部的組合語(yǔ)義,提出了一個(gè)結(jié)合了中文詞語(yǔ)的形態(tài)結(jié)構(gòu)和義原去推測(cè)未知觸發(fā)詞的方法,明顯提升了事件抽取的召回率。Chen等[20]利用局部和全局特征共同抽取觸發(fā)詞和論元。Zhu等[21]利用事件之間的關(guān)系來(lái)學(xué)習(xí)實(shí)體扮演特定角色的概率,提出了基于馬爾可夫邏輯網(wǎng)絡(luò)的事件論元推理方法。賀等[6]將事件抽取看作序列標(biāo)注任務(wù),并考慮到數(shù)據(jù)稀疏問(wèn)題,對(duì)不同事件子類(lèi)進(jìn)行互增強(qiáng),提出基于CRF的多任務(wù)學(xué)習(xí)事件抽取聯(lián)合模型。神經(jīng)網(wǎng)絡(luò)發(fā)展起來(lái)后,Zeng等[5]提出了一種基于LSTM和CNN的卷積雙向LSTM神經(jīng)網(wǎng)絡(luò)模型,利用Bi-LSTM和CNN分別編碼句子級(jí)別信息和局部詞匯特征。

        隨著預(yù)訓(xùn)練語(yǔ)言模型的發(fā)展,深度學(xué)習(xí)提高了許多自然語(yǔ)言處理的性能。很多自然語(yǔ)言理解任務(wù)可以轉(zhuǎn)換為機(jī)器閱讀理解任務(wù)[22],如文本分類(lèi)、關(guān)系抽取、事件抽取、情感分析、文本蘊(yùn)含、語(yǔ)言推理、語(yǔ)義角色標(biāo)注等。機(jī)器閱讀理解任務(wù)是從給定問(wèn)題的段落中提取答案,將NLP任務(wù)轉(zhuǎn)為閱讀理解任務(wù)成為了新的趨勢(shì)。Gardner等[23]提出了使用問(wèn)答作為特定任務(wù)的格式的三種動(dòng)機(jī),即滿(mǎn)足人類(lèi)信息需求,探查系統(tǒng)對(duì)某些上下文的理解以及將學(xué)習(xí)到的參數(shù)從一項(xiàng)任務(wù)轉(zhuǎn)移到另一項(xiàng)任務(wù)。Li等[24]將實(shí)體關(guān)系抽取視為一種多輪問(wèn)答任務(wù),為每種實(shí)體和關(guān)系生成不同的問(wèn)答模板,這些實(shí)體和關(guān)系可以通過(guò)回答這些模板化的問(wèn)題來(lái)進(jìn)行抽取。Li等[25]提出使用機(jī)器閱讀理解框架代替序列標(biāo)注模型,統(tǒng)一處理嵌套與非嵌套命名實(shí)體識(shí)別問(wèn)題,在這種情況下,文本中實(shí)體的提取被形式化為回答問(wèn)題,如“文本中提到了哪個(gè)人?”

        2 基于閱讀理解框架的論元抽取

        受Li等[25]工作的啟發(fā),本文提出了基于閱讀理解框架的論元抽取方法。在標(biāo)準(zhǔn)的機(jī)器閱讀理解設(shè)置中,給定一個(gè)問(wèn)題Q={Q1,Q2,…,QNq},(Nq表示問(wèn)題Q中的字?jǐn)?shù)),上下文S={S1,S2,…,SNc},(Nc表示句子S中的字?jǐn)?shù)),模型從給出問(wèn)題的段落中提取答案跨度。該任務(wù)可以形式化為兩個(gè)多分類(lèi)任務(wù),即預(yù)測(cè)給定問(wèn)題的答案跨度的開(kāi)始位置和結(jié)束位置。本文的方法也基于這種設(shè)置,該方法的流程和模型如圖1和圖2所示。

        圖2 基于閱讀理解框架的論元抽取模型

        論元抽取包含四個(gè)部分: ①輸入層,②編碼層,③跨度預(yù)測(cè)層,④論元分配層。結(jié)合模型圖來(lái)看,其中,輸入層按照機(jī)器閱讀理解的設(shè)置, 利用本文采用的語(yǔ)料中的事件模式信息生成具有論元表征的問(wèn)題和原句子作為初始輸入表示;編碼層通過(guò)BERT預(yù)訓(xùn)練模型編碼字級(jí)別特征,利用雙向GRU學(xué)習(xí)序列特征;跨度預(yù)測(cè)層根據(jù)編碼層的輸出, 對(duì)每個(gè)字進(jìn)行二分類(lèi)來(lái)確定答案的跨度;論元分配層利用實(shí)體提及過(guò)濾抽取結(jié)果,最后給實(shí)體提及分配論元角色。

        2.1 模型輸入層

        BERT模型的輸入序列為句子對(duì)所對(duì)應(yīng)的embedding。句子對(duì)包含問(wèn)題和事件句,并由特殊分隔符“[SEP]”分隔。問(wèn)題由具有論元表征的論元角色標(biāo)簽構(gòu)成,事件句是觸發(fā)詞抽取結(jié)果中包含事件的文本。同BERT的其他下游任務(wù)一樣,所有的輸入序列的第一個(gè)token必須為特殊分類(lèi)嵌入符“[CLS]”,同時(shí)輸入序列為字向量、位置向量和句子向量之和。模型的具體輸入形式如式(1)所示。

        [CLS]...Question...[SEP]...Sentence...[SEP]

        (1)

        其中,問(wèn)題表示的語(yǔ)義信息是很重要的,因?yàn)樵摲椒ㄖ袉?wèn)題編碼了關(guān)于論元角色標(biāo)簽的先驗(yàn)知識(shí),并對(duì)最終結(jié)果有重大影響。本文利用事件模式信息,統(tǒng)計(jì)觸發(fā)詞對(duì)應(yīng)事件類(lèi)型存在的論元角色(這種對(duì)應(yīng)是已知且確定的),試驗(yàn)了不同問(wèn)題構(gòu)成的效果。以3種事件類(lèi)型為例,事件模式信息如表1所示,不同的問(wèn)題模板如表2所示。

        表1 事件模式表

        表1中,Time-*表示與時(shí)間相關(guān)的論元角色,包括Time-Within、Time-Ending、Time-Starting等。表2以受傷事件類(lèi)型對(duì)應(yīng)的施事者(Agent)角色為例,模板1(偽問(wèn)題)以論元角色為問(wèn)題,問(wèn)題設(shè)置為“施事者”;模板2(觸發(fā)詞+偽問(wèn)題)的加入觸發(fā)詞信息,句子中的觸發(fā)詞可以表示觸發(fā)詞信息和觸發(fā)詞位置特征,這也是模型可以學(xué)習(xí)到的重要特征,問(wèn)題設(shè)置為“觸發(fā)詞是[Trigger]的施事者”(其中[Trigger]表示該事件類(lèi)型對(duì)應(yīng)的觸發(fā)詞);模板3(觸發(fā)詞+自然問(wèn)題)利用ACE2005中文語(yǔ)料庫(kù)中的注釋信息,根據(jù)事件類(lèi)型和論元角色生成了更自然的問(wèn)題,施事者(Agent)這一角色在受傷類(lèi)型下扮演的是該事件下造成傷害的人,問(wèn)題設(shè)置為“觸發(fā)詞是[Trigger],造成傷害的人是誰(shuí)?”。本文的實(shí)驗(yàn)驗(yàn)證了模板3的問(wèn)題設(shè)置最合理。

        表2 不同的問(wèn)題模板(以Injure事件為例)

        2.2 模型編碼層

        編碼層的主體包括BERT和GRU兩部分。

        BERT在自然語(yǔ)言處理領(lǐng)域具有里程碑的意義。BERT本質(zhì)上是通過(guò)在大量語(yǔ)料的基礎(chǔ)上利用自監(jiān)督學(xué)習(xí)的方法為每個(gè)字或詞學(xué)習(xí)一個(gè)好的特征表示。它使用Transformer捕捉語(yǔ)句中的雙向關(guān)系,使用掩碼語(yǔ)言模型(Masked Language Model,MLM)和下一句預(yù)測(cè)的多任務(wù)訓(xùn)練目標(biāo)。MLM是指在訓(xùn)練時(shí)在輸入語(yǔ)料上隨機(jī)遮蔽(mask)掉一些單詞,然后通過(guò)上下文預(yù)測(cè)該單詞,這樣的預(yù)訓(xùn)練方式能更好地表示語(yǔ)義特征。在谷歌發(fā)布的BERT版本中,中文是以字為粒度進(jìn)行切分,沒(méi)有考慮到傳統(tǒng)NLP中的中文分詞。本文采用哈爾濱工業(yè)大學(xué)發(fā)布的改進(jìn)版本[26](BERT-wwm)進(jìn)行編碼,將全詞mask的方法應(yīng)用在中文中,即對(duì)同屬于一個(gè)詞的漢字mask而不是對(duì)單個(gè)字的mask。同BERT-base一樣,該模型采用12個(gè)Transformer Encoder堆疊而成的結(jié)構(gòu),每一層使用12個(gè)獨(dú)立的注意力機(jī)制,包含768個(gè)隱層向量。注意力層增加多頭注意力機(jī)制(Multi-Head Attention),擴(kuò)展了模型專(zhuān)注于不同位置的能力。多頭注意力模塊的計(jì)算如式(2)~式(4)所示。

        多頭注意力機(jī)制用來(lái)學(xué)習(xí)每個(gè)字與其他字的依賴(lài)關(guān)系和上下文語(yǔ)義,然后通過(guò)前饋神經(jīng)網(wǎng)絡(luò)對(duì)Attention計(jì)算后的輸入進(jìn)行變換,最終得到序列的全局信息。對(duì)于給定的輸入序列X={x1,x2,…,xn},編碼層BERT部分的輸出是最后一層Transformer的隱層向量,表示為W={w1,w2,…,wn}。為了更好的地學(xué)習(xí)句子上下文的序列特征,將BERT部分的輸出再經(jīng)過(guò)一個(gè)雙向GRU模型,它可以繼承BERT的優(yōu)點(diǎn),同時(shí)捕獲序列語(yǔ)義信息,獲取序列的長(zhǎng)距離依賴(lài)。雙向GRU分別從正反兩個(gè)方向?qū)ERT的輸出進(jìn)行編碼,各自得到一個(gè)隱層輸出,前向GRU層表示如式(5)所示。

        (5)

        后向GRU層表示如式(6)所示。

        (6)

        2.3 跨度預(yù)測(cè)層

        跨度預(yù)測(cè)層接收編碼層的隱層向量矩陣,答案跨度的預(yù)測(cè)主要包括開(kāi)始位置和結(jié)束位置的確定,如果答案為空,把BERT輸入層的第一個(gè)token“[CLS]”作為正確答案。模型在微調(diào)期間需要學(xué)習(xí)的參數(shù)就是每個(gè)token作為答案開(kāi)始位置(start span)和答案結(jié)束位置(end span)的向量,隱層向量經(jīng)過(guò)softmax歸一化后進(jìn)行多個(gè)二分類(lèi),來(lái)獲得每一個(gè)token分別作為開(kāi)始位置和結(jié)束位置的概率,采用概率最高的區(qū)間作為預(yù)測(cè)結(jié)果。具體的計(jì)算如如式(7)~式(10)所示。

        其中,E(E∈n×d,),n為序列的長(zhǎng)度,d為編碼層的輸出維度)是編碼層輸出的隱層向量矩陣;T(T∈d×2)即為需要學(xué)習(xí)的新參數(shù);P(P∈d×2)為輸出概率;I(I∈[0,n-1])為輸出索引。

        實(shí)驗(yàn)中采用二類(lèi)交叉熵作為損失函數(shù),在訓(xùn)練過(guò)程中,使用Adam優(yōu)化器優(yōu)化模型參數(shù),通過(guò)最小化交叉熵?fù)p失完成訓(xùn)練調(diào)優(yōu),二類(lèi)交叉熵具體計(jì)算如式(11)、式(12)所示。

        其中,N表示序列的長(zhǎng)度;yi表示樣本i預(yù)測(cè)為正的概率;Lstart和Lend分別為開(kāi)始位置和結(jié)束位置的損失。

        2.4 論元分配層

        此外,該部分增加了優(yōu)化策略,用以解決實(shí)體不完全匹配的問(wèn)題。根據(jù)標(biāo)準(zhǔn)結(jié)果,匹配特定長(zhǎng)度的相同開(kāi)頭或結(jié)尾的最長(zhǎng)實(shí)體作為優(yōu)化后的抽取結(jié)果。例如,在標(biāo)準(zhǔn)結(jié)果中的實(shí)體提及為“26歲”“人”,預(yù)測(cè)結(jié)果分別為“26歲的時(shí)候”“全家人”。這樣的抽取結(jié)果也可以判定為正確的抽取。經(jīng)過(guò)預(yù)測(cè)優(yōu)化策略后,再根據(jù)實(shí)體分配不同的論元角色,最終提高論元抽取的性能。

        3 實(shí)驗(yàn)

        3.1 實(shí)驗(yàn)數(shù)據(jù)與評(píng)價(jià)方法

        本文實(shí)驗(yàn)基于ACE2005中文語(yǔ)料庫(kù),包含新聞專(zhuān)線、廣播、微博等數(shù)據(jù)。每條數(shù)據(jù)包含觸發(fā)詞、實(shí)體、論元角色標(biāo)簽等標(biāo)注信息。本文采用文獻(xiàn)[6,21]相同的數(shù)據(jù)劃分方法,從語(yǔ)料庫(kù)中隨機(jī)抽取567篇文檔作為訓(xùn)練集,66 篇文檔作為測(cè)試集,并保留訓(xùn)練集中的 33 篇文檔作為開(kāi)發(fā)集。評(píng)判的標(biāo)準(zhǔn)同前人工作一樣,一個(gè)論元被正確識(shí)別當(dāng)且僅當(dāng)該論元在文本的位置和類(lèi)型與標(biāo)準(zhǔn)標(biāo)注文檔中的候選論元的位置和類(lèi)型完全匹配。采用精確率(P),召回率(R)、F1值作為本文的評(píng)價(jià)指標(biāo),具體計(jì)算如式(13)~式(15)所示。

        其中,TP為擔(dān)任角色的實(shí)體被正確識(shí)別出的個(gè)數(shù),F(xiàn)P為角色為None的實(shí)體被錯(cuò)誤識(shí)別的個(gè)數(shù),F(xiàn)N為擔(dān)任角色的實(shí)體被錯(cuò)誤識(shí)別的個(gè)數(shù)。

        3.2 實(shí)驗(yàn)參數(shù)設(shè)置

        本文采用哈工大版本的BERT預(yù)訓(xùn)練模型(BERT-wwm),其參數(shù)字向量維度為768,Transformer層數(shù)為12,實(shí)驗(yàn)的相關(guān)參數(shù)設(shè)置如表3所示。

        表3 實(shí)驗(yàn)參數(shù)設(shè)置表

        3.3 實(shí)驗(yàn)結(jié)果與分析

        本文工作是針對(duì)論元抽取任務(wù),觸發(fā)詞抽取不是重點(diǎn)工作。論元抽取的工作是基于觸發(fā)詞抽取的結(jié)果來(lái)做,本文的觸發(fā)詞抽取模型利用BERT微調(diào)[4]的結(jié)果,其事件類(lèi)型分類(lèi)的精確率(P)為73.9%,召回率(R)為63.8%,F(xiàn)1值為68.5%。

        本文主要進(jìn)行了兩組實(shí)驗(yàn)對(duì)比,一是將本文提出的方法與基準(zhǔn)系統(tǒng)進(jìn)行對(duì)比實(shí)驗(yàn),二是設(shè)置不同問(wèn)題策略的對(duì)比實(shí)驗(yàn)。

        3.3.1 與基準(zhǔn)系統(tǒng)的對(duì)比

        本文將提出的基于閱讀理解框架的方法與現(xiàn)有的論元抽取方法進(jìn)行了對(duì)比。結(jié)果如表4所示。

        表4 論元抽取實(shí)驗(yàn)結(jié)果 (單位: %)

        ?Rich-C[20]: Chen提出的基于特征的模型,該模型針對(duì)中文的特殊性開(kāi)發(fā)了一些手工特征,以共同提取事件觸發(fā)詞和論元角色。

        ?JRNN[13]: Nguyen提出的一種基于神經(jīng)網(wǎng)絡(luò)的模型。它利用雙向RNN和手動(dòng)設(shè)計(jì)的特征來(lái)實(shí)現(xiàn)論元抽取。

        ?C-BiLSTM[5]: Zeng提出的一種結(jié)合LSTM和CNN的卷積雙向LSTM神經(jīng)網(wǎng)絡(luò)來(lái)捕獲句級(jí)和詞匯信息,把論元抽取看成多分類(lèi)任務(wù)的方法。

        ?MTL-CRF[6]: 賀提出的基于CRF的方法,設(shè)計(jì)了一個(gè)有效挖掘不同事件之間論元相互關(guān)系的多任務(wù)學(xué)習(xí)的序列標(biāo)注模型,聯(lián)合標(biāo)注觸發(fā)詞和論元,降低了管道模型帶來(lái)的級(jí)聯(lián)錯(cuò)誤,并沒(méi)有利用復(fù)雜的神經(jīng)網(wǎng)絡(luò),其精確率有明顯的提升,但召回率較低。

        ?DMBERT[27]: Wang提出的有效利用預(yù)先訓(xùn)練語(yǔ)言模型的方法并使用動(dòng)態(tài)多池化方法來(lái)聚合特征。它不同于DMCNN的是利用BERT提取字級(jí)別信息和句子信息,獲得了較大的性能提升。本文復(fù)現(xiàn)了該模型,作為BERT基準(zhǔn)。為了公平比較,觸發(fā)詞抽取部分沿用本文的觸發(fā)詞基準(zhǔn)結(jié)果。

        ?MRC-EAE: 即本文提出的基于BERT并結(jié)合雙向GRU的閱讀理解模型,本文把傳統(tǒng)的論元抽取任務(wù)建模成SQUAD風(fēng)格的機(jī)器閱讀理解任務(wù),使用了BERT編碼問(wèn)題和句子信息,利用了論元角色的先驗(yàn)信息,同時(shí)使用GRU學(xué)習(xí)句子序列特征。

        從表4中的實(shí)驗(yàn)結(jié)果可以看出,本文提出的基于閱讀理解框架并結(jié)合雙向GRU的方法優(yōu)于其他方法。對(duì)比多任務(wù)學(xué)習(xí)的序列標(biāo)注方法MTL-CRF和基于BERT的動(dòng)態(tài)多池化模型DMBERT,本文提出的方法在召回率和F1值上有明顯提升,召回率分別提升了8.2%和4.5%,F(xiàn)1值分別提升了1.3%和1.6%。傳統(tǒng)的MTL-CRF方法聯(lián)合抽取觸發(fā)詞和論元,雖然可以降低級(jí)聯(lián)錯(cuò)誤,但是這種聯(lián)合訓(xùn)練的序列標(biāo)注增加了很多標(biāo)簽,致使類(lèi)別稀疏,導(dǎo)致召回率較低。同樣,在多分類(lèi)任務(wù)DMBERT中,論元角色較少的類(lèi)別很難被識(shí)別出。而本文提出的方法利用BERT和雙向GRU編碼,BERT的多頭注意力機(jī)制和兩句輸入能充分獲取輸入文本的語(yǔ)義信息,將問(wèn)題和句子之間的語(yǔ)義關(guān)系充分捕捉,并在句子中獲取最終的答案位置。這種閱讀理解的方法能夠通過(guò)問(wèn)題編碼了論元角色的先驗(yàn)信息,這是以往工作中沒(méi)有利用的重要特征。由于引入了論元角色的先驗(yàn)信息,可以有效地識(shí)別出角色較少但是標(biāo)簽有語(yǔ)義區(qū)分的類(lèi)別,如交通工具(Vehicle)、原告(Plaintiff)、賣(mài)方(Seller)等。表5給出了5個(gè)低頻論元在DMBERT和本文方法的結(jié)果對(duì)比,從結(jié)果可以看出,本文提出的方法在這幾種少類(lèi)別的角色標(biāo)簽上有明顯的性能提升,更加驗(yàn)證了該方法的有效性。

        表5 低頻論元角色對(duì)比結(jié)果 (單位: %)

        3.3.2 閱讀理解方式不同策略的對(duì)比

        為了驗(yàn)證編碼不同論元角色標(biāo)簽的先驗(yàn)信息對(duì)模型的影響,本文設(shè)置了不同問(wèn)題模板并進(jìn)行了消融實(shí)驗(yàn),問(wèn)題模板設(shè)置在第2節(jié)給出。實(shí)驗(yàn)對(duì)比結(jié)果如表6所示。

        表6 不同的策略對(duì)比結(jié)果 (單位: %)

        模板1的問(wèn)題設(shè)置僅代表論元角色的 語(yǔ) 義,在多事件類(lèi)型的句子中,模型不能正確抽取對(duì)應(yīng)事件類(lèi)型的論元;模板2的問(wèn)題設(shè)置方式加入了觸發(fā)詞,可以表示句中需要抽取論元具體的觸發(fā)詞語(yǔ)義和觸發(fā)詞的位置信息,但對(duì)于論元的描述不夠具體;模板3生成了更自然的問(wèn)題,這種提問(wèn)策略在加入觸發(fā)詞信息的同時(shí)融合事件類(lèi)型信息和論元角色先驗(yàn)信息。

        從表中實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),性能最好的問(wèn)題模板3相比模板1和模板2在F1值上分別提升了3.2和1.7。當(dāng)模板3的問(wèn)題設(shè)置去掉觸發(fā)詞時(shí),性能下降了2.2,這說(shuō)明觸發(fā)詞信息的加入可以有效地判斷答案的位置和與觸發(fā)詞關(guān)系更緊密的論元。此外,在模板3的基礎(chǔ)上,對(duì)抽取的結(jié)果進(jìn)行優(yōu)化,在F1值上能提升0.7;同時(shí)利用雙向GRU的雙向?qū)W習(xí)序列信息的能力,更好學(xué)習(xí)輸入中問(wèn)題與句子上下文的關(guān)系,在結(jié)果優(yōu)化的基礎(chǔ)上F1值提升了0.3。

        3.3.3 錯(cuò)誤分析

        對(duì)實(shí)驗(yàn)結(jié)果進(jìn)一步分析發(fā)現(xiàn),本文提出的方法仍存在不足之處。一方面,本文利用的事件模式信息,存在某些事件句缺失論元角色的情況,即有的問(wèn)題的答案為空,這種情況下模型往往會(huì)被錯(cuò)誤預(yù)測(cè)。如“法官隨即判被告7年預(yù)防性監(jiān)禁”這一句中并不包含時(shí)間相關(guān)論元,但是實(shí)體提及“7年”會(huì)被模型誤認(rèn)為是時(shí)間的角色。另一方面,如果一個(gè)事件句中某個(gè)事件類(lèi)型存在多個(gè)相同的論元角色,受限于本文閱讀理解模型的設(shè)置,只能識(shí)別出其中的一個(gè)作為正確答案。如“而就在呂傳升接受記者訪問(wèn)的時(shí)候,突然接到了呂秀蓮打來(lái)的電話,要呂傳升暫時(shí)封口。”,句中包含兩個(gè)會(huì)面對(duì)象(Entity)——“呂傳升”和“記者”,模型往往只能學(xué)習(xí)到“呂傳升”這個(gè)論元而忽略“記者”。

        4 結(jié)論與展望

        本文采用的基于閱讀理解模型的論元抽取方法,把該任務(wù)形式化為回答不同的問(wèn)題來(lái)實(shí)現(xiàn)不同論元角色的識(shí)別和分配,通過(guò)優(yōu)化問(wèn)題的質(zhì)量來(lái)提升問(wèn)題回答的性能。通過(guò)反復(fù)實(shí)驗(yàn)證明,這種完型填空式的抽取方式比基準(zhǔn)模型有了明顯的性能提升,也能適用于事件抽取任務(wù)。然而,本文的工作是基于句子級(jí)別的論元抽取,缺失了段落信息的句子往往丟失了很多重要的上下文信息。在下一步的研究工作中,還可以考慮基于篇章層面的閱讀理解方式來(lái)提升論元抽取的效果。

        猜你喜歡
        論元編碼模板
        鋁模板在高層建筑施工中的應(yīng)用
        鋁模板在高層建筑施工中的應(yīng)用
        基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達(dá)圖像配準(zhǔn)
        《全元詩(shī)》未編碼疑難字考辨十五則
        子帶編碼在圖像壓縮編碼中的應(yīng)用
        電子制作(2019年22期)2020-01-14 03:16:24
        Genome and healthcare
        成分重量和粵方言雙及物結(jié)構(gòu)的論元語(yǔ)序
        基于論元結(jié)構(gòu)和題元指派對(duì)漢語(yǔ)處置義“把”字句的句法語(yǔ)義分析
        鋁模板在高層建筑施工中的應(yīng)用
        城市綜改 可推廣的模板較少
        亚洲av无码男人的天堂在线| 久久女人精品天堂av影院麻| 精品人妻一区二区三区四区在线 | 国产一区二区三区乱码| 性一交一乱一伦| 国产亚洲女人久久久久久| 亚洲av高清一区二区| 国产一区二区三区久久精品| 亚洲中文字幕无码爆乳| 亚洲黄色尤物视频| 亚洲一区亚洲二区中文字幕| 天天综合网网欲色| 人妻无码aⅴ不卡中文字幕| 久久免费视亚洲无码视频| 亚洲精品av一区二区日韩| 性人久久久久| 曰批免费视频播放免费直播| 2021年最新久久久视精品爱| 久久久国产精品首页免费| 高清午夜福利电影在线| 久久精品人人做人人爽电影蜜月| 加勒比日本东京热1区| 国产精品美女主播一区二区| 国产欧美成人一区二区a片| 国产主播一区二区三区在线观看 | 中文字幕乱码亚洲无线| 国产精品国产三级野外国产| 久久超碰97人人做人人爱| 久久青草免费视频| 亚洲一区二区三区高清视频| 成午夜福利人试看120秒| 中国丰满熟妇av| 久久与欧美视频| 顶级高清嫩模一区二区| 无码精品人妻一区二区三区av| 欧美日韩电影一区| 中文字幕人妻一区色偷久久| 日韩乱码人妻无码系列中文字幕| 国产免费丝袜调教视频| 高清高速无码一区二区| 99久久婷婷国产一区|