亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)增強(qiáng)和弱監(jiān)督對抗訓(xùn)練的中文事件檢測

        2022-11-08 12:42:10羅萍丁玲楊雪向陽
        計算機(jī)應(yīng)用 2022年10期
        關(guān)鍵詞:實(shí)例監(jiān)督文本

        羅萍,丁玲,楊雪,向陽*

        (1.同濟(jì)大學(xué) 電子與信息工程學(xué)院,上海 201804;2.軟通動力信息技術(shù)(集團(tuán))有限公司,河北 廊坊 065000)

        0 引言

        事件檢測任務(wù)的目標(biāo)是將文本中提及的事件觸發(fā)詞抽取出來并將其分類到預(yù)先定義的事件類型[1]。具體而言,觸發(fā)詞通常指代能激發(fā)某一事件的詞或者短語。例如,“普京15 號在文萊斯里巴加灣會見美國總統(tǒng)克林頓”這句話中,觸發(fā)詞“會見”觸發(fā)了“Contact-Meet”這一事件。作為事件抽取的一個重要子任務(wù),事件檢測為智能問答[2]、信息檢索[3]、閱讀理解[4]等其他下游自然語言處理(Natural Language Processing,NLP)應(yīng)用奠定了堅實(shí)的基礎(chǔ)。鑒于其重要性,許多學(xué)者都致力于為這項(xiàng)極具挑戰(zhàn)性的任務(wù)作出貢獻(xiàn)。

        事件檢測任務(wù)的研究方法大致包括基于特征工程的方法和基于神經(jīng)網(wǎng)絡(luò)的方法。早在深度學(xué)習(xí)時代,學(xué)者們就嘗試使用token 級特征[5-6]和結(jié)構(gòu)化特征[7-8]來解決事件檢測任務(wù)。近年來,隨著神經(jīng)網(wǎng)絡(luò)在其他研究領(lǐng)域的快速發(fā)展,將上下文語義信息嵌入低維空間并將事件檢測視為逐詞分類任務(wù)的神經(jīng)網(wǎng)絡(luò)方法取得了重大進(jìn)展[9-10]。尤其是隨著預(yù)訓(xùn)練語言模型的發(fā)展,BERT(Bidirectional Encoder Representation from Transformers)已被廣泛用于事件抽取任務(wù)[11-12]。

        盡管上述完全監(jiān)督的事件檢測方法取得了很大的進(jìn)步,但有限的數(shù)據(jù)規(guī)模仍然阻礙它們實(shí)現(xiàn)更高的性能[13]。此外,完全監(jiān)督的深度學(xué)習(xí)模型通常深受過擬合問題[14]的困擾,因此無法將它們應(yīng)用于新的任務(wù)場景或現(xiàn)實(shí)世界情況。為了克服這些缺陷,本文提出了一種新的基于數(shù)據(jù)增強(qiáng)的弱監(jiān)督對抗訓(xùn)練方法,即基于BERT 的混合文本對抗訓(xùn)練(BERT based Mix-text ADversarial training,BMAD)方法。首先,采用回譯[15]的傳統(tǒng)數(shù)據(jù)增強(qiáng)方法從原始數(shù)據(jù)構(gòu)建真實(shí)無標(biāo)注數(shù)據(jù),并在半監(jiān)督場景下訓(xùn)練事件檢測模型。接下來,聚焦于新型數(shù)據(jù)增強(qiáng)方式Mix-Text 來創(chuàng)建虛擬訓(xùn)練數(shù)據(jù)和標(biāo)簽,旨在通過訓(xùn)練這些生成的不準(zhǔn)確數(shù)據(jù)和帶噪學(xué)習(xí)來提高模型的泛化能力并盡量避免過擬合。最后,設(shè)計了一種基于Mix-Text 的對抗訓(xùn)練策略來增強(qiáng)模型的魯棒性。簡而言之:一方面訓(xùn)練生成器,使其更好地生成假樣本來欺騙判別器;另一方面,訓(xùn)練判別器以更好地判別給定實(shí)例是否是虛假樣例。

        本文的主要工作如下:

        1)提出了一種名為BMAD 的事件檢測方法,它可以創(chuàng)建弱監(jiān)督學(xué)習(xí)場景以解決數(shù)據(jù)稀缺的問題;

        2)設(shè)計了一種基于Mix-Text 的對抗訓(xùn)練策略,旨在抵抗噪聲以增強(qiáng)模型的魯棒性并提高事件檢測任務(wù)模型的性能。

        1 相關(guān)工作

        1.1 事件檢測

        事件檢測作為一項(xiàng)具有挑戰(zhàn)性的任務(wù)一直受到學(xué)者們的廣泛關(guān)注。該任務(wù)的傳統(tǒng)方法[16-21]嚴(yán)重依賴于人工設(shè)計的特征,可以在特定領(lǐng)域?qū)崿F(xiàn)高性能,但在遷移到不同語言或標(biāo)注標(biāo)準(zhǔn)發(fā)生改變時則表現(xiàn)不佳。

        近年來,能夠自動提取高層特征的深度學(xué)習(xí)方法取得了重大進(jìn)展。Chen等[22]首次提出了一種基于動態(tài)多池卷積神經(jīng)網(wǎng)絡(luò)的事件檢測方法來建模觸發(fā)詞和論元角色之間的依賴關(guān)系。Nguyen等[23]提出了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的聯(lián)合事件提取方法。Liu等[24]提出通過有監(jiān)督注意機(jī)制在事件檢測中編碼論元信息的方法。Liu等[25]提出了觸發(fā)詞檢測動態(tài)記憶網(wǎng)絡(luò)來使用上下文信息以解決事件檢測問題。Yan等[26]使用了基于依賴樹的聚合注意力圖卷積網(wǎng)絡(luò)模型對事件檢測任務(wù)進(jìn)行建模。Wang等[27]提出了一種新穎的多層殘差和基于門控的卷積神經(jīng)網(wǎng)絡(luò)框架,通過擴(kuò)展感受野以獲得多尺度上下文信息。

        1.2 弱監(jiān)督學(xué)習(xí)

        鑒于完全監(jiān)督方法受人工標(biāo)注數(shù)據(jù)限制的缺陷,各種弱監(jiān)督方法應(yīng)運(yùn)而生。Chen等[28]使用為每個事件類型檢測關(guān)鍵論元角色和觸發(fā)詞的遠(yuǎn)程監(jiān)督方法自動標(biāo)記文本中的事件。Araki等[29]提出了一種遠(yuǎn)程監(jiān)督方法,該方法能夠不受任何特定數(shù)據(jù)集的限制生成高質(zhì)量的訓(xùn)練數(shù)據(jù)。Zeng等[30]使用現(xiàn)有的結(jié)構(gòu)化知識庫或表格從無標(biāo)注的文本中自動創(chuàng)建事件注釋來擴(kuò)充事件抽取訓(xùn)練實(shí)例,最終實(shí)現(xiàn)了遠(yuǎn)程監(jiān)督學(xué)習(xí)。Huang等[31]設(shè)計了一個半監(jiān)督向量量化變分自動編碼器框架,以自動學(xué)習(xí)每個可見和不可見類型的離散潛在類型表示,并且使用可見類型事件注釋對其進(jìn)行優(yōu)化。Shao等[32]通過最大化問答對和預(yù)測解決方案之間的互信息來明確利用問題與其解決方案之間的語義相關(guān)性,從而避免弱監(jiān)督問答的偽解問題。

        1.3 對抗訓(xùn)練

        對抗學(xué)習(xí)[33]率先在計算機(jī)視覺領(lǐng)域取得了巨大的成功。最近,許多工作都嘗試將對抗性學(xué)習(xí)應(yīng)用于事件檢測任務(wù)。Hong等[34]提出了一種使用生成對抗網(wǎng)絡(luò)生成虛假特征的自調(diào)節(jié)學(xué)習(xí)方法。Wang等[35]構(gòu)建了一個具有良好覆蓋率的大型事件相關(guān)候選集,然后應(yīng)用對抗性訓(xùn)練機(jī)制從候選集中不斷迭代以識別那些富含信息的實(shí)例并且過濾掉那些含噪實(shí)例。Ma等[36]使用對抗訓(xùn)練進(jìn)行無數(shù)據(jù)蒸餾,并最終將蒸餾模型應(yīng)用于文本分類任務(wù)。

        2 模型方法

        本文提出的BMAD 的整體框架如圖1 所示。它由四個模塊組成,包括實(shí)例編碼器模塊、半監(jiān)督模塊、混合文本模塊和對抗訓(xùn)練模塊。首先,對于每個實(shí)例,編碼器將每個目標(biāo)token 編碼為上下文相關(guān)的詞嵌入。然后,使用半監(jiān)督方法來訓(xùn)練有標(biāo)注和無標(biāo)注的數(shù)據(jù)。之后,應(yīng)用基于BERT 的Mix-Text 方法進(jìn)一步增強(qiáng)數(shù)據(jù),以提高模型的泛化性能。最后,使用對抗訓(xùn)練策略,在指導(dǎo)生成器生成與真實(shí)樣例相似的實(shí)例的同時促使鑒別器學(xué)會區(qū)分真假實(shí)例。

        2.1 實(shí)例編碼器模塊

        預(yù)訓(xùn)練語言模型已經(jīng)被廣泛證明能夠?yàn)橄掠文P吞峁┯杏玫奶卣?。在本文中,使用基于Transformer 的BERT 模型[37]以獲取詞嵌入作為網(wǎng)絡(luò)的輸入特征,該模型在各種NLP任務(wù)中均取得了最先進(jìn)的性能。

        給定包含N個token 的句子(t1,t2,…,tN),BERT 采用多層雙向Transformer 編碼器,通過輸入詞、段和位置嵌入來獲得隱藏層嵌入表示。其過程如下,

        緊接著隱藏層詞嵌入將會被輸入到Transformer 模塊中以獲得最終的詞表示X=[x1,x2,…,xN]。

        2.2 半監(jiān)督模塊

        本文中事件檢測問題被視為一個跨度提取任務(wù),即給定一段文本,將每一個觸發(fā)詞視為一個片段從該文本中提取出來。受Yu等[38]的啟發(fā),針對每一個事件類型,采用兩個獨(dú)立的前饋神經(jīng)網(wǎng)絡(luò)(FeedForward Neural Network,F(xiàn)FNN)作為分類器來分別預(yù)測一個候選觸發(fā)詞的開始token 和結(jié)束token。對應(yīng)于每個token 和每個事件類型,通過式(2)~(3)計算它是一個觸發(fā)器詞的開始和結(jié)束的概率:

        其中:FFNN 表示前饋神經(jīng)網(wǎng)絡(luò)。針對特定事件類型,p為所有token 提供成為開始token 或者結(jié)束token 的分?jǐn)?shù),是一個l×2 大小的張量。其中l(wèi)是句子的長度,最后一個維度指示該token 是否是一個候選觸發(fā)詞的開始/結(jié)束。具體來說,ps提供每個token 的開始分?jǐn)?shù),pe提供結(jié)束分?jǐn)?shù)。基于此,為每個事件類別的每個token 分配一個真或假類別y':

        對于有標(biāo)注數(shù)據(jù),y表示一個token 的真實(shí)標(biāo)簽,p表示它是一個特定類別候選觸發(fā)詞的開始或結(jié)束的概率。使用焦點(diǎn)損失函數(shù)來改善類不平衡問題并計算監(jiān)督損失如下:

        對于無標(biāo)注數(shù)據(jù),在訓(xùn)練之前,首先固定模型參數(shù)并使用當(dāng)前模型為它們的token 預(yù)測每一類別的起始概率,得到的分布q視為標(biāo)簽。然后在訓(xùn)練期間,使用相同的步驟得到另一個預(yù)測分布r。最后,將計算這兩個分布之間的相對熵KLD(Kullback-Leibler Divergence)作為無監(jiān)督損失,其計算公式如下:

        2.3 混合文本模塊

        TMix 是Chen等[39]提出的一種新型文本分類半監(jiān)督學(xué)習(xí)方法。它接收兩個真實(shí)的文本樣本作為輸入,并在BERT 模型的隱藏層中混合它們,然后繼續(xù)前向傳遞以預(yù)測混合樣本的混合標(biāo)簽。

        眾所周知,事件檢測任務(wù)比文本分類任務(wù)復(fù)雜得多,因?yàn)樗趩我痪渥又写嬖诙鄠€相互關(guān)聯(lián)的標(biāo)簽。直接使用TMix 可能會給模型注入過多的噪聲,阻礙模型收斂??紤]到這一點(diǎn),使用了Chen等[40]提出的另一種針對序列標(biāo)注任務(wù)的改進(jìn)方法Mix-Text 來緩解噪聲問題。

        本文使用的文本混合策略可分為兩種情形,樣本內(nèi)混合及樣本間混合。對于樣本內(nèi)混合情況,從單一樣本重構(gòu)xintra。具體來說,使用來自同一語句的相同token,但更改其順序并通過以下方式在它們之間執(zhí)行插值:

        其中:l是服從Beta 分布的參數(shù),用于對每個批次的數(shù)據(jù)進(jìn)行插值;xi和xj是來自同一個句子的不同token。

        對于樣本間混合情況,使用兩個不同的句子來構(gòu)造。首先,隨機(jī)采樣一個句子x,然后從被采樣句子的K最近鄰(KNearest Neighbor,KNN)句子集中選取另一個句子x'。xinter由以下方式構(gòu)造:

        最終使用當(dāng)前模型為無標(biāo)注的重構(gòu)語句預(yù)測它們的概率分布p并分別計算上述兩種情形的損失:

        其中:M是構(gòu)造混合文本的空間分布;x為使用式(7)、(9)構(gòu)造的混合文本實(shí)例;yx為其對應(yīng)的構(gòu)造標(biāo)簽;px為2.2 節(jié)中使用FFNN 計算得到的概率。

        2.4 對抗訓(xùn)練模塊

        在對抗訓(xùn)練模塊中,基于上述Mix-Text 方法設(shè)計了對抗策略。對抗訓(xùn)練模塊由一個判別器和一個生成器組成,生成器用來產(chǎn)生盡可能真實(shí)的假實(shí)例,與此同時判別器用于區(qū)分真假實(shí)例,而訓(xùn)練過程則是一個二者之間的對抗性最小-最大博弈游戲。

        生成器基于真實(shí)實(shí)例使用混合文本方法創(chuàng)建樣本內(nèi)混合實(shí)例和樣本間混合實(shí)例,并假設(shè)其均為真實(shí)實(shí)例。為了幫助生成器更好地愚弄判別器,還使用了一個選擇器為來自FFNNs(FFNN start)/FFNNe(FFNN end)的每個開始/結(jié)束概率計算置信度分?jǐn)?shù),之后置信度分?jǐn)?shù)將被用于篩選生成實(shí)例,以此提高對抗訓(xùn)練的穩(wěn)定性。在生成器訓(xùn)練期間,生成器將根據(jù)不可靠實(shí)例的置信度分?jǐn)?shù)最小化損失,這意味著置信度分?jǐn)?shù)較高的實(shí)例在計算損失時會被賦予較大的權(quán)重。為了達(dá)成該目標(biāo),構(gòu)造了如下?lián)p失函數(shù)以優(yōu)化生成器:

        其中:U是經(jīng)過BERT 隱藏層混合后的不可靠采樣實(shí)例的數(shù)據(jù)分布;c表示選擇器計算的置信度分?jǐn)?shù);p表示FFNN 計算的概率。

        反之對于生成器創(chuàng)建的實(shí)例,判別器則會假設(shè)它們?yōu)榧賹?shí)例,并嘗試最大化所選不可靠實(shí)例的損失,為優(yōu)化判別器構(gòu)造的損失函數(shù)如下所示:

        經(jīng)過充分的訓(xùn)練,生成器和判別器最終將達(dá)到平衡。生成器傾向于創(chuàng)建類似于真實(shí)樣例的實(shí)例,同時判別器則可以更好地區(qū)分真假實(shí)例。

        最終,BMAD 方法的損失函數(shù)定義如下:

        其中:λ是一個超參數(shù),權(quán)重隨著訓(xùn)練進(jìn)行不斷增大。而Lossadv則根據(jù)訓(xùn)練階段變化,在生成器優(yōu)化階段為Lossadv-g,在判別器優(yōu)化階段為Lossadv-d。

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 數(shù)據(jù)集和評估指標(biāo)

        在本文中,在自動文檔抽?。ˋutomatic Context Extraction,ACE)數(shù)據(jù)集ACE2005 上進(jìn)行了一系列實(shí)驗(yàn),其中共包含633 篇中文文檔。參照之前相關(guān)工作的數(shù)據(jù)劃分,分別使用569/64 個文檔作為訓(xùn)練/測試集。在此基礎(chǔ)之上,對于訓(xùn)練數(shù)據(jù)集,還使用了5 折交叉驗(yàn)證來減小方差并提高模型的泛化能力。

        針對一個選定的觸發(fā)詞,當(dāng)且僅當(dāng)其事件子類型和偏移量與目標(biāo)觸發(fā)詞的事件子類型和偏移量均匹配時才是正確的。最終,使用精確率(Precision,P)、召回率(Recall,R)和F1 分?jǐn)?shù)作為評價指標(biāo)。

        3.2 基線模型

        本文與以下先進(jìn)模型進(jìn)行了比較:

        1)HNN(Hybrid Neural Network)模型[41]。該模型結(jié)合了雙向LSTM(Long Short-Term Memory)和卷積神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)句子中每個token 的連續(xù)表示,并使用拼接后的特征來識別觸發(fā)候選詞并將每個觸發(fā)候選詞分類為特定的事件類型。

        2)NPN(Nugget Proposal Network)模型[42]。該模型首先使用token 級神經(jīng)網(wǎng)絡(luò)從字符級和單詞級表示中學(xué)習(xí)混合表示,然后使用事件類型分類器來分配事件子類型。

        3)TLNN(Trigger-aware Lattice Neural Network)模型[43]。該模型動態(tài)地結(jié)合了單詞和字符信息,并使用外部知識庫HowNet 來提高其性能。

        4)HCBNN(Hybrid-Character-Based Neural Network)模型[44]。該模型提出通過將單詞信息和語言模型表示結(jié)合到漢字表示中來改進(jìn)逐字模型。

        3.3 整體結(jié)果

        本文方法的整體結(jié)果如表1 所示。從表1 中可以看到,BMAD 的F1 分?jǐn)?shù)最高,其表現(xiàn)明顯優(yōu)于其他對比基線模型。與其他模型相比,BMAD 在ACE2005 數(shù)據(jù)集的觸發(fā)詞分類任務(wù)上F1 分?jǐn)?shù)提升了至少0.84 個百分點(diǎn)。這表明所提方法可以提高模型的泛化能力,并在一定程度上緩解過擬合問題。

        表1 ACE2005上觸發(fā)詞分類任務(wù)上的實(shí)驗(yàn)結(jié)果 單位:%Tab.1 Experimental results on trigger classification task on ACE2005 unit:%

        除此之外,更加值得注意的是,雖然HNN 的精確率最高,但其召回率卻最低,而BMAD 模型在較少犧牲召回率的情況下使精確率有了很大的提升,這意味著該模型在區(qū)分負(fù)樣本時表現(xiàn)良好。也就是說,模型在作出新的預(yù)測時預(yù)測正確的概率更高。

        3.4 消融實(shí)驗(yàn)

        為了更好地反映模型中每個模塊的貢獻(xiàn),進(jìn)行了消融實(shí)驗(yàn)(見表2)。在實(shí)驗(yàn)中使用的基線模型Baseline 是BERT+FFNN+Focal-loss。

        表2 消融實(shí)驗(yàn)結(jié)果 單位:%Tab.2 Ablation experimental results unit:%

        對于半監(jiān)督模塊(Semi),針對回譯方法,爬取谷歌翻譯網(wǎng)頁到本地并使用在線翻譯器將中文語料庫逐條翻譯成英文語料,然后將它們翻譯回來以形成無標(biāo)注數(shù)據(jù)。為半監(jiān)督損失設(shè)置的權(quán)重是0.01。值得注意的是,模型在訓(xùn)練初期的預(yù)測性能很差,過早使用半監(jiān)督損失反而會增加噪聲。為了避免這個問題,在F1 分?jǐn)?shù)達(dá)到0.6 后再使用半監(jiān)督損失來進(jìn)行反向傳播和優(yōu)化,因?yàn)榇藭r模型已經(jīng)基本具備了預(yù)測能力。

        對于混合文本模塊(Mix),使用KNN 為一個特定實(shí)例生成一系列最相似的實(shí)例。BERT 的混合層參數(shù)和K的大小分別設(shè)置為8 和20。

        從實(shí)驗(yàn)結(jié)果中,可以觀察到模型可以從無標(biāo)注的數(shù)據(jù)和不準(zhǔn)確的數(shù)據(jù)中學(xué)習(xí),并且與此同時,對抗訓(xùn)練的方法還可以緩解弱監(jiān)督場景下的噪聲問題。

        4 結(jié)語

        本文將事件檢測任務(wù)重構(gòu)成一個跨度提取任務(wù),并采取了一種先進(jìn)新穎的方法處理弱監(jiān)督場景下的事件檢測任務(wù)。首先,使用回譯和Mix-Text 的方法進(jìn)行了數(shù)據(jù)增強(qiáng),旨在為弱監(jiān)督學(xué)習(xí)場景構(gòu)造數(shù)據(jù);接著,為了訓(xùn)練模型,進(jìn)一步使用了半監(jiān)督學(xué)習(xí)與對抗訓(xùn)練策略相結(jié)合的弱監(jiān)督方法進(jìn)行訓(xùn)練。在廣泛使用的ACE2005 數(shù)據(jù)集上評估了所提方法,結(jié)果表明所提方法達(dá)到了當(dāng)前最優(yōu)性能。未來計劃將所提方法擴(kuò)展到論元角色抽取(事件提取的第二階段)以及聯(lián)合事件抽取任務(wù)。

        猜你喜歡
        實(shí)例監(jiān)督文本
        突出“四個注重” 預(yù)算監(jiān)督顯實(shí)效
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        監(jiān)督見成效 舊貌換新顏
        夯實(shí)監(jiān)督之基
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        完形填空Ⅱ
        完形填空Ⅰ
        監(jiān)督宜“補(bǔ)”不宜“比”
        浙江人大(2014年4期)2014-03-20 16:20:16
        如何快速走進(jìn)文本
        語文知識(2014年1期)2014-02-28 21:59:13
        初尝人妻少妇中文字幕| 午夜国产精品视频在线观看| 亚洲综合网国产精品一区| 亚洲午夜精品a片久久www慈禧| 456亚洲人成影视在线观看| 日本女同伦理片在线观看| 亚洲自拍偷拍一区二区三区| 久久久久亚洲av片无码| 初尝黑人巨砲波多野结衣| 亚洲精品动漫免费二区| 日本人妻97中文字幕| 欧美69久成人做爰视频| 国产成人精品午夜福利| 国产精品日韩中文字幕| 青青河边草免费在线看的视频 | 欧美人与动牲交a欧美精品| 国产性一交一乱一伦一色一情| 国产二区中文字幕在线观看| 亚洲av成人无码一区二区三区在线观看| 欧美丰满大屁股ass| АⅤ天堂中文在线网| 日本高清视频在线观看一区二区 | 女人一级特黄大片国产精品| 黄片小视频免费观看完整版| 国产午夜鲁丝片av无码| 91网站在线看| 国产一区二三区中文字幕| 成人无码av免费网站| 理论片87福利理论电影| 免費一级欧美精品| 精品国产自在现线看久久| 大肉大捧一进一出好爽视频| 日韩永久免费无码AV电影| 国产av三级精品车模| 丰满少妇弄高潮了www| 四虎影院在线观看| 99久久亚洲精品加勒比| 国产精品久久久天天影视| 人人爽人人爽人人爽| av大片在线无码永久免费网址| av网站在线观看亚洲国产|