亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

融合零指代識別的篇章級機器翻譯

2023-10-25 02:21:56李軍輝貢正仙

中文信息學(xué)報 2023年8期

汪浩,李軍輝,貢正仙

(蘇州大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇蘇州 215006)

0 引言

代詞在自然語言中占有重要地位,其蘊涵著豐富的語篇信息。在漢語、日語等語言中,如果可以從周圍的語境或?qū)υ捴型茢喑鼍渥又械拇~,那么該代詞往往會被省略,以使句子更加簡潔精煉。這種特殊的語法現(xiàn)象被稱為零指代現(xiàn)象,這些語言被稱為代詞省略語言(Pro-drop Languages)。這種充滿口語化的表達(dá)雖然不會對人類理解語言造成困難,但當(dāng)計算機處理此類文本時,則對文本理解可能會出現(xiàn)極大的偏差。在機器翻譯任務(wù)中,這種不適應(yīng)現(xiàn)象尤其顯著。當(dāng)把代詞省略語言的句子翻譯成非代詞省略語言的時候(如從漢語到英語),機器翻譯系統(tǒng)會因為無法正確翻譯出省略的代詞(Dropped Pronouns,DP)而導(dǎo)致翻譯性能明顯下降。這個問題在非正式的文本領(lǐng)域中尤其嚴(yán)重,如對話和會談等,因為在這些領(lǐng)域中,為了使句子更加緊湊,代詞經(jīng)常被省略[1]。Wang等[2]分析了一個大規(guī)模中英對話語料庫,結(jié)果表明,在該語料中文端的文本中,大約有26%的代詞被省略了。由此可見,解決省略代詞翻譯難題對非正式文本領(lǐng)域的機器翻譯任務(wù)具有重大的意義。

先前的研究人員在統(tǒng)計機器翻譯模型和傳統(tǒng)的神經(jīng)機器翻譯模型基礎(chǔ)上做了一些緩解省略代詞翻譯錯誤的研究。例如,Wang等[3]首次提出利用平行語料庫中的對齊信息自動標(biāo)注出省略代詞的方法,較大程度上恢復(fù)了中文對話語料的省略代詞,使得翻譯性能得到了非常顯著的提升。Tan等[4]利用特殊的標(biāo)注方法,將標(biāo)注的省略代詞的翻譯作為外部詞匯知識整合到神經(jīng)網(wǎng)絡(luò)翻譯中。但由于零指代機器翻譯領(lǐng)域一直得到的關(guān)注不足,導(dǎo)致研究人員尚未基于最為先進(jìn)的機器翻譯模型——Transformer[5]來解決省略代詞翻譯的難題,相關(guān)研究一直存在空白。受此啟發(fā),本文首次將機器翻譯模型Transformer引入零指代機器翻譯領(lǐng)域。Transformer雖然能夠利用獨特的多頭注意力機制來捕獲更多的語義信息,但面對看不見的省略代詞,也只能翻譯出一些簡單的部分,仍然無法準(zhǔn)確地翻譯出更復(fù)雜句子中的省略代詞。特別地,由于零指代的識別往往需要篇章上下文信息,因此本文先通過往模型中引入篇章上下文信息,再進(jìn)行零指代識別。同時,本文將零指代識別看作是一個分類任務(wù),即識別零指代在句子中擔(dān)當(dāng)?shù)木浞ǔ煞帧?/p>

本文利用聯(lián)合學(xué)習(xí)的架構(gòu),將分類任務(wù)和翻譯任務(wù)聯(lián)合起來,在不改變翻譯模型的基礎(chǔ)上,向翻譯模型隱式地加入有效的零指代信息,緩解省略代詞翻譯錯誤問題。同樣,我們也期望分類任務(wù)和翻譯任務(wù)的作用: 分類為翻譯提供更多的零指代信息,翻譯幫助分類解決歧義等問題。此外,先前的研究表明篇章信息能夠很好地處理零指代消解問題[6-7],而且篇章信息早已被證明能夠顯著提高機器翻譯的性能,解決譯文不通順、不連貫的問題[8-10]。Wang等[11]使用層次神經(jīng)網(wǎng)絡(luò)來總結(jié)文本中當(dāng)前句子的上下文,并將其集成到預(yù)測省略代詞的聯(lián)合模型中,取得了不錯的效果。但是Wang并未充分利用篇章信息來同時提高翻譯與預(yù)測任務(wù)的性能。本文的模型更進(jìn)一步,利用聯(lián)合學(xué)習(xí)共享模塊的結(jié)構(gòu)和注意力機制,充分利用豐富的篇章信息來同時提升兩個任務(wù)的效果。本文提出的方法在大規(guī)模中英對話語料庫上的實驗結(jié)果表明,該方法可以顯著提高省略代詞的翻譯性能,與本文中強大的基準(zhǔn)模型相比,翻譯性能提高了1.48個BLEU值。

本文的主要貢獻(xiàn)有:

(1) 本文首次在零指代機器翻譯任務(wù)中引入當(dāng)前最為先進(jìn)的機器翻譯建模模型Transformer,并取得顯著效果;

(2) 本文提出了一個簡單的模型來共同學(xué)習(xí)翻譯任務(wù)和省略代詞的分類任務(wù),并且證明了分類任務(wù)可以輔助提升翻譯任務(wù)的性能;

(3) 本文驗證了篇章上下文信息對機器翻譯任務(wù)和零指代任務(wù)的有效性。

1 相關(guān)工作

1.1 零指代機器翻譯

零指代機器翻譯離不開省略代詞的恢復(fù)任務(wù),前人在省略代詞的恢復(fù)研究方面取得了很大的進(jìn)展。Yang等[1]首次提出在中文文本信息中恢復(fù)省略代詞,通過訓(xùn)練一個17類的最大熵分類器來判斷句子中省略代詞的類別。Wang等[3]首次提出利用平行語料的對齊關(guān)系來恢復(fù)省略代詞的方法,取得了非常卓越的效果。但Wang等提出的方法存在天然的缺陷,解碼過程中由于無法看到目標(biāo)端的句子,因此無法利用對齊關(guān)系來恢復(fù)測試集的源端省略代詞,轉(zhuǎn)而利用已恢復(fù)的語料訓(xùn)練生成器生成省略代詞,但該模型性能較差,會造成錯誤傳播,影響到翻譯任務(wù)的性能。Wang等[2,11]在聯(lián)合學(xué)習(xí)的架構(gòu)基礎(chǔ)上,利用一種重構(gòu)的方式將編碼器和解碼器輸出表征重構(gòu)回恢復(fù)省略代詞后的源端句子,解碼時由于翻譯模塊參數(shù)已固定而且輸入源端句子為未恢復(fù)省略代詞的句子,不會受到省略代詞的錯誤預(yù)測的影響,取得了不錯的效果。

本文在前人的基礎(chǔ)上,引入了更為先進(jìn)的機器翻譯建模模型Transformer,在翻譯任務(wù)的基礎(chǔ)上,聯(lián)合了更為有效的句法成分識別任務(wù),除此之外,進(jìn)一步加入篇章上下文,使得零指代機器翻譯取得更好的效果。

1.2 篇章翻譯

主流的機器翻譯關(guān)注句子級別的翻譯,這種逐句翻譯的方式在句子層次上可能是完美的,但是忽略掉了篇章之內(nèi)句子之間的上下文信息,會導(dǎo)致翻譯句子缺乏流暢性和邏輯性,篇章級翻譯的興起有效改善了這些問題。

Wang等[12]提出了多層次循環(huán)神經(jīng)網(wǎng)絡(luò),總結(jié)句子之間的篇章信息,并利用不同的策略將這些篇章信息集成到標(biāo)準(zhǔn)NMT模型中。Zhang等[9]采用多編碼器的結(jié)構(gòu),通過額外的編碼器來對上下文信息進(jìn)行特征抽取,與源語言信息融合,用于目標(biāo)語言生成。Maruf等[13]在Transformer的基礎(chǔ)上,將篇章級上下文表征和字符級注意力表征相結(jié)合,并將這種多層上下文注意力模塊融入編碼器和解碼器中。Yang等[14]提出了一種新的以查詢?yōu)閷?dǎo)向的膠囊網(wǎng)絡(luò),該網(wǎng)絡(luò)利用改進(jìn)的動態(tài)路由算法來增強篇章級神經(jīng)機器翻譯的性能?？紤]到主流篇章級翻譯模型通常采用一個額外的上下文編碼器,Chen等[15]使用大規(guī)模源端單語篇章對該上下文編碼器進(jìn)行預(yù)訓(xùn)練。Chen等[16]進(jìn)一步使用大規(guī)模源端單詞篇章和平行句對大幅度提高篇章翻譯的性能。研究者在基于源端上下文建模的方式上取得了顯著的成果,而基于目標(biāo)端上下文建模的方式同樣也受到很多關(guān)注。Voita等[17]和Xiong等[8]采用兩階段訓(xùn)練方法,第一階段生成句子級目標(biāo)端句子,第二階段從生成的譯文中抽取篇章信息,進(jìn)行譯文的二次生成,都取得了性能提升。

與之前的工作相比較,本文為了減少算力消耗和參數(shù)量,采用共享參數(shù)的多編碼器結(jié)構(gòu)來抽取篇章信息,由于模型的多個任務(wù)共享編碼器模塊,因此本文只是在編碼器中融入篇章信息。

2 背景

2.1 省略代詞

在代詞省略語言中,如漢語和日語,零指代出現(xiàn)的頻率明顯要高于非代詞省略語言如英語[6]。由于代詞在語篇中包含了豐富的指代信息,而且對話領(lǐng)域中的句子一般都較短,零指代現(xiàn)象不僅導(dǎo)致代詞的翻譯缺失,而且損害了輸出的句子結(jié)構(gòu)甚至語義。如表1展示的是有省略代詞句子的翻譯實例,Src和Ref表示源端句子和參考譯文,NMT表示標(biāo)準(zhǔn)Transformer的輸出譯文。從源端句子可以看出,例1中的主語代詞“我們”和例2中的賓語代詞“它”都被省略了,但在目標(biāo)端翻譯中這些代詞是不可缺少的。對人類來說,理解源端具有省略成分的句子不是問題,因為我們可以很容易地從上下文中推理出這些省略的代詞。如例2展示,代詞“它”是一個指示代詞,指示著前一句中的先行詞“蛋糕”,人類可以輕易地從前一句推斷出后一句省略了“它”,但這對機器來說是非常困難的。如例1展示,人類也能夠從全句推斷出句子缺少了主語,然后根據(jù)具體語義推斷主語代詞為“我們”,這同樣考驗著機器的理解能力。

表1 省略代詞的翻譯實例(括號中代詞指源端句子中的省略代詞)

具體地,省略代詞的存在使代詞省略語言到非代詞省略語言的翻譯模型面臨巨大的挑戰(zhàn)。如表1中的例子所示,NMT是使用當(dāng)前最先進(jìn)的機器翻譯建模模型Transformer生成的譯文,如例1中Transformer無法成功地將源端缺失的代詞翻譯出來,造成目標(biāo)端譯文不夠完整,語義不通順。例2中,NMT由于無法捕捉到省略代詞的信息,導(dǎo)致將源端句子翻譯成“did you do”,不僅譯文翻譯不完整,而且出現(xiàn)了錯誤翻譯的現(xiàn)象。

2.2 神經(jīng)機器翻譯模型

句子級神經(jīng)機器翻譯模型: 機器翻譯的目標(biāo)是將輸入的源語言句子轉(zhuǎn)化為目標(biāo)語言句子,經(jīng)典的方法是通過多分類模型對源端句子進(jìn)行建模,并通過自回歸模型生成目標(biāo)端句子的分布。設(shè)源端句子為x=x1,x2,…,xJ,目標(biāo)端句子為y=y1,y2,…,yI,其中y

而神經(jīng)機器翻譯(NMT)的目標(biāo)是通過深度神經(jīng)網(wǎng)絡(luò)的編碼器-解碼器結(jié)構(gòu)構(gòu)造這個目標(biāo)函數(shù),其中θ為神經(jīng)網(wǎng)絡(luò)的超參數(shù)。

篇章級神經(jīng)機器翻譯模型: 基于篇章上下文的機器翻譯任務(wù)則是在句子級翻譯建模模型的基礎(chǔ)上,結(jié)合同一篇章內(nèi)部分或所有上下文信息來進(jìn)行建模,如式(2)所示。

其中,D表示對應(yīng)篇章中所有句子的集合,D-j表示篇章中除去第j個句子的其他句子。

3 融合零指代識別的篇章級神經(jīng)機器翻譯

3.1 零指代識別任務(wù)

給定一個句子,傳統(tǒng)的零指代識別需要識別零指代出現(xiàn)的位置,以及缺失的代詞。一方面,考慮到零指代出現(xiàn)的位置非常具有歧義性,如在句子“今天要不要去電影”中,省略的代詞既可以出現(xiàn)在“今天”前,也可以出現(xiàn)在其后。另一方面,考慮到省略的代詞種類繁多,如實驗數(shù)據(jù)訓(xùn)練集中省略的代詞種類達(dá)28種。

而本文提出的零指代識別任務(wù)是指利用分類器模塊對源端句子中省略代詞所表示的句法成分進(jìn)行識別。本文模型中分類器的真實標(biāo)簽來自于識別出省略代詞后的句子。我們先識別原始句子中的省略代詞,訓(xùn)練集使用詞對齊的方式識別省略代詞,測試集則是使用Wang等[3]提出的省略代詞生成器自動識別省略代詞,然后利用開源的依存句法分析庫DDParser(1)https://gitee.com/baidu/DDParser分析這些省略代詞的句法成分,統(tǒng)計并歸類,最終確定了分類器分類的四個標(biāo)簽: 缺失主語類,缺失賓語類、缺失定語類以及不缺失代詞類,標(biāo)簽實例如表2所示。

3.2 模型結(jié)構(gòu)

本文的出發(fā)點是如何更加有效地利用零指代信息來提升翻譯模型的效果。本文提出的模型的框架如圖1所示, 模型框架是基于Transformer的序列到序列模型,Transformer采用多頭注意力機制(multi-head attention), 能夠直接對序列中任意位置之間的關(guān)系進(jìn)行建模,這很好地解決了長距離依賴問題,進(jìn)行多頭注意力計算時,需要將輸入表征分別處理成Query(Q),Key(K),Value(V),然后利用這三個表征進(jìn)行注意力的計算,該過程用式(3)～式(5)表示如下。

圖1 融合零指代識別的神經(jīng)機器翻譯模型

其中,dk表示為表征K的維度。

(4)

其中,Cat表示拼接操作,h表示總頭數(shù),WO表示多頭拼接之后進(jìn)行線性變換的權(quán)重矩陣。

本文模型在Transformer的基礎(chǔ)上進(jìn)行了適應(yīng)性改進(jìn),整體模型由編碼器(Encoder)、解碼器(Decoder)和分類器三個模塊構(gòu)成。

編碼器我們對標(biāo)準(zhǔn)的Transformer編碼器進(jìn)行了改進(jìn)。編碼器由多層完全相同的子模塊堆疊而成,每一個子模塊由一個多頭自注意力子層、一個多頭上下文注意力子層和一個全連接前饋神經(jīng)網(wǎng)絡(luò)構(gòu)成。與標(biāo)準(zhǔn)的Transformer編碼器不同,本文額外引入了上下文注意力子層來融合篇章上下文信息,如圖1中虛線所指就是上下文信息的編碼過程,編碼端的輸入由當(dāng)前句及其上下文組成。為了減少計算成本,本文采用共享編碼器的結(jié)構(gòu),編碼器先編碼當(dāng)前句的上下文句子,上下文注意力子層不參與此過程,第二步編碼當(dāng)前句時三個子層同時參與計算,上下文注意力子層的輸入K,V來自于第一步中上下文的編碼輸出,Q來自于當(dāng)前句自注意力子層的輸出,當(dāng)前句的編碼輸出結(jié)果輸入到解碼端進(jìn)行下一步計算。

解碼器解碼器與標(biāo)準(zhǔn)的Transformer解碼器一致,由多個完全相同的子模塊堆疊而成,每一個子模塊由一個多頭掩碼自注意力子層、一個多頭上下文注意力子層和一個全連接前饋神經(jīng)網(wǎng)絡(luò)構(gòu)成。解碼端輸入只有源端當(dāng)前句的對應(yīng)目標(biāo)端句子,這與編碼端的輸入不同。解碼器的輸出會被映射到目標(biāo)端詞表的空間,利用Softmax函數(shù)計算詞表中各個詞對應(yīng)的預(yù)測概率,最終將預(yù)測結(jié)果與真實結(jié)果計算損失。

分類器分類器由兩層全連接層加上Sigmoid函數(shù)構(gòu)成,輸出是四元標(biāo)簽分類的結(jié)果。由于分類器的分類目標(biāo)是基于句子級的向量表征,本文將編碼器的輸出表征通過Max-pooling和Mean-pooling操作之后拼接在一起構(gòu)成分類器的輸入。最終,分類器的輸出與真實的標(biāo)簽計算損失。

3.3 聯(lián)合學(xué)習(xí)

本文模型采用聯(lián)合學(xué)習(xí)的訓(xùn)練方式,分為翻譯任務(wù)和分類任務(wù)。模型的損失函數(shù)分為兩部分,包括神經(jīng)機器翻譯模型的翻譯損失和省略代詞的分類損失。

翻譯目標(biāo)端的相關(guān)損失函數(shù)如式(6)所示。

(6)

其中,D表示訓(xùn)練集中總平行篇章對數(shù),Sn表示第n個平行篇章對中的句子總數(shù),Xn和Yn表示第n個平行篇章對的源端句子和目標(biāo)端句子。wn,t表示第n個平行篇章對的第t個句子的總token數(shù),cn,(t)表示引入的上下文信息,θ表示模型的訓(xùn)練參數(shù)。

零指代分類損失如式(7)所示。

最終,本文的聯(lián)合學(xué)習(xí)的訓(xùn)練目標(biāo)如式(8)所示。

其中,α是零指代分類損失的權(quán)重參數(shù),本文模型中設(shè)置α為1.0。

4 實驗

4.1 實驗設(shè)置

本文在大規(guī)模中英對話語料庫上進(jìn)行驗證實驗。該對話數(shù)據(jù)集由電影或電視劇字幕構(gòu)成,訓(xùn)練集、驗證集和測試集分別包含2.15M,1.09K和1.15K個平行句對,驗證集和測試集是隨機選擇兩集完整的電視劇節(jié)目字幕挑選出來的,表3列出了語料的統(tǒng)計情況,該語料中句子一般較短,源語言和目標(biāo)語言的代詞數(shù)量差距較大,這體現(xiàn)了代詞省略的問題,表中也展示了訓(xùn)練集、驗證集和測試集中省略代詞(DP)的數(shù)量。

表3 對話數(shù)據(jù)集的統(tǒng)計情況

本文采用Jieba分詞工具(2)https://github.com/fxsjy/jieba對中文句子進(jìn)行分詞,而目標(biāo)端英文句子則使用Moses腳本[18]進(jìn)行分詞處理。由于原數(shù)據(jù)集中保留了篇章信息,但是沒有生成獨立的篇章,我們手動將數(shù)據(jù)集切割成獨立的篇章,每個篇章中包含7個句子。本文對中英文數(shù)據(jù)分別采用了子詞化操作[19],子詞化操作數(shù)為30K。翻譯任務(wù)的評估指標(biāo)為大小寫不敏感的NIST BLEU[20],由mteval-v13a.pl測試腳本計算得出。此外,本文還對模型翻譯性能的BLEU值提升進(jìn)行了顯著性測試[21]。

本文的建模模型Transformer來源于OpenNMT(3)https://github.com/OpenNMT/OpenNMT-py,在其基礎(chǔ)上加以改進(jìn),將其改進(jìn)為以篇章為單位更新參數(shù)的模型。本文將編碼器和解碼器設(shè)置為6層,多頭注意力機制中含有8個頭,同時設(shè)置Dropout值為0.1,隱層維度和前饋神經(jīng)網(wǎng)絡(luò)中間層單元數(shù)分別為512和2 048,學(xué)習(xí)率設(shè)置為1.0。選擇的優(yōu)化器為Adam優(yōu)化函數(shù)[22],其中β1為0.9,β2為0.998。訓(xùn)練時批處理大小為4 096個token以內(nèi)。進(jìn)行解碼時,設(shè)置Beam Size為5,所有其他的設(shè)置采用Vaswani系統(tǒng)[5]中的默認(rèn)設(shè)置。

4.2 實驗結(jié)果

為了驗證本文提出方法和模型的有效性,我們在中英翻譯任務(wù)上進(jìn)行實驗,實驗包括四個模型,如表4所示。

表4 中英對話翻譯實驗結(jié)果(表示與Baseline相比較,BLEU值在p=0.01時具有顯著性提高)

(1) 基準(zhǔn)模型是由沒有標(biāo)注出省略代詞的中英雙語語料使用標(biāo)準(zhǔn)Transformer模型訓(xùn)練,在同樣沒有經(jīng)過標(biāo)注處理的測試集上進(jìn)行測試,由表中的Baseline表示。

(2) +Context表示在Baseline基礎(chǔ)上,在源端編碼器中融合篇章上下文信息,本文中選取的篇章上下文為兩句。

(3) +DP-parse表示在Baseline基礎(chǔ)上,聯(lián)合判斷省略代詞在句子中句法成分的分類任務(wù),測試集利用的省略代詞信息是由Wang[3]提出的代詞生成器模型自動生成的。

(4) +Context +DP-parse 表示在聯(lián)合任務(wù)的基礎(chǔ)上, 向模型加入源端上下文信息所取得的翻譯效果。

本文提出模型的實驗效果表4展示出本文提出模型在中英對話測試集上的性能結(jié)果。

(1) 與基準(zhǔn)模型相比,只聯(lián)合省略代詞的分類任務(wù)后取得了0.88的BLEU值提升,這證明了本文使用聯(lián)合學(xué)習(xí)方法的有效性。

(2) 在進(jìn)一步向模型中加入篇章上下文后,翻譯任務(wù)的BLEU取得了1.48的明顯提升,最終測試集BLEU值達(dá)到了37.40,分類任務(wù)的準(zhǔn)確率也提升了約3個百分點,這也表明篇章上下文信息不僅能夠提升翻譯效果,對省略代詞的分類任務(wù)也有積極的作用。

與先前研究的對比表4展示了之前經(jīng)典的零指代機器翻譯研究的模型性能。

(1) DPEs-ref通過LSTM+CRF的標(biāo)注模型,恢復(fù)了對話語料中的省略代詞,并用等價的目標(biāo)語言代詞代替省略代詞的方式,有效提高了翻譯的性能,但是由于該機器翻譯建模采用為基于RNN的序列到序列模型,最終模型性能只與標(biāo)準(zhǔn)Transformer模型性能相一致,這也顯示出Transformer建模模型的強大之處。

(2) Shared-Rec研究是通過聯(lián)合重構(gòu)器模塊的方式,利用編碼器和解碼器的輸出來重新解析省略代詞信息。ZP-joint是在Shared-Rec的基礎(chǔ)之上額外聯(lián)合一個序列標(biāo)注任務(wù),最終取得了37.11的性能。

(3) 與之前模型相比較,本文提出的模型在參數(shù)量遠(yuǎn)小于其他模型的條件下,依舊取得了37.40的BLEU值,比之前該大規(guī)模對話語料上最好效果提高了0.29個BLEU,證明了本文提出的模型不僅具有優(yōu)異的性能,還具有消耗算力少、訓(xùn)練時間短的優(yōu)勢。

4.3 代詞恢復(fù)質(zhì)量對翻譯性能的影響

顯式融合零指代信息指直接將識別出的省略代詞加入到原始句子,然后利用識別后的句子訓(xùn)練模型,由于訓(xùn)練集利用詞對齊識別代詞方法的準(zhǔn)確率遠(yuǎn)高于測試集利用代詞生成器的識別方式,這導(dǎo)致使用自動識別的測試集測試時,錯誤的省略代詞會嚴(yán)重影響翻譯的性能。針對顯式融合零指代信息方式對翻譯性能的影響,本文在兩種訓(xùn)練集和三種不同的測試集上做了對比實驗。如表5所示: ①訓(xùn)練集包括未識別原始訓(xùn)練集中省略代詞和利用詞對齊自動識別原始訓(xùn)練集中省略代詞兩種; ②測試集包括未識別原始測試集中的省略代詞,自動識別省略代詞和人工標(biāo)注省略代詞三種。該對比實驗使用的模型都用標(biāo)準(zhǔn)Transformer訓(xùn)練,參數(shù)都保持一致。

表5 代詞識別質(zhì)量對翻譯性能影響的實驗結(jié)果

分析模型在不同數(shù)據(jù)集組合上的翻譯效果后,得到以下結(jié)論:

(1) 在未識別省略代詞訓(xùn)練集的實驗中,使用自動識別和人工識別的測試集都可以提高最終的測試效果,但自動識別的方式提高了0.93個BLEU值,而人工識別提高了3.75個BLEU值,這證明了識別省略代詞的效果越好,翻譯性能提升越明顯,進(jìn)一步證明零指代翻譯具有很大的研究前景。

(2) 在自動識別省略代詞訓(xùn)練集的實驗中,由于訓(xùn)練數(shù)據(jù)中帶有省略代詞的信息,因此使用未識別的測試集時,訓(xùn)練和測試存在不一致,性能會出現(xiàn)巨大的下降;使用自動識別的測試集時,與未識別出省略代詞訓(xùn)練集組相比,性能下降了0.6個BLEU值,本文認(rèn)為這是由于詞對齊識別的準(zhǔn)確率很高,自動識別代詞錯誤率很高,錯誤的省略代詞影響了句子的原本語義,導(dǎo)致識別出的省略代詞沒有對翻譯產(chǎn)生積極影響;使用人工識別的測試集時,與未識別出省略代詞訓(xùn)練集組相比,提升了0.7個BLEU,達(dá)到了40.37的BLEU值性能,本文認(rèn)為這是由于訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的識別質(zhì)量都很高,因此可以達(dá)到更好的效果。

上述實驗結(jié)果表明,在無平行數(shù)據(jù)條件下提高省略代詞的識別質(zhì)量是零指代機器翻譯的重難點,這也是我們未來研究的重點。

4.4 代詞翻譯的性能

參考Miculicich[23-24]的研究,本文對測試集中代詞的翻譯效果進(jìn)行分析實驗,實驗結(jié)果如表6所示。由實驗結(jié)果可以看出,與Baseline的代詞翻譯效果相比較,本文模型提升了0.97個百分點,證明了本文提出的融合零指代信息和篇章信息的模型能夠有效地提升指代翻譯的性能。

表6 代詞翻譯性能的實驗結(jié)果

4.5 篇章長度對翻譯性能的影響

本文通過引入篇章上下文信息提升了翻譯性能。為了探究不同的篇章長度對翻譯性能的影響,本文做了相關(guān)的對比實驗。表7展示了本文提出模型在不同長度的篇章信息下的翻譯性能。由實驗結(jié)果可以看出,當(dāng)篇章句子長度為2時模型取得最佳的翻譯效果,使用更多的篇章句子時不僅使得翻譯效果下降,而且還增加了計算代價。這與Zhang等[9]的結(jié)論相一致,遠(yuǎn)距離篇章上下文信息的影響是有限的。因此本文采用的篇章上下文句子長度為2句。

表7 不同的篇章長度對翻譯性能影響實驗結(jié)果

4.6 有省略句子與無省略句子翻譯性能對比

雖然本文實驗使用的對話數(shù)據(jù)集句子中存在很多的省略代詞,但是數(shù)據(jù)集中大部分句子都是完整無省略代詞的句子。為了探究無省略代詞和有省略代詞句子的翻譯性能的差距,本文做了相關(guān)的對比實驗。如表8中所示,我們根據(jù)句子是否存在省略代詞將原始的測試集分成了無省略測試集(表示為NDP),和有省略測試集(表示為DP),分別使用標(biāo)準(zhǔn)的Transformer模型和本文提出的模型進(jìn)行測試。

表8 有省略句子和無省略句子翻譯對比實驗結(jié)果

分析模型在兩種不同數(shù)據(jù)集上的測試效果后,得到以下結(jié)論:

(1) 在無省略測試集上,Baseline和本文提出模型的性能都高于全部的原始測試集,這證明了無省略代詞的翻譯能夠取得更好的效果,本文提出模型比Baseline提高了1.27個BLEU值,因而認(rèn)為我們的模型融合的篇章信息中除了零指代信息之外,還存在其他的語義信息,能夠幫助提高翻譯的效果。

(2) 在有省略測試集上,Baseline的翻譯效果出現(xiàn)了明顯的下降,而我們的模型雖然也出現(xiàn)了下降,但是達(dá)到的效果與Baseline相比,提高了1.8個BLEU值,這表明標(biāo)準(zhǔn)的Transformer難以很好地處理省略代詞的翻譯,而本文提出的模型可有效地緩解省略代詞的翻譯錯誤問題。

4.7 實例分析

本節(jié)展示一些使用本文提出的模型識別出省略代詞的例子,進(jìn)一步證明本文提出方法的有效性。如表9所示,Source表示源端未識別代詞的句子;Context表示源端的上下文,本文模型采用兩句上下文,以“||”分割;Ref表示目標(biāo)端參考譯文;Baseline是使用Transformer模型得到的譯文;NMT表示使用本文提出模型得到的譯文。

表9 實例分析

例1和例2中,源端句子存在省略代詞"你"和"我們",Baseline由于沒有融合零指代信息,所以無法成功翻譯出you和we,而Our模型正確地翻譯出you和we,這表明了本文提出的模型能有效捕捉省略代詞的信息。例3和例4的實例中雖然也能夠捕捉到零指代信息,卻沒有正確地翻譯出代詞,我們認(rèn)為這是由于有些省略代詞是需要充分結(jié)合上下文才能推斷得出的,本文模型雖然融入了篇章信息,但是模型預(yù)測復(fù)雜的零指代關(guān)系時,還存在著一些不足,無法從篇章信息獲取對應(yīng)的零指代信息,這也需要進(jìn)一步對篇章信息進(jìn)行加工處理融合與零指代關(guān)系更有效的篇章信息。

5 總結(jié)

針對對話領(lǐng)域的零指代機器翻譯如何利用好零指代信息來提升翻譯效果,本文提出了一種基于聯(lián)合學(xué)習(xí)的模型結(jié)構(gòu)。首先,引入現(xiàn)今最先進(jìn)的神經(jīng)機器翻譯建模模型Transformer來提升翻譯的質(zhì)量,在此基礎(chǔ)上聯(lián)合分類任務(wù)對源端句子中的省略成分進(jìn)行分類,再通過融入篇章信息來進(jìn)一步提升翻譯和分類的性能。在大規(guī)模中英對話數(shù)據(jù)集上的實驗證明了本文提出模型的有效性。

但是,本文模型還存在著一些不足。本文融合篇章信息的方式存在優(yōu)化的空間,在處理比較復(fù)雜的省略代詞信息時,由于模型難以從駁雜的篇章信息中抽取有效地零指代信息,導(dǎo)致難以正確翻譯出省略代詞。在未來的研究中,會對如何更加有效的利用好篇章信息進(jìn)行進(jìn)一步研究。除此之外,如何在無平行數(shù)據(jù)的情況下提高省略代詞的識別準(zhǔn)確性也是我們研究的重點。