宗勤勤,李茂西
(江西師范大學(xué),計(jì)算機(jī)信息工程學(xué)院,江西 南昌 330022)
近年來,基于Transformer[1]的編碼器—解碼器結(jié)構(gòu)拋棄了傳統(tǒng)的CNN[2]層和RNN[3]層,完全利用注意力機(jī)制實(shí)現(xiàn)序列轉(zhuǎn)換任務(wù),極大地提高了機(jī)器翻譯的質(zhì)量、訓(xùn)練效率和系統(tǒng)的并行性。
盡管Transformer編碼器并行地讀取源語言句子中每個(gè)詞語,使用自注意力機(jī)制使每個(gè)詞均由其上下文進(jìn)行表示;但是,其解碼生成機(jī)器譯文是自左向右單向的,譯文中當(dāng)前位置詞的生成只能根據(jù)已翻譯的歷史信息和源端信息來預(yù)測(cè)。由于詞的依存關(guān)系包括上文和下文,因此,一些情況下利用已翻譯的上文信息不足以準(zhǔn)確預(yù)測(cè)目標(biāo)詞,尤其是決定當(dāng)前位置詞的依賴信息位于未翻譯的下文時(shí),極易導(dǎo)致出現(xiàn)詞語搭配不當(dāng)?shù)确g錯(cuò)誤。表1給出具體示例來解釋這種情況,給定源句“He was wearing a hat.”,當(dāng)解碼“wearing”這個(gè)詞時(shí),解碼器只會(huì)利用譯文中已生成的前文信息“他”,而不能利用對(duì)其生成更重要的未翻譯后文信息“帽子”,導(dǎo)致生成的詞“穿”與后文的詞“帽子”搭配不當(dāng)。針對(duì)這種情況,我們探索將已解碼生成的機(jī)器譯文作為目標(biāo)語言的近似上下文,重新對(duì)其中每個(gè)詞依次進(jìn)行重解碼,在本例中即利用已生成的機(jī)器譯文“ 他 穿了 一個(gè) 帽子?!敝小按钡暮笪男畔ⅰ懊弊印睂⒃~“穿”校正為詞“戴”,通過這種方式提高機(jī)器譯文質(zhì)量。
表1 Transformer解碼器自左向右生成機(jī)器譯文容易導(dǎo)致翻譯錯(cuò)誤的簡(jiǎn)單示例
為了利用已生成的機(jī)器譯文作為目標(biāo)語言的近似上下文環(huán)境校正其中的翻譯錯(cuò)誤,我們將Transformer解碼器中遮擋多頭注意力(masked multi-head attention)修改為僅遮擋當(dāng)前重解碼詞的遮擋矩陣,并探索多種Transformer解碼層堆疊方式,提高譯文質(zhì)量的同時(shí)將解碼器簡(jiǎn)化為一層。在多個(gè)WMT機(jī)器翻譯評(píng)測(cè)任務(wù)測(cè)試集上,使用該方法對(duì)Transformer的輸出譯文和參與評(píng)測(cè)的最優(yōu)翻譯系統(tǒng)的輸出譯文,以及WMT18 APE測(cè)試集中的機(jī)器譯文分別進(jìn)行重解碼,重解碼的機(jī)器譯文在BLEU指標(biāo)上均得到了一定提高。對(duì)重解碼譯文的進(jìn)一步分析揭示了本文的方法能較好地校正翻譯中的搭配不當(dāng)和主謂不一致等錯(cuò)誤。
在傳統(tǒng)統(tǒng)計(jì)機(jī)器翻譯中,為了研究上文信息和下文信息對(duì)翻譯質(zhì)量的影響,Watanabe和Sumita[4]在英語-日語和日語-英語翻譯中嘗試了自左向右和自右向左的兩種解碼方式,發(fā)現(xiàn)不同方向的解碼適合不同的翻譯任務(wù),并提出了雙向解碼合并從左到右和從右到左生成的機(jī)器譯文;Finch和Sumita[5]收集前向和后向解碼產(chǎn)生的所有翻譯假設(shè),然后基于兩個(gè)方向的線性插值對(duì)所有假設(shè)進(jìn)行重新排序,以生成高質(zhì)量的機(jī)器譯文。
在基于RNN的編碼器—解碼器神經(jīng)機(jī)器翻譯方面,Liu等[6]通過聯(lián)合搜索算法在從左到右解碼和從右到左解碼生成的譯文中尋找最優(yōu)的譯文;Sennrich等[7]利用Liu等人的方法參加WMT16機(jī)器翻譯評(píng)測(cè),并取得了較好的成績(jī);另一種利用目標(biāo)端上下文信息的有效途徑是訓(xùn)練新的神經(jīng)機(jī)器翻譯模型以合并預(yù)解碼器的目標(biāo)譯文,這些方法通常是多源神經(jīng)機(jī)器翻譯模型的變體[8]。在基于Transformer的編碼器—解碼器神經(jīng)機(jī)器翻譯方面,Zhou等[9]提出了同步雙向序列生成模型,同時(shí)從兩邊向中間生成機(jī)器譯文;Zheng等[10]提出利用動(dòng)態(tài)路由機(jī)制,在每一個(gè)解碼步中根據(jù)當(dāng)前狀態(tài)顯式地將源語言句子中的詞語分為已翻譯的和未翻譯的,以充分利用目標(biāo)端上下文信息。Zhang等[11]提出一種迭代正則化的策略,強(qiáng)制前向和后向翻譯模型保持相互一致,以從對(duì)等的翻譯模型中生成上下文信息,從而獲取語義信息;Fan等[12]提出的QEBrain模型使用兩個(gè)獨(dú)立的Transformer解碼器來關(guān)注機(jī)器譯文的上文和下文信息。
與前人的工作不同,我們將已解碼生成的機(jī)器譯文作為目標(biāo)端近似上下文環(huán)境,利用新的遮擋方式構(gòu)建編碼器—解碼器模型,在已生成的機(jī)器譯文基礎(chǔ)上對(duì)其進(jìn)行重解碼,以提高機(jī)器譯文質(zhì)量。
為了對(duì)已生成的機(jī)器譯文進(jìn)行校正,我們把譯文重解碼任務(wù)轉(zhuǎn)化為完形填空任務(wù),即給定源語言句子和其已生成的機(jī)器譯文,逐個(gè)遮擋機(jī)器譯文中每個(gè)詞,由重解碼模型重新生成該位置的詞。根據(jù)這樣的設(shè)置我們改進(jìn)了Transformer模型,使其適應(yīng)對(duì)機(jī)器譯文進(jìn)行重解碼,改進(jìn)后的模型稱為TransRedecoder,模型結(jié)構(gòu)如圖1所示,它包含6層編碼器和1層解碼器。TransRedecoder模型的輸入由源語言句子和已生成的機(jī)器譯文組成,即圖中最下一行src和mt,模型的輸出是重解碼生成的機(jī)器譯文,即圖中最上一行redecoder mt。它與Transformer模型的主要區(qū)別表現(xiàn)在:
(1) TransRedecoder為了利用下文信息,改變了遮擋多頭注意力中遮擋方式,而Transformer的遮擋多頭注意力中采用的是下三角遮擋矩陣;
圖1 TransRedecoder模型的結(jié)構(gòu)
(2) TransRedecoder重解碼是并行的多個(gè)分類過程,而Transformer解碼是自左向右自回歸的自由文本生成過程。
下面對(duì)該模型進(jìn)行詳細(xì)的闡述。
給定一個(gè)包含m個(gè)詞的源語言句子x= (x1,x2,…,xm),Transformer模型利用已訓(xùn)練好的模型參數(shù)θ和已生成的機(jī)器譯文上文信息y
(1)
在模型測(cè)試解碼時(shí),Transformer模型只能看到前面已生成的局部譯文信息,而在模型訓(xùn)練時(shí),雙語平行語料中目標(biāo)語言端譯文信息全部呈現(xiàn)給Transformer模型,為了模擬測(cè)試階段輸入信息的方式,Transformer模型在訓(xùn)練時(shí)采用遮擋多頭注意力遮擋目標(biāo)語言端當(dāng)前位置詞后面的詞語信息。其遮擋矩陣如圖2(a)所示,矩陣中元素為0的位置表示在進(jìn)行softmax計(jì)算分配概率時(shí),將相應(yīng)位置的詞語注意力權(quán)值設(shè)為一個(gè)很小的負(fù)常數(shù)值,通常為“-1e9”,以使該位置的詞語不參與注意力分配;而矩陣中元素為1的位置表示其值原樣輸出,參與多頭注意力的計(jì)算。
小班化教學(xué)所提倡的新型評(píng)價(jià)理念,在評(píng)價(jià)內(nèi)容上的反映是要求教師不僅只著眼于學(xué)習(xí)成果,還應(yīng)綜合考慮學(xué)生在小組合作中的合作、社會(huì)交往以及語言表達(dá)的能力。小班教學(xué)要求廣大教師必須更加關(guān)心學(xué)生的合作學(xué)習(xí)過程,將學(xué)術(shù)性評(píng)價(jià)與合作能力評(píng)價(jià)相結(jié)合,努力使兩種評(píng)價(jià)方式為提高合作學(xué)習(xí)的效率發(fā)揮作用,盡最大的努力給予學(xué)生公平、客觀的評(píng)價(jià)。
基于重解碼的方法以給定(x,y)為出發(fā)點(diǎn),把已生成的機(jī)器譯文y看作是目標(biāo)語言端的近似上下文環(huán)境,對(duì)y中詞語逐個(gè)進(jìn)行重新解碼生成新的機(jī)器譯文y′,如式(2)所示。
(2)
圖2 不同遮擋方式對(duì)比示意圖
其中,參數(shù)θ′是重解碼模型的參數(shù)。由于重解碼當(dāng) 前位置詞生成的新詞可能為空,因此,新的機(jī)器譯文y′包含的詞語數(shù)量不嚴(yán)格等于原機(jī)器譯文的長(zhǎng)度。需要說明的是,重解碼生成的新詞不參與譯文中后續(xù)詞語的校正,即重解碼并沒有在線更新譯文中的詞語,這主要是為了避免讀入新詞的詞向量和重新計(jì)算多頭注意力,以加速解碼過程和支持并行化。在后續(xù)的實(shí)驗(yàn)中,我們將驗(yàn)證可以通過二次重解碼來批量更新譯文中的詞語。
為了利用已生成的機(jī)器譯文,我們對(duì)Transformer解碼器的遮擋多頭注意力中的遮擋方式進(jìn)行了修改,以使重解碼當(dāng)前位置詞時(shí)可以看到近似的下文信息y>i,典型的遮擋方式如圖2(b)所示,重解碼時(shí)僅遮擋譯文當(dāng)前位置的原詞(記為Mask-CURRENT),以生成新的詞語,如式(3)所示。
(3)
在實(shí)驗(yàn)中,我們還嘗試給出其他不同的目標(biāo)端下文信息,即其他遮擋方式進(jìn)行重解碼的性能,比如圖2(c)和圖2(d)兩種遮擋方式。如無特殊說明,以Mask-CURRENT遮擋方式為準(zhǔn)。
為了測(cè)試基于重解碼的神經(jīng)機(jī)器翻譯方法的性能,我們?cè)赪MT19和WMT18以及WMT17英中和英德語言對(duì)翻譯任務(wù)和WMT18英德方向自動(dòng)后編輯任務(wù)上進(jìn)行了實(shí)驗(yàn)。評(píng)測(cè)官方發(fā)布的訓(xùn)練集被用來訓(xùn)練重解碼神經(jīng)機(jī)器翻譯模型TransRedecoder,模型的性能在測(cè)試集上給出。表2統(tǒng)計(jì)了實(shí)驗(yàn)使用的語料規(guī)模,包括雙語平行語料中的句對(duì)數(shù)量和詞語數(shù)量。語料中英語和德語端句子分別進(jìn)行了規(guī)范化(normalize)、大小寫轉(zhuǎn)換、符號(hào)化(tokenize)以及BPE[16]子詞切分等處理,中文端句子采用Stanford分詞工具對(duì)其進(jìn)行切分。
表2 實(shí)驗(yàn)使用的語料規(guī)模統(tǒng)計(jì)
在譯文性能評(píng)價(jià)方面,我們對(duì)所有機(jī)器譯文均采用大小寫不敏感的BLEU值和TER值進(jìn)行測(cè)定,并且中文機(jī)器譯文以字為單位進(jìn)行打分,使用常用的開源打分腳本“mteval-v13a.pl”和“TERcom”[17]計(jì)算機(jī)器譯文的BLEU值、NIST值以及TER值。
我們?cè)陂_源工具包Fairseq[18]上實(shí)現(xiàn)基于重解碼的神經(jīng)機(jī)器翻譯模型TransRedecoder,除了解碼層層數(shù)設(shè)為1外,其余參數(shù)均與Transformer-base模型[1]一致,即編碼器層數(shù)設(shè)為6,詞向量維度設(shè)為512,編碼器和解碼器中前饋神經(jīng)網(wǎng)絡(luò)層的輸出維度設(shè)為2 048,注意力頭設(shè)為8,模型訓(xùn)練時(shí)使用Adam優(yōu)化器,學(xué)習(xí)率lr=0.000 3,最小學(xué)習(xí)率min_lr = 10-9。在后續(xù)實(shí)驗(yàn)中我們將驗(yàn)證為什么將重解碼模型的解碼層層數(shù)設(shè)置為1。
首先,在WMT19和WMT18評(píng)測(cè)官方發(fā)布的英中、中英、英德和德英平行語料上訓(xùn)練了Transformer-base模型[1],并將其在測(cè)試集上的輸出譯文記為原機(jī)器譯文,基于重解碼的神經(jīng)機(jī)器翻譯模型TransRedecoder對(duì)原機(jī)器譯文進(jìn)行了重解碼,其輸出譯文記為重解碼機(jī)器譯文。表3給出了譯文質(zhì)量的BLEU值,TransRedecoder模型在WMT19、WMT18和WMT17英中方向上對(duì)機(jī)器譯文的BLEU值分別提升了1.26、1.04以及1.17;在中英方向上,BLEU值分別提升了1.36、1.32以及1.49;在英德方向上BLEU值分別提升了1.09、1.08以及0.88;在德英方向上,BLEU值分別提升了1.05、0.96以及0.81。這表明基于重解碼的神經(jīng)機(jī)器翻譯模型在不同測(cè)試集上一致地提高了原輸出機(jī)器譯文的質(zhì)量。
表3 在WMT不同語言對(duì)的測(cè)試集上對(duì)Transformer輸出譯文重解碼的結(jié)果(BLEU值)
由于Transformer-base模型作為樸素的Transformer模型,其翻譯性能與參與評(píng)測(cè)的最好翻譯系統(tǒng)有一定的差距。因此,我們進(jìn)一步對(duì)參與英中和英德語言對(duì)評(píng)測(cè)的最優(yōu)翻譯系統(tǒng)Baidu[19]、KSAI[20]、Facebook-FAIR[21]、Microsoft[22]和RWTH-Aachen[23]的輸出譯文進(jìn)行了重解碼。Baidu翻譯系統(tǒng)使用Transformer-big模型[1]參數(shù),在更大的訓(xùn)練語料(英中為15.7 M,中英為10.8 M)上,使用反向翻譯、聯(lián)合訓(xùn)練、知識(shí)蒸餾、微調(diào)、模型融合和重排序等方法提高翻譯質(zhì)量;KSAI翻譯系統(tǒng)在24.22 M規(guī)模的雙語平行語料上使用數(shù)據(jù)篩選、反向翻譯、模型增強(qiáng)、微調(diào)、模型融合和重排序等方法來提高譯文質(zhì)量;同時(shí),F(xiàn)acebook-FAIR、Microsoft和RWTH-Aachen也在大規(guī)模語料上使用了數(shù)據(jù)篩選、反向翻譯、微調(diào)、模型融合和噪聲信道重排序等方法來提高譯文質(zhì)量。盡管這些翻譯系統(tǒng)在WMT19英中和英德語言對(duì)上取得了最好的翻譯性能,然而表4的結(jié)果表明它們還有一定的提升空間,基于重解碼的神經(jīng)機(jī)器翻譯模型TransRedecoder對(duì)其輸出機(jī)器譯文進(jìn)行重解碼能在一定程度上提高翻譯性能。在英中方向上,BLEU值分別提高了0.16和0.19;在中英方向上,BLEU值分別提高了0.50和0.54;在英德方向上,BLEU值提高了0.83和0.68;在德英方向上,TransRedecoder模型將重解碼譯文的BLEU值顯著提高了0.84和1.03。進(jìn)一步分析不同翻譯系統(tǒng)輸出譯文重解碼的結(jié)果,我們發(fā)現(xiàn)原機(jī)器譯文質(zhì)量越低,其重解碼后的譯文質(zhì)量提高幅度越大,在表4中,重解碼譯文質(zhì)量提高幅度最大的是英德語言對(duì)上的RWTH和Fackbook-FAIR翻譯系統(tǒng),其次是Microsoft翻譯系統(tǒng),然后才是KSAI和Baidu翻譯系統(tǒng)。
對(duì)重解碼的機(jī)器譯文進(jìn)行重解碼,能否進(jìn)一步提高譯文質(zhì)量呢?基于重解碼的神經(jīng)機(jī)器翻譯模型TransRedecoder以重解碼的機(jī)器譯文為目標(biāo)語言上下文環(huán)境對(duì)其進(jìn)行了二次重解碼,其輸出譯文記為二次重解碼機(jī)器譯文。表3、表4的實(shí)驗(yàn)結(jié)果表明,二次重解碼進(jìn)一步提高了譯文質(zhì)量,在Transformer-base重解碼機(jī)器譯文上其提高幅度最大,在WMT19英中和中英方向上BLEU值分別提高了0.21和0.26;而在Baidu重解碼機(jī)器譯文上其提高幅度最小,在英中和中英方向BLEU值分別提高了0.08和0.09,趨于利用上下文信息提高的極限。
表4 在WMT19不同語言對(duì)的測(cè)試集上對(duì)優(yōu)秀參與系統(tǒng)輸出譯文重解碼的結(jié)果(BLEU值)
為了比較基于重解碼的機(jī)器翻譯方法與經(jīng)典自動(dòng)后編輯方法,我們?cè)赪MT18 APE任務(wù)上將TransRedecoder與CopyNet[13]、Tsinghua[14]、FBK[24]、USAAR_DFKI[25]和POSTECH[15]進(jìn)行了對(duì)比,表5給出了重解碼生成譯文的TER值和BLEU值。在開發(fā)集上,基于重解碼的神經(jīng)機(jī)器翻譯模型生成的重解碼機(jī)器譯文顯著優(yōu)于CopyNet[13],盡管TER值稍低于性能最優(yōu)的Tsinghua系統(tǒng)[14],但BLEU值高出其0.55;在測(cè)試集上,重解碼譯文優(yōu)于在WMT18 APE任務(wù)上的最優(yōu)FBK[24]系統(tǒng),這表明基于重解碼的神經(jīng)機(jī)器翻譯方法能有效地對(duì)原機(jī)器譯文進(jìn)行修正,從而顯著提高輸出譯文的質(zhì)量。
表5 在WMT18英德方向自動(dòng)后編輯機(jī)器譯文上重解碼的結(jié)果
為了研究利用不同的下文信息進(jìn)行重解碼對(duì)翻譯性能的影響,我們嘗試了在遮擋注意力中使用多種下文遮擋方式,以下給出其中三種典型遮擋的對(duì)比結(jié)果。
一種遮擋方式是重解碼時(shí)給出當(dāng)前位置詞的上文信息和下文中下一個(gè)詞的信息,遮擋矩陣如圖2(c)所示,記為Unmask-NEXT;另一種遮擋方式是重解碼時(shí)給出所有上文信息和下文信息,包括重解碼位置原來詞的信息,遮擋矩陣如圖2(d)所示,記為Unmask-ALL。
在WMT19英中方向上對(duì)Transformer-base模型輸出機(jī)器譯文進(jìn)行重解碼,將利用這兩種遮擋方式的重解碼結(jié)果與默認(rèn)的僅遮擋當(dāng)前位置詞的Mask-CURRENT遮擋方式的重解碼結(jié)果進(jìn)行對(duì)比。表6的結(jié)果表明,僅遮擋當(dāng)前位置詞的Mask-CURRENT遮擋方式對(duì)翻譯性能的提高幅度最大;給出待預(yù)測(cè)詞下一個(gè)詞信息的Unmask-NEXT遮擋方式對(duì)翻譯性能的提高幅度次之;而給出原機(jī)器譯文所有詞信息的Unmask-ALL遮擋方式不僅沒有提高重解碼的翻譯質(zhì)量,反而降低了翻譯的質(zhì)量,這可能是由于引入原來詞的信息不利于重解碼生成新的詞語來校正當(dāng)前翻譯錯(cuò)誤的詞,使重解碼仍然趨向于生成原來的詞。
表6 設(shè)置不同遮擋方式在WMT19英中方向上對(duì)Transformer-base機(jī)器譯文進(jìn)行重解碼的性能
在遮擋當(dāng)前位置詞的基礎(chǔ)上,我們嘗試了堆積多個(gè)解碼器層時(shí)重解碼模型的性能。表7給出了當(dāng)設(shè)置不同解碼器層數(shù)時(shí)(分別為1層、2層、3層和6層),TransRedecoder模型在WMT19英中方向上對(duì)Transformer-base模型輸出機(jī)器譯文進(jìn)行重解碼的性能。結(jié)果表明,隨著解碼器層數(shù)的增多,譯文重解碼的性能不僅沒有提高,反而有所下降。產(chǎn)生這種現(xiàn)象的一個(gè)原因是模型在正確的機(jī)器譯文上進(jìn)行訓(xùn)練,而在不一定正確的機(jī)器輸出譯文上進(jìn)行測(cè)試,訓(xùn)練和測(cè)試之間存在差異;隨著解碼器層數(shù)的增多,參數(shù)空間隨之增大,容易導(dǎo)致模型在測(cè)試集上出現(xiàn)欠訓(xùn)練現(xiàn)象,導(dǎo)致翻譯質(zhì)量下降。
表7 設(shè)置不同解碼器層數(shù)在WMT19英中方向上對(duì)Transformer-base機(jī)器譯文進(jìn)行重解碼的性能
根據(jù)Maja的工作[26],機(jī)器翻譯錯(cuò)誤類型主要有以下五類,分別是詞序錯(cuò)誤(Rer)、漏詞(MISer)、增詞(EXTer)、屈折(形態(tài))錯(cuò)誤(INFer)和錯(cuò)詞(LEXer)。我們?cè)赪MT19、WMT18以及WMT17英中和中英測(cè)試集上,使用“Hjerson”[26]工具分別計(jì)算原機(jī)器譯文和重解碼譯文中不同類型翻譯錯(cuò)誤所占比例,由于中文屬于孤立詞,不是屈折詞,沒有顯著的時(shí)態(tài)標(biāo)記,且缺乏詞形變化,所以表8只展示了其他四種錯(cuò)誤類型。統(tǒng)計(jì)結(jié)果表明,TransRedecoder模型能有效地降低機(jī)器翻譯錯(cuò)誤類型中占比最大的錯(cuò)詞率LEXer,盡管在其他翻譯錯(cuò)誤類型上重解碼機(jī)器譯文與原機(jī)器譯文相當(dāng)。綜上,Trans-Redecoder模型能有效校正原機(jī)器譯文中的翻譯錯(cuò)詞。
表8 原機(jī)器譯文和重解碼譯文各種翻譯錯(cuò)誤比例
為了定性揭示基于重解碼的神經(jīng)機(jī)器翻譯方法的有效性,表9給出了兩個(gè)在WMT19英中和中英方向上,Transformer-base模型原輸出機(jī)器譯文以及利用所提方法重解碼生成的譯文示例,并將其分別與人工參考譯文進(jìn)行對(duì)比,對(duì)比發(fā)現(xiàn)重解碼方法能對(duì)原機(jī)器譯文中的錯(cuò)誤翻譯詞進(jìn)行有效校正。在英中翻譯方向上的例子中,利用“禁止”的下文信息,對(duì)其進(jìn)行重解碼,重生成詞“拒絕”與下文的“提供 庇護(hù)”搭配更好;在中英翻譯的例子中,利用“hope”的下文信息“meeting”,重解碼生成詞“intention”與源語言下文“會(huì)談”搭配更恰當(dāng)。對(duì)更多重解碼譯文的分析表明,重解碼方法能較好地校正翻譯中的搭配不當(dāng)和主謂不一致等錯(cuò)誤。
表9 原機(jī)器譯文和重解碼機(jī)器譯文的對(duì)比示例
為了緩解神經(jīng)機(jī)器翻譯模型的解碼器自左向右生成機(jī)器譯文時(shí)只能利用上文信息,而不能利用下文信息的問題,本文提出了基于Transformer的重解碼神經(jīng)機(jī)器翻譯模型,該模型改變了Transformer解碼器的遮擋多頭注意力中遮擋矩陣,以使解碼器可以利用已生成的機(jī)器譯文作為重解碼時(shí)目標(biāo)語言的近似上下文環(huán)境。實(shí)驗(yàn)結(jié)果表明,所提方法顯著提高了機(jī)器譯文質(zhì)量。在今后的工作中,我們將探索利用語境詞向量來進(jìn)一步解決目標(biāo)語言端下文信息缺乏的不足。