劉志東,李軍輝,貢正仙
(蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
和統(tǒng)計(jì)機(jī)器翻譯(statistical machine translation,SMT)[1]相比,神經(jīng)機(jī)器翻譯(neural machine translation,NMT)[2-4]僅用一個(gè)神經(jīng)網(wǎng)絡(luò)就可以實(shí)現(xiàn)源語(yǔ)言到目標(biāo)語(yǔ)言的翻譯, 省去了搭建特征工程的困擾,顯著提高了機(jī)器翻譯的質(zhì)量.NMT模型通常由一個(gè)編碼器和一個(gè)解碼器構(gòu)成,其中編碼器將源端句子中的每個(gè)單詞根據(jù)其上下文編碼成含上下文信息的隱藏狀態(tài);基于其隱藏狀態(tài),解碼器按從左到右的順序生成目標(biāo)端單詞.
神經(jīng)網(wǎng)絡(luò)本質(zhì)是一種數(shù)據(jù)驅(qū)動(dòng)的方法,大量的數(shù)據(jù)有利于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到更合理的參數(shù).特別是對(duì)于數(shù)據(jù)規(guī)模受限的小語(yǔ)種來(lái)說(shuō),通過(guò)增加訓(xùn)練數(shù)據(jù)帶來(lái)的性能提升往往效果更加明顯.因此,如何更多、更好地生成大量平行數(shù)據(jù)成為許多研究者日益關(guān)注的問(wèn)題.
作為一種增加訓(xùn)練數(shù)據(jù)的常用方法,數(shù)據(jù)擴(kuò)充技術(shù)已經(jīng)被廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)[5]和自然語(yǔ)言處理[6-8]領(lǐng)域.在計(jì)算機(jī)視覺(jué)領(lǐng)域,主要通過(guò)對(duì)圖片進(jìn)行翻轉(zhuǎn)和隨機(jī)剪裁操作實(shí)現(xiàn)圖像數(shù)據(jù)的擴(kuò)充.在自然語(yǔ)言處理領(lǐng)域,數(shù)據(jù)擴(kuò)充的思路總體上主要分為兩大類(lèi):1) 句子級(jí)別數(shù)據(jù)擴(kuò)充,從句子級(jí)別生成更多高質(zhì)量的訓(xùn)練樣本,提高模型的泛化能力.2) 單詞級(jí)別數(shù)據(jù)擴(kuò)充,對(duì)句子中的單詞進(jìn)行隨機(jī)交換、丟棄和替換等操作,得到更多帶有噪聲的數(shù)據(jù),提高模型的魯棒性.
作為一種句子級(jí)數(shù)據(jù)擴(kuò)充的方法,反向翻譯被應(yīng)用在很多無(wú)監(jiān)督機(jī)器翻譯模型上,取得了不錯(cuò)的效果.Sennrich等[7]提出用反向翻譯技術(shù)構(gòu)造偽平行句對(duì).該方法首先在已有平行語(yǔ)料的基礎(chǔ)上訓(xùn)練一個(gè)反向翻譯的模型,然后利用這個(gè)反向翻譯模型來(lái)翻譯提前收集到的大規(guī)模目標(biāo)端單語(yǔ)語(yǔ)料,獲得偽平行句對(duì),最后將偽平行句對(duì)和人工標(biāo)注平行句對(duì)合在一起進(jìn)行模型訓(xùn)練.然而,反向翻譯技術(shù)需要額外訓(xùn)練一個(gè)反向的翻譯模型,這無(wú)疑會(huì)增大運(yùn)算開(kāi)銷(xiāo).此外,收集到的單語(yǔ)語(yǔ)料往往存在噪聲,對(duì)帶有噪聲的語(yǔ)句進(jìn)行反向翻譯會(huì)進(jìn)一步降低偽平行數(shù)據(jù)的質(zhì)量,從而影響翻譯模型的性能.He等[9]發(fā)現(xiàn)任何機(jī)器翻譯任務(wù)都有一個(gè)對(duì)偶任務(wù),能夠使得翻譯系統(tǒng)自動(dòng)地從無(wú)標(biāo)注數(shù)據(jù)中進(jìn)行學(xué)習(xí).原任務(wù)和對(duì)偶任務(wù)能夠形成一個(gè)閉環(huán),即使沒(méi)有人類(lèi)標(biāo)注者的參與,也能夠生成含信息量的反饋信號(hào)用以訓(xùn)練翻譯模型.
在單詞級(jí)別數(shù)據(jù)擴(kuò)充方面,Iyyer等[6]在求解一句話的平均詞向量前,隨機(jī)去除文本中的某些單詞.Artetxe等[8]設(shè)置一個(gè)固定長(zhǎng)度的窗口,在窗口內(nèi)隨機(jī)和相鄰的單詞進(jìn)行替換.Fadaee等[10]利用在大規(guī)模單語(yǔ)語(yǔ)料上訓(xùn)練得到語(yǔ)言模型,尋找可以被低頻詞匯替換的高頻詞匯,通過(guò)這種方法大大提高低頻詞的出現(xiàn)頻率,緩解數(shù)據(jù)相對(duì)稀疏的問(wèn)題.相較于直接替換為某個(gè)確定的單詞,Gao等[11]提出一種融合多個(gè)單詞信息的方法.該方法首先訓(xùn)練一個(gè)語(yǔ)言模型,把語(yǔ)言模型預(yù)測(cè)下一個(gè)單詞的概率分布作為每個(gè)候選單詞嵌入表示的權(quán)重,然后將線性組合詞表中每個(gè)單詞的嵌入表示作為要替換的單詞.
為了解決數(shù)據(jù)缺乏導(dǎo)致的NMT泛化能力不足的問(wèn)題,同時(shí)避免反向翻譯技術(shù)中單獨(dú)訓(xùn)練反向模型的開(kāi)銷(xiāo),受預(yù)訓(xùn)練模型BERT(bidirectional encoder representations from Transformer)[12]啟發(fā),本研究提出了一種簡(jiǎn)單有效且可以對(duì)原始平行數(shù)據(jù)的目標(biāo)端進(jìn)行動(dòng)態(tài)擴(kuò)充的方法.該方法在每次加載目標(biāo)端句子時(shí)按照一定策略對(duì)句子中單詞進(jìn)行隨機(jī)噪聲化,從而提高目標(biāo)端語(yǔ)言模型對(duì)句子的表達(dá)能力.具體地,在加載一批數(shù)據(jù)時(shí),隨機(jī)選擇目標(biāo)端句子中的一些單詞,并將其進(jìn)行噪聲化,然后約束編碼器預(yù)測(cè)出被覆蓋的單詞.如果在整個(gè)訓(xùn)練過(guò)程中同樣的一批數(shù)據(jù)被加載了n次,就等效于將訓(xùn)練數(shù)據(jù)擴(kuò)充了n倍.通過(guò)約束編碼器還原原始語(yǔ)句,可以使自身學(xué)到更深層的語(yǔ)言表征能力.
NMT中的編碼器首先將源句子集合x(chóng)={x1,x2,…,xN}映射成詞向量e(x)=[e(x1),e(x2),…,e(xN)],然后把這N個(gè)詞向量編碼成隱藏狀態(tài)h.根據(jù)隱藏狀態(tài)h和目標(biāo)端句子T個(gè)詞的集合y={y1,y2,…,yT},解碼器從左到右逐個(gè)生成目標(biāo)端單詞的概率,得到y(tǒng)的概率:
(1)
其中:θmt={θenc,θdec},為整個(gè)模型的參數(shù);θenc和θdec分別為編碼器的解碼器的參數(shù);y
(2)
和自編碼器相比,降噪自編碼器[15]可以學(xué)習(xí)疊加噪聲的原始數(shù)據(jù),而其學(xué)習(xí)到的特征和從未疊加噪聲的數(shù)據(jù)學(xué)習(xí)到的特征幾乎一致,因此降噪自編碼器具有更強(qiáng)的魯棒性;同時(shí)降噪自編碼器可以避免自編碼器簡(jiǎn)單地保留原始輸入數(shù)據(jù)的信息.
圖1 降噪自編碼器的訓(xùn)練過(guò)程Fig.1 The training process of denoising auto-encoder
L(x|x′)=-logPdec(x|fen(x′)).
(3)
其中,fen(x′)表示x′輸入編碼器后的輸出,Pdec(x|fen(x′))表示編碼器輸入為x′時(shí),解碼器輸出x的概率.
對(duì)于NMT,擴(kuò)充訓(xùn)練數(shù)據(jù)的方法除了需要大規(guī)模的單語(yǔ)語(yǔ)料外,往往還需要訓(xùn)練一個(gè)輔助的模型.而對(duì)于資源缺乏的語(yǔ)言來(lái)說(shuō),引入質(zhì)量較低的單語(yǔ)語(yǔ)料往往會(huì)損害翻譯模型的質(zhì)量.針對(duì)上述問(wèn)題,本研究提出一種在不引入外部語(yǔ)料的情況下實(shí)現(xiàn)數(shù)據(jù)動(dòng)態(tài)擴(kuò)充的方法.該方法首先對(duì)輸入的目標(biāo)端語(yǔ)句按照一定策略隨機(jī)進(jìn)行噪聲化,然后利用編碼器將受損的句子還原,以提高編碼器對(duì)目標(biāo)單詞的預(yù)測(cè)能力,實(shí)現(xiàn)翻譯性能的整體提升.如圖2所示,和基礎(chǔ)的NMT系統(tǒng)相比,本方法僅增加了一個(gè)隨機(jī)添加噪聲的模塊,對(duì)于模型的其余部分并沒(méi)有改動(dòng),可以方便應(yīng)用于其他序列到序列模型.
圖2 數(shù)據(jù)動(dòng)態(tài)擴(kuò)充的NMT模型的整體框架Fig.2 The architecture of NMT model with dynamic data augmentation
假設(shè)目標(biāo)端的輸入序列為: 中國(guó) 消費(fèi)者 信心 支持 中國(guó) 經(jīng)濟(jì) 增長(zhǎng).在構(gòu)造帶有噪聲的輸入序列時(shí)分別選擇第二、第五和最后一個(gè)單詞(消費(fèi)者、中國(guó)、增長(zhǎng))進(jìn)行以上3種策略的替換,示例如表1所示.
表1 噪聲替換策略示例Tab.1 Examples of noise replacement strategy
采用以上3種策略后,得到的最終噪聲輸入為:中國(guó)[MASK] 信心 支持 世界 經(jīng)濟(jì) 增長(zhǎng).
解碼端重構(gòu)目標(biāo)序列的過(guò)程可以認(rèn)為是最大化條件概率P(y|h,y′;θdec),如式(4)所示.
(4)
(5)
本研究對(duì)訓(xùn)練數(shù)據(jù)的源語(yǔ)句和目標(biāo)語(yǔ)句分別進(jìn)行靜態(tài)和動(dòng)態(tài)擴(kuò)充,使用multi-bleu.perl(https:∥github.com/moses-smt/mosesdecoder/blob/master/scripts/generic/multi-bleu.perl)腳本評(píng)測(cè)翻譯性能.
為了驗(yàn)證本研究提出的動(dòng)態(tài)數(shù)據(jù)擴(kuò)充技術(shù),分別在WMT14英德(http:∥www.statmt.org/wmt14/translation-task.html)和NIST中英(https:∥www.nist.gov/srd)雙語(yǔ)平行語(yǔ)料上實(shí)驗(yàn).
1) WMT14英德翻譯:訓(xùn)練集共包含450萬(wàn)英語(yǔ)到德語(yǔ)平行語(yǔ)料,由Europarl v7、Common Crawl Corpus和News Commentary數(shù)據(jù)集構(gòu)成.此外,實(shí)驗(yàn)使用newstest2013和newstest2014分別作為開(kāi)發(fā)集和測(cè)試集.
2) NIST中英翻譯:訓(xùn)練語(yǔ)料使用的是語(yǔ)言數(shù)據(jù)聯(lián)盟(Linguistic Data Consortium,LDC)提供的125萬(wàn)對(duì)中英雙語(yǔ)平行語(yǔ)料.實(shí)驗(yàn)使用NIST06作為開(kāi)發(fā)集,NIST02、NIST03、NIST04、NIST05和NIST08作為測(cè)試集.
實(shí)驗(yàn)去除兩個(gè)語(yǔ)言對(duì)中訓(xùn)練集長(zhǎng)度大于90的平行句對(duì),并使用字節(jié)對(duì)編碼(byte pair encoding,BPE)[16]將單詞切分成更小的單元.其中,對(duì)英德翻譯,在英德語(yǔ)料上聯(lián)合BPE處理并設(shè)置操作次數(shù)為3;對(duì)中英翻譯,分別在中文和英文端使用BPE處理并設(shè)置操作數(shù)為3和2.處理后的各數(shù)據(jù)集樣本數(shù)如表2所示.
表2 數(shù)據(jù)集統(tǒng)計(jì)Tab.2 Dataset statistics
本實(shí)驗(yàn)使用開(kāi)源OpenNMT[17]實(shí)現(xiàn)的Transformer(https:∥github.com/OpenNMT/OpenNMT-py)和Bahdanau等[3]提出的RNNSearch模型作為基準(zhǔn)模型.在預(yù)處理時(shí),共享英德的源端與目標(biāo)端詞表,詞表大小為33 663;中英語(yǔ)料不進(jìn)行詞表共享,得到的中英文詞表大小分別為30 587和19 877.
1) Transformer模型設(shè)置.訓(xùn)練時(shí),英德和中英模型設(shè)置相同的參數(shù)主要有:編碼器與解碼器的層數(shù)均為6層,多頭注意力機(jī)制均為8個(gè)頭,批處理大小為4 096,詞向量、編碼器和解碼器的隱藏層維度均為512,前饋神經(jīng)網(wǎng)絡(luò)的維度為2 048,失活率[18]為0.1.使用Glorot方法初始化模型參數(shù),其他參數(shù)均使用默認(rèn)配置.表3給出了英德和中英實(shí)驗(yàn)不同的參數(shù)設(shè)置.
表3 參數(shù)設(shè)置Tab.3 Parameter setting
實(shí)驗(yàn)?zāi)P头謩e在一塊GTX 1080Ti顯卡上訓(xùn)練.在網(wǎng)絡(luò)訓(xùn)練過(guò)程中,采用Adam算法進(jìn)行參數(shù)更新,其參數(shù)β1為0.9,β2為0.998,為10-9,訓(xùn)練過(guò)程中每隔5×103步保存一次模型.在測(cè)試過(guò)程中,使用束搜索算法生成最終譯文,束搜索的大小設(shè)置為5,長(zhǎng)度懲罰因子α為0.6,選擇開(kāi)發(fā)集性能最高的模型作為實(shí)驗(yàn)最終模型.
2) RNNSearch模型設(shè)置.英德和中英模型采用相同的實(shí)驗(yàn)設(shè)置,具體為:編碼器和解碼器的維度為1 000,批處理大小為80,設(shè)置源端目標(biāo)端最長(zhǎng)單詞序列為50,失活率[18]為0.3,訓(xùn)練過(guò)程中學(xué)習(xí)率為0.000 5,梯度裁剪的大小為1.實(shí)驗(yàn)?zāi)P头謩e在一塊GTX 1080Ti顯卡上訓(xùn)練6輪.在測(cè)試過(guò)程中,使用束搜索算法生成最終譯文,設(shè)置束搜索的大小為10,在開(kāi)發(fā)集上選擇性能最高的模型作為實(shí)驗(yàn)的測(cè)試模型.
為了驗(yàn)證本研究提出的動(dòng)態(tài)數(shù)據(jù)擴(kuò)充技術(shù)的有效性,分別在Transformer和RNNSearch基準(zhǔn)模型上進(jìn)行以下幾組實(shí)驗(yàn)的對(duì)比分析:在Transformer模型上對(duì)目標(biāo)端序列靜態(tài)擴(kuò)充(tgt-SA),即對(duì)同樣一批數(shù)據(jù)即使加載多次也采取同樣的覆蓋方式;在加載一批數(shù)據(jù)時(shí)對(duì)源端句子(src-DA)和目標(biāo)端句子進(jìn)行動(dòng)態(tài)擴(kuò)充(tgt-DA),即對(duì)同樣一批數(shù)據(jù)每次加載都采用不同的覆蓋方式.由于本研究主要為驗(yàn)證目標(biāo)端動(dòng)態(tài)數(shù)據(jù)擴(kuò)充方法技術(shù)的有效性,所以在RNNSearch模型上僅對(duì)比tgt-DA和RNNSearch基準(zhǔn)模型的性能.
3.3.1 Transformer中英翻譯
對(duì)所提出的方法,本研究在中英數(shù)據(jù)集上分別進(jìn)行3組實(shí)驗(yàn):靜態(tài)擴(kuò)充的方法僅用于目標(biāo)端(tgt-SA)、動(dòng)態(tài)擴(kuò)充的方法分別作用于源端和目標(biāo)端句子(src-DA,tgt-DA).表4給出了中英翻譯的實(shí)驗(yàn)結(jié)果,可以看出:相較于基本的Transformer系統(tǒng),單純對(duì)目標(biāo)端輸入序列靜態(tài)擴(kuò)充會(huì)帶來(lái)雙語(yǔ)互譯評(píng)估(BLEU)值的微弱提升(0.25個(gè)百分點(diǎn)),而對(duì)目標(biāo)序列動(dòng)態(tài)擴(kuò)充的方法可以在NIST02~NIST08數(shù)據(jù)集上取得持續(xù)的提升,BLEU值平均提高0.66個(gè)百分點(diǎn).這驗(yàn)證了動(dòng)態(tài)數(shù)據(jù)擴(kuò)充技術(shù)的有效性.然而將動(dòng)態(tài)擴(kuò)充的方法作用于源端語(yǔ)句時(shí),BLEU值反而降低了0.11個(gè)百分點(diǎn).
表4 NIST數(shù)據(jù)集上靜態(tài)擴(kuò)充和動(dòng)態(tài)擴(kuò)充的BLEU值對(duì)比Tab.4 Comparison of BLEU values between static and dynamic data augmentation on NIST datasets %
由表中數(shù)據(jù)可以得出以下結(jié)論:
1) 在中英翻譯實(shí)驗(yàn)上:對(duì)于目標(biāo)單詞序列,靜態(tài)擴(kuò)充方法和動(dòng)態(tài)擴(kuò)充方法都會(huì)提高編碼器預(yù)測(cè)單詞的能力;并且動(dòng)態(tài)擴(kuò)充技術(shù)增加了目標(biāo)句子的多樣性,比靜態(tài)擴(kuò)充可以帶來(lái)更高質(zhì)量的翻譯譯文.
2) 對(duì)源語(yǔ)言動(dòng)態(tài)擴(kuò)充時(shí),編碼器得到的隱藏層狀態(tài)會(huì)丟失部分語(yǔ)義信息,因此不僅不會(huì)提升模型的翻譯性能反而會(huì)降低譯文質(zhì)量.
3.3.2 Transformer英德翻譯
表5給出了英德翻譯實(shí)驗(yàn)結(jié)果,可以看出:Transformer基準(zhǔn)系統(tǒng)在測(cè)試集上的BLEU值為27.05%,對(duì)目標(biāo)端語(yǔ)句進(jìn)行靜態(tài)擴(kuò)充時(shí),BLEU值為26.96%,BLEU值不僅沒(méi)有提升反而降低了0.09個(gè)百分點(diǎn);然而對(duì)于目標(biāo)端語(yǔ)句進(jìn)行動(dòng)態(tài)擴(kuò)充可以獲得顯著的性能提升,BLEU值為27.74%,提高了0.69 個(gè)百分點(diǎn).
表5 WMT14數(shù)據(jù)集上靜態(tài)擴(kuò)充和動(dòng)態(tài)擴(kuò)充的BLEU值Tab.5 BLEU values of static and dynamic dataaugmentation on WMT14 datasets %
根據(jù)表5的實(shí)驗(yàn)結(jié)果,在英德翻譯系統(tǒng)上可以得到如下結(jié)論:
1) 對(duì)目標(biāo)端語(yǔ)句進(jìn)行靜態(tài)數(shù)據(jù)擴(kuò)充可能會(huì)損害模型的翻譯性能.然而在中英翻譯實(shí)驗(yàn)上,靜態(tài)數(shù)據(jù)擴(kuò)充能夠獲得有限提升.由此可見(jiàn),靜態(tài)數(shù)據(jù)擴(kuò)充方法帶來(lái)的翻譯性能可能會(huì)受到語(yǔ)系的影響.
2) 本研究提出的動(dòng)態(tài)擴(kuò)充的方法應(yīng)用于源端語(yǔ)句和目標(biāo)端語(yǔ)句時(shí)都會(huì)提升模型的翻譯性能,并且應(yīng)用于目標(biāo)端時(shí)提升的效果更為明顯.
3.3.3 RNNSearch動(dòng)態(tài)數(shù)據(jù)擴(kuò)充
為了進(jìn)一步論證本研究提出方法的有效性,將目標(biāo)端動(dòng)態(tài)數(shù)據(jù)擴(kuò)充技術(shù)應(yīng)用在RNNSearch[3]機(jī)器翻譯模型上.表6給出了RNNSearch模型上的中英和英德實(shí)驗(yàn)結(jié)果,可以看出:動(dòng)態(tài)數(shù)據(jù)擴(kuò)充方法在英德翻譯任務(wù)上提高了0.51個(gè)百分點(diǎn),在中英翻譯任務(wù)上平均提高了0.41個(gè)百分點(diǎn).由此可以得出無(wú)論是在當(dāng)前的主流翻譯模型Transformer上,還是在RNNSearch上,本研究提出的動(dòng)態(tài)數(shù)據(jù)擴(kuò)充方法雖然簡(jiǎn)單,但是都能夠帶來(lái)翻譯性能的提高.
表6 動(dòng)態(tài)數(shù)據(jù)擴(kuò)充技術(shù)在RNNSearch上的BLEU值Tab.6 BLEU values of dynamic data augmentation on RNNSearch %
3.3.4 計(jì)算開(kāi)銷(xiāo)對(duì)比
本研究提出的目標(biāo)端語(yǔ)句動(dòng)態(tài)擴(kuò)充方法不需要改變模型的基本結(jié)構(gòu),因此并沒(méi)有引入額外的模型參數(shù),和基線系統(tǒng)相比訓(xùn)練產(chǎn)生的額外開(kāi)銷(xiāo)僅花費(fèi)在構(gòu)造目標(biāo)端噪聲輸入上;當(dāng)使用反向翻譯技術(shù)時(shí),在模型參數(shù)和訓(xùn)練數(shù)據(jù)不變的情況下需要額外訓(xùn)練一個(gè)反向的模型,因此參數(shù)量和訓(xùn)練時(shí)間開(kāi)銷(xiāo)均為基線系統(tǒng)的2.0倍,如表7所示.
表7 模型參數(shù)及訓(xùn)練速度對(duì)比Tab.7 Comparison of model parameters and training speed
3.3.5 添加噪聲分析
由于本研究提出的動(dòng)態(tài)數(shù)據(jù)擴(kuò)充方法是對(duì)目標(biāo)端序列進(jìn)行修改,所以可以視為一種添加噪聲的方法.為了探究動(dòng)態(tài)數(shù)據(jù)擴(kuò)充方法和對(duì)單詞進(jìn)行噪聲化方法的關(guān)系,本研究使用Transformer翻譯模型在英德和中英數(shù)據(jù)集上做如下對(duì)比實(shí)驗(yàn):對(duì)目標(biāo)端句子進(jìn)行動(dòng)態(tài)擴(kuò)充(tgt-DA)和對(duì)目標(biāo)端句子中每個(gè)單詞的詞嵌入表示添加均值為0、方差為0.01的高斯噪聲(tgt-GN).
表8給出了在Transformer模型上不同添加噪聲方法的實(shí)驗(yàn)結(jié)果,可以看出:對(duì)目標(biāo)端單詞的詞嵌入表示添加噪聲時(shí)相較于基準(zhǔn)系統(tǒng)可以帶來(lái)微弱的性能提升,英德和中英翻譯任務(wù)上BLEU值都提高了0.02 個(gè)百分點(diǎn).雖然本研究提出的動(dòng)態(tài)數(shù)據(jù)擴(kuò)充方法也可以看作是一種動(dòng)態(tài)添加噪聲的方法,但是在英德和中英翻譯任務(wù)上能夠帶來(lái)更多提升,BLEU值分別提高了0.69 和0.66個(gè)百分點(diǎn).
表8 tgt-DA和tgt-GN的BLEU值對(duì)比Tab.8 Comparison of BLEU values between tgt-DA and tgt-GN %
本研究針對(duì)NMT面臨訓(xùn)練語(yǔ)料不足的問(wèn)題,提出了一種新的數(shù)據(jù)擴(kuò)充方法.該方法在每次加載一批訓(xùn)練數(shù)據(jù)時(shí),通過(guò)不同的覆蓋、替換等操作隨機(jī)修改句子中的單詞,得到新的目標(biāo)句子,然后和源端語(yǔ)句構(gòu)成新的平行句對(duì),對(duì)翻譯模型進(jìn)行訓(xùn)練;通過(guò)約束解碼器重構(gòu)原始目標(biāo)語(yǔ)句,提高模型對(duì)抗噪聲的能力.
在英德和中英翻譯的實(shí)驗(yàn)結(jié)果表明,本研究提出的動(dòng)態(tài)數(shù)據(jù)擴(kuò)充技術(shù)可以有效提高NMT模型的魯棒性,相對(duì)于基準(zhǔn)系統(tǒng)BLEU值分別提高了0.69和0.66 個(gè)百分點(diǎn).
然而,該方法也存在一個(gè)缺點(diǎn),即隨機(jī)將一些單詞替換為其他單詞可能會(huì)損壞句子的語(yǔ)義信息,甚至?xí)耆嵉咕渥拥恼Z(yǔ)義信息.因此,在未來(lái)的工作中,將考慮加入句子的句法信息,在擴(kuò)充數(shù)據(jù)的同時(shí)盡可能保持句子的本來(lái)信息,進(jìn)一步提升機(jī)器翻譯的質(zhì)量.