蔡子龍,楊明明,熊德意
(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
神經(jīng)機(jī)器翻譯是Sutskever等人[1]在2014年提出的一種基于編碼器—解碼器模型的機(jī)器翻譯方法。和傳統(tǒng)基于短語的統(tǒng)計(jì)機(jī)器翻譯[2]不同,神經(jīng)機(jī)器翻譯沒有特征工程、隱藏結(jié)構(gòu)設(shè)計(jì)等方面的困擾,而是簡單地通過訓(xùn)練一個(gè)單一、大型的神經(jīng)網(wǎng)絡(luò)對(duì)輸入句子產(chǎn)生合適的翻譯。該方法剛被提出來的時(shí)候,效果還不如統(tǒng)計(jì)機(jī)器翻譯。2015年,Bahdanau等人[3]在此工作的基礎(chǔ)上通過引入注意力機(jī)制使得神經(jīng)機(jī)器翻譯在多種語言對(duì)上的評(píng)測結(jié)果超過統(tǒng)計(jì)機(jī)器翻譯,神經(jīng)機(jī)器翻譯因此得到了廣泛的關(guān)注。
神經(jīng)機(jī)器翻譯本質(zhì)上是訓(xùn)練一個(gè)大型的神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)由上萬個(gè)神經(jīng)元構(gòu)成。為了能夠充分地學(xué)習(xí)到網(wǎng)絡(luò)的權(quán)重值,神經(jīng)機(jī)器翻譯需要大量的平行句對(duì)作為訓(xùn)練數(shù)據(jù),往往平行句對(duì)越多,訓(xùn)練效果越好。然而,對(duì)于資源貧乏語種來說,獲得充足的訓(xùn)練語料是十分困難的。
為了解決神經(jīng)機(jī)器翻譯在資源貧乏語種上因?yàn)橛?xùn)練數(shù)據(jù)太少而導(dǎo)致的泛化能力不足問題,本文提出了一個(gè)簡單有效的方法: 數(shù)據(jù)增強(qiáng)技術(shù)。該方法首先對(duì)句子進(jìn)行分塊,然后找到句子中最相似的兩個(gè)模塊,通過對(duì)調(diào)它們的位置形成新的句子。利用數(shù)據(jù)增強(qiáng)技術(shù),不但可以將訓(xùn)練語料擴(kuò)充一倍,而且也會(huì)使句子的結(jié)構(gòu)變得多樣化。本文在藏漢語種上進(jìn)行了實(shí)驗(yàn),較于基準(zhǔn)系統(tǒng),獲得了4個(gè)BLEU值[4]的提高。實(shí)驗(yàn)表明,本文提出的數(shù)據(jù)增強(qiáng)方法可以顯著提高神經(jīng)機(jī)器翻譯對(duì)于資源貧乏語種的泛化能力。
本文其他部分的組織如下: 第一節(jié)和第二節(jié)分別介紹了神經(jīng)機(jī)器翻譯的背景知識(shí)和在資源貧乏語種上研究的相關(guān)工作;第三節(jié)詳細(xì)說明如何對(duì)訓(xùn)練語料進(jìn)行數(shù)據(jù)增強(qiáng);第四節(jié)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析;最后,對(duì)本文的工作進(jìn)行了總結(jié),并對(duì)下一步工作進(jìn)行了展望。
本節(jié)主要介紹基于注意力機(jī)制的神經(jīng)機(jī)器翻譯。如圖1所示,神經(jīng)機(jī)器翻譯分為兩個(gè)部分,一個(gè)是編碼器,另一個(gè)是解碼器。編碼器采用雙向循環(huán)的神經(jīng)網(wǎng)絡(luò),對(duì)源句子x=x1,x2,…,xTx進(jìn)行編碼,得到該句子的隱藏層h=h1,h2,…,hTx。解碼器使用注意力機(jī)制,從左往右逐單詞地生成目標(biāo)端句子y=y1,y2,…,yTy。
圖1 基于注意力機(jī)制的神經(jīng)機(jī)器翻譯模型
在訓(xùn)練階段,神經(jīng)機(jī)器翻譯計(jì)算一個(gè)平行句對(duì)
(1)
其中yi是解碼器第i時(shí)刻生成的目標(biāo)端單詞,y
p(yi|y
(2)
其中f(·)是非線性函數(shù),si是解碼器第i時(shí)刻的隱藏狀態(tài),如式(3)所示。
si=g(si-1,yi-1,ci)
(3)
其中,g(·)是非線性函數(shù)。ci是源端句子的內(nèi)容向量,它是源端隱藏層h的線性和,權(quán)重ai,j代表解碼器解碼第i個(gè)單詞時(shí),對(duì)源端第j個(gè)單詞所對(duì)應(yīng)的隱藏向量的關(guān)注度。計(jì)算方式如式(4)所示。
(4)
基于注意力機(jī)制的神經(jīng)機(jī)器翻譯使用最大似然函數(shù)訓(xùn)練整個(gè)模型的參數(shù),如式(5)所示。
(5)
其中,θ指的是模型的參數(shù),N指的是語料中的平行句對(duì)數(shù)。
(6)
本節(jié)主要介紹神經(jīng)機(jī)器翻譯在資源貧乏語言對(duì)上研究的相關(guān)情況。2016年,Zoph等人[6]最先提出: 在資源貧乏語言對(duì)上,神經(jīng)機(jī)器翻譯的效果不如統(tǒng)計(jì)機(jī)器翻譯,他們?cè)谒慕M資源貧乏語言對(duì)上進(jìn)行了實(shí)驗(yàn),分別用神經(jīng)機(jī)器翻譯和統(tǒng)計(jì)機(jī)器翻譯進(jìn)行訓(xùn)練,結(jié)果發(fā)現(xiàn)統(tǒng)計(jì)機(jī)器翻譯在這四組語言對(duì)上的評(píng)測結(jié)果均優(yōu)于神經(jīng)機(jī)器翻譯。
國內(nèi)外很多研究者對(duì)此問題提出了各自的解決方法。這些方法大致可以分為兩類,一類是通過補(bǔ)充訓(xùn)練數(shù)據(jù),使得神經(jīng)機(jī)器翻譯模型得到較為充分的訓(xùn)練;另一類是將文字的語法、語義信息和神經(jīng)機(jī)器翻譯模型相融合,從而提高神經(jīng)機(jī)器翻譯的性能。
本文主要關(guān)注的是第一類解決方法,即通過增加訓(xùn)練數(shù)據(jù),改善神經(jīng)機(jī)器翻譯在資源貧乏語言對(duì)上翻譯性能不佳的情況。增加訓(xùn)練數(shù)據(jù),并不是去挖掘真實(shí)的平行句對(duì),而是通過技術(shù)手段,構(gòu)造偽平行句對(duì)。
Sennrich[7]是第一個(gè)提出利用單語語料來構(gòu)造偽平行句對(duì)的研究者。他認(rèn)為,對(duì)于資源缺乏的語言對(duì)來說,單語語料的獲取往往相對(duì)容易,充分地利用單語語料來增強(qiáng)神經(jīng)機(jī)器翻譯是十分必要的。在收集到單語語料之后,可以用現(xiàn)有的翻譯工具或者在小規(guī)模語料上訓(xùn)練好的神經(jīng)機(jī)器翻譯模型對(duì)單語語料進(jìn)行翻譯,從而獲得偽平行句對(duì),之后將偽平行句對(duì)和真實(shí)的平行句對(duì)放到一塊進(jìn)行模型訓(xùn)練。
和Sennrich的思路不同,F(xiàn)adaee[8]提出了一種新的增加語料的方法。該方法首先在規(guī)模較大的單語語料上訓(xùn)練出語言模型,然后用語言模型找到句子中可以被低頻詞替換的高頻詞的位置。通過這種簡單的單詞替換,增加了訓(xùn)練語料中低頻詞出現(xiàn)的次數(shù),從而增強(qiáng)神經(jīng)機(jī)器翻譯對(duì)低頻詞的理解能力。
本文在Sennrich和Fadaee等人工作的基礎(chǔ)上,提出了自己的數(shù)據(jù)增強(qiáng)技術(shù),即將句子中最相似的模塊進(jìn)行位置上的對(duì)調(diào),以此形成新的語料。與Sennrich提出的方法相比較: 不同點(diǎn)在于我們利用真實(shí)的平行句對(duì)而非單語語料進(jìn)行偽語料的構(gòu)造,相同點(diǎn)在于構(gòu)造的偽語料都存在錯(cuò)誤。與Fadaee提出的方法相比較: 不同點(diǎn)在于我們改變的是語料中句子的結(jié)構(gòu)信息而非語料中的詞頻信息,相同點(diǎn)在于都是對(duì)原語料進(jìn)行擴(kuò)充。
本文中,我們把神經(jīng)機(jī)器翻譯當(dāng)作一個(gè)“黑盒子”,不進(jìn)行任何修改,而是利用數(shù)據(jù)增強(qiáng)技術(shù)提高神經(jīng)機(jī)器翻譯對(duì)于資源貧乏語種的泛化能力。本節(jié)從三個(gè)方面對(duì)數(shù)據(jù)增強(qiáng)技術(shù)進(jìn)行詳細(xì)的說明。第一,分析數(shù)據(jù)增強(qiáng)技術(shù)在神經(jīng)機(jī)器翻譯上面臨的難點(diǎn);第二,提出解決這些難點(diǎn)的方法;第三,介紹數(shù)據(jù)增強(qiáng)技術(shù)具體實(shí)現(xiàn)的細(xì)節(jié)。
雖然數(shù)據(jù)增強(qiáng)在圖像處理任務(wù)中已經(jīng)成為一個(gè)標(biāo)準(zhǔn)的技術(shù)用于提高神經(jīng)網(wǎng)絡(luò)的泛化能力,但是由于語言的特殊性,我們并不能簡單地將該技術(shù)拓展到機(jī)器翻譯任務(wù)上來。
圖2是數(shù)據(jù)增強(qiáng)技術(shù)在圖像分類任務(wù)中的一個(gè)典型應(yīng)用。新圖像(b)由原圖像(a)翻轉(zhuǎn)180度所得,因?yàn)槭呛唵蔚男D(zhuǎn)變化,所以圖像(b)的內(nèi)容、標(biāo)簽與圖像(a)完全一致。把圖像(b)放入訓(xùn)練數(shù)據(jù),可以增強(qiáng)圖像訓(xùn)練的魯棒性[9]。
圖2 數(shù)據(jù)增強(qiáng)技術(shù)在圖像處理任務(wù)中的應(yīng)用
自然語言處理與圖像處理方式大有不同。自然語言有著嚴(yán)格的語法約束,如表1第一個(gè)例子所示,簡單地將一句話從右往左地倒著讀既破壞了語法規(guī)則,句子本身也失去了語義信息。第二個(gè)例子,原句子本身就是一個(gè)十分簡單的主謂賓結(jié)構(gòu),將“我”和“籃球”進(jìn)行對(duì)調(diào),雖然新句子沒有破壞語法規(guī)則,但是在語義上存在錯(cuò)誤。第三個(gè)例子,“西電東送”和“西氣東輸”是對(duì)等的兩個(gè)實(shí)體,將它們對(duì)調(diào)形成的新句子在語義和語法上均保持正確。
根據(jù)上面的分析,我們不難發(fā)現(xiàn),如果原句子的長度較短,本身結(jié)構(gòu)簡單,那么無論對(duì)這個(gè)句子進(jìn)行怎樣的變化,新句子都會(huì)存在語法或者語義上的錯(cuò)誤。對(duì)于這類存在一定錯(cuò)誤的新句子,我們并不會(huì)丟棄,而是將它作為噪聲來增強(qiáng)神經(jīng)機(jī)器翻譯的泛化能力。
而對(duì)于表1中第三個(gè)例子,我們應(yīng)盡可能地將句子中最相似的模塊進(jìn)行調(diào)換。因此,數(shù)據(jù)增強(qiáng)技術(shù)在神經(jīng)機(jī)器翻譯上的難點(diǎn)如下: ①如何獲得句子的模塊; ②如何計(jì)算模塊之間的相似度?
表1 自然語言變化的示例
獲得句子的模塊是指如何對(duì)一個(gè)句子進(jìn)行切分。句子可以分為三個(gè)層級(jí),其中單詞是構(gòu)成句子的最小單位,單詞組成短語,短語的再上一級(jí)是最小翻譯單元。以單詞為單位對(duì)句子進(jìn)行切分會(huì)存在一對(duì)多的問題。例如,圖3是詞對(duì)齊中常見的的一對(duì)多問題,源端A單詞分別和目標(biāo)端a,b對(duì)齊,將a和b的位置進(jìn)行對(duì)調(diào),那么源端A的位置并不能唯一地確定下來。
圖3 詞對(duì)齊中的一對(duì)多問題
因此,本文以最小翻譯單元為單位對(duì)句子進(jìn)行切分,理由如下: ①最小翻譯單元在句子的結(jié)構(gòu)中處于最上層,除了涵蓋單詞和短語的信息外,它還具有一些句子級(jí)別的信息; ②最小翻譯單元具有閉包性,單元與單元之間不存在詞對(duì)齊關(guān)系,這個(gè)性質(zhì)避免了詞對(duì)齊中的一對(duì)多問題。
計(jì)算句子模塊之間的相似度分兩步: 第一步,獲得模塊的向量表示;第二步,對(duì)模塊進(jìn)行余弦相似度計(jì)算。這里句子模塊指的是最小翻譯單元,最小翻譯單元由句子中連續(xù)的若干個(gè)單詞構(gòu)成,因此有兩種方式獲得它的向量表示: 第一種,以單詞為單位,用Word2Vec對(duì)原語料進(jìn)行訓(xùn)練,獲得單詞的向量表示。然后將構(gòu)成最小翻譯單元的單詞向量相加作為其對(duì)應(yīng)的向量表示。第二種,把最小翻譯單元當(dāng)做一個(gè)整體,用Word2Vec直接獲得它所對(duì)應(yīng)的向量表示,得到最小翻譯單元mtu1和mtu2的向量表示之后,如式(7)所示,用向量夾角的余弦值來描述它們的相似度,余弦值越大,最小翻譯單元就越相似。
(7)
本節(jié)通過一個(gè)例子,具體說明實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)技術(shù)的四個(gè)步驟。如表2所示,首先獲取平行語料,然后利用moses對(duì)平行語料進(jìn)行訓(xùn)練,獲得詞對(duì)齊信息。接著利用pbmt工具得到句子的最小翻譯單元。最后通過調(diào)換原句子最相似的兩個(gè)模塊得到新的平行句對(duì)。
對(duì)于第四個(gè)步驟,我們要分情況進(jìn)行討論。第一種情況是3.2節(jié)中提到的,最小翻譯單元向量的表征方式分為直接和間接兩種。第二種情況是原句對(duì)中源端最相似的模塊不一定和目標(biāo)端最相似的模塊相互對(duì)齊。
表2 數(shù)據(jù)增強(qiáng)技術(shù)的四個(gè)步驟
對(duì)于第一種情況,我們做兩組對(duì)比實(shí)驗(yàn)。第一組,以單詞為單位,用Word2Vec對(duì)語料進(jìn)行詞向量訓(xùn)練,然后用單詞向量的和對(duì)最小翻譯單元進(jìn)行向量表征,我們把通過這種方式得到的向量稱為最小翻譯單元的間接向量(I-MTU)。第二組,我們把最小翻譯單元當(dāng)做一個(gè)單詞,用Word2Vec進(jìn)行訓(xùn)練,獲得的詞向量,我們稱為最小翻譯單元的直接向量(D-MTU)。
對(duì)于第二種情況,我們分三種方式產(chǎn)生新句對(duì)。如表3所示,xi,yi是源端和目標(biāo)端相互對(duì)齊的最小翻譯單元對(duì),(xi,yi)表示源端第i個(gè)和第j個(gè)最小翻譯單元的相似度(sim)。
第一種方式是以源端為基準(zhǔn)產(chǎn)生新句對(duì)(source-based generate, SBG)。該方法首先找到源端最相似的最小翻譯單元x1和x2,并對(duì)調(diào)它們的位置,然后根據(jù)對(duì)齊信息,找到目標(biāo)端對(duì)應(yīng)的最小翻譯單元y1和y2,并對(duì)調(diào)它們的位置。
第二種方式是以目標(biāo)端為基準(zhǔn)產(chǎn)生新句對(duì)(target-based generate,TBG),與SBG類似,這里不再贅述。
第三種方式是將源端和目標(biāo)端相結(jié)合產(chǎn)生新句對(duì)(combination-based generate, CBG)。CBG綜合考慮源端和目標(biāo)端sim值排在前k個(gè)的最小翻譯單元對(duì),兩者取交集,若該交集非空,則取交集里相似度最高的作為兩端最相似的最小翻譯單元。若該交集為空,則比較源端和目標(biāo)端最大的sim值,當(dāng)源端sim值高于目標(biāo)端的時(shí)候,我們采用SBG產(chǎn)生新句對(duì);否則,我們采用TBG產(chǎn)生新句對(duì)。實(shí)驗(yàn)中我們把k值設(shè)置為3。
表3 各種新句對(duì)產(chǎn)生方式
表3中,Source-MTU指的是句子源端的最小翻譯單元,Traget-MTU指的是句子目標(biāo)端的最小翻譯單元,Rank of Source-MTU 指的是將源端的最小翻譯單元對(duì)按照余弦值從大到小進(jìn)行排序,Rank of Traget-MTU 指的是將目標(biāo)端的最小翻譯單元對(duì)按照余弦值從大到小進(jìn)行排序。
為了驗(yàn)證本文提出的數(shù)據(jù)增強(qiáng)技術(shù),我們分別在藏漢、漢英這兩個(gè)語言對(duì)上進(jìn)行實(shí)驗(yàn)。其中, 藏漢語料是2011年全國機(jī)器翻譯研討會(huì)提供的10萬平行句對(duì),測試集為650句。中英語料是本實(shí)驗(yàn)組收集整理的,共100萬平行句對(duì),測試集為nist06。
本文用Word2Vec獲得最小翻譯單元的向量表征。Word2Vec包含兩種訓(xùn)練模型,本文用的是skip gram模型[10],其中詞向量的維度設(shè)置成30,訓(xùn)練窗口大小設(shè)置為5。
本文用的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)是本課題組基于Bahdanau等人的工作開發(fā)出來的,用“RNNSearch”表示。其中,對(duì)訓(xùn)練語料的句子長度限制在80以下,源端和目標(biāo)端的詞向量維度設(shè)置為620,隱藏層維度設(shè)置為1 000,單詞表大小設(shè)置為3萬,采用ADADELTA[11]方法對(duì)參數(shù)進(jìn)行更新,訓(xùn)練中batch的大小設(shè)置為80,Dropout[12]設(shè)置為0.5。
本文還將基于數(shù)據(jù)增強(qiáng)技術(shù)的神經(jīng)機(jī)器翻譯與統(tǒng)計(jì)機(jī)器翻譯作對(duì)比,實(shí)驗(yàn)采用愛丁堡等大學(xué)聯(lián)合開發(fā)的Moses[13]作為統(tǒng)計(jì)機(jī)器翻譯的基準(zhǔn)系統(tǒng),Moses采用默認(rèn)配置,實(shí)驗(yàn)以BLEU-4作為評(píng)測標(biāo)準(zhǔn)。
本文針對(duì)最小翻譯單元的向量表征提出了兩種方法,分別是I-MTU和D-MTU。其中,I-MTU是一種間接獲取短語向量表征的方式,D-MTU把短語作為一個(gè)整體,其向量表示由Word2Vec訓(xùn)練得到,是一種直接獲取短語向量表征的方式。從圖4中我們可以看出,在三種不同生成句子的策略下,D-MTU的結(jié)果都要比I-MTU好,這表明,雖然Word2Vec訓(xùn)練的詞向量具有良好的語義信息,但是簡單地用詞向量的和對(duì)短語進(jìn)行表征,還是存在一定問題。
圖4 藏漢六組實(shí)驗(yàn)結(jié)果
本文用三種不同的方式產(chǎn)生新的句對(duì),分別是SBG、TBG和CBG。圖4的實(shí)驗(yàn)結(jié)果表明,在藏漢翻譯上,TBG對(duì)翻譯性能的提升是最顯著的。
為了說明SBG、CBG和TBG三種方法間的差異,我們對(duì)產(chǎn)生的新語料進(jìn)行了統(tǒng)計(jì),結(jié)果如表4所示。SBG和TBG產(chǎn)生的新語料中有近60%的句子是不同的,CBG和TBG產(chǎn)生的新語料中有近40%的句子是不同的,這表明翻譯源端和目標(biāo)端語種的不同,對(duì)找出相似的最小翻譯單元是有影響的。對(duì)于藏漢翻譯來說,以漢語為基準(zhǔn)產(chǎn)生新句對(duì)要比以藏語為基準(zhǔn)產(chǎn)生新句對(duì)的方法好。在其他語言的翻譯任務(wù)中,我們并不能事先知道SBG和TBG哪種方法更好,而訓(xùn)練神經(jīng)機(jī)器翻譯往往需要大量的時(shí)間和資源,這時(shí)采用折中的方法CBG是一個(gè)不錯(cuò)的選擇。
表4 SBG、CBG與TBG不相同句子數(shù)所占的百分比
注: SU是差集的縮寫。
為了驗(yàn)證本文提出的數(shù)據(jù)增強(qiáng)技術(shù),我們做了以下幾組實(shí)驗(yàn)進(jìn)行對(duì)比分析。
從表5中,我們可以看出,在藏漢這種小語料上,神經(jīng)機(jī)器翻譯的基準(zhǔn)系統(tǒng)比統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)低了3個(gè)點(diǎn),這驗(yàn)證了Zoph等人提出的在資源稀缺的語言對(duì)上,神經(jīng)機(jī)器翻譯要弱于統(tǒng)計(jì)機(jī)器翻譯。通過使用數(shù)據(jù)增強(qiáng)技術(shù),神經(jīng)機(jī)器翻譯系統(tǒng)的性能得到大幅提升,BLEU值提高了4個(gè)點(diǎn),甚至比統(tǒng)計(jì)機(jī)器翻譯的結(jié)果還要高1個(gè)點(diǎn),這驗(yàn)證了我們提出的數(shù)據(jù)增強(qiáng)技術(shù)的有效性。
為了進(jìn)一步分析數(shù)據(jù)增強(qiáng)技術(shù)在不同程度的資源貧乏場景下的效果,如表6所示,我們以漢英作為我們的訓(xùn)練語言對(duì),分別在語料規(guī)模為10萬(極度貧乏)、30萬(十分貧乏)、50萬(中度貧乏)、70萬(輕微貧乏)、100萬(不貧乏)上做實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,當(dāng)語言對(duì)處于極度貧乏時(shí),本文提出的數(shù)據(jù)增強(qiáng)技術(shù)可以有效地提升神經(jīng)機(jī)器翻譯的性能,當(dāng)語言對(duì)不是很貧乏時(shí),本文提出的方法也是正向反饋的,也能提高大概1個(gè)多點(diǎn)的BLEU值。
表6 不同程度的資源貧乏場景下的效果對(duì)比
如表6最后兩行所示,我們對(duì)比了Sennrich提出的用偽語料加強(qiáng)神經(jīng)翻譯訓(xùn)練的方法。實(shí)驗(yàn)中,我們用谷歌翻譯工具對(duì)隨機(jī)抽取的與Baseline不相同的英文句子進(jìn)行中文翻譯,從實(shí)驗(yàn)結(jié)果上來看,這種偽語料技術(shù)的效果要比本文提出的數(shù)據(jù)增強(qiáng)技術(shù)要好,但是考慮到谷歌公司可能會(huì)把我們的聯(lián)合國語料放到它自己的模型上進(jìn)行訓(xùn)練,因此偽語料技術(shù)實(shí)際上未必能比我們提出的數(shù)據(jù)增強(qiáng)技術(shù)高4個(gè)BLEU值。我們也將本文提出的數(shù)據(jù)增強(qiáng)技術(shù)和偽語料技術(shù)相結(jié)合,實(shí)驗(yàn)結(jié)果表明兩種方法聯(lián)合使用可以進(jìn)一步提升資源貧乏語言對(duì)的翻譯質(zhì)量。
表7是我們從測試集中挑選的句子,用于說明數(shù)據(jù)增強(qiáng)技術(shù)對(duì)神經(jīng)機(jī)器翻譯系統(tǒng)的幫助。對(duì)比參考譯文,Moses生成的譯文丟失了動(dòng)詞“提高”;基準(zhǔn)系統(tǒng)RNNSearch生成的譯文丟失了名詞“企業(yè)”,且不通順;RNNSearch+TDA基本翻譯正確,而且通過調(diào)換“要”的位置,相比于參考譯文,也顯得更加通順。
表7 譯文示例
本文針對(duì)神經(jīng)機(jī)器翻譯在資源貧乏語種上面臨的訓(xùn)練語料不足問題,提出了數(shù)據(jù)增強(qiáng)方法。該方法首先對(duì)句子進(jìn)行分塊,然后調(diào)換最相似的兩個(gè)模塊得到新的句子,最后將新的句子加入到語料中,對(duì)翻譯模型進(jìn)行訓(xùn)練。本文在藏漢、漢英語種上的實(shí)驗(yàn)結(jié)果表明,數(shù)據(jù)增強(qiáng)技術(shù)既能有效提高神經(jīng)機(jī)器翻譯對(duì)于資源貧乏語種的泛化能力,也能對(duì)語料較豐富的語種起到提升翻譯質(zhì)量的作用。當(dāng)然,該方法也有自己的缺點(diǎn),通過這種方法產(chǎn)生的新句子往往存在語義或者語法上的錯(cuò)誤,這種錯(cuò)誤對(duì)神經(jīng)機(jī)器翻譯產(chǎn)生的影響有待研究。在未來的工作中,我們會(huì)考慮將句法知識(shí)引入數(shù)據(jù)增強(qiáng)技術(shù),以此改善生成的句子。