亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

單語數(shù)據(jù)訓(xùn)練在蒙漢神經(jīng)機(jī)器翻譯中的應(yīng)用

2020-06-16 10:40:54牛向華蘇依拉趙亞平仁慶道爾吉

計(jì)算機(jī)應(yīng)用與軟件 2020年6期

牛向華蘇依拉高芬趙亞平張振仁慶道爾吉

(內(nèi)蒙古工業(yè)大學(xué)信息工程學(xué)院內(nèi)蒙古呼和浩特 010080)

0 引言

隨著“一帶一路”經(jīng)濟(jì)帶的發(fā)展以及國家的大力支持，蒙漢機(jī)器翻譯的市場需求日趨增大。而神經(jīng)機(jī)器翻譯是一種需要數(shù)據(jù)驅(qū)動(dòng)的方法，其性能很大程度上取決于平行語料庫的規(guī)模、質(zhì)量和領(lǐng)域覆蓋面。由于神經(jīng)網(wǎng)絡(luò)的參數(shù)數(shù)量巨大，只有當(dāng)訓(xùn)練數(shù)據(jù)滿足一定的條件時(shí)，神經(jīng)機(jī)器翻譯的性能才會(huì)顯著超過統(tǒng)計(jì)機(jī)器翻譯[1]。由于平行語料在質(zhì)量、數(shù)量和覆蓋面等方面非常有限，特別是對(duì)于像蒙古語這樣的低資源語言，因此利用大量單語數(shù)據(jù)來改善蒙漢神經(jīng)機(jī)器翻譯的性能是很有必要的。人類在進(jìn)行翻譯時(shí)，首先是理解一句話，然后在腦海里形成對(duì)這句話的語義表示，最后再把這個(gè)語義表示轉(zhuǎn)化到另一種語言。單語數(shù)據(jù)訓(xùn)練的思想正是考慮如何縮小人工智能翻譯系統(tǒng)和人類翻譯之間的鴻溝。基于上述背景，本文提出將單語數(shù)據(jù)應(yīng)用到蒙漢機(jī)器翻譯中。

一般而言，如果沒有雙語平行數(shù)據(jù)，而又要實(shí)現(xiàn)機(jī)器翻譯，是非常困難的，主要難點(diǎn)在于如何將目標(biāo)語言和源語言關(guān)聯(lián)起來。為實(shí)現(xiàn)基于單語數(shù)據(jù)[2-8]訓(xùn)練的蒙漢機(jī)器翻譯，本文首先通過預(yù)訓(xùn)練生成跨語言詞嵌入[9]；然后利用對(duì)抗學(xué)習(xí)算法[10]構(gòu)建蒙漢雙語字典；接著在訓(xùn)練過程中通過去噪自編碼器結(jié)合蒙漢單語語料庫訓(xùn)練語言模型，并將學(xué)習(xí)到的雙語字典和語言模型相結(jié)合初始化蒙漢翻譯系統(tǒng)；最后使用回譯[11]的方法逐步迭代優(yōu)化初始翻譯系統(tǒng)，使其性能逐漸增強(qiáng)。通過搭建基于單語數(shù)據(jù)的蒙漢機(jī)器翻譯系統(tǒng)，并將其性能與基于LSTM[12]神經(jīng)網(wǎng)絡(luò)在平行語料庫上訓(xùn)練的蒙漢機(jī)器翻譯系統(tǒng)的性能進(jìn)行比較，使用BLEU[13]值作為評(píng)價(jià)指標(biāo)，實(shí)驗(yàn)結(jié)果顯示，使用123萬句對(duì)單語數(shù)據(jù)訓(xùn)練20輪的蒙漢機(jī)器翻譯系統(tǒng)的性能和使用10萬句對(duì)蒙漢平行語料庫在開源系統(tǒng)OpenNMT上訓(xùn)練8輪的結(jié)果相當(dāng)。本文基于單語語料庫訓(xùn)練的蒙漢機(jī)器翻譯的總體技術(shù)路線圖如圖1所示。

圖1 總體技術(shù)路線圖

1 相關(guān)技術(shù)

1.1 跨語言詞嵌入表示

在端到端的神經(jīng)機(jī)器翻譯模型[14]中，如果存在大量的平行數(shù)據(jù)，只要將數(shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò)就能得到兩種語言之間的一種對(duì)應(yīng)關(guān)系，然而，只有單語數(shù)據(jù)的情況下，因兩種語言的語料之間是毫無關(guān)聯(lián)的，那么使它們產(chǎn)生聯(lián)系便是實(shí)現(xiàn)互譯的最重要的一步。本文通過跨語言詞嵌入模型將蒙漢兩種語言的詞向量映射至同一空間，利用對(duì)抗訓(xùn)練學(xué)習(xí)蒙漢兩種語言的詞向量空間的線性映射，使得蒙漢兩種語言的詞向量分布在同一空間中時(shí)很相似。據(jù)此可以假設(shè)目標(biāo)函數(shù)為：

(1)

式中：d表示詞向量的維度；Md(R)表示實(shí)數(shù)矩陣空間；M表示蒙古語詞向量空間；Z表示漢語詞向量空間。通過訓(xùn)練需要學(xué)習(xí)源語言M和目標(biāo)語言Z之間的映射關(guān)系W，使得兩種語言在同一向量空間的分布表示很接近。將任意一個(gè)蒙語詞S的翻譯定義為t=arg maxtcos(Wms,zt)。在實(shí)踐中，有其他研究者發(fā)現(xiàn)如果在W上強(qiáng)制執(zhí)行正交性約束能夠更好地學(xué)習(xí)到這種映射關(guān)系[15]，因此式(1)就可以歸結(jié)為Procrustes問題，從而能夠?qū)ζ渥銎娈愔档姆纸?，以求能更簡單地進(jìn)行求解。

(2)

式中：UVT=SVD(MZT)。

在本文只擁有蒙漢單語語料的情況下，學(xué)習(xí)映射W過程為：首先通過對(duì)抗性訓(xùn)練來學(xué)習(xí)W的初始值；然后使用兩個(gè)語料中共享的一些單詞作為錨點(diǎn)來進(jìn)一步對(duì)齊向量空間，修正W的值；最后，通過改變向量空間的度量來提高錨點(diǎn)的數(shù)量，進(jìn)一步提高W的準(zhǔn)確性。學(xué)習(xí)映射W的過程如圖2所示。

圖2 學(xué)習(xí)映射W的過程

圖2(a)表示蒙漢兩個(gè)詞向量分布空間，M表示蒙古語詞向量空間，Z表示漢語詞向量空間，點(diǎn)代表每一個(gè)詞向量表示，點(diǎn)的大小表示詞在語料庫中出現(xiàn)的頻率，越大表示出現(xiàn)的次數(shù)越多。圖2(b)中表示使用對(duì)抗訓(xùn)練學(xué)習(xí)旋轉(zhuǎn)矩陣W，它使得兩個(gè)分布空間大致對(duì)齊，星點(diǎn)表示隨機(jī)選擇的單詞，用來被反饋至鑒別器來確定兩個(gè)詞嵌入是否來自同一個(gè)詞向量分布中。圖2(c)中映射W通過Procrustes算法最小化所選擇的標(biāo)點(diǎn)之間的度量系數(shù)來進(jìn)一步修正W，使得兩個(gè)詞向量空間進(jìn)一步對(duì)齊。圖2(d)中使用W和空間距離度量擴(kuò)展錨點(diǎn)數(shù)量，進(jìn)一步提高W的準(zhǔn)確性。

1.2 構(gòu)造蒙漢雙語字典

通過預(yù)訓(xùn)練跨語言詞嵌入模型，本文將蒙漢兩種語言映射到了同一詞向量分布空間，且學(xué)習(xí)得到了一個(gè)旋轉(zhuǎn)矩陣W。而學(xué)習(xí)旋轉(zhuǎn)矩陣對(duì)齊蒙漢詞向量空間的目的就是為了能得到一個(gè)蒙漢雙語字典，本節(jié)主要介紹構(gòu)造蒙漢雙語字典的方法。首先使用最近鄰搜索來為一個(gè)詞找到與之對(duì)應(yīng)的最近鄰詞，然后使用對(duì)抗訓(xùn)練來確保找到的這個(gè)對(duì)應(yīng)詞是和源詞來自不同的詞向量分布空間，而不是和它來自同一分布空間的近義詞。

1.2.1最近鄰搜索

最近鄰算法即K最近鄰(k-Nearest Neighbor，kNN)算法，是數(shù)據(jù)挖掘分類算法中最常用的算法之一[16]。本文為緩解在高維空間中尋找最近鄰時(shí)出現(xiàn)的hubness問題，使用跨域相似性局部縮放(cross-domain similarity local scaling,CSLS)的方法，以期提升互為最近鄰的雙語詞對(duì)。計(jì)算過程如下：

首先，對(duì)于蒙漢任意語言中的任意一個(gè)詞，都可以在與之對(duì)應(yīng)的另外一個(gè)語言中通過余弦相似度和旋轉(zhuǎn)矩陣W知道K近鄰，假設(shè)其為NT(s)和NS(t)，則對(duì)于蒙漢兩種語言可以定義距離rT和rS，計(jì)算公式如下：

(3)

rS的計(jì)算過程與rT類似，這個(gè)距離就是評(píng)估每個(gè)詞的hubness的標(biāo)準(zhǔn)，r值越大表示一個(gè)詞和對(duì)應(yīng)語言中的很多詞都比較接近。

然后可定義評(píng)價(jià)來自蒙漢兩種語言中兩個(gè)單詞的相似度的CSLS距離如下：

CSLS(s,t)=2cos(Wms,zt)-rT(s)-rS(t)

(4)

從式(4)中可以看出，在計(jì)算出Wms和zt的距離之后還對(duì)其加入了s和t的hubness懲罰，這樣就能緩解某一個(gè)詞是其對(duì)應(yīng)語言的很多個(gè)詞的最近鄰。因?yàn)閗NN算法的結(jié)果很大程度上取決于K的選擇。本文將K設(shè)置為5，這樣就面臨同樣分類不精確的問題，所以為了構(gòu)造一個(gè)相對(duì)準(zhǔn)確的蒙漢雙語字典，還使用了對(duì)抗訓(xùn)練來區(qū)分一個(gè)詞來自哪一個(gè)向量分布空間。

1.2.2生成式對(duì)抗網(wǎng)絡(luò)

生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks，GANs)是Goodfellow等在2014年提出的一種無監(jiān)督學(xué)習(xí)的訓(xùn)練方法。GANs由生成器和判別器兩部分組成，兩者都在與對(duì)方的對(duì)抗中不斷提升。生成器和判別器均可以采用深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)。GANs的優(yōu)化過程是一個(gè)極小極大博弈問題，優(yōu)化目標(biāo)是達(dá)到納什均衡[17]，使生成器估測到數(shù)據(jù)樣本的分布。在對(duì)抗網(wǎng)絡(luò)經(jīng)過對(duì)抗過程訓(xùn)練之后，生成網(wǎng)絡(luò)可以生成接近真實(shí)的數(shù)據(jù)，即接近于訓(xùn)練數(shù)據(jù)，但又不完全一樣。所以，生成網(wǎng)絡(luò)學(xué)習(xí)了訓(xùn)練數(shù)據(jù)的一個(gè)近似分布。對(duì)于判別網(wǎng)絡(luò)，也能將其進(jìn)行訓(xùn)練以達(dá)到對(duì)數(shù)據(jù)較好區(qū)分的效果。圖3展示了對(duì)抗學(xué)習(xí)的過程。

圖3 對(duì)抗學(xué)習(xí)過程

設(shè)M={m1,m2,…,mn}和Z={z1,z2,…,zn}分別是蒙古語和漢語的詞嵌入表示，通過對(duì)抗學(xué)習(xí)來得到一個(gè)模型，用來區(qū)分隨機(jī)取出的詞是來自WM={Wm1,Wm2,…,Wmn}還是Z={z1,z2,…,zn}，這個(gè)模型就被稱為判別器，而W的目的是使得WM和Z盡可能的相似，所以W就是生成器。因此可將判別器的損失函數(shù)和生成器的損失函數(shù)定義為：

(5)

(6)

式中：θD為鑒別器參數(shù);W為旋轉(zhuǎn)矩陣；PθD(source=1|z)表示源語言詞嵌入和目標(biāo)語言詞嵌入是相互映射的概率。在實(shí)際訓(xùn)練中，本文使用隨機(jī)梯度下降法迭代訓(xùn)練判別器和映射矩陣W，使得目標(biāo)函數(shù)LD和LW分別最小化。

2 蒙漢機(jī)器翻譯

為了將單語數(shù)據(jù)應(yīng)用到蒙漢機(jī)器翻譯中，本文將給定單語語料，使用對(duì)抗學(xué)習(xí)的算法預(yù)訓(xùn)練跨語言詞嵌入來對(duì)齊蒙漢兩種語言的詞向量空間，引入去噪自編碼器結(jié)合多頭自注意力機(jī)制使用蒙漢單語和雙語語料庫預(yù)訓(xùn)練跨蒙漢語言模型。最后，將迭代回譯應(yīng)用于基于詞典逐字翻譯的初始化系統(tǒng)，并結(jié)合已經(jīng)訓(xùn)練好的語言模型優(yōu)化蒙漢翻譯模型。

2.1 訓(xùn)練蒙漢語言模型

在無監(jiān)督機(jī)器學(xué)習(xí)[18-19]中，最常使用的一類神經(jīng)網(wǎng)絡(luò)就是自編碼器(Autoencoder)，其作用就是通過訓(xùn)練輸入無標(biāo)簽的數(shù)據(jù)X=(x(1),x(2),…,x(n))，得到一個(gè)降維后的特征表達(dá)H=(h(1),h(2),…,h(n))，就像主成分分析一樣。簡而言之，自編碼器就是一種盡可能復(fù)現(xiàn)輸入信號(hào)的神經(jīng)網(wǎng)絡(luò)，目的是通過這種復(fù)現(xiàn)過程來學(xué)習(xí)輸入數(shù)據(jù)的重要特征。自編碼器的實(shí)現(xiàn)過程如圖4所示。其中，將原數(shù)據(jù)輸入一個(gè)編碼器中，就會(huì)得到這個(gè)輸入的一個(gè)特征表示為了判斷這個(gè)特征表示的是否為輸入的數(shù)據(jù)。本文通過添加一個(gè)解碼器來實(shí)現(xiàn)解碼器輸出一個(gè)信息，如果輸出的這個(gè)信息和一開始的輸入信息是很像的，那么就證明這個(gè)特征表示是可用的。所以，通過調(diào)整編碼器和解碼器的參數(shù)，使得重構(gòu)誤差最小，就能得到輸入信號(hào)的一個(gè)準(zhǔn)確的特征表示。因?yàn)槭菬o標(biāo)簽數(shù)據(jù)，所以誤差的來源就是直接重構(gòu)后的數(shù)據(jù)與原輸入數(shù)據(jù)相比得到的。

圖4 自編碼器實(shí)現(xiàn)過程

而降噪自編碼器(Denoising AutoEncoders,DAE)是自編碼器的一個(gè)變體，它是在自編碼器的基礎(chǔ)上，給輸入的訓(xùn)練數(shù)據(jù)加入噪聲，此時(shí)自編碼器就會(huì)學(xué)習(xí)怎么去除噪聲而重構(gòu)出原來沒有噪聲的數(shù)據(jù)，從而使得編碼器能學(xué)習(xí)到更加魯棒的表達(dá)，同時(shí)也增加了泛化能力。降噪自編碼器的工作原理如圖5所示。

圖5 降噪自編碼器工作原理

本節(jié)使用DAE的工作原理來訓(xùn)練得到蒙漢語言模型。定義DAE的目標(biāo)函數(shù)為：

(7)

Llm=Ez～T[-logPt→t(z|C(z))]+

Em～S[-logPs→s(m|C(m))]

(8)

綜上所述，使用降噪自編碼器可訓(xùn)練一個(gè)不錯(cuò)的語言模型，本文首先輸入無噪聲的嵌入表示記錄位置信息，再添加噪聲通過DAE學(xué)習(xí)噪聲特征和有用信息特征，最后得到表達(dá)流暢的語言模型。以中文訓(xùn)練語言模型的過程為例，具體訓(xùn)練過程示例如圖6所示。

圖6 降噪自編碼器訓(xùn)練過程示例

2.2 初始化蒙漢機(jī)器翻譯模型

實(shí)現(xiàn)兩種語言之間的互譯，最簡單的方法就是當(dāng)這兩種語言間存在一個(gè)字典時(shí)，對(duì)照字典，把每一個(gè)源語言的字翻譯出來，即使基于這種方法翻譯得到的結(jié)果會(huì)很差，但是至少保證了翻譯的實(shí)現(xiàn)。通過對(duì)抗網(wǎng)絡(luò)學(xué)習(xí)到一個(gè)蒙漢對(duì)照的字典，通過搭建一個(gè)端到端的神經(jīng)網(wǎng)絡(luò)模型，得到了一個(gè)最原始的蒙漢翻譯模型，但它翻譯出來的句子不是很流暢，因?yàn)橹皇菃卧~互譯的堆疊。本文通過DAE學(xué)習(xí)到了蒙漢語言模型，可以緩解翻譯出的句子不流暢的問題。所以將語言模型加入最初的蒙漢翻譯模型，完成了初始化蒙漢機(jī)器翻譯系統(tǒng)。

2.3 迭代回譯

回譯，也稱為反向翻譯，這是緩解平行數(shù)據(jù)缺乏的最有效的方法之一，其本質(zhì)上是為了構(gòu)造偽平行數(shù)據(jù)，將無監(jiān)督學(xué)習(xí)的方法轉(zhuǎn)化為有監(jiān)督學(xué)習(xí)的方法。本文假設(shè)目標(biāo)語言句子z是目標(biāo)語言單語語料庫Z中的任意句子，即z∈Z，用u*(z)來表示從目標(biāo)語言中推斷出的源語言句子，則u*(z)=arg maxPt→s(u|z)。同樣，可以用v*(m)表示從m∈S中推斷出目標(biāo)語言句子，則v*(m)=arg maxPt→s(v|m)。如此一來，(u*(z),z)和(m,v*(m))就可以構(gòu)成偽平行句子，那么遵循反向翻譯原則，可定義回譯算法的損失函數(shù)為:

Lback=Ez～T[-logPs→t(z|u*(z))]+

Em～S[-logPt→s(m|v*(m))]

(9)

迭代的目標(biāo)是使得式(8)和式(9)之和最小。使用隨機(jī)梯度下降算法進(jìn)行多次迭代，以此來更新每個(gè)模型的參數(shù)使得初始化的翻譯模型的性能逐漸增強(qiáng)。

3 實(shí) 驗(yàn)

本文主要以“基于深度學(xué)習(xí)的蒙漢統(tǒng)計(jì)機(jī)器翻譯的研究與實(shí)現(xiàn)”中構(gòu)建的123萬句的蒙漢對(duì)齊語料庫中的蒙古語作為源語言端單語數(shù)據(jù)，以全球AI挑戰(zhàn)賽(AI Changer)中給出的1 000萬句英漢對(duì)齊語料庫中的漢語作為目標(biāo)語言端單語數(shù)據(jù)為實(shí)驗(yàn)數(shù)據(jù)，驗(yàn)證基于單語語料庫訓(xùn)練的蒙漢機(jī)器翻譯方法的可行性。訓(xùn)練集為123萬句對(duì)蒙漢單語數(shù)據(jù)，驗(yàn)證集為3千句對(duì)，測試集為1千句對(duì)。

首先融合不同粒度的方法對(duì)語料庫進(jìn)行預(yù)處理，使用詞級(jí)粒度的方法對(duì)中文語料進(jìn)行切分，再使用BPE[20]進(jìn)行子詞級(jí)切分，BPE操作數(shù)設(shè)為60 000，初始化共享查找表。模型使用基于LSTM和Transformer的基本架構(gòu)，編碼器和解碼器都設(shè)置為4層，共享其中3層的參數(shù)。給語料添加噪聲時(shí)，隨機(jī)丟棄單詞的概率為2%，每6個(gè)詞之間調(diào)換順序，學(xué)習(xí)率設(shè)為0.000 1，epoch_size設(shè)置為500 000，batch_size設(shè)置為32，使用Adam優(yōu)化算法進(jìn)行優(yōu)化。

3.1 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)經(jīng)過20個(gè)epoch實(shí)驗(yàn)自動(dòng)停止，統(tǒng)計(jì)到翻譯模型在測試集上的BLEU值如表1所示，相應(yīng)的BLEU值的變化趨勢如圖7所示。

表1 翻譯模型BLEU值

圖7 BLEU值的變化趨勢3.2對(duì)比實(shí)驗(yàn)

表1中：Mn-zh表示蒙漢翻譯模型的結(jié)果；Zh-mn表示漢蒙翻譯模型的結(jié)果；Test表示在測試集上的結(jié)果；Valid表示在驗(yàn)證集上的結(jié)果。

從圖7可以看出，基于單語語料庫訓(xùn)練的蒙漢機(jī)器翻譯模型的BLEU值在20個(gè)epoch上呈現(xiàn)增長趨勢，在測試集上蒙漢翻譯性能在epoch17時(shí)表現(xiàn)最好，此時(shí)BLEU值為9.18，在驗(yàn)證集上蒙漢翻譯性能在epoch17時(shí)表現(xiàn)最好，此時(shí)BLEU值為14.28。

3.2 對(duì)比實(shí)驗(yàn)

對(duì)比實(shí)驗(yàn)直接使用了哈佛大學(xué)開源的神經(jīng)機(jī)器翻譯系統(tǒng)OpenNMT。這是一個(gè)使用平行語料庫在基于LSTM神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制上實(shí)現(xiàn)機(jī)器翻譯的系統(tǒng)，主要包括四個(gè)步驟：語料預(yù)處理，翻譯模型訓(xùn)練，使用訓(xùn)練好的翻譯模型翻譯測試集以及對(duì)翻譯結(jié)果的BLEU值評(píng)測。

對(duì)比實(shí)驗(yàn)同樣使用了10萬句對(duì)的蒙漢平行數(shù)據(jù)作為訓(xùn)練集，3千句對(duì)作為驗(yàn)證集，3千句對(duì)作為測試集。實(shí)驗(yàn)環(huán)境為Ubuntu16.04 Linux系統(tǒng)，利用pytorch 0.4.3進(jìn)行神經(jīng)網(wǎng)絡(luò)的搭建，在OpenNMT中參數(shù)做如下設(shè)定：蒙古語詞典大小為50 002，漢語詞典大小為50 004。編碼器和解碼器中LSTM神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)設(shè)置為4層，詞向量維度設(shè)置為500，解碼器中全局注意力機(jī)制中輸入特征設(shè)置為500，輸出特征設(shè)置為500，歸一化函數(shù)選擇Tanh()。Dropout設(shè)置為0.3，迭代輪數(shù)epoch設(shè)置為20輪，學(xué)習(xí)率設(shè)置0.1，學(xué)習(xí)率衰減速率設(shè)置為1。

為了和本文的主體實(shí)驗(yàn)做對(duì)比，統(tǒng)計(jì)出了基于LSTM神經(jīng)網(wǎng)絡(luò)的蒙漢機(jī)器翻譯模型的20個(gè)epoch上的BLEU值以及其變化趨勢，如表2和圖8所示。

表2 基于LSTM神經(jīng)網(wǎng)絡(luò)的蒙漢機(jī)器翻譯模型的BLEU值

圖8 LSTM機(jī)器翻譯模型BLEU值變化趨勢

3.3 對(duì)比分析

實(shí)驗(yàn)將基于單語語料庫訓(xùn)練的蒙漢機(jī)器翻譯模型和基于LSTM神經(jīng)網(wǎng)絡(luò)的蒙漢機(jī)器翻譯模型進(jìn)行了對(duì)比。采用BLEU值作為翻譯模型的評(píng)測指標(biāo)，通過一輪輪迭代訓(xùn)練，模型學(xué)習(xí)到的參數(shù)越來越好，包含越來越豐富的語義信息，從而提高了翻譯模型的表達(dá)能力，最終導(dǎo)致測試集上譯文評(píng)測值的不斷提升。對(duì)比實(shí)驗(yàn)的結(jié)果如表3和圖9所示。

表3 對(duì)比兩種蒙漢機(jī)器翻譯模型的BLEU值

圖9 兩種翻譯模型在測試集上的BLEU值對(duì)比

表3中，單語表示基于單語數(shù)據(jù)的蒙漢機(jī)器翻譯模型在測試集上的BLEU值；雙語表示使用平行數(shù)據(jù)基于LSTM神經(jīng)網(wǎng)絡(luò)的蒙漢機(jī)器翻譯模型在測試集上的BLEU值。

實(shí)驗(yàn)表明，使用123萬句對(duì)單語數(shù)據(jù)訓(xùn)練20輪的蒙漢機(jī)器翻譯系統(tǒng)的性能和使用10萬句對(duì)蒙漢平行數(shù)據(jù)在開源系統(tǒng)OpenNMT上訓(xùn)練8輪的結(jié)果相當(dāng)。

由于單語語料庫比雙語語料庫容易得到，所以基于單語語料庫訓(xùn)練的方法在提升蒙漢機(jī)器翻譯系統(tǒng)性能方面有一定的優(yōu)勢。但因?yàn)榛趩握Z數(shù)據(jù)訓(xùn)練的方法依賴于一個(gè)好的語言模型，所以應(yīng)用單語數(shù)據(jù)訓(xùn)練的方法不適用單語數(shù)據(jù)較少的情況，需要大量的單語數(shù)據(jù)才能保證語言模型性能良好。

4 結(jié) 語

本文對(duì)如何構(gòu)建基于單語語料庫訓(xùn)練的蒙漢機(jī)器翻譯系統(tǒng)做了介紹，提出基于單語語料庫訓(xùn)練實(shí)現(xiàn)蒙漢機(jī)器翻譯的三大步驟：語言模型，初始化翻譯系統(tǒng)和迭代回譯進(jìn)行優(yōu)化。對(duì)預(yù)訓(xùn)練跨語言詞嵌入表示的方法、使用去噪自編碼器訓(xùn)練語言模型以及回譯算法做了詳細(xì)的描述。最后，采用機(jī)器翻譯常用的評(píng)測標(biāo)準(zhǔn)BLEU值，對(duì)基于單語語料庫訓(xùn)練的蒙漢機(jī)器翻譯模型與基于平行語料庫在LSTM神經(jīng)網(wǎng)絡(luò)上訓(xùn)練的蒙漢機(jī)器翻譯模型進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)表明，基于單語語料庫訓(xùn)練的蒙漢機(jī)器翻譯模型的BLEU值增長緩慢，而使用平行語料庫基于LSTM神經(jīng)網(wǎng)絡(luò)的蒙漢機(jī)器翻譯模型的BLEU值增長較快。從模型的測試效果來看，兩種方法使用的語料數(shù)量相差10倍之多。前者的整體翻譯效果依賴于兩個(gè)方向上翻譯模型的性能和兩種語言的回譯能力，但是漢語的回譯效果和蒙古語的回譯效果相差較大，這應(yīng)該是蒙漢兩種語言之間差異較大而同一種語言模型訓(xùn)練方法不能完全匹配導(dǎo)致的。所以緩解此問題的方法之一就是預(yù)訓(xùn)練一個(gè)跨蒙漢的語言模型，使得一個(gè)語言模型可以匹配蒙漢兩種語言。下一步擬研究如何預(yù)訓(xùn)練一個(gè)跨蒙漢的語言模型。