高 芬,蘇依拉,仁慶道爾吉
內(nèi)蒙古工業(yè)大學(xué) 信息工程學(xué)院,呼和浩特 010080
機(jī)器翻譯作為人工智能的終極目標(biāo)之一,主要研究如何使用計(jì)算機(jī)將一種源語(yǔ)言翻譯成為另一種目標(biāo)語(yǔ)言[1]。機(jī)器翻譯的研究能夠促進(jìn)不同民族和國(guó)家之間的信息交流,具有重要的科學(xué)研究?jī)r(jià)值。
蒙古族作為我國(guó)五十六個(gè)民族的重要成員之一,是草原游牧民族的典型代表和草原文化的重要傳承者。蒙古語(yǔ)則是我國(guó)蒙古族同胞使用的主要語(yǔ)言。在我國(guó)經(jīng)濟(jì)快速發(fā)展與社會(huì)不斷進(jìn)步的背景下,蒙古族與漢族之間的交流日益頻繁。蒙漢機(jī)器翻譯的研究能促進(jìn)蒙漢兩種文化的融合和信息共享,對(duì)于兩種文化的價(jià)值觀相互滲透,凝聚民族的核心文化,促進(jìn)良好民族關(guān)系的建立具有重要意義。
隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,神經(jīng)機(jī)器網(wǎng)絡(luò)碾壓統(tǒng)計(jì)機(jī)器網(wǎng)絡(luò),已成為機(jī)器翻譯業(yè)界的主流[2]。然而,在當(dāng)前的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯中,大部分的機(jī)器翻譯系統(tǒng)還停留在單句范圍內(nèi)進(jìn)行信息處理[3],以句子級(jí)的翻譯方式為主,使用平行句子語(yǔ)料庫(kù)來(lái)訓(xùn)練翻譯模型。即使翻譯一篇篇章也是先將篇章拆分成單個(gè)句子,然后對(duì)單個(gè)句子進(jìn)行翻譯,孤立地進(jìn)行句子翻譯的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型在翻譯的過(guò)程中僅能利用當(dāng)前句子的信息,完全忽略了篇章上下文其他有價(jià)值的語(yǔ)境信息之間的聯(lián)系[4]。
“歧義”是自然語(yǔ)言中很常見(jiàn)的一個(gè)現(xiàn)象,同一個(gè)詞根據(jù)不同的上下文有兩個(gè)或者兩個(gè)以上的詞義時(shí),就會(huì)產(chǎn)生歧義。蒙古文同形詞歧義消除問(wèn)題是蒙古文信息處理的難點(diǎn)之一。不同的上下文,一個(gè)詞可能含有不同的意義和解釋。國(guó)內(nèi)外一些研究者已經(jīng)表明通過(guò)篇章級(jí)上下文可以很好地解決詞義歧義和指代消解等問(wèn)題進(jìn)而提高翻譯質(zhì)量。
基于篇章上下文方法的機(jī)器翻譯1994年就有學(xué)者提出。2006年,廈門大學(xué)的史曉東教授指出“語(yǔ)篇才是人類語(yǔ)言的交際單位,才是翻譯的基本單位”[5]。中科院的劉群教授在2012年提出機(jī)器翻譯需要用到多個(gè)層次的知識(shí),包括篇章層面。2018年,中國(guó)科學(xué)院自動(dòng)化研究院張家俊教授在“機(jī)器翻譯前沿動(dòng)態(tài)”報(bào)告會(huì)上對(duì)比近兩年ACL 系列文章,指出未來(lái)機(jī)器翻譯的趨勢(shì)是利用篇章上下文進(jìn)行翻譯。不可否認(rèn),以上專家都有共鳴,機(jī)器翻譯的處理單元必須跨越句子。很顯然有些句子直接依靠它本身的信息就能夠獲得正確的翻譯,但是還有一些句子卻需要更大的篇章上下文信息[6]。
近兩三年,利用上下文信息來(lái)提高機(jī)器翻譯成為了一個(gè)趨勢(shì)。Tiedemann等人[7]研究了擴(kuò)展上下文在基于注意力的神經(jīng)機(jī)器翻譯中的應(yīng)用。實(shí)驗(yàn)以翻譯電影字幕為基礎(chǔ),討論了在單個(gè)翻譯單元之外增加片段的效果。愛(ài)爾蘭都柏林大學(xué)研究者提出了一種跨句語(yǔ)境感知方法,研究了歷史語(yǔ)境信息對(duì)神經(jīng)機(jī)器翻譯性能的影響[8]。愛(ài)丁堡大學(xué)(The University of Edinburgh)研究者基于現(xiàn)有的Transformer 模型,構(gòu)造了源語(yǔ)言編碼器(source encoder)和上下文編碼器(context encoder),上下文相關(guān)的源語(yǔ)言表示是通過(guò)兩個(gè)編碼器的輸出經(jīng)過(guò)注意力層得到的[9]。莫納什大學(xué)(Monash University)的研究者通過(guò)構(gòu)造記憶網(wǎng)絡(luò)來(lái)存儲(chǔ)源語(yǔ)言篇章和目標(biāo)語(yǔ)言篇章中句子之間的依賴關(guān)系來(lái)解決篇章級(jí)機(jī)器翻譯的任務(wù)[10]。以上文獻(xiàn)都表明神經(jīng)機(jī)器翻譯需要根據(jù)源句定義的上下文跨句來(lái)提高譯文的連貫性。利用篇章上下文的機(jī)器翻譯能提取到其他有價(jià)值的語(yǔ)境信息之間的聯(lián)系,有助于提高翻譯質(zhì)量。然而,大型篇章級(jí)并行語(yǔ)料庫(kù)通常稀缺,尤其對(duì)于少數(shù)民族語(yǔ)言而言?;诖藛?wèn)題,擬參考Zhang Jiacheng等人[11]的思想,利用較為豐富的句子級(jí)平行語(yǔ)料庫(kù)和有限的篇章級(jí)并行語(yǔ)料進(jìn)行機(jī)器翻譯的訓(xùn)練。并且,此文還研究了蒙漢神經(jīng)機(jī)器翻譯的翻譯單元粒度。漢語(yǔ)端采用子詞作為基本翻譯單元,有效解決集外詞(OOV)和罕見(jiàn)詞(Rare word)問(wèn)題[12]。蒙古語(yǔ)端以子素、單詞、短語(yǔ)為單位對(duì)句子進(jìn)行切割。
本文在Zhang Jiacheng等人[11]的工作基礎(chǔ)上,第一,將漢字子詞特征融入到蒙漢神經(jīng)機(jī)器翻譯的方法,同時(shí),有效地證明了漢字子詞特征可以對(duì)神經(jīng)機(jī)器翻譯模型起到促進(jìn)作用。第二,蒙古語(yǔ)端使用混合編碼器,混合編碼器采用三種編碼狀態(tài)混合而成,包括字素、單詞和短語(yǔ)三類向量信息。使用混合編碼器的好處是利用不同的深度和結(jié)構(gòu)的編碼器對(duì)源端蒙文句子進(jìn)行分布式表示。
本文研究的對(duì)象是蒙文到中文的神經(jīng)機(jī)器翻譯。其中,中文端以漢字子詞(Byte Pair Encoder,BPE)為單位對(duì)句子進(jìn)行切割;子詞的全名稱是字節(jié)對(duì)編碼,它主要是為了解決數(shù)據(jù)壓縮,它的原理是替換,字符串中頻率高的字符被頻率低的字符替代的一個(gè)層層迭代的過(guò)程。BPE 最初2016 年應(yīng)用于機(jī)器翻譯,很好地解決集外詞和罕見(jiàn)詞問(wèn)題[13]。
蒙古文詞的數(shù)量龐大,而且可以通過(guò)在詞干后添加附加成分來(lái)構(gòu)造新詞[14],因此翻譯模型無(wú)法覆蓋所有詞,故未登錄詞的問(wèn)題會(huì)一直存在于詞級(jí)翻譯模型中。而蒙古文字符數(shù)量有限且數(shù)量較少,所有詞都由字符序列組合而成,這種字符序列有一定的組合規(guī)律,適合神經(jīng)網(wǎng)絡(luò)模型去學(xué)習(xí),故融合不同粒度的切分方法來(lái)預(yù)處理語(yǔ)料。
蒙古文端以子素、單詞、短語(yǔ)為單位對(duì)句子進(jìn)行切割。使用混合編碼器,利用深度和結(jié)構(gòu)不同的三個(gè)編碼器即對(duì)源端蒙文句子進(jìn)行分布式表示?;旌暇幋a器的三個(gè)編碼器的其他參數(shù)獨(dú)立分布,只是共享詞向量矩陣。在機(jī)器翻譯中,當(dāng)輸入源端句子時(shí),詞向量將輸入句子數(shù)學(xué)化,輸入的詞或字符經(jīng)過(guò)詞向量映射為向量矩陣。如圖1所示,混合編碼器的目的是利用深度和結(jié)構(gòu)不同的多個(gè)編碼器對(duì)源端蒙文句子進(jìn)行分布式表示,不同深度的編碼器對(duì)源端句子具有不同的分布式表示能力,不同結(jié)構(gòu)的編碼器對(duì)句子表示過(guò)程中關(guān)注的句子特征的權(quán)重不同,然后源端蒙文句子的最終表示是將多個(gè)分布式的表示融合起來(lái)。期望通過(guò)這種方式能得到一個(gè)對(duì)源端句子更全面的表示,增強(qiáng)模型能力。
圖1 混合編碼器
混合編碼器建模的公式為:
式中,Γ為混合函數(shù),是三種激活函數(shù)的集合,ht為詞編碼器的隱藏狀態(tài),htc為字素編碼器的隱藏狀態(tài),htp為短語(yǔ)編碼器的隱藏狀態(tài)。
詞編碼器的建模公式為:
式中,ht為詞編碼器的隱藏狀態(tài),φ表示激活函數(shù),C為映射矩陣,wt為詞的向量表示。
這里,wt為單字的蒙古語(yǔ)詞向量表達(dá)形式,由于蒙古語(yǔ)形態(tài)多變,單單利用詞單位的向量形式無(wú)法做到較好的編碼效果,蒙古語(yǔ)語(yǔ)義也得不到較為理想的獲取,基于神經(jīng)網(wǎng)絡(luò)的蒙漢機(jī)器翻譯系統(tǒng)還將另外構(gòu)建兩種編碼器,分別為字素編碼器和短語(yǔ)編碼器。
字素編碼器的建模公式為:
式中,htc為字素編碼器的隱藏狀態(tài),ψ為激活函數(shù),Cc表示映射矩陣,wtc為字素的向量表示。
短語(yǔ)編碼器是將源語(yǔ)言句子中成組出現(xiàn)的短語(yǔ)作為編碼器的基本單元進(jìn)行編碼,體現(xiàn)了雙語(yǔ)平行對(duì)照語(yǔ)料中的一對(duì)多翻譯的優(yōu)勢(shì),盡可能地保留原始句子的語(yǔ)義特征。對(duì)源語(yǔ)言蒙語(yǔ)句子的短語(yǔ)進(jìn)行短語(yǔ)劃分,進(jìn)而構(gòu)建短語(yǔ)字典庫(kù),然后構(gòu)建短語(yǔ)編碼器。
短語(yǔ)編碼器的建模公式為:
式中,htp為短語(yǔ)編碼器隱藏狀態(tài),γ為激活函數(shù),Cp為映射矩陣,wtp為短語(yǔ)的向量表示。
Seq2Seq[15]的中文名稱是序列到序列,序列到序列指的就是輸入和輸出都是序列。假設(shè)有一個(gè)蒙語(yǔ)句子“”和一個(gè)其對(duì)應(yīng)的中文句子“明天是周末”,那么序列的輸入就是“”,而序列的輸出就是“明天是周末”,從而對(duì)這個(gè)序列對(duì)進(jìn)行訓(xùn)練。
Seq2Seq 模型由編碼器和解碼器兩個(gè)部分來(lái)構(gòu)成,其中編碼器將源句總結(jié)為矢量表示,解碼器從矢量中逐字生成目標(biāo)句。使用編碼器-解碼器以及注意力機(jī)制,神經(jīng)機(jī)器翻譯在各種語(yǔ)言對(duì)上的性能已經(jīng)超過(guò)了傳統(tǒng)統(tǒng)計(jì)機(jī)器翻譯的性能。
如圖2 所示,在輸入句子比較長(zhǎng)時(shí),此時(shí)所有語(yǔ)義完全通過(guò)一個(gè)中間語(yǔ)義向量C來(lái)表示,會(huì)丟失很多細(xì)節(jié)信息,因此要引入注意力模型。深度學(xué)習(xí)中的注意力機(jī)制核心目標(biāo)是從眾多信息中選擇出對(duì)當(dāng)前任務(wù)目標(biāo)更關(guān)鍵的信息。注意力機(jī)制的引入使得神經(jīng)機(jī)器翻譯由于定長(zhǎng)源語(yǔ)言句子向量帶來(lái)的長(zhǎng)距離依賴問(wèn)題得到緩解。
圖2 Seq2Seq模型
2015 年,注意力機(jī)制[16]的提出,是自然語(yǔ)言處理的一大里程碑。
注意力機(jī)制函數(shù)的本質(zhì)是對(duì)Source中元素的Value值進(jìn)行加權(quán)求和,而Query 和Key 用來(lái)計(jì)算對(duì)應(yīng)Value的權(quán)重系數(shù),如圖3所示。
圖3 注意力機(jī)制函數(shù)
基于注意力機(jī)制的神經(jīng)機(jī)器翻譯模型在生成每個(gè)單詞的時(shí)候,如圖4 所示,即由固定的中間語(yǔ)義表示C會(huì)被替換成根據(jù)當(dāng)前輸出單詞而不斷變化的Ci?;谧⒁饬C(jī)制的神經(jīng)機(jī)器翻譯模型中編碼器為每個(gè)源語(yǔ)言詞生成包含全局信息的向量表示,在生成每個(gè)目標(biāo)語(yǔ)言詞時(shí),解碼器會(huì)動(dòng)態(tài)尋找和當(dāng)前詞相關(guān)的源語(yǔ)言上下文信息。
圖4 加入注意力機(jī)制的Seq2Seq模型
通常使用循環(huán)神經(jīng)網(wǎng)絡(luò)或卷積神經(jīng)網(wǎng)絡(luò)[17]來(lái)處理變長(zhǎng)序列得到一個(gè)相同長(zhǎng)度的輸出向量序列。然而,不管是對(duì)于循環(huán)神經(jīng)網(wǎng)絡(luò)還是對(duì)于卷積神經(jīng)網(wǎng)絡(luò),其實(shí)都是屬于對(duì)變長(zhǎng)序列的“局部編碼”。循環(huán)神經(jīng)網(wǎng)絡(luò)因?yàn)樘荻认е荒芙⒍叹嚯x依賴,而卷積神經(jīng)網(wǎng)絡(luò)是基于N-gram的局部編碼。
如果要建立輸入序列之間的長(zhǎng)距離依賴關(guān)系,通常有兩種方法,其一是通過(guò)加深網(wǎng)絡(luò)層數(shù)去獲取長(zhǎng)距離的依賴關(guān)系,其二是應(yīng)用全連接網(wǎng)絡(luò)。如圖5 所示,全連接網(wǎng)絡(luò)是一種直接的建模遠(yuǎn)距離依賴的模型,但由于不同的輸入長(zhǎng)度,其連接權(quán)重的大小不同。故全連接網(wǎng)絡(luò)無(wú)法應(yīng)對(duì)變長(zhǎng)的輸入序列。這時(shí)可以利用自注意力機(jī)制,如圖6所示,動(dòng)態(tài)地生成不同連接的權(quán)重,從而處理變長(zhǎng)的信息序列。
圖5 全連接模型
圖6 自注意力模型
2017年末,Google提出的Transformer[18]是自然語(yǔ)言處理的又一大里程碑。Transformer 完全由純注意力機(jī)制組成,更準(zhǔn)確地說(shuō),Transformer 由且僅由自注意力機(jī)制[19]和前饋神經(jīng)網(wǎng)絡(luò)組成。
Transformer使用自注意力機(jī)制,將序列中的任意兩個(gè)位置之間的距離縮小為一個(gè)常量;其次它不是順序結(jié)構(gòu),因此具有更好的并行性,自注意力機(jī)制的核心內(nèi)容是為輸入向量的每一個(gè)單詞學(xué)習(xí)一個(gè)權(quán)重,多頭注意力的不同之處在于進(jìn)行了h次計(jì)算而不僅僅算一次,這樣的好處是可以允許模型在不同的表示子空間里學(xué)習(xí)到相關(guān)的信息。
如圖7所示為傳統(tǒng)的Transformer結(jié)構(gòu)簡(jiǎn)圖。
圖7 Transformer結(jié)構(gòu)簡(jiǎn)圖
本文擬采用融合篇章級(jí)語(yǔ)義信息的策略來(lái)解決蒙古文同形詞歧義問(wèn)題和指代消解問(wèn)題,提高蒙漢神經(jīng)機(jī)器翻譯的質(zhì)量。由于大型篇章級(jí)并行語(yǔ)料庫(kù)通常不可用,因此擬利用較為豐富的句子級(jí)平行語(yǔ)料庫(kù)和有限的篇章級(jí)并行語(yǔ)料庫(kù)。由于篇章上下文通常包含多個(gè)句子,因此捕獲遠(yuǎn)程依賴關(guān)系并識(shí)別相關(guān)信息非常重要。使用多頭自注意力來(lái)計(jì)算篇章級(jí)上下文的表示,能夠減少遠(yuǎn)程依賴關(guān)系到O(1)之間的最大路徑長(zhǎng)度并確定上下文中不同位置的相對(duì)重要性。
如圖8 所示,在傳統(tǒng)的Transformer 框架基礎(chǔ)上,通過(guò)自注意力模型上添加模塊來(lái)融合篇章上下文信息,并且使用多頭自注意力機(jī)制將得到的篇章上下文的隱層表示同時(shí)融入到源端編碼器和解碼器中。上下文編碼器的輸入是源端待翻譯句子與同一個(gè)篇章中的前k個(gè)句子。上下文編碼器類似于Transformer 的編碼器,是一個(gè)多層結(jié)構(gòu),每一層都包含一個(gè)自注意力層和前向反饋層,并且利用多頭上下文注意力(context attention)將篇章上下文的隱層信息輸入到源端編碼器和解碼器中。
圖8 篇章上下文語(yǔ)境方法的結(jié)構(gòu)框架
將篇章語(yǔ)料編碼成篇章向量,使用多頭自注意來(lái)計(jì)算篇章級(jí)上下文的表示,自注意編碼器的輸入是一系列上下文字嵌入,表示為矩陣。篇章級(jí)訓(xùn)練多頭注意力,更能獲取不同子空間的語(yǔ)義信息,提高語(yǔ)義消除歧義能力,提高翻譯質(zhì)量。
采用兩步訓(xùn)練法:
(1)訓(xùn)練一個(gè)標(biāo)準(zhǔn)的自注意翻譯模型(句子級(jí)別和篇章級(jí)別語(yǔ)料);
(2)訓(xùn)練新加入的模塊(篇章級(jí)別的語(yǔ)料訓(xùn)練)。
圖8 左側(cè)列上下文編碼器端第一個(gè)子層是多頭自注意力:
第二個(gè)子層是前饋神經(jīng)網(wǎng)絡(luò):
圖8中間列的編碼器端第一層是多頭自注意力:
第二層是上下文注意力,將篇章上下文集成到編碼器:
第三層是前饋神經(jīng)網(wǎng)絡(luò):
圖8右側(cè)列的解碼器用來(lái)計(jì)算目標(biāo)端的表示:
第一層是多頭自我注意力:
第二層是上下文注意力,將篇章上下文集成到編碼器中:
第三層是編碼器-解碼器注意力:
第四層是前饋神經(jīng)網(wǎng)絡(luò):
式中,n=1,2,…,Nt;Y∈RD×j;T(0)=Y。
通過(guò)BLUE 值來(lái)證明篇章上下文語(yǔ)境方法能夠提高蒙漢翻譯性能。本文采用了兩個(gè)數(shù)據(jù)集來(lái)進(jìn)行實(shí)驗(yàn)驗(yàn)證。
(1)內(nèi)蒙古大學(xué)開(kāi)發(fā)的67 288句對(duì)蒙漢雙語(yǔ)平行語(yǔ)料,數(shù)據(jù)集劃分如表1 所示,隨機(jī)選取1 000 句為驗(yàn)證集,800 句為測(cè)試集。從65 488 句訓(xùn)練集里選擇具有上下文關(guān)系的篇章語(yǔ)料庫(kù),如表2 所示,在本文使用的語(yǔ)料庫(kù)里共選擇出35 個(gè)具有上下文關(guān)系的篇章語(yǔ)料庫(kù),涉及到小說(shuō)、對(duì)話等,其中篇章上下文語(yǔ)料共有34 784句對(duì)。
表1 數(shù)據(jù)集1語(yǔ)料庫(kù)的劃分
表2 篇章上下文數(shù)據(jù)
(2)CWMT 去重校正后的118 502 句對(duì)蒙漢平行語(yǔ)料劃分如表3所示,隨機(jī)選取1 500句為驗(yàn)證集,1 000句為測(cè)試集。從116 002句訓(xùn)練集里選擇具有上下文關(guān)系的篇章語(yǔ)料庫(kù),如表2 所示,在本文使用的語(yǔ)料庫(kù)里共有37個(gè)具有上下文關(guān)系的篇章語(yǔ)料庫(kù),涉及到小說(shuō)、對(duì)話等,其中篇章上下文語(yǔ)料共有29 702句平行語(yǔ)料庫(kù)。
表3 數(shù)據(jù)集2語(yǔ)料庫(kù)的劃分
本文使用谷歌開(kāi)源系統(tǒng)庫(kù)Tensor2Tensor的Transformer的神經(jīng)機(jī)器翻譯系統(tǒng)作為實(shí)驗(yàn)的基準(zhǔn)系統(tǒng)。篇章級(jí)機(jī)器翻譯選用清華大學(xué)自然語(yǔ)言處理小組開(kāi)發(fā)的機(jī)器翻譯庫(kù)THUMT。本文使用系統(tǒng)為Ubuntu 16.04,語(yǔ)言為python 2.7.0,TensorFlow 版本為1.6.0。參數(shù)設(shè)置如下:隱藏層大小設(shè)置為512,多頭注意力的頭數(shù)設(shè)置為8,編碼器解碼器的層數(shù)設(shè)置為6層,上下文編碼器的網(wǎng)絡(luò)層數(shù)設(shè)置為1層,使用Adam進(jìn)行參數(shù)優(yōu)化,本文還對(duì)輸出層采用dropout方法以加強(qiáng)神經(jīng)網(wǎng)絡(luò)的泛化能力。本文采用批量式方法對(duì)參數(shù)進(jìn)行更新,大小設(shè)置為120,本文將束搜索的大小設(shè)置為10。迭代步數(shù)設(shè)置為100 000步,batch-size 設(shè)置為 6 250,用 mult-bleu.per 腳本評(píng)測(cè)翻譯性能BLUE值。
為了驗(yàn)證篇章上下文方法能提高翻譯的質(zhì)量,分別選用兩個(gè)數(shù)據(jù)集來(lái)進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表4所示。
表4 BLUE值
如表4 所示,在67 288 句平行語(yǔ)料庫(kù)里,在測(cè)試集上句子級(jí)別的翻譯模型BLUE值為21.3,加入篇章上下文語(yǔ)境以后 BLUE 達(dá)到了 22.2,提升了 0.9 個(gè) BLUE 值。在118 502 句對(duì)平行語(yǔ)料庫(kù)中,句子級(jí)別的翻譯模型BLUE 值為29.5,加入篇章上下文語(yǔ)境以后BLUE 達(dá)到了30.0,提升了0.5個(gè)BLUE值。
用一個(gè)例子來(lái)說(shuō)明加入篇章上下文語(yǔ)境以后如何幫助翻譯。例如英文單詞“address”,如果沒(méi)有上下文,很難消除“address”的歧義,而加入篇章上下文語(yǔ)境以后,“address”可以很好地從上下文的“speech”推斷出來(lái)是“演講”的意思。這個(gè)例子表明本文的模型通過(guò)整合篇章上下文來(lái)學(xué)習(xí)解決詞義歧義問(wèn)題進(jìn)而幫助翻譯。
通過(guò)本文實(shí)驗(yàn)表明,在兩種語(yǔ)料中,加入篇章上下文方法的蒙漢神經(jīng)機(jī)器翻譯相比于句子級(jí)別的蒙漢神經(jīng)機(jī)器翻譯BLUE值確實(shí)有提升,證明篇章上下文方法確實(shí)能夠提升機(jī)器翻譯的效果,但是提升效果不是特別明顯,大概提升了0.5~1個(gè)BLUE值,對(duì)此認(rèn)為并不是加入篇章上下文語(yǔ)境技術(shù)后對(duì)翻譯結(jié)果提升效果小,而是由于在蒙漢平行語(yǔ)料中,篇章上下文語(yǔ)料數(shù)據(jù)太少,如果句子級(jí)平行語(yǔ)料數(shù)據(jù)和篇章級(jí)語(yǔ)料數(shù)據(jù)有數(shù)量級(jí)差或者主題存在差異時(shí),訓(xùn)練會(huì)不太穩(wěn)定。故下一步擬爬取數(shù)量更多、質(zhì)量更好的蒙漢篇章上下文并行語(yǔ)料庫(kù)來(lái)進(jìn)一步提升翻譯效果。