桑杰端珠,才讓加
(1. 青海師范大學(xué) 計(jì)算機(jī)學(xué)院,青海 西寧 810000;2. 青海師范大學(xué) 藏語(yǔ)智能信息處理及應(yīng)用國(guó)家重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810000)
目前神經(jīng)機(jī)器翻譯(Neural Machine Translation,NMT)[1-3]已經(jīng)成為最主流機(jī)器翻譯方法,在性能上全方位超越傳統(tǒng)短語(yǔ)統(tǒng)計(jì)翻譯模型(Statistical Machine Translation,SMT)[4],并成為工業(yè)界機(jī)器翻譯服務(wù)系統(tǒng)的標(biāo)準(zhǔn)實(shí)現(xiàn)方法[5],甚至研究者聲稱(chēng)在特定領(lǐng)域和語(yǔ)言對(duì)上NMT的性能可以接近甚至超越人類(lèi)的翻譯水平[6]。與SMT不同的是,NMT以端到端風(fēng)格的建模方式將翻譯決策過(guò)程視為單個(gè)條件概率模型的參數(shù)估計(jì)過(guò)程,從而摒棄了SMT不同組件獨(dú)立優(yōu)化各自訓(xùn)練目標(biāo)的建模范式。但是目前NMT卓越的性能表現(xiàn)是以具備大規(guī)模、高質(zhì)量和多領(lǐng)域?qū)R數(shù)據(jù)為重要前提的,受制于市場(chǎng)規(guī)模較小、數(shù)據(jù)標(biāo)注成本高昂等客觀因素,現(xiàn)階段藏漢機(jī)器翻譯的質(zhì)量距離漢英等主流語(yǔ)言存在巨大的差距。
在對(duì)齊數(shù)據(jù)受限的條件下,對(duì)于多數(shù)語(yǔ)言,單語(yǔ)數(shù)據(jù)的來(lái)源相對(duì)較為廣泛且容易收集,研究者自然地探索了各類(lèi)在NMT框架內(nèi)有效利用目標(biāo)端和源端單語(yǔ)數(shù)據(jù)的方法。其中最簡(jiǎn)單和直接的是回譯方法[7],該方法利用監(jiān)督式方法訓(xùn)練一個(gè)初始的反向模型,將目標(biāo)端的單語(yǔ)數(shù)據(jù)進(jìn)行翻譯,用于擴(kuò)充訓(xùn)練正向模型的數(shù)據(jù)?;刈g方法不僅能改善低資源場(chǎng)景下的翻譯性能,同時(shí)在富資源場(chǎng)景中也能緩解領(lǐng)域適應(yīng)等問(wèn)題[8]?;刈g方法要求初始回譯模型本身有較高的性能,但是在現(xiàn)實(shí)中很多低資源語(yǔ)言的對(duì)齊數(shù)據(jù)無(wú)法保證初始回譯模型的性能。
近年來(lái),受到計(jì)算機(jī)視覺(jué)研究的啟發(fā)[9],在未標(biāo)注的海量文本數(shù)據(jù)、高階的分布式優(yōu)化方案、強(qiáng)大的序列學(xué)習(xí)模型和高性能計(jì)算加速設(shè)備的共同加持下自監(jiān)督式預(yù)訓(xùn)練(Self-supervised Pretraining)模型[10-12]激起了自然語(yǔ)言處理(Natural Language Processing, NLP)領(lǐng)域內(nèi)的研究熱潮。預(yù)訓(xùn)練模型使研究者可以不用從頭訓(xùn)練昂貴和復(fù)雜的大規(guī)模模型,直接使用現(xiàn)有預(yù)訓(xùn)練模型在下游目標(biāo)任務(wù)上結(jié)合任務(wù)自身特點(diǎn)進(jìn)行微調(diào),就往往可以獲得比監(jiān)督式訓(xùn)練更好的性能表現(xiàn)。在諸多的預(yù)訓(xùn)練模型中,具有代表性的包括掩碼語(yǔ)言模型(Masked Language Model, MLM) BERT[10]、自回歸語(yǔ)言模型(Autoregressive Language Model, ALM) GPT[13]、置換語(yǔ)言模型(Permuted Language Model, PLM)XLNet[14]、降噪自編碼器模型(Denoising Auto Encoder,DAE)BART[15]等。其中BERT和XLNet語(yǔ)言模型是Transformer[3]的編碼器,能對(duì)語(yǔ)言序列進(jìn)行雙向的表示學(xué)習(xí),主要用于序列的語(yǔ)義理解。GPT 使用了Transformer的解碼器,結(jié)合已生成的解碼片段和當(dāng)前時(shí)刻的輸入,以自回歸的方式逐詞生成目標(biāo)序列,而B(niǎo)ART模型可以視為結(jié)合BERT和GPT泛化的預(yù)訓(xùn)練模型,與BERT和GPT不同的是,BART模型采用序列到序列的建模方式,使用單個(gè)Transformer模型對(duì)編碼器端完成各類(lèi)加噪操作的輸入序列在解碼器端完成重構(gòu),通過(guò)降噪自編碼為優(yōu)化目標(biāo),完成整個(gè)解碼器和編碼器的聯(lián)合預(yù)訓(xùn)練,然后在下游的目標(biāo)任務(wù)上通過(guò)標(biāo)注數(shù)據(jù)進(jìn)行微調(diào),非常適合于機(jī)器翻譯和知識(shí)問(wèn)答等采用編碼器-解碼器構(gòu)架的建模任務(wù)。BART是針對(duì)單一語(yǔ)言(英語(yǔ))的預(yù)訓(xùn)練,而隨后提出的mBART[16]則是將BART的建模方式擴(kuò)展到多語(yǔ)言場(chǎng)景下,完成多語(yǔ)言模型的預(yù)訓(xùn)練。同樣是采用BART訓(xùn)練目標(biāo)的M2M-100[17]更是進(jìn)一步擴(kuò)大了所覆蓋的語(yǔ)言種類(lèi),支持100個(gè)語(yǔ)言之間的多對(duì)多翻譯。對(duì)于藏文這種低資源語(yǔ)言而言,多語(yǔ)言預(yù)訓(xùn)練是一個(gè)非常具有吸引力的設(shè)想,因?yàn)槌酥С侄嗾Z(yǔ)言翻譯外,M2M-100級(jí)別的大規(guī)模預(yù)訓(xùn)練模型本身能夠有效支持通用語(yǔ)義知識(shí)的遷移。但是mBART和M2M-100的訓(xùn)練都沒(méi)有包含藏文。本文旨在探索訓(xùn)練BART風(fēng)格的藏漢翻譯預(yù)訓(xùn)練模型的有效方法,為后續(xù)的藏語(yǔ)多語(yǔ)言翻譯課題提供研究基礎(chǔ)。
BART在預(yù)訓(xùn)練過(guò)程中主要學(xué)習(xí)當(dāng)前輸入語(yǔ)言的表示和分布,缺乏雙語(yǔ)對(duì)齊監(jiān)督信號(hào)的直接參與,沒(méi)有顯式地學(xué)習(xí)語(yǔ)言對(duì)之間的映射關(guān)系。這種預(yù)訓(xùn)練方式不利于平行資源匱乏的藏漢語(yǔ)言對(duì)的預(yù)訓(xùn)練效果??紤]到雙語(yǔ)詞典是重要的先驗(yàn)知識(shí)來(lái)源,人類(lèi)語(yǔ)言學(xué)習(xí)者在學(xué)習(xí)一門(mén)新語(yǔ)言時(shí),往往會(huì)借助雙語(yǔ)詞典探索所要學(xué)習(xí)的語(yǔ)言,通過(guò)詞典建立新語(yǔ)言和其他已掌握的語(yǔ)言之間的關(guān)聯(lián)。人類(lèi)翻譯人員也會(huì)使用雙語(yǔ)詞典推敲用詞、查詢(xún)專(zhuān)業(yè)詞匯,以改善翻譯工作的質(zhì)量。此外,受到跨語(yǔ)言交流過(guò)程中使用混合語(yǔ)言往往能夠增加溝通效率[18]這一現(xiàn)象的啟發(fā),本文提出了一種基于雙語(yǔ)詞典注入的藏漢預(yù)訓(xùn)練翻譯模型的訓(xùn)練方法,即基于詞典注入的藏漢機(jī)器翻譯預(yù)訓(xùn)練模型(Pretrained Translation Model with Dictionary Injection, PTMDI)。通過(guò)構(gòu)建較大規(guī)模的雙語(yǔ)詞典,然后利用詞典對(duì)大規(guī)模的藏漢單語(yǔ)數(shù)據(jù)進(jìn)行跨語(yǔ)言數(shù)據(jù)注入,以降噪自編碼為訓(xùn)練目標(biāo)完成藏漢機(jī)器翻譯模型的預(yù)訓(xùn)練。詞典的數(shù)據(jù)注入如表1所示。
表1 詞典的數(shù)據(jù)注入樣例
圖1 BART的加噪方法示意圖
在規(guī)模分別為6.9M和5.2M句子規(guī)模的藏漢單語(yǔ)數(shù)據(jù)、500K句對(duì)的藏漢平行數(shù)據(jù)和314K詞條雙語(yǔ)詞典的數(shù)據(jù)設(shè)定下,本文中的PTMDI模型在藏漢和漢藏翻譯方向的測(cè)試集上的BLEU值比BART這一強(qiáng)基準(zhǔn)模型分別高出2.3和2.1,充分證實(shí)了本文所提出的預(yù)訓(xùn)練方法在藏漢機(jī)器翻譯任務(wù)上的有效性。
綜上,本文的貢獻(xiàn)為:
(1) 考慮到雙語(yǔ)詞典能在預(yù)訓(xùn)練過(guò)程中提供有效的監(jiān)督信號(hào),同時(shí)受跨語(yǔ)言交流中使用混合的多語(yǔ)言詞匯能提高溝通效率這一現(xiàn)象啟發(fā),提出一種利用藏漢雙語(yǔ)詞典和藏漢單語(yǔ)數(shù)據(jù)進(jìn)行詞典注入的機(jī)器翻譯預(yù)訓(xùn)練方法,即PTMDI;
(2) 在通過(guò)與包括監(jiān)督式Transformer、回譯、BART的性能對(duì)比實(shí)驗(yàn),證實(shí)本文提出的PTMDI方法在測(cè)試數(shù)據(jù)集上比各類(lèi)基準(zhǔn)模型均有大幅性能提升;
(3) 由于使用了藏漢雙語(yǔ)詞典,本文提出的PTMDI模型適用于翻譯模型的領(lǐng)域適應(yīng)問(wèn)題,能夠借助領(lǐng)域詞典和單語(yǔ)數(shù)據(jù)學(xué)習(xí)平行數(shù)據(jù)中缺乏的翻譯知識(shí)。
近年來(lái),隨著人工智能領(lǐng)域技術(shù)的迅猛發(fā)展和日益密切的跨語(yǔ)言交流需求,藏漢機(jī)器翻譯技術(shù)取得了長(zhǎng)足發(fā)展。和其他低資源機(jī)器翻譯研究課題一樣,藏漢機(jī)器翻譯的研究集中在致力于在平行數(shù)據(jù)資源受限的條件下探索提高機(jī)器翻譯性能的方法。其中包括優(yōu)化藏漢翻譯模型的詞表大小和分布[20-21],利用大規(guī)模單語(yǔ)數(shù)據(jù)進(jìn)行迭代式回譯[22]、遷移學(xué)習(xí)[23]、融合藏文多層次先驗(yàn)特征[24]、融合目標(biāo)端語(yǔ)言模型的方法[25]等。此外,還有一些與藏文預(yù)訓(xùn)練語(yǔ)言模型相關(guān)的研究工作,比如中國(guó)少數(shù)民族預(yù)訓(xùn)練語(yǔ)言模型CINO[26]。該模型使用了XLM-R[27]風(fēng)格的預(yù)訓(xùn)練方法,是至迄今為止規(guī)模最大的支持藏文的公開(kāi)跨語(yǔ)言預(yù)訓(xùn)練語(yǔ)言模型。CINO雖然只在文本分類(lèi)任務(wù)上進(jìn)行了測(cè)試和驗(yàn)證,由于該模型可以進(jìn)行跨語(yǔ)言的表示,所以可以用于初始化藏漢機(jī)器翻譯的解碼器、編碼器或者整個(gè)模型的參數(shù)。
給定源端句子x={x1,…,xN}和目標(biāo)端句子y={y1,…,yM},NMT將句子級(jí)別的翻譯概率建模問(wèn)題轉(zhuǎn)換為詞級(jí)別的條件概率的積,如式(1)所示。
(1)
其中,θ為模型所要估計(jì)的參數(shù),y2.2 機(jī)器翻譯預(yù)訓(xùn)練模型
類(lèi)BERT掩碼語(yǔ)言模型能夠?qū)π蛄械碾p向上下文表示進(jìn)行建模,但是其訓(xùn)練是按照分類(lèi)任務(wù)進(jìn)行的,即將編碼器的輸出輸入到Softmax層預(yù)測(cè)被掩碼的詞在整個(gè)詞表上的概率分布。類(lèi)GPT自回歸模型和傳統(tǒng)的語(yǔ)言模型的訓(xùn)練方式一致,即通過(guò)當(dāng)前已生成序列的信息預(yù)測(cè)下一個(gè)詞。BART將類(lèi)似BERT具有雙向表示能力的構(gòu)架作為編碼器學(xué)習(xí)加噪序列的表示,而將類(lèi)似于GPT的自回歸構(gòu)架運(yùn)用于解碼器,用于逐詞生成原始未加噪的序列。其訓(xùn)練的優(yōu)化目標(biāo)為在整個(gè)訓(xùn)練集D上加噪序列片段與原始序列片段的似然概率,即:
(2)
其中,N(x)表示加噪函數(shù),BART在預(yù)訓(xùn)練過(guò)程中采用了多個(gè)加噪方法,包括:①詞的遮蔽; ②句子順序擾動(dòng); ③文檔轉(zhuǎn)換; ④詞刪除; ⑤序列片段替換等,這些加噪方法的示意如圖1所示。
PTMDI的預(yù)訓(xùn)練沿用了BART加噪并重構(gòu)的建模方法,但是與BART不同的是PTMDI中詞典注入代替了各類(lèi)加噪方案。詞典的注入不僅能起到加噪的作用,同時(shí)也在客觀上要求編碼器學(xué)習(xí)跨語(yǔ)言的聯(lián)合表示。本文在完成詞典注入的單語(yǔ)數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練之后,在規(guī)模為500K的平行數(shù)據(jù)上進(jìn)行微調(diào)。具體的預(yù)訓(xùn)練和微調(diào)的示意圖如圖2和圖3所示??紤]到收集的雙語(yǔ)詞典的詞條大部分為名詞,在進(jìn)行詞典注入時(shí)優(yōu)先替換單語(yǔ)數(shù)據(jù)中的名詞,同時(shí)保證被替換的詞的數(shù)量不超過(guò)整個(gè)句子詞長(zhǎng)度的15%。
圖2 預(yù)訓(xùn)練過(guò)程
圖3 微調(diào)過(guò)程
因?yàn)榫幋a器需要學(xué)習(xí)藏漢兩種語(yǔ)言的表示,需要模型有更大的學(xué)習(xí)容量,所以本文中使用了解碼器更深的網(wǎng)絡(luò)構(gòu)架。此外,編碼器的表示和理解性能相對(duì)而言比解碼器的自回歸生成和掩碼自編碼性能,對(duì)翻譯最終表現(xiàn)有更加重要的影響[28],因而在多語(yǔ)言機(jī)器翻譯任務(wù)中研究者有使用較深的編碼器、較淺的解碼器的應(yīng)用實(shí)踐[29],在翻譯性能不退化的前提下,提高翻譯速度。
PTMDI訓(xùn)練方法能通過(guò)注入詞典的方式進(jìn)行翻譯模型的預(yù)訓(xùn)練,因?yàn)樵~典的對(duì)齊特性使得模型在預(yù)訓(xùn)練階段就開(kāi)始進(jìn)行跨語(yǔ)言的信息交互,學(xué)習(xí)跨語(yǔ)言信息的關(guān)聯(lián)。此外,這種詞典注入方式使得離散的詞典特征能夠很好地整合到端到端序列學(xué)習(xí)的連續(xù)過(guò)程中,是一種在機(jī)器翻譯模型中有效融合先驗(yàn)知識(shí)的方法。考慮到相較于特定領(lǐng)域內(nèi)的對(duì)齊數(shù)據(jù),領(lǐng)域詞典和領(lǐng)域單語(yǔ)數(shù)據(jù)比較容易獲取和收集,所以PTMDI也是一種能以較為低廉的代價(jià)進(jìn)行機(jī)器翻譯領(lǐng)域適應(yīng)的方法,尤其是適用于藏漢語(yǔ)言對(duì)這樣的低資源機(jī)器翻譯任務(wù)。
3.1.1 詞典
為使藏漢雙語(yǔ)詞典涵蓋較為廣泛的領(lǐng)域,尤其是學(xué)習(xí)到受限的藏漢對(duì)齊文本之外的翻譯知識(shí),本文使用藏漢、漢藏、藏英、英藏四個(gè)方向的雙語(yǔ)詞典資源和利用統(tǒng)計(jì)詞對(duì)齊工具FastAlign[30]在藏漢平行數(shù)據(jù)中獲取的藏漢對(duì)齊詞表。其中所有詞典數(shù)據(jù)中只提取有單個(gè)釋義的詞條。另外,對(duì)于藏英、英藏詞典,先將英文通過(guò)Google在線(xiàn)翻譯系統(tǒng)翻譯為漢文,然后再進(jìn)行篩選處理;對(duì)于統(tǒng)計(jì)對(duì)齊詞表設(shè)定篩選的詞,對(duì)齊概率閾值為0.3;若有多個(gè)超過(guò)該閾值的對(duì)齊詞表項(xiàng),則隨機(jī)選擇。詞典詞源的統(tǒng)計(jì)信息見(jiàn)表2,藏漢和漢藏詞典的領(lǐng)域包括日常用詞、法律、生物、化學(xué)、醫(yī)療、數(shù)學(xué)、計(jì)算機(jī)等,藏英和英藏詞典則主要是日常用詞。對(duì)如表2所示的總計(jì)384 654個(gè)篩選的詞條進(jìn)行正則化和去重處理之后,最終獲得 314 500 個(gè)獨(dú)立詞條。
表2 詞典資源統(tǒng)計(jì)表
3.1.2 雙語(yǔ)數(shù)據(jù)
與英文等具有顯式的詞分隔符不同,如藏文和漢文如果直接使用純粹基于頻率統(tǒng)計(jì)的子詞分詞方法,將可能會(huì)生成大量在語(yǔ)言學(xué)上無(wú)實(shí)際意義的子詞結(jié)構(gòu),這一現(xiàn)象對(duì)藏文這種拼音文字尤其明顯。在低資源的機(jī)器翻譯任務(wù)設(shè)定中,這些冗余的子詞使得機(jī)器翻譯模型需要學(xué)習(xí)額外的構(gòu)詞規(guī)律,在客觀上加大了模型的學(xué)習(xí)負(fù)擔(dān)。除了低資源機(jī)器翻譯任務(wù)之外,涉及漢文、日文、朝鮮文等語(yǔ)言的富資源機(jī)器翻譯任務(wù)中一般也采用先分詞再學(xué)習(xí)子詞的數(shù)據(jù)預(yù)處理流程[31]。本文中數(shù)據(jù)的預(yù)處理也是采用了這種策略,漢文分詞使用了jieba(1)https://github.com/fxsjy/jieba分詞工具進(jìn)行分詞,藏文分詞采用了文獻(xiàn)[32]提出的藏文分詞方法。對(duì)文本進(jìn)行分詞處理之后使用Sentence-Piece(2)https://github.com/google/sentencepiece[33]進(jìn)行子詞學(xué)習(xí)。為了過(guò)濾平行數(shù)據(jù)中的噪聲樣本,本文通過(guò)fasttext(3)https://github.com/facebookresearch/fastText[34]中的語(yǔ)言標(biāo)識(shí)模型去除藏文句子中的漢文和漢文句子中的藏文,同時(shí)也刪除了數(shù)據(jù)樣本中的非Unicode字符。本文限制了對(duì)齊句對(duì)的最大長(zhǎng)度為120個(gè)詞,同時(shí)剔除了藏漢詞長(zhǎng)度比大于4的句對(duì)。通過(guò)去重方法保證訓(xùn)練集、驗(yàn)證集和測(cè)試集沒(méi)有交集。最終的藏漢平行數(shù)據(jù)規(guī)模如表3所示。
表3 平行數(shù)據(jù)和單語(yǔ)數(shù)據(jù)規(guī)模
3.1.3 單語(yǔ)數(shù)據(jù)
由于用于微調(diào)的平行數(shù)據(jù)主要是新聞?lì)I(lǐng)域的,為了更加有效的模型訓(xùn)練,本文在收集藏語(yǔ)和漢語(yǔ)的單語(yǔ)數(shù)據(jù)時(shí)也使用了新聞?lì)I(lǐng)域的數(shù)據(jù)。單語(yǔ)數(shù)據(jù)的主要來(lái)源是各類(lèi)藏文新聞網(wǎng)站和這些網(wǎng)站對(duì)應(yīng)漢文網(wǎng)站的對(duì)應(yīng)欄目,以完成數(shù)據(jù)更好的領(lǐng)域適配。單語(yǔ)數(shù)據(jù)的預(yù)處理方式和平行數(shù)據(jù)的預(yù)處理方式是一致的,也是先分詞,再學(xué)習(xí)子詞。在進(jìn)行正則去噪、去重等預(yù)處理之后,最終保留的藏文和漢文單語(yǔ)數(shù)據(jù)的規(guī)模分別為6.9M和5.2M。
本文中所有模型的訓(xùn)練和測(cè)試都是基于Fairseq(4)https://github.com/pytorch/fairseq/[35]框架實(shí)現(xiàn)的,使用了4張Nvidia Quadro P1000 GPU?;鶞?zhǔn)模型中純監(jiān)督式模型和回譯模型使用了6層的Transformer編碼器和解碼器;藏文和漢文的詞表大小分別為8K和9K。PTMDI 模型使用了10層的Transformer編碼器和6層的Transformer解碼器,編碼器共享了藏語(yǔ)和漢語(yǔ)的詞表,解碼器使用了獨(dú)立的對(duì)應(yīng)目標(biāo)語(yǔ)言的詞表。所有模型解碼器和編碼器的嵌入維度為512,編碼器和解碼器的前饋網(wǎng)絡(luò)的維度為2 048,使用了Adam優(yōu)化器進(jìn)行參數(shù)優(yōu)化,初始學(xué)習(xí)率設(shè)置為0.001,學(xué)習(xí)率衰減函數(shù)選用了平方根倒數(shù),批處理大小為4 096個(gè)詞,所有的模型都訓(xùn)練了60輪次。
表4列出了純監(jiān)督式Transformer模型、回譯模型、BART和PTMDI模型在測(cè)試集上的最終BLUE的測(cè)定值。從表中可以看出,本文中的PTMDI模型比BART這一強(qiáng)基準(zhǔn)模型在藏漢和漢藏翻譯任務(wù)上BLEU值分別高出2.3和2.1,用實(shí)證方法證實(shí)了PTMDI在藏漢機(jī)器翻譯任務(wù)上的有效性。此外從圖4中模型在驗(yàn)證集上的BLEU變化和圖5中訓(xùn)練過(guò)程中的損失變化,可以得知PTMDI模型有更好的收斂特性,證實(shí)了模型在預(yù)訓(xùn)練階段就通過(guò)詞典學(xué)習(xí)雙語(yǔ)映射關(guān)系確實(shí)能夠幫助提高微調(diào)過(guò)程中模型的學(xué)習(xí)能力。
圖5 各個(gè)模型的訓(xùn)練損失變化
表4 各個(gè)模型在測(cè)試集上 BLEU 值
從表5可以看出,在測(cè)試集樣例中的專(zhuān)業(yè)詞匯“食用菌”和“羊肚菌”在PTMDI模型中被較為準(zhǔn)確地譯出,且譯文更加流暢。
表5 測(cè)試集中的譯文樣例
除了驗(yàn)證模型在雙語(yǔ)數(shù)據(jù)的領(lǐng)域有良好性能之外,本文還對(duì)其他跨領(lǐng)域場(chǎng)景下的性能進(jìn)行了測(cè)試,如表6所示的是測(cè)試所有模型在計(jì)算機(jī)科學(xué)領(lǐng)域表現(xiàn)的一個(gè)樣例,從該譯文樣例中可以發(fā)現(xiàn)比如匯編、編譯器等雙語(yǔ)平行數(shù)據(jù)中不存在的詞條也被準(zhǔn)確翻譯出來(lái)。說(shuō)明PTMDI確實(shí)在預(yù)訓(xùn)練過(guò)程中挖掘了先驗(yàn)的雙語(yǔ)詞典內(nèi)的翻譯知識(shí)。
表6 跨領(lǐng)域的譯文樣例
本文受到雙語(yǔ)交流中混和語(yǔ)言能有效增進(jìn)交流這一現(xiàn)象啟發(fā),利用多個(gè)領(lǐng)域的藏漢雙語(yǔ)詞典和百萬(wàn)句子級(jí)別的藏漢單語(yǔ)數(shù)據(jù),以BART風(fēng)格降噪自編碼為訓(xùn)練目標(biāo),通過(guò)在單語(yǔ)數(shù)據(jù)中有效注入詞典,進(jìn)行藏漢跨語(yǔ)言模型的預(yù)訓(xùn)練,并在已有藏漢平行數(shù)據(jù)上進(jìn)行微調(diào)。經(jīng)過(guò)廣泛的實(shí)驗(yàn)驗(yàn)證,本文中的方法比BART強(qiáng)基準(zhǔn)模型在測(cè)試集上的BLUE值在藏漢和漢藏方向上分別提高2.3和2.1。結(jié)合利用更大規(guī)模的單語(yǔ)數(shù)據(jù),更加準(zhǔn)確有效的詞典注入方式,混合BART和詞典注入的訓(xùn)練方法,應(yīng)該可以更進(jìn)一步提高藏漢翻譯的性能,我們將在未來(lái)的工作中繼續(xù)進(jìn)行研究和探索。此外,本文方法能為后續(xù)一到多、多到一、多到多等藏文多語(yǔ)言翻譯課題提供可靠的研究基礎(chǔ)。