亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于跨語種預訓練語言模型XLM-R的神經機器翻譯方法

        2022-02-21 05:14:34王倩李茂西吳水秀王明文
        北京大學學報(自然科學版) 2022年1期
        關鍵詞:源語言目標語言解碼器

        王倩 李茂西 吳水秀 王明文

        基于跨語種預訓練語言模型XLM-R的神經機器翻譯方法

        王倩 李茂西?吳水秀 王明文

        江西師范大學計算機信息工程學院, 南昌 330022; ?通信作者, E-mail: mosesli@jxnu.edu.cn

        探索將 XLM-R 跨語種預訓練語言模型應用在神經機器翻譯的源語言端、目標語言端和兩端, 提高機器翻譯的質量。提出 3 種網絡模型, 分別在 Transformer 神經網絡模型的編碼器、解碼器以及兩端同時引入預訓練的 XLM-R 多語種詞語表示。在 WMT 英語?德語、IWSLT 英語?葡萄牙語以及英語?越南語等翻譯中的實驗結果表明, 對雙語平行語料資源豐富的翻譯任務, 引入 XLM-R 可以很好地對源語言句子進行編碼, 從而提高翻譯質量; 對雙語平行語料資源匱乏的翻譯任務, 引入 XLM-R 不僅可以很好地對源語言句子進行編碼, 還可以對源語言端和目標語言端的知識同時進行補充, 提高翻譯質量。

        跨語種預訓練語言模型; 神經機器翻譯; Transformer網絡模型; XLM-R模型; 微調

        近年來, 預訓練上下文語言模型(如 ELMo[1]、BERT[2]和 GPT[3?4]等)在自然語言處理領域引起越來越多的關注。它們在大量未標注的語料上進行預訓練, 獲得通用的語言表示, 然后應用到下游任務中, 并根據任務的特點進行微調[5]。這種預訓練加微調的方式不僅極大地提升下游任務的性能, 而且大幅度地降低下游任務所需標注語料的規(guī)模[6]。

        通常, 有監(jiān)督的機器翻譯僅利用雙語平行語料進行訓練, 會導致大規(guī)模的單語語料不能被充分利用。為了將在大規(guī)模單語語料上訓練獲取的通用語言知識應用于機器翻譯中, 一些學者提出利用微調或知識蒸餾等方法, 將 BERT 預訓練上下文語言模型應用于神經機器翻譯源語言端輔助源語言句子編碼, 或應用于目標語言端指導譯文生成[7?14]。但是, 這些方法僅在神經機器翻譯模型的一端(源語言端或目標語言端)使用 BERT (或mBERT[15])預訓練上下文語言模型, 而未在兩端同時使用。近年, 跨語種預訓練語言模型 XLM[16]和 XLM-R[17]蓬勃發(fā)展。與 BERT (mBERT)相比, XLM 和 XLM-R 模型在多種語言間共享詞表, 在同一嵌入空間對多種語言的詞語進行編碼, 并針對多語言環(huán)境進行優(yōu)化, 在多項多語言理解任務中的應用刷新了相應任務的最好性能記錄。

        受上述工作啟發(fā), 本文嘗試將 XLM-R 跨語種預訓練語言模型引入機器翻譯模型中, 進一步提高翻譯的質量。本文提出 3 種網絡模型, 將 XLM-R 模型應用在當前主流的神經機器翻譯框架 Transfor-mer[18]中。這 3 種網絡模型如下: 1)在源語言端引入 XLM-R 模型, 對待翻譯的句子進行編碼, 替代Transformer 編碼器; 2)在目標語言端引入 XLM-R模型, 通過額外的解碼器模塊(包括注意力機制和前饋神經網絡), 與源語言端信息進行關聯; 3)在源語言端和目標語言端同步引入 XLM-R 模型。本文還對比 3 種模型優(yōu)化策略對系統(tǒng)性能的影響, 包括凍結 XLM-R 模型參數的訓練方法、在凍結 XLM-R 模型參數訓練的基礎上再進行微調的方法以及直接優(yōu)化整個模型參數的方法。

        1 相關工作

        如何將預訓練模型整合到機器翻譯中, 前人的工作主要分為兩類。

        一類是探索如何充分利用 BERT 預訓練上下文語言模型, 輔助機器翻譯。Imamura 等[7]直接使用BERT 模型作為神經機器翻譯的編碼器, 并提出兩階段訓練策略來減輕預訓練模型的災難性遺忘問題。Weng 等[10]、Yang 等[11]和 Chen 等[12]提出使用知識蒸餾技術, 將 BERT 模型預訓練知識遷移到神經機器翻譯的編碼器或者解碼器中。Zhu 等[13]提出BERT 融合模型, 先使用 BERT 模型提取輸入句子的表示, 然后通過額外的注意力模塊, 將 BERT 模型表示與機器翻譯系統(tǒng)中編碼器和解碼器的每一層融合。Guo 等[14]提出并設計不同的輕量級神經網絡組件, 插入 BERT 模型的每一層(如前饋神經網絡模塊和注意力模塊等), 將預訓練參數和特定任務的參數解耦, 從而繞過災難性遺忘問題, 同時引入并行序列解碼算法 Mask-Predict, 以便充分利用 BERT模型, 保持訓練和解碼過程的一致性。

        由于預訓練上下文語言模型通常針對語言理解任務而設計——使用遮擋語言模型進行建模, 與機器翻譯自回歸方式(從一端逐步生成目標語言詞語的下一詞)預測任務存在差異, 因此第二種方法旨在設計適用于機器翻譯的自回歸式預訓練模型。Song 等[19]提出 MASS 預訓練模型, 它是一個基于Transformer 的序列到序列單語預訓練框架, 其中編碼器將帶有隨機遮擋單詞(幾個連續(xù)標記)的句子作為輸入, 解碼器則根據編碼器的表示來預測這些被遮擋單詞, 其輸入是編碼器中被遮擋的單詞, 該模型顯著地提升了無監(jiān)督機器翻譯的性能。Lewis 等[20]提出 BART 預訓練模型, 其架構與 MASS 相同, 但訓練方式有所不同, 編碼器輸入被破壞的文本(使用 5 種噪聲函數對文本進行破壞), 解碼器根據編碼器的表示來恢復原始文本, 該模型在語言理解和文本生成任務中都取得較好的結果。Liu 等[21]提出mBART 多語言預訓練模型, 旨在將 BART 應用于多種語言的大規(guī)模單語語料庫, 其模型架構和預訓練方式與 BART 相同, 該模型能夠在句子級和文檔級別上顯著地改善有監(jiān)督和無監(jiān)督的機器翻譯。

        本文與上述工作不同, 我們分別在 Transformer的編碼器、解碼器以及兩端同時引入最新的 XLM-R 跨語種預訓練上下文語言模型, 通過 XLM-R 語言模型初始化表示源語言句子或目標語言句子中的詞語, 使用適用的網絡結構提高機器翻譯的質量。

        2 背景知識

        2.1 Transformer 網絡模型

        Transformer 模型采用編碼器?解碼器架構(Encoder-Decoder), 其中編碼器和解碼器均由 6 個堆疊的編碼器層和解碼器層組成。編碼器將輸入序列=(1,2, …,)抽象成源語言句子的中間表示張量=(1,2, …,), 解碼器根據, 以自回歸的方式從左向右逐步生成目標語言句子=(1,2, …,), 計算公式如下:

        其中,為模型的未知參數, 在雙語平行語料上訓練獲取。

        2.2 XLM-R 跨語種預訓練語言模型

        XLM-R 跨語種預訓練語言模型是在 Common Crawl 大型語料上過濾的 2.5TB 文本數據上訓練形成, 支持 100 種語言。其網絡上層采用 Transformer編碼器架構(層數為 12 或 24), 因此它與 Transfor-mer 模型具有天然的兼容性, 可以方便地引入神經機器翻譯中。

        XLM-R 模型的架構如圖 1 所示, 與一般預訓練上下文語言模型的差異表現在以下 3 個方面。1)它的輸入是任意數量的句子組成的文本流(同種語言), 而不是兩個句子組成的文本對(如 BERT 模型); 2)訓練時, 每一步涵蓋所有語言, 每種語言為一個批次; 3)它的訓練目標是多語種遮擋語言模型, 根據當前詞的上下文預測當前詞, 類似完型填空任務, 與機器翻譯任務中目標語言句子詞語的從左向右自回歸生成方式不同。

        3 引入 XLM-R 知識的 Transformer 網絡模型

        為了引入 XLM-R 模型在多種語言文本的大規(guī)模語料上訓練獲取的單語知識, 本文提出 3 種方式改進傳統(tǒng)的 Transformer 模型, 在編碼端、解碼端以及兩端逐步引入源語言句子的 XLM-R 模型和目標語言句子的 XLM-R 模型, 并引入源語言句子和目標語言句子的 XLM-R 模型, 分別簡稱為 XLM-R_ ENC 模型、XLM-R_DEC 模型和 XLM-R_ENC& DEC 模型。

        3.1 XLM-R_ENC 模型

        XLM-R 模型采用 Transformer 編碼器的結構對文本進行抽象表示, 其輸入文本和輸出張量格式與Transformer 編碼器相同。為了將源語言端預訓練的 XLM-R 模型引入 Transformer 編碼器, 我們嘗試過兩種方式: 1)將 XLM-R 模型作為特征提取器放在 Transformer 編碼器的底部, 用來初始化表示源語言句子中的詞語; 2)用 XLM-R 模型替代 Transfomer編碼器。第一種方式不僅擴大了模型的規(guī)模, 增加訓練成本, 且容易造成預訓練知識的災難性遺忘。因此, 本文采用第二種方式, 改進的編碼器結構如圖 2 左側所示, 解碼器采用原始的 Transformer 解碼器結構, 改進的編碼器形式化表示如下:

        , (3)

        XLM-R_ENC 模型的編碼器與原始 Transformer編碼器的主要區(qū)別在于, XLM-R_ENC 模型使用預先訓練好的 XLM-R 模型作為編碼器, 可提供額外的通用知識, 并且所有語言統(tǒng)一采用基于一元文法語言模型的子詞切分方法[22]對多語種文本進行切分, 以便在多語種文本間共享詞表。因此, 在將XLM-R 模型應用于編碼端時, 使用相同的子詞切分方法對源語言句子進行子詞切分。

        3.2 XLM-R_DEC模型

        為了將目標語言端的預訓練知識引入神經機器翻譯, 本文探索將目標語言 XLM-R 模型引入Transformer 解碼端。XLM-R 模型使用多語種遮擋語言模型進行訓練, 其多頭注意力中的詞語遮擋矩陣如圖 3(a)所示。我們用數字 1 表示信息可見,0表示信息不可見。在神經機器翻譯中, 翻譯當前詞時只能看到前面已經翻譯的詞語, 不能看到未翻譯的詞語, 因此對 XLM-R 模型中的遮擋矩陣進行修改(圖 3(b)), 以便模擬翻譯時從左向右自回歸的生成譯文中詞語。

        圖1 XLM-R模型架構

        圖2 XLM-R_ENC&DEC模型架構

        圖3 兩種不同的遮擋方式

        在模型架構方面, 我們嘗試直接使用改進遮擋方式的 XLM-R 模型作為解碼器; 或者在其基礎上引入源語言信息的 XLM-R 模型作為解碼器, 如圖 2右側所示, 在 XLM-R 模型頂部構建額外的 6 層解碼器子網絡 Add_Dec, 包括編碼器-解碼器融合層和前饋神經網絡層, 以便將目標語言句子知識與源語言句子知識關聯。初步實驗結果表明, 在解碼時關聯源語言信息可以更好地生成譯文, 故采用第二種方式改進解碼器結構, 編碼器則采用原始的 Trans-former 編碼器結構。改進的解碼器形式化表示如下:

        3.3 XLM-R_ENC&DEC 模型

        為了在源語言端和目標語言端同步引入 XLM-R 模型, 我們聯合 XLM-R_ENC 模型以及 XLM-R_ DEC 模型, 同時改進 Transformer 編碼器和解碼器, 模型的整體結構如圖 2 所示。Add_Dec 子網絡第一個子層編碼器?解碼器融合層會將經過 XLM-R 模型編碼過的源語言句子與經過 XLM-R 模型編碼過的目標語言句子相互關聯, 以便更好地軟對齊源語言句子中詞語與目標語言句子中詞語, 最終生成機器譯文。

        3.4 模型訓練

        3 個模型均采用多分類交叉熵損失函數作為優(yōu)化目標, 在雙語平行語料上進行訓練。由于網絡部分子結構的參數權值已將 XLM-R 模型作為初始值。在進行模型整體參數訓練時, 我們探索 3 種網絡參數訓練策略: 1)直接微調(DirectFine-tuning), 即所有的模型參數一起更新, 反向傳播, 應用于所有層; 2)固定 XLM-R 模型參數(Freeze), 將 XLM-R模型視為特征提取器, 不參與翻譯任務的訓練; 3)先固定, 再微調(+Fine-tuning), 即先固定 XLM-R模型參數, 使用雙語平行語料訓練剩余的未知參數, 直到模型在驗證集上損失最小, 再聯合微調所有模型, 即同時更新模型中的所有參數。

        除非特殊說明, 本文實驗中均采用直接微調的方法優(yōu)化網絡整體參數。后續(xù)的消融實驗中將對 3種參數調整策略進行對比, 用于驗證直接微調參數優(yōu)化策略對系統(tǒng)性能的提升幅度最大。

        4 實驗

        4.1 實驗設置

        我們分別在雙語平行語料資源豐富和資源匱乏的翻譯任務中評價本文模型。在資源豐富的任務中采用 WMT2014 英語?德語語料(WMT14 En-De), 使用 newstest2013 作為驗證集, newstest2014 作為測試集。在資源匱乏的任務中采用 IWSLT2017 英語?葡萄牙語(IWSLT17 En-Pt)和 IWSLT2015 英語?越南語語料(IWSLT15 En-Vi), 分別使用 tst2016 和 tst2012作為驗證集, tst2017 和 tst2013 作為測試集。各任務中訓練集、驗證集和測試集的語料規(guī)模見表 1。對于 WMT14 En-De 和 IWSLT15 En-Vi 翻譯任務, 使用來自斯坦福大學的自然語言處理小組(The Stanford NLP Group)預處理后的語料; 對于 IWSLT17 En-Pt翻譯任務, 使用開源工具包 mosesdecoder (https:// github.com/moses-smt/mosesdecoder)中的預處理工具, 對句子使用標點符號規(guī)范化、移除非打印字符和標記化等預處理, 所有語料均使用基于一元文法語言模型子詞切分方法進行子詞切分。

        表1 實驗語料規(guī)模統(tǒng)計

        利用開源工具包 fairseq[23]實現 3 種基于 XLM-R 模型的 Transformer 網絡結構。XLM-R 模型使用XLM-Roberta-Base 預訓練模型, 層數為 12, 注意力頭數為 12, 隱藏層大小為 768, 前饋神經網絡內置隱藏層大小為 3072; Transformer 模型和 Add_Dec 子網絡均只使用 6 層, 隱藏層大小、注意力頭數和前饋神經網絡內置隱藏層的參數設置與 XLM-R 模型相同。

        對比的基線模型包括 Transformer base 模型、Transformer big 模型[18]和 NMT with BERT 模型[7]。其中, Transformer base 模型的層數為 6, 注意力頭數為 8, 隱藏層大小為 512, 前饋神經網絡內置隱藏層大小為 2048; Transformer big 模型層數為 6, 注意力頭數為 16, 隱藏層大小為 1024, 前饋神經網絡內置隱藏層大小為 4096; NMT with BERT 模型通過直接用 BERT 替換 Transformer 的編碼端來引入預訓練知識。

        用 BLEU[24]作為譯文評價指標, 利用開源工具mosesdecoder 中的腳本 multi-bleu.perl 進行打分。打分時, 機器譯文均進行符號化(tokenize)處理, 并區(qū)分大小寫。

        4.2 實驗結果

        4.2.1 3個模型性能對比的實驗結果

        表 2 給出本文提出的 3 個模型和對比的基線系統(tǒng)在 WMT 英語?德語和 IWSLT 英語?葡萄牙語、英語?越南語等翻譯方向上的實驗結果。在所有翻譯方向上, XLM-R_ENC 模型都優(yōu)于基線模型, 特別是在資源匱乏的翻譯任務中, 引入預訓練知識能夠大幅度提升模型的翻譯性能。再對比 Transformer base 與 Transformer big 模型可以看出, 當模型的參數量增大時, 其翻譯性能并不一定會提升, 進一步說明是預訓練知識提升了翻譯的性能。對比 NMT with BERT 模型, 使用在多種大規(guī)模單語語料上預訓練獲取的通用語言知識, 翻譯性能優(yōu)于使用僅在單語語料上預訓練獲取的通用語言知識。最后, 我們嘗試對 XLM-R_ENC 模型進行集成, 在開發(fā)集上取翻譯性能最優(yōu)的 5 組模型的參數進行平均, 以期進一步提高模型的翻譯性能, 集成的結果見表 2 中XLM-R_ENCensemble一行。

        表2 不同模型的翻譯性能對比

        說明: 粗體數字表示在該翻譯方向上翻譯性能最佳, 下同。

        對于僅在解碼端引入 XLM-R 模型的翻譯方法XLM-R_DEC, 在所有翻譯方向上的性能大幅度劣于基線模型, 可能是 XLM-R 模型的多語種遮擋語言模型的訓練目標與 Transformer 的自回歸訓練目標不同所致。Lample 等[16]在解碼端的有效嘗試, 并未修改解碼端的模型架構, 只是用 XLM 模型預訓練好的模型參數去初始化 Transformer 解碼端相應的模型參數。

        對于在編碼端和解碼端同步引入 XLM-R 模型的 XLM-R_ENC&DEC 方法, 在資源豐富的 WMT英語?德語翻譯任務中, 其性能并沒有得到提升, 而在資源匱乏的 IWSLT 英語?葡萄牙語和英語?越南語翻譯任務中, 不論是單系統(tǒng)還是集成系統(tǒng), 其性能均超過基線模型。這表明對于資源匱乏的翻譯任務, 在源語言端和目標語言端同步引入 XLM-R 模型也可以提高翻譯質量。我們猜測, 在資源匱乏的翻譯任務中, 目標語言端引入的額外通用語言知識可以克服 XLM-R 模型與 Transformer 模型訓練目標不一致的弊端, 后續(xù)的實驗分析中將進一步挖掘這種情況產生的原因。

        4.2.2 不同訓練方式的實驗結果

        我們在 WMT 英語?德語以及 IWSLT 英語?葡萄牙語和英語?越南語翻譯任務中對比不同參數調整策略下的系統(tǒng)性能, 結果如表 3 所示。在 XLM-R_ ENC 和 XLM-R_ENC&DEC 方法中, 對于資源豐富的翻譯任務, 直接微調的方法(DirectFine-tuning)與先固定再微調的方法(+ Fine-tuning)性能相當; 對于資源匱乏的翻譯任務, 直接微調的方法遠遠優(yōu)于先固定再微調的方法。在 XLM-R_DEC 方法中, 先固定再微調的方法優(yōu)于直接微調的方法, 但是兩種訓練方式都未能提高翻譯性能。因此, 本文實驗中均采用直接微調的方法優(yōu)化網絡整體參數。

        表3 不同訓練方式對翻譯性能的影響

        Table 3 Impact of different training methods on translation performance

        4.2.3 不同層數預訓練模型的實驗結果

        為了比較使用不同層預訓練模型對翻譯性能的影響, 我們對比兩種 XLM-R 模型層數使用策略: 1)在 3 個模型中使用預訓練模型 XLM-R 的全部層(12層)表示張量; 2)僅使用其底部 6 層表示張量。在WMT 英語?德語以及 IWSLT 英語?葡萄牙語和英語?越南語翻譯任務中的實驗結果如表 4 所示。在源語言端使用 XLM-R 模型全部層的表示或在源語言端和目標語言端同時使用 XLM-R 模型全部層的表示優(yōu)于使用底部 6 層的表示, 僅在目標語言端使用XLM-R 模型底部 6 層的表示優(yōu)于使用全部層的表示, 但仍未提高翻譯質量。因此, 本文的默認模型設置為使用 XLM-R 模型全部層的表示。

        表4 不同層數預訓練模型對翻譯性能的影響

        Table 4 Impact of different layers of pre-training models on translation performance

        4.2.4 Add_Dec 子網絡不同層數的實驗結果

        表 2 列出的實驗結果表明, 對于雙語平行語料資源匱乏的翻譯任務, 引入 XLM-R 可以很好地對源語言端和目標語言端知識同時進行補充, 提高翻譯質量。因此, 我們在 IWSLT 英語?葡萄牙語和英語?越南語翻譯方向上探索不同 Add_Dec 子網絡的層數對 XLM-R_ENC&DEC 模型的影響, 實驗結果如表 5 所示, 使用 3 層或 6 層 Add_Dec 子網絡的翻譯性能最佳??紤]到在性能相差不大的情況下, 3 層的模型參數量會更小, 訓練速度更快, 因此建議在XLM-R_ENC&DEC 模型解碼端僅使用 3 層 Add_Dec子網絡。

        4.2.5 實驗分析

        為了證明在資源匱乏的翻譯任務中, 源語言端和目標語言端同步引入 XLM-R 模型也能提高翻譯質量, 我們對 3 個模型在 IWSLT 英語?越南語的翻譯任務中生成的譯文示例進行分析。表 6 給出一個英語源語言句子及其越南語人工參考譯文, 以及 3個模型的翻譯結果。通過在雙語語料上查找, 我們發(fā)現源語言句子中 rehabilitates 一詞在雙語平行語料的英語端沒有出現過, 但是 XLM-R_ENC&DEC模型能將其正確地翻譯成越南語中的詞語 ph?c h?i, 說明這個翻譯知識是由 XLM-R 模型引入的。在更多的翻譯示例中還發(fā)現, 盡管某個越南語的詞語在雙語平行語料的目標端沒有出現, 但在機器譯文中有時也能正確地翻譯該詞語(示例略), 同樣說明這個知識是由 XLM-R 模型引入的。上述分析均說明, 在資源匱乏的環(huán)境下, 在源語言端和目標語言端同時引入 XLM-R 模型, 可以將雙語語料中沒有出現的詞語正確地翻譯成目標語言中詞語, 提高了翻譯質量。

        表5 Add_Dec 子網絡層數對 XLM-R_ENC&DEC 模型性能的影響

        5 結論

        本文探索跨語種預訓練語言模型 XLM-R 在神經機器翻譯系統(tǒng) Transformer 中的應用, 提出并對比3 種模型來實現在源語言或目標語言中, 利用在多種大規(guī)模單語語料上預訓練獲取的通用語言知識。在多個翻譯任務中的實驗結果表明, 對于資源豐富的翻譯任務, XLM-R 模型可以更好地對源語言句子進行編碼表示, 從而提高翻譯質量, 但由于 XLM-R模型的多語種遮擋語言模型的訓練目標與 Transfor-mer 模型的自回歸訓練目標不一致, 導致其應用在解碼端時不能提高翻譯質量; 對于資源匱乏的翻譯任務, 目標端引入額外的通用語言知識可以克服兩個模型訓練不一致的弊端, 促使在源語言端和目標語言端同步引入 XLM-R 模型, 也能提高翻譯質量。

        表6 不同模型的譯文示例對比

        說明: 粗體字示意 XLM-R_ENC&DEC 模型可以將雙語語料中沒有出現的詞語正確地翻譯成目標語言中詞語。

        [1]Peters M, Neumann M, Iyyer M, et al.Deep contex-tualized word representations // Proceedings of the NAACL-HLT.New Orleans, 2018: 2227?2237

        [2]Devlin J, Chang M W, Lee K, et al.BERT: pre-training of deep bidirectional transformers for lang-uage understanding // Proceedings of the NAACL-HLT.Minneapolis, 2019: 4171?4186

        [3]Radford A, Narasimhan K, Salimans T, et al.Improv-ing language understanding by generative pre-training [R/OL].(2018) [2020?11?05].https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/langua ge-unsupervised/language_understanding_paper.pdf

        [4]Brown T B, Mann B, Ryder N, et al.Language models are few-shot learners // Proceedings of the NeurIPS.Vancouver, 2020: 1877?1901

        [5]翟煜錦, 李培蕓, 項青宇, 等.基于 QE 的機器翻譯重排序方法研究.江西師范大學學報(自然科學版), 2020, 44(1): 46?50

        [6]黃民烈, 唐杰, 文繼榮.超大規(guī)模預訓練模型的優(yōu)勢、局限與未來趨勢.中國計算機學會通訊, 2021, 17(2): 88?89

        [7]Imamura K, Sumita E.Recycling a pre-trained BERT encoder for neural machine translation // Proceedings of the EMNLP & NGT.Hong Kong, 2019: 23?31

        [8]Kim Y, Rush A M.Sequence-level knowledge distilla-tion // Proceedings of the EMNLP.Austin, 2016: 1317?1327

        [9]Hinton G, Vinyals O, Dean J.Distilling the know-ledge in a neural network [EB/OL].(2015?03?09) [2020?11?05].https://arxiv.org/abs/1503.02531

        [10]Weng R, Yu H, Huang S, et al.Acquiring knowledge from pre-trained model to neural machine translation // Proceedings of the AAAI.New York, 2020: 9266? 9273

        [11]Yang J, Wang M, Zhou H, et al.Towards making the most of bert in neural machine translation // Procee-dings of the AAAI.New York, 2020: 9378?9385

        [12]Chen Y C, Gan Z, Cheng Y, et al.Distilling know-ledge learned in BERT for text generation // Procee-dings of the ACL.Washington, 2020: 7893?7905

        [13]Zhu J, Xia Y, Wu L, et al.Incorporating BERT into neural machine translation [C/OL] // Proceedings of the ICLR.(2020?03?11) [2020?10?20].https://openre view.net/forum?id=Hyl7ygStwB

        [14]Guo J, Zhang Z, Xu L, et al.Incorporating BERT into parallel sequence decoding with adapters [EB/OL].(2020?08?13) [2020?10?20].https://arxiv.org/abs/2010.06138

        [15]Karthikeyan K, Wang Z, Mayhew S, et al.Cross-lingual ability of multilingual BERT: an empirical stu-dy [C/OL] // Proceedings of the ICLR.(2020?03?11) [2020?10?20].https://openreview.net/forum?id=HJeT 3yrtDr

        [16]Lample G, Conneau A.Cross-lingual language model pretraining // Proceedings of the NeurIPS.Vancouver, 2019: 7059?7069

        [17]Conneau A, Khandelwal K, Goyal N, et al.Unsu-pervised cross-lingual representation learning at scale // Proceedings of the ACL.Washington, 2020: 8440? 8451

        [18]Vaswani A, Shazeer N, Parmar N, et al.Attention is all you need // Proceedings of the NeurIPS.Long Beach, CA, 2017: 6000?6010

        [19]Song K, Tan X, Qin T, et al.MASS: masked sequence to sequence pre-training for language generation // Proceedings of the ICML.Long Beach, CA, 2019: 5926?5936

        [20]Lewis M, Liu Y, Goyal N, et al.BART: denoising sequence-to-sequence pre-training for natural langu-age generation, translation, and comprehension // Pro-ceedings of the ACL.Washington, 2020: 7871?7880

        [21]Liu Y, Gu J, Goyal N, et al.Multilingual denoising pre-training for neural machine translation.Transac-tions of the Association for Computational Lingui-stics, 2020, 8: 726?742

        [22]Kudo T.Subword regularization: improving neural network translation models with multiple subword candidates // Proceedings of the ACL.Melbourne, 2018: 66?75

        [23]Ott M, Edunov S, Baevski A, et al.Fairseq: a fast, extensible toolkit for sequence modeling // Procee-dings of the NAACL.Minneapolis, 2019: 48?53

        [24]Papineni K, Roukos S, Ward T, et al.BLEU: a method for automatic evaluation of machine translation // Proceedings of the ACL.Philadelphia, 2002: 311?318

        Neural Machine Translation Based on XLM-R Cross-lingual Pre-training Language Model

        WANG Qian, LI Maoxi?, WU Shuixiu, WANG Mingwen

        School of Computer and Information Engineering, Jiangxi Normal University, Nanchang 330022; ? Corresponding author, E-mail: mosesli@jxnu.edu.cn

        The authors explore the application of XLM-R cross-lingual pre-training language model into the source language, into the target language and into both of them to improve the quality of machine translation, and propose three neural network models, which integrate pre-trained XLM-R multilingual word representation into the Transformer encoder, into the Transformer decoder and into both of them respectively.The experimental results on WMT English-German, IWSLT English-Portuguese and English-Vietnamese machine translation benchmarks show that integrating XLM-R model into Transformer encoder can effectively encode the source sentences and improve the system performance for resource-rich translation task.For resource-poor translation task, integrating XLM-R model can not only encode the source sentences well, but also supplement the source language knowledge and target language knowledge at the same time, thus improve the translation quality.

        cross-lingual pre-training language model; neural machine translation; Transformer neural network; XLM-R model; fine-tuning

        10.13209/j.0479-8023.2021.109

        2021-06-12;

        2021-08-09

        國家自然科學基金(61662031)資助

        猜你喜歡
        源語言目標語言解碼器
        科學解碼器(一)
        科學解碼器(二)
        科學解碼器(三)
        線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍蜻蜓解碼器
        林巍《知識與智慧》英譯分析
        淺析日語口譯譯員素質
        北方文學(2018年18期)2018-09-14 10:55:22
        教材插圖在英語課堂閱讀教學中的運用及實例探討
        文理導航(2017年25期)2017-09-07 15:38:18
        跨文化視角下對具有修辭手法諺語英譯漢的研究
        速讀·下旬(2016年7期)2016-07-20 08:50:28
        以口譯實例談雙語知識的必要性
        考試周刊(2015年36期)2015-09-10 15:03:38
        二語習得過程中的石化現象分析
        最新亚洲人成无码网www电影| 综合国产婷婷精品久久99之一 | 国产一区二区三区特区| 99久久99久久久精品蜜桃| 国色天香精品一卡2卡3卡4| 在线观看免费午夜大片| 久久精品国产亚洲AV高清wy| 一区二区三区亚洲视频| 国产偷国产偷精品高清尤物| 美女自卫慰黄网站| 国产精品国产三级国产av主| 亚洲成年国产一区二区| 最近中文字幕免费完整版| 久久国产成人精品国产成人亚洲 | 亚洲码专区亚洲码专区| 国产suv精品一区二区四| 中文字幕一区二区三区精华液| 日本香蕉久久一区二区视频| 天堂网av在线免费看| 无码aⅴ精品一区二区三区浪潮| 日本亚洲国产一区二区三区| 亚洲色AV天天天天天天| 少妇高潮久久蜜柚av| 曰欧一片内射vα在线影院| 日本成人一区二区三区| 亚洲最大的av在线观看| 成人自慰女黄网站免费大全| 亚洲欧洲∨国产一区二区三区 | 亚洲中文有码一区二区| 91精品亚洲成人一区二区三区| 黑人巨大av在线播放无码| 国产午夜视频免费观看| 一级内射免费观看视频| 日韩精品视频一区二区三区| 青草福利在线| 亚洲精品成人久久av| 国产精品人人做人人爽人人添 | 亚洲欧洲精品成人久久曰影片| 精品系列无码一区二区三区| 国产一区二区三区在线蜜桃| 俄罗斯老熟妇色xxxx|