苗國義 劉明童 陳鈺楓 徐金安,? 張玉潔 馮文賀
融合小句對齊知識的漢英神經(jīng)機器翻譯
苗國義1劉明童2陳鈺楓1徐金安1,?張玉潔1馮文賀3
1.北京交通大學(xué)計算機與信息技術(shù)學(xué)院, 北京 100044; 2.創(chuàng)新工場人工智能工程院, 北京 100080; 3.廣東外語外貿(mào)大學(xué)語言工程與計算實驗室, 廣州 510420; ?通信作者, E-mail: jaxu@bjtu.edu.cn
針對當(dāng)前神經(jīng)機器翻譯在捕捉復(fù)雜句內(nèi)小句間的語義和結(jié)構(gòu)關(guān)系方面存在不足, 導(dǎo)致復(fù)雜句長文本翻譯的篇章連貫性不佳的問題, 提出一種融合小句對齊知識的漢英神經(jīng)機器翻譯方法。首先提出手工和自動相結(jié)合的標(biāo)注方案, 構(gòu)建大規(guī)模小句對齊的漢英平行語料庫, 為模型訓(xùn)練提供豐富的小句級別的漢英雙語對齊知識; 然后設(shè)計一種基于小句對齊學(xué)習(xí)的神經(jīng)機器翻譯模型, 通過融合小句對齊知識, 增強模型學(xué)習(xí)復(fù)雜句內(nèi)小句間語義結(jié)構(gòu)關(guān)系的能力。在 WMT17, WMT18 和 WMT19 漢英翻譯任務(wù)中的實驗表明, 所提出的方法可以有效地提升神經(jīng)機器翻譯的性能。進一步的評測分析顯示, 所提方法能有效地提高漢英神經(jīng)機器翻譯在復(fù)雜句翻譯上的篇章連貫性。
神經(jīng)機器翻譯; 小句對齊; 結(jié)構(gòu)關(guān)系; 篇章連貫性
當(dāng)前, 機器翻譯模型一般基于平行的對齊語料建模[1-5], 模型依賴學(xué)習(xí)單語詞與詞之間的語義關(guān)聯(lián)以及雙語間詞語語義的對齊信息, 將一種語言翻譯為另一種語言, 特別地, 神經(jīng)機器翻譯通過注意力機制自動學(xué)習(xí)對齊信息, 展示出優(yōu)越的性能。然而, 由于現(xiàn)有平行語料缺少小句(clause)級別的對齊信息, 使得模型難以自動學(xué)習(xí)和獲取篇章結(jié)構(gòu)信息, 以致在翻譯復(fù)雜句時往往性能較低。
近年來, 神經(jīng)機器翻譯在上下文信息表示和學(xué)習(xí)方面取得很大的進展。Jean 等[6]和 Zhang 等[7]引入額外編碼器模塊, 對更大的上下文進行編碼, 并分別應(yīng)用在基于 RNN 和 Transformer 的神經(jīng)翻譯模型中。Miculicich 等[8]利用層次注意力結(jié)構(gòu)模型, 通過詞級和句子級分層注意力表示, 融合多個上下文, 并提高句子的語義表示能力。Shi 等[9]利用對抗學(xué)習(xí)方法來提高句子表示以及雙語對齊學(xué)習(xí)能力。最近, Bao 等[10]提出 G-Transformer 模型, 把整個篇章信息融入句子的表示中來提高對長文本語義的理解和翻譯。然而, 只通過增加上下文信息不能有效地解決篇章翻譯連貫性等問題。從理論上看, 篇章一般以小句而非大句(sentence)為基礎(chǔ)單位。從雙語差異來看, 雙語的篇章差異集中在復(fù)雜句層面。從漢英翻譯來看, 雙語的主從句差異、連接詞差異和指代差異等集中體現(xiàn)在復(fù)雜句層面[11-12]。
圖 1 給出一個漢英復(fù)雜句錯譯的例子。一個由多個小句構(gòu)成的復(fù)雜中文長句被當(dāng)前性能世界一流的谷歌神經(jīng)翻譯系統(tǒng)翻譯成多個孤立小句, 小句間的邏輯語義關(guān)系嚴(yán)重偏離源語言句子的表達。例如, 人工譯文中由“although”引導(dǎo)的主從結(jié)構(gòu)關(guān)系被機器錯誤地翻譯成由“and”和“but”引導(dǎo)的并列結(jié)構(gòu)關(guān)系。圖 1 的例子清楚地表明, 目前神經(jīng)機器翻譯無法有效地捕捉復(fù)雜句語境下小句間的篇章結(jié)構(gòu)關(guān)系以及源語言與目標(biāo)語言之間的篇章結(jié)構(gòu)對齊知識。小句是語篇中基本的篇章結(jié)構(gòu)單位[13], 基于小句的學(xué)習(xí)對機器翻譯有重要的意義[11-12], 但當(dāng)前的神經(jīng)機器翻譯研究并沒有關(guān)注這一點。
針對以上問題, 本文提出一種融合小句對齊知識的漢英神經(jīng)機器翻譯方法。在數(shù)據(jù)層面, 針對訓(xùn)練數(shù)據(jù)稀缺的問題, 我們標(biāo)注了 4M 句對基于小句對齊的漢英復(fù)雜句平行語料, 將漢英雙語小句對齊知識顯式地標(biāo)注于平行語料庫中, 為模型訓(xùn)練提供豐富的小句級別的結(jié)構(gòu)對齊知識。在模型層面, 我們設(shè)計一種基于小句對齊學(xué)習(xí)的神經(jīng)機器翻譯模型, 通過增強源端基于小句成分的句子語義表示, 以及增強源端和目標(biāo)端小句對齊學(xué)習(xí)來有效地融合小句對齊知識, 鼓勵模型學(xué)習(xí)復(fù)雜句內(nèi)小句間的語義結(jié)構(gòu)信息, 提高模型對復(fù)雜句長文本翻譯的篇章連貫性和銜接性。
本文采用標(biāo)注式建模方式, 從 WMT 公開數(shù)據(jù)集中抽取 4M 對復(fù)雜句對。首先采用人工方式標(biāo)注小規(guī)模語料, 然后訓(xùn)練模型自動對復(fù)雜句對進行大規(guī)模標(biāo)注, 形成大規(guī)?;谛【鋵R的漢英平行語料, 為神經(jīng)機器翻譯模型提供顯式漢英小句對齊知識。我們參考馮文賀[11]的小句切分與對齊方案, 采用“源語優(yōu)先”的對齊策略, 首先按既定的漢語基本篇章單位進行切分, 然后參考漢語切分結(jié)果切分英語小句, 并進行漢英小句對齊。為獲得自動標(biāo)注的大規(guī)模語料, 先進行小規(guī)模的人工標(biāo)注, 手工標(biāo)注 10 萬對復(fù)雜句的小句切分和對齊信息, 在其上進行模型訓(xùn)練和方法驗證。然后, 用本文方法進行其余所有數(shù)據(jù)的自動標(biāo)注。
小句識別任務(wù)也稱為基本語篇單位(elementary discourse unit, EDU)識別。受 Li 等[14]的啟發(fā), 本文采用基于 Bi-LSTM-CRF 的序列標(biāo)注模型來識別和切分漢英小句。我們把小句識別視為序列標(biāo)注任務(wù), 從而實現(xiàn)小句邊界的自動識別。如果一個詞在小句的結(jié)束位置, 則定義該詞標(biāo)簽為“Y”; 如果一個詞在小句內(nèi)部, 但不在小句結(jié)束位置, 則定義該詞標(biāo)簽為“N”。針對模型設(shè)計, 我們充分考慮詞的詞性特征和句法特征對小句邊界的影響。首先, 利用斯坦福句法分析器 Stanford CoreNLP[15]獲取輸入句子中每個詞的詞性(part of speech, POS)特征和句法特征, 其中句法特征由父結(jié)點短語標(biāo)記表示; 然后, 把預(yù)訓(xùn)練所得的詞向量和詞性以及句法特征向量相加, 送入雙向 LSTM (Bi-LSTM)[16]層去學(xué)習(xí)詞的上下文特征表示; 最后, Bi-LSTM 輸出結(jié)果被送入 CRF[17]層, 做二分類來預(yù)測當(dāng)前詞是否屬于小句的邊界。將此模型用在本文手工標(biāo)注的 10 萬句對數(shù)據(jù)上, 為測試算法的準(zhǔn)確性, 將數(shù)據(jù)集分成 10份, 輪流將其中 9 份作為訓(xùn)練數(shù)據(jù), 1 份作為測試數(shù)據(jù)。對 10 萬句對數(shù)據(jù)進行 10 次 10 折交叉驗證, 經(jīng)過對每個可能切分的位置進行判斷, 中文小句識別效果達到=92.0,=93.6, F1=92.8, 英文小句的識別效果達到=94.6,=93.0, F1=93.8。
圖1 漢英神經(jīng)機器翻譯復(fù)雜句錯譯的示例
漢英小句識別完成后, 需要做漢英小句對齊, 并為每個小句打上對齊標(biāo)簽和序號。傳統(tǒng)的句對齊方法包括基于長度特征、詞匯特征和位置特征等方法。本文采用 Ding 等[18]提出的基于詞匯特征的句對齊方法, 把雙語詞對齊知識融入漢英小句對齊模型。我們先使用基于統(tǒng)計的詞對齊工具 Giza++[19], 在大規(guī)模漢英平行語料上學(xué)習(xí)到一個雙語對齊詞典。然后設(shè)計一個由兩個雙向 RNN (Bi-directional RNN)[20]構(gòu)成的編碼器。對漢英句對上每個詞x在雙語詞典中查找其對齊詞y, 這樣源語小句和目標(biāo)語小句都會產(chǎn)生一個對應(yīng)的對齊詞匯序列。把源語小句和目標(biāo)語小句每個詞與其對齊詞的詞向量拼接后, 送入編碼器的兩個雙向 RNN 進行訓(xùn)練。利用余弦距離, 計算源語與目標(biāo)語小句間的語義相關(guān)度矩陣。語義相關(guān)度矩陣經(jīng)過最大池化, 轉(zhuǎn)換成一個向量, 并被送入多層感知機, 最終預(yù)測兩個小句是否對齊。為提高漢英小句對齊精度, 在對齊模型預(yù)測的基礎(chǔ)上, 本文也加入基于小句長度特征和位置特征的輔助判斷機制。通過對本文手工標(biāo)注的 10萬句對數(shù)據(jù)進行 10 次 10 折交叉驗證測試, 漢英小句對齊效果達到=91.4,=89.8, F1=90.6。
圖2 給出一個漢英小句對齊的標(biāo)注示例。源和目標(biāo)句子都是由多個小句構(gòu)成的小句復(fù)合體(復(fù)雜句), 復(fù)雜句內(nèi)不同小句由標(biāo)號切分開, 漢英小句通過相同的標(biāo)號對齊。由圖 2 可見, 標(biāo)點并不是小句切分的唯一依據(jù), 通常是依據(jù)詞之間的語義關(guān)聯(lián)切分小句。
本文通過以上標(biāo)注方法, 采用手工和自動相結(jié)合的方式, 將小句對齊知識顯式地標(biāo)注在 4M 句對復(fù)雜句平行語料中, 為漢英神經(jīng)機器翻譯提供豐富的蘊含小句結(jié)構(gòu)對齊知識的訓(xùn)練數(shù)據(jù)。另外, 平行語料中所選擇的每條復(fù)雜句都是多個小句的復(fù)合體, 可以視為具有完整小句關(guān)聯(lián)結(jié)構(gòu)的篇章單位, 對模型學(xué)習(xí)篇章層面的語義結(jié)構(gòu)知識是有意義的。
為使模型有效地學(xué)習(xí)到小句對齊知識, 我們設(shè)計一種基于小句對齊學(xué)習(xí)的神經(jīng)機器翻譯模型。一方面, 增強源端基于小句成分的句子語義表示; 另一方面, 增強源端與目標(biāo)端小句對齊學(xué)習(xí)。兩方面結(jié)合起來, 可以更好地提高翻譯模型對復(fù)雜句內(nèi)小句間結(jié)構(gòu)信息的感知和學(xué)習(xí)能力。圖 3 給出融合小句對齊知識的神經(jīng)機器翻譯模型架構(gòu)。
本文在 Transformer[4]架構(gòu)的基礎(chǔ)上, 提出一種多路協(xié)同自注意力機制(Multi-way Coordination Self-Attention, MC-SefAtt)來增強編碼器源語言句子基于小句成分的語義表示, 具體方法如下。
編碼器由相同的層堆疊構(gòu)成。在編碼器輸入層, 把輸入句子的詞序列每個詞的詞嵌入融合位置編碼作為輸入。由于標(biāo)注數(shù)據(jù)含有大量的小句對齊標(biāo)簽, 考慮到標(biāo)簽蘊含豐富的小句層面的語義結(jié)構(gòu)信息, 我們把每個標(biāo)簽視為標(biāo)簽詞(如結(jié)構(gòu)連接詞), 隨其他詞按正常方式輸入。
圖2 基于復(fù)雜句的漢英小句對齊標(biāo)注示例
圖3 融合小句對齊知識的神經(jīng)機器翻譯模型架構(gòu)圖及提出的兩種注意力機制示意圖
同時, 與式(1)并行計算每個小句序列W內(nèi)的點乘自注意力。計算公式如下:
,和分別表示從每個小句序列W轉(zhuǎn)換得到的query, key和value的矩陣表示, 1≤≤; Mask 為掩碼矩陣, 其作用是掩碼掉小句以外其他的詞表示, 使得當(dāng)前詞只與對應(yīng)小句內(nèi)部的詞做相關(guān)性計算。
=LayerNorm(FFN()+)。(4)
與編碼器類似, 解碼器也由相同的層堆疊構(gòu)成。本文在解碼器每層的自注意力機制子層和全連接前饋神經(jīng)網(wǎng)絡(luò)子層之間設(shè)計一個編碼器-解碼器小句對齊注意力子層(clause aligned cross attention, CA-CrossAtt)來對雙語之間小句對齊信息進行建模, 借助第1節(jié)在平行數(shù)據(jù)中標(biāo)注的小句對齊標(biāo)簽, 通過正則化的方法提高雙語小句間的注意力對齊權(quán)重, 鼓勵模型更好地從大規(guī)模標(biāo)注數(shù)據(jù)中學(xué)習(xí)基于小句的結(jié)構(gòu)對齊知識, 從而提高神經(jīng)機器翻譯對復(fù)雜句的翻譯能力。
與編碼器輸入層處理方法類似, 解碼器輸入層把目標(biāo)語言詞序列每個詞的詞嵌入融合位置編碼作為輸入, 將每個標(biāo)簽視為標(biāo)簽詞, 隨其他詞按正常方式輸入。
當(dāng)前常用的篇章級機器翻譯訓(xùn)練數(shù)據(jù)包括 TED 演講數(shù)據(jù)集(TED Talks)、中英字幕數(shù)據(jù)集(TVSUB)、WMT 公開評測任務(wù)提供的 News-Commentary 數(shù)據(jù)集以及 Europarl 數(shù)據(jù)集等, 但這些都是規(guī)模受限數(shù)據(jù)集, 并且用于漢英翻譯任務(wù)的數(shù)據(jù)非常稀缺。針對這種情況, 我們從 WMT 大規(guī)模公開數(shù)據(jù)集 Uni-ted Nations Parallel Corpus v1.0 中篩選 4M 句對漢英復(fù)雜句平行句對, 并在上面標(biāo)注小句對齊標(biāo)簽(見1.1 節(jié)和 1.2 節(jié))。本文用該標(biāo)注數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù), 使用中到英翻譯方向的 WMT newsdev2017-ZHEN 作為驗證集, 使用 WMT newstest2017-ZHEN, newstest2018-ZHEN 和 newstest 2019-ZHEN 這 3 個測試集驗證模型性能。為驗證本文方法的有效性, 基線系統(tǒng)都采用 4M 標(biāo)注數(shù)據(jù)去掉小句對齊標(biāo)簽后的數(shù)據(jù)集進行訓(xùn)練。數(shù)據(jù)集統(tǒng)計信息見表 1。
采用 BPE[21]子詞切分方法, 源端和目標(biāo)端詞表均設(shè)為 40K; 編碼器和解碼器都設(shè)為 6 層, 多頭注意力頭數(shù)設(shè)為 8, 隱層維度和前饋神經(jīng)網(wǎng)絡(luò)維度分別設(shè)為 512 和 2048; 訓(xùn)練集的 Batch Size 設(shè)為 64, 采用 Adam Optimizer[22]優(yōu)化器, 優(yōu)化器初始學(xué)習(xí)率設(shè)為 0.00005, Dropout[23]比率設(shè)為 0.1; 其他設(shè)置采用 Vaswani[4]系統(tǒng)的默認設(shè)置。本文模型的基線系統(tǒng)Transformer 采用開源框架 OpenNMT[24]。
表1 數(shù)據(jù)集統(tǒng)計信息
本文選擇對字母大小寫不敏感的 BLEU-4[25]評價指標(biāo)對譯文進行質(zhì)量評估, 使用 multi-bleu.pl 腳本進行計算。與已公開發(fā)表的神經(jīng)機器翻譯方面的工作進行性能比較(表 2)??梢钥闯? 與 Bahdanau等[2]的基于 RNN 的神經(jīng)機器翻譯模型 RNNSearch相比, 我們的模型在 BLEU 值上平均取得 2.99 個點的提升。與 Gehring 等[3]提出的基于卷積神經(jīng)結(jié)構(gòu)的翻譯模型 ConvS2S 相比, 我們的模型平均提高2.19 個點。與 Vaswani 等[4]提出的完全基于自注意力機制的 Transformer (base)模型相比, 我們的模型平均獲得 1.57 個點的提升。與 Shi 等[9]提出的基于對抗學(xué)習(xí)的句對齊學(xué)習(xí)方法相比, 我們的模型平均取得 0.59 個點的提升。由于本文模型中兩種注意力機制都沒有新增任何參數(shù), 僅在標(biāo)簽輸入時引入極少量參數(shù), 因此本文方法比基線系統(tǒng)的得分明顯提高, 可以排除單純因參數(shù)量增加導(dǎo)致效果提升這一因素, 驗證了本文方法的有效性。與已有方法相比, 本文方法關(guān)注小句間語義結(jié)構(gòu)在整個篇章層次結(jié)構(gòu)中的重要作用, 通過小句的增強表示和小句對齊學(xué)習(xí), 有效地提升了機器翻譯的性能。
表2 WMT漢-英翻譯任務(wù)上的主要評測結(jié)果
說明: 粗體數(shù)字為最優(yōu)結(jié)果。
我們分析了模型中各個部分對最終神經(jīng)機器翻譯性能的影響, 實驗結(jié)果如表 3 所示。
從表 3 容易看出, 通過增強源端基于小句成分的句子表示和學(xué)習(xí)源端與目標(biāo)端小句對齊知識, 本文模型有效地改進了機器翻譯性能。模型(1)在基線系統(tǒng)(Transformer)基礎(chǔ)上使用多路協(xié)同自注意力機制(MC-SefAtt), 在句級語義表示的基礎(chǔ)上融入小句級語義表示, BLEU 值比基線系統(tǒng)平均提升 0.48個點, 表明引入小句語義表示可以增強源語言句子表示能力, 并改進神經(jīng)機器翻譯模型的性能。模型(2)在基線系統(tǒng)的基礎(chǔ)上使用編碼器-解碼器小句對齊注意力機制(CA-CrossAtt), 增強了編碼器和解碼器在小句層面的對齊學(xué)習(xí)能力, 捕獲更多源端和目標(biāo)端小句級語義關(guān)聯(lián)特征, BLEU 值比基線系統(tǒng)平均提升 1.05 個點。模型(3)在基線系統(tǒng)的基礎(chǔ)上同時采用 MC-SefAtt 和 CA-CrossAtt 兩種注意力機制, 編碼器編碼能力和解碼器預(yù)測能力進一步提升, BLEU 值比基線系統(tǒng)平均提升 1.57 個點。實驗結(jié)果表明, 本文提出的融合小句對齊知識的方法, 可以使模型有效地學(xué)到雙語小句層面的語義結(jié)構(gòu)對齊特征, 從而提高神經(jīng)機器翻譯的精度。
本文在模型中使用基于小句對齊的編碼器-解碼器注意力機制, 并采用正則化方法, 使用參數(shù)調(diào)節(jié)和分配注意力權(quán)重。圖 4 展示在 newstest2019測試集上不同取值對模型性能的影響。當(dāng)從 0增至 0.7 時, 模型獲得 0.6 個 BLEU 點的提升, 表明當(dāng)更多注意力分布在小句對齊信息上時, 模型性能得到提升; 但當(dāng)取值超過 0.7 時, 模型性能開始下降。我們認為過多的注意力分布在小句對齊上會損害模型的性能, 因此把值設(shè)為 0.7 來優(yōu)化編碼器-解碼器注意力機制, 以便提升模型的翻譯性能。
表3 模型各個部分有效性分析結(jié)果
圖4 不同λ取值對模型性能的影響
圖5 翻譯實例對比
為了進一步驗證模型在復(fù)雜句上的翻譯能力, 我們進行翻譯實例對比和分析。圖 5 給出一個復(fù)雜句翻譯實例, 容易看出, Transformer (基線系統(tǒng))的譯文中, 子句 5 與 6 之間出現(xiàn)嚴(yán)重的語義結(jié)構(gòu)關(guān)系錯誤(紅色標(biāo)記), 并且子句 6 中出現(xiàn)漏譯, 這些翻譯錯誤被本文模型糾正過來(藍色標(biāo)記)。該實例進一步驗證了本文模型通過小句對齊知識的學(xué)習(xí), 能更好地感知和學(xué)到復(fù)雜句內(nèi)小句間的結(jié)構(gòu)關(guān)系, 從而提高對復(fù)雜句的翻譯性能, 提升復(fù)雜句長文本翻譯的篇章連貫性。同時也驗證了本文模型通過細粒度的小句對齊學(xué)習(xí), 進一步提升源語言和目標(biāo)語言句子間的對齊建模能力, 使翻譯充分性[26]得到提高, 在一定程度上緩解了機器翻譯的漏譯問題, 也提高了簡單句的翻譯效果。
針對當(dāng)前漢英復(fù)雜句機器翻譯中存在的篇章連貫性問題, 本文提出一種融合小句對齊知識的神經(jīng)機器翻譯解決方法。在數(shù)據(jù)層面, 采用小規(guī)模手工和大規(guī)模自動的方式標(biāo)注 4M 句對基于小句對齊的漢英復(fù)雜句平行語料, 將漢英雙語小句結(jié)構(gòu)對齊知識顯式地標(biāo)注于平行語料庫中, 為漢英機器翻譯貢獻了小句對齊的平行雙語數(shù)據(jù)資源。在模型層面, 提出一種基于小句對齊學(xué)習(xí)的神經(jīng)機器翻譯模型, 充分利用標(biāo)注語料庫提供的小句對齊信息, 通過增強源端基于小句成分的句子語義表示和源端與目標(biāo)端小句對齊學(xué)習(xí)來有效融合小句對齊知識, 訓(xùn)練模型學(xué)習(xí)更多復(fù)雜句內(nèi)小句層面的語義結(jié)構(gòu)特征。在 WMT17, WMT18 和 WMT19 翻譯任務(wù)公開測試集上的實驗結(jié)果表明, 本文方法能夠有效地提升漢英神經(jīng)機器翻譯的性能。分析結(jié)果表明, 本文方法在增強復(fù)雜句長文本翻譯的篇章連貫性方面有明顯的改進, 對提高篇章翻譯的效果有很大的幫助。本文提出的模型通過細粒度的小句對齊學(xué)習(xí), 增強了源端和目標(biāo)端句子間的語義對齊建模能力, 使機器翻譯漏譯問題得到改善, 也提升了簡單句的翻譯精度。
今后的工作中, 我們將考慮在小句對齊的基礎(chǔ)上, 顯式地建模基于小句的語義結(jié)構(gòu)信息, 進一步提高神經(jīng)機器翻譯對復(fù)雜句長文本的翻譯性能。
[1]Sutskever I, Vinyals O, Le Q V.Sequence to sequence learning with neural networks // NIPS.Montreal, 2014: 3104-3112
[2]Bahdanau D, Cho K, Bengio Y.Neural machine translation by jointly learning to align and translate // ICLR.San Diego, 2015: 1-15
[3]Gehring J, Auli M, Grangier D, et al.Convolutional sequence to sequence learning // Proceedings of the 34th International Conference on Machine Learning.Sydney, 2017: 1243-1252
[4]Vaswani A, Shazeer N, Parmar N, et al.Attention is all you need // NIPS.Los Angeles, 2017: 5998-6008
[5]Zhang W, Feng Y, Meng F, et al.Bridging the gap between training and inference for neural machine translation // Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.Florence, 2019: 4334-4343
[6]Jean S, Lauly S, Firat O, et al.Does neural machine translation benefit from larger context? [EB/OL].(2017-04-17)[2021-03-05].https://arxiv.org/abs/1704.05135
[7]Zhang Jiacheng, Luan Huanbo, Sun Maosong, et al.Improving the transformer translation model with document-level context // EMNLP.Brussels, 2018: 533-542
[8]Miculicich L, Ram D, Pappas N, et al.Document-level neural machine translation with hierarchical attention networks // EMNLP.Brussels, 2018: 2947-2954
[9]Shi X, Huang H, Jian P, et al.Improving neural machine translation with sentence alignment learning.Neurocomputing, 2021, 420: 15-26
[10]Bao Guangsheng, Zhang Yue, Teng Zhiyang, et al.G-transformer for document-level machine translation [EB/OL].(2021-05-31)[2021-06-01].https://arxiv.org/abs/2105.14761
[11]馮文賀.漢英篇章結(jié)構(gòu)平行語料庫構(gòu)建與應(yīng)用研究.北京: 科學(xué)出版社, 2019
[12]葛詩利, 宋柔.基于成分共享的英漢小句對齊語料庫標(biāo)注體系研究.中文信息學(xué)報, 2020, 34(6): 27-35
[13]Mann W, Thompson S A.Rhetorical structure theory: toward a functional theory of text organization.Text, 1988, 8(3): 243-281
[14]Li Y, Lai C, Feng J, et al.Chinese and English elementary discourse units segmentation based on Bi-LSTM-CRF model // Proceedings of the 19th Chinese National Conference on Computational Linguistics.Haikou, 2020: 1068-1078
[15]Manning C D, Mihai S, John B, et al.The Stanford CoreNLP natural language processing toolkit // Pro-ceedings of the 52nd Annual Meeting of the Asso-ciation for Computational Linguistics.Baltimore, 2014: 55-60
[16]Hochreiter S, Schmidhuber J.Long short-term me-mory.Neural Computation, 1997, 9(8): 1735-1780
[17]Lafferty J, Mccallum A, Pereira F.Probabilistic models for segmenting and labeling sequence data // Proceedings of the Eighteenth International Confer-ence on Machine Learning.Williamstown, 2001: 282-289
[18]Ding Y, Li J, Gong Z, et al.Improving neural sen-tence alignment with word translation.Frontiers of Computer Science, 2020, 15(1): 1-10
[19]Och F J, Ney H.A systematic comparison of various statistical alignment models.Computational Lingui-stics, 2003, 29(1): 19-51
[20]Cho K, van Merri?nboer B, Gulcehre C, et al.Learn-ing phrase representations using RNN encoderdeco-der for statistical machine translation // Proceedings of the 2014 Conference on Empirical Methods in Natu-ral Language Processing.Doha, 2014: 1724-1734
[21]Sennrich R, Haddow B, Birch A.Neural machine translation of rare words with subword units // Pro-ceedings of the 54th Annual Meeting of the Associa-tion for Computational Linguistics.Berlin, 2016: 1715-1725
[22]Kingma D P, Ba J.Adam: a method for stochastic optimization [EB/OL].(2014-12-22)[2021-03-06].https://arxiv.org/abs/1412.6980
[23]Srivastava N, Hinton G, Krizhevsky A, et al.Dropout: a simple way to prevent neural networks from over-fitting.The Journal of Machine Learning Research, 2014, 15(1): 1929-1958
[24]Klein G, Kim Y, Deng Y, et al.OpenNMT: open-source toolkit for neural machine translation // Pro-ceedings of ACL 2017: System Demonstrations.Van-couver, 2017: 67-72
[25]Papineni K, Roukos S, Ward T, et al.BLEU: a method for automatic evaluation of machine translation // Proceedings of the 40th Annual Meeting on Associa-tion for Computational Linguistics.Philadelphia, 2002: 311-318
[26]Tu Z, Liu Y, Shang L, et al.Neural machine transla-tion with reconstruction // Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence.San Francisco, 2017: 3097-3103
Incorporating Clause Alignment Knowledge into Chinese-English Neural Machine Translation
MIAO Guoyi1, LIU Mingtong2, CHEN Yufeng1, XU Jin’an1,?, ZHANG Yujie1, FENG Wenhe3
1.School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044; 2.Sinovation Ventures AI Institute, Beijing, 100080; 3.Laboratory of Language Engineering and Computing, Guangdong University of Foreign Studies, Guangzhou 510420; ? Corresponding author, E-mail: jaxu@bjtu.edu.cn
Currently, neural machine translation (NMT) is insufficient in capturing the semantic and structural relationships between clauses in complex sentences, which often results in poor discourse coherence of long and complex sentence translation.To address this problem, the paper proposes a Chinese-English NMT approach by integrating the clause alignment knowledge into NMT.Firstly, a labeling scheme combining manual and automatic annotation is introduced to annotate a large-scale clause aligned Chinese-English parallel corpus that provides rich clause-level Chinese-English bilingual alignment knowledge for model training.Then, a NMT model is designed based on clause alignment learning for enhancing the ability of the model to learn the semantic structure relationships between clauses within complex sentences.Experimental results on WMT17, WMT18 and WMT19 Chinese-English translation tasks demonstrate that proposed method can significantly improve the NMT performance.Evaluation and analysis show that proposed method can effectively improve the discourse coherence of complex sentence in Chinese-English machine translation.
neural machine translation; clause alignment; structural relationship; discourse coherence
10.13209/j.0479-8023.2021.111
2021-06-09;
2021-08-13
國家重點研發(fā)計劃(2020AAA0108001)、國家自然科學(xué)基金(61976015, 61976016, 61876198, 61370130)和廣東省基礎(chǔ)與應(yīng)用基礎(chǔ)研究基金(2020A1515011056)資助