黃孟欽
(昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,云南昆明 650500)
2013 年,Nal Kalchbrenner 和Phil Blunsom 提出了端到端編碼器-解碼器結(jié)構(gòu)[1],這一創(chuàng)新將神經(jīng)機(jī)器翻譯引入了主流研究領(lǐng)域。近年來,基于深度學(xué)習(xí)的方法逐漸在機(jī)器翻譯領(lǐng)域占據(jù)主導(dǎo)地位。這些方法在許多語言對(duì)之間的翻譯任務(wù)上表現(xiàn)出色,有些情況下甚至超越了人類翻譯的質(zhì)量。
然而,基于神經(jīng)網(wǎng)絡(luò)的翻譯模型高度依賴于可用平行數(shù)據(jù)的數(shù)量和語言之間的相關(guān)性。在一些擁有豐富平行語料的語言對(duì),尤其是同一語系的語言對(duì)上,神經(jīng)機(jī)器翻譯已經(jīng)展現(xiàn)出了卓越性能[2]。但在實(shí)際應(yīng)用中,存在很多語言對(duì)之間缺乏足夠平行語料的情況,有些語言甚至沒有可用的平行數(shù)據(jù),導(dǎo)致神經(jīng)機(jī)器翻譯的性能下降。
為了減少神經(jīng)機(jī)器翻譯模型對(duì)平行數(shù)據(jù)的依賴,文獻(xiàn)[3]提出了無監(jiān)督神經(jīng)機(jī)器翻譯(Unsupervised Neural Machine Translation, UNMT)方法。這種方法僅利用兩種語言的單語語料庫進(jìn)行翻譯,而不使用平行語料,從而擺脫了對(duì)大量平行數(shù)據(jù)的需求。在某些語言對(duì)上,無監(jiān)督神經(jīng)機(jī)器翻譯已經(jīng)取得了出色的效果,甚至能夠媲美有監(jiān)督神經(jīng)機(jī)器翻譯。然而,在一些遠(yuǎn)距離語言對(duì),例如中-英語言對(duì),其翻譯效果仍然不夠理想。這主要是因?yàn)檫h(yuǎn)距離語言對(duì)之間的對(duì)齊信息較為稀缺,語言之間的相似性較低。因此,針對(duì)遠(yuǎn)距離語言對(duì)的無監(jiān)督神經(jīng)機(jī)器翻譯面臨著一個(gè)難題,即如何讓源語言和目標(biāo)語言在潛在空間中實(shí)現(xiàn)有效的對(duì)齊。
為提供更多對(duì)齊信息,研究者們開始嘗試引入外部知識(shí)來輔助模型學(xué)習(xí)兩種語言之間的對(duì)齊關(guān)系。文獻(xiàn)[4]探索了使用詞典輔助無監(jiān)督神經(jīng)機(jī)器翻譯的方法,將翻譯過程分解為兩個(gè)階段:首先,利用源語言到目標(biāo)語言的雙語詞典,將源語句中的部分詞替換為詞典中對(duì)應(yīng)的目標(biāo)詞,生成粗略的中間譯文;然后,將生成的中間譯文輸入神經(jīng)機(jī)器翻譯模型,以獲得流暢的目標(biāo)語言譯文。這種方法旨在為翻譯模型提供更多對(duì)齊信息,從而改善遠(yuǎn)距離語言對(duì)的翻譯效果。
神經(jīng)機(jī)器翻譯在取得卓越性能時(shí)的一個(gè)前提條件是擁有大量的平行語料,這些語料用于訓(xùn)練模型以學(xué)習(xí)源語言和目標(biāo)語言之間的映射關(guān)系。然而,在應(yīng)用中確實(shí)存在很多語言對(duì)之間缺乏足夠平行語料的情況,比如德語和俄羅斯語之間的翻譯。構(gòu)建平行語料庫需要昂貴的成本,而缺乏平行語料會(huì)顯著降低神經(jīng)機(jī)器翻譯模型的性能[5]。
為了減少神經(jīng)機(jī)器翻譯模型對(duì)平行數(shù)據(jù)的依賴,研究人員開始嘗試不使用平行語料,而是僅使用兩種語言的單語語料庫來訓(xùn)練模型,被稱為無監(jiān)督神經(jīng)機(jī)器翻譯[3]。這種方法有助于克服對(duì)平行數(shù)據(jù)的嚴(yán)重依賴,從而能夠在缺乏平行語料的情況下進(jìn)行翻譯。然而,需要注意的是,無監(jiān)督神經(jīng)機(jī)器翻譯仍然面臨一些挑戰(zhàn),尤其是在遠(yuǎn)距離語言對(duì)的情況下,語言之間的對(duì)齊信息非常有限,導(dǎo)致翻譯質(zhì)量受到影響。
雙語詞典歸納(Bilingual Lexicon Induction, BLI)[6]用于在缺乏兩種語言之間平行語料的情況下,利用各自語言的單語語料生成對(duì)齊的雙語詞嵌入,并通過這些嵌入來歸納出雙語詞典。雙語詞典歸納的核心思想在于學(xué)習(xí)一個(gè)映射函數(shù),該函數(shù)能夠?qū)煞N語言中的詞嵌入映射到一個(gè)共同的向量空間中,以便于進(jìn)行后續(xù)的對(duì)齊操作。雖然沒有直接的平行語料,但通過將單語語料中的詞嵌入映射到共享的空間中,可以在一定程度上實(shí)現(xiàn)不同語言之間詞匯的對(duì)應(yīng)關(guān)系。
通過雙語詞典歸納,可以在缺乏平行數(shù)據(jù)的情況下,利用單語語料中的信息構(gòu)建一些基本的語言關(guān)聯(lián),從而實(shí)現(xiàn)單詞級(jí)別的翻譯任務(wù)。這對(duì)于處理缺乏大量平行語料的語言對(duì)或語種之間的翻譯任務(wù)非常有幫助。
在早期,一些方法開始嘗試?yán)妙A(yù)訓(xùn)練模型的表征向量來初始化神經(jīng)機(jī)器翻譯(Neural Machine Translation, NMT)模型的表征向量。這一策略顯著提升了模型的訓(xùn)練效果,特別是對(duì)于訓(xùn)練數(shù)據(jù)稀缺的語言對(duì)而言。這表明預(yù)訓(xùn)練模型的表征向量可能在NMT模型訓(xùn)練中發(fā)揮了一定作用,因?yàn)樗鼈儼S富的語義信息。
其中,跨語言模型(Crosslingual Language Model,XLM)預(yù)訓(xùn)練是第一個(gè)嘗試將預(yù)訓(xùn)練應(yīng)用于跨語言方向的方法。這種方法在多語言文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,使得模型能夠同時(shí)學(xué)習(xí)兩種語言的語法和文本特征。這種跨語言預(yù)訓(xùn)練方法有助于模型在不同語言之間進(jìn)行知識(shí)遷移,從而提高跨語言任務(wù)的性能。當(dāng)前,研究者們?cè)诳缯Z言預(yù)訓(xùn)練語言模型領(lǐng)域進(jìn)行了大量嘗試,主要的跨語言模型包括BERT[7]、XLM[8]、XLM-R[9]、MASS[10]、mBART[11]等。這些跨語言預(yù)訓(xùn)練模型的出現(xiàn)豐富了多語言NLP 研究領(lǐng)域,為不同語言之間的自然語言處理任務(wù)提供了強(qiáng)大的工具和基礎(chǔ)。
雖然兩者造型差不多,但光路完全不同。從D500的光學(xué)取景器看到的是反光板反射到對(duì)焦屏上的光線,而X-H1的電子取景器看到的是傳感器接收到畫面。當(dāng)然,D500也可以切換到實(shí)時(shí)取景模式,但切換時(shí)反光板需要抬起,這意味著光學(xué)取景器失效(必須使用機(jī)背屏幕取景),而且D500引以為傲的相位對(duì)焦傳感器也同樣會(huì)失去用途,轉(zhuǎn)而使用原始的反差偵測(cè)對(duì)焦。相比之下,無反結(jié)構(gòu)的X-H1不會(huì)面臨這個(gè)問題,無論使用取景器還是屏幕,相機(jī)的對(duì)焦方式都不會(huì)發(fā)生變化。
盡管BERT[7]在自然語言處理領(lǐng)域取得了顯著的成就,但是不同語言之間的BERT 模型并不具有相互通用性,即它們學(xué)習(xí)到的知識(shí)不會(huì)被共享。因此,F(xiàn)acebook對(duì)BERT 進(jìn)行了改進(jìn),提出了XLM[8],以便于在多種語言之間進(jìn)行訓(xùn)練,從而使模型能夠獲得更多的跨語言信息。XLM 的方法主要分為兩種:基于平行語料的有監(jiān)督方法和沒有平行語料的無監(jiān)督方法。
因果語言模型(Causal Language Modeling, CLM)和遮蔽語言模型(Masked Language Modeling, MLM)使用單語語料進(jìn)行訓(xùn)練,而翻譯語言模型(Translation Language Model, TLM)是MLM 的擴(kuò)展,不同之處在于它使用平行語料進(jìn)行訓(xùn)練。在TLM 任務(wù)中,將MLM 的輸入單語語料替換成雙語平行語料,然后模型試圖預(yù)測(cè)源語言和目標(biāo)語言之間的對(duì)應(yīng)關(guān)系,這使得模型能夠借助平行語言的信息來提升翻譯質(zhì)量。翻譯語言模型結(jié)構(gòu)如圖1所示。
圖1 翻譯語言模型結(jié)構(gòu)
在本研究中,采用文獻(xiàn)[12]提出的方法,借助無監(jiān)督的單詞嵌入映射技術(shù),從僅使用源語言和目標(biāo)語言的單語語料庫中提取雙語詞典。具體而言,首先使用Word2Vec[13]將源語言和目標(biāo)語言的單詞表示成分布式向量,即各自的單詞嵌入。接下來,使用文獻(xiàn)[12]的無監(jiān)督單詞嵌入映射方法,利用自學(xué)習(xí)或?qū)剐杂?xùn)練來學(xué)習(xí)一個(gè)映射函數(shù)f(X) =WX,將源語言和目標(biāo)語言的單語詞嵌入映射到一個(gè)共享的嵌入空間中,然后利用CSLS[14]計(jì)算詞向量之間的相似性。最后,選擇在共享空間中相似性最高的詞嵌入,以提取本文中要使用的雙語詞典。
TLM 任務(wù)是一種有監(jiān)督的任務(wù),其目標(biāo)是訓(xùn)練能夠進(jìn)行翻譯的語言模型。通常情況下,這種任務(wù)需要大量的雙語平行語料進(jìn)行訓(xùn)練,但很多語言之間缺乏足夠的平行語料,這導(dǎo)致訓(xùn)練比較困難。本文提出了一種改進(jìn)的方法,采用詞典融合的策略代替?zhèn)鹘y(tǒng)的平行語料進(jìn)行模型訓(xùn)練。
這種方法的基本思想是利用單語語料和雙語詞典訓(xùn)練語言模型。具體來說,模型首先接受源語言的句子作為輸入;然后,不同于TLM 的平行語料輸入,模型還接受把源語言句子用雙語詞典處理后的數(shù)據(jù)作為輸入,在此輸入中,模型會(huì)將源語言句子中在雙語詞典出現(xiàn)的單詞替換為相應(yīng)的目標(biāo)語言翻譯詞,這一步可以看作是一種跨語言信息融合的過程。
接下來,模型會(huì)對(duì)源語言句子和目標(biāo)語言翻譯句子的部分單詞進(jìn)行隨機(jī)遮蔽。具體地,約80%的詞會(huì)被用[MASK]進(jìn)行遮蔽,約10%的詞會(huì)被隨機(jī)的標(biāo)記替換,而余下的約10%將保持原樣。這個(gè)步驟有助于模型學(xué)習(xí)到源語言和目標(biāo)語言之間的對(duì)應(yīng)關(guān)系,同時(shí)也鼓勵(lì)了模型對(duì)上下文的理解和單詞預(yù)測(cè)能力的提升。
需要強(qiáng)調(diào)的是,本文使用的雙語詞典是通過無監(jiān)督的方式獲得的,這意味著不需要依賴于任何平行語料。通過使用被替換過的源語言句子進(jìn)行訓(xùn)練,模型可以從兩個(gè)方面獲得信息:首先,模型通過源語言的上下文單詞來預(yù)測(cè)被遮蔽的詞;其次,模型通過被替換的目標(biāo)語言單詞進(jìn)行學(xué)習(xí)。這樣,語言模型不僅能夠?qū)W習(xí)源語言的信息,還能夠?qū)W習(xí)兩種語言之間的對(duì)應(yīng)關(guān)系。這些額外的跨語言信息在后續(xù)的翻譯任務(wù)中將提供有力的支持,使得模型能夠更好地進(jìn)行翻譯工作。這一方法為解決缺乏平行語料的語言翻譯任務(wù)提供了一種有效的替代方案。
Dict-TLM 模型的預(yù)訓(xùn)練結(jié)構(gòu)如圖2 所示。
圖2 Dict-TLM 模型結(jié)構(gòu)
本文的實(shí)驗(yàn)中,采用了Facebook 于2018 年提出的完全無監(jiān)督方法,即vecmap,從兩種語言的單語數(shù)據(jù)中獲得雙語詞典。該方法的獨(dú)特之處在于詞典的生成過程不涉及任何平行語料的使用,而是通過無監(jiān)督的方式生成一個(gè)種子詞典,作為后續(xù)詞嵌入學(xué)習(xí)的初始知識(shí)。
在本文的實(shí)驗(yàn)中,使用WMT14中2007年和2008年新聞數(shù)據(jù)集中的英文以及中文單語數(shù)據(jù)集,每種語言都包含了500 萬個(gè)句子。選擇中國科學(xué)院自動(dòng)化研究所在2015 年發(fā)布的CASIA-2015 數(shù)據(jù)集作為平行語料庫,將平行語料中的目標(biāo)語言語料替換為用雙語詞典處理后的源語言語料。對(duì)于后續(xù)的預(yù)訓(xùn)練任務(wù),所有的數(shù)據(jù)都使用mosesdecoder 提供的tokenizer 進(jìn)行正則化處理,中文語料使用斯坦福大學(xué)的NLP 工具進(jìn)行分詞處理。
在本文的所有實(shí)驗(yàn)中,所采用的模型架構(gòu)是Transformer[15],具體包括1 024 個(gè)隱藏單元、8 個(gè)注意力頭、GELU 激活函數(shù)[16]、0.1 的丟失率以及學(xué)習(xí)位置嵌入。使用Adam 優(yōu)化器[17],采用線性預(yù)熱策略[15],學(xué)習(xí)率在訓(xùn)練過程中從10-4逐漸增加到5×10-4。
在預(yù)訓(xùn)練階段,采用XLM 中的TLM 作為預(yù)訓(xùn)練語言模型。TLM 任務(wù)是遮蔽語言模型的改進(jìn)版本,類似于BERT 的遮蔽語言模型任務(wù)。在TLM 訓(xùn)練過程中,隨機(jī)遮蔽了源語言句子和目標(biāo)語言句子中部分單詞,其中80%的詞用[MASK]進(jìn)行遮蔽,10%的詞用隨機(jī)的token進(jìn)行替換,最后10%的詞保持不變。
本文采用BLEU[18]作為評(píng)價(jià)指標(biāo),來比較本文方法和其他方法的性能差異。這種評(píng)價(jià)方法認(rèn)為翻譯系統(tǒng)翻譯出來的譯文和人工翻譯的譯文越接近,那么翻譯系統(tǒng)的翻譯質(zhì)量就越高。
本文進(jìn)行了兩個(gè)模型的訓(xùn)練。首先,以Lample 等人使用單語語料進(jìn)行的機(jī)器翻譯方法作為基準(zhǔn),對(duì)比了本文方法和UNMT 方法。表1 中總結(jié)了在英中和中英語言對(duì)上的基線方法和Dict-TLM 方法的性能表現(xiàn)。
表1 各個(gè)模型在不同的語言對(duì)上的BLEU 值
如表1 所示,實(shí)驗(yàn)結(jié)果表明,本文方法在中英語言對(duì)上的BLEU 分?jǐn)?shù)相對(duì)于傳統(tǒng)的無監(jiān)督神經(jīng)機(jī)器翻譯提高了4%,而在英中語言對(duì)上的BLEU 分?jǐn)?shù)也提高了4%。通過分析實(shí)驗(yàn)結(jié)果,可以得出結(jié)論:將源語言句子中在雙語詞典存在的單詞替換為相應(yīng)的目標(biāo)語言翻譯詞,并以此作為源語言對(duì)應(yīng)的平行語料進(jìn)行模型訓(xùn)練,有助于模型更好地學(xué)習(xí)跨語言信息,從而實(shí)現(xiàn)源語言和目標(biāo)語言之間更好的對(duì)齊,進(jìn)而獲得更出色的翻譯效果。
本文介紹了一種創(chuàng)新方法,將源語言句子在雙語詞典中存在的單詞替換為相應(yīng)的目標(biāo)語言翻譯詞,用以替代TLM 中的平行語料作為預(yù)訓(xùn)練模型的輸入。這一方法的主要優(yōu)勢(shì)在于減少了模型對(duì)平行語料的依賴,給遠(yuǎn)距離語言對(duì)之間提供了更多的對(duì)齊信息,從而提高了對(duì)這些遠(yuǎn)距離語言對(duì)的翻譯效果。研究結(jié)果顯示,這一方法在無監(jiān)督神經(jīng)機(jī)器翻譯中實(shí)現(xiàn)了顯著的性能提升。
盡管取得了令人滿意的進(jìn)展,但在沒有平行語料的情況下如何進(jìn)一步提升無監(jiān)督神經(jīng)機(jī)器翻譯的性能仍然是一個(gè)值得深入研究的問題。未來的研究方向包括如何在無監(jiān)督情況下獲得更高質(zhì)量的雙語詞典,以及如何更有效地將這些詞典與翻譯模型融合,以更好地輔助模型實(shí)現(xiàn)更出色的翻譯性能。