中圖分類號:TP391.2;H085.3文獻(xiàn)標(biāo)識碼:A文章編號:2096-3998(2025)03-0061-09
越南作為“一帶一路”倡議中的重要國家之一,同我國在工業(yè)、經(jīng)濟(jì)和文化領(lǐng)域的交流愈發(fā)頻繁,因此利用機(jī)器翻譯技術(shù)解決兩國間旺盛的溝通交流需求,以促進(jìn)兩國各領(lǐng)域間的合作至關(guān)重要。基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯方法(neural machine translation,NMT)被證明[1-2」是一種有效的方法,已經(jīng)成為當(dāng)前機(jī)器翻譯領(lǐng)域的主流方法。但NMT屬于一種數(shù)據(jù)驅(qū)動的方法,其翻譯結(jié)果的優(yōu)劣取決于大規(guī)模數(shù)據(jù)集的多少,這導(dǎo)致其在低資源語言對上的性能較高資源語言對的性能相差較多。然而,漢越機(jī)器翻譯是一項典型的低資源任務(wù),平行語料庫有限,語言表示差異大,從而導(dǎo)致漢越神經(jīng)機(jī)器翻譯的質(zhì)量不佳。
針對 NMT應(yīng)用在低資源語言應(yīng)用中性能較差的問題,Zoph等[3]提出了使用遷移學(xué)習(xí)(transferlearning,TL)的方法。該方法基于父子框架,利用高資源語言對,將高資源的NMT模型(即父母)的知識轉(zhuǎn)移到低資源的NMT模型(即孩子),從而提升低資源場景下的NMT性能,這項工作也開啟TL在機(jī)器翻譯領(lǐng)域的大規(guī)模應(yīng)用的階段。因此,利用遷移學(xué)習(xí)方法提升漢越神經(jīng)機(jī)器翻譯的質(zhì)量是一種有效的方法。
越南語屬于南亞語系,與漢語相同,都是孤立語言,但其由拉丁字母、表音文字以及標(biāo)點(diǎn)符號等組成[4]。越南語具有以下主要特點(diǎn):(1)由一個或多個詞素構(gòu)成;(2)修飾語位于被修飾詞之后;(3)由于受多元文化的影響,中國文化是影響其文化之一,越南語在書寫和表達(dá)方式上展現(xiàn)出復(fù)雜性與多樣性。
基于父子框架的遷移學(xué)習(xí)期望學(xué)習(xí)更多與語義無關(guān)的知識,并被子模型正確的理解和利用,從而提升子模型的性能。然而當(dāng)從英語到越南語語言對這樣同屬拉丁語書寫體系的高資源語言對遷移到漢語到越南語這樣書寫體系不同的低資源語言對時,子模型語種間的差異會導(dǎo)致詞表不匹配的問題,進(jìn)而影響父模型的知識被子模型充分學(xué)習(xí)和利用。因此,針對該問題,如何在基于遷移學(xué)習(xí)策略訓(xùn)練的子模型中減少詞表不匹配問題帶來的影響,進(jìn)而更有效地利用父模型的知識,依然是遷移學(xué)習(xí)中一個具有挑戰(zhàn)性的問題。
統(tǒng)一詞表示可被用于解決由于書寫體系不同而導(dǎo)致的詞匯不匹配問題,這種方法通過使用一種統(tǒng)一的符號來表示兩種語言中的相應(yīng)字或詞。而跨語言詞表示即是在兩個語種之間引入第三種語言的語言符號,該符號被視為語義對等唯一符號,用以取代兩種語言的語言符號。但引入第三種語言的符號會產(chǎn)生參數(shù)間相互干擾的問題,導(dǎo)致模型無法學(xué)習(xí)到真正目標(biāo)語言的正確表征。
遠(yuǎn)距離語言是指擁有不同書寫符號體系,且語言中詞的語法和語義差別較大的兩種語言,它們詞與詞之間的語義表示往往相差較大。當(dāng)子模型語言對屬于書寫體系不同的遠(yuǎn)距離語言,而父模型語言對為書寫體系相同的語言對時,遠(yuǎn)距離語言帶來的詞表不匹配問題的加重,會使得遷移學(xué)習(xí)中父模型的知識不能完全被子模型利用,進(jìn)而使得遷移學(xué)習(xí)的有效性下降。進(jìn)一步講,針對漢越神經(jīng)機(jī)器翻譯任務(wù),父模型的語言對通常為英語-越南語,兩種語言均基于羅馬字母的書寫體系,羅馬字母是最小組成單位。而子模型的語言對為漢語-越南語,其中漢語是基于漢字的書寫體系,漢字是最小組成單位。
漢越神經(jīng)機(jī)器翻譯是一項典型的低資源神經(jīng)機(jī)器翻譯任務(wù),其訓(xùn)練語料稀缺,但是英越語言對的平行語料卻大量存在,因此適用于使用遷移學(xué)習(xí)方法。雖然在遷移學(xué)習(xí)過程中,子模型的漢越語言對存在的差異導(dǎo)致詞表不匹配問題會影響遷移學(xué)習(xí)的性能,但在父模型遷移的知識中已經(jīng)包含了英語的語言分布知識。因此,利用英語作為中間語言,以幫助子模型更有效地利用父模型傳遞的知識,并提高子模型的性能,是一種可行的策略。
基于上述,本文提出一種基于跨語言統(tǒng)一詞表示的機(jī)器翻譯方法。本文的方法建立在擁有高質(zhì)量雙語詞典的基礎(chǔ)上,如供外語專業(yè)工作者使用的雙語詞典(下稱\"專業(yè)雙語詞典”)。首先,利用越南語-漢語(下稱\"越漢”)專業(yè)雙語詞典構(gòu)建一個跨語言統(tǒng)一詞表示詞表,以將越南語、漢語和父模型的源語言——英語都統(tǒng)一在內(nèi),該詞表包含一定數(shù)量的漢語和越南語以及英語和越南語的詞義對應(yīng)關(guān)系。其次,根據(jù)跨語言統(tǒng)一詞表示詞表替換越南語中對應(yīng)的詞,以構(gòu)建統(tǒng)一詞表示化數(shù)據(jù),并將漢語數(shù)據(jù)與統(tǒng)一詞表示化數(shù)據(jù)構(gòu)成雙語平行句對,以此作為子模型的訓(xùn)練數(shù)據(jù),輸入模型進(jìn)行訓(xùn)練。最后,為減少引入第三種語言符號而產(chǎn)生的參數(shù)間相互干擾問題,在子模型訓(xùn)練過程中加入了目標(biāo)語言特征約束,以確保模型可以學(xué)習(xí)到正確的越南語語言特征。
1 相關(guān)工作
2016年,Zoph等[3]首次在NMT領(lǐng)域提出使用遷移學(xué)習(xí)方法提升機(jī)器翻譯在低資源語言對上的性能,即先在高資源語言上訓(xùn)練父模型,然后使用父模型的參數(shù)來初始化低資源語言的子模型,最后繼續(xù)在低資源語言上訓(xùn)練子模型。這種方法被視為遷移學(xué)習(xí)在機(jī)器翻譯中的首次應(yīng)用,后來的研究[5]證明了這種方法在知識從高資源語言傳遞到低資源語言中的有效性,顯示出其在NMT中的強(qiáng)大性能。黃繼豪等[]提出了一種改進(jìn)的漢越神經(jīng)機(jī)器翻譯遷移學(xué)習(xí)方法,通過使用訓(xùn)練好的漢語端編碼器和越南語端解碼器,對漢越翻譯模型的編碼器和解碼器參數(shù)分別進(jìn)行初始化,從而優(yōu)化遷移學(xué)習(xí)在漢越神經(jīng)機(jī)器翻譯中的應(yīng)用。
雖然遷移學(xué)習(xí)在NMT中展示了巨大的潛力,但Aji等[1]指出,若想有效地轉(zhuǎn)移嵌入層的知識,父模型和子模型需要使用相同或部分重疊的詞匯表。為此,Lakew 等[12]提出了一種方法,即對齊相同的子詞匯或隨機(jī)分配未見的子詞匯來合并詞匯表。然而以上方法,在相同文字系統(tǒng)的語言之間遷移時表現(xiàn)良好,但在不同文字系統(tǒng),或擁有不同文明的遠(yuǎn)距離語言之間,效果卻不盡如人意。這為遷移學(xué)習(xí)在低資源領(lǐng)域的應(yīng)用帶來了額外的挑戰(zhàn)。Amrhein等[13]提出,盡管羅馬化工具可能會導(dǎo)致信息損失,但它能夠顯著改善遠(yuǎn)距離語言間的遷移效果。
遷移學(xué)習(xí)方法的提出,體現(xiàn)了在機(jī)器翻譯領(lǐng)域?qū)τ谔岣叩唾Y源語言對的翻譯質(zhì)量的不斷追求。但當(dāng)子模型語言對屬于書寫體系不同的遠(yuǎn)距離語言,而父模型語言對為書寫體系相同的語言對時,遠(yuǎn)距離語言帶來的詞表不匹配問題的加重,會使得遷移學(xué)習(xí)的有效性下降。因此,如何提高子模型的詞表匹配程度,以提高遷移學(xué)習(xí)的性能,依然是一個具有挑戰(zhàn)性的問題。
2基于跨語言統(tǒng)一詞表示的漢越神經(jīng)機(jī)器翻譯模型
2.1 建立漢越神經(jīng)機(jī)器翻譯模型
在遷移學(xué)習(xí)框架中,當(dāng)子模型的語言對為遠(yuǎn)距離語言對時,詞表不匹配的現(xiàn)象尤為顯著,導(dǎo)致詞表重疊度低。這種情況限制了子模型有效利用父模型知識進(jìn)行遷移的能力。以往的工作在解決詞表不匹配問題時,主要考慮從現(xiàn)有語料中抽取詞表,并在此基礎(chǔ)上提出解決方法。然而在專業(yè)雙語詞典中,往往蘊(yùn)含著數(shù)量眾多的雙語對齊關(guān)系,這對于緩解遠(yuǎn)距離語言間詞表不匹配問題非常有效。本文使用Transformer模型[14],并在遷移學(xué)習(xí)父子框架下進(jìn)行改進(jìn)。首先,本文在英語-越南語(下稱\"英越”)對上訓(xùn)練父模型,然后使用父模型參數(shù)初始化漢語-越南語(下稱“漢越”)語言對的子模型。
當(dāng)子模型語言對屬于遠(yuǎn)距離語言,而父模型語言對來自書寫體系相同的語言時,子模型的詞表匹配度較低,可能會導(dǎo)致遷移學(xué)習(xí)性能下降。然而,使用父模型參數(shù)初始化子模型時,父模型中已經(jīng)包含了英語的語言分布知識。因此,本文選擇將父模型的源語言——英語,作為構(gòu)建跨語言統(tǒng)一詞表示時的額外語言。
本文在子模型的訓(xùn)練階段提出一種改進(jìn)的模型——基于跨語言統(tǒng)一詞表示的漢越神經(jīng)機(jī)器翻譯模型。具體來講,本文首先基于越漢專業(yè)雙語詞典,構(gòu)建跨語言統(tǒng)一詞表示詞表。其次,本文將詞表融入到越南語中,對越南語數(shù)據(jù)在編碼前進(jìn)行預(yù)處理,構(gòu)成類似語碼轉(zhuǎn)換(code switching,CSW)形式的句子。從機(jī)器翻譯的角度來看,CSW形式的句子從某種程度上被認(rèn)為是一種全新的語言,該語言介于源語言與目標(biāo)語言之間。在訓(xùn)練過程中,將該語言作為子模型的目標(biāo)語言,與雙語對齊的漢語一起作為 Trans-former模型的輸人,并以該表現(xiàn)形式的語言作為模型的輸出。最后,將模型輸出的CSW形式的結(jié)果進(jìn)行額外的去統(tǒng)一化的操作,將模型輸出的翻譯結(jié)果轉(zhuǎn)化為越南語形式的翻譯結(jié)果。
本文提出的翻譯方法模型如圖1所示。主要包括三個部分:構(gòu)建跨語言統(tǒng)一詞表示詞表、構(gòu)建統(tǒng)一詞表示化數(shù)據(jù)、基于父子表征一致性的約束方法。其中,圖1左側(cè)的虛線框模塊負(fù)責(zé)利用跨語言統(tǒng)一詞表示詞表生成統(tǒng)一詞表示化數(shù)據(jù),并獲取用于訓(xùn)練子模型的偽平行數(shù)據(jù);其余部分則為基于父子表征一致性的約束方法模塊。此外,本文還引人了一個還原統(tǒng)一詞表示化數(shù)據(jù)模塊,該模塊用于對譯后結(jié)果進(jìn)行處理,因此未在圖1中呈現(xiàn)。
2.2構(gòu)建跨語言統(tǒng)一詞表示詞表
專業(yè)雙語詞典多以紙質(zhì)出版,電子詞典資源在以往是非常難以獲取的,因此在以往的工作中[15],一部分工作者利用統(tǒng)計機(jī)器翻譯方法,從語料中抽取詞表,并在此基礎(chǔ)上提出自己的解決詞匯不匹配問題的方法。但在全球各國交往愈加頻繁的情況下,近年來,電子專業(yè)雙語詞典的數(shù)量越來越多,覆蓋的語種越來越廣,這使得基于專業(yè)雙語詞典進(jìn)行遷移學(xué)習(xí)成為可能。
相較于從語料中抽取詞表的方法,專業(yè)雙語詞典的使用可以提供更加準(zhǔn)確的詞匯間對應(yīng)關(guān)系。從語料中抽取詞雖然能夠快速生成詞表,但其質(zhì)量往往受限于語料的使用領(lǐng)域和規(guī)模,導(dǎo)致翻譯的準(zhǔn)確性和一致性難以保證。相反,專業(yè)雙語詞典由語言專家精心編制,經(jīng)過嚴(yán)格審核,具備高準(zhǔn)確性和可靠性,能夠提供更精準(zhǔn)、穩(wěn)固的詞匯對應(yīng)關(guān)系。
越漢專業(yè)雙語詞典以及大部分的專業(yè)雙語詞典均是按照詞條展示某個詞對應(yīng)的翻譯,包含兩種常見的語言現(xiàn)象,即一對一詞匯和一對多詞匯。本文在構(gòu)建跨語言統(tǒng)一詞表示詞表的過程中,對越漢專業(yè)雙語詞典進(jìn)行遍歷,當(dāng)?shù)玫揭粚σ辉~匯對時,將其直接保存在跨語言統(tǒng)一詞表示詞表;當(dāng)?shù)玫揭粚Χ嘣~匯對時,將該詞匯對中的越南語翻譯為英文構(gòu)建越英詞匯對,并保存在語言統(tǒng)一詞表示詞表中。具體的構(gòu)建流程如圖2所示。
本文針對兩種語言現(xiàn)象,按照不同的方式進(jìn)行處理。本節(jié)將分別闡釋兩種語言現(xiàn)象各自采用的處理方式的動機(jī)。
(1)一對一詞匯。一對一詞匯是在專業(yè)雙語字典中存在的對齊較好的詞級對應(yīng)關(guān)系,需要保留這樣的已有對應(yīng)關(guān)系。因此,本文在構(gòu)建跨語言統(tǒng)一詞表示時,直接使用一對一詞匯的對應(yīng)關(guān)系作為跨語言統(tǒng)一詞表示詞表的一部分。
(2)一對多詞匯。詞匯間的一對多關(guān)系是十分常見現(xiàn)象,同時,這種歧義的現(xiàn)象也是詞表不匹配的一種具體表現(xiàn)。本文使用目前已有的高性能模型將一對多詞匯的源語言翻譯為英語,即將越南語翻譯為英語。并使用越南語到英語的詞匯對應(yīng)關(guān)系作為跨語言統(tǒng)一詞表示詞表的一部分。
在遷移學(xué)習(xí)的父子框架中,父模型的源語言是區(qū)別與子模型源語言的語種,而使用父模型參數(shù)初始化子模型時,父模型中已經(jīng)包含的英語語言分布的知識已經(jīng)被傳遞到子模型中。此外,目前性能較好的機(jī)器翻譯模型多在 X?Eng 或 語言對上。因此,本文在處理一對多詞匯時,選擇英語作為越南語語種的對應(yīng)語種,并使用已有的高性能模型,將其翻譯為英語,構(gòu)成越南語到英語的一對一形式的雙語對應(yīng)關(guān)系。
綜上所述,將處理后的兩種類型的詞匯的雙語對齊關(guān)系合并,組成最終同時含有漢語、英語和越南語三種語言的跨語言統(tǒng)一詞表示詞表。該詞表展示了越南語到統(tǒng)一詞表示符號體系的映射關(guān)系。運(yùn)用本文提出的方法,根據(jù)越漢專業(yè)雙語詞典所構(gòu)建的一個漢越跨語言統(tǒng)一詞表示示例見表1,最終構(gòu)建的漢越跨語言統(tǒng)一詞表示詞表由“越南語詞匯”列及“跨語言統(tǒng)一詞表示”列共同構(gòu)成。
2.3構(gòu)建統(tǒng)一詞表示化數(shù)據(jù)
為了將跨語言統(tǒng)一詞表示詞表融人到NMT模型中,并讓模型能學(xué)習(xí)到詞表中的對應(yīng)關(guān)系。受到在社交媒體中廣泛出現(xiàn)的CSW格式數(shù)據(jù)的啟發(fā),本文采用替換的方式,根據(jù)詞表中的對應(yīng)關(guān)系對子模型目標(biāo)語言句子重構(gòu)為類似CSW格式的數(shù)據(jù),在保證與源語言對齊的情況下,將統(tǒng)一詞表示詞表融人到子模型的訓(xùn)練數(shù)據(jù)中,使得NMT模型可以學(xué)習(xí)到詞表中的對應(yīng)關(guān)系。
雖然原句在按照統(tǒng)一詞表示化詞表映射關(guān)系進(jìn)行替換后,替換后的句子理論上應(yīng)該僅由漢語和英語構(gòu)成。但由于語言中存在的歧義現(xiàn)象以及詞表的有限性,經(jīng)過替換得到的統(tǒng)一詞表示化句子實際上依然會含有越南語符號未被完全替換。因此,本文得到的最終統(tǒng)一詞表示化句子在語言符號的組成形式上,同時包含越南語、漢語和英語三種語言符號。本文構(gòu)建的統(tǒng)一詞表示化句子的示例見表2。
廣泛存在于社交媒體中CSW形式數(shù)據(jù)通常呈現(xiàn)口語化特點(diǎn),因此其在用詞上存在一定的不確定性。反映在句子中,則會表現(xiàn)出同一詞匯可能在不同的句子,有時使用其他語種符號代替,有時則直接使用原詞匯。即CSW形式數(shù)據(jù)允許同一詞匯在不同語言間切換。與常規(guī)的CSW形式數(shù)據(jù)不同,本文構(gòu)建的統(tǒng)一詞表示化數(shù)據(jù)在形式上雖然接近于CSW形式數(shù)據(jù),但在構(gòu)建過程中,本文是將原句子中所有相同的單詞統(tǒng)一替換為統(tǒng)一詞表示詞表中對應(yīng)的符號,并將替換后的句子視為與原句完全等價的句子。例如,英語單詞“apple”。在CSW形式數(shù)據(jù)中,該詞可能在多個句子組成的語料庫中同時出現(xiàn)詞匯“apple”和“蘋果”。然而,采用本文提出的統(tǒng)一詞表示方法時,所有的詞匯“apple\"將被統(tǒng)一替換為詞匯“蘋果”。因此,在多個句子組成的語料庫中將僅出現(xiàn)詞匯“蘋果”,而不再出現(xiàn)詞匯“apple”。換句話說,在該語料庫的詞表中,已不再包含“apple”這一詞匯。這也是本文統(tǒng)一詞表示方法的進(jìn)一步體現(xiàn)。
2.4基于父子表征一致性的約束方法
由于子模型的目標(biāo)語言被替換為包含三種語言的統(tǒng)一詞表示化數(shù)據(jù),僅依靠傳統(tǒng)遷移學(xué)習(xí)框架中使用父模型網(wǎng)絡(luò)參數(shù)初始化子模型的做法,可能會導(dǎo)致子模型在面對多種語言分布時難以判斷學(xué)習(xí)的方向。在這種情況下,參數(shù)間可能產(chǎn)生相互干擾,導(dǎo)致負(fù)遷移現(xiàn)象的產(chǎn)生,進(jìn)而影響子模型的性能表現(xiàn)。Liu Shudong等[1]在傳統(tǒng)遷移學(xué)習(xí)父子框架的基礎(chǔ)上,提出對父子模型的表征施加強(qiáng)約束,以達(dá)到利用父模型在子模型訓(xùn)練階段指導(dǎo)子模型的目的。受他們工作的啟發(fā),本文在他們工作的基礎(chǔ)上進(jìn)行了改進(jìn),以解決參數(shù)干擾的問題。本節(jié)將分兩部分,分別介紹本文提出的模型。
(1)構(gòu)建偽父數(shù)據(jù)。對于此部分,本文沿用Liu Shudong等[16]提出的方法。對于子模型數(shù)據(jù)的每個句子對 (xc,yc)∈(Xc,Yc) ,使用經(jīng)過充分訓(xùn)練的父模型將子模型的越南語句子 yc 回譯為對應(yīng)的英語句子 ,并獲得偽父數(shù)據(jù)
。
(2)基于父子表征一致性的約束方法。相對于Liu Shudong等[16]提出的方法,本文在此部分進(jìn)行了改進(jìn)。本文利用子模型目標(biāo)語言進(jìn)行統(tǒng)一詞表示替換前的原始句子及其對應(yīng)的偽父數(shù)據(jù)約束子模型,以使子模型在訓(xùn)練過程中能夠?qū)W習(xí)到正確的越南語語言表征。具體來說,對于偽父數(shù)據(jù)的每個句子對 ,父模型為每個統(tǒng)一詞表示替換前的原始句子的標(biāo)記 ytc 生成特征標(biāo)簽
。
而子模型也為對應(yīng)的統(tǒng)一詞表示化數(shù)據(jù)的標(biāo)記生成特征標(biāo)簽 fθc 。之后,本文使用均方誤差(mean-square,MSE)損失計算父模型和子模型輸出的兩個特征標(biāo)簽的歐氏距離的平方:
其中, θρ 和 θc 分別代表父模型和子模型的參數(shù)。
最終子模型的損失是交叉熵(cross entropy,CE)損失和均方誤差損失的線性組合,并帶有超參數(shù) α
L=LCE+αLMSE°
2.5 還原統(tǒng)一詞表示化數(shù)據(jù)
對于使用統(tǒng)一詞表示化數(shù)據(jù)構(gòu)成的子模型訓(xùn)練集,模型的輸出結(jié)果也是統(tǒng)一詞表示化格式的句子,這與我們最初的翻譯任務(wù)目標(biāo)不符。因此,需要將模型的翻譯結(jié)果還原為純目標(biāo)語言的形式,以獲取準(zhǔn)確的最終翻譯結(jié)果。然而,由于在構(gòu)建統(tǒng)一詞表示詞表時存在信息丟失,如果僅通過統(tǒng)一詞表示詞表進(jìn)行逆向操作,可能會導(dǎo)致翻譯結(jié)果單一或不準(zhǔn)確。
為了解決這個問題,本文在訓(xùn)練結(jié)束后,使用一個額外的反統(tǒng)一化的步驟。這一步通過使用 Trans-former base模型,將前面構(gòu)建的統(tǒng)一詞表示化數(shù)據(jù)及其原始數(shù)據(jù)作為模的輸入,通過訓(xùn)練NMT模型,使模型學(xué)習(xí)到將統(tǒng)一詞表示化數(shù)據(jù)還原為目標(biāo)語言數(shù)據(jù)的映射關(guān)系。通過引人一個額外的NMT模型,將本文提出的翻譯模型的輸出還原為目標(biāo)語言形式的句子,即越南語形式句子。
3 實驗與結(jié)果分析
3.1 數(shù)據(jù)集
本文使用深藍(lán)電子詞典的越南語-漢語詞典,經(jīng)過篩選電子數(shù)據(jù)中的有效數(shù)據(jù),共提取有效詞條88960條,其中一對一詞條58403條,一對多詞條30557條。
本文使用 CCMatrix[17]數(shù)據(jù)集(htps://opus.nlpl.eu/legacy/CCMatrix.php),該數(shù)據(jù)集包含90 種語言的雙語語料,利用網(wǎng)絡(luò)爬蟲技術(shù)從互聯(lián)網(wǎng)中抓取大量數(shù)據(jù),并使用文本挖掘技術(shù)從數(shù)據(jù)中抽取高質(zhì)量平行句對構(gòu)成數(shù)據(jù)集。本文使用了該數(shù)據(jù)集中約5000萬句對的英越數(shù)據(jù)集,以及約800萬句對漢越數(shù)據(jù)集。經(jīng)過清洗、過濾和篩選,最終保留了400萬句對的高質(zhì)量英越語料,其中包含0.3萬句的測試語料和0.3萬句的驗證語料;漢越語料的選擇也以同樣的標(biāo)準(zhǔn)提取了20萬句對高質(zhì)量語料,其中0.3萬句為測試語料,0.3萬句為驗證語料。
3.2 實驗配置
本文采用Fairseq工具包來實現(xiàn)模型,版本為0.12.0。本文選取具有6層編碼器和解碼器的 Trans-former模型為機(jī)器翻譯實驗的基礎(chǔ)架構(gòu)。具體參數(shù)設(shè)置:詞嵌人向量維度和隱藏層維度均為512,學(xué)習(xí)率設(shè)置為 9×10-5 , α 設(shè)為0.01;使用Adam作為優(yōu)化器,優(yōu)化器設(shè)為 β1=0.9,β2=0.98 ,為防止模型過擬合,標(biāo)簽平滑值為0.1;解碼過程使用約束搜索算法,搜索寬度設(shè)置為5;使用BLEU作為評價指標(biāo)。父模型的Dropout 值為0.1,訓(xùn)練了150個epoch;所有子模型的 Dropout值為0.3,均訓(xùn)練了150個epoch。其他參數(shù)設(shè)置沿用Liu Shudong 等[16]的設(shè)置,整個訓(xùn)練過程在一張英偉達(dá)RTX 3090 上進(jìn)行。
此外,在訓(xùn)練過程中,文本采用Aji 等[1]提出的嵌人初始化方式—“標(biāo)記匹配(token matching,TM)”對子模型的嵌入層進(jìn)行初始化。
3.3 實驗結(jié)果與結(jié)果分析
為了驗證提出的融人跨語言統(tǒng)一詞表示模型的有效性,本文進(jìn)行了以下實驗。首先,在不使用遷移學(xué)習(xí)策略的情況下,使用子模型語言對雙語數(shù)據(jù)在基礎(chǔ)的Transformer模型上訓(xùn)練NMT模型。其次,使用父模型和子模型語言對雙語數(shù)據(jù)在KNN-TL模型以及TM-TL模型上訓(xùn)練基于遷移學(xué)習(xí)策略的NMT模型,并將基礎(chǔ) Transformer模型、KNN-TL模型和TM-TL模型共同作為基線模型進(jìn)行對比。同時,本文還與黃繼豪等[10]的TLNMT-TL模型的結(jié)果進(jìn)行對比。最后,基于本文提出的模型,使用父模型和子模型語言對雙語數(shù)據(jù)訓(xùn)練遷移學(xué)習(xí)模型,并在訓(xùn)練過程中,分別使用采取不同分詞策略的子模型訓(xùn)練數(shù)據(jù)。具體實驗結(jié)果見表3。
根據(jù)表3的實驗結(jié)果,KNN-TL模型相比基礎(chǔ)Transformer模型在漢越翻譯方向上獲得了7.5的BLEU值提升,這再次證明了遷移學(xué)習(xí)父子框架的有效性。在遷移學(xué)習(xí)父子框架下,本文提出的模型在使用恰當(dāng)?shù)姆衷~方法下,有兩種方法都獲得比同樣基于遷移學(xué)習(xí)父子框架訓(xùn)練的KNN-TL模型顯著的改進(jìn)效果,證明了融入跨語言統(tǒng)一詞表示模型的有效性。本文提出的模型在“統(tǒng)一詞表示化數(shù)據(jù)使用mbert分詞,越南語數(shù)據(jù)使用bpe分詞”的情況和“統(tǒng)一詞表示化數(shù)據(jù)和越南語數(shù)據(jù)都使用mbert分詞”的情況下,相較于基線模型分別獲得了1.35和2.53的BLEU值提升。
但本文提出的方法在“統(tǒng)一詞表示化數(shù)據(jù)和越南語數(shù)據(jù)都使用bpe分詞”的情況下,分?jǐn)?shù)相較于基線KNN-TL模型的性能下降明顯,甚至比不使用遷移學(xué)習(xí)父子框架的基礎(chǔ) Transformer 模型在漢越翻譯方向上的性能低10.18個BLEU值。這是由于本文中選擇的子模型語言對中含有漢語,而bpe分詞策略并不能很好地對漢語進(jìn)行分詞操作,其根據(jù)統(tǒng)一詞表示化數(shù)據(jù)訓(xùn)練出的詞表中也不包含漢語,從而導(dǎo)致了更嚴(yán)重的信息損失,阻礙了遷移的過程。究其本質(zhì),統(tǒng)一詞表示化數(shù)據(jù)在本質(zhì)上并不是一種與現(xiàn)有語言毫無關(guān)系的語言,它依然受到構(gòu)成其句子的語種符號的限制。雖然本文提出的基于跨語言統(tǒng)一詞表示的NMT模型經(jīng)過實驗驗證是有效的,若在使用不根據(jù)實際語種信息選擇恰當(dāng)?shù)姆衷~策略,則會導(dǎo)致模型基本失效。
此外,在表3的實驗結(jié)果中,本文提出的模型在“統(tǒng)一詞表示化數(shù)據(jù)和越南語數(shù)據(jù)都使用mbert 分詞\"的情況下的BLEU值比在“統(tǒng)一詞表示化數(shù)據(jù)使用mbert分詞,而統(tǒng)一詞表示化的原始數(shù)據(jù),即約束數(shù)據(jù)使用bpe分詞”的情況下的BLEU值高1.18。針對這一現(xiàn)象,本文認(rèn)為造成這一現(xiàn)象的原因在于bpe分詞策略和mbert分詞策略的編碼結(jié)果不同,這相當(dāng)于人為造成的兩種書寫體系不同的語言。若使用bpe分詞后的目標(biāo)語言原句子約束使用mbert分詞后的統(tǒng)一詞表示化的句子,這種書寫體系的不同會增加模型學(xué)習(xí)的負(fù)擔(dān),使得模型需要學(xué)習(xí)更多的知識以獲得這兩種表征之間的關(guān)系。相比之下,使用mbert分詞后的目標(biāo)語言原句子約束使用mbert分詞后的統(tǒng)一詞表示化的句子,兩句子的表征形式更加接近,模型更易學(xué)習(xí)到越南語句子的特征信息。
本文在確定超參數(shù) ∝ 時,在 0.1,0.05,0.01,0.001 幾個值上進(jìn)行了實驗,通過觀察訓(xùn)練過程中模型損失值的變化及模型性能等數(shù)據(jù),最后將 α 數(shù)值設(shè)置為0.01。
本文在將統(tǒng)一詞表示詞表整合到越南語數(shù)據(jù)中,構(gòu)建統(tǒng)一詞表示化數(shù)據(jù)時,采用了替換操作。接下來,本文將探索在一對一詞表和一對多詞表上使用不同的替換策略對模型性能的影響。其中一對一詞表為保留的越南語-漢語的詞對應(yīng)關(guān)系,一對多詞表為越南語-英語的次對應(yīng)關(guān)系。通過控制替換操作的次數(shù)和替換操作使用的詞表數(shù)量,本文對不同替換策略進(jìn)行了測試。實驗結(jié)果見表4。
表4結(jié)果顯示,當(dāng)替換策略為“不區(qū)分一對多或是一對一詞表”時,本文提出的模型達(dá)到了最好的模型效果。而當(dāng)替換策略為表中其他三種策略時,模型性能都未超過“不區(qū)分一對多或是一對詞表”時的模型性能。此外,當(dāng)替換策略為“僅在一對一詞表”時,模型的得分與最高得分接近,且相比“同時在兩個詞表”和\"僅在一對多詞表”策略上的分?jǐn)?shù)均提高超過1個BLEU值。這表明,在構(gòu)建統(tǒng)一詞表示化數(shù)據(jù)時,數(shù)據(jù)的多樣性能為模型提供更多的信息,且在測試時的魯棒性更強(qiáng)
本文的實驗?zāi)P妥鳛闈h越NMT模型,當(dāng)模型僅接受英越詞表的知識時,由于缺少漢越的相關(guān)知識,模型的得分相對不高。其次,在“同時在兩個詞表”策略下,即強(qiáng)制模型的所有訓(xùn)練數(shù)據(jù)都必須是同時包括漢語、英語和越南語的數(shù)據(jù),則模型因缺少對于僅由漢越詞匯構(gòu)成的句子的相關(guān)知識,性能也不理想。最后,當(dāng)模型僅接受由漢越詞匯構(gòu)成的句子時,雖然這種句子形式符合模型的翻譯方向,得分高于前述兩種形式的數(shù)據(jù),但強(qiáng)制將兩種遠(yuǎn)距離語言融入同一個句子中,導(dǎo)致信息損失增加,進(jìn)而導(dǎo)致模型的魯棒性較差,在性能上較“不區(qū)分詞表”策略稍差。
本文在實驗中采用Aji等[1]提出的嵌入初始化方式TM-TL方法,即使用父模型的嵌入層初始化子模型的嵌人層進(jìn)行遷移學(xué)習(xí)相比,本文所提出的模型在目標(biāo)端引人額外的數(shù)據(jù)對模型的學(xué)習(xí)訓(xùn)練過程進(jìn)行約束。為了探究額外的約束數(shù)據(jù)的種類對于模型效果的影響,本文通過使用不同種類的約束句子對模型的最后效果進(jìn)行了測試,其中TM-TL是本文模型去除改進(jìn)部分后的部分,即一個基礎(chǔ)的遷移學(xué)習(xí)訓(xùn)練框架。實驗結(jié)果見表5。
根據(jù)表5的實驗結(jié)果顯示,與不使用額外約束數(shù)據(jù)的TM-TL方法相比,本文引入額外數(shù)據(jù)后的模型效果BLEU值分別提升了3.7和4.21。在引入統(tǒng)一詞表示化數(shù)據(jù)作為約束數(shù)據(jù)時,由于沒有真正的目標(biāo)語言形式的句子對模型進(jìn)行約束,導(dǎo)致模型的性能較引入統(tǒng)一詞表示化數(shù)據(jù)的原始數(shù)據(jù)的模型性能,BLEU值略微下降0.51。綜合實驗結(jié)果可得出結(jié)論,本文所提出的模型在目標(biāo)端引入額外的數(shù)據(jù)對模型的學(xué)習(xí)訓(xùn)練過程進(jìn)行約束的學(xué)習(xí)策略是合理且有效的。
4結(jié)論
針對遷移學(xué)習(xí)難以有效應(yīng)用到語言差異性大、資源不充分的語言對間的翻譯問題。本文提出了一種基于跨語言統(tǒng)一詞表示漢越神經(jīng)機(jī)器翻譯方法。
首先,通過使用漢越專業(yè)雙語詞典構(gòu)建統(tǒng)一詞表示詞表,并形成統(tǒng)一詞表示化數(shù)據(jù)。其次,使用統(tǒng)一詞表示化數(shù)據(jù)與漢語句子數(shù)據(jù)共同構(gòu)成雙語平行數(shù)據(jù)。最后,利用原始越南語句子的特征對訓(xùn)練過程進(jìn)行約束。實驗結(jié)果表明,本文提出的模型,顯著提升了漢越神經(jīng)機(jī)器翻譯的質(zhì)量,相比于基線模型提升了2.53個BLEU值。未來工作中,我們還將探索應(yīng)對雙向?qū)I(yè)雙語詞典中存在的多對多語言現(xiàn)象的統(tǒng)一詞表示方法,并將其應(yīng)用到低資源NMT模型中,以進(jìn)一步提升翻譯性能。
[參考文獻(xiàn)]
[1] ZHUANG Xuhui,GAO Shengxiang,YU Zhengtao,etal.Low resource neural machine translation model optimizationbased onsemanticconfidence weightedalignment[J].IntemationalJournalof Machine LeamingandCybernetics,2O24,154325- 4340.
[2] HADDOW B,BAWDEN R,BARONE A VM,et al.Survey of low-resource machine translation[J]. Computational Linguistics,2022,48(3) :673-732.
[3] ZOPHB,KNIGHTK.Multi-sourceneural translation[C]//Proceedings ofthe15thAnnual ConferenceoftheNorthAmerican Chapter of the Association for Computational Linguistics,2O16:30-34.
[4] 郭劍毅,趙晨,劉艷超,等.融合語言特性的越南語兼類詞消歧[J].數(shù)據(jù)采集與處理,2019,34(4):577-584.
[5] LI Zhaocong,LIU Xuebo,WONGDF,etal.ConsistTL;Modeling ConsistencyinTransfer Learning forLow-Resource Neural Machine Translation[C]//Proceedings of the 2O22 Conferenceon Empirical Methods in Natural Language Processing, 2022:8383-8394.
[6]GAO Yuan,HOU Feng,WANG Ruili.A Novel Two-stepFine-tuning Framework for Transfer Learning in Low-Resource Neural Machine Translation[C]//NAACL:Findingsof theAssociation for Computational Linguistics,2O24:3214-3224.
[7]CHANG Yupeng,WANG Xu,WANG Jindong,etal.A surveyon evaluation of large language models[J].ACM Transactionson Intelligent Systemsand Technology,2024,15(3) :1-39.
[8]谷雪鵬,張樂樂,郭軍軍,等.融合新冠領(lǐng)域知識的漢越神經(jīng)機(jī)器翻譯方法[J].陜西理工大學(xué)學(xué)報(自然科學(xué)版), 2023,39(4) :26-34.
[9]HUJONA V,SINGHTD,AMITABK.Transfer learning based neural machine translation ofenglish-khasi onlow-resource settings[J].Procedia Computer Science,2023,218:1-8.
[10] 黃繼豪,余正濤,于志強(qiáng),等.基于遷移學(xué)習(xí)的漢越神經(jīng)機(jī)器翻譯[J].廈門大學(xué)學(xué)報(自然科學(xué)版),2021,60(1): 104-108.
[11] AJI AF,BOGOYCHEY N,HEAFIELD K,etal.In neural machine translation,what does transfer learning transfer? [C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics,2020.
[12]LAKEW SM,EROFEEVAA,NEGRI M,et al.Transfer Learning in Multilingual Neural Machine Translation with Dynamic Vocabulary[C]//Proceedingsof the15th International Conference on Spoken Language Translation,2O18:54-61.
[13]AMRHEIN C,SENNRICHR.On Romanization for Model Transfer Betwen Scripts in Neural Machine Translation[C]// Proceedingsof the2O20 ConferenceonEmpirical Methods inNaturalLanguageProcessing:Findings,2O20:2461-2469.
[14] VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems,2017:6O00-6010.
[15]RANATHUNGA S,LEE ES A,PRIFTI S M,et al.Neural machine translation for low-resource languages:A survey[J]. ACM Computing Surveys,2023,55(11) :1-37.
[16] LIU Shudong,LIU Xuebo,WONG DF,etal.kNN-TL:k-nearest-neighbortransferlearning for low-resourceneuralmachine translation[C]//Proceedingsof the61stAnnual Metingof theAsociationforComputational Linguistics,2023: 1878-1891.
[17]SCHWENK H,WENZEK G,EDUNOV S,et al. CCMatrix:Mining Bilions of High-Quality Paralel Sentences on the Web [C]//Proceedingsof the59thAnnualMetingof theAssciationforComputationalLinguisticsandthe11thInternational Joint Conference on Natural Language Processing,2021 :6490-6500.
[責(zé)任編輯:謝平]
Abstract:For translation between languages like Chinese and Vietnamese,which have significant linguistic diferencesand distinct writing systems,conventional transfer learning is hard to deliver the expected outcomes. The study proposes a neural machine translation method based on cros-lingual unified word representation.First,the method constructs acros-lingual unified word representation vocabulary using a specialized Vietnamese-Chinese bilingual dictionary.Then,thisvocabulary is used to replace words in Vietnamese sentences,generating data withunified word representations,thereby obtaining training data that integrates cross-lingual unified word representations.Finally,during the training of the submodel, Vietnamese sentence feature constraints are incorporated to ensure that the model accurately learns the linguistic features of Vietnamese.Experimental results indicate that this method can significantly enhance the qualityof Chinese-Vietnamese neural machine translation,with a gain of up to 2.53 BLEU points compared to the baseline model. The study proposes a transfer learning method based on cross-lingual unified word representation as an improved transfer strategy,which demonstrates significant efectiveness in improving the performance of ChineseVietnamese neural machine translation.
Key words:Chinese-Vietnamese neural machine translation; transfer learning;distant languages; cross-lingual unified word representation;vocabulary mismatch