亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于回譯和集成學習的維漢神經(jīng)機器翻譯方法

        2022-11-07 02:33:16楊雅婷艾孜麥提艾尼瓦爾
        蘭州理工大學學報 2022年5期
        關鍵詞:方法模型

        馮 笑, 楊雅婷*, 董 瑞, 艾孜麥提·艾尼瓦爾, 馬 博

        (1.中國科學院 新疆理化技術研究所, 新疆 烏魯木齊 830011; 2.中國科學院大學, 北京 100049; 3.新疆民族語音處理實驗室, 新疆 烏魯木齊 830011)

        表1 維吾爾語言特性舉例

        為了能夠獲得性能更好的神經(jīng)機器翻譯系統(tǒng),研究人員嘗試了各種方法.回譯可以利用大規(guī)模單語語料來提升機器翻譯模型性能.它首先訓練一個目標語言到源語言的機器翻譯系統(tǒng),然后將目標端單語數(shù)據(jù)翻譯成源端數(shù)據(jù),得到偽平行語料對訓練數(shù)據(jù)進行擴充.Sennrich等[3]經(jīng)過實驗證明回譯能夠提升神經(jīng)機器翻譯系統(tǒng)的性能.Poncelas等[4-5]探究了平行語料和偽平行語料的規(guī)模比例對機器翻譯性能的影響,并且發(fā)現(xiàn)機器翻譯模型的性能和所使用的單語數(shù)據(jù)的領域有著十分重要的關系.Hoang等[6-7]提出了一種迭代訓練方法,通過不斷對反向翻譯系統(tǒng)和最終翻譯系統(tǒng)進行迭代,同時提升反向翻譯以及最終翻譯系統(tǒng)的性能.Poncelas等[8]通過將統(tǒng)計機器翻譯模型和神經(jīng)機器翻譯模型進行回譯所得到的偽平行語料混合,顯著提升了機器翻譯的效果.Luo等[9]針對低資源語言,提出一種將回譯與遷移學習相結合的神經(jīng)機器翻譯模型.

        集成學習是通過構建并結合多個模型來完成學習任務,結合后模型的泛化性能通常會優(yōu)于單一的模型,是一種在機器學習任務中有效而且使用廣泛的技術[10].常用的集成學習方法主要有Bagging[11]、Adaboost[12]等.集成學習能夠顯著提高神經(jīng)機器翻譯的準確率,這使其成為在機器翻譯領域中被廣泛使用的技術[13-19].Vaswani等[13]提出將單一模型訓練過程中不同時刻保存的N個模型的參數(shù)進行平均來獲得魯棒性更強的模型.Sennrich等在WMT16[14]測評任務中使用了模型參數(shù)平均的方法,在WMT17[15]測評任務中使用了獨立集成的方法,均取得了優(yōu)異的成績.李北等[16]通過實驗總結出了一種在機器翻譯中更高效的集成方法.張新路等[17]通過集成學習整合多個模型預測的概率分布,提出了基于集成學習的雙向重排序模型.Wang等[18]提出了一種TEL(transductive ensemble learning)的方法,該方法能夠在測試集源語言已知的情況下有效地集成多個NMT模型,進一步提升了強翻譯模型的性能.

        利用回譯進行數(shù)據(jù)增強并結合集成學習可以進一步提高模型的性能,但傳統(tǒng)集成學習需要從頭訓練多個子模型,存在訓練周期長、計算資源消耗大的問題,當訓練集進行了數(shù)據(jù)增強時,這個問題會更加突出.為了緩解這個問題并提升維漢機器翻譯系統(tǒng)的質量,本文提出了一個基于回譯和集成學習的方法(BTEM,back translation and ensemble),在CWMT2015和CWMT2017測試集上的實驗證明,BTEM相對于基線系統(tǒng)的BLEU值分別提升了2.37和1.63,且訓練周期和計算資源消耗大大縮減.

        1 相關技術

        1.1 神經(jīng)機器翻譯

        神經(jīng)機器翻譯是一個序列到序列的學習任務,通常用一個編碼器-解碼器的框架來建模[19].使用編碼器將一個源語言句子X=(x1,x2,…,xn)編碼為中間向量Z,解碼器根據(jù)Z生成目標語言句子Y=(y1,y2,…,yn).對編碼器和解碼器進行聯(lián)合訓練,使給定源序列的目標序列條件概率最大化:

        (1)

        編碼器和解碼器可以使用不同的神經(jīng)網(wǎng)絡結構來實現(xiàn),包括GRU[20]、CNN[21]以及Transformer[13]等.基于自注意力機制的Transformer是神經(jīng)機器翻譯領域中最先進的架構.

        基于注意力機制的Transformer拋開了傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡的序列結構,不但保證了模型的并行化,也改善了模型的表示能力,提升了模型的精確度.Transfomer采用的是編碼器-解碼器的結構,由N個堆疊的編碼器-解碼器層組成.因為它沒有使用循環(huán)或卷積神經(jīng)網(wǎng)絡,為了得到序列的位置信息,在詞向量中注入了位置編碼信息.Transformer中的編碼器由N個相同的層堆疊而成,每一個層有兩個子層,分別是多頭注意力機制和簡單的前饋神經(jīng)網(wǎng)絡.同編碼器類似,解碼器在編碼器的基礎上增加了一個能夠處理從編碼器端輸出的多頭注意力機制的子層.為了保證梯度傳遞的穩(wěn)定性和模型收斂的速度,在編碼器端和解碼器端的每一個子層后面都增加了正則化操作和殘差連接[22].為了從不同位置的不同表示子空間獲取信息,Transformer使用了基本單元是縮放的點積注意力模型的多頭注意力機制,這種注意力的輸入為dk維的query,dv維的key和value,每一個頭對應一個點積注意力模型,計算公式如下:

        (2)

        式中:查詢矩陣Q的每一行與一個query相對應;每一個query與鍵值矩陣K的轉置相乘后,可以得到一個dv維的加權求和的結果.多頭注意力機制就是把query、key、value映射成h組維度大小是dq、dk、dv的向量,分別進行按比例的點積注意力,最后輸出拼接得到的h個向量,如下式所示:

        (3)

        MultiHead(Q,K,V)=Concatj(headj)WO

        (4)

        1.2 集成學習

        在詞級集成中,一組個體模型逐步地聯(lián)合生成一個序列.即給定一個源語言句子x∈X,第t個位置將要輸出的單詞y(t)的選擇式如下式所示:

        (5)

        其中:y=(y(1),y(2),…,y(t),…)是源語言句子x的譯文.

        給定源句子x,每個模型獨立生成一個譯文,得到候選句子對集合T(x)={(x,fm(x))|m∈M},句子級集成最常見的就是對集合中的句子對進行重排序[23],由所有M個模型評估的得分最高的譯文作為最終的輸出:

        (6)

        根據(jù)Imamura和Sumita[24]的工作可以看出,句子級別的集成和詞級別的集成在不同的環(huán)境下通??梢垣@得類似的結果,所以在本文后面的部分,主要使用詞級集成.

        1.3 回譯

        2 問題描述

        新疆地區(qū)作為“一帶一路”倡議中連接亞歐大陸的國家開放大通道,構建性能良好的維漢機器翻譯系統(tǒng)促進地區(qū)發(fā)展、文化交流對“一帶一路”倡議的繁榮發(fā)展具有重要意義.“數(shù)據(jù)驅動”的神經(jīng)機器翻譯在中英、英德等資源豐富的平行語料上取得了巨大的成功,但是維吾爾語作為一種低資源語言,維漢平行語料的匱乏嚴重限制了維漢機器翻譯的質量.而人工標注維吾爾語-漢語平行語料需要大量的人力、物力,既費時又費力.因此,從充分利用現(xiàn)有資源的角度出發(fā),研究如何在平行語料匱乏的條件下有效地提升維漢神經(jīng)機器翻譯的質量具有重要意義.

        3 本文方法

        為了緩解上述問題,本文提出了一個BTEM方法.本節(jié)介紹該方法的基本思想以及與其他工作的聯(lián)系和區(qū)別.

        2)利用fbt對Dtrgmo做回譯,得到偽平行語料:

        (7)

        5)使用這N份子訓練集分別對中間模型fitm進行微調,增加其對不同數(shù)據(jù)的敏感度,得到N個具有差異性的子模型:

        k∈{1,2,…,N}

        (8)

        (9)

        vt是目標語言詞匯表.

        BTEM方法的結構圖如圖1所示.

        圖1 BTEM方法結構圖

        BTEM方法和其他集成學習、回譯的方法有以下不同之處:

        1)傳統(tǒng)的回譯方法主要用作數(shù)據(jù)增強,將回譯所得到的偽平行語料和平行語料混合后直接訓練,在BTEM方法中,偽平行語料用來訓練中間模型.

        2)Bagging集成學習方法是使用有差異性的子訓練集從頭訓練多個模型,但BTEM方法是使用不同的子訓練集對中間模型進行微調,來得到多個具有差異性的子模型.

        3)BTEM充分吸收了數(shù)據(jù)增強和Bagging集成學習的優(yōu)點,可以顯著提升譯文質量,但考慮到訓練周期和硬件代價問題,該方法不需要從頭訓練多個模型,是一種非常高效的方法.

        4 實驗

        本節(jié)主要介紹了本文在維漢機器翻譯任務上的實驗,驗證BTEM方法的有效性.

        實驗運行環(huán)境:操作系統(tǒng)為Ubuntu 18.04.1 LTS(GNU/Linux 4.15.0-42-generic x86_64),gcc版本為5.4.0,編程語言為python 3.6.9,深度學習框架為pytorch 1.3.1,在2塊Tesla k80 GPU上進行訓練.

        4.1 數(shù)據(jù)及預處理

        本文使用的數(shù)據(jù)集是CCMT2020提供的500萬句漢語單語語料以及CWMT2015提供的35萬維漢平行語料,測試集為CWMT2015和CWMT2017所提供的測試集.

        對于維吾爾語,使用subword-nmt工具進行BPE[26]處理緩解未登錄詞的問題,BPE融合數(shù)設置為32 000.與維吾爾語不同,漢語的基本構詞單位是字,常用字只有1萬多個,但是詞的規(guī)模達到了30萬,以詞為單位會由于詞表過大而放大數(shù)據(jù)稀疏問題,所以本文實驗對漢語進行字符級切分.

        其次,對于500萬漢語單語語料,同樣對其進行基于字符級別的切分.借鑒之前的一些研究工作[27],在本文中根據(jù)切分后的漢語單語語料中所有詞在平行語料詞典中出現(xiàn)的比例,選出比例大于0.9的漢語單語句子,使得漢語單語語料的領域更加接近維漢平行語料.剔除漢語單語語料中句子過長、過短以及含有亂碼的句子,處理后的數(shù)據(jù)集信息見表2.

        表2 實驗數(shù)據(jù)集

        4.2 實驗設置

        實驗采用fairseq作為模型框架,使用Transformer模型作為實驗的基線模型.采用Transformer_base模型,編碼端和解碼端的層數(shù)都是6層,詞向量的維度為512,前饋神經(jīng)網(wǎng)絡為2 048維.采用Adam算法[28]作為優(yōu)化算法,Dropout[29]設置為0.3來緩解模型訓練過程中的過擬合問題,從頭開始訓練模型時學習率設置為5×10-4.解碼時使用Beam-search策略,beam-size大小設置為5.使用機器翻譯領域最常用的機器雙語互譯評估值[30](BLEU)對模型效果進行評價.基于上述參數(shù),訓練得到基線模型,在CWMT2015和CWMT2017測試集上的BLEU值分別為54.30和31.11.

        4.3 不同參數(shù)對微調結果的影響

        首先,只使用偽平行語料訓練得到中間模型,該模型在CWMT2015和CWMT2017測試集上的BLEU值分別為44.58和25.09.在使用子訓練集進行微調的時候,如果學習率設置較大,則會出現(xiàn)災難性遺忘的問題,即模型在學習新知識的時候將中間模型的知識遺忘;如果學習率設置太小,又會出現(xiàn)參數(shù)更新速度太慢,導致模型無法快速地找到好的下降方向,消耗更多的訓練資源.本文首先探索了學習率(learning rate)和預熱值(warmup updates)對微調的影響,如表3所列.從表3可以看出,當學習率設置為1.2×10-4,且預熱更新步數(shù)為10 000的時候,微調模型效果相對較好,下面的實驗中微調全部采用此參數(shù).

        表3 不同微調參數(shù)對模型性能的影響

        4.4 不同子集規(guī)模對微調和集成的影響

        在進行集成學習時,需要遵循“好而不同”的原則,即參與集成的子模型效果要好而且相互之間具有差異性.在進行子集的抽取時,如果子集規(guī)模抽取得太小,會無法充分利用平行語料,導致單個子模型性能過低,但是如果子集規(guī)模過大,那么子模型之間的差異性就大大降低.本小節(jié)探索不同子集的規(guī)模對子模型微調和集成效果的影響,并對回譯和集成學習在BTEM方法中所起的具體作用進行了分析,如表4所列.

        表4 子集規(guī)模對模型微調和集成的影響

        表4中,子模型是使用重采樣后的訓練集對中間模型進行微調的結果.可以看出,基本上所有的子模型在兩個測試集上相對于基線模型都有了不同程度的提升,這是因為中間模型是使用回譯和大規(guī)模單語語料所得到的偽平行語料訓練而來,通過原始平行語料對其微調,可以將大規(guī)模的目標端單語數(shù)據(jù)知識有效地融合到模型中,同時模型避免了偽平行語料中噪聲的影響.

        在CWMT2015測試集上,使用100%規(guī)模原始平行語料微調后的4個子模型BLEU值從整體上看比其他規(guī)模略高,這是因為其充分利用了原始平行語料.但在CWMT2017測試集上,整體上卻比90%規(guī)模微調后的子模型略低,通過對比這些子模型在驗證集上BLEU值可以發(fā)現(xiàn),在驗證集上使用100%規(guī)模原始平行語料微調后的4個子模型的BLEU值整體上比90%規(guī)模的更高,如表5所列.由此推測,這是因為重采樣后的訓練集與CWMT2017測試集中的數(shù)據(jù)分布相對更加接近.

        表5 不同規(guī)模子模型在驗證集上的BLEU值

        從表4中還可以看出,將4個子模型進行集成之后,所得到的集成模型的BLEU值相對于各子模型都有所提升.這是因為4個子模型是分別使用規(guī)模相同但內容有差異的4個子訓練集對中間模型微調而來,增加了4個子模型之間的差異性;而集成學習是一種聯(lián)合多個模型進行協(xié)同決策的機器學習方法,它有效整合了4個子模型預測的概率分布,提升了翻譯質量.當子集的規(guī)模為原始平行語料的90%時,微調后的4個子模型集成的效果最好,在CWMT2015和CWMT2017測試集上的BLEU值分別達到了56.67和32.74.當使用100%規(guī)模原始平行語料進行微調時,因為數(shù)據(jù)差異性較小,所得到的子模型間差異性較小,集成時所提升的效果有限.

        4.5 對比方法

        本實驗將BTEM方法分別與基于Transformer的神經(jīng)機器翻譯系統(tǒng)、Bagging、數(shù)據(jù)增強、數(shù)據(jù)增強+Bagging以及模型參數(shù)平均等方法進行了對比.

        1)基于Transformer的神經(jīng)機器翻譯系統(tǒng)

        實驗采用由Vaswani等提出的Transformer模型,訓練采用3.2節(jié)所述參數(shù),訓練得到的模型記為Base Model,并以此作為基線系統(tǒng).

        2)Bagging

        Bagging是一個非常經(jīng)典、有效的集成學習方法,其基本思想是分別使用重采樣后的子數(shù)據(jù)集訓練多個子模型,預測時對不同模型的輸出結果取平均得到集成模型的輸出.

        3)數(shù)據(jù)增強(data augmentation)

        將回譯所得到的偽平行語料與原始平行語料混合后直接訓練.

        4)隨機種子+數(shù)據(jù)增強+Bagging(RBD)

        將數(shù)據(jù)增強(平行語料與偽平行語料混合)后的數(shù)據(jù)集進行Bagging集成學習,初始化子模型的時候利用不同的隨機種子增加子模型間的多樣性.

        5)100%-fine-tune

        使用100%規(guī)模平行語料對中間模型微調.

        6)模型參數(shù)平均(parameters on average)

        因為模型在訓練的過程中要更新一定的輪數(shù)才能收斂,為了獲得更具有泛化性的模型,Vaswani等[13]提出了模型參數(shù)平均的方法,即將單一模型在訓練過程中最近保存的N個模型的參數(shù)矩陣對應位置數(shù)值進行平均得到新的參數(shù)矩陣,本次實驗將數(shù)據(jù)增強實驗訓練過程中保存的模型進行參數(shù)平均.

        7)TEL(transductive ensemble learning)

        基于集成學習思想來利用全部或部分源語言端測試數(shù)據(jù).具體來講,首先利用隨機種子訓練得到多個不同但性能較好的模型,其次使用這些模型將驗證集和測試集的源語言端句子翻譯到目標語言,并將其合并得到新的數(shù)據(jù)集,然后在合成數(shù)據(jù)集上微調各模型,最后保留在驗證集上BLEU值最高的單一模型[18].

        4.6 模型參數(shù)平均

        Vasawani等提出模型參數(shù)平均方法時并沒有給出經(jīng)驗性的結論,本小節(jié)探索了在維漢神經(jīng)機器翻譯中參與平均的模型數(shù)量對模型性能的影響,如圖2所示.從圖中可以看出,當對最近保存的10、15、20個模型進行平均,BLEU值均得到了提升,其中對最近保存的10個模型進行平均時BLEU值最高,在CWMT2015和CWMT2017年的測試集上分別為55.79和31.88,在以后的工作中可以考慮對最近保存的10個模型進行參數(shù)平均.

        圖2 平均不同數(shù)量模型參數(shù)結果

        4.7 實驗結果對比與分析

        BTEM方法與其他方法的對比結果見表6.通過表6可以看出,各種方法相較于BaseModel,BLEU都有了一定的提升,且BTEM方法在CWMT2015和CWMT2017的測試集上分別提升了2.37和1.63.這是因為BTEM方法首先利用回譯和大規(guī)模單語語料獲得偽平行語料,使用偽平行語料訓練得到中間模型;然后使用原始平行語料對其微調,將單語數(shù)據(jù)知識有效地融合到子模型中;最后聯(lián)合多個子模型進行協(xié)同決策,整合多個子模型的預測概率分布,進一步提升了翻譯效果.

        表6 不同方法對比

        表6中的結果表明,BTEM方法優(yōu)于基線系統(tǒng)和其他幾種方法,但該方法在統(tǒng)計意義上是否具有顯著的效果也很重要,所以本文使用了自舉檢驗法[31]對BTEM方法進行統(tǒng)計意義上的檢驗.

        自舉檢驗法的工作原理如下:假設有測試集T0中有N個測試樣例,使用有放回的重采樣方法從T0中進行重采樣得到一個規(guī)模同樣是N的新測試集T1.然后再重復該步驟M-1次,可以得到M+1個測試集.在本文中M設置為1 250.

        使用BTEM方法訓練所得到的模型在這1 251個測試集上測得BLEU值,然后基于這1 251個BLEU值計算出本方法在CWMT2015和CWMT2017測試集上的95%置信區(qū)間,分別為[56.64,56.87]和[32.67,32.80].從表6可以看出,除了RBD方法以外,其他方法在測試集上的BLEU值都落在BTEM方法的置信區(qū)間下限以下,表明BTEM方法明顯優(yōu)于其他方法.

        除RBD方法外,BTEM的BLEU值相對于其他方法都有了一定提升.相對于RBD方法,BTEM方法的優(yōu)勢是只需要在大規(guī)模的偽平行語料上訓練1次得到中間模型,再使用幾份規(guī)模較小的平行語料對中間模型進行微調就可以得到多個子模型,而RBD方法需要在平行語料和偽平行語料混合后的大規(guī)模數(shù)據(jù)集上從頭訓練多個子模型.表7展示了BTEM和RBD方法進行訓練時所使用的數(shù)據(jù)規(guī)模.

        表7 兩種方法所使用的數(shù)據(jù)規(guī)模

        如表7所列,本文實驗中BTEM方法先利用全部的偽平行語料訓練得到中間模型,然后分別使用4份90%規(guī)模的平行語料對中間模型進行微調得到4個子模型,實現(xiàn)了中間模型的復用.而RBD方法是使用平行語料和偽平行語料混合后的大規(guī)模訓練集的90%從頭訓練了4次得到4個子模型.雖然BTEM方法相對于RBD方法BLEU值并沒有明顯提升,但其訓練周期更短,節(jié)省了大量計算資源,相對來說更加高效.

        5 結論

        本文針對維漢平行語料匱乏導致的神經(jīng)機器翻譯系統(tǒng)質量不佳的問題,提出一種BTEM方法來構建維漢機器翻譯系統(tǒng).在測試集CWMT2015和CWMT2017上的實驗結果顯示,使用該方法訓練所得到的維漢神經(jīng)機器翻譯系統(tǒng)的BLEU值相對于基線系統(tǒng)分別提升了2.37和1.63,能夠顯著地提高維漢神經(jīng)機器翻譯的性能,且相對于RBD方法節(jié)省了大量的訓練時間和計算資源.目前集成學習相關的工作中,大部分都使用了多個模型,下一步工作將會探索在維漢神經(jīng)機器翻譯系統(tǒng)中,子模型的數(shù)量對集成系統(tǒng)效果的影響.

        猜你喜歡
        方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        學習方法
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        FLUKA幾何模型到CAD幾何模型轉換方法初步研究
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        久久久久无码国产精品不卡| 亚洲av无码国产精品色| 国内精品久久久久伊人av| 国产精品免费久久久久软件| 亚洲色偷拍一区二区三区| 久久精品国产亚洲av蜜臀久久 | 永久免费观看国产裸体美女| 中文字幕国产91| 久久天堂精品一区专区av| 日韩精品熟女中文字幕| 国产成人av大片大片在线播放 | 国产午夜无码片在线观看影院| 欧美极品第一页| 亚洲av一区二区网址| 精品亚洲一区二区三区四| 中文字幕一区二区三区人妻少妇| 色综合久久中文综合久久激情| 色噜噜精品一区二区三区 | 亚洲一区二区三区厕所偷拍| 国产内射爽爽大片| 狠狠色噜噜狠狠狠狠色综合久| 91精品国产免费久久久久久青草| 国内精品少妇久久精品| 大又大又粗又硬又爽少妇毛片 | 99国产精品久久久久久久成人热| a人片在线观看苍苍影院| 加勒比日本东京热1区| 国产夫妻自偷自拍第一页| 久久无码人妻一区二区三区午夜| 好男人视频在线视频| 国产香蕉一区二区三区| 美女很黄很色国产av| 强行无套内谢大学生初次| 无码一区东京热| 偷偷夜夜精品一区二区三区蜜桃| 国产欧美精品一区二区三区四区 | 高清国产一级毛片国语| 国产91九色免费视频| 麻豆婷婷狠狠色18禁久久| 亚洲精品中文字幕无乱码麻豆 | 国产av一区二区三区天美|