亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于遷移學(xué)習(xí)的漢越神經(jīng)機(jī)器翻譯

        2021-02-02 08:51:00黃繼豪余正濤于志強(qiáng)文永華
        關(guān)鍵詞:語言模型

        黃繼豪,余正濤,于志強(qiáng),文永華

        (昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,云南省人工智能重點(diǎn)實(shí)驗(yàn)室,云南昆明650500)

        隨著我國“一帶一路”戰(zhàn)略的提出,中越兩國交流日益頻繁,漢語-越南語(簡(jiǎn)稱漢越)雙語翻譯技術(shù)需求不斷增長(zhǎng),但是漢語-越南語神經(jīng)機(jī)器翻譯(neural machine translation,NMT)平行語料規(guī)模較小,翻譯性能不夠理想,這成為制約中越兩國交流的瓶頸問題.基于編解碼模型的端到端NMT[1-2]是目前機(jī)器翻譯的主流研究方向,其利用編碼器將源語言文本編碼為固定長(zhǎng)度的語義表示,解碼器利用該表示逐詞生成相應(yīng)的目標(biāo)翻譯.目前基于編解碼的NMT模型包含大量的參數(shù),需要利用大規(guī)模平行語料實(shí)現(xiàn)參數(shù)優(yōu)化,因此雖然NMT模型在資源豐富型語言翻譯任務(wù)上已具備很好的翻譯性能[3-4],但是低資源語言因?yàn)檎Z料規(guī)模有限,模型無法得到充分的訓(xùn)練,導(dǎo)致模型性能不佳.Zoph等[5]也證明在低資源的場(chǎng)景下,NMT性能甚至低于傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯(SMT).因此探索如何利用資源豐富型語言來提升漢越NMT性能成為了當(dāng)下的研究熱點(diǎn).

        目前樞軸語言和遷移學(xué)習(xí)是解決低資源場(chǎng)景下NMT效果不佳的有效方法.Wu等[6]和Utiyama等[7]提出基于樞軸語言的翻譯方法,使用資源豐富型樞軸語言橋接源語言和目標(biāo)語言,利用存在的源語言-樞軸語言和樞軸語言-目標(biāo)語言的平行語料庫,分別訓(xùn)練源語言到樞軸語言和樞軸語言到目標(biāo)語言的翻譯模型.該方法的優(yōu)點(diǎn)在于,即使在缺乏大規(guī)模的雙語平行語料庫的低資源場(chǎng)景下,也可以利用樞軸語言實(shí)現(xiàn)源語言和目標(biāo)語言的有效翻譯;但是直接使用樞軸語言作為翻譯的中間橋梁,會(huì)因?yàn)樵凑Z言到樞軸語言、樞軸語言到目標(biāo)語言的二次解碼而造成誤差累積.相較于樞軸語言方法,遷移學(xué)習(xí)(transfer learning,TL)可以直接改進(jìn)源語言-目標(biāo)語言模型參數(shù).Zoph等[5]提出使用遷移學(xué)習(xí)提升低資源NMT的方法,利用資源豐富語言上訓(xùn)練得到的翻譯模型參數(shù)對(duì)低資源語言翻譯模型參數(shù)進(jìn)行初始化.Cheng等[8]提出一種基于樞軸語言的遷移學(xué)習(xí)方法,在模型訓(xùn)練中考慮源語言-樞軸語言和樞軸語言-目標(biāo)語言之間的關(guān)聯(lián)性,并通過對(duì)源語言-樞軸語言和樞軸語言-目標(biāo)語言翻譯模型進(jìn)行聯(lián)合訓(xùn)練,且在訓(xùn)練期間共享模型參數(shù).但源語言到樞軸語言,樞軸語言到目標(biāo)語言這樣分步訓(xùn)練的過程缺少雙語平行語料的指導(dǎo),導(dǎo)致多語言輸入所產(chǎn)生的噪聲現(xiàn)象;而且上述方法更側(cè)重于改進(jìn)低資源場(chǎng)景下模型的參數(shù),并沒有對(duì)單獨(dú)的編碼器或者解碼器進(jìn)行改進(jìn).

        漢越NMT是一種典型的低資源場(chǎng)景下的NMT,其訓(xùn)練語料稀缺,但是漢語-英語(簡(jiǎn)稱漢英)、英語-越南語(簡(jiǎn)稱英越)平行語料卻大量存在,因此適用于使用遷移學(xué)習(xí)與樞軸語言的方法來解決其翻譯性能不佳的問題.本文提出一種基于遷移學(xué)習(xí)的漢越NMT(TLNMT-CV)模型,將遷移學(xué)習(xí)的思想應(yīng)用到漢越NMT模型的訓(xùn)練中,在此基礎(chǔ)上引入樞軸語言思想,選擇英語作為樞軸語言來緩解漢越語言差異大的問題.首先利用漢英、英越平行語料訓(xùn)練編碼器與解碼器的參數(shù),然后利用此參數(shù)對(duì)漢越NMT模型的編碼器與解碼器參數(shù)進(jìn)行初始化,最后使用漢越小規(guī)模平行語料對(duì)模型參數(shù)進(jìn)行微調(diào),從而提升漢越翻譯的性能.

        1 基于遷移學(xué)習(xí)的NMT

        NMT是一個(gè)典型的編解碼結(jié)構(gòu),其中編碼器讀取整個(gè)句子序列并進(jìn)行編碼,得到句子的向量表示,解碼器利用編碼器獲取到的句子向量作為目標(biāo)輸入,逐詞生成目標(biāo)語言的單詞序列.遷移學(xué)習(xí)可以將模型學(xué)習(xí)到的參數(shù)遷移到相近的任務(wù)上,利用高資源翻譯任務(wù)得到的參數(shù)來改善低資源翻譯任務(wù)的性能,從而降低翻譯任務(wù)對(duì)平行數(shù)據(jù)的依賴[9].Lakew等[10]提出使用動(dòng)態(tài)詞表的方法,通過將初始語言對(duì)的模型參數(shù)遷移到新的語言對(duì)來提升機(jī)器翻譯模型的性能與收斂速度.Hill等[11]證明了在語義相似性任務(wù)上,從NMT編碼器中得到的單詞向量表示優(yōu)于從單語(例如語言建模)編碼器中獲得的單詞向量表示.Mccann等[12]使用NMT模型的注意力機(jī)制將詞向量語境化來改善自然語言處理任務(wù)的性能.李亞超等[13]在藏語-漢語(簡(jiǎn)稱藏漢)NMT研究中采用遷移學(xué)習(xí)方法緩解藏漢平行語料數(shù)量不足的問題:首先使用大規(guī)模英漢平行語料訓(xùn)練得到一個(gè)英漢NMT模型;其次,在訓(xùn)練藏漢NMT模型時(shí),采用英漢翻譯模型整體參數(shù)初始化藏漢翻譯模型參數(shù);最后對(duì)英漢翻譯模型參數(shù)初始化后的漢藏模型使用藏漢平行語料進(jìn)行參數(shù)微調(diào)得到最終的模型.與Zoph等[5]提出的方法不同,李亞超等[13]提出的方法對(duì)藏漢翻譯模型的所有參數(shù)均使用英漢模型來初始化,且在初始化時(shí)不要求兩種翻譯模型的漢語詞向量一致,沒有對(duì)翻譯模型結(jié)構(gòu)進(jìn)行修改,更加適用于低資源場(chǎng)景下的NMT.通過以上分析可知,在富資源語言上預(yù)訓(xùn)練NMT模型的參數(shù)初始化低資源模型的參數(shù),不僅可以保證富資源語言上學(xué)習(xí)的語言知識(shí)能夠遷移到低資源模型中,還可以加快模型的收斂速度.

        2 TLNMT-CV模型

        NMT模型將源語言句子表示成一個(gè)定長(zhǎng)向量,但是固定長(zhǎng)度的向量不能充分表達(dá)出源語言句子的語義信息.基于注意力機(jī)制的NMT先將源語言句子編碼為向量序列,然后在生成目標(biāo)語言時(shí),通過注意力機(jī)制動(dòng)態(tài)尋找與生成該詞相關(guān)的源語言詞語信息,大大增強(qiáng)了NMT的表達(dá)能力.本文在Klein等[14]提出的基于注意力機(jī)制的Transformer基礎(chǔ)上訓(xùn)練漢英與英越的翻譯模型,訓(xùn)練流程如圖1所示.首先采用大規(guī)模的漢英平行語料與大量的英越平行語料訓(xùn)練得到兩個(gè)預(yù)訓(xùn)練模型(A和B);其次,在訓(xùn)練漢越NMT模型時(shí),采用漢英模型的編碼器參數(shù)初始化漢越翻譯模型的編碼器參數(shù),并且采用英越模型的解碼器參數(shù)初始化漢越翻譯模型的解碼器參數(shù);最后,對(duì)初始化參數(shù)后的模型采用漢越平行語料進(jìn)行微調(diào)訓(xùn)練,得到最終的TLNMT-CV模型(C).

        圖1 TLNMT-CV訓(xùn)練流程圖Fig.1Training flow chart of TLNMT-CV

        與Zoph[5]等和李亞超等[13]方法不同的是,本文對(duì)漢越翻譯模型的編碼器與解碼器參數(shù),使用漢英模型的漢語端編碼器與英越模型的越南語端解碼器的參數(shù)來初始化,在此基礎(chǔ)上再使用小規(guī)模漢越雙語平行語料進(jìn)行微調(diào)訓(xùn)練,得到漢越NMT模型.為了提升預(yù)訓(xùn)練得到的編碼器與解碼器之間的關(guān)聯(lián)性,保證初始化的參數(shù)更有利于微調(diào)訓(xùn)練,本文在進(jìn)行實(shí)驗(yàn)前對(duì)訓(xùn)練集進(jìn)行擴(kuò)充.首先在已有的漢英、英越的訓(xùn)練集中,對(duì)樞軸語言英語進(jìn)行回譯[15],使用大規(guī)模英漢平行語料訓(xùn)練英漢翻譯模型;然后利用英漢翻譯模型對(duì)英越平行語料中的英語進(jìn)行回譯,從而得到漢-英-越三語平行語料;再使用數(shù)據(jù)增強(qiáng)[16]的方法增加漢-英-越三語平行語料,提升模型參數(shù)之間的關(guān)聯(lián)性,減少存在的噪聲.

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        本實(shí)驗(yàn)采用規(guī)模為10萬句對(duì)的漢越平行語料,其中測(cè)試語料0.13萬句對(duì),驗(yàn)證語料0.1萬句對(duì);70萬句對(duì)英越平行語料,其中測(cè)試語料0.5萬句對(duì),驗(yàn)證語料0.4萬句對(duì); 漢英平行語料5 000萬句對(duì),其中測(cè)試語料3萬句對(duì),驗(yàn)證語料1萬句對(duì).在訓(xùn)練之前對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行過濾亂碼與分詞處理,其中漢語分詞工具采用結(jié)巴分詞,越南語分詞采用Underthesea-Vietnamese NLP工具.

        為了增加實(shí)驗(yàn)數(shù)據(jù),使用回譯與數(shù)據(jù)增強(qiáng)的方法,擴(kuò)充漢越訓(xùn)練語料.回譯階段使用漢英大規(guī)模語料訓(xùn)練翻譯模型,對(duì)2萬英越平行句對(duì)中的英語語句進(jìn)行回譯得到2萬偽平行的漢英語料,與越南語對(duì)應(yīng)并經(jīng)人工篩選后得到1.5萬漢越平行語料,將得到的漢越平行語料加入到初始的10萬漢越平行語料中.最后使用數(shù)據(jù)增強(qiáng)的方法對(duì)11.5萬的漢越平行語料詞表(詞表為3.2萬個(gè)詞)中出現(xiàn)次數(shù)少于3的稀有詞進(jìn)行替換,再通過人工篩選得到12萬漢越平行語料.

        3.2 實(shí)驗(yàn)設(shè)置

        為了評(píng)估TLNMT-CV模型的有效性,實(shí)驗(yàn)選取5個(gè)基線系統(tǒng)(基于SMT的Moses[17]、基于OPENNMT[14]框架的Transformer、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、基于注意力機(jī)制的Google NMT(GNMT)[18]和李亞超等[13]提出的遷移學(xué)習(xí)翻譯(Nmt-trans)模型作為對(duì)比.

        Moses、Transformer、CNN、Nmt-trans、GNMT與本文提出的TLNMT-CV模型,在漢越翻譯方向上均以12萬的漢越平行語料作為訓(xùn)練集.

        Moses訓(xùn)練中,使用Mgiza[19]訓(xùn)練詞對(duì)齊,利用Lmplz[20]訓(xùn)練三元語法的語言模型(LM).

        Transformer、TLNMT-CV和Nmt-trans模型使用的詞表設(shè)置為3.2萬,句子的最大長(zhǎng)度設(shè)置為50,“transformer_ff”設(shè)置為 2 048,“l(fā)abel_smoothing”設(shè)置為0.1,“attention head”設(shè)置為2,“dropout”設(shè)置為0.2,隱藏層數(shù)量設(shè)置為2,詞嵌入維度設(shè)置為256,“batch_size”設(shè)置為128,學(xué)習(xí)率設(shè)置為0.2.優(yōu)化器選擇Adam[21],其參數(shù)設(shè)置為β1=0.9,β2=0.99,ε=10-8.CNN中編碼器設(shè)置為10層,解碼器則采用長(zhǎng)短時(shí)記憶(LSTM)網(wǎng)絡(luò),批次大小為64,卷積核大小設(shè)置為3.GNMT中隱藏層數(shù)量設(shè)置為2,“num_units”設(shè)置為128,“dropout”設(shè)置為0.2.

        3.3 實(shí)驗(yàn)結(jié)果

        本文采用雙語互譯評(píng)估(BLEU)值作為評(píng)測(cè)指標(biāo).表1給出的是基線系統(tǒng)與TLNMT-CV在漢越和越漢兩個(gè)翻譯方向上模型的BLEU值對(duì)比結(jié)果.其中TLNMTe為參照TLNMT-CV模型只對(duì)編碼器參數(shù)預(yù)訓(xùn)練,TLNMTd為參照TLNMT-CV模型只對(duì)解碼器參數(shù)預(yù)訓(xùn)練.

        表1 不同模型的BLEU值對(duì)比Tab.1 Comparison of BLEU values of different models

        從實(shí)驗(yàn)結(jié)果可以看出漢越雙語NMT上TLNMT-CV模型效果明顯均優(yōu)于基線系統(tǒng),其中TLNMTe模型BLEU值對(duì)比Moses模型在漢越翻譯方向上提升1.52個(gè)百分點(diǎn),在越漢翻譯方向上提升1.31個(gè)百分點(diǎn).對(duì)比Transformer模型,TLNMTe模型BLEU值在漢越翻譯方向上提升0.38個(gè)百分點(diǎn),越漢翻譯方向上提升0.44個(gè)百分點(diǎn). TLNMT-CV模型在漢越翻譯方向上BLEU值對(duì)比Nmt-trans模型提升0.71個(gè)百分點(diǎn),越漢翻譯方向上提升0.48個(gè)百分點(diǎn).TLNMT-CV模型在漢越翻譯方向上BLEU值對(duì)比Transformer模型提升1.16個(gè)百分點(diǎn),在越漢翻譯方向上提升1.05個(gè)百分點(diǎn).

        表2給出的是基線系統(tǒng)與TLNMT-CV模型在漢越翻譯方向上譯文的對(duì)比示例.

        以上翻譯示例說明,本文方法雖然仍存在翻譯不充分的問題,但是在漢越NMT任務(wù)上,比基線系統(tǒng)能產(chǎn)生更高質(zhì)量和準(zhǔn)確度的譯文.

        表2 不同模型的譯文示例Tab.2 Translation examples of different models

        4 結(jié) 論

        本文提出的TLNMT-CV方法,能夠利用漢英和英越大規(guī)模語料訓(xùn)練漢越NMT的編碼器與解碼器的初始化參數(shù),通過小規(guī)模漢越語料微調(diào)訓(xùn)練獲得漢越NMT模型,該方法能夠提升低資源場(chǎng)景下漢越NMT性能.對(duì)比實(shí)驗(yàn)也證明了本文提出方法的有效性.下一步可以繼續(xù)探索利用大規(guī)模的漢越單語語料進(jìn)行預(yù)訓(xùn)練,并將預(yù)訓(xùn)練得到的語言知識(shí)融合到漢越雙語NMT模型構(gòu)建中,提升翻譯的性能.

        猜你喜歡
        語言模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        語言是刀
        文苑(2020年4期)2020-05-30 12:35:30
        讓語言描寫搖曳多姿
        多向度交往對(duì)語言磨蝕的補(bǔ)正之道
        累積動(dòng)態(tài)分析下的同聲傳譯語言壓縮
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        我有我語言
        成熟了的熟妇毛茸茸| 熟女白浆精品一区二区| 国产精品不卡免费版在线观看| 美腿丝袜日韩在线观看| 免费无码精品黄av电影| 国产70老熟女重口小伙子| 国产av综合一区二区三区最新 | 国产91清纯白嫩初高中在线观看 | 国产高潮流白浆视频在线观看| 无码国内精品久久人妻| 国精产品一区二区三区| 波多野无码AV中文专区| 亚洲不卡av一区二区三区四区 | 国产办公室秘书无码精品99| 国内a∨免费播放| 久久青青草原国产精品最新片| 人妻少妇被猛烈进入中文| 精品日韩亚洲av无码| 97久久天天综合色天天综合色hd| 国产亚洲精品hd网站| 无人视频在线播放免费| 国产亚洲精品美女久久久| 久99久热只有精品国产男同| 偷拍激情视频一区二区| 麻豆精品一区二区综合av| 久久精品国产精品国产精品污| 亚洲午夜成人片| av免费在线播放一区二区| 精品亚洲成a人在线观看| 色婷婷综合中文久久一本| 国内精品久久久久影院蜜芽| 91精品国自产拍老熟女露脸| 久久视频在线| 免费成人福利视频| 视频一区二区免费在线观看| 欧美日韩午夜群交多人轮换| 欧美日韩精品一区二区三区不卡| 无码国产精品一区二区免费式芒果 | 91久久国产自产拍夜夜嗨| 午夜免费观看一区二区三区| 日本护士xxxx视频|