亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合單語語言模型的藏漢機(jī)器翻譯方法研究

        2019-12-30 02:36:14慈禎嘉措桑杰端珠孫茂松色差甲周毛先
        中文信息學(xué)報(bào) 2019年12期
        關(guān)鍵詞:語言模型

        慈禎嘉措, 桑杰端珠,孫茂松,色差甲,周毛先

        (1. 青海師范大學(xué) 藏文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008;2. 青海省藏文信息處理與機(jī)器翻譯重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008;3. 清華大學(xué) 計(jì)算機(jī)系,北京 100084)

        0 引言

        早期的語言模型和機(jī)器翻譯方法受限于人工構(gòu)建的規(guī)則,由于語言的復(fù)雜性和多樣性,基于規(guī)則的方法需要構(gòu)建規(guī)模龐大的規(guī)則庫才能刻畫語言的特性,但規(guī)則庫的維護(hù)和復(fù)雜性又依賴于人類專家的經(jīng)驗(yàn)和知識,無法對語言現(xiàn)象進(jìn)行完備的描述。為解決規(guī)則機(jī)器翻譯的缺陷和不足,基于統(tǒng)計(jì)的機(jī)器翻譯研究開始涌現(xiàn),其方法是通過大規(guī)模的標(biāo)注語料學(xué)習(xí)語言的基本特性,由于統(tǒng)計(jì)機(jī)器翻譯需要大規(guī)模的標(biāo)注數(shù)據(jù)會(huì)消耗大量的人力物力。目前,基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯能夠較好地解決規(guī)則和統(tǒng)計(jì)方法存在的問題。與傳統(tǒng)方法相比,以Transformer為代表的神經(jīng)網(wǎng)絡(luò)方法對數(shù)據(jù)更加依賴,因?yàn)槠渚薮蟮木W(wǎng)絡(luò)參數(shù)空間需要用大規(guī)模數(shù)據(jù)進(jìn)行參數(shù)估計(jì),從而導(dǎo)致翻譯性能并不理想。

        為了解決低資源下機(jī)器翻譯中存在的問題,2016年Zoph Barret等提出了一種遷移學(xué)習(xí)方法,其主要思想是先訓(xùn)練一個(gè)完備的機(jī)器翻譯系統(tǒng)模型,然后將這個(gè)模型的參數(shù)傳遞給低資源的機(jī)器翻譯模型,從而達(dá)到低資源模型參數(shù)的初始化和約束訓(xùn)練,這樣可以顯著提高低資源條件下機(jī)器翻譯的性能[1]。2017年Robert Ostling等利用向量間的依賴關(guān)系和單詞對齊來解決翻譯中的排序問題,并且證明了NMT也可用于低資源場景[2]。2018年Ebtesam H Almansor等提出了遞歸神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)相融合的機(jī)器翻譯模型,用來解決低資源下阿拉伯語到英語的機(jī)器翻譯問題[3]。2018年Tao Feng等為了解決低資源下機(jī)器翻譯的性能問題,提出了兩種解決方法,第一種方法采用解碼器權(quán)重共享來增強(qiáng)低資源NMT系統(tǒng)的目標(biāo)語言模型,第二種方法應(yīng)用跨語言嵌入和源語言表示空間共享來加強(qiáng)低資源NMT編碼器[4]。

        1 總體框架和相關(guān)理論

        基于神經(jīng)網(wǎng)絡(luò)構(gòu)架的藏漢機(jī)器翻譯研究剛剛起步,特別是對低資源條件下的藏漢神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯相關(guān)研究很少。本文首先利用Transformer作為基線系統(tǒng)搭建藏漢神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng),然后在編碼器中將源語言置空,也就是說編碼器只訓(xùn)練單語的語言模型,然后利用現(xiàn)有資源對解碼器中兩個(gè)語言(藏漢)之間的對應(yīng)關(guān)系進(jìn)行訓(xùn)練,通過加入不同規(guī)模的語料,對比和分析其實(shí)驗(yàn)結(jié)果,期望得到一個(gè)低資源條件下高效的藏漢神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)。

        1.1 總體框架

        以Transformer為主體框架,首先在編碼器端訓(xùn)練藏語單語語言模型,將其作為輸入;然后將藏語單語語言信息與編碼器端的預(yù)輸出進(jìn)行加權(quán)處理,使源語言與目標(biāo)語言產(chǎn)生映射關(guān)系,最終輸出目標(biāo)語言,如圖1所示。

        圖1 總體框架

        圖1中,LM表示編碼器端訓(xùn)練的藏語單語語言模型,?表示歸一化處理,LMT表示在解碼器端加入的藏語語言信息。

        1.2 Transformer框架

        2014年Ilya Sutskever等為了解決神經(jīng)網(wǎng)絡(luò)對序列任務(wù)不適用的問題,提出了一種端到端的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯構(gòu)架[5]。這種構(gòu)架用一個(gè)多層的LSTM網(wǎng)絡(luò)將輸入序列映射(編碼)為一個(gè)固定大小維度的向量,再用另外一個(gè)多層的LSTM網(wǎng)絡(luò)來解碼該向量作為輸出序列[5]。同年,Bahdanau D等使用固定長度向量提高編碼器—解碼器架構(gòu)性能,并且為了打破這種架構(gòu)的瓶頸,使用詞表的自動(dòng)對齊來擴(kuò)展模型的性能[6]。直到2017年,Google的Ashish Vaswani等提出了一種基于自注意力機(jī)制(self-attention)的模型構(gòu)架,這種構(gòu)架可以建模各種自然語言處理問題,并在多項(xiàng)任務(wù)中取得了最好成績。相較于利用RNN或者CNN作為編碼器—解碼器(encoder-decoder)的傳統(tǒng)的神經(jīng)機(jī)器翻譯,谷歌提出的基于attention的Transformer模型拋棄了傳統(tǒng)的構(gòu)架,并沒有用任何CNN或者RNN的結(jié)構(gòu)。該模型可以完全地進(jìn)行并行運(yùn)算,在提升翻譯性能的同時(shí)訓(xùn)練速度非常快。Transformer模型構(gòu)架如圖2所示。

        圖2 Transformer模型框架

        從圖2可以看出,編碼器由多個(gè)相同的層堆疊在一起,每一層又有兩個(gè)支層,第一個(gè)支層是一個(gè)多頭的自注意力機(jī)制,第二個(gè)支層是一個(gè)簡單的全連接前饋網(wǎng)絡(luò),解碼器和編碼器的結(jié)構(gòu)相似,但多了一個(gè)多頭注意力機(jī)制,如式(1)所示。

        因?yàn)樵诰幋a器和解碼器中都沒有遞歸和卷積運(yùn)算,Transformer無法自然地利用序列中的位置信息,但是對于機(jī)器翻譯任務(wù),序列中的各個(gè)元素的位置是非常重要的。為解決這個(gè)問題,Transformer 使用了一個(gè)稱為位置編碼(positional encoding)的方法將每個(gè)元素的位置信息顯式地嵌入到網(wǎng)絡(luò)中,即編碼器的輸入為位置編碼向量加上(⊕)輸入序列的嵌入式表示。位置編碼的學(xué)習(xí)通過三角函數(shù)完成,如式(2)所示。

        其中,pos代表序列中元素的位置,2i表示位置向量的維度;dmodel表示自注意力網(wǎng)絡(luò)的輸出維度。因?yàn)槿呛瘮?shù)具有周期性,對于固定長度的偏差k,P(pos+k)可以表示為P)的線性函數(shù),使模型能夠很容易地學(xué)習(xí)序列中各個(gè)元素的相對位置關(guān)系信息[6-7]。

        圖3 縮放點(diǎn)積注意力的計(jì)算示意圖

        圖4 多頭注意力網(wǎng)絡(luò)示意圖

        1.3 單語語言模型融合策略

        本文使用Transformer構(gòu)架來對系統(tǒng)進(jìn)行實(shí)現(xiàn),在神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯中,總共有三個(gè)參數(shù)影響其翻譯性能,如式(4)所示。

        式(4)中,yi表示i時(shí)刻生成的目標(biāo)語言,x表示源語言的輸入,y

        如式(5)所示,翻譯的性能是由編碼器和解碼器共同決定的(乘積的關(guān)系),在低資源的藏漢神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯中,解碼器的性能無法再次得到提升(因?yàn)樾枰笠?guī)模的平行語料),那么只能通過提高編碼器的性能來提升機(jī)器翻譯的性能,而在神經(jīng)網(wǎng)絡(luò)模型架構(gòu)中,整個(gè)訓(xùn)練過程是一個(gè)完整體,很難被打斷或者是分割,嵌入語言模型的難度也很大,在編碼端把源語言置空,只訓(xùn)練單語的語言模型,從而達(dá)到與嵌入單語語言模型相同的效果。

        本文將藏語單語訓(xùn)練的語言模型作為編碼器一端,本質(zhì)上是刪除編碼端上下文向量Ci的信息,神經(jīng)網(wǎng)絡(luò)必須完全依賴于前一個(gè)網(wǎng)絡(luò)的輸出來預(yù)測下一個(gè)網(wǎng)絡(luò)的輸出,這就相當(dāng)于上下文信息被刪除。本文將這種設(shè)置看作是多任務(wù)學(xué)習(xí),當(dāng)源語言已知時(shí),這個(gè)任務(wù)就是藏漢機(jī)器翻譯,當(dāng)源語言未知時(shí),神經(jīng)網(wǎng)絡(luò)進(jìn)行藏語單語語言建模。在訓(xùn)練過程中,本文以1∶1的比例使用對齊語料和藏語單語語料進(jìn)行訓(xùn)練,并隨機(jī)打亂。在解碼器端,本文將上一時(shí)刻yt-1作為當(dāng)前時(shí)刻的輸入。同時(shí),藏語單語語言模型也在影響整個(gè)網(wǎng)絡(luò)的輸出,訓(xùn)練的翻譯模型生成的詞和語言模型所生成的詞重新加權(quán)排序,得到一個(gè)最優(yōu)的輸出,如圖5所示。

        圖5 融合單語語言模型信息

        在每步預(yù)測每個(gè)詞之前,將神經(jīng)網(wǎng)絡(luò)的解碼器的隱藏狀態(tài)stTM與藏語單語語言模型stLM進(jìn)行合并,控制器gt用于重新計(jì)算語言模型的權(quán)重。如式(6)所示。

        本文首先將藏語單語語言模型與神經(jīng)網(wǎng)絡(luò)模型的解碼器進(jìn)行融合,使隱藏狀態(tài)串聯(lián)起來(圖5)。然后,在計(jì)算下一個(gè)單詞的輸出概率時(shí),對模型進(jìn)行微調(diào),使用這兩個(gè)模型的隱藏狀態(tài)(式(6))。與一般的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型不同,每個(gè)網(wǎng)絡(luò)輸出的隱藏層除了神經(jīng)網(wǎng)絡(luò)本來擁有的解碼器、前一時(shí)刻的單詞之外,還將藏語單語語言模型的隱藏狀態(tài)作為輸入。其中,本文使用stTM和stLM分別表示神經(jīng)網(wǎng)絡(luò)解碼端和單語語言模型的隱藏狀態(tài)。在訓(xùn)練過程中,只更新用于參數(shù)化輸出的參數(shù),以確保藏語單語語言模型所學(xué)到的特性不會(huì)被覆蓋[9]。

        2 實(shí)驗(yàn)分析

        2.1 數(shù)據(jù)的來源(準(zhǔn)備)

        本文總共收集400萬句藏語單語語料,其中單語語料中310萬為新聞?lì)I(lǐng)域的語料,40萬為法律領(lǐng)域語料,50萬為其他領(lǐng)域的語料;收集160萬句對為藏漢雙語平行語料,其中90萬為新聞?lì)I(lǐng)域語料,40萬為法律領(lǐng)域語料,30萬為其他語料。語料的整體結(jié)構(gòu)如表1所示。

        表1 語料領(lǐng)域分布表

        2.2 實(shí)驗(yàn)

        深層融合方法(deep fusion)見式(6)與圖5,在訓(xùn)練過程中,只更新用于參數(shù)化輸出的參數(shù),以確保藏語單語語言模型所學(xué)到的語言特性不會(huì)被覆蓋。在融合過程中,本文將權(quán)值和標(biāo)準(zhǔn)差進(jìn)行了設(shè)置,在訓(xùn)練速率上,每10K訓(xùn)練數(shù)據(jù)對模型進(jìn)行一次模型BLEU值的計(jì)算,直到模型性能不再提升為止。本文Transformer的參數(shù)設(shè)置如表2所示。

        表2 模型參數(shù)設(shè)定

        續(xù)表

        各個(gè)模型的BLEU值如表3所示:

        表3 各個(gè)模型BLEU值

        2.3 分析

        實(shí)驗(yàn)結(jié)果顯示,基線系統(tǒng)藏漢機(jī)器翻譯的BLEU值為21.1,漢藏機(jī)器翻譯的BLEU值為18.6,而融合藏語單語語言模型的機(jī)器翻譯系統(tǒng),藏漢機(jī)器翻譯的BLEU值為24.5,漢藏機(jī)器翻譯的BULE值為23.3,比原有的基線系統(tǒng)BLEU值分別提高了3.4和4.7 。BLEU實(shí)驗(yàn)結(jié)果表明,基于單語語言模型融合的藏漢(漢藏)神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)比原有的基線系統(tǒng)更加有效。

        3 總結(jié)與展望

        本文以目前效率最高的Transformer為基線系統(tǒng),對藏漢(漢藏)神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)進(jìn)行了實(shí)現(xiàn),首先對單語語言模型融合的機(jī)器翻譯系統(tǒng)進(jìn)行了實(shí)現(xiàn),將藏語單語訓(xùn)練的語言模型作為編碼器一端,以1∶1的比例使用對齊語料和藏語單語語料進(jìn)行訓(xùn)練,并把藏語單語語言模型與神經(jīng)網(wǎng)絡(luò)模型的解碼器進(jìn)行融合,將它們的隱藏狀態(tài)串聯(lián)起來,再計(jì)算下一個(gè)輸出的概率,對模型進(jìn)行微調(diào),實(shí)現(xiàn)了一個(gè)融合單語語言模型的藏漢(漢藏)機(jī)器翻譯系統(tǒng),最終的實(shí)驗(yàn)結(jié)果表明,單語語言模型融合策略可以有效地提高原有藏漢(漢藏)神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)的性能。

        猜你喜歡
        語言模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        語言是刀
        文苑(2020年4期)2020-05-30 12:35:30
        讓語言描寫搖曳多姿
        多向度交往對語言磨蝕的補(bǔ)正之道
        累積動(dòng)態(tài)分析下的同聲傳譯語言壓縮
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        我有我語言
        欧美一级欧美一级在线播放| 亚洲一区视频中文字幕| 亚洲国产成人精品一区刚刚| 精品在线观看一区二区视频| 在线观看国产视频你懂得| 国产激情视频免费在线观看| 人人色在线视频播放| 亚洲视频在线看| 在线天堂中文一区二区三区 | 国产高清一区在线观看| 日韩有码在线一区二区三区合集| 九一免费一区二区三区偷拍视频| 亚洲精品无码永久在线观看你懂的| 欧美日韩精品一区二区在线视频| 国产精品久久码一区二区| 亚洲素人日韩av中文字幕| 亚洲免费福利视频网站| 日本三级片在线观看| 亚洲国产成人久久综合电影| 无码视频一区二区三区在线观看| 久久精品国产亚洲5555| 中文字幕日本熟妇少妇| 久久精品中文字幕有码| 亚洲国产精华液网站w| 国产亚洲精品看片在线观看| 精品在线视频免费在线观看视频 | 日韩女优av一区二区| 日本在线 | 中文| 亚洲熟妇无码八av在线播放| 久久久久99精品国产片| 如何看色黄视频中文字幕| 国产性虐视频在线观看| 中文字幕日韩人妻在线视频| 精品久久人人爽天天玩人人妻 | 在线亚洲日本一区二区| 久久99热国产精品综合| 国产97色在线 | 亚洲| 亚洲欧美在线视频| 中文字幕国内一区二区| 日韩乱码中文字幕在线| 国产亚洲av综合人人澡精品|