亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        跨語言多任務(wù)學(xué)習(xí)深層神經(jīng)網(wǎng)絡(luò)在蒙漢機器翻譯的應(yīng)用

        2021-01-15 08:22:22蘇依拉仁慶道爾吉王宇飛
        計算機應(yīng)用與軟件 2021年1期
        關(guān)鍵詞:蒙漢蒙面解碼器

        張 振 蘇依拉 仁慶道爾吉 高 芬 王宇飛

        (內(nèi)蒙古工業(yè)大學(xué)信息工程學(xué)院 內(nèi)蒙古 呼和浩特 010080)

        0 引 言

        機器翻譯是人工智能領(lǐng)域的重要研究課題之一,主要目標(biāo)是研究如何使用計算機實現(xiàn)一種自然語言到另一種自然語言的自動轉(zhuǎn)換。近年來,已經(jīng)有很多研究嘗試將深度神經(jīng)網(wǎng)絡(luò)的方法擴展到低資源語言對上,但因缺乏數(shù)以百萬計甚至更多的平行句對而無法獲得理想的結(jié)果。因此,如何用半監(jiān)督學(xué)習(xí)無標(biāo)記數(shù)據(jù)、多任務(wù)聯(lián)合訓(xùn)練來緩解資源匱乏的問題成為近來神經(jīng)機器翻譯的一個重要研究方向。

        目前,深度學(xué)習(xí)在自然語言處理中的困境之一是缺少大規(guī)模的標(biāo)注數(shù)據(jù)。解決深度學(xué)習(xí)目前缺少大規(guī)模的標(biāo)注數(shù)據(jù)這一困難的方法主要有兩種:無監(jiān)督預(yù)訓(xùn)練方法和多任務(wù)學(xué)習(xí)聯(lián)合訓(xùn)練多個任務(wù)。

        2018年發(fā)表的文獻(xiàn)[1]提出了ELMo模型,介紹了一種新型深度語境化詞表征,可對詞使用的語法、時態(tài)、語態(tài)和語義等多個特征和詞使用在上下文語境關(guān)聯(lián)程度中的變化進(jìn)行建模。ELMo中的詞向量是在一個大型文本語料庫中預(yù)訓(xùn)練而成。文獻(xiàn)[2]提出了GPT模型,使用無監(jiān)督預(yù)訓(xùn)練和監(jiān)督微調(diào)的組合探索了用于語言理解任務(wù)的半監(jiān)督方法。谷歌Brain團(tuán)隊提出的BERT[3]在GPT模型的基礎(chǔ)上進(jìn)行了修改,取得了很好的效果。

        多任務(wù)學(xué)習(xí)[4](MTL)聯(lián)合訓(xùn)練看起來相似的多個任務(wù),能夠通過單個模型解決協(xié)同任務(wù)。它通過將相關(guān)任務(wù)中訓(xùn)練信號所包含的域信息用作歸納偏差來提高泛化程度,在使用共享表示的同時并行學(xué)習(xí)任務(wù)來實現(xiàn)這一點,每項任務(wù)的學(xué)習(xí)內(nèi)容可以幫助其更好地學(xué)習(xí)其他任務(wù)。

        2017年,Google提出了一個多模型架構(gòu),混合編碼輸入與先前輸出的混合器(自回歸部分),以及處理輸入和混合以產(chǎn)生新輸出的解碼器[5]。同年,Johnson等[6]提出了一種使用單個神經(jīng)機器翻譯(NMT)模型在多種語言之間進(jìn)行翻譯的解決方案。2018年,Kiperwasser等[7]提出的模型令語法和翻譯交錯學(xué)習(xí),然后逐漸將更多的注意力放在翻譯上。預(yù)訓(xùn)練的一個優(yōu)點單詞嵌入是詞匯表外(OOV)單詞的表示。

        蒙漢平行語料資料目前處于匱乏階段,如何利用有限的語料數(shù)據(jù)緩解資源不足問題已經(jīng)成為神經(jīng)機器翻譯的一個重要的研究課題。然而蒙漢機器翻譯研究工作仍處于探索階段,成熟多樣的蒙漢機器翻譯以及采用前沿機器翻譯方法的模型和成果相對較少。

        針對蒙漢平行語料資源比較稀缺和現(xiàn)有的平行語料數(shù)據(jù)的覆蓋面少等困難導(dǎo)致的蒙漢翻譯質(zhì)量不佳的問題,本文采用跨語言多任務(wù)學(xué)習(xí)的方式對機器翻譯建模,并引入了兩種新的無監(jiān)督預(yù)訓(xùn)練方法和一種監(jiān)督預(yù)訓(xùn)練的方法,用于使用跨語言建模來學(xué)習(xí)跨語言表示,并研究三種語言預(yù)訓(xùn)練方法在蒙漢翻譯中的效果。

        1 跨語言多任務(wù)預(yù)訓(xùn)練模型

        本文引入三種語言預(yù)訓(xùn)練模型:蒙面語言模型(Masked Language Model,MLM),因果推理語言模型(CLM)和基于平行語料的翻譯語言模型[8](TLM)。其中,MLM和CLM模型使用的是基于單語數(shù)據(jù)的無監(jiān)督訓(xùn)練方式,而TLM是基于平行標(biāo)記數(shù)據(jù)的有監(jiān)督訓(xùn)練方式。

        1.1 蒙面語言模型(MLM)

        模型架構(gòu)是一個多層雙向Transformer編碼器,與BERT的輸入單個文本句子或一對文本句子的輸入表示方法不同,MLM的輸入文本是任意長度的單語文本,每個句子用分隔,如圖1所示。MLM輸入表示由句子唯一標(biāo)識符En(n取整數(shù),n∈[1,N],N表示需要預(yù)訓(xùn)練的總句子數(shù)量)、位置信息編碼和Masked蒙面處理后的句子向量組成。

        圖1 蒙面語言模型的結(jié)構(gòu)模型

        理論上,深度雙向訓(xùn)練Transformer模型比從前向后或從后向前地對輸入序列進(jìn)行預(yù)訓(xùn)練會學(xué)習(xí)到更多有用的特征。但是,雙向訓(xùn)練模型將導(dǎo)致每個單詞在多個層的上下文向量中間接地找到自身的向量表示。

        為了避免出現(xiàn)上述的情況發(fā)生,本文模型依據(jù)一定的比例隨機地對句子的若干位置進(jìn)行蒙面操作。為了提高模型的健壯性,受到去噪編碼器[9]增加無關(guān)的干擾信息作為噪聲輸入,本文對蒙面語言模型增加了一項內(nèi)容,并不總是用[mask]這個標(biāo)記符號替換要“蒙面”操作的字符,按照十分之一的比例用噪聲作為“蒙面”的另一種隨機符號,但是實驗結(jié)果顯示,這樣的設(shè)計方式會降低模型的準(zhǔn)確表達(dá)能力。受到對抗學(xué)習(xí)的啟發(fā),本文又按照十分之一的比例用未經(jīng)過“蒙面”的單詞自身作為假“蒙面”標(biāo)記,即不對“蒙面”位置的字符做任何改變。實驗結(jié)果顯示,這種加入噪聲和對抗性的訓(xùn)練機制可以有效提高模型預(yù)測的能力,提高模型的健壯性。

        1.2 因果推理語言模型(CLM)

        模型架構(gòu)是一個Transformer-XL模型(超出固定長度的注意語言模型)[9],它使Transformer能夠在不中斷時間序列連貫性關(guān)系的情況下學(xué)習(xí)可變長度的依賴性關(guān)系。Transformer-XL模型由段落級循環(huán)復(fù)現(xiàn)機制和新穎的位置編碼方案在Transformer上改進(jìn)完成?;赥ransformer-XL的蒙漢翻譯上的預(yù)訓(xùn)練模型可以更好地學(xué)習(xí)序列之間的長期依賴性關(guān)系,而且還可以解決上下文碎片化問題,即解決上下文連貫性中斷的現(xiàn)象。因此,將提出的基于Transformer-XL的預(yù)訓(xùn)練模型命名為因果推理語言模型。Transformer-XL學(xué)習(xí)序列的依賴性關(guān)系比循環(huán)神經(jīng)網(wǎng)絡(luò)RNN更長,是RNN學(xué)習(xí)到的依賴性關(guān)系的1.8倍,是vanilla Transformer學(xué)習(xí)到的依賴性關(guān)系的4.5倍。

        1.2.1段落級循環(huán)復(fù)現(xiàn)機制

        Transformer-XL將循環(huán)的機制引入深層的自我注意力機制網(wǎng)絡(luò)。它的一個重要的改變是每個隱藏層的狀態(tài)不再從頭開始計算每個新段落的隱藏狀態(tài),而是復(fù)用在之前計算的段落中獲得的隱藏狀態(tài)。也可以這樣理解,隱藏狀態(tài)不再僅僅是一個純計算用的中間函數(shù),它具備了簡單的存儲功能,可復(fù)用的隱藏狀態(tài)作為當(dāng)前狀態(tài)的存儲器可隨時被調(diào)用,所以重用的隱藏狀態(tài)可以在段之間建立重復(fù)連接,如圖2所示。一方面,Transformer-XL模型可以建立非常長距離的依賴關(guān)系,因為它的復(fù)用隱藏狀態(tài)的機制可以允許信息通過循環(huán)連接傳播。另一方面,這種信息傳遞機制也可以幫助Transformer解決上下文碎片化的問題,使得上下文更加連貫。

        圖2 段級長度為4的Transformer-XL模型的結(jié)構(gòu)模型

        (1)

        查詢向量、鍵向量、值向量組成的向量計算如下:

        (2)

        自注意力機制和前向傳播:

        (3)

        1.2.2相對位置編碼方案

        隱藏狀態(tài)的復(fù)用機制存在一個關(guān)鍵問題:當(dāng)重用隱藏狀態(tài)信息時,如何保持位置信息的一致性。在標(biāo)準(zhǔn)的Transformer中,序列順序的排列信息用一組位置編碼層嵌入到輸入層,表示為U∈RLmax×d,其中第i行的Ui對應(yīng)于段內(nèi)的第i個絕對位置。Lmax規(guī)定了要建模的最大可能長度。如果直接把這種位置編碼方案應(yīng)用到1.2.1節(jié)的循環(huán)復(fù)用隱藏層機制中,隱藏狀態(tài)序列的計算方式如下:

        hτ+1=f(hτ,Esτ+1+U1:L)
        hτ=f(hτ-1,Esτ+U1:L)

        式中:Esτ∈RL×d是sτ的字嵌入序列;f表示變換函數(shù)。注意Esτ和Esτ+1都與相同的位置編碼U1:L相關(guān)聯(lián)。結(jié)果對于任何j=1,2,…,L,模型沒有信息可以區(qū)分xτ,j和xτ+1,j之間的位置差異,這會導(dǎo)致明顯的性能損失。

        為了避免這種失敗模式,僅對隱藏狀態(tài)中的相對位置信息進(jìn)行編碼。理論上,位置編碼為模型提供了輸入文本序列先后順序信息并提供給神經(jīng)網(wǎng)絡(luò)加以訓(xùn)練。出于同樣目的,不將偏差靜態(tài)地結(jié)合到初始嵌入中,而可以將相同的信息注入到每層的注意分值中。以相對方式定義時間偏差更直觀和通用。例如:當(dāng)查詢向量qt,i參與關(guān)鍵向量kt,≤i時,無須知道每個關(guān)鍵向量的絕對位置以識別該段的時間順序;相反,查詢向量知道每個鍵Key向量kt,j與其自身的向量qt,i之間的相對距離就足夠了,即i-j。實際上,可以創(chuàng)建一組相對位置編碼R∈RLmax×d,其中第i行Ri表示兩個位置之間的i的相對距離。通過將相對距離動態(tài)地注入注意力分值,查詢向量可以很容易地從不同的距離區(qū)分xt,j和xt+1,j的表示,使得狀態(tài)重用機制可行。加入改進(jìn)后的位置編碼方案的注意力計算公式如下:

        uTWk,EExj+vTWk,RRi-j

        (4)

        1.3 翻譯語言模型(TLM)

        MLM和CLM的處理對象都是單語數(shù)據(jù)。因此上述兩種模型都是無監(jiān)督的預(yù)訓(xùn)練方式。為了方便預(yù)訓(xùn)練系統(tǒng)利用并行數(shù)據(jù),本文引入了一種新的翻譯語言模型(TLM),用于改進(jìn)跨語言預(yù)訓(xùn)練。翻譯語言模型是MLM的改進(jìn),其不是輸入單語言文本序列,而是同時輸入平行語料庫中句子序列,如圖3所示。本文提出的TLM模型隨機地對源語言語句和目標(biāo)語言語句進(jìn)行蒙面處理??紤]到充分利用平行語料庫中的句子的語義相同等內(nèi)在聯(lián)系,模型用MUSE工具對齊蒙古文和漢文的向量表示。這種處理方式的優(yōu)勢在于如果蒙語語境無法充分地推理預(yù)測出蒙面的蒙文單詞,則該模型可以利用漢語的上下文語境,反之亦然。

        圖3 翻譯語言模型的結(jié)構(gòu)模型

        2 預(yù)訓(xùn)練模型在蒙漢翻譯中的應(yīng)用

        2.1 數(shù)據(jù)預(yù)處理

        本文使用126萬句蒙漢平行語料庫和3萬余條專有名詞詞典作為翻譯對象。其中126萬蒙漢平行語料庫涵蓋政府工作報告、日常對話、新聞、法律條文和小說等多種蒙-漢平行語句對。3萬余條專有名詞詞典涵蓋人名、地名、物理、化學(xué)和生物等學(xué)科領(lǐng)域名詞等專有名詞,一方面擴大了平行語料庫的規(guī)模;另一方面,因為126萬句蒙漢平行語料庫中缺少一些不常用的生僻字詞,所以引入專有名詞作為基礎(chǔ)的平行語料庫之外的附加詞典庫可以方便解碼器解碼時對未登錄詞進(jìn)行近似替換。對于中文和蒙文,分別使用文獻(xiàn)[10]提出的標(biāo)記器和Kytea標(biāo)記器。

        2.2 預(yù)訓(xùn)練模型和翻譯模型的構(gòu)建

        第1節(jié)中介紹的MLM、CLM和TLM可以分別作為蒙漢翻譯模型的預(yù)訓(xùn)練模型,用于編碼器或解碼器的初始化節(jié)點。本文的翻譯模型采用具有循環(huán)因果推理機制的Transformer-XL模型。在本文的所有實驗中,都使用210個隱藏單元、8個注意力頭和6層編碼器-解碼器模型的基礎(chǔ)Transformer架構(gòu)。Transformer-XL模型的N層編碼器-解碼器計算程序如式(5)-式(8)所示,代表了一個注意力頭所做的計算工作。段落間的上下文向量、查詢向量、鍵向量、值向量計算同式(1)-式(2)。

        相對位置注意力計算:

        (5)

        (6)

        (7)

        (8)

        2.3 實驗結(jié)果和分析

        對于編碼器和解碼器的初始化,為了對上面的預(yù)訓(xùn)練模型在蒙漢翻譯上的效果進(jìn)行對比,采用不同的方法進(jìn)行初始化:蒙面預(yù)訓(xùn)練(MLM)、因果推理預(yù)訓(xùn)練(CLM)或隨機初始化,這三種組合需要9組實驗。在模型中使用基于去噪自動編碼的損失函數(shù)和基于在線反向翻譯的損失函數(shù)來訓(xùn)練模型。訓(xùn)練結(jié)果的數(shù)據(jù)見表1。

        表1 多種初始化方式用于翻譯模型的對比分析結(jié)果

        表1中:“EMB”表示使用跨語言嵌入向量預(yù)訓(xùn)練的方式引入查找表對編碼器和解碼器進(jìn)行初始化表示;PPL表示語義困惑度;“隨機”就是對編碼器-解碼器的初始參數(shù)隨機初始化表示。

        令編碼器-解碼器參數(shù)矩陣隨機初始化作為翻譯的基線模型。實驗結(jié)果表明,使用跨語言嵌入向量預(yù)訓(xùn)練的方式引入查找表對編碼器和解碼器進(jìn)行初始化表示,比基線模型的測試譯文BLEU值評估提高了6.4,在解碼器中用CLM初始化比基線模型的測試譯文BLEU值提高了12.3,在同樣條件下,使用MLM模型比CLM模型預(yù)訓(xùn)練效果好一些。但是,使用MLM對編碼器初始化,同時使用CLM模型對解碼器進(jìn)行初始化得到了目前對比實驗中的最高BLEU值,比隨機初始化的基線模型提高了21.4。可以看出語義困惑度PPL的值和BLEU值的大小成反比例關(guān)系。MLM初始化編碼器參數(shù)和CLM初始化接麥器參數(shù)的語義困惑度比統(tǒng)一使用MLM初始化編碼器和解碼器參數(shù)的方式雖然只提高0.1的BLEU值,但是PPL的值相對降低0.5,說明因果推理模型對序列中的歷史信息進(jìn)行了有效的記憶,在一定程度上有效地提高了翻譯質(zhì)量。

        3 結(jié) 語

        本文針對蒙漢平行語料資源比較稀缺和現(xiàn)有的平行語料數(shù)據(jù)的覆蓋面少等困難導(dǎo)致的蒙漢翻譯質(zhì)量不佳的問題,采用跨語言多任務(wù)學(xué)習(xí)的方式對機器翻譯建模。本文在數(shù)據(jù)預(yù)處理階段,引入了兩種新的無監(jiān)督預(yù)訓(xùn)練和一種監(jiān)督預(yù)訓(xùn)練的方法,用于跨語言建模來學(xué)習(xí)跨語言表示,并研究三種語言預(yù)訓(xùn)練方法在蒙漢翻譯中的效果。實驗結(jié)果表明,上述三種跨語言預(yù)訓(xùn)練的模型可以顯著降低低資源語言的困惑度,提高蒙漢翻譯質(zhì)量,蒙面預(yù)訓(xùn)練模型初始化編碼器參數(shù)和因果推理語言模型初始化解碼器參數(shù)的方案可以顯著提高翻譯質(zhì)量,比隨機初始化參數(shù)的BLEU值提高了20.4,同時語義困惑度能降低了13.6。

        猜你喜歡
        蒙漢蒙面解碼器
        海戰(zhàn)中的蒙面殺手——隱形艦艇
        科學(xué)解碼器(一)
        蒙面大盜
        科學(xué)解碼器(二)
        科學(xué)解碼器(三)
        蒙面的春天
        長江叢刊(2020年13期)2020-11-19 02:42:32
        線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
        《內(nèi)蒙古藝術(shù)》(蒙漢刊)首屆作者培訓(xùn)班掠影
        簡論蒙漢蛇文化比較研究
        淺析關(guān)于蒙漢章回小說的結(jié)構(gòu)
        粉嫩的18在线观看极品精品| 亚洲国产成人久久综合电影| 免费观看国产精品| 久久精品日本美女视频 | 亚洲国产成人久久精品一区| 狠狠人妻久久久久久综合蜜桃| 久久久久亚洲av无码a片软件| 久久国产精品免费一区六九堂| 黄片国产一区二区三区| 亚洲av永久无码天堂网小说区| 欧美黑人疯狂性受xxxxx喷水| 91情侣在线精品国产免费| 国产内射一级一片内射高清视频1| 国产做无码视频在线观看 | 成人无码h真人在线网站| 久久久精品国产亚洲av网不卡| 色婷婷av一区二区三区久久| 国产精品9999久久久久| 亚洲AV肉丝网站一区二区无码| 亚洲av免费看一区二区三区| 无码人妻丰满熟妇啪啪网不卡| 日日噜噜夜夜狠狠久久无码区| AV熟妇导航网| 亚洲第一黄色免费网站| 夜夜添夜夜添夜夜摸夜夜摸| 欧美va免费精品高清在线| 日韩精品少妇专区人妻系列| 精品国产一区二区三区不卡在线| a级毛片成人网站免费看| 亚洲三级香港三级久久| 麻豆视频av在线观看| 久久人妻无码一区二区| 男人无码视频在线观看| 国产一区二区三区影片| 色大全全免费网站久久| 越南女子杂交内射bbwxz| 少妇熟女淫荡丰满| 日本少妇一区二区三区四区 | 久久久久亚洲av无码专区| 天堂岛国精品在线观看一区二区| 国产精品亚洲av高清二区|