亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        低資源場景下印尼語-漢語機器翻譯模型對比分析研究

        2020-06-03 06:34:36馬駿騰肖莉嫻王連喜
        關(guān)鍵詞:單詞語言模型

        李 霞 ,馬駿騰,肖莉嫻,王連喜

        (1.廣東外語外貿(mào)大學(xué) 廣州市非通用語種智能處理重點實驗室,廣東 廣州 510006;2.廣東外語外貿(mào)大學(xué) 信息科學(xué)與技術(shù)學(xué)院,廣東 廣州 510006;3.廣東外語外貿(mào)大學(xué) 東方語言文化學(xué)院,廣東 廣州 510006)

        1 研究背景

        機器翻譯(machine translation,MT)是將文本從一種語言自動轉(zhuǎn)換為另一種語言的技術(shù),是自然語言處理的重要研究領(lǐng)域之一。近幾十年來,機器翻譯技術(shù)不斷發(fā)展,從傳統(tǒng)的統(tǒng)計機器翻譯方法[1-3]到基于端到端的神經(jīng)機器翻譯方法[4-7],翻譯模型和翻譯效果都取得了顯著提升。

        經(jīng)典的神經(jīng)機器翻譯模型主要基于編碼器-解碼器結(jié)構(gòu),是一種基于遞歸神經(jīng)網(wǎng)絡(luò)的變體,常用的編碼器和解碼器網(wǎng)絡(luò)單元為LSTM(long short term memory,LSTM)[8]或GRU(gated recurrent unit,GRU)[9],該類模型的優(yōu)點是能有效捕捉句子單詞的序列信息,較好地處理長序列時梯度消失問題,但它存在不能并行對句子進行編碼的缺點。為此,J.Gehring等[10]提出一種完全基于卷積神經(jīng)網(wǎng)絡(luò)[11]的編碼器-解碼器結(jié)構(gòu),使得計算可以并行化,并通過疊加多層來表達較大窗口內(nèi)的上下文信息,取得了較好的翻譯性能。2017年A.Vaswani等[7]提出了使用Transformer結(jié)構(gòu)來構(gòu)建神經(jīng)機器翻譯模型,Transformer 拋 棄 了 傳 統(tǒng)的RNN(recurrent neural network)結(jié)構(gòu),提出和使用自注意力機制,使得它更關(guān)注句子本身,從而能夠抽取出更多的信息,進而取得了很好的性能,后續(xù)的工作中也陸續(xù)出現(xiàn)基于Transformer結(jié)構(gòu)的不同改進工作[12-13]。

        近年來,機器翻譯工作也聚焦于融合視覺、聽覺等信息的多模態(tài)機器翻譯[14-15],通過結(jié)合圖片中的語義信息來輔助文本的語義消歧,進而提升機器翻譯的準(zhǔn)確率。與此同時,面向資源稀缺的低資源語言機器翻譯研究近年來也成為研究熱點,如面向尼泊爾語與僧伽羅語[16]、希伯來語[17]、印尼語、菲律賓語等資源較少的機器翻譯研究。在面向低資源語言的機器翻譯場景中,由于訓(xùn)練語料較少,且源端和目標(biāo)端的語言形態(tài)、句子結(jié)構(gòu)差異較大,低資源語言機器翻譯也是近年來機器翻譯研究的難點之一。

        為了解決低資源訓(xùn)練語料少、模型訓(xùn)練難等問題,研究人員提出遷移學(xué)習(xí)和元學(xué)習(xí)等技術(shù)來實現(xiàn)面向低資源語言的機器翻譯模型和方法。如B.Zoph等[18]提出使用遷移學(xué)習(xí)的思想用于低資源語言機器翻譯研究中,其思想是通過在語料豐富的語言對上訓(xùn)練模型后,再使用低資源語言的數(shù)據(jù)做微調(diào),從而獲得在低資源語言上的翻譯模型。Gu J.T.等[19]使用元學(xué)習(xí)的方法來解決低資源語言翻譯困難的問題。R.Sennrich等[20]則提出使用易獲得的目標(biāo)語言的大量單語語料,通過現(xiàn)有的翻譯工具或者已訓(xùn)練好的機器翻譯模型對其進行反向翻譯,從而構(gòu)造偽平行句對。近幾年由于計算能力的提升,研究人員在面向低資源語言的機器翻譯研究中從遷移技術(shù)的使用[21]與如何構(gòu)造更多更好的平行數(shù)據(jù)[22-23]角度不斷開展低資源語言的機器翻譯研究。

        雖然神經(jīng)機器翻譯模型相比傳統(tǒng)基于統(tǒng)計的翻譯模型取得了更好的效果,但是它需要足夠規(guī)模的訓(xùn)練語料才能更好地調(diào)參并獲得較好的翻譯效果。同時,目標(biāo)語言與源語言形態(tài)的差異、語法結(jié)構(gòu)的差異也會影響模型的性能。例如,屬于同一個語系的英語和法語,與屬于不同語系的英語和漢語的機器翻譯相比,即使在訓(xùn)練數(shù)據(jù)完全相同的情況下其結(jié)果也會有所差異。

        本文主要關(guān)注主流神經(jīng)機器翻譯模型在低資源語言或在訓(xùn)練數(shù)據(jù)量少的場景下的表現(xiàn)情況。課題組以印尼語-漢語為語言翻譯對象,探究面向資源較為稀缺的低資源語言(印尼語)和在訓(xùn)練數(shù)據(jù)量較少情況下(低資源場景下),當(dāng)前主流神經(jīng)機器翻譯模型的翻譯表現(xiàn)。課題組嘗試從已有的“英語-漢語”數(shù)據(jù)集構(gòu)造相同規(guī)模的“印尼語-漢語”偽平行數(shù)據(jù),使它們具有相同目標(biāo)端的中文句子,并進行訓(xùn)練和測試,將得到的結(jié)果進行對比和分析,探究在相同的低資源場景下,從英語到漢語和從印尼語到漢語的翻譯效果。本文工作的主要貢獻如下:

        1)從已有的“英語-漢語”數(shù)據(jù)集拓展并構(gòu)建“印尼語-漢語”偽平行數(shù)據(jù)集用于模型訓(xùn)練;

        2)探索和分析了基于LSTM和基于Transformer兩種端到端翻譯模型在英語-漢語和印尼語-漢語兩個不同語言對上的翻譯效果分析;

        3)給出了融合注意力機制的基于LSTM和基于Transformer端到端神經(jīng)機器翻譯模型在低資源場景下的適應(yīng)性分析。

        2 神經(jīng)機器翻譯模型NMT

        經(jīng)典神經(jīng)機器翻譯模型(neural machine translation,NMT)采用基于編碼和解碼的序列到序列翻譯模型框架,輸入端為源語言單詞序列X=(x1,x2,…,xM),輸出端為目標(biāo)語言單詞序列Y=(y1,y2,…,yN),NMT模型希望學(xué)習(xí)得到X翻譯為Y的概率P=(Y|X)最大的模型,從而學(xué)習(xí)得到訓(xùn)練集數(shù)據(jù)的條件概率分布。本文使用的NMT模型分別為融入注意力機制的基于LSTM 機器翻譯模型和基于Transformer的神經(jīng)機器翻譯模型,分別以Att-LSTM-based NMT模型和Transformer-based NMT模型來命名表示該兩個模型。

        2.1 融入注意力機制的LSTM-based端到端翻譯模型

        2.1.1 編碼端

        在LSTM-based端到端神經(jīng)機器翻譯模型中,編碼器使用雙向LSTM 對源語言句子進行編碼,其中前向、反向LSTM的輸出序列分別為和其計算方法如式(1)~(2)所示:

        式(1)(2)中:Wx為源語言單詞xi轉(zhuǎn)換為詞向量的詞向量查找矩陣;fenc為LSTM 計算過程的函數(shù)。

        最終編碼器在每個時間步上的輸出是每個單詞前向和后向隱含向量的拼接,即編碼端源語言輸入序列經(jīng)過編碼得到的輸出為h=(h1,h2,…,hN)。

        2.1.2 解碼端

        注意力機制旨在更好地得到目標(biāo)單詞與源語言句子中單詞的對齊關(guān)系。參考M.T.Luong等[6]的工作,本文在模型的解碼端使用LSTM單元,并融合注意力機制,計算方法如下:

        首先,計算解碼器t時刻的隱含狀態(tài)st和編碼器的每個輸出隱含狀態(tài)hi的對齊信息et,i,如式(3)所示,其中st-1為解碼器的上一個隱含狀態(tài),Wa為參數(shù)矩陣。

        然后,通過Softmax 函數(shù)計算得到解碼器t時刻隱含狀態(tài)所對應(yīng)編碼器不同隱含狀態(tài)hi的權(quán)重at,i,如式(4)所示。

        最后,進行加權(quán)求和得到解碼端t時刻隱含狀態(tài)在編碼器端的上下文向量ct,如式(5)所示。最后,如式(6)所示,解碼器t時刻的隱含狀態(tài)st的結(jié)果由3部分計算得到:解碼器的上一個隱含狀態(tài)st-1;解碼器t-1時刻預(yù)測輸出的目標(biāo)單詞(模型訓(xùn)練時取與xt-1對應(yīng)的單詞yt-1);t時刻解碼器隱含狀態(tài)的上下文向量ct,其中Wy為目標(biāo)語言單詞yt-1轉(zhuǎn)換為目標(biāo)語言單詞的詞向量查找矩陣,fdec則表示LSTM 計算過程的函數(shù)。

        計算式如(3)~(6)所示:

        2.2 基于Transformer端到端翻譯模型

        2.2.1 編碼端

        Transformer的內(nèi)部結(jié)構(gòu)包含一個自注意力層(self-attention layer)和前饋神經(jīng)網(wǎng)絡(luò)層(feed-forward network layer,F(xiàn)FN),編碼器和解碼器都可以通過堆疊層數(shù)來加深網(wǎng)絡(luò)的深度,提高模型的效果。每個編碼器層只包含自注意力層和FFN層,在自注意力層中,每個輸入的向量會被3個不同的權(quán)重矩陣WQ,WK,WV轉(zhuǎn)換成3個不同的向量,其中Q為解碼器的上一層輸出,K和V為編碼器的輸出,分別為Q(Query)、K(Key)和V(Value)。自注意力機制使用縮放點積(scaled dot-product)作為相似度計算函數(shù),如式(7)所示,

        式中d為Q、K、V的維度。

        由于Transformer與RNN 不同,它并不能捕捉句子的序列信息,因此在輸入的詞向量中加入了位置編碼給每個單詞提供位置信息。為了使自注意力層有更好的表現(xiàn),A.Vaswani等[7]還將輸入的Q、K、V投影到多個子空間中,即多頭機制(Multi-Head),它將每個“頭”得到的輸出拼接后,輸入一個全連接層,如式(8)所示,

        2.2.2 解碼端

        解碼器層在自注意力層和FFN層之間多了一個編碼器-解碼器注意力層(encoder-decoder layer),接收來自編碼器的最終輸入。它采用了和2.2.1 節(jié)描述的編碼端多頭注意力機制一致的計算方法。

        編碼器和解碼器中的每個子層的輸出都使用了殘差連接,防止網(wǎng)絡(luò)加深時出現(xiàn)退化的梯度消散問題。并使用了層正則化[23],使得正則化后的數(shù)據(jù)盡可能地保持原始表達能力,更適應(yīng)模型的訓(xùn)練。

        3 實驗

        3.1 實驗數(shù)據(jù)

        本文所用IWSLT 2015(https://sites.google.com/ site/iwsltevaluation2015/mt-track)機器翻譯評測任務(wù)所提供的評測數(shù)據(jù)集,該數(shù)據(jù)收集的領(lǐng)域是TED(https://www.ted.com)中的演講內(nèi)容。為了對比神經(jīng)機器翻譯模型在不同語種上的翻譯效果,保證數(shù)據(jù)的一致性,課題組選取IWSLT 2015 英語-漢語數(shù)據(jù)集作為基礎(chǔ)并進行擴展,得到印尼語-漢語偽平行數(shù)據(jù)集。擴展的方法是使用Google Translation API(https://translate.google.cn/,翻譯時間為2020-01)將訓(xùn)練集中的英語句子自動翻譯為相應(yīng)的印尼語,選擇用英語翻譯的原因是考慮到印尼語與英語都是使用26個英文字母所構(gòu)成的單詞,語言形態(tài)相似,得到的數(shù)據(jù)可能質(zhì)量更好。實驗所采用的校驗集和測試集則由印尼語專業(yè)教師進行人工翻譯和標(biāo)注,校驗集用于翻譯模型的調(diào)參,測試集用于模型的結(jié)果評測。詳細(xì)數(shù)據(jù)集信息如表1所示。

        表1 實驗數(shù)據(jù)細(xì)節(jié)(單位:句對)Table1 Details of experimental data (unit: sentence pair)

        3.2 實驗設(shè)置

        3.2.1 數(shù)據(jù)預(yù)處理

        在數(shù)據(jù)預(yù)處理階段,對于英語語言使用Moses[24]統(tǒng)計機器翻譯庫中的預(yù)處理腳本對語言進行預(yù)處理操作,其中包括分詞、標(biāo)點規(guī)范化、字母大小寫處理(truecase)等。對于印尼語課題組則直接將所有字母小寫并進行分詞,對于中文分詞則采用的是Jieba(https://github.com/fxsjy/jieba)分詞工具。實驗中,課題組控制訓(xùn)練集的句子長度在1~50個詞之間,并且將源語言及目標(biāo)語言的詞匯表大小設(shè)定為50 000個。在訓(xùn)練過程中使用校驗集對模型進行調(diào)參和模型選擇,整個實驗采用BLEU[25]作為評價指標(biāo)和結(jié)果匯總。實驗所使用的硬件設(shè)備為1 塊GeForce RTX 2080GPU顯卡。

        3.2.2 基于LSTM的端到端模型實驗設(shè)置

        編碼器端使用雙向LSTM 作為編碼單元,隱含狀態(tài)向量的維度為512維,源語言和目標(biāo)語言的詞向量維度為512維。解碼器端使用單向LSTM,隱含狀態(tài)向量的維度為512維。模型采用Adam 優(yōu)化器[26],初始學(xué)習(xí)率為0.001。batch型為句子,batch size 設(shè)置為64,dropout 概率設(shè)置為0.3。在訓(xùn)練時每2 000個訓(xùn)練迭代在校驗集上測試,如果連續(xù)4次模型在校驗集上的困惑度值(perplexity)沒有下降,則執(zhí)行一次學(xué)習(xí)率衰減,衰減為原來的二分之一。實驗中,如果這種情況出現(xiàn)8次,則使用早期停止策略(early stop)結(jié)束訓(xùn)練,beam search的大小設(shè)置為5。

        3.2.3 基于Transformer的端到端模型實驗設(shè)置

        文中Transformer模型使用OpenNMT-py[27]開源框架進行實驗,其中編碼器與解碼器均使用6層8個頭,其中隱含狀態(tài)向量和詞向量維度均為512維。詞向量加入了位置編碼,F(xiàn)FN 維度設(shè)置為2 048 維。優(yōu)化器選用Adam,初始學(xué)習(xí)率為0.1。實驗使用Noam學(xué)習(xí)率下降方案[4],其中β1=0.9,β2=0.998,warm up steps為16 000。batch的類型為單詞,batch size 設(shè)置為4 098,訓(xùn)練200 000個training iteration,選擇在校驗集上表現(xiàn)最好的模型。dropout 概率設(shè)置為0.3,beam search 大小設(shè)置為5。

        3.3 實驗結(jié)果與分析

        使用所給出的實驗設(shè)置和評價指標(biāo),融入注意力機制LSTM-based的神經(jīng)機器翻譯模型(Att-LSTMbased NMT)和基于Transformer的神經(jīng)機器翻譯模型(Transformer-based NMT)的詳細(xì)實驗結(jié)果如表2所示。

        表2 不同語言對的實驗結(jié)果Table2 Experimental results of different models with different language pairs

        由表2可知,在英語-漢語和印尼語-漢語兩個語言翻譯對中,Att-LSTM-based NMT模型均比Transformer-based NMT模型略好,其中Att-LSTMbased NMT模型在英語-漢語語言對上的BLEU值為15.35,在印尼語-漢語語言對上的BLEU值為13.92,相比而言,在印尼語-漢語語言對上的結(jié)果要比在英語-漢語語言對上的翻譯結(jié)果低1.43個BLEU值,這表明模型在低資源語言以及針對印尼語-漢語這種語言形態(tài)差異較大的語言對上的翻譯結(jié)果相對較低。

        實驗結(jié)果還表明,Transformer-based NMT模型在兩個相同平行語言對上翻譯的結(jié)果,均略低于Att-LSTM-based NMT模型。課題組分析,可能的原因是在低資源的情景中(數(shù)據(jù)集的數(shù)量較少),Transformer-based NMT模型在訓(xùn)練數(shù)據(jù)不夠的情況下,翻譯效果可能不如RNN結(jié)構(gòu)的機器翻譯,因為Transformer的網(wǎng)絡(luò)深度更深,在這種量級數(shù)據(jù)上容易過擬合。同時,Transformer-based NMT 在參數(shù)相同的情況下,運行出來的結(jié)果相對更為穩(wěn)定,Transformer-based NMT模型在英語-漢語和印尼語-漢語的翻譯BLEU值標(biāo)準(zhǔn)方差分別為0.14和0.15,相比于Att-LSTM-based NMT模型的0.37和0.73 更為穩(wěn)定。

        3.4 模型的適應(yīng)性分析

        本研究針對印尼語-漢語低資源語言對,以及翻譯訓(xùn)練數(shù)據(jù)較小的情況下,Att-LSTM-based NMT模型和Transformer-based NMT模型的翻譯適應(yīng)性進行分析。課題組分別分析了兩個模型在不同語言對上在不同句子長度時的翻譯效果,結(jié)果如圖1所示。其中圖1a為句子長度不同時兩個模型在英語-漢語對上的翻譯結(jié)果對比分析,圖1b為句子長度不同時兩個模型在印尼語-漢語對上的翻譯結(jié)果對比分析。

        圖1 模型在不同長度句子上的BLEU值比較分析Fig.1 A comparative analysis of two models with BLEU metrics with different length of sentences

        如圖1所示,在大多情況下,Att-LSTM-based NMT模型結(jié)果相對更好,且兩個模型在長度為30~50時,翻譯的結(jié)果最好。但在句子長度為30~40時,Transformer-based NMT模型的翻譯效果都要稍好于Att-LSTM-based NMT模型。同時課題組發(fā)現(xiàn),當(dāng)句子長度越長,Transformer-based NMT模型的性能下降最大,這可能是因為Transformer 盡管通過加入位置編碼來解決單詞位置信息的問題,但是其仍然在建立更長距離依賴方面效果較差,這與位置編碼的方式選擇有一定的關(guān)系。

        同時,課題組還對Att-LSTM-based NMT模型和Transformer-based NMT模型的訓(xùn)練時間進行了對比分析,兩個模型以3.2.2 節(jié)和3.2.3 節(jié)參數(shù)設(shè)置情況下的訓(xùn)練時間對比如表3所示。

        表3 模型的訓(xùn)練時間對比Table3 Comparison of training time of the models

        由表3可得,Transformer-based NMT模型所需要的平均訓(xùn)練時長要比Att-LSTM-based NMT模型更長。以實驗結(jié)果來看,在3.2.2和3.2.3 節(jié)使用的參數(shù)和相同硬件情況下,Transformer-based NMT模型訓(xùn)練所用時間為26.8 h,而Att-LSTM-based NMT模型訓(xùn)練時間為16.5 h,低于Transformer-based NMT模型訓(xùn)練時間。這也驗證了Transformer-based NMT模型更為復(fù)雜,需要更多的大規(guī)模訓(xùn)練數(shù)據(jù)進行調(diào)參才能達到較好的效果。

        3.5 案例分析

        本研究還對兩個模型的翻譯結(jié)果進行案例分析,比較兩種NMT 翻譯的效果。課題組選取了兩個印尼語-漢語的翻譯結(jié)果進行對比分析,如表4和表5所示。所選取的兩個印尼語句子長度都在30個單詞以上,選擇了兩種模型表現(xiàn)最好的句子長度的情景下結(jié)果。

        表4 案例分析(1)Table4 Case study (1)

        以表4所示的案例為例,Att-LSTM-based NMT模型結(jié)果中,在句子的后半部分出現(xiàn)了單詞重復(fù)的情況,如“你可以用你的電池電池充電”,而Transformer-based NMT模型的翻譯結(jié)果更加符合源句子真實翻譯結(jié)果。而如表5所示,在翻譯的結(jié)果中,同樣出現(xiàn)了“這發(fā)生在我的工作之前,在我的工作之前”這種重復(fù)翻譯的情況,并且相比而言,Transformer-based NMT模型的翻譯效果更好。這表明,即使在小數(shù)據(jù)集的訓(xùn)練場景下,Transformerbased NMT模型依然可以取得較好的翻譯穩(wěn)定性。

        4 結(jié)語

        課題組探究了在低資源語言和數(shù)據(jù)量較小的場景下,基于Transformer的神經(jīng)機器翻譯模型和基于LSTM 神經(jīng)機器翻譯模型的翻譯結(jié)果和適應(yīng)性對比分析。實驗中課題組發(fā)現(xiàn),在低資源的情景下,融入注意力機制的基于LSTM的神經(jīng)機器翻譯模型無論是翻譯效果或者訓(xùn)練時間上,都略好于Transformer,這可能是因為基于Transformer的神經(jīng)機器翻譯模型更深,參數(shù)量大,需要在更大規(guī)模的數(shù)據(jù)中才能凸顯其優(yōu)勢,并且Transformer 對超參數(shù)的設(shè)定更加敏感,調(diào)參所需代價較大,因此在低資源場景下使用RNN結(jié)構(gòu)模型的性價比會更高。同時在句子長度中等的情況下,基于Transformer的NMT 翻譯效果會略勝一籌。另外,總體而言,盡管在小數(shù)據(jù)量情況下,基于Transformer 神經(jīng)機器翻譯模型的穩(wěn)定性更好。

        猜你喜歡
        單詞語言模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        語言是刀
        文苑(2020年4期)2020-05-30 12:35:30
        單詞連一連
        看圖填單詞
        讓語言描寫搖曳多姿
        看完這些單詞的翻譯,整個人都不好了
        累積動態(tài)分析下的同聲傳譯語言壓縮
        3D打印中的模型分割與打包
        久久精品国产亚洲av电影网 | 国产极品美女高潮抽搐免费网站| 亚洲国产精品久久久久秋霞小说| 少妇伦子伦情品无吗| 少妇做爰免费视频网站| 亚洲国产麻豆综合一区| 久久精品国产亚洲av蜜桃av| 精彩亚洲一区二区三区| 免费在线观看av不卡网站| 国产 麻豆 日韩 欧美 久久| 四虎影视在线观看2413| 国产免费一级高清淫日本片| 人妻少妇久久精品一区二区| 久草福利国产精品资源| 给你免费播放的视频| 欧美亚洲国产一区二区三区| 天天操夜夜操| 国产自精品在线| 日韩精品av在线一区二区| 丰满人妻中文字幕一区三区| 久久久久亚洲av成人无码| 精品国产一区二区三区19| 精品亚洲少妇一区二区三区| 特一级熟女毛片免费观看| 亚洲av成人久久精品| 久久99精品久久久久麻豆| 久久天天躁狠狠躁夜夜不卡| 亚洲va欧美va国产综合| 人妻无码在线免费| 一区二区三区国产偷拍 | 国产精品午夜高潮呻吟久久av| 色噜噜精品一区二区三区| 亚洲长腿丝袜中文字幕| 亚洲情综合五月天| 丰满五十六十老熟女hd| 亚洲欧洲日产国产AV无码| 久久久免费精品国产色夜| 日本免费一区二区三区影院| 国产亚洲2021成人乱码| 久久精品无码一区二区三区蜜费| 国产精品一区二区日韩精品|