亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        預(yù)標準化Transformer在烏英機器翻譯中的實現(xiàn)

        2020-12-10 10:05:32陳子祥李大舟李耀松
        小型微型計算機系統(tǒng) 2020年11期
        關(guān)鍵詞:解碼器語料編碼器

        高 巍,陳子祥,李大舟,李耀松

        (沈陽化工大學 計算機科學與技術(shù)學院,沈陽110000)

        1 引 言

        2013年習主席提出的“一帶一路”極大地促進了沿線各國的深度合作.在此基礎(chǔ)上,各國之間的交流愈加頻繁,國家語言之間的轉(zhuǎn)換需求也與日俱增,機器翻譯愈發(fā)受到重視.目前,機器翻譯方法呈現(xiàn)出多語言、高質(zhì)量的發(fā)展趨勢,能夠?qū)⒁环N語言翻譯成多種語言,并且在一定程度上保證了翻譯質(zhì)量[1].然而不同語言之間在語法規(guī)則、書寫形式等方面存在差異,且小語種的語料資源稀缺,因此尋求一個高質(zhì)量的翻譯模型成為了提高翻譯的效果重要手段.

        印度和巴基斯坦作為“一帶一路”戰(zhàn)略中南亞地區(qū)代表國,具有獨特的地理位置和政治因素.“一帶一路”戰(zhàn)略涉及的官方語言有 50 余種[2].烏爾都語作為巴基斯坦的母語,也是印度的官方語言.它屬于印歐語系印度語族,書寫形式為自右至左書寫,詞與詞之間沒有空隔隔開.英語作為全球通用的官方語言,也是印度的官方語言之一.因此,實現(xiàn)烏爾都語與英語之間的翻譯對于“一帶一路”的發(fā)展具有重大意義.

        本文提出了一個基于預(yù)標準化Transformer的烏英機器翻譯模型.首先將源語言向量加上位置編碼,然后傳入預(yù)標準化層.將預(yù)標準化后的詞向量作為輸入傳入編碼器,編碼器中采用多頭注意力機制以充分獲取源語言句子的語義信息,然后將輸出結(jié)果傳入解碼器進行解碼.經(jīng)解碼后的輸出向量經(jīng)過線性變換后再經(jīng)函數(shù)處理得到反映每個目標單詞概率的輸出向量.將BLEU值[3]作為評價譯文質(zhì)量標準,輸出最優(yōu)譯文.

        2 相關(guān)工作

        近年來,關(guān)于烏爾都語與英語之間的機器翻譯的研究,仍以統(tǒng)計機器翻譯[4]為主.統(tǒng)計機器翻譯過程為以下幾個階段:處理分詞、標記詞性、詞語對齊、語言模型的訓練、翻譯模型的訓練、調(diào)節(jié)模型、最小錯誤率評分等[5,6].不僅過程繁鎖,且以統(tǒng)計分析的方法很難獲取高質(zhì)量譯文,因此通過改進翻譯模型來提高翻譯質(zhì)量成為研究熱點.王志洋通過對詞語進行形態(tài)分析并將詞干與詞綴分離,再進行對齊的方法來改進翻譯模型[7],提高了翻譯質(zhì)量.Shahnawaz等提出基于GIZA++、SRILM和MOSES解碼器的英語-烏爾都語機器翻譯系統(tǒng)模型[8],采用最小錯誤率訓練方法,對因子翻譯模型進行譯碼和訓練.為了取得更好的翻譯效果,Shahnawaz等人又提出了一種基于機器翻譯實例推理(CBR)、翻譯規(guī)則庫模型和人工神經(jīng)網(wǎng)絡(luò)(ANN)模型的烏英機器翻譯模型[9],采用CBR方法對輸入的英語句子進行烏爾都語翻譯規(guī)則的選擇.

        由于人工神經(jīng)網(wǎng)絡(luò)不能很好地利用已有的先驗知識,再加上人工干預(yù)多,推理速度慢等缺點,不能很大程度地優(yōu)化翻譯質(zhì)量[10].因此,神經(jīng)機器翻譯的(Neural Machine Translation,NMT)出現(xiàn),對于傳統(tǒng)機器翻譯模型存在的問題有了很大的改善[11].神經(jīng)機器翻譯通過學習源語言表達方式分析預(yù)測出目標語言,實現(xiàn)雙語映射[12].例如Bahdanau和Cho利用神經(jīng)網(wǎng)絡(luò)模型對詞匯進行聯(lián)合對齊概率計算[13,14],生成翻譯候選集,進而對候選集進行評分并輸出最優(yōu)譯文.Barret Zoph[15]等人基于長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)搭建了神經(jīng)機器翻譯系統(tǒng),實現(xiàn)烏爾都語到英語的翻譯.但是這種模型訓練過程是串行進行,耗時較大,且模型對上下文的理解欠佳.因此,對烏英機器翻譯模型的進一步改進成為研究熱點.

        針對上述問題,本文提出一種基于預(yù)標準化Transformer的翻譯模型,作為烏英翻譯模型中源語言編碼和目標語言解碼的載體.在基準Transformer模型中加入預(yù)標準化,保證數(shù)據(jù)分布一致的同時避免發(fā)生梯度消失,有效的提升了烏英機器翻譯的效果.

        3 基于預(yù)標準化Transformer的機器翻譯模型

        宏觀來看,Transformer是一個黑盒,輸入一種語言,經(jīng)過這個黑盒能輸出另一種語言.宏觀結(jié)構(gòu)圖如圖1所示.它是由編碼器和解碼器以及它們之間的連接組成.輸入烏爾都語,通過堆疊的編碼器輸出對應(yīng)特征向量,再將編碼器的輸出向量作為解碼器的輸入,最終輸出英語.

        圖1 Transformer宏觀結(jié)構(gòu)圖Fig.1 Macro structure of transformer

        本文提出的預(yù)標準化Transformer模型的主體結(jié)構(gòu)圖如圖2所示.首先對源語言進行詞嵌入,生成對應(yīng)詞向量,加上對應(yīng)位置編碼.將計算結(jié)果進行預(yù)標準化處理,處理后的結(jié)果經(jīng)線性變換獲得密鑰K,值V和查詢Q矩陣作為編碼器的輸入.編碼器內(nèi)部采用多頭自注意力機制,聚合輸入的源語言單詞的信息,生成每個單詞的新表示.再經(jīng)前饋層得到編碼器的輸出.為了避免梯度爆炸,在每層網(wǎng)絡(luò)后引入殘差連接和歸一化層.解碼器將上一時刻的輸出經(jīng)掩碼多頭注意力層后再經(jīng)線性變換得到查詢Q矩陣,將編碼器的輸出經(jīng)線性變換后得到密鑰K和值V矩陣.再將K,V和Q矩陣作為多頭注意力的輸入,解碼后的輸出再通過線性變換和softmax得到每個單詞概率的輸出向量.

        圖2 預(yù)標準化Transformer模型結(jié)構(gòu)Fig.2 Pre-normalized Transformer model structure

        3.1 位置編碼

        Transformer模型是并行接收輸入序列的,所以不能捕捉順序序列.位置編碼特征的嵌入可以很好地解決這個問題[16].通過在詞嵌入向量中加入單詞的位置信息來使Transformer能夠區(qū)分不同位置上的單詞.

        本文模型中采用的位置編碼是正余弦位置編碼,位置編碼的計算公式如式(1)所示.

        (1)

        其中PE是Positional Encoding的縮寫,指的是位置編碼.pos是指當前的詞在句子中對應(yīng)的位置,i是指向量中每個值的下標.在偶數(shù)位置,使用正弦編碼;在奇數(shù)位置,使用余弦編碼.

        假設(shè)詞嵌入的維度為4,即dmodel=4,則可以根據(jù)公式(1)寫出對應(yīng)的位置編碼.如表1所示.

        表1 位置編碼表Table 1 Positional encoding table

        3.2 預(yù)標準化

        預(yù)標準化層如圖2所示.詞向量加入位置向量后會產(chǎn)生分布不一致,一定程度上折損了模型的翻譯效果.預(yù)標準化層的加入,保證輸入數(shù)據(jù)分布均勻的同時,避免了梯度消失.

        預(yù)標準化的公式如式(2)所示:

        (2)

        Layer Normalization計算公式如式(3)所示.

        (3)

        式(3)中,μ、σ分別代表均值和方差,a和b是可學習的參數(shù),ε為隨機取的極小數(shù).

        3.3 編碼器設(shè)計

        編碼器的內(nèi)部結(jié)構(gòu)如圖2左側(cè)虛線框內(nèi)所示,編碼器由多頭自注意力機制和前饋神經(jīng)網(wǎng)絡(luò)兩個部分組成.預(yù)標準化處理后的輸入向量經(jīng)過多頭注意力機制得到一個上下文向量,將該向量與輸入向量求和后經(jīng)歸一化處理傳入前饋神經(jīng)網(wǎng)絡(luò)層(Feed Forward Neural Network,F(xiàn)FN)[16].經(jīng)前饋層處理后的輸出向量再與該前饋層的輸入求和,對求和結(jié)果進行歸一化處理之后作為編碼器的輸出.

        3.3.1 多頭自注意力機制

        多頭自注意力機制是Transformer的核心內(nèi)容,能讓模型考慮到不同位置的信息.多頭注意力機制的計算相當于多個不同的單自注意力機制的集成.單頭注意力機制的計算過程如圖3所示,圖中僅為第一個輸入向量a1的計算過程.

        圖3中單頭注意力機制的輸入是經(jīng)預(yù)標準化后的特征向量a1,a2,…,ai,a1,a2,…,ai分別乘以不同的權(quán)值矩陣Wq,Wk,Wv,得到Q(q1,…,qi),K(k1,k2,…,ki),V(v1,v2,…,vi).計算公式如式(4)所示.

        Q=Wq·[a1a2…ai]K=Wk·[a1a2…ai]V=Wv·[a1a2…ai]

        (4)

        式(4)中Wq,Wk,Wv是隨機初始化權(quán)重方陣.a1,a2,…,ai是輸入數(shù)據(jù)經(jīng)過詞嵌入和位置編碼相加之后的特征向量.

        (5)

        對關(guān)聯(lián)度矩陣A進行softmax得到標準化矩陣B,將矩陣V與矩陣B點乘得到輸出矩陣O,通過式(6)獲得計算結(jié)果O.

        (6)

        由此可以得到特征向量Z,計算公式如(7)所示.

        (7)

        多頭注意力機制的計算相當于多個不同的單自注意力機制的集成.多頭注意力機制的計算公式如(8)、(9)所示.

        (8)

        MultiHead(Q,K,V)=Concat(head1,head2,…,headh)WO

        (9)

        3.3.2 前饋神經(jīng)網(wǎng)絡(luò)層

        前饋神經(jīng)網(wǎng)絡(luò)層(Feed Forward Neural Network,F(xiàn)FN)分為兩個子層,第一個子層的激活函數(shù)為RELU,第二個子層的激活函數(shù)是一個線性函數(shù),計算公式如(10)所示.

        FFN(Z)=max(0,ZW1+b1)W2+b2

        (10)

        式(10)中,W1和W2是可學習的權(quán)重方陣,b1和b2是隨機偏置向量.

        3.4 解碼器設(shè)計

        解碼器的內(nèi)部結(jié)構(gòu)如圖2右側(cè)虛線框內(nèi)所示.解碼器中分別包含掩碼多頭自注意力層、編碼器-解碼器注意力層和前饋神經(jīng)網(wǎng)絡(luò)層三個子層.將目標語言的詞向量作為輸入向量,經(jīng)掩碼多頭注意力層后,將輸出結(jié)果進行求和與歸一化[17];將歸一化后的結(jié)果和編碼器的輸出一起傳入編碼器-解碼器注意力層;最后經(jīng)前饋神經(jīng)網(wǎng)絡(luò)層得到解碼器的輸出.具體每層的計算過程如下.

        第一層為掩碼多頭自注意力層,輸入是目標語句的詞向量.假設(shè)輸入序列為Y=(y1,y2,…,yn),對yi進行預(yù)測時,掩碼多頭注意力層只對(y1,y2,…,yi-1)序列進行Attention計算(計算過程如3.3.1所示),防止訓練時使用未來信息.

        第二層為編碼器-解碼器注意力層,它的輸入分為兩部分,分別是掩碼多頭注意力層的輸出和編碼器的輸出.將掩碼多頭注意力層的輸出作為Q,編碼器的輸出作為K,V鍵值對,進行Attention,使解碼器在解碼當前詞時充分考慮源語言的信息.

        第三層為前饋神經(jīng)網(wǎng)絡(luò)層,它的輸入為編碼器-解碼器注意力層的輸出.它和編碼器中的前饋神經(jīng)網(wǎng)絡(luò)層一樣(計算過程如3.3.2所示).經(jīng)此層輸出的特征向量經(jīng)線性變化和softmax函數(shù)之后得到每個單詞概率的輸出向量.

        4 實 驗

        4.1 實驗環(huán)境

        實驗的數(shù)據(jù)集共有兩個來源,一是來源于由Jawaid和Zeman平行翻譯的古蘭經(jīng)和圣經(jīng)部分語句約15000行;二是來源于IPC(Indic Parallel Corpus),是亞馬遜Mechanical Turk(MTURK)平臺眾包將六種印度次大陸語言翻譯成英語的維基百科文檔的集合[18].其中烏爾都語到英語平行語料庫約35000行.共計有50000行數(shù)據(jù)集.其中43000行用來構(gòu)建訓練集,5000行構(gòu)建驗證集,2000行構(gòu)建測試集.

        首先對數(shù)據(jù)集進行Sentencepiece[19]處理.Sentencepiece算法分為兩步,第一步固定詞表,求一個句子困惑度最低的切分序列;第二步根據(jù)這個切分序列求固定詞表,剔除一個詞,計算困惑度,最后對困惑度設(shè)定一個閾值,篩選一些對語料集影響較大的詞,組成詞匯表.Sentencepiece處理后的部分源語句和目標語句如表2所示.

        表2 SentencePiece算法處理后語料Table 2 Corpus processed by Sentencepiece algorithm

        本文中采用的評價標準為BLEU.BLEU 是用來衡量機器翻譯文本與參考文本之間的相似程度的指標,取值范圍在[0,1].本文中最終的BLEU值截取了百分數(shù)的數(shù)值部分來進行衡量比較.

        本次實驗在顯卡配置為RTX2070,內(nèi)存8GB的筆記本上進行,系統(tǒng)環(huán)境為ubuntu18.04桌面版,實驗時內(nèi)存占用率為94%,參數(shù)量為64M.在深度學習框架TensorFlow上搭建神經(jīng)機器翻譯系統(tǒng).模型相關(guān)參數(shù)設(shè)置如表3所示.

        4.2 實驗結(jié)果分析及對比

        本文利用烏爾都語-英語雙語料中預(yù)設(shè)的2000句對平行雙語語料做測試集,采用BLEU值作為實驗的評價指標.

        實驗每迭代一輪輸出一次BLEU值.圖4所示為預(yù)標準化Transformer模型迭代50輪的損失值變化情況和每輪BLEU值.由于在迭代次數(shù)到40輪之后,損失值和BLEU值的變化趨勢都趨于平滑,因此,在圖4中只給了迭代次數(shù)為前50輪時的變化情況.

        從圖4中可以看出,迭代次數(shù)在前40輪時,損失值和BLEU值的變化情況明顯.隨著迭代次數(shù)的增加,模型訓練接近飽和,損失值變化趨于平緩.BLEU也趨于穩(wěn)定,模型最優(yōu)BLEU值為16.13.

        圖4 預(yù)標準化模型訓練Loss和BLEU變化Fig.4 Changes of Loss and BLEU in pre-normalizedmodel training

        本文進行了模型調(diào)參試驗,對預(yù)標準化Transfromer采用控制變量法進行調(diào)參.實驗設(shè)置如表4,實驗結(jié)果如圖5、圖6所示.

        表4 調(diào)參實驗設(shè)置表Table 4 Settings of parameter adjustment experiment

        從圖5中可以看出,batchsize為32時,模型的損失相對于其他兩個更低,其BLEU值也優(yōu)先收斂.但隨著迭代次數(shù)增加,batchsize為64的BLEU達到最優(yōu)且優(yōu)于其他兩個模型.因此batchsize的大小要根據(jù)具體實驗情況設(shè)定.盲目增大batchsize會導致模型收斂速度變慢,而且模型易陷入局部最小值,導致模型精度較低;而batch過小則會導致模型泛化能力弱.

        圖5 不同batchsize下Loss和BLEU變化Fig.5 Changes of Loss and BLEU under different batchsize

        從圖6中可以看出,詞匯量大小設(shè)定對于模型損失影響較小,但是,詞匯量為16000時的BLEU值要略高于其他兩個.因此,適當?shù)脑O(shè)定詞匯量大小,會使模型BLEU值有所提升.

        圖6 不同詞匯量下?lián)p失和BLEU變化Fig.6 Changes of Loss and BLEU under different vocabulary

        本文又對模型網(wǎng)絡(luò)結(jié)構(gòu)進行了對比實驗.實驗設(shè)置如表5所示,實驗結(jié)果如圖7所示.

        表5 結(jié)構(gòu)對比實驗設(shè)置表Table 5 Settings of structure comparison experiment

        從圖7可以看出,相同迭代次數(shù)內(nèi),拓寬網(wǎng)絡(luò)層的損失下降速度和BLEU值遠遠優(yōu)于加深網(wǎng)絡(luò)層.因此,在基于Transformer的翻譯模型中,增加單層網(wǎng)絡(luò)隱藏節(jié)點數(shù)相較于堆疊網(wǎng)絡(luò)層數(shù)翻譯效果更好.

        圖7 拓寬網(wǎng)絡(luò)與加深網(wǎng)絡(luò)的Loss與BLEU變化Fig.7 Changes of Loss and BLEU between wideningnetwork and deepening network

        本文預(yù)標準化模型與基準Transformer模型對比設(shè)置如表6所示,實驗結(jié)果如圖8所示.

        表6 模型對比實驗設(shè)置表Table 6 Settings of model comparison experiment

        圖8 預(yù)標準化模型與基準模型對比Fig.8 Comparison of pre-normalized model andbenchmark model

        從圖8中可以看出,本文提出的預(yù)標準化Transformer模型相較于基準Transformer模型在BLEU值上有一定的提高.且模型的翻譯效果更加穩(wěn)定,初始損失降低,模型收斂速度加快.這是由于預(yù)標準化的加入可以加快網(wǎng)絡(luò)學習速度,提高模型的精度.最終本文模型的BLEU值比基準Transformer模型提高了0.71個BLEU值.

        由于烏英平行語料屬于低資源語料,為驗證本文模型的有效性,分別在英-越、英-德大規(guī)模語料庫上與基準模型進行了對比實驗.實驗所采用的英越平行語料為150K行,英德平行語料為200K行.實驗時參數(shù)量為88M,實驗所得BLEU值如表7所示.

        表7 大規(guī)模數(shù)據(jù)集實驗對比Table 7 Experimental comparison of large-scale data sets

        由表7可得,在英-越、英-德語料庫上,本文模型相較于基準模型在BLEU值上分別提升了0.48、0.45,驗證了本文模型的泛化能力.

        5 結(jié)束語

        烏英機器翻譯屬于低資源語言的翻譯,面臨著平行語料資源稀缺的困難.為了緩解語料資源數(shù)據(jù)稀缺和詞匯表受限帶來的翻譯質(zhì)量不佳的問題,本文提出了基于預(yù)標準化Transformer的翻譯模型進行烏英翻譯.實驗結(jié)果表明,基于預(yù)標準化Transformer的烏英機器翻譯模型與基準Transformer相比,有效提升了翻譯質(zhì)量.預(yù)標準化的加入使得模型的收斂速度加快,模型的精度提高,且模型更加穩(wěn)定.然而,Transformer每一層的結(jié)點需要和上一層的所有結(jié)點進行相關(guān)性的計算,因此,對計算成本和顯存需求非常高.對于大規(guī)模數(shù)據(jù)進行高質(zhì)量的特征提取和建模時,數(shù)據(jù)的預(yù)處理部分還需做進一步改進.

        猜你喜歡
        解碼器語料編碼器
        科學解碼器(一)
        科學解碼器(二)
        科學解碼器(三)
        線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍蜻蜓解碼器
        基于FPGA的同步機軸角編碼器
        基于PRBS檢測的8B/IOB編碼器設(shè)計
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        JESD204B接口協(xié)議中的8B10B編碼器設(shè)計
        電子器件(2015年5期)2015-12-29 08:42:24
        華語電影作為真實語料在翻譯教學中的應(yīng)用
        《苗防備覽》中的湘西語料
        最大色网男人的av天堂| 中文字幕无码不卡一区二区三区 | 日日噜噜夜夜狠狠va视频| 精品一区二区三区在线观看视频| 欧美高h视频| 国产亚洲3p一区二区| 欧美丰满老熟妇aaaa片| 亚洲一区精品无码色成人| 青青草综合在线观看视频| 少妇人妻av一区二区三区| 国产成人无码a区在线观看导航| 国产一女三男3p免费视频| 日韩精品国产自在欧美| 国产免费一区二区三区在线视频| 一区二区三区无码高清视频| 国产精品免费观看久久| 少妇无码av无码去区钱| 热综合一本伊人久久精品| 日本少妇高潮喷水视频| 欧美jizzhd精品欧美| 不卡国产视频| 久久久黄色大片免费看| 精品国品一二三产品区别在线观看| 亚洲av无码专区在线电影| 在线a人片免费观看国产| 国家一级内射高清视频| 精品久久久bbbb人妻| 亚洲av熟妇高潮30p| 久草91这里只有精品| 亚洲av日韩一区二区| 精品av天堂毛片久久久| 亚洲国产精品线观看不卡| 中文字幕日本在线乱码| 日本一二三区视频在线| 精品性影院一区二区三区内射| 国产一区二区三区高清视频| 国产亚洲av成人噜噜噜他| 精品淑女少妇av久久免费| 免费高清日本中文| 国产激情小视频在线观看 | 国产黄大片在线观看|