亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合單詞翻譯的神經(jīng)機器翻譯

        2019-08-05 06:49:32李軍輝周國棟
        中文信息學(xué)報 2019年7期
        關(guān)鍵詞:源端字典編碼器

        韓 冬,李軍輝,周國棟

        (蘇州大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)

        0 引言

        神經(jīng)機器翻譯(neural machine translation,NMT)是當(dāng)前機器翻譯的主流方法,其在多種語言對上翻譯效果超過了傳統(tǒng)的統(tǒng)計機器翻譯[1-3]。如今,大部分神經(jīng)機器翻譯包含一個編碼器和一個解碼器,編碼器讀入源端序列,輸出固定長度的句子向量表示[4-5]。解碼器根據(jù)源端的向量產(chǎn)生正確的翻譯。2017年Vaswani等[6]提出的Transformer結(jié)構(gòu)取得了機器翻譯的最優(yōu)效果,該網(wǎng)絡(luò)區(qū)別于基于循環(huán)神經(jīng)網(wǎng)絡(luò)的機器翻譯,舍棄了循環(huán)神經(jīng)網(wǎng)絡(luò)[7]和卷積神經(jīng)網(wǎng)絡(luò)[8],僅僅通過自注意力機制進(jìn)行編碼與解碼。Transformer克服了原有以循環(huán)神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的機器翻譯系統(tǒng)無法并行的缺點,顯著地提升了整體效率,節(jié)省了大量訓(xùn)練時間。

        在NMT中,為了建模單詞與單詞之間的相關(guān)性,每個單詞均被表示為一組連續(xù)的向量,使得語義相近的單詞具有相似的向量表示。但是,從理論上講,通過這種方法,每個源端單詞存在著一定的翻譯為目標(biāo)端任意單詞的可能,造成雖然譯文通順,但是翻譯結(jié)果中存在著大量的單詞錯誤翻譯現(xiàn)象[9-10]。例如,圖1中給出一個源句子及其翻譯結(jié)果的例子。其中,基準(zhǔn)系統(tǒng)Transformer將源端詞“官位”錯誤地翻譯為“l(fā)ife”,而正確的翻譯應(yīng)該為“official position”。針對該基準(zhǔn)系統(tǒng),關(guān)于單詞翻譯錯誤的更詳細(xì)分析,見本文第2節(jié)。

        圖1中,Transformer指本文采用的基準(zhǔn)系統(tǒng),Ours指本文提出的融合單詞翻譯的系統(tǒng)。

        針對上述錯誤翻譯現(xiàn)象,本文提出一種融合單詞翻譯用于增強源端信息的神經(jīng)機器翻譯方法,能夠在一定程度上避免源端單詞錯誤翻譯。例如,如果預(yù)先能夠判斷源端單詞“官位”的目標(biāo)端翻譯為“official”,通過編碼器將該目標(biāo)端單詞信息進(jìn)行編碼,將有利于目標(biāo)端做出正確的譯文預(yù)測。具體地,該方法首先通過查字典的方式為源端單詞找到對應(yīng)的最有可能的在目標(biāo)端的單詞翻譯,如圖1中的‘WT’序列所示。然后將單詞翻譯作為額外的輸入,讓編碼器自動學(xué)習(xí)到有用的信息。為此,本文提出了兩種不同的編碼器: Factored編碼器和Gated編碼器,用于對源端單詞與其單詞翻譯進(jìn)行融合。其中,F(xiàn)actored編碼器采用直接相加的方式利用全部的單詞翻譯信息??紤]到通過字典方法查找單詞翻譯存在著錯誤的情形,進(jìn)而本文又提出一種Gated編碼器的方式,旨在通過門機制控制單詞信息的讀入,從而使系統(tǒng)有選擇性地利用單詞翻譯提供的信息。在中英翻譯上的實驗表明,本文提出的兩種方法均能有效地提高翻譯的質(zhì)量。其中,Gated編碼器方法與原有的Transformer系統(tǒng)相比,BLEU值獲得了0.81個點的提升。此外,本文最后從不同的方面比較分析了所提出系統(tǒng)之間的不同與優(yōu)缺點。

        1 Transformer

        本節(jié)將簡要地描述本文的基于自注意力機制的神經(jīng)機器翻譯系統(tǒng)Transformer,該系統(tǒng)包含一個編碼器和一個解碼器。與基于循環(huán)神經(jīng)網(wǎng)絡(luò)的機器翻譯不同,Transformer編碼器和解碼器由一種新穎的注意力機制和一個前饋的神經(jīng)網(wǎng)絡(luò)構(gòu)成。作者命名這種新穎的注意力機制為“多頭注意力機制”(multi-head attention)。同時,一個“多頭注意力機制”又由多個點積注意力機制通過三個向量Q,K,V計算得到:

        (1)

        其中dk指向量K的維度。

        最終,多個點積注意力機制的結(jié)果進(jìn)行拼接后送入一個前饋神經(jīng)網(wǎng)絡(luò)中:

        前饋神經(jīng)網(wǎng)絡(luò)為兩層的全連接網(wǎng)絡(luò)層,并且使用“修正線性單元”(RELU)作為其激活函數(shù)。該網(wǎng)絡(luò)定義為:

        FFN(x)=max(0,xW1+b1)W2+b2

        (4)

        其中,W1,W2,b1,b2為模型參數(shù)。在Vaswani[6]等的論文中,設(shè)置輸入輸出的維度均為512維,隱層的維度設(shè)置為2 048維。

        由于Transformer結(jié)構(gòu)既沒有使用循環(huán)神經(jīng)網(wǎng)絡(luò),也沒有使用卷積神經(jīng)網(wǎng)絡(luò),因此,為了彌補輸入序列順序上的缺失,Transformer使用了一種叫做位置編碼的方法在編碼和解碼詞向量后增加了表示位置的信息,該信息是一種絕對的位置信息,被定義為:

        (5)

        其中,pos是單詞在輸入句子中的位置,i是向量的維度。

        2 Transformer中的單詞錯誤翻譯問題

        單詞的錯誤翻譯問題是機器翻譯面臨的一大難題。大量的科研工作者為了減少單詞錯誤翻譯的現(xiàn)象,做出了不懈的努力[10-11]。Transformer的提出為機器翻譯注入了新的活力,與原有的以循環(huán)神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的翻譯系統(tǒng)相比,Transformer在多種語言對上取得了當(dāng)前最優(yōu)的效果。因此,很自然會存在這樣的疑問: 在Transformer系統(tǒng)的譯文中,單詞錯誤翻譯的現(xiàn)象是否依舊嚴(yán)峻?到底有多少單詞在Transformer系統(tǒng)中被錯誤地翻譯?

        由于很難準(zhǔn)確地計算機器翻譯中單詞翻譯的正確率,本文采用近似的方法,按兩種不同的方式計算單詞翻譯準(zhǔn)確率。

        方式一: 為了得到每個源端單詞在目標(biāo)端對應(yīng)的單詞翻譯,使用詞對齊工具fast-align[12],得到源端句子與機器譯文之間的詞對齊,進(jìn)而得到源端單詞在目標(biāo)端的單詞翻譯。特別地,如果源端單詞與多個目標(biāo)端單詞對齊,僅考慮單詞翻譯概率最大的那個單詞。同樣地,可以為源端單詞得到其在參考譯文上的對齊目標(biāo)單詞,并看作是該源端單詞的正確單詞翻譯。比照其在自動譯文及參考譯文上的單詞翻譯,可以判斷該源端單詞是否翻譯正確。

        方式二: 考慮到上述方法的有效性依賴于詞對齊的結(jié)果。特別是,給定源端句子與機器譯文時,由于源端句子與自動譯文本身在語義上可能是不等價的,在此句對上得到的自動對齊會存在錯誤。因此,對每個源端單詞,我們按照方式一獲取它的正確譯文,再查看該譯文是否出現(xiàn)在自動譯文中。如果出現(xiàn),則認(rèn)為該單詞翻譯正確,否則翻譯不正確。

        表1給出了分別按以上兩種方式計算的源端單詞翻譯的正確率。由于第一種方式的判斷條件要比第二種方式更嚴(yán)格,因此其得到的準(zhǔn)確率較第二種方式低。從表1中可以得出一個結(jié)論: 即使Transformer能夠較顯著改善譯文的質(zhì)量,但是Transformer中單詞錯誤翻譯的現(xiàn)象依舊十分嚴(yán)峻。例如,即使第二種計算方式較寬松,根據(jù)其計算結(jié)果,仍然存在有約20%的單詞未正確翻譯。

        表1 Transformer中單詞翻譯的準(zhǔn)確率(%)

        3 Transformer中融合單詞翻譯

        為了緩解Transformer中單詞錯誤翻譯的問題,本文提出在Transformer翻譯框架中融入單詞翻譯的方法,使得翻譯模型能夠根據(jù)提供的單詞,選擇正確的譯文。特別地,本文將單詞翻譯作為額外的輸入,讓翻譯模型去學(xué)習(xí)有用的信息來輔助生成譯文。本節(jié)首先采用字典方法為每個源端單詞找尋課文;然后提出兩種不同的編碼器來實現(xiàn)單詞及其翻譯結(jié)果的融合: Factored編碼器和Gated編碼器;最后分析了這兩種結(jié)構(gòu)的不同與優(yōu)劣。

        3.1 字典方法獲取單詞翻譯

        對于源端單詞xi,通過單詞翻譯字典尋找其對應(yīng)最大概率的單詞翻譯結(jié)果,如式(6)所示。

        (6)

        其中,Vt是目標(biāo)端單詞的詞表,Plex(w|xi)是源端單詞xi翻譯為目標(biāo)端單詞w的概率。

        為了得到單詞翻譯的字典,本文首先使用Giza++在機器翻譯語料上得到源端單詞到目標(biāo)端單詞的對齊信息,進(jìn)而通過該對齊信息計算單詞的翻譯概率。需要注意的是,如果源端單詞沒有對齊的目標(biāo)端單詞,那么則用特殊標(biāo)記“NULL”表示。

        通過上述的方法,可以為每個源端單詞獲取其最大概率的目標(biāo)端翻譯單詞。這種方法忽略了單詞翻譯的多樣性,相同源端單詞的單詞翻譯都是一樣的。例如,雖然源端單詞“中”可以翻譯為China、Sino、in等,字典方法都簡單地將“China”視作“中”的單詞翻譯,因為在給定源端詞“中”的條件下,此翻譯的概率最高。

        3.2 融合單詞翻譯到Transformer

        單詞翻譯可以視作額外的信息,用以輔助生成正確的譯文,本文提出了兩種不同的編碼器,用于融合單詞與單詞翻譯。

        3.2.1 Factored編碼器

        與Sennrich等[13-14]的工作相似,本文將單詞翻譯作為額外的特征直接加入到編碼器中,假設(shè)源端單詞xi和其翻譯詞ti對應(yīng)的詞向量分別為exi與eti,那么最終輸入到編碼器中的詞向量ei為:

        ei=exi+eti

        (7)

        圖2 Factored編碼器和Gated編碼器

        圖2(a)顯示了本文Factored編碼器方法。該方法將單詞翻譯信息全部用到編碼器中,是最為直接的一種方法。這種方法將單詞與單詞翻譯看作是等價的輸入,并沒有彼此區(qū)別的對待。

        3.2.2 Gated編碼器

        由于字典方法采用一刀切的方式,使得相同源端單詞對應(yīng)的單詞翻譯也相同,而忽略了源端單詞所處的上下文信息。因此,該方法得到的單詞翻譯結(jié)果勢必存在錯誤,從而負(fù)面影響了譯文的質(zhì)量。為此,本文提出了另外一種方法: Gated編碼器,旨在通過一個門機制選擇性地控制單詞翻譯進(jìn)入編碼器的信息量。正如圖2(b)顯示的,輸入到編碼器中的詞向量ei表示為:

        ei=exi+g°eti

        (8)

        其中“°”為元素相乘,“g”為門機制,計算如下:

        g=σ(Wxexi+Wteti+b)

        (9)

        其中,σ為sigmoid激活函數(shù).Wx∈Rd×d,Wt∈Rd×d,b∈R1×d模型待訓(xùn)練的參數(shù),d為詞向量大小。

        3.2.3 Factored編碼器與Gated編碼器的比較

        (1) 參數(shù)比較

        在兩種不同的編碼器中,單詞翻譯的詞向量與目標(biāo)端單詞的詞向量是共享的。在Factored編碼器中,僅將源端單詞的詞向量與單詞翻譯詞向量相加,輸入到編碼器中的向量維度和基準(zhǔn)系統(tǒng)的輸入維度相同,因此該編碼器并沒有引入額外的參數(shù)。對于Gated編碼器,需要增加(2*d+1)d個參數(shù),這些參數(shù)均用于式(9)中計算門機制的值。

        (2) 利用單詞翻譯方式比較

        Factored編碼器采用簡單但一刀切的方式,使系統(tǒng)在翻譯時考慮了單詞的翻譯信息,雖然這種方法能夠?qū)W習(xí)到有用的信息,但是對于錯誤的單詞翻譯,該方法并沒有甄別的能力。Gated編碼器可以看作是對Factored編碼器方法的改進(jìn), 通過門機制賦予了該系統(tǒng)一定的自主選擇單詞譯文的能力,對于錯誤單詞翻譯,該方法自動挑選了最有利于最終翻譯的信息,使得系統(tǒng)自動學(xué)習(xí)到甄別單詞翻譯是否正確的能力。

        4 實驗

        本文實驗使用中英NIST翻譯數(shù)據(jù),訓(xùn)練語料是從LDC數(shù)據(jù)中抽取的1.25MB句對的平行語料[注]其中包括了: LDC2002E18, LDC2003E07, LDC2003E14, LDC2004T07,LDC2004T08和LDC2005T06。,分別含有27.9MB的中文單詞和34.5MB的英文單詞。選擇NIST MT 06 數(shù)據(jù)集為開發(fā)集,含有1 664句。NIST MT 02、03、04、05作為測試集,分別含有878、919、1 788、1 082句。

        4.1 Transformer 系統(tǒng)設(shè)置

        為了有效地訓(xùn)練實驗?zāi)P?,本文分別從中英訓(xùn)練語料中抽取詞頻最高的前30K個單詞作為其詞表,其中中文詞表覆蓋整個訓(xùn)練語料的97.3%,英文詞表覆蓋率為99.3%。所有不在詞表中的單詞被表示為“UNK”特殊標(biāo)記符號,限制源端和目標(biāo)端句子最大長度為256,單詞超過256的句子被舍棄。使用6層編碼器與解碼器,“多頭注意力機制”含有8個頭,同時設(shè)置Pdropout=0.1。單詞詞向量和隱層狀態(tài)維度均為512維。

        實驗使用Adam模型[15]更新參數(shù),設(shè)置β1=0.9,β2=0.98,使用GTX 1080訓(xùn)練模型,翻譯性能的評測為BLEU[16]值。在解碼時,設(shè)置beam_size=4,batch_size=32,所有其他的設(shè)置使用Vaswani系統(tǒng)中的默認(rèn)設(shè)置。

        4.2 實驗結(jié)果

        表2給出了本文提出的兩種編碼器與基準(zhǔn)系統(tǒng)在各測試集上的翻譯性能。從表2可以看出,本文提出的兩種編碼器均能夠提高系統(tǒng)的翻譯性能。特別地,與基準(zhǔn)系統(tǒng)相比,Gated 編碼器較基準(zhǔn)系統(tǒng)提升了0.81個 BLEU值,這表明了文中提出的融合單詞翻譯方法的有效性。另一方面,即使利用相同的信息,F(xiàn)actored編碼器較基準(zhǔn)系統(tǒng)僅僅使BLEU值提升了0.14個點。這說明,雖然單詞翻譯可以在一定程度上提供有用的信息,但如果不區(qū)分單詞翻譯的好壞(如Factored編碼器),完全利用單詞翻譯信息,容易造成錯誤傳播,使得翻譯系統(tǒng)學(xué)習(xí)到錯誤的譯文;而Gated編碼器采用門機制控制單詞翻譯的信息流入編碼器,使得模型能夠在一定程度上學(xué)習(xí)篩選有用的單詞翻譯信息,減少單詞錯誤翻譯對后續(xù)翻譯模型的影響。

        表2 本文方法與基準(zhǔn)系統(tǒng)在不同測試集上的BLEU值

        注: ALL為將02,03,04,05測試集拼接后測試的結(jié)果;=|: 與Transformer基準(zhǔn)系統(tǒng)相比較,BLEU值在p=0.01時具有顯著性提高。

        5 實驗分析

        從第4節(jié)中可以看出,融合單詞翻譯到機器翻譯系統(tǒng)中,即使在強基準(zhǔn)中(Transformer)依舊可以提高最終的實驗效果。本節(jié)進(jìn)一步從幾個不同的方面分析單詞翻譯對最終機器翻譯性能的影響。

        5.1 字典獲取翻譯的準(zhǔn)確率分析

        為了增強整體模型對語義的建模,本文引入了單詞翻譯作為額外的信息。理論上,正確的單詞翻譯可以提供更多有用的信息,而錯誤的翻譯可能降低系統(tǒng)最終的翻譯質(zhì)量。因此,我們首先分析本文使用的字典方式獲取單詞翻譯的準(zhǔn)確率。在開發(fā)集上根據(jù)源端句子與參考譯文,使用fast-align工具獲取源端句子與參考譯文之間的詞對齊信息,從而得到每個源端單詞的正確譯文。然后再把源端單詞按字典方式獲取的譯文當(dāng)作機器譯文,計算字典獲取翻譯的準(zhǔn)確率。結(jié)果顯示,字典方法單詞翻譯準(zhǔn)確率在開發(fā)集上為61.2%。從中可以看出,雖然采用字典的方法獲取單詞翻譯存在錯誤,但是依舊有較大部分比例的單詞能夠獲取正確的譯文,可以提高句子翻譯的質(zhì)量。

        5.2 翻譯準(zhǔn)確率分析

        類似于第2節(jié)的分析,從兩個不同的方面分析本文提出的Factored編碼器和Gated編碼器方法譯文的準(zhǔn)確性,表3呈現(xiàn)了兩種方法和基準(zhǔn)系統(tǒng)的對比。從中可以看出,本文的Gated編碼器在兩種不同的評測方法上均超過原有的Transformer 基準(zhǔn)系統(tǒng),其中,采用方式二的評測方法,與基準(zhǔn)系統(tǒng)相比,準(zhǔn)確率提高了1.2%。這也進(jìn)一步說明了,本文的Gated編碼器采用門機制,能夠有選擇性地使用正確的單詞翻譯,緩解單詞翻譯錯誤帶來的負(fù)面影響。另一方面,F(xiàn)actored編碼器將單詞翻譯的信息全部流入編碼器,容易受單詞翻譯錯誤的影響。同時,較之基準(zhǔn)系統(tǒng),F(xiàn)actored編碼器在方式一和方式二的評測上并沒有優(yōu)勢,說明本文按3.1節(jié)字典方式獲取的單詞翻譯性能還不夠好,有待進(jìn)一步提高。

        表3 Factored編碼器,Gated編碼器與基準(zhǔn)系統(tǒng)單詞翻譯準(zhǔn)確率比較(%)

        5.3 長句子分析

        類似于Bahdanau[1]等的工作,本文將句子按照單詞長度劃分,然后分別測試系統(tǒng)在不同長度的句子上的翻譯性能。如圖3所示,本文提出的Gated編碼器和Factored 編碼器方法在短句子上(<=30)要優(yōu)于原本的Transformer基準(zhǔn)系統(tǒng)。有趣的是,隨著句子長度的增加,特別是當(dāng)句子長度介于40和50之間時, Factored編碼器的翻譯性能甚至低于基準(zhǔn)系統(tǒng);而對于長句子(>50),F(xiàn)actored編碼器和Gated編碼器均優(yōu)于基準(zhǔn)系統(tǒng)。造成以上翻譯趨勢的原因在于,F(xiàn)actored編碼器和Gated編碼器的性能與單詞翻譯的準(zhǔn)確率有著明顯的關(guān)系。在短句子上(<=30),單詞翻譯的準(zhǔn)確率較高,達(dá)到65.3%;在句子長度介于40~50之間時,單詞翻譯的準(zhǔn)確率偏低,僅為58.1%;而對于長句子(>50),單詞翻譯的準(zhǔn)確率上升為62.2%。

        圖3 不同長度句子翻譯結(jié)果

        6 總結(jié)

        將單詞翻譯序列融入機器翻譯中,使得系統(tǒng)在翻譯時,考慮更多源端的語義信息,有利于翻譯系統(tǒng)最終效果的提升。對于每個單詞對應(yīng)的翻譯,本文采用字典的方法雖然含有不可避免的錯誤,在翻譯字典中相同的源端單詞的單詞翻譯是一樣的,但是類似于源端單詞詞向量可以模擬不同的語義信息,這種方法依舊是可取的。

        為了將單詞及其翻譯建模進(jìn)系統(tǒng)中,本文創(chuàng)造性地提出了兩種不同的編碼器: Factored編碼器和Gated編碼器。Factored編碼器無復(fù)制地將單詞翻譯與單詞本身同等看待,直接相加,簡單而且直觀地使得系統(tǒng)在翻譯時考慮到單詞翻譯信息。Gated編碼器可以看作是對Factored編碼器的改進(jìn),通過門機制自動選擇單詞的翻譯信息,賦予系統(tǒng)一定的自主選擇的權(quán)利。最終實驗結(jié)果顯示,本文采用的方法,即使相比當(dāng)前最優(yōu)的機器翻譯系統(tǒng)Transformer,依舊取得了不錯的效果。

        在未來的工作中,我們將進(jìn)一步探究兩個方向: ①字典方法雖然可以找尋到對應(yīng)的翻譯,是否有其他更優(yōu)的方法?②對于融合單詞翻譯進(jìn)入系統(tǒng)的方式,是否有更加有效的方式?

        猜你喜歡
        源端字典編碼器
        開心字典
        家教世界(2023年28期)2023-11-14 10:13:50
        開心字典
        家教世界(2023年25期)2023-10-09 02:11:56
        融合源端句法和語義角色信息的AMR解析
        基于仿真分析的傳輸線電路特性研究
        基于FPGA的同步機軸角編碼器
        基于PRBS檢測的8B/IOB編碼器設(shè)計
        飛機燃油系統(tǒng)對多路輸入信號源選擇的方法
        科技視界(2016年22期)2016-10-18 15:53:02
        我是小字典
        正版字典
        讀者(2016年14期)2016-06-29 17:25:50
        JESD204B接口協(xié)議中的8B10B編碼器設(shè)計
        電子器件(2015年5期)2015-12-29 08:42:24
        香蕉蜜桃av一区二区三区| vr成人片在线播放网站| 国产精品自产拍在线观看免费| 中文字幕人妻少妇久久| 大香蕉av一区二区三区| 无码av一区二区大桥久未| 亚洲国产精品一区二区久| 日韩精品一区二区三区中文9| 亚洲自拍偷拍一区二区三区| 少妇粉嫩小泬喷水视频| 国产自拍精品一区在线观看| 亚洲熟女乱综合一区二区| 99久久久国产精品免费蜜臀| 亚洲av第一区综合激情久久久| 中文字幕有码人妻在线| 中字幕人妻一区二区三区| 久久亚洲精品成人| 一区二区三区国产亚洲网站| 国内自拍情侣露脸高清在线| 精品少妇人妻av一区二区| 亚州无线国产2021| 亚洲精品综合久久中文字幕| 无码喷潮a片无码高潮| 国产精品免费久久久久影院仙踪林| 在线国产视频精品视频| 国产人妖伦理视频在线观看 | 精品国产亚洲av久一区二区三区| 女人18毛片aa毛片免费| 一区二区三区视频| 伊人色综合视频一区二区三区| 亚洲国产精品一区二区第一| 日本国产亚洲一区二区| 性生交大全免费看| 久久与欧美视频| 中国男女黄色完整视频| 免费视频爱爱太爽了| 亚洲国产福利精品一区二区| 青青草视频在线免费视频 | 三上悠亚免费一区二区在线| 中文字幕亚洲精品一二三区| 精品香蕉99久久久久网站|