亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)編碼/解碼模型的中英機(jī)器翻譯方法?

        2021-06-29 08:42:12
        計算機(jī)與數(shù)字工程 2021年6期
        關(guān)鍵詞:源語言目標(biāo)語言解碼器

        董 斌

        (西北工業(yè)大學(xué)明德學(xué)院 西安 710124)

        1 引言

        隨著我國對外開放程度的不斷提高,英語已經(jīng)成為對外交流場合的主要語言。傳統(tǒng)人工翻譯成本高昂,且受環(huán)境限制嚴(yán)重。近年來,借助于計算機(jī)的中英語言機(jī)器自動翻譯成為了一個重要研究方向[1~3]。

        基于規(guī)則翻譯和基于例子翻譯是早期機(jī)器翻譯主要采用的方法,但翻譯的準(zhǔn)確性和自適應(yīng)性均難以滿足實(shí)際翻譯需要[4]。隨著機(jī)器學(xué)習(xí)技術(shù)的產(chǎn)生與發(fā)展,研究人員提出了基于機(jī)器學(xué)習(xí)的機(jī)器翻譯模型[5]。文獻(xiàn)[6]構(gòu)建一種基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯模型,該模型采用的端到端框架成為了后續(xù)機(jī)器翻譯研究的基本結(jié)構(gòu)。該框架的基本思路是采用機(jī)器學(xué)習(xí)方法搭建一個能夠連接源語言序列和目標(biāo)語言序列的編碼/解碼結(jié)構(gòu),實(shí)現(xiàn)兩種語言之間的映射?;诰幋a/解碼框架,支持向量機(jī)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等各種機(jī)器學(xué)習(xí)智能技術(shù)被用于構(gòu)建機(jī)器翻譯模型[7~8]。

        本文基于編碼-解碼框架,構(gòu)建了一種新的用于中英翻譯的機(jī)器翻譯模型。該模型采用長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)生成詞向量,在編碼階段和解碼階段分別加入組嵌入技術(shù)和權(quán)值衰減方法,在提高機(jī)器翻譯模型準(zhǔn)確性的同事,降低了模型達(dá)到收斂的迭代次數(shù),仿真實(shí)驗(yàn)結(jié)果驗(yàn)證了所提方法的有效性。

        2 機(jī)器翻譯模型

        為了能夠使機(jī)器自動地捕獲語言特征,實(shí)現(xiàn)基于計算機(jī)的自然語言高效映射,首先需要建立一個能夠連接兩種自然語言的機(jī)器翻譯模型。編碼/解碼結(jié)構(gòu)是一種十分廣泛的機(jī)器翻譯模型,結(jié)構(gòu)如圖1所示。編碼器部分接收帶翻譯語言的輸入,輸出編碼序列,解碼器接收編碼序列,輸出翻譯結(jié)果。

        圖1 編解碼器結(jié)構(gòu)

        如圖1所示,編解碼器的輸入是一個任意長度的源語言序列,然后利用編碼器將其捕獲到能夠表征其句子的特征序列,最后利用解碼器實(shí)現(xiàn)特征到語言序列的轉(zhuǎn)換。因此,編碼階段是將輸入源自然語言映射為一個碼向量,而解碼階段是編碼階段的逆過程,將碼向量映射為目標(biāo)語言序列,編解碼映射的理論基礎(chǔ)是最大化預(yù)測序列概率準(zhǔn)則。

        令A(yù)={a1,a2,…,an}表示源語言的輸入序列,B={b1,b2,…,bm}表示目標(biāo)語言的輸出序列,則目標(biāo)語言編解碼器生成的概率可以表示為

        式中,c為編碼器輸出的編碼向量,該向量能夠有效表征源語言序列的特征。式(1)等號右邊表示各個目標(biāo)語言詞匯的生成概率,計算方法為

        式中,φ(·)表示基于當(dāng)前目標(biāo)語言序列和源語言序列生成當(dāng)前詞向量的概率,vb為解碼器輸出的目標(biāo)語言詞向量,cs為編碼器輸入源語言的上下文向量,ct為解碼器輸出目標(biāo)語言的上下文向量。綜合式(1)和式(2)可知,編解碼器的機(jī)器翻譯就是不斷利用輸入源語言的和輸出目標(biāo)語言來對當(dāng)前的詞向量進(jìn)行預(yù)測,最終輸出預(yù)測概率最大的目標(biāo)語言詞向量組合。

        編解碼器是機(jī)器翻譯的基本結(jié)構(gòu),具體實(shí)現(xiàn)機(jī)器翻譯還需要對編解碼器結(jié)構(gòu)進(jìn)行具體設(shè)計。文中基于編解碼器機(jī)器翻譯設(shè)計原則,結(jié)合當(dāng)前中英機(jī)器翻譯的實(shí)際需要,對機(jī)器翻譯結(jié)構(gòu)進(jìn)行了具體設(shè)計,主要包括詞向量生成、基于組嵌入的編碼器和基于權(quán)值衰減的解碼器。

        3 詞向量生成算法

        基于符號的自然語言數(shù)字化表示是機(jī)器能夠理解并處理自然語言的基礎(chǔ)。自然語言符號化過程就是將自然語言自動地轉(zhuǎn)化為詞向量的過程,進(jìn)而利用計算機(jī)的強(qiáng)大計算能力提取自然語言特征[9~10]。常見的詞向量生成算法如One-Hot編碼方法和分布式表示方法需要對自然語言詞數(shù)據(jù)進(jìn)行標(biāo)注,不適用于當(dāng)前大規(guī)模自然語言機(jī)器翻譯的場合,文中采用一種基于RNN的自然語言詞向量生成方法。

        RNN詞向量生成結(jié)構(gòu)包括輸入層、隱藏層和輸出層,隱藏層隨時間的迭代計算方式為

        其中,xt表示t時刻輸入向量,f(·)表示神經(jīng)網(wǎng)絡(luò)激活函數(shù),U和W均為神經(jīng)網(wǎng)絡(luò)的權(quán)值矩陣,b為網(wǎng)絡(luò)偏置向量。

        傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法是誤差反向傳播算法(BP算法),但是在自然語言詞向量生成過程中,面對源語言序列的長距離依賴問題,BP算法可能會出現(xiàn)梯度衰減或者梯度爆炸的情況,即使采用了梯度裁剪后也難以徹底解決問題。為了更好地解決源語言長距離依賴的梯度爆炸問題,本文采用長短時記憶(LSTM)神經(jīng)網(wǎng)絡(luò)。

        LSTM網(wǎng)絡(luò)的基本原理是在經(jīng)過預(yù)訓(xùn)練的RNN上,增加LSTM記憶單元形成新的網(wǎng)絡(luò)[11~12]。LSTM記憶單元網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,共包含四個門:輸入門、遺忘門、記憶細(xì)胞和輸出門,各部分功能介紹如下。輸入門和輸出門可以有效解決RNN網(wǎng)絡(luò)權(quán)值更新的沖突,基本屬性為控制門,其中輸入門負(fù)責(zé)記憶細(xì)胞的數(shù)據(jù)傳入。記憶細(xì)胞能夠存儲網(wǎng)絡(luò)中的內(nèi)容,是LSTM的存儲單元。遺忘門的作用是控制記憶細(xì)胞的狀態(tài)。輸出門綜合當(dāng)前的輸入數(shù)據(jù)和記憶細(xì)胞數(shù)據(jù)給出LSTM網(wǎng)絡(luò)的輸出結(jié)果。LSTM單元的各個門均需要設(shè)置激活函數(shù),文中輸入門、遺忘門和輸出門均采用Sigmoid激活函數(shù),而記憶細(xì)胞采用Tanh激活函數(shù)。

        圖2 LSTM單元結(jié)構(gòu)

        圖2中LSTM單元中各個門的計算公式為

        式中,⊙表示矩陣或向量的點(diǎn)乘運(yùn)算。

        LSTM計算過程表明,如果遺忘門接近于1并且輸入門接近于0,此時前一時刻數(shù)據(jù)就會一直被存儲在記憶細(xì)胞中,實(shí)現(xiàn)了源語言序列長距離依賴關(guān)系的捕獲,舊狀態(tài)數(shù)據(jù)能夠參與到當(dāng)前時刻輸出門的計算中。這說明,通過遺忘門和記憶細(xì)胞能夠有效融合當(dāng)前輸入信息和前一時刻輸入信息,這樣能夠有效避免采用BP算法訓(xùn)練RNN網(wǎng)絡(luò)的梯度衰減問題,提升機(jī)器翻譯性能。

        4 組嵌入編碼器

        傳統(tǒng)機(jī)器翻譯編碼器模型的輸入是經(jīng)過詞向量生成算法生成的詞向量,只含有訓(xùn)練語料之內(nèi)的信息,缺乏情感信息和上下文信息不能描述表征源語言序列特點(diǎn)。為此,本節(jié)構(gòu)建了一種基于組嵌入的機(jī)器翻譯編碼器模型。

        組嵌入的基本思想是將源語言序列中的每個詞按照一種或多種方式進(jìn)行分組劃分,使得源語言序列中每個詞對應(yīng)一個或者多個分組。對于中英機(jī)器翻譯模型,中英文最小單元集合可以定義為

        其中,subword表示在英文單詞中具有單獨(dú)含義的一部分,例如superman中的super。如果按照一種分組方式對源語言序列中的詞進(jìn)行分組,序列中所有詞經(jīng)過劃分后將生成一個組集GUint={組 別};如果分組的方式為多種,源語言序列中的詞將生成多個組。

        假設(shè)輸入的源語言序列S生成的詞向量集合為

        其中wi∈WUint表示經(jīng)過詞向量生成的詞序列。假設(shè)分組劃分方式為φ,則分組后的組集為

        其中g(shù)i∈GUint表示經(jīng)過劃分后的組別。例如對于源語言序列“I am a student”,w1=I,w2=am,w3=a,w4=student,如果采用的分組方式是單詞詞性,則分組后為g1=pron,g2=vi,g3=art,g4=n。在中英文機(jī)器翻譯組嵌入過程中,常用的劃分規(guī)則包括詞性、上下文語義、褒貶程度、大小寫等。

        源語言序列經(jīng)過分組劃分后,需要進(jìn)行嵌入處理,具體的嵌入方式就是利用one-hot方法將分組后的詞向量轉(zhuǎn)化為多維連續(xù)向量。假設(shè)WUint經(jīng)過one-hot嵌入生成的結(jié)果可以表示為

        其中eWi表示嵌入后的m維向量。同理,GUint經(jīng)過one-hot嵌入生成的結(jié)果可以表示為

        其中eGi表示嵌入后的n維向量,這個過程稱為組嵌入。

        相比傳統(tǒng)嵌入模型,源語言序列經(jīng)過組嵌入后,能夠?qū)⒍嗑S詞語屬性和原始詞向量一起作為編碼器的輸入,豐富了源語言序列輸入特征,能夠提高機(jī)器翻譯的準(zhǔn)確性。

        5 權(quán)值衰減解碼器

        機(jī)器翻譯過程中,源語言序列中詞語對應(yīng)的目標(biāo)語言序列詞語經(jīng)常會受到前文翻譯結(jié)果的影響,并且這種影響還會隨著距離的長短的變化而變化。然而,傳統(tǒng)機(jī)器翻譯模型沒有充分考慮大前后文詞語含義的影響,容易出現(xiàn)前后文翻譯不一致的情況,且影響機(jī)器翻譯準(zhǔn)確性。針對這個問題,本節(jié)設(shè)計了一種基于權(quán)值衰減的解碼器模型。

        權(quán)值衰減解碼的基本思路是在機(jī)器翻譯解碼的過程中,給先出現(xiàn)的詞賦予較高權(quán)值,而后出現(xiàn)的詞賦予較低權(quán)值。這與實(shí)際翻譯的過程是相符的,這是由于先出現(xiàn)的詞會影響后續(xù)詞語的翻譯,而最后出現(xiàn)的詞對整個翻譯過程的影響最小,因此權(quán)值最小。

        機(jī)器翻譯是一種未知條件下的自動翻譯,因此機(jī)器無法獲取源語言序列的真實(shí)長度[13]。為此對每一句帶翻譯語句均首先采用最大句子長度,待檢測到句尾結(jié)束符再清除空字符。整個待處理源語言序列的損失函數(shù)定義為

        其中t表示待翻譯語言序列的實(shí)際長度。加權(quán)后的損失函數(shù)可以表示為

        式中fa為權(quán)值衰減影響因子。經(jīng)過式(15)的加權(quán)后,越是靠后的詞語對整個翻譯的影響就越小,實(shí)現(xiàn)了解碼器損失函數(shù)的權(quán)值衰減,增強(qiáng)了機(jī)器翻譯的準(zhǔn)確性。

        6 實(shí)驗(yàn)結(jié)果與分析

        為了驗(yàn)證本文構(gòu)建的中英機(jī)器翻譯模型的性能,本節(jié)采用實(shí)驗(yàn)數(shù)據(jù)對其進(jìn)行性能測試,并與常用機(jī)器翻譯模型進(jìn)行對比分析。測試數(shù)據(jù)集選取國際口語機(jī)器翻譯大賽中的中英機(jī)器翻譯數(shù)據(jù),測試環(huán)境為英偉達(dá)公司的GTX1660顯卡,處理器為Intel i7-9700,內(nèi)存8G,操作系統(tǒng)為Windows7。為了達(dá)到快速檢驗(yàn)機(jī)器翻譯模型性能,實(shí)驗(yàn)中僅處理數(shù)據(jù)集中長度小于12的句子,且RNN模型訓(xùn)練的batch設(shè)置為40。

        為了能夠在機(jī)器翻譯模型測試過程中及時有效地評價翻譯性能,需要采用翻譯性能自動評價指標(biāo)。綜合考慮已有機(jī)器翻譯性能評價方法,文中選取應(yīng)用較為廣泛的BLEU評價方法[14~15]。BLEU評價是一種對翻譯質(zhì)量自動評估的方法,具體計算方式為

        其中,BP表示一個與句子長度相關(guān)的衰減系數(shù),wn表示翻譯過程中n元詞的權(quán)值,pn表示翻譯模型對n元詞翻譯的準(zhǔn)確率。

        首先對加入權(quán)值衰減的解碼器性能進(jìn)行實(shí)驗(yàn)分析,表1為不同權(quán)值衰減影響因子對機(jī)器翻譯模型BLEU指標(biāo)的影響。

        表1 不同權(quán)值衰減因子性能測試

        實(shí)驗(yàn)結(jié)果表明,在解碼器中加入權(quán)值衰減后,能夠有效提升機(jī)器翻譯模型的翻譯性能,相比無權(quán)值衰減的模型,BLEU指標(biāo)提升十分明顯。這是因?yàn)橥ㄟ^在解碼器中加入權(quán)值衰減因子,能夠?qū)υ凑Z言序列中的各個詞賦予不同權(quán)重,使得越靠前翻譯的詞權(quán)值越高,這樣能夠極大地提升后續(xù)語句翻譯的準(zhǔn)確性。由表1可知,權(quán)值因子的大小對機(jī)器翻譯性能具有一定影響,隨著權(quán)值衰減因子的增大,解碼器損失函數(shù)將會近似于各個詞語的權(quán)值均相等,逐漸失去權(quán)值衰減的作用;當(dāng)權(quán)值衰減因子設(shè)置過小時,機(jī)器翻譯模型對排序靠前詞語的權(quán)值過大,也會導(dǎo)致當(dāng)前詞語翻譯不準(zhǔn)確,影響模型翻譯性能。為此,針對具體的翻譯數(shù)據(jù)集,需要經(jīng)過實(shí)驗(yàn)選取合適的權(quán)值衰減因子。

        詞嵌入能夠有效提升機(jī)器翻譯模型的準(zhǔn)確性,且能夠提高模型訓(xùn)練效率,表2為機(jī)器翻譯模型有無組嵌入時模型的收斂速度和翻譯BLEU實(shí)驗(yàn)結(jié)果,組嵌入為單一分組,分組方式為按照詞性。實(shí)驗(yàn)結(jié)果表明,加入組嵌入后,不但能夠有效提升機(jī)器翻譯模型的訓(xùn)練效率,用更少的迭代次數(shù)使模型達(dá)到收斂狀態(tài),還能進(jìn)一步提升翻譯準(zhǔn)確性。

        表2 組嵌入性能測試

        為了進(jìn)一步測試本文構(gòu)建的機(jī)器翻譯模型性能,采用準(zhǔn)確率、召回率和F1對模型翻譯性能進(jìn)行測試,實(shí)驗(yàn)中權(quán)值衰減因子設(shè)置為2,組嵌入方式分別選擇詞性、上下文語義、褒貶程度,多分組綜合三種分組方式,實(shí)驗(yàn)結(jié)果如表3所示。表3測試結(jié)果表明,組嵌入能夠有效提升機(jī)器翻譯模型翻譯性能,各個角度的單一分組方式均對模型收斂速度和翻譯準(zhǔn)確性具有很大提高,并且綜合多種分組方式能夠進(jìn)一步提高模型翻譯性能。

        表3 綜合測試結(jié)果

        7 結(jié)語

        隨著機(jī)器學(xué)習(xí)等人工智能技術(shù)的不斷發(fā)展,機(jī)器翻譯性能取得了顯著提升。本文研究了基于編碼解碼模型的中英文機(jī)器翻譯問題,提出了一種改進(jìn)的機(jī)器翻譯方法。該方法在編碼階段通過組嵌入提高模型收斂速度,在解碼階段通過權(quán)值衰減提高翻譯準(zhǔn)確性,實(shí)現(xiàn)結(jié)果驗(yàn)證了改進(jìn)方法具有優(yōu)良的收斂速度和翻譯準(zhǔn)確性。

        猜你喜歡
        源語言目標(biāo)語言解碼器
        科學(xué)解碼器(一)
        科學(xué)解碼器(二)
        科學(xué)解碼器(三)
        線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
        林巍《知識與智慧》英譯分析
        淺析日語口譯譯員素質(zhì)
        教材插圖在英語課堂閱讀教學(xué)中的運(yùn)用及實(shí)例探討
        跨文化視角下對具有修辭手法諺語英譯漢的研究
        速讀·下旬(2016年7期)2016-07-20 08:50:28
        以口譯實(shí)例談雙語知識的必要性
        考試周刊(2015年36期)2015-09-10 15:03:38
        二語習(xí)得過程中的石化現(xiàn)象分析
        久久精品熟女亚洲av麻豆永永 | 亚洲av片不卡无码久久| 国产艳妇av在线出轨| 国产精品久久中文字幕亚洲| 看女人毛茸茸下面视频| 成人国产精品一区二区网站公司| 国产成人无码区免费网站| 亚洲日韩成人无码不卡网站| 中文字幕色资源在线视频| 国产成人av在线免播放观看新| 日日躁夜夜躁狠狠久久av| 国产精品一卡二卡三卡| 国产精品毛片一区二区三区| 无码色av一二区在线播放| 亚洲aⅴ无码成人网站国产app| 99久久这里只精品国产免费| 一个人午夜观看在线中文字幕| 在线观看的网站| 色综合无码av网站| 美女被射视频在线观看91| 免费观看人妻av网站| 影音先锋女人aa鲁色资源| 久久这里只精品国产99热| 国产精品久久中文字幕亚洲| 蜜桃18禁成人午夜免费网站| 日本丰满熟妇hd| 亚洲韩国在线| 久久精品国产亚洲av网站| 国产精品99无码一区二区| 中文字幕无码无码专区| 成人免费视频自偷自拍| 国产亚洲一区二区三区| 国产真实老熟女无套内射| 婷婷色国产精品视频一区| 日本一区二区三级免费| 夜夜躁狠狠躁日日躁2022| 国产精品无码精品久久久| 国产内射视频免费观看| 亚洲va中文字幕无码一二三区 | 亚洲av色香蕉一区二区三区老师| 国产女合集小岁9三部|