亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于transformer 的維漢神經(jīng)機器翻譯

        2023-11-21 14:12:30杜志昊
        電子設(shè)計工程 2023年22期
        關(guān)鍵詞:模型

        杜志昊

        (1.武漢郵電科學(xué)研究院,湖北武漢 430070;2.南京烽火天地通信科技有限公司,江蘇 南京 210019)

        機器翻譯是自然語言處理領(lǐng)域的一個重要研究方向,具體是指通過計算機將源語言句子翻譯成與之語義等價的目標(biāo)語言句子的過程[1]。第一臺現(xiàn)代電子計算機ENIAC 誕生不久后,美國科學(xué)家韋弗在《翻譯》備忘錄中正式提出機器翻譯的基本思想[2]。機器翻譯的發(fā)展主要可以分為三個階段。第一階段:規(guī)則時期,其基本方法是利用手寫大量的語法解析規(guī)則對源語言進行解析,然后用語法轉(zhuǎn)寫規(guī)則生成目標(biāo)語言文法,再通過生成規(guī)則產(chǎn)生最終文本。第二階段:統(tǒng)計機器學(xué)習(xí)時期,Peter F.Brown 提出了基于詞對齊的翻譯模型,標(biāo)志著現(xiàn)代統(tǒng)計機器翻譯方法的誕生[3]。Franz Och 在2003 年的兩篇文章中分別提出了對數(shù)線性模型及其權(quán)重訓(xùn)練方法以及基于短語的翻譯模型和最小錯誤率訓(xùn)練方法[4]。這兩篇文章的發(fā)表標(biāo)志著統(tǒng)計機器翻譯的真正崛起。第三階段:神經(jīng)網(wǎng)絡(luò)機器翻譯時期,Nal Kalchbrenner 和Phil Blunsom 提出了一種用于機器翻譯的新型端到端編碼器-解碼器結(jié)構(gòu)[5-6],他們的研究成果標(biāo)志著神經(jīng)機器翻譯的誕生。

        1 相關(guān)工作

        1.1 seq2seq結(jié)構(gòu)

        seq2seq 框架主要由編碼器和解碼器兩部分組成,在神經(jīng)機器翻譯任務(wù)中將編碼器和解碼器進行聯(lián)合訓(xùn)練,進而提高模型的性能和泛化能力。

        seq2seq 具體包含詞嵌入層、編碼器、中間向量和解碼器四部分。詞嵌入層一般有兩個,一個用于將源文本轉(zhuǎn)換為詞向量,另一個則是將詞向量轉(zhuǎn)換為目標(biāo)語言文本;編碼器則能夠?qū)⒃~嵌入層所生成的詞向量進行改變,使得該向量能夠更好地對源語言信息進行表征;中間向量實際上是包含語義信息的上下文向量,其將作為解碼器的輸入向量;解碼器能將輸入的上下文向量轉(zhuǎn)化為目標(biāo)語言的文本。在seq2seq 框架中的編碼器和解碼器要盡可能的不同,以此來增加模型的參數(shù)量,增強模型的性能,提高最終翻譯的質(zhì)量[7]。

        1.2 自注意力機制

        為了解決seq2seq 機器翻譯模型中對長文本處理效果不佳的問題,Bahdanau[8]等人于2014 年借鑒了在圖像處理中使用的注意力機制,首次將注意力機制應(yīng)用在自然語言處理方向上。自注意力機制提出后,加入注意力機制的seq2seq 模型在各個任務(wù)上都有了提升,2017 年Google 團隊提出了transformer模型,用全注意力機制的結(jié)構(gòu)帶來了LSTM,在翻譯任務(wù)上取得了更好的成績[9-10]。該模型引入了自注意力機制(self-attention)對輸入序列進行編碼,圖1為self-attention 結(jié)構(gòu)圖。

        圖1 self-attention結(jié)構(gòu)

        圖2 循環(huán)機制結(jié)構(gòu)圖

        圖3 維漢翻譯模型架構(gòu)圖

        2 模型的構(gòu)建

        2.1 基于transformer的機器翻譯模型

        transformer 只考慮了特征的位置信息,而該文加入了時間維度,每循環(huán)一次就會做一次位置坐標(biāo)的嵌入,Embedding 公式為:

        2.2 輸出結(jié)果優(yōu)化

        在機器翻譯任務(wù)中,需要利用語言模型來判斷模型輸出句子的優(yōu)劣。由于機器翻譯模型不會考慮所有可能的輸出,只保留最可能的k個解,同時模型輸出的長度又是可預(yù)測的,因此,利用beam search 優(yōu)化算法得到最優(yōu)的輸出結(jié)果[11]。得到輸出最優(yōu)結(jié)果的計算過程為:

        2.3 懲罰短句和懲罰重復(fù)

        由條件概率公式可知,beam search 傾向于選擇長度最短的句子,同時當(dāng)多個小于1 的條件概率相乘時容易出現(xiàn)數(shù)值下溢及k參數(shù)自適應(yīng)等問題。因此,該文加入懲罰短句[12]來緩解這一問題。

        由于注意力機制的覆蓋會導(dǎo)致過度翻譯或翻譯不全的問題,針對這一問題該文加入了懲罰重復(fù)項來防止一些token 獲得過多的attention[13],這樣便可以得到一個新的beam search 得分。

        懲罰短句和懲罰重復(fù)的具體計算方法如下,其中α用于懲罰短句,β用于懲罰重復(fù):

        3 數(shù)據(jù)處理

        3.1 數(shù)據(jù)增強

        神經(jīng)機器翻譯很大程度上需要大規(guī)模的平行語料,而對于低資源語料獲取平行語料卻十分困難[14],為了獲得更多的平行語料進行訓(xùn)練,需對數(shù)據(jù)進行數(shù)據(jù)增強。目前在機器翻譯領(lǐng)域最主要的數(shù)據(jù)增強方法有兩種,分別是詞匯替換和回譯[9]。該文利用回譯的方法進行數(shù)據(jù)增強來擴充平行語料,其主要思想是首先訓(xùn)練一個反向翻譯模型,即漢語到維語的模型來生成偽平行語料,并將得到的偽平行語料應(yīng)用于維語到漢語的翻譯模型。圖4 為回譯流程圖。

        圖4 回譯流程圖

        3.2 BPE編碼

        在訓(xùn)練模型前,構(gòu)建詞表是極其重要的一項工作,傳統(tǒng)方法一般用訓(xùn)練語料中所有出現(xiàn)過的單詞來構(gòu)建詞表或基于單個字符來構(gòu)建詞表。如果采用基于訓(xùn)練語料的方法,則很難處理未登錄詞,且若訓(xùn)練語料中的單詞數(shù)目很多會導(dǎo)致構(gòu)建的詞表龐大,進而影響訓(xùn)練速率。若采用字符構(gòu)建詞表,由于粒度太細,則會丟失很多語義信息。而BPE 算法通過將詞劃分為子詞的方式,分詞的粒度在字符和單詞之間,這樣既減小了詞表的大小又能盡可能得到語義信息[15]。

        3.3 輸出檢測與糾正

        在模型訓(xùn)練完成得到模型輸出后,對測試集數(shù)據(jù)進行分析,發(fā)現(xiàn)部分維語到漢語使用音譯的方法,可能存在諧音字詞、混淆音字詞以及形似字錯誤等情況。為了檢測這些類型的錯誤,該文從字粒度的角度構(gòu)建語言模型來計算困惑度,對輸出的結(jié)果進行評判,檢測某字的似然概率值是否低于句子的文本平均值,若低于均值則判定該字可能是錯別字[16]。通過錯誤檢測定位所有疑似錯誤后,選取所有疑似有誤的候選詞,使用候選詞進行替換,基于語言模型得到類似翻譯模型的候選排序結(jié)果,得到最優(yōu)糾正詞。但可能由于出現(xiàn)該問題的數(shù)據(jù)占比較少,對結(jié)果的優(yōu)化及最終BLUE 結(jié)果提升并不明顯。輸出文本優(yōu)化流程如圖5 所示。

        圖5 輸出文本優(yōu)化流程圖

        4 實驗設(shè)計與分析

        4.1 實驗環(huán)境和評價指標(biāo)

        該文實驗是在Linux 系統(tǒng)下進行的,CPU 為Intel Core i5-12400F 4.4 GHz×12,顯卡為四張GeForce GTX 2080Ti,實驗是在GPU環(huán)境中運行的。編程環(huán)境為Python3.6,深度學(xué)習(xí)開發(fā)工具框架為Pytorch1.10.0版本。

        為了能夠及時有效地評價維漢翻譯模型,在綜合考慮已有的機器翻譯性能評價方法后,該文選用應(yīng)用最為廣泛的BLEU(Bilingual Evaluation Understudy)評價方法作為評價指標(biāo)。具體算法為:

        數(shù)加權(quán)和。

        4.2 數(shù)據(jù)增強實驗

        實驗的訓(xùn)練語料有25 萬對平行語料和20 萬條漢語單語語料,回譯數(shù)據(jù)增強階段使用了開源的fairseq,以transformer 為基線模型進行測評,同時還對比了是否使用BPE 編碼的結(jié)果。transformer 模型參數(shù)中設(shè)置句子最大長度為50 詞,詞向量的維度為512 維,訓(xùn)練時的batch_size 大小為32。網(wǎng)絡(luò)層數(shù)為6 層,多頭注意力機制設(shè)置為8,dropout 為0.1。訓(xùn)練時選用Adam 優(yōu)化算法[17],學(xué)習(xí)率初始值為2.0,模型迭代步數(shù)為8 000 步。

        實驗結(jié)果如表1 所示。從表1 可以看出回譯的數(shù)據(jù)增強方式和加入BPE 編碼的結(jié)果均優(yōu)于基線模型,利用回譯模型BLUE 增加了0.59%,引入BPE 編碼則增加約2.21%,同時使用BPE 編碼和數(shù)據(jù)增強能夠提升約5.4%。

        表1 不同數(shù)據(jù)處理方式BLEU大小

        4.3 改進的transformer實驗結(jié)果分析

        改進的transformer模型參數(shù)中設(shè)置同transformer基線模型相同。同時還選用了RNN、CNN+attention與transfomer 基線模型和改進的transformer 模型進行對比實驗,實驗結(jié)果如表2 所示,可以很明顯看出基于transformer 模型的BLUE 值相較于CNN+attention和RNN 模型有著明顯的提升,同時該文提出的改進的transformer 模型的BLUE 也提升了0.93%。

        表2 測試集BLEU對比結(jié)果

        4.4 實驗結(jié)果展示

        利用測試集在已訓(xùn)練好的改進transformer 模型上實際翻譯效果的對比如表3 所示。

        表3 翻譯效果展示

        5 結(jié)論

        該文利用改進的transformer 維漢翻譯模型,在transformer 的基礎(chǔ)上引入了循環(huán)機制和時間編碼,使得除了第一次是以原始信息作為輸入,之后都是由前一個時間步的輸出作為后一個的輸入,并在輸出端對模型的輸出結(jié)果利用語言模型進行糾正。同時還引入了回譯和BPE 編碼對數(shù)據(jù)進行預(yù)處理。根據(jù)實驗結(jié)果顯示,加入數(shù)據(jù)預(yù)處理后,transformer 模型有了明顯的提升。將transformer 維漢翻譯模型對比改進的transformer 維漢翻譯模型,效果又有了明顯的提升,BLUE 值在transformer 的基礎(chǔ)上提升0.93%。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機模型
        提煉模型 突破難點
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        3D打印中的模型分割與打包
        国产成品精品午夜视频| 久久国产成人精品国产成人亚洲| 色吊丝中文字幕| 中文字幕视频二区三区| 国产老熟女狂叫对白| 在线国产激情视频观看| 国产一区二区激情对白在线| 免费a级毛片在线播放不收费| 久久久精品亚洲懂色av| 中文字幕精品一二三四五六七八 | 精品久久综合亚洲伊人| 中文字幕亚洲乱码成熟女1区| 欧美精品一本久久男人的天堂| 性欧美老人牲交xxxxx视频| 中文字幕人妻互换激情| 亚洲暴爽av人人爽日日碰| 蜜桃一区二区三区视频网址| 91极品尤物国产在线播放| 少妇无码一区二区三区免费| 极品粉嫩小仙女高潮喷水操av| 色婷婷色99国产综合精品| 亚洲av国产av综合av| 免费无码又爽又高潮视频| 顶级高清嫩模一区二区| 久久精品国产亚洲av瑜伽| 天天夜碰日日摸日日澡性色av| 麻豆国产成人av高清在线| 97色在线视频| 亚洲av无码一区二区三区天堂古代| 亚洲日本中文字幕乱码| 亚洲大片免费| 蜜臀av 国内精品久久久| 日韩中文字幕版区一区二区三区| 丰满少妇人妻无码超清 | 国产不卡在线播放一区二区三区| 东京热加勒比日韩精品| 人妻忍着娇喘被中进中出视频| 日本精品视频一区二区三区四区| 日本岛国一区二区三区四区| 国产av专区一区二区三区| 伊人久久五月丁香综合中文亚洲|