亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        低頻詞表示增強(qiáng)的低資源神經(jīng)機(jī)器翻譯

        2022-08-02 03:56:20朱俊國(guó)楊福岸余正濤張澤鋒
        中文信息學(xué)報(bào) 2022年6期
        關(guān)鍵詞:越南語(yǔ)詞頻詞典

        朱俊國(guó),楊福岸,余正濤,鄒 翔,張澤鋒

        (1. 昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500;2. 昆明理工大學(xué) 云南省人工智能重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)

        0 引言

        低頻詞翻譯在神經(jīng)機(jī)器翻譯中是一個(gè)具有挑戰(zhàn)性的問(wèn)題。由于低頻詞在訓(xùn)練數(shù)據(jù)中出現(xiàn)次數(shù)較少,神經(jīng)機(jī)器翻譯模型一般不能充分地學(xué)習(xí)到準(zhǔn)確的低頻詞的表示,從而影響神經(jīng)機(jī)器翻譯模型的性能。在低資源神經(jīng)機(jī)器翻譯中,低頻詞翻譯問(wèn)題則表現(xiàn)得更為突出,這是由于在低資源語(yǔ)言對(duì)上雙語(yǔ)數(shù)據(jù)極度匱乏,導(dǎo)致低頻詞在模型中訓(xùn)練次數(shù)更少,使得低頻詞不能更好的學(xué)習(xí)到其表示形式。因此在低資源神經(jīng)機(jī)器翻譯中,低頻詞表示不準(zhǔn)確的問(wèn)題亟待解決。

        目前,關(guān)于詞表示增強(qiáng)的方法大致分為兩類。一類是基于外部知識(shí)融入的方法。該方法通過(guò)融入先驗(yàn)知識(shí),從而使單詞具有更豐富的含義以達(dá)到增強(qiáng)詞表示的目的,如融入詞典和外部結(jié)構(gòu)信息等。盡管基于外部知識(shí)融入的方法,隨著外部知識(shí)的融入,可以達(dá)到增強(qiáng)詞表示的效果,但是對(duì)于其難點(diǎn),低頻詞的表示問(wèn)題并沒(méi)有解決,從而使得低頻詞的表示在現(xiàn)有的神經(jīng)機(jī)器翻譯模型中不能得到更好的訓(xùn)練。另一類是基于內(nèi)部知識(shí)增強(qiáng)的方法,該方法通過(guò)單語(yǔ)數(shù)據(jù)重新學(xué)習(xí)詞的表示形式,使詞的表示形式包含更豐富的翻譯信息,從而使得詞的表示更加準(zhǔn)確。這種基于單語(yǔ)數(shù)據(jù)詞表示增強(qiáng)的方法兼顧到了詞語(yǔ)的準(zhǔn)確度和流利度,隨機(jī)對(duì)詞表中所有的詞語(yǔ)進(jìn)行表示增強(qiáng)。雖然該方法能在一定程度上緩解低頻詞表示不準(zhǔn)確的問(wèn)題,但是并沒(méi)有覆蓋所有的低頻詞。因此,該方法仍沒(méi)有針對(duì)性地解決低頻詞翻譯不佳的問(wèn)題。

        詞表示增強(qiáng)方法的核心是如何更準(zhǔn)確地學(xué)習(xí)到更準(zhǔn)確的詞表示形式,其難點(diǎn)是如何表示低頻詞。原始的低頻詞通過(guò)one-hot方法[1]表示,其表示形式存在維度過(guò)大和語(yǔ)義鴻溝問(wèn)題。針對(duì)低頻詞翻譯的問(wèn)題,本文提出了一種利用單語(yǔ)數(shù)據(jù)重新學(xué)習(xí)低頻詞表示的方法。該方法采用了基于上下文軟替換的思想[2],這種思想利用語(yǔ)言模型通過(guò)單語(yǔ)數(shù)據(jù)學(xué)習(xí)到更豐富的上下文信息。文獻(xiàn)[2]采用隨機(jī)軟替換方法,并且沒(méi)有針對(duì)低頻詞進(jìn)行學(xué)習(xí)。而本文方法利用低頻詞在訓(xùn)練集單語(yǔ)數(shù)據(jù)的語(yǔ)言模型中的概率分布重新計(jì)算低頻詞的表示,以替代神經(jīng)機(jī)器翻譯中的one-hot表示。這種新的低頻詞表示能夠充分獲取單語(yǔ)數(shù)據(jù)信息,從而緩解低頻詞翻譯不佳的問(wèn)題。本文在漢-越、越-漢兩個(gè)方向的低資源神經(jīng)機(jī)器翻譯任務(wù)中,基于低頻詞表示增強(qiáng)的翻譯模型相對(duì)于基線模型在BLEU4[3]得分上分別提升了8.58%和6.06%。

        1 相關(guān)工作

        在神經(jīng)機(jī)器翻譯領(lǐng)域,詞表示增強(qiáng)的核心問(wèn)題是如何對(duì)低頻詞表示進(jìn)行增強(qiáng),即如何學(xué)習(xí)更準(zhǔn)確的低頻詞表示。但是在資源稀缺型語(yǔ)言的神經(jīng)機(jī)器翻譯中,開展低頻詞表示問(wèn)題的研究還相對(duì)較少。

        針對(duì)詞表示增強(qiáng)常用的方法可以分為以下兩類。一類是基于外部知識(shí)融入的方法。Haitao等人[4]從短語(yǔ)統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中獲取詞到詞和短語(yǔ)到短語(yǔ)翻譯知識(shí),然后使用這些翻譯知識(shí)限制神經(jīng)機(jī)器翻譯解碼句子時(shí)的解碼。這種方法在可以不加大訓(xùn)練復(fù)雜度的情況下,通過(guò)融入句子級(jí)詞匯增強(qiáng)捕捉翻譯歧義。Wang Xing等人[5]提出一種基于短語(yǔ)融入的方法,將統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中的短語(yǔ)記憶存儲(chǔ)的目標(biāo)短語(yǔ)集成到翻譯模型的編解碼體系結(jié)構(gòu)中。該方法通過(guò)引入短語(yǔ)級(jí)詞匯改變了原有短語(yǔ)逐詞翻譯的模式,緩解了短語(yǔ)錯(cuò)配、翻譯不當(dāng)?shù)葐?wèn)題。Huadong Chen等人[6]提出了一種基于句法樹融入的方法,通過(guò)雙向樹編碼器和樹覆蓋模型顯式地結(jié)合源端句法樹來(lái)改進(jìn)神經(jīng)機(jī)器翻譯模型。Meishan Zhang等人[7]提出了一種基于語(yǔ)法感知詞的方法,語(yǔ)法感知詞由端到端依存句法分析器的中間隱藏形式表示,然后簡(jiǎn)單地將語(yǔ)法感知詞與普通的詞嵌入連接起來(lái)。該方法結(jié)合句法信息,在原有詞語(yǔ)表示的基礎(chǔ)上增加了句法信息。第二類是利用數(shù)據(jù)內(nèi)部知識(shí)增強(qiáng)的方法,該方法沒(méi)有加入外部知識(shí),使用已有的數(shù)據(jù)進(jìn)行翻譯知識(shí)的獲取,一般利用語(yǔ)言模型訓(xùn)練得到。Zhu等人[2]提出用概率分布(由語(yǔ)言模型提供)來(lái)隨機(jī)代替詞的one-hot表示。使用語(yǔ)言模型得到詞典中每個(gè)詞的概率分布,這個(gè)概率分布表示該詞與詞典中其他詞的相關(guān)性,使用詞典中所有詞的詞嵌入加權(quán)求和更新該詞,加權(quán)求和的系數(shù)來(lái)源于語(yǔ)言模型中的概率分布,最后將所得表示輸入到Transformer[8]翻譯模型中。與第一類方法相比,該類方法更加準(zhǔn)確地增強(qiáng)詞的表示形式,讓增強(qiáng)后詞語(yǔ)的意思更加貼合句子的含義。這兩類方法都能達(dá)到詞表示增強(qiáng)的效果,但并沒(méi)有針對(duì)低頻詞表示增強(qiáng)做研究。

        2 模型

        2.1 模型總體概述

        神經(jīng)機(jī)器翻譯在翻譯低頻詞時(shí)經(jīng)常存在錯(cuò)譯問(wèn)題,由于低頻詞在訓(xùn)練數(shù)據(jù)中出現(xiàn)次數(shù)少,使得低頻詞在訓(xùn)練模型中不能夠?qū)W習(xí)到很好的表示形式,導(dǎo)致低頻詞翻譯效果不佳。在低資源神經(jīng)機(jī)器翻譯中,由于語(yǔ)料匱乏,低頻詞分布更加稀疏,使得低頻詞翻譯性能在低資源神經(jīng)機(jī)器翻譯中表現(xiàn)更差。

        本文通過(guò)在Transformer模型中引入語(yǔ)言模型與低頻詞詞典來(lái)緩解低頻詞在神經(jīng)機(jī)器翻譯中表示不佳的問(wèn)題,總體模型結(jié)構(gòu)如圖1所示。對(duì)于一個(gè)給定的源端與目標(biāo)端句子對(duì)(X,Y),有X=(x1,x2,…,xT),Y=(y1,y2,…,yT′),通過(guò)語(yǔ)言模型得到每個(gè)詞的概率分布[P(xi)],使用低頻詞詞典DK確定源端X中的低頻詞詞匯,例如x1,x3為低頻詞,用語(yǔ)言模型中對(duì)應(yīng)詞的概率分布更新原有的源端序列X,得到新的源端序列X′。 在翻譯模型和語(yǔ)言模型中,每個(gè)詞語(yǔ)都被分配一個(gè)唯一one-hot向量的ID,例如,詞匯表大小為|V|,第i個(gè)詞語(yǔ)將會(huì)用一個(gè)|V|維向量表示dk,其中第i維為1,其他維為0。通過(guò)更新后的源端序列X′與詞典所有詞的詞嵌入相乘,最終得到Transformer翻譯模型的輸入。

        圖1 總體模型結(jié)構(gòu)圖

        2.2 低頻詞詞典構(gòu)建

        以漢越數(shù)據(jù)集為例,低頻詞在漢越低資源神經(jīng)機(jī)器翻譯中表現(xiàn)不佳,為了區(qū)分低頻詞和其他詞語(yǔ),針對(duì)低頻詞使用本文方法進(jìn)行低頻詞表示增強(qiáng),構(gòu)建低頻詞詞典。低頻詞并沒(méi)有嚴(yán)格定義,本文根據(jù)詞頻分布規(guī)律來(lái)定義低頻詞。由低到高統(tǒng)計(jì)詞頻,并根據(jù)詞頻對(duì)詞典進(jìn)行分類。通過(guò)統(tǒng)計(jì)的方式分別構(gòu)建漢語(yǔ)和越南語(yǔ)低頻詞詞典,以漢語(yǔ)和越南語(yǔ)訓(xùn)練集為目標(biāo)選取低頻詞,詞頻等于k的低頻詞詞典詞定義為k類低頻詞子詞典dk,詞頻k小于或等于K的低頻詞詞典定義為K類低頻詞詞典DK且存在,如式(1)所示。

        以2007年為基準(zhǔn)年,以2007年通州區(qū)的公路里程2 250 km為基準(zhǔn)里程,將2007年到2016年的公路里程進(jìn)行擬合從而得以確定公式中的參數(shù),得到式(1):

        根據(jù)詞頻k(k取1到10)分別構(gòu)建漢語(yǔ)和越南語(yǔ)低頻詞子詞典dk和低頻詞詞典DK,且分別統(tǒng)計(jì)出其詞典覆蓋率,詞典覆蓋率為該詞典大小與總詞典大小的比值,總詞典由訓(xùn)練集統(tǒng)計(jì)得出。

        漢語(yǔ)詞表大小為47 356,訓(xùn)練集詞語(yǔ)總數(shù)為 2 275 526。k類低頻詞子詞典中分別有18 496,6 656,3 787, 2 508,1 812,1 397, 1 067, 832,719,593個(gè)詞語(yǔ)。如圖2所示,k類低頻詞子詞典覆蓋率隨著詞頻k的增加而降低,有39.06%的詞語(yǔ)詞頻為1,0.25%的詞語(yǔ)詞頻為10。

        圖2 漢語(yǔ)k類低頻詞子詞典與K類低頻詞詞典覆蓋率

        越南語(yǔ)詞表大小為22 732,訓(xùn)練集詞語(yǔ)總數(shù)為3 189 350。k類低頻詞子詞典中分別有9 428,3 188,1 667,1 006,718,514,393,340,188,223個(gè)詞語(yǔ),如圖3所示,與漢語(yǔ)k類低頻詞子詞典類似,越南語(yǔ)詞典覆蓋率隨著詞頻k的增加而降低,有41.47%的詞語(yǔ)詞頻為1,0.98%的詞語(yǔ)詞頻為10。

        圖3 越南語(yǔ)k類低頻詞子詞典與K類低頻詞詞典覆蓋率

        實(shí)驗(yàn)證明,在漢越語(yǔ)翻譯任務(wù)上,在5類低頻詞詞典上效果最佳,由圖2可知,該類方法可以解決覆蓋詞典70.25%低頻詞表示問(wèn)題;在越南語(yǔ)漢語(yǔ)翻譯任務(wù)上,在6類低頻詞詞典上效果最佳,由圖3可知,該類方法可以解決覆蓋詞典70.66%低頻詞表示問(wèn)題。

        據(jù)統(tǒng)計(jì),低頻詞雖然在數(shù)據(jù)集中詞頻較小,在10類低頻詞詞典中,漢語(yǔ)和越南語(yǔ)在數(shù)據(jù)集中占比分別為4.33%和1.66%,但是在詞典中的覆蓋率非常大,達(dá)79.98%。說(shuō)明在每個(gè)句子中大概率會(huì)出現(xiàn)低頻詞,由于低頻詞翻譯效果不佳,從而在整體上拉低了機(jī)器翻譯的效果。低頻詞中不乏一些常用詞,如表1所示,“回升”“人命”和“結(jié)盟”等詞語(yǔ)。所以對(duì)低頻詞表示增強(qiáng)的研究是有必要的。

        表1 漢語(yǔ)-越南語(yǔ)k類低頻詞子詞典示例

        2.3 低頻詞表示學(xué)習(xí)

        低頻詞w的概率分布P(w)可以用多種方法計(jì)算,本文利用預(yù)先訓(xùn)練的6層Transformer decoder作為語(yǔ)言模型來(lái)計(jì)算P(w)和w前面所有詞的條件概率,對(duì)于一個(gè)句子中第t個(gè)詞xt,如式(2)所示。

        在翻譯模型中,每個(gè)單詞都被分配一個(gè)唯一one-hot向量的ID,如圖1所示,利用構(gòu)建的低頻詞詞典DK判斷輸入的句子中哪些詞屬于低頻詞,若xt∈DK為Y,反之則為N,“Y”表示用語(yǔ)言模型所訓(xùn)練出的P(xt)來(lái)更新與之對(duì)應(yīng)的詞,“N”則表示原詞保持不變,從而得到新的源端序列向量表示X′,通過(guò)與詞典V的詞嵌入矩陣E相乘得到翻譯模型Transformer的輸入,如式(3)所示。

        最終經(jīng)過(guò)翻譯模型Transformer得到翻譯結(jié)果,如式(4)所示。

        3 實(shí)驗(yàn)

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        本文使用了漢越和漢蒙兩個(gè)低資源數(shù)據(jù)集,其統(tǒng)計(jì)信息如表2所示。

        表2 數(shù)據(jù)集統(tǒng)計(jì)信息

        漢越數(shù)據(jù)集通過(guò)將公開IWLST英語(yǔ)-越南語(yǔ)雙語(yǔ)平行語(yǔ)料,經(jīng)過(guò)語(yǔ)言學(xué)專家將英語(yǔ)譯文為漢語(yǔ),得到漢語(yǔ)-越南語(yǔ)平行語(yǔ)料。在融入本文方法之前對(duì)語(yǔ)料進(jìn)行了清洗和分詞處理,最終獲得127 481漢越雙語(yǔ)平行數(shù)據(jù)。對(duì)于漢語(yǔ)數(shù)據(jù),使用結(jié)巴分詞工具對(duì)中文語(yǔ)句進(jìn)行分詞,處理越南語(yǔ)使用tokenizer[9]切開標(biāo)點(diǎn),分別從漢越雙語(yǔ)平行數(shù)據(jù)中隨機(jī)抽取規(guī)模大小均為2 000對(duì)的漢越雙語(yǔ)平行數(shù)據(jù)作為測(cè)試集和驗(yàn)證集。

        漢蒙數(shù)據(jù)集語(yǔ)料采用CCMT 2020機(jī)器翻譯漢蒙評(píng)測(cè)數(shù)據(jù),約26萬(wàn),經(jīng)清洗處理后訓(xùn)練集規(guī)模為20萬(wàn)對(duì)漢蒙平行語(yǔ)料,分別從漢蒙雙語(yǔ)平行數(shù)據(jù)中隨機(jī)抽取規(guī)模大小均為2 000對(duì)的漢蒙雙語(yǔ)平行數(shù)據(jù)作為測(cè)試集和驗(yàn)證集。

        3.2 實(shí)驗(yàn)設(shè)置

        采用當(dāng)前主流的Transformer體系結(jié)構(gòu)用于翻譯模型,對(duì)于漢越、越漢兩個(gè)翻譯任務(wù)采用相同的實(shí)驗(yàn)配置,實(shí)驗(yàn)中統(tǒng)計(jì)訓(xùn)練集詞表。為了解決低頻詞的問(wèn)題,不能去掉低頻詞,所以采用所有的詞作為詞典,漢語(yǔ)字典詞表大小為47 356,越南語(yǔ)字典詞表大小為22 732。每個(gè)batch最大Maxtoken為2 048,句子最大長(zhǎng)度為128,最大epoch為100輪,dropout[10]設(shè)置為0.1,詞嵌入維數(shù)為512維,隱藏層維度為512維。所有的模型通過(guò)Adam[11]優(yōu)化器來(lái)訓(xùn)練,且初始學(xué)習(xí)率為1×10-4。

        在漢越翻譯任務(wù)中,采用獨(dú)立的語(yǔ)言Transformer Decoder作為漢語(yǔ)語(yǔ)言模型[12]。漢語(yǔ)語(yǔ)言模型的訓(xùn)練集和驗(yàn)證集來(lái)源于翻譯模型中的漢語(yǔ)語(yǔ)料,規(guī)模分別為127 481和2 000條漢語(yǔ)單語(yǔ)數(shù)據(jù);在越漢翻譯任務(wù)中,語(yǔ)言模型結(jié)構(gòu)與漢越翻譯任務(wù)中模型結(jié)構(gòu)相同,越南語(yǔ)語(yǔ)言模型的訓(xùn)練集和驗(yàn)證集來(lái)源于翻譯模型中的越南語(yǔ)單語(yǔ)語(yǔ)料,規(guī)模大小與漢語(yǔ)語(yǔ)言模型一致。

        在語(yǔ)言模型訓(xùn)練完成之后,保存模型最優(yōu)的訓(xùn)練參數(shù),并在訓(xùn)練翻譯模型時(shí),語(yǔ)言模型的參數(shù)固定使用其最優(yōu)訓(xùn)練參數(shù)。本文使用漢語(yǔ)-越南語(yǔ)平行語(yǔ)料分別在漢越和越漢兩個(gè)任務(wù)上對(duì)本文提出的方法進(jìn)行驗(yàn)證。本文采用自助重采樣的方法[13](重采樣1 000詞)在顯著性水平p<0.05下,在測(cè)試集上使用BLEU4值作為評(píng)測(cè)指標(biāo)。

        在漢蒙與蒙漢翻譯任務(wù)中實(shí)驗(yàn)設(shè)置與漢越實(shí)驗(yàn)設(shè)置保持一致。

        3.3 基于低頻詞表示增強(qiáng)的模型與基線模型對(duì)比

        為驗(yàn)證本文所提出的低頻詞表示增強(qiáng)模型性能,采用了以下兩種模型作為基線模型。一是經(jīng)典Transformer模型(Transformer)[8]: 使用Transformer_base模型在漢越和越漢兩個(gè)翻譯任務(wù)進(jìn)行實(shí)驗(yàn)。二是在Transformer基礎(chǔ)上,加入語(yǔ)言模型(Transformer+LM)[2],使用語(yǔ)言模型訓(xùn)練結(jié)果隨機(jī)替換翻譯模型的輸入,替換概率為γ,γ=0.15(γ值為文獻(xiàn)[2]中所使用的最優(yōu)設(shè)置)。在漢越和漢蒙兩個(gè)語(yǔ)言對(duì)4個(gè)翻譯任務(wù)上進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果為每個(gè)翻譯模型BLEU4得分,如表3所示。

        表3 實(shí)驗(yàn)結(jié)果

        從表3可以看出,在漢越與越漢兩個(gè)方向的翻譯任務(wù)上,Transformer+LM模型較經(jīng)典的Transformer模型分別提升了0.87和0.59個(gè)BLEU4值;本文方法相較于Transformer+LM模型分別提升了0.84和0.68個(gè)BLEU4值。根據(jù)上述結(jié)果,本文方法在漢越和越漢翻譯任務(wù)上對(duì)比于Transformer模型和Transformer+LM模型,都有比較好的提升,證明本文中所提出的基于低頻詞表示增強(qiáng)的方法在漢越和越漢翻譯任務(wù)上是有效的。在漢蒙神經(jīng)機(jī)器翻譯任務(wù)上本文方法較于經(jīng)典的Transformer模型提升了1.46個(gè)BLEU4值,較于經(jīng)典的Transformer+LM模型提升了0.38個(gè)BLEU4值。在蒙漢神經(jīng)機(jī)器翻譯任務(wù)上本文方法較于經(jīng)典的Transformer模型提升了1.68個(gè)BLEU4值,較于經(jīng)典的Transformer+LM模型提升了0.44個(gè)BLEU4值。本文方法不僅在漢越神經(jīng)機(jī)器翻譯上表現(xiàn)出優(yōu)勢(shì),在蒙漢數(shù)據(jù)集上同樣提高了神經(jīng)機(jī)器翻譯的準(zhǔn)確率,對(duì)于資源稀缺型語(yǔ)言的神經(jīng)機(jī)器翻譯低頻詞表征不佳問(wèn)題的處理具有可行性。

        從實(shí)驗(yàn)結(jié)果中分析,Transformer+LM模型優(yōu)于經(jīng)典的Transformer模型,由于Transformer+LM模型通過(guò)語(yǔ)言模型隨機(jī)引入了詞上下文信息,使隨機(jī)引入詞獲取到更豐富的信息,證明Transformer+LM模型中引入詞上下文信息的有效性。本文方法相較于Transformer+LM模型在翻譯性能上也有較大的提升,在本文方法中考慮到低頻詞的信息,只針對(duì)低頻詞進(jìn)行上下文的概率估計(jì),提高翻譯性能,而不區(qū)分低頻詞和非低頻詞導(dǎo)致性能下降。從實(shí)驗(yàn)結(jié)果可以看出,本文方法能夠緩解低頻詞翻譯不佳這一問(wèn)題,在漢越和越漢兩個(gè)翻譯任務(wù)上有明顯的優(yōu)勢(shì)。

        為了驗(yàn)證本文方法對(duì)于不同數(shù)據(jù)的有效性,本文對(duì)漢越和越漢兩個(gè)方向測(cè)試集的源語(yǔ)言端按照句子長(zhǎng)度區(qū)間對(duì)句子進(jìn)行了分類,如表4所示。在漢越翻譯任務(wù)上測(cè)試集大小分別為1 322、563和115對(duì)平行句對(duì);在越漢翻譯任務(wù)上測(cè)試集大小分別為415、708和877對(duì)平行句對(duì)。

        表4 驗(yàn)證集規(guī)模

        實(shí)驗(yàn)結(jié)果如表5所示,在句子長(zhǎng)度為[1,20]的區(qū)間上,本文模型較經(jīng)典的Transformer模型幾乎沒(méi)有提升,而在句子長(zhǎng)度為(20,60]的區(qū)間上提升較大。說(shuō)明本文方法對(duì)短句效果不明顯,在長(zhǎng)句子中效果比較顯著。

        表5 實(shí)驗(yàn)結(jié)果

        3.4 K類低頻詞詞典對(duì)模型的影響分析

        為了分析低頻詞出現(xiàn)頻率對(duì)本文方法的影響,本文方法在漢越和越漢兩個(gè)翻譯任務(wù)上,按照出現(xiàn)頻率小于或等于K(K=1,2,…,10)的詞分別進(jìn)行模型性能測(cè)試,結(jié)果如表4、表5所示。

        從圖4和圖5中可以看出,在漢越和越漢翻譯任務(wù)上,隨著K值的增大,整體趨勢(shì)先上升后下降,在K值分別取5和6時(shí),即低頻詞設(shè)定為在訓(xùn)練集中出現(xiàn)頻率小于或等于5和6時(shí)(分別占詞表大小的70.25%和70.66%),BLEU4值取得最高值;K值為0時(shí)為經(jīng)典Transformer模型結(jié)果,當(dāng)K值取1,2,…,10時(shí),模型性能皆優(yōu)于經(jīng)典Transformer模型;在上升過(guò)程,當(dāng)K值等于3時(shí),本文方法模型性能超過(guò)Transformer+LM模型;在下降過(guò)程中,K值分別取9和10時(shí),Transformer+LM模型性能略優(yōu)于本文方法。如圖4所示,當(dāng)K值取0時(shí)(經(jīng)典Transformer模型),Transformer+LM模型優(yōu)于經(jīng)典Transformer模型,由于Transformer+LM模型中引入了隨機(jī)詞的上下文信息;當(dāng)K值小于或等于5時(shí),模型效果穩(wěn)步上升,K類低頻詞詞典中詞語(yǔ)出現(xiàn)次數(shù)較少,低頻詞在翻譯模型中不能得到更好的表示,用低頻詞的上下文信息替代低頻詞表示,從而豐富了低頻詞的表示信息,使低頻詞擁有更加豐富的上下文語(yǔ)義信息,使得模型穩(wěn)步上升。當(dāng)K值大于5時(shí),即低頻詞詞典中加入出現(xiàn)頻率大于5的詞語(yǔ),由于新加入的詞本身可以得到比較好的訓(xùn)練, 且訓(xùn)練出的詞表示優(yōu)于語(yǔ)言模型所提供增強(qiáng)后的表示形式。因此,低頻詞字典新加入的詞語(yǔ),并不能達(dá)到優(yōu)化翻譯性能的效果,所以在K值大于5時(shí),翻譯效果會(huì)不斷下降。

        圖4 K類低頻詞詞典對(duì)漢越模型的影響

        圖5 K類低頻詞詞典對(duì)越漢模型的影響

        3.5 實(shí)例分析

        表6 漢越翻譯實(shí)例分析

        表7 越漢翻譯實(shí)例分析

        4 結(jié)論

        本文研究旨在緩解低頻詞在神經(jīng)機(jī)器翻譯中表示不準(zhǔn)確這一問(wèn)題,提出了一種低頻詞表示增強(qiáng)的低資源神經(jīng)機(jī)器翻譯方法,該方法利用單語(yǔ)信息增強(qiáng)低頻詞的表示,改善低頻詞的翻譯效果,使翻譯性能得到了提升。實(shí)驗(yàn)結(jié)果表明本文方法可以在經(jīng)典Transformer模型和不區(qū)分詞頻的Transformer+LM模型上進(jìn)一步提升機(jī)器翻譯模型的性能。

        猜你喜歡
        越南語(yǔ)詞頻詞典
        基于詞頻分析法的社區(qū)公園歸屬感營(yíng)建要素研究
        園林科技(2021年3期)2022-01-19 03:17:48
        納蘇彝語(yǔ)越南語(yǔ)親屬稱謂特征及其文化內(nèi)涵異同研究
        米沃什詞典
        文苑(2019年24期)2020-01-06 12:06:50
        評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
        詞典例證翻譯標(biāo)準(zhǔn)探索
        漢語(yǔ)經(jīng)歷體標(biāo)記“過(guò)”及其在越南語(yǔ)中的對(duì)應(yīng)形式
        現(xiàn)代漢語(yǔ)與越南語(yǔ)存在句否定形式與情態(tài)特征的比較研究
        詞頻,一部隱秘的歷史
        云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
        以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報(bào)》學(xué)術(shù)研究特色
        圖書館論壇(2014年8期)2014-03-11 18:47:59
        国产成a人亚洲精品无码樱花| 少妇spa推油被扣高潮| 久久天天躁狠狠躁夜夜2020!| 久久精品伊人无码二区| 日韩精品中文字幕人妻中出| 一区二区三区国产黄色| 一二三四日本中文在线| 亚洲精品国产综合一线久久| 国产免费人成视频在线观看播放| 日本免费观看视频一区二区| 日本精品一区二区高清| 亚洲精品suv精品一区二区| 精品视频入口| 一个人看的在线播放视频| 国产午夜视频在线观看免费| 欧美a级情欲片在线观看免费| 亚洲AV激情一区二区二三区| 日韩伦理av一区二区三区| 亚洲熟妇av一区二区三区| 丰满人妻av无码一区二区三区| av深夜福利在线| 在线看亚洲一区二区三区| 中文字幕一区二区中出后入| 精东天美麻豆果冻传媒mv| 国产成人久久精品区一区二区| 在线看片免费人成视久网不卡| 青青草成人在线免费视频| 亚洲人成网站18禁止久久影院| 日本精品一区二区三区在线视频| 亚洲tv精品一区二区三区| 牛仔裤人妻痴汉电车中文字幕| 久久久久99人妻一区二区三区| 亚洲老妇色熟女老太| 日韩中文字幕网站| 国产亚洲精品在线视频| 亚洲人成电影在线播放| 国产成人精品三级在线影院| 国产一区二区三区在线av| 99麻豆久久久国产精品免费| 国产成人乱色伦区| 不卡a v无码在线|