亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于適應(yīng)性訓(xùn)練與丟棄機(jī)制的神經(jīng)機(jī)器翻譯

        2023-10-17 05:49:56段仁翀段湘煜
        計(jì)算機(jī)工程 2023年10期
        關(guān)鍵詞:適應(yīng)性短語損失

        段仁翀,段湘煜

        (蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215000)

        0 概述

        字或詞可以被認(rèn)為是組成語言的基本單位,然而,人們經(jīng)常使用短語來表達(dá)具體的含義。例如,考慮“Machine translation is a branch of computational linguistics”這句英語譯文,如果將句子分割為:“[Machine translation][is][a branch of] [computational linguistics]”,則會變得更容易理解,其中每個括號中的詞組成一個短語。如果這些短語沒有被準(zhǔn)確翻譯,則在很大程度上影響譯文質(zhì)量。

        傳統(tǒng)的基于短語的統(tǒng)計(jì)機(jī)器翻譯(Statistical Machine Translation,SMT)方法已被證明優(yōu)于基于單詞的方法[1-3]。然而,在現(xiàn)代神經(jīng)機(jī)器翻譯(Neural Machine Translation,NMT)方法[4-6]中關(guān)于短語的工作主要利用外部工具生成的短語來為神經(jīng)網(wǎng)絡(luò)模型提供額外的信息[7]。例如,文獻(xiàn)[8]使用SMT 模型生成的短語來擴(kuò)展波束搜索,文獻(xiàn)[9]使用SWAN[10]方法來獲得短語結(jié)構(gòu)并進(jìn)行建模。然而,除了外部短語信息外,即使是在訓(xùn)練集中出現(xiàn)過的短語,模型也不能準(zhǔn)確翻譯。經(jīng)過測試,在WMT14 英德數(shù)據(jù)集中,對于訓(xùn)練集中4 個詞組成的短語,標(biāo)準(zhǔn)的NMT模型的翻譯準(zhǔn)確率只有27.5%,表明大量短語沒有被準(zhǔn)確翻譯。因?yàn)镹MT 模型最小化每個詞的損失,這導(dǎo)致無顯式的約束來記憶短語,所以即使是訓(xùn)練集中的短語也會被誤譯。

        使用基于詞級別的適應(yīng)性訓(xùn)練來約束模型記憶短語,這類方法通過為每個詞分配不一樣的權(quán)重來鼓勵模型專注于特定詞的翻譯。例如,因?yàn)闃?biāo)準(zhǔn)的Transformer[11]對于低頻單詞 翻譯準(zhǔn)確率較低,文獻(xiàn)[12]約束模型關(guān)注低頻并且有意義的詞,該方法緩解了模型過度擬合高頻詞而忽視那些低頻詞的問題。文獻(xiàn)[13]旨在使用雙語互信息(Bilingual Mutual Information,BMI)來衡量詞的學(xué)習(xí)難度,對于容易學(xué)習(xí)的詞分配較大的權(quán)重,不容易學(xué)習(xí)的詞分配較小的權(quán)重。

        本文提出一種短語感知適應(yīng)性訓(xùn)練(Phrase Awareness Adaptive Training,PAT)方法,旨在鼓勵模型記憶短語。該方法將NMT 產(chǎn)生的目標(biāo)句子中詞級別損失周期性變化的片段提取為短語,基于模型產(chǎn)生的短語,根據(jù)每個詞在短語中的相對位置調(diào)整其權(quán)重,短語中靠后的詞分配較大的權(quán)重。此外,神經(jīng)機(jī)器翻譯系統(tǒng)在解碼時(shí)采用自回歸機(jī)制,導(dǎo)致誤譯的短語對后續(xù)的譯文造成負(fù)面影響,為此,提出短語丟棄(Phrase Drop,PD)機(jī)制,即在訓(xùn)練中隨機(jī)丟棄目標(biāo)端的短語,鼓勵模型從源端和已經(jīng)生成譯文中發(fā)掘更多信息,增加模型對誤譯短語的魯棒性。

        1 相關(guān)工作

        1.1 適應(yīng)性訓(xùn)練

        由于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練中為每個單詞都分配一樣的權(quán)重的方案,沒有考慮到每個單詞具有不同的重要程度[14],因此產(chǎn)生了通過考慮某些附加信息為目標(biāo)端詞分配不同的訓(xùn)練權(quán)重的方法,被稱為適應(yīng)性訓(xùn)練。文獻(xiàn)[12]認(rèn)為低頻詞在訓(xùn)練中難以訓(xùn)練,應(yīng)當(dāng)具有更高的訓(xùn)練權(quán)重,所以提出了兩個啟發(fā)式目標(biāo)函數(shù),為不同頻率的目標(biāo)詞分配不同的權(quán)重。對于Exponential 目標(biāo),權(quán)重隨著頻率的降低而單調(diào)增加;對于Chi-Square 目標(biāo),只有那些有意義但相對低頻的詞可以分配更大的權(quán)重。文獻(xiàn)[13]認(rèn)為對于那些一詞多義的單詞應(yīng)當(dāng)在訓(xùn)練中有更高的寬容度,適當(dāng)降低一詞多義單詞的訓(xùn)練權(quán)重,因此提出了詞級別的訓(xùn)練目標(biāo)BMI,從雙語的角度衡量每個詞的學(xué)習(xí)難度,并動態(tài)調(diào)整單詞權(quán)重。之前的研究僅使用詞級的輔助信息,而本文方法使用短語級輔助信息,目的是為了通過改變權(quán)重來約束模型記憶短語。

        1.2 基于短語的方法

        基于短語的方法廣泛用于傳統(tǒng)的SMT 方法,并已被證明優(yōu)于基于單詞的方法[15-16],但在當(dāng)前NMT方法中,以往大多數(shù)的工作都集中在利用外部工具生成的短語上,文獻(xiàn)[8]引入一種基于注意力的混合搜索算法,該算法通過SMT 的短語翻譯擴(kuò)展了NMT的波束搜索。文獻(xiàn)[17]通過將短語存儲器中的目標(biāo)短語集成到NMT 中來翻譯短語,其中短語存儲器由SMT 模型提供,然后NMT 解碼器從短語存儲器中選擇一個短語或從概率最高的詞匯中選擇一個單詞來生成。文獻(xiàn)[9]提出使用SWAN[10]對目標(biāo)語言中的短語結(jié)構(gòu)進(jìn)行建模。本文方法利用模型本身的性質(zhì)來查找短語并改善翻譯質(zhì)量,而無須額外的參數(shù)或信息。

        1.3 知識遷移

        知識遷移是利用數(shù)據(jù)或特征更豐富的老師模型來提升數(shù)據(jù)或特征相對較匱乏的學(xué)生模型的性能,它可以用不同的形式實(shí)現(xiàn),例如,文獻(xiàn)[18-20]使用的知識蒸餾,文獻(xiàn)[21-23]通過在大量的無監(jiān)督數(shù)據(jù)上訓(xùn)練一個超大的預(yù)訓(xùn)練模型,然后在此模型基礎(chǔ)上只需要極小的有監(jiān)督數(shù)據(jù)進(jìn)行微調(diào),就可以取得比大量有監(jiān)督數(shù)據(jù)從零開始訓(xùn)練模型更好的效果,如在機(jī)器翻譯領(lǐng)域上的應(yīng)用[24-25]。本文主要使用適應(yīng)性訓(xùn)練將短語知識從教師模型遷移到學(xué)生模型。

        2 神經(jīng)機(jī)器翻譯模型

        2.1 基本框架

        本文采用由編碼器與解碼器構(gòu)成的自注意力Transformer 模型作為主干模型,模型的學(xué)習(xí)目標(biāo)是通過給定一個源句子x={x1,x2,…,xN},NMT 模型逐字預(yù)測目標(biāo)句子y={y1,y2,…,yT} 的概率P(y|x),計(jì)算公式如下:

        其中:y<t={y1,y2,…,yt-1}是時(shí)間步t之前的部分翻譯。NMT 的訓(xùn)練目標(biāo)是最小化負(fù)對數(shù)似然Lce,NMT,也稱為交叉熵?fù)p失函數(shù),計(jì)算公式如下:

        每個時(shí)間步t的單詞損失Lt的計(jì)算公式如下:

        為了鼓勵模型更多地關(guān)注目標(biāo)句子中特定的詞,文獻(xiàn)[12]將詞級適應(yīng)性目標(biāo)納入NMT 模型訓(xùn)練,損失函數(shù)如下:

        其中:wt是分配給目標(biāo)詞yt的權(quán)重。在理想情況下,每個目標(biāo)詞的權(quán)重應(yīng)該不同,因?yàn)樗鼈冊诜g中具有不同的難度和重要性,但是在傳統(tǒng)的機(jī)器翻譯模型中所有詞的權(quán)重都相同,無法體現(xiàn)出個別單詞的重要性。文獻(xiàn)[12]通過使用詞頻信息來調(diào)整,文獻(xiàn)[13]使用包含源語言和目標(biāo)語言的互信息來計(jì)算調(diào)整wt,然而僅僅考慮每個詞的重要性還不夠,還需要進(jìn)一步考慮詞在短語中的重要性。本文通過分配適當(dāng)?shù)膚t來約束模型記憶訓(xùn)練集中的短語,提高模型的翻譯質(zhì)量。

        2.2 短語感知適應(yīng)性訓(xùn)練

        短語感知適應(yīng)性訓(xùn)練方法的目的是通過引入顯式約束來增強(qiáng)模型對于短語的記憶能力,短語感知適應(yīng)性訓(xùn)練框架如圖1 所示。

        圖1 短語感知適應(yīng)性訓(xùn)練框架Fig.1 Framework of phrase perception adaptive training

        該方法分為以下2 個步驟:

        1)基于一個訓(xùn)練好的NMT 模型預(yù)先從訓(xùn)練集中分割短語,得到短語表。

        2)基于短語表加權(quán)適應(yīng)性目標(biāo)并訓(xùn)練模型。

        2.2.1 基于損失的短語分割

        為了增強(qiáng)模型的短語知識,將訓(xùn)練集中的句子分割成短語,獲得短語表。

        給定一個句子對{x,y},其中,x是由N個單詞xi組成的源序 列(x1,x2,…,xN),y是由T個單詞yi組成的目標(biāo)序列(y1,y2,…,yT),N和T分別是x和y的長度。通過式(3)得到目標(biāo)句子y的標(biāo)記級損失L=(l1,l2,…,lT),其中l(wèi)i是yi的損失。

        對于目標(biāo)句中的每個單詞yi,都有一個值pi來確定yi在某個短語中的相對位置。例如,考慮句子“他說他喜歡蘋果”,即Y=(He,said,he,likes,apples)。假設(shè)[He say]和[he likes apples]是Y中的2 個短語,那么對于yi,即“He”,設(shè)置它的位置p1=1,因?yàn)閥i是第1 個短語的開始。通過類比,得到p=(1,2,1,2,3)。本文通過NMT 模型本身學(xué)習(xí)的短語知識來得到p。pi的計(jì)算依賴于前一個詞的損失li-1。如果li-1大于當(dāng)前損失li,這意味著單詞yi和yi-1在同一個短語中,那么將yi附加到y(tǒng)i-1所在的短語中,即pi=pi-1+1;否則,將當(dāng)前詞yi為新短語的開始,即pi=1。根據(jù)上述描述,有:

        其中:超參數(shù)α控制構(gòu)成短語的寬容度。α允許那些損失不嚴(yán)格小于前一個單詞損失的單詞合并到前一個短語中。將P=(p1,p2,…,pn)稱為短 語表,n是訓(xùn)練集上所有的句子數(shù)。

        2.2.2 短語感知適應(yīng)性訓(xùn)練目標(biāo)

        基于第2.2.1 節(jié)的方法,從訓(xùn)練集中得到了每個目標(biāo)句子的詞級別損失L=(l1,l2,…,lT)和短語表P=(p1,p2,…,pn),其中n是訓(xùn)練集大小。為了緩解短語遺忘問題,設(shè)計(jì)短語感知訓(xùn)練目標(biāo)來約束NMT模型記憶短語,遵循2 個步驟:1)縮放不同單詞的權(quán)重和;2)適應(yīng)性訓(xùn)練目標(biāo)。

        基于L 和P,計(jì)算每個詞在其短語中的相對位置k的平均損失ak:

        其中:p∈P,l∈L 表示遍歷所有句子。如果pi=k,指示函數(shù)Ipi=k值為1,否則為0。然后,得到第k位置的權(quán)重:

        其中:a1表示短語中第1 個單詞的平均損失。在導(dǎo)出短語中每個相對位置pj的值s(pj)后,計(jì)算式(4)中每個詞級別權(quán)重:

        每個詞的默認(rèn)權(quán)重為1,根據(jù)其位置添加額外的權(quán)重A·s(pj),超參數(shù)A控制s(pj)變化的幅度。

        上述公式會對同一短語中靠后的詞分配較大的權(quán)重。直觀地說,較大的權(quán)重約束模型提高后續(xù)詞的預(yù)測概率,從而鼓勵模型找到更多的語法語義信息來記憶短語。

        2.2.3 短語分割分析

        本節(jié)首先通過實(shí)驗(yàn)證明第2.2.1 節(jié)短語分割的合理性,然后通過示例來說明損失進(jìn)行短語分割的含義。

        理想的短語產(chǎn)生方式是:對于同一種語言,不同的模型可以產(chǎn)生一致的短語表,而不是各自不同的短語表。

        所以,通過計(jì)算不同模型的損失之間的皮爾森系數(shù),來量化地證明上文方法可以用作分割短語的合理性。從原始NIST 中英訓(xùn)練集中隨機(jī)抽取10、50和125 萬數(shù)據(jù)作為訓(xùn)練集,分別訓(xùn)練標(biāo)準(zhǔn)的Transformer 模型,并計(jì)算兩兩之間在驗(yàn)證集上生成的詞級損失的皮爾森系數(shù),值越高,表示不同模型生成的短語越相似。計(jì)算公式如下:

        其中:lx和ly分別表示相同句子下x和y這2 個模型的詞級別損失;ρ(·,·)表示皮爾森相關(guān)系數(shù)函數(shù);AVG(·)表示求訓(xùn)練集中所有句子的皮爾森相關(guān)系數(shù)的平均值。

        任意2 個模型之間較高的皮爾森系數(shù)揭示了不同模型間的詞級別損失走勢存在統(tǒng)計(jì)學(xué)上顯著的相關(guān)性,這表明不同的模型會產(chǎn)生較為一致的短語。結(jié)果如表1 所示。

        表1 不同規(guī)模數(shù)據(jù)下模型的皮爾遜系數(shù)Table 1 Pearson coefficient of model under different scale datas

        下文使用一個例子闡述損失分割短語的含義,其中不同下劃線區(qū)間表示不同短語。標(biāo)準(zhǔn)的神經(jīng)網(wǎng)絡(luò)模型在推理中會對目標(biāo)句中的每個詞計(jì)算損失l=-loga p,其中,p表示模型對于每個單詞的預(yù)測概率,概率越大,那么對應(yīng)的損失也就越小。

        目標(biāo)端句子:

        The objective is to allow the patient to become pregnant with a baby using the new uterus.

        對應(yīng)的詞級別損失值:

        1.61 2.48 1.59 1.56 2.08 1.79 1.60 1.44 4.03 2.66 1.98 1.89 1.71 4.01 1.58 1.56 1.51 1.49

        上述示例展示了模型對于某個目標(biāo)句子y 的詞級別損失??梢钥吹?,損失的變化趨勢有一個清晰的模式,即它在某一個詞中跳到峰值,然后慢慢減少,波動在整個句子中持續(xù)存在。這種模式揭示了翻譯模型在推斷過程中會突然遇到某個難以生成的單詞,然后后續(xù)的單詞生成難度會逐漸降低直到等到下一個特別難生成的單詞。

        以上述示例中的一個小片段為例,考慮記為Φ的段[become pregnant with a baby],損失在Φ 的開頭上升到一個峰值(“become”),即生成它的概率最小,這是因?yàn)樵谶@個位置有許多可行的單詞翻譯,例如(“get”,“to”,“be”)等。

        第1 個單詞(“become”)確定下來后,Φ 中后續(xù)詞的搜索空間由于語法或語義約束而變小,在表達(dá)相同意思下翻譯出(“pregnant”)的概率大幅增加。

        與人講話類似,人們往往可以非常流利地講完一個短語,然后在講下一個短語之前停頓思考。受此啟發(fā),本文將模型翻譯越來越流利(損失逐漸減?。┑钠我曌鞫陶Z。

        2.3 短語丟棄機(jī)制

        丟棄機(jī)制可用于增加噪聲或者屏蔽無關(guān)信息。標(biāo)準(zhǔn)的丟棄機(jī)制通過以一定的概率將輸入神經(jīng)元設(shè)置為零來防止過擬合[26],預(yù)訓(xùn)練模型通過還原被丟棄的詞來訓(xùn)練模型,以及在自回歸生成任務(wù)中對解碼端采用丟棄機(jī)制來增強(qiáng)模型的魯棒性。

        神經(jīng)機(jī)器翻譯模型在解碼時(shí)采用自回歸機(jī)制,當(dāng)前詞的生成需要依賴以前詞,這就導(dǎo)致如果一個短語翻譯錯誤會影響后續(xù)短語的翻譯。為了解決這個問題,本文結(jié)合傳統(tǒng)的丟棄機(jī)制提出短語丟棄機(jī)制。該方法在訓(xùn)練中隨機(jī)丟棄目標(biāo)句子中的短語,來模擬推斷過程中短語翻譯錯誤的情況,如圖2 所示,將詞V3到詞V5組成的短語使用UNK 標(biāo)簽替換,用來模仿在推理過程中有些短語沒有被準(zhǔn)確翻譯的情況,以此鼓勵模型從源端或已經(jīng)生成的文本中發(fā)掘更多語法或語義信息。

        圖2 短語丟棄機(jī)制示意圖Fig.2 Schematic drawing of phrase drop mechanism

        具體來說,使用第2.2.1 節(jié)的方法將句子分割為短語,并以一定概率隨機(jī)丟棄短語片段,其中每個短語的丟棄概率設(shè)置為15%,這個概率在預(yù)訓(xùn)練模型中被廣泛使用,能夠取得較好的性能。

        3 實(shí)驗(yàn)準(zhǔn)備

        本文在廣泛使用的WMT14 英語到德語、NIST漢語到英語任務(wù)上進(jìn)行實(shí)驗(yàn)。這兩個任務(wù)使用multi-bleu.perl 測量區(qū)分大小寫的BLEU值[27]。

        3.1 實(shí)驗(yàn)設(shè)置

        3.1.1 數(shù)據(jù)準(zhǔn)備

        數(shù)據(jù)準(zhǔn)備主要有以下2 種:

        1)漢語到英語。使用LDC 語料庫作為訓(xùn)練集,它由125 萬個句子對組成,分別有2 790 萬個中文詞和3 450 萬個英文詞。采用MT06 作為驗(yàn)證集,MT02、MT03、MT04、MT05 和MT08 數(shù)據(jù)集作為測試集。使用Moses 腳本對英語句子進(jìn)行去噪,并根據(jù)Stanford Segmentor 腳本對中文句子進(jìn)行分詞,采用字節(jié)對編碼(BPE)和32 000 次合并操作。

        2)英語到德語。訓(xùn)練數(shù)據(jù)包含從WMT2014 英德數(shù)據(jù)集收集的450 萬句子對,分別有1.18 億個英語單詞和1.11 億個德語單詞。將newstest2013 作為驗(yàn)證集,并在newstest2014 上測試模型。語料庫中的每個單詞都使用字節(jié)對編碼(BPE)[28]分割子詞單元,使用源端目標(biāo)端共享詞表。

        3.1.2 訓(xùn)練設(shè)置

        通過使用名為Fairseq[29]的開源工具來實(shí)現(xiàn)Transformer 系統(tǒng)。特別是對于中英,dropout 設(shè)置為0.3,在目標(biāo)嵌入層和輸出層之間共享相同的權(quán)矩陣。使用8 個GPU,每個GPU 的批次大小為4 096。其他超參數(shù)與Vaswani等[11]中的默認(rèn)配置相同,即使用6 層的編碼器與6 層的解碼器,隱狀態(tài)維度為512,標(biāo)簽平滑設(shè)置為0.1,并使用Adam 優(yōu)化器,學(xué)習(xí)率設(shè)置為0.000 7。

        本文提出方法中有2 個重要的超參數(shù),即α和A。為了減少搜索空間,首先將A設(shè)置為1,并通過搜索調(diào)整驗(yàn)證集上的超參數(shù)α,即α∈ {0.00,0.15,0.30,0.45,0.60}。對于2 個語言對,α的最佳值為0.15。在驗(yàn)證數(shù)據(jù)集上調(diào)整超參數(shù)A,結(jié)果如表2 所示。最后,使用在驗(yàn)證數(shù)據(jù)集上找到的最佳超參數(shù)來最終評估測試數(shù)據(jù)集,中英為A=1.4、α=0.15,英德為A=1.5、α=0.15。

        表2 超參數(shù)A 與不同語言對的BLEU值Table 2 Hyperparameter A and BLEU values for different language pairs

        3.2 實(shí)驗(yàn)基線

        本文重新實(shí)現(xiàn)以下基線,并將其與提出方法進(jìn)行比較:

        Transformer:基線系統(tǒng)嚴(yán)格按照Vaswani等[11]的基礎(chǔ)模型配置來實(shí)現(xiàn)。

        Exponential:該系統(tǒng)使用適應(yīng)性訓(xùn)練目標(biāo)[12]。權(quán)重由指數(shù)形式產(chǎn)生,對于低頻詞會獲得更高的權(quán)重,對于高頻詞會獲得更低的權(quán)重。

        Chi-Square:該方法使用卡方分布作為權(quán)重函數(shù)來增加低頻詞目標(biāo)詞的訓(xùn)練權(quán)重[12]。

        BMI:與前2 種方法類似,這種方法通過計(jì)算互信息來估計(jì)源端詞和目標(biāo)端詞之間的學(xué)習(xí)難度,然后為容易學(xué)習(xí)的詞添加額外的訓(xùn)練權(quán)重[13]。

        Hybrid:該方法使用統(tǒng)計(jì)機(jī)器翻譯模型生成短語,然后使用短語對擴(kuò)展波束搜索[8]。

        NPMT:該方法對輸出序列中的短語結(jié)構(gòu)進(jìn)行建模,并且引入了一個新的層來對輸入進(jìn)行局部重新排序[9]。

        4 實(shí)驗(yàn)結(jié)果

        4.1 結(jié)果分析

        表3 所示為基線模型和提出方法在NIST 中英和WMT2014 英德翻譯任務(wù)上的性能,Δ為與標(biāo)準(zhǔn)Transformer 相比的改進(jìn)。從表3 可以看出,提出方法在幾乎不需要任何額外的計(jì)算或存儲消耗就能帶來比Transformer 更加穩(wěn)定的改進(jìn)。與標(biāo)準(zhǔn)的Transformer 相比,在NIST 中英翻譯任務(wù)和WMT2014 英德翻譯任務(wù)的7 個測試集中,其中有5 個測試集取得了最優(yōu)的性能,BLEU 值分別提高了1.64 和0.96。

        表3 中英和英德翻譯任務(wù)上的BLEU值Table 3 BLEU values on Chinese-English and English-German translation tasks

        實(shí)驗(yàn)結(jié)果證明了本文提出方法的有效性。增加模型對短語的記憶能力及對誤譯的短語的魯棒性,可以幫助神經(jīng)機(jī)器翻譯模型取得更好的翻譯質(zhì)量。

        4.2 消融實(shí)驗(yàn)

        消融實(shí)驗(yàn)如表4 所示,分別移除短語感知適應(yīng)性訓(xùn)練目標(biāo)和短語丟棄機(jī)制以測試其對模型的影響。移除短語感知適應(yīng)性訓(xùn)練目標(biāo)會顯著降低模型的BLEU值,相比之下,移除短語丟棄機(jī)制也會導(dǎo)致BLEU 值明顯下降,但是下降幅度較小。其中,移除短語分割表示不使用本文提出的短語分割方法,而使用文獻(xiàn)[13]提出的短語分割方法。實(shí)驗(yàn)結(jié)果證明了本文方法的有效性。

        表4 消融實(shí)驗(yàn)結(jié)果Table 4 Results of ablation experiment

        4.3 短語感知適應(yīng)性訓(xùn)練對于模型記憶短語的影響

        為了驗(yàn)證PAT 方法對記憶短語的有效性,首先對于中英翻譯任務(wù),將MT02到MT08測試集相連接作為一個大測試集。對于英德翻譯任務(wù),使用原始測試集。同時(shí),本文定義一個比率為目標(biāo)句子評分,公式如下:

        如圖3 所示,PAT 方法在中英和英德的Familiar子集上的BLEU 值分別比基線提高了1.39 和1.14,表明加強(qiáng)模型的短語記憶可以在具有更熟悉短語的翻譯中獲得更出色的性能,并且不會在包含更多不熟悉短語的任務(wù)上犧牲翻譯質(zhì)量。標(biāo)準(zhǔn)的NMT 系統(tǒng)對訓(xùn)練集中的N-gram 短語的翻譯準(zhǔn)確率較低,部分原因是缺乏約束來記憶短語。

        圖3 不同中英和英德測試子集上的BLEU值Fig.3 BLEU values on different Chinese-English and English-German test subsets

        將訓(xùn)練集分別按照1-gram 到4-gram 的短語粒度劃分出所有短語,并在所有基線模型與PAT 方法上測試不同短語粒度的翻譯準(zhǔn)確率,如表5所示。

        表5 英德任務(wù)上訓(xùn)練集中n-grams 短語的翻譯準(zhǔn)確率Table 5 Translation accuracy of n-grams phrases in the training set on English-German tasks

        從表5 可以看出,本文方法在提高n-gram 的翻譯準(zhǔn)確率方面優(yōu)于其他方法。同時(shí)也可以看出,相比1 個單詞的1-gram 短語,4 個單詞的4-gram 短語明顯準(zhǔn)確率更低,這顯示了模型對于長短語很差的記憶能力。

        4.4 短語知識遷移

        表1 的實(shí)驗(yàn)顯示(見第2.2.3 節(jié)),對于同一種語言,本文的短語感知適應(yīng)性訓(xùn)練會產(chǎn)生一致短語,意味可以將短語知識從教師模型轉(zhuǎn)移到學(xué)生模型。

        從原始NIST 中英訓(xùn)練集中隨機(jī)抽取3 萬、10 萬、25 萬和50 萬數(shù)據(jù)作為訓(xùn)練集。從WMT2014英德任務(wù)的訓(xùn)練集中隨機(jī)抽取10 萬和25 萬作為訓(xùn)練集,并在所有上述6 個訓(xùn)練子集上訓(xùn)練標(biāo)準(zhǔn)Transformer 模型和PAT模型(使 用PAT 方法的Transformer 模型)。

        在相同的配置下訓(xùn)練基于老師模型短語表的PAT(PAT+Teacher)模型,驗(yàn)證翻譯質(zhì)量是否比使用學(xué)生模型短語表的PAT 模型更高。老師模型在原始的125 萬中英任務(wù)上訓(xùn)練。

        表6 所示為各個模型在測試集上的結(jié)果。首先與標(biāo)準(zhǔn)Transformer 相比,PAT 在不同大小的訓(xùn)練集下的BLEU 值都表現(xiàn)出明顯提升,并且隨著訓(xùn)練集大小的增加變得更加明顯。這主要是因?yàn)镹MT 模型由于訓(xùn)練集太小而造成模型的過度擬合,導(dǎo)致生成的短語表質(zhì)量很差。將PAT 與PAT+Teacher 進(jìn)行比較,發(fā)現(xiàn)PAT+Teacher 的翻譯性能優(yōu)于PAT,證明短語知識可以從老師模型遷移到學(xué)生模型來進(jìn)一步提升翻譯質(zhì)量。

        表6 不同規(guī)模訓(xùn)練集上NMT 模型的BLEU值Table 6 BLEU values of NMT models on training sets of different sizes

        5 結(jié)束語

        標(biāo)準(zhǔn)Transformer 模型對訓(xùn)練集中的短語具有較低的翻譯準(zhǔn)確率。為了解決模型對于短語記憶能力差的問題,本文提出短語感知適應(yīng)性訓(xùn)練,訓(xùn)練一個基本的神經(jīng)機(jī)器翻譯模型,根據(jù)模型對每個詞產(chǎn)生的損失來分割短語,并對每個詞在短語中的相對位置分配不同的權(quán)重。此外,為了緩解誤譯的短語對后續(xù)譯文的影響,提出短語丟棄機(jī)制,增加模型對于誤譯的短語的魯棒性。實(shí)驗(yàn)結(jié)果表明,提出方法提高了訓(xùn)練集中短語的翻譯準(zhǔn)確率,此外將老師模型的短語知識遷移到學(xué)生模型可以獲得更高的翻譯質(zhì)量提升。下一步將研究基于短語知識的干預(yù)翻譯,通過將干預(yù)詞限制在短語的第1 個位置來提高翻譯的保真度,另外利用外部短語知識增加模型的短語知識,如通過大量的單語語料來訓(xùn)練一個大的老師模型,將老師模型的短語知識遷移到學(xué)生模型上。

        猜你喜歡
        適應(yīng)性短語損失
        谷子引種適應(yīng)性鑒定與篩選初報(bào)
        少問一句,損失千金
        胖胖損失了多少元
        健全現(xiàn)代金融體系的適應(yīng)性之“點(diǎn)論”
        中國外匯(2019年23期)2019-05-25 07:06:20
        玉米抽穗前倒伏怎么辦?怎么減少損失?
        大型飛機(jī)A380-800在既有跑道起降的適應(yīng)性研究
        一般自由碰撞的最大動能損失
        固有免疫和適應(yīng)性免疫與慢性丙肝的研究進(jìn)展
        亚洲处破女av一区二区| 亚洲av日韩av永久无码色欲| 亚洲国产成人久久一区www妖精 | 国产在线观看视频一区二区三区| 少妇中文字幕乱码亚洲影视| 欧美成人一区二区三区在线观看 | 极品熟妇大蝴蝶20p| 黑人一区二区三区在线| 少妇又紧又爽丰满在线视频| 国产成人无码av| 欧洲熟妇乱xxxxx大屁股7| 日韩精品精品一区二区三区| 国产黑丝美女办公室激情啪啪| 久久国产免费观看精品3| 日本55丰满熟妇厨房伦| 日本精品久久性大片日本| 最新中文字幕日韩精品| 色avav色av爱avav亚洲色拍| 初高中生精品福利视频| 久久精品一区二区三区不卡牛牛| 亚洲天堂成人av在线观看| 少妇被猛男粗大的猛进出| 国产99页| 青青久久精品一本一区人人 | 亚洲AV成人无码国产一区二区| 亚洲色图偷拍自拍亚洲色图| 亚洲人成人无码www| 国产大学生粉嫩无套流白浆| 区无码字幕中文色| 国产91成人精品高潮综合久久| 亚洲av不卡一区二区三区| 欧美成人a在线网站| 水蜜桃在线观看一区二区国产| 超碰人人超碰人人| 亚洲影院天堂中文av色| 我和丰满老女人性销魂| 日本亚洲国产精品久久| 午夜一区欧美二区高清三区| 国产亚洲精品综合在线网址| 国产黄色三级一区二区三区四区| wwww亚洲熟妇久久久久|