亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于提高偽平行句對質(zhì)量的無監(jiān)督領(lǐng)域適應(yīng)機器翻譯*

        2022-12-22 12:01:46肖妮妮段湘煜
        計算機工程與科學(xué) 2022年12期
        關(guān)鍵詞:特征情感方法

        肖妮妮,金 暢,段湘煜

        (蘇州大學(xué)計算機科學(xué)與技術(shù)學(xué)院自然語言處理實驗室,江蘇 蘇州 215006)

        1 引言

        近年來,隨著神經(jīng)機器翻譯NMT(Neural Machine Translation)[1-3]的出現(xiàn),機器翻譯的質(zhì)量得到了進一步的提升,甚至在一些特定領(lǐng)域,機器翻譯幾乎達到了人類翻譯相當(dāng)?shù)乃剑@得益于神經(jīng)機器翻譯基于編碼器-解碼器框架的深度神經(jīng)網(wǎng)絡(luò)設(shè)計和注意力(Attention)[4]機制。相比于傳統(tǒng)的統(tǒng)計機器翻譯SMT(Statistical Machine Translation)[5-9]系統(tǒng),這樣的框架有許多吸引人的特性,例如較少的人工特征和先驗領(lǐng)域知識的需求。但是,盡管神經(jīng)機器翻譯在過去的幾年中取得了飛速的發(fā)展和進步,大多數(shù)神經(jīng)機器翻譯系統(tǒng)仍然存在一個共同的缺點:其性能嚴重依賴高質(zhì)量的內(nèi)領(lǐng)域數(shù)據(jù)。然而,即使在互聯(lián)網(wǎng)高度發(fā)達的今天,在絕大多數(shù)的領(lǐng)域中,通常也難以找到高質(zhì)量、大規(guī)模、覆蓋率廣的平行語料庫,這導(dǎo)致神經(jīng)機器翻譯模型在低資源語言和特定領(lǐng)域上的翻譯效果與大眾對機器翻譯的期望仍然相差甚遠。

        在所有領(lǐng)域中收集大量平行數(shù)據(jù)是很昂貴的,并且在許多情況下是不可能的。因此,有必要探索有效的方法來訓(xùn)練能夠較好地推廣到新領(lǐng)域的模型。為了有效地克服神經(jīng)機器翻譯中的數(shù)據(jù)稀疏和領(lǐng)域多樣性問題,研究人員也探索了很多不同的解決方案。Chu等[10]指出,機器翻譯中領(lǐng)域適應(yīng)主要有2類方法:以數(shù)據(jù)為中心(Data Centric)和以模型為中心(Model Centric)。以模型為中心的方法對模型架構(gòu)進行顯式的改變,例如Britz等[11]提出了聯(lián)合學(xué)習(xí)領(lǐng)域辨別和翻譯2個任務(wù)、Kobus等[12]提出了通過添加標簽和單詞特征進行領(lǐng)域控制等方法來提高模型領(lǐng)域適應(yīng)的能力。但是在許多實際情況下,研究人員是不知道待使用數(shù)據(jù)的來源或背景的,很多文本沒有天然的領(lǐng)域標簽,而且一個句子可能被合理地認為屬于多個領(lǐng)域,因此基于領(lǐng)域區(qū)分的方法存在局限性。以數(shù)據(jù)為中心的方法主要是使用內(nèi)領(lǐng)域和外領(lǐng)域平行數(shù)據(jù)相結(jié)合的方法進行有監(jiān)督領(lǐng)域適應(yīng)[13,14],或者利用內(nèi)領(lǐng)域單語數(shù)據(jù)生成偽平行語料進行無監(jiān)督學(xué)習(xí)[15,16]。其中最具有代表性的策略是使用反向翻譯[15]創(chuàng)建內(nèi)領(lǐng)域目標語句的偽平行語料。然而,盡管反向翻譯方法使用廣泛且有效,其成功的關(guān)鍵在于偽平行數(shù)據(jù)的質(zhì)量,但是它不針對領(lǐng)域或語言提供額外的輔助信息,跨領(lǐng)域的翻譯中不可避免地包含大量噪聲和錯誤,這些將會在迭代反向翻譯的過程中被不斷積累和放大,從而影響到神經(jīng)機器翻譯模型的訓(xùn)練。

        針對這些問題,本文分別從以數(shù)據(jù)為中心和以模型為中心2個角度提出2種簡單有效的優(yōu)化策略。(1)以模型為中心,本文提出了更加合理的預(yù)訓(xùn)練策略,通過加入一個神經(jīng)網(wǎng)絡(luò)輔助模型學(xué)習(xí)外領(lǐng)域數(shù)據(jù)更為通用的文本表示,提高模型的通用性和泛化性,縮小不同領(lǐng)域語言間的差異,使得在翻譯內(nèi)領(lǐng)域句子時譯文質(zhì)量更高,從而在跨領(lǐng)域的差異問題上表現(xiàn)更好。(2)以數(shù)據(jù)為中心,本文通過擴展反向翻譯方法,提出了一種融合情感信息作為數(shù)據(jù)篩選后驗的方法,來提高目標領(lǐng)域單語數(shù)據(jù)反向翻譯譯文的準確性,緩解偽數(shù)據(jù)中的噪聲問題,進一步提升了翻譯質(zhì)量。

        2 相關(guān)工作

        目前,有很多關(guān)于有監(jiān)督領(lǐng)域適應(yīng)的相關(guān)研究,其中的數(shù)據(jù)設(shè)置大多是有大量的外領(lǐng)域平行數(shù)據(jù)和很少量的內(nèi)領(lǐng)域平行數(shù)據(jù)。Luong等[13]提出在外領(lǐng)域語料庫上訓(xùn)練模型,并用小規(guī)模內(nèi)領(lǐng)域平行數(shù)據(jù)進行微調(diào)(Fine-Tuning),以此縮小領(lǐng)域間的差異。Britz等[11]沒有直接將外領(lǐng)域數(shù)據(jù)和內(nèi)領(lǐng)域數(shù)據(jù)進行混合,而是通過聯(lián)合學(xué)習(xí)區(qū)分域任務(wù)和翻譯任務(wù),以此來規(guī)避跨領(lǐng)域問題。Joty等[17,18]通過在外領(lǐng)域平行語料中選擇出與內(nèi)領(lǐng)域語句更接近的語句,并給予更高的權(quán)重,來解決領(lǐng)域適應(yīng)問題。本文提出的方法主要解決完全沒有內(nèi)領(lǐng)域平行語句的領(lǐng)域適應(yīng)問題,這是一個嚴格的無監(jiān)督設(shè)置。

        無監(jiān)督機器翻譯領(lǐng)域適應(yīng)也可以分為以數(shù)據(jù)為中心和以模型為中心2類方法。在先前的工作中,以數(shù)據(jù)為中心的策略吸引了眾多研究人員的關(guān)注,并取得了頗豐的成效。早期以數(shù)據(jù)為中心的研究有Schwenk等[19,20]使用SMT系統(tǒng)翻譯源語言單語句子,并使用合成的偽平行數(shù)據(jù)繼續(xù)訓(xùn)練翻譯系統(tǒng)。近年來最具有代表性且使用廣泛的方法莫過于反向翻譯[15]和基于復(fù)制的方法[16]。在領(lǐng)域適應(yīng)中,反向翻譯是使用外領(lǐng)域的平行數(shù)據(jù)訓(xùn)練基礎(chǔ)的目標語言到源語言的反向翻譯系統(tǒng);然后使用該系統(tǒng)對目標端的單語數(shù)據(jù)進行翻譯,以此構(gòu)建偽平行數(shù)據(jù)?;趶?fù)制的方法是由Currey等[16]提出的,其主要思想是將目標端內(nèi)領(lǐng)域的單語語料復(fù)制一份作為源端數(shù)據(jù),與其構(gòu)成偽平行數(shù)據(jù)。然而,這些方法都沒有考慮語言的特性,在跨領(lǐng)域翻譯時偽平行語料的質(zhì)量堪憂,導(dǎo)致使用偽平行句對微調(diào)后的模型的翻譯結(jié)果仍差強人意。

        以模型為中心的方法側(cè)重于對 NMT 模型架構(gòu)特征進行改進,目前較主流的方向是將語言模型等多任務(wù)學(xué)習(xí)集成到 NMT 模型中。Gulcehre等[21]提出融合語言模型 LM(Language Modeling)和NMT模型,但該方法在推理過程中需要查詢2個模型,效率低且已被證明其效果不如以數(shù)據(jù)為中心的方法。Dou等[22]提出了基于領(lǐng)域感知特征嵌入的無監(jiān)督領(lǐng)域適應(yīng)方法,通過將特定領(lǐng)域的特征嵌入到神經(jīng)機器翻譯編碼端的每一層中,并結(jié)合語言模型進行多任務(wù)學(xué)習(xí)來訓(xùn)練特定領(lǐng)域的特征。這些方法通常需要消耗較多的計算資源和訓(xùn)練時間,參數(shù)龐多而冗余。

        本文結(jié)合模型和數(shù)據(jù)2個方面,致力于更好地處理NMT無監(jiān)督適應(yīng)任務(wù)。具體而言,為了使模型更好地進行領(lǐng)域自適應(yīng),本文設(shè)計了一種新型聯(lián)合訓(xùn)練框架,提出了更加合理的預(yù)訓(xùn)練策略,通過加入一個輔助的特征學(xué)習(xí)網(wǎng)絡(luò),學(xué)習(xí)外領(lǐng)域中更通用的文本抽象信息;同時引入KL(Kullback-Leibler)正則項,使模型的穩(wěn)定性和魯棒性得到增強,以更好地適應(yīng)跨領(lǐng)域間的差異問題。同時,結(jié)合語句的情感特征進行后驗篩選,利用情感信息對偽訓(xùn)練數(shù)據(jù)進行降噪,幫助訓(xùn)練神經(jīng)機器翻譯模型,使模型在目標領(lǐng)域的翻譯性能得以優(yōu)化。本文方法充分利用了外領(lǐng)域的平行數(shù)據(jù)和目標領(lǐng)域的單語數(shù)據(jù),且提出的基于數(shù)據(jù)的方法不依賴于具體的模型架構(gòu),這使得本文提出的2種改進策略是正交的,可以相互結(jié)合進一步提高翻譯的效果。

        3 基準模型

        Transformer模型架構(gòu)是由Vaswani等[4]首先提出的,屬于編碼器-解碼器結(jié)構(gòu),完全基于注意力機制進行序列建模。它是機器翻譯中最成功且典型的NMT系統(tǒng)之一,同時具有代表性和一般性。

        Transformer的編碼器端和解碼器端分別是由N層(N默認為6)相同的網(wǎng)絡(luò)層組成。編碼器端的每一層都包含2個子層:多頭自注意力層和全連接的前饋網(wǎng)絡(luò)層,對每一個子層的輸出都進行殘差連接(Residual Connection)[23],然后是層正則化(Layer Normalization)[24]處理。因此,每一個子層的輸出可以表達為layernorm(x+sublayer(x)),其中,layernorm(*)表示層正則化函數(shù)的輸出,sublayer(x)表示子層的輸出,x表示當(dāng)前子層輸入的隱藏層狀態(tài)。相同地,解碼器也堆疊N層相同的網(wǎng)絡(luò)層,同樣包含自注意力子層、前饋網(wǎng)絡(luò)、殘差連接及層正則化模塊,此外解碼器又引入編碼-解碼注意力,該子層用于對編碼器最后一層的輸出進行注意力權(quán)重計算。

        Transformer模型采用的注意力機制為多頭注意力機制,即是將所有查詢(Query)構(gòu)成的矩陣Q、所有鍵值(Key)構(gòu)成的矩陣K和所有值(Values)構(gòu)成的矩陣V按照嵌入維度切分為h個注意力頭(h默認為8),分別計算每個頭的注意力結(jié)果,計算公式如式(1)和式(2)所示。最后把每一個注意力頭產(chǎn)生的輸出再進行拼接,計算公式如式(3)所示,通過多頭注意力機制可以獲得多個視角空間的不同表征信息。

        (1)

        (2)

        MultiHead=Concat(head1,…,headh)Wo

        (3)

        Transformer中使用 Adam[25]作為優(yōu)化器,使用添加平滑標簽的交叉熵[26]作為損失函數(shù),通過最小化損失函數(shù),使得模型的輸出概率分布更接近于真實值。

        4 提高偽平行句對質(zhì)量方法

        由于各個領(lǐng)域的表達風(fēng)格和語言特點有差異,如何讓神經(jīng)網(wǎng)絡(luò)翻譯模型在領(lǐng)域間更好地自適應(yīng)是一個關(guān)鍵問題。無監(jiān)督領(lǐng)域適應(yīng)方法通過使用目標領(lǐng)域的單語數(shù)據(jù)構(gòu)建偽平行語料訓(xùn)練模型,該方法因具有較少的局限性而得到廣泛應(yīng)用,但偽數(shù)據(jù)質(zhì)量較差,導(dǎo)致實際學(xué)習(xí)到的模型效果仍不理想。本文在Transformer的基礎(chǔ)上,添加一個神經(jīng)網(wǎng)絡(luò)獲取語言中更豐富的表征信息,并引入KL散度正則項增強信息的一致性,使得模型的魯棒性得到提升,同時提高內(nèi)領(lǐng)域翻譯的準確性。隨后使用情感信息作為數(shù)據(jù)后驗篩選,進一步提高偽平行語料的質(zhì)量,改善模型的翻譯效果。

        4.1 加入特征學(xué)習(xí)網(wǎng)絡(luò)

        本文在Transformer基礎(chǔ)上加入了一個新的網(wǎng)絡(luò)模塊,對基礎(chǔ)模型中源端和目標端的網(wǎng)絡(luò)隱藏狀態(tài)采用加入的特征學(xué)習(xí)網(wǎng)絡(luò)進一步提取文本特征,學(xué)習(xí)到更為通用的抽象信息,在模型學(xué)習(xí)其他基礎(chǔ)文本信息的同時與之相結(jié)合,提高模型的泛化能力,為模型更好地學(xué)習(xí)提供支持。

        與此同時,所提取出的源端和目標端的抽象特征通過Softmax層后分別得到其概率分布,再在模型的損失函數(shù)中加入KL正則項計算,這樣可以增加源端和目標端特征概率分布的一致性,拉近雙語語義特征相似度,使得模型的魯棒性和泛化能力得以提高,從而在面對跨領(lǐng)域的差異問題時可以有更好的表現(xiàn)。改進后的模型結(jié)構(gòu)如圖1所示。

        Figure 1 Overall structure of the improved model

        具體來說,給定源端序列X=(x1,…,xTx),Tx為源端序列長度,源端序列經(jīng)過編碼器可以被編碼為H=(h1,…,hTx),hi表示源端第i個詞對應(yīng)的嵌入向量。同樣地,目標端序列Y=(y1,…,yTy),Ty為目標序列長度,目標端序列經(jīng)過解碼器后可以表達為Z=(z1,…,zTy),zi表示目標端第i個詞對應(yīng)的嵌入向量。通過編碼后,每個隱藏狀態(tài)都包含了整句中上下文的相關(guān)信息,本文采用平均池化將每個句子的隱藏狀態(tài)轉(zhuǎn)換成一個固定長度的嵌入向量,再共享一個線性網(wǎng)絡(luò)層來映射此嵌入向量,得到更為抽象的特征向量,所獲取的源句和目標句的特征向量分別記作hout和zout,如式(4)和式(5)所示:

        (4)

        (5)

        其中,W、b是所添加的特征學(xué)習(xí)網(wǎng)絡(luò)的參數(shù),在訓(xùn)練過程中不斷學(xué)習(xí)優(yōu)化。

        在引入KL散度計算后,模型的訓(xùn)練目標表達如式(6)所示:

        (6)

        其中,第1項是標準的訓(xùn)練雙語數(shù)據(jù)的目標函數(shù),第2項是本文引入的提升模型魯棒性的正則項,θ是模型中的所有參數(shù)。具體計算公式如式(7)~式(9)所示:

        lossKL=KL(S(x)‖T(y))=

        EX~S(x),Y~T(y)(logS(x)-logT(y))

        (7)

        S(x)=softmax(hout)

        (8)

        T(y)=softmax(zout)

        (9)

        其中,S(x)是源端經(jīng)過特征提取的概率分布,T(y)代表目標端的概率分布,hout是表征源句的特征隱藏狀態(tài)向量,zout是代表目標句的特征隱藏狀態(tài)向量。計算二者的KL散度的意義就是希望源端的分布可以向理想的目標端靠攏,最終通過并行融合的方式提升模型的訓(xùn)練效果,增強模型的穩(wěn)定性和泛化力。

        4.2 情感特征后驗篩選

        語言通常同時帶有2種不同類型的信息:顯性的語義信息和副隱性的情緒信息?;A(chǔ)Transformer模型缺少對語言情感表征的挖掘,而關(guān)注語言中的情感信息可以為模型更好地學(xué)習(xí)提供支持。在現(xiàn)有的基礎(chǔ)模型中,有很多翻譯的結(jié)果與源句意思大相徑庭,這樣的翻譯必然是難以接受的。產(chǎn)生此現(xiàn)象的一大原因是句子的情感傾向相差甚遠,如表1所示。

        Table 1 Example of translation

        受此啟發(fā),本文使用情感信息作為數(shù)據(jù)后驗篩選,以提高回譯數(shù)據(jù)的質(zhì)量,進一步改善翻譯效果。具體來說,本文使用情感分析對偽平行的源句和目標句進行情感傾向打分,當(dāng)源句與目標句的情感傾向差距較大時認為是翻譯質(zhì)量差的語句,從而不使用該句進行訓(xùn)練,避免錯誤在訓(xùn)練過程中被不斷積累和放大,緩解偽數(shù)據(jù)中的噪聲問題。

        算法1針對無監(jiān)督神經(jīng)機器翻譯的領(lǐng)域適應(yīng)算法

        輸出:神經(jīng)機器翻譯的參數(shù)模型Mx→y,My→x。

        步驟1procedure 預(yù)訓(xùn)練

        步驟2分別用隨機參數(shù)θx→y和θy→x初始化翻譯模型Mx→y和My→x;

        步驟4end procedure

        步驟5procedure 領(lǐng)域適應(yīng)

        步驟8用情感分類器分別對X′和Y′進行篩選;

        步驟9將篩選后的Y′與外領(lǐng)域平行語料D進行混合來微調(diào)模型Mx→y;

        步驟10將篩選后的X′與外領(lǐng)域平行語料D進行混合來微調(diào)模型My→x;

        步驟11end procedure

        5 實驗與結(jié)果分析

        5.1 數(shù)據(jù)集

        基礎(chǔ)的源語言到目標語言和目標語言到源語言的翻譯系統(tǒng)使用的訓(xùn)練數(shù)據(jù)集是從 LDC(Linguistic Data Consortium)里抽取的125萬句中英平行語句對,測試集是采用美國國家標準與技術(shù)研究院2002年的數(shù)據(jù)集NIST02、NIST03、NIST04、NIST05和NIST08,驗證集是NIST06。內(nèi)領(lǐng)域單語數(shù)據(jù)選擇中英的TED2020數(shù)據(jù),包含39.9萬個語句,本文將其劃分為包含39.3萬句的訓(xùn)練集(分別當(dāng)作單語使用),以及分別包含3 000句的測試集和3 000句的驗證集。對所有的中英語料,都分別進行了BPE(Byte Pair Encoding)[27]編碼處理,BPE長度為32 000次合并操作,中文詞表長度為4.2萬,英文詞表長度為3.1萬,使用“〈UNK〉”對不在詞表中的低頻詞進行替換。

        5.2 實驗設(shè)置

        基準模型采用開源代碼 Fairseq[28]實現(xiàn),將模型設(shè)置為Transformer,編碼器和解碼器層數(shù)均設(shè)置為6,每層中模塊的輸出維度和詞嵌入向量的維度均設(shè)置為 512,神經(jīng)元的隨機失活率dropout設(shè)置為 0.3,學(xué)習(xí)率設(shè)置為0.000 5,注意力層中多頭注意力機制的頭數(shù)設(shè)置為 8,所有的實驗均使用了標簽平滑且值為0.1,全采用Adam優(yōu)化器和逆平方根學(xué)習(xí)率優(yōu)化,在解碼時采用波束搜索(Beam Search)的解碼方式,搜索寬度設(shè)置為5,其他未提及的基本超參數(shù)均與文獻[4]的默認參數(shù)選項相同。所有實驗均保持相同的參數(shù)設(shè)置,所加入的KL項中超參數(shù)均默認為1,模型的訓(xùn)練和測試均基于NVIDIA GeForce GTX 1080Ti GPU。關(guān)于數(shù)據(jù)后驗篩選,本文基于Stanford(https:github.com/stanfordnlp/CoreNLP)提供的情感分析工具獲取句子的情感傾向。

        由于該方法涉及到源語言到目標語言和目標語言到源語言2個翻譯方向的模型,因此實驗表格將會同時報告這2個模型的實驗結(jié)果。在所有實驗中,使用BLEU作為翻譯質(zhì)量的評測指標,并使用multi-bleu.perl(https://github.com/mo-ses-smt/mosesdecoder/blob/master/scripts/ge-neric/multi-bleu.perl)腳本進行評測。

        5.3 實驗結(jié)果與分析

        5.3.1 模型改進方法結(jié)果分析

        表2中列出了在新聞領(lǐng)域 LDC 平行數(shù)據(jù)集上基準模型和本文改進模型的實驗結(jié)果比較?!盎鶞誓P汀笔潜疚牡?節(jié)所介紹的基礎(chǔ)Transformer,使用LDC數(shù)據(jù)訓(xùn)練得到;“加入特征學(xué)習(xí)網(wǎng)絡(luò)模型”是依據(jù)本文4.1節(jié)方法對基礎(chǔ)模型進行了改進所訓(xùn)練的。對于每個測試集,中-英方向包含 4 個參考譯文,英-中方向只有 1 個參考譯文。

        根據(jù)表2可知,在中-英和英-中2個方向上,翻譯質(zhì)量在各個測試集上均有不同程度的提升,中-英和英-中方向的平均BLEU分數(shù)分別提升了0.62和0.51,這表明增強源端和目標端的概率分布的一致性,學(xué)習(xí)語義中更通用抽象的特征有利于提高模型的泛化能力,改善翻譯模型的性能。

        5.3.2 數(shù)據(jù)后驗篩選方法結(jié)果分析

        為了驗證本文提出的基于情感信息的數(shù)據(jù)后驗篩選的有效性,在實驗中與不使用情感后驗篩選的方法進行對比。反向翻譯方法已被證明是一種非常有效、穩(wěn)定的數(shù)據(jù)增強策略,能夠充分開發(fā)目標語言的單語語料。本文把反向翻譯方法應(yīng)用到領(lǐng)域適應(yīng)中,并作為強基線來驗證本文改進模型的有效性。在反向翻譯的對內(nèi)領(lǐng)域的偽平行數(shù)據(jù)和外領(lǐng)域的真實平行語料的拼接實驗中,混合比例遵循文獻[15]的結(jié)論,使用數(shù)據(jù)比例為1∶1的混合策略。實驗結(jié)果如表3所示。

        Table 2 BLEU scores of different models on LDC dataset

        Table 3 Comparsion with other models in TED field

        表3中,“基準模型”是使用外領(lǐng)域平行語料訓(xùn)練的基礎(chǔ)Transformer模型,直接對內(nèi)領(lǐng)域語料進行翻譯;“反向翻譯”是Sennrich等[15]提出的利用單語語料的方法,在基礎(chǔ)模型上使用內(nèi)領(lǐng)域偽平行語料進行微調(diào),目標端是真實數(shù)據(jù),源端是偽數(shù)據(jù)。

        “基于情感后驗篩選”是本文提出的方法??梢钥闯觯褂们楦泻篁灪Y選的確可以改善翻譯模型的性能,在2個語言方向上都有一定程度的提升。相比未經(jīng)過篩選的39萬對訓(xùn)練數(shù)據(jù),利用經(jīng)過情感后驗篩選得到的15萬對訓(xùn)練數(shù)據(jù)進行訓(xùn)練的效果更好,這表明挖掘并利用語句的情感信息能夠有效地去除偽數(shù)據(jù)中質(zhì)量過差的翻譯,從而降低噪聲,幫助模型更好地訓(xùn)練。

        5.3.3 綜合策略實驗結(jié)果分析

        最后綜合本文提出的以模型為中心和以數(shù)據(jù)為中心這2個方面的方法,與基礎(chǔ)模型和其他模型進行實驗對比,結(jié)果如表4所示。“基準預(yù)訓(xùn)練模型”即表3中的基準模型;“加入特征網(wǎng)絡(luò)預(yù)訓(xùn)練模型”是使用本文提出的以模型為中心方法所改進訓(xùn)練的模型,也即表2 中加入特征網(wǎng)絡(luò)學(xué)習(xí)的模型;“加入特征網(wǎng)絡(luò)預(yù)訓(xùn)練+反向翻譯”是在本文改進的模型基礎(chǔ)上使用基礎(chǔ)反向翻譯的方法;“加入特征網(wǎng)絡(luò)預(yù)訓(xùn)練+情感篩選”是按照算法1,將本文以模型為中心和以數(shù)據(jù)為中心的方法融合在一起。

        Table 4 BLEU scores of different models in TED field

        從表4中可以看出,加入了特征學(xué)習(xí)網(wǎng)絡(luò)的預(yù)訓(xùn)練模型在中-英方向比基礎(chǔ)模型的BLEU分數(shù)提高了1.32,在此基礎(chǔ)上使用反向翻譯的方法也比在基礎(chǔ)模型上反向翻譯的BLEU值提升了1.06。在模型改進的基礎(chǔ)上,結(jié)合情感后驗篩選,使模型不僅在預(yù)訓(xùn)練階段獲得了更好的泛化能力,同時在反向翻譯中的偽數(shù)據(jù)質(zhì)量也得到了進一步改善。

        結(jié)合表3和表4可以看出,本文方法的最終效果比基線系統(tǒng)在中-英和英-中上BLEU值分別提升了4.42和4.09;與強基線反向翻譯相比,BLEU值分別提升了1.25和 1.38??梢?,本文方法相比于其他方法獲得了較大的提升,有效地提高了模型領(lǐng)域自適應(yīng)能力,改善了在目標領(lǐng)域的翻譯性能。

        5.4 案例研究

        為了進一步證明本文方法的有效性,從內(nèi)領(lǐng)域測試集的翻譯結(jié)果中選擇了一些案例,比較不同訓(xùn)練方法的模型所產(chǎn)生的翻譯結(jié)果,如表5所示。

        Table 5 Cases of translation results from TED test

        從表5可以看出,基礎(chǔ)模型對跨領(lǐng)域的翻譯效果欠佳,其用詞、語言風(fēng)格與目標相差甚遠,并且存在錯翻、漏翻的情況。經(jīng)過反向翻譯后,可以看出,相比基礎(chǔ)模型結(jié)果有所進步,但其效果仍不夠理想。案例中的第1句,關(guān)于“對于彼此的認知”,本文方法翻譯為“our perception of each other”,翻譯準確無誤且與參考譯文完全相符。案例中的第2句,對于基礎(chǔ)模型漏掉的“生存”,反向翻譯譯為“存活”且存在語序不當(dāng)?shù)膯栴},而本文方法可以有效地糾正這些錯誤,將“生存”準確地翻譯出來了且語義合理。這表明使用本文方法更有益于提升翻譯質(zhì)量。

        6 結(jié)束語

        對于NMT任務(wù)中的領(lǐng)域適應(yīng)任務(wù),本文從以模型為中心和以數(shù)據(jù)為中心2個方面提出了簡單而有效的無監(jiān)督領(lǐng)域適應(yīng)方法。通過更加合理地預(yù)訓(xùn)練策略來學(xué)習(xí)外領(lǐng)域數(shù)據(jù)更通用的文本特征表示,從而在增強模型的泛化力的同時提高了生成的偽平行數(shù)據(jù)質(zhì)量,輔助后序工作更好地進行領(lǐng)域適應(yīng)。再從數(shù)據(jù)方面,結(jié)合情感信息對數(shù)據(jù)進行后驗篩選,進一步提高反向翻譯譯文的質(zhì)量。實驗結(jié)果表明,本文方法能夠有效提升模型的泛化能力,改善跨領(lǐng)域的翻譯質(zhì)量。在未來的工作中,將進一步挖掘利用文本的情感信息和其他自然語言處理方法,探索更加復(fù)雜的聯(lián)合方式,以進一步提升翻譯模型在領(lǐng)域適應(yīng)的效果。

        猜你喜歡
        特征情感方法
        如何在情感中自我成長,保持獨立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        如何表達“特征”
        情感
        不忠誠的四個特征
        如何在情感中自我成長,保持獨立
        抓住特征巧觀察
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        亚洲欧洲精品成人久久曰不卡| 亚洲中字幕日产av片在线| 97碰碰碰人妻无码视频| 国产乱人伦av在线a| 亚洲线精品一区二区三区八戒| av资源在线永久免费观看| 国产日产久久高清ww| 成年女人免费视频播放体验区| 国内精品久久久久久久久齐齐| 国产精品美女一级在线观看| 白白色最新福利视频二| 中文字幕人成乱码熟女| 国产大学生粉嫩无套流白浆| 91青草久久久久久清纯| 日本免费影片一区二区| 亚洲爆乳精品无码一区二区三区| 欧美第一黄网免费网站| 日韩激情网| 九九精品国产亚洲av日韩| 艳z门照片无码av| 色综合久久久久久久久五月| 一本色道久久综合中文字幕| 久久精品国产亚洲av影院毛片| 少妇高潮一区二区三区99| 久久精品国产精品亚洲毛片| 久久成人黄色免费网站| 国产麻豆久久av入口| 朝鲜女人大白屁股ass| 欧美在线a| 国产av自拍在线观看| 亚洲综合天堂av网站在线观看| 亚洲精品国产av成拍色拍| 国产人成无码视频在线1000| 国产黄色一区二区在线看 | 国产欧美日韩午夜在线观看| 日本大片在线一区二区三区| 2021亚洲国产精品无码| 欧美性猛交xxxx黑人猛交| 中文一区二区三区无码视频| 水蜜桃在线精品视频网| 亚洲av高清在线一区二区三区 |