亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于回譯和比例抽取孿生網(wǎng)絡(luò)篩選的漢越平行語料擴(kuò)充方法*

        2022-10-28 01:22:08王可超郭軍軍張亞飛高盛祥余正濤
        計算機(jī)工程與科學(xué) 2022年10期
        關(guān)鍵詞:語料平行雙語

        王可超,郭軍軍,2,張亞飛,2,高盛祥,2,余正濤,2

        (1.昆明理工大學(xué)信息工程與自動化學(xué)院,云南 昆明 650500;2.昆明理工大學(xué)云南省人工智能重點實驗室,云南 昆明 650500)

        1 引言

        神經(jīng)機(jī)器翻譯NMT(Neural Machine Translation)[1,2]是自然語言處理領(lǐng)域的研究熱點。相較于已經(jīng)取得極大進(jìn)步的資源豐富型神經(jīng)機(jī)器翻譯,低資源神經(jīng)機(jī)器翻譯由于缺少高質(zhì)量的雙語語料,效果并不理想。因此,如何高效地擴(kuò)充語料規(guī)模,成為低資源神經(jīng)機(jī)器翻譯研究中亟需解決的問題。針對此問題,研究人員提出了多種數(shù)據(jù)增強(qiáng)方法,通過有限的語料資源擴(kuò)充雙語語料規(guī)模。早期的工作主要利用人工的方式進(jìn)行語料擴(kuò)充,但效率較低。近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,利用深度學(xué)習(xí)方法來擴(kuò)充雙語語料成為有效途徑?;谏疃葘W(xué)習(xí)的數(shù)據(jù)增強(qiáng)方法主要分為生成式和抽取式。生成式數(shù)據(jù)增強(qiáng)方法包括:回譯(back-translation),將目標(biāo)端的單語語料通過反向翻譯模型擴(kuò)充為偽平行雙語語料;詞或單元的替換,通過各種手段替換句子中部分單元(詞或短語)來擴(kuò)充語料;加入樞軸語言,充分利用源-樞軸-目標(biāo)語言間豐富的對齊語料來提升源-目標(biāo)語言對的機(jī)器翻譯性能。抽取式數(shù)據(jù)增強(qiáng)方法主要通過計算跨語言語義相似度,從可比語料(篇章對齊)中抽出偽平行語料。通過這幾種方法,可以大規(guī)模擴(kuò)充雙語語料庫的規(guī)模。

        漢語-越南語作為典型的低資源語言對,其平行語料獲取難度很大。傳統(tǒng)的回譯方法中,首先基于小規(guī)模平行語料訓(xùn)練基礎(chǔ)翻譯模型,在此基礎(chǔ)上將越南語翻譯為對應(yīng)的漢語句子、組合成新語料再次投入訓(xùn)練。但是,由于用于訓(xùn)練基礎(chǔ)翻譯模型的平行語料規(guī)模和質(zhì)量欠佳,造成基礎(chǔ)翻譯模型訓(xùn)練并不充分,若只是直接在該模型上通過回譯方法進(jìn)行語料擴(kuò)充,得到的偽平行語料會含有過多的噪聲,如表1所示。

        Table 1 Comparison between back-translation generated translation and standard translation

        表1中通過回譯得到的漢語譯文偏離了原句的意思,且有明顯的語義邏輯錯誤,若要構(gòu)建用于訓(xùn)練機(jī)器翻譯模型的雙語語料庫,必須要過濾掉這種句對。本文將回譯和偽平行句對抽取的方法相結(jié)合,通過計算跨語言句對間的語義相似度,對生成的語料進(jìn)行篩選,以獲得高質(zhì)量雙語語料。具體來說,本文首先利用回譯的方法,將大規(guī)模的單語語料擴(kuò)充為偽平行語料;然后結(jié)合回譯數(shù)據(jù)的特點,對傳統(tǒng)基于雙向長短時記憶Bi-LSTM(Bidirectional Long Short-Term Memory)孿生網(wǎng)絡(luò)的句對抽取模型進(jìn)行了改進(jìn),改進(jìn)后的模型將平行語料和偽平行語料混合后對模型進(jìn)行訓(xùn)練,使模型能更好地分辨平行句與偽平行句,從而抽取出質(zhì)量更高的偽平行句,以構(gòu)建用于漢越神經(jīng)機(jī)器翻譯的語料庫。

        2 相關(guān)工作

        神經(jīng)機(jī)器翻譯是目前機(jī)器翻譯領(lǐng)域內(nèi)最熱門的研究方法,在資源充足的語言對翻譯上,神經(jīng)機(jī)器翻譯的性能已經(jīng)明顯超過了統(tǒng)計機(jī)器翻譯[3],但在低資源神經(jīng)機(jī)器翻譯上,神經(jīng)機(jī)器翻譯的效果還有待提升[4]。用來訓(xùn)練低資源神經(jīng)機(jī)器翻譯模型的平行語料相對較少,導(dǎo)致翻譯效果欠佳,因此如何獲取高質(zhì)量的雙語語料,成為提高低資源神經(jīng)機(jī)器翻譯的一種關(guān)鍵性技術(shù)。近年來,國內(nèi)外相關(guān)研究人員針對低資源語種的偽平行語料擴(kuò)充方法進(jìn)行了廣泛研究,并取得了一系列成果。

        目前應(yīng)用最廣泛的語料擴(kuò)充方法是回譯。它利用反向的翻譯模型,將目標(biāo)端語言的數(shù)據(jù)翻譯成源端語言的數(shù)據(jù),通過這一方法來構(gòu)造偽平行雙語數(shù)據(jù)來訓(xùn)練正向翻譯模型?;刈g最早是由Sennrich[5]等提出的,文中提出了2種方式來比較回譯的性能。第1種方法在只有目標(biāo)語言句子y的前提下,將源語言對應(yīng)的句子設(shè)置為空,將句對(dummy,y)將其加入到平行語料中進(jìn)行訓(xùn)練,可以看成是翻譯模型和語言模型多任務(wù)訓(xùn)練;第2種方式為回譯,用訓(xùn)練好的目標(biāo)語言到源語言的翻譯模型翻譯目標(biāo)語言句子y,得到偽平行句對(x′,y),將其加入到平行句對中一起訓(xùn)練。因為y是高質(zhì)量的單語語句,而x′中可能包含一些〈UNK〉字符或者錯誤的句法等,其質(zhì)量較差。這樣訓(xùn)練可以想象成去噪聲形式的訓(xùn)練。在有噪聲的情況下,訓(xùn)練x(源語言)→y(目標(biāo)語言)方向的翻譯模型盡量還能翻譯好,以此提升泛化性能?;刈g已經(jīng)有了越來越多的擴(kuò)展方法。He等[6]提出了對偶學(xué)習(xí)的方法,將回譯擴(kuò)展為在2個翻譯方向上訓(xùn)練NMT系統(tǒng),利用源語言與目標(biāo)語言的單語數(shù)據(jù)來同時提升2個方向的翻譯模型;Hoang等[7]提出了迭代回譯的思想,通過使用回譯的數(shù)據(jù)構(gòu)建更好的翻譯模型,再使用這個更好的翻譯模型對數(shù)據(jù)進(jìn)行回譯,重復(fù)此過程以達(dá)到迭代的效果。數(shù)據(jù)增強(qiáng)的方法還有詞或單元的替換。比如2017年Fadaee等[8]提出了一種增強(qiáng)語料的方法,首先在規(guī)模較大的單語語料上訓(xùn)練出語言模型,然后用語言模型找到句子中可以被低頻詞替換的高頻詞的位置并完成替換。通過這種單詞替換,增加了訓(xùn)練語料中低頻詞出現(xiàn)的次數(shù),從而增強(qiáng)神經(jīng)機(jī)器翻譯對低頻詞的理解能力。而蔡子龍等[9]將句子中最相似的單元進(jìn)行位置上的對調(diào),以此形成新的語料,改變的是語料中句子的結(jié)構(gòu)信息而非語料中的詞頻信息。此外,Wei等[10]提出了隨機(jī)替換、隨機(jī)插入、隨機(jī)交換和隨機(jī)刪除的方法,為低資源神經(jīng)機(jī)器翻譯的數(shù)據(jù)增強(qiáng)技術(shù)開拓了新的思路,也提升了低資源NMT的性能。還有一種增強(qiáng)方法是加入樞軸語言。此類方法通過引入大語種豐富的對齊語料作為樞軸語言來充分提升小語種神經(jīng)機(jī)器翻譯的性能。Ren等[11]提出,在大語種之間的翻譯過程中將小語種作為中間隱變量引入,將該翻譯過程拆分為兩個經(jīng)由小語種的翻譯過程,如X、Y為兩個大語種,它們之間有大量雙語數(shù)據(jù),Z作為小語種,它和X、Y之間均只有少量雙語數(shù)據(jù),為了提升X→Z和Y→Z的翻譯性能,可以用此方法來進(jìn)行優(yōu)化。

        在抽取式語料擴(kuò)充方法的研究中,Cristina等[12]研究了從NMT系統(tǒng)編碼器獲得的句子表示中檢測新的平行句對,通過比較余弦相似度來進(jìn)行平行句和非平行句的區(qū)分。Grover等[13]提出了一種利用連續(xù)向量表示的方法,在使用Luong等[14]提出的雙語詞嵌入模型學(xué)習(xí)單詞表示后,再使用相似矩陣上的卷積神經(jīng)網(wǎng)絡(luò)對一對句子是否對齊進(jìn)行分類。而Grégoire等[15]使用單一端到端模型估計可比語料中2個句子平行的條件概率分布,取得了更好的效果。

        對漢越語言對來說,回譯能夠快速而有效地擴(kuò)充漢越平行語料規(guī)模,然而,單獨使用回譯方法生成的偽平行語料質(zhì)量較差,在實際應(yīng)用中難以用于下游任務(wù),若直接用于訓(xùn)練翻譯模型,可能會降低翻譯系統(tǒng)的性能[16]。針對此問題,本文結(jié)合回譯和平行句對抽取方法對數(shù)據(jù)進(jìn)行擴(kuò)充和清洗。之前工作中,由于大多數(shù)句對抽取方法是針對可比語料特點進(jìn)行訓(xùn)練的,所以本文在此基礎(chǔ)上結(jié)合回譯數(shù)據(jù)的特點對句對抽取方法進(jìn)行了改進(jìn),使其可以對偽平行語料進(jìn)行更有效的篩選。本文方法將偽平行語料與平行語料進(jìn)行混合,用于訓(xùn)練句對抽取模型,以提升模型抽取出的平行句對的比例,使其能夠分辨出平行句對與偽平行句對,進(jìn)而從回譯生成的偽平行語料中篩選出高質(zhì)量的偽平行句對。

        3 基于回譯和比例抽取孿生網(wǎng)絡(luò)篩選的偽平行句對抽取方法

        3.1 整體框架

        本文方法首先利用回譯的基本思想,將大規(guī)模的越南語單語數(shù)據(jù)利用基礎(chǔ)翻譯模型翻譯得到漢越偽平行雙語數(shù)據(jù)。但是,由于漢越平行語料規(guī)模有限,訓(xùn)練得到的基礎(chǔ)翻譯模型(翻譯方向:越→漢)性能一般,進(jìn)而導(dǎo)致擴(kuò)充的偽平行語料中部分句對質(zhì)量不佳,無法更有效地推進(jìn)后續(xù)工作。本文通過混合小規(guī)模平行語料和回譯生成的大規(guī)模偽平行語料,訓(xùn)練一個基于比例抽取的Bi-LSTM孿生網(wǎng)絡(luò),使得該網(wǎng)絡(luò)可以識別出混合語料中的平行句對。該句對抽取模型通過孿生網(wǎng)絡(luò)將漢越句對映射到同一語義空間下,計算句對之間的語義相似度,并按相似度得分從高到低排列句對,取出相似度高于設(shè)定閾值的句對。在訓(xùn)練過程中,將平行句對和偽平行句對混合,并加標(biāo)簽區(qū)分,通過最大化抽取出的平行句對與抽取前平行句對的比值來訓(xùn)練模型,使得模型經(jīng)過訓(xùn)練后,可以精確地識別原始平行句對。具體而言,抽取的句對結(jié)果中,平行句對優(yōu)先排序,緊接其后的為最接近平行句對的偽平行句對,最后為質(zhì)量較差的偽平行句對。因此模型在具有識別原始平行句對能力的同時,也能從混合語料中抽取出高質(zhì)量的偽平行句對,以達(dá)到對偽平行數(shù)據(jù)進(jìn)行篩選的目的。整體的框架如圖1所示。其中,D′1指抽取出的原始平行句對,count(D′1)表示抽取出的原始行句對的數(shù)量;count(D1)表示總的原始平行句對的數(shù)量。

        3.2 基于回譯的偽平行句對生成

        3.3 基于比例抽取的Bi-LSTM孿生網(wǎng)絡(luò)平行句對抽取方法

        基于回譯的方法將大規(guī)模的目標(biāo)端單語數(shù)據(jù)擴(kuò)充為偽平行數(shù)據(jù)后,還需要進(jìn)行數(shù)據(jù)篩選的工作。本文使用一個基于比例抽取的Bi-LSTM孿生網(wǎng)絡(luò)來實現(xiàn)數(shù)據(jù)篩選任務(wù)。

        Bi-LSTM通過學(xué)習(xí)句對之間的跨語言語義來估計它們互為翻譯的可能性。該句子抽取模型使用共享權(quán)值的孿生網(wǎng)絡(luò)[17],利用雙向LSTM[18,19]句子編碼器將句子在共享向量空間中進(jìn)行連續(xù)的向量表示,然后源句和目標(biāo)句的表示被輸入到一個帶Sigmoid輸出層的前饋神經(jīng)網(wǎng)絡(luò)中,計算它們?yōu)槠叫芯鋵Φ臈l件概率,將相似度高于設(shè)定閾值的句對抽取出來。

        3.3.1 語句編碼

        (1)

        (2)

        (3)

        (4)

        3.3.2 句對信息匹配

        對源語句和目標(biāo)語句進(jìn)行編碼之后,通過使用它們的元素乘積和元素差異的絕對值來量化源語句和目標(biāo)語句之間的匹配信息,得到匹配向量,如式(5)和式(6)所示:

        (5)

        (6)

        通過將匹配向量饋送到具有Sigmoid輸出層的前饋神經(jīng)網(wǎng)絡(luò)來估計句子平行的條件概率,如式(7)和式(8)所示:

        (7)

        p(yi=1|hi)=σ(vhi+b)

        (8)

        其中,σ(·)是Sigmoid函數(shù),W(1)∈Rdf×dh,W(2)∈Rdf×dh,v∈Rdf,b1∈Rdf,b是模型參數(shù),p(yi=1)表示第i個句對平行的概率,df是前饋神經(jīng)網(wǎng)絡(luò)隱藏層的大小。通過最小化句對的交叉熵?fù)p失來訓(xùn)練模型,如式(9)所示:

        (1-yi)log(1-σ(vhi+b)))

        (9)

        如果句對的概率大于或等于決策閾值ρ,則將其分類為平行,否則為不平行,如式(10)所示:

        (10)

        其中n和m分別表示源泉語句和目標(biāo)語句的個數(shù)。

        將句子平行的條件概率作為句對之間的相似度,然后對該相似度進(jìn)行從高到低排列,抽取出大于設(shè)定閾值的句對,用于訓(xùn)練一個能抽取出較高質(zhì)量偽平行句對的句對抽取模型。

        3.3.3 基于比例的損失函數(shù)改進(jìn)

        傳統(tǒng)基于Bi-LSTM孿生網(wǎng)絡(luò)篩選偽平行句對的方法是在可比語料上實現(xiàn)的,而本文是對回譯生成的大規(guī)模偽平行語料進(jìn)行篩選,所以本文方法在結(jié)合回譯語料的基礎(chǔ)上,對傳統(tǒng)基于Bi-LSTM孿生網(wǎng)絡(luò)方法做了一定的改進(jìn)。

        在模型訓(xùn)練階段,本文方法不再用平行語料和隨機(jī)生成負(fù)例來訓(xùn)練模型,而是將平行句對與偽平行句對按比例混合來訓(xùn)練模型,目的是使模型更好地識別出原始平行句對,在抽取過程中盡可能多地將原始平行句對抽取出來,如式(11)所示:

        (11)

        通過最大化count(D′1)和count(D1)的比例,使得訓(xùn)練后的模型可以從混合語料中精準(zhǔn)地識別并抽取出原始平行句對。

        為了使平行句對抽取比例對模型產(chǎn)生積極的影響,本文定義了另外一個損失函數(shù),如式(12)所示:

        (12)

        最終的損失函數(shù)由L1和L2共同決定,如式(13)所示:

        L=λL1+(1-λ)L2

        (13)

        其中,λ是超參數(shù),通過人工設(shè)定,用于調(diào)節(jié)L1和L2的權(quán)重。

        3.3.4 語料設(shè)置

        將混合語料輸入到基于比例抽取的Bi-LSTM句對抽取模型中,訓(xùn)練句對抽取模型,使模型能精準(zhǔn)地分辨出平行句對和偽平行句對。

        4 實驗與分析

        4.1 實驗?zāi)P驮O(shè)置

        翻譯模型:為了驗證本文方法的有效性,首先基于Transformer翻譯模型進(jìn)行了在漢-越任務(wù)上的訓(xùn)練,作為baseline翻譯模型。在語料方面,通過網(wǎng)絡(luò)爬蟲工具爬取漢越雙語語料,并經(jīng)過初步的篩選,刪掉標(biāo)點符號過多或無效字符的句子,并刪掉越南語中短于5個詞和長于50個詞的句子及其對應(yīng)的漢語句子(因為句對過短或過長對于模型訓(xùn)練的收益不大);然后使用jieba分詞工具對漢語句子進(jìn)行分詞,經(jīng)過人工的精準(zhǔn)校對和篩選,得到了200 000平行句對。從中分別隨機(jī)抽取出2 000個句對作為baseline的驗證集和測試集,剩余的作為訓(xùn)練集,初始的實驗數(shù)據(jù)具體如表3所示。

        Table 2 Representation of sentence pairs after being labeled and mixed

        Table 3 Experimental data of baseline model

        本文使用清華大學(xué)的開源Transformer翻譯模型THUMT,在參數(shù)設(shè)置上,將batch size設(shè)置為512,train step設(shè)置為50 000,漢語詞表大小為41 000,越南語詞表大小為32 000,訓(xùn)練過程中每2個周期更新一次模型的參數(shù),每訓(xùn)練2 000步,對模型進(jìn)行一次評估,最后保存評估得分最高的3個中間模型,使用BLEU(本文統(tǒng)一使用BLEU4)作為評測指標(biāo)。在漢→越和越→漢的2個翻譯方向上分別對模型進(jìn)行了訓(xùn)練,實驗結(jié)果如表4所示。

        Table 4 Experimental results of the baseline model

        通過網(wǎng)絡(luò)爬取大規(guī)模的越南語單語數(shù)據(jù),并像之前設(shè)置一樣刪掉過短或過長的句子,選取其中的600 000單語句子。將訓(xùn)練的越→漢的基礎(chǔ)翻譯模型用于回譯,將目標(biāo)端越南語單語句子回譯生成源端漢語句子,最終構(gòu)成規(guī)模為600 000的偽平行語料庫。

        句對抽取模型:對之前初步校對過的200 000平行句對進(jìn)行人工篩選,選出其中質(zhì)量較高的50 000,從偽平行數(shù)據(jù)中選取200 000,將2部分混合作為句對抽取模型的訓(xùn)練集。從平行數(shù)據(jù)的剩余部分中分別抽取1 000個句對作為驗證集和測試集。該實驗數(shù)據(jù)中,漢語詞表大小為50 000,越南語詞表大小為35 000。

        為了評估所訓(xùn)練模型的性能,本文使用精度P(Precision)、R召回率(Recall)和F1值作為評價指標(biāo)。精度是指所有抽取出的句對中真實平行句對的比例,召回率是指被抽取出的真實平行句對占測試集中所有平行句對的比例,而F1值是精度和召回率的調(diào)和平均值。

        Bi-LSTM中詞嵌入層的維度設(shè)為512,前饋神經(jīng)網(wǎng)絡(luò)中的隱藏層有256個隱藏單元,訓(xùn)練過程中的學(xué)習(xí)率設(shè)置為0.000 2,訓(xùn)練5個epoch,train step為36 000,抽取的閾值設(shè)為0.98,λ設(shè)為0.7。模型的訓(xùn)練結(jié)果如表5所示。

        Table 5 Training results of the proposed model

        4.2 實驗結(jié)果分析

        Table 6 Experimental results of different methods on different datasets

        通過上述實驗發(fā)現(xiàn),僅通過將偽平行語料與平行語料混合來直接訓(xùn)練翻譯模型,不但沒有提高模型的性能,反而會降低BLEU4值。這是由于用來訓(xùn)練回譯基礎(chǔ)模型MY→X的漢越平行語料規(guī)模不足,導(dǎo)致用基于偽平行語料來直接訓(xùn)練正向的漢越翻譯模型MX→Y時反而會引入更多的噪聲,從而降低翻譯模型的BLEU4值得分。通過基于傳統(tǒng)的Bi-LSTM孿生網(wǎng)絡(luò)方法對偽平行句對進(jìn)行抽取后,可以有效篩選掉平行程度較低或含有過多噪聲的句對,對比傳統(tǒng)的抽取方法,本文提出的基于比例抽取的方法對翻譯模型性能有更明顯的提升,BLEU4值增加了1.14。

        4.3 驗證實驗

        本節(jié)對基于比例抽取Bi-LSTM孿生網(wǎng)絡(luò)方法有效性進(jìn)行驗證。實驗中的平行語料為人工校對過的高度平行的50 000漢越平行語料,將回譯生成的400 000偽平行語料與這部分平行語料混合,并用標(biāo)簽區(qū)分它們,在平行句對后加標(biāo)簽“1”,偽平行句對后加標(biāo)簽“0”。通過加標(biāo)簽區(qū)分混合語料中的平行和偽平行句對,可以直觀地看到模型抽取出的平行句對數(shù)和偽平行句對數(shù)。將這個混合的語料庫作為句對抽取模型的輸入語料,通過改變模型抽取句對時的閾值,可以得到不同規(guī)模的偽平行語料。具體的實驗結(jié)果如圖2所示。

        由圖2可知,當(dāng)閾值設(shè)為0.95時,抽取出的混合語料的數(shù)量驟減到原來的一半,這說明偽平行語料中有大量含噪聲的句對。當(dāng)逐步提升閾值時,被抽取出的句對數(shù)量也隨之減少,平行句對所占的比例也就越來越高,這也驗證了本文模型的有效性。

        為了繼續(xù)驗證抽取出的句對對神經(jīng)機(jī)器翻譯的影響,用上述通過不同閾值抽取出的句對分別對翻譯模型進(jìn)行訓(xùn)練,實驗結(jié)果如圖3所示。

        通過對比不同閾值下抽取偽平行句對的結(jié)果可知,當(dāng)句對抽取模型抽取出的原始平行數(shù)據(jù)占比越高時,構(gòu)成的混合語料庫的質(zhì)量越高,對神經(jīng)機(jī)器翻譯模型的提升越大。在閾值設(shè)置為0.999時,平行句對占比約為20%,此時得到的BLEU4值最大為21.76,相比只用平行語料訓(xùn)練的baseline提高了1.14。

        此外,為了探究訓(xùn)練數(shù)據(jù)是否加標(biāo)簽對本文方法的影響,分別用加標(biāo)簽和不加標(biāo)簽的訓(xùn)練語料進(jìn)行了一組對比實驗,實驗結(jié)果如表7所示。

        Table 7 Verification of label validity

        實驗表明,訓(xùn)練數(shù)據(jù)中加入標(biāo)簽的方法有效地提升了句對提取模型的準(zhǔn)確率,并且抽取出的語料對翻譯模型的性能也有進(jìn)一步的提升。

        4.4 譯文對比分析

        為驗證用基于回譯和比例抽取孿生網(wǎng)絡(luò)篩選方法構(gòu)建語料庫對神經(jīng)機(jī)器翻譯性能的影響,本文還用不同語料庫訓(xùn)練的模型分別翻譯同一語句進(jìn)行對比分析,翻譯結(jié)果如表8所示。

        5 結(jié)束語

        針對漢越神經(jīng)機(jī)器翻譯模型訓(xùn)練中平行語料不足的問題,本文提出了一種對語料進(jìn)行擴(kuò)充的方法。首先通過回譯的方法,將越南語單語數(shù)據(jù)擴(kuò)充為偽平行句對,利用基于比例抽取的Bi-LSTM孿生網(wǎng)絡(luò)刪除含有過多噪聲的句對,同時抽取出相似度高的句對,用于構(gòu)建漢越雙語語料庫。在句對抽取過程中,通過將平行句對混入偽平行句對中來指導(dǎo)抽取的過程。實驗表明,基于此方法構(gòu)建的語料庫可以有效地提升漢越神經(jīng)機(jī)器翻譯的性能。在未來的工作中,我們會對翻譯模型做更多的探索,以消除回譯過程中產(chǎn)生的噪聲,從而進(jìn)一步提高漢越神經(jīng)機(jī)器翻譯的性能。

        Table 8 Comparison of translations results generated by different models

        猜你喜歡
        語料平行雙語
        向量的平行與垂直
        平行
        逃離平行世界
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        再頂平行進(jìn)口
        汽車觀察(2016年3期)2016-02-28 13:16:36
        華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
        《苗防備覽》中的湘西語料
        快樂雙語
        新晨(2013年7期)2014-09-29 06:19:50
        快樂雙語
        新晨(2013年5期)2014-09-29 06:19:50
        快樂雙語
        新晨(2013年10期)2014-09-29 02:50:54
        国产欧美日本亚洲精品一4区| 亚洲成av人片在www| 中文字幕无码av激情不卡| 国产精品无码久久久一区蜜臀 | 九一九色国产| 国产精品18禁久久久久久久久| 亚洲视频一区二区久久久| 一区二区三区日本伦理| 亚洲婷婷五月综合狠狠爱| 一个人看的www免费视频中文| 久久国产香蕉一区精品天美| 国产尤物自拍视频在线观看| 亚洲av无码一区东京热 | 欧美老肥妇做爰bbww| 久久精品一区二区三区av| 久久亚洲午夜牛牛影视| 国产中文字幕亚洲国产| 久久人人爽av亚洲精品| 久久人人爽人人爽人人片av麻烦| 亚洲色图视频在线观看网站| 亚洲美女一区二区三区三州| 夜夜夜夜曰天天天天拍国产| 国产熟女高潮视频| 亚洲日本国产乱码va在线观看| 日本不卡视频一区二区三区| 日韩人妻ol丝袜av一二区 | 精品亚洲欧美高清不卡高清| 亚洲中文字幕一区高清在线| 国产av无码专区亚洲a∨毛片| 日本大尺度吃奶呻吟视频| 国产成人cao在线| 精品熟女视频一区二区三区国产 | 亚洲av手机在线一区| 久久精品成人一区二区三区| 搡老熟女老女人一区二区| 爆乳日韩尤物无码一区| 最新国产激情视频在线观看| 亚洲国产天堂久久综合| 久久这里只精品国产99热| 亚洲av性色精品国产| 国产乱码人妻一区二区三区|