亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

多策略漢英平行語料的過濾方法研究

2021-06-22 08:32:36張國成王穎敏鐘恩俊江秋怡朱宏康陳毅東史曉東

廈門大學學報(自然科學版) 2021年4期

張國成，王穎敏，鐘恩俊，江秋怡，江舫，章棟，朱宏康，陳毅東，史曉東

(廈門大學信息學院，福建廈門 361005)

主流的神經機器翻譯系統(tǒng)需要大量的語料進行模型訓練，而語料的質量很大程度影響了翻譯模型的性能[1]，因此對語料進行過濾來確保語料質量尤為重要.語料過濾的主流方法一般是采用規(guī)則方法、統(tǒng)計方法和神經網絡方法相結合的策略，其中統(tǒng)計方法和神經網絡方法非常多，如Junczys-Dowmunt[2]提出對偶條件交叉熵(dual conditional cross-entropy)，Snchez-Cartagena等[3]從各種打分函數(shù)中學習權重的方法，還有不少研究者試圖從詞嵌入(word embedding)[4-6]角度衡量句對平行程度.

為了解決漢英平行語料中帶噪聲的問題，本文設計了兩種不同的模式：單系統(tǒng)模式和多系統(tǒng)融合模式.其中單系統(tǒng)分為規(guī)則系統(tǒng)、Zipporah系統(tǒng)、詞對齊系統(tǒng)、語言模型系統(tǒng)、翻譯模型系統(tǒng)和雙語預訓練模型系統(tǒng).多系統(tǒng)融合則是在單系統(tǒng)的基礎上，將表現(xiàn)優(yōu)異的系統(tǒng)的打分加權融合，融合的方式有兩種：一種是將得分相加，另一種是將得分相乘，以期獲得優(yōu)異的翻譯性能.

1 系統(tǒng)描述

本文提交的系統(tǒng)所使用的方法可分為3類：規(guī)則方法、統(tǒng)計方法和神經網絡方法，系統(tǒng)的整體架構如圖1所示.其中規(guī)則方法主要通過設計一系列規(guī)則來過濾質量明顯不符合要求的語料；統(tǒng)計方法包括Zipporah系統(tǒng)、詞對齊模型和語言模型，通過在大量干凈的語料上統(tǒng)計特征信息達到過濾目的；神經網絡方法包括翻譯模型和雙語預訓練模型，在干凈的語料上訓練得到泛化能力較強的模型，然后對帶噪聲的語料進行過濾.最后，根據(jù)不同方法的成績，將表現(xiàn)優(yōu)異的方法加權融合，得到最終的干凈語料.

圖1 系統(tǒng)架構圖Fig.1 System architecture diagram

1.1 規(guī)則方法

Pinnis[7]提出利用句子長度比例、最大句子長度、唯一句子對等過濾方法對語料進行過濾.借鑒其工作，本文制定了4條規(guī)則：

1) 長度過濾規(guī)則，源端或目標端句子長度超過80個單詞的句對記0分，否則記1分；

2) 長度比限制規(guī)則，源端與目標端句子長度比超過1.7的句對記0分，否則記1分；

3) 語種識別規(guī)則，用langid(https:∥github.com/saffsd/langid.py)識別源端和目標端語種，語種不正確的句對記0分，否則記1分；

4) 去重規(guī)則，重復的句對第一次出現(xiàn)記1分，否則記0分.

借助上述4條規(guī)則，針對給定的句對可以得到一個四維特征，每一維的值為0或1.

1.2 統(tǒng)計方法

1.2.1 Zipporah系統(tǒng)

Chaudhary等[8]嘗試將Zipporah(https:∥github.com/hainan-xv/zipporah)作為融合系統(tǒng)的一部分，取得了不錯的成績.Zipporah系統(tǒng)是一種快速且可擴展的系統(tǒng)，可以從大量嘈雜的數(shù)據(jù)池中選擇任意大小的“好數(shù)據(jù)”，用于神經機器翻譯模型的訓練.其原理是：首先將句子映射到特征空間，特征空間包含充分性得分和流利度得分兩個特征；然后使用邏輯回歸進行二分類，類別分別是“好數(shù)據(jù)”和“壞數(shù)據(jù)”；最后采用式(1)進行歸一化，得到平行程度得分

(1)

其中x為Zipporah系統(tǒng)的得分.

1.2.2 詞對齊模型

Zarina等[9]認為非平行句對的詞對齊很少，因此本文考慮利用詞對齊進行語料過濾.首先用fast_align(https:∥github.com/clab/fast_align)詞對齊工具在第16屆全國機器翻譯大會(CCMT 2020)提供的不帶噪聲的漢英平行語料上訓練，然后對帶噪聲的語料進行預測，可直接得到句對的詞對齊分數(shù).由于在fast_align工具中，詞對齊分數(shù)的計算方法是將詞對齊概率進行對數(shù)求和，所以句子越長，詞對齊分數(shù)越小，意味著系統(tǒng)偏好短句子.為了減少句子長度對詞對齊分數(shù)的影響，本文中采用式(2)計算平行程度得分：

(2)

其中,salign為句對的詞對齊分數(shù)，lsource和ltarget分別為源端和目標端句子的長度.

在將句對的詞對齊分數(shù)按照式(2)處理后，按照分數(shù)從高到低進行排序，經過統(tǒng)計發(fā)現(xiàn)詞對齊分數(shù)大于等于-4.5的句對數(shù)量約為400萬，大約1億個單詞.本文中認定這些句對的質量較好，它們在歸一化后的分數(shù)應該較高，于是設計了式(3)進行分數(shù)的歸一化：

(3)

1.2.3 語言模型

因為語言模型可以過濾掉不合語法的數(shù)據(jù)，所以本文中考慮使用語言模型對語料進行過濾.本文選擇不帶噪聲的語料庫生成語言模型，并利用該語言模型計算待過濾數(shù)據(jù)集的困惑度(perplexity,p)分數(shù).

具體地，在不帶噪聲的雙語語料上使用SRILM(https:∥github.com/BitSpeech/SRILM)工具，為漢英語料分別訓練一個5元語法(5-gram)語言模型，并使用這個語言模型分別計算待過濾雙語語料中漢英句子的困惑度分數(shù).對于得到的漢英句子困惑度分數(shù)，本文使用了兩個打分策略：句子級困惑度分數(shù)和單詞級困惑度分數(shù).

為了便于后續(xù)處理，將困惑度分數(shù)進行歸一化處理.在歸一化操作中，本文基于經驗設計了一系列分段函數(shù).

對漢語待過濾語料句子級困惑度分數(shù)，本文設計的歸一化的分段函數(shù)如式(4)所示：

(4)

對英文待過濾語料句子級困惑度分數(shù)，設計的歸一化分段函數(shù)如式(5)所示：

(5)

另外本文考慮了單詞級的困惑度分數(shù)，分別計算了漢英數(shù)據(jù)集上每句話的詞平均困惑度分數(shù)與整體數(shù)據(jù)集上的詞平均困惑度分數(shù)，并設計了兩個分段函數(shù)對兩者的差值進行歸一化處理.由于數(shù)據(jù)中存在句子很短但困惑度值非常大的現(xiàn)象，所以本文在計算整體數(shù)據(jù)集的詞平均困惑度分數(shù)的時候，忽略了困惑度超過1萬的句子.

對漢語待過濾語料單詞級困惑度分數(shù)，設計的歸一化分段函數(shù)如式(6)所示：

(6)

對英文待過濾語料單詞級困惑度分數(shù)，設計的歸一化分段函數(shù)如式(7)所示：

(7)

最終，每個平行句對將得到4個特征分數(shù).

1.3 神經網絡方法

1.3.1 翻譯模型

基于以下設想：如果句子a與b是平行句對，那么a與b的語義相似，則將a翻譯成a′時，a′與b的語義仍然相似.Parcheta等[10]先對目標端句子進行翻譯，然后計算譯文與參考譯文之間的相似度，這種方法得到了更好的翻譯效果.

為實現(xiàn)上述設想，首先應訓練一個英漢翻譯模型，然后利用翻譯模型將英文句子翻譯成對應譯文，最后計算譯文與參考譯文之間的相似性.對于相似度計算，本文采用了兩種指標：基于詞的編輯距離和基于預訓練詞向量的余弦相似度，最終形成2維相似度特征.

1) 模型設計

根據(jù)上述簡介，若想計算翻譯譯文與參考譯文之間的相似度，首先應得到翻譯譯文，因此需要一個翻譯模型.本文采用了清華大學開源的神經機器翻譯工具THUMT(https:∥github.com/THUNLP-MT/THUMT.git)，該系統(tǒng)依賴較少，訓練簡便，適合快速訓練神經機器翻譯系統(tǒng).

訓練集數(shù)據(jù)來源于CCMT 2020漢英翻譯任務提供的平行語料，對其進行分詞和小寫化，并過濾掉長度超過150個單詞的句對，形成約1 000萬對的訓練數(shù)據(jù).開發(fā)集為CCMT 2020漢英平行語料過濾任務指定的開發(fā)集.

主要的訓練參數(shù)選擇默認，并運行約20輪，保存開發(fā)集上雙語互譯評估結果(BLEU)最高的5個模型，然后做模型平均，融合成一個最終模型，方向為英→漢，將其記為M0.接著利用M0對帶噪聲的平行句對中的英文句子進行解碼，得到對應的漢語譯文.

2) 基于詞的編輯距離

該指標本質上是編輯距離，不過計算兩個句子匹配程度的粒度為詞，而不是單個字符.設a′與b為兩個分詞后的漢語句子，其中a′為英文源句a的翻譯譯文，那么編輯距離La′,b(|a′|,|b|)可以通過式(8)迭代計算得到.

(8)

在計算過程中，a′看作翻譯譯文，b看作參考譯文，考慮在帶噪聲的數(shù)據(jù)中，作為目標端的b不一定與源端相對應.當a與b不對應時，a′和b距離較大，認為此句對a和b平行程度較差，可以將句對過濾；反之距離較小則意味著翻譯模型給出的譯文和實際參考之間相似度較高，源句與目標端句子的平行程度較高.根據(jù)編輯距離，最終句對的平行程度得分如式(9)所示：

(9)

3) 余弦相似度

由于翻譯模型M0可以將英文源句a翻譯成對應漢語譯文a′，所以可以僅借助漢語詞向量計算a′和b之間的語義相似度.本文中之所以不用漢語和英文兩套單獨的詞向量，是因為語種差異會造成語義空間的偏差，導致語義相似度計算不準確.訓練漢語詞向量使用的數(shù)據(jù)與機器翻譯訓練集中的漢語端數(shù)據(jù)相同，訓練工具采用gensim(https:∥radimrehurek.com/gensim/models/word2vec.html)工具包，訓練窗口取5，去掉詞頻低于5的詞，并且考慮到相似計算壓力較大，因此維度取128維，訓練10輪，最終保存模型記為M1.

對于a和b句對，a′是a的漢語譯文，那么利用M1，使用余弦函數(shù)即可得到該句對平行程度得分，如式(10)所示：

sa,b=cos(a′,b|M1).

(10)

1.3.2 雙語預訓練模型

考慮到預訓練模型包含大量的語義知識，因此本文利用sentence-BERT(sentence bidirectional encoder representations from Transforment)模型[11]在CCMT 2020給定的漢英單語語料上進行微調，分別獲得漢語與英語的句向量.但是通過該方式獲得的句向量可能存在不同語種間向量空間未對齊的問題，即不同語種中意義相同的句子被映射到向量空間中的不同位置.因此評估兩個不同語言的句子之間的平行度時，本文采用馬氏距離平方之比作為度量指標.

馬氏距離表示數(shù)據(jù)的協(xié)方差距離，是一種計算兩個未知樣本集相似度的有效方法.使用馬氏距離等同于通過數(shù)據(jù)轉換的方法，消除樣本中不同特征維度間的相關性和量綱差異，使得歐式距離在新的分布上能有效度量樣本點到分布的距離.假設向量x表示均值為μ、協(xié)方差矩陣為Σ的多變量隨機向量，則其到中心的馬氏距離計算式如(11)所示：

d2(x)=(x-μ)TΣ-1(x-μ)=

(11)

在本文系統(tǒng)中，首先將每個句向量進行標準化，使得其服從均值為0的隨機分布.對于每個已經重新中心化的漢英句子向量對(l1,l2)，考慮變化空間中的3種情況：

(12)

(13)

(14)

其中e1，e2，e分別表示拼接向量[l1,0]，[0,l2]，[l1,l2]在馬氏空間中的向量.通過以上3種情況，可以利用下面的馬氏距離平方之比來度量兩種語言句子之間的平行度：

(15)

如果兩個句子具有相同的含義，則該句對在馬氏空間中的向量e的可能性不應小于孤立的單個句子e1、e2在馬氏空間中向量的概率，m值越大，兩個句子之間的平行度越高.

最后，將m值進行歸一化，利用式(16)來衡量兩個句子之間的平行度：

m′=1-m，

(16)

即m′越小，兩個句子之間的平行度越高.

2 實驗與結果

2.1 數(shù)據(jù)處理

本文語料過濾系統(tǒng)的開發(fā)集、訓練集和測試集分別為來自WMT 2018和WMT 2019的漢英新聞測試集(分別包含3 981句及2 000句原文和對應參考譯文)、CCMT 2020不帶噪聲的漢英平行語料(902萬漢英句對)和CCMT 2020帶噪聲的平行語料(3 432萬漢英句對).

其中對漢語語料使用jieba(https:∥github.com/fxsjy/jieba)分詞工具進行分詞，對英語語料使用Moses(http:∥statmt.org/moses/)腳本分詞和小寫處理.由于數(shù)據(jù)量過大，防止在解碼時出現(xiàn)顯存溢出問題，所以將小寫后的噪聲數(shù)據(jù)進行截斷處理，每一個句子最多保留前256個單詞.同時為了緩解未登錄詞(out of vocabulary,OOV)問題，提高模型對稀有詞和OOV的處理能力，本文中使用基于子詞切分的方法，對漢語語料和英語語料使用字節(jié)對編碼(BPE，https:∥github.com/rsennrich/subword-nmt)進行切分.此外，為防止一次性加載并解碼3 400萬句對造成的內存緊張和解碼時間過長等問題，本文對帶噪聲的數(shù)據(jù)進行切分，每份包含200萬條數(shù)據(jù).最后，去掉長度大于150個單詞的句子，再去掉語種錯誤的句子.

2.2 評測方法

在對帶噪聲的語料打分后，按照得分從高到低進行排序從而實現(xiàn)語料過濾。本文選擇約含1億個詞的平行句對，使用CCMT 2020主辦方指定神經機器翻譯工具Marian，將前面所選擇的平行句對作為訓練集，在Marian上進行訓練，然后在CCMT 2020主辦方指定測試集上進行測試，使用機器翻譯領域常用的BLEU指標作為評價指標以評測過濾語料的質量(結果見2.3和2.4節(jié))。

最終參賽者需向CCMT 2020主辦方提供1億個詞和5億個詞的兩份過濾后的語料，CCMT 2020主辦方將參賽者提交的語料作為訓練集，使用Marian工具訓練，保證訓練過程中所有參數(shù)一致，在指定測試集上進行測試，以此作為參賽者最終成績(結果見2.5節(jié))。

2.3 單系統(tǒng)實驗

由于各個系統(tǒng)之間無依賴關系，所以可以并行進行各個系統(tǒng)的實驗.具體地，選定規(guī)則系統(tǒng)、Zipporah系統(tǒng)、詞對齊系統(tǒng)、翻譯模型系統(tǒng)、語言模型系統(tǒng)、雙語預訓練模型系統(tǒng)這6個作為基礎系統(tǒng)，分別依據(jù)每個系統(tǒng)對帶噪聲數(shù)據(jù)的打分從高到低進行排序.需要注意的是，若有些系統(tǒng)有多個打分，則各個分數(shù)相加或各個分數(shù)相乘求綜合得分，權重均是1.0.再使用CCMT 2020提供的機器翻譯工具Marian訓練神經機器翻譯系統(tǒng)，計算開發(fā)集上的翻譯結果與參考譯文之間的BLEU值.根據(jù)每個系統(tǒng)對應BLEU值的高低選擇優(yōu)勢特征，嘗試在優(yōu)勢特征之間組合，得到更優(yōu)的排序.

受計算資源限制，本文對每個系統(tǒng)只訓練10輪，取開發(fā)集上最高的BLEU值作為該系統(tǒng)的最終成績.每個系統(tǒng)的成績參考表1.其中，隨機系統(tǒng)將數(shù)據(jù)隨機打亂，同樣采樣1億個單詞的平行語料，隨機系統(tǒng)0只對數(shù)據(jù)隨機打亂1次，隨機系統(tǒng)1對數(shù)據(jù)隨機打亂5次.此外，為探究領域對成績的影響，本文從不帶噪聲的平行語料中采集了1 409條漢語新聞樣本和1 434 條漢語非新聞樣本，從中劃分出200條新聞和200條非新聞作為開發(fā)集，訓練一個基于卷積神經網絡(CNN)的領域二分類器.從表1可以看出，各系統(tǒng)成績相差較大.隨機系統(tǒng)1的結果甚至超過了大部分的系統(tǒng)；最好的是基于翻譯模型的譯文與參考的相似度指標；領域分類器效果最差，這是因為領域分類器主要用來選擇新聞語料，而結果表明測試集中新聞語料占比可能不高，從而導致表現(xiàn)較差.注意到翻譯模型過濾后的語料中排名靠前的句子對句長并不是非常敏感，因此大量長度適中的句子都有希望排到前面，而其他系統(tǒng)得分都傾向于短句優(yōu)先.規(guī)則系統(tǒng)雖然能無差別對待長句和短句，但由于無法衡量平行程度，所以在獨自發(fā)揮作用時效果并不突出.

表1 各單系統(tǒng)對應的BLEU值Tab.1 BLEU values for each system %

將領域分類器用于帶噪聲數(shù)據(jù)的測試，并將新聞數(shù)據(jù)的預測概率作為得分.其中領域二分類器性能參考表2，可以看到該分類器性能較高，但從表1中可以看到，基于該分類器的翻譯性能很低，因而可以認為在此任務中，領域對翻譯模型的影響并不大.因此該分類器僅用做驗證，本文并未將其納入到最終的系統(tǒng)中.

表2 基于CNN的領域二分類器性能Tab.2 Performance of two field classifier based on CNN %

2.3 多系統(tǒng)融合實驗

結合表1的結果，本文中認為翻譯模型系統(tǒng)、詞對齊模型系統(tǒng)、語言模型系統(tǒng)以及雙語預訓練模型系統(tǒng)是潛力相對較大的系統(tǒng)，因此優(yōu)先對這些系統(tǒng)之間的組合進行融合測試.多系統(tǒng)融合的方法相對比較簡單，即將各系統(tǒng)的打分進行融合，然后再重新排序.融合的方法有2種：按權重相乘、按權重相加.大部分情況下，僅嘗試了權重均為1.0的融合.表3展示了部分實驗結果，可以看到融合系統(tǒng)總體上成績超過單系統(tǒng)成績，而且相乘的方法總體優(yōu)于加法.融合系統(tǒng)成績更好的主要原因是因為不同系統(tǒng)從不同出發(fā)點對句對平行程度進行度量，所以多系統(tǒng)融合后能對句對有更全面評價，這也表明了方法融合的有效性.

表3 部分系統(tǒng)融合的結果Tab.3 Partial system integration results %

2.4 提交系統(tǒng)

實驗發(fā)現(xiàn)并不是集成的系統(tǒng)越多成績就越好，經過大量測試，發(fā)現(xiàn)“1,3,4”組合的魯棒性和BLEU值都較高，考慮到系統(tǒng)復雜性，本文選擇“1,3,4”組合作為主系統(tǒng)，又因規(guī)則方法在WMT 2018和WMT 2019語料過濾任務中被證明為提升翻譯性能的有效手段，且預訓練模型在語義提取上具有優(yōu)勢，因此選擇“1,2,3,4,6”組合作為副系統(tǒng).最終評測結果見表4，可見本文提交的主系統(tǒng)system2綜合排名第二，在除IWSLT2020數(shù)據(jù)集外均排名第一.由于IWSLT2020數(shù)據(jù)集是口語語料，新聞語料和口語語料有一定領域差異，導致該系統(tǒng)在IWSLT2020數(shù)據(jù)集上表現(xiàn)不佳，這也表明訓練領域會影響過濾結果.

表4 最終評測結果Tab.4 Final evaluation result %

3 總結與展望

本文設計并實現(xiàn)了規(guī)則方法、統(tǒng)計方法和神經網絡方法三類方法對漢英平行語料進行過濾，并將多種方法融合來對噪聲語料進行過濾.最終實驗結果表明：相比于單系統(tǒng)，改進的按權重相乘的多系統(tǒng)融合方法在測試集上取得了較好的結果，同時，在最終的5組評測結果中，本文提交的系統(tǒng)綜合排名第二，在多個數(shù)據(jù)集上排名第一，對語料過濾研究具有一定的參考價值.

在未來的工作中，可以從兩個方向做進一步嘗試：一是挖掘更可靠的特征來區(qū)分高質量和低質量的語料；二是將針對特征組合方式做進一步的優(yōu)化調整，如引入機器學習模型自動學習最優(yōu)權重組合.