馬青松,張金超,劉 群
(1. 中國(guó)科學(xué)院 計(jì)算技術(shù)研究所 智能信息處理重點(diǎn)實(shí)驗(yàn)室,北京 100190; 2. 中國(guó)科學(xué)院大學(xué),北京 100049; 3. 騰訊科技(北京)有限公司,北京 100080; 4. 都柏林城市大學(xué),都柏林 愛(ài)爾蘭)
機(jī)器翻譯自動(dòng)評(píng)價(jià)旨在為機(jī)器翻譯系統(tǒng)提供快速、可靠的質(zhì)量評(píng)估。近些年來(lái),隨著機(jī)器翻譯技術(shù)的發(fā)展,自動(dòng)評(píng)價(jià)也受到越來(lái)越廣泛的關(guān)注。機(jī)器翻譯自動(dòng)評(píng)價(jià)方法通常通過(guò)計(jì)算機(jī)器譯文和參考譯文的相似度來(lái)衡量機(jī)器譯文質(zhì)量,不同的自動(dòng)評(píng)價(jià)方法從不同的角度計(jì)算二者之間的相似度。比如,基于詞匯的自動(dòng)評(píng)價(jià)方法中,BLEU[1]和NIST[2]統(tǒng)計(jì)機(jī)器譯文和參考譯文的共現(xiàn)N元組,Meteor[3]和GTM[4]捕捉機(jī)器譯文和參考譯文之間的詞對(duì)齊信息,WER[5]、PER[6]和TER[7]計(jì)算從機(jī)器譯文到參考譯文的編輯距離?;诰浞ǖ淖詣?dòng)評(píng)價(jià)方法主要比較機(jī)器譯文和參考譯文在淺層語(yǔ)法結(jié)構(gòu)[8]、依存句法結(jié)構(gòu)[9]或成分句法結(jié)構(gòu)[10]上的相似度。
雖然各個(gè)評(píng)價(jià)方法都不盡完美,但它們都各自從不同的角度衡量機(jī)器譯文和參考譯文的相似度,反映機(jī)器譯文在不同評(píng)價(jià)角度上的質(zhì)量。那么,多角度的評(píng)價(jià)將會(huì)更全面地反映機(jī)器譯文的真實(shí)質(zhì)量。一個(gè)直接又有效的方法,就是利用各個(gè)評(píng)價(jià)方法的評(píng)分,把它們?nèi)诤铣梢粋€(gè)新的評(píng)價(jià)方法。各評(píng)價(jià)方法的評(píng)分代表對(duì)機(jī)器譯文在不同角度上的評(píng)價(jià),融合后新的評(píng)價(jià)方法是對(duì)機(jī)器譯文的多角度綜合評(píng)價(jià)。
文獻(xiàn)[11]提出尋找最優(yōu)組合的方法,各個(gè)評(píng)價(jià)方法按照與人工評(píng)價(jià)的相關(guān)度降序排列,依次嘗試加到最優(yōu)集合里,如果能提高最優(yōu)集合的性能則加入;否則不加入。這是一種無(wú)參數(shù)的組合方法。另外,也可以采用有參數(shù)的組合方法,最直觀(guān)的就是線(xiàn)性組合,基本形式如式(1)所示。
(1)
其中,wi表示第i個(gè)評(píng)價(jià)方法xi的權(quán)重。
文獻(xiàn)[11]中的無(wú)參數(shù)組合方式是一種貪心算法,可能會(huì)得到局部最優(yōu)的組合。為了避免這種情況的發(fā)生,我們提出有參數(shù)的融合自動(dòng)評(píng)價(jià)方法,采用機(jī)器學(xué)習(xí)算法進(jìn)行訓(xùn)練,并進(jìn)行多方面的實(shí)驗(yàn)探索,主要包括以下幾個(gè)方面。
(1) 根據(jù)人工評(píng)價(jià)方法的不同,我們提出兩種融合自動(dòng)評(píng)價(jià)方法,分別是DPMFcomb和Blend,實(shí)驗(yàn)表明Blend性能更好;
(2) 在Blend上,對(duì)比使用支持向量機(jī)(SVM)[12]和全連接神經(jīng)網(wǎng)絡(luò)(FFNN)兩種機(jī)器學(xué)習(xí)算法的性能,實(shí)驗(yàn)發(fā)現(xiàn)在當(dāng)前數(shù)據(jù)集上,使用SVM效果更好。
(3) 進(jìn)而在SVM基礎(chǔ)上,探索融合不同的評(píng)價(jià)方法對(duì)Blend的影響,為Blend尋找在性能和效率上的平衡。
(4) 把Blend推廣應(yīng)用到其他語(yǔ)言對(duì)上,驗(yàn)證了它的穩(wěn)定性及通用性。
后續(xù)組織結(jié)構(gòu)如下: 第一節(jié)介紹模型方法,第二節(jié)介紹實(shí)驗(yàn),第三節(jié)介紹Blend參加WMT17評(píng)測(cè)的結(jié)果,第四節(jié)進(jìn)行總結(jié)。
我們首先介紹兩種人工評(píng)價(jià)方法,相對(duì)排序(relative ranking,RR)和直接評(píng)估(direct assessment,DA);然后介紹分別使用RR 和DA指導(dǎo)訓(xùn)練的兩種融合自動(dòng)評(píng)價(jià)方法: DPMFcomb和Blend。
在WMT評(píng)測(cè)任務(wù)的發(fā)展過(guò)程中,先后使用兩種人工評(píng)價(jià)方法,分別是相對(duì)排序(RR)和直接評(píng)估(DA)。本節(jié)中我們將分別介紹這兩種人工評(píng)價(jià)方法。
相對(duì)排序的人工評(píng)價(jià)方法,讓評(píng)價(jià)者對(duì)同一個(gè)源端句子的五個(gè)不同機(jī)器譯文進(jìn)行1~5排名,從1到5表示機(jī)器譯文質(zhì)量依次下降,并且允許并列排名。表1是RR評(píng)價(jià)結(jié)果的一個(gè)示例,它表示對(duì)編號(hào)為103的句子,評(píng)價(jià)者給五個(gè)機(jī)器譯文(MTsys1-5)的排名結(jié)果。
直接評(píng)估(DA)[13]給出對(duì)機(jī)器譯文絕對(duì)的評(píng)分,在給定一個(gè)機(jī)器譯文和一個(gè)相應(yīng)的參考譯文情況下,評(píng)價(jià)者通過(guò)衡量機(jī)器譯文在多大程度上充分表達(dá)了參考譯文的含義,拖動(dòng)表征機(jī)器譯文質(zhì)量的取值范圍為1~100的滑動(dòng)條給出評(píng)分。每個(gè)評(píng)價(jià)者的評(píng)分都要通過(guò)嚴(yán)格的質(zhì)量控制,并做歸一化處理。最后,每個(gè)機(jī)器譯文的評(píng)分Score是多個(gè)評(píng)價(jià)者評(píng)分(歸一化后的評(píng)分)的平均值。表2表示評(píng)價(jià)者使用DA方法對(duì)不同編號(hào)句子的機(jī)器譯文的評(píng)分。
表2 直接評(píng)估(DA)結(jié)果的示例
相對(duì)排序從2008年WMT自動(dòng)評(píng)價(jià)任務(wù)開(kāi)始時(shí)使用,一直到2016年,積累了多年的數(shù)據(jù)。相對(duì)排序能在一定程度上反映機(jī)器譯文的質(zhì)量,但它有兩個(gè)明顯的缺點(diǎn)。首先,相對(duì)排序只提供五個(gè)給定機(jī)器譯文的相對(duì)排名,這只反映它們之間的相對(duì)質(zhì)量高低,不能反映它們各自的整體質(zhì)量。其次,相對(duì)排序存在人工評(píng)價(jià)者間的一致性較低的問(wèn)題[14],這降低了相對(duì)排序的可靠性。與相對(duì)排序相比,直接評(píng)估能給出機(jī)器譯文的絕對(duì)評(píng)分,且設(shè)計(jì)一系列措施保證其可靠性。因此在WMT17評(píng)測(cè)任務(wù)中,直接評(píng)估已經(jīng)取代相對(duì)排序,成為唯一的人工評(píng)價(jià)方法。
DPMFcomb使用RR人工評(píng)價(jià)數(shù)據(jù),以各個(gè)評(píng)價(jià)方法的評(píng)分為特征,使用SVM進(jìn)行訓(xùn)練,是一個(gè)與人工評(píng)價(jià)一致性很高的自動(dòng)評(píng)價(jià)方法。DPMFcomb融合的評(píng)價(jià)方法,包含Asiya[15][注]http://asiya.lsi.upc.edu/工具中目標(biāo)端為英語(yǔ)的默認(rèn)評(píng)價(jià)方法,包括55個(gè)基于詞匯、句法和語(yǔ)義的自動(dòng)評(píng)價(jià)方法(如BLEU,NIST等),以及另外三個(gè)自動(dòng)評(píng)價(jià)方法,分別是ENTF[16],REDp[17][注]DPMFcomb在WMT15評(píng)測(cè)中融入REDp,在WMT16評(píng)測(cè)中沒(méi)有融入REDp。下文實(shí)驗(yàn)使用DPMFcomb在WMT16評(píng)測(cè)中的配置。和DPMF[18]。
若把RR給出的 1 到 5 的排名看作五個(gè)不同的類(lèi)別,那么DPMFcomb的訓(xùn)練過(guò)程就可以看作是多分類(lèi)問(wèn)題,因此可以用SVM[12]進(jìn)行訓(xùn)練。SVM是Vapnik等人于1995年提出的一種學(xué)習(xí)器,可以用于分類(lèi)和回歸分析。以線(xiàn)性分類(lèi)問(wèn)題為例,SVM可以從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)找到一個(gè)最優(yōu)超平面(圖1的中間一條直線(xiàn)),實(shí)現(xiàn)線(xiàn)性分類(lèi)。對(duì)于線(xiàn)性不可分問(wèn)題,SVM通過(guò)引入核函數(shù)對(duì)當(dāng)前空間進(jìn)行非線(xiàn)性變換,在高維空間實(shí)現(xiàn)線(xiàn)性分類(lèi)。
圖1 SVM尋找最優(yōu)超平面
具體的,DPMFcomb使用SVMrank,訓(xùn)練數(shù)據(jù)如表3所示,第一列是目標(biāo)類(lèi)別,即RR排名;第二列表示句子編號(hào);從第三列開(kāi)始,每列代表一個(gè)特征,即為融入的各個(gè)評(píng)價(jià)方法的評(píng)分。
表3 DPMFcomb的訓(xùn)練數(shù)據(jù)格式
在排序任務(wù)中,在測(cè)試階段SVM生成的預(yù)測(cè)值可以轉(zhuǎn)化為對(duì)測(cè)試集的排序;而在機(jī)器翻譯評(píng)價(jià)任務(wù)中,自動(dòng)評(píng)價(jià)方法通常給出機(jī)器譯文的質(zhì)量分?jǐn)?shù),所以此預(yù)測(cè)值不必再轉(zhuǎn)化,可直接表示為DPMFcomb對(duì)機(jī)器譯文的評(píng)分,如式(2)所示。
(2)
其中,w和b是模型參數(shù),φ表示使用的核函數(shù),xi表示融入的第i個(gè)評(píng)價(jià)方法的評(píng)分。
DPMFcomb參加了WMT15-16評(píng)測(cè)的自動(dòng)評(píng)價(jià)任務(wù),連續(xù)兩年獲得目標(biāo)端為英語(yǔ)的語(yǔ)言對(duì)中與人工評(píng)價(jià)的平均一致性最高的成績(jī),其設(shè)置及結(jié)果可以參考文獻(xiàn)[19-20]。
我們提出DA指導(dǎo)訓(xùn)練的融合自動(dòng)評(píng)價(jià)方法,命名為Blend,它可以利用任意的自動(dòng)評(píng)價(jià)方法的優(yōu)點(diǎn),形成一個(gè)新的基于融合策略的自動(dòng)評(píng)價(jià)方法[注]https://github.com/qingsongma/Blend。
Blend與DPMFcomb的基本思想一致,但二者在訓(xùn)練數(shù)據(jù)及訓(xùn)練方法上并不相同。Blend分別使用回歸支持向量機(jī)(SVM regression)和全連接神經(jīng)網(wǎng)絡(luò)(FFNN)訓(xùn)練,找到使其性能最優(yōu)的訓(xùn)練方式。
(1) 使用libsvm[21]中的SVM regression訓(xùn)練時(shí),訓(xùn)練數(shù)據(jù)如表4所示。
表4 Blend的訓(xùn)練數(shù)據(jù)格式
其中,第一列表示目標(biāo)值,即為DA評(píng)分;之后每列代表一個(gè)特征,即融入的各個(gè)評(píng)價(jià)方法的評(píng)分。最終Blend評(píng)分如式(3)所示。
(3)
(2) FFNN是由輸入層、隱含層(一層或多層)和輸出層構(gòu)成的神經(jīng)網(wǎng)絡(luò)模型,其隱含層和輸出層的每一個(gè)神經(jīng)元與相鄰層的所有神經(jīng)元連接(即全連接),如圖2所示。
圖2 全連接神經(jīng)網(wǎng)絡(luò)(FFNN)模型圖
當(dāng)Blend采用FFNN的訓(xùn)練時(shí),輸入層的每個(gè)輸入表示各個(gè)評(píng)價(jià)方法的評(píng)分,輸出層的輸出為Blend對(duì)機(jī)器譯文的評(píng)分。設(shè)輸入層有M個(gè)輸入節(jié)點(diǎn),隱含層有N個(gè)節(jié)點(diǎn),輸出層是一個(gè)節(jié)點(diǎn),則有:
其中,xi表示i個(gè)輸入節(jié)點(diǎn)的輸入值,即第i個(gè)評(píng)價(jià)方法的評(píng)分;wij表示第i個(gè)輸入節(jié)點(diǎn)到第j個(gè)隱含層節(jié)點(diǎn)的權(quán)重;f(·)表示激勵(lì)函數(shù);wj表示第j個(gè)隱含層到輸出層的權(quán)重;bj和b表示偏置值;Score是輸出層的輸出,代表Blend對(duì)機(jī)器譯文的評(píng)分。
我們進(jìn)行了四組實(shí)驗(yàn): (1)探索基于相對(duì)排序數(shù)據(jù)的DPMFcomb和基于直接評(píng)估數(shù)據(jù)的Blend在目標(biāo)端為英語(yǔ)的語(yǔ)言對(duì)上的表現(xiàn),對(duì)比兩種模型的性能; (2)分別實(shí)現(xiàn)基于SVM和FFNN的Blend訓(xùn)練方法,對(duì)比二者性能; (3)實(shí)驗(yàn)了融合不同種類(lèi)的自動(dòng)評(píng)價(jià)方法,為Blend尋找在性能和效率上的平衡; (4)在其他語(yǔ)言對(duì)上驗(yàn)證Blend的有效性。模型評(píng)價(jià)指標(biāo)是模型輸出與標(biāo)準(zhǔn)人工評(píng)價(jià)分?jǐn)?shù)的皮爾遜(Pearson)一致性系數(shù)。
我們?cè)赪MT16評(píng)測(cè)任務(wù)中目標(biāo)端為英語(yǔ)的各語(yǔ)言對(duì)上和英語(yǔ)—俄語(yǔ)語(yǔ)言對(duì)上測(cè)試。DA評(píng)價(jià)數(shù)據(jù)從WMT15-16評(píng)測(cè)任務(wù)中獲得,數(shù)據(jù)量情況如表5所示。因?yàn)槟壳爸挥猩贁?shù)有限的DA評(píng)價(jià)數(shù)據(jù),當(dāng)我們測(cè)試WMT16中每一個(gè)目標(biāo)端為英語(yǔ)的語(yǔ)言對(duì)(560句)時(shí),使用WMT16的其他目標(biāo)端為英語(yǔ)的語(yǔ)言對(duì)和WMT15的所有目標(biāo)端為英語(yǔ)的語(yǔ)言對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練(共4 800句)。對(duì)于英語(yǔ)—俄語(yǔ)語(yǔ)言對(duì),我們使用WMT15的英語(yǔ)—俄語(yǔ)數(shù)據(jù)(500句)訓(xùn)練,在WMT16的英語(yǔ)—俄語(yǔ)(560句)上測(cè)試。
表5 WMT15-16評(píng)測(cè)任務(wù)DA評(píng)價(jià)數(shù)據(jù)量
使用SVM regression訓(xùn)練時(shí),訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的特征都?xì)w一化到[-1,1]區(qū)間。我們使用epsilon-SVR,選擇RBF核函數(shù),epsilon設(shè)置為0.1。使用FFNN訓(xùn)練時(shí),訓(xùn)練集與測(cè)試集保持與使用SVM regression時(shí)一致,并從訓(xùn)練集中隨機(jī)抽取500句作為開(kāi)發(fā)集,其他設(shè)置在下文中詳細(xì)介紹。
在WMT16評(píng)測(cè)中,DPMFcomb融合57個(gè)自動(dòng)評(píng)價(jià)方法,使用SVMrank,從WMT12-WMT14評(píng)測(cè)任務(wù)的所有目標(biāo)端為英語(yǔ)的語(yǔ)言對(duì)中,根據(jù)RR評(píng)價(jià)結(jié)果,抽取約445 000的訓(xùn)練數(shù)據(jù)。為了對(duì)比,Blend融合同樣的57個(gè)自動(dòng)評(píng)價(jià)方法,使用SVM regression,從WMT15-WMT16的目標(biāo)端為英語(yǔ)的語(yǔ)言對(duì)上,抽取4 800句訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,訓(xùn)練得到的模型稱(chēng)為Blend.all。
表6和表7分別列出了系統(tǒng)級(jí)和句子級(jí)的Pearson一致性系數(shù)。表6顯示Blend.all在WMT16的目標(biāo)端為英語(yǔ)的語(yǔ)言對(duì)中,在系統(tǒng)級(jí)上與人工評(píng)價(jià)的平均一致性(0.951)達(dá)到最高,超過(guò)了當(dāng)年評(píng)測(cè)中表現(xiàn)最好的兩個(gè)自動(dòng)評(píng)價(jià)方法,MPEDA(0.941)和BEER (0.920)。表7列出WMT16評(píng)測(cè)的目標(biāo)端為英語(yǔ)的語(yǔ)言對(duì)中,Blend.all和另外兩個(gè)表現(xiàn)最好的自動(dòng)評(píng)價(jià)方法DPMFcomb和EMTRICS-F在句子級(jí)上的Pearson系數(shù)。DPMFcomb在WMT16評(píng)測(cè)的目標(biāo)端為英語(yǔ)的語(yǔ)言對(duì)上表現(xiàn)最好,說(shuō)明融合評(píng)價(jià)方法的有效性。表7顯示Blend.all在所有目標(biāo)端為英語(yǔ)的語(yǔ)言對(duì)的平均Pearson系數(shù)最高。值得一提的是,雖然Blend.all的訓(xùn)練集遠(yuǎn)遠(yuǎn)少于DPMFcomb的訓(xùn)練集,Blend.all的平均Pearson系數(shù)(0.641)卻高于DPMFcomb(0.633)。
所以,以上結(jié)果說(shuō)明在WMT16評(píng)測(cè)的目標(biāo)端為英語(yǔ)的語(yǔ)言對(duì)中,DA指導(dǎo)訓(xùn)練的Blend,在性能上優(yōu)于RR指導(dǎo)訓(xùn)練的DPMFcomb。這在一定程度上是由于DA數(shù)據(jù)比RR數(shù)據(jù)可靠: RR數(shù)據(jù)只反映機(jī)器譯文間的相對(duì)質(zhì)量,且存在評(píng)價(jià)者間一致性較低的問(wèn)題;而DA數(shù)據(jù)給出機(jī)器譯文的絕對(duì)評(píng)分,并且設(shè)計(jì)一系列措施保證其可靠性。因此,我們后面的實(shí)驗(yàn)在Blend上進(jìn)行。
表6 在WMT16評(píng)測(cè)數(shù)據(jù)上各自動(dòng)評(píng)價(jià)方法的10K系統(tǒng)級(jí)的Pearson系數(shù)
表7 在WMT16評(píng)測(cè)數(shù)據(jù)上各自動(dòng)評(píng)價(jià)方法的句子級(jí)Pearson系數(shù)
Blend設(shè)計(jì)分別使用SVM regression和FFNN訓(xùn)練的對(duì)比實(shí)驗(yàn),從中選擇一個(gè)更優(yōu)的訓(xùn)練方式。首先,我們?cè)诮菘苏Z(yǔ)—英語(yǔ)上嘗試多組實(shí)驗(yàn),尋找使得Blend在使用FFNN訓(xùn)練時(shí)的最優(yōu)實(shí)驗(yàn)參數(shù)設(shè)置。實(shí)驗(yàn)結(jié)果如表8所示。
表8(a)探索使用不同的數(shù)據(jù)形式,即原始數(shù)據(jù)(各個(gè)評(píng)價(jià)方法的評(píng)分)、使用libsvm中的svm_scale(表8中記為svm_std)歸一化數(shù)據(jù),以及Z值數(shù)據(jù)。不同的數(shù)據(jù)形式,分別與一層或兩層全連接神經(jīng)網(wǎng)絡(luò)組合,其他設(shè)置相同,具體如下: 采用SGD優(yōu)化方法,學(xué)習(xí)率設(shè)為0.01,使用sigmoid激勵(lì)函數(shù),隱層維度設(shè)為57(與輸入向量維度一致,即為融入的評(píng)價(jià)方法的個(gè)數(shù))。由表8(a)可知,2NN-orgin,即使用原始數(shù)據(jù)及兩層神經(jīng)網(wǎng)絡(luò)的實(shí)驗(yàn)設(shè)置,與DA人工評(píng)價(jià)的Pearson一致性系數(shù)最高。表8(b)首先在2NN-orgin基礎(chǔ)上嘗試不同的隱層維度,分別為64、128、256、512和1024。實(shí)驗(yàn)發(fā)現(xiàn)當(dāng)隱層維度為256時(shí),Pearson系數(shù)相對(duì)較高。之后在2NN-orgin-256上增加L1、L2正則項(xiàng),其Pearson系數(shù)有所增加;繼而將 sigmoid分別換為tanh和ReLU激活函數(shù),發(fā)現(xiàn)使用tanh時(shí)效果有明顯提升。表8(c)在表8(b)基礎(chǔ)上,把三種數(shù)據(jù)形式與設(shè)置為0.5的dropout分別組合,發(fā)現(xiàn)當(dāng)使用svm_scale與dropout組合設(shè)置時(shí),Pearson系數(shù)再次顯著提升。表8(d)嘗試不同的dropout值,發(fā)現(xiàn)當(dāng)其設(shè)置為0.1時(shí)效果最好;繼而嘗試更深的網(wǎng)絡(luò)層數(shù),發(fā)現(xiàn)效果稍微下降。
所以,我們采用2NN-svm_std-256-L-tanh-drop0.1的實(shí)驗(yàn)設(shè)置,記作Blend.NN,并采用此設(shè)置在其他到英語(yǔ)端的語(yǔ)言對(duì)上實(shí)驗(yàn),其結(jié)果與使用SVM regression訓(xùn)練得到的模型Blend.all比較,結(jié)果如表7所示。由表7可知,在當(dāng)前數(shù)據(jù)集上,Blend使用SVM的訓(xùn)練方式(Blend.all,0.641)略?xún)?yōu)于使用FFNN(0.639),由此可以說(shuō)明SVM在小數(shù)據(jù)集上就有較好的表現(xiàn),我們下文的實(shí)驗(yàn)均在SVM regression上進(jìn)行。
表8 各模型在WMT16的捷克語(yǔ)—英語(yǔ)上的Pearson系數(shù)
(a)
(b)
(c)
(d)
原則上,為獲得與人工評(píng)價(jià)數(shù)據(jù)更高的一致性,Blend能夠融入更多數(shù)量的自動(dòng)評(píng)價(jià)方法。然而,是否有些評(píng)價(jià)方法在性能上沒(méi)有對(duì)Blend起很大的作用,同時(shí)還降低了Blend的效率呢?為了探尋這點(diǎn),我們把Asiya工具中適用于目標(biāo)端為英語(yǔ)的語(yǔ)言對(duì)的默認(rèn)自動(dòng)評(píng)價(jià)方法分為三類(lèi),分別是基于詞匯、基于句法和基于語(yǔ)義的評(píng)價(jià)方法。下文中Blend.lex只融合了默認(rèn)的基于詞匯的自動(dòng)評(píng)價(jià)方法,Blend.syn和Blend.sem分別表示只融合了基于句法和基于語(yǔ)義的自動(dòng)評(píng)價(jià)方法。Blend.lex包含25種自動(dòng)評(píng)價(jià)方法,但實(shí)際只有九種自動(dòng)評(píng)價(jià)方法[注]分別是BLEU,NIST,GTM,METEOR,ROUGE,Ol,WER,TER和PER。,因?yàn)槠渲杏行┳詣?dòng)評(píng)價(jià)方法只是一種自動(dòng)評(píng)價(jià)方法的不同變種。Blend.syn和Blend.sem分別包含17種和13種自動(dòng)評(píng)價(jià)方法,但實(shí)際各自對(duì)應(yīng)三種不同的自動(dòng)評(píng)價(jià)方法(詳見(jiàn)文獻(xiàn)[15])。
在WMT16評(píng)測(cè)的句子級(jí)實(shí)驗(yàn)結(jié)果如表9所示。Blend.all,包含Asiya所有默認(rèn)的評(píng)價(jià)方法,在五個(gè)目標(biāo)端為英語(yǔ)的語(yǔ)言對(duì)(共6種)上與人工評(píng)價(jià)的一致性,以及平均一致性達(dá)到最高。然而,值得注意的是: Blend.lex在句子級(jí)上與人工評(píng)價(jià)的平均一致性與Blend.all相比僅差0.009,而B(niǎo)lend.syn和Blend.sem的性能遠(yuǎn)低于Blend.all,甚至低于Blend.lex?;诰浞ê突谡Z(yǔ)義的自動(dòng)評(píng)價(jià)方法通常比較復(fù)雜,耗時(shí)較長(zhǎng)。經(jīng)測(cè)試,基于詞匯、句法和語(yǔ)義的評(píng)價(jià)方法在服務(wù)器上的平均用時(shí)為19.3ms/句、85.5ms/句和181.4ms/句[注]CPU: AMD Opteron(TM),8核,8線(xiàn)程;內(nèi)存: 96GB。Blend.lex的性能與Blend.all相當(dāng),所以Blend可以只融合Asiya工具中基于詞匯的評(píng)價(jià)方法,在達(dá)到高性能的同時(shí)提高效率。
我們又繼續(xù)增加了四種其他的自動(dòng)評(píng)價(jià)方法到Blend.lex中: CharacTer[22], 一種基于字符的自動(dòng)評(píng)價(jià)方法;BEER[23],一種融入多角度特征的自動(dòng)評(píng)價(jià)方法;DPMF和ENTF(在DPMFcomb的實(shí)驗(yàn)中證明了它們的有效性)。新增的四種自動(dòng)評(píng)價(jià)方法分別從字符、句法等角度衡量機(jī)器譯文質(zhì)量,且都方便使用。表10說(shuō)明Blend.lex+4(0.640)的性能優(yōu)于Blend.lex(0.632),并且與表9中的Blend.all(0.641)非常接近,可以作為Blend在性能和效率上的一個(gè)很好的平衡。
表9 在WMT16評(píng)測(cè)數(shù)據(jù)上Blend融合不同類(lèi)型的評(píng)價(jià)方法時(shí)的句子級(jí)Pearson系數(shù)
表10 在WMT16評(píng)測(cè)數(shù)據(jù)上Blend.lex加入4個(gè)不同類(lèi)型的評(píng)價(jià)方法時(shí)的句子級(jí)Pearson系數(shù)
Blend可以適用于任何語(yǔ)言對(duì),只要融入的評(píng)價(jià)方法支持這種語(yǔ)言對(duì)。因?yàn)槟壳俺四繕?biāo)端為英語(yǔ)的語(yǔ)言對(duì)外,只有英語(yǔ)—俄語(yǔ)的DA評(píng)價(jià)數(shù)據(jù),所以我們?cè)赪MT16評(píng)測(cè)的英語(yǔ)—俄語(yǔ)語(yǔ)言對(duì)上實(shí)驗(yàn)來(lái)說(shuō)明這一點(diǎn),其句子級(jí)一致性結(jié)果如表11所示。
表11 在WMT16評(píng)測(cè)的英語(yǔ)—俄語(yǔ)語(yǔ)言對(duì)中各自動(dòng)評(píng)價(jià)方法的句子級(jí)Pearson系數(shù)
Blend.default融合Asiya提供的適用于英語(yǔ)—俄語(yǔ)的默認(rèn)自動(dòng)評(píng)價(jià)方法,共20個(gè),實(shí)質(zhì)為九種[注]與Blend.lex一樣的9種。。模型在500句訓(xùn)練集上訓(xùn)練得到。Blend.default+2在Blend.default基礎(chǔ)上,只加入BEER和 CharacTer,在句子級(jí)的Pearson系數(shù)上取得很大提升,從0.613上升到0.675。BEER是在WMT16評(píng)測(cè)中英語(yǔ)—俄語(yǔ)的最好的自動(dòng)評(píng)價(jià)方法(0.666),此實(shí)驗(yàn)結(jié)果顯示,BEER可以在性能上給Blend帶來(lái)很大提升,同時(shí)Blend可以進(jìn)一步提升性能已經(jīng)很好的自動(dòng)評(píng)價(jià)方法,再一次說(shuō)明融合策略的有效性。
Blend參加了WMT17評(píng)測(cè)的自動(dòng)評(píng)價(jià)任務(wù)。在目標(biāo)端為英語(yǔ)的語(yǔ)言對(duì)中,提交Blend.lex+4,其訓(xùn)練數(shù)據(jù)包括WMT15和WMT16所有目標(biāo)端為英語(yǔ)的語(yǔ)言對(duì)的數(shù)據(jù),共5 360句。在句子級(jí)上,Blend在所有七種目標(biāo)端為英語(yǔ)的語(yǔ)言對(duì)中,均獲得了第一名的成績(jī);在系統(tǒng)級(jí)上,在六種目標(biāo)端為英語(yǔ)的語(yǔ)言對(duì)(共七種)中取得了第一名的成績(jī);在10K系統(tǒng)級(jí)(10 000個(gè)翻譯系統(tǒng))上,在兩種目標(biāo)端為英語(yǔ)的語(yǔ)言對(duì)(共七種)中獲得了第一名。
此外,Blend參加了英語(yǔ)—俄語(yǔ)語(yǔ)言對(duì)的自動(dòng)評(píng)價(jià)任務(wù),提交Blend.default+2,訓(xùn)練數(shù)據(jù)包括WMT15和WMT16兩年英語(yǔ)—俄語(yǔ)的數(shù)據(jù),共1 060句。Blend在英語(yǔ)—俄語(yǔ)語(yǔ)言對(duì)中,取得在句子級(jí)上第五(與最高的一致性系數(shù)相差0.058)、系統(tǒng)級(jí)第一、10K系統(tǒng)級(jí)上第二的成績(jī)。WMT17評(píng)測(cè)結(jié)果的詳細(xì)報(bào)告參見(jiàn)文獻(xiàn)[24] ,Blend的系統(tǒng)報(bào)告參見(jiàn)文獻(xiàn)[25]。文獻(xiàn)[25]是本文提出的融合評(píng)價(jià)方法系列探索性工作的一部分,本文相比于文獻(xiàn)[25],有更系統(tǒng)的探索、實(shí)驗(yàn)和分析。
本文提出基于融合策略的自動(dòng)評(píng)價(jià)方法,融合多個(gè)自動(dòng)評(píng)價(jià)方法,以形成一個(gè)新的、與人工評(píng)價(jià)有更高一致性的自動(dòng)評(píng)價(jià)方法。根據(jù)人工評(píng)價(jià)方法的不同,我們提出兩種融合自動(dòng)評(píng)價(jià)方法,分別是DPMFcomb和Blend,實(shí)驗(yàn)結(jié)果表明: 使用DA指導(dǎo)訓(xùn)練的Blend,即使在較少的訓(xùn)練數(shù)據(jù)上,其性能也優(yōu)于DPMFcomb;在Blend上,對(duì)比使用SVM和FFNN兩種機(jī)器學(xué)習(xí)算法的性能,發(fā)現(xiàn)在當(dāng)前數(shù)據(jù)集上使用SVM效果略好(此結(jié)論僅限于當(dāng)前數(shù)據(jù)集);我們進(jìn)一步探索了在SVM基礎(chǔ)上融合不同的評(píng)價(jià)方法對(duì)Blend的影響,為Blend尋找在性能和效率上的平衡;在多個(gè)語(yǔ)言對(duì)上進(jìn)行了實(shí)驗(yàn),證明了Blend的穩(wěn)定性及通用性。該文提出的Blend方法參加了WMT17評(píng)測(cè),取得了多項(xiàng)第一的優(yōu)異成績(jī)。