胡 緯,李茂西,裘白蓮 ,王明文
(1. 江西師范大學(xué) 計(jì)算機(jī)信息工程學(xué)院,江西 南昌 330022;2. 江西開(kāi)放大學(xué) 現(xiàn)代教育技術(shù)中心,江西 南昌 330046;3. 江西師范大學(xué) 管理科學(xué)與工程研究中心,江西 南昌 330022)
機(jī)器譯文自動(dòng)評(píng)價(jià)方法是機(jī)器翻譯研究的直接推動(dòng)力,其極大地促進(jìn)了機(jī)器翻譯的研究和系統(tǒng)開(kāi)發(fā)。一方面,譯文自動(dòng)評(píng)價(jià)結(jié)果方便用戶選擇更好的翻譯系統(tǒng);另一方面,譯文自動(dòng)評(píng)價(jià)結(jié)果能夠使系統(tǒng)開(kāi)發(fā)者及時(shí)地了解翻譯性能,以便開(kāi)發(fā)更好的翻譯系統(tǒng)[1-2]。
機(jī)器譯文自動(dòng)評(píng)價(jià)方法大都是通過(guò)對(duì)比機(jī)器翻譯系統(tǒng)的輸出譯文和人工參考譯文來(lái)定量計(jì)算譯文的質(zhì)量。BLEU[3]、模糊匹配的BLEU[4]、NIST[5]、METEOR[6]、METEOR-SD-Makov[7]和 TERp[8]等基于詞語(yǔ)匹配統(tǒng)計(jì)信息的方法使用詞形、詞根和同義詞等信息對(duì)機(jī)器譯文和人工參考譯文進(jìn)行對(duì)比計(jì)算譯文質(zhì)量;基于句法[9-10]、語(yǔ)義結(jié)構(gòu)匹配[11-12]的方法使用詞語(yǔ)的詞性知識(shí)、句子的短語(yǔ)結(jié)構(gòu)樹(shù)、依存結(jié)構(gòu)樹(shù)和語(yǔ)義角色標(biāo)注信息等對(duì)機(jī)器譯文和人工參考譯文進(jìn)行對(duì)比計(jì)算譯文質(zhì)量。近年來(lái),隨著深度神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言中的成功應(yīng)用,許多學(xué)者將詞語(yǔ)的分布式表示應(yīng)用在譯文自動(dòng)評(píng)價(jià)中,包括基于靜態(tài)詞向量的方法[13]和基于動(dòng)態(tài)上下文詞向量的方法[14]。
然而,當(dāng)前神經(jīng)譯文自動(dòng)評(píng)價(jià)方法均只在目標(biāo)語(yǔ)言的深度語(yǔ)義空間對(duì)比機(jī)器譯文和人工參考譯文,評(píng)價(jià)時(shí)不僅缺乏源語(yǔ)言句子的對(duì)照參考,而且沒(méi)有在同一語(yǔ)義空間對(duì)比源語(yǔ)言句子和機(jī)器譯文的語(yǔ)義差異。針對(duì)這個(gè)問(wèn)題,本文嘗試使用跨語(yǔ)種預(yù)訓(xùn)練語(yǔ)言模型XLM[15]將源語(yǔ)言句子、機(jī)器譯文和人工參考譯文映射到同一語(yǔ)義空間以計(jì)算差異特征: 人工參考譯文和機(jī)器譯文構(gòu)成的深度語(yǔ)義信息反映了同語(yǔ)種下機(jī)器譯文語(yǔ)義與真實(shí)語(yǔ)義之間的差異;源語(yǔ)言句子和機(jī)器譯文構(gòu)成的深度語(yǔ)義信息反映了不同語(yǔ)種下機(jī)器譯文語(yǔ)義與真實(shí)語(yǔ)義之間的差異;源語(yǔ)言句子和人工參考譯文構(gòu)成的深度語(yǔ)義信息作為評(píng)價(jià)的黃金參考。為使提取的句子表征充分考慮不同網(wǎng)絡(luò)層和不同詞語(yǔ)位置所包含的深度語(yǔ)義信息,本文分別在XLM模型表示的縱向和橫向上使用分層注意力[16]和內(nèi)部注意力,將得到的表征向量與黃金參考進(jìn)行逐元素相減、相乘等操作以增強(qiáng)表示,獲取差異特征,并將差異特征融入機(jī)器譯文自動(dòng)評(píng)價(jià)模型中以指導(dǎo)譯文自動(dòng)評(píng)價(jià)。在WMT’19譯文自動(dòng)評(píng)價(jià)數(shù)據(jù)集上與現(xiàn)有模型進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果表明融合XLM詞語(yǔ)表示的神經(jīng)機(jī)器譯文自動(dòng)評(píng)價(jià)方法在句子級(jí)和系統(tǒng)級(jí)任務(wù)上均顯著提高了機(jī)器翻譯自動(dòng)評(píng)價(jià)與人工評(píng)價(jià)之間的相關(guān)性。
在基于靜態(tài)詞向量的神經(jīng)機(jī)器譯文自動(dòng)評(píng)價(jià)中,Boxing和Hongyu[13]使用Word2Vec[17]靜態(tài)詞向量表征機(jī)器譯文和人工參考譯文中的詞語(yǔ),并通過(guò)啟發(fā)式的方法計(jì)算兩者在詞級(jí)別目標(biāo)語(yǔ)言語(yǔ)義空間中的相似度;Gupta等人[18]提出利用樹(shù)結(jié)構(gòu)長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Tree-LSTM)將機(jī)器譯文和人工參考譯文的詞級(jí)別Glove靜態(tài)詞向量表征編碼為句子級(jí)別表征,并以兩者句子表征的積與差逐元素操作的結(jié)果作為前饋神經(jīng)網(wǎng)絡(luò)的輸入計(jì)算譯文的質(zhì)量。
近年來(lái),BERT[19]、GPT[20]等使用大規(guī)模數(shù)據(jù)進(jìn)行訓(xùn)練的預(yù)訓(xùn)練語(yǔ)言模型被相繼提出,使得直接利用句子向量進(jìn)行機(jī)器譯文自動(dòng)評(píng)價(jià)的方法成為可能。RUSE[21]使用預(yù)訓(xùn)練的InferSent[22]、Quick-Thought[23]以及Universal Sentence Encoder[24]作為編碼器獲取句子向量,再通過(guò)多層感知機(jī)回歸器預(yù)測(cè)機(jī)器譯文質(zhì)量。BERT regressor[25]則使用更先進(jìn)的預(yù)訓(xùn)練語(yǔ)言模型BERT[19]代替RUSE中的三種句子向量編碼器,并與多層感知機(jī)回歸器一起進(jìn)行微調(diào)。Mathur等人[14]首先使用BERT提取的動(dòng)態(tài)詞向量,并將其輸入Bi-LSTM模型中進(jìn)一步學(xué)習(xí)機(jī)器譯文和人工參考譯文的句子向量,最后將兩者間的交互程度用于機(jī)器譯文質(zhì)量評(píng)價(jià)。然而機(jī)器翻譯是一項(xiàng)開(kāi)放式任務(wù),對(duì)于同一個(gè)源語(yǔ)言句子可能存在多個(gè)不同的正確翻譯。這些方法使用的單一人工參考譯文僅能代表一種可能的翻譯,不能準(zhǔn)確評(píng)價(jià)所有正確的候選譯文。Qin[26]和Fomicheva等人[27]通過(guò)引入多個(gè)參考譯文來(lái)緩解這個(gè)問(wèn)題,然而獲取多個(gè)參考譯文需要大量的人力。由于源語(yǔ)言句子與參考譯文在語(yǔ)義上是等價(jià)的,Takahashi等人[28]提出通過(guò)引入源語(yǔ)言句子作為偽參考的方法,Luo等人[29]使用譯文質(zhì)量估計(jì)向量將源端信息引入模型。
與上述方法不同,本文使用跨語(yǔ)種預(yù)訓(xùn)練語(yǔ)言模型XLM[15]獲取源語(yǔ)言句子、機(jī)器譯文和人工參考譯文兩兩之間的深度語(yǔ)義信息,結(jié)合注意力機(jī)制提取它們的差異特征,并將得到的差異特征融入機(jī)器譯文自動(dòng)評(píng)價(jià)中,進(jìn)一步提高了機(jī)器翻譯自動(dòng)評(píng)價(jià)方法與人工評(píng)價(jià)方法之間的相關(guān)性。
近年來(lái),使用大型語(yǔ)料庫(kù)進(jìn)行自監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練語(yǔ)言模型,如GPT[20]和BERT[19]等,在一些自然語(yǔ)言理解和生成任務(wù)上取得了顯著性突破。然而,這些模型僅在單語(yǔ)語(yǔ)料上進(jìn)行自監(jiān)督訓(xùn)練,使得在不同語(yǔ)言任務(wù)上不僅需要進(jìn)行多次訓(xùn)練,而且無(wú)法獲得跨語(yǔ)言的信息。XLM[15]在BERT上進(jìn)行改進(jìn): 使用字節(jié)對(duì)編碼[30]將子詞編碼獨(dú)立于語(yǔ)言;加入語(yǔ)言嵌入層;在多語(yǔ)言平行語(yǔ)料庫(kù)上使用翻譯語(yǔ)言模型(Translation Language Modeling, TLM)進(jìn)行預(yù)訓(xùn)練。在XNLI跨語(yǔ)言分類任務(wù)[31]上,XLM取得了比多語(yǔ)言BERT(multilingual BERT, mBERT)[19]更好的性能。
語(yǔ)境詞向量方法將詞語(yǔ)映射到一個(gè)語(yǔ)義空間中,具有相近含義的詞語(yǔ)在這個(gè)空間中會(huì)獲得較高的相似度。Mathur[14]等人從“譯文評(píng)價(jià)是計(jì)算機(jī)器譯文和人工參考譯文之間的相似度”的觀點(diǎn)出發(fā),將語(yǔ)境詞向量空間中機(jī)器譯文和人工參考譯文之間的交互程度用于反映機(jī)器譯文的質(zhì)量。Luo等人[29]通過(guò)引入譯文質(zhì)量估計(jì)向量的方法將源端信息融入Mathur等人[14]的模型中。
將長(zhǎng)度為lr的人工參考譯文r和長(zhǎng)度為lt的機(jī)器譯文t作為模型的輸入,使用Mathur[14]等人的(Bi-LSTM+attention)BERT和(ESIM)BERT分別得到matt和mesim,作為人工參考譯文和機(jī)器譯文的相互表示。Luo等人[29]提出的(Bi-LSTM+attention)BERT+QE和(ESIM)BERT+QE方法分別將matt、mesim與vqe拼接后得到的向量輸入到前饋神經(jīng)網(wǎng)絡(luò)中,以計(jì)算譯文質(zhì)量的得分。相比沒(méi)有引入源端信息的(Bi-LSTM+attention)BERT和(ESIM)BERT[14]方法,(Bi-LSTM+attention)BERT+QE和(ESIM)BERT+QE[29]方法在WMT’19譯文自動(dòng)評(píng)價(jià)任務(wù)數(shù)據(jù)集上與人工評(píng)分的相關(guān)性更高,證明了源端信息在譯文自動(dòng)評(píng)價(jià)任務(wù)中的有效性。
預(yù)訓(xùn)練語(yǔ)言模型最后一層中首個(gè)位置的輸出向量通常作為下游任務(wù)的輸入。然而,之前的研究[33]表明,預(yù)訓(xùn)練語(yǔ)言模型編碼器的每一層涵蓋不同的語(yǔ)言學(xué)特征: 底層關(guān)注詞法信息,中間層關(guān)注句法信息,頂層關(guān)注語(yǔ)義信息。對(duì)于機(jī)器譯文自動(dòng)評(píng)價(jià)任務(wù),各種語(yǔ)言學(xué)特征都是評(píng)價(jià)機(jī)器譯文質(zhì)量的重要信息,Zhang等人[34]研究表明僅使用最后一層通常會(huì)導(dǎo)致機(jī)器譯文自動(dòng)評(píng)價(jià)模型性能下降。此外,如果僅使用跨語(yǔ)種預(yù)訓(xùn)練語(yǔ)言模型首個(gè)位置的輸出向量,在一定程度上容易丟失其他位置輸出向量所包含的跨語(yǔ)言信息。
為了解決這兩個(gè)問(wèn)題,本文在跨語(yǔ)種預(yù)訓(xùn)練語(yǔ)言模型XLM縱向上使用分層注意力機(jī)制[16]以融合各層次語(yǔ)言學(xué)特征,并在橫向上使用內(nèi)部注意力機(jī)制將首位置的輸出向量與所有位置的平均向量進(jìn)行加權(quán)求和,以獲取包含各層次語(yǔ)言學(xué)特征的深度語(yǔ)義信息。
本文將源語(yǔ)言句子src、機(jī)器譯文mt和人工參考譯文ref兩兩拼接組成三組句子對(duì)分別輸入到XLM模型中: “src+ref”和“src+mt”表示由源語(yǔ)言到目標(biāo)語(yǔ)言的句子對(duì),“ref+mt”表示由同一個(gè)源語(yǔ)言句子產(chǎn)生的兩個(gè)目標(biāo)語(yǔ)言句子的組合。以長(zhǎng)度為lsrc+mt的句子對(duì)“src+mt”為例,注意力層結(jié)構(gòu)如圖1所示。
將XLM每一層的隱藏層向量作為XLM的輸出,通過(guò)分層注意力機(jī)制對(duì)這些隱藏層向量含有的各種語(yǔ)言學(xué)特征進(jìn)行融合,得到exj,如式(4)所示。
(4)
其中,βsrc+mt和γsrc+mt為可學(xué)習(xí)的權(quán)重參數(shù)?!皊rc+ref”和“ref+mt”所對(duì)應(yīng)的句子對(duì)向量計(jì)算過(guò)程與“src+mt”類似,分別得到ssrc+ref和sref+mt。
將通過(guò)注意力層得到的三個(gè)句子對(duì)表征向量ssrc+mt、ssrc+ref和sref+mt進(jìn)行拼接,以獲取跨語(yǔ)言特征空間中同語(yǔ)種和不同語(yǔ)種下的表征信息,并考慮同語(yǔ)義時(shí)不同語(yǔ)種間的差異。最后,對(duì)ssrc+mt和ssrc+ref之間逐元素相減、相乘以突出ssrc+mt與黃金參考ssrc+ref之間線性與非線性的差異,如式(7)所示。
(7)
本文將edv稱為差異向量,符號(hào)“;”表示向量的拼接操作。
為了提高自動(dòng)評(píng)價(jià)方法的效果,本文把提取的差異向量融入前人提出的(Bi-LSTM+attention)BERT+QE和(ESIM)BERT+QE模型中,模型整體結(jié)構(gòu)如圖2所示。圖左邊由UNQE模型[32]和Bi-LSTM網(wǎng)絡(luò)提取出源語(yǔ)言句子和機(jī)器譯文的詞語(yǔ)級(jí)別質(zhì)量向量,再通過(guò)池化層將其處理為句子級(jí)別質(zhì)量向量。圖右邊通過(guò)(Bi-LSTM+attention)BERT或(ESIM)BERT模型[14]提取交互表示的增強(qiáng)向量。圖中間部分使用跨語(yǔ)種預(yù)訓(xùn)練語(yǔ)言模型XLM[15]作為特征提取器,將“src+ref”、“src+mt”和“ref+mt”分別映射到跨語(yǔ)言特征空間中,通過(guò)分層注意力和內(nèi)部注意力獲取跨語(yǔ)言信息并進(jìn)行增強(qiáng)表示。最后將三個(gè)部分得到的向量進(jìn)行融合,并通過(guò)前饋神經(jīng)網(wǎng)絡(luò)得到機(jī)器譯文的質(zhì)量分?jǐn)?shù)。
圖2 融合XLM詞語(yǔ)表示的神經(jīng)機(jī)器譯文自動(dòng)評(píng)價(jià)方法模型總體結(jié)構(gòu)
由式(1)~式(3)可知模型的左邊部分輸出為句子級(jí)別的譯文質(zhì)量向量vqe[29,32]。模型右邊的輸出為matt或mesim,具體細(xì)節(jié)見(jiàn)文獻(xiàn)[14]。最后將vqe、edv和matt或mesim拼接得到的向量輸入到前饋神經(jīng)網(wǎng)絡(luò)中,以預(yù)測(cè)譯文質(zhì)量分?jǐn)?shù),如式(8)、式(9)所示。
(8)
或
其中,參數(shù)w,W,b,b′均為前饋神經(jīng)網(wǎng)絡(luò)中可學(xué)習(xí)的權(quán)重。
(11)
其中,M表示訓(xùn)練集包含的樣本數(shù)量。
為了驗(yàn)證融合XLM詞語(yǔ)表示的神經(jīng)機(jī)器譯文自動(dòng)評(píng)價(jià)方法的有效性,本文在WMT’19 Metrics Task[35]的德英、中英和英中語(yǔ)言對(duì)的語(yǔ)料庫(kù)上進(jìn)行實(shí)驗(yàn)。表1展示了每種語(yǔ)言對(duì)的統(tǒng)計(jì)數(shù)據(jù)。
表1 WMT’19 Metrics task德英、中英和英中任務(wù)的測(cè)試集數(shù)據(jù)統(tǒng)計(jì)
對(duì)于德英語(yǔ)言對(duì),本文使用WMT’15-17 Metrics task[36-38]德英語(yǔ)言對(duì)的句子級(jí)別任務(wù)數(shù)據(jù)集進(jìn)行訓(xùn)練,其中訓(xùn)練集和開(kāi)發(fā)集比例為9:1。由于WMT Metrics task 在中英和英中語(yǔ)言對(duì)的訓(xùn)練集樣本數(shù)量過(guò)少,本文采用Luo等人[29]的方法: 使用CWMT’18翻譯質(zhì)量評(píng)估在中英和英中語(yǔ)言對(duì)的語(yǔ)料用于模型訓(xùn)練,并將該語(yǔ)料庫(kù)中的人工后編輯率(HTER)處理為譯文人工評(píng)分(1-HTER)。中英和英中任務(wù)完全按照CWMT’18翻譯質(zhì)量評(píng)估數(shù)據(jù)集給定的訓(xùn)練集和開(kāi)發(fā)集進(jìn)行訓(xùn)練,表2展示了每種語(yǔ)言對(duì)的訓(xùn)練集和開(kāi)發(fā)集統(tǒng)計(jì)數(shù)據(jù)。
表2 德英、中英和英中訓(xùn)練集、開(kāi)發(fā)集數(shù)據(jù)統(tǒng)計(jì)
本文將BLEU[3]、chrF[10]、BEER[39]、僅使用跨語(yǔ)言模型的hyp+src/hyp+ref和hyp+src+ref方法[28]等作為基線方法,并將本文提出的方法與Mathur等人[14]的方法以及Luo等人[29]的方法進(jìn)行比較。遵循WMT’19 Metrics Task[35]中官方做法: 使用肯德?tīng)栂嚓P(guān)系數(shù)評(píng)價(jià)模型在句子級(jí)別上與人工評(píng)分的相關(guān)性,使用皮爾森相關(guān)系數(shù)評(píng)價(jià)模型在系統(tǒng)級(jí)別上與人工評(píng)分的相關(guān)性。
本文使用XLM-15[15]作為跨語(yǔ)言特征提取器,隱藏層向量維度大小為1 024。UNQE輸出的譯文質(zhì)量向量維度在德英任務(wù)中為500,在中英和英中任務(wù)上為700。模型中包含的Bi-LSTM隱藏層向量維度大小均為300。(Bi-LSTM+attention)BERT和(ESIM)BERT[14]均使用“bert-base-uncased”提取英文預(yù)訓(xùn)練詞向量、“bert-base-chinese” 提取中文預(yù)訓(xùn)練詞向量。本文模型使用Adam優(yōu)化器優(yōu)化模型參數(shù),初始學(xué)習(xí)率為0.000 4。
表3展示了在WMT’19 Metrics Task的德英、中英和英中任務(wù)上各種自動(dòng)評(píng)價(jià)方法與人工評(píng)價(jià)的句子級(jí)別相關(guān)性。本文提出的融合XLM詞語(yǔ)表示的神經(jīng)機(jī)器譯文自動(dòng)評(píng)價(jià)方法“(Bi-LSTM+attention)BERT+QE+DV”和“(ESIM)BERT+QE+DV”在三個(gè)語(yǔ)言對(duì)上與人工評(píng)分的句子級(jí)別相關(guān)性均遠(yuǎn)超過(guò)UNQE、sentBLEU等基線模型。僅使用跨語(yǔ)言模型的hyp+src/hyp+ref和hyp+src+ref方法[28]也具有一定的競(jìng)爭(zhēng)性?!?ESIM)BERT+QE+DV”相比Luo等人[29]未融合XLM詞語(yǔ)表示的方法“(ESIM)BERT+QE” 在德英、中英以及英中任務(wù)上分別提升了38.9%、3.2%和0.6%;“(Bi-LSTM+attention)BERT+QE+DV”相比“(Bi-LSTM+attention)BERT+QE”在德英、中英以及英中任務(wù)上分別提升了26.3%、3.4% 和1.7%。這表明通過(guò)融合XLM詞語(yǔ)表示的方法可以有效提升機(jī)器譯文自動(dòng)評(píng)價(jià)與人工評(píng)價(jià)之間的句子級(jí)別相關(guān)性。
表3 在WMT’19 Metrics Task的德英、中英和英中任務(wù)上自動(dòng)評(píng)價(jià)與人工評(píng)價(jià)的句子級(jí)別相關(guān)性對(duì)比實(shí)驗(yàn)
表4展示了在WMT’19 Metrics Task的德英、中英和英中任務(wù)上各種自動(dòng)評(píng)價(jià)方法與人工評(píng)價(jià)的系統(tǒng)級(jí)別相關(guān)性。本文提出的融合XLM詞語(yǔ)表示的神經(jīng)機(jī)器譯文自動(dòng)評(píng)價(jià)方法“(Bi-LSTM+Attention)BERT+QE+DV”和“(ESIM)BERT+QE+DV”在三個(gè)語(yǔ)言對(duì)上與人工評(píng)分的系統(tǒng)級(jí)別相關(guān)性超過(guò)了所有基線模型。同時(shí),“(ESIM)BERT+QE+DV”在所有語(yǔ)言對(duì)上均高于對(duì)應(yīng)的Luo等人[29]未融合XLM詞語(yǔ)表示的方法“(ESIM)BERT+QE”,在德英、中英以及英中任務(wù)上與人工評(píng)價(jià)之間的系統(tǒng)級(jí)別相關(guān)性分別提升了1.7%、0.8%和0.3%;“(Bi-LSTM+Attention)BERT+QE+DV” 相比(Bi-LSTM+Attention)BERT+QE”,在中英任務(wù)上保持一致,在英中任務(wù)上提升了0.8%。這表明通過(guò)融合XLM詞語(yǔ)表示的神經(jīng)機(jī)器譯文自動(dòng)評(píng)價(jià)方法有助于提升機(jī)器譯文自動(dòng)評(píng)價(jià)與人工評(píng)價(jià)之間的系統(tǒng)級(jí)別相關(guān)性。
表4 在WMT’19 Metrics Task的德英、英中和中英任務(wù)上自動(dòng)評(píng)價(jià)與人工評(píng)價(jià)的系統(tǒng)級(jí)別相關(guān)性對(duì)比實(shí)驗(yàn)
本節(jié)設(shè)計(jì)了一系列消融實(shí)驗(yàn)以進(jìn)一步分析本文方法中所引入的兩種注意力機(jī)制的有效性。消融實(shí)驗(yàn)結(jié)果在表5和表6中展示。表中“w/o L”、“w/o I”以及“w/o L&I”分別表示去除分層注意力、內(nèi)部注意力以及同時(shí)去除這兩種注意力后的模型。由表5和表6中所展示的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),分層注意力機(jī)制的引入對(duì)模型性能的影響最大,而內(nèi)部注意力機(jī)制對(duì)模型性能影響較弱,并且同時(shí)引入兩種注意力機(jī)制后模型性能達(dá)到最優(yōu),證明了本文所引入的注意力機(jī)制的有效性。另外,通過(guò)對(duì)表中結(jié)果的觀察發(fā)現(xiàn),在不使用分層注意力機(jī)制的情況下單獨(dú)引入內(nèi)部注意力機(jī)制反而會(huì)導(dǎo)致性能降低,這表明模型僅通過(guò)XLM最后一層的輸出可能無(wú)法充分獲取各個(gè)位置的跨語(yǔ)言信息。
表5 在WMT’19 Metrics Task的德英、中英和英中任務(wù)上自動(dòng)評(píng)價(jià)與人工評(píng)價(jià)的句子級(jí)別相關(guān)性消融實(shí)驗(yàn)
表6 在WMT’19 Metrics Task的德英、英中和中英任務(wù)上自動(dòng)評(píng)價(jià)與人工評(píng)價(jià)的系統(tǒng)級(jí)別相關(guān)性消融實(shí)驗(yàn)
為了定性說(shuō)明本文所提出方法的效果,在中英語(yǔ)言對(duì)開(kāi)發(fā)集中抽取了一個(gè)實(shí)例以分析融合XLM詞語(yǔ)表示的神經(jīng)機(jī)器譯文自動(dòng)評(píng)價(jià)方法的特點(diǎn)。
在如表7所示的實(shí)例中,機(jī)器譯文將源語(yǔ)言句子中“讓權(quán)力在陽(yáng)光下運(yùn)行”翻譯成“l(fā)et power run in the sunshine”。但通過(guò)對(duì)比源語(yǔ)言句子和人工參考譯文“power is exercised in a transparent manner”,可以發(fā)現(xiàn)對(duì)于相同語(yǔ)義,不同語(yǔ)種間的表達(dá)存在一定的差異,而機(jī)器譯文并沒(méi)有表達(dá)出源語(yǔ)言句子的內(nèi)在含義。相比未融合XLM詞語(yǔ)表示的(Bi-LSTM+Attention)BERT+QE和(ESIM)BERT+QE方法,本文所提方法的打分均更接近于人工評(píng)分。通過(guò)這個(gè)實(shí)例表明,融合XLM詞語(yǔ)表示的神經(jīng)機(jī)器譯文自動(dòng)評(píng)價(jià)方法能夠充分考慮源語(yǔ)言句子、人工參考譯文以及機(jī)器譯文之間的差異信息,更好地評(píng)價(jià)機(jī)器譯文質(zhì)量。
表7 不同自動(dòng)評(píng)價(jià)方法對(duì)機(jī)器譯文打分實(shí)例
本文提出融合XLM詞語(yǔ)表示的神經(jīng)機(jī)器譯文自動(dòng)評(píng)價(jià)方法。與現(xiàn)有方法相比,融合XLM詞語(yǔ)表示的神經(jīng)機(jī)器譯文自動(dòng)評(píng)價(jià)方法能夠充分考慮源語(yǔ)言句子、人工參考譯文以及機(jī)器譯文之間的差異,與人工評(píng)價(jià)具有更高的相關(guān)性。未來(lái)工作中,我們將嘗試在更深層次上挖掘源語(yǔ)言句子、人工參考譯文以及機(jī)器譯文之間的語(yǔ)義差異,進(jìn)一步提高譯文自動(dòng)評(píng)價(jià)的性能。