亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        機(jī)器翻譯譯文質(zhì)量估計(jì)綜述

        2023-01-18 03:37:56鄧涵鋮熊德意
        中文信息學(xué)報(bào) 2022年11期
        關(guān)鍵詞:譯文單詞特征

        鄧涵鋮,熊德意

        (天津大學(xué) 智能與計(jì)算學(xué)部,天津 300350)

        0 引言

        機(jī)器翻譯(Machine Translation,MT)技術(shù)在全球化中扮演著十分重要的角色。隨著全球化推進(jìn),機(jī)器翻譯技術(shù)也在不斷地進(jìn)步,尤其是近些年來神經(jīng)機(jī)器翻譯技術(shù)(Neural Machine Translation,NMT)的出現(xiàn),將機(jī)器譯文質(zhì)量提升到了新的高度。盡管如今機(jī)器翻譯技術(shù)達(dá)到了較高水平,但不少機(jī)器譯文仍存在著錯(cuò)譯、漏譯、過譯等問題,且無法在機(jī)器翻譯系統(tǒng)中實(shí)時(shí)反映給使用者。即當(dāng)前機(jī)器翻譯系統(tǒng)尚無法滿足人類的翻譯需求,尤其是在缺少人類后期編輯(post-editing,PE)干預(yù)時(shí)。目前機(jī)器翻譯僅能作為計(jì)算機(jī)輔助翻譯(Computer-Assisted Translation,CAT)的手段之一[1]。如何在使用機(jī)器翻譯系統(tǒng)的過程中,實(shí)時(shí)地掌握機(jī)器譯文質(zhì)量成了人們研究的問題。因此針對(duì)不需要參考譯文的機(jī)器翻譯質(zhì)量估計(jì)(Machine Translation Quality Estimation,MTQE,QE)的研究應(yīng)運(yùn)而生。

        與如BLEU[2]、METEOR[3]、NIST[4]、TER[5]等需要參考譯文來計(jì)算對(duì)應(yīng)的指標(biāo)以評(píng)價(jià)機(jī)器譯文質(zhì)量的方法不同,QE僅需源語言文本及其經(jīng)過機(jī)器翻譯系統(tǒng)生成的目標(biāo)語言文本,即可自動(dòng)估計(jì)出目標(biāo)語言文本的翻譯質(zhì)量。Gandraburd等人[6]受語音識(shí)別領(lǐng)域中置信度估計(jì)(Confidence Estimation)的啟發(fā),最早將置信度估計(jì)引入到機(jī)器翻譯中。Quirk等人[7]將機(jī)器譯文句子人工標(biāo)注為Ideal、Acceptable、Possibly、Unacceptable四類質(zhì)量標(biāo)簽作為數(shù)據(jù)集,從雙語中提取有效特征,并通過SVM算法對(duì)機(jī)器譯文進(jìn)行分類。早期的QE任務(wù)并沒有準(zhǔn)確定義,針對(duì)QE的研究[8-10]大多集中在對(duì)統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)本身,且并未形成規(guī)模。2009年,Specia等人[11]提出了一套包括譯文句子人工打分標(biāo)注、雙語特征提取、機(jī)器學(xué)習(xí)算法訓(xùn)練譯文分?jǐn)?shù)模型在內(nèi)的QE方案。自2012年機(jī)器翻譯研討會(huì)(Workshop on Machine Translation,WMT)針對(duì)該方案正式將譯文質(zhì)量估計(jì)作為一項(xiàng)任務(wù)[12],QE任務(wù)開始廣泛被研究。發(fā)展至今,QE研究可分為三個(gè)階段: 基于特征工程和機(jī)器學(xué)習(xí)的QE方法階段、基于深度學(xué)習(xí)的QE方法階段、融入預(yù)訓(xùn)練模型的QE方法階段。

        本文組織結(jié)構(gòu)如下: 引言部分主要介紹機(jī)器翻譯質(zhì)量估計(jì)研究的背景及其意義;第1節(jié)介紹機(jī)器翻譯質(zhì)量估計(jì)作為WMT的經(jīng)典任務(wù),在WMT中的具體任務(wù)描述,包括任務(wù)目標(biāo)、任務(wù)所使用的數(shù)據(jù)集、任務(wù)評(píng)價(jià)指標(biāo)等內(nèi)容;第2節(jié)介紹基于傳統(tǒng)機(jī)器學(xué)習(xí)與特征工程的機(jī)器翻譯質(zhì)量估計(jì)的方法,包括常用的機(jī)器學(xué)習(xí)方法及常見特征;第3節(jié)介紹翻譯質(zhì)量估計(jì)方法過渡到神經(jīng)方法階段后出現(xiàn)的主流方法及其存在的問題;第4節(jié)介紹以BERT為代表的自然語言處理預(yù)訓(xùn)練模型(Pre-trained Models,PTMs)出現(xiàn)后,融入預(yù)訓(xùn)練模型的QE方法;第5節(jié)介紹除從QE模型方面改進(jìn)之外,圍繞數(shù)據(jù)增強(qiáng)展開的QE方法;第6節(jié)討論目前機(jī)器翻譯質(zhì)量估計(jì)所面臨的一些挑戰(zhàn)和未來的研究方向;第7節(jié)為本文小結(jié)。

        1 三種不同粒度的QE任務(wù)描述

        按照不同的質(zhì)量估計(jì)粒度劃分,QE任務(wù)可分為單詞級(jí)(word-level)、短語級(jí)(phrase-level)、句子級(jí)(sentence-level)、段落級(jí)(paragraph-level)及文檔級(jí)(document)五種,其中單詞級(jí)QE任務(wù)與短語級(jí)QE任務(wù)較為相似,也被稱為亞句子級(jí)(subsentence-level)QE任務(wù)[13]。

        QE任務(wù)是WMT上的一項(xiàng)經(jīng)典任務(wù),最早作為WMT的具體任務(wù)出現(xiàn)是在WMT12中。此后,不少Q(mào)E的工作都圍繞WMT上的QE任務(wù)來展開,所以以下主要按照WMT上的QE任務(wù),來具體介紹不同粒度QE任務(wù)的具體內(nèi)容。由于短語級(jí)QE任務(wù)和段落級(jí)QE任務(wù)分別與單詞級(jí)QE任務(wù)和文檔級(jí)QE任務(wù)較為相似,均只在WMT早期某些年份中少次出現(xiàn),且最近的研究工作較少圍繞短語級(jí)QE任務(wù)及段落級(jí)QE任務(wù)展開,故在本文中只介紹單詞級(jí)、句子級(jí)及文檔級(jí)三種粒度的QE任務(wù)。

        1.1 單詞級(jí)QE任務(wù)

        單詞級(jí)QE任務(wù)即預(yù)測給定機(jī)器譯文中每一個(gè)單詞及符號(hào)的質(zhì)量,可以幫助機(jī)器翻譯系統(tǒng)用戶直接了解到翻譯不好的位置,幫助后編輯工作者直接定位翻譯質(zhì)量差的單詞進(jìn)行修改。

        1.1.1 預(yù)測目標(biāo)

        單詞級(jí)QE任務(wù)的目標(biāo)為估計(jì)譯文中每一單詞或標(biāo)點(diǎn)符號(hào)的針對(duì)源語言文本的翻譯質(zhì)量。單詞級(jí)QE任務(wù)可以被認(rèn)作是一種有監(jiān)督的分類任務(wù),可分為二分類目標(biāo)(Binary Classification)、Level 1分類目標(biāo)(Level 1 Classification)和多分類目標(biāo)(Multi-class Classification)。

        單詞級(jí)QE任務(wù)二分類的目標(biāo)是預(yù)測譯文中每個(gè)詞或符號(hào)的好/壞(OK/BAD)標(biāo)簽,以表示每個(gè)詞或符號(hào)翻譯的優(yōu)劣。自WMT 2018起,除預(yù)測譯文中的詞或符號(hào)質(zhì)量外,QE任務(wù)還要求參與者預(yù)測詞或符號(hào)間空格的質(zhì)量,即判斷翻譯中有無遺漏單詞,并用BAD來標(biāo)注空格以表示有漏譯情況,OK表示無漏譯情況。

        Level 1分類目標(biāo)是在二分類的基礎(chǔ)上,將錯(cuò)誤翻譯的單詞(即BAD標(biāo)簽所對(duì)應(yīng)的單詞)按照多維度質(zhì)量指標(biāo)[14](Multidimensional Quality Metrics,MQM)中的一級(jí)錯(cuò)誤分類(包含準(zhǔn)確度錯(cuò)誤、流利度錯(cuò)誤兩類)細(xì)粒度化,即預(yù)測出翻譯中的錯(cuò)誤屬于準(zhǔn)確度錯(cuò)誤還是流利度錯(cuò)誤。

        單詞級(jí)QE任務(wù)的多分類目標(biāo)是在Level 1分類目標(biāo)的基礎(chǔ)上將錯(cuò)誤翻譯更細(xì)粒度化,將每個(gè)錯(cuò)誤翻譯的單詞都用MQM中的細(xì)粒度錯(cuò)誤類別(大小寫、標(biāo)點(diǎn)、術(shù)語、錯(cuò)誤翻譯、遺漏等)來標(biāo)記。

        Level 1分類目標(biāo)與多分類目標(biāo)在早期的WMT中均有出現(xiàn),但其數(shù)據(jù)集標(biāo)注相對(duì)于二分類目標(biāo)的數(shù)據(jù)集標(biāo)注更加復(fù)雜耗時(shí),并且各參賽系統(tǒng)獲得在前兩項(xiàng)任務(wù)上的效果與二分類目標(biāo)任務(wù)相比差距較大,作為二分類任務(wù)外的子任務(wù),較少研究團(tuán)隊(duì)參加。所以在WMT15及之后年份的WMT中,單詞級(jí)QE任務(wù)僅采用二分類目標(biāo)任務(wù)作為唯一任務(wù)。且相對(duì)于難度較大的Level 1分類目標(biāo)與多分類目標(biāo),二分類目標(biāo)相對(duì)簡單并以其實(shí)用性成為人們?cè)趩卧~級(jí)QE任務(wù)上的主要研究目標(biāo)。

        1.1.2 數(shù)據(jù)集

        總體來說,單詞級(jí)、句子級(jí)、文檔級(jí)三種粒度的QE任務(wù)所使用的訓(xùn)練集和開發(fā)集都包含以下幾部分: 源語言文本(src)、機(jī)器譯文文本(mt)、譯后編輯文本(pe)、數(shù)據(jù)標(biāo)簽(labels)。其中,歷屆WMT中的單詞級(jí)QE和句子級(jí)QE任務(wù)都使用同樣的src、mt及pe,僅因其預(yù)測目標(biāo)的區(qū)別而有不同數(shù)據(jù)標(biāo)簽,測試集不包含pe及l(fā)abels。

        具體而言,WMT中的單詞級(jí)及句子級(jí)的QE任務(wù)數(shù)據(jù)集一般選取特定領(lǐng)域(新聞、信息科技、制藥、生命科學(xué)等領(lǐng)域)的不同語言對(duì)的平行語料,并使用機(jī)器翻譯系統(tǒng)對(duì)平行語料中的一類語言文本(源語言文本)進(jìn)行翻譯得到目標(biāo)語言文本,再由專業(yè)的譯員參照平行語料對(duì)目標(biāo)語言文本后編輯得到譯后編輯文本(記作pe)。

        不同年份WMT的單詞級(jí)QE任務(wù)因有著不同的預(yù)測目標(biāo),因而其所使用的數(shù)據(jù)標(biāo)簽也不盡相同。如今主要使用的是OK/BAD二分類標(biāo)簽,可通過TERCOM(1)http://www.cs.umd.edu/~snover/tercom/工具對(duì)比機(jī)器譯文與譯后編輯文本自動(dòng)計(jì)算得來。表1以WMT2019中的英語-德語QE任務(wù)為例,展示單詞級(jí)QE數(shù)據(jù)集主要內(nèi)容。

        表1 單詞級(jí)QE任務(wù)數(shù)據(jù)集示例

        每個(gè)單詞都被標(biāo)記為OK或BAD。此外,在WMT18之后,如果兩個(gè)單詞之間有一個(gè)或多個(gè)單詞需要被插入,那么每個(gè)單詞之間的間隔都被標(biāo)記為BAD,否則標(biāo)記為OK。所以,如果目標(biāo)句子單詞的數(shù)量若為N個(gè),則每個(gè)目標(biāo)句子的標(biāo)簽數(shù)量是2N+1。

        1.1.3 評(píng)價(jià)指標(biāo)

        與其他分類任務(wù)相似,單詞級(jí)QE方法可使用準(zhǔn)確率(precision)、召回率(recall)、F1值(precision和recall的調(diào)和平均數(shù))作為評(píng)價(jià)指標(biāo),precision和recall的計(jì)算方式如式(1)、式(2)所示。

        其中,TP、FP、FN分別表示QE模型預(yù)測出的真正類(True Positive)、假正類(False Positive)、假負(fù)類(False Negative)的樣本數(shù)。F1計(jì)算方式如式(3)所示。

        (3)

        單詞級(jí)QE任務(wù)的最終評(píng)價(jià)指標(biāo)是“OK”和“BAD”類別的F1值的乘積,記作Fmult。

        由于數(shù)據(jù)集中的OK標(biāo)簽遠(yuǎn)遠(yuǎn)多于BAD標(biāo)簽,即單詞級(jí)QE這一分類任務(wù)中的類具有非常大的不平衡性。因此在WMT19及之后,馬修斯相關(guān)系數(shù)[15](Matthews correlation coefficient,MCC)也因其在類不平衡時(shí)的有效性,作為一項(xiàng)額外的評(píng)價(jià)指標(biāo)被引入到單詞級(jí)QE任務(wù)中[16],其計(jì)算如式(4)~式(6)所示。

        其中,N表示所有的預(yù)測總數(shù),即TP+TN+FP+FN,TN為模型預(yù)測的真負(fù)類(True Negative)的樣本數(shù)。

        1.2 句子級(jí)QE任務(wù)

        句子級(jí)QE任務(wù),旨在對(duì)每條翻譯的句子進(jìn)行整體的質(zhì)量估計(jì),是最早被定義和研究的QE任務(wù)[7],同時(shí)因?yàn)闄C(jī)器翻譯系統(tǒng)最常用于翻譯句子上,機(jī)器翻譯系統(tǒng)通常以句子為輸入并處理整條句子,因此句子級(jí)機(jī)器翻譯質(zhì)量估計(jì)具有很高的實(shí)用性,句子級(jí)QE任務(wù)也是最受各研究團(tuán)隊(duì)關(guān)注的任務(wù)。

        1.2.1 預(yù)測目標(biāo)

        在WMT中,句子級(jí)QE任務(wù)可分為打分和排名兩個(gè)子任務(wù),其中打分任務(wù)是給出一個(gè)代表句子質(zhì)量的絕對(duì)分?jǐn)?shù),而排名任務(wù)是對(duì)所有機(jī)器譯文句子按照估計(jì)的質(zhì)量進(jìn)行排序,打分任務(wù)為主要任務(wù)。作為最早出現(xiàn)在WMT上的QE任務(wù)發(fā)展至今,打分任務(wù)本身的預(yù)測目標(biāo)也是一直在變化的,但其始終是圍繞將機(jī)器譯文句子后編輯至可出版水平的所需工作量(2)簡稱后編輯工作量,Post-Editing Effort。出發(fā)的。根據(jù)Krings[17]的觀點(diǎn),后編輯工作量可分時(shí)間、認(rèn)知及技術(shù)三個(gè)維度。其中時(shí)間維度的后編輯工作量是指將機(jī)器譯文后編輯至可出版水平所需的時(shí)間,簡稱后編輯時(shí)間。認(rèn)知維度指的是從人類(特指人類譯員)的認(rèn)知角度(譯員付出的腦力勞動(dòng)),將機(jī)器譯文后編輯至可出版水平所需的工作量,具有很強(qiáng)的主觀性。技術(shù)維度的后編輯工作量指的是將機(jī)器譯文后編輯至可出版水平所涉及到的技術(shù)操作(如插入、刪除、替換、移動(dòng)等)的工作量。

        后編輯時(shí)間的長短能夠直接比較不同機(jī)器譯文的好壞程度,其作為一種直觀的后編輯工作量體現(xiàn)方式,曾作為句子級(jí)QE子任務(wù)的預(yù)測目標(biāo)出現(xiàn)于WMT13[18]及WMT14[19]中。但是后編輯時(shí)間是一項(xiàng)具有很強(qiáng)主觀性的指標(biāo),在后編輯時(shí)間數(shù)據(jù)標(biāo)簽標(biāo)注過程中,不同譯者可能因翻譯經(jīng)驗(yàn)、熟練水平、打字速度等因素,對(duì)于相同機(jī)器譯文句子,后編輯時(shí)間差異較大,后編輯時(shí)間同樣可能會(huì)受因譯者個(gè)人狀況(如分心、勞累)等因素影響。并且,譯者在后編輯的過程中還需要時(shí)間閱讀、修改、校對(duì),這些時(shí)間也具有較強(qiáng)的主觀性,它們與后編輯時(shí)間之間的關(guān)系也難以定義。因此,將后編輯時(shí)間作為句子級(jí)QE任務(wù)的預(yù)測目標(biāo)缺乏一定的客觀性和實(shí)用性,WMT在2015年及之后不再將預(yù)測譯文后編輯時(shí)間來作為句子級(jí)QE的子任務(wù),輔助的數(shù)據(jù)標(biāo)簽出現(xiàn)于WMT16-WMT18句子級(jí)QE任務(wù)中。

        認(rèn)知維度的后編輯工作量主要由人類譯者對(duì)譯文后編輯工作量打分來間接體現(xiàn),又稱感知后編輯工作量(perceived post-editing effort[19])。例如,在WMT12[12]中,句子級(jí)QE任務(wù)的預(yù)測目標(biāo)為基于李克特量表的1~5分的質(zhì)量分?jǐn)?shù)[20],其中1分表示譯文無法進(jìn)行后編輯,需要從頭開始翻譯,2~4分分別表示約50%~70%、25%~50%、10%~25%的譯文需要后編輯,5分表示譯文清晰易懂,幾乎不需要后編輯。在WMT14[19]中,句子級(jí)QE任務(wù)的預(yù)測目標(biāo)為基于李克特量表的1~3分的質(zhì)量分?jǐn)?shù),與之前不同的是,分?jǐn)?shù)越低表示譯文需要的后編輯工作量越少,譯文質(zhì)量越高,1分表示無需任何后編輯的完美譯文,2分表示譯文中包含的錯(cuò)誤不超過3個(gè)及可能帶有一些易于修正的簡單錯(cuò)誤(如大小寫、標(biāo)點(diǎn)符號(hào)等),3分表示譯文質(zhì)量非常低,且無法輕易修正。認(rèn)知維度的后編輯工作量同樣具有很強(qiáng)的主觀性,同一譯文句子需要多個(gè)譯者(后編輯者)進(jìn)行打分標(biāo)注,而不同的譯者對(duì)于相同的譯文句子打分可能差異較大,因此認(rèn)知維度的后編輯工作量(感知后編輯工作量)作為數(shù)據(jù)標(biāo)簽是耗時(shí)耗力且不穩(wěn)定的,不適合作為句子級(jí)QE任務(wù)的預(yù)測目標(biāo)。

        技術(shù)維度的后編輯工作量中最常用且最具代表性的衡量指標(biāo)是人工翻譯編輯率(Human-targeted Translation Edit Rate[5],HTER),是翻譯編輯率(Translation Edit Rate[5],TER)的變種。TER的計(jì)算方法為機(jī)器譯文到參考譯文的最小編輯(插入、刪除、替換、移動(dòng)等四類編輯)次數(shù)除以其若干條非定向參考譯文(Untargeted Reference Translations)的平均長度。HTER的計(jì)算方式同樣為最小編輯次數(shù)與參考譯文的比值,但其參考譯文為經(jīng)過人工后編輯的定向參考譯文(3)Human-target Reference Translation,即1.1.2節(jié)中提到的PE。,由人類譯者參考非定向參考譯文以了解語義后,本著最少編輯次數(shù)的原則對(duì)機(jī)器譯文進(jìn)行后編輯得來。HTER相對(duì)于TER有更小及更客觀的最小編輯次數(shù),能更合理地反映機(jī)器譯文的質(zhì)量。HTER的計(jì)算如式(7)所示。

        (7)

        其中,I,D,S,Sh分別代表插入(Insert)、刪除(Delete)、替換(Substitute)、移動(dòng)(Shift)操作的次數(shù),R代表定向參考譯文中單詞的個(gè)數(shù)。

        HTER的范圍在[0,1]之間,其值越高,表示譯文需要修改的次數(shù)越多,質(zhì)量越差。相比于其他指標(biāo)它更能直觀且客觀地反映機(jī)器譯文所需工作量。因此從WMT13[18]開始,預(yù)測機(jī)器譯文的HTER成為句子級(jí)QE的一項(xiàng)子任務(wù),后于WMT15開始成為句子級(jí)QE唯一打分任務(wù),并沿用至今。

        1.2.2 數(shù)據(jù)集

        如1.1.2節(jié)中所提到,單詞級(jí)QE和句子級(jí)QE任務(wù)共用數(shù)據(jù)集中的src、mt及pe。使用TERCOM工具即可自動(dòng)計(jì)算出句子級(jí)QE任務(wù)所需的HTER標(biāo)簽。除此之外,如1.2.1節(jié)中提到的,部分?jǐn)?shù)據(jù)集中還有部分額外的如后編輯時(shí)間、后編輯者鍵盤點(diǎn)擊次數(shù)等輔助數(shù)據(jù)標(biāo)簽。

        1.2.3 評(píng)價(jià)指標(biāo)

        不同的子任務(wù)及不同的預(yù)測目標(biāo)有著不同的評(píng)價(jià)指標(biāo)。早期的句子級(jí)QE任務(wù)采用平均絕對(duì)誤差(MAE)作為主要評(píng)價(jià)指標(biāo),均方根誤差(RMSE)作為次要評(píng)價(jià)指標(biāo)。同時(shí)使用DeltaAvg,Spearman作為排名任務(wù)的評(píng)價(jià)指標(biāo)。

        Graham等人[21]指出,若QE模型的預(yù)測結(jié)果中方差較高,它將導(dǎo)致較高的平均絕對(duì)誤差,即使是在預(yù)測結(jié)果的分布遵循真實(shí)標(biāo)簽分布的情況下。該問題在用于句子級(jí)別QE的數(shù)據(jù)集中很常見,因此建議使用皮爾遜相關(guān)系數(shù)r(Pearson correlation coefficient)作為句子級(jí)QE預(yù)測HTER任務(wù)的評(píng)價(jià)指標(biāo),其計(jì)算方法如式(8)所示。

        (8)

        Souza等人[22]指出,由于皮爾遜相關(guān)系數(shù)r使用的前提假設(shè)之一是兩個(gè)變量均服從正態(tài)分布,而句子級(jí)QE任務(wù)中的HTER標(biāo)簽往往并非呈正態(tài)分布,因此將皮爾遜相關(guān)系數(shù)r作為句子級(jí)QE任務(wù)的唯一評(píng)價(jià)指標(biāo)是不可靠的,建議將MAE與皮爾遜相關(guān)系數(shù)r結(jié)合考慮,以更好評(píng)價(jià)句子級(jí)QE模型的效果。

        1.3 文檔級(jí)QE任務(wù)

        文檔級(jí)(又稱篇章級(jí))QE任務(wù)是指在沒有人工參考譯文的情況下對(duì)給定的翻譯文檔進(jìn)行質(zhì)量估計(jì),其文檔泛指包含多個(gè)句子(3個(gè)句子及以上)的文本。

        1.3.1 預(yù)測目標(biāo)

        文檔級(jí)QE任務(wù)自2016年作為一項(xiàng)新任務(wù)出現(xiàn)于WMT,發(fā)展至今主要分為兩類預(yù)測目標(biāo),一類預(yù)測是WMT16[23]中采用的兩階段后編輯方法[24]計(jì)算質(zhì)量得分,另一類是預(yù)測WMT18[25]中采用的由多維度質(zhì)量指標(biāo)(Multidimensional Quality Metrics,MQM)計(jì)算得來的MQM分?jǐn)?shù)及譯文文檔中句子級(jí)的MQM錯(cuò)誤標(biāo)簽。

        兩階段后編輯方法是Scarton等人[24]從文檔級(jí)特性出發(fā)提出的一種衡量文檔級(jí)譯文后編輯工作量的方法。在第一階段,句子順序被隨機(jī)打亂,然后由譯員進(jìn)行后編輯,記作PE1;在第二階段,將PE1中的句子按順序放回原處,由譯員將其作為整個(gè)文檔考慮其篇章特性,再次進(jìn)行后編輯,記作PE2。該方法的動(dòng)機(jī)是將文檔級(jí)QE與句子級(jí)QE區(qū)分開來,體現(xiàn)句子之間的銜接性和連貫性。然后譯文到PE1和PE2的后編輯代價(jià)HTER分別記為PE1×MT、PE2×MT。但Bojar等人[23]發(fā)現(xiàn)PE1×MT與PE2×MT差值較小,難以體現(xiàn)文檔級(jí)的后編輯代價(jià),而PE2×PE1值較大,表明當(dāng)只考慮文檔級(jí)別的錯(cuò)誤時(shí),文檔的變化更大,顯然忽略了單詞及句子級(jí)別的問題,影響整個(gè)文檔的質(zhì)量。因此,Bojar等人[23]提出了設(shè)置權(quán)重將PE1×MT和PE2×PE1線性組合衡量文檔級(jí)后編輯代價(jià),計(jì)算方法如式(9)所示。

        f=w1·PE1×MT+w2·PE2×PE1

        (9)

        其中,w1及w2為權(quán)重,由經(jīng)驗(yàn)得來,WMT16中的設(shè)置為w1=1,w2=13。

        與以上這種基于后編輯代價(jià)來估計(jì)文檔級(jí)譯文質(zhì)量不同?;贛QM模型的預(yù)測目標(biāo)的出發(fā)點(diǎn)是估計(jì)譯文文檔中的翻譯錯(cuò)誤程度,參與者被要求預(yù)測基于MQM錯(cuò)誤類型及錯(cuò)誤嚴(yán)重程度計(jì)算得來的MQM分?jǐn)?shù)。MQM模型將譯文中的錯(cuò)誤分為輕微錯(cuò)誤(minor)、重大錯(cuò)誤(major)、嚴(yán)重錯(cuò)誤(critical)三種嚴(yán)重程度,由專業(yè)譯員參考譯文中單詞級(jí)的錯(cuò)誤并按照Sanchez-Torron等人[26]提出的方法進(jìn)行標(biāo)注分類。MQM分?jǐn)?shù)計(jì)算如式(10)所示。

        (10)

        其中,nminor、nmajor、ncritical分別代表文檔中輕微錯(cuò)誤、重大錯(cuò)誤、嚴(yán)重錯(cuò)誤的個(gè)數(shù),n表示整個(gè)文檔的單詞數(shù)。MQM越大,表示譯文質(zhì)量越高,上限為1(即譯文中無任何錯(cuò)誤),若錯(cuò)誤很嚴(yán)重,MQM分?jǐn)?shù)有可能為負(fù)數(shù)。

        此外,自WMT19開始,參與者還被要求預(yù)測機(jī)器譯文文檔中單詞級(jí)的錯(cuò)誤類型(與1.2.1節(jié)類似)。

        1.3.2 數(shù)據(jù)集

        不同的預(yù)測目標(biāo)對(duì)應(yīng)著帶有不同數(shù)據(jù)標(biāo)簽的數(shù)據(jù)集。基于兩階段后編輯方法質(zhì)量分?jǐn)?shù)的數(shù)據(jù)標(biāo)簽以及MQM分?jǐn)?shù)標(biāo)簽都由專業(yè)譯員標(biāo)注得來。與單詞級(jí)和句子級(jí)QE任務(wù)數(shù)據(jù)集共用src、mt、pe不同,文檔級(jí)QE任務(wù)的基本單位為文檔(至少包含3個(gè)句子)。一般而言,帶有MQM分?jǐn)?shù)標(biāo)簽的文檔級(jí)QE任務(wù)數(shù)據(jù)還帶有細(xì)粒度錯(cuò)誤(單詞級(jí)錯(cuò)誤)類型標(biāo)注及錯(cuò)誤嚴(yán)重程度標(biāo)注。

        近期的文檔級(jí)QE任務(wù)(WMT18-20)使用的數(shù)據(jù)集均基于亞馬遜產(chǎn)品評(píng)論數(shù)據(jù)集(4)http://jmcauley.ucsd.edu/data/amazon/(Amazon Product Reviews dataset),源語言文本來自亞馬遜網(wǎng)上最受歡迎的英文的體育和戶外產(chǎn)品名稱和描述,將其經(jīng)過最先進(jìn)的機(jī)器翻譯系統(tǒng)翻譯得到法語機(jī)器譯文,并由Unbabel團(tuán)隊(duì)人員標(biāo)注獲得MQM分?jǐn)?shù)標(biāo)簽。

        1.3.3 評(píng)價(jià)指標(biāo)

        預(yù)測兩階段后編輯質(zhì)量得分及預(yù)測MQM得分都與預(yù)測HTER的句子級(jí)QE任務(wù)同樣采用皮爾遜相關(guān)系數(shù)作為主要評(píng)價(jià)指標(biāo),評(píng)價(jià)預(yù)測值與真實(shí)值的相關(guān)性,同時(shí)采用MAE、RMSE作為輔助評(píng)價(jià)指標(biāo)。而預(yù)測機(jī)器譯文文檔中單詞級(jí)的錯(cuò)誤類型的評(píng)價(jià)指標(biāo)則與單詞級(jí)QE任務(wù)的相同,同樣使用F1值作為評(píng)價(jià)指標(biāo)。

        2 基于特征工程與機(jī)器學(xué)習(xí)的QE方法

        如引言部分所提及,早期針對(duì)QE任務(wù)的研究未形成規(guī)模,QE任務(wù)未被準(zhǔn)確定義,學(xué)界對(duì)機(jī)器譯文質(zhì)量也尚未形成統(tǒng)一分類標(biāo)準(zhǔn)。隨著QE任務(wù)被納入WMT12,QE任務(wù)逐漸形成基于特征工程與機(jī)器學(xué)習(xí)的研究框架,該框架將QE任務(wù)定義為有監(jiān)督的回歸/分類預(yù)測任務(wù)?;谔卣鞴こ膛c機(jī)器學(xué)習(xí)的QE方法框架如圖1所示,其核心部分為特征提取模塊與機(jī)器學(xué)習(xí)模塊,特征提取模塊用以對(duì)源語言及機(jī)器譯文文本進(jìn)行特征提取及特征選擇,該過程又稱特征工程;機(jī)器學(xué)習(xí)模塊通過提取好的特征在訓(xùn)練階段可對(duì)不同粒度的數(shù)據(jù)標(biāo)簽進(jìn)行訓(xùn)練擬合,學(xué)習(xí)到特征與質(zhì)量標(biāo)簽的關(guān)系,即可在預(yù)測階段實(shí)現(xiàn)對(duì)機(jī)器譯文的質(zhì)量估計(jì)。此階段相關(guān)的工作主要圍繞特征工程和機(jī)器學(xué)習(xí)算法的選擇兩方面進(jìn)行展開。

        圖1 基于特征工程與機(jī)器學(xué)習(xí)的QE方法框架

        2.1 基于特征工程的QE方法

        基于特征工程的QE方法主要從兩方面出發(fā),一是特征抽取,即如何從源語言及機(jī)器譯文文本中提取與翻譯質(zhì)量相關(guān)的特征;二是特征選擇與特征過濾,即在眾多特征中選取與機(jī)器譯文質(zhì)量最為相關(guān)的特征。

        在特征提取方面,2013年Specia等人[27]提出的QuEst模型(5)在2015年改進(jìn)為QuEst++[28],并作為WMT13-18的基線模型。將QE任務(wù)使用的特征歸納為了四大類: 復(fù)雜度特征,流利度特征,忠實(shí)度特征,置信度特征(圖2)。其中,復(fù)雜度特征由源語言得來,主要反映源語言文本的復(fù)雜程度與翻譯難度,例如源語言句子長度、源語言句子語言模型概率等;流利度特征由機(jī)器譯文中得來,包括機(jī)器譯文句子長度、機(jī)器譯文句子語言模型概率等;忠實(shí)度特征則由源語言文本與機(jī)器譯文共同得來,以反映翻譯是否將源語言文本中的意思完整保留及表達(dá),主要包括源語言句子與譯文句子長度比、源語言句子與譯文句子中各類詞性單詞個(gè)數(shù)比值等特征,以上這三類特征與具體機(jī)器翻譯系統(tǒng)本身無關(guān),又被稱為黑盒特征(Black-box Features)。置信度特征由機(jī)器翻譯系統(tǒng)得來,依賴于機(jī)器系統(tǒng)本身,又被稱為白盒特征(Glass-box Features),例如機(jī)器翻譯系統(tǒng)本身對(duì)輸出譯文的打分、n-best列表中不同翻譯假設(shè)(hypotheses)的個(gè)數(shù)、譯文中短語的平均長度等。

        圖2 QuEst框架特征分類

        除QuEst模型中提出的的四類特征外,不少團(tuán)隊(duì)對(duì)其他種類的句子級(jí)QE特征提取展開了研究,其中最為常見的是基于語言學(xué)的特征和偽參照譯文(pseudo references)、回譯[29](back-translation)特征。Almaghout等人[30]主要采用了組合范疇語法(Combinatory Categorial Grammar,CCG)特征,他們認(rèn)為與上下文無關(guān)的短語結(jié)構(gòu)語法形式相比,CCG更適合處理SMT文本。他們將翻譯分成從CCG解析圖中提取的最大語法塊,使用CCG特征來估計(jì)翻譯的合乎語法性,并對(duì)比了CCG特征與基線特征在法語-英語和阿拉伯語-英語數(shù)據(jù)集上的實(shí)驗(yàn)效果,結(jié)果表明CCG特征優(yōu)于基線特征。Langlois等人[31]提出的LORIA系統(tǒng)首次引入基于潛在語義索引(Latent Semantic Indexing,LSI)的特征來衡量源語言與目標(biāo)語言的詞匯相似性,并加入了基于偽參照譯文特征來判斷其與機(jī)器譯文的相似性。Kozlova等人[32]研究了更為傳統(tǒng)的句法特征對(duì)源語言與目標(biāo)語言句法解析樹的作用,提取如寬度(來自根節(jié)點(diǎn)的依賴數(shù)量)、最大深度、內(nèi)部節(jié)點(diǎn)比例、主語數(shù)量、關(guān)系子句等與句法樹、句型、詞性標(biāo)注等相關(guān)的句法特征,并將源語言文本輸入在線機(jī)器翻譯系統(tǒng)以獲取偽參考譯文,又將偽參考譯文回譯為源語言文本,最后再針對(duì)以上提及的文本進(jìn)行特征設(shè)計(jì)。Abdelsalam等人[33]基于詞對(duì)齊和雙語分布式表示,為句子級(jí)QE任務(wù)引入了一組新特征。Sagemo等人[34]使用不同工具提取詞對(duì)齊特征、詞性(POS)特征、基于短語結(jié)構(gòu)的特征、語言模型特征,并通過量化名詞翻譯錯(cuò)誤、重新排序措施、語法一致性和結(jié)構(gòu)完整性來獲得體現(xiàn)SMT系統(tǒng)翻譯難點(diǎn)的一致性特征。

        除了基于語言學(xué)的特征和偽參照譯文特征外,Bi?ici等人[35-36]基于可識(shí)別訓(xùn)練語料和測試語料之間翻譯行為的參考翻譯機(jī)器模型[37](referential translation machines,RTMs),直接估計(jì)翻譯輸出質(zhì)量,判斷文本之間語義相似度的方法,該方法無須依賴SMT系統(tǒng)信息及語言學(xué)分析,并通過特征衰減算法(feature decay algorithms,F(xiàn)DA5)在大量的候選平行語料中選擇與已經(jīng)給出的訓(xùn)練和測試語料之間翻譯行為相同的語料,添加到訓(xùn)練語料中。Shah等人[38]除了使用QuEst++中的基線特征外,還使用神經(jīng)網(wǎng)絡(luò)提取了連續(xù)空間語言模型特征(將在第3.1節(jié)展開)。

        以上特征提取方法主要針對(duì)句子級(jí)QE任務(wù),對(duì)句子級(jí)QE基線方法QuEst使用的特征進(jìn)行擴(kuò)充。Luong等人[39]針對(duì)單詞級(jí)QE任務(wù)使用了基于系統(tǒng)的(圖拓?fù)?、語言模型、對(duì)齊上下文等)、詞法的(詞性標(biāo)簽)、語法的(成分標(biāo)簽、到成分樹根的距離)和語義的(多義詞計(jì)數(shù))特征。除了SMT系統(tǒng)的現(xiàn)有組件外,還使用了其他外部工具和資源進(jìn)行特征提取。例如,TreeTagger(用于獲取詞性標(biāo)簽)、使用AnCora treebank訓(xùn)練的Bekerley parser(用于西班牙語生成組成樹)、WordNet和BabelNet(用于多義詞計(jì)數(shù))、谷歌翻譯等。該文提出的特征為WMT15-WMT18單詞級(jí)QE任務(wù)主要特征,并可使用MARMOT工具(6)https://github.com/qe-team/marmot進(jìn)行抽取。

        在特征選擇方面,González-Rubio等人[40]指出基于特征工程的QE方法存在著特征集高度冗余的問題,特征之間有高度的多重共線性,有些特征可能與預(yù)測質(zhì)量分?jǐn)?shù)無關(guān);且由于特征的數(shù)量和種類很多,而且訓(xùn)練集通常相對(duì)較小,因此需要對(duì)特征進(jìn)行降維操作,提出了偏最小二乘回歸的特征降維方法,并在文獻(xiàn)[41]中提出主成分分析的特征降維方法,通過在不同QE模型上的實(shí)驗(yàn)發(fā)現(xiàn)特征降維方法能顯著提升模型性能。Shah等人[42]使用高斯過程(Gaussian Process,GPs)在82個(gè)特征中選取了前20個(gè)特征,且取得較好實(shí)驗(yàn)結(jié)果。除此之外,特征過濾同樣能在一定程度上解決特征冗余的問題,Langlois等人[31]采用反向算法[43](backward algorithm)過濾無效的特征。

        2.2 基于傳統(tǒng)機(jī)器學(xué)習(xí)的QE方法

        對(duì)于句子級(jí)QE任務(wù)預(yù)測HTER這種表示為連續(xù)分?jǐn)?shù)的標(biāo)簽,回歸算法是自然的選擇。一系列的如邏輯回歸[30]、M5P算法[44]、局部最小二乘法[11]、高斯過程回歸[45-46]、極端隨機(jī)樹[47]、單層和多層感知機(jī)[8,48-49]、嶺回歸[35]、支持向量機(jī)[50]、基于多項(xiàng)式核的支持向量回歸算法[51]均被探索應(yīng)用于句子級(jí)QE任務(wù)中。Tezcan等人[52]通過實(shí)驗(yàn)對(duì)比了在相同實(shí)驗(yàn)設(shè)置及相同特征工程下基于支持向量機(jī)、線性回歸模型、隨機(jī)森林(Random Forest, RF)這三類機(jī)器學(xué)習(xí)算法,實(shí)驗(yàn)結(jié)果顯示支持向量機(jī)的效果最好。

        單詞級(jí)QE任務(wù)被定義為有監(jiān)督的分類模型,由于單詞級(jí)的QE任務(wù)總在譯文句子內(nèi)進(jìn)行,因此針對(duì)單詞級(jí)傳統(tǒng)QE方法的研究可分為非序列類和序列類[13]兩類模型。非序列類模型將句子中每一單詞獨(dú)立看待,不考慮單詞間的相互依賴性,序列類模型則是在進(jìn)行QE任務(wù)時(shí)關(guān)注到單詞所在的句子序列信息,即上下文信息。許多標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)模型都可用于非序列模型訓(xùn)練,Singh等人[53]及Esplà-Gomis等人[54]使用隨機(jī)森林分類器學(xué)習(xí)訓(xùn)練數(shù)據(jù)的決策樹集成,Rubino等人[55]使用了支持向量,Esplà-Gomis等人[56]及Tezcan等人[52]使用多層感知機(jī)作為單詞級(jí)QE的分類器,非序列模型早期展現(xiàn)了比較好的實(shí)驗(yàn)效果,但因忽略上下文信息,逐漸被持續(xù)發(fā)展的序列模型超越。例如,Esplà-Gomis等人[56]在WMT15中單詞級(jí)QE任務(wù)排名第一,但其在文獻(xiàn)[54]中的改進(jìn)版本在WMT16中單詞級(jí)QE任務(wù)排名下降到第七。

        序列模型中最常用的是條件隨機(jī)場(Conditional Random Fields,CRF)模型[57],它類似于生成隱馬爾可夫模型,其中任何變量的值都以其鄰居的值為條件,能夠較好地對(duì)單詞級(jí)QE任務(wù)進(jìn)行上下文建模。Luong等人[39]將CRF首次應(yīng)用于單詞級(jí)QE任務(wù),并在WMT13-14上取得較好成績。但近些年來,用以構(gòu)建序列模型的CRF逐漸被循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)所替代(基于神經(jīng)網(wǎng)絡(luò)的QE方法將在第3節(jié)中展開)。

        2.3 問題與挑戰(zhàn)

        基于特征工程與傳統(tǒng)機(jī)器學(xué)習(xí)的QE方法的核心在于特征工程,但特征提取和特征選擇嚴(yán)重依賴于人們對(duì)語言對(duì)的語言學(xué)分析,并需要進(jìn)行人工特征設(shè)計(jì),若沒有強(qiáng)大的語言學(xué)分析及人力資源,難以對(duì)其開展研究。此外,不同語言對(duì)及不同粒度的譯文有著截然不同的特征,即特征抽取耗時(shí)耗力且難以復(fù)用,缺乏在不同語言中的通用性。同時(shí),特征的選擇及抽取本身就存在較大誤差,大量帶有誤差的特征導(dǎo)致誤差在模型中累積,從而導(dǎo)致模型在QE任務(wù)上表現(xiàn)較差,且難以突破該框架本身對(duì)QE任務(wù)建模的能力。

        3 基于深度學(xué)習(xí)的QE方法

        3.1 利用神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取的QE方法

        隨著神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)技術(shù)在自然語言處理領(lǐng)域的初步應(yīng)用,詞嵌入[58-59](又稱詞向量)技術(shù)以及神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯(Neural Machine Translation, NMT)模型的出現(xiàn),一些研究團(tuán)隊(duì)開始將神經(jīng)網(wǎng)絡(luò)用于QE任務(wù)中的特征提取。Shah等人[38,42]除了使用QuEst中的傳統(tǒng)手工特征外,還使用基于詞袋模型(Continuous Bag-of-Words,CBOW)的Word2Vec[58]工具提取詞嵌入,以及計(jì)算源語言和目標(biāo)語言單詞在彼此詞嵌入空間映射的相似度,作為單詞級(jí)QE任務(wù)的額外特征;在句子級(jí)QE任務(wù)上,將訓(xùn)練連續(xù)空間語言模型[60](Continuous Space Language Model,CSLM)所產(chǎn)生的語言模型概率作為特征,并與傳統(tǒng)特征相結(jié)合,文獻(xiàn)[38]的實(shí)驗(yàn)結(jié)果顯示加入了CSLM特征的模型的句子級(jí)QE效果比未加入CSLM特征的模型更好。Shah等人[61]在此基礎(chǔ)上將NMT系統(tǒng)產(chǎn)生的基于對(duì)數(shù)似然估計(jì)的條件語言模型概率特征與CSLM提取的句子向量和交叉熵特征、由QuEst提取的傳統(tǒng)手工特征相結(jié)合,較文獻(xiàn)[38]中的方法取得了句子級(jí)QE任務(wù)上更好的實(shí)驗(yàn)結(jié)果。

        Chen等人[62-63]在Shah等人工作的基礎(chǔ)上,使用多種方法提取詞嵌入特征,并使用算術(shù)平均、TF-IDF加權(quán)平均、最小值、乘法等4種方法將詞嵌入合成為句子向量特征,并且使用循環(huán)神經(jīng)網(wǎng)絡(luò)的語言模型提取語言模型概率特征,將句子向量特征與語言模型概率特征結(jié)合,進(jìn)一步提升了神經(jīng)網(wǎng)絡(luò)在QE任務(wù)特征提取上的表現(xiàn)。此外,Abdelsalam等人[33]和Scarton等人[64]也將詞向量特征結(jié)合傳統(tǒng)特征分別應(yīng)用在了句子級(jí)和文檔級(jí)QE任務(wù)中。

        另一方面,一些研究者嘗試完全使用神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取并進(jìn)行質(zhì)量估計(jì),Kreutzer等人[65]提出的QUETCH方法利用基于多層感知機(jī)的深度前饋神經(jīng)網(wǎng)絡(luò)在平行語料上無監(jiān)督地訓(xùn)練一個(gè)將目標(biāo)詞分類為OK/BAD的二分類模型,然后將其用于單詞級(jí)QE任務(wù),且以固定大小的滑動(dòng)窗口形式輸入若干個(gè)目標(biāo)詞將向量拼接,以將上下文雙語表示信息傳入下游的前饋神經(jīng)網(wǎng)絡(luò)中,該方法屬于不依賴傳統(tǒng)手工特征而完全使用神經(jīng)網(wǎng)絡(luò)提取特征的QE方法,且取得了較好的實(shí)驗(yàn)效果,但其實(shí)驗(yàn)效果并不如融入了在此基礎(chǔ)上的傳統(tǒng)特征的QUETCH+方法。Martins等人[66]在QUETCH的基礎(chǔ)上,加入雙向門控循環(huán)單元(Bidirectional Gated Recurrent Units,BiGRU)網(wǎng)絡(luò)并堆疊前饋神經(jīng)網(wǎng)絡(luò)對(duì)QUETCH中的神經(jīng)網(wǎng)絡(luò)架構(gòu)進(jìn)行改進(jìn),并加入了源與目標(biāo)語言輸入的詞性(Part of Speech,POS)特征,取得了優(yōu)于基于傳統(tǒng)特征QE方法的實(shí)驗(yàn)結(jié)果。Patel等人[67]也在QUETCH的基礎(chǔ)上提出一種基于RNN的QE方法,同樣使用了預(yù)訓(xùn)練詞向量的方法,并基于滑動(dòng)窗口輸入雙語單詞序列,分別使用LSTM、GRU兩種RNN變體提取雙語序列的表示;并針對(duì)單詞級(jí)QE訓(xùn)練集中OK/BAD標(biāo)簽的不平衡問題,借用了Shang等人[68]提出的細(xì)粒度化標(biāo)簽方法,根據(jù)單詞在句子中的位置將OK標(biāo)簽分為更細(xì)粒度的三類OK標(biāo)簽,以達(dá)到均衡標(biāo)簽分布的目的,其實(shí)驗(yàn)結(jié)果證明了其改進(jìn)的有效性。除此之外,Paetzold等人[69]、Patel等人[67]也都分別在單詞級(jí)和句子級(jí)QE任務(wù)中使用了RNN提取特征。

        3.2 完全基于神經(jīng)網(wǎng)絡(luò)模型的QE方法

        Kreutzer等人[65]提出的QUETCH方法雖然使用了神經(jīng)網(wǎng)絡(luò)來進(jìn)行特征提取,但他們?cè)谀P洼斎氩糠志捎玫氖腔诨瑒?dòng)窗口以保留雙語上下文信息的方法,需要源語言文本和譯文之間每一個(gè)單詞及符號(hào)的對(duì)齊信息,然而QE數(shù)據(jù)集中語言對(duì)之間的對(duì)齊信息本身就是由基于統(tǒng)計(jì)方法的工具提取的,具有較大誤差,對(duì)QE效果造成巨大影響。

        隨著深度學(xué)習(xí)技術(shù)和計(jì)算設(shè)備的進(jìn)一步發(fā)展,端到端的神經(jīng)機(jī)器翻譯方法[70]被提出,并取得了極大的進(jìn)展,且其效果也超越了統(tǒng)計(jì)機(jī)器翻譯模型。因此,在QE領(lǐng)域,人們也開始思考完全基于神經(jīng)網(wǎng)絡(luò)的模型的QE方法,即無須提取手工特征的方法。

        Kim等人[71-72]提出將基于雙向RNN并引入注意力機(jī)制[70](Attention Mechanisms)的機(jī)器翻譯模型應(yīng)用到句子級(jí)QE任務(wù)上,是第一個(gè)“純神經(jīng)網(wǎng)絡(luò)”QE方法。2017年,Kim等人[73]將其命名為預(yù)測器-估計(jì)器(Predictor-Estimator,PredEst)模型,PredEst模型首先對(duì)引入注意力機(jī)制的RNNSearch[70]NMT模型進(jìn)行了改進(jìn),并將RNNSearch解碼器部分改為雙向RNN。如圖3所示,PredEst模型分為兩個(gè)模塊,并分兩個(gè)階段分別對(duì)兩個(gè)模塊進(jìn)行訓(xùn)練: (1)第一階段,使用大規(guī)模平行語料訓(xùn)練單詞預(yù)測器(Word Predictor)模塊(如圖3第Ⅰ部分所示),詞預(yù)測器的任務(wù)是根據(jù)輸入的源語言及目標(biāo)語言信息,來預(yù)測目標(biāo)語言中心詞,近似一個(gè)NMT模型。與NMT模型不同的是,在解碼階段PredEst模型通過雙向RNN不僅能接收到從左到右的目標(biāo)語言信息,同時(shí)也能獲取從右到左的目標(biāo)語言信息,可充分利用目標(biāo)語言上下文信息,更加符合QE任務(wù)的實(shí)際。在預(yù)測中心詞的過程中,我們可以充分獲取源端和目標(biāo)端的雙向上下文信息,以提取每一特定中心詞的質(zhì)量向量,該質(zhì)量向量包含了當(dāng)前位置應(yīng)該被正確預(yù)測為中心詞單詞的信息; (2)第二階段,使用帶有質(zhì)量標(biāo)簽的QE數(shù)據(jù)訓(xùn)練質(zhì)量估計(jì)器(Quality Estimator)模塊(如圖3第Ⅱ部分所示),首先將QE數(shù)據(jù)中的雙語文本輸入到預(yù)測器中,以提取機(jī)器譯文句子每一單詞的質(zhì)量向量,再將譯文單詞質(zhì)量向量逐一輸入到估計(jì)器模塊,經(jīng)過估計(jì)器中的RNN模型輸入QE數(shù)據(jù)中的質(zhì)量標(biāo)簽,由估計(jì)器對(duì)機(jī)器譯文質(zhì)量向量及質(zhì)量標(biāo)簽進(jìn)行擬合。在預(yù)測階段,輸入源語言與目標(biāo)語言,經(jīng)過預(yù)測器提取譯文質(zhì)量,經(jīng)過估計(jì)器即可進(jìn)行譯文質(zhì)量標(biāo)簽預(yù)測。為了有效訓(xùn)練神經(jīng)網(wǎng)絡(luò),Kim等人[74]利用一種堆棧傳播(Stack Propagation)算法,針對(duì)單詞級(jí)QE任務(wù)、短語級(jí)QE任務(wù)和句子級(jí)QE任務(wù)對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行聯(lián)合訓(xùn)練。

        圖3 預(yù)測器-估計(jì)器模型框架

        Li等人[75-76]針對(duì)預(yù)測器-估計(jì)器模型中兩個(gè)網(wǎng)絡(luò)需獨(dú)立訓(xùn)練的問題,將預(yù)測器-估計(jì)器框架重構(gòu)為聯(lián)合神經(jīng)網(wǎng)絡(luò)框架,提出了端到端的QE方法,并稱之為UNQE聯(lián)合神經(jīng)模型。

        Martins等人[77-78]在WMT17中針對(duì)單詞級(jí)QE任務(wù)提出了由一個(gè)含有大量手工特征的序列線性模型LINEARQE和一個(gè)神經(jīng)網(wǎng)絡(luò)模型NEURALQE堆疊而成的STACKEDQE模型。LINEARQE線性模型集成了一元特征(依賴單個(gè)輸出標(biāo)簽)、二元特征(依賴連續(xù)輸出標(biāo)簽)、句法特征(POS標(biāo)注等)等三大類特征,并使用MIRA算法[79]來對(duì)計(jì)算特征權(quán)重。NEURALQE純神經(jīng)網(wǎng)絡(luò)模型在輸入層除輸入源文及譯文句子外,還增加了詞對(duì)齊、詞嵌入及POS特征,并通過多次堆疊前饋神經(jīng)網(wǎng)絡(luò)及雙向GRU獲取上下文向量。作者將上述兩個(gè)模型堆疊成為STACKEDQE模型,取得了較兩個(gè)單獨(dú)模型更好的實(shí)驗(yàn)結(jié)果。并在此基礎(chǔ)上堆疊自動(dòng)后編輯(Automatic Post-editing,APE)系統(tǒng)將其拓展為FULLSTACKEDQE以進(jìn)行句子級(jí)QE任務(wù)。該方法取得WMT 17的單詞級(jí)QE任務(wù)上取得第二名的好成績,但在句子級(jí)QE任務(wù)上較于同年提出的預(yù)測器-估計(jì)器模型有較明顯差距。Hu等人[80]針對(duì)單詞級(jí)QE任務(wù),在NEURALQE[77]的基礎(chǔ)上提出了對(duì)目標(biāo)詞的局部和全局上下文信息進(jìn)行有效編碼的方法,并將之命名為上下文編碼QE模型(Context Encoding Quality Estimation,CEQE)。該模型由三部分神經(jīng)網(wǎng)絡(luò)組成,第一部分為詞嵌入層,用于對(duì)目標(biāo)中心詞進(jìn)行表征,除與NEURALQE模型詞嵌入層一樣使用了POS特征、詞對(duì)齊信息外,還加入了目標(biāo)詞相鄰詞及對(duì)應(yīng)源文相鄰詞詞向量,豐富了目標(biāo)中心詞局部上下文信息;第二部分為一維卷積層,用于為每個(gè)目標(biāo)中心詞集成局部上下文信息;第三部分由前饋神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)堆疊而成,用于對(duì)句子中全局上下文信息進(jìn)行編碼。該方法取得WMT 18單詞級(jí)QE任務(wù)中6個(gè)語言方向中3個(gè)方向第一名的優(yōu)異成績,但與同期的“雙語專家”模型(將于3.3節(jié)介紹)在另3個(gè)語言方向上的單詞級(jí)QE任務(wù)效果差距明顯。

        3.3 雙語專家(Bilingual Expert)模型

        隨著帶有自注意力(self-attention)機(jī)制的Transformer模型[81]在機(jī)器翻譯領(lǐng)域的廣泛應(yīng)用,Wang等人[82]在預(yù)測器-估計(jì)器模型框架的基礎(chǔ)上引入Transformer模型,加強(qiáng)目標(biāo)語言與源語言關(guān)系的建模,并設(shè)計(jì)了判斷機(jī)器譯文正確與否的人工特征,在WMT18單詞級(jí)及句子級(jí)QE任務(wù)的所有參賽語言方向中取得最好成績。

        該模型基于預(yù)測器-估計(jì)器模型架構(gòu),包含詞預(yù)測和質(zhì)量估計(jì)兩個(gè)模塊,同樣需要分開在兩個(gè)階段訓(xùn)練,F(xiàn)an等人[83]將基于大規(guī)模平行語料訓(xùn)練的詞預(yù)測器類比為精通雙語的專家,并將該模型命名為雙語專家模型(Bilingual Expert),如圖4所示。在詞預(yù)測模塊中,雙語專家模型使用Transformer編碼器代替預(yù)計(jì)器中的RNN編碼器,使用雙向Transformer解碼器代替預(yù)測器中解碼器的雙向RNN解碼器。該模塊類似機(jī)器翻譯系統(tǒng),Transformer結(jié)構(gòu)的使用加強(qiáng)了模型對(duì)目標(biāo)語言與源語言關(guān)系的建模,并可避免因輸入序列過長而導(dǎo)致RNN產(chǎn)生的計(jì)算問題。但與基于Transformer結(jié)構(gòu)的機(jī)器翻譯模型不同,雙語專家模型使用的雙向Transformer解碼結(jié)構(gòu)增加了后向自注意力機(jī)制,使模型在預(yù)測中心詞任務(wù)時(shí),分別使用前向自注意力機(jī)制和后向自注意力機(jī)制,融入前文及后文的目標(biāo)語言信息,該設(shè)置更貼近QE任務(wù)實(shí)際應(yīng)用場景。詞預(yù)測模塊經(jīng)過訓(xùn)練后可提取出上下文隱層狀態(tài)z和上下文詞向量e兩種特征。除此之外,作者針對(duì)中心詞的預(yù)測設(shè)計(jì)了一個(gè)用以衡量機(jī)器譯文中心詞與雙語專家模型預(yù)測中心詞間差距的特征,名為錯(cuò)誤匹配特征(mis-matching Feature),該特征通過比較譯文中心詞和模型預(yù)測中心詞概率分布得來。質(zhì)量估計(jì)模塊使用了廣泛用于序列標(biāo)注和序列分類任務(wù)的雙向LSTM模型,將由詞預(yù)測模塊的所有特征拼接為一個(gè)向量輸入到雙向LSTM中,即可進(jìn)行句子級(jí)HTER回歸任務(wù)及單詞級(jí)序列標(biāo)注任務(wù)。由于雙語專家模型預(yù)測的中心詞可被視作參考譯文,作者指出可擴(kuò)展模型以支持結(jié)合QE和APE的多任務(wù)學(xué)習(xí)。

        此外,作者還嘗試在雙向LSTM層后添加額外的CRF層,但其對(duì)原始模型實(shí)驗(yàn)結(jié)果并無顯著改善;還嘗試使用自注意力機(jī)制模塊代替代雙向LSTM,但實(shí)驗(yàn)結(jié)果反而變差。作者認(rèn)為是第一階段用以訓(xùn)練詞預(yù)測模塊的平行語料與第二階段用以訓(xùn)練質(zhì)量估計(jì)模塊的QE數(shù)據(jù)間巨大數(shù)據(jù)量差異導(dǎo)致了這種結(jié)果。

        圖4 雙語專家模型框架

        3.4 問題與挑戰(zhàn)

        PredEst和雙語專家模型都是基于預(yù)測器-估計(jì)器模型架構(gòu)的QE方法,并在不同時(shí)期取得了QE研究領(lǐng)域內(nèi)最好的實(shí)驗(yàn)結(jié)果。該框架展現(xiàn)了強(qiáng)大的雙語關(guān)系建模及特征提取能力,因此成為完全基于神經(jīng)網(wǎng)絡(luò)模型QE方法的主流框架。但兩階段訓(xùn)練數(shù)據(jù)存在巨大數(shù)據(jù)量差異,從預(yù)測器中提取的特征由大量平行語料訓(xùn)練得來,而由數(shù)據(jù)量小很多且翻譯質(zhì)量參差不齊的QE數(shù)據(jù)訓(xùn)練而得來的估計(jì)器難以利用好這些特征。其次,雙語專家模型依賴大規(guī)模平行語料進(jìn)行訓(xùn)練,而不少語種之間缺乏平行語料,因此這一類基于預(yù)測器-估計(jì)器模型架構(gòu)的QE方法同樣具有難以擴(kuò)展到其他語種對(duì)間的挑戰(zhàn)。

        4 融入預(yù)訓(xùn)練模型的QE方法

        融入預(yù)訓(xùn)練模型的QE方法,又可稱為基于遷移學(xué)習(xí)的QE方法。隨著ELMo[84]、BERT[85]、XLM[86]等大規(guī)模預(yù)訓(xùn)練語言模型(7)以下簡稱預(yù)訓(xùn)練模型的出現(xiàn)與應(yīng)用及發(fā)展,尤其是在大規(guī)模平行語料上基于掩碼(Mask)訓(xùn)練的BERT出現(xiàn),并在一些下游任務(wù)上的表現(xiàn)遠(yuǎn)超原有方法,一些研究工作開始嘗試將預(yù)訓(xùn)練模型融入QE模型中,以更好地提取源語言文本和譯文文本的質(zhì)量向量,從而達(dá)到提高QE準(zhǔn)確度的目的。

        Kepler等人[87]分別使用了BERT、XLM等預(yù)訓(xùn)練模型代替了預(yù)測器-估計(jì)器模型框架中的預(yù)測器,并對(duì)比了基于BERT、XLM、雙語專家模型的QE模型的實(shí)驗(yàn)效果,實(shí)驗(yàn)發(fā)現(xiàn)融合了跨語言知識(shí)的基于XLM的QE模型性能最好,并獲得了當(dāng)時(shí)WMT19中QE任務(wù)的最好成績[16]。Hou等人[88]提出了兩種QE模型: 雙向翻譯QE模型和基于BERT的QE模型,雙向翻譯QE模型利用回譯文本從兩個(gè)不同的翻譯方向運(yùn)用兩種語言之間的翻譯知識(shí),基于BERT的QE模型則從源端和目標(biāo)端獲取額外的單語知識(shí),該模型取得了WMT19上句子級(jí)QE任務(wù)的較好成績。Zhou等人[89]對(duì)比使用雙語專家模型、ELMo模型、BERT模型在QE上的效果,其中基于ELMo模型的QE方法取得了當(dāng)時(shí)最好效果,他們猜測是因?yàn)镋LMo減少了目標(biāo)語言下文的可見信息,使得預(yù)測器對(duì)中心詞預(yù)測更加困難,并迫使模型更關(guān)注源語言信息,獲得更多來自源語言的特征。

        Yankovskaya等人[90]使用BERT和LASER[91];兩種預(yù)訓(xùn)練模型得到的向量作為回歸神經(jīng)網(wǎng)絡(luò)模型的特征,并進(jìn)一步提出了使用機(jī)器翻譯系統(tǒng)的對(duì)數(shù)概率作為輸入特征,與BERT提取到的向量特征、LASER提取到的向量特征一并輸入前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行融合,實(shí)驗(yàn)證明了機(jī)器翻譯系統(tǒng)對(duì)數(shù)概率特征的有效性。Mathur等人[92]提出了一種基于預(yù)訓(xùn)練模型語境向量的無監(jiān)督機(jī)器譯文自動(dòng)評(píng)價(jià)方法,其實(shí)驗(yàn)結(jié)果與人類評(píng)價(jià)相關(guān)度較高,說明在不依賴參考譯文的情況下對(duì)機(jī)器譯文質(zhì)量進(jìn)行判斷是可行的,同時(shí)也提示我們使用無監(jiān)督學(xué)習(xí)方法研究機(jī)器譯文質(zhì)量估計(jì)的可能性。

        Miao等人[93]基于BERT提出了三種融合預(yù)訓(xùn)練模型的QE方法: ①將BERT與雙語專家模型各自提取的特征融合的混合整合模型(Mixed Integration Model); ②基于BERT+LSTM+MLP的直接整合模型(Direct Integration Model); ③使用對(duì)齊知識(shí)約束機(jī)制的約束整合模型(Constrained Integration Model)。Miao等人推測直接整合模型方法可能太依賴于預(yù)先訓(xùn)練的語言模型,且有可能學(xué)習(xí)到一些有偏差的特征,沒有充分考慮平行句子對(duì)的對(duì)齊知識(shí),所以提出了一種約束方法,在預(yù)測質(zhì)量分?jǐn)?shù)時(shí),添加使用一個(gè)對(duì)齊知識(shí)對(duì)模型進(jìn)行約束,實(shí)驗(yàn)表明添加了約束條件的模型性能更優(yōu)。

        Wu等人[94]在WMT20上提交的系統(tǒng)集成了兩個(gè)模型: 用平行語料訓(xùn)練的基于Transformer的PredEst模型和經(jīng)過微調(diào)的基于XLM的PredEst模型。在這兩種模型中,預(yù)測器部分均作為特征提取器?;赬LM的預(yù)測器產(chǎn)生兩種上下文表示: 掩碼表示和非掩碼表示,基于Transformer的預(yù)測器僅產(chǎn)生非掩碼表示。估計(jì)器采用Transformer或LSTM訓(xùn)練,將具有不同模型和具有不同參數(shù)的同一模型的系統(tǒng)集成在一起,以生成單個(gè)句子級(jí)的預(yù)測。該方法在WMT20上英-中句子級(jí)QE任務(wù)上取得最好成績。

        Wang等人[95]提交在WMT20上的系統(tǒng)同樣使用PredEst架構(gòu),使用一個(gè)經(jīng)WMT新聞翻譯任務(wù)的平行語料預(yù)訓(xùn)練的不帶隨機(jī)掩碼的Transformer作為預(yù)測器,估計(jì)器部分針對(duì)特定任務(wù)(單詞級(jí)/句子級(jí))使用特定分類器,采用多任務(wù)學(xué)習(xí)的統(tǒng)一模型對(duì)單詞和句子級(jí)QE任務(wù)進(jìn)行聯(lián)合訓(xùn)練。Wang等人還指出,由于QE數(shù)據(jù)集與平行語料相比較小,若網(wǎng)絡(luò)中所有權(quán)值均被更新,則容易出現(xiàn)過擬合的現(xiàn)象,因此使用了瓶頸適配器層[96](Bottleneck Adapter Layers),以保持與訓(xùn)練好的Transformer參數(shù)固定,以提高遷移學(xué)習(xí)效率,防止過擬合。

        融入了預(yù)訓(xùn)練模型的QE方法展現(xiàn)了強(qiáng)大的針對(duì)QE任務(wù)的建模能力,但訓(xùn)練預(yù)訓(xùn)練模型的龐大數(shù)據(jù)量和參數(shù)量對(duì)硬件資源要求較高。不少研究團(tuán)隊(duì)無法獨(dú)立地進(jìn)行規(guī)模龐大的預(yù)訓(xùn)練,只能使用其他團(tuán)隊(duì)公開發(fā)布的預(yù)訓(xùn)練模型,為QE的研究工作帶來了局限性。

        5 基于數(shù)據(jù)增強(qiáng)的QE方法

        除了在模型上對(duì)QE方法進(jìn)行改進(jìn)之外,由于QE數(shù)據(jù)的稀缺性,一個(gè)很自然的想法是使用數(shù)據(jù)增強(qiáng)的方法來提升QE的效果。在一定程度上來說,無論是在模型中使用Word2Vec、GloVe[59]等外部工具提取的詞向量,還是基于PredEst結(jié)構(gòu),使用大規(guī)模平行語料訓(xùn)練估計(jì)器,還是融入預(yù)訓(xùn)練模型,都可算作數(shù)據(jù)增強(qiáng)的方法。具體說來,當(dāng)前基于數(shù)據(jù)增強(qiáng)的QE方法可以從以下幾個(gè)方面出發(fā): ①使用額外的平行語料; ②偽參照譯文及回譯方法使用; ③偽數(shù)據(jù)標(biāo)簽構(gòu)造; ④偽后編輯譯文的生成。

        Kim等人[73]提出的預(yù)測器-估計(jì)器模型,在預(yù)測器訓(xùn)練階段,需要大規(guī)模的平行語料進(jìn)行預(yù)訓(xùn)練,幫助預(yù)測器學(xué)習(xí)跨語言信息,并在質(zhì)量估計(jì)階段進(jìn)行知識(shí)遷移,以應(yīng)對(duì)當(dāng)前QE數(shù)據(jù)集規(guī)模較小的問題,但預(yù)訓(xùn)練平行語料與QE數(shù)據(jù)集中帶噪聲的語料之間的巨大數(shù)據(jù)量差異所導(dǎo)致的QE模型無法很好擬合質(zhì)量標(biāo)簽的問題,也亟待解決。Liu等人[97]采用平行語料訓(xùn)練額外的機(jī)器翻譯系統(tǒng),并對(duì)一部分平行語料進(jìn)行N-best解碼,最后將機(jī)器翻譯系統(tǒng)的輸出作為QE模型的訓(xùn)練數(shù)據(jù),在最大邊際似然估計(jì)的框架下,進(jìn)行形式化訓(xùn)練,以擴(kuò)充帶噪聲的QE數(shù)據(jù)。

        Wu等人[98]提出了一種擬合QE數(shù)據(jù)中錯(cuò)誤類型分布的偽數(shù)據(jù)標(biāo)簽構(gòu)造方法,不依賴外部機(jī)器翻譯系統(tǒng)及預(yù)訓(xùn)練,使用平行語料進(jìn)行QE數(shù)據(jù)增強(qiáng)。首先統(tǒng)計(jì)QE數(shù)據(jù)集中的插入、刪除、替換、移動(dòng)四類錯(cuò)誤的分布,然后選取平行語料中與QE數(shù)據(jù)TF-IDF相似度的較高的句子對(duì),并在選取出的句子對(duì)的目標(biāo)語言句子中根據(jù)錯(cuò)誤分布構(gòu)造錯(cuò)誤,以達(dá)到構(gòu)造QE偽數(shù)據(jù)的目的,因錯(cuò)誤分布相同,故偽數(shù)據(jù)的HTER標(biāo)簽也與原QE數(shù)據(jù)相似。該方法較為新穎,且無須訓(xùn)練額外的機(jī)器翻譯系統(tǒng)或使用大規(guī)模語料預(yù)訓(xùn)練模型,但由于QE偽數(shù)據(jù)的構(gòu)造完全由機(jī)器自動(dòng)生成,僅考慮翻譯錯(cuò)誤的分布而進(jìn)行構(gòu)造,無法模擬具體翻譯錯(cuò)誤的產(chǎn)生及真實(shí)的機(jī)器翻譯場景。

        受Back-Translation的啟發(fā),Junczys-Dowmunt等人[99]提出一種基于Round-Trip Translation的翻譯后編輯數(shù)據(jù)集增強(qiáng)方法,使用TERCOM工具對(duì)比偽后編輯譯文數(shù)據(jù)集與偽機(jī)器譯文數(shù)據(jù)集計(jì)算HTER便可得到QE數(shù)據(jù)集。該方法首先訓(xùn)練一個(gè)機(jī)器翻譯系統(tǒng),然后使用單語語料進(jìn)行兩次翻譯,兩次翻譯后的原始單語語料可被當(dāng)作后編輯譯文。該方法巧妙地自動(dòng)獲取偽后編輯譯文數(shù)據(jù)及偽HTER數(shù)據(jù),但兩次翻譯會(huì)使機(jī)器翻譯系統(tǒng)中的誤差疊加,嚴(yán)重影響數(shù)據(jù)集質(zhì)量。受Martins等人[77]APE-QE啟發(fā),Kepler等人將APE系統(tǒng)的輸出作為偽后編輯文本,并使用TERCOM工具自動(dòng)生成單詞級(jí)及句子級(jí)質(zhì)量標(biāo)簽。

        Wang等人[95]假設(shè)機(jī)器譯文到參照譯文的“距離”約等于機(jī)器譯文到后編輯譯文的“距離”加上后編輯譯文到參考譯文的“距離”,利用APE系統(tǒng)或其他在線翻譯系統(tǒng)生成不同的偽參照,并將質(zhì)量稍差的偽參照作為偽后編輯譯文,便可計(jì)算偽數(shù)據(jù)標(biāo)簽以進(jìn)行QE任務(wù),該方法被稱為偽后編輯譯文輔助QE方法(Pseudo-PE assisted QE,PEAQE)。實(shí)驗(yàn)表明,加入偽后編輯譯文數(shù)據(jù)進(jìn)行QE任務(wù),與只使用SRC和MT文本相比顯著提高了模型性能。

        6 未來發(fā)展及挑戰(zhàn)

        總體說來,經(jīng)過近20年的發(fā)展,QE領(lǐng)域的研究取得了長足的進(jìn)步,尤其是近年來深度學(xué)習(xí)和神經(jīng)機(jī)器翻譯技術(shù)的發(fā)展帶動(dòng)了QE研究的快速發(fā)展,與此同時(shí)也伴隨著新的挑戰(zhàn),主要有以下問題亟待解決。

        (1) 本文概述的QE模型主要為句子級(jí)別的QE任務(wù)模型,單詞級(jí)與文檔級(jí)的研究工作相對(duì)于句子級(jí)QE任務(wù)少很多?;谏疃葘W(xué)習(xí)和遷移學(xué)習(xí)雖然使單一模型可以進(jìn)行多任務(wù)學(xué)習(xí),但較少工作的出發(fā)點(diǎn)圍繞單詞級(jí)和文檔級(jí)QE展開,尤其是單詞級(jí)QE面向輔助機(jī)器翻譯或以后編輯較句子級(jí)QE更有實(shí)用性的情況下,單詞級(jí)QE和文檔級(jí)QE理應(yīng)更受到關(guān)注。

        (2) 如Tu等人[100]所指出,盡管NMT在翻譯質(zhì)量上有了顯著的提高,但它往往存在過翻譯和欠翻譯的問題。在機(jī)器譯文自動(dòng)評(píng)價(jià)(Machine Translation Evaluation)領(lǐng)域中,Yang等人[101]針對(duì)NMT中過翻譯和欠翻譯現(xiàn)象提出的自動(dòng)評(píng)價(jià)指標(biāo)OTEM和UTEM彌補(bǔ)了BLEU等指標(biāo)只能對(duì)譯文質(zhì)量進(jìn)行機(jī)械式評(píng)價(jià),而無法針對(duì)特定語言現(xiàn)象進(jìn)行評(píng)價(jià)的缺陷。目前QE領(lǐng)域暫未出現(xiàn)針對(duì)特定語言現(xiàn)象研究的譯文質(zhì)量的工作,該方法為我們提供了從機(jī)器譯文的具體語言現(xiàn)象著手,并更具有解釋地進(jìn)行質(zhì)量估計(jì)的角度。同時(shí),如何將機(jī)器譯文估計(jì)(QE)與機(jī)器翻譯自動(dòng)評(píng)估(Evaluation)更好地結(jié)合,提高QE與人類評(píng)價(jià)的相關(guān)度,或者利用無監(jiān)督學(xué)習(xí)及零資源學(xué)習(xí)的方式,無須參考譯文即可估計(jì)譯文的質(zhì)量,也是值得我們思考的問題。

        (3) 輔助譯后編輯作為機(jī)器翻譯質(zhì)量估計(jì)技術(shù)的主要應(yīng)用,體現(xiàn)了APE任務(wù)與QE任務(wù)是可以互相促進(jìn)的。理論上,QE任務(wù)的預(yù)測結(jié)果可直接輸入到APE系統(tǒng)判斷譯文是否需要后編輯及完成自動(dòng)后編輯,而另一方面,APE任務(wù)的輸出結(jié)果也可被QE系統(tǒng)所用,以生成QE任務(wù)的質(zhì)量標(biāo)簽,同時(shí)使質(zhì)量標(biāo)簽更具有解釋性。因此,能否使用強(qiáng)化學(xué)習(xí)等方法使QE模型向APE模型拓展,如何將APE任務(wù)與QE任務(wù)有效結(jié)合,需要我們進(jìn)一步探究。

        (4) 融入了預(yù)訓(xùn)練模型的QE方法展現(xiàn)了強(qiáng)大的針對(duì)QE任務(wù)的建模能力,但訓(xùn)練預(yù)訓(xùn)練模型的龐大數(shù)據(jù)量和參數(shù)量對(duì)硬件資源要求較高。不少研究團(tuán)隊(duì)無法獨(dú)立地進(jìn)行規(guī)模龐大的預(yù)訓(xùn)練,只能使用其他團(tuán)隊(duì)公開發(fā)布的預(yù)訓(xùn)練模型,為QE的研究工作帶來了局限性。但它還是沒有突破PredEst模型的局限性,如何解決預(yù)訓(xùn)練數(shù)據(jù)與QE數(shù)據(jù)之間巨大的數(shù)據(jù)鴻溝及如何讓更多的源語言信息參與到第二階段估計(jì)器的訓(xùn)練中來,仍然是目前QE研究領(lǐng)域懸而未決的問題。

        (5) 在數(shù)據(jù)增強(qiáng)方面,現(xiàn)階段采用的方法均為使用平行語料庫或預(yù)訓(xùn)練語言模型等外部資源提前擴(kuò)增QE數(shù)據(jù)來達(dá)到擴(kuò)增數(shù)據(jù)的目的,能否在QE系統(tǒng)中利用現(xiàn)成的QE數(shù)據(jù)資源自動(dòng)地生成額外的QE數(shù)據(jù),以達(dá)到實(shí)時(shí)的數(shù)據(jù)增強(qiáng)效果,是值得嘗試的方向。

        7 小結(jié)

        機(jī)器翻譯的質(zhì)量估計(jì)作為一種不需要參考譯文就能實(shí)時(shí)評(píng)估機(jī)器譯文質(zhì)量的應(yīng)用,有著很強(qiáng)的實(shí)用性,并且能夠促進(jìn)機(jī)器翻譯本身的發(fā)展。本文對(duì)機(jī)器翻譯的質(zhì)量估計(jì)進(jìn)行了全面的分析和介紹。根據(jù)歷年WMT中QE任務(wù)中的變化,介紹了從句子級(jí)、單詞級(jí)、文檔級(jí)三個(gè)粒度QE任務(wù)的具體概念和細(xì)節(jié),并將QE方法發(fā)展過程歸納為基于傳統(tǒng)機(jī)器學(xué)習(xí)、基于深度學(xué)習(xí)、融入預(yù)訓(xùn)練語言模型方法的三個(gè)階段,詳細(xì)介紹了每一階段相關(guān)研究工作的進(jìn)展,對(duì)各類方法的優(yōu)點(diǎn)和局限性進(jìn)行了歸納,并從方法和數(shù)據(jù)兩個(gè)方面,對(duì)QE方法的發(fā)展進(jìn)行了詳細(xì)介紹和總結(jié),最后針對(duì)當(dāng)前QE任務(wù)研究工作所存在的問題及挑戰(zhàn)提出了未來潛在的研究方向。

        猜你喜歡
        譯文單詞特征
        Stem cell-based 3D brain organoids for mimicking,investigating,and challenging Alzheimer’s diseases
        譯文摘要
        單詞連一連
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        看圖填單詞
        抓住特征巧觀察
        看完這些單詞的翻譯,整個(gè)人都不好了
        I Like Thinking
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        国产成人精品午夜视频| 五月综合丁香婷婷久久| 麻豆最新国产av原创| 久久久久久久波多野结衣高潮| 精品少妇一区二区三区视频| 无码伊人久久大杳蕉中文无码| 日本一区二区在线播放视频| 国产亚洲美女精品久久久2020 | 狼人香蕉香蕉在线28 - 百度| 女同啪啪免费网站www| 国产精品亚洲av国产| 东北熟妇露脸25分钟| 久久综合九色综合97欧美| 欧美日韩国产免费一区二区三区欧美日韩| 国产丝袜高跟美腿一区在线| 日本免费一区二区三区影院| 成人免费777777被爆出| 国产成人精品午夜福利免费APP | 国产女人的高潮国语对白| 国产精品密播放国产免费看| 自拍视频在线观看成人| 中文字幕一区二区三区久久网| 精品久久欧美熟妇www| 日韩丝袜亚洲国产欧美一区| 久久久噜噜噜久久熟女| 精品国偷自产在线视频九色| 国产精品久久久久久麻豆一区| 亚洲精品中文字幕尤物综合 | av日本一区不卡亚洲午夜| 日本最新一区二区三区在线视频| 亚洲人成网址在线播放| 亚洲AV肉丝网站一区二区无码 | 中文字幕乱码亚洲无限码| av一区二区三区人妻少妇| 午夜影视啪啪免费体验区入口| 国产色第一区不卡高清| 精品无码国产自产拍在线观看| 麻豆国产高清精品国在线| 激情在线视频一区二区三区| 亚洲国产精品综合久久网络 | 午夜桃色视频在线观看|