亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于神經(jīng)網(wǎng)絡的機器譯文自動評價綜述

        2023-12-06 02:41:16李茂西李易函
        中文信息學報 2023年9期
        關(guān)鍵詞:語義評價方法

        劉 媛, 李茂西, 羅 琪, 李易函

        (1.江西師范大學 計算機信息工程學院,江西 南昌 330022;2.江西開放大學 智能技術(shù)學院,江西 南昌 330046;3.江西師范大學 管理科學與工程,江西 南昌 330022;4.江西師范大學 圖書館,江西 南昌 330022;5.南京航空航天大學 自動化學院,江蘇 南京 210000)

        0 引言

        機器譯文自動評價(Automatic Evaluation of Machine Translation)是指通過度量機器譯文與參考譯文的相似程度或偏離程度實現(xiàn)對機器譯文質(zhì)量的評價,進一步實現(xiàn)系統(tǒng)級別翻譯質(zhì)量的評價,機器翻譯系統(tǒng)開發(fā)人員通過評價結(jié)果獲知機器譯文質(zhì)量,從而有針對性地對翻譯系統(tǒng)進行改進[1-4]。無需人工參考譯文,僅使用源語言句子和機器譯文進行評價的方法稱為譯文質(zhì)量估計(Quality Estimation),其在研究方法上與譯文自動評價差異較大。本文主要針對機器譯文自動評價進行綜述和討論。根據(jù)評價者的不同,機器譯文評價方法可分為人工評價和自動評價。人工評價盡管比較準確,但評價周期長、費用高且不客觀。自BLEU[5]等機器譯文自動評價指標被提出以來,譯文自動評價方法因其評價周期短、速度快、成本低等優(yōu)點被大規(guī)模應用于機器譯文質(zhì)量的評價,因此機器譯文自動評價對推動機器翻譯的發(fā)展發(fā)揮著重要作用。

        早期的譯文自動評價方法根據(jù)機器譯文與參考譯文的詞形相似程度評價譯文質(zhì)量[5-7],如基于n元文法匹配的方法和基于編輯距離的方法?;趎元文法匹配的方法計算機器譯文和參考譯文之間不同長度詞語片段的匹配程度,如BLEU[5]、NIST[8]和ROUGE[9]等;基于編輯距離的方法計算將機器譯文轉(zhuǎn)換為參考譯文所需編輯次數(shù)的比例,如單詞錯誤率WER[10]和翻譯錯誤率TER[11]等。此外,一些學者提出基于語言學檢測點的方法,該類方法根據(jù)構(gòu)建的語言學檢測點對譯文相應部分進行打分[12],如Woodpecker[13]等。隨著人工智能的發(fā)展,基于傳統(tǒng)機器學習的方法采用機器學習的“特征工程+任務建模”范式對譯文質(zhì)量進行評價[14-16],由人工指定影響譯文質(zhì)量的各類特征,使用支持向量機等傳統(tǒng)機器學習算法預測機器譯文質(zhì)量,如BEER[17]、BLEND[18]等。

        傳統(tǒng)自動評價方法使用詞法、句法和淺層語義知識進行譯文評價。嚴格使用詞形進行匹配的方法很難準確評價包含詞序變化和一詞多義語言現(xiàn)象的譯文的質(zhì)量;而使用句法和淺層語義知識進行匹配的方法需要額外的語言學分析工具或特定的語言資源,這些語言學分析工具和資源與語言種類相關(guān),很難移植到不同語言種類的譯文上,導致其泛化性差。

        近年來,計算性能的提升和可用數(shù)據(jù)規(guī)模的增加促進了神經(jīng)網(wǎng)絡的發(fā)展與應用,大規(guī)模預訓練語言模型可以生成詞語或句子的稠密向量表示,這些向量中蘊含豐富的語法、語義信息。因此,基于神經(jīng)網(wǎng)絡的自動評價方法能有效根據(jù)語義評價機器譯文的質(zhì)量,并且泛化性好,已成為當前主流的研究方向。本文對基于神經(jīng)網(wǎng)絡的自動評價方法作詳細闡述,根據(jù)評價方式不同將其分為基于表征匹配的方法和基于端到端神經(jīng)網(wǎng)絡的方法,如圖1所示。

        圖1 基于神經(jīng)網(wǎng)絡的機器譯文自動評價方法分類一覽圖

        基于表征匹配的機器譯文自動評價方法將機器譯文和參考譯文映射到高維空間,以詞語級別向量或句子級別向量的形式作為機器譯文和參考譯文的詞或句的表征進行匹配,實現(xiàn)語義匹配度評估。根據(jù)表征是否含上下文語境信息將其進一步分為基于靜態(tài)表征匹配的方法和基于動態(tài)表征匹配的方法,基于靜態(tài)表征匹配的方法使用靜態(tài)預訓練模型獲取表征,基于動態(tài)表征匹配的方法使用含上下文語境信息的表征。

        基于端到端神經(jīng)網(wǎng)絡的機器譯文自動評價方法使用神經(jīng)網(wǎng)絡提取句子的深層語義信息,將深層語義信息進行回歸計算得到質(zhì)量分數(shù)。本文將基于端到端神經(jīng)網(wǎng)絡的機器譯文自動評價方法進一步分為基于基礎(chǔ)端到端神經(jīng)網(wǎng)絡的方法、基于“預訓練+微調(diào)”范式端到端神經(jīng)網(wǎng)絡的方法和基于其他形式端到端神經(jīng)網(wǎng)絡的方法。

        本文第1節(jié)、第2節(jié)分別詳細介紹基于表征匹配的方法和基于端到端神經(jīng)網(wǎng)絡的方法,第3節(jié)介紹相關(guān)的評測活動WMT自動評價任務及常用性能評價指標,最后對未來的研究方向和發(fā)展趨勢進行展望。

        1 基于表征匹配的機器譯文自動評價方法

        基于表征匹配的機器譯文自動評價方法將詞或句映射到高維空間,計算參考譯文與機器譯文詞語級別表征匹配程度或句子級別表征匹配程度,實現(xiàn)語義層面的質(zhì)量評價,提升評價準確性。根據(jù)表征是否含上下文語境信息,將其分為基于靜態(tài)表征匹配的方法和基于動態(tài)表征匹配的方法。

        1.1 基于靜態(tài)表征匹配的方法

        基于靜態(tài)表征匹配的方法使用靜態(tài)預訓練的詞向量GloVe或Word2Vec等獲取詞表征,計算機器譯文和參考譯文中詞表征的匹配相似度或偏離程度,或?qū)⒃~表征加工為句級表征后計算其匹配程度。根據(jù)用于匹配的表征粒度不同將其分為基于詞語級別靜態(tài)表征匹配的方法和基于句子級別靜態(tài)表征匹配的方法。

        1.1.1 基于詞語級別靜態(tài)表征匹配的方法

        基于詞語級別靜態(tài)表征匹配的方法使用靜態(tài)預訓練詞表征生成模型獲取機器譯文和參考譯文的詞表征,然后計算二者的匹配程度。貪心匹配法[19]計算機器譯文中所有詞表征與參考譯文中詞表征的最大匹配余弦相似度、參考譯文中所有詞表征與機器譯文中詞表征的最大匹配余弦相似度,取二者均值作為評價分數(shù),如式(1)~式(3)所示。

        為了將淺層語義分析與語義匹配相結(jié)合,MEANT[20]使用語義角色標注給詞或片段標注其在句子中的角色標簽,通過測量機器譯文和參考譯文的語義框架與角色填充物的相似度評估翻譯的充分度。MEANT 2.0[21]在MEANT工作的基礎(chǔ)上引入詞頻加權(quán),賦予實詞比功能詞更高的權(quán)重,并通過計算n元詞表征匹配相似度實現(xiàn)在評價時關(guān)注詞序信息。MEE[22]分別對機器譯文和參考譯文進行精準詞形匹配(Exact Match)、根匹配(Root Match)和近義匹配(Synonym Match),其中精準詞形匹配為機器譯文和參考譯文的詞形匹配數(shù),根匹配和近義匹配設(shè)定匹配閾值,計算機器譯文和參考譯文的FastText詞表征匹配相似度,FastText詞表征指Facebook于2016年開源的詞向量計算工具生成的詞表征。根據(jù)匹配相似度所在的閾值空間判定其所屬匹配類型。最終將以上三個匹配模塊的F值加權(quán)平均為評價分數(shù)。不同于上述基于機器譯文和參考譯文的相似程度的質(zhì)量評價方法,基于偏離程度的方法如詞移距離WMD[23]計算機器譯文與參考譯文詞表征的最小匹配歐氏距離。

        1.1.2 基于句子級別靜態(tài)表征匹配的方法

        基于句子級別靜態(tài)表征匹配的方法將機器譯文和參考譯文的詞表征使用平均池化或其他處理方式加工為句子級別表征,然后計算句子級別表征間的相似程度。

        如圖2所示,平均詞向量自動評價指標(Embedding Average Metric)[24]使用平均池化分別將機器譯文和參考譯文中的詞表征加工為句子級別表征,計算句子級別表征的余弦相似度。為了增強句子級別向量的表征能力,極值向量(Vector Extrem)[25]沿維度取所有詞表征的最大值或最小值作為句子級別表征的各維度值。Chen等人[26]提出分別基于獨熱表征、分布式詞表征、RAE句子表征或上述三種表征的組合的譯文自動評價方法,并在此基礎(chǔ)上提出將句子級別自動評價的評分加權(quán)求和為篇章級別評分[27]。其中,RAE句子表征為使用貪心無監(jiān)督遞歸自編碼器策略(Recursive Auto-Encoder, RAE)生成的分布式句子表征。

        圖2 平均詞向量自動評價方法圖

        相比僅根據(jù)詞形進行評價的基于n元文法匹配的方法,基于靜態(tài)表征匹配的方法在一定程度上實現(xiàn)根據(jù)語義進行評價。但靜態(tài)表征獨立于上下文,無法獲取上下文語境信息,故基于靜態(tài)表征匹配的方法存在無法結(jié)合語境信息進行譯文質(zhì)量評價的不足。

        1.2 基于動態(tài)表征匹配的方法

        針對基于靜態(tài)表征匹配的方法中靜態(tài)表征無法獲知上下文語境信息這一問題,基于動態(tài)表征匹配的自動評價方法使用基于上下文語境的詞表征獲取語境信息。根據(jù)所采用的表征的粒度不同將其分為基于詞語級別動態(tài)表征匹配的方法和基于句子級別動態(tài)表征匹配的方法。

        1.2.1 基于詞語級別動態(tài)表征匹配的方法

        基于詞語級別動態(tài)表征匹配的自動評價方法計算機器譯文和參考譯文含語境信息的詞向量的匹配相似度。如圖3所示,BERTScore[28]用BERT模型生成上下文語境詞表征,計算參考譯文中詞表征r與機器譯文中詞表征t的最大匹配余弦相似度,計算召回率RBERTScore和準確率PBERTScore,進一步計算F值FBERTScore作為評價分數(shù),如式(4)~式(6)所示。

        圖3 BERTScore機器譯文自動評價方法示意圖

        Mathur等人提出的BERTr[29]與BERTScore類似,但僅使用召回率作為評價分數(shù),方法簡單有效。BERTScore采用詞表征間一對一的匹配余弦相似度,然而句子對中的詞還存在一對多關(guān)系,出于對該語言現(xiàn)象的考慮,Zhao等人提出的MoverScore[30]計算n元詞組上下文語境詞表征的歐氏距離。由于對不同翻譯難度的句子的翻譯能力可以反映翻譯系統(tǒng)的質(zhì)量,Zhan等人提出的DA-BERTScore[31]將翻譯難度引入BERTScore,賦予更難翻譯的詞以更高的評價權(quán)重,增加其對評價結(jié)果的影響。評判翻譯難度的方法為機器譯文與參考譯文的詞表征最大匹配余弦相似度越低,則翻譯該詞的難度越大,故賦予其更高的難度系數(shù)。最后將難度系數(shù)作為最大匹配余弦相似度的權(quán)重參與到F值的計算,該方法能有效對性能相近的優(yōu)秀翻譯系統(tǒng)進行質(zhì)量排名。Vernikos等人提出的Doc-BERTScore[32]將BERTScore擴展為篇章級別自動評價,該方法將譯文與該條譯文的上下文一起輸入BERT模型進行編碼,使譯文表征獲得篇章級別上下文信息,然后以單條句子為單位進行評分,評分方法與BERTScore的評分方法相同。

        1.2.2 基于句子級別動態(tài)表征匹配的方法

        基于句子級別動態(tài)表征匹配的方法計算機器譯文與參考譯文含語境信息的句子表征的匹配程度。Wieting等人提出的SIMILE[33]使用經(jīng)過訓練的含軟注意力機制的編碼器[34]生成機器譯文和參考譯文的句子表征,計算二者的余弦相似度,并引入長度懲罰因子以懲罰機器譯文與參考譯文長度相差過大的場景。長度懲罰因子LP計算如式(7)所示。

        (7)

        其中,|r|指參考譯文的長度,|t|指機器譯文的長度。

        目前,世界上只有英德、英漢等少數(shù)語言對有豐富的語料資源,大多數(shù)語言對的語料資源匱乏。YiSi系列評價指標[35]根據(jù)可獲得的語料資源規(guī)模不同設(shè)計對應的自動評價指標。其中,YiSi-0適用于低資源語言,計算機器譯文和參考譯文的最長公共子字符串;YiSi-1計算使用BERT生成的上下文詞表征的匹配余弦相似度,可自由選擇是否使用語義角色標注獲取淺層語義結(jié)構(gòu)信息;YiSi-2適用于無參考譯文的評價場景,該方法使用跨語種詞表征生成模型獲取源語言句子和機器譯文的跨語種詞表征,然后計算二者的余弦相似度,可自由選擇是否使用語義角色標注。

        近年來,跨語種的表征生成模型技術(shù)取得長足進步,一些學者使用XLM[36]等跨語種表征生成模型獲取源語言句子和機器譯文在同一語義空間內(nèi)詞語級別或句子級別的表征,對比源語言句子和機器譯文在同一高維空間的語義相似度。Song等人提出的SentSim[37]首先獲取基于源語言句子和機器譯文的跨語種詞語級別表征和句子級別表征,然后計算上述表征的詞移距離、句移距離、BERTScore分數(shù)和句級余弦相似度,從詞移距離和句移距離中選其一與BERTScore分數(shù)、句級余弦相似度加權(quán)求和得到句子評分?;诳缯Z種預訓練表征生成模型的LaBSE[38]文本相似度分數(shù)雖然性能優(yōu)良,但所需的GPU等硬件資源開銷大且模型復雜,Han等人提出的cushLEPOR[39]模型使用知識蒸餾學習LaBSE模型內(nèi)部映射方式,用較低的資源開銷實現(xiàn)接近LaBSE模型的性能。

        基于表征匹配的機器譯文自動評價方法計算機器譯文與參考譯文的表征匹配程度,在一定程度上實現(xiàn)語義層面的評價,該類方法依托預訓練表征生成模型,隨著多語種預訓練表征生成模型技術(shù)的成熟,基于表征匹配的方法展現(xiàn)了較強的魯棒性與易用性。

        2 基于端到端神經(jīng)網(wǎng)絡的機器譯文自動評價方法

        基于端到端神經(jīng)網(wǎng)絡的機器譯文自動評價方法使用神經(jīng)網(wǎng)絡提取深層語義信息,使用深層語義信息預測譯文質(zhì)量,根據(jù)神經(jīng)網(wǎng)絡架構(gòu)不同將其分為基于基礎(chǔ)端到端神經(jīng)網(wǎng)絡的方法、基于“預訓練+微調(diào)”范式端到端神經(jīng)網(wǎng)絡的方法和基于其他形式端到端神經(jīng)網(wǎng)絡的方法。

        2.1 基于基礎(chǔ)端到端神經(jīng)網(wǎng)絡的方法

        基于基礎(chǔ)端到端神經(jīng)網(wǎng)絡的自動評價方法構(gòu)建神經(jīng)網(wǎng)絡提取譯文的深層語義信息后預測譯文質(zhì)量分數(shù)。圖4為Shimanaka等人提出的RUSE[40]自動評價方法的結(jié)構(gòu)圖。RUSE分別使用InferSent、Quick-Thought和Universal Sentence Encoder三種預訓練句子表征生成模型生成參考譯文和機器譯文的句子級別表征,用啟發(fā)式方法將句子表征組合后輸入多層感知機(MLP)進行回歸計算評分,如式(8)、式(9)所示。

        Mathur等人提出BiLSTM+attention模型[29],將詞向量輸入BiLSTM獲取上下文語境信息,使用跨句注意力機制獲取機器譯文和參考譯文的交互信息。此外,Mathur等人提出的ESIMBERT[29]使用自然語言推理中的增強序列推理模型ESIM[41]對機器譯文和參考譯文進行編碼,使用跨句注意力機制對表征加權(quán),并依次通過BiLSTM和池化層獲取局部序列信息與特征信息,最后將加工完成的信息表征輸入前向?qū)宇A測譯文質(zhì)量分數(shù),如式(10)、式(11)所示。

        x=vr,avg⊕vr,max⊕vt,avg⊕vt,max

        (10)

        ESIMBERT=UTReLU(wTx+b)+b′

        (11)

        其中,x為拼接完成后的句子增強表征,r表示參考譯文,t表示機器譯文,vr,avg、vr,max分別指參考譯文的平均池化表征和最大池化表征,U、w、b和b′為通過訓練得到的參數(shù)。羅琪等人[42]在Mathur工作的基礎(chǔ)上引入源端信息,使用基于聯(lián)合神經(jīng)網(wǎng)絡質(zhì)量估計模型從源語言句子和機器譯文中提取質(zhì)量向量,將池化后的質(zhì)量向量與ESIMBERT的增強表征拼接后輸入前饋神經(jīng)網(wǎng)絡中預測譯文評價分數(shù)。Hu等人[43]在羅琪工作的基礎(chǔ)上引入差異特征,使用跨語種預訓練模型XLM將源語言句子、機器譯文和參考譯文兩兩組成的句子對映射到同一語義空間,對比機器譯文和源語言句子與參考譯文的語義差異。

        Rei等人提出的COMET[44-45]含兩類評價模型,第一類為分數(shù)預測模型(Estimator Model),該類模型對譯文的質(zhì)量評定分數(shù);第二類為排名模型(Translation Ranking Model),該類模型對譯文質(zhì)量進行排名,選出相對優(yōu)質(zhì)的譯文。首先,COMET使用跨語種預訓練語言模型XLM-RoBERTa分別對源語言句子、機器譯文和參考譯文進行編碼。由于Tenney等人[46]實驗表明預訓練語言模型中不同層捕獲不同類型的語義信息,且只依據(jù)模型最后一層的輸出評判譯文質(zhì)量的效果不佳,故COMET使用分層注意力機制綜合各層生成的不同類型的語義信息,使用平均池化將詞語級別表征進一步處理為句子級別表征[47],并在模型訓練過程中采用層級dropout[48]提高句子級別表征能力。

        對于COMET中的分數(shù)預測模型(Estimator Model),Rei等人使用上述跨語種編碼器分別對機器譯文、源語言句子和參考譯文進行編碼,并采用類似RUSE中的方式對句子級別表征進行組合,如式(12)所示。

        x=[t;r;t⊙r;t⊙s;|t-r|;|t-s|]

        (12)

        其中,t為機器譯文表征,r為參考譯文表征,s為源語言句子表征。將信息表征x輸入前向?qū)舆M行回歸評分,模型訓練過程中使用均方誤差作為損失函數(shù)。

        對于COMET中的排序模型(Translation Ranking Model),Rei等人將源語言句子s、參考譯文r、相對優(yōu)質(zhì)的機器譯文t+、相對劣質(zhì)的機器譯文t-的句子四元組{s,t+,t-,r}輸入跨語種編碼器,然后通過池化層生成四元組的句子級別信息表征,使用三元組損失函數(shù)(Triplet Loss)優(yōu)化語義空間中句子表征之間的相對距離,該損失函數(shù)期望優(yōu)化模型使得在最終表征空間內(nèi)相對優(yōu)質(zhì)的機器譯文和黃金參考(參考譯文與源語言句子)的距離更近,相對劣質(zhì)的機器譯文和黃金參考的距離更遠。除了分數(shù)預測模型和排序模型兩個主要模型,Rei等人還提出了直接對比源語言句子和機器譯文的相似度,無需參考譯文的Reference-free COMET、輕量級的COMET模型COMETINHO[49]。Vernikos等人提出的Doc-COMET[32]將譯文與譯文的上下文拼接后輸入編碼器,將COMET擴展為篇章級別的Doc-COMET譯文評價方法。

        上述方法均為將含深層語義信息的向量作為神經(jīng)網(wǎng)絡的輸入,另一類方法為將譯文的各類特征分值作為神經(jīng)網(wǎng)絡的輸入。REGEMT[50]集成分別基于詞形、句法和語義特征的自動評價指標,來提升僅基于單種類型的自動評價指標性能,包括軟余弦相似度、詞移距離和詞性標注轉(zhuǎn)換距離,使用神經(jīng)網(wǎng)絡進行回歸評分。Rony等人提出的RoMe[51]將譯文的語法、句法和語義三個方面的質(zhì)量得分組合為向量輸入神經(jīng)網(wǎng)絡進行回歸計算評分,其中語義分數(shù)采用融入了詞對齊和詞序差異懲罰的基于語義相似度的EMD距離(Earth Mover’s Distance),其中EMD距離可以計算機器譯文和參考譯文的偏離程度;句法分數(shù)采用經(jīng)過改進的語義增強樹編輯距離算法(Tree Edit Distance)[52],計算機器譯文和參考譯文的句法結(jié)構(gòu)差異;語法分數(shù)采用在CoLA語料庫上訓練的二分類器,判定譯文語法是否在可接受范圍內(nèi)。

        2.2 基于“預訓練+微調(diào)”范式端到端神經(jīng)網(wǎng)絡的方法

        目前基于“預訓練+微調(diào)”范式的深度學習模型被廣泛應用于自然語言處理的各個任務,根據(jù)具體評價場景對包含大量可重用知識的預訓練模型進行微調(diào)的機器譯文自動評價模型展現(xiàn)出優(yōu)異的性能。

        不同于基于基礎(chǔ)端到端神經(jīng)網(wǎng)絡的RUSE方法和ESIMBERT方法中將機器譯文和參考譯文分別輸入BERT模型,用于MTE的BERT[53]將機器譯文和參考譯文拼接后輸入BERT進行編碼,將特殊位置“[CLS]”的向量輸入多層感知機預測譯文質(zhì)量,并通過微調(diào)提升模型性能,如圖5所示。其中,“[SEP]”為句子間的分割符號,“[CLS]”為每對輸入間的標識符。

        圖5 用于MTE的BERT自動評價方法結(jié)構(gòu)圖

        Sellam等人提出的BLEURT[54]使用隨機擾動后的維基百科句子和一組詞匯級和語義級的監(jiān)督信號對評價模型進行預訓練,預訓練監(jiān)督信息包括: ①BLEU、ROUGE和BERTScore自動評價指標評價結(jié)果; ②回譯似然值; ③判斷原句和擾動句的三類文本關(guān)系: 蘊含、矛盾、中立; ④標注擾動句是否為原句回譯生成的回譯標志。拼接機器譯文和參考譯文輸入預訓練完成的BERT模型中,取特殊標志“[CLS]”位置的向量作為句子表征輸入前向?qū)宇A測譯文質(zhì)量分數(shù)。Wan等人提出的ROBLEURT[55]在BLEURT的工作基礎(chǔ)上做三處優(yōu)化提升模型的魯棒性: 第一,根據(jù)源語言句子的資源可獲得程度設(shè)計不同評價方式,在源語言句子資源匱乏的的情況下僅拼接機器譯文和參考譯文作為模型的輸入,在源語言句子資源充沛的情況下拼接源語言句子、機器譯文和參考譯文作為模型的輸入,使模型在評價時考慮機器譯文同參考譯文與源語言句子兩者的語義一致性;第二,使用大規(guī)模人工合成數(shù)據(jù)對模型進行持續(xù)性預訓練;第三,使用降噪后的數(shù)據(jù)對模型進行微調(diào)。該自動評價方法結(jié)合單語模型和多語模型,使用“預訓練+微調(diào)”范式進行訓練,引入遷移學習,性能較BLEURT有進一步提升。

        Kane等人提出的NUBIA[56]利用大規(guī)模預訓練語言模型提取譯文深層語義特征,并在提取特征時使用“預訓練+微調(diào)”范式,該方法的評價過程分為三個步驟: 第一步,分別用RoBERTa STS、RoBERTa MNLI和GPT-2模型抽取句子間的語義相似度、邏輯一致程度和語法正確性三類特征。具體來說,使用STS-B-benchmark數(shù)據(jù)集對RoBERTa預訓練模型進行微調(diào),提取機器譯文和參考譯文的語義相似度;用RoBERTa在GLUE的MNLI任務上微調(diào),捕獲機器譯文和參考譯文的邏輯一致程度;用GPT-2計算困惑度,以評判機器譯文的語法正確性。第二步,將第一步抽取的特征輸入線性回歸模型,預測譯文質(zhì)量分數(shù)。第三步,將譯文質(zhì)量分數(shù)進行歸一化。

        為了減少硬件資源開銷,提升模型效率,Eddine等人的FrugalScore[57]使用知識蒸餾構(gòu)建輕量版BERTScore或MoverScore。該自動評價模型先讓輕量級預訓練語言模型學習高開銷模型的內(nèi)部映射方式,然后在合成數(shù)據(jù)集上繼續(xù)訓練該輕量級預訓練語言模型,最后在人工標注的語料上微調(diào)微縮模型。

        2.3 基于其他形式端到端神經(jīng)網(wǎng)絡的方法

        以上方法均為構(gòu)建神經(jīng)網(wǎng)絡提取深層語義信息,使用監(jiān)督學習方式訓練評價模型,通過回歸方式預測機器譯文質(zhì)量。近年來,一些新形式的自動評價模型被陸續(xù)提出,如Thompson和Post提出的Prism[58]使用端到端釋義模型預測機器譯文在對應參考譯文下出現(xiàn)的概率,概率值越大,則機器譯文的質(zhì)量越高。Vernikos等人提出的Doc-Prism[32]為篇章級別Prism,該方法將參考譯文與其上下文拼接輸入端到端釋義模型。Krubiński等人提出的MTEQA[59]是首個基于問答框架的機器譯文自動評價指標,該指標的評價過程分為兩個步驟: 第一步,從參考譯文中抽取信息作為答案,并生成相應的問題;第二步,使用問答系統(tǒng)根據(jù)機器譯文生成上一步驟中問題的答案,用字符串比較法計算依據(jù)機器譯文而得的答案和依據(jù)參考譯文而得的答案的相似度,對于同一語段,取所有問題答案對相似度的平均值作為最終質(zhì)量評分。

        在易用性方面,基于端到端神經(jīng)網(wǎng)絡的機器譯文自動評價方法在使用時需要根據(jù)模型的需求進行環(huán)境配置,雖然相關(guān)研究人員對基于端到端神經(jīng)網(wǎng)絡展開了大量研究,但當前可直接使用的基于端到端神經(jīng)網(wǎng)絡的自動評價模型較少,故相比其他方法,該類方法易用性較差,未來應當對性能優(yōu)良的端到端神經(jīng)網(wǎng)絡評價模型的易用性提升進行深入研究。

        3 自動評價方法的評測(元評測)

        機器譯文自動評價評測活動發(fā)布公開的數(shù)據(jù)集、基準的評價方法與譯文的人工評價分數(shù)或質(zhì)量排名,為不同自動評價指標提供公平比較的平臺,它極大地促進了機器譯文自動評價的研究與發(fā)展。目前機器譯文自動評價評測活動主要為WMT機器譯文自動評價任務。國內(nèi)的全國機器翻譯大會CCMT組織過多次機器翻譯相關(guān)任務評測,包括無需參考譯文的機器譯文質(zhì)量估計評測活動。WMT機器譯文自動評價任務于2008年開始,用于評測機器譯文自動評價方法的性能表現(xiàn),任務涵蓋中英、德英、中俄等各類廣泛使用的語言對和部分低資源語言對[60-66]。

        評測活動中,為了比較參與評測的不同自動評價方法的優(yōu)劣,一般使用肯德爾相關(guān)系數(shù)度量自動評價方法打分在句子級別與人工評價的相關(guān)性,使用皮爾遜相關(guān)系數(shù)度量自動評價方法打分在系統(tǒng)級別與人工評價的相關(guān)性,有時使用成對精確度度量在系統(tǒng)級別自動評價打分與人工評價的相關(guān)性,相關(guān)性越高,表示對應方法越可靠。

        (1) 肯德爾相關(guān)系數(shù)τ(Kendall Correlations)通過度量自動評價與人工評價對譯文質(zhì)量高低排序一致程度衡量自動評價方法與人工評價的相關(guān)性,計算方法如式(13)所示。

        (13)

        其中,Concordant指自動評價方法給人工評價打分較高的機器譯文以較高的分數(shù),自動評價與人工評價打分一致;Discordant指給人工評價打分較低的機器譯文以較高的分數(shù),自動評價與人工評價打分不一致。

        (16)

        (3) 成對精確度(Pairwise Accuracy)用于衡量自動評價與人工評價的系統(tǒng)級別相關(guān)性,計算方式如式(17)所示。

        (17)

        其中,自動評價(Metric)和人工評價(Human)分別對多個系統(tǒng)進行打分,對于其中任意兩個系統(tǒng),MetricΔ指自動評價的評分差值,HumanΔ指人工評價的評分差值,|AllSystemPairs|指系統(tǒng)對的總數(shù),通過比較評分差值是否一致衡量自動評價與人工評價的相關(guān)性。

        元評測通過計算自動評價指標評分與人工評價評分的相關(guān)性度量自動評價指標的性能,故人工評價分數(shù)的可靠性直接決定了元評測是否有效,許多學者對元評測中的人工評價評分機制進行研究與探索,以期得到更可靠的人工評分,目前主要的人工評價方式為以下四種:

        (1)傳統(tǒng)DA人工評價(Direct Assessments): 該評價機制采用眾包的方式對機器譯文進行直接評分,由于其成本較低,2020年及之前歷屆WMT自動評價任務均采用該人工評價方式。但近年研究發(fā)現(xiàn),眾包評分者缺乏專業(yè)翻譯知識,存在對翻譯中的錯誤過于包容、與專家評分相關(guān)性較低[67]等問題,故2021年WMT自動評價任務提出采用MQM評價機制作為人工評價分數(shù)的評測子任務。

        (2)HTER(Human-Mediated Translation Edit Rate)[68]: HTER在翻譯編輯率(TER)的基礎(chǔ)上引入人工注解,讓精通目標語言的人工譯員結(jié)合機器譯文和參考譯文給出一個新的參考譯文,使用TER算法計算機器譯文和新參考譯文的編輯率。其中,翻譯編輯率(TER)為計算從機器譯文轉(zhuǎn)換到參考譯文所需的插入、刪除、單詞替換和詞組平移的編輯次數(shù)的比例。

        (3)多維度質(zhì)量評價機制MQM(Multidimensional Quality Metric)[69]: Freitag等人的研究顯示[66]傳統(tǒng)眾包DA人工評價對高質(zhì)量機器譯文的評價不可靠,MQM評價機制將翻譯錯誤分為不同類型,綜合錯誤的次數(shù)及其相應權(quán)重對譯文進行評分,該方法比直接為譯文評定一個分數(shù)更可靠,2021年WMT自動評價任務開始采用MQM評價機制作為黃金參考。MQM評價機制將譯文錯誤分為微小錯誤(minor)、主要錯誤(major)和嚴重錯誤(crit),并賦予不同程度的錯誤以不同的權(quán)重,按式(18)計算譯文評分,其中,SentenceLength為句子長度,Iminor、Imajor和Icrit分別為微小錯誤次數(shù)、主要錯誤次數(shù)和嚴重錯誤次數(shù)如式(18)所示。

        (18)

        (4) 分級質(zhì)量度量指標SQM(the Scalar Quality Metric)[70]: Freitag等人受MQM啟發(fā),將機器譯文質(zhì)量分為六個等次,評價者在評分過程中可以看到句子的上下文。其中,質(zhì)量分數(shù)為6分時指語法與語義完全正確;4分為語義基本轉(zhuǎn)述完成,語法錯誤較少;2分為未表達出源語言句子的主要語義;0分為譯文沒有表達任何源語言句子的信息。

        2019年以來,每屆WMT自動評價指標任務含不同子任務,如2019年和2020年發(fā)布篇章級自動評價任務、2021年新增專家多維度質(zhì)量評價機制MQM作為人工評價的子任務,幫助自動評價研究人員準確了解自動評價模型性能、對比評價模型性能。

        歷屆WMT自動評價任務的評測結(jié)果均整理成文并發(fā)表,研究人員可以通過每年的評測結(jié)果報告了解各個自動評價方法在該年評測任務中的表現(xiàn)及自動評價最新趨勢。為了解近年評測任務中表現(xiàn)優(yōu)良的自動評價方法的共同特點,在WMT’21自動評價評測任務中特定語言對上獲最優(yōu)性能的評價方法匯總?cè)绫?所示,該表展示了WMT’21自動評價任務上各個優(yōu)秀自動評價方法獲最優(yōu)性能的次數(shù)匯總,符號“*”表示該方法未參與所有語言對上的評測,符號“-”表示該方法在該類任務上未取得最優(yōu)性能。結(jié)果表明,顯著優(yōu)于其他自動評價方法的C-SPECpn[71]、BLEUrt-20和COMET-MQM_2021均為使用“大規(guī)模預訓練+微調(diào)”范式的端到端神經(jīng)網(wǎng)絡自動評價模型,這表明“大規(guī)模預訓練+微調(diào)”范式能顯著提升評價性能。在國內(nèi)機器譯文自動評價研究方面,澳門大學的NLP2CT實驗室與阿里巴巴達摩研究院共同提出的RoBLEURT在WMT’21的自動評價任務中取得多項第一的優(yōu)良成績。中國科學院的馬青松團隊提出的Blend、DPMFCOMB[72]和基于融合策略的機器翻譯自動評價方法[73]性能優(yōu)良,其中Blend在WMT’17自動評價任務的德英、俄英等多個語言對任務上取得第一名,DPMFCOMB在WMT’16自動評價任務的法語至英語、土耳其語至英語句子級別直接評價任務中排名第一。北京大學的研究團隊在2020年提出引入語義加權(quán)句子相似度的自動評價方法SWSS[74]有效提升基于詞形匹配的機器譯文自動評價指標的性能。北京大學計算語言學重點實驗室提出的Meteor++[75]與Meteor++ 2.0[76]對經(jīng)典自動評價指標Meteor做改進,其中Meteor++ 2.0在WMT’15至WMT’17自動評價任務數(shù)據(jù)集上與人工評價的相關(guān)性超過了當時所有版本的Meteor。蘇州大學的李良友提出的融合文檔信息的機器翻譯自動評價[77]以語言學短語為基本評價單位,研究了文檔信息在評價方法中的應用。江西師范大學的研究團隊[78-80]提出的MPEDA在WMT’16自動評價系統(tǒng)級別任務的法語至英語和芬蘭語至英語語言對上排名第二。

        表1 WMT’21 metrics task上獲最優(yōu)性能的自動評價方法匯總

        4 未來研究趨勢

        趨勢1:研究方便易用且魯棒性強的自動評價方法。目前雖然眾多自動評價指標被提出且展現(xiàn)遠優(yōu)于BLEU的性能,但在機器翻譯領(lǐng)域被廣泛使用的評價指標仍為僅根據(jù)淺層詞形相似度進行評價的BLEU,原因之一為BLEU無須訓練、簡單易用且魯棒性強[72]。因此,研究簡單易用、魯棒性強的高性能自動評價方法是研究者孜孜以求的目標。

        在自動評價指標魯棒性方面,WMT’21自動評價任務提出跨領(lǐng)域自動評價元評測度量自動評價指標的魯棒性,使用TED演講數(shù)據(jù)集測試開發(fā)集為新聞領(lǐng)域數(shù)據(jù)集的自動評價指標的性能。各個自動評價指標在新聞領(lǐng)域的newstest21數(shù)據(jù)集和演講領(lǐng)域的TED數(shù)據(jù)集上的成對精確度如表2所示。評測結(jié)果顯示,基于大規(guī)模預訓練語言模型的自動評價指標表現(xiàn)出更好的魯棒性,如RoBLEURT。另一方面,在新聞領(lǐng)域數(shù)據(jù)集表現(xiàn)較好的自動評價指標tgt-regEMT、cushLEPOR(LM)在演講領(lǐng)域數(shù)據(jù)集上表現(xiàn)較差,展現(xiàn)出較低的魯棒性。這表明研究者不僅需要對跨領(lǐng)域、跨語種預訓練語言模型做進一步研究,還需要對跨領(lǐng)域、跨語種的譯文自動評價方法進行探索。

        表2 各個自動評價方法在不同領(lǐng)域數(shù)據(jù)集上的成對精確度

        在易用性方面,HuggingFace在2022年5月31日推出Evaluate庫,其中包括廣泛使用的BLEU自動評價指標,這不僅使模型的評估流程更加標準化,而且提升了評價指標易用性,方便相關(guān)從業(yè)人員使用。

        趨勢2:參考譯文的質(zhì)量與數(shù)量對自動評價指標的評測具有重大影響。WMT’20自動評價任務設(shè)置多參考譯文場景的評測任務,實驗結(jié)果顯示,參考譯文質(zhì)量與數(shù)量對自動評價方法性能評測有重大影響。表3展示了在英語至德語數(shù)據(jù)集上使用三個不同的參考譯文ref-A、ref-C和ref-D時各個自動評價指標的表現(xiàn),其中MQM分數(shù)為多維度質(zhì)量評價機制下的人工評價分數(shù),MQM值越小,譯文質(zhì)量越高,括號內(nèi)數(shù)值為成對精確度排名。如BERTScore使用“ref-A”作為參考譯文或“ref-C”作為參考譯文情況下性能表現(xiàn)均為第一,但當使用“ref-D”作為參考譯文時表現(xiàn)較差,具體原因值得進一步探索。

        表3 各個自動評價方法使用不同參考譯文時與人工評價的成對精確度

        趨勢3:篇章級別機器譯文自動評價。篇章級別機器譯文中句子間的連貫性、銜接性以及跨句指代關(guān)系是否翻譯正確對于評價譯文的質(zhì)量優(yōu)劣有重要作用。連貫性、銜接性以及跨句指代關(guān)系等語言學特征均需要根據(jù)篇章語境信息進行評判[77],然而單一的句子級別評價方法無法捕獲篇章級別的語境信息[81],容易出現(xiàn)評價偏差的情況,故對篇章級別機器譯文自動評價方法的研究有重要意義。如BLEU等評價方法盡管提供篇章級別自動評價得分,但僅在篇章級別簡單統(tǒng)計匹配的n元文法數(shù)目,無法識別句子之間的連接詞等,不能評判譯文的連貫性與一致性[82-83]。早期的Comelles等人[84]提出的篇章級別自動評價指標基于語篇的形式化表示,Guzmn等人[85]引入基于語篇結(jié)構(gòu)的語篇相似度提升自動評價指標性能。Wong等人[86]引入文本銜接性提升篇章級別機器譯文自動評價性能。然而,Wong等人的自動評價方法忽略了參考譯文的文本銜接情況,僅對機器譯文的文本銜接性分數(shù)進行建模評價,Gong等人[87]設(shè)定機器譯文的文本銜接方式應當與參考譯文的文本銜接保持一致,提出計算參考譯文與機器譯文的簡化詞匯鏈匹配數(shù)目,從而實現(xiàn)評價機器譯文的文本銜接性。在這些的工作基礎(chǔ)上,Gong等人[87]使用主題模型計算確定篇章文本的主題分布概率,從而實現(xiàn)計算機器譯文與參考譯文的主題一致性。Tan等人[88]提出的語篇銜接性評價方法DCoEM綜合參考譯文、連接詞、指代關(guān)系和詞匯銜接四個銜接性要素評價篇章級別機器譯文的銜接性。Jiang等人[89]提出的BLONDE對機器譯文和參考譯文中的文本片段進行分類,然后計算各類別子集的相似度,相似度采用F1值計算方式。Castilho等人[90]于2022年提出集成了評價方法、評價語料庫等組件的篇章級別自動評價項目DELA。為了推動相關(guān)從業(yè)人員對篇章級別自動評價的研究,2018年和2019年的WMT自動評價任務均設(shè)置篇章級別自動評價任務,為篇章級譯文評價提供了基準的比較平臺。未來應當對篇章級別譯文自動評價做進一步研究[91]。

        5 總結(jié)

        基于神經(jīng)網(wǎng)絡的機器譯文自動評價方法使用深層神經(jīng)網(wǎng)絡或預訓練語言知識對機器譯文及其對應的人工參考譯文進行逐層抽象,計算抽象后向量之間的距離。本文將其細分為基于表征匹配的方法和基于端到端神經(jīng)網(wǎng)絡的方法,基于表征匹配的方法將詞語或句子映射到高維空間,直接計算其在高維空間的余弦距離或偏移距離,基于端到端神經(jīng)網(wǎng)絡的方法主要使用回歸的方式,讓模型依據(jù)從神經(jīng)網(wǎng)絡中提取的各類特征,學習兩者之間的差異,從而獲得評價能力。此外,本文對自動評價方法元評測的WMT自動評價任務和相關(guān)評測指標、人工評價方式進行介紹,最后對基于神經(jīng)網(wǎng)絡的機器譯文自動評價的發(fā)展趨勢進行分析,未來將進一步研究可廣泛使用于各個領(lǐng)域的高性能自動評價指標,從而推動機器翻譯的發(fā)展與應用。

        猜你喜歡
        語義評價方法
        SBR改性瀝青的穩(wěn)定性評價
        石油瀝青(2021年4期)2021-10-14 08:50:44
        語言與語義
        可能是方法不對
        “上”與“下”語義的不對稱性及其認知闡釋
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        基于Moodle的學習評價
        認知范疇模糊與語義模糊
        保加利亞轉(zhuǎn)軌20年評價
        亚洲av日韩精品久久久久久a| 日本av一区二区播放| 国产亚洲一区二区精品| 亚无码乱人伦一区二区| 国产天堂av在线播放资源| 国产精品精品国产色婷婷| 欧美大屁股xxxx高跟欧美黑人 | 免费国产黄线在线播放| 日韩一区二区中文字幕视频 | 丝袜美腿一区二区国产| 日韩人妻无码精品-专区| 亚洲精品中国国产嫩草影院美女| 一区二区黄色素人黄色| 男男啪啪激烈高潮无遮挡网站网址| 精品久久久久久无码中文野结衣| 欧美巨大xxxx做受中文字幕| 久久dvd| 亚洲女同免费在线观看| 国产18禁黄网站免费观看| 亚洲av永久无码天堂网毛片| 国产精品厕所| 日本精品一区二区在线看| 国产亚洲精品av一区| 国产成人无码免费视频在线| 国产AⅤ无码久久丝袜美腿| 青青草成人免费播放视频| 波多野结衣av一区二区全免费观看| 亚洲av无码乱观看明星换脸va | mm在线精品视频| 亚洲三级中文字幕乱码| 三年片免费观看大全有| 另类欧美亚洲| 美女被搞在线观看一区二区三区| 久久久99精品成人片| 欧美黑人粗暴多交高潮水最多| 成年人免费黄色h网| 国产午夜视频高清在线观看| 丰满熟妇人妻av无码区| 少妇极品熟妇人妻无码| 男人阁久久| 草逼视频免费观看网站|