亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        引入源端信息的機器譯文自動評價方法研究

        2022-01-20 12:47:50李茂西
        中文信息學報 2021年12期
        關鍵詞:源語言譯文機器

        羅 琪,李茂西

        (江西師范大學 計算機信息工程學院,江西 南昌 330022)

        0 引言

        機器譯文自動評價是機器翻譯的重要組成部分。它不僅能在一定程度上度量翻譯系統(tǒng)的整體性能,還能在開發(fā)翻譯系統(tǒng)時指導其特征權值的優(yōu)化。因此,研究機器譯文自動評價對機器翻譯的發(fā)展和應用具有重要意義。

        近年來,許多機器譯文自動評價方法被相繼提出,它們將機器翻譯系統(tǒng)的輸出譯文與人工參考譯文進行對比來定量刻畫譯文的質量。根據(jù)對比時涉及的語言知識層次,它們可分為: 基于詞語匹配的方法,如BLEU[1]和NIST[2]等;基于淺層句法結構匹配的方法,如POSBLEU[3]和POSF[3]等;基于深層語義信息匹配的方法,如引入復述的指標Meteor Universal[4]和TERp[5]等;引入語義角色標注的指標MEANT[6]等。隨著深度學習的發(fā)展及其在自然語言處理中的廣泛應用,一些研究者利用詞語深度表示和神經(jīng)網(wǎng)絡結構對比翻譯系統(tǒng)輸出譯文和人工參考譯文進行譯文自動評價,如基于靜態(tài)詞向量Word2Vec[7]的方法[8]、基于動態(tài)詞向量BERT[9]的方法[10]、基于神經(jīng)網(wǎng)絡結構的方法ReVal[11]和RUSE[12]等。

        然而,這些方法評價機器譯文的主要思路還是遵循BLEU[1]的基本觀點: “機器譯文越接近于人工參考譯文,其譯文質量越高”。從這個觀點出發(fā),譯文自動評價即等同計算機器譯文和人工參考譯文的相似度評價。這樣的譯文自動評價完全忽略了源語言句子,即在沒有對源語言句子充分利用的基礎上進行該項任務。所以,找到結合源語言句子進行譯文自動評價的切入點,勢必能提高譯文自動評價與人工評價的相關性。因此,我們嘗試引入從源語言句子及其機器譯文中提取的質量向量(Quality Embedding, QE),并將其與基于語境詞向量的譯文自動評價方法[10]進行深度融合來增強譯文自動評價效果,提高譯文自動評價與人工評價的相關性。

        1 相關工作

        在基于深度神經(jīng)網(wǎng)絡的機器譯文自動評價中,Lo[6]和Chen等人[8]提出利用詞語的分布式表示,靜態(tài)預訓練的詞向量Word2Vec[7],來提高機器譯文和人工參考譯文對比時同義詞、近義詞和復述等匹配的準確率。Guzmán等人[13]提出了一種基于詞向量和神經(jīng)網(wǎng)絡的機器譯文自動評價方法,其目標是在給定人工參考譯文的情況下,從一對機器譯文中選擇最佳譯文,使用神經(jīng)網(wǎng)絡可以方便地融合由詞向量捕獲的豐富語法和語義表示。Gupta等人[11]用基于樹結構的長短時記憶網(wǎng)絡[14](Long Short-Term Memory network,LSTM)對機器譯文和人工參考譯文進行編碼,根據(jù)兩者之間的元素差異和夾角計算機器譯文的質量得分。Shimanaka等人[12]使用雙向LSTM(Bidirectional LSTM,Bi-LSTM)對機器譯文和人工參考譯文進行編碼,并利用多層感知機回歸模型計算機器譯文的質量得分。Mathur等人[10]基于BERT[9]語境詞向量使用Bi-LSTM網(wǎng)絡結構學習機器譯文和人工參考譯文的句子表示,并將自然語言推理中啟發(fā)式方法[15]和增強序列推理模型[16](Enhanced Sequential Inference Model, ESIM)引入到機器譯文自動評價中,該方法在WMT’19譯文自動評價任務(Metrics Task)上取得了優(yōu)異成績,因此,本文將在Mathur等人[10]的工作基礎上,將利用源語言句子提取的質量向量融入譯文自動評價中,進一步增強譯文自動評價的性能。

        2 背景知識

        2.1 基于語境詞向量的譯文自動評價

        自然語言推斷關注假設結論(hypothesis)是否可以從前提語句(premise)中推斷獲取,它與譯文自動評價任務非常類似。譯文的質量越好,機器譯文被人工參考譯文表示(推斷)的程度越高,同時人工參考譯文被機器譯文表示(推斷)的程度也越高;反之亦然。在自然語言推斷的框架下,Mathur等人[10]使用語境詞向量分別表示機器譯文和人工參考譯文,并根據(jù)兩個表示的交互程度來度量機器譯文的質量。使用自然語言推斷中啟發(fā)式方法[15]以及ESIM方法[16],Mathur等人[10]分別提出了(Bi-LSTM+attention)BERT譯文自動評價方法和(ESIM)BERT譯文自動評價方法。

        2.1.1 (Bi-LSTM+attention)BERT譯文自動評價方法

        m=[t⊕r⊕(t⊙r)⊕(t-r)]

        (3)

        其中,符號“⊕”表示向量拼接操作;符號“⊙”表示兩個向量逐元素相乘操作。最后向量m被作為前饋神經(jīng)網(wǎng)絡的輸入用于預測機器譯文被人工參考譯文表示的程度,即譯文質量的得分。

        2.1.2 (ESIM)BERT譯文自動評價方法

        ESIM方法利用式(4)和式(5)計算機器譯文被人工參考譯文表示的增強向量mt和人工參考譯文被機器譯文表示的增強向量mr。為降低模型參數(shù)的復雜性,利用一個前饋神經(jīng)網(wǎng)絡層將mt和mr轉換至模型的維度。Bi-LSTM網(wǎng)絡用作對降維后的信息進行編碼,以便得到其局部信息的上下文表示向量。將編碼后的向量進行平均池化和最大池化,并將池化后的結果vr,avg、vr,max和vt,avg、vt,max進行拼接,形成固定長度向量p,即:

        最后向量p作為前饋神經(jīng)網(wǎng)絡的輸入用于預測機器譯文質量的得分。

        2.2 譯文質量向量提取方法

        譯文質量向量是譯文質量估計中描述翻譯質量的向量,其從源語言句子和其相應的譯文中抽取,完全不需要借助人工參考譯文進行計算。目前主流的質量向量提取方法包括基于循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network, RNN)的編碼器-解碼器模型[17]的方法[18-19]和基于Transformer模型[20]的方法[21-22]。它們將源語言句子及其機器譯文使用強制學習的方式輸入已訓練好的神經(jīng)機器翻譯模型,截取在使用前饋神經(jīng)網(wǎng)絡進行softmax分類前一層網(wǎng)絡的輸出向量,作為機器譯文當前位置詞語的質量向量。

        給定源語言句子,為了獲取機器譯文中每個詞語的質量向量,基于聯(lián)合神經(jīng)網(wǎng)絡的模型(Unified Neural Network for Quality Estimation,UNQE)[19]被用作提取質量向量。聯(lián)合神經(jīng)網(wǎng)絡模型使用譯文質量估計任務數(shù)據(jù)集聯(lián)合訓練基于RNN的編碼器-解碼器模型和基于RNN的預測器,可以提取更優(yōu)的質量向量,并且該模型在WMT18句子級別質量估計任務中取得了優(yōu)異的成績[23],證實了其效果。

        3 結合質量向量的機器譯文自動評價

        為了把源語言句子信息引入譯文自動評價中,我們以質量向量作為切入點,將給定源語言句子情況下機器譯文質量的表示和給定人工參考譯文情況下機器譯文的增強表示進行融合。模型結構如圖1所示,其中,符號src、mt和ref分別表示源語言句子、機器譯文和人工參考譯文。圖左邊部分描述通過

        圖1 引入譯文質量向量增強機器譯文自動評價的模型架構

        UNQE方法[19]從源語言句子及其機器譯文中提取出描述翻譯質量的詞語級質量向量,并將其利用Bi-LSTM網(wǎng)絡處理成句子級別的質量向量;圖右邊部分描述通過(Bi-LSTM+attention)BERT或(ESIM)BERT方法[10]將機器譯文和人工參考譯文抽象為交互表示的增強向量,圖上表示將質量向量與交互表示的增強向量進行拼接,將拼接后的向量輸入前饋神經(jīng)網(wǎng)絡以預測機器譯文質量得分。

        3.1 (Bi-LSTM+attention)BERT+QE譯文自動評價方法

        由于從源語言句子和機器譯文中抽取的質量向量是詞語級的,即機器譯文中每個詞(token)使用一個實數(shù)向量描述其翻譯質量,而機器譯文和人工參考譯文的交互表示增強向量是句子級的,為了在同一層次將二者進行融合,需要將質量向量進一步抽象成句子級別表示。Bi-LSTM網(wǎng)絡被用來對詞語級質量向量eqe1:k(k=1,…,lt)進行編碼,得到eqe1:k的包含上下文信息的向量hqe,k(k=1,…,lt),通過對hqe進行最大池化和平均池化處理,將池化后的結果拼接即得到了句子的質量向量表示qe,如式(7)~式(9)所示。

        在機器譯文和人工參考譯文的交互表示增強向量方面,Bi-LSTM網(wǎng)絡被用來對人工參考譯文和機器譯文的語境詞向量編碼,利用式(1)、式(2)求得人工參考譯文和機器譯文的相互表示,隨后利用式(8)的池化操作和式(9)的拼接操作求得人工參考譯文句子表示r和機器譯文句子表示t。

        (10)

        (11)

        其中,參數(shù)w,W,b,b′均為前饋神經(jīng)網(wǎng)絡的權值。

        為了訓練模型的所有參數(shù),譯文自動評價得分yscore與人工評價得分h的均方差被用來對模型進行優(yōu)化,優(yōu)化目標正式描述如式(12)所示。

        (12)

        3.2 (ESIM)BERT+QE譯文自動評價方法

        獲取了機器譯文句子級別分值后,我們對整個測試集(或文檔集)中機器譯文的句子級別得分取平均值作為翻譯系統(tǒng)的系統(tǒng)級別(或文檔級別)得分。

        4 實驗

        4.1 實驗設置

        為了驗證引入源端信息的機器譯文自動評價方法的效果,我們在WMT’19 Metrics task[24]的德英任務、中英任務和英中任務上進行實驗。為了比較不同譯文自動評價方法的性能,我們遵循WMT評測官方的做法利用皮爾森相關系數(shù)與肯德爾相關系數(shù)分別計算自動評價結果和人工評價結果的系統(tǒng)級別相關性和句子級別相關性,皮爾森相關系數(shù)或肯德爾相關系數(shù)越大,相關性越好。

        UNQE提取的中英、英中任務上的質量向量維度為700,德英任務上質量向量維度為500。模型中Bi-LSTM隱藏層狀態(tài)維度均固定為300,Dropout設置為0.2,使用Adam優(yōu)化器優(yōu)化訓練,初始學習率為0.000 4,訓練批次大小為32,使用“bert-base-uncased”提取英文句子語境詞向量,使用“bert-base-Chinese”提取中文句子語境詞向量。

        實驗中,我們不僅將本文提出的方法與BLEU[1]、chrF[25]以及BEER[26]等經(jīng)典的方法進行比較,而且與Mathur等人[10]提出的自動評價方法、與不使用人工參考譯文的譯文質量估計方法UNQE[19]進行了對比。需要說明的是,Mathur等人[10]是混合所有相同目標語言(如德英和中英)譯文自動評價訓練集語料進行模型訓練,而我們引入了源端信息,考慮實際譯文打分需求且避免受不同源語言差異性的負面影響,我們針對每個語言對利用其訓練集數(shù)據(jù)單獨訓練模型。德英語言對使用的是WMT’15-17 Metrics task[27-29]德英語言對的句子級別任務數(shù)據(jù)集。對于中英和英中語言對而言,單獨訓練可用訓練集語料規(guī)模太小,因此加入了CWMT’18翻譯質量評估在中英和英中語言對上的語料。德英方向按照9∶1的比例劃分訓練集和開發(fā)集,中英和英中方向完全使用CWMT’18翻譯質量評估數(shù)據(jù)的訓練集和開發(fā)集,具體數(shù)據(jù)統(tǒng)計如表1所示。測試集為WMT’19 Metrics task的數(shù)據(jù)集,具體數(shù)據(jù)統(tǒng)計如表2所示。

        表1 德英、中英和英中訓練集、開發(fā)集數(shù)據(jù)統(tǒng)計

        表2 WMT’19 Metrics task德英、中英和英中任務的測試集數(shù)據(jù)統(tǒng)計

        4.2 實驗結果

        表3和表4分別給出了在WMT’19 Metrics task上引入源語言句子信息的譯文自動評價方法和對比的譯文自動評價方法與人工評價的句子級別和系統(tǒng)級別的相關性。

        表3 在WMT’19 Metrics task的德英、中英和英中任務上自動評價與人工評價的句子級別相關性

        表4 在WMT’19 Metrics task的德英、英中和中英任務上自動評價與人工評價的系統(tǒng)級別相關性

        表3的數(shù)據(jù)表明引入源語言句子信息的方法“(Bi-LSTM+attention)BERT+QE”和“(ESIM)BERT+QE”在德英、中英和英中三個語言對上,與人工評價的句子級別相關性均值分別高于使用語境詞向量的方法“(Bi-LSTM+attention)BERT”和“(ESIM)BERT”。“(Bi-LSTM+attention)BERT+QE”相對于“(Bi-LSTM+attention)BERT”在德英、中英、英中三個任務上分別提升了4.6%、3.2%和3.8%,“(ESIM)BERT+QE”相對于“(ESIM)BERT”方法分別提升了7.5%、2.8%和6.3%。其中,“(Bi-LSTM+attention)BERT+QE”方法在三個語言對任務中句子級別相關系數(shù)均最高。這說明引入源端信息能增強機器譯文自動評價與人工評價的句子級別相關性。

        表4的數(shù)據(jù)表明,本文所提方法“(Bi-LSTM+attention)BERT+QE”和“(ESIM)BERT+QE”在德英、中英和英中三個語言對評測任務上,與人工評價的系統(tǒng)級別相關系數(shù)的均值分別高于“(Bi-LSTM+attention)BERT”和“(ESIM)BERT”。“(Bi-LSTM+attention)BERT+QE”相對于“(Bi-LSTM+attention)BERT”方法在德英、中英任務上提升了0.8%和1.7%,在英中任務上保持一致,“(ESIM)BERT+QE”相對于“(ESIM)BERT”方法在中英、英中任務上分別提升了0.7%和0.3%,在德英上保持一致。這說明引入源端信息能增強機器譯文自動評價與人工評價的系統(tǒng)級別相關性。

        令人驚奇的是,僅使用源端信息,完全不使用人工參考譯文的UNQE方法,也與人工評價結果有較好的相關性。盡管其在平均相關性上劣于所有使用人工參考譯文的方法,但是它與sentBLEU方法在平均句子級別相關性和平均系統(tǒng)級別相關性上的差距并不大,在英中的句子級別相關性(0.258)上甚至稍高于BEER方法(0.232),在英中的系統(tǒng)級別相關性(0.916)上高于BLEU(0.901)、BEER(0.803)、chrF(0.880)等方法。這說明源端信息對譯文自動評價非常有幫助,從一個側面佐證了正確地將質量向量引入譯文自動評價必將提高譯文自動評價的性能。

        4.3 實驗分析

        為了進一步分析融合源端信息的譯文自動評價方法的特點,我們在開發(fā)集上分別抽取了中英和英中翻譯自動評價的實例進行分析。表5給出了對兩個譯文進行打分的實例,其中HTER是指將機器譯文mt轉換成人工后編輯的參考譯文ref需要的最少編輯次數(shù)與譯文長度的比值,它可以看作是譯文人工打分的結果。自動評價方法對機器譯文的打分越接近人工打分(1-HTER),表明該自動評價方法對譯文的評價越準確。

        表5 不同自動評價方法對機器譯文打分實例

        在第一個實例中,源語言句子中“對城市交通來說”在機器譯文中缺乏對應翻譯,存在漏譯的情況,但(Bi-LSTM+attention)BERT和(ESIM)BERT卻給了很高的分值,而本文的方法打分均更接近人工HTER分值,說明(Bi-LSTM+attention)BERT+QE和(ESIM)BERT+QE方法結合了源語言句子信息對譯文進行評價,能更準確地描述譯文的完整度特征,因此,相比于僅結合人工參考譯文信息打分的(Bi-LSTM+attention)BERT和(ESIM)BERT方法,引入源端信息的方法的評價更準確。在第二個實例中,機器譯文中存在多譯、過度翻譯的情況,源語言句子中“Tokyo, Japan”被過度翻譯成“東京”和“日本”兩個地方。對于這種情況,本文方法依然比(Bi-LSTM+attention)BERT和(ESIM)BERT更接近人工打分結果HTER。這定性地說明結合源端信息的機器譯文自動評價方法能更充分地利用源語言句子的信息對譯文質量進行評價。

        5 結論

        本文提出引入源端信息的機器譯文自動評價方法。與傳統(tǒng)的BLEU、BEER、chrF等評價指標相比,引入源端信息的機器譯文自動評價方法,融合了源語言句子、人工參考譯文、機器譯文三者的信息,能更全面且有效地描述譯文質量。未來的工作中,我們將嘗試在更大的語料庫、更多的語言對上進行實驗,以及引入更先進的模型和方法來挖掘源端信息,以提高機器譯文自動評價方法的性能。

        猜你喜歡
        源語言譯文機器
        Stem cell-based 3D brain organoids for mimicking,investigating,and challenging Alzheimer’s diseases
        機器狗
        機器狗
        譯文摘要
        林巍《知識與智慧》英譯分析
        未來機器城
        電影(2018年8期)2018-09-21 08:00:06
        淺析日語口譯譯員素質
        北方文學(2018年18期)2018-09-14 10:55:22
        I Like Thinking
        跨文化視角下對具有修辭手法諺語英譯漢的研究
        速讀·下旬(2016年7期)2016-07-20 08:50:28
        以口譯實例談雙語知識的必要性
        考試周刊(2015年36期)2015-09-10 15:03:38
        国产高潮刺激叫喊视频| 无码人妻精品一区二区三区夜夜嗨| 三级国产高清在线观看| 久久久久久av无码免费网站下载| 成人欧美一区二区三区的电影| 精品国产av无码一道| 国产偷拍盗摄一区二区| 国产精品亚洲三级一区二区三区| 色播亚洲视频在线观看| 日韩A∨精品久久久久| 精品亚洲一区二区视频| 国产精品国产三级野外国产| 亚洲国产成人久久综合| 黑人性受xxxx黑人xyx性爽| 国产大片在线观看三级| 亚洲视频一区二区三区视频| 国产精品综合一区二区三区| 亚洲精品美女久久久久久久| 在线观看女同一区二区| 人人超碰人人爱超碰国产| 亚洲av无码国产剧情| 国产亚洲精品综合在线网址| 91精品国产九色综合久久香蕉 | 国产精品成人有码在线观看| 丰满少妇在线播放bd| 国产肥熟女视频一区二区三区| 中文字幕在线日韩| 日本国产精品高清在线| 把女人弄爽特黄a大片| 免费大片黄在线观看| 精品人妻中文字幕一区二区三区 | 欧美黑人又粗又大xxxx| 久久亚洲精品无码gv| 亚洲av熟女天堂系列| 免费人成视频网站在在线| 熟妇人妻av中文字幕老熟妇| 被欺辱的高贵人妻被中出 | 亚洲夫妻性生活免费视频| 日本熟妇人妻xxxxx视频| 国产精品涩涩涩一区二区三区免费| 亚洲日本一区二区三区四区|