胡啟實(shí) 余衛(wèi)星 方乾屹
摘要:神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯(NMT) 技術(shù)逐步成為主流,但技術(shù)層面仍然存在詞語(yǔ)對(duì)齊、序列分布、后綴預(yù)測(cè)、時(shí)間響應(yīng)等關(guān)鍵性問(wèn)題,導(dǎo)致目前的機(jī)器翻譯應(yīng)用仍不能很好地滿足嚴(yán)謹(jǐn)縝密的翻譯需求。結(jié)合神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯引擎(NMT)和統(tǒng)計(jì)機(jī)器翻譯引擎(SMT) 的優(yōu)點(diǎn),提出機(jī)器翻譯的整體架構(gòu)設(shè)計(jì);從學(xué)生、教師和外語(yǔ)類院校三個(gè)維度闡述其發(fā)揮作用及效益,通過(guò)神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練及優(yōu)化效果,提出交互式機(jī)器翻譯預(yù)測(cè)中使用的神經(jīng)網(wǎng)絡(luò)翻譯模型,給出神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯中的解碼方式和交互翻譯預(yù)測(cè)方法,達(dá)到預(yù)測(cè)的速度要求。
關(guān)鍵詞:機(jī)器翻譯;人工智能;神經(jīng)網(wǎng)絡(luò);教學(xué)效益;預(yù)測(cè)序列;人機(jī)共譯
中圖分類號(hào):TP183 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2022)28-0011-03
1 引言
人工智能(AI) 正從學(xué)術(shù)驅(qū)動(dòng)轉(zhuǎn)變?yōu)閼?yīng)用驅(qū)動(dòng),從專用智能邁向通用智能,它比歷史上任何一個(gè)時(shí)期都要更加接近于人類智能水平,進(jìn)入了新的發(fā)展階段;自然語(yǔ)言處理(NLP) 作為當(dāng)今人工智能重點(diǎn)應(yīng)用領(lǐng)域之一,近年來(lái)取得了長(zhǎng)足的進(jìn)步[1];結(jié)合語(yǔ)言理論的進(jìn)步及統(tǒng)計(jì)學(xué)的優(yōu)勢(shì)互補(bǔ),加上計(jì)算機(jī)硬件技術(shù)飛速發(fā)展,可以充分支撐海量數(shù)據(jù)的存儲(chǔ)與快速計(jì)算,從而使得機(jī)器翻譯技術(shù)有全新的變革[2];人工智能在翻譯領(lǐng)域中已充分運(yùn)用先進(jìn)的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng),在政府、電商、軍工、媒體或教育教學(xué)等領(lǐng)域完成了應(yīng)用[3]。
基于神經(jīng)網(wǎng)絡(luò)混合模型的人機(jī)互譯技術(shù)研發(fā)和應(yīng)用中,將基于短語(yǔ)的預(yù)測(cè)模型和基于神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型相結(jié)合,形成具有深度學(xué)習(xí)能力的人機(jī)共譯多語(yǔ)種解決方案[4]。一方面,利用深度神經(jīng)網(wǎng)絡(luò)技術(shù)結(jié)合基于短語(yǔ)的交互翻譯模型的建立,解決人機(jī)互譯過(guò)程中所面臨的數(shù)據(jù)處理、詞語(yǔ)對(duì)齊或時(shí)間響應(yīng)等關(guān)鍵性問(wèn)題,并通過(guò)面向譯者的人機(jī)交互翻譯平臺(tái)的開(kāi)發(fā),實(shí)現(xiàn)翻譯從業(yè)者高效高質(zhì)量地完成翻譯任務(wù),滿足翻譯行業(yè)的大規(guī)模高效工作流程的需要[5];另一方面,將人類自然語(yǔ)言習(xí)慣的識(shí)別與應(yīng)用,融合至機(jī)器翻譯引擎的學(xué)習(xí)過(guò)程,不僅使系統(tǒng)能夠?qū)W習(xí)語(yǔ)言翻譯,更能通過(guò)人機(jī)互動(dòng)訓(xùn)練的過(guò)程,實(shí)現(xiàn)機(jī)器翻譯引擎的自主進(jìn)化、人類自然語(yǔ)言習(xí)慣模仿等功能,使機(jī)器翻譯的結(jié)果更接近人類的真實(shí)表達(dá)意圖,以神經(jīng)網(wǎng)絡(luò)混合模型人機(jī)互譯技術(shù)為基礎(chǔ),為企業(yè)、高校和個(gè)人用戶提供便捷、專業(yè)化語(yǔ)言服務(wù)[6]。
2 機(jī)器翻譯的整體架構(gòu)設(shè)計(jì)
整體架構(gòu)主要分為引擎基礎(chǔ)層和應(yīng)用層兩個(gè)主要層面,引擎基礎(chǔ)層主要研究如何將神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯引擎(NMT)和統(tǒng)計(jì)機(jī)器翻譯引擎(SMT) 優(yōu)點(diǎn)結(jié)合,在有輸入前綴約束的情況下,對(duì)可選預(yù)測(cè)序列進(jìn)行實(shí)時(shí)動(dòng)態(tài)組合,以提供最佳的交互式翻譯預(yù)測(cè)。研究?jī)?nèi)容主要包括:多語(yǔ)種平行雙語(yǔ)語(yǔ)料庫(kù)的建設(shè)用以訓(xùn)練高質(zhì)量的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯引擎和統(tǒng)計(jì)機(jī)器翻譯引擎;通過(guò)層級(jí)聯(lián)合模型擬合NMT和SMT的詞對(duì)齊和詞預(yù)測(cè)結(jié)果;基于對(duì)齊結(jié)果和搜索圖以及評(píng)估方法采用可選的搜索預(yù)測(cè)算法得到預(yù)測(cè)首詞、預(yù)測(cè)序列、預(yù)測(cè)補(bǔ)全、預(yù)測(cè)可信度,根據(jù)對(duì)用戶行為的采集和結(jié)果的大數(shù)據(jù)分析,對(duì)模型進(jìn)行優(yōu)化改進(jìn)。
應(yīng)用層對(duì)CAT工具進(jìn)行改造優(yōu)化并連接NMT翻譯API,實(shí)現(xiàn)NMT互動(dòng)翻譯、翻譯記憶庫(kù)、術(shù)語(yǔ)庫(kù)輔助、知識(shí)圖譜、譯員匹配協(xié)同等技術(shù)并與之有機(jī)結(jié)合,利用人機(jī)互譯技術(shù)大幅降低語(yǔ)聯(lián)網(wǎng)平臺(tái)相關(guān)應(yīng)用的人工翻譯成本,同時(shí)提升翻譯效率,主體架構(gòu)圖如圖1所示。
3 機(jī)器翻譯技術(shù)在高校外語(yǔ)教學(xué)中發(fā)揮的作用及效益
對(duì)于高校外語(yǔ)學(xué)院而言,引入先進(jìn)的機(jī)器翻譯技術(shù),對(duì)學(xué)生、教師和高校外語(yǔ)學(xué)院三個(gè)維度發(fā)揮作用并持續(xù)產(chǎn)生“教與學(xué)”的效益。
3.1 學(xué)生
學(xué)生群體能夠在老師的帶領(lǐng)下開(kāi)展人機(jī)結(jié)合翻譯實(shí)踐,分語(yǔ)種、分領(lǐng)域探索,將翻譯學(xué)習(xí)過(guò)程與機(jī)器翻譯技術(shù)結(jié)合,結(jié)合每個(gè)學(xué)生自身學(xué)習(xí)特點(diǎn)與風(fēng)格,最終形成最佳實(shí)訓(xùn)模式。同時(shí)通過(guò)校企合作,自行訓(xùn)練不同領(lǐng)域翻譯引擎,不斷深度自主學(xué)習(xí),形成各種不同類型的深度學(xué)習(xí)翻譯引擎,讓學(xué)生的學(xué)習(xí)過(guò)程更加豐富,提高其自我拓展和翻譯創(chuàng)新的能力,為其畢業(yè)之后的求職更具行業(yè)針對(duì)性打好基礎(chǔ)。
3.2 教師
NMT時(shí)代的翻譯教學(xué)讓教師可以從譯后編輯技術(shù)入手,開(kāi)始探索人機(jī)結(jié)合翻譯的最佳路徑,迅速形成學(xué)科優(yōu)勢(shì),為市場(chǎng)培養(yǎng)新時(shí)代翻譯專業(yè)人才。老師的教學(xué)手段或方法更多元化,結(jié)合大數(shù)據(jù)、AI翻譯或云計(jì)算等技術(shù),讓教學(xué)過(guò)程中的翻譯專業(yè)實(shí)訓(xùn)、實(shí)驗(yàn)或?qū)嵙?xí)更具有針對(duì)性,能充分進(jìn)行個(gè)性化教學(xué),真正做到因材施教。
3.3 高校外語(yǔ)學(xué)院
對(duì)于高校外語(yǔ)學(xué)院而言,不僅是教學(xué)模式不同,它帶來(lái)了外語(yǔ)教學(xué)和翻譯人才培養(yǎng)的變革。面向人工智能新時(shí)代的教學(xué)理念和完備的人機(jī)結(jié)合實(shí)訓(xùn)環(huán)境,再加上各種適合于不同場(chǎng)景的機(jī)器翻譯引擎資源,將會(huì)形成獨(dú)特的招生和就業(yè)優(yōu)勢(shì),面對(duì)人工智能機(jī)器翻譯技術(shù)帶來(lái)的機(jī)遇人人平等,而外語(yǔ)院校對(duì)NMT的應(yīng)用過(guò)程本身就是一個(gè)能不斷產(chǎn)生創(chuàng)新成果的過(guò)程,高校教學(xué)服務(wù)不再陷入長(zhǎng)期以來(lái)滯后于語(yǔ)言服務(wù)市場(chǎng)的循環(huán),而且具有真正意義上領(lǐng)先于市場(chǎng)的創(chuàng)新能力。
4 基于神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的序列預(yù)測(cè)模型
神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯引擎由于其基于序列到序列的解碼機(jī)制,可以為交互翻譯提供自然的序列預(yù)測(cè)選擇,并且其可以提供更好的翻譯預(yù)測(cè)質(zhì)量,以及在用戶拒絕推薦的情況下能夠更好地恢復(fù)序列的覆蓋。同時(shí)使用神經(jīng)網(wǎng)絡(luò)翻譯的優(yōu)勢(shì)包括輸入特征的一致性和更強(qiáng)大的非線性推斷能力。但是,由于神經(jīng)網(wǎng)絡(luò)翻譯模型計(jì)算復(fù)雜度高、響應(yīng)時(shí)間長(zhǎng),必須經(jīng)過(guò)優(yōu)化才能夠滿足現(xiàn)場(chǎng)互動(dòng)翻譯預(yù)測(cè)系統(tǒng)的速度要求。
4.1 神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型訓(xùn)練及優(yōu)化
神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯方法主要包括:一個(gè)編碼器——輸入語(yǔ)句由兩個(gè)循環(huán)的神經(jīng)網(wǎng)絡(luò)處理,一個(gè)從左到右,另一個(gè)從右到左,這兩個(gè)網(wǎng)絡(luò)按上下文編碼單詞的隱藏狀態(tài)產(chǎn)生。一個(gè)編碼器——輸出語(yǔ)句從左向右產(chǎn)生,其產(chǎn)生的過(guò)程是新產(chǎn)生的詞匯基于以隱藏狀態(tài)輸出前面詞匯和基于輸入編碼的最大化來(lái)決定。一種注意機(jī)制,其根據(jù)對(duì)輸入詞的分布來(lái)調(diào)節(jié)每個(gè)輸出詞的預(yù)測(cè)概率。
圖2所示系統(tǒng)描述了一個(gè)用于交互式翻譯預(yù)測(cè)中使用的神經(jīng)網(wǎng)絡(luò)翻譯模型。目標(biāo)語(yǔ)言單詞[yt]通過(guò)隱藏狀態(tài)[st]得到,隱藏狀態(tài)[st]由一個(gè)經(jīng)過(guò)注意力機(jī)制加權(quán)的輸入序列[α1,α2,α3,…,αt],[T]所確定,源語(yǔ)言序列[x1,x2,x3,…,xt]編碼成兩個(gè)隱藏狀態(tài)的循環(huán)神經(jīng)網(wǎng)絡(luò)。在每一個(gè)時(shí)間步[t],標(biāo)準(zhǔn)的解碼器計(jì)算在給定輸入序列[x1,x2,x3,…,xt]產(chǎn)生一個(gè)詞匯[yt]的條件概率,計(jì)算公式定義如下:
[p(yt|y1,…,yt-1, {x1,x2,…,xT})=g(yt-1, ct,st)]
其中,[g]是非線性激活函數(shù),[yt-1]是由前解碼步驟輸出目標(biāo)語(yǔ)言詞匯,[ct]是一個(gè)上下文環(huán)境矢量,[st]是時(shí)間步[t]對(duì)應(yīng)于[yt]的隱藏狀態(tài)。
在編碼階段,單個(gè)隱藏注釋狀態(tài)[ht]由輸入序列[x1,x2,…,xT]中的單詞[xT]所產(chǎn)生,所有的隱藏注釋狀態(tài)[ht]構(gòu)成了兩個(gè)前向和后向循環(huán)神經(jīng)網(wǎng)絡(luò)。注意力機(jī)制權(quán)重[at],[j]可以直觀解釋為[yt]與[xj]的對(duì)齊概率,使系統(tǒng)的注意力機(jī)制通過(guò)軟對(duì)齊對(duì)上下文序列的重點(diǎn)地方進(jìn)行加權(quán),計(jì)算過(guò)程如下:
[αt,j=expetjk=1Texpetk]
上下文環(huán)境矢量[ct]是對(duì)于隱藏注釋狀態(tài)的加權(quán)平均系數(shù),其計(jì)算方法如下:
[ct=j=1Tαt,j?hj]
如上所述,這種基于注意力的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯方法中的解碼是逐字進(jìn)行,在解碼過(guò)程的每一步中,計(jì)算可能的下一個(gè)單詞的概率分布;即每個(gè)當(dāng)前詞的解碼是以前一個(gè)詞、上下文向量和隱藏狀態(tài)為前提條件的,然后選擇最高得分的詞在下一步的調(diào)節(jié)環(huán)境中使用。將這種基于神經(jīng)網(wǎng)絡(luò)的序列預(yù)測(cè)方法和基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯解碼中的束搜索相結(jié)合,可以預(yù)測(cè)前n個(gè)下一個(gè)單詞,以保持系統(tǒng)具有不同輸出序列的預(yù)測(cè)。在下一個(gè)解碼步驟中,每個(gè)由單詞序列和隱藏狀態(tài)組成且由組合的單詞翻譯概率排序的預(yù)測(cè)序列被逐步擴(kuò)展。
4.2 神經(jīng)網(wǎng)絡(luò)交互機(jī)器翻譯預(yù)測(cè)
神經(jīng)網(wǎng)絡(luò)翻譯模型的解碼過(guò)程指向交互翻譯預(yù)測(cè)的直接實(shí)現(xiàn)??梢允褂糜煞g器提供的前綴中的單詞而不是在下一步的條件環(huán)境中使用模型的預(yù)測(cè)。因此,下一個(gè)詞的預(yù)測(cè)是以翻譯者的選擇為條件的,而不是模型的預(yù)測(cè)。如上所述,在翻譯解碼過(guò)程中,模型已解碼的前期預(yù)測(cè)序列[y1,y2,...,yt-1]反饋回模型中以產(chǎn)生下一個(gè)預(yù)測(cè)單詞。為了進(jìn)行交互預(yù)測(cè),可以將用戶輸入的真實(shí)前綴[y*1,y*2,…,y*t-1]作為[y1,y2,...,yt-1]的替代反饋到模型中,這樣產(chǎn)生一個(gè)新的預(yù)測(cè)單詞的條件概率重新定義如下:
[p(yt|y*1,y*2,…,y*t-1, {x1,x2,…,xT})=g(y*t-1, ct,st)]
對(duì)于神經(jīng)網(wǎng)絡(luò)交互翻譯預(yù)測(cè),結(jié)合各類交互翻譯模型的預(yù)測(cè),系統(tǒng)采用了以下兩種可能的方法:
方法一無(wú)需束搜索:將在用戶輸入的給定前綴在解碼期間饋送到模型中,然后給出下一個(gè)預(yù)測(cè)的單一最佳假設(shè)。方法二束搜索:進(jìn)行束搜索并選擇最大可能的句子完整翻譯,如果用戶的輸入前綴偏離這個(gè)完整翻譯,則從用戶的輸入前綴開(kāi)始到語(yǔ)句的末尾將重新進(jìn)行新的束搜索。束的范圍可以選擇從2~12,一般情況下,束的范圍為2時(shí)即可以給出絕大部分的預(yù)測(cè)質(zhì)量提升,神經(jīng)網(wǎng)絡(luò)互動(dòng)預(yù)測(cè)模型產(chǎn)生的拒絕建議序列往往比傳統(tǒng)的基于搜索圖的模型產(chǎn)生的拒絕建議序列要短。
4.3 預(yù)測(cè)速度限制
結(jié)合神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型可以得到前綴和后綴翻譯的最佳對(duì)齊結(jié)果,由于只有采用不同的特征權(quán)重才能適合最大化評(píng)估度量標(biāo)準(zhǔn)過(guò)程的每個(gè)步驟,為了在一個(gè)統(tǒng)一的聯(lián)合模型中學(xué)習(xí)不同的對(duì)齊和平移的權(quán)重,系統(tǒng)使用了基于極簡(jiǎn)單域適應(yīng)(FEDA) 的層級(jí)適應(yīng)方法。 首先,定義三個(gè)子段域:前綴域、重疊域和后綴域,前綴域包含所有將前綴與源語(yǔ)句對(duì)齊的短語(yǔ)、重疊域包括跨越前綴和后綴的所有短語(yǔ)、當(dāng)前綴域確定范圍后,后綴域包括翻譯句子所有其余部分的短語(yǔ)。此外,還有一個(gè)跨越整個(gè)短語(yǔ)派生范圍的根域。給定一系列包含上述域元素的集合[D={ROOT,PREFIX,OVERLAP,SUFFIX}],對(duì)于任何一個(gè)[d∈D],其特征項(xiàng)可以重復(fù)構(gòu)建,這些重復(fù)特征項(xiàng)可以理解為特定領(lǐng)域特征對(duì)于基線特征權(quán)重的偏移。對(duì)于一個(gè)初始的特征權(quán)重矢量[Φ],結(jié)合一個(gè)特定領(lǐng)域集合[D1?D],這些重復(fù)特征項(xiàng)包括的所有[f∈Φ]的[|D|]個(gè)拷貝[fd],有如下計(jì)算公式:
[fd=f, ?d∈D10, ?otherwise]
這些重復(fù)特征項(xiàng)的權(quán)重除根域之外,都初始化為0,根域初始化為基線權(quán)重[w]。在沒(méi)有通過(guò)前綴或領(lǐng)域來(lái)最大化BLEU值時(shí),該方法首先應(yīng)用于對(duì)齊預(yù)測(cè)模型,調(diào)整后綴預(yù)測(cè)時(shí),將這些基準(zhǔn)權(quán)重固定,以保持基準(zhǔn)翻譯質(zhì)量,并僅更新與前綴、重疊和后綴域?qū)?yīng)的權(quán)重。為了調(diào)整后綴預(yù)測(cè)模型,系統(tǒng)對(duì)公式:
[pes|ep,f;w=r:srcr=ftgtr=epes1z(f)e(wT?(r))]
對(duì)其中的權(quán)重[w]進(jìn)行了優(yōu)化,這樣可以使得對(duì)后綴評(píng)估標(biāo)準(zhǔn)度量的最大化;為了處理不可導(dǎo)的情況,模型調(diào)整采用的是在線次梯度方法,這種方法具有自適應(yīng)的學(xué)習(xí)速度,并有理論上的論證依據(jù)。
神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯引擎的解碼器需要遍歷用戶的所有前綴輸入,解碼的時(shí)間主要在于矩陣乘法運(yùn)算和計(jì)算隱藏層和輸出層向量,以及選擇預(yù)測(cè)單詞的最大化操作的計(jì)算成本。對(duì)于平均詞匯數(shù)為20的句子,通過(guò)CPU的模型預(yù)測(cè)速度為2秒,通過(guò)GPU的模型預(yù)測(cè)速度為150毫秒左右。而在人機(jī)交互過(guò)程中對(duì)系統(tǒng)的時(shí)間響應(yīng)限制通常是100毫秒。如何對(duì)基于前綴約束的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯進(jìn)行優(yōu)化,以滿足預(yù)測(cè)準(zhǔn)確率和響應(yīng)速度的要求,是研究中需要突破的難點(diǎn)之一。采用的技術(shù)手段包括:預(yù)先計(jì)算文檔的所有翻譯選項(xiàng)的可能路徑,給出整個(gè)文檔的預(yù)測(cè)序列概率圖,當(dāng)用戶拒絕建議或更改約束前綴時(shí),即將后續(xù)的有限新預(yù)測(cè)序列和初始的句子相結(jié)合以形成一個(gè)完整的序列,同時(shí)設(shè)立一個(gè)單詞對(duì)齊匹配窗口,對(duì)比有限新預(yù)測(cè)序列和窗口內(nèi)的單詞序列的概率分布,通過(guò)比較有限的新預(yù)測(cè)序列的概率分布和單詞對(duì)齊匹配窗口中序列的概率分布KL散度,來(lái)確定序列補(bǔ)丁的定位,預(yù)計(jì)可將預(yù)測(cè)速度提高到50毫秒左右。
5 結(jié)束語(yǔ)
針對(duì)引擎基礎(chǔ)層和應(yīng)用層的整體架構(gòu),利用人機(jī)互譯技術(shù)大幅降低語(yǔ)聯(lián)網(wǎng)平臺(tái)相關(guān)應(yīng)用的人工翻譯成本,在高校外語(yǔ)教學(xué)過(guò)程中,對(duì)學(xué)生、教師和外語(yǔ)類院校都產(chǎn)生教學(xué)效益;通過(guò)神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)模型訓(xùn)練及優(yōu)化效果,提出交互機(jī)器翻譯預(yù)測(cè)方法,達(dá)到提高預(yù)測(cè)速度的目的。
參考文獻(xiàn):
[1] 李奉棲.人工智能時(shí)代人機(jī)英漢翻譯質(zhì)量對(duì)比研究[J].外語(yǔ)界,2022(4):72-79.
[2] 孫有中,唐錦蘭.人工智能時(shí)代中國(guó)高校外語(yǔ)教師隊(duì)伍建設(shè)路徑探索:“四新”理念與“四輪”驅(qū)動(dòng)模式[J].外語(yǔ)電化教學(xué),2022(3):3-7,101.
[3] 王華樹(shù),劉世界.人工智能時(shí)代翻譯技術(shù)轉(zhuǎn)向研究[J].外語(yǔ)教學(xué),2021,42(5):87-92.
[4] 高璐璐,趙雯.機(jī)器翻譯研究綜述[J].中國(guó)外語(yǔ),2020,17(6):97-103.
[5] 黃毅,馮俊蘭,胡珉,等.智能對(duì)話系統(tǒng)架構(gòu)及算法[J].北京郵電大學(xué)學(xué)報(bào),2019,42(6):10-19.
[6] 崔啟亮.MTI翻譯技術(shù)教學(xué)體系設(shè)計(jì)[J].中國(guó)翻譯,2019,40(5):80-86.
【通聯(lián)編輯:唐一東】