□文/房曉楠
機(jī)器翻譯:人類距離“重建”巴別塔還有多遠(yuǎn)?
□文/房曉楠
房曉楠 本刊編輯
從1954年IBM-701 計(jì)算機(jī)首次將"Mi pyeryedayem mislyi posryedstvom ryechyi"翻譯成"我們通過語音傳遞思想",到現(xiàn)如今谷歌機(jī)器翻譯又添新語種,在這六十多年里機(jī)器翻譯似乎正在一點(diǎn)一點(diǎn)地瓦解語言所形成的國家與國家之間、文化與文化之間的壁壘,那么,我們是不是可以想象:有朝一日,人類打破上帝曾經(jīng)對(duì)于人類的“詛咒”,“重建”巴別塔……
在《圣經(jīng)·舊約·創(chuàng)世記》中有一章,講述了當(dāng)時(shí)人類聯(lián)合起來興建希望能通往天堂的高塔——巴別塔,上帝知道后為了阻止人類的計(jì)劃,改變了人類的語言,使人類相互之間不能溝通,計(jì)劃因此失敗,人類自此各散東西。
翻譯真的有這么重要嗎?是的,翻譯背后是語言,語言的本質(zhì)是符號(hào),翻譯就是對(duì)符號(hào)的“編碼”和“解碼”。
從一種語言翻譯到另一種語言,就是對(duì)一種編碼進(jìn)行解碼,再重新編碼為另一套體系。
在中國四大名著之一《西游記》中唐三藏從東土大唐前往西天取經(jīng),得到經(jīng)書之后翻譯加以傳播,普渡眾生,可以說是符號(hào)(語言)“編碼”—“解碼”學(xué)說的一大有力實(shí)證。
在這里,說到“翻譯”,似乎大家約定俗成地默認(rèn)為“人工翻譯”,那么在20世紀(jì)30年代初,當(dāng)法國科學(xué)家G.B.阿爾楚尼提出了用機(jī)器來進(jìn)行翻譯的想法之后,“翻譯”似乎有了兩個(gè)分支“人工翻譯”和“機(jī)器翻譯”,雖然后者還只是存在于意識(shí)中。
1949,在世界上第一臺(tái)現(xiàn)代電子計(jì)算機(jī)ENIAC誕生3年之后,信息論的先驅(qū)、美國科學(xué)家瓦倫·韋弗(Warren Weaver)發(fā)表了《翻譯備忘錄》,首次建議將計(jì)算機(jī)應(yīng)用于翻譯。
1954年,美國喬治敦大學(xué)(Georgetown University)在 IBM 公司協(xié)同下,以 IBM-701計(jì)算機(jī)首次完成基于 6 項(xiàng)語法規(guī)則和 250 字詞匯表的俄英翻譯系統(tǒng),能"Mi pyeryedayem mislyi posryedstvom ryechyi"翻譯成"我們通過語音傳遞思想",從而將機(jī)器翻譯從意識(shí)流轉(zhuǎn)化為實(shí)物,拉開機(jī)器翻譯研究的序幕。
在機(jī)器翻譯發(fā)展的這六十多年里,出現(xiàn)了多種基于不同原理的機(jī)器翻譯系統(tǒng),從方法上來說,大概可以分為四類:
圖1:瓦倫·韋弗
第一類:基于規(guī)則的機(jī)器翻譯
從20世紀(jì)70年代中期到80年代末在機(jī)器翻譯界占主導(dǎo)地位的就是基于詞和語法規(guī)則的機(jī)器翻譯系統(tǒng)了,這種方法是在翻譯的過程中對(duì)源語言進(jìn)行分析并對(duì)源語言的意義進(jìn)行表示,然后再生成等價(jià)的目標(biāo)語言。該系統(tǒng)從體系結(jié)構(gòu)上來劃分的話,可以分為直接翻譯系統(tǒng)、轉(zhuǎn)化翻譯系統(tǒng)和基于中間語言的翻譯系統(tǒng)。
在基于規(guī)則的機(jī)器翻譯系統(tǒng)中,里面用到的規(guī)則是由語言學(xué)家進(jìn)行編寫的,雖然經(jīng)過研究者們的努力已經(jīng)建立了包含上萬個(gè)規(guī)則的規(guī)則庫,可是大量人力物力的消耗、時(shí)間周期的過于長久和實(shí)驗(yàn)的代價(jià)較大都是基于規(guī)則的機(jī)器翻譯系統(tǒng)不容忽視的缺點(diǎn)。實(shí)際上,人類并不了解大腦是如何工作的,卻仍然可以將工作做得很好。但是,人類自己語言熟練,并不代表人類能理解自身的語言神經(jīng)是怎么運(yùn)作的。這就導(dǎo)致基于人工規(guī)則的翻譯軟件翻譯出一些令人啼笑皆非的譯文。
針對(duì)基于規(guī)則的機(jī)器翻譯系統(tǒng)的諸多弊病,功能更為齊全的新翻譯系統(tǒng)應(yīng)運(yùn)而生。
第二類:基于實(shí)例的機(jī)器翻譯
20世紀(jì)80年代中期,日本著名的翻譯專家長尾真(Makoto Nagao)提出了基于實(shí)例的機(jī)器翻譯的基本思想:不進(jìn)行深層分析,僅僅利用已有的經(jīng)驗(yàn)知識(shí),通過類比對(duì)語言進(jìn)行翻譯。
基于實(shí)例的機(jī)器翻譯系統(tǒng)的特點(diǎn)有:
1.系統(tǒng)中知識(shí)以翻譯實(shí)例和語義詞典等形式存在,系統(tǒng)易維護(hù),可以利用增加實(shí)例和詞匯的方式很容易地?cái)U(kuò)充系統(tǒng)。
2.如果利用較大的翻譯實(shí)例庫或輸入與實(shí)例精確匹配時(shí),翻譯出來的譯文質(zhì)量相對(duì)來說比較高。
3.基于實(shí)例的機(jī)器翻譯系統(tǒng)通過類比進(jìn)行翻譯,避免了基于規(guī)則的機(jī)器翻譯必須進(jìn)行的深層次語言學(xué)分析。
4.語種相關(guān)知識(shí)很少,只要記憶庫中存在外形與輸入相似的句子,即可匹配。EBMT對(duì)于相同或相似的文本,有非常顯著的翻譯效果,隨著例句庫規(guī)模的增加,其作用也愈顯著。
雖然基于實(shí)例的機(jī)器翻譯系統(tǒng)翻譯效果顯著提高,可是,在很多方面還是有些不盡如人意的。一方面,由于語料庫規(guī)模的限制,將語料庫中的源語言文本和目標(biāo)語言文本中意思相同的一群通過算法對(duì)應(yīng)起來還是存在一定的難度的。另外,實(shí)例匹配相似度也是亟待解決的問題。
第三類:基于統(tǒng)計(jì)的機(jī)器翻譯
基于統(tǒng)計(jì)的機(jī)器翻譯方法是20世紀(jì)90年代興起的一種翻譯方法,也是當(dāng)前機(jī)器翻譯的主要方法。
“統(tǒng)計(jì)機(jī)器翻譯方法”(SMT),即通過對(duì)大量的平行語料進(jìn)行統(tǒng)計(jì)分析,找出常見的詞匯組合規(guī)則,盡量避免奇怪的短語組合。SMT翻譯短語效果好,但是對(duì)于翻譯句子的翻譯結(jié)果就差強(qiáng)人意了,直到近幾年基于神經(jīng)網(wǎng)絡(luò)的翻譯模型( NMT)崛起。
神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯(NMT)模擬人腦神經(jīng)的層級(jí)結(jié)構(gòu),具有多層芯片網(wǎng)絡(luò),從基礎(chǔ)層開始,每一層都對(duì)從上一層接收來的信息進(jìn)行抽象,自動(dòng)識(shí)別出語言的規(guī)則、模式。人不了解那些規(guī)則也沒關(guān)系,反正交給機(jī)器了,只要結(jié)果正確即可,這就是端到端的翻譯。
到底什么是神經(jīng)網(wǎng)絡(luò)?神經(jīng)網(wǎng)絡(luò)是通過對(duì)人腦的基本單元——神經(jīng)元的建模和聯(lián)接,探索模擬人腦神經(jīng)系統(tǒng)功能的模型,并研制一種具有學(xué)習(xí)、聯(lián)想、記憶和模式識(shí)別等智能信息處理功能的人工系統(tǒng)。神經(jīng)網(wǎng)絡(luò)的一個(gè)重要特性是它能夠從環(huán)境中學(xué)習(xí)。
“神經(jīng)網(wǎng)絡(luò)技術(shù)在數(shù)據(jù)結(jié)構(gòu)以及學(xué)習(xí)結(jié)構(gòu)上模擬了人腦,并且‘學(xué)什么’這個(gè)問題也由機(jī)器自動(dòng)掌握。再者,統(tǒng)計(jì)機(jī)器翻譯里一百萬行的代碼,在神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯里只需要280行就可以解決了?!盡arco Trombetti是這樣來闡述神經(jīng)網(wǎng)絡(luò)在機(jī)器翻譯方面的優(yōu)勢的。
相較于“統(tǒng)計(jì)機(jī)器翻譯方法”(SMT)聚焦于局部信息(短語),神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯(NMT)更擅長利用全局信息——在對(duì)整個(gè)句子的信息解碼、編碼后才能生成結(jié)果。所以無論是語音識(shí)別還是翻譯,都會(huì)發(fā)現(xiàn)句子長一點(diǎn),機(jī)器識(shí)別和翻譯的效果就會(huì)更好一點(diǎn)。 比如,語序問題是“翻譯”頭疼的問題,中文會(huì)把所有的定語都放在中心詞前面,英文則會(huì)倒裝,以往機(jī)器?;煜@個(gè)順序。NMT通過基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),向人類較好地學(xué)習(xí)到語序模式,長句翻譯比以往流暢多了。
谷歌最近宣布啟動(dòng)的神經(jīng)機(jī)器翻譯系統(tǒng)(GNMT)就是利用神經(jīng)網(wǎng)絡(luò)將語音直接轉(zhuǎn)譯成文本,它是通過學(xué)習(xí)找到源語言和書面文本中的波形之間的對(duì)應(yīng)關(guān)系模式。在TPU上運(yùn)行,能降低55%~85%的翻譯錯(cuò)誤,并且十分接近人類譯員的翻譯水平,這在業(yè)內(nèi)引起很大關(guān)注。
語音機(jī)器翻譯的常規(guī)工作模式是先將語音轉(zhuǎn)換成文本,然后將其翻譯成另一種語言,但語音識(shí)別中的任何錯(cuò)誤都會(huì)導(dǎo)致轉(zhuǎn)錄過程中的錯(cuò)誤以及翻譯錯(cuò)誤。
而谷歌的深度學(xué)習(xí)研究機(jī)構(gòu)Google Brain的研究人員利用神經(jīng)網(wǎng)絡(luò)取代了中間環(huán)節(jié)。通過這種跳過轉(zhuǎn)錄的方法,使得翻譯更準(zhǔn)確、更快捷。
第四類:混合式機(jī)器翻譯模型
在機(jī)器翻譯行業(yè)中各種翻譯模型蓬勃發(fā)展,但也不約而同地存在著各式各樣的缺陷?;诖?,有些研究者就開始轉(zhuǎn)向混合式機(jī)器翻譯模型的研究。例如在一個(gè)基于Factored的維漢機(jī)器翻譯系統(tǒng)中,將Factored系統(tǒng)和基于層次短語的Joshua翻譯系統(tǒng)以及Moses中基于句法的翻譯模型進(jìn)行系統(tǒng)融合,構(gòu)建一個(gè)混淆網(wǎng)絡(luò),就可以提高翻譯的效果。
機(jī)器翻譯發(fā)展這么迅速,翻譯效果也在不斷提高,那么,以后還需要學(xué)習(xí)外語嗎?機(jī)器翻譯是不是可以代替人工翻譯?
“應(yīng)該不會(huì),”百度副總裁,AI技術(shù)平臺(tái)體系(AIG)總負(fù)責(zé)人王海峰曾肯定地說,“它不僅不會(huì)威脅到翻譯人員的生存,反而會(huì)給他們帶來工作上的便利,據(jù)我所知,很多翻譯人員的手機(jī)里也安裝了我們的產(chǎn)品。機(jī)器翻譯和人工翻譯各有優(yōu)勢,一個(gè)機(jī)器翻譯系統(tǒng)可以同時(shí)掌握幾十種語言的翻譯能力,也可以擅長多個(gè)領(lǐng)域的翻譯,這是翻譯人員們所不具備的。但同時(shí),優(yōu)秀的翻譯人員可以將語言的細(xì)微之處翻譯出精妙的美感來,這也是機(jī)器翻譯系統(tǒng)無能為力的。所以說二者互補(bǔ),彼此不能相互替代。”
對(duì)于語言的翻譯,其實(shí)不僅僅是“編碼”—“解碼”這種一對(duì)一的輸入輸出關(guān)系,里面蘊(yùn)含的更多是文化。不同語言之間的文化壁壘僅僅依靠翻譯語言的表層意思還是難以打破的。
1898年,嚴(yán)復(fù)在《天演論·譯例言》中,第一次提出了“信達(dá)雅”的翻譯標(biāo)準(zhǔn),指出譯文要忠實(shí)于原文,不拘泥于原文形式,準(zhǔn)確表達(dá)原文意思,追求原文意境。
相比于高質(zhì)量的人工翻譯來說,機(jī)器翻譯雖然有了人工智能這一大利器,準(zhǔn)確度有了很大程度上的提高,在一定程度上可以達(dá)到“信”的標(biāo)準(zhǔn),但在實(shí)現(xiàn)翻譯“雅達(dá)”要求上可能就力不從心了。而對(duì)于那些有著多種修辭手法的詩歌、小說來說,要想有一個(gè)較為精確的翻譯難度就更加大了。機(jī)器翻譯在揣摩人類思維的旅程中還是有很長的路要走的。為了彌補(bǔ)這些不足,現(xiàn)在更多的翻譯公司采取的是人工智能+人工的人機(jī)翻譯模式。
在人工智能這一科技領(lǐng)域,從來沒有誰可以永遠(yuǎn)“一枝獨(dú)秀”,而在當(dāng)下的的AI發(fā)展版圖中,技術(shù)路線有非常清晰的兩塊:一個(gè)是圖像識(shí)別、語音識(shí)別方向,另一個(gè)就是自然語言處理方向。著眼當(dāng)前的機(jī)器翻譯領(lǐng)域,已經(jīng)形成了中美科技巨頭“相愛相殺”的局面。
在美國,谷歌、微軟都將神經(jīng)網(wǎng)絡(luò)應(yīng)用于機(jī)器翻譯領(lǐng)域,谷歌更是表示會(huì)將神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯技術(shù)推廣到Google Translate現(xiàn)在支持的全部103個(gè)語種中。前不久谷歌宣布谷歌機(jī)器翻譯在支持英語與8種現(xiàn)有語言(漢語、法語、德語、日語、韓語、葡萄牙語、西班牙語和土耳其)的互譯之外,還支持英語與其他7種新語言:俄語、印地語、越南語、波蘭語、阿拉伯語、希伯來語和泰語的互譯。新語種的添加使谷歌GNMT離103個(gè)語種的翻譯又近了一步,而要完成這個(gè)目標(biāo),剩下的路還有多遠(yuǎn)呢?
而在中國,百度、科大訊飛等也都在機(jī)器翻譯領(lǐng)域不斷地開辟新疆土。到底,語言是民族的,還是世界的?在機(jī)器翻譯中,國內(nèi)國外的這些公司究竟誰能讓我們“重建”巴別塔,這是人工智能改變未來的重要場景。
手機(jī)掃碼閱讀