張睿
互聯(lián)網(wǎng)上經(jīng)常會(huì)流傳一些中文翻譯成英文時(shí)鬧出的“烏龍”。比如江西省上饒市公安局三清山分局2011年在當(dāng)?shù)仫L(fēng)景區(qū)內(nèi)豎立的一塊信息服務(wù)牌上,將“有困難,找警察”錯(cuò)誤地翻譯成“Difficult to find the police”,被眼尖的網(wǎng)友拍照發(fā)到了網(wǎng)上,變成一個(gè)尷尬的笑話。
如果說當(dāng)年的錯(cuò)誤應(yīng)由翻譯軟件負(fù)責(zé),最近一兩年,我們?cè)絹碓诫y把責(zé)任再推給它們了。基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯已經(jīng)將翻譯的質(zhì)量提高到一個(gè)新層次—比如“有困難,找警察”,如今Google翻譯給出的英文結(jié)果是“There are difficulties,to find police”—不完美,但至少和中文的意思大體一致。這是因?yàn)閺?016年9月開始,Google采用了一種全新的方法—用Google神經(jīng)機(jī)器翻譯(GNMT)系統(tǒng)來做雙語翻譯。
一直以來,包括Google在內(nèi),提供機(jī)器翻譯服務(wù)的公司都在追求更好的翻譯效果和更高的翻譯效率。
此前,統(tǒng)計(jì)機(jī)器翻譯(SMT)是最主流的機(jī)器翻譯技術(shù),它通過對(duì)大量的平行語料做統(tǒng)計(jì)分析,構(gòu)建統(tǒng)計(jì)翻譯模型,然后使用該模型翻譯。
以中文和英文之間的翻譯為例,搜狗語音交互中心技術(shù)負(fù)責(zé)人陳偉向《第一財(cái)經(jīng)周刊》解釋,“這種翻譯方式是把句子的翻譯切分成單詞、短語,建立中文、英文短語之間的影射關(guān)系,然后使用語言模型把中文短語翻譯成英文的短語。”
也就是說,翻譯的過程實(shí)際上是計(jì)算概率統(tǒng)計(jì)的過程,翻譯引擎本身沒有規(guī)則或語法概念。Google、百度等搜索引擎公司可以搜索大量的雙語網(wǎng)頁內(nèi)容,自動(dòng)選取概率最大的詞與詞的對(duì)應(yīng)關(guān)系,最后給出翻譯結(jié) 果。
使用這種方式,其效果就像我們常??吹降摹總€(gè)單詞的翻譯都正確,連在一起有時(shí)卻不是通順的、符合語法邏輯和理解習(xí)慣的正確句子,有時(shí)甚至出現(xiàn)意思完全相悖的情況。這是因?yàn)?,統(tǒng)計(jì)機(jī)器翻譯質(zhì)量的高低,往往取決于概率模型的好壞以及語料庫的覆蓋,一個(gè)使用技術(shù)文本訓(xùn)練的翻譯引擎,在翻譯口語化的文本時(shí)效果會(huì)很差。
以深度學(xué)習(xí)技術(shù)為基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型的出現(xiàn),正在改善這一狀況。
Google的GNMT系統(tǒng)的理論,最早公開出現(xiàn)在2014年,加拿大蒙特利爾大學(xué)Yoshua Bengio教授的研究組在開放性論文網(wǎng)站arXiv上發(fā)布了他們最新的研究成果,解釋了這一翻譯模型。
其最基本的架構(gòu)是由一個(gè)編碼器(encoder)和一個(gè)解碼器(decoder)構(gòu)成的。首先,編碼器將漢語句子的每個(gè)詞編碼成一個(gè)向量列表,用來描述所有讀取到的詞的含義,然后解碼器從向量列表中讀取參數(shù),把這些詞向量逐個(gè)替換成譯句中的某個(gè)單詞。同時(shí),在編碼器和解碼器之間引入注意力(attention)機(jī)制,用來調(diào)整詞與詞之間的權(quán)重關(guān)系。
兩年后,Google也發(fā)布了自己的相關(guān)論文,介紹了它在這方面的研究和實(shí)踐。在雙語評(píng)估者的幫助下,通過對(duì)維基百科和新聞網(wǎng)站例句的測(cè)定,Google發(fā)現(xiàn),在多個(gè)樣本的翻譯中,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)將誤差降低了55%至85%,甚至更多。
“這種方式更像人類的理解方式?!庇械朗紫茖W(xué)家段亦濤對(duì)《第一財(cái)經(jīng)周刊》說,“先把句子理解了,再把它表達(dá)出來。”
微軟也在2016年12月中旬發(fā)布了新的翻譯工具,其現(xiàn)場(chǎng)翻譯功能(Live Feature)可以支持多人、多語種之間的實(shí)時(shí)翻譯。
現(xiàn)在,包括有道、百度、搜狗在內(nèi)的中國(guó)技術(shù)公司都開始投入到神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的研究和開發(fā)之中。實(shí)際上,這些公司使用的框架是類似的,只是在模型、數(shù)據(jù)、訓(xùn)練、場(chǎng)景等方面存在差異。
“你的模型使用什么樣的單元、層次有多深、有沒有一些特殊的機(jī)制在里面,得到的效果都是不一樣的?!倍我酀f。每個(gè)公司都在積累和整理自己的平行語料數(shù)據(jù),雖然學(xué)術(shù)界有一些公開的數(shù)據(jù)集,但是往往比較小,訓(xùn)練的差異體現(xiàn)在如何對(duì)參數(shù)做調(diào)整。此外,不同的公司針對(duì)的場(chǎng)景又有不同。
用來衡量機(jī)器翻譯質(zhì)量的一個(gè)通行指標(biāo)是BLEU值,其原理是比較機(jī)譯結(jié)果和人譯結(jié)果的相似度,完全一致得分為100。Google之前的統(tǒng)計(jì)型翻譯引擎的BLEU值大約維持在40標(biāo)準(zhǔn)加號(hào)的水平。
但要橫向比較目前幾家公司機(jī)器翻譯的質(zhì)量并不容易,這一方面與它們的模型有關(guān),另一方面與測(cè)試使用的數(shù)據(jù)集有關(guān)。段亦濤說,“任何一個(gè)模型都可以針對(duì)一個(gè)數(shù)據(jù)集調(diào)到非常不錯(cuò)的水平。”也就是說,數(shù)據(jù)集的選取如果不與應(yīng)用場(chǎng)景結(jié)合,測(cè)試的結(jié)果就很難反映該模型的質(zhì)量。
表面上看,在這項(xiàng)新技術(shù)面前,大家都處于同一條起跑線。不過段亦濤認(rèn)為,“上手容易,做好不容易,進(jìn)一步提高更難?!?/p>
神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯對(duì)數(shù)據(jù)量和計(jì)算量的要求非常高。百度、搜狗等搜索引擎公司往往有更多的平行語料,而有道原本的翻譯服務(wù)也提供了更多有用的數(shù)據(jù)。
“相較于傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的系統(tǒng)部署所需的硬件投入至少上漲十幾倍。神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)在一臺(tái)價(jià)值4萬多元的服務(wù)器上運(yùn)行,其速度和吞吐才接近于統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)在3000多元的PC機(jī)上的性能?!毙∨7g的創(chuàng)始人朱靖波說。
Google的優(yōu)勢(shì)是,它擁有專門為深度學(xué)習(xí)設(shè)計(jì)的處理器TPU(Tensor Processing Unit),原本要10秒處理的句子只需要300毫秒便可完成。
據(jù)了解,微軟也在運(yùn)用其可編程芯片F(xiàn)PGA來執(zhí)行神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯,而百度正在開發(fā)不同類型的硅片。
更進(jìn)一步地說,如果將神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯和語音識(shí)別、語音合成結(jié)合起來,是否能取代同聲傳譯?2016年,搜狗CEO王小川在烏鎮(zhèn)世界互聯(lián)網(wǎng)大會(huì)上演示了搜狗語音實(shí)時(shí)翻譯技術(shù),取得了不錯(cuò)的效果。
在搜狗語音交互中心技術(shù)負(fù)責(zé)人陳偉看來,語音識(shí)別與翻譯,二者具有共通性。“技術(shù)在慢慢交疊和融合,比如端到端的技術(shù),我們發(fā)現(xiàn)語音識(shí)別和機(jī)器翻譯都是一個(gè)序列到另一個(gè)序列的學(xué)習(xí)過程。翻譯的框架,我們現(xiàn)在的語音識(shí)別也在用?!?/p>
但在對(duì)準(zhǔn)確性和專業(yè)性要求更高的場(chǎng)合,機(jī)器翻譯尚不能被信賴,比如,當(dāng)王小川說“我會(huì)認(rèn)為搜索的未來就是問答機(jī)器人”時(shí),語音實(shí)時(shí)機(jī)器翻譯顯示的是“I will think the future of search. The QA Robot.”—這顯然不是一個(gè)令人滿意的結(jié)果。
雖然短短一年的時(shí)間里,人工智能系統(tǒng)在圍棋領(lǐng)域已鮮有對(duì)手,但在翻譯界,它目前還未能戰(zhàn)勝人類。