朱杰 古明
摘要:機(jī)器翻譯在計(jì)算機(jī)科學(xué)突飛猛進(jìn)的今天吸引了大批科學(xué)家的關(guān)注和研究,其理論方法也呈現(xiàn)出多樣性,而語(yǔ)料庫(kù)的發(fā)展給機(jī)器翻譯注入了新的活力,基于此的機(jī)器翻譯便一躍成為主流。通過對(duì)機(jī)器翻譯的理論支撐和發(fā)展歷史做以綜合概述,然后運(yùn)用機(jī)器翻譯工具——谷歌翻譯進(jìn)行實(shí)例對(duì)比研究,其結(jié)果顯示了機(jī)器翻譯相對(duì)于人工翻譯的不足之處,但也展現(xiàn)了光明的發(fā)展前景。
關(guān)鍵詞:機(jī)器翻譯 語(yǔ)料庫(kù) 谷歌翻譯
中圖分類號(hào):H085? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):1009—5349(2019)17—0100—02
在計(jì)算機(jī)還未普及之前,人們的視野、獲取信息的渠道都是有限的,獲得信息的廣度和深度都受到束縛。各個(gè)民族、種族、國(guó)度或者地區(qū)的人們說著各自的語(yǔ)言,難以交流,這限制了信息的及時(shí)傳播。計(jì)算機(jī)的飛速發(fā)展,讓世界成為了一個(gè)小小的地球村。信息傳播的速度和數(shù)量呈現(xiàn)幾何級(jí)數(shù)增長(zhǎng),這就需要精準(zhǔn)而快速的翻譯。但是,傳統(tǒng)的人工翻譯的方式已經(jīng)不能滿足信息化社會(huì)的需求。傳統(tǒng)的人工翻譯往往意味著昂貴的勞務(wù)費(fèi),而且人工翻譯也就意味著時(shí)間的耗費(fèi),尤其是目標(biāo)信息涉及較多專業(yè)性知識(shí)的時(shí)候,比如心理學(xué)、哲學(xué)、政治學(xué)等,翻譯所要耗費(fèi)的時(shí)間就更長(zhǎng)。
為了滿足及時(shí)翻譯的需要,機(jī)器翻譯應(yīng)運(yùn)而生。翻譯軟件的開發(fā)和應(yīng)用,化解了信息傳播的語(yǔ)言障礙。人們足不出戶,坐在電腦前,動(dòng)動(dòng)鼠標(biāo),點(diǎn)點(diǎn)圖標(biāo),就可以將源語(yǔ)言翻譯為目標(biāo)語(yǔ)。
一、機(jī)器翻譯
機(jī)器翻譯,又被稱為計(jì)算機(jī)翻譯或自動(dòng)翻譯,是一門多學(xué)科融合的綜合學(xué)科。這些學(xué)科包括:語(yǔ)言學(xué)、數(shù)學(xué)和電腦科學(xué)。它也是自然語(yǔ)言處理研究的一個(gè)分支。1947年,美國(guó)著名的科學(xué)家Warren Weaver首先提出了用電子計(jì)算機(jī)將不同的語(yǔ)言進(jìn)行轉(zhuǎn)換翻譯的可能性,并在1949年正式提出了機(jī)器翻譯的觀點(diǎn)。從那以后,機(jī)器翻譯給世界帶來(lái)了意想不到的巨大變化。在眾多學(xué)者的研究和貢獻(xiàn)之下,機(jī)器翻譯領(lǐng)域也取得了跨時(shí)代的發(fā)展。
(一)機(jī)器翻譯方法
以翻譯策略所反映的哲學(xué)背景為分類準(zhǔn)則,人們常把機(jī)器翻譯方法劃分為理性主義方法和經(jīng)驗(yàn)主義方法兩大類。理性主義方法一般指基于規(guī)則的方法;經(jīng)驗(yàn)主義方法一般指基于語(yǔ)料庫(kù)的方法。
1.基于規(guī)則的機(jī)器翻譯
在生活中應(yīng)用非常廣泛的是使用規(guī)則制定的機(jī)器翻譯系統(tǒng),不同系統(tǒng)有很多的共同點(diǎn):第一,每個(gè)翻譯系統(tǒng)都擁有一個(gè)表達(dá)語(yǔ)言學(xué)的符號(hào)系統(tǒng);第二,翻譯系統(tǒng)在特定的規(guī)則下完成翻譯內(nèi)容。換而言之,單詞對(duì)單詞的對(duì)等翻譯、直接的轉(zhuǎn)化翻譯以及運(yùn)用中間語(yǔ)的翻譯都可以納入基于規(guī)則的翻譯方法中來(lái)。
雖然基于規(guī)則的機(jī)器翻譯發(fā)展迅猛,但其翻譯的質(zhì)量不太令人滿意,其可懂性及效度也很不充分。隨著對(duì)機(jī)器翻譯的深入研究,現(xiàn)存的基于規(guī)則的翻譯方式的很多問題凸顯出來(lái),如:翻譯質(zhì)量低、人力耗費(fèi)高、語(yǔ)法規(guī)則僵硬等。單單只依賴語(yǔ)法規(guī)則和語(yǔ)法結(jié)構(gòu)的翻譯是遠(yuǎn)遠(yuǎn)滿足不了當(dāng)代社會(huì)的需要的。于是,另一種主流的機(jī)器翻譯理論便逐漸抓取了專家學(xué)者的眼球,這便是經(jīng)驗(yàn)主義方法,即基于語(yǔ)料庫(kù)的方法。
2.基于語(yǔ)料庫(kù)的機(jī)器翻譯
基于語(yǔ)料庫(kù)的機(jī)器翻譯就是利用數(shù)據(jù)庫(kù)中的語(yǔ)言信息來(lái)創(chuàng)造新的翻譯。基于語(yǔ)料庫(kù)的機(jī)器翻譯雖然在機(jī)器翻譯的早期就已經(jīng)有所萌芽,但其真正地開始抓取公眾的眼球還是始于20世紀(jì)90年代。它包括兩種方式:一是統(tǒng)計(jì)機(jī)器翻譯方法,另一個(gè)是實(shí)例機(jī)器翻譯方法。根據(jù)Carl(2000)所言,所有的基于語(yǔ)料庫(kù)的機(jī)器翻譯都會(huì)運(yùn)用一系列的所謂的“指稱翻譯”(包括源文本和其翻譯)來(lái)做翻譯。這其中源文本和目標(biāo)文本是平行的,通過分析這樣的平行結(jié)構(gòu),從語(yǔ)料庫(kù)中分離出對(duì)等的翻譯。Hutchins(1992)認(rèn)為基于語(yǔ)料庫(kù)的翻譯為僵化、復(fù)雜的基于規(guī)則的翻譯在分析和產(chǎn)出階段提供了另一種選擇。
(1)基于統(tǒng)計(jì)的機(jī)器翻譯
數(shù)據(jù)統(tǒng)計(jì)可以為機(jī)器翻譯提供大量的素材,也是目前非限定領(lǐng)域機(jī)器翻譯中使用廣泛的方法之一。此方法主要是利用大量的平行語(yǔ)料庫(kù)提取大量素材并對(duì)其進(jìn)行統(tǒng)計(jì)分析、建立模型,并利用模型進(jìn)行新材料的翻譯。利用語(yǔ)料庫(kù)進(jìn)行素材統(tǒng)計(jì)的要?jiǎng)?wù)是能夠?yàn)檎Z(yǔ)言的生成建構(gòu)合理的統(tǒng)計(jì)模型。模型建好后,還需對(duì)模型里的參數(shù)進(jìn)行定義。早期的統(tǒng)計(jì)模型主要是采用噪聲信道模型,近年來(lái),將區(qū)分性訓(xùn)練方法融入機(jī)器翻譯越來(lái)越常見。
(2)基于實(shí)例的機(jī)器翻譯
除了上述機(jī)器翻譯模型外,使用實(shí)例進(jìn)行機(jī)器翻譯也是十分常見的翻譯方法。該方法由日本翻譯專家長(zhǎng)尾提出,其核心原理如下:將實(shí)例放入實(shí)例庫(kù),并對(duì)實(shí)例進(jìn)行標(biāo)注,主要標(biāo)注為兩個(gè)字段,其中一個(gè)字段保留源語(yǔ)言句子,另一個(gè)字段保留目的語(yǔ)句子,當(dāng)要進(jìn)行翻譯時(shí),機(jī)器會(huì)將輸入的句子與實(shí)例庫(kù)的源語(yǔ)言進(jìn)行對(duì)比,找出最相似的句子,從而匹配最佳的目的語(yǔ)翻譯,并進(jìn)行輸出。
與傳統(tǒng)的基于規(guī)則的機(jī)器翻譯相比較,基于語(yǔ)料庫(kù)的機(jī)器翻譯有著其獨(dú)特的優(yōu)勢(shì)。為了更直接地呈現(xiàn)其優(yōu)越性,本文將選取一段文本,用谷歌在線翻譯系統(tǒng)進(jìn)行翻譯,然后將源文本與目標(biāo)文本進(jìn)行對(duì)比,分析其翻譯狀況,來(lái)展示其可行性。
二、例證
(一)谷歌翻譯
谷歌翻譯是一項(xiàng)美國(guó)谷歌公司提供的翻譯文段和網(wǎng)頁(yè)的服務(wù),其采用的翻譯方法就是基于統(tǒng)計(jì)的機(jī)器翻譯。谷歌的機(jī)器翻譯方法主要是基于2003年Franz Josef Och在美國(guó)國(guó)防部高級(jí)研究項(xiàng)目局(DARPA)的機(jī)器速度翻譯比賽時(shí)獲獎(jiǎng)的研究成果Och指出,若想要開發(fā)一個(gè)可用于翻譯一對(duì)全新語(yǔ)言的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),必須做好以下的數(shù)據(jù)基礎(chǔ)搜集工作:一個(gè)擁有百萬(wàn)詞匯量的雙語(yǔ)文本語(yǔ)料庫(kù)和屬于這兩種語(yǔ)言的單語(yǔ)語(yǔ)料庫(kù),各自得擁有十億數(shù)量級(jí)以上的單詞。
谷歌翻譯有其非常強(qiáng)大的語(yǔ)言學(xué)數(shù)據(jù),這些數(shù)據(jù)內(nèi)容主要來(lái)源于聯(lián)合國(guó)文檔。一般來(lái)講,聯(lián)合國(guó)的文檔都會(huì)有至少六種聯(lián)合國(guó)官方語(yǔ)言的譯本。因此,谷歌的翻譯語(yǔ)料庫(kù)數(shù)據(jù)是非常可靠及海量的,相當(dāng)于擁有了經(jīng)人工翻譯了兩三百萬(wàn)單詞并由不同語(yǔ)言構(gòu)成的語(yǔ)料庫(kù)。
(二)源文本
源文本選自熱門美劇《摩登家庭》(Modern Family)劇本,第一季第七集最后結(jié)尾處旁白的一段總結(jié)性的話語(yǔ)。
Jay①:We tell our kids it doesn't matter if you win or lose,but let's be honest,winning feels pretty great.There's nothing like that golden moment in the sun.I think every parent probably wants that for their child.So,sometimes,we push too hard.And that leads to a lot of resentment and guilt.So,how much is too much? Here's where I come out.Guilt fades.Hardware is forever.
(三)谷歌翻譯文本
我們將源文本粘貼至谷歌翻譯②頁(yè)面處,點(diǎn)擊翻譯,生成了譯本。
“我們告訴我們的孩子,無(wú)論你輸贏都沒關(guān)系,但說實(shí)話,勝利感覺非常棒。在陽(yáng)光下沒有像那個(gè)黃金時(shí)刻。我想每個(gè)父母都可能想要他們的孩子。所以,有時(shí)候,我們太過努力。這導(dǎo)致了很多怨恨和內(nèi)疚。那么,多少錢太多了?這是我出來(lái)的地方。內(nèi)疚消退。硬件是永恒的。”
(四)分析
源文本屬于比較口語(yǔ)化的內(nèi)容,因此整體的翻譯難度不太高。譯文的第一句,整體上翻譯得比較出色,沒有出現(xiàn)句法的問題。譯文的第二句則出現(xiàn)了比較明顯的句法錯(cuò)誤?!癷n the sun”應(yīng)該是介詞短語(yǔ)作后置定語(yǔ)修飾“golden moment”,而譯文則將“in the sun”當(dāng)成了整個(gè)句子的地點(diǎn)狀語(yǔ),并且在詞匯“golden”的翻譯上,谷歌比較直接地翻譯為了“黃金”,而更為雅致的翻譯則為輝煌的或者光輝的。第三句的翻譯,谷歌則出現(xiàn)了漏翻的現(xiàn)象:that沒有在譯文中體現(xiàn)出來(lái)。第四句同樣出現(xiàn)了詞義理解的差異。push在文本情境中的意思應(yīng)該為把……逼太緊,而不是努力的意思。第五句句子較短,句法簡(jiǎn)單,因此谷歌翻譯未出現(xiàn)錯(cuò)誤。而第六句中谷歌翻譯則將“how much”粗暴地翻譯成了“多少錢”,而忽略了語(yǔ)境,此處“how much”就理解為多少的意思。倒數(shù)第二句的翻譯中,“come out”此短語(yǔ)也被直接翻譯為了“出來(lái)”,實(shí)際上為“得出結(jié)論”的意思。最后部分的翻譯內(nèi)容沒有問題,但翻譯得比較生硬,讀起來(lái)很不符合中文的習(xí)慣,因此在人工翻譯中通常會(huì)結(jié)合語(yǔ)境,將詞句翻譯為“內(nèi)疚會(huì)消退,但是硬件才是永恒的”。
通過實(shí)例的分析,我們可以總結(jié)出基于語(yǔ)料庫(kù)的機(jī)器翻譯的最大優(yōu)勢(shì)就是其翻譯內(nèi)容的準(zhǔn)確性和易理解性。其在處理歧義句上表現(xiàn)出了強(qiáng)大的能力,更別提基于數(shù)據(jù)庫(kù)的常識(shí)的豐富性。
當(dāng)然,我們也不可否認(rèn),機(jī)器翻譯與人腦翻譯相比還存在著巨大的差距,谷歌翻譯的上述文本也顯示出其在句式結(jié)構(gòu)處理上還有所欠缺,亟待完善。
三、結(jié)語(yǔ)
機(jī)器翻譯的歷史曲折而坎坷,機(jī)器翻譯依據(jù)的理論和方式也紛繁復(fù)雜,基于數(shù)據(jù)庫(kù)的機(jī)器翻譯方式在多年的實(shí)證中體現(xiàn)出了自身價(jià)值,博得了商業(yè)公司的青睞。但機(jī)器翻譯畢竟是隨著計(jì)算機(jī)的發(fā)展才發(fā)展起來(lái)的一門科學(xué),其后續(xù)的發(fā)展和完善還需要依賴于科技的進(jìn)步、軟件的設(shè)計(jì)開發(fā)。
注釋:
①摩登家庭主角之一,年紀(jì)最大。
②見http://translate.google.cn/?hl=zh—CN&tab=wT#。
參考文獻(xiàn):
[1]Carl,M.Combining invertible example—based machine translation with translation memory technology[A].Proceedings of the 4th Conference of the Association for Machine Translation in the Americas,Mexico,2000.
[2]Hutchins,J and Somers,H.An Introduction to Machine Translation[M].London:Academic Press,1992.
[3]馮志偉.機(jī)器翻譯研究[M].北京:中國(guó)對(duì)外翻譯出版公司,2004.
[4]俞士文.計(jì)算語(yǔ)言學(xué)概論[M].北京:商務(wù)印書館,2007.
責(zé)任編輯:景辰