劉玉恩
摘要:歷經(jīng)多年的發(fā)展,計算機翻譯技術(shù)日趨成熟,大幅提高了翻譯效率,降低了翻譯成本,為促進中國與世界各國的交流與合作發(fā)揮了重要作用。本文對計算機翻譯的發(fā)展歷程進行了論述,從應(yīng)用的角度比較了機器翻譯與計算機輔助翻譯的異同,并對兩者未來的發(fā)展趨勢進行了展望。
關(guān)鍵詞:機器翻譯;計算機輔助翻譯;MT;CAT
中圖分類號:H059 文獻標識碼:A
文章編號:1009-3044(2020)13-0212-02
1引言
社會對翻譯需求的急劇增長促進了翻譯事業(yè)的蓬勃發(fā)展,尤其1946年電子計算機誕生之后,結(jié)合互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能的計算機翻譯技術(shù)應(yīng)運而生,在日常生活中發(fā)揮了越來越重要的作用。
2計算機翻譯技術(shù)的發(fā)展歷程
從時間歷程劃分,計算機翻譯技術(shù)大致經(jīng)歷了初創(chuàng)期、停滯期、復蘇期和發(fā)展期。
2.1初創(chuàng)期(1947-1964)
1949年,美國科學家WarrenWeaver正式提出機器翻譯的設(shè)想。1954年,美國Georgetown大學與IBM公司合作,用IBM-701型計算機實現(xiàn)了首次英俄機器翻譯試驗。1956年,中國將計算機翻譯技術(shù)納入了全國科學工作發(fā)展規(guī)劃,課題名稱為“機器翻譯、自然語言翻譯規(guī)則的建設(shè)和自然語言的數(shù)學理論”。1957年,中國科學院語言研究所與計算機技術(shù)研究所聯(lián)合開展了俄漢機器翻譯試驗。同期,歐洲各國也高度重視機器翻譯的研究。
2.2停滯期(1965-1974)
限于當時計算機的硬件水平,最初的機器翻譯只能采用直譯法,不能對源語言的結(jié)構(gòu)進行深度分析處理,譯文質(zhì)量遠低于人工翻譯。1964年,美國的語言自動處理咨詢委員會(AL-PAC)對過去十余年間美國重金資助的機器翻譯項目進行了整體評估。1966年11月,該委員會發(fā)布了題為《語言與機器:翻譯和語言學視角下的計算機》的報告,對機器翻譯基本持否定的態(tài)度,認為在可預(yù)期的將來,機器翻譯不可能達到與人工翻譯相媲美的目標。該報告嚴重影響了機器翻譯的研究。
2.3復蘇期(1975-1989)
隨著計算機和語言學的發(fā)展以及社會信息服務(wù)需求的提升,機器翻譯的研究迎來了復蘇,許多國家相繼投入巨額資金開發(fā)機器翻譯系統(tǒng)。歐共體的EURORA計劃和DLT系統(tǒng),日本的Mu系統(tǒng)和ODA計劃,以及美國的CMU機器翻譯項目都是這一時期具有代表性的項目。20世紀70年代中后期,中國的機器翻譯研究也從停滯走向了復蘇,部分項目列入“六五”“七五”以及“863”等重大課題。軍事科學院研制的“KY-1”英漢機譯系統(tǒng)和中科院計算所研制的“863-IMT”英漢機譯系統(tǒng)成為中國機器翻譯歷史上具有里程碑意義的系統(tǒng)。
2.4發(fā)展期(1990-t今)
全球化趨勢對翻譯的巨大需求以及Internet的普及應(yīng)用,推動了機器翻譯研究進入新的發(fā)展階段。1990年,芬蘭赫爾辛基第13屆國際計算語言學大會提出了處理大規(guī)模文本的任務(wù)。1993年,IBM的DellaPietra等人提出的基于詞對齊的翻譯模型,標志著現(xiàn)代統(tǒng)計機器翻譯方法的誕生。在統(tǒng)計機器翻譯的基礎(chǔ)上,神經(jīng)網(wǎng)絡(luò)機器翻譯模型的應(yīng)用,大幅提升了機器翻譯的質(zhì)量。同期,中國在機翻領(lǐng)域也取得了前所未有的成績,相繼推出了百度、有道、譯星、雅信、通譯等機器翻譯系統(tǒng)。
3計算機翻譯的類型和特點
計算機翻譯從應(yīng)用角度上可分為機器翻譯和計算機輔助翻譯。
3.1機器翻譯(MT)
機器翻譯(machinetranslation,MT),又稱機譯,是利用計算機將一種自然語言文本(源語言)自動轉(zhuǎn)換為另一種自然語言文本(目標語言)的過程。從語言學角度來講,機器翻譯就是自然語言處理技術(shù)的開發(fā)應(yīng)用,其原理是利用計算機按照特定的規(guī)則把一種自然語言自動轉(zhuǎn)換為另一種目標自然語言。從最早的詞典匹配,到詞典結(jié)合語言學規(guī)則的翻譯,再到基于語料庫的統(tǒng)計學機器翻譯,隨著計算機軟硬件水平的飛速提升,機器翻譯技術(shù)也日趨成熟,能夠為普通用戶提供實時、便捷的翻譯服務(wù)。目前的常見的網(wǎng)絡(luò)在線翻譯系統(tǒng),如谷歌翻譯、百度翻譯、有道翻譯、騰訊翻譯等均屬于機器翻譯的范疇。
3.2計算機輔助翻譯(CAT)
計算機輔助翻譯(computer aided translation,CAl)的工作原理:TM(翻譯記憶)+MT(機器翻譯)+HT(人工翻譯/校對)。它的核心技術(shù)是翻譯記憶(Translation Memory)和術(shù)語庫(Terminol-ogy Database)。簡單來說,系統(tǒng)會根據(jù)相應(yīng)規(guī)則,將原文劃分為單獨的句子或段落,并分解成詞或詞組,再根據(jù)系統(tǒng)附帶的術(shù)語庫或用戶自行建立的語料庫,輸出相應(yīng)的翻譯結(jié)果。此外,系統(tǒng)還會自動檢索翻譯記憶庫中與之相同或類似的翻譯資源,給出參考譯文供譯者借鑒。目前常見的CAT軟件有SDL Tra-dos、Smartcat、YiCAT、iCAT、Transmate、Wordfast等。
4計算機輔助翻譯的發(fā)展趨勢
20世紀50年代到20世紀80年代之間,基于規(guī)則的機器翻譯(RBMT)占據(jù)了主流。這種翻譯方法通過研究源語言和目標語言之間的語言學信息,基于詞典和語法生成翻譯結(jié)果。20世紀80年代,隨著統(tǒng)計學的發(fā)展,統(tǒng)計機器翻譯(SMT)應(yīng)運而生。這種方法將統(tǒng)計模型應(yīng)用到機器翻譯之中,基于對雙語語料庫的分析生成翻譯結(jié)果。SMT的效果要優(yōu)于RBMT。
1997年,Ramon Neco和Mikel Forcada提出了使用編碼器一解碼器結(jié)構(gòu)做機器翻譯的構(gòu)想。2003年,蒙特利爾大學Yosh-uaBengio的研究團隊開發(fā)出了一個基于神經(jīng)網(wǎng)絡(luò)的語言模型,并改善了SMT模型存在的數(shù)據(jù)稀疏性問題。他們的研究為神經(jīng)網(wǎng)絡(luò)機器翻譯奠定了基礎(chǔ)。2013年,Nal Kalchbrenner和PhilBlunsom開發(fā)出了一種新型端到端編碼器一解碼器結(jié)構(gòu)模型。他們的研究成果意味著神經(jīng)網(wǎng)絡(luò)機器翻譯(Neural MachineTranslation。NMT)的誕生。
NMT最初的表現(xiàn)并不好。2014年,Yoshua Bengio的團隊為NMT引人了attention機制后,NMT的表現(xiàn)顯著提升。在2015年的Workshop 0n Statistical Machine Translation(WMT)比賽上,蒙特利爾大學的團隊使用NMT方法贏得了英語一德語翻譯的第一名。2016年9月,谷歌大腦團隊宣布在谷歌翻譯產(chǎn)品的漢語一英語語言上使用NMT替代基于短語的機器翻譯。2017年,F(xiàn)acebook人工智能研究院(FAIR)就宣布了他們使用CNN實現(xiàn)NMT方法,其可以實現(xiàn)與基于RNN的NMT近似的表現(xiàn)水平,但速度卻快9倍。亞馬孫、微軟、IBM、英偉達和SYSTRAN等科技巨頭也都參與了NMT的開發(fā)。在中國,百度、有道、騰訊、搜狗、訊飛、阿里巴巴等公司甚至已經(jīng)部署了NMT。在最近的ACL 2017會議上,機器翻譯類接收到的論文全都與神經(jīng)網(wǎng)絡(luò)機器翻譯有關(guān)。2019年3月,云從科技和上海交通大學聯(lián)合宣布,計算機算法在自然語言處理(NLP)上取得重大突破,在大型深層閱讀理解任務(wù)RACE數(shù)據(jù)集登頂?shù)谝唬⒊蔀槭澜缡讉€超過人類排名的模型。隨著算法的改進,NMT必將持續(xù)突破并取代SMT成為主流的機器翻譯技術(shù)。
5結(jié)語
經(jīng)過多年的發(fā)展,計算機翻譯技術(shù)取得了長足的進步,極大地提高了翻譯質(zhì)量和效率,降低了翻譯成本,促進了國際間交流與合作。對機器翻譯發(fā)展歷程和趨勢的探討,能為翻譯工作者瞄準學科前沿,建立傳統(tǒng)與科技相融合,知識創(chuàng)新與技術(shù)創(chuàng)新相并行的翻譯研究新局面提供有價值的參考。