鄒啟立
【摘 要】技術(shù)可以讓語(yǔ)言服務(wù)變得更加輕松,簡(jiǎn)單。同時(shí)技術(shù)也改變了人類傳統(tǒng)的溝通形式,促進(jìn)了人類的交流,特別跨語(yǔ)言文化的溝通?;诖髷?shù)據(jù)的機(jī)器翻譯將是未來語(yǔ)言服務(wù)的主要形式和語(yǔ)言服務(wù)。
【關(guān)鍵詞】機(jī)器翻譯;語(yǔ)言服務(wù)創(chuàng)新
一、機(jī)器翻譯的歷史與現(xiàn)狀
機(jī)器翻譯(Machine Translation)就是利用計(jì)算機(jī)程序把一種語(yǔ)言的文本(可稱為源語(yǔ)言文本)翻譯成另外一種語(yǔ)言的文本(可稱為目標(biāo)語(yǔ)言文本)(常寶寶,張偉1998.)。按照馮志偉(1994 , 1996)的說法,到 1980 年代,機(jī)器翻譯研究經(jīng)歷了草創(chuàng)期 、蕭條期 、復(fù)蘇期 、繁榮期等幾個(gè)階段。草創(chuàng)期以 1954 年在美國(guó)喬治敦大學(xué)用 IBM 計(jì)算機(jī)進(jìn)行的首次機(jī)器翻譯實(shí)驗(yàn)為標(biāo)志,這時(shí)的機(jī)器翻譯方法還比較簡(jiǎn)單 , 基本上采用的是單純的查詞典和詞頻統(tǒng)計(jì)等方法,筆者這里稱之為樸素的統(tǒng)計(jì)方法。而 1964 年的 AL PAC報(bào)告將全世界的機(jī)器翻譯熱潮打入了冷宮。在 1970 年代,隨著喬姆斯基語(yǔ)言學(xué)的興起和人工智能研究的發(fā)展,人們普遍認(rèn)為要實(shí)現(xiàn)機(jī)器翻譯必須對(duì)語(yǔ)言進(jìn)行理解,在這種背景下,基于規(guī)則的機(jī)器翻譯方法開始發(fā)展起來 。進(jìn)入 1980 年代以后,機(jī)器翻譯進(jìn)入繁榮期,基于規(guī)則的機(jī)器翻譯方法逐步成熟,市場(chǎng)上出現(xiàn)了很多機(jī)器翻譯系統(tǒng)。但這種繁榮并沒有持續(xù)下去。1980年代末期到 1990 年代,人們發(fā)現(xiàn)基于規(guī)則的機(jī)器翻譯系統(tǒng)性能很難進(jìn)一步提高 , 面向社會(huì)生活中使用的真實(shí)語(yǔ)言的時(shí)候,機(jī)器翻譯系統(tǒng)幾乎無(wú)法給 出有用的譯文 。筆者把這個(gè)階段稱為平臺(tái)期。也正是這個(gè)階段 ,基于語(yǔ)料庫(kù)的機(jī)器翻譯方法 開始被提出來并取得了一些進(jìn)展,這包括基于實(shí)例的方法和基于統(tǒng)計(jì)的方法 。
自1954年起,世界各國(guó)許多大學(xué)已經(jīng)展開了對(duì)機(jī)器翻譯的研究,但機(jī)器翻譯仍然沒有在商業(yè)領(lǐng)域大規(guī)模應(yīng)用。然而,上世紀(jì)八十年代開始,一些翻譯服務(wù)公司開始使用一種非常原始的翻譯輔助工具,通常稱為翻譯記憶庫(kù)(TM)。TM工具將句子譯文存入數(shù)據(jù)庫(kù),這樣一旦需要翻譯的文件重復(fù)出現(xiàn)同樣的句子,譯者就可以直接使用它們?;诖思夹g(shù)而形成的計(jì)算機(jī)輔助翻譯(CAT)便應(yīng)用而生。相較TM而言,機(jī)器翻譯則指完全自動(dòng)化。理論上機(jī)器翻譯能夠讓譯者失業(yè)。然而,機(jī)器翻譯技術(shù)輸出的譯文質(zhì)量無(wú)法達(dá)到出版及終端用戶使用的要求。因此,專業(yè)的翻譯服務(wù)行業(yè)還將會(huì)繼續(xù)存在多年,一邊為機(jī)器翻譯改進(jìn)技術(shù),一邊對(duì)機(jī)器翻譯的譯文進(jìn)行后編輯。
二、語(yǔ)言服務(wù)的創(chuàng)新
信息技術(shù)的發(fā)展促進(jìn)了人類社會(huì)和文明的發(fā)展,使得世界變得越來越小,溝通越來越頻繁,翻譯量也越來越大,速度要求越來越快,甚至要即時(shí)翻譯的需求,這就為創(chuàng)新者提供了大量機(jī)會(huì)。這給傳統(tǒng)的翻譯行業(yè)帶來了巨大的挑戰(zhàn)。
基于大數(shù)據(jù)的移動(dòng)互聯(lián)網(wǎng)以更大的規(guī)模,更廣泛的覆蓋,正在取代其他網(wǎng)絡(luò)。而和服務(wù)密切相關(guān)的技術(shù)有三種,通訊和媒體技術(shù),互聯(lián)網(wǎng)和云計(jì)算技術(shù),自然語(yǔ)言處理技術(shù)。云計(jì)算是互聯(lián)網(wǎng)技術(shù)發(fā)展的必然成果,在語(yǔ)言服務(wù)領(lǐng)域,整合呼叫中心,視頻會(huì)議等記錄,就形成了云語(yǔ)言服務(wù)中心。自然語(yǔ)言處理技術(shù),解決人聽說讀譯的問題。
大數(shù)據(jù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無(wú)法透過目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊(引自百度百科)。大數(shù)據(jù)對(duì)翻譯行業(yè)的重要性不可低估。大數(shù)據(jù)將推動(dòng)自動(dòng)翻譯向前發(fā)展。大數(shù)據(jù)將能夠應(yīng)對(duì)包括機(jī)器翻譯在內(nèi)的自然語(yǔ)言處理的不同領(lǐng)域的挑戰(zhàn)。計(jì)算機(jī)將能夠自動(dòng)運(yùn)行語(yǔ)義聚類和類型識(shí)別處理,這就意味著計(jì)算機(jī)可以識(shí)別行業(yè)領(lǐng)域(如醫(yī)學(xué)和放射學(xué))和內(nèi)容類型(如說明書或?qū)@暾?qǐng))。
大數(shù)據(jù)對(duì)機(jī)器翻譯技術(shù)的持續(xù)改進(jìn)和定制化至關(guān)重要。由于現(xiàn)代機(jī)器翻譯系統(tǒng)需要越來越多的平行數(shù)據(jù),而這樣大量的數(shù)據(jù)最終要達(dá)到使用傳統(tǒng)數(shù)據(jù)管理技術(shù)無(wú)法處理的極限,因此大數(shù)據(jù)技術(shù)已經(jīng)成為決定因素。如果計(jì)算機(jī)獲得更多數(shù)據(jù),也能夠更好地進(jìn)行術(shù)語(yǔ)挖掘。大數(shù)據(jù)可以識(shí)別同義詞、相關(guān)術(shù)語(yǔ)、新詞、行業(yè)用語(yǔ),并運(yùn)用平行處理工具自動(dòng)生成句法分類。簡(jiǎn)單的統(tǒng)計(jì)翻譯模型發(fā)展成為包含(基于句法或?qū)R的)層次樹結(jié)構(gòu)的混合模型,使得機(jī)器翻譯引擎能夠進(jìn)行遠(yuǎn)距離調(diào)序,產(chǎn)生更流暢、準(zhǔn)確的譯文,這對(duì)于結(jié)構(gòu)差異大的語(yǔ)言對(duì)更是如此。
在這個(gè)融合時(shí)代,需要翻譯的內(nèi)容正進(jìn)一步從文檔和軟件版本轉(zhuǎn)變成零散的文本、在多個(gè)屏幕上發(fā)布的音頻和視頻。終端用戶、大眾或病人會(huì)比現(xiàn)在擁有更大的控制權(quán),他們將推動(dòng)持續(xù)的翻譯流應(yīng)用。這個(gè)翻譯流包含有公務(wù)類(公司、公眾、立法)、社會(huì)類、共享類、增值類以及私人類信息。
翻譯記憶軟件非常適合出版商提供的靜態(tài)文件的更新,但在翻譯用戶提交的動(dòng)態(tài)內(nèi)容時(shí)會(huì)顯得力不從心。機(jī)器翻譯技術(shù)將更快地走向成熟,并成為翻譯服務(wù)業(yè)采用的首選工具。機(jī)器翻譯平臺(tái)將增加新功能,使專業(yè)用戶能夠添加數(shù)據(jù)(針對(duì)特定客戶或特定產(chǎn)品的翻譯記憶庫(kù)、詞匯表和目標(biāo)語(yǔ)文本),這些數(shù)據(jù)幾乎可以實(shí)時(shí)訓(xùn)練和定制化翻譯引擎。
三、結(jié)語(yǔ)
信息技術(shù)對(duì)大型國(guó)際活動(dòng)中語(yǔ)言服務(wù)的作用及創(chuàng)新,隨著改革開放,國(guó)際化的不斷深入,中國(guó)經(jīng)濟(jì)各個(gè)領(lǐng)域都向世界敞開了大門,中國(guó)將成為全球下一個(gè)經(jīng)濟(jì)中心。各種國(guó)際交流活動(dòng),在我國(guó)各大中心城市舉辦,如何讓全球各個(gè)國(guó)家,各種語(yǔ)言的世界組織和人民進(jìn)行充分的交流和溝通,語(yǔ)言成為關(guān)鍵。機(jī)器翻譯可用于每一項(xiàng)工作,與我們過去進(jìn)行的成本高、耗時(shí)長(zhǎng)的針對(duì)通用語(yǔ)言對(duì)的機(jī)器翻譯開發(fā)對(duì)比而言,今后機(jī)器翻譯的個(gè)性化開發(fā)可謂是巨大的進(jìn)步。它將推動(dòng)翻譯記憶庫(kù)數(shù)據(jù)的不斷擴(kuò)大。對(duì)于每一個(gè)新的作業(yè),譯者將尋找匹配的數(shù)據(jù)。因此,對(duì)于數(shù)據(jù)的需求將是永遠(yuǎn)無(wú)法滿足的。
【參考文獻(xiàn)】
[1]常寶寶,張偉.機(jī)器翻譯研究的現(xiàn)狀與發(fā)展趨勢(shì)[J].術(shù)語(yǔ)標(biāo)準(zhǔn)化與信息技術(shù),1998(2). [2]馮志偉.機(jī)器翻譯研究[M].中國(guó)對(duì)外翻譯出版公司,2004.
[3]百度百科,http://baike.baidu.com/view/6954399.htm
[4]張政.計(jì)算語(yǔ)言學(xué)與機(jī)器翻譯導(dǎo)論[M].北京:外語(yǔ)教學(xué)與研究出版社,2010.