計(jì)麗麗
(安徽理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,安徽 淮南 232001)
機(jī)器翻譯研究是一項(xiàng)艱巨的研究課題。自1954年美國(guó)喬治頓大學(xué)進(jìn)行第一次試驗(yàn)以來(lái),機(jī)器翻譯已經(jīng)發(fā)展了五十余年,經(jīng)歷了幾起幾落的曲折歷程。人們對(duì)它的評(píng)價(jià)毀譽(yù)兼有。但不容忽視的是,經(jīng)過(guò)機(jī)器翻譯工作者的執(zhí)著研究和反復(fù)探索,機(jī)器翻譯無(wú)論從理論技術(shù)還是從實(shí)際應(yīng)用方面都取得了長(zhǎng)足的進(jìn)步。
機(jī)器翻譯(machine translation),又稱為自動(dòng)翻譯,是利用計(jì)算機(jī)把一種自然源語(yǔ)言轉(zhuǎn)變?yōu)榱硪环N自然目標(biāo)語(yǔ)言的過(guò)程,一般指自然語(yǔ)言之間句子和全文的翻譯。它是自然語(yǔ)言處理(Natural Language Processing)的一個(gè)分支,與計(jì)算語(yǔ)言學(xué)(Computational Linguistics)、自然語(yǔ)言理解(Natural Language Understanding)之間存在著密不可分的關(guān)系。
整個(gè)機(jī)器翻譯的過(guò)程可以分為原文分析、原文譯文轉(zhuǎn)換和譯文生成3個(gè)階段。在具體的機(jī)器翻譯系統(tǒng)中,根據(jù)不同方案的目的和要求,可以將原文譯文轉(zhuǎn)換階段與原文分析階段結(jié)合在一起,而把譯文生成階段獨(dú)立起來(lái),建立相關(guān)分析獨(dú)立生成系統(tǒng)。在這樣的系統(tǒng)中,原語(yǔ)分析時(shí)要考慮譯語(yǔ)的特點(diǎn),而在譯語(yǔ)生成時(shí)則不考慮原語(yǔ)的特點(diǎn)。在搞多種語(yǔ)言對(duì)一種語(yǔ)言的翻譯時(shí),宜于采用這樣的相關(guān)分析獨(dú)立生成系統(tǒng)。也可以把原文分析階段獨(dú)立起來(lái),把原文譯文轉(zhuǎn)換階段同譯文生成階段結(jié)合起來(lái),建立獨(dú)立分析相關(guān)生成系統(tǒng)。在這樣的系統(tǒng)中,原語(yǔ)分析時(shí)不考慮譯語(yǔ)的特點(diǎn),而在譯語(yǔ)生成時(shí)要考慮原語(yǔ)的特點(diǎn),在搞一種語(yǔ)言對(duì)多種語(yǔ)言的翻譯時(shí),宜于采用這樣的獨(dú)立分析相關(guān)生成系統(tǒng)。還可以把原文分析、原文譯文轉(zhuǎn)換與譯文生成分別獨(dú)立開來(lái),建立獨(dú)立分析獨(dú)立生成系統(tǒng)。在這樣的系統(tǒng)中,分析原語(yǔ)時(shí)不考慮譯語(yǔ)的特點(diǎn),生成譯語(yǔ)時(shí)也不考慮原語(yǔ)的特點(diǎn),原語(yǔ)譯語(yǔ)的差異通過(guò)原文譯文轉(zhuǎn)換來(lái)解決。在搞多種語(yǔ)言對(duì)多種語(yǔ)言的翻譯時(shí),宜于采用這樣的獨(dú)立分析獨(dú)立生成系統(tǒng)。
1954年,由Georgetown大學(xué)和IBM公司合作,實(shí)現(xiàn)了第一個(gè)真正的機(jī)器翻譯系統(tǒng),并且在IBM紐約總部進(jìn)行了俄譯英公開演示。他們用IBM-701計(jì)算機(jī),把幾個(gè)簡(jiǎn)單的俄語(yǔ)句子翻譯成英語(yǔ)。盡管這個(gè)系統(tǒng)很小,只有250條俄語(yǔ)詞匯,6條語(yǔ)法規(guī)則以及精心挑選的翻譯例句,但是第一次向公眾和科學(xué)界展示了機(jī)器翻譯的可行性。
20世紀(jì)50年代中期,在美國(guó)掀起了機(jī)器翻譯研究的高潮。這一時(shí)期的機(jī)器翻譯系統(tǒng)主要采用直接翻譯(Direct Translation)方法,一般都沒(méi)有進(jìn)行很好的源語(yǔ)言據(jù)法結(jié)構(gòu)分析,而是主要以詞典為驅(qū)動(dòng),利用詞典中的語(yǔ)法和語(yǔ)義特征來(lái)實(shí)現(xiàn)翻譯。直接翻譯方法的特點(diǎn)是在源語(yǔ)言分析階段和目標(biāo)語(yǔ)言綜合(即生成)之間沒(méi)有明確的區(qū)分,這樣的系統(tǒng)被稱為第一代機(jī)器翻譯系統(tǒng)。
20世紀(jì)70年代,西歐和加拿大開始出現(xiàn)以追求可讀性和忠實(shí)性為目標(biāo)的第二代機(jī)器翻譯系統(tǒng)。這些系統(tǒng)以基于轉(zhuǎn)換的方法為代表,普遍采用以句法分析為主、輔以語(yǔ)義的基于規(guī)則的方法,采用有抽象的轉(zhuǎn)換表示的分層次實(shí)現(xiàn)策略,綜合了多種技術(shù):知識(shí)與算法分離,模塊化設(shè)計(jì),多種句法分析策略以及語(yǔ)義分析等等,并且大多引入了人工智能技術(shù),其中許多方法和技術(shù)直到今天仍被沿用。期間比較著名的系統(tǒng)有:SYSTRAN多語(yǔ)言翻譯系統(tǒng)、Weinder系統(tǒng)、EURPOTRA多國(guó)語(yǔ)翻譯系統(tǒng)、TAUM-METEO系統(tǒng)等。
20世紀(jì)90年代至今,隨著 Internet的普遍應(yīng)用,世界經(jīng)濟(jì)一體化進(jìn)程的加速以及國(guó)際社會(huì)交流的日漸頻繁,傳統(tǒng)的人工作業(yè)的方式已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足迅猛增長(zhǎng)的翻譯需求,人們對(duì)于機(jī)器翻譯的需求空前增長(zhǎng),機(jī)器翻譯迎來(lái)了一個(gè)新的發(fā)展機(jī)遇。國(guó)際性的關(guān)于機(jī)器翻譯研究的會(huì)議頻繁召開,中國(guó)也取得了前所未有的成就,相繼推出了一系列機(jī)器翻譯軟件,例如“譯星”、“雅信”、“通譯”、“華建”等。在市場(chǎng)需求的推動(dòng)下,商用機(jī)器翻譯系統(tǒng)邁入了實(shí)用化階段,走進(jìn)了市場(chǎng),來(lái)到了用戶面前。
中國(guó)機(jī)器翻譯研究起步于1957年,是世界上第4個(gè)開始搞機(jī)器翻譯的國(guó)家,60年代中期以后一度中斷,70年代中期以來(lái)有了進(jìn)一步的發(fā)展。現(xiàn)在,中國(guó)社會(huì)科學(xué)院語(yǔ)言研究所、中國(guó)科學(xué)技術(shù)情報(bào)研究所、中國(guó)科學(xué)院計(jì)算技術(shù)研究所、黑龍江大學(xué)、哈爾濱工業(yè)大學(xué)等單位都在進(jìn)行機(jī)器翻譯的研究;上機(jī)進(jìn)行過(guò)實(shí)驗(yàn)的機(jī)器翻譯系統(tǒng)已有十多個(gè),翻譯的語(yǔ)種和類型有英漢、俄漢、法漢、日漢、德漢等一對(duì)一的系統(tǒng),也有漢譯英、法、日、俄、德的一對(duì)多系統(tǒng)(FAJRA系統(tǒng))。此外,還建立了一個(gè)漢語(yǔ)語(yǔ)料庫(kù)和一個(gè)科技英語(yǔ)語(yǔ)料庫(kù)。中國(guó)機(jī)器翻譯系統(tǒng)的規(guī)模正在不斷地?cái)U(kuò)大,內(nèi)容正在不斷地完善。比較有代表性的系統(tǒng)有:高立英漢翻譯系統(tǒng),IMT/EC英漢翻譯系統(tǒng),Matrix英漢機(jī)器翻譯系統(tǒng),SinoTrans漢外機(jī)器翻譯系統(tǒng)等等。
鑒于機(jī)器翻譯仍具相當(dāng)市場(chǎng),中國(guó)涉足這一領(lǐng)域的廠商也不一而足。目前,國(guó)內(nèi)市場(chǎng)上的翻譯軟件產(chǎn)品可以劃分為四大類:全文翻譯(專業(yè)翻譯)、在線翻譯、漢化軟件和電子詞典。全文翻譯軟件以中軟“譯星”以及“雅信CAT2.5”為代表;在線翻譯軟件主要以“金山快譯.net2001”、華建的“翻譯網(wǎng)上通”為代表;漢化類翻譯軟件主要以“東方快車3000”為代表;詞典工具以“金山詞霸.net2001”為主要代表。
由于機(jī)器翻譯在今后需要滿足人們?cè)诤棋幕ヂ?lián)網(wǎng)上方便地進(jìn)行信息搜集的需求,于是很多翻譯開發(fā)者在翻譯準(zhǔn)確度上下工夫的同時(shí),開始注重結(jié)合用戶的使用領(lǐng)域并進(jìn)行方向性的開發(fā)。根據(jù)目前的市場(chǎng)發(fā)展看來(lái),在新一輪的競(jìng)賽中,在線翻譯前景十分看好。目前,中國(guó)的網(wǎng)民已超4億,并繼續(xù)以極快速度增長(zhǎng)。
根據(jù)實(shí)現(xiàn)機(jī)器翻譯系統(tǒng)的技術(shù)將機(jī)器翻譯系統(tǒng)劃分為直接式,基于規(guī)則式,基于語(yǔ)料庫(kù)式(基于統(tǒng)計(jì)式和基于實(shí)例式),以及采用混合策略引擎的系統(tǒng)。
直接式機(jī)譯系統(tǒng)也稱直譯式機(jī)譯系統(tǒng),一般把原句中的詞或句子直接替換成相應(yīng)的譯語(yǔ)的詞或句子,必要時(shí)對(duì)詞序進(jìn)行簡(jiǎn)單的調(diào)整。這種系統(tǒng)一般難以取得較高的翻譯質(zhì)量,但是實(shí)現(xiàn)技術(shù)相當(dāng)簡(jiǎn)單,容易開發(fā)。
基于規(guī)則(rule-based)的系統(tǒng)主要由詞典和規(guī)則庫(kù)構(gòu)成知識(shí)源,世界上絕大多數(shù)的機(jī)譯系統(tǒng)都采用以規(guī)則為基礎(chǔ)的策略,一般分為語(yǔ)法型,語(yǔ)義型、知識(shí)型和智能型。
基于語(yǔ)料庫(kù)(corpus-based)的系統(tǒng)是90年代以來(lái)發(fā)展起來(lái)的新技術(shù),其特點(diǎn)是采用大規(guī)模的雙語(yǔ)語(yǔ)料庫(kù)作為機(jī)器翻譯系統(tǒng)的開發(fā)基礎(chǔ)。根據(jù)所采用的具體技術(shù)可以分為基于統(tǒng)計(jì)(statistic-based)系統(tǒng)和基于實(shí)例(example-based)系統(tǒng)。
基于統(tǒng)計(jì)的機(jī)器翻譯方法把機(jī)器翻譯看成是一個(gè)信息傳輸?shù)倪^(guò)程,用一種信道模型對(duì)機(jī)器翻譯進(jìn)行解釋。這種思想認(rèn)為,源語(yǔ)言句子到目標(biāo)語(yǔ)言句子的翻譯是一個(gè)概率問(wèn)題,任何一個(gè)目標(biāo)語(yǔ)言句子都有可能是任何一個(gè)源語(yǔ)言句子的譯文,只是概率不同,機(jī)器翻譯的任務(wù)就是找到概率最大的句子。具體方法是將翻譯看做對(duì)原文通過(guò)模型轉(zhuǎn)換為譯文的解碼過(guò)程。因此統(tǒng)計(jì)機(jī)器翻譯又可以分為以下幾個(gè)問(wèn)題:模型問(wèn)題、訓(xùn)練問(wèn)題、解碼問(wèn)題。所謂模型問(wèn)題,就是為機(jī)器翻譯建立概率模型,也就是要定義源語(yǔ)言句子到目標(biāo)語(yǔ)言句子的翻譯概率的計(jì)算方法。而訓(xùn)練問(wèn)題,是要利用語(yǔ)料庫(kù)來(lái)得到這個(gè)模型的所有參數(shù)。所謂解碼問(wèn)題,則是在已知模型和參數(shù)的基礎(chǔ)上,對(duì)于任何一個(gè)輸入的源語(yǔ)言句子,去查找概率最大的譯文。
與統(tǒng)計(jì)方法相同,基于實(shí)例的機(jī)器翻譯方法也是一種基于語(yǔ)料庫(kù)的方法,其基本思想由日本著名的機(jī)器翻譯專家長(zhǎng)尾真提出,他研究了外語(yǔ)初學(xué)者的基本模式,發(fā)現(xiàn)初學(xué)外語(yǔ)的人總是先記住最基本的英語(yǔ)句子和對(duì)應(yīng)的日語(yǔ)句子,而后做替換練習(xí)。參照這個(gè)學(xué)習(xí)過(guò)程,他提出了基于實(shí)例的機(jī)器翻譯思想,即不經(jīng)過(guò)深層分析,僅僅通過(guò)已有的經(jīng)驗(yàn)知識(shí),通過(guò)類比原理進(jìn)行翻譯。其翻譯過(guò)程是首先將源語(yǔ)言正確分解為句子,再分解為短語(yǔ)碎片,接著通過(guò)類比的方法把這些短語(yǔ)碎片譯成目標(biāo)語(yǔ)言短語(yǔ),最后把這些短語(yǔ)合并成長(zhǎng)句。對(duì)于實(shí)例方法的系統(tǒng)而言,其主要知識(shí)源就是雙語(yǔ)對(duì)照的實(shí)例庫(kù),不需要什么字典、語(yǔ)法規(guī)則庫(kù)之類的東西,核心的問(wèn)題就是通過(guò)最大限度的統(tǒng)計(jì),得出雙語(yǔ)對(duì)照實(shí)例庫(kù)。 基于實(shí)例的機(jī)器翻譯對(duì)于相同或相似文本的翻譯有非常顯著的效果,隨著例句庫(kù)規(guī)模的增加,其作用也越來(lái)越顯著。對(duì)于實(shí)例庫(kù)中的已有文本,可以直接獲得高質(zhì)量的翻譯結(jié)果。對(duì)與實(shí)例庫(kù)中存在的實(shí)例十分相似的文本,可以通過(guò)類比推理,并對(duì)翻譯結(jié)果進(jìn)行少量的修改,構(gòu)造出近似的翻譯結(jié)果。
[1]P.Brown,S.Della Pietra,V.Della Pietra,and R.Mercer(1993).The mathematics of statistical machine translation:parameter estimation.Computational Linguistics,19(2),263-311.
[2]周海中.“機(jī)器翻譯50年”.《語(yǔ)文研究群言集》.中山大學(xué)出版社,1997年.
[3]李志升,于浩.機(jī)器翻譯系統(tǒng).哈爾濱工業(yè)大學(xué)出版社.
[4]機(jī)器翻譯.百度文庫(kù).