孫 爽,陳曉曦
(東北林業(yè)大學(xué),黑龍江 哈爾濱 150080)
21世紀(jì)中俄機(jī)器翻譯現(xiàn)狀對(duì)比研究
孫 爽,陳曉曦
(東北林業(yè)大學(xué),黑龍江 哈爾濱 150080)
在回顧機(jī)器翻譯產(chǎn)生歷史及發(fā)展歷程的基礎(chǔ)上,對(duì)21世紀(jì)中國(guó)和俄羅斯機(jī)器翻譯發(fā)展現(xiàn)狀進(jìn)行了深入分析,主要包括代表性機(jī)器翻譯系統(tǒng)、特點(diǎn)及設(shè)計(jì)原理,目的在于探討如何加強(qiáng)我國(guó)對(duì)俄漢/漢俄機(jī)器翻譯系統(tǒng)的研究。
機(jī)器翻譯;俄漢/漢俄;翻譯系統(tǒng)
機(jī)器翻譯 (machine translation)是使用電子計(jì)算機(jī)把一種語(yǔ)言 (源語(yǔ)言)翻譯成另外一種語(yǔ)言 (目標(biāo)語(yǔ)言)的一門新學(xué)科。這同時(shí)也是一種新技術(shù),一種多邊緣的交叉學(xué)科,它涉及語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)等許多學(xué)科。機(jī)器翻譯即屬于語(yǔ)言學(xué)中計(jì)算語(yǔ)言學(xué)的研究對(duì)象,也屬于計(jì)算機(jī)科學(xué)中人工智能的研究范圍,還屬于數(shù)學(xué)中數(shù)理邏輯和形式化方法的研究領(lǐng)域。機(jī)器翻譯要把不同學(xué)科相互結(jié)合來(lái)進(jìn)行綜合研究,同時(shí)也要求不同學(xué)科專家通力合作,相得益彰。
在全球信息化的今天,語(yǔ)言是信息交流的主要工具,如何有效地利用現(xiàn)代化手段突破人們之間的語(yǔ)言障礙成了全人類面臨的重要問(wèn)題,而機(jī)器翻譯正是采用電子計(jì)算機(jī)來(lái)進(jìn)行不同語(yǔ)言之間自動(dòng)翻譯的有力手段之一。但是,由于自然語(yǔ)言的極端復(fù)雜性,機(jī)器翻譯也因其復(fù)雜性而成為當(dāng)代科學(xué)技術(shù)的十大難題之一。本文將通過(guò)對(duì)21世紀(jì)中國(guó)和俄羅斯機(jī)器翻譯發(fā)展現(xiàn)狀的深入分析,探討如何加強(qiáng)我國(guó)對(duì)俄漢/漢俄機(jī)器翻譯系統(tǒng)的研究。
從19 世紀(jì)巴貝奇 (Ч.Бэббидж)在設(shè)計(jì)數(shù)字分析機(jī)時(shí)提出的機(jī)器翻譯的設(shè)想到1933年發(fā)明家特羅揚(yáng)斯基用機(jī)械方法設(shè)計(jì)出把一種語(yǔ)言翻譯為另一種語(yǔ)言的機(jī)器;從1949年美國(guó)洛克菲勒基金會(huì)副總裁韋弗 (W/Weaver)發(fā)表的以《翻譯》為題的備忘錄到1954年美國(guó)喬治敦大學(xué)與國(guó)際商用機(jī)器公司 (IBM)合作進(jìn)行的標(biāo)志機(jī)器翻譯歷史真正開(kāi)端的MT系統(tǒng)公開(kāi)演示。人們的頭腦中逐漸形成了機(jī)器翻譯的概念,利用語(yǔ)法規(guī)則轉(zhuǎn)換和字典來(lái)實(shí)現(xiàn)翻譯的方法也被人們所接受,從此便出現(xiàn)了世界范圍內(nèi)的機(jī)器翻譯熱潮。
1954之后,由于各國(guó)對(duì)機(jī)器翻譯項(xiàng)目的大力支持,使人們樂(lè)觀地認(rèn)為機(jī)器翻譯可以達(dá)到一個(gè)完美的程度。但早期的機(jī)器翻譯受韋弗思想的影響而把機(jī)器翻譯的過(guò)程類比為解讀密碼的過(guò)程,或借助于查詢?cè)~典的形式來(lái)實(shí)現(xiàn),譯文的可讀性很差。因此1964年,美國(guó)科學(xué)院成立語(yǔ)言自動(dòng)處理咨詢委員會(huì) (簡(jiǎn)稱ALPAC)公布了一個(gè)ALPAC報(bào)告,報(bào)告宣稱“機(jī)器翻譯研究遇到了難以克服的語(yǔ)義障礙”,表示不再給予機(jī)器翻譯支持。在這個(gè)報(bào)告的影響下,機(jī)器翻譯出現(xiàn)了空前蕭條的局面。
從70年代開(kāi)始,隨著計(jì)算機(jī)的迅猛發(fā)展,機(jī)器翻譯進(jìn)入了復(fù)蘇期,這一時(shí)期對(duì)語(yǔ)法和語(yǔ)義的研究開(kāi)始深入,同時(shí)也加強(qiáng)了電子詞典的建設(shè),同時(shí)研究者也注意到:源語(yǔ)和譯語(yǔ)兩種語(yǔ)言的差異不僅僅表現(xiàn)在詞匯的不同,還表現(xiàn)在句法結(jié)構(gòu)的不同,要使譯文的可讀性加強(qiáng),必須要將注意力轉(zhuǎn)移到句法分析上。經(jīng)過(guò)學(xué)者們的通力研究,這時(shí)期一個(gè)完整的機(jī)器翻譯過(guò)程我們可以概括為以下六個(gè)步驟:1)源語(yǔ)詞法分析;2)源語(yǔ)句法分析;3)源語(yǔ)譯語(yǔ)詞匯轉(zhuǎn)換;4)源語(yǔ)譯語(yǔ)結(jié)構(gòu)轉(zhuǎn)換;5)譯語(yǔ)句法生成;6)譯語(yǔ)句法生成。[1](P18)經(jīng)過(guò)這幾個(gè)步驟,譯文質(zhì)量較高。
自20世紀(jì)90年代以來(lái),互聯(lián)網(wǎng)的發(fā)展將機(jī)器翻譯帶入了新的繁榮期,翻譯的需求量加大使機(jī)器翻譯成為世界語(yǔ)言處理的熱門。此時(shí)主要發(fā)展基于實(shí)例和基于統(tǒng)計(jì)方法的機(jī)器翻譯研究,注重大規(guī)模語(yǔ)料庫(kù)的建設(shè)以及真實(shí)文本的處理,網(wǎng)上的翻譯系統(tǒng)也進(jìn)入了實(shí)用階段,這期間我國(guó)也加大了對(duì)機(jī)器翻譯研究的力度。
從世界范圍內(nèi)來(lái)說(shuō),比較常見(jiàn)的機(jī)器翻譯類型有兩種:基于規(guī)則的機(jī)器翻譯系統(tǒng)和基于語(yǔ)料庫(kù)的機(jī)器翻譯系統(tǒng)。基于規(guī)則的機(jī)器翻譯系統(tǒng)大致又可以分為以下三種類型[1]:
1.直接翻譯系統(tǒng)
該翻譯系統(tǒng)是根據(jù)雙語(yǔ)之間的詞匯單元的對(duì)應(yīng)關(guān)系設(shè)計(jì)的。從原文句子的表層出發(fā),將詞,短語(yǔ)甚至句子直接轉(zhuǎn)換成目標(biāo)語(yǔ)言的對(duì)應(yīng)成分,便生成了譯文的句子。這種方法顯然沒(méi)有考慮到源語(yǔ)言和目標(biāo)語(yǔ)言的差異性,對(duì)翻譯過(guò)程的認(rèn)識(shí)也過(guò)于簡(jiǎn)單。
2.轉(zhuǎn)換系統(tǒng)
與直接翻譯系統(tǒng)不同,轉(zhuǎn)換系統(tǒng)的運(yùn)行需要建立雙語(yǔ)的對(duì)比,還需要一套復(fù)雜的映射規(guī)則。源語(yǔ)和目標(biāo)語(yǔ)的分析是獨(dú)立的,一般都要進(jìn)行詞匯層面和句法層面的分析,轉(zhuǎn)換時(shí)需要一部雙語(yǔ)對(duì)應(yīng)詞典,還要考慮到源語(yǔ)和目標(biāo)語(yǔ)的結(jié)構(gòu)差別,進(jìn)行結(jié)構(gòu)轉(zhuǎn)換。
3.中間語(yǔ)言系統(tǒng)
該類型系統(tǒng)中的源語(yǔ)與目標(biāo)語(yǔ)是不直接相關(guān)的,要先把源語(yǔ)的文本用人工設(shè)計(jì)出來(lái)的沒(méi)有歧義的中間語(yǔ)言表示出來(lái),之后再把中間語(yǔ)言所表示的意義用目標(biāo)語(yǔ)言的詞匯以及句法結(jié)構(gòu)表示出來(lái)。由于源語(yǔ)的分析于譯語(yǔ)的生成完全獨(dú)立,它克服了轉(zhuǎn)換法缺乏深層語(yǔ)義分析的弊端。
而基于語(yǔ)料庫(kù)的方法可以分為基于統(tǒng)計(jì)的機(jī)器翻譯方法和基于實(shí)例的機(jī)器翻譯方法,這兩種都是以語(yǔ)料庫(kù)作為翻譯知識(shí)的來(lái)源。但是它們之間也有明顯的區(qū)別:基于統(tǒng)計(jì)的機(jī)器翻譯方法是采用數(shù)據(jù)統(tǒng)計(jì)的結(jié)果來(lái)表示,而不是語(yǔ)料庫(kù)本身,即翻譯的過(guò)程不再需要語(yǔ)料庫(kù);在基于實(shí)例的翻譯方法中,雙語(yǔ)語(yǔ)料庫(kù)本身就是翻譯知識(shí)的一種形式,在翻譯的過(guò)程中也要利用語(yǔ)料庫(kù)查詢。
雖然機(jī)器翻譯方法多種多樣,但筆者認(rèn)為,可以將以上五種方法歸納為三代機(jī)器翻譯系統(tǒng)。首先,直接翻譯法為第一代機(jī)器翻譯系統(tǒng),但因?yàn)樯衔奶岬降谋锥?,現(xiàn)已很少用。而基于轉(zhuǎn)換和中間語(yǔ)言的方法可以歸結(jié)為第二代機(jī)器翻譯系統(tǒng),這兩種方法與語(yǔ)言學(xué)有著密不可分的聯(lián)系,尤其是隨著語(yǔ)義學(xué)的發(fā)展,語(yǔ)言學(xué)與計(jì)算機(jī)技術(shù)的結(jié)合,使翻譯可以達(dá)到“語(yǔ)義轉(zhuǎn)換”的層次,因此也是比較完善的機(jī)譯系統(tǒng)。而產(chǎn)生于20世紀(jì)80年代的基于統(tǒng)計(jì)和實(shí)例的方法則可歸為第三代機(jī)器翻譯系統(tǒng)。筆者認(rèn)為新一代系統(tǒng)的產(chǎn)生源于兩點(diǎn)變化:第一,人們意識(shí)到基于規(guī)則的方法有其不足之處:由于自然語(yǔ)言現(xiàn)象復(fù)雜多樣,語(yǔ)法規(guī)則的數(shù)量龐大,制定規(guī)則時(shí)難免有主觀性,亦或是無(wú)法處理規(guī)則描述外的語(yǔ)句翻譯。第二,統(tǒng)計(jì)方法以及語(yǔ)料庫(kù)方法的再度興起,大規(guī)模的真實(shí)語(yǔ)料成為了研究對(duì)象,處理真實(shí)文本也成為了一種明顯的趨勢(shì)。第三,大規(guī)模的語(yǔ)言資料和測(cè)試平臺(tái)投入使用,其中包括電子詞典、語(yǔ)料庫(kù)、知識(shí)庫(kù)等,這些都給機(jī)器翻譯和自然語(yǔ)言處理的研究提供了便利條件。
當(dāng)然,雖按照出現(xiàn)時(shí)間以及特性將機(jī)譯系統(tǒng)分為以上三代,但并非表明第三代一定是最完美的。通過(guò)對(duì)各種機(jī)譯方法的介紹我們也可以看到,諸多方法各有利弊,我們?cè)谑褂弥幸矐?yīng)該將各種方法結(jié)合起來(lái)。比如將基于規(guī)則的方法和基于語(yǔ)料庫(kù)的方法結(jié)合,或是在基于規(guī)則的方法中加入統(tǒng)計(jì)方法以便消除歧義等,都將是以后研發(fā)的主要方向。
俄羅斯的機(jī)器翻譯研究起步較早,并有自己獨(dú)特的研究方法。進(jìn)入21世紀(jì),俄羅斯機(jī)器翻譯研究不僅將注意力放在具體系統(tǒng)的特殊語(yǔ)言處理上,更注重探討系統(tǒng)設(shè)計(jì)的一般理論原則。俄羅斯現(xiàn)行的機(jī)器翻譯系統(tǒng)大多采用轉(zhuǎn)換法,比較有影響力的有以下幾個(gè)。
ЭТАП-3系統(tǒng)的幾個(gè)主要模塊特征可以概括如下[2](P260):
(1)將規(guī)則用作算法的基本單位;
(2)層級(jí)構(gòu)造法;
(3)通過(guò)轉(zhuǎn)換實(shí)現(xiàn)翻譯;
(4)采用依存關(guān)系句法樹;
(5)詞匯主義方法;
(6)盡可能多地獲取各種翻譯方案;
(7)最近限度地利用語(yǔ)言學(xué)資源。
ЭТАП區(qū)別于其他基于轉(zhuǎn)換的機(jī)器翻譯系統(tǒng)的地方在于,它已經(jīng)進(jìn)入到了“語(yǔ)義轉(zhuǎn)換”層次,而并非簡(jiǎn)單的“句法轉(zhuǎn)換”層次。
在新世紀(jì)俄羅斯機(jī)器翻譯發(fā)展的歷程中,一些大型公司也作出了很大貢獻(xiàn),比如 АВВYY,ПРОМТ,Rambler等[3]。
АВВYY公司于1989年創(chuàng)立,該公司最著名的產(chǎn)品:АВВYY FineReader(掃描、文字識(shí)別及文檔轉(zhuǎn)換的 OCR軟件),АВВYY Lingvo(電子詞典),АВВYY PDF(pdf文件加工和變換軟件),АВВYY FlexiCapture(智能的、準(zhǔn)確的和可擴(kuò)展的數(shù)據(jù)捕捉軟件)等等。
ПРОМТ公司創(chuàng)立于1991年,現(xiàn)在在機(jī)器翻譯加工和歐語(yǔ)詞典領(lǐng)域中處于世界領(lǐng)軍地位。ПРОМТ的機(jī)器翻譯程序可以處理25種語(yǔ)言。該公司的程序既包括針對(duì)家庭使用的普通翻譯程序,也有以上領(lǐng)域?qū)<宜褂玫膹?fù)雜高級(jí)的翻譯程序,還有針對(duì)小部分客戶以及因特網(wǎng)使用的專業(yè)翻譯方案。
而我國(guó)的機(jī)器翻譯研究是繼美國(guó)、蘇聯(lián)、英國(guó)之后的世界上第四個(gè)國(guó)家。目前中國(guó)社會(huì)科學(xué)院語(yǔ)言研究所、中國(guó)科學(xué)技術(shù)情報(bào)研究所、中國(guó)科學(xué)院計(jì)算技術(shù)研究所、黑龍江大學(xué)、哈爾濱工業(yè)大學(xué)等單位都在進(jìn)行機(jī)器翻譯的研究,翻譯的語(yǔ)種有英漢、俄漢、法漢、日漢、德漢等一對(duì)一的系統(tǒng),以及漢譯英、法、日、俄、德的一對(duì)多系統(tǒng)。目前中國(guó)的研究機(jī)器翻譯系統(tǒng)的公司日益增多,最著名的公司有中軟國(guó)際、華建、雅信、金山等。
中軟國(guó)際公司是國(guó)家大型高科技企業(yè),從事計(jì)算機(jī)軟件程序,IT信息服務(wù)和外包產(chǎn)品一體化體系的開(kāi)發(fā)和研制。譯星是最著名的機(jī)器翻譯產(chǎn)品之一?,F(xiàn)在譯星可以實(shí)現(xiàn)以下語(yǔ)言翻譯:英—漢、漢—英、漢—日、日—漢。中軟國(guó)際公司還研發(fā)了新一代筆譯和其他產(chǎn)品的翻譯記憶技術(shù)(Transtion Memory),并投入使用。該技術(shù)也是基于統(tǒng)計(jì)的方法,是近年來(lái)中俄機(jī)器翻譯研究的一個(gè)新趨勢(shì),在翻譯的過(guò)程中它和常規(guī)的機(jī)器翻譯取長(zhǎng)補(bǔ)短,共同協(xié)作,成為最有效的翻譯手段。兩種技術(shù)的使用可以保證高質(zhì)量的翻譯結(jié)果。如果在翻譯時(shí)系統(tǒng)在“翻譯記憶”中找不到相似的句子,那么“翻譯系統(tǒng)”及其相關(guān)的分析和規(guī)則就會(huì)起作用。與基于規(guī)則的“翻譯系統(tǒng)”相比,“翻譯記憶”的結(jié)果更為通順和易于接受,這源于規(guī)則本身的不完善性。目前俄羅斯的公司和中國(guó)的中軟國(guó)際都對(duì)這項(xiàng)新技術(shù)投入了大量的精力并取得了一些成效。
華建集團(tuán)是從事計(jì)算機(jī)及相關(guān)產(chǎn)品研發(fā)的高科技企業(yè),現(xiàn)今該集團(tuán)創(chuàng)建了60多種軟件程序和產(chǎn)品,支持以下幾種語(yǔ)言的翻譯:英—漢、漢—英、俄—漢、日—漢、漢—日、中—法等語(yǔ)言的互譯。
金山公司成立于1989年,是中國(guó)最著名的公司之一,旗下產(chǎn)品是引進(jìn)現(xiàn)今外國(guó)技術(shù)并創(chuàng)新的結(jié)果。公司的主要精力集中在程序設(shè)計(jì)和網(wǎng)絡(luò)服務(wù)上。PowerWoed可以實(shí)現(xiàn)英漢之間的互譯,從它1997年面世的時(shí)候起,就成為了翻譯領(lǐng)域的領(lǐng)先者,并占有著超過(guò)90%的中國(guó)市場(chǎng)。
中國(guó)最早的機(jī)器翻譯系統(tǒng)就是俄漢機(jī)器翻譯系統(tǒng),但近年來(lái)我國(guó)的機(jī)器翻譯研究還是大量的集中在英漢互譯領(lǐng)域,進(jìn)行俄漢機(jī)器翻譯研究的單位主要集中在黑龍江大學(xué)和哈爾濱工業(yè)大學(xué),且很多的專業(yè)人員都是精通計(jì)算機(jī)專業(yè)而對(duì)語(yǔ)言學(xué)并不精通。在俄漢機(jī)器翻譯中我國(guó)很多學(xué)者也借鑒了俄羅斯的研究成果。
1.消除歧義問(wèn)題。在編纂詞典時(shí),詞義是簡(jiǎn)單羅列出來(lái)的,一個(gè)詞通常有很多含義,機(jī)器自動(dòng)翻譯的時(shí)候不會(huì)進(jìn)行詞義篩選就會(huì)造成詞不達(dá)意的情況。消除歧義的一種方法是通過(guò)在詞典中進(jìn)行標(biāo)注,不僅標(biāo)注出詞形 (名詞、動(dòng)詞、形容詞等)和詞匯使用范圍 (口語(yǔ)或書面語(yǔ)等),還要標(biāo)注出該詞通常情況下的搭配范圍。這一點(diǎn)恰恰是莫斯科語(yǔ)義學(xué)派倡導(dǎo)的“詞匯函數(shù)”和“詳解詞典”理論。我國(guó)的學(xué)者也應(yīng)用了該理論,如張家驊[5]。傅興尚也對(duì)“詞匯函數(shù)”在俄漢機(jī)器翻譯中的應(yīng)用前景進(jìn)行了探討。
2.俄語(yǔ)單詞詞尾識(shí)別問(wèn)題。迄今為止俄語(yǔ)單詞的詞尾仍是俄漢機(jī)器翻譯要解決的一個(gè)難題,因?yàn)槎碚Z(yǔ)屬于屈折語(yǔ),靠詞形變化來(lái)體現(xiàn)邏輯語(yǔ)義關(guān)系。因此,應(yīng)該按照語(yǔ)法變化的規(guī)則制定詞典,有特殊變化的詞需制定出專門的詞典來(lái)進(jìn)行解決。
另外,翻譯中的文化問(wèn)題在俄漢互譯中也是不可忽視的,正如蘇聯(lián)學(xué)者 Швейцер А. Д. 所說(shuō),“翻譯不但是兩種語(yǔ)言體系的接觸,而且也是不同程度文明的接觸。翻譯過(guò)程不僅僅由語(yǔ)言因素決定,而且還由社會(huì)因素和心理因素決定的”。雖然我們可以將機(jī)器翻譯比擬人類思維方式進(jìn)行的翻譯,但是如何令機(jī)器翻譯克服文化干擾仍然是個(gè)難題。
縱觀21世紀(jì)我國(guó)和俄羅斯的機(jī)器翻譯研究現(xiàn)狀,雖然中俄在機(jī)器翻譯領(lǐng)域都取得了巨大的成就,但是仍存在眾多亟待解決的問(wèn)題。對(duì)于語(yǔ)言學(xué)家,如何讓計(jì)算機(jī)更好地理解句子的結(jié)構(gòu)和意義仍是我們研究的核心問(wèn)題,是我們肩負(fù)的重要任務(wù)。
[1]馮志偉.機(jī)器翻譯研究[M].北京:中國(guó)對(duì)外翻譯出版公司,2004.
[2]易綿竹.工程語(yǔ)言學(xué)[M].上海:上海外語(yǔ)教育出版社,2006.
[4]楊楊.俄漢機(jī)器翻譯與人工翻譯結(jié)合的必要性[J].安徽文學(xué),2009,(6).
[5]張家驊.俄羅斯當(dāng)代語(yǔ)義學(xué)[M].北京:商務(wù)印書館,2003.
[6]傅興尚.基于事格語(yǔ)法的俄語(yǔ)詞匯知識(shí)庫(kù)[M].哈爾濱:黑龍江人民出版社,2002.
The Comparative Study of Chinese and Russian Machine Translation States inTwenty-first century
SUN Shuang,CHEN Xiao-xi
(Northeast Forestry University,Harbin 150040,China)
Basing on reviewed of generations history and development process of machine translation,the state of machine translation developing in China and Russia by twenty-first century has been deeply analyzed in this article,including the introduction of typical machine translation system,its main characters and designing principle.This paper raises a proposal for discussing on how to enhance the research level of Russian-Chinese/Chinese-Russian machine translation system.
machine translation;Russian-Chinese/Chinese-Russian;translation system
H085
A
2095-0292(2012)02-0074-04
2011-12-17
國(guó)家社科基金項(xiàng)目 (11CYY063);國(guó)家社科基金項(xiàng)目 (11CYY064);教育部留學(xué)人員科技活動(dòng)擇優(yōu)資助項(xiàng)目 (41311401);中央高?;究蒲袠I(yè)務(wù)費(fèi)資助項(xiàng)目 (DL11CC13)
孫爽,東北林業(yè)大學(xué)副教授,博士,主要研究方向?yàn)橛?jì)算語(yǔ)言學(xué)、語(yǔ)義學(xué)、機(jī)器翻譯;陳曉曦,東北林業(yè)大學(xué)碩士研究生,主要研究方向?yàn)橛?jì)算語(yǔ)言學(xué)、語(yǔ)義學(xué)、機(jī)器翻譯。
[責(zé)任編輯 張 峰]