鐘媛媛 延宏
摘 要:文章主要介紹了兩種基于語料庫的機(jī)器翻譯方法:基于實(shí)例的機(jī)器翻譯方法以及基于統(tǒng)計(jì)的機(jī)器翻譯方法。前者強(qiáng)調(diào)從計(jì)算機(jī)的角度通過實(shí)例推理的手段得到譯文,后者側(cè)重于從數(shù)學(xué)角度建立模型進(jìn)行翻譯。兩種翻譯方法各有優(yōu)缺點(diǎn),文章認(rèn)為基于語料庫的機(jī)器翻譯的前景:將不同的翻譯方法取長補(bǔ)短,互相融合,發(fā)展多策略融合式機(jī)器翻譯方法,同時(shí)加強(qiáng)基于語料庫的機(jī)器翻譯方法與其它學(xué)科的融合。
關(guān)鍵詞:語料庫;機(jī)器翻譯;基于實(shí)例的機(jī)器翻譯方法;基于統(tǒng)計(jì)的機(jī)器翻譯方法;前景
20世紀(jì)90年代,計(jì)算機(jī)技術(shù)與語料庫的建設(shè)取得了長足的發(fā)展。語料庫的作為一種科學(xué)的研究方法被引入翻譯這一領(lǐng)域,標(biāo)志著機(jī)器翻譯的發(fā)展進(jìn)入一個(gè)新紀(jì)元。國外關(guān)于語料庫機(jī)器翻譯的研究大多具有很強(qiáng)的實(shí)踐指導(dǎo)性,我國基于語料庫的機(jī)器翻譯研究主要是以研究型的探索為主。目前與語料庫機(jī)器翻譯相關(guān)的研究已經(jīng)進(jìn)入非常具體,專業(yè)的細(xì)微領(lǐng)域。文章首先介紹了與機(jī)器翻譯相關(guān)的語料庫,基于規(guī)則的機(jī)器翻譯以及基于語料庫機(jī)器翻譯的兩種方法,對(duì)這些方法的優(yōu)缺點(diǎn)分別進(jìn)行了總結(jié),旨在為研究者呈現(xiàn)一個(gè)清晰的語料庫機(jī)器翻譯相關(guān)知識(shí)的概括和總結(jié),最后,作者指明了語料庫機(jī)器翻譯的前景,以期為后來研究者提供借鑒。
一、語料庫與機(jī)器翻譯
(一)語料庫
語料庫是指根據(jù)一定的語言學(xué)原則的指導(dǎo),通過隨機(jī)抽樣的方法,收集未經(jīng)過任何加工的連續(xù)的語言文字運(yùn)用文本或者語音片段,在此基礎(chǔ)上建成的一個(gè)容量相當(dāng)?shù)拇笮碗娮游膸?。目前,語料庫在語言教學(xué),語言研究以及語言工程等方面獲得了廣泛的應(yīng)用,具體的應(yīng)用領(lǐng)域主要有語言頻率統(tǒng)計(jì),詞典編纂,詞匯搭配研究,語言教學(xué)以及自然語言處理等。
(二)機(jī)器翻譯和基于規(guī)則的機(jī)器翻譯方法
機(jī)器翻譯是利用計(jì)算機(jī)技術(shù)的輔助,將一種以一種語言形式存在的聲音或者文字轉(zhuǎn)化為以另一種語言形式存在的文字和聲音(文章主要探討的是機(jī)器翻譯的文字翻譯方面)。60年代初,隨著喬姆斯基的“轉(zhuǎn)換生成語法”理論的建立,機(jī)器翻譯系統(tǒng)得到迅速發(fā)展,也叫做基于規(guī)則的翻譯方法?;谝?guī)則的機(jī)器翻譯的工作原理是:對(duì)輸入的源語言進(jìn)行格式保留處理以及分析,對(duì)源語言進(jìn)行轉(zhuǎn)換,最后根據(jù)目標(biāo)語的生成規(guī)則生成目標(biāo)語?;谝?guī)則的機(jī)器翻譯的優(yōu)點(diǎn)是規(guī)則可以描述語言的語法構(gòu)成,方便計(jì)算機(jī)識(shí)別。但是,語法規(guī)則的得出需要大量的人力與物力。其次,語法規(guī)則由語法學(xué)家總結(jié)得到,不同的語言學(xué)家對(duì)語法規(guī)則的認(rèn)識(shí)可能存在沖突。
除了某些特定的領(lǐng)域,基于規(guī)則的機(jī)器翻譯取得了相對(duì)較好的效果。但是,機(jī)器翻譯依舊沒有達(dá)到人類想要的效果。隨著語料庫語言學(xué)的不斷發(fā)展,人們逐漸引入了基于實(shí)例和基于統(tǒng)計(jì)這兩種與語料庫的應(yīng)用密切結(jié)合的翻譯方法。基于語料庫的機(jī)器翻譯迅速發(fā)展,取得了巨大成績。
二、基于語料庫的機(jī)器翻譯
(一)用于機(jī)器翻譯的語料庫
語料庫依據(jù)不同的標(biāo)準(zhǔn)可以分為不同的類別。與翻譯研究相關(guān)的語料庫有三類:平行語料庫,可比語料庫和多語語料庫。
平行語料庫收集了某種語言的原文本,以及該語言翻譯成另外一種語言的目標(biāo)語言文本??杀日Z料庫收集了某種語言的原文,以及從其它語言翻譯成該語言的文本。多語語料庫收集兩個(gè)或者多個(gè)單語種語料,由這些語料組成復(fù)合語料庫。
(二)基于語料庫的機(jī)器翻譯方法
機(jī)器翻譯方法分為基于規(guī)則的翻譯方法和基于語料庫的翻譯方法。基于語料庫的翻譯方法又可以分為基于實(shí)例的翻譯和基于統(tǒng)計(jì)的翻譯。它們的區(qū)別在于:前者語料庫會(huì)作為一種翻譯知識(shí)參與翻譯,供翻譯主體查詢。后者語料庫的是用來尋找最有可能成為目標(biāo)語的句子,不進(jìn)行具體的翻譯實(shí)踐。
(1)基于實(shí)例的機(jī)器翻譯方法
基于實(shí)例的機(jī)器翻譯方法最早是由日本著名機(jī)器翻譯專家長尾真(Nagao Makoto)提出來的。他通過研究日本英語初學(xué)者翻譯句子的過程歸納總結(jié)了機(jī)器翻譯的基本原則。他認(rèn)為人類在翻譯過程中,并不會(huì)進(jìn)行深層的語言學(xué)分析,而是會(huì)在已經(jīng)形成的知識(shí)庫中盡可能尋找與需要翻譯的句子相似的結(jié)構(gòu),通過類比的手段,得到目標(biāo)語的譯文。將這一思想運(yùn)用到機(jī)器翻譯中的表現(xiàn)就是:給出待翻譯的句子S,在雙語語料庫中尋找與待翻譯句子最相似的句子V,V的譯文T就是S的譯文。在這一翻譯的過程中,起基礎(chǔ)性作用的一個(gè)大型的雙語語料庫。翻譯過程中的相似度計(jì)算是決定翻譯質(zhì)量的重要因素。
基于實(shí)例的機(jī)器翻譯方法主要有三種類型:完全實(shí)例,實(shí)例句型轉(zhuǎn)換的翻譯以及實(shí)例近似翻譯。
就基于實(shí)例的這一翻譯方法而言,當(dāng)前主要存在的技術(shù)方面的問題:在詞匯與短語對(duì)齊層次中,如何避免歧義實(shí)現(xiàn)正確的對(duì)齊;在尋找最相似實(shí)例層次中,如何計(jì)算相似度,找到最相似,最恰當(dāng)?shù)膶?shí)例;如何將已經(jīng)尋找到的實(shí)例片段進(jìn)行有效的組合形成譯文;如何提高翻譯實(shí)例的覆蓋率等。
(2)基于統(tǒng)計(jì)的機(jī)器翻譯方法
基于統(tǒng)計(jì)的機(jī)器翻譯方法第一次提出是由IBM研究者于1990年左右提出來的。從2002 年開始,美國國家標(biāo)準(zhǔn)技術(shù)研究所(NIST)在美國ARPA的支持下開始開展一年一度的機(jī)器翻譯測評(píng)工作,基于統(tǒng)計(jì)的機(jī)器翻譯方法遙遙領(lǐng)先于傳統(tǒng)的基于規(guī)則的翻譯方法。最近幾年,基于統(tǒng)計(jì)的機(jī)器翻譯方法發(fā)展迅速,逐漸成熟。
基于統(tǒng)計(jì)的機(jī)器翻譯方法的中心思想:認(rèn)為目標(biāo)語中的任何一個(gè)句子都有可能是源語言的譯文,而唯一的不同就是它們成為源語言譯文的概率不同,機(jī)器翻譯的任務(wù)就是通過計(jì)算找出概率最大的句子。這一方法是通過對(duì)數(shù)據(jù)庫的分析對(duì)比將知識(shí)抽象成模型,根據(jù)統(tǒng)計(jì)模型來尋找最恰當(dāng)?shù)淖g文。
基于統(tǒng)計(jì)的機(jī)器翻譯方法一共包含兩種模型:翻譯模型和語言模型。翻譯模型是用來計(jì)算將源語言翻譯成目標(biāo)語的概率,也就是計(jì)算一個(gè)指定的語言串翻譯成為另一個(gè)語言串可能性。而后者是用來計(jì)算已經(jīng)翻譯好的譯文可能出現(xiàn)在目標(biāo)語中的概率,也就是計(jì)算譯文語言串在目標(biāo)語中存在的合理性。
基于統(tǒng)計(jì)的機(jī)器翻譯方法中統(tǒng)計(jì)模型是直接從語料庫中獲取的,無需人工總結(jié),時(shí)間短,效率高。譯文來源于人工語料,表達(dá)地道。但是,依據(jù)該方法,翻譯效果極大取決于翻譯模型和語料庫的覆蓋程度,語料難以收集的少數(shù)民族語言翻譯很難運(yùn)用這一方法。利用統(tǒng)計(jì)模型進(jìn)行翻譯,模型很難反映出句子內(nèi)部的所存在的差異,也無法解釋差異較大的語言之間內(nèi)部的復(fù)雜的結(jié)構(gòu)對(duì)應(yīng)關(guān)系,因此,通過這一方法得到的譯文經(jīng)常會(huì)出現(xiàn)翻譯腔,譯文晦澀難懂。
三、基于語料庫的機(jī)器翻譯的前景
基于統(tǒng)計(jì)的機(jī)器翻譯方法從語言現(xiàn)象入手,通過相對(duì)理性的模型得到譯文?;趯?shí)例的機(jī)器翻譯方法從機(jī)器自身學(xué)習(xí)的角度通過對(duì)實(shí)例的分析推理得到譯文。每種翻譯方法都存在缺陷。但是,兩種方法互不排斥?;谡Z料庫的機(jī)器翻譯的前景是將各種方法的優(yōu)點(diǎn)有機(jī)地結(jié)合起來,進(jìn)一步提高機(jī)器翻譯系統(tǒng)的性能?,F(xiàn)在,基于語料庫的機(jī)器翻譯的前景就是如何將各種方法各自的優(yōu)點(diǎn)發(fā)揮到最大限度,并將它們有機(jī)的結(jié)合起來,從而進(jìn)一步改善并且提高機(jī)器翻譯系統(tǒng)的性能。
基于語料庫的機(jī)器翻譯方法的另一個(gè)發(fā)展方向在學(xué)科之間的交叉融合上,與自然科學(xué),如神經(jīng)學(xué)科的融合促進(jìn)機(jī)器翻譯的人工智能化,與社會(huì)科學(xué),如語言學(xué)和社會(huì)文化研究結(jié)合將促進(jìn)機(jī)器翻譯更多的考慮到文化因素的影響。從而,改善基于語料庫的機(jī)器翻譯的性能。
參考文獻(xiàn)
[1] 任敬輝.國內(nèi)基于語料庫的翻譯研究綜述(2007-2013)[J].長春師范大學(xué)學(xué)報(bào),2015,34(06):118.
[2] 李也剛,黃河燕,史樹敏,等.多策略機(jī)器翻譯研究綜述[J].中文信息學(xué)報(bào),2015,29(02):2.
[3] 戴新宇,尹存燕,陳家俊,等.機(jī)器翻譯研究現(xiàn)狀與展望[J].計(jì)算機(jī)科學(xué),2004,31(11):177.
[4] 馮志偉.基于語料庫的機(jī)器翻譯系統(tǒng)[J].術(shù)語標(biāo)準(zhǔn)化與信息技術(shù),2010(01):28-32.
[5] 楊憲澤.機(jī)器翻譯的一些處理方法探討[J].西南民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2004,30(01)2-3.
[6] 楊憲澤.基于實(shí)例的機(jī)器翻譯處理方法[J].計(jì)算機(jī)工程,2003,29(21):51-52.
[7] 楊憲澤.漢英混合式機(jī)器翻譯難點(diǎn)研究[J].西南民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,42(03):304-305.
作者簡介:鐘媛媛(1994.12- ),女,山西忻州人,碩士,研究方向:外國語言學(xué)及應(yīng)用語言學(xué);延宏(1972- ),男,陜西綏德人,副教授,博士,研究方向:科技英語翻譯。