潘登(湖北科技學(xué)院外國(guó)語學(xué)院,湖北咸寧437100)
WordNet在統(tǒng)計(jì)機(jī)器翻譯中的應(yīng)用
——以英語單詞“Crack”為例*
潘登
(湖北科技學(xué)院外國(guó)語學(xué)院,湖北咸寧437100)
本文通過對(duì)比基于規(guī)則和基于語料庫的機(jī)器翻譯的利弊,首先介紹利用WordNet3.0的同義詞庫對(duì)“crack”的詞性和主要詞義使用頻率進(jìn)行分析,同時(shí)使用Google的網(wǎng)絡(luò)翻譯工具調(diào)查該詞語在詞匯、結(jié)構(gòu)以及整體可讀性和忠實(shí)性的翻譯層面是否地道常用。最后揭示“crack”的真實(shí)用法和使用規(guī)律并提出一定的可行措施來提高基于語料庫的英漢翻譯的質(zhì)量。進(jìn)而證明了基于語料庫翻譯方法在英漢翻譯上的可行性。
統(tǒng)計(jì)機(jī)器翻譯;WordNet3.0;應(yīng)用
目前國(guó)內(nèi)的機(jī)器翻譯主要有兩種模式,一種是基于規(guī)則的機(jī)器翻譯。即語言學(xué)家將語法規(guī)則和字典輸入計(jì)算機(jī),計(jì)算機(jī)在根據(jù)語法規(guī)則進(jìn)行翻譯;另一種是基于語料庫的機(jī)器翻譯,就是自然語言處理技術(shù)為基礎(chǔ),以知識(shí)本體作為支撐利用語義搜索進(jìn)行機(jī)器翻譯。隨著谷歌,百度,網(wǎng)易進(jìn)軍在線翻譯服務(wù),市場(chǎng)布局呈現(xiàn)三足鼎立,但其網(wǎng)絡(luò)翻譯質(zhì)量卻差強(qiáng)人意,可懂性和忠實(shí)性較低?;谡Z料庫的機(jī)器翻譯能否可以使機(jī)器翻譯的質(zhì)量達(dá)到一個(gè)新的高度,如果可以,那么怎樣才能更好地改善其翻譯質(zhì)量等,這些問題都是本研究所探討的問題。
本研究首先從詞匯、結(jié)構(gòu)方面對(duì)Systran和Google的英漢機(jī)翻譯本進(jìn)行了比較,并根據(jù)WordNet3.0的同義詞庫對(duì)“crack”的詞性和主要詞義使用頻率的數(shù)據(jù),同時(shí)使用Google的網(wǎng)絡(luò)翻譯工具調(diào)查該詞語在詞匯、結(jié)構(gòu)上的特征從而確定了基于語料庫機(jī)器翻譯的“可行性”。
語言是人類最重要的交際工具,人們交際信息的基本單位是概念,在語言中表現(xiàn)為詞匯部分。人們能夠順利地進(jìn)行交際是因?yàn)槌浞掷昧嗽~匯意義。隨著語言的發(fā)展,詞匯的豐富,與一個(gè)詞搭配而成的意義越來越多。詞義搭配,又稱詞匯模式,是指詞素之間的橫向組合,上升到詞與詞之間的橫向組合,詞與詞橫向組合搭配而成短語或分句,了解詞義搭配對(duì)學(xué)習(xí)英語起著重要的作用。詞義搭配是確定多義詞正確意義的重要手段,多義詞表明同一詞語可以表達(dá)多種概念,它具有兩個(gè)或兩個(gè)以上相互有聯(lián)系的固定意義,在不同的詞組語境中表達(dá)不同的概念。如何理解某一個(gè)詞在句中乃至全篇文章的意義,必須要注意詞義的搭配,通過上下文獲得某一個(gè)詞在句中的確切含義[1]。同一個(gè)詞與不同的詞語搭配形成不同的搭配意義。
語義的重要性正如王寅所說:“語義是思維的體現(xiàn)者——是語言交際過程的中心”。但是對(duì)于“意義,目前尚沒有一個(gè)全面的,被人們普遍接受的定義。迄今為止最為廣泛接受的語義分類是英國(guó)語言學(xué)家杰弗里·利奇(G.Leech)在他的《語義學(xué)》(Semantics)一書中對(duì)“意義”所做的分類(Leech,1974)。他將最廣義的“意義”劃分為七種不同的類型:概念意義、內(nèi)涵意義、社會(huì)意義、情感意義、反映意義、搭配意義和主題意義。學(xué)習(xí)一種語言,只理解詞匯的概念意義,而對(duì)其聯(lián)想意義一無所知或者一知半解,不能說真正掌握了語言,更不能說是對(duì)語言的正確運(yùn)用了。
(一)WordNet介紹
20世紀(jì)以來,語言學(xué)家和心理學(xué)家們開始從一個(gè)嶄新的角度來探索現(xiàn)代語言學(xué)知識(shí)結(jié)構(gòu)以及特定的詞典結(jié)構(gòu)。Miller和Johnson-Laird 1976提出,與語言的詞法元素有關(guān)的研究應(yīng)該稱做心理詞匯學(xué)。隨著近十幾年來語言學(xué)和心理學(xué)理論的發(fā)展,按照上述設(shè)想,Princeton大學(xué)的一組心理詞匯學(xué)家和語言學(xué)家于1985年開始承擔(dān)起開發(fā)一部詞典數(shù)據(jù)庫的任務(wù),這就是WordNet??梢哉f,WordNet是一部基于心理語言學(xué)原理的詞典。
此外,WordNet是一部能夠表達(dá)概念關(guān)系的語義詞典,它是依據(jù)詞義來組織詞匯信息,利用同義詞集合(Synaet)代表概念(Concept),語義關(guān)系在概念之間體現(xiàn)。它將英語詞匯組織為一個(gè)同義詞集合(Synaet),每個(gè)集合標(biāo)明一個(gè)詞匯概念,同時(shí)力圖在概念間建立不同的指針,表達(dá)不同的語義關(guān)系。如:WordNet中名詞的組織依照上下位關(guān)系構(gòu)造名詞概念樹,并且通過繼承系統(tǒng),構(gòu)成一種層次關(guān)系(hierarchies)。例如:橡樹--->樹--->植物--->生物。下位概念繼承了它們上位概念的所有的屬性。這樣原本抽象的概念就構(gòu)成了概念樹,可以通過詞匯意義來進(jìn)行概念的推理和計(jì)算。
WordNet是一部基于心理語言學(xué)原理的詞典,因?yàn)樗前丛~匯的語義關(guān)系組織的,而這些語義關(guān)系已被證明在心理語言學(xué)層面上是真實(shí)可靠的。WordNet提供了關(guān)于英語動(dòng)詞、名詞、形容詞、副詞等主要詞類的信息。其操作十分簡(jiǎn)便,使用者只需打開WordNet窗口后,鍵入所要查找的詞語,就可立即閱讀到對(duì)該詞語的各個(gè)義項(xiàng)的釋義、一些來自真實(shí)語料的例證,點(diǎn)擊下拉菜單中的鏈接可查閱到該詞語的同義反義詞、上下位詞以及該詞語的使用頻率情況(familiarity)。WordNet數(shù)據(jù)庫可全免費(fèi)使用,其下載快捷,操作和使用速度快、簡(jiǎn)單易懂,其內(nèi)容十分豐富,是二語教學(xué)的理想輔助工具。
(二)機(jī)器翻譯和統(tǒng)計(jì)機(jī)器翻譯簡(jiǎn)介
機(jī)器翻譯(machine translation,MT)是利用計(jì)算機(jī)把一種自然語言(源語言)翻譯成另一種自然語言(目標(biāo)語言)的過程[5]。用以完成這一過程的軟件叫做機(jī)器翻譯系統(tǒng)(machine translation system,MTS)。根據(jù)翻譯過程的自動(dòng)化程度,機(jī)器翻譯系統(tǒng)可分成全自動(dòng)機(jī)器翻譯(fully automatic machine translation,F(xiàn)AMT)系統(tǒng)和機(jī)器輔助翻譯(machine assisted translation,MAT)系統(tǒng)。計(jì)算機(jī)的應(yīng)用技術(shù)的不斷發(fā)展讓人們期待著能利用計(jì)算機(jī)輔助語言翻譯,其中很重要的一種方法就是互聯(lián)網(wǎng)引擎輔助翻譯。計(jì)算機(jī)輔助翻譯的基本原理是利用翻譯記憶自動(dòng)重復(fù)使用翻譯過的語句或語句成分,使譯者免于重復(fù)翻譯信息,從而提高翻譯的效率和譯文的質(zhì)量。計(jì)算機(jī)輔助翻譯經(jīng)過多年的發(fā)展,包含有語料庫輔助翻譯、電子詞典輔助翻譯、網(wǎng)絡(luò)輔助翻譯、軟件輔助翻譯等多種形式。[2]?;ヂ?lián)網(wǎng)搜索引擎輔助翻譯是計(jì)算機(jī)輔助翻譯的一種形式,通過利用搜索引擎為譯者在海量的網(wǎng)絡(luò)資源中快速尋找到適用的語句或語句成分,從而提高翻譯的效率和準(zhǔn)確性。譯者應(yīng)具有強(qiáng)的語言能力,從而能更有效地利用搜索引擎的輔助功能[6]。
統(tǒng)計(jì)機(jī)器翻譯的思想最早來源于香農(nóng)(Claude Shannon)和韋弗(Warren Weaver)的信息論。他認(rèn)為可以通過統(tǒng)計(jì)方法來找出語言共性,發(fā)現(xiàn)共同語(universal language),從而為語言之間的互譯提供了簡(jiǎn)便的途徑,當(dāng)然,他也承認(rèn)需要巨大的工作量,但隨著技術(shù)的發(fā)展,計(jì)算機(jī)在速度和容量上都有了大幅提高,大量的聯(lián)機(jī)語料可供使用,因此在20世紀(jì)90年代,基于統(tǒng)計(jì)的機(jī)器翻譯又興盛起來。[3]1991年,IBM的Brown等人提出了基于信源信道思想的統(tǒng)計(jì)。機(jī)器翻譯模型Candide,應(yīng)用于英法雙語的互譯,并且在實(shí)驗(yàn)中獲得了初步的成功。此后從事統(tǒng)計(jì)機(jī)器翻譯的有美國(guó)的Language Weaver,Loto等,而Google公司后來居上,通過上乘的翻譯質(zhì)量,為統(tǒng)計(jì)機(jī)器翻譯贏得了榮譽(yù)和認(rèn)可,也引起了科學(xué)家和公眾對(duì)機(jī)器翻譯的廣泛關(guān)注。目前,統(tǒng)計(jì)機(jī)器翻譯可以大致分為基于信源信道思想的統(tǒng)計(jì)機(jī)器翻譯方法、基于句法結(jié)構(gòu)的統(tǒng)計(jì)翻譯模型。
筆者主要借助WordNet3.0對(duì)“crack”一詞的詞性,詞義分類,和使用頻率等方面進(jìn)行了深入的分析揭示“crack”的真實(shí)用法和使用規(guī)律,同時(shí)利用Google調(diào)查詞組搭配是否地道常用,以便選擇“crack”在特定文本中的意義,排除歧義,提高自己的譯文質(zhì)量。其重點(diǎn)在于通過WordNet 3. 0和Google公司的200億詞級(jí)的聯(lián)合國(guó)多語種官方文檔語料對(duì)“crack”一詞的分析,揭示運(yùn)用大型在線詞典WordNet對(duì)翻譯教學(xué)和實(shí)踐的作用。
(一)對(duì)“crack”的詞性和語義檢索
我們借助WordNet3.0來檢索得到英語單詞“crack”的主要詞性、語義和使用頻率。WordNet的語料庫文本可劃分為兩大部分,即普通文本和科技文本。
Noun
Sense 1*….(3)S:(n)crack,cleft,crevice,fissure,scissure(a long narrow opening)
Sense 2…..(2)S:(n)gap,crack(a narrow opening) e.g."he opened the window a crack"
Sense 3…..(1)S:(n)crevice,cranny,crack,fissure,chap(a long narrow depression in a surface)
Sense 4…..(1)S:(n)crack,cracking,snap(a sudden sharp noise)e.g."the crack of a whip";
Sense 5…..S:(n)shot,crack(a chance to do something)e.g."he wanted a shot at the champion"
Sense 6…..S:(n)wisecrack,crack,sally,quip(witty remark)
Sense 7…..S:(n)crack(a blemish resulting from a break without complete separation of the parts)
e.g."there was a crack in themirror"
Sense 8…..S:(n)crack,crack cocaine,tornado
Sense 9…..S:(n)crack,fling,go,pass,whirl,offer (a usually brief attempt)e.g."he took a crack at it";
Sense 10…..S:(n)fracture,crack,cracking(the act of cracking something)
Verb
Sense 1*…..(6)S:(v)crack,check,break(become fractured;break or crack on the surface only)
e.g."The glass cracked when itwas heated"
Sense 2…..(4)S:(v)crack(make a very sharp explosive sound)e.g."His gun cracked"
Sense 3…..(2)S:(v)snap,crack(make a sharp sound)
Sense 4…..(2)S:(v)crack(hit forcefully;deal a hard blow,making a cracking noise)
e.g."The teacher cracked him across the face with a ruler"
Sense 5…..(2)S:(v)break through,crack(pass through(a barrier))
e.g."Registrations cracked through the 30,000 mark in the county"
Sense 6…..(1)S:(v)crack(break partially but keep its integrity)
e.g."The glass cracked"
Sense 7…..(1)S:(v)snap,crack(break suddenly and abruptly,as under tension)e.g."The pipe snapped"
Sense 8…..S:(v)crack(gain unauthorized access computers with malicious intentions)
e.g."she cracked my password";"crack a safe"
Sense 9…..S:(v)crack up,crack,crock up,breakup,collapse(suffer a nervous breakdown)
Sense 10…..S:(v)crack(tell spontaneously)e.g." crack a joke"
Sense 11…..S:(v)crack(cause to become cracked)
e.g."heat and light cracked the back of the leather chair"
Sense 12…..S:(v)crack(reduce(petroleum)e.g.to a simpler compound by cracking)
Sense13…..S:(v)crack(break into simplermolecules bymeans of heat)e.g."The petroleum cracked"
Adjective
Sense1…..(2)S:(adj)ace,A-one,crack,firstrate,super,tiptop,topnotch,e.g."a crack shot"
3.1.1 The word class distribution
(1.Noun:41.7%(10次);2.Verb:54.2%(12次);3:Adjective:4.1%(1次)
Table:3.1.1
3.1.2 The key senses distribution
(Sense 1:42.8%;Sense 2:28.6%;Sense 4:14.3% Sense 5:14.3%)
Table:3.1.2
3.1.3 The key senses distribution of“crack”(verb)
(Sense1:33.3%Sense2:22.2%Sense3,4,5:11.1% Sense6,7:5.6%)
Table: 3.1.3
(二)利用“Crack”的詞性分布改進(jìn)譯文
WordNet3.0共為我們粗略地提供了36條與“Crack”相關(guān)的索引行,并剔除其中有錯(cuò)誤(語句不完整或內(nèi)容重復(fù))的記錄后,我們得到24條有效索引行。為了描述和研究這些語料,首先我們對(duì)“Crack”的詞性進(jìn)行排行得到圖表3.1.1。從此圖我們得到“Crack”一共有24條語義。其中,做動(dòng)詞使用占41.7%是其最主要的語義。做名詞位居第二,共有10條記錄。但“crack”作為形容詞使用只有1條記錄。語義是“第一流的,頂呱呱的”。例:原文:He is a crack baseball player.譯文:他是個(gè)呱呱叫的棒球運(yùn)動(dòng)員。運(yùn)用機(jī)器翻譯短語準(zhǔn)確度不高的主要原因是計(jì)算機(jī)不容易辨認(rèn)短語中核心詞的詞性。即使詞性判斷正確在語義的選擇中也會(huì)出現(xiàn)紕漏。因此,借助WordNet提供的“Crack”語義搭配頻率很好地解決這一問題。
(三)利用“Crack”語義搭配頻率評(píng)價(jià)網(wǎng)絡(luò)譯文的質(zhì)量
例1:“Crack baby is a term for a child born to a mother who used crack cocaine during her pregnancy.
Google譯文:對(duì)一個(gè)在她的懷孕期間使用純可卡因的母親生的小孩。
Yahoo譯文:“高明的嬰孩”是孩子的一個(gè)期限對(duì)在她懷孕期間用可卡因的母親。
金橋譯文:對(duì)一個(gè)在她懷孕期間使用純可卡因的母親生的小孩。
例2:Crack up a boat
Google譯文:打擊了船
Yahoo譯文:使小船發(fā)笑
金橋譯文:吹捧一只小船
通過對(duì)比以上統(tǒng)計(jì)機(jī)器翻譯譯文,并借助WordNet對(duì)“crack”一詞的詞性,詞義分類,使用頻率的統(tǒng)計(jì)可以分析出Google開發(fā)的統(tǒng)計(jì)機(jī)器翻譯在漢語—英語的互譯的可懂性和忠實(shí)性上居領(lǐng)先地位。例1中的“Crack”在英譯漢中主要有兩種語義:“高明”和“純的”。究竟哪一種更符合原文的語境。,這個(gè)問題可以通過WordNet對(duì)“crack”一詞在不同語域的詞義搭配判讀最為恰當(dāng)?shù)恼Z義。從WordNet中“Crack”作名詞的語義分析得出當(dāng)在醫(yī)藥學(xué)的語境中,“Crack”最佳的語義是Sense 8“crack cocaine,tornado”即“純可卡因”。而且從詞性的分析也可以判斷“高明的”這一詞義是“Crack”作形容詞的唯一語義。在文中的crack cocaine名詞+名詞的短語,因此Yahoo機(jī)器譯文是無意義的,錯(cuò)誤的。
對(duì)比例2中的三種譯文我們發(fā)現(xiàn)“Crack up”有三種不同的語義。利用WordNet對(duì)”Crack”作動(dòng)詞的語義分析,依照以上的分析方法也可以很容易地到處正確的譯文。首先我們分析原文Crack up a boat是動(dòng)賓短語,Boat作為受動(dòng)對(duì)象,Crack up的執(zhí)行者一定是有生命的主語。搭配語義符合邏輯意義的只有Google的譯文。而且借助Wordnet的語境分析crack作動(dòng)詞最主要的語義是Sense 1:(v) crack,check,break(become fractured;break or crack on the surface only)所以意譯為“擊沉了船”是較為恰當(dāng)?shù)?。從而避免“吹捧一只小船”此類錯(cuò)譯的發(fā)生。
衡量翻譯好壞的二大標(biāo)準(zhǔn),一是意義相符,二是風(fēng)格類似。翻譯工作者應(yīng)該找出在他們之間的最和諧的關(guān)系。詞語是翻譯的基本單位,詞語翻譯的優(yōu)劣是衡量譯文質(zhì)量的重要因素。每個(gè)詞語一般有三種類型的意義:字面意義、指示意義和語用意義。通過對(duì)比圖解的分析,我們能得到一個(gè)觀點(diǎn):在科技文本中主要強(qiáng)調(diào)“Crack”的語用意義,而在普通文本中重點(diǎn)放在指示意義上。也就是說,不同類型文本提供不同的意義。當(dāng)我們?cè)诜g過程中選擇“Crack”在篇章中的最恰當(dāng)?shù)恼Z義時(shí),應(yīng)該完成下面一系列工作:第一,判斷該詞所處的語境和語域;第二,了解源語言信息的主要語義功能;第三,利用基于WordNet和Google統(tǒng)計(jì)翻譯提供的語義使用頻率選出最佳的語義。
英語和漢語的詞匯都是豐富多彩的,每一個(gè)詞都有各種不同的意義。借助WordNet和在線統(tǒng)計(jì)翻譯機(jī)器我們可以盡量減少在翻譯過程產(chǎn)生歧義的可能性。我們應(yīng)該重視利用語料庫豐富的語料文本、語義信息去層層解析句中的歧義??紤]其在翻譯學(xué)中,尤其在機(jī)器翻譯領(lǐng)域的重要性,我們相信它極具價(jià)值,并且在研究源語言和目的語言的語境意義上起著不可忽略的作用。在未來的網(wǎng)絡(luò)翻譯教學(xué)的環(huán)境下,教師不再是課堂教學(xué)的中心,而如何在網(wǎng)絡(luò)翻譯教學(xué)中使學(xué)生有效地得到翻譯技巧的輔導(dǎo)是一個(gè)難題。統(tǒng)計(jì)機(jī)器翻譯模式以其高質(zhì)量的翻譯譯文為這一問題提供了新的思路。
莊智象教授指出,在翻譯學(xué)科建設(shè)中,教師應(yīng)使用現(xiàn)代教育技術(shù),豐富翻譯教學(xué)手段,并指出機(jī)器翻譯、自動(dòng)編輯與校對(duì)軟件的使用、信息傳送等也應(yīng)當(dāng)容納在教學(xué)框架中[8]。目前,越來越多的教師和研究者將目光投向了網(wǎng)絡(luò)教學(xué),在西安外國(guó)語大學(xué)、北京外國(guó)語大學(xué)等高校的一些教師都開始了網(wǎng)絡(luò)翻譯教學(xué)的嘗試。統(tǒng)計(jì)機(jī)器翻譯對(duì)網(wǎng)絡(luò)翻譯課程提供了優(yōu)秀的資源支持,使得在線翻譯學(xué)習(xí)成為可能,并促進(jìn)了學(xué)生的自主學(xué)習(xí)能力。在當(dāng)前網(wǎng)絡(luò)教學(xué)的背景下,有效運(yùn)用網(wǎng)上的語義數(shù)據(jù)庫的確能增強(qiáng)學(xué)生進(jìn)行翻譯學(xué)習(xí)的自主性,達(dá)到培養(yǎng)較高的語言能力的目的。
由于文章篇幅有限,本文僅從狹窄的角度和有限的范圍對(duì)WorNet3.0的應(yīng)用進(jìn)行分析,其意義僅在于說明利用WordNet3.0在揭示“crack”的真實(shí)用法和使用規(guī)律。同時(shí)由于本文使用的翻譯評(píng)價(jià)標(biāo)準(zhǔn)本身的不成熟性,個(gè)人評(píng)價(jià)的主觀性以及時(shí)間的有限性,本研究存在著諸多的不足之處。但作者希望此研究能從實(shí)踐角度出發(fā)對(duì)語料庫機(jī)器翻譯的發(fā)展做出一些貢獻(xiàn)。
[1]杰弗里.N.T利奇,語義學(xué)[M].上海:上海外語教育出版,1987
[2]馬俊波,計(jì)算機(jī)輔助翻譯芻議[J].武漢職業(yè)技術(shù)學(xué)院學(xué)報(bào),2005,(3):81~84
[3]馮志偉,機(jī)器翻譯研究[M].北京:中國(guó)對(duì)外翻譯出版公司,2004:45.
[4]王寅,語義理論與語言教學(xué)[M].上海:上海外語教育出版社,2001
[5]魏長(zhǎng)宏,機(jī)器翻譯的譯前處理[J].科協(xié)論壇,2008,(9)
[6]周杰,互聯(lián)網(wǎng)搜索引擎輔助翻譯研究[J].外語網(wǎng)絡(luò)教育理論與實(shí)踐2007,(117).
[7]朱凌,詞義搭配在英語學(xué)習(xí)中的作用[J].宿州師專學(xué)報(bào).2003(1).
[8]莊智,我國(guó)翻譯專業(yè)建設(shè):問題與對(duì)策[M].上海:上海外語教育出版社,2007.
H059
A
1006-5342(2012)04-0046-04
2011-12-27
湖北省教育廳2012年人文社科青年項(xiàng)目《地方高校英語專業(yè)學(xué)生詞匯能力發(fā)展途徑研究》(2012Q813);2011年咸寧學(xué)院科研青年立項(xiàng)“地方高校英語專學(xué)生詞匯能力發(fā)展途徑研究”。