馬建軍
(大連理工大學外國語學院,遼寧大連116024)
基于規(guī)則和統(tǒng)計的機器翻譯方法歧義問題比較分析
馬建軍
(大連理工大學外國語學院,遼寧大連116024)
文章通過對SYSTRAN和GOOGL E兩個機譯系統(tǒng)90句商務英語英漢翻譯譯文的比較分析,從詞義歧義和句法歧義兩方面,研究基于規(guī)則(RBMT)和基于統(tǒng)計(SMT)兩種機器翻譯方法的消歧處理的優(yōu)與劣。研究表明,基于統(tǒng)計方法詞義消歧強于基于規(guī)則方法,而句法消除歧義能力相當。詞義歧義問題主要集中在動詞多義詞和名詞多義詞,而句法歧義問題則集中在定語、狀語和從句。動詞與介詞搭配,名詞與介詞搭配作定語和狀語,以及具有商務內(nèi)涵的動詞和名詞,成為機器翻譯的難點。
機器翻譯;詞義歧義;句法歧義;RBMT;SMT
基于規(guī)則機器翻譯(RBMT)和基于統(tǒng)計機器翻譯(SMT)是機器翻譯的兩個主要方法。這兩種方法截然不同,其主要區(qū)別在于是否需要語言知識庫?;谝?guī)則機器翻譯主要依賴人工提取的規(guī)則所建立的各類語言知識庫,包括詞法、句法、語義及與語言知識有關(guān)的世界知識;基于統(tǒng)計機器翻譯不需要語言知識庫,而是依賴大量的雙語語料庫,通過機器估計翻譯模型參數(shù)執(zhí)行翻譯。
根據(jù)2005年NIST機器翻譯評測結(jié)果來看,基于統(tǒng)計方法似乎優(yōu)于基于規(guī)則方法[1]?;谝?guī)則機器翻譯方法的代表性機譯系統(tǒng)是SYSTRAN,至今已應用了30多年,而基于統(tǒng)計機器翻譯的代表性機譯系統(tǒng)是GOOGLE。2005年NIST機器翻譯評測結(jié)果表明, GOOGLE在所有四項測評中均名列第1;而SYSTRAN在參加的兩項測評中,分列第7和第12[1]。
影響機器翻譯質(zhì)量的問題有許多,但問題主要集中在語言學方面[2][3]。歧義問題就是關(guān)鍵問題之一,已經(jīng)成為機器翻譯發(fā)展的瓶頸。然而,機器翻譯歧義問題研究大部分工作是討論理想模式下的歧義問題,即語言本身的歧義或因語言不同在翻譯過程中產(chǎn)生的歧義問題,而少有針對某一具體的機譯系統(tǒng)或方法[4][5]。
本文擬對SYSTRAN和GOOGLE機譯系統(tǒng)英漢翻譯歧義問題進行比較分析,研究基于規(guī)則和基于統(tǒng)計兩種機器翻譯方法的消歧處理的優(yōu)與劣。研究結(jié)果有助于兩種主流機器翻譯方法找出問題所在,突破語言學方面的發(fā)展瓶頸,從而提高機器翻譯的質(zhì)量。
1.歧義項
本文選擇對英漢翻譯歧義問題進行分析。歧義問題包括詞義和句法兩個方面[4]。詞義歧義主要研究多義詞詞義、術(shù)語詞義和固定搭配詞義。多義詞既包括本身具有多個含義的詞,也包括那些引起翻譯歧義的詞,即在源語言中詞義只有一個,但是在目標語言中存在多種含義或不同的表達的詞。如repetition,其英文含義只有一個,即something that you say or do that have already said or done before,但是其相應的中文表達有兩個:重復,或重復的話,中文含義明顯不同。對多義詞的判斷本文以COBUILD英漢雙解詞典為準[6]。多義詞詞義具體細分為動詞詞義、名詞詞義、形容詞詞義、副詞詞義和介詞詞義。其中,為研究方便,動詞還包括由“be+adj.”構(gòu)成的謂語動詞;形容詞只包括作為名詞修飾語的形容詞;介詞只包括那些本身有具體詞義的介詞,如besides,concerning,till等,而與動詞、名詞和形容詞構(gòu)成固定搭配的介詞則在分析動詞、名詞和形容詞時一并考慮。術(shù)語指在具體語境下有特殊含義的短語,如bill of lading(提單),the dead freight(空倉運費),contract terms(合同條款)等。固定搭配包括固定短語和習語,如:on account of,with the exception of,in case of等。句法歧義則主要研究從句、定語、狀語和否定四個方面。
2.評價標準
根據(jù)嚴復的“信、達、雅”原則,本文從譯文的忠實度和流暢度兩個方面對歧義問題進行分析。但是本文認為,忠實度和流暢度并不是相互獨立的,忠實度為前提,如果譯文不準確,無論表達有多流暢,多符合目標語言的表達習慣,其翻譯質(zhì)量為零。因此,本文采用忠實度和流暢度合并的方法,具體標準如表1所示。
表1 評價標準
3.評價方法
步驟1:各歧義項得分記為SX,其中X代表所觀察的歧義項,具體包括:詞義、句法、多義詞詞義、動詞詞義、名詞詞義、形容詞詞義、副詞詞義、介詞詞義、固定搭配詞義、術(shù)語詞義、從句、定語、狀語、否定。其中,詞義包括多義詞詞義、固定搭配詞義和術(shù)語詞義;多義詞詞義包括動詞詞義、名詞詞義、形容詞詞義、副詞詞義和介詞詞義;句法包括從句、定語、狀語和否定。它們的關(guān)系用數(shù)學公式表示如下:
{詞義}={多義詞詞義}{固定搭配詞義}{術(shù)語詞義}
{多義詞詞義}={動詞詞義}{名詞詞義}{形容詞詞義}{副詞詞義}{介詞詞義}
{句法}={從句}{定語}{狀語}{否定}
步驟2:每個具體觀察項取值記為VXi,根據(jù)評價標準,VXi取值為0,1,或2;
步驟3:觀察項個數(shù)記為n;取值為0分,1分,或2分的觀察項個數(shù)分別記為n0,n1,n2;
步驟4:忠實度記為A,流暢度記為F,準確率記為P,則:
4.測試語料
選擇商務英語作為測試的語料。商務英語具有獨特的語體特征,詞法和句法特點突出,如術(shù)語豐富,長句結(jié)構(gòu)嚴謹,用詞規(guī)范等[7]。且商務英語也是對機器翻譯需求較多的專業(yè)英語。
本文選擇標準樣本數(shù)為30。為保證測試語料的隨機性,且包括難易不同的句子,從自建的有3 000個雙語句的商務信函雙語語料庫中隨機抽取3個層次英語句子各30句,共90句。3個層次的句子分別包含1個、2個、3個及以上謂語動詞。商務信函雙語語料庫的語料來自3本商務英語教材[8][9][10]。
5.人工測評
將測試語料的90個句子分別輸入2個機譯系統(tǒng): SYSTRAN在線翻譯(http://www.systran-software. cn)和GOOGLE翻譯(http://translate.google.cn),對系統(tǒng)輸出的譯文根據(jù)評價標準和評價方法進行評測。
1.歧義項基本信息
表2顯示了所觀察的歧義項頻次。表2中的數(shù)據(jù)表明,多義詞是詞義歧義的主要研究對象,共591次,其中,動詞出現(xiàn)頻率最大,名詞居其次。因此,對動詞和名詞多義詞進行詞義排歧是詞義消岐的關(guān)鍵問題。而在句法歧義中,定語出現(xiàn)頻率最大,狀語和從句次之。因此,研究句法歧義時,應重點解決定語、狀語和從句的句法消歧。
表2 歧義項基本信息
2.詞義歧義
(1)GOOGL E在詞義歧義處理上比SYSTRAN好(P=0.021)。根據(jù)表3,GOOGL E在忠實度、流暢度、準確率和得分四個方面均比SYSTRAN好,且SPSS配對t檢驗結(jié)果:P=0.021<0.05,表明差值有意義。其中,GOOGL E流暢度(88.84%)明顯好于SYSTRAN(68.26%)。這表明SYSTRAN在能正確理解的詞義中,仍有31.74%的詞義表達不符合中文習慣;而GOOGL E只要能夠正確理解詞義,表達基本上符合中文習慣。
表3 詞義消歧結(jié)果
(2)詞義歧義問題集中在動詞多義詞和名詞多義詞。表4表明了各歧義項得分,出現(xiàn)頻率最大的動詞多義詞得分最低(分別為53分和63分),介詞也是難點,名詞居其次。GOOGL E在形容詞(81分)和副詞(80分)詞義消歧處理最好,而SYSTRAN則是形容詞(75分)詞義消歧最好。因此,由上面的分析可知, SYSTRAN在固定搭配和術(shù)語詞義消歧方面還存在較大問題。
表4 詞義歧義項消歧比較
(3)SYSTRAN和GOOGLE在動詞詞義理解存在同樣的問題(P=0.382):對具有商務內(nèi)涵的動詞和與名詞或介詞等構(gòu)成搭配的動詞詞義理解有歧義。表5對得0分的動詞進行了分析,并對兩組數(shù)據(jù)進行SPSS配對t檢驗,P=0.382>0.05,表明兩組數(shù)據(jù)無差別。
表5 動詞歧義問題
表5表明,動詞詞義理解難點之一就是具有商務內(nèi)涵的動詞,如cover,draw,quote等。例如:
原文:We usually cover shipments against WPA and War Risks.
參考譯文:我們通常將貨物投保水漬險和戰(zhàn)爭險。
SYSTRAN:我們通常蓋發(fā)貨反對WPA和戰(zhàn)爭風險。
GOOGL E:我們通常包括出貨量對WPA和戰(zhàn)爭險。
該句的“cover”在普通英語中表示“覆蓋、包括”等含義,而在商務英語語境中,常表示“投?!敝狻釉~詞義理解另一個難點就是與名詞或介詞等構(gòu)成搭配的動詞。例如:
原文:We thank you for your quotation of September 17 and are pleased to place a trial order for your electrical products.
參考譯文:感謝你方9月17日的報價,現(xiàn)欣然試購你方的電器產(chǎn)品。
SYSTRAN:我們感謝您的9月17的引文日和高興地指出您的電子產(chǎn)品的一份審訊令。
GOOGL E:我們感謝您的報價9月17日,很高興把審判為了使您的電器產(chǎn)品。
該句中,動詞“place”與名詞“a trial order”構(gòu)成搭配,表示“試購”,但是SYSTRAN和GOOGLE都沒能正確理解“place”的含義。又如:
原文:The educational instruments we have just received from you are of very poor quality,which is far below the standard that can be sold in this market.
參考譯文:我們剛從你方收到的教學儀器質(zhì)量很差,大大地低于可在我方市場銷售的標準。
SYSTRAN:我們從您接受了的教育儀器是非常質(zhì)量差,是遠低于標準在這個市場上可以被賣。
GOOGL E:教育手段,我們剛剛收到你的質(zhì)量非常差,這是遠遠低于標準,可以在這個市場上出售。
該句中,“receive sth.from sb.”是一個很常用且易懂的動詞和介詞搭配,表明“從某人收到某物”,人工翻譯一般不會有問題。但是在機器翻譯中,因為知識庫不夠豐富,或者因為介詞from與動詞receive的距離問題,較難通過統(tǒng)計方法估計翻譯模型,動詞與介詞的搭配往往成為難點。
(4)SYSTRAN和GOOGL E在名詞詞義理解也存在同樣的問題(P=0.184):對具有商務內(nèi)涵的名詞理解有歧義。表6對得0分的名詞進行了分析,SPSS配對t檢驗結(jié)果:P=0.184>0.05,表明兩個機譯系統(tǒng)存在同樣的問題。表6表明具有商務內(nèi)涵的名詞是機器翻譯的難點,如enquiry(詢價),offer(報盤),negotiation(議付)等。
表6 名詞歧義問題
3.句法歧義
(1)SYSTRAN和GOOGLE在句法歧義處理上沒有顯著差別(P=0.166)。SPSS配對t檢驗結(jié)果:P =0.166>0.05,表明兩個機譯系統(tǒng)句法消歧能力相當。但是,表7表明SYSTRAN忠實度和準確率都略好于GOOGL E。
表7 句法消歧結(jié)果
(2)句法歧義問題集中在從句、定語和狀語。從表8可知,兩個系統(tǒng)基本上都能夠?qū)⒕浞ńY(jié)構(gòu)區(qū)分開來,但是語序處理還需改進,尤其是狀語的語序(得分最低,分別為61和63分)。SYSTRAN定語歧義處理(83分)好于GOOGL E(73分),而GOOGLE否定歧義處理(94分)要好于SYSTRAN(79分),其余兩個歧義項:從句和狀語,兩個系統(tǒng)分數(shù)幾乎一致。
表8 句法歧義項消歧比較
(3)從句歧義主要問題在于定語從句的理解。表9分析了得0分的個數(shù),并與觀察到的從句個數(shù)相比較。
表9 從句歧義問題
從表9可知,SYSTRAN和GOOGL E都沒能區(qū)分約有50%的定語從句。主要有兩種情況增加了機譯難度:一是沒有連詞that的定義從句;二是名詞先行詞在從句中作介詞的賓語。例如:
原文:Please let us know immediately the detailed risks you wish to insure against for your shipment in question.
參考譯文:請你方立即告訴我們對你方該批貨物要投保的詳細險別。
SYSTRAN:請告訴我們立刻您希望保險反對為正在考慮中您的發(fā)貨的詳細的風險。
GOOGL E:請讓我們知道了詳細的風險立即要投保的運送問題。
在該句中,從句“you wish to insure against for your shipment in question”修飾名詞“risks”,而兩個譯文基本上是語無倫次。又如:
原文:To accept the prices you quote would leave us with only a small profit on our sales since this is an area in which the principal demand is for articles in the medium price range.
參考譯文:如果我們接受你方報價,我們銷售起來只能獲得薄利,因為本地區(qū)主要需求的是中等價格范圍的商品。
SYSTRAN:要接受您引述的價格將留給我們僅小贏利在我們的銷售,因為這是主要需求是為在中等價格范圍的文章的區(qū)域。
GOOGL E:接受你的價格競標將使我們只有一個小的銷售利潤,因為這是在這一領(lǐng)域的主要要求是,在中條的價格范圍。
人工翻譯該句子,是需要將名詞“area”連同“in which”中的介詞“in”還原到從句中,即:the principal demand is for articles in the medium price range in this area,然后再翻譯。很明顯,兩個機譯系統(tǒng)都無法實現(xiàn)這一點。
(4)定語歧義主要問題在于對介詞與名詞作后置定語的區(qū)分及語序的確定。表10分析了得0分和1分的定語的分布情況,發(fā)現(xiàn)介詞與名詞作后置定語時,問題最多。例如:
原文:We thank you for your order of March 8 for electric motors,but regret to inform you that because of our stringent supply position we are unable to make supply immediately.
參考譯文:感謝你方3月8日關(guān)于電動機的訂單,但遺憾地通知你們,由于我們供貨緊張,無法立即供貨。
SYSTRAN:我們感謝您的行軍序列電動機的8日,但是后悔通知您那由于我們無法立刻做供應的我們的嚴密供應位置。
GOOGL E:我們感謝你為了3月8日的電動馬達,但遺憾地通知你,是因為我們嚴格的供應狀況,我們無法作出立即供應。
在該句中,“your order of March 8 for electric motors”有2個介詞與名詞作后置定語修飾名詞“order”,一是:“of March 8”;二是“for electric motors”。SYSTRAN和GOOGL E基本上是語無倫次,與原義相差甚遠。另外,介詞連接2個名詞時,需要確定哪個名詞是中心詞,哪個名詞與介詞構(gòu)成定語,否則會引起歧義。例如:
原文:When you place insurance for the shipment of our porcelain ware,please do not forget to include the risk of breakage.
參考譯文:當你們?yōu)槲曳竭@批瓷器投險時,請別忘了包括破碎險。
SYSTRAN:當您安置我們的瓷器的發(fā)貨的時保險,不要忘記包括破損的風險。
GOOGL E:當您在保險貨物的瓷器,請不要忘記,包括破碎險。
該句的“place insurance for”決定了其后的名詞應是貨物,因此,“the shipment of our porcelain ware”中“porcelain ware”是中心詞,其含義只能是“我方這批瓷器”,而不能是“我們的瓷器的發(fā)貨”,也不能是“貨物的瓷器”。因此,名詞與介詞搭配作定語,增加了機器翻譯的難度。
表10 定語歧義問題
(5)狀語歧義主要問題在于對介詞與名詞作狀語以及副詞作狀語的區(qū)分及語序的確定。表11表明,類似于定語歧義問題,介詞與名詞搭配,又一次增加了機器翻譯的難度。介詞+名詞除可作定語之外,還可作狀語,修飾動詞。如:
原文:We have learnt that there is a good demand for groundnuts in your market,and take this opportunity of enclosing our quotation sheet No.5233 for your consideration.
參考譯文:獲悉你地市場對落花生有較大的需求,現(xiàn)奉上第5233號報價單,供你方參考。
SYSTRAN:我們獲悉有對落花生的好需求在您的市場上,并且利用附寄我們的您的考慮的報價單沒有這機會5233。
GOOGL E:我們已經(jīng)獲悉,有一個很好的需求,花生中的市場,并借此機會附上我們的報價單的第5233號為您的考慮。
該句中,“for your consideration”是固定搭配,作目的狀語。此外,兩個機譯系統(tǒng)在一些副詞的區(qū)分和語序上也存在著問題,如:herewith,regretfully,immediately,kindly,accordingly,here,now,yet,even,just等。
表11 狀語歧義問題
消除詞義歧義和句法歧義是解決機器翻譯問題的關(guān)鍵?;谝?guī)則和基于統(tǒng)計兩種主流機器翻譯方法的歧義問題比較分析結(jié)果概括如下:
(1)基于統(tǒng)計方法詞義消歧強于基于規(guī)則方法,而在句法消歧方面能力相當。
(2)從譯文質(zhì)量看,基于統(tǒng)計方法的流暢度好于基于規(guī)則方法。
(3)詞義歧義問題主要集中在動詞多義詞和名詞多義詞,而句法歧義問題則集中在定語、狀語和從句。
(4)動詞與介詞搭配,名詞與介詞搭配作定語和狀語,成為機器翻譯的難點。
(5)具體語境下(如商務英語)具有特殊含義的普通詞,如動詞和名詞,成為詞義消歧的難點。
總之,為提高機器翻譯質(zhì)量,基于規(guī)則機器翻譯方法需豐富知識庫,解決流暢度問題;而統(tǒng)計機器翻譯方法則需改進統(tǒng)計建模方法,提高句法消歧能力。
[1]GEER D.Statistical machine translation gains respect[J]. IEEE Computer,2005,(10):18-21.
[2]姚振軍.句法“最簡方案”與“最簡模式”機器翻譯[J].大連理工大學學報(社會科學版),2005,26(1):86-91.
[3]魯孝賢.機器翻譯語義排歧的方法[J].中國科技翻譯, 2007,20(4):20-25.
[4]HUTCHINS J,SOMERS L.An Introduction to Machine Translation[M].London:Academic Press,1992.81-98.
[5]ARNOLD D,BAL KAN L,MEIJ ER S,et al.Machine Translation:an Introductory Guide[M].London:NCC Blackwell, 1994.111-128.
[6]SINCLAIR J.COBUILD英漢雙解詞典[Z].上海:上海譯文出版社,2002.
[7]吳潔.商務英語的特點及翻譯[J].中國科技翻譯,2008,21 (4):18-20.
[8]黃水乞.外貿(mào)英文信函范例與常用精句[M].廣州:廣東經(jīng)濟出版社,2006.62-242.
[9]李爽.國際商務函電[M].北京:清華大學出版社,2008. 1-207.
[10]松尾裕一,增澤史子.英語商務書信110[M].大連:大連理工大學出版社,2003.12-129.
A Comparative Analysis of the Ambiguity Resolution of Two English-Chinese MT Approaches:RBMTand SMT
MA Jian-jun
(School of Foreign Languages,Dalian University of Technology,Dalian 116024,China)
This paper makes a comparative analysis of the ambiguity resolution of two MT approaches:Rule Based Machine Translation(RBMT)and Statistical Machine Translation(SMT),by analyzing the Chinese translation work for 90 English sentences in the domain of business,translated by SYSTRAN and GOOGL E translation systems.The results show that SMT is better than RBMT in terms of lexical ambiguity resolution, while they are the same in terms of structural ambiguity resolution.Lexical ambiguity mainly includes problems that occur when verbs and nouns have more than one sense,such as homographs and polysemes,as well as lexical transfer problems.Structural ambiguity arises in the aspects of modifiers,adverbials,and clauses.Verb+ preposition collocations,noun+preposition collocations,and verbs and nouns with special senses in business domain,remain three difficult problems for disambiguity for MT.
machine translation;lexical ambiguity;structural ambiguity;RBMT;SMT
H085
:A
:1008-407X(2010)03-0114-06
2009-09-01
中央高?;究蒲袠I(yè)務費專項資金資助項目(DUT10RW202)
馬建軍(1972-),女,遼寧海城人,副教授,主要從事機器翻譯和功能語言學研究。