洛陽(yáng)理工學(xué)院外語(yǔ)系 胡富茂
中外商務(wù)交往中有相當(dāng)一部分是通過(guò)信函形式進(jìn)行,所以商務(wù)信函的翻譯就成了一種日益多見(jiàn)的翻譯形式。面對(duì)海量的商務(wù)信函文件,依靠傳統(tǒng)的人工翻譯已不能滿足時(shí)代需要。機(jī)器翻譯作為突破語(yǔ)言障礙的重要技術(shù)手段,對(duì)加速和擴(kuò)展世界范圍內(nèi)的信息傳播具有深遠(yuǎn)意義,在經(jīng)濟(jì)發(fā)展和社會(huì)生活中日趨重要,成為當(dāng)前研究的熱點(diǎn)之一。
商務(wù)信函是一種比較正式的公務(wù)文書,其一般目的是建立和保持良好的商務(wù)關(guān)系、獲得或發(fā)布商務(wù)信息、達(dá)成合作和交易等。(張新紅,李明,2003)我們構(gòu)建的商務(wù)信函平行語(yǔ)料庫(kù)的語(yǔ)料收集范圍為商務(wù)業(yè)務(wù)信函,分為建立業(yè)務(wù)關(guān)系函、產(chǎn)品推銷函、資信查詢函、詢盤函、發(fā)盤還盤函、訂購(gòu)函、裝運(yùn)通知函、支付結(jié)算函、索賠函、保險(xiǎn)函等,這些信函涉及商務(wù)活動(dòng)的全過(guò)程。在語(yǔ)料庫(kù)語(yǔ)言學(xué)理論的指導(dǎo)下,我們通過(guò)初步建立一個(gè)100萬(wàn)詞次的英漢雙語(yǔ)商務(wù)信函平行語(yǔ)料庫(kù)(包括兩個(gè)子庫(kù):英漢商務(wù)信函平行語(yǔ)料庫(kù),漢英商務(wù)信函平行語(yǔ)料庫(kù))。該庫(kù)為動(dòng)態(tài)的、開(kāi)放的,可以自動(dòng)獲取服務(wù)于機(jī)器翻譯的知識(shí)資源。
語(yǔ)塊提取是近年來(lái)語(yǔ)料庫(kù)語(yǔ)言學(xué)和機(jī)器翻譯研究領(lǐng)域的重點(diǎn)課題。濮建忠教授(2003)把語(yǔ)塊(chunks)定義為:“語(yǔ)塊(詞塊)是以詞形或詞為基本單位,由連續(xù)或非連續(xù)的兩個(gè)或多個(gè)詞形或詞組合而成的,允許抽象度高于詞的單位出現(xiàn)的,有一定使用頻率、結(jié)構(gòu)相對(duì)完整、能表達(dá)一定意義的,有心理現(xiàn)實(shí)性的語(yǔ)言形式,以整體形式儲(chǔ)存在大腦中,并可作為預(yù)制組塊供人們提取使用的多詞單位?!鄙虅?wù)信函中的語(yǔ)言大多是具有一定的言語(yǔ)程式或行話, 如: Enclosed please find… (隨函附寄……, 請(qǐng)查收), cash on delivery (貨到付款), 等。Sinclair(1991)認(rèn)為:那些出現(xiàn)頻率高的詞匯串成了英語(yǔ)中基本的語(yǔ)言單位,大約70%的英語(yǔ)語(yǔ)言由存儲(chǔ)于人體大腦的語(yǔ)言板塊構(gòu)成。確定一個(gè)多詞單位是否為語(yǔ)塊,可以從語(yǔ)塊的三個(gè)重要特征加以界定和區(qū)分,即語(yǔ)塊共現(xiàn)的頻率性、語(yǔ)塊儲(chǔ)存和提取的整體性、語(yǔ)塊可記憶的韻律性。我們?cè)谡Z(yǔ)塊理論的指導(dǎo)下,從結(jié)構(gòu)和功能上明確英漢商務(wù)信函中的語(yǔ)塊特征,從而確定提取的具體對(duì)象。商務(wù)信函語(yǔ)塊可分為4種情況:(1)多詞詞匯,如: buy cheap and sell dear, fi rm offer, 等。(2)習(xí)慣搭配, 如: …for your reference, an offer subject to…, 等。(3)慣用表達(dá)式, 如: As requested, …, Enclosed please fi nd…, 等。(4)句型框架, 如: We look forward to hearing from you…, 等。為了進(jìn)行商務(wù)信函平行語(yǔ)料庫(kù)中的語(yǔ)塊提取,我們提出了一套特有的提取方法——商務(wù)信函語(yǔ)塊提取法(如圖1所示)。
商務(wù)信函平行語(yǔ)料庫(kù)中的語(yǔ)塊提取是基于實(shí)例的商務(wù)信函機(jī)器翻譯的重要方法,為進(jìn)一步對(duì)大規(guī)模各種專業(yè)的雙語(yǔ)語(yǔ)料利用計(jì)算機(jī)自動(dòng)提取語(yǔ)塊提出思路和設(shè)想。
在商務(wù)信函機(jī)器翻譯研究的探索實(shí)踐中,我們逐漸認(rèn)識(shí)到,單純使用一種方法難以處理自然語(yǔ)言中各種復(fù)雜現(xiàn)象。所以,我們提出了在統(tǒng)計(jì)機(jī)器翻譯基礎(chǔ)上引入特定語(yǔ)法結(jié)構(gòu)的一種方法——并列結(jié)構(gòu)的英漢翻譯轉(zhuǎn)換方法?;谏虅?wù)信函平行語(yǔ)料庫(kù),通過(guò)句法分析研究并列結(jié)構(gòu)的形式化構(gòu)成,連接詞(若含)的前后管轄范圍,內(nèi)部嵌套情況以及并列結(jié)構(gòu)前后臨界搭配的情況,并制定可行句法轉(zhuǎn)換規(guī)則。
并列結(jié)構(gòu)是最普遍的一種復(fù)雜結(jié)構(gòu),它推動(dòng)了句子復(fù)雜化和簡(jiǎn)單化的雙向活動(dòng),但目前的算法對(duì)并列結(jié)構(gòu)的處理錯(cuò)誤比較嚴(yán)重。英語(yǔ)有許多復(fù)雜的句子,它們往往有許多嵌套或者不嵌套的并列結(jié)構(gòu),翻譯系統(tǒng)如果將并列的轄域和層次關(guān)系以及前后界限分析錯(cuò)誤,就會(huì)嚴(yán)重影響翻譯的結(jié)果。例如,帶有連接詞“and”的并列結(jié)構(gòu)通,過(guò)Google翻譯系統(tǒng)的測(cè)試,得到如下譯文:
原文:We all understand that Chinese slippers are very popular in your market for the superior quality and competitive price of their products and service.
譯文:大家都明白,中國(guó)拖鞋在您的市場(chǎng)很受歡迎的高品質(zhì)及他們的產(chǎn)品和服務(wù)競(jìng)爭(zhēng)力的價(jià)格。
分析:該譯句第一個(gè)and的后半部分轄域判斷過(guò)長(zhǎng),造成錯(cuò)誤。
可以看出統(tǒng)計(jì)機(jī)器翻譯對(duì)并列結(jié)構(gòu)等復(fù)雜結(jié)構(gòu)的處理并不理想。即便是在局部翻譯處理正確的情況下,結(jié)構(gòu)翻譯錯(cuò)誤往往會(huì)造成整體譯文不知所云。我們的研究方法:(1)參照北大雙語(yǔ)語(yǔ)料庫(kù)加工標(biāo)注規(guī)范,利用雙語(yǔ)對(duì)齊軟件以及人工校正達(dá)到商務(wù)信函平行語(yǔ)料庫(kù)的句子級(jí)對(duì)齊。(2)通過(guò)基于統(tǒng)計(jì)學(xué)手段尋找測(cè)試語(yǔ)料中的并列結(jié)構(gòu),確定相當(dāng)數(shù)目的測(cè)試集,并按照當(dāng)代語(yǔ)言學(xué)理論以及形式化理論對(duì)其分類。(3)將各類測(cè)試集送入Google統(tǒng)計(jì)翻譯系統(tǒng)進(jìn)行翻譯,得出譯文,分析錯(cuò)誤原因,進(jìn)行錯(cuò)誤歸類。(4)將各類測(cè)試集送入基于統(tǒng)計(jì)的句法分析系統(tǒng),分析結(jié)果,制定規(guī)則。
經(jīng)過(guò)Standard Parser(經(jīng)典統(tǒng)計(jì)句法分析器)的分析,例句的分析結(jié)果如下:
通過(guò)基于統(tǒng)計(jì)的句法分析器進(jìn)行分析,例句中的并列結(jié)構(gòu)分析完全正確。
綜上所述,平行語(yǔ)料庫(kù)在商務(wù)信函機(jī)器翻譯中的應(yīng)用研究具有多方面的意義。(1)它是國(guó)家科技支撐子課題—HNC機(jī)器翻譯引擎轉(zhuǎn)換處理研究的組成部分,為研制HNC經(jīng)貿(mào)機(jī)器翻譯系統(tǒng)創(chuàng)造必需的條件。(2)它構(gòu)建的商務(wù)信函平行語(yǔ)料庫(kù)為英漢雙語(yǔ)商務(wù)信函學(xué)習(xí)者、翻譯學(xué)習(xí)者及工作者的研究與學(xué)習(xí)起到輔助作用。(3)它構(gòu)建的商務(wù)信函平行語(yǔ)料庫(kù)中的語(yǔ)塊提取方法,為進(jìn)一步對(duì)大規(guī)模各種專業(yè)的雙語(yǔ)語(yǔ)料利用計(jì)算機(jī)自動(dòng)提取語(yǔ)塊提出思路和設(shè)想。(4)語(yǔ)塊提取與并列結(jié)構(gòu)處理為英漢統(tǒng)計(jì)機(jī)器翻譯和機(jī)器輔助翻譯的譯準(zhǔn)率提高起到重要作用。
[1]Allen,James.Natural Language Understanding[M].The Benjamin/Cummings Publishing Company, Inc.,1995.
[2]Sinclair,J.M.Corpus,concordance,collocation[M]. Oxford: Oxford University Press,1991.
[3]Wray, A. Formulaic Language and the Lexicon[M]. Cambridge:Cambridge University Press,2002.
[4]馮志偉.機(jī)器翻譯研究[M].北京:中國(guó)對(duì)外翻譯出版公司.2004.
[5]濮建忠.英語(yǔ)詞匯教學(xué)中的類聯(lián)接、搭配與詞塊[J].外語(yǔ)教學(xué)與研究, 2003,(6).
[6]張新紅,李明.商務(wù)英語(yǔ)翻譯 [M].北京:高等教育出版社.2003.