姚振軍, 鄭旭紅, 徐鵬濤, 王繼升
(1.河南大學(xué)外國(guó)語(yǔ)言文學(xué)博士后流動(dòng)站,河南開(kāi)封 475001/東北財(cái)經(jīng)大學(xué)國(guó)際商務(wù)外語(yǔ)學(xué)院,遼寧大連 116025; 2.大連外國(guó)語(yǔ)學(xué)院計(jì)算機(jī)教研部,遼寧大連 116002;3.東北財(cái)經(jīng)大學(xué)管理科學(xué)與工程學(xué)院,遼寧大連 116025)
面向《道德經(jīng)》英譯的基于短語(yǔ)的機(jī)器翻譯探析
姚振軍1, 鄭旭紅2, 徐鵬濤3, 王繼升3
(1.河南大學(xué)外國(guó)語(yǔ)言文學(xué)博士后流動(dòng)站,河南開(kāi)封 475001/東北財(cái)經(jīng)大學(xué)國(guó)際商務(wù)外語(yǔ)學(xué)院,遼寧大連 116025; 2.大連外國(guó)語(yǔ)學(xué)院計(jì)算機(jī)教研部,遼寧大連 116002;3.東北財(cái)經(jīng)大學(xué)管理科學(xué)與工程學(xué)院,遼寧大連 116025)
本文以《道德經(jīng)》現(xiàn)有英譯本為訓(xùn)練集,進(jìn)行基于短語(yǔ)的面向古漢語(yǔ)到英語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯研究。實(shí)驗(yàn)分別以字為基本分詞單位和以短語(yǔ)為基本分詞單位對(duì)同一源文本進(jìn)行處理,并對(duì)比兩次實(shí)驗(yàn)所得機(jī)器翻譯的譯文評(píng)測(cè)的BLEU值,研究發(fā)現(xiàn):在《道德經(jīng)》英譯中,基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯的具有一定優(yōu)勢(shì)。
機(jī)器翻譯;中文分詞;道德經(jīng);古漢語(yǔ);英譯
翻譯已經(jīng)成為現(xiàn)代社會(huì)中的一項(xiàng)重要的語(yǔ)言服務(wù)活動(dòng)(徐彬、郭紅梅,2012:103),而機(jī)器翻譯是當(dāng)代科學(xué)技術(shù)的十大難題之一(馮志偉,2004)。現(xiàn)代的機(jī)器翻譯研究已有半個(gè)多世紀(jì)的歷史,其間產(chǎn)生過(guò)令人振奮的成果,也有過(guò)令人沮喪的時(shí)候,但無(wú)論多么艱深,人類(lèi)對(duì)于機(jī)器翻譯的探索和渴求始終也沒(méi)有停止過(guò)。(王海峰,2011:72)
在國(guó)際上,機(jī)器翻譯已經(jīng)取得巨大的成就,設(shè)在美國(guó)俄亥俄州代頓的美國(guó)聯(lián)邦翻譯部和歐洲聯(lián)盟委員會(huì)設(shè)在盧森堡的翻譯中心每天都在用自動(dòng)的機(jī)器翻譯進(jìn)行著大規(guī)模的翻譯;成千上萬(wàn)的商業(yè)機(jī)器翻譯系統(tǒng)在日本投入使用;每天世界各地的網(wǎng)民在使用著瀏覽器上提供“翻譯此頁(yè)面”的功能。(Wilks,2008)機(jī)器翻譯應(yīng)用領(lǐng)域從天氣預(yù)報(bào)翻譯到專(zhuān)利文獻(xiàn)的機(jī)器翻譯,涉及語(yǔ)種從俄、英到“谷歌翻譯”提供的多種語(yǔ)言之間的即時(shí)機(jī)器翻譯,使用人數(shù)超過(guò)1000萬(wàn)的語(yǔ)言約有100種,而谷歌翻譯已經(jīng)實(shí)現(xiàn)了對(duì)其中58種語(yǔ)言的支持。(許磊,2011)
中文信息處理作為自然語(yǔ)言處理中的一個(gè)分支,近幾年來(lái)備受關(guān)注。(劉群,2011)機(jī)器翻譯研究是中文自然語(yǔ)言處理研究中的熱點(diǎn)和焦點(diǎn)之一,研究角度和方法不斷豐富。國(guó)內(nèi)機(jī)器翻譯研究從漢語(yǔ)與主要外語(yǔ)相互機(jī)譯擴(kuò)展到漢語(yǔ)與國(guó)內(nèi)民族語(yǔ)言的多/雙語(yǔ)語(yǔ)料庫(kù)的建設(shè)和機(jī)譯。目前己經(jīng)開(kāi)發(fā)并投入使用的翻譯系統(tǒng)和軟件通常側(cè)重于中英、中日、中俄等不同語(yǔ)種之間的互譯。
專(zhuān)門(mén)針對(duì)古代漢語(yǔ)與現(xiàn)代漢語(yǔ)之間機(jī)器互譯的研究還比較少,國(guó)內(nèi)學(xué)者在分析現(xiàn)有機(jī)器翻譯研究方法的基礎(chǔ)上,提出了一種基于實(shí)例的古今漢語(yǔ)機(jī)器翻譯系統(tǒng)并進(jìn)行了設(shè)計(jì)與實(shí)現(xiàn)(王爽等,2009),目前國(guó)內(nèi)外專(zhuān)門(mén)的面向古代漢語(yǔ)與外語(yǔ)互譯的機(jī)器翻譯的研究仍處于探索階段。
本研究以王弼本的《道德經(jīng)》為訓(xùn)練集,探索面向古漢語(yǔ)英譯的機(jī)器翻譯的研究。古漢語(yǔ)仍以現(xiàn)代人書(shū)面和口頭引用方式出現(xiàn)在自然語(yǔ)言處理的實(shí)踐中,成為影響漢英機(jī)器翻譯譯文質(zhì)量的一個(gè)側(cè)面;同時(shí),在對(duì)外文化交流和中國(guó)傳統(tǒng)文化外傳過(guò)程中,大量的古漢語(yǔ)典籍和相關(guān)研究文獻(xiàn)需要外譯,開(kāi)展面向古漢語(yǔ)的機(jī)器外譯研究可在一定程度上解決專(zhuān)門(mén)翻譯人才不足的問(wèn)題。
2.1 運(yùn)行環(huán)境及相關(guān)開(kāi)源工具
運(yùn)行環(huán)境為 Centos 6.3版的 Linux平臺(tái),在Linux平臺(tái)下利用開(kāi)源工具Niutrans構(gòu)建《道德經(jīng)》統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),該系統(tǒng)需要gcc、g++和GNU Make軟件的支持。采用Stanford漢語(yǔ)分詞工具得到漢語(yǔ)分詞,使用GIZA++進(jìn)行詞語(yǔ)對(duì)齊訓(xùn)練,采用Niutrans工具包進(jìn)行短語(yǔ)語(yǔ)法規(guī)則抽取、語(yǔ)言模型訓(xùn)練、重排序模型和生成模型的訓(xùn)練及解碼。
2.2 系統(tǒng)的整體框架
該系統(tǒng)包括數(shù)據(jù)預(yù)處理、詞對(duì)齊、短語(yǔ)規(guī)則抽取、短語(yǔ)規(guī)則打分、語(yǔ)言模型訓(xùn)練器、權(quán)重調(diào)優(yōu)和短語(yǔ)解碼器幾個(gè)模塊(銀花等,2011:92),所有這些模塊分為訓(xùn)練和解碼兩個(gè)階段。系統(tǒng)的整體框架如圖1所示:
圖1 《道德經(jīng)》英譯機(jī)器翻譯系統(tǒng)的整體框架
在訓(xùn)練階段,系統(tǒng)可以從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)得到模型和模型參數(shù),每個(gè)模塊功能如下:
數(shù)據(jù)預(yù)處理模塊:該模塊主要是完成對(duì)訓(xùn)練數(shù)據(jù)的加工處理,包括分詞、詞性標(biāo)注等。
詞對(duì)齊模塊:該模塊可以為雙語(yǔ)平行數(shù)據(jù)中的每一句對(duì)得到詞對(duì)齊之后的結(jié)果,使得源語(yǔ)言詞匯和目標(biāo)語(yǔ)言詞匯對(duì)應(yīng)起來(lái)。
短語(yǔ)規(guī)則抽取模塊:該模塊用于從包含詞對(duì)齊信息的雙語(yǔ)平行語(yǔ)料中抽取出短語(yǔ)翻譯規(guī)則。
短語(yǔ)規(guī)則打分模塊:該模塊用于對(duì)所抽取得到的規(guī)則進(jìn)行概率估計(jì)和打分。
語(yǔ)言模型訓(xùn)練器模塊:該模塊用于從目標(biāo)語(yǔ)言的單語(yǔ)語(yǔ)料中學(xué)習(xí)從而得到語(yǔ)言模型。
權(quán)重調(diào)優(yōu)模塊:該模塊用于在數(shù)據(jù)集上對(duì)翻譯模型特征權(quán)重向量進(jìn)行調(diào)優(yōu)。
解碼階段所包含的模塊功能如下:
解碼器模塊:該模塊主要功能是找出所有存在于搜索空間中的最佳目標(biāo)語(yǔ)言譯文,即完成測(cè)試數(shù)據(jù)的翻譯,得到目標(biāo)語(yǔ)言譯文。
2.3 系統(tǒng)翻譯過(guò)程流程
利用系統(tǒng)翻譯得到目標(biāo)語(yǔ)的過(guò)程主要包括:數(shù)據(jù)準(zhǔn)備、訓(xùn)練翻譯模型、訓(xùn)練N元語(yǔ)言模型、配置文件、權(quán)重調(diào)優(yōu)、解碼翻譯和評(píng)價(jià)幾個(gè)階段。具體流程如圖2所示:
圖2 《道德經(jīng)》英譯機(jī)器翻譯系統(tǒng)過(guò)程流程
在翻譯過(guò)程中,主要工作是為系統(tǒng)提供訓(xùn)練和測(cè)試所需數(shù)據(jù),包括目標(biāo)語(yǔ)(英語(yǔ))句子集、源語(yǔ)(漢語(yǔ))句子集以及雙語(yǔ)對(duì)齊的文件,此外還有測(cè)試數(shù)據(jù)和參考譯文,然后調(diào)用系統(tǒng)的工具包進(jìn)行訓(xùn)練翻譯模型、權(quán)重調(diào)優(yōu)、解碼和評(píng)價(jià)等過(guò)程。
3.1 訓(xùn)練和測(cè)試數(shù)據(jù)
源語(yǔ)句子集:在對(duì)平行語(yǔ)料進(jìn)行對(duì)齊之前,首先需要進(jìn)行中文分詞,系統(tǒng)中使用Stanford NLP自然語(yǔ)言處理小組開(kāi)發(fā)的中文分詞開(kāi)源工具對(duì)文檔進(jìn)行處理,分詞后的文件保持原文件名,同時(shí)產(chǎn)生原文件的備份文件。
目標(biāo)語(yǔ)句子集:對(duì)于平行語(yǔ)料中的目標(biāo)語(yǔ)句子集進(jìn)行英文分詞。
詞對(duì)齊文件:為了獲得該文件,主要是利用GIZA++進(jìn)行漢語(yǔ)到英語(yǔ)、英語(yǔ)到漢語(yǔ)兩個(gè)方向的訓(xùn)練,再對(duì)兩個(gè)方向的對(duì)齊結(jié)果進(jìn)行優(yōu)化,GIZA++實(shí)現(xiàn)了IBM統(tǒng)計(jì)翻譯模型。
測(cè)試數(shù)據(jù):在該系統(tǒng)中,所使用的測(cè)試數(shù)據(jù)為《道德經(jīng)》古漢語(yǔ)的分詞結(jié)果。
參考譯文:在該系統(tǒng)中,所使用的參考文件為林語(yǔ)堂的《道德經(jīng)》英文譯本。
3.2 訓(xùn)練《道德經(jīng)》的翻譯模型和N元語(yǔ)言模型
訓(xùn)練翻譯模型:將分詞后的雙語(yǔ)語(yǔ)料進(jìn)行短語(yǔ)抽取和調(diào)序,得到短語(yǔ)翻譯模型以及ME和MSD調(diào)序模型。
N元語(yǔ)言模型:本次實(shí)驗(yàn)采用了3元文法語(yǔ)言建模。
3.3 權(quán)重調(diào)優(yōu)
利用開(kāi)發(fā)集和之前得到的配置文件進(jìn)行權(quán)重調(diào)優(yōu),并將結(jié)果重新記錄入配置文件。至此,基于短語(yǔ)的《道德經(jīng)》機(jī)器翻譯系統(tǒng)構(gòu)建完畢。
3.4 評(píng)測(cè)
解碼:利用配置文件對(duì)測(cè)試數(shù)據(jù)進(jìn)行解碼操作,即完成對(duì)《道德經(jīng)》測(cè)試數(shù)據(jù)的翻譯。
評(píng)價(jià):得到雙語(yǔ)評(píng)測(cè)的指標(biāo)BLEU值,比較翻譯結(jié)果的準(zhǔn)確性。
4.1 實(shí)驗(yàn)數(shù)據(jù)
翻譯模型的訓(xùn)練實(shí)驗(yàn)分兩次進(jìn)行。鑒于先秦時(shí)期的古漢語(yǔ)基本上是以單字詞為基本詞匯單位,實(shí)驗(yàn)1是將測(cè)試語(yǔ)料按字切分來(lái)進(jìn)行《道德經(jīng)》的翻譯。實(shí)驗(yàn)2是將測(cè)試語(yǔ)料按分詞切分(基于短語(yǔ))進(jìn)行《道德經(jīng)》的翻譯。訓(xùn)練數(shù)據(jù)采用《道德經(jīng)》的道經(jīng)部分的古文和林語(yǔ)堂翻譯的《道德經(jīng)》英文構(gòu)建的英漢平行語(yǔ)料??紤]到《道德經(jīng)》有道經(jīng)和德經(jīng)之分,本次實(shí)驗(yàn)主要采用道經(jīng)的雙語(yǔ)平行語(yǔ)料??紤]到古文的特點(diǎn),翻譯系統(tǒng)的輸入輸出文本文件采用UTF-8標(biāo)準(zhǔn)編碼方式。為了評(píng)測(cè)《道德經(jīng)》統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),采用IBM公司提出的BLEU評(píng)測(cè)方法對(duì)系統(tǒng)進(jìn)行評(píng)價(jià)。評(píng)價(jià)結(jié)果的BLEU值越高,翻譯效果越好。
4.2 實(shí)驗(yàn)結(jié)果
1)實(shí)驗(yàn)1,以分字結(jié)果為測(cè)試語(yǔ)料進(jìn)行的《道德經(jīng)》的翻譯(見(jiàn)圖3):
圖3 將測(cè)試語(yǔ)料分字進(jìn)行《道德經(jīng)》翻譯測(cè)得BLEU值
2)實(shí)驗(yàn)2,以短語(yǔ)分詞結(jié)果為測(cè)試語(yǔ)料進(jìn)行的《道德經(jīng)》的翻譯(見(jiàn)圖4):
圖4 將測(cè)試語(yǔ)料短語(yǔ)分詞進(jìn)行《道德經(jīng)》翻譯測(cè)得BLEU值
4.3 實(shí)驗(yàn)結(jié)果分析
從BLEU值來(lái)看,以短語(yǔ)分詞結(jié)果為測(cè)試語(yǔ)料的《道德經(jīng)》的翻譯結(jié)果明顯比以分字結(jié)果為測(cè)試語(yǔ)料的《道德經(jīng)》的翻譯結(jié)果要好。由此可見(jiàn),在相同規(guī)模的平行語(yǔ)料的前提下,分詞結(jié)果對(duì)基于短語(yǔ)的機(jī)器翻譯系統(tǒng)有一定的影響。而在構(gòu)建機(jī)器翻譯模型中,雙語(yǔ)語(yǔ)料的構(gòu)建、權(quán)重調(diào)優(yōu)的開(kāi)發(fā)集數(shù)據(jù)和作為參考標(biāo)準(zhǔn)的參考譯文也都與切詞密切相關(guān),因此,更準(zhǔn)確的古文切詞將會(huì)大幅提高《道德經(jīng)》機(jī)器翻譯結(jié)果的準(zhǔn)確率。
本文是面向漢語(yǔ)(古籍)英譯的機(jī)器翻譯研究的初步探索,對(duì)于古漢語(yǔ)的詞匯和語(yǔ)法的分析還有待于進(jìn)一步深入研究,在語(yǔ)料訓(xùn)練和機(jī)器翻譯技術(shù)等方面尚有較大的提升空間。
[1]Wilks,Y.Machine Translation:Its Scope and Limits[M].Berlin:Springer,2008.
[2]馮志偉.機(jī)器翻譯研究[M].中國(guó)對(duì)外出版公司,2004.
[3]劉群.基于句法的統(tǒng)計(jì)機(jī)器翻譯模型與方法[J].中文信息學(xué)報(bào),2011,(6):63-71.
[4]王海峰.互聯(lián)網(wǎng)機(jī)器翻譯[J].中文信息學(xué)報(bào),2011,(12):72-80.
[5]王爽,熊德蘭,王曉霞.基于實(shí)例的古文機(jī)器翻譯設(shè)計(jì)與實(shí)現(xiàn)[J].許昌學(xué)院學(xué)報(bào),2009,(5):88-91.
[6]徐彬,郭紅梅.計(jì)算機(jī)輔助翻譯環(huán)境下的質(zhì)量控制[J].山東外語(yǔ)教學(xué),2012,(5):103-108.
[7]許磊.谷歌翻譯憑啥跨越語(yǔ)言障礙[N].計(jì)算機(jī)世界,2011-03-28:016.
[8]銀花,王斯日古楞,艷紅.基于短語(yǔ)的蒙漢統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].內(nèi)蒙古師范大學(xué)學(xué)報(bào)(自然科學(xué)漢文版),2011,(1):91 -94.
An Exploration of Phrase-based SMT for English Translation of Tao Te Ching
YAO Zhen-jun1,ZHENG Xu-hong2,XU Peng-tao3,WANG Ji-sheng3
(1.Mobile Station for Post-doctoral Research of Foreign Language&Literature of Henan University,Kaifen 475001,China/ SIBC of Dongbei University of Finance,Dalian 116025,China;2.Computer Department of DUFL,Dalian 116002,China; 3.SMSE of Dongbei University of Finance,Dalian 116025,China)
With the existing English versions of Tao Te Ching as training sets,this research aims at exploring phrase-based SMT.By comparing the BLEU results of two experiments of word-for-word segmentation and phrasebased segmentation in the same source text,we find phrase-based SMT works better in English translation of Tao Te Ching.
machine translation;Chinese word segmentation;Tao Te Ching;old Chinese,English translation
TP391.2
A
1002-2643(2013)03-0109-04
2013-01-19
姚振軍(1972-),男,黑龍江肇東人,博士后在站,副教授。研究方向:翻譯學(xué)與計(jì)算機(jī)應(yīng)用技術(shù)。
鄭旭紅(1965-),女,四川眉山人,副教授。研究方向:計(jì)算機(jī)應(yīng)用技術(shù)。
徐鵬濤(1986-),男,山東煙臺(tái)人,研究生。研究方向:計(jì)算機(jī)應(yīng)用技術(shù)與電子商務(wù)。
王繼升(1988-),男,遼寧朝陽(yáng)人,研究生。研究方向:計(jì)算機(jī)應(yīng)用技術(shù)與電子商務(wù)。