亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向《道德經(jīng)》英譯的基于短語(yǔ)的機(jī)器翻譯探析

        2013-06-01 12:29:56姚振軍鄭旭紅徐鵬濤王繼升
        山東外語(yǔ)教學(xué) 2013年3期
        關(guān)鍵詞:古漢語(yǔ)道德經(jīng)分詞

        姚振軍, 鄭旭紅, 徐鵬濤, 王繼升

        (1.河南大學(xué)外國(guó)語(yǔ)言文學(xué)博士后流動(dòng)站,河南開(kāi)封 475001/東北財(cái)經(jīng)大學(xué)國(guó)際商務(wù)外語(yǔ)學(xué)院,遼寧大連 116025; 2.大連外國(guó)語(yǔ)學(xué)院計(jì)算機(jī)教研部,遼寧大連 116002;3.東北財(cái)經(jīng)大學(xué)管理科學(xué)與工程學(xué)院,遼寧大連 116025)

        面向《道德經(jīng)》英譯的基于短語(yǔ)的機(jī)器翻譯探析

        姚振軍1, 鄭旭紅2, 徐鵬濤3, 王繼升3

        (1.河南大學(xué)外國(guó)語(yǔ)言文學(xué)博士后流動(dòng)站,河南開(kāi)封 475001/東北財(cái)經(jīng)大學(xué)國(guó)際商務(wù)外語(yǔ)學(xué)院,遼寧大連 116025; 2.大連外國(guó)語(yǔ)學(xué)院計(jì)算機(jī)教研部,遼寧大連 116002;3.東北財(cái)經(jīng)大學(xué)管理科學(xué)與工程學(xué)院,遼寧大連 116025)

        本文以《道德經(jīng)》現(xiàn)有英譯本為訓(xùn)練集,進(jìn)行基于短語(yǔ)的面向古漢語(yǔ)到英語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯研究。實(shí)驗(yàn)分別以字為基本分詞單位和以短語(yǔ)為基本分詞單位對(duì)同一源文本進(jìn)行處理,并對(duì)比兩次實(shí)驗(yàn)所得機(jī)器翻譯的譯文評(píng)測(cè)的BLEU值,研究發(fā)現(xiàn):在《道德經(jīng)》英譯中,基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯的具有一定優(yōu)勢(shì)。

        機(jī)器翻譯;中文分詞;道德經(jīng);古漢語(yǔ);英譯

        1.0 引言

        翻譯已經(jīng)成為現(xiàn)代社會(huì)中的一項(xiàng)重要的語(yǔ)言服務(wù)活動(dòng)(徐彬、郭紅梅,2012:103),而機(jī)器翻譯是當(dāng)代科學(xué)技術(shù)的十大難題之一(馮志偉,2004)。現(xiàn)代的機(jī)器翻譯研究已有半個(gè)多世紀(jì)的歷史,其間產(chǎn)生過(guò)令人振奮的成果,也有過(guò)令人沮喪的時(shí)候,但無(wú)論多么艱深,人類(lèi)對(duì)于機(jī)器翻譯的探索和渴求始終也沒(méi)有停止過(guò)。(王海峰,2011:72)

        在國(guó)際上,機(jī)器翻譯已經(jīng)取得巨大的成就,設(shè)在美國(guó)俄亥俄州代頓的美國(guó)聯(lián)邦翻譯部和歐洲聯(lián)盟委員會(huì)設(shè)在盧森堡的翻譯中心每天都在用自動(dòng)的機(jī)器翻譯進(jìn)行著大規(guī)模的翻譯;成千上萬(wàn)的商業(yè)機(jī)器翻譯系統(tǒng)在日本投入使用;每天世界各地的網(wǎng)民在使用著瀏覽器上提供“翻譯此頁(yè)面”的功能。(Wilks,2008)機(jī)器翻譯應(yīng)用領(lǐng)域從天氣預(yù)報(bào)翻譯到專(zhuān)利文獻(xiàn)的機(jī)器翻譯,涉及語(yǔ)種從俄、英到“谷歌翻譯”提供的多種語(yǔ)言之間的即時(shí)機(jī)器翻譯,使用人數(shù)超過(guò)1000萬(wàn)的語(yǔ)言約有100種,而谷歌翻譯已經(jīng)實(shí)現(xiàn)了對(duì)其中58種語(yǔ)言的支持。(許磊,2011)

        中文信息處理作為自然語(yǔ)言處理中的一個(gè)分支,近幾年來(lái)備受關(guān)注。(劉群,2011)機(jī)器翻譯研究是中文自然語(yǔ)言處理研究中的熱點(diǎn)和焦點(diǎn)之一,研究角度和方法不斷豐富。國(guó)內(nèi)機(jī)器翻譯研究從漢語(yǔ)與主要外語(yǔ)相互機(jī)譯擴(kuò)展到漢語(yǔ)與國(guó)內(nèi)民族語(yǔ)言的多/雙語(yǔ)語(yǔ)料庫(kù)的建設(shè)和機(jī)譯。目前己經(jīng)開(kāi)發(fā)并投入使用的翻譯系統(tǒng)和軟件通常側(cè)重于中英、中日、中俄等不同語(yǔ)種之間的互譯。

        專(zhuān)門(mén)針對(duì)古代漢語(yǔ)與現(xiàn)代漢語(yǔ)之間機(jī)器互譯的研究還比較少,國(guó)內(nèi)學(xué)者在分析現(xiàn)有機(jī)器翻譯研究方法的基礎(chǔ)上,提出了一種基于實(shí)例的古今漢語(yǔ)機(jī)器翻譯系統(tǒng)并進(jìn)行了設(shè)計(jì)與實(shí)現(xiàn)(王爽等,2009),目前國(guó)內(nèi)外專(zhuān)門(mén)的面向古代漢語(yǔ)與外語(yǔ)互譯的機(jī)器翻譯的研究仍處于探索階段。

        本研究以王弼本的《道德經(jīng)》為訓(xùn)練集,探索面向古漢語(yǔ)英譯的機(jī)器翻譯的研究。古漢語(yǔ)仍以現(xiàn)代人書(shū)面和口頭引用方式出現(xiàn)在自然語(yǔ)言處理的實(shí)踐中,成為影響漢英機(jī)器翻譯譯文質(zhì)量的一個(gè)側(cè)面;同時(shí),在對(duì)外文化交流和中國(guó)傳統(tǒng)文化外傳過(guò)程中,大量的古漢語(yǔ)典籍和相關(guān)研究文獻(xiàn)需要外譯,開(kāi)展面向古漢語(yǔ)的機(jī)器外譯研究可在一定程度上解決專(zhuān)門(mén)翻譯人才不足的問(wèn)題。

        2.0 基于短語(yǔ)的《道德經(jīng)》統(tǒng)計(jì)機(jī)器翻譯

        2.1 運(yùn)行環(huán)境及相關(guān)開(kāi)源工具

        運(yùn)行環(huán)境為 Centos 6.3版的 Linux平臺(tái),在Linux平臺(tái)下利用開(kāi)源工具Niutrans構(gòu)建《道德經(jīng)》統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),該系統(tǒng)需要gcc、g++和GNU Make軟件的支持。采用Stanford漢語(yǔ)分詞工具得到漢語(yǔ)分詞,使用GIZA++進(jìn)行詞語(yǔ)對(duì)齊訓(xùn)練,采用Niutrans工具包進(jìn)行短語(yǔ)語(yǔ)法規(guī)則抽取、語(yǔ)言模型訓(xùn)練、重排序模型和生成模型的訓(xùn)練及解碼。

        2.2 系統(tǒng)的整體框架

        該系統(tǒng)包括數(shù)據(jù)預(yù)處理、詞對(duì)齊、短語(yǔ)規(guī)則抽取、短語(yǔ)規(guī)則打分、語(yǔ)言模型訓(xùn)練器、權(quán)重調(diào)優(yōu)和短語(yǔ)解碼器幾個(gè)模塊(銀花等,2011:92),所有這些模塊分為訓(xùn)練和解碼兩個(gè)階段。系統(tǒng)的整體框架如圖1所示:

        圖1 《道德經(jīng)》英譯機(jī)器翻譯系統(tǒng)的整體框架

        在訓(xùn)練階段,系統(tǒng)可以從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)得到模型和模型參數(shù),每個(gè)模塊功能如下:

        數(shù)據(jù)預(yù)處理模塊:該模塊主要是完成對(duì)訓(xùn)練數(shù)據(jù)的加工處理,包括分詞、詞性標(biāo)注等。

        詞對(duì)齊模塊:該模塊可以為雙語(yǔ)平行數(shù)據(jù)中的每一句對(duì)得到詞對(duì)齊之后的結(jié)果,使得源語(yǔ)言詞匯和目標(biāo)語(yǔ)言詞匯對(duì)應(yīng)起來(lái)。

        短語(yǔ)規(guī)則抽取模塊:該模塊用于從包含詞對(duì)齊信息的雙語(yǔ)平行語(yǔ)料中抽取出短語(yǔ)翻譯規(guī)則。

        短語(yǔ)規(guī)則打分模塊:該模塊用于對(duì)所抽取得到的規(guī)則進(jìn)行概率估計(jì)和打分。

        語(yǔ)言模型訓(xùn)練器模塊:該模塊用于從目標(biāo)語(yǔ)言的單語(yǔ)語(yǔ)料中學(xué)習(xí)從而得到語(yǔ)言模型。

        權(quán)重調(diào)優(yōu)模塊:該模塊用于在數(shù)據(jù)集上對(duì)翻譯模型特征權(quán)重向量進(jìn)行調(diào)優(yōu)。

        解碼階段所包含的模塊功能如下:

        解碼器模塊:該模塊主要功能是找出所有存在于搜索空間中的最佳目標(biāo)語(yǔ)言譯文,即完成測(cè)試數(shù)據(jù)的翻譯,得到目標(biāo)語(yǔ)言譯文。

        2.3 系統(tǒng)翻譯過(guò)程流程

        利用系統(tǒng)翻譯得到目標(biāo)語(yǔ)的過(guò)程主要包括:數(shù)據(jù)準(zhǔn)備、訓(xùn)練翻譯模型、訓(xùn)練N元語(yǔ)言模型、配置文件、權(quán)重調(diào)優(yōu)、解碼翻譯和評(píng)價(jià)幾個(gè)階段。具體流程如圖2所示:

        圖2 《道德經(jīng)》英譯機(jī)器翻譯系統(tǒng)過(guò)程流程

        3.0 實(shí)驗(yàn)環(huán)節(jié)

        在翻譯過(guò)程中,主要工作是為系統(tǒng)提供訓(xùn)練和測(cè)試所需數(shù)據(jù),包括目標(biāo)語(yǔ)(英語(yǔ))句子集、源語(yǔ)(漢語(yǔ))句子集以及雙語(yǔ)對(duì)齊的文件,此外還有測(cè)試數(shù)據(jù)和參考譯文,然后調(diào)用系統(tǒng)的工具包進(jìn)行訓(xùn)練翻譯模型、權(quán)重調(diào)優(yōu)、解碼和評(píng)價(jià)等過(guò)程。

        3.1 訓(xùn)練和測(cè)試數(shù)據(jù)

        源語(yǔ)句子集:在對(duì)平行語(yǔ)料進(jìn)行對(duì)齊之前,首先需要進(jìn)行中文分詞,系統(tǒng)中使用Stanford NLP自然語(yǔ)言處理小組開(kāi)發(fā)的中文分詞開(kāi)源工具對(duì)文檔進(jìn)行處理,分詞后的文件保持原文件名,同時(shí)產(chǎn)生原文件的備份文件。

        目標(biāo)語(yǔ)句子集:對(duì)于平行語(yǔ)料中的目標(biāo)語(yǔ)句子集進(jìn)行英文分詞。

        詞對(duì)齊文件:為了獲得該文件,主要是利用GIZA++進(jìn)行漢語(yǔ)到英語(yǔ)、英語(yǔ)到漢語(yǔ)兩個(gè)方向的訓(xùn)練,再對(duì)兩個(gè)方向的對(duì)齊結(jié)果進(jìn)行優(yōu)化,GIZA++實(shí)現(xiàn)了IBM統(tǒng)計(jì)翻譯模型。

        測(cè)試數(shù)據(jù):在該系統(tǒng)中,所使用的測(cè)試數(shù)據(jù)為《道德經(jīng)》古漢語(yǔ)的分詞結(jié)果。

        參考譯文:在該系統(tǒng)中,所使用的參考文件為林語(yǔ)堂的《道德經(jīng)》英文譯本。

        3.2 訓(xùn)練《道德經(jīng)》的翻譯模型和N元語(yǔ)言模型

        訓(xùn)練翻譯模型:將分詞后的雙語(yǔ)語(yǔ)料進(jìn)行短語(yǔ)抽取和調(diào)序,得到短語(yǔ)翻譯模型以及ME和MSD調(diào)序模型。

        N元語(yǔ)言模型:本次實(shí)驗(yàn)采用了3元文法語(yǔ)言建模。

        3.3 權(quán)重調(diào)優(yōu)

        利用開(kāi)發(fā)集和之前得到的配置文件進(jìn)行權(quán)重調(diào)優(yōu),并將結(jié)果重新記錄入配置文件。至此,基于短語(yǔ)的《道德經(jīng)》機(jī)器翻譯系統(tǒng)構(gòu)建完畢。

        3.4 評(píng)測(cè)

        解碼:利用配置文件對(duì)測(cè)試數(shù)據(jù)進(jìn)行解碼操作,即完成對(duì)《道德經(jīng)》測(cè)試數(shù)據(jù)的翻譯。

        評(píng)價(jià):得到雙語(yǔ)評(píng)測(cè)的指標(biāo)BLEU值,比較翻譯結(jié)果的準(zhǔn)確性。

        4.0 實(shí)驗(yàn)結(jié)果及分析

        4.1 實(shí)驗(yàn)數(shù)據(jù)

        翻譯模型的訓(xùn)練實(shí)驗(yàn)分兩次進(jìn)行。鑒于先秦時(shí)期的古漢語(yǔ)基本上是以單字詞為基本詞匯單位,實(shí)驗(yàn)1是將測(cè)試語(yǔ)料按字切分來(lái)進(jìn)行《道德經(jīng)》的翻譯。實(shí)驗(yàn)2是將測(cè)試語(yǔ)料按分詞切分(基于短語(yǔ))進(jìn)行《道德經(jīng)》的翻譯。訓(xùn)練數(shù)據(jù)采用《道德經(jīng)》的道經(jīng)部分的古文和林語(yǔ)堂翻譯的《道德經(jīng)》英文構(gòu)建的英漢平行語(yǔ)料??紤]到《道德經(jīng)》有道經(jīng)和德經(jīng)之分,本次實(shí)驗(yàn)主要采用道經(jīng)的雙語(yǔ)平行語(yǔ)料??紤]到古文的特點(diǎn),翻譯系統(tǒng)的輸入輸出文本文件采用UTF-8標(biāo)準(zhǔn)編碼方式。為了評(píng)測(cè)《道德經(jīng)》統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),采用IBM公司提出的BLEU評(píng)測(cè)方法對(duì)系統(tǒng)進(jìn)行評(píng)價(jià)。評(píng)價(jià)結(jié)果的BLEU值越高,翻譯效果越好。

        4.2 實(shí)驗(yàn)結(jié)果

        1)實(shí)驗(yàn)1,以分字結(jié)果為測(cè)試語(yǔ)料進(jìn)行的《道德經(jīng)》的翻譯(見(jiàn)圖3):

        圖3 將測(cè)試語(yǔ)料分字進(jìn)行《道德經(jīng)》翻譯測(cè)得BLEU值

        2)實(shí)驗(yàn)2,以短語(yǔ)分詞結(jié)果為測(cè)試語(yǔ)料進(jìn)行的《道德經(jīng)》的翻譯(見(jiàn)圖4):

        圖4 將測(cè)試語(yǔ)料短語(yǔ)分詞進(jìn)行《道德經(jīng)》翻譯測(cè)得BLEU值

        4.3 實(shí)驗(yàn)結(jié)果分析

        從BLEU值來(lái)看,以短語(yǔ)分詞結(jié)果為測(cè)試語(yǔ)料的《道德經(jīng)》的翻譯結(jié)果明顯比以分字結(jié)果為測(cè)試語(yǔ)料的《道德經(jīng)》的翻譯結(jié)果要好。由此可見(jiàn),在相同規(guī)模的平行語(yǔ)料的前提下,分詞結(jié)果對(duì)基于短語(yǔ)的機(jī)器翻譯系統(tǒng)有一定的影響。而在構(gòu)建機(jī)器翻譯模型中,雙語(yǔ)語(yǔ)料的構(gòu)建、權(quán)重調(diào)優(yōu)的開(kāi)發(fā)集數(shù)據(jù)和作為參考標(biāo)準(zhǔn)的參考譯文也都與切詞密切相關(guān),因此,更準(zhǔn)確的古文切詞將會(huì)大幅提高《道德經(jīng)》機(jī)器翻譯結(jié)果的準(zhǔn)確率。

        5.0 結(jié)語(yǔ)

        本文是面向漢語(yǔ)(古籍)英譯的機(jī)器翻譯研究的初步探索,對(duì)于古漢語(yǔ)的詞匯和語(yǔ)法的分析還有待于進(jìn)一步深入研究,在語(yǔ)料訓(xùn)練和機(jī)器翻譯技術(shù)等方面尚有較大的提升空間。

        [1]Wilks,Y.Machine Translation:Its Scope and Limits[M].Berlin:Springer,2008.

        [2]馮志偉.機(jī)器翻譯研究[M].中國(guó)對(duì)外出版公司,2004.

        [3]劉群.基于句法的統(tǒng)計(jì)機(jī)器翻譯模型與方法[J].中文信息學(xué)報(bào),2011,(6):63-71.

        [4]王海峰.互聯(lián)網(wǎng)機(jī)器翻譯[J].中文信息學(xué)報(bào),2011,(12):72-80.

        [5]王爽,熊德蘭,王曉霞.基于實(shí)例的古文機(jī)器翻譯設(shè)計(jì)與實(shí)現(xiàn)[J].許昌學(xué)院學(xué)報(bào),2009,(5):88-91.

        [6]徐彬,郭紅梅.計(jì)算機(jī)輔助翻譯環(huán)境下的質(zhì)量控制[J].山東外語(yǔ)教學(xué),2012,(5):103-108.

        [7]許磊.谷歌翻譯憑啥跨越語(yǔ)言障礙[N].計(jì)算機(jī)世界,2011-03-28:016.

        [8]銀花,王斯日古楞,艷紅.基于短語(yǔ)的蒙漢統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].內(nèi)蒙古師范大學(xué)學(xué)報(bào)(自然科學(xué)漢文版),2011,(1):91 -94.

        An Exploration of Phrase-based SMT for English Translation of Tao Te Ching

        YAO Zhen-jun1,ZHENG Xu-hong2,XU Peng-tao3,WANG Ji-sheng3
        (1.Mobile Station for Post-doctoral Research of Foreign Language&Literature of Henan University,Kaifen 475001,China/ SIBC of Dongbei University of Finance,Dalian 116025,China;2.Computer Department of DUFL,Dalian 116002,China; 3.SMSE of Dongbei University of Finance,Dalian 116025,China)

        With the existing English versions of Tao Te Ching as training sets,this research aims at exploring phrase-based SMT.By comparing the BLEU results of two experiments of word-for-word segmentation and phrasebased segmentation in the same source text,we find phrase-based SMT works better in English translation of Tao Te Ching.

        machine translation;Chinese word segmentation;Tao Te Ching;old Chinese,English translation

        TP391.2

        A

        1002-2643(2013)03-0109-04

        2013-01-19

        姚振軍(1972-),男,黑龍江肇東人,博士后在站,副教授。研究方向:翻譯學(xué)與計(jì)算機(jī)應(yīng)用技術(shù)。

        鄭旭紅(1965-),女,四川眉山人,副教授。研究方向:計(jì)算機(jī)應(yīng)用技術(shù)。

        徐鵬濤(1986-),男,山東煙臺(tái)人,研究生。研究方向:計(jì)算機(jī)應(yīng)用技術(shù)與電子商務(wù)。

        王繼升(1988-),男,遼寧朝陽(yáng)人,研究生。研究方向:計(jì)算機(jī)應(yīng)用技術(shù)與電子商務(wù)。

        猜你喜歡
        古漢語(yǔ)道德經(jīng)分詞
        What Does ChatGPT Say:The DAO from Algorithmic Intelligence to Linguistic Intelligence
        古漢語(yǔ)疑問(wèn)句末“為”字補(bǔ)證
        《道德經(jīng)》的“中和”思想探究
        結(jié)巴分詞在詞云中的應(yīng)用
        上古漢語(yǔ)“施”字音義考
        值得重視的分詞的特殊用法
        《道德經(jīng)》“雞犬之聲相聞”與《桃花源記》“雞犬相聞”
        談?wù)劰艥h語(yǔ)的翻譯
        古漢語(yǔ)中表反問(wèn)的一組能愿動(dòng)詞
        高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
        本道天堂成在人线av无码免费| 欧美末成年videos在线观看| 丰满多毛少妇做爰视频| 国产精品第1页在线观看| 精品久久亚洲一级α| 国产91熟女高潮一曲区| 精品女厕偷拍视频一区二区区| 日本高清乱码中文字幕| 色欲网天天无码av| 成熟丰满熟妇高潮xxxxx| 精品囯产成人国产在线观看| 中文字幕精品亚洲无线码二区 | 日本在线观看三级视频| 变态另类手机版av天堂看网| 国内精品久久久久久久97牛牛| 国产精品v欧美精品v日韩精品| 人人妻人人澡人人爽精品欧美| 在线av野外国语对白| 亚洲中文字幕诱惑第一页| 国产av天堂一区二区二区| 精品亚洲成av人在线观看| 免费网站看v片在线18禁无码| 国产精品va在线播放我和闺蜜| 国产av日韩a∨亚洲av电影 | 99偷拍视频精品一区二区| 精品亚洲日韩国产一二三区亚洲| 亚洲在战AV极品无码| 久久偷拍国内亚洲青青草| 日韩少妇人妻精品中文字幕| 极品老师腿张开粉嫩小泬| 55夜色66夜色国产精品视频| 在线免费观看国产精品| 亚洲黄片久久| av免费不卡一区二区| 久久久无码精品亚洲日韩蜜臀浪潮 | 亚洲av本道一本二本三区| 精品国产一区二区三区色搞| 国产人妻久久精品二区三区老狼| 精品国精品国产自在久国产应用| 亚洲人成18禁网站| 不卡视频在线观看网站|