亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        漢語-維吾爾語機(jī)器翻譯解碼器研究

        2011-10-15 08:15:46張亞軍
        昌吉學(xué)院學(xué)報(bào) 2011年3期
        關(guān)鍵詞:漢維目標(biāo)語言解碼器

        張亞軍

        (昌吉學(xué)院計(jì)算機(jī)工程系 新疆 昌吉 831100)

        1 引言

        隨著現(xiàn)代計(jì)算機(jī)科學(xué)技術(shù)的快速發(fā)展,人類渴望利用機(jī)器翻譯而達(dá)到突破語言障礙的愿望已經(jīng)初步實(shí)現(xiàn)了。在機(jī)器翻譯的發(fā)展過程中,由于語料庫的研究的興起,尤其是對(duì)雙語語料庫(或稱平行語料庫)的研究,使得基于短語的統(tǒng)計(jì)機(jī)器翻譯(statistical machine translation以下簡稱SMT)[1][2][3]得到越來越多專家的重視和研究。SMT以平行語料庫(parallel corpora)為主要知識(shí)源,基于統(tǒng)計(jì)的方法來實(shí)現(xiàn)機(jī)器翻譯過程。當(dāng)輸入待翻譯的句子S后,主要處理順序如下:對(duì)S分詞,切分短語,短語對(duì)齊(即在平行語料庫搜索相應(yīng)語料),進(jìn)行比較、適當(dāng)取舍、調(diào)整排序,選取與S最接近的目標(biāo)句子T。

        快速準(zhǔn)確地構(gòu)建基于短語統(tǒng)計(jì)的漢語—維吾爾語機(jī)器翻譯系統(tǒng)是目前領(lǐng)域內(nèi)研究的主要方向,其中漢維解碼器的研究工作已經(jīng)成為構(gòu)建機(jī)器翻譯系統(tǒng)解決的首要問題。統(tǒng)計(jì)機(jī)器翻譯最初采用的是基于詞的逐詞翻譯方法[4],該方法對(duì)多個(gè)詞語之間上下文關(guān)系反映較差。后來研究基于短語的方法,該方法將源句子切分為多個(gè)短語并進(jìn)行短語間的相互翻譯。本文主要研究漢維解碼器的算法設(shè)計(jì)。

        2 特征選取

        信源信道模型是統(tǒng)計(jì)機(jī)器翻譯研究中最初采用的主要模型之一,它是一種生成模型。語言模型和翻譯模型的好壞對(duì)模型翻譯質(zhì)量的高低具有決定性的作用。經(jīng)過不斷地改進(jìn)發(fā)展,逐漸演變?yōu)閷?duì)數(shù)線性模型。對(duì)數(shù)線性模型與信源信道模型不同之處在于:對(duì)數(shù)線性模型屬于判別模型,它比信道信源模型更具有一般性,信源信道模型可以作為對(duì)數(shù)線性模型的一個(gè)特例。在對(duì)數(shù)線性模型方法中,特征模型可以方便的加載到模型中來。

        假設(shè)u、c是機(jī)器翻譯的目標(biāo)語言和源語言句子,h1(u,c), …, hM(u,c)分別是u和c上的M個(gè)特征,λ1, …,λM是與這些特征分別對(duì)應(yīng)的M個(gè)參數(shù)(特征權(quán)重因子),那么直接翻譯概率可以用以下公式模擬:

        P(u|c)≈Pλ1…λm(u|c)

        其中假設(shè)Z(c)是一個(gè)標(biāo)準(zhǔn)常量, 此時(shí)翻譯過程轉(zhuǎn)換如下:

        翻譯譯文由解碼算法通過搜索具有各個(gè)特征模型的最大加權(quán)評(píng)分值的目標(biāo)語言句子而最終得出。性能較高的解碼算法將得到翻譯速度和質(zhì)量都比較高的目標(biāo)語言句子。

        2.1 維吾爾語模型

        目標(biāo)語言模型主要用來評(píng)價(jià)翻譯譯文的質(zhì)量。本文加入張亞軍等人研究的基于N-gram的維吾爾n-gram語言模型(N=3)[5],則

        2.2 扭曲模型

        在對(duì)源語言句子進(jìn)行短語翻譯時(shí),涉及到短語翻譯的位置重排問題,在此選用扭曲模型考慮短語重排的代價(jià)(即扭曲度,用d表示)。

        di表示翻譯過程中源語言句子短語的位置扭曲幅度。di 的大小為翻譯時(shí)第i個(gè)源短語的第一詞語的位置與i-1個(gè)源短語最后一個(gè)詞語位置的差值加1。

        2.3 詞語補(bǔ)償(懲罰)模型

        詞語懲罰模型主要是為了防止目標(biāo)語言T的句子過長(短語數(shù)I限制在10≤I≤20),而對(duì)短的目標(biāo)語言T所進(jìn)行的補(bǔ)償。詞語懲罰模型可表示如下:

        Pr(u)=exp(I) I代表目標(biāo)語言的句子長度。

        3 解碼器算法的設(shè)計(jì)

        在該漢維解碼器的解碼設(shè)計(jì)過程中,采用柱式搜索算法進(jìn)行搜索,柱式搜索算法屬于動(dòng)態(tài)規(guī)劃的一種算法。該算法主要策略是在有限的全局空間內(nèi)有效進(jìn)行搜索,使得解碼速度在精度上都取得一個(gè)折中方案。

        3.1 核心算法

        柱搜索(Beam Search)算法思想:在一個(gè)搜索過程中盡可能的擴(kuò)展出所有的翻譯選項(xiàng),直到翻譯完成為止。柱搜索的思想實(shí)質(zhì)上是動(dòng)態(tài)規(guī)劃思想的一種應(yīng)用。這種翻譯狀態(tài)稱作假設(shè),每一個(gè)翻譯結(jié)果即代表一種假設(shè)。表1中列出假設(shè)包含的主要信息說明。

        表1 翻譯假設(shè)包含的主要信息說明

        將需要翻譯的漢語短語序列設(shè)置到相應(yīng)的棧中,生成新的假設(shè)。翻譯相同漢語短語個(gè)數(shù)存放到相應(yīng)的假設(shè)站中。隨后對(duì)假設(shè)棧依次擴(kuò)展,到漢語短語翻譯完成位置結(jié)束。對(duì)漢語句子中短語數(shù)為K的解碼算法描述如下:

        (1)對(duì)漢語句子S進(jìn)行分析;

        (2)翻譯備選項(xiàng)列表的構(gòu)建;

        (3)未來評(píng)分表;

        (4)初始化假設(shè)棧HpStack;

        (5)生成初始假設(shè)加入到假設(shè)棧HpStack [0]中;

        (6)遍歷搜索假設(shè)棧HpStack[i](0≤i≤k-1,以下i相同),遍歷假設(shè)棧中所有的Hp;

        (7)在Hp中搜索(2)中構(gòu)建的表,擴(kuò)展一次即可生成一個(gè)NewHp;

        (8)計(jì)算Prob值,newHp翻譯的漢語短語依次加入到棧HpStack中;

        (9)從HpStack[K]中的分值最高的假設(shè)作為出發(fā)點(diǎn),依次回退,直至結(jié)束,即可得到一條路徑,路徑上的所有點(diǎn)組合得到一個(gè)譯文。

        在(1)中首先從譯模型搜索出漢語句子的所有可能的翻譯短語對(duì),目的是為了避免在進(jìn)行假設(shè)擴(kuò)展的后的重復(fù)搜索。

        (8)中計(jì)算假設(shè)的Prob值,要計(jì)算假設(shè)當(dāng)前的各個(gè)加權(quán)值,另外還需要加上通過搜索(3)生成的未來評(píng)分表估計(jì)的假設(shè)未來評(píng)分[6],這樣總概率就能很方便的反映出假設(shè)的質(zhì)量如何。

        3.2 構(gòu)建翻譯備選項(xiàng)列表

        擴(kuò)展次數(shù)是由翻譯備選項(xiàng)列表的數(shù)目決定的(數(shù)目越多,次數(shù)越多)。因此減少假設(shè)擴(kuò)展的次數(shù)提高翻譯速度可以對(duì)翻譯備選列表進(jìn)行裁減。對(duì)翻譯備選項(xiàng)列表的大小進(jìn)行限制以及通過對(duì)翻譯選項(xiàng)評(píng)分閥值的設(shè)定,即可達(dá)到對(duì)評(píng)分值較差的翻譯備選項(xiàng)進(jìn)行裁減的目的。

        記錄短語互譯信息表是通過翻譯備選項(xiàng)列表實(shí)現(xiàn)的,此表主要包括維吾爾/漢語短語、翻譯評(píng)分值、維吾爾短語的N-gram模型評(píng)分值信息。備選項(xiàng)表的構(gòu)建,不只需要收集到翻譯模型中維吾爾語/漢語言句子或者短語之間對(duì)應(yīng)的互譯信息,而且要計(jì)算它們的模型評(píng)分值。

        另外,在解碼的過程中對(duì)棧中狀態(tài)進(jìn)行剪枝,搜索過程中棧中狀態(tài)的個(gè)數(shù)是固定的(見表2),選擇評(píng)分較好的狀態(tài)進(jìn)行下一步擴(kuò)展,評(píng)分效果不理想的節(jié)點(diǎn),作為評(píng)分效果較好節(jié)點(diǎn)的一個(gè)分支,并入該節(jié)點(diǎn)下。這種方法通常稱為剪枝策略,優(yōu)點(diǎn)就是可以降低節(jié)點(diǎn)數(shù),同時(shí)有沒有刪除評(píng)分效果的不理想的節(jié)點(diǎn),盡可能的保留原始信息。

        4 試驗(yàn)結(jié)果

        實(shí)驗(yàn)使用新疆大學(xué)多語種實(shí)驗(yàn)室提供的20000句對(duì)的漢維雙語語料庫為基礎(chǔ)。以維吾爾語為目標(biāo)語言訓(xùn)練3-gram的維吾爾語語言模型和漢維短語翻譯模型。選用200句長度為10到20個(gè)詞語的漢語句子作為測試輸入數(shù)據(jù)的對(duì)比實(shí)驗(yàn)。

        表2 試驗(yàn)結(jié)果對(duì)比

        由表2可以看出,在固定棧設(shè)定為200時(shí),解碼處理速度比較慢且錯(cuò)誤率比較大。固定棧設(shè)置的越大,則解碼處理速度加快,并且解碼算法的錯(cuò)誤率也在隨之下降。但并不是固定棧設(shè)置越多越好,隨著棧的繼續(xù)增加,搜索算法將會(huì)占用大量的時(shí)間,處理整體效果沒有明顯加強(qiáng),并且對(duì)計(jì)算機(jī)的硬件性能要求較高。

        5 總結(jié)

        漢維解碼器的研究是漢維機(jī)器翻譯研究的關(guān)鍵。在漢維翻譯解碼過程將遇到龐大的搜索空間,評(píng)價(jià)漢維解碼器的重要指標(biāo)之一就是如何快速解碼。本文講述搜索解碼算法設(shè)計(jì)與實(shí)現(xiàn)了漢維解碼算法的實(shí)驗(yàn)。下一步主要研究漢維解碼算法的全局優(yōu)化問題,使得算法在效率上得以提升。

        參考文獻(xiàn):

        [1]OCH F J,NEY H.Discriminative training and maximum entropy models for statistical machine translation[C].Proceedings of the40th Annual Meeting of the Association for Computational Lingu istics(ACL).Philadelphia,PA:[s.n],2002:295—302.

        [2]http://www.iccs.inf.ed.ac.uk/~pkoehn/publications/phrase2003.pdf.

        [3] Wang Ye-yi,Warble.Decoding algorithm in statistical machine translation [C].Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics,Madrid,Spain,1997.

        [4] 聶進(jìn). 一個(gè)基于JAVA的堆棧式自然語言翻譯解碼器[J]. 計(jì)算機(jī)工程與應(yīng)用,2005,(4):105-108.

        [5] 張亞軍,吐爾根·依布拉音.漢語—維吾爾語句子級(jí)對(duì)齊系統(tǒng)分析及其實(shí)現(xiàn)[J].中國科技縱橫,2010,(6).

        [6] KOEHN P.Pharaoh:A beam search decoder for phrase—based statistical machine translation models[C].Proceedings of the Association of Machine Translation in the Americas(AMTA-2004).

        猜你喜歡
        漢維目標(biāo)語言解碼器
        科學(xué)解碼器(一)
        科學(xué)解碼器(二)
        科學(xué)解碼器(三)
        線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
        現(xiàn)代漢維茶俗茶禮對(duì)比研究
        教材插圖在英語課堂閱讀教學(xué)中的運(yùn)用及實(shí)例探討
        維吾爾語人稱代詞的用法及翻譯方法探析
        少數(shù)民族聚居城市雙語公示語翻譯規(guī)范化探析——以新疆烏魯木齊市漢維公示語為例
        二語習(xí)得過程中的石化現(xiàn)象分析
        漢維詞匯文化聯(lián)想意義之對(duì)比
        語言與翻譯(2014年1期)2014-07-10 13:06:11
        国产午夜精品一区二区三区不| 97se亚洲国产综合在线| 正在播放东北夫妻内射| 久久国产精品二区99| 中文字幕乱码av在线| 免费一区二区三区女优视频| 三a级做爰片免费观看| av无码久久久久久不卡网站 | 久久国产av在线观看| 日本一区二区三区不卡在线| 国产一级黄色性生活片| 成人麻豆视频免费观看| 久热国产vs视频在线观看| 国产精品第一二三区久久蜜芽 | 国产女主播福利一区二区| 体验区试看120秒啪啪免费| 欧美gv在线观看| 国色天香精品亚洲精品| 中文字幕综合一区二区| 亚洲熟妇久久精品| 亚洲精品成人专区在线观看| 女同av免费在线播放| 偷拍偷窥女厕一区二区视频| 一性一交一口添一摸视频| 一区二区精品| 日本在线综合一区二区| 无套内谢老熟女| 护士奶头又白又大又好摸视频| 日本精品一区二区在线看| 中文字幕中文字幕在线中二区| 欧美黑人群一交| 国产精品九九热| 白色白在线观看免费2| 中文字字幕人妻中文| 中文字幕高清在线一区二区三区| 国产av乳头久久一区| 偷拍偷窥女厕一区二区视频| 亚洲欧美另类激情综合区| 亚洲精品乱码久久久久久按摩高清| 国产精品日韩av一区二区三区| 亚洲av不卡一区二区三区|