亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于統(tǒng)計的漢英機器翻譯技術的研究

        2016-11-21 09:47:40趙靜
        電子設計工程 2016年21期

        趙靜

        (咸陽師范學院 外國語學院,陜西 咸陽 712000)

        基于統(tǒng)計的漢英機器翻譯技術的研究

        趙靜

        (咸陽師范學院 外國語學院,陜西 咸陽 712000)

        隨著互聯(lián)網(wǎng)的大力普及,機器翻譯彰顯了其在未來的無可替代性。本文提出了一個漢英機器翻譯系統(tǒng),該系統(tǒng)是以統(tǒng)計為基礎而發(fā)展的。文中先對統(tǒng)計機器翻譯進行介紹,然后對漢英機器翻譯系統(tǒng)進行詳細介紹與說明,因為現(xiàn)今技術中,主要是以IBM對齊模型為基礎的,而在這個IBM對齊模型中,以模型4最為有效,所以重點介紹模型4。最后提出了基于短語對齊模型的漢英統(tǒng)計機器翻譯系統(tǒng)。

        統(tǒng)計機器翻譯;漢英機器翻譯;翻譯模型;對齊模型

        機器翻譯指的是將一種語言通過計算機的一系列處理以后翻譯成為另一種語言的過程。隨著現(xiàn)在科技的發(fā)展互聯(lián)網(wǎng)的作用在人們生活中逐步提高,各個不同語言國家的交流也進一步拉近,可以預見的是,未來機器翻譯一定會是生活當中必不可少的。現(xiàn)有的機器翻譯系統(tǒng)中,以規(guī)則為基礎的翻譯技術已經(jīng)非常成熟了,然而,即使現(xiàn)今設定了眾多的規(guī)則庫,對于語言而言還是遠遠不夠的,畢竟語言是經(jīng)過幾千年的積累演變而成,而且對于不同的使用群體對語言的理解與運用也是不同的。所以,之后的機器翻譯又進入了另一個階段,逐步發(fā)展成為基于語料庫的方法,該方法可分為兩部分,分別是統(tǒng)計法和實例法,兩者都是將語料庫作為翻譯的根本源,不同的是統(tǒng)計法中,語言是以統(tǒng)計數(shù)據(jù)的形式出現(xiàn),而實例法則不是,基于此,目前為止,基于統(tǒng)計的方法是最具有代表性的[1-5]。

        1 統(tǒng)計機器翻譯方法

        統(tǒng)計機器翻譯方法主要分為3類,分別是平行概率法,信源信道模型法和最大熵法。其中,應用最廣的方法是信源信道模型法,這種方法是把機器翻譯過程認定為一種傳輸信息的過程,通過一個信源信道模型去解釋機器翻譯過程。該模型如圖1所示。如圖所示,對于目標語言P(T)中的隨機信息T,通過信道轉化后,轉變?yōu)榫幊陶Z言S,然后將該編程語言S進行解碼,再轉換為另一種語言的信息T1,即可完成翻譯的過程[6-7]。

        圖1 統(tǒng)計翻譯方法的信源信道模型

        統(tǒng)計翻譯方法的優(yōu)點是[8]:

        1)機器翻譯是將給定的語言翻譯成另一種目標語言,這個過程相對合理;

        2)對于詞組之間、短語之間聯(lián)系較為模糊的對象,通過設定一定的規(guī)則將這些目標對象聯(lián)系起來進而進行翻譯;

        3)對于所用的數(shù)據(jù)源,統(tǒng)計翻譯方法易于擴展;

        4)較為容易在其他系統(tǒng)中集成;

        統(tǒng)計翻譯方法的缺點是:

        1)所需語料庫資料較大,且翻譯模型隨資料庫中資料數(shù)目而定;

        2)翻譯質量與翻譯模型的好壞有關;

        3)工作量較大,且與實際情況有關。

        2 基于IBM對齊模型的漢英統(tǒng)計機器翻譯

        2.1漢英統(tǒng)計機器翻譯的開發(fā)

        漢英統(tǒng)計機器翻譯的開發(fā)過程是一個循序漸進、不斷改進的過程。首先要先對數(shù)據(jù)進行收集,收集過程可表現(xiàn)為將句子對齊,這些是需要人工進行操作的。數(shù)據(jù)收集齊以后就要開始訓練數(shù)據(jù),也就是說通過數(shù)據(jù)建立初步的數(shù)據(jù)模型,數(shù)據(jù)模型建立以后,要對該模型進行性能測試,在測試中,難免會發(fā)現(xiàn)一些錯誤信息,比如搜索信息錯誤、模型信息錯誤等,根據(jù)這些錯誤再對系統(tǒng)進行進一步的優(yōu)化分析。開發(fā)過程如圖2所示[9-10]。

        圖2 漢英統(tǒng)計機器翻譯的開發(fā)過程

        2.2IBM對齊模型和模型4

        對齊模型指的是源語言與目標語言的關系,該模型可分為單詞對齊和短語對齊兩類,機器翻譯的輸出質量與單詞對齊質量有關。短語對齊模型是非常復雜的,這是因為對齊形式包括了單詞順序、插入以及單詞對應短語的變化關系,所以,本文只討論單詞對齊模型,同時,也規(guī)定在對齊模型中,源語言中的一個單詞只能與目標語言中的單詞對齊,也就是一一對應的關系。

        IBM對齊模型主要分為5類,模型1主要針對單詞之間的翻譯質量,模型2重點在源語言的單詞位置與目標語言的單詞位置相互之間的關系;模型3則考慮一個目標單詞與多種語言單詞的關系;模型4是模型3的一種升級改進;模型5則添加了模型3和模型4兩者間對空白單詞處理不當?shù)囊恍┬拚侄?。文中采用模?對漢英機器翻譯技術進行研究,不采用其他模型是因為模型4相對其他模型而言,它的對齊效果較為理想,而且對目標語言的扭曲率也可以集成其他模型來改善[11-12]。

        3 基于IBM對齊模型的搜索算法的設計與實現(xiàn)

        IBM對齊模型總共可分為4種解決方法,分別是堆棧法、“貪心”搜索法、beam搜索解碼法和A*搜索法,本文著重介紹beam搜索解碼法和A*搜索法[13]。

        3.1基于動態(tài)規(guī)劃的beam搜索算法

        對于給定的一個三元語言模型,暫定為 (e1,e,C,j),其中,e1,e表示這三元語言模型的最后兩個詞,C表示覆蓋后的源語言集合。以e1,e的單詞順序被當作返回指針指向這部分的前驅內容,并將其存儲下來,再按照這個順序循環(huán)進行。圖3表示基于動態(tài)規(guī)劃的beam搜索算法。

        圖3 基于動態(tài)規(guī)劃的beam搜索算法

        為了提高搜索速度,對于beam搜素算法必須采取剪枝措施。修剪的策略有兩種,一種是集合修剪,也就是對每個集合都進行修剪;另一種是基數(shù)修剪,意味著對整體集合進行修剪。在對搜索算法進行集合修剪和基數(shù)修剪以后,接下來要決定如何能限制假設集合的數(shù)量,通常數(shù)量是由4個閾值所決定。

        1)集合裁剪閾值tC;

        2)集合直方圖閾值nC;

        3)基數(shù)裁剪閾值tC;

        4)基數(shù)直方圖閾值nC;

        3.2A*搜索算法

        以實例來描述A*搜索算法的執(zhí)行過程。搜索目標確定為一個漢語句子,M表示該句子中詞的個數(shù),通過搜索為其找一個相對應的譯文[14]。

        在開始搜索前,要為句子中的每個漢語詞組找尋一個較為合適的英語單詞。雖然可以將詞匯表中與該漢語詞組對應的英語詞匯全部匯總,但那樣工作效率太低,所以必須要在一個確定的范圍內找這個英文詞匯。因此,可以采用反向翻譯率來給每個詞組找合適的單詞。對于漢語句子“告訴他”,其中,“告訴”的英文詞匯有“tell”、“told”、“tells”和“telling”,“他”的英文詞匯有“he”、“him”和“his”。將這些詞進行翻譯,翻譯圖如圖4所示。

        圖4 "告訴"的分布,"他"的分布

        這種方法的缺點是從最高點進行假設擴展時,若由后面的值改變的話,進行擴展的可能性就會變小,進而會對譯文的質量有很大的影響。

        4 基于短語對齊模型的漢英統(tǒng)計機器翻譯

        4.1將IBM對齊模型改為短語對齊模型

        將IBM對齊模型改為短語對齊模型的過程如下[15]:

        1)先通過GIZA++輸入對齊文件,這個對齊文件包括漢譯英文件和英譯漢文件;

        2)分為兩個方面,一方面求這兩個文件的Viterbi對齊集合,再求兩個集合的交集,從而對單詞對齊進行優(yōu)化;另一方面輸入由GIZA++得到的翻譯率,并利用ISA法對單詞進行對齊并且短語抽??;

        3)將上述兩個步驟所求的集合進行并集;

        4)輸入訓練語料庫的部分信息;

        5)抽取短語和對齊模板。

        過程如圖5所示。

        圖5 IBM對齊模型改為短語對齊模型的過程

        4.2使用詞性標注信息構建對齊模板

        使用詞性標注信息的特點是該方法使用較為簡便,免去了重復尋找詞組間相互關系的繁瑣步驟,同時這種方法對詞的分類更加科學準確,同時在翻譯過程中可以使用特定的規(guī)則提高對齊效率以及翻譯準確率。表1為使用詞性標注信息構建對齊模板的例子。

        表中,對齊矩陣表示的是漢語與對齊的英語的位置。

        表1 使用詞性標注信息構建對齊模板舉例

        4.3實驗與分析

        為了能更好的對比本文所設計的基于短語的漢英機器翻譯系統(tǒng)的性能,采用50826對語句,其中,大部分語句中詞的數(shù)目不超過10個,又為了具備對比性,將該方法與A*搜索算法進行比較,評判的標準為翻譯句子的關鍵詞是否翻譯,整體含義是否準確,句子結構的好壞。對比結果如表2所示。

        表2 A*搜索算法與基于短語模型的搜索算法結果對比

        由表2可看出,基于短語對齊的搜索算法的性能還是不錯的,無論句子耗時還是翻譯效果,證明了該方法的實用性。

        5 結束語

        文中首先介紹了機器翻譯的必要性,然后對統(tǒng)計機器翻譯方法的分類、模型進行了詳細的介紹,并且對齊優(yōu)點和不足進行了一一分析,之后對IBM對齊模型的五大分類的特點進行闡述,確定了本文采用的模型是模型4,基于IBM對齊模型的搜索算法中,著重強調了beam搜索算法和A*搜索算法,為了進一步提高搜索算法的效率,本文將單詞對齊模型改為短語對齊模型,并對其進行了深刻的分析和研究,最后將該方法與A*搜索算法進行性能比較,證明基于統(tǒng)計的漢英機器翻譯技術是可實現(xiàn)并可利用的。

        [1]PeterF.Brown,JolmCoeke,StephenA.DellaPietra,Vincent J. DellaPietra,F(xiàn)redrickJelinek,JohnD.Lafferty,RobertL.Mercer,Paul S.Roossin,A StatisticalApproachto Machine Translation[J].ComputationalLinguistics,1990.

        [2]Peter.F.Brown,Stephen A.Della Pietra,Vincent J.Della Pietra,Robert L.Mercer,The Mathematics of Statistical Machine Translation:Parameter Estimation[J].Computational Linguistics,Vol 19,No.2,1993.

        [3]Franz Josef Och,Hermann Ney,Discriminative Training and Maximum Entropy models for Statistical Machine Translation[C].ACL 2002.

        [4]Papineni K A,Roukos S,Ward R T.Maximum likelihood and discriminative training of direct translation models[C].In Proc. Int.Conf.on Acoustics,Speech,and Signal Processing,Pages189-192,Seattle,WA,May,1998.

        [5]Kishore Papineni,Salim Roukos,ToddWard,Wei-JingZhu,Bleu:aMethodfor Automatic Evaluationof MachineTranslation[R].IBMResearch,RC22176(WO109-022)September17,2001.

        [6]Ulrich Germann USC Information Sciences Institute.Greedy Decoding for Statistical Machine Translationin Almost Linear Time[C]∥ Proceedings of HLT-NAACL 2003.Edmonton,Canada,May 27-June 1,2003.

        [7]Tillmann C,Ney H.Word re-ordering and DP-based Search in statistical machine translation[C]∥ In COLING’00:The 18th Int.Conf.on Computational Linguistics,pp.850.856,Saarbrucken,Germany,July 2000.

        [8]Tillmann C,Ney H.Word Re-Ordering and Dynamic Programming based Search Algorithms for Statistical Machine Translation[C]∥ Ph.D.thesis,Computer Science Department,RWTH Aachen,Germany,May 2001.

        [9]Garcia-Varea I,Och F J,Ney H,et al.Renedlexicon modelsforStatisticalMachineTranslationusing amaximumentro pyapproach[C]∥InProc.ofthe 39th Annual Meetingof the Association for Computational Linguistics(ACL),pp.204.211,Toulouse,F(xiàn)rance,July2001.

        [10]Franz Josef,Och.Statistical Machine Translation:From Single-Word models to Alignment Templates[C]∥ 2003,June.

        [11]NieBen S,Ney H.Morpho:syntactic analysis for reor-dering instatistical machine translation[C]∥ In Proceeding,of the Machine Translation Summit VIII,pp.247.252,Santiago de Compostela,Spain,Sept.2001.

        [12]Och,F(xiàn)ranz-Josef,Nicola Ueffing,and Hermann Ney.2001. An efficient(A)*search algorithm for statistical machine translation[C]∥In Proceedings of the Data-Driven Machine Translation Workshop,39th Annual Meeting of the Association for Computational Linguistics(ACL),Pages55-62,Toulouse,F(xiàn)rance,July.

        [13]周會平.基于中間語言的漢英翻譯系統(tǒng)工CENT的研究與實現(xiàn)[D].長沙:國防科學技術大學,1999.

        [14]劉群.統(tǒng)計機器翻譯綜述[J].中文信息學報,2003(4):1-12.

        [15]Ying Zhang,Stphan Vogel and Alex Waibel.Integrated Phrase Segmentation and Alignment Model for Statistical Machine Translation[C]∥ Submitted to Proc.of International Confrerence on Natural Language Processing and Knowledge Engineering(NLP-KE),2003,Beijing,China.

        Research on the technology of C-E machine translation based on statistics

        ZHAO Jing
        (Foreign Language College,Xianyang Normal University,Xianyang 712000,China)

        Along with the popularity of Internet,machine translation has demonstrated its irreplaceable role in the future.In this paper,a Chinese to English machine translation system is proposed,which is based on the statistics.In this paper,we first introduce the statistical machine translation,and then introduce the C-E machine translation system,because the technology is based on the IBM alignment model,and the model 4 is the most effective,so it is important to introduce the model 4.Finally,a C-E statistical machine translation system based on phrase alignment model is proposed.

        statistical machine translation;Chinese-English machine translation;translation model;decoder

        TM933.4

        A

        1674-6236(2016)21-0069-03

        2015-12-04稿件編號:201512046

        咸陽師范學院科研項目部分研究成果(13XSYK043);陜西省社會科學基金項目部分研究成果(13K045)

        趙 靜(1977—),女,陜西高陵人,碩士,講師。研究方向:語言學,翻譯學。

        亚洲国产成人精品无码区在线秒播| 国产精品亚洲一区二区三区正片| 午夜视频一区二区在线观看| 国产人妖乱国产精品人妖| 特黄特色的大片观看免费视频| 日韩手机在线免费视频| 无码流畅无码福利午夜| 久久精品免费视频亚洲| 日本va欧美va精品发布| 99精品国产兔费观看久久99| 久久青草国产免费观看| 熟女免费观看一区二区| 亚洲av永久无码天堂网| 亚洲av无码一区二区三区系列| 欧美精品久久久久久三级| 精品久久中文字幕一区| 国产精品久久久久一区二区三区| 爱情岛永久地址www成人| a级国产精品片在线观看| 成人国产av精品麻豆网址 | 国产欧美va欧美va香蕉在| 最近免费中文字幕| 亚洲AV无码AV色| 91成人国产九色在线观看| 色视频线观看在线网站| 国产欧美日韩在线观看| 国产99精品精品久久免费| 国产精品国产av一区二区三区| 99久久免费国产精品| 色综合久久中文综合久久激情| 美女人妻中文字幕av| а天堂中文在线官网在线| 精品福利视频一区二区三区| 免费在线日韩| 亚洲av迷人一区二区三区| 亚洲另类欧美综合久久图片区| 麻豆国产巨作AV剧情老师| 91久久大香伊蕉在人线国产| 国产a在亚洲线播放| 免费av片在线观看网站| 亚洲综合一区二区三区蜜臀av|