亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于句法和語(yǔ)義的英漢翻譯記憶系統(tǒng)的研究與實(shí)現(xiàn)

        2016-11-21 09:47:32汪美俠
        電子設(shè)計(jì)工程 2016年21期

        汪美俠

        (咸陽(yáng)師范學(xué)院 外國(guó)語(yǔ)學(xué)院,陜西 咸陽(yáng) 712000)

        基于句法和語(yǔ)義的英漢翻譯記憶系統(tǒng)的研究與實(shí)現(xiàn)

        汪美俠

        (咸陽(yáng)師范學(xué)院 外國(guó)語(yǔ)學(xué)院,陜西 咸陽(yáng)712000)

        由于目前市場(chǎng)所存在的英漢翻譯系統(tǒng)不能準(zhǔn)確將語(yǔ)句翻譯出來(lái),所以仍是輔助工具作為人們工作生活中的翻譯手段。但對(duì)于資料重復(fù)率高的工作,完全可以利用強(qiáng)大的數(shù)據(jù)庫(kù)來(lái)減少重復(fù)工作?;诖?,文中提出了一個(gè)基于句法和語(yǔ)義的英漢翻譯記憶系統(tǒng)。本文首先在分析語(yǔ)句相似度以后,應(yīng)用WordNet技術(shù)對(duì)相似度的算法進(jìn)行了研究,然后對(duì)記憶庫(kù)進(jìn)行設(shè)計(jì),最后對(duì)該系統(tǒng)進(jìn)行了詳細(xì)研究。將該系統(tǒng)應(yīng)用于實(shí)際實(shí)驗(yàn)翻譯實(shí)踐中,結(jié)果表明該系統(tǒng)大大避免了對(duì)相同句子的翻譯過(guò)程,提高了翻譯速度、節(jié)約了時(shí)間。

        翻譯記憶;相似度;WordNet

        機(jī)器翻譯,顧名思義,就是將一種自然語(yǔ)言通過(guò)計(jì)算機(jī)翻譯成另一種所要求的目標(biāo)自然語(yǔ)言。隨著現(xiàn)今互聯(lián)網(wǎng)的快速興起,讓人們看到了機(jī)器翻譯的未來(lái)地位,也更堅(jiān)定了人們開(kāi)發(fā)機(jī)器翻譯系統(tǒng)的決心。同時(shí),伴隨著現(xiàn)在國(guó)家之間的交流逐漸增多,人們相互交流越發(fā)的不順暢,使用先進(jìn)的、準(zhǔn)確的機(jī)器翻譯系統(tǒng)勢(shì)在必行。目前,現(xiàn)在流行的機(jī)器翻譯系統(tǒng)分為兩類(lèi),一類(lèi)是基于語(yǔ)法分析、一類(lèi)是基于語(yǔ)料庫(kù),其中,基于語(yǔ)料庫(kù)技術(shù)發(fā)展的更好一些。但是,自然語(yǔ)言畢竟是經(jīng)過(guò)長(zhǎng)時(shí)間發(fā)展演化才形成的,同時(shí)不同人對(duì)語(yǔ)言的理解把握能力也不盡相同,所以,機(jī)器翻譯對(duì)結(jié)果的準(zhǔn)確性還是有待提高。同時(shí),對(duì)于所需翻譯文件的重復(fù)率較高的工作,若每次都對(duì)這些文件進(jìn)行翻譯,大大消耗了人力物力,那么,采用翻譯記憶技術(shù)來(lái)做這些工作的話,大大減少了工作時(shí)間、提高了工作效率。文中在句法和語(yǔ)義的基礎(chǔ)上,提出了一個(gè)英漢翻譯記憶系統(tǒng)[1-5]。

        1 翻譯記憶

        翻譯記憶技術(shù)就是指的是根據(jù)之前所翻譯任務(wù)所獲得的經(jīng)驗(yàn)并將其應(yīng)用在之后的翻譯任務(wù)當(dāng)中,為該翻譯任務(wù)提供必要的信息,采用該技術(shù)的系統(tǒng)就是翻譯記憶系統(tǒng)。在翻譯過(guò)程中,系統(tǒng)會(huì)根據(jù)所需翻譯的內(nèi)容在本身存在的記憶庫(kù)中尋找類(lèi)似的資源,并以此提供參考譯文,翻譯者可根據(jù)這些參考來(lái)更改內(nèi)容,這樣可以極大的節(jié)省翻譯工作,對(duì)新內(nèi)容投入更多精力。對(duì)于新內(nèi)容的翻譯,系統(tǒng)將這些新內(nèi)容與庫(kù)中數(shù)據(jù)進(jìn)行比較匹配,然后提供參考譯文,譯者根據(jù)參考譯文可以更改或接受,然后系統(tǒng)就會(huì)將新譯文保存入數(shù)據(jù)庫(kù)中,為以后的翻譯工作提供便利,這樣累計(jì)以后,記憶庫(kù)中數(shù)據(jù)變多,就會(huì)大大提高翻譯效率,避免重復(fù)工作。該翻譯過(guò)程如圖1所示[6-8]。

        那么在翻譯記憶過(guò)程中,需要注意的幾個(gè)關(guān)鍵技術(shù)有:

        1)相似度計(jì)算

        圖1 翻譯記憶的工作流程

        2)譯文構(gòu)造

        3)記憶庫(kù)的設(shè)計(jì)

        2 基于句法和語(yǔ)義的英語(yǔ)句子相似度算法

        文中提出的算法是英語(yǔ)句子相似度算法,該算法從句法和語(yǔ)義兩方面來(lái)考慮。其中,相似度表示的是兩個(gè)句子是否相似,通常用[0,1]的區(qū)間范圍來(lái)表示,1指的是兩個(gè)句子無(wú)論從句法還是語(yǔ)義都是非常相似的,也就意味著這兩個(gè)句子都含有相同語(yǔ)義的單詞,同時(shí)這些單詞的排序順序也是相同的。0指的是兩個(gè)句子的句法和語(yǔ)義都是完全不同的,兩個(gè)句子之間不存在任何聯(lián)系。在0到1之間的不同數(shù)值則表示兩個(gè)句子之間不同的相似度。

        對(duì)于文中提出的算法,過(guò)程如下:首先使用Link Grammar Parser軟件對(duì)所需計(jì)算的句子進(jìn)行計(jì)算,得到各個(gè)句子的句法結(jié)構(gòu),然后再采用算法判定兩者句法結(jié)構(gòu)是否相同,若兩者結(jié)構(gòu)相同,那么再進(jìn)一步利用算法來(lái)判定兩個(gè)句子的中的句義是否相似。在判定句義相似度的過(guò)程中,要根據(jù)句子中各個(gè)組成部分的句義相似度來(lái)判斷,由此可以避免與實(shí)際情況不相符的狀況發(fā)生[9-10]。

        3 記憶庫(kù)的設(shè)計(jì)和譯文生成

        3.1翻譯記憶庫(kù)的設(shè)計(jì)

        記憶庫(kù)是翻譯記憶系統(tǒng)的重要組成部分,目前所存在的記憶庫(kù)主要分為3個(gè)級(jí)別,分別為句子級(jí)、詞匯級(jí)和更深層級(jí),3個(gè)層次的優(yōu)缺點(diǎn)對(duì)比如表1所示。

        表1 記憶庫(kù)方案比較

        由表1可看出,對(duì)于記憶庫(kù)的設(shè)計(jì)而言,若前期加工程度較重,那么后期工作就會(huì)變少,但是帶來(lái)的困難就是管理上較為麻煩;若前期加工較淺,那么隨之而來(lái)的就是后期譯文生成就會(huì)繁瑣。在翻譯的英語(yǔ)句子中,即使是復(fù)雜的句子也是由不同的簡(jiǎn)單句組合而成,也就是說(shuō),每個(gè)英語(yǔ)句子都會(huì)包括主語(yǔ)和謂語(yǔ),文中所設(shè)計(jì)的系統(tǒng)就是以句子為單位來(lái)進(jìn)行翻譯的[11-12]。

        在設(shè)計(jì)記憶庫(kù)時(shí),要對(duì)系統(tǒng)的檢索效率以及對(duì)系統(tǒng)的管理相互兼顧,考慮周到才好。文中設(shè)計(jì)的記憶庫(kù)的結(jié)構(gòu)如表2所示。

        表2 記憶庫(kù)的結(jié)構(gòu)表

        在記憶庫(kù)的設(shè)計(jì)過(guò)程中,要注意的是,若待譯譯文是全新的句子,那么需要譯者對(duì)其進(jìn)行翻譯,然后將翻譯的譯文存儲(chǔ)在記憶系統(tǒng)當(dāng)中,以便之后對(duì)相同句子的翻譯;若待譯譯文與例句僅有部分相似,那么譯者對(duì)最相似的句子進(jìn)行修改,并將修改后的譯文存儲(chǔ)在記憶庫(kù)當(dāng)中[13]。

        3.2譯文生成

        文中是針對(duì)句子的翻譯,所以翻譯所用的算法得到的結(jié)果在區(qū)間[0,1]之間,那對(duì)于匹配的類(lèi)別也就有所不同,匹配類(lèi)別分類(lèi)如表3所示[14]。

        根據(jù)表3的不同情況,也分為3種處理方式,分別為:

        1)直接復(fù)用譯文

        2)人工翻譯

        3)修改譯文

        句子的譯文生成過(guò)程如圖2所示。

        圖2 譯文的修改

        表3 匹配的類(lèi)別

        4 基于句法和語(yǔ)義的翻譯記憶系統(tǒng)的開(kāi)發(fā)

        4.1系統(tǒng)的總體框架

        文中所設(shè)計(jì)的框架如圖3所示。

        系統(tǒng)的總體流程如下:

        1)先輸入需要翻譯的句子

        圖3 系統(tǒng)總體框架圖

        2)通過(guò)分析句子的長(zhǎng)度以及字符串,在記憶庫(kù)中找相似的例句,再將兩者進(jìn)行比較

        3)如果相等,則給出譯文

        4)如果不相等,再根據(jù)句法找尋相似句法的例句

        5)計(jì)算兩個(gè)句子的相似度

        6)對(duì)最相似的例句通過(guò)譯文生成方式得到翻譯結(jié)果

        7)若對(duì)譯文不滿意,可以人文進(jìn)行修改,再將最后修改的譯文存儲(chǔ)到記憶庫(kù)中

        4.2系統(tǒng)實(shí)現(xiàn)

        4.2.1翻譯記憶庫(kù)的創(chuàng)建

        文中設(shè)計(jì)的系統(tǒng)的翻譯記憶庫(kù)是利用SQL Sever 2000建立,該庫(kù)包括3個(gè)表,分別是:

        Sentence表:該表中顯示的是所需翻譯的英語(yǔ)句子以及翻譯結(jié)果的詳細(xì)信息。

        Structure表:該表是用來(lái)保存相關(guān)句子信息,例如句法結(jié)構(gòu)。

        Component表:保存句子的各個(gè)部分和譯文[15]。

        4.2.2相似度計(jì)算

        相似度的計(jì)算流程如圖4所示。如圖4所示,在開(kāi)始相似性計(jì)算時(shí),先根據(jù)句子的字符串進(jìn)行相似比較,若相似度為1,那么返回相似度。若相似度不完全一致,那么就會(huì)再計(jì)算句法結(jié)構(gòu),判斷句法結(jié)構(gòu)是否一致,若一致,則對(duì)句子中的各個(gè)關(guān)鍵詞進(jìn)行抽取計(jì)算相似度,然后再返回相似度計(jì)算,若句法不一致,那么相似度判定為0,再返回相似度最初端。

        圖4 相似度的計(jì)算流程

        4.2.3譯文生成

        譯文生成是以相似度為依據(jù)的,通過(guò)比較所需翻譯的句子與例句,根據(jù)相似度來(lái)適當(dāng)進(jìn)行處理,再利用兩者之間的關(guān)系生成譯文的。圖5為譯文生成的實(shí)例??梢愿鶕?jù)生成的譯文進(jìn)行修改,從而得到最后的結(jié)果。圖中,82%表示相似度,“[]”表示需要修改的譯文。

        圖5 譯文修改

        為更好表達(dá)該系統(tǒng)的高效性,表4列出了部分對(duì)比數(shù)據(jù)。

        表4 Navigator 6.0和7.0技術(shù)手冊(cè)的相關(guān)數(shù)據(jù)

        由表可看出,該系統(tǒng)大大提高了翻譯速度,節(jié)省了時(shí)間。

        5 結(jié)束語(yǔ)

        文中提出了一個(gè)基于句法和語(yǔ)義的英漢翻譯記憶系統(tǒng)。本文首先在分析語(yǔ)句相似度以后,應(yīng)用WordNet技術(shù)對(duì)相似度的算法進(jìn)行了研究,然后對(duì)記憶庫(kù)進(jìn)行設(shè)計(jì),最后對(duì)該系統(tǒng)進(jìn)行了詳細(xì)研究。將該系統(tǒng)應(yīng)用于實(shí)際實(shí)驗(yàn)當(dāng)中,結(jié)果表明該系統(tǒng)大大避免了對(duì)相同句子的翻譯過(guò)程,提高了翻譯速度、節(jié)約了時(shí)間。

        [1]王金銓.翻譯記憶(TM)—計(jì)算機(jī)翻譯技術(shù)的新發(fā)展[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2004,2004(5):13-16.

        [2]Peter F.Brown,Stephen A,Della Pietra,et al.The Mathematics of Statistical Machine Translation:Parameter Estimation[J].Computational Linguistics,1993,19(2):263-311.

        [3]Snell-Hornby.Mary.Translation Studies:An Integrated Approach.Revised edition[J].Amsterdam and Philadelphia:John Benjamins Publishing Company,1995:29.

        [4]張健.基于實(shí)例的機(jī)器翻譯的泛化方法研究[D].北京:中國(guó)科學(xué)院計(jì)算技術(shù)研究所,2001.

        [5]Nagao M.A Framework of a Mechanical translation between Japanese and Englishby analogy principle[C]∥In:Elithom A and Banerji R.Artificial and Human Intelligence,Edited ReviewPaperspresentedattheInternationalNATOSymposium.Amsterdam:NATO Publications,1984,173-180.

        [6]Timothy Baldwin.A Look under the Hood and Road Test[C]∥In:Proceedings of 15th International Japanese/English Translation Conference.Yokohama,Japan:IEEE Press,2004,29-30.

        [7]俞曉峰.面向譯文選擇的雙語(yǔ)語(yǔ)義詞典自動(dòng)構(gòu)建研究[D].哈爾濱:哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,2005.

        [8]王斌.漢英雙語(yǔ)語(yǔ)料庫(kù)自動(dòng)對(duì)齊研究[D].北京:中國(guó)科學(xué)院計(jì)算技術(shù)研究所,1999.

        [9]安玉璞.自然語(yǔ)言問(wèn)答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].哈爾濱:哈爾濱工業(yè)大學(xué),2003.

        [10]張濤,楊爾弘.基于上下文詞語(yǔ)同現(xiàn)向量的詞語(yǔ)相似度計(jì)算[J].電腦開(kāi)發(fā)與應(yīng)用,2006,18(3):41-43.

        [11]魯松.自然語(yǔ)言中詞相關(guān)性知識(shí)無(wú)導(dǎo)獲取和均衡分類(lèi)器的構(gòu)建[D].北京:中國(guó)科學(xué)院計(jì)算技術(shù)研究所,2001.

        [12]穗志方,俞士汶.基于骨架依存樹(shù)的語(yǔ)句相似度計(jì)算模型[C]//1998中文信息處理國(guó)際會(huì)議論文集,北京:清華大學(xué)出版社,1998,458-465.

        [13]車(chē)萬(wàn)翔,劉挺,秦兵等.面向雙語(yǔ)句對(duì)檢索的漢語(yǔ)句子相似度計(jì)算[C]∥全國(guó)第七屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集.北京:清華大學(xué)出版社,2003:81-88.

        [14]Hirst G,St-Onge D.Lexical Chains as representations of context for the detection and correction of malapropisms[C]∥In:C.Fellbaum(ed.)WordNet:An Electronic Lexical Database,Cambridge,MA:The MIT Press,1998:305-332.

        [15]單玉秋.英漢輔助翻譯系統(tǒng)用戶需求調(diào)查及源語(yǔ)言輔助分析技術(shù)[C]∥2002全國(guó)機(jī)器翻譯研討會(huì)論文集,杭州:電子工業(yè)出版社,2002:15.

        Research and implementation of English and Chinese translation memory system based on syntax and semantics

        WANG Mei-xia
        (School of Foreign Languages,Xianyang Normal University,Xianyang 712000,China)

        As the English and Chinese translation system in the present market cannot translate the words accurately,it still works as a tool for people in their work and life.However,for the high rate of repetitive work,it is desirable to use the powerful database to reduce the burden of theheavy work.Based on this,this paper proposes a translation memory system based on syntax and semantics.Firstly,after analyzing the sentence similarity,this paper studies the algorithm of similarity based on WordNet technology,and then designs the memory database.Finally,it makes a detailed study on the system.This system will be applied to the actual experiment and translation practice,the results show that the system can greatly avoid the process of translation of the same sentence,therefore,improve the speed of translation and savetime.

        translation memory;similarity;WordNet

        TM933.4

        A

        1674-6236(2016)21-0024-03

        2015-12-18稿件編號(hào):201512201

        陜西省社會(huì)科學(xué)基金項(xiàng)目(13K045);咸陽(yáng)師范學(xué)院2013年專(zhuān)項(xiàng)科研基金項(xiàng)目(13XSYK037);陜西省教育廳專(zhuān)項(xiàng)科研計(jì)劃項(xiàng)目(14JK1781)。

        汪美俠(1977—),女,陜西咸陽(yáng)人,碩士研究生,講師。研究方向:英語(yǔ)教學(xué)與英語(yǔ)翻譯。

        波多野42部无码喷潮| 加勒比av在线一区二区| 久久国产精品亚洲va麻豆| 国模无码一区二区三区| 色爱区综合激情五月综合小说| 日日噜噜噜夜夜爽爽狠狠视频| 日韩女优视频网站一区二区三区| 欧洲多毛裸体xxxxx| 精品性高朝久久久久久久| 少妇bbwbbw高潮| 91成人国产九色在线观看 | 一本色道久久亚洲精品| 成人精品天堂一区二区三区| 亚洲va欧美va国产综合| 亚洲在线一区二区三区四区| 国产不卡视频在线观看| 狠狠色婷婷久久综合频道日韩| 国产在线丝袜精品一区免费| 国内精品熟女一区二区| 国偷自拍av一区二区三区| 50岁熟妇大白屁股真爽| 狠狠丁香激情久久综合| 日本高清在线播放一区二区| 亚洲精品第一国产综合精品| 亚洲综合无码一区二区三区| 一区二区特别黄色大片| 日韩亚洲一区二区三区四区| 久久久久人妻一区精品色欧美| 亚洲一区二区三区av链接| 免费av一区男人的天堂| 国产98色在线 | 国产| 国产黑色丝袜在线观看下| 毛片av中文字幕一区二区| 日本久久伊人特级黄色| 国产成人精品日本亚洲11| 无码中文字幕av免费放| 亚洲天堂一区二区偷拍| 成年免费视频黄网站zxgk| 国产精品视频免费的| 久久亚洲网站中文字幕| 亚洲av综合永久无码精品天堂|