亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于規(guī)則的機(jī)器翻譯技術(shù)綜述

        2011-05-18 09:10:56袁小于
        重慶高教研究 2011年3期
        關(guān)鍵詞:源語言目標(biāo)語言英漢

        袁小于

        (重慶師范大學(xué)數(shù)學(xué)學(xué)院,重慶 沙坪壩 401331)

        機(jī)器翻譯(Machine Translation,MT)是借助計(jì)算機(jī)程序?qū)⑽淖只蛘Z音從一種自然語言翻譯成另一種自然語言的技術(shù).機(jī)器翻譯是早期人們研究自然語言識別的中心課題之一,是人工智能研究的重要成果,其歷史可以追述到上世紀(jì)的50年代初期.但是由于當(dāng)時(shí)人們認(rèn)為只要“找出兩種語言間的對應(yīng)詞,然后經(jīng)過簡單的語法分析調(diào)整詞序就可以實(shí)現(xiàn)翻譯”[1],使機(jī)器翻譯的研究工作走入了死胡同,因?yàn)闄C(jī)器翻譯的結(jié)果很難達(dá)到預(yù)期的效果,以至于1966年美國科學(xué)院在一個(gè)報(bào)告中指出:“在可預(yù)見的將來,機(jī)器翻譯不會獲得成功”[1].

        根據(jù)實(shí)際應(yīng)用,機(jī)器翻譯可以簡單地分為文本翻譯和語音翻譯.文本翻譯是以詞-詞、句-句、篇-篇的模式實(shí)現(xiàn)翻譯任務(wù)的.語音翻譯則還得使用語音識別技術(shù)(Automatic Speech Recognition,ASR)和語音合成技術(shù)(Text To Speech,TTS)或者真人語音庫技術(shù),才能從源語音生成目標(biāo)語音,語音轉(zhuǎn)換時(shí)具有更高的靈活性和不規(guī)則性,比文本翻譯難度更大.相比文本翻譯的大概可用的情況,語音翻譯技術(shù)還遠(yuǎn)遠(yuǎn)沒有達(dá)到實(shí)用的階段.因此,本文限定討論機(jī)器翻譯就指文本機(jī)器翻譯,以下同.

        根據(jù)機(jī)器翻譯獲得知識的方式,機(jī)器翻譯發(fā)展到現(xiàn)在可以分為兩類[2]:一類就是基于人工獲取知識的方法或者基于規(guī)則的方法,這是傳統(tǒng)的經(jīng)典機(jī)器翻譯方法;另一類是基于機(jī)器自動學(xué)習(xí)知識的方法,分為非參數(shù)方法(或?qū)嵗椒?與參數(shù)方法(或統(tǒng)計(jì)方法)兩種.下面以英漢機(jī)器翻譯為例回顧一下經(jīng)典機(jī)器翻譯技術(shù)中使用的各種技術(shù).

        1 基于規(guī)則的機(jī)器翻譯技術(shù)

        經(jīng)典的基于規(guī)則的機(jī)器翻譯技術(shù)主要包括源語言的文本處理、詞典構(gòu)成、文本分析,源語言到目標(biāo)語言的詞典查詢翻譯,目標(biāo)語言文本生成等技術(shù).

        1.1 源語言文本處理技術(shù)

        文本處理技術(shù)主要是針對輸入的源語言文本,通過斷句和格式保留操作,把多句或整篇文章分成機(jī)器能夠處理的單元.

        1.1.1 符號斷句處理技術(shù)

        斷句處理主要是以代表整句結(jié)束信息的句號、問好、嘆號、省略號以及回車換行符號為標(biāo)記,將文章切分出單句[3].

        1.1.2 格語法文本處理技術(shù)

        “格”指底層結(jié)構(gòu)中,每一個(gè)名詞與跟它有關(guān)的動詞之間的句法語義關(guān)系.這種關(guān)系一經(jīng)確定就固定不變,不管他們經(jīng)過了什么轉(zhuǎn)換操作[4].

        1.1.3 詞或短語切分技術(shù)

        將句子切分為詞或短語,其中短語切分概率化技術(shù),改變了其他切分技術(shù)認(rèn)為所有的短語切分都是等概率的思想,提高了準(zhǔn)確度[5].

        1.1.4 格式保留處理技術(shù)

        源語言文本中的特殊標(biāo)記字符通常分隔了不同的單詞、句子,在原文意思的表達(dá)中起到很關(guān)鍵的作用.因此,在進(jìn)行文本處理的時(shí)候,必須采用相應(yīng)的辦法將這些符號保留,在翻譯成目標(biāo)語言文本之后再插入對應(yīng)的位置.

        1.2 機(jī)器翻譯詞典構(gòu)成技術(shù)

        詞典是經(jīng)典機(jī)器翻譯系統(tǒng)的基礎(chǔ)資源,是進(jìn)行句法分析、目標(biāo)語言文本生成的依據(jù).可以說,一個(gè)詞典的好壞就決定了機(jī)器翻譯系統(tǒng)的優(yōu)劣.

        1.2.1 一般機(jī)器翻譯詞典構(gòu)成技術(shù)

        詞典以詞項(xiàng)為中心,把以該詞項(xiàng)有關(guān)的短語、習(xí)語組織到同一詞條下,并編制有關(guān)索引,以利查詢.英漢機(jī)器翻譯詞典構(gòu)成的基本結(jié)構(gòu)如表1所示.

        表1 英漢機(jī)器翻譯詞典基本結(jié)構(gòu)

        吳保民等在Matlink翻譯實(shí)驗(yàn)機(jī)器中對各個(gè)字段的功能和原則做了初步的定義[6],詞典的索引采用了哈希散列算法.

        1.2.2 格框架機(jī)器翻譯詞典技術(shù)

        基于菲爾摩的格語法理論建立格框架,在格框架中不僅有語法信息,還有語義信息,且語義信息是整個(gè)框架的主體[4].一個(gè)格框架由一個(gè)主要概念和一個(gè)輔助概念構(gòu)成.格框架以詞條的形式有機(jī)地編排于格詞典之中.

        1.3 文本分析技術(shù)

        文本分析技術(shù)的功能和任務(wù)是解決源語言句子和目標(biāo)語言句子的結(jié)構(gòu)問題,即確定句子主謂賓等結(jié)構(gòu),以便確定詞與詞之間的關(guān)系使之構(gòu)成短語,再確定短語之間的關(guān)系使之構(gòu)成更大的短語或組成句子.

        1.3.1 淺層句法(詞法)分析技術(shù)

        淺層句法分析是指對源語言語句作詞性標(biāo)注后所進(jìn)行的短語級句法分析,而不是完整的句法結(jié)構(gòu)分析,其結(jié)果稱為Chunk序列[7].郭永輝等給出了一種基于GLR算法的分析技術(shù)[8],在Matlink英漢機(jī)器翻譯系統(tǒng)的句法分析中發(fā)揮了穩(wěn)定的功能.

        杜祝平等還給出了一種基于規(guī)則的詞法分析技術(shù)[5],該規(guī)則分為主詞類規(guī)則、個(gè)別詞規(guī)則和使用數(shù)學(xué)定理證明中的夾逼原理的規(guī)則.

        1.3.2 整句句法分析技術(shù)

        整句句法分析包括產(chǎn)生式通用部分處理和從句處理,主語部分分析,謂語部分分析及其他部分的分析,如費(fèi)鯤采用的部分分析的思想,將一個(gè)句子分成幾個(gè)語法成分,分別進(jìn)行分析,并給出句法樹[9].而馬芳等人則給出了一種基于最大熵基本原理的從句識別方法[10],結(jié)合了統(tǒng)計(jì)知識和語法規(guī)則,使模型訓(xùn)練速度大大加快,識別精度更高.句法分析過程還可以采用依存語法和語則分析來進(jìn)行,最后生成一棵帶短語信息的依存語法樹[3].

        1.3.3 語義分析技術(shù)

        此方法借助優(yōu)選語義學(xué)、語言成份的邏輯語義分析、黑板結(jié)構(gòu)等理論,對語言翻譯過程中的語義分析,尤其對介詞多義詞等影響句子意思的部分進(jìn)行系統(tǒng)分析,可以改善一般機(jī)器翻譯技術(shù)的翻譯效果[11].

        1.4 機(jī)器翻譯詞典查詢技術(shù)

        在機(jī)器翻譯中,查閱翻譯詞典是一個(gè)經(jīng)常進(jìn)行的行為,其查閱效率是影響翻譯速度的關(guān)鍵.因此,如果采用簡單順序搜索算法和二分查找算法,效果都非常的差,所以一般采用哈希表查詢方案[6],有3種實(shí)現(xiàn)方式,如表2所示.

        表2 3種哈希算法實(shí)現(xiàn)方案

        有關(guān)實(shí)驗(yàn)表明,在64 K散列空間中,第三個(gè)方案的平均查找次數(shù)和最壞查找次數(shù)均最低,且在3次以內(nèi)查找成功的百分比最高.

        1.5 語義排歧技術(shù)

        語義排歧是機(jī)器翻譯必須要逐漸克服的困難之一.這個(gè)困難可以說最終影響了基于規(guī)則的機(jī)器翻譯技術(shù)的發(fā)展.

        1.5.1 二元文法

        對于有多個(gè)詞性的單詞,需要進(jìn)行詞性消兼(歧)處理.采用二元文法的隱馬爾可夫模型和Viterbi算法來取最佳詞性[3],該方法通過查找概率庫字典,標(biāo)注各結(jié)點(diǎn)單詞對應(yīng)的詞性.

        1.5.2 常識排歧法

        首先對翻譯過程中源語言多義詞的詞義選擇是否符合常識給出一條形式化的標(biāo)準(zhǔn),然后將人們在翻譯過程中排歧時(shí)所進(jìn)行的邏輯推理歸結(jié)為一種機(jī)械的集合運(yùn)算,使之易于機(jī)器操作,在此基礎(chǔ)上建立義項(xiàng)多元組的概念,利用此多元組來對多義詞的翻譯進(jìn)行排歧[12].

        1.5.3 其他排歧技術(shù)

        還有選擇最常見含義法,利用詞類進(jìn)行詞義排岐,基于選擇限制詞義排歧,基于共現(xiàn)特征的詞義排歧,無指導(dǎo)的詞義排歧,基于詞典的詞義排歧等等[13-14].

        1.6 目標(biāo)語言文本生成技術(shù)

        1.6.1 目標(biāo)語言句法分析轉(zhuǎn)換技術(shù)

        此階段需要運(yùn)用上文提到的各種文本分析技術(shù),按照目標(biāo)語言的語義結(jié)構(gòu)規(guī)律對運(yùn)用機(jī)器翻譯出來的目標(biāo)語言短語進(jìn)行重新排序,即對分析階段產(chǎn)生的分析樹進(jìn)行調(diào)整[7].

        1.6.2 目標(biāo)語言文本生成技術(shù)

        利用html,xml等文本生成排版技術(shù)生成利于閱讀的目標(biāo)語言文本.一個(gè)完整的機(jī)器翻譯系統(tǒng)如圖1所示.

        圖1 經(jīng)典機(jī)器翻譯系統(tǒng)圖示

        2 經(jīng)典機(jī)器翻譯的難點(diǎn)

        2.1 詞義選擇問題即消歧問題

        從一個(gè)詞的多個(gè)意思中選擇一個(gè)恰當(dāng)?shù)囊馑己蛷亩鄠€(gè)同義或近義的詞中選擇恰當(dāng)?shù)脑~都是機(jī)器翻譯難以圓滿解決的問題.在很多語言中,還有不少由兩個(gè)或兩個(gè)以上單詞組成的固定搭配,其中的每個(gè)單詞都有幾種不同的意思,而他們結(jié)合在一起構(gòu)成一個(gè)搭配時(shí),就會表示更多的可能不同于組成部分的意思.這幾種詞義選擇問題,都是限制機(jī)器翻譯準(zhǔn)確性的重要因素[14-15].

        2.2 層次切分問題

        從語言的內(nèi)部結(jié)構(gòu)來說,很多情況下源語言和目標(biāo)語言是兩種截然不同的語言.要想機(jī)器翻譯準(zhǔn)確,就必須克服結(jié)構(gòu)上的差異,以語義為基礎(chǔ),在句法的輔助下完成翻譯過程.層次切分將直接影響句子中意群間的相互關(guān)系,如果不正確的切分,就會造成雖然單詞或短語的翻譯正確,但是整個(gè)句子的意思卻不合邏輯.也就是說,要恰當(dāng)?shù)貙⒕渥忧蟹譃樽?、詞、短語、句子非常不容易.

        2.3 特殊句型問題

        各種語言中都有很多特有的表達(dá)方式或固定結(jié)構(gòu),如英語中有主語從句、非限定性定義從句、賓語從句等,又進(jìn)一步加大了英漢翻譯的難度[14].

        2.4 語言情感問題

        語言是表達(dá)思想和情感的工具,除非是純粹的說明性文字,一般的文章中都或多或少的蘊(yùn)涵作者的喜怒憂思悲恐驚等情愫.而機(jī)器通過詞典對應(yīng)查詢,按照規(guī)則機(jī)械地組合拼湊的文字,很難讓人讀出原作意境.表現(xiàn)原作的情感連人工翻譯都難于完美再現(xiàn),何況是冷冰冰的機(jī)器!

        3 結(jié)語

        人類語言的發(fā)展從最初的無序到憑經(jīng)驗(yàn)使用,直到系統(tǒng)總結(jié)出各種語言的最適合的表達(dá)情感和思想的方法,這種方法就是規(guī)則,即語法.基于規(guī)則的經(jīng)典機(jī)器翻譯技術(shù)雖然發(fā)展了50多年,現(xiàn)在各種技術(shù)也比較成熟,但因?yàn)橛星肮?jié)所述天生的弱點(diǎn),其翻譯效果還遠(yuǎn)遠(yuǎn)沒有達(dá)到令人滿意的地步.因此,在語言形式化方法的進(jìn)一步發(fā)展、計(jì)算機(jī)運(yùn)算處理能力的大幅提高、人工智能真正具有“智能”以及人們對人腦包括人腦學(xué)習(xí)機(jī)能的更多認(rèn)識的同時(shí),有必要尋求新的翻譯轉(zhuǎn)換手段,才能使機(jī)器翻譯質(zhì)量逼近人工翻譯水平.而前面提到的基于機(jī)器自動學(xué)習(xí)知識的機(jī)器翻譯方法,使用非參數(shù)方法(或?qū)嵗椒?與參數(shù)方法(或統(tǒng)計(jì)方法)兩種手段開發(fā)的各種新的翻譯系統(tǒng),翻譯效果在很大程度上彌補(bǔ)了經(jīng)典機(jī)器翻譯的部分缺陷.但是,實(shí)驗(yàn)和實(shí)踐都可以看出,這種方法也不是完美的,在對付長句子、特殊句子以及需要合理表達(dá)情感的時(shí)候,同樣也是無能為力的.所以,現(xiàn)在實(shí)際的處理方式就是綜合使用這幾種翻譯技術(shù)于一個(gè)系統(tǒng)中,取長補(bǔ)短,雖然效果逐漸可以達(dá)到特定領(lǐng)域的實(shí)用水平,不過仍然離完美甚遠(yuǎn).

        [1]王萬森.人工智能原理及其應(yīng)用:第2版[M].北京:電子工業(yè)出版社,2007:234.

        [2]趙紅梅,劉群.機(jī)器翻譯及其評測技術(shù)簡介[J].術(shù)語標(biāo)準(zhǔn)化與信息技術(shù),2010(1):36-41.

        [3]胡春靜,韓兆強(qiáng).英漢機(jī)器翻譯引擎的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與應(yīng)用,2003(29):148-150.

        [4]王祁.格語法在英漢機(jī)器翻譯系統(tǒng)中的應(yīng)用研究[J].東北大學(xué)學(xué)報(bào):社會科學(xué)版,2005,7(6):455-457.

        [5]杜祝平,吳保民,張連海,等.英漢機(jī)器翻譯系統(tǒng)中基于規(guī)則的詞法分析[J].信息工程大學(xué)學(xué)報(bào),2003,4(3):89-92.

        [6]吳保民,杜祝平,張連海,等.Matlink英漢機(jī)器翻譯試驗(yàn)系統(tǒng)中詞典的存儲結(jié)構(gòu)及搜索算法[J].信息工程大學(xué)學(xué)報(bào),2001(4):70-74.

        [7]周會平,王挺,陳火旺.用LR算法分析漢語的語法關(guān)系[J].軟件學(xué)報(bào),1999,10(9):967-973.

        [8]郭永輝,吳保民,王炳錫.一個(gè)基于GLR算法的英漢機(jī)器翻譯淺層句法分析器[J].計(jì)算機(jī)工程與應(yīng)用,2004(34):124-129.

        [9]費(fèi)鯤.機(jī)器翻譯中句法分析的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2006,27(15):2832-2834.

        [10]馬芳,吳保民,王炳錫.一種面向英漢機(jī)器翻譯的從句識別方法[J].信息工程大學(xué)學(xué)報(bào),2006,7(2):193-196.

        [11]戚世遠(yuǎn).英漢機(jī)器翻譯中的語義分析[J].計(jì)算機(jī)應(yīng)用與軟件,1993(4):54-58.

        [12]段綺麗.機(jī)器翻譯中詞義的常識排歧[J].重慶大學(xué)學(xué)報(bào):自然科學(xué)版,2005,28(3):69-71.

        [13]魯孝賢.機(jī)器翻譯語義排歧的方法[J].中國科技翻譯,2007(4):22-25.

        [14]王祁,鄒冰.現(xiàn)行英漢機(jī)器翻譯系統(tǒng)存在的問題及解決策略[J].東北大學(xué)學(xué)報(bào):社會科學(xué)版,2003,5(5):388-390.

        [15]湯聞勵(lì).英漢機(jī)器翻譯的“可能”與“不可能”[J].廣東職業(yè)技術(shù)師范學(xué)院學(xué)報(bào),2002(2):84-88.

        猜你喜歡
        源語言目標(biāo)語言英漢
        林巍《知識與智慧》英譯分析
        淺析日語口譯譯員素質(zhì)
        教材插圖在英語課堂閱讀教學(xué)中的運(yùn)用及實(shí)例探討
        跨文化視角下對具有修辭手法諺語英譯漢的研究
        速讀·下旬(2016年7期)2016-07-20 08:50:28
        商務(wù)英語翻譯中英漢褒貶義詞的應(yīng)用探討
        以口譯實(shí)例談雙語知識的必要性
        考試周刊(2015年36期)2015-09-10 15:03:38
        淺談英漢習(xí)語的文化差異及翻譯方法
        二語習(xí)得過程中的石化現(xiàn)象分析
        英漢文化中的委婉語應(yīng)用對比分析
        概念任務(wù)下中英雙語者非目標(biāo)語言的詞匯通達(dá)
        亚洲av色香蕉一区二区三区av| 久久夜色精品国产噜噜麻豆| 国产成人久久精品77777综合| 91国在线啪精品一区| 亚洲一码二码在线观看| 毛片精品一区二区二区三区| 蜜桃av在线免费网站 | 妺妺窝人体色www看人体| 亚洲精品乱码久久久久久久久久久久| 狠狠躁夜夜躁人人爽天天| 精品黄色av一区二区三区| 最新日本女优中文字幕视频| 国产av无码专区亚洲av果冻传媒| 国产白袜脚足j棉袜在线观看| 人人妻人人玩人人澡人人爽| 人妻少妇看A偷人无码电影| 9l国产自产一区二区三区| 大陆老熟女自拍自偷露脸| 7m精品福利视频导航| 色窝窝免费播放视频在线| 亚洲人成绝费网站色www| 亚洲成熟中老妇女视频| 黑人巨大精品欧美| 在线视频观看免费视频18| 少妇高潮喷水正在播放| 亚洲av套图一区二区| 精品一区二区av在线| 夹得好湿真拔不出来了动态图 | 亚洲精品久久区二区三区蜜桃臀| 久久久久久久性潮| 无码国产一区二区色欲| 中文乱码字幕在线亚洲av | 亚洲一区二区视频免费看| 亚洲国产精品无码成人片久久| 40岁大乳的熟妇在线观看| 伊人久久大香线蕉在观看| 亚洲麻豆av一区二区| 国产高颜值女主播在线| 激情综合色综合啪啪五月丁香| 亚洲女同精品一区二区久久| 久久久99精品国产片|