亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于平行語料庫的英語人名譯名識別

        2012-02-23 01:15:26童毅見
        大學英語(學術版) 2012年1期
        關鍵詞:歧義音節(jié)平行

        童毅見

        (解放軍外國語學院,河南洛陽 471003)

        一、平行語料庫概述

        平行語料庫是一種特殊的語料庫,主要是指雙語平行語料庫,即語料庫中的兩種語言文本構成互譯的關系。一般來說,只要兩種語言的語料達到篇章級譯文對應就可以稱之為平行語料,但是在實際應用中我們通常對平行語料庫有著更高的要求,例如要求題材分布大致平衡的雙語平衡語料庫、要求平行文本內句子、短語或詞匯對齊的雙語對齊語料庫等。

        1.構建平行語料庫的意義

        平行語料庫在機器翻譯中有重要的應用。對于基于實例的機器翻譯(EBMT)而言,對齊的雙語平行語料庫構成了其知識的主要部分。通過平行語料庫構建實例庫,對輸入的句子,在實例庫中檢索類似的翻譯實例,調整實例后生成譯文,此外還可以利用翻譯記憶庫構成新的平行文本添加到實例庫中,提高譯文質量。對于基于統(tǒng)計的機器翻譯(SBMT),句對齊的雙語平行語料庫通常被用來進行參數(shù)訓練,優(yōu)化翻譯模型(或對齊模型),同時,通過平行語料庫,還可以抽取如科技術語、命名實體等等價對,將其補充到詞典中去,能有效地改善譯文的質量。對基于轉換的機器翻譯而言,平行語料庫也能在詞法、句法分析過程中,發(fā)揮重要的作用。就漢、英兩種語言而言,盡管目前沒有漢英平行樹庫問世,但是可以預見,高質量的漢英雙語平行樹庫的建設對漢語、英語信息處理,尤其是漢英機器翻譯有著巨大的推動作用,而這一切的基礎就是構建高質量的漢英雙語平行語料庫。

        此外,平行語料庫在雙語詞典編撰、術語庫的建立、多語信息抽取、詞義消歧等方的應用也取得了豐碩的成果(孫樂等 2000)。除了自然語言處理領域,平行語料庫也是語言學研究的重要工具,在比較語言學、語言教學、第二外語習得等研究領域得到了廣泛的應用。

        2.平行語料庫的平行處理

        歧義現(xiàn)象廣泛地存在于自然語言中,自然語言處理的關鍵在于消歧。關于消歧的研究成果眾多,但利用雙語平行語料庫自身特點來解決單語歧義問題的研究卻少之又少。馮敏萱等提出平行語料庫的平行處理技術,即在處理一種語言時,盡量借助另一種語言來消除本語言的歧義。我們可以從Ido Dagan的研究中為這種方法找到理論依據,Ido Dagan等(1991)認為“兩種語言比一種語言蘊含信息更多”。通常來說兩種語言歧義的發(fā)生是交替的,中文發(fā)生歧義時,英文可能沒有歧義,例如“雞不吃了”,我們很容易通過其英文翻譯得到其確定的語義信息;同理,當英文發(fā)生歧義時,中文也可能沒有歧義,例如英文詞匯“fly”,當它做名詞時,可表示“蒼蠅、門簾”等,可以借助其中文翻譯來消除詞匯層的歧義。這種歧義發(fā)生的交替性,使得利用雙語平行語料庫的平行處理技術進行單語消歧是可行的。

        利用平行處理技術解決單語層面的歧義問題可以在詞法、句法、語義甚至語境等多個層面上展開。本文利用漢英雙語語料庫來識別中文文本中的外國人名譯名,屬于平行語料庫的平行處理技術在詞法分析層面的利用。

        二、外國人名譯名識別的研究現(xiàn)狀

        漢語自動分詞有兩個難點,一是歧義切分的問題,另一就是未登錄詞識別問題。所謂未登錄詞是指分詞系統(tǒng)的詞典中沒有收錄的詞。外國譯名的識別屬于未登錄詞識別中的專有名詞識別。在漢語分詞過程中,如果文本中存在未被識別的外國譯名,則很容易造成分詞錯誤。目前,我們常用的一些分詞工具如中科院詞法分析器(ICTCLAS)中尚無外國人名的漢譯名識別模塊。例如我們在ICTCLAS 2011中,輸入句子“國際田聯(lián)取消費爾南多的參賽資格”,得到的切分結果如下:

        國際/n田聯(lián)/n取/v消費/v爾/y南/f多/a的/u參賽/v資格/n

        可見,外國人名譯名的識別對自動分詞的重要性。

        外國人名譯名相比于中國人名、地名而言,有自己的特點,例如外國譯名用字比中國地名用字更有規(guī)律、譯文中通常含有多字詞等。對外國人名譯名的識別,通常采用統(tǒng)計的方法,在識別過程中,也可以利用上下文信息,這種上下文信息包括“總統(tǒng)”、“夫人”、“先生”等稱謂,也可以是諸如“約翰·史密斯”中間的符號“·”。對于上下文信息不明確的外國人名譯名,可以利用其自身的特點,使用一個譯名表來統(tǒng)計譯名的用字特征,并根據詞串內部特征確定譯名邊界(孫茂松,張維杰 1993)。此外,孫宏林(2001)利用《英語譯名手冊》來統(tǒng)計譯名首、中、末等位置信息的方法來識別英語人名譯名;方華等(2004)提出一種運用改進分詞方法進行外國譯名識別的研究。值得說明的是,這些方法都是基于單語種的。

        三、基于平行語料庫的英語人名譯名識別實驗設計

        考慮到我們采用的雙語平行語料庫均為英漢平行語料庫,其中所涉及的外國人名多為英語人名,所以本文主要做英語人名譯名的識別。

        我們利用平行語料庫進行中文文本中英語人名譯名識別的基本思路是:首先從英語文本中找出可疑的英文詞匯,作為原英文人名候選集,然后利用英漢音字對應表,對候選集中的每個詞匯進行首音節(jié)和尾音節(jié)分析,并在中文文本中搜尋是否同時包含首音節(jié)和尾音節(jié)對應的漢字,并且對其位置有一定的限制,找出譯名的邊界。將滿足要求的中文對應結果存儲下來,最后依據英漢音字對應表中的頻率信息進行篩選。

        實驗中用到的《英漢音字對應表》是馮敏萱博士(2006)根據英漢發(fā)音規(guī)則,利用譯名庫,記錄下的全部英語人名譯文用字的字形、頻率、可對應的多種英語人名音節(jié)及漢語拼音的聲韻形式。將其轉換為ACESS數(shù)據表,如圖1所示。表中一共包含6個字段,其中ID為編號,是該表的主鍵。CW是中文字、PY是拼音、EW是對應的英文音節(jié)、count是頻數(shù)、ratio是頻率信息。

        圖1:英漢音字對應表

        1.實驗算法

        實驗算法如下:

        第一步:從英語文本中找出原英文人名候選集,首先將所有句子的首個單詞到常用詞詞典(不含人名)中去查找,如果包含在常用詞詞典中,則將其舍棄,否則加入候選集。其次將所有出現(xiàn)在句中的首字母大寫的詞匯加入候選集,最后去除諸如“Lady、Miss、Mr”等噪音詞匯。在加入候選集的過程中,我們還記錄了對應句子的編號,方便從對應的中文句中找對應字。實際上,我們也可以采用英文詞性標注工具選出標注為“/NNP”的英文詞作為候選集,不過我們的方法可以從一定程度上擴展候選集,增加召回率。

        第二步,對每一個候選人名,取出其所有可能的首音節(jié)及其對應漢字,在去除相應首音節(jié)后剩余的字符串中取出所有可能的尾音節(jié)及其對應漢字。為了避免諸如“Ana:安娜”這種首尾音節(jié)共用一個字母的情況,我們將剩余字符串的長度往左移一位。

        第三步,在對應的中文句中,找到首漢字和尾漢字出現(xiàn)的位置,并要求尾漢字在首漢字后面,總字符串長度小于英文字母的個數(shù),兩個位置之間不允許出現(xiàn)非中文字符。將滿足條件的原英文人名和可能翻譯人名加入到詞典中,并去掉重復的結果。

        第四步,利用頻率信息,進行篩選。對于同一英文名對應多個漢語詞的情況,利用首尾音節(jié)頻率的乘積,選出頻率最大的一個。

        例如候選詞“Jupiter”,其首音節(jié)可能是“j”,對應漢字包括“朱”、“吉”,也可能是“ju”,對應的漢字包括“賈”、“朱”、“求”;其尾音節(jié)可能是“r”、“er”、“ter”,對應的漢字包括“爾、勒、沃、魯、羅、雷、里、拉、賴、麗、落、利、亞、阿、厄、埃、歐、特、廷、得、塔”,在中文文本中進行搜索,滿足條件的只有“朱庇特”。

        2.實驗結果及分析

        利用上述算法,我們在中科院語言資源平臺上下載的1500句對平行語料庫上進行了測試。實驗使用了窗口程序,結果顯示如下:

        圖2:實驗結果顯示窗口

        按詞例數(shù)來計算召回率、正確率和調和平均值,得到的結果如下:

        召回率=100%*識對的漢譯名/英文人名=88.4%

        正確率=100%*識對的漢譯名/使出的漢譯名=97.4%

        調和平均值(F-measure)=100%*(2*召回率 *正確率)/(召回率+正確率)=92.7%

        從實驗結果來看,召回率不是很理想,漏識的主要類別有:

        第一,平行語料庫自身未匹配,如中文文本中的“埃米”,英文中用“she”來代替;

        第二,有些人名直接以英語形式寫入到漢語中;

        第三,“英漢音字對應表”尚不完備,有一些音節(jié)和對應字未加入表中;

        第四,算法中對于如“潘”,這種單字情況沒有考慮;

        不過通過實驗,我們也發(fā)現(xiàn),這種音字匹配的方法還召回了不少英文地名譯文,如“Rome(羅馬)”等。

        四、總結和展望

        基于平行語料庫的英語人名譯名識別,只是平行語料庫的平行處理技術在詞法層面的一個簡單應用。

        就本實驗而言,我們還需要在更大的數(shù)據上進行測試,同時對算法進行改進,以得出更好、更精確的結果,我們采用的平行語料庫是英語為原文而漢語為譯文的“英漢平行語料庫”,實際上如果采用漢語為原文、英語為譯文的“漢英平行語料庫”我們還可以研究中文人名翻譯成英文的特點,從而進行中文人名的識別。此外,我們還可以進行其它國人名和音譯的地名、機構名的識別。

        就平行語料庫而言,我們可以在分詞、詞性標注、語義標注等多個層次的應用上利用平行處理技術,使之發(fā)揮更大的作用。

        Dagan,I.&Itai,A.&Schwall,U.(1991).Two Languages Are More Informative Than One[A].Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics.

        方華,王振華,陸汝占,劉紹明(2005).運用改進的分詞方法進行外國譯名設別的研究 [J].計算機仿真(3)。

        馮敏萱(2006).論漢英平行語料的平行處理 [D].南京師范大學博士學位論文。

        孫宏林(2001).現(xiàn)代漢語非受限文本的實語塊分析 [D].北京大學博士論文。

        孫樂,金友兵,杜林,孫玉芳(2000).平行語料庫中雙語術語詞典的自動提取 [J].中文信息學報(6)。

        孫茂松,張維杰(1993).英語姓名譯名的自動辨識,計算語言學研究與應用 [M].北京:北京語言大學出版社。

        猜你喜歡
        歧義音節(jié)平行
        向量的平行與垂直
        平行
        逃離平行世界
        eUCP條款歧義剖析
        中國外匯(2019年12期)2019-10-10 07:26:58
        拼拼 讀讀 寫寫
        English Jokes: Homonyms
        藏文音節(jié)字的頻次統(tǒng)計
        再頂平行進口
        汽車觀察(2016年3期)2016-02-28 13:16:36
        “那么大”的語義模糊與歧義分析
        快樂拼音
        国产人在线成免费视频| 精品视频在线观看日韩| 亚洲av中文无码乱人伦下载| 精品人妻伦九区久久aaa片69| 国产成人av一区二区三区在线观看 | 亚洲AV秘 无码二区在线| 大量老肥熟女老女人自拍| 精品一区二区三区牛牛| 欧美疯狂性受xxxxx喷水| 天堂а√在线中文在线新版 | 国产精品国产三级国产三不| 91久久国产香蕉熟女线看| 久久久久久久久毛片精品| 狠狠做深爱婷婷久久综合一区| 色丁香在线观看| 亚洲AV无码国产精品色午夜软件| 青草草视频在线观看华人免费| 加勒比一本heyzo高清视频| 久久精品亚洲中文字幕无码网站| 国产午夜视频免费观看| 国产精品高清亚洲精品| 亚洲蜜臀av一区二区三区| 精品欧洲av无码一区二区| 日韩中文字幕不卡网站| 日本中文字幕人妻精品| 红桃av一区二区三区在线无码av| 色狠狠av老熟女| 人妻无码人妻有码不卡| 韩国三级黄色一区二区| 亚洲av高清一区二区三| 国产一区二区精品久久| 中文亚洲日韩欧美| 亚洲欧洲国无码| 久久人妻精品中文字幕一区二区| 久久无码高潮喷水抽搐| 久热综合在线亚洲精品| 一区欧美在线动漫| 久久亚洲中文字幕伊人久久大| 伊人久久大香线蕉av色婷婷色 | 麻豆婷婷狠狠色18禁久久| 免费无码午夜福利片69|