亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于熵模型的英漢人名對齊

        2016-05-04 01:14:56劉穎曹項
        中文信息學報 2016年3期
        關鍵詞:音譯命名詞典

        劉穎,曹項

        (清華大學 中文系,北京 100084)

        基于熵模型的英漢人名對齊

        劉穎,曹項

        (清華大學 中文系,北京 100084)

        該文使用熵模型來對中英文雙語語料進行人名對齊。熵模型綜合利用雙語人名詞典、雙語姓氏詞典、詞匯對齊概率、中英文人名的共現(xiàn)特征、基于最小編輯距離的音譯相似度和基于語音匹配的音譯相似度。實驗結果表明,基于熵模型的中英文人名對齊在大規(guī)模語料庫的實驗中達到了較好的人名對齊正確率和召回率。我們分析了人名對齊存在的主要錯誤,并針對主要錯誤給出了可能的解決方案。

        人名對齊;熵模型;音譯相似度; 最小編輯距離;詞典

        1 引言

        中英文命名實體對齊尤其是人名的對齊一直是自然語言處理中一個非常重要的課題,它對于機器翻譯、跨語言信息檢索的發(fā)展具有重要作用[1]。

        目前,基于雙語語料庫的命名實體對齊主要有基于音譯的方法、基于雙語平行語料庫的方法和基于雙語可比較語料庫的方法。

        基于音譯的統(tǒng)計首先從雙語語料庫中對齊的命名實體對或雙語詞典中學習帶有概率的音譯規(guī)律,然后利用學習的知識對新的命名實體進行排序,從而產(chǎn)生最優(yōu)翻譯?;谝糇g的統(tǒng)計方法把一種語言的命名實體A翻譯到另一種語言命名實體B的主要思路是: 首先把命名實體A轉(zhuǎn)換成其發(fā)音,然后把A發(fā)音轉(zhuǎn)換成B的發(fā)音,再把B發(fā)音轉(zhuǎn)換成命名實體B。Kevin Knight[2]把英語命名實體翻譯成日語的命名實體。首先把英文短語轉(zhuǎn)換成英文發(fā)音序列,然后把英文發(fā)音序列轉(zhuǎn)換成日文發(fā)音序列,再把日文發(fā)音序列轉(zhuǎn)換成日文片假名。Bonnie G S[3]改進了文獻[2]的方法并把阿拉伯語命名實體翻譯成英語。Helen M M[4]建立了英語音節(jié)規(guī)則、英文音素串與中文拼音音節(jié)對應規(guī)則和中文拼音生成規(guī)則,綜合運用詞的翻譯、二元概率模型和最優(yōu)搜索從收音機播放的漢語故事中檢索英文命名實體。Yaser Al-Onaizan[5]把阿拉伯命名實體翻譯成英語,利用英語詞概率、英語詞發(fā)音概率、英語發(fā)音轉(zhuǎn)換成阿拉伯書面語的概率以及英語詞轉(zhuǎn)換成阿拉伯字符序列的概率。Yuqing Guo[6]把音譯過來的漢語人名轉(zhuǎn)換成漢語拼音,然后把漢語拼音轉(zhuǎn)換成相應的英語子音節(jié),再把英語子音節(jié)轉(zhuǎn)換成英語人名。Chun-Jen Lee[7]使用音譯模型從雙語語料庫中抽取音譯對,該方法不使用語音詞典,也不需要人工給出雙語詞對的語音相似度,模型中的參數(shù)值從雙語人名列表中自動學習得到。Li Haizhou[8]和Asif Ekbal[9]采用聯(lián)合信源信道模型(n元音譯模型),以因素為基礎來計算中英文間的翻譯概率。龐薇[10]研發(fā)了一種基于WFST加權有限狀態(tài)轉(zhuǎn)換器的人名翻譯系統(tǒng),以字符串轉(zhuǎn)換和發(fā)音轉(zhuǎn)換等為基礎進行人名翻譯?;诮y(tǒng)計的音譯方法處理非音譯命名實體(例如,Jackie Chan(成龍))有困難,并且準確率較低。

        基于平行語料庫的統(tǒng)計方法主要從雙語語料庫對齊的命名實體及上下文統(tǒng)計多個特征,然后綜合利用這些特征對齊新的命名實體。一般統(tǒng)計的特征包括: 音譯相似度、共現(xiàn)特征、互信息、對齊概率和語義相似度等。Fei Huang[11-12]提出的命名實體翻譯模型,把語音相似度和語義相似度相結合。語音相似度是根據(jù)表面字符串音譯模型來估計,語義相似度是根據(jù)上下文向量語義模型來估計。陳懷興[13]對源語言進行命名實體標注而對目標語言不標注,并利用隱馬爾科夫模型來進行命名實體對齊。陳鈺楓[14]對漢英雙語對齊的句子,分別識別出其中包含的漢英命名實體,再把意譯特征、音譯特征和共現(xiàn)特征結合到對齊模型中進行命名實體對齊?;谄叫械碾p語語料庫統(tǒng)計方法可獲得高質(zhì)量的命名實體翻譯,但大規(guī)模的雙語平行語料庫比較缺乏。

        目前可利用的非平行雙語語料庫主要是可比較的雙語語料庫和兩個單語言語料庫??杀容^的雙語語料庫指的是互不為翻譯但討論的是相同或相關主題的雙語文本?;诳杀容^的雙語語料庫統(tǒng)計方法主要利用實體間、實體的上下文以及實體的關系來發(fā)現(xiàn)其他實體間的翻譯。Jinhan Kim[15-16]從可比較的語料庫中抽取命名實體翻譯,把跨語言命名實體間的語音相似度、命名實體上下文間的相似度、命名實體間關系的相似度和命名實體關系上下文的相似度結合起來,形成一個整體的圖映射方法。Taesung Lee[17]把雙語命名實體的種子翻譯評分、命名實體的語義關系相似度評分和命名實體的相似文檔對的評分結合起來,通過迭代方法抽取命名實體翻譯結果。Gae-Won You[18]利用音譯相似度從搜索引擎搜索的兩個單語語料庫抽取命名實體關系圖,然后通過確定命名實體關系圖中的匹配映射來發(fā)現(xiàn)其他命名實體的翻譯。張永臣[19]首先利用雙語普通詞典和詞典中的詞在語料庫中出現(xiàn)的頻率選擇種子詞,然后利用詞匯與種子詞在雙語非平行語料的共現(xiàn)關系建立向量空間,并根據(jù)向量相似度來抽取專業(yè)領域雙語詞典??梢垣@取大規(guī)模的非平行雙語語料庫,但由于兩個語料庫的實體及實體關系不是嚴格的一對一關系,導致該種方法的實體翻譯準確度不高[20-21]。

        由此可見,對命名實體對齊,因命名實體的音譯特征比較顯著,大部分命名實體翻譯中均運用了不同種類的音譯模型或音譯相似度[22]。但Fei Huang[12]、陳鈺楓[14]指出不同類別的實體傾向于不同的對齊形式,人名對齊主要是音譯形式,地名和機構名的對齊是意譯和音譯形式的組合。陳鈺楓[14]進一步針對LDC機構發(fā)布的漢英雙語命名實體語料庫(LDC 2005T34)進行統(tǒng)計,發(fā)現(xiàn)人名翻譯對音譯詞占100%,地名翻譯對音譯詞占89.4%,機構名翻譯對音譯詞占12.6%。本文在他人研究的基礎上,使用熵模型進行英中人名對齊。熵模型綜合利用人名詞典、姓氏詞典、詞匯對齊概率、中英文命名實體的共現(xiàn)特征、基于最小編輯距離的音譯相似度和基于Metaphone 語音匹配的音譯相似度六個特征。本文熵模型的主要特色是綜合了音譯、統(tǒng)計和詞典等三大類適用于人名對齊的特征。每一類特征中又分別采取兩種方法來取長補短: 詞典特征采用了人名全名詞典和常見姓氏詞典;統(tǒng)計特征綜合了人名共現(xiàn)信息和上下文信息;音譯特征運用了基于最小編輯距離的音譯相似度和基于Metaphone的音譯相似度。詞典特征可以有效地對齊常見的中英文人名,同時對語料庫中未識別出的人名和識別錯誤的人名進行補充和修正。音譯特征符合了絕大多數(shù)中英文人名對是以音譯為主的現(xiàn)象,從發(fā)音相似角度發(fā)現(xiàn)互為翻譯的人名。統(tǒng)計特征綜合考慮了詞語對齊過程中的統(tǒng)計和上下文等信息,兩個詞的上下文信息越相似,兩個詞的語義越相近。

        本文主要內(nèi)容安排如下: 第二部分介紹英中人名對齊過程。第三部分介紹熵模型。第四部分介紹實驗過程、實驗結果、結果分析、錯誤類型分析和可能的解決方案。最后給出結論。

        2 英中人名對齊過程

        本文主要探討由英文人名到中文人名的對齊?;陟啬P偷挠⒅腥嗣麑R步驟:

        (1) 對英中雙語語料庫進行標序號處理和拆分。

        (2) 對中文進行分詞,并對中英文進行人名識別。

        采用斯坦福大學命名實體識別程序NER*http://nlp.stanford.edu/software/CRF-NER.shtml對英文人名進行識別。采用中國科學院計算技術研究所研發(fā)的ICTCLAS系統(tǒng)*http:// ictclas.nlpir.org/對漢語進行分詞和詞性標注,同時也會識別出人名命名實體,如nr代表人名、nr1代表漢語姓氏、nr2代表漢語名字、nrj代表日語人名、nrf代表音譯人名等。

        人名識別可以提高漢語切分、詞性標注、詞語對齊、句法分析以及機器翻譯的準確率。 張華平實現(xiàn)的基于角色標注的中國人名識別提高了ICTCLAS的切分正確率1.41%[23]。本文中人名識別可以提高人名對齊的準確率。

        進一步利用人名詞典和姓氏詞典對NER和ICTCLAS系統(tǒng)識別的結果進行修正和補充。

        (3) 從經(jīng)過處理的中文語句中篩選、提取生成與英文人名相對應的中文人名候選。

        英文人名被識別后,對于含兩個或三個標注為PERSON(中間不含逗號、頓號等標點符號) 的英文人名,則把它們合并作為一個人名對待。例如,F(xiàn)rancis/PERSON Harvey/PERSON可以合并成Francis Harvey/PERSON。對于拼音人名,姓氏首字母一般都大寫,名字可能有一個字或多個字。名字為一個字時,名字的拼音首字母大寫;名字為多個字時,名字的第一個字首字母大寫,第二個字首字母可以大寫也可以小寫。此外遵照西方傳統(tǒng),有些個別語料中也會把名字放在姓氏的前面。例如,Yang Lijun,Yang LiJun,Yang Li Jun,Yang Li-Jun,Yang Li-jun,Lijun Yang,LiJun Yang,Li Jun Yang,Li-jun Yang,Li-Jun Yang。所有這些情況都合并成一個人名。

        中文人名組成規(guī)律有“姓+名,姓,名,前綴+姓,姓+后綴,姓+姓+名”等多種情況。對于句子中只出現(xiàn)單獨的姓或單獨的名,則直接可以與英文的人名對齊。對于“姓+名,前綴+姓,姓+后綴,姓+姓+名”四種情況,則把它們合并作為一個完整的人名與英文的人名對齊。

        對于邊界識別錯誤的中文人名,需要進行邊界修正。

        例如,洛/b 夫/n 喬伊/nrf,/wd 居/v 無/v 定/v 所/q,/wd 被/pbei 控/v 謀殺/vn。/wj

        Lovejoy/PERSON,of no fixed abode,was charged with murder.

        Lovejoy和“洛夫喬伊”這對人名在中文中只識別對了“喬伊”部分,我們借鑒了蔣龍[20]提出的方法來對人名識別錯誤的邊界進行修正。首先,估計與英文人名相對應的中文人名長度,我們把英文人名進行音節(jié)分解,如“Smith史密斯”有“S”,“mi”和“th”三個音節(jié),其對應的中文名字的最大長度應為音節(jié)數(shù)目3,最小長度應為元音的音節(jié)數(shù)目1。而Lovejoy的最大長度是4,最小長度是3,我們以識別出來nrf的“喬伊”為中心,向左側和右側自動延伸1或2個漢字,從而形成長度為3至4的符合要求的候選詞,如“夫喬伊”和“洛夫喬伊”等。

        (4) 用GIS算法[24]對熵模型參數(shù)進行迭代訓練。采用Och開發(fā)的YASMET*http://www-i6.informatik.rwth-aachen.de/web/Software/來訓練。

        (5) 用訓練過的熵模型對中文人名的候選詞進行排序,從而輸出最優(yōu)的英中人名實體對。

        3 熵模型

        我們采用熵模型對英漢人名進行對齊。最大熵原理是Jaynes E T[25]提出的,其主要思想是: 在只掌握關于未知分布的部分知識時,應該選取符合這些知識但熵值最大的概率分布。Berger Adam L[26]將它應用于自然語言處理中來建立語言模型。熵模型一個最為重要的優(yōu)點是可以將各種不同信息的知識運用到同一個模型中,從而解決一些相對復雜的問題。目前熵模型已廣泛應用于自然語言處理中,比如文本分類、切分和詞性標注、詞語對齊、短語對齊和機器翻譯等,并在這些方面取得了令人滿意的結果。英中人名對齊的概率公式為式(1)[27]。

        (1)

        其中CN是中文人名候選詞,EN是英文人名,i為熵模型特征數(shù)量,取值范圍為1~6,F(xiàn)1到F6為六個特征函數(shù),依次為人名詞典、姓氏詞典、基于GIZA++的詞匯對齊概率、中英文命名實體的共現(xiàn)特征、基于最小編輯距離的音譯相似度和基于Metaphone語音匹配的音譯相似度。

        英中人名對齊的最大熵模型為(2),根據(jù)(2),我們可以得到熵值最大的中文人名。

        (2)

        為了獲取熵值最高的n個(記為top-n)結果,我們使用熵模型式(3)。當n=1時,式(3)就是式(2)。

        (3)

        3.1 人名雙語詞典

        我們通過詞典進行匹配查詢。

        (4)

        (1) 常見的通過英文音譯的中文人名,約800條,如約翰(John)、史密斯(Smith)等;

        (2) 中文知名人士詞典及其譯文,約200條,如胡錦濤(HuJintao)和賈寶玉(JiaBaoyu)等;

        (3) 英文知名人士詞典及其譯文,約100條,如巴菲特(Buffett)、奧巴馬(Obama) 等。

        3.2 雙語姓氏詞典

        我們對中文名字的首字進行匹配查詢。

        (5)

        式(5)表示: 如果(CN,EN)的姓出現(xiàn)在雙語姓氏詞典D2中,則特征函數(shù)F2(CN,EN)賦值為1,否則為0。姓氏詞典共400多條,例如,趙(Zhao)、王(Wang)和李(Li)等。

        3.3 基于GIZA++的詞匯對齊概率

        GIZA++是GIZA的改良版*http://www-i6.informatik.rwth-aachen.de/web/Software/,采用了IBM公司提出的五個模型和隱馬爾科夫模型,可以從句子對齊得到雙語詞匯對齊的概率。

        (6)

        其中,P(CN,EN)是根據(jù)GIZA++得到的中文翻譯候選詞CN與英文人名EN對齊的概率,如John—約翰 1;John—時約 5.72726e-08等。GIZA++詞匯對齊考慮了詞匯之間一對一、一對多和多對一等情況,同時考慮了詞匯對齊的位置和語言模型。語言模型中考慮了上下文的情況。

        3.4 共現(xiàn)特征

        語料庫中人名共現(xiàn)特征對于命名實體的識別和對齊也有重要意義。中英文名字在一個中英文句對中的共現(xiàn)次數(shù)也可以成為其是否為翻譯等價對的特征之一,本文使用的共現(xiàn)頻率特征如式(7)所示。

        (7)

        其中,f(CN,EN)是中英文人名同時在中英句對中共現(xiàn)的次數(shù),f(EN)是英文人名EN在所有雙語句對中出現(xiàn)的次數(shù),f(CN)是中文人名CN在所有雙語句對中出現(xiàn)的次數(shù)。F4(CN,EN)綜合了條件概率P(CN|EN)和P(EN|CN)。

        3.5 基于最小編輯距離的音譯相似度

        關于英文人名和中文人名的音譯相似度,我們借鑒并改進了Gae-won You[18]的編輯距離。其基本原理就是將中文名字轉(zhuǎn)換成拼音序列,與英文名字的字母序列進行比對,并計算出由中文名字拼音序列轉(zhuǎn)換成英文名字字母序列的編輯距離,由此得出中英文人名從發(fā)音角度的相似度概率。

        采用式(8)來計算中文名字CN和英文名字EN的發(fā)音相似度概率。

        (8)

        CPY是將CN轉(zhuǎn)換成標準普通話的拼音序列。Num(x)是計算x的字符個數(shù)。ED(EN,CPY)是指從EN到CPY的最小編輯操作數(shù)量,包括插入、刪除及替換等。例如,對中英文名字對“比爾·蓋茨 — Bill Gates”,CPY=bi er gai ci,EN=Bill Gates,EN和CPY的最小編輯距離ED是5,最佳的編輯路徑是Bill—Bi er,ED為2;Gates—gai ci,ED為3?!氨葼枴どw茨 — Bill Gates”的發(fā)音相似度為1-5/9=0.44。如果英文人名是按照中文拼音直接翻譯而來,則其最小編輯距離為0,音譯相似度為1。例如,胡錦濤—Hu Jintao,音譯相似度為1。如果兩個相同長度的名字之間沒有任何相同字母,F(xiàn)5=0。而按Gae-won You[18]的公式則為1/2。這是我們對基于最小編輯距離的音譯相似度的改進。

        另一方面,由于輔音在發(fā)音中占據(jù)很重要的角色,而元音在發(fā)音過程中存在不穩(wěn)定性[22]。我們也從輔音字母的角度來考察英中人名的相似程度。

        3.6 基于語音匹配的音譯相似度

        Lawrence Philips[28]開發(fā)了Metaphone語音匹配系統(tǒng)*http://en.wikipedia.org/wiki/Metaphone,主要通過單詞的英文發(fā)音對單詞進行檢索,被廣泛應用于英文拼寫錯誤檢查中。2009年Metaphone更新了最新版本Metaphone 3,優(yōu)化了對英文和與英文近似語言的語音解碼,同時加強了對美國常見人名姓氏的解碼,把準確度從Double Metaphone的89%提高到了Metaphone 3的99%。

        Metaphone通常采取16個符號—0、B、F、H、J、K、L、M、N、P、R、S、T、W、X、Y,字符0代表th,X代表sh或ch,元音A、E、I、O、U只有在詞首時才被保留,其他情況下刪除。

        基于Metaphone 語音匹配的音譯相似度計算公式為(9)。

        (9)

        中文名字CN通過拼音轉(zhuǎn)換得到拼音序列CPY,再把拼音序列CPY輸入到Metaphone系統(tǒng)中得到結果CPYM字符序列。ENM字符序列則是把英文單詞EN直接通過Metaphone系統(tǒng)解碼得到的。把中英文名字轉(zhuǎn)換得到的這兩串字符序列求交集后得到的字符個數(shù)乘2,再除以CPYM與ENM的字符個數(shù)之和得出其相似度值。比如史蒂芬·喬布斯(Steve Jobs),轉(zhuǎn)換后的CPYM為XTFN KBS,ENM為STFN JBS,所以ScoreMP(CN,EN)=2×5/(7+7)=0.72。

        4 實驗與結果分析

        4.1 實驗語料和評價標準

        本文的語料庫是一萬對英中文雙語句對語料庫,包括訓練語料9 000句對,測試語料1 000句對。其中英文人名的翻譯等價對(Colin—柯林)約占59.1%,中文拼音(溫家寶—Wen Jiabo)的翻譯等價對占32.6%,中英文拼音和譯名混合的翻譯等價對(成龍—Jackie Chan)約占1.8%,日韓等其他語言中英文人名翻譯等價對約占2.4%(福井—Fukui),其他情況約占4.1%。

        本文采用正確率(P)、召回率(R)和F值三個指標來對人名對齊進行評價。為了評價熵模型和其特征結合的效果,引入top-n 評價標準。P(top-n)是指經(jīng)排序后的前n個中文人名候選詞中含正確翻譯的人名占所有人名對的比例。

        4.2 實驗結果及分析

        我們采用詞典和基于GIZA++詞匯對齊概率作為我們的對齊基準系統(tǒng)。表1給出了使用熵模型分別在 top-1、top-3和top-6下的正確率,從第二行到第四行分別給出熵模型不同特征及特征組合下的正確率。通過實驗,當同時運用六個特征時,式(3)中的權重分別為:1=0.21,2=0.12,3=0.19,4=0.10,5=0.23,6=0.15,此時最大熵模型的正確率最高。

        從表1可以看出以下三個規(guī)律:

        (1) 當top-n中的n相同時,利用詞典和GIZA++的英中人名對齊正確率最低,隨著特征的增加,正確率逐步增加,同時考慮六個特征的正確率最高。

        (2) 當使用的特征相同時,隨著top-n中的n增加,正確率也增加。

        (3) 把詞典、熵模型的各種特征相結合的人名翻譯準確率最高。

        表2給出了在取不同特征及特征組合下基于最大熵模型的英中人名對齊的正確率、召回率和F值。從表2可以看出,隨著特征的增加,正確率、召回率和F值也逐步增加。

        表1和表2說明了我們選取的這些特征對于提高英中人名對齊的正確率、召回率和F值是有效的,也就是這些特征對于對齊英中人名確實是有幫助的。英中人名全名詞典包含了人名翻譯的正確信

        表2 基于最大熵的英中人名對齊的P、R和F值(%)

        息,是人名對齊的基礎。姓氏雙語詞典可以有效地給出人名中的部分信息,可以用來確定人名的界限,然后再根據(jù)英文人名的音節(jié)來判斷漢語人名的最小和最大長度,從而可以找出中文人名的界限?;贕IZA++的詞匯對齊不但考慮了英中文人名互為翻譯的概率、人名翻譯的位置信息,同時考慮了上下文信息(后一個詞匯的對齊與前一個詞匯對齊的位置和翻譯都是有關系的),這些信息對于判斷英中文人名翻譯是很有幫助的?;诠铂F(xiàn)特征不但考慮了給定英文人名的英中人名條件概率,同時考慮了給定中文人名的中英人名條件概率。這個特征對于兩者高頻共現(xiàn)比較有效。鑒于英中人名絕大多數(shù)從發(fā)音上都是相似的,音譯相似度從兩個角度考慮了英中人名的發(fā)音相似與否,從人名發(fā)音的層面給出了英文人名與中文人名之間存在的內(nèi)在語言學聯(lián)系信息。

        4.3 英中人名對齊的錯誤類型分析

        英中人名錯誤主要分四個類型: 語料預處理錯誤、雙語語料中只含有單語言的人名、邊界修正后仍存在錯誤以及熵模型排序錯誤等。

        (1) 預處理錯誤,主要包括: 切詞錯誤、詞性標注錯誤、人名未被識別出來或人名識別錯誤等。

        例1 該/rz 隱/v 對/p 弟弟/n亞伯/nrf 說/v : /wm “/wyz 我們/rr 到/v 野外/s 去/vf 吧/y。/wj ”/wyy

        該句中,“該/rz 隱/v”被切分和標注錯誤。

        例2 人名未被識別出來。

        例如,Lady Capulet looked down and stared at Juliet/PERSON in horror.

        Capulet這個人名未被識別出來。

        例3 人名被識別出錯誤。

        例如,The hostility that many Americans felt toward Freud/LOCATION is real.

        英文中Freud被錯誤地識別成地名。

        例4 其他非人名被識別出人名。

        例如,Poor/PERSON Ladawn/PERSON is a bleeding heart.

        Poor被錯誤標注成人名。

        (2) 雙語語料本身不存在人名對齊。英文句子中出現(xiàn)人名,中文句子中沒有與之對應的人名,而只出現(xiàn)了代詞。或者,中文句子中出現(xiàn)人名,英文中沒有與之對應的人名。

        例5 我/rr 還/d 會/v 給/p 你/rr 寫信/vi 的/ude1。

        I’ll write to you again,Laura/PERSON.

        中文中沒有與Laura相對應的人名。

        (3) 通過中文人名識別邊界修正后仍然存在錯誤。

        例6 卡布利特/nrf 夫人/n 往/p 下/f 看/v,/wd 然后/c 驚駭/a 地/ude2 凝視/v 茱/x 麗/ag 葉/ng。/wj

        中文人名“茱/x 麗/ag 葉/ng”識別錯誤,同時這三個字都沒有被識別成人名用字導致邊界修正模塊也失效。

        (4) 熵模型排序出現(xiàn)錯誤。

        (a) 一小部分英中人名不是根據(jù)發(fā)音翻譯的,并且在雙語語料庫中出現(xiàn)次數(shù)又很少,詞典中又未收錄該雙語人名。英中人名不符合音譯規(guī)律導致熵模型中的兩個音譯特征值比較小,頻率小導致兩個統(tǒng)計特征值很小,未在詞典中出現(xiàn)導致兩個詞典特征為0。從而6個特征的特征值都很小或為0。

        例7 如Ayumi Hamasaki—濱崎步,英文是通過日文發(fā)音翻譯過來,而中文譯名卻是從日文意譯而來。

        (b) 從雙語語料庫中獲取的人名翻譯與標準不一致。這主要是因為一部分英文人名有多個譯文,都是根據(jù)發(fā)音翻譯過來的。例如,Emily根據(jù)雙語語料的中文翻譯是“艾米莉”,而用來計算準確率的翻譯是“艾米麗”。

        (c) 最大熵排序出現(xiàn)問題。

        例8 吉姆/nrf ·/w 賈/nr1 木/ng 許/v 的/ude1 《/wkz 破碎/v 之/uzhi 花/n 》/wky 緊/d 隨/v 其/rz 后/f ……。

        “賈”字被識別成姓氏nr1,邊界修正后提取到了“賈木”“賈木許”“賈木許的”等翻譯候選詞,但熵模型排序未能將正確翻譯 “賈木許”排在首位。

        從上所述,導致英中人名對齊錯誤主要在于漢語切詞和詞性標注、英中人名識別、人名有多個譯名、雙語語料不存在人名對齊、人名邊界修正錯誤和熵模型排序等方面存在錯誤。其中,主要錯誤在于英語和漢語人名識別錯誤以及熵模型排序錯誤。為進一步提高人名對齊正確率和召回率,需要提高中文切詞、詞性標注和人名識別的正確率。 針對ICTCLAS系統(tǒng)和斯坦福大學命名實體識別程序NER識別的錯誤人名,采用李中國和劉穎提出的邊界模板和局部統(tǒng)計相結合的方法來進一步提高人名識別準確率[29]。對于熵模型排序錯誤,需進一步增加詞典的規(guī)模,進一步增加雙語語料庫的規(guī)模,同時利用大規(guī)模語料中正確的人名對來自動訓練六個特征的權重,使得人名對齊的正確率進一步提高。

        4.4 熵模型的優(yōu)勢

        (1) 熵模型利用了兩種類型的音譯特征,更突出了音譯特征。這樣可以對絕大多數(shù)以音譯為主的英中人名翻譯提供有力的數(shù)據(jù)支持。我們針對人名來進行對齊,就是因為對于人名、地名和機構名,音譯和意譯占的比例差距很大,并且不同的雙語語料三者所占的比例可能會有所不同。因此應該根據(jù)各自不同的規(guī)律給出適合三者的不同特征。

        (2) 我們首先利用雙語人名詞典和姓氏詞典來進行人名識別后的重新矯正和補充,然后利用雙語詞典來進行人名對齊。原因在于人名識別是人名對齊的基礎,人名識別的準確率高,人名對齊的準確率才有可能高。雙語詞典對于人名識別的一些錯誤可以有效地進行改正,對于沒有識別出的一些人名和姓氏可以進行適當?shù)难a充,從而適當?shù)財U大人名對齊的空間。姓氏列表與根據(jù)英文人名音節(jié)長度判斷的中文人名的最小和最大長度相結合提供了更多中文人名的候選,為進一步利用熵模型中的其他特征提供了比較有效的搜索空間。

        (3) 熵模型中利用了六個特征,既有語言學層面的特征(兩個詞典),也有統(tǒng)計層面的特征(兩個統(tǒng)計層面的特征—基于GIZA++的詞匯對齊和共現(xiàn)特征),也有與人名對齊緊密聯(lián)系的兩個音譯特征。而從我們的實驗中可以得出,我們所利用的這些特征對于人名對齊的確都是有幫助的。

        (4) 我們綜合利用了詞典和雙語平行語料。詞典是人名翻譯的基礎,尤其對于比較特殊的人名翻譯,放在詞典中比較有效。根據(jù)雙語平行語料進行的詞語對齊準確率比較高,但大規(guī)模的高質(zhì)量的雙語平行語料庫比較缺乏。

        下一步的工作是構建大規(guī)模的高質(zhì)量的雙語平行語料庫和從其他角度(例如,網(wǎng)絡挖掘)來獲取更多的人名翻譯。

        5 結論

        本文提出的基于熵模型的中英文人名對齊,綜合了人名詞典、姓氏詞典、詞匯對齊概率、中英文命名實體的共現(xiàn)特征、基于最小編輯距離的音譯相似度和基于Metaphone 語音匹配的音譯相似度六個特征,達到了較好的人名對齊及翻譯效果。把詞典、詞匯對齊、音譯相似度結合起來可以融合每種特征的優(yōu)勢,三種特征結合使得人名翻譯準確率最高。本文對實驗產(chǎn)生的結果及對齊錯誤進行了深入的分析,為進一步改進熵模型和提高英中人名對齊正確率奠定基礎。

        [1] Stephen Wan,Cornelia Verspoor. Automatic English-Chinese Name Transliteration for development of Multilingual Resources [C]//Processings of Coling-ACL 1998 : 1352-1356.

        [2] Kevin Knight,Jonathan Graehl.Machine transliteration[J]. Computational Linguistics. 1998,24(4): 599-612.

        [3] Bonnie Glover Stalls,Kevin Knight. Translating names and technical terms in Arabic text[C]//Proceedings of the Workshop on Computational Approaches to Semitic Languages.1998: 34-41.

        [4] Helen M.meng,Wai-Kit Lo,Berlin Chen et al. Generating phonetic cognates to handle named entities in english-chinese cross-language spoken document retrieval[C]//Proceedings of the Automatic Speech Recognition and Understanding. 2001: 311-314.

        [5] Yaser Al-Onaizan,Kevin Knight. Translating named entities using monolingual and bilingual resources[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. 2002: 400-408.

        [6] Yuqing Guo,Wang Haifeng. Chinese-to-English Backward Machine Transliteration[C]//Proceedings of the International Joint Conferences on Artificial Intelligence on Nature Language Processing. 2004.

        [7] Chun-Jen Lee,Jason S. Chang,Jyh-Shing Roger Jang. Extraction of transliteration pairs from parallel corpora using a statistical transliteration model[J]. Information Sciences. 2006,176(1): 67-90.

        [8] Li Haizhou,Zhang Min,Su Jian. A Joint Source-Channel Model for Machine Transliteration[C]//Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics. 2004: 21-26.

        [9] AsifEkbal,Sudip Kumar Naskar,Sivaji Bandyopadhyay. A Modified Joint Source-Channel Model for Transliteration[C]//Proceedings of the Coling/ACL 2006 Main Conference Poster Sessions.2006: 191-198

        [10] 龐薇,徐波.基于多模型融合的人名翻譯系統(tǒng)[J].中文信息學報,2009,23(1): 44-49.

        [11] Fei Huang,Stephan Vogel,Alex Waibel. Automatic extraction of named entity translingual equivalence based on multi-feature cost minimization[C]//Proceedings of the ACL 2003 Workshop on Multilingual and Mixed-language Named Entity Recognition. 15: 9-16.

        [12] Fei Huang,Stephan Vogel,Alex Waibel. Improving Named Entity Translation Combining Phonetic and Semantic Similarities[C]//Proceedings of the Human Language Technology Conference and the 3rd Meeting of the North American Chapter of the Association for Computational Linguistics. 2004: 281-288.

        [13] 陳懷興,尹存燕,陳家駿.一種命名實體翻譯等價對的抽取方法[J].中文信息學報,2008,22(4): 55-60.

        [14] 陳鈺楓,宗成慶,蘇克毅.漢英雙語命名實體識別與對齊的交互式方法[J].計算機學報,2011,34(9): 1688-1696.

        [15] Jinhan Kim,Long Jiang,Seung-Won Hwang et al. Mining Entity Translations From Comparable Corpora: a holistic Graph Mapping Approach[C]//Proceedings of the 20th ACM international conference on Information and knowledge management. 2011: 1295-1304

        [16] Jinhan Kim,Seung-won Hwang,Long Jiang,Young-In Song,Ming Zhou. Entity Translation Mining from Comparable Corpora: Combining Graph Mapping with Corpus Latent Features[J]. IEEE Trans. Knowl. Data Eng. 2012,25(8): 1787-1800.

        [17] Taesung Lee and Seung-won Hwang. Bootstrapping Entity Translation on Weakly Comparable Corpora[C]Proceedings of the The 51st Annual Meeting of the Association for Computational Linguistic. 2013: 4-9.

        [18] You Gae-won,Hwang Seung-won,Song Young-in,Jiang Long. Nie Zaiqing. Efficient Entity Translation Mining-A Parallelized Graph Alignment Approach[J]. ACM Transactions on Information Systems. 2012,30(4): 1-23.

        [19] 張永臣,孫樂,李飛等.基于Web數(shù)據(jù)的特定領域雙語詞典抽取[J].中文信息學報,2006,20(2): 16-23.

        [20] 蔣龍,周明,簡立峰.利用音譯和網(wǎng)絡挖掘翻譯命名實體[J].中文信息學報,2007,21(1): 23-29

        [21] 郭稷,呂雅娟,劉群. 一種有效的基于Web的雙語翻譯對獲取方法[J].中文信息學報,2008,22(6): 103-109

        [22] 趙明明,洪宇,姚建民,朱巧明. 基于音譯和網(wǎng)絡的命名實體翻譯方法研究[C]//第六屆全國信息檢索學術會議論文集. 2010: 357-366

        [23] 張華平,劉群.基于角色標注的中國人名自動識別研究[J].計算機學報.2004,Vol.27,No.1: 85-91.

        [24] J. N. Darroch,D. Ratcliff. Generalized Iterative Scaling for Log-Linear Models[J]. Annals of Mathematical Statistics. 1972,43(5): 1470-1480.

        [25] Jaynes,E.T. Information Theory and Statistical Mechanics[J]. Physical Review.2009,106(4): 620-630.

        [26] Berger,Adam L,Stephen A. Della Pietra,Vincent J. Della Pietra. A Maximum Entropy Approach to Natural Language Processing[J]. Computation Linguistic. 1996,22(1): 39-71.

        [27] Franz Josef Och,Hermann Ney. Discriminative Training and Maximum Entropy Models for Statistical Machine Translation[C]//Proceedings of the 40th Annual meeting of the Association for Computational Linguistics. 2002: 295-302.

        [28] Lawrence Philips. Hanging on the Metaphone[J]. Computer Language. 1990,7(12): 38-45.

        [29] 李中國,劉穎. 邊界模板和局部統(tǒng)計相結合的中國人名識別[J]. 中文信息學報,2006,20(5): 44-50.

        Entropy Based English-Chinese Person Name Alignment

        LIU Ying, CAO Xiang

        (Department of Chinese Language and Literature, Tsinghua University, Beijing 100084, China)

        Entropy model is used to align English-Chinese person name for English-Chinese parallel corpus. The model makes use of person name dictionary, surname dictionary, word alignment probability, co-occurrence feature, transliteration similarity based on minimum edit distance and transliteration similarity based on Metaphone. The experimental results show this method can achieve better precision and recall rate for large parallel corpus. We also investigate the alignment errors in English-Chinese person names and suggest possible solutions.

        person name alignment; entropy model; transliteration similarity; minimum edit distance; dictionary

        劉穎(1969—),副教授,博士,主要研究領域為自然語言處理。E?mail:yingliu@tsinghua.edu.cn曹項(1987—),碩士,主要研究領域為自然語言處理。E?mail:yingliu@tsinghua.edu.cn

        2014-01-09 定稿日期: 2014-03-28

        國家自然科學基金(61171114);教育部自主科研項目(20111081010);教育部回國人員啟動項目(20101021603)

        1003-0077(2016)03-0052-08

        TP391

        A

        猜你喜歡
        音譯命名詞典
        命名——助力有機化學的學習
        清末民初音譯元素名規(guī)范方案用字探析
        米沃什詞典
        文苑(2019年24期)2020-01-06 12:06:50
        有一種男人以“暖”命名
        東方女性(2018年3期)2018-04-16 15:30:02
        為一條河命名——在白河源
        散文詩(2017年17期)2018-01-31 02:34:08
        評《現(xiàn)代漢語詞典》(第6版)
        夏譯漢籍中的音譯誤字
        西夏學(2017年1期)2017-10-24 05:31:38
        詞典例證翻譯標準探索
        新疆地名的音譯轉(zhuǎn)寫及英譯規(guī)范
        英漢音譯規(guī)律探微*
        在线观看av国产自拍| 国产人成无码视频在线观看 | 国产免费成人自拍视频| 97se亚洲国产综合在线| 亚洲 暴爽 av人人爽日日碰| 国产桃色在线成免费视频| 日本熟妇裸体视频在线| 欧美国产激情18| 男女一边摸一边做爽爽的免费阅读 | 93精91精品国产综合久久香蕉| 操B小视频国产| 色和尚色视频在线看网站| 射精专区一区二区朝鲜| 国产一在线精品一区在线观看| 中国免费一级毛片| 国产精品日韩av一区二区三区| 日韩精品久久久久久久电影蜜臀| 国产成人精品电影在线观看18| 国产目拍亚洲精品区一区| 精品久久久少妇一区二区| 国产成人av大片大片在线播放| 精品少妇大屁股白浆无码| 午夜一区二区三区在线观看| 日本少妇高潮喷水视频| 野花在线无码视频在线播放| 日韩av中出在线免费播放网站| 国产69精品麻豆久久| 亚洲精品国偷拍自产在线观看| 99国产精品视频无码免费| 蜜臀av一区二区三区精品| 久久99精品久久久大学生| 韩国精品一区二区三区无码视频| 精品国产91久久久久久久a| 东风日产车是不是国产的| 99国产精品久久久蜜芽| 亚洲天堂成人在线| 一区二区在线观看日本免费| av无码小缝喷白浆在线观看| 女同久久精品国产99国产精品| 亚洲午夜久久久精品国产| 婷婷色国产精品视频二区|