亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于音節(jié)劃分及短語表優(yōu)化的英漢人名音譯研究

        2016-05-04 01:15:42王丹丹黃德根高揚(yáng)
        中文信息學(xué)報(bào) 2016年3期
        關(guān)鍵詞:輔音音譯元音

        王丹丹,黃德根,高揚(yáng)

        (大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)

        基于音節(jié)劃分及短語表優(yōu)化的英漢人名音譯研究

        王丹丹,黃德根,高揚(yáng)

        (大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)

        把英漢人名音譯問題轉(zhuǎn)換為以音節(jié)為基本單位的翻譯問題,將連續(xù)的音節(jié)組合看作短語,引入一種基于短語的統(tǒng)計(jì)機(jī)器翻譯方法,實(shí)現(xiàn)英漢人名的音譯。首先,針對現(xiàn)有音節(jié)劃分方法存在的問題,提出一種改進(jìn)的音節(jié)劃分方法;其次,該文提出去除低頻詞法及基于C-value方法對短語表進(jìn)行優(yōu)化,解決了訓(xùn)練語料偏小導(dǎo)致短語表中出現(xiàn)雜質(zhì)信息的問題;之后,融入了漢語人名中首字(詞)及尾字(詞)的位置特征,改善了生成的音譯候選中漢字選取的不合理性;最后,提出了兩階段音節(jié)劃分方法,緩解了音節(jié)劃分粒度過大導(dǎo)致的音譯錯(cuò)誤。與基準(zhǔn)方法相比,其音譯準(zhǔn)確率ACC由63.78%提高到67.56%。

        英漢人名音譯;音節(jié)劃分;短語表優(yōu)化;C-value

        1 引言

        人名音譯是指利用源語言及目標(biāo)語言發(fā)音規(guī)則的異同將源語言人名翻譯成目標(biāo)語言,在機(jī)器翻譯、跨語言信息檢索等多語言處理任務(wù)中有重要作用。隨著互聯(lián)網(wǎng)絡(luò)的迅猛發(fā)展,傳統(tǒng)的基于詞典的人名翻譯方法已不能適應(yīng)當(dāng)前海量數(shù)據(jù)增長的需求,逐漸被基于數(shù)據(jù)驅(qū)動的人名音譯方法取代。

        根據(jù)處理單元的不同,人名音譯方法一般分為基于發(fā)音、基于字形和基于發(fā)音字形混合的方法[1],文獻(xiàn)[2]提出了基于發(fā)音的方法,利用源語言發(fā)音規(guī)則先將源語言人名轉(zhuǎn)換為發(fā)音中間體,然后根據(jù)目標(biāo)語言的發(fā)音規(guī)則,將中間體轉(zhuǎn)換為目標(biāo)語言;文獻(xiàn)[3]提出了基于字形的方法,即直接由源語言不經(jīng)過任何中間體轉(zhuǎn)換為目標(biāo)語言;文獻(xiàn)[4]提出將音節(jié)及字形特征相融合的方法。相比于其他兩類方法,基于字形的方法不需要經(jīng)過中間體轉(zhuǎn)換,會減少轉(zhuǎn)換過程中的信息丟失,效果更優(yōu)。

        根據(jù)音節(jié)劃分粒度的不同,分為以字母和以音節(jié)作為音譯對齊基本單位的方法,文獻(xiàn)[5]將英文的每個(gè)字母作為音譯單元;文獻(xiàn)[6]將英文進(jìn)行音節(jié)劃分,然后將每個(gè)音節(jié)作為音譯單元;文獻(xiàn)[7]提出基于多粒度的英漢人名音譯方法,針對多個(gè)角度使用不同粒度的音節(jié)劃分方法。實(shí)驗(yàn)結(jié)果表明,基于多粒度的音譯效果要優(yōu)于單一粒度的音譯效果。

        現(xiàn)有人名音譯研究在音節(jié)劃分和短語表優(yōu)化方面還存在不足,主要如下: (1)音節(jié)劃分規(guī)則不夠完善,導(dǎo)致劃分錯(cuò)誤較多;(2)由于訓(xùn)練語料偏小,導(dǎo)致Moses系統(tǒng)生成的短語表中存在很多只出現(xiàn)一次,且翻譯概率為1的低頻短語,使短語表存在雜質(zhì);(3)音節(jié)劃分粒度過大使音譯時(shí)某些音節(jié)在短語表中找不到翻譯,導(dǎo)致音譯錯(cuò)誤。

        為此,針對英漢人名音譯的特點(diǎn)及現(xiàn)有方法存在的問題,提出一種基于音節(jié)劃分和短語表優(yōu)化的人名音譯方法。著重從下面幾個(gè)方面進(jìn)行改進(jìn): (1)在文獻(xiàn)[8]的基礎(chǔ)上對音節(jié)劃分方法進(jìn)行優(yōu)化;(2)提出去除低頻詞法及基于C-value的短語表優(yōu)化方法;(3)融入位置特征,僅考慮首詞和尾詞的位置特征;(4)提出兩階段音節(jié)劃分方法。

        2 基準(zhǔn)系統(tǒng)

        2.1 音節(jié)劃分

        人名的音譯可以看作是簡化的、無調(diào)序的機(jī)器翻譯。音譯前需對語料進(jìn)行分詞預(yù)處理: 對于漢語語料,用空格將人名中的每個(gè)漢字隔開,將每個(gè)漢字看作句子中的一個(gè)詞;對于英文語料,則根據(jù)發(fā)音規(guī)則對語料進(jìn)行音節(jié)劃分,將每個(gè)音節(jié)看作一個(gè)詞。

        文獻(xiàn)[8]按照英文的發(fā)音規(guī)則,首先,對音節(jié)字母進(jìn)行如下定義: (1)將a、e、i、o、u定義為元音,m、n為鼻音,其他字母為輔音;(2)若y跟著輔音出現(xiàn),則y為元音,否則為輔音。其次,按照英文發(fā)音的規(guī)律,制定了適合英漢人名音譯的音節(jié)劃分處理規(guī)則,見表1,其中,“( )”表示將括號內(nèi)的內(nèi)容合并為一個(gè)音節(jié)。

        2.2 基于短語的統(tǒng)計(jì)機(jī)器音譯模型

        將音譯問題看作語言翻譯問題,從而引入統(tǒng)計(jì)翻譯模型。本文采用對數(shù)線性多特征融合的方法解決英漢人名音譯問題,該音譯模型的計(jì)算如式(1)所示。

        (1)

        其中,c表示漢語人名,e表示英文人名,λi表示第i個(gè)特征的權(quán)重,hi(e,c)表示英語及漢語間第i個(gè)特征,n表示特征的個(gè)數(shù)。

        表1 音節(jié)劃分規(guī)則

        本文使用的特征包括:

        (3) 漢語語言模型:lm(c)

        (4) 漢語人名的長度

        3 音節(jié)劃分改進(jìn)及短語表優(yōu)化

        由于現(xiàn)有Moses音譯系統(tǒng)存在音節(jié)劃分規(guī)則不完善,音節(jié)劃分粒度大以及短語表中含有雜質(zhì)信息等缺點(diǎn)。為此,本文針對現(xiàn)有Moses人名音譯系統(tǒng)中的音節(jié)劃分及短語表優(yōu)化等問題進(jìn)行改進(jìn),改進(jìn)后的模型見圖1。(1)改進(jìn)“音節(jié)劃分”模塊,主要對音節(jié)劃分規(guī)則進(jìn)行修改,以解決現(xiàn)存音節(jié)劃分規(guī)則不夠充分導(dǎo)致的音節(jié)劃分錯(cuò)誤;(2)利用基于C-value的短語表優(yōu)化方法,以解決訓(xùn)練語料偏少導(dǎo)致的短語表存在雜質(zhì)信息的問題;(3)融入漢語人名中首字(詞)和尾字(詞)的位置特征,以解決生成的音譯候選中漢字選取的不合理性;(4)在測試階段提出兩階段音節(jié)劃分方法,以解決音節(jié)劃分粒度過大導(dǎo)致的在詞典中找不到音節(jié)翻譯的問題。

        3.1 音節(jié)劃分方法的改進(jìn)

        根據(jù)表1規(guī)則進(jìn)行音節(jié)劃分后的人名,經(jīng)過GIZA++雙向?qū)R后,會產(chǎn)生一些錯(cuò)誤的對齊結(jié)果,繼而影響音譯效果,經(jīng)統(tǒng)計(jì)分析,導(dǎo)致該錯(cuò)誤的原因在于表1音節(jié)劃分規(guī)則的不準(zhǔn)確性及不充分性。其表現(xiàn)在: (1)對于連續(xù)的重復(fù)輔音,常發(fā)同一個(gè)音,不應(yīng)劃分開,如人名“zucca(朱卡)”中“cc”應(yīng)合并發(fā)音;(2)某些連續(xù)的元音組合不只發(fā)一個(gè)音,劃分開會使對齊效果更優(yōu),如人名“abbiati(阿比亞蒂)”中,“ia”發(fā)兩個(gè)不同的音;(3)“gh”、“h”、“ng”等在不同的情況具有不同的發(fā)音規(guī)則,應(yīng)進(jìn)行特殊處理。上述問題(1)和(2)闡述了表1中的規(guī)則1和規(guī)則2存在的缺陷,為此對表1中的規(guī)則1和規(guī)則2進(jìn)行修正;為解決問題(3),我們增加了四條規(guī)則,見表2中的規(guī)則8、規(guī)則9、規(guī)則10和規(guī)則11。其中,“()”表示將括號內(nèi)的內(nèi)容合并為一個(gè)音節(jié)。

        圖1 改進(jìn)后的Moses音譯流程圖

        規(guī)則序號英文人名的情況音節(jié)劃分處理方式規(guī)則類型1連續(xù)的輔音除了重復(fù)的輔音合并外,其余均劃分開修正2連續(xù)的元音除了eo,ia,io,iu,oi,ua,ui,uo等劃分開,其余均合并,作為組合元音修正3輔音+元音(輔音+元音)不變4任何獨(dú)立的元音或輔音作為獨(dú)立的音節(jié)不變5元音+鼻音+元音元音+(鼻音+元音)元音+鼻音+輔音/無字符(元音+鼻音)+輔音/無字符不變6c/s/z/t/p/w+h(c/s/z/t/p/w+h)并定義為輔音不變7元音+r+元音元音+(r+元音)元音+r+輔音/無字符(元音+r)+輔音/無字符不變

        續(xù)表

        3.2 短語表的除雜優(yōu)化

        基于短語的統(tǒng)計(jì)機(jī)器翻譯,使用GIZA++進(jìn)行雙向?qū)R,從對齊結(jié)果中抽取出雙語短語并計(jì)算翻譯概率,進(jìn)而構(gòu)造出短語表。由于訓(xùn)練語料偏小,導(dǎo)致Moses系統(tǒng)生成的短語表中存在很多只出現(xiàn)一次,且翻譯概率為1的低頻短語。僅根據(jù)短語出現(xiàn)一次就斷定其翻譯概率為1,這不符合現(xiàn)實(shí)世界的真實(shí)情況。本文考慮使用去除低頻詞法及基于C-value 的方法分別對短語表進(jìn)行優(yōu)化。

        3.2.1 基于去除低頻詞的短語表優(yōu)化

        首先定義如下,#(en)表示英文短語en在短語表中出現(xiàn)的次數(shù),#(en,ch)表示在短語表中英文短語en音譯為漢語短語ch的次數(shù),那么英文短語en音譯為漢語短語ch的概率為p(ch|en)=#(en,ch)/#(en)。據(jù)統(tǒng)計(jì),符合#(en)=1,#(en,ch)=1且所含音節(jié)個(gè)數(shù)大于2的短語占總短語表的81.7%。由于數(shù)據(jù)稀疏,這樣在訓(xùn)練語料中只出現(xiàn)一次且翻譯概率為1的低頻短語與現(xiàn)實(shí)世界的真實(shí)情況不符。為了消除此類短語的影響,本文從原短語表中刪除符合如下情況的短語再進(jìn)行音譯: #(en)=1,#(en,ch)=1且所含音節(jié)個(gè)數(shù)大于1的短語,之所以不刪除長度為1的短語是因?yàn)槠浔旧砭褪且糇g的基本單位。

        3.2.2 基于C-value的短語表優(yōu)化

        我們引入C-value[9]來衡量短語的貢獻(xiàn)程度,進(jìn)而對短語表除雜優(yōu)化。C-value的定義見式(2)。

        (2)

        其中,|a|表示短語a的長度,即短語a包含的英文音節(jié)個(gè)數(shù),f(a)表示短語表中短語a出現(xiàn)的頻次,Ta表示短語表中包含a的更長的短語,P(Ta)表示短語表中Ta的頻次,∑b∈Taf(b)表示短語a在所有包含a的長短語里出現(xiàn)的頻次。

        由式(2)可見,C-value不僅考慮短語長度和出現(xiàn)頻次,還考慮包含當(dāng)前短語的更長短語的信息。C-value與短語的長度和短語出現(xiàn)的次數(shù)成正比。其主要思想為: 短語的長度越長、頻次越高,其作為短語的貢獻(xiàn)度越高;若一個(gè)短語經(jīng)常在比他更長的短語中出現(xiàn)而很少單獨(dú)出現(xiàn),可能該短語出現(xiàn)頻次很高,但作為短語的貢獻(xiàn)度卻較低。

        基于C-value的短語表優(yōu)化方法的步驟如下:

        (1) 根據(jù)C-value的公式計(jì)算短語表中的每個(gè)短語的C-value;

        (2) 按照C-value從小到大進(jìn)行排序,并求出以每個(gè)C-value作為閾值時(shí),大于等于當(dāng)前閾值的短語占整個(gè)短語表的比例;

        (3) 根據(jù)經(jīng)驗(yàn)選取若干個(gè)具有代表性的C-value作為閾值,并刪除原短語表中小于當(dāng)前閾值的短語。

        3.3 融入位置特征

        同一音節(jié)可能存在不同的音譯候選,此時(shí),漢字的位置特征可以決定使用哪個(gè)漢字更合適。例如,英文人名“kilogore(基洛戈?duì)?”,音節(jié)劃分后的結(jié)果為“ki/lo/go/re”,根據(jù)音譯短語表可知,音節(jié)“re”的音譯候選可能有“爾”,“雷”,“里”等,解碼后的音譯候選按照音譯概率從大到小依次為“基洛戈雷”、“基洛戈?duì)枴?、“基洛戈里”等。但根?jù)位置特征,“爾”一般不出現(xiàn)在詞首,“雷”,“里”經(jīng)常出現(xiàn)在詞中或詞首,將位置特征與原有特征相融合,重新調(diào)整音譯候選的順序,最終得到正確的最優(yōu)候選“基洛戈?duì)枴薄?/p>

        由于同一英文人名生成的候選漢語人名的長度可能不同,若要考慮每個(gè)字的位置特征,則不同長度的候選漢語人名的位置特征不具有可比性,為此,本文僅考慮首字(詞)及尾字(詞)的位置特征。位置特征的計(jì)算方法: 首先將漢語語料中人名里的每個(gè)漢字用空格隔開;然后,利用BEO(B表示首位置,E表示尾位置,O表示其他位置)的方式分別標(biāo)記每個(gè)字(詞),統(tǒng)計(jì)每個(gè)字(詞)分別出現(xiàn)在B、E、O的概率。實(shí)驗(yàn)表明,該方法要優(yōu)于考慮人名中所有字的位置特征的方法。

        3.4 解碼時(shí)的兩階段音節(jié)劃分方法

        為了獲得較好的對齊結(jié)果,在音節(jié)劃分方法中引入了粒度較大的劃分方法,如“元音+鼻音+輔音/無字符”情況,其將鼻音與前面的元音合并為一個(gè)音節(jié),然而由于音節(jié)劃分粒度過大,使得音譯過程中在短語表內(nèi)找不到音節(jié)的對應(yīng)翻譯。以英文人名“gwillim”為例,其音節(jié)劃分結(jié)果為“g/wi/llim”,而由于音節(jié)“l(fā)lim”在短語表中未找到對應(yīng)翻譯,導(dǎo)致音譯錯(cuò)誤。因此,提出了兩階段的音節(jié)劃分方法。

        如圖2所示,第一階段音節(jié)劃分方法使用表2所示的優(yōu)化后的音節(jié)劃分規(guī)則,解碼后,若存在未翻譯的音節(jié),則進(jìn)入第二階段音節(jié)劃分,劃分后再次解碼。第二階段音節(jié)劃分的規(guī)則在表2規(guī)則的基礎(chǔ)上進(jìn)行如下變化:

        (1) 若音節(jié)中含有y,且y的前一字符為輔音,則將y替換為i;

        (2) 若最后一個(gè)字符為m或g,則將m或g與前面的音節(jié)分離;

        (3) 若最后兩個(gè)字符為ne,則將ne與前面的音節(jié)分離;

        (4) 若r前面的音節(jié)長度大于2,則r與前面的音節(jié)劃分開;

        (5) 若gh后為輔音或者無字符時(shí),則gh不發(fā)音;

        (6) 若元音+h+輔音,則h不發(fā)音。

        4 實(shí)驗(yàn)

        4.1 實(shí)驗(yàn)數(shù)據(jù)及實(shí)驗(yàn)方法

        英漢人名音譯實(shí)驗(yàn)數(shù)據(jù)參照2012 Named Entities Workshop的英漢人名語料庫[10]。其中,訓(xùn)練集含有37 753對英漢人名,調(diào)優(yōu)集含有3 278對英漢人名。本文為了驗(yàn)證提出方法的有效穩(wěn)定性,考慮使用交叉驗(yàn)證方法進(jìn)行實(shí)驗(yàn)。從訓(xùn)練集中隨機(jī)取出3 000對作為測試語料,剩下的34 753對作為訓(xùn)練語料,并使用此方法選取五組不同的訓(xùn)練及測試數(shù)據(jù),調(diào)優(yōu)集不變。

        英漢人名音譯的實(shí)驗(yàn)過程包括: 音譯模型的訓(xùn)練、語言模型的建立、權(quán)重的調(diào)優(yōu)及解碼。在音譯模型的訓(xùn)練階段,利用GIZA++進(jìn)行對齊生成短語表(參數(shù)設(shè)為grow-diag-and-fial)[11];在語言模型建立階段,使用Srilm工具[12]計(jì)算漢語語料的N-gram語言模型(N取3);在調(diào)優(yōu)階段,使用MERT方法調(diào)整各特征權(quán)重達(dá)到最優(yōu);在解碼階段,由于人名音譯可看作是無調(diào)序的機(jī)器翻譯,為保證順序解碼,distortion設(shè)置為0,其他為默認(rèn)設(shè)置。實(shí)驗(yàn)中,選取系統(tǒng)生成的前十個(gè)結(jié)果作為最優(yōu)音譯候選。

        為評價(jià)音譯結(jié)果的質(zhì)量,采用如下四個(gè)指標(biāo)進(jìn)行評價(jià)[10]: 最優(yōu)候選結(jié)果的準(zhǔn)確率(ACC);最優(yōu)候選結(jié)果與正確結(jié)果間的相似度(Mean F-score);正確結(jié)果在N個(gè)最優(yōu)候選結(jié)果中靠頂部的程度(MRR);衡量正確候選結(jié)果中是否包含所有正確結(jié)果(MAPref)。

        4.2 實(shí)驗(yàn)結(jié)果及分析

        由于訓(xùn)練語料偏小導(dǎo)致短語表中存在雜質(zhì)信息,使用基于去除低頻詞的方法對短語表進(jìn)行優(yōu)化,以“音節(jié)劃分優(yōu)化”為基準(zhǔn)實(shí)驗(yàn),表3為去除低頻詞前后的音譯對比結(jié)果。

        使用基于去除低頻詞的方法對短語表進(jìn)行除雜,原短語表有八萬多條短語,從短語表中將符合條件的短語刪除,使短語表縮減到兩萬多條,即僅是原短語表的28.3%,如表3所示,其音譯效果并未明顯下降,說明短語表中確實(shí)存在雜質(zhì)信息。

        表3 基于去除低頻詞短語表除雜前后音譯效果

        使用基于C-value的方法對短語表優(yōu)化,選取不同C-value作為閾值對短語表進(jìn)行除雜,進(jìn)行多組對比實(shí)驗(yàn),結(jié)果如表4所示。當(dāng)C-value閾值取0.9時(shí),即當(dāng)短語表縮減到原來的80.9%時(shí),音譯效果最優(yōu),與使用整個(gè)短語表的音譯效果相當(dāng)。由于短語表中存在大部分頻次僅為1的短語,無法僅通過基于統(tǒng)計(jì)的方法有效優(yōu)化短語表,今后考慮結(jié)合基于規(guī)則等方法對短語表進(jìn)一步除雜優(yōu)化。

        表4 不同C-value閾值下短語表大小及音譯性能

        在基準(zhǔn)系統(tǒng)基礎(chǔ)上,進(jìn)行一些改進(jìn)實(shí)驗(yàn),實(shí)驗(yàn)對比結(jié)果如表5所示。為了說明方法的穩(wěn)定有效性,以下實(shí)驗(yàn)結(jié)果均為使用交叉驗(yàn)證后,五組實(shí)驗(yàn)獲得結(jié)果的平均值。其中,實(shí)驗(yàn)2針對基準(zhǔn)系統(tǒng)中音節(jié)劃分規(guī)則的不完善性,對其進(jìn)行修正及擴(kuò)充,其音譯準(zhǔn)確率ACC提高了2.52%;實(shí)驗(yàn)3則考慮到音譯候選結(jié)果中漢字的選擇與其在人名中出現(xiàn)的位置有密切關(guān)系,所以融入位置特征進(jìn)行實(shí)驗(yàn),其音譯準(zhǔn)確率ACC提高了3.19%;實(shí)驗(yàn)4為了解決由于音節(jié)劃分粒度過大導(dǎo)致的某些音節(jié)在短語表中找不到翻譯的問題,引入兩階段音節(jié)劃分方法,最終音譯準(zhǔn)確率ACC提高了3.78%;實(shí)驗(yàn)5及實(shí)驗(yàn)6為文獻(xiàn)[5]及文獻(xiàn)[6]的實(shí)驗(yàn)結(jié)果,進(jìn)一步說明了本文方法的有效性。

        表5 基準(zhǔn)系統(tǒng)與改進(jìn)方法的實(shí)驗(yàn)對比

        續(xù)表

        5 結(jié)論及展望

        針對當(dāng)前人名音譯研究中存在的問題進(jìn)行改善,包括音節(jié)劃分方法的改進(jìn)、融入首尾位置特征以及提出兩階段音節(jié)劃分方法等,改進(jìn)后方法的準(zhǔn)確率提高了3.78%。同時(shí),提出了去除低頻詞法及基于C-value方法優(yōu)化短語表,有效去除了雜質(zhì)信息。

        通過分析人名中音節(jié)的發(fā)音情況,某些音節(jié)具有不同的發(fā)音。例如,“r,d,t”等有時(shí)發(fā)音,有時(shí)卻不發(fā)音;“gh”有時(shí)合并發(fā)音,有時(shí)分開發(fā)音,有時(shí)不發(fā)音,這些都沒有明確的發(fā)音規(guī)則,無法通過統(tǒng)一的音節(jié)劃分方法來確定。因此,在今后的工作中,可以考慮將不同音節(jié)劃分方法獲得的音譯結(jié)果融合。此外,不同來源的人名發(fā)音規(guī)則不同,如“Smith”為英語來源的,應(yīng)翻譯為“史密斯”,而“Matsumoto”為日語來源的,則應(yīng)翻譯為“松本”更合適。今后可以考慮在音譯之前先進(jìn)行人名來源的識別,以進(jìn)一步提高其音譯效果。

        [1] Karimi S,Scholer F,Turpin A. Machine transliteration survey[J]. ACM Computing Surveys (CSUR),2011,43(3): 17-46.

        [2] Knight K,Graehl J. Machine transliteration[J]. Computational Linguistics,1998,24(4): 599-612.

        [3] Haizhou L,Min Z,Jian S. A joint source-channel model for machine transliteration[C]//Proceedings of the 42nd Annual Meeting on association for Computational Linguistics. Association for Computational Linguistics,2004: 159-166.

        [4] Oh J H,Choi K S. An ensemble of transliteration models for information retrieval[J]. Information processing & management,2006,42(4): 980-1002.

        [5] Jia Y,Zhu D,Yu S. A noisy channel model for grapheme-based machine transliteration[C]//Proceedings of the 2009 Named Entities Workshop: Shared Task on Transliteration. Association for Computational Linguistics,2009: 88-91.

        [6] Zhang C,Li T,Zhao T. Syllable-based machine transliteration with extra phrase features[C]//Proceedings of the 4th Named Entity Workshop. Association for Computational Linguistics,2012: 52-56.

        [7] 于恒,涂兆鵬,劉群,等. 基于多粒度的英漢人名音譯[J]. 中文信息學(xué)報(bào),2013,27(4): 16-21.

        [8] Li L,Wang P,Huang D,et al. Mining English-Chinese Named Entity Pairs from Comparable Corpora[J]. ACM Transactions on Asian Language Information Processing (TALIP),2011,10(4): 19.

        [9] Frantzi K,Ananiadou S,Mima H. Automatic recognition of multi-word terms: the C-value/NC-value method[J]. International Journal on Digital Libraries,2000,3(2): 115-130.

        [10] Zhang M,Li H,Liu M,et al. Whitepaper of news 2012 shared task on machine transliteration[C]//Proceedings of the 4th Named Entity Workshop. Association for Computational Linguistics,2012: 1-9.

        [11] Koehn P,Och F J,Marcu D. Statistical phrase-based translation[C]//Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume 1. Association for Computational Linguistics,2003: 48-54.

        [12] Stolcke A. SRILM-an extensible language modeling toolkit[C]//Proceedings of the Interspeech. 2002.

        [13] Koehn P,Hoang H,Birch A,et al. Moses: Open source toolkit for statistical machine translation[C]//Proceedings of the 45th Annual Meeting of the ACL on Interactive Poster and Demonstration Sessions. Association for Computational Linguistics,2007: 177-180.

        English-Chinese Name Transliteration Basedon Optimization of Syllabification and Phrase Table

        WANG Dandan,HUANG Degen,GAO Yang

        (School of Computer Science and Technology,Dalian University of Technology,Dalian,Liaoning 116024,China)

        The English-Chinese name transliteration can be described as syllable-based translation,which can be solved by current a phrase-based statistical machine translation model. After describing a detailed rule-based syllabification method,this paper presents a translation phrase table optimization by frequency thresh-hold and c-value. In addition,the method is also featured by integrating the local features of Chinese names,as well as a two-stage of syllabification strategy. The experimental results show that the performance of the English-Chinese name transliteration is improved from 63.78% to 67.56% in terms of ACC.

        English-Chinese name transliteration; syllabification; phrase table optimization; C-value

        王丹丹(1989—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z言處理與機(jī)器翻譯。E?mail:15092170184@163.com黃德根(1965—),通信作者,博士,教授,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)樽匀徽Z言處理與機(jī)器翻譯。E?mail:huangdg@dlut.edu.cn高楊(1988—),碩士,主要研究領(lǐng)域?yàn)樽匀徽Z言處理。E?mail:389021064@qq.com

        2014-07-22 定稿日期: 2015-01-21

        國家自然科學(xué)基金(61173100,61173101,61272375);福建省自然科學(xué)基金(2014J01218)

        1003-0077(2016)03-0096-07

        TP391

        A

        猜你喜歡
        輔音音譯元音
        失去爆破和不完全爆破
        元音字母和元音字母組合的拼讀規(guī)則
        清末民初音譯元素名規(guī)范方案用字探析
        BR Sounds
        英語的輔音連綴
        元音字母和元音字母組合的拼讀規(guī)則
        輔音連綴全接觸
        夏譯漢籍中的音譯誤字
        西夏學(xué)(2017年1期)2017-10-24 05:31:38
        新疆地名的音譯轉(zhuǎn)寫及英譯規(guī)范
        Playing with “ar”
        国产欧美精品区一区二区三区| 久草视频在线手机免费看| 色哟哟最新在线观看入口| 99精品免费久久久久久久久日本| 亚洲AV毛片无码成人区httP | 老子影院午夜精品无码| 亚洲精品无码人妻无码| 亚洲国产综合专区在线电影| 人妻体体内射精一区中文字幕| 噜噜噜噜私人影院| 少妇人妻200篇白洁| 国产成人久久综合热| 国产片三级视频播放| 熟女少妇精品一区二区三区| 日本在线一区二区三区不卡| 日韩精品久久无码中文字幕| 中文字幕日韩精品无码内射| 老汉tv永久视频福利在线观看 | 又爽又黄又无遮挡的视频| 亚洲自偷自拍另类图片小说| 日本不卡一区二区三区在线| 国产精品熟女少妇不卡| 亚洲 中文 欧美 日韩 在线| 欧美mv日韩mv国产网站 | 99久久久人妻熟妇精品一区二区| 99精品国产在热久久无码| 亚洲精品日韩自慰喷水白浆| 日本免费一区精品推荐| 亚洲av高清一区二区三区| 丰满岳乱妇一区二区三区| 最新国产在线精品91尤物| 亚洲日本精品一区久久精品| 青青草在线免费播放视频| 日韩毛片免费无码无毒视频观看| 亚洲AV永久天堂在线观看| 日本女优免费一区二区三区| 亚洲av无码国产精品色午夜字幕 | 有坂深雪中文字幕亚洲中文| 俺去俺来也在线www色官网| 有码精品一二区在线| 一级一片内射在线播放|