亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于網(wǎng)絡(luò)搜索的英漢人名翻譯

        2017-06-01 11:29:47穎,曹項(xiàng)
        中文信息學(xué)報(bào) 2017年2期
        關(guān)鍵詞:排序英文規(guī)則

        劉 穎,曹 項(xiàng)

        (清華大學(xué) 中文系,北京 100084)

        基于網(wǎng)絡(luò)搜索的英漢人名翻譯

        劉 穎,曹 項(xiàng)

        (清華大學(xué) 中文系,北京 100084)

        該文利用搜索引擎從網(wǎng)絡(luò)中挖掘英語(yǔ)人名的中文翻譯。該方法綜合利用翻譯輔助詞、英中人名共現(xiàn)規(guī)則、音譯相似度和翻譯概率。首先,利用搜索引擎從互聯(lián)網(wǎng)上搜索英文人名的中文翻譯候選。把漢語(yǔ)人名標(biāo)注結(jié)果、翻譯輔助詞、英中人名共現(xiàn)規(guī)則和英文人名的發(fā)音音節(jié)長(zhǎng)度結(jié)合起來(lái)提取翻譯候選詞。翻譯輔助詞有助于搜索與英文人名更相關(guān)的信息,英中人名共現(xiàn)規(guī)則和發(fā)音音節(jié)長(zhǎng)度進(jìn)一步縮小英文人名的翻譯范圍,使得英文人名的翻譯搜索符合人名共現(xiàn)規(guī)律和發(fā)音規(guī)律。然后,根據(jù)音譯相似度和翻譯概率對(duì)候選詞進(jìn)行排序。人名翻譯的絕大部分是根據(jù)發(fā)音翻譯過(guò)來(lái)的,音譯相似度是幫助判斷兩個(gè)詞在發(fā)音上的相似性。翻譯概率從統(tǒng)計(jì)上判斷兩個(gè)詞互為翻譯的可能性。實(shí)驗(yàn)結(jié)果表明,翻譯輔助詞、規(guī)則、音譯相似度和翻譯概率都有助于提高人名翻譯的正確率。

        人名翻譯;音譯相似度;規(guī)則;翻譯概率

        1 引言

        隨著互聯(lián)網(wǎng)和搜索引擎的廣泛使用,網(wǎng)絡(luò)語(yǔ)料庫(kù)規(guī)模日漸龐大。借助于先進(jìn)的搜索引擎工具如Google、Baidu等,我們可以更好地運(yùn)用網(wǎng)絡(luò)語(yǔ)料庫(kù),從中提取有價(jià)值的信息。許多學(xué)者利用網(wǎng)絡(luò)語(yǔ)料庫(kù)進(jìn)行人名翻譯研究。

        目前,對(duì)人名翻譯的方法主要是規(guī)則方法、統(tǒng)計(jì)方法和網(wǎng)絡(luò)挖掘的方法。規(guī)則方法主要是根據(jù)雙語(yǔ)人名音譯的規(guī)律來(lái)進(jìn)行人名翻譯[1]。統(tǒng)計(jì)方法有基于音譯的統(tǒng)計(jì)方法[2-4]、基于雙語(yǔ)平行語(yǔ)料庫(kù)的統(tǒng)計(jì)方法[5-10]和基于可比較的雙語(yǔ)語(yǔ)料庫(kù)的統(tǒng)計(jì)方法[11-12]。網(wǎng)絡(luò)挖掘是利用搜索引擎來(lái)搜索并獲取雙語(yǔ)網(wǎng)頁(yè)摘要或全文來(lái)進(jìn)行人名翻譯[13-20]。規(guī)則方法主要是根據(jù)人名對(duì)人工建立音譯規(guī)則,音譯規(guī)則覆蓋率有限并且對(duì)于歧義很難處理,因此規(guī)則方法準(zhǔn)確率較低。基于統(tǒng)計(jì)的音譯方法對(duì)于每一個(gè)音譯對(duì)給出概率,對(duì)符合音譯規(guī)律的人名效果較好,但不能解決不符合音譯規(guī)律的人名翻譯?;陔p語(yǔ)平行語(yǔ)料庫(kù)方法目前是比較成熟的方法,利用的統(tǒng)計(jì)模型有隱馬爾科夫模型、最大熵模型、條件隨機(jī)場(chǎng)模型等。人名翻譯的準(zhǔn)確率與平行語(yǔ)料庫(kù)的規(guī)模和質(zhì)量有很大關(guān)系。與其他方法相比,這種方法可以獲得高質(zhì)量的命名實(shí)體翻譯,但大規(guī)模的雙語(yǔ)人名對(duì)齊的語(yǔ)料庫(kù)比較缺乏?;诳杀容^語(yǔ)料庫(kù)的人名翻譯是利用可比較語(yǔ)料庫(kù)中的人名、人名的上下文、人名間關(guān)系和關(guān)系的上下文等來(lái)進(jìn)行人名翻譯,但由于兩個(gè)語(yǔ)料庫(kù)的人名及人名關(guān)系不是嚴(yán)格的一對(duì)一關(guān)系,導(dǎo)致該種方法的人名翻譯準(zhǔn)確度不高?;诰W(wǎng)絡(luò)挖掘的方法期望利用網(wǎng)絡(luò)上超大規(guī)模資源的優(yōu)勢(shì),翻譯出詞典中未收錄的一些人名,并且可以發(fā)現(xiàn)人名的多種翻譯結(jié)果。

        基于搜索引擎翻譯的基本處理步驟為: (1)輸入查詢(xún)?cè)~,獲取含有相關(guān)內(nèi)容的雙語(yǔ)網(wǎng)頁(yè)摘要或網(wǎng)頁(yè)全文; (2)從提取出的雙語(yǔ)網(wǎng)頁(yè)摘要或全文中生成相應(yīng)的翻譯候選詞; (3)排序候選詞并挑選出合適的翻譯結(jié)果。因此,如何能搜集到相關(guān)的雙語(yǔ)網(wǎng)頁(yè)摘要和候選詞、進(jìn)行有效的排序并發(fā)現(xiàn)適合的翻譯是進(jìn)行基于搜索引擎的人名翻譯的基礎(chǔ)。

        Fei Huang利用查詢(xún)?cè)~和與主題相關(guān)的線索詞來(lái)搜索含有查詢(xún)?cè)~的雙語(yǔ)網(wǎng)頁(yè),然后結(jié)合語(yǔ)音、語(yǔ)義和頻度距離特征來(lái)抽取關(guān)鍵短語(yǔ)的翻譯[13]。Fan Yang對(duì)漢語(yǔ)機(jī)構(gòu)名進(jìn)行塊的分割,利用啟發(fā)式查詢(xún)和非對(duì)稱(chēng)方法將漢語(yǔ)機(jī)構(gòu)名與英文句子對(duì)齊,并從英語(yǔ)句子中找出與漢語(yǔ)機(jī)構(gòu)名對(duì)齊的英語(yǔ)片段[14]。張永臣通過(guò)Web采集金融領(lǐng)域的雙語(yǔ)語(yǔ)料,然后利用從普通雙語(yǔ)詞典選出的種子詞建立起雙語(yǔ)間專(zhuān)業(yè)詞匯的關(guān)系,再根據(jù)專(zhuān)業(yè)詞匯的向量空間相似度來(lái)判斷兩個(gè)專(zhuān)業(yè)詞匯是否是翻譯關(guān)系[16]。蔣龍根據(jù)音譯特征搜索網(wǎng)絡(luò)生成翻譯候選詞集,再用熵模型對(duì)其進(jìn)行排序[17]。郭稷融合了共現(xiàn)頻率、候選翻譯長(zhǎng)度、命名實(shí)體判定、詞性以及上文詞等多個(gè)特征,從帶有括號(hào)和英文的中文命名實(shí)體受限網(wǎng)頁(yè)中自動(dòng)抽取雙語(yǔ)翻譯對(duì)[18]。趙明明利用n元模型實(shí)現(xiàn)的音譯系統(tǒng)抽取命名實(shí)體單字,利用搜索引擎搜索包含命名實(shí)體單字的N元字串,再利用編輯距離和2對(duì)候選翻譯進(jìn)行排序[19-20]。為了獲取相關(guān)的雙語(yǔ)網(wǎng)頁(yè)而不是只含單語(yǔ)言的網(wǎng)頁(yè),不同的學(xué)者利用了不同的方法。Fei Huang利用了與主題相關(guān)的線索詞[13]。Fan Yang利用了漢語(yǔ)機(jī)構(gòu)名中一些詞的翻譯作為啟發(fā)式查詢(xún)[14]。張永臣利用了從普通雙語(yǔ)詞典中選出的種子詞[16]。蔣龍和趙明明都是利用命名實(shí)體的單字翻譯信息[17,19]。把種子詞、線索詞或命名實(shí)體的單字翻譯作為目標(biāo)語(yǔ)言的線索詞,更有利于獲取含有待翻譯項(xiàng)(源語(yǔ)言)和線索詞(目標(biāo)語(yǔ)言)的兩種語(yǔ)言的網(wǎng)頁(yè)。

        本文實(shí)現(xiàn)的基于搜索引擎的英漢人名翻譯方法充分結(jié)合了網(wǎng)絡(luò)語(yǔ)料庫(kù)、搜索引擎、翻譯輔助詞、中英文人名共現(xiàn)規(guī)則、音譯相似度、翻譯概率等多種知識(shí)。利用翻譯輔助詞使得搜索結(jié)果中包含更相關(guān)的雙語(yǔ)語(yǔ)料。將中英文人名共現(xiàn)規(guī)則與音譯翻譯長(zhǎng)度相結(jié)合來(lái)提高候選詞提取的精度和效率。把基于最小編輯距離的音譯和翻譯概率等特征相結(jié)合來(lái)對(duì)候選詞進(jìn)行綜合排序,可把最相關(guān)的翻譯結(jié)果排在前面。本文不但利用了語(yǔ)言學(xué)知識(shí)(規(guī)則、人名長(zhǎng)度、翻譯輔助詞和音譯規(guī)律),而且利用了和人名翻譯最為相關(guān)的統(tǒng)計(jì)知識(shí)(音譯相似度和翻譯概率)。

        2 基于網(wǎng)絡(luò)搜索的英漢人名翻譯的基準(zhǔn)方法

        基于網(wǎng)絡(luò)的英漢人名翻譯的基準(zhǔn)方法是通過(guò)以下三個(gè)步驟來(lái)完成。

        (1) 獲取網(wǎng)絡(luò)語(yǔ)料庫(kù)。向搜索引擎提交英文人名查詢(xún)?cè)~,返回前100個(gè)搜索結(jié)果,去除文本中的HTML標(biāo)記,只保留純文本字符格式。若搜索結(jié)果不夠100個(gè),則保留所有結(jié)果。搜索引擎首先利用百度搜索引擎,若搜索結(jié)果不夠100個(gè),再利用google搜索引擎。

        (2) 根據(jù)人名翻譯規(guī)律和翻譯候選詞長(zhǎng)度生成中文翻譯候選詞集合。

        人名翻譯的基本規(guī)律主要為以下幾種情況: 中文人名緊鄰英文人名,英文人名緊鄰中文人名,中文人名與英文人名之間插入符號(hào)“(”、“-”、“/”等。我們只考慮這些情況的中英文人名互譯。

        利用音節(jié)方法,來(lái)預(yù)估中文候選詞的最大長(zhǎng)度和最小長(zhǎng)度。把英文人名進(jìn)行音節(jié)分解,如Smith史密斯”有S,mi和th三個(gè)音節(jié),其所對(duì)應(yīng)的中文名字的最大長(zhǎng)度應(yīng)為音節(jié)數(shù)目3,最小長(zhǎng)度應(yīng)為元音的音節(jié)數(shù)目1。

        (3) 排序中文翻譯候選詞并輸出結(jié)果。利用式(1)來(lái)對(duì)每一個(gè)候選詞進(jìn)行排序。

        (1)

        其中CN代表中文人名翻譯候選詞,EN代表英文查詢(xún)?nèi)嗣?,f(CN∩EN)表示在所有出現(xiàn)EN的結(jié)果中CN和EN共同出現(xiàn)的頻率,f(EN)是EN出現(xiàn)的總次數(shù)。

        3 基于網(wǎng)絡(luò)搜索的英漢人名翻譯

        給定一個(gè)英文人名,下面給出如何應(yīng)用搜索引擎自動(dòng)生成相對(duì)應(yīng)的中文名字。

        3.1 基于網(wǎng)絡(luò)搜索的人名翻譯的基本過(guò)程

        (1) 向搜索引擎提交英文待翻譯人名,收集前100個(gè)搜索結(jié)果,將結(jié)果去除HTML標(biāo)記得到純文本,并用切分和詞性標(biāo)注軟件ICTCLAS*http://ictclas.nlpir.org/對(duì)其中的中文進(jìn)行切分和標(biāo)注。如果搜索結(jié)果少于100個(gè),則保留所有結(jié)果。ICTCLAS對(duì)于人名給出標(biāo)注結(jié)果。

        (2) 從搜索結(jié)果中提取翻譯輔助詞,對(duì)輔助詞進(jìn)行排序并選前三個(gè)。

        (3) 提交待翻譯人名和每個(gè)輔助詞的組合進(jìn)行網(wǎng)絡(luò)搜索,每組搜索返回100個(gè)結(jié)果。若返回結(jié)果不夠100個(gè),則返回所有結(jié)果。預(yù)處理所有搜索結(jié)果。

        (4) 根據(jù)規(guī)則和預(yù)估計(jì)的翻譯長(zhǎng)度來(lái)提取中文人名翻譯候選詞集合。

        (5) 把音譯相似度和翻譯概率相結(jié)合對(duì)翻譯候選詞排序。

        (6) 去除噪音,輸出排在前面的候選詞。

        3.2 獲取輔助查詢(xún)?cè)~

        翻譯輔助詞就是與英文人名搜索詞相關(guān)度較高并經(jīng)常共現(xiàn)的詞,在搜索過(guò)程中將英文人名和輔助詞一并輸入搜索引擎,返回的搜索結(jié)果將更相關(guān),便于提取有價(jià)值的信息。例如,當(dāng)搜索 “Jennifer Lopez”的英文名字,由于其是美國(guó)歌星和影星,與其經(jīng)常共現(xiàn)的詞匯包括“明星”和“歌星”等,我們便將這些詞作為輔助詞,與英文名字一起輸入搜索引擎。

        獲取輔助查詢(xún)?cè)~的具體實(shí)現(xiàn)過(guò)程如下:

        (1) 首先將從搜索引擎搜索獲取的前100個(gè)網(wǎng)頁(yè)摘要,所有標(biāo)記為名詞且非停用詞表中的詞匯提取出來(lái)作為輔助詞的候選詞。停用詞包括標(biāo)點(diǎn)、連詞、語(yǔ)氣詞、代詞、副詞、擬聲詞、時(shí)間詞、地點(diǎn)名詞等共506個(gè)。我們參照了哈爾濱工業(yè)大學(xué)信息檢索研究室提供的停用詞表。

        (2) 對(duì)于輔助候選詞的排序,我們借鑒并改進(jìn)了Ricardo Baeza-Yates提出的關(guān)聯(lián)群簇方法,其用來(lái)計(jì)算輔助詞與源英文人名查詢(xún)?cè)~的關(guān)聯(lián)度分值Scoree,s[21],如式(2)所示。

        (2)

        其中,e代表源英文人名查詢(xún)?cè)~,s代表中文輔助詞的候選詞,We,s計(jì)算方法如式(3)所示。

        (3)

        rm代表第m個(gè)搜索結(jié)果,Rn是所有搜索結(jié)果,fe,m源英文人名查詢(xún)?cè)~e在第m個(gè)結(jié)果中出現(xiàn)的頻率,fs,m是輔助詞s在第m個(gè)結(jié)果中出現(xiàn)的頻率。

        (3) 選取關(guān)聯(lián)度分值Scoree,s最高的前三個(gè)中文詞作為輔助詞。

        (4) 若利用上述方法獲取的輔助詞不夠三個(gè),則把文獻(xiàn)[22]中的人名詞典和從雙語(yǔ)平行語(yǔ)料庫(kù)中抽取的人名對(duì)進(jìn)行英語(yǔ)子音節(jié)與單個(gè)漢字對(duì)齊。對(duì)當(dāng)前待翻譯的英文人名進(jìn)行音節(jié)切分,查找每個(gè)音節(jié)對(duì)應(yīng)的漢字。把這些單個(gè)漢字作為輔助詞,例如,從搜索引擎搜索“Deng Jianguo”的中文翻譯時(shí),若通過(guò)式(2)找到的翻譯輔助詞不夠,則可以把“Deng Xiaoping—鄧小平” 中的“Deng—鄧”、“Xiao—小”和“ping—平”中與“Deng Jianguo”中相同的英文音節(jié)“Deng”的翻譯“鄧”作為翻譯輔助詞。

        (5) 將獲取的三個(gè)輔助詞與源英文人名分別組合輸入搜索引擎,每一組合提取前100個(gè)網(wǎng)頁(yè)摘要,去除HTML標(biāo)記,將其轉(zhuǎn)換為純文本。

        3.3 用規(guī)則提取中文人名翻譯候選詞

        (1) 提取翻譯規(guī)則

        我們將從網(wǎng)絡(luò)語(yǔ)料庫(kù)、百科全書(shū)及線下語(yǔ)料庫(kù)中提取的1 000多個(gè)人名對(duì)作為提取規(guī)則的訓(xùn)練語(yǔ)料庫(kù),共提取了120多條規(guī)則,表1是出現(xiàn)最多的前八條規(guī)則,可以覆蓋90%的中英文人名共現(xiàn)情況,其中CN代表中文人名,EN代表源英文人名查詢(xún)?cè)~,x代表一個(gè)漢字或英文單詞。

        表1 主要規(guī)則形式

        (2) 利用音節(jié)方法,來(lái)預(yù)估中文候選詞的最大長(zhǎng)度和最小長(zhǎng)度。把英文人名進(jìn)行音節(jié)分解,如Jennifer有Je,nni和fer三個(gè)音節(jié),其所對(duì)應(yīng)的中文名字的最大長(zhǎng)度應(yīng)為音節(jié)數(shù)目3,最小長(zhǎng)度應(yīng)為元音的音節(jié)數(shù)目3。Jennifer Lopez的最大長(zhǎng)度是6,最小長(zhǎng)度是5。Bill Gates的最大長(zhǎng)度是5,最小長(zhǎng)度是3。

        (3) 根據(jù)ICTCLAS切分和標(biāo)注結(jié)果、預(yù)估的翻譯長(zhǎng)度和翻譯規(guī)則生成中文翻譯候選詞集合。

        例如,“……做出集成電路(芯片),比爾蓋茨(Bill Gates)做出視窗,……”

        Bill Gates翻譯候選詞的最大長(zhǎng)度為5,最小長(zhǎng)度為3。根據(jù)規(guī)則CN(EN,可以提取出前后緊挨著B(niǎo)ill Gates的大于等于3小于等于5的漢字序列(遇到標(biāo)點(diǎn)符號(hào)、英文數(shù)字等停止),生成候選詞集合“比爾蓋茨”、“做出視窗”、“比爾蓋”“爾蓋茨”“做出視”“出視窗”等。若所選的詞串序列已被ICTCLAS標(biāo)注為人名,則可直接選為該人名。

        若候選詞以總統(tǒng)、經(jīng)理、總裁、歌星及影星等常見(jiàn)人名稱(chēng)呼開(kāi)頭,我們將其去除并生成新的候選詞。

        3.4 對(duì)中文人名翻譯候選詞進(jìn)行排序

        Fei Huang[5]、陳鈺楓[7]指出人名翻譯主要是音譯形式。陳鈺楓對(duì)LDC機(jī)構(gòu)發(fā)布的漢英雙語(yǔ)命名實(shí)體語(yǔ)料庫(kù)(LDC 2005T34)進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)人名翻譯對(duì)音譯詞占100%。所以,我們判斷一個(gè)中文候選是不是給定英文人名的翻譯,主要依靠?jī)烧咧g的音譯相似度和翻譯概率。

        (4)

        W1+W2=1

        P(CN|EN)是在給定EN的情況下,檢索出的頁(yè)面中出現(xiàn)CN的概率,其計(jì)算見(jiàn)式(1)。

        ScoreED(CN,EN)是基于最小編輯距離(ED)的音譯相似度,見(jiàn)式(5)。本文實(shí)驗(yàn)W1=0.7, W2=0.3。

        (5)

        EN是源英文人名查詢(xún)?cè)~,CN代表中文人名翻譯候選詞,PYc是CN的拼音序列,ED(EN,PYc)是他們之間的最小編輯距離,即從EN到PYc的最小編輯操作數(shù)量,包括插入,刪除及替換等。Num(x)代表中文拼音序列或英文人名x去除空格、點(diǎn)號(hào)和標(biāo)點(diǎn)符號(hào)后字母的個(gè)數(shù)即此字符串的長(zhǎng)度。比如中英文名字對(duì)比爾·蓋茨—Bill Gates,PYc=(bi, er, gai, ci)和EN=(Bill, Gates)的最小編輯距離ED是5,最佳的編輯路徑是“Bill”—“Bi er”,ED為2;“Gates”—“gai ci”ED為3。所以,比爾·蓋茨與Bill Gates的音譯相似度為0.44。

        3.5 去除噪音,輸出翻譯結(jié)果

        在人名候選詞生成階段,可能會(huì)產(chǎn)生很多冗余信息。對(duì)于冗余信息需要進(jìn)行降噪處理。如果翻譯候選詞A是翻譯候選詞B的子集,且翻譯候選詞A的排序值低于翻譯候選詞B,我們便將翻譯候選詞A視為噪音并刪除,如“比爾蓋”是“比爾蓋茨”的子串,并且“比爾蓋”的排序值低于“比爾蓋茨”的排序值,則將其視為噪音。

        4 實(shí)驗(yàn)與結(jié)果分析

        本文通過(guò)網(wǎng)絡(luò)語(yǔ)料庫(kù)、百科全書(shū)及線下語(yǔ)料庫(kù)提取出了1 000多個(gè)中英文人名翻譯等價(jià)對(duì)作為訓(xùn)練語(yǔ)料庫(kù),從該訓(xùn)練語(yǔ)料庫(kù)中提取中英文人名共現(xiàn)規(guī)則。對(duì)其中的1/10作為測(cè)試語(yǔ)料。

        對(duì)人名翻譯使用正確率來(lái)進(jìn)行評(píng)價(jià),正確率P是指已正確翻譯的英文人名個(gè)數(shù)占翻譯的所有英文人名的百分比。對(duì)于排序的中文人名翻譯候選詞,只要前N個(gè)結(jié)果中包含正確的翻譯,則可算進(jìn)Top-N結(jié)果的正確率中。 Top-N的正確率記為PTop-N。

        4.1 不同組合模塊下的翻譯效果評(píng)估與對(duì)比

        為了對(duì)比利用輔助詞、規(guī)則庫(kù)、通過(guò)音譯和統(tǒng)計(jì)特征排序以及噪音除噪的效果,我們分別與基準(zhǔn)方法疊加組合計(jì)算出PTop-N,實(shí)驗(yàn)結(jié)果如表2所示。

        表2 不同模塊組合下的Top-N翻譯正確率

        表2中,基準(zhǔn)方法是為了與添加輔助詞、規(guī)則和統(tǒng)計(jì)排序等進(jìn)行比較而進(jìn)行的基本實(shí)驗(yàn),過(guò)程如第二部分。 “基準(zhǔn)方法+輔助詞”是把部分2的2.(1)替換成3.1(1)+3.1(2)+3.1(3),后面的步驟是2.(2)和2.(3)?!盎鶞?zhǔn)方法+輔助詞+規(guī)則”是把部分2的2.(1)替換成3.1(1)+3.1(2)+3.1(3)+3.1(4),后面的過(guò)程是2.(2)和2.(3)。基于網(wǎng)絡(luò)搜索的人名翻譯方法是3.1中完整的方法。

        從表2可以看出,對(duì)于排序最前的英漢人名翻譯,基準(zhǔn)方法的正確率為65.5%。而采用輔助詞后,正確率為68.6%。再增加規(guī)則后,正確率為74.8%。而采用基于網(wǎng)絡(luò)搜索的人名翻譯,正確率為81.3%。基于網(wǎng)絡(luò)搜索的人名翻譯同時(shí)利用了翻譯輔助詞、人名翻譯規(guī)則、基于最小編輯距離的音譯相似度和翻譯概率排序。說(shuō)明隨著處理組合的不斷增加,正確率逐步增加?;谝?guī)則庫(kù)的候選詞提取及根據(jù)音譯和統(tǒng)計(jì)特征排序候選詞都對(duì)翻譯正確率的提高起到了重要作用。另一方面,從表格的橫向來(lái)看,隨著Top-N包含候選詞的個(gè)數(shù)增加,正確率也逐漸增加。基準(zhǔn)方法只使用了翻譯概率對(duì)翻譯候選進(jìn)行排序,而基于網(wǎng)絡(luò)搜索的人名翻譯把音譯相似度和翻譯概率結(jié)合起來(lái)對(duì)翻譯候選進(jìn)行排序,翻譯正確率進(jìn)一步增加,說(shuō)明音譯相似度對(duì)人名翻譯的判斷確實(shí)有幫助。

        從實(shí)驗(yàn)結(jié)果來(lái)看,如果待翻譯的人名比較有名,從網(wǎng)絡(luò)上就容易獲取其人名翻譯。如果待翻譯的人名比較罕見(jiàn),從網(wǎng)絡(luò)上獲取其翻譯則比較困難。

        4.2 主要錯(cuò)誤類(lèi)型分析

        利用網(wǎng)絡(luò)搜索進(jìn)行人名翻譯的主要錯(cuò)誤有以下幾類(lèi)。

        (1) 從網(wǎng)絡(luò)語(yǔ)料庫(kù)中獲取的人名翻譯與標(biāo)準(zhǔn)不一致。這主要是因?yàn)橐徊糠钟⑽娜嗣卸鄠€(gè)譯文,都是根據(jù)發(fā)音翻譯過(guò)來(lái)的。例如,Emily根據(jù)網(wǎng)絡(luò)語(yǔ)料庫(kù)的中文翻譯是“艾米莉”,而用來(lái)計(jì)算準(zhǔn)確率的翻譯是“艾米麗”。

        (2) 英文人名搜索結(jié)果里中英文人名共現(xiàn)的信息或語(yǔ)料較少,從而導(dǎo)致無(wú)法提取含有正確翻譯的候選詞。

        (3) 語(yǔ)料庫(kù)中出現(xiàn)與英文全名共現(xiàn)的部分中文翻譯名的情況,如“巴拉克奧巴馬—Barack Obama”在很多網(wǎng)絡(luò)新聞報(bào)道中都是以下列形式出現(xiàn)“……當(dāng)美國(guó)總統(tǒng)奧巴馬(Barack Obama)的團(tuán)隊(duì)將要拍攝競(jìng)選視頻時(shí)……”這類(lèi)語(yǔ)料并未將巴拉克這個(gè)名字進(jìn)行翻譯,導(dǎo)致提取出“總統(tǒng)奧巴馬”這類(lèi)型的錯(cuò)誤候選詞。

        (4) 候選詞中包含正確的翻譯但排序模型未能將其排在前面。有些英中人名在網(wǎng)絡(luò)語(yǔ)料庫(kù)中出現(xiàn)次數(shù)很少或者不是根據(jù)音譯規(guī)律來(lái)翻譯的英中人名,導(dǎo)致對(duì)候選詞排序時(shí)的排序評(píng)分比較低。

        (5) 考慮音譯最大長(zhǎng)度和最小長(zhǎng)度提取翻譯候選詞,以便縮小候選詞范圍同時(shí)提高系統(tǒng)效率,但這種方法對(duì)于不是音譯或意譯的中英文對(duì)并未有效,如“濱崎步—Ayumi Hamasaki”,英文是通過(guò)日文發(fā)音翻譯而成,而中文翻譯卻是從日文意譯而來(lái),因此會(huì)出錯(cuò)。

        此外,還有切詞錯(cuò)誤、詞性標(biāo)注錯(cuò)誤和人名識(shí)別錯(cuò)誤等。

        為進(jìn)一步提高人名翻譯準(zhǔn)確率,需要進(jìn)一步提高漢語(yǔ)切詞、詞性標(biāo)注和人名識(shí)別的正確率。判斷準(zhǔn)確率時(shí),把英中人名翻譯的多種可能考慮進(jìn)來(lái)。對(duì)于一小部分沒(méi)有根據(jù)音譯規(guī)律進(jìn)行翻譯的人名需建立人名翻譯詞典或根據(jù)更多的上下文來(lái)進(jìn)行判斷。而對(duì)于搜索結(jié)果較少或者根本沒(méi)有搜索到的人名對(duì),需利用其他資源來(lái)進(jìn)行人名翻譯。比如: 利用其他雙語(yǔ)對(duì)齊語(yǔ)料庫(kù)或雙語(yǔ)可比較語(yǔ)料庫(kù)來(lái)進(jìn)一步提高人名翻譯準(zhǔn)確率。

        本文把詞性標(biāo)注、規(guī)則、上下文、音譯相似度和翻譯概率相結(jié)合,使得網(wǎng)絡(luò)搜索可以根據(jù)ICTCLAS的人名標(biāo)注、規(guī)則和預(yù)估的翻譯長(zhǎng)度來(lái)選擇候選集合,這樣可以使得搜索空間大大縮小。另一方面,根據(jù)音譯相似度和翻譯概率從多個(gè)候選結(jié)果中選擇出正確的翻譯可以充分地利用人名翻譯統(tǒng)計(jì)知識(shí)。

        5 結(jié)論

        本文提出的基于網(wǎng)絡(luò)搜索的英漢人名翻譯方法結(jié)合了規(guī)則、音譯及統(tǒng)計(jì)等多種資源和特征。首先,為了獲取到相關(guān)的網(wǎng)絡(luò)語(yǔ)料和搜索結(jié)果,我們利用翻譯輔助詞和中英文人名共現(xiàn)規(guī)則。通過(guò)發(fā)音音節(jié)來(lái)預(yù)估翻譯長(zhǎng)度,從而提高了候選詞提取和生成的精度。其次,我們結(jié)合了基于最小編輯距離的音譯相似度和翻譯概率來(lái)對(duì)候選詞進(jìn)行綜合排序。實(shí)驗(yàn)結(jié)果表明每一個(gè)特征的加入都有效地提高了人名翻譯的正確率。

        [1] Stephen Wan, Cornelia Verspoor, Automatic English-Chinese Name Transliteration for Development of Multilingual Resources[C]//Proceedings of COLING/ACL-1998,1998: 1352-1356.

        [2] Kevin Knight, Jonathan Graehl. Machine transliteration[J]. Computational Linguistics. 1998, 24(4): 599-612.

        [3] Yaser Al-Onaizan, Kevin Knight. Translating named entities using monolingual and bilingual resources[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. 2002: 400-408.

        [4] Li Haizhou, Zhang Min, Su Jian. A Joint Source-Channel Model for Machine Transliteration[C]//Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics. 2004: 21-26.

        [5] Fei Huang, Stephan Vogel, Alex Waibel. Automatic extraction of named entity translingual equivalence based on multi-feature cost minimization[C]//Proceedings of the ACL 2003 workshop on Multilingual and mixed-language named entity recognition,2003,15: 9-16.

        [6] 陳懷興, 尹存燕, 陳家駿.一種命名實(shí)體翻譯等價(jià)對(duì)的抽取方法[J].中文信息學(xué)報(bào),2008,22(4): 55-60.

        [7] 陳鈺楓,宗成慶,蘇克毅.漢英雙語(yǔ)命名實(shí)體識(shí)別與對(duì)齊的交互式方法[J].計(jì)算機(jī)學(xué)報(bào),2011, 34(9): 1688-1696.

        [8] 于恒,凃兆鵬,劉群,劉洋.基于多粒度的英漢人名音譯[J].中文信息學(xué)報(bào),2013, 7(4): 16-21.

        [9] 鄒波,趙軍, 英漢人名音譯方法研究[C].第四屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集,2008.

        [10] 李婷婷,趙鐵軍,張春越.基于統(tǒng)計(jì)的日本人名的識(shí)別和翻譯[J].智能計(jì)算機(jī)與應(yīng)用,2013,2(1): 4-7.

        [11] Jinhan Kim, Seung-won Hwang, Long Jiang, et al. Entity Translation Mining from Comparable Corpora: Combining Graph Mapping with Corpus Latent Features[J]. IEEE Trans. Knowl. Data Eng. 2012,25(8): 1787-1800.

        [12] Taesung Lee, Seung-won Hwang. Bootstrapping Entity Translation on Weakly Comparable Corpora[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistic. 2013: 4-9.

        [13] Fei Huang, Ying Zhang, Stephan Vogel, Mining key phrase translation from web corpora [C]//Proceedings of HLT/EMNLP-2005, 2005: 483-490.

        [14] Fan Yang, Jun Zhao, Kang Liu, A Chinese-English Organization Name Translation System Using Heuristic Web Mining and Asymmetric Alignment[C]//Proceedings of the 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP. 2009: 387-395.

        [15] Jian-Cheng Wu, Jason S. Chang. Learning to Find English to Chinese Transliterations on the Web[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. 2007: 996-1004.

        [16] 張永臣,孫樂(lè),李飛等.基于Web數(shù)據(jù)的特定領(lǐng)域雙語(yǔ)詞典抽取[J].中文信息學(xué)報(bào),2006,20(2): 16-23.

        [17] 蔣龍,周明,簡(jiǎn)立峰.利用音譯和網(wǎng)絡(luò)挖掘翻譯命名實(shí)體[J].中文信息學(xué)報(bào),2007, 21(1): 23-29

        [18] 郭稷,呂雅娟,劉群. 一種有效的基于Web的雙語(yǔ)翻譯對(duì)獲取方法[J].中文信息學(xué)報(bào),2008,22(6): 103-109.

        [19] 趙明明,洪宇,姚建民,朱巧明. 基于音譯和網(wǎng)絡(luò)的命名實(shí)體翻譯方法研究[C].第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集. 2010: 357-366.

        [20] 趙明明.英漢命名實(shí)體翻譯研究[D].蘇州大學(xué)碩士學(xué)位論文,2011.

        [21] Ricardo Baeza-Yates, B Ribeiro-Neto. Modern Information Retrieval. Addison- Wesley & ACM Press, Harlow, UK, 1999.

        [22] 劉穎,姜巍.改進(jìn)的隱馬爾克夫模型的詞語(yǔ)對(duì)齊[J].中文信息學(xué)報(bào),2014,28(2): 51-55.

        English-Chinese Name Translation Based on Web Mining

        LIU Ying, CAO Xiang

        (Chinese Language and Literature Department, Tsinghua University, Beijing 100084, China)

        We propose a method to translate English into Chinese name using the search engine. The method makes use of supporting word, co-occurrence rules of English and Chinese name, transliteration similarity and translation probability. First, the translation candidates of English names are obtained by means of the search engine. We use the name tagging results, supporting words, co-occurrence rules of English-Chinese name and the length of syllable to obtain translation candidates from online corpus. Supporting words help to search more correlative names. Co-occurrence rules and the length of syllable make translations of an English name follow the regularities of co-occurrence and transliteration. Then the translated candidates are sorted according to transliteration similarity and the translation probability. English names are almost translated according to their pronunciations and the transliteration similarity help to judge the similarity of their pronunciations. We use the translation probability to obtain the translation likelihood of two words statistically. The experimental results show supporting word, co-occurrence rules, transliteration similarity and translation probability are all positive to improve the precision of name translation.

        name translation; transliteration similarity; rule; translation probability

        劉穎(1969—),博士,教授,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。E?mail:yingliu@tsinghua.edu.cn曹項(xiàng)(1987—),碩士,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。E?mail:celephant@126.com

        2015-01-10 定稿日期: 2015-03-10

        國(guó)家自然科學(xué)基金(61171114);北京市社科基金(16YYB021);清華大學(xué)人文社科振興基金(20145081042)

        1003-0077(2017)02-0049-06

        TP391

        A

        猜你喜歡
        排序英文規(guī)則
        撐竿跳規(guī)則的制定
        排序不等式
        數(shù)獨(dú)的規(guī)則和演變
        恐怖排序
        節(jié)日排序
        刻舟求劍
        兒童繪本(2018年5期)2018-04-12 16:45:32
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        英文摘要
        TPP反腐敗規(guī)則對(duì)我國(guó)的啟示
        英文摘要
        福利一区二区三区视频午夜观看| 亚洲 欧美 综合 在线 精品| 玩弄丰满奶水的女邻居| 丰满少妇在线观看网站| 免费国产h视频在线观看86| 91羞射短视频在线观看| 国产精品婷婷久久爽一下| 性色av一区二区三区| 97人妻视频妓女网| 精品日本免费观看一区二区三区| 国产自拍av在线观看视频| 久久精品欧美日韩精品| 欧美日韩在线观看免费| 一区二区三区在线蜜桃| 精品国产a一区二区三区v| 无码少妇精品一区二区免费动态| 国产三级欧美| 亚洲综合天堂av网站在线观看| 青青草成人在线免费视频| 中文亚洲欧美日韩无线码| 中文字幕久久久久久精| 日本一道高清在线一区二区| 老熟妇乱子交视频一区| 日韩在线一区二区三区免费视频| 窄裙美女教师在线观看视频| 色婷婷在线一区二区三区| 久久精品国产亚洲av麻豆图片| 六月丁香婷婷色狠狠久久| 亚洲国产AⅤ精品一区二区久| 国产激情在线观看免费视频| 免费a级毛片无码免费视频120软件| 欧美成人免费高清视频| 国产一级av理论手机在线| 狠狠cao日日橹夜夜十橹| 影视先锋av资源噜噜| yy111111少妇影院| 手机在线看片国产人妻| 99精品人妻少妇一区二区| 成黄色片视频日本秘书丝袜| 色婷婷久久综合中文久久一本| 午夜精品久久久久久久无码|