亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        維吾爾語中漢族人名的識別及翻譯

        2011-06-28 06:37:16李佳正麥熱哈巴艾力呂雅娟吐爾根依布拉音
        中文信息學報 2011年4期
        關(guān)鍵詞:漢族人維語單字

        李佳正,劉 凱,麥熱哈巴·艾力,,呂雅娟,劉 群,吐爾根·依布拉音

        (1. 中國科學院計算技術(shù)研究所 中國科學院智能信息處理重點實驗室,北京 100190;2. 新疆大學 信息科學與工程學院,新疆 烏魯木齊 830046)

        1 前言

        我國是一個統(tǒng)一的多民族、多語言的國家,除漢族外,少數(shù)民族有55個,其中有語言80多種,40多種現(xiàn)行文字,其中22個民族使用28種文字。隨著社會的發(fā)展,無論是經(jīng)濟還是文化,各民族之間的交流越來越頻繁。而語言的差異,作為一個客觀現(xiàn)實,在一定程度上制約了民族之間的文化交流、經(jīng)濟發(fā)展以及社會進步。與此同時,語言作為搭載民族文化的獨特因素,對于民族文化的保護、研究和開發(fā),以及弘揚本民族的傳統(tǒng)文化,都起著十分重要的作用。因此,對少數(shù)民族語言與漢語之間機器翻譯的研究是十分必要的。民族語言翻譯不僅對少數(shù)民族和民族地區(qū)的經(jīng)濟、文化發(fā)展起作用,更在維護祖國統(tǒng)一,增強民族團結(jié)等方面發(fā)揮了不可替代的重要作用。

        所謂的命名實體(Named Entity)主要包括實體(組織名、人名、地名)、時間表達式(時間、時間)、數(shù)字表達式(貨幣值、百分數(shù))等。命名實體識別是對文本進行理解的前提工作,屬于文本信息處理的基礎(chǔ)研究領(lǐng)域,它的研究成果將對后續(xù)的一系列工作產(chǎn)生影響。人名識別在命名實體識別中是一個富有挑戰(zhàn)的問題,它在英文中已經(jīng)得到很好的研究。目前,人名識別的方法主要有基于規(guī)則的方法和基于機器學習的方法。孫茂松,宋柔等,采用基于規(guī)則的方法識別中國人名[1];羅智勇,宋柔[2]從10萬條人名庫、2億字的真實語料庫中將姓名用字分為了9類,并總結(jié)了21條識別規(guī)則。但是無論是收集規(guī)模巨大的人名庫與真實語料庫,還是提煉識別規(guī)則,都是一個費時費力的工程。隨著技術(shù)的進步,利用統(tǒng)計方法進行人名識別成為主流。其中HMM[3]方法被認為是更容易捕捉局部的語言對象,成為眾多研究者的選擇,尤其是已用于已有的漢語命名實體識別系統(tǒng)中,如: 張華平等[4]結(jié)合Viterbi算法實現(xiàn)角色的自動標注;呂雅娟[5]采用分解處理策略和動態(tài)規(guī)劃方法識別中外人名和中國地名;Wu Youzheng[6]等提出了基于多特征相融合的漢語命名實體模型。

        對于本文涉及到的維吾爾語人名的翻譯,衣馬木艾山·阿布都力克木在2010年提出了基于規(guī)則的維吾爾人名漢文機器翻譯算法[7]。而有關(guān)維語中的漢族名字該如何翻譯這個問題,基本沒有相關(guān)研究工作。

        本文提出一種維吾爾語中漢族人名識別及翻譯方法。在普通人名的翻譯上可以有很大的自主性和靈活性,但對于諸如國家領(lǐng)導人姓名這樣特殊的姓名集合,則必須要求精準翻譯。因此,有必要建立一部包括國家領(lǐng)導人、藝術(shù)家等名人的人名庫。與此同時,在進行普通人名翻譯的時候,姓名各個單字的詞典也是必需的。在識別漢族人名的過程中,我們使用詞典和拉丁維語及漢語的語言模型進行識別和翻譯。此外,針對維語中人名可以綴接名詞性后綴的特點以及拼寫特點,我們添加了名詞詞綴識別預處理模塊,補充了維語字母到漢語拼音的映射規(guī)則,有效提高了人名識別的正確率及召回率。

        2 維吾爾語中漢族人名的特點

        由于不同民族的歷史、語言等方面的原因,維語人名與漢語人名有著一定的差異。漢語及維語人名都由兩部分組成[8]。漢族人名有名字有姓氏,由姓和名兩部分組成,有專用的姓;但是維語人名卻沒有專用的姓,采用父子連名制,用父名作姓,其全名由本名和父名組成。漢族及維族人名形式不同。漢族人名姓在前名在后,即姓+名,如“張偉”;維吾爾族人名排列次序恰好相反,本名在前,父名在后,即本名+父名,本名與父名之間用間隔號, 如某人本名叫艾尼瓦爾,父名叫薩迪克,則其維語名字即為“艾尼瓦爾·薩迪克”。

        基于維語人名組成的特殊性,在實際的翻譯系統(tǒng)里,對于維語本土的名字,我們采用詞典匹配的方法。但對于龐大的漢族人名來講,建立完整的字典難度是很大的。而且因為漢語中存在多音字的關(guān)系,將維語翻譯成漢語的時候,如果僅依賴詞典會使翻譯結(jié)果非常單一,無法滿足靈活的需要。因此我們考慮,如果引入人名中每個字之間的統(tǒng)計關(guān)系,以及結(jié)合上下文的語境來進行人名識別和翻譯,將會更加靈活和人性化。

        需要注意的是,人名作為一種特殊的名詞,可以綴接名詞詞綴??梢灶A見,這種情況會給人名識別帶來很大難度,而綴接了名詞詞綴人名的識別也會有很大的不同。本文后面將對這種情況展開詳細研究,此處不再累述。

        3 維漢字母拼音映射關(guān)系

        現(xiàn)在中國境內(nèi)的維吾爾語使用的文字是以阿拉伯字母為基礎(chǔ)的老維文(UEY)和拉丁字母為基礎(chǔ)的拉丁維文(ULY)。在研究中我們發(fā)現(xiàn),老維文可以無歧義地轉(zhuǎn)換成拉丁維文,因此本文僅對拉丁維文進行處理?,F(xiàn)代拉丁維文共有32個字母,其中有8個元音,24個輔音。尤為重要的是,維吾爾語是一種拼音式文字。值得注意的是,維語的構(gòu)成與特征與漢語拼音有著一定的映射聯(lián)系(見表1)。

        表1 漢語拼音與維語字母映射表

        通過觀察維語語料中的漢族人名,我們發(fā)現(xiàn)漢語拼音(組合)到維語字母(組合)的映射并不是完全對應了以上規(guī)則。通過查閱資料,我們了解到在維語發(fā)音中,根據(jù)不同人的不同習慣,同樣的發(fā)音可以有多種多樣的拼寫方式。在統(tǒng)計了大量維語漢族人名后,本文總結(jié)出了一些規(guī)則,共有7條(見表2)。

        表2 補充的維語字母到漢語拼音的映射規(guī)則

        4 維吾爾語中漢族人名的識別和翻譯方法

        本部分我們將詳細介紹維吾爾語中漢族人名的識別和翻譯方法,包括基于語言模型的漢族人名識別和翻譯、維吾爾語名詞詞綴兩個方面。

        4.1 基于語言模型的漢族人名識別和翻譯

        統(tǒng)計語言模型(Statistical language model)通過大量對文本文件的統(tǒng)計,提取不同字、詞之間先后發(fā)生的統(tǒng)計關(guān)系。目前主要采用的是n元語法模型(N-gram model),這種模型構(gòu)建簡單、直接。本文主要借助SRILM工具包來進行語言模型的創(chuàng)建。SRILM是一個建立和使用統(tǒng)計語言模型的開源工具包,在Cygwin的平臺上能實現(xiàn)訓練、預測、計算的一系列操作。利用SRILM,我們可以方便地創(chuàng)建和運用多種基于N-gram的統(tǒng)計語言模型。

        本文搭建了兩個語言模型。分別用于維文中漢族人名的識別和翻譯。在識別方面,漢族人名的構(gòu)成與維語普通詞的構(gòu)成是有著一定差別的,這在統(tǒng)計信息上可以予以體現(xiàn)。利用這種不同,本文搭建拉丁維語語言模型來識別出維語中的漢族人名,由于維語中的漢族人名一般占用兩個維語單詞,所以采用維語二元語言模型。當識別出的漢族人名是詞典中的人名時,對其翻譯只需查找詞典即可。而翻譯的難點就在于那些不在詞典中的人名該如何翻譯。顯然,為不斷出現(xiàn)新的人名而建立豐富、全面的對照詞庫是不現(xiàn)實的。在漢語里,每個字在人名中出現(xiàn)的概率是不一樣的,甚至于有些字的組合出現(xiàn)的概率也是不同的。譬如,“志洋”二字在名中出現(xiàn)的概率就要大于其他“zhi yang”組合的概率。由于漢族人名長度絕大多數(shù)為2和3,所以本文用漢語字符的三元語言模型選擇最符合漢族人習慣的中文人名。下面我們詳細介紹如何識別及翻譯維語中的漢族人名。

        識別的主要任務是要識別出文本中出現(xiàn)的拉丁維語中的漢族人名。由前文知,維語中的漢族人名在書寫上與漢語人名有相同的規(guī)則,均為“姓[空格]名”,即姓名之間用空格隔開。但在實際情況中,我們發(fā)現(xiàn)由于書寫習慣的不同,在用維語書寫漢族人名時,有可能寫成“姓名”的形式,即姓和名沒有用空格間隔開。這就要求我們在識別過程中要能區(qū)分并正確識別這兩種正常的拼寫形式。識別時,我們先去查詢輸入的單詞是否為無空格間隔開的人名,若不是則去查詢是否為姓氏,若為姓氏,則初步判定當前輸入詞和下一輸入詞為人名,這時我們用拉丁維語的二元語言模型來判斷這兩個詞的組合概率是否在閾值控制的范圍內(nèi),以此來判斷輸入的兩個詞是否是真正可翻譯的人名。具體識別步驟見圖1。

        翻譯的主要任務是對識別為人名的兩個單詞翻譯成中文人名。在翻譯的過程中要考慮一下三種情況: (1)“姓 名”為人名庫詞典中存在的詞條;(2)“名”為單字;(3)“名”為雙字。

        翻譯時,我們在姓氏詞典里查詢輸入的第一個詞,再對第二個輸入詞進行分析,判斷其是單字還是兩個字,若是兩個字則對其進行拆分。這樣取出每一個單字后,我們用漢語的三元語言模型對每個單字的組合求概率,選擇概率最大的組合為最佳翻譯。具體翻譯步驟見圖2。

        4.2 維吾爾語名詞詞綴

        維吾爾語是一種形態(tài)變化很復雜的語言,其中名詞是一種形態(tài)變化復雜的詞類。維吾爾語屬于阿爾泰語系突厥語族,黏著型語言。黏著語語言是一種有時態(tài)變化的語言類型,通過在單詞的詞尾粘貼不同的詞綴來實現(xiàn)語法功能。維吾爾語中的名詞詞綴共有49個。在本文所搭建的人名翻譯系統(tǒng)中,人名作為一類特殊的名詞,其后也會綴接名詞詞綴。因此,在翻譯過程中,需要識別出詞綴才能截取出我們需要的人名,后續(xù)的翻譯等工作才能順利進行。

        圖1 識別主要流程

        在圖1中,相鄰兩個單詞a、b作為輸入,判斷a是否為無空格間隔的人名,若非此種情況,則判斷a是否為姓氏,若非姓氏,則判斷“a空格b”是否為人名,若是人名則用拉丁維語二元語言模型計算a、b組合的概率,若小于固定閾值則識別成功,其余情況均視為失敗。

        圖2 翻譯主要流程

        在圖2中,相鄰單詞a、b作為輸入,若b不為單字,且可拆分成兩個字c、d,且用漢語三元語言模型計算姓和名各單字的組合概率,選取最大值組合為譯文;否則視為不可譯。

        本文將對詞綴識別的改進算法添加在對翻譯文件的預處理階段,即在人名的識別翻譯前先對詞綴進行過濾。我們考慮輸入詞有以下幾種情況: (1)普通詞,即非人名的詞;(2)為無間隔空開的人名庫中的姓名;(3)為姓氏;(4)為名;(5)為綴接詞綴的無空格間隔的人名庫中的姓名;(6)為綴接詞綴的人名中的名字部分,其中名字可以為單字名,亦可以為雙字名。識別詞綴時,若是前四種種情況我們則不對輸入詞進行處理,若是后兩者即綴接了詞綴的人名的情況,我們用反向最大匹配去識別詞綴,識別出詞綴后,為保證切割掉詞綴的部分可以正常翻譯,需要對切割掉詞綴的部分進行單字或雙字的詞典匹配,若可以匹配成功,則表明綴接了詞綴的人名識別成功。其主要流程如圖3所示。

        圖3 詞綴識別處理主要流程

        在圖3中,依次判斷輸入詞是否為名人庫中的名字、是否為姓氏以及是否為單字或雙字名,若皆非,則用反向最大匹配識別輸入詞的詞綴,若詞綴是可識別的,繼續(xù)判斷去掉詞綴的部分是否為無空格間隔姓名、單字名或雙字名中的一種,若是其中一種,則詞綴識別成功,并將名字和詞綴分別輸出;其余情況視為識別不成功。

        5 實驗與分析

        本文逐步實現(xiàn)了此前闡述的有關(guān)人名識別和翻譯的功能,并對維語中漢族人名翻譯進行了測試。

        5.1 實驗數(shù)據(jù)

        本文所用的實驗數(shù)據(jù)來自于新疆大學信息科學與工程學院的學者標注的12萬維吾爾語語料以及搜狗官方網(wǎng)站提供的人名語料*http://pinyin.sogou.com/,并在此基礎(chǔ)上根據(jù)我們需求做了一定處理。

        5.1.1 人名詞典

        我們從搜狗官方網(wǎng)站下載了國家領(lǐng)導人,名人以及常見人名細胞詞庫*http://pinyin.sogou.com/dict/,其中常見人名共120 620個詞條。本文選取了中國歷代國家領(lǐng)導人的姓名,名人的姓名作為名人人名庫(共3 720詞條)。在制作名人庫的時候,充分結(jié)合了中國歷史的特點,利用百家姓對所有人名進行了過濾,以保證所有的人名都是合乎中國文化及特點。在此基礎(chǔ)之上,根據(jù)建立的漢字與維語拼音的映射,將名人庫的姓名翻譯成拉丁維語。與此同時,為了后面對人名進行翻譯的時候有詞典可查,分別生成姓以及名的各單字的維漢詞典。

        5.1.2 語言模型

        新疆大學信息學院學者建立了一個規(guī)模為119 737句的維語語料庫。其中,含有人名的句子有5 874句;不含人名的句子有113 863句。

        本文使用了其中不含人名的113 863句來訓練拉丁維語二元語言模型,通過此模型來判斷輸入詞是以下哪種情況: (1)維語普通詞與普通詞;(2)維語普通詞與漢族人名的姓氏;(3)漢族人名姓氏與名字;(4)漢族人名的名字與維語普通詞。通過實驗觀察數(shù)據(jù)得知,以上情況中,絕大部分漢族人名姓氏與名字相鄰的概率小于固定閾值。

        本文同時使用了名人庫(共3 720詞條)以及常見人名(共120 620詞條)進行分詞,來搭建漢語的三元語言模型,建立漢族人名使用的單字之間的統(tǒng)計關(guān)系。

        5.1.3 測試數(shù)據(jù)

        本文對維語里中文人名翻譯系統(tǒng)進行了測試。所用的測試數(shù)據(jù)來自于12萬維語語料中含有漢族人名的句子,共5 874句,隨機抽取其中1 000句進行測試。

        5.2 實驗結(jié)果

        我們首先按照最初設(shè)計的識別及翻譯流程,即不使用人們常用的錯誤的拼寫規(guī)則及詞綴識別,搭建了維語中漢族人名的翻譯系統(tǒng)。在測試數(shù)據(jù)上對系統(tǒng)進行測試,并統(tǒng)計了識別的正確率及召回率。

        接下來,我們根據(jù)前面總結(jié)的漢語拼音(組合)到維語字母(組合)的映射補充規(guī)則來重新建立漢字與維語拼寫的映射,并創(chuàng)建詞典,包括名人庫的人名,姓氏及名字的詞典。在此基礎(chǔ)之上,用SRILM工具包重訓拉丁維語二元語言模型以及漢語三元語言模型。用同樣的測試數(shù)據(jù)進行測試,并統(tǒng)計結(jié)果。

        最后,我們嘗試根據(jù)前文提出的名詞詞綴識別的算法再次改進系統(tǒng),期望能夠在正確率提高的基礎(chǔ)上,進一步提高召回率。

        三次測試的結(jié)果對比如圖4所示。

        圖4 三次人名識別測試結(jié)果對比圖

        測試結(jié)果表明,在第一個人名識別及翻譯系統(tǒng)中,僅有超過一半的人名翻譯了。通過對比譯文,總結(jié)原因有兩點: (1)由于維吾爾族人發(fā)音不同的原因,有些維語字母對漢語拼音的映射并不是一對一的,譬如: “yong”會拼寫成“yung”;(2)人名是名詞的一種特殊形式,而在維語里面有名詞詞綴,這些詞綴在拼接到人名后時,會使人名無法識別和翻譯,如“wang bangjün”在綴接了詞綴“ning”后變成“wang bangjünning”,在識別過程中,第二個輸入詞就變成了“bangjünning”,由于詞綴的出現(xiàn),系統(tǒng)無法將其拆分成兩個單字,拆分不成功將導致系統(tǒng)無法將其識別為人名。

        從圖4中可以看出,人名識別及翻譯系統(tǒng)在補充規(guī)則后,識別的正確率提高了15.5%,達到了69.4%,召回率則有20.1%的提高,達到84.3%;在添加了詞綴分析后,正確率在前者的基礎(chǔ)上又有了5.8%的提高,召回率有7.2%的提高,分別達到 75.2% 和91.5%。結(jié)果表明,人名識別及翻譯系統(tǒng)最初使用的規(guī)則是不夠全面的,補充了總結(jié)的漢語拼音(組合)到維語字母(組合)的映射規(guī)則后,識別及翻譯效果得到了較大提升。而添加了詞綴識別預處理模塊后,系統(tǒng)識別的正確率達到了75.2%,召回率更高達91.5%。

        另外,通過對比譯文,我們發(fā)現(xiàn),在對測試語料對應的中文譯文進行詞法分析的時候,詞性標注有誤,使人名翻譯的譯文存在噪聲,這是系統(tǒng)識別召回率無法提升的主要原因。例如,“谷歌”的拉丁維語拼寫為“gug?l”,中文分詞時將“谷歌”識別為人名,我們隨機抽取含有“谷歌”的句子作為測試句,而“gug?l”是無法識別和翻譯為漢族人名的。對于正確率,由于在拉丁維語中,有些單詞是與中文的姓氏拼寫相同的,例如“si”、“ni”等,而這些拉丁維語單詞出現(xiàn)的頻率是比較高的,在語言模型中擁有較高的概率值,因此在通過拉丁維語二元語言模型計算與前后詞的組合概率時,與這些單詞拼寫相同的姓氏也會被當做普通詞而不被識別,這是造成正確率不夠高的主要原因。

        4 總結(jié)及下一步工作

        本文針對維吾爾語中漢族人名的識別和翻譯方法進行了一定的研究和探索。設(shè)計了通過漢字與維語拼音的映射規(guī)則來構(gòu)造漢族人名的維語詞典,使用語言模型來計算輸入譯文是否為名字及名字如何翻譯。并采用添加規(guī)則和對人名詞綴進行識別的方法來提高系統(tǒng)的翻譯精度。實驗結(jié)果表明了上述方法的可行性和有效性。

        為了進一步提高維漢人名翻譯系統(tǒng)翻譯的質(zhì)量,還需要收集和整理更多有關(guān)維漢人名翻譯的資料,尤其是使用更為精準的測試語料。另外,在進行識別時,我們可以調(diào)整閾值尋找更加合理的參數(shù)值以識別出更多的漢族人名,進一步提高系統(tǒng)識別的正確率。

        [1] 宋柔, 朱宏. 基于語料庫和規(guī)則庫的人名識別法[C]//陳力為. 計算語言研究與應用. 北京: 北京語言學院出版社, 1993.

        [2] 羅智勇, 宋柔. 現(xiàn)代漢語自動分詞中專名的一體化、快速識別方法[C]//Ji Dong-Hong, 國際中文電腦學術(shù)會議, 新加坡, 2001: 323-328.

        [3] 張華平,劉群. 基于角色標注的中國人名自動識別研究[J]. 計算機學報,2004,27(1): 85-91.

        [4] Zhang Huaping, Liu Qun, Yu Hongkui, et al. Chinese named entity recognition using role model[J]. The International Journal of Computational Linguistics and Chinese Language Processing, 2003, 8(2): 29-60.

        [5] 呂雅娟, 趙鐵軍, 楊沐昀, 等. 基于分解與動態(tài)規(guī)劃策略的漢語未登錄詞識別[J]. 中文信息學報,2001, 15(1): 28-33.

        [6] Wu Youzheng, Zhao Jun, Xu Bo, et al. Chinese named entity recognition based on multiple feature[C]//Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing(HLT/EMNLP), Vancouver, 2005: 427-434.

        [7] 衣馬木艾山·阿布都力克木,吐爾地·托合提,艾斯卡爾·艾木都拉.基于規(guī)則的維吾爾人名漢文機器翻譯算法研究[J].計算機應用與軟件, 2010: 86-87.

        [8] 張秀玲. 漢維語人名文化異同之比較[J]. 新疆大學學報, 2009, 37(6): 136-139.

        猜你喜歡
        漢族人維語單字
        對比語言學視野下的維吾爾語與朝鮮語音義相近詞比較初探
        淺析維語口語技能的影響因素和提升路徑
        河北大名話單元音韻母、單字調(diào)及雙音節(jié)非輕聲詞連調(diào)的實驗語音學初探
        社會版(一)
        檢察風云(2019年1期)2019-01-21 09:50:26
        “對仗不宜分解到單字”毋庸置疑——答顧紳先生“四點質(zhì)疑”
        中華詩詞(2016年11期)2016-07-21 14:56:16
        鹽城方言單字調(diào)聲學實驗研究
        閩南的漢族人
        元朝亡于腐敗
        試析否定詞綴在漢維語中的不同表現(xiàn)
        語言與翻譯(2014年3期)2014-07-12 10:31:56
        《通鑒釋文》所反映的宋代單字音特殊變化
        西南學林(2013年1期)2013-11-22 07:19:32
        日本二区在线视频观看| 亚洲精品一区二区| 亚洲影院天堂中文av色| 国产v精品成人免费视频400条| 亚洲情久久久精品黄色| 国产激情久久久久影院小草| 国产97在线 | 亚洲| 亚洲第一看片| 丝袜美腿av免费在线观看| 熟女中文字幕一区二区三区| 免费无遮挡禁18污污网站| 九九视频免费| 一区二区三区精彩视频在线观看 | 在线观看av片永久免费| 国产黄色一区二区在线看 | 97在线视频免费| 情头一男一女高冷男女| 国产精品无码素人福利| 午夜丰满少妇性开放视频| 福利片福利一区二区三区| 久久亚洲一级av一片| 开心久久婷婷综合中文字幕| 欧洲美女黑人粗性暴交| 欧美巨大xxxx做受l| 国产精彩刺激对白视频| 亚洲精品中文字幕码专区| 成熟人妻换xxxx| 丰满人妻被黑人中出849| 国产成人久久精品二区三区牛 | 国产毛片精品av一区二区| 午夜时刻免费入口| 久久精品亚洲乱码伦伦中文| 无码国产精品一区二区免费式芒果| 国产免费一区二区在线视频| 97久人人做人人妻人人玩精品| 久久久久亚洲精品中文字幕| 久久91综合国产91久久精品| 日韩精品极品免费观看| 美女下蹲露大唇无遮挡| 性一交一乱一透一a级| 女人的天堂av免费看|