亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        漢維時(shí)間數(shù)字和量詞的識(shí)別與翻譯研究

        2016-06-01 11:29:46阿依古麗哈力克艾山吾買爾吐爾根伊布拉音卡哈爾江阿比的熱西提買合木提買買提
        中文信息學(xué)報(bào) 2016年6期
        關(guān)鍵詞:漢維維吾爾語歧義

        阿依古麗·哈力克,艾山·吾買爾,吐爾根·伊布拉音,卡哈爾江·阿比的熱西提,買合木提·買買提

        (1.新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;2.新疆多語種信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,新疆 烏魯木齊 830046)

        漢維時(shí)間數(shù)字和量詞的識(shí)別與翻譯研究

        阿依古麗·哈力克1,2,艾山·吾買爾1,2,吐爾根·伊布拉音1,2,卡哈爾江·阿比的熱西提1,2,買合木提·買買提1,2

        (1.新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;2.新疆多語種信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,新疆 烏魯木齊 830046)

        統(tǒng)計(jì)機(jī)器翻譯對(duì)時(shí)間、數(shù)字、量詞的泛化能力較弱,為了提高漢維機(jī)器翻譯系統(tǒng)對(duì)時(shí)間、數(shù)字和量詞短語的翻譯性能,該文利用雙語語料庫挖掘并提取漢語時(shí)間、數(shù)字、量詞表達(dá)與翻譯模式,實(shí)現(xiàn)了基于模板的時(shí)間、數(shù)字、無歧義量詞翻譯方法及基于上下文的有歧義量詞翻譯方法。時(shí)間、數(shù)字、無歧義量詞、有歧義量詞的翻譯F值達(dá)到了93.23%、90.15%、96.55%、87.58%,實(shí)驗(yàn)證明,該方法具有簡單高效的優(yōu)點(diǎn)。

        時(shí)間數(shù)字;無歧義量詞;有歧義量詞;翻譯規(guī)則;翻譯模板

        1 引言

        命名實(shí)體識(shí)別與翻譯在機(jī)器翻譯、信息處理系統(tǒng)中具有重大意義。目前,對(duì)命名實(shí)體的識(shí)別與翻譯研究工作在國內(nèi)外已取得大量的研究成果[1]。Shruti Mathur[2]等用基于規(guī)則的方法對(duì)英語—印語命名實(shí)體內(nèi)的常見形式進(jìn)行了識(shí)別與翻譯。Deepti Bhalla[3]等使用基于統(tǒng)計(jì)的方法識(shí)別命名實(shí)體,通過平行語料庫實(shí)現(xiàn)了英語—印語命名實(shí)體的翻譯。Sameer R. Maskey[4]等通過規(guī)則,分析句法開發(fā)了英語—阿拉伯語命名實(shí)體的翻譯系統(tǒng)。Sebastian M P[5]等基于統(tǒng)計(jì)實(shí)現(xiàn)了英語—馬拉雅拉姆語的機(jī)器翻譯。Feng D[6]等研究了英漢命名實(shí)體對(duì)齊的新方法。Str?tgen J等基于規(guī)則的時(shí)間表達(dá)式識(shí)別與規(guī)范化實(shí)現(xiàn)了HeideTime系統(tǒng)[7]。尹存燕[8]等對(duì)中英命名實(shí)體識(shí)別及對(duì)齊研究提出了中文分詞優(yōu)化方法。鄭宏[9]、翟飛飛[10]等分別對(duì)時(shí)間、數(shù)字命名實(shí)體及數(shù)量詞的識(shí)別問題使用了基于CYK++算法和語料庫、基于規(guī)則的方法。李風(fēng)環(huán)[11]等基于面向主題事件構(gòu)建了時(shí)間識(shí)別模型。趙紫玉[12-13]分別利用基于短語的翻譯模型、規(guī)則與CRF統(tǒng)計(jì)相結(jié)合的方法研究日語時(shí)間表達(dá)式識(shí)別與日漢翻譯。王偉、李君嬋、鄔桐等[14-16]對(duì)中文時(shí)間表達(dá)式的識(shí)別與翻譯提出了基于有限狀態(tài)自動(dòng)機(jī),規(guī)則庫、最大熵,正則文法的方法。楊萍[17]等對(duì)漢語-新蒙古文命名實(shí)體進(jìn)行翻譯,首先對(duì)漢語命名實(shí)體進(jìn)行標(biāo)注,然后獲取漢語HMM詞對(duì)齊結(jié)果,最后通過滑動(dòng)窗口方法選取置信度最高的命名實(shí)體翻譯。王斯日古楞等[18]對(duì)漢—蒙機(jī)器翻譯系統(tǒng)中的量詞短語進(jìn)行了研究。鄒樂琳等[19]基于統(tǒng)計(jì)的方法實(shí)現(xiàn)了維語時(shí)間表達(dá)式的識(shí)別。張磊等[20]對(duì)維語數(shù)詞類命名實(shí)體(時(shí)間、日期、百分比、貨幣)進(jìn)行了研究。目前,中國民族語文翻譯局在線翻譯系統(tǒng)(http://www.mzywfy.org.cn/)和新疆多語種信息技術(shù)重點(diǎn)實(shí)驗(yàn)室基于短語的Tilmach漢維—維漢統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)(http://www.tilmach.cn/)對(duì)時(shí)間、數(shù)字、量詞的譯文質(zhì)量不理想??梢?,對(duì)漢維時(shí)間數(shù)字和量詞的識(shí)別與翻譯研究工作較少,尤其是漢維方向翻譯工作沒有針對(duì)性的研究。

        本文對(duì)漢語時(shí)間、數(shù)字、量詞分類及維吾爾文翻譯進(jìn)行詳細(xì)分析,并構(gòu)建了相應(yīng)的時(shí)間日期識(shí)別與翻譯模板、數(shù)字識(shí)別與翻譯模板、無歧義量詞詞典、基于上下文的有歧義量詞翻譯規(guī)則庫,實(shí)現(xiàn)了漢維方向的時(shí)間、數(shù)字、量詞識(shí)別與翻譯算法。

        2 漢語時(shí)間、數(shù)字與量詞維吾爾語翻譯

        漢語是典型的孤立語,屬于漢藏語系漢語語族;而維吾爾語是黏著語,屬于阿爾泰語系突厥語族,在中國境內(nèi)使用的維吾爾語是以阿拉伯字母為基礎(chǔ)的老維文。漢語維吾爾語語法信息、翻譯規(guī)律不同,因此對(duì)時(shí)間數(shù)字和量詞分別進(jìn)行討論。本文研究的老維文在word里顯示時(shí)存在因未安裝維吾爾語輸入法而導(dǎo)致排版格式混亂的情況,因此維語例子使用拉丁文表示。

        2.1 漢維時(shí)間日期的分析

        由于漢語維吾爾語在各個(gè)方面的不同,在漢語-維吾爾語機(jī)器翻譯系統(tǒng)中,時(shí)間表達(dá)式的翻譯準(zhǔn)確率比較低,幾乎沒有對(duì)應(yīng)的翻譯結(jié)果。對(duì)一些時(shí)間表達(dá)式的翻譯情況對(duì)比如表1所示。

        表1 機(jī)器翻譯系統(tǒng)的時(shí)間日期翻譯對(duì)比表

        可見,翻譯結(jié)果出現(xiàn)數(shù)字次序混亂、標(biāo)點(diǎn)符號(hào)、詞尾丟失或多加等錯(cuò)誤情況。原因是時(shí)間觸發(fā)詞(年、月、日)在不同的維語時(shí)間表達(dá)式中譯文不同,比如: 漢語中“月”對(duì)應(yīng)維語的“Ay”在不同的時(shí)間表達(dá)式中翻譯結(jié)果如表2所示。

        表2 時(shí)間觸發(fā)詞的歧義情況表

        本文為解決此問題將時(shí)間日期分五類研究,如表3所示。

        表3 漢語-維吾爾語時(shí)間日期示例表

        續(xù)表

        時(shí)間日期分類漢語維吾爾語重大紀(jì)念日,節(jié)日“古爾邦節(jié)”,“肉孜節(jié)”,“五·一”國際勞動(dòng)節(jié)Qurbanh?yitRozah?yit5-ayning1-küniEmgekchilerBayrim

        可見,“明天早上九點(diǎn)半”雖然由“明天”-“Ete”,“早上”-“Etigen”,“九點(diǎn)半”-“Toqquz y?rim”等三個(gè)時(shí)間基本單元組成,但在翻譯時(shí)不能利用時(shí)間基本單元組合的方法,應(yīng)考慮整個(gè)模塊,在后面加“da”詞尾?!敖刂?月7日到9日”同樣不能利用基本單元組合的方法翻譯,也是應(yīng)考慮整個(gè)模塊,翻譯結(jié)果為: “5-ayning7-künidin9-künigiche”,因?yàn)椤敖刂埂?,?月7日”,“到”,“9日”分別對(duì)應(yīng)為“giche”和“5-ayning 7-küni”和“Din”和“9-küni”,利用基本單元組合的方法翻譯會(huì)出現(xiàn)位置不穩(wěn)定,導(dǎo)致語法錯(cuò)誤。

        2.2 漢語數(shù)字維吾爾語翻譯

        本文把漢維數(shù)字的對(duì)比關(guān)系分為三種: 1)漢語中數(shù)字可分為基數(shù)詞和序數(shù)詞[21]。維吾爾語中數(shù)字分為約數(shù)詞、集合數(shù)詞、分?jǐn)?shù)詞、序數(shù)詞、基數(shù)詞。2)漢語的數(shù)字寫法有多種形式,例如,對(duì)于阿拉伯?dāng)?shù)字“4”漢語中有“四”、“肆”等寫法。維吾爾語有“T?t”一種寫法。3)漢語中十位數(shù)字的表示形式是“一到九之間的任何一個(gè)數(shù)”字后面加上“十”而形成的,比如: “二十、三十、四十…”。維吾爾語中這些數(shù)字都有專稱,例如,“Yigirme、ottuz、qiriq、ellik、atmish、yetmish、seksen、toqsan”。

        數(shù)字根據(jù)翻譯結(jié)果的不同,總結(jié)如表4所示。

        表4 漢維數(shù)字翻譯示例表

        可見,漢語的序數(shù)詞根據(jù)意義和計(jì)算方法在維吾爾語里分為約數(shù)詞、集合數(shù)詞、分?jǐn)?shù)詞、序數(shù)詞,基數(shù)詞在兩個(gè)語言中一一對(duì)應(yīng)。根據(jù)分類構(gòu)建規(guī)則,對(duì)不同搭配格式利用平行語料和翻譯模板的方法實(shí)現(xiàn)翻譯。

        2.3 漢語-維吾爾語量詞對(duì)應(yīng)關(guān)系的分析

        量詞是表示事物和動(dòng)作計(jì)算單位的詞匯。在文獻(xiàn)[21]中漢語量詞的特點(diǎn)可歸納為如下幾種: 1)在漢語中根據(jù)物體形狀的不同,使用的量詞也有所不同,因此漢語中的量詞較多,大概有507個(gè)量詞。2)在結(jié)構(gòu)上,漢語的量詞位于數(shù)字和名詞之間,數(shù)字需要結(jié)合量詞才能修飾名詞。3)根據(jù)表示對(duì)象的不同,漢語量詞分為名量詞、動(dòng)量詞、復(fù)合量詞等三大類。句子中的名量詞和動(dòng)量詞不能省略,否則會(huì)出現(xiàn)語法錯(cuò)誤。句子中復(fù)合量詞(名量詞+動(dòng)量詞)中動(dòng)量詞省略掉后不會(huì)出現(xiàn)語法錯(cuò)誤,但兩個(gè)句子的意思完全不同。

        漢維量詞異同點(diǎn): 1)維吾爾語量詞沒有漢語量詞數(shù)量多,常用的有“Tal、dane”。2)維吾爾語中量詞不能單獨(dú)做句子的重要成分,它只位于名詞或動(dòng)詞的前面,直接修飾名詞或動(dòng)詞。3)漢語中有些量詞在維吾爾語中沒有對(duì)應(yīng)的翻譯,即丟失。

        在Tilmach和中國民族語文翻譯局在線翻譯系統(tǒng)出現(xiàn)錯(cuò)誤情況。例如,量詞短語“一線希望”、“一份情”的正確翻譯結(jié)果應(yīng)為: “ümid(希望)”、“muhebbet(情)”,即數(shù)字和量詞均丟失,但在Tilmach中翻譯結(jié)果是“Azraq ümid”、“Bir parche muhebbet baghlash”,在中國民族語文翻譯局中翻譯結(jié)果是“Azraq ümid”、“Bir ülüsh mihir”。有些事物或行為就必須使用“數(shù)字+量詞+名詞”來表示,量詞決不能省略,例如,“十斤面”要翻譯為“On(十)jing(斤)un(面)”,不能省略“jing”。漢語根據(jù)量詞的搭配格式可分為四種,具體如表5所示。

        表5 漢維量詞示例表

        續(xù)表

        量詞短語格式漢語量詞短語維吾爾語譯文數(shù)字+名詞兩兄弟Aka-iniikkeylen量詞+名詞雙人車Qoshkishlikmashina數(shù)字+名詞+名詞一車瓷磚Birmashinasapalxish

        可見,量詞短語“一群人”、“一所學(xué)?!狈g結(jié)果都不同,“一群人”的數(shù)字、量詞、名詞全部翻譯;“一所學(xué)校”翻譯數(shù)字和名詞,量詞丟失?!耙环羼橊劇?、“一枚戒指”…中“峰,枚…”等量詞對(duì)應(yīng)的維吾爾語翻譯結(jié)果為只有一種“Tal”?!耙卉嚧纱u”中“車”是名詞,但在量詞短語中看成量詞。所以,漢語中量詞根據(jù)翻譯需求的不同分為有歧義量詞和無歧義量詞兩大類,有歧義量詞指數(shù)字一一對(duì)應(yīng)、但量詞是一個(gè)對(duì)應(yīng)多個(gè)(其中包含量詞丟失的情況);無歧義量詞指數(shù)字一一對(duì)應(yīng)、量詞也一一對(duì)應(yīng),數(shù)詞一一對(duì)應(yīng)、但量詞丟失,數(shù)字一一對(duì)應(yīng)、但量詞多個(gè)對(duì)應(yīng)一個(gè),數(shù)字、量詞均丟失四種情況。維吾爾語里面有歧義量詞根據(jù)句子上下文的不同翻譯結(jié)果也不同,一個(gè)量詞有多種翻譯結(jié)果,如表6所示。

        表6 漢維量詞特殊情況示例表

        可見,漢語中量詞根據(jù)后面的不同名詞有不同的翻譯結(jié)果?!耙活^牛”、“一頭獅子”、“一頭大蒜”的“一頭”翻譯為“Bir tuyaq”、“Bir”、“Bir bash”三種不同結(jié)果。同樣,“一盤菜”、“一盤錄音帶”、“一盤電線”的“一盤”翻譯為“Bir texse”、“Bir dane”、“Bir y?gime”三種不同結(jié)果。因此在量詞識(shí)別與翻譯過程中,詳細(xì)分類會(huì)提高機(jī)器翻譯的準(zhǔn)確率。

        2.4 度量單位

        漢維度量單位由數(shù)字和量詞組成,不需要名詞。翻譯示例如表7所示。

        可見,度量單位的翻譯為固定譯文。

        表7 漢維度量單位示例表

        3 漢維時(shí)間數(shù)字和量詞的識(shí)別與翻譯方法

        根據(jù)上述漢維翻譯規(guī)律和語法特點(diǎn),利用雙語語料庫挖掘包含時(shí)間數(shù)字和量詞的句子,對(duì)每一類分別構(gòu)建人工編制規(guī)則庫用于提取漢語時(shí)間數(shù)字和量詞短語,翻譯時(shí)分別提出了翻譯模板、對(duì)無歧義量詞平行語料庫、基于上下文的有歧義量詞翻譯規(guī)則和規(guī)則與統(tǒng)計(jì)相結(jié)合的方式,本方法提高了翻譯準(zhǔn)確率和召回率。

        3.1 漢維時(shí)間的識(shí)別與翻譯方法

        根據(jù)實(shí)際需求對(duì)時(shí)間表達(dá)式?jīng)]有利用分詞系統(tǒng),而是構(gòu)建人工編制規(guī)則庫。即對(duì)這些包含前后介詞的表達(dá)式翻譯為維語時(shí),根據(jù)不同的時(shí)間表達(dá)式類型,分別建立了一一對(duì)應(yīng)的272個(gè)規(guī)則和翻譯模板。這個(gè)方法雖然繁瑣,但準(zhǔn)確率高,對(duì)新聞中時(shí)間表達(dá)式的覆蓋率為96%。對(duì)時(shí)間表達(dá)式構(gòu)造人工編制規(guī)則庫時(shí),由于維吾爾語和漢語的書寫方向相反,為了避免語法錯(cuò)誤,把兩種語言的規(guī)則庫分開存儲(chǔ)在兩個(gè)文本文檔中。該方法使機(jī)器翻譯準(zhǔn)確率有明顯提高。規(guī)則和模板一一對(duì)應(yīng)的示例如表8、表9 所示。

        表8 漢語時(shí)間表達(dá)式規(guī)則庫示例表

        續(xù)表

        漢語規(guī)則庫(d{1,4}年d{1,2}月d{1,2}日凌晨d{1,2}時(shí)d{1,2}分)

        表9 維語時(shí)間表達(dá)式翻譯模板示例表

        可見,漢語規(guī)則庫和維語模板一一對(duì)應(yīng)。根據(jù)上圖的人工編制規(guī)則識(shí)別時(shí)間表達(dá)式,利用翻譯模板抽取對(duì)應(yīng)的翻譯結(jié)果。過程如下:

        輸入句子: 2013年12月至2014年6月期間,被告人韋海(廣西籍)與境外人員“阿樂”等共謀組織中國境內(nèi)人員偷渡至越南。

        匹配規(guī)則后的識(shí)別結(jié)果: 2013年12月至2014年6月期間。

        Tilmach的譯文: <2013年12月至2014年6月> mezgilide。中國民族語文翻譯局的翻譯結(jié)果為: <2013年12月至2014年6月> mezgilide。

        本方法譯文用拉丁文表示: 2013-yil 12-aydin 2014-yil 6-ayghiche。與正確譯文相同。

        對(duì)時(shí)間日期的識(shí)別與翻譯完全不依賴各種中文分詞系統(tǒng)、標(biāo)注和統(tǒng)計(jì)方法,而是利用人工編制規(guī)則庫和翻譯模板進(jìn)行識(shí)別與翻譯,使Tilmach的翻譯準(zhǔn)確率有明顯提高。時(shí)間日期的識(shí)別與翻譯處理算法如圖1所示。

        圖1 時(shí)間日期識(shí)別與翻譯處理算法

        3.2 漢維數(shù)字的識(shí)別與翻譯方法

        Tilmach對(duì)基數(shù)詞已有了較好的翻譯準(zhǔn)確率,因此本文解決的是序數(shù)詞、約數(shù)詞、集合數(shù)詞、分?jǐn)?shù)詞、百分?jǐn)?shù)、倍數(shù),并對(duì)每一類分別構(gòu)建人工編制規(guī)則庫,如表10所示。

        表10 數(shù)字規(guī)則與模板

        續(xù)表

        數(shù)字類型例子漢語規(guī)則特點(diǎn)維維吾爾語模板分?jǐn)?shù)詞三分之二數(shù)字+分之+數(shù)字adinb百分?jǐn)?shù)百分之90百分之+數(shù)字apirsent倍數(shù)三倍數(shù)字+倍aHesse

        可見,序數(shù)詞、約數(shù)詞、集合數(shù)詞、分?jǐn)?shù)詞等都是先用規(guī)則來識(shí)別數(shù)字,然后一一匹配對(duì)應(yīng)的模板庫。數(shù)字識(shí)別與翻譯處理算法如圖2所示。

        3.3 漢維量詞的識(shí)別與翻譯

        在量詞短語的機(jī)器翻譯中,對(duì)收集的語料進(jìn)行統(tǒng)計(jì)分析,根據(jù)維吾爾語的翻譯規(guī)律進(jìn)行分類,構(gòu)建量詞短語的平行語料庫并存儲(chǔ)在兩個(gè)文本文檔中。分詞對(duì)比如表11所示。

        圖2 數(shù)字識(shí)別與翻譯處理算法

        表11 識(shí)別方法對(duì)比表

        為使?jié)h維量詞短語的識(shí)別與翻譯達(dá)到盡可能高的覆蓋率,本文對(duì)無歧義量詞識(shí)別時(shí)利用人工編制規(guī)則庫識(shí)別,對(duì)有歧義量詞使用哈工大分詞系統(tǒng)和人工編制規(guī)則相結(jié)合的方法,翻譯時(shí)單獨(dú)使用模板翻譯或統(tǒng)計(jì)的方法準(zhǔn)確率不高,利用翻譯模板和Tilmach相結(jié)合的方法有更高的準(zhǔn)確率。

        3.3.1 有歧義量詞的識(shí)別與翻譯

        有歧義量詞(數(shù)字一一對(duì)應(yīng),但量詞一個(gè)對(duì)應(yīng)多個(gè))具體的識(shí)別與翻譯過程如下: 利用人工編制規(guī)則和哈工大分詞系統(tǒng)識(shí)別量詞短語。翻譯時(shí)根據(jù)哈工大的詞性標(biāo)注結(jié)果定位句子里面的名詞“/n”來決定這個(gè)量詞的翻譯結(jié)果,我們利用這個(gè)特點(diǎn),構(gòu)建(Special quantifier)平行語料庫,從平行語料庫中抽取對(duì)應(yīng)的翻譯結(jié)果,然后結(jié)合Tilmach實(shí)現(xiàn)漢維量詞短語翻譯。漢語中45個(gè)有歧義量詞,量詞“把”翻譯結(jié)果如表12所示。

        可見,利用本方法對(duì)“一把米、一把花兒”翻譯時(shí)“數(shù)字、量詞、名詞”均翻譯出來,翻譯結(jié)果為“Bir(一)siqim(把)gürüch(米)”、“Bir(一)deste(把)gül(花兒)”,與正確譯文相同。但在Tilmach中“一把米”翻譯結(jié)果“Bir baghlam m?tir”是錯(cuò)誤的。對(duì)“一把年齡”,這種“數(shù)字+量詞+名詞”格式的量詞短語,翻譯結(jié)果僅?!懊~”,“數(shù)字、量詞”都丟失,翻譯結(jié)果應(yīng)為“Yash”。

        表12 有歧義量詞翻譯示例表

        3.3.2 無歧義量詞的識(shí)別與翻譯

        無歧義量詞具體的識(shí)別與翻譯過程如下: 首先分為四大類(1.數(shù)字一一對(duì)應(yīng),但量詞是多個(gè)對(duì)應(yīng)一個(gè);2.數(shù)字和量詞都丟失;3.數(shù)字一一對(duì)應(yīng),但量詞丟失;4.數(shù)字一一對(duì)應(yīng),量詞也一一對(duì)應(yīng)),然后利用人工編制規(guī)則識(shí)別量詞短語。

        本文分析漢語和維吾爾語的異同點(diǎn),將量詞短語分為下述五種情況。量詞識(shí)別與翻譯處理算法如圖3所示。

        分類一 漢語中的“峰、枚、顆、粒、方、管、則、發(fā)、盞、床、炷、柄、梃、梭”等14個(gè)量詞在維吾爾語中的翻譯結(jié)果都是“Tal、dane(兩字意思相同僅寫法不同)”。對(duì)這種情況解決的方法相對(duì)簡單,從Many To One平行語料庫中找出它對(duì)應(yīng)的翻譯結(jié)果即可。

        分類二 漢語中包含“輪、手、樁、宗、陣、記、攤、汪、鴻、團(tuán)、脬”等11個(gè)量詞的漢語短語翻譯為維吾爾語時(shí),短語格式“數(shù)字+量詞+名詞”對(duì)應(yīng)到維吾爾語時(shí)僅剩下“名詞”格式,即漢語數(shù)字和量詞都對(duì)應(yīng)為空串。例如,“一輪圓月”、“一手好字”中翻譯結(jié)果為“Tulun(圓)Ay(月)”、“Yaxshi(好)s?z(字)”,“一輪圓月”的“一、輪”、“一手好字”的“一、手”都要翻譯為空。

        圖3 量詞識(shí)別與翻譯處理算法

        分類三 漢語中“幢、座、扇、堵、所、架、艘、本、家、口、孔、尊、爿、樁、宗、件、羅、首、匝、客、挺、垛、孔、桿、眼”等25個(gè)漢語量詞翻譯為維語時(shí)沒有對(duì)應(yīng)的翻譯結(jié)果,對(duì)這種情況的量詞翻譯結(jié)果使用(Many To Null)平行語料庫僅輸出數(shù)字的翻譯結(jié)果。例如: 在Tilmach中“一眼井”結(jié)果為“Bir k?z quduq”,但正確的結(jié)果應(yīng)為“Bir(一)quduq(井)”,“眼”丟失。

        分類四 漢語中260個(gè)量詞翻譯為維吾爾語時(shí)有對(duì)應(yīng)的翻譯結(jié)果。例如,“一群人、一出戲、一帖藥、一劑藥、八味藥”中的量詞翻譯結(jié)果分別為“top、meydan、chaplaq、quta、xil”。對(duì)這種情況從(One To One)平行語料庫中抽取對(duì)應(yīng)的數(shù)字、量詞翻譯結(jié)果,然后兩個(gè)翻譯結(jié)果合并即可。度量單位(長度、面積、體重、重量、貨幣)也屬于無歧義量詞,在格式“數(shù)字+單位”后面加或不加名詞不會(huì)影響翻譯結(jié)果。

        4 實(shí)驗(yàn)及結(jié)果分析

        本文實(shí)驗(yàn)的時(shí)間數(shù)字語料來自《新疆人民日?qǐng)?bào)》、“天山網(wǎng)”的最新新聞,從中自動(dòng)收集23 447句包含時(shí)間數(shù)字的句子,隨機(jī)抽取包含9 769個(gè)時(shí)間數(shù)字的5 048句;量詞語料來自“北京大學(xué)語料庫”,從中收集39 000句包含量詞的句子,隨機(jī)抽取包含6 723個(gè)量詞的4 190句,收集1 540句包含度量單位(長度、面積、體積、體重及貨幣等105個(gè))的句子,隨機(jī)抽取598句分別做實(shí)驗(yàn)。

        在測試語料中,對(duì)所有句子進(jìn)行人工標(biāo)注、分類、使用平行語料庫和翻譯模板進(jìn)行翻譯。最后與Tilmach進(jìn)行對(duì)比實(shí)驗(yàn),證明了本工作的必要性。

        4.1 時(shí)間數(shù)字與量詞實(shí)驗(yàn)語料及分析

        時(shí)間數(shù)字、量詞、質(zhì)量單位的語料信息如表13—表17所示。

        表13 含時(shí)間數(shù)字的漢語語料庫表

        表14 含時(shí)間數(shù)字語料信息表

        表15 含量詞的漢語語料庫表

        表16 含量詞語料信息表

        續(xù)表

        量詞分類維語數(shù)字翻譯結(jié)果關(guān)系維語量詞翻譯結(jié)果關(guān)系提取語料句數(shù)測試語料句數(shù)(含翻譯)測試語料量詞個(gè)數(shù)無歧義一一對(duì)應(yīng)多對(duì)一 86008601362丟失 丟失 5520552986一一對(duì)應(yīng)丟失 84408441423一一對(duì)應(yīng)一一對(duì)應(yīng)69208821056共3900041906723

        表17 含度量單位語料信息表

        4.2 評(píng)測方法

        本文評(píng)測指標(biāo)采用三個(gè)值: 準(zhǔn)確率(P)、召回率(R)、F-Score,計(jì)算公式如下:

        (1)

        (2)

        (3)

        4.3 實(shí)驗(yàn)及結(jié)果分析

        本文對(duì)時(shí)間數(shù)字和量詞采用不同的方法進(jìn)行測試,然后與Tilmach的翻譯結(jié)果進(jìn)行對(duì)比試驗(yàn)。時(shí)間表達(dá)式的識(shí)別與翻譯過程如下:

        輸入兩條句子:

        1. 截至2014年6月25日申請(qǐng)2.3萬余人,同比增長了5倍多。

        2. 全疆8月份開始依法全面實(shí)施統(tǒng)一的普通護(hù)照簽發(fā)管理政策。

        翻譯結(jié)果用拉丁文表示為:

        1. 2009- <2014年6月25日> 23 ming adem iltimas,bulturqi shu mezgildikidin besh hessidin artuq k?peydi.

        2. 8-ayda Shinjang boyiche bashlap adettiki omumyüzlük qanun boyiche yolgha qoyup,bir tutash bashqurush siyasitini pasport bergüchi.

        可見,在句1中,時(shí)間表達(dá)式“截至2014年6月25日”沒能翻譯,并多加了數(shù)字“2009-”和“23”;在句2中,“8月份開始”翻譯結(jié)果添加了詞尾“da”,但應(yīng)該要添加“din baxlap”。使用人工編制規(guī)則庫識(shí)別時(shí)間表達(dá)式:“截至2014年6月25日”、“8月份開始”,匹配翻譯模板輸出翻譯結(jié)果為: “2014-yili 6-ayning 25-künigiche”、“5 Hesse”、“8-aydin bashlap”,與正確的翻譯結(jié)果相同。

        漢維量詞短語的識(shí)別與翻譯過程如下:

        輸入句子: 夕陽的余暉透過霞云,灑在江心,形成一線閃爍的金斑。

        識(shí)別: 在哈工大的分詞系統(tǒng)詞性標(biāo)注結(jié)果: 夕陽/n 的/u 余暉/n 透過/v 霞云/n ,/wp 灑/v 在/p 江心/n ,/wp 形成/v 一線/n 閃爍/v 的/u 金斑/n 。/wp。其中“一線”是名詞,但漢語翻譯為維吾爾語時(shí)該句中的“線”應(yīng)是量詞。

        翻譯結(jié)果用拉丁文表示為: Kechki shepeq bek güzel bolidu diki qalduq nur bulut reng shepeq tumanning singip ?tüsh meyxana,sinxana, y?qinlashmay 1- s?pide shekillendürüsh bilen chaqnisa ala altun

        可見,在Tilmach中量詞短語“一線”的翻譯結(jié)果是錯(cuò)誤的“1-s?pide”,正確結(jié)果“一線”應(yīng)丟失;匹配平行語料時(shí)應(yīng)按照分類方法中數(shù)字一一對(duì)應(yīng)、但量詞一對(duì)多的情況根據(jù)后面的名詞來翻譯量詞短語,即“一線”根據(jù)后面的名詞“金斑”,翻譯結(jié)果應(yīng)為“ ”空串。

        4.3.1 識(shí)別實(shí)驗(yàn)及結(jié)果分析

        對(duì)時(shí)間數(shù)字和量詞考慮句子的上下文信息,建立規(guī)則庫和模板庫,對(duì)量詞詳細(xì)分類分別建立平行語料庫實(shí)現(xiàn)翻譯,可以達(dá)到比較高的翻譯準(zhǔn)確率。時(shí)間數(shù)字、量詞、度量單位識(shí)別實(shí)驗(yàn)結(jié)果如表18—表20所示。

        表18 時(shí)間數(shù)字識(shí)別實(shí)驗(yàn)結(jié)果表

        續(xù)表

        時(shí)間數(shù)字本方法P/%R/%F/%集合數(shù)詞85.6583.3484.47倍數(shù)96.5094.6795.58

        表19 量詞識(shí)別實(shí)驗(yàn)結(jié)果表

        表20 度量單位識(shí)別實(shí)驗(yàn)結(jié)果表

        4.3.2 翻譯實(shí)驗(yàn)及結(jié)果分析

        根據(jù)時(shí)間數(shù)字和量詞的解決方法不同,分別做對(duì)比實(shí)驗(yàn),如表21—表24所示。

        表21 時(shí)間數(shù)字翻譯實(shí)驗(yàn)結(jié)果表

        可見,對(duì)Tilmach不能識(shí)別與翻譯的部分有歧義量詞和無歧義量詞應(yīng)使用人工編制規(guī)則、對(duì)有歧義量詞利用規(guī)則與統(tǒng)計(jì)相結(jié)合的方法使譯文質(zhì)量有明顯提高。

        表22 量詞翻譯實(shí)驗(yàn)結(jié)果表

        表23 基于規(guī)則與統(tǒng)計(jì)相結(jié)合的實(shí)驗(yàn)結(jié)果表

        表24 單位翻譯實(shí)驗(yàn)結(jié)果表

        表25 基線系統(tǒng)翻譯結(jié)果對(duì)比表

        表25給出了本方法與Tilmach、中國民族語文翻譯局在線翻譯系統(tǒng)的性能進(jìn)行比較。本方法詳細(xì)分析漢維機(jī)器翻譯中時(shí)間、數(shù)字、量詞的歧義性、差異性和實(shí)際需求情況,對(duì)每一部分都分別采用不同的方法: 對(duì)時(shí)間、數(shù)字要考慮上下文介詞并采用不同的翻譯模板,對(duì)量詞最關(guān)鍵是分類并采用不同的識(shí)別與翻譯處理算法。所以本文最關(guān)鍵的工作是為提高漢-維機(jī)器翻譯系統(tǒng)中的翻譯準(zhǔn)確率對(duì)時(shí)間數(shù)字和量詞的分類采取不同的算法進(jìn)行研究。

        5 結(jié)語

        本文分析漢—維時(shí)間數(shù)字和量詞的差異性,時(shí)間表達(dá)式中觸發(fā)詞(年、月、日)、數(shù)字、量詞在不同的維語時(shí)間數(shù)字、量詞短語譯文也有所不同、利用統(tǒng)計(jì)的方法出現(xiàn)數(shù)字次序亂、標(biāo)點(diǎn)符號(hào)、詞尾丟失或多加等錯(cuò)誤情況。該方法根據(jù)它們的特點(diǎn)構(gòu)建人工編制規(guī)則庫、漢維翻譯模板,對(duì)這些包含前后介詞的時(shí)間數(shù)字翻譯為維吾爾語時(shí),根據(jù)不同的時(shí)間表達(dá)式類型構(gòu)建對(duì)應(yīng)的規(guī)則庫和翻譯模板;對(duì)有歧義量詞和四種無歧義量詞構(gòu)建五種平行語料庫并輸出翻譯結(jié)果,對(duì)第一種有歧義量詞短語利用規(guī)則和統(tǒng)計(jì)相結(jié)合的方法、后四種無歧義量詞利用人工編制規(guī)則的方法使翻譯準(zhǔn)確率有明顯提高。該方法與Tilmach、中國民族語文翻譯局在線翻譯系統(tǒng)相比,在翻譯準(zhǔn)確率上有巨大的提高。本方法簡單,效率高,目標(biāo)明確。

        未來相關(guān)的工作可以在其他少數(shù)民族語言中時(shí)間、數(shù)字和量詞方面共享,可以幫助提高整體領(lǐng)域的發(fā)展。

        [1] 趙軍.命名實(shí)體識(shí)別、排歧和跨語言關(guān)聯(lián)[J].中文信息學(xué)報(bào),2009,23(2): 3-17.

        [2] Mathur S, Saxena V P.Hybrid Approach to English-Hindi Name Entity Transliteration[J].Eprint Arxiv,2014.

        [3] Deepti Bhalla,Nisheeth Joshi,Iti Mathur,et al.Improving the Quality of MT Output using Novel Name Entity Translation Scheme[C]//Proceedings of the 2013 International Conference on Advances in Computing,Communications and Informatics(ICACCI).India,2013: 1548-1553.

        [4] Maskey S R,Cmejrek M,Zhou B,et al.Class-based named entity translation in a speech to speech translation system[C]//Proceedings of the Spoken Language Technology Workshop,2008.Sl.2009: 253-256.

        [5] Sebastian M P, Sheena KK, Kumar G S. Extension Schemes for the Alignment Model of English-Malayalam Statistical Machine Translator[C]//Proceedings of the 2012 International Conference on Advances in Computing and Communications. IEEE Computer Society, 2012: 86-89.

        [6] Feng D,Lü Y,Zhou M.A new approach for English-Chinese named entity alignment[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing(EMNLP).Stroudsburg,PA,2004: 372-379.

        [7] Str?tgen J,Gertz M.HeidelTime: High quality rule-based extraction and normalization of temporal expressions[C]//Proceedings of the 5th International Workshop on Semantic Evalution.USA PA,Stroudsbury: Association for Computational Linguistics,2010: 321-324.

        [8] 尹存燕,黃書劍,戴新宇,等.中英命名實(shí)體識(shí)別及對(duì)齊中的中文分詞優(yōu)化[J].電子學(xué)報(bào),2015,43(8): 1481-1487.

        [9] 鄭宏.漢英雙向時(shí)間數(shù)字和數(shù)量詞的識(shí)別與翻譯技術(shù)[D].哈爾濱工業(yè)大學(xué)碩士學(xué)位論文,2011,6.

        [10] 翟飛飛,夏睿,周玉,等.漢英雙向時(shí)間和數(shù)字命名實(shí)體的識(shí)別與翻譯系統(tǒng)[C].第五屆全國機(jī)器翻譯研討會(huì)論文集.2009: 172-179.

        [11] 李風(fēng)環(huán),鄭德權(quán),趙鐵軍.基于淺層語義分析的主題事件的時(shí)間識(shí)別[J].山東大學(xué)學(xué)報(bào),2015,50(11): 74-80.

        [12] 趙紫玉,徐金安,張玉潔,等.規(guī)則與統(tǒng)計(jì)相結(jié)合的日語時(shí)間表達(dá)式識(shí)別[J].中文信息學(xué)報(bào),2013,27(6): 192-200.

        [13] 趙紫玉,徐金安,張玉潔,等.日語時(shí)間表達(dá)式識(shí)別與日漢翻譯研究[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,50(1): 180-186.

        [14] 王偉,趙東巖,蘇婷婷.C-TERN: 一種基于CFSA的軍事新聞文本時(shí)間信息處理算法[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,50(1): 9-16.

        [15] 李君嬋,譚紅葉,王風(fēng)娥.中文時(shí)間表達(dá)式及類型識(shí)別[J],計(jì)算機(jī)科學(xué),2012,39(11A): 191-194,211.

        [16] 鄔桐,周雅倩,黃萱菁,等.自動(dòng)構(gòu)建時(shí)間基元規(guī)則庫的中文時(shí)間表達(dá)式識(shí)別.中文信息學(xué)報(bào)[J],2010,24(4): 3-10.

        [17] 楊萍,侯宏旭,蔣玉鵬,等.基于雙語對(duì)齊的漢語-新蒙古文命名實(shí)體翻譯[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)學(xué)報(bào)),2016,52(1): 148-154.

        [18] 王斯日古楞,斯琴圖,那順烏日?qǐng)D,等.漢蒙機(jī)器翻譯系統(tǒng)中量詞翻譯[J].中文信息學(xué)報(bào),2010,24(5): 92-95.

        [19] 鄒樂琳,吐爾根·依布拉音,麥熱哈巴·艾力,等.基于詞干提取的維吾爾語事件類時(shí)間短語識(shí)別[J].計(jì)算機(jī)工程與設(shè)計(jì),2014,35(2): 625-630.

        [20] 張磊,楊雅婷,米成剛,等.維吾爾語數(shù)詞類命名實(shí)體的識(shí)別與翻譯[J].計(jì)算機(jī)應(yīng)用與軟件,2015,32(8): 64-67.

        [21] 孫德金.漢語語法教程[M].民族版.北京語言大學(xué)出版社.2012.

        Research on Recognition and Translation of Chinese -Uyghur Time and Numeral and Quantifier

        Ayiguli Halike1,2,Hasan Wumaier1,2,Tuergen Yibulayin1,2,Kahaerjiang Abiderexiti1,2,Maihemuti Maimaiti1,2

        (1.School of Information Science and Engineering,Xinjiang University,Urumqi,Xinjiang 830046,China;2.Xinjiang Laboratory of Multi-Language Information Technology,Urumqi,Xinjiang 830046,China)

        The Chinese-Uyghur statistical machine translation system for times, numerals and quantifiers generalization ability are relatively weak. This paper uses a corpus approach to mine and extract the Chinese times, numerals and quantifier, realizing context based ambiguous quantifier translation. Experimental results show that the proposed method achieves 93.23%, 90.15%, 96.55%, and 87.58% in F-measure for the translation of times, numerals, unambiguous quantifiers and ambiguous quantifiers.

        times and numerals; unambiguous quantifiers; ambiguous quantifiers; translation rules;translation template

        阿依古麗?哈力克(1991—),碩士,主要研究領(lǐng)域?yàn)樽匀徽Z言處理與機(jī)器翻譯。E-mail:1506867752@qq.com艾山?吾買爾(1981—),通信作者,副教授,主要研究領(lǐng)域?yàn)樽匀徽Z言處理與機(jī)器翻譯。E-mail:hasan1479@xju.edu.cn吐爾根?伊布拉音(1958—),教授,主要研究領(lǐng)域?yàn)樽匀徽Z言處理、機(jī)器翻譯、軟件工程。E-mail:turgun@xju.edu.cn

        1003-0077(2016)06-0190-11

        2016-05-31 定稿日期: 2016-07-20

        新疆多語種信息技術(shù)實(shí)驗(yàn)室開放課題(2016D03023);國家重點(diǎn)基礎(chǔ)研究發(fā)展(973)計(jì)劃(2014CB340506);國家自然科學(xué)基金(61331011,61262060,61262061,61063026,61462083)

        TP391

        A

        猜你喜歡
        漢維維吾爾語歧義
        eUCP條款歧義剖析
        中國外匯(2019年12期)2019-10-10 07:26:58
        現(xiàn)代漢維茶俗茶禮對(duì)比研究
        統(tǒng)計(jì)與規(guī)則相結(jié)合的維吾爾語人名識(shí)別方法
        維吾爾語人稱代詞的用法及翻譯方法探析
        English Jokes: Homonyms
        少數(shù)民族聚居城市雙語公示語翻譯規(guī)范化探析——以新疆烏魯木齊市漢維公示語為例
        “那么大”的語義模糊與歧義分析
        維吾爾語話題的韻律表現(xiàn)
        維吾爾語詞重音的形式判斷
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        現(xiàn)代維吾爾語中“-0wat-”的進(jìn)行體特征
        語言與翻譯(2014年3期)2014-07-12 10:32:09
        成人性生交大片免费看7| 激情 人妻 制服 丝袜| 99久久久久国产| 日韩有码中文字幕第一页| 亚洲第一区二区精品三区在线| 欧美村妇激情内射| 久久国产精品二国产精品| 在线无码精品秘 在线观看| av一区二区在线免费观看| 欧美国产激情二区三区| 国产中老年妇女精品| 激情 一区二区| 亚洲高清一区二区精品| 国产亚洲成av人片在线观黄桃| 在线观看国产精品日韩av| 99国产综合精品-久久久久| 91久久香蕉国产熟女线看| 看全色黄大色黄大片 视频| 欧美性群另类交| 免费美女黄网站久久久| 国产女同va一区二区三区| а√资源新版在线天堂| 国产精品成人午夜久久| 一区二区三区四区国产亚洲| 天天摸天天做天天爽水多| 少妇spa推油被扣高潮| 亚洲AV无码日韩一区二区乱| 少妇太爽了在线观看免费| 久久综合九色综合97欧美| 成人欧美在线视频| 亚洲伊人av综合福利| 亚洲熟妇无码久久精品| 日韩精品无码一区二区中文字幕 | 无码AⅤ最新av无码专区| 亚洲不卡在线免费视频| 大肉大捧一进一出好爽视频| 国产精品久久无码不卡黑寡妇 | 亚洲国产精品成人一区二区在线| 国产成a人亚洲精品无码樱花| 亚洲男人天堂| 久久精品国产亚洲av热九九热|