拉丁化維吾爾文字特征及其基于規(guī)則的正規(guī)化

2016-05-04 01:15:40賽牙熱依馬木于斯音于蘇普阿不都薩拉木達(dá)吾提

中文信息學(xué)報(bào) 2016年3期

賽牙熱·依馬木，于斯音·于蘇普，阿不都薩拉木·達(dá)吾提

(1. 新疆大學(xué) 政治與公共管理學(xué)院，新疆烏魯木齊 830046；2. 新疆大學(xué) 信息科學(xué)與工程學(xué)院，新疆烏魯木齊 830046;3. 新疆大學(xué) 軟件學(xué)院，新疆烏魯木齊 830046)

賽牙熱·依馬木1，于斯音·于蘇普2，阿不都薩拉木·達(dá)吾提3

結(jié)合網(wǎng)絡(luò)上流通的拉丁化維吾爾文字特征，以拉丁化維吾爾文單詞作為研究單位，首先，通過(guò)大規(guī)模文本語(yǔ)料庫(kù)建立了固定詞庫(kù)、詞首字母序列庫(kù)、詞尾字母序列庫(kù)以及特殊詞庫(kù)等正規(guī)化規(guī)則庫(kù)。然后，利用維吾爾單詞中的字母序列結(jié)構(gòu)特征和相鄰字母上下文信息進(jìn)行了拉丁化維吾爾文的正規(guī)化，同時(shí)引用最小編輯距離的方法進(jìn)一步提高了正規(guī)化正確率，并用Visual C# 編程工具實(shí)現(xiàn)了基于規(guī)則的拉丁化維吾爾文的正規(guī)化算法。最后，給出了實(shí)驗(yàn)結(jié)果，并分析了結(jié)果不佳的原因及相應(yīng)的對(duì)策。

維吾爾語(yǔ)；拉丁化維吾爾文；正規(guī)化；規(guī)則庫(kù)；最小編輯距離；文字轉(zhuǎn)寫

前言

拉丁化維吾爾文的正規(guī)化(Normalization of Latinized Uyghur Character,NLU)已經(jīng)成為在文本信息處理和拉丁化維吾爾文的規(guī)范化工作中迫切需要解決的重要任務(wù)之一。由于正在使用的拉丁化維吾爾文的書寫不統(tǒng)一，盡管國(guó)家和新疆維吾爾自治區(qū)頒布制定了維吾爾拉丁化規(guī)范標(biāo)準(zhǔn)，但實(shí)際應(yīng)用中還是存在拉丁化維吾爾文的混用現(xiàn)象。例如，“naga mangding”(往哪里走？)，“man”(我)，“adam”(人)”正規(guī)化之后“nege maNdiN，men，adem”等。這使得拉丁化維吾爾文的規(guī)范需要進(jìn)一步正規(guī)化。其目的是從拉丁化維吾爾文文本中準(zhǔn)確地識(shí)別出每個(gè)單詞規(guī)范化的書寫形式。目前，隨著少數(shù)民族文字信息技術(shù)的開發(fā)與發(fā)展，維吾爾文已經(jīng)實(shí)現(xiàn)了信息處理技術(shù)的應(yīng)用。在這個(gè)過(guò)程中，國(guó)家和自治區(qū)相繼制定頒布了維吾爾文信息處理方面的相關(guān)標(biāo)準(zhǔn)，包括信息交換用三項(xiàng)國(guó)家標(biāo)準(zhǔn)、ISO/IEC 10646國(guó)際編碼字符集標(biāo)準(zhǔn)和國(guó)家標(biāo)準(zhǔn)、字體字形規(guī)范標(biāo)準(zhǔn)、界面術(shù)語(yǔ)使用標(biāo)準(zhǔn)等，有力地推進(jìn)了維吾爾文信息處理技術(shù)朝著標(biāo)準(zhǔn)化規(guī)范化方向發(fā)展[1]。

近幾年來(lái)，維吾爾文到拉丁化維吾爾文的轉(zhuǎn)寫研究受到高度重視，且頗有成效。例如，基于國(guó)際編碼系統(tǒng)的維吾爾文拉丁文轉(zhuǎn)寫規(guī)則研究[1]，維吾爾文拉丁化方案及其轉(zhuǎn)寫規(guī)則[2]，古維吾爾文(察合臺(tái)文)文獻(xiàn)數(shù)字化整理系統(tǒng)中轉(zhuǎn)寫技術(shù)研究[3]等。在這些研究過(guò)程中，使用的主要轉(zhuǎn)寫方法是維吾爾文字母與拉丁文字母之間一一對(duì)應(yīng)關(guān)系，例如，文獻(xiàn)[1]中使用維吾爾文與拉丁文相互轉(zhuǎn)換的字符對(duì)應(yīng)表，或使用現(xiàn)代維吾爾文字母轉(zhuǎn)寫符號(hào)的定位(如文獻(xiàn)[3])等。此外，藏文到拉丁文的轉(zhuǎn)寫方面也有良好的研究成果，例如，Linux系統(tǒng)藏文拉丁文轉(zhuǎn)寫輸入法的實(shí)現(xiàn)[4]，現(xiàn)代藏文與拉丁文字母雙向轉(zhuǎn)寫的規(guī)則與實(shí)現(xiàn)[5]等。

至今，雖然國(guó)家和自治區(qū)主管部門研究制定維吾爾文的拉丁文轉(zhuǎn)寫標(biāo)準(zhǔn)及方案，但是一方面該方案中有些字母的鍵入較難，例如，?，ü，?等；另一方面，因?yàn)閺V大用戶還沒有熟悉該方案中所提到的轉(zhuǎn)寫規(guī)范，因而就按照自己習(xí)慣的方式去書寫拉丁化維吾爾文，例如，“man bir adam”(我是一個(gè)人)應(yīng)該寫“men bir adem”(我是一個(gè)人)；“u kaldi”(他來(lái)了)應(yīng)該寫“u keldi”(他來(lái)了)等。經(jīng)過(guò)研究發(fā)現(xiàn)，在互聯(lián)網(wǎng)應(yīng)用領(lǐng)域中拉丁化維吾爾文的書寫形式不規(guī)范的問題占絕大比例。所以研究拉丁化維吾爾文的規(guī)范化，不僅是當(dāng)前信息技術(shù)發(fā)展的新需求和國(guó)際間信息交換的需要，也是在維吾爾文本信息處理過(guò)程中文字的規(guī)范化、標(biāo)準(zhǔn)化工作的前提。一方面，只有通過(guò)拉丁化維吾爾文的正規(guī)化，才能有效地提高拉丁化維吾爾文規(guī)范化的普及程度；另一方面，解決國(guó)際間信息的順利交換共同實(shí)現(xiàn)互聯(lián)互通、信息、資源的共享。

值得注意的是，關(guān)于以上所描述的情況而言，一直到現(xiàn)在沒人去研究這些問題。也就是說(shuō)，拉丁化維吾爾文的正規(guī)化研究仍在拉丁化維吾爾文研究中是個(gè)空白的研究領(lǐng)域之一。

綜上所述，在拉丁化維吾爾文的正規(guī)化方面的研究還處于剛剛起步和摸索階段。從事這方面研究的人員還不多，公開發(fā)表的論文也極少。此外，隨著時(shí)代的發(fā)展、信息化速度加快、外來(lái)詞的沖擊和拉丁化維吾爾文的按照個(gè)人習(xí)慣的方式去書寫，原有的拉丁化維吾爾文規(guī)范化標(biāo)準(zhǔn)也被破壞。由于每個(gè)人的輸入方式千變?nèi)f化，故[a]、[k]、[h]等字母的正規(guī)化任務(wù)是很難實(shí)現(xiàn)的。因此，我們?cè)诶』S吾爾文的正規(guī)化過(guò)程中，以維吾爾文拉丁化方案為出發(fā)點(diǎn)，進(jìn)行基于規(guī)則的拉丁化維吾爾文的正規(guī)化方法的初步探討。

1 拉丁化維吾爾文字轉(zhuǎn)寫及其特點(diǎn)

維吾爾文到拉丁文的轉(zhuǎn)寫，簡(jiǎn)稱“拉丁化維吾爾文的轉(zhuǎn)寫”。主要是利用維吾爾文與拉丁文之間的字母對(duì)應(yīng)關(guān)系，對(duì)語(yǔ)料中的文字進(jìn)行拉丁化維吾爾文轉(zhuǎn)寫操作。因此，它是拉丁化維吾爾文的正規(guī)化過(guò)程中必不可少的一個(gè)環(huán)節(jié)。

1.1 拉丁化維吾爾文字轉(zhuǎn)寫相關(guān)定義

定義1 字母轉(zhuǎn)寫: 是指在不必理解詞、句語(yǔ)義的情況下，按照讀音將一種文字符號(hào)映射為另外一種文字符號(hào)的方法[6]。本文中指老維吾爾文字母與拉丁化維吾爾文字母之間的一對(duì)一映射關(guān)系。

定義2 維吾爾文拉丁化：是指將老維吾爾文字母轉(zhuǎn)寫成對(duì)應(yīng)的拉丁文字母的過(guò)程。

1.2 維吾爾文的特點(diǎn)

維吾爾語(yǔ)是我國(guó)新疆地區(qū)維吾爾民族的常用語(yǔ)言，它屬于阿爾泰語(yǔ)系突厥語(yǔ)族西匈語(yǔ)支的黏著性語(yǔ)言?，F(xiàn)行維吾爾文由32個(gè)音素(其中有8個(gè)元音和24個(gè)輔音)組成，并且無(wú)大小寫區(qū)分；典型地，從右到左方向書寫；詞是由一個(gè)或多個(gè)音素組成；句子是由一個(gè)或多個(gè)詞組成，且詞與詞之間通常用標(biāo)點(diǎn)符號(hào)或空格來(lái)隔開；由于維吾爾語(yǔ)的構(gòu)詞、構(gòu)形都是通過(guò)在詞干后面按照一定的規(guī)則可以不斷地鏈接不同的詞綴或詞尾，因此維吾爾語(yǔ)的形態(tài)變化非常豐富而且復(fù)雜。也就是說(shuō)，一個(gè)詞干就可以生成很多不同的詞，如表1列出從同一個(gè)詞干“oqu”(讀)構(gòu)建出來(lái)的幾種不同的詞。

表1 同一個(gè)詞干構(gòu)建的8個(gè)單詞列表

從表1中可以看出，維吾爾語(yǔ)的形態(tài)變化導(dǎo)致詞的數(shù)量巨大。因此，在維吾爾文相關(guān)的很多研究工作中，為了節(jié)省存儲(chǔ)空間和提高效率事先考慮進(jìn)行提取詞干是最佳的選擇。

1.3 拉丁化維吾爾文的特點(diǎn)

拉丁化維吾爾文的書寫方向與維吾爾文相反，且具有大小寫區(qū)分。盡管拉丁化維吾爾文有大小寫區(qū)分，但是每個(gè)字母的讀音始終不變。所以拉丁化維吾爾文的書寫與編輯操作基本上可以采用與英文同樣的方法進(jìn)行處理。當(dāng)使用拉丁化維吾爾文書寫時(shí)，既可以全部小寫，又可以全部大寫。不過(guò)，一般的情況下，在拉丁化維吾爾文文本中句子首字母的書寫要求為大寫，例如，“Ubizning muellim”(他是我們的老師)等；地名、人名、機(jī)構(gòu)單位名稱既可以首字母為大寫，又可以全部字母為大寫，如人名: “Alim 或ALIM”(阿力木)；專用名詞的首字母為大寫，例如，“Shinjang”(新疆)；國(guó)際單位、略語(yǔ)、商品名稱書寫時(shí)按原文讀寫，例如，MTV、DVD、Volt、Microsoft等。

此外，由于拉丁化維吾爾文以英文中26個(gè)字母為基礎(chǔ)，這些字母不夠用來(lái)表達(dá)拉丁化維吾爾文中的32個(gè)字母。因此，不能避免有些拉丁化維吾爾文字母采用英文中兩個(gè)字母的結(jié)合形式來(lái)表達(dá)拉丁化維吾爾文中一個(gè)字母的現(xiàn)象。下面將會(huì)介紹這些結(jié)合形式的字母。

1.4 拉丁化方案及其中拼寫規(guī)則簡(jiǎn)介

現(xiàn)行維吾爾語(yǔ)是維吾爾族人民群眾的主要交際工具，也是新疆通用的語(yǔ)言。近年來(lái)，隨著互聯(lián)網(wǎng)與通信技術(shù)的迅速發(fā)展、計(jì)算機(jī)信息技術(shù)的日益更新，在日常社交溝通中拉丁化維吾爾文的實(shí)用方面也有了一些難以置信的變化。即目前大量出現(xiàn)了在日常社會(huì)交流溝通中會(huì)說(shuō)漢語(yǔ)并使用中文的維吾爾族人(其中大部分都是在城市里的維吾爾族知識(shí)分子，他們能使用多種語(yǔ)言文字，如維吾爾文、拉丁化維吾爾文等)。因此，在社交活動(dòng)中以漢語(yǔ)拼音為主的拉丁化維吾爾文字逐漸成為維吾爾知識(shí)分子的主要走向趨勢(shì)。針對(duì)這種新趨勢(shì)，2008年新疆維吾爾自治區(qū)民族語(yǔ)言文字工作委員會(huì)研究中心，一方面為了不斷滿足各族人民群眾日益增長(zhǎng)的物質(zhì)文化需求；另一方面為了提升語(yǔ)言文字的表達(dá)能力和適應(yīng)目前語(yǔ)言文字的社會(huì)要求；更重要的是為了正確運(yùn)用語(yǔ)言文字、豐富語(yǔ)言文字內(nèi)容、開拓語(yǔ)言文字新領(lǐng)域，通過(guò)廣大語(yǔ)言文字工作者的共同努力，最終簽定通過(guò)了《維吾爾文拉丁化方案》。該方案中提出的老維吾爾文字母與拉丁文字母對(duì)照關(guān)系如表2所示。

表2 維吾爾文的拉丁化方案對(duì)照表

由表2可以看出，在正規(guī)化過(guò)程中[h]和[H]表示不同而寫的兩個(gè)字母；維吾爾文字母和拉丁化文字字母是相互對(duì)應(yīng)的；這種拉丁化的維吾爾文字母與英文和中文的書寫方向相同，都是自左到右書寫；共有32個(gè)字母，其中有八個(gè)元音字母(其中三個(gè)元音字母(? ü Ё)的書寫比較特殊因而目前的使用比率幾乎為零),有24個(gè)輔音字母(其中五個(gè)輔音字母(Sh,Ch,Zh,Gh,Ng)分別是由兩個(gè)獨(dú)立輔音字母的結(jié)合形式組成的)。此外，一個(gè)維吾爾文字母同時(shí)對(duì)應(yīng)大寫和小寫的一個(gè)拉丁化字母。

該方案中還提出了維吾爾文拉丁化的基本拼寫規(guī)則。這些規(guī)則不是本文探討的目標(biāo)，所以，在此不再作詳細(xì)介紹。

2 拉丁化維吾爾文的正規(guī)化規(guī)則收集

在文本信息處理領(lǐng)域中，規(guī)則方法是一種重要的方法。本文根據(jù)字串本身特征以及其上下文語(yǔ)境，通過(guò)對(duì)大量的真實(shí)語(yǔ)料進(jìn)行多次識(shí)別，并對(duì)識(shí)別結(jié)果進(jìn)行深入分析和研究，總結(jié)出了發(fā)生錯(cuò)誤的規(guī)律與相應(yīng)的正規(guī)化規(guī)則。

2.1 拉丁化維吾爾文書寫不一致性分析

實(shí)際上，因日常社會(huì)交流溝通不斷地增強(qiáng)和互聯(lián)網(wǎng)的普及，在進(jìn)行維吾爾文字操作過(guò)程中，致使同一個(gè)字母的拉丁化維吾爾文的書寫形式出現(xiàn)迥然不同現(xiàn)象。甚至，有時(shí)導(dǎo)致詞義轉(zhuǎn)變的現(xiàn)象。例如，

A: manmaktapka bargan.含義是: 我去過(guò)學(xué)校。

B: man maktapka barghan.含義是: 我去過(guò)學(xué)校。

在以上的兩個(gè)句子中，單詞“去過(guò)”(bargan/barghan)的書寫有兩種不同的書寫形式。因此，單詞“去過(guò)”存在不一致，并且表示相同的意義。

C: man tvnvgvn kattim.含義是: 我昨天回去了。

D: man tunugun kattim.含義是: 我昨天回去了。

在以上的兩個(gè)句子中，單詞“昨天”(tvnvgvn/tunugun)的書寫有兩種不同的書寫形式。因此，單詞“昨天”存在不一致，并且表示相同的意義。

E: man turpandin kaldim.含義是: 我來(lái)自于吐魯番。

F: man turpanda kaldim.含義是: 我留在吐魯番。

在以上的兩個(gè)句子中，單詞“kaldim”(來(lái)自/留在)的書寫完全相同，但表達(dá)的意義是互不相關(guān)的。

2.2 拉丁化維吾爾文的正規(guī)化規(guī)則分析

拉丁化維吾爾文轉(zhuǎn)寫規(guī)則探索是進(jìn)行拉丁化維吾爾文的正規(guī)化的首要任務(wù)。因此，首先我們?cè)谙旅嬉粋€(gè)短文的基礎(chǔ)上總結(jié)一些規(guī)則。

例如: 某個(gè)用戶按照自己的習(xí)慣方式去書寫的短文如下:

Dunyada guzallikni soymaydighan,guzallikka intilmaydighan birmu insan bolmisa kirak. Amma gap nimini guzal dap tonuxta……

通過(guò)拉丁化維吾爾文的正規(guī)化之后我們要達(dá)到的目標(biāo)短文應(yīng)該為如下:

Dunyada gUzellikni sOymeydighan,gUzellikke intilmeydighan birmu insan bolmisa kirek. Emma gep nimini gUzel dep tonuxta……

從以上所寫短文和例子的書寫形式中我們可以總結(jié)出以下幾條規(guī)則。

1)在拉丁化維吾爾文轉(zhuǎn)寫過(guò)程中，沒有字母的大小之分(只有句首字母需要大寫)。因此，需要處理的文本第一次掃描時(shí)，就將大寫一律轉(zhuǎn)換成小寫。

例如，A.man ahxam kaldim；B.tursun kalmidi.

2) 假如某個(gè)詞匯包含[Ch],[Sh]字母，首先把它分別替換為q，x單個(gè)字母。例如: man ahsham yaman chux kordum. 替換之后: man ahxam yaman qux kordum.

3) 在維吾爾語(yǔ)32個(gè)字母中[b]、[d]、[f]、[I]、[j]、[k]、[l]、[m]、[n]、[o]、[p]、[r]、[s]、[t]、[u]、[w]、[y]、[z]等18個(gè)字母按照各自相互對(duì)應(yīng)的拉丁化維吾爾文字母轉(zhuǎn)寫處理即可。

4) 如果詞首字母或詞中字母為元音開始，那么按照文獻(xiàn)[7]處理方法處理。

以上所說(shuō)的這些四種規(guī)則下面簡(jiǎn)稱“通用規(guī)則”。

需要說(shuō)明的是，一般的情況下，由于在維吾爾拉丁書寫時(shí)除了[,]、[;]、[?]、[%]等這些符號(hào)以外，拉丁化維吾爾文符號(hào)與英文符號(hào)的書寫形式完全相同。因?yàn)檫@些符號(hào)的正規(guī)化比較簡(jiǎn)單，并且一般地對(duì)單詞正規(guī)化的影響不明顯，所以在此這些符號(hào)的正規(guī)化過(guò)程被忽略。

總而言之，以上所提出的這些規(guī)則都是具有完全的通用性，適用范圍廣，魯棒性也強(qiáng)。

2.3 幾種特殊字母的正規(guī)化規(guī)則分析

顯然，一個(gè)拉丁化的維吾爾文字母在同一個(gè)單詞中的不同位置或不同單詞中仍然能夠有效地表達(dá)出不同的字母。例如，以字母[a]為例，如: adam→adem(人)；maktap→mektep(學(xué)校)；dan→den(粒)……等。此外，維吾爾語(yǔ)構(gòu)詞方法的異同，致使不斷地產(chǎn)生新單詞，因而對(duì)這些字母的正規(guī)化帶來(lái)了巨大的挑戰(zhàn)。

經(jīng)過(guò)對(duì)網(wǎng)絡(luò)上的拉丁化維吾爾文書寫的文本分析和觀察之后，我們發(fā)現(xiàn)在拉丁化維吾爾文字母中有些字母的使用程度不僅頻繁，而且混用現(xiàn)象突出。尤其是[a]、[k]、[h]、[g]、[o]等五個(gè)字母的用法就屬于這種情況，所以針對(duì)這些字母進(jìn)行正規(guī)化是此項(xiàng)任務(wù)的核心。

接下來(lái)，我們主要利用字符串匹配算法對(duì)這些字母的正規(guī)化處理過(guò)程進(jìn)行進(jìn)一步的探討。

首先，為了有效地減少?gòu)?fù)雜度，以每個(gè)需要正規(guī)化的字母為主，分別建立了該字母的詞首字母序列詞典和詞尾字母序列詞典。詞首字母序列詞典是由該字母開頭的幾個(gè)字母序列組成的。詞尾字母序列詞典是由單詞結(jié)尾的幾個(gè)字母序列組成的。

然后，建立了對(duì)每個(gè)字母適合地固定詞典。因?yàn)樵撛~典所包含的詞條不僅始終不變，而且一旦匹配成功就可以按照已制定的規(guī)則去實(shí)現(xiàn)正規(guī)化操作。

最后，建立了在日常社交和網(wǎng)絡(luò)世界上比較常見的無(wú)法尋找適當(dāng)?shù)囊?guī)則去實(shí)現(xiàn)正規(guī)化的單詞組成的特殊詞詞典。本文中特殊詞詞典是對(duì)所有的字母而言同等使用。在表3中以字母[h]為實(shí)例的部分列表所示。

表3 字母[h]的詞典實(shí)例

值得一提的是，如果當(dāng)前單詞中的字母序列與[a]、[k]、[h]、[g]、[o]詞典中任意一個(gè)字母序列或單詞匹配成功，就將當(dāng)前單詞中的字母替換成該單詞屬于的相應(yīng)字母，例如，“niyatka”因?yàn)樵搯卧~中字母序列“niyat”是與[a]中詞首字母序列匹配，所以該單詞中的所有“a”替換為“e”，即最后結(jié)果為“niyetke”。

3 拉丁化維吾爾文的正規(guī)化算法設(shè)計(jì)

3.1 基本模塊化系統(tǒng)結(jié)構(gòu)

本文實(shí)驗(yàn)所用語(yǔ)料包括已標(biāo)注語(yǔ)料11 257句。其中，訓(xùn)練語(yǔ)料有10 206句(180 283個(gè)單詞)，測(cè)試語(yǔ)料有1 051句(14 581個(gè)單詞)，其中訓(xùn)練語(yǔ)料里有10 359個(gè)人名，測(cè)試語(yǔ)料里有1 669個(gè)人名，其中維吾爾族人名占54.4%、漢族人名占24.9%、外來(lái)人名占20.7%。所用語(yǔ)料還有人名詞典(21 317個(gè)人名)、人名后綴庫(kù)(259個(gè)后綴)。語(yǔ)料中采用的標(biāo)注分別有BPER(前部)、IPER(內(nèi)部)和O(其他)。

拉丁化維吾爾文的正規(guī)化系統(tǒng)本質(zhì)上是文本中各個(gè)單詞的規(guī)范化過(guò)程，其基本原理如圖1所示，由預(yù)處理、規(guī)則匹配、后處理等步驟組成。

預(yù)處理部分依次為去除多余空格、標(biāo)點(diǎn)符號(hào)、單位符號(hào)、數(shù)字、序列號(hào)、數(shù)學(xué)符號(hào)，使用通用規(guī)則的前三條進(jìn)行初步正規(guī)化，按照空格分詞，為規(guī)則匹配操作準(zhǔn)備標(biāo)準(zhǔn)的樣本。

規(guī)則匹配階段主要是進(jìn)行當(dāng)前單詞與特殊單詞或每個(gè)字母所屬于固定詞典或其中的字母序列詞典中的字符串匹配，并且對(duì)于匹配成功的單詞再次進(jìn)行相應(yīng)規(guī)則的正規(guī)化。

后處理根據(jù)匹配后的結(jié)果進(jìn)行通用規(guī)則的最后一條的正規(guī)化，并利用維吾爾文與拉丁化維吾爾文之間一一對(duì)應(yīng)關(guān)系進(jìn)行轉(zhuǎn)寫并輸出結(jié)果。

3.2 拉丁化維吾爾文的正規(guī)化算法描述

正逆向最大匹配是拉丁化維吾爾文的正規(guī)化算法的主要部分。因?yàn)槊總€(gè)用戶按照個(gè)人習(xí)慣的方式去書寫所產(chǎn)生的，容易混淆字母的正規(guī)化就在該階段得到解決，其算法流程圖為如圖2所示。

圖2 拉丁化維吾爾文的正規(guī)化算法流程圖

根據(jù)上述流程圖，我們可以把整個(gè)算法描述為如下:

(1) 對(duì)資源文本進(jìn)行預(yù)處理操作，去除標(biāo)點(diǎn)符號(hào)、數(shù)字、多余符號(hào)并利用空格進(jìn)行分詞等。

(2) 遍歷取出文本中的單詞，如果遍歷結(jié)束，則轉(zhuǎn)至(8)，否則轉(zhuǎn)至(3)。

(3) 以單詞為單位判斷當(dāng)前單詞與特殊單詞是否匹配，如果匹配成功就進(jìn)行基于特殊詞規(guī)則正規(guī)化的操作，并將處理結(jié)果轉(zhuǎn)至(4)，否則就轉(zhuǎn)至(4)。

(4) 判斷當(dāng)前單詞是否包含[a]、[k]、[h]、[g]、[o]等目標(biāo)字母。如果包含則轉(zhuǎn)至(5)，否則將當(dāng)前單詞傳送到臨時(shí)存儲(chǔ)，并轉(zhuǎn)至(2)。

(5) 判斷當(dāng)前單詞的開頭字母序列是否與詞首字母序列詞典中的字串匹配。如果匹配成功，就進(jìn)行基于詞首規(guī)則的正規(guī)化處理，并轉(zhuǎn)至(6)，否則就直接轉(zhuǎn)至(6)。

(6) 判斷當(dāng)前單詞的結(jié)尾字母序列是否與詞尾字母序列詞典中的字串匹配。如果匹配成功，就進(jìn)行基于詞尾規(guī)則的正規(guī)化處理，并轉(zhuǎn)至(7)，否則就直接轉(zhuǎn)至(7)。

(7) 判斷當(dāng)前單詞是否與固定詞典中的單詞匹配。如果匹配成功就進(jìn)行基于固定詞典規(guī)則的正規(guī)化操作，將處理結(jié)果放至臨時(shí)存儲(chǔ)，否則直接將當(dāng)前單詞放至臨時(shí)存儲(chǔ)，然后轉(zhuǎn)至(2)。

(8) 對(duì)完成所有單詞正規(guī)化并處理結(jié)果已放到臨時(shí)存儲(chǔ)的數(shù)據(jù)進(jìn)行后處理，利用通用規(guī)則的最后一條進(jìn)行元音字母的正規(guī)化。

(9) 輸出結(jié)果，利用維吾爾文與拉丁化維吾爾文字母之間的一一對(duì)應(yīng)關(guān)系進(jìn)行拉丁化維吾爾文到維吾爾文的轉(zhuǎn)寫并輸出結(jié)果。

4 實(shí)驗(yàn)與分析

4.1 數(shù)據(jù)準(zhǔn)備

為了獲得更精確的拉丁化維吾爾文的正規(guī)化規(guī)則庫(kù)，本文首先利用維吾爾常用詞匯詞典和維吾爾社會(huì)中的著名小說(shuō)“故鄉(xiāng)”的單詞為參考，建立了拉丁化維吾爾文的正規(guī)化規(guī)則庫(kù)。然后在這些規(guī)則的基礎(chǔ)上按照維吾爾語(yǔ)單詞字母序列的構(gòu)成特點(diǎn)，分別建立了[a]、[k]、[h]、[g]、[o]字母的詞首字母序列庫(kù)和詞尾字母序列庫(kù)，特殊詞庫(kù)和固定詞庫(kù)。其中，特殊詞庫(kù)有47個(gè)單詞，固定詞庫(kù)有169個(gè)單詞，詞首字母序列庫(kù)有1 151行不同的字母序列，詞尾字母序列庫(kù)中有931行不同的字母序列數(shù)據(jù)。

4.2 實(shí)驗(yàn)設(shè)置

至今，在拉丁化維吾爾文的正規(guī)化方面沒人研究過(guò)，使得該實(shí)驗(yàn)結(jié)果對(duì)比性研究任務(wù)艱巨。為此，我們引用最小編輯距離(Minimum Edit Distance)算法進(jìn)行對(duì)比實(shí)驗(yàn)。因?yàn)椋朔N算法在自然語(yǔ)言處理領(lǐng)域中廣泛用于拼寫檢查和糾錯(cuò)處理，即對(duì)一個(gè)字符串中的多余插入、脫落、替代和換位等字母能夠進(jìn)行有效地糾正。換句話說(shuō)，采用該算法在一定的程度上也可以達(dá)到字母正規(guī)化的目標(biāo)。最小編輯距離是指一個(gè)字符串轉(zhuǎn)換為另一個(gè)字符串所需要的最小編輯操作次數(shù)。該算法的基本思想在文獻(xiàn)[8]中詳細(xì)介紹了，所以此處不再贅述。

另外，本文根據(jù)拉丁化維吾爾的書寫特點(diǎn)，從文獻(xiàn)[9]中得到啟發(fā)，通過(guò)利用首字母是否相同，錯(cuò)誤詞和詞庫(kù)中詞條的長(zhǎng)度差異(本文設(shè)定為2)和取編輯距離的最小值的方法，同時(shí)與規(guī)則方法進(jìn)行同步和異步的正規(guī)化。

4.3 實(shí)驗(yàn)結(jié)果及分析

本文在上述的拉丁化維吾爾文字符串匹配算法的基礎(chǔ)上，利用Visual Studio 2010 C#編程工具實(shí)現(xiàn)了拉丁化維吾爾文的正規(guī)化系統(tǒng)。為了驗(yàn)證本文所提出的拉丁化維吾爾文的正規(guī)化匹配算法的有效性，我們主要是在許多用戶的QQ聊天記錄和其他用在拉丁文書寫的網(wǎng)頁(yè)上抽取了實(shí)驗(yàn)樣本(2 636個(gè)句子，其中有18 836個(gè)單詞)。

在以上實(shí)驗(yàn)數(shù)據(jù)的基礎(chǔ)上，我們用規(guī)則方法、最小編輯距離方法和前兩種方法的結(jié)合進(jìn)行測(cè)試，并用正規(guī)化準(zhǔn)確率對(duì)算法的性能進(jìn)行了評(píng)價(jià)(式(1))，實(shí)驗(yàn)結(jié)果為如表4中所示。

(1)

實(shí)驗(yàn)測(cè)試結(jié)果表明，一般單獨(dú)使用規(guī)則方法和編輯距離方法時(shí)，基于規(guī)則的拉丁化維吾爾文的正規(guī)化算法對(duì)拉丁化維吾爾文的正規(guī)化具有較高的準(zhǔn)確率，可以達(dá)到88.50%，同時(shí)也說(shuō)明我們所用的規(guī)則并不完善。最小編輯距離方法的正規(guī)化準(zhǔn)確率較低，主要原因是通常拉丁化維吾爾文書寫時(shí)，在單詞中不時(shí)地出現(xiàn)[ch]、[sh]、[ng]等結(jié)合的字母,使得容易超出編輯距離的最小值的約束范圍，因而直接影響到正規(guī)化效率。此外，本文把以上兩種方法結(jié)合起來(lái)，發(fā)揮各自的優(yōu)勢(shì)，促進(jìn)互補(bǔ)作用，取得了較好的正規(guī)化效果，結(jié)合兩種方法的正規(guī)化準(zhǔn)確率達(dá)到了93.80%，從而驗(yàn)證我們方法的有效性。

表4 測(cè)試結(jié)果

此外，值得指出的是，通過(guò)對(duì)測(cè)試樣本進(jìn)行統(tǒng)計(jì)發(fā)現(xiàn)，包含(以上我們所提出的那些需要正規(guī)化的)五種字母的樣本比例占所有樣本的84.10%。很慶幸的是，對(duì)不包含五種字母的樣本進(jìn)行分析可知，在這些樣本中有些樣本的拼寫存在錯(cuò)誤或者拼寫無(wú)誤，而且不必需要正規(guī)化的處理(只要拉丁化維吾爾到維吾爾文轉(zhuǎn)寫即可)。簡(jiǎn)單地說(shuō)，在進(jìn)行兩種結(jié)合方法的正規(guī)化時(shí)，編輯距離方法不僅對(duì)包含五種字母的樣本基于規(guī)則的正規(guī)化處理以后進(jìn)行拼寫糾錯(cuò)方面有所幫助，還能對(duì)不包含五種字母樣本的拼寫錯(cuò)誤自動(dòng)發(fā)揮糾正功能，而達(dá)到更好的效果。由此可見，我們的方法在整個(gè)正規(guī)化過(guò)程中發(fā)揮了極大作用和做出了較大的貢獻(xiàn)。

5 結(jié)束語(yǔ)

本文對(duì)基于規(guī)則的拉丁化維吾爾文的正規(guī)化進(jìn)行研究與分析，并初步實(shí)現(xiàn)了拉丁化維吾爾文的正規(guī)化系統(tǒng)。實(shí)驗(yàn)結(jié)果表明，以詞首字母序列、詞尾字母序列、特殊詞和固定單詞為主的，基于規(guī)則的方法在拉丁化維吾爾文的正規(guī)化系統(tǒng)中具有較好的效果。與最小編輯距離方法相結(jié)合起來(lái)，該方法的優(yōu)勢(shì)更為突出。然而，由于每個(gè)用戶書寫的單詞形式無(wú)窮無(wú)盡、單詞的字母結(jié)構(gòu)比較復(fù)雜，因此音位變化和同形詞的正規(guī)化方面還是存在一些問題。對(duì)這些問題僅靠規(guī)則來(lái)完成拉丁化維吾爾文的正規(guī)化是完全不夠的，所以在未來(lái)工作中除了完善正規(guī)化算法以外，還可以通過(guò)利用規(guī)則與統(tǒng)計(jì)結(jié)合的方法和按照單詞讀音識(shí)別出同形詞的方法有效地提高拉丁化維吾爾文的正規(guī)化的準(zhǔn)確率。

[1] 亞森·依明.基于國(guó)際標(biāo)準(zhǔn)編碼系統(tǒng)的維吾爾文拉丁文轉(zhuǎn)寫規(guī)則研究[J].信息技術(shù)與標(biāo)準(zhǔn)化，2011，6: 49-51

[2] MZ115-68，維吾爾文拉丁化方案[OL].http://sina.com.cn/s/blog_5fe8b9000100dadl.html.

[3] 地里木拉提·吐爾遜，瓦依提·阿不力孜，吐爾根·伊布拉音.古維吾爾文(察合臺(tái)文)及轉(zhuǎn)寫符號(hào)的智能輸入法研究[J].中文信息學(xué)報(bào)，2007，6: 125-128.

[4] 曹暉.Linux系統(tǒng)藏文拉丁文轉(zhuǎn)寫輸入法的實(shí)現(xiàn)[J].西北民族大學(xué)學(xué)報(bào)，2010，31: 22-25.

[5] 郭淑妮，李永宏，于洪志.現(xiàn)代藏文與拉丁文字母雙向轉(zhuǎn)寫的規(guī)則與實(shí)現(xiàn)[C]//第八屆中國(guó)語(yǔ)音學(xué)學(xué)術(shù)會(huì)議暨慶祝宗濟(jì)先生百歲華誕語(yǔ)音科學(xué)前沿問題國(guó)際研討會(huì)論文集.北京: 2008.

[6] 陳麗娜，祁坤鈺，賈彥民，等.藏文拉丁轉(zhuǎn)寫的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì)，2006，1: 15-18.

[7] 袁保社，袁曉琴.維吾爾文Open Type字庫(kù)設(shè)計(jì)與實(shí)現(xiàn)[J].電腦知識(shí)與技術(shù)(學(xué)術(shù)交流版),2008,2: 672-673.

[8] 包西林，郭辰，姚倩，等.自動(dòng)拼寫校對(duì)的算法設(shè)計(jì)和系統(tǒng)實(shí)現(xiàn)[J].科技和產(chǎn)業(yè)，2013，13(2)；144-148.

[9] 瑪依熱·依布拉音，米吉提·阿不里米提，艾斯卡爾·艾木都拉.基于最小編輯距離的維語(yǔ)詞語(yǔ)檢錯(cuò)與糾錯(cuò)研究[J].中文信息學(xué)報(bào)，2008，22(3): 110-114.

Features of Latin Transcriptions of Uyghur Characters and ItsNormalization Based on Rules

Seyyare Imam1, Hussein Yusuf2, Abdusalam Dawut3

(1. Instiute of Politics and Public Administration,Xinjiang University, Urumqi,Xinjiang 830046,China;2. Instiute of Information Science and Enginerring,Xinjiang University, Urumqi,Xinjiang 830046,China;3. School of Software,Xinjiang University,Urumqi,Xinjiang 830046,China)

A rule based normalization method for Latin transcriptions of Uyghur Characters popular in the WEB is presented. First, we establish the large scale text corpus including four different types of datasets, i.e.set of the fixed words, set of the word-initial letter sequences, set of the suffix letter sequences, and set of the special words. Then we normalize the Uyghur Latin transcriptions by the characteristics of the letter sequence within a word and context information of adjacent letters via the Minimum Edit Distance. Finally, a detailed analysis of the experiment results and the further researches are also given in this paper.

Uyghur; Latinized Uyghur;normalization;rule sets;minimum edit distance;text transcription

賽牙熱·依馬木(1972—)，碩士，副教授，主要研究領(lǐng)域?yàn)樯鐣?huì)語(yǔ)言學(xué)，維吾爾語(yǔ)本體及其應(yīng)用研究等。E?mail：139720425@qq．com于斯音·于蘇普(1985—)，碩士研究生，主要研究領(lǐng)域?yàn)榫S吾爾自然語(yǔ)言處理。E?mail：hussein999@163．com阿不都薩拉木·達(dá)吾提(1972—)，博士，講師，主要研究領(lǐng)域?yàn)槟Ｊ阶R(shí)別等。E?mail：abs＿ili@163．com

2014-08-25 定稿日期： 2015-04-10

國(guó)家社會(huì)科學(xué)基金(13BYY062)；國(guó)家自然科學(xué)基金(61163033)；新疆多語(yǔ)種信息技術(shù)重點(diǎn)實(shí)驗(yàn)室開放課題

1003-0077(2016)03-0060-08

TP391

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

拉丁化維吾爾文字特征及其基于規(guī)則的正規(guī)化

前言

1 拉丁化維吾爾文字轉(zhuǎn)寫及其特點(diǎn)

2 拉丁化維吾爾文的正規(guī)化規(guī)則收集

3 拉丁化維吾爾文的正規(guī)化算法設(shè)計(jì)

4 實(shí)驗(yàn)與分析

5 結(jié)束語(yǔ)