飛 龍,高光來(lái),閆學(xué)亮,魏宏喜
內(nèi)蒙古大學(xué) 計(jì)算機(jī)學(xué)院,呼和浩特 010021
傳統(tǒng)蒙古文與西里爾蒙古文相互轉(zhuǎn)換方法的研究
飛 龍,高光來(lái),閆學(xué)亮,魏宏喜
內(nèi)蒙古大學(xué) 計(jì)算機(jī)學(xué)院,呼和浩特 010021
蒙古文是一個(gè)跨多國(guó)、多地區(qū)的語(yǔ)言,在世界上有廣泛影響,使用者分布在中國(guó)、蒙古國(guó)和俄羅斯聯(lián)邦等國(guó)家,尤其是中國(guó)和蒙古國(guó)使用的蒙古語(yǔ)言文字是“語(yǔ)同文不同”,即語(yǔ)言相同,文字不同。在中國(guó)使用的蒙古文叫“傳統(tǒng)蒙古文”,在蒙古國(guó)使用的蒙古文叫“西里爾蒙古文”(也叫新蒙古文,基立爾蒙古文,斯拉夫蒙古文等)。
隨著中國(guó)和蒙古國(guó)兩國(guó)之間的文化、教育和經(jīng)濟(jì)的交流與合作不斷深入,兩國(guó)之間的文字轉(zhuǎn)換工作也變得極其重要。傳統(tǒng)蒙古文和西里爾蒙古文的相互轉(zhuǎn)換工作會(huì)給兩國(guó)蒙古族同胞的交流帶來(lái)更多的便利,并且對(duì)蒙古族的科學(xué),文化和教育發(fā)展同樣具有重要的意義。
包薩日娜、烏日力嘎和Hao Li[1-6]等人采用基于詞典的方法和基于規(guī)則的方法對(duì)傳統(tǒng)蒙古文和西里爾蒙古文的相互轉(zhuǎn)換進(jìn)行了一系列的研究,并取得了一定的成果。但是,蒙古文是通過(guò)詞根綴接多個(gè)后綴的方式生成新詞的,按照這種生成方式,可以構(gòu)成近100萬(wàn)的蒙古文單詞,詞典一般很難全部包含。而且,基于規(guī)則的方法很難歸納出所有的轉(zhuǎn)換規(guī)則,并且相當(dāng)一部分單詞并不遵循轉(zhuǎn)換規(guī)則。所以,基于詞典和基于規(guī)則的方法有較大的局限性,很難達(dá)到實(shí)用要求。
本文提出了基于聯(lián)合序列模型[7-8]的傳統(tǒng)蒙古文和西里爾蒙古文的相互轉(zhuǎn)換方法,并優(yōu)化了相關(guān)參數(shù)。實(shí)驗(yàn)中,基于聯(lián)合序列模型的轉(zhuǎn)換方法對(duì)傳統(tǒng)蒙古文到西里爾蒙古文的轉(zhuǎn)換(Traditional Mongolian To Cyril Mongolian Conversion,T2C)和西里爾蒙古文到傳統(tǒng)蒙古文的轉(zhuǎn)換(Cyril Mongolian To Traditional Mongolian Conversion,C2T)都得到了較好的實(shí)驗(yàn)效果。
西里爾蒙古文是從傳統(tǒng)蒙古文演變而成的,語(yǔ)法和詞匯基本相同。傳統(tǒng)蒙古文和西里爾蒙古文的字母對(duì)照如表1所示。傳統(tǒng)蒙古文和西里爾蒙古文之間有不可分割的聯(lián)系,但二者之間有一定的區(qū)別:
(1)傳統(tǒng)蒙古文有35個(gè)字母,其中包含8個(gè)元音字母和27個(gè)輔音字母[9]。西里爾蒙古文也有35個(gè)字母,其中包含13個(gè)元音字母,20個(gè)輔音字母,硬化字母和軟化字母各一個(gè)[10]。
(2)西里爾蒙古文字母區(qū)分大小寫,而傳統(tǒng)蒙古文字母不區(qū)分大小寫。西里爾蒙古文字母的大寫用法跟英語(yǔ)相似。傳統(tǒng)蒙古文字母不區(qū)分大小寫,并且每個(gè)字母在詞中變化有很多,在單詞中,字母在上、中、下位置不同將導(dǎo)致寫法也不相同[11]。
(3)西里爾蒙古文和傳統(tǒng)蒙古文書寫方向不同。西里爾蒙古文采用的是從左到右的書序,從上到下的行序,而傳統(tǒng)蒙古文采用從上到下的書序,從左到右的行序[12]。
(4)書面語(yǔ)和口語(yǔ)的差別程度在西里爾蒙古文與傳統(tǒng)蒙古文中并不相同。西里爾蒙古文中的書面語(yǔ)和口語(yǔ)基本保持一致,口語(yǔ)中怎么發(fā)音就基本上怎么拼寫,而傳統(tǒng)蒙古文的書面語(yǔ)與口語(yǔ)不是一一對(duì)應(yīng)的,書面語(yǔ)轉(zhuǎn)口語(yǔ)時(shí)會(huì)出現(xiàn)元音和輔音的脫落、增加和變換等現(xiàn)象[13]。
表1 西里爾蒙古文和傳統(tǒng)蒙古文字母對(duì)照
傳統(tǒng)蒙古文和西里爾蒙古文相互轉(zhuǎn)換時(shí)單詞之間基本上是一一對(duì)應(yīng)的,但是由于上述傳統(tǒng)蒙古文和西里爾蒙古文的區(qū)別,從而它們的字母不是一一對(duì)應(yīng),有一對(duì)多或多對(duì)一的現(xiàn)象。這些問(wèn)題給傳統(tǒng)蒙古文和西里爾蒙古文的相互轉(zhuǎn)換工作帶來(lái)了一定的困難。
3.1 聯(lián)合序列模型
傳統(tǒng)蒙古文單詞和西里爾蒙古文單詞都是由字母串組成的,假設(shè)G為傳統(tǒng)蒙古文字母串的集合,西里爾蒙古文字母串集合為Φ。T2C轉(zhuǎn)換問(wèn)題可表述為:
公式(1)表示對(duì)于傳統(tǒng)蒙古文單詞g∈G*尋找最有可能對(duì)應(yīng)的西里爾蒙古文單詞?∈Φ*。*表示所有字符串的集合。與此相似,C2T轉(zhuǎn)換問(wèn)題也可以表示成公式(1)的形式。本文以T2C轉(zhuǎn)換為例描述了基于聯(lián)合序列模型的轉(zhuǎn)換方法,而C2T轉(zhuǎn)換方法跟T2C轉(zhuǎn)換方法完全相同。
聯(lián)合序列模型的基本思想是輸入和輸出序列共同可以生成包含輸入和輸出符號(hào)的聯(lián)合單位的共同序列。簡(jiǎn)單情況下,每個(gè)單位帶有零或一個(gè)輸入符號(hào)和零或一個(gè)輸出符號(hào)。這相當(dāng)于有限狀態(tài)轉(zhuǎn)換器(FST)的傳統(tǒng)定義。這種可以由多個(gè)輸入和輸出符號(hào)組成的單位稱之為共同序列(Co-sequence)或聯(lián)合多元(Joint Multigram)[14]。本文把傳統(tǒng)蒙古文和西里爾蒙古文字母的聯(lián)合多元(Traditional-Cyril Mongolian joint multigram)簡(jiǎn)稱為tracyone。
tracyone是一對(duì)不等長(zhǎng)的傳統(tǒng)蒙古文字母和西里爾蒙古文字母序列的組合={g,φ}∈Q?G*×Φ*。使用gq和φq分別表示的第一和第二部分。如果tracyone最多包含一個(gè)傳統(tǒng)蒙古文字母和一個(gè)西里爾蒙古文字母,則稱之為單數(shù)tracyone。Q的列表可以從訓(xùn)練數(shù)據(jù)中獲得,也可以通過(guò)手工指定。
傳統(tǒng)蒙古文字母和西里爾蒙古文字母序列被分成相等的段數(shù),這樣的分組稱為聯(lián)合分割。對(duì)齊項(xiàng)是可以交換使用的。把這特殊的對(duì)齊類型稱為“m-to-n”。對(duì)于一個(gè)給定的輸入和輸出字符串對(duì),分割tracyone的結(jié)果不是唯一的。對(duì)于可能有歧義的m-to-n對(duì)齊,可以對(duì)輸入的字母串進(jìn)行自由的組合。例如,把傳統(tǒng)蒙古文單詞“轉(zhuǎn)寫:ebdegde,對(duì)應(yīng)的西里爾蒙古文:эвдэгд)分割成3個(gè)或7個(gè)tracyone同樣是有效的,如圖1和圖2所示。
圖1 生成3個(gè)tracyone序列的結(jié)果圖
圖2 生成7個(gè)tracyone序列的結(jié)果圖
這種模糊的聯(lián)合概率是由所有相匹配的tracyone序列的總和來(lái)決定的:
其中,q∈Q*是tracyones的一個(gè)序列,S(g,φ)是 g和φ的所有聯(lián)合分割的集合:
這里∧表示序列的串聯(lián),K=|q|表示tracyone序列q的長(zhǎng)度。聯(lián)合概率分布 p(g,φ)成為了tracyone序列q= q1q2…qK上的概率分布 p(q),它可以用標(biāo)準(zhǔn)的M-gram模型近似表示:
位置 j<1和 j>K是被視為特殊的邊界符號(hào)qj=⊥,它允許作為蒙古文單詞的開始和結(jié)束位置的特征現(xiàn)象來(lái)建模。下面介紹了對(duì)于這種模型的估計(jì)方法。
3.2 模型估計(jì)
3.2.1 Multigram的最大期望值
下面考慮在不是聯(lián)合分割的訓(xùn)練數(shù)據(jù)中對(duì)可變長(zhǎng)度單元的模型的推理問(wèn)題。給定N個(gè)傳統(tǒng)蒙古文單詞和對(duì)應(yīng)的西里爾蒙古文單詞的訓(xùn)練樣本O1,O2,…,ON=(g1,φ1),(g2,φ2),…,(gN,φN),但是傳統(tǒng)蒙古文和對(duì)應(yīng)的西里爾蒙古文字母沒有水平對(duì)齊。首先,由于一個(gè)聯(lián)合分割S定義唯一的聯(lián)合序列,發(fā)現(xiàn)如果有一個(gè)聯(lián)合序列模型,就可以計(jì)算每個(gè)訓(xùn)練樣本的任何聯(lián)合分割概率:
因此,訓(xùn)練數(shù)據(jù)的對(duì)數(shù)似然值可以用所有分割的總和來(lái)表示:
在聯(lián)合單位中分割S是一個(gè)隱藏的變量。最大似然率訓(xùn)練可以采用期望最大化算法(EM)。首先考慮上下文獨(dú)立的unigram(M=1)情況,更新參數(shù)θ′的重估公式如下:
其中,n(q)是在序列q中tracyone出現(xiàn)的次數(shù)。把e(;θ)稱其為 q 的證據(jù)(evidence),它表示在當(dāng)前的參數(shù)θ下訓(xùn)練樣本中出現(xiàn)的期望值。e(;θ)可以通過(guò)前向后向過(guò)程計(jì)算得到。
對(duì)于高階模型(M>1),用h來(lái)表示在前邊的聯(lián)合單元序列 hj=(qj-M+1,qj-M+2,…,qj-1)。用 nq,h(q)來(lái)表示在序列 q 中 M-gram qj-M+1,qj-M+2,…,qj-1出現(xiàn)的次數(shù)。重估公式如下:
此外,默認(rèn)序列q中已經(jīng)包含了開始和結(jié)束邊界標(biāo)志。
顯然,上述公式不允許新的tracyone出現(xiàn)的概率為零。所以通過(guò)人工設(shè)置比較滿意的長(zhǎng)度約束,并均勻分布到所有tracyones來(lái)初始化模型參數(shù)。通常只使用一個(gè)簡(jiǎn)單的上限 L,即 |gq|≤L 和 |φq|≤L,但排除了不會(huì)生成的情況|gq|=|φq|=0。所以,更復(fù)雜的約束是可想而知的,例如傳統(tǒng)蒙古文字母和西里爾蒙古文字母序列長(zhǎng)度的不同范圍,或下限設(shè)置。一個(gè)被公認(rèn)的初始分布是tracyones總數(shù)的倒數(shù):
其中,l=r=0表示附加的序列結(jié)束標(biāo)志。
tracyone的長(zhǎng)度約束參數(shù)L對(duì)tracyone的數(shù)目有明顯的影響。序列模型的其他外部參數(shù)是最大極限的歷史長(zhǎng)度M。M和L一起規(guī)定了模型的有效范圍,即在給定的位置字母或音素的數(shù)目影響估計(jì)的概率值。
一般情況下,用最大似然估計(jì)法訓(xùn)練模型時(shí),很可能會(huì)出現(xiàn)過(guò)擬合現(xiàn)象,并且在預(yù)測(cè)未出現(xiàn)的數(shù)據(jù)時(shí)效果不佳。同樣,從訓(xùn)練樣本中分析得到的一些單調(diào)初始化的tracyone會(huì)達(dá)到某個(gè)概率聚集,而只有其中的小部分將有助于“正確”的模型估計(jì)。這兩個(gè)問(wèn)題分別會(huì)通過(guò)下面討論的平滑和裁剪進(jìn)行處理。
3.2.2 證據(jù)裁剪
證據(jù)裁剪可以解決過(guò)擬合問(wèn)題。也就是說(shuō),修剪低于閾值的證據(jù)值,取代在方程(12)中的 p(|h;θ):
此過(guò)程不可能在迭代過(guò)程中使tracyones逐漸消失。證據(jù)裁剪同時(shí)有效地控制了tracyone列表的大小。在訓(xùn)練數(shù)據(jù)上,閾值τ需要進(jìn)一步調(diào)整。
3.2.3 減值證據(jù)
比較估計(jì)公式(12)和典型的N-gram語(yǔ)言模型,注意到,除了用證據(jù)值替代傳統(tǒng)的N-gram計(jì)數(shù)值,面臨著本質(zhì)上是相同的建模問(wèn)題。眾所周知,有效的平滑技術(shù)對(duì)建立好的語(yǔ)言模型是至關(guān)重要的。實(shí)證研究表明,用插值和邊緣保留回退分布作絕對(duì)減值,也被稱為Kneser-Ney平滑,比所有其他已知的平滑方法的效果都要好。不同于傳統(tǒng)語(yǔ)言模型的計(jì)數(shù)值,證據(jù)值是一個(gè)小數(shù)。所以采用從傳統(tǒng)的語(yǔ)言模型獲取的結(jié)果時(shí)必須謹(jǐn)慎,因?yàn)樗鼈兊耐茖?dǎo)可能依賴于整數(shù)計(jì)數(shù)的假設(shè)。絕對(duì)減值和插值估計(jì)方程如公式(15)所示:
為清楚起見,添加了一個(gè)下標(biāo)M表示分布的階數(shù)。dM≥0 是減值參數(shù)。pM-1(|)是廣義的,低階(M-1)-gram 的分布使取決于減少的歷史i=(i-M+2,i-M+3,…,i-1)。λ(h)為歸一化參數(shù),它使得所有的分布總和到1。
在語(yǔ)言模型中的最小計(jì)數(shù)值為1(除了未見過(guò)的事件),然而證據(jù)值可以變得任意小,實(shí)際上小于減值。所以減值的證據(jù)估計(jì)包含證據(jù)裁剪的一種形式:用低于減值參數(shù)的證據(jù)值的tracyones拒絕進(jìn)入模型。證據(jù)裁剪這種形式和明確的形式(14)之間的一個(gè)顯著區(qū)別是在減值里對(duì)未見過(guò)的事件分配了減值證據(jù),而在其余的證據(jù)有效地分配到了所有可見的事件。
仍然需要指定回退分布 pM-1。對(duì)減少歷史hˉ想利用一致性約束:
當(dāng)然,公式(17)中的 pM-1()也需要平滑處理。平滑 pM-1的兩個(gè)方法看上去比較合理。第一是在公式(15)中“插入”減少的證據(jù)值(18),第二是平滑約束條件。
事實(shí)證明,除了對(duì)減值參數(shù)不同的解釋,這兩種方法會(huì)得到相同的結(jié)果。絕對(duì)減值遞歸地應(yīng)用于低階分布 pM-2,pM-3,…,p0。零元分布 p0跟所有潛在的tracyone(13)相同。由于小數(shù)的證據(jù)值不適合它自己的運(yùn)算,所以在持有集(the hold-out set)上優(yōu)化減值參數(shù)d。
3.2.4 自底向上的模型建立和減值期望最大化
迭代過(guò)程中,用單調(diào)的概率分布初始化unigram模型(11),即所有可能的multigrams有相同的初始概率。在訓(xùn)練集上,用不受約束的計(jì)數(shù)c(q)選擇性的初始化,即在每個(gè)詞中不管相鄰的tracyones的重復(fù),計(jì)tracyone的出現(xiàn)次數(shù)。
通過(guò)應(yīng)用平滑方法,這些計(jì)數(shù)(受tracyone長(zhǎng)度約束的限制)被用于計(jì)算初始的概率分布。高階的M-gram模型使用以前生成的(M-1)-gram模型進(jìn)行初始化。這意味著,在低階模型中只允許與不減值的M-gram相符合的歷史。
現(xiàn)在要解決的是證據(jù)減值怎么樣與EM算法相互進(jìn)行交互的問(wèn)題。首先,優(yōu)化減值需要數(shù)據(jù)集,這數(shù)據(jù)集獨(dú)立于計(jì)算證據(jù)值時(shí)的數(shù)據(jù)集。不分離這些數(shù)據(jù)集會(huì)導(dǎo)致減值的總值會(huì)低估。為此,從訓(xùn)練數(shù)據(jù)中分離訓(xùn)練集Ot和典型的較小的持有集Oh。訓(xùn)練集用于計(jì)算證據(jù)值,而持有集用于調(diào)整減值參數(shù)。
在每個(gè)迭代中原始的EM算法確實(shí)提高了樣本出現(xiàn)的可能性,但這通常會(huì)導(dǎo)致過(guò)度擬合和在某個(gè)點(diǎn)上持有集的可能性將開始減小。因此,在減值EM算法中為了確保持有集的可能性不降低,會(huì)更新減值。
3.3 解碼
估計(jì)模型之后,公式(1)可以用于T2C轉(zhuǎn)換。從傳統(tǒng)蒙古文到西里爾蒙古文轉(zhuǎn)換時(shí),通常用極大值來(lái)近似公式(2)中的總和。
具體來(lái)說(shuō),對(duì)給定的傳統(tǒng)蒙古文字母串尋找最有可能對(duì)應(yīng)的tracyone序列,并轉(zhuǎn)換成對(duì)應(yīng)的西里爾蒙古文字母串。
實(shí)驗(yàn)采用的性能評(píng)價(jià)標(biāo)準(zhǔn)為詞誤識(shí)率(Word Error Rate,WER)和字母誤識(shí)率(Letter Error Rate,LER)。
其中,Ncorrect為轉(zhuǎn)換正確的單詞數(shù)目,Ntotal為所有需要轉(zhuǎn)換的單詞數(shù),Nphtotal為所有需要轉(zhuǎn)換的單詞對(duì)應(yīng)的字母?jìng)€(gè)數(shù)總合,Nins為轉(zhuǎn)換時(shí)出現(xiàn)的插入錯(cuò)誤個(gè)數(shù),Ndel為轉(zhuǎn)換時(shí)所有出現(xiàn)的刪除錯(cuò)誤總合,Nsub為轉(zhuǎn)換時(shí)所有出現(xiàn)的替換錯(cuò)誤總合。
4.1 實(shí)驗(yàn)1:基于聯(lián)合序列模型的轉(zhuǎn)換實(shí)驗(yàn)
本文以從《新蒙漢詞典》[15]中搜集的65 232個(gè)傳統(tǒng)蒙古文和對(duì)應(yīng)的西里爾蒙古文單詞作為數(shù)據(jù)集。在做基于聯(lián)合序列模型的T2C和C2T轉(zhuǎn)換實(shí)驗(yàn)時(shí),選用60 000個(gè)詞對(duì)作為訓(xùn)練集,以5 232個(gè)詞對(duì)作為測(cè)試集。
訓(xùn)練T2C和C2T轉(zhuǎn)換的聯(lián)合序列模型時(shí),持有集的大小為訓(xùn)練集的5%,平滑算法采用Kneser-Ney平滑算法。由于在聯(lián)合序列模型中tracyone的長(zhǎng)度上限L和M-gram的階數(shù)M的大小會(huì)直接影響模型的復(fù)雜度和實(shí)驗(yàn)的結(jié)果。因此,在做T2C和C2T轉(zhuǎn)換實(shí)驗(yàn)時(shí),本文通過(guò)一系列對(duì)比實(shí)驗(yàn)獲得了最優(yōu)參數(shù)。
圖3和圖4所示的是在不同的tracyone長(zhǎng)度上限L和M-gram的階數(shù)M的情況下,T2C和C2T轉(zhuǎn)換的字母誤識(shí)率結(jié)果圖。從圖3和圖4中可以看出當(dāng)M=1時(shí),L=4的T2C和C2T轉(zhuǎn)換效果最好,L=1的效果最差,但是當(dāng)M大于4時(shí),L=1的T2C和C2T轉(zhuǎn)換結(jié)果都明顯要好于其他情況,并且隨著M的增加會(huì)越發(fā)明顯。
圖3 在測(cè)試集上L和M不同值時(shí)T2C轉(zhuǎn)換結(jié)果比較圖
圖4 在測(cè)試集上L和M不同值時(shí)C2T轉(zhuǎn)換結(jié)果比較圖
當(dāng)L=1時(shí),在測(cè)試集和訓(xùn)練集上對(duì)M做了進(jìn)一步的T2C和C2T實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2和表3所示。從表2和表3中可以看出M=8時(shí)T2C和C2T結(jié)果都為最優(yōu)。當(dāng)T2C轉(zhuǎn)換時(shí),測(cè)試集上的詞誤識(shí)率達(dá)到了18.38%,字母誤識(shí)率達(dá)到了6.75%,訓(xùn)練集上的詞誤識(shí)率達(dá)到了3.24%,字母誤識(shí)率達(dá)到了0.64%。當(dāng)C2T轉(zhuǎn)換時(shí),測(cè)試集上的詞誤識(shí)率達(dá)到了18.77%,字母誤識(shí)率達(dá)到了7.14%,訓(xùn)練集上的詞誤識(shí)率達(dá)到了3.24%,字母誤識(shí)率達(dá)到了0.94%。實(shí)驗(yàn)中,T2C和C2T轉(zhuǎn)換都得到了較好的實(shí)驗(yàn)效果。
表2 在L=1時(shí)不同M值的T2C轉(zhuǎn)換結(jié)果
表3 在L=1時(shí)不同M值的C2T轉(zhuǎn)換結(jié)果
4.2 實(shí)驗(yàn)2:基于規(guī)則的C2T轉(zhuǎn)換方法和基于聯(lián)合序列模型的C2T轉(zhuǎn)換方法比較
本文對(duì)基于規(guī)則的C2T轉(zhuǎn)換方法和基于聯(lián)合序列模型的C2T轉(zhuǎn)換方法進(jìn)行了比較。基于規(guī)則的方法采用了蒙古文詞干綴接構(gòu)形后綴的轉(zhuǎn)換方法[1,3]。本文采用的基于規(guī)則的轉(zhuǎn)換方法中西里爾蒙古文和傳統(tǒng)蒙古文的對(duì)應(yīng)詞干庫(kù)包含52 830個(gè)蒙古文詞干,西里爾蒙古文和傳統(tǒng)蒙古文的對(duì)應(yīng)靜詞后綴庫(kù)包含336個(gè)構(gòu)形后綴,西里爾蒙古文和傳統(tǒng)蒙古文的對(duì)應(yīng)動(dòng)詞后綴庫(kù)包含498個(gè)構(gòu)形后綴。本文結(jié)合傳統(tǒng)蒙古文和西里爾蒙古文的構(gòu)詞規(guī)則,并利用詞干庫(kù)和后綴庫(kù)建立了基于規(guī)則的轉(zhuǎn)換系統(tǒng)。實(shí)驗(yàn)中,基于聯(lián)合序列模型的C2T轉(zhuǎn)換方法采用了 L=1,M=8時(shí)的聯(lián)合序列模型進(jìn)行了C2T轉(zhuǎn)換。本文對(duì)包含11 365個(gè)西里爾蒙古文單詞的文檔集(TestSet1)和包含9 932個(gè)西里爾蒙古文單詞的文檔集(TestSet2)進(jìn)行了C2T轉(zhuǎn)換實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖5所示。
從圖5可以看出基于聯(lián)合序列模型的C2T轉(zhuǎn)換結(jié)果明顯好于基于規(guī)則的C2T轉(zhuǎn)換結(jié)果。并且,通過(guò)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析,發(fā)現(xiàn)基于規(guī)則的C2T轉(zhuǎn)換方法存在對(duì)于詞干不包含在詞干庫(kù)中的西里爾蒙古文單詞無(wú)法進(jìn)行轉(zhuǎn)換,而且部分蒙古文單詞不遵守轉(zhuǎn)換規(guī)則等問(wèn)題。然而,基于聯(lián)合序列模型的轉(zhuǎn)換方法較好地解決了這些問(wèn)題。
圖5 基于規(guī)則和基于聯(lián)合序列模型的C2T轉(zhuǎn)換結(jié)果比較
本文首先對(duì)傳統(tǒng)蒙古文和西里爾蒙古文進(jìn)行了比較,然后根據(jù)它們的特點(diǎn)提出了基于聯(lián)合序列模型的傳統(tǒng)蒙古文和西里爾蒙古文的相互轉(zhuǎn)換方法,并建立了對(duì)應(yīng)的相互轉(zhuǎn)換系統(tǒng)。為了獲得聯(lián)合序列模型相關(guān)參數(shù)的最優(yōu)值,做了一系列實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,持有集為訓(xùn)練數(shù)據(jù)的5%,tracyone的長(zhǎng)度上限 L=1,M-gram的階數(shù)M=8時(shí),T2C和C2T轉(zhuǎn)換的誤識(shí)率都為最低。本文提出的基于聯(lián)合序列模型的相互轉(zhuǎn)換方法很好地解決了傳統(tǒng)蒙古文和西里爾蒙古文的相互轉(zhuǎn)換問(wèn)題,并且基本達(dá)到了實(shí)用要求。
[1]包薩日娜.傳統(tǒng)蒙古文到新蒙文轉(zhuǎn)換中名詞及其格附加成分轉(zhuǎn)換的研究[D].呼和浩特:內(nèi)蒙古大學(xué),2009.
[2]烏日力嘎.傳統(tǒng)蒙古文、西里爾蒙古文-漢文電子詞典的建立[D].呼和浩特:內(nèi)蒙古大學(xué),2009.
[3]Li Hao,Sarina B.The study of comparison and conversion about traditional Mongolian and Cyrillic Mongolian[C]// 2011 4th InternationalConference on IntelligentNetworks and Intelligent Systems,2011:199-202.
[4]高紅霞,馬小蕾.西里爾蒙古文網(wǎng)頁(yè)向傳統(tǒng)蒙古文自動(dòng)轉(zhuǎn)換系統(tǒng)的文字轉(zhuǎn)換研究[J].內(nèi)蒙古民族大學(xué)學(xué)報(bào),2012,18(5):17-18.
[5]明玉.基于詞典、規(guī)則與統(tǒng)計(jì)的蒙古文詞切分系統(tǒng)的研究[D].呼和浩特:內(nèi)蒙古大學(xué),2011.
[6]Zhao Lili,Men Jia,Zhang Congpin,et al.A combination of statistical and rule-based approach for Mongolian lexical analysis[C]//2010 International Conference on Asian Language Processing,Harbin,2010:7-10.
[7]Bisani M,Ney H.Joint sequence models for grapheme-tophoneme conversion[J].Speech Communication,2008,50(5):434-451.
[8]Wang D.Out-of-vocabulary spoken term detection[D].[S.l.]:University of Edinburgh,2010:85-110.
[9]確精扎布.蒙古文編碼[M].呼和浩特:內(nèi)蒙古大學(xué)出版社,2000.
[10]嘎拉桑朋斯格.基立爾蒙古文學(xué)習(xí)讀本[M].呼和浩特:內(nèi)蒙古教育出版社,2006.
[11]清格爾泰.蒙古語(yǔ)語(yǔ)法[M].呼和浩特:內(nèi)蒙古人民出版社,1992.
[12]圖門吉日嘎拉.現(xiàn)代蒙古語(yǔ)[M].呼和浩特:內(nèi)蒙古大學(xué)出版社,2009.
[13]舍·卻瑪.蒙古文、基里爾文正字法比較研究[M].呼和浩特:內(nèi)蒙古教育出版社,2010.
[14]Bisani M,Ney H.Multigram-based grapheme-to-phoneme conversion for LVCSR[C]//Proc Eurospeech’03,Geneva,2003:933-936.
[15]張志忠.新蒙漢詞典[M].北京:商務(wù)印書館,2011.
BAO Feilong,GAO Guanglai,YAN Xueliang,WEI Hongxi
College of Computer Science,Inner Mongolia University,Hohhot 010021,China
Traditional Mongolian and Cyrillic Mongolian are both Mongolian languages and are widely used in China and Mongolia respectively.With almost the same pronunciations,their written forms are totally different.According to the characteristic of the two languages,this paper proposes a joint sequence model based approach and depicts in detail the corresponding experiments performed.In the experiments,the word error rate and letter error rate for the traditional Mongolian to Cyrillic Mongolian conversion system are 18.38%and 6.75%,and that for Cyrillic Mongolian and traditional Mongolian conversion system are 18.77%and 7.14%.Experimental results show that the proposed approach can meet the basic requirements for practical use.
traditional Mongolian;Cyrillic Mongolian;joint sequence models;joint multigram
傳統(tǒng)蒙古文和西里爾蒙古文分別是在中國(guó)和蒙古國(guó)使用的蒙古文,它們的口語(yǔ)基本相同,但是書寫形式完全不同。結(jié)合傳統(tǒng)蒙古文和西里爾蒙古文的構(gòu)詞特點(diǎn),提出了基于聯(lián)合序列模型的傳統(tǒng)蒙古文和西里爾蒙古文相互轉(zhuǎn)換方法,并做了大量的相互轉(zhuǎn)換實(shí)驗(yàn)。實(shí)驗(yàn)中,傳統(tǒng)蒙古文到西里爾蒙古文轉(zhuǎn)換系統(tǒng)的詞誤識(shí)率和字母誤識(shí)率分別達(dá)到了18.38%和6.75%,西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換系統(tǒng)的詞誤識(shí)率字母誤識(shí)率分別達(dá)到了18.77%和7.14%,基本達(dá)到了實(shí)用要求。
傳統(tǒng)蒙古文;西里爾蒙古文;聯(lián)合序列模型;聯(lián)合多元
A
TP391.1
10.3778/j.issn.1002-8331.1301-0314
BAO Feilong,GAO Guanglai,YAN Xueliang,et al.Research on conversion approach between traditional Mongolian and Cyrillic Mongolian.Computer Engineering and Applications,2014,50(23):206-211.
國(guó)家自然科學(xué)基金(No.61263037,No.71163029);內(nèi)蒙古自然科學(xué)基金(No.2014BS0604);內(nèi)蒙古大學(xué)高層次人才引進(jìn)科研項(xiàng)目資助。
飛龍(1985—),男,博士,講師,主研方向?yàn)槊晒盼男畔⑻幚怼⒄Z(yǔ)音識(shí)別與語(yǔ)音檢索;高光來(lái)(1964—),男,教授,博士生導(dǎo)師,主研方向?yàn)槊晒盼男畔⑻幚怼⒛J阶R(shí)別與人工智能;閆學(xué)亮(1984—),男,碩士生,主研方向?yàn)槊晒盼男畔⑻幚?、信息檢索;魏宏喜(1981—),男,博士,副教授,主研方向?yàn)槊晒盼男畔⑻幚?、文字識(shí)別。E-mail:csfeilong@imu.edu.cn
2013-01-28
2013-06-24
1002-8331(2014)23-0206-06
CNKI網(wǎng)絡(luò)優(yōu)先出版:2013-08-22,http://www.cnki.net/kcms/detail/11.2127.TP.20130822.1408.002.html