亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

蒙古文文本自動校對研究綜述包

2017-04-18 13:20:52烏格德勒李娟

電腦知識與技術(shù) 2016年35期

關(guān)鍵詞：蒙古文

烏格德勒李娟

摘要：本文首先介紹了蒙古文文本錯誤產(chǎn)生的原因和類型以及蒙古文正字法規(guī)則，重點介紹了3種蒙古文文本自動校對方法：包括基于詞典與規(guī)則校對方法、基于有限狀態(tài)自動機的校對方法、基于統(tǒng)計模型的校對方法等，最后探討了蒙古文文本校對需要解決的問題和未來的發(fā)展方向。

關(guān)鍵詞：蒙古文；自動校對；有限狀態(tài)自動機；統(tǒng)計模型

中圖分類號：TP311 文獻標(biāo)識碼：A 文章編號：1009-3044（2016）35-0227-03

Survey of Mongolian Text Automatic Proofreading

BAO Wugedele1，2， LI Juan2

（1. Minzu University of China， Beijing 100081， China； 2. Hohhot Minzu College， Hohhot 010051， China）

Abstract： The causes and types of Mongolian text errors， and Mongolian orthography are first presented. Then， three kinds of Mongolian text automatic proofreading methods adopted are focused， including based on dictionary and rules， based on finite state automaton， and based on statistical model method. Finally， the problems need to be solved and the future developing directions of Mongolian text automatic proofreading are discussed.

Key words： Mongolian； automatic proofreading； finite state automaton（FSA）； statistical model

隨著蒙古文信息處理和互聯(lián)網(wǎng)技術(shù)的發(fā)展，蒙古文語料庫的規(guī)模也不斷壯大。在對蒙古文進行詞法分析、句法分析、語義分析時都需要高質(zhì)量的標(biāo)注語料庫。由于蒙古文自身的語法特點，存在著大量的形同音不同的詞和音同形不同的詞，這就要求錄入人員具有較高的蒙古語語法知識才能準(zhǔn)確地錄入蒙古文文本。但是，目前很多人還不能完全掌握這些語法知識，錄入的蒙古文文本中存在大量的錯誤，需要經(jīng)過校對以后才能作為進一步研究的原始語料。

自動校對指的是程序按照一定的算法自動檢查文本中的錯誤并對錯誤進行糾錯或提供糾錯建議[1]。

1 蒙古文文本錯誤產(chǎn)生的原因和類型

1.1 編碼轉(zhuǎn)換產(chǎn)生的錯誤

由于蒙古文標(biāo)準(zhǔn)化工作的滯后，在蒙古文Unicode國際標(biāo)準(zhǔn)編碼發(fā)布以前已經(jīng)在市場上出現(xiàn)了多種蒙古文編碼，這些編碼統(tǒng)稱為非國際標(biāo)準(zhǔn)編碼，其中常用的編碼包括：蒙科立編碼、賽音編碼、明安圖編碼、方正編碼等。蒙科立、明安圖和方正編碼屬于音形編碼，賽音編碼屬于完全的形碼，而Unicode國際標(biāo)準(zhǔn)編碼則屬于完全的音碼。還有一個常用的蒙古文編碼是拉丁編碼，是由拉丁字母轉(zhuǎn)寫的編碼，屬于音碼，它基本上能與Unicode國際標(biāo)準(zhǔn)編碼一一對應(yīng)，所以現(xiàn)在常用的蒙古文語料庫都采用拉丁編碼表示。

非國際標(biāo)準(zhǔn)編碼存儲的蒙古文轉(zhuǎn)換為Unicode國際標(biāo)準(zhǔn)編碼時，就會出現(xiàn)轉(zhuǎn)換錯誤，因為這些編碼并不是與Unicode國際標(biāo)準(zhǔn)編碼一一對應(yīng)，做不到完全正確的編碼轉(zhuǎn)換，所以轉(zhuǎn)換成Unicode國際標(biāo)準(zhǔn)編碼以后還需要校對。

1.2 鍵盤錄入產(chǎn)生的錯誤

目前，常見的文字錄入技術(shù)和方法主要有鍵盤錄入、語音識別、文字識別和手寫識別[2]。對于英文和中文以上四種方式錄入的文本的正確率都很高，已達(dá)到應(yīng)用要求，而對于蒙古文后三種識別技術(shù)還不能達(dá)到應(yīng)用要求，所以鍵盤錄入還是蒙古文的主要錄入方式。蒙古文的原始語料基本上都是從鍵盤錄入的。

現(xiàn)在人們常用的蒙古文輸入法有蒙科立輸入法、賽音輸入法、明安圖輸入法、方正輸入法和微軟輸入法（windows 7/8/10）等。除了微軟輸入法，其他輸入法雖然簡單易用，但是只能輸入非國際標(biāo)準(zhǔn)編碼的蒙古文，而微軟輸入法則可以輸入Unicode國際標(biāo)準(zhǔn)編碼蒙古文。微軟輸入法在輸入分寫詞綴、分寫元音、特殊字母變體時都需要使用不同的控制符，由于這些控制符的使用規(guī)則非常復(fù)雜，很多人濫用控制符而違反了蒙古文正字法規(guī)則，錄入的詞雖然在字形上完全正確，但是內(nèi)部編碼卻是錯誤的。所以由微軟輸入法錄入的Unicode國際標(biāo)準(zhǔn)編碼蒙古文文本還需要校對以后才能使用。

1.3 蒙古文文本錯誤類型

蒙古文文本錯誤的類型與英文相同，包含非詞錯誤、真詞錯誤和句法語義錯誤[1]，真詞錯誤和句法語義錯誤屬于上下文相關(guān)的錯誤。目前，蒙古文文本自動校對研究主要集中在非詞檢查和糾錯上，而蒙古文非詞錯誤又包括字形錯誤和讀音錯誤，分別稱為字形非詞和讀音非詞。其中讀音非詞是指字形正確但是讀音錯誤的單詞，由于蒙古文普遍存在著形同音不同的詞，所以讀音非詞錯誤也是非常普遍的。

蒙古文的讀音非詞錯誤是由于蒙古文的字母之間字形相同而錯誤錄入造成的，具體包括[3]：

1）元音字形相同

蒙古文有8個元音，其中的第1和第2、第4和第5、第6和第7三對元音在詞首、詞中和詞尾的形式都可以相同，第4、5、6、7元音的詞中形式也可以相同。

2）元音和輔音字形相同

蒙古文輔音N的詞中詞尾形式可以與第1、2元音的詞中詞尾形式相同，輔音W的詞中詞尾形式可以與第8元音的詞中詞尾形式相同。

3）輔音字形相同

蒙古文的H和G、T和D這兩對輔音在詞首、詞中和詞尾的形式都可以相同。

2 蒙古文正字法規(guī)則

蒙古文文本校對原則是蒙古文正字法規(guī)則。蒙古文正字法是正確書寫蒙古文的基本規(guī)則，是蒙古文語法的重要組成部分[4]，包括詞法規(guī)則和句法規(guī)則?，F(xiàn)在的蒙古文文本自動校對研究都是基于詞法規(guī)則的，沒有涉及句法規(guī)則。文本校對中常用的蒙古文詞法規(guī)則有：唇元音和諧規(guī)則、輔音和諧規(guī)則、元音陰陽和諧規(guī)則、名詞的格附加成分使用規(guī)則、名詞復(fù)數(shù)詞綴使用規(guī)則、領(lǐng)屬附加成分使用規(guī)則等。

3 蒙古文文本自動校對方法

目前的蒙古文文本自動校對方法可分為基于詞典和規(guī)則的方法、基于有限狀態(tài)自動機的方法、基于統(tǒng)計模型的方法等。其中基于有限狀態(tài)自動機的校對方法其實也屬于基于詞典和規(guī)則的校對方法，不同的是使用有限狀態(tài)自動機來組織和存儲詞典數(shù)據(jù)和規(guī)則。

3.1基于詞典與規(guī)則的方法

1997年，華沙寶等開發(fā)了MHAHP蒙古文文本校對系統(tǒng)，該系統(tǒng)以蒙古文文本文件為操作對象，對文本中的單詞按蒙古文正字法規(guī)則進行自動校對[5]。MHAHP系統(tǒng)使用的校對方法是一種基于蒙古文構(gòu)形附加成份的推理算法，該系統(tǒng)由詞根檢驗?zāi)K、動詞構(gòu)形附加成份檢驗?zāi)K和格附加成份檢驗?zāi)K等組成。

MHAHP系統(tǒng)把蒙古文文本中的錯誤分為以下4類：詞根錯誤、動詞構(gòu)形附加成份錯誤、格附加成份錯誤、元音字母之間的陰陽性搭配錯誤等。由于詞典規(guī)模的限制，MHAHP系統(tǒng)對動詞構(gòu)形附加成份錯誤和格附加成份的錯誤的校對才有效，而對另外兩類錯誤的校對是無效的。另外，由于人名、地名以及外來詞的書寫方法往往和蒙古文正字法規(guī)則沖突，所以MHAHP系統(tǒng)也不能對它們進行校對。

2014年，江布勒等按照《信息技術(shù)傳統(tǒng)蒙古文名義字符、變形顯現(xiàn)字符和控制字符使用規(guī)則（GB25914-2010）》標(biāo)準(zhǔn)，研究了基于規(guī)則的蒙古文文本校對方法[6]。該方法首先以人工校對的方式認(rèn)真統(tǒng)計人們的錯誤輸入方式，對其進行分類統(tǒng)計，研究找出常犯的錯誤及錯誤的規(guī)律，根據(jù)這些規(guī)律研究出規(guī)則校對文本的方法。

該方法不僅可以校對不符合蒙古文正字法規(guī)則的錯誤單詞，還能依據(jù)GB25914-2010標(biāo)準(zhǔn)校對錯誤使用的控制符，包括：3個蒙古文自由變體選擇符、窄寬度無間斷空格、元音間隔符、零寬連接符、零寬禁連接符等7個控制符。該方法在20種三百詞左右的語料上進行實驗，糾錯率達(dá)到了90.2%。

3.2基于有限狀態(tài)自動機的方法

2009年斯·勞格勞根據(jù)蒙古文特有的書寫習(xí)慣和編碼特點提出了一種基于有限狀態(tài)自動機的校對算法[7]。該算法采用了常用的基于詞典和規(guī)則的校對方法，但用有限狀態(tài)自動機組織詞典數(shù)據(jù)和規(guī)則后大大提高了算法的響應(yīng)速度。該方法使用有限狀態(tài)自動機建立了基于字形的蒙古文詞法分析器和基于讀音的蒙古文詞法分析器。

該方法在隨機抽取的10篇文章（每篇1萬詞）上進行實驗，平均每篇文章的讀音非詞占總詞數(shù)的38.85%，最后讀音糾錯算法的平均糾錯率為92.09%。但是該方法主要適用于非詞錯誤的自動檢查和糾錯（主要是讀音非詞錯誤），對真詞、句法和語義錯誤的校對不太適用，同時還不具備同形詞的自動識別功能。

2014年，廉冰也使用有限狀態(tài)自動機理論，提出了一種基于有限狀態(tài)自動機的蒙古文同形詞校對方法[8]。該方法，首先以《蒙古文正字法詞典》為依據(jù)，根據(jù)蒙古語單詞的語法特征以及詞的結(jié)構(gòu)，構(gòu)造詞法分析器。然后使用蒙古文Unicode國際標(biāo)準(zhǔn)編碼基本字符集、傳統(tǒng)蒙古文名義字符的變形顯現(xiàn)字符以及變形規(guī)則，建立同形字符規(guī)則庫。最后，根據(jù)同形字符規(guī)則庫，在詞法分析器上進行啟發(fā)式搜索，如果輸入單詞正確，則不做任何處理；如果輸入單詞錯誤，則用與其同形的單詞對其糾錯。

該方法使用有限狀態(tài)自動機分別建立了蒙古文靜詞自動機（包括詞干自動機和詞尾后綴自動機）、動詞自動機（包括詞干自動機和詞尾后綴自動機）、無變化詞自動機。其中靜詞包括名詞、形容詞、數(shù)詞、量詞、時位詞、代詞等詞類；無變化詞包括副詞、情態(tài)詞、后置詞、摹擬詞、語氣詞、連接詞等詞類。同形詞規(guī)則庫包含了27對同形規(guī)則，每條規(guī)則不僅給出了同形字符的輸入方式和編碼，還給出了變形顯現(xiàn)形式和同形條件。

該方法在3萬詞的語料庫上進行實驗，平均準(zhǔn)確率為91.5%，平均召回率為84.9%。雖然該方法具備了同形詞的校對功能，但是仍然不適用于真詞、句法和語義錯誤的校對。

3.3基于統(tǒng)計模型的方法

2007年，趙軍、敖其爾等人研究了基于音節(jié)統(tǒng)計的蒙古語校對方法，統(tǒng)計模型采用了一階隱馬爾科夫模型，語料來自3萬詞的電子詞典[9]。實驗結(jié)果顯示，該方法的查錯表現(xiàn)良好，對一些簡單錯誤的糾錯表現(xiàn)也很好，但是對一些復(fù)雜錯誤，校對結(jié)果不理想。

此后，趙軍等人又提出了基于音節(jié)的2-gram蒙古文校對模型[10]。該模型是一個加權(quán)有向圖，圖中的每一個節(jié)點保存蒙古文的音節(jié)信息，節(jié)點之間的連接線上的權(quán)值表示節(jié)點之間的關(guān)聯(lián)度。為了音節(jié)搜索的需要，在節(jié)點中加入了音節(jié)串、串長度、音節(jié)位置、最小詞素串和后繼指針等信息，采用了基于漢明距離的方法進行蒙古文音節(jié)相似性的度量。但是該方法沒有給出最后的糾錯率。

2010年，郝莉，敖登巴拉等人對蒙古文輸入過程中出現(xiàn)的拼寫錯誤進行了分析和歸類，給出了用貝葉斯算法校正蒙古文單詞拼寫錯誤的實現(xiàn)方法[3]。貝葉斯算法是利用概率找出拼寫錯誤單詞的最可能的正確單詞：在詞匯V的所有單詞中選擇那些最可能給出已有的觀察的單詞，即選擇使得P（單詞|觀察）為最大的那個單詞。

該方法的測試語料來自內(nèi)蒙古日報社2008年下半年的蒙古文新聞?wù)Z料，共包含245460個單詞，其中錯誤的單詞1351個，訓(xùn)練語料是來自蒙古文正字法詞典，包含34316個單詞，兩種語料均按蒙古文Unicode國際標(biāo)準(zhǔn)編碼文本格式存儲。最后該方法校對正確1204個單詞，糾錯率達(dá)到了89.2%。該方法較好地實現(xiàn)了上下文無關(guān)的蒙古文單詞由于讀音混淆造成的拼寫錯誤（讀音非詞）的校對功能。

2013年，蘇傳捷、侯宏旭等人提出了一種基于統(tǒng)計翻譯框架的傳統(tǒng)蒙古文自動拼寫校對方法，將拼寫校對工作看成從錯誤詞到正確詞的翻譯[11]。該方法首先利用人工校對前后的對應(yīng)文本，根據(jù)傳統(tǒng)蒙古文中拼寫錯誤的原因與特點，選擇基于短語的統(tǒng)計機器翻譯模型作為框架來構(gòu)建拼寫校對模型，然后應(yīng)用該校對模型對測試文本進行拼寫校對。

該方法使用Moses開源工具包中的短語機器翻譯模型訓(xùn)練工具和SRILM 開源工具包訓(xùn)練拼寫校對模型，在訓(xùn)練中沿用機器翻譯的經(jīng)典特征集，包括正反向翻譯概率、正反向詞匯化權(quán)重、語言模型概率等。該方法的優(yōu)點在于不依賴于語法知識，很容易移植到其他語言上或者與其他方法結(jié)合使用。

該方法在包含1026個正確詞、1102個錯誤詞的測試集上進行了測試，糾錯率達(dá)到了97.55%。

4 存在的問題和研究趨勢

總結(jié)目前的蒙古文文本自動校對研究，還有以下兩個問題需要解決：

1）從實驗結(jié)果看測試語料規(guī)模都比較小，一般在幾萬詞左右，提出的校對方法能否適用于大規(guī)模語料還不得而知。

2）目前的校對方法只能校對上下文無關(guān)的非詞錯誤，而不能校對上下文相關(guān)的真詞錯誤和句法語義錯誤。

今后的研究趨勢：

1）通過詞語的固定搭配、N元模型等方法，研究上下文相關(guān)的真詞錯誤和句法語義錯誤；

2）進一步擴大詞典和規(guī)則庫，提高糾錯率；

3）通過擴充語料庫的規(guī)模，驗證校對方法的通用性和有效性。

參考文獻：

[1] 斯·勞格勞.基于不確定有限自動機的蒙古文校對算法[J].中文信息學(xué)報，2009，23（6）：110-115.

[2] 張仰森，俞士汶.文本自動校對技術(shù)研究綜述[J].計算機應(yīng)用研究，2006（6）：8-12.

[3] 郝莉，敖登巴拉，鞏政，等.基于貝葉斯算法的蒙古文文本自動校對研究[J].內(nèi)蒙古大學(xué)學(xué)報：自然科學(xué)版，2010，41（4）：440-442.

[4] 清格爾泰.蒙古語語法[M].呼和浩特.內(nèi)蒙古人民出版社.1991.

[5] 華沙寶.現(xiàn)代蒙古文自動校對系統(tǒng)—MHAHP[J].內(nèi)蒙古大學(xué)學(xué)報：人文社會科學(xué)版，1997（4）：49-53.

[6] 江布勒.基于規(guī)則的蒙古文自動校對方法研究[D].呼和浩特：內(nèi)蒙古大學(xué)， 2014.

[7] 斯·勞格勞.基于不確定有限自動機的蒙古文校對算法[J].中文信息學(xué)報，2009，23（6）：110-115.

[8] 廉冰.基于有限狀態(tài)自動機的蒙古文同形詞校對方法的研究[D].呼和浩特：內(nèi)蒙古大學(xué)，2014.

[9] 趙軍，敖其爾，吉仁尼格，等.基于統(tǒng)計語言模型蒙古文詞匯分析校正器的設(shè)計與實現(xiàn)[C]//第十一屆全國民族語言文字信息學(xué)術(shù)研討會，2007：158-163.

[10] 趙軍.基于音節(jié)統(tǒng)計語言模型蒙古文詞匯分析校正器的設(shè)計與實現(xiàn)[D].呼和浩特：內(nèi)蒙古大學(xué)，2007.

[11] 蘇傳捷，侯宏旭，楊萍，等.基于統(tǒng)計翻譯框架的蒙古文自動拼寫校對方法[J].中文信息學(xué)報，2013，27（6）：175-179.