亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于大規(guī)模網(wǎng)絡(luò)語料的藏文音節(jié)拼寫錯(cuò)誤統(tǒng)計(jì)與分析

2017-06-01 11:29:47劉匯丹洪錦玲諾明花

中文信息學(xué)報(bào) 2017年2期

關(guān)鍵詞：規(guī)則文本

劉匯丹，洪錦玲，諾明花，吳健

(中國(guó)科學(xué)院軟件研究所，北京100190)

基于大規(guī)模網(wǎng)絡(luò)語料的藏文音節(jié)拼寫錯(cuò)誤統(tǒng)計(jì)與分析

劉匯丹，洪錦玲，諾明花，吳健

(中國(guó)科學(xué)院軟件研究所，北京100190)

針對(duì)從互聯(lián)網(wǎng)獲取的一份包含19萬藏文網(wǎng)頁(yè)，總計(jì)427萬句、9 328萬音節(jié)字的藏文文本語料，該文按照預(yù)定的規(guī)則對(duì)其中的藏文音節(jié)拼寫錯(cuò)誤情況進(jìn)行了統(tǒng)計(jì)與分析。數(shù)據(jù)顯示，在語料中出現(xiàn)的共計(jì)20 743個(gè)藏文音節(jié)中，含有拼寫錯(cuò)誤的音節(jié)共有9 700個(gè)，占藏文音節(jié)總數(shù)的46.762 8%，錯(cuò)誤音節(jié)在語料中共出現(xiàn)27 427次，僅占0.030 8%，說明這份語料的文本質(zhì)量是相當(dāng)高的。文中還詳細(xì)統(tǒng)計(jì)了各種不同表現(xiàn)形式的錯(cuò)誤音節(jié)所占比重，并分析了導(dǎo)致拼寫錯(cuò)誤的四個(gè)主要原因：一是輸入了多余的元音符號(hào)；二是音節(jié)點(diǎn)或句尾空格缺失；三是同一字丁/字符存在多種表達(dá)形式；四是錯(cuò)誤地使用了相似字符。

藏文拼寫檢查;拼寫檢查;語料;統(tǒng)計(jì);藏文信息處理;中文信息處理

1 引言

文本校對(duì)是自然語言處理的主要應(yīng)用領(lǐng)域之一，近些年來，已有學(xué)者在藏文文本校對(duì)或拼寫檢查方面做了一些研究，這些研究大多針對(duì)實(shí)現(xiàn)藏文文本校對(duì)工具，以及為實(shí)現(xiàn)校對(duì)工具而構(gòu)建的藏文音節(jié)規(guī)則相關(guān)知識(shí)庫(kù)等方面。針對(duì)真實(shí)文本語料庫(kù)的藏文拼寫錯(cuò)誤情況的統(tǒng)計(jì)分析工作鮮有報(bào)道。本文將通過對(duì)大規(guī)模網(wǎng)絡(luò)藏文文本語料庫(kù)中拼寫錯(cuò)誤情況進(jìn)行統(tǒng)計(jì)分析，一方面考察真實(shí)文本中藏文拼寫錯(cuò)誤的嚴(yán)重程度，為藏文文本校對(duì)的研究提供依據(jù)；另一方面考察網(wǎng)絡(luò)語料的質(zhì)量，判斷將網(wǎng)絡(luò)藏文文本作為構(gòu)建高質(zhì)量藏文文本語料庫(kù)的可靠性。

本文接下來的部分首先介紹相關(guān)領(lǐng)域研究現(xiàn)狀，其次介紹大規(guī)模網(wǎng)絡(luò)藏文文本獲取的方法及利用這種方法獲取的語料情況，然后對(duì)這份語料中藏文音節(jié)的拼寫錯(cuò)誤情況進(jìn)行統(tǒng)計(jì)與分析，最后對(duì)全文進(jìn)行總結(jié)。

2 研究現(xiàn)狀

有關(guān)藏文文本校對(duì)方面的研究可追溯到20世紀(jì)。1998年，扎西次仁歸納總結(jié)了藏文的拼寫規(guī)則和虛詞使用法則，根據(jù)藏文的拼寫規(guī)則、虛詞使用法則、音節(jié)庫(kù)和詞表，設(shè)計(jì)并開發(fā)了一個(gè)藏文拼寫檢查系統(tǒng)，并分析了由實(shí)詞虛詞兼類、詞語組合型切分歧義等導(dǎo)致的難點(diǎn)問題[1]。之后，王維蘭等將藏文自動(dòng)校對(duì)應(yīng)用于藏文文字識(shí)別，對(duì)單字進(jìn)行校正[2]。才讓卓瑪提出了利用詞語搭配關(guān)系表、語法規(guī)則庫(kù)進(jìn)行校對(duì)的方法[3]，并對(duì)藏文語序錯(cuò)誤、標(biāo)點(diǎn)使用錯(cuò)誤、詞語搭配錯(cuò)誤等情況進(jìn)行了舉例分析[4]。劉文香也對(duì)藏語音節(jié)的搭配規(guī)則等做了研究，創(chuàng)建了音節(jié)搭配規(guī)則知識(shí)庫(kù)，探索了音節(jié)查錯(cuò)校對(duì)的原理、關(guān)鍵技術(shù)及可行的實(shí)現(xiàn)方法[5]。隨后提出了一種將分詞詞表模式匹配、二元詞詞鄰接矩陣和詞間音勢(shì)約束模型三種方法相結(jié)合的藏文詞校對(duì)模型[6]，并在Windows 8操作系統(tǒng)平臺(tái)上實(shí)現(xiàn)了基于音節(jié)的現(xiàn)代藏文文本校對(duì)的試驗(yàn)系統(tǒng)[7]。多杰卓瑪對(duì)藏文文本中的錯(cuò)誤情況進(jìn)行了分析，將藏文文本的錯(cuò)誤形式歸納為音節(jié)錯(cuò)誤、缺字和加字的錯(cuò)誤、輸入錯(cuò)誤、人名錯(cuò)誤、地名錯(cuò)誤、江河名錯(cuò)誤、知識(shí)性錯(cuò)誤等類別，并提出了利用以字丁為單位的N元文法模型判斷藏文音節(jié)是否錯(cuò)誤的方法[8]。關(guān)白回顧了現(xiàn)代藏文自動(dòng)校對(duì)的研究現(xiàn)狀[9]，分析了藏文音節(jié)字中的錯(cuò)誤類型，并針對(duì)藏文音節(jié)字的特點(diǎn)，通過音節(jié)字預(yù)處理、字表匹配、混淆集匹配、二元接續(xù)關(guān)系、最小編輯距離法等方法對(duì)現(xiàn)代藏文音節(jié)字的自動(dòng)校對(duì)進(jìn)行了詳細(xì)論述[10-11]。安見才讓提出了一種根據(jù)構(gòu)字規(guī)則進(jìn)行藏字校對(duì)的方法，實(shí)驗(yàn)表明，在一段約130個(gè)字符的文本中，系統(tǒng)成功檢測(cè)出了其中的六處錯(cuò)誤[12]。珠杰等人構(gòu)建了現(xiàn)代藏文音節(jié)規(guī)則庫(kù)，并分析了其在拼寫檢查等方面的應(yīng)用[13]，在對(duì)實(shí)際文本的測(cè)試中發(fā)現(xiàn)該模型還需要增加對(duì)藏文數(shù)字、符號(hào)、特殊音節(jié)、梵音轉(zhuǎn)寫音節(jié)的特殊處理。洪錦玲等人綜合藏文分詞、音節(jié)拼寫、格助詞規(guī)則等多種藏文特性，提出了一種藏文詞語拼寫檢查的方法，并提出了根據(jù)錯(cuò)誤詞語與詞庫(kù)詞語的編輯距離給出糾錯(cuò)建議的方法，并將該方法在開源辦公套件LibreOffice 中進(jìn)行了實(shí)現(xiàn)[14]。陳小瑩等人設(shè)計(jì)實(shí)現(xiàn)了一個(gè)包括藏文文本規(guī)范化處理模塊、音節(jié)切分模塊、黏著語的分離與還原模塊和音節(jié)校對(duì)模塊四個(gè)模塊的藏文音節(jié)拼寫自動(dòng)校對(duì)系統(tǒng)[15]。

上述研究大多針對(duì)實(shí)現(xiàn)藏文文本校對(duì)工具及藏文音節(jié)規(guī)則等相關(guān)知識(shí)庫(kù)的構(gòu)建方面，只有多杰卓瑪、關(guān)白等對(duì)藏文拼寫錯(cuò)誤情況進(jìn)行了歸納，但也僅限于對(duì)個(gè)別情況的舉例說明。針對(duì)真實(shí)文本語料庫(kù)的藏文拼寫錯(cuò)誤情況的統(tǒng)計(jì)分析工作還未見有報(bào)道。本文將通過對(duì)大規(guī)模網(wǎng)絡(luò)藏文文本語料庫(kù)中拼寫錯(cuò)誤情況進(jìn)行統(tǒng)計(jì)分析，一方面考察真實(shí)文本中藏文拼寫錯(cuò)誤的嚴(yán)重程度，為藏文文本校對(duì)的研究提供依據(jù)；另一方面考察網(wǎng)絡(luò)語料的質(zhì)量，確定將網(wǎng)絡(luò)藏文文本作為構(gòu)建高質(zhì)量藏文文本語料庫(kù)的可靠性。

3 語料獲取與處理

本節(jié)介紹大規(guī)模藏文網(wǎng)絡(luò)文本的獲取、音節(jié)切分方法和音節(jié)拼寫錯(cuò)誤的判別依據(jù)等方面的內(nèi)容。

3.1 語料來源

根據(jù)我們之前對(duì)互聯(lián)網(wǎng)藏文文本資源分布情況的考察，我們選擇了八個(gè)新聞廣播類的藏文網(wǎng)站作為文本語料的來源，這八個(gè)網(wǎng)站的基本信息如表 1所示。八個(gè)網(wǎng)站中，中國(guó)西藏新聞網(wǎng)和新華網(wǎng)西藏頻道藏文版使用國(guó)家標(biāo)準(zhǔn)藏文編碼字符集擴(kuò)充集，人民網(wǎng)藏文版使用同元編碼，這三個(gè)網(wǎng)站的藏文文本需要做編碼轉(zhuǎn)換。其它五個(gè)網(wǎng)站均使用國(guó)際標(biāo)準(zhǔn)Unicode藏文基本集(小字符集)方案。在進(jìn)行后續(xù)處理之前，我們將獲取的語料統(tǒng)一轉(zhuǎn)換為國(guó)家標(biāo)準(zhǔn)藏文編碼字符集基本集形式(關(guān)于藏文編碼轉(zhuǎn)換技術(shù)請(qǐng)參考文獻(xiàn)[16-17])。編碼轉(zhuǎn)換過程使用了與“藏碼通”相同的編碼對(duì)照表和轉(zhuǎn)換算法[17]?！安卮a通”軟件在民族出版社、中國(guó)社科院民族所、西藏大學(xué)、西藏編譯局等單位使用近十年，并根據(jù)用戶反饋情況對(duì)編碼對(duì)照表進(jìn)行了反復(fù)修改，因此，轉(zhuǎn)換正確率是可以保證的。同時(shí)，我們對(duì)語料來源所屬的網(wǎng)站頻道進(jìn)行了限制，并通過網(wǎng)頁(yè)文種識(shí)別限定只取藏文網(wǎng)頁(yè)，并只抽取其中的標(biāo)題、正文等關(guān)鍵信息。以上可以最大限度地避免語料因編碼轉(zhuǎn)換導(dǎo)致的問題。

表1 八個(gè)新聞廣播類藏文網(wǎng)站的基本信息

續(xù)表

3.2 語料獲取方法

在本文中，我們采用基于正則表達(dá)式的方法從藏文網(wǎng)頁(yè)中抽取文章主題相關(guān)的信息。我們通過分析各個(gè)網(wǎng)站的頁(yè)面布局結(jié)構(gòu)來抽取網(wǎng)頁(yè)模板，根據(jù)之前相關(guān)的研究，分析藏文網(wǎng)頁(yè)的板式結(jié)構(gòu)，可以發(fā)現(xiàn)文章標(biāo)題、作者、發(fā)布時(shí)間、文章正文等信息塊與其他信息塊之間的分隔標(biāo)志，甚至可以利用HTML源文件中的一些注釋信息進(jìn)行抽取[18]?？梢該?jù)此構(gòu)造模板提取藏文篇章文本，舉例如下：

? 中國(guó)西藏新聞網(wǎng)的頁(yè)面模板為：

.*【文章正文】.*

? 中國(guó)西藏網(wǎng)的頁(yè)面模板為：

3.3 音節(jié)切分方法

對(duì)藏文文本進(jìn)行音節(jié)切分主要依據(jù)以下切分規(guī)則。

? 音節(jié)點(diǎn)作為音節(jié)分隔標(biāo)記，切分之后附著在左邊(前邊)音節(jié)的結(jié)尾；

? 藏文數(shù)字和阿拉伯?dāng)?shù)字視為音節(jié)分隔標(biāo)記，切分之后分別視同藏文音節(jié)參與數(shù)據(jù)統(tǒng)計(jì)；

? 藏文標(biāo)點(diǎn)符號(hào)、英文標(biāo)點(diǎn)符號(hào)和漢語標(biāo)點(diǎn)符號(hào)視為音節(jié)分隔標(biāo)記，切分之后分別視同藏文音節(jié)參與數(shù)據(jù)統(tǒng)計(jì)；

? 連續(xù)的英文字母視為音節(jié)分隔標(biāo)記，切分之后視同藏文音節(jié)參與數(shù)據(jù)統(tǒng)計(jì)；

? 連續(xù)的漢字視為音節(jié)分隔標(biāo)記，切分之后視同藏文音節(jié)參與數(shù)據(jù)統(tǒng)計(jì)。

根據(jù)以上規(guī)則對(duì)獲取到的網(wǎng)絡(luò)藏文文本進(jìn)行切分之后，可以統(tǒng)計(jì)各個(gè)藏文音節(jié)出現(xiàn)的頻次。在上述語料中，出現(xiàn)頻率最高的部分藏文音節(jié)如表2所示。

表2 網(wǎng)絡(luò)語料中的藏文高頻音節(jié)表

3.4 語料規(guī)模

使用上述方法獲取網(wǎng)絡(luò)藏文文本語料，并進(jìn)行音節(jié)切分，統(tǒng)計(jì)數(shù)據(jù)顯示，共計(jì)19萬藏文網(wǎng)頁(yè)，語料總計(jì)427萬句、9 328萬音節(jié)字(含藏文數(shù)字、漢字、英文字母、各種標(biāo)點(diǎn)符號(hào)等)。詳細(xì)的統(tǒng)計(jì)數(shù)字見表3。

表3 獲取的網(wǎng)絡(luò)藏文文本語料的規(guī)模

4 拼寫錯(cuò)誤的統(tǒng)計(jì)與分析

4.1 藏文音節(jié)拼寫錯(cuò)誤的判別依據(jù)

在藏文音節(jié)拼寫檢查的研究中，大家常用的方法是根據(jù)藏文文法中基字、前加字、上加字、下加字、元音、后加字和再后加字之間的約束關(guān)系構(gòu)造藏文音節(jié)規(guī)則庫(kù)來判斷音節(jié)的合法性，然而，由于梵音轉(zhuǎn)寫和外來詞音譯的存在，采用這種方法構(gòu)建的規(guī)則庫(kù)總是不能完全覆蓋真實(shí)文本中所有的情況。因此，在本文中，我們根據(jù)傳統(tǒng)藏文文法構(gòu)造一些規(guī)則來判別音節(jié)是否存在拼寫錯(cuò)誤，這些規(guī)則主要包括：

? 包含多個(gè)緊縮標(biāo)志的音節(jié)視為拼寫錯(cuò)誤；

? 緊縮標(biāo)志出現(xiàn)在第四字丁或更靠后位置的音節(jié)視為拼寫錯(cuò)誤；

? 包含五個(gè)或更多字丁的音節(jié)視為拼寫錯(cuò)誤；

? 包含在國(guó)家標(biāo)準(zhǔn)藏文基本集、擴(kuò)充集A和擴(kuò)充集B以外字丁的音節(jié)視為拼寫錯(cuò)誤。

? 前加字、上加字、基字、下加字、后加字和再后加字之間搭配不符合藏文文法約束關(guān)系的視為拼寫錯(cuò)誤；

為確保上述規(guī)則包容梵音轉(zhuǎn)寫和外來詞音譯形成的音節(jié)，達(dá)到對(duì)真實(shí)語料形成完全覆蓋的目的，我們的檢測(cè)規(guī)則中充分考慮了梵音轉(zhuǎn)寫和外來詞音譯的情況。由于約束關(guān)系檢測(cè)方法不能保證百分之百的正確率，我們對(duì)被該規(guī)則判斷為存在拼寫錯(cuò)誤的情況進(jìn)行了人工確認(rèn)。

4.2 對(duì)拼寫錯(cuò)誤的統(tǒng)計(jì)與分析

本文所用語料中，共有20 743個(gè)藏文音節(jié)，總出現(xiàn)頻次89 059 463次，占語料總量的95.475 2%。藏文數(shù)字共出現(xiàn)130 808次，占語料總量的0.140 2%，兩項(xiàng)合計(jì)占比95.615 4%，語料中另外4.384 6%是其他文種的字符串，其各自出現(xiàn)頻次和比例如表4所示。

表4 語料中各種不同成分的頻次和比例

續(xù)表

根據(jù)前述規(guī)則，對(duì)語料中出現(xiàn)的所有藏文音節(jié)進(jìn)行拼寫檢查，獲得的統(tǒng)計(jì)數(shù)據(jù)如表5所示。可以看出，在這些包含拼寫錯(cuò)誤的音節(jié)中，大部分具有兩個(gè)或者兩個(gè)以上的表現(xiàn)形式，這主要是由于拼寫錯(cuò)誤判別規(guī)則之間并不是嚴(yán)格互斥的。從表5中可以看出，在本文所用語料中，緊縮標(biāo)志位置錯(cuò)誤也同時(shí)意味著緊縮標(biāo)志太多和元音太多，而緊縮標(biāo)志太多，大部分情況下也意味著元音太多。在表5的前十行顯示，很多實(shí)際上正確的音節(jié)，被各種規(guī)則判斷為存在拼寫錯(cuò)誤，最終是靠人工判斷為正確的，這說明傳統(tǒng)藏文文法并沒有覆蓋實(shí)際文本中所有的情況。

表5 藏文音節(jié)拼寫錯(cuò)誤情況總表

續(xù)表

表6列出了各種不同類型的拼寫錯(cuò)誤音節(jié)的數(shù)量及其在語料中的比例。在所有的藏文音節(jié)中，拼寫正確的藏文音節(jié)共有11 043個(gè)，占53.237 2%，共出現(xiàn)89 032 036次，占99.969 2%。其中，含有前述四個(gè)緊縮標(biāo)志的音節(jié)共有1 421個(gè)，占6.850 5%，出現(xiàn)總次數(shù)為4 356 795，占4.892 0%。含有拼寫錯(cuò)誤的藏文音節(jié)共有9 700個(gè)，占46.762 8%，在語料中共出現(xiàn)27 427次，占0.030 8%。錯(cuò)誤形式最多的是約束關(guān)系類錯(cuò)誤，共有9 365個(gè)音節(jié)，占比45.147 8%，在語料中出現(xiàn)頻次累計(jì)23 726次，占比0.026 6%。其次是元音太多類錯(cuò)誤，共有5 014個(gè)音節(jié)，占比24.172 0%，在語料中出現(xiàn)頻次累計(jì)11 830次，占比0.013 3%。再次是字丁太多類錯(cuò)誤，共有2 565個(gè)音節(jié)，占比12.365 6%，在語料中出現(xiàn)頻次累計(jì)4 451次，占比0.005 0%。包含非法字丁的音節(jié)共有1 359個(gè)，占比6.551 6%，在語料中共出現(xiàn)7 418次，占比0.008 3%。緊縮標(biāo)志太多的音節(jié)共有21個(gè)，占比0.101 2%，出現(xiàn)頻次為57，占比0.000 1%。緊縮標(biāo)志位置錯(cuò)誤的音節(jié)共有11個(gè)，占比0.053 0%，出現(xiàn)頻次為16，占比不足0.000 1%。

表7和圖1顯示了不同錯(cuò)誤形式在所有出錯(cuò)音節(jié)中的比例。

表6 藏文拼寫錯(cuò)誤類型及其在語料中的比例

表7 藏文拼寫錯(cuò)誤類型及其比重

續(xù)表

在所有的出錯(cuò)音節(jié)中，表現(xiàn)為約束關(guān)系錯(cuò)誤的音節(jié)數(shù)量占比和頻次占比分別達(dá)到了96.546 4%和86.506 0%，占據(jù)了出錯(cuò)音節(jié)的絕大部分。部分典型的拼寫錯(cuò)誤音節(jié)如表8所示。這些錯(cuò)誤中大部分都是因音節(jié)點(diǎn)或句尾空格缺失導(dǎo)致。

表8 約束關(guān)系錯(cuò)誤音節(jié)典型實(shí)例

在所有的出錯(cuò)音節(jié)中，表現(xiàn)為元音太多的音節(jié)數(shù)量占比和頻次占比分別達(dá)到了51.690 7%和43.132 7%，部分典型的拼寫錯(cuò)誤音節(jié)如表9所示。

表9 元音太多的錯(cuò)誤音節(jié)典型實(shí)例

表現(xiàn)為字丁太多的音節(jié)數(shù)量占比和頻次占比分別達(dá)到了26.443 3%和16.228 5%。部分典型的拼寫錯(cuò)誤音節(jié)如表10所示。這些錯(cuò)誤中，幾乎全部是因音節(jié)點(diǎn)和句尾空格缺失導(dǎo)致。

表10 字丁太多的錯(cuò)誤音節(jié)典型實(shí)例

表11 含有非法字丁的錯(cuò)誤音節(jié)典型實(shí)例

續(xù)表

含有多個(gè)緊縮標(biāo)志的音節(jié)數(shù)量占比和頻次占比分別達(dá)到了0.216 5%和0.207 8%。部分典型的拼寫錯(cuò)誤音節(jié)如表12所示。這部分錯(cuò)誤基本都是因?yàn)橐艄?jié)點(diǎn)缺失導(dǎo)致。

表12 含多個(gè)緊縮標(biāo)志的錯(cuò)誤音節(jié)典型實(shí)例

緊縮標(biāo)志出現(xiàn)在第四個(gè)字丁或者更靠后位置的錯(cuò)誤音節(jié)數(shù)量占比和頻次占比分別為0.113 4%和0.058 3%。部分典型的拼寫錯(cuò)誤音節(jié)如表13所示。這部分錯(cuò)誤基本都是因?yàn)橐艄?jié)點(diǎn)和句尾空格缺失導(dǎo)致。

表13 緊縮標(biāo)志位置錯(cuò)誤的音節(jié)典型實(shí)例

續(xù)表

綜合上述拼寫錯(cuò)誤的各種情況，導(dǎo)致拼寫錯(cuò)誤的原因主要包括四個(gè)方面：一是輸入了多余的元音符號(hào)；二是音節(jié)點(diǎn)、單垂符或句尾空格缺失；三是同一字丁/字符存在多種表達(dá)形式；四是使用了錯(cuò)誤的相似字符。

5 結(jié)束語

在本文中，我們從互聯(lián)網(wǎng)獲取了共計(jì)19萬藏文網(wǎng)頁(yè)，進(jìn)行篇章抽取之后獲得了一份總計(jì)427萬句、9 328萬音節(jié)字的藏文文本語料，按照預(yù)定的規(guī)則對(duì)其中的拼寫錯(cuò)誤情況進(jìn)行了統(tǒng)計(jì)與分析。數(shù)據(jù)顯示，在所有20 743個(gè)藏文音節(jié)中，拼寫正確的藏文音節(jié)共有11 043個(gè)，占53.237 2%，在語料中共出現(xiàn)89 032 036次，占99.969 2%。含有拼寫錯(cuò)誤的藏文音節(jié)共有9 700個(gè)，占46.762 8%，在語料中共出現(xiàn)27 427次，占0.030 8%，這說明這份語料的文本質(zhì)量是相當(dāng)高的。導(dǎo)致拼寫錯(cuò)誤的原因主要包括四個(gè)方面：一是輸入了多余的元音符號(hào)；二是音節(jié)點(diǎn)和句尾空格缺失；三是同一字丁/字符存在多種表達(dá)形式；四是使用了錯(cuò)誤的相似字符。

[1] 扎西次仁.一個(gè)藏文拼寫檢查系統(tǒng)的設(shè)計(jì)[C].1998中文信息處理國(guó)際會(huì)議論文集.1998: 371-376.

[2] 王維蘭,丁曉青,戴玉剛等.藏文識(shí)別后處理研究[J].術(shù)語標(biāo)準(zhǔn)化與信息技術(shù),2002,(2): 30-34.DOI: 10.3969/j.issn.1007-2489.2002.02.008.

[3] 才讓卓瑪.藏文字自動(dòng)校對(duì)系統(tǒng)初探[C].第十屆全國(guó)少數(shù)民族語言文字信息處理學(xué)術(shù)研討會(huì)論文集.2005: 292-294.

[4] 才讓卓瑪,才智杰.藏文文本自動(dòng)校對(duì)系統(tǒng)開發(fā)研究[J].西北民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,30(1): 25 -28.DOI: 10.3969/j.issn.1009-2102.2009.01.007.

[5] 劉文香.藏文音節(jié)校對(duì)模型建設(shè)研究[J].西北民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,30(2): 13-16,32. DOI: 10.3969/j.issn.1009-2102.2009.02.004.

[6] 劉文香.藏文文本詞校對(duì)模型研究[J].西藏大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,24(2): 70-74.

[7] 劉文香.現(xiàn)代藏文文本校對(duì)設(shè)計(jì)方案研究[J].西藏大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,(2): 66-69.

[8] 多杰卓瑪.N元模型在藏文文本局部查錯(cuò)中的應(yīng)用研究[J].計(jì)算機(jī)工程與科學(xué),2009,31(4): 117-119,123. DOI: 10.3969/j.issn.1007-130X.2009.04.035.

[9] 關(guān)白,洛藏,才科扎西等.現(xiàn)代藏文自動(dòng)校對(duì)現(xiàn)狀分析[J].西藏科技,2011,(8): 78-80.DOI: 10.3969/ j.issn.1004-3403.2011.08.035.

[10] 關(guān)白.自動(dòng)校對(duì)中現(xiàn)代藏文音節(jié)字研究[J].西藏大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,26(1): 69-75.

[11] 關(guān)白,才科扎西.現(xiàn)代藏文音節(jié)字自動(dòng)校對(duì)研究[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(29): 151-156.DOI: 10. 3778/ j.issn.1002-8331.2012.29.031.

[12] 安見才讓.基于分段的藏字校對(duì)算法研究[J].中文信息學(xué)報(bào),2013,27(2): 58-64.DOI: 10.3969/j.issn.10 03-0077.2013.02.009.

[13] 珠杰,歐珠,格桑多吉等.藏文音節(jié)規(guī)則庫(kù)的建立與應(yīng)用分析[J].中文信息學(xué)報(bào),2013,27(2): 103-112.

[14] 洪錦玲,劉匯丹,吳健.一種在辦公套件中支持藏文拼寫檢查的方法[C].第14屆中國(guó)少數(shù)民族語言文字信息處理學(xué)術(shù)研討會(huì)論文集,2013: 116-122

[15] 陳小瑩,艾金勇.藏文音節(jié)拼寫自動(dòng)校對(duì)系統(tǒng)的設(shè)計(jì)[J].語文學(xué)刊,2014,(5): 31-32.

[16] 劉匯丹,芮建武,吳健等.藏文網(wǎng)頁(yè)的編碼識(shí)別與轉(zhuǎn)換[C].中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議.2006: 573-580.

[17] 劉匯丹,諾明花,趙維納等.藏文編碼轉(zhuǎn)換軟件“藏碼通” 的設(shè)計(jì)與實(shí)現(xiàn)[C].第三屆全國(guó)少數(shù)民族青年自然語言信息處理、第二屆全國(guó)多語言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集.2010: 217-221.

[18] 劉匯丹，諾明花，高墨赤等.面向新聞廣播網(wǎng)站的藏文文本采集和語料庫(kù)構(gòu)建[C].第14屆中國(guó)少數(shù)民族語言文字信息處理學(xué)術(shù)研討會(huì)論文集,2013: 85-94

[19] 周季文.藏文拼音教材(拉薩音)[M].北京：民族出版社,1983.

[20] 胡書津.簡(jiǎn)明藏文文法[M].昆明：云南民族出版社,2000.

[21] GB16959-1997 信息技術(shù)-信息交換用藏文編碼字符集——基本集[S]. 中國(guó)標(biāo)準(zhǔn)出版社, 1998.

[22] GB/T 20542-2006 信息技術(shù)-藏文編碼字符集——擴(kuò)充集A [S]. 北京：中國(guó)標(biāo)準(zhǔn)出版社, 2006.

[23] GB/T 22238-2008 信息技術(shù)-藏文編碼字符集——擴(kuò)充集B [S]. 北京：中國(guó)標(biāo)準(zhǔn)出版社, 2008.

[24] ISO/IEC 10646: 2012 Information technology - Universal Coded Character Set (UCS) [S]. International Organization for Standardization, 2012.

[25] The Unicode Standard, Version 6.1 [S]. Mountain View, CA: The Unicode Consortium, ISBN 978-1- 936213-02-3, 2012.

Statistics and Analysis on Spell Errors of Tibetan SyllablesBased on a Large Scale Web Corpus

LIU Huidan, HONG Jinling, NUO Minghua, WU Jian

(Institute of Software, Chinese Academy of Sciences, Beijing 100190, China)

A large scale Tibetan text corpus is built, which includes 4.27 million sentences in 190 thousand documents, totaling 93 million syllables. Some predefined rules are applied to check whether there are spelling errors, detecting altogether 9 700 misspelt syllable types out of the 20 743 types of Tibetan syllables occurred in the corpus (covering 46.762 8%). But at the token level, the corpus has a very high quality, with only 27 427 misspelt syllables, roughly 0.030 8% of the total 93 million syllable tokens. Further analysis shows that there are mainly four causes leading to those spell errors: extra vowel sign(s); absence of syllable delimiter or sentence delimiter; characters which can be written in different forms; similar characters.

Tibetan spell check; spell check; corpus; Tibetan information processing; Chinese information processing

劉匯丹(1982—)，博士，副研究員，主要研究領(lǐng)域?yàn)椴僮飨到y(tǒng)中文信息處理、多語言信息處理。E?mail：huidan@iscas．a(chǎn)c．cn洪錦玲(1981—)，碩士，工程師，主要研究領(lǐng)域?yàn)槎嗾Z言信息處理。E?mail：jinling@iscas．a(chǎn)c．cn諾明花(1981—)，博士，助理研究員，主要研究領(lǐng)域?yàn)槎嗾Z言信息處理。E?mail：nuominghua@163．com

2014-04-23 定稿日期： 2014-11-21

國(guó)家自然科學(xué)基金(61202219，61303165);中國(guó)科學(xué)院信息化專項(xiàng)(XXH12504-1-10);新聞出版重大科技工程(0610-1041BJNF 2328/23)

1003-0077(2017)02-0061-10

TP391