完么才讓
摘 要:本文以《ISO/IEC 10646藏文編碼字符集 基本集》為參考,把其中除標點符號外的字符歸類到字母集、主字集和元音集三個集合,再將測試文本中的藏文字符與三個集合逐一匹配的方法,準確識別(本文所講識別,非OCR圖形識別)出藏文字丁。
關鍵詞:ISO/IEC 10646;音節(jié);字??;識別
藏文字丁的準確識別是字丁頻率、信息熵計算的前提,也是音節(jié)分類的基礎,更是藏文識別必不可少的環(huán)節(jié)。收錄至中國知網(wǎng)的關于藏文字丁的幾篇論文都未談及藏文字丁的自動識別方法,本文從一下三個方面詳細講解藏文(含梵文)字丁的自動識別方法。
1 字母集、主字集和元音集
把藏文unicode字符集中除標點符號等特殊字符外的其他字符分成字母集、主字集和元音集三個集合,分別用英文標記letter_set、main_char_set和vowels_set表示,則
letter_set集合中的字符都無上加字,即字符上下均無main_char_set和vowels_set集合所示的空心圓圈,這類字符在實際文本中多作為字母出現(xiàn),故將這類字符收錄到字母集中。相應地,main_char_set集合所含字符大都上有空心圈,結合時,附著在前一個字符的下面,把具有這個特征的字符收集到主字集中。vowels_set集合中的字符都下附空心圓圈,表名這類字符在具體文本中充當元音,應收集到元音集中。這三個集合是字丁識別的前提,以下內(nèi)容中用L、M和V分別代表letter_set、main_char_set和vowels_set,Li、Mi和Vi表示對應集合中的任意元素。
2 藏文字丁的基本分類
藏文字丁可分為六大類型,分別為:
所有藏文字丁可歸類到以上六種類型。
3 識別方法
在有了集合的劃分和字丁的基本分類后,即可依據(jù)如下所描述的方法識別出藏文字丁。假設字符串變量Ttext存放待測試的藏文文本,字符串變量WR表示字丁。根據(jù)字符串變量的性質,Ttext[i](i=0,1,2,…,Ttext->Length)表示文本的第i個字符,則
(1)取出第0個字符Ttext[0],放至WR,再判斷Ttext[1]屬于集合letter_set、main_char_set還是vowels_set。
如果Ttext[1] letter_set,說明Ttext[1]是字母,則Ttext[0]單獨構成一個字丁WR,相當于第二節(jié)的第1類字丁,轉到步驟(4);如果Ttext[1] vowels_set,說明Ttext[1]是元音,則Ttext[0]+Ttext[1]的組合構成新的WR,等于第二節(jié)中的第2類字丁,轉到步驟(4)。如果Ttext[1] main_char_set,則轉到步驟(2)。
(2)判斷Ttext[2]是字母、主字還是元音。若是字母,則由Ttext[0]+Ttext[1]構成的新字丁WR即一個字丁,相當于第二節(jié)的第3類字丁,轉到步驟(4);若為元音,則Ttext[0]+Ttext[1]+Ttext[2]為一個字丁,即第二節(jié)的第4類字丁,轉到步驟(4);如果Ttext[2]是主字,即Ttext[2] main_char_set,則轉入步驟(3)。
(3)判斷Ttext[3]屬于哪個集合,若Ttext[3]為字母,則Ttext[0]+Ttext[1]+Ttext[2]為一個字丁,等于第二節(jié)的第5類字丁,轉到步驟(4);若Ttext[3]為元音,則Ttext[0]+Ttext[1]+Ttext[2]+ Ttext[4]為一個字丁,相當于第二節(jié)的第6類字丁,轉到步驟(4)。
(4)轉到步驟(1),從識別出的字丁的下一個字符繼續(xù)判斷,直至到達文本末尾。
用算法流程圖表示如下
4 結語
本文特意對字丁識別方法作了分析,除了提出一種適用于藏梵文的字丁識別算法外,第一節(jié)的三個集合和第二節(jié)對字丁的分類,對藏文的結合規(guī)律總結了一個新的歸納和分類方式。
參考文獻
[1]王維蘭,丁曉青,祁坤鈺. 藏文識別中相似字丁的區(qū)分研究.中文信息學報,2002(4):61-63
[2] 王維蘭,陳萬軍. 藏文字丁、音節(jié)頻度及其信息熵. 語音信息處理,2004(2):27-31
[3] 桑塔,達哇彭措. 信息處理用藏文字丁統(tǒng)計.科技信息,2010(29):430