亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

藏文（含梵文）字丁自動識別方法研究

2015-08-28 03:11:30完么才讓

卷宗 2015年8期

完么才讓

摘要：本文以《ISO/IEC 10646藏文編碼字符集基本集》為參考，把其中除標點符號外的字符歸類到字母集、主字集和元音集三個集合，再將測試文本中的藏文字符與三個集合逐一匹配的方法，準確識別（本文所講識別，非OCR圖形識別）出藏文字丁。

關鍵詞：ISO/IEC 10646；音節(jié)；字??；識別

藏文字丁的準確識別是字丁頻率、信息熵計算的前提，也是音節(jié)分類的基礎，更是藏文識別必不可少的環(huán)節(jié)。收錄至中國知網(wǎng)的關于藏文字丁的幾篇論文都未談及藏文字丁的自動識別方法，本文從一下三個方面詳細講解藏文（含梵文）字丁的自動識別方法。

1 字母集、主字集和元音集

把藏文unicode字符集中除標點符號等特殊字符外的其他字符分成字母集、主字集和元音集三個集合，分別用英文標記letter_set、main_char_set和vowels_set表示，則

letter_set集合中的字符都無上加字，即字符上下均無main_char_set和vowels_set集合所示的空心圓圈，這類字符在實際文本中多作為字母出現(xiàn)，故將這類字符收錄到字母集中。相應地，main_char_set集合所含字符大都上有空心圈，結合時，附著在前一個字符的下面，把具有這個特征的字符收集到主字集中。vowels_set集合中的字符都下附空心圓圈，表名這類字符在具體文本中充當元音，應收集到元音集中。這三個集合是字丁識別的前提，以下內(nèi)容中用L、M和V分別代表letter_set、main_char_set和vowels_set，Li、Mi和Vi表示對應集合中的任意元素。

2 藏文字丁的基本分類

藏文字丁可分為六大類型，分別為：

所有藏文字丁可歸類到以上六種類型。

3 識別方法

在有了集合的劃分和字丁的基本分類后，即可依據(jù)如下所描述的方法識別出藏文字丁。假設字符串變量Ttext存放待測試的藏文文本，字符串變量WR表示字丁。根據(jù)字符串變量的性質，Ttext[i]（i=0，1，2，…，Ttext->Length）表示文本的第i個字符，則

（1）取出第0個字符Ttext[0]，放至WR，再判斷Ttext[1]屬于集合letter_set、main_char_set還是vowels_set。

如果Ttext[1] letter_set，說明Ttext[1]是字母，則Ttext[0]單獨構成一個字丁WR，相當于第二節(jié)的第1類字丁，轉到步驟（4）；如果Ttext[1] vowels_set，說明Ttext[1]是元音，則Ttext[0]+Ttext[1]的組合構成新的WR，等于第二節(jié)中的第2類字丁，轉到步驟（4）。如果Ttext[1] main_char_set，則轉到步驟（2）。

（2）判斷Ttext[2]是字母、主字還是元音。若是字母，則由Ttext[0]+Ttext[1]構成的新字丁WR即一個字丁，相當于第二節(jié)的第3類字丁，轉到步驟（4）；若為元音，則Ttext[0]+Ttext[1]+Ttext[2]為一個字丁，即第二節(jié)的第4類字丁，轉到步驟（4）；如果Ttext[2]是主字，即Ttext[2] main_char_set，則轉入步驟（3）。

（3）判斷Ttext[3]屬于哪個集合，若Ttext[3]為字母，則Ttext[0]+Ttext[1]+Ttext[2]為一個字丁，等于第二節(jié)的第5類字丁，轉到步驟（4）；若Ttext[3]為元音，則Ttext[0]+Ttext[1]+Ttext[2]+ Ttext[4]為一個字丁，相當于第二節(jié)的第6類字丁，轉到步驟（4）。

（4）轉到步驟（1），從識別出的字丁的下一個字符繼續(xù)判斷，直至到達文本末尾。

用算法流程圖表示如下

4 結語

本文特意對字丁識別方法作了分析，除了提出一種適用于藏梵文的字丁識別算法外，第一節(jié)的三個集合和第二節(jié)對字丁的分類，對藏文的結合規(guī)律總結了一個新的歸納和分類方式。

參考文獻

[1]王維蘭，丁曉青，祁坤鈺. 藏文識別中相似字丁的區(qū)分研究.中文信息學報，2002（4）：61-63

[2] 王維蘭，陳萬軍. 藏文字丁、音節(jié)頻度及其信息熵. 語音信息處理，2004（2）：27-31

[3] 桑塔，達哇彭措. 信息處理用藏文字丁統(tǒng)計.科技信息，2010（29）：430