亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        藏文組字部件的自動識別與字排序研究

        2014-04-28 05:52:05才華
        關(guān)鍵詞:疊字字型藏文

        才華

        (西藏大學(xué)藏文信息技術(shù)研究中心 西藏拉薩 850000)

        藏文組字部件的自動識別與字排序研究

        才華

        (西藏大學(xué)藏文信息技術(shù)研究中心 西藏拉薩 850000)

        藏文字有著獨特的構(gòu)字規(guī)則,組字部件的自動識別在藏文字、詞、句層面的信息化處理有重要的應(yīng)用。文章提出的藏文字部件自動識別方法理念為,現(xiàn)代藏文字按其第一個部件字符的不同分成5種結(jié)構(gòu)類型,每一種類型又按其字長分為若干個子類,在每個子類中定義各字的部件識別算法,最后在藏文組字部件識別的基礎(chǔ)上,給每個部件賦予序值,實現(xiàn)藏文字的有效排序。

        藏文信息處理;構(gòu)字部件;字符序值;字排序

        引言

        微軟公司以疊置引擎和Open Type字庫技術(shù)為基礎(chǔ),于2007年推出了基于藏文國際標準編碼Unicode字符動態(tài)組合的藏文系統(tǒng)。該系統(tǒng)支持與藏文書寫方式相一致的輸入法,并能解決國內(nèi)其他藏文系統(tǒng)普遍存在的缺字問題,[1]該系統(tǒng)成為藏文電子資源及藏文應(yīng)用軟件開發(fā)的主流平臺,基于該系統(tǒng)的藏文字及其組字部件的自動識別,是藏文字、詞層面信息化研究的一項基礎(chǔ)工作。根據(jù)現(xiàn)代藏文文法,揭示并實現(xiàn)組字部件的自動識別對藏文字、詞、句法層面的信息化有著重要的作用。

        圖 1 典型的藏文字結(jié)構(gòu)

        1 Unicode藏文字結(jié)構(gòu)

        藏語為單音節(jié)語種,屬拼音文字。現(xiàn)代藏文有30個輔音字母,4個元音字母。圖1為典型的藏文字結(jié)構(gòu)圖。

        藏文字由一到七個不同數(shù)量的部件字符縱橫疊加組合而構(gòu)成,出現(xiàn)在不同位置上的部件字符有著確定的數(shù)量及字形。[2]圖1中,A、B、C、D、F、G分別代表字部件中輔音字符出現(xiàn)的位置及與之對應(yīng)的輔音字符集,依次叫做前加字符、上加字符、基本字符、下加字符、后加字符及再后加字符;E代表元音出現(xiàn)的位置,元音字符只能附著在某個基本字符或疊加字的上下部分,不能單獨成字;英文字母的順序代表了藏文字的拼讀與書寫順序。

        在Unicode或小字符集編碼體系中,藏文字是以縱橫動態(tài)組合疊加技術(shù)而生成的。如平面字繿軟繳纍的編碼為0X0F56+0X0F66+0X0F92+0X0FB2+0X0F72+0X0F42+0X0F66,這完全符合藏文所固有的前加字符、上加字符、基本字符、下加字符、元音字符、后加字符、再后加字符這樣的拼讀與書寫順序。

        2 藏文字字型結(jié)構(gòu)統(tǒng)計

        從字型結(jié)構(gòu)來講,現(xiàn)代藏文字的數(shù)量是非常有限的。據(jù)統(tǒng)計,現(xiàn)代藏文字所具有的字型結(jié)構(gòu)共有45種[3]。表1中,把45種字型結(jié)構(gòu)按照藏文字的部件數(shù)量(字長)又分為7個組。

        表1 藏文字字型結(jié)構(gòu)統(tǒng)計

        2.1 藏文字型結(jié)構(gòu)的分類

        在拼讀、書寫或編碼任意一個藏文字的時候,第一個組字部件只能是前加字符,上加字符或基本字符。即,藏文字中的元音字符、下加字符、后加字符及再后加字符等只能充當字的第二個或之后的結(jié)構(gòu)部件。所以,除了上述的字長分類之外,還可以根據(jù)字的第一個組字部件(字符或編碼)進一步細分現(xiàn)代藏文的字型結(jié)構(gòu)。

        在30個藏文輔音字母中,?等22個輔音字母既不能充當前加字,也不能當上加字。因此,如果發(fā)現(xiàn)當前字的第一個部件是上述字母時,就可以肯定此部件就是當前字的基本字符。據(jù)統(tǒng)計,發(fā)現(xiàn)該類字的字型結(jié)構(gòu)僅有11種,最長字長為5個字符,如表2所示。根據(jù)這樣的分類,發(fā)現(xiàn)藏文22個輔音字符在以第一個組字部件參與組字時,其字型結(jié)構(gòu)只有11種,占現(xiàn)代藏文字型總數(shù)的24.4%。

        表2 第一個構(gòu)字部件為基本字符的字型結(jié)構(gòu)

        2.1.2 第一個部件為繳的字型結(jié)構(gòu)

        字母繳可以以基本字符的身份,亦可以以前加字符的身份參與藏文字的組字結(jié)構(gòu)中。但是,繳作為前加字符,所組成的字型中不會出現(xiàn)上下疊加的結(jié)構(gòu)。如表3所示,有前加部件A的組字結(jié)構(gòu)中,就不會出現(xiàn)上加部件B或下加部件D。此類字型占字型總數(shù)的35.6%。

        表3 第一個部件為的字型結(jié)構(gòu)

        表3 第一個部件為的字型結(jié)構(gòu)

        字符數(shù)(字長)1 C 234567 CD CE CF ACE ACF CDE CDF CEF ACEF ACFG CDEF CDFG CEFG ACEFG CDEFG構(gòu)字種類

        2.1.3 第一個部件為繻?纀?纈的字型結(jié)構(gòu)

        跟繳一樣,繻?纀?纈3個輔音字母出現(xiàn)在當前字的第一個構(gòu)字部件位置上,可以看作字的基本字符或前加字符。但是,它們作為字的前加成分,所組成的字中不會出現(xiàn)帶有上加部件的字型結(jié)構(gòu)。如表4所示,此類組字結(jié)構(gòu)中沒有上加和下加部件B。此類結(jié)構(gòu)占總字型結(jié)構(gòu)的51.1%。

        表4 第一個部件為的字型結(jié)構(gòu)

        表4 第一個部件為的字型結(jié)構(gòu)

        字符數(shù)(字長)1 C 234567 CD CE CF ACDEFG構(gòu)字種類ACD ACE ACF CDE CDF CEF CFG ACDE ACDF ACEF ACFG CDEF CDFG CEFG ACDEF ACDFG ACEFG CDEFG

        2.1.4 第一個部件為繿的字結(jié)構(gòu)

        因為第一個組字部件為字母繿的字結(jié)構(gòu)涵蓋了藏文的全部字型,所以這種類型的組字結(jié)構(gòu)與表2相同。

        2.2 Unicode組字部件的識別算法

        Unicode藏文字的編碼次序與藏文的拼讀、書寫順序一致。因此,實現(xiàn)Unicode或小字符集藏文字的部件自動識別,要對識別的當前字進行“第一個組字部件的判斷”和“字長計算”,根據(jù)字的“第一個組字部件”和“字長”,定位當前字可能的字型結(jié)構(gòu)列表。最后根據(jù)該列表的具體識別算法可以篩選出唯一的字型結(jié)構(gòu)。

        表5 第一個部件字符為的字型結(jié)構(gòu)

        表5 第一個部件字符為的字型結(jié)構(gòu)

        字符數(shù)(字長)1 C 234567 BC CD CE CF BCD BCE BCF CDE CDF CEF CFG BCDE BCDF BCEF BCFG CDEF CDF G CEFG BCDEF BCDFG BCEFG CDEFG BCDEFG構(gòu)字種類

        ①“贌繴”字的第一個字符部件是“繱”,字長為4個字節(jié)。因此,該字的字型結(jié)構(gòu)就落在表3的第4列表中。

        ② 引用表3的第4列所對應(yīng)的識別算法,就能得出其字型結(jié)構(gòu)為:CDEF。

        {if第二個字符為元音

        字型結(jié)果:CEFG

        else

        if第三個字符為元音

        輸出字型結(jié)構(gòu):CDEF else輸出的字型結(jié)構(gòu):CDFG }

        3 現(xiàn)代藏文字的自動排序方法

        由于藏文編碼的不等長和其構(gòu)字復(fù)雜性,藏文字的自動排序不像漢文和英文一樣簡單。傳統(tǒng)藏文字詞典都以30個字母順序為主排序,但在同一基本字母下的內(nèi)部排序上存在著明顯的差異。1979年由青海民族出版社出版發(fā)行的《新編藏文字典》是傳統(tǒng)藏文詞典中的代表性出版物,使用量很大。在略去后加字和元音對字排序的影響下,《新編藏文字典》中字是以基字、下加疊字、前加字+基字、前加字+下加疊字、上加疊字、上下疊字、前加字+上加疊字、前加字+上下疊字的方式排序[4],其中帶有前加字的字符分別出現(xiàn)在兩個不相干的排序段上,整個排序沒有明顯的分界點。為此,文獻[5]引入了字結(jié)構(gòu)序的概念,并在前加字位增設(shè)一個結(jié)構(gòu)辨識位來實現(xiàn)與字典相一致的自動排序。

        本文對該字典所有基本字母的內(nèi)部做了一種統(tǒng)一而合理的調(diào)整,提出一種形式簡便,易查找的字排序方法。僅僅把帶有前加字符的兩段字集中在一起,即以基字、下加疊字、上加疊字、上下疊字、前加字+基字、前加字+下加疊字、前加字+上加疊字、前加字+上下疊字的模式對詞典音節(jié)字重新編排。這樣字序不僅形式簡單,而且有序可循,所有音節(jié)字都以前加字符為界一分為二,容易被用戶查找。以基本字母繱為例,就是把6至12之間的字原封不動地移到19之前,如表6所示。

        表6 基本字母“”內(nèi)部的排序調(diào)整

        表6 基本字母“”內(nèi)部的排序調(diào)整

        調(diào)整后調(diào)整前1 2 3456789繱 轡 贁 贉贐繻繱繿贁 繿贕10 11 12 13 14 15 16 17 18繿贕繿贉繿贜 繿贜繿贐19 20 21 22 23繿罜繿罤繿罬罤罬繻繱19 20 21 22 23繿罜繿罤繿罬繻贁繻贉繿繱繳贕贜躛罜 罤 罬1 2 3456789繱 轡 贁 贉贐贕贜 躛 罜10 11 12 13 14 15 16 17 18繻贁繻贉繿繱繳繿贁繿贉繿贐

        對現(xiàn)代藏文的每個基本字母內(nèi)部排序都做上述統(tǒng)一的調(diào)整后,藏文字的排序模型就可以簡化為5個構(gòu)字部件按優(yōu)先級線性排成的一組數(shù)序列:Sequence=XiYjZk,lLmMn。其中,Xi代表基本部首位上的字符值,Xi=i,i={1 ,2,3,…,30},分別是30個輔音字母的順序代碼;Yj代表前加部首位上的字符值,Yj=j,j={1 ,2,3,4,5} ,分別是5個前加字母的順序代碼;Lm代表元音位上的字符序值,Lm=m,m={1 ,2,3,4},分別是4個元音字母的順序代碼。Mn代表后加部首位上的字符序值(包括傳統(tǒng)意義的后加字母、再后加字母及少量其他字),Mn=n,n={0 ,1,2,…16},分別是后加部首字母的順序代碼,如

        表7所示。

        表7 后加部件字符及其賦值

        Zkl代表上下部首位上的字符組合序值,Zkl=kl,k=(0,1,2,3),分別是上加字母的順序代碼,而l=(0,1,2,…,7)是下加字母(包括下加字母、下加字母組合以及能充當下加字符的其他字母)的順序代碼,如表8所示。

        表8 疊加部件字符及其賦值

        k的每個元素原則上可以和l的各元素進行左結(jié)合,但符合藏文正字法的實際組合現(xiàn)象并不多[6]。

        4 結(jié)論

        綜上所述,把所有的藏文音節(jié)字都可以看作5位空間的不同向量。通過字部件識別器,可以知道每個向量的分量。給字的每個分量賦予各自的序值后,就可以求出向量的大小。最后根據(jù)向量的大?。ㄗ中蛑担┡判颍湍茏詣油瓿勺值呐判騿栴}(見表9)。

        [1]江荻,龍從軍.藏文字符研究[M].北京:社會科學(xué)文獻出版社,2010:24-35.

        [2]土彌三菩扎.西藏文法四種合編[M].北京:民族出版社,2005:17-25.

        [3]高定國,龔育昌.現(xiàn)代藏文字全集的屬性統(tǒng)計研究[J].中文信息學(xué)報,2005(1):71-75.

        [4]新編藏文字典編寫組.新編藏文字典[M].西寧:青海民族出版社,1989:2-38.

        [5]江荻,康才.書面藏語排序的數(shù)學(xué)模型及算法[J].計算機學(xué)報,2004(4):524-529.

        [6]才華,普布卓瑪.試提一種新的藏文音節(jié)字排序模型[J].西藏科技,2012(1):69-71.

        [7]艾金勇,于洪志,等.藏文字形結(jié)構(gòu)計量統(tǒng)計分析[J].計算機應(yīng)用,2009(7):2029-3031.

        [8]于洪志.計算機藏文編碼概況[J].西北民族學(xué)院學(xué)報(自然科學(xué)版),1999(3):15-19.

        表9 藏文字的自動排序試驗結(jié)果

        [][]

        Research on the Automatic Recognition and Sorting of Tibetan Word Components on the Unicode

        Tshedpal
        (Tibetan Information Technology Engineering Research Center,Tibet University,Lhasa 850000,Tibet)

        Tibetan words have unique structure rules.The automatic recognition and sorting of word components has an important application in the information processing of various Tibetan word components such as character,word and sentence-level on the Unicode.In the present paper,according to the first component of Tibetan character,the Tibetan word structure can be divided into 5 categories.Each of word structure has been divided into several subcategories by the length of words.A recognition algorithm was defined for each word components in each subcategory.The ordinal value was given to each component of character based on the word component recognition to realizes sorting of Tibetan word efficiently.

        Tibetan information processing;Tibetan word component;ordinal value of character;word sorting

        TP391.1

        A

        1005-5738(2014)02-081-06

        [責(zé)任編輯:索郎桑姆]

        2014-08-27

        2013年度西藏大學(xué)青年科研培育基金項目“Unicode藏文分詞相關(guān)技術(shù)研究”階段性成果,項目號:ZDPJZK201314

        才華,男,藏族,青海尖扎人,西藏大學(xué)藏文信息研究中心博士研究生,西藏大學(xué)圖書館與現(xiàn)代教育技術(shù)中心講師,主要研究方向為藏文信息處理。

        猜你喜歡
        疊字字型藏文
        看“字型”找相似
        西藏大批珍貴藏文古籍實現(xiàn)“云閱讀”
        布達拉(2020年3期)2020-04-13 10:00:07
        黑水城和額濟納出土藏文文獻簡介
        西夏學(xué)(2019年1期)2019-02-10 06:22:34
        奇特的疊字聯(lián)
        快樂語文(2018年7期)2018-05-25 02:31:57
        藏文音節(jié)字的頻次統(tǒng)計
        設(shè)施克瑞森無核葡萄“廠”字型架式栽培關(guān)鍵技術(shù)
        冬小麥“井”字型播種模式的研究探討
        現(xiàn)代語境下的藏文報刊
        新聞傳播(2016年17期)2016-07-19 10:12:05
        疊字家園
        “一字型”折疊翼展開試驗與仿真驗證分析
        精品亚洲一区中文字幕精品| 人妻系列少妇极品熟妇| 天堂中文资源在线地址| 欧美综合区| 久久久久久久久久91精品日韩午夜福利| 毛片av在线尤物一区二区| 国产精品午夜高潮呻吟久久av| 男女激情视频网站免费在线| 色欲人妻aaaaaaa无码| 欧美 国产 综合 欧美 视频| 国产99久久久久久免费看| 大地资源网最新在线播放| 国产免费网站看v片元遮挡| 亚洲国内精品一区二区在线| 国产一区二区三区青青草| 午夜久久久久久禁播电影| 人妻无码中文字幕| 色老头在线一区二区三区| 中文字幕欧美一区| 国产chinese在线视频| 久久精品国产精品亚洲婷婷| 久久久大少妇免费高潮特黄| 亚洲熟女一区二区三区250p| 亚洲av成人无码久久精品老人| 窝窝午夜看片| 激情欧美日韩一区二区| 女女同性黄网在线观看| 国产精品久久三级精品| 变态另类手机版av天堂看网| 精品伊人久久大线蕉色首页| 亚洲男人的天堂在线aⅴ视频| 夜色阁亚洲一区二区三区| 日韩在线不卡一区在线观看| 久久久大少妇免费高潮特黄| 国产午夜毛片v一区二区三区| 久久99久久99精品免观看| 国产美熟女乱又伦av果冻传媒| 熟女系列丰满熟妇av| 精品老熟女一区二区三区在线| 亚洲精品动漫免费二区| 亚洲精品黑牛一区二区三区|