藏文信息處理的首要問題是藏字處理,利用計算機對藏字進行處理時,與外文、中文等其他文字有共性,也有著個性。
首先難在藏字結構
藏語語音的特點是單音節(jié)性,每一組單音節(jié)藏文字符串代表藏語里的一個音節(jié),每個音節(jié)可能代表藏語里的一個詞,也可能代表一個詞素。藏字由三十個輔音字母和四個元音符號(簡稱為元音)拼寫組合而成,元音不能獨立書寫,只能加在輔音字母的上部或下部(右圖中5的位置)。輔音字母中有些特殊的輔音字母,以一個輔音(基字)為基礎,加在前、后、上、下,也可兼而有之。這些輔音按所處的位置分別命名為前加字(圖1中1的位置)、上加字(圖1中2的位置)、基字(圖1中3的位置)、下加字(圖1中4的位置)、后加字(圖1中6的位置)、再后加字(圖1中7的位置),其實它們都是構成藏字的一個字符,統(tǒng)稱為藏字的構件(以下簡稱為構件)。其中,藏文的縱向疊加只是在基字的上下,而前加字、后加字、再后加字均為無疊加的單一輔音字母。在現代藏文文法中,對藏文字符構成藏字有很嚴格的約束,一個藏字可有一到七個字符構成,其中基字是構成藏字必不可少的構件,其他位置上構件的有無因字而不同。藏文的音節(jié)最多由七字符構成(如圖1所示,每個方塊表示一個字符),并且每個位置上的字符有嚴格的限制。
藏文不僅有橫向拼寫性,同時也有縱向拼寫性。由于藏字書寫是非線性的二維陣列方式,不是外文以每個字符或漢字以字為單位地線形排列,這增加了藏文信息處理的難度。
其次難在藏字構件的變形
藏文字符的構件包括藏文的輔音字母、元音符號、藏文數字以及一些特殊符號。
構成現代藏字的輔音字母(Tibetan Letters)有30個,分別是:
現代藏字的元音符號(Tibetan Vowel Signs)有4個,分別是:
現代藏字的上加字(Tibetan Superscripts)有三個:
現代藏字的下加字(TibetanSubscripts)有四個:
現代藏字的上加字和下加字雖是30個輔音中的字符,但用作上、下加字時有些字符會發(fā)生變形。另外,當基字疊加上、下加字符時,基字的高度,部分筆畫也發(fā)生變形,這種藏文同一構件在不同情況下的變化也加大了藏字處理系統(tǒng)的難度。
第三難在梵音藏字和古藏字疊加的不確定性
除了現代藏字的構件外、還有古藏字和用于轉寫梵音的藏字構件,比現代藏字的構件多11個元音和11個輔音。
梵音轉寫藏字和古藏字在現代藏字中雖占的不多,但為了系統(tǒng)的完善性還必須要考慮這些藏字的處理。梵音轉寫藏字和古藏字在藏字處理系統(tǒng)中不只是簡單地增加22個構件,還需考慮疊加情況,梵音藏字和古藏字的疊加不僅最高可達七層,而且每層疊加的字符也不確定,這也導致了藏字處理系統(tǒng)的設計難度。
第四難在藏字書寫的特殊性
藏文的書寫規(guī)則雖很簡單,從左到右、自上而下,以“上平線”(一條水平直線作為藏字書寫的上端基準)上端對齊,上元音書寫在上平線以上,每個藏字的書寫與該字音節(jié)的拼讀順序是一致的,每個藏字之間用藏字隔音符相隔,隔音符間的構件表示一個完整的藏字,排版時不能拆分到兩行,這些藏字不同于其他文字的處理的考慮,也加大了藏字處理軟件設計的難度。
藏字的字體主要分為和兩種,其中為按照不同的寫法有等,每種字體都有一定的規(guī)范可依,但多數字體的書寫因人而異,缺乏字體標準,這也增加了字處理的難度。
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。