胡淇研,趙小兵
(1.中央民族大學,北京 100081;2.國家語言資源監(jiān)測與研究少數(shù)民族語言中心,北京 100081)
彝族是我國歷史悠久的少數(shù)民族之一,其人口眾多,在我國少數(shù)民族人口中居第六位,主要分布在四川、云南、貴州和廣西一帶。彝族有自己的語言和文字,彝語屬于漢藏語系藏緬語族彝語支語言,分為6 大方言,5 個次方言和40 多個土語。彝文主要流傳于北部、東部、南部和東南部方言區(qū),西部方言區(qū)歷史上曾流傳過彝文,現(xiàn)已失傳。中部方言區(qū)尚未發(fā)現(xiàn)使用彝文的史料。[1](P29-36)不同歷史時期、不同地方的彝文稱謂不同,漢文史志稱彝文為“爨文、韙書、夷文、倮文、羅文、蝌蚪文、畢摩文、倮倮文”等,新中國成立后統(tǒng)稱為彝文。彝文可分為古彝文和涼山規(guī)范彝文(以下簡稱“規(guī)范彝文”),古彝文又稱老彝文或傳統(tǒng)彝文,是對1980 年國務院批準實行的規(guī)范彝文之前刻畫、手寫彝文的總稱。規(guī)范彝文是表音的音節(jié)文字,以彝語北部方言圣乍話為基礎方言,以喜德語音為標準音,共有1165 個字符,包括819 個常用字符,345 個次高調字符和1 個替音符號“?”。[2]
規(guī)范彝文當前已完成編碼字符集構建、字型、鍵盤及輸入法開發(fā)等工作,獲得了國家和國際編碼標準,開發(fā)了比較成熟的輸入法,主要有沙氏彝文輸入法、阿才彝文輸入法、搜狗輸入法、Vista 系統(tǒng)自帶的輸入法及彝文手機輸入法等。沙氏彝文輸入法包括彝文簡拼、全拼及筆畫輸入碼。全拼碼以彝文注音符號為編碼方式,擊鍵次數(shù)多達5 鍵,無重碼;簡拼碼以讀音為主,用拼音或拼音代碼為輸入碼,最多4 鍵即可完成輸入;筆畫碼按彝文書寫順序拆分字符筆畫,并將其映射到鍵盤的英文字母或數(shù)字鍵上,以筆畫實現(xiàn)輸入。[3](P46-48)阿才及Vista 系統(tǒng)自帶的彝文輸入法采用全拼音碼編碼方式,實現(xiàn)中文、彝文、數(shù)字、符號自由混合輸入。搜狗彝文輸入法以全拼音碼輸入為主,可實現(xiàn)彝漢混輸。2016 年,民族語文翻譯局開發(fā)了運用到安卓和iOS 系統(tǒng)上的彝文手機輸入法,實現(xiàn)了彝文筆畫、簡拼、全拼輸入。
古彝文輸入法主要有楚雄彝文輸入法、石林彝文輸入法、古彝文正體字形碼輸入法、古彝文筆畫及自由拆分一對多形碼輸入法等。楚雄彝文輸入法是以彝文中部和東部方言區(qū)常用的9447 字符為基礎開發(fā)的字根形碼輸入法,對彝文字符進行字根拆分,按字符結構編碼,以“形托”方式實現(xiàn)字根到鍵盤的映射,實現(xiàn)4 鍵輸入;石林彝文輸入法以《彝漢簡明詞典》東南部方言撒尼彝語常用字符為基礎設計的彝文字根式輸入法,以4 鍵實現(xiàn)輸入;古彝文正體字形碼輸入法以《彝文字典》《彝文字集》及經(jīng)典文獻中收錄的5363 個古彝文常用字符為基礎設計的形碼輸入法。[4]此外,西南民族大學民族文字信息處理研究所設計了彝文筆畫和拼音輸入法;王成平以《滇川黔桂彝文字典》中2676 個字符為藍本設計了古彝文筆畫輸入法;云南民族大學王嘉梅以四川彝文、云南規(guī)范彝文、貴州彝文及滇南彝文字集為基礎,設計了彝文數(shù)字和自由編碼方案,實現(xiàn)了“云南規(guī)范彝文數(shù)字鍵筆畫自由拆分、滇南彝文自由拆分一對多形態(tài)編碼輸入法”。
目前,彝文輸入法研究取得了較大的成績,但由于彝文內部情況復雜,仍存在規(guī)范彝文和古彝文外碼編碼標準不統(tǒng)一、輸入規(guī)則不一致,輸入法不夠通用等問題。用戶輸入時需要反復學習各地彝文的輸入規(guī)則,多次安裝不同地區(qū)的彝文輸入法,增加了使用難度。鑒于此,筆者在前人研究的基礎上,以規(guī)范彝文為例,提出一種基于字形部件拆分的形碼編碼方案,希望能為彝文輸入法的研究提供一種參考方案。
彝文獨體字多,常采用字體結構易位、增添筆畫等方法來造字,其構字體系包括:筆畫、部首、筆順和書寫結構。[5]彝文文字發(fā)展過程中呈現(xiàn)高度的線條化和抽象化發(fā)展趨勢,部首的表意功能較弱,主要作為字符構字的主干筆畫或基礎構件。[6]因此可依據(jù)直觀、易學、易操作的原則,對彝文進行構形層面的部件拆分,整理出穩(wěn)定的構字部件,并進行合理的分類編碼,設計適用于古彝文和規(guī)范彝文的一對多形碼輸入方案。
彝文部件是由筆畫組成的具有組配彝文字形功能的構造單位,是字符構字的核心,介于整字和筆畫之間。筆畫則是字符書寫時不間斷地寫成的點和線,是字形結構中的最小單位。[7]彝文部首一般是字符的主筆畫或突出筆畫,常作為字符構字的穩(wěn)定部件。規(guī)范彝文分為26 個部首,包括54 個基本構件。從規(guī)范彝文819 個常用字符部首統(tǒng)計發(fā)現(xiàn),?部字符最多,約占8.5%;?部次之,約占8%;∨,∩,?,?,?,△,?,?,?,?,?,?部字符較少。部首?,?,?,?,?,?,?,?,?,?,?,?,?,?能獨立成字,表示完整的意義,作為穩(wěn)定的構字部件。
部件分類時以已有的彝文部首分類標準為參考,兼顧字符構造理據(jù),遵循字符構形的整體性及輸入編碼的便捷性原則,對于可獨立成字且用于古彝文和規(guī)范彝文中構字能力強的部首不拆分;構字能力弱的部首進行拆分合并,如“?”部,規(guī)范彝文中有17 個字符,在古彝文中不做構字部件,拆分為“?”和“─”;“?”部,規(guī)范彝文中有7 個字符,古彝文中有類似的部首“”,為方便編碼,拆分為“?”和“?”;部件“,,,,─”在古彝文作為字符構件使用頻率高,構字能力較強,視為獨立的構字部件。依據(jù)該部件分類標準,整理出穩(wěn)定的構字部件,部件分類如表1 所示。
根據(jù)各部件字符數(shù)量分布的多少及字符構形特征,將規(guī)范彝文的基本構字部件分為26 個大類并進行編碼。編碼分類時,主要依據(jù)部件與英文大小寫字母的形近性原則進行一對多編碼映射。如部件“?、?、?、?、?、?、?、∨、?”分別與大寫英文字母“I、L、C、W、N、X、S、V、U”外形相似,映射到相應的英文字母上;“?、、、、?”與小寫英文字母m 外形相似,映射到M 鍵上。少數(shù)與英文字母外形不具有相似性的部件,可借用漢字筆形讀音映射方式,如部件“匚,?”視為框形,映射到K 鍵上;“、、、”視為漢字“撇、捺”的變形部件,映射到P 鍵上。
編碼時,不區(qū)分基本部件的朝向、大小和方向,將形變、形近及方向倒置類部件放在同一鍵位上。如“?、?、?、?”幾個部件可視為由同一個部件變形而來,放在Y 鍵上;部件“?、⌒、?”外形相似,朝向不同,放在C 鍵上;部件“─、、-”朝向一致,大小不同,映射到T 鍵上;部件“?、”不區(qū)分大小,映射到I 鍵上。后期可依據(jù)該分類標準將古彝文的基本構字部件依次歸入該編碼分類表中,從而實現(xiàn)古彝文和規(guī)范彝文編碼的統(tǒng)一分類。部件編碼分類映射表如下:
表1 部件編碼分類映射表
彝文有上下、左右、左中右、上中下、半包圍、全包圍、交叉及單一結構。規(guī)范彝文中上下結構的字符居多,約為50%;左右結構次之,約為24%;交叉結構約為14%;單一結構的字符數(shù)最少,約為1.2%。主要采用先主筆后副筆,先上后下,先左后右,先中間后兩邊,先外后內的書寫順序。
字符編碼時依據(jù)字符的書寫筆順對字符進行全碼編碼,如字符“?”書寫順序為先豎后撇捺,編碼為IX;字符“?”書寫筆順是先外后內,編碼為BI。為簡化編碼,對于重復部件,采用“部件字母+重復次數(shù)”的方式編碼,如字符“?”編碼為I4。字符“?”編碼為BT4;因次高調符號“”與電腦鍵盤主鍵區(qū)數(shù)字符號鍵6 上的“^”外形相似,編碼時在規(guī)范字編碼之前加“^”表示,如字符“?”編碼為^S。
輸入法實現(xiàn)時,可不規(guī)定基本部件的鍵入順序,允許用戶自由組合輸入,實現(xiàn)一對多形碼編碼映射,由程序實現(xiàn)自動匹配。如字符“?”的輸入編碼可為IC 和CI;“?”的輸入編碼可為“CIT,CTI,ICT,ITC,TCI,TIC”6 種;“?”的輸入編碼為“LZT,LTZ,ZTL,ZLT,TLZ,TZL”6 種。
國家標準將編碼層次和軟件層次視為統(tǒng)一的鍵盤輸入系統(tǒng)進行性能考核。GB/T 19246-2003《信息技術通用鍵盤漢字輸入通用要求》提出了通用鍵盤漢字輸入系統(tǒng)的性能指標包括兩個方面:編碼層次上要求形碼編碼輸入法應該遵循漢字部件和筆畫規(guī)范,達到定性指標(易學性);軟件層次上要求達到量化指標(平均碼長、重碼字詞鍵選率)。[8]筆者從定性和定量指標統(tǒng)計分析發(fā)現(xiàn),該方案字符部件拆分規(guī)則合理,編碼原則簡單易學,輸入平均碼長適中,重碼率低,輸入效率較高。
易學性,即“字符輸入系統(tǒng)的時間應盡量短,并符合使用者的思維習慣”[9]。該方案主要依據(jù)彝文的構形特點,對字符進行部件拆分。部件拆分時遵循已有的部首分類原則,拆分合理,歸類科學,符合彝文字符部件規(guī)范,能有效減少彝文字符的構字單位,便于編碼和學習;此外,采用一對多部件編碼方式,不要求使用者熟悉彝文字符讀音,字符輸入時無須認讀,允許用戶按部件自由組合輸入,由程序實現(xiàn)自動匹配,降低了使用者的記憶難度。普通用戶只需很少的學習時間,即可掌握規(guī)則并進行文字輸入,易學性較強。
該方案對字符進行全碼編碼,平均碼長可作為輸入效率高低的參考指標?!缎畔⒓夹g通用鍵盤漢字輸入通用要求》(GB/T 19246—2003)規(guī)定:漢語拼音或簡易筆畫編碼方式輸入漢字常見文本時,平均碼長應<3.2;雙拼、部件編碼或以部件為主的編碼輸入,平均碼長應<2.2。該方案平均碼長計算如下:
表2 字符編碼碼長分布表
從表2 可以看出,該方案平均編碼碼長約為3.1,碼長適中。碼長為3 鍵元和4 鍵元字符的分布率最高。因而字符輸入時,擊鍵次數(shù)較少,輸入速度較快。
重碼率是衡量一個編碼方案中具有相同編碼的字符多少的指標,可用作衡量輸入法輸入效率的定量指標。[10]測試發(fā)現(xiàn),該方案的重碼率相對較低,輸入效果較好。重碼分布表如下:
表3 字符重碼分布表
從表3 可以看出,該編碼方案下,規(guī)范彝文819 個常用字符中無重復編碼的字符數(shù)為554 個,占67.6%,即有554 個字符輸入時可實現(xiàn)與目標字符的精確匹配;字符編碼最高重復次數(shù)不超過5 次,即字符輸入時均不需要翻頁查找即可實現(xiàn)與目標字符的匹配。因而,該輸入方案對字符的精確匹性較好,重碼率較低,輸入較為快捷。
本文依據(jù)彝文字符構形特征設計了一對多形碼輸入方案,字符輸入時,不受字符讀音的限制,允許用戶按部件自由組合輸入,編碼規(guī)則簡單易學,能較好地遷移到古彝文及其他象形文字上使用,實用性強,適用范圍廣。
(1)實用性強。彝文內部情況復雜,字符量大,異體字、生僻字多,字符存在方言區(qū)讀音和形體差異。采用字形編碼輸入,可不受字符讀音的限制,能遷移到古彝文及他少數(shù)民族象形文字上編碼使用;此外,采用一對多映射的編碼方式,不完全要求按字符書寫順序輸入字符,用戶可按部件自由組合輸入,降低了學習難度,即使不熟彝文的用戶也能快速掌握,實用性較強。
(2)適用性廣。古彝文是超方言的表意文字,字形獨特,其構字部件大多與規(guī)范彝文相同或由其方位倒置或變形而來。字符書寫筆畫多樣,除有規(guī)范彝文中的點、橫、豎、撇、捺、折、圓、弧形、曲形、框形等基本筆形外,還有豐富的連體、繞形、波浪及重疊變形筆畫。字符構字筆畫少則1 畫,多則10 畫以上。該方案按部件拆分方式對字符進行分類編碼,能保持彝文字形的全面性和系統(tǒng)性,避免了對字符進行過度拆分,有效地減少了字符的構字單位,便于實現(xiàn)計算機字符的編碼和輸入。其次,依據(jù)形碼編碼方式輸入字符,不受彝文方言區(qū)讀音差異的影響,不僅適合規(guī)范彝文字集編碼,也能用于大字符集的古彝文編碼,適用范圍更廣。
彝文內部情況復雜,但有共同的字符結構、部首、筆畫、筆順及穩(wěn)定的部件構字體系。本文依據(jù)彝文的字形特點,參考已有的部首分類標準,遵循直觀、易學的原則,對規(guī)范彝文字符進行部件拆分。部件拆分時,考慮到彝文字符構形的整體性及輸入編碼的便捷性,保留了規(guī)范彝文中的獨體字及構字能力強的部首,拆分合并構字能力弱的部首,拆分規(guī)則合理,符合彝文字符的構字規(guī)律。在此基礎上,按形似性特征實現(xiàn)字符的一對多編碼映射,設計一對多部件形碼輸入方案。從已有的統(tǒng)計數(shù)據(jù)來看,該方案編碼規(guī)則簡單易學,平均碼長適中,重碼率低,輸入效率高,適用范圍較廣,具有較好的實用性。此外,本文采用部件編碼輸入方式,便于實現(xiàn)計算機字符輸入,有助于推進古彝文和規(guī)范彝文編碼的統(tǒng)一,為古彝文信息化發(fā)展提供條件,符合當前彝文信息化發(fā)展的要求。