張增良
摘要: 漢字編碼的質(zhì)量直接反映漢字輸入技術的水平,也影響著計算機的推廣應用。文章采用實證研究和統(tǒng)計研究等方法,對優(yōu)秀漢字編碼所具有的特征和評測指標作了詳細分析和探討,并提出了一個新的評測指標—碼荷量。碼荷量可以反映重碼率和重碼密度的綜合情況,利用它可以更加準確地判斷輸入效率。
關鍵詞: 漢字輸入; 漢字編碼; 評測; 碼荷量
中圖法分類號:TP391.1文獻標志碼:A 文章編號:1006-8228(2012)03-65-03
Qualitative measurement of Chinese-characters encoding
Zhang Zengliang
(PLA Foreign Languages University, Luoyang, Luoyang, Henan 471003, China)
Abstract: The encoding and input techniques of Chinese characters emerged and got developed as computers entered China. The quality of the Chinese character encoding directly reflects the speed of input of Chinese characters, and influences the extent of popularization and application of computers in China. In this paper, the author applies empirical and statistical approach to conduct a specific analysis and discussion on qualitative measurement of Chinese character encoding, and proposes a new measurement index—code load.
Key words: Chinese character input; Chinese character encoding; qualitative measurement; code load
0 引言
自上世紀八十年代以來,漢字編碼技術得到了不斷發(fā)展和進步,人們研制出了多種漢字編碼及其輸入系統(tǒng),如“全拼”、“五筆”、“紫光”、“三音碼”、“自然碼”、“搜狗”、“智能ABC”等,它們都有著各自的特點,并在信息處理領域發(fā)揮著重要作用,相信今后還會不斷有新的更好的編碼產(chǎn)生。那么,如何科學評價一個漢字輸入系統(tǒng)和漢字編碼的優(yōu)劣呢?下面我們就來討論優(yōu)秀漢字編碼所具有的特征及評測指標。
1 優(yōu)秀漢字編碼的特征
優(yōu)秀的漢字編碼會使?jié)h字的輸入效率得到極大提高,也會深受廣大用戶的普遍歡迎。我們認為,一個優(yōu)秀的漢字編碼應具有下面幾個特征。
1.1 編碼要規(guī)范
漢字編碼的規(guī)范性是衡量漢字輸入系統(tǒng)質(zhì)量的重要指標之一。漢字編碼只有符合規(guī)范,才能使識字、查字、寫字、打字相一致,做到易學高效,從而具有旺盛的生命力并得到大規(guī)模推廣。漢字經(jīng)過長期的發(fā)展和演變,不論是發(fā)音、字形結(jié)構還是表義功能,都有其自身的規(guī)律,人們在長期使用漢字的過程中也形成了客觀的視聽和書寫習慣。漢字編碼必須遵循這種規(guī)律和習慣,這就是規(guī)范性。要實現(xiàn)漢字編碼的規(guī)范化,應著重把握以下幾點。
⑴ 字音編碼要符合國家公布的《漢語拼音方案》。無論是音碼還是音形碼,都應以《漢語拼音方案》來作為漢字發(fā)音的依據(jù)和標準,那些為遷就部分方言較重地區(qū)的人們而設置的所謂“南方音”的做法是值得商榷的。
⑵ 拆分部件應符合國家公布的《漢字統(tǒng)一部首表》和《漢字末級部件組字頻度表》,以及國標GF 3001(《信息處理用GB 13000.1字符集漢字部件規(guī)范》)。由于漢字是表意文字,構字部件(尤其是偏旁部首)大都表示一定的意義并有固定的形態(tài)。為了符合人們的識字習慣,對于那些形碼類(含音形碼)編碼方案,應選用規(guī)范的部首和偏旁做為拆分部件,而不應使用隨意拆出的不規(guī)范的所謂字根。
⑶ 編碼所涉及的筆畫、筆順應符合國標GF 3002(《GB 13000.1字符集漢字筆順規(guī)范》)的規(guī)定。
⑷ 編碼規(guī)則要符合我國的《義務教育小學語文教學大綱》。不規(guī)范的編碼會對識字教學產(chǎn)生干擾。無論哪種類型的編碼方案,都不能有悖于我國中小學語文教學規(guī)范。同時,中小學的漢字編碼教學切忌單純?yōu)榱瞬僮麟娔X和輸入漢字,而應將編碼教學融入語文教學中,進而促進語文教學有利于學生能力的培養(yǎng)。
⑸ 漢字輸入鍵盤應采用國際通用的標準鍵盤,以利于輸入系統(tǒng)的推廣普及和交流。
⑹ 碼元定義要符合標準要求。碼元是漢字編碼的基礎和關鍵性元素,其定義包含兩方面內(nèi)容:一是確定具體的碼元和數(shù)目,二是完成碼元在鍵盤中的布局。碼元數(shù)既不能太多,也不能太少,一般以26個英文字母和10個數(shù)字為限,需要時可使用個別的輔助鍵。鍵盤布局應遵從合理、規(guī)范和均衡的原則目前可遵循的標準有:國標GB/T19246(《信息技術通用鍵盤漢字輸入通用要求》)、國標GB/T18031(《信息技術數(shù)字鍵盤漢字輸入通用要求》)等。
1.2 能反映漢字性質(zhì)
漢字是表意文字,是音、形、義的統(tǒng)一體,表意是漢字的性質(zhì)。根據(jù)漢字的構造方式我們知道,大部分形聲字都是由“形旁”(偏旁部首)和“聲旁”兩部分組成的,“形旁”表示漢字的意義,“聲旁”表示漢字的發(fā)音,例字見表1。
表1形聲字舉例
[[例字&聲旁、形旁及意義&描&聲旁:“苗”表示發(fā)音miao
形旁:“扌”表示描畫需用手&想&聲旁:“相”表示發(fā)音xiang
形旁:“心”表示“想”是心理活動&唱&聲旁:“昌”表示發(fā)音chang
形旁:“口”表示唱歌需用口&霧&聲旁:“務”表示發(fā)音wu
形旁:“雨”表示霧可成雨&飄&聲旁:“票”表示發(fā)音piao
形旁:“風”表示有風方可飄&]]
漢字的這一獨特性質(zhì)為漢字輸入技術提供了一個廣闊天地。既然是漢字輸入系統(tǒng),其編碼方案就應反映漢字的性質(zhì),要具有中國傳統(tǒng)文化的內(nèi)涵。在這方面,“三音碼”和“自然碼”不失為優(yōu)秀漢字編碼的典型代表。例如,“三音碼”中“婆”字的編碼是pond,其中po表示字音(聲母和韻母),n表示偏旁“女”(婆婆肯定是女人),d表示偏旁在字的底部。
顯然,能夠體現(xiàn)漢字性質(zhì)的編碼方案,既有較深的文化內(nèi)涵,又有很好的群眾基礎,自然也有很強的生命力。
1.3 有較強的易學性
漢字編碼的易學性是衡量漢字輸入系統(tǒng)優(yōu)劣的一個重要指標。在信息時代的今天,人們時刻都在與信息打交道,掌握信息處理技術不再只是專職人員的事情。因此,一個漢字輸入系統(tǒng)要想得到廣泛普及和具有長久生命力,其編碼就必須具有較強的易學性,使普通用戶不需花費太多的精力和時間就能掌握。
“漢字輸入過程是一種非常復雜的認知加工過程,不管采用形碼還是音碼的方式,它都包括了從文字識別、記憶信息提取、語音(或字形)編碼、鍵盤空間位置匹配到漢字模式匹配和認知監(jiān)控等一系列認知加工活動”[1]??梢姡岣邼h字編碼的易學性,可從降低編碼的復雜度入手,以減少輸入過程中的認知加工活動。為此,編碼方案應選擇合適的編碼類型,合理規(guī)劃編碼所攜帶的漢字信息,簡化編碼規(guī)則,避免過度拆字。
1.3.1 選擇適宜的編碼類型
漢字編碼類型可分為四種:①單純基于字音元素的純音碼;②單純基于字形元素的純形碼;③基于字音和字形這兩種元素的音形碼(含以音為主和以形為主的);④以純數(shù)字作為碼元的數(shù)字碼。
一般來說,數(shù)字碼(如電報碼、區(qū)位碼等)適用于專業(yè)人員。純音碼具有重碼率和碼荷量高的致命弱點,純形碼具有沉重的“拆字”負擔;而音形碼則具有明顯的編碼優(yōu)勢,它既有易學性,又無沉重的“拆字”負擔,并且很符合以漢語為母語的人們的思維習慣。嚴喻[2]老師對漢字屬性評估的研究結(jié)果認為,“聲母和筆順與其他漢字屬性相比,其規(guī)范性和易學性是最好的”。因此,優(yōu)秀的編碼方案往往出自以“音”為主、以“形”為輔的音形碼,且“形”也以“音托”的方式來體現(xiàn)。
以音為基礎的編碼方案具有較短的培訓周期和較好的易學性,如全拼、智能ABC、紫光、三音碼和自然碼等都是如此。
1.3.2 攜帶適量的漢字信息
錢玉趾[3]認為,漢字的重要信息包括字音信息(含聲母、韻母、聲調(diào))、字義信息(偏旁部首)以及字形信息(結(jié)構類型、構字部件、部件位置、筆畫及筆畫數(shù))等大小10余項。任何編碼方案都會攜帶適量的漢字信息。所攜帶的漢字信息越多,編碼越復雜;所攜帶的漢字信息越少,編碼越簡單,但重碼率和碼荷量也越高。一般來說,攜帶3~4項漢字信息比較合適,太少會造成大量重碼,太多會增加碼長和編碼復雜度。比如,“三音碼”的漢字編碼攜帶了聲母、韻母、偏旁部首以及偏旁的位置等4項信息,而“自然碼”攜帶了聲母、韻母、偏旁部首等3項信息,實踐證明,這兩個編碼方案都具有較好的易學性。
1.3.3 避免對漢字的過度拆分
使用形碼類和音形碼編碼方案輸入漢字都需對漢字進行拆分。那么,采取怎樣的拆分原則最為直接而簡單呢?從形象思維角度看,合體字(各組字部件分離)比較容易拆分,而交重字(組字部件交叉或重疊)則不易拆分。因此,為了降低拆分難度,可將交重字視為不可拆分的末級部件,以避免對漢字的過度拆分?!叭舸a”采用的正是這一拆分原則,對于交重字采用極其簡單的處理方法,即:干脆不拆出偏旁,而統(tǒng)一用o來標識。例如,“末”字的編碼為moo,其中mo表示字音,第二個o表示該字為交重結(jié)構,而不將其拆分為“一”和“木”。
1.4 符合人的思維習慣
語言是人類思維的直接表現(xiàn)形式,文字只是語言的書面符號。信息的第一載體是語言而非文字。人們在進行思維和交流時,首先反映在腦海中的是語音,然后通過語言表達出來??梢?,與人類思維聯(lián)系最緊密、最能直接反應人的思想活動的是語音。
打字過程中如能聯(lián)系語音,就不會去死記編碼,而是想到什么詞語就直接打出什么詞語,打字與思維保持高度一致。以輸入“其樂無窮”這個詞為例,如采用以音為主的輸入系統(tǒng)(比如三音碼),則只需輸入qlwq(各字的聲母)即可。這個輸入過程與思維過程是完全一致的,不會發(fā)生因復雜的拆字過程而使打字者的寫作思路受到干擾的現(xiàn)象。
可見,音碼類(含音形碼)編碼方案在符合人的思維習慣方面具有明顯優(yōu)勢。對于那些作家、記者和編輯等文字工作者來說,使用此類編碼可實現(xiàn)構思、撰稿、編輯、修改等工作的協(xié)調(diào)開展,大大提高工作效率。
1.5 有較強的完備性
編碼方案的完備性是指方案的“編碼規(guī)則不僅適用于基本字符集中的漢字的編碼,還適用于大字符集乃至全字符集中的漢字的編碼”[4],并且繁簡字的編碼能保持一致。漢字字符集有GB2312-80、GBK和GB18030等。其中,GB2312-80是我國于1980年制訂的國標基本字符集,收錄了6763個漢字(一級字3755個,二級字3008個);GBK收錄了20902個漢字;GB18030收錄了27484個漢字。早期受操作系統(tǒng)的限制,大多數(shù)編碼方案僅支持GB2312-80,雖然其漢字利用率高達99%,基本可以滿足日常文字工作的需求,但繁體字(如國、組、嗎、獨等)和一些非常用字(如镕、堃、犇、瞭、喆、囍等)卻無法輸入。目前,隨著計算機技術的不斷發(fā)展,編碼方案支持基本字符集和全字符集已不成問題。
一般來說,音碼類編碼方案與形碼類編碼方案相比有較好的完備性。以“獨(獨)”字為例,“全拼”的繁簡編碼同為du,“三音碼”的繁簡編碼同為dufq(du表示字音,fq表示反犬旁“犭”),而對于形碼類編碼方案來說,同一漢字的繁簡編碼往往相去甚遠。
1.6 有較高的輸入效率
衡量一個漢字編碼的優(yōu)劣還有一個重要指標—漢字的輸入效率。與輸入效率密切相關的因素主要有:易學性、規(guī)范性、編碼長度、平均碼長、重碼率、碼荷量等。其中易學性和規(guī)范性前面做過介紹,下面著重討論其余幾項。
1.6.1 編碼長度
編碼長度是指單個編碼所使用的最大碼元個數(shù)。編碼長度往往與編碼的復雜度成正比,而與重碼率和碼荷量成反比。可見,編碼長度應控制在一個合適的范圍,偏高或偏低都會影響漢字的輸入效率。實踐證明,一個既有較低編碼復雜度,又有較高輸入效率的編碼方案,其編碼長度在4左右。
1.6.2 平均碼長
平均碼長是指在輸入給定的測試樣本時,測得的輸入每個漢字的平均擊鍵次數(shù),它是一個動態(tài)指標,其量化公式為:
輸入測試樣本的擊鍵次數(shù)/測試樣本總字數(shù)
這一公式可簡記為:
鍵/字[5]
平均碼長是在某個編碼方案的綜合輸入環(huán)境中測得的,一般不計空格鍵。在測試過程中可使用該編碼方案所支持的一切輸入手段,如:簡碼輸入、詞組輸入、高頻先見等。顯然,平均碼長越短輸入效率越高。筆者的研究認為,好的輸入方案的平均碼長一般低于2.2。
1.6.3 重碼率
重碼率是衡量一個編碼方案中具有相同編碼的漢字多少的指標,其量化公式為:
(重碼字數(shù) / 漢字總數(shù))*100%
一般來說,在不增加編碼復雜度的情況下,重碼率越低越好。重碼率與輸入效率成反比。
值得說明的是,重碼率的評測結(jié)果往往具有一定的不確定性。也就是說,重碼率的高低并不能確切反映編碼方案的優(yōu)劣,應綜合考慮其他評測指標(如碼荷量)的高低。
例如,假設有A,B兩個編碼方案,A方案中每2個字使用一個編碼,B方案中每10個字使用一個編碼。盡管它們的重碼率都是100%,但A方案要明顯優(yōu)于B方案。這是因為,B方案中重碼字的密度和選擇難度要遠大于A方案,輸入效率當然也低于A方案。
1.6.4 碼荷量
碼荷量(Code load)是筆者在長期的編碼實踐中摸索到的一個有效評測指標,它表示編碼方案中平均每個編碼所對應的漢字或詞的個數(shù)。碼荷量的量化指標可用公式表示為:
L= W/C
其中,L表示碼荷量,W表示參加編碼的字詞總數(shù),C表示編碼方案中的編碼總數(shù)。
碼荷量反映的是重碼率和重碼密度的綜合情況,其評測效果要優(yōu)于重碼率。應該認識到,影響漢字輸入效率的關鍵因素是碼荷量,而非重碼率。碼荷量越高,意味著重碼字的密度和選擇難度越大,輸入效率越低。這如同一輛卡車,裝載的東西越多,跑得就越慢。我們的研究結(jié)果表明,編碼方案的碼荷量只要不超過3就是可行的,而小于1.2就是很好的,“五筆字型”和“三音碼”的碼荷量都在1.2左右。
如前述的A方案,盡管其重碼率高達100%,但由于其碼荷量只有2,輸入漢字時只需通過一個數(shù)字鍵即可選擇所要的字,如能借助輸入系統(tǒng)的“高頻先見”智能處理功能甚至可免除選擇鍵,因而輸入效率不會受到太大影響。
對于“全拼”編碼方案來說,不僅重碼率高達100%(只有“嗲”、“么”、“暖”、“森”、“僧”、“能”、“給”、“賊”等字無重碼),碼荷量竟也高達16.2。這就意味著平均每個編碼要對應16個以上的漢字,要輸入一個字往往需要進行多次的翻頁選字操作,輸入效率自然不會高。碼荷量高正是“全拼”方案不如人意的主要癥結(jié)。
可以說,“全拼”效率低的根本原因是有很高的碼荷量和較大的平均碼長。而“五筆字型”和“三音碼”等輸入法的輸入效率之所以高,是因為它們的編碼具有較低的碼荷量和較短的平均碼長。
2 漢字編碼的評測指標
由前述可見,衡量一個漢字編碼的優(yōu)劣,需要綜合考慮多個評測指標。我們將這些指標劃分為靜態(tài)評測指標和動態(tài)評測指標兩類。
靜態(tài)評測指標是指漢字編碼方案所固有的一些狀態(tài)和性能指標,包括編碼類型、攜帶信息、碼元定義、所支持的漢字字符集、規(guī)范性、編碼長度、重碼率以及筆者提出的一個新的評測指標—碼荷量。
動態(tài)評測指標是指在使用某個編碼方案進行漢字輸入的過程中動態(tài)體現(xiàn)的一些性能指標,主要包括平均碼長、鍵選率、輸入效率等。
經(jīng)過筆者長期的編碼研究和實踐,提出了漢字編碼的主要評測指標及高、中、低三個檔次的參考標準,現(xiàn)列于表2中,供廣大編碼研究者參考使用。
表2漢字編碼評測指標及參考標準
[[評測指標&參 考 標 準&低&中&高&靜態(tài)
指標&編碼類型&純形碼&純音碼 &音形碼&攜帶信息&< 2 或 >5&2~3&4~5&碼元數(shù)&> 37 或 <25&25~37&26~36&鍵元分布&不支持
GB/T19246&部分支持
GB/T19246&支持
GB/T19246&字符集&GB2312-80&GBK&GB18030&規(guī)范性&不符合
GB/T19246&部分符合
GB/T19246&符合
GB/T19246&編碼長度&>10 或 < 3&6~10&3~5&重碼率&> 18%&<= 18%&< 9%&碼荷量&> 3&<= 3&< 1.2&動態(tài)指標&平均碼長&> 3&< =3&< 2.2&鍵選率&> 9%&<= 9%&< 6%&輸入效率&< 45字/分鐘&>= 45字/分鐘&> 56字/分鐘&]]
3 結(jié)束語
漢字編碼和輸入技術正經(jīng)歷著從不夠成熟到逐漸成熟的歷史過程。漢字編碼評測技術的不斷完善和進步,為漢字輸入技術的發(fā)展指明了方向??梢灶A言,漢字編碼內(nèi)在質(zhì)量的不斷提高和漢字本身所具有的獨特優(yōu)勢,將使古老的方塊字成為信息時代的驕子。
參考文獻:
[1] 李寧,漢字輸入法對漢字輸入技能水平的影響[J].心理研究,2010.3
(5):48~51
[2] 嚴喻,華澤璽.雙碼三筆漢字輸入法的編碼技術[J].計算機科
學,2009.10:296~298
[3] 錢玉趾,徐弟宣.漢字編碼的必要信息及信息含量[J].成都大學學報,
1996.6:48~54
[4] 何克抗,面向中小學的漢字編碼性能指標分析[J].中文信息學報,
1996.1:53~62
[5] 國語委,GB/T19246(信息技術通用鍵盤漢字輸入通用要求)[S].中國
標準出版社,2003.