顧 劍
(海南大學(xué) 信息科學(xué)技術(shù)學(xué)院,海南 ???570228)
?
信息系統(tǒng)中英文與中文系統(tǒng)的比較
顧劍
(海南大學(xué) 信息科學(xué)技術(shù)學(xué)院,海南 ???570228)
摘要:信息系統(tǒng)中英文系統(tǒng)具有文字本身固有的規(guī)律,可以處理所有的正確、現(xiàn)在錯(cuò)誤將來(lái)正確和永遠(yuǎn)錯(cuò)誤3類文字,但中文系統(tǒng)因違背了文字本身固有的規(guī)律:無(wú)限性和有序性,因而不可能處理全部漢字.理論和現(xiàn)實(shí)都要求中文系統(tǒng)必須要能處理全部漢字,因此,英文與中文系統(tǒng)存在根本性差異,專利《無(wú)限有序字符集漢字全集方法和系統(tǒng)》可以徹底解決中文系統(tǒng)實(shí)現(xiàn)無(wú)限性和有序性問(wèn)題.
關(guān)鍵詞:文字編碼; 文字無(wú)限性; 文字有序性; 賬戶實(shí)名制; 中文系統(tǒng)
本文3個(gè)術(shù)語(yǔ)的定義:
信息系統(tǒng):指使用計(jì)算機(jī)技術(shù)的文字信息處理系統(tǒng),包括對(duì)文字的輸入、輸出、處理和存儲(chǔ)等等.
英文系統(tǒng):指使用基本ASCII編碼處理英文信息和ASCII定義字符圖形的文字信息處理系統(tǒng).
中文系統(tǒng):指使用擴(kuò)展ASCII編碼處理漢字信息和漢字字符圖形的文字信息處理系統(tǒng).
信息系統(tǒng)中的字符,特別是漢字字符與現(xiàn)實(shí)生活中的漢字字符有著根本的不同.現(xiàn)實(shí)生活中的漢字字符涉及的是一個(gè)社會(huì)的政治經(jīng)濟(jì)文化,而信息系統(tǒng)中的漢字字符涉及的則主要是技術(shù),其不同的產(chǎn)品因使用了不同的技術(shù)標(biāo)準(zhǔn)而千差萬(wàn)別.在使用任何一個(gè)信息系統(tǒng)之前都必須要選擇使用的字符系統(tǒng),英文系統(tǒng)普遍存在于信息系統(tǒng)之中,一般無(wú)需選擇;中文系統(tǒng)因不同的產(chǎn)品差異很大則必須選擇,例如微軟產(chǎn)品的Windows XP(如圖1所示)與Windows 7(如圖2所示)就不一樣,Ubuntu 10.0中的漢字系統(tǒng)選擇差異則更大(如圖3所示).
圖1微軟Windows XP中漢字選擇圖2微軟Windows 7中漢字選擇圖3Ubuntu 10.0中漢字選擇
如有多少漢字就是一個(gè)難題,《漢語(yǔ)大字典》用收列單字五萬(wàn)六千字左右[1], 《中華字?!酚檬珍浛瑫?shū)漢字八萬(wàn)五千余個(gè)[2],《新華字典》用收單字10 000余個(gè)[3]表述.漢字字符的數(shù)量,在理論上是無(wú)限的,在現(xiàn)實(shí)中是不確定、發(fā)展的.從技術(shù)層面看,英文系統(tǒng)基本使用ASCII標(biāo)準(zhǔn),而中文系統(tǒng)涉及的概念就非常多,如GB碼、big5碼、ISO碼、輸入碼、交換碼和內(nèi)碼等.
本文僅從信息系統(tǒng)字符編碼的角度出發(fā),對(duì)英文和中文系統(tǒng)進(jìn)行比較,并做初步的探討.
1信息系統(tǒng)中字符編碼的作用
信息系統(tǒng)中字符編碼有2個(gè)方面作用:1)文字信息的處理;2)文字本身的處理.文字信息的處理和文字本身的處理在技術(shù)層面有很多的交叉,對(duì)文字本身的處理也可以說(shuō)是文字信息處理的一部分.因此,將2個(gè)問(wèn)題合為文字信息處理來(lái)討論.
在計(jì)算機(jī)被發(fā)明之前,對(duì)文字信息的處理只能是在一個(gè)很小或局部的范圍之內(nèi)進(jìn)行,如每個(gè)單位的人事檔案就是對(duì)名字處理.隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,英文系統(tǒng)已經(jīng)很好地實(shí)現(xiàn)了文字信息處理,但是中文系統(tǒng)還沒(méi)有從根本上進(jìn)行解決.
1.1文字輸入文字信息處理的首要任務(wù)是文字的輸入,即文字的輸入是文字記錄的前提.英文系統(tǒng)由于ASCII標(biāo)準(zhǔn)的建立,已經(jīng)在理論和實(shí)踐上很好地解決了文字輸入的問(wèn)題,英文是直接“寫”(輸入)的,而中文系統(tǒng)至今不論是在理論層面還是在應(yīng)用系統(tǒng)中都沒(méi)有得到很好地解決.
在信息系統(tǒng)中的中文系統(tǒng)中,給出任意一個(gè)漢字A,將其輸入的唯一技術(shù)基本流程是
1) 找出全部的漢字圖形和輸入方式對(duì)照表;
2) 從頭到尾,一張表一張表,一個(gè)漢字圖形一個(gè)漢字圖形地去與漢字A比較;
3) 得出比較結(jié)果一:如果確認(rèn)給出的漢字A在某張表中,則用該張表中給出的輸入方式輸入漢字A,輸入成功;
4) 得出比較結(jié)果二:如果確認(rèn)給出的漢字A不在這些表中,輸入失敗.
該技術(shù)的核心是漢字圖形和輸入方式對(duì)照表,不是直接“寫”(輸入)漢字.由于采用的漢字圖形和輸入方式對(duì)照表的差異,導(dǎo)致目前漢字的輸入編碼體系繁多.
此外,用造字技術(shù)來(lái)解決輸入給出的任意一個(gè)漢字A的問(wèn)題,即在輸入時(shí)允許輸入者修改漢字圖形和輸入方式對(duì)照表中的漢字圖形.造字技術(shù)在整個(gè)信息系統(tǒng)中是不可行的,即不能進(jìn)行彼此交換和傳播,通俗地講就是只在修改的設(shè)備上可以看到漢字A,而在其他設(shè)備上看到的不是漢字A而是一個(gè)空白或一個(gè)其他圖形.不僅如此,造字技術(shù)還有一個(gè)根本的缺陷,即給出的漢字?jǐn)?shù)量比對(duì)照表中的圖形無(wú)法解決問(wèn)題.
中文文字信息處理的基本流程還不能自動(dòng)完成,其難點(diǎn)是:不論在理論還是在實(shí)踐上,計(jì)算機(jī)技術(shù)還沒(méi)有辦法準(zhǔn)確完成流程中的第二步.
1.2已記錄文字的分類對(duì)已輸入文字進(jìn)行分類是信息處理的基本方法.
英文系統(tǒng)依據(jù)ASCII編碼,可以準(zhǔn)確地對(duì)所有輸入的文字進(jìn)行科學(xué)分類.如,對(duì)于“work”,“workee”和“worker”3個(gè)文字,依據(jù)ASCII編碼w是數(shù)77(文中數(shù)字是16進(jìn)制,下同)、o是6f、r是72、k是6b,因此在信息系統(tǒng)中“work”是數(shù)776f726b,“workee”是數(shù)776f726b6565,“worker”是數(shù)776f726b6572.
在英文系統(tǒng)可以對(duì)此進(jìn)行準(zhǔn)確的信息技術(shù)領(lǐng)域里的分類和處理,如:
按長(zhǎng)度分類:“work”是4個(gè)ASCII碼,“worker”是6個(gè)ASCII碼,即“work”比“worker”短2字節(jié).
按位置分類:
1) 可準(zhǔn)確給出在信息系統(tǒng)的信息中,“work”在前,“worker”后;
2) 可準(zhǔn)確給出確定數(shù)量的在“work”和“worker”之間的其他所有4個(gè),5個(gè),6個(gè)ASCII碼的“文字”,“workee”就是其中一個(gè);
3) 輸入另一個(gè)文字A,可準(zhǔn)確給出文字A與“work”和“worker”的相對(duì)位置.
4) “work”(776f726b)前面的字是“worj”(776f726a),后面的字是“"worl”(776f726c).
結(jié)論的數(shù)量和意義在理論上是確定的,但因每次計(jì)算時(shí)的“環(huán)境”不同,結(jié)論的數(shù)量和意義可能不同,即不同的使用“環(huán)境”會(huì)有不同的結(jié)果,但相同的“環(huán)境”一定具有相同的結(jié)果.這與使用文字的情況一樣,即同樣的文字,在不同的“環(huán)境”下其含義不同.
5) 用信息處理理論和技術(shù)對(duì)其進(jìn)行處理,如用“0”和“01”來(lái)代替“work”和“worker”,可以大大提高系統(tǒng)的時(shí)間和空間效率,降低系統(tǒng)成本,提高系統(tǒng)可靠性.
依據(jù)文字編碼,對(duì)文字進(jìn)行文字意義上的分類,如:
1) “work”與“worker”前4個(gè)ASCII相同,則發(fā)音一般相同;
2) “work”與“worker”前4個(gè)ASCII相同,則文字含義一般有相近的意義;
3) 在普通字典中一般是“work”在前,“worker”在后;
4) 輸入文字“workee”,可給出“workee”在“work”之后,在“worker”之前,即3個(gè)文字的字典排序是“work”,“workee”,“worker”的結(jié)果;
5) 如果有普通電子字典,機(jī)器查詢后找不到“workee”,可給出“workee”是一個(gè)非規(guī)范文字提示(普通字典一定是排序的,可用索引技術(shù)查詢,立即找到“workee”字).
因?yàn)橹形南到y(tǒng)依據(jù)文字編碼無(wú)法進(jìn)行已記錄文字的科學(xué)分類和處理.如“坯”和“丕”2個(gè)文字,系統(tǒng)依據(jù)文字編碼給不出任何與文字有關(guān)的信息:即不能給出2個(gè)文字在文字意義上的任何關(guān)聯(lián)性,如發(fā)音、筆劃數(shù)、字形結(jié)構(gòu)、在普通字典的位置和文字含義是否接近等.如果輸入另一個(gè)文字A,系統(tǒng)更不可能給出文字A與“坯”和“丕”在文字含義上的任何關(guān)系.中文系統(tǒng)雖然可以對(duì)“坯”和“丕”進(jìn)行編碼上的排序,但也只是流程第一步中某種漢字圖形和輸入方式對(duì)照表中漢字圖形的位置,沒(méi)有任何文字上的意義.
1.3不能用big5和GB字符編碼對(duì)文字分類現(xiàn)行中文系統(tǒng)中大都使用big5和GB編碼.“坯”和“丕”在GB碼中,“坯”是c5f7,“丕”是d8a7.如果用信息處理的基本處理技術(shù)處理,給出的結(jié)論是完全錯(cuò)誤的.
1) 數(shù)c5f7小于數(shù)d8a7,所以“坯”(c5f7)在前,“丕”(d8a7)在后;
2) 數(shù)c5f7和數(shù)d8a7中間有d8a7-c5f7=12b0,即4 784個(gè)數(shù),所以“坯”和“丕”2個(gè)字關(guān)系不大,且中間有4 784個(gè)漢字;
3) “坯”(c5f7)前面的字是“碰”(c5f6),后面的字是“砒”(c5f8),“丕”(d8a7)前面的字是“卅”(d8a6),后面的字是“亙”(d8a8).
客觀地講,big5碼至少在理論上考慮了字形的關(guān)系,如“汙、汚、汢、汣、汥、汦、汧、汫、汬、汭、汮、汯、汱、汳”14個(gè)字,在信息系統(tǒng)中的數(shù)是9b40~9b4d.因此,系統(tǒng)給出以下結(jié)論:
1) 數(shù)9b40小于數(shù)9b41,所以“汙”(9b40)在前,“汚”(9b41)在后;
2) 數(shù)9b40和數(shù)9b41連續(xù),所以“汙”和“汚”2個(gè)字之間沒(méi)有其他字;
3) “汙、汚、汢、汣、汥、汦、汧、汫、汬、汭、汮、汯、汱、汳”14個(gè)字編碼上有前后順序關(guān)系,因此可得出前面的字(如“汙”9b40)至少不比后面的字(如“汳”9b4d)筆畫(huà)多.
但這些結(jié)論是不能用或不完備的,如“汫、汬、汭”中的“汬”字,雖然有文字意義上的關(guān)聯(lián)性,但在字形上相差甚遠(yuǎn).
在GB碼中有一級(jí)漢字和二級(jí)漢字之分,但恰恰是這2個(gè)級(jí)別的漢字給信息系統(tǒng)造成致命的混亂.GB碼一級(jí)漢字按音排序,二級(jí)漢字按形排序,在理論和實(shí)踐上都給使用者帶來(lái)永遠(yuǎn)都無(wú)解的難題:什么字按音去找?什么字按形去找?最終能使用的技術(shù)也只有一個(gè),即人工一個(gè)一個(gè)圖形去對(duì)照.例如,“洪”和“泊”2個(gè)字,GB碼給出的是“泊”是一級(jí)漢字而“浜”是二級(jí)漢字.
2字符編碼的理論基礎(chǔ)
字符編碼必須符合文字本身的內(nèi)在特征,從信息系統(tǒng)的角度講,最基本的一定是文字的無(wú)限性和有序性.
2.1文字的無(wú)限性文字的無(wú)限性最直接和易理解的是文字的無(wú)限發(fā)展和數(shù)量的不確定性.漢語(yǔ)言文字是從無(wú)到有逐漸發(fā)展的,經(jīng)歷了甲骨文、文言文和白話文等,即便是在中華人民共和國(guó)成立后,中文系統(tǒng)出現(xiàn)以前漢字還在不斷發(fā)展,最好地例證就有新元素的命名、簡(jiǎn)化字多個(gè)版本的發(fā)布和廢除部分試行的簡(jiǎn)化字等.但在中文系統(tǒng)出現(xiàn)后,漢字發(fā)展出現(xiàn)了停滯,字符數(shù)量甚至有減少的趨勢(shì).目前,在我國(guó)大陸常用的GB碼圖形有6千多個(gè),在臺(tái)灣地區(qū)常用的big5碼圖形有1.3萬(wàn)個(gè)左右.因而如果在中國(guó)使用計(jì)算機(jī),一般人不但不能使用《漢語(yǔ)大字典》中的5.6萬(wàn)左右的漢字,即便是《新華字典》中的1萬(wàn)漢字也無(wú)法全部使用.
中文系統(tǒng)中的字符編碼使用定長(zhǎng)碼與文字的無(wú)限性相違,而英文系統(tǒng)使用不定長(zhǎng)編碼則與文字無(wú)限性相符.
2.2文字的有序性文字的有序性是文字的根本屬性之一.若文字是無(wú)序的,使用者就不可能找出某個(gè)確定的文字,也就不可能使用文字.
使用文字一定是依據(jù)其形、音或某種其他特征進(jìn)行排序,具體的每一個(gè)字都是從此序列中找出.通常使用時(shí)并沒(méi)有意識(shí)到這一點(diǎn),只有在遇到不認(rèn)識(shí)或不會(huì)寫的字時(shí)才想到怎樣根據(jù)文字的有序性找出.例如要寫“一般”,可“般”字不會(huì)寫,可以在字典中按音的排序找到“ban”對(duì)應(yīng)的漢字“般”,從而最終寫出“一般”;請(qǐng)教他人時(shí),被請(qǐng)教的人也要按自己固有的某種順序去找出這個(gè)字,只是并未細(xì)想查找這個(gè)字的方法的有序性.
文字的有序性不僅可以保證很快找到某一個(gè)字,而且可以很快確定某一個(gè)字是否存在.現(xiàn)行中文系統(tǒng)沒(méi)有滿足文字的無(wú)限性,也就在根本上不能符合文字的有序性.因此,所有現(xiàn)行中文系統(tǒng)中的輸入都是用遍歷全部漢字圖形的方式去查找需要輸入的文字,即漢字輸入技術(shù)基本流程的第二步:檢查其是否存在于某張漢字圖形和輸入方式對(duì)照表中.
英文系統(tǒng)采用的ASCII碼充分考慮了文字本身內(nèi)在的有序性,因此,英文系統(tǒng)中的英文具有文字本義上的有序性,保證了英文系統(tǒng)可依據(jù)編碼進(jìn)行技術(shù)上的處理而得出有實(shí)用用途的文字意義上的關(guān)聯(lián).
2.3文字的類別任何文字都可以分為:正確、現(xiàn)在錯(cuò)誤將來(lái)正確和永遠(yuǎn)錯(cuò)誤3類.認(rèn)為計(jì)算機(jī)中的文字都是正確的,這是一個(gè)誤解.存在于信息系統(tǒng)中的文字與書(shū)本上的文字一樣,都可能被損毀,損毀后到底是一個(gè)正確的字還是一個(gè)不正確的字,則是一個(gè)不確定的結(jié)果.如果一個(gè)文字編碼系統(tǒng)不能處理這3類文字,則在理論上是不能處理全部文字的,就是不完備有缺陷的,不可能實(shí)現(xiàn)系統(tǒng)的無(wú)限性和有序性.
英文系統(tǒng)之所以可做到系統(tǒng)中文字?jǐn)?shù)量的無(wú)限性和有序性,其理論基石就是可以區(qū)分這3類文字. 若把英文系統(tǒng)中的英文與現(xiàn)實(shí)社會(huì)中的英文等同起來(lái),則英文系統(tǒng)就能處理這3類文字.
3中文系統(tǒng)字符編碼發(fā)展展望
3.1實(shí)現(xiàn)字符編碼無(wú)限和有序的現(xiàn)實(shí)必要性隨著社會(huì)的發(fā)展,現(xiàn)有中文系統(tǒng)本身的缺陷在很多領(lǐng)域都越來(lái)越明顯.如行政管理部門在很早就提出了各種賬戶實(shí)名制的要求,但在技術(shù)層面中文系統(tǒng)至今還不能實(shí)現(xiàn)[4-7];在文化教育領(lǐng)域,現(xiàn)行中文系統(tǒng)推廣的最終結(jié)果是使用者不需要寫漢字,總在感慨提筆忘字.特別是隨著智能化漢字輸入應(yīng)用系統(tǒng)的開(kāi)發(fā),在中文系統(tǒng)上輸入圖形更方便,遠(yuǎn)離漢字字符且呈現(xiàn)出加速的趨勢(shì).
3.2實(shí)現(xiàn)字符編碼無(wú)限和有序性的可能性現(xiàn)實(shí)中的文字一定有3類,則理論上就要求信息系統(tǒng)必須要處理,否則就不能滿足實(shí)際需求.只要去研究和實(shí)踐,就一定可以做到中文系統(tǒng)中字符編碼的無(wú)限性和有序性.英文系統(tǒng)已經(jīng)給出了很好的實(shí)例.如果實(shí)現(xiàn)了中文系統(tǒng)的無(wú)限性和有序性,達(dá)到與英文系統(tǒng)同樣的技術(shù)水平,則的信息系統(tǒng)會(huì)大大推進(jìn)整個(gè)社會(huì),包括技術(shù)和人文的巨大進(jìn)步.
3.3實(shí)現(xiàn)字符編碼無(wú)限和有序性實(shí)踐的可行性雖然計(jì)算機(jī)和現(xiàn)代信息系統(tǒng)不是使用漢字的人發(fā)明,最先用計(jì)算機(jī)處理漢字的也不是使用漢字的民族,但按照信息論理論,最終完成漢字無(wú)限性和有序性系統(tǒng)的人一定是使用漢字的人,因?yàn)闈h字內(nèi)在的信息熵在自然界中是實(shí)際存在的,且只有使用漢字的人才可能真正掌握這個(gè)熵的含義.
實(shí)際上,《無(wú)限有序字符集漢字全集方法和系統(tǒng)》[8]專利,不但在理論而且在技術(shù)上,給出了解決此問(wèn)題的完整技術(shù)方案.該發(fā)明專利技術(shù)指出,中文系統(tǒng)中的字符編碼,一定是一不定長(zhǎng)編碼以符合文字的無(wú)限性要求;且其最基本的編碼要素要符合漢字內(nèi)在的規(guī)律:如筆劃形狀、數(shù)量,如偏旁部首,如字形結(jié)構(gòu)等等.若采用此項(xiàng)發(fā)明技術(shù),中文系統(tǒng)一定可以達(dá)到英文系統(tǒng)的技術(shù)水準(zhǔn),實(shí)現(xiàn)文字的無(wú)限性和有序性.
參考文獻(xiàn):
[1] 漢語(yǔ)大字典工作委員會(huì).漢語(yǔ)大字典[M].武漢:湖北辭書(shū)出版社, 1995.
[2] 冷玉龍,韋一心.中華字海[M].北京:中國(guó)友誼出版公司,1994.
[3] 中國(guó)社會(huì)科學(xué)院語(yǔ)言研究所詞典編輯室.新華字典 [M].10版.北京:商務(wù)印書(shū)館,2004.
[4] 顧劍.實(shí)名存款給金融系統(tǒng)帶來(lái)的一個(gè)技術(shù)問(wèn)題[J].海南金融,1999,12(增刊):60-62.
[5] 顧劍.實(shí)名制給各種卡系統(tǒng)帶來(lái)的新問(wèn)題[J].金卡工程,2000,4:51-55.
[6] 顧劍.實(shí)名制帶來(lái)漢字處理新課題[J].金融電子化,2002,5:56-57.
[7] 顧劍.實(shí)名制帶來(lái)漢字處理新課題[N].金融時(shí)報(bào),2002-7-16(10).
[8] 顧劍.無(wú)限有序字符集漢字全集方法和系統(tǒng):中國(guó),97105292.1[P]. 1997-08-06.
Comparison of the English System and the Chinese System in Information System
Gu Jian
(College of Information Science and Technology, Hainan University, Haikou 570228,China)
Abstract:The English system in information system has the characters of word inherent law, which can handle three kinds of words, correct, present mistake but future correct, and forever mistakes. However, because violating word inherent endless and orderly law, the Chinese system can not handle all Chinese characters. Theory and reality require it must be able to handle all Chinese characters. So, there are some fundamental differences. The patent, Endless and orderly character set Chinese complete character set method and system, which was applied in 1997 and authorized in 2003, can solve these problems.
Keywords:literal code; literal endless character; literal orderly character; account real name system; Chinese characters system
中圖分類號(hào):TP 301
文獻(xiàn)標(biāo)志碼:ADOl:10.15886/j.cnki.hdxbzkb.2015.0024
文章編號(hào):1004-1729(2015)02-0130-05
收稿日期:------------------------ 2014-12-05
作者簡(jiǎn)介:顧劍(1958-),男,湖南寧遠(yuǎn)人,教授.