亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        談漢字編碼與應(yīng)用中的問(wèn)題

        2009-03-30 04:52:54鄒本娜
        新媒體研究 2009年3期
        關(guān)鍵詞:編碼方案楷體個(gè)區(qū)

        [摘要]以淺顯易懂的語(yǔ)言,介紹漢字編碼的艱難歷程,力求使讀者懂得計(jì)算機(jī)處理漢字過(guò)程的原理,并解除在工作中可能遇到的困惑。

        [關(guān)鍵詞]位(bit)字節(jié)(byte)ASCII碼內(nèi)碼GBGBKGBl8030

        中圖分類號(hào):TP3文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1671-7597(2009)0210136-01

        一、我國(guó)漢字編碼歷程

        計(jì)算機(jī)一般是以字節(jié)(byte)為單位進(jìn)行信息處理的,每一字節(jié)包括八個(gè)二進(jìn)制位(bit),用二進(jìn)制表示是00000000-11111111,為便于理解,也常用十進(jìn)制表示為0-255(多稱為ASCII碼),應(yīng)用時(shí)也會(huì)以十六進(jìn)制表示為00-FF(多稱為內(nèi)碼),因此只能處理(或識(shí)別)256個(gè)字符,這256個(gè)字符包括32個(gè)控制字符(0-31)、95個(gè)打印字符(21-126,就是能用鍵盤(pán)打出來(lái),能在屏幕上顯示出來(lái)的)、1個(gè)表示刪除的(127,delete,都熟悉)、128個(gè)擴(kuò)展字符(128-255)。擴(kuò)展字符在不同的系統(tǒng)中有不同的顯示和用途,讀者要想看到擴(kuò)展字符的真面目,在網(wǎng)上搜索“ASCII碼表”。

        95個(gè)打印字符中包括了英文大小寫(xiě)字母、10個(gè)阿拉伯?dāng)?shù)字、30多個(gè)符號(hào)(標(biāo)點(diǎn)符號(hào)等),以英語(yǔ)為母語(yǔ)的人使用計(jì)算機(jī)就能處理任何的字、詞、句。

        (一)GB2312-80編碼方案。我國(guó)1981年公布了《通信用漢字字符集(基本集)及其交換碼標(biāo)準(zhǔn)》GB2312-80方案(簡(jiǎn)稱GB):

        首先是使用2字節(jié)來(lái)表示一個(gè)漢字,因?yàn)橹皇鞘褂?個(gè)字節(jié)表示漢字的話,最多能使用256個(gè)漢字:

        其次是使用擴(kuò)展字符,因?yàn)槲覀儾荒苡脙蓚€(gè)連續(xù)的符號(hào)如“【】”、“ab”或“fx”表示漢字,那會(huì)產(chǎn)生歧義。

        最后,選擇使用ASCII碼為161-254的字符(94個(gè))作為一個(gè)漢字的第一個(gè)字節(jié)(首字節(jié))和第二個(gè)字節(jié)(尾字節(jié))。這樣,理論上能顯示的漢字字?jǐn)?shù)是94×94=8836(個(gè))。

        每94個(gè)算作一個(gè)區(qū)。共94個(gè)區(qū)。前15個(gè)區(qū)用來(lái)表示各種符號(hào):其后的40個(gè)區(qū)表示常用的3755個(gè)一級(jí)漢字,這些漢字按照拼音來(lái)排列;再后的32個(gè)區(qū)用來(lái)表示次常用的3008個(gè)二級(jí)漢字,這些漢字用偏旁部首來(lái)排列。合計(jì)用了87個(gè)區(qū),表示漢字6763個(gè)。

        想知道哪個(gè)區(qū)的哪個(gè)位置代表什么,選擇內(nèi)碼輸入法,輸入“區(qū)號(hào)+位號(hào)”,前者范圍1-87,后者范圍1-94。例如輸入5454(種),8226(蠔)。

        對(duì)于一級(jí)漢字,是按拼音排序。對(duì)于二級(jí)漢字,則按偏旁部首排序。

        九十年代初期,計(jì)算機(jī)剛剛普及的時(shí)候,使用的是DOS操作系統(tǒng)加掛漢字系統(tǒng)和WINDOWS中文版操作系統(tǒng),所支持的就是能夠顯示出6763個(gè)漢字的GB2312-80。

        (二)GBK擴(kuò)展字符集。對(duì)大多數(shù)人來(lái)說(shuō),二級(jí)漢字幾乎都用不上。但很多的人名地名還都沒(méi)有包括進(jìn)去,工作顯得無(wú)比尷尬和無(wú)奈。例如“玥”和“镕”,都不在其中。而6763個(gè)漢字對(duì)于現(xiàn)代漢語(yǔ)、古代漢語(yǔ)等研究者來(lái)說(shuō)更是相距甚遠(yuǎn)。

        1995年下半年,我國(guó)公布GBK擴(kuò)展字符集,標(biāo)準(zhǔn)名稱是《漢字?jǐn)U展規(guī)范GBK 1.0》。其編碼方案是:

        首字節(jié)使用ASCII碼為129-254的字符,尾字節(jié)使用ASCII碼為64~126,128~254的字符。那么所能表示的漢字?jǐn)?shù):(254-129+1)×(126-64+1+254-128+1)=23940(個(gè))。

        實(shí)際上,這個(gè)方案包含20902個(gè)漢字和一些符號(hào)。其余都是空位。為了兼容以前的漢字信息,GB中的漢字或符號(hào)的編碼在GBK中都保持不變。

        中文WINDOWS95/98都支持GBK編碼系統(tǒng)。報(bào)刊、字幕、戶籍、銀行等都已經(jīng)能夠打出“玥”和“镕”等漢字。

        (三)GBl8030編碼方案。2萬(wàn)漢字相對(duì)于10萬(wàn)漢字(漢字總數(shù)沒(méi)有一個(gè)嚴(yán)格定義,或許在12萬(wàn)以上,本文不探討漢字?jǐn)?shù)量)來(lái)說(shuō),對(duì)于專業(yè)人員仍然顯得不夠,在電腦上打不出自己需要的漢字是很痛苦的。如果局限于用兩個(gè)字節(jié)表示漢字,那么最多能表示256×256=65536(個(gè))。

        于是在2000年,又發(fā)布了GBl8030編碼方案,用四個(gè)字節(jié)來(lái)表示一個(gè)漢字:第一字節(jié)使用ASCII碼為129-254的字符(126個(gè));第二字節(jié)使用ASCII碼為48-57的字符(10個(gè));第三字節(jié)使用ASCII碼為129-254的字符(126個(gè));第四字節(jié)使用ASCII碼為48÷57的字符(10個(gè))。

        總共能表示漢字?jǐn)?shù)126×10×126×10=1587600(個(gè))。

        能表示出150萬(wàn)之多的漢字,理論上來(lái)說(shuō)是足夠的了。而我們多數(shù)用戶使用的WINDOWS XP支持這種編碼方案。把所有的漢字都造進(jìn)這個(gè)方案里面也是很難的事情。要兼顧到其他使用漢字的國(guó)家和地區(qū)(如港臺(tái)、日本、韓國(guó)),即使是在大陸上不用的,也都要包容,目前常見(jiàn)的大字庫(kù)是“方正超大字庫(kù)”,包括7萬(wàn)余漢字。而“鄭碼超級(jí)漢字系統(tǒng)”則包括10萬(wàn)余漢字。

        二、使用過(guò)程中可能遇到的問(wèn)題

        (一)四字節(jié)漢字問(wèn)題。在使用GB和GBK時(shí),不論是在屏幕顯示(包括打印輸出)上還是在磁盤(pán)(光盤(pán)存儲(chǔ))上,他們都是占用兩個(gè)字節(jié)?,F(xiàn)在不同了,漢字顯示仍然占兩個(gè)字節(jié),但在存儲(chǔ)上,可能要占用四個(gè)字節(jié)。那么,接觸過(guò)數(shù)據(jù)庫(kù)的用戶可能都知道在字段設(shè)計(jì)時(shí),以前都是按照一個(gè)漢字占用兩個(gè)字節(jié)來(lái)設(shè)計(jì)的,現(xiàn)在,顯示和存儲(chǔ)并不很一致,這就需要在設(shè)計(jì)各種數(shù)據(jù)表時(shí),考慮這個(gè)因素,同時(shí),也對(duì)之前開(kāi)發(fā)的各種數(shù)據(jù)庫(kù)管理軟件的兼容性提出質(zhì)疑。

        (二)漢字輸入法的選擇。適合輸入GB和GBK的漢字輸入法很多,但適合輸入超大字庫(kù)的輸入法卻不多,如果用戶需要使用GBK以外的漢字,則需要下載或購(gòu)買(mǎi)新的輸入法軟件。

        (三)字庫(kù)使用技巧。漢字字庫(kù)有很多。以方正字庫(kù)為例,有以下幾種:

        1.方正簡(jiǎn)體字庫(kù)(如方正楷體簡(jiǎn)體):GB漢字;方正繁體字庫(kù)(如方正楷體簡(jiǎn)體):GB漢字。前者中的漢字,如果有對(duì)應(yīng)的繁體,如“偉”,在后者中,相同的內(nèi)碼就表示為“俸”。這樣的繁體字庫(kù)比較適合用戶打印使用。不便于交流,如果在沒(méi)有安裝繁體字庫(kù)的電腦上,會(huì)顯示簡(jiǎn)體。

        2.方正GBK字庫(kù)(如楷體):GBK漢字,在這個(gè)字庫(kù)中,簡(jiǎn)體“偉”和繁體“偉”是兩個(gè)內(nèi)碼不同的字,這里的繁體才是真正的繁體。在字處理軟件WORD中,有簡(jiǎn)體繁體互相轉(zhuǎn)換的工具,就是指這種轉(zhuǎn)換——對(duì)內(nèi)碼進(jìn)行了轉(zhuǎn)換。

        3.方正超大字庫(kù):7萬(wàn)余漢字,安裝這個(gè)字庫(kù)的用戶很少。如果你使用方正超大字庫(kù)處理文本,在交流時(shí)最好是做成PDF文件,否則,對(duì)方就會(huì)因沒(méi)有超大字庫(kù)而看不到GBK以外的漢字。

        作者簡(jiǎn)介:

        鄒本娜,女,遼寧鞍山人,中共葫蘆島市委黨校,計(jì)算機(jī)專業(yè)講師,研究方向?yàn)橛?jì)算機(jī)科學(xué)與應(yīng)用。

        猜你喜歡
        編碼方案楷體個(gè)區(qū)
        基于功能類別和技術(shù)參數(shù)的刀具編碼方案設(shè)計(jì)
        基于唯一標(biāo)識(shí)的ATP車載設(shè)備編碼方案研究
        淺析射陽(yáng)大米的由來(lái)
        淺議小學(xué)語(yǔ)文閱讀指導(dǎo)策略
        腹部外傷手術(shù)治療的臨床療效與安全性分析
        基于改進(jìn)粒子群算法的毫米波大規(guī)模MIMO混合預(yù)編碼方案
        遼金元時(shí)期巫山文學(xué)擷要(下)
        三種預(yù)編碼方案對(duì)OFDM系統(tǒng)峰均比的影響分析
        大岛优香中文av在线字幕| 东京热日本av在线观看| 色天使久久综合网天天| 艳妇臀荡乳欲伦交换在线播放| 亚洲毛片网| 亚洲国产av中文字幕| 美利坚合众国亚洲视频| 国内偷拍国内精品多白86| 国产乱人偷精品人妻a片| 欧美丰满大乳高跟鞋| 久久久99精品视频| av在线播放免费观看| 蜜臀av色欲a片无码精品一区| 欲妇荡岳丰满少妇岳| 无码啪啪熟妇人妻区| 亚洲中文字幕亚洲中文| 亚洲精品在线国产精品| 久久天堂综合亚洲伊人hd妓女| 男女车车的车车网站w98免费| 成在人线av无码免费| 青草青草久热精品视频国产4| 精品国产乱子伦一区二区三| 亚洲成av人片在线观看| 高潮迭起av乳颜射后入| 双腿张开被9个黑人调教影片| 妺妺窝人体色www聚色窝韩国| 国产大片在线观看91| 亚洲国产精品久久久久久无码| 国产成人亚洲精品无码h在线| 高清高速无码一区二区| 国产免费成人自拍视频| 亚洲精品成人网站在线播放| 国产日韩精品中文字无码| 最新国产一区二区精品久久| 不卡无毒免费毛片视频观看| 久久精品国产亚洲av网站 | 无码人妻精品一区二区三区9厂| 中文字幕 人妻熟女| 中文字幕久久久久久久系列| 丝袜美腿一区二区在线观看| 午夜视频一区二区三区在线观看|