江
(福建省基礎(chǔ)地理信息中心,福建福州350003)
基于Unicode編碼技術(shù)的地名生僻字庫(kù)研究
(福建省基礎(chǔ)地理信息中心,福建福州350003)
目前數(shù)字線劃圖及地名數(shù)據(jù)庫(kù)內(nèi)存在著大量未規(guī)范表示的生僻漢字,嚴(yán)重影響了地理信息數(shù)據(jù)開(kāi)發(fā)應(yīng)用的準(zhǔn)確性和規(guī)范性。介紹了運(yùn)用Opentype字體技術(shù)和Unicode編碼方法制作生僻字庫(kù)的一種快捷的技術(shù)手段,通過(guò)該方法整理出一個(gè)調(diào)用方便、應(yīng)用效果好的地名生僻字庫(kù)。
地名;生僻字;Opentype;Unicode
目前生僻字庫(kù)的制作方法多種多樣,有自主研發(fā)字庫(kù)制作工具的,有利用系統(tǒng)自帶造字工具制作單字應(yīng)用的,也有采集生僻字柵格圖片直接應(yīng)用的,各種方法各有特色。經(jīng)過(guò)對(duì)相關(guān)資料的收集研究,本文運(yùn)用Opentype字體技術(shù)和Unicode編碼方法,利用現(xiàn)有常用字體字庫(kù)工具制作生僻字庫(kù),此種方法具有方法簡(jiǎn)便、字符編碼兼容性好、成果調(diào)用便利等特點(diǎn),能適應(yīng)現(xiàn)有一般性地理信息數(shù)據(jù)應(yīng)用的需要。
1.1 字庫(kù)及字體
1.1.1 TTF字體存儲(chǔ)格式
地名生僻字庫(kù)采用的是TrueType字體存儲(chǔ)格式。TTF(TrueTypeFont)是Apple公司和M icrosoft公司共同推出的字體文件格式,目前已經(jīng)成為最常用的一種字體文件表示方式。TrueType字庫(kù)是采用曲線方式描述字體輪廓,因此都可以輸出很高質(zhì)量的字形。TrueType字體是Windows操作系統(tǒng)使用的唯一字體標(biāo)準(zhǔn)。TrueType字體作為一種矢量字體,無(wú)論是在屏幕上查看還是打印,都能做到幾乎無(wú)損使用,質(zhì)量非常優(yōu)秀,其特點(diǎn)是由曲線構(gòu)成字體輪廓,對(duì)曲線進(jìn)行填充,制成各種顏色和效果,可以制作特殊效果字體,字款豐富,因此是適用范圍非常廣的一種字體。
1.1.2 TTF格式字體的優(yōu)點(diǎn)
1)TrueType最大的特點(diǎn)就是它是一種由數(shù)學(xué)模式來(lái)進(jìn)行定義的基于輪廓技術(shù)的字體,這使它保證了屏幕與打印輸出的一致性。這種字體和矢量字體一樣可以隨意縮放、旋轉(zhuǎn)而不會(huì)出現(xiàn)鋸齒,基本避免了點(diǎn)陣字在大字號(hào)應(yīng)用時(shí)的缺點(diǎn)。
2)TTF格式的字體安裝方便,只需要將制作完成的TTF文件安裝到操作系統(tǒng)所在的Windows目錄下的FONTS目錄里面就可以在各類支持TTF格式字體的應(yīng)用軟件中快速調(diào)用。
《信號(hào)與系統(tǒng)》課程及《數(shù)字信號(hào)處理》課程分別涉及到連續(xù)信號(hào)及離散信號(hào)的卷積運(yùn)算。由于卷積這一種比較特殊的運(yùn)算形式,僅從原理上講解,學(xué)生理解起來(lái)比較困難,如何讓學(xué)生準(zhǔn)確理解這種運(yùn)算,一直以來(lái)是廣大相關(guān)專業(yè)高校教師關(guān)注和研究的熱點(diǎn)[3~9]。
3)TTF字體可以使用Unicode編碼或國(guó)標(biāo)GB系列編碼,制作的生僻字可以通過(guò)Unicode碼、GBK碼或者內(nèi)碼輸入法實(shí)現(xiàn)直接鍵盤(pán)輸入,調(diào)用十分便捷。
1.2 Unicode字符編碼
國(guó)際標(biāo)準(zhǔn)組織于1984年4月成立 ISO/IEC JTC1/ SC2/WG2工作組,針對(duì)各國(guó)文字、符號(hào)進(jìn)行統(tǒng)一性編碼。國(guó)際標(biāo)準(zhǔn)ISO10646定義了通用字符集 (Universal Character Set,UCS)。Unicode又被稱為統(tǒng)一碼、萬(wàn)國(guó)碼、單一碼,它為每種語(yǔ)言中的每個(gè)字符設(shè)定了統(tǒng)一并且唯一的二進(jìn)制編碼,以滿足跨語(yǔ)言、跨平臺(tái)進(jìn)行文本轉(zhuǎn)換、處理的要求。Unicode字符編碼作為目前國(guó)際上較通用的一種編碼方式,大多數(shù)的操作系統(tǒng)和軟件對(duì)于Unicode碼都支持。在前期對(duì)于采用Unicode字符編碼制作的試驗(yàn)字在多種制圖和數(shù)據(jù)生產(chǎn)軟件中的試用未發(fā)現(xiàn)問(wèn)題。為了提高生僻字庫(kù)的兼容性,本文所述地名生僻字庫(kù)制作采用Unicode字符編碼。
1.3 字庫(kù)文件與編碼段的選擇
1.3.1 字庫(kù)文件
目前常用的地理信息系統(tǒng)數(shù)據(jù)生產(chǎn)和制圖軟件一般都可以調(diào)用Windows的FONTS字體集里的各類字體,但是每種地理信息系統(tǒng)軟件對(duì)數(shù)據(jù)的管理方式不同,很多軟件都采用分層分地物類的方式,在編輯注記內(nèi)容時(shí),有時(shí)會(huì)遇到一個(gè)圖層內(nèi)的注記只能定義一種字體的情況,因此,在制作生僻字庫(kù)文件時(shí)可以讓一個(gè)字體文件的字符集比較完整,也就是說(shuō)一個(gè)字體文件內(nèi)既包括原有的常用漢字,又包括我們需要的生僻字,這樣在應(yīng)用中定義字體類型時(shí),只需要將字體定義成含有生僻字的字體,同時(shí)還不影響其他同一字體常用漢字的顯示和使用。經(jīng)過(guò)測(cè)試,生僻字庫(kù)采用在原有字體基礎(chǔ)上重新構(gòu)建字體文件的方式是一種可行的解決辦法,字庫(kù)文件存放于FONTS字體集里,使用時(shí)直接調(diào)用。
1.3.2 編碼段的選擇
目前常用的幾種使用Unicode碼的漢字字體所調(diào)用的編碼基本在“4E00-9FBF:CJK統(tǒng)一表意符號(hào) (CJK Unified Ideographs)”范圍。由于現(xiàn)有的常用漢字體中,除了已經(jīng)調(diào)用到的Unicode編碼外,其他編碼區(qū)段并未調(diào)用,經(jīng)過(guò)項(xiàng)目前期測(cè)試的實(shí)際情況,地名生僻字庫(kù)采用 Unicode定義的自由使用編碼區(qū)域制作生僻字。選擇這一編碼段的依據(jù)主要為:
1)Unicode編碼規(guī)則中定義的一般自由使用區(qū)域?yàn)椤癊000-F8FF:自由使用區(qū)域(PrivateUseZone)”,這個(gè)區(qū)段中有6400個(gè)編碼位,完全滿足一般生僻字制作使用。
2)自由使用區(qū)域 (Private Use Zone)制作新字是遵循Unicode編碼的規(guī)則標(biāo)準(zhǔn)。經(jīng)過(guò)測(cè)試,在這一區(qū)域制作的生僻字在目前常用的制圖軟件或數(shù)據(jù)生產(chǎn)軟件都能成功調(diào)用。
3)在使用自由使用區(qū)域 (Private Use Zone)制作生僻字時(shí),不改動(dòng)原有字體內(nèi)的漢字集,即在原有字符集中添加編碼段制作新字。這種方式的優(yōu)點(diǎn)在于,今后使用生僻字庫(kù)時(shí),可以采用較靈活的處理生僻字的辦法,不會(huì)影響其他常用漢字的顯示和使用。
1.4 字體
現(xiàn)有的字體種類繁多,包括各式各樣的商業(yè)字體。生僻字字庫(kù)首先需要實(shí)現(xiàn)目前常用的幾種中文字體的制作,以滿足數(shù)據(jù)生產(chǎn)和地名表達(dá)時(shí)的使用需求。有特殊或數(shù)據(jù)擴(kuò)展應(yīng)用需求時(shí),可以專門(mén)制作一些生僻字的商業(yè)藝術(shù)字體。在生僻字庫(kù)的字體制作方法上可以用有襯線字體 (Serif)與無(wú)襯線體 (sans serif)來(lái)區(qū)分。有襯線字體制作時(shí)注重各筆畫(huà)的粗細(xì)比、筆畫(huà)末端的修飾,制作難度要高一些;無(wú)襯線字體由于其筆畫(huà)的粗細(xì)差不多,沒(méi)有額外的修飾,制作相對(duì)容易。
2.1 采集方法
目前字符的采集方法多種多樣,較傳統(tǒng)的方法是掃描原版字樣,數(shù)字化采集字模。這種方法通過(guò)掃描儀和圖形處理軟件從原始柵格字樣中獲取字符的矢量輪廓再調(diào)整修改,最后使用造字軟件制作成字。這種方法的缺點(diǎn)是生產(chǎn)周期較長(zhǎng),字模采集的過(guò)程規(guī)范化較難控制,后期處理的難度較大等,并不適合地名生僻字庫(kù)快捷生產(chǎn)的需求。經(jīng)過(guò)相關(guān)資料收集和前期對(duì)多種造字方法的試驗(yàn),本文采用直接對(duì)已有字體再加工的方法進(jìn)行生僻字字符的采集。也就是說(shuō),由于我們要做的生僻字的組成部件大部分是 Unicode中已有的,所以可以直接用已有的字體通過(guò)軟件處理,取用原始字體中已有漢字的偏旁部首,經(jīng)過(guò)必要的拆解、縮放、拉伸等調(diào)整后進(jìn)行組合拼接,最終得到我們需要的生僻字。
2.2 規(guī)范采集
經(jīng)過(guò)對(duì)相關(guān)資料的收集整理,我們沒(méi)有找到現(xiàn)行的關(guān)于字體形狀的相關(guān)規(guī)定可供參考,而生僻字制作其實(shí)就是一個(gè)生成新字的過(guò)程,也是需要造出的新字美觀、統(tǒng)一、規(guī)范??紤]到此次生僻字制作是在各個(gè)現(xiàn)成的字體基礎(chǔ)上完成的,因此在具體作業(yè)過(guò)程中,我們以這些現(xiàn)成的原始字體的字形為標(biāo)準(zhǔn),制作出的新字在字間距、字高、字寬、筆畫(huà)的習(xí)慣等各方面都應(yīng)與原始字體相一致。
2.3 組字方法
通過(guò)在字庫(kù)制作過(guò)程中的經(jīng)驗(yàn)積累,我們總結(jié)形成以下通用的組字方法:直接拼接法、取接近字符調(diào)整組合法、取原始字修整組合法、接近字筆畫(huà)組合法等等。針對(duì)生僻字不同的結(jié)構(gòu),不同的復(fù)雜度,可以采用不同的組字方法,最后達(dá)到成品字的整體均衡、字形飽滿,保證了制作出的生僻字與原字體的筆畫(huà)形狀、字體特征相一致(如圖1所示)。
基于Unicode編碼強(qiáng)大的兼容性,地名生僻字庫(kù)在多種軟件中都實(shí)現(xiàn)了成功調(diào)用,包括了目前流行的多種地理信息系統(tǒng)軟件,如ArcMap、Geoway等。由于地名生僻字庫(kù)具有通用性好,成果調(diào)用簡(jiǎn)便等特點(diǎn),目前已嘗試應(yīng)用于地理信息軟件平臺(tái)和多個(gè)實(shí)際作業(yè)工作中(如圖2-圖5所示)。
圖1 接近字筆畫(huà)組合法
圖2 應(yīng)用于地名地址庫(kù)編制
圖3 應(yīng)用于地形圖符號(hào)化(AutoCAD)
圖4 應(yīng)用于DLG數(shù)據(jù)編繪(Geoway)
圖5 應(yīng)用于地理信息軟件平臺(tái)(ArcMap)
地名生僻字庫(kù)的編制完成需要建立在地名生僻字收集編錄的基礎(chǔ)上,完整規(guī)范的字符收錄工作才能讓生僻字庫(kù)具有真正的實(shí)用價(jià)值和開(kāi)發(fā)意義。采用Unicode編碼技術(shù)的地名生僻字庫(kù)實(shí)現(xiàn)了在通用操作系統(tǒng)字體集中快捷地安裝和調(diào)用,極大地?cái)U(kuò)展了字庫(kù)的通用性和兼容性,便捷的采集方法和基于Unicode編碼的特性使其成功地應(yīng)用于各類地理信息系統(tǒng)軟件中,實(shí)現(xiàn)了對(duì)現(xiàn)代地理信息數(shù)據(jù)應(yīng)用的有力支持。
[1] 商瑤玲,張?jiān)?,張義,等.國(guó)家基礎(chǔ)地理信息地名數(shù)據(jù)更新軟件系統(tǒng)設(shè)計(jì)與研發(fā)[J].測(cè)繪科學(xué),2008(2):96-97,54
[2] 胡群英,王金霞,方麗.中文字庫(kù)及其在測(cè)繪生產(chǎn)中的應(yīng)用分析[J].信息技術(shù)與標(biāo)準(zhǔn)化,2009(04):50-52,64
[3] 白毅,易軍凱.基于編碼的生僻漢字輸入方法理論與測(cè)試研究[J].北京化工大學(xué)學(xué)報(bào),2007(1):21-24
[4] 闞映紅.地圖數(shù)據(jù)庫(kù)建立和應(yīng)用過(guò)程中生僻漢字的處理[J].測(cè)繪學(xué)院學(xué)報(bào),2000(01):42-45
[5] 徐潔.基于OpenType格式的國(guó)際音標(biāo)符號(hào)和語(yǔ)音古籍生僻字?jǐn)?shù)字化的字體設(shè)計(jì)[D].上海:上海師范大學(xué),2010
[6] 唐小新.基于Unicode字符集數(shù)據(jù)遷移的設(shè)計(jì)與實(shí)現(xiàn)[J].企業(yè)科技與發(fā)展,2011(17):22-24
[7] 楊文敬.地圖數(shù)字化過(guò)程中的生僻地名問(wèn)題探討[J].浙江測(cè)繪,2006(1):37-38
[8] 斯·勞格勞.基于Unicode和OpenType字庫(kù)的MWord的研究[D].呼和浩特:內(nèi)蒙古大學(xué),2006
Research on Database of Rarely Used Place Names Based on Unicode Encoding Method
by JIANG Min
Currently,the nonstandard usage of rarely used Chinese characters in Digital Line Graphic and Geographical Name Database severely affects the accuracy and normalization of the development and application of geographic data.This paper introduced a convenient technical means,which was based on Opentype font technology and Unicode encoding method,to create a rarely used characters database.This paper also reorganized a convenient and effective database of rarely used place names by way of this means.
place names,rarely used Chinese characters,Opentype,Unicode
2012-04-01
P208
B
1672-4623(2012)03-0121-03
江旻,工程師,主要從事測(cè)繪成果加工與研發(fā)。