亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        古文字字體文件制作的模式探索

        2022-04-13 13:03:31桂舒婷向欣雨趙黃一驕
        文化產(chǎn)業(yè) 2022年8期
        關(guān)鍵詞:字符集字庫古文字

        桂舒婷 向欣雨 趙黃一驕

        漢字是中華民族文化的結(jié)晶,是五千年文化得以保存至今的重要載體。隨著傳統(tǒng)文化的復(fù)興,越來越多的人將目光投向古文字文化,人們對(duì)古文獻(xiàn)的電子閱讀需求也越來越大。伴隨古籍復(fù)興、現(xiàn)代信息技術(shù)的長足發(fā)展,古文字?jǐn)?shù)字化欣欣向榮,中文字符集也逐步添加了大量繁體字和生僻字。一些研究者更是根據(jù)出土文獻(xiàn),制作出了許多高質(zhì)量古文字字庫,也提出一些宏觀的古文字?jǐn)?shù)字化建議。然而,其花費(fèi)大量心力制作的數(shù)字化產(chǎn)品,因不能及時(shí)更新?lián)Q代、檢索系統(tǒng)復(fù)雜等原因幾乎絕版于當(dāng)世。而對(duì)于微觀層面的文史學(xué)習(xí)研究者和愛好者來說,生僻字和古文字的輸入和顯示難題依然存在。大多時(shí)候他們還是只能以圖片來代替那些字符。因此,將字庫設(shè)計(jì)和修改的時(shí)間和經(jīng)濟(jì)成本降到最低,才能讓不占有出土資源和先進(jìn)技術(shù)的文字研究愛好者也能享受到古籍?dāng)?shù)字化的時(shí)代紅利。

        字庫,即電子文字字體集合庫,又可稱為字符集,是文獻(xiàn)數(shù)字化的支撐性材料之一。其在計(jì)算機(jī)中以字體文件的形式儲(chǔ)存,規(guī)定著機(jī)內(nèi)文字顯示。不同字體文件在計(jì)算機(jī)中顯示為不同的字形,可表現(xiàn)為同一字符宋體和楷體的形體差異。我們?nèi)绻麑⒓坠俏?、金文等古文字字形與隸定字字碼相對(duì)應(yīng),輸入隸定字便可在計(jì)算機(jī)上顯示出古文字字形。針對(duì)日常學(xué)習(xí)研究中往往只針對(duì)某篇古文獻(xiàn)、某類或某個(gè)古文字的現(xiàn)象,探索出一套靈活的字體文件制作模式,為解決古文字字形數(shù)字化難題略盡綿力。

        相關(guān)研究現(xiàn)狀

        我們將目前官方已經(jīng)完成數(shù)字化的字符稱為通用字符,生活中常見的通用字庫有宋體方正超大字庫、ASCII字庫等。相對(duì)的是一些非通用的、面向特殊字形及用途的字庫,即非通用字庫。

        我國非通用字庫可分為少數(shù)民族文字庫和漢字字庫兩大類。少數(shù)民族文字非通用字庫有西夏文(柳長青2010)、古彝文(陳順強(qiáng)2009)等象形文字字庫,有蒙古文、藏文等拼音文字字庫,也有的是對(duì)沒有文字只有語言的少數(shù)民族進(jìn)行的拼音文字造字。漢字非通用字庫包括古今文字兩種:面向今文字的主要是一些傳世典籍的數(shù)字化,如,中藥學(xué)專業(yè)詞匯中的生僻字輸入(朱傳鈞2004)、《真本千方金》俗字研究(孔謙2019);面向古文字的主要是大量出土古文獻(xiàn)的數(shù)字化,如下文提到的眾多古文字字形檢索系統(tǒng)。

        由出土古文獻(xiàn)材料產(chǎn)出的資料庫,是古籍?dāng)?shù)字化的基礎(chǔ)。近十年來研究中文字庫建設(shè)的成果較少,古文字字庫多作為查詢系統(tǒng)的一部分,且十分注重古文字字形收集的全面性、準(zhǔn)確性及與隸定字的復(fù)雜關(guān)系。如網(wǎng)頁版的香港漢達(dá)文庫中的古文字?jǐn)?shù)據(jù)庫,其來源于大量出土的甲骨卜辭和竹簡絹帛,上面收錄了大量古文字。中國臺(tái)灣“中央研究院”漢字構(gòu)型資料庫、日本文字鏡研究所的“今昔文字鏡”也在古文字字形回溯原文獻(xiàn)上做出了很大成果。在我國,古文字處理系統(tǒng)成果較突出的是華東師范大學(xué)(2003)研制的《商周金文數(shù)字化處理系統(tǒng)》和《戰(zhàn)國楚文字?jǐn)?shù)字化處理系統(tǒng)》,均可實(shí)現(xiàn)對(duì)大量文獻(xiàn)本體字的檢索,但缺點(diǎn)是需要掌握其設(shè)計(jì)的特殊輸入法,且只能在指定程序上查看。隨著技術(shù)的換代、考古的突破以及古文字考釋上的發(fā)展,系統(tǒng)不適配的缺點(diǎn)也逐漸凸顯,已難以滿足古文字在計(jì)算機(jī)上的使用需求。以實(shí)用聞名,傳播較廣的是北師大說文小篆字庫(1995),其按《說文解字》小篆順序排列字符,能直接安裝在計(jì)算機(jī)上運(yùn)用,除了少數(shù)小篆字形,大多能通過現(xiàn)有輸入法在電腦上顯示。該字庫的成功雖說離不開說文小篆自身的優(yōu)勢,但也能為我們自主設(shè)計(jì)靈活實(shí)用的字庫產(chǎn)生啟示。

        古文字字體文件的制作

        技術(shù)基礎(chǔ)——字符編碼

        編碼問題是計(jì)算機(jī)識(shí)別和顯示文字的關(guān)鍵要素。對(duì)字符進(jìn)行編碼是使字符能夠在計(jì)算機(jī)中存儲(chǔ)和識(shí)別的一種手段。ASCII碼,是計(jì)算機(jī)最早也是目前最通用的編碼標(biāo)準(zhǔn)。計(jì)算機(jī)中的字符編碼具有唯一性,即字符集中的字符只有唯一的編碼數(shù)字。

        1980年我國發(fā)布GB2312-80字符集,中文自此打破西方壟斷進(jìn)入計(jì)算機(jī)。GB2312有7573字符,包括6763個(gè)簡體漢字字符,但無法處理繁體字和罕見字。1983年中國臺(tái)灣發(fā)布BIG5繁體字字符集。1995年我國又發(fā)布GBK,對(duì)GB2312字符集進(jìn)行擴(kuò)展,將BIG5字符集的13060個(gè)繁體漢字納入其中,共計(jì)22014字符。

        隨著經(jīng)濟(jì)的發(fā)展,各國交流愈加緊密。為了使各國的字符集能在同一臺(tái)電腦上使用,Unicode聯(lián)盟機(jī)構(gòu)設(shè)計(jì)出了Unicode編碼標(biāo)準(zhǔn)。從1991年Unicode1.1到2021年的Unicode14.0,Unicode不斷擴(kuò)大其字符范圍。因其“一字一碼”和“擁有幾近無盡編碼碼位”的特點(diǎn),Unicode還被稱為“單一碼”“萬國碼”。將Unicode編碼作為古文字字庫的編碼標(biāo)準(zhǔn),原因有二。一方面,古文字字庫必須使用標(biāo)準(zhǔn)字符集,這是字庫成果得到國際認(rèn)可的重要前提。Unicode編碼只定義字符不定義字形,為建立中文古文字字庫提供了技術(shù)上的可能。另一方面,Unicode編碼有17個(gè)平面,各個(gè)國家常用的字符僅占用第0號(hào)平面的部分碼位。其私人使用區(qū)(Private Use Area)擁有13萬多的字符碼位可供用戶按需為集外字符分配,這為建立可伸縮的古文字字庫創(chuàng)造了空間上的可能。

        古文字字體文件制作模式

        市面上能夠編輯字形的軟件很多,我們選擇FontCreator來設(shè)計(jì)古文字字體文件。首先是因?yàn)樵撥浖捎肬nicode字符編碼標(biāo)準(zhǔn),其次通過該軟件可修改字符編碼對(duì)應(yīng)的字符字形,以實(shí)現(xiàn)字符映射的自定義。在導(dǎo)入字形圖像后,軟件可利用直線和二次B樣條曲線擬合算法,將其點(diǎn)陣圖形抽成為十分接近原稿的字形曲線輪廓。簡單編輯字形細(xì)節(jié)和調(diào)整字形位置后,即可直接安裝到Windows系統(tǒng)上使用。

        以下,我們將基于FontCreator11.5專業(yè)版的字體文件制作過程進(jìn)行簡要描述:

        1.選取字形模板,確定字符碼位

        將古文字材料通過技術(shù)手段保存為數(shù)字圖像格式(如PNG格式等)并備用之前,我們還應(yīng)關(guān)注所選取的古文字材料的“還原性”問題。手工摹寫的古文字字匯遠(yuǎn)沒有原始拓片上的字形還原度高,通過掃描原始拓片,將其作為字模是古文字字庫字形準(zhǔn)確性的前提。

        在新建字體文件前,可將各個(gè)古文字對(duì)應(yīng)的碼位進(jìn)行集中記錄,字形圖像也應(yīng)按照相應(yīng)順序進(jìn)行儲(chǔ)存。

        2.設(shè)置字形編輯環(huán)境

        第一步:“新建”造字項(xiàng)目,命名字體文件,規(guī)定字體樣式,設(shè)置字形輪廓首選格式(選擇TrueType字體的二次曲線)。

        第二步:設(shè)置字形設(shè)計(jì)的環(huán)境

        ①設(shè)置字符示例。打開工具欄中的“視圖”選項(xiàng),勾選上“在空字形中顯示樣本”,將“單元中字體”設(shè)置為“微軟雅黑UI”。本步驟并非必要,只是為了提高造字中必要字符的映射準(zhǔn)確。

        ②設(shè)置輔助線,限定字符大小及區(qū)間范圍。打開“工具欄”中的輔助線選項(xiàng),設(shè)置顯示輔助線與否、輔助線虛實(shí)顏色及輔助線類型位置。我們通常設(shè)定字符范圍為(2048*2048單位),新建兩條輔助線:水平Y(jié)=2048,垂直X=2048。

        在利用FontCreator驗(yàn)證程序驗(yàn)證字體文件或者安裝字體文件預(yù)覽時(shí),如發(fā)現(xiàn)多個(gè)字符疊在一起,或者有“剃頭字”“剃尾字”的存在,這是因?yàn)樽址g距沒有設(shè)計(jì)好,需要重新設(shè)置字形環(huán)境。

        3.導(dǎo)入字形模板圖像,編輯字形

        點(diǎn)擊插入字符,給字體文件添加指定的字符碼位。這里有添加Unicode集內(nèi)碼位和集外碼位兩種情況。

        添加集內(nèi)碼位,即該古文字字形的隸定字存在于Unicode字符集內(nèi)。如,在“查找字符”中輸入“犭”,點(diǎn)擊“下一步”,便可顯示“犭”所在的Unicode區(qū)塊及其字符編碼“$72AD”。點(diǎn)擊“添加”,即可添加該碼位到字體文件。

        添加集外碼位,即該古文字字形的隸定字不存在于Unicode字符集內(nèi)或并無隸定字。這種情況下,就要從Unicode私用區(qū)內(nèi)選取碼位。具體操作是:左側(cè)Unicode導(dǎo)航窗口→PUA→添加字符/補(bǔ)充完整字符集。

        添加好字符碼位后,則對(duì)該碼位進(jìn)行自定義字形映射。進(jìn)入字形概述窗口,右鍵選擇“插入圖像”,F(xiàn)ontCreator能夠自動(dòng)將源圖像轉(zhuǎn)化為曲線輪廓。這里有幾個(gè)值需要隨源圖片文件的分辨率進(jìn)行調(diào)整:圖像規(guī)格、閥值、平滑濾波、導(dǎo)入模式等。導(dǎo)入成功后,在字形編輯窗口根據(jù)輔助線調(diào)整字形細(xì)節(jié)和位置。

        4.安裝和使用字體文件

        在造字工程完成之前,可將項(xiàng)目暫存為fcp文件。全部完成后,必須先導(dǎo)出“TrueType/OpenType(*ttf)”格式的字體文件。安裝方法有兩種:一是通過FontCreator中的安裝程序,直接安裝在Windows上;二是退出程序后,找到計(jì)算機(jī)中導(dǎo)出的字體文件所在的位置,手動(dòng)安裝。字體文件導(dǎo)出前必須要對(duì)字體文件屬性進(jìn)行設(shè)置:

        ①在字體菜單欄中選擇字體屬性中的范圍;

        ②設(shè)置Unicode字符集范圍,根據(jù)字體文件內(nèi)的字符所在的碼位區(qū)來選擇;

        ③編輯代碼頁字符范圍:勾選(中文:簡體字——中

        華人民共和國和新加坡 (936));

        ④取消勾選“導(dǎo)出字體時(shí)自動(dòng)更新字符范圍”,點(diǎn)擊“確認(rèn)”。

        漢字作為一種歷史悠久、發(fā)展漫長的語素——音節(jié)文字,從古至今形成的字形數(shù)量是其他單純表音文字難以匹敵的。因此,如此龐大復(fù)雜的文字系統(tǒng)如何在現(xiàn)有的計(jì)算機(jī)規(guī)則框架中得到最大程度的還原一直困擾著我們。Unicode所提供的大量碼位和FontCreator賦予所有人自由編輯碼位所對(duì)應(yīng)字形的權(quán)利讓我們發(fā)現(xiàn)了在現(xiàn)有技術(shù)條件下快速且靈活地實(shí)現(xiàn)古文字?jǐn)?shù)字化的方法。

        本文的字庫制作模式簡單明了,可操作性強(qiáng),極大地降低了添加制作古文字字形的成本,提高了個(gè)人創(chuàng)建使用字形和字庫的自由度,具有普適性意義。所制作的字體文件擁有占用內(nèi)存小、可任意擴(kuò)展、應(yīng)用靈活等優(yōu)點(diǎn)。根據(jù)古文字字體文件的制作過程和實(shí)際使用體驗(yàn),我們還認(rèn)識(shí)到,在非通用情況下不斷地?cái)U(kuò)充字符集,反而尾大不掉。一般情況下,古文字字庫應(yīng)講求一定的全面性。但在實(shí)際運(yùn)用中,由于現(xiàn)有輸入法的限制,數(shù)據(jù)龐大的“碼位輸入”對(duì)照表反而會(huì)對(duì)字符輸入造成不便。如此看來,在現(xiàn)有技術(shù)下,我們追求的古文字字庫的全面性必須根據(jù)具體的研究課題而定。如上所說,通過切換字庫的方式實(shí)現(xiàn)不同文字形式的同屏展示反而更為便利。

        在未來,為了更好地整合字形資源,實(shí)現(xiàn)古文字徹底的數(shù)字化,需要有三方的努力:首先,需要有一個(gè)科學(xué)統(tǒng)一的字符編碼集合,其次是滿足全文檢索要求的漢字字庫,最后是大眾可普遍接受的輸入法,三者缺一不可。

        參考文獻(xiàn)

        [1]Unicode協(xié)會(huì).Unicode 5.0標(biāo)準(zhǔn)[M].孫偉峰,李德龍,譯.北京:清華大學(xué)出版社,2010.

        [2]劉根輝,張曉霞.古文字字形整理與通用古文字字庫開發(fā)研究[J].古漢語研究,2016(03):51-56.

        [3]尉遲治平,湯勤.論中文字符集、字庫及輸入法的研制[J].語言研究,2006(03):63-66.

        [4]尉遲治平.再論中文漢字字符集[J].語言研究,2020,40(01):78-89.

        [5]張?jiān)倥d.古文字字庫建設(shè)的幾個(gè)問題[J].中文信息學(xué)報(bào),2003(06):60-65.

        【課題項(xiàng)目】本文系西南民族大學(xué)省級(jí)大學(xué)生創(chuàng)新訓(xùn)練項(xiàng)目“字符編碼技術(shù)在新文科古漢語課程中的應(yīng)用——基于FontCreator的古文字字體文件制作”(項(xiàng)目編號(hào):S201110656069)的階段性成果。

        猜你喜歡
        字符集字庫古文字
        釋古文字中的“杪”及相關(guān)字
        No.2 喜茶聯(lián)合漢儀字庫推出微型書和書簽
        MySQL數(shù)據(jù)庫字符集的問題研究
        古文字“刀”“匕”混同——兼説舊釋“從宜從刀”之字
        簡帛(2019年2期)2019-11-03 09:12:36
        ORACLE字符集問題的分析
        古文字“丙”與古器物“房”
        某型號(hào)產(chǎn)品的字庫遷移優(yōu)化設(shè)計(jì)
        電子世界(2018年7期)2018-04-26 08:51:35
        ORACLE數(shù)據(jù)庫字符集問題及解決方法
        醫(yī)院信息系統(tǒng)Oracle數(shù)據(jù)庫中導(dǎo)入數(shù)據(jù)中文亂碼的解決技術(shù)
        從古文字的角度看李陽冰對(duì)《說文》的說解
        亚洲成人av在线第一页| 三个男吃我奶头一边一个视频| 亚洲av日韩av激情亚洲| 无码任你躁久久久久久久| 欧美黑人又粗又硬xxxxx喷水| 911香蕉视频| 精品中文字幕日本久久久| 水蜜桃在线精品视频网| 免费a级毛片高清在钱| 国产av综合影院| 无码成人片一区二区三区| 91热视频在线观看| 大香蕉青青草视频在线| 午夜时刻免费入口| 久久久久国产一区二区三区| 岛国av无码免费无禁网站下载| 久久AⅤ无码精品色午麻豆| 东京热加勒比视频一区| 先锋中文字幕在线资源| 国产乱xxⅹxx国语对白| 国产xxxxx在线观看免费| 国产三级精品三级在专区中文| 最新中文字幕亚洲一区| 亚洲av成人精品日韩在线播放| 天干天干啦夜天干天2017| 精品熟女少妇免费久久| 亚洲狠狠久久五月婷婷| 亚洲av日韩av永久无码下载| 丰满人妻妇伦又伦精品国产| 人妻AV无码一区二区三区奥田咲| 国产精品亚洲av无人区二区| 中文字幕av熟女中文av| 久久久精品一区aaa片| 一区一级三级在线观看| 中国女人a毛片免费全部播放| 亚洲本色精品一区二区久久 | 狂猛欧美激情性xxxx大豆行情| 8av国产精品爽爽ⅴa在线观看| 人妻精品一区二区三区视频| 少妇被粗大的猛进69视频| 男人的天堂无码动漫av|