亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        古籍數(shù)字化過程中漢字處理對策研究

        2014-02-05 00:47:21李玖蔚
        關(guān)鍵詞:數(shù)據(jù)庫

        李玖蔚

        ?

        古籍數(shù)字化過程中漢字處理對策研究

        李玖蔚

        井岡山大學(xué)圖書館,江西 吉安 343009

        古籍數(shù)字化是解決古籍保護與利用之間矛盾的有效手段。本文概述了國內(nèi)外古籍數(shù)字化過程中漢字字庫的研究情況,并以廬陵文化古籍文獻數(shù)字化實踐為基礎(chǔ),從輸入法的選擇、偏僻字的錄入技巧、自造古字等方面,探討圖書館在古籍數(shù)字化過程中面臨的漢字字庫不足問題所采取的應(yīng)對策略,并提出漢字處理過程中需注意的若干問題,以期對從事古籍數(shù)字化的同仁有所啟發(fā)和幫助。

        圖書館;古籍數(shù)字化;漢字處理;對策研究

        古籍數(shù)字化是加快古籍流通,有效保護古籍的重要手段。中文古籍數(shù)字化肇始于1978年[1],美國人P?J?Ivanhoe使用電子計算機編制了《戴震孟子字義疏證索引》《王陽明大學(xué)問索引》《王陽明傳習(xí)錄索引》《朱熹中庸章句索引》《朱熹大學(xué)章句索引》機讀目錄。目前在美國,由北美36家圖書館組成的美國圖書館研究學(xué)會,擁有25000條數(shù)據(jù)的數(shù)據(jù)庫做到了館際資源共享,并還在不斷地擴充完善中。哈佛燕京圖書館擁有的“線裝古籍計算機檢索系統(tǒng)”中的1000余種家譜的資料,目前已經(jīng)編目完成。在英國,大量中國珍貴文獻和古籍收藏在大英圖書館,大英圖書館開發(fā)的“古版書簡明標題目錄”是當前全球古籍文獻數(shù)據(jù)庫最大的聯(lián)機數(shù)據(jù)庫[1]。以上這些成果為我國古籍數(shù)字化建設(shè)提供了寶貴的經(jīng)驗。

        據(jù)2010年不完全統(tǒng)計,我國大陸地區(qū)有179家單位從事古籍數(shù)字化,形成各類數(shù)據(jù)庫(包括各種古籍書目數(shù)據(jù)庫、古籍全文數(shù)據(jù)庫等)415個,許多數(shù)據(jù)庫的字數(shù)都在1億以上。較權(quán)威的統(tǒng)計表明,2012年我國公藏機構(gòu)已經(jīng)擁有超過20億字的數(shù)字化文本格式的古籍。一些已成規(guī)模的大型古籍數(shù)據(jù)庫還在原有基礎(chǔ)上不斷拓展和完善[2]。

        中國大陸地區(qū)開始中文古籍數(shù)字化工作以來,制約古籍數(shù)字化進程的主要問題是漢字字庫問題。業(yè)界就這一問題進行了深入的研究和探討。

        1 國內(nèi)外古籍數(shù)字化過程中對漢字字庫問題的研究概況

        1.1 漢字字庫的研究情況

        我國從20世紀50年代就開始了計算機中文信息處理的理論和技術(shù)的研究,自20世紀70年代中期開始,我國逐漸加快在計算機中文信息處理方面的發(fā)展步伐,在漢字鍵盤輸入技術(shù)、漢字輸出技術(shù)、漢字編碼技術(shù)、漢字儲存、檢索和識別、電子照排、中文平臺等多方面取得了一系列重大成就[3]。陸續(xù)開發(fā)的漢字鍵盤輸入方法,解決了漢字進入計算機的難題;漢字輸出實現(xiàn)了多字體、多字號;漢字字庫的制作也由點陣字庫、矢量字庫逐步過渡到曲線輪廓字庫;漢字自動識別技術(shù)達到國際先進水平,并有商品投入市場;ISO/IEC 10646的CJK字符集,由早期的20 902個CJK統(tǒng)一漢字逐步擴充,擴充集A和擴充集B已經(jīng)完成,現(xiàn)在正討論擴充集C1。待擴充集C1完成后,中日韓編碼漢字已經(jīng)7萬多。這些成就,促進了中國計算機的普及,為發(fā)展計算機應(yīng)用技術(shù)和信息化創(chuàng)造了基本條件[4]。

        1.2 漢字字庫的不足

        中國古籍數(shù)字化經(jīng)過近30年的努力,漢字字庫得到了飛速發(fā)展,并開發(fā)出了超大字符集字庫。在漢字信息化標準制定方面,國內(nèi)外相繼制定了多個漢字編碼標準。最新的GB 18030-2005標準可以涵蓋70 244個漢字。然而,古籍中的漢字大約有10萬多個,GB 18030-2005的字庫還是遠沒有覆蓋所有漢字[3]。因此,在古籍數(shù)字化時依然會碰到不少缺字現(xiàn)象,補字工作不可避免。漢字字庫的不足是影響古籍數(shù)字化質(zhì)量及進程的主要問題之一。

        2 我館古籍數(shù)字化過程中應(yīng)對漢字字庫問題的策略

        井岡山大學(xué)地處素稱“江南望郡”、“金廬陵”、“文章節(jié)義之邦”的吉安,一直以來注重廬陵文化相關(guān)文獻資料的購買和收藏,為充分挖掘廬陵文化的精髓和內(nèi)涵,又組織力量對相關(guān)的館藏資源進行數(shù)字化加工,建成了特色數(shù)據(jù)庫,為研究者提供了更快捷、更豐富、更深層次的服務(wù)[5]。

        所謂廬陵文化,主要是指讀書人多,建功立德者多,文教設(shè)施多,發(fā)表著述多等等。在數(shù)字化廬陵文化名人的古籍作品時,比如在《歐陽修文萃》的數(shù)字化過程中,盡管安裝了超大字符集字庫,對計算機也作了相應(yīng)的設(shè)置,但還是碰到不少問題。故筆者將三年來數(shù)字化廬陵古籍文獻中的實踐經(jīng)驗進行總結(jié),希望對從事古籍數(shù)字化的同仁有所啟發(fā)和幫助,以期更多的古籍文化得以展示和傳承。

        2.1 選擇合適的輸入法

        在古籍數(shù)字化過程中,安裝大的漢字字體庫,能解決大部分漢字的輸入與顯示問題。目前比較成熟的輸入法有很多,但任何一種輸入法都難以囊括字體庫中的所有漢字。因此,對輸入法的選擇至關(guān)重要。合適的輸入法,不但決定了漢字的輸出能力,更影響著古籍數(shù)字化的效率。

        筆者建議選擇“極點五筆”輸入法,其一,此輸入法既可單獨進行“五筆字形、拼音輸入法”的選擇,也可選擇“五筆拼音輸入法”,在這種輸入狀態(tài)下,對于那些目前還不能通過五筆輸出的漢字,可直接輸入該字的拼音進行輸出,省去了在五筆和拼音之間來回切換的操作;其二,該輸入法的繁簡切換非常直觀、明了、方便,對于那些不是很熟悉的繁體字,通過輸入其簡體字就能顯示對應(yīng)的繁體字,這樣建庫人員能很快地確定其正誤。比如“齋”和“齊”,不仔細區(qū)別感覺像是同一個字,但實際上它們分別是“齋”和“齊”的繁體字。

        2.2 偏僻字的錄入技巧

        目前漢字字庫中有大量的生僻字,無法通過五筆輸入法輸出,需通過拼音輸入法才能輸出,此時可在Word中輸入與生僻字偏旁和筆畫相近的字,并選定該字,點擊右鍵,在彈出菜單中選擇“符號”,便很快能找到所需文字,雙擊該字,即可直接輸入到Word中,這樣建庫人員在不知道其讀音的情況下,也能很快地輸入該字,從而提高古籍數(shù)字化的進程。

        2.3 自造古字

        目前在古籍文獻數(shù)字化處理的過程中,通用于業(yè)界的Uni-code字符集具有近7萬字的容量[6],但在古籍數(shù)據(jù)庫建設(shè)中還是不夠用。因此,我們使用微軟操作系統(tǒng)自帶的“TrueType”造字程序進行造字,避免數(shù)據(jù)庫中使用符號或說明性文字代替目前輸入法無法正常輸出的文字現(xiàn)象。

        3 古籍數(shù)字化漢字處理過程中需注意的問題及對策

        古籍數(shù)字化漢字處理過程中遇到的最大障礙是漢字字庫問題,它不但影響著古籍數(shù)字化的進程,還制約著古籍數(shù)字化的發(fā)展。漢字字庫問題多年來經(jīng)過專家學(xué)者的研究,正在不斷的完善中,但仍未囊括古籍中的所有漢字,在進行古籍數(shù)字化時仍有不少字需要利用相關(guān)程序進行造字。目前有一些具備造字功能的程序,筆者主要介紹使用微軟操作系統(tǒng)自帶的“TrueType”造字程序進行造字時需要注意的問題及解決方法。

        3.1 造字時截取字庫中已有字的有關(guān)部位

        在造字時,最好截取現(xiàn)成字中需要的部分進行造字,這樣比分別輸入所造字的各個部分而造出的字要美觀。比如:我們通過截取“映”的左半部和“換”的右半部造出的字比直接輸入“日”和“奐”字而造出的字,看上去要自然美觀。

        3.2 自造字大小的調(diào)節(jié)

        自造的字如果不通過區(qū)位碼輸入法進行輸出,而是直接將其復(fù)制粘貼到Word或Excel文檔中的話,字號大小的調(diào)節(jié)不要在造字程序中進行,而應(yīng)在Word或Excel文檔中進行,否則字的筆劃線條太粗,放入相應(yīng)文檔中也會顯得很不協(xié)調(diào)。

        3.3 自造字的輸出

        將自造字直接放入Excel單元格中時,單元格的狀態(tài)應(yīng)處于編輯狀態(tài)(即單擊該單元格)而不是可修改狀態(tài)(即雙擊單元格),否則無法將自造字粘貼到指定位置。但這種直接將自造字復(fù)制粘貼到Excel或Word文檔中的操作,當需對其進行排版時,它不會隨之移動,要人工調(diào)整它所在的位置,故生僻字造好后,應(yīng)利用區(qū)位碼輸入法輸出到相應(yīng)文檔中,這樣排版時就不會出現(xiàn)自造字不隨文移動的現(xiàn)象了。

        3.4 自造字的顯示

        自造的字缺乏通用性,因此若要在不同的計算機上都可以正常顯示Excel或數(shù)據(jù)庫中的自造字,就必須將eudc.euf和eudc.tff這兩個自造字庫文件拷貝到字體目錄下。需要指出的是,將這二個文件拷貝到指定目錄時,根據(jù)計算機設(shè)置的不同,其拷貝方法也不同。即:操作系統(tǒng)中沒有攜帶TrueType造字程序,只需直接將自造字的二個文件粘貼到指定目錄,重啟計算機就行了;其他情況就只有通過command命令進行拷貝操作,當然如果造字程序或自造字文件處于運行狀態(tài),則拷貝操作無法進行。

        4 結(jié)語

        古籍數(shù)字化建設(shè)是一項艱巨而復(fù)雜的系統(tǒng)工程,盡管目前古籍數(shù)字化建設(shè)中還存在一些問題,但隨著國家“中國古籍數(shù)字化工程”的啟動及數(shù)字化技術(shù)的發(fā)展與完善,相信在不久的將來,古籍數(shù)字化過程中所遇到的問題都將逐步得到解決。

        [1]趙雪云,劉宗利,趙瑞生.淺談我國古籍數(shù)字化[J].才智,2012(12):115-116.

        [2]高娟,劉家真.中國大陸地區(qū)古籍數(shù)字化問題及對策[J].中國圖書館學(xué)報,2013,39(4):110-119.

        [3]黃堅.無字庫智能造字系統(tǒng)在計算機上的實現(xiàn)[D].廣州:華南理工大學(xué),2010:1-89.

        [4]李宇明.搭建中華字符集大平臺[J].中文信息學(xué)報,2003, 17(2):1-6,53.

        [5]李實明,李玖蔚,傅林紅,等.宋代廬陵文化名人研究數(shù)據(jù)庫建設(shè)概述[J].井岡山學(xué)院學(xué)報(哲學(xué)社會科學(xué)),2009, 30(11):9-11.

        [6]郭偉玲,戴艷清.論古籍數(shù)字化的檢索問題[J].圖書館理論與實踐,2011(10):13-16.

        A Countermeasure Study on Chinese Character Processing in Ancient Literature Digitization Process

        Li Jiuwei

        (Library of Jinggangshan University,Ji'an Jiangxi 343009,China)

        Ancient literature digitization is an effective means to resolve the conflict between protection and utilization of ancient literature. This article provided an overview of the situation about researches on Chinese character database in ancient literature digitization process at home and abroad. It explored solutions when the problem of inadequate coping in ancient literature digitization process emerged from the aspects of choice of input method, input skill of rare characters, and self-made ancient characters based on the digitization practice of ancient literature about Luling culture. It also raised a number of problems in Chinese character processing in order to inspire and help colleagues engaged in ancient literature digitization.

        library; ancient literature digitization; Chinese character processing; countermeasure study

        10.3969/j.issn.2095-5707.2014.06.006

        江西省社科規(guī)劃重點項目(TQ1102)

        李玖蔚,副研究館員,研究方向:信息管理、信息系統(tǒng)及計量分析。E-mail: 530807487@qq.com

        (2014-06-11,編輯:魏民)

        猜你喜歡
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        財經(jīng)(2017年15期)2017-07-03 22:40:49
        數(shù)據(jù)庫
        財經(jīng)(2017年2期)2017-03-10 14:35:35
        兩種新的非確定數(shù)據(jù)庫上的Top-K查詢
        數(shù)據(jù)庫
        財經(jīng)(2016年15期)2016-06-03 07:38:02
        數(shù)據(jù)庫
        財經(jīng)(2016年3期)2016-03-07 07:44:46
        數(shù)據(jù)庫
        財經(jīng)(2016年6期)2016-02-24 07:41:51
        數(shù)據(jù)庫
        財經(jīng)(2015年3期)2015-06-09 17:41:31
        數(shù)據(jù)庫
        財經(jīng)(2014年21期)2014-08-18 01:50:18
        數(shù)據(jù)庫
        財經(jīng)(2014年6期)2014-03-12 08:28:19
        數(shù)據(jù)庫
        財經(jīng)(2013年6期)2013-04-29 17:59:30
        一本色综合久久| 亚洲国产精品区在线观看| 午夜熟女插插xx免费视频| 麻豆精品久久久久久久99蜜桃| 久久综合给日咪咪精品欧一区二区三| www国产亚洲精品久久网站| 久久半精品国产99精品国产| 亚洲麻豆av一区二区| 国产一区二区三区三区四区精品| 国产成人精品无码一区二区老年人| 波多野结衣有码| 99热久久只有这里是精品| 精品国产精品三级在线专区| 国产一区二区三区乱码| 日本高清www午色夜高清视频| 亚洲欧美日韩国产一区二区精品| 又色又爽又黄还免费毛片96下载| 国产香港明星裸体xxxx视频 | 极品少妇一区二区三区四区| 91精品手机国产在线能| 国产在线精品亚洲视频在线| 成人av在线久色播放| 亚洲av无码专区在线播放中文| 亚洲成人观看| 国产女主播在线免费看| 欧洲乱码伦视频免费| 少妇对白露脸打电话系列| 美女黄频视频免费国产大全| 国产三级精品三级在线专区2| 7m精品福利视频导航| 最新国产三级| 久久精品国产亚洲av一| 激情内射人妻1区2区3区| 久久精品无码中文字幕 | 国产乱人伦av在线a| 97se狠狠狠狠狼鲁亚洲综合色| 亚洲国产成人精品无码区99| 狠狠综合亚洲综合亚色| 五月婷婷开心六月激情| 免费观看羞羞视频网站| 91精品国产综合成人|