亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

關于制定古籍數(shù)字化標準的思考

2010-03-22 11:08:29姚俊元南京圖書館南京210018

圖書館理論與實踐 2010年2期

●姚俊元（南京圖書館，南京 210018）

2007年1月，國務院辦公廳發(fā)布了《關于進一步加強古籍保護工作的意見》，文中明確指出：“進一步加強古籍的整理、出版和研究利用。制訂古籍數(shù)字化標準，規(guī)范古籍數(shù)字化工作，建立古籍數(shù)字資源庫?！?008年7月28日，在全國古籍保護工作會議上文化部副部長周和平講到：“要制定古籍數(shù)字化標準，加快古籍數(shù)字化工作，逐步為公眾提供古籍全文數(shù)字化閱覽服務?！痹倬C觀國內(nèi)外專家學者的意見和專業(yè)機構的做法，可以斷定，古籍數(shù)字化已經(jīng)成為21世紀古籍整理的主流，代表著未來古籍整理、開發(fā)、利用的發(fā)展方向，但在我國目前還缺乏相應的工作標準，需要業(yè)界人士進一步的研究、探索和制定。

1 古籍數(shù)字化標準的概念

《標準化與相關活動的基本術語及其定義（1991年第六版）》對“標準”定義為：“標準是由一個公認的機構制定和批準的文件，它對活動或活動的結果規(guī)定了規(guī)則、導則或特性值，供共同和反復使用，以實現(xiàn)在預定結果領域內(nèi)最佳秩序的效益?！睒藴适菢藴驶顒拥慕Y果，它雖然不是商品，卻能加速商品的生產(chǎn)流通，提高效率和管理水平，保證產(chǎn)品、工程、服務的質(zhì)量。所謂古籍數(shù)字化標準，簡言之，就是在古籍數(shù)字化過程中以達到最佳有序化程度為目的，共同遵守的準則和依據(jù)。

2 制訂古籍數(shù)字化標準的必要性

從20世紀80年代起，我國大陸地區(qū)開始古籍數(shù)字化工作，網(wǎng)上可見的中文古籍數(shù)據(jù)庫共有70多個。但令人遺憾的是，至今我國沒有相關的標準和規(guī)范，造成了目前古籍數(shù)字化在概念上百家爭鳴、在開發(fā)理念上千差萬別、在質(zhì)量上參差不齊和在標準上各自為政的局面，給使用者帶來了不便，也嚴重困擾了古籍數(shù)字化工作的健康、快速、協(xié)調(diào)發(fā)展。

2.1 認識上概念模糊

經(jīng)過20多年的努力，我國古籍數(shù)字化工作取得一定成果，建設了一批優(yōu)秀的古籍數(shù)字化產(chǎn)品，比如：國家圖書館的碑砧菁華、西夏碎金、敦煌遺珍、數(shù)字方志以及甲骨文、永樂大典等，上海圖書館的名人家譜庫，天津圖書館的古籍善本選粹，北京大學的中國基本古籍光盤庫等等。但是由于缺乏統(tǒng)一領導和工作標準，目前官方或?qū)W術界還處于探索階段，仍然沒有一個準確、統(tǒng)一的概念界定，導致古籍數(shù)據(jù)化程度深淺不一、參差不齊。

2.2 儲存上格式眾多

當前數(shù)字化古籍的文件格式可謂五花八門，種類繁多，除了常見的txt、doc、hind格式外，還有exe、pdf、wdl、ebk、edb、peb、sep、ifr、xeb、pdg、nlc 格式，以及基于unicode、倉頡碼、Big5碼或其他字符集，這些不同格式的文件，往往需要各自專門的閱讀器才能進行瀏覽，相互之間難以兼容，給讀者造成了不少麻煩，也給我國古籍資源的共享制造了隱患。［1］

2.3 檢索上平臺各異

一般數(shù)字化資源大多需要納入數(shù)據(jù)庫，才可調(diào)用和檢索，但各家所用數(shù)據(jù)庫很不統(tǒng)一，如access、mysql、sqlsever都有，給跨庫檢索帶來極大不便。

2.4 方式上千差萬別

目前，古籍數(shù)字化的基本方法大體包括全文數(shù)據(jù)庫、全文圖像、圖文三種方式，但在檢索功能、古籍原貌、研究效果、方便利用等方面存在著差別。

2.5 協(xié)作上缺乏溝通

由于分散作業(yè)、各自為用，我們至今無法完整地了解哪些古籍已經(jīng)被數(shù)字化，更無法知曉其數(shù)字化的格式、利用的程度等情況，這一方面造成了數(shù)不清的重復建設，另一方面又使這些有用的學術資源無法充分發(fā)揮其作用。

荷蘭國家圖書館在數(shù)字化文獻領域領先世界，該館保存部主任希爾德·范韋恩加德指出，數(shù)字化產(chǎn)品能否長期保存和方便利用，需要在數(shù)字化開始時就考慮選擇什么樣的文件格式（file format）、制作標準（production settings）和字型等。［2］通過以上分析不難看出，標準化是古籍數(shù)字化的基礎，直接影響古籍數(shù)字資源的制作質(zhì)量和查詢服務的效果。只有不斷采用新技術，統(tǒng)一新標準，確立古籍數(shù)字化的統(tǒng)一著錄格式和標引方法，研制與用戶要求相匹配的系統(tǒng)，數(shù)字化的古籍文獻信息才能在不同的計算機系統(tǒng)之間交換數(shù)據(jù)，才能實現(xiàn)用戶和系統(tǒng)以及系統(tǒng)與系統(tǒng)之間的有效溝通，確保數(shù)據(jù)庫的使用性能。

3 制訂古籍數(shù)字化標準的幾點思考

3.1 統(tǒng)一概念認識，明確古籍數(shù)字化的真正內(nèi)涵

古籍數(shù)字化是從保護和利用古籍的目的出發(fā)，采用計算機技術，將常見的語言文字或圖形符號轉(zhuǎn)化為能被計算機識別的數(shù)字符號，從而制成古籍全文數(shù)據(jù)庫，用以揭示古籍文獻信息資源的一項系統(tǒng)工作。古籍數(shù)字化不等于對古籍進行掃描后在計算機上瀏覽，其科學內(nèi)涵是必須對古籍原典進行具有計算機瀏覽、檢索、利用特點的深度開發(fā)。［3］基于這個概念，我們可以將古籍數(shù)字化的基本性質(zhì)定位為：古籍數(shù)字化是對已存古籍的再現(xiàn)和加工，屬于古籍整理的范疇，是古籍整理的一部分，最終達到開發(fā)利用和保護的目的。

3.2 統(tǒng)一工作宗旨，明確古籍數(shù)字化的基本特征

古籍數(shù)字化，主要是將古籍文獻的內(nèi)容轉(zhuǎn)化為數(shù)字形式后移植到新的載體上。應該講，除了檢索方法外，它不是古籍內(nèi)容的再創(chuàng)造，而只是載體形式的變更，因而保持古籍內(nèi)容的原始性至關重要。我國歷史上每一次古籍文獻載體形式的變更或同一載體的移植，總會造成一部分文獻內(nèi)容的失真，給古籍考證帶來諸多麻煩，?？奔液托？睂W的形成就是很好的例證?，F(xiàn)在古籍文獻數(shù)字化采用高科技手段，其移植數(shù)量之大、速度之快遠勝于歷史上任何一次文獻載體的變革，所以保持古籍文獻內(nèi)容的原始性應是其首要的標準，且同時必須具有四個基本特征：（1）文本字符的數(shù)字化；（2）具有基于超鏈接設計的瀏覽閱讀環(huán)境；（3）具有強大的檢索功能；（4）具有研究支持功能。［4］

3.3 統(tǒng)一方式標準，明確古籍數(shù)字化的基本方法

比較三種古籍數(shù)字化的方式不難發(fā)現(xiàn)，圖文方式集全文數(shù)據(jù)庫方式和全文圖像方式的優(yōu)點于一身，且又避免了各自的缺點，是古籍數(shù)字化的最佳方式，也是古籍數(shù)字化的發(fā)展方向。香港中文大學的漢達古籍資料庫、北京大學古籍數(shù)字圖書館的古籍拓片圖像數(shù)據(jù)庫和古籍拓片全文數(shù)據(jù)庫，都是先將古籍和拓片進行掃描加工，建成圖像數(shù)據(jù)庫，之后逐步通過OCR技術轉(zhuǎn)換進行全文數(shù)據(jù)庫建設，最終實現(xiàn)基于內(nèi)容的全文檢索。［5］

3.4 統(tǒng)一存儲格式，明確古籍數(shù)字化的技術標準

文件格式標準的統(tǒng)一，是當前數(shù)字圖書館標準化建設的重要目標。從古籍數(shù)字化的長遠目標而言，業(yè)界主要機構要聯(lián)合起來，制訂出統(tǒng)一的文件存儲格式。這種格式既要適合漢字尤其是繁體字的存儲，又能具備足夠強大的加密功能，以保護各自的知識產(chǎn)權。同時為保證數(shù)字化古籍的科學、嚴謹、規(guī)范，這種文檔格式還應該能夠方便地進行漢語拼音標注和人名地名標記。另外，這種文檔格式特別應該有利于全文檢索?？紤]到處理古籍文獻時需要處理海量圖片，如何制訂一種具有較高壓縮比，又能清晰地再現(xiàn)原始圖書頁面風貌的圖片格式便顯得尤為重要。軟件的選用主要根據(jù)古籍數(shù)字化最終形成的格式而決定。就目前而言，“書同文數(shù)碼翰林”軟件可以說是較成熟的古籍數(shù)字化處理軟件。用該軟件制作的“四庫全書”及“四部叢刊”電子圖書，文本頁面保持了原書的豎排格式，增強了古籍閱讀的真實感，基本實現(xiàn)了圖文關聯(lián)和閱讀檢索及全文檢索的功能。

3.5 統(tǒng)一數(shù)據(jù)形式，對古籍數(shù)字資源進行元數(shù)據(jù)標引

所謂的統(tǒng)一，是基于目前圖書館界和國外學術資料信息化的普遍經(jīng)驗，將資源對象的語義信息統(tǒng)一為元數(shù)據(jù)格式。對古籍數(shù)字資源進行元數(shù)據(jù)標引主要有以下好處：（1）它不必對現(xiàn)有資源進行格式改造，只是加以外部屬性描述；（2）將為全部古籍數(shù)字化資源的調(diào)查和格式轉(zhuǎn)換或再度開發(fā)創(chuàng)造統(tǒng)一的數(shù)據(jù)環(huán)境（元數(shù)據(jù)元素集中定義了相關標識字段）。隨著學術需求和開發(fā)建設的不斷發(fā)展，可以想象，對現(xiàn)有數(shù)字古籍資源做元數(shù)據(jù)回溯標引也將勢在必行（類似對圖書館館藏的回溯標引一樣）。

3.6 統(tǒng)一漢字編碼，完善漢字字符代碼集

古籍數(shù)字化，首先要將過去抄寫、印刷的東西轉(zhuǎn)換為計算機可讀并能在屏幕上準確再現(xiàn)的代碼。目前業(yè)界大多采用Unicode作為文字處理的標準，Unicode已經(jīng)定義了70000多漢字，因此，漢字字符不足以及編碼混亂的問題已基本上得到了解決。但是，古籍數(shù)字化的內(nèi)容并不只是字符的轉(zhuǎn)換問題，要實現(xiàn)運用數(shù)字技術與現(xiàn)代信息處理技術對傳統(tǒng)文獻通過信息加工、信息重組達到方便使用、知識挖掘的目的，實現(xiàn)數(shù)字時代對中華傳統(tǒng)文化的繼承與弘揚的目的，這才是古籍數(shù)字化工作最主要的內(nèi)容和最重要的目標，而要達到這個目標，漢字的處理仍然是一個基礎的和關鍵的問題。書同文公司在其開發(fā)制作的電子版《四庫全書》中能較好地處理冷僻字和異體字，但這些字符一旦脫離這個系統(tǒng)，例如被復制到字處理程序中，便會顯示亂碼，可以說仍未真正解決這個問題。所幸的是，國家有關部門已經(jīng)意識到該問題的嚴重性，《國家“十一五”時期文化發(fā)展規(guī)劃綱要》在“重大文化產(chǎn)業(yè)推進項目”中列有“中華字庫”工程——建立全部漢字的編碼和主要字體字符集，為解決這一問題提供了政策支持。

3.7 提高古籍數(shù)字化人才素質(zhì)

目前，古籍數(shù)字化多數(shù)項目的開發(fā)屬于單一人員或機構的個體行為，缺乏有效的人力資源的組織與控制，很多古籍整理專業(yè)人員不懂電子技術，計算機技術人員又缺少古籍知識。需要指出的是，古籍數(shù)字化屬于古籍整理和學術研究（或稱校讎學）的范疇，是傳統(tǒng)學術方法與現(xiàn)代科學技術的結合，需要培養(yǎng)一批既懂得古籍整理又精通計算機技術的復合型人才，才有能力決定實現(xiàn)古籍數(shù)字化的基本路向和基本框架，在既定的框架內(nèi)實現(xiàn)古籍數(shù)字化的目標。

［1］毛建軍．古籍數(shù)字化的概念與內(nèi)涵［J］.圖書館理論與實踐，2007（4）：82－84.

［2］孫琴．兩大中文古籍數(shù)據(jù)庫比較研究［J］.新世紀圖書館，2007（1）：52－54.

［3］王立清，董梅香．港臺地區(qū)古籍數(shù)字化現(xiàn)狀分析及啟示［J］.圖書情報工作，2006（8）：87－89.

［4］姚伯岳，張麗娟．古籍元數(shù)據(jù)標準的設計及其系統(tǒng)實現(xiàn)［J］.大學圖書館學報，2003（1）：17－22.

［5］李致忠．《古籍定級標準》釋義［J］.圖書館工作與研究，2008（1）：77－81.