摘 要:中國大陸近30年的古籍?dāng)?shù)字化積累了大量的經(jīng)驗,港臺及國外古籍?dāng)?shù)字化的實踐經(jīng)驗亦可作為當(dāng)前古籍?dāng)?shù)字化的重要參考。古籍?dāng)?shù)字化運(yùn)作的幾個基本問題應(yīng)重點(diǎn)解決,其最終成果的管理、效用分析是這一重要工程的組成部分。展望未來,數(shù)字化古籍在大數(shù)據(jù)時代,需要與時俱進(jìn),明確定位、創(chuàng)新發(fā)展。
關(guān)鍵詞:古籍?dāng)?shù)字化;數(shù)字化技術(shù);大數(shù)據(jù)
古籍?dāng)?shù)字化是一項地域范圍寬、時間跨度大、涉及行業(yè)廣的工程,近30余年的理論研究和實踐探索,積累了寶貴的經(jīng)驗,也從中發(fā)現(xiàn)了不少問題,進(jìn)一步做好古籍保護(hù)工作,推進(jìn)數(shù)字化的發(fā)展,需要將古籍?dāng)?shù)字化視為一項系統(tǒng)性工程,需要將歷史經(jīng)驗教訓(xùn)、當(dāng)前社會發(fā)展需求以及日新月異的科技的有機(jī)結(jié)合。
1 古籍?dāng)?shù)字化基礎(chǔ)論
1.1 20世紀(jì)80、90年代以來的理論探索、實踐摸索
20世紀(jì)90年代末,史睿在《論中國古籍?dāng)?shù)字化與人文學(xué)術(shù)研究》中提出,古籍?dāng)?shù)字化理論問題比技術(shù)問題更為重要。此后,更多的研究者關(guān)注數(shù)字化理論問題。這其中包括概念問題、目標(biāo)選取問題、管理問題、運(yùn)作問題等,而尤以概念問題為重。
古籍?dāng)?shù)字化概念的探索始于21世紀(jì)初。2000年,李運(yùn)富首次在《談古籍電子版的保真原則和整理原則》中提出了古籍?dāng)?shù)字化概念。此后,一些專家學(xué)者在此基礎(chǔ)上不斷補(bǔ)充、修正,如潘德利、彭江岸、喬紅霞、劉琳、毛建軍等專家學(xué)者,對古籍?dāng)?shù)字化概念進(jìn)行了深入探討,尤其是2009年毛建軍的《古籍?dāng)?shù)字化的理論與實踐》一書的出版,標(biāo)志著古籍?dāng)?shù)字化理論雛形的形成。[1]
綜合各家研究,基本認(rèn)為古籍?dāng)?shù)字化是“從利用和保護(hù)古籍的目的出發(fā),采用計算機(jī)技術(shù),將常見的語言文字或圖形符號轉(zhuǎn)化為能被計算機(jī)識別的數(shù)字符號,從而制成古籍文獻(xiàn)書目數(shù)據(jù)庫和古籍全文數(shù)據(jù)庫,用以揭示古籍文獻(xiàn)信息資源的一項系統(tǒng)工作”。[2]隨著大量研究文章的出現(xiàn),甚至專著成果的推出,概念問題愈發(fā)明晰,成熟。
大陸地區(qū)古籍?dāng)?shù)字化有多年的實踐經(jīng)驗。較有代表性的是上海圖書館古籍全文數(shù)字化建設(shè)。1996年,上海圖書館與長江計算機(jī)集團(tuán)合作,采用引進(jìn)與開發(fā)并舉的模式,建立了“古籍影像光盤制作檢索系統(tǒng)”,將古籍善本以圖像形式掃描,全文錄入計算機(jī),有些古籍藏書單位,進(jìn)行了古籍書目數(shù)據(jù)庫、索引數(shù)據(jù)庫的嘗試建設(shè),如山東、南京、浙江等省圖書館。
古籍?dāng)?shù)字化是傳統(tǒng)古籍整理的數(shù)字技術(shù)延伸,它具有古籍整理學(xué)和數(shù)字技術(shù)相結(jié)合的跨學(xué)科特征,理論經(jīng)驗結(jié)合社會現(xiàn)實的需要,使之必將成為未來古籍整理的主流和發(fā)展方向。[3]
1.2 日韓、歐美的古籍?dāng)?shù)字化
1)日韓中文古籍?dāng)?shù)字化,日本收藏著大量的中文古籍,其古籍?dāng)?shù)字化起步早,數(shù)量可觀。代表性的有國立國會圖書館的書目數(shù)據(jù)庫,收錄清代以來中文文獻(xiàn)約25萬種;東京大學(xué)圖書館的“珍貴漢籍全文數(shù)據(jù)庫”;東洋文化研究所“漢籍善本全文影像資料庫”;京都大學(xué)人文科學(xué)研究所全國漢籍協(xié)議會的“全國中文古籍書目數(shù)據(jù)庫”等。
韓國收藏中文古籍,也較為豐富,其數(shù)字化工作注重長遠(yuǎn)規(guī)劃、系統(tǒng)開發(fā)。國立漢城大學(xué)圖書館“奎章閣古籍掃描全文閱覽系統(tǒng)”,是其數(shù)字圖書館建設(shè)的重要項目,按四部法對古籍進(jìn)行數(shù)字化系統(tǒng)建設(shè)。
2)歐美國家的中文古籍?dāng)?shù)字化,1978年,美國人運(yùn)用計算機(jī)編制了《朱熹大學(xué)章句索引》、《王陽明傳習(xí)錄索引》等,成為中文古籍?dāng)?shù)字化的開端。至1998年,開始實施“國家數(shù)字構(gòu)建儲存計劃”,由此邁向數(shù)字化時代。
至2010年美國哈佛大學(xué)哈佛學(xué)院圖書館與中國國家圖書館啟動“哈佛大學(xué)哈佛燕京圖書館藏中文善本特藏資源庫”網(wǎng)站,資源庫為中國國家圖書館在國際合作史上規(guī)模最大且歷時最長的文獻(xiàn)數(shù)字化項目。該數(shù)據(jù)庫資源可按照書名、著者、出版信息、分類等多維度進(jìn)行檢索和分類瀏覽,書目信息為中英文對照,提供全部書影的閱覽。隨著數(shù)字化工作的持續(xù)展開,資源庫將不斷得到更新.
1.3 21世紀(jì)初的中國大陸古籍普查工程
全國古籍普查是摸清全國古籍存藏狀況,建立古籍總帳日,開展古籍保護(hù)的基礎(chǔ)工作,在“全國古籍普查登記平臺”上建立全國古籍普查基本數(shù)據(jù)庫,由地方單位編寨出版館藏古籍登記目錄,形成《全國古籍普查登記日錄》,完成普查登記后,普查成果形成《中華古籍總目》分省卷,國家古籍保護(hù)中心在些基礎(chǔ)上統(tǒng)編出版《中華古籍總目》。
2007年初,全國古籍保護(hù)工作會議召開后,拉開了古籍普查工作的序幕。此次普查,是近百年來對存世古籍的全面清點(diǎn),不僅包括單位藏書,而且涵蓋了私人藏書機(jī)構(gòu),同時得到國家的政策和資金支持。通過全國古籍普查登記,建立國家珍貴古籍名錄及“全國古籍重點(diǎn)保護(hù)單位”,發(fā)現(xiàn)了不少古籍新品種或新版本。截至2019年11月,全國已有24省完成古籍普查登記工作,全國古籍普查完成總量260余萬部另1.8萬函,2315家收藏單位完成古籍普查登記工作;“全國古籍普查登記基本數(shù)據(jù)庫”累計發(fā)布217家單位古籍普查數(shù)據(jù)77萬條7,44萬冊。
基礎(chǔ)工作至關(guān)重要,過往的經(jīng)驗教訓(xùn)都是寶貴的財富。古籍普查對于摸清家底、進(jìn)一步保護(hù)文化遺產(chǎn)、深入研究傳統(tǒng)文化,具有不可估量的意義。然而,古籍普查過程中的種種問題,尚需規(guī)范職業(yè)秩序、完善普查制度、明晰權(quán)責(zé)利,確保古籍資產(chǎn)的安全和普查的成效。
2 古籍?dāng)?shù)字化運(yùn)作論
2.1 古籍?dāng)?shù)字化學(xué)科建設(shè)、標(biāo)準(zhǔn)體系
1)古籍?dāng)?shù)字化學(xué)科體系。數(shù)字化技術(shù)引入古籍整理領(lǐng)域,是個必然的趨勢,但正是在實踐中發(fā)現(xiàn)了許多問題,迫切地需要深化古籍?dāng)?shù)字化研究,需要建立相應(yīng)的學(xué)科體系。
隨著古籍?dāng)?shù)字化技術(shù)的成熟,其理論體系相對愈顯薄弱。葛懷東認(rèn)為,“古籍?dāng)?shù)字化不能只著眼于數(shù)字技術(shù),也不僅僅是市場運(yùn)作,它更加深刻的內(nèi)涵在于數(shù)字技術(shù)所承載的內(nèi)容,這需要通過學(xué)科建設(shè)這一途徑來完善相關(guān)理論體系”,他撰文對古籍?dāng)?shù)字化的學(xué)科性質(zhì)、歸屬和研究對象進(jìn)行了探討。[4]
2)標(biāo)準(zhǔn)規(guī)范體系。當(dāng)前,古籍?dāng)?shù)字化缺乏國家專門機(jī)構(gòu)的宏觀調(diào)控和管理,各出版單位各自為政,在數(shù)字化版本、分類、字庫、檢索、影像等諸多方面缺乏統(tǒng)一規(guī)劃,存在技術(shù)參數(shù)不統(tǒng)一、古籍資源共享困難、出版質(zhì)量難以保證等一系列問題。
近30年的古籍?dāng)?shù)字化實踐,已經(jīng)形成百余種古籍?dāng)?shù)據(jù)庫,但開發(fā)理念五花八門,質(zhì)量上參差不齊,標(biāo)準(zhǔn)上各自為政。譬如作為普查、數(shù)字化的基礎(chǔ)工作之一,古籍?dāng)?shù)字化的著錄規(guī)則目前仍存在問題,20世紀(jì)80年代頒布、90年代重新修訂的《中國文獻(xiàn)編目規(guī)則·古籍著錄規(guī)則》,在題名、著者、卷冊、文獻(xiàn)形態(tài)等方面提出了規(guī)范,但并不完善,細(xì)節(jié)還不到位。因而相關(guān)的古籍?dāng)?shù)字化產(chǎn)品質(zhì)量良莠不齊,導(dǎo)致數(shù)字古籍的權(quán)威性、準(zhǔn)確性有所欠缺,直接影響了古籍應(yīng)用的學(xué)術(shù)效果。
古籍?dāng)?shù)字化面臨如何選擇和應(yīng)用標(biāo)準(zhǔn)規(guī)范的問題,文獻(xiàn)單位應(yīng)與數(shù)據(jù)廠商加強(qiáng)交流、合作,關(guān)注國際數(shù)字化標(biāo)準(zhǔn)建設(shè)的進(jìn)展,在國家宏觀指導(dǎo)下,加快推進(jìn)數(shù)字化資源建設(shè)的標(biāo)準(zhǔn)進(jìn)程。
2.2 古籍?dāng)?shù)字化技術(shù)
1)數(shù)字化模型。李玉海、宋艷輝提出的古籍?dāng)?shù)字化模型,從數(shù)據(jù)描述、傳輸、應(yīng)用三個層次構(gòu)建了古籍?dāng)?shù)字化的過程,[5]這一模型從古籍文獻(xiàn)的特殊性出發(fā),結(jié)合行業(yè)規(guī)范,運(yùn)用現(xiàn)有的技術(shù),基本能解決古籍?dāng)?shù)字化過程中出現(xiàn)的問題,有一定的借簽意義。
2)數(shù)字化技術(shù)手段。漢字字符集編碼,漢字的數(shù)量約有十萬左右,常用者三五千,余者為生僻字、避諱字、異體字等。古藉數(shù)字化字符編碼,通用的有GKB國家規(guī)范,總碼超過150萬,為古籍整理提供了統(tǒng)一的信息平臺。其次是ISO/IEC信息技術(shù)——通用多八位編碼學(xué)符集,與Unicode在字符編碼上保持一致,字符位置、名字相同,且同步更新。第三個為Unicode,它是一種在計算機(jī)上使用的字符編碼,能夠滿足跨語言、跨平臺進(jìn)行文體轉(zhuǎn)換、處理的要求。
檢索功能尚需深度開發(fā)。目前的古籍?dāng)?shù)字化成果,尤其是全文檢索功能單一,只能固定檢索海量數(shù)據(jù),卻無法智能檢索和生成新數(shù)據(jù)。從單一檢索向多元檢索、定向檢索向關(guān)聯(lián)檢索、靜態(tài)檢索向動態(tài)檢索的轉(zhuǎn)變是古籍?dāng)?shù)字化需要努力的一個方向。檢準(zhǔn)率的提高,也有很大的空間。
存儲格式繁多。數(shù)字化古籍常見的文件格式,有txt、doc、hind等格式,也有exe、pdf、ebk、peb、pdg、nlc等格式,此外還有位圖形式、多媒體形式的數(shù)字化古籍。眾多的存儲格式,形同散沙,不利于古籍?dāng)?shù)字化規(guī)?;\(yùn)作,也不利于有效開發(fā)利用古籍。故而,作為古籍普查和保護(hù)的發(fā)起人,國家吉籍保護(hù)中心有必要聯(lián)合各藏書單位、各出版單位及相關(guān)企業(yè)共謀發(fā)展大計,規(guī)范行業(yè)標(biāo)準(zhǔn)。
2.3 古籍?dāng)?shù)字化開發(fā)模式:國家引導(dǎo),合作開發(fā)
1)國家引導(dǎo)、自主開發(fā)。早期階段,大陸書籍?dāng)?shù)字化處于缺乏宏觀管理和調(diào)控的狀態(tài),各單位自行選題,獨(dú)立運(yùn)作,阻礙了古籍?dāng)?shù)字化的進(jìn)展。至2007年,國務(wù)院辦公廳指出“制訂古籍?dāng)?shù)字化標(biāo)準(zhǔn),規(guī)范古籍?dāng)?shù)字化工作,建立古籍?dāng)?shù)字資源庫”。2008年,全國古籍保護(hù)工作會議上提出“要制定古籍?dāng)?shù)字化標(biāo)準(zhǔn),加快古籍?dāng)?shù)字化工作,逐步為公眾提供古籍全文數(shù)字化閱莫服務(wù)”。21世紀(jì)初,十一五文化發(fā)展綱要提出了8項數(shù)字出版工程,古籍?dāng)?shù)字化乃其中之一,由此打破了古籍?dāng)?shù)字化各自為政、重復(fù)建設(shè)的混亂局面。
2015年中國古籍保護(hù)協(xié)會成立,雖名為民間組織,但依托政府,溝通社會,加強(qiáng)各行各業(yè)交流與合作,必將進(jìn)一步推進(jìn)古籍保護(hù)事業(yè)的發(fā)展。
2)合作開發(fā)。國內(nèi)、國際合作開發(fā)中文古籍?dāng)?shù)字化資源,利用中國豐富的古籍資源優(yōu)勢,利用國外資金和技術(shù)支持,從而實現(xiàn)優(yōu)勢互補(bǔ),共同研發(fā)。
3 古籍?dāng)?shù)字化成果論
3.1 古籍?dāng)?shù)字化成果管理
1)成果形式。數(shù)字化古籍,從應(yīng)用服務(wù)層面看,按媒介可分為兩大類:光盤版和網(wǎng)絡(luò)版;按數(shù)字化對象,基本上亦可分為兩大類;書目數(shù)字庫、全文數(shù)字庫。書目數(shù)據(jù)庫,具有較高的查全、查準(zhǔn)率,便于情報檢索。全文庫包含原文信息,檢索徹底、數(shù)據(jù)封閉,備有知識庫的全文庫更可推理并理想式檢索。
2)網(wǎng)絡(luò)化數(shù)字化古籍,是未來古籍?dāng)?shù)字化成果管理、研發(fā)的發(fā)展方向。目前,各收藏單位的書目數(shù)據(jù)庫建設(shè)進(jìn)度不一,但均為古籍?dāng)?shù)字化的基礎(chǔ)性工作。隨著網(wǎng)絡(luò)移動終端的井噴式發(fā)展,網(wǎng)絡(luò)技術(shù)的日新月異,空間距離縮小為零,為古籍?dāng)?shù)字化成果的網(wǎng)絡(luò)化,提供了極大的推動力。
古籍?dāng)?shù)字化可以嘗試區(qū)域合作,建立地區(qū)聯(lián)合數(shù)據(jù)庫,條件時機(jī)成熟建立全國性數(shù)據(jù)庫,從而豐富古籍文獻(xiàn)資源,擴(kuò)大使用范圍。
3.2 古籍?dāng)?shù)字化成本效益分析
古籍文獻(xiàn)受眾面較窄,緣于其本身的特性;繁體字和文言文讓大部人望而生畏,僅古籍相關(guān)研究人員及古籍愛好者使用,數(shù)字化古籍以圖書館、科研院所等小眾對象為主,商業(yè)價值小、利益空間受限。同時,古籍?dāng)?shù)字化的前期投入巨大。古籍?dāng)?shù)字化難度較大,其文字、圖像不易識別,且需要釋讀、校勘、注解方可普及使用。
建立古籍?dāng)?shù)字化的成本效益分析機(jī)制,成為深化古籍?dāng)?shù)字化工作的重要手段。不計成本的數(shù)字化,尤其是公益性古籍?dāng)?shù)字化,必將遭到淘汰;而不分析效益的吉籍?dāng)?shù)字化,也無法反饋其質(zhì)量,無法實現(xiàn)其初衷。對于公益性古籍?dāng)?shù)字化工程、項目,適合采用第三方評估方案,全面衡量其總投入、其社會效益和經(jīng)濟(jì)價值,建立并完善相應(yīng)的衡量指標(biāo)體系、評估制度。
3.3 古籍?dāng)?shù)字化成果在大數(shù)據(jù)時代的革新
信息技術(shù)進(jìn)入新的發(fā)展高峰閉,云計算、移動互聯(lián)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)的涌現(xiàn)和不斷成熟,一切來的這么突然,卻又讓信息化生態(tài)環(huán)境、人類經(jīng)濟(jì)和社會組織與運(yùn)作模式悄然發(fā)生著變化。尤其是云計算,這是新型的計算模式和基礎(chǔ)架構(gòu)管理方法,對商業(yè)環(huán)境和產(chǎn)業(yè)鏈而言,云計算意味著新的商業(yè)機(jī)會和商業(yè)模式。
21世紀(jì)第二個十年,云計算向“大數(shù)據(jù)”趨勢發(fā)展。數(shù)字化古籍首先數(shù)量上規(guī)模大,數(shù)十億字的大型數(shù)據(jù)庫,匯總更豐富的信息,從而資源更多、更全面、更準(zhǔn)確;其次,由于更多技術(shù)層面的支持可以實現(xiàn)功能更強(qiáng)大,古籍的自動識別、標(biāo)點(diǎn)、檢索、排版、分析,各種數(shù)據(jù)的輸入和轉(zhuǎn)換,適應(yīng)專門機(jī)構(gòu)的特殊需求和跨學(xué)科研究的高級需求。
基于“云計算”、“大數(shù)據(jù)”背景下的衍生產(chǎn)品開發(fā),有專家提出開發(fā)數(shù)字化古籍的“衍生品”:以古籍的數(shù)字文本、圖片、視頻等為基礎(chǔ)進(jìn)行的再開發(fā),由此制成的新產(chǎn)品。其優(yōu)勢在于,擴(kuò)大了數(shù)字化古籍的受眾面,因其可以面向特定閱讀人群,甚至是大眾讀者;其次,這種方式擺脫了古籍資料或稀有文獻(xiàn)獲利的單一模式,利用個性化服務(wù)提供附加業(yè)務(wù)、增值服務(wù),從而拓展贏利空間,提高商業(yè)價值。
對文獻(xiàn)資源的需求趨勢在云端,未來十年將有大量數(shù)字內(nèi)容落在云縮,建立精于支持多設(shè)備、安全且低成本的云計算技術(shù)的古籍?dāng)?shù)字化,有計劃、分階段的整合為“大數(shù)據(jù)”成“海量數(shù)據(jù)庫”,提升其內(nèi)在價值,從更深層次挖掘數(shù)字化成果,或?qū)⒊蔀楣偶當(dāng)?shù)字化新的發(fā)展方向。
參考文獻(xiàn)
[1]周迪,宋登漢.中文古籍?dāng)?shù)字化開發(fā)研究綜述[J].圖書情報知識,2010(6):45-46.
[2][3]毛建軍.古籍?dāng)?shù)字化的概念與內(nèi)涵[J].圖書館理論與實踐,2007,(4):82-83.
[4]葛懷東.古籍?dāng)?shù)字化的學(xué)科建設(shè)[J].中國科技信息,2012,(1):156-157.
[5]李玉海,宋艷輝.面向數(shù)字圖書館的古籍?dāng)?shù)字化模型構(gòu)建[J].圖書館學(xué)研究,2008.
作者簡介
王建國(1977-),男,山東郯城人,中國社會科學(xué)院圖書館,館員,研究方向:歷史文獻(xiàn)學(xué),方志學(xué),圖書史等。