嚴(yán)令耕
(南京中醫(yī)藥大學(xué) 圖書館,江蘇 南京 210023)
目前,古籍?dāng)?shù)字化迎來了新的技術(shù)革命時代,從起初的影像照片、圖文對照等形式發(fā)展到智能化、網(wǎng)絡(luò)化,以實現(xiàn)古籍資源的共建共享。美國于2014年頒布《文化遺產(chǎn)資料數(shù)字化技術(shù)指南》,從不同種類文化遺產(chǎn)資料的數(shù)字化規(guī)則、文件格式、元數(shù)據(jù)等方面全面制定數(shù)字化工作指南[1]。國際檔案理事會于2016年呼吁全球檔案機(jī)構(gòu)利用虛擬現(xiàn)實技術(shù),立體化、動態(tài)化地呈現(xiàn)數(shù)字資源和特色館藏,方便公眾在線訪問[2-3]。加拿大于2020年提出要促進(jìn)文化服務(wù)數(shù)字轉(zhuǎn)型[4]。我國也有相應(yīng)規(guī)定,“十三五”時期要求借助高新技術(shù),促進(jìn)古籍?dāng)?shù)字化資源共享和利用[5];2023年提出要利用智能化技術(shù)推動古籍?dāng)?shù)字化利用轉(zhuǎn)型升級,打造公共文化數(shù)字資源庫群[6-7]??梢?新技術(shù)為古籍?dāng)?shù)字化賦予新的活力,促使古籍?dāng)?shù)字化向智能化轉(zhuǎn)變,應(yīng)思考新技術(shù)背景下古籍?dāng)?shù)字化如何進(jìn)行建設(shè),從而讓更多的古籍資源被利用,順應(yīng)時代發(fā)展的需求。
我國古籍?dāng)?shù)字化的概念最早由劉煒[8]于1997年提出,主要工作是將古籍資源通過掃描寫入光盤。經(jīng)過多年發(fā)展,古籍?dāng)?shù)字化已成為古籍保護(hù)和利用的共識,對古籍?dāng)?shù)字化的定義主要從靜態(tài)、動態(tài)兩個維度出發(fā)。靜態(tài)維度上就是制成古籍?dāng)?shù)據(jù)庫[9]。喬紅霞[10]認(rèn)為古籍?dāng)?shù)字化是利用數(shù)據(jù)庫技術(shù)、光盤存儲技術(shù)等將紙質(zhì)文獻(xiàn)轉(zhuǎn)化為數(shù)字化。動態(tài)維度上,劉琳等[11]認(rèn)為古籍?dāng)?shù)字化是將古籍文字符號輸入計算機(jī),實現(xiàn)存儲、傳輸、檢索等功能。段澤勇等[12]認(rèn)為古籍?dāng)?shù)字化是將文字轉(zhuǎn)化成數(shù)字符號的過程。目前,通用的定義認(rèn)為,古籍?dāng)?shù)字化是通過計算機(jī)技術(shù)將古籍中的要素制成數(shù)據(jù)庫[13],包括制定古籍著錄的數(shù)字化標(biāo)準(zhǔn),建立資源載體,并向用戶開放,方便使用[14]。
我國在古籍資源方面有獨(dú)特的優(yōu)勢,與其他國家相比,具有儲藏量大、文化底蘊(yùn)深厚、用戶群體廣等突出特征,其數(shù)字化必將走在世界前列。需要利用古籍?dāng)?shù)字化這個契機(jī),把握儲藏量大和需求量多的特色化優(yōu)勢,完成向網(wǎng)絡(luò)化、智能化的過渡。
國內(nèi)外古籍?dāng)?shù)字化研究集中于以下2個方面:(1)新技術(shù)對古籍?dāng)?shù)字化的影響。日本正明柏村[15]于1999年提出使用圖像處理技術(shù)修復(fù)古籍掃描件;耿洪旭[16]探究OCR等人工智能技術(shù)用于漁鷗古籍?dāng)?shù)字化建設(shè)。(2)古籍?dāng)?shù)字化建設(shè)案例研究。美國最早于1978年編制了《朱熹大學(xué)》等數(shù)字化目錄[17];之后英國圖書館也計劃進(jìn)行館藏文獻(xiàn)數(shù)字化[18];國內(nèi)愛如生公司開發(fā)了出版史學(xué)等數(shù)據(jù)庫。
古籍?dāng)?shù)字化在使用新技術(shù)的同時,也暴露了不少問題,如古籍?dāng)?shù)字化缺乏統(tǒng)一標(biāo)準(zhǔn),知識產(chǎn)權(quán)保護(hù)不力,產(chǎn)品質(zhì)量參差不齊等[19]。究其原因,與古籍?dāng)?shù)字化建設(shè)過程相關(guān),需要從宏觀和微觀方面做好布局,協(xié)調(diào)發(fā)展。
筆者通過檢索中國知網(wǎng)、維普、萬方等數(shù)據(jù)平臺,以“古籍”“典籍”“數(shù)字化”“數(shù)據(jù)庫”等進(jìn)行主題詞檢索,時間設(shè)定為2000年1月1日至2022年6月30日,共得到相關(guān)文獻(xiàn)941種;其中,期刊論文621篇,博碩論文148篇,會議論文45篇,報紙文獻(xiàn)16篇,成果文獻(xiàn)35篇。因此,認(rèn)為目前古籍?dāng)?shù)字化分為3個階段。
第一個階段為“十三五”前的初創(chuàng)摸索期(1970—2014年):自20世紀(jì)70年代末,美國和中國學(xué)者相繼將計算機(jī)技術(shù)運(yùn)用于古籍?dāng)?shù)字化。1995年開始探討了字符集、語料庫、OCR 識別、自動??钡裙偶?dāng)?shù)字化技術(shù)。1999 年開始探討元數(shù)據(jù)、C語言等的相關(guān)技術(shù)問題,并利用中文信息處理技術(shù)出版了《文淵閣四庫全書》電子書。這段時間還出版發(fā)行了其他一些古籍?dāng)?shù)字化影像書籍,但古籍?dāng)?shù)字化的理論和技術(shù)還處于不斷完善之中。
第二個階段為“十三五”建設(shè)發(fā)展期(2015—2020年):“十三五”時期,古籍?dāng)?shù)字化堅持依法保護(hù)和科學(xué)保護(hù)。這段時間,DCT 和 DWT 域水印算法[20]、圖像檢索技術(shù)[21]、地理信息系統(tǒng)技術(shù)[22]等新型技術(shù)陸續(xù)與古籍?dāng)?shù)字化融合,如表1所示。產(chǎn)生一批珍貴古籍縮微復(fù)制和數(shù)字化成果,并制定出臺一系列數(shù)字化專業(yè)技術(shù)標(biāo)準(zhǔn),從形式向服務(wù)轉(zhuǎn)變。這一時期,無論是古籍?dāng)?shù)字化的建設(shè)和數(shù)字化技術(shù)研究都有了較大發(fā)展。
表1 “十三五”古籍?dāng)?shù)字化建設(shè)要點
第三個階段為“十四五”完善成熟期(2021年至今):“十四五”規(guī)劃時期,古籍?dāng)?shù)字化新技術(shù)迭代發(fā)展,涌現(xiàn)出自然語言處理等技術(shù)[23]和元宇宙、區(qū)塊鏈等智能化管理古籍技術(shù)[24]。古籍?dāng)?shù)字化全面共建共享,標(biāo)準(zhǔn)規(guī)范體系基本健全,產(chǎn)生知識挖掘、可視化呈現(xiàn)等新技術(shù)(見表2)。
表2 “十四五”古籍?dāng)?shù)字化建設(shè)要點
版本問題是古籍?dāng)?shù)字化建設(shè)中的核心和靈魂。過去主要關(guān)注的是古籍?dāng)?shù)據(jù)庫圖片是否清晰、文字是否正確,其實這些都取決于擇取的底本是否精善。如果選擇的版本有問題,后續(xù)的努力都是白費(fèi)。因此古籍版本的鑒定具有權(quán)威性,有利于古籍資源的正確利用與傳播。在進(jìn)行古籍?dāng)?shù)字化建設(shè)之前,首先要選用善本作為底本。
3.2.1 有利于古籍的保護(hù)和利用
古籍?dāng)?shù)字化的戰(zhàn)略目標(biāo)是保護(hù)古籍資源,并用于科研。大多數(shù)單位進(jìn)行古籍?dāng)?shù)字化都把古籍保護(hù)作為目標(biāo),如果工作停留在對資源本體進(jìn)行整理出版階段就不能適應(yīng)時代、技術(shù)與政策發(fā)展的需要,應(yīng)該將“保護(hù)核心,利用至上”的理念在古籍?dāng)?shù)字化建設(shè)中體現(xiàn)。深入運(yùn)用現(xiàn)代信息技術(shù),對古籍知識內(nèi)容進(jìn)行多維度的組織和再發(fā)現(xiàn),加快古籍的轉(zhuǎn)化應(yīng)用,梳理和挖掘古籍的精髓,做到致力于解決主要矛盾,才能勁往一處使,使古籍?dāng)?shù)字化發(fā)展的效益最大化。
3.2.2 戰(zhàn)略規(guī)劃與古籍特征的融合
戰(zhàn)略規(guī)劃要能夠?qū)崿F(xiàn),必須與古籍特征相融合。目前,古籍?dāng)?shù)字化技術(shù)日新月異,國家在“十四五”古籍保護(hù)戰(zhàn)略規(guī)劃中出臺大量古籍?dāng)?shù)字化政策。智能技術(shù)或國家政策與古籍特征相融合,才能達(dá)到保護(hù)古籍的目標(biāo)。武漢大學(xué)根據(jù)古籍特征,提出進(jìn)行智慧化技術(shù)創(chuàng)造,塑造古籍?dāng)?shù)字化知識服務(wù)體系。
3.2.3 戰(zhàn)略定位與古籍服務(wù)個性化特征
戰(zhàn)略定位與戰(zhàn)略任務(wù)相輔相成,古籍?dāng)?shù)字化應(yīng)根據(jù)古籍本體合理定位,制定戰(zhàn)略任務(wù)。由于古籍?dāng)?shù)字化的最終目的是方便用戶使用,因此要體現(xiàn)服務(wù)個性化特征。東南大學(xué)研究和設(shè)計數(shù)字化古籍書庫系統(tǒng),為用戶提供個性化服務(wù)。古籍?dāng)?shù)字化與科技的融合程度進(jìn)一步加深,促進(jìn)古籍?dāng)?shù)字化更大發(fā)展。人工智能中的深度學(xué)習(xí)可根據(jù)用戶的需求、歷史行為,主動給用戶提供、匹配相關(guān)的古籍資源。
3.3.1 分期建設(shè),由點到面
古籍?dāng)?shù)字化工程浩大,覆蓋面廣,不能一蹴而就,必須要按部就班,分期建設(shè),由點到面,循序漸進(jìn)。優(yōu)先對善本開展數(shù)字化,促進(jìn)資源共享[25],體現(xiàn)了古籍?dāng)?shù)字化建設(shè)的階段性,最終形成全面的智能化、網(wǎng)絡(luò)化目標(biāo)體系。
3.3.2 優(yōu)先項的選擇
在戰(zhàn)略規(guī)劃中,不同階段任務(wù)不同,因此優(yōu)先等級也不同。在“十三五”時期,古籍?dāng)?shù)字化建設(shè)重點在于制定技術(shù)標(biāo)準(zhǔn),在“十四五”時期,側(cè)重于古籍?dāng)?shù)據(jù)共享,此時,技術(shù)是建設(shè)好古籍?dāng)?shù)字化資源的強(qiáng)大支撐。建設(shè)古籍?dāng)?shù)字化,根本的挑戰(zhàn)還是技術(shù)性的,二級優(yōu)先項可以是團(tuán)隊建設(shè)、人才培養(yǎng)等,三級優(yōu)先項主要是一些具體的措施。
古籍?dāng)?shù)字化的目的在于公眾很難接觸到古籍原著的情況下,更好地為公眾服務(wù)。構(gòu)建以技術(shù)為核心的古籍?dāng)?shù)字化系統(tǒng),是為了賦能古籍保護(hù)和利用,實現(xiàn)基于用戶行為和需求的古籍自我優(yōu)化模式。目前,戰(zhàn)略規(guī)劃中出現(xiàn)的項目僅局限于古籍?dāng)?shù)字化單位內(nèi)部的技術(shù)建設(shè),如何通過數(shù)字化手段促進(jìn)古籍利用必須作為戰(zhàn)略規(guī)劃的重要任務(wù),否則,古籍?dāng)?shù)字化建設(shè)的成果將是一堆材料和一個沒有智能內(nèi)涵的外殼,無法實現(xiàn)為用戶共享服務(wù)的目標(biāo)。
古籍?dāng)?shù)字化的資源、技術(shù)和人才分布不均衡。重點古籍收藏單位設(shè)備和平臺建設(shè)相對完善,小型古籍收藏單位甚至沒有智能設(shè)備,古籍資源也不豐富,專業(yè)人才缺乏,沒有適合的古籍?dāng)?shù)字化戰(zhàn)略發(fā)展規(guī)劃,嚴(yán)重阻礙古籍收藏單位智能網(wǎng)絡(luò)系統(tǒng)的建立。
由于古籍的收藏單位是分散的、眾多的,而古籍?dāng)?shù)字化的技術(shù)和相關(guān)設(shè)備投入的成本較高,如果依靠單位或個人自身實力,以及政府的投入還是無法有效推動古籍?dāng)?shù)字化的發(fā)展,因此需要一些有技術(shù)實力的數(shù)字化公司參與該項工作。古籍擁有方與數(shù)字化公司就版權(quán)問題要進(jìn)行協(xié)調(diào)。數(shù)字化開發(fā)前期投入大,銷售困難,資金回收期長,商業(yè)的推廣和營銷策略跟不上市場的發(fā)展,往往收效欠佳,因此應(yīng)該走社會化協(xié)同合作之路,即古籍擁有者和數(shù)字化相關(guān)單位參與聯(lián)合共建共享,協(xié)作共贏。
古籍?dāng)?shù)字化成果知識產(chǎn)權(quán)保護(hù)問題主要出現(xiàn)在數(shù)字化過程和用戶使用過程中,包括古籍擁有者和數(shù)字化加工方的知識產(chǎn)權(quán)糾紛、惡意下載、非法傳播等。在數(shù)字化過程中,大量學(xué)者和工作人員參與???、句讀、掃描等工作,付出的勞動理應(yīng)得到回報,但盜版侵權(quán)損害了他們的權(quán)益,影響古籍?dāng)?shù)字化的工作積極性。主要原因是目前知識產(chǎn)權(quán)的法律保護(hù)意識比較薄弱,也沒有給古籍?dāng)?shù)字化相應(yīng)的法律法規(guī)。
古籍?dāng)?shù)字化的核心在于人,在于在合適的時間、合適的地點以合適的方式向讀者提供所需要的古籍資源和服務(wù),知識服務(wù)能精準(zhǔn)地推送給需要的用戶。戰(zhàn)略規(guī)劃除了考慮服務(wù)的技術(shù)和形式,還要考慮服務(wù)的內(nèi)容和質(zhì)量,重點聚焦以用戶共享為中心,同時考慮用戶隱私、技術(shù)是否符合用戶的需要等。
目前,古籍?dāng)?shù)字化如火如荼,但缺乏統(tǒng)一標(biāo)準(zhǔn)和規(guī)范。各種數(shù)據(jù)庫采用的文本格式、圖像格式無法兼容,信息資源共享受阻[26]。針對這種情況,首先要制定古籍?dāng)?shù)字化標(biāo)準(zhǔn)和規(guī)范,包括版本標(biāo)準(zhǔn)、元數(shù)據(jù)標(biāo)準(zhǔn)等;其次,要求古籍?dāng)?shù)字化單位遵守古籍?dāng)?shù)字化標(biāo)準(zhǔn)和規(guī)范,促進(jìn)資源有效整合和共享,提高古籍資源的利用率。
只有評估古籍?dāng)?shù)字化的服務(wù)能力和智慧,才能衡量新技術(shù)賦能古籍?dāng)?shù)字化的深度和廣度,檢驗古籍?dāng)?shù)字化的質(zhì)量和效果。推進(jìn)古籍?dāng)?shù)字化,建立科學(xué)規(guī)范的評價體系,集思廣益,聽取用戶的需求。始終牢記用戶的需求對評價古籍?dāng)?shù)字化的重要性,推動古籍?dāng)?shù)字化評價體系的標(biāo)準(zhǔn)化、規(guī)范化。
古籍?dāng)?shù)據(jù)庫開發(fā)種類多樣,多由各單位自主開發(fā),難以形成領(lǐng)域內(nèi)數(shù)據(jù)和知識的共享,目前只能稱之為數(shù)據(jù)庫,還不能稱之為知識庫,需要依托于大數(shù)據(jù)技術(shù),形成規(guī)范化、系統(tǒng)化的知識網(wǎng)絡(luò)體系,實現(xiàn)對古籍更為深層次的開發(fā)和利用,建立共建共享系統(tǒng)。另外,在共建共享系統(tǒng)中要加強(qiáng)知識產(chǎn)權(quán)保護(hù),提高古籍?dāng)?shù)字化的積極性。
古籍?dāng)?shù)字化開展智能化建設(shè)是時代發(fā)展的大勢所趨,是保障古籍?dāng)?shù)字化可持續(xù)發(fā)展的必由之路。文章梳理了古籍?dāng)?shù)字化建設(shè)的發(fā)展歷程,分析了新技術(shù)背景下古籍?dāng)?shù)字化參與發(fā)展規(guī)劃的重要性,并提出優(yōu)化策略,今后還需要古籍?dāng)?shù)字化從業(yè)人員的不斷探索。