劉利
摘 要:本研究通過(guò)文獻(xiàn)法對(duì)我國(guó)古籍?dāng)?shù)字化的發(fā)展歷程及其各個(gè)階段的特征進(jìn)行梳理,分析在新技術(shù)驅(qū)動(dòng)下三種主要智能技術(shù)對(duì)古籍?dāng)?shù)字化的支持作用及其應(yīng)用成效。分析顯示,古籍?dāng)?shù)字化在跨學(xué)科整合、虛擬與增強(qiáng)現(xiàn)實(shí)、開放獲取以及可視化交互等方面呈現(xiàn)了良好發(fā)展前景。一方面,應(yīng)在政策出臺(tái)、法規(guī)制定、技術(shù)創(chuàng)新等層面促進(jìn)古籍?dāng)?shù)字化的發(fā)展;另一方面,應(yīng)平衡好古籍原貌保護(hù)、人工智能技術(shù)與社會(huì)公眾需求之間的關(guān)系。
關(guān)鍵詞:技術(shù)驅(qū)動(dòng);古籍?dāng)?shù)字化;動(dòng)態(tài)趨勢(shì)
古籍?dāng)?shù)字化是推動(dòng)我國(guó)優(yōu)秀傳統(tǒng)文化創(chuàng)造性轉(zhuǎn)化和創(chuàng)新性發(fā)展的重要戰(zhàn)略內(nèi)容。2022年,中共中央辦公廳、國(guó)務(wù)院辦公廳印發(fā)《關(guān)于推進(jìn)新時(shí)代古籍工作的意見》,為我國(guó)古籍?dāng)?shù)字化提供了指引。古籍?dāng)?shù)字化是通過(guò)現(xiàn)代信息技術(shù)手段,對(duì)古籍文獻(xiàn)進(jìn)行規(guī)模化、系統(tǒng)化掃描、微縮、識(shí)別、錄入、存儲(chǔ),使其轉(zhuǎn)化為電子數(shù)據(jù)形式,并通過(guò)網(wǎng)絡(luò)通信、計(jì)算機(jī)或移動(dòng)終端展現(xiàn)與傳播的系統(tǒng)性工程。古籍?dāng)?shù)字化不僅從根本上避免了實(shí)地翻閱對(duì)古籍造成的各種潛在損害,而且徹底打破了古籍閱覽的時(shí)空限制,從技術(shù)上提升了古籍保護(hù)程度和古籍使用效率。當(dāng)前,我國(guó)古籍?dāng)?shù)字化工作在多個(gè)層面同步展開,形成古籍?dāng)?shù)字化巨制頻出的局面,這不斷激發(fā)著古代典籍旺盛的生命力。
古籍?dāng)?shù)字化并不是新近出現(xiàn)的現(xiàn)象,而是經(jīng)歷了從“古籍+數(shù)據(jù)庫(kù)”技術(shù)階段、“古籍+光盤”技術(shù)階段、“古籍+OCR(光學(xué)字符識(shí)別)”技術(shù)階段,向“古籍+人工智能”階段演進(jìn)的過(guò)程。
第一階段:“古籍+數(shù)據(jù)庫(kù)”技術(shù)階段的起點(diǎn)可追溯至20世紀(jì)80年代初期,隨著數(shù)據(jù)庫(kù)技術(shù)的不斷進(jìn)步,古籍?dāng)?shù)字化逐漸步入聯(lián)合目錄階段。這一階段的特點(diǎn)在于:利用計(jì)算機(jī)在搜集、整理及檢索等方面的優(yōu)勢(shì),通過(guò)數(shù)據(jù)庫(kù)形式存儲(chǔ)古籍資料。此階段主要以書目數(shù)據(jù)庫(kù)為主,它克服了傳統(tǒng)人工檢索方式對(duì)古籍造成損害、耗時(shí)耗力等弊端,提升了檢索效率。
第二階段:“古籍+光盤”技術(shù)階段起源于20世紀(jì)90年代初,以我國(guó)推出“二十四史檢索光盤”為標(biāo)志。在這個(gè)期間,隨著存儲(chǔ)技術(shù)的進(jìn)步,古籍?dāng)?shù)字化步入光盤存儲(chǔ)影像階段。該階段的特點(diǎn)在于:以光盤為載體,集成目錄查詢、內(nèi)容檢索及原始圖像存儲(chǔ)等功能,擴(kuò)大了古籍資源的利用范圍和使用來(lái)源,豐富了古籍的運(yùn)用方式。
第三階段:“古籍+OCR(光學(xué)字符識(shí)別)”技術(shù)階段自20世紀(jì)80年代開始,進(jìn)入21世紀(jì),隨著信息技術(shù)的不斷進(jìn)步和古籍?dāng)?shù)字化規(guī)模的擴(kuò)大,古籍全文數(shù)字化迎來(lái)了快速發(fā)展期。這一階段的特點(diǎn)在于:通過(guò)網(wǎng)絡(luò)連接的古籍?dāng)?shù)字化數(shù)據(jù)庫(kù),可以實(shí)現(xiàn)精準(zhǔn)定位已全文錄入數(shù)據(jù)庫(kù)中的古籍文本位置,從而實(shí)現(xiàn)古籍資源的精準(zhǔn)檢索,進(jìn)一步拓寬了古籍的使用群體。
第四階段:“古籍+人工智能”階段。當(dāng)前,隨著人工智能技術(shù)在各領(lǐng)域的廣泛應(yīng)用,古籍?dāng)?shù)字化也迎來(lái)新的發(fā)展機(jī)遇期。人工智能技術(shù)為古籍?dāng)?shù)字化提供了更高效、更準(zhǔn)確的解決方案,古籍?dāng)?shù)字化正式邁入人工智能階段。在這一階段,通過(guò)深度學(xué)習(xí)等算法,人工智能可以對(duì)古籍進(jìn)行自動(dòng)識(shí)別、分類;利用圖像處理和計(jì)算機(jī)視覺(jué)技術(shù),檢測(cè)和修復(fù)古籍中的破損和污漬;古籍檢索系統(tǒng)和推薦系統(tǒng)也為讀者提供了更加便捷、個(gè)性化的閱讀體驗(yàn)。這些應(yīng)用不僅彰顯了人工智能技術(shù)在古籍?dāng)?shù)字化領(lǐng)域的廣泛應(yīng)用和深遠(yuǎn)影響,也為人類揭示了未來(lái)古籍?dāng)?shù)字化的發(fā)展方向和巨大潛力。
數(shù)字智能技術(shù)在現(xiàn)代古籍出版中發(fā)揮著舉足輕重的作用,成為古籍?dāng)?shù)字化出版的關(guān)鍵支柱。借助數(shù)字智能技術(shù),能夠?qū)崿F(xiàn)古籍的高清掃描、精確識(shí)別、快速錄入以及大規(guī)模存儲(chǔ),既完整保留了古籍的原貌,又為后續(xù)處理提供了便利。當(dāng)前,應(yīng)用于古籍?dāng)?shù)字化的智能技術(shù)主要可分為以下三類。
一是光學(xué)字符識(shí)別(OCR)技術(shù)。即“電子設(shè)備(如掃描儀或數(shù)碼相機(jī))對(duì)紙質(zhì)文檔上的字符進(jìn)行掃描,通過(guò)檢測(cè)暗亮模式以確定其形狀,進(jìn)而采用字符識(shí)別方法將形狀轉(zhuǎn)換為計(jì)算機(jī)可編輯文本格式的過(guò)程”。相較于常規(guī)OCR技術(shù),古籍OCR在質(zhì)量、版式、風(fēng)格等方面均面臨較大挑戰(zhàn)。當(dāng)前主流的OCR技術(shù)雖具備較高的識(shí)別率,但尚不能直接應(yīng)用于中文古籍OCR,原因在于高質(zhì)量、大規(guī)模標(biāo)注數(shù)據(jù)的缺失,尤其是中文大規(guī)模公開數(shù)據(jù)集的稀缺,也由于西方古籍版式數(shù)據(jù)集依然占據(jù)主導(dǎo)。目前,識(shí)別效果較好的OCR技術(shù)主要包括書同文公司的“i-慧眼OCR”和古聯(lián)OCR系統(tǒng)。
二是虛擬現(xiàn)實(shí)與增強(qiáng)現(xiàn)實(shí)技術(shù)。虛擬現(xiàn)實(shí)(VR)及增強(qiáng)現(xiàn)實(shí)(AR)技術(shù)為古籍展示與研究帶來(lái)了全新途徑。借助虛擬現(xiàn)實(shí)技術(shù),用戶可在虛擬環(huán)境中親身體驗(yàn)古籍的歷史背景及其深刻內(nèi)涵,從而提升沉浸式古籍閱讀體驗(yàn)。增強(qiáng)現(xiàn)實(shí)技術(shù)則將古籍?dāng)?shù)字化副本與實(shí)體展品相結(jié)合,提供更為豐富的信息及交互功能。例如,我國(guó)國(guó)家博物館與國(guó)家圖書館運(yùn)用VR與AR技術(shù)構(gòu)建虛擬展覽及數(shù)字化交互平臺(tái),使讀者能更為直觀地認(rèn)識(shí)與鑒賞古籍價(jià)值。
三是數(shù)據(jù)挖掘與自然語(yǔ)言處理技術(shù)。借助數(shù)據(jù)挖掘和自然語(yǔ)言處理手段,能夠?qū)Υ笠?guī)模古籍文本進(jìn)行深入分析和研究。通過(guò)對(duì)古籍文本數(shù)據(jù)進(jìn)行語(yǔ)義分析、構(gòu)建主題模型及關(guān)系網(wǎng)絡(luò),得以挖掘隱藏其中的知識(shí)和信息。這些技術(shù)在古籍的內(nèi)容、作者、時(shí)代及流派等方面為古籍研究者提供了有力支持。例如,南京農(nóng)業(yè)大學(xué)國(guó)家社科基金重大項(xiàng)目“中國(guó)古代典籍跨語(yǔ)言知識(shí)庫(kù)構(gòu)建及應(yīng)用研究”課題組與中華書局古聯(lián)公司推出了一系列古籍處理領(lǐng)域的大語(yǔ)言模型:荀子系列大語(yǔ)言模型(XunziALLM),它是一種基于深度學(xué)習(xí)的自然語(yǔ)言處理技術(shù),利用“荀子”能夠完成古籍詞法分析、實(shí)體識(shí)別、關(guān)系抽取、文本分類與匹配、文本摘要等工作,提高了古籍的可讀性、可檢索性、可利用性。
(一)以政策設(shè)計(jì)維護(hù)古籍公共性與商業(yè)性的平衡
古籍?dāng)?shù)字化進(jìn)程涉及版權(quán)及訪問(wèn)限制等諸多問(wèn)題。作為文化遺產(chǎn)的古籍,在數(shù)字化過(guò)程中實(shí)現(xiàn)了知識(shí)產(chǎn)權(quán)的創(chuàng)設(shè),因此在古籍?dāng)?shù)字化及其利用的過(guò)程中,需要平衡公共利益與商業(yè)利益。為確保古籍知識(shí)產(chǎn)權(quán)得到保護(hù),同時(shí)為確保公眾能合法獲取和使用數(shù)字化資源,應(yīng)在政策、法律及技術(shù)層面進(jìn)行全面考量,構(gòu)建透明、公平且可持續(xù)的版權(quán)管理體系,進(jìn)而推動(dòng)古籍?dāng)?shù)字化資源的廣泛傳播和學(xué)術(shù)研究的順利進(jìn)行。
政府部門應(yīng)制定相關(guān)政策法規(guī),明確文字識(shí)別規(guī)范、字體轉(zhuǎn)換標(biāo)準(zhǔn)、產(chǎn)品統(tǒng)一規(guī)格、產(chǎn)品審校驗(yàn)收、數(shù)字化古籍資源版權(quán)歸屬、使用權(quán)限及訪問(wèn)規(guī)則,確保古籍?dāng)?shù)字化的合法性與可持續(xù)性。同時(shí),通過(guò)技術(shù)創(chuàng)新、協(xié)同合作、以用戶需求為導(dǎo)向以及財(cái)政政策扶持,克服古籍?dāng)?shù)字化過(guò)程中所面臨的困境,推進(jìn)古籍?dāng)?shù)字化事業(yè)的發(fā)展,實(shí)現(xiàn)古籍文化資源的有效數(shù)字化和智能化運(yùn)用,助力古籍文化的傳承與創(chuàng)新。
(二)以技術(shù)創(chuàng)新維護(hù)古籍保護(hù)與數(shù)字化之間的平衡
在古籍?dāng)?shù)字化過(guò)程中,應(yīng)始終秉持對(duì)古籍原貌的尊重與保護(hù),同時(shí)在獲取高品質(zhì)數(shù)字化副本的同時(shí),確保古籍的實(shí)體完整性與歷史價(jià)值不受損害。為此,需要在光照、掃描和處理等環(huán)節(jié)審慎行事,以降低對(duì)古籍造成損害的潛在風(fēng)險(xiǎn)。如何在古籍原貌保護(hù)與古籍?dāng)?shù)字化之間取得平衡,是一項(xiàng)關(guān)鍵挑戰(zhàn)。
應(yīng)持續(xù)創(chuàng)新掃描與圖像處理技術(shù)。通過(guò)引入高分辨率掃描和多光譜掃描等先進(jìn)技術(shù),提升數(shù)字化副本的品質(zhì)與準(zhǔn)確性。同時(shí),運(yùn)用尖端圖像處理算法和技巧,提取并修復(fù)破損的文字和圖像,增強(qiáng)古籍原貌的可讀性與可視化效果。推動(dòng)有針對(duì)性的技術(shù)創(chuàng)新,研發(fā)專門針對(duì)古籍?dāng)?shù)字化的工具與算法。例如,針對(duì)中文古籍文本的“OCR”問(wèn)題,結(jié)合深度學(xué)習(xí)和計(jì)算機(jī)視覺(jué)技術(shù),研發(fā)更為精確的算法。同時(shí),還需探索更高效的掃描和圖像處理技術(shù),以提升數(shù)字化過(guò)程的效率和質(zhì)量。通過(guò)技術(shù)創(chuàng)新,降低古籍?dāng)?shù)字化的成本與風(fēng)險(xiǎn),助力推進(jìn)中文古籍?dāng)?shù)字化進(jìn)程。
(三)以人工智能維護(hù)古籍傳統(tǒng)布局與現(xiàn)代閱讀習(xí)慣的平衡
古籍文本的光學(xué)字符識(shí)別(OCR)是古籍?dāng)?shù)字化過(guò)程中的關(guān)鍵環(huán)節(jié)。然而,由于古籍文本的特殊性(包括復(fù)雜字體、舊體字和破損文字等),傳統(tǒng)OCR技術(shù)可能難以對(duì)此進(jìn)行妥善處理。古籍文本的OCR問(wèn)題觸及字形識(shí)別、字體變體、排版布局等諸多挑戰(zhàn)。因此,在古籍?dāng)?shù)字化的過(guò)程中,需解決古籍傳統(tǒng)格式布局與現(xiàn)代閱讀習(xí)慣之間的矛盾。為應(yīng)對(duì)此挑戰(zhàn),需要研發(fā)針對(duì)中文古籍特性的OCR算法,結(jié)合機(jī)器學(xué)習(xí)與深度學(xué)習(xí)等技術(shù),提升古籍文本識(shí)別的準(zhǔn)確性與處理效率。
通過(guò)整合人工智能、深度學(xué)習(xí)及自然語(yǔ)言處理等技術(shù),開發(fā)智能化的古籍文本識(shí)別與標(biāo)注工具。這些工具能自動(dòng)識(shí)別古籍文本中的文字、字體變體和排版布局等特征,進(jìn)而生成精確的元數(shù)據(jù)和索引。智能化文本識(shí)別與標(biāo)注技術(shù)顯著提升了數(shù)字化資源的可搜索性與可訪問(wèn)性,減輕了人工標(biāo)注負(fù)擔(dān),確保古籍?dāng)?shù)字化標(biāo)注的科學(xué)性與可靠性,縮短古籍?dāng)?shù)字化的上線周期,提高古籍?dāng)?shù)字化的生產(chǎn)效率。
參考文獻(xiàn)
[1]金滿樓.數(shù)字化賦能:汲古慧今,古籍新生[EB/OL]. (2023-03-06)[2024-01-18].https://wenyi.gmw.cn/2023-03/06/ content_36410604.htm.
[2]李明杰.構(gòu)建中華古籍層級(jí)保護(hù)體系的設(shè)想——從古籍價(jià)值屬性創(chuàng)新古籍保護(hù)思路[J]. 圖書館雜志, 2009,28 (03): 14-19.
[3]矩視智能.AI視覺(jué)在復(fù)雜場(chǎng)景下字符識(shí)別的全方位應(yīng)用[EB/OL]. (2022-09-22)[2024-01-18]. https://zhuanlan.zhihu.com/ p/567199646.
[4]金鳳.“荀子”大語(yǔ)言模型:化繁為簡(jiǎn) 通讀古今[EB/OL]. (2024-01-09)[2024-01-18]. https://baijiahao.baidu.com/s?id=1787601 193121168873&wfr=spider&for=pc
[5]房惠玲. 敦煌文化遺產(chǎn)數(shù)字化進(jìn)程穩(wěn)步推進(jìn)[EB/OL]. (2023-11-01)[2024-01-18].http://www.gsjb.com/ system/2023/11/01/030900894.shtml.
[6]劉晗. 新出版模式誕生:VR古籍出版怎么做?[EB/OL]. (2018-11-28)[2024-01-18]. https://epaper.gmw.cn/zhdsb/html/2018-11/28/nw.D110000zhdsb_20181128_2-06. htm?div=-1.
[7]公益時(shí)報(bào). 一場(chǎng)技術(shù)與公益的雙向奔赴[EB/OL]. (2023-06-13)[2024-01-18]. https://cj.sina.com.cn/articles/view/188112471 3/701faf69020016o5p.
[8]中國(guó)文化產(chǎn)業(yè)網(wǎng).國(guó)家圖書館(國(guó)家古籍保護(hù)中心)“中華古籍資源庫(kù)”構(gòu)建中華古籍的數(shù)字網(wǎng)絡(luò)家園[EB/OL].(2023-11-21) [2024-01-18].http://www.cnci.net.cn/ content/2023-11/21/content_30600652.htm.
[9]郭宇涵.智能與人文跨學(xué)科合作探索漢籍流傳圖譜[EB/OL]. (2023-07-16)[2024-01-18].http://vis.pku.edu.cn/blog/ chinese_classic_circulation/.
(作者單位:北京當(dāng)代軟科學(xué)研究所)