“籍合網(wǎng)\"著眼于全流程古籍?dāng)?shù)字化整理與應(yīng)用,打通了人才培養(yǎng)、科技賦能、版權(quán)保護(hù)、內(nèi)容編輯、知識(shí)加工、成果展示等各個(gè)關(guān)鍵節(jié)點(diǎn),將各業(yè)務(wù)模塊組織成一個(gè)有機(jī)整體且能相互驅(qū)動(dòng)、共同增益,打造出開放、創(chuàng)新的古籍整理業(yè)態(tài),促進(jìn)了跨學(xué)科、跨領(lǐng)域的交叉研究及相關(guān)應(yīng)用成果的落地。
古籍?dāng)?shù)字化發(fā)展伊始
卷帙浩繁的古籍文獻(xiàn)是記錄中華文明最為重要的載體,在開展有效保護(hù)的同時(shí),如何讓束之高閣的“文物”進(jìn)入尋常書架,如何令艱難晦澀的“文字”更加易懂易讀,真正實(shí)現(xiàn)“在創(chuàng)造性轉(zhuǎn)化和創(chuàng)新性發(fā)展中麝續(xù)中華文脈”一直是古籍整理事業(yè)的題中之義(古籍整理概念與類型可參考許逸民《古籍整理釋例》,黃永年《古籍整理概論》,黃永年原著、周曉薇等旁征《lt;古籍整理概論gt;旁征》)。
進(jìn)入21世紀(jì),數(shù)字化浪潮迭起,出版行業(yè)開始尋求數(shù)字化轉(zhuǎn)型,中華書局作為古籍整理出版的“重鎮(zhèn)”,也正式啟動(dòng)了古籍?dāng)?shù)字化的探索與實(shí)踐。2014年發(fā)布首款古籍?dāng)?shù)據(jù)庫產(chǎn)品《中華經(jīng)典古籍庫》,第一期收錄書目294種,均為中華書局近百年來古籍整理的精品之作;2015年成立古聯(lián)(北京)數(shù)字傳媒科技有限公司,專門從事古籍?dāng)?shù)字化建設(shè)及傳統(tǒng)文化數(shù)字產(chǎn)品研發(fā)與推廣;2018年上線國家級古籍?dāng)?shù)字化整理與應(yīng)用綜合服務(wù)平臺(tái)一“籍合網(wǎng)”。作為“十四五”重點(diǎn)出版物出版規(guī)劃項(xiàng)目之一,“籍合網(wǎng)”不斷拓展和推進(jìn),以“產(chǎn)學(xué)研”相結(jié)合模式,將專業(yè)化的精品內(nèi)容和智能化的技術(shù)手段接軌,驅(qū)動(dòng)資源、技術(shù)、人才三聚合,為古籍領(lǐng)域的融合出版與創(chuàng)新發(fā)展開辟了一條新道路,于2022年入選數(shù)字出版優(yōu)質(zhì)平臺(tái)遴選推薦計(jì)劃。
古籍?dāng)?shù)據(jù)庫產(chǎn)品建設(shè)
歷經(jīng)多年,“籍合網(wǎng)”形成了以數(shù)據(jù)庫為核心,整合在線編校、技術(shù)研發(fā)、人才培養(yǎng)、校企合作的產(chǎn)業(yè)服務(wù)矩陣。其中,數(shù)據(jù)庫產(chǎn)品不僅是中華書局正式開啟古籍?dāng)?shù)字化業(yè)務(wù)的起點(diǎn),也是現(xiàn)有產(chǎn)業(yè)服務(wù)矩陣中的重點(diǎn)。截至2025年,“籍合網(wǎng)”已發(fā)布古籍相關(guān)數(shù)據(jù)庫30余個(gè),資源規(guī)模達(dá)40億字以上,在不斷積累的過程中,數(shù)據(jù)庫產(chǎn)品在打破信息壁壘、豐富出版路徑、提供知識(shí)賦能等諸多方面開展了有益嘗試。
1.打破信息壁壘
在數(shù)據(jù)庫產(chǎn)品集群中,率先發(fā)布的《中華經(jīng)典古籍庫》是當(dāng)之無愧的“拳頭產(chǎn)品”。自2014年上線以來,逐步開發(fā)出鏡像版、網(wǎng)絡(luò)版、微信版和學(xué)習(xí)強(qiáng)國版,適配不同的使用場景;以每年一期的頻率穩(wěn)定更新,現(xiàn)已延續(xù)至第十二期,上線整理本古籍超1萬種,共計(jì)27.5億字,榮獲“第四屆中國出版政府獎(jiǎng)”?!吨腥A經(jīng)典古籍庫》已成為國內(nèi)使用最廣泛的古籍?dāng)?shù)據(jù)庫之一。
在此之前,最早在20世紀(jì)末、21世紀(jì)初,市場上已出現(xiàn)全文維度的古籍?dāng)?shù)據(jù)庫產(chǎn)品(涵蓋目錄類、影像類、全文類等多種形態(tài),具體可參考朱鎖玲、包平《我國古籍?dāng)?shù)字化進(jìn)展與研究述評》,此處僅述及全文類數(shù)據(jù)庫),文淵閣《四庫全書》電子版、北京書同文數(shù)字化技術(shù)有限公司《四部叢刊》電子版、北京愛如生數(shù)字化技術(shù)研究中心《中國基本古籍庫》均頗具代表性,相關(guān)產(chǎn)品使古籍?dāng)?shù)據(jù)庫脫離了原始的書目查閱、圖像瀏覽階段,真正進(jìn)入“全文時(shí)代”,開創(chuàng)了古籍?dāng)?shù)據(jù)庫的“新紀(jì)元”。
然而受制于版權(quán)合規(guī)性問題,上述數(shù)據(jù)庫基本是以原始文獻(xiàn)(或其影印本)作為資源收錄對象,故而不可避免地導(dǎo)致古籍點(diǎn)校整理成果缺失,加之早期囿于技術(shù)水平,文字疏漏較多,重復(fù)建設(shè)嚴(yán)重(古籍?dāng)?shù)字化選題重復(fù)情況可參考王立清《略論我國古籍?dāng)?shù)字化的選題》),對用戶使用造成不便,《中華經(jīng)典古籍庫》在此背景下應(yīng)運(yùn)而生。立足于中華書局之所長,該數(shù)據(jù)庫收錄的圖書是匯集民國以來無數(shù)學(xué)者智慧結(jié)晶的古籍整理本,經(jīng)過句讀標(biāo)點(diǎn)、??弊⑨?,乃至白話翻譯之后,在保留原始文獻(xiàn)經(jīng)典內(nèi)容的基礎(chǔ)上,更加易于現(xiàn)代人閱讀和理解。產(chǎn)品一經(jīng)問世,就在學(xué)界內(nèi)廣受好評,得到眾多專家的一致認(rèn)可。
然而,古籍整理工作的時(shí)間和物質(zhì)成本頗高,傳世文獻(xiàn)中經(jīng)過整理者不足十一,且整理成果往往由不同的出版機(jī)構(gòu)出版,版權(quán)歸屬自然也不同。據(jù)不完全統(tǒng)計(jì),新中國成立以來,各出版機(jī)構(gòu)總計(jì)出版古籍整理圖書達(dá)3.6萬種以上(數(shù)據(jù)可參考陳香《讓經(jīng)典“活”起來,讓古籍走進(jìn)大眾》、原彥平《新時(shí)代中華優(yōu)秀傳統(tǒng)文化出版的新任務(wù)一以古籍整理出版為中心》),僅僅依靠中華書局出版的圖書,《中華經(jīng)典古籍庫》難以實(shí)現(xiàn)大規(guī)模的資源整合和持續(xù)更新,與相關(guān)出版單位進(jìn)行版權(quán)合作勢在必行。對此,《中華經(jīng)典古籍庫》以專業(yè)古籍出版機(jī)構(gòu)為切入點(diǎn),在對相關(guān)書目進(jìn)行初步遴選之后,主動(dòng)聯(lián)系并以版稅分成的方式啟動(dòng)洽談工作,參考可授權(quán)資源體量、年限、是否獨(dú)家、交付方式等因素溝通具體的分成比例。通過與專業(yè)古籍出版機(jī)構(gòu)的合作實(shí)踐,《中華經(jīng)典古籍庫》探索出相對成熟的合作模式,并在此后不斷擴(kuò)大合作對象和地域范圍(目前,除專業(yè)古籍出版機(jī)構(gòu)外,中央和地方綜合出版機(jī)構(gòu)、高校出版機(jī)構(gòu)等均有出版古籍相關(guān)圖書),同時(shí)通過持續(xù)的收益分成建立起穩(wěn)定的合作關(guān)系,促進(jìn)了圖書版權(quán)的長期續(xù)簽。
基于正式授權(quán),《中華經(jīng)典古籍庫》從第四期開始陸續(xù)收入其他出版機(jī)構(gòu)的優(yōu)質(zhì)資源,包括鳳凰出版社、浙江古籍出版社、巴蜀書社、岳麓書社、大象出版社、中國人民大學(xué)出版社、華東師范大學(xué)出版社等20余家,在古籍領(lǐng)域內(nèi)首次實(shí)現(xiàn)了跨地域、跨集團(tuán)的版權(quán)合作,打破了信息壁壘,提高了古籍整理成果的利用效率,達(dá)到了資源整合的新高度。
2.豐富出版路徑
在深入開發(fā)出版機(jī)構(gòu)版權(quán)資源的同時(shí),數(shù)據(jù)庫產(chǎn)品也嘗試在成果來源上進(jìn)行探索和創(chuàng)新,不再遵循“先出版紙書后進(jìn)行數(shù)字化”的傳統(tǒng)軌跡,而是獨(dú)立策劃選題并聯(lián)系作者,將作者的專業(yè)整理成果直接進(jìn)行結(jié)構(gòu)化的數(shù)據(jù)加工,通過數(shù)據(jù)庫產(chǎn)品的形式進(jìn)行公開發(fā)布,實(shí)現(xiàn)線上、線下雙通道出版?!吨腥A石刻數(shù)據(jù)庫》即開創(chuàng)了專業(yè)整理成果直接轉(zhuǎn)化為數(shù)據(jù)庫產(chǎn)品的先例。
《中華石刻數(shù)據(jù)庫》旨在建設(shè)資源豐富、內(nèi)容權(quán)威的石刻文獻(xiàn)綜合性產(chǎn)品,以時(shí)代、地域、類型為綱,廣泛、全面地搜集出土或傳世的歷代石刻資源,打造出一系列精品專題庫。其中,首發(fā)上線的“宋代墓志銘”專題庫即是與作者李偉國老師直接合作開發(fā)建設(shè)的。作者全面搜集了宋遼金元時(shí)期不同類型的墓志文獻(xiàn),采用古籍整理標(biāo)準(zhǔn)進(jìn)行全文錄文,包括文字隸定、句讀標(biāo)點(diǎn)和釋讀??钡?,并對墓志的時(shí)間、作者、主題詞(志主)等關(guān)鍵信息進(jìn)行標(biāo)引;“籍合網(wǎng)”經(jīng)過標(biāo)準(zhǔn)的數(shù)據(jù)結(jié)構(gòu)化處理和入庫,實(shí)現(xiàn)全文瀏覽、多維檢索及分類導(dǎo)航等專業(yè)功能。除初編上線的8000余篇為作者前期積累成果外,從二編起均是陸續(xù)出土或公開的墓志文獻(xiàn),專題庫以平均每編2000篇的速度進(jìn)行增補(bǔ),配合拓片圖像的共同展示,形成了“宋代墓志銘”系列精品成果。
基于專題庫分期建設(shè)的思路,《中華石刻數(shù)據(jù)庫》打造出古籍專業(yè)整理成果“一步式”數(shù)字出版的成功范式。這一模式有效縮短了發(fā)布周期,擺脫了以往石刻匯編作品受制于印制周期而導(dǎo)致的成果滯后、供需不匹配的困境;在保證質(zhì)量的基礎(chǔ)上,作者可以結(jié)合前沿信息和研究進(jìn)展,在第一時(shí)間對數(shù)據(jù)庫成果進(jìn)行修訂、拓展,并以最快的速度進(jìn)行發(fā)表。專業(yè)整理成果的數(shù)字化發(fā)布,不僅符合石刻文獻(xiàn)的動(dòng)態(tài)發(fā)展特性,還在提高時(shí)效性和實(shí)用性的同時(shí),有效降低了更新成本。
此后,進(jìn)一步發(fā)揮內(nèi)容選題策劃優(yōu)勢,廣泛與作者合作開拓專題數(shù)據(jù)庫,除《中華石刻數(shù)據(jù)庫》外,還發(fā)布有《歷代進(jìn)士登科數(shù)據(jù)庫》《殷墟甲骨文數(shù)據(jù)庫》《中華書法數(shù)據(jù)庫》《小學(xué)文獻(xiàn)數(shù)據(jù)庫》等產(chǎn)品,收錄了7萬余篇石刻資源、10萬余條歷代登科人物信息、14萬余條甲骨文卜辭、1萬余種書法作品和其他專題資源,加速了大型古籍整理成果的問世。
3.提供知識(shí)賦能
過往,數(shù)據(jù)庫產(chǎn)品被理解為已有資源匯聚的產(chǎn)物,用戶亦滿足于一些基礎(chǔ)服務(wù),比如可以在一個(gè)使用場景下查看大量資源,解決采購、存藏多種圖書的問題;又如可以通過快速檢索,減少手動(dòng)查找、翻閱的時(shí)間等。然而,伴隨著產(chǎn)品數(shù)量、建設(shè)主體的不斷豐富與拓展,以資源搜集、類聚為核心的數(shù)據(jù)庫已經(jīng)逐漸成為最基礎(chǔ)的產(chǎn)品形式。在這一趨勢下,配合“籍合網(wǎng)”的整體發(fā)展,數(shù)據(jù)庫產(chǎn)品也努力向知識(shí)化方向延伸,提供超越文獻(xiàn)本身的專業(yè)服務(wù)。
一方面,從產(chǎn)品選題角度更加傾向知識(shí)成果的收錄。例如,同樣采用專題庫方式建設(shè)的《歷代石刻總目數(shù)據(jù)庫》,便側(cè)重提供石刻文獻(xiàn)的知識(shí)服務(wù)?!稓v代石刻總目數(shù)據(jù)庫》基于石刻內(nèi)容不僅逐一提取了題名、主題詞、責(zé)任者、卒葬時(shí)間、存藏地點(diǎn)等基本信息,還進(jìn)一步完成細(xì)化標(biāo)注;同時(shí)全面整理了與石刻相關(guān)的文獻(xiàn)資料,不僅有石刻類史料和現(xiàn)代匯編圖書,更擴(kuò)展至考古發(fā)掘報(bào)告(含簡報(bào)),記載志主生平的正史傳記、文集、筆記和類書等傳世史料,現(xiàn)代學(xué)者的專題論著等,為每一方石刻制作一篇“文獻(xiàn)綜述”,提供了重要的文獻(xiàn)梳理服務(wù);針對石刻中的墓志文獻(xiàn),著力考證了志主之間的親屬關(guān)系,建立墓志文獻(xiàn)內(nèi)部的家族譜系關(guān)聯(lián),實(shí)現(xiàn)重要的信息拓展。
上述“文獻(xiàn)綜述”和“家族關(guān)聯(lián)”內(nèi)容均非文本內(nèi)的顯性信息,需要作者憑借扎實(shí)的文史功底進(jìn)行考證和搜錄,是切實(shí)的知識(shí)服務(wù);通過和《中華石刻數(shù)據(jù)庫》的功能打通,達(dá)到知識(shí)與文獻(xiàn)配套服務(wù)的最佳效果。
另一方面,在知識(shí)賦能的過程中追求知識(shí)本身的生產(chǎn)。立足數(shù)據(jù)庫等產(chǎn)品前期數(shù)十億字的大數(shù)據(jù)積累,基于人工智能、文本挖掘等機(jī)器深度學(xué)習(xí)技術(shù)的發(fā)展,“籍合網(wǎng)”古籍全流程智能化整理初步成型。已開發(fā)上線的古籍光學(xué)字符識(shí)別(OCR)、自動(dòng)標(biāo)點(diǎn)、繁簡轉(zhuǎn)換、專名標(biāo)引等技術(shù)工具,有效支持了數(shù)據(jù)庫產(chǎn)品的內(nèi)容建設(shè),使原本短時(shí)間內(nèi)無法問世的古籍整理成果借助數(shù)字化手段迅速提升效率,通過數(shù)據(jù)庫形式進(jìn)行發(fā)布;與此同時(shí),不同數(shù)據(jù)庫產(chǎn)品結(jié)合自身資源特點(diǎn),也將部分智能技術(shù)工其引入產(chǎn)品功能當(dāng)中,通過不同接口形式提供全新的智能化知識(shí)服務(wù)體驗(yàn)。
古籍?dāng)?shù)據(jù)庫發(fā)展前景
當(dāng)前,“籍合網(wǎng)”著眼于全流程古籍?dāng)?shù)字化整理與應(yīng)用,打通了人才培養(yǎng)、科技賦能、版權(quán)保護(hù)、內(nèi)容編輯、知識(shí)加工、成果展示等各個(gè)關(guān)鍵節(jié)點(diǎn),將各個(gè)業(yè)務(wù)模塊作為一個(gè)整體有機(jī)組織起來,相互驅(qū)動(dòng)、共同增益,逐漸打造出一個(gè)開放、創(chuàng)新的古籍整理業(yè)態(tài),促進(jìn)了跨學(xué)科、跨領(lǐng)域的交叉研究及相關(guān)應(yīng)用成果的落地。
2022年以來,伴隨著ChatGPT、DeepSeek等大語言模型的問世和蓬勃發(fā)展,“百模大戰(zhàn)”如火如茶,國內(nèi)各大企業(yè)和研究機(jī)構(gòu)推出了超過200種通用和垂直領(lǐng)域的大語言模型,針對古漢語領(lǐng)域,也先后發(fā)布“荀子”“九思”“AI太炎”等成果,彌補(bǔ)絕大多數(shù)中文大模型能力評測基準(zhǔn)都未將古文處理能力納入評測體系之中的不足。聚焦垂直領(lǐng)域的應(yīng)用效果,目前中文大模型已經(jīng)推進(jìn)至更加細(xì)化的層面,例如中國古代農(nóng)業(yè)方向就發(fā)布了其專有的大語言模型“齊民”。大語言模型具備強(qiáng)大的自然語言處理能力,使得大眾在智媒時(shí)代和古籍進(jìn)行“深入對話”成為可能,現(xiàn)下已形成一定的應(yīng)用場景,包括字詞釋義、文白翻譯、知識(shí)問答、語義檢索等。
未來,大語言模型和古籍文獻(xiàn)的結(jié)合勢必成為一種趨勢,甚至可能會(huì)對后者的整理研究路徑產(chǎn)生結(jié)構(gòu)性影響。如何將大語言模型的計(jì)算能力轉(zhuǎn)化為知識(shí)生產(chǎn)能力,利用技術(shù)手段解決古籍整理的痛點(diǎn)問題,進(jìn)一步實(shí)現(xiàn)數(shù)據(jù)的結(jié)構(gòu)化;如何將大語言模型的應(yīng)用場景與實(shí)際用戶需求相結(jié)合,平滑內(nèi)嵌至檢索、閱讀的服務(wù)當(dāng)中,實(shí)現(xiàn)有效的人機(jī)互動(dòng);如何合理規(guī)避大語言模型造成的\"人工智能幻覺”,使其生成的內(nèi)容真正納入專業(yè)領(lǐng)域認(rèn)可的范疇,達(dá)到“觀天下書未徧,不得妄下雌黃”(顔之推原著、王利器集解《顔氏家訓(xùn)集解》卷第三《勉學(xué)第八》)的效果,是推進(jìn)古籍?dāng)?shù)據(jù)庫產(chǎn)品優(yōu)化升級最為重要的方向。
作者系古聯(lián)(北京)數(shù)字傳媒科技有限公司產(chǎn)品部主任