計(jì)算文獻(xiàn)學(xué)的概念、范疇及前景

2023-06-18 06:15:42李斌王東波

圖書與情報(bào) 2023年1期

李斌王東波

摘? ?要：在人工智能和信息技術(shù)飛速發(fā)展的今天，無論是古典文獻(xiàn)的版本、目錄、?？?，還是現(xiàn)代文獻(xiàn)的管理與研究，都發(fā)生著重大變革。紙質(zhì)文獻(xiàn)數(shù)字化內(nèi)容的計(jì)量與可視化分析，已經(jīng)產(chǎn)生了數(shù)字文獻(xiàn)學(xué)和文獻(xiàn)計(jì)量學(xué)的研究范式，而借助自然語言處理技術(shù)，文獻(xiàn)內(nèi)容的標(biāo)注與自動分析也日益豐富。以數(shù)字化形態(tài)為基本載體，以計(jì)算模型為技術(shù)手段的文獻(xiàn)管理與研究已經(jīng)成為學(xué)界業(yè)界的新趨勢、新常態(tài)。文章提出“計(jì)算文獻(xiàn)學(xué)”這一術(shù)語，以統(tǒng)稱信息智能時(shí)代的新型文獻(xiàn)學(xué)研究方法與范式。進(jìn)而以古典文獻(xiàn)為對象，提出以人工智能技術(shù)進(jìn)行字符識別、自動斷句、標(biāo)點(diǎn)、標(biāo)引，版本自動比對、征引，智能排版，形成全數(shù)字化整理出版流程，大大加快古籍的整理出版工作。在高質(zhì)量數(shù)字化底本的基礎(chǔ)上，建設(shè)古典文獻(xiàn)知識庫，以大數(shù)據(jù)的知識服務(wù)方法，發(fā)揮古典文獻(xiàn)的社會服務(wù)功能。通過多學(xué)科協(xié)同，培養(yǎng)新時(shí)代的文獻(xiàn)整理研究的文理復(fù)合型人才。

關(guān)鍵詞：計(jì)算文獻(xiàn)學(xué)；文獻(xiàn)學(xué)；古籍?dāng)?shù)字化；計(jì)算人文；數(shù)字人文

中圖分類號：G256? ?文獻(xiàn)標(biāo)識碼：Ａ? ?DOI：10.11968/tsyqb.1003-6938.2023004

Abstract Today， with the rapid development of artificial intelligence and information technology， major changes have taken place in the editions， catalogs， and collations of classical documents， as well as in the management and research of modern documents. The quantitative and visual analysis of digital content of paper documents has produced the research paradigm of digital bibliology and bibliometrics， and with the help of natural language processing technology， the annotation and automatic analysis of document content are also increasingly enriched. Document management and research with digital forms as the basic carrier and computational models as technical means has become a new trend and new normal state in the academic world. This paper proposes the concept of "computational bibliography" to name the new research method and paradigms of philology in the era of information and intelligence. Taking classical literature， we propose to use artificial intelligence technology for OCR， automatic sentence segmentation， punctuation， indexing， edition comparison， citation， and intelligent typesetting to perform a whole digital emendation and publishing process， which will greatly speed up the emendation and publishing of ancient books. Then， it is urgent to build knowledge bases of classical literature based on high-quality digital documents， and to apply the knowledge service method of big data to classical literature. Finally， through multidisciplinary collaboration， more interdisciplinary students need to be educated in the new era.

Key words computational bibliography; bibliography; ancient book digitization; computational humanities; digital humanities

文獻(xiàn)學(xué)是對文獻(xiàn)的研究，主要包括中國傳統(tǒng)的以版本、目錄、?？睘楹诵牡臍v史文獻(xiàn)學(xué)，以及從西方引入的以圖書情報(bào)領(lǐng)域的現(xiàn)代文獻(xiàn)學(xué)［1］。前者致力于對紙質(zhì)文獻(xiàn)進(jìn)行內(nèi)容上的考證與整理，后者更注重利用數(shù)學(xué)方法進(jìn)行文獻(xiàn)的歸類整理與計(jì)量研究。隨著電子信息技術(shù)和人工智能技術(shù)的發(fā)展，文獻(xiàn)學(xué)已經(jīng)發(fā)展出了“數(shù)字文獻(xiàn)學(xué)”［2］、“文獻(xiàn)計(jì)量學(xué)”［3］、“E考據(jù)”［4］、“人文計(jì)算”［5］等新的研究方法和研究范式，給文獻(xiàn)學(xué)帶來了新的活力。本文在梳理這一發(fā)展趨勢的基礎(chǔ)上，指出文獻(xiàn)電子化之后除了保存文獻(xiàn)內(nèi)容之外，更重要的是對文獻(xiàn)內(nèi)容的分析和利用。數(shù)學(xué)計(jì)算方法是現(xiàn)代文獻(xiàn)學(xué)進(jìn)行數(shù)字化、計(jì)量分析和計(jì)算分析的基礎(chǔ)，也是促進(jìn)傳統(tǒng)文獻(xiàn)進(jìn)行數(shù)字化考證和活化利用的支撐。但一直缺乏一個(gè)比較合適的術(shù)語來命名這種新的文獻(xiàn)研究方法。因此，本文明確提出“計(jì)算文獻(xiàn)學(xué)”這一學(xué)科術(shù)語，并論證這一新的技術(shù)方法的研究范式和應(yīng)用價(jià)值。

1? ?從數(shù)字文獻(xiàn)學(xué)到文獻(xiàn)計(jì)量學(xué)

作為現(xiàn)代文獻(xiàn)學(xué)的數(shù)字化轉(zhuǎn)型，數(shù)字文獻(xiàn)學(xué)和文獻(xiàn)計(jì)量學(xué)相繼出現(xiàn)。我們可以將二者看作相互依存的兩個(gè)層面：第一個(gè)層面，即數(shù)字文獻(xiàn)學(xué)或電子文獻(xiàn)學(xué)，主要指用數(shù)字化技術(shù)來承載和轉(zhuǎn)換傳統(tǒng)文獻(xiàn)的研究；第二個(gè)層面，即文獻(xiàn)計(jì)量學(xué)，主要采用統(tǒng)計(jì)方法來挖掘海量文獻(xiàn)中隱藏的各種知識。

1.1? ? 數(shù)字文獻(xiàn)學(xué)

數(shù)字文獻(xiàn)學(xué)是隨著電子計(jì)算機(jī)的廣泛應(yīng)用，以文獻(xiàn)的電子化為主要研究任務(wù)和方法的學(xué)科。國際上，在20世紀(jì)60年代制定了計(jì)算機(jī)字符編碼標(biāo)準(zhǔn)之后，如1963年的ASCII（美國信息交換標(biāo)準(zhǔn)代碼），以手工錄入為主的電子文獻(xiàn)和目錄逐步出現(xiàn)。1964-1969年，美國教育部就建設(shè)了教育資源信息中心（ERIC），這是一個(gè)教育引文、摘要和文本的數(shù)據(jù)庫［6］。伴隨著70、80年代數(shù)據(jù)庫技術(shù)的不斷發(fā)展，又產(chǎn)生了代表性的電子文獻(xiàn)目錄庫 OPAC（在線公共訪問目錄）［7］。90年代之后，隨著互聯(lián)網(wǎng)的崛起和廣泛使用，電子文本開始了爆發(fā)式增長。同時(shí)，光學(xué)字符識別技術(shù)（OCR）的興起，也使得傳統(tǒng)的紙質(zhì)文獻(xiàn)得以快速掃描和識別為文字，形成電子文獻(xiàn)。國內(nèi)外的文獻(xiàn)電子化研究和整理工作都不斷展開［2］。在這種趨勢下，2006年，鄭永曉明確提出了數(shù)字文獻(xiàn)（digital document）學(xué)，指出數(shù)字文獻(xiàn)學(xué)就是對數(shù)字文獻(xiàn)的產(chǎn)生、發(fā)展、演變、整理、制作、校對、使用、流通、管理等各個(gè)流程和環(huán)境進(jìn)行研究的一門新興學(xué)科［8］。

從主要研究內(nèi)容來看，數(shù)字文獻(xiàn)學(xué)就是用數(shù)字化技術(shù)，將紙質(zhì)為主的文獻(xiàn)轉(zhuǎn)化為計(jì)算機(jī)可以存儲和處理的數(shù)字文獻(xiàn)，并用數(shù)據(jù)庫技術(shù)進(jìn)行保存和管理。這是文獻(xiàn)的數(shù)字化工作，也是用計(jì)算技術(shù)和統(tǒng)計(jì)方法對文獻(xiàn)進(jìn)行分析研究的基礎(chǔ)。

1.2? ? 文獻(xiàn)計(jì)量學(xué)

數(shù)字化的文獻(xiàn)，為“文獻(xiàn)計(jì)量學(xué)”提供了大量的研究資料。在計(jì)算機(jī)出現(xiàn)以前，已經(jīng)有了一些使用計(jì)算方法對文獻(xiàn)進(jìn)行統(tǒng)計(jì)分析的工作，但是過程非常艱辛，大多是依靠手工做卡片和統(tǒng)計(jì)。這種純?nèi)斯し椒?，費(fèi)時(shí)費(fèi)力，效率低下，但是數(shù)理統(tǒng)計(jì)之后，依然得到了許多值得稱道的研究成果，挖掘出了文獻(xiàn)中的量化信息。如學(xué)界一般將1917年Cole和Eales對300多年的解剖學(xué)文獻(xiàn)進(jìn)行的統(tǒng)計(jì)分析作為文獻(xiàn)計(jì)量學(xué)的開創(chuàng)性研究［9］。1922年，英國學(xué)者Hulme使用了“statistical bibliography（統(tǒng)計(jì)文獻(xiàn)學(xué)）”術(shù)語［10］。但受限于效率問題，這些純手工的文獻(xiàn)統(tǒng)計(jì)研究一直沒有大規(guī)模展開，直到20世紀(jì)60年代之后，隨著計(jì)算機(jī)的快速發(fā)展，一方面電子文獻(xiàn)的數(shù)量不斷增長，另一方面計(jì)算機(jī)的算力不斷增強(qiáng)，使計(jì)量研究有了計(jì)算機(jī)的強(qiáng)力支撐，效率大幅提高，文獻(xiàn)的計(jì)量研究正式進(jìn)入了發(fā)展期。1969年，英國學(xué)者Alan Pritchard提出了新的術(shù)語Bibliometrics，意為“Biblio（圖書）+metry（計(jì)量）+cs（學(xué)）”，一般被翻譯為“文獻(xiàn)計(jì)量學(xué)”［11］。美國學(xué)者Eugene Garfield于1955年在美國《科學(xué)》雜志發(fā)表《引文索引用于科學(xué)》的重要論文［12］，系統(tǒng)地提出了用引文索引檢索科技文獻(xiàn)的新方法，從而打破了分類法和主題法在檢索方法中的壟斷地位，60年代-80年代，逐步以手工、磁帶、軟盤、光盤、網(wǎng)絡(luò)等方式，發(fā)布學(xué)術(shù)文獻(xiàn)索引SCI、SSCI、ISTP等，并基于引文索引進(jìn)行了大量的計(jì)量研究。

2? ?計(jì)算文獻(xiàn)學(xué)

2.1? ? 基于計(jì)算的文獻(xiàn)數(shù)字化

自20世紀(jì)90年代以來，基于計(jì)算技術(shù)的文獻(xiàn)學(xué)就已經(jīng)產(chǎn)生。特別是在計(jì)算語言學(xué)和數(shù)字人文領(lǐng)域，展開了文字識別、詞法分析、文本風(fēng)格分析的研究工作。以文字識別技術(shù)為例，OCR（Optical Character Recognition，光學(xué)字符識別）可以將文獻(xiàn)進(jìn)行光學(xué)掃描后，從圖片形式轉(zhuǎn)化為字符形式。該技術(shù)改變了過去以人工錄入為主的文獻(xiàn)數(shù)字化模式，大大加快了紙質(zhì)、金石、木刻等載體的文獻(xiàn)數(shù)字化進(jìn)程［13］。而在數(shù)字化之后，就可以加工為數(shù)據(jù)庫，進(jìn)行基于字符串的全文檢索，從而使得文獻(xiàn)可以被更快捷地檢索和利用。文本的檢索技術(shù)，實(shí)際上利用的也是計(jì)算技術(shù)，而且涉及到大量的自然語言處理技術(shù)。如詞法分析技術(shù)，主要可以進(jìn)行英文單詞的詞形還原，從而保證檢索的完整性。具體來說，檢索“buy”這個(gè)單詞的時(shí)候，需要考慮“buys”“bought”等不同的形式。而在漢語中，雖然不需要詞形還原，卻需要進(jìn)行自動分詞，以保證檢索的準(zhǔn)確性。如檢索“和尚”時(shí)，如果文獻(xiàn)沒有經(jīng)過詞語的切分處理，就會檢索出“和-尚未”“和-尚且”等大量的錯(cuò)誤干擾項(xiàng)。在國際上，基于字符串和詞串的檢索技術(shù)也已經(jīng)在搜索引擎和各種檢索平臺上廣泛應(yīng)用。

因此，在進(jìn)行漢字文獻(xiàn)的電子化、檢索與計(jì)量分析時(shí)，“計(jì)算”已經(jīng)成了必不可少的技術(shù)和流程。但是，漢字文獻(xiàn)沒有詞語邊界，如果不進(jìn)行詞語的切分，只能做基于字和字符串的統(tǒng)計(jì)，這對于基于詞和概念的很多研究來說是非常不便的。在漢字文獻(xiàn)的檢索上，想實(shí)現(xiàn)基于“詞”的檢索，就必須采用自然語言處理的計(jì)算技術(shù)進(jìn)行自動分詞［14］。OCR、詞法分析、索引和檢索技術(shù)已經(jīng)成了制作檢索平臺的基礎(chǔ)。因此，在國內(nèi)外的許多研究論文中，都出現(xiàn)了“基于人工智能”“基于計(jì)算”“智能分析”“計(jì)算分析”“數(shù)智”等字樣的文獻(xiàn)學(xué)研究［15］，一個(gè)新的術(shù)語呼之欲出。

2.2? ? 基于計(jì)算的文獻(xiàn)計(jì)量學(xué)

20世紀(jì)90年代之后，電子文本呈爆發(fā)式增長，計(jì)算機(jī)的算力也迅速提升。文獻(xiàn)計(jì)量學(xué)，也從簡單的數(shù)據(jù)統(tǒng)計(jì)、引文分析，進(jìn)一步發(fā)展為對文本的詞頻進(jìn)行分析，觀察出現(xiàn)的作家、作品、詞語的頻次與相關(guān)關(guān)系，挖掘代表人物、代表作品、研究熱點(diǎn)與前沿，還用于學(xué)術(shù)熱點(diǎn)追蹤，學(xué)科評價(jià)等，近年來也逐步拓展到醫(yī)學(xué)文獻(xiàn)、法律文獻(xiàn)等領(lǐng)域知識的挖掘［16］。

可以看出，文獻(xiàn)計(jì)量學(xué)已經(jīng)越來越多地使用計(jì)算機(jī)來進(jìn)行海量電子文獻(xiàn)的計(jì)量分析，而超越統(tǒng)計(jì)方法的人工智能領(lǐng)域的技術(shù)，諸如機(jī)器學(xué)習(xí)的分類、聚類，自然語言處理的文本自動分析、情感分析、自動摘要、機(jī)器翻譯，復(fù)雜網(wǎng)絡(luò)分析與可視化技術(shù)等，都不斷地被應(yīng)用到文獻(xiàn)內(nèi)容的挖掘與分析中。在這種趨勢下，已經(jīng)催生出了基于“計(jì)算”的新型文獻(xiàn)學(xué)，但始終沒有一個(gè)合適的術(shù)語指稱。

2.3? ? 計(jì)算文獻(xiàn)學(xué)的提出

基于在數(shù)字時(shí)代文獻(xiàn)學(xué)自身的發(fā)展，和文獻(xiàn)內(nèi)容深度研究的科學(xué)需求，本文提出“計(jì)算文獻(xiàn)學(xué)（Computational Bibliography）”的術(shù)語。這個(gè)新術(shù)語主要強(qiáng)調(diào)采用計(jì)算技術(shù)，進(jìn)行文獻(xiàn)的掃描、錄入、數(shù)據(jù)化、索引、檢索、自動標(biāo)引、自動分詞、統(tǒng)計(jì)分析、可視化交互、智能應(yīng)用等新型的文獻(xiàn)學(xué)研究技術(shù)和研究范式。

在計(jì)算的視角下，文獻(xiàn)的數(shù)字化、計(jì)量分析、可視化，都是計(jì)算文獻(xiàn)學(xué)的研究內(nèi)容，從而把基于計(jì)算的文獻(xiàn)學(xué)納入到一個(gè)整體的框架中，避免條塊分割。數(shù)字文獻(xiàn)學(xué)、E考據(jù)、文獻(xiàn)計(jì)量學(xué)、計(jì)量風(fēng)格學(xué)、文獻(xiàn)可視化、文獻(xiàn)內(nèi)容挖掘、文獻(xiàn)元宇宙等，實(shí)際上運(yùn)用了大量計(jì)算技術(shù)和方法的研究，也都可以歸入計(jì)算文獻(xiàn)學(xué)的范疇中，不僅便于學(xué)術(shù)界和業(yè)界的指稱和交流，還可以將研究聚焦于計(jì)算技術(shù)，加強(qiáng)計(jì)算技術(shù)與方法的研究、教學(xué)和應(yīng)用。所以計(jì)算文獻(xiàn)學(xué)對文獻(xiàn)學(xué)新形式的概念釋義，更是將古典文獻(xiàn)學(xué)和現(xiàn)代文獻(xiàn)學(xué)在計(jì)算框架下融合與發(fā)展的自然產(chǎn)物。

計(jì)算文獻(xiàn)學(xué)是一門以計(jì)算機(jī)科學(xué)和文獻(xiàn)學(xué)等多學(xué)科進(jìn)行交叉研究的學(xué)科，以文獻(xiàn)特別是數(shù)字化文獻(xiàn)為研究對象，以傳統(tǒng)的人文學(xué)科和文獻(xiàn)研究法為指導(dǎo)，以數(shù)學(xué)模型、計(jì)算技術(shù)為代表的新方法技術(shù)為支撐，服務(wù)于信息化、智能化時(shí)代對文獻(xiàn)數(shù)字化、文獻(xiàn)內(nèi)容的結(jié)構(gòu)化、知識化、多模態(tài)化，滿足學(xué)術(shù)研究、知識服務(wù)等社會需求（計(jì)算文獻(xiàn)學(xué)的基本架構(gòu)見圖1）。

計(jì)算人文以計(jì)算方法與技術(shù)對更廣闊的人文領(lǐng)域進(jìn)行體系化、深入化和精細(xì)化的計(jì)算研究。計(jì)算文獻(xiàn)學(xué)是在新時(shí)代信息智能的條件下和計(jì)算人文的整體框架下針對海量的典籍文獻(xiàn)展開的一系列計(jì)算研究，在學(xué)科定位上更加專注，符合現(xiàn)有古典文獻(xiàn)、圖書情報(bào)等相關(guān)學(xué)科的研究、教學(xué)及未來發(fā)展。作為一門新興交叉學(xué)科，計(jì)算文獻(xiàn)學(xué)既可以作為圖書情報(bào)學(xué)、文獻(xiàn)學(xué)和計(jì)算機(jī)應(yīng)用技術(shù)的子學(xué)科，從細(xì)分學(xué)科上也可以作為計(jì)算人文的分支學(xué)科內(nèi)容。

3? ?計(jì)算文獻(xiàn)學(xué)的金字塔

我們可以把計(jì)算文獻(xiàn)學(xué)看作數(shù)字文獻(xiàn)學(xué)和文獻(xiàn)計(jì)量學(xué)之后的第三個(gè)層面。一般來說，計(jì)算文獻(xiàn)學(xué)是在文獻(xiàn)計(jì)量學(xué)之后，更注重采用計(jì)算技術(shù)、人工智能、復(fù)雜網(wǎng)絡(luò)與可視化的高技術(shù)層面。三個(gè)層面形成一個(gè)典型的金字塔結(jié)構(gòu)（見圖2-A）。然而，三者現(xiàn)實(shí)的關(guān)系應(yīng)該是貫穿式金字塔（見圖2-B）。

首先，數(shù)字文獻(xiàn)學(xué)提供了數(shù)字化的文獻(xiàn)，是計(jì)量和計(jì)算的基礎(chǔ)；其次，文獻(xiàn)計(jì)量學(xué)可以在電子文獻(xiàn)的基礎(chǔ)上，開展各種統(tǒng)計(jì)分析研究。但是，文獻(xiàn)計(jì)量的研究成果，也可以服務(wù)于數(shù)字文獻(xiàn)學(xué)，是可以下探到底層的。如對異體字的字頻和詞頻的統(tǒng)計(jì)分析，可以對古籍文獻(xiàn)的電子化進(jìn)行規(guī)范，盡可能處理好正體字和異體字的關(guān)系，以滿足全文檢索的需求。

計(jì)算文獻(xiàn)學(xué)則貫穿了前面兩者。一方面，以O(shè)CR和文本糾錯(cuò)技術(shù)為代表的計(jì)算技術(shù)，在文獻(xiàn)數(shù)字化的過程中作用巨大，可以大大提升速度與質(zhì)量，大大減少人工的錄入和校對工作；另一方面，以自動分詞、自動標(biāo)引、文本挖掘?yàn)榇淼挠?jì)算技術(shù)，大大拓展了文獻(xiàn)計(jì)量學(xué)的研究方法和技術(shù)，可以統(tǒng)計(jì)出比字面信息更多更深入的信息。甚至可以說，計(jì)算文獻(xiàn)學(xué)占據(jù)了整個(gè)金字塔，為數(shù)字文獻(xiàn)學(xué)和文獻(xiàn)計(jì)量學(xué)提供了基礎(chǔ)的技術(shù)支持和研究方法。

這個(gè)金字塔，也可以用三句話來解讀，文獻(xiàn)數(shù)字化需要計(jì)算技術(shù)，文獻(xiàn)計(jì)量與內(nèi)容挖掘需要計(jì)算技術(shù)，文獻(xiàn)可視化與應(yīng)用需要計(jì)算技術(shù)。

4? ?計(jì)算文獻(xiàn)學(xué)的特點(diǎn)與發(fā)展前景

4.1? ? 計(jì)算文獻(xiàn)學(xué)的兩大特色：大數(shù)據(jù)和計(jì)算

（1）大數(shù)據(jù)。在當(dāng)前數(shù)字化社會的發(fā)展趨勢下，新的文獻(xiàn)爆炸式增長，每天都有數(shù)以億計(jì)的電子文獻(xiàn)在互聯(lián)網(wǎng)上涌現(xiàn)。而古籍文獻(xiàn)數(shù)字化的不斷推進(jìn)，每年也會掃描和整理上億字的古籍。大數(shù)據(jù)是事實(shí)，是現(xiàn)狀，也是未來的常態(tài)。

（2）計(jì)算。計(jì)算是指的計(jì)算能力和計(jì)算模型。首先，海量的數(shù)據(jù)，靠個(gè)人的力量，是無法閱讀、整理、掌握和分析的。大數(shù)據(jù)離開計(jì)算技術(shù)，也只是一堆無用的存儲。數(shù)據(jù)越大，越需要新的算法模型作為支撐，強(qiáng)大的軟硬件算力作為基礎(chǔ)；其次，目前深度學(xué)習(xí)技術(shù)已經(jīng)在OCR、自動分詞、標(biāo)引等方面取得了突破性進(jìn)展，將來還會有更多的智能計(jì)算技術(shù)涌現(xiàn)出來，不斷增強(qiáng)文獻(xiàn)的內(nèi)容分析與智能應(yīng)用性能；最后，量變很可能產(chǎn)生質(zhì)變，在超大數(shù)據(jù)規(guī)模和智能算法的加持下，易于在宏觀的時(shí)空尺度上，發(fā)現(xiàn)語言、社會、文化的歷時(shí)演化和隱秘的關(guān)聯(lián)，也可以在微觀層面上挖掘出以往不為人們關(guān)注到的現(xiàn)象，從量化分析得出新的定性認(rèn)識和結(jié)論。

4.2? ? 計(jì)算文獻(xiàn)學(xué)的交叉性

計(jì)算文獻(xiàn)學(xué)，既需要傳統(tǒng)文科的知識體系作為定性研究的支撐，又需要各種新技術(shù)作為定量與建模計(jì)算分析的基礎(chǔ)，因此是一門綜合性、交叉性非常強(qiáng)的學(xué)科。

（1）文獻(xiàn)內(nèi)容涉及各類學(xué)科，需要大量不同領(lǐng)域的知識。由于文獻(xiàn)的基本載體是語言文字，文獻(xiàn)的內(nèi)容包羅萬象，本身就涉及人類知識的方方面面。如傳統(tǒng)的人文科學(xué)，包括文學(xué)、語言、歷史、哲學(xué)、藝術(shù)、法律、教育等，都涉及其中。如果是科技類文獻(xiàn)，自然也包括數(shù)學(xué)、物理、化學(xué)、地理、生物、計(jì)算機(jī)等。計(jì)算文獻(xiàn)學(xué)自然也要以傳統(tǒng)文獻(xiàn)學(xué)和現(xiàn)代文獻(xiàn)學(xué)已有的方法為基本的指導(dǎo)，解決文獻(xiàn)學(xué)的傳統(tǒng)問題。

（2）文獻(xiàn)的數(shù)字化和計(jì)量需要各種計(jì)算技術(shù)。如前所述，數(shù)學(xué)、計(jì)算機(jī)、人工智能技術(shù)都在文獻(xiàn)的數(shù)字化和計(jì)量研究中扮演了重要角色。具體來說，數(shù)學(xué)中的計(jì)算數(shù)學(xué)、數(shù)學(xué)建模、微積分、線性代數(shù)、數(shù)理統(tǒng)計(jì)、離散數(shù)學(xué)、復(fù)雜網(wǎng)絡(luò)等都是基本的數(shù)學(xué)工具。計(jì)算機(jī)科學(xué)與技術(shù)中的人工智能技術(shù)（如機(jī)器學(xué)習(xí)、自然語言處理、圖像文字識別技術(shù)、知識工程、知識圖譜等）、信息檢索技術(shù)（如全文檢索、詞檢索、多模態(tài)檢索等）、程序設(shè)計(jì)（如C、PYTHON、JS等）、數(shù)據(jù)庫技術(shù)（如網(wǎng)絡(luò)數(shù)據(jù)庫、數(shù)據(jù)安全、多模態(tài)數(shù)據(jù)庫等）、人機(jī)交互技術(shù)（如可視化技術(shù)、用戶界面設(shè)計(jì)、用戶畫像等）、虛擬技術(shù)（如VR、AR、元宇宙等）、互聯(lián)網(wǎng)技術(shù)（如多終端聯(lián)動等）則是進(jìn)行統(tǒng)計(jì)、計(jì)算和網(wǎng)絡(luò)檢索與可視化服務(wù)的支撐。

（3）研究方法與研究人員的交叉性。要分析和處理某個(gè)領(lǐng)域的文獻(xiàn)，既需要這個(gè)領(lǐng)域的專家學(xué)者，根據(jù)其專業(yè)領(lǐng)域的知識體系進(jìn)行研究，還需要與計(jì)算技術(shù)的專家共同合作，根據(jù)具體的問題，以計(jì)算建模的方式進(jìn)行定量研究，形成定性的結(jié)論和知識服務(wù)。而能夠通曉專業(yè)領(lǐng)域與計(jì)算技術(shù)的復(fù)合型人才，往往能更加得心應(yīng)手地進(jìn)行這種交叉研究。計(jì)算文獻(xiàn)學(xué)本身，就是給與傳統(tǒng)的文獻(xiàn)管理和研究以計(jì)算技術(shù)的加持，培養(yǎng)這種掌握計(jì)算技術(shù)的新型文獻(xiàn)學(xué)人才，已經(jīng)是圖書情報(bào)學(xué)界正在開展的事業(yè)。傳統(tǒng)文獻(xiàn)學(xué)則因?yàn)橐莆沾罅康墓糯Z言和文史知識，在培養(yǎng)文理兼通的人才方面難度較大，是將來值得發(fā)展的方向［17］。

4.3? ? 計(jì)算文獻(xiàn)學(xué)的發(fā)展前景

計(jì)算文獻(xiàn)學(xué)需要處理超大規(guī)模文獻(xiàn)數(shù)據(jù)，運(yùn)用前沿科技，與諸多學(xué)科協(xié)同研究，其發(fā)展前景也充滿了多樣性。

對于傳統(tǒng)文獻(xiàn)學(xué)來說，可以開拓新的研究領(lǐng)域，將傳統(tǒng)的古籍進(jìn)行數(shù)字化，進(jìn)而計(jì)算分析與利用，還可以將古籍版本、字詞考證、點(diǎn)校等工作進(jìn)行智能化技術(shù)升級，下一章詳述；對圖情學(xué)來說，計(jì)算文獻(xiàn)學(xué)對計(jì)算技術(shù)的倚重，可以更好地在文獻(xiàn)數(shù)字化、量化分析與智能應(yīng)用方面發(fā)揮作用。特別是知識圖譜構(gòu)建和知識服務(wù)領(lǐng)域，很可能出現(xiàn)諸多新的算法和應(yīng)用，推進(jìn)文獻(xiàn)內(nèi)容的知識庫構(gòu)建與個(gè)性化知識服務(wù)；對于語言、文學(xué)、歷史、哲學(xué)等倚重文本內(nèi)容的學(xué)科來說，計(jì)算文獻(xiàn)學(xué)可以為之提供更為豐富的文獻(xiàn)數(shù)據(jù)庫、高度結(jié)構(gòu)化的文史數(shù)據(jù)、文本內(nèi)容智能分析技術(shù)和各種可視化分析呈現(xiàn)。

服務(wù)于定量與定性研究。過去人們對大數(shù)據(jù)有一種誤解，即大數(shù)據(jù)只能做定量分析，難以做定性研究。隨著回歸分析、假設(shè)檢驗(yàn)、自動聚類、自動分類、復(fù)雜網(wǎng)絡(luò)分析等方面的算法不斷完善，在文獻(xiàn)大數(shù)據(jù)上進(jìn)行定性研究已經(jīng)成了新的趨勢［18］。如利用語言數(shù)據(jù)和貝葉斯模型來研究原始漢藏語系，已經(jīng)獲得了初步的研究成果［19］。將來人們掌握了中國及周邊國家地區(qū)的多語言文獻(xiàn)數(shù)據(jù)，形成大規(guī)模數(shù)據(jù)庫，在計(jì)算文獻(xiàn)學(xué)方法指導(dǎo)下，可以對中國的歷史、語言、文化，以及多文化、多語言、多民族的交流歷史，在數(shù)千年的大尺度框架下，通過分類、聚類、復(fù)雜網(wǎng)絡(luò)等分析技術(shù)，來形成新的認(rèn)識和結(jié)論。

除了學(xué)術(shù)服務(wù)之外，還可以產(chǎn)生較大的經(jīng)濟(jì)效益和社會效益。高校和企業(yè)聯(lián)合開發(fā)，可以產(chǎn)生多樣的學(xué)術(shù)性、商業(yè)化文獻(xiàn)知識服務(wù)平臺和應(yīng)用。未來的文獻(xiàn)內(nèi)容服務(wù)，將不只是字符級別的全文檢索，而是基于內(nèi)容的知識檢索和知識服務(wù)。借助ChatGPT①這樣的個(gè)性化問答服務(wù)技術(shù)，加之越來越大的文獻(xiàn)數(shù)據(jù)，可以進(jìn)一步開發(fā)個(gè)性化的知識學(xué)習(xí)系統(tǒng)、文獻(xiàn)管理助手、實(shí)時(shí)知識獲取與分析等應(yīng)用，讓海量的文獻(xiàn)更好地為人服務(wù)。

5? ?基于計(jì)算文獻(xiàn)學(xué)的中國古籍活化利用

中國古典文獻(xiàn)浩如煙海，是一筆取之不盡、用之不竭的文化財(cái)富。然而，古典文獻(xiàn)的整理工作無比艱巨，不僅包括標(biāo)點(diǎn)、校勘、注釋等工作，還需要編制書目、索引、辭書等。我國古典文獻(xiàn)總數(shù)迄今尚無定論，總量估計(jì)超過20萬種、20億字。根據(jù)《古籍整理圖書目錄（1949-1991）》記載，1978-1990年，我國共整理出版古典文獻(xiàn)4360種。若全部以人力來進(jìn)行古典文獻(xiàn)的整理工作，那將花費(fèi)數(shù)百年時(shí)間。擁有大量漢字古籍的日本已經(jīng)展開了文獻(xiàn)數(shù)字化的整理工作，在技術(shù)加持下形成了諸多古籍文獻(xiàn)數(shù)據(jù)庫［20］。

計(jì)算文獻(xiàn)學(xué)可以為古典文獻(xiàn)學(xué)研究帶來新工具、新思路。中文OCR、自動標(biāo)引、專名識別等技術(shù)的應(yīng)用為古典文獻(xiàn)的整理工作帶來重大利好。古典文獻(xiàn)全文庫、知識庫的建設(shè)大大滿足了學(xué)術(shù)界、大眾獲取古典文獻(xiàn)內(nèi)容的需求。將現(xiàn)代科技應(yīng)用到古典文獻(xiàn)的整理工作中，將極大提高我國古典文獻(xiàn)整理出版工作的效率，促進(jìn)我國古典文獻(xiàn)在新時(shí)期持續(xù)發(fā)揮價(jià)值。

5.1? ? 以計(jì)算技術(shù)打通古典文獻(xiàn)全數(shù)字化整理出版流程

古典文獻(xiàn)整理工作往往依托歷史和“三古”專業(yè)（即古代文學(xué)、古代漢語和古典文獻(xiàn)學(xué)專業(yè)），主要工作有版本校勘、文字訓(xùn)詁、句讀標(biāo)點(diǎn)、注釋等工作。直至目前，古典文獻(xiàn)整理出版主體仍然集中在古籍出版社與高校。

目前，古籍OCR的識別正確率大幅提高，達(dá)到95%以上，自動句讀、自動標(biāo)點(diǎn)、專名識別等技術(shù)也都可以達(dá)到90%-95%的正確率。經(jīng)過計(jì)算機(jī)的處理之后，只要輔以人工校正，整理效率就能實(shí)現(xiàn)巨大飛躍。除此以外，古文獻(xiàn)的斷句、標(biāo)點(diǎn)、分詞、詞性標(biāo)注、命名實(shí)體識別都達(dá)到了實(shí)用水平［21］。在第一屆古漢語國際評測EvaHan2022上，分詞準(zhǔn)確率達(dá)到了96%以上，詞性標(biāo)注準(zhǔn)確率達(dá)到了92%以上［22］。

在高校和出版社的探索下，目前古典文獻(xiàn)整理工作已經(jīng)實(shí)現(xiàn)了數(shù)字化工具整理、人工校對的半自動化流程，出現(xiàn)了一些古典文獻(xiàn)整理平臺輔助工作。成立于2015年的古聯(lián)（北京）數(shù)字傳媒科技有限公司是中華書局的全資子公司，它建設(shè)運(yùn)營的國家級古籍整理出版資源平臺“籍合網(wǎng)”①在2018年上線?！凹暇W(wǎng)”中包含引文核查、專名識別、自動標(biāo)點(diǎn)、繁簡轉(zhuǎn)換、OCR識別等服務(wù)，通過采用眾包的方法，流程化、大規(guī)模開展古籍編校工作。2018-2022年，通過“籍合網(wǎng)”整理的古籍文本約為14億字，極大推進(jìn)了古典文獻(xiàn)整理的進(jìn)度。浙江大學(xué)的“智慧古籍平臺”②集成了OCR識別、智能標(biāo)點(diǎn)功能，采用眾包機(jī)制，可使古籍整理者突破地域限制，高效地完成線上整理工作。這些數(shù)字化平臺協(xié)助傳統(tǒng)古典文獻(xiàn)整理工作者完成基礎(chǔ)的校對、標(biāo)引等工作，大大減輕了勞動量［23］。

2022年10月，全國古籍整理出版規(guī)劃領(lǐng)導(dǎo)小組發(fā)布《2021-2035年國家古籍工作規(guī)劃》（以下簡稱《規(guī)劃》），將國家古籍?dāng)?shù)字化工程作為重大工程，鼓勵(lì)古籍?dāng)?shù)字化與古籍整理出版工作同步推進(jìn)、緊密結(jié)合，推動古籍整理出版數(shù)字化資源庫建設(shè)。在將來，學(xué)界和業(yè)界需投入到古典文獻(xiàn)全數(shù)字化整理平臺的建設(shè)中，搭建出從文本識別、標(biāo)引、校對到編輯出版全數(shù)字化、智能化的整理流程。通過技術(shù)賦能，為我國古籍整理工作者減輕負(fù)擔(dān)。如文獻(xiàn)中包含有大量難以識別的罕用字、異體字等，未來古典文獻(xiàn)漢字庫建設(shè)完成后，將極大滿足古典文獻(xiàn)整理與出版工作中的實(shí)際需求。

5.2? ?以知識工程技術(shù)建立新型古典文獻(xiàn)知識庫

古籍?dāng)?shù)字平臺的演化不僅給古籍整理工作帶來了重大轉(zhuǎn)變，還推動了古典文獻(xiàn)知識庫的建立。傳統(tǒng)古典文獻(xiàn)整理工作的目的是將古典文獻(xiàn)轉(zhuǎn)化為便于當(dāng)代人閱讀的文本，不僅投入人力大、耗費(fèi)時(shí)間長，而且由于大多數(shù)文獻(xiàn)內(nèi)容豐富、艱深，難以被普通大眾接受。因此，傳統(tǒng)的古典文獻(xiàn)整理工作主要服務(wù)對象為學(xué)術(shù)研究者。若想使我國古典文獻(xiàn)中蘊(yùn)含的文化知識財(cái)富被普羅大眾接受，就必須適應(yīng)時(shí)代需求，轉(zhuǎn)換古典文獻(xiàn)整理的成果形態(tài)。古籍全文數(shù)據(jù)庫和圖文數(shù)據(jù)庫，大多保留了古籍面貌，便于用戶檢索瀏覽。

近年來，隨著人工智能與信息技術(shù)的進(jìn)一步發(fā)展，古籍?dāng)?shù)字化工作有了新理念、新方法。古籍自動分詞［14］、智能標(biāo)引、專名識別［21］、地理信息［24］、知識工程和知識圖譜［25］等技術(shù)，可以將古籍的文字轉(zhuǎn)化為結(jié)構(gòu)化的知識數(shù)據(jù)，構(gòu)建新型的古典文獻(xiàn)知識庫。這樣，蘊(yùn)藏在古典文獻(xiàn)中的深層知識可以用諸多算法技術(shù)挖掘出來，以可視化技術(shù)呈現(xiàn)在人們眼前。此外，知識庫革新了知識的構(gòu)建方式，改變了古籍知識純文本的顯示方式，將古典文獻(xiàn)中的知識以可視化、可交互化的方式重組，不僅便于學(xué)術(shù)研究者更加直觀、便利地獲取古典文獻(xiàn)中的知識，也可以增加大眾讀者對傳統(tǒng)文獻(xiàn)的接受度。

國際上古典文獻(xiàn)知識庫的建設(shè)自20世紀(jì)末便已經(jīng)開始，“中國歷代人文傳記資料庫（CBDB）”于20世紀(jì)90年代建立，是全球較早進(jìn)行數(shù)據(jù)結(jié)構(gòu)化的古籍知識資料庫［26］。目前，國內(nèi)對于古典文獻(xiàn)知識庫的建設(shè)已經(jīng)有了部分探索性工作，主要包括圖書目錄數(shù)據(jù)庫、專題知識庫、專書知識庫、綜合性知識庫等。古籍目錄數(shù)據(jù)庫主要收錄圖書的作者、年代、品級等信息，服務(wù)于題錄檢索，相對比較成熟［27］；專題知識庫主要有人物傳記數(shù)據(jù)庫和歷史地理數(shù)據(jù)庫，記錄歷史人物的生平、社交關(guān)系、古代歷史電子地圖等信息；專書知識庫則專注于某部古籍，進(jìn)行內(nèi)容的深度標(biāo)注與結(jié)構(gòu)化。在這一方面的實(shí)踐中，已經(jīng)有了一些較為顯著的成果，主要集中在高校的科研單位中。南京師范大學(xué)開發(fā)的“《資治通鑒》知識庫檢索平臺”引入古籍自動分析技術(shù)和GIS技術(shù)，建設(shè)了數(shù)字人文知識庫，解決了人名、地名的“異名同指”和“同名異指”問題，通過對文本進(jìn)行深度加工和知識重組，提取相關(guān)信息并進(jìn)行本體化處理，實(shí)現(xiàn)了基于語義的檢索和閱讀瀏覽功能［28］。北京大學(xué)數(shù)字人文中心開發(fā)的“《宋元學(xué)案》知識圖譜系統(tǒng)”將書中的人物、時(shí)間、地點(diǎn)等要素及它們之間的復(fù)雜語義關(guān)系提取出來構(gòu)建為知識圖譜，并具備可視化展現(xiàn)、交互式瀏覽、語義查詢等功能［26］。古典文獻(xiàn)數(shù)據(jù)庫從數(shù)字化到智能化的轉(zhuǎn)變，意味其實(shí)現(xiàn)了功能性提升與結(jié)構(gòu)性轉(zhuǎn)變。

目前我國還缺少大而全的綜合性古典文獻(xiàn)知識庫，這一工作在探索期過后便能提上建設(shè)議程，一旦建設(shè)完成，將會大大推動古典文獻(xiàn)在大眾層面的普及工作。目前已建立的古典文獻(xiàn)知識庫，已能夠?yàn)楣诺湮墨I(xiàn)研究者和整理工作者帶來了思維方式和研究范疇的新變。一方面，以“知識庫”形態(tài)為建設(shè)目標(biāo)本身就是對傳統(tǒng)古典文獻(xiàn)整理工作的一次革新；另一方面，古典文獻(xiàn)知識庫能作為輔助研究工具，為相關(guān)研究者提供便利的知識獲取途徑。大數(shù)據(jù)帶來的數(shù)據(jù)聚類化研究，也能便于對傳統(tǒng)的知識進(jìn)行驗(yàn)證與修正。因此，建立在古典文獻(xiàn)數(shù)字化整理上的古典文獻(xiàn)知識庫，會成為信息化時(shí)代的古典文獻(xiàn)研究、傳播的新工具、新途徑。

6? ?結(jié)語

在數(shù)字化高速發(fā)展的信息時(shí)代，我們面臨著文獻(xiàn)的爆炸式增長，海量的古籍文本也亟待數(shù)字化。本文梳理了國內(nèi)外的研究發(fā)展趨勢，得出無論是文獻(xiàn)數(shù)字化，還是文獻(xiàn)內(nèi)容的結(jié)構(gòu)化表示與內(nèi)容分析挖掘，都需要計(jì)算技術(shù)和方法的基礎(chǔ)性支撐，并從這一趨勢出發(fā)，提出了“計(jì)算文獻(xiàn)學(xué)”這一學(xué)科性的術(shù)語。計(jì)算文獻(xiàn)學(xué)強(qiáng)調(diào)“計(jì)算”在當(dāng)前和今后將成為文獻(xiàn)學(xué)研究的重要技術(shù)和方法論，明確了該學(xué)科與“數(shù)字文獻(xiàn)學(xué)”和“文獻(xiàn)計(jì)量學(xué)”的貫穿式繼承關(guān)系。本文還指出，計(jì)算文獻(xiàn)學(xué)具有大數(shù)據(jù)和計(jì)算的兩大特色，其學(xué)科交叉性也不只體現(xiàn)在學(xué)科知識和技術(shù)的交叉，更是研究方法與研究人員的交叉合作，可以將其置于“計(jì)算人文”的下位學(xué)科。最后，本文提出，要以計(jì)算文獻(xiàn)學(xué)為框架，打通古籍?dāng)?shù)字化整理和出版的全流程，構(gòu)建新型古籍知識庫，從而活化利用中國的古代文獻(xiàn)。

“計(jì)算文獻(xiàn)學(xué)”這一術(shù)語的提出，僅僅是一個(gè)起點(diǎn)。我們希望這個(gè)術(shù)語能夠促進(jìn)文獻(xiàn)學(xué)特別是傳統(tǒng)文獻(xiàn)學(xué)的技術(shù)方法升級，傳承和發(fā)掘傳統(tǒng)文獻(xiàn)中的精華；在大數(shù)據(jù)的視野下對文獻(xiàn)做出數(shù)千年的歷時(shí)分析與國內(nèi)外多語言文獻(xiàn)的橫向分析；吸引更多的年輕學(xué)者加入到這個(gè)領(lǐng)域中來，培養(yǎng)更多的復(fù)合型人才，助力民族偉大復(fù)興。

致謝：馮志偉教授、鄭永曉教授和審稿人的寶貴修改意見。

參考文獻(xiàn)：

［1］? 王余光，汪濤，陳幼華.中國文獻(xiàn)學(xué)理論研究百年概述［J］.圖書與情報(bào)，1999（3）：12-19.

［2］? 楊清虎.數(shù)字文獻(xiàn)學(xué)的概念與問題［J］.黑龍江史志，2013（13）：203.

［3］? 趙蓉英，許麗敏.文獻(xiàn)計(jì)量學(xué)發(fā)展演進(jìn)與研究前沿的知識圖譜探析［J］.中國圖書館學(xué)報(bào)，2010，36（5）：60-68.

［4］? 黃一農(nóng).從E考據(jù)看避諱學(xué)的新機(jī)遇：以己卯本《石頭記》為例［J］.文史，2019（2）：205-222.

［5］? 黃水清.人文計(jì)算與數(shù)字人文：概念、問題、范式及關(guān)鍵環(huán)節(jié)［J］.圖書館建設(shè)，2019（5）：68-78.

［6］? Ted Brandhorst.The Educational Resources Information Center（ERIC）［A］.Allen Kent.Ed.Encyclopedia of Library and Information Science［C］.New York：Marcel Dekker，Inc.，1993，51（S14）：208-225.

［7］? Babu B Ramesh，Ann oBrien.Web OPAC interfaces： an overview［J］.The electronic library，2000，18（5）：316-330.

［8］? 鄭永曉.古籍?dāng)?shù)字化對學(xué)術(shù)的影響及其發(fā)展方向［J］.社會科學(xué)管理與評論，2006（4）：81-88.

［9］? Cole F T，Eales N B.The History of Comparative Anatomy［J］.Science Progress，1917（11）：578-596.

［10］? Hulme E W.Statistical bibliography in relation to the growth of modern civilization：two lectures delivered in the University of Cambridge in May，1922.author，1923.

［11］? Pritchard Alan.Statistical Bibliography or Bibliometrics［J］.Journal of Documentation，1969，25（4）：248-349.

［12］? Garfield，Eugene.Citation indexes for science：A new dimension in documentation through association of ideas［J］.Science，1955，122（3159）：108-111.

［13］? 郭利敏，葛亮，劉悅?cè)?卷積神經(jīng)網(wǎng)絡(luò)在古籍漢字識別中的應(yīng)用實(shí)踐［J］.圖書館論壇，2019，39（10）：142-148.

［14］? 石民，李斌，陳小荷.基于CRF的先秦漢語分詞標(biāo)注一體化研究［J］.中文信息學(xué)報(bào)，2010，24（2）：39-45.

［15］? 雷玨瑩，侯西龍，王曉光.數(shù)智時(shí)代古籍?dāng)?shù)字化再造的邏輯與進(jìn)路［J］.數(shù)字人文研究，2022，2（2）：46-56.

［16］? 邱均平，段宇鋒，陳敬全，等.我國文獻(xiàn)計(jì)量學(xué)發(fā)展的回顧與展望［J］.科學(xué)學(xué)研究，2003（2）：143-148.

［17］? 楊海崢，王軍.對新時(shí)代古籍人才培養(yǎng)的思考［J］.出版廣角，2022（12）：6-10，30.

［18］? Mills Kathy A.Big data for qualitative research［J］.Taylor & Francis，2019.

［19］? Zhang M，Yan S，Pan W，et al.Phylogenetic evidence for Sino-Tibetan origin in northern China in the Late Neolithic［M］.Nature，2019，569（7754）：112-115.

［20］? 鄭永曉.傳承與超越：數(shù)字文獻(xiàn)學(xué)的未來發(fā)展芻議——兼論日本文獻(xiàn)數(shù)字化對我國之啟示［J］.中國比較文學(xué)，2019（4）：2-13.

［21］? 黃水清，王東波.古文信息處理研究的現(xiàn)狀及趨勢［J］.圖書情報(bào)工作，2017，61（12）：43-49.

［22］? Bin Li，Yiguo Yuan，Jingya Lu，et al.The First International Ancient Chinese Word Segmentation and POS Tagging Bakeoff：Overview of the EvaHan 2022 Evaluation Campaign［A］.In Proceedings of the Second Workshop on Language Technologies for Historical and Ancient Languages［C］.Marseille，F(xiàn)rance.European Language Resources Association，2022：135-140.

［23］? 劉石.文獻(xiàn)學(xué)的數(shù)字化轉(zhuǎn)向［J］.文學(xué)遺產(chǎn)，2022（6）：10-13.

［24］? 張萍.地理信息系統(tǒng)（GIS）與中國歷史研究［J］.史學(xué)理論研究，2018（2）：35-47，158.

［25］? 楊海慈，王軍.宋代學(xué)術(shù)師承知識圖譜的構(gòu)建與可視化［J］.數(shù)據(jù)分析與知識發(fā)現(xiàn)，2019，3（6）：109-116.

［26］? 包弼德，王宏蘇，傅君勱，等.“中國歷代人物傳記資料庫”（CBDB）的歷史、方法與未來［J］.數(shù)字人文研究，2021，1（1）：21-33.

［27］? 李文琦，王鳳翔，孫顯斌，等.歷代史志目錄的數(shù)據(jù)集成與可視化［J］.中國圖書館學(xué)報(bào)，2023，49（1）：82-98.

［28］? 常博林，萬晨，李斌，等.基于詞和實(shí)體標(biāo)注的古籍?dāng)?shù)字人文知識庫的構(gòu)建與應(yīng)用——以《資治通鑒·周秦漢紀(jì)》為例［J］.圖書情報(bào)工作，2021，65（22）：134-142.

作者簡介：李斌，男，南京師范大學(xué)文學(xué)院副教授；王東波，男，南京農(nóng)業(yè)大學(xué)信息管理學(xué)院教授。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

計(jì)算文獻(xiàn)學(xué)的概念、范疇及前景

計(jì)算文獻(xiàn)學(xué)的概念、范疇及前景