范桂紅 趙純洋
【摘要】? 文章利用Cite Space III軟件梳理CNKI數(shù)據(jù)庫(kù)中1998—2019年以古籍?dāng)?shù)字化為研究主題的314篇文獻(xiàn),繪制關(guān)鍵詞共現(xiàn)知識(shí)圖譜及關(guān)鍵詞共現(xiàn)時(shí)區(qū)視圖,發(fā)現(xiàn)古籍?dāng)?shù)字化研究、古籍?dāng)?shù)字化與數(shù)字人文、特殊古籍?dāng)?shù)字化、古籍?dāng)?shù)據(jù)庫(kù)建立與維護(hù)、古籍?dāng)?shù)字出版與著作權(quán)維護(hù)是當(dāng)前古籍?dāng)?shù)字化研究的五大前沿?zé)狳c(diǎn)。統(tǒng)籌規(guī)劃并制定統(tǒng)一標(biāo)準(zhǔn)、加強(qiáng)國(guó)際合作與交流、培養(yǎng)專(zhuān)業(yè)人才等將成為古籍?dāng)?shù)字化研究的未來(lái)研究趨勢(shì)。
【關(guān)? 鍵? 詞】古籍;古籍?dāng)?shù)字化;主題演化;文獻(xiàn)計(jì)量;Cite Space III
從商周甲骨到秦漢簡(jiǎn)帛,從經(jīng)史子集到清人十三經(jīng)疏,從唐宋敦煌寫(xiě)本到宋元明刻本古書(shū),古籍傳承著中華優(yōu)秀文化所蘊(yùn)含的精神血脈和道德規(guī)范。古籍?dāng)?shù)字化以現(xiàn)代信息技術(shù)為手段,將古籍中的語(yǔ)言文字或圖形符號(hào)轉(zhuǎn)化為電子數(shù)據(jù),分離了古籍的物質(zhì)形態(tài)和內(nèi)容,將古籍內(nèi)容制作成古籍書(shū)目、影像、數(shù)據(jù)庫(kù)等,為讀者提供古籍?dāng)?shù)字化閱讀及檢索服務(wù)。為探索1998—2019年古籍?dāng)?shù)字化領(lǐng)域的研究熱點(diǎn)及未來(lái)研究趨勢(shì),本文綜合考慮查全率、查準(zhǔn)率、可視化布局等相關(guān)因素,利用Cite Space III軟件對(duì)CNKI數(shù)據(jù)庫(kù)中古籍?dāng)?shù)字化研究相關(guān)的314篇文獻(xiàn)進(jìn)行關(guān)鍵詞共現(xiàn)知識(shí)圖譜、關(guān)鍵詞共現(xiàn)時(shí)區(qū)視圖量化分析,以揭示該領(lǐng)域的研究熱點(diǎn)。
一、研究方法與文獻(xiàn)選取
1.研究方法
Cite Space III軟件能夠確保理論研究及實(shí)踐應(yīng)用的針對(duì)性與可行性,避免因數(shù)據(jù)信息冗雜對(duì)研究結(jié)果的科學(xué)性與客觀性產(chǎn)生影響,可有效提升學(xué)術(shù)研究的專(zhuān)業(yè)性與實(shí)踐性,顯示與預(yù)測(cè)學(xué)科或某研究領(lǐng)域演進(jìn)過(guò)程及前沿?zé)狳c(diǎn),便于挖掘研究文獻(xiàn)所隱藏的知識(shí)信息及實(shí)現(xiàn)研究成果的數(shù)據(jù)分析與應(yīng)用推廣。
2.文獻(xiàn)選取
筆者在中國(guó)知網(wǎng)高級(jí)檢索界面設(shè)置“主題=‘古籍并含‘?dāng)?shù)字化”或者“主題=‘典籍并含‘?dāng)?shù)字化”(精確匹配)檢索詞,作者及作者單位、發(fā)表時(shí)間及更新時(shí)間、文獻(xiàn)來(lái)源、支持基金均設(shè)置為不限或者模糊狀態(tài),期刊選擇“核心期刊”“CSSCI”“CSCD”以保證論文質(zhì)量,得到相關(guān)文獻(xiàn)共計(jì)561條,文獻(xiàn)數(shù)據(jù)采集時(shí)間為2020年2月1日。筆者通過(guò)閱讀過(guò)濾了領(lǐng)導(dǎo)致辭、會(huì)議通知、新聞宣傳、卷首語(yǔ)等非學(xué)術(shù)性文獻(xiàn),獲得可供進(jìn)行數(shù)據(jù)分析的有效文獻(xiàn)314篇,并點(diǎn)擊“導(dǎo)出/參考文獻(xiàn)”“Refworks”選項(xiàng),將下載文獻(xiàn)以“.txt”格式導(dǎo)出。
二、研究結(jié)果與分析
關(guān)鍵詞是學(xué)術(shù)論文研究主題的精煉表達(dá),為了挖掘古籍?dāng)?shù)字化研究文獻(xiàn)的主題聚類(lèi)分布情況,筆者利用Cite SpaceⅢ軟件對(duì)314篇相關(guān)文獻(xiàn)進(jìn)行關(guān)鍵詞共現(xiàn)知識(shí)圖譜分析,獲得網(wǎng)絡(luò)核心區(qū)域(N=550)、連接點(diǎn)(E=543)、網(wǎng)絡(luò)中間中心勢(shì)(Density=0.036),聚類(lèi)Q值0.8303(>0.5)、S值0.7178(>0.5),得到聚類(lèi)結(jié)構(gòu)顯著且信度較高的知識(shí)圖譜。由圖1可見(jiàn)古籍?dāng)?shù)字化研究的知識(shí)聚類(lèi)主要集中在以下五個(gè)方面:一是古籍?dāng)?shù)字化研究,如出現(xiàn)古籍?dāng)?shù)字化(204,0)、數(shù)據(jù)標(biāo)準(zhǔn)(10,0)等關(guān)鍵詞詞頻;二是古籍?dāng)?shù)字化與數(shù)字人文,如出現(xiàn)古籍整理(82,0)、古籍保護(hù)(64,0)、數(shù)字人文(13,0)等關(guān)鍵詞詞頻;三是特殊古籍?dāng)?shù)字化,如出現(xiàn)中醫(yī)古籍(22,0)、農(nóng)業(yè)古籍(16,0)、少數(shù)民族古籍(10,0)、地方志(9,0)等關(guān)鍵詞詞頻;四是古籍?dāng)?shù)據(jù)庫(kù)建立與維護(hù),如出現(xiàn)古籍?dāng)?shù)據(jù)庫(kù)(56,0)、自動(dòng)檢索系統(tǒng)(11,0)、大數(shù)據(jù)(11,0)、古籍?dāng)?shù)字資源(8,0)、漢字處理(8,0)等關(guān)鍵詞詞頻;五是古籍?dāng)?shù)字出版與著作權(quán)維護(hù),如出現(xiàn)數(shù)字出版(12,0)等關(guān)鍵詞詞頻??梢钥吹?,隨著研究的深入,古籍?dāng)?shù)字化研究思路、研究角度、研究對(duì)象和研究方向逐漸拓展,研究?jī)?nèi)容和研究技術(shù)更為全面和多樣。
1.古籍?dāng)?shù)字化研究
古籍?dāng)?shù)字化研究主要圍繞古籍?dāng)?shù)字化政策、定義、原則、對(duì)象、標(biāo)準(zhǔn)體系等方面展開(kāi)闡述。其一,政策。國(guó)務(wù)院辦公廳印發(fā)了一系列文件指導(dǎo)古籍?dāng)?shù)字化建設(shè)工作,如2017年1月下發(fā)的《關(guān)于進(jìn)一步加強(qiáng)古籍保護(hù)工作的意見(jiàn)》、《關(guān)于實(shí)施中華優(yōu)秀傳統(tǒng)文化傳承發(fā)展工程的意見(jiàn)》等。其二,定義。一些學(xué)者認(rèn)為,“古籍?dāng)?shù)字化是以利用和保護(hù)古籍為目的,通過(guò)相關(guān)技術(shù)將傳世文獻(xiàn)中的語(yǔ)言文字或圖形符號(hào)轉(zhuǎn)化為能被計(jì)算機(jī)識(shí)別的數(shù)字符號(hào),進(jìn)而制成古籍書(shū)目、影像、全文數(shù)據(jù)庫(kù)的技術(shù)”[1]。其三,原則。數(shù)字化是古籍再生性保護(hù)的重要手段,應(yīng)遵循利用保真和整理為主的原則。其四,對(duì)象。對(duì)象主要為漢文古籍、少數(shù)民族古籍、金石拓片、甲骨、輿圖、中國(guó)境內(nèi)發(fā)現(xiàn)的外族遺文、老照片、年畫(huà)、宣傳畫(huà)等。其五,標(biāo)準(zhǔn)體系。標(biāo)準(zhǔn)體系主要是由實(shí)現(xiàn)古籍?dāng)?shù)字資源高質(zhì)量管理的技術(shù)標(biāo)準(zhǔn)、連接數(shù)字化項(xiàng)目各個(gè)機(jī)構(gòu)環(huán)節(jié)的管理標(biāo)準(zhǔn)及開(kāi)發(fā)高質(zhì)量古籍資源數(shù)據(jù)庫(kù)工作標(biāo)準(zhǔn)等標(biāo)準(zhǔn)體系構(gòu)成,具有目的性、層次性、協(xié)調(diào)性及比例性等特征。
2.古籍?dāng)?shù)字化與數(shù)字人文
數(shù)字人文是將高效計(jì)算網(wǎng)絡(luò)技術(shù)應(yīng)用于人文學(xué)科領(lǐng)域,以實(shí)踐、建模、推論或者本體論等手段對(duì)傳統(tǒng)人文學(xué)科進(jìn)行挖掘的方式。一些學(xué)者提出要將數(shù)字人文前沿實(shí)踐應(yīng)用到古籍?dāng)?shù)字化工作中,利用文本挖掘技術(shù)提取事先未知、容易理解、有潛在價(jià)值的知識(shí)[2];借助GIS技術(shù)進(jìn)行文獻(xiàn)知識(shí)與歷史進(jìn)程的靜態(tài)與動(dòng)態(tài)可視化分析;構(gòu)建基于網(wǎng)絡(luò)數(shù)據(jù)采集、專(zhuān)業(yè)數(shù)據(jù)庫(kù)獲取、詞頻分析的古籍文本信息可視化展示庫(kù);在全文人工標(biāo)注的基礎(chǔ)上,將大量電子化的文本集合為語(yǔ)料庫(kù),構(gòu)建自動(dòng)識(shí)別模型[3]?,F(xiàn)階段落地的數(shù)字人文項(xiàng)目有“名人手稿檔案關(guān)聯(lián)開(kāi)放數(shù)據(jù)集”“唐宋文學(xué)編年地圖”“絲綢之路歷史地理信息系統(tǒng)建設(shè)”“館藏甲骨實(shí)物與拓片數(shù)字化資源庫(kù)”“敦煌遺珍數(shù)字化資源庫(kù)”等。
3.特殊古籍的數(shù)字化
一些特殊古籍如中醫(yī)古籍、農(nóng)業(yè)古籍、少數(shù)民族古籍等的數(shù)字化再生性保護(hù)工作值得關(guān)注。中醫(yī)古籍以圖文形式記載上古春秋至明清時(shí)期中醫(yī)學(xué)發(fā)展理論成果和實(shí)踐操作經(jīng)驗(yàn),具有珍貴的史學(xué)研究?jī)r(jià)值和臨床指導(dǎo)意義。中醫(yī)古籍?dāng)?shù)字化建設(shè)起到保護(hù)紙質(zhì)古籍、挖掘科學(xué)信息、傳承中醫(yī)文化與知識(shí)的作用,目前已取得多項(xiàng)研究成果,如“中華醫(yī)藥典籍資源庫(kù)(測(cè)試版)”“中醫(yī)藥珍善本古籍多媒體數(shù)據(jù)庫(kù)”“中醫(yī)古籍資源數(shù)據(jù)庫(kù)及閱覽系統(tǒng)”等[4]。
農(nóng)業(yè)古籍記錄了古代農(nóng)業(yè)生產(chǎn)過(guò)程,反映了我國(guó)傳統(tǒng)農(nóng)業(yè)歷史特征,涉及農(nóng)、林、牧、副、漁各個(gè)方面。農(nóng)業(yè)古籍?dāng)?shù)字化是一項(xiàng)復(fù)雜的系統(tǒng)工程,要充分利用專(zhuān)家學(xué)者在目錄學(xué)、文獻(xiàn)學(xué)、歷史學(xué)等方面研究成果,建立以古籍?dāng)?shù)據(jù)化元數(shù)據(jù)標(biāo)準(zhǔn)為標(biāo)引,對(duì)書(shū)目數(shù)據(jù)進(jìn)行切分、提煉、處理,便于實(shí)現(xiàn)信息資源共建共享的書(shū)目信息數(shù)據(jù)庫(kù);構(gòu)建圖像、全文、圖文版類(lèi)型數(shù)據(jù);建立專(zhuān)題農(nóng)業(yè)古籍全文數(shù)據(jù)庫(kù);建立以書(shū)目檢索多樣化、參考咨詢(xún)服務(wù)、網(wǎng)絡(luò)連接、農(nóng)業(yè)古籍展示為特征的數(shù)字圖書(shū)館。比如《齊民要術(shù)》《農(nóng)政全書(shū)》《四民月令》《農(nóng)桑輯要》等農(nóng)業(yè)古籍的書(shū)目信息數(shù)據(jù)庫(kù)、圖文版類(lèi)型數(shù)據(jù)、全文數(shù)據(jù)庫(kù)建設(shè)就是典型案例。
少數(shù)民族古籍?dāng)?shù)字化是指將蘊(yùn)藏著少數(shù)民族情感的古籍文獻(xiàn)進(jìn)行整理與修復(fù)、數(shù)字化預(yù)處理及轉(zhuǎn)換存儲(chǔ)模式,同時(shí)結(jié)合軟硬件平臺(tái)建設(shè)和特色數(shù)據(jù)庫(kù)內(nèi)容建設(shè),以達(dá)到將少數(shù)民族傳統(tǒng)文化傳承下去的目的。少數(shù)民族古籍種類(lèi)繁多,載體形式多樣,如紙質(zhì)、石刻、木刻等,表現(xiàn)形式多樣,如民族歌舞、風(fēng)俗習(xí)俗、手工技藝等,利用數(shù)字化技術(shù)可使瀕危古籍孤本、善本、珍本通過(guò)平臺(tái)活態(tài)化展示。如楚雄州圖書(shū)館彝族文獻(xiàn)數(shù)據(jù)庫(kù)系統(tǒng)中的彝族古籍《彝族畢摩經(jīng)典譯注》《解冤經(jīng)》《祭龍經(jīng)》實(shí)現(xiàn)了彝族古籍書(shū)目信息數(shù)據(jù)庫(kù)、全文數(shù)據(jù)庫(kù)、電子圖書(shū)等數(shù)字化使用方式;西雙版納州民族宗教事務(wù)局的《西雙版納傣文傳統(tǒng)書(shū)法字體字庫(kù)》項(xiàng)目滿(mǎn)足了受眾傣族古籍?dāng)?shù)字化閱讀的需求。
4.古籍?dāng)?shù)據(jù)庫(kù)的建立與維護(hù)
古籍?dāng)?shù)據(jù)庫(kù)建設(shè)遵循創(chuàng)新、開(kāi)放、共享的發(fā)展理念,以數(shù)字化技術(shù)手段將古籍與現(xiàn)代學(xué)者智慧成果進(jìn)行整合,實(shí)現(xiàn)資源共享、知識(shí)增值、文化傳承,為讀者提供完整、可靠的史料文獻(xiàn)。當(dāng)前,古籍?dāng)?shù)據(jù)庫(kù)建設(shè)存在信息處理技術(shù)與標(biāo)準(zhǔn)、數(shù)據(jù)資源平臺(tái)質(zhì)量、信息資源共享實(shí)現(xiàn)等問(wèn)題[5]。針對(duì)以上問(wèn)題,首先,應(yīng)根據(jù)古籍選題設(shè)定數(shù)據(jù)庫(kù)建設(shè)目標(biāo)、分析古籍資源狀況和形成數(shù)據(jù)庫(kù)建設(shè)基本思路與內(nèi)容;其次,應(yīng)確定數(shù)據(jù)庫(kù)核心模塊,統(tǒng)一標(biāo)準(zhǔn),實(shí)現(xiàn)內(nèi)容資源多維化,標(biāo)引文獻(xiàn)資源、搜集特色資源、以技術(shù)串聯(lián)各類(lèi)資源,形成目錄檢索型、全文檢索型、知識(shí)庫(kù)型、大數(shù)據(jù)型等,以呈現(xiàn)古籍的史料價(jià)值、專(zhuān)業(yè)特色和歷史文化價(jià)值;再次,挖掘特色數(shù)據(jù),優(yōu)化資源結(jié)構(gòu),如《年畫(huà)擷英》《文淵閣四庫(kù)全書(shū)》《中國(guó)譜牒庫(kù)》《中國(guó)金石庫(kù)》等數(shù)據(jù)庫(kù)的建立就是典型案例。
5.古籍?dāng)?shù)字出版與著作權(quán)維護(hù)
古籍?dāng)?shù)字出版順應(yīng)“互聯(lián)網(wǎng)+”、大數(shù)據(jù)的技術(shù)潮流,積極探尋古籍?dāng)?shù)字出版中的著作權(quán)問(wèn)題。古籍?dāng)?shù)字出版工作雖然成果突出,但在開(kāi)發(fā)形式上以單一圖文采集方式為主,對(duì)全文檢索、數(shù)據(jù)統(tǒng)計(jì)等模塊功能開(kāi)發(fā)不夠;在數(shù)據(jù)質(zhì)量上因字庫(kù)和字體識(shí)別技術(shù)存在缺陷,導(dǎo)致多種文字呈現(xiàn)方式并存且出現(xiàn)章節(jié)錯(cuò)亂情況[6]。相關(guān)機(jī)構(gòu)在古籍?dāng)?shù)字出版過(guò)程中打破了傳統(tǒng)出版模式,發(fā)揮計(jì)算機(jī)處理技術(shù)優(yōu)勢(shì),使用Unicode編碼字符集、OCR移動(dòng)數(shù)據(jù)采集、自然語(yǔ)言處理與語(yǔ)義關(guān)聯(lián)、知識(shí)組織體系建設(shè)等方式實(shí)現(xiàn)古籍?dāng)?shù)字出版及數(shù)字資源合作。隨著古籍?dāng)?shù)字出版工作的開(kāi)展,古籍?dāng)?shù)字出版過(guò)程中的著作權(quán)保護(hù)問(wèn)題日益突出,包括古籍整理成果、古籍全文數(shù)據(jù)庫(kù)、古籍?dāng)?shù)字出版物等方面的保護(hù)等,對(duì)于這些問(wèn)題,可以采用加密、水印、權(quán)限設(shè)置、終端認(rèn)證、提升數(shù)字化出版人員著作權(quán)保護(hù)意識(shí)和構(gòu)建科學(xué)完善的古籍?dāng)?shù)字出版著作權(quán)保護(hù)機(jī)制等措施來(lái)解決[7]。比如《中華大典·農(nóng)業(yè)典》《明代科舉三錄》《茶書(shū)食經(jīng)》《明實(shí)錄》《清實(shí)錄》《永樂(lè)大典》等全文檢索版數(shù)字叢書(shū)在這些方面做得很好。
三、啟示與展望
為了更好地保護(hù)傳統(tǒng)經(jīng)典、傳承民族精神、弘揚(yáng)優(yōu)秀歷史文化,相關(guān)機(jī)構(gòu)和從業(yè)人員致力于保護(hù)古籍原貌和內(nèi)容再現(xiàn)的古籍?dāng)?shù)字化研究。但這一領(lǐng)域研究尚存在項(xiàng)目規(guī)劃單調(diào)缺乏連續(xù)性、格式種類(lèi)繁多缺乏統(tǒng)一性、專(zhuān)業(yè)人才匱乏導(dǎo)致數(shù)字化資源力量分散等問(wèn)題。鑒于此,運(yùn)用Cite Space III軟件繪制古籍?dāng)?shù)字化研究關(guān)鍵詞共現(xiàn)時(shí)區(qū)視圖(圖2)是解決相關(guān)問(wèn)題的有效策略。總的來(lái)說(shuō),把握古籍?dāng)?shù)字化的研究熱點(diǎn)和趨勢(shì),應(yīng)做到以下幾個(gè)方面。一是要統(tǒng)籌規(guī)劃并制定統(tǒng)一標(biāo)準(zhǔn),組建國(guó)家級(jí)古籍資源共享數(shù)據(jù)庫(kù)?,F(xiàn)有標(biāo)準(zhǔn)體系雖然多,但大多集中在元數(shù)據(jù)標(biāo)準(zhǔn)、著錄規(guī)則、格式轉(zhuǎn)化、文字編碼方面,與國(guó)際通用計(jì)算機(jī)識(shí)別兼容的標(biāo)準(zhǔn)存在差距,致使很多數(shù)字化后的古籍無(wú)法實(shí)現(xiàn)資源共享。二是要加強(qiáng)國(guó)際合作與交流。各國(guó)在古籍?dāng)?shù)字化過(guò)程中注重?cái)?shù)據(jù)標(biāo)準(zhǔn)規(guī)范化、開(kāi)發(fā)建設(shè)大量古籍?dāng)?shù)字資源,并注重對(duì)其他國(guó)家古籍?dāng)?shù)字化準(zhǔn)則的學(xué)習(xí),我國(guó)古籍?dāng)?shù)字化建設(shè)應(yīng)借鑒其他國(guó)家在專(zhuān)門(mén)數(shù)據(jù)檢索標(biāo)準(zhǔn)的制定、開(kāi)放資源獲取平臺(tái)的搭建、數(shù)據(jù)加工標(biāo)準(zhǔn)的制定等方面的先進(jìn)經(jīng)驗(yàn)。三是專(zhuān)業(yè)人才的培養(yǎng)。古籍?dāng)?shù)字化不僅是一個(gè)技術(shù)問(wèn)題,也是一個(gè)文化問(wèn)題和學(xué)術(shù)問(wèn)題,因此,需要大量文獻(xiàn)學(xué)、目錄學(xué)、版本學(xué)、計(jì)算機(jī)科學(xué)與技術(shù)等專(zhuān)業(yè)復(fù)合型人才對(duì)傳統(tǒng)紙質(zhì)古籍進(jìn)行??闭?、搶救、修復(fù)??偟膩?lái)說(shuō),應(yīng)充分利用古籍?dāng)?shù)字化研究成果,適時(shí)調(diào)整理論研究思路和研究方法,更新古籍整理思想觀念,逐步形成系統(tǒng)的古籍?dāng)?shù)字化整理體系。
|參考文獻(xiàn)|
[1]毛建軍. 古籍?dāng)?shù)字化的概念與內(nèi)涵[J]. 圖書(shū)館理論與實(shí)踐,2007(4):82-84.
[2]范佳. “數(shù)字人文”內(nèi)涵與古籍?dāng)?shù)字化的深度開(kāi)發(fā)[J]. 圖書(shū)館學(xué)研究,2013(3):29-32.
[3]李娜,包平. 面向數(shù)字人文的館藏方志古籍地名自動(dòng)識(shí)別模型構(gòu)建[J]. 圖書(shū)館,2018(5):67-73.
[4]曹霞,裴麗. 中醫(yī)古籍?dāng)?shù)字化建設(shè)實(shí)踐分析與應(yīng)對(duì)策略[J]. 圖書(shū)館學(xué)研究,2016(13):42-44+66.
[5]陳奕驍,馬愛(ài)梅. 科技類(lèi)古籍?dāng)?shù)據(jù)庫(kù)建設(shè)的創(chuàng)新思考與實(shí)踐——以《中國(guó)經(jīng)典水利史料數(shù)據(jù)庫(kù)》為例[J]. 科技與出版,2016(11):89-92.
[6]徐小濱. 中國(guó)古籍出版的探究—基于CNKI的考察[J]. 出版廣角,2016(20):47-49.
[7]畢翔,唐存琛. 本真與還原—古籍善本的數(shù)字化處理研究[J]. 高校圖書(shū)館工作,2018(6):47-50+55.