亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        古籍?dāng)?shù)字化國(guó)內(nèi)外研究現(xiàn)狀分析與路徑構(gòu)建研究

        2023-11-24 06:34:34李世鈺張向先侯力鐵張承坤
        現(xiàn)代情報(bào) 2023年11期
        關(guān)鍵詞:數(shù)據(jù)庫(kù)內(nèi)容研究

        李世鈺 張向先 沈 旺* 侯力鐵 張承坤

        (1.吉林大學(xué)商學(xué)與管理學(xué)院,吉林 長(zhǎng)春 130012;2.長(zhǎng)春中醫(yī)藥大學(xué)基礎(chǔ)醫(yī)學(xué)院,吉林 長(zhǎng)春 130117)

        古籍是歷史文化中誕生的重要文化資源,具有豐富的內(nèi)容和多樣的形式。然而隨著時(shí)間的推移,古籍的保存受到傳統(tǒng)記錄、表現(xiàn)和傳承方法的限制,其在長(zhǎng)期保存上面臨一定的困難與問(wèn)題,如古籍載體的老化與破損、古代帝王陪葬制度、戰(zhàn)爭(zhēng)或政治因素導(dǎo)致的損毀、古籍轉(zhuǎn)運(yùn)過(guò)程中的佚失、轉(zhuǎn)謄抄錄過(guò)程中受個(gè)人意見等影響造成的刪減等,所以對(duì)古籍實(shí)施數(shù)字化工程是保護(hù)內(nèi)容完整的重要方式。

        1949年,羅貝托布薩首先使用計(jì)算機(jī)輔助編輯了大型書籍《托馬斯著作索引》,而在國(guó)內(nèi),王曉光等[1]首先引入數(shù)字人文研究,開始對(duì)敦煌壁畫進(jìn)行圖像底層視覺(jué)的標(biāo)注。伴隨著數(shù)字人文研究的興起,古籍?dāng)?shù)字化的研究?jī)?nèi)涵逐漸豐富,一方面現(xiàn)代信息技術(shù)的應(yīng)用可以將古代文獻(xiàn)轉(zhuǎn)化為電子媒體的形式,通過(guò)光盤、網(wǎng)絡(luò)等介質(zhì)保存和傳播[2];另一方面針對(duì)數(shù)字化后古籍的挖掘與利用也日益增多。目前在世界很多國(guó)家和地區(qū)都開展了古籍?dāng)?shù)字化的相關(guān)項(xiàng)目[3-5],涉及范圍廣泛,包括少數(shù)民族古籍、中醫(yī)古籍、單書等內(nèi)容。

        可以看出,古籍?dāng)?shù)字化研究?jī)?nèi)涵日趨豐富。因此,本文旨在通過(guò)國(guó)內(nèi)外古籍?dāng)?shù)字化主要研究?jī)?nèi)容,并構(gòu)建古籍?dāng)?shù)字化研究路徑,明確古籍?dāng)?shù)字化的研究意義與現(xiàn)實(shí)作用。同時(shí)從古籍?dāng)?shù)字化研究路徑視角出發(fā),藉由國(guó)內(nèi)目前相對(duì)于國(guó)外古籍?dāng)?shù)字化研究的差距,找尋我國(guó)古籍?dāng)?shù)字化的不足與缺陷,探索我國(guó)古籍?dāng)?shù)字化未來(lái)的研究思路與發(fā)展方向。

        1 國(guó)內(nèi)外古籍?dāng)?shù)字化研究現(xiàn)狀分析

        研究借助國(guó)內(nèi)外古籍?dāng)?shù)字化已發(fā)表文獻(xiàn),利用文獻(xiàn)計(jì)量的方法挖掘古籍?dāng)?shù)字化研究的目的、主題與發(fā)展階段,結(jié)合代表性文獻(xiàn)內(nèi)容分析,歸納古籍?dāng)?shù)字化文獻(xiàn)的方法、技術(shù)與特點(diǎn),為古籍?dāng)?shù)字化路徑建設(shè)提供參考依據(jù)。

        1.1 文獻(xiàn)數(shù)據(jù)獲取

        研究以“古籍?dāng)?shù)字化”為主題方向在國(guó)內(nèi)外文獻(xiàn)數(shù)據(jù)庫(kù)中進(jìn)行檢索,但英語(yǔ)中缺乏“古籍”一詞的對(duì)應(yīng)表述,且古籍又包含善本、手稿、拓片等形式,同時(shí)古籍?dāng)?shù)字化項(xiàng)目的目的多以實(shí)現(xiàn)古籍的數(shù)字化,構(gòu)建古籍?dāng)?shù)據(jù)庫(kù)與數(shù)字圖書館為成果以供整理完成的古籍可以進(jìn)一步應(yīng)用,因此本文使用古籍形式,即“古籍(Ancient book、Ancient Work)”“善本(Rare Book、Rare Edition)”“手稿(Manuscript)”“拓片(Rubbing)”“碑(Inscription、Monumental Writing)”與數(shù)字化相關(guān)形式,即“數(shù)字化(Digitization)”“數(shù)據(jù)庫(kù)(Database)”“數(shù)字圖書館(Digital Library)”組合作為檢索關(guān)鍵詞。即中文檢索式形為:SU=(古籍 &數(shù)字化)、SU=(古籍 &數(shù)據(jù)庫(kù))、SU=(古籍 &數(shù)字圖書館)等15個(gè)組合出的檢索式。英文檢索形為:TS=(Ancient Book AND Digitization)、TS=(Ancient Book AND Database)、TS=(Ancient Book AND Digital Library)等24個(gè)組合后的檢索式在中國(guó)知網(wǎng)數(shù)據(jù)庫(kù)CNKI和Web of Science核心合集數(shù)據(jù)庫(kù)進(jìn)行文獻(xiàn)檢索,檢索日期為2023年1月4日。在我國(guó)國(guó)家標(biāo)準(zhǔn)化管理委員會(huì)2008年頒布的《古籍著錄規(guī)則》[6]中,古籍主要是指1912年以前在中國(guó)書寫或印刷的、具有中國(guó)古典裝訂形式的書籍。由于手稿等載體形式在現(xiàn)代文獻(xiàn)同樣具備,同時(shí)為了保證國(guó)內(nèi)外古籍研究時(shí)間的一致性,研究根據(jù)《古籍著錄規(guī)則》,剔除掉了研究對(duì)象為1912年之后的文獻(xiàn)以及不符合古籍?dāng)?shù)字化主題的文獻(xiàn),最終得到了中文文獻(xiàn)3 222篇,英文文獻(xiàn)998篇。

        圖1統(tǒng)計(jì)了國(guó)內(nèi)外古籍?dāng)?shù)字化文獻(xiàn)年份分布,根據(jù)統(tǒng)計(jì)結(jié)果可以看出,國(guó)內(nèi)外關(guān)于古籍?dāng)?shù)字化的研究均始于20世紀(jì)80年代中期,在這一時(shí)間數(shù)字化技術(shù)開始逐步得到應(yīng)用,并在當(dāng)前已得到了廣泛發(fā)展。隨著國(guó)內(nèi)數(shù)字化技術(shù)的不斷發(fā)展和國(guó)內(nèi)文化遺產(chǎn)保護(hù)意識(shí)的提高,數(shù)字化古籍研究在國(guó)內(nèi)得到了更多的關(guān)注和支持,國(guó)內(nèi)關(guān)于古籍?dāng)?shù)字化的研究自2000年后增長(zhǎng)迅速。國(guó)外研究總體呈現(xiàn)上升趨勢(shì),伴隨著學(xué)者和社會(huì)公眾對(duì)于數(shù)字資源需求的增加,相關(guān)研究在2015年后穩(wěn)定在每年100篇左右,這表明古籍?dāng)?shù)字化研究逐步演變?yōu)槿蛐缘内厔?shì),同時(shí)也表明數(shù)字化技術(shù)在保護(hù)和傳承文化遺產(chǎn)方面具有重要意義,得到了國(guó)際社會(huì)的廣泛認(rèn)可和支持。無(wú)論是國(guó)內(nèi)還是國(guó)外的相關(guān)研究,在近些年都逐漸趨于穩(wěn)定,其計(jì)量結(jié)果可以為古籍?dāng)?shù)字化路徑建設(shè)提供成熟的依據(jù)。

        圖1 國(guó)內(nèi)外古籍?dāng)?shù)字化文獻(xiàn)年份分布

        1.2 文獻(xiàn)計(jì)量分析

        研究利用詞頻統(tǒng)計(jì)、關(guān)鍵詞共現(xiàn)與聚類及Timeline視圖的方式對(duì)古籍?dāng)?shù)字化文獻(xiàn)的研究目的、主題與階段進(jìn)行挖掘。

        1.2.1 研究目的分析

        文獻(xiàn)標(biāo)題是文獻(xiàn)研究目的最直接的體現(xiàn),能夠包含論文的研究方法、對(duì)象與領(lǐng)域等內(nèi)容。研究利用Jieba分詞,使用Python語(yǔ)句對(duì)檢索到的文獻(xiàn)標(biāo)題進(jìn)行分詞與去停用詞處理,并進(jìn)行詞頻統(tǒng)計(jì),最終分別生成了國(guó)內(nèi)外文獻(xiàn)標(biāo)題的詞云圖如圖2、圖3所示,用以對(duì)當(dāng)前古籍?dāng)?shù)字化研究的廣泛目的予以展現(xiàn)。

        受檢索式影響,中文詞匯“古籍”“數(shù)字化”“圖書館”“數(shù)據(jù)庫(kù)”以及英文詞匯“digital”“database”“ancient”等詞占比較高,但仍有許多其他詞匯具有較高的詞頻,反映出了國(guó)內(nèi)外古籍?dāng)?shù)字化的主要研究目的。

        首先,圖2結(jié)果顯示,在國(guó)內(nèi)研究進(jìn)展中,古籍整理與保護(hù)是古籍?dāng)?shù)字化重要的研究目的。古籍整理與保護(hù)是保證古籍存續(xù)的重要工作,而數(shù)字化可使古籍脫離傳統(tǒng)紙質(zhì)等載體的桎梏,減少古籍的物理?yè)p耗,顯然古籍?dāng)?shù)字化已成為古籍長(zhǎng)久保存的重要手段。而在圖3國(guó)外文獻(xiàn)的標(biāo)題詞云圖中可以看出,“recognition(認(rèn)出)”“identification(識(shí)別)”等詞的高詞頻結(jié)果同樣說(shuō)明國(guó)外對(duì)于古籍完整性的重視,反映出對(duì)于古代文獻(xiàn)保護(hù)與傳承的努力。

        同時(shí)圖2和圖3反映出,國(guó)內(nèi)外古籍?dāng)?shù)字化研究有各自側(cè)重的研究對(duì)象。我國(guó)的古籍?dāng)?shù)字化研究涉及到“中醫(yī)古籍”“民族古籍”等明顯有國(guó)內(nèi)文化特征的研究對(duì)象。而國(guó)外對(duì)“手稿”這一對(duì)象的研究相對(duì)較多,這與國(guó)外古籍多以手稿形式呈現(xiàn)有關(guān)。同時(shí),由于國(guó)外包含諸多國(guó)家和地區(qū),所以能夠看出國(guó)外的研究涉及對(duì)個(gè)別文化、文明與語(yǔ)種的研究。如詞云圖中體現(xiàn)的與中世紀(jì)(Medieval)時(shí)代和阿拉伯(Arabic)文化相關(guān)的研究。

        1.2.2 研究主題分析

        關(guān)鍵詞是一篇文獻(xiàn)中的核心詞匯,反映了論文研究中最核心的研究主題。通過(guò)對(duì)關(guān)鍵詞的計(jì)量,可以呈現(xiàn)相關(guān)研究的熱點(diǎn)方向。

        研究使用CiteSpace,以檢索文獻(xiàn)的關(guān)鍵詞作為標(biāo)簽進(jìn)行分析,得出“古籍?dāng)?shù)字化”研究主題下關(guān)鍵詞的共現(xiàn)結(jié)果。

        圖4和圖5展示了文獻(xiàn)檢索結(jié)果的關(guān)鍵詞共現(xiàn)圖。其中,節(jié)點(diǎn)越大,表明該關(guān)鍵詞出現(xiàn)的詞數(shù)越多,連線表示關(guān)鍵詞之間存在共現(xiàn)關(guān)系。由于獲取的文獻(xiàn),尤其是中文古籍?dāng)?shù)字化相關(guān)文獻(xiàn)數(shù)量較多,導(dǎo)致節(jié)點(diǎn)與連線相對(duì)密集,所以進(jìn)一步計(jì)算節(jié)點(diǎn)的中介中心性用于衡量其中介作用,中介中心性較高的節(jié)點(diǎn)處在多個(gè)其他節(jié)點(diǎn)中間,把持節(jié)點(diǎn)之間的連接通道,因此中介中心性大于0.1可以認(rèn)為是圖中的關(guān)鍵節(jié)點(diǎn)。圖4中,“數(shù)據(jù)庫(kù)”節(jié)點(diǎn)的中介中心性達(dá)到了0.33,“數(shù)字化”“圖書館”“古籍”“古籍整理”“中醫(yī)古籍”等節(jié)點(diǎn)的中介中心性也均大于0.1,說(shuō)明這些節(jié)點(diǎn)被廣泛提及。而在圖5的英文文獻(xiàn)關(guān)鍵詞中,“digital library(數(shù)字圖書館)”“cultural heritage(文化遺產(chǎn))”也均為中介中心性大于0.1的節(jié)點(diǎn)。

        圖4 國(guó)內(nèi)古籍?dāng)?shù)字化文獻(xiàn)關(guān)鍵詞共現(xiàn)圖

        圖5 國(guó)外古籍?dāng)?shù)字化文獻(xiàn)關(guān)鍵詞共現(xiàn)圖

        除高中介中心性節(jié)點(diǎn)以外,高頻關(guān)鍵詞同樣作為關(guān)鍵詞共現(xiàn)中的重要節(jié)點(diǎn)出現(xiàn),如“古籍保護(hù)”“古籍整理”等文獻(xiàn)標(biāo)題中同樣高頻的詞匯,在關(guān)鍵詞中擁有100以上的高詞頻出現(xiàn)率,這進(jìn)一步佐證了針對(duì)文獻(xiàn)標(biāo)題的分析結(jié)果。而在標(biāo)題高頻詞與高中介中心性節(jié)點(diǎn)詞及它們的近義詞之外,如圖4中的“元數(shù)據(jù)”“數(shù)據(jù)挖掘”“古籍利用”,圖5中的“deep learning(深度學(xué)習(xí))”“convolutional neural network(卷積神經(jīng)網(wǎng)絡(luò))”“image segmentation(圖像分割)”等詞也均為各自共現(xiàn)圖中排名在前30以內(nèi)的高頻關(guān)鍵詞。

        可以看出,古籍?dāng)?shù)字化研究已開始多樣化發(fā)展,針對(duì)數(shù)據(jù)標(biāo)準(zhǔn),古籍內(nèi)容的挖掘與相關(guān)開發(fā)工作均有所開展,而國(guó)外在這一領(lǐng)域?qū)τ跈C(jī)器學(xué)習(xí)、深度學(xué)習(xí)等信息化技術(shù)有著相對(duì)更加具體的運(yùn)用。

        由國(guó)內(nèi)外關(guān)鍵詞共現(xiàn)結(jié)果可以看出,古籍?dāng)?shù)字化研究主題主要包含:①數(shù)字化技術(shù)的應(yīng)用,包括數(shù)字化技術(shù)在古籍文獻(xiàn)數(shù)字化、古籍整理、數(shù)字化圖書館建設(shè)等方面的應(yīng)用;②數(shù)據(jù)標(biāo)準(zhǔn)化研究,主要關(guān)注如何建立符合古籍?dāng)?shù)字化標(biāo)準(zhǔn)的著錄規(guī)則與分類規(guī)則,以方便數(shù)字化古籍?dāng)?shù)據(jù)的管理和共享;③信息技術(shù)在古籍?dāng)?shù)字化中的應(yīng)用,主要關(guān)注如何將信息技術(shù)手段如機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等運(yùn)用到古籍?dāng)?shù)字化的各個(gè)方面,以提高數(shù)字化效率和質(zhì)量。

        研究進(jìn)一步根據(jù)檢索結(jié)果的關(guān)鍵詞共現(xiàn)圖進(jìn)行了關(guān)鍵詞聚類,以發(fā)現(xiàn)古籍?dāng)?shù)字化相關(guān)研究中的主要研究主題與研究方向。圖6和圖7分別展示了國(guó)內(nèi)外研究關(guān)鍵詞的聚類結(jié)果,中文關(guān)鍵詞的聚類最終得到了147個(gè)類別,其中前17個(gè)類別的聚類關(guān)鍵詞數(shù)不少于5個(gè)。這17個(gè)類別的Silhouette(聚類平均輪廓值)均大于0.801。而國(guó)外文獻(xiàn)關(guān)鍵詞共得到158個(gè)聚類類別,其中前15個(gè)類別聚類的關(guān)鍵詞數(shù)量均不少于6個(gè)。這15個(gè)類別的Silhouette值均大于0.879。通常Silhouette值大于0.5即可認(rèn)為聚類結(jié)果是合理的,Silhouette值大于0.7即可認(rèn)為聚類結(jié)果是令人信服的??梢?,本研究對(duì)于國(guó)內(nèi)外研究關(guān)鍵詞的聚類結(jié)果具有較強(qiáng)的說(shuō)服力。

        圖7 國(guó)外古籍?dāng)?shù)字化文獻(xiàn)關(guān)鍵詞聚類圖

        通過(guò)左上角的參數(shù)可以看出,圖6 Modularity即模塊化參數(shù)為0.5993,圖7為0.842,說(shuō)明圖中各個(gè)節(jié)點(diǎn)的劃分效果較好。Weighted Mean Silhouette是用來(lái)衡量圖中集群同質(zhì)化程度的參數(shù),在圖6中達(dá)到0.8672,圖7達(dá)到0.9336,說(shuō)明集群同質(zhì)化效果良好。

        通過(guò)國(guó)內(nèi)外古籍?dāng)?shù)字化文獻(xiàn)關(guān)鍵詞聚類結(jié)果可以看出,雖然受檢索式影響導(dǎo)致“數(shù)據(jù)庫(kù)”等詞在文獻(xiàn)標(biāo)題與關(guān)鍵詞中都作為高詞頻出現(xiàn),但國(guó)內(nèi)聚類結(jié)果所出現(xiàn)的“數(shù)據(jù)庫(kù)”與“語(yǔ)料庫(kù)”及國(guó)外古籍?dāng)?shù)字化文獻(xiàn)關(guān)鍵詞聚類中排名靠前的“creating digital libraries(建立數(shù)字圖書館)”。“small museum(小型博物館)”等結(jié)果仍表明,古籍內(nèi)容挖掘及相關(guān)開發(fā)工作是當(dāng)前古籍?dāng)?shù)字化工作的重要方向,其能夠挖掘古籍文獻(xiàn)中的知識(shí)和信息,也是開展古籍內(nèi)容挖掘研究與開發(fā)利用服務(wù)的重要基礎(chǔ)。

        1.2.3 研究階段分析

        研究進(jìn)一步利用各年份的關(guān)鍵詞,制作了關(guān)鍵詞Timeline視圖,如圖8、圖9所示,用以反映時(shí)間軸推移下國(guó)內(nèi)外古籍?dāng)?shù)字化研究的發(fā)展趨勢(shì)。

        圖9 國(guó)外近年文獻(xiàn)關(guān)鍵詞Timeline時(shí)間視圖

        由圖8可以看出,國(guó)內(nèi)對(duì)于古籍?dāng)?shù)字化的研究始于對(duì)圖書館資源以及對(duì)于古籍?dāng)?shù)據(jù)庫(kù)的探索,中醫(yī)古籍是最早被關(guān)注的研究對(duì)象。古籍的整理、保護(hù)在20世紀(jì)末開始被廣泛提及,至21世紀(jì)初研究開始重視古籍的信息資源,開始了大量的古籍?dāng)?shù)字化轉(zhuǎn)化進(jìn)程,以達(dá)成存儲(chǔ)、修復(fù)等目的,同時(shí)用于規(guī)范古籍?dāng)?shù)字化資源的元數(shù)據(jù)條目也開始制定。在2010年左右,伴隨著信息化技術(shù)的發(fā)展,許多研究開始關(guān)注古籍的數(shù)據(jù)挖掘,古籍開始了由信息化到知識(shí)化的轉(zhuǎn)變。如今,知識(shí)圖譜等工具的運(yùn)用為古籍的進(jìn)一步知識(shí)服務(wù)與數(shù)字化推廣提供了新的技術(shù)與方式。

        圖9則在標(biāo)題分析與關(guān)鍵詞詞頻和聚類分析的基礎(chǔ)上,進(jìn)一步揭示了國(guó)外在古籍?dāng)?shù)字化研究中對(duì)于技術(shù)的不斷利用與迭代。在古籍?dāng)?shù)字化研究的早期即關(guān)注信息檢索與系統(tǒng)的構(gòu)建,相較于國(guó)內(nèi)也更早地將算法運(yùn)用到古籍?dāng)?shù)字化的研究中,包括圖像分割與機(jī)器學(xué)習(xí)的運(yùn)用,以及目前向深度學(xué)習(xí)的轉(zhuǎn)變,并在如今被廣泛運(yùn)用于作者、手寫體等古籍有關(guān)內(nèi)容的識(shí)別,完成對(duì)古籍的知識(shí)發(fā)現(xiàn)。

        1.3 文獻(xiàn)內(nèi)容分析

        通過(guò)總結(jié)文獻(xiàn)計(jì)量關(guān)于“古籍?dāng)?shù)字化”文獻(xiàn)研究目的、主題與階段的分析結(jié)果,可以看出古籍?dāng)?shù)字化研究主要有“研究對(duì)象選取”“數(shù)字化處理”“數(shù)字化存儲(chǔ)”“內(nèi)容深度挖掘”“古籍知識(shí)發(fā)現(xiàn)”“數(shù)字化平臺(tái)建設(shè)”“數(shù)字化整理”“數(shù)字化保護(hù)”“古籍著錄規(guī)則”“古籍分類規(guī)則”等主要研究方向。依據(jù)這些研究的特點(diǎn)及目的,本文進(jìn)一步將其總結(jié)歸類為“古籍?dāng)?shù)字化處理”“古籍?dāng)?shù)字化存儲(chǔ)”“古籍?dāng)?shù)字化標(biāo)準(zhǔn)”“古籍?dāng)?shù)字化利用”“古籍?dāng)?shù)字化服務(wù)”5類主要內(nèi)容,其對(duì)應(yīng)關(guān)系如表1所示。通過(guò)選取國(guó)內(nèi)外關(guān)于主要內(nèi)容相關(guān)的代表性文獻(xiàn)并進(jìn)行內(nèi)容剖析,可以發(fā)掘古籍?dāng)?shù)字化主要研究?jī)?nèi)容的側(cè)重點(diǎn)及相關(guān)技術(shù)方法。

        表1 古籍?dāng)?shù)字化研究的內(nèi)容類別與主要研究方向?qū)φ毡?/p>

        1.3.1 古籍?dāng)?shù)字化處理

        古籍?dāng)?shù)字化處理是古籍?dāng)?shù)字化的開始階段,關(guān)注重點(diǎn)在于將傳統(tǒng)古籍文本轉(zhuǎn)化為數(shù)字化文本形式。在這一階段需要選定古籍研究對(duì)象,以及使用掃描、拍照等方式形成數(shù)字化古籍文檔。

        在“研究對(duì)象選取”階段,國(guó)內(nèi)外古籍?dāng)?shù)字化的研究對(duì)象帶有明顯的地域特色與文化差異。我國(guó)的古籍?dāng)?shù)字化研究涉及“中醫(yī)古籍”“民族古籍”等明顯有國(guó)內(nèi)文化特征的研究對(duì)象。如《愛(ài)如生系列數(shù)據(jù)庫(kù)》《瀚堂典籍?dāng)?shù)據(jù)庫(kù)》等都針對(duì)《傷寒雜病論》《難經(jīng)》《黃帝內(nèi)經(jīng)》等中醫(yī)經(jīng)典古籍進(jìn)行了數(shù)字化處理[7]。民族古籍方面,陳汝模[8]在研究中論述了福建海上絲綢之路相關(guān)古籍的內(nèi)容、特征、原則及將其數(shù)字化后的意義,而對(duì)《齊民要術(shù)》《論語(yǔ)》等古籍的數(shù)字化也體現(xiàn)了國(guó)內(nèi)以傳統(tǒng)歷史典籍為研究對(duì)象的特點(diǎn)[9-10]。國(guó)外對(duì)于“Maunscript(手稿)”這一研究對(duì)象的數(shù)字化研究更為側(cè)重。Guido R等[11]針對(duì)500余份中世紀(jì)手稿,進(jìn)行了數(shù)字化與古籍分類工作。Ladewig S L等[12]使用了高分辨率成像設(shè)備,進(jìn)行《新約》手稿的數(shù)字化。

        “古籍?dāng)?shù)字化處理”形成數(shù)字化古籍文檔通常只作為古籍?dāng)?shù)字化相關(guān)研究的一個(gè)基礎(chǔ)步驟,很少作為研究重點(diǎn)。通常掃描、拍照一類形成數(shù)字化古籍圖像的方式應(yīng)當(dāng)是形成古籍?dāng)?shù)字化文檔的有效手段。焦佳琛等[13]在文獻(xiàn)中提到,掃描或拍照,并進(jìn)行糾偏、拼接、去污、裁切及水印等處理是目前形成古籍?dāng)?shù)字化文稿的重要方式,Choro K等[14]通過(guò)使用波蘭古代手稿照片對(duì)OCR(光學(xué)字符識(shí)別)手稿數(shù)字化的方法進(jìn)行測(cè)試,他們認(rèn)為,改進(jìn)古代手稿數(shù)字化的方法應(yīng)該具備適當(dāng)?shù)膾呙柙O(shè)備,高分辨率的掃描、無(wú)損壓縮、文檔圖像的手工校正、圖像的手工調(diào)平使文本水平排列、使用具有古詞匯的詞典等手段以保證稿件圖像的質(zhì)量。

        1.3.2 古籍?dāng)?shù)字化存儲(chǔ)

        “古籍?dāng)?shù)字化存儲(chǔ)”主要是保存已形成的數(shù)字化古籍內(nèi)容,以便于后續(xù)加以利用。目前已有的古籍?dāng)?shù)據(jù)庫(kù)項(xiàng)目中,山東大學(xué)建立了易學(xué)古籍?dāng)?shù)據(jù)庫(kù)[15],對(duì)易學(xué)古籍進(jìn)行收集、復(fù)制、影印等工作。數(shù)據(jù)庫(kù)共包括易學(xué)古籍總目數(shù)據(jù)庫(kù)、易學(xué)古籍全文數(shù)據(jù)庫(kù)以及易學(xué)古籍研究與知識(shí)圖譜數(shù)據(jù)庫(kù),不僅存儲(chǔ)了易學(xué)古籍?dāng)?shù)字化數(shù)據(jù),也為進(jìn)一步提供古籍服務(wù)奠定了基礎(chǔ)。鞠斐等[16]提出,基于中國(guó)版刻古籍紡織圖像的數(shù)據(jù)庫(kù)架構(gòu)設(shè)計(jì),以數(shù)字形式發(fā)布、存取和利用中國(guó)版刻古籍圖像。

        國(guó)外如以色列國(guó)家圖書館建立的“時(shí)間旅行”數(shù)據(jù)庫(kù),采用眾包的形式收集并數(shù)字化以色列歷史文獻(xiàn)[17]。印度同樣建立了國(guó)家手稿中心,用于存儲(chǔ)和保存印度數(shù)字化手稿文獻(xiàn)[18]。Abdelhaleem A等[19]構(gòu)建了一個(gè)數(shù)據(jù)庫(kù),其中包括伊斯蘭遺產(chǎn)項(xiàng)目(IHP)由302位不同作家撰寫的333份歷史手稿,用于研究各種手寫相關(guān)問(wèn)題,如文本識(shí)別、作者識(shí)別、文本預(yù)處理等問(wèn)題的研究。

        1.3.3 古籍?dāng)?shù)字化標(biāo)準(zhǔn)

        “元數(shù)據(jù)”一詞在關(guān)鍵詞中的高頻出現(xiàn),代表了大量的數(shù)字化古籍產(chǎn)生后所伴隨的規(guī)則演進(jìn)。當(dāng)前研究中的古籍?dāng)?shù)字化標(biāo)準(zhǔn)主要分為“古籍著錄規(guī)則”與“古籍分類規(guī)則”。

        我國(guó)擁有相對(duì)統(tǒng)一的古籍著錄規(guī)則,國(guó)家標(biāo)準(zhǔn)化管理委員會(huì)曾于2008年發(fā)布了《古籍著錄規(guī)則》[6],其元數(shù)據(jù)包括標(biāo)準(zhǔn)號(hào)、中文標(biāo)準(zhǔn)名稱、英文標(biāo)準(zhǔn)名稱、發(fā)布日期、實(shí)施日期、首次發(fā)布日期、標(biāo)準(zhǔn)狀態(tài)、復(fù)審確認(rèn)日期、計(jì)劃編號(hào)、代替國(guó)標(biāo)號(hào)、被代替國(guó)標(biāo)號(hào)、廢止時(shí)間、采用程度、國(guó)際標(biāo)準(zhǔn)分類號(hào)、中國(guó)標(biāo)準(zhǔn)分類號(hào)、標(biāo)準(zhǔn)類別、標(biāo)準(zhǔn)頁(yè)碼、標(biāo)準(zhǔn)價(jià)格(元)、主管部門、起草單位在內(nèi)的20項(xiàng)元數(shù)據(jù)標(biāo)準(zhǔn),這也成為我國(guó)目前古籍著錄的總體標(biāo)準(zhǔn)。但由于古籍內(nèi)容、種類繁多,也有學(xué)者研究設(shè)定專題古籍著錄規(guī)則。先巴[20]設(shè)定了藏文古籍著錄規(guī)則,在著錄細(xì)則上增加藏族古籍特點(diǎn)語(yǔ)義說(shuō)明和限定,如古籍語(yǔ)種限定為藏文、古籍主題按照藏族古籍主題詞分類等。國(guó)外的古籍編目系統(tǒng)相同普適性更強(qiáng),如OCLC聯(lián)機(jī)計(jì)算機(jī)圖書館可以收錄眾多國(guó)外文獻(xiàn)資源編目數(shù)據(jù)。Bannay O E等[21]還利用XML語(yǔ)言表示的元數(shù)據(jù)和手稿注釋構(gòu)建了阿拉伯手稿可視化平臺(tái),加上DC元數(shù)據(jù)集合MARC著錄格式等的利用,使得其適用性相對(duì)更強(qiáng),且有助于館際之間資源的交流與整合。

        在“古籍分類規(guī)則”研究中,“經(jīng)、史、子、集、叢”五部分類法在我國(guó)具有悠久的歷史,也適用于古籍的常規(guī)分類,部分研究會(huì)進(jìn)行“專題古籍分類規(guī)則”的設(shè)定與研究,但是普適性相對(duì)較差。國(guó)外關(guān)于古籍分類的分類法相對(duì)較少,但是由于計(jì)算機(jī)技術(shù)與信息技術(shù)的使用明顯提高,通過(guò)自動(dòng)識(shí)別、聚類等方法,能夠自動(dòng)提出對(duì)所獲取到的古籍?dāng)?shù)據(jù)的分類結(jié)果,但顯然這一結(jié)果也很難具有普適性,更換古籍?dāng)?shù)據(jù)很有可能帶來(lái)分類結(jié)果的不同。

        1.3.4 古籍?dāng)?shù)字化利用

        古籍?dāng)?shù)字化不是單純的形成數(shù)字文檔。更好地利用數(shù)字化古籍,完成古籍內(nèi)容的深度挖掘與研究,發(fā)揮數(shù)字化相對(duì)于傳統(tǒng)文本的優(yōu)勢(shì),是古籍?dāng)?shù)字化更高層級(jí)的意義與作用。

        目前,古籍?dāng)?shù)字化利用主要有以下方面:一是運(yùn)用“本體構(gòu)建”“機(jī)器學(xué)習(xí)”“圖像分割”等技術(shù)打破古籍原有文本組織結(jié)構(gòu),從而實(shí)現(xiàn)“內(nèi)容深度挖掘”與“古籍知識(shí)發(fā)現(xiàn)”。二是古籍的“數(shù)字化整理”與“數(shù)字化保護(hù)”,通過(guò)數(shù)字化過(guò)程更好地進(jìn)行古籍內(nèi)容保存。

        國(guó)外在近些年針對(duì)古籍?dāng)?shù)字化的研究采用了大量機(jī)器學(xué)習(xí)及圖像處理等技術(shù),從而完成古籍“內(nèi)容深度挖掘”。Chanda S等[22]利用CNN(卷積神經(jīng)網(wǎng)絡(luò))對(duì)法國(guó)國(guó)家檔案館所藏的14世紀(jì)初法國(guó)行政活動(dòng)文件進(jìn)行特征提取,并使用零次學(xué)習(xí)算法進(jìn)行了中世紀(jì)單詞的識(shí)別,結(jié)果達(dá)到了56.87%的識(shí)別準(zhǔn)確率。Avadesh M等[23]對(duì)古代梵文手稿進(jìn)行字母分割和圖像標(biāo)注,實(shí)現(xiàn)了對(duì)梵文手稿圖像的處理,并利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行梵文單詞的學(xué)習(xí)與識(shí)別,準(zhǔn)確率達(dá)到了93.32%。倪劼[24]在文獻(xiàn)中提出了基于流水模式的古籍漢字切分算法,該算法將古籍文獻(xiàn)圖像進(jìn)行預(yù)處理,然后用投影法與圖像形態(tài)學(xué)處理實(shí)現(xiàn)列切分,再在列基礎(chǔ)上進(jìn)行逐字切分,仿照水流的運(yùn)動(dòng)軌跡實(shí)現(xiàn)古籍中漢字的劃分?!肮偶R(shí)發(fā)現(xiàn)”多聚焦在對(duì)古籍進(jìn)行文本關(guān)聯(lián)以及本體構(gòu)建等研究。如周莉娜等[25]以唐詩(shī)為研究對(duì)象,構(gòu)建了“詩(shī)歌—詩(shī)人”本體模型以及“面向史學(xué)的時(shí)空經(jīng)歷本體模型”,并在此基礎(chǔ)上構(gòu)建了知識(shí)圖譜,從而挖掘并可視化出詩(shī)人與詩(shī)歌之間的關(guān)系,并解釋了詩(shī)人經(jīng)歷的時(shí)序變化特征。

        古籍?dāng)?shù)字化整理主要關(guān)注對(duì)古籍進(jìn)行審閱、校勘和注釋等工作,也是形成數(shù)字化古籍的前期必備工作。如張玉梅[26]按照寧夏舊方志存世價(jià)值以及時(shí)間順序等選擇進(jìn)行數(shù)字化的古籍版本,如存在破損等問(wèn)題則進(jìn)行按原內(nèi)容抄寫等手動(dòng)內(nèi)容補(bǔ)全工作。國(guó)外在古籍整理過(guò)程中,除了對(duì)古籍的物理性整理以及對(duì)古籍進(jìn)行編錄外,還會(huì)使用一定的計(jì)算機(jī)技術(shù)來(lái)輔助整理。早在1987年,Stringer G A等[27]便設(shè)計(jì)了程序?qū)Α都s翰·多恩詩(shī)集》進(jìn)行逐字審核,Kaoua R等[28]則構(gòu)建了一個(gè)有2 000多個(gè)從古籍中提取的插圖以及1 200多個(gè)注釋的數(shù)據(jù)集,并能夠利用該數(shù)據(jù)集對(duì)古籍中的插圖與注釋構(gòu)建對(duì)應(yīng)關(guān)系。

        古籍?dāng)?shù)字化保護(hù)是對(duì)古籍進(jìn)行數(shù)字化的重要作用與意義,將古籍轉(zhuǎn)化為數(shù)字形式存儲(chǔ),相比傳統(tǒng)載體顯然能夠保存更久的時(shí)間。黃俊[29]將江西圖書館館藏古籍進(jìn)行縮微管理,從而生成了古籍的縮微圖像庫(kù),盡可能地保存了古籍的內(nèi)容與原貌。譚小華[30]概述了重慶圖書館的古籍?dāng)?shù)字化保護(hù)工作,除掃描、拍攝形成古籍圖像之外,還對(duì)古籍進(jìn)行了普查登記,形成古籍普查檔案,方便古籍資料的查詢以及對(duì)原版古籍的保護(hù)。國(guó)外關(guān)于“古籍?dāng)?shù)字化保護(hù)”的研究中,古籍修復(fù)成為關(guān)注重點(diǎn)。Grosso A M D等[31]在研究中構(gòu)思了歷史手稿的有效數(shù)字化保存系統(tǒng),該系統(tǒng)可以實(shí)現(xiàn)手稿圖像的圖像采集、利用層壓技術(shù)實(shí)現(xiàn)手稿的圖像增強(qiáng),并在此基礎(chǔ)上進(jìn)行半自動(dòng)轉(zhuǎn)錄、學(xué)術(shù)編碼和語(yǔ)言分析功能的完善,從而提升了對(duì)載體老化的手稿內(nèi)容的分辨能力。

        1.3.5 古籍?dāng)?shù)字化服務(wù)

        古籍?dāng)?shù)字化服務(wù)是在新形式的數(shù)字化平臺(tái)下提供的有關(guān)數(shù)字化古籍的相關(guān)服務(wù),如檢索、問(wèn)答、古籍知識(shí)的可視化呈現(xiàn)等。隨著信息時(shí)代的到來(lái)與移動(dòng)終端的廣泛普及,古籍?dāng)?shù)字化平臺(tái)可以擴(kuò)展古籍宣傳及普及渠道,對(duì)古籍進(jìn)行新形式的展示,同時(shí)使得古籍研究得以利用信息化手段,實(shí)現(xiàn)進(jìn)一步的應(yīng)用開發(fā)。

        國(guó)內(nèi)外已有眾多對(duì)古籍?dāng)?shù)字化平臺(tái)的嘗試,如羅渝等[32]在西南師范大學(xué)出版社出版的《域外漢籍珍本文庫(kù)》基礎(chǔ)上構(gòu)建的“域外漢籍?dāng)?shù)字服務(wù)平臺(tái)”,收錄了境外40余個(gè)國(guó)家(地區(qū))近百余圖書館及個(gè)人所收藏的漢語(yǔ)珍本,可以提供閱讀與多條件檢索功能。傅寶珍[33]提出,通過(guò)構(gòu)建古籍VR閱讀系統(tǒng)、構(gòu)建古籍VR閱讀資源庫(kù)等方式以拓寬古籍閱讀渠道,加強(qiáng)古籍融媒體交互與知識(shí)服務(wù)能力。Russo G等[34]則在意大利那不勒斯的“Girolamini圖書館”創(chuàng)建一個(gè)古籍和手稿“服務(wù)中心”,該“服務(wù)中心”可以使用物聯(lián)網(wǎng)和機(jī)器學(xué)習(xí)等技術(shù)對(duì)圖書館中數(shù)字化后的古籍進(jìn)行分類,從而為信息檢索提供依據(jù)。

        2 古籍?dāng)?shù)字化路徑構(gòu)建

        古籍?dāng)?shù)字化路徑的構(gòu)建有助于為古籍開發(fā)及傳承提供系統(tǒng)化的研究思路與方法,從而深入挖掘其中的文化內(nèi)涵和知識(shí)價(jià)值。因此,研究總結(jié)文獻(xiàn)分析所得出的古籍?dāng)?shù)字化主要內(nèi)容及其相關(guān)技術(shù)與方法,通過(guò)參考相關(guān)理論體系,梳理古籍?dāng)?shù)字化路徑框架,規(guī)劃路徑各模塊的執(zhí)行內(nèi)容,為古籍的保護(hù)和傳承提供有力支持,并為發(fā)現(xiàn)古籍?dāng)?shù)字化現(xiàn)有研究不足及未來(lái)發(fā)展方向提供新的視角。

        2.1 古籍?dāng)?shù)字化路徑框架分析

        伴隨著數(shù)字人文的興起,相關(guān)理論也逐步發(fā)展,這為古籍?dāng)?shù)字化路徑的框架搭建及要素名稱的確定提供了基礎(chǔ)。Anderson S等[35]提出發(fā)現(xiàn)(Discover)、收集(Collect)、比較(Compare)、發(fā)布(Deliver)和協(xié)作(Collaborate)的不同類型的原語(yǔ),稱為“五原語(yǔ)論”,這一理論成為當(dāng)前數(shù)字人文研究中應(yīng)用于考古工作進(jìn)程的階段劃分依據(jù)。劉煒等[36]則進(jìn)一步從五原語(yǔ)論及其二級(jí)原語(yǔ)出發(fā),對(duì)數(shù)字人文的技術(shù)體系展開探討,提出包括“數(shù)字化技術(shù)”“數(shù)據(jù)管理技術(shù)”“數(shù)據(jù)分析技術(shù)”“可視化技術(shù)”“VR/AR技術(shù)”“機(jī)器學(xué)習(xí)技術(shù)”6類技術(shù)在內(nèi)的數(shù)字人文技術(shù)體系,涵蓋了當(dāng)下數(shù)字人文發(fā)展的主要研究技術(shù)。

        相關(guān)理論的逐步發(fā)展拓展了古籍?dāng)?shù)字化研究的內(nèi)涵,數(shù)字化古籍得以被進(jìn)一步開發(fā)與利用。因此,研究參考五原語(yǔ)論與數(shù)字人文技術(shù)體系,對(duì)古籍?dāng)?shù)字化的主要研究?jī)?nèi)容進(jìn)行對(duì)應(yīng)匹配,完成古籍?dāng)?shù)字化路徑構(gòu)建。

        研究基于古籍?dāng)?shù)字化文獻(xiàn)分析結(jié)果的5類主要研究?jī)?nèi)容,即:“古籍?dāng)?shù)字化處理”“古籍?dāng)?shù)字化存儲(chǔ)”“古籍?dāng)?shù)字化標(biāo)準(zhǔn)”“古籍?dāng)?shù)字化利用”“古籍?dāng)?shù)字化控制”的相關(guān)代表性文獻(xiàn),進(jìn)一步總結(jié)了5個(gè)階段所運(yùn)用的技術(shù)與方法,如表2所示。

        通過(guò)將古籍?dāng)?shù)字化研究階段所運(yùn)用的技術(shù)與方法,與數(shù)字人文技術(shù)體系相匹配,可進(jìn)一步將古籍?dāng)?shù)字化研究?jī)?nèi)容與五原語(yǔ)論中的階段模式相對(duì)應(yīng),從而完成古籍?dāng)?shù)字化路徑框架的構(gòu)建。

        古籍?dāng)?shù)字化的基礎(chǔ)是完成古籍內(nèi)容由傳統(tǒng)載體向數(shù)字化載體的轉(zhuǎn)變?!肮偶?dāng)?shù)字化處理”中所用到的OCR技術(shù)、掃描技術(shù)等明顯對(duì)應(yīng)了數(shù)字人文技術(shù)體系中的“數(shù)字化技術(shù)”。以“數(shù)據(jù)庫(kù)”“語(yǔ)料庫(kù)”為代表的古籍“數(shù)字化存儲(chǔ)”則在構(gòu)建數(shù)據(jù)庫(kù)的過(guò)程中需要運(yùn)用“數(shù)據(jù)管理技術(shù)”進(jìn)行組織。根據(jù)數(shù)字人文技術(shù)體系與五原語(yǔ)論的對(duì)應(yīng)關(guān)系,這兩項(xiàng)技術(shù)分別對(duì)應(yīng)五原語(yǔ)論中的“發(fā)現(xiàn)”與“收集”兩個(gè)環(huán)節(jié),由于這一階段的目的是主要完成古籍由傳統(tǒng)載體向數(shù)字化形式的轉(zhuǎn)變與保存,研究將這一部分內(nèi)容總結(jié)為古籍?dāng)?shù)字化的“轉(zhuǎn)化”環(huán)節(jié)。

        伴隨著信息技術(shù)的發(fā)展,古籍?dāng)?shù)字化的內(nèi)核已不僅僅是轉(zhuǎn)換載體,而且也同樣經(jīng)歷著由信息化向知識(shí)化的轉(zhuǎn)變。古籍的“內(nèi)容深度挖掘”與“古籍知識(shí)發(fā)現(xiàn)”是新時(shí)期古籍研究的重點(diǎn)。這兩類研究對(duì)于數(shù)據(jù)統(tǒng)計(jì)、知識(shí)圖譜、卷積神經(jīng)網(wǎng)絡(luò)等技術(shù)均有涉及,其充分對(duì)應(yīng)了數(shù)字人文技術(shù)體系中的“數(shù)據(jù)分析技術(shù)”“可視化技術(shù)”與“機(jī)器學(xué)習(xí)技術(shù)”。在五原語(yǔ)論中,這3種技術(shù)都涉及“比較”這一原語(yǔ),意為“整合多樣性信息以便可以在數(shù)字人文之間比較信息?!币虼耍芯繉⑦@一環(huán)節(jié)定義為“重構(gòu)”,通過(guò)“重構(gòu)”古籍文本內(nèi)容,挖掘古籍內(nèi)容關(guān)聯(lián),獲取古籍內(nèi)容深層次信息。

        數(shù)字化古籍可通過(guò)“開發(fā)”與“利用”,依托古籍?dāng)?shù)字化平臺(tái)所形成“知識(shí)服務(wù)”。同時(shí)“古籍?dāng)?shù)字化利用”中的“數(shù)字化整理”與“數(shù)字化保護(hù)”也是數(shù)字化古籍的重要應(yīng)用目的。在古籍?dāng)?shù)字化平臺(tái)構(gòu)建中,對(duì)于“可視化技術(shù)”與“VR/AR技術(shù)”已有充分的探討,古籍在其整理與保護(hù)過(guò)程中,也開始對(duì)機(jī)器學(xué)習(xí)等現(xiàn)代化技術(shù)加以應(yīng)用,這3種技術(shù)集中對(duì)應(yīng)了五原語(yǔ)論中“比較”“發(fā)布”與“協(xié)作”3項(xiàng)原語(yǔ),體現(xiàn)出數(shù)字人文中“整理”“出版”與“分享”信息的現(xiàn)實(shí)作用。因此,研究將這一環(huán)節(jié)定義為“應(yīng)用”,反映古籍?dāng)?shù)字化的實(shí)際應(yīng)用層面。

        “古籍?dāng)?shù)字化標(biāo)準(zhǔn)”中的“古籍著錄規(guī)則”與“古籍分類規(guī)則”運(yùn)用了數(shù)字人文技術(shù)體系當(dāng)中的“數(shù)據(jù)管理技術(shù)”。在五原語(yǔ)論中,這項(xiàng)技術(shù)主要運(yùn)用于“發(fā)現(xiàn)”和“協(xié)作”兩個(gè)原語(yǔ)。“發(fā)現(xiàn)”主要對(duì)應(yīng)古籍的“轉(zhuǎn)化”環(huán)節(jié),而“協(xié)作”環(huán)節(jié)在“重構(gòu)”與“應(yīng)用”中均有涉及。事實(shí)上,古籍的“轉(zhuǎn)化”“重構(gòu)”與“應(yīng)用”也應(yīng)當(dāng)盡可能遵守古籍的數(shù)據(jù)管理規(guī)則,才有助于數(shù)據(jù)的全方位協(xié)同與利用,因此,研究將這一環(huán)節(jié)定義為古籍?dāng)?shù)字化的“控制”。

        通過(guò)對(duì)古籍?dāng)?shù)字化階段所運(yùn)用技術(shù)的疏理,可以看出古籍?dāng)?shù)字化主要研究?jī)?nèi)容與數(shù)字人文技術(shù)體系及五原語(yǔ)論之間存在對(duì)應(yīng)關(guān)系,如圖10所示。

        圖10 古籍?dāng)?shù)字化路徑梳理

        研究最終形成了以“轉(zhuǎn)化”“重構(gòu)”“應(yīng)用”和“控制”為4個(gè)核心環(huán)節(jié)的古籍?dāng)?shù)字化路徑框架,如圖11所示。

        圖11 古籍?dāng)?shù)字化路徑框架

        其中,“轉(zhuǎn)化”環(huán)節(jié)主要包含古籍研究對(duì)象的選取、數(shù)字化處理與數(shù)字化存儲(chǔ)3個(gè)部分,主要實(shí)現(xiàn)古籍由傳統(tǒng)載體向數(shù)字載體的轉(zhuǎn)換?!爸貥?gòu)”環(huán)節(jié)包含“內(nèi)容深度挖掘”“古籍知識(shí)發(fā)現(xiàn)”等內(nèi)容。其實(shí)現(xiàn)古籍內(nèi)容的多維度關(guān)聯(lián)關(guān)系發(fā)現(xiàn),實(shí)現(xiàn)知識(shí)發(fā)現(xiàn)與重組,是古籍實(shí)現(xiàn)數(shù)字化的重大優(yōu)勢(shì)?!皯?yīng)用”環(huán)節(jié)包含“數(shù)字化平臺(tái)建設(shè)”“數(shù)字化整理”與“數(shù)字化保護(hù)”等內(nèi)容,其主要關(guān)注古籍?dāng)?shù)字化后所能實(shí)現(xiàn)的功能與價(jià)值,實(shí)現(xiàn)古籍內(nèi)容的長(zhǎng)久性保護(hù)與現(xiàn)代化古籍信息傳播?!翱刂啤笔侵浮肮偶浺?guī)則”與“古籍分類規(guī)則”等的確立,利用“數(shù)據(jù)管理”等技術(shù)實(shí)現(xiàn)古籍?dāng)?shù)字化過(guò)程的規(guī)范化,為整合古籍?dāng)?shù)字化資源提供規(guī)則。

        2.2 古籍?dāng)?shù)字化路徑內(nèi)容規(guī)劃

        研究通過(guò)規(guī)劃古籍?dāng)?shù)字化路徑中的關(guān)鍵環(huán)節(jié)的執(zhí)行內(nèi)容,系統(tǒng)化古籍?dāng)?shù)字化的研究目的及可行方向。

        2.2.1 古籍?dāng)?shù)字化轉(zhuǎn)化內(nèi)容規(guī)劃

        古籍?dāng)?shù)字化轉(zhuǎn)化是古籍?dāng)?shù)字化全路徑的開始階段,也是后續(xù)路徑階段工作開展的基礎(chǔ)。在這一階段需要選取古籍研究對(duì)象,利用現(xiàn)代化技術(shù)轉(zhuǎn)換古籍載體,實(shí)現(xiàn)古籍在終端的數(shù)字化存儲(chǔ)。

        1)古籍資源的就近選取

        通過(guò)觀察古籍?dāng)?shù)字化相關(guān)文獻(xiàn)的量化分析結(jié)果可以看出,古籍?dāng)?shù)字化對(duì)象的選取具備地域特色與領(lǐng)域特色,這與研究所能接觸到的資源密切相關(guān)。我國(guó)的古籍資源繁復(fù),圖書館等眾多類型機(jī)構(gòu)都具有一定的古籍館藏資源。就近選取可獲取到的古籍資源,可以保證古籍?dāng)?shù)字化的完整性及研究人員專業(yè)知識(shí)的可信度。

        2)數(shù)字化處理技術(shù)的合理選擇

        考慮到古籍的年代性,部分古籍的原本載體可能較脆,也可能存在一定的破損,而不同技術(shù)的成像效果與適用環(huán)境也有不同,所以針對(duì)不同古籍選取不同轉(zhuǎn)化方式尤為重要。OCR技術(shù)可以實(shí)現(xiàn)古籍的大規(guī)模文本輸入,并實(shí)現(xiàn)古文字體字形向現(xiàn)代字體字形的轉(zhuǎn)換,是進(jìn)行文本挖掘等深度研究的基礎(chǔ),因此選取合適的圖片清晰度的成像方法也是進(jìn)行古籍?dāng)?shù)字化研究所必須考慮的問(wèn)題。

        3)古籍?dāng)?shù)據(jù)庫(kù)的規(guī)范化設(shè)計(jì)

        大多數(shù)數(shù)據(jù)庫(kù)是基于圖書館本身具有的館藏資源,或科研院所、數(shù)字化公司、眾包等方式形成,主要可以分為古籍全文數(shù)據(jù)庫(kù)、古籍電子索引和古籍書目數(shù)據(jù)庫(kù)[37],而其中以古籍全文數(shù)據(jù)庫(kù)建設(shè)較多,利用較為廣泛。

        古籍全文數(shù)據(jù)庫(kù)主要包含圖像型、文本型和圖文型3種類型[38],圖文型能夠提供轉(zhuǎn)譯及修復(fù)后的古籍內(nèi)容,也可通過(guò)展示古籍圖片留存古籍原有樣貌,同時(shí)為古籍內(nèi)容的對(duì)照提供依據(jù)??梢钥闯?,好的古籍?dāng)?shù)據(jù)庫(kù)應(yīng)能夠盡可能留存多樣式古籍形式以充分發(fā)揮其數(shù)據(jù)留存作用,實(shí)現(xiàn)古籍?dāng)?shù)據(jù)的存儲(chǔ)、組織與處理。同時(shí)能夠使用數(shù)據(jù)操作語(yǔ)言對(duì)數(shù)據(jù)庫(kù)進(jìn)行查詢、更新等相對(duì)完善的數(shù)據(jù)庫(kù)功能。

        古籍電子索引和古籍書目數(shù)據(jù)庫(kù)相較于古籍全文數(shù)據(jù)庫(kù)能更好地詮釋了古籍?dāng)?shù)據(jù)庫(kù)的數(shù)據(jù)規(guī)范問(wèn)題,對(duì)于大多數(shù)古籍?dāng)?shù)據(jù)庫(kù)來(lái)說(shuō),使用更為普適的元數(shù)據(jù)體系更有助于數(shù)據(jù)庫(kù)之間的互聯(lián)互通,并有助于跨數(shù)據(jù)庫(kù)的數(shù)據(jù)利用。當(dāng)然,個(gè)別專題數(shù)據(jù)庫(kù)需要根據(jù)已有主題設(shè)置不同的元數(shù)據(jù),用以保證數(shù)據(jù)的錄入。

        2.2.2 古籍?dāng)?shù)字化重構(gòu)內(nèi)容規(guī)劃

        古籍?dāng)?shù)字化重構(gòu)意在實(shí)現(xiàn)對(duì)古籍內(nèi)容的深度挖掘,發(fā)現(xiàn)隱藏知識(shí),實(shí)現(xiàn)對(duì)古籍所含知識(shí)的重新組織,從而有助于更加深入地、多維度地了解古籍。

        1)實(shí)體識(shí)別

        實(shí)體是古籍中的重要信息載體,通常以名詞的形式出現(xiàn),如人名、地名、機(jī)構(gòu)、藥材等,是挖掘隱藏知識(shí)、找尋古籍關(guān)系的基礎(chǔ)。挖掘古籍中的實(shí)體,需要從古籍電子文檔中找尋有意義的命名實(shí)體。相對(duì)于應(yīng)用已經(jīng)較為廣泛且成熟的英語(yǔ)與現(xiàn)代漢語(yǔ),中文古籍面臨著傳統(tǒng)字體與語(yǔ)法的障礙。因此,在這一過(guò)程中,除了足夠的領(lǐng)域語(yǔ)料之外,還需要結(jié)合自然語(yǔ)言處理技術(shù)與歷史學(xué)者、古文學(xué)者的學(xué)術(shù)經(jīng)驗(yàn),將計(jì)算機(jī)與人工融合,實(shí)現(xiàn)語(yǔ)義關(guān)系的處理,并對(duì)同一實(shí)體的不同表述進(jìn)行統(tǒng)一,從而完成實(shí)體的抽取。

        2)屬性對(duì)應(yīng)

        屬性是對(duì)實(shí)體更細(xì)節(jié)的解釋,可以實(shí)現(xiàn)對(duì)實(shí)體的全面介紹,通??梢宰鳛橐粋€(gè)句子中的表語(yǔ)出現(xiàn),如人物的年齡、籍貫、藥物的藥性等。在古籍中,實(shí)體通常不會(huì)獨(dú)立存在,而是會(huì)在上下文中予以一定的介紹,因此屬性對(duì)于實(shí)現(xiàn)古籍的重構(gòu)至關(guān)重要,豐富的屬性可以為古籍提供打破原有結(jié)構(gòu)的敘事維度,從更多的視角入手對(duì)古籍進(jìn)行深層次剖析。

        3)關(guān)系抽取

        關(guān)系提供了實(shí)體之間的聯(lián)系,同樣也是眾多自然語(yǔ)言處理任務(wù)的基礎(chǔ),可以作為句子中的賓語(yǔ)等形式存在。關(guān)系能夠揭示古籍中實(shí)體之間的關(guān)聯(lián),在特定的語(yǔ)義結(jié)構(gòu)中,能夠加深對(duì)實(shí)體所處環(huán)境的理解。同時(shí),對(duì)古籍實(shí)現(xiàn)關(guān)系抽取,也是對(duì)古籍實(shí)現(xiàn)進(jìn)一步應(yīng)用,輔助古籍?dāng)?shù)字化平臺(tái)實(shí)現(xiàn)應(yīng)用任務(wù),如在線問(wèn)答、文本注釋等的基礎(chǔ)。

        2.2.3 古籍?dāng)?shù)字化應(yīng)用內(nèi)容規(guī)劃

        古籍?dāng)?shù)字化應(yīng)用需要依托于系統(tǒng)、平臺(tái)的建設(shè)或新興的信息化手段。隨著信息時(shí)代的到來(lái)與移動(dòng)終端的廣泛普及,古籍?dāng)?shù)字化平臺(tái)可以擴(kuò)展古籍宣傳及普及渠道,對(duì)古籍進(jìn)行新形式下的展示,同時(shí)使得古籍研究得以利用信息化手段,實(shí)現(xiàn)對(duì)古籍的整理、保護(hù)與進(jìn)一步的應(yīng)用開發(fā)。

        1)多維度敘事

        古籍?dāng)?shù)字化平臺(tái)是古籍進(jìn)行現(xiàn)代化內(nèi)容展示的主要載體,基于古籍的內(nèi)容重構(gòu),數(shù)字化平臺(tái)可以從多維度對(duì)古籍內(nèi)容進(jìn)行新形式呈現(xiàn)。牛力等[39]在文章中提出“時(shí)間敘事”“空間敘事”“鎖鏈型敘事”等6種檔案數(shù)據(jù)故事結(jié)構(gòu)。我國(guó)史書自古也有“紀(jì)傳體”“國(guó)別體”“編年體”等區(qū)別,總體來(lái)看,古籍主要可以從“時(shí)間”“空間”以及“實(shí)體”3個(gè)維度對(duì)內(nèi)容進(jìn)行重新組織,而數(shù)字化后的古籍恰恰可以利用如知識(shí)圖譜與時(shí)間序列模型等,充分反映古籍中實(shí)體與實(shí)體之間的關(guān)系及隨時(shí)間的演化。因此,多維度的敘事模式可以更生動(dòng)地展現(xiàn)古籍重構(gòu)后所發(fā)現(xiàn)的隱藏知識(shí)內(nèi)容。

        2)宣傳與普及

        古籍?dāng)?shù)字化平臺(tái)起到讓公眾了解古籍內(nèi)容的重要作用。伴隨著終端的廣泛使用以及網(wǎng)絡(luò)廣泛而高效的信息連通,古籍?dāng)?shù)字化平臺(tái)的建設(shè)勢(shì)必成為公眾接觸古籍的內(nèi)容、價(jià)值及其誕生背景等的重要渠道。上海圖書館在古籍?dāng)?shù)字化平臺(tái)建設(shè)上一直廣受業(yè)內(nèi)好評(píng),如搭建的中文古籍聯(lián)合目錄與詢證平臺(tái),整合了官修目錄、史志目錄、藏書樓目錄等中的人名、地名等數(shù)據(jù),并在平臺(tái)中提供了內(nèi)容統(tǒng)計(jì)分析、時(shí)空及社會(huì)分析、相關(guān)可視化功能,實(shí)現(xiàn)古籍的聯(lián)合查詢、規(guī)范控制,對(duì)古籍的考證、語(yǔ)義關(guān)聯(lián)等研究提供了實(shí)用且有效的平臺(tái)??梢钥闯觯玫墓偶?dāng)?shù)字化平臺(tái),不僅能夠提供閱讀、搜索、詢證等多方面功能,同時(shí)可以實(shí)現(xiàn)古籍規(guī)范整理,減輕古籍搜尋與閱讀難度,從而提升公眾對(duì)于古籍的了解效率。

        3)保護(hù)與修復(fù)

        傳統(tǒng)古籍面臨著載體老化、破損等問(wèn)題,時(shí)間的推移使得古籍的保護(hù)與修復(fù)問(wèn)題愈發(fā)緊迫。一方面,利用古籍?dāng)?shù)據(jù)庫(kù)可以對(duì)古籍進(jìn)行規(guī)范化整理,進(jìn)行字符編碼、元數(shù)據(jù)指定、古漢語(yǔ)對(duì)應(yīng)等工作,輔助傳統(tǒng)古籍的物理化保護(hù)與數(shù)字化古籍的規(guī)范存儲(chǔ);另一方面,借助計(jì)算機(jī)對(duì)古籍圖像等進(jìn)行處理,可以打破肉眼限制,對(duì)古籍的年份等進(jìn)行判定,豐富古籍背景信息,甚至對(duì)古籍內(nèi)容進(jìn)行修復(fù)。

        2.2.4 古籍?dāng)?shù)字化控制內(nèi)容規(guī)劃

        古籍的數(shù)字化控制階段為整個(gè)古籍?dāng)?shù)字化路徑提供參考標(biāo)準(zhǔn)與規(guī)則,從數(shù)據(jù)庫(kù)設(shè)計(jì)到古籍的內(nèi)容挖掘,從古籍?dāng)?shù)字化系統(tǒng)的建設(shè)到內(nèi)容保護(hù),都應(yīng)對(duì)標(biāo)準(zhǔn)體系加以控制,從而增加古籍?dāng)?shù)據(jù)互聯(lián)互通的可能性。

        1)著錄規(guī)則

        古籍由于其歷史的復(fù)雜性及數(shù)量眾多,導(dǎo)致題名復(fù)雜,用語(yǔ)繁復(fù),制定著錄規(guī)則可以明確古籍的著錄范圍、原則與條目,明確古籍的基本信息。因此,遵循標(biāo)準(zhǔn)化的古籍著錄規(guī)則可以盡可能地增強(qiáng)古籍著錄的普適性,減少館際古籍資源之間的引用壁壘,加強(qiáng)在古籍?dāng)?shù)據(jù)庫(kù)中的檢索覆蓋范圍,增加檢全率與檢準(zhǔn)率。目前,除去我國(guó)公布的標(biāo)準(zhǔn)化的《古籍著錄規(guī)則》外,北京大學(xué)圖書館也曾基于數(shù)字圖書館規(guī)范建設(shè)的目的,設(shè)立了一套古籍描述元數(shù)據(jù)著錄規(guī)則[40],與國(guó)家標(biāo)準(zhǔn)存在部分條目重疊的同時(shí),也為圖書館古籍著錄提供了參考。國(guó)外的古籍著錄研究多依托于圖書館等中心或機(jī)構(gòu),力求覆蓋世界上大部分的文獻(xiàn)資源編目數(shù)據(jù)。而對(duì)于如民族古籍、領(lǐng)域古籍等內(nèi)容,普適著錄規(guī)則難免出現(xiàn)不能完全適用的情況,但著錄條目也應(yīng)盡可能在標(biāo)準(zhǔn)化規(guī)則下開展。

        2)分類規(guī)則

        古籍分類同樣是古籍整理過(guò)程中的重要工作環(huán)節(jié),對(duì)題材與體裁均紛繁復(fù)雜的古籍進(jìn)行分類,可以輔助用戶在使用古籍?dāng)?shù)字化平臺(tái)時(shí)的檢索與瀏覽行為,節(jié)省目標(biāo)古籍查找時(shí)間,同時(shí)提升古籍?dāng)?shù)字化平臺(tái)中推薦算法應(yīng)用的準(zhǔn)確性,提升用戶可接觸到的古籍范圍。我國(guó)之前頒布了《中國(guó)古籍善本書目》,整體分為經(jīng)、史、子、集、叢5部,并在各部下方又分出類、屬等,屬之下又根據(jù)情況進(jìn)行了復(fù)分。而《全國(guó)古籍普查平臺(tái)分類表》則在經(jīng)史子集4部分類的基礎(chǔ)上,合并或新建類從部與新學(xué)部,用于解決“類書”與“叢書”之間的重復(fù)問(wèn)題以及近代部分古籍的劃分問(wèn)題。與著錄規(guī)則類似,采用標(biāo)準(zhǔn)化分類規(guī)則有助于古籍普查等工作,對(duì)用戶及研究人員提供更好的引導(dǎo)作用。應(yīng)盡可能在標(biāo)準(zhǔn)化規(guī)則基礎(chǔ)上根據(jù)自身資源特點(diǎn)進(jìn)行細(xì)致類目劃分,從而為古籍整理與古籍平臺(tái)設(shè)計(jì)提供一定的依據(jù)和范式。

        3 國(guó)內(nèi)古籍?dāng)?shù)字化研究不足

        研究結(jié)合國(guó)內(nèi)外古籍?dāng)?shù)字化研究現(xiàn)狀,基于古籍?dāng)?shù)字化路徑視角,從古籍?dāng)?shù)字化路徑各環(huán)節(jié)的規(guī)劃內(nèi)容角度分析當(dāng)前國(guó)內(nèi)古籍?dāng)?shù)字化的研究不足。

        3.1 古籍?dāng)?shù)字化信息技術(shù)應(yīng)用不足

        當(dāng)前我國(guó)的古籍?dāng)?shù)字化研究更多專注于古籍?dāng)?shù)字化平臺(tái)的構(gòu)建,但其僅為古籍?dāng)?shù)字化路徑中的一步,不論是從古籍的內(nèi)容正確識(shí)別、挖掘,還是從古籍的整理與保護(hù)等角度,都需要對(duì)古籍中的深層次內(nèi)容進(jìn)行探索與分析,如古籍模糊內(nèi)容識(shí)別分析、古籍內(nèi)容知識(shí)發(fā)現(xiàn)等。這些超出人工范疇目的的實(shí)現(xiàn)離不開各類數(shù)字化與信息化技術(shù)的應(yīng)用。國(guó)外在古籍?dāng)?shù)字化進(jìn)程中已經(jīng)充分利用各類機(jī)器學(xué)習(xí)技術(shù)等大量信息技術(shù)對(duì)古籍進(jìn)行文本和特征識(shí)別等工作,達(dá)到了較高的準(zhǔn)確率。國(guó)內(nèi)研究對(duì)于利用數(shù)字化和信息化技術(shù)來(lái)實(shí)現(xiàn)古籍內(nèi)容的挖掘和延伸仍存在不足,且涉及算法輔助古籍內(nèi)容的挖掘和識(shí)別的研究也多使用成熟算法,對(duì)算法的改進(jìn)仍有較大空間。

        3.2 古籍控制階段規(guī)則難以互通

        我國(guó)因歷史悠久,以及具有豐富的文化積累與文明體系,在時(shí)代變遷中產(chǎn)生了多民族、多主題、多形式的古籍,為我國(guó)的文化傳承提供了豐富素材與寶貴的財(cái)富。但同時(shí),我國(guó)古籍因其內(nèi)容與形式上的不同,同樣有很多學(xué)者在研究中構(gòu)建了專題古籍的元數(shù)據(jù)標(biāo)準(zhǔn),雖方便了古籍專題數(shù)據(jù)庫(kù)的構(gòu)建,卻也導(dǎo)致了多種古籍著錄規(guī)則的出現(xiàn),這為數(shù)據(jù)庫(kù)內(nèi)容互通帶來(lái)了一定的困難,使得統(tǒng)一的古籍著錄規(guī)則被利用率有限。

        同時(shí),國(guó)內(nèi)目前也缺乏一個(gè)能夠面向古籍整體進(jìn)行分類的標(biāo)準(zhǔn)。我國(guó)很多圖書館與數(shù)字化平臺(tái)會(huì)利用“經(jīng)、史、子、集”傳統(tǒng)類目以及中圖法等元數(shù)據(jù)標(biāo)準(zhǔn)對(duì)古籍進(jìn)行分類,但這些分類法并不完全面向古籍?dāng)?shù)據(jù)庫(kù)構(gòu)建且細(xì)化程度不夠,導(dǎo)致不同圖書館與平臺(tái)之間,同一古籍所處的類目不同。這同樣會(huì)導(dǎo)致館際數(shù)據(jù)互通的混亂,導(dǎo)致館際數(shù)據(jù)互通過(guò)程中的存儲(chǔ)資源的浪費(fèi)。

        3.3 古籍?dāng)?shù)字化平臺(tái)功能相對(duì)基礎(chǔ)

        從文獻(xiàn)分析結(jié)果可以看出,國(guó)內(nèi)目前構(gòu)建了許多古籍?dāng)?shù)字化平臺(tái),內(nèi)容豐富,完善了眾多圖書館館藏體系。但同時(shí),目前的古籍?dāng)?shù)字化平臺(tái)架構(gòu)大多基于閱讀和檢索的功能,所提供的服務(wù)相對(duì)基礎(chǔ)和單一。通過(guò)國(guó)外的古籍?dāng)?shù)字化平臺(tái)建設(shè)可以看出,很多平臺(tái)以及古籍?dāng)?shù)據(jù)庫(kù)都加入了數(shù)據(jù)統(tǒng)計(jì)與分析的能力,引入云計(jì)算、物聯(lián)網(wǎng)、機(jī)器學(xué)習(xí)等方法,直接利用平臺(tái)內(nèi)的古籍?dāng)?shù)據(jù),進(jìn)行大量深層次分析。顯然,將數(shù)字化平臺(tái)賦予這類技術(shù)更有利于將古籍資源與學(xué)術(shù)研究相結(jié)合,研究人員可以直接利用平臺(tái)中的資源進(jìn)行高學(xué)術(shù)層次的數(shù)據(jù)分析,這使得研究過(guò)程中的數(shù)據(jù)獲取與數(shù)據(jù)分析進(jìn)程都得到了簡(jiǎn)化,降低了研究過(guò)程中第三方軟件的培訓(xùn)過(guò)程與使用成本,有助于加強(qiáng)古籍研究成果的轉(zhuǎn)化。

        3.4 缺乏古籍資源的互聯(lián)互通

        國(guó)內(nèi)古籍?dāng)?shù)據(jù)庫(kù)面臨的一個(gè)主要問(wèn)題是古籍資源的互聯(lián)互通缺失,古籍?dāng)?shù)據(jù)庫(kù)之間缺乏有效的連接和交互,這導(dǎo)致了古籍資源的碎片化和孤立化。美國(guó)OCLC平臺(tái)為各個(gè)圖書館提供了一個(gè)統(tǒng)一的資源共享網(wǎng)絡(luò),使得圖書館之間能夠共享書目數(shù)據(jù)、館藏信息和數(shù)字資源,方便研究者查找并獲取全球范圍內(nèi)的圖書館藏書,不受地域限制,極大地拓寬了其獲取古籍資源的渠道和范圍。然而在國(guó)內(nèi),各個(gè)古籍?dāng)?shù)據(jù)庫(kù)之間缺乏標(biāo)準(zhǔn)化的數(shù)據(jù)格式和共享協(xié)議,導(dǎo)致了資源的孤立性和重復(fù)建設(shè)。研究者往往需要在多個(gè)數(shù)據(jù)庫(kù)之間進(jìn)行繁瑣的搜索和轉(zhuǎn)換操作,以獲取所需的古籍信息,限制了研究效率和深度。

        4 國(guó)內(nèi)古籍?dāng)?shù)字化研究發(fā)展方向

        4.1 堅(jiān)持古籍?dāng)?shù)字化轉(zhuǎn)化過(guò)程中的中國(guó)特色及學(xué)科融合

        我國(guó)的古籍?dāng)?shù)量繁多,種類、題材多樣,在古籍?dāng)?shù)字化對(duì)象選取中,應(yīng)堅(jiān)持選用“中國(guó)特色”古籍,進(jìn)一步深耕我國(guó)各類古籍文獻(xiàn)。同時(shí)也應(yīng)嘗試將研究目光投向稀有的、冷門的、瀕臨失傳的古籍文獻(xiàn),加快此類古籍的數(shù)字化進(jìn)程,為古籍的保護(hù)以及古籍?dāng)?shù)字化新的領(lǐng)域研究打下基礎(chǔ)。

        同時(shí),古籍?dāng)?shù)字化不能僅僅局限于對(duì)古籍的研究與理解,計(jì)算機(jī)技術(shù)、信息技術(shù)等多學(xué)科的內(nèi)容也需要在其中扮演重要角色。因此,在未來(lái)關(guān)于古籍?dāng)?shù)字化的研究與項(xiàng)目中,需要將文獻(xiàn)學(xué)、歷史學(xué)、計(jì)算機(jī)、信息資源管理乃至材料學(xué)等學(xué)科充分融合,對(duì)各學(xué)科技術(shù)實(shí)現(xiàn)充分利用,發(fā)揮古籍?dāng)?shù)字化所涉及的相關(guān)學(xué)科的長(zhǎng)處,才能更充分地實(shí)現(xiàn)古籍的整理與數(shù)字化轉(zhuǎn)化,盡可能地保留古籍所攜帶的信息。

        4.2 加強(qiáng)古籍?dāng)?shù)字化資源之間的互聯(lián)互通

        古籍?dāng)?shù)字化存儲(chǔ)所用的數(shù)據(jù)庫(kù)及重構(gòu)后的知識(shí)組織平臺(tái)是數(shù)字版古籍重要的資源載體,是對(duì)古籍進(jìn)一步研究利用的重要數(shù)據(jù)來(lái)源。未來(lái),應(yīng)當(dāng)在古籍?dāng)?shù)字化控制所涉及的元數(shù)據(jù)標(biāo)準(zhǔn)體系的基礎(chǔ)上對(duì)古籍存儲(chǔ)平臺(tái)的架構(gòu)進(jìn)行改善,同時(shí)盡可能設(shè)置數(shù)據(jù)庫(kù)之間的接口,探索建立互聯(lián)互通機(jī)制。通過(guò)制定共享標(biāo)準(zhǔn)、建立數(shù)據(jù)交換平臺(tái)和推動(dòng)合作共建,國(guó)內(nèi)的古籍?dāng)?shù)據(jù)庫(kù)可以實(shí)現(xiàn)資源的整合和共享,使研究者能夠更便捷地訪問(wèn)和利用豐富的古籍資源,推動(dòng)古籍研究的深入發(fā)展,以達(dá)成各古籍?dāng)?shù)據(jù)庫(kù)與知識(shí)平臺(tái)之間的互聯(lián)互通,實(shí)現(xiàn)資源共享,擴(kuò)大古籍?dāng)?shù)字化研究的數(shù)據(jù)可選擇范圍,從而保證數(shù)字化古籍的利用效率與研究的深化。

        4.3 完善古籍?dāng)?shù)字化控制階段各類標(biāo)準(zhǔn)體系

        在未來(lái),針對(duì)古籍的著錄、技術(shù)、管理和工作流程上,都可以進(jìn)一步開發(fā)并完善相關(guān)的標(biāo)準(zhǔn)體系,以及在已有標(biāo)準(zhǔn)下進(jìn)行說(shuō)明或細(xì)化。政府和權(quán)威機(jī)構(gòu)可以組織、領(lǐng)導(dǎo)相關(guān)工作,從而出臺(tái)規(guī)范化、統(tǒng)一化、實(shí)用性高的標(biāo)準(zhǔn)化體系,在保證體系得到細(xì)化的同時(shí),也保證其可借鑒性,從而促進(jìn)資源的廣泛利用。如果能夠在已有標(biāo)準(zhǔn)體系的基礎(chǔ)上設(shè)計(jì)充分細(xì)化的古籍著錄規(guī)則與分類體系,將有助于規(guī)范化古籍?dāng)?shù)字化研究,以相對(duì)統(tǒng)一的標(biāo)準(zhǔn)體系涵蓋專題古籍內(nèi)容,提升相關(guān)研究的借鑒與接續(xù)能力,有助于古籍?dāng)?shù)字化平臺(tái)、數(shù)據(jù)庫(kù)與圖書館之間的互聯(lián)互通與資源共享,加強(qiáng)數(shù)字化古籍的整體性與規(guī)范性。

        4.4 加強(qiáng)古籍?dāng)?shù)字化技術(shù)的開發(fā)與利用

        充分利用現(xiàn)有的信息化技術(shù),通過(guò)語(yǔ)義分析與關(guān)聯(lián),對(duì)古籍內(nèi)容進(jìn)行深層次探索,改進(jìn)算法使之更符合古籍語(yǔ)言規(guī)律,從而挖掘古籍內(nèi)容中的隱含信息,形成知識(shí)發(fā)現(xiàn)是當(dāng)前形勢(shì)下古籍?dāng)?shù)字化的一項(xiàng)重要任務(wù)。目前,知識(shí)圖譜等可視化模型的構(gòu)建越來(lái)越受到重視,其是知識(shí)發(fā)現(xiàn)的重要表現(xiàn)形式,所能生成的結(jié)構(gòu)化數(shù)據(jù)有助于被研究人員進(jìn)一步利用,為古籍?dāng)?shù)字化平臺(tái)的智能化功能開發(fā)提供研究基礎(chǔ)。而知識(shí)發(fā)現(xiàn)及其重組與可視化是挖掘、抽取并理解文本內(nèi)容的重要方式,也是深刻理解古籍含義的重要研究目的。有效的知識(shí)發(fā)現(xiàn)有助于古籍的整理與保護(hù),以及古籍中的重要信息和價(jià)值的傳承。因此,加強(qiáng)古籍?dāng)?shù)字化技術(shù)的開發(fā)與利用,充分結(jié)合信息技術(shù)以驅(qū)動(dòng)對(duì)古籍的知識(shí)發(fā)現(xiàn)是未來(lái)古籍?dāng)?shù)字化研究中的重要方向,是增強(qiáng)古籍研究利用、提升古籍價(jià)值的重要手段與途徑。

        4.5 開展面向用戶需求的古籍?dāng)?shù)字化平臺(tái)服務(wù)

        古籍?dāng)?shù)字化的目的,則是能夠?qū)崿F(xiàn)信息挖掘與知識(shí)發(fā)現(xiàn),保留并提升古籍價(jià)值,并為古籍的相關(guān)研究提供基礎(chǔ)。因此,通過(guò)面向用戶需求構(gòu)建新的數(shù)字化平臺(tái)應(yīng)用應(yīng)是未來(lái)古籍?dāng)?shù)字化平臺(tái)建設(shè)的重要方向。隨著技術(shù)的發(fā)展與研究的逐漸深入,未來(lái)有著大量的服務(wù)于用戶的應(yīng)用可以被推廣與使用到古籍?dāng)?shù)字化平臺(tái)上來(lái)。如輔助閱讀的古漢語(yǔ)字典、紀(jì)年換算以及論壇功能等,都可以輔助用戶對(duì)古籍進(jìn)行理解乃至交流,是現(xiàn)有基礎(chǔ)功能的深化形式。另外,為了方便信息挖掘與知識(shí)發(fā)現(xiàn),字/詞頻統(tǒng)計(jì)、主題聚類、地理空間模型、主體與關(guān)系關(guān)聯(lián)及相關(guān)內(nèi)容的可視化功能均可作為應(yīng)用被提供,減少研究中的時(shí)間及人力成本,充分滿足用戶需求。

        5 結(jié) 語(yǔ)

        本文利用Python以及CiteSpace等相關(guān)軟件與技術(shù),對(duì)國(guó)內(nèi)外古籍?dāng)?shù)字化主題文獻(xiàn)的研究現(xiàn)狀進(jìn)行了分析,找出了包括研究對(duì)象選取、數(shù)字化處理、數(shù)字化存儲(chǔ)在內(nèi)的10項(xiàng)古籍?dāng)?shù)字化主要研究?jī)?nèi)容。文章進(jìn)一步將古籍?dāng)?shù)字化主要研究?jī)?nèi)容與五原語(yǔ)論及數(shù)字人文技術(shù)體系相對(duì)應(yīng),構(gòu)建出了古籍?dāng)?shù)字化路徑,為古籍?dāng)?shù)字化工作及古籍進(jìn)一步開發(fā)提供參考。

        通過(guò)分析結(jié)果可以看出,我國(guó)目前關(guān)于古籍?dāng)?shù)字化的研究在技術(shù)運(yùn)用、平臺(tái)服務(wù)、標(biāo)準(zhǔn)化體系構(gòu)建與完善等方面還有進(jìn)步空間。在未來(lái),我國(guó)古籍?dāng)?shù)字化研究應(yīng)加強(qiáng)信息技術(shù)使用,提升學(xué)科融合能力,開發(fā)面向用戶的數(shù)字化平臺(tái)應(yīng)用,并進(jìn)一步完善古籍?dāng)?shù)字化標(biāo)準(zhǔn)體系,從而為古籍信息化挖掘與知識(shí)發(fā)現(xiàn)提供有效地幫助,為提升古籍利用價(jià)值以及更好地保護(hù)傳世古籍做出更大的貢獻(xiàn)。

        猜你喜歡
        數(shù)據(jù)庫(kù)內(nèi)容研究
        內(nèi)容回顧溫故知新
        FMS與YBT相關(guān)性的實(shí)證研究
        遼代千人邑研究述論
        視錯(cuò)覺(jué)在平面設(shè)計(jì)中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        EMA伺服控制系統(tǒng)研究
        數(shù)據(jù)庫(kù)
        主要內(nèi)容
        臺(tái)聲(2016年2期)2016-09-16 01:06:53
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        色窝窝在线无码中文| 国产精品沙发午睡系列| 奇米影视7777久久精品| 国产chinese男男gay视频网| 欧美中文字幕在线看| 国产精品区二区东京在线| 日韩精品综合一本久道在线视频| 亚洲人午夜射精精品日韩| 国产网站视频| 精品国产乱来一区二区三区| 国产一区二区三区亚洲avv| 国产免费内射又粗又爽密桃视频| 亚洲男同志gay 片可播放| 中文字幕日韩人妻高清在线| 亚洲精品女同一区二区三区| 欧美丰满熟妇bbb久久久| 白嫩少妇激情无码| 日本人妻少妇精品视频专区| 在线免费看91免费版.| 国产后入又长又硬| 中文文精品字幕一区二区| 性一交一乱一乱一视频亚洲熟妇| 亚洲天堂成人av影院| 最近最新中文字幕| 亚洲av不卡电影在线网址最新 | 亚洲精品久久久久久久蜜桃| 久久中文精品无码中文字幕| 国产经典免费视频在线观看| 亚洲国产精品国自产拍性色| 免费无码一区二区三区蜜桃| 精品国产一区二区三区AV小说| 亚洲中文字幕免费精品| 综合亚洲伊人午夜网| 少妇人妻偷人精品视蜜桃| 久久aⅴ无码av高潮AV喷| 日韩一区二区三区久久精品| 免费人成视频xvideos入口| 欧美日韩中文字幕久久伊人| 国产精品亚洲二区在线| 男人女人做爽爽18禁网站| 国产精品视频牛仔裤一区|