劉 煒
根據(jù)CNKI數(shù)據(jù),國(guó)內(nèi)迄今發(fā)表的近700篇以“數(shù)字人文”為主題的論文中,來(lái)自圖書情報(bào)檔案領(lǐng)域的文章超過(guò)60%。對(duì)比國(guó)外,Web of Science(Core Collection)收錄了1,590篇以“digital humanities”為 topic 的論文,其中Inforamtion Science Library Science 領(lǐng)域的文章約300篇,占比不到20%。這兩組數(shù)據(jù)顯示了國(guó)內(nèi)外數(shù)字人文研究學(xué)科來(lái)源的巨大差異。這說(shuō)明什么呢?雖然我們并不認(rèn)為國(guó)外的比例就是數(shù)字人文知識(shí)版圖的“完美”配方,但我們的比例一定是不合理的。人文學(xué)科的數(shù)字疆域,第一批居民主要來(lái)自圖書情報(bào)領(lǐng)域,怎么說(shuō)都不能讓人服氣。這其中固然有國(guó)內(nèi)圖書情報(bào)學(xué)者更喜歡追新的原因,其實(shí)也是國(guó)內(nèi)人文領(lǐng)域的學(xué)者尚未覺醒、尚未充分準(zhǔn)備好的結(jié)果。就像當(dāng)初美國(guó)舊金山發(fā)現(xiàn)了金礦,涌入的首批淘金者并沒(méi)有賺到錢,而各類服務(wù)業(yè)卻異軍突起。圖書館作為歷史文獻(xiàn)的主要保存機(jī)構(gòu),由于數(shù)字圖書館帶來(lái)先知先覺,理所當(dāng)然地成為數(shù)字人文最早的基礎(chǔ)設(shè)施建設(shè)者。
傳統(tǒng)的文獻(xiàn)考據(jù)和現(xiàn)代的文獻(xiàn)計(jì)量學(xué)都為數(shù)字人文作為一個(gè)整體的跨學(xué)科研究領(lǐng)域提供了方法論借鑒,書目控制帶來(lái)的規(guī)范控制借助于語(yǔ)義技術(shù),天然地為知識(shí)的形式化組織(采用本體技術(shù))和知識(shí)服務(wù)提供了可信的編碼基礎(chǔ),也為機(jī)器學(xué)習(xí)和人工智能的發(fā)展提供了寶貴的標(biāo)注語(yǔ)料庫(kù)。如果說(shuō)不了解目錄之學(xué)就無(wú)法窺知傳統(tǒng)學(xué)術(shù)門徑的話,那么不懂得以文獻(xiàn)計(jì)量為代表的統(tǒng)計(jì)分析方法就無(wú)法真正從事數(shù)字人文研究。當(dāng)然,如今數(shù)字人文的方法體系已經(jīng)得到了極大拓展,統(tǒng)計(jì)分析的對(duì)象從文獻(xiàn)深入到了語(yǔ)詞文本、社會(huì)關(guān)系、時(shí)空關(guān)系乃至經(jīng)過(guò)模型化之后的各類關(guān)系。但無(wú)論多么復(fù)雜,數(shù)據(jù)永遠(yuǎn)是基礎(chǔ),擁有大量數(shù)據(jù)的圖書館永遠(yuǎn)是人文研究的可靠伙伴。
圖書館要提供基于知識(shí)的服務(wù)還需要在數(shù)字圖書館的基礎(chǔ)上不斷提升水平,包括提升資源加工的語(yǔ)義化水平、提供分析統(tǒng)計(jì)及可視化工具。上海圖書館在國(guó)內(nèi)屬于數(shù)字人文的先知先覺者之一,借助于20多年前開始的持續(xù)不斷的數(shù)字化工作,大量的傳統(tǒng)文獻(xiàn)和特色文獻(xiàn)已被搬運(yùn)到數(shù)字世界,一旦數(shù)字人文的研究方法和相關(guān)技術(shù)得以成熟,很自然地占據(jù)了有利的跑道。
本專題的4篇文章雖然反映不了上海圖書館在數(shù)字人文領(lǐng)域積極開拓的全貌,但包含了一些新的思考。圖書館這類人類記憶機(jī)構(gòu)在數(shù)字人文發(fā)展過(guò)程中,固然由于其資源收藏而不可或缺,但真正使其無(wú)可替代的,并不是這些館藏資源,而是服務(wù)能力。在當(dāng)今以“ABCD”(人工智能、區(qū)塊鏈、云計(jì)算和大數(shù)據(jù))為特征的數(shù)字時(shí)代,“知識(shí)作為一種服務(wù)”(KaaS)才是圖書館的立身之本。本專題反映了數(shù)字人文平臺(tái)建設(shè)的兩大趨勢(shì):邊服務(wù)邊建設(shè)的開放眾包思想;從數(shù)字圖書館到“數(shù)據(jù)圖書館”的必要升級(jí)。這兩者是在“后數(shù)字圖書館時(shí)代”向數(shù)據(jù)驅(qū)動(dòng)型或數(shù)據(jù)密集型研究轉(zhuǎn)型時(shí)必須首先實(shí)現(xiàn)和超越的。
賀晨芝和張磊的《圖書館數(shù)字人文眾包項(xiàng)目實(shí)踐》[1]重點(diǎn)介紹了數(shù)字人文領(lǐng)域的眾包應(yīng)用現(xiàn)狀,以及上海圖書館自2016年以來(lái)的實(shí)踐經(jīng)驗(yàn)。上海圖書館開發(fā)了兩個(gè)獨(dú)立的眾包應(yīng)用,即歷史文獻(xiàn)眾包平臺(tái)和驗(yàn)證碼項(xiàng)目,都可以以SaaS方式開放給同行使用。
劉倩倩和夏翠娟的《家譜知識(shí)服務(wù)平臺(tái)眾包模式的設(shè)計(jì)與實(shí)現(xiàn)》[2]針對(duì)上海圖書館的家譜特藏,在原來(lái)提供基本查詢和關(guān)聯(lián)功能的數(shù)字人文平臺(tái)基礎(chǔ)上,開發(fā)了上傳家譜、在線識(shí)譜、在線修譜等功能,嘗試引入眾包模式不斷優(yōu)化系統(tǒng),并與用戶社區(qū)積極互動(dòng)、密切合作,使用戶不僅作為數(shù)據(jù)的消費(fèi)者,也作為平臺(tái)資源的貢獻(xiàn)者。
朱武信和夏翠娟的《命名實(shí)體識(shí)別在數(shù)字人文中的應(yīng)用——基于ETL的實(shí)現(xiàn)》[3]介紹了借助于專門詞典、批量自動(dòng)進(jìn)行名稱實(shí)體識(shí)別的ETL方法。該方法在上海圖書館的數(shù)字人文平臺(tái)建設(shè)中已普遍采用,取得了良好的效果。其原理是將文本中有意義的名稱(如人物、地點(diǎn)、時(shí)間、事件、專有概念)利用程序進(jìn)行自動(dòng)析取,經(jīng)過(guò)判斷之后進(jìn)行數(shù)據(jù)化轉(zhuǎn)換(通常是加上URI),并提供豐富的語(yǔ)義關(guān)系。
張喆昱和張磊的《記憶機(jī)構(gòu)的開放數(shù)據(jù)建設(shè)和數(shù)字化服務(wù)轉(zhuǎn)型》[4]觸及兩個(gè)關(guān)鍵性主題:數(shù)據(jù)化和開放服務(wù),試圖將上海圖書館的實(shí)踐一般化和通用化,分析了如何通過(guò)數(shù)據(jù)化讓圖書館的服務(wù)更加貼近人文學(xué)者的需求,讓系統(tǒng)更加人性化,然后通過(guò)開放服務(wù)引入外部資源,反過(guò)來(lái)促進(jìn)系統(tǒng)的數(shù)據(jù)化。
上海圖書館希望通過(guò)自己的實(shí)踐,為人文研究的Cyber基礎(chǔ)設(shè)施建設(shè)提供一個(gè)參考樣本。發(fā)表這些做法,并不是說(shuō)我們的做法有多先進(jìn),而只是一種不揣淺陋的拋磚引玉。我們深知,國(guó)內(nèi)的數(shù)字人文目前還處于起步階段,爭(zhēng)論大于共識(shí)、口水多于實(shí)踐,但只要大家積極參與,前景可期。迄今為止形成的有關(guān)數(shù)字人文的最大共識(shí),就是大家都同意它是一個(gè)人人都?xì)g迎從而能各得其所的“大帳篷”。愿這個(gè)大帳篷能促進(jìn)各門人文學(xué)科都得到繁榮興旺!