張 毅 李 欣
(華東師范大學(xué) 上海 200241)
特藏資源對(duì)于圖書(shū)館有重要的意義,當(dāng)前圖書(shū)館館藏同質(zhì)化現(xiàn)象非常嚴(yán)重,一個(gè)圖書(shū)館最大的價(jià)值應(yīng)該是其具有的獨(dú)特學(xué)術(shù)館藏,他是圖書(shū)館在信息爆炸時(shí)代競(jìng)爭(zhēng)力的體現(xiàn)[1],也是現(xiàn)代圖書(shū)館或數(shù)字圖書(shū)館內(nèi)容建設(shè)的基礎(chǔ)和開(kāi)展特色服務(wù)的根基。圖書(shū)館一直以來(lái)都非常重視特藏資源的保存與建設(shè),很多圖書(shū)館都擁有非常珍貴的特藏資源,但是傳統(tǒng)特藏資源的保存與服務(wù)模式并不能滿足人文學(xué)者的需要,人文學(xué)者迫切需要一種可以對(duì)大規(guī)模特藏資源進(jìn)行智能分析的數(shù)字人文平臺(tái),特別是在古籍、地理、歷史等人文特藏資源研究方面。
隨著技術(shù)的迅速發(fā)展,新的媒介不斷涌現(xiàn),深刻影響著知識(shí)的呈現(xiàn)與組織形式,特別是近年來(lái)大數(shù)據(jù)、GIS(Geographic Information System,地理信息系統(tǒng))[2]、可視化、虛擬現(xiàn)實(shí)、機(jī)器視覺(jué)以及人工智能等技術(shù)的不斷成熟與應(yīng)用,給圖書(shū)館特藏資源的揭示提供了全新的研究思路。數(shù)字人文(Digital Humanities)概念就是在這種機(jī)緣下出現(xiàn)的[3]。數(shù)字人文概念最早起源于20世紀(jì)60年代的人文計(jì)算,到2001年,由于技術(shù)對(duì)人文研究各個(gè)領(lǐng)域的滲透,數(shù)字人文取代了人文計(jì)算(Humanities Computing)[4],成為一個(gè)新興的跨學(xué)科研究領(lǐng)域,其研究團(tuán)隊(duì)通常由傳統(tǒng)的人文學(xué)者和計(jì)算機(jī)專家組成。圖書(shū)館可以依托數(shù)字人文研究思路對(duì)其特藏資源進(jìn)行重新開(kāi)發(fā),為學(xué)者研究特藏資源提供全新的視角,將人文研究者從繁瑣的資料整理統(tǒng)計(jì)分析中解放出來(lái),利用全新的特藏資源系統(tǒng)就可以減少以前需要耗費(fèi)大量精力與時(shí)間的重復(fù)勞動(dòng),利用GIS、可視化、文本挖掘以及關(guān)聯(lián)數(shù)據(jù)等新的計(jì)算機(jī)技術(shù)與特藏資源整合,再通過(guò)友好的用戶界面提供給研究者,挖掘特藏資源所蘊(yùn)藏的深層次知識(shí),給研究者提供全新的研究思路。文章將闡述數(shù)字人文的內(nèi)涵與現(xiàn)狀,并且通過(guò)介紹華東師范大學(xué)方志數(shù)據(jù)庫(kù)的建設(shè)過(guò)程,詳細(xì)說(shuō)明如何利用數(shù)字人文思維重構(gòu)圖書(shū)館特藏資源揭示,使方志數(shù)據(jù)更直觀、有序地呈現(xiàn)。
數(shù)字人文重構(gòu)特藏資源的理論最先出現(xiàn)在國(guó)外,到今天已經(jīng)形成了比較清晰的研究思路,有一大批基于數(shù)字人文的特藏資源研究項(xiàng)目在開(kāi)展,同時(shí)也形成了各種數(shù)字人文研究學(xué)會(huì)和機(jī)構(gòu),其中數(shù)字人文聯(lián)盟(the Alliance of Digital Humanities Organizations)是數(shù)字人文領(lǐng)域影響力最大的一個(gè)研究學(xué)會(huì)[5],比較知名的研究機(jī)構(gòu)還有麻省理工學(xué)院的Hyper studio、美國(guó)斯坦福大學(xué)的人文實(shí)驗(yàn)室和計(jì)算機(jī)輔助人文研究中心、倫敦國(guó)王學(xué)院的人文計(jì)算研究中心等。這些機(jī)構(gòu)在文學(xué)、歷史學(xué)、藝術(shù)等多個(gè)領(lǐng)域開(kāi)展了很多數(shù)字人文項(xiàng)目,知名的項(xiàng)目包括:美國(guó)和英國(guó)的Walt Whitman Archive、Valley of the Shadow、East London Theater Archive、Mark Twain Project、The Monastic Wales Project,西歐的The World of Dante、The Complete Writings and Pictures of Dante Gabriel Rossetti、French and Francophone Digital Humanities Projects等[6]。除了這些特藏資源數(shù)字人文項(xiàng)目之外,國(guó)外的數(shù)字人文研究在軟件工具、數(shù)據(jù)庫(kù)、專業(yè)協(xié)會(huì)等方面都有很多成果值得我們借鑒,如表1所示。
表1 國(guó)外數(shù)字人文研究調(diào)查
國(guó)內(nèi)利用數(shù)字人文技術(shù)對(duì)人文特藏資源進(jìn)行研究起步比較晚,但是由于國(guó)內(nèi)的移動(dòng)互聯(lián)網(wǎng)技術(shù)發(fā)展十分迅速,所以在技術(shù)上我們并不算落后,尤其在特藏資源的移動(dòng)端發(fā)現(xiàn)方面。目前,大陸的數(shù)字人文特藏資源研究主要集中在GIS、可視化、文本挖掘以及關(guān)聯(lián)數(shù)據(jù)等領(lǐng)域,如上海交通大學(xué)人文學(xué)院歷史系的交大新藏地方歷史文獻(xiàn)數(shù)字化項(xiàng)目,將雜亂無(wú)章的歷史文獻(xiàn)經(jīng)過(guò)修補(bǔ)、掃描、標(biāo)注等工作程序后,再利用數(shù)字人文技術(shù),對(duì)文獻(xiàn)進(jìn)行分析,發(fā)現(xiàn)隱藏在文獻(xiàn)當(dāng)中的價(jià)值,為歷史學(xué)研究提供了新的方法與思路;復(fù)旦大學(xué)歷史地理研究中心構(gòu)建了絲綢之路精準(zhǔn)復(fù)原與地理信息系統(tǒng),強(qiáng)調(diào)了數(shù)據(jù)可靠性研究,在地理信息系統(tǒng)中不僅可以呈現(xiàn)圖片,還添加了視頻等;上海圖書(shū)館利用關(guān)聯(lián)數(shù)據(jù)開(kāi)發(fā)的家譜數(shù)據(jù)庫(kù)系統(tǒng),為研究家譜提供了一個(gè)全新的在線平臺(tái),同時(shí)上海圖書(shū)館還開(kāi)發(fā)了很多數(shù)字人文研究工具,免費(fèi)對(duì)外提供服務(wù);北京大學(xué)圖書(shū)館利用數(shù)字人文方法提升讀者服務(wù)質(zhì)量,探索圖書(shū)館在數(shù)字人文實(shí)踐中的橋梁作用。筆者對(duì)國(guó)內(nèi)有關(guān)機(jī)構(gòu)在基于數(shù)字人文的特藏資源建設(shè)方面有代表性的研究項(xiàng)目做了一下總結(jié),如表2所示。
表2 國(guó)內(nèi)有關(guān)機(jī)構(gòu)數(shù)字人文研究項(xiàng)目分析
在互聯(lián)網(wǎng)浪潮的推動(dòng)下,圖書(shū)館的服務(wù)方式和服務(wù)內(nèi)容處于快速的變革中,短短幾年間圖書(shū)館就由以紙質(zhì)資源為中心發(fā)展到以電子資源和空間為中心的服務(wù)模式,電子資源總量和增加量都已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)了紙質(zhì)資源,這些資源都是體系化、經(jīng)過(guò)圖書(shū)館嚴(yán)格篩選的、高質(zhì)量的數(shù)字資源。但是圖書(shū)館卻發(fā)現(xiàn),耗費(fèi)巨大人力財(cái)力構(gòu)建的數(shù)字資源,并沒(méi)有發(fā)揮出應(yīng)用的價(jià)值。原因在于圖書(shū)館沒(méi)有挖掘出人文學(xué)者的深層次需求,導(dǎo)致讀者很少訪問(wèn)圖書(shū)館構(gòu)建的數(shù)字資源,反而是利用搜索引擎等工具開(kāi)展科研活動(dòng)。但通過(guò)搜索引擎獲得的文獻(xiàn)存在著質(zhì)量參差不齊、碎片化嚴(yán)重、無(wú)法辨別真?zhèn)蔚热秉c(diǎn)。文章引入數(shù)字人文的研究理念,通過(guò)對(duì)人文學(xué)者閱讀習(xí)慣進(jìn)行大數(shù)據(jù)分析,提煉出人文學(xué)者對(duì)文獻(xiàn)資料的深層次需求,進(jìn)而有針對(duì)性的創(chuàng)新圖書(shū)館自身服務(wù)內(nèi)容。
圖書(shū)館擁有的資源是其開(kāi)展服務(wù)的基礎(chǔ),然而信息技術(shù)則決定著圖書(shū)館服務(wù)的廣度與深度。圖書(shū)館為了保證信息化平臺(tái)可以為讀者提供服務(wù),不得不花費(fèi)巨大的人力物力去運(yùn)維這些信息化平臺(tái),而無(wú)法專注于資源建設(shè)與讀者服務(wù)方面的工作。由于圖書(shū)館在信息技術(shù)方面的局限性,導(dǎo)致圖書(shū)館無(wú)法有效將自身資源與服務(wù)提供給需要的讀者。針對(duì)這種情況,數(shù)字人文的研究成果為圖書(shū)館提供了全新的解決方案,利用開(kāi)放的數(shù)字人文工具,圖書(shū)館不必關(guān)心IT系統(tǒng)的實(shí)現(xiàn),而只需要關(guān)注圖書(shū)館的讀者服務(wù)。同時(shí),數(shù)據(jù)的存儲(chǔ)與程序開(kāi)發(fā)也可以利用現(xiàn)有數(shù)字人文研究成果實(shí)現(xiàn)。
圖書(shū)館無(wú)法有效揭示特藏資源,不僅有客觀原因,其主觀因素也不可忽視。隨著技術(shù)的進(jìn)步,媒介的更迭,從紙媒到電子媒介的轉(zhuǎn)變,導(dǎo)致知識(shí)的組織形式與內(nèi)容也要與時(shí)俱進(jìn),要求圖書(shū)館不斷更新知識(shí),跟隨時(shí)代潮流的發(fā)展。當(dāng)讀者都在電子終端上開(kāi)展學(xué)術(shù)研究時(shí)圖書(shū)館的服務(wù)也應(yīng)該適應(yīng)這種變化,這需要圖書(shū)館通過(guò)不斷的學(xué)習(xí)與創(chuàng)新,不僅在技術(shù)上可以對(duì)海量的數(shù)據(jù)進(jìn)行處理,利用大數(shù)據(jù)與人工智能為讀者提供更加便捷的服務(wù),還需要在元數(shù)據(jù)管理與建設(shè)方面與世界接軌,參與全球數(shù)據(jù)格式標(biāo)準(zhǔn)的制定。
華東師范大學(xué)擁有豐富的特色館藏,而且成立了數(shù)字化部,專門(mén)負(fù)責(zé)館藏特色資源的數(shù)字化掃描與編目。經(jīng)過(guò)十幾年的努力,已經(jīng)積累了大量高質(zhì)量的數(shù)字特藏資源,通過(guò)傳統(tǒng)數(shù)據(jù)庫(kù)的方式對(duì)全校師生提供服務(wù),并且開(kāi)放了特藏資源的元數(shù)據(jù)接口,可以將數(shù)據(jù)共享給學(xué)校的其他部門(mén),提高數(shù)據(jù)的使用效率。2016年開(kāi)始,華東師范大學(xué)圖書(shū)館成立項(xiàng)目組,準(zhǔn)備以特藏方志資源為突破口,推進(jìn)特藏方志資源服務(wù)深度,并使方志資源整理與采購(gòu)有章可循。
3.1.1 統(tǒng)一檢索與主題詞檢索
華東師范大學(xué)擁有兩種類(lèi)型的方志資源,其中紙本資源有23 224種,電子資源有7 233種,這些資源分布在OPAC、超星、CADAL等不同的系統(tǒng)當(dāng)中,讀者在使用這些方志資源時(shí)需要在不同的平臺(tái)之間來(lái)回切換,導(dǎo)致利用方志非常不便。為了解決這個(gè)問(wèn)題,筆者嘗試?yán)脭?shù)字人文思維對(duì)分散在圖書(shū)館各個(gè)系統(tǒng)中的方志數(shù)據(jù)進(jìn)行重新揭示,首先利用不同方志平臺(tái)之間的接口在元數(shù)據(jù)層面實(shí)現(xiàn)數(shù)據(jù)整合,為讀者提供統(tǒng)一的檢索接口,然后再通過(guò)開(kāi)源的分詞軟件對(duì)方志標(biāo)題和摘要進(jìn)行分詞,進(jìn)而生成主題詞檢索接口。
3.1.2 GIS可視化
由于方志資源本身還具有時(shí)間和空間兩個(gè)特性,正好與在數(shù)字人文領(lǐng)域應(yīng)用非常廣泛的GIS技術(shù)吻合,所以對(duì)方志資源進(jìn)行GIS揭示很有必要。華東師范大學(xué)圖書(shū)館收藏的方志庫(kù)數(shù)據(jù)元數(shù)據(jù)有3萬(wàn)多條,如果將這些方志信息都顯示在地圖上,當(dāng)?shù)貓D縮小時(shí)整個(gè)頁(yè)面上就會(huì)布滿地方志的點(diǎn),導(dǎo)致看不清楚地圖。針對(duì)這種情況可采用點(diǎn)聚合的方法實(shí)現(xiàn),將地圖上臨近的幾個(gè)地方志的點(diǎn)聚合成為一個(gè)大的點(diǎn),這樣可以保證用戶有良好的可視化體驗(yàn)。圖書(shū)館的方志庫(kù)數(shù)據(jù)有兩種,一種是既有電子全文又有紙質(zhì)全文,還有一種是只有紙質(zhì)全文,這兩種數(shù)據(jù)都通過(guò)點(diǎn)的方式在地圖上呈現(xiàn)。如果讀者發(fā)現(xiàn)有些坐標(biāo)點(diǎn)上的方志信息有些有電子全文,有些沒(méi)有電子全文,會(huì)給讀者帶來(lái)糟糕的體驗(yàn),所以在地圖上對(duì)這兩種數(shù)據(jù)進(jìn)行了區(qū)別:有電子全文的在方志坐標(biāo)的彈出窗口中顯示對(duì)應(yīng)方志庫(kù)的全文和對(duì)應(yīng)圖書(shū)館的紙質(zhì)資源鏈接,沒(méi)有電子全文的,只給出一個(gè)圖書(shū)館的紙質(zhì)資源鏈接。方志地圖系統(tǒng)還需具有根據(jù)朝代篩選功能,測(cè)距、計(jì)算面積、劃定區(qū)域顯示功能,還具有切換圖層的功能,以及對(duì)外提供Web Widget調(diào)用功能。
3.1.3 引入D2RQ實(shí)現(xiàn)數(shù)據(jù)的語(yǔ)義化發(fā)布
館藏方志資源本身的元數(shù)據(jù)包含巨大的價(jià)值,雖然可以通過(guò)OAI-PMH、Web Service的方式實(shí)現(xiàn)數(shù)據(jù)共享與融合,但也存在明顯的局限性,機(jī)器無(wú)法理解其意義、無(wú)法實(shí)現(xiàn)推理學(xué)習(xí),最終還是會(huì)淪落為一個(gè)個(gè)信息孤島。本系統(tǒng)探索采用D2RQ組件[7],在不影響原有方志庫(kù)系統(tǒng)服務(wù)模式的情況下實(shí)現(xiàn)方志數(shù)據(jù)的語(yǔ)義化發(fā)布,D2RQ Engine可以將MySql數(shù)據(jù)庫(kù)映射為具有RDF格式的關(guān)聯(lián)數(shù)據(jù),利用D2RQ server可以提供SPARQL查詢接口和URI地址瀏覽,D2RQ Mapping可以將SPARQL查詢轉(zhuǎn)化為Sql查詢語(yǔ)句。能夠使數(shù)據(jù)被機(jī)器理解與推理的關(guān)鍵不僅是RDF數(shù)據(jù)發(fā)布與查詢,其采用的詞表類(lèi)型也很重要,只有采用國(guó)際通用的標(biāo)準(zhǔn)詞表,才能將自己的數(shù)據(jù)融入到世界互聯(lián)網(wǎng)中。常用的詞表有DC、Schema.org、BIBIFRAME等[8],本系統(tǒng)采用Google、Bing、Yahoo聯(lián)合發(fā)的Schema.org詞表,它具有語(yǔ)義豐富、可擴(kuò)展性好、各大搜索引擎都支持的特點(diǎn),而且2012年OCLC的Worldcat數(shù)據(jù)也是采用Schema.org來(lái)發(fā)布的。
3.1.4 知識(shí)圖譜
知識(shí)圖譜(Knowledge Graph)是通過(guò)可視化手段顯示知識(shí)內(nèi)部結(jié)構(gòu)與發(fā)展進(jìn)程的一系列圖形[9],比如通過(guò)知識(shí)圖譜顯示唐代各位詩(shī)人之間的關(guān)系、遷徙、家族等信息的圖形,其最核心的要素是文本語(yǔ)義標(biāo)注技術(shù)的成熟。文章利用國(guó)際通用的TEI(Text Encoding Initiative)標(biāo)準(zhǔn)對(duì)方志資源進(jìn)行數(shù)字化編碼[10],添加機(jī)器可理解的語(yǔ)義編碼,挖掘方志資源包含的深層次知識(shí),并通過(guò)圖形方式呈現(xiàn)。
3.1.5 整合外部開(kāi)放數(shù)據(jù)
方志數(shù)據(jù)包含有豐富的人名與地點(diǎn)等信息,將中國(guó)歷代人物傳記資料庫(kù)(CBDB)與我校的方志庫(kù)融合[11],可以豐富方志庫(kù)的人物信息。上海圖書(shū)館的人名規(guī)范庫(kù)也是對(duì)外開(kāi)放的人名數(shù)據(jù)庫(kù)[12],不僅包含人名信息還擁有地點(diǎn)信息,并且提供RDF、NT、XML等格式數(shù)據(jù),方志庫(kù)的地點(diǎn)信息與人名信息,也可以從上海圖書(shū)館人名規(guī)范庫(kù)獲取。通過(guò)整合外部權(quán)威開(kāi)放數(shù)據(jù),可極大豐富我校方志庫(kù)的內(nèi)容,提高方志庫(kù)的價(jià)值。
3.1.6 引入眾包理念,完善數(shù)據(jù)
方志館藏包含的信息非常豐富,但是方志館藏元數(shù)據(jù)質(zhì)量參差不齊,雖然在做方志數(shù)字化時(shí)可以添加很多元數(shù)據(jù)信息,但是并不是每本方志都包含我們需要的元數(shù)據(jù),很多數(shù)據(jù)需要從方志內(nèi)容中確定。然而圖書(shū)館缺少方志研究方面的專家,而且即使有這方面的專家,也沒(méi)有足夠的精力與時(shí)間去一本一本的查看每本方志內(nèi)容。所以我們?cè)谠O(shè)計(jì)方志數(shù)據(jù)庫(kù)時(shí)引入了眾包理念,為讀者提供添加、修改方志元數(shù)據(jù)的接口,通過(guò)匯聚整個(gè)互聯(lián)網(wǎng)的力量進(jìn)而提高方志數(shù)據(jù)的準(zhǔn)確性與豐富性。
3.2.1 GIS平臺(tái)選擇與使用
GIS系統(tǒng)由于其廣泛的應(yīng)用性,國(guó)內(nèi)外有很多平臺(tái)可以采用,筆者在實(shí)踐過(guò)程中充分分析了各種平臺(tái)的優(yōu)缺點(diǎn)以及圖書(shū)館的技術(shù)儲(chǔ)備,最終選擇云開(kāi)放平臺(tái)的GIS接口與圖書(shū)館特藏資源整合來(lái)實(shí)現(xiàn)。采用這種方式可以快速方便的達(dá)到所需要的效果,而且對(duì)技術(shù)的要求不高,圖書(shū)館自己的技術(shù)人員就可以快速做出來(lái),不需要專業(yè)的GIS技術(shù)人員。由于云開(kāi)放平臺(tái)一般都是專業(yè)地圖公司作技術(shù)支持,他們產(chǎn)品的穩(wěn)定性與用戶體驗(yàn)都很好,是圖書(shū)館實(shí)現(xiàn)數(shù)字人文服務(wù)的一個(gè)很好的工具。
常見(jiàn)的GIS云開(kāi)放平臺(tái)有百度、高德、谷歌、騰訊等,筆者通過(guò)對(duì)這幾個(gè)平臺(tái)的測(cè)試后選擇了高德地圖的GIS云開(kāi)放平臺(tái)作為開(kāi)發(fā)工具。高德地圖云開(kāi)放平臺(tái)是一款為用戶提供基于自有數(shù)據(jù)構(gòu)建位置服務(wù)的免費(fèi)在線地圖工具,提供海量位置數(shù)據(jù)存儲(chǔ)、檢索、展現(xiàn)一體化服務(wù)方案,能讓圖書(shū)館快速構(gòu)建基于自有數(shù)據(jù)的地圖檢索應(yīng)用[13]。結(jié)合高德地圖的API接口,可以非常簡(jiǎn)單的將具有地理位置屬性的數(shù)字資源通過(guò)地圖呈現(xiàn),具體技術(shù)過(guò)程如圖1所示。
圖1 特藏方志數(shù)據(jù)與高德地圖接口整合框圖
3.2.2 地圖數(shù)據(jù)存儲(chǔ)
方志數(shù)據(jù)與高德地圖整合有兩種方式。一種是方志數(shù)據(jù)存放在本地?cái)?shù)據(jù)庫(kù)中,通過(guò)程序調(diào)用高德地圖接口操作本地?cái)?shù)據(jù)庫(kù),在高德地圖上呈現(xiàn)方志信息。這種方式需要搭建本地?cái)?shù)據(jù)庫(kù),而且需要自己開(kāi)發(fā)程序,雖然對(duì)數(shù)據(jù)的處理比較靈活,但是開(kāi)發(fā)難度比較大,不便于維護(hù)。第二種方式是采用高德地圖提供的云圖功能,按照高德地圖的EXCEL數(shù)據(jù)模板,將數(shù)據(jù)直接導(dǎo)入高德地圖中,這樣就不用在本地構(gòu)建數(shù)據(jù)庫(kù),也不用進(jìn)行地圖的開(kāi)發(fā),直接可以生成方志地圖,再通過(guò)簡(jiǎn)單的JavaScript API調(diào)用即可實(shí)現(xiàn)數(shù)據(jù)與地圖的底圖融合,渲染效果更好,加載更快,并覆蓋Web、H5、Android、IOS等平臺(tái)。高德地圖有一個(gè)非常大的優(yōu)點(diǎn),就是導(dǎo)入的數(shù)據(jù)不需要提供經(jīng)緯度坐標(biāo),直接寫(xiě)地名就可以被高德地圖轉(zhuǎn)化為經(jīng)緯度坐標(biāo),這個(gè)功能對(duì)于不懂GIS的人來(lái)說(shuō)非常實(shí)用。導(dǎo)入高德地圖的地理信息一般是按照“省市縣鄉(xiāng)鎮(zhèn)”的格式導(dǎo)入,由于古代的地名和現(xiàn)代的地名會(huì)有一些差別,但是一般可以定位到省或者市,高德地圖在定位時(shí),按照先尋找省份,再尋找省份下面的市,以此類(lèi)推逐級(jí)解析坐標(biāo),如果發(fā)現(xiàn)有一級(jí)找不到,就定位到可以找到的一級(jí),確保了每一條記錄的解析。
3.2.3 地圖數(shù)據(jù)呈現(xiàn)以及檢索
方志數(shù)據(jù)在高德地圖上的呈現(xiàn)與檢索,都可以利用其提供的JavaScript API完成,其中數(shù)據(jù)呈現(xiàn)用的接口是AMap.CloudDataLayer,它可以讓開(kāi)發(fā)者將存儲(chǔ)在云數(shù)據(jù)管理平臺(tái)中的數(shù)據(jù)表格作為一個(gè)圖層疊加到地圖上,這個(gè)接口通過(guò)Map與TableId屬性調(diào)用存放在高德地圖上面的方志數(shù)據(jù),然后通過(guò)Clickable與Query方式實(shí)現(xiàn)數(shù)據(jù)的呈現(xiàn)與相應(yīng)的事件。最終效果如圖2所示。
圖2 利用GIS實(shí)現(xiàn)地方志在地圖上的呈現(xiàn)
開(kāi)辟了讀者利用圖書(shū)館特藏資源的新方式,創(chuàng)新利用地圖和云標(biāo)簽作為讀者檢索圖書(shū)館特藏資源的入口,更便于讀者發(fā)現(xiàn)蘊(yùn)藏在特藏資源數(shù)據(jù)背后的知識(shí)。讀者可以利用新方志庫(kù)系統(tǒng)提供的地圖工具,直觀分析不同地區(qū)的方志數(shù)據(jù),以及這些方志之間的聯(lián)系。地圖系統(tǒng)還提供了測(cè)距、計(jì)算面積等輔助功能,同時(shí)還提供了基于時(shí)間的分析工具,可以根據(jù)不同朝代,在地圖上顯示不同時(shí)期的方志數(shù)據(jù),讓讀者可以從時(shí)間維度對(duì)方志進(jìn)行研究。云標(biāo)簽技術(shù)的使用可以智能分析讀者的研究?jī)?nèi)容,精確推送相關(guān)內(nèi)容給讀者,使讀者找到自己真正的研究方向。這些強(qiáng)大的可視化分析功能,在傳統(tǒng)特藏資源系統(tǒng)中是無(wú)法實(shí)現(xiàn)的,需要花費(fèi)讀者大量的時(shí)間進(jìn)行整理收集,但是使用數(shù)字人文理念開(kāi)發(fā)的系統(tǒng),就可以方便得到,讓讀者把更多的精力放在自己的研究領(lǐng)域。
缺少古代地圖:由于缺少古代地圖數(shù)據(jù),所以所有的方志數(shù)據(jù)都是在現(xiàn)代地圖上呈現(xiàn)。而最佳的狀態(tài)應(yīng)該是要做到地圖根據(jù)方志時(shí)間段變化而變化,實(shí)現(xiàn)不同時(shí)期的方志顯示在不同時(shí)期地圖上,這樣讀者在分析古代方志數(shù)據(jù)時(shí)就可以很好的考慮到人文地理信息對(duì)方志的影響。解決方案是引入古代不同時(shí)期的地圖數(shù)據(jù),整合到我們的系統(tǒng)中。
分詞不夠精細(xì):我們的方志系統(tǒng)只有題名和摘要數(shù)據(jù),沒(méi)有目錄與全文數(shù)據(jù),導(dǎo)致可供分析的原始數(shù)據(jù)比較少,這樣會(huì)錯(cuò)過(guò)很多隱藏在全文和目錄中的數(shù)據(jù)。解決方案是對(duì)原始的方志資料進(jìn)行數(shù)字化,并提取出目錄和全文數(shù)據(jù)?,F(xiàn)在的OCR技術(shù)已經(jīng)比較成熟,可以利用OCR技術(shù)實(shí)現(xiàn)全文識(shí)別,提高分詞的精細(xì)度。
時(shí)間地點(diǎn)不夠精確:方志數(shù)據(jù)中的時(shí)間、地點(diǎn)等實(shí)體的考證,都是從方志數(shù)據(jù)原文中獲取,但是有些方志并沒(méi)有明確的時(shí)間地點(diǎn)信息,而且古今地名信息也存在很大的差別,有很多還存在著爭(zhēng)議,這涉及到史書(shū)語(yǔ)料信息,難度較大。對(duì)于古今地名問(wèn)題可以引入古代史書(shū)語(yǔ)料庫(kù)進(jìn)行比對(duì),得到新的地理位置,在地圖上重新定位就可以解決,但對(duì)于志書(shū)中沒(méi)有明確地點(diǎn)和撰寫(xiě)時(shí)間的問(wèn)題,就比較棘手,可以采用眾包的方式實(shí)現(xiàn)。
雖然數(shù)字人文在國(guó)內(nèi)的研究還處于起步階段,數(shù)字人文研究?jī)?nèi)涵與邊界還在不斷完善,但是已經(jīng)給人文學(xué)者的研究注入了全新的活力,也為圖書(shū)館服務(wù)模式的創(chuàng)新提供了思維與工具。在特藏資源數(shù)字化過(guò)程中可以充分利用文本挖掘、GIS、可視化等技術(shù)手段以及新的思維方式,更好的揭示特藏資源,創(chuàng)新讀者服務(wù)。文章通過(guò)對(duì)華東師范大學(xué)方志庫(kù)平臺(tái)建設(shè)過(guò)程的介紹,希望以實(shí)踐的方式為數(shù)字人文的研究帶來(lái)一些啟示,雖然技術(shù)可以輔助人文研究,但也不應(yīng)過(guò)于依賴技術(shù),而是應(yīng)該在技術(shù)與人文研究之間找到契合點(diǎn),利用技術(shù)挖掘出隱藏在海量非結(jié)構(gòu)化人文資料背后的知識(shí)。
(來(lái)稿時(shí)間:2018年12月)