蔡迎春 (上海師范大學(xué)圖書館 上海 200234)
特藏資源是圖書館寶貴的教育資源,體現(xiàn)著圖書館的人文底蘊和資源價值,歷來為所有圖書館所重視。據(jù)OCLC發(fā)布的最新研究報告《推進國家數(shù)字平臺:美國公共圖書館和州立圖書館的數(shù)字化現(xiàn)狀》顯示,美國92%的公共圖書館擁有本地重要的、獨特的實體特藏,而在過去3年,已有37.6%的圖書館致力于特藏資源的數(shù)字化建設(shè)[1]。而荷蘭萊頓大學(xué)圖書館館長和出版社社長貝爾德 (Kurt De Belder)在2013年的一次講演中曾預(yù)測,在15年內(nèi)高校圖書館將只有特色館藏在本地存儲和管理,其他紙本館藏都將存入國家/地區(qū)級的倉儲庫。未來圖書館資源競爭將是以“非正式出版物”為核心的特色館藏競爭[2]。武漢大學(xué)圖書館副館長張洪元也提出,圖書館要實現(xiàn)特殊化,體現(xiàn)圖書館特別的理論與價值,就要加強特藏建設(shè)、提供特藏空間[2]。
因此,伴隨著整個社會數(shù)字化遷移的過程,國內(nèi)很多圖書館非常關(guān)注特藏資源建設(shè),并且在充分考量現(xiàn)有資源特點的基礎(chǔ)上,強化本館資源特色,著力特色資源庫以及特色數(shù)據(jù)平臺的建設(shè)。據(jù)2016年的一項調(diào)查顯示,所調(diào)查的我國179所高校圖書館中有98所擁有特藏資源庫,占比54.7%[3]。其主題范圍涉及到古籍、民國文獻、地方文獻、地方戲曲、文史資料、非物質(zhì)文化遺產(chǎn)等。但在資源的記錄與揭示上,這些數(shù)據(jù)庫多是基于書目數(shù)據(jù)庫的題錄、電子全文、照片、聲像、視頻等數(shù)字化的資源集合,很多數(shù)據(jù)庫中的知識未能得到充分揭示。僅有少數(shù)圖書館將數(shù)字人文理念和技術(shù)結(jié)合進特藏資源數(shù)字化建設(shè)中,并且取得了一些進展,使許多本習(xí)以為常的數(shù)據(jù),在經(jīng)過深度挖掘和關(guān)聯(lián)后,展露出了新的內(nèi)涵和本質(zhì)特征。因此,數(shù)字人文相關(guān)技術(shù)在特藏資源建設(shè)中的運用亦越來越多地引起圖書館界的關(guān)注。
表1 上海地區(qū)圖書館特藏資源數(shù)字人文建設(shè)情況
在國外,數(shù)字人文研究多以高校和圖書館為依托,為各類數(shù)字人文研究項目提供豐富的數(shù)據(jù)支持。據(jù)美國《圖書館管理雜志》2013年1月登載的一項調(diào)查報告顯示,截至2012年11月,全球已有近100個正式的數(shù)字人文中心,其中大約有一半在美國。這些數(shù)字人文中心約有半數(shù)坐落于圖書館內(nèi),另有1/4與圖書館保持著某種非正式關(guān)系[4]。到了2016年,美國已有41%的圖書館為數(shù)字人文項目提供特別服務(wù),17%的圖書館中設(shè)有數(shù)字學(xué)術(shù)中心,為多種學(xué)科提供支持,5%的圖書館設(shè)有專門為人文學(xué)科服務(wù)的數(shù)字學(xué)術(shù)中心[5]。典型的案例有:美國普渡大學(xué)(Purdue University)圖書館利用GIS技術(shù)從研究合作、學(xué)習(xí)支持和活動推廣3個角度提供支持人文及社會學(xué)科的服務(wù)[6]。美國密歇根大學(xué)圖書館參與數(shù)字人文項目“Using the Digital to Read Literary Texts in Context”,對20世紀(jì)初加利福尼亞地區(qū)雜志中的地域文學(xué)小說進行整理、篩選及可視化[7]。愛爾蘭的都柏林圣三一學(xué)院(Trinity College Dublin)圖書館在發(fā)起數(shù)字人文項目“The Mary Martin Diary”時,充分利用了圖書館的溝通技巧、項目管理技能、數(shù)字化工具和技術(shù)以及其他在線資源的使用,為這個多學(xué)科合作項目提供了人員、資源及技術(shù)保障[8]。
在國內(nèi),數(shù)字人文項目及相關(guān)的實踐雖然引起了一定的關(guān)注,但實踐案例主要還是集中在研究機構(gòu)或人文領(lǐng)域,圖書館應(yīng)用數(shù)字人文相關(guān)技術(shù)來進行特藏資源建設(shè)的實踐案例相對來說還比較少。以上海地區(qū)為例,調(diào)研的29家高校圖書館中,有19家具有本館特色資源,已建和在建的特藏資源庫達到44個[9]。但是,僅有4家在特藏資源數(shù)字化建設(shè)中應(yīng)用了數(shù)字人文的相關(guān)技術(shù)。另外,上海圖書館由于長期的積累,特藏資源豐富,尤其是名人手稿、家譜、地方文獻等,在特藏資源的數(shù)字人文建設(shè)中,可以說是起到了非常重要的引領(lǐng)作用,具體見表1[10]。
具體分析上海地區(qū)圖書館特藏資源數(shù)字人文建設(shè)情況,一般都是以數(shù)據(jù)庫或數(shù)據(jù)集的形式開展,主要集中在文學(xué)、藝術(shù)、語言學(xué)、古籍、歷史文化、檔案等人文領(lǐng)域。就數(shù)字人文相關(guān)技術(shù)而言,應(yīng)用較多的有規(guī)范控制、文本挖掘、關(guān)聯(lián)數(shù)據(jù)、信息可視化等。
(1)規(guī)范控制是圖書館編目控制中的重要一環(huán)。例如,利用人名規(guī)范可以方便集中同一責(zé)任者的不同著作,也能匯集同一著作的不同版本或譯本。以上海圖書館的“人名規(guī)范數(shù)據(jù)集”為例,作家魯迅的筆名多達100多個,只要建立一個規(guī)范檔,就能將魯迅以不同筆名發(fā)表的文章都集中在其詞條下。而要將同一人的很多信息集中在一起,就要設(shè)置這個人唯一可被機器讀取的標(biāo)識符,用HTTP的URI表示。這個唯一的標(biāo)識符,不僅可以是人名,也可以是地名,在互聯(lián)網(wǎng)上具有唯一性。
(2)文本挖掘技術(shù)以非結(jié)構(gòu)化的文本數(shù)據(jù)為研究對象,能夠?qū)崿F(xiàn)從海量的非結(jié)構(gòu)性文本中發(fā)現(xiàn)新的模式、規(guī)則、趨勢等,為用戶非結(jié)構(gòu)化的文本挖掘與分析研究帶來便利[11]。文本挖掘技術(shù)一般在文獻與目錄的研究項目中應(yīng)用較多,可以方便地實現(xiàn)資料查詢、計量分析、統(tǒng)計等功能,實現(xiàn)文獻的深度利用與開發(fā)。以上海財經(jīng)大學(xué)圖書館的“數(shù)字人文知識發(fā)現(xiàn)平臺”項目為例,通過數(shù)據(jù)挖掘,可以盡可能全面地揭示電影資源附著的各類信息,并以時間軸、數(shù)據(jù)地圖、對比的方式呈現(xiàn)數(shù)據(jù)[12]。
(3)關(guān)聯(lián)數(shù)據(jù)是一種已經(jīng)發(fā)展成熟的語義技術(shù)實現(xiàn)方式,可以把散落于不同文獻的人、地、時、事關(guān)聯(lián)起來,形成完整的知識圖,以可視化的方式展示。例如,上海圖書館的“上海年華”項目,主題較廣,涉及到的文獻有報刊、手稿、照片、名人檔案、地圖、地方文獻等資料,上海圖書館正是利用關(guān)聯(lián)數(shù)據(jù)技術(shù)對館藏特色資源進行全方位的整合,以立體的方式呈現(xiàn)出各事件之間的關(guān)聯(lián)性。
(4)信息可視化是指從數(shù)字資源中發(fā)現(xiàn)特定知識并用圖形化方法呈現(xiàn),并顯示文本中隱含的內(nèi)容和關(guān)系,如GIS技術(shù)與地圖繪制等[13]。例如,華東師范大學(xué)圖書館的方志庫,利用可視化技術(shù)將方志文本中復(fù)雜或難以表達的內(nèi)容,以視覺符號或圖表的形式表達出來,為人們提供一種理解海量復(fù)雜文本的內(nèi)容、結(jié)構(gòu)和內(nèi)在規(guī)律等信息的有效手段,使研究者視覺認知、關(guān)聯(lián)、推理的能力得到充分發(fā)揮。
我們應(yīng)該看到,數(shù)字人文應(yīng)用在特藏資源數(shù)字化建設(shè)中取得了一定的成就,在一個項目建設(shè)中綜合運用多種數(shù)字人文相關(guān)技術(shù)的情況越來越多。但是,在為人文研究提供了許多便利的工具和方法的同時,許多相關(guān)的應(yīng)用還不是很完備,尤其是對“如何建”“怎么建”等相關(guān)問題考慮還不是很成熟,對人文學(xué)者研究沒有真正起到幫助作用。以上海外國語大學(xué)圖書館的“俄羅斯文學(xué)特色文獻數(shù)據(jù)平臺”項目為例,數(shù)據(jù)檢索結(jié)果可以顯示各數(shù)據(jù)庫的列表形式展示給用戶,雖然可以清楚看到來源數(shù)據(jù)庫,但對用戶幫助不大[14]。如果能將資源以更符合用戶需求的條件排序,并能去除其中的重復(fù)數(shù)據(jù),則可以進一步提高用戶的研究效率,擴展其研究視野。
另外,上海地區(qū)其他圖書館在特藏資源建設(shè)上應(yīng)用數(shù)字人文相關(guān)技術(shù)的情況還不是很多,為此筆者進行了相關(guān)調(diào)研。結(jié)果顯示,67%的圖書館對數(shù)字人文理念及相關(guān)技術(shù)還不是很了解;78%的圖書館表示目前本館缺乏既懂?dāng)?shù)字人文技術(shù)、又對人文學(xué)者研究需求熟悉的館員;35%的圖書館在特藏資源建設(shè)應(yīng)用數(shù)字人文相關(guān)技術(shù)方面有規(guī)劃,但是還未制定出相對成熟的具體方案。調(diào)研結(jié)果從一個側(cè)面反映了目前圖書館對數(shù)字人文理念和相關(guān)技術(shù)還需要深入了解,圖書館缺乏相應(yīng)的人才儲備。雖然如此,許多圖書館還是計劃在特藏資源建設(shè)中結(jié)合人文學(xué)者的研究需要,嘗試數(shù)字人文技術(shù)的相關(guān)應(yīng)用和研究。
上海師范大學(xué)圖書館在確定了以數(shù)字化的特色館藏服務(wù)教學(xué)和科研的目標(biāo)以后,擬將館藏民國文獻的整理與研究作為突破口,把“原版民國時期文獻”和建國后出版的“新版民國時期文獻”(包括編校、再版和影印出版)結(jié)合起來,建設(shè)一個能充分揭示民國時期文獻及整理成果子目內(nèi)容的目錄數(shù)據(jù)庫——“民國時期文獻目錄數(shù)據(jù)平臺”(以下簡稱“數(shù)據(jù)平臺”),以有效促進人文學(xué)者對民國文獻的分析和研究,并使民國文獻整理出版和采集有章可循。
當(dāng)前民國時期文獻及其整理成果豐碩,本研究通過全國各大圖書館的館藏目錄、各民國文獻主要出版機構(gòu)目錄等途徑收集的“新版民國時期文獻”近1 000種。但是,到目前為止,尚沒有一個關(guān)于“新版民國時期文獻”的目錄數(shù)據(jù)庫?!皵?shù)據(jù)平臺”將擴展民國時期書目整理的時間外延,首次全面普查1949年后民國文獻整理出版成果,把握民國文獻出版整體情況,揭示已整理出版的民國文獻中所收錄圖書、報刊和檔案的子目內(nèi)容,彌補解放后民國文獻的整理出版無書目可查的缺憾,可以使民國文獻的書目索引編制更加完整,并具有可持續(xù)性。
另外,數(shù)字人文相關(guān)技術(shù)可以有效揭示“新版民國時期文獻”與“原版民國時期文獻”之間的關(guān)聯(lián)性,有利于發(fā)現(xiàn)民國文獻整理是否過于集中于哪些類目,哪些文獻類型或者哪些文獻被重復(fù)、過度整理,哪些文獻一直未被重視、甚至被忽視,從而找到并發(fā)現(xiàn)文獻整理出版的趨勢和軌跡,便于出版社和圖書館制定出版計劃或進行采購決策。而且,通過數(shù)字人文相關(guān)技術(shù)的應(yīng)用,可以揭示某一人物、某一事件或某一學(xué)科研究進展之間的關(guān)聯(lián),并以可視化的方式呈現(xiàn),幫助學(xué)者快速地從海量的數(shù)據(jù)中發(fā)現(xiàn)新的知識,發(fā)現(xiàn)人物關(guān)系、事件發(fā)展脈絡(luò)以及某一學(xué)科發(fā)展軌跡。因此,本項目應(yīng)用數(shù)字人文技術(shù),主要是解決3個方面的問題:一是解決數(shù)據(jù)檢索、文本對比和文本標(biāo)注的問題,將人文學(xué)者從低水平的重復(fù)工作中解放出來;二是基于數(shù)據(jù)的量化統(tǒng)計和分析研究,對內(nèi)容數(shù)據(jù)進行關(guān)聯(lián);三是對知識進行多維度呈現(xiàn),為學(xué)者提供一種新的角度來解決問題或發(fā)現(xiàn)新問題。
“數(shù)據(jù)平臺”建設(shè)之初,項目組首先邀請到相關(guān)領(lǐng)域的專家進行論證,主要是考慮如何建的問題,即如何用數(shù)字人文相關(guān)技術(shù)建立一個多元的、可供分析的“數(shù)據(jù)平臺”來達到建設(shè)目的。
(1)需要建立規(guī)范檔
民國文獻出版具有一定的特殊性,如出版地、出版機構(gòu)名稱變更的情況普遍,民國期刊???、復(fù)刊、出版周期不固定等情況較多,還有就是著者筆名尤其多。因此,建立規(guī)范檔就成為先決條件之一。除了常規(guī)的主題規(guī)范、文獻類型規(guī)范以外,需要對名稱進行規(guī)范,尤其是對同名的不同責(zé)任者以及同一責(zé)任者的不同筆名進行消歧與合并。
(2)具備數(shù)據(jù)關(guān)聯(lián)和分析功能
民國文獻中所涉及的人、地、時、事等都具有千絲萬縷的關(guān)聯(lián),如果按時間、人物、地點及出版機構(gòu)等進行多重關(guān)聯(lián)統(tǒng)計分析,就能夠快速地從海量的數(shù)據(jù)中發(fā)現(xiàn)新的知識,發(fā)現(xiàn)人物關(guān)系、事件發(fā)展脈絡(luò)以及出版發(fā)展軌跡等。
(3)具備可視化功能
應(yīng)用可視化工具,能夠為民國時期的出版史研究、文獻版本研究乃至各個學(xué)科的專題研究提供較為直觀的分析,把傳統(tǒng)數(shù)據(jù)庫的檢索結(jié)果變成用戶可以開展自主分析的基礎(chǔ)數(shù)據(jù),把傳統(tǒng)數(shù)據(jù)庫檢索結(jié)果的平面式輸出轉(zhuǎn)化為立體化的全方位時空呈現(xiàn)。
(4)具備數(shù)據(jù)的后續(xù)更新和維護功能
“數(shù)據(jù)平臺”不僅能錄入數(shù)據(jù),也應(yīng)便于查重,實現(xiàn)新版本追加、自動排序以及索引編制功能,解決數(shù)據(jù)的后續(xù)更新和維護問題。另外,還需要具有開放性,為以后進一步增加全文提供接口。
建立“數(shù)據(jù)平臺”的基礎(chǔ)數(shù)據(jù),首先主要是依托《民國時期總書目》和《1833—1949全國中文期刊聯(lián)合目錄》及其補編本,以及本項目收集到的“新版民國時期文獻”相關(guān)子目。
“數(shù)據(jù)平臺”的定位不僅僅是儲存與檢索,其既要為人文學(xué)者提供研究環(huán)境,并幫助他們重新組織知識、發(fā)現(xiàn)問題,還要為出版社和圖書館提供出版或采購依據(jù)。因此,在項目啟動之初,關(guān)于如何利用圖書館現(xiàn)有的人力、物力以及資源條件,將數(shù)字人文相關(guān)技術(shù)應(yīng)用于“數(shù)據(jù)平臺”,成為項目亟需解決的問題之一。
(1)共享開放的規(guī)范數(shù)據(jù)集
名稱規(guī)范檔的建立是“數(shù)據(jù)平臺”建設(shè)的基礎(chǔ),也是最重要的環(huán)節(jié)之一,但是目前利用圖書館現(xiàn)有的人員和技術(shù)條件很難實現(xiàn)。因此,在建設(shè)時,項目組大量調(diào)研了上海地區(qū)其他圖書館,尤其是上海圖書館的特藏資源數(shù)字化建設(shè),在對規(guī)范數(shù)據(jù)充分了解的基礎(chǔ)上,加強與上海圖書館的合作,利用其開放的人名規(guī)范數(shù)據(jù)集,首先進行先期的規(guī)范檔建立,并且在合作共享的基礎(chǔ)上,逐步實現(xiàn)對出版機構(gòu)等其他相關(guān)規(guī)范檔的建立。
目前,“數(shù)據(jù)平臺”已搭建完成,大量基礎(chǔ)數(shù)據(jù)正在錄入。對于文獻作者,以及題名、摘要中的人名,則直接進入上海圖書館人名規(guī)范庫獲取其URI,然后進行著錄。例如,《哲學(xué)概論》一書的作者陳大齊,通過規(guī)范庫的檢索,其人名URI值為http://data.library.sh.cn/entity/person/p7sfh4jcd1mfa4vt,“數(shù)據(jù)平臺”就將此URI直接錄入。對于有多個筆名或別稱的作者,如冰心,原名謝婉瑩,筆名冰心女士、男士、素人,所有這些名字的URI賦值都是一致的,均為http://data.library.sh.cn/entity/person/05ebng66w4qjnkhg。
(2)數(shù)據(jù)關(guān)聯(lián)及文本分析功能的實現(xiàn)
“數(shù)據(jù)平臺”在底層數(shù)據(jù)集建立時,通過對基本數(shù)據(jù)集、原版數(shù)據(jù)集、新版數(shù)據(jù)集和新版子目數(shù)據(jù)集4個相關(guān)子庫所共有或特有的元數(shù)據(jù)進行規(guī)范,并對其關(guān)聯(lián)性進行確定,從而建立彼此之間的多重關(guān)聯(lián)關(guān)系。因此,利用“數(shù)據(jù)平臺”可以開展基于數(shù)據(jù)挖掘的文本分析與統(tǒng)計。
目前,“數(shù)據(jù)平臺”規(guī)范的元數(shù)據(jù)包括文獻目錄(含內(nèi)容提要)中的人名、地名、學(xué)科主題、原版及新版出版項等信息,可以利用“數(shù)據(jù)平臺”提供的檢索和分析功能進行文獻主題分布、出版地分布、作者分布、年代分布等分析,并且還可以利用這些信息進行組配式的關(guān)聯(lián)分析。例如,通過對著作的主題、出版時間分析,揭示某一學(xué)術(shù)領(lǐng)域的研究或某一學(xué)術(shù)流派在民國時期的學(xué)術(shù)史;通過作者及其著作出版時間的分析,勾勒出作者的學(xué)術(shù)軌跡和學(xué)術(shù)生平等。又如,如果想要獲取“民國時期敦煌學(xué)研究”的相關(guān)信息,通過作者與主題的匹配分析,可以看到敦煌學(xué)的早期研究者的基本信息,其中,陳垣為中國歷史學(xué)家、宗教史學(xué)家,向達為中外交通史家,羅振玉為金石學(xué)家、考古學(xué)家,劉復(fù)為語言學(xué)家,張大千為畫家等,正是因為這些學(xué)者利用敦煌文書提供的原始資料開展各自學(xué)科領(lǐng)域的研究,從而推動了敦煌學(xué)的起步和發(fā)展,并讓敦煌學(xué)發(fā)展成為一門世界關(guān)注的顯學(xué)。
(3)可視化工具的應(yīng)用
可視化工具在“數(shù)據(jù)平臺”的應(yīng)用,主要體現(xiàn)在文本分析的可視化和GIS技術(shù)的應(yīng)用上。文本分析的可視化,仍然以“民國時期敦煌學(xué)研究”為例,通過學(xué)科主題結(jié)合時間范圍的分析,能夠繪制出敦煌學(xué)在1908-1949年間學(xué)術(shù)論著發(fā)表數(shù)量柱狀圖,以此體現(xiàn)敦煌學(xué)研究的發(fā)展情況,具體如圖1所示。
圖1 民國時期敦煌學(xué)研究論著數(shù)量
GIS技術(shù)在“數(shù)據(jù)平臺”的應(yīng)用,主要是通過“中國歷史地理信息系統(tǒng)”(CHGIS)建立地理信息關(guān)聯(lián),將地圖的視覺化效果、地理分析功能與“數(shù)據(jù)平臺”中的地名信息相結(jié)合,在中國歷史地圖之上,疊加整合,實現(xiàn)時間和空間兩方面的直觀檢索,提供文獻的出版地分析、作者的地域分布分析以及出版的時空變遷分析等[15]。通過地圖直觀顯示文獻的出版數(shù)據(jù),按時間先后順序自動生成地域出版文獻數(shù)量、出版機構(gòu)分布、出版機構(gòu)遷徙流動路線圖等,實現(xiàn)檢索結(jié)果、分析結(jié)果的電子地圖呈現(xiàn)。
(4)數(shù)據(jù)可編輯功能的實現(xiàn)
考慮到出版信息在不斷增加,開放數(shù)據(jù)接口,可供出版社和圖書館按照平臺要求的格式添加數(shù)據(jù),以防止提供數(shù)據(jù)不準(zhǔn)確和完整。因此,在數(shù)據(jù)提交時,平臺設(shè)計了審核流程,以備對數(shù)據(jù)進行不斷的完善和補充。
在數(shù)字人文視域下,圖書館特藏資源的數(shù)字化并非必須具備非常成熟的數(shù)據(jù)人文理念及技術(shù),而是要根據(jù)本館現(xiàn)有的條件,同時充分調(diào)研人文學(xué)者的研究需求,制定具有可操作性、符合本館資源特點的數(shù)字化方案。在實際建設(shè)時,對于數(shù)字人文相關(guān)技術(shù)的應(yīng)用,可以考慮先易后難,逐步實現(xiàn)和完善。另外,對于各方面制約和限制,需要前期進行充分論證是否可以通過其他方式得以解決,如人員、技術(shù)支持、項目管理、數(shù)據(jù)保存、元數(shù)據(jù)選取等。本項目組在“數(shù)據(jù)平臺”建設(shè)中,對于這些關(guān)鍵問題的解決體會頗深。
首先是團隊建設(shè)。上海師范大學(xué)圖書館雖然缺乏熟悉數(shù)字人文技術(shù)的專業(yè)人員,但是通過近些年的積累,不論在民國文獻的整理與研究,還是在研究團隊培養(yǎng)方面都已具有一定的基礎(chǔ)。團隊成員大多是具備文獻整理及相關(guān)領(lǐng)域知識背景,了解人文學(xué)科發(fā)展現(xiàn)狀及態(tài)勢的專業(yè)館員。因此,對“如何建”以及“怎么建”具有一定的思路和創(chuàng)新想法,可以通過學(xué)習(xí)彌補在數(shù)字人文理念和相關(guān)技術(shù)應(yīng)用方面的不足。在項目組制定出“如何建”的思路之后,團隊成員就通過參加數(shù)字人文會議、調(diào)研和聽取數(shù)字人文講座等方式,加強對數(shù)字人文的理解,并且結(jié)合其他圖書館的相關(guān)案例,制定符合本項目特色的解決方案。
其次是合作眾籌。雖然數(shù)字人文研究在很大程度上依賴于掌握數(shù)據(jù)處理技術(shù)的專家,但是,在“數(shù)據(jù)平臺”建設(shè)時,在技術(shù)準(zhǔn)備不充分的條件下,項目組沒有坐以待斃,而是考慮先期使用成熟、穩(wěn)定的開放數(shù)據(jù)集,與在數(shù)字人文項目方面有成功經(jīng)驗的團隊進行合作共享。首先利用上海圖書館的“人名規(guī)范庫”,然后在合作中,通過不斷的學(xué)習(xí)和積累,尋求其他相關(guān)規(guī)范庫的建立。另外,對于項目實施,尤其是平臺設(shè)計和基礎(chǔ)數(shù)據(jù)錄入時,需要大量的人力和物力的情況,則通過眾籌的方法,把技術(shù)難題分解,分包給其他有經(jīng)驗的專業(yè)團隊,各個擊破。例如,“數(shù)據(jù)平臺”的設(shè)計,主要是請有經(jīng)驗的專業(yè)人員進行,團隊成員與專業(yè)人員通過不斷溝通和測試,進一步完善設(shè)計思路和方案;數(shù)據(jù)錄入則是外包給專業(yè)的數(shù)據(jù)公司,在確保錄入速度的同時,為了保證質(zhì)量,團隊成員主要是做好專業(yè)指導(dǎo)和抽校工作。
再次是營銷工作。這項工作很重要,但也容易被忽視。試想如果“數(shù)據(jù)平臺”建成以后缺乏宣傳與推廣,或許會導(dǎo)致利用率不高、達不到最初建設(shè)目的的尷尬局面。反之,如果能對“數(shù)據(jù)平臺”的建設(shè)加大宣傳力度,不但可以提高使用率,也可以在目標(biāo)用戶群中形成上海師范大學(xué)圖書館民國時期文獻特藏資源的既定印象,從而匯集到更多的民國文獻資源,更加促進圖書館特藏資源的建設(shè)。對此,在項目建設(shè)前后,上海師范大學(xué)圖書館借助多方渠道,加強對民國時期文獻的整理與研究,以及“數(shù)據(jù)平臺”的推廣,以此獲取圖書館界、出版界和學(xué)術(shù)界等其他相關(guān)機構(gòu)的支持和幫助。例如,利用上海師范大學(xué)圖書館承辦上海高校圖工委刊物《上海高校圖書情報工作研究》的機會,增加“民國文獻整理與研究”固定專欄;在“國家圖書館民國時期文獻保護工作辦公室”的指導(dǎo)下,與上海圖書館、國家圖書館出版社加強合作,舉辦“民國時期文獻整理與研究國際研討會”等。這樣不但可以讓圖書館界或?qū)W界知曉上海師范大學(xué)圖書館在民國文獻整理與研究方面的作為,而且還可以從資金、資源和技術(shù)實現(xiàn)等方面獲得其他機構(gòu)的幫助,從而輔助本項目的具體實施。更重要的是,可以讓更多的人文學(xué)者了解到“數(shù)據(jù)平臺”建設(shè)的重要性以及對相關(guān)研究的支撐作用。
最后,在“數(shù)據(jù)平臺”建設(shè)中,項目組還特別強調(diào)元數(shù)據(jù)創(chuàng)建、管理及映射方面的工作,爭取與現(xiàn)行通行標(biāo)準(zhǔn)一致或與國際標(biāo)準(zhǔn)接軌,以便于知識發(fā)現(xiàn)。例如,在項目實施時充分考慮到《民國時期總書目》和《1833—1949全國中文期刊聯(lián)合目錄》及其補編本的分類排序規(guī)則,同時還參照目前國家圖書館正在編纂的《民國時期文獻總目(圖書卷)》進行分類、標(biāo)引與著錄,使“新版民國時期文獻”目錄與《民國時期總書目》保持基本一致的體例和詳盡的著錄內(nèi)容。另外,在元數(shù)據(jù)保存方面項目組也非常注意平臺資源的合法性,書目數(shù)據(jù)庫中的字段以及文檔結(jié)構(gòu)中獨特的排列方法使用是不是受到版權(quán)保護,有沒有侵犯原創(chuàng)作品的版權(quán)等問題都咨詢相關(guān)專家意見,以免招致不必要的法律糾紛。
數(shù)字人文技術(shù)的發(fā)展給傳統(tǒng)人文領(lǐng)域的研究帶來了新的活力,“數(shù)據(jù)平臺”的建設(shè)及數(shù)字人文相關(guān)技術(shù)在民國文獻領(lǐng)域的應(yīng)用實踐,給研究者帶來了新的視角,也為數(shù)字人文在特藏資源數(shù)字化建設(shè)上增添了一個新的案例。國內(nèi)特藏資源數(shù)字人文項目中,由圖書館支持或開展的成功案例還比較少,過程中必然會遇到各種挑戰(zhàn),尤其需要計算機及多媒體領(lǐng)域的技術(shù)專家來不斷優(yōu)化知識組織方法和知識服務(wù)功能。在當(dāng)前數(shù)字人文的大趨勢下,圖書館需要借鑒一些成功的案例,或是尋求與其他在數(shù)字人文研究及服務(wù)方面有成功經(jīng)驗的圖書館的合作,或是用眾籌的方法來解決技術(shù)難題,又或是積極參加數(shù)字人文國際會議加強經(jīng)驗交流。
目前,“數(shù)據(jù)平臺”已錄入部分數(shù)據(jù),各項功能正在測試完善中,仍然需要進一步摸索,在其運行一段時間后,將邀請相關(guān)專家再次評估。如果運行效果好,下一步將考慮在目錄數(shù)據(jù)庫的基礎(chǔ)上進一步擴展數(shù)據(jù)內(nèi)容,尋求相關(guān)合作,最終增加全文;如果效果不佳,對人文學(xué)者研究的影響或推動不盡如人意,則繼續(xù)考慮應(yīng)該如何改進等,這些問題都會是下一步團隊反思和研究的重點。