夏翠娟,張 磊,賀晨芝
數(shù)字人文
欄目主持人:程煥文,王曉光,王 蕾
特約編輯:肖 鵬
投稿渠道:http://tsglt.zslib.com.cn
面向知識服務(wù)的圖書館數(shù)字人文項目建設(shè):方法、流程與技術(shù)
夏翠娟,張 磊,賀晨芝
數(shù)字人文因其結(jié)合現(xiàn)代信息技術(shù)與傳統(tǒng)人文研究的特點,近年來成為各相關(guān)領(lǐng)域機構(gòu)的熱門話題。圖書館作為人文研究的資源保存與服務(wù)中心,正經(jīng)歷以資源管理和服務(wù)為重心向以數(shù)據(jù)管理和知識服務(wù)為重心的轉(zhuǎn)移。圖書館的數(shù)字人文項目常以語義萬維網(wǎng)、大數(shù)據(jù)、人工智能等新技術(shù)手段為支撐、以互聯(lián)網(wǎng)時代的知識組織為方法,致力于提供區(qū)別于傳統(tǒng)文獻服務(wù)的知識服務(wù)。文章以上海圖書館“名人手稿檔案庫”為例,結(jié)合多年來數(shù)字人文項目的探索與實踐經(jīng)驗,從數(shù)字人文項目的建設(shè)方法、建設(shè)流程以及技術(shù)框架三方面梳理總結(jié)面向知識服務(wù)的圖書館數(shù)字人文項目的建設(shè)過程。
數(shù)字人文 知識組織 知識服務(wù) 上海圖書館
數(shù)字人文(DigitalHumanities)被認為是數(shù)字圖書館發(fā)展的必然趨勢,以圖書館豐富的館藏資源和結(jié)構(gòu)化的元數(shù)據(jù)記錄為基礎(chǔ),借助大數(shù)據(jù)、語義網(wǎng)、數(shù)據(jù)可視化、GIS(地理信息系統(tǒng))、UGC(用戶貢獻內(nèi)容)等現(xiàn)代信息技術(shù)為人文研究者提供新的研究視角、研究方法和研究工具,是圖書館的優(yōu)勢所在,也是使命所在,既是機遇,也是挑戰(zhàn)[1]。上海圖書館(以下簡稱“上圖”)自2014年起開始投入人力物力資源,探索圖書館從事數(shù)字人文項目建設(shè)的方法和路徑。從上圖的特色資源——家譜開始,利用以關(guān)聯(lián)數(shù)據(jù)(Linked Data)為主的語義萬維網(wǎng)(Semantic Web)技術(shù),融合館藏元數(shù)據(jù)記錄、專家的研究成果、相關(guān)的網(wǎng)絡(luò)資源,以知識本體為基礎(chǔ)的知識組織方法重組數(shù)據(jù),以RDF對數(shù)據(jù)進行編碼,以平臺化的思維為用戶提供差別化服務(wù),吸納并鼓勵專家用戶貢獻知識,建成了“家譜知識服務(wù)平臺”,探索基于關(guān)聯(lián)數(shù)據(jù)技術(shù)的數(shù)字人文項目建設(shè)模式[2]。以關(guān)聯(lián)開放數(shù)據(jù)(Linked Open Data)形式開展開放數(shù)據(jù)應(yīng)用開發(fā)競賽,向全社會征集創(chuàng)意的同時推廣館藏資源,獲得了良好的社會影響。
在家譜知識服務(wù)平臺的基礎(chǔ)上,上圖以24萬余種盛宣懷檔案及其他大量近現(xiàn)代名人的手稿和檔案為基礎(chǔ),建設(shè)面向人文研究的“名人手稿檔案庫”,集手稿檔案的編目與展示于一體,利用社會關(guān)系分析、實體關(guān)系分析、留言、標注等功能支持人文研究。上圖與美國柏克萊東亞圖書館合作建設(shè)的“中文古籍聯(lián)合目錄及循證平臺”,借鑒“循證實踐”(Evidence-based Practise)的概念,試圖在收集大量現(xiàn)存或散佚的古籍目錄數(shù)據(jù)的基礎(chǔ)上,利用互聯(lián)網(wǎng)時代的知識組織技術(shù),建設(shè)古籍版本知識庫、作者知識庫、刻工知識庫、收藏家及藏印知識庫、避諱字知識庫等,以支持大數(shù)據(jù)時代的古籍目錄學研究、版本學研究、分類學研究。
上圖在建設(shè)各種文獻知識庫的同時,建設(shè)“人、地、時、事”等基礎(chǔ)知識庫,以便于從不同維度探索圖書館的所有資源[3]。比如,將“人名規(guī)范庫”中的每個人當作一個實體,這樣可以從某個人出發(fā),探索所有的手稿、檔案、著作、照片、音視頻資料,而不用受到傳統(tǒng)數(shù)字圖書館以資源類型的不同而建設(shè)相互獨立的數(shù)據(jù)庫系統(tǒng)的限制,真正做到面向內(nèi)容而非面向文獻,為研究者提供精準的知識服務(wù)而非僅提供文獻查閱服務(wù)。
上述文獻知識庫和基礎(chǔ)知識庫建成后,都在互聯(lián)網(wǎng)上提供開放數(shù)據(jù)服務(wù),試圖成為面向人文研究的國家數(shù)據(jù)基礎(chǔ)設(shè)施的一部分。本文以“名人手稿檔案庫”項目的建設(shè)為例,闡述上圖數(shù)字人文項目建設(shè)的方法、流程與技術(shù),為圖書館開展數(shù)字人文項目建設(shè)提供參考。
數(shù)字人文利用現(xiàn)代信息技術(shù)為人文研究提供了新方法、新手段和新視角,成為人文研究領(lǐng)域的熱點和前沿。近年來與之相關(guān)的各個領(lǐng)域,如各大高校和科研機構(gòu),以及作為人文研究支撐的圖書館、檔案館、博物館等文化遺產(chǎn)繼承機構(gòu)紛紛成立數(shù)字人文中心。武漢大學、北京大學、南京大學作為國內(nèi)人文研究重鎮(zhèn),對數(shù)字人文表現(xiàn)出極大的熱情,其中武漢大學成立了我國大陸第一個數(shù)字人文研究中心,北京大學成立了數(shù)字人文研究小組,發(fā)布了數(shù)字人文指南,主辦了兩屆廣受關(guān)注的數(shù)字人文論壇[4]。
與高校院系和研究機構(gòu)對數(shù)字人文研究的切入點不同,圖書館作為人文研究所需的資源保存和服務(wù)中心,主要任務(wù)是利用新的技術(shù)手段重組資源,為人文研究者提供更好的服務(wù),輔助人文研究,而不是要深入某一個具體的領(lǐng)域,代替人文研究者從事具體的研究工作。因此,圖書館對數(shù)字人文的研究側(cè)重在資源的管理和組織,以及服務(wù)提供方面,而這正是圖書館長期以來從事的工作,也是優(yōu)勢所在,更是挑戰(zhàn)所在。數(shù)字人文向圖書館提出了全新的要求:為人文研究提供大規(guī)模高質(zhì)量的數(shù)據(jù)、科學的研究方法和計算機輔助研究工具的支持[5]。
為了利用圖書館的已有資源更好地輔助人文學者的研究工作,需要深入了解各個領(lǐng)域人文學者的研究場景、研究方法和研究模式。不僅要了解其當前正在使用的研究方法和工具,還要了解技術(shù)發(fā)展的現(xiàn)狀和趨勢,將資源、技術(shù)和學者的研究需求結(jié)合起來,探索如何為學者提供新的研究方法、研究手段和研究視角。
在數(shù)字圖書館時代,圖書館利用元數(shù)據(jù)來揭示和組織資源,基于元數(shù)據(jù)的字段檢索來提供文獻查詢和全文閱覽服務(wù)。而在數(shù)字人文時代,隨著互聯(lián)網(wǎng)發(fā)展和數(shù)字圖書館建設(shè),學者可獲得的文獻不是太少,而是太多,如何幫助學者在海量文獻中找到與研究主題相關(guān)的數(shù)據(jù)、事實和知識是圖書館的首要任務(wù)。圖書館需要直接為學者提供文獻中蘊含的且與研究主題相關(guān)的知識,幫助學者準確而全面地定位到所需文獻。更重要的是,數(shù)字人文的優(yōu)勢還在于提供不一樣的視角,幫助學者發(fā)現(xiàn)新的研究問題[6]。因而對圖書館來說,完成從文獻服務(wù)到知識服務(wù)的轉(zhuǎn)型是從事數(shù)字人文項目建設(shè)的主要目的。
圖書館的文獻查閱服務(wù)是建立在對文獻的規(guī)范標引和著錄、對標引著錄的結(jié)果——元數(shù)據(jù)進行組織和管理的基礎(chǔ)上的,而知識服務(wù)則建立在對文獻中的知識進行組織和管理的基礎(chǔ)上。知識組織是揭示知識單元(包括顯性知識因子和隱性知識因子)、挖掘知識關(guān)聯(lián)的過程或行為,能最為快捷地為用戶提供有效知識或信息。知識組織始見于1929年美國圖書館學家布利斯的專著,并在圖書館學、情報學的分類系統(tǒng)和敘詞表研究基礎(chǔ)上發(fā)展起來。當前隨著語義萬維網(wǎng)、大數(shù)據(jù)技術(shù)和人工智能的興起,知識組織朝著機器可理解數(shù)據(jù)的方向發(fā)展,成為圖書館學、情報學、計算機科學、知識工程學、現(xiàn)代語言學、認知心理學等領(lǐng)域共同研究的課題。
互聯(lián)網(wǎng)時代的知識組織與傳統(tǒng)知識組織截然不同之處在于:分類系統(tǒng)和敘詞表主要是為人使用,便于編目員在文獻著錄時參考,作為元數(shù)據(jù)元素的取值,同時在檢索系統(tǒng)中進行簡單的索引以便于檢索;而互聯(lián)網(wǎng)時代的知識組織是為了讓機器能夠讀取、處理并理解數(shù)據(jù)中蘊含的語義,歸根結(jié)底是為機器服務(wù),目的是用機器來幫助學者處理研究所需的大量繁瑣、重復的前期工作,如資源的搜集、查詢、聚類、統(tǒng)計、分析[7]。因而這種知識組織需要完成以下任務(wù):
(1)知識編碼的形式化(Formalization)——機器可讀。知識編碼的形式化即用規(guī)范的機器語言來表達知識,其目的是使機器可讀。傳統(tǒng)圖書館基于MARC的元數(shù)據(jù)記錄以ISO 2709格式編碼,是一種嚴格遵循標準的編碼格式,在圖書館自動化系統(tǒng)中機器可讀,也可用于不同圖書館間的數(shù)據(jù)交換。但在互聯(lián)網(wǎng)時代,需要采用更為開放的符合Web標準的格式,如XML、RDF的各種序列化格式(RDF/XML,Turtle,N3,JSON-LD)。這些數(shù)據(jù)編碼格式是W3C的推薦標準,被大部分編程語言支持,有著跨平臺跨系統(tǒng)跨領(lǐng)域的特性,因而可使知識變成真正的“(任意)機器可讀”的數(shù)據(jù)。
(2)知識單元的細粒度化——機器可計算。圖書館的元數(shù)據(jù)記錄描述的對象是文獻,以文獻為最小單位,主要描述文獻的外部特征,目的是讓讀者能夠查詢、定位和閱覽文獻。在數(shù)字圖書館時代,雖然紙質(zhì)文獻大多已經(jīng)被數(shù)字化為電子版本,但這種以文獻為最小描述單位的情況沒有根本改變。數(shù)字人文要求深入揭示文獻內(nèi)部的事實、數(shù)據(jù)和知識,因而描述的知識單元更細致,具體來說就是文獻中的人、地、時、事、物等內(nèi)容特征及其相互之間的關(guān)系,目的是使機器可以根據(jù)這些知識單元的各項特征屬性進行聚類、統(tǒng)計、分析、推理等計算行為。
(3)知識表示的語義化——機器可理解。讓機器能夠理解人類的信息是計算機科學永恒的主題。語義萬維網(wǎng)提出了首先讓機器理解機器的有限目標,W3C推出RDF(資源描述框架)標準,用“主體(Subject)-謂詞(Predict)-客體(Object)”三元組模型作為知識表示的基本框架。主體是謂詞描述的對象,其屬性特征可通過定義從同類對象中抽象出來的概念來界定;謂詞是嚴格定義的術(shù)語,是描述概念特征的屬性;客體作為謂詞的值,不僅可以是數(shù)據(jù),還可以是另一個對象,謂詞即是表示主體和客體之間關(guān)聯(lián)關(guān)系的規(guī)范化術(shù)語。這樣的三元組模型以簡潔、普適、規(guī)范的形式,經(jīng)過以機器理解為目的形式化編碼,可用來形式化地表達任何事實、數(shù)據(jù)和知識,并可超越系統(tǒng)、平臺和領(lǐng)域的限制,使得機器與機器之間的相互理解變成了可能。
在不同領(lǐng)域內(nèi),概念及其屬性的定義不盡相同。某一領(lǐng)域內(nèi)可共享的概念及其概念間關(guān)系的形式化定義被稱為知識本體(Ontology),簡稱本體。本體是語義萬維網(wǎng)環(huán)境下知識組織的主要方法和技術(shù)之一。
(4)知識組織的關(guān)聯(lián)化——機器可推理。在現(xiàn)實世界中,事物之間的關(guān)聯(lián)是普遍存在的,若將這種關(guān)聯(lián)關(guān)系反映到機器世界中,機器便可基于大規(guī)模的關(guān)聯(lián)關(guān)系推理出新的知識。而知識單元之間的關(guān)聯(lián)關(guān)系越多,越有利于推理結(jié)果的準確性。關(guān)聯(lián)數(shù)據(jù)(Linked Data)和知識圖譜(Knowledge Graph)就是在知識之間建立可被機器理解的關(guān)聯(lián)關(guān)系的技術(shù),這種技術(shù)建立在Web的HTTP協(xié)議之上,以RDF三元組為最小的知識單元。三元組中的主體、謂詞、客體都可由HTTP URI來唯一定位和標識。因此,其建立的關(guān)聯(lián)關(guān)系是跨網(wǎng)域的,而非只在某一系統(tǒng)內(nèi)部生效。這種廣泛而深刻的、基于Web的、植入數(shù)據(jù)底層的關(guān)聯(lián)關(guān)系為大范圍、跨領(lǐng)域、大規(guī)模數(shù)據(jù)的機器推理帶來了便利。
(5)知識增長的自動化——機器可自學習。在數(shù)字圖書館建設(shè)時期,圖書館的知識組織工作主要依賴于人工的編目著錄,尤其是各種分類法、敘詞表、規(guī)范檔等。隨著機器智能時代到來,以及基于神經(jīng)網(wǎng)絡(luò)的深度學習(Deep Learning)技術(shù)進一步成熟,在知識組織過程中,開始借助機器智能自動地完成知識增長的過程。目前在自然語言處理(NLP)、名稱實體識別(NEI)、自動標引和自動分類領(lǐng)域,機器學習大有用武之地。機器學習技術(shù)在近年來歐盟最大的數(shù)字人文項目“威尼斯時間機器”中得到有效應(yīng)用[8]。
依上文所述,圖書館數(shù)字人文項目建設(shè)的主要目標是提供知識服務(wù),主要方法是互聯(lián)網(wǎng)時代的知識組織方法。因此,對圖書館已有數(shù)據(jù)和資源,用知識組織的方法進行知識重組,并利用新技術(shù)手段提供知識服務(wù),是數(shù)字人文項目建設(shè)的主要任務(wù)。知識重組的核心任務(wù)是數(shù)據(jù)建模,即根據(jù)系統(tǒng)需求和所能獲得的數(shù)據(jù)數(shù)量和質(zhì)量來設(shè)計數(shù)據(jù)模型,定義涉及的概念、概念特征,以及概念與概念間的關(guān)系,也就是本體設(shè)計,這是基于RDF三元組的數(shù)據(jù)模型的基礎(chǔ)。圖1是上圖數(shù)字人文項目建設(shè)的流程示意圖。在項目建設(shè)過程中,本體不僅與需求和用戶應(yīng)用場景相關(guān),也與能獲得的數(shù)據(jù)相關(guān),同時受到系統(tǒng)設(shè)計開發(fā)過程中技術(shù)條件的制約,隨著項目推進,需要在多次反復中不斷完善。
圖1 上圖數(shù)字人文項目建設(shè)流程圖
需求分析的目的是在充分了解用戶應(yīng)用場景的情況下,界定系統(tǒng)的長、短期目標。上圖擁有近7萬件近現(xiàn)代名人手稿及檔案資料,涉及2萬余人、2000余個縣級及以上地點,時間跨越自晚清、民國至現(xiàn)當代的200余年,是研究近現(xiàn)代文學、歷史、社會學的第一手寶貴資料。過去10余年間,上圖成立專門的研究整理小組,負責這些資料的編目,但目前只有供編目用的元數(shù)據(jù)著錄系統(tǒng),沒有基于Web提供服務(wù)的平臺。上圖“名人手稿檔案庫”的首要任務(wù)是滿足資料的查詢、閱覽功能,在此基礎(chǔ)上逐步實現(xiàn)支持人文研究的動態(tài)聚類、時空分析、社會關(guān)系分析、數(shù)據(jù)統(tǒng)計、研究交流等功能。
數(shù)字圖書館建設(shè)為圖書館從事數(shù)字人文項目建設(shè)奠定了基礎(chǔ),大量規(guī)范化、結(jié)構(gòu)化的元數(shù)據(jù)是數(shù)字圖書館建設(shè)的寶貴成果,是知識重組的原材料。但是,由于文獻服務(wù)與知識服務(wù)的要求不同,所以需要對這些原材料進行剖析:一方面了解數(shù)據(jù)的內(nèi)容結(jié)構(gòu),為本體設(shè)計做準備;另一方面發(fā)現(xiàn)不足之處,為進一步的數(shù)據(jù)清洗加工豐富做準備。
上圖名人手稿檔案著錄系統(tǒng)基于DCMI元數(shù)據(jù)方案設(shè)計方法來構(gòu)建,將資源分成創(chuàng)作手稿、信函、照片、實物、證書等12個大類,共用一個核心元數(shù)據(jù)元素集;每種資源又有自己的特殊元數(shù)據(jù)元素集,并考慮到人名規(guī)范檔的建設(shè),在著錄過程中對手稿及檔案的責任者進行名稱規(guī)范控制。元數(shù)據(jù)記錄和規(guī)范數(shù)據(jù)記錄以表格的形式存儲于關(guān)系數(shù)據(jù)庫中,并可導出XML格式。正如上文所述,這種以文獻為知識單元的元數(shù)據(jù)規(guī)范和基于此規(guī)范產(chǎn)生的元數(shù)據(jù)記錄存在著一定的缺陷:
(1)由于著錄單元的單一性,因此難以充分揭示單個檔案與檔案集合之間、單個檔案與其組成部分之間的關(guān)系。例如,當以一封信件為著錄單元時,如何揭示一封信與一包信件、一封信與信封信紙之間的關(guān)系?如何深入描述包含這一封信件的信件包和一封信的組成部分信封和信紙?這在檔案管理中是很常見的問題和需求。
(2)對檔案中涉及的人、機構(gòu)、地、時、事揭示不足。雖然為責任者建立了在本系統(tǒng)范圍內(nèi)進行規(guī)范控制的規(guī)范檔,但沒有對機構(gòu)、地名、時間、事件建立規(guī)范檔并進行規(guī)范控制,只是用自由詞作為元數(shù)據(jù)元素的值,而這些都是能夠深入揭示文獻內(nèi)容的知識單元。僅有簡單的字符串值(String)是不夠的,需要將機構(gòu)、地名、時間、事件當成現(xiàn)實中真正存在過的對象(Thing),賦予HTTP URI并補充大量結(jié)構(gòu)化的數(shù)據(jù),如地名的行政歸屬地、經(jīng)緯度,事件的發(fā)生時間、地點、人物。
在本項目中,數(shù)據(jù)建模即本體設(shè)計。本體設(shè)計要解決的問題是厘清深入揭示檔案內(nèi)容的數(shù)據(jù)中可以抽象出哪些概念,每個概念有哪些特征,以及概念之間有哪些關(guān)系。與此同時,用明確規(guī)范的術(shù)語來表達這些概念——在本體中用“類”(Class)來表示,概念的特征及概念間的關(guān)系——在本體中用“屬性”(Property)來表示。本體中的類是RDF三元組中的主體和客體抽象出來的概念,屬性是RDF三元組的謂詞,類和屬性為RDF數(shù)據(jù)賦予了語義,可被機器讀取和處理,經(jīng)過機器的聚類、計算、統(tǒng)計、分析、推理后變成人可理解的知識。
本體設(shè)計中常常存在的困惑是哪些作為類、哪些作為屬性。比如,對一封信的信封的處理,是否需要定義“信封”這個類,主要依據(jù)還是需求和數(shù)據(jù)情況。在上圖名人手稿檔案本體中,是將信封作為類來處理的,主要原因是:在已有的元數(shù)據(jù)記錄中,已經(jīng)將信封的各項特征如收件人地址、姓名,發(fā)件人地址、姓名,郵戳,信封書寫文字的顏色和字體等分別作為不同的子元素,是高度結(jié)構(gòu)化的數(shù)據(jù)。如果在本體中將信封不作為類來處理,會損失這些結(jié)構(gòu)化數(shù)據(jù),而作為類處理后,就可以將上述子元素定義為這個類的屬性。此外,當信件和信封作為類來定義后,還能以面向?qū)ο蟮乃季S靈活地定義它們之間的關(guān)系。在本體中,每一個類都有不只一個屬性來描述,每個類的實體都是描述的對象,而不僅僅是文獻。更重要的是,信封的各項特征(人、地、時、事)也是人文研究的寶貴資料,結(jié)構(gòu)化后便于機器計算。
上圖名人手稿檔案本體包含44個類和195個屬性,已發(fā)布在Web上,見圖2;主要類的關(guān)系見圖3。
圖2 上圖名人手稿檔案本體網(wǎng)站
圖3 上圖名人手稿檔案本體模型
這一步的主要任務(wù)是根據(jù)本體設(shè)計的結(jié)果,從已有的數(shù)據(jù)中提取所有本體中定義的類和屬性,進一步發(fā)現(xiàn)數(shù)據(jù)中的錯漏和不規(guī)范之處并加以修正,對缺失的數(shù)據(jù)進行補充和豐富,對屬性的取值進行規(guī)范控制,必要時定義一些取值詞表,如檔案類型、責任方式。在這一步中還可能會發(fā)現(xiàn)本體設(shè)計的不合理之處,也可能會根據(jù)新獲得的數(shù)據(jù)對本體進行補充修正。這正是用本體的方法來進行數(shù)據(jù)建模的一個好處,因為本體的類與類之間既相互聯(lián)系又彼此獨立,修改或增加一個類的屬性不會對其他類造成影響。
數(shù)據(jù)轉(zhuǎn)換的主要目的是得到以本體作為數(shù)據(jù)模型的RDF數(shù)據(jù)。首先,需要定義已有數(shù)據(jù)(一般是RDB、Excel、CSV格式)各個字段與本體的映射。其次,為每一個數(shù)據(jù)實例(實體、對象)賦予合適的類,生成HTTP URI,將URI作為RDF三元組的主體,將描述該類的屬性作為三元組的謂詞,謂詞的取值可以是一個字串值、數(shù)值、日期等,也可以是另一個數(shù)據(jù)實例的URI。這樣,每個數(shù)據(jù)實例就有多個三元組來描述,每個三元組都是一個知識單元,多個互相關(guān)聯(lián)的三元組就構(gòu)成了一個知識圖譜。
如果說本體設(shè)計和數(shù)據(jù)清洗加工轉(zhuǎn)換得到的RDF數(shù)據(jù)是原材料,那么系統(tǒng)設(shè)計就是菜譜,而系統(tǒng)開發(fā)則是將原材料和菜譜生產(chǎn)出可為用戶提供服務(wù)的產(chǎn)品,系統(tǒng)測評則是對產(chǎn)品進行檢驗,看是否符合既定需求。在系統(tǒng)設(shè)計、開發(fā)和測評的過程中,受到技術(shù)條件的制約,仍然會對本體提出進一步的修改需求,因為本體既是知識結(jié)構(gòu),也是數(shù)據(jù)結(jié)構(gòu),本體設(shè)計得過于復雜或過于簡單,會對需求的實現(xiàn)和系統(tǒng)的性能產(chǎn)生影響。
圖4是上圖數(shù)字人文項目建設(shè)的技術(shù)框架,主要分為知識重組、數(shù)據(jù)存儲和知識服務(wù)三個部分。知識重組的技術(shù)要求是對圖書館的元數(shù)據(jù)、目錄索引數(shù)據(jù)和用以補充這兩者不足的外部數(shù)據(jù)進行清洗加工后,完成從String到Thing的轉(zhuǎn)變,即從二維表格數(shù)據(jù)(RDB/EXCEL/CSV/TXT)到多維網(wǎng)狀RDF圖數(shù)據(jù)的轉(zhuǎn)變。數(shù)據(jù)存儲要解決的問題是用圖數(shù)據(jù)庫來存儲RDF數(shù)據(jù),并支持高性能的數(shù)據(jù)存取。知識服務(wù)的目的主要是將圖數(shù)據(jù)庫中的RDF數(shù)據(jù)用多樣化的數(shù)據(jù)可視化技術(shù)展示、呈現(xiàn)給用戶,方便用戶查詢、發(fā)現(xiàn)、探索數(shù)據(jù)中存在的事實、數(shù)據(jù)和知識。此外,作為一個大型研究型公共圖書館,上圖還承擔著為本地區(qū)中小型圖書館提供數(shù)據(jù)支撐服務(wù)的責任,也希望能將經(jīng)過知識重組后的數(shù)據(jù)開放給社會大眾和第三方機構(gòu),所以還提供面向機器的開放數(shù)據(jù)服務(wù),便于開發(fā)人員調(diào)用并整合到自己的應(yīng)用系統(tǒng)之中。
圖4 上圖數(shù)字人文項目建設(shè)的技術(shù)框架
數(shù)據(jù)處理主要包括數(shù)據(jù)清洗、加工、豐富(采集)三個方面。B/S架構(gòu)的開源軟件Open Refine在數(shù)據(jù)清洗加工方面有著廣泛的應(yīng)用,被評價為“看起來像表格,用起來像數(shù)據(jù)庫”,有良好的用戶界面和強大的數(shù)據(jù)處理功能。它首先是一個強大的數(shù)據(jù)剖析工具,可以將半結(jié)構(gòu)化的數(shù)據(jù)(維基、XML、TXT等)根據(jù)自定義的規(guī)則結(jié)構(gòu)化,變成二維表格數(shù)據(jù),或直接導入EXCEL或CSV格式的結(jié)構(gòu)化數(shù)據(jù),生成表格后,對表格的列提供分面統(tǒng)計的功能,可以清晰地看出哪些數(shù)據(jù)有問題,如明顯的數(shù)據(jù)錯漏和格式不規(guī)范,并可在Web界面上直接批量修改;或者轉(zhuǎn)換數(shù)據(jù)類型,如將數(shù)值型的數(shù)據(jù)轉(zhuǎn)換成文本型的數(shù)據(jù)。此外,該軟件還支持用GREL語言編程的方式對數(shù)據(jù)進行復雜操作,如邏輯運算、數(shù)學運算、字符串處理等,并可實現(xiàn)循環(huán)、嵌套等流程控制功能。Open Refine支持通過外部數(shù)據(jù)的API來獲取數(shù)據(jù),并直接在字段層面與本地數(shù)據(jù)融合。
為補充數(shù)據(jù)的不足,上圖開發(fā)了一個ETL(Extract-Transformation-Load)工具,支持Web數(shù)據(jù)的自動采集、對采集的數(shù)據(jù)進行過濾、配置本體映射并轉(zhuǎn)換成RDF數(shù)據(jù)后導入RDF存儲庫;還開發(fā)了一個支持W3C的R2RML語言的RDB2RDF工具,可直接將關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)與名人手稿檔案本體建立映射,導出RDF數(shù)據(jù)。
名人手稿檔案本體基于美國國會圖書館的書目框架(BIBFRAME2.0)設(shè)計,復用了其Work-Instance-Item三層模型作為圖3中“文獻”類的數(shù)據(jù)模型,在此基礎(chǔ)上擴展適用于名人手稿檔案的類和屬性。BIBFRAME2.0的三層模型可以較好地解決作品與不同版本,版本與不同復本之間的關(guān)系,見圖5。
圖5 名人手稿檔案的書目數(shù)據(jù)模型
“名人手稿檔案庫”系統(tǒng)開發(fā)時,在數(shù)據(jù)存儲方案選擇上,主要用到了圖數(shù)據(jù)存儲技術(shù)。這是因為RDF數(shù)據(jù)本身是多維網(wǎng)狀的圖數(shù)據(jù)格式,由節(jié)點和邊組成。隨著大數(shù)據(jù)技術(shù)的興起,近年各種NoSQL數(shù)據(jù)庫快速發(fā)展,可用于存儲RDF數(shù)據(jù)的NoSQL解決方案越來越多。圖數(shù)據(jù)庫是NoSQL數(shù)據(jù)庫的一種,最大優(yōu)點是可以直接導入RDF數(shù)據(jù),設(shè)計者只需考慮數(shù)據(jù)本身的內(nèi)在知識邏輯,無需像關(guān)系數(shù)據(jù)庫那樣設(shè)計大量的表和字段,將知識邏輯與數(shù)據(jù)存儲結(jié)構(gòu)緊緊地捆綁在一起。RDF數(shù)據(jù)的結(jié)構(gòu)由本體決定并反映在RDF數(shù)據(jù)底層,與數(shù)據(jù)庫無關(guān)。這種特性讓圖數(shù)據(jù)庫擁有一個重要優(yōu)點:有著強大的靈活性和可擴展性,當本體有所變化或有新的數(shù)據(jù)增加時,只是新節(jié)點與邊的增加,可以隨時更新數(shù)據(jù)而不會對原有數(shù)據(jù)產(chǎn)生影響。
由于本體、RDF、圖數(shù)據(jù)庫從數(shù)據(jù)結(jié)構(gòu)到數(shù)據(jù)編碼,再到數(shù)據(jù)存儲的整個周期,都有著極大的靈活性和可擴展性,所以項目建設(shè)的流程就可以是一個不斷反復、迭代的流程,而無需一蹴而就。例如,在建設(shè)“名人手稿檔案知識庫”中的人名規(guī)范檔時,對名人的各種基本信息、社會關(guān)系、職銜數(shù)據(jù)分步驟加工和導入,一部分人只有生卒年、籍貫等數(shù)據(jù),缺少職銜、社會關(guān)系數(shù)據(jù),但并不影響項目的總體進程,可以在流程的任何階段進行補充,甚至在系統(tǒng)開發(fā)完成后還可以對本體進行微調(diào),或?qū)胄碌臄?shù)據(jù)。圖6是本體屬性增加后實例屬性增加的示意圖,試圖說明在項目流程的任意階段,數(shù)據(jù)結(jié)構(gòu)的修改和數(shù)據(jù)本身的修改不影響原有數(shù)據(jù),只是節(jié)點的增加和節(jié)點之間邊的增加。
圖6 本體屬性增加后實例屬性增加示意圖
在調(diào)研眾多RDF Store后,項目采用Open Link Software公司的開源版Virtuoso來存儲與名人手稿檔案資源直接相關(guān)的RDF數(shù)據(jù),同時利用關(guān)系數(shù)據(jù)庫來存儲系統(tǒng)的流程控制、業(yè)務(wù)邏輯、用戶訪問數(shù)據(jù)。在開發(fā)方面,采用語義萬維網(wǎng)的相關(guān)技術(shù),如RDF數(shù)據(jù)查詢語言SPARQL和Jena開發(fā)框架,實現(xiàn)對RDF數(shù)據(jù)的查詢和增刪改操作。
知識服務(wù)是用數(shù)據(jù)可視化技術(shù)將機器可讀的數(shù)據(jù)以用戶喜聞樂見的形式展示出來,變成能被人辨識、理解、發(fā)現(xiàn)、探索和勘誤的知識。數(shù)字人文領(lǐng)域常見的數(shù)據(jù)可視化方式有時空分析、社會關(guān)系分析、實體關(guān)系分析、文本統(tǒng)計分析等。上圖“名人手稿檔案庫”采用這幾種數(shù)據(jù)可視化方式。比如,在地圖上展示名人的籍貫分布情況,并支持用戶在地圖上點選一個區(qū)域來發(fā)現(xiàn)籍貫為該區(qū)域范圍內(nèi)的名人的手稿檔案文獻;以名人的出生時間作為時間軸,用戶可拖動時間軸,實時展示在某段時間內(nèi)出生的名人的手稿檔案文獻;利用名人間的信函、電報的數(shù)據(jù),用戶可以發(fā)現(xiàn)人與人之間的社會關(guān)系和聯(lián)系的強弱度,或者發(fā)現(xiàn)任意兩個人之間的通信通電情況。目前有大量優(yōu)秀的可以集成到數(shù)字人文平臺中的數(shù)據(jù)可視化的工 具 ,如 D3.js、Data.js、Tableau、Gephi、Baidu Echarts、Zoom Charts,本項目主要采用Zoom Charts。Zoom Charts支持各種統(tǒng)計圖、關(guān)系圖、時空圖的生成,時空可視化中用高德地圖作為地圖服務(wù)工具。
Web2.0技術(shù)是2000年后蓬勃發(fā)展的一項技術(shù),支持用戶貢獻內(nèi)容(UGC)。在本項目中,這項技術(shù)被應(yīng)用于支持用戶之間的交流和在線研究。用戶可以針對一件檔案發(fā)表留言,貢獻自己的疑問、觀點和研究心得,還可以在手稿的掃描圖片上針對任何區(qū)域做標記,留下自己的筆記,并決定是否和他人共享筆記的內(nèi)容。
如果說知識服務(wù)是面向人的服務(wù),那么開放數(shù)據(jù)服務(wù)則是面向機器的服務(wù)。關(guān)聯(lián)開放數(shù)據(jù)(LOD)是近年來圖書館、檔案館、博物館等文化機構(gòu)采用得較多的數(shù)據(jù)開放技術(shù)。上圖的數(shù)據(jù)開放建立在關(guān)聯(lián)開放數(shù)據(jù)的基礎(chǔ)上,主要提供開放數(shù)據(jù)接口而非以數(shù)據(jù)打包下載的方式來支持在Web上調(diào)用數(shù)據(jù)。開放數(shù)據(jù)接口有三種:Sparql Endpoint、RestfulAPI、Content Negotiation。SparqlEndpoint是RDF存儲庫Virtuoso本身提供的接口,只要開放相關(guān)的端口即可在Web上被訪問,但要求開發(fā)人員熟練掌握SPARQL語言;RestfulAPI是建立在HTTP協(xié)議上的數(shù)據(jù)接口,返回JSON-LD格式的數(shù)據(jù),可被大部分程序語言調(diào)用和解析;ContentNegotiation允許程序訪問資源的HTTP URI,并在http header中指明返回數(shù)據(jù)的內(nèi)容類型來獲取相應(yīng)格式的數(shù)據(jù)。
“名人手稿檔案庫”是上圖整個數(shù)字人文平臺的一部分,其建設(shè)方法、流程、技術(shù)也和數(shù)字人文平臺的建設(shè)基本一致。經(jīng)過3年多的探索,這套方法、流程和所采用的技術(shù)逐步趨于成熟,其特點是:數(shù)據(jù)架構(gòu)和技術(shù)平臺的靈活性和可擴展性,支持在不斷的迭代中完善數(shù)據(jù)、模型和功能,減輕了項目建設(shè)和系統(tǒng)實施的壓力。該項目并非盡善盡美,仍然需要進一步摸索,尤其是對各個具體的人文領(lǐng)域的研究方法、研究資料、應(yīng)用場景的了解和把握;需要不斷優(yōu)化知識組織方法和知識服務(wù)功能,做到真正從實處幫助用戶更好地利用圖書館的資源,提高研究的效率,擴展研究視野,發(fā)現(xiàn)新的研究課題;繼續(xù)發(fā)揮互聯(lián)網(wǎng)時代圖書館的職能,加快加強數(shù)據(jù)加工和知識重組工作,將知識組織的成果開放給社會,成為互聯(lián)網(wǎng)時代人文研究數(shù)據(jù)基礎(chǔ)設(shè)施的一部分。
[1][6]馮晴,陳惠蘭.國外圖書館參與數(shù)字人文研究述評[J].圖書館雜志,2016(2):14-19.
[2]夏翠娟,劉煒,陳濤,等.家譜關(guān)聯(lián)數(shù)據(jù)服務(wù)平臺的開發(fā)實踐[J].中國圖書館學報,2016(3):27-38.
[3]夏翠娟.以連接開放資料服務(wù)為基礎(chǔ)的數(shù)位人文平臺建設(shè)方案研究[J].圖書館學與資訊科學,2017(4):47-70.
[4]朱本軍,聶華.互動與共生:數(shù)字人文與史學研究——第二屆“北京大學數(shù)字人文論壇”綜述[J].大學圖書館學報,2017(4):18-22.
[5]周晨.國際數(shù)字人文研究特征與知識結(jié)構(gòu)[J].圖書館論壇,2017(4):1-8.
[7]明海英.在困惑中追尋前沿研究方向——記武漢大學出版科學系教授王曉光[N].中國社會科學報,2014-02-21.
[8]AlisonAbbott.Thetimemachine’reconstructingancient Venice’ssocialnetworks[J].Nature,2017,546(7658):341-344.
Construction of Library Digital Humanities Projects for Knowledge Services:Method,Process and Technology
XIA Cuijuan,ZHENG Lei,HE Chenzhi
Digital humanities,which is the combination of modern information technology and traditional humanities research method,has been regarded as a hot topic in recent years.As the resource preservation and service centers for humanities research,libraries are experiencing the shift from resources management and document search services to data management and knowledge services.With the support of semantic web,big data,artificial intelligence and other new technologies,plus the methods of knowledge reorganization in the Internet Age,the digital humanities projects of libraries are dedicated to providing knowledge services which are different from traditional document search services.Taking the“Celebrities Manuscript Archives”of Shanghai Library as an example,and with reference to the theory and practice of other digital humanities projects,this paper summarizes the construction process of library digital humanities projects from the aspects of methods,work flow and technical framework.
digital humanities;knowledge organization;knowledge services;Shanghai Library
格式 夏翠娟,張磊,賀晨芝.面向知識服務(wù)的圖書館數(shù)字人文項目建設(shè):方法、流程與技術(shù)[J].圖書館論壇,2018(1):1-9.
夏翠娟,上海圖書館系統(tǒng)網(wǎng)絡(luò)中心研發(fā)部高級工程師;張磊,上海圖書館系統(tǒng)網(wǎng)絡(luò)中心研發(fā)部高級工程師;賀晨芝,上海圖書館系統(tǒng)網(wǎng)絡(luò)中心研發(fā)部助理工程師。
2017-10-10
劉洪;英文編輯:楊繼賢)