陳 濤,祝 蕊,蘇日娜,王 蕾
人類在與自然、社會的交互中產(chǎn)生了龐大的數(shù)據(jù),這些數(shù)據(jù)中包含大量描述自然界和人類社會客觀規(guī)律的有用信息,并以圖片、聲音、文字、視頻等載體形式進(jìn)行呈現(xiàn)和存儲。在傳統(tǒng)人文研究中,研究人員需要依靠公共或私人領(lǐng)域的藏書和文獻(xiàn)資料,自行搜集研究材料。在大多數(shù)情況下,人們在獲取這些信息時很難留下瀏覽痕跡,或在查找材料過程中一無所獲,或是無法將有關(guān)內(nèi)容很好地整合與聯(lián)系起來。隨著數(shù)字化生態(tài)系統(tǒng)的擴張,數(shù)字人文從方法論和研究范式上創(chuàng)新了人文學(xué)科的研究方法。為解決上述問題,GLAM等文化遺產(chǎn)機構(gòu)不斷將存儲在館內(nèi)的各種資料進(jìn)行數(shù)字化、數(shù)據(jù)化、文本化和語義化,積極開展數(shù)字人文基礎(chǔ)設(shè)施建設(shè),如開發(fā)數(shù)字人文項目、數(shù)字人文網(wǎng)站、主題數(shù)據(jù)庫,旨在從新角度、新方法、新思路上挖掘數(shù)據(jù)的價值。
隨著數(shù)字人文研究熱度的提升和諸多數(shù)字人文項目落地,越來越多的人文學(xué)者思考如何從不同角度來探討和構(gòu)建數(shù)字人文基礎(chǔ)設(shè)施,以降低數(shù)字人文研究門檻、規(guī)范數(shù)字人文研究模式、提升數(shù)字人文研究效率。Chris Alen Sula指出要重新審視數(shù)字人文基礎(chǔ)設(shè)施建設(shè)問題,要使信息專業(yè)人員為該領(lǐng)域的發(fā)展和未來做出貢獻(xiàn)[1]。劉煒將數(shù)字人文基礎(chǔ)設(shè)施定義為一種支持人文科學(xué)研究活動的基礎(chǔ)設(shè)施,包括全球范圍內(nèi)與研究主題相關(guān)的文獻(xiàn)、數(shù)據(jù)、軟件工具、學(xué)術(shù)交流和出版的公用設(shè)施及相關(guān)服務(wù)等,并提出數(shù)字人文基礎(chǔ)設(shè)施模型,探討如何從國家或機構(gòu)層面建設(shè)數(shù)字人文基礎(chǔ)設(shè)施[2]。其他人文學(xué)者的數(shù)字人文基礎(chǔ)設(shè)施建設(shè)研究主要集中在網(wǎng)絡(luò)基礎(chǔ)設(shè)施、數(shù)據(jù)基礎(chǔ)設(shè)施和研究基礎(chǔ)設(shè)施等方面。
網(wǎng)絡(luò)基礎(chǔ)設(shè)施可理解為支持大規(guī)模數(shù)字對象的存儲、共享、分析的大型基礎(chǔ)設(shè)施。包弼德指出,無論是中國還是美國都要重視建設(shè)網(wǎng)絡(luò)基礎(chǔ)設(shè)施(Cyber Infrastructure),以解決這些獨立于特定的語言、項目、學(xué)科而建設(shè)的軟件平臺缺乏關(guān)聯(lián)造成的重復(fù)性工作和資源浪費情況[3]。
數(shù)據(jù)基礎(chǔ)設(shè)施以數(shù)據(jù)為基本組成單位,圍繞數(shù)據(jù)構(gòu)建通用的、規(guī)范的數(shù)據(jù)應(yīng)用生態(tài)。夏翠娟分析了面向人文研究的數(shù)據(jù)基礎(chǔ)設(shè)施的一般性功能需求和技術(shù)規(guī)范,探討圖書館與大數(shù)據(jù)技術(shù)結(jié)合起來的方法論貢獻(xiàn)[4]。顏佳等通過分析我國圖檔博領(lǐng)域圖像數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)現(xiàn)狀,指出圖像數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)研究形成一批具有影響力的機構(gòu)和作者,正在受到越來越多的關(guān)注,將成為新的研究熱點[5]。
研究基礎(chǔ)設(shè)施集中于通用的數(shù)字人文研究平臺的實施和推廣。DocuSky是一個個人化的數(shù)位人文協(xié)作平臺,可以為研究者提供數(shù)位人文研究服務(wù);并且同Markus、CBDB、Palladio 兼容,實現(xiàn)跨平臺操作,形成更全面的工作流程和功能[6]。華東師范大學(xué)人文與社會科學(xué)研究院通過社會科學(xué)數(shù)據(jù)共享平臺、創(chuàng)新創(chuàng)業(yè)開放數(shù)據(jù)平臺、數(shù)字人文研究支撐平臺、數(shù)字人文人工智能平臺等該校師生提供穩(wěn)定、開放的線上文科科研公共服務(wù)[7-8]。我國臺灣地區(qū)中華文明時空基礎(chǔ)架構(gòu)(CCTS)、復(fù)旦大學(xué)中國歷史地理信息系統(tǒng)(CHGIS)、浙江大學(xué)學(xué)術(shù)地圖發(fā)布平臺等項目都可以看成研究基礎(chǔ)設(shè)施[9-10],為學(xué)者充分利用信息技術(shù)工具解析呈現(xiàn)中國史料和進(jìn)行深入研究提供便利條件。
除上述三類基礎(chǔ)設(shè)施研究外,魯?shù)幕A(chǔ)設(shè)施要素層、API接口服務(wù)層、應(yīng)用平臺、應(yīng)用終端四方面提出基于API技術(shù)構(gòu)建數(shù)字人文基礎(chǔ)設(shè)施的架構(gòu),以實現(xiàn)資源互聯(lián)[11]。針對特定的文化遺產(chǎn)領(lǐng)域,王曉光提出文化遺產(chǎn)圖像語義信息聚合與表達(dá)框架,為文化遺產(chǎn)圖像的深度應(yīng)用探索新的基礎(chǔ)框架[12]。歐洲D(zhuǎn)ATABENC聯(lián)合會開發(fā)的面向文化遺產(chǎn)研究的基礎(chǔ)設(shè)施DatabencArt和EDUBBA旨在利用信息技術(shù)傳播文化遺產(chǎn)領(lǐng)域知識[13-14]。
綜上所述,國內(nèi)外數(shù)字人文基礎(chǔ)設(shè)施研究多以理論性和平臺性為主,對數(shù)據(jù)之間的交互、資源的共建共享、平臺適用性等標(biāo)準(zhǔn)化問題缺乏詳細(xì)明確的研究與討論。鑒于此,本文分析數(shù)字人文基礎(chǔ)設(shè)施中常用的核心語義技術(shù),并應(yīng)用這些語義技術(shù)進(jìn)行模塊化設(shè)計,形成語義發(fā)布基礎(chǔ)設(shè)施整體框架,同時將框架應(yīng)用于數(shù)字人文實際項目。
語義發(fā)布基礎(chǔ)設(shè)施主要針對數(shù)字人文建設(shè)中的結(jié)構(gòu)化數(shù)據(jù)和圖像資源,采用語義框架及相關(guān)技術(shù),從資源組織、知識關(guān)聯(lián)、圖像交互等方面進(jìn)行統(tǒng)一設(shè)計、統(tǒng)一架構(gòu)、相互關(guān)聯(lián),以此形成的具有開放、共享、交互特性的基礎(chǔ)框架。該基礎(chǔ)設(shè)施的提出旨在為相關(guān)學(xué)科領(lǐng)域?qū)W者提供支撐跨學(xué)科研究時資源共享交互的解決方案;通過搭建能夠幫助研究人員發(fā)現(xiàn)新問題的平臺,以提供更多的資源類型、更大的數(shù)據(jù)規(guī)模、更新的技術(shù)應(yīng)用和更優(yōu)質(zhì)的服務(wù)體驗,更好地補充數(shù)字人文基礎(chǔ)設(shè)施建設(shè)和支持?jǐn)?shù)字人文研究。
語義發(fā)布基礎(chǔ)設(shè)施框架見圖1,主要由數(shù)據(jù)語義發(fā)布、本體語義發(fā)布和圖像語義發(fā)布三部分組成。數(shù)據(jù)語義發(fā)布聚焦RDF資源的統(tǒng)一發(fā)布和數(shù)據(jù)集間知識關(guān)聯(lián)與發(fā)現(xiàn);本體語義發(fā)布側(cè)重于本體的在線發(fā)布與復(fù)用,以及本體多形態(tài)呈現(xiàn);圖像語義發(fā)布追求圖像資源之間的交互共享和對象多模態(tài)標(biāo)注。三部分之間不能通過簡單的技術(shù)堆砌形成,而需要整體設(shè)計、全局考慮。三者之間可散可合,每部分都可以獨立使用,提供各自的語義發(fā)布服務(wù),又可以互相關(guān)聯(lián)、三位一體,形成跨資源、跨模態(tài)的語義基礎(chǔ)設(shè)施。三位一體時,數(shù)據(jù)語義發(fā)布需要借助發(fā)布的本體進(jìn)行資源組織,圖像語義發(fā)布中對圖像的組織和多模態(tài)標(biāo)注同樣需要用到本體知識;同時,圖像語義發(fā)布也可以通過發(fā)布的本體實現(xiàn)圖像知識和關(guān)聯(lián)數(shù)據(jù)集的語義關(guān)聯(lián)。語義資源區(qū)別于傳統(tǒng)資源最大的區(qū)別就是給每個實體(包括資源和圖像)賦予全網(wǎng)唯一的URI地址。有了URI,資源才脫離物理空間的限制,成為網(wǎng)絡(luò)中流通的數(shù)據(jù)節(jié)點[15]。而RDF和SPARQL規(guī)范數(shù)據(jù)集的結(jié)構(gòu)模型和檢索語言,是數(shù)據(jù)之所以能成為語義數(shù)據(jù)的最基本要求。當(dāng)然,目前該語義基礎(chǔ)設(shè)施主要針對結(jié)構(gòu)化數(shù)據(jù)和圖像資源,將來還將融合更多的語義技術(shù)以支持音頻、視頻、3D模型等資源的發(fā)布。
圖1 語義發(fā)布基礎(chǔ)設(shè)施框架
數(shù)據(jù)語義發(fā)布基于關(guān)聯(lián)數(shù)據(jù)四原則構(gòu)建[16],主要實現(xiàn)RDF資源的統(tǒng)一發(fā)布和知識關(guān)聯(lián)與發(fā)現(xiàn)。關(guān)聯(lián)數(shù)據(jù)(Linked Data)是語義網(wǎng)(Semantic Web)的一種輕量級實現(xiàn),描述了通過可鏈接的URI方式來發(fā)布、分享、連接Web中各類資源的方法。關(guān)聯(lián)數(shù)據(jù)并不是一種新的數(shù)據(jù),可看成是數(shù)據(jù)的一種新的組織和展現(xiàn)方式,它也不等于數(shù)據(jù)關(guān)聯(lián)和知識圖譜。大數(shù)字時代,越來越多的人文學(xué)者從事學(xué)術(shù)研究時,需要借助于網(wǎng)絡(luò)的力量,應(yīng)用多方的數(shù)據(jù)作為研究支撐,關(guān)聯(lián)數(shù)據(jù)方案可成為數(shù)據(jù)鏈接和中轉(zhuǎn)的橋梁[17-20]。
數(shù)字人文研究過程中,除常見的存于各種關(guān)系型數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)外,還有大量半結(jié)構(gòu)化(Excel、XML、HTML、JSON等)和非結(jié)構(gòu)化(網(wǎng)頁內(nèi)容、文本內(nèi)容等)數(shù)據(jù)。這些數(shù)據(jù)有的存于各個機構(gòu)內(nèi)部的數(shù)據(jù)庫中,有的甚至是以文件形式存于磁盤中,造成嚴(yán)重的數(shù)據(jù)孤島現(xiàn)象,數(shù)據(jù)之間的交融和再利用基本為零。由于數(shù)據(jù)形式多樣,這里僅探討常見的數(shù)據(jù)類型的語義解決方案。圖2為數(shù)據(jù)語義應(yīng)用建設(shè)流程,總體來看,數(shù)據(jù)的語義化建設(shè)主要包括數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)發(fā)布、數(shù)據(jù)消費三步。
圖2 數(shù)據(jù)語義應(yīng)用建設(shè)流程
(1)數(shù)據(jù)轉(zhuǎn)換是為了實現(xiàn)不同數(shù)據(jù)之間的語法一致性,不同類型的數(shù)據(jù)只有語法一致,擁有相同的數(shù)據(jù)結(jié)構(gòu)和組織形式,關(guān)聯(lián)和交互才有可能。數(shù)據(jù)轉(zhuǎn)換時,通常需要借助設(shè)計好的本體,對關(guān)系型數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)可以采用D2R進(jìn)行RDF轉(zhuǎn)換;半結(jié)構(gòu)化數(shù)據(jù)需要根據(jù)本體映射,開發(fā)相應(yīng)的格式解析器進(jìn)行RDF解析;而非結(jié)構(gòu)化數(shù)據(jù)往往需要借助自然語言處理、實體識別、關(guān)系抽取等技術(shù)門檻較高的數(shù)字技術(shù)來實現(xiàn)資源的RDF結(jié)構(gòu)化。
(2)數(shù)據(jù)發(fā)布是數(shù)據(jù)關(guān)聯(lián)的前提,發(fā)布是為了更好開放與關(guān)聯(lián)。數(shù)據(jù)只有放在網(wǎng)絡(luò)中成為節(jié)點,才能被更多資源所發(fā)現(xiàn)。通常RDF數(shù)據(jù)集通過各自的SPARQL Endpoint對外提供訪問,不同機構(gòu)、不同數(shù)據(jù)源具有不同的SPARQL Endpoint地址,這就給數(shù)據(jù)使用者帶來不便。關(guān)聯(lián)數(shù)據(jù)發(fā)布中心可以對請求的資源進(jìn)行轉(zhuǎn)發(fā),實現(xiàn)資源的統(tǒng)一調(diào)度。而關(guān)聯(lián)是為了實現(xiàn)不同數(shù)據(jù)之間的語義一致性,單一數(shù)據(jù)集中的資源往往僅反映某一個或某一些資源特性。比如,中國歷代人物傳記資料庫(CBDB)就以人物傳記和人物關(guān)系為資源特色,但缺少人物的古籍、作品等相關(guān)成果。不同數(shù)據(jù)來源中具有同一資源(實體)的數(shù)據(jù)被關(guān)聯(lián)后,才能從多視角來描述資源,實現(xiàn)資源的大一統(tǒng),形成更全面的資源畫像,關(guān)聯(lián)后的數(shù)據(jù)同樣也需要進(jìn)行發(fā)布。
(3)數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)發(fā)布都是為了最終的數(shù)據(jù)消費服務(wù),通過數(shù)據(jù)語義發(fā)布引擎實現(xiàn)對跨數(shù)據(jù)源的資源進(jìn)行聯(lián)邦檢索、知識關(guān)聯(lián)和發(fā)現(xiàn)、知識圖譜展示等服務(wù)。數(shù)據(jù)語義發(fā)布引擎已應(yīng)用于上海圖書館歷史人文大數(shù)據(jù)平臺、華東師范大學(xué)數(shù)字方志集成平臺和數(shù)字人文研究支撐平臺、南通大學(xué)爾雅詞表發(fā)布平臺[21]等數(shù)字人文研究平臺。
本體設(shè)計是數(shù)字人文項目建設(shè)過程中最為基礎(chǔ)和核心的工作,在使用過程中往往令很多人文學(xué)者為之苦惱,原因包括:一是數(shù)字人文本體眾多,基本上每個專題知識庫都有自己特有的本體屬性,人文學(xué)者在數(shù)字人文建設(shè)過程中,不清楚去何處查詢相關(guān)本體。二是當(dāng)查找到多個本體或者多個相似屬性時,不清楚到底該使用何種本體、何條屬性來描述自己的數(shù)據(jù)資源。三是往往很多本體都提供OWL格式的文件下載,不利于對本體的準(zhǔn)確理解和直觀認(rèn)知。四是當(dāng)復(fù)用已有本體時,不清楚如何復(fù)用本體中的類和屬性。
本體語義發(fā)布采用RDF、圖數(shù)據(jù)庫、SPARQL、OWL等語義網(wǎng)相關(guān)技術(shù)構(gòu)建,旨在實現(xiàn)本體管理的流程化與平臺化。圖3給出本體常用的語義應(yīng)用建設(shè)流程,主要分為本體設(shè)計、本體發(fā)布和本體消費三步。本體在設(shè)計時,建議采用“盡量復(fù)用、必要繼承、無奈擴展”的設(shè)計原則,以減少后期本體對齊和語義關(guān)聯(lián)時所帶來的額外代價。
圖3 本體語義應(yīng)用建設(shè)流程
(1)“盡量復(fù)用”強調(diào)設(shè)計本體時,盡可能使用已經(jīng)被行業(yè)或?qū)W者所接受的公開本體,如描述人物信息的FOAF 本體、描述書目框架的BIBFRAME本體。當(dāng)然,一些常用的詞表也是首選,如DC元數(shù)據(jù)。
(2)“必要繼承”指當(dāng)復(fù)用的本體中的類和屬性不能滿足研究需求時,優(yōu)先考慮在繼承已有本體的類和屬性的同時,設(shè)置其子類或子屬性,這樣資源既可以使用繼承的類和屬性,又可以使用其新增的子類和子屬性。比如,定義人的字、號時,可以繼承foaf:Person 類,既可以使用foaf:Person 下的屬性,又可以使用自定義的字、號屬性。
(3)“無奈擴展”主要針對一些特有的元數(shù)據(jù)信息和業(yè)務(wù)需求而去新建的類及屬性。比如,契約類文書、賬簿類文書、碑拓等資源無現(xiàn)有的本體可以復(fù)用,則需要根據(jù)各自的資源特色和業(yè)務(wù)需求設(shè)計專屬類及屬性。
設(shè)計好的本體一般有兩類用途:一是服務(wù)數(shù)據(jù)轉(zhuǎn)換,在進(jìn)行實例數(shù)據(jù)的知識組織時,需要依據(jù)設(shè)計好的本體進(jìn)行RDF轉(zhuǎn)換,這里和數(shù)據(jù)語義化建設(shè)流程中的本體作用一致;二是服務(wù)知識理解,本體是知識庫的概念抽象和知識表示,人們常通過讀懂本體來了解知識庫的資源結(jié)構(gòu),此時如僅僅提供本體OWL文件,直觀性和可讀性較差。因此,設(shè)計好的本體文件可以通過本體知識服務(wù)中心進(jìn)行發(fā)布,發(fā)布后可以進(jìn)行本體的多維查詢(類、屬性、分類、Metadata信息等)、自動序列化(RDF/XML、 TTL、 N3、 JSONLD)、多形態(tài)呈現(xiàn)(列表、樹形、圖譜可視化)、版本控制、API 調(diào)用等核心功能,實現(xiàn)更好的本體消費。發(fā)布本體時也會自動關(guān)聯(lián)到該本體所復(fù)用的其他本體,增強本體的可讀性與易用性。本體語義發(fā)布引擎已成為數(shù)字人文資源建設(shè)和研究中重要的基礎(chǔ)設(shè)施,成功應(yīng)用于CBDB關(guān)聯(lián)數(shù)據(jù)平臺、上海圖書館歷史人文大數(shù)據(jù)平臺(家譜、古籍、盛檔、手稿等)、華東師范大學(xué)近現(xiàn)代書畫印本數(shù)據(jù)庫、中國科學(xué)院π評價指數(shù)平臺以及服務(wù)于南京農(nóng)業(yè)大學(xué)、上海大學(xué)、南通大學(xué)眾學(xué)者的學(xué)術(shù)研究中。
在幾千年歷史長河中,前人創(chuàng)造了豐富的歷史文化財富,留下了大量文物遺存,很多文物歷經(jīng)歲月磨難,很難再?,F(xiàn)于世,此時圖像就成為最接近于原物的代替品,因此對圖像的研究愈發(fā)重要。圖像資源是數(shù)字人文研究中不可或缺的資源類型,中國的數(shù)字人文研究更離不開圖像。數(shù)字人文研究中圖像不應(yīng)僅作為某些資源的附屬物,而應(yīng)和數(shù)據(jù)一樣成為資源流通的節(jié)點,參與共享與交互。相比結(jié)構(gòu)化數(shù)據(jù)的廣泛研究和應(yīng)用,圖像資源利用率低、語義化應(yīng)用程度差,圖像孤島現(xiàn)象嚴(yán)重,嚴(yán)重制約了以圖像為主要資源類型的數(shù)字人文研究的開展[22],甚至可以說缺少圖像資源的數(shù)字人文研究是片面的、不完整的。
結(jié)合國際圖像互操作框架(IIIF)[23-24]和本體、關(guān)聯(lián)數(shù)據(jù)、SPARQL等語義技術(shù),構(gòu)建圖像語義發(fā)布引擎,實現(xiàn)了圖像跨機構(gòu)的共享與交互,為圖像的語義應(yīng)用提供了可行的實施方案,并已在多個數(shù)字人文項目中得到體現(xiàn)。圖4為圖像語義應(yīng)用建設(shè)流程,這里同樣將整個流程分為三個部分:圖像轉(zhuǎn)換、圖像組織和圖像消費。
圖4 圖像語義應(yīng)用建設(shè)流程
(1)圖像轉(zhuǎn)換用來將JPG、PNG、TIF、GIF等不同格式的原始圖像轉(zhuǎn)為IIIF框架要求的圖像格式,圖像格式推薦為JP2和TIFF。這一步通??梢越柚鷮崿F(xiàn)了IIIF框架中Image API要求的圖像服務(wù)器(如Cantaloupe、IIP Server)完成,經(jīng)過圖像服務(wù)器發(fā)布后的每幅圖像都指定了唯一的URI地址。
(2)發(fā)布的圖像地址將會依據(jù)IIIF 框架中的Presentation API標(biāo)準(zhǔn)進(jìn)行組織,形成圖像資源清單(Manifest)文件,這一步可以在圖像語義發(fā)布引擎中完成。對網(wǎng)絡(luò)中已經(jīng)使用IIIF框架要求發(fā)布的圖像資源,同樣可以在該引擎中對其中的圖像進(jìn)行重組,形成新的清單文件。
(3)圖像語義發(fā)布引擎除了可以實現(xiàn)圖像的重組(復(fù)用),還可以實現(xiàn)IIIF框架中的Search API對圖像內(nèi)容進(jìn)行檢索。當(dāng)然,檢索的前提是需要對圖像內(nèi)容進(jìn)行注釋,由于很多在線的IIIF資源并不提供圖像的注釋功能,因此提出圖像語義發(fā)布引擎將實現(xiàn)圖像注釋內(nèi)容和圖像資源本身相互分離。此外,圖像的消費還包括圖像的語義標(biāo)注。語義標(biāo)注將通過本體知識服務(wù)中心發(fā)布的本體及屬性將圖像局部對象和開放的關(guān)聯(lián)數(shù)據(jù)集中的資源進(jìn)行語義關(guān)聯(lián),從而獲得更為豐富和全面的圖像知識。
圖像語義發(fā)布引擎將成為圖像資源應(yīng)用和研究的重要基礎(chǔ)設(shè)施,目前已應(yīng)用的領(lǐng)域包括上海圖書館歷史人文大數(shù)據(jù)平臺其中的民國報刊、民國廣告等圖像資源的組織和深度應(yīng)用,以及上海交通大學(xué)民國報刊、中山大學(xué)徽州文書平臺、南通大學(xué)爾雅音圖、上海財經(jīng)大學(xué)永樂大典等特色資源庫。
文中提出的語義發(fā)布基礎(chǔ)設(shè)施框架和方案已成功應(yīng)用于上海圖書館“歷史人文大數(shù)據(jù)平臺”,該平臺主要建立在已有的家譜、古籍、名人手稿、盛宣懷檔案、民國報刊等數(shù)字人文項目的基礎(chǔ)上,旨在通過統(tǒng)一的平臺、統(tǒng)一的架構(gòu)、統(tǒng)一的模型提供更多的資源類型、更大的數(shù)據(jù)規(guī)模、更新的技術(shù)應(yīng)用和更優(yōu)質(zhì)的服務(wù)體驗,以尋求新的突破,為數(shù)字人文的應(yīng)用提供新的研究思路。
圖5為歷史人文大數(shù)據(jù)平臺(SHL-DHC)包含的各種資源語義架構(gòu),主要分為文獻(xiàn)(專題)知識庫、基礎(chǔ)知識庫和圖像知識庫三類。文獻(xiàn)知識庫主要有家譜、盛檔、古籍、紅色文獻(xiàn)、老電影、民國報刊等數(shù)字人文專題庫,此類專題庫可獨立提供服務(wù),亦可通過歷史人文大數(shù)據(jù)平臺統(tǒng)一進(jìn)行檢索和分析。圍繞文獻(xiàn)知識庫可衍生出基礎(chǔ)知識庫和圖像知識庫,文獻(xiàn)知識庫中涉及到的人名、地名、紀(jì)年等信息被抽取出來組成基礎(chǔ)知識庫,基礎(chǔ)知識庫包括人名、姓氏、紀(jì)年、機構(gòu)、印章、地理、避諱字、刻工、事件、建筑等各個基礎(chǔ)子庫,這些子庫將共同為文獻(xiàn)知識庫提供基礎(chǔ)數(shù)據(jù)支持。在不同文獻(xiàn)知識庫建設(shè)過程中,當(dāng)遇到相同的實體時,可以調(diào)用基礎(chǔ)知識庫中該實體資源URI。通過實體URI,就可以將不同文獻(xiàn)庫中的相關(guān)知識進(jìn)行關(guān)聯(lián)。很多文獻(xiàn)知識庫中都包含圖像資源,如家譜、古籍、紅色文獻(xiàn)全文,各種手稿、檔案,電影海報、民國報刊等,這些圖像資源有的僅為某一個知識庫使用,有的需要為多個知識庫所共用。因此需要圍繞圖像,構(gòu)建圖像知識庫,即這里的圖像中臺。不同文獻(xiàn)知識庫中的圖像都將放入圖像中臺,對外提供統(tǒng)一的調(diào)用方式和圖像地址,供不同文獻(xiàn)知識庫使用。
圖5 歷史人文大數(shù)據(jù)平臺資源語義架構(gòu)
歷史人文大數(shù)據(jù)平臺是典型的多源知識庫集成方案,平臺中的基礎(chǔ)知識庫和文獻(xiàn)知識庫都使用RDF(資源描述框架)進(jìn)行資源組織,并通過數(shù)據(jù)語義發(fā)布引擎進(jìn)行資源的發(fā)布和調(diào)用;資源組織時需要設(shè)計不同的知識本體,這些本體通過本體語義發(fā)布引擎進(jìn)行本體的發(fā)布。平臺中的所有圖像資源都采用統(tǒng)一的圖像服務(wù)器進(jìn)行存儲,并通過圖像語義發(fā)布引擎對外提供圖像組織、內(nèi)容標(biāo)注、知識分享等服務(wù)。目前歷史人文大數(shù)據(jù)平臺中140多萬條的書目數(shù)據(jù)、42.7萬CBDB人物數(shù)據(jù)、130多萬條人名規(guī)范庫信息等皆采用數(shù)據(jù)語義發(fā)布方案;家譜、古籍、手稿、檔案等本體都采用本體語義發(fā)布方案;民國報刊、民國廣告等圖像資源采用圖像語義發(fā)布方案。
徽州文書是20世紀(jì)中國民間歷史文獻(xiàn)領(lǐng)域的重大發(fā)現(xiàn),由其形成和推動的徽學(xué)研究成為中國人文社會科學(xué)研究的重要領(lǐng)域。徽州文書獨特的原始性、唯一性、文物性和學(xué)術(shù)性為歷史學(xué)、社會學(xué)、民俗學(xué)等人文社會科學(xué)研究提供了珍貴的資料[25]。中山大學(xué)圖書館收藏徽州文書33萬余件,共100 多萬余頁圖像資源?;罩菸臅R平臺的建設(shè),語義發(fā)布基礎(chǔ)框架將在資源組織、內(nèi)容揭示、知識關(guān)聯(lián)、協(xié)同研究等方面起到無可替代的核心作用。
圖6 顯示了徽州文書數(shù)字人文平臺的語義存儲架構(gòu),完全融入文中提出的數(shù)字人文語義發(fā)布基礎(chǔ)設(shè)施的構(gòu)建方案。前期研究中,中山大學(xué)圖書館徽州文書小組已經(jīng)梳理出徽州文書不同類型的元數(shù)據(jù)信息,并抄錄部分徽州文書的著錄數(shù)據(jù),結(jié)合掃描的圖像資源,共同組成平臺的基礎(chǔ)數(shù)據(jù)。在平臺建設(shè)中,徽州文書數(shù)字人文平臺涉及徽州文書圖像資源、組織數(shù)據(jù)、內(nèi)容注釋數(shù)據(jù)、文書元數(shù)據(jù),以及平臺使用中產(chǎn)生的系統(tǒng)數(shù)據(jù)等,這些不同模態(tài)的數(shù)據(jù)不能用單一存儲機制,需要結(jié)合多種數(shù)據(jù)庫來提供不同的語義發(fā)布服務(wù)。
圖6 徽州文書數(shù)字人文平臺語義存儲架構(gòu)
(1)將圖像與文書內(nèi)容進(jìn)行分離,文書內(nèi)容的存儲使用 RDF 存儲(GraphDB)和 RDB 存儲(MariaDB)相結(jié)合。RDF存儲主要針對文書錄入的元數(shù)據(jù)信息,通過徽州文書本體對文書知識結(jié)構(gòu)進(jìn)行組織,并通過數(shù)據(jù)語義發(fā)布引擎進(jìn)行知識的發(fā)布。設(shè)計好的本體同樣通過本體語義發(fā)布引擎進(jìn)行發(fā)布,以便研究者對徽州文書結(jié)構(gòu)進(jìn)行了解和認(rèn)知。系統(tǒng)產(chǎn)生的非業(yè)務(wù)數(shù)據(jù)無需轉(zhuǎn)換成相應(yīng)的實體資源和知識發(fā)布,因此可以采用傳統(tǒng)的結(jié)構(gòu)方式存儲到MariaDB關(guān)系型數(shù)據(jù)庫中。
(2)圖像資源是徽州文書平臺建設(shè)中重點考慮的資源類型,文書圖像本身將會存儲在符合IIIF框架要求的圖像服務(wù)器中,并使用內(nèi)存數(shù)據(jù)庫Redis 對圖像進(jìn)行索引,以提高圖像的訪問效率?;罩菸臅脚_中文書全文圖像的展示將會從Redis中進(jìn)行圖像調(diào)用。同時圖像之間的組織結(jié)構(gòu)和圖像資源將會通過圖像語義發(fā)布引擎進(jìn)行對外發(fā)布,以實現(xiàn)跨資源圖像共享與交互。
(3)圖像之間的組織和注釋內(nèi)容(元數(shù)據(jù)著錄或者OCR識別)使用Apache Jena進(jìn)行存儲,同樣通過數(shù)據(jù)語義發(fā)布引擎進(jìn)行數(shù)據(jù)發(fā)布。圖像語義發(fā)布的圖像資源和數(shù)據(jù)予以發(fā)布的數(shù)據(jù),都將通過Elastic Search進(jìn)行索引。索引的文書圖像內(nèi)容和注釋內(nèi)容將會在徽州文書平臺中得到快速檢索、分面和統(tǒng)計。
徽州文書數(shù)字人文平臺正在建設(shè),已有部分文書圖像資源已采用圖像語義發(fā)布引擎進(jìn)行發(fā)布,后續(xù)將繼續(xù)進(jìn)行更多文書資源,甚至其他類型的特藏資源發(fā)布。采用語義發(fā)布基礎(chǔ)設(shè)施后,館藏資源將突破各自的物理空間限制,都將成為廣闊數(shù)據(jù)海洋中的一個節(jié)點,一個可以流通交互的數(shù)據(jù)節(jié)點。通過該數(shù)據(jù)節(jié)點,可以串聯(lián)起多源異構(gòu)的數(shù)據(jù)資源,為數(shù)字人文交叉研究提供數(shù)據(jù)層面的解決方案。除了數(shù)據(jù)的發(fā)布和檢索外,語義標(biāo)注、語義檢索、資源發(fā)現(xiàn)、知識圖譜分析等深層次的應(yīng)用與研究都離不開數(shù)據(jù)的開放與關(guān)聯(lián),也只有這樣,數(shù)據(jù)才能釋放更大的研究價值,也更加符合新文科建設(shè)所要求的交叉融合性、開放包容性與技術(shù)人文性。
隨著越來越多的數(shù)字人文項目的實施,業(yè)內(nèi)學(xué)者思考如何將數(shù)字人文研究相關(guān)環(huán)節(jié)規(guī)范化、基礎(chǔ)化、快捷化。數(shù)字人文基礎(chǔ)設(shè)施的提出順應(yīng)了人文研究發(fā)展的需要,也是新文科建設(shè)落實的最佳實踐。本文采用關(guān)聯(lián)數(shù)據(jù)、語義網(wǎng)、本體等核心技術(shù),針對本體、數(shù)據(jù)、圖像三類資源提出構(gòu)建數(shù)字人文語義發(fā)布基礎(chǔ)設(shè)施的方案,以實現(xiàn)不同數(shù)據(jù)集之間以及和圖像之間的語義組織與關(guān)聯(lián),以提升數(shù)據(jù)利用價值,結(jié)合上海圖書館歷史人文大數(shù)據(jù)平臺和中山大學(xué)徽州文書知識平臺論證語義發(fā)布基礎(chǔ)設(shè)施的可行性和可用性。上述數(shù)字人文語義發(fā)布基礎(chǔ)設(shè)施框架中,本體、數(shù)據(jù)、圖像三者之間環(huán)環(huán)相扣,循環(huán)映襯,互為依存。
本體是數(shù)字人文知識庫建設(shè)和融合的根基,數(shù)據(jù)和圖像是數(shù)字人文研究中最主要的兩大資源類型,因此“數(shù)據(jù)語義發(fā)布”“本體語義發(fā)布”“圖像語義發(fā)布”三位一體,三者的提出與建設(shè)從數(shù)據(jù)層實現(xiàn)了資源之間的互通共享,提升了數(shù)據(jù)的應(yīng)用和研究價值。數(shù)字人文語義發(fā)布基礎(chǔ)設(shè)施可以作為數(shù)字人文基礎(chǔ)設(shè)施研究的補充,能為數(shù)字人文研究中的專題知識庫和圖像資源的建設(shè)和有效利用帶來新的解決方案。鑒于目前該語義發(fā)布基礎(chǔ)設(shè)施已有效應(yīng)用于多所科研機構(gòu)和高校的數(shù)字人文項目建設(shè)以及人文學(xué)者的學(xué)術(shù)研究當(dāng)中,未來可以更多地應(yīng)用于GLAM的機構(gòu)中,為古籍、民間文獻(xiàn)、非物質(zhì)文化遺產(chǎn)以及其他圖像資源提供可描述、揭示、應(yīng)用的參考樣例。與此同時,本體、數(shù)據(jù)、圖像三個互通有無的中心應(yīng)用可為其他跨學(xué)科、跨領(lǐng)域的數(shù)字人文應(yīng)用提供基礎(chǔ)數(shù)據(jù)建設(shè)的可借鑒模型,一定程度上,擴大了數(shù)字人文的概念外延,也加深了數(shù)字人文語義發(fā)布基礎(chǔ)設(shè)施構(gòu)建的理論理解。