亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        整合異構(gòu)特藏資源 構(gòu)建數(shù)字人文系統(tǒng)*

        2018-09-27 06:39:46
        圖書館論壇 2018年10期
        關(guān)鍵詞:特藏異構(gòu)本體

        隨著數(shù)字圖書館的發(fā)展,越來越多的圖書館將本館擁有的實(shí)體特藏資源數(shù)字化、網(wǎng)絡(luò)化,各大高校圖書館積累了大量數(shù)字化的特色資源。網(wǎng)絡(luò)化的特藏資源是一筆寶貴的知識財(cái)富,不僅有利于特色資源的長期保存,加快人文知識的大眾普及,還能為人文學(xué)者的研究提供更好的支持。但是,分散在各高校的特藏資源存在只服務(wù)于本校師生的信息孤島現(xiàn)象。打破信息孤島,整合特藏資源,將優(yōu)化整合后的資源推向更廣泛的用戶平臺,可以為缺乏特藏資源的圖書館提供支持服務(wù),從而提高特藏資源的利用率。整合優(yōu)化后的特藏資源具有質(zhì)量高、資料完備的特點(diǎn),在此基礎(chǔ)上,借助GIS、數(shù)據(jù)可視化、文本挖掘等信息技術(shù),人文學(xué)者可以從整個(gè)宏觀的時(shí)空范圍和群體角度對特藏資源進(jìn)行觀察、提出問題和研究。

        1 數(shù)字人文系統(tǒng)概述

        1.1 數(shù)字人文發(fā)展概述

        數(shù)字人文的起源可以追溯至1949年的“人文計(jì)算”,Roberto Busa使用電腦對神學(xué)家St.Thomas Aquinas著作內(nèi)的字詞進(jìn)行大規(guī)模的處理,繼而經(jīng)歷了起步、鞏固、新發(fā)展和互聯(lián)網(wǎng)時(shí)代等四個(gè)演進(jìn)階段[1]。2004年《數(shù)字人文指南》(A Companion to Digital Humanities)出版,“數(shù)字人文”取代“人文計(jì)算”,并被廣泛傳播。數(shù)字人文的概念難以界定,但是其活動(dòng)特性可以用發(fā)現(xiàn)、標(biāo)注、比較、引用、取樣、闡釋與呈現(xiàn)等7個(gè)原術(shù)語來進(jìn)行概括[2]。早期數(shù)字人文的參與者主要集中在文學(xué)、計(jì)量史學(xué)、語言學(xué)等領(lǐng)域。隨著數(shù)字技術(shù)、計(jì)算技術(shù)的不斷發(fā)展,巨量的資料分析、地理空間分析、人員流動(dòng)軌跡分析成為可能,數(shù)字人文深刻地改變了人文學(xué)者的研究方式。數(shù)字人文受到越來越多的關(guān)注,數(shù)字人文組織迅速發(fā)展。截至2017年,全球范圍內(nèi)以“數(shù)字人文”為名稱的中心、項(xiàng)目、實(shí)驗(yàn)室等有190多個(gè)[3],包括斯坦福大學(xué)人文實(shí)驗(yàn)室、加拿大維多利亞大學(xué)人文計(jì)算與媒體中心、英國倫敦大學(xué)學(xué)院數(shù)字人文中心、德國哥廷根大學(xué)數(shù)字人文中心、日本立命館大學(xué)日本文化藝術(shù)數(shù)字人文中心等。2005年,全球最大的數(shù)字人文綜合型研究機(jī)構(gòu)國際數(shù)字人文組織聯(lián)盟(The Alliance of Digital Humanities Organizations, ADHO)成立,現(xiàn)任成員包括歐洲數(shù)字人文協(xié)會、計(jì)算機(jī)與人文協(xié)會、加拿大數(shù)字人文學(xué)會、澳大利亞數(shù)字人文協(xié)會、日本數(shù)字人文協(xié)會、數(shù)字人文中心,其目的是促進(jìn)和支持包括藝術(shù)和人文學(xué)科在內(nèi)的人文藝術(shù)領(lǐng)域內(nèi)的數(shù)字化教學(xué)與研究,作為一個(gè)基礎(chǔ)平臺,在研究、出版、合作和培訓(xùn)等方面提供支持[4]。國際數(shù)字人文研究的蓬勃發(fā)展也推動(dòng)著國內(nèi)數(shù)字人文研究的發(fā)展,2011年武漢大學(xué)成立數(shù)字人文研究中心,2014年“數(shù)字人文與語義技術(shù)”研討會在上海圖書館召開,2016年“數(shù)字人文論壇”在北京大學(xué)召開,同年北京大學(xué)數(shù)字人文小組成立,2017年上海圖書館年會上復(fù)旦大學(xué)人文社科數(shù)據(jù)研究所揭牌。

        雖然國內(nèi)數(shù)字人文的研究起步相較于國外較晚,但是近年來不斷快速發(fā)展,并且有了自主創(chuàng)新,例如古籍文本的可視化分析,中國歷史地理數(shù)據(jù)的應(yīng)用,上海世博會對《清明上河圖》的數(shù)字動(dòng)態(tài)再創(chuàng)作等。不難看出,數(shù)字人文在國外與國內(nèi)都受到了極大的關(guān)注,數(shù)字人文的理論不斷完善,實(shí)踐領(lǐng)域不斷延伸。數(shù)字人文的出現(xiàn)為歷史學(xué)、哲學(xué)、文學(xué)、宗教學(xué)和社會學(xué)等一系列學(xué)科的發(fā)展帶來了機(jī)遇。同時(shí),數(shù)字人文的發(fā)展也需要各學(xué)科協(xié)同創(chuàng)新、有機(jī)融合,學(xué)科間的不斷融合,才能有效地促進(jìn)學(xué)科間的資源共享和知識發(fā)現(xiàn),才能為數(shù)字人文的發(fā)展提供一個(gè)知識性、創(chuàng)造性的研究環(huán)境,才能為社會發(fā)展綿長歷史中人文精神的傳承起到推動(dòng)作用[5]。

        1.2 數(shù)字人文系統(tǒng)介紹

        早期的數(shù)字人文研究更多的是單個(gè)或幾個(gè)學(xué)者以電腦為工具,用計(jì)量方式對文學(xué)作品的文本進(jìn)行分析,如Roberto Busa對St.Thomas Aquinas著作進(jìn)行的大規(guī)模字詞處理,陳炳藻對《紅樓夢》的歸屬研究。隨著數(shù)字人文的快速發(fā)展,數(shù)字人文的開發(fā)需要更多的專家學(xué)者、普通大眾和機(jī)構(gòu)參與,數(shù)字人文系統(tǒng)應(yīng)運(yùn)而生。數(shù)字人文系統(tǒng)是以典藏機(jī)構(gòu)的數(shù)字化資源為核心,在此基礎(chǔ)上由基金會、機(jī)構(gòu)、領(lǐng)域?qū)<业戎С珠_發(fā)的系統(tǒng),系統(tǒng)不僅可以提供保存資料的典藏手段和尋找資料的檢索工具,還可以協(xié)助研究者重新組織、分析資料,提供一個(gè)探索環(huán)境,也可以通過眾包平臺功能、提供API方式等與外界交互,共同發(fā)展。典型的數(shù)字人文系統(tǒng)有中國歷史地理系統(tǒng)(CHGIS)、中國歷代人物傳記資料庫(CBDB)、唐宋文學(xué)編年地圖、上海圖書館家譜知識服務(wù)平臺、南京師范大學(xué)的華夏民族家譜地理信息系統(tǒng)、“臺灣中央研究院”的中華文明之時(shí)空基礎(chǔ)架構(gòu)(CCTS)、臺灣歷史文化地圖(THGIS)、臺灣歷史數(shù)位圖書館(THDL),除此之外,早期的HathiTrust、DPLA(Digital Public Library of America)等基礎(chǔ)設(shè)施平臺也開始提供數(shù)字人文服務(wù)。表1分別從系統(tǒng)創(chuàng)建的資料來源、提供的功能及工具、與外界交互情況列舉了中國歷代人物傳記資料庫(CBDB)、臺灣歷史數(shù)位圖書館(THDL)、上海圖書館家譜知識服務(wù)平臺等三個(gè)較成功的數(shù)字人文系統(tǒng)的建設(shè)情況。

        表1 數(shù)字人文系統(tǒng)建設(shè)情況

        CBDB是由哈佛大學(xué)費(fèi)正清中國研究中心、“中央研究院歷史語言研究所”和北京大學(xué)共建,其遠(yuǎn)程目標(biāo)在于系統(tǒng)性收入中國歷史上所有重要的傳記資料,并將其內(nèi)容毫無限制地、免費(fèi)地公諸學(xué)術(shù)之用。截至2016年4月,數(shù)據(jù)庫共收錄約37萬人的傳記資料。CBDB除可作為人物傳記的一種參考資料外,亦可作統(tǒng)計(jì)分析與空間分析之用[6]。THDL由臺灣大學(xué)項(xiàng)潔教授團(tuán)隊(duì)主持,2006年完成,2007年開放使用,總共包含了近九萬件和臺灣有關(guān)的官方文書和民間契約等,是臺灣史研究最為豐富的資料庫[7]。THDL可以幫助使用者定位資料,提供檢索后分析功能,可進(jìn)行諸如分類、檢索結(jié)果年代分布圖、詞頻統(tǒng)計(jì)等初步分析,并提供“自訂文件集”功能和一系列分析工具幫助使用者重新組織、分析資料?!凹易V知識服務(wù)平臺”由上海圖書館建立,在充分利用館藏家譜的基礎(chǔ)上,將家譜數(shù)字資源以“時(shí)間軸”“地圖”等可視化的方式開發(fā)出來,可見即可得地展示某一姓氏在某一地理空間范圍內(nèi)的分布情況[8]。三個(gè)數(shù)字人文系統(tǒng)平臺有以下共同點(diǎn):(1)以多來源的或單一來源的數(shù)據(jù)庫內(nèi)容為核心。全面的、高質(zhì)量的資料是數(shù)字人文的起點(diǎn),為了適應(yīng)各類人文研究的需求,不同的研究者皆需要有適合的、能與之對應(yīng)的數(shù)據(jù)庫的建立[9]。(2)在內(nèi)容的基礎(chǔ)上提供檢索、分析等工具,幫助研究者從大量資料中定位所需資料,分析資料。(3)提供API接口,實(shí)現(xiàn)不同數(shù)據(jù)庫之間、數(shù)據(jù)庫與互聯(lián)網(wǎng)之間的通聯(lián)。(4)允許使用者編輯、進(jìn)行自己的創(chuàng)作,與研究者進(jìn)行對話,共建數(shù)字人文系統(tǒng)。這些系統(tǒng)平臺為建設(shè)基于圖書館異構(gòu)特藏資源的數(shù)字人文系統(tǒng)提供了參考。

        2 異構(gòu)資源整合的意義、方法與案例分析

        2.1 異構(gòu)資源整合的意義

        數(shù)字人文系統(tǒng)是以數(shù)據(jù)庫為核心,必須有正確而完備的典藏和資料庫作為基礎(chǔ),數(shù)字和人文研究才有更進(jìn)一步合作的可能,數(shù)字人文系統(tǒng)的質(zhì)量取決于資料是否正確、相關(guān)的記錄是否皆有收錄[10]。先將分散的、異構(gòu)的資源整合,在此基礎(chǔ)上構(gòu)建的數(shù)字人文系統(tǒng)提供的數(shù)據(jù)資源更加全面、完整、權(quán)威,質(zhì)量更高,可以將人文研究學(xué)者從繁雜的資料收集、整理和辨?zhèn)喂ぷ髦薪饷摮鰜?。整合的異?gòu)資源系統(tǒng)使得資源可以跨時(shí)空、跨典籍立體交叉顯示,支持不同研究領(lǐng)域和研究方向的學(xué)者在同一個(gè)平臺開展工作,各取所需[11],給人文研究學(xué)者提供了一個(gè)全新的視角。例如,唐宋文學(xué)編年地圖將中國詩詞在地圖上顯示,是文學(xué)、歷史和地理的融合,通過平臺,可以直觀地了解詩人在各地的足跡,也可以查看同一地點(diǎn)不同詩人不同時(shí)期所做的詩詞。

        從圖書館出發(fā),異構(gòu)資源的整合為圖書館注入了新的活力,提高了公眾對其資源的認(rèn)知度,改變了其在公眾眼中的封閉形象。在分散的、異構(gòu)的資源基礎(chǔ)上構(gòu)建系統(tǒng),資源利用率低,資源不完備,極大地限制了特藏資源的價(jià)值發(fā)揮[12]。從經(jīng)濟(jì)角度出發(fā),直接在分散的、異構(gòu)的特藏資源基礎(chǔ)上構(gòu)建各自的數(shù)字人文系統(tǒng),其成本是巨大的,不利于功能擴(kuò)展。先將異構(gòu)特藏資源整合,在大量數(shù)據(jù)資料的基礎(chǔ)上構(gòu)建數(shù)字人文系統(tǒng),并將優(yōu)化整合后的資源推向更廣泛的用戶平臺,不僅能夠有效提高資源利用率,還增加了用戶訪問資源保存機(jī)構(gòu)的頻率。將存在于不同地點(diǎn)、不同系統(tǒng)的特藏資源整合起來,是建設(shè)數(shù)字人文系統(tǒng)最基本的工作。

        2.2 異構(gòu)資源整合的方法

        數(shù)字資源整合也可稱為數(shù)字資源集成,是在各種數(shù)字資源自主性、分布性、異構(gòu)性的基礎(chǔ)上,運(yùn)用各種集成技術(shù)和手段將各類數(shù)字資源集成在統(tǒng)一的利用環(huán)境下,實(shí)現(xiàn)“一步到位”的檢索,讓用戶方便地利用各種數(shù)字資源,為其節(jié)省時(shí)間和精力。為了能夠?qū)悩?gòu)資源整合在一起,實(shí)現(xiàn)統(tǒng)一檢索和訪問,促進(jìn)資源的發(fā)現(xiàn)與共享,圖書館采取了一系列解決方案,如OAI-PMH(The Open Archive Protocol for Metadata Harvesting)協(xié)議、Z39.50協(xié)議、跨庫檢索、信息鏈接等[13]。具體來看,資源整合的方法有以下幾種。

        (1)數(shù)據(jù)倉庫法,指集成系統(tǒng)將存儲于不同地方的數(shù)據(jù)收集起來,并經(jīng)過分析、綜合、轉(zhuǎn)換等一系列數(shù)據(jù)加工處理工作,最后裝載入本地的中心數(shù)據(jù)倉庫進(jìn)行統(tǒng)一存儲。優(yōu)點(diǎn)是資源相對穩(wěn)定,在數(shù)據(jù)倉庫基礎(chǔ)上可進(jìn)行信息挖掘,提供更深層次的知識服務(wù);缺點(diǎn)是數(shù)據(jù)更新不及時(shí),數(shù)據(jù)重復(fù)存儲。DPLA、OAIster、Calis學(xué)位論文項(xiàng)目通過OAI-PMH從數(shù)據(jù)提供方收割數(shù)據(jù),并將數(shù)據(jù)存儲于服務(wù)方的數(shù)據(jù)倉庫中,HathiTrust項(xiàng)目通過FTPS將書目數(shù)據(jù)提交給Zephir[14]處理,是資源整合的數(shù)據(jù)倉庫法的典型例子。

        (2)聯(lián)邦形式。集成系統(tǒng)分為客戶端和服務(wù)端,客戶端負(fù)責(zé)獲取用戶查詢,獲取查詢后發(fā)送至各個(gè)服務(wù)器,服務(wù)器解析查詢并從各自的數(shù)據(jù)源中獲取結(jié)果,整合后返回給客戶端,或者利用中間件模式,客戶端與中間層通信,中間層負(fù)責(zé)與各服務(wù)器相互聯(lián)系。該方法一般只提供只讀的查詢功能,執(zhí)行效率不高,但是數(shù)據(jù)不會重復(fù)存儲,適用于被集成的系統(tǒng)規(guī)模大、數(shù)據(jù)更新頻繁、數(shù)據(jù)實(shí)時(shí)一致性要求高的情況。Z39.50、SRW/SRU就是屬于此類集成方法的協(xié)議。INNOPAC、CALIS OPAC系統(tǒng),就是將Z39.50作為中間層協(xié)議,將系統(tǒng)的具體實(shí)現(xiàn)映射到抽象模型上,實(shí)現(xiàn)異構(gòu)系統(tǒng)間的交互式通信。

        (3)基于本體的資源整合。本體論通過對概念的嚴(yán)格定義和概念之間的關(guān)系來確定概念精確含義,表示共同認(rèn)可的、可共享的知識,成為語義Web中語義層次上信息共享和交換的基礎(chǔ)?;诒倔w的資源整合是基于領(lǐng)域本體模型對異構(gòu)數(shù)字資源進(jìn)行語義標(biāo)注并構(gòu)建統(tǒng)一的(元數(shù)據(jù))知識庫,從而實(shí)現(xiàn)對資源的統(tǒng)一語義檢索。本體在其中的作用是提供對資源進(jìn)行語義標(biāo)注的詞匯標(biāo)準(zhǔn)[15]。Wache等將基于本體的整合方法歸納為單一本體法、多本體法和混合法三種[16]。單一本體法首先定義一個(gè)全局本體,提供一個(gè)共享詞匯表作為集成時(shí)的參考,分布在各個(gè)地方的數(shù)據(jù)源都有全局共享本體相關(guān)聯(lián)。多本體法是在各個(gè)異構(gòu)的數(shù)據(jù)源上建立局部本體,然后在局部本體間建立映射關(guān)系?;旌媳倔w法是將單一本體法和多本體法綜合,在多本體的局部本體方法上建立全局本體。本體能解決語義異構(gòu)的問題,但是本體是領(lǐng)域相關(guān)的,對于不同領(lǐng)域內(nèi)的資源整合較困難。

        (4)基于關(guān)聯(lián)數(shù)據(jù)的資源整合。伯納斯·李于2006年在語義網(wǎng)基礎(chǔ)上提出了關(guān)聯(lián)數(shù)據(jù)(Linked Data)[17]。語義網(wǎng)試圖將數(shù)據(jù)聯(lián)系起來,并產(chǎn)生數(shù)據(jù)與現(xiàn)實(shí)事物的聯(lián)系,以方便人與機(jī)器閱讀和理解這些數(shù)據(jù)。關(guān)聯(lián)數(shù)據(jù)是第一種可行的語義網(wǎng)表達(dá)形式,它采用RDF數(shù)據(jù)模型,利用URI(統(tǒng)一資源標(biāo)識符)命名數(shù)據(jù)實(shí)體,來發(fā)布和部署實(shí)例數(shù)據(jù)和類數(shù)據(jù),從而可以通過HTTP協(xié)議揭示并獲取這些數(shù)據(jù),同時(shí)強(qiáng)調(diào)數(shù)據(jù)的相互關(guān)聯(lián)、相互聯(lián)系以及有益于人機(jī)理解的語境信息。由于關(guān)聯(lián)數(shù)據(jù)要求采用URI命名數(shù)據(jù)實(shí)體,并可以通過HTTP協(xié)議獲取,完全自治的“數(shù)據(jù)孤島”可通過關(guān)聯(lián)數(shù)據(jù)連接起來,實(shí)現(xiàn)數(shù)據(jù)互聯(lián)和集成。

        (5)本體與關(guān)聯(lián)數(shù)據(jù)驅(qū)動(dòng)的圖書館信息資源語義整合框架[18]。歐石燕等將本體與關(guān)聯(lián)數(shù)據(jù)結(jié)合提出了此方法,旨在實(shí)現(xiàn)不同層次和范圍的資源整合。該整合框架有3層結(jié)構(gòu),第一層是基于本體的文獻(xiàn)資源整合,采用混合本體法實(shí)現(xiàn)異構(gòu)元數(shù)據(jù)的語義互操作,首先構(gòu)建一個(gè)共享的核心元數(shù)據(jù)本體,然后針對特定資源構(gòu)建專門元數(shù)據(jù)本體;第二層基于關(guān)聯(lián)數(shù)據(jù)的圖書館信息資源整合,采用關(guān)聯(lián)數(shù)據(jù)發(fā)布圖書館信息資源使得每個(gè)資源可通過HTTP協(xié)議直接訪問,并可沿著RDF鏈接訪問其他相關(guān)資源;第三層與外界資源的鏈接與集成,采用關(guān)聯(lián)數(shù)據(jù)與其他圖書館的關(guān)聯(lián)數(shù)據(jù)或外界的關(guān)聯(lián)數(shù)據(jù)(如DBPedia)相關(guān)聯(lián)。

        除了以上幾種典型的整合方法,還有諸如中國知網(wǎng)的跨庫檢索,谷歌、百度等搜索引擎運(yùn)用自己的計(jì)算機(jī)程序從網(wǎng)上搜集信息,為用戶提供網(wǎng)頁連接組合等整合方法;通過提供應(yīng)用程序接口方式(API)與其他系統(tǒng)整合也是一種常用的整合方式。基于GIS的應(yīng)用,還可通過將不同數(shù)據(jù)資源與GIS整合。在實(shí)踐中,根據(jù)自身需求采用不同的整合方法,有時(shí)也會組合多種方法實(shí)現(xiàn)整合的目的,例如美國數(shù)字公共圖書館DPLA項(xiàng)目采用了數(shù)據(jù)倉庫法,基于本體、關(guān)聯(lián)數(shù)據(jù)的整合。

        2.3 整合案例——美國數(shù)字公共圖書館DPLA

        DPLA是通過多種方法將異構(gòu)資源整合,在此基礎(chǔ)上提供開放服務(wù),為數(shù)字人文提供支持的典型案例。DPLA項(xiàng)目于2010年底開始討論、規(guī)劃,2013年開放運(yùn)行,它把檔案館、圖書館、博物館和文化遺產(chǎn)機(jī)構(gòu)、私人收藏機(jī)構(gòu)等分散的資源進(jìn)行統(tǒng)一集合,最大限度地開放可共享的文化遺產(chǎn)。DPLA整合的過程,首先從它的內(nèi)容和服務(wù)中心收割數(shù)據(jù),然后對其數(shù)據(jù)進(jìn)行豐富,經(jīng)MAP(Metadata Application Profile)映射存儲,最后通過API發(fā)布數(shù)據(jù)。

        (1)DPLA主要通過OAI收割、以及內(nèi)容中心或服務(wù)中心提供的API收割來自兩個(gè)中心的元數(shù)據(jù)[19]。OAI-PMH是一種獨(dú)立于應(yīng)用的、能夠提高Web上資源共享范圍和能力的互操作協(xié)議標(biāo)準(zhǔn)。在OAI-PMH的互操作框架中有兩種主要的角色:數(shù)據(jù)提供者和服務(wù)提供者。數(shù)據(jù)提供者是元數(shù)據(jù)的發(fā)布方,采用OAI技術(shù)框架發(fā)布元數(shù)據(jù),使得服務(wù)提供者可以根據(jù)需求對這些元數(shù)據(jù)進(jìn)行收割加工;服務(wù)提供者是元數(shù)據(jù)的收割方,使用OAI協(xié)議向數(shù)據(jù)提供方發(fā)出請求,并接收返回的元數(shù)據(jù)作為構(gòu)造附加服務(wù)的基礎(chǔ)。OAI協(xié)議被應(yīng)用于DSpace、WorldCat、NASA、LibGuides、Omeka等一系列組織的分享、收集數(shù)據(jù)中。DPLA為了更加迅速、更大范圍的收集數(shù)據(jù)開發(fā)了一款新的開源OAI收割器Spark OAI Harvester。Spark是分布式處理引擎,可實(shí)現(xiàn)并行處理大量數(shù)據(jù),使得處理數(shù)據(jù)的能力更快。Spark的另一優(yōu)點(diǎn)是它支持結(jié)構(gòu)化的處理數(shù)據(jù),它提供諸如SQL查詢、機(jī)器學(xué)習(xí)算法、圖形計(jì)算等一系列內(nèi)建庫,這使得收割來的數(shù)據(jù)更容易檢查、分析和操作。在Spark OAI Harvester的幫助下,DPLA收割數(shù)據(jù)、處理數(shù)據(jù)更加的方便、簡單。

        (2)DPLA收割后的元數(shù)據(jù),經(jīng)過MAP映射,并以關(guān)聯(lián)開放數(shù)據(jù)加以強(qiáng)化,呈現(xiàn)和共享元數(shù)據(jù)。MAP基于Europeana數(shù)據(jù)模型EDM,并結(jié)合DPLA集成美國文化遺產(chǎn)機(jī)構(gòu)元數(shù)據(jù)的經(jīng)驗(yàn)與特定需求。EDM主要使用來自其他命名空間的屬性、加上少數(shù)獨(dú)特的本地開發(fā)屬性,為集成來自歐盟不同機(jī)構(gòu)的多樣化數(shù)字對象的元數(shù)據(jù)而開發(fā),是一開放的、跨領(lǐng)域、基于語義網(wǎng)框架的數(shù)據(jù)模型[20]。MAP起草于2012年,于2013年初發(fā)布為最初的版本v3.0。2014年7月略作更新為v3.1,2015年3月發(fā)布的v4.0,2017年12月發(fā)布最新版v5。MAP(v5)[21]根據(jù)實(shí)施過程中的需求及意見在原來的版本上修改而成,其具體情況如圖1所示(引自:https://drive.google.com/open?id=1fJEWhnYy5Ch7_ef_-V48-FAViA72OieG)。MAP(v5)有9個(gè)核心類,其中使用了 來 自 EDM 的 Place、TimeSpan、Agent、WebResource,來自skos的Concept,dcmitype的Colllection和ore的Aggregation。對象間的屬性關(guān)系也是采用dc、dcterms和edm定義的層級關(guān)系。通過MAP映射的DPLA數(shù)據(jù)在Web上開放、共享,成為具有相互聯(lián)系且可參引的數(shù)據(jù),可與其他平臺數(shù)據(jù)直接聯(lián)系,形成一個(gè)開放的、可無限延伸與擴(kuò)展的資源整合體系。

        (3)DPLA提供統(tǒng)一檢索界面,并提供API接口調(diào)用其函數(shù),目前API使用的數(shù)據(jù)未更新到最新版,仍采用v3.1[22]。其最基本的API調(diào)用格式為“https://api.dp.la/v2/items?q=weasels&api_key=”其中“https://api.dp.la/v2”是基本格式,“items”指的是請求的“資源類型”,除“items單條記錄”外還有“collections集合”,“?q”后面跟的是具體參數(shù),“&api_key”后面跟的是你從DPLA取得的32位字符串形式的key。其返回的格式為“JSON-LD”格式,如下所示:

        圖1 DPLA MAP概覽

        DPLA通過API與其他系統(tǒng)整合,程序開發(fā)者可通過API訪問DPLA元數(shù)據(jù),DPLA原來的官網(wǎng)上有專門的“Apps”網(wǎng)頁,列舉了34款通過DPLA提供的API接口開發(fā)的應(yīng)用。DPLA整合的方法非常值得借鑒,通過OAI收割數(shù)據(jù),并復(fù)用EDM、SKO等成熟詞表,發(fā)布關(guān)聯(lián)數(shù)據(jù)與其他資源整合。DPLA擁有大量經(jīng)過加工處理的、較為完整規(guī)范的元數(shù)據(jù)信息,是重要的數(shù)據(jù)基礎(chǔ)設(shè)施,可用于文本分析和挖掘,當(dāng)前許多優(yōu)秀的數(shù)字人文研究案例已開始受益于這些基礎(chǔ)設(shè)施[23]。

        3 數(shù)字人文系統(tǒng)的設(shè)計(jì)——以師范聯(lián)盟異構(gòu)特藏資源為基礎(chǔ)

        3.1 師范聯(lián)盟異構(gòu)特藏資源現(xiàn)狀調(diào)研

        華東師范大學(xué)圖書館(以下簡稱“本館”)早在2014年就對師范聯(lián)盟圖書館特藏資源的建設(shè)情況進(jìn)行過問卷調(diào)查;2017年又一次基于網(wǎng)絡(luò)跟蹤聯(lián)盟圖書館網(wǎng)站特色館藏平臺的變化情況。據(jù)調(diào)研,師范聯(lián)盟擁有的特藏資源數(shù)據(jù)庫中,涉及人文學(xué)科(不含文庫、教參及學(xué)位論文)的資源數(shù)量約占65%[24](表2),圖書館特藏資源的有效開發(fā)可以支持為人文學(xué)者的研究提供支持。表中列舉的特藏資源是經(jīng)過師范聯(lián)盟圖書館編目,使用商業(yè)或自建平臺發(fā)布的。特藏?cái)?shù)據(jù)庫所使用的平臺涉及 TPI、TRS、Apabi-DESi、Apabi-TASi、IDL-ETD、DIPS、超星、麥達(dá)等商業(yè)平臺,還有一些圖書館使用的是自行開發(fā)的平臺。商業(yè)平臺中TPI、TRS的后臺數(shù)據(jù)庫是專有數(shù)據(jù)庫,而其他系統(tǒng)的數(shù)據(jù)庫使用的是SQL Server、MySQL等關(guān)系型數(shù)據(jù)庫。特藏資源使用不同的數(shù)據(jù)庫、不同的發(fā)布平臺,彼此異構(gòu),在為人文學(xué)者提供支持前首先需要選擇合適的整合方法,整合異構(gòu)的圖書館特藏資源。

        表2 師范聯(lián)盟成員館特藏資源數(shù)據(jù)庫統(tǒng)計(jì)表[25]

        3.2 基于師范聯(lián)盟異構(gòu)特藏資源的數(shù)字人文系統(tǒng)架構(gòu)

        由于整合異構(gòu)特藏資源的目的是為人文研究提供支持,需要在數(shù)據(jù)的基礎(chǔ)上提供知識發(fā)現(xiàn)作用,因此在綜合考慮整合方法的基礎(chǔ)上,擬采用物化的數(shù)據(jù)倉庫式進(jìn)行整合,即對元數(shù)據(jù)進(jìn)行收割集中儲存,其系統(tǒng)架構(gòu)圖如圖2所示。對于已經(jīng)編目且存儲于類似于MySQL、MS SQL及Oracle的元數(shù)據(jù),借鑒DPLA整合模式,使用OAI協(xié)議。師范聯(lián)盟各成員館是OAI協(xié)議中的數(shù)據(jù)提供方,本館是OAI協(xié)議中的服務(wù)提供方。首先要求數(shù)據(jù)提供方按照服務(wù)提供方要求的元數(shù)據(jù)格式進(jìn)行編目。本館利用OAI收割器生成請求,通過HTTP協(xié)議的GET或POST方法向數(shù)據(jù)提供方發(fā)送OAI請求,數(shù)據(jù)提供方按照請求將數(shù)據(jù)返回給本館,從而完成元數(shù)據(jù)的收割。對于未在集成系統(tǒng)內(nèi)進(jìn)行編目,以excel、xml文件存儲的元數(shù)據(jù),數(shù)據(jù)提供者可使用FTPS方式直接將元數(shù)據(jù)提交給本館。本館在獲得元數(shù)據(jù)后,對數(shù)據(jù)進(jìn)行去重、清洗、轉(zhuǎn)換、合并和融合等加工處理存儲于核心數(shù)據(jù)庫中。在將采集來的元數(shù)據(jù)存于數(shù)據(jù)庫之后,一方面識別元數(shù)據(jù)的實(shí)體,構(gòu)建知識本體。在知識本體的構(gòu)建過程中應(yīng)遵循盡量復(fù)用已有的知識本體與術(shù)語詞表。目前國際上通用流行的詞 表 有 DC/DCT、Schema.org、 BIBFRAME、RDA、EDM等。選定合適的詞表后,從核心元數(shù)據(jù)出發(fā),將元數(shù)據(jù)項(xiàng)與詞表中的類相對應(yīng),并以屬性來明確類與類之間的關(guān)系,從而形成立體網(wǎng)狀模型。本體構(gòu)建完成以后使用RDF格式編碼,存儲于專用的RDF存儲庫中,發(fā)布為關(guān)聯(lián)數(shù)據(jù),實(shí)現(xiàn)與外部世界的自動(dòng)關(guān)聯(lián)、復(fù)用、共享的目的;另一方面在核心數(shù)據(jù)庫基礎(chǔ)上構(gòu)建數(shù)字人文系統(tǒng)平臺,借鑒CBDB、CHGIS和上海圖書館家譜知識服務(wù)平臺等數(shù)字人文系統(tǒng),該平臺提供統(tǒng)一的檢索功能,基于GIS技術(shù)動(dòng)態(tài)顯示資源信息;基于GIS的時(shí)空分析功能;提供編輯入口以眾包平臺方式讓使用者參與資源的共建;提供開放數(shù)據(jù)下載功能;提供API接口供其他程序調(diào)用;使用IP控制,供有權(quán)限的用戶瀏覽全文等一系列功能,實(shí)現(xiàn)資源長期保存、共享及發(fā)展。

        圖2 基于師范聯(lián)盟異構(gòu)特藏資源的數(shù)字人文系統(tǒng)架構(gòu)圖

        3.3 功能設(shè)計(jì)

        以異構(gòu)特藏資源為基礎(chǔ)構(gòu)建的數(shù)字人文系統(tǒng),借鑒CBDB、THDL、上海家譜知識服務(wù)平臺,應(yīng)提供包括統(tǒng)一檢索、分析工具、GIS工具、眾包平臺、API接口、全文瀏覽等功能。

        (1)統(tǒng)一檢索:數(shù)字人文系統(tǒng)聚集大量的數(shù)據(jù),為幫助用戶快速定位資源,檢索是系統(tǒng)提供的最基本功能,包括簡單檢索、高級檢索。CBDB除能提供基于人名、地名、官名和關(guān)鍵詞的簡單分面查詢,還提供進(jìn)階查詢功能,通過限定多種條件來構(gòu)建自己的查詢;THDL檢索提供“相似文件”與相關(guān)文件功能,協(xié)助使用者查找資料,還提供“檢索后分類”功能,每次檢索后可根據(jù)年代、出處、作者、契書分類,并計(jì)算每個(gè)類別擁有的文件種類,且提供檢索結(jié)果的“年代分布圖”可視化顯示;上海圖書館家譜知識服務(wù)平臺提供基于字母的分面瀏覽功能。

        (2)分析工具:CBDB可以進(jìn)行群體傳記學(xué)的統(tǒng)計(jì)分析,還可以進(jìn)行時(shí)空分析,并提供社會關(guān)系分析工具進(jìn)行社會關(guān)系網(wǎng)絡(luò)分析。THDL提供檢索分析工具、關(guān)系探查工具。檢索分析工具包括THDL前后綴詞分析工具、THDL臺灣總督府抄錄契書地區(qū)分析及歷史地理信息系統(tǒng),前后綴詞分析工具可進(jìn)行詞頻分析;關(guān)系探查工具包括THDL契約買賣角色分析,淡新檔案訴訟關(guān)系圖。

        (3)GIS工具:CHGIS、CCTS、THGIS、上海圖書館家譜知識服務(wù)平臺、南京師范大學(xué)的華夏民族家譜地理信息系統(tǒng)、全唐詩電子檢索系統(tǒng)等都是基于GIS系統(tǒng)整合專題數(shù)據(jù)庫,提供服務(wù)。廈門大學(xué)鄭振滿設(shè)計(jì)的莆田歷史人文地理信息系統(tǒng),則是以GIS為平臺整合文獻(xiàn)(民間文獻(xiàn)、地方檔案、書籍)與田野調(diào)查資料(實(shí)物、建筑、儀式、音色),構(gòu)成一個(gè)跨越史料文類、主題、數(shù)據(jù)類型的數(shù)字人文系統(tǒng),也可以說是一個(gè)時(shí)空史料綜合體[26]。基于GIS的系統(tǒng)可提供GIS有關(guān)點(diǎn)聚合、時(shí)間軸檢索、古今地名對照服務(wù)、地圖測距、開放檢索POI和熱力圖等功能。

        (4)眾包平臺:眾包平臺可以實(shí)現(xiàn)元數(shù)據(jù)、功能和全文的眾包。上海圖書館家譜知識服務(wù)平臺提供編輯、提交入口,用戶可以編輯元數(shù)據(jù)字段,管理員通過審核后將被采用。數(shù)字人文項(xiàng)目“萊比錫開放碎片文本序列(LOFTS)”采用Perseids平臺,允許用戶對引用文本及句法進(jìn)行標(biāo)注,實(shí)現(xiàn)基于協(xié)作眾包的數(shù)字人文基礎(chǔ)設(shè)施平臺[27]。TDHL允許用戶更正元數(shù)據(jù)、全文、人地名,管理小組不定期整理,采用后并更新于新版資料庫中。CHGIS可幫助用戶把自己的數(shù)據(jù)發(fā)布在復(fù)旦大學(xué)歷史地理中心的"禹貢"網(wǎng)站或哈佛地學(xué)空間圖書館(HGL)、電子文化地圖集行動(dòng)計(jì)劃(ECAI)和其他元數(shù)據(jù)信息交換站。

        (5)API接口:提供面向程序的服務(wù),即開發(fā)可被計(jì)算機(jī)應(yīng)用程序調(diào)用的數(shù)據(jù)應(yīng)用接口。通過API,每個(gè)資料庫可以取用其他資料庫的數(shù)據(jù),而不必在自己資料庫重新輸入這些資料,實(shí)現(xiàn)不同數(shù)據(jù)庫間的互聯(lián)。DPLA開放API,在此基礎(chǔ)上程序員開發(fā)各自基于DPLA資源的應(yīng)用。CBDB之空間分析就是建立在與CHGIS對接整合的基礎(chǔ)上,同時(shí)麥吉爾大學(xué)的明清婦女著作、“中央研究院歷史語言研究所”的人名權(quán)威人物傳記資料使用CBDB的API。

        (6)全文瀏覽:系統(tǒng)應(yīng)盡可能提供全文瀏覽功能,實(shí)現(xiàn)開放共享,但是由于版權(quán)的限制有些資料只提供給部分用戶瀏覽全文的權(quán)限,可采取IP控制,通過IP段授權(quán),將部分功能提供給在IP段內(nèi)的用戶,從而實(shí)現(xiàn)權(quán)限控制。

        (7)其他功能:CBDB提供郵件訂閱,訂閱后用戶可以通過郵件得知平臺更新情況,提供教學(xué)輔助文件下載,幫助使用者更好的利用CBDB資料集;CBDB提供罕用字輸入工具、漢字轉(zhuǎn)拼音工具,THDL提供蘇州碼轉(zhuǎn)換器、度量衡單位換算系統(tǒng)等參考工具。

        基于圖書館異構(gòu)特藏資源的數(shù)字人文基礎(chǔ)平臺以師范聯(lián)盟成員館元數(shù)據(jù)為基礎(chǔ),應(yīng)借鑒CBDB、CHGIS等成熟系統(tǒng)的功能提供一系列數(shù)字人文工具和軟件供用戶使用,并與用戶和機(jī)器交互,按照由易到難的順序逐漸完善其功能。

        4 結(jié)語

        數(shù)字人文的發(fā)展促使人文社科研究模式的改變,數(shù)字人文系統(tǒng)的建設(shè)需要圖書館的努力。本文是以特藏資源為例對支持人文研究的異構(gòu)資源整合實(shí)踐的初探,借鑒其他集成類系統(tǒng)的經(jīng)驗(yàn),打破信息孤島,建立數(shù)字人文活動(dòng)的系統(tǒng)平臺,在系統(tǒng)基礎(chǔ)上提供數(shù)字人文工具,為人文研究者提供支持。但是本文提出的系統(tǒng)對人文研究的支持作用有限,也存在一定的局限性。人文研究學(xué)者需要更深入地研究數(shù)據(jù)資料,如對特藏?cái)?shù)據(jù)的全文進(jìn)行識別,標(biāo)注,抽取資源中的時(shí)間、地點(diǎn)、人物及事件等有價(jià)值的信息,在此基礎(chǔ)上人文研究學(xué)者可以擁有更好的研究視角及體驗(yàn),這將是我們下一步努力的方向。

        猜你喜歡
        特藏異構(gòu)本體
        Abstracts and Key Words
        試論同課異構(gòu)之“同”與“異”
        對姜夔自度曲音樂本體的現(xiàn)代解讀
        數(shù)字環(huán)境下高校圖書館特藏資源建設(shè)探析
        高校圖書館特藏建設(shè)工作探微
        overlay SDN實(shí)現(xiàn)異構(gòu)兼容的關(guān)鍵技術(shù)
        LTE異構(gòu)網(wǎng)技術(shù)與組網(wǎng)研究
        《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
        美國康奈爾大學(xué)圖書館特藏發(fā)展與實(shí)踐研究*
        在新興異構(gòu)SoCs上集成多種系統(tǒng)
        中文字幕一区二区三区四区五区| 国产经典免费视频在线观看| 中文字幕色婷婷在线视频| 国产精品专区第一页天堂2019| 国产va免费精品高清在线观看| 久久精品国产亚洲av电影| 18禁国产美女白浆在线| 国产一区二区视频免费| 久久午夜羞羞影院免费观看| 亚洲精品久久久无码av片软件| 福利网在线| 国产精品夜色视频久久| 精品国偷自产在线视频九色| 精品久久亚洲中文无码| 8090成人午夜精品无码| 蜜乳一区二区三区亚洲国产| 国产片精品av在线观看夜色| 中文字幕+乱码+中文字幕无忧| 亚洲国产一区二区三区在观看| 国产亚洲高清不卡在线观看| 一区二区三区人妻在线| 国产激情久久久久久熟女老人| 免费观看激色视频网站| 亚洲黄色尤物视频| 国产又湿又爽又猛的视频| 久久婷婷五月综合97色直播| 久久免费的精品国产v∧| 国产福利97精品一区二区| 各类熟女熟妇激情自拍 | 久久久久亚洲精品无码蜜桃| 亚洲日本va中文字幕久久| 女同性恋亚洲一区二区| 亚洲精选自偷拍一区二| 初女破初的视频| 五月婷婷影视| 国产日产亚洲系列首页| 色先锋av影音先锋在线| 亚洲自拍另类制服在线| 亚洲国产精品成人一区| 一个人看的www片免费高清视频| 午夜精品久久久久久中宇|