鄭燃 唐義 戴艷清
摘 要:圖書館、檔案館和博物館作為社會(huì)重要的公共文化基礎(chǔ)設(shè)施,在公共文化服務(wù)體系中具有舉足輕重的地位,如何對(duì)圖書、檔案和博物數(shù)字資源進(jìn)行整合,為用戶提供更深層次的、一體化的信息資源服務(wù),成為近年來各國(guó)圖書館、檔案館和博物館十分關(guān)注的課題。關(guān)聯(lián)數(shù)據(jù)的出現(xiàn)極大地促進(jìn)了數(shù)字資源整合的進(jìn)程。文章簡(jiǎn)要介紹了關(guān)聯(lián)數(shù)據(jù)的概念,探討了關(guān)聯(lián)數(shù)據(jù)在圖書館、檔案館和博物館數(shù)字資源整合中的作用和發(fā)展現(xiàn)狀,嘗試著構(gòu)建出基于關(guān)聯(lián)數(shù)據(jù)的圖書館、檔案館和博物館數(shù)字資源整合模式,并提出了應(yīng)注意的問題。
關(guān)鍵詞:關(guān)聯(lián)數(shù)據(jù) 圖書館 檔案館 博物館 數(shù)字資源整合
中圖分類號(hào): G250.73文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1003-6938(2012)01-0071-06
Digital Resources Convergence of Libraries, Archives and Museums Based on Linked Data Applications
Abstract Libraries, archives and museums as important public cultural infrastructures in the society play a decisive role in the public cultural service system. In recent years, libraries, archives and museums in the world focused on how to converge digital resources and provided users with a deeper level and the integration of information resources service. The emergence of linked data promoted the digital resources convergence process greatly. This paper pointed out the concept of linked data and discussed the application and development of linked data in the digital resources convergence of libraries, archives and museums. And also the paper tried to construct the digital resources convergence model of libraries, archives and museums based on linked data, and put forward issues that needed to pay more attention.
Keywords linked data; libraries; archives; museums; digital resources convergence
圖書館、檔案館和博物館(Libraries,Archives,Museums,以下簡(jiǎn)稱LAM)作為社會(huì)重要的公共文化基礎(chǔ)設(shè)施,在公共文化服務(wù)體系中具有舉足輕重的地位。隨著我國(guó)經(jīng)濟(jì)的持續(xù)高速增長(zhǎng),社會(huì)物質(zhì)財(cái)富迅速增加,人民群眾對(duì)精神文化消費(fèi)提出了越來越高的要求。LAM如何向社會(huì)公眾提供豐富的文化信息資源,如何讓社會(huì)公眾方便快捷地獲取這些資源,成為新的歷史條件下這些公共文化服務(wù)機(jī)構(gòu)必須面對(duì)的問題。
隨著數(shù)字信息技術(shù)的發(fā)展和網(wǎng)絡(luò)環(huán)境的形成,LAM等信息資源收藏系統(tǒng),正在將大量館藏轉(zhuǎn)換為數(shù)字形態(tài),通過網(wǎng)絡(luò)為用戶提供超越時(shí)空的服務(wù)。然而,這種各自為政的資源管理和分散多頭的服務(wù),不僅造成了數(shù)字資源的重復(fù)建設(shè),而且阻礙了這些文化信息資源的有效利用和廣泛共享。因此,如何創(chuàng)建一個(gè)整合圖書、檔案、博物數(shù)字資源內(nèi)容的基礎(chǔ)結(jié)構(gòu),在一個(gè)更加寬泛的框架內(nèi)配置資源,提供用戶所希望的深層次的、一體化的信息資源服務(wù),成為近年來各國(guó)LAM十分關(guān)注的課題。
1 關(guān)聯(lián)數(shù)據(jù)及其應(yīng)用于LAM數(shù)字資源整合的意義
1.1 關(guān)聯(lián)數(shù)據(jù)概述
關(guān)聯(lián)數(shù)據(jù)這個(gè)術(shù)語是由“萬維網(wǎng)之父”Tim Berners-Lee在其萬維網(wǎng)體系架構(gòu)筆記《關(guān)聯(lián)數(shù)據(jù)》中于2006年首次提出。但對(duì)于什么是關(guān)聯(lián)數(shù)據(jù),學(xué)術(shù)界仍未達(dá)成一致。開放連接軟件的創(chuàng)建者及CEO 金斯利·艾得恩對(duì)其定義為“關(guān)聯(lián)數(shù)據(jù)是一種網(wǎng)絡(luò)上的富鏈接機(jī)制,將超文本鏈接變?yōu)槌瑪?shù)據(jù)鏈接,也就是由文件指向文件變?yōu)橛蓴?shù)據(jù)指向數(shù)據(jù)”[1]。維基百科將其定義為“一種推薦用來在語義網(wǎng)中運(yùn)用URI和RDF發(fā)布、分享、鏈接各類數(shù)據(jù)、信息和知識(shí)的最佳實(shí)踐”[2]。簡(jiǎn)而言之,關(guān)聯(lián)數(shù)據(jù)就是一種數(shù)據(jù)的發(fā)布方式,通過URI、HTTP協(xié)議和RDF等技術(shù)將一個(gè)個(gè)數(shù)據(jù)對(duì)象(而不是網(wǎng)絡(luò)文檔)連接起來,最終構(gòu)建機(jī)器能夠理解的異構(gòu)化和富含語義的數(shù)據(jù)網(wǎng)絡(luò)(web of data),以構(gòu)建更智能的應(yīng)用。關(guān)聯(lián)數(shù)據(jù)須遵循四個(gè)原則:①使用URI作為任何事物的標(biāo)識(shí)名稱;②使用 HTTPURI使任何人都可以訪問這些標(biāo)識(shí)名稱;③當(dāng)有人訪問某個(gè)標(biāo)識(shí)名稱時(shí),提供有用的信息;④盡可能提供相關(guān)的URI,以使人們可以發(fā)現(xiàn)更多的事物[3]。
越來越多的機(jī)構(gòu)青睞關(guān)聯(lián)數(shù)據(jù)這種新的數(shù)據(jù)發(fā)布方式。大型媒體公司,如美國(guó)紐約時(shí)報(bào),從2009年開始以關(guān)聯(lián)開放數(shù)據(jù)發(fā)布權(quán)威的新聞詞匯,到2010年已經(jīng)上載了10,467個(gè)主題表目,其中4978個(gè)人物的主題表目[4]。CKAN關(guān)聯(lián)數(shù)據(jù)中心的一個(gè)組是關(guān)聯(lián)的開放數(shù)據(jù)LOD組, 云圖中現(xiàn)含二百多個(gè)數(shù)據(jù)集[5]。 此外,CKAN關(guān)聯(lián)數(shù)據(jù)中心還有46個(gè)其他的組,比如圖書館關(guān)聯(lián)數(shù)據(jù)組(含38個(gè)數(shù)據(jù)集,大多數(shù)聯(lián)接都是與非圖書館數(shù)據(jù)的聯(lián)接)[6]、氣象數(shù)據(jù)組(含58個(gè)數(shù)據(jù)集)[7]、能源數(shù)據(jù)組[8](含21個(gè)數(shù)據(jù)集)等。其中被頻繁聯(lián)結(jié)的主要的數(shù)據(jù)集有DBpedia、DBLP Bibliography、GeoNames、Riese、UMBEL、GeoSpecies Knowledge Base以及BBC Music等。政府利用關(guān)聯(lián)數(shù)據(jù)技術(shù)也很積極,歐盟統(tǒng)計(jì)局的RIESE項(xiàng)目以“為了人和機(jī)器著想”為原則創(chuàng)建關(guān)聯(lián)數(shù)據(jù),將統(tǒng)計(jì)局的數(shù)據(jù)集映射為RDF格式,提供了大約3億個(gè)RDF三元組,數(shù)百萬個(gè)高質(zhì)量的互鏈接[9]。圖書館主要利用關(guān)聯(lián)數(shù)據(jù)發(fā)布資源、擴(kuò)展資源發(fā)現(xiàn)服務(wù)、實(shí)現(xiàn)數(shù)據(jù)整合與語義檢索服務(wù)、促進(jìn)學(xué)術(shù)研究和學(xué)術(shù)交流、實(shí)現(xiàn)異構(gòu)關(guān)聯(lián)數(shù)據(jù)的開放與復(fù)用、實(shí)現(xiàn)圖書館與教學(xué)系統(tǒng)之間的集成等[10]。到2010年,圖書館的關(guān)聯(lián)數(shù)據(jù)集已超過20個(gè)[11](見圖1)。
1.2 關(guān)聯(lián)數(shù)據(jù)在LAM數(shù)字資源整合中的發(fā)展現(xiàn)狀
眾所周知,圖書館行業(yè)有著無與倫比的“規(guī)范控制”實(shí)踐經(jīng)驗(yàn)和不斷積累的數(shù)據(jù)優(yōu)勢(shì),而且近幾年國(guó)外圖書館界對(duì)關(guān)聯(lián)數(shù)據(jù)的研究與應(yīng)用十分的重視。2010 年 5 月 28 日,萬維網(wǎng)協(xié)會(huì)W3C 宣布成立圖書館關(guān)聯(lián)數(shù)據(jù)孵化小組(Library Linked Data Incubator Group),該小組的目標(biāo)是通過匯集圖書館界內(nèi)外參與語義網(wǎng)活動(dòng)(重點(diǎn)在關(guān)聯(lián)數(shù)據(jù))的人、基于現(xiàn)有創(chuàng)新舉措、確定未來的合作軌跡,幫助提高圖書館數(shù)據(jù)在互聯(lián)網(wǎng)上的全球互操作。
圖書館關(guān)聯(lián)數(shù)據(jù)孵化小組創(chuàng)始成員來自國(guó)家圖書館、大學(xué)圖書館及研究單位、圖書館供應(yīng)商及其他感興趣的利益相關(guān)人。其范圍不僅限于圖書館,也有意包括其他文化遺產(chǎn)機(jī)構(gòu)、出版業(yè)的合作伙伴及其他相關(guān)領(lǐng)域[12]。由此可以看到,LAM正在逐步參與到圖書館關(guān)聯(lián)數(shù)據(jù)孵化小組的各項(xiàng)活動(dòng)中,發(fā)揮著各自獨(dú)特的作用。
2011年6月2~3日,在美國(guó)舊金山舉辦了國(guó)際圖書館、檔案館和博物館關(guān)聯(lián)開放數(shù)據(jù)峰會(huì)(The International Linked Open Data in Libraries,Archives,and Museums Summit)簡(jiǎn)稱“LOD-LAM”[13]。超過85個(gè)團(tuán)體參加了本次峰會(huì)[14]。LOD-LAM 峰會(huì)的宗旨是:“促進(jìn)關(guān)聯(lián)開放數(shù)據(jù)公布途徑的實(shí)用性和可行性”。包括為公布有效的關(guān)聯(lián)開放數(shù)據(jù)草案提供工具和技術(shù)支持,為有關(guān)LAM元數(shù)據(jù)的公布提供許可和版權(quán)的法律保障,以及發(fā)布定義并且推廣,使用實(shí)例向LAM的工作人員提供工具,在機(jī)構(gòu)中倡導(dǎo)開發(fā)關(guān)聯(lián)數(shù)據(jù)的應(yīng)用。在有關(guān)權(quán)利和開放數(shù)據(jù)的主題討論時(shí),專家們提出了一個(gè)“開放關(guān)聯(lián)的文化元數(shù)據(jù)4星級(jí)分類計(jì)劃”[15]:
★★★★ 公共領(lǐng)域(CC0 / ODC PDDL / Public Domain Mark)
★★★ 署名許可證 (CC-BY / ODC-BY) (當(dāng)許可方考慮到滿足歸屬要求的回溯連接時(shí))(when the licensor considers link backs to meet the attribution requirement)
★★ 署名許可證 (CC-BY / ODC-BY)(其他形式的歸屬)( with another form of attribution)
★ 署名-相同方式分享許可證 (CC-BY-SA/ODC-ODBL)
在本次峰會(huì)上,與會(huì)的專家學(xué)者們圍繞LOD-LAM這一主題,針對(duì)不同的問題展開了激烈的討論,關(guān)注點(diǎn)主要集中在工具、用戶、版權(quán)、詞匯及其匹配、長(zhǎng)期保存、標(biāo)識(shí)符(生成、辨別、匹配、查重等)、數(shù)據(jù)來源和歷史、界面設(shè)計(jì)、自動(dòng)獲取數(shù)據(jù)、出版、數(shù)據(jù)的再利用和重新定位、科學(xué)數(shù)據(jù)描述工具、機(jī)器學(xué)習(xí)加速匹配的過程、關(guān)聯(lián)數(shù)據(jù)相關(guān)概念的歷史、聯(lián)接特殊數(shù)據(jù)庫(kù)中的內(nèi)容、普及和說服、改革檔案的描述方式等方面。峰會(huì)雖然已經(jīng)落下了帷幕,但有關(guān)LAM在關(guān)聯(lián)數(shù)據(jù)方面的發(fā)展問題仍然備受矚目,LOD-LAM主頁上不斷地有專家學(xué)者發(fā)表相關(guān)的博文,越來越多的LAM領(lǐng)域的專家學(xué)者開始關(guān)注該領(lǐng)域,關(guān)聯(lián)數(shù)據(jù)在LAM的應(yīng)用正在如火如荼地展開。
1.3 關(guān)聯(lián)數(shù)據(jù)應(yīng)用于LAM數(shù)字資源整合的意義
LAM都有極其豐富的數(shù)字資源,并且對(duì)其元數(shù)據(jù)都進(jìn)行了規(guī)范化控制。但由于行政體制等方面的問題,LAM的元數(shù)據(jù)采用的標(biāo)準(zhǔn)、遵循的協(xié)議不太一致,這就導(dǎo)致LAM的數(shù)字資源不能實(shí)現(xiàn)整合,不能實(shí)現(xiàn)一站式檢索,造成重復(fù)勞動(dòng)和資源的利用率較低等問題。為了解決這些問題就要對(duì)LAM的數(shù)字資源進(jìn)行整合。
對(duì)LAM的數(shù)字資源進(jìn)行整合的第一步就是要對(duì)其元數(shù)據(jù)進(jìn)行整合,都以關(guān)聯(lián)數(shù)據(jù)的形式發(fā)布本機(jī)構(gòu)的資源。若LAM都能以關(guān)聯(lián)數(shù)據(jù)的形式發(fā)布本機(jī)構(gòu)的資源,公眾就可以通過網(wǎng)絡(luò)檢索到更多更豐富的資源。比如用戶輸入“魯迅”進(jìn)行檢索,通過關(guān)聯(lián)數(shù)據(jù)可以查到哪些圖書館收藏有魯迅的書,哪些博物館收藏有魯迅的遺物,哪些檔案館收藏有魯迅的相關(guān)檔案資料。這不僅極大地提高了LAM資源的利用率,而且可以更大程度上滿足社會(huì)公眾的文化需求,提升全社會(huì)文化生活的品質(zhì)。
2 基于關(guān)聯(lián)數(shù)據(jù)的LAM數(shù)字資源整合模式探討
要實(shí)現(xiàn)基于關(guān)聯(lián)數(shù)據(jù)的LAM數(shù)字資源整合必須面臨著一個(gè)重要挑戰(zhàn),即互操作和數(shù)據(jù)共享問題。如何將LAM分布結(jié)構(gòu)的系統(tǒng)和資源有機(jī)的整合起來?如何向用戶提供一個(gè)高效、統(tǒng)一的數(shù)據(jù)發(fā)現(xiàn)機(jī)制?這些問題需要通過利用OAI-PMH協(xié)議基于LAM原有的系統(tǒng),集成LAM的元數(shù)據(jù),構(gòu)建一個(gè)基于關(guān)聯(lián)數(shù)據(jù)并向用戶提供統(tǒng)一的信息服務(wù)得到解決。關(guān)聯(lián)數(shù)據(jù)把API(應(yīng)用程序接口)統(tǒng)一為HTTP,經(jīng)過簡(jiǎn)單的擴(kuò)展比如通過Hash或Slash方式轉(zhuǎn)發(fā)。運(yùn)用關(guān)聯(lián)數(shù)據(jù)對(duì)數(shù)據(jù)訪問方式進(jìn)行標(biāo)準(zhǔn)化,用戶或是代理無需知道某具體關(guān)聯(lián)數(shù)據(jù)發(fā)布網(wǎng)站的體系架構(gòu)、存儲(chǔ)方式等任何技術(shù)細(xì)節(jié),只需要知道Web服務(wù)器地址,就能夠直接用SPARQL進(jìn)行訪問[16]。
在采集LAM的元數(shù)據(jù)時(shí)會(huì)存在以下兩個(gè)問題:①OAI-PMH協(xié)議規(guī)定可以使用 identifier 等參數(shù)限定采集范圍,但是目前不支持用戶自行設(shè)定采集參數(shù),如按作者或語種采集,雖然這正是用戶所需要的;②在一個(gè)OAI倉(cāng)儲(chǔ)中,每個(gè)Item(元數(shù)據(jù)條目)都有一個(gè)標(biāo)識(shí)符,如oai:arXiv.org: quant-ph /9604021,但是這種標(biāo)識(shí)符不是HTTP URI形式,是不能夠直接通過它來采集相應(yīng)的元數(shù)據(jù)的[17]。
因此,要利用關(guān)聯(lián)數(shù)據(jù)實(shí)現(xiàn)LAM數(shù)字資源整合,首先需要實(shí)現(xiàn)OAI-PMH元數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù)化,即將OAI倉(cāng)儲(chǔ)中的元數(shù)據(jù)轉(zhuǎn)換為關(guān)聯(lián)數(shù)據(jù),以解決用戶在按傳統(tǒng)方式采集這些元數(shù)據(jù)時(shí)所遇到的問題。
2.1 OAI-PMH元數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù)化
要實(shí)現(xiàn)OAI-PMH元數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù)化,需要按照關(guān)聯(lián)數(shù)據(jù)四原則的要求,來明確URI的分配方法、描述關(guān)聯(lián)數(shù)據(jù)的元數(shù)據(jù)元素、關(guān)聯(lián)規(guī)則和關(guān)聯(lián)信息所使用的生成方法;選定合適的OAI倉(cāng)儲(chǔ),利用baseURL采集元數(shù)據(jù),并且把結(jié)果保存在本地元數(shù)據(jù)庫(kù);利用D2R等發(fā)布工具,將結(jié)果生成映射文件,根據(jù)上述過程,將本地元數(shù)據(jù)庫(kù)中的數(shù)據(jù)轉(zhuǎn)換為關(guān)聯(lián)數(shù)據(jù)。
LAM可以通過上述原理將OAI-PMH元數(shù)據(jù)轉(zhuǎn)換為關(guān)聯(lián)數(shù)據(jù),然后通過URI直接訪問記錄的元數(shù)據(jù),同樣可以按照 SPARQL 協(xié)議任意設(shè)定查詢條件,從而實(shí)現(xiàn)對(duì)元數(shù)據(jù)的批量檢索。但是需要注意的是LAM一定要建立各自的OAI倉(cāng)儲(chǔ),其數(shù)字資源要有標(biāo)準(zhǔn)的元數(shù)據(jù),這樣才能擁有豐富的LOA-LAM,實(shí)現(xiàn)LAM元數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù)化。
2.2 基于關(guān)聯(lián)數(shù)據(jù)的LAM數(shù)字資源整合模式
在關(guān)聯(lián)開放數(shù)據(jù)(LOD)項(xiàng)目的推動(dòng)下,目前有超過130億條傳統(tǒng)網(wǎng)頁上的數(shù)據(jù),例如維基百科、地理數(shù)據(jù)集和政府?dāng)?shù)據(jù)集等,已經(jīng)自動(dòng)半自動(dòng)地轉(zhuǎn)換成了關(guān)聯(lián)數(shù)據(jù),構(gòu)建了龐大的數(shù)據(jù)網(wǎng)絡(luò)[18]。關(guān)聯(lián)數(shù)據(jù)的出現(xiàn)使得LAM和其他組織機(jī)構(gòu)之間進(jìn)行數(shù)據(jù)的識(shí)別和交換越來越容易。越來越多的LAM對(duì)數(shù)據(jù)數(shù)字資源整合十分重視,并意識(shí)到有責(zé)任承擔(dān)起創(chuàng)建LAM關(guān)聯(lián)數(shù)據(jù)的任務(wù)。LAM需要儲(chǔ)存相關(guān)的關(guān)聯(lián)數(shù)據(jù),來滿足社會(huì)的需求。LAM之間,LAM和數(shù)據(jù)存儲(chǔ)機(jī)構(gòu)之間的合作將越來越緊密,LAM在發(fā)布關(guān)聯(lián)數(shù)據(jù)方面發(fā)揮更大的作用。
歐洲數(shù)字圖書館(Europeana)是歐洲國(guó)家圖書館的數(shù)字資源門戶[19],該網(wǎng)站提供了多國(guó)語言支持,以方便各地用戶使用。歐盟委員會(huì)2010年11月18日發(fā)表公報(bào)說,歐洲數(shù)字圖書館中書籍、地圖、繪畫、照片、檔案、電影和音樂等電子版藏品超過1400萬件,這些藏品已向公眾開放。Europeana非常重視門戶的互操作性,采用了SKOS和其他一些元數(shù)據(jù)模式。其大多數(shù)資源來自歐盟27個(gè)成員國(guó)的1000多個(gè)圖書館和博物館。它整合了LAM等組織機(jī)構(gòu)電子版藏品的元數(shù)據(jù)。
LOA-LAM的不斷豐富,為實(shí)現(xiàn)LAM數(shù)字資源的有效整合打開了便利之門,LAM可以根據(jù)關(guān)聯(lián)數(shù)據(jù)的基本原理和關(guān)聯(lián)數(shù)據(jù)驅(qū)動(dòng)的Web應(yīng)用框架,在不同的數(shù)據(jù)間通過URI建立關(guān)聯(lián)。筆者嘗試著構(gòu)建出基于關(guān)聯(lián)數(shù)據(jù)的LAM數(shù)字資源整合模式(見圖3)?;陉P(guān)聯(lián)數(shù)據(jù)的LAM數(shù)字資源的整合模式從下往上可以分為數(shù)據(jù)發(fā)布層、數(shù)據(jù)關(guān)聯(lián)層和數(shù)據(jù)集成應(yīng)用層三個(gè)層次[20]。數(shù)據(jù)發(fā)布層是指來自LAM的信息資源,如書籍、檔案、照片、地圖、繪畫、電影和音樂等。對(duì)應(yīng)的LAM三個(gè)資源主體,可以將它們的數(shù)據(jù)按照“關(guān)聯(lián)數(shù)據(jù)四原則”發(fā)布在網(wǎng)絡(luò)上,使用戶可以通過網(wǎng)絡(luò)對(duì)三館的資源進(jìn)行瀏覽。但是在該框架下發(fā)布的各種LAM資源不同于傳統(tǒng)的LAM資源發(fā)布形式,都是利用資源描述框架進(jìn)行描述的。數(shù)據(jù)關(guān)聯(lián)層是指由于LAM的資源內(nèi)部可能存在特定的關(guān)聯(lián)關(guān)系,如一部電影對(duì)應(yīng)一家或若干家公司,一個(gè)人可以有多部著作等,將這些關(guān)系通過RDF鏈接聯(lián)系起來,形成一個(gè)數(shù)據(jù)的網(wǎng)絡(luò),不同類型的資源通過關(guān)聯(lián)數(shù)據(jù)建立鏈接。數(shù)據(jù)集成應(yīng)用層指的是關(guān)聯(lián)數(shù)據(jù)瀏覽、SPARQL檢索等基于各種關(guān)聯(lián)數(shù)據(jù)的網(wǎng)絡(luò)應(yīng)用。例如,歐洲數(shù)字圖書館目前正在開發(fā)數(shù)字資源門戶的語義檢索服務(wù)。這項(xiàng)服務(wù)通過將檢索詞匹配到地點(diǎn)、名字、題名和概念,為用戶提供更有意義的檢索結(jié)果。此外,Europeana Connect項(xiàng)目為了能夠?qū)崿F(xiàn)在對(duì)象之間建立語義鏈接,正在將語義層引入Europeana[21] 。
要實(shí)現(xiàn)基于關(guān)聯(lián)數(shù)據(jù)的LAM數(shù)字資源整合模式既需要運(yùn)用傳統(tǒng)網(wǎng)絡(luò)的URI(統(tǒng)一資源標(biāo)識(shí)符)和HTTP(超文本傳輸協(xié)議)這兩項(xiàng)技術(shù),還要涉及一些語義網(wǎng)的技術(shù),例如RDF、SPARQL和OWL等。
3 LAM在利用關(guān)聯(lián)數(shù)據(jù)時(shí)需要注意的問題
對(duì)于LAM來說,關(guān)聯(lián)數(shù)據(jù)最大的優(yōu)點(diǎn)是對(duì)于來自不同數(shù)據(jù)源的同一個(gè)對(duì)象通過提供多個(gè)分布式異構(gòu)數(shù)據(jù)源整合的關(guān)聯(lián)訪問,對(duì)其進(jìn)行數(shù)據(jù)整合,將該對(duì)象的所有相關(guān)信息進(jìn)行統(tǒng)一視圖,然后再反饋給用戶。目前的關(guān)聯(lián)數(shù)據(jù)瀏覽器,用戶可以在不同數(shù)據(jù)源之間進(jìn)行瀏覽。但是在數(shù)據(jù)整合的基礎(chǔ)上,運(yùn)用適當(dāng)?shù)挠脩艚换ツJ揭琅f十分困難。因此,LAM在利用瀏覽器和搜索引擎時(shí),應(yīng)對(duì)當(dāng)前的用戶交互模式進(jìn)行優(yōu)化,提供和互聯(lián)網(wǎng)瀏覽器類似的前進(jìn)和后退功能,使用戶能在數(shù)據(jù)網(wǎng)絡(luò)中自由的暢游,而且關(guān)聯(lián)數(shù)據(jù)瀏覽器應(yīng)當(dāng)提供一個(gè)有效的機(jī)制允許用戶增加或刪除當(dāng)前視圖中的數(shù)據(jù)資源。
雖然關(guān)聯(lián)數(shù)據(jù)應(yīng)用前景良好,但也存在著很多問題。它最大的阻礙就是封閉。在封閉系統(tǒng)中,LAM基本無法利用關(guān)聯(lián)數(shù)據(jù)對(duì)數(shù)字資源進(jìn)行連接和整合。當(dāng)前,LAM通過各種渠道(購(gòu)買、租用或者開發(fā))獲得的大量資源庫(kù)是需要通過訪問接口才能獲取的,如果這些資源庫(kù)的接口都是不開放,關(guān)聯(lián)數(shù)據(jù)也就會(huì)無計(jì)可施。在數(shù)據(jù)網(wǎng)絡(luò)中,需要鼓勵(lì)更多的數(shù)據(jù)提供者參與進(jìn)來,并且保證數(shù)據(jù)的用戶能夠規(guī)范使用這些數(shù)據(jù)。目前,在LOD-LAM 項(xiàng)目中圖書館的關(guān)聯(lián)數(shù)據(jù)集發(fā)展較快,但比較缺乏檔案館和博物館的關(guān)聯(lián)數(shù)據(jù)集。因此,有關(guān)LOD-LAM的研究就顯得很有必要。LOD-LAM的開放許可標(biāo)準(zhǔn)需要全面考慮到各種不同類型的數(shù)據(jù)和平衡各方利益,既要為數(shù)據(jù)提供者發(fā)布關(guān)聯(lián)數(shù)據(jù)提供便利,也要為他們帶去一定的利益,同時(shí)還要遵循相關(guān)法律法規(guī)。
LOD-LAM是開放的,不斷更新的,允許任何人在互聯(lián)網(wǎng)上發(fā)布LOD-LAM。如果LOD-LAM源被修改或者刪除,數(shù)據(jù)源之間的關(guān)聯(lián)很可能發(fā)生斷鏈現(xiàn)象,從而使得基于LOD-LAM的應(yīng)用程序發(fā)生錯(cuò)誤。因此,為了有效利用關(guān)聯(lián)數(shù)據(jù),必須保證URI的完整性、準(zhǔn)確性和可靠性。LAM應(yīng)用關(guān)聯(lián)數(shù)據(jù)時(shí),必須提供關(guān)聯(lián)數(shù)據(jù)源的監(jiān)控插件,以監(jiān)測(cè)發(fā)生問題的關(guān)聯(lián),并有效幫助數(shù)據(jù)源發(fā)現(xiàn)和維護(hù)網(wǎng)絡(luò)中數(shù)據(jù)源與數(shù)據(jù)源之間的關(guān)聯(lián)。為了降低應(yīng)用層對(duì)關(guān)聯(lián)數(shù)據(jù)斷鏈的處理,LAM應(yīng)當(dāng)保證關(guān)聯(lián)數(shù)據(jù)源關(guān)聯(lián)集成的高可用性,建立起有效的監(jiān)測(cè)和修正機(jī)制,以維護(hù)關(guān)聯(lián)數(shù)據(jù)的參照完整性和數(shù)據(jù)更新的同步性。
4 結(jié)語
關(guān)聯(lián)數(shù)據(jù)為L(zhǎng)AM提供了一種數(shù)字資源之間的關(guān)聯(lián)和鏈接機(jī)制,有利于LAM中不同類型的數(shù)據(jù)、信息和知識(shí)的發(fā)現(xiàn)和共享。關(guān)聯(lián)數(shù)據(jù)在數(shù)據(jù)層建立了富鏈接機(jī)制,較為完善地描述了數(shù)據(jù)的結(jié)構(gòu)信息。由于關(guān)聯(lián)數(shù)據(jù)運(yùn)用了URI,保證了計(jì)算機(jī)能夠自動(dòng)鏈接各種數(shù)據(jù),奠定了資源整合的智能化和自動(dòng)化基礎(chǔ)。LAM應(yīng)該充分利用關(guān)聯(lián)數(shù)據(jù)源中的關(guān)聯(lián)關(guān)系,利用關(guān)聯(lián)數(shù)據(jù)強(qiáng)大的連接功能,有序地組織、集成和關(guān)聯(lián)本館資源,進(jìn)行資源內(nèi)容的互聯(lián)和深層展示,整合LAM中多種類型數(shù)字資源,為用戶提供全方位、多層次的數(shù)字資源集成服務(wù)。在社會(huì)公眾對(duì)文化信息需求越來越強(qiáng)烈、越來越廣泛,在信息技術(shù)對(duì)社會(huì)發(fā)展的影響越來越深刻、越來越全面的時(shí)代背景下,LAM數(shù)字資源的整合是時(shí)代的要求、是歷史的趨勢(shì)。關(guān)聯(lián)數(shù)據(jù)應(yīng)時(shí)代而生,它必定會(huì)在LAM數(shù)字資源整合過程中發(fā)揮極其重要的作用。
參考文獻(xiàn):
[1]Idehen K.Creanting,Developing and Exploiting Linked Data[EB/OL].[2011-10-22]. http://virtuoso.openlinksw.com/presentations/Creanting_Developing_Exploiting_Link
ed_Data2/Creanting_Developing_Exploiting_Linked _Data2_TimBL_v3.html#%281%29.
[2]維基百科.LinkedData[EB/OL].[2011-10-22].http://en.wikipedia.org/wiki/Linked_Data.
[3]Berners-Lee T.Linked data[EB/OL].[2010-10-17].http://www.w3.org/DesignIssues/LinkedData.html.
[4]The New York Times.Linked Open Date[EB/OL].[2011-10-17].http://data.nytimes.com/.
[5]The Data Hub.LOD Cloud[EB/OL].[2011-10-17].http://ckan.net/group/lodcloud.
[6]The Data Hub.Library Linked Data[EB/OL].[2011-10-17].http://ckan.net/group/lld.
[7]The Data Hub.Climate Data[EB/OL].[2011-10-17].http://ckan.net/group/climatedata.
[8]The Data Hub.Energy Data[EB/OL].[2011-10-17].http://ckan.net/group/energy-data.
[9]婁秀明.用關(guān)聯(lián)數(shù)據(jù)技術(shù)實(shí)現(xiàn)網(wǎng)絡(luò)知識(shí)組織系統(tǒng)的研究[D].上海:華東師范大學(xué),2010.
[10][21]黃永文.關(guān)聯(lián)數(shù)據(jù)在圖書館中的應(yīng)用研究綜述[J].數(shù)字圖書館,2010,(5):6-7.
[11]Singer R.The Linked Library Data Cloud[EB/OL].[2011-10-17].http://code4lib.org/conference/2010/singer。
[12]W3C.W3CLibrary Linked Data Incubator Group[EB/OL].[2011-10-17].http://www.w3.org/2005/Incubator/lld/.
[13]LOD-LAM.Home[EB/OL].[2011-10-17]. http://lod-lam.net/summit/.
[14]LOD-LAM.Participants[EB/OL].[2011-10-17]. http://lod-lam.net/summit/participants/.
[15]MacKenzie S. Proposed: a 4-star classification-scheme for linked open cultural metadata[EB/OL].[2011-10-17].http://lod-lam.net/summit/2011/06/06/proposed-a-4-star-classification-scheme-for-linked-open-cultural
-metadata/.
[16]劉煒.關(guān)聯(lián)數(shù)據(jù):概念、技術(shù)及應(yīng)用展望[J].大學(xué)圖書館學(xué)報(bào),2011,(2):6-9.
[17]郭少友.OAI-PMH元數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù)化方法研究[J].圖書情報(bào)工作,2011,(1):107-108.
[18]潘有能,張悅.關(guān)聯(lián)數(shù)據(jù)研究與應(yīng)用進(jìn)展[J].情報(bào)科學(xué),2011,(1):124.
[19]Concordia C.Gradmann S.Siebinga S. Not (just) a Repository, nor (just) a Digital Library, nor(just) a Portal:A Portrait of European as an API[EB/OL].[2011-10-16].http://www.ifla.org/files/hq/papers/ifla75
/193-concordia-en.pdf.
[20]馬費(fèi)成等.基于關(guān)聯(lián)數(shù)據(jù)的網(wǎng)絡(luò)信息資源集成[J]. 情報(bào)雜志,2011,(2):168.
作者簡(jiǎn)介:鄭燃,女,武漢大學(xué)信息管理學(xué)院圖書館學(xué)博士研究生;唐義,男,武漢大學(xué)信息管理學(xué)院碩士研究生;戴艷清,女,武漢大學(xué)信息管理學(xué)院博士研究生。