摘 要:關聯(lián)數(shù)據(jù)的應用過程包括發(fā)布和消費兩個環(huán)節(jié)。文章基于OCLC分別于2015年和2018年對關聯(lián)數(shù)據(jù)項目實施情況調(diào)查結(jié)果的原始公開數(shù)據(jù),總結(jié)關聯(lián)數(shù)據(jù)項目的實施現(xiàn)狀,分析關聯(lián)數(shù)據(jù)的發(fā)布和消費的動機與障礙,針對存在的障礙思考提升路徑,為我國的關聯(lián)數(shù)據(jù)項目實施提供借鑒。
關鍵詞:關聯(lián)數(shù)據(jù) 數(shù)據(jù)發(fā)布 數(shù)據(jù)消費
中圖分類號:G251文獻標識碼:A文章編號:1003-9082(2019)09-00-03
Tim Berners-Lee在2006年提出了關聯(lián)數(shù)據(jù)的概念。關聯(lián)數(shù)據(jù)是一種推薦的最佳實踐,用來在語義網(wǎng)中使用URIs和RDF發(fā)布、分享、連接各類數(shù)據(jù)、信息和知識,發(fā)布和部署實例數(shù)據(jù)和類數(shù)據(jù),從而可以通過HTTP協(xié)議揭示并獲取這些數(shù)據(jù),同時強調(diào)數(shù)據(jù)的相互關聯(lián)、相互聯(lián)系以及有益于人機理解的語境信息[1]。
本文根據(jù)OCLC[2]對關聯(lián)數(shù)據(jù)項目兩次調(diào)查結(jié)果的原始數(shù)據(jù),分析關聯(lián)數(shù)據(jù)項目的實施動機和遇到的障礙。被調(diào)查的機構(gòu)情況見表1??傮w上,圖書館機構(gòu)占被調(diào)查機構(gòu)的大多數(shù)(67%)。另外,2018年的最新一次調(diào)查中,首次收到服務供應商的問卷反饋,該類機構(gòu)為客戶提供關聯(lián)數(shù)據(jù)服務。
一、關聯(lián)數(shù)據(jù)的發(fā)布
指將原始數(shù)據(jù)轉(zhuǎn)換為以RDF數(shù)據(jù)格式描述的結(jié)構(gòu)化數(shù)據(jù),在不同的數(shù)據(jù)之間建立RDF鏈接,并在Web上發(fā)布RDF文檔的一個過程。發(fā)布時,可根據(jù)RDF數(shù)據(jù)集合的規(guī)模選擇不同發(fā)布方式。數(shù)據(jù)量較小時,可直接發(fā)布靜態(tài)的RDF文檔;數(shù)據(jù)量較大時,使用RDF數(shù)據(jù)庫發(fā)布關聯(lián)數(shù)據(jù);如果數(shù)據(jù)更新頻繁,可采用在線轉(zhuǎn)換的方式,當收到訪問請求時,在線將原始數(shù)據(jù)轉(zhuǎn)換為RDF文檔供用戶使用。
1.發(fā)布關聯(lián)數(shù)據(jù)的動機
根據(jù)OCLC對關聯(lián)數(shù)據(jù)項目的調(diào)查結(jié)果,關聯(lián)數(shù)據(jù)的發(fā)布動機可分為三類,結(jié)果見表2。
總體上,關聯(lián)數(shù)據(jù)的發(fā)布動機沒有明顯變化,只有為滿足管理部門要求發(fā)布關聯(lián)數(shù)據(jù)的回答數(shù)量有明顯增加。發(fā)布關聯(lián)數(shù)據(jù)的動機體現(xiàn)在分享數(shù)據(jù)資源、探索關聯(lián)數(shù)據(jù)的應用、被動發(fā)布三個方面。
分享數(shù)據(jù)資源方面。體現(xiàn)在:在web上公開數(shù)據(jù)供更多用戶使用、嘗試將本地數(shù)據(jù)公開為關聯(lián)數(shù)據(jù)。此類動機基本沒有發(fā)生改變,因為發(fā)布關聯(lián)數(shù)據(jù)的目的就是為了與其他數(shù)據(jù)集合關聯(lián)而實現(xiàn)數(shù)據(jù)共享。關聯(lián)數(shù)據(jù)的核心是將數(shù)據(jù)和網(wǎng)絡融合起來,將數(shù)據(jù)以關聯(lián)數(shù)據(jù)的形式發(fā)布,數(shù)據(jù)就成為網(wǎng)絡的一部分,最終實現(xiàn)文檔網(wǎng)絡(the Web of Document)向數(shù)據(jù)網(wǎng)絡(the Web of Data)的轉(zhuǎn)變。
探索關聯(lián)數(shù)據(jù)的應用方面。根據(jù)OCLC的2018年調(diào)查結(jié)果,目前RDF三元組數(shù)據(jù)量超過50億的關聯(lián)數(shù)據(jù)項目有3個,分別是OCLC的World Cat項目(100億)、加利西亞數(shù)字圖書館(63億)、歐洲數(shù)字圖書館(50億)。數(shù)據(jù)量在1億到10億之間的項目有10個,數(shù)據(jù)量在1000萬到1億之間的項目有9個,數(shù)據(jù)量小于1000萬的項目有33個。自從Tim Berners-Lee在2006年提出關聯(lián)數(shù)據(jù)的概念以來,許多組織機構(gòu)都在嘗試將本地數(shù)據(jù)發(fā)布為關聯(lián)數(shù)據(jù),但是對于關聯(lián)數(shù)據(jù)的應用仍處于探索階段,大多數(shù)組織機構(gòu)將本地數(shù)據(jù)發(fā)布為關聯(lián)數(shù)據(jù)的目的是探索關聯(lián)數(shù)據(jù)的應用方式,比如能否提高檢索效率。
被動發(fā)布關聯(lián)數(shù)據(jù)方面。為了滿足管理部門的要求而發(fā)布關聯(lián)數(shù)據(jù)的回答數(shù)較2015年有明顯增加。如英國圖書館表示其關聯(lián)數(shù)據(jù)項目實施,一方面是為響應英國政府的開放數(shù)據(jù)政策,另一方面是為探索關聯(lián)書目數(shù)據(jù)應用的可能性。另外,在2019年1月,美國政府頒布了《開放政府數(shù)據(jù)法案》,要求聯(lián)邦機構(gòu)以開放的機器可讀格式向公眾開放非敏感政府數(shù)據(jù)。說明公共部門已經(jīng)逐漸意識到關聯(lián)數(shù)據(jù)的重要性,開始要求其下屬部門將其數(shù)據(jù)以關聯(lián)數(shù)據(jù)形式發(fā)布。
2.發(fā)布關聯(lián)數(shù)據(jù)的障礙
根據(jù)OCLC對關聯(lián)數(shù)據(jù)項目的調(diào)查結(jié)果,發(fā)布關聯(lián)數(shù)據(jù)的主要障礙可分為資源障礙、技術障礙和其他障礙三類,調(diào)查結(jié)果如表3所示。
總體上,除了數(shù)據(jù)產(chǎn)權(quán)障礙和發(fā)布軟件技術不成熟的障礙,發(fā)布關聯(lián)數(shù)據(jù)的其他障礙沒有明顯變化。其中,發(fā)布關聯(lián)數(shù)據(jù)最大的障礙主要是專業(yè)技術人力資源匱乏。
資源障礙方面。接近一半的組織機構(gòu)認為數(shù)據(jù)格式不一致是發(fā)布關聯(lián)數(shù)據(jù)的障礙。以圖書館編目數(shù)據(jù)為例,無論是MARC還是CNMARC格式的數(shù)據(jù)資源都要經(jīng)歷編目各元素項的拆分和轉(zhuǎn)換映射兩個環(huán)節(jié),然而轉(zhuǎn)換與映射的過程中存在無法對應的情況,需要對原有的編目元素項進行修改、增補或刪除等操作。在2015年的調(diào)查中,有受訪者在“其他障礙”里列出“缺乏資金”,因此OCLC在2018年的調(diào)查中將其單獨作為一個選項,并且成為了發(fā)布關聯(lián)數(shù)據(jù)的第四大障礙。根據(jù)OCLC的調(diào)查統(tǒng)計,有22個關聯(lián)數(shù)據(jù)項目接受過國家基金資助;73個項目受到過圖書館/檔案館或上級機構(gòu)的資助;6個項目受過伙伴(合作)機構(gòu)的資助;5個項目受到過私人資助;1個項目獲得公司基金資助;有8個項目未申請過資助,但計劃申請。另外,由于數(shù)據(jù)版權(quán)問題造成的關聯(lián)數(shù)據(jù)發(fā)布障礙降低。因為數(shù)據(jù)的版權(quán)屬性不清晰,隨意將數(shù)據(jù)發(fā)布到web上存在侵權(quán)的法律風險。說明組織機構(gòu)的版權(quán)意識逐漸提高,已經(jīng)基本解決數(shù)據(jù)的版權(quán)問題。
技術障礙方面。最大的障礙是專業(yè)技術人力資源匱乏,主要是因為學習關聯(lián)數(shù)據(jù)的相關專業(yè)知識具有一定難度。因此在2018年的調(diào)查中,將學習關聯(lián)數(shù)據(jù)知識納入員工職責的項目數(shù)量降低(72%,2018;92%,2015),相應地,越來越多的組織機構(gòu)開始聘用具備關聯(lián)數(shù)據(jù)專業(yè)知識的新員工或外部顧問(20%,2018;4%,2015)。另外,如何選擇合適的RDF詞匯表、本體描述本地數(shù)據(jù)也是一大障礙。關聯(lián)數(shù)據(jù)采用RDF三元組的主-謂-賓結(jié)構(gòu)作為基本數(shù)據(jù)模型[3]。發(fā)布關聯(lián)數(shù)據(jù)過程中,最關鍵的步驟是將組織機構(gòu)內(nèi)部的數(shù)據(jù)轉(zhuǎn)換為RDF格式的數(shù)據(jù)。目前使用最多的RDF詞匯表、本體有Schema.org(用于描述結(jié)構(gòu)化數(shù)據(jù)的詞表)、SKOS(用于描述分類和領域知識概念)、DC(用于描述網(wǎng)絡資源的元數(shù)據(jù)詞表)、FOAF(用于描述人的活動和人與人之間關系的詞表)、DCMI(DC核心要素的擴展版本,定義了更多的元素和關系)、RDF Schema(用于描述RDF結(jié)構(gòu)的詞表)、Bib Frame(用于描述書目和引文的概念和關系)。另外,可能還需要根據(jù)組織機構(gòu)的原始數(shù)據(jù)結(jié)構(gòu)創(chuàng)建新的RDF詞匯表/本體。在2015年和2018年的調(diào)查結(jié)果對比中,越來越多的組織機構(gòu)表示缺乏成熟的關聯(lián)數(shù)據(jù)發(fā)布軟件,可能的原因是隨著越來越多的組織機構(gòu)發(fā)布關聯(lián)數(shù)據(jù),而相應的發(fā)布軟件更新不及時,導致發(fā)布關聯(lián)數(shù)據(jù)存在技術上的障礙。
其他障礙方面。歐洲數(shù)字圖書館表示,由于數(shù)據(jù)量過大而導致關聯(lián)數(shù)據(jù)集的更新困難;美國普瑞特信息與圖書館科學學院表示,“我們無法將關聯(lián)爵士項目的數(shù)據(jù)遷移到Wikibase知識庫中,我們想把我們的數(shù)據(jù)轉(zhuǎn)移到一個更靈活的、非特定領域的平臺上”。美國史密森尼博物館則表達了對數(shù)據(jù)安全和隱私的擔憂。還有一些組織機構(gòu)表示缺乏上級機構(gòu)的支持、缺少員工等等。
二、關聯(lián)數(shù)據(jù)的消費
涉及到數(shù)據(jù)的訪問、查詢、獲取和利用等方面。OCLC在2018年和2015年的調(diào)查中,大多數(shù)關聯(lián)數(shù)據(jù)項目在發(fā)布關聯(lián)數(shù)據(jù)的同時也消費關聯(lián)數(shù)據(jù)(65,2018;64,2015),只發(fā)布而不消費關聯(lián)數(shù)據(jù)的項目很少(5,2018;10,2015)。本節(jié)基于OCLC的調(diào)查結(jié)果對消費關聯(lián)數(shù)據(jù)的動機和障礙進行具體分析。
1.消費關聯(lián)數(shù)據(jù)的動機
根據(jù)OCLC對關聯(lián)數(shù)據(jù)項目的調(diào)查結(jié)果,消費關聯(lián)數(shù)據(jù)的動機可分為用戶服務、內(nèi)部數(shù)據(jù)管理和搜索引擎優(yōu)化三類,結(jié)果見表4。
總體上,用戶服務方面的消費動機沒有明顯變化,但是內(nèi)部數(shù)據(jù)管理和搜索引擎優(yōu)化方面的動機均有不同程度的變化。
用戶服務方面。大多數(shù)組織機構(gòu)表示其消費關聯(lián)數(shù)據(jù)的目的是為用戶提供豐富的服務。以圖書館為例,傳統(tǒng)的圖書館檢索系統(tǒng)只支持用戶以作者、關鍵詞等檢索條件進行檢索,無法提供擴展服務?;陉P聯(lián)數(shù)據(jù)的檢索可支持用戶進行語義檢索,進而提高檢索質(zhì)量。同時,越來越多的組織機構(gòu)表示想通過嘗試消費關聯(lián)數(shù)據(jù)了解是否可以改善用戶服務體驗。
內(nèi)部數(shù)據(jù)管理方面。發(fā)布關聯(lián)數(shù)據(jù)的目的是消費,有的是在內(nèi)部消費,用于本地資源管理、發(fā)現(xiàn)、重用等,如BBC的關聯(lián)數(shù)據(jù)應用[4]。在2015年的調(diào)查中,有47%的組織機構(gòu)表示消費關聯(lián)數(shù)據(jù)是為了提升內(nèi)部元數(shù)據(jù)管理的效率,但是在2018年的調(diào)查中,選擇此動機的機構(gòu)數(shù)量已降至30%。
搜索引擎優(yōu)化方面。組織機構(gòu)對于消費關聯(lián)數(shù)據(jù)提升搜索引擎優(yōu)化方面的期望均出現(xiàn)不同程度的下降??赡艿脑蚴?,目前大多數(shù)組織機構(gòu)發(fā)布關聯(lián)數(shù)據(jù)采取“大而全”的發(fā)布原則,用戶在消費關聯(lián)數(shù)據(jù)時,經(jīng)常會出現(xiàn)不需要的數(shù)據(jù),進而影響檢索效率。
2.消費關聯(lián)數(shù)據(jù)的障礙
根據(jù)OCLC對關聯(lián)數(shù)據(jù)項目的調(diào)查結(jié)果,發(fā)布關聯(lián)數(shù)據(jù)的主要障礙可分為數(shù)據(jù)質(zhì)量障礙、數(shù)據(jù)獲取障礙、數(shù)據(jù)使用障礙和其他障礙四類,調(diào)查結(jié)果如表5所示。
總體上,消費關聯(lián)數(shù)據(jù)的障礙沒有明顯變化。其中,消費關聯(lián)數(shù)據(jù)最大的障礙是原始數(shù)據(jù)與關聯(lián)數(shù)據(jù)之間的匹配、消除歧義困難。
數(shù)據(jù)質(zhì)量障礙方面。隨著發(fā)布的關聯(lián)數(shù)據(jù)集合越來越多,關聯(lián)數(shù)據(jù)的可重用性越來越重要,如何向用戶提供高質(zhì)量的數(shù)據(jù)資源是關聯(lián)數(shù)據(jù)消費的一個重要問題。在2015年和2018年的兩次調(diào)查中,組織機構(gòu)對于數(shù)據(jù)質(zhì)量方面的障礙的回應并沒有發(fā)生很大變化,數(shù)據(jù)質(zhì)量障礙主要體現(xiàn)在關聯(lián)數(shù)據(jù)可重用性差、詞匯表映射不準確,缺乏權(quán)威控制等方面。這可能是關聯(lián)數(shù)據(jù)發(fā)布軟件不成熟、描述本地數(shù)據(jù)的本體選擇困難等發(fā)布關聯(lián)數(shù)據(jù)的障礙所導致的。發(fā)布關聯(lián)數(shù)據(jù)的障礙導致關聯(lián)數(shù)據(jù)質(zhì)量不穩(wěn)定,進而影響關聯(lián)數(shù)據(jù)的消費。
數(shù)據(jù)獲取障礙方面。越來越多的組織機構(gòu)表示在關聯(lián)數(shù)據(jù)訪問獲取方面存在障礙。比如,RDF轉(zhuǎn)儲文件過大、數(shù)據(jù)鏈接不穩(wěn)定、數(shù)據(jù)集更新不及時等等。這涉及到關聯(lián)數(shù)據(jù)有效性的問題,因為隨著關聯(lián)數(shù)據(jù)集的不斷增多,不同數(shù)據(jù)集之間的鏈接關系將會越來越復雜。任何一個數(shù)據(jù)集的狀態(tài)發(fā)生變化,哪怕是單個三元組層面上的變化,都可能導致與之相鏈接的其他數(shù)據(jù)集發(fā)生訪問故障[5]。因此,獲取關聯(lián)數(shù)據(jù)的前提是保證URI的完整性、準確性和有效性。
數(shù)據(jù)使用障礙方面。在關聯(lián)數(shù)據(jù)的使用方面,接近一半的組織機構(gòu)表示在原始數(shù)據(jù)與關聯(lián)數(shù)據(jù)之間的匹配、消除歧義過程中存在障礙。因為在消費關聯(lián)數(shù)據(jù)前,需要對數(shù)據(jù)進行處理,比如對同一實體對象的識別、去重。然而不同來源的關聯(lián)數(shù)據(jù)對同一個實體(如人物、地點等)可能采用了不同的URI來標識,對于作者、刊名等實體的消歧、去重的工作量巨大。另外,有一部分組織機構(gòu)表示在不同關聯(lián)數(shù)據(jù)源之間的詞匯表映射存在障礙。因為不同來源的關聯(lián)數(shù)據(jù)可能采用不同的詞表,使用前則需要不同來源的關聯(lián)數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的詞匯表描述。轉(zhuǎn)換工作主要依據(jù)詞表將數(shù)據(jù)映射成本地的數(shù)據(jù)模式,另外,還需要依據(jù)人工產(chǎn)生或者經(jīng)過數(shù)據(jù)挖掘得到的映射規(guī)則進行轉(zhuǎn)換[6]。
其他障礙方面。在2018年的調(diào)查中,受訪者列出了消費關聯(lián)數(shù)據(jù)的其他障礙。比如,數(shù)據(jù)轉(zhuǎn)換復雜、缺乏最佳實踐、安全和隱私問題、數(shù)據(jù)集太大而不能作為一個整體發(fā)布(其他人難以使用)以及缺乏機構(gòu)支持等。
三、提升路徑
解決關聯(lián)數(shù)據(jù)項目實施過程中的發(fā)布和消費障礙,是所有關聯(lián)數(shù)據(jù)項目面臨的一個現(xiàn)實問題。實際上,關聯(lián)數(shù)據(jù)的發(fā)布和消費是一個存在邏輯順序的過程,結(jié)合上節(jié)的發(fā)布和消費障礙可以發(fā)現(xiàn),關聯(lián)數(shù)據(jù)項目實施的主要障礙可以概括為關聯(lián)數(shù)據(jù)發(fā)布障礙導致的關聯(lián)數(shù)據(jù)質(zhì)量問題,進而引起關聯(lián)數(shù)據(jù)消費障礙。故,關聯(lián)數(shù)據(jù)的質(zhì)量是關聯(lián)數(shù)據(jù)項目實施的核心。
1.保證原始數(shù)據(jù)質(zhì)量
關聯(lián)數(shù)據(jù)是基于對原始數(shù)據(jù)的RDF描述產(chǎn)生的,因此,原始數(shù)據(jù)質(zhì)量決定關聯(lián)數(shù)據(jù)的質(zhì)量。應建立原始數(shù)據(jù)選擇標準,包括兩個方面:一是保證原始數(shù)據(jù)自身質(zhì)量,二是根據(jù)用戶需求,選擇適合關聯(lián)數(shù)據(jù)化的數(shù)據(jù)。
保證原始數(shù)據(jù)自身質(zhì)量方面。首先,應對數(shù)字資源生產(chǎn)者進行考察,確保原始數(shù)據(jù)來源的可信任性[7]。原始數(shù)據(jù)來源可信任性的認定一般需要延伸到數(shù)字資源生產(chǎn)領域。常用的手段包括:檢查數(shù)字資源生產(chǎn)企業(yè)的資質(zhì)證明,考察其數(shù)字資源生產(chǎn)流程是否符合標準作業(yè)流程,評估數(shù)據(jù)校驗方式是否安全可靠等。其次,對原始數(shù)據(jù)的正確性和完整性進行驗證,以便檢測在數(shù)字保存過程中可能出現(xiàn)的數(shù)據(jù)丟失和損壞。
用戶需求分析方面。根據(jù)OCLC的調(diào)查,大多數(shù)組織機構(gòu)發(fā)布關聯(lián)數(shù)據(jù)并非針對某一特定用戶,為了滿足不同類型用戶需求而追求發(fā)布關聯(lián)數(shù)據(jù)的“大而全”。實際上某些需求只是理論存在,現(xiàn)實幾乎不可能出現(xiàn)。從綠色關聯(lián)數(shù)據(jù)[8]的角度來看,“大而全”的關聯(lián)數(shù)據(jù)發(fā)布原則會導致發(fā)布成本的增加與檢索效率的降低。因此,首先應根據(jù)用戶需求對本地原始數(shù)據(jù)進行篩選,保留用戶需要的數(shù)據(jù),刪除用戶不需要或極少需要的數(shù)據(jù)。其次,本地數(shù)據(jù)模型與用戶實際需要相結(jié)合,對數(shù)據(jù)字段進行增刪、修改,分析哪些字段所提供的信息是用戶需要的,應予以保留,哪些字段所提供的信息用戶不需要或極少用到,應予以刪除。同時要厘清不同字段間的相互關系,在此基礎上構(gòu)建關聯(lián)數(shù)據(jù)模型。
2.原始數(shù)據(jù)與關聯(lián)數(shù)據(jù)的語義描述映射
關聯(lián)數(shù)據(jù)模型設計方面。數(shù)據(jù)模型應準確地反映現(xiàn)實世界中數(shù)據(jù)之間的內(nèi)在邏輯關系?;趯τ脩舻臄?shù)據(jù)需求分析結(jié)果,將概念之間的具體聯(lián)系轉(zhuǎn)化成相對抽象的概念數(shù)據(jù)模型。在此基礎上,將概念數(shù)據(jù)模型轉(zhuǎn)化為邏輯數(shù)據(jù)模型,即將概念數(shù)據(jù)模型先轉(zhuǎn)化為具體的數(shù)據(jù)結(jié)構(gòu),并對數(shù)據(jù)結(jié)構(gòu)內(nèi)數(shù)據(jù)間的語法聯(lián)系、制約和依存關系以及數(shù)據(jù)動態(tài)變化的規(guī)則進行描述,以保證數(shù)據(jù)的正確、有效和相容[9]。同時,也要注意關聯(lián)數(shù)據(jù)與外部關聯(lián)數(shù)據(jù)源之間的關聯(lián)關系設計,主要有以下幾類:與人的關聯(lián)、與時間的關聯(lián)、與空間的關聯(lián)等,相應地,圖書館可以根據(jù)自身情況以及數(shù)據(jù)需求分析的結(jié)果,確定關聯(lián)數(shù)據(jù)應包含哪些類型的關聯(lián)信息,并從現(xiàn)有的詞匯表中選擇關聯(lián)屬性,如foaf:knows、owl:sameAs等。
RDF詞匯表、本體選擇方面。雖然RDF詞匯表還沒有統(tǒng)一的國際標準,但描述本地數(shù)據(jù)時,應盡可能選擇在網(wǎng)絡中已廣泛應用、具備一定權(quán)威性的詞匯表。一是成熟的RDF詞匯表描述能夠使關聯(lián)數(shù)據(jù)語義更加明確,減輕本地元數(shù)據(jù)管理負擔,二是增加與使用相同詞表的外部資源的鏈接,用戶更容易獲取相關鏈接,進而能夠保證關聯(lián)數(shù)據(jù)的互操作性。如果現(xiàn)有的詞匯表不能滿足本地數(shù)據(jù)的描述需求而需自定義詞匯表時,在保證語義描述清晰、準確的前提下,遵循易于重用和互操作的原則。例如大英圖書館,除了使用自定義的BLT本體詞表,還引用了14個成熟RDF詞表,目的是可以更好的與其他圖書館的關聯(lián)書目數(shù)據(jù)建立鏈接。
3.關聯(lián)數(shù)據(jù)鏈接維護
URI選擇方面。關聯(lián)數(shù)據(jù)之間的關聯(lián)是通過URI來實現(xiàn)的。因此,為每個資源選擇URI時,要保證URI穩(wěn)定、持久、短小易記等要求。首先,要使用HTTP URI,這是Tim Berners-Lee提出的關聯(lián)數(shù)據(jù)四項基本原則之一。其次,URI長度應盡量短,URI過長會導致用戶使用不便。再次,URI應保持穩(wěn)定,URI發(fā)生變化可能會導致斷鏈的產(chǎn)生。最后,URI不能包含變量,每個URI必須是確定不變的。
動態(tài)鏈接維護方面。大多數(shù)據(jù)集合處于不斷更新變化之中(包括增加、刪除、移動等操作),數(shù)據(jù)集合的動態(tài)性直接決定了鏈接的動態(tài)性,對這些動態(tài)鏈接進行及時、有效的維護是發(fā)揮關聯(lián)數(shù)據(jù)作用、體現(xiàn)關聯(lián)數(shù)據(jù)價值的重要保證,包括及時修補斷鏈、刪除已消失的鏈接、建立新鏈接等。目前主要的動態(tài)鏈接維護技術有三種:一是基于WOD-LMP協(xié)議(web of data link maintenance protocol)的動態(tài)鏈接維護,這種方法要求鏈接雙方都遵守WOD-LMP協(xié)議;二是基于更新通知的動態(tài)鏈接維護,適用于目標數(shù)據(jù)集合具有數(shù)據(jù)更新通知機制的情況。如Triplify更新日志方法、sparqlPuSH方法、DBPedia Live方法、PingTheSemanticWeb方法等;三是基于主動監(jiān)測機制的動態(tài)鏈接維護,這種方法對目標數(shù)據(jù)集的要求較低,只需要提供SPARQL查詢接口或支持RDF堆下載即可。如DSNotify方法。
基于OCLC在2015年和2018年的兩次調(diào)查結(jié)果可以發(fā)現(xiàn),關聯(lián)數(shù)據(jù)項目的實施仍然處于不斷的發(fā)展之中。無論是關聯(lián)數(shù)據(jù)的發(fā)布還是消費,還存在許多障礙,但是依然要鼓勵更多的關聯(lián)數(shù)據(jù)項目實施,將越來越多的數(shù)據(jù)以關聯(lián)數(shù)據(jù)的形式發(fā)布到Web網(wǎng)絡中,最終實現(xiàn)數(shù)據(jù)網(wǎng)絡。國內(nèi)對于關聯(lián)數(shù)據(jù)的研究起步較晚,大多數(shù)仍然處于理論研究階段,大規(guī)模的關聯(lián)數(shù)據(jù)項目少見。雖然目前缺少對我國關聯(lián)數(shù)據(jù)項目實施情況的整體調(diào)查,但綜合國際上關聯(lián)數(shù)據(jù)項目的實施情況,情況不會樂觀。在未來的實踐中,應多借鑒國外較成熟的關聯(lián)數(shù)據(jù)項目實施經(jīng)驗,促進國內(nèi)外數(shù)據(jù)資源的交流融合。關聯(lián)數(shù)據(jù)的發(fā)布與消費是一個連續(xù)的過程,在消費過程中遇到的障礙同時也會倒逼關聯(lián)數(shù)據(jù)發(fā)布技術的提升。隨著關聯(lián)數(shù)據(jù)應用范圍的擴大,關聯(lián)數(shù)據(jù)的應用效果日益顯現(xiàn),其實現(xiàn)技術和工具也會越來越成熟和易于應用。
參考文獻
[1] Berners-Lee.Linked Data-Design Issues[EB/OL].[2019-01-06].
http://www.w3.org/DesignIssues/LinkedData.html
[2]OCLC.Analysis of 2018 International Linked Data Survey for Implementers[EB/OL].[2019-01-21].
https://www.oclc.org/research/publications/all/analysis-of-2018-linked-data-survey.html
[3]劉煒.關聯(lián)數(shù)據(jù):概念、技術及應用展望[J].大學圖書館學報,2012(2):5~12
[4]夏翠娟,劉煒.關聯(lián)數(shù)據(jù)的消費技術及實現(xiàn)[J].大學圖書館學報,2013(3):29~37
[5]郭少友.關聯(lián)數(shù)據(jù)的動態(tài)鏈接維護研究[J].圖書情報工作,2011,55(17):112~116
[6]黃永文,岳笑.關聯(lián)數(shù)據(jù)應用的體系框架及構(gòu)建關聯(lián)數(shù)據(jù)應用的建議[J].現(xiàn)代圖書情報技術,2011(9):7~13
[7]臧國全.基于項目生命周期的信息資源數(shù)字化建設研究[M].武漢:武漢大學出版社,2014.171~172
[8]郭少友.綠色關聯(lián)數(shù)據(jù):概念、要求與工程[J].圖書情報工作,2012,56(23):113~118
作者簡介:李素芳(1992-),女,研究生,研究方向:圖書情報。