田 寧
(天津農(nóng)學(xué)院圖書館,天津 300384)
在信息“爆炸”的時代,用戶想從海量信息里準確而全面地獲得自己所需要的信息越來越困難。因此信息服務(wù)機構(gòu)應(yīng)整合一切信息資源,為用戶提供更深層次的、一體化的符合用戶需求的信息資源服務(wù)。從我國的實際情況來看,傳統(tǒng)的以文獻為主的信息資源整合是比較成功的。但是隨著數(shù)字化的發(fā)展和互聯(lián)網(wǎng)的廣泛使用,對信息資源的整合提出了新的要求,關(guān)聯(lián)數(shù)據(jù)的適時應(yīng)用為信息資源的深度整合提供了解決方法。
關(guān)聯(lián)數(shù)據(jù)的概念來自于W3C,Tim Berners-Lee于2006年首次提出關(guān)聯(lián)數(shù)據(jù)的基本思想及4條原則,隨后逐漸發(fā)展,并得到了信息機構(gòu)、政府部門、企業(yè)等多方面的重視和關(guān)注,成為推動語義網(wǎng)發(fā)展的重要力量[1]。關(guān)聯(lián)數(shù)據(jù)通過網(wǎng)絡(luò)把以前沒有關(guān)聯(lián)的相關(guān)數(shù)據(jù)聯(lián)接起來,關(guān)聯(lián)數(shù)據(jù)的最終目標(biāo)是使用關(guān)聯(lián)數(shù)據(jù)就像是用一個單一的全球數(shù)據(jù)庫Web。關(guān)聯(lián)數(shù)據(jù)技術(shù)作為一種新的語義發(fā)布工具是目前數(shù)字資源揭示和利用的一項重要技術(shù),其在整合孤立的數(shù)據(jù)、提供開放的元數(shù)據(jù)服務(wù)、實現(xiàn)語義互操作和實現(xiàn)數(shù)據(jù)的Web服務(wù)等方面具有廣闊的應(yīng)用前景。
關(guān)聯(lián)數(shù)據(jù)是一種在網(wǎng)絡(luò)中發(fā)布、分享、聯(lián)接結(jié)構(gòu)化數(shù)據(jù)的方法,它主要建立在3種技術(shù)的基礎(chǔ)上:用統(tǒng)一資源標(biāo)識符 (Uniform Resource Identifier,URI) 來指代任何資源;用RDF三段式來描述和聯(lián)接任何資源,RDF三段式,即事物——特性——值,其中的任何一部分都可以集中很多信息,都可以回答檢索問題[2];用HTTP來描述資源或者檢索對資源的描述。
信息機構(gòu)應(yīng)用關(guān)聯(lián)數(shù)據(jù)主要是利用關(guān)聯(lián)數(shù)據(jù)整合分布式異構(gòu)數(shù)據(jù)源的能力,把信息機構(gòu)在發(fā)展過程中積累的大量的異構(gòu)數(shù)據(jù)源整合成采用相同存儲方式的業(yè)務(wù)數(shù)據(jù),以便于用戶訪問。利用關(guān)聯(lián)數(shù)據(jù)擴展資源也是圖書館界應(yīng)用關(guān)聯(lián)數(shù)據(jù)的主要方式之一,如通過關(guān)聯(lián)數(shù)據(jù)擴展其目錄檢索界面、瀏覽更多更新結(jié)果和展示更多館藏信息等;利用關(guān)聯(lián)數(shù)據(jù)實現(xiàn)數(shù)據(jù)融合與語義檢索服務(wù);利用關(guān)聯(lián)數(shù)據(jù)在學(xué)術(shù)研究和學(xué)術(shù)交流中發(fā)揮更大的作用;跨機構(gòu)的關(guān)聯(lián)數(shù)據(jù)的開放與應(yīng)用;關(guān)聯(lián)數(shù)據(jù)有助于實現(xiàn)一次寫入、多次使用的目的。圖書館為了多種目的需要重復(fù)使用書目數(shù)據(jù),關(guān)聯(lián)數(shù)據(jù)這時便發(fā)揮了作用。圖書館關(guān)聯(lián)數(shù)據(jù)是結(jié)構(gòu)化的,可以提供快速的再利用,有助于在更大范圍內(nèi)提供開放擴展服務(wù),實現(xiàn)圖書館與教學(xué)系統(tǒng)之間的集成。
信息機構(gòu)都有著豐富的信息資源,但不同的信息機構(gòu)以及同一信息機構(gòu)內(nèi)部的各種信息資源采用的標(biāo)準和遵循的協(xié)議很有可能不太一致,導(dǎo)致全國各個信息機構(gòu)以及各信息機構(gòu)內(nèi)部的信息資源不能實現(xiàn)充分的整合和一站式的檢索。對于信息機構(gòu)來說,不僅浪費了勞力來進行重復(fù)建設(shè),而且形成了大量的冗余數(shù)據(jù);同時對于用戶來說,既增加了信息查找的難度,也降低了信息資源的利用率。關(guān)聯(lián)數(shù)據(jù)的適時提出和應(yīng)用為解決這些問題提供了新的思路,因此需要對信息機構(gòu)進行基于關(guān)聯(lián)數(shù)據(jù)的信息資源整合,來減少冗余數(shù)據(jù)、提高信息資源利用率并創(chuàng)建面向用戶的友好的統(tǒng)一查詢視圖,以便用戶可以方便快捷地獲取信息資源。
信息資源整合是根據(jù)一定的需要,對各個相對獨立的信息資源系統(tǒng)中的數(shù)據(jù)對象、功能結(jié)構(gòu)進行融合、類聚和重組,重新結(jié)合為一個新的有機整體,形成一個效能更好、效率更高的信息資源體系,從而保證信息資源得到更好的利用[3]。筆者所述的信息資源整合是基于新興的關(guān)聯(lián)數(shù)據(jù)技術(shù)的信息資源整合,指的是傳統(tǒng)資源與各類數(shù)字資源的整合。將不同類型、不同載體的信息資源及其服務(wù)、系統(tǒng)進行有機結(jié)合,將現(xiàn)有的大量異構(gòu)系統(tǒng)及龐大的信息資源重新組織和整合起來,形成一個統(tǒng)一提供服務(wù)和便于讀者利用的整合環(huán)境,信息資源的整合就是要按照信息資源之間的內(nèi)在知識關(guān)聯(lián)進行優(yōu)化、重組,形成系統(tǒng)化、智能化的資源集合體,提供更加便捷的信息服務(wù)。整合后的信息資源服務(wù)優(yōu)勢在于它賦予了用戶強大的信息資源檢索和獲取能力。與傳統(tǒng)信息資源整合不同,此整合包括一切與用戶需求相關(guān)的信息資源,是理想狀態(tài)的不受資源的載體、形式、類型、系統(tǒng)和機構(gòu)的限制的整合。
基于關(guān)聯(lián)數(shù)據(jù)的信息資源整合分為縱向信息資源整合和橫向信息資源整合,見圖1。
圖1 需要整合的信息資源
縱向整合是整合每個信息機構(gòu)內(nèi)部的所有信息資源,即全部館藏資源所包含的信息,包括紙質(zhì)文獻資源(如圖書、期刊、報紙等)、數(shù)字文獻資源(電子圖書、電子期刊、數(shù)據(jù)庫、各種光盤等)、網(wǎng)絡(luò)資源、各種信息系統(tǒng)等。根據(jù)劃分的依據(jù)不同這些資源還可以劃分為實體資源和虛擬資源等。不論按哪種劃分方式這些資源不僅有些部分是重合的,而且涉及的數(shù)據(jù)平臺和使用方法等還各不相同,所以需要經(jīng)過搜集整理排序,去冗存精整合成格式統(tǒng)一的信息資源。
橫向整合是將各個信息機構(gòu)(例如圖書館、情報研究所、檔案館、博物館等)的所有信息資源聯(lián)合起來進行整合。我國有許多相同(級別不同)或不同的信息機構(gòu),每個信息機構(gòu)都承擔(dān)著一定的社會職能,在公共文化服務(wù)體系中有重要的地位,其所擁有的館藏資源有很多相同和不同之處,隨著數(shù)字信息技術(shù)的發(fā)展和網(wǎng)絡(luò)環(huán)境的形成以及人民群眾對精神文化的要求越來越高,實際環(huán)境要求這些信息機構(gòu)應(yīng)合作起來為用戶提供更好的可共享的信息服務(wù)。但是這些信息機構(gòu)擁有的信息資源格式和技術(shù)各異且壁壘重重,要達到上述要求就需要通過關(guān)聯(lián)數(shù)據(jù)將其信息資源完美地整合在一起。
信息資源整合是一個復(fù)雜的過程,具體分為以下幾個步驟,見圖2。
圖2 基于關(guān)聯(lián)數(shù)據(jù)的信息資源整合過程
第一步就是對信息機構(gòu)的全部館藏資源進行數(shù)字化整合(許多信息機構(gòu)已經(jīng)把一部分或者大部分的館藏資源數(shù)據(jù)化了),即將各類資料文獻轉(zhuǎn)化為有序的數(shù)字化資源,通過對印刷型文獻資料、音視頻資料進行數(shù)字化加工,轉(zhuǎn)化為數(shù)字格式的資源,以數(shù)字化方式存儲。這一步是對所有館藏資料進行縱向信息資源整合的過程。
第二步就是把所有的數(shù)字資源創(chuàng)建成關(guān)聯(lián)數(shù)據(jù)形式。數(shù)字化后的信息資源主要包括元數(shù)據(jù)和對象數(shù)據(jù)兩種。把這兩種數(shù)據(jù)通過規(guī)范形式的描述轉(zhuǎn)換成為RDF(資源描述框架)記錄,在這個描述信息里需要建立這個內(nèi)容對象的內(nèi)部結(jié)構(gòu)和內(nèi)容,還需要建立與其他內(nèi)容對象的關(guān)聯(lián)描述。
第三步是把創(chuàng)建的關(guān)聯(lián)數(shù)據(jù)通過網(wǎng)絡(luò)發(fā)布出去。關(guān)聯(lián)數(shù)據(jù)完全建立在已有的Web技術(shù)基礎(chǔ)上,把轉(zhuǎn)換的RDF記錄在Web上發(fā)布出去是以4個基本原則為基礎(chǔ)的,可采用以下兩種方法:支持HTTP的內(nèi)容協(xié)商機制,能根據(jù)客戶端信息請求的類型決定返回的是HTML的表示形式還是RDF的表示形式;或者支持采用帶“#”號(hash)的URL方式定位到RDF中具體的數(shù)據(jù)資源[4]。
第四步是構(gòu)建關(guān)聯(lián)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。關(guān)聯(lián)關(guān)系的構(gòu)建包括內(nèi)部關(guān)聯(lián)關(guān)系的構(gòu)建和外部關(guān)聯(lián)關(guān)系的構(gòu)建。在形成RDF記錄時,這個記錄里就已經(jīng)建立了與其他內(nèi)容對象的關(guān)聯(lián)描述,這個關(guān)聯(lián)描述就是內(nèi)部關(guān)聯(lián)關(guān)系的構(gòu)建。關(guān)聯(lián)數(shù)據(jù)瀏覽器支持用戶通過RDF鏈接在數(shù)據(jù)源之間進行瀏覽,將獲取的RDF數(shù)據(jù)進行影射解析、提取、合并等處理后,形成虛擬的或者是實際的RDF數(shù)據(jù)庫,可以通過RDF API或者SPARQL語言訪問,這個數(shù)據(jù)庫則是外部關(guān)聯(lián)關(guān)系的構(gòu)建。
第二三四這3個步驟是構(gòu)建關(guān)聯(lián)數(shù)據(jù)的過程,同時也是進行橫向信息資源整合的過程,這個過程理論上是應(yīng)該可以把所有信息機構(gòu)的信息資源整合在一起的。
第五步構(gòu)建可以瀏覽關(guān)聯(lián)數(shù)據(jù)的統(tǒng)一視圖。關(guān)聯(lián)數(shù)據(jù)是可以提供多個分布式異構(gòu)數(shù)據(jù)源的整合的關(guān)聯(lián)的訪問,將來自不同數(shù)據(jù)源的同一對象進行集成,返回關(guān)于該對象的所有相關(guān)信息的統(tǒng)一視圖。目前關(guān)聯(lián)數(shù)據(jù)瀏覽器主要有Tabulator、Marble、Disco、LinkSailor等。但是這些瀏覽器在關(guān)聯(lián)數(shù)據(jù)的導(dǎo)航和檢索結(jié)果顯示方面還不太符合用戶的使用習(xí)慣??紤]到面向用戶的友好性方面,應(yīng)該按照實體對象的類型,提供方便直觀的以實體為中心的關(guān)聯(lián)數(shù)據(jù)瀏覽器服務(wù),以顯示關(guān)聯(lián)數(shù)據(jù)技術(shù)的優(yōu)勢。
第六步是維護關(guān)聯(lián)數(shù)據(jù)的鏈接。隨著關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)的不斷擴展和關(guān)聯(lián)數(shù)據(jù)的開放性特征,關(guān)聯(lián)數(shù)據(jù)源很可能會有所變動,這樣數(shù)據(jù)源之間的關(guān)聯(lián)就可能會產(chǎn)生斷鏈,而基于關(guān)聯(lián)數(shù)據(jù)的應(yīng)用隨之也會發(fā)生錯誤。因此需要定時掃描和修補關(guān)聯(lián)數(shù)據(jù)的URL鏈接,包括及時修補斷鏈、刪除已消失的鏈接并建立新的鏈接。
如果所有的信息機構(gòu)都能把本機構(gòu)的信息資源發(fā)布成關(guān)聯(lián)數(shù)據(jù)的形式,那么用戶就可以利用關(guān)聯(lián)數(shù)據(jù)技術(shù)通過網(wǎng)絡(luò)檢索到所有信息機構(gòu)的數(shù)據(jù),從而獲得更多更齊全更豐富的信息資源。這不僅提高了信息機構(gòu)的資源利用率,而且用戶通過關(guān)聯(lián)數(shù)據(jù)還可以檢索到非信息機構(gòu)的信息資源,并可以通過關(guān)聯(lián)數(shù)據(jù)再鏈接回原信息機構(gòu),這樣就進一步拓寬了用戶獲取資料的全面性。
[1]徐華.關(guān)聯(lián)數(shù)據(jù)在國外信息機構(gòu)中的應(yīng)用及其借鑒意義[J].信息機構(gòu)學(xué)研究:應(yīng)用版,2011(8):87-89.
[2]美國肯特州立大學(xué)曾蕾教授為我院帶來圖書館學(xué)學(xué)科前沿講座[EB/OL].[2011-06-10].http://simyjs.whu.edu.cn/detail.asp?newsid=3934.
[3] 胡昌平.面向用戶的信息資源整合與服務(wù)[M].武漢:武漢大學(xué)出版社,2007:27.
[4] 關(guān)聯(lián)數(shù)據(jù)發(fā)布技術(shù)的發(fā)展趨勢分析[EB/OL].[2012-09-01].http://lunwen.1kejian.com/MBA/104968.html.