趙衛(wèi)軍
(廣東金融學院圖書館,廣東 廣州 510521)
趙衛(wèi)軍 男,1972年生,館員。
開放式創(chuàng)新環(huán)境下,國家創(chuàng)新進程的加快和創(chuàng)新需求結(jié)構(gòu)的多元化發(fā)展,使傳統(tǒng)高校信息資源配置模式面臨著深刻變革,由此提出了創(chuàng)新發(fā)展中的高校圖書館知識服務架構(gòu)重構(gòu)問題。筆者首先對關聯(lián)數(shù)據(jù)和信息聚合進行介紹,討論了當前關聯(lián)數(shù)據(jù)在圖書館中的主要應用,在此基礎上構(gòu)建了基于SOA的關聯(lián)數(shù)據(jù)的高校圖書館知識服務架構(gòu),從數(shù)據(jù)層、聚合層、組件服務層和應用層4個層次進行研究?;赟OA的架構(gòu)能夠?qū)崿F(xiàn)軟件設計的粒度化,因此可利用已有的和新開發(fā)的程序模塊、工具或服務“搭建”一個新的系統(tǒng),從而減少系統(tǒng)開發(fā)和實現(xiàn)的難度。
關聯(lián)數(shù)據(jù)是國際互聯(lián)網(wǎng)協(xié)會(W3C)推薦的一種用來發(fā)布和聯(lián)接各類數(shù)據(jù)、信息、知識的標準,它希望在現(xiàn)有的萬維網(wǎng)基礎上,建立一個映射所有自然、社會和精神世界的數(shù)據(jù)網(wǎng)絡,通過對事物及其相互關系進行機器可讀的描述,使互聯(lián)網(wǎng)進化為一個富含語義的、互聯(lián)互通的知識海洋,從而使任何人都能夠借助互聯(lián)網(wǎng)在更大范圍內(nèi),準確、高效、可靠地查找、分享、利用這些相互關聯(lián)的信息和知識[1]。Tim Berners Lee首次提出了關聯(lián)數(shù)據(jù)的理念,目的在于在不同資源之間建立計算機可理解的關聯(lián)信息,最終建立全球性大數(shù)據(jù)空間。Tim Berners Lee進一步明確提出了關聯(lián)數(shù)據(jù)技術中的數(shù)據(jù)發(fā)布和數(shù)據(jù)關聯(lián)的4項原則[2]:①采用URI技術統(tǒng)一標識事物;②通過HTTP URI訪問URI標識;③當URI被訪問時,采用RDF和SPARQL標準,提供一些有用信息;④提供信息時,也提供指向其他事物的URI,以便發(fā)現(xiàn)更多事物。
關聯(lián)數(shù)據(jù)數(shù)據(jù)發(fā)布是指采用RDF(Resource Description Framework,資源描述框架)和 HTTP(Hypertext Transfer Protocol,超文本傳輸協(xié)議)技術在Web上發(fā)布結(jié)構(gòu)化信息;數(shù)據(jù)關聯(lián)是指采用RDF鏈接技術在不同數(shù)據(jù)源中的數(shù)據(jù)之間建立計算機可理解的互聯(lián)關系。同時強調(diào)數(shù)據(jù)的相互聯(lián)系以及有助于人和計算機理解數(shù)據(jù)的語境信息。
關聯(lián)數(shù)據(jù)可以在不同來源的數(shù)據(jù)之間創(chuàng)建鏈接。這些數(shù)據(jù)源可能是兩個處于不同地理位置的機構(gòu)所維護的數(shù)據(jù)庫,也可能是一個機構(gòu)內(nèi)的無法在數(shù)據(jù)層面上進行互操作的不同系統(tǒng)。關聯(lián)數(shù)據(jù)可鏈接至其他外部數(shù)據(jù)集,形成關聯(lián)數(shù)據(jù)網(wǎng)絡[3]。
關聯(lián)數(shù)據(jù)理念受知識工程領域的關注,研發(fā)出了諸多關聯(lián)數(shù)據(jù)庫,其中基于代表性的有DBpedia、Freebase、WordNet等[4]。
關聯(lián)數(shù)據(jù)的應用可以分為4類:①用戶界面類應用,即開發(fā)一個用戶界面,以便用戶瀏覽和檢索關聯(lián)數(shù)據(jù)。②語義標注類應用。此類應用的特點是以關聯(lián)數(shù)據(jù)集為數(shù)據(jù)源,對其他數(shù)據(jù)資源進行語義標注,提高數(shù)據(jù)的語義處理能力和開放互聯(lián)能力,如DBPedia Mobile。③數(shù)據(jù)挖掘類應用。與UI應用不同的是,數(shù)據(jù)挖掘類應用需要對關聯(lián)數(shù)據(jù)進行深入分析和挖掘,發(fā)現(xiàn)新的知識,而不是僅僅停留在瀏覽和檢索操作。④跨域共享與服務類應用。主要采用了4項基本原則,實現(xiàn)了不同關聯(lián)數(shù)據(jù)的統(tǒng)一訪問。
圖書館的MARC數(shù)據(jù)、規(guī)范記錄、主題標目等資源都可以發(fā)布為關聯(lián)數(shù)據(jù)。瑞典國家圖書館早在2008年便將瑞典聯(lián)合目錄(LIBRIS)發(fā)布為關聯(lián)數(shù)據(jù)。美國國會圖書館、德國國家圖書館、法國國家圖書館、OCLC等國際級書目數(shù)據(jù)或規(guī)范數(shù)據(jù)也紛紛開放了關聯(lián)數(shù)據(jù)服務。關聯(lián)數(shù)據(jù)也為圖書館的資源發(fā)現(xiàn)服務提供了一種新的途徑,通過將圖書館的資源和外部信息源連接起來,可以增強和擴展圖書館的資源發(fā)現(xiàn)平臺[5]。
海量數(shù)據(jù)的積累催生了數(shù)據(jù)多樣化的服務形態(tài)。
第一種是數(shù)據(jù)服務本身,數(shù)據(jù)服務更多的是提供一些資源服務以及一些傳統(tǒng)的數(shù)據(jù)能力服務,比如數(shù)據(jù)的保存、長期歷史數(shù)據(jù)的留存等。
第二種服務形態(tài)是信息服務。在現(xiàn)在PB級的存儲系統(tǒng)中,檢索數(shù)據(jù)無異于大海撈針。傳統(tǒng)的數(shù)據(jù)檢索是靠數(shù)據(jù)庫,是靠文件系統(tǒng)命名的。
第三種服務形態(tài)是知識服務。在數(shù)據(jù)服務和信息加工的基礎上,數(shù)據(jù)融合開始體現(xiàn)出價值。例如,通過對金門大橋附近地質(zhì)活動數(shù)據(jù)長達100年的數(shù)據(jù)采集,形成了一個有效的范本數(shù)據(jù),這是通過長時間的數(shù)據(jù)積累達成的。隨著數(shù)據(jù)本身的積累,企業(yè)對行業(yè)領域的認知會越來越深,運用大數(shù)據(jù)的能力成為企業(yè)對市場和行業(yè)施加影響和干預的重要手段。
知識發(fā)現(xiàn)是一個系統(tǒng)化過程,這個過程的實施是對大量的數(shù)據(jù)庫、數(shù)據(jù)倉庫或知識庫進行分析處理,進而深層挖掘,尋找數(shù)據(jù)間潛在的關聯(lián)模式、規(guī)則、趨勢等知識。關聯(lián)數(shù)據(jù)為知識發(fā)現(xiàn)提供了良好的途徑,可以將圖書館的資源與外部的資源有效地相互連接起來,幫助用戶獲取圖書館以外的資源。無論是對用戶還是館員,關聯(lián)數(shù)據(jù)將超越圖書館的資源,為用戶提供新的資源發(fā)現(xiàn)和訪問服務,使獲取資源變得更為容易。
關聯(lián)數(shù)據(jù)的最大好處是將來自不同數(shù)據(jù)源的同一個對象進行整合,可以將多個分布式異構(gòu)數(shù)據(jù)源整合關聯(lián)的訪問返回給用戶關于該對象的所有相關信息的統(tǒng)一視圖,同時允許用戶在不同數(shù)據(jù)源之間進行瀏覽,這使得用戶所面對的數(shù)據(jù)和信息呈指數(shù)級增長。
①建立以關聯(lián)數(shù)據(jù)為基礎的知識服務資源保障體系。關聯(lián)數(shù)據(jù)的出現(xiàn),使知識服務的資源保障從傳統(tǒng)的館藏資源進一步關聯(lián)到整個互聯(lián)網(wǎng)??梢詭椭脩魧崿F(xiàn)資源發(fā)現(xiàn)的相關性和便捷性,滿足用戶對熱點追蹤、新興或潛在主題發(fā)現(xiàn)等高層次科研咨詢的需求。
②加強知識服務的數(shù)據(jù)整合。關聯(lián)數(shù)據(jù)一般來源于分布異構(gòu)的多個數(shù)據(jù)源,而對用戶而言,他們更傾向于一站式地利用所有資源與服務。這就要求圖書館必須充分利用關聯(lián)數(shù)據(jù),對這些分散、異構(gòu)的信息資源進行有效組織和集成。
③加強知識服務的方式整合。對于開展知識服務的圖書館來說,應基于海量信息資源和數(shù)據(jù),利用多種知識挖掘和內(nèi)容計量手段,擴展檢索結(jié)果,整合異類資源,進行知識組織系統(tǒng)的構(gòu)建,為用戶提供深層次知識服務。這就要求圖書館的知識服務必須融入用戶需求,明確針對具體用戶的服務責任,充分利用關聯(lián)數(shù)據(jù)去調(diào)動和集成各種資源和服務。
④組建高素質(zhì)的知識服務團隊。圖書館開展的知識服務需要館員具備熟練的計算機操作能力,具備一定的圖書情報相關專業(yè)知識、良好的溝通能力等素質(zhì)和技能才能實現(xiàn)。在知識服務中必須依靠團隊的力量,更能滿足用戶需求,從而提高圖書館的整體服務質(zhì)量。
筆者提出一個基于SOA的關聯(lián)數(shù)據(jù)的高校圖書館知識服務架構(gòu)的模型(圖1)。架構(gòu)由服務、組件和對象3種不同粒度的功能實體構(gòu)成,其核心是服務。服務是由一個或多個組件構(gòu)成的粗粒度實體,向外界提供統(tǒng)一的接口,能夠通過網(wǎng)絡來訪問,向服務請求者提供某種功能。組件是由多個對象構(gòu)成的較細粒度的實體,能夠提供獨立功能并且可以同其他組件交互。而對象則是封裝了狀態(tài)和操作的更細粒度的實體。根據(jù)SOA體系架構(gòu)原則,整個術語注冊和服務系統(tǒng)的架構(gòu)從上至下分為4層。
數(shù)據(jù)層可分為本地數(shù)據(jù)源和外部數(shù)據(jù)源兩大部分,其中本地數(shù)據(jù)源是指圖書館自身所擁有的書目、詞表和數(shù)字資源等;外地數(shù)據(jù)源即鏈接到關聯(lián)數(shù)據(jù)網(wǎng)絡中的各種數(shù)據(jù)集,這些數(shù)據(jù)集原先可能以關系型數(shù)據(jù)庫、電子表格、Web網(wǎng)站等多種形式存放,因此必須采取不同的方法轉(zhuǎn)換成關聯(lián)數(shù)據(jù)。
在聚合層中,圖書館通過統(tǒng)一的規(guī)范訪問關聯(lián)數(shù)據(jù)網(wǎng)絡,并將其和本館資源進行詞表或本體上的映射,自動或半自動地進行實體識別,最終形成集成數(shù)據(jù)以便下一步應用。
圖1 基于SOA的關聯(lián)數(shù)據(jù)的高校圖書館知識服務架構(gòu)模型
①數(shù)據(jù)訪問。數(shù)據(jù)訪問的基本方法是解析關聯(lián)數(shù)據(jù)集提供的HTTP URI,獲取以RDF模型描述的對象信息。也有一些數(shù)據(jù)集提供RDF包,供下載或支持SPARQL遠程查詢。SPARQL是一種用于RDF的查詢語言,2008年成為W3C推薦標準。此外,Sindice、Falcons等關聯(lián)數(shù)據(jù)搜索引擎也提供了訪問他們從網(wǎng)絡上獲取到的數(shù)據(jù)的接口。
②本體映射?;陉P聯(lián)數(shù)據(jù)的信息聚合是指將來自于多個不同的關聯(lián)數(shù)據(jù)集中的信息集成起來并進行整合,這些數(shù)據(jù)集經(jīng)常使用不同的本體來描述同一領域的信息。外部知識庫可分為通用知識庫和領域知識庫這些知識庫,一般將其所有概念組織為樹狀結(jié)構(gòu),可通過計算一個概念到另一個概念的距離,結(jié)合概念所處層次和概念的疏密程度來計算概念間的相似度。
③實體識別。關聯(lián)數(shù)據(jù)集之間的本體映射為信息聚合打下了基礎,而在不同的數(shù)據(jù)集中指向同一實體的實例數(shù)據(jù)之間建立關聯(lián)則是信息聚合的重點。本體映射與實體識別之間存在互補關系,本體映射是實體識別的基礎,同時實體識別的結(jié)果又可用于本體映射的評價與改進,二者的迭代使用可提高信息聚合的質(zhì)量。
組件服務層包括數(shù)據(jù)操作組件和驗證器組件[8]。
RDF數(shù)據(jù)操作組件的功能是讀取和解析RDF或RDFS文檔并對RDF數(shù)據(jù)進行讀寫和輸出操作,需通過針對RDF數(shù)據(jù)的API來實現(xiàn)。
OWL數(shù)據(jù)操作組件的功能是讀取和解析OWL文檔并對OWL數(shù)據(jù)進行讀寫和輸出操作,需通過針對OWL數(shù)據(jù)的API來實現(xiàn)。
SKOS數(shù)據(jù)操作組件的功能是讀取和解析SKOS文檔并對SKOS數(shù)據(jù)進行讀寫和輸出操作,需通過針對SKOS數(shù)據(jù)的API來實現(xiàn)。
RDF驗證器的功能是對提交的以某種序列化格式表示的詞表文檔進行RDF句法驗證。W3C提供了一個RDF驗證服務,能夠?qū)DF/XML文檔的句法進行驗證并且對文檔進行解析,輸出RDF三元組和RDF圖形表示。
OWL驗證器的功能是對提交的OWL本體的句法進行驗證,即驗證OWL文件是否符合某種OWL子語言的句法規(guī)則。OWL本體的驗證還包括語義驗證,即檢查OWL本體中描述的內(nèi)容是否具有一致性,可以采用推理機來進行。因為OWLFull子語言不支持邏輯推理,因此語義驗證只能針對OWL Lite和OWL Full本體。OWL語義驗證的過程比較復雜,建議在術語注冊和服務系統(tǒng)中只對OWL文檔的句法進行驗證。
SKOS驗證器的功能是對提交的SKOS詞表進行驗證。目前W3C推薦了兩個SKOS驗證器:SKOS 2005 Validator和SKOS 2009 Validator。
在組件的基礎上,圖書館可以對原有的應用進行拓展,或是開發(fā)新的應用。目前,許多圖書館通過實施資源發(fā)現(xiàn)服務擴展其目錄檢索界面,展示更多的館藏信息,使用戶可以瀏覽動態(tài)更新的結(jié)果,但由于它主要是通過主題標目和MARC記錄里的數(shù)據(jù)來實現(xiàn),具有一定的局限性。而關聯(lián)數(shù)據(jù)可以為擴展書目信息提供結(jié)構(gòu)化的集成數(shù)據(jù),為用戶提供新的資源發(fā)現(xiàn)和訪問服務。隨著數(shù)據(jù)的保存、交換和再利用越來越多的受到重視,并從最初的科學實驗數(shù)據(jù)擴大到地理數(shù)據(jù)、統(tǒng)計數(shù)據(jù)等,圖書館開始幫助研究者保存、管理他們創(chuàng)建的數(shù)據(jù),并提供給社會使用。關聯(lián)數(shù)據(jù)可以使圖書館在數(shù)據(jù)融合方面發(fā)揮更大的作用,通過對地點、名詞、題名和概念等的匹配和映射,在數(shù)據(jù)對象之間建立語義鏈接,從而為用戶提供更有意義的檢索結(jié)果。
關聯(lián)數(shù)據(jù)是一種數(shù)據(jù)發(fā)布和關聯(lián)的方法,為創(chuàng)建公共數(shù)據(jù)空間奠定了基礎。關聯(lián)數(shù)據(jù)由于其本身所具有的開放、易用和可擴展特點,使其得到了迅速的發(fā)展?;陉P聯(lián)數(shù)據(jù)的信息聚合可以把圖書館的資源和外部的數(shù)據(jù)網(wǎng)絡相互鏈接起來,增強和擴展其資源發(fā)現(xiàn)平臺,更好地保存、管理和利用研究者創(chuàng)建的數(shù)據(jù),促進學術交流。
[1] 劉煒.關聯(lián)數(shù)據(jù):概念、技術及應用展望[J].大學圖書館學報,2011(2):5-12.
[2] Berners-Lee T.Linked data[EB/OL].[2011-09-08].http://www.w3.org/DesignIssues/LinkedData.html.
[3] 丁楠.基于關聯(lián)數(shù)據(jù)的圖書館信息聚合研究[J].圖書與情報,2011(6):50-53.
[4] 朝樂門,張勇,邢春曉.面向開放關聯(lián)數(shù)據(jù)的知識地圖研究[J].圖書情報工作,2012(10):17-24.
[5] 黃永文.關聯(lián)數(shù)據(jù)在圖書館中的應用研究綜述[J].現(xiàn)代圖書情報技術,2010(5):1-7.
[6] 李奕.大數(shù)據(jù)應用方式:從數(shù)據(jù)服務、信息服務到知識服務[N].中國計算機報,2012(25).
[7] 管進.基于關聯(lián)數(shù)據(jù)的圖書館知識服務策略研究[J].圖書館理論與實踐,2012(6):9-11.
[8] 歐石燕.基于SOA架構(gòu)的術語注冊和服務系統(tǒng)設計與應用[J].中國圖書館學報,2011(5):13-25.