亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于SOA的關聯(lián)數(shù)據(jù)的高校圖書館知識服務架構(gòu)*

2013-09-27 09:51:18趙衛(wèi)軍

圖書館學刊 2013年6期

關鍵詞：數(shù)據(jù)源本體關聯(lián)

趙衛(wèi)軍

（廣東金融學院圖書館，廣東廣州 510521）

趙衛(wèi)軍男，1972年生，館員。

1 引言

開放式創(chuàng)新環(huán)境下，國家創(chuàng)新進程的加快和創(chuàng)新需求結(jié)構(gòu)的多元化發(fā)展，使傳統(tǒng)高校信息資源配置模式面臨著深刻變革，由此提出了創(chuàng)新發(fā)展中的高校圖書館知識服務架構(gòu)重構(gòu)問題。筆者首先對關聯(lián)數(shù)據(jù)和信息聚合進行介紹，討論了當前關聯(lián)數(shù)據(jù)在圖書館中的主要應用，在此基礎上構(gòu)建了基于SOA的關聯(lián)數(shù)據(jù)的高校圖書館知識服務架構(gòu)，從數(shù)據(jù)層、聚合層、組件服務層和應用層4個層次進行研究?；赟OA的架構(gòu)能夠?qū)崿F(xiàn)軟件設計的粒度化，因此可利用已有的和新開發(fā)的程序模塊、工具或服務“搭建”一個新的系統(tǒng)，從而減少系統(tǒng)開發(fā)和實現(xiàn)的難度。

2 關聯(lián)數(shù)據(jù)

2.1 概述

關聯(lián)數(shù)據(jù)是國際互聯(lián)網(wǎng)協(xié)會（W3C）推薦的一種用來發(fā)布和聯(lián)接各類數(shù)據(jù)、信息、知識的標準，它希望在現(xiàn)有的萬維網(wǎng)基礎上，建立一個映射所有自然、社會和精神世界的數(shù)據(jù)網(wǎng)絡，通過對事物及其相互關系進行機器可讀的描述，使互聯(lián)網(wǎng)進化為一個富含語義的、互聯(lián)互通的知識海洋，從而使任何人都能夠借助互聯(lián)網(wǎng)在更大范圍內(nèi)，準確、高效、可靠地查找、分享、利用這些相互關聯(lián)的信息和知識[1]。Tim Berners Lee首次提出了關聯(lián)數(shù)據(jù)的理念，目的在于在不同資源之間建立計算機可理解的關聯(lián)信息，最終建立全球性大數(shù)據(jù)空間。Tim Berners Lee進一步明確提出了關聯(lián)數(shù)據(jù)技術中的數(shù)據(jù)發(fā)布和數(shù)據(jù)關聯(lián)的4項原則[2]：①采用URI技術統(tǒng)一標識事物；②通過HTTP URI訪問URI標識；③當URI被訪問時，采用RDF和SPARQL標準，提供一些有用信息；④提供信息時，也提供指向其他事物的URI，以便發(fā)現(xiàn)更多事物。

關聯(lián)數(shù)據(jù)數(shù)據(jù)發(fā)布是指采用RDF（Resource Description Framework，資源描述框架）和 HTTP（Hypertext Transfer Protocol，超文本傳輸協(xié)議）技術在Web上發(fā)布結(jié)構(gòu)化信息；數(shù)據(jù)關聯(lián)是指采用RDF鏈接技術在不同數(shù)據(jù)源中的數(shù)據(jù)之間建立計算機可理解的互聯(lián)關系。同時強調(diào)數(shù)據(jù)的相互聯(lián)系以及有助于人和計算機理解數(shù)據(jù)的語境信息。

關聯(lián)數(shù)據(jù)可以在不同來源的數(shù)據(jù)之間創(chuàng)建鏈接。這些數(shù)據(jù)源可能是兩個處于不同地理位置的機構(gòu)所維護的數(shù)據(jù)庫，也可能是一個機構(gòu)內(nèi)的無法在數(shù)據(jù)層面上進行互操作的不同系統(tǒng)。關聯(lián)數(shù)據(jù)可鏈接至其他外部數(shù)據(jù)集，形成關聯(lián)數(shù)據(jù)網(wǎng)絡[3]。

關聯(lián)數(shù)據(jù)理念受知識工程領域的關注，研發(fā)出了諸多關聯(lián)數(shù)據(jù)庫，其中基于代表性的有DBpedia、Freebase、WordNet等[4]。

2.2 關聯(lián)數(shù)據(jù)在圖書館的應用

關聯(lián)數(shù)據(jù)的應用可以分為4類：①用戶界面類應用，即開發(fā)一個用戶界面，以便用戶瀏覽和檢索關聯(lián)數(shù)據(jù)。②語義標注類應用。此類應用的特點是以關聯(lián)數(shù)據(jù)集為數(shù)據(jù)源，對其他數(shù)據(jù)資源進行語義標注，提高數(shù)據(jù)的語義處理能力和開放互聯(lián)能力，如DBPedia Mobile。③數(shù)據(jù)挖掘類應用。與UI應用不同的是，數(shù)據(jù)挖掘類應用需要對關聯(lián)數(shù)據(jù)進行深入分析和挖掘，發(fā)現(xiàn)新的知識，而不是僅僅停留在瀏覽和檢索操作。④跨域共享與服務類應用。主要采用了4項基本原則，實現(xiàn)了不同關聯(lián)數(shù)據(jù)的統(tǒng)一訪問。

圖書館的MARC數(shù)據(jù)、規(guī)范記錄、主題標目等資源都可以發(fā)布為關聯(lián)數(shù)據(jù)。瑞典國家圖書館早在2008年便將瑞典聯(lián)合目錄（LIBRIS）發(fā)布為關聯(lián)數(shù)據(jù)。美國國會圖書館、德國國家圖書館、法國國家圖書館、OCLC等國際級書目數(shù)據(jù)或規(guī)范數(shù)據(jù)也紛紛開放了關聯(lián)數(shù)據(jù)服務。關聯(lián)數(shù)據(jù)也為圖書館的資源發(fā)現(xiàn)服務提供了一種新的途徑，通過將圖書館的資源和外部信息源連接起來，可以增強和擴展圖書館的資源發(fā)現(xiàn)平臺[5]。

3 關聯(lián)數(shù)據(jù)和知識服務

3.1 海量數(shù)據(jù)環(huán)境下知識服務形態(tài)[6]

海量數(shù)據(jù)的積累催生了數(shù)據(jù)多樣化的服務形態(tài)。

第一種是數(shù)據(jù)服務本身，數(shù)據(jù)服務更多的是提供一些資源服務以及一些傳統(tǒng)的數(shù)據(jù)能力服務，比如數(shù)據(jù)的保存、長期歷史數(shù)據(jù)的留存等。

第二種服務形態(tài)是信息服務。在現(xiàn)在PB級的存儲系統(tǒng)中，檢索數(shù)據(jù)無異于大海撈針。傳統(tǒng)的數(shù)據(jù)檢索是靠數(shù)據(jù)庫，是靠文件系統(tǒng)命名的。

第三種服務形態(tài)是知識服務。在數(shù)據(jù)服務和信息加工的基礎上，數(shù)據(jù)融合開始體現(xiàn)出價值。例如，通過對金門大橋附近地質(zhì)活動數(shù)據(jù)長達100年的數(shù)據(jù)采集，形成了一個有效的范本數(shù)據(jù)，這是通過長時間的數(shù)據(jù)積累達成的。隨著數(shù)據(jù)本身的積累，企業(yè)對行業(yè)領域的認知會越來越深，運用大數(shù)據(jù)的能力成為企業(yè)對市場和行業(yè)施加影響和干預的重要手段。

3.2 關聯(lián)數(shù)據(jù)可擴展知識發(fā)現(xiàn)服務

知識發(fā)現(xiàn)是一個系統(tǒng)化過程，這個過程的實施是對大量的數(shù)據(jù)庫、數(shù)據(jù)倉庫或知識庫進行分析處理，進而深層挖掘，尋找數(shù)據(jù)間潛在的關聯(lián)模式、規(guī)則、趨勢等知識。關聯(lián)數(shù)據(jù)為知識發(fā)現(xiàn)提供了良好的途徑，可以將圖書館的資源與外部的資源有效地相互連接起來，幫助用戶獲取圖書館以外的資源。無論是對用戶還是館員，關聯(lián)數(shù)據(jù)將超越圖書館的資源，為用戶提供新的資源發(fā)現(xiàn)和訪問服務，使獲取資源變得更為容易。

3.3 關聯(lián)數(shù)據(jù)對知識服務方式的要求

關聯(lián)數(shù)據(jù)的最大好處是將來自不同數(shù)據(jù)源的同一個對象進行整合，可以將多個分布式異構(gòu)數(shù)據(jù)源整合關聯(lián)的訪問返回給用戶關于該對象的所有相關信息的統(tǒng)一視圖，同時允許用戶在不同數(shù)據(jù)源之間進行瀏覽，這使得用戶所面對的數(shù)據(jù)和信息呈指數(shù)級增長。

3.4 基于關聯(lián)數(shù)據(jù)的知識服務策略[7]

①建立以關聯(lián)數(shù)據(jù)為基礎的知識服務資源保障體系。關聯(lián)數(shù)據(jù)的出現(xiàn)，使知識服務的資源保障從傳統(tǒng)的館藏資源進一步關聯(lián)到整個互聯(lián)網(wǎng)?？梢詭椭脩魧崿F(xiàn)資源發(fā)現(xiàn)的相關性和便捷性，滿足用戶對熱點追蹤、新興或潛在主題發(fā)現(xiàn)等高層次科研咨詢的需求。

②加強知識服務的數(shù)據(jù)整合。關聯(lián)數(shù)據(jù)一般來源于分布異構(gòu)的多個數(shù)據(jù)源，而對用戶而言，他們更傾向于一站式地利用所有資源與服務。這就要求圖書館必須充分利用關聯(lián)數(shù)據(jù)，對這些分散、異構(gòu)的信息資源進行有效組織和集成。

③加強知識服務的方式整合。對于開展知識服務的圖書館來說，應基于海量信息資源和數(shù)據(jù)，利用多種知識挖掘和內(nèi)容計量手段，擴展檢索結(jié)果，整合異類資源，進行知識組織系統(tǒng)的構(gòu)建，為用戶提供深層次知識服務。這就要求圖書館的知識服務必須融入用戶需求，明確針對具體用戶的服務責任，充分利用關聯(lián)數(shù)據(jù)去調(diào)動和集成各種資源和服務。

④組建高素質(zhì)的知識服務團隊。圖書館開展的知識服務需要館員具備熟練的計算機操作能力，具備一定的圖書情報相關專業(yè)知識、良好的溝通能力等素質(zhì)和技能才能實現(xiàn)。在知識服務中必須依靠團隊的力量，更能滿足用戶需求，從而提高圖書館的整體服務質(zhì)量。

4 高校圖書館知識服務架構(gòu)

筆者提出一個基于SOA的關聯(lián)數(shù)據(jù)的高校圖書館知識服務架構(gòu)的模型（圖1）。架構(gòu)由服務、組件和對象3種不同粒度的功能實體構(gòu)成，其核心是服務。服務是由一個或多個組件構(gòu)成的粗粒度實體，向外界提供統(tǒng)一的接口，能夠通過網(wǎng)絡來訪問，向服務請求者提供某種功能。組件是由多個對象構(gòu)成的較細粒度的實體，能夠提供獨立功能并且可以同其他組件交互。而對象則是封裝了狀態(tài)和操作的更細粒度的實體。根據(jù)SOA體系架構(gòu)原則，整個術語注冊和服務系統(tǒng)的架構(gòu)從上至下分為4層。

4.1 數(shù)據(jù)層

數(shù)據(jù)層可分為本地數(shù)據(jù)源和外部數(shù)據(jù)源兩大部分，其中本地數(shù)據(jù)源是指圖書館自身所擁有的書目、詞表和數(shù)字資源等；外地數(shù)據(jù)源即鏈接到關聯(lián)數(shù)據(jù)網(wǎng)絡中的各種數(shù)據(jù)集，這些數(shù)據(jù)集原先可能以關系型數(shù)據(jù)庫、電子表格、Web網(wǎng)站等多種形式存放，因此必須采取不同的方法轉(zhuǎn)換成關聯(lián)數(shù)據(jù)。

4.2 聚合層[3]

在聚合層中，圖書館通過統(tǒng)一的規(guī)范訪問關聯(lián)數(shù)據(jù)網(wǎng)絡，并將其和本館資源進行詞表或本體上的映射，自動或半自動地進行實體識別，最終形成集成數(shù)據(jù)以便下一步應用。

圖1 基于SOA的關聯(lián)數(shù)據(jù)的高校圖書館知識服務架構(gòu)模型

①數(shù)據(jù)訪問。數(shù)據(jù)訪問的基本方法是解析關聯(lián)數(shù)據(jù)集提供的HTTP URI，獲取以RDF模型描述的對象信息。也有一些數(shù)據(jù)集提供RDF包，供下載或支持SPARQL遠程查詢。SPARQL是一種用于RDF的查詢語言，2008年成為W3C推薦標準。此外，Sindice、Falcons等關聯(lián)數(shù)據(jù)搜索引擎也提供了訪問他們從網(wǎng)絡上獲取到的數(shù)據(jù)的接口。

②本體映射?；陉P聯(lián)數(shù)據(jù)的信息聚合是指將來自于多個不同的關聯(lián)數(shù)據(jù)集中的信息集成起來并進行整合，這些數(shù)據(jù)集經(jīng)常使用不同的本體來描述同一領域的信息。外部知識庫可分為通用知識庫和領域知識庫這些知識庫，一般將其所有概念組織為樹狀結(jié)構(gòu)，可通過計算一個概念到另一個概念的距離，結(jié)合概念所處層次和概念的疏密程度來計算概念間的相似度。

③實體識別。關聯(lián)數(shù)據(jù)集之間的本體映射為信息聚合打下了基礎，而在不同的數(shù)據(jù)集中指向同一實體的實例數(shù)據(jù)之間建立關聯(lián)則是信息聚合的重點。本體映射與實體識別之間存在互補關系，本體映射是實體識別的基礎，同時實體識別的結(jié)果又可用于本體映射的評價與改進，二者的迭代使用可提高信息聚合的質(zhì)量。

4．3 組件服務層

組件服務層包括數(shù)據(jù)操作組件和驗證器組件[8]。

RDF數(shù)據(jù)操作組件的功能是讀取和解析RDF或RDFS文檔并對RDF數(shù)據(jù)進行讀寫和輸出操作，需通過針對RDF數(shù)據(jù)的API來實現(xiàn)。

OWL數(shù)據(jù)操作組件的功能是讀取和解析OWL文檔并對OWL數(shù)據(jù)進行讀寫和輸出操作，需通過針對OWL數(shù)據(jù)的API來實現(xiàn)。

SKOS數(shù)據(jù)操作組件的功能是讀取和解析SKOS文檔并對SKOS數(shù)據(jù)進行讀寫和輸出操作，需通過針對SKOS數(shù)據(jù)的API來實現(xiàn)。

RDF驗證器的功能是對提交的以某種序列化格式表示的詞表文檔進行RDF句法驗證。W3C提供了一個RDF驗證服務，能夠?qū)DF/XML文檔的句法進行驗證并且對文檔進行解析，輸出RDF三元組和RDF圖形表示。

OWL驗證器的功能是對提交的OWL本體的句法進行驗證，即驗證OWL文件是否符合某種OWL子語言的句法規(guī)則。OWL本體的驗證還包括語義驗證，即檢查OWL本體中描述的內(nèi)容是否具有一致性，可以采用推理機來進行。因為OWLFull子語言不支持邏輯推理，因此語義驗證只能針對OWL Lite和OWL Full本體。OWL語義驗證的過程比較復雜，建議在術語注冊和服務系統(tǒng)中只對OWL文檔的句法進行驗證。

SKOS驗證器的功能是對提交的SKOS詞表進行驗證。目前W3C推薦了兩個SKOS驗證器：SKOS 2005 Validator和SKOS 2009 Validator。

4．4 應用層

在組件的基礎上，圖書館可以對原有的應用進行拓展，或是開發(fā)新的應用。目前，許多圖書館通過實施資源發(fā)現(xiàn)服務擴展其目錄檢索界面，展示更多的館藏信息，使用戶可以瀏覽動態(tài)更新的結(jié)果，但由于它主要是通過主題標目和MARC記錄里的數(shù)據(jù)來實現(xiàn)，具有一定的局限性。而關聯(lián)數(shù)據(jù)可以為擴展書目信息提供結(jié)構(gòu)化的集成數(shù)據(jù)，為用戶提供新的資源發(fā)現(xiàn)和訪問服務。隨著數(shù)據(jù)的保存、交換和再利用越來越多的受到重視，并從最初的科學實驗數(shù)據(jù)擴大到地理數(shù)據(jù)、統(tǒng)計數(shù)據(jù)等，圖書館開始幫助研究者保存、管理他們創(chuàng)建的數(shù)據(jù)，并提供給社會使用。關聯(lián)數(shù)據(jù)可以使圖書館在數(shù)據(jù)融合方面發(fā)揮更大的作用，通過對地點、名詞、題名和概念等的匹配和映射，在數(shù)據(jù)對象之間建立語義鏈接，從而為用戶提供更有意義的檢索結(jié)果。

5 結(jié)語

關聯(lián)數(shù)據(jù)是一種數(shù)據(jù)發(fā)布和關聯(lián)的方法，為創(chuàng)建公共數(shù)據(jù)空間奠定了基礎。關聯(lián)數(shù)據(jù)由于其本身所具有的開放、易用和可擴展特點，使其得到了迅速的發(fā)展?；陉P聯(lián)數(shù)據(jù)的信息聚合可以把圖書館的資源和外部的數(shù)據(jù)網(wǎng)絡相互鏈接起來，增強和擴展其資源發(fā)現(xiàn)平臺，更好地保存、管理和利用研究者創(chuàng)建的數(shù)據(jù)，促進學術交流。

[1] 劉煒．關聯(lián)數(shù)據(jù)：概念、技術及應用展望[J]．大學圖書館學報，2011（2）：5-12．

[2] Berners-Lee T．Linked data[EB/OL]．[2011-09-08]．http：//www．w3．org/DesignIssues/LinkedData．html．

[3] 丁楠．基于關聯(lián)數(shù)據(jù)的圖書館信息聚合研究[J]．圖書與情報，2011（6）：50-53．

[4] 朝樂門，張勇，邢春曉．面向開放關聯(lián)數(shù)據(jù)的知識地圖研究[J]．圖書情報工作，2012（10）：17-24．

[5] 黃永文．關聯(lián)數(shù)據(jù)在圖書館中的應用研究綜述[J]．現(xiàn)代圖書情報技術，2010（5）：1-7．

[6] 李奕．大數(shù)據(jù)應用方式：從數(shù)據(jù)服務、信息服務到知識服務[N]．中國計算機報，2012（25）．

[7] 管進．基于關聯(lián)數(shù)據(jù)的圖書館知識服務策略研究[J]．圖書館理論與實踐，2012（6）：9-11．

[8] 歐石燕．基于SOA架構(gòu)的術語注冊和服務系統(tǒng)設計與應用[J]．中國圖書館學報，2011（5）：13-25．