丁 楠 (浙江大學(xué)圖書館 浙江杭州 310028)
潘有能 (浙江大學(xué)公共管理學(xué)院信息資源管理系 浙江杭州 310028)
關(guān)聯(lián)數(shù)據(jù)可被視為語義網(wǎng)的一種實(shí)現(xiàn)方式,它使得來自于不同來源的數(shù)據(jù)相互關(guān)聯(lián),從而促進(jìn)了萬維網(wǎng)的發(fā)展。關(guān)聯(lián)數(shù)據(jù)的出現(xiàn)不僅對當(dāng)前的超文本網(wǎng)絡(luò)進(jìn)行了擴(kuò)展,同時(shí)也對當(dāng)前網(wǎng)絡(luò)上紛繁混亂的信息資源進(jìn)行甄別、選擇和定位。[1]隨著大量的數(shù)據(jù)集被轉(zhuǎn)換為關(guān)聯(lián)數(shù)據(jù),建構(gòu)在其基礎(chǔ)上的應(yīng)用技術(shù)也隨之出現(xiàn),聚合技術(shù)(Mashup)就是其中最為重要的一種。目前已有的信息聚合技術(shù)主要面向傳統(tǒng)的萬維網(wǎng),而基于關(guān)聯(lián)數(shù)據(jù)的信息聚合技術(shù)主要面向語義網(wǎng),關(guān)注的焦點(diǎn)在信息本身而不是承載信息的頁面或是信息的訪問接口API,聚合的對象直接深入到細(xì)粒度級的具有語義信息的實(shí)體。
圖書館擁有多年累積的高質(zhì)量數(shù)據(jù),包含大量值得揭示和參照復(fù)用的有價(jià)值的內(nèi)容實(shí)體,但是這些內(nèi)容實(shí)體都隱藏在書目記錄內(nèi)部,缺乏獨(dú)立標(biāo)識和結(jié)構(gòu)化描述,挖掘其相互之間的隱含關(guān)系需要大量的人力,[2]更難以和外部數(shù)據(jù)源建立實(shí)體級別的鏈接?;陉P(guān)聯(lián)數(shù)據(jù)的信息聚合技術(shù)可以幫助圖書館和全球數(shù)據(jù)網(wǎng)絡(luò)建立鏈接,拓展圖書館的資源和服務(wù),使圖書館和其它相關(guān)領(lǐng)域的數(shù)據(jù)和應(yīng)用進(jìn)行協(xié)同,從而提升圖書館的價(jià)值。
關(guān)聯(lián)數(shù)據(jù)是國際互聯(lián)網(wǎng)協(xié)會(huì)(W3C)推薦的一種用來發(fā)布和聯(lián)接各類數(shù)據(jù)、信息和知識的標(biāo)準(zhǔn),它希望在現(xiàn)有的萬維網(wǎng)基礎(chǔ)上,建立一個(gè)映射所有自然、社會(huì)和精神世界的數(shù)據(jù)網(wǎng)絡(luò),通過對事物及其相互關(guān)系進(jìn)行機(jī)器可讀的描述,使互聯(lián)網(wǎng)進(jìn)化為一個(gè)富含語義的、互聯(lián)互通的知識海洋,從而使任何人都能夠借助整個(gè)互聯(lián)網(wǎng)在更大范圍內(nèi),準(zhǔn)確、高效、可靠地查找、分享、利用這些相互關(guān)聯(lián)的信息和知識。[3]
關(guān)聯(lián)數(shù)據(jù)采用RDF(資源描述框架)數(shù)據(jù)模型,利用URI(統(tǒng)一資源標(biāo)識符)命名數(shù)據(jù)實(shí)體,并在網(wǎng)絡(luò)上發(fā)布,從而可以通過HTTP協(xié)議揭示并獲取這些數(shù)據(jù),同時(shí)強(qiáng)調(diào)數(shù)據(jù)的相互聯(lián)系以及有助于人和計(jì)算機(jī)理解數(shù)據(jù)的語境信息。[4]
關(guān)聯(lián)數(shù)據(jù)可以在不同來源的數(shù)據(jù)之間創(chuàng)建鏈接。這些數(shù)據(jù)源可能是兩個(gè)處于不同地理位置的機(jī)構(gòu)所維護(hù)的數(shù)據(jù)庫,也可能是一個(gè)機(jī)構(gòu)內(nèi)的無法在數(shù)據(jù)層面上進(jìn)行互操作的不同系統(tǒng)。關(guān)聯(lián)數(shù)據(jù)可鏈接至其它外部數(shù)據(jù)集,同樣也可被來自外部數(shù)據(jù)集的數(shù)據(jù)所鏈接,從而形成關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)。
關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)和當(dāng)前的超文本網(wǎng)絡(luò)有所不同,超文本網(wǎng)絡(luò)是通過超鏈接將HTML文件連接起來,但關(guān)聯(lián)數(shù)據(jù)并非是簡單地連接這些文件,而是使用RDF形成鏈接世界上任何事物的網(wǎng)絡(luò),也即數(shù)據(jù)網(wǎng)絡(luò),數(shù)據(jù)網(wǎng)絡(luò)可被定義為由網(wǎng)上數(shù)據(jù)描述世界上所有實(shí)體的網(wǎng)絡(luò)。
作為信息收集、組織與處理的專門機(jī)構(gòu),圖書館的MARC數(shù)據(jù),規(guī)范記錄,主題標(biāo)目等資源都可以發(fā)布為關(guān)聯(lián)數(shù)據(jù)。在國外,瑞典國家圖書館早在2008年便將瑞典聯(lián)合目錄(LIBRIS)發(fā)布為關(guān)聯(lián)數(shù)據(jù)。LIBRIS共包含約600萬條書目記錄,2000萬條館藏記錄及20萬條規(guī)范記錄,為超過170家大學(xué)圖書館、公共圖書館、博物館和檔案館提供編目服務(wù)。LIBRIS是世界上第一個(gè)被整體發(fā)布為關(guān)聯(lián)數(shù)據(jù)的聯(lián)合目錄或國家圖書館目錄,在發(fā)布關(guān)聯(lián)數(shù)據(jù)的過程中,LIBRIS使用的詞匯表并沒有僅限于圖書館學(xué)領(lǐng)域,而是一個(gè)包含了DC、SKOS、FOAF和Bibliontology的一個(gè)混合體。[5]此外,美國國會(huì)圖書館、德國國家圖書館、法國國家圖書館、OCLC等國際、國家級的書目數(shù)據(jù)或規(guī)范數(shù)據(jù)也紛紛開放了關(guān)聯(lián)數(shù)據(jù)服務(wù)。
關(guān)聯(lián)數(shù)據(jù)也為圖書館的資源發(fā)現(xiàn)服務(wù)提供了一種新的途徑,通過將圖書館的資源和外部信息源連接起來,可以增強(qiáng)和擴(kuò)展圖書館的資源發(fā)現(xiàn)平臺。近年來,Library Thing、Syndetic Solutions等系統(tǒng)已能為圖書館提供圖書的目次、封面和評論的外部鏈接,但仍局限于書目層次上的信息,且需事先指定外部信息源并了解其接口以便編程訪問,對大部分圖書館來說技術(shù)實(shí)現(xiàn)上存在一定的難度。而關(guān)聯(lián)數(shù)據(jù)允許圖書館關(guān)聯(lián)到外部海量的結(jié)構(gòu)化數(shù)據(jù)中,并不局限于資源本身,還可以擴(kuò)充地點(diǎn)、人員等信息。[6]
信息聚合是指將來自于多個(gè)分布的、異構(gòu)的信息源中的內(nèi)容整合在一起,以便于用戶瀏覽、檢索及利用。早期,一個(gè)網(wǎng)站或網(wǎng)絡(luò)應(yīng)用中的信息通常只來自于本地存儲,而聚合是從多個(gè)分散的源獲取信息。目前信息聚合的方法主要有兩種:
(1)網(wǎng)頁層面的簡單聚合。即通過RSS把來自于不同站點(diǎn)的網(wǎng)頁信息聚合在一起,從而實(shí)現(xiàn)在一個(gè)網(wǎng)站或應(yīng)用系統(tǒng)中可以同時(shí)看到多個(gè)網(wǎng)站的內(nèi)容,常見的RSS閱讀器就是這種形式的聚合。
(2)Web API層面的信息聚合。其信息源不僅限于RSS,也可以通過各種Web API(網(wǎng)絡(luò)應(yīng)用程序接口)來獲取,如通過Google Maps API獲取地圖信息通過YouTube API獲取視頻信息、通過Amazon API獲取商品信息等。目前,大部分的聚合應(yīng)用都是基于Web API的,每天都有新的聚合應(yīng)用被開發(fā)出來,又有新的API隨時(shí)發(fā)布到網(wǎng)上,為用戶提供各式各樣的應(yīng)用。但在另一方面,無論是API的創(chuàng)建還是使用都不是一件容易的事情,需要花費(fèi)大量的時(shí)間。
和傳統(tǒng)的信息聚合方法相比,關(guān)聯(lián)數(shù)據(jù)技術(shù)提供了一種靈活且易實(shí)現(xiàn)的聚合方法,用戶只需要關(guān)心信息本身,而不需要擔(dān)心各個(gè)數(shù)據(jù)源的API如何使用。對圖書館來說,通過信息聚合將外部資源和本館資源整合到一起,為用戶提供多角度、全方位、可視化的訪問和了解信息的途徑,可以擴(kuò)展資源范圍,改進(jìn)用戶服務(wù),從而提升圖書館的價(jià)值(見圖1)。
圖1 基于關(guān)聯(lián)數(shù)據(jù)的圖書館信息聚合模型
數(shù)據(jù)層可分為本地?cái)?shù)據(jù)源和外部數(shù)據(jù)源兩大部分,其中本地?cái)?shù)據(jù)源是指圖書館自身所擁有的書目、詞表和數(shù)字資源等,外地?cái)?shù)據(jù)源即鏈接到關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)中的各種數(shù)據(jù)集,這些數(shù)據(jù)集原先可能以關(guān)系型數(shù)據(jù)庫、電子表格、Web網(wǎng)站等多種形式存放,因此必須采取不同的方法轉(zhuǎn)換成關(guān)聯(lián)數(shù)據(jù)。
(1)關(guān)系型數(shù)據(jù)庫。目前已有很多開放的工具用于將關(guān)系型數(shù)據(jù)庫發(fā)布為關(guān)聯(lián)數(shù)據(jù),如D2RServer、Triplify等,用于表達(dá)關(guān)聯(lián)數(shù)據(jù)中的實(shí)體的詞匯表可以自行構(gòu)建,也可以使用目前已有的本體或詞匯表中的詞匯,例如用于表述人名的foaf:name,用于表述資源標(biāo)題的dc:title,用于表述經(jīng)緯度的geo:lat和geo:long等等,這些本體或詞匯表可以通過Swoogle和Sindice等工具來查找。
(2)電子表格。在許多組織中,大量的數(shù)據(jù)以電子表格的形式通過Email進(jìn)行傳遞。甚至連美國政府早期的開放數(shù)據(jù)網(wǎng)站recovery.gov中的數(shù)據(jù)都是以電子表格的形式發(fā)布的。目前已有不少工具可將電子表格形式的數(shù)據(jù)轉(zhuǎn)換成RDF,例如 Anzo for Excel和Topbraid Composer能將Excel表格轉(zhuǎn)換為RDF數(shù)據(jù),而XLWrap除了Excel,還能轉(zhuǎn)換OpenDocument和CSV格式的文檔。
(3)XML。XML文檔可以直接發(fā)布到Web上,為了便于他人使用,最好簡要說明一下XML文檔的內(nèi)容以及文檔之間的關(guān)系。當(dāng)然,也可以用XSLT或ASP、JSP等腳本語言編寫一個(gè)簡單的腳本,將XML文檔轉(zhuǎn)換為RDF。
(4)Web網(wǎng)站。對于Web網(wǎng)站的頁面,可以采用RDFa技術(shù)改變產(chǎn)生頁面的腳本語言,使得這些頁面所含的數(shù)據(jù)可以被其他人重新抽取并發(fā)布為關(guān)聯(lián)數(shù)據(jù)。另外一種可選的方法就是為每個(gè)Web頁面都編寫一個(gè)平行的包含RDF/XML格式數(shù)據(jù)的頁面。[7]
在聚合層中,圖書館通過統(tǒng)一的規(guī)范訪問關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò),并將其和本館資源進(jìn)行詞表或本體上的映射,自動(dòng)或半自動(dòng)地進(jìn)行實(shí)體識別,最終形成集成數(shù)據(jù)以便下一步應(yīng)用。
(1)數(shù)據(jù)訪問。數(shù)據(jù)訪問的基本方法是解析關(guān)聯(lián)數(shù)據(jù)集提供的HTTP URI,獲取以RDF模型描述的對象信息。也有一些數(shù)據(jù)集提供RDF包供下載,或支持SPARQL遠(yuǎn)程查詢,SPARQL是一種用于RDF的查詢語言,2008年成為W3C推薦標(biāo)準(zhǔn)。此外,Sindice、Falcons等關(guān)聯(lián)數(shù)據(jù)搜索引擎也提供了訪問他們從網(wǎng)絡(luò)上獲取到的數(shù)據(jù)的接口。
(2)本體映射。基于關(guān)聯(lián)數(shù)據(jù)的信息聚合是指將來自于多個(gè)不同的關(guān)聯(lián)數(shù)據(jù)集中的信息集成起來并進(jìn)行整合,這些數(shù)據(jù)集經(jīng)常使用不同的本體來描述同一領(lǐng)域的信息。雖然FOAF、SKOS、Dublin Core等通用本體在一些數(shù)據(jù)集中也得到了應(yīng)用,但出于種種原因,大部分的數(shù)據(jù)集還是在使用自行設(shè)計(jì)的領(lǐng)域本體或應(yīng)用本體,甚至根本就沒有使用本體,而只是附加了一個(gè)簡單的數(shù)據(jù)說明。因此,不同數(shù)據(jù)集之間的本體映射成為信息聚合的主要研究內(nèi)容之一。
通用本體之間的映射比較容易實(shí)現(xiàn),只需比較用于表示本體概念的字符串是否相同即可。領(lǐng)域本體或應(yīng)用本體之間的映射是當(dāng)前本體與語義網(wǎng)領(lǐng)域的研究熱點(diǎn)之一,主要方法包括基于名稱的技術(shù)、基于結(jié)構(gòu)的技術(shù)和基于語義的技術(shù)等。引入外部知識也是一種值得關(guān)注的方法,因?yàn)楹蛡鹘y(tǒng)的本體匹配環(huán)境不同,關(guān)聯(lián)數(shù)據(jù)環(huán)境天然具有鏈接到外部知識庫并將其作為參照或背景知識的能力。外部知識庫可分為通用知識庫(或稱為世界知識,如Wordnet等)和領(lǐng)域知識庫(如UMLS等),這些知識庫一般將其所有概念組織為樹狀結(jié)構(gòu),可通過計(jì)算一個(gè)概念到另一個(gè)概念的距離,結(jié)合概念所處層次和概念的疏密程度來計(jì)算概念間的相似度。
對于沒有使用本體的數(shù)據(jù)集,可考慮對其所含的實(shí)例數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,找出可能指向同一實(shí)體的數(shù)據(jù)記錄并聚類,從而將其隱含的語義信息顯性化,實(shí)現(xiàn)數(shù)據(jù)集之間的映射。
(3)實(shí)體識別。關(guān)聯(lián)數(shù)據(jù)集之間的本體映射為信息聚合打下了基礎(chǔ),而在不同的數(shù)據(jù)集中指向同一實(shí)體的實(shí)例數(shù)據(jù)之間建立關(guān)聯(lián)則是信息聚合的重點(diǎn)。本體映射在概念之間建立了關(guān)聯(lián),相同的概念一定擁有相似的實(shí)例,但具體哪些實(shí)例描述的是同一個(gè)實(shí)體依然未知。單純的基于實(shí)例名稱的比較將產(chǎn)生較多的誤匹配,例如人名、地名等。數(shù)據(jù)關(guān)聯(lián)的核心在于為每個(gè)實(shí)例產(chǎn)生一個(gè)唯一的標(biāo)識,這些標(biāo)識可能本身就存在,例如用于標(biāo)識圖書的ISBN號,用于標(biāo)識期刊的ISSN號等。也可以將該實(shí)例的多個(gè)屬性值相結(jié)合以生成唯一標(biāo)識,如姓名加籍貫加出生日期,論文題名加作者加期刊名等。在無法生成唯一標(biāo)識的情況下,則可通過屬性值之間相似度的計(jì)算在實(shí)例之間建立關(guān)聯(lián),同時(shí),為了提高關(guān)聯(lián)的準(zhǔn)確度,可以采用一些屬性來排除關(guān)聯(lián),例如性別屬性:即使姓名和機(jī)構(gòu)名稱相同,但性別不同的個(gè)體之間不能建立關(guān)聯(lián)。
本體映射與實(shí)體識別之間存在互補(bǔ)關(guān)系,本體映射是實(shí)體識別的基礎(chǔ),同時(shí)實(shí)體識別的結(jié)果又可用于本體映射的評價(jià)與改進(jìn),二者的迭代使用可提高信息聚合的質(zhì)量。
在信息聚合的基礎(chǔ)上,圖書館可以對原有的應(yīng)用進(jìn)行拓展,或是開發(fā)新的應(yīng)用。目前,許多圖書館通過實(shí)施資源發(fā)現(xiàn)服務(wù)擴(kuò)展其目錄檢索界面,展示更多的館藏信息,使用戶可以瀏覽動(dòng)態(tài)更新的結(jié)果,但由于它主要是通過主題標(biāo)目和MARC記錄里的數(shù)據(jù)來實(shí)現(xiàn),具有一定的局限性。而關(guān)聯(lián)數(shù)據(jù)可以為擴(kuò)展書目信息提供結(jié)構(gòu)化的集成數(shù)據(jù),為用戶提供新的資源發(fā)現(xiàn)和訪問服務(wù)。
隨著數(shù)據(jù)的保存、交換和再利用受到越來越多的重視,并從最初的科學(xué)實(shí)驗(yàn)數(shù)據(jù)擴(kuò)大到地理數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù)等,圖書館開始幫助研究者保存、管理他們創(chuàng)建的數(shù)據(jù),并提供給社會(huì)使用。關(guān)聯(lián)數(shù)據(jù)可以使圖書館在數(shù)據(jù)融合方面發(fā)揮更大的作用,通過對地點(diǎn)、名詞、題名和概念等的匹配和映射,在數(shù)據(jù)對象之間建立語義鏈接,從而為用戶提供更有意義的檢索結(jié)果。
此外,圖書館越來越多地參與了學(xué)術(shù)交流過程中不同階段的活動(dòng),例如提供研究資料、幫助研究者發(fā)現(xiàn)其研究成果的引文影響力等。在此過程中,圖書館需要考慮系統(tǒng)的互操作性,而關(guān)聯(lián)數(shù)據(jù)能在這方面提供很好的支持。[8]
雖然關(guān)聯(lián)數(shù)據(jù)概念的提出至今不過5年時(shí)間,但由于其本身所具有的開放、易用和可擴(kuò)展特點(diǎn),使其得到了迅速的發(fā)展。目前,僅LOD中的數(shù)據(jù)就已經(jīng)超過了250億條,并正以指數(shù)速度增長,構(gòu)建了龐大的數(shù)據(jù)網(wǎng)絡(luò)。基于關(guān)聯(lián)數(shù)據(jù)的信息聚合可以把圖書館的資源和外部的數(shù)據(jù)網(wǎng)絡(luò)相互連接起來,增強(qiáng)和擴(kuò)展其資源發(fā)現(xiàn)平臺,更好的保存、管理和利用研究者創(chuàng)建的數(shù)據(jù),促進(jìn)學(xué)術(shù)交流。當(dāng)然,本文僅提出了一個(gè)在理論上可行的基于關(guān)聯(lián)數(shù)據(jù)的圖書館信息聚合模型,可能會(huì)有新的問題在系統(tǒng)實(shí)施過程中出現(xiàn)并得到解決,從而積累更多的經(jīng)驗(yàn),提升圖書館在關(guān)聯(lián)數(shù)據(jù)研究、應(yīng)用中的地位和作用。
[1]Christian Bizer,Tom Heath,Tim Berners-Lee.Linked data-the story so far[J].International Journal on Semantic Web and Information Systems,2009,5(3):1-22.
[2][3]劉煒.關(guān)聯(lián)數(shù)據(jù):概念、技術(shù)及應(yīng)用展望[J].大學(xué)圖書館學(xué)報(bào),2011,29(2):5-12
[4]Structured Dynamics LLC.Linked Data FAQ[EB/OL].[2010-03-06].http://structureddynamics.com/linked_da ta.html.
[5]Anders S?derb?ck,Martin Malmsten.LIBRIS-Linked Library Data[J].Nodalities,2008,(5):19-20.
[6][8]黃永文.關(guān)聯(lián)數(shù)據(jù)在圖書館中的應(yīng)用研究綜述[J].現(xiàn)代圖書情報(bào)技術(shù),2010,29(5):1-7.
[7]Tim Berners-Lee.Putting Government Data online[EB/OL].[2010-12-06].http://www.w3.org/DesignIssues/Gov Data.html.