劉雪梅
(蘭州大學(xué)圖書(shū)館,甘肅 蘭州 730000)
?
基于關(guān)聯(lián)數(shù)據(jù)的機(jī)構(gòu)知識(shí)庫(kù)服務(wù)模式構(gòu)建與實(shí)現(xiàn)?
劉雪梅
(蘭州大學(xué)圖書(shū)館,甘肅 蘭州 730000)
[摘要]資源建設(shè)是機(jī)構(gòu)知識(shí)庫(kù)可持續(xù)發(fā)展的瓶頸,機(jī)構(gòu)知識(shí)庫(kù)價(jià)值的實(shí)現(xiàn)很大程度上得益于豐富的資源存儲(chǔ)。將關(guān)聯(lián)數(shù)據(jù)技術(shù)應(yīng)用于機(jī)構(gòu)知識(shí)庫(kù),構(gòu)建了基于關(guān)聯(lián)數(shù)據(jù)的機(jī)構(gòu)知識(shí)庫(kù)服務(wù)模式,采用D2R工具并以蘭州大學(xué)機(jī)構(gòu)知識(shí)庫(kù)條目數(shù)據(jù)為例對(duì)該模式進(jìn)行了研究。研究表明,利用關(guān)聯(lián)數(shù)據(jù)可以擴(kuò)展機(jī)構(gòu)知識(shí)庫(kù)的資源發(fā)現(xiàn)途徑,提升其服務(wù)能力。
[關(guān)鍵詞]機(jī)構(gòu)知識(shí)庫(kù)關(guān)聯(lián)數(shù)據(jù)資源發(fā)現(xiàn)
機(jī)構(gòu)知識(shí)庫(kù)在開(kāi)放獲取運(yùn)動(dòng)的背景下應(yīng)運(yùn)而生,它是大學(xué)和科研機(jī)構(gòu)收集、保存和傳播數(shù)字知識(shí)資產(chǎn)的重要媒介。近幾年來(lái),機(jī)構(gòu)知識(shí)庫(kù)發(fā)展迅速,目前,在OpenDOAR上注冊(cè)的機(jī)構(gòu)知識(shí)庫(kù)已達(dá)2989個(gè)。筆者在“機(jī)構(gòu)知識(shí)庫(kù)質(zhì)量評(píng)價(jià)研究”[1]中通過(guò)調(diào)查訪問(wèn)及文獻(xiàn)查閱,發(fā)現(xiàn)資源建設(shè)是影響國(guó)內(nèi)目前機(jī)構(gòu)知識(shí)庫(kù)發(fā)展最為核心的因素,機(jī)構(gòu)知識(shí)庫(kù)內(nèi)容單一、存儲(chǔ)量少的現(xiàn)象已成為機(jī)構(gòu)知識(shí)庫(kù)可持續(xù)發(fā)展的瓶頸。如何豐富機(jī)構(gòu)知識(shí)庫(kù)的內(nèi)容,加強(qiáng)機(jī)構(gòu)庫(kù)的資源發(fā)現(xiàn)能力,提升用戶對(duì)機(jī)構(gòu)庫(kù)的認(rèn)知度和滿意度,從而有利于機(jī)構(gòu)知識(shí)庫(kù)的推廣應(yīng)用成為目前亟待解決的問(wèn)題。
關(guān)聯(lián)數(shù)據(jù)[2]由“互聯(lián)網(wǎng)之父”TimBerners-Lee于2006年首次提出,它是指在語(yǔ)義網(wǎng)上發(fā)布、共享、鏈接各類(lèi)數(shù)據(jù)、信息和知識(shí)的一種方式。其采用RDF三元組模型存儲(chǔ)數(shù)據(jù),用URI地址鏈接到其他資源實(shí)現(xiàn)資源間的語(yǔ)義跳轉(zhuǎn),是未來(lái)語(yǔ)義網(wǎng)的關(guān)鍵技術(shù)之一。2007年,W3C發(fā)起了開(kāi)放關(guān)聯(lián)數(shù)據(jù)運(yùn)動(dòng),網(wǎng)絡(luò)上以W3C推薦的關(guān)聯(lián)數(shù)據(jù)集的數(shù)量和數(shù)據(jù)集之間的關(guān)聯(lián)都在快速增加。圖書(shū)館在這場(chǎng)運(yùn)動(dòng)中扮演了關(guān)聯(lián)數(shù)據(jù)集的提供者和消費(fèi)者。因此,2008年瑞典國(guó)家圖書(shū)館首次以關(guān)聯(lián)數(shù)據(jù)的形式發(fā)布了LIBRIS國(guó)家書(shū)目,并與DBPedia進(jìn)行了關(guān)聯(lián),此后,關(guān)聯(lián)數(shù)據(jù)在圖書(shū)館行業(yè)的應(yīng)用迅速發(fā)展。筆者在上述研究的基礎(chǔ)上,將關(guān)聯(lián)數(shù)據(jù)應(yīng)用于機(jī)構(gòu)知識(shí)庫(kù),構(gòu)建了基于關(guān)聯(lián)數(shù)據(jù)的機(jī)構(gòu)知識(shí)庫(kù)服務(wù)模式,并采用D2R工具和技術(shù)進(jìn)行實(shí)現(xiàn),從而提升機(jī)構(gòu)知識(shí)庫(kù)的資源發(fā)現(xiàn)能力。
關(guān)聯(lián)數(shù)據(jù)采用RDF三元組作為數(shù)據(jù)模型,用URI地址標(biāo)識(shí)數(shù)據(jù),并通過(guò)HTTP協(xié)議在互聯(lián)網(wǎng)上進(jìn)行發(fā)布。將機(jī)構(gòu)知識(shí)庫(kù)的條目數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù),可以實(shí)現(xiàn)“內(nèi)外”兩層的關(guān)聯(lián)。即首先揭示了機(jī)構(gòu)知識(shí)庫(kù)條目數(shù)據(jù)集內(nèi)部之間的語(yǔ)義關(guān)聯(lián)關(guān)系,進(jìn)而通過(guò)與外部關(guān)聯(lián)數(shù)據(jù)集比如Web數(shù)字資源、商業(yè)數(shù)據(jù)庫(kù)資源等其他數(shù)據(jù)資源進(jìn)行關(guān)聯(lián),拓展了機(jī)構(gòu)庫(kù)的資源發(fā)現(xiàn)途徑,豐富了機(jī)構(gòu)庫(kù)的存儲(chǔ)內(nèi)容。筆者構(gòu)建的基于關(guān)聯(lián)數(shù)據(jù)的機(jī)構(gòu)知識(shí)庫(kù)服務(wù)模式如圖1所示。
圖1 基于關(guān)聯(lián)數(shù)據(jù)的機(jī)構(gòu)知識(shí)庫(kù)服務(wù)模式
本模式的優(yōu)越性在于利用URI標(biāo)識(shí)元數(shù)據(jù)的實(shí)體對(duì)象,引入了一個(gè)機(jī)器可以理解和處理的技術(shù)框架。本模式以機(jī)構(gòu)知識(shí)庫(kù)為主體對(duì)象,通過(guò)實(shí)現(xiàn)“內(nèi)外”兩層數(shù)據(jù)集的關(guān)聯(lián),從而提供基礎(chǔ)服務(wù)。例如通過(guò)Web瀏覽器實(shí)現(xiàn)HTML網(wǎng)頁(yè)瀏覽與導(dǎo)航,也可以利用關(guān)聯(lián)數(shù)據(jù)瀏覽器,如Tabulator、Marble等,通過(guò)RDF鏈接在數(shù)據(jù)源之間進(jìn)行瀏覽;除此之外,還可以通過(guò)SPARQL查詢實(shí)現(xiàn)語(yǔ)義檢索等?;谠撃J剑P者將機(jī)構(gòu)知識(shí)庫(kù)條目數(shù)據(jù)的描述、組織、發(fā)布劃分為數(shù)據(jù)層、關(guān)聯(lián)層兩個(gè)層次。
2.1數(shù)據(jù)層
數(shù)據(jù)層是指機(jī)構(gòu)知識(shí)庫(kù)中存儲(chǔ)的條目數(shù)據(jù),每個(gè)條目數(shù)據(jù)都用DC元數(shù)據(jù)規(guī)范進(jìn)行描述,其中包括題名、作者、期刊、基金等。元數(shù)據(jù)主要是為人而設(shè)計(jì)的,缺乏明確的語(yǔ)義化定義,機(jī)器無(wú)法直接理解。
2.2關(guān)聯(lián)層
鑒于機(jī)構(gòu)庫(kù)元數(shù)據(jù)的局限性,筆者構(gòu)建了數(shù)據(jù)關(guān)聯(lián)層,將機(jī)構(gòu)庫(kù)中的條目數(shù)據(jù)關(guān)聯(lián)化,實(shí)現(xiàn)數(shù)據(jù)之間的語(yǔ)義化跳轉(zhuǎn),以便計(jì)算機(jī)進(jìn)行理解和處理。筆者抽取出元數(shù)據(jù)中的概念和屬性,采用本體描述語(yǔ)言,構(gòu)建元數(shù)據(jù)本體[4],基于該本體,將機(jī)構(gòu)知識(shí)庫(kù)中的元數(shù)據(jù)轉(zhuǎn)換為RDF三元組格式的語(yǔ)義元數(shù)據(jù),并采用D2R工具根據(jù)關(guān)聯(lián)數(shù)據(jù)原則[5]進(jìn)行發(fā)布,如圖2所示。機(jī)構(gòu)知識(shí)庫(kù)條目數(shù)據(jù)關(guān)聯(lián)數(shù)據(jù)化后,不僅可以實(shí)現(xiàn)機(jī)構(gòu)知識(shí)庫(kù)內(nèi)部條目數(shù)據(jù)之間的關(guān)聯(lián),而且可以實(shí)現(xiàn)與外部關(guān)聯(lián)數(shù)據(jù)集的關(guān)聯(lián),為用戶提供更豐富的檢索結(jié)果。
3.1抽取實(shí)體關(guān)系與關(guān)系數(shù)據(jù)庫(kù)的建立
本實(shí)驗(yàn)以蘭州大學(xué)機(jī)構(gòu)知識(shí)庫(kù)管理學(xué)院的期刊論文為例,主要抽取了科研人員(Person)、基金項(xiàng)目(foundation)、研究部門(mén)(organization)、期刊論文(Paper)、期刊(Journal)這5種核心實(shí)體類(lèi),實(shí)體關(guān)系如圖3所示。
圖3 IR中的實(shí)體類(lèi)及關(guān)系
啟動(dòng)postgresql,建立lzuir數(shù)據(jù)庫(kù)。在lzuir數(shù)據(jù)庫(kù)中分別建立這5個(gè)實(shí)體類(lèi)對(duì)應(yīng)的數(shù)據(jù)表,實(shí)體的屬性對(duì)應(yīng)為數(shù)據(jù)表中的各列,實(shí)體間的關(guān)系對(duì)應(yīng)于表間的關(guān)系,并為各個(gè)表設(shè)置相應(yīng)的主鍵和外鍵。不同表之間的關(guān)系對(duì)應(yīng)如下:
①科研人員和研究機(jī)構(gòu)的關(guān)系。一個(gè)科研人員必定屬于某個(gè)機(jī)構(gòu),相應(yīng)地,某個(gè)機(jī)構(gòu)下面包括N個(gè)科研人員。
②科研人員和基金項(xiàng)目的關(guān)系。一個(gè)科研人員可以主持多個(gè)基金項(xiàng)目,而一個(gè)基金項(xiàng)目必定由一個(gè)科研人員主持。
③期刊論文和科研人員的關(guān)系。一篇期刊論文可以由多個(gè)作者合作完成,相應(yīng)地,一個(gè)科研人員可以是多篇期刊論文的作者。
④期刊論文和研究機(jī)構(gòu)的關(guān)系。一篇期刊論文屬于某個(gè)研究機(jī)構(gòu),而一個(gè)研究機(jī)構(gòu)下面有多篇期刊論文。
⑤期刊論文和期刊的關(guān)系。一篇期刊論文必定對(duì)應(yīng)一個(gè)期刊,相應(yīng)地,某個(gè)期刊下面必定包括多篇期刊論文。
⑥期刊論文和基金項(xiàng)目的關(guān)系。一篇期刊論文屬于某個(gè)基金項(xiàng)目的科研成果,相應(yīng)地,一個(gè)基金項(xiàng)目可以產(chǎn)出多篇期刊論文作為科研成果。
3.2利用RDF進(jìn)行語(yǔ)義標(biāo)注和關(guān)聯(lián)
語(yǔ)義標(biāo)注[6]是使用計(jì)算機(jī)可理解的屬性來(lái)描述資源的相關(guān)陳述。類(lèi)、屬性和實(shí)體標(biāo)注都是通過(guò)創(chuàng)建一些陳述來(lái)實(shí)現(xiàn)的。在OWL本體標(biāo)注語(yǔ)言中,已經(jīng)預(yù)定義了很多基本屬性,筆者使用RDF+OWL語(yǔ)言進(jìn)行標(biāo)注。筆者定義的實(shí)體關(guān)系中會(huì)復(fù)用到一些關(guān)聯(lián)詞表,分別是FOAF,DC,VCARD等,而外部數(shù)據(jù)源是DBpedia。
3.3基于D2R的數(shù)據(jù)語(yǔ)義映射和轉(zhuǎn)換
關(guān)聯(lián)數(shù)據(jù)的發(fā)布方式主要有3種,根據(jù)數(shù)據(jù)量的規(guī)模和更新頻率對(duì)應(yīng)不同的發(fā)布方式。第一種方式針對(duì)數(shù)據(jù)量較小的情況,將其生成靜態(tài)的RDF文件進(jìn)行發(fā)布;第二種方式針對(duì)數(shù)據(jù)量較大的情況,將其存儲(chǔ)到RDF存儲(chǔ)器中,并采用Pubby[8]服務(wù)器前端進(jìn)行操作;第三種方式針對(duì)數(shù)據(jù)的更新頻率比較大的情況,在請(qǐng)求數(shù)據(jù)的過(guò)程中,將其映射為虛擬的RDF格式,這種方式用到的工具主要有D2R、Triplify[9]等。本文的機(jī)構(gòu)知識(shí)庫(kù)因?yàn)閿?shù)據(jù)請(qǐng)求操作比較頻繁,因此采用第三種方式進(jìn)行發(fā)布,使用的工具是D2R。D2R的核心是D2RQ Engine,它的功能是實(shí)現(xiàn)RDB2RDF,主要采用D2RQMapping文件將關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)映射為虛擬的RDF格式進(jìn)行發(fā)布。筆者在java開(kāi)發(fā)環(huán)境中,對(duì)D2RQMapping進(jìn)行編程,主要步驟如下:
(1)使用D2RQ工具生成映射文件,D2R的映射語(yǔ)言D2RQMapping是基于RDF和OWL進(jìn)行描述的,自身生成的映射無(wú)法滿足需求,因此筆者根據(jù)實(shí)際需要對(duì)蘭州大學(xué)機(jī)構(gòu)知識(shí)庫(kù)抽取的核心實(shí)體類(lèi)進(jìn)行RDF語(yǔ)義標(biāo)注,以期刊論文為例,將實(shí)體關(guān)系進(jìn)行RDF關(guān)聯(lián)轉(zhuǎn)換,部分代表性的代碼如下:
(2)將蘭州大學(xué)機(jī)構(gòu)知識(shí)庫(kù)關(guān)聯(lián)到外部數(shù)據(jù)源,仍以期刊論文為例,部分代表性的代碼如下:
3.4關(guān)聯(lián)數(shù)據(jù)的發(fā)布與訪問(wèn)
在D2R的DOS路徑下,執(zhí)行D2R-Server.bat腳本,運(yùn)行生成映射文件lzuir.n3,啟動(dòng)關(guān)聯(lián)數(shù)據(jù)發(fā)布服務(wù)。在瀏覽器中輸入訪問(wèn)地址http://localhost:2020,顯示出D2R的運(yùn)行入口界面(如圖4),圖中可看到已將機(jī)構(gòu)知識(shí)庫(kù)條目數(shù)據(jù)發(fā)布為含有語(yǔ)義的關(guān)聯(lián)數(shù)據(jù)源,提供了HTML瀏覽、RDF瀏覽和SPARQL端點(diǎn)查詢3類(lèi)服務(wù)入口。
圖4 D2R的服務(wù)首頁(yè)
從圖中可以看到,5個(gè)數(shù)據(jù)表分別映射為不同的實(shí)體類(lèi)。以蘭州大學(xué)機(jī)構(gòu)知識(shí)庫(kù)中的一篇期刊論文為例(如圖5所示),可以看到paper數(shù)據(jù)表中的各個(gè)列被映射為資源的屬性特征,點(diǎn)擊圖中的相關(guān)鏈接都可以得到對(duì)應(yīng)元數(shù)據(jù)的詳細(xì)信息。例如點(diǎn)擊圖5的鏈接http://localhost:2020/resource/person/1,就可以得到該論文的作者信息,如圖6所示。從圖中也可以看出,這些元數(shù)據(jù)信息,有的來(lái)自于機(jī)構(gòu)知識(shí)庫(kù)本身,有的來(lái)自外部數(shù)據(jù)源,卻相互關(guān)聯(lián)在一起,構(gòu)成了一個(gè)輕量的關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)。
圖5 語(yǔ)義化的論文元數(shù)據(jù)
圖6 語(yǔ)義化的作者元數(shù)據(jù)
筆者將關(guān)聯(lián)數(shù)據(jù)技術(shù)應(yīng)用于機(jī)構(gòu)知識(shí)庫(kù),構(gòu)建了基于關(guān)聯(lián)數(shù)據(jù)的機(jī)構(gòu)知識(shí)庫(kù)服務(wù)模式,并以蘭州大學(xué)機(jī)構(gòu)知識(shí)庫(kù)的條目數(shù)據(jù)為例,使用D2R工具將條目數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù),對(duì)該模式進(jìn)行了實(shí)現(xiàn)。通過(guò)實(shí)證研究表明,該模式的實(shí)現(xiàn)有助于從根本上擴(kuò)展機(jī)構(gòu)知識(shí)庫(kù)的資源發(fā)現(xiàn)途徑,提升機(jī)構(gòu)知識(shí)庫(kù)的服務(wù)能力。
參考文獻(xiàn):
[1]劉雪梅,刀克群.基于模糊綜合評(píng)價(jià)法的機(jī)構(gòu)知識(shí)庫(kù)評(píng)價(jià)模型[J].情報(bào)探索,2015(5):22-24.
[2]歐石燕.面向關(guān)聯(lián)數(shù)據(jù)的語(yǔ)義數(shù)字圖書(shū)館資源描述與組織框架設(shè)計(jì)與實(shí)現(xiàn)[J].中國(guó)圖書(shū)館學(xué)報(bào),2012(2):58-71.
[3]賀文君.SPARQL聯(lián)合查詢及其應(yīng)用[D].大連:大連海事大學(xué),2014(6).
[4]劉煒,李大玲,夏翠娟.元數(shù)據(jù)與知識(shí)本體[J].圖書(shū)館雜志,2004(6):50-54.
[5]金燕,江閃閃.基于四原則的關(guān)聯(lián)數(shù)據(jù)發(fā)布方法研究[J].圖書(shū)館理論與實(shí)踐,2013(5):77-80.
[6] HebelerJ,etal.SemanticWebProgramming[M].Wiley,2009.
[7]沈志宏,等.關(guān)聯(lián)數(shù)據(jù)發(fā)布流程與關(guān)鍵問(wèn)題研究——以科技文獻(xiàn)、科學(xué)數(shù)據(jù)發(fā)布為例[J].中國(guó)圖書(shū)館學(xué)報(bào),2013 (2):53-62.
[8] CyganiakR,BizerC.Pubby:Alinkeddatafrontendfor SPARQLendpoints[EB/OL].[2012-05-10].http://wifo5-03. informatik.uni-mannheim.de/pubby/.
[9]AuerS,DietzoldS,LehmannJ.Triplify-light-weightlinked datapublicationfromrelationaldatabases[C].Proceedingsof the18thInternationalConferenceonWorldWideWeb.New York:ACM,2009:621-630.
[10]張靜,馬春娥.如何利用D2R發(fā)布LinkedData[EB/OL]. [2011-04-20].http://www.ibm.com/developerworks/cn/web/ 1003_zhangjing_d2r/.
劉雪梅女,1987年生。碩士,館員。研究方向:數(shù)字圖書(shū)館。
[分類(lèi)號(hào)]G250.7
*本文系蘭州大學(xué)圖書(shū)館2015年科研項(xiàng)目(編號(hào):LZUL[201502])研究成果之一。
收稿日期:(2016-01-19;責(zé)編:楊新寬。)