亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于關(guān)聯(lián)數(shù)據(jù)的知識組織研究

        2014-10-17 18:19:56曲佳彬
        企業(yè)導(dǎo)報 2014年13期

        曲佳彬

        摘 要:論述了關(guān)聯(lián)數(shù)據(jù)在知識組織中應(yīng)用的優(yōu)勢,提出基于關(guān)聯(lián)數(shù)據(jù)的知識組織模型,并介紹了模型各個層次的工作和內(nèi)容。根據(jù)此模型,設(shè)計了以"煙臺大學(xué)圖書館學(xué)術(shù)論文"為實例的知識組織系統(tǒng),驗證了模型的可行性、實用性,展示了關(guān)聯(lián)數(shù)據(jù)作為新技術(shù)在知識組織中的應(yīng)用前景。

        關(guān)鍵詞:關(guān)聯(lián)數(shù)據(jù);知識組織;語義網(wǎng)

        傳統(tǒng)知識組織在文獻信息組織與檢索中發(fā)揮了巨大的作用,隨著計算機技術(shù)以及語義網(wǎng)技術(shù)的發(fā)展,對知識組織的研究將更加深入,如何豐富和拓展知識組織的結(jié)構(gòu)和功能,如何深度序化信息資源的內(nèi)部屬性和特征,無縫的鏈接相關(guān)的信息資源,消除信息孤島使其富含語義,如何有效的整合、序化異構(gòu)、動態(tài)變化的網(wǎng)絡(luò)信息資源將成為知識組織研究的熱點。關(guān)聯(lián)數(shù)據(jù)作為輕量級的語義網(wǎng)實現(xiàn)方法,自2006年由Tim Bern

        ers-Lee[1]提出以來備受關(guān)注,逐漸成為圖情界的翹楚,關(guān)聯(lián)數(shù)據(jù)以通用框架RDF描述信息資源,關(guān)注的焦點放在信息本身而不是承載信息的頁面或是信息的訪問接口,組織的對象直接深入到細粒度級的具有語義信息的實體,為每個信息實體定義唯一的URI,使用RDF鏈接相關(guān)的實體從而構(gòu)建關(guān)聯(lián)關(guān)系,揭示信息間的語義隱含,到達語義揭示的目的。鑒于關(guān)聯(lián)數(shù)據(jù)的特性以及它在知識組織、信息聚合等方面的突出表現(xiàn),本文以關(guān)聯(lián)數(shù)據(jù)為視角,探索知識組織的新方法,通過關(guān)聯(lián)數(shù)據(jù)的應(yīng)用實現(xiàn)知識組織的語義化、標(biāo)準(zhǔn)化,以促進知識組織的新發(fā)展。

        一、關(guān)聯(lián)數(shù)據(jù)在知識組織中應(yīng)用的優(yōu)勢

        (一)關(guān)聯(lián)數(shù)據(jù)一種輕量級的語義網(wǎng)實現(xiàn)方法,結(jié)構(gòu)簡單適合混搭。關(guān)聯(lián)數(shù)據(jù)設(shè)計的技術(shù)主要是統(tǒng)一資源定位符(URI)、超文本傳輸協(xié)議(HTTP)和RDF資源框架。關(guān)聯(lián)技術(shù)沒有定義特定的實現(xiàn)方式和技術(shù),只是提出了發(fā)布的原則和要求,只要遵循四個原則即可[2]:使用URI作為任何事物的標(biāo)識名稱、通過

        HTTP協(xié)議,任何人都可以訪問這一事物、以RDF的形式提供有用的信息、盡可能多的提供相關(guān)的URI鏈接。簡單來說就是使用RDF框架描述信息資源,通過HTTP的方式去訪問,利用

        RDF鏈接的信息導(dǎo)航到更多的相關(guān)信息。

        (二)信息之間的語義更加明顯,不僅是單純的知識鏈接。關(guān)聯(lián)數(shù)據(jù)本身不會給信息增加任何語義含義,其在底層數(shù)據(jù)間構(gòu)建了信息之間的鏈接,以攜帶語義的形式展現(xiàn)給用戶,通過將目前文檔web轉(zhuǎn)化成數(shù)據(jù)的Web,并在不同的數(shù)據(jù)間通過

        URI建立關(guān)聯(lián),最終實現(xiàn)信息資源有效整合。

        (三)關(guān)聯(lián)數(shù)據(jù)采用標(biāo)準(zhǔn)化的RDF描述信息資源。RDF是一種用來描述Web上資源的語言,將一個資源描述成一組三元組(主語,謂語,賓語),主語用來表示需要描述的資源,謂語用來表示主語的某個屬性或者某個關(guān)系,賓語表示了屬性的值[3]。主語、謂語都可以用 HTTP URI來表示,其中賓語也可以用 HTTP URI 標(biāo)識另一個資源。例如:Yantai University(主語)is

        located(謂語) in Yantai(賓語)。主體和客體都是一個獨立的類資源,都有自己的HTTP URI標(biāo)示符,通過查看“Yantai Univer

        siyt”的描述,還可以鏈接到客體“Yantai”的具體描述的信息,同時“Yantai”還有自己的屬性值可供參引。

        二、基于關(guān)聯(lián)數(shù)據(jù)的知識組織模型

        關(guān)聯(lián)數(shù)據(jù)主要使用URI,HTTP,RDF 等語義網(wǎng)技術(shù)來實現(xiàn),使信息組織更加細化、結(jié)構(gòu)化和語義化,同時能夠支持機器理解和處理,另外,其統(tǒng)一的數(shù)據(jù)模型(RDF)、統(tǒng)一的存取API

        (RDF/SPARQL)、統(tǒng)一的HTTP URI標(biāo)識,為信息對象的整合和組織提供了統(tǒng)一的標(biāo)準(zhǔn),使得在開發(fā)應(yīng)用的時候可以考慮使用幾個平臺的混搭。本文設(shè)計了一個基于關(guān)聯(lián)數(shù)據(jù)的知識組織的技術(shù)體系,為知識組織提供新的研究方法和思路。

        圖1 基于關(guān)聯(lián)數(shù)據(jù)的知識組織層次模型

        從圖1可以得出,基于關(guān)聯(lián)數(shù)據(jù)的知識組織框架可以分為底層數(shù)據(jù)源、語義標(biāo)引層、RDF數(shù)據(jù)關(guān)聯(lián)層、信息資源應(yīng)用層,如下對四個層次進行介紹。

        (一)底層數(shù)據(jù)源的組織。數(shù)據(jù)源主要包括:來自不同領(lǐng)域的信息資源,可以是圖書的出版社、科學(xué)出版物的刊號、地名、人名、等具體化的數(shù)據(jù)資源;同時也可以是早已成型的關(guān)系數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù),如:圖書館的圖書目錄數(shù)據(jù)庫、企業(yè)內(nèi)部資源的數(shù)據(jù)庫、科研機構(gòu)的知識管理系統(tǒng)。這兩者是目前為止比較受歡迎的關(guān)聯(lián)數(shù)據(jù)底層數(shù)據(jù)源的組織形式,如果將這些信息源進行整合、組織,以關(guān)聯(lián)數(shù)據(jù)的形式發(fā)布出去將會有驚人的發(fā)現(xiàn)。在此筆者將底層數(shù)據(jù)分為如下三類。(1)易于檢索的結(jié)構(gòu)化數(shù)據(jù)。這類數(shù)據(jù)主要設(shè)計到存儲在關(guān)系數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù),已經(jīng)有了成型的數(shù)據(jù)模型。(2)分散的異構(gòu)的網(wǎng)絡(luò)信息資源。主要指分布在網(wǎng)絡(luò)上,以html網(wǎng)頁的形式表達的、異構(gòu)的、分散的、形式多樣的數(shù)據(jù),對這些數(shù)據(jù)的聚合難度相對來說比較大,要進行充分的分析、預(yù)處理。(3)靜態(tài)的結(jié)構(gòu)化數(shù)據(jù)。主要包括了CSV、Excel、BibTeX格式的文件,這些文件要通過RD

        Fizing等工具轉(zhuǎn)換成為RDF格式的數(shù)據(jù),然后存儲到RDF數(shù)據(jù)庫中發(fā)布。

        (二)信息的語義標(biāo)引。語義標(biāo)注是使用計算機可理解的屬性來描述資源,目前的語義標(biāo)注中,標(biāo)注往往是針對特定的應(yīng)用,不能根據(jù)不同數(shù)據(jù)的特點而靈活變換標(biāo)注方法,如領(lǐng)域本體只是針對特定的領(lǐng)域內(nèi)的信息資源來標(biāo)注、概念化信息資源。進一步而言,標(biāo)注方法只能標(biāo)注相互獨立的數(shù)據(jù)信息,涉及到數(shù)據(jù)之間的相互依賴、相互關(guān)聯(lián)時,往往不能明確的標(biāo)注這種依賴關(guān)系。本文討論的關(guān)聯(lián)數(shù)據(jù)采用的是RDF三元組來描述資源,其中包括了“主體”,“謂語”,“客體”,使用規(guī)范的詞表標(biāo)注三元組陳述的“謂語”,不僅靈活的描述了信息資源,信息資源間的相互依賴關(guān)系清晰的展現(xiàn)了出來。RDF僅僅使用特定命名和值來表達與資源有關(guān)的簡單聲明,很大程度上了限制了用戶的使用范圍,比如說定義Person類了來描述人,定義Orga

        nization類來描述機構(gòu)等,因此需要擴展更多的詞表。DC、

        FOAF、OWL、SKOS等規(guī)范的詞表擴展了RDF/RDFS的描述能力,作為關(guān)聯(lián)數(shù)據(jù)集和用戶之間的橋梁得到了很好的應(yīng)用,充實飽滿的描述了信息資源。

        (三) RDF數(shù)據(jù)關(guān)聯(lián)層。RDF數(shù)據(jù)關(guān)聯(lián)層是通過數(shù)據(jù)集內(nèi)部的URI來實現(xiàn),一個RDF三元組描述了一個數(shù)據(jù)對象,這個數(shù)據(jù)對象的客體或者主體在其他RDF三元組中也有類似的描述或者相依賴的資源,這樣就需要構(gòu)建這兩個RDF數(shù)據(jù)描述間的關(guān)聯(lián),此中情況只是針對本地數(shù)據(jù)庫中的信息資源。另一個情況擴展其他開放的關(guān)聯(lián)數(shù)據(jù)集,因為這些數(shù)據(jù)集之間已經(jīng)形成了很好的數(shù)據(jù)鏈接,研究者只需要獲得相關(guān)對象的URI就可以鏈接到他們的數(shù)據(jù)集,從而把自己的數(shù)據(jù)集中的相關(guān)信息進行擴展。當(dāng)把開放的數(shù)據(jù)集作為鏈接的潛在候選目標(biāo)時,如下幾點應(yīng)該考慮在內(nèi):(1)目標(biāo)數(shù)據(jù)集中的主要領(lǐng)域是什么。(2)所鏈接的數(shù)據(jù)集中對象的URIs是否穩(wěn)定、保持不變。(3)目標(biāo)數(shù)據(jù)集和它的命名空間是否保持一致、不會隨時變化。(4)目標(biāo)數(shù)據(jù)集中的RDF links是否和其他關(guān)聯(lián)數(shù)據(jù)集保持無縫的鏈接,沒有死鏈接或者空節(jié)點。

        (四)信息資源應(yīng)用層。發(fā)布為關(guān)聯(lián)數(shù)據(jù)的資源主要是通過以下方式瀏覽和檢索。(1)關(guān)聯(lián)數(shù)據(jù)主要是以URI來標(biāo)識數(shù)據(jù)對象的,通過HTTP參引可以找到相應(yīng)的資源RDF描述,通過數(shù)據(jù)間的RDF鏈接在這些相關(guān)的數(shù)據(jù)源間導(dǎo)航,獲得用戶感興趣的知識。(2)發(fā)布后的信息資源以RDF的形式呈現(xiàn),使得一些基于RDF的瀏覽器插件成為佼佼者,比如Tabulator

        Browser、OpenLink RDF Browser插件在瀏覽關(guān)聯(lián)數(shù)據(jù)方面發(fā)揮了很大的優(yōu)勢。(3)SPARQL是為RDF開發(fā)的一種查詢語言和數(shù)據(jù)獲取協(xié)議,能夠接收客戶端的查詢請求,可以在關(guān)聯(lián)數(shù)據(jù)源中像SQL那樣查詢,并把結(jié)果反饋給用戶,如Wikipedia、GeoNames、MusicBrainz、DBLP bibliography這些數(shù)據(jù)集都支持這種SPARQL端點查詢訪問模式。

        三、學(xué)術(shù)論文特色數(shù)據(jù)資源的知識組織的實例

        (一)學(xué)術(shù)論文特色知識庫的系統(tǒng)結(jié)構(gòu)。為了驗證前文提出關(guān)聯(lián)數(shù)據(jù)在知識組織中的優(yōu)勢及框架的合理性,本文以“煙臺大學(xué)圖書館學(xué)術(shù)論文數(shù)據(jù)庫”為背景,構(gòu)建了基于關(guān)聯(lián)數(shù)據(jù)的特色知識庫,遵循關(guān)聯(lián)數(shù)據(jù)的基本原則,揭示信息資源之間的內(nèi)在語義關(guān)聯(lián)。

        圖2 學(xué)術(shù)論文知識庫系統(tǒng)模型

        鑒于學(xué)術(shù)論文數(shù)據(jù)庫的特點,采用D2R的方式將學(xué)位論文數(shù)據(jù)發(fā)布成富含語義的關(guān)聯(lián)數(shù)據(jù)。D2R Server是一個HTTP Server,支持將關(guān)系數(shù)據(jù)庫中的內(nèi)容發(fā)布成為RDF描述形式的關(guān)聯(lián)數(shù)據(jù)。D2R提供一種可定制的映射文件:D2RQ Mapping 文件,該映射文件將關(guān)系數(shù)據(jù)庫的數(shù)據(jù)轉(zhuǎn)換為虛擬的 RDF 數(shù)據(jù)進行訪問,其中表的名字轉(zhuǎn)換成了映射文件中的類(d2rq:ClassMaps)、表中的列轉(zhuǎn)換成映射文件中的屬性(d2rq:Property

        Bridges),通過映射文件中這兩個類和屬性來表示關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)表間的關(guān)系以及表內(nèi)不同屬性的關(guān)系。在用戶在前臺請求相關(guān)的信息實體時,D2RQ Mapping 文件會映射到關(guān)系數(shù)據(jù)庫,將查詢結(jié)果轉(zhuǎn)換為RDF描述的實體、屬性反饋給前臺界面。

        (二) 學(xué)術(shù)論文資源的建模。以“煙臺大學(xué)圖書館學(xué)術(shù)論文數(shù)據(jù)庫”為主要數(shù)據(jù)源,對信息進行了預(yù)處理,歸納為論文、作者、論文主題、組織機構(gòu)、論文所屬期刊五種實體類型,如下圖是它們的關(guān)系圖。

        圖3 實體關(guān)系圖

        本文采用SQL Server作為底層數(shù)據(jù)的存儲容器,上述幾個實體類分別包含了各自的數(shù)據(jù)項,在關(guān)系數(shù)據(jù)庫建立相應(yīng)的表存儲,如:Papers、Persons、Topic、Department、Periodical表。在后臺處理的時候還要考慮數(shù)據(jù)實體間的關(guān)聯(lián),Paper表中的作者字段必須和Persons表中的作者字段相關(guān)聯(lián)、Topics表中的論文名稱需關(guān)聯(lián)Papers表中的論文名等等。

        (三)學(xué)術(shù)論文特色知識庫的實現(xiàn)。實現(xiàn)了底層數(shù)據(jù)的組織以后,就要采用D2R的方式將SQL Server關(guān)系數(shù)據(jù)庫的數(shù)據(jù)發(fā)布成為RDF描述數(shù)據(jù),這樣才能使關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)富含語義,數(shù)據(jù)之間形成鏈接的數(shù)據(jù)網(wǎng)。其實在通過D2R形式發(fā)布關(guān)系數(shù)據(jù)的時候,所形成的D2RQ Mapping映射文件將關(guān)系數(shù)據(jù)虛擬成為RDF格式,在上層瀏覽、查詢的時候通過此映射文件對關(guān)系數(shù)據(jù)庫進行操作。

        本實例使用的是SQL Server數(shù)據(jù)庫,需要把SQL Server的驅(qū)動包放到D2R Server的lib下,在進行瀏覽、查詢的時候才能驅(qū)動數(shù)據(jù)庫。然后需要運行生成映射文件的腳本:gener

        ate-Mapping [-u username] [-p password] [-d driverclass] [-o out

        file.n3] [-b base uri] jdbcURL,參數(shù)的意義為:數(shù)據(jù)庫的登錄名、數(shù)據(jù)庫登錄密碼、驅(qū)動名稱、輸出映射文件名、JDBC鏈接數(shù)據(jù)庫的URL。此腳本運行后生成一個對應(yīng)關(guān)系數(shù)據(jù)庫的映射文件linkeddata.n3文件,用來實現(xiàn)上層關(guān)聯(lián)數(shù)據(jù)的展示和查詢。

        其D2RQ Mapping是基于RDFS和OWL進行描述的,自動生成的與關(guān)系數(shù)據(jù)的映射文件顯得簡單、粗糙。表之間的約束關(guān)系、關(guān)聯(lián)關(guān)系沒有形成很好的鏈接,謂詞的也是默認的表中列的值,在表達語義方面顯得蒼白無力,與外部數(shù)據(jù)源間的鏈接也需要用詞表來描述。如下

        實例中用到的部分詞表有dc:title表示論文的題目,dc:data論文發(fā)表的日期,dc:author論文的作者,dc:Description對論文的描述,foaf:person說明這個類是用來描述人的,foaf:knows描述與此人有關(guān)系的人, skos:PrimaySubject描述該文獻的主題,

        vcard:locality描述機構(gòu)的位置。這些規(guī)范詞表的使用規(guī)范了對數(shù)據(jù)的描述,更容易讓人明白要表達的關(guān)系,另外采用規(guī)范的詞表來描述,使機器也能很好的識別,關(guān)聯(lián)數(shù)據(jù)的共享和重復(fù)利用變得更加容易。

        (四)結(jié)果分析。本實例經(jīng)過D2R發(fā)布后的關(guān)系數(shù)據(jù)庫,使得信息資源使用RDF描述,并且富含語義,能比較好的展示數(shù)據(jù)之間的語義關(guān)聯(lián)。linked data技術(shù)在知識組織中的運用,使得用戶可以通過HTML瀏覽關(guān)聯(lián)數(shù)據(jù),還可以通過SPARQL語言實現(xiàn)對關(guān)聯(lián)數(shù)據(jù)的查詢。Linked data不僅可以整合內(nèi)部相關(guān)的信息,使其深度序化,還實現(xiàn)了與外部相關(guān)數(shù)據(jù)的關(guān)聯(lián),對分布式異構(gòu)的網(wǎng)絡(luò)資源的整合提出了很好的解決辦法。準(zhǔn)備好數(shù)據(jù)后在D2R的路徑下啟動服務(wù)器,運行命令d2r-server linked

        data.n3,在瀏覽器中輸入:http://127.0.0.1:2020/,即可進行關(guān)聯(lián)數(shù)據(jù)的瀏覽。以一個作者的數(shù)據(jù)為例,如下圖4所示。關(guān)聯(lián)數(shù)據(jù)化后的作者元數(shù)據(jù)的屬性和實體都是比較靈活的,都有與之相關(guān)的URI導(dǎo)航到作者的所屬部門、發(fā)表的其他論文、合作者等等相關(guān)的信息。

        圖4 關(guān)聯(lián)數(shù)據(jù)化的作者詳細信息

        其中http://localhost:2020/data/persons/1是實體的唯一

        URI,分別用實體和屬性來描述實體的,點擊圖4中屬性dc:cre

        ator,可以導(dǎo)航到作者發(fā)表論文的描述。

        圖 5 關(guān)聯(lián)數(shù)據(jù)化的論文信息

        SPARQL是W3C的RDF數(shù)據(jù)工作組設(shè)計的一種查詢語言和協(xié)議,用于RDF數(shù)據(jù)的查詢。本實例也支持基于

        SPARQL檢索。圖6中檢索的內(nèi)容是:在煙臺大學(xué)圖書館2000年以后發(fā)表的學(xué)術(shù)論文。

        圖6 基于SPARQL語言的查詢界面

        結(jié)論:本文利用關(guān)聯(lián)數(shù)據(jù)對煙臺大學(xué)圖書館學(xué)術(shù)論文數(shù)據(jù)庫再組織,實現(xiàn)了關(guān)聯(lián)數(shù)據(jù)的html導(dǎo)航瀏覽、SPARQL檢索服務(wù)。深層次的序化了學(xué)術(shù)論文的關(guān)聯(lián)關(guān)系,發(fā)掘?qū)W術(shù)論文中隱含的語義信息,比如說學(xué)術(shù)論文所屬作者的合作關(guān)系、學(xué)術(shù)論文主題相關(guān)性、作者所屬部門的關(guān)聯(lián)等等,無縫的鏈接相關(guān)的信息資源,消除信息孤島使其富含語義,以知識鏈的形式呈現(xiàn)。

        關(guān)聯(lián)數(shù)據(jù)一種輕量級的語義網(wǎng)實現(xiàn)方法,結(jié)構(gòu)簡單適合混搭,沒有定義特定的實現(xiàn)方式和技術(shù),只是提出了發(fā)布的原則和要求,因此可以不受技術(shù)的限制,定制化自己的實現(xiàn)平臺,其強調(diào)語義關(guān)聯(lián)、數(shù)據(jù)網(wǎng)絡(luò),無疑將成為未來信息聚合、知識呈現(xiàn)的佼佼者。關(guān)聯(lián)數(shù)據(jù)的發(fā)展帶來了語義網(wǎng)的普及,基于 RDF形式存在的數(shù)據(jù)也會不斷增多,如何消費關(guān)聯(lián)數(shù)據(jù)、如何使用

        SPARQL語言進行語義發(fā)現(xiàn)將會成為研究熱點。

        參考文獻:

        [1] 劉煒. 關(guān)聯(lián)數(shù)據(jù):概念、技術(shù)及應(yīng)用展望[J]. 大學(xué)圖書館學(xué)報,2011(02):05-12.

        [2]夏翠娟. 關(guān)聯(lián)數(shù)據(jù)的發(fā)布技術(shù)及其實現(xiàn)——以Drupal 為例[J].中國圖書館學(xué)報,2012(01):049-057.

        [3] RDF Vocabulary Description Language 1.0:RDF Schema[EB/OL].[2012-06-09].

        日本美女在线一区二区| 亚州精品无码久久aV字幕| 亚洲AV无码日韩综合欧亚| 日产一区二区三区的精品| 成人欧美一区二区三区黑人| 欧美大肥婆大肥bbbbb| a级福利毛片| 少妇特殊按摩高潮对白| 熟女体下毛荫荫黑森林| 国产无遮挡裸体免费视频| 日韩啪啪精品一区二区亚洲av | 国产精品久久久久久2021| 国产精品人成在线765| av高清在线不卡直播| 亚洲av无码av男人的天堂| 亚洲熟妇乱子伦在线| 黄色大片国产精品久久| 亚洲精品无码久久久久y| 一二三四在线视频观看社区| 色综合色综合久久综合频道| 少妇被粗大猛进进出出男女片 | 玩弄放荡人妻少妇系列| 一区二区韩国福利网站| 邻居少妇太爽在线观看| 亚洲综合激情另类小说区| 老妇肥熟凸凹丰满刺激| AV在线毛片| 国产女主播一区二区三区| 欧美裸体xxxx极品少妇| 亚洲人成人一区二区三区| 国产午夜福利在线观看中文字幕| 久久久亚洲欧洲日产国码aⅴ| 一群黑人大战亚裔女在线播放| 亚洲一区二区成人在线视频| 最新国产熟女资源自拍| 国产乱xxⅹxx国语对白| 日本高清不在线一区二区色| 三级国产高清在线观看| 亚洲中文字幕久久无码精品| 中文人妻无码一区二区三区信息| 在线视频免费自拍亚洲|