亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于關(guān)聯(lián)數(shù)據(jù)的圖書(shū)館信息挖掘與揭示

        2016-11-28 02:15:15劉愛(ài)琴王慧滿(mǎn)
        圖書(shū)館 2016年9期
        關(guān)鍵詞:本體關(guān)聯(lián)檢索

        劉愛(ài)琴 王慧滿(mǎn) 尚 珊

        (山西大學(xué)經(jīng)濟(jì)與管理學(xué)院 太原 030006)

        ·工作研究·

        基于關(guān)聯(lián)數(shù)據(jù)的圖書(shū)館信息挖掘與揭示

        劉愛(ài)琴 王慧滿(mǎn) 尚 珊

        (山西大學(xué)經(jīng)濟(jì)與管理學(xué)院 太原 030006)

        關(guān)聯(lián)數(shù)據(jù)是將超文本鏈接轉(zhuǎn)變?yōu)槌瑪?shù)據(jù)鏈接,其實(shí)質(zhì)是以RDF形式提供有用的信息,盡可能提供鏈接指向其它URI,使人們發(fā)現(xiàn)更多的相關(guān)知識(shí)。關(guān)聯(lián)數(shù)據(jù)具備的統(tǒng)一、標(biāo)準(zhǔn)、定位精確的特點(diǎn)為圖書(shū)館信息挖掘提供了又一新的途徑。文章從關(guān)聯(lián)數(shù)據(jù)技術(shù)在圖書(shū)館信息挖掘與揭示中的影響機(jī)制分析入手,探討了關(guān)聯(lián)數(shù)據(jù)技術(shù)構(gòu)建信息挖掘的優(yōu)勢(shì),通過(guò)對(duì)文獻(xiàn)標(biāo)題、作者、關(guān)鍵詞等內(nèi)容的提取,利用關(guān)聯(lián)數(shù)據(jù)自身攜帶的大量URI鏈接將相關(guān)領(lǐng)域的研究信息及數(shù)據(jù)集進(jìn)行關(guān)聯(lián)的實(shí)際應(yīng)用來(lái)展示其可行性,有效地解決了現(xiàn)有匹配方法中信息關(guān)聯(lián)范圍小、準(zhǔn)確率低、噪音多等問(wèn)題,為信息挖掘與揭示提供了新的思路與方法,并對(duì)該方法的后續(xù)研究提供了新的研究范疇。

        關(guān)聯(lián)數(shù)據(jù) 信息挖掘 URI鏈接 信息匹配 信息揭示影響機(jī)制

        1 問(wèn)題提出

        傳統(tǒng)的圖書(shū)館信息挖掘是系統(tǒng)按照相似度匹配算法匹配關(guān)鍵詞,計(jì)算文獻(xiàn)信息的相關(guān)度并排列順序的方式向用戶(hù)推送。系統(tǒng)僅憑文字匹配來(lái)提供信息,無(wú)法理解用戶(hù)的真正檢索需求,造成檢索結(jié)果中存在大量的噪音信息。此外,絕大多數(shù)圖書(shū)館的信息資源沒(méi)有和網(wǎng)絡(luò)直接連接,用戶(hù)搜索到的文獻(xiàn)信息僅限于該圖書(shū)館的數(shù)字電子式資源和書(shū)本式資源,信息獲取范圍小、獲取量少。因此,如何在提高檢索效率的同時(shí)為用戶(hù)提供一個(gè)人性化的檢索環(huán)境,成為當(dāng)前圖書(shū)館信息挖掘工作的研究熱點(diǎn)。上世紀(jì)9O年代,信息可視化技術(shù)首次被引入數(shù)字圖書(shū)館的領(lǐng)域中,該項(xiàng)技術(shù)對(duì)信息表達(dá)的抽象程度高、規(guī)律性特征挖掘清楚、展現(xiàn)能力強(qiáng),學(xué)者們都嘗試將可視化思想服務(wù)于實(shí)際檢索[1]。

        盡管圖形的表現(xiàn)形式極大地方便了用戶(hù)理解檢索信息內(nèi)容的關(guān)聯(lián),但是檢索出的信息量并沒(méi)有得到實(shí)質(zhì)性的提高。而隨著關(guān)聯(lián)數(shù)據(jù)概念的提出,人們意識(shí)到這種方法不僅可以有效地對(duì)信息進(jìn)行整合,而且攜帶的大量URI鏈接可以關(guān)聯(lián)到更多的信息,因此越來(lái)越多的機(jī)構(gòu)、政府部門(mén)開(kāi)始重視關(guān)聯(lián)數(shù)據(jù)的應(yīng)用。2008年瑞典國(guó)家圖書(shū)館將瑞典聯(lián)合目錄整體發(fā)布為關(guān)聯(lián)數(shù)據(jù),首次將關(guān)聯(lián)數(shù)據(jù)應(yīng)用到圖書(shū)館領(lǐng)域,隨后,美國(guó)國(guó)會(huì)圖書(shū)館、大英圖書(shū)館等多個(gè)國(guó)家的圖書(shū)館相繼將自身數(shù)據(jù)信息發(fā)布為關(guān)聯(lián)數(shù)據(jù)集[2]。我國(guó)學(xué)者在這方面的研究剛剛起步,目前僅有極個(gè)別圖書(shū)館將信息發(fā)布為關(guān)聯(lián)數(shù)據(jù),但是關(guān)聯(lián)數(shù)據(jù)勢(shì)必將對(duì)信息挖掘的發(fā)展提供強(qiáng)大的推動(dòng)力。

        本文將關(guān)聯(lián)數(shù)據(jù)引入到圖書(shū)館信息挖掘過(guò)程中,利用關(guān)聯(lián)數(shù)據(jù)的統(tǒng)一、標(biāo)準(zhǔn)、定位精確等特征不僅實(shí)現(xiàn)了信息資源的聚合、知識(shí)的關(guān)聯(lián),而且利用關(guān)聯(lián)數(shù)據(jù)自身攜帶的大量URI鏈接可以關(guān)聯(lián)到更多數(shù)據(jù)集的信息,有效地?cái)U(kuò)大信息挖掘的信息量、信息范圍和深度。

        2 關(guān)聯(lián)數(shù)據(jù)與信息可視化比較

        信息可視化是通過(guò)用戶(hù)對(duì)圖片處理的較強(qiáng)能力,將文本信息通過(guò)一定的方式轉(zhuǎn)化成圖形后,通過(guò)距離、長(zhǎng)短、大小、顏色等方式來(lái)表達(dá)不同信息,方便用戶(hù)快速找到相關(guān)文獻(xiàn),并能使用戶(hù)清楚地看到檢索出的文獻(xiàn)之間的相關(guān)性[3]。

        然而,由于圖書(shū)館、外部網(wǎng)絡(luò)等機(jī)構(gòu)提供的信息沒(méi)有統(tǒng)一的格式,可視化技術(shù)的使用需要先將其挖掘出的信息統(tǒng)一轉(zhuǎn)換格式解決異構(gòu)問(wèn)題,再把轉(zhuǎn)化好的信息用挖掘算法將信息的揭示過(guò)程及結(jié)果向用戶(hù)展示出來(lái),過(guò)程較為復(fù)雜,挖掘效果不能滿(mǎn)足需求。此外,圖書(shū)館存儲(chǔ)的信息量巨大,可視化技術(shù)在應(yīng)用過(guò)程中不能保證對(duì)大量數(shù)據(jù)高速并精準(zhǔn)的處理,現(xiàn)有的幾類(lèi)可視化技術(shù)在處理多維度信息后,向用戶(hù)展示時(shí)不可避免地出現(xiàn)交叉、重疊、順序混亂等問(wèn)題。與之相比,關(guān)聯(lián)數(shù)據(jù)這一新興技術(shù)能夠有針對(duì)性地解決以上問(wèn)題。關(guān)聯(lián)數(shù)據(jù)的中心思想是將雜亂無(wú)章的信息(將作者信息、科學(xué)理論信息、組織機(jī)構(gòu)信息、研究成果等一系列相關(guān)信息關(guān)聯(lián)起來(lái))通過(guò)RDF統(tǒng)一標(biāo)識(shí),形成數(shù)量巨大的信息數(shù)據(jù)集,并且通過(guò)RDF中的大量URI鏈接而將信息數(shù)據(jù)集群之間也相互關(guān)聯(lián),用戶(hù)通過(guò)SPARQL語(yǔ)言或者利用關(guān)聯(lián)數(shù)據(jù)專(zhuān)用瀏覽器等方式來(lái)對(duì)關(guān)聯(lián)數(shù)據(jù)信息進(jìn)行檢索。Tim Berners-Lee提出關(guān)聯(lián)數(shù)據(jù)后,世界范圍內(nèi)的學(xué)者對(duì)這項(xiàng)新技術(shù)的關(guān)注度越來(lái)越高,并且不斷嘗試將大量的信息發(fā)布成關(guān)聯(lián)數(shù)據(jù)。信息可視化技術(shù)和關(guān)聯(lián)數(shù)據(jù)技術(shù)在信息挖掘及揭示應(yīng)用中的比較,詳見(jiàn)表1。

        表1 信息可視化和關(guān)聯(lián)數(shù)據(jù)技術(shù)在信息挖掘及揭示應(yīng)用中的比較

        表1為信息可視化和關(guān)聯(lián)數(shù)據(jù)在信息挖掘及揭示應(yīng)用中的比較,可以看出關(guān)聯(lián)數(shù)據(jù)在信息挖掘過(guò)程中可以做到范圍更廣、程度更深。信息可視化技術(shù)在處理信息時(shí)主要有以下四個(gè)步驟:首先將檢索出的信息導(dǎo)入到系統(tǒng)中并進(jìn)行格式轉(zhuǎn)換,信息轉(zhuǎn)換沒(méi)有確定的格式,只要利于可視化的表達(dá)都可以作為目標(biāo)格式,其次對(duì)信息進(jìn)行分析和處理,然后存儲(chǔ)處理好的信息,最后將信息可視化處理[4]。關(guān)聯(lián)數(shù)據(jù)在信息處理過(guò)程方面也需要對(duì)數(shù)據(jù)格式進(jìn)行轉(zhuǎn)化,但其嚴(yán)格要求將異構(gòu)信息轉(zhuǎn)化成RDF格式,通過(guò)RDF可以將相關(guān)信息連接起來(lái),速度快,定位準(zhǔn),能夠克服信息可視化在處理巨量信息時(shí)效率低的不足。在處理信息方面,可視化技術(shù)只是將文獻(xiàn)與文獻(xiàn)之間的關(guān)系等信息直觀地表現(xiàn)出來(lái),而關(guān)聯(lián)數(shù)據(jù)關(guān)聯(lián)的信息量更多、范圍更廣、程度更深。如表1所示,關(guān)聯(lián)數(shù)據(jù)可以通過(guò)對(duì)作者及所著文獻(xiàn)賦予鏈接相連,解析文獻(xiàn)名后提取主題詞與其他擁有共同主題詞的文獻(xiàn)相關(guān)聯(lián),再進(jìn)一步與其作者、出版社、研究團(tuán)隊(duì)等信息形成鏈接;除了對(duì)作者及文獻(xiàn)名主題詞構(gòu)建關(guān)聯(lián)外,關(guān)聯(lián)數(shù)據(jù)還可以對(duì)文獻(xiàn)的關(guān)鍵詞以及標(biāo)題構(gòu)建RDF鏈接而與其他相似文獻(xiàn)關(guān)聯(lián),這樣就可以檢索到某一主題的所有相關(guān)文獻(xiàn)。另外,關(guān)聯(lián)數(shù)據(jù)通過(guò)大量RDF鏈接不僅可以將圖書(shū)館內(nèi)信息進(jìn)行關(guān)聯(lián),還可以與圖書(shū)館外的信息資源進(jìn)行鏈接,拓展信息挖掘范圍,提高用戶(hù)的使用效率。

        3 關(guān)聯(lián)數(shù)據(jù)在圖書(shū)館信息挖掘及揭示中的影響機(jī)制

        關(guān)聯(lián)數(shù)據(jù)是以RDF格式對(duì)圖書(shū)館信息進(jìn)行存儲(chǔ)并發(fā)布,這有利于圖書(shū)館對(duì)自有信息及與其他信息機(jī)構(gòu)的信息進(jìn)行關(guān)聯(lián)。并且,通過(guò)RDF三元組可以精準(zhǔn)的描述任何一個(gè)在互聯(lián)網(wǎng)上發(fā)布的信息[5]。RDF三元組中的主語(yǔ)和賓語(yǔ)用知識(shí)對(duì)象URI標(biāo)識(shí),謂語(yǔ)則用語(yǔ)義詞匯集URI標(biāo)識(shí),這樣就可以將一篇文章標(biāo)題及其作者、關(guān)鍵詞、出版社等信息準(zhǔn)確地呈現(xiàn)出來(lái),也可以通過(guò)詞匯集的鏈接來(lái)構(gòu)建內(nèi)外部信息的匹配。大量URI鏈接的存在使得關(guān)聯(lián)數(shù)據(jù)在信息挖掘方面發(fā)揮著重要作用。圖1為關(guān)聯(lián)數(shù)據(jù)在整個(gè)圖書(shū)館信息組織過(guò)程中的應(yīng)用,第一部分為資源融合,分為自有資源異構(gòu)融合以及范資源融合兩個(gè)層次,第二部分為關(guān)聯(lián)數(shù)據(jù)的應(yīng)用。

        圖1 基于關(guān)聯(lián)數(shù)據(jù)的圖書(shū)館信息挖掘及揭示影響機(jī)制

        3.1 資源融合

        圖書(shū)館是信息資源的聚集地,是眾多知識(shí)機(jī)構(gòu)當(dāng)中擁有書(shū)目文獻(xiàn)相關(guān)信息、電子資源、光盤(pán)映像等信息最多的機(jī)構(gòu)之一。圖書(shū)館自有資源異構(gòu)指的是各種信息資源都有其獨(dú)自的編碼方式(MARC、DC等),使得信息之間不能自由關(guān)聯(lián),呈現(xiàn)出的檢索結(jié)果也很有限。館際信息由于使用不同封閉的系統(tǒng)及各自采取的編碼方式,使館際信息之間相互的關(guān)聯(lián)更少。而關(guān)聯(lián)數(shù)據(jù)能夠用統(tǒng)一的RDF格式對(duì)各類(lèi)信息進(jìn)行描述,計(jì)算機(jī)可以輕松識(shí)別并理解信息的屬性、邏輯結(jié)構(gòu)等,并且利用RDF/XML將信息元數(shù)據(jù)描述成統(tǒng)一的格式,使得館藏各種文獻(xiàn)、影音資料、作者信息等一系列無(wú)規(guī)則的信息資源統(tǒng)一轉(zhuǎn)化為由RDF格式進(jìn)行描述的結(jié)構(gòu)化的信息資源,加強(qiáng)了信息間的語(yǔ)義關(guān)聯(lián)。

        “范資源”指的是與本圖書(shū)館不同的信息組織機(jī)構(gòu)(例如其他圖書(shū)館、出版社以及網(wǎng)絡(luò)信息諸如百度百科、維基百科等)所含資源,范資源融合指的是將不同信息機(jī)構(gòu)的資源進(jìn)行融合。關(guān)聯(lián)數(shù)據(jù)采取統(tǒng)一、方便的RDF格式,將各個(gè)信息機(jī)構(gòu)所含資源進(jìn)行標(biāo)識(shí),發(fā)布并進(jìn)行關(guān)聯(lián)以供其他組織或用戶(hù)使用,在擴(kuò)大與外界信息交互的同時(shí)又豐富了圖書(shū)館自身的信息。由于RDF的編寫(xiě)并沒(méi)有限制開(kāi)發(fā)者用哪一種詞匯表,館員可以利用自己的詞匯表進(jìn)行語(yǔ)義轉(zhuǎn)化,提升圖書(shū)館等機(jī)構(gòu)的信息組織效率。

        3.2 關(guān)聯(lián)數(shù)據(jù)的應(yīng)用

        關(guān)聯(lián)數(shù)據(jù)的核心就是將異構(gòu)信息通過(guò)統(tǒng)一表述形式后向外界公布以被應(yīng)用,根據(jù)Tim Berners-Lee提出的關(guān)聯(lián)數(shù)據(jù)四大發(fā)布原則,創(chuàng)建并發(fā)布了關(guān)聯(lián)數(shù)據(jù)之后就要構(gòu)建關(guān)聯(lián)關(guān)系,通過(guò)對(duì)已發(fā)布的RDF數(shù)據(jù)進(jìn)行主體映射、提取、合并等處理后,形成關(guān)聯(lián)數(shù)據(jù)云。如果能夠授權(quán),將這些數(shù)據(jù)對(duì)外無(wú)限制開(kāi)放,可以形成供任何人使用的開(kāi)放的關(guān)聯(lián)數(shù)據(jù),即Linked Open Data (LOD)。

        3.3 關(guān)聯(lián)數(shù)據(jù)在圖書(shū)館信息挖掘及揭示中的實(shí)現(xiàn)方式

        基于關(guān)聯(lián)數(shù)據(jù)的圖書(shū)館信息挖掘與揭示的算法流程,如圖2所示,分三個(gè)階段:本體構(gòu)建與檢驗(yàn)、信息處理及關(guān)聯(lián)數(shù)據(jù)化、信息挖掘與揭示。

        圖2 基于關(guān)聯(lián)數(shù)據(jù)的圖書(shū)館信息挖掘與揭示算法流程

        現(xiàn)有的關(guān)聯(lián)數(shù)據(jù)本體的構(gòu)建技術(shù)以及復(fù)用技術(shù)已經(jīng)比較成熟。首先構(gòu)建本體庫(kù),采用國(guó)際普遍使用元數(shù)據(jù)標(biāo)準(zhǔn)Dublin Core及其他標(biāo)準(zhǔn)來(lái)構(gòu)建所需本體或者復(fù)用現(xiàn)有本體。如果圖書(shū)館自建本體,需要按照一定方式例如按照種類(lèi)及粒度大小將圖書(shū)館信息進(jìn)行分類(lèi)。歐石燕[6]在構(gòu)建關(guān)聯(lián)數(shù)據(jù)元數(shù)據(jù)本體時(shí)使用的是英文本體,主要研究的是圖書(shū)館中書(shū)目數(shù)據(jù)部分。本文在其基礎(chǔ)上提出更廣泛的分類(lèi)方法,采用Protege4.3本體構(gòu)建工具,支持中文顯示,今后國(guó)內(nèi)應(yīng)用將會(huì)更為廣泛。本文將信息本體大類(lèi)分為人、地址、文件、時(shí)間、組織等,再對(duì)部分類(lèi)添加子類(lèi),例如將書(shū)目數(shù)據(jù)作為子類(lèi)添加到“文件”下,對(duì)“組織”部分添加公司、學(xué)校、出版社、機(jī)構(gòu)等子類(lèi),如圖3所示。通過(guò)構(gòu)建以上本體,不僅書(shū)目數(shù)據(jù),其他信息如文獻(xiàn)作者以及其所著的文獻(xiàn)信息、關(guān)鍵詞、出版方、日期、從屬、研究領(lǐng)域及與其相關(guān)的其他研究人員的基本信息都可以一并描述。如果復(fù)用本體,則可以根據(jù)描述信息的種類(lèi)復(fù)用不同已有本體,例如GeoNames、EVENT等,并且要在各本體之間通過(guò)“屬性”來(lái)進(jìn)行語(yǔ)義關(guān)聯(lián)。建立好本體后通過(guò)對(duì)本體匹配度進(jìn)行檢驗(yàn),將構(gòu)建好的本體保存至本體庫(kù)。

        圖3 基于關(guān)聯(lián)數(shù)據(jù)的圖書(shū)館信息挖掘與揭示本體構(gòu)建示例

        圖書(shū)館在對(duì)信息進(jìn)行處理時(shí),可以利用Altova或RDF Refine等軟件將CSV、JPEG、MARC等格式數(shù)據(jù)轉(zhuǎn)化為RDF格式存入基礎(chǔ)數(shù)據(jù)庫(kù)內(nèi)。將轉(zhuǎn)化格式后的數(shù)據(jù)根據(jù)種類(lèi)用相對(duì)應(yīng)的本體進(jìn)行描述,例如基于FOAF、GeoNames等本體描述人、組織、地名等信息并形成相應(yīng)的數(shù)據(jù)集。對(duì)于文獻(xiàn)類(lèi)型的數(shù)據(jù),可以將文獻(xiàn)標(biāo)題、摘要、關(guān)鍵詞等內(nèi)容分別構(gòu)建RDF鏈接,然后將RDF格式表示的信息數(shù)據(jù)類(lèi)型屬性的屬性值用URI表示的資源代替,從而實(shí)現(xiàn)關(guān)聯(lián)數(shù)據(jù)的構(gòu)建,發(fā)布后形成關(guān)聯(lián)數(shù)據(jù)云。信息挖掘階段,用戶(hù)通過(guò)SPARQL查詢(xún)語(yǔ)句對(duì)所需信息進(jìn)行檢索,系統(tǒng)接收到檢索指令后對(duì)查詢(xún)語(yǔ)句進(jìn)行分析,并作規(guī)范化處理后進(jìn)行檢索。計(jì)算機(jī)通過(guò)RDF中的URI標(biāo)識(shí)對(duì)信息進(jìn)行精準(zhǔn)定位,提取檢索語(yǔ)句中的關(guān)鍵詞信息后進(jìn)入RDF匹配系統(tǒng)與關(guān)聯(lián)數(shù)據(jù)云進(jìn)行首次匹配。將匹配結(jié)果輸入至信息篩選過(guò)濾系統(tǒng)剔除噪音信息,如果匹配率低于系統(tǒng)預(yù)設(shè)閾值則返回RDF匹配系統(tǒng)重新與關(guān)聯(lián)數(shù)據(jù)云匹配,反之將檢索結(jié)果按相似匹配度排序后向用戶(hù)展示,用戶(hù)通過(guò)與計(jì)算機(jī)交互機(jī)制對(duì)檢索的初步結(jié)果進(jìn)行判定,不滿(mǎn)意則重新進(jìn)行檢索;滿(mǎn)意則輸出最終結(jié)果,檢索過(guò)程完成。

        相對(duì)于人大復(fù)印資料、知網(wǎng)等單一形式數(shù)據(jù)庫(kù)通過(guò)關(guān)聯(lián)后的數(shù)據(jù)可以一次查詢(xún)得到期刊、圖書(shū)等文獻(xiàn)的作者信息、與作者相關(guān)的研究機(jī)構(gòu)信息以及通過(guò)關(guān)聯(lián)關(guān)鍵詞而推送出的相關(guān)論文等信息,并且可以通過(guò)鏈接跳轉(zhuǎn)到維基百科等網(wǎng)站瀏覽更多內(nèi)容。

        4 關(guān)聯(lián)數(shù)據(jù)面臨的問(wèn)題及展望

        隨著語(yǔ)義網(wǎng)的不斷發(fā)展,關(guān)聯(lián)數(shù)據(jù)必將逐漸成為各信息組織機(jī)構(gòu)發(fā)布數(shù)據(jù)時(shí)最受青睞的方式之一,關(guān)聯(lián)數(shù)據(jù)的提出與應(yīng)用將極大地促進(jìn)各類(lèi)信息的融合,為用戶(hù)提供更好的服務(wù)。但是,由于其數(shù)據(jù)源開(kāi)放、鏈接數(shù)量龐大等特點(diǎn),關(guān)聯(lián)數(shù)據(jù)在圖書(shū)館信息挖掘的實(shí)際應(yīng)用中產(chǎn)生如下問(wèn)題。

        4.1 本體匹配的優(yōu)劣性

        本體作為關(guān)聯(lián)數(shù)據(jù)解決資源異構(gòu)問(wèn)題的主要方法,越來(lái)越多的學(xué)者開(kāi)始對(duì)應(yīng)用更廣泛、匹配度更高的本體構(gòu)建展開(kāi)研究,而其中很大一部分是將本體進(jìn)行語(yǔ)義化描述,需要從更深層次的語(yǔ)義關(guān)聯(lián)進(jìn)行探索。此外,建立關(guān)聯(lián)數(shù)據(jù)的本體與建立普通本體相比更難,較為復(fù)雜,如何為普通圖書(shū)館員及相關(guān)工作人員構(gòu)建一個(gè)平臺(tái),使得本體的自主構(gòu)建以及與其他已有本體之間的語(yǔ)義關(guān)聯(lián)的操作變得簡(jiǎn)單是下一步研究的重點(diǎn)。第三,如何選擇匹配方法充分發(fā)揮關(guān)聯(lián)數(shù)據(jù)在信息挖掘中的作用也是今后相關(guān)研究的發(fā)展思路。

        4.2 產(chǎn)權(quán)所有及資源開(kāi)放的權(quán)衡

        圖書(shū)館等信息機(jī)構(gòu)通過(guò)自建數(shù)據(jù)庫(kù)或者購(gòu)買(mǎi)數(shù)據(jù)庫(kù)來(lái)向自己的特定用戶(hù)提供信息挖掘等服務(wù),而將這些信息通過(guò)關(guān)聯(lián)數(shù)據(jù)發(fā)布后,相關(guān)知識(shí)機(jī)構(gòu)在減少收入的同時(shí),亦會(huì)對(duì)其信息安全造成一定的威脅;另外,大量不可控鏈接的存在可能會(huì)使圖書(shū)館面臨侵權(quán)等法律問(wèn)題。因此,產(chǎn)權(quán)所有和資源開(kāi)放程度二者如何權(quán)衡是使用關(guān)聯(lián)數(shù)據(jù)的知識(shí)機(jī)構(gòu)必須考量的。

        4.3 鏈接的維護(hù)與更新

        越來(lái)越多的信息被發(fā)布為關(guān)聯(lián)數(shù)據(jù),不可避免會(huì)出現(xiàn)一詞多鏈的現(xiàn)象。同時(shí),信息不斷更新、替代使原有內(nèi)涵不斷被豐富,會(huì)造成該信息所包含的鏈接不能再對(duì)其進(jìn)行描述,基于此關(guān)聯(lián)的應(yīng)用程序運(yùn)行也可能出現(xiàn)問(wèn)題。這就需要關(guān)聯(lián)數(shù)據(jù)的發(fā)布者經(jīng)常對(duì)數(shù)據(jù)鏈接進(jìn)行維護(hù),對(duì)重復(fù)的鏈接要做到盡可能刪除,對(duì)易產(chǎn)生變化的信息加大追蹤力度,及時(shí)更新,對(duì)消失的鏈接及時(shí)增添。

        4.4 關(guān)聯(lián)程度的進(jìn)一步深化

        文獻(xiàn)內(nèi)容的關(guān)聯(lián)的難點(diǎn)在于過(guò)程較為繁瑣、信息量巨大。一種相對(duì)可行的方法是將某篇文獻(xiàn)的每一個(gè)句子都進(jìn)行語(yǔ)句分析提取關(guān)鍵詞并賦予鏈接,使文獻(xiàn)與文獻(xiàn)之間的關(guān)聯(lián)不僅僅局限于標(biāo)題、作者或者關(guān)鍵詞,從而進(jìn)一步擴(kuò)大關(guān)聯(lián)范圍。這種做法會(huì)加大相關(guān)人員的編寫(xiě)工作力度,另外也會(huì)產(chǎn)生大量RDF鏈接,占用網(wǎng)絡(luò)資源及存儲(chǔ)空間。因此,如何構(gòu)建一種高效的關(guān)聯(lián)方法是下一步研究的重點(diǎn)。

        (來(lái)稿時(shí)間:2016年4月)

        1.謝慶華, 張寧蓉, 宋以勝, 等.聚類(lèi)數(shù)據(jù)挖掘可視化模型方法與技術(shù)[J].解放軍理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2015 (1):7-15

        2.劉煒.關(guān)聯(lián)數(shù)據(jù):概念、技術(shù)及應(yīng)用展望[J].大學(xué)圖書(shū)館學(xué)報(bào),2011(2):5-12

        3.馮靜.我國(guó)信息可視化檢索研究[J].邊疆經(jīng)濟(jì)與文化,2012(7):154-155

        4.孫潔麗,朱智清.基于數(shù)據(jù)挖掘技術(shù)的檢索可視化系統(tǒng)的研究[J].現(xiàn)代情報(bào),2008(3):106-109

        5.夏翠娟,劉煒,趙亮,等.關(guān)聯(lián)數(shù)據(jù)發(fā)布技術(shù)及其實(shí)現(xiàn)——以Drupal為例[J].中國(guó)圖書(shū)館學(xué)報(bào),2012(1):49-57

        6.歐石燕.面向關(guān)聯(lián)數(shù)據(jù)的語(yǔ)義數(shù)字圖書(shū)館資源描述與組織框架設(shè)計(jì)與實(shí)現(xiàn)[J].中國(guó)圖書(shū)館學(xué)報(bào),2012(6):58-71

        The Information Mining and Revelation of Library Based on the Linked Data

        Liu Aiqin Wang Huiman Shang Shan
        ( School of Economics and Management, Shanxi University)

        Linked data transforms hypertext links to hyperdata links which essence is to provide useful information in the form of RDF and links that point to other URI to enable people to find more relevant knowledge.The unified, standard and accurate positioning of the linked data provide a new way for library information mining.This paper starts with the analysis of the influence mechanism of the linked data technology in the information mining and revealing of the library, then discusses the advantages of information mining based on linked data technology, next, through extracting the contents of the document title, author, keywords, etc.and using lots of URI links carried by linked data to make a relation between the related fields of research information and data set to show its feasibility which effectively solves the problems of low correlation range, low accuracy and high noise etc.in the existing matching method, and proposes a new way of thought and method for information mining and revealing, and finally provides a new research category for the following research of this method.

        Linked data Information mining URI Information matching Influence mechanism of information revealing

        G250

        格式〕 劉愛(ài)琴,王慧滿(mǎn),尚珊.基于關(guān)聯(lián)數(shù)據(jù)的圖書(shū)館信息挖掘與揭示[J].圖書(shū)館,2016(9):95-99

        劉愛(ài)琴(1974-),女,博士,山西大學(xué)經(jīng)濟(jì)與管理學(xué)院碩士生導(dǎo)師,研究方向:信息資源;王慧滿(mǎn)(1993-),男,山西大學(xué)經(jīng)濟(jì)與管理學(xué)院管理科學(xué)與工程研究生;尚珊(1962-),女,山西大學(xué)經(jīng)濟(jì)與管理學(xué)院教授,研究方向:信息資源。

        猜你喜歡
        本體關(guān)聯(lián)檢索
        Abstracts and Key Words
        對(duì)姜夔自度曲音樂(lè)本體的現(xiàn)代解讀
        “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
        2019年第4-6期便捷檢索目錄
        奇趣搭配
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        專(zhuān)利檢索中“語(yǔ)義”的表現(xiàn)
        《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
        Care about the virtue moral education
        卷宗(2013年6期)2013-10-21 21:07:52
        語(yǔ)言學(xué)與修辭學(xué):關(guān)聯(lián)與互動(dòng)
        中文字幕人妻少妇伦伦| 国产视频网站一区二区三区 | 在线视频一区二区亚洲| 中文字幕av素人专区| 婷婷综合另类小说色区| 丰满熟女人妻中文字幕免费| 免费看国产成年无码av| 久久亚洲精品成人av观看| 日韩精品第一区二区三区| 一本无码av中文出轨人妻| 一区二区三区日韩亚洲中文视频| 中文乱码字幕在线中文乱码 | 在线播放无码高潮的视频| 免费无码又爽又刺激又高潮的视频| 色噜噜亚洲精品中文字幕| 无码专区亚洲综合另类| 成人亚洲性情网站www在线观看| 亚洲国产精品综合久久20| 国产一品二品三区在线观看| 国产专区一线二线三线码| 国产精品一区二区久久精品| 国产传媒剧情久久久av| 蜜臀av毛片一区二区三区| 少妇久久久久久被弄到高潮 | 国产情侣久久久久aⅴ免费| 91精品国产免费青青碰在线观看 | 精品亚洲天堂一区二区三区| 国产激情久久久久影院老熟女免费 | 曝光无码有码视频专区| 亚洲韩国在线| 亚洲捆绑女优一区二区三区| 狠狠的干性视频| 巨大欧美黑人xxxxbbbb| 一区二区三区岛国av毛片| 日本一区二区三区视频网站| 国产精品va无码一区二区| 岛国熟女一区二区三区| 午夜视频在线观看国产19| 亚洲国产精品成人综合色| 日本欧美国产精品| 中文字幕亚洲精品综合|