亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語義的數(shù)字圖書館檢索模型研究

        2016-05-14 21:12:48陳巧玉
        現(xiàn)代電子技術(shù) 2016年9期
        關(guān)鍵詞:數(shù)字圖書館本體

        陳巧玉

        摘 要: 隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展,數(shù)字圖書館已經(jīng)成為信息傳播和獲取的重要途徑。而現(xiàn)階段的數(shù)字圖書館缺乏具有語義性的匹配,同時(shí)沒有提供計(jì)算機(jī)可讀的語義信息。結(jié)合圖書館的具體應(yīng)用,構(gòu)建了基于本體語義技術(shù)的數(shù)字圖書館檢索模型,并設(shè)計(jì)實(shí)現(xiàn)了一個(gè)檢索系統(tǒng)原型,然后綜合分析并利用 DC 元數(shù)據(jù),建立了描述圖書元數(shù)據(jù)的本體,同時(shí)結(jié)合圖書館的具體應(yīng)用,構(gòu)建了基于本體語義技術(shù)的擴(kuò)展檢索模型。最后,根據(jù)上述擴(kuò)展檢索模型設(shè)計(jì)了檢索系統(tǒng)原型,并通過三組實(shí)驗(yàn)對比,驗(yàn)證了構(gòu)建的檢索模型的有效性和實(shí)用性。

        關(guān)鍵詞: 數(shù)字圖書館; 語義檢索; 本體; 語義擴(kuò)展

        中圖分類號: TN911?34; TM417 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2016)09?0103?04

        Abstract: With the rapid development of network technology, the digital library has become an important way of information transmission and acquisition. The digital library at this stage lacks the semantic matching, and can′t provide the semantic information with computer readable. The digital library retrieval model based on ontology semantic technology was constructed. A retrieval system prototype was designed and implemented. And then, the ontology to describe the book metadata was established by synthetically analyzing and using DC metadata, and the extension retrieval model based on ontology semantic technology was constructed in combination with the specific application of the library. Finally, according to the extension retrieval model, the retrieval system prototype was designed. The effectiveness and practicability of the constructed retrieval model was verified with the experimental comparison of three groups.

        Keywords: digital library; semantic retrieval; ontology; semantic extension

        0 引 言

        對于數(shù)字圖書館的形式可以概括為以下兩種:高校的圖書館檢索系統(tǒng),它將圖書信息數(shù)字化,并提供了一個(gè)檢索系統(tǒng),方便學(xué)生進(jìn)行借閱;類似超星數(shù)字圖書館、中國知網(wǎng)或是中國國家數(shù)字圖書館等數(shù)字圖書館網(wǎng)站,不僅提供圖書、期刊、專利等信息資源的檢索,還提供在線試讀和下載、相關(guān)學(xué)術(shù)的新聞視頻等一系列綜合信息[1]。

        數(shù)字圖書館實(shí)現(xiàn)數(shù)字化的兩個(gè)關(guān)鍵技術(shù)就是資源的數(shù)字化以及檢索系統(tǒng),而這兩個(gè)關(guān)鍵技術(shù)目前存在缺乏語義性的表現(xiàn),直接導(dǎo)致用戶檢索效果不佳,影響了用戶的閱讀體驗(yàn)[2]。傳統(tǒng)的搜索引擎沒有處理任何學(xué)科領(lǐng)域的知識,所以他們不能理解用戶的搜索請求以及文章的內(nèi)在聯(lián)系,沒有傳統(tǒng)圖書館的用戶挑選過程,即包含語義性的過程[3]。

        1 圖書館學(xué)本體構(gòu)建

        1.1 必備條件

        基于作者的專業(yè),本文所選取的研究學(xué)科領(lǐng)域?yàn)椤皥D書館學(xué)”,且目前這一學(xué)科領(lǐng)域的本體沒有被提出。根據(jù)“圖書館學(xué)”相關(guān)書籍以及專家學(xué)者的建議,將“圖書館學(xué)”的相關(guān)概念進(jìn)行提取、歸類,并比較各個(gè)數(shù)據(jù)庫中的相關(guān)圖書期刊,充實(shí)該學(xué)科領(lǐng)域本體[4]。

        (1) 工具語言的選擇階段。系統(tǒng)均采用OWL本體語言,Protégé本體構(gòu)建工具。

        (2) 需求分析。涉及學(xué)科領(lǐng)域?yàn)椤皥D書館學(xué)”,目的就是提高“圖書館學(xué)”相關(guān)圖書檢索的語義性,從而提高圖書的查全率以及查準(zhǔn)率,所以需要給出“圖書館學(xué)”領(lǐng)域的專業(yè)概念以及相互之間的關(guān)系、實(shí)例等。系統(tǒng)設(shè)計(jì)的用戶主要有兩類:一類是圖書館的普通用戶即讀者,他們只是需要檢索這個(gè)功能,這部分也是這個(gè)系統(tǒng)研究的重要部分;另外一類是圖書館管理人員,他不僅需要檢索,而且需要負(fù)責(zé)本體的整個(gè)維護(hù)工作。為了保證本體的持久性,本文選擇使用MySQL數(shù)據(jù)庫對本體文件進(jìn)行存儲[5]。

        (3) 領(lǐng)域?qū)<业膮⑴c。領(lǐng)域本體構(gòu)建的結(jié)果是獲得這一領(lǐng)域的共同認(rèn)識,所以應(yīng)該在領(lǐng)域?qū)<业膸椭拢餐⑦@一學(xué)科的本體[6]。

        1.2 圖書館學(xué)本體構(gòu)建過程

        參考中國知網(wǎng)對圖書館學(xué)這一學(xué)科的圖書分類,將圖書館學(xué)分為:普通圖書館學(xué)、比較圖書館學(xué)、專門圖書館學(xué)、應(yīng)用圖書館學(xué)、相關(guān)學(xué)科這五大類。這五大類又分別按照下面的體系結(jié)構(gòu)進(jìn)行了分類,如圖1所示。

        從圖1的體系結(jié)構(gòu)可以看出,有的概念需要進(jìn)行實(shí)例擴(kuò)展,以便達(dá)到更好的檢索效果。這五大類中,專門圖書館類似中圖分類號中的各種類型圖書館,從中圖分類號的分類可以看出,屬于窮舉類型,因此在本體的結(jié)構(gòu)體系中,利用實(shí)例對其進(jìn)行擴(kuò)充;相關(guān)學(xué)科是指與圖書館學(xué)相交叉的學(xué)科,由于學(xué)科的發(fā)展,相關(guān)學(xué)科也是不斷的變化,所以使用實(shí)例對其進(jìn)行擴(kuò)展,而沒有運(yùn)用子類的形式[7]。

        具體介紹構(gòu)建“圖書館學(xué)”領(lǐng)域本體中使用owl-sameAs具體實(shí)例:

        (1) 圖書館現(xiàn)代化:圖書館信息化、圖書館網(wǎng)絡(luò)化;

        (2) 圖書館工作者:館員;

        (3) 數(shù)字圖書館:電子圖書館;

        (4) 題跋:書評根據(jù)上述體系結(jié)構(gòu),利用Protégé工具,“圖書館學(xué)”本體如圖2所示。

        2 圖書元數(shù)據(jù)本體構(gòu)建

        2.1 構(gòu)建圖書元數(shù)據(jù)本體的必備條件

        學(xué)科領(lǐng)域本體的構(gòu)建有助于基于用戶檢索詞進(jìn)行推理或是學(xué)科層級的判斷,但是真正要實(shí)現(xiàn)語義性,應(yīng)該對描述圖書的DC元數(shù)據(jù)進(jìn)行語義性的描述。結(jié)合DC元數(shù)據(jù)簡單、靈活的特點(diǎn),加之本體OWL語言的語義、智能的檢索,使檢索結(jié)果更加有效。實(shí)際上,RDF等語義Web和OWL的描述語言都有自己對于DC的使用方法,本文采用了OWL語言下對本體的描述辦法。DC元數(shù)據(jù)共有15個(gè)基本元素,將這15個(gè)基本元素分為三組,在創(chuàng)建描述DC元數(shù)據(jù)的本體時(shí),借鑒DC元數(shù)據(jù)對圖書信息的描述,這些元素在本體中可以以屬性的方式存在。在本體的構(gòu)建過程中,可以引用DC屬性的命名空間,以達(dá)到使用DC屬性的目的。具體引用如下:

        本模型共有5大模塊:用戶檢索、結(jié)果查看模塊,語義擴(kuò)展排序模塊,Lucene檢索模塊,圖書資源建立模塊,本體構(gòu)建模塊。各模塊的作用如下:

        本體構(gòu)建模塊,這一部分包括領(lǐng)域本體以及圖書元數(shù)據(jù)的本體。

        圖書資源建立模塊,本模塊主要用于提供檢索數(shù)據(jù)。

        語義擴(kuò)展排序模塊,本模塊主要是對用戶的檢索詞進(jìn)行語義的擴(kuò)展,也是本體系的重要模塊部分。

        Lucene檢索模塊,將語義擴(kuò)展排序模塊擴(kuò)展排序之后的檢索詞提交到Lucene檢索,Lucene檢索對之前建立起來的文檔索引進(jìn)行檢索,根據(jù)用戶選擇的檢索范圍進(jìn)行檢索,返回給用戶檢索結(jié)果。

        用戶查看、結(jié)果查看模塊,本模塊提供用戶進(jìn)行檢索詞的輸入以及檢索結(jié)果的查看,用戶檢索提供兩種方式,分別為輸入檢索詞和樹形結(jié)構(gòu)的檢索。

        3.2 語義擴(kuò)展排序模塊

        (1) SPARQL查詢

        利用SPARQL查詢語言進(jìn)行本體文件的查詢時(shí),需要利用Jena的com.hp.hpl.jena.rdf.model包對本體文件進(jìn)行處理,在對本體文件進(jìn)行處理時(shí)要注意亂碼問題。本模型的構(gòu)建是對用戶的檢索詞進(jìn)行更為精準(zhǔn)全面的匹配擴(kuò)充,所以首先需要對用戶的檢索詞進(jìn)行擴(kuò)充,之后進(jìn)行排序。利用SPARQL查詢語言查詢用戶檢索詞的上下級學(xué)科以及實(shí)例擴(kuò)充。

        (2) Jena推理子系統(tǒng)

        使用JenaAPI中的com.hp.hpl.jena.reasoner包實(shí)現(xiàn)基于OWL語言的規(guī)則集推理,同時(shí)可以創(chuàng)建自己的使用規(guī)則。實(shí)際上,就是利用com.hp.hpl.jena.reasoner包中的ModelFactory類把推理機(jī)同本體或是數(shù)據(jù)關(guān)聯(lián)起來,以達(dá)到推理的目的。Jena進(jìn)行推理有以下兩種方式:OWLReasoner和自定義推理。針對領(lǐng)域本體進(jìn)行推理,在構(gòu)建“圖書館學(xué)”領(lǐng)域本體中,定義了OWL:sameAs 表示具有相同涵義的類以及個(gè)體,以解決同義詞查詢的問題。

        (3) 語義相似度算法

        本文將相似度算法與本體語言的特性相結(jié)合,提出了一個(gè)綜合的排序算法:將用戶輸入的檢索詞進(jìn)行分析處理之后,將與檢索詞的有關(guān)概念(包括子類、同義類等)歸結(jié)到一個(gè)概念集合,利用上述基于語義距離的算法將概念集合進(jìn)行建模,根據(jù)相似度值的大小進(jìn)行排序,最后利用Lucene進(jìn)行檢索。

        同義詞之間的相似度值為1,實(shí)例擴(kuò)充的相似度大于子類之間的相似度,子類的相似度大于子子類的相似度。故排序應(yīng)該是為匹配用戶輸入詞的文章、匹配同義詞的文章、實(shí)例擴(kuò)充的文章、子類的文章、子子類的文章。那么子類的文章具有同父類相同的相似度,對于具有相同層級的文章默認(rèn)按照查閱量或是下載量等進(jìn)行排序。

        3.3 Lucene檢索模塊

        根據(jù)之前定義的底層圖書元數(shù)據(jù)的屬性對其進(jìn)行檢索,針對一本圖書需要構(gòu)建24 個(gè)Field文檔的屬性,即Title,Subtitle,NonChineseTitle,Subject,Description,Source,Language,Relation,Coverage,Name,Age,Native,Email,Organization,Sex,Publisher,Contributor,Rights,Date,Type,F(xiàn)ormat,CLC,IndexNum,ISBN(均省略has)。

        為了創(chuàng)建一個(gè)較為完整的圖書元數(shù)據(jù)的本體結(jié)構(gòu),將DC 元數(shù)據(jù)的15 個(gè)基本元素都涉及到了。為了簡化著錄項(xiàng)目,DC 元數(shù)據(jù)只要確保7個(gè)基本元素:Title,Publisher,F(xiàn)ormat,Type,Identifier,Date和Subject即可。為了解決作者重名的問題,建立了如下Field 文檔屬性:Title,Subtitle,NonChineseTitle,Subject,Name,Age,Native,Email,Organization,Sex,Publisher,Date,CLC,IndexNum,ISBN,Type,F(xiàn)ormat(均省略has)。

        首先,對數(shù)據(jù)庫中的底層圖書元數(shù)據(jù)本體數(shù)據(jù)document 建立索引,其中對本體數(shù)據(jù)中的主題Subject,將其按照分號進(jìn)行分詞存儲。

        其次,對上述擴(kuò)展之后的檢索詞建立indexSearcher對檢索詞進(jìn)行檢索。對同作者的文章推薦,對作者的擴(kuò)展屬性進(jìn)行判斷。

        最后,將檢索結(jié)果返回用戶。

        4 實(shí)驗(yàn)分析及功能評估

        硬件環(huán)境CPU:Intel 3.40 GHz,2.99 GB的內(nèi)存;操作系統(tǒng)為Windows XPSP3;實(shí)驗(yàn)平臺:Eclipse +Jena2.6.3+Lucene3.5.0;服務(wù)器:Tomcat 6.0。

        4.1 功能演示

        之前介紹過本系統(tǒng)有兩種用戶:學(xué)生和教師(管理員)。提供了六種檢索方式:基于關(guān)鍵字?jǐn)U展查詢、基于關(guān)鍵字普通查詢、基于題目擴(kuò)展查詢、基于題目普通檢索、基于作者查詢、基于樹形目錄的查詢。其中基于關(guān)鍵字?jǐn)U展查詢以及基于關(guān)鍵字的普通查詢可以提供對比。教師角色除了可以提供查詢功能外,創(chuàng)新性的提供給了修改領(lǐng)域本體的功能界面,減免了操作領(lǐng)域本體的復(fù)雜性。

        (1) 樹形目錄檢索:當(dāng)用戶點(diǎn)擊樹形目錄進(jìn)行查詢時(shí),可將圖書館的領(lǐng)域本體按照樹形的結(jié)構(gòu)進(jìn)行顯示,用戶可點(diǎn)擊各個(gè)節(jié)點(diǎn)進(jìn)行查詢。

        (2) 擴(kuò)展檢索與不擴(kuò)展檢索進(jìn)行對比,針對“題目”屬性,以“實(shí)例擴(kuò)充檢驗(yàn)”為例進(jìn)行敘述。輸入檢索詞“圖書宣傳”,在“圖書館學(xué)”領(lǐng)域本體中構(gòu)建了圖書宣傳的實(shí)例:圖書展覽、圖書館講座、圖書館報(bào)告會、讀者座談會、圖書館閱讀輔導(dǎo)。對概念的擴(kuò)充,檢索結(jié)果界面如圖5,圖6所示。

        由表1~表3可以看出三組檢索詞的具體檢索情況。數(shù)據(jù)庫中錄入了300篇與上述三個(gè)檢索詞相關(guān)的文章,且案例采用的是基于題目的檢索,故當(dāng)題目中含有上述關(guān)鍵字且文章含義也為上述關(guān)鍵字的文章的正確率都具有良好的效果。且目前的檢索算法是將用戶的關(guān)鍵字進(jìn)行本體匹配,然后本體進(jìn)行擴(kuò)展,對于子類、子子類以及實(shí)例都進(jìn)行了擴(kuò)展,故查全率能夠有很好的提高。對于擴(kuò)充之后的檢索詞仍是采用Lucene對field進(jìn)行匹配,所以對查準(zhǔn)率的提高有限。但是從上述案例可以看到,查全率以及查準(zhǔn)率都有所提高,本體構(gòu)建的基于本體的語義數(shù)字圖書館檢索模型的語義擴(kuò)充以及檢索是合理的。

        5 結(jié) 論

        傳統(tǒng)數(shù)字圖書館的信息表達(dá)以及基于關(guān)鍵字的檢索機(jī)制均存在缺乏語義性的問題,導(dǎo)致用戶的體驗(yàn)度以及滿意度不高。為提高數(shù)字圖書館的檢索效果,將語義本體技術(shù)與數(shù)字圖書館技術(shù)相結(jié)合,提高數(shù)字圖書館的檢索效果,這也是目前數(shù)字圖書館的發(fā)展方向。本文針對數(shù)字圖書館缺乏語義性的兩種表現(xiàn),提出了學(xué)科領(lǐng)域本體以及描述圖書元數(shù)據(jù)的本體,并在此基礎(chǔ)上構(gòu)建了基于語義的數(shù)字圖書館檢索系統(tǒng)。本文的研究成果對于下一代語義數(shù)字圖書館具有一定的科學(xué)意義。

        參考文獻(xiàn)

        [1] 楊萌.圖書館防盜系統(tǒng)漏洞的研究[J].現(xiàn)代電子技術(shù),2014,37(5):94?96.

        [2] 董慧,杜文華.基于本體和多代理的數(shù)字圖書館信息檢索模型[J].中國圖書館學(xué)報(bào),2004(2):65?67.

        [3] 袁穎,趙捧未.基于語義網(wǎng)的數(shù)字圖書館信息檢索模型研究[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2010(7):1?3.

        [4] 盧勝軍,真溱.本體匹配基本理論框架研究[J].現(xiàn)代圖書情報(bào)技術(shù),2007(11):28?32.

        [5] 鞠彥輝,劉宏偉,牟冬梅,等.國外典型語義數(shù)字圖書館系統(tǒng)的比較研究[J].圖書館論壇,2009(3):68?71.

        [6] 馬費(fèi)成,羅志成,曾杰,等.知識相關(guān)度的計(jì)量研究[J].情報(bào)科學(xué),2008,26(5):641?646.

        [7] 余正濤,宋面,樊孝忠.基于本體的個(gè)性化領(lǐng)域信息服務(wù)[J].計(jì)算機(jī)工程,2005(5):22?24.

        [8] 谷琦.對語義網(wǎng)格及其在數(shù)字圖書館信息檢索中應(yīng)用的探討[J].現(xiàn)代情報(bào),2009(1):68?72.

        猜你喜歡
        數(shù)字圖書館本體
        Abstracts and Key Words
        對姜夔自度曲音樂本體的現(xiàn)代解讀
        高校圖書館的未來發(fā)展模式芻議
        淺析“互聯(lián)網(wǎng)+”時(shí)代的圖書館管理
        資治文摘(2016年7期)2016-11-23 01:00:24
        高校數(shù)字圖書館資源整合的初探
        商情(2016年39期)2016-11-21 09:27:10
        基于云計(jì)算的數(shù)字圖書館建設(shè)與服務(wù)模式研究
        從谷歌案析數(shù)字圖書館對作品的使用行為
        芻議數(shù)字圖書館計(jì)算機(jī)網(wǎng)絡(luò)的安全技術(shù)及其防護(hù)策略
        《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
        專題
        成人看片黄a免费看那个网址| 99视频偷拍视频一区二区三区| 久久精品国产亚洲av热东京热| 熟女一区二区中文字幕| 日本一区二区三区爆乳| 一区二区三区四区国产亚洲| 久草手机视频在线观看| 亚洲国产av一区二区三区| 国色天香社区视频在线| 亚洲精品美女久久久久久久| 97人人超碰国产精品最新o| 成人综合亚洲欧美一区h| 久久亚洲宅男天堂网址| 国产桃色一区二区三区| 狠狠综合久久av一区二区蜜桃| 亚洲欧洲av综合色无码| 久久精品无码一区二区日韩av| 午夜福利理论片在线观看| 欧美性开放bbw| 久久与欧美视频| 蜜桃精品国产一区二区三区 | 少妇被躁到高潮和人狍大战| 五月激情综合婷婷六月久久| 少妇高潮流白浆在线观看| 最近中文字幕视频完整版在线看| 偷窥村妇洗澡毛毛多| 极品美女销魂一区二区三| 女同一区二区三区在线观看| 成人a级视频在线播放 | 乱码午夜-极国产极内射| 人妻av午夜综合福利视频| 青青草视频原手机在线观看| 久久精品国产亚洲综合av| 国产日产亚洲系列最新| 国产精品免费大片| 天天中文字幕av天天爽| 暴露的熟女好爽好爽好爽| 欧美xxxx做受欧美88| 国产在线观看www污污污| 久久亚洲AV无码一区二区综合| 懂色av一区二区三区网久久|