亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于敘詞表的林業(yè)信息語(yǔ)義檢索模型*

        2016-03-19 05:46:53韓其琛李冬梅1北京林業(yè)大學(xué)信息學(xué)院北京1000832中國(guó)科學(xué)院大學(xué)工程科學(xué)學(xué)院北京100049
        計(jì)算機(jī)與生活 2016年1期

        韓其琛,李冬梅1.北京林業(yè)大學(xué)信息學(xué)院,北京1000832.中國(guó)科學(xué)院大學(xué)工程科學(xué)學(xué)院,北京100049

        * The National Natural Science Foundation of China under Grant No. 61170268(國(guó)家自然科學(xué)基金); the Fundamental Research Funds for the Central Universities of China under Grant Nos. TD2014-02,xs2014024(中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金).

        Received 2015-02,Accepted 2015-05.

        CNKI網(wǎng)絡(luò)優(yōu)先出版:2015-05-06,http://www.cnki.net/kcms/detail/11.5602.TP.20150506.1608.001.html

        ISSN 1673-9418 CODEN JKYTA8

        Journal of Frontiers of Computer Science and Technology

        1673-9418/2016/10(01)-0122-08

        ?

        基于敘詞表的林業(yè)信息語(yǔ)義檢索模型*

        韓其琛1,2,李冬梅1+
        1.北京林業(yè)大學(xué)信息學(xué)院,北京100083
        2.中國(guó)科學(xué)院大學(xué)工程科學(xué)學(xué)院,北京100049

        * The National Natural Science Foundation of China under Grant No. 61170268(國(guó)家自然科學(xué)基金); the Fundamental Research Funds for the Central Universities of China under Grant Nos. TD2014-02,xs2014024(中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金).

        Received 2015-02,Accepted 2015-05.

        CNKI網(wǎng)絡(luò)優(yōu)先出版:2015-05-06,http://www.cnki.net/kcms/detail/11.5602.TP.20150506.1608.001.html

        ISSN 1673-9418 CODEN JKYTA8

        Journal of Frontiers of Computer Science and Technology

        1673-9418/2016/10(01)-0122-08

        E-mail: fcst@vip.163.com

        http://www.ceaj.org

        Tel:+86-10-89056056

        摘要:隨著互聯(lián)網(wǎng)的快速發(fā)展,基于關(guān)鍵詞字面匹配的信息檢索方式已不能滿足人們的需求。敘詞表中所包含的語(yǔ)義關(guān)系是提高查全率和查準(zhǔn)率的重要途徑,如果將敘詞表控制機(jī)制引入當(dāng)前網(wǎng)絡(luò)信息檢索工具中,book=123,ebook=127必然能在一定程度上提高信息檢索的效率。利用敘詞表中的詞間關(guān)系,提出了一種計(jì)算敘詞間語(yǔ)義相似度的方法,借助查詢擴(kuò)展的思想,設(shè)計(jì)了一種基于敘詞表的林業(yè)信息語(yǔ)義檢索模型。最后,以林業(yè)漢英拉敘詞表中兩個(gè)類目范疇作為實(shí)驗(yàn)對(duì)象,分別同百度搜索引擎、農(nóng)業(yè)敘詞表中所使用的檢索方法進(jìn)行了比較,實(shí)驗(yàn)結(jié)果表明,提出的檢索模型可以更好地利用敘詞表來(lái)改進(jìn)傳統(tǒng)的基于關(guān)鍵字的檢索方式,此外,所提模型是通用的,為敘詞表在網(wǎng)絡(luò)信息系統(tǒng)中的應(yīng)用提供了一種新的思路。

        關(guān)鍵詞:林業(yè)敘詞表;語(yǔ)義檢索;相似度計(jì)算;查詢擴(kuò)展;網(wǎng)頁(yè)抓取

        1 引言

        在當(dāng)前信息大爆炸的時(shí)代,網(wǎng)絡(luò)上的信息和數(shù)據(jù)已經(jīng)變得非常龐大,如何在海量級(jí)的數(shù)據(jù)中進(jìn)行高效、準(zhǔn)確的信息檢索得到了越來(lái)越多的學(xué)者和專家的關(guān)注。搜索引擎是目前人們獲取網(wǎng)絡(luò)信息的主要工具。但是,由于目前主流的搜索引擎采用的都是基于關(guān)鍵詞的字面匹配模式,即僅以孤立的關(guān)鍵詞對(duì)信息內(nèi)容進(jìn)行標(biāo)引和檢索,人們?cè)谒阉鲀?nèi)容上想要表達(dá)的語(yǔ)義內(nèi)涵無(wú)法被機(jī)器所充分理解,進(jìn)而導(dǎo)致信息檢索查全率和查準(zhǔn)率下降,在當(dāng)前多樣化的網(wǎng)絡(luò)信息環(huán)境下其不足之處就顯而易見(jiàn)了。由于基于關(guān)鍵字匹配的檢索方法無(wú)法準(zhǔn)確地表達(dá)出詞語(yǔ)的語(yǔ)義內(nèi)涵,近些年一些新的檢索理念被提出,例如概念檢索[1-2]和語(yǔ)義檢索[3-4]等。本體是實(shí)現(xiàn)語(yǔ)義檢索的一種較為有效的工具[5-6],但本體的構(gòu)建和維護(hù)需要大量的工作,與之相對(duì)的是,目前很多行業(yè)領(lǐng)域都有自己較成熟的敘詞表。

        敘詞表是一個(gè)相對(duì)完善并且發(fā)展成熟的概念知識(shí)體系,自其從20世紀(jì)50年代誕生以來(lái),經(jīng)過(guò)不斷發(fā)展和完善,已成為主題法中重要的信息組織工具,并在傳統(tǒng)文獻(xiàn)標(biāo)引和檢索中發(fā)揮過(guò)重要作用[7]。如能將敘詞表引入到網(wǎng)絡(luò)信息檢索工具中,通過(guò)利用敘詞表這一語(yǔ)義邏輯,必然能夠在一定程度上提高傳統(tǒng)信息檢索的查全率和查準(zhǔn)率。目前,基于敘詞表的信息檢索方法在醫(yī)學(xué)領(lǐng)域已有較為深入的研究[8]。文獻(xiàn)[9]利用隨機(jī)游動(dòng)(random walk)的方法借助醫(yī)學(xué)敘詞表對(duì)用戶所輸入的檢索信息進(jìn)行語(yǔ)義擴(kuò)展,進(jìn)而改善搜索結(jié)果。文獻(xiàn)[10]對(duì)用戶搜索語(yǔ)句進(jìn)行語(yǔ)法分析,根據(jù)分析結(jié)果利用醫(yī)學(xué)敘詞表進(jìn)行查詢擴(kuò)展。但是以上兩種方法均沒(méi)有對(duì)敘詞之間的關(guān)系類型進(jìn)行量化分析。文獻(xiàn)[11]給出一種基于農(nóng)業(yè)敘詞表的檢索方法,但該方法在查詢擴(kuò)展時(shí)只考慮與核心檢索詞直接相關(guān)的單級(jí)擴(kuò)展,沒(méi)有考慮其他敘詞的影響,而且同樣也沒(méi)有對(duì)敘詞之間的關(guān)系類型進(jìn)行量化分析。本文在文獻(xiàn)[11]的基礎(chǔ)上,參考了Li等人的混合相似度算法[12],以及Liu等人的基于相關(guān)概念節(jié)點(diǎn)密度的概念向量模型[13],并結(jié)合林業(yè)漢英拉敘詞表的相應(yīng)特點(diǎn),提出了一種綜合敘詞間多種關(guān)系的相似度計(jì)算方法,借助查詢擴(kuò)展和加權(quán)檢索的思想,設(shè)計(jì)了一種基于敘詞表的林業(yè)信息語(yǔ)義檢索模型(semantic model with thesaurus for forestry information retrieval,SMTFIR)。最后通過(guò)實(shí)驗(yàn)驗(yàn)證了該模型的有效性。

        2 基于敘詞間關(guān)系的相似度計(jì)算方法

        2.1相關(guān)定義

        定義1(敘詞表概念樹(shù))在敘詞表中,以族首詞O為根節(jié)點(diǎn),由族首詞為O的所有敘詞的上位敘詞和下位敘詞構(gòu)成的樹(shù)狀結(jié)構(gòu)T稱為敘詞表概念樹(shù)。樹(shù)結(jié)構(gòu)中的節(jié)點(diǎn)C稱為敘詞節(jié)點(diǎn),Ci為對(duì)T進(jìn)行層次遍歷的第i個(gè)節(jié)點(diǎn),根節(jié)點(diǎn)O記為C0。C的所有祖先節(jié)點(diǎn)構(gòu)成的集合稱為C的祖先敘詞節(jié)點(diǎn)A(C);C的所有孩子節(jié)點(diǎn)構(gòu)成的集合稱為C的孩子敘詞節(jié)點(diǎn)L(C)。若至少存在一個(gè)詞W與C所對(duì)應(yīng)的敘詞為相關(guān)關(guān)系,則稱C所對(duì)應(yīng)的敘詞為W的相關(guān)關(guān)聯(lián)敘詞。根節(jié)點(diǎn)O的深度記為1;樹(shù)中路徑上分支數(shù)目為1的兩個(gè)節(jié)點(diǎn)間的距離記為1。

        定義2(最短路徑長(zhǎng)度)在T中,兩個(gè)敘詞節(jié)點(diǎn)之間分支數(shù)目最少的樹(shù)中路徑稱為兩個(gè)節(jié)點(diǎn)的最短路徑,最短路徑所擁有的分支數(shù)目稱為最短路徑長(zhǎng)度。

        定義3(最近根節(jié)點(diǎn))在T中,如果敘詞節(jié)點(diǎn)R 是A和B共同的祖先節(jié)點(diǎn),并且是符合此條件的所有節(jié)點(diǎn)中距離根節(jié)點(diǎn)最遠(yuǎn)的一個(gè),則稱R為A和B的最近根節(jié)點(diǎn),記為R(A,B)或R。

        定義4(語(yǔ)義范圍)在T中,以C為根的子樹(shù)所包含的葉子節(jié)點(diǎn)數(shù)目稱為C的語(yǔ)義范圍,記為SCover(C)。

        定義5(基于敘詞的語(yǔ)義向量)在一個(gè)包含n個(gè)敘詞節(jié)點(diǎn)的T中,節(jié)點(diǎn)Ci表示成向量Ci=(Vi,1,Vi,2,…,Vi,n),Vi,j(i=1,2,…,n,j=1,2,…,n),該向量稱為基于敘詞的語(yǔ)義向量。其中維度值定義為:

        2.2相關(guān)計(jì)算公式

        本文規(guī)定:所有相似度的值均在[0,1]內(nèi)。即如果權(quán)值為0,認(rèn)為兩個(gè)敘詞之間沒(méi)有任何關(guān)系;如果權(quán)值為1,認(rèn)為兩個(gè)敘詞是等價(jià)的。同時(shí)規(guī)定,如果所求的兩個(gè)敘詞分別位于不同的概念樹(shù)中,則認(rèn)為其相似度為0。

        設(shè)要判斷相似度的詞為C1和C2,根據(jù)C1與C2的關(guān)系類型的不同將相似度公式分為3類:等同相似度為SimD(C1,C2),屬分相似度為SimF(C1,C2),相關(guān)相似度為SimW(C1,C2)。

        (1)等同相似度SimD(C1,C2)

        在敘詞表中,等同詞即等價(jià)關(guān)系,即兩個(gè)詞之間可以相互替換使用,故

        (2)屬分相似度SimF(C1,C2)

        其中,f1為基于最短路徑的相似度,f1=e?αd(d為T中由C1到C2的最短路徑長(zhǎng)度,α為調(diào)節(jié)因子);f2為基于最近根深度的相似度,f2=1?e?βh(h為R(C1,C2)的深度,β為調(diào)節(jié)因子);f3為基于語(yǔ)義向量的相似度,(C1、C2為根據(jù)定義5求得的C1、C2的語(yǔ)義向量)。

        (3)相關(guān)相似度SimW(C1,C2)

        其中,C1為C2的相關(guān)關(guān)聯(lián)敘詞;g1為基于相關(guān)關(guān)聯(lián)敘詞深度的相似度,(h為C1的深度,ε為調(diào)節(jié)因子);g2為基于相關(guān)關(guān)聯(lián)敘詞密度的相似度,g2=1?e?γl(l為以C1為根節(jié)點(diǎn)的直接子節(jié)點(diǎn)數(shù),γ為調(diào)節(jié)因子)。

        2.3相似度計(jì)算算法步驟

        利用2.2節(jié)給出的相似度計(jì)算公式,相似度計(jì)算算法的具體步驟如下:

        步驟1根據(jù)敘詞表對(duì)K進(jìn)行擴(kuò)展,得到關(guān)于K的初始查詢擴(kuò)展集合為U={D,F(xiàn),W,Y},其中D表示等同詞,F(xiàn)表示K的所有上位/下位詞(即敘詞表概念樹(shù)T的所有節(jié)點(diǎn)),W表示K的相關(guān)詞,Y表示F的等同詞和相關(guān)詞。

        步驟2找到K的族首詞O,以O(shè)為根節(jié)點(diǎn)建立敘詞表概念樹(shù)T。

        步驟3根據(jù)敘詞表概念樹(shù)T,利用式(2)得到K 與U中D的相似度SimD(K,D);利用式(3)得到K 與U中F的相似度SimF(K,F(xiàn));利用式(4)得到K 與U中W的相似度SimW(K,W)。

        步驟4判斷Y中每一個(gè)詞J與其相對(duì)應(yīng)的F中敘詞I的關(guān)系。若J與I為相等關(guān)系,則利用式(2)、式(3)得到K與J的相似度SimF(K,I)×SimD(I,J);若J與I為相關(guān)關(guān)系,則利用式(3)、式(4)得到K與J的相似度SimF(K,I)×SimW(I,J)。

        步驟5設(shè)置閾值Q,判斷U中每一個(gè)詞與K的相似度是否大于Q。若大于,則將該詞加入到查詢擴(kuò)展集合N中;若小于,則跳過(guò)。

        相似度計(jì)算流程如圖1所示。

        3 基于敘詞表的林業(yè)信息語(yǔ)義檢索模型

        3.1模型框架

        本模型包含敘詞標(biāo)準(zhǔn)化、查詢擴(kuò)展、網(wǎng)頁(yè)抓取及加權(quán)排序4個(gè)模塊。首先,利用林業(yè)漢英拉敘詞表對(duì)用戶輸入的檢索詞進(jìn)行敘詞標(biāo)準(zhǔn)化,得到檢索詞K;其次,抓取與K相關(guān)的網(wǎng)頁(yè)信息;之后,利用計(jì)算敘詞間語(yǔ)義相似度的算法得到用于查詢擴(kuò)展的相關(guān)詞集合及相應(yīng)權(quán)值;最后,根據(jù)查詢擴(kuò)展詞及其相應(yīng)權(quán)值對(duì)抓取的網(wǎng)頁(yè)信息進(jìn)行量化分析并排序。

        該模型框架如圖2所示。

        Fig.1 Procedure of similarity calculation圖1 相似度計(jì)算流程圖

        Fig.2 Structure of semantic model with thesaurus for forestry information retrieval圖2 基于敘詞表的信息檢索模型框架

        3.2敘詞標(biāo)準(zhǔn)化

        首先提取用戶輸入的檢索詞,根據(jù)敘詞表判斷是否需要對(duì)其進(jìn)行標(biāo)準(zhǔn)化處理。由于用戶檢索需求和輸入習(xí)慣的不同,此處可能遇到4種不同情況:若檢索詞是敘詞,則不必標(biāo)準(zhǔn)化,可直接使用;若檢索詞為敘詞表中的非敘詞,則通過(guò)敘詞表的相等關(guān)系將其轉(zhuǎn)化為相應(yīng)的敘詞;若檢索詞可與敘詞表中的敘詞部分匹配,則將可匹配的所有敘詞返回,供用戶從中選擇新的檢索詞;其他情況則保留原檢索詞,不對(duì)其進(jìn)行查詢擴(kuò)展。

        3.3網(wǎng)頁(yè)抓取

        令由敘詞標(biāo)準(zhǔn)化得到的檢索詞為K,使用通用搜索引擎以K為檢索詞進(jìn)行檢索,取s個(gè)結(jié)果的URL。利用開(kāi)源網(wǎng)頁(yè)分析工具Htmlparser分析這s個(gè)網(wǎng)址所對(duì)應(yīng)的網(wǎng)頁(yè),提取出網(wǎng)頁(yè)中的標(biāo)題、摘要、正文等信息。

        3.4查詢擴(kuò)展

        利用2.3節(jié)所提到的相似度計(jì)算方法求出敘詞表中所有與K相關(guān)的詞的相似度,通過(guò)設(shè)置閾值的方式選取符合條件的相關(guān)詞加入到查詢擴(kuò)展集合N中。

        3.5加權(quán)排序

        在加權(quán)計(jì)算時(shí),將N中相關(guān)詞與K的相似度結(jié)果作為相關(guān)詞的權(quán)值,加權(quán)排序方法的具體步驟如下:

        步驟1統(tǒng)計(jì)查詢擴(kuò)展集合中的每一個(gè)相關(guān)詞在網(wǎng)頁(yè)標(biāo)題中出現(xiàn)的頻率T以及在網(wǎng)頁(yè)正文中出現(xiàn)的頻率P。

        步驟2將每個(gè)網(wǎng)頁(yè)的權(quán)值求和計(jì)算,其公式為:

        其中,TWn為第n個(gè)網(wǎng)頁(yè)的總權(quán)值;WNn為第n個(gè)網(wǎng)頁(yè)的字?jǐn)?shù);m為查詢擴(kuò)展集合N中相關(guān)詞的數(shù)目;Wi為N中第i個(gè)相關(guān)詞與檢索詞K的相似度;Ti和Pi分別為該敘詞在第i個(gè)網(wǎng)頁(yè)的標(biāo)題和正文中出現(xiàn)的頻率;ω為標(biāo)題正文比,用于調(diào)節(jié)標(biāo)題對(duì)于最終結(jié)果的重要性,ω越大,標(biāo)題對(duì)該網(wǎng)頁(yè)權(quán)值的影響越大。

        步驟3將網(wǎng)頁(yè)按權(quán)值由大到小排序并返回給用戶。

        4 實(shí)驗(yàn)及結(jié)果分析

        4.1實(shí)驗(yàn)數(shù)據(jù)

        本文綜合考慮了敘詞表詞匯量、關(guān)系數(shù)、實(shí)驗(yàn)需要等因素,采用http://www.lknet.ac.cn/提供的林業(yè)漢英拉敘詞表的兩個(gè)詞量適中類目范疇中的敘詞及詞間關(guān)系作為敘詞表實(shí)驗(yàn)數(shù)據(jù),分別用于測(cè)定相關(guān)參數(shù)的最優(yōu)權(quán)值和評(píng)價(jià)相關(guān)性排序的效果。

        4.2實(shí)驗(yàn)數(shù)據(jù)檢索效果評(píng)價(jià)指標(biāo)的選擇

        檢索效果是指利用檢索系統(tǒng)進(jìn)行信息檢索產(chǎn)生的有效結(jié)果,它是檢索系統(tǒng)性能的直接反映。一般來(lái)說(shuō),基于檢索結(jié)果相關(guān)性的查全率和查準(zhǔn)率是傳統(tǒng)搜索引擎評(píng)價(jià)的主要指標(biāo)。而國(guó)外有些學(xué)者發(fā)現(xiàn):80%的用戶只查看搜索結(jié)果的第一頁(yè),即對(duì)用戶而言,其所需要的信息出現(xiàn)在檢索結(jié)果的前幾頁(yè)比查全率和查準(zhǔn)率更重要[14-15]?;诖擞钟袑W(xué)者提出了搜索長(zhǎng)度的概念[16-18],即指用戶發(fā)現(xiàn)n個(gè)相關(guān)網(wǎng)頁(yè)之前需要查看的不相關(guān)網(wǎng)頁(yè)的數(shù)目,用來(lái)評(píng)估搜索引擎是否能夠?qū)⒆钕嚓P(guān)的網(wǎng)頁(yè)排列在檢索結(jié)果集的最前端。本文選擇檢索結(jié)果的相關(guān)性和搜索長(zhǎng)度這兩種指標(biāo)來(lái)評(píng)價(jià)SMTFIR檢索的有效性。

        考慮到大多數(shù)用戶檢索時(shí)只會(huì)看返回的第一頁(yè)結(jié)果,本文在進(jìn)行評(píng)價(jià)時(shí)選擇評(píng)價(jià)前10個(gè)結(jié)果的相關(guān)性,用P@10表示。計(jì)算方法如下所示:

        其中,a表示前10項(xiàng)結(jié)果中與用戶檢索詞相關(guān)的結(jié)果數(shù)量;b表示前10項(xiàng)結(jié)果中與用戶檢索詞無(wú)關(guān)的結(jié)果數(shù)量。從而可得出前10項(xiàng)的平均相關(guān)性公式:

        其中,P1至Pn為n次獨(dú)立的實(shí)驗(yàn)所求得的P@10。

        而搜索長(zhǎng)度設(shè)定為找到前5篇相關(guān)結(jié)果所需要查看的不相關(guān)結(jié)果的數(shù)量,搜索長(zhǎng)度用L表示。同理,可以得出平均搜索長(zhǎng)度公式:

        其中,L1至Ln為n次獨(dú)立的實(shí)驗(yàn)所求得的L。

        4.3相關(guān)參數(shù)權(quán)值的測(cè)定

        通過(guò)實(shí)驗(yàn)測(cè)定兩個(gè)重要的參數(shù):用于查詢擴(kuò)展模塊的閾值Q及加權(quán)排序模塊中的標(biāo)題正文比ω。其他相似度算法的參數(shù)人工設(shè)定為α=0.2,β=0.6,ε=0.6,γ=0.3。

        為使權(quán)值測(cè)定盡可能準(zhǔn)確,從實(shí)驗(yàn)數(shù)據(jù)中隨機(jī)選取10個(gè)敘詞進(jìn)行測(cè)試。在實(shí)驗(yàn)中,網(wǎng)頁(yè)抓取模塊選擇百度搜索結(jié)果的前100條作為通用搜索引擎的結(jié)果進(jìn)行抓取,將標(biāo)題正文比先設(shè)定為1。由相關(guān)林業(yè)方面人員確認(rèn)返回結(jié)果是否與檢索詞相關(guān)。利用最終結(jié)果做折線圖,如圖3所示。

        Fig.3 Determination data of threshold value圖3 閾值權(quán)值的測(cè)定數(shù)據(jù)

        利用確定好的閾值,可以從敘詞表中選擇與檢索詞最為接近的詞匯用于查詢擴(kuò)展。以檢索詞為夏綠林為例,通過(guò)確定好的閾值可以得到如下相關(guān)詞匯:落葉闊葉林(0.817 9),櫟林(0.670 3),榿林(0.670 3),闊葉林(0.668 3),常綠闊葉林(0.547 9),照葉林(0.547 9),常綠竹林(0.547 7),硬葉常綠林(0.448 9),其中括號(hào)內(nèi)數(shù)值為其與檢索詞的相似度。

        在得到閾值結(jié)果后,將閾值調(diào)整為0.2,繼續(xù)用這10個(gè)敘詞進(jìn)行標(biāo)題正文比的測(cè)試。同樣,利用最終實(shí)驗(yàn)結(jié)果分別做折線圖,如圖4所示。

        Fig.4 Determination data of title-text rate圖4 標(biāo)題正文比的權(quán)值測(cè)定

        4.4實(shí)驗(yàn)結(jié)果分析

        根據(jù)4.3節(jié)測(cè)定的最優(yōu)權(quán)值,從實(shí)驗(yàn)數(shù)據(jù)中隨機(jī)選擇15個(gè)詞分別利用百度搜索引擎、文獻(xiàn)[11]的方法以及SMTFIR進(jìn)行搜索,并分別測(cè)量在不同情況下返回結(jié)果的P@10和L指標(biāo),將實(shí)驗(yàn)結(jié)果繪制為表1。

        根據(jù)表1的結(jié)果做折線圖,如圖5和圖6所示。從圖中可以看出,SMTFIR和文獻(xiàn)[11]的方法相較于百度的結(jié)果來(lái)說(shuō)均有不同程度的改進(jìn),這說(shuō)明敘詞表確實(shí)可以提高搜索結(jié)果的準(zhǔn)確性。與此同時(shí),SMTFIR也要比文獻(xiàn)[11]的方法更加準(zhǔn)確,說(shuō)明了本文提出的檢索模型可以更好地利用敘詞表來(lái)改進(jìn)傳統(tǒng)基于關(guān)鍵字的檢索方式。

        4.5模型通用性分析

        Table 1 Results comparison between SMTFIR and other methods表1 SMTFIR與其他檢索方法的對(duì)比

        經(jīng)過(guò)幾十年的發(fā)展,敘詞表的編制方法得到不斷改善,最終形成了一系列的國(guó)際標(biāo)準(zhǔn)。國(guó)際標(biāo)準(zhǔn)有1974年發(fā)布的ISO 2788和1985年發(fā)布的ISO 5964,我國(guó)目前的現(xiàn)行標(biāo)準(zhǔn)為1991年發(fā)布的GB/T 13190。在這些標(biāo)準(zhǔn)中均明確規(guī)定了敘詞表中的詞間關(guān)系有3種,分別是本文所提及的等同關(guān)系、等級(jí)關(guān)系和相關(guān)關(guān)系。2.2節(jié)所利用的3種關(guān)系在現(xiàn)行任何符合國(guó)際標(biāo)準(zhǔn)的敘詞表中均是存在的,因此本文所提出的模型具有較強(qiáng)的通用性。

        Fig.5 Results comparison between SMTFIR and other methods(P@10)圖5 SMTFIR與其他檢索方法的對(duì)比(P@10)

        Fig.6 Results comparison between SMTFIR and other methods(L)圖6 SMTFIR與其他檢索方法的對(duì)比(L)

        5 結(jié)束語(yǔ)

        由于基于關(guān)鍵詞的傳統(tǒng)信息檢索方法不能充分表達(dá)語(yǔ)義信息,本文利用敘詞表的詞間關(guān)系,提出了一種計(jì)算敘詞間語(yǔ)義相似度的方法,設(shè)計(jì)了一種基于敘詞表的林業(yè)信息語(yǔ)義檢索模型,顯著提高了查詢效果。本文模型同樣適合其他的行業(yè)領(lǐng)域,這種檢索方式為在當(dāng)前大數(shù)據(jù)時(shí)代如何合理利用敘詞表提供了一個(gè)新的研究思路。在今后的研究中可以從檢索結(jié)果相關(guān)性評(píng)價(jià)等方面進(jìn)行改進(jìn)和完善。

        References:

        [1] Qian Xueming,Guo Danping,Hou Xingsong,et al. HWVP: hierarchical wavelet packet descriptors and their applications in scene categorization and semantic concept retrieval[J]. Multimedia Tools and Applications,2014,69(3): 897-920.

        [2] Aly R,Doherty A,Hiemstra D,et al. The uncertain representation ranking framework for concept-based video retrieval[J]. Information Retrieval,2013,16(5): 557-583.

        [3]Alghamdi N S,Rahayu W,Pardede E. Semantic-based structural and content indexing for the efficient retrieval of queries over large XML data repositories[J]. Future Generationtionships of thesaurus[D]. Beijing: Chinese Academy of Agricultural Sciences,2011.

        [12] Li Yuhua,Bandar Z A,McLean D A. An approach for measuring semantic similarity between words using multiple information sources[J]. IEEE Transactions on Knowledge and Data Engineering,2003,15(4): 871-882.

        [13] Liu Hongzhe,Bao Hong,Xu De. Concept vector for similarity measurement based on hierarchical domain structure[J]. Computing and Informatics,2012,30(5): 881-900.

        [14] Jansen B J. An investigation into the use of simple queries on Web IR systems[J]. Information Research: An Electronic Journal,2000,6(1): 1-10.

        [15] Ali R,Beg M M S. An overview of Web search evaluation methods[J]. Computers&Electrical Engineering,2011,37(6): 835-848.

        [16] Chignell M H,Gwizdka J,Bodner R C. Discriminating metasearch: a framework for evaluation[J]. Information Processing &Management,1999,35(3): 337-362.

        [17] Dwivedi S K,Goutam R K. Evaluation of search engines using search length[C]//Proceedings of the International Conference of Computer Modeling and Simulation,2011: 502-505.

        [18] Scaiella U,F(xiàn)erragina P,Marino A,et al. Topical clustering of search results[C]//Proceedings of the 5th ACM International Conference on Web Search and Data Mining,Seattle,USA,F(xiàn)eb 8-12,2012. New York,USA:ACM,2012: 223-232.

        附中文參考文獻(xiàn):

        [6]席磊,鄭光,汪強(qiáng),等.基于個(gè)性化特征的無(wú)公害農(nóng)產(chǎn)品目錄智能服務(wù)系統(tǒng)[J].農(nóng)業(yè)工程學(xué)報(bào),2013,29(20): 142-150.

        [11]熊霞.基于敘詞表詞間關(guān)系的領(lǐng)域信息檢索[D].北京:中國(guó)農(nóng)業(yè)科學(xué)院,2011.

        HAN Qichen was born in 1992. He is an M.S. candidate at School of Engineering Science,University of Chinese Academy of Sciences. His research interests include information retrieval and personalized recommendation.

        韓其琛(1992—),男,山西太原人,中國(guó)科學(xué)院大學(xué)工程科學(xué)學(xué)院碩士研究生,主要研究領(lǐng)域?yàn)樾畔z索,個(gè)性化推薦。

        LI Dongmei was born in 1972. She received the Ph.D. degree in artificial intelligence from Beijing Jiaotong University in 2014. Now she is an associate professor at Beijing Forestry University. Her research interests include artificial intelligent,knowledge engineering and semantic Web.

        李冬梅(1972—),女,黑龍江大慶人,2014年于北京交通大學(xué)獲得博士學(xué)位,現(xiàn)為北京林業(yè)大學(xué)信息學(xué)院副教授,主要研究領(lǐng)域?yàn)槿斯ぶ悄?,知識(shí)工程,語(yǔ)義Web。

        Semantic Model with Thesaurus for Forestry Information Retrieval*

        HAN Qichen1,2,LI Dongmei1+
        1. School of Information Science and Technology,Beijing Forestry University,Beijing 100083,China
        2. School of Engineering Science,University of Chinese Academy of Sciences,Beijing 100049,China
        +Corresponding author: E-mail: lidongmei@bjfu.edu.cn

        HAN Qichen,LI Dongmei. Semantic model with thesaurus for forestry information retrieval. Journal of Frontiers of Computer Science and Technology,2016,10(1):122-129.

        Abstract:With the speedy development of the Internet,keyword-based retrieval method has failed to meet the needs of people. The semantic relationship within the thesaurus can improve recall ratio and precision ratio. If the thesaurus is introduced into current network information retrieval tool,the search technology would be definitely improved with the aid of rich semantic relationship of the thesaurus. This paper proposes an idea of calculating the similarity based on the relationship among the terms in the thesaurus. Utilizing query extension,this paper designs a semantic model with thesaurus for forestry information retrieval(SMTFIR). Finally,this paper compares SMTFIR,Baidu and the method used in agricultural thesaurus with two category realms in forestry thesaurus. The results show that SMTFIR can improve keyword-based retrieval method more effectively using thesaurus. In addition,SMTFIR is also suitable to other domains and provides a new thought for applying thesaurus in network information system. Key words: forestry thesaurus; semantic retrieval; similarity computation; query extension; webpage grabbing

        文獻(xiàn)標(biāo)志碼:A

        中圖分類號(hào):TP274

        doi:10.3778/j.issn.1673-9418.1502017

        日韩a级精品一区二区| 一区二区三区视频免费观看在线| 侵犯了美丽丰满人妻中文字幕| 久久精品第九区免费观看| 正在播放东北夫妻内射| 欧美精品在线一区| 视频一区中文字幕亚洲| 亚洲精品视频1区2区| 97在线观看播放| 国产女在线| 美女福利一区二区三区在线观看| 色综合悠悠88久久久亚洲| 精品无码无人网站免费视频 | 亚洲欧洲日产国码无码| 91国产精品自拍视频| 亚洲精品乱码久久久久蜜桃| 全部孕妇毛片| 久久免费精品国产72精品剧情| 久久精品亚洲成在人线av| 伊人久久综合无码成人网| 国产av精国产传媒| 亚洲狼人社区av在线观看| 丰满人妻被持续侵犯中出在线| 丰满少妇作爱视频免费观看| 老头巨大挺进莹莹的体内免费视频| 亚洲AV乱码毛片在线播放| 日本不卡视频一区二区三区| 乱码丰满人妻一二三区| 久久精品无码鲁网中文电影| av中文字幕在线资源网| 伊人久久这里只有精品 | 成人区人妻精品一区二区不卡网站 | 蜜桃臀无码内射一区二区三区| japanese色国产在线看视频| 男男啪啪激烈高潮无遮挡网站网址 | 最近中文字幕精品在线| 欧美人与禽2o2o性论交| 少妇精品无码一区二区三区| 亚洲在线一区二区三区| 丰满少妇高潮惨叫久久久| 精品人人妻人人澡人人爽牛牛|