亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        水利元數(shù)據(jù)動(dòng)態(tài)分面搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)

        2017-10-23 02:22:38孔盛球杜丙帥
        關(guān)鍵詞:面值檢索水利

        孔盛球,馮 鈞,杜丙帥

        (河海大學(xué) 計(jì)算機(jī)與信息學(xué)院,江蘇 南京 211100)

        水利元數(shù)據(jù)動(dòng)態(tài)分面搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)

        孔盛球,馮 鈞,杜丙帥

        (河海大學(xué) 計(jì)算機(jī)與信息學(xué)院,江蘇 南京 211100)

        針對(duì)大量水利元數(shù)據(jù)共享需要構(gòu)建搜索引擎的問(wèn)題,普通用戶對(duì)水利元數(shù)據(jù)領(lǐng)域知識(shí)的認(rèn)知存在缺陷,需要引入一種探索式的訪問(wèn)技術(shù)準(zhǔn)確地表達(dá)出檢索請(qǐng)求,以實(shí)現(xiàn)元數(shù)據(jù)檢索功能。分面搜索是一種探索式的檢索方式,根據(jù)物體的多維屬性,對(duì)搜索結(jié)果進(jìn)行聚類,所以用戶可以選擇分面值對(duì)搜索結(jié)果篩選過(guò)濾。隨著水利元數(shù)據(jù)的增加及水利元數(shù)據(jù)異構(gòu)化程度的提高,分面的數(shù)量也不斷增加。如果把所有的分面都顯示給用戶,容易給用戶選擇分面帶來(lái)困難。為了將探索式的檢索方式運(yùn)用于水利元數(shù)據(jù)搜索領(lǐng)域,針對(duì)水利元數(shù)據(jù)分面過(guò)多的問(wèn)題,提出了一種基于保持率的分面推薦算法,設(shè)計(jì)和實(shí)現(xiàn)了水利元數(shù)據(jù)的動(dòng)態(tài)分面搜索引擎。實(shí)驗(yàn)結(jié)果表明,所提出的算法能夠有效地提高用戶的檢索效率。

        水利元數(shù)據(jù);分面搜索;保持率;分面推薦

        0 引 言

        隨著水利信息化的發(fā)展,各級(jí)部門都積累了大量的水利信息數(shù)據(jù)。為了更好地共享水利信息數(shù)據(jù),以元數(shù)據(jù)的形式對(duì)其進(jìn)行描述。通過(guò)對(duì)水利信息數(shù)據(jù)的整合,構(gòu)建元數(shù)據(jù)信息的發(fā)布、發(fā)現(xiàn)的目錄服務(wù),實(shí)現(xiàn)水利信息資源的高效共享[1]。

        傳統(tǒng)的數(shù)據(jù)檢索以關(guān)鍵字檢索為主,但是在水利元數(shù)據(jù)檢索領(lǐng)域,引入一種探索式的檢索方式有助于用戶表達(dá)正確的檢索請(qǐng)求。分面檢索也被稱為引導(dǎo)的導(dǎo)航式搜索,是一種流行的和直觀的交互模式,通過(guò)多維的數(shù)據(jù)讓用戶理解、分析和導(dǎo)航以發(fā)現(xiàn)和挖掘應(yīng)用[2]。分面是指事物的維度,一個(gè)物體是多維的,比如一本書有主題、價(jià)格、作者等維度,從不同的維度看一個(gè)物體將會(huì)得到不同的結(jié)果。用戶通過(guò)輸入關(guān)鍵字得到初步搜索結(jié)果集,系統(tǒng)從不同的維度對(duì)搜索結(jié)果進(jìn)行聚類,并將聚類結(jié)果以分面術(shù)語(yǔ)的形式展示給用戶。分面搜索能夠?qū)⒈凰阉鲗?duì)象的關(guān)鍵屬性(分面術(shù)語(yǔ))返回給用戶,引導(dǎo)用戶選擇分面,過(guò)濾搜索結(jié)果。

        水利行業(yè)各級(jí)部門都產(chǎn)生了大量的水利業(yè)務(wù)數(shù)據(jù),數(shù)據(jù)是寶貴的資源,如何對(duì)日益增長(zhǎng)的水利數(shù)據(jù)資源進(jìn)行高效的管理和利用已成為水利信息化必須解決的問(wèn)題[3]。水利元數(shù)據(jù)動(dòng)態(tài)分面搜索引擎能夠很好地實(shí)現(xiàn)水利信息資源的共享。對(duì)各級(jí)部門采集的水利元數(shù)據(jù)進(jìn)行匯總,將水利元數(shù)據(jù)以對(duì)象的形式存儲(chǔ)于倒排索引,通過(guò)分面對(duì)水利元數(shù)據(jù)進(jìn)行劃分,能夠有效地提高用戶的檢索效率。傳統(tǒng)的水利信息資源檢索以關(guān)鍵字檢索為主,但是這種方式的分類效果不明顯。當(dāng)用戶輸入某個(gè)關(guān)鍵字時(shí),系統(tǒng)會(huì)將包含這個(gè)關(guān)鍵字的所有檢索結(jié)果都返回給用戶,而用戶查詢目的可能很明確,僅僅只需要查詢某個(gè)“負(fù)責(zé)單位”下包含這個(gè)關(guān)鍵字的水利元數(shù)據(jù),因此關(guān)鍵字檢索需要一種輔助的檢索手段來(lái)提高檢索效率。分面檢索以關(guān)鍵字檢索為基礎(chǔ),能夠很好地引導(dǎo)用戶對(duì)搜索結(jié)果進(jìn)行篩選,讓用戶根據(jù)自己的檢索意圖更好地向系統(tǒng)表達(dá)檢索請(qǐng)求,提升用戶的檢索體驗(yàn)。

        文中將導(dǎo)航式的搜索方式-分面搜索引入水利元數(shù)據(jù)檢索領(lǐng)域,針對(duì)水利元數(shù)據(jù)異構(gòu)程度大而引發(fā)的分面過(guò)多的問(wèn)題,提出一種基于保持率的分面推薦算法,并通過(guò)實(shí)驗(yàn)驗(yàn)證該方法的有效性。

        1 分面檢索技術(shù)

        分面檢索(Faceted Search,分面搜索)最初是一種在圖書館管理領(lǐng)域中常用的將多維信息空間進(jìn)行正交劃分的分類體系[4-6],后逐漸發(fā)展為在結(jié)構(gòu)化數(shù)據(jù)集上的探索式檢索技術(shù)[7]。用戶通過(guò)發(fā)送檢索請(qǐng)求使系統(tǒng)產(chǎn)生初步搜索結(jié)果集,從不同的維度對(duì)初步檢索結(jié)果集進(jìn)行聚類產(chǎn)生分面與分面值,通過(guò)分面推薦算法為用戶推薦最理想的分面術(shù)語(yǔ)。分面術(shù)語(yǔ)能夠引導(dǎo)用戶表達(dá)正確的檢索請(qǐng)求,用戶通過(guò)選擇分面來(lái)找到預(yù)期的檢索結(jié)果。由于它的便捷性,在電子商務(wù)[8]、圖書館、音樂(lè)、電影等眾多領(lǐng)域應(yīng)用廣泛。例如,馬蒂·赫斯特研究的Flamenco(弗拉明戈)項(xiàng)目[9]成功地運(yùn)用了層次分面的技術(shù),具有瀏覽和檢索相結(jié)合的界面。文獻(xiàn)[10]介紹了分面搜索在軟件開(kāi)發(fā)領(lǐng)域的應(yīng)用。還有像RELATION BROWSER、Freebase Parallax、mSpace、Dynacet[11]等都是成功運(yùn)用分面檢索的例子。

        分面檢索中有兩個(gè)重要的概念:分面和分面值,分面和分面值統(tǒng)稱為分面術(shù)語(yǔ)。分面指對(duì)象的維度,比如在水利元數(shù)據(jù)中有單位和聯(lián)系人兩個(gè)維度,這兩個(gè)維度是水利元數(shù)據(jù)的關(guān)鍵屬性,可以將它們作為水利元數(shù)據(jù)的分面。分面能夠通過(guò)物體的重要屬性對(duì)物體進(jìn)行分類[12]。分面下具體的值稱為分面值,如聯(lián)系人這個(gè)分面下有個(gè)值叫張三,那么張三就叫分面“聯(lián)系人”下的分面值。分面搜索就是指對(duì)初步搜索結(jié)果集聚類,生成分面和分面值,用戶通過(guò)選定分面和分面值,或者去除已選分面和分面值來(lái)縮小或擴(kuò)大搜索結(jié)果范圍,找到用戶想要的搜索結(jié)果。

        2 分面推薦算法

        為了給用戶推薦合適的分面,需要使用合理的分面推薦算法。結(jié)合國(guó)內(nèi)外相關(guān)文獻(xiàn),分面推薦算法主要有以下幾種:選取覆蓋率高的分面進(jìn)行推薦、選取信息熵大的分面進(jìn)行推薦、選取相關(guān)性高的分面進(jìn)行推薦。

        2.1基于覆蓋率的分面推薦算法

        基于覆蓋率的分面推薦算法在分面檢索系統(tǒng)中比較常用。當(dāng)用戶輸入關(guān)鍵字或其他查詢請(qǐng)求時(shí),系統(tǒng)將返回初步檢索結(jié)果集。將初步檢索結(jié)果集聚類到多個(gè)分面中,每個(gè)分面下都有搜索結(jié)果的數(shù)量。如果一個(gè)分面包含的搜索結(jié)果數(shù)量越高,用戶所需要的搜索結(jié)果在這個(gè)分面下的概率也將會(huì)越高。由于初步檢索結(jié)果集是由用戶提交的檢索請(qǐng)求得到的,如果一個(gè)分面下覆蓋的初步檢索結(jié)果集越大,這個(gè)分面可能與用戶提交的初步檢索請(qǐng)求關(guān)聯(lián)越緊密;并且將搜索結(jié)果集大的分面推薦給用戶可以避免用戶選擇分面后搜索結(jié)果為空的現(xiàn)象。綜上,將覆蓋搜索結(jié)果集大的分面推薦給用戶是比較合理的??梢酝ㄟ^(guò)覆蓋率來(lái)衡量分面下覆蓋的初步檢索結(jié)果集的大小,公式如下:

        (1)

        其中,f(B)表示分面B的覆蓋率;hits(B)表示分面B下覆蓋初步檢索結(jié)果集的數(shù)量;hits表示總的初步搜索結(jié)果集的數(shù)量。

        通過(guò)式(1)計(jì)算出每個(gè)分面的覆蓋率,然后將覆蓋率高的前幾個(gè)分面推薦給用戶。

        2.2基于信息熵的分面推薦算法

        Cubranic D等開(kāi)發(fā)了Polestar分面檢索系統(tǒng),提出了一種基于統(tǒng)計(jì)的分面導(dǎo)航模型[13],在這個(gè)模型中提到了所推薦的分面能對(duì)檢索空間進(jìn)行有效劃分。能夠?qū)z索空間進(jìn)行有效劃分,要求檢索結(jié)果均勻地分布在分面的每個(gè)分面值當(dāng)中,可以通過(guò)信息熵來(lái)衡量:

        Hc=∑p(ci)logp(ci)

        (2)

        其中,Hc表示分面C的信息熵;p(ci)表示分面值ci的覆蓋率,指分面值ci下的搜索結(jié)果總數(shù)占分面C下搜索結(jié)果總數(shù)的比率。

        2.3基于相關(guān)性的分面推薦算法

        在用戶輸入關(guān)鍵字后,系統(tǒng)將返回初步檢索結(jié)果集和推薦的分面。用戶通過(guò)選擇分面縮小檢索結(jié)果集的范圍,同時(shí)也要刷新被推薦的分面。當(dāng)用戶選擇某個(gè)分面后,下一步被推薦的分面應(yīng)該是與用戶所選擇的分面最相關(guān)的前幾個(gè)分面。文獻(xiàn)[9]認(rèn)為,分面與分面之間是存在相關(guān)性的,而且這個(gè)相關(guān)性可以度量。對(duì)于半結(jié)構(gòu)化文件XML,節(jié)點(diǎn)以樹(shù)狀形式呈現(xiàn),主節(jié)點(diǎn)與父節(jié)點(diǎn)存在一定的關(guān)系,同樣父節(jié)點(diǎn)與子節(jié)點(diǎn)也存在一定的關(guān)聯(lián)關(guān)系。分面其實(shí)與XML文件中的節(jié)點(diǎn)相似,因此可以類推出分面與分面之間也存在一定的關(guān)聯(lián)關(guān)系。文獻(xiàn)[9]認(rèn)為分面之間的相關(guān)性可以用式(3)度量:

        (3)

        其中,xsd表示分面i與分面j的相關(guān)性;Xi表示分面i下的搜索結(jié)果數(shù)量;Yj表示分面j下的搜索結(jié)果數(shù)量;XiYj表示同時(shí)在分面i和分面j下的搜索結(jié)果數(shù)量。

        從式(3)可以看出,當(dāng)XiYj越大,計(jì)算出的分面相關(guān)性就越高,所以式(3)的核心思想是如果兩個(gè)分面中共有的搜索結(jié)果數(shù)量越多,那么這兩個(gè)分面的相關(guān)性就越高。

        3 基于保持率的分面推薦算法

        現(xiàn)有的分面推薦算法基本上是從覆蓋率、信息熵或者相關(guān)性這幾個(gè)角度出發(fā)。文獻(xiàn)[14]描述了一種基于檢索樹(shù)的分面推薦算法;文獻(xiàn)[15]通過(guò)對(duì)用戶的檢索日志分析來(lái)推薦分面。由于水利元數(shù)據(jù)異構(gòu)程度大,數(shù)據(jù)類型復(fù)雜,僅使用現(xiàn)有的分面推薦算法不能獲得很好的推薦效果。在傳統(tǒng)分面推薦算法的基礎(chǔ)上提出一種基于保持率的分面推薦算法。在用戶分面檢索的過(guò)程中,當(dāng)用戶選定A分面時(shí),會(huì)出現(xiàn)兩種情況,某些分面下的搜索結(jié)果數(shù)量將迅速減少,某些分面下的搜索結(jié)果數(shù)量幾乎保持不變。對(duì)于第一種情況,認(rèn)為這類分面相對(duì)于分面A的保持率較低;第二種情況則認(rèn)為這類分面相對(duì)于分面A的保持率較高。

        通過(guò)保持率來(lái)衡量用戶所選分面與待推薦分面的關(guān)聯(lián)程度。當(dāng)用戶選擇分面A,這時(shí)待推薦分面中有兩個(gè)分面,分面B和分面C,其中分面B對(duì)于分面A的保持率較高,而分面C則較低。用戶選定分面A沒(méi)有對(duì)分面B產(chǎn)生很大的影響,由此可見(jiàn)分面A與分面B這兩個(gè)篩選條件比較接近,所以相關(guān)性較高;相反用戶選定分面A對(duì)分面C產(chǎn)生了很大的影響,分面A和分面C這兩個(gè)篩選條件存在很大的區(qū)別,所以分面A與分面C的相關(guān)性應(yīng)該較低。在分面檢索過(guò)程中,當(dāng)用戶選定分面A時(shí),計(jì)算所有待推薦分面相對(duì)于分面A的保持率,將保持率高的分面推薦給用戶。分面B相對(duì)于分面A的保持率計(jì)算如下:

        (4)

        其中,C(B)表示分面B下的搜索結(jié)果數(shù)量;C(B/A=ai)表示當(dāng)用戶選定分面A并且選擇分面A下的分面值ai時(shí)分面B下的搜索結(jié)果數(shù)量。

        使用保持率推薦分面,能夠在大量的異構(gòu)數(shù)據(jù)中計(jì)算分面之間的相關(guān)性。但是分面A保持率高,其包含的搜索結(jié)果數(shù)量不一定大。如果把搜索結(jié)果數(shù)量少的分面推薦給用戶會(huì)影響用戶的檢索體驗(yàn),因此提出分面推薦算法將保持率與覆蓋率相結(jié)合:

        (5)

        其中,第一部分表示分面B的覆蓋率,用α表示其權(quán)重;第二部分是保持率,用β表示其權(quán)重;α與β的取值由被搜索的數(shù)據(jù)特征決定,可以通過(guò)實(shí)驗(yàn)獲得。

        基于保持率和覆蓋率的分面推薦算法流程如下:

        Facets推薦算法。

        輸入:用戶所選分面值;

        輸出:被推薦的分面集。

        用戶輸入關(guān)鍵詞k,產(chǎn)生初步檢索結(jié)果集D

        按覆蓋率推薦第一組分面集R

        IF(用戶選擇分面A下的分面值ai)

        FOR(i=0;i

        計(jì)算Score(Bi);

        ENDFOR

        對(duì)分面Bi從高到低排序,推薦前4個(gè)分面

        ENDIF

        第一次分面推薦依據(jù)分面的覆蓋率,后續(xù)的分面檢索過(guò)程中,用戶選定分面A下的分面值ai,通過(guò)上述算法計(jì)算所有待推薦分面B的Score(Bi),并將分值最高的前4個(gè)分面推薦給用戶。

        4 面向水利元數(shù)據(jù)動(dòng)態(tài)分面搜索引擎系統(tǒng)設(shè)計(jì)

        一個(gè)分面檢索系統(tǒng)為一個(gè)物體分配了多個(gè)分類模式,并且用多種方式來(lái)表現(xiàn)這個(gè)物體,而不是對(duì)一個(gè)物體用預(yù)定義和簡(jiǎn)單的方式來(lái)組織[16]。有些分面檢索系統(tǒng)將分面固定為常用的幾個(gè),分面是不會(huì)發(fā)生變化的,隨著用戶的選擇,顯示給用戶的分面將會(huì)越來(lái)越少。動(dòng)態(tài)分面檢索系統(tǒng)是針對(duì)被搜索對(duì)象存在大量分面而設(shè)計(jì)的,用戶每選定一個(gè)分面都會(huì)重新推薦最合適的四個(gè)分面。相對(duì)于靜態(tài)分面檢索系統(tǒng)而言,動(dòng)態(tài)分面檢索系統(tǒng)對(duì)異構(gòu)數(shù)據(jù)資源有很好的處理效果。

        圖1為面向水利元數(shù)據(jù)動(dòng)態(tài)分面搜索引擎系統(tǒng)的結(jié)構(gòu)框架圖,劃分為索引模塊、檢索模塊和結(jié)果顯示模塊。以Lucene為開(kāi)源搜索框架,對(duì)水利元數(shù)據(jù)進(jìn)行索引,從索引中取出分面術(shù)語(yǔ),通過(guò)分面推薦算法為用戶推薦分面。在用戶檢索過(guò)程中,使用向量空間模型對(duì)搜索結(jié)果進(jìn)行排序。

        圖1 分面檢索系統(tǒng)結(jié)構(gòu)框架

        4.1水利元數(shù)據(jù)

        元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù),水利元數(shù)據(jù)指描述水利對(duì)象的數(shù)據(jù)。水利信息資源元數(shù)據(jù)包含了對(duì)水利信息資源描述的全集,對(duì)水利信息行業(yè)各單位的水利信息資源進(jìn)行匯總,將水利信息資源以水利元數(shù)據(jù)的形式描述,使用半結(jié)構(gòu)化數(shù)據(jù)XML作為水利元數(shù)據(jù)的載體。使用水利元數(shù)據(jù)描述水利信息資源具有結(jié)構(gòu)統(tǒng)一、易于存儲(chǔ)等優(yōu)勢(shì)。

        水利元數(shù)據(jù)是對(duì)水利信息資源的抽象提取,使用半結(jié)構(gòu)化數(shù)據(jù)XML作為水利元數(shù)據(jù)的載體,整個(gè)XML文檔可以抽象為一棵節(jié)點(diǎn)樹(shù),每個(gè)節(jié)點(diǎn)帶有一定的語(yǔ)義關(guān)系。水利元數(shù)據(jù)的屬性值存放在葉子節(jié)點(diǎn),通過(guò)對(duì)應(yīng)的路徑能夠查找到對(duì)應(yīng)的水利元數(shù)據(jù)的屬性值。在分面檢索系統(tǒng)中,通過(guò)對(duì)應(yīng)的路徑把元數(shù)據(jù)的相關(guān)屬性提取出來(lái),封裝成一個(gè)對(duì)象,建立到索引中。

        4.2分面推薦模塊

        動(dòng)態(tài)分面檢索系統(tǒng)對(duì)異構(gòu)數(shù)據(jù)資源有很好的處理效果,并且能夠給用戶提供良好的體驗(yàn)。靜態(tài)分面檢索將分面固定于檢索頁(yè)面,顯示給用戶的分面是固定的,并且隨著用戶對(duì)分面的選擇,固定于檢索頁(yè)面上的分面數(shù)量也會(huì)不斷減少。動(dòng)態(tài)分面檢索系統(tǒng)中,前臺(tái)顯示給用戶的分面是不固定的,每次給用戶顯示N個(gè)分面,隨著用戶的選擇,只要系統(tǒng)后臺(tái)分面?zhèn)€數(shù)足夠,前臺(tái)顯示給用戶的分面?zhèn)€數(shù)還是N個(gè)。針對(duì)異構(gòu)數(shù)據(jù)資源產(chǎn)生分面過(guò)多的現(xiàn)象,可以使用動(dòng)態(tài)分面技術(shù)為用戶推薦最合適的前幾個(gè)分面,而其他分面則隱藏在后臺(tái)不予顯示。

        動(dòng)態(tài)分面搜索引擎關(guān)鍵在于如何實(shí)現(xiàn)分面推薦。每次系統(tǒng)為用戶顯示搜索結(jié)果時(shí),都會(huì)對(duì)搜索結(jié)果進(jìn)行聚類,聚類后可能會(huì)產(chǎn)生多個(gè)分面。而動(dòng)態(tài)分面搜索引擎要求每次搜索結(jié)果的刷新都需要對(duì)分面也進(jìn)行刷新,而且被推薦的分面是最適合用戶的前幾個(gè)分面。分面推薦模塊的流程如圖2所示。

        使用Lucene作為檢索框架,Lucene作為Apache開(kāi)源檢索框架,提供了全文檢索功能。Lucene支持將文本信息建立成倒排索引,同時(shí)能夠在前臺(tái)對(duì)索引進(jìn)行檢索。在建立索引時(shí),需要對(duì)被設(shè)定為分面的元數(shù)據(jù)屬性進(jìn)行標(biāo)記。由于動(dòng)態(tài)分面搜索引擎包含的分面數(shù)量較大,而且隨著水利元數(shù)據(jù)源源不斷地加入到索引,分面數(shù)量還會(huì)不斷增長(zhǎng)。雖然動(dòng)態(tài)分面檢索系統(tǒng)能夠很好地為用戶推薦合適的分面,但隨著分面數(shù)量的過(guò)多增加,將導(dǎo)致系統(tǒng)檢索效率的降低,影響用戶的檢索體驗(yàn)。為此,需要對(duì)索引中被標(biāo)記的分面設(shè)置一個(gè)上限值,并且對(duì)所有不同種類水利元數(shù)據(jù)進(jìn)行統(tǒng)一分析,抽取出關(guān)鍵屬性設(shè)置為分面。

        圖2 分面推薦流程

        4.3動(dòng)態(tài)分面搜索引擎系統(tǒng)實(shí)現(xiàn)

        將文中算法運(yùn)用于實(shí)際項(xiàng)目中,開(kāi)發(fā)了面向水利元數(shù)據(jù)的動(dòng)態(tài)分面搜索引擎,系統(tǒng)截圖如圖3所示。

        從圖3可以看出,左邊為分面檢索欄。用戶在輸入“水庫(kù)工程”關(guān)鍵字后得到初步檢索結(jié)果集,并且在分面檢索欄顯示被推薦的分面。用戶可以選擇分面檢索欄中的具體分面值對(duì)檢索結(jié)果集進(jìn)行過(guò)濾,同時(shí)刷新分面檢索欄,重新推薦分面,直到用戶找到滿意的搜索結(jié)果為止。

        將文中算法使用在面向水利元數(shù)據(jù)動(dòng)態(tài)分面搜索引擎中。通過(guò)實(shí)驗(yàn)并且基于用戶的反饋,發(fā)現(xiàn)動(dòng)態(tài)分面搜索引擎能夠有效地提高檢索效率。被推薦的分面大部分都是用戶所需要的,因此該算法在系統(tǒng)中起到了很大的作用。

        5 實(shí)驗(yàn)分析

        通過(guò)實(shí)驗(yàn)來(lái)驗(yàn)證該算法的有效性。在此,挑選了水利對(duì)象的七個(gè)屬性作為分面,分別是:“衛(wèi)星名”、“負(fù)責(zé)單位”、“地址”、“傳感器”、“負(fù)責(zé)人”、“元數(shù)據(jù)標(biāo)準(zhǔn)名”、“職務(wù)”。分面欄只顯示四個(gè)分面供用戶選擇,雖然系統(tǒng)中一共存在七個(gè)分面,但是每次只給用戶推薦四個(gè)。根據(jù)實(shí)驗(yàn)數(shù)據(jù)的特征,實(shí)驗(yàn)過(guò)程中對(duì)分面評(píng)分式(5)中的α取值為1,β取值為0。

        圖3 分面檢索頁(yè)

        整個(gè)實(shí)驗(yàn)過(guò)程的描述如下所示:

        (1)用戶在關(guān)鍵字搜索框中輸入“北京”,系統(tǒng)推薦了四個(gè)分面顯示在分面搜索欄中,這四個(gè)分面為:地址、負(fù)責(zé)單位、傳感器、負(fù)責(zé)人。

        (2)用戶選擇“負(fù)責(zé)單位”下的“水利部水利信息中心”分面值,系統(tǒng)過(guò)濾搜索結(jié)果,并重新推薦分面:傳感器、負(fù)責(zé)人、地址、衛(wèi)星名。

        (3)用戶選擇“傳感器”下的“MODIS”分面值,用戶在第一條搜索記錄中找到所需要的搜索結(jié)果。

        對(duì)上述實(shí)驗(yàn)所采集的數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)當(dāng)用戶輸入“北京”關(guān)鍵字后,系統(tǒng)檢索出初步檢索結(jié)果集。對(duì)檢索結(jié)果集聚類后一共得出5個(gè)分面,另外2個(gè)分面中不包含檢索結(jié)果。如果根據(jù)覆蓋率利用式(1)為每個(gè)分面計(jì)算得分,結(jié)果如圖4所示。

        圖4 分面覆蓋率條形圖

        從圖中可以看出,如果僅使用覆蓋率作為分面推薦的依據(jù),5個(gè)分面得分情況將一致,所以系統(tǒng)將推薦前4個(gè)分面給用戶。

        當(dāng)用戶選擇分面“負(fù)責(zé)單位”下的“水利部水利信息中心”分面值時(shí),通過(guò)該算法得出各分面分值如圖5所示。

        如圖5所示,系統(tǒng)將優(yōu)先推薦分值高的“傳感器”與“負(fù)責(zé)人”兩個(gè)分面給用戶,并且用戶在后續(xù)的分面檢索中選定傳感器這個(gè)分面時(shí),找到了所需的檢索結(jié)果。通過(guò)分析,可以得出系統(tǒng)所推薦的分面大部分是用戶所需的,因此該算法在實(shí)踐應(yīng)用中有很大的作用。

        圖5 分面計(jì)算分值條形圖

        6 結(jié)束語(yǔ)

        針對(duì)大量水利元數(shù)據(jù),通過(guò)構(gòu)建動(dòng)態(tài)分面搜索引擎實(shí)現(xiàn)水利元數(shù)據(jù)的共享。在現(xiàn)有分面推薦算法的基礎(chǔ)上,提出了基于保持率的分面推薦算法。將該算法運(yùn)用在實(shí)際項(xiàng)目中,雖然取得了較好的效果,但仍然存在諸多不足。比如在算法效率上,需要為每個(gè)分面計(jì)算分值,會(huì)浪費(fèi)大量的時(shí)間;在分面推薦因素上缺乏考慮熱搜分面的影響。為了提高系統(tǒng)運(yùn)行的效率,后續(xù)工作中可以在用戶檢索前嘗試構(gòu)建一個(gè)分面圖,以記載每?jī)蓚€(gè)分面之間的保持率,在檢索時(shí)可以不用每次都計(jì)算分面的保持率而直接遍歷這個(gè)圖。同時(shí)對(duì)于那些被用戶經(jīng)常點(diǎn)擊的分面也應(yīng)該優(yōu)先推薦,使被推薦的分面更合理。

        [1] 馮 鈞,唐志賢,黃如春,等.水利信息資源元數(shù)據(jù)管理方法研究[J].水利信息化,2011(5):1-4.

        [2] Liberman S,Lempel R.Approximately optimal facet value selection[J].Science of Computer Programming,2014,94(1):18-31.

        [3] 成建國(guó),馮 鈞,楊 鵬,等.水利數(shù)據(jù)資源目錄服務(wù)關(guān)鍵技術(shù)研究[J].水利信息化,2014(6):18-21.

        [4] Hai Z,Wilks Y.Faceted search,social networking and interactive semantics[J].World Wide Web,2014,17(4):589-593.

        [5] Goh Y M,Giess M,McMahon C,et al.From faceted classification to knowledge discovery of semi-structured text records[M]//Foundations of computational intelligence volume 6.Berlin:Springer,2009:151-169.

        [6] Wang Q,Ramírez G,Marx M,et al.Overview of the INEX 2011 data-centric track[C]//International workshop of the initiative for the evaluation of XML retrieval.[s.l.]:[s.n.],2011:118-137.

        [7] 王 莉,高仲利.基于分面導(dǎo)航理論的RDF數(shù)據(jù)的持久化研究[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(9):130-133.

        [8] 劉逸青.基于用戶體驗(yàn)的網(wǎng)站多面搜索導(dǎo)航研究[D].上海:上海交通大學(xué),2010.

        [9] 郭力潔.XML分面搜索的關(guān)鍵技術(shù)研究[D].保定:華北電力大學(xué),2012.

        [10] Niu N,Mahmoud A,Yang X.Faceted navigation for software exploration[C]//19th international conference on program comprehension.[s.l.]:IEEE,2011:193-196.

        [11] Roy S B,Wang H,Nambiar U,et al.Dynacet:building dynamic faceted search systems over databases[C]//25th international conference on data engineering.[s.l.]:IEEE,2009:1463-1466.

        [12] Wang S Y,Zhong L,Jiang D S,et al.Facet description and searching of component resource[C]//International conference on computer science and software engineering.[s.l.]:IEEE,2008:24-32.

        [13] Dennis B M,Healey C G.Assisted navigation of complex information spaces[C]//IEEE visualization conference.[s.l.]:IEEE,2002.

        [14] 杜丙帥,李士進(jìn),馮 鈞,等.基于水利對(duì)象分類標(biāo)簽的分面推薦方法研究[J].計(jì)算機(jī)與現(xiàn)代化,2015(12):90-94.

        [15] Zwol R V,Sigurbjornsson B,Adapala R,et al.Faceted exploration of image search results[C]//Proceedings of the 19th international conference on world wide web.Raleigh,North Carolina,USA:[s.n.],2010:961-970.

        [16] Jin C,Hou H,Wu M,et al.Finding facet content on web by position inverted index[C]//Proceedings of the 2012 IEEE 14th international conference on high performance computing and communication & 2012 IEEE 9th international conference on embedded software and systems.[s.l.]:IEEE,2012:1699-1703.

        DesignandImplementationofDynamicFacetedSearchEngineforWaterConservancyMetadata

        KONG Sheng-qiu,F(xiàn)ENG Jun,DU Bing-shuai

        (College of Computer and Information,Hohai University,Nanjing 211100,China)

        Aiming at the problem that sharing of lots of water conservancy metadata needs to build a search engine,since the defects of knowledge in the field of water conservancy metadata for ordinary users,it is necessary to introduce an exploratory access technology for users to express retrieval requests exactly to realize the function of metadata retrieval.Faceted search is an exploratory way of retrieval.According to the multi-dimensional attributes of the objects,the system clusters the search results,therefore users can choose facet values to filter them.With the increase of water conservancy metadata and the isomerization of the metadata,the number of facets is also increasing.If all the facets are displayed to users,it is difficult for them to select facets.In order to use exploratory ways of retrieval in the field of water conservancy metadata searching,aiming at the problem of too many facets of water conservancy metadata,a faceted recommendation algorithm based on retention rate is proposed,and the dynamic faceted search engine of water conservancy metadata is designed and implemented.Experimental results show that it can efficiently improve the retrieval efficiency of users.

        water conservancy metadata;faceted search;retention rate;faceted recommendation

        TP301.6

        A

        1673-629X(2017)10-0151-05

        2016-11-18

        2017-03-09 < class="emphasis_bold">網(wǎng)絡(luò)出版時(shí)間

        時(shí)間:2017-07-19

        國(guó)家自然科學(xué)基金面上項(xiàng)目(61370091);國(guó)家科技支撐計(jì)劃課題(2015BAB07B01);水資源高效開(kāi)發(fā)利用重點(diǎn)專項(xiàng)經(jīng)費(fèi)資助項(xiàng)目(2016YFC0402710)

        孔盛球(1993-),男,碩士研究生,研究方向?yàn)樾畔z索;馮 鈞,博士,教授,研究方向?yàn)闀r(shí)空間數(shù)據(jù)管理、智能數(shù)據(jù)處理與數(shù)據(jù)挖掘、水利信息化。

        http://kns.cnki.net/kcms/detail/61.1450.TP.20170719.1112.074.html

        10.3969/j.issn.1673-629X.2017.10.032

        猜你喜歡
        面值檢索水利
        第一套人民幣共有12種面值
        百萬(wàn)“大”鈔
        為奪取雙勝利提供堅(jiān)實(shí)水利保障(Ⅱ)
        為奪取雙勝利提供堅(jiān)實(shí)水利保障(Ⅰ)
        水利工會(huì)
        2019年第4-6期便捷檢索目錄
        10元錢有多少種面值組合
        掉錢
        幸福家庭(2016年12期)2016-12-22 19:25:24
        專利檢索中“語(yǔ)義”的表現(xiàn)
        專利代理(2016年1期)2016-05-17 06:14:36
        水利
        江蘇年鑒(2014年0期)2014-03-11 17:09:39
        美女草逼视频免费播放| 亚洲精品国产第一区二区尤物 | 音影先锋色天堂av电影妓女久久| 亚洲av手机在线一区| 欧美性猛交xxxx乱大交极品| 国产97在线 | 中文| 成黄色片视频日本秘书丝袜| 日本激情久久精品人妻热| 在线视频观看国产色网| 在线人成免费视频69国产| 樱花AV在线无码| 久久亚洲精精品中文字幕早川悠里 | 男人一插就想射的原因| 未发育成型小奶头毛片av| 狠狠色丁香久久婷婷综合蜜芽五月 | 久久久国产乱子伦精品| 伴郎粗大的内捧猛烈进出视频观看| 日本高清在线播放一区二区三区| 亚洲白嫩少妇在线喷水| 无码中文字幕日韩专区| 黄色成人网站免费无码av| 亚洲红杏AV无码专区首页| 国产一区二区三区免费精品视频| 久久久久成人精品无码| 高清国产日韩欧美| 亚洲一区二区日韩在线| 久久久99精品成人片| 无码国产一区二区三区四区| 国产成人久久精品77777综合| 日韩av在线不卡一区二区| 欧美日韩精品久久久免费观看| 久久久精品国产亚洲成人满18免费网站| 亚洲国产精品美女久久久| 亚洲乱码中文字幕在线播放| 18分钟处破好疼哭视频在线观看| 国产精品国产三级国产专播| 青青草在线免费观看视频| 国产二区交换配乱婬| 国产成人精品电影在线观看18 | 国产喷水1区2区3区咪咪爱av| 伊人网综合|