亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合PageRank算法的Lucene評(píng)分機(jī)制改進(jìn)研究

        2015-04-25 08:13:04張禹周翔
        三明學(xué)院學(xué)報(bào) 2015年4期
        關(guān)鍵詞:搜索引擎校園網(wǎng)頁面

        張禹,周翔

        (1.福建江夏學(xué)院 電子信息科學(xué)學(xué)院,福建 福州 350108;2.閩江學(xué)院 軟件學(xué)院,福建 福州 350108)

        21世紀(jì)以來,因特網(wǎng)上的Web數(shù)量不斷增加,伴隨著近年來Web2.0理念的誕生,未來的桌面應(yīng)用可能有相當(dāng)大的一部分將轉(zhuǎn)移到Web平臺(tái)上,再加上云計(jì)算等技術(shù)的不斷完善,互聯(lián)網(wǎng)上的數(shù)據(jù)挖掘已經(jīng)凸顯出十分明顯的商業(yè)價(jià)值。搜索引擎自誕生以來就一直扮演著Web結(jié)構(gòu)挖掘者的角色,在當(dāng)前這樣一個(gè)萬維網(wǎng)高速的擴(kuò)張的時(shí)代,網(wǎng)絡(luò)用戶為了獲得準(zhǔn)確的信息資源,已經(jīng)根本離不開它。

        現(xiàn)有的搜索引擎與其誕生之初相比,無論在搜索的召回率(recall,又稱查全率)和精確度(pricision,又稱查準(zhǔn)率)方面都有了很大的進(jìn)步[1]。當(dāng)然,在部分搜索主題下,還存在著一些不完善的地方,例如:用戶在使用搜索引擎進(jìn)行搜索的過程中找到的并不完全是預(yù)期的結(jié)果,經(jīng)常會(huì)包含一些無關(guān)的頁面鏈接。更為嚴(yán)重的是,有時(shí)候這些數(shù)據(jù)還可能出現(xiàn)在返回的頁面鏈接列表的前端。這是搜索引擎開發(fā)者所不希望看到的[2]。如何有效地排除無關(guān)噪聲數(shù)據(jù),獲得盡可能準(zhǔn)確的信息,一直是搜索引擎開發(fā)者的努力方向,而解決問題的有效途徑就是通過Web挖掘技術(shù)。

        1 PageRank算法

        Web挖掘技術(shù)分為:內(nèi)容挖掘、使用挖掘與結(jié)構(gòu)挖掘[3]。Web內(nèi)容挖掘包括文本數(shù)據(jù)挖掘、多媒體數(shù)據(jù)挖掘;Web使用挖掘包括用戶訪問模式(習(xí)慣)分析與網(wǎng)站定制分析兩類;Web結(jié)構(gòu)挖掘包括網(wǎng)頁超鏈接挖掘與頁面內(nèi)在結(jié)構(gòu)挖掘[4]?,F(xiàn)有的全文搜索引擎的數(shù)據(jù)收集過程都是通過網(wǎng)絡(luò)爬蟲程序訪問鏈接來實(shí)現(xiàn)的?;谠撎攸c(diǎn),使用Web結(jié)構(gòu)挖掘技術(shù)更能有效地應(yīng)用于搜索引擎中,提高其搜索精度。

        在Web結(jié)構(gòu)挖掘中,PageRank算法是其經(jīng)典算法之一。該算法是Google搜索引擎最早用到的挖掘算法,其基本理念是利用該算法和文本鏈接標(biāo)簽,詞頻統(tǒng)計(jì)等因素相結(jié)合的方法對(duì)由搜索主題檢索出的海量結(jié)果進(jìn)行排序,根據(jù)PageRank值的大小來判別頁面等級(jí)值高低,讓重要程度更高的頁面排在所有結(jié)果的前面[5]。

        PageRank算法的思想基于以下幾個(gè)假設(shè)條件:(1)某一頁面被其他頁面引用次數(shù)多,那么,該頁面可能具備很高的重要程度;(2)某一頁面雖然被其他頁面引用的次數(shù)有限,但是如果引用它的頁面中存在著已經(jīng)被評(píng)價(jià)為重要等級(jí)的網(wǎng)頁,則該頁面也有可能是重要的;(3)任何一個(gè)頁面的重要程度都是被平均地分配給它所引用的頁面去;(4)如果用戶一開始隨機(jī)地訪問Web集合中的一個(gè)頁面Web1,之后以這個(gè)頁面為基準(zhǔn)隨著頁面上的鏈接向外或者向前瀏覽其他目標(biāo)頁面(過程中不后退),那么,用戶點(diǎn)擊超鏈接瀏覽下一個(gè)頁面WebX的概率就被認(rèn)為是頁面WebX的PageRank值[6]。

        PageRank算法的定義如下:假設(shè)u是一個(gè)Web頁,F(xiàn)(u)是u指向的所有頁面集合,B(u)是所有指向 u的頁面集合,設(shè) N(u)=|F(u)|是從 u發(fā)出的鏈接數(shù) ,c(其值小于 1)是一個(gè)歸一化因子(以Google為例,取的是 0.85),則 u的PageRank值的定義公式[7]如式(1):

        PageRank算法的主要缺點(diǎn)是在于它的隨機(jī)特性,其算法思想是基于用戶以某個(gè)頁面為起點(diǎn)訪問該頁面上所有鏈接的幾率相等這一假設(shè),因此一個(gè)頁面的重要性被均勻分布并傳遞到它所引用的頁面[8]。正因?yàn)橹匾缘钠骄峙涠赡芤鹬黝}相關(guān)度高的頁面與相關(guān)度低的頁面被同等對(duì)待,即過分注重鏈接的出入度,從而在相當(dāng)程度上導(dǎo)致主題偏移現(xiàn)象的出現(xiàn)。

        2 Lucene框架

        2.1 Lucene框架簡(jiǎn)介

        Lucene是基于Java的開源框架[9],是著名的Apache Jakarta中的一個(gè)主要組成部分,而且具有Apache軟件許可(ASF License)。此外,它還是一個(gè)高效率、功能完善的信息檢索庫[10]。利用Lucene框架,開發(fā)人員可以在其應(yīng)用程序中部署強(qiáng)大的索引與搜索功能,如圖1所示。

        圖1 搜索應(yīng)用程序和Lucene之間的關(guān)系

        2.2 Lucene框架下的頁面評(píng)價(jià)機(jī)制

        Lucene 對(duì)文檔的評(píng)分公式[11]如式(2):

        該公式中:d表示某一待評(píng)分的文檔;q表示某一查詢;score(q,d)就是反映文檔d關(guān)于查詢q的主題相關(guān)程度的權(quán)值;t指的是term(詞),它是搜索的基本單位,構(gòu)建該對(duì)象需要提供兩個(gè)字符串類型的參數(shù),第一個(gè)參數(shù)表示在當(dāng)前的document中查找的field的位置,另一個(gè)參數(shù)則代表了要查詢的關(guān)鍵詞;coord(q,d)表示的是某一文檔中所包含的與查詢q相關(guān)的匹配關(guān)鍵詞的個(gè)數(shù),數(shù)量越大,則該文檔所獲得的分值越大;queryNorm(q)表示當(dāng)前查詢q的方差和,它的結(jié)果不影響當(dāng)前查詢結(jié)果的排序,只是進(jìn)行歸一化處理,用于對(duì)于當(dāng)前查詢語句中的各個(gè)詞設(shè)置適合的權(quán)重,以體現(xiàn)當(dāng)前查詢的中心含義所在;getBoost()方法用于對(duì)不同的對(duì)象設(shè)置權(quán)值,表明其重要程度,其中t.getBoost()用于設(shè)置查詢語句中每個(gè)詞的權(quán)重;d.getBoost()用于在生成索引時(shí)設(shè)置某文檔的權(quán)重;f.getBoost()用于在生成索引時(shí)設(shè)置域的權(quán)重。 queryNorm(q)公式[12]如式(3)。

        tf(t in d)表示詞t在當(dāng)前文檔d中出現(xiàn)的頻率 ,idf(t)用于表示詞t在索引中各文檔中出現(xiàn)的頻率,norm(t,d)表示對(duì)于文檔d的歸一化,

        式(4)中

        它表示一個(gè)域中包含的Term總數(shù)越多,也即文檔越長(zhǎng),此值越小,文檔越短,此值越大,該項(xiàng)的設(shè)置主要是為了保證篇幅短的文檔不會(huì)因?yàn)槲臋n長(zhǎng)度短的原因而使得其評(píng)分受影響,因?yàn)槠痰奈臋n,其tf值一般情況下要比篇幅長(zhǎng)的文檔小,即查詢?cè)~t在文章中的頻率小,比如,“web”這個(gè)詞在一篇1萬個(gè)詞的文檔d1中出現(xiàn)10次,而在一篇100個(gè)詞的文檔d2中出現(xiàn)9次,而按照tf來衡量的話,必然對(duì)文檔d2不公平,因而lengthNorm正是用一種反比的形式,來中和這種不公平現(xiàn)象[13]。

        然而,如果進(jìn)一步分析Lucene的評(píng)分機(jī)制,可以發(fā)現(xiàn)該機(jī)制過分注重頁面與搜索主題的匹配程度,而忽略了頁面本身的鏈接出入度,即有可能出現(xiàn)這樣的情況:一個(gè)網(wǎng)頁在某一搜索主題下,是非常重要的頁面,由它發(fā)出的超鏈接,以及外部指向它的超鏈接數(shù)量很多,但是由于該頁面中與搜索主題詞的匹配數(shù)量有限,導(dǎo)致在Lucene的評(píng)分機(jī)制下,該頁面反而不如鏈接出入度小,而與搜索主題詞匹配數(shù)量大的頁面,明顯有失公平。

        3 Lucene框架下結(jié)合PageRank的評(píng)分機(jī)制改進(jìn)

        通過對(duì)比可以發(fā)現(xiàn),Lucene框架下的評(píng)分算法,剛好可以與PageRank算法形成有效互補(bǔ),即PageRank算法過分關(guān)注于鏈接出入度為標(biāo)志的頁面權(quán)威度,忽略了搜索主題,產(chǎn)生主題漂移現(xiàn)象;Lucene的評(píng)分算法過分關(guān)注主題匹配,忽略了鏈接出入度。這里,可以考慮以Lucene評(píng)分機(jī)制為主體,結(jié)合PageRank算法,進(jìn)行改進(jìn)。

        在第1節(jié)中已經(jīng)描述過了PageRank的形式化公式,如式(1)所示。這里可將Lucene中評(píng)價(jià)頁面的權(quán)值表示為 Score(u)引入式(1)并令

        可得:

        此公式即為結(jié)合PageRank算法的Lucene評(píng)分改進(jìn)公式,其中c為歸一化因子,取值為0.85,PL(u)即為頁面u關(guān)于查詢主題q的最后權(quán)值得分。

        該權(quán)值的求解過程主要是通過將Lucene評(píng)分值加入到PageRank的迭代過程中去,并利用歸一化因子c,得到最后收斂的PL值。這里每個(gè)網(wǎng)頁的PR初值取為1。

        4 校園網(wǎng)平臺(tái)下的算法應(yīng)用測(cè)試

        4.1 應(yīng)用測(cè)試平臺(tái)構(gòu)建

        算法應(yīng)用測(cè)試平臺(tái)是一個(gè)以采用J2EE架構(gòu),結(jié)合Lucene開源程序包開發(fā)的校園網(wǎng)搜索引擎,測(cè)試數(shù)據(jù)來自于網(wǎng)絡(luò)爬蟲程序抓取的某高校校園網(wǎng)內(nèi)的Web數(shù)據(jù)集。平臺(tái)架構(gòu)如圖2所示。

        4.2 基于PageRank算法的評(píng)分流程

        該系統(tǒng)的評(píng)分流程圖如圖3所示。

        圖2 校園網(wǎng)搜索平臺(tái)架構(gòu)

        圖3 系統(tǒng)評(píng)分流程圖

        4.3 測(cè)試結(jié)果與分析

        實(shí)驗(yàn)選擇了8個(gè)特征性比較明顯的二級(jí)學(xué)院網(wǎng)站主頁作為測(cè)試標(biāo)記,將其名稱上的特征詞作為搜索主題。以學(xué)校內(nèi)的二級(jí)學(xué)院——電子信息科學(xué)學(xué)院為例,其最明顯的特征詞是“電子”。在校園網(wǎng)內(nèi)搜索 “電子”,同時(shí)考慮主題契合度與頁面權(quán)威度,只要頁面結(jié)構(gòu)合理,最理想的搜索結(jié)果應(yīng)該是電子信息科學(xué)學(xué)院的網(wǎng)站主頁(其他二級(jí)學(xué)院的情況以此類推)。

        選定測(cè)試標(biāo)記后,通過系統(tǒng)運(yùn)行產(chǎn)生Lucene評(píng)分機(jī)制下結(jié)合PageRank算法改進(jìn)前后的兩組實(shí)驗(yàn)測(cè)試結(jié)果,結(jié)果如表1~2所示。

        測(cè)試均在校園網(wǎng)數(shù)據(jù)環(huán)境下進(jìn)行。每一個(gè)搜索均能保證得到10個(gè)以上的搜索結(jié)果。在Lucene默認(rèn)評(píng)分機(jī)制下,頁面的評(píng)分值設(shè)為L(zhǎng),在8個(gè)標(biāo)記網(wǎng)頁中,能達(dá)到預(yù)期的只有3個(gè)(如表1所示)。分析其原因,在于Lucene過分注重內(nèi)容的匹配,而未考慮頁面的出入度。從5個(gè)未達(dá)預(yù)期的搜索結(jié)果來看,排名第一的頁面都有一個(gè)共同特點(diǎn),即這些頁面中存在著大量的搜索主題詞。像“獎(jiǎng)學(xué)金名單公示”、“論文答辯安排”這類的頁面中,包含每個(gè)學(xué)生的班級(jí)信息,這些班級(jí)信息里就包含了許多用戶搜索的主題詞,比如“電子信息工程1班”中的“電子”,“金融2班”中的“金融”等。因而在未考慮PageRank的網(wǎng)頁出入度的情況下,所得到的結(jié)果是不理想的,未能體現(xiàn)出頁面的重要性。

        表1 結(jié)合PageRank算法前系統(tǒng)測(cè)試結(jié)果

        表2 結(jié)合PageRank算法后系統(tǒng)測(cè)試結(jié)果

        表2中體現(xiàn)的是結(jié)合了PageRank算法后的搜索結(jié)果,通過分別計(jì)算PR值和L值,利用式(7),得到最終的評(píng)分值PL。從各標(biāo)記網(wǎng)頁的排序上來看,搜索結(jié)果了有了很大改觀,基本上達(dá)到了預(yù)期。二級(jí)學(xué)院的主頁在結(jié)果排序中位列第一位的數(shù)量達(dá)到了6個(gè),而剩余兩個(gè)未達(dá)到第一的主頁也排到了第二位,而且在權(quán)值上與第一位的網(wǎng)頁差距也很微小,作具體分析如下:

        (1)電子信息科學(xué)學(xué)院的主頁在搜索結(jié)果中的排名從原來的第五上升到第二,但與排名第一的“獎(jiǎng)學(xué)金名單公示”頁面的主要差距還是在主題詞匹配上,后者的Lucene評(píng)分值高出許多。因而,今后在算法改進(jìn)上,可以進(jìn)一步研究在式(6)中設(shè)置PageRank和Lucene評(píng)分的分值加權(quán)比例的問題,以避免此類問題的出現(xiàn)。

        (2)金融學(xué)院的主頁排名從第四上升到第二,明顯看出PageRank算法在權(quán)威度評(píng)價(jià)中的作用。但是,通過分析排名第一的金融學(xué)院學(xué)生社團(tuán)主頁,該頁面在未結(jié)合PageRank算法前,也未能列在結(jié)果的首位,同樣是PageRank算法的受益者。通過分析頁面的PR值可以發(fā)現(xiàn),該頁面的鏈接出入度也非常大,而且頁面中的文字與搜索主題詞“金融”切合得更緊密,也就是說,Lucene評(píng)分值仍然起到了很大的作用。從客觀的基于數(shù)據(jù)的評(píng)判角度來看,這樣的排名順序是完全合理的,也是符合算法改進(jìn)預(yù)期的。同時(shí),這一結(jié)果也表明金融學(xué)院的網(wǎng)站主頁的頁面結(jié)構(gòu)需要進(jìn)一步進(jìn)行搜索引擎優(yōu)化(SEO)改進(jìn),以提高其有效權(quán)值。

        5 結(jié)論

        PageRank算法與Lucene評(píng)分機(jī)制之間在主題相關(guān)與頁面出入度上,存在很大的互補(bǔ)特性。本文描述了一種結(jié)合PageRank算法的Lucene評(píng)分機(jī)制改進(jìn)策略,并通過在校園網(wǎng)內(nèi)利用Lucene搭建搜索引擎平臺(tái)的方式來進(jìn)行算法改進(jìn)測(cè)試。從測(cè)試的結(jié)果上來看,基本達(dá)到了預(yù)期的目標(biāo),但與理想的結(jié)果仍然存在一定的偏差,后期還需在兩種體系的分值權(quán)重設(shè)置上開展進(jìn)一步的實(shí)際研究。

        [1]HAN MIN,ZHANG XIANCHAO.Community identification based on a new approximate personalized page Rank algorithm[J].Advances in Information Sciences and Service Sciences,2012,20(4):649-657.

        [2]WU HENGLIANG,ZHANG WEIWEI.An improved page ranking algorithm for web search engine[J].International Journal of Digital Content Technology and Its Applications,2012,13(6):38-44.

        [3]黃德才,戚華春,錢能.基于主題相似度模型的 TS-PageRank 算法[J].小型微型計(jì)算機(jī)系統(tǒng),2007(3):510-514.

        [4]王冬,雷景生.一種基于 PageRank 的頁面排序改進(jìn)算法[J].微電子學(xué)與計(jì)算機(jī),2009,26(4):210-213.

        [5]謝月.網(wǎng)頁排序中PageRank算法和HITS算法的研究[D].成都:電子科技大學(xué),2012:18-25.

        [6]平衛(wèi)芳.Web數(shù)據(jù)挖掘中PageRank算法的研究與改進(jìn)[D].上海:華東理工大學(xué),2014.33-36.

        [7]陳再良,凌力,周強(qiáng).dPageRank——一種改進(jìn)的分布式PageRank算法[J].計(jì)算機(jī)應(yīng)用,2006,26(1):21-24,36.

        [8]潘偉豐,李兵,馬于濤,等.基于加權(quán) PageRank 算法的關(guān)鍵包識(shí)別方法[J].電子學(xué)報(bào),2014(11):2174-2183.

        [9]管建和,甘劍峰.基于 Lucene全文檢索引擎的應(yīng)用研究與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2007(2):489-491.

        [10]李永春,丁華福.Lucene的全文檢索的研究與應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展, 2010(2): 12-15.

        [11]張曉濱,石美紅,蔡桂洲.校園網(wǎng)搜索引擎設(shè)計(jì)[J].西安工程科技學(xué)院學(xué)報(bào), 2002(3):243-246.

        [12]高玉良.一種基于Lucene的文檔檢索系統(tǒng)的研究及應(yīng)用[D].大連:大連交通大學(xué),2012:39-43.

        [13]樊同科,謝勇.一種混合搜索算法在智能 Web 中的應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013(8):220-222,226.

        猜你喜歡
        搜索引擎校園網(wǎng)頁面
        大狗熊在睡覺
        刷新生活的頁面
        數(shù)字化校園網(wǎng)建設(shè)及運(yùn)行的幾點(diǎn)思考
        甘肅教育(2020年18期)2020-10-28 09:05:54
        試論最大匹配算法在校園網(wǎng)信息提取中的應(yīng)用
        電子制作(2019年10期)2019-06-17 11:45:26
        NAT技術(shù)在校園網(wǎng)中的應(yīng)用
        電子制作(2017年8期)2017-06-05 09:36:15
        網(wǎng)絡(luò)搜索引擎亟待規(guī)范
        VPN在校園網(wǎng)中的集成應(yīng)用
        基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
        廣告主與搜索引擎的雙向博弈分析
        同一Word文檔 縱橫頁面并存
        国产一二三四2021精字窝| 国产精品亚洲av网站| 久久亚洲av熟女国产| 我和丰满妇女激情视频| 免费1级做爰片1000部视频| 亚洲成a人片在线| 国产美女黄性色av网站| 亚洲中文字幕一区二区在线| 国产播放隔着超薄丝袜进入| 女同性黄网aaaaa片| 一区二区久久不射av| 亚洲国产综合精品一区最新| 成人片黄网站a毛片免费| 好大好深好猛好爽视频免费| 国产精品一区2区三区| 一本到亚洲av日韩av在线天堂| 亚洲精品无码不卡在线播he | 日韩av天堂一区二区| 国内女人喷潮完整视频| 精品丝袜人妻久久久久久| 免费人成视频网站在线观看不卡 | 一区二区无码精油按摩| 国产极品大奶在线视频| 久热国产vs视频在线观看| 国产99视频精品免费视频免里| 中文字幕日韩人妻在线| 少妇高潮在线精品观看| 久久久久亚洲精品中文字幕| 人妻精品丝袜一区二区无码AV| 麻豆av毛片在线观看| 国产精品天干天干| 开心婷婷五月激情综合社区 | 四虎永久在线精品免费网址| 99久久er这里只有精品18| 最新日韩av在线不卡| 成人做爰黄片视频蘑菇视频| 久久精品国产精品青草| 99久久久国产精品免费蜜臀| 成年人视频在线播放麻豆| 国产av精品一区二区三| 又硬又粗又大一区二区三区视频|