亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種對網(wǎng)頁 PageRank 算法的改進的方法

        2014-12-31 00:00:00王碩王萍
        數(shù)字化用戶 2014年11期

        【摘 要】本文提出一種對網(wǎng)頁 PageRank 算法的改進方法,通過引進常數(shù),使得PR值更加合理化,PageRank算法不對垃圾網(wǎng)站的影響做處理,引入一個鏈接參數(shù)L,滿足一定的條件下,會讓用戶經(jīng)過搜索得到的網(wǎng)頁質(zhì)量更高,考慮到網(wǎng)頁隨時間因素的影響,越新的網(wǎng)頁獲得的PR值越大,帶入時間參數(shù)t,通過分析t與新PageRank的算法之間的聯(lián)系,做出驗證。

        【關(guān)鍵詞】PageRank;信息檢索;相似度;網(wǎng)頁

        0 引言

        近年來搜索引擎技術(shù)以龐大數(shù)據(jù)容量與快速的用戶響應(yīng)贏得了人們的普遍歡迎。傳統(tǒng)搜索引擎以PageRank算法對網(wǎng)頁優(yōu)先度進行排序,被認可最多的消息權(quán)重最大,排在最前面。本文對Pagerank進行分析,再與原PageRank驗證對比。,PageRank的算法優(yōu)點在于萬維網(wǎng)彼此相連,通過多鏈接關(guān)系,每個網(wǎng)頁的權(quán)值最終通過迭代區(qū)域一個穩(wěn)定值,對于任意一個不外聯(lián)集合,總權(quán)值數(shù)一定,使得其具有收斂性。但有不足的地方,PageRank算法沒有考慮到權(quán)值沉淀的問題,因為PageRank算法的計算具有全局性,如果要算一個網(wǎng)頁的 PR 值就要算出所有網(wǎng)頁的 PR值,所以計算量很大[1];檢索主題與PageRank算法的公式計算出的 PR值無關(guān);一些頁面引用了別的網(wǎng)頁而PageRank算法不會提高了PR值。

        1基于PageRank算法的改進

        PageRank算法是google公司前期用于劃分網(wǎng)頁之前存在的鏈接價值而提出的算法,算法的核心內(nèi)容就是:如果網(wǎng)頁Ti指向一條網(wǎng)頁A的鏈接,則認為A得到了Ti的認可,如果有許多高質(zhì)量的網(wǎng)頁指向了A,就說明A很重要,這個質(zhì)量值就由PageRank值來代替,簡稱PR值[2] [3]。

        (1)

        其中::網(wǎng)頁A的PR值;:網(wǎng)頁Ti存在指向A的鏈接,且是Ti在上一次迭代時的PR值;:網(wǎng)頁Ti的外鏈數(shù)量;d:阻尼系數(shù),0

        無論怎么迭代,迭代的結(jié)果收斂,最終趨于穩(wěn)定,這是PageRank算法的重要特性,但當網(wǎng)頁的集合連接成一個環(huán),且不指向這個環(huán)外部的網(wǎng)頁,PR算法就會使權(quán)值累積變大,這種現(xiàn)象叫權(quán)值沉淀。

        要改善權(quán)值沉淀,使網(wǎng)頁消息的權(quán)值會隨著數(shù)量的增多而改變,引入常數(shù)N。N為萬維網(wǎng)中的頁面總數(shù),網(wǎng)頁A的PR值是受到鏈接源數(shù)目的影響,源數(shù)目越多,在默認每個網(wǎng)頁阻尼d都相同的情況下成正比,由于google在對PageRank算法中引入了對隨機沖浪模型的討論,不妨擬定參數(shù)L,L(A)為A的鏈接源頁面數(shù),而L[C(Ti)]表示Ti順向鏈接的子點的源網(wǎng)頁得到的公式2為:

        萬維網(wǎng)中存在獨立網(wǎng)頁,如果使用PageRank公式,那得到的PR值為(1-d),顯得過大,經(jīng)改善,N可以理解為每個頁面都有1/n的可能跳轉(zhuǎn)到其他網(wǎng)頁去,用迭代法最終得到獨立網(wǎng)頁的PR值不再為1-d,增加了內(nèi)外頁面之間的相對流動性。由公式趨于穩(wěn)定時總和為1,說明結(jié)果正確。經(jīng)過驗證新公式對權(quán)值的重要性影響比原算法好,低權(quán)值的信息排名比以前更低,高權(quán)值的信息排名更高,更容易引起人們的重視,結(jié)果符合情理,參數(shù)的設(shè)定還有待斟酌。

        同時社會上的網(wǎng)頁消息需要根據(jù)時間進行篩選,大多是定期排序更新消息的,所以設(shè)置變量t,可以盡可能的按照消息類別對權(quán)值產(chǎn)生影響。權(quán)值必須為足夠大,無可爭議變量使新算法得到的PR值盡可能的大。針對定期性進行變量的引進t,t為爬蟲訪問到網(wǎng)頁的時間與當前期刊網(wǎng)頁的更新之間的時間(天), t為Number類型 >=1。那么搜索引擎可以引入時間變量t。令K(H)=1-e-dt,d為常數(shù)。改進的Page Rank算法如公式3。

        2 結(jié)論

        本文對Page Rank算法進行了改進。構(gòu)建了一個新的Page Rank算法公式,增加了內(nèi)外頁面之間的相對流動性,權(quán)值的重要性影響上比原PageRank算法好,考慮到了時間等影響因數(shù)。比原公式更加準確,提高了Page Rank算法公式的合理性。

        參考文獻:

        [1] 劉金桂,李緒蓉.基于網(wǎng)頁相似度的 Page Rank算法的改進[J]. 淮陰工學院學報. 2006(01)

        [2] Brin S, Page L. T he anatomy of a large-scale hyper-textual Web-search engine[A]. Proc 7th International World Wide Web Conference[C]. Brisbane: SIGIR, 1998. 146- 164

        [3] Jughoo Cho, Hector G M , Lawrence P. Efficient crawling through URL ordering[A] . Proc 7th International World Wide Web Conference[C] . Brisbane: SIGIR, 1998. 220- 235.

        作者簡介:

        王碩(1993-),男,內(nèi)蒙古赤峰市,學生,本科。研究方向:通信工程專業(yè)。

        王萍 (1992-) , 女, 吉林省公主嶺市,學生, 本科。研究方向:通信工程專業(yè)。

        国产av激情舒服刺激| 中文字幕大乳少妇| 熟女乱乱熟女乱乱亚洲| 女人天堂av人禽交在线观看| 少女韩国电视剧在线观看完整| 永久免费观看的毛片手机视频| 99久久久69精品一区二区三区| 久久成人精品国产免费网站| 开心五月婷婷综合网站| 99久久婷婷国产精品网| 亚洲综合av永久无码精品一区二区 | 国产AⅤ无码久久丝袜美腿| 少妇隔壁人妻中文字幕| 国产一区二区黄色录像| 麻豆国产原创视频在线播放| 91白浆在线视频| 精品国产亚洲av久一区二区三区 | 日本熟妇hdsex视频| 国产精品天堂| 亚洲春色视频在线观看| 偷拍偷窥女厕一区二区视频| 国产成年女人特黄特色毛片免 | 国产目拍亚洲精品二区| 久久久久av综合网成人| 免费a级毛片无码a∨免费软件| 亚洲精品美女自拍偷拍 | 国产精品自在在线午夜出白浆 | 一本大道加勒比东京热| 欧美白人战黑吊| 黑人巨大白妞出浆| 亚洲AV无码一区二区三区精神| 五月婷婷开心六月激情| 日韩一区国产二区欧美三区 | 亚洲乱妇熟女爽到高潮视频高清| 亚欧中文字幕久久精品无码| 日韩亚洲欧美中文高清在线| 精品人妻夜夜爽一区二区| 无套熟女av呻吟在线观看| 夜夜添夜夜添夜夜摸夜夜摸| 香蕉成人啪国产精品视频综合网 | 曰韩少妇内射免费播放|