亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種改進(jìn)的PageRank算法—STPR

        2014-11-19 09:50:46李宜兵郭玉堂潘潔珠
        電子技術(shù)與軟件工程 2014年20期
        關(guān)鍵詞:時間相關(guān)性排序

        李宜兵 郭玉堂 潘潔珠

        摘 要 PageRank算法是一種基于網(wǎng)頁結(jié)構(gòu)的排序算法。充分考慮了網(wǎng)頁的權(quán)威性質(zhì),但是沒有考慮內(nèi)容的相關(guān)性,與此同時,對權(quán)威性的側(cè)重,導(dǎo)致主題漂移現(xiàn)象更為突出。同時PageRank算法沒有考慮時間對網(wǎng)頁鏈接的影響,在一定的時間范圍內(nèi),隨后時間推移,網(wǎng)頁的鏈接數(shù)應(yīng)該越多。本文基于網(wǎng)頁內(nèi)容和網(wǎng)頁的時間對PageRank算法進(jìn)行了改進(jìn),提出了改進(jìn)算法STPR。

        【關(guān)鍵詞】PageRank 排序 相關(guān)性 時間

        PageRank算法首先應(yīng)用于Google搜索引擎,并且取得了巨大的商業(yè)成功。是一種典型的基于web結(jié)構(gòu)的算法。統(tǒng)計每個頁面web圖的出度和入度,然后通過迭代的方法計算出每個頁面的PageRank值,PageRank值越大,表明網(wǎng)頁的權(quán)重越高。然而,PageRank算法,只注意了網(wǎng)頁的權(quán)威性,沒有考慮相關(guān)性。很有可能計算出的結(jié)果與用戶所需要的信息不大。另外PageRank算法對于網(wǎng)頁權(quán)威性計算也有缺陷。沒有考慮到時間對于網(wǎng)頁權(quán)威性的影響,例如一個很重要的網(wǎng)頁,信息發(fā)布之初也很少有其他網(wǎng)頁鏈接指向它。針對以上缺點,本文提出了一個基于網(wǎng)頁內(nèi)容和時間的改進(jìn)算法PageRank算法——STRP。

        1 PageRank算法

        PageRank 算法簡單描述如下:將Web 對應(yīng)成有向圖:G=(V,E),其中V是節(jié)點(網(wǎng)頁)集,E是邊(當(dāng)且僅當(dāng)從頁面i到頁面j存在鏈接時)Ni是頁面i指向的所有頁面的集合,Bi是指向頁面i的所有頁面的集合。則頁面i的等級PageRank 值PR(i)的計算公式如公式(1-1)所示。

        公式(1-1)有一個很大的缺陷,它是基于互聯(lián)網(wǎng)上網(wǎng)頁處于連通的狀態(tài),即從任一個網(wǎng)頁出發(fā)都能到達(dá)任一個網(wǎng)頁,然而實際上并不是所有的網(wǎng)頁都有向外鏈接,總有一些網(wǎng)頁是處于孤立的狀態(tài)。

        為了解決這個問題學(xué)者對對其進(jìn)行了改進(jìn), 引入E(u) (等級源)來不斷的補充每個網(wǎng)頁的PageRank值,E(u)對應(yīng)網(wǎng)頁集的某一向量。則改進(jìn)的PageRank算法如公式(1-2)所示。

        2 基于內(nèi)容改進(jìn)

        PageRank算法一個很大的缺點是主題漂移。所謂的主題漂移,即所查詢結(jié)果與查詢期望不一致。主題漂移使得查詢的相關(guān)性造成很大的破壞。PageRank只是基于超鏈接分析排序算法,沒有基于內(nèi)容考慮。PageRank算法解決了權(quán)威性的問題,這反而使得主題漂移現(xiàn)象更為加重。一般情況下如果一個網(wǎng)頁的鏈出網(wǎng)頁與本網(wǎng)頁內(nèi)容是同一個主題,那么該鏈出鏈接應(yīng)該更具有價值。相反如果是垃圾鏈接,即兩個網(wǎng)頁是毫不相關(guān)的,那么該鏈接對權(quán)重的影響應(yīng)該是很小的。所以在這里引入了兩個網(wǎng)頁內(nèi)容相似性來改進(jìn)PageRank算法。這樣可以進(jìn)一步的杜絕網(wǎng)頁作弊者通過不相關(guān)的網(wǎng)頁鏈接來提高網(wǎng)頁的排名。算法的改進(jìn)公式如下:

        公式(1-4)中W(v,u)表示網(wǎng)頁v與u的相似度。其中網(wǎng)頁u與v的相似性可以用VSM模型來求得。假設(shè)網(wǎng)頁u與v的文檔向量空間為u=(u1, u2, u3…un), v=( v1, v2, v3… vn),根據(jù)前面介紹的求文檔之間的相似性知識可知:

        3 基于時間改進(jìn)

        在以上基于網(wǎng)頁內(nèi)容和結(jié)構(gòu)的基礎(chǔ)上,考慮網(wǎng)頁的更新時間。一般情況下一個非常重要的信息會在12小時以內(nèi)被廣泛傳播。假定隨著時間推移12小時后,網(wǎng)頁鏈接達(dá)到峰值。改進(jìn)的公式如下:

        4 結(jié)論

        通過對pageRank算法的研究,基于其存在漂移的問題,進(jìn)行了內(nèi)容的改進(jìn),利用VSM模型解決了相似性問題。針對新上網(wǎng)頁對鏈接解構(gòu)影響,根據(jù)網(wǎng)頁時間對網(wǎng)頁pagerank值進(jìn)行了權(quán)重系數(shù)。

        參考文獻(xiàn)

        [1]原福永,張園園.基于鏈接分析的相關(guān)排序方法的研究和改進(jìn)[J].計算機工程與設(shè)計,2007,07(28):1630-1662.

        [2]黃德刁,戚華春.PageRank算法研究.計算機工程,2006,32(4):145-162.

        [3]楊炳儒,李巖,陳新中等.Web結(jié)構(gòu)挖掘.計算機工程,2003,29(20):28-30.

        [4]Xing Wenpu,Ghorbani A. Weighted PageRank algorithm[C].Communication Networks and Services Research,Proceedingsof Second Annual Conference,2004:305-314.

        作者簡介

        李宜兵(1985-),男,安徽省桐城市人。碩士學(xué)位?,F(xiàn)為合肥師范學(xué)院助教。研究方向為信息檢索和數(shù)據(jù)挖掘。

        郭玉堂(1962-),男,安徽省安慶市人。博士學(xué)位。現(xiàn)為合肥師范學(xué)院教授、碩士生導(dǎo)師。主要研究方向為人工智能和圖形處理。

        作者單位

        合肥師范學(xué)院計算機學(xué)院 安徽省合肥市 230601endprint

        摘 要 PageRank算法是一種基于網(wǎng)頁結(jié)構(gòu)的排序算法。充分考慮了網(wǎng)頁的權(quán)威性質(zhì),但是沒有考慮內(nèi)容的相關(guān)性,與此同時,對權(quán)威性的側(cè)重,導(dǎo)致主題漂移現(xiàn)象更為突出。同時PageRank算法沒有考慮時間對網(wǎng)頁鏈接的影響,在一定的時間范圍內(nèi),隨后時間推移,網(wǎng)頁的鏈接數(shù)應(yīng)該越多。本文基于網(wǎng)頁內(nèi)容和網(wǎng)頁的時間對PageRank算法進(jìn)行了改進(jìn),提出了改進(jìn)算法STPR。

        【關(guān)鍵詞】PageRank 排序 相關(guān)性 時間

        PageRank算法首先應(yīng)用于Google搜索引擎,并且取得了巨大的商業(yè)成功。是一種典型的基于web結(jié)構(gòu)的算法。統(tǒng)計每個頁面web圖的出度和入度,然后通過迭代的方法計算出每個頁面的PageRank值,PageRank值越大,表明網(wǎng)頁的權(quán)重越高。然而,PageRank算法,只注意了網(wǎng)頁的權(quán)威性,沒有考慮相關(guān)性。很有可能計算出的結(jié)果與用戶所需要的信息不大。另外PageRank算法對于網(wǎng)頁權(quán)威性計算也有缺陷。沒有考慮到時間對于網(wǎng)頁權(quán)威性的影響,例如一個很重要的網(wǎng)頁,信息發(fā)布之初也很少有其他網(wǎng)頁鏈接指向它。針對以上缺點,本文提出了一個基于網(wǎng)頁內(nèi)容和時間的改進(jìn)算法PageRank算法——STRP。

        1 PageRank算法

        PageRank 算法簡單描述如下:將Web 對應(yīng)成有向圖:G=(V,E),其中V是節(jié)點(網(wǎng)頁)集,E是邊(當(dāng)且僅當(dāng)從頁面i到頁面j存在鏈接時)Ni是頁面i指向的所有頁面的集合,Bi是指向頁面i的所有頁面的集合。則頁面i的等級PageRank 值PR(i)的計算公式如公式(1-1)所示。

        公式(1-1)有一個很大的缺陷,它是基于互聯(lián)網(wǎng)上網(wǎng)頁處于連通的狀態(tài),即從任一個網(wǎng)頁出發(fā)都能到達(dá)任一個網(wǎng)頁,然而實際上并不是所有的網(wǎng)頁都有向外鏈接,總有一些網(wǎng)頁是處于孤立的狀態(tài)。

        為了解決這個問題學(xué)者對對其進(jìn)行了改進(jìn), 引入E(u) (等級源)來不斷的補充每個網(wǎng)頁的PageRank值,E(u)對應(yīng)網(wǎng)頁集的某一向量。則改進(jìn)的PageRank算法如公式(1-2)所示。

        2 基于內(nèi)容改進(jìn)

        PageRank算法一個很大的缺點是主題漂移。所謂的主題漂移,即所查詢結(jié)果與查詢期望不一致。主題漂移使得查詢的相關(guān)性造成很大的破壞。PageRank只是基于超鏈接分析排序算法,沒有基于內(nèi)容考慮。PageRank算法解決了權(quán)威性的問題,這反而使得主題漂移現(xiàn)象更為加重。一般情況下如果一個網(wǎng)頁的鏈出網(wǎng)頁與本網(wǎng)頁內(nèi)容是同一個主題,那么該鏈出鏈接應(yīng)該更具有價值。相反如果是垃圾鏈接,即兩個網(wǎng)頁是毫不相關(guān)的,那么該鏈接對權(quán)重的影響應(yīng)該是很小的。所以在這里引入了兩個網(wǎng)頁內(nèi)容相似性來改進(jìn)PageRank算法。這樣可以進(jìn)一步的杜絕網(wǎng)頁作弊者通過不相關(guān)的網(wǎng)頁鏈接來提高網(wǎng)頁的排名。算法的改進(jìn)公式如下:

        公式(1-4)中W(v,u)表示網(wǎng)頁v與u的相似度。其中網(wǎng)頁u與v的相似性可以用VSM模型來求得。假設(shè)網(wǎng)頁u與v的文檔向量空間為u=(u1, u2, u3…un), v=( v1, v2, v3… vn),根據(jù)前面介紹的求文檔之間的相似性知識可知:

        3 基于時間改進(jìn)

        在以上基于網(wǎng)頁內(nèi)容和結(jié)構(gòu)的基礎(chǔ)上,考慮網(wǎng)頁的更新時間。一般情況下一個非常重要的信息會在12小時以內(nèi)被廣泛傳播。假定隨著時間推移12小時后,網(wǎng)頁鏈接達(dá)到峰值。改進(jìn)的公式如下:

        4 結(jié)論

        通過對pageRank算法的研究,基于其存在漂移的問題,進(jìn)行了內(nèi)容的改進(jìn),利用VSM模型解決了相似性問題。針對新上網(wǎng)頁對鏈接解構(gòu)影響,根據(jù)網(wǎng)頁時間對網(wǎng)頁pagerank值進(jìn)行了權(quán)重系數(shù)。

        參考文獻(xiàn)

        [1]原福永,張園園.基于鏈接分析的相關(guān)排序方法的研究和改進(jìn)[J].計算機工程與設(shè)計,2007,07(28):1630-1662.

        [2]黃德刁,戚華春.PageRank算法研究.計算機工程,2006,32(4):145-162.

        [3]楊炳儒,李巖,陳新中等.Web結(jié)構(gòu)挖掘.計算機工程,2003,29(20):28-30.

        [4]Xing Wenpu,Ghorbani A. Weighted PageRank algorithm[C].Communication Networks and Services Research,Proceedingsof Second Annual Conference,2004:305-314.

        作者簡介

        李宜兵(1985-),男,安徽省桐城市人。碩士學(xué)位?,F(xiàn)為合肥師范學(xué)院助教。研究方向為信息檢索和數(shù)據(jù)挖掘。

        郭玉堂(1962-),男,安徽省安慶市人。博士學(xué)位。現(xiàn)為合肥師范學(xué)院教授、碩士生導(dǎo)師。主要研究方向為人工智能和圖形處理。

        作者單位

        合肥師范學(xué)院計算機學(xué)院 安徽省合肥市 230601endprint

        摘 要 PageRank算法是一種基于網(wǎng)頁結(jié)構(gòu)的排序算法。充分考慮了網(wǎng)頁的權(quán)威性質(zhì),但是沒有考慮內(nèi)容的相關(guān)性,與此同時,對權(quán)威性的側(cè)重,導(dǎo)致主題漂移現(xiàn)象更為突出。同時PageRank算法沒有考慮時間對網(wǎng)頁鏈接的影響,在一定的時間范圍內(nèi),隨后時間推移,網(wǎng)頁的鏈接數(shù)應(yīng)該越多。本文基于網(wǎng)頁內(nèi)容和網(wǎng)頁的時間對PageRank算法進(jìn)行了改進(jìn),提出了改進(jìn)算法STPR。

        【關(guān)鍵詞】PageRank 排序 相關(guān)性 時間

        PageRank算法首先應(yīng)用于Google搜索引擎,并且取得了巨大的商業(yè)成功。是一種典型的基于web結(jié)構(gòu)的算法。統(tǒng)計每個頁面web圖的出度和入度,然后通過迭代的方法計算出每個頁面的PageRank值,PageRank值越大,表明網(wǎng)頁的權(quán)重越高。然而,PageRank算法,只注意了網(wǎng)頁的權(quán)威性,沒有考慮相關(guān)性。很有可能計算出的結(jié)果與用戶所需要的信息不大。另外PageRank算法對于網(wǎng)頁權(quán)威性計算也有缺陷。沒有考慮到時間對于網(wǎng)頁權(quán)威性的影響,例如一個很重要的網(wǎng)頁,信息發(fā)布之初也很少有其他網(wǎng)頁鏈接指向它。針對以上缺點,本文提出了一個基于網(wǎng)頁內(nèi)容和時間的改進(jìn)算法PageRank算法——STRP。

        1 PageRank算法

        PageRank 算法簡單描述如下:將Web 對應(yīng)成有向圖:G=(V,E),其中V是節(jié)點(網(wǎng)頁)集,E是邊(當(dāng)且僅當(dāng)從頁面i到頁面j存在鏈接時)Ni是頁面i指向的所有頁面的集合,Bi是指向頁面i的所有頁面的集合。則頁面i的等級PageRank 值PR(i)的計算公式如公式(1-1)所示。

        公式(1-1)有一個很大的缺陷,它是基于互聯(lián)網(wǎng)上網(wǎng)頁處于連通的狀態(tài),即從任一個網(wǎng)頁出發(fā)都能到達(dá)任一個網(wǎng)頁,然而實際上并不是所有的網(wǎng)頁都有向外鏈接,總有一些網(wǎng)頁是處于孤立的狀態(tài)。

        為了解決這個問題學(xué)者對對其進(jìn)行了改進(jìn), 引入E(u) (等級源)來不斷的補充每個網(wǎng)頁的PageRank值,E(u)對應(yīng)網(wǎng)頁集的某一向量。則改進(jìn)的PageRank算法如公式(1-2)所示。

        2 基于內(nèi)容改進(jìn)

        PageRank算法一個很大的缺點是主題漂移。所謂的主題漂移,即所查詢結(jié)果與查詢期望不一致。主題漂移使得查詢的相關(guān)性造成很大的破壞。PageRank只是基于超鏈接分析排序算法,沒有基于內(nèi)容考慮。PageRank算法解決了權(quán)威性的問題,這反而使得主題漂移現(xiàn)象更為加重。一般情況下如果一個網(wǎng)頁的鏈出網(wǎng)頁與本網(wǎng)頁內(nèi)容是同一個主題,那么該鏈出鏈接應(yīng)該更具有價值。相反如果是垃圾鏈接,即兩個網(wǎng)頁是毫不相關(guān)的,那么該鏈接對權(quán)重的影響應(yīng)該是很小的。所以在這里引入了兩個網(wǎng)頁內(nèi)容相似性來改進(jìn)PageRank算法。這樣可以進(jìn)一步的杜絕網(wǎng)頁作弊者通過不相關(guān)的網(wǎng)頁鏈接來提高網(wǎng)頁的排名。算法的改進(jìn)公式如下:

        公式(1-4)中W(v,u)表示網(wǎng)頁v與u的相似度。其中網(wǎng)頁u與v的相似性可以用VSM模型來求得。假設(shè)網(wǎng)頁u與v的文檔向量空間為u=(u1, u2, u3…un), v=( v1, v2, v3… vn),根據(jù)前面介紹的求文檔之間的相似性知識可知:

        3 基于時間改進(jìn)

        在以上基于網(wǎng)頁內(nèi)容和結(jié)構(gòu)的基礎(chǔ)上,考慮網(wǎng)頁的更新時間。一般情況下一個非常重要的信息會在12小時以內(nèi)被廣泛傳播。假定隨著時間推移12小時后,網(wǎng)頁鏈接達(dá)到峰值。改進(jìn)的公式如下:

        4 結(jié)論

        通過對pageRank算法的研究,基于其存在漂移的問題,進(jìn)行了內(nèi)容的改進(jìn),利用VSM模型解決了相似性問題。針對新上網(wǎng)頁對鏈接解構(gòu)影響,根據(jù)網(wǎng)頁時間對網(wǎng)頁pagerank值進(jìn)行了權(quán)重系數(shù)。

        參考文獻(xiàn)

        [1]原福永,張園園.基于鏈接分析的相關(guān)排序方法的研究和改進(jìn)[J].計算機工程與設(shè)計,2007,07(28):1630-1662.

        [2]黃德刁,戚華春.PageRank算法研究.計算機工程,2006,32(4):145-162.

        [3]楊炳儒,李巖,陳新中等.Web結(jié)構(gòu)挖掘.計算機工程,2003,29(20):28-30.

        [4]Xing Wenpu,Ghorbani A. Weighted PageRank algorithm[C].Communication Networks and Services Research,Proceedingsof Second Annual Conference,2004:305-314.

        作者簡介

        李宜兵(1985-),男,安徽省桐城市人。碩士學(xué)位?,F(xiàn)為合肥師范學(xué)院助教。研究方向為信息檢索和數(shù)據(jù)挖掘。

        郭玉堂(1962-),男,安徽省安慶市人。博士學(xué)位。現(xiàn)為合肥師范學(xué)院教授、碩士生導(dǎo)師。主要研究方向為人工智能和圖形處理。

        作者單位

        合肥師范學(xué)院計算機學(xué)院 安徽省合肥市 230601endprint

        猜你喜歡
        時間相關(guān)性排序
        排序不等式
        恐怖排序
        節(jié)日排序
        刻舟求劍
        兒童繪本(2018年5期)2018-04-12 16:45:32
        時間消滅空間?
        新聞界(2016年12期)2016-11-08 21:36:56
        “時間”面前人人平等
        基于Kronecker信道的MIMO系統(tǒng)通信性能分析
        科技視界(2016年21期)2016-10-17 17:37:34
        小兒支氣管哮喘與小兒肺炎支原體感染相關(guān)性分析
        腦梗死與高同型半胱氨酸的相關(guān)性研究(2)
        腦梗死與高同型半胱氨酸的相關(guān)性研究
        五月丁香六月综合缴清无码 | 日本丰满熟妇videossex8k| 亚洲国产精品无码久久电影| 精品国产日韩无 影视| 国产一区二区三区免费视| 久久中文骚妇内射| 日韩无套内射视频6| 欧美激情国产一区在线不卡| 熟女少妇精品一区二区三区| 欧美激情一区二区三区成人| 18禁高潮出水呻吟娇喘蜜芽| 久久青草国产免费观看| 亚洲乱码av一区二区蜜桃av| 中国老太婆bb无套内射| 亚洲首页一区任你躁xxxxx| 白白青青视频在线免费观看| 91偷拍与自偷拍亚洲精品86| 在线成人爽a毛片免费软件| 国产精品黄网站免费观看| 男子把美女裙子脱了摸她内裤| 精品欧洲AV无码一区二区免费| 国产诱惑人的视频在线观看| 国产亚洲精品久久久久久国模美| 成人精品综合免费视频| 国产成社区在线视频观看| 91成人国产九色在线观看| 国产成人无码18禁午夜福利p| 国内免费AV网站在线观看| 人妻熟女妇av北条麻记三级| 亚洲综合av一区二区三区蜜桃| 欧美国产精品久久久乱码| 亚洲狼人社区av在线观看| 国产在线一区二区三区四区乱码 | 中文字幕在线乱码亚洲| 免费网站看av片| 亚洲制服中文字幕第一区| 成年女人午夜特黄特色毛片免 | 欧美色五月| 牛仔裤人妻痴汉电车中文字幕| 内射人妻无套中出无码| 婷婷四房色播|