亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于阻尼系數(shù)和個性化向量修正的排序模型

        2019-02-28 10:35:26藍屹湘
        韶關學院學報 2019年12期
        關鍵詞:模型

        鄭 華,藍屹湘

        (韶關學院 數(shù)學與統(tǒng)計學院, 廣東 韶關512005)

        PageRank[1]是Google 搜索引擎的核心算法,它由Google 公司的創(chuàng)始人Page 和Brin 所創(chuàng)立,對于按用戶提交的關鍵詞搜索得到的網頁,該算法基于整個互聯(lián)網中各個網頁相互之間的浩瀚鏈接關系,對網頁進行等級評分(稱為PR 值)排序.PageRank 算法不但考慮了各網頁被指向的鏈接數(shù)量,同時還考慮了各網頁本身的重要性,從而使得排序所得結果更具有客觀性,廣泛受到客戶的認可,成為互聯(lián)網業(yè)界各大搜索引擎的算法基礎,廣泛應用于各領域中的不同評價推薦模型[2-3].

        由于互聯(lián)網的復雜性,比如孤立網頁的存在以及網站的作弊行為,在經典的Google 搜索數(shù)學模型中,為了使得PageRank 算法結果具備合理性, 需引入阻尼系數(shù)和個性化向量對各網頁之間的鄰接矩陣進行修正.在實際應用中,阻尼系數(shù)的實際意義可以描述為用戶通過鏈接打開網頁的概率;另一方面,個性化向量可以有效地解決互聯(lián)網中孤立網頁對排序結果產生錯誤的問題.

        阻尼系數(shù)和個性化向量在PageRank 算法中扮演著重要的角色,對它們的有效研究有利于PageRank算法在不同的實際問題中的推廣應用.本文通過對阻尼系數(shù)和個性化向量的參數(shù)分析,建立相應的排序模型,并把結果應用到大型網絡系統(tǒng),驗證模型的有效性.

        在后續(xù)討論中,用AT表示矩陣A 的轉置,記<n>={1,2,…,n}.下面給出本文需要用到的一些基本概念.

        對于矩陣A,B∈Rm×n,如果A,B 的元素滿足aij≥(>)bij則記為A≥(>)B;如果A≥0,稱A 為非負矩陣.

        設A∈Rm×n(n≥2),如果存在指標集I,J∈<n>,滿足并且使得對都有aij=0,則稱A 是可約矩陣;否則稱A 是不可約矩陣[4].

        設A∈Rn×n且A≥0.如果A 的每行元素之和都為1,則A 稱為右隨機矩陣;如果A 的每列元素之和都為1,則稱A 為左隨機矩陣[5].

        稱n 階矩陣A 的模最大特征值為A 的主特征值,其對應的特征向量稱為主特征向量[6].

        1 基于參數(shù)分析的排序推薦模型

        定義[1]設0<d<1, v≥0 是n 維非負向量,e 是元素全為1 的n 維向量,B∈Rn×n表示描述互聯(lián)網中各網頁鏈接關系的鄰接矩陣的歸一化結果(即B 是一個右隨機矩陣),稱A=[dB+(1-d)evT]T為Google 矩陣.

        引理[3]如果A 是n 階不可約的非負矩陣,那么A 的主特征值為單根,主特征向量為正向量.

        使用PageRank 算法計算各網頁PR 值的基本步驟為:

        第1 步:從互聯(lián)網獲取表示網頁之間鏈接關系的鄰接矩陣;

        第2 步:對鄰接矩陣進行修正得到Google 矩陣;

        第3 步:用冪法[7]計算Google 矩陣的主特征向量(即按模最大的特征值對應的特征向量);

        第4 步:把主特征向量進行歸一化后得到各網頁的PR 值.

        在Google 矩陣的定義中,d 一般稱為阻尼系數(shù),其意義是認為用戶在瀏覽網頁的時候,有d 的概率是通過網頁鏈接的方式打開新的網頁,而通過屬于網址的形式打開新網頁的概率為1-d,在經典的Google搜索模型中,Google 創(chuàng)始人Page 把阻尼系數(shù)的取值設定為d=0.85. 另一個參數(shù)向量v 一般稱為個性化向量,其存在的意義包括兩方面,一是保證Google 矩陣具有非負不可約性質,從而根據(jù)引理的結論確保PageRank 算法的第3 步由冪法計算得到的主特征向量為正向量;另一方面,結合阻尼系數(shù),個性化向量也能解決互聯(lián)網中不具備相應鏈接關系孤立網頁的存在問題,使得PageRank 算法的計算結果具有實際意義.

        隨著互聯(lián)網的不斷發(fā)展,在PageRank 的實際應用中,用戶訪問網頁的方式趨于多樣化,結合不同應用背景的特征,對個性化向量的設定提出了更高的要求.接下來,從阻尼系數(shù)和個性化向量這兩個參數(shù)入手,通過數(shù)值分析方法分析這些參數(shù)對PageRank 排序結果的影響.

        1.1 阻尼系數(shù)

        由于互聯(lián)網中大量孤立網頁的存在,導致網頁的鄰接矩陣有某些列向量全為0,這將導致冪法計算結果的不可靠性.阻尼系數(shù)的引入不但考慮了用戶除鏈接以外的打開新網頁方式,在數(shù)學意義上還可均勻填充由孤立網頁產生的全零列,進而保證冪法的收斂性.由Google 矩陣的定義可見,阻尼系數(shù)的大小直接影響了鄰接矩陣全零列的填充權重,建立數(shù)學模型如下:

        模型1(阻尼系數(shù)的擾動分析)

        初始化:給定0-1 鄰接矩陣B,初始向量u,個性化向量v.

        輸出:記錄u 的前若干個分量的原始序號變化.

        注1:在模型1 中,初始化中的個性化向量v 可取為Page 測試PageRank 算法所使用的這里N 表示鄰接矩陣的階數(shù);在結果輸出中,參考目前主流搜索引擎Google 和百度的默認設置,可取前10 個分量.

        1.2 個性化向量

        從Google 矩陣的定義可知,個性化向量決定了以概率填充鄰接矩陣全零列的修正項的各分量比重,會直接影響PageRank 計算結果,因此個性化向量往往是各搜索引擎公司的商業(yè)秘密.為了分析其分量變化對計算所得的主特征向量分量權重的影響,采用集中個別分量權重的方式進行分析,同時,過程中注意調整個性化向量的其他分量大小,保證修正策略的合理性,具體模型如下:

        模型2(個性化向量的擾動分析)

        初始化:給定0-1 鄰接矩陣B,初始向量u,阻尼系數(shù)d,閾值σ.

        輸出:記錄u 的第i*個分量的序號變化.

        注2: 在模型2 中, 初始化中的阻尼系數(shù)d 可取為Page 測試PageRank 算法所使用的d=0.85:vj=的設定是為了保證所得的Google 矩陣仍然是右隨機矩陣.

        2 數(shù)值試驗

        本節(jié)通過數(shù)值試驗展示模型1 和模型2 的分析效果.

        數(shù)值試驗的運行環(huán)境是Intel(R) Core(TM) 2.50 GHz,計算機內存為4 G,編程語言為MATLAB.試驗采用的0-1 鄰接矩陣來源于University of Florida Sparse Matrix Collection(https://sparse.tamu.edu/),鄰接矩陣的詳細信息為(名稱:web-Google;背景:Google 有向圖;階數(shù)N:916 428;非零元個數(shù):5 105 039).

        取初始向量為e,冪法收斂的誤差上限設定為10-8,先取d=0.85,可計算得到排名前10 的網頁序號依次為:177,13 874,15 829,23 729,32 689,45 264,53 991,60 682,70 210,78 920.

        在模型1 中,取d=0.75∶0.2∶0.95,(這里“∶”是MATLAB 運算符[8]),誤差上限和v 不變,按冪法計算所得的排名前10 的網頁序號,如表1 所示.

        表1 阻尼系數(shù)擾動導致的網頁序號(1~10)排序變化

        由表1 可見,當阻尼系數(shù)在[0.83,0.89]之間變化時,網頁排名較為穩(wěn)定,Page 在提出PageRank 算法的時候所使用的0.85 屬于這個區(qū)間,這是由web-Google 的數(shù)據(jù)來源決定的,由此也可以看出模型1 的合理性.

        在模型2 中,考慮表2 中d=0.85 的情形,考慮以下兩種干預排名的方式:

        方式1:取排名第10 的網頁(序號為78 920),誤差上限不變,閾值設定為即設置為默認元素的兩倍大小.

        方式2:取排名第9 和第10 的網頁(序號為70 210 和78 920),誤差上限不變,閾值都設定為

        按冪法計算所得的排名前10 的網頁序號如表2 所示.

        表2 個性化向量擾動導致的網頁序號排序變化

        由表2 可見,以兩種方式對個性化向量的分量權重增加以后,直接把兩個網頁的排名提升到了第一.這表明,模型2 對個性化向量的擾動干預方式是有效的.

        3 結論

        模型1 和模型2 分別從阻尼系數(shù)和個性化向量兩個角度對PageRank 算法的運行進行了擾動分析,對大規(guī)模稀疏Google 有向圖矩陣的數(shù)值試驗表明了本文兩個模型的有效性, 本文的分析方法可以對PageRank 算法在其他領域的應用提供參考.另一方面,本文數(shù)值試驗中的參數(shù)選擇是人為設定的,在具體的應用背景中,可結合問題的實際意義設定相關的參數(shù).

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務本地化模型
        適用于BDS-3 PPP的隨機模型
        提煉模型 突破難點
        函數(shù)模型及應用
        p150Glued在帕金森病模型中的表達及分布
        函數(shù)模型及應用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        3D打印中的模型分割與打包
        国产99久久亚洲综合精品| 午夜福利影院成人影院| 精品综合久久久久久888蜜芽| 人妻少妇精品专区性色av| 久久久久久中文字幕有精品| 亚洲国产黄色在线观看| 国产av一区二区三区性入口| 精品无码日韩一区二区三区不卡| 亚洲av日韩aⅴ永久无码| 亚洲一区二区三区综合网| 华人免费网站在线观看| 亚洲老妈激情一区二区三区| 国产亚洲女在线线精品| 国产情侣自拍偷拍精品| 亚洲国产精品无码久久一线| 黄色视频免费在线观看| 久久熟女五十路| 亚洲无毛成人在线视频| av狠狠色丁香婷婷综合久久 | 99国产精品99久久久久久| 国产免费无码一区二区三区| 国产成人精品日本亚洲直播| 丝袜美腿亚洲综合第一页| 精品亚洲国产成人| 久久免费网国产AⅤ| 亚洲精品一区二区三区国产| 一二三四区中文字幕在线| 玩弄少妇高潮ⅹxxxyw| 久久这里有精品国产电影网| 丰满老熟女性生活视频| 日日碰狠狠添天天爽五月婷| 一区二区日韩国产精品| 久久狠狠髙潮曰十八女人| 99精品视频69v精品视频| 香蕉久久人人97超碰caoproen| 谁有在线观看av中文| 青青草国产手机观看视频| 西西人体444www大胆无码视频| 亚洲成a人片在线观看导航| 蜜桃精品视频一二三区| 亚洲人成色7777在线观看不卡|