亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進(jìn)PageRank算法的網(wǎng)頁權(quán)重分析

        2022-07-20 05:57:04李朝榮
        宜賓學(xué)院學(xué)報 2022年6期
        關(guān)鍵詞:排序設(shè)置

        黃 艷,李朝榮

        (宜賓學(xué)院人工智能與大數(shù)據(jù)學(xué)部,四川宜賓 644000)

        使用網(wǎng)頁搜索引擎時,系統(tǒng)需要根據(jù)網(wǎng)頁的重要性將搜索的網(wǎng)頁推薦給用戶,以提高系統(tǒng)人性化和智能化水平. 網(wǎng)頁中的鏈接(包括數(shù)量和質(zhì)量)和主題內(nèi)容是網(wǎng)頁排序的兩個關(guān)鍵依據(jù)[1]. 網(wǎng)頁中的鏈接較多,其鏈接指向的其他網(wǎng)頁質(zhì)量較高,則該網(wǎng)頁通常是較重要的網(wǎng)頁;網(wǎng)頁主題內(nèi)容如果是熱點(diǎn),或者與用戶的關(guān)鍵詞更相關(guān),也會讓該網(wǎng)頁排序更靠前[2].常見的網(wǎng)頁排序有以下幾種:

        (1)基于關(guān)鍵詞統(tǒng)計的排序[3]

        利用關(guān)鍵詞在網(wǎng)頁中出現(xiàn)的頻率和重要性排序是搜索引擎最早期排序的主要思想,其技術(shù)發(fā)展也最為成熟,是第一代搜索引擎使用的主要技術(shù),至今仍是主流搜索引擎必備的排序技術(shù). 其實(shí)現(xiàn)的基本依據(jù)是,關(guān)鍵詞在網(wǎng)頁中詞頻越高、越重要,則被認(rèn)為與用戶檢索的詞的匹配程度越好.

        (2)基于鏈接分析的排序[4]

        根據(jù)鏈接分析進(jìn)行網(wǎng)頁排序的主要思想是:如果某網(wǎng)頁被別的網(wǎng)頁引用的次數(shù)越多,并且這些引用的網(wǎng)頁越權(quán)威,則該網(wǎng)頁的價值就越大. 被別的網(wǎng)頁引用次數(shù)越多,說明該網(wǎng)頁受到的關(guān)注程度比較高;被越權(quán)威的網(wǎng)頁引用,說明該網(wǎng)頁質(zhì)量越高.基于鏈接分析排序算法可以歸結(jié)為兩大類:基于隨機(jī)漫游模型的算法,最典型的就是PageRank[5];基于概率模型的算法,常見的模型有SALSA和HITS[6].

        (3)綜合主題內(nèi)容的排序

        綜合主題內(nèi)容的排序也稱為智能化排序,屬于第三代搜索引擎涉及的范疇. 該類方法除了考慮上述兩種傳統(tǒng)的排序技術(shù)外,還要重點(diǎn)考慮網(wǎng)頁內(nèi)容和用戶搜索內(nèi)容的相關(guān)性來排序網(wǎng)頁. 由于語言文本的復(fù)雜性和模糊性,僅僅通過鏈接分析及網(wǎng)頁的表面特征來判斷檢索詞與網(wǎng)頁的相關(guān)性是片面的,因而需要利用機(jī)器學(xué)習(xí)、人工智能等相關(guān)技術(shù)分析網(wǎng)頁內(nèi)容. 目前流行的技術(shù)包括基于向量空間模型的SVM 模型[7],以及基于深度網(wǎng)絡(luò)的BERT[8]、Transformer[9]等文本分析模型.

        1 PageRank 算法分析及其改進(jìn)

        1.1 PageRank算法

        PageRank 是Google 用于標(biāo)識網(wǎng)頁等級(也稱為重要性)的一種方法,是用來衡量一個站點(diǎn)好壞的一種標(biāo)準(zhǔn). 在揉合了諸如網(wǎng)頁標(biāo)題和關(guān)鍵字等標(biāo)識后,通過PageRank 調(diào)整結(jié)果,使那些更具“等級/重要性”的網(wǎng)頁在搜索結(jié)果中令站點(diǎn)排名獲得提升,從而提高搜索結(jié)果的相關(guān)性和質(zhì)量. PageRank 利用網(wǎng)頁之間的鏈接關(guān)系,計算出代表網(wǎng)頁重要程度的值(PageRank 值,簡稱PR值)來排序網(wǎng)頁,PR值越高,說明該網(wǎng)頁越受歡迎(越重要).

        PageRank 算法基于兩個假設(shè):①如果某網(wǎng)頁被很多網(wǎng)頁引用,則該網(wǎng)頁是一個重要網(wǎng)頁,稱為數(shù)量假設(shè);②如果有高質(zhì)量的網(wǎng)頁(權(quán)威網(wǎng)頁)指向某網(wǎng)頁,則該網(wǎng)頁也是一個重要網(wǎng)頁,稱為質(zhì)量假設(shè).PageRank算法的核心公式如下:

        其中:PR(pi)是網(wǎng)頁pi的PageRank 值,M(pi)是鏈入pi網(wǎng)頁的集合,L(pj)是網(wǎng)頁pj鏈出網(wǎng)頁的數(shù)量,N是集合中所有網(wǎng)頁的數(shù)量,d為阻尼因子,通常取0.85[9]. 集合中所有網(wǎng)頁的PR值可以用一個向量A來表示:

        根據(jù)PageRank 公式(1),公式(2)可以寫成如下的矩陣形式迭代公式:

        其中:At是在t步迭代時所有網(wǎng)頁的PR值.l(pi,pj)表示從網(wǎng)頁j指向網(wǎng)頁i的鏈接數(shù)與網(wǎng)頁j中含有的外部鏈接總數(shù)的比值;如果pi和pj之間沒有鏈接,則l(pi,pj)=0.

        PageRank有如下的優(yōu)缺點(diǎn):

        優(yōu)點(diǎn):PageRank 是一個與查詢無關(guān)的靜態(tài)算法,所有網(wǎng)頁的PR值通過離線計算獲得;能有效減少在線查詢時的計算量,極大降低了查詢響應(yīng)時間.

        缺點(diǎn):PageRank 只根據(jù)網(wǎng)頁的鏈接情況來分析重要性,忽略了主題相關(guān)性和環(huán)境等因素,導(dǎo)致排序的結(jié)果不是很合理. 例如一個新網(wǎng)頁,即使該網(wǎng)頁受到較多關(guān)注也不會有很多上游鏈接,其排序會較低,除非它是某個子站點(diǎn).

        1.2 改進(jìn)的PageRank算法:EPageRank

        通常衡量一個網(wǎng)頁的重要性還應(yīng)包括:

        (1)網(wǎng)頁的點(diǎn)擊量:網(wǎng)頁的點(diǎn)擊量高,說明網(wǎng)頁越受關(guān)注,也越重要.

        (2)時間因素:時間越久(越老)的網(wǎng)頁,其重要程度要降低.

        為了克服PageRank 的缺陷,本文提出了改進(jìn)的PageRank算法,稱為EPageRank,其PR值計算如下:

        其中:hi表示點(diǎn)擊量因子,值越大點(diǎn)擊量越高,對PR值貢獻(xiàn)越多;ti表示時間因子,數(shù)值越大對PR值貢獻(xiàn)越小.

        2 實(shí)驗(yàn)與分析

        阻尼系數(shù)d的含義是,在任意時刻,用戶到達(dá)某網(wǎng)頁后并繼續(xù)瀏覽該網(wǎng)頁的概率,同義,可以理解1-d是用戶到達(dá)某網(wǎng)頁后離開(跳轉(zhuǎn)到其他網(wǎng)頁)的概率. 為了說明d在算法中的作用,本文設(shè)計了4 個網(wǎng)頁的集合[A,B,C,D],網(wǎng)頁之間的鏈接關(guān)系如圖1所示. 圖中的邊是有向箭頭,箭頭指向表示該網(wǎng)頁包含另外一個網(wǎng)頁的鏈接(從該網(wǎng)頁能夠跳轉(zhuǎn)到另外一個網(wǎng)頁).例如A→D表示A包含指向網(wǎng)頁D的鏈接,A?C表示A包含C的鏈接,C也包含A的鏈接.

        圖1 網(wǎng)頁及其之間的鏈接關(guān)系

        將阻尼系數(shù)d設(shè)置變化從0.2 到0.95,分別計算四個網(wǎng)頁的PR值,結(jié)果見表1. 可以看出阻尼系數(shù)會影響PR值,但是對于排序并沒有多大影響,表1中四個網(wǎng)頁的排序均為2、3、1、4. 這說明PR值及其排序主要是網(wǎng)頁及其包含的鏈接所決定的,阻尼系數(shù)、網(wǎng)頁主題等因素對網(wǎng)頁的排序影響非常有限.

        表1 不同阻尼系數(shù)下的網(wǎng)頁P(yáng)R值及其排序

        觀察EPageRank中阻尼系數(shù)d以及點(diǎn)擊量、時間因子等對PR值及其排序的影響,將點(diǎn)擊量和時間因子均設(shè)置為1~8 個值(根據(jù)情況可以設(shè)置為其它的值),設(shè)置情況見表2. 點(diǎn)擊量因子h由點(diǎn)擊量確定,例如0~10次點(diǎn)擊量,該網(wǎng)頁的點(diǎn)擊量因子h設(shè)置為1;11~50 次點(diǎn)擊量,h設(shè)置為2. 時間因子t則根據(jù)網(wǎng)頁存在的天數(shù)來確定,例如網(wǎng)頁存在0~1 天,該網(wǎng)頁的時間因子t設(shè)置為1;2~3天,t設(shè)置為2.

        表2 點(diǎn)擊量和時間因子設(shè)置

        表3和表4列出了EPageRank的評估結(jié)果.

        表3 EPageRank排序結(jié)果(A(8,1),B(3,6),C(7,2),D(5,5))

        表4 EPageRank排序結(jié)果(A(1,5),B(1,7),C(8,3),D(8,6))

        表中的X(h,t)表示網(wǎng)頁X的點(diǎn)擊量因子為h、時間因子為t,如A(8,1)表示網(wǎng)頁A的點(diǎn)擊量因子為8,該網(wǎng)頁的點(diǎn)擊量比較高,時間因子為1,表示該網(wǎng)頁比較新. 由于EPageRank 采用了log10,PR值可能為負(fù)數(shù),具體見表4. 從兩個表的結(jié)果可以看出,由于時間和點(diǎn)擊量因子加入,阻尼系數(shù)對PR值的影響力加大. 這說明時間和點(diǎn)擊量會影響該網(wǎng)頁,對用戶在該網(wǎng)頁繼續(xù)瀏覽和跳轉(zhuǎn)到其他網(wǎng)頁的影響力增大,更加符合實(shí)際情況. 在同樣的網(wǎng)頁及其鏈接關(guān)系下,網(wǎng)頁的點(diǎn)擊量和網(wǎng)頁存在時間,會明顯改變網(wǎng)頁排序結(jié)果. 同樣的阻尼系數(shù)0.5,當(dāng)四個網(wǎng)頁的點(diǎn)擊量和時間因子分別是A(8,1)、B(3,6)、C(7,2)、D(5,5),其排序情況是1、2、3、4;當(dāng)四個網(wǎng)頁的點(diǎn)擊量和時間因子分別是A(1,5)、B(1,7)、C(8,3)、D(8,6)時,其排序情況是3、4、1、2. 結(jié)合表1、表3 和表4,可以看出網(wǎng)頁A在PageRank 下的排序?yàn)?,當(dāng)考慮時間和點(diǎn)擊量因子為A(8,1)時(說明該網(wǎng)頁點(diǎn)擊量高,也比較新),其排名提升到第一位;當(dāng)為A(1,5)時(說明該網(wǎng)頁點(diǎn)擊量低,存在時間也比較久)其排名降低到第三位.

        3 總結(jié)

        本文提出了PageRank 的改進(jìn)版,在進(jìn)行網(wǎng)頁排序時,除了考慮網(wǎng)頁鏈接關(guān)系外,還加入了點(diǎn)擊量和時間因子,以此彌補(bǔ)PageRank 的不足,更加切合實(shí)際應(yīng)用. 本文對點(diǎn)擊量和時間因子的設(shè)置可能不夠完善,還可以根據(jù)實(shí)際情況進(jìn)行設(shè)置;EPageRank 的公式中采用了對數(shù)形式,該形式不唯一,可以考慮使用其他不同的形式.

        猜你喜歡
        排序設(shè)置
        排排序
        排序不等式
        中隊(duì)崗位該如何設(shè)置
        恐怖排序
        7招教你手動設(shè)置參數(shù)
        節(jié)日排序
        刻舟求劍
        兒童繪本(2018年5期)2018-04-12 16:45:32
        本刊欄目設(shè)置說明
        中俄臨床醫(yī)學(xué)專業(yè)課程設(shè)置的比較與思考
        艦船人員編制的設(shè)置與控制
        少妇熟女天堂网av天堂| 提供最新的在線欧美综合一区| 日本专区一区二区三区| 夜色视频在线观看麻豆| 亚洲黄色天堂网站在线观看禁18| 色天使综合婷婷国产日韩av| 亚洲人成无码网www| 中文字幕有码高清| 亚洲av乱码一区二区三区人人 | 久久99精品国产99久久| 8090成人午夜精品无码| 国产精品亚洲综合久久| 人妻洗澡被强公日日澡电影 | 成人国产精品一区二区网站| 亚洲av色香蕉第一区二区三区| 2020国产在视频线自在拍| 亚洲国产精品第一区二区| 在线人妻无码一区二区| 午夜亚洲精品一区二区| 揄拍成人国产精品视频| 国产性生交xxxxx免费| 亚洲人成网站久久久综合| 亚洲精品在线97中文字幕| 99久热在线精品视频观看| 国产精品美女久久久浪潮av| 亚洲女同系列高清在线观看| 亚洲精品一区三区三区在线 | 久久www色情成人免费观看| 91精品啪在线观看国产18| 99热婷婷一区二区三区| 又紧又大又爽精品一区二区| 精品人体无码一区二区三区 | 亚洲免费人成在线视频观看 | 领导边摸边吃奶边做爽在线观看| 成人无码区免费a片www| 女人被躁到高潮嗷嗷叫| 国产精品一区二区av不卡| 老熟妇仑乱视频一区二区| 性一交一乱一伦一视频一二三区| 精品亚洲在线一区二区 | 国内揄拍国内精品人妻浪潮av|