亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于頻繁偏愛度的網(wǎng)站用戶訪問模式挖掘方法

        2022-11-29 13:24:18杜衛(wèi)華翁傳芳
        計(jì)算機(jī)仿真 2022年10期
        關(guān)鍵詞:用戶方法

        杜衛(wèi)華,翁傳芳

        (南昌航空大學(xué)科技學(xué)院,江西 九江 332020)

        1 引言

        對(duì)Web日志記錄進(jìn)行分析可以挖掘網(wǎng)站用戶的訪問模式,在此基礎(chǔ)上獲得用戶在網(wǎng)站中的訪問規(guī)律,這種技術(shù)在商業(yè)智能、系統(tǒng)改進(jìn)和個(gè)性化推薦等領(lǐng)域中得到了廣泛的應(yīng)用[1]。目前挖掘用戶在網(wǎng)站中的訪問模式常用的方法包括樹形拓?fù)浣Y(jié)構(gòu)法、最大向前序列法和參考長度法,但上述方法都存在以下問題:

        1)用戶的訪問興趣僅通過用戶在網(wǎng)站中的瀏覽頻度進(jìn)行反映,挖掘精度低[2];

        2)由于數(shù)據(jù)在Web分布上具有海量、動(dòng)態(tài)和異構(gòu)等特點(diǎn),上述方法無法處理海量的日志數(shù)據(jù)。

        在這種背景下,亟需對(duì)網(wǎng)站用戶訪問模式挖掘方法進(jìn)行研究。王福[3]等人通過最大頻繁模式挖掘方法分析網(wǎng)站用戶訪問特點(diǎn),聚類處理網(wǎng)站中的用戶,根據(jù)積累結(jié)果獲得類型不同的用戶在網(wǎng)站中頻繁使用的訪問模式,實(shí)現(xiàn)挖掘。該方法沒有對(duì)網(wǎng)站信息進(jìn)行過濾處理,在挖掘過程中受噪聲的干擾,延長了挖掘時(shí)間,存在挖掘效率低的問題。楊陽[4]等人對(duì)項(xiàng)集對(duì)應(yīng)的最大概率權(quán)重值進(jìn)行計(jì)算,在Spark框架中通過剪枝方法建立模式樹,實(shí)現(xiàn)網(wǎng)站用戶訪問模式的挖掘,該方法存在挖掘準(zhǔn)確率低和挖掘效率低的問題。

        為了解決上述方法中存在的問題,提出基于頻繁偏愛度的網(wǎng)站用戶訪問模式挖掘方法。

        2 網(wǎng)絡(luò)信息過濾

        信息過濾的時(shí)間可通過信息預(yù)處理得以降低[5],基于頻繁偏愛度的網(wǎng)站用戶訪問模式挖掘方法通過切分標(biāo)志法獲取網(wǎng)絡(luò)信息的切分標(biāo)志,建立網(wǎng)絡(luò)信息的特征集合。并通過統(tǒng)計(jì)學(xué)方法選取覆蓋度、直線斜率和集中度作為切分標(biāo)志,對(duì)網(wǎng)頁信息進(jìn)行處理。

        設(shè)S(Ti)代表的是詞T在文檔中的覆蓋率,其計(jì)算公式如下

        (1)

        式中,ni描述的是文檔數(shù)量;N代表的是學(xué)習(xí)語料數(shù)量。

        設(shè)C(Ti)代表的是詞T在文檔中的集中度,其表達(dá)式為

        (2)

        式中,σ(Ti)代表的是詞Ti對(duì)應(yīng)的標(biāo)準(zhǔn)方差;E(Ti)代表的是詞Ti對(duì)應(yīng)的頻率數(shù)學(xué)期望;fik代表的是文檔中詞Ti出現(xiàn)的頻率。

        根據(jù)數(shù)理統(tǒng)計(jì),用Y描述詞頻,用X描述文檔編號(hào),詞頻在文檔中的分布通常情況下符合一元線性回歸方程Y=α+βX+ε,利用一元線性回歸方程計(jì)算詞頻分布直線斜率G(Ti)

        (3)

        通過相關(guān)規(guī)則和描述表示網(wǎng)站中存在的文檔以及文檔構(gòu)成的集合[6]。通過這些描述和規(guī)則在網(wǎng)頁信息過濾過程中對(duì)文檔類、給定文檔和未知文檔的相似度進(jìn)行評(píng)價(jià)[7]。

        基于頻繁偏愛度的網(wǎng)站用戶訪問模式挖掘方法采用VSM模型結(jié)構(gòu)化表示網(wǎng)絡(luò)文檔,其原理是將特征詞條Term(t)作為基本單位對(duì)文檔Document(d)進(jìn)行表示,用Weight(w)描述文檔中特征詞條對(duì)應(yīng)的權(quán)值,集合D={di}由文檔構(gòu)成,用|D|=S描述文檔在D中的數(shù)量,其中,1≤i≤S,集合T={tj}由特征詞構(gòu)成,特征詞的數(shù)量用|T|=M表示,其中,1≤j≤M,將t1,t2,…,tm作為基坐標(biāo),用M維向量(wi1,wi2,wi3,…,wim)表示文檔di,構(gòu)建文檔di的向量空間模型Vi,其表達(dá)式如下

        Vi=(ti1,wi1;ti2,wi2;…;tim,wim)

        (4)

        基于頻繁偏愛度的網(wǎng)站用戶訪問模式挖掘方法采用VSM模型結(jié)構(gòu)化處理文檔的具體過程為:

        1)構(gòu)建詞頻矩陣,對(duì)特征詞對(duì)應(yīng)的詞頻進(jìn)行統(tǒng)計(jì),詞頻矩陣的行和列分別是特征詞t和文檔d向量,用空間向量V表示文檔,詞頻用來反映文檔d和特征詞t之間存在的關(guān)聯(lián)度,即向量值。

        2)對(duì)特征詞對(duì)應(yīng)的權(quán)重進(jìn)行計(jì)算,根據(jù)計(jì)算結(jié)果建立文檔向量。

        用t1,t2,…,tM描述文檔集中存在的特征項(xiàng),通過下式對(duì)其權(quán)值進(jìn)行計(jì)算

        (5)

        由上述計(jì)算得到的權(quán)值獲得向量(wi1,wi2,wi3,…,wim),其中,tfik代表的是在文檔di中詞條tk出現(xiàn)的頻率數(shù);nk代表的是存在tk的文檔數(shù)量;對(duì)上式進(jìn)行分析可知,權(quán)值wik的大小隨頻率數(shù)tfik發(fā)生變化。

        通過下式規(guī)范化處理特征向量,使其映射到單位空間向量中

        (6)

        特征權(quán)值越大表明其越重要,越可以描述文檔中存在的內(nèi)容,反之亦然。

        3)將t1,t2,…,tM作為基坐標(biāo),通過M維歐式空間的向量(wi1,wi2,wi3,…,wim)表示文檔di,構(gòu)建向量空間模型Vi=(ti1,wi1;ti2,wi2;…;tim,wim)。

        從文檔向量空間角度分析,當(dāng)兩篇文檔相關(guān)或者相似時(shí),表明其對(duì)應(yīng)的矢量距離較小,即這兩個(gè)矢量構(gòu)成的夾角不大,對(duì)余弦函數(shù)的性質(zhì)進(jìn)行分析可知,余弦值大,相關(guān)度高,余弦值小,相關(guān)度低。當(dāng)余弦值為1時(shí),表明矢量構(gòu)成的夾角為0,說明兩篇文章此時(shí)完全相符,設(shè)Sin(Di,di)代表的是文檔之間存在的相關(guān)度,其計(jì)算公式如下

        (7)

        網(wǎng)絡(luò)信息過濾的具體過程為:

        1)用m描述文檔類型數(shù)量,建立文檔矩陣Vi=(ti1,wi1;ti2,wi2;…;tim,wim);

        2)通過文檔向量{di}=(wi1,wi2,…,wim)建立矩陣D;

        3)對(duì)不同類型文檔之間存在的相關(guān)系數(shù)Sim(Di,di)進(jìn)行計(jì)算,根據(jù)計(jì)算結(jié)果構(gòu)建相關(guān)系數(shù)矩陣Sm×n=V×DT;

        4)修正相關(guān)系數(shù),優(yōu)化相關(guān)系數(shù)矩陣,利用優(yōu)化后的矩陣判定文檔屬性,實(shí)現(xiàn)網(wǎng)頁信息過濾。

        3 網(wǎng)站用戶訪問模式挖掘方法

        選取過濾處理后的Web日志,建立訪問矩陣,在行向量的基礎(chǔ)上建立Hamming距離矩陣[8,9],對(duì)比Hamming距離矩陣中的值和相似度閾值,根據(jù)對(duì)比結(jié)果確定候選興趣子路徑2-項(xiàng)集。在候選興趣子路徑2-項(xiàng)集中通過頻繁偏愛度剔除不符合的子路徑,獲得用戶偏愛的瀏覽路徑,完成網(wǎng)站用戶訪問模式的挖掘。

        3.1 矩陣表示

        用戶訪問網(wǎng)站的信息通常都存在于Web日志中,通過信息過濾方法對(duì)Web日志中存在的數(shù)據(jù)進(jìn)行過濾處理,日志的格式經(jīng)過處理后表示為S=,其中,代表的是2-項(xiàng)瀏覽子路徑,URL_R代表的是引用頁;URL代表的是頁面。

        通過訪問信息建立URL_R-URL矩陣,其中元素值為支持度,即訪問URL的頻率,矩陣中的列和行分別為URL、URL_R。用戶可能在網(wǎng)頁中、書簽訪問和地址欄鍵入U(xiǎn)RL結(jié)束訪問,不用通過其它站點(diǎn)鏈接或網(wǎng)頁進(jìn)入目的網(wǎng)頁,因此,需要將NULL引入第一行和第一列中,如果網(wǎng)站中URL的數(shù)量為n,則構(gòu)成的矩陣M(n+1)(n-1)屬于(n+1)階,其表達(dá)式如下

        (8)

        式中,Aij為矩陣M(n+1)(n-1)中存在的元素,上述矩陣的對(duì)角元素為0,為了平衡進(jìn)出,矩陣中t列總和應(yīng)該與矩陣中t行總和相等,此時(shí)存在下式

        (9)

        式中,0≤t≤n。

        3.2 挖掘用戶偏愛瀏覽路徑

        1)建立Hamming距離矩陣

        基于頻繁偏愛度的網(wǎng)站用戶訪問模式挖掘方法對(duì)矩陣中存在的所有元素進(jìn)行掃描,當(dāng)?M[i,j]>0時(shí),令M[i,j]的值為1,對(duì)上述矩陣進(jìn)行變換

        (10)

        基于頻繁偏愛度的網(wǎng)站用戶訪問模式挖掘方法利用Hamming矩陣度量上述矩陣行和列的相似度,當(dāng)X,Y∈{0,1}n,且n≥1時(shí),通過下式計(jì)算X、Y之間存在的Hamming距離Hd(X,Y)

        (11)

        通過上式計(jì)算結(jié)果,獲得對(duì)稱矩陣Mr,由行向量Hamming距離構(gòu)成,其表達(dá)式如下

        (12)

        2)獲取用戶瀏覽興趣子路徑

        設(shè)?代表的是相似度閾值,其主要作用在于判斷用戶瀏覽興趣子路徑在矩陣Mr中的相似度,其計(jì)算公式如下:

        (13)

        在上述過程中,沒有對(duì)URL之間的訪問頻率進(jìn)行考慮,因此需要進(jìn)一步確認(rèn)interset_path_set2,此時(shí)基于頻繁偏愛度的網(wǎng)站用戶訪問模式挖掘方法引入頻繁偏愛度Pthreshold,通過下式對(duì)瀏覽子路徑的頻繁偏愛度Pthreshold進(jìn)行計(jì)算:

        (14)

        刪除候選子路徑集中頻繁偏愛度Pthreshold較小的子路徑,在集合interset_path_set2中存儲(chǔ)被剔除的子路徑。

        基于頻繁偏愛度的網(wǎng)站用戶訪問模式挖掘方法通過上式計(jì)算結(jié)果確認(rèn)interset_path_set2時(shí),需要提前設(shè)置閾值,當(dāng)閾值設(shè)置不合理時(shí),會(huì)出現(xiàn)規(guī)則冗余或規(guī)則丟失的現(xiàn)象,此時(shí)會(huì)影響系統(tǒng)的運(yùn)行效率。

        3)模式挖掘

        基于頻繁偏愛度的網(wǎng)站用戶訪問模式挖掘方法通過逐步合并法對(duì)上述獲取的頻繁偏愛度Pthreshold較大的子路徑進(jìn)行合并處理,獲得用戶瀏覽興趣路徑,實(shí)現(xiàn)網(wǎng)站用戶訪問模式的挖掘。

        4 實(shí)驗(yàn)與分析

        為了驗(yàn)證基于頻繁偏愛度的網(wǎng)站用戶訪問模式挖掘方法的整體有效性,需要對(duì)其進(jìn)行測試。

        分別采用基于頻繁偏愛度的網(wǎng)站用戶訪問模式挖掘方法、文獻(xiàn)[3]方法和文獻(xiàn)[4]方法進(jìn)行如下對(duì)比測試。

        1)時(shí)間測試

        分別采用所提方法、文獻(xiàn)[3]方法和文獻(xiàn)[4]方法進(jìn)行測試,在以下兩種情況下對(duì)比上述方法的時(shí)間性能。

        ①在不同日志文件大小情況下對(duì)比上述方法模式挖掘所用的時(shí)間,測試結(jié)果如圖1所示。

        圖1 不同日志文件大小下的執(zhí)行時(shí)間

        ②采用上述方法對(duì)多個(gè)訪問模式進(jìn)行挖掘,對(duì)比執(zhí)行時(shí)間,測試結(jié)果如圖2所示。

        圖2 不同模式數(shù)量下的執(zhí)行時(shí)間

        由圖1和圖2可知,隨著日志文件大小的增加,模式種類的增加,所提方法、文獻(xiàn)[3]方法和文獻(xiàn)[4]方法的執(zhí)行時(shí)間逐漸增加,但所提方法在以上兩種情況下的執(zhí)行時(shí)間均低于文獻(xiàn)[3]方法和文獻(xiàn)[4]方法的執(zhí)行時(shí)間,表明所提方法的挖掘效率高,因?yàn)樵摲椒▽?duì)網(wǎng)站用戶訪問模式進(jìn)行挖掘之前,對(duì)網(wǎng)站信息進(jìn)行了過濾處理,消除了網(wǎng)站中存在的冗余信息和噪聲信息,避免挖掘過程受到影響,提高了所提方法的挖掘效率。

        2)準(zhǔn)確率

        采用所提方法、文獻(xiàn)[3]方法和文獻(xiàn)[4]方法對(duì)網(wǎng)站用戶訪問模式進(jìn)行挖掘,測試上述方法在模式訪問挖掘過程的準(zhǔn)確率,結(jié)果如圖3所示。

        圖3 挖掘準(zhǔn)確率測試結(jié)果

        根據(jù)圖3中的數(shù)據(jù)可知,采用所提方法、文獻(xiàn)[3]方法和文獻(xiàn)[4]方法對(duì)不同用戶在網(wǎng)站中的訪問模式進(jìn)行挖掘時(shí),所提方法的挖掘準(zhǔn)確率均在90%以上,高于其它兩種方法的挖掘準(zhǔn)確率,通過測試可知,所提方法可準(zhǔn)確地實(shí)現(xiàn)對(duì)不同類型用戶在網(wǎng)絡(luò)中的訪問模式挖掘。

        3)覆蓋率

        分別采用所提方法、文獻(xiàn)[3]方法和文獻(xiàn)[4]方法進(jìn)行訪問模式挖掘測試,對(duì)比不同方法的覆蓋率,測試結(jié)果如表1所示。

        表1 覆蓋率測試結(jié)果

        對(duì)表1中的數(shù)據(jù)進(jìn)行分析可知,隨著挖掘路徑條數(shù)的增加,所提方法、文獻(xiàn)[3]方法和文獻(xiàn)[4]方法的覆蓋率均有所提升,通過對(duì)比發(fā)現(xiàn),所提方法獲取的覆蓋率在不同挖掘路徑條數(shù)下均高于文獻(xiàn)[3]方法和文獻(xiàn)[4]方法,表明所提方法具有良好的挖掘性能。

        5 結(jié)束語

        用戶在網(wǎng)上進(jìn)行股票交易、學(xué)習(xí)和購物等活動(dòng)的頻率隨著Web技術(shù)的發(fā)展不斷增加,但信息過載等問題逐漸成為人們高效使用網(wǎng)絡(luò)的制約因素,在海量Web日志數(shù)據(jù)中對(duì)用戶訪問模式進(jìn)行挖掘,可以優(yōu)化網(wǎng)站網(wǎng)頁的架構(gòu),因此需要對(duì)網(wǎng)站用戶訪問模式挖掘方法進(jìn)行研究。目前網(wǎng)站用戶訪問模式挖掘方法存在挖掘效率低、挖掘準(zhǔn)確率低和挖掘覆蓋率低的問題,提出基于頻繁偏愛度的網(wǎng)站用戶訪問模式挖掘方法,首先對(duì)網(wǎng)站中存在的信息進(jìn)行過濾處理,其次通過頻繁偏愛度實(shí)現(xiàn)網(wǎng)絡(luò)用戶訪問模式的挖掘,解決并優(yōu)化了傳統(tǒng)方法中存在的問題,為網(wǎng)站網(wǎng)頁架構(gòu)的優(yōu)化奠定了基礎(chǔ)。

        猜你喜歡
        用戶方法
        學(xué)習(xí)方法
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        可能是方法不對(duì)
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        捕魚
        Camera360:拍出5億用戶
        国产高清在线精品免费| 精品无码av无码专区| 亚洲国产精品无码专区| 少妇人妻偷人精品一区二区| 92精品国产自产在线观看48页| 精品亚洲av一区二区| 中文字幕一区二区三区四区五区| 无码不卡av东京热毛片| 男女一级毛片免费视频看| 青青草伊人视频在线观看| 青青草国产手机观看视频| 少妇下面好紧好多水真爽播放| 色婷婷六月天| 国产三级伦理视频在线| av中国av一区二区三区av| 一本色道久久综合无码人妻| a级毛片免费观看视频| 亚洲国产精品亚洲高清| 丰满少妇被啪啪到高潮迷轩| 让少妇高潮无乱码高清在线观看 | 国产自拍视频免费在线| 亚洲国产成人久久综合下载| 亚洲AV秘 无码一区二区三区1| 在线亚洲国产一区二区三区| 成熟人妻换xxxx| 欧美人与动牲猛交xxxxbbbb| 日韩av二区三区一区| 91乱码亚洲精品中文字幕| 无码小电影在线观看网站免费| 一级一片内射在线播放| 日韩中文字幕一区在线| 国产无套中出学生姝| 绝顶潮喷绝叫在线观看| 91精选视频在线观看| 中文字幕一区二区三在线| 痴汉电车中文字幕在线| 国产精品一区二区久久不卡| 中文字幕久久久久久久系列| 日本韩国三级在线观看| 97久久综合区小说区图片区| 久久99精品久久久久久久清纯|