亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種新的基于事物聚類(lèi)Web瀏覽偏愛(ài)路徑挖掘算法

        2013-10-15 01:19:52李曉靜王樹(shù)森
        制造業(yè)自動(dòng)化 2013年4期
        關(guān)鍵詞:雅克日志頁(yè)面

        李曉靜,王樹(shù)森

        (濟(jì)源職業(yè)技術(shù)學(xué)院,濟(jì)源 459000)

        0 引言

        使用Web用戶(hù)瀏覽偏愛(ài)路徑挖掘算法分析Web日志記錄,并發(fā)現(xiàn)用戶(hù)訪問(wèn)規(guī)律,已成功應(yīng)用于個(gè)性化推薦、系統(tǒng)改進(jìn)以及商業(yè)智能等方面。目前在瀏覽模式的獲取上常用的算法主要有最大頻繁序列法、引用長(zhǎng)度法和樹(shù)型拓?fù)浣Y(jié)構(gòu)法等[1],但是這些算法其實(shí)都是一種改進(jìn)的關(guān)聯(lián)規(guī)則算法,存在以下兩方面的問(wèn)題:一是簡(jiǎn)單地認(rèn)為用戶(hù)的瀏覽頻度就代表了用戶(hù)的訪問(wèn)興趣度,這很片面;其次,隨著網(wǎng)絡(luò)的發(fā)展,Web日志數(shù)據(jù)逐漸呈現(xiàn)出分布性、異構(gòu)性、動(dòng)態(tài)性和海量性等特點(diǎn)[2],傳統(tǒng)的集中式數(shù)據(jù)挖掘算法就不能滿(mǎn)足對(duì)擁有海量數(shù)據(jù)的Web日志進(jìn)行挖掘處理的需求。

        為了解決上述問(wèn)題,本文將事物聚類(lèi)算法和W eb用戶(hù)瀏覽模式挖掘算法相結(jié)合,并對(duì)現(xiàn)有算法進(jìn)行改進(jìn),提出將雅克比系數(shù)與最長(zhǎng)公共路徑系數(shù)相乘綜合考慮的方法,更準(zhǔn)確地反應(yīng)用戶(hù)之間的相似度,該方法采用一個(gè)三元組表示頁(yè)面興趣度,綜合考慮了用戶(hù)的訪問(wèn)時(shí)間、所訪問(wèn)頁(yè)面的大小以及訪問(wèn)次數(shù)等因素,從而構(gòu)造出以引用網(wǎng)頁(yè)的URL地址為行、瀏覽網(wǎng)頁(yè)的URL地址為列,以訪問(wèn)興趣度為元素值的數(shù)據(jù)矩陣,在此基礎(chǔ)上采用改進(jìn)的挖掘算法對(duì)該矩陣進(jìn)行偏愛(ài)度和興趣度的計(jì)算[3]。用戶(hù)通過(guò)選擇進(jìn)入下一個(gè)頁(yè)面時(shí),由于綜合考慮了頁(yè)面的訪問(wèn)次數(shù)、訪問(wèn)時(shí)間和頁(yè)面大小,從而可以得到更為準(zhǔn)確地偏愛(ài)路徑。

        1 改進(jìn)的事物聚類(lèi)算法

        1.1 事物聚類(lèi)算法的基本定義

        設(shè)n個(gè)用戶(hù)訪問(wèn)路徑集合U={C1,C2,…,Cn},其中一條訪問(wèn)路徑為Ci={V1,V2,…,Vi},其中Vi表示一個(gè)被訪問(wèn)過(guò)的節(jié)點(diǎn)。

        定義1:用戶(hù)訪問(wèn)路徑中節(jié)點(diǎn)的個(gè)數(shù)等于路徑長(zhǎng)度C。

        定義2:雅克比系數(shù):

        例如有兩條W eb用戶(hù)訪問(wèn)路徑C1={V1,V2,V3},C2={V2,V1,V3},采用雅克比系數(shù)進(jìn)行計(jì)算的結(jié)果均為1,但是這兩條路徑顯然是不相同的,這是因?yàn)檠趴吮认禂?shù)所描述的事務(wù)數(shù)據(jù)不具有先后次序關(guān)系,而用戶(hù)訪問(wèn)Web路徑卻是有先后順序的,因此不能單純用雅克比系數(shù)來(lái)描述訪問(wèn)路徑的相似度。

        設(shè)定 c omm( ci, cj)表示最長(zhǎng)公共路徑長(zhǎng)度,的最長(zhǎng)路徑長(zhǎng)度,則用戶(hù)訪問(wèn)路徑的相似度系數(shù)為:

        如有3條W eb訪問(wèn)路徑C1={V1,V2,V3}、C2={V2,V3,V4}、C3={V3,V2,V4},則C1→C2的最長(zhǎng)公共路徑為V2、V3,長(zhǎng)度為2,相似度系數(shù)為0.5,而C1→C3的最長(zhǎng)公共路徑為V2或V3,長(zhǎng)度為1,相似度系數(shù)為0.25,而C2和C3兩條路徑中的節(jié)點(diǎn)完全相同,節(jié)點(diǎn)順序也大致相同,但是使用該公式計(jì)算的相似度僅為0.33,比C1→C2的相似度還低,這顯然是不合理的。為此對(duì)路徑相似度作如下改進(jìn):

        定義4:路徑 Ci→Cj之間的相似度度量記作:

        該系數(shù)綜合考慮了雅克比系數(shù)和相似度系數(shù)的優(yōu)點(diǎn),其中βα,為調(diào)節(jié)度量的系數(shù),雅克比系數(shù)所起的作用隨著α值的增大而增大,相似度系數(shù)的作用隨著β值的增大而增大,順序性也相應(yīng)增強(qiáng)。采用該系數(shù)進(jìn)行全部路徑之間相似度的計(jì)算,得到訪問(wèn)路徑的相似度數(shù)據(jù)矩陣S:

        1.2 改進(jìn)的事物聚類(lèi)算法

        在將訪問(wèn)路徑進(jìn)行兩兩合并的過(guò)程中,最大相似度系數(shù)起到了決定性作用,而大部分小于閾值的相似度系數(shù)對(duì)聚類(lèi)是不起作用的[5],因此要解決傳統(tǒng)聚類(lèi)算法在Web日志高維空間數(shù)據(jù)聚類(lèi)時(shí)的“維數(shù)災(zāi)難”問(wèn)題,可以通過(guò)過(guò)濾較小的相似度系數(shù),從而大大縮小數(shù)據(jù)規(guī)模。

        算法1 輸出用戶(hù)訪問(wèn)的相似路徑聚類(lèi)

        輸入:Web 日志文件,并設(shè)定一個(gè)閾值θ;

        輸出:相似路徑聚類(lèi) C = { Ci}。

        算法描述:

        C = {φ};//初始化

        While(沒(méi)有到文件尾)

        {

        從數(shù)據(jù)表中讀取記錄;

        While(沒(méi)有到文件尾)

        {

        從數(shù)據(jù)表中讀取記錄;

        計(jì)算訪問(wèn)路徑的相似度系數(shù) S = ( S')α( S'')β;

        If(S>θ)//對(duì)S和閾值θ進(jìn)行大小比較

        {保留當(dāng)前的路徑編號(hào);

        }

        }

        得到臨時(shí)聚類(lèi) Ci;

        If( Ci不是類(lèi)集合C中的一個(gè)子集)

        {

        將 Ci增加到類(lèi)集合C中;

        }

        }

        計(jì)算相交項(xiàng)對(duì)各自類(lèi)的隸屬度,并依據(jù)隸屬度的大小消除重復(fù)項(xiàng);

        輸出得到的聚類(lèi)C。

        2 改進(jìn)的偏愛(ài)路徑挖掘算法

        2.1 瀏覽頻度的偏愛(ài)度

        若用戶(hù)有m種途徑離開(kāi)某Web頁(yè)面,則出現(xiàn)次數(shù)相對(duì)較高的選擇是用戶(hù)較為感興趣的、偏愛(ài)度較高的選擇[4]。

        定義1:設(shè)定Si表示用戶(hù)通過(guò)第i種選擇進(jìn)入下一個(gè)頁(yè)面的頻度。根據(jù)傳統(tǒng)置信度以及公式1的定義,在不考慮所訪問(wèn)站點(diǎn)的結(jié)構(gòu)對(duì)傳統(tǒng)置信度的限制的情況下,設(shè)定用戶(hù)的第i種選擇的置信度為:

        定義2:對(duì)某一網(wǎng)站,設(shè)定其中所有URL集為U,所有子路徑集為W,假如Ww?,則wx∈?(x表示由Uu∈?構(gòu)成的頁(yè)面瀏覽序列,其中第i位表示第i個(gè)瀏覽頁(yè)面),該瀏覽序列的前m位是相同的,但第m+1位存在n個(gè)不同的頁(yè)面,表示從m位到m+1位有n種不同的瀏覽途徑,因此,設(shè)定第j(j=1,2,…,n)種瀏覽途徑的偏愛(ài)度為:

        由此可見(jiàn),在n>1時(shí),由于偏愛(ài)度系數(shù)P在n種選擇中考慮了用戶(hù)通過(guò)第i種途徑瀏覽網(wǎng)頁(yè)的可能性,因此比傳統(tǒng)置信度更能準(zhǔn)確地反映出用戶(hù)的興趣度。

        2.2 瀏覽興趣的偏愛(ài)度

        公式5的算法僅僅考慮了用戶(hù)瀏覽頁(yè)面的頻度,這是不全面的[6,7]。因?yàn)橛脩?hù)的興趣度與其訪問(wèn)頁(yè)面的大小、時(shí)間、次數(shù)均有關(guān)系。頁(yè)面大則瀏覽時(shí)間長(zhǎng);瀏覽時(shí)間長(zhǎng),則說(shuō)明用戶(hù)的瀏覽興趣度高;同時(shí),用戶(hù)的瀏覽興趣度還取決于訪問(wèn)次數(shù)。

        定義3:用戶(hù)的瀏覽興趣度記作I(URL.time,URL.size,URL.num),設(shè)定頁(yè)面URLi→U RLj的次數(shù)為num,在頁(yè)面 U RLj的訪問(wèn)時(shí)間為 U RLi→j.time ,頁(yè)面URLj的大小為 U RLj.s i ze 。則定義用戶(hù)的興趣度為:

        2.3 改進(jìn)的偏愛(ài)路徑挖掘算法

        設(shè)定某一網(wǎng)站有n個(gè)URL頁(yè)面,在此構(gòu)造出一個(gè)URL-URL矩陣,其中行元素為URL-Reference,列元素為URL,元素值為用戶(hù)從一個(gè)引用頁(yè)鏈接到訪問(wèn)頁(yè)的興趣度值;并在行和列中各自增設(shè)一個(gè)Null空值,如果用戶(hù)是直接輸入網(wǎng)頁(yè)地址或者是從其他網(wǎng)站鏈接訪問(wèn)頁(yè)面,則Null空值就出現(xiàn)在行中;如果用戶(hù)在所訪問(wèn)的頁(yè)面上退出網(wǎng)站或者從該網(wǎng)站鏈接到外部站點(diǎn),則Null空值就出現(xiàn)在列向量中[8]。另外,任一網(wǎng)頁(yè)的引用頁(yè)都不能為自身,因此該矩陣的對(duì)角線元素為0。

        例1挖掘用戶(hù)偏愛(ài)路徑的過(guò)程

        Null A B C D E F G H 總和Null 0 63 15 2 5 0 0 0 5 90 A 6 0 36 35 0 0 0 0 0 77 B 43 0 0 0 6 40 0 0 8 97 C 3 0 0 0 0 10 30 0 0 43 D 16 0 0 0 0 8 0 35 20 79 E 3 0 0 0 0 0 31 0 0 34 F 5 0 0 23 0 0 0 0 0 28 G 4 45 0 0 0 0 0 0 0 49 H 6 0 0 0 0 0 0 0 0 6

        算法2 改進(jìn)的Web瀏覽偏愛(ài)路徑挖掘算法

        輸入:設(shè)定Web瀏覽矩陣M[n+1][n+1],Sup表示瀏覽支持度閾值,Pre表示瀏覽偏愛(ài)度閾值;

        輸出:Web瀏覽偏愛(ài)路徑集合NPS。

        3 實(shí)驗(yàn)結(jié)果分析

        設(shè)定URL表示站點(diǎn)頁(yè)面的數(shù)目,采用上述算法可以得出挖掘?yàn)g覽偏愛(ài)子路徑的時(shí)間復(fù)雜度是,將相同路徑進(jìn)行合并的時(shí)間是,從而得出總時(shí)間是

        在實(shí)驗(yàn)過(guò)程中,采用包含25930條記錄,35個(gè)頁(yè)面的Web日志作為實(shí)驗(yàn)對(duì)象,分別使用本文提出的改進(jìn)偏愛(ài)路徑挖掘算法與MFP算法在設(shè)定的閾值控制下進(jìn)行路徑挖掘,在這兩種算法挖掘出相同數(shù)量的偏愛(ài)子路徑和頻繁瀏覽子路徑的情況下,與已知的該網(wǎng)站訪問(wèn)偏愛(ài)路徑進(jìn)行比較,從而得出各自的準(zhǔn)確性。

        圖1 算法的準(zhǔn)確度比較

        由此可見(jiàn),本文提出的改進(jìn)算法比MFP算法在挖掘偏愛(ài)子路徑方面有更高的準(zhǔn)確性。同時(shí),從圖1可以看出隨著挖掘路徑數(shù)的增加這兩個(gè)算法的準(zhǔn)確性都有所降低。這是因?yàn)橥诰蚺d趣度量閾值會(huì)隨著路徑個(gè)數(shù)的增加而降低,致使挖掘偏愛(ài)路徑的可信度也隨之下降。為了檢測(cè)兩種算法的挖掘時(shí)間性能,在實(shí)驗(yàn)中,將實(shí)驗(yàn)對(duì)象分別劃分為5000條記錄、15000條記錄、20000條記錄、25000條記錄,通過(guò)對(duì)執(zhí)行時(shí)間進(jìn)行比較得到圖2。從中可以看出改進(jìn)的用戶(hù)瀏覽模式挖掘算法比傳統(tǒng)的MFP算法的執(zhí)行時(shí)間增加幅度小,擴(kuò)展性好。

        圖2 算法的時(shí)間性能比較

        4 結(jié)束語(yǔ)

        本文提出了一種改進(jìn)的基于事物聚類(lèi)W eb日志用戶(hù)偏愛(ài)瀏覽路徑的挖掘方法,首先通過(guò)對(duì)事物聚類(lèi)算法的改進(jìn),消除重復(fù)項(xiàng)及相交項(xiàng),從而更準(zhǔn)確地反應(yīng)出Web用戶(hù)訪問(wèn)路徑相似度,接著以一個(gè)三元組模型為基礎(chǔ),對(duì)多個(gè)相似用戶(hù)群體相關(guān)頁(yè)面集的偏愛(ài)瀏覽路徑進(jìn)行了挖掘。最后通過(guò)與其他算法相比較,本文算法在準(zhǔn)確性和時(shí)間性能等方面具有一定優(yōu)越性,能針對(duì)不同用戶(hù)群體的Web瀏覽偏愛(ài)路徑進(jìn)行更加全面、精確地挖掘,可擴(kuò)展性好。

        [1] 李健,徐超,譚守標(biāo).一種Web數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)和研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2009(02):70-73.

        [2] Pierrako S D,Paliouras G.Web Usage M ining as a T00l for Personalization:A survey[J].K luw er A cadem ic Publishers,2003:311-372.

        [3] Myra S,Lukaa F. A data m iner analyzing the navigational behaviour of web users [EB/OL].http://www.w iw i.hu_berlin.de/~myra/w_acai99.ps.gz,1999-07-16/2001-07-28.

        [4] 付玉.基于W eb日志的頻繁瀏覽路徑挖掘技術(shù)研究[D].遼寧師范大學(xué),2009,5.

        [5] 吳雯雯.基于W eb的用戶(hù)訪問(wèn)模式挖掘算法及其應(yīng)用研究[D]. 合肥工業(yè)大學(xué),2008,5.

        [6] 繆勇,宋斌.基于Web日志的典型匿名用戶(hù)路徑挖掘研究[J].計(jì)算機(jī)應(yīng)用,2009,29(10):2774-2777.

        [7] 張海玉,劉曉霞.一種挖掘用戶(hù)瀏覽模式的新方法[J],計(jì)算機(jī)應(yīng)用與軟件,2007,24(2):143-150.

        [8] 朱志國(guó),鄧貴仕.持久偏愛(ài)的Web用戶(hù)訪問(wèn)路徑信息挖掘方法[J],情報(bào)學(xué)報(bào),2010:29(2):208-214.

        [9] 富麗娜.關(guān)聯(lián)規(guī)則算法研究及其在汽車(chē)銷(xiāo)售網(wǎng)站的應(yīng)用[D], 大連理工大學(xué),2007.10.

        猜你喜歡
        雅克日志頁(yè)面
        大狗熊在睡覺(jué)
        讀書(shū)的快樂(lè)
        刷新生活的頁(yè)面
        讀書(shū)的快樂(lè)
        曾擔(dān)任過(guò)12年國(guó)際奧委會(huì)主席的雅克·羅格逝世,享年79歲
        一名老黨員的工作日志
        扶貧日志
        心聲歌刊(2020年4期)2020-09-07 06:37:14
        游學(xué)日志
        雅克堅(jiān)信:法雷奧會(huì)繼續(xù)保持強(qiáng)勁的增勢(shì)
        一種基于粗集和SVM的Web日志挖掘模型
        岛国AV一区二区三区在线观看| 巨爆中文字幕巨爆区爆乳| 欧美丰满熟妇性xxxx| 久久久久久久综合狠狠综合| 亚洲精品aa片在线观看国产| 国产黄a三级三级三级av在线看 | 国产精品一区二区av片| 色婷婷av一区二区三区不卡| 日本免费视频一区二区三区| 亚洲国产性夜夜综合另类| 久久天堂av综合合色| 亚洲精品综合欧美一区二区三区| 欧美在线视频免费观看| 成人国产在线播放自拍| 日本午夜剧场日本东京热| 国产欧美日韩精品专区| 免费人成黄页在线观看视频国产| 亚洲三区二区一区视频| 亚洲国产综合精品一区| 国产精品美女一区二区视频| 欧洲日本一线二线三线区本庄铃| 乱色视频中文字幕在线看| 玩弄丝袜美腿超短裙校花| 美女露出自己的性感大胸一尤内衣 | 日韩精品免费视频久久 | 激情综合色五月丁香六月亚洲 | 免费啪啪av人妻一区二区| 国产高颜值女主播在线| 欧美亚洲国产片在线播放| 国产羞羞视频在线观看| 国内自拍视频在线观看h| 美女脱了内裤露出奶头的视频| 婷婷久久久亚洲欧洲日产国码av| 亚洲国产精品中文字幕日韩| 国产女人乱码一区二区三区| 国产二级一片内射视频播放| 欧美日韩精品乱国产538| 亚洲成生人免费av毛片| 亚洲香蕉av一区二区三区| 7777色鬼xxxx欧美色妇| 亚洲午夜精品久久久久久人妖|