亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于聚類的Web日志挖掘

        2016-04-25 11:42:43令狐紅英
        中國科技博覽 2016年1期
        關鍵詞:means算法

        [摘 要]本文采用K-均值聚類算法對Web日志進行挖掘,并將Web日志挖掘的知識用于網(wǎng)頁推薦。在網(wǎng)頁推薦環(huán)節(jié),我們采用了打分函數(shù),這個函數(shù)充分考慮了各種因素對用戶訪問的影響。

        [關鍵詞]K- means算法 Web日志挖掘 網(wǎng)頁推薦 打分函數(shù)

        中圖分類號:TM121.1.3 文獻標識碼:B 文章編號:1009-914X(2016)01-0067-02

        1.引 言

        隨著全球經(jīng)濟一體化的發(fā)展,市場營銷策略已愈來愈強調面向市場的方式,企業(yè)想要在競爭中取得優(yōu)勢地位,重要的是按照不同用戶群體的特定需要,提供全面的服務,精確滿足各個消費群體的不同需求。Web聚類挖掘正是因為能夠實現(xiàn)這一目標而成為當前發(fā)展電子商務的一個重要課題。

        2.Web日志上的聚類挖掘

        2.1Web日志聚類的分類

        Web日志上的聚類有兩種:用戶聚類和頁面聚類。用戶聚類是對用戶的會話進行分析。通過聚類分析的方法,將訪問模式相同的用戶聚在一起,將訪問模式不同的用戶區(qū)分開。頁面聚類是對被用戶訪問的頁面情況進行分析,根據(jù)用戶訪問內容,發(fā)現(xiàn)被相同用戶訪問的頁面,并將其歸為一組。

        2.2會話以及會話矩陣的表示

        這里采用向量的方式來表示會話,為了表示一個會話向量需要對網(wǎng)站中的所有網(wǎng)頁進行編碼,從而將網(wǎng)頁用對應的編碼來代替。設會話向量V=(U1,U2,U3……Un),其中Ui的值是對編號為i的網(wǎng)頁進行訪問的次數(shù),如果編號為i的網(wǎng)頁沒有被瀏覽,Ui=0。有了會話向量,就可以將日志中所有的會話用向量的方式表示出來,然后就可以得到會話矩陣。

        2.3會話的相似度量方法

        2.3.1會話間的相似度

        這里用夾角余弦法來定義兩個會話i,j之間的相似度S(i,j),設會話i的會話Vi=(mi1,mi2, mi3……min),會話j的會話向量為Vj=(mj1,mj2, mj3……mjn),那么

        設相似矩陣為R=(rij)s*s,rij用來代替會話i和j的相似度:

        2.3.2相似度矩陣

        相似度矩陣:對于矩陣R,,其中rij=S(i,j),即會話i和j的相似度。矩陣R為會話集合的相似度矩陣。

        3.Web日志上的聚類分析算法

        3.1K-均值聚類算法

        我們選擇聚類算法中的K-均值聚類算法(k-means algorithm)來進行Web上的用戶聚類和網(wǎng)頁聚類,K-均值聚類算法是無監(jiān)督分類中的一種基本方法,其也稱為C-均值算法,其基本思想是:通過迭代的方法,逐次更新各聚類中心的值,直至得到最好的聚類結果。該算法必須在開始輸入一個K值,作為該算法在數(shù)據(jù)集上分割并計算后輸出聚類的數(shù)量。

        算法的開始是隨機的從聚類對象集合中取K個對象,最為最初的聚類中心,然后算法開始循環(huán)迭代,對每一個輸入的對象向量計算它與K個聚類中心的距離,找到距離對象最近的聚類,并將其歸為該聚類。重新計算聚類的中心,然后依次迭代,知道聚類的成員不再變化,或者用來衡量聚類質量的目標函數(shù)不存在明顯的變化,即變化小于一個可以認可的值。

        4. Web日志聚類結果的應用

        Web日志聚類結果最直接的用途就是網(wǎng)頁推薦。網(wǎng)頁推薦的過程,首先要提取用戶的訪問模式,然后對網(wǎng)站中的各個網(wǎng)頁進行打分,按照得分的高低來排序,最后將得分較高的若干網(wǎng)頁推薦出去。網(wǎng)頁推薦最重要的一個環(huán)節(jié)就是對打分函數(shù)的設計,即依據(jù)什么樣的函數(shù)來對網(wǎng)頁進行打分。在定義打分函數(shù)之前我們先定義以下幾個概念:

        會話片段向量:對于一個當前還結束的會話,構造一個向量ui=(u1,u2, u3……un),其中n是經(jīng)過了預處理后網(wǎng)頁的總數(shù)目,ui的值是該會話對編號為i的網(wǎng)頁的訪問次數(shù),我們稱向量u為一個會話片段向量。

        網(wǎng)頁訪問向量:p=(p1,p2, p3……pn), 其中n是經(jīng)過了預處理后會話的總數(shù)目。pi是編號為i的會話對網(wǎng)頁p的訪問次數(shù)。

        聚類支持度函數(shù):S_cluster(u,p)=Projp(maxc(u,ci)),其中ci是對會話的聚類分析后聚類中編號為i的聚類簇的中心。maxc(u,ci)函數(shù)的值是同會話片段向量u相似度最大的中心向量。

        聚類支持函數(shù)是從用戶聚類的角度來考慮預期的推薦網(wǎng)頁,即用當前的會話片段向量距離最近的聚類中心的屬性來考慮對網(wǎng)頁p的支持程度。

        點擊率:

        其中Ci是經(jīng)過預處理后,用戶對編號為i的網(wǎng)頁的總訪問次數(shù)。Cp是經(jīng)過預處理后,用戶對網(wǎng)頁p的總訪問次數(shù)。點擊率函數(shù)參照了網(wǎng)頁p原來被訪問的數(shù)據(jù),從概率的角度來考慮網(wǎng)頁p被再次訪問的可能性。

        打分函數(shù): f(p,pl,u)=S_cluster(u,p)×S_click(p)×sim(p,pl)

        其中pl是會話u最近訪問的頁面。p是當前需要打分的頁面。sim(p,pl)是網(wǎng)頁p和網(wǎng)頁pl的相似度。

        有了打分函數(shù),就可以對一個具體的用戶推薦網(wǎng)頁。對于一個當前需要推薦網(wǎng)頁的用戶,首先提取他的訪問會話片段向量u。然后,從數(shù)據(jù)庫中得到會話聚類分析的結果,計算出距離當前用戶最近那一個聚類簇C,計算C的聚類中心,根據(jù)日志中的時間屬性,找到會話中的最后訪問網(wǎng)頁pl。假定網(wǎng)頁pl所屬的網(wǎng)頁聚類為K,對于推薦網(wǎng)頁集合中每一個網(wǎng)頁根據(jù)打分函數(shù)的定義,計算它的得分,最后按照得分的高低對所有打分后的網(wǎng)頁進行排序,將排序在前面的網(wǎng)頁推薦給用戶U。

        5.總結

        本文采用K-均值聚類算法對Web日志中的用戶和頁面進行聚類,并將聚類結果用戶網(wǎng)頁推薦。在網(wǎng)頁推薦過程我們運用打分函數(shù)對網(wǎng)頁進行排序,把分數(shù)的較高的網(wǎng)頁推薦給網(wǎng)頁,這樣更能滿足用戶的需要。

        參考文獻

        [1] 陳安,陳寧,周龍驤.數(shù)據(jù)挖掘技術及應用.北京:科學出版社.2006.3

        [2] 康曉東.基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術.北京:機械工業(yè)出版社.2004

        [3] 王春霞.基于Web日志的挖掘研究[D].鄭州大學.2003

        [4] 范明.聚類算法在Web挖掘中的應用[D].西北工業(yè)大學.2007

        [5] 付國瑜. 基于Web日志的數(shù)據(jù)挖掘研究[D].重慶大學.2007

        作者簡介:

        令狐紅英(1982—— ),女,貴州師范學院教師,講師,主要研究方向為數(shù)據(jù)庫技術與軟件工程。

        猜你喜歡
        means算法
        機器學習中K—means聚類算法的分析和應用
        應用K—means聚類算法劃分曲面及實驗驗證
        K—Means算法及其在卷煙零售門店庫存聚類分析中的應用
        SIFT算法在木材紋理分類上的應用
        基于K—Means聚類算法入侵檢測系統(tǒng)研究
        基于聚類算法的DNS攻擊檢測
        計算機時代(2016年7期)2016-07-15 15:53:53
        基于譜聚類的網(wǎng)絡入侵檢測算法研究
        計算機時代(2016年6期)2016-06-17 15:56:18
        基于Weka的Apriori算法在原油產(chǎn)量預測中的應用
        基于HSI顏色空間的小麥粉精度自動識別研究
        基于百度地圖的改進的K—means算法研究
        軟件(2016年1期)2016-03-08 18:48:49
        亚洲av午夜国产精品无码中文字 | 人妻丰满熟妇av无码区| 国产欧美日韩一区二区三区在线| 日本韩国一区二区三区 | 国产又黄又大又粗的视频| 久久99久久久无码国产精品色戒| 亚洲一区二区三在线播放| 经典黄色一区二区三区| 日本无遮挡真人祼交视频| 曰韩亚洲av人人夜夜澡人人爽| 日韩av高清无码| 特一级熟女毛片免费观看| 免费av一区男人的天堂| 国产精品久久久天天影视| 欧美日韩国产码高清综合人成 | 国产亚洲一区二区在线观看| 精品日韩欧美一区二区在线播放| 国模吧无码一区二区三区| 中文亚洲成a人片在线观看| 国产一区二区精品久久凹凸| 日本一区二区高清视频在线| 男女啪啪视频高清视频| 国产超碰女人任你爽| 婷婷五月综合缴情在线视频| 噜噜噜色97| 在线不卡av一区二区| 国产a级毛片久久久精品毛片| 尤物视频在线观看| 日本精品一区二区三本中文| 亚洲一区二区三区毛片| 日本一区二区三级在线观看| 亚洲看片lutube在线观看| 久久国产热精品波多野结衣av| 亚洲成人激情在线影院| 亚洲精品视频1区2区| 美女脱了内裤张开腿让男人桶网站| 亚洲精品国产第一区二区尤物| 久久精品国产亚洲AV高清wy| 国产精品一区二区三区四区亚洲| 成人网站在线进入爽爽爽| 藏春阁福利视频|