[摘 要]本文采用K-均值聚類算法對Web日志進行挖掘,并將Web日志挖掘的知識用于網(wǎng)頁推薦。在網(wǎng)頁推薦環(huán)節(jié),我們采用了打分函數(shù),這個函數(shù)充分考慮了各種因素對用戶訪問的影響。
[關鍵詞]K- means算法 Web日志挖掘 網(wǎng)頁推薦 打分函數(shù)
中圖分類號:TM121.1.3 文獻標識碼:B 文章編號:1009-914X(2016)01-0067-02
1.引 言
隨著全球經(jīng)濟一體化的發(fā)展,市場營銷策略已愈來愈強調面向市場的方式,企業(yè)想要在競爭中取得優(yōu)勢地位,重要的是按照不同用戶群體的特定需要,提供全面的服務,精確滿足各個消費群體的不同需求。Web聚類挖掘正是因為能夠實現(xiàn)這一目標而成為當前發(fā)展電子商務的一個重要課題。
2.Web日志上的聚類挖掘
2.1Web日志聚類的分類
Web日志上的聚類有兩種:用戶聚類和頁面聚類。用戶聚類是對用戶的會話進行分析。通過聚類分析的方法,將訪問模式相同的用戶聚在一起,將訪問模式不同的用戶區(qū)分開。頁面聚類是對被用戶訪問的頁面情況進行分析,根據(jù)用戶訪問內容,發(fā)現(xiàn)被相同用戶訪問的頁面,并將其歸為一組。
2.2會話以及會話矩陣的表示
這里采用向量的方式來表示會話,為了表示一個會話向量需要對網(wǎng)站中的所有網(wǎng)頁進行編碼,從而將網(wǎng)頁用對應的編碼來代替。設會話向量V=(U1,U2,U3……Un),其中Ui的值是對編號為i的網(wǎng)頁進行訪問的次數(shù),如果編號為i的網(wǎng)頁沒有被瀏覽,Ui=0。有了會話向量,就可以將日志中所有的會話用向量的方式表示出來,然后就可以得到會話矩陣。
2.3會話的相似度量方法
2.3.1會話間的相似度
這里用夾角余弦法來定義兩個會話i,j之間的相似度S(i,j),設會話i的會話Vi=(mi1,mi2, mi3……min),會話j的會話向量為Vj=(mj1,mj2, mj3……mjn),那么
設相似矩陣為R=(rij)s*s,rij用來代替會話i和j的相似度:
2.3.2相似度矩陣
相似度矩陣:對于矩陣R,,其中rij=S(i,j),即會話i和j的相似度。矩陣R為會話集合的相似度矩陣。
3.Web日志上的聚類分析算法
3.1K-均值聚類算法
我們選擇聚類算法中的K-均值聚類算法(k-means algorithm)來進行Web上的用戶聚類和網(wǎng)頁聚類,K-均值聚類算法是無監(jiān)督分類中的一種基本方法,其也稱為C-均值算法,其基本思想是:通過迭代的方法,逐次更新各聚類中心的值,直至得到最好的聚類結果。該算法必須在開始輸入一個K值,作為該算法在數(shù)據(jù)集上分割并計算后輸出聚類的數(shù)量。
算法的開始是隨機的從聚類對象集合中取K個對象,最為最初的聚類中心,然后算法開始循環(huán)迭代,對每一個輸入的對象向量計算它與K個聚類中心的距離,找到距離對象最近的聚類,并將其歸為該聚類。重新計算聚類的中心,然后依次迭代,知道聚類的成員不再變化,或者用來衡量聚類質量的目標函數(shù)不存在明顯的變化,即變化小于一個可以認可的值。
4. Web日志聚類結果的應用
Web日志聚類結果最直接的用途就是網(wǎng)頁推薦。網(wǎng)頁推薦的過程,首先要提取用戶的訪問模式,然后對網(wǎng)站中的各個網(wǎng)頁進行打分,按照得分的高低來排序,最后將得分較高的若干網(wǎng)頁推薦出去。網(wǎng)頁推薦最重要的一個環(huán)節(jié)就是對打分函數(shù)的設計,即依據(jù)什么樣的函數(shù)來對網(wǎng)頁進行打分。在定義打分函數(shù)之前我們先定義以下幾個概念:
會話片段向量:對于一個當前還結束的會話,構造一個向量ui=(u1,u2, u3……un),其中n是經(jīng)過了預處理后網(wǎng)頁的總數(shù)目,ui的值是該會話對編號為i的網(wǎng)頁的訪問次數(shù),我們稱向量u為一個會話片段向量。
網(wǎng)頁訪問向量:p=(p1,p2, p3……pn), 其中n是經(jīng)過了預處理后會話的總數(shù)目。pi是編號為i的會話對網(wǎng)頁p的訪問次數(shù)。
聚類支持度函數(shù):S_cluster(u,p)=Projp(maxc(u,ci)),其中ci是對會話的聚類分析后聚類中編號為i的聚類簇的中心。maxc(u,ci)函數(shù)的值是同會話片段向量u相似度最大的中心向量。
聚類支持函數(shù)是從用戶聚類的角度來考慮預期的推薦網(wǎng)頁,即用當前的會話片段向量距離最近的聚類中心的屬性來考慮對網(wǎng)頁p的支持程度。
點擊率:
其中Ci是經(jīng)過預處理后,用戶對編號為i的網(wǎng)頁的總訪問次數(shù)。Cp是經(jīng)過預處理后,用戶對網(wǎng)頁p的總訪問次數(shù)。點擊率函數(shù)參照了網(wǎng)頁p原來被訪問的數(shù)據(jù),從概率的角度來考慮網(wǎng)頁p被再次訪問的可能性。
打分函數(shù): f(p,pl,u)=S_cluster(u,p)×S_click(p)×sim(p,pl)
其中pl是會話u最近訪問的頁面。p是當前需要打分的頁面。sim(p,pl)是網(wǎng)頁p和網(wǎng)頁pl的相似度。
有了打分函數(shù),就可以對一個具體的用戶推薦網(wǎng)頁。對于一個當前需要推薦網(wǎng)頁的用戶,首先提取他的訪問會話片段向量u。然后,從數(shù)據(jù)庫中得到會話聚類分析的結果,計算出距離當前用戶最近那一個聚類簇C,計算C的聚類中心,根據(jù)日志中的時間屬性,找到會話中的最后訪問網(wǎng)頁pl。假定網(wǎng)頁pl所屬的網(wǎng)頁聚類為K,對于推薦網(wǎng)頁集合中每一個網(wǎng)頁根據(jù)打分函數(shù)的定義,計算它的得分,最后按照得分的高低對所有打分后的網(wǎng)頁進行排序,將排序在前面的網(wǎng)頁推薦給用戶U。
5.總結
本文采用K-均值聚類算法對Web日志中的用戶和頁面進行聚類,并將聚類結果用戶網(wǎng)頁推薦。在網(wǎng)頁推薦過程我們運用打分函數(shù)對網(wǎng)頁進行排序,把分數(shù)的較高的網(wǎng)頁推薦給網(wǎng)頁,這樣更能滿足用戶的需要。
參考文獻
[1] 陳安,陳寧,周龍驤.數(shù)據(jù)挖掘技術及應用.北京:科學出版社.2006.3
[2] 康曉東.基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術.北京:機械工業(yè)出版社.2004
[3] 王春霞.基于Web日志的挖掘研究[D].鄭州大學.2003
[4] 范明.聚類算法在Web挖掘中的應用[D].西北工業(yè)大學.2007
[5] 付國瑜. 基于Web日志的數(shù)據(jù)挖掘研究[D].重慶大學.2007
作者簡介:
令狐紅英(1982—— ),女,貴州師范學院教師,講師,主要研究方向為數(shù)據(jù)庫技術與軟件工程。