一種基于K-均值聚類算法的站點(diǎn)結(jié)構(gòu)優(yōu)化研究
隨著互聯(lián)網(wǎng)科技的進(jìn)步,網(wǎng)站與互聯(lián)網(wǎng)資源已經(jīng)成為人們生活中不可或缺的一部分,據(jù)統(tǒng)計(jì)2014年全球互聯(lián)網(wǎng)網(wǎng)站已破10億,網(wǎng)民數(shù)量逼近30億,與此同時(shí)這個(gè)數(shù)量仍在不斷增長(zhǎng)。在開啟海量信息分享時(shí)代的同時(shí),如何使人們更加高速有效地利用網(wǎng)絡(luò)資源已成為各大互聯(lián)網(wǎng)網(wǎng)站關(guān)注的焦點(diǎn)之一。要在同類型網(wǎng)站中脫穎而已,網(wǎng)站的設(shè)計(jì)者往往根據(jù)不同的用戶瀏覽模式和使用習(xí)慣,設(shè)計(jì)或優(yōu)化出適合不同用戶的網(wǎng)站,提高網(wǎng)站的訪問量和訪問效率。因此,本文在此基礎(chǔ)上提出了一種K-均值聚類算法,對(duì)網(wǎng)站用戶Web日志數(shù)據(jù)進(jìn)行提取聚類,分析聚類后用戶簇所訪問網(wǎng)頁的特征以實(shí)現(xiàn)后期對(duì)網(wǎng)站站點(diǎn)結(jié)構(gòu)的優(yōu)化目的。
Web網(wǎng)站存在的問題
當(dāng)下,網(wǎng)絡(luò)信息量的迅速增長(zhǎng)和網(wǎng)站結(jié)構(gòu)的日益復(fù)雜與不斷變化,在給用戶帶來海量信息的同時(shí),也存在一些亟待解決的問題。
信息的爆炸性增長(zhǎng)提高了用戶瀏覽和查找相關(guān)信息成本。用戶在較短的時(shí)間內(nèi)難以準(zhǔn)確定位所需的信息。
同時(shí)對(duì)于網(wǎng)站經(jīng)營者而言如何提高用戶訪問量和增加用戶成為面臨的主要問題。通過優(yōu)化網(wǎng)站以提高網(wǎng)站用戶的訪問滿意度。
因此,可以通過調(diào)整網(wǎng)站站點(diǎn)結(jié)構(gòu)以提高網(wǎng)站W(wǎng)eb服務(wù)的效率,方便用戶在有限的時(shí)間內(nèi)從大量的數(shù)據(jù)與信息中快速的訪問與查找自己所需的信息,從而降低用戶的瀏覽成本。
算法思想
K-均值聚類算法廣泛的應(yīng)用于Web日志挖掘,對(duì)網(wǎng)站用戶的訪問特征分析歸類。
該算法主要思想:隨機(jī)地選擇K個(gè)對(duì)象,每個(gè)對(duì)象初始地代表了一個(gè)簇的平均值或中心,然后對(duì)剩余的每個(gè)對(duì)象根據(jù)其與各個(gè)簇中心的距離(這里采用歐式距離),將它賦給最近的簇;重新計(jì)算每個(gè)簇的平均值,不斷重復(fù)這個(gè)過程,直到聚類中心不會(huì)再發(fā)生變化。聚類后的結(jié)果是使簇內(nèi)具有較高的相似度,而簇間的相似度較低。
其中,E是簇內(nèi)所有對(duì)象的平均誤差的總和,x是空間中的點(diǎn),表示給定的數(shù)據(jù)對(duì)象,mi是第i個(gè)簇Ci的均值。
算法描述
算法改進(jìn)
在對(duì)網(wǎng)站站點(diǎn)研究的過程中同時(shí)包含訪問用戶和網(wǎng)站頁面本身兩個(gè)對(duì)象,因此,在本文的K-均值聚類算法中定義每個(gè)數(shù)據(jù)對(duì)象包含兩個(gè)特征值。
建立用戶與頁面的相關(guān)矩陣
圖1 矩陣分布
圖2 程序聚類結(jié)果
圖3 首次聚類
圖4 二次聚類
圖5 三次聚類
圖6 最終聚類
其中:T(Pj)為用戶的訪問時(shí)長(zhǎng)。為瀏覽頁面的有效時(shí)間,ti為相應(yīng)訪問時(shí)間,si為訪問當(dāng)前頁面Pj中的資源量,為頁面Pj中的信息量。
f(Pj)為頁面的點(diǎn)擊率,其值的大小與偏好值成正相關(guān)。c為訪問頁面Pj的次數(shù),而C為在同一時(shí)間段內(nèi)訪問所有頁面的次數(shù)和。
其中為該頁面加載時(shí)用戶的滿意時(shí)間值,R為加載速度的可接受值。
表1 相關(guān)矩陣表
綜上建立用于測(cè)試的數(shù)據(jù)矩陣(即用戶與被訪問頁面的相關(guān)矩陣)如矩陣表1所示。每一縱項(xiàng)表示一段時(shí)間內(nèi)的用戶集;每一橫項(xiàng)表示這段時(shí)間內(nèi)被訪問的頁面集。
基于K-均值算法的用戶聚類
利用上述的K-均值聚類算法以矩陣表1為例實(shí)現(xiàn)用戶聚類,第一維特征值數(shù)據(jù)值即用戶頁面的偏好程度,將具有相似瀏覽模式的用戶聚類成一簇,通過聚類發(fā)現(xiàn)該簇內(nèi)的用戶的訪問興趣和愛好。例如矩陣表中的24名用戶分布如圖1。
矩陣中24名用戶聚類的結(jié)果如圖2。
聚類過程展示如圖3-圖6所示。
由上述聚類結(jié)果可見所有測(cè)試用戶被聚類為紅色區(qū)域和藍(lán)色區(qū)域兩大類,根據(jù)聚類算法的特點(diǎn)保證各簇內(nèi)具有較高的相似度,而兩個(gè)簇間的相似度較低。
優(yōu)化方向
由用戶聚類結(jié)果可區(qū)分出給網(wǎng)站的常用用戶和新用戶,以及該類用戶如紅色區(qū)域用戶具有相似的訪問愛好,因此,可根據(jù)該類用戶愛好的不同對(duì)網(wǎng)站結(jié)構(gòu)重新進(jìn)行布局,已達(dá)到提高用戶體驗(yàn)的效果。于此同時(shí)對(duì)每一類用戶經(jīng)常訪問的網(wǎng)頁頁面屬性進(jìn)行分析:
當(dāng)>0.8,高效頁面:保持
當(dāng)>=0.4,一般頁面:可以使用
當(dāng)<0.4,低效頁面:需調(diào)整
如此類用戶經(jīng)常訪問的頁面的屬性值較低但用戶數(shù)量有較多時(shí)就要對(duì)該網(wǎng)站的性能進(jìn)行優(yōu)化,如設(shè)置專屬服務(wù)、提升硬件配置等作為下一研究課題,以提高用戶訪問滿意度。
本文提出了一種基于K-均值聚類算法的網(wǎng)站站點(diǎn)結(jié)構(gòu)優(yōu)化方法,通過建立用戶與頁面的相關(guān)屬性矩陣,利用K-均值聚類算法完成對(duì)用戶的聚類,根據(jù)聚類結(jié)果和頁面屬性值調(diào)整整個(gè)網(wǎng)站站點(diǎn)內(nèi)容和結(jié)構(gòu),達(dá)到網(wǎng)站優(yōu)化的目的。本研究還存在一些未解決的問題需要進(jìn)一步驗(yàn)證,希望能在此方面繼續(xù)研究工作。
10.3969/j.issn.1001- 8972.2016.20.024