趙丙秀
DOI:10.16644/j.cnki.cn33-1094/tp.2016.02.014
摘 ?要: 針對網(wǎng)絡(luò)運營商所關(guān)心的用戶行為分析問題,探討如何對網(wǎng)絡(luò)用戶的行為進行分析, 提出了一種用戶行為分析分類的模型。首先根據(jù)關(guān)鍵字的關(guān)聯(lián)性進行聚類分析,通過關(guān)鍵字被用戶檢索或瀏覽的次數(shù)對用戶進行分類,然后在此基礎(chǔ)上提出了加速算法和半衰期的概念,全面地闡述和分析了用戶行為分析的總體框架。
關(guān)鍵詞: 用戶行為分析; 聚類算法; 關(guān)聯(lián)性; 加速算法
中圖分類號:TP393.4 ? ? ? ? ?文獻標志碼:A ? ? 文章編號:1006-8228(2016)02-46-03
Research on user behavior analysis and classification model
Zhao Bingxiu1,2
(1. Wuhan Vocational College of Software and Engineering, Wuhan, Hubei 430205, China; 2. The Open University of Wuhan)
Abstract: In this paper, the problems of user behavior analysis of network operators and how to analyze the behavior of network users are discussed, and a model of user behavior analysis and classification is put forward. The cluster analysis is performed according to the correlation of the key words, users are classified by the number of the keyword searched or browsed by the user, and then the concepts of acceleration algorithm and half-life are put forward to comprehensively expound and analyze the general framework of user behavior analysis.
Key words: user behavior analysis; clustering algorithm; correlation; acceleration algorithm
0 引言
隨著互聯(lián)網(wǎng)絡(luò)的迅猛發(fā)展,以信息獲取、交流溝通類為主的基礎(chǔ)網(wǎng)絡(luò)服務(wù)正逐漸發(fā)展為以休閑娛樂、電子服務(wù)、電子商務(wù)三大類服務(wù)為主的網(wǎng)絡(luò)服務(wù)。與此同時,商業(yè)網(wǎng)站等贏利性站點需要分析用戶的行為及愛好來提供更滿意的服務(wù)使得其利潤最大化,這與提高網(wǎng)站服務(wù)的效率和個性化程度密切相關(guān);政府、科研機構(gòu)等非贏利性的網(wǎng)站也需要通過分析用戶構(gòu)成與其網(wǎng)絡(luò)行為上的特點來構(gòu)建科學的決策支持系統(tǒng)。在國內(nèi),由于網(wǎng)絡(luò)的連通性和拓撲結(jié)構(gòu),用戶的數(shù)據(jù)包信息是可以通過分光器獲得,服務(wù)的提供商可以通過對此分析而得到用戶行為分析的基本數(shù)據(jù)。
1 模型的假設(shè)
用戶行為分析依據(jù)的選取:用戶在搜索引擎上查找的關(guān)鍵字和其瀏覽的網(wǎng)頁均可作為用戶行為分析的依據(jù)。我們可以把用戶查找的關(guān)鍵字和其瀏覽網(wǎng)頁標題的分詞作為用戶感興趣的信息,關(guān)鍵詞的數(shù)目是龐大的,同時很多關(guān)鍵字之間存在相關(guān)性,可以定性的將所有的關(guān)鍵字按照其相關(guān)程度劃分為幾十個類別,從而方便對用戶的行為進行分析。
建立這個模型時,我們作了如下假設(shè):
⑴ 用戶的興趣是經(jīng)過一段比較長的時間形成的,長期形成的興趣是穩(wěn)定的,對于用戶行為的分析是以時間為維度的。
⑵ 用戶經(jīng)常關(guān)注的內(nèi)容必然是其感興趣的內(nèi)容。
⑶ 用戶長期關(guān)注的某方面內(nèi)容在該方面內(nèi)容上相對于一般人必然更專業(yè)。
⑷ 專業(yè)人士看的內(nèi)容也是專業(yè)的(不區(qū)分熱點問題和專業(yè)問題)。
⑸ 經(jīng)??茨撤矫鎸I(yè)文章的人,必然比看普及文章的人更專業(yè)。
⑹ 用戶某時間段內(nèi)不關(guān)注某方面內(nèi)容,其在該方面的了解程度會有一個衰減。
2 模型的建立與求解
2.1 模型算法設(shè)計
⑴ 關(guān)鍵詞的聚類算法設(shè)計
所有用戶在搜索引擎上檢索的關(guān)鍵詞和其瀏覽的網(wǎng)頁標題對其提取分詞然后對搜集到的分詞進行處理。假設(shè)存在n個關(guān)鍵詞,分別將其標識為P1,P2,P3,…,Pn,Pi與Pj之間的關(guān)聯(lián)度的值設(shè)為xij ,xij初始值設(shè)為0,若關(guān)鍵詞Pi與Pj同時出現(xiàn)一次,即將其xij值加1,顯然有xij=xji。
對一段相對比較長的時間內(nèi)出現(xiàn)所有關(guān)鍵詞進行處理之后得到一個無方向的強關(guān)聯(lián)圖。圖內(nèi)的每點都與多個其他點相聯(lián)系且其聯(lián)系程度可通過關(guān)聯(lián)度值的大小來確定。
根據(jù)關(guān)聯(lián)度我們對關(guān)鍵詞劃分類別。劃分方法:先遍歷一下關(guān)鍵詞關(guān)聯(lián)圖,看哪個關(guān)鍵詞周圍的加權(quán)邊最大,以這個關(guān)鍵詞為核心,作為一個類別;一共劃分出m個類別,其中包括關(guān)聯(lián)度小于某一臨界值q的其他類;然后根據(jù)這個關(guān)鍵詞最大加權(quán)邊的關(guān)鍵詞,劃入這個分類之中,對全部的m個分類都做一次,如果遇到?jīng)_突關(guān)鍵字(即此關(guān)鍵字已經(jīng)劃為另一類),則立即斷開圖里面的2個分類關(guān)鍵字的邊,繼續(xù)計算,直到m個分類劃分完畢;針對孤立點的操作在這次分類中遺棄,等待下次分類時候看是否其是否能發(fā)展成為一個分類。
⑵ 用戶分類的算法設(shè)計
一共s個用戶,每個用戶瀏覽一次某個關(guān)鍵詞,該用戶在該關(guān)鍵詞所屬的類別的權(quán)值加1,一定時間的統(tǒng)計后,該用戶對m個類別分別有一個權(quán)值,將其定為用戶在該類別上的等級分,分別標記為s1,s2,s3,…,sm,顯然si的大小反映出該用戶對該類別的興趣的大小,取前t個興趣作為用戶主要興趣。
⑶ 用戶等級分衰減的算法設(shè)計
當用戶某天沒有瀏覽某類別的文章或檢索相關(guān)字段時,其等級分相應(yīng)會產(chǎn)生一個衰減。這里采取最常見的半衰期算法,等級分衰減的速度與等級分的高低成反比。設(shè)等級分為y,時間為t(單位為天,以天為單位進行衰減),r為常量,根據(jù)長期數(shù)據(jù)分析可以獲得:
⑷ 用戶專家等級分的計算
用戶等級分到達一定程度,根據(jù)長期關(guān)注一個領(lǐng)域,就是傻瓜也會逐步精通,直至成為專家。同時專家關(guān)注的大部分文章必然也是專業(yè)性文章的原則,對專家的分類顯得非常重要,一個是對等級分計算的加速能起到非常關(guān)鍵的作用,另外一個他也能決定文章的等級,同時也是區(qū)分用戶群的重要標志。
專家等級一般采取3級制或5級制,常用的是設(shè)置臨界值a1,a2,這些臨界值的選取采取正態(tài)分布抽取,按照等級分為橫軸,根據(jù)預(yù)先設(shè)定的用戶數(shù)比例來得到專家分界值,當然也可以采取平均分段來選取臨界值。
為了簡化計算,提高后臺的負載能力或者鼓勵用戶,一般用戶達到某個等級后,會保留等級一個時間t0,這個時間將不會再計算用戶的等級,從而大大減小分析系統(tǒng)是開銷,保持用戶的熱度。
2.2 方程式求解、算法的最優(yōu)解
⑴ 關(guān)鍵詞的聚類算法分析
依照關(guān)鍵詞的聚類算法我們將關(guān)聯(lián)度較高的關(guān)鍵詞歸為同一個類別,而類別劃分出的數(shù)目顯然和我們選取的關(guān)聯(lián)度的臨界值是有關(guān)的。選取的關(guān)聯(lián)度的臨界值越高,劃分出的類別數(shù)目越多;選取關(guān)聯(lián)度的臨界值越低,劃分出的類別數(shù)目越少。
選取的一個重要原則是能顯著的劃分類,這里將劃分類時的臨界值設(shè)為q,在劃分第i個類時,該類中最小的關(guān)聯(lián)度為Qi,該類與無向圖中其他的結(jié)點最大的關(guān)聯(lián)度為qi(顯然有qi<q<=Qi),這里要求顯著性程度很高即要求Qi與qi的差值盡可能大。若n個變量劃分出(m-1)個類別與一個其他類別,其他類別不予考慮,我們可以設(shè)一個顯著性水平變量p=(∑(Qi-qi))/(m-1),當p值越大時,類別的劃分越顯著。
同時我們需考慮劃分出的類別數(shù)目,過多的類別不便管理,而過少的類別不能全面反應(yīng)用戶的行為。
綜合考慮p和m,選取合適的臨界值q,使得劃分出的類數(shù)目和顯著性都較為合適。
⑵ 用戶分類的算法分析與方程式求解
在對用戶根據(jù)其在m個類別上的積分取前t個最大積分從而獲得用戶最感興趣的類別時,其中t的選取,如果參照前面的顯著性的劃分實在很龐大,數(shù)量計算量比較大,可能用戶差不多感興趣的話題有數(shù)個,其積分相差不大,積分相同的概率很小,忽略之。為了方便投放廣告,t選取4-8即可。
根據(jù)半衰期模型等級分y相對于時間t的為:
y(t)=sme-rt
其中,sm是代表用戶第m個興趣點的初始等級分,t為多少天沒有看過相關(guān)興趣點的關(guān)鍵類別,r為衰減常數(shù),一般通過長期數(shù)據(jù)分析獲取。
衰減過程先快再變慢,符合人的記憶規(guī)律和興趣的規(guī)律,并且接近人的記憶曲線。
3 模型的優(yōu)化
以上算法雖然可以實現(xiàn)對用戶的分類,但是有很多常數(shù)和用戶等級都需要長時間的數(shù)據(jù)積累。根據(jù)實踐經(jīng)驗,一般能夠?qū)τ脩糸_始精準分類需要半年甚至一年的時間,這對于互聯(lián)網(wǎng)需要即時發(fā)現(xiàn)新用戶興趣,而非粘連用戶,從而保護用戶不流失來說,并不是很理想,因此我們必須引入加速算法。
加速算法描述:
一段時間后,用戶的積分達到某一固定值,對m個類別而言,某類別上s個用戶的積分分別為m1,m2,m3,…,ms,必然有用戶的積分的差異,將積分占該類別積分前固定百分比的用戶定位為專業(yè)級用戶,在另一個百分比段的用戶定位為一般級用戶,剩下的是菜鳥級別用戶(建議專業(yè)級,一般級,菜鳥級),在假設(shè)中已假定各種級別瀏覽的文章的專業(yè)程度不同,然后高級、中級、低級用戶給文章的加分不同,反過來文章作用于用戶給用戶加分的等級不同。
4 結(jié)束語
在實際中,網(wǎng)絡(luò)運營商和服務(wù)提供商通過對用戶行為分析的分類,掌握用戶訪問網(wǎng)站的規(guī)律性特點,挖掘出的用戶訪問模式,發(fā)現(xiàn)用戶的群體構(gòu)成以及其興趣和偏好,從而為用戶提供更具個性化服務(wù)以及商品推薦,更好地制定網(wǎng)絡(luò)規(guī)劃和業(yè)務(wù)運營支撐決策, 將用戶的數(shù)據(jù)轉(zhuǎn)化為用戶的價值。
參考文獻(References):
[1] 董富強,馬力,武波.一種基于Ineternet的用戶行為分類方法
與模型的研究[J].現(xiàn)代電子技術(shù),2004.22.
[2] 王攀,張順頤,陳雪嬌.基于動態(tài)行為輪廓庫的Web用戶行為
分析關(guān)鍵技術(shù)[J].計算機技術(shù)與發(fā)展,2009.2.
[3] 張軻智.基于Web的數(shù)據(jù)挖掘系統(tǒng)設(shè)計與實現(xiàn) [D].電子科技
大學碩士學位論文,2013.
[4] 任文君.基于網(wǎng)絡(luò)用戶行為分析的問題研究[D]. 北京郵電大
學碩士學位論文,2013.
[5] 高志琨,康鑫,郭玉翠.互聯(lián)網(wǎng)中基于用戶行為的信任分類模
型[J].北京郵電大學理學報,2011.3.