王佳寧 國際關系學院
基于社交網絡的用戶行為分析
王佳寧 國際關系學院
在線社交網絡的興起引出了一個有趣的問題:如何較好的鑒別不同的與用戶行為。一般來說,用戶行為的鑒別基于用戶的個人特征,但是這種方法不適用于在線社交網絡用戶。在這種情況下,用戶通過網站上傳或是瀏覽內容,選擇交友,訂閱喜歡的咨詢或是其他一些交流活動。不同的交流模式可以代表了不用的用戶群體。本文將提出一種分析鑒別在線社交網絡用戶行為的方法。分析鑒別不同的用戶行為具有巨大的商業(yè)價值,例如,可以用于改善在線廣告推薦系統(tǒng),從而獲得更大的收益。
在線社交網絡 群體 用戶行為
目前對于互聯(lián)網來說,一件至關重要的事就是鼓勵用戶之間的交流。像微信、微博,他們允許用戶創(chuàng)建他們自己的日志,包括圖片、文字或是視頻。用戶通常喜歡從其他人那里搜索、交換信息或是瀏覽內容。鑒于人類的本性,用戶不愿意展現(xiàn)單一的行為。
對在線社交網絡用戶行為的理解有助于服務提供者合理分配資源。為了建立一個模型來描述用戶行為的種類,研究者必須了解如何區(qū)分和鑒別不同期望的用戶。為了實現(xiàn)這個目標,我們設計了網頁抓取工具來收集youtube的數(shù)據(jù),收集了標題網絡、用戶關注、分享給他人的鏈接等。這些數(shù)據(jù)將用于構建每個用戶的特征向量。
YouTube成立于2005年,是最大的視頻網站。同樣可以作為在線社交網站,通過用戶行為對用戶進行分組。例如,將用戶作為節(jié)點,如果一個用戶加了另一個用戶為好友、兩個用戶同時評論了一個視頻或是一個用戶評論了另一個用戶的視頻,我們都認為他們之間就有直接聯(lián)系。這個設想就構成了一個網絡,稱作訂閱網絡?;趶V度優(yōu)先搜索這個網絡,以一組用戶作為開始,不斷添加她的訂閱以及該訂閱的最后一個用戶。
我們通過標準化向量的值計算距離,基于用戶行為可以對來對用戶進行分組。將用戶表示為特征向量。我們將用戶特征向量定義為一維的長度為9的矢量,定義如下:useri=[f1,f2,f3,f4,f5,f6,f7,f8,f9].其中前五個位置代表每個用戶的屬性,后四個位置代表與用戶交往的相關用戶的屬性。這九個位置的具體意義如下:
f1:代表用戶上傳視頻(或其他)的數(shù)量,這個數(shù)量能夠表示一個用戶作為生產者的潛力;
f2:代表不同視頻被用戶瀏覽的次數(shù),這個數(shù)量能夠表明一個用戶作為內容消費者的潛力;
f3:不同頻道被瀏覽次數(shù),這個數(shù)量能夠表示用戶在搜索時最有可能瀏覽的頻道;
f4:用戶在Youtube建立賬號的時間;
f5:用戶從創(chuàng)建賬號到最近一次登錄,在Youtube上花費的時間;
f6:聚類系數(shù),用來衡量用戶與他的“鄰居”之間的聯(lián)系。
f7:相互關注的概率。
f8:代表用戶作為消費者的潛力;
f9:代表用戶作為生產者的潛力。
這九個特征代表了不同的單元和維度??紤]到聚類算法所使用的的距離是基于每一個特征的值,必須將數(shù)據(jù)標準化以確保距離是以同樣權重的特征計算的,否則最大規(guī)模的特征就會掩蓋其他的。通過特征向量最大話來規(guī)范化數(shù)據(jù),每個特征的范圍從0到1。
為了對有相似行為的用戶進行聚合,使用K-means算法作為聚類算法,歐幾里得距離作為距離測量方法。簡言之,K-means就是選擇k個對象作為初始聚類中心,計算剩下的每個對象與這些中心對象的距離,重復計算的步驟直到滿足一定條件,如函數(shù)收斂時,則算法終止。
那么K值是如何確定的?本文認為應該通過變異系數(shù)來解決這一問題,最小化顆粒間CV和最大化簇間CV。這兩個CV值得比率我們記作βcv,當βcv趨于穩(wěn)定時,K取得了最好的值。為了取得最好的K值,我們要采取以下算法:
取兩個中心記作C1和C2,以d(C1,C2)=abs(∑Fi=1(C1[i]-C2[i])/F)來標記他們的距離,其中abs(x)是未知量X的絕對值,F(xiàn)是特征向量的長度或者特征向量的值。對K賦予初值2,執(zhí)行,然后不斷增加1.計算Ck,直到k,x|d(Ck,Cx)<T。
當前形勢下,不同的用戶出于不同的目標,會聯(lián)合不同的用戶群體發(fā)生行為,如果能夠準確的識別主導用戶行為的因素,就能夠更準確的為用戶提供服務。本文將提出一種分析鑒別在線社交網絡用戶行為的方法。分析鑒別不同的用戶行為具有巨大的商業(yè)價值,例如,可以用于改善在線廣告推薦系統(tǒng),從而獲得更大的收益。
[1]楊善林,王佳佳,代寶,李旭軍,姜元春,劉業(yè)政.在線社交網絡用戶行為研究現(xiàn)狀與展望[J].中國科學院院刊
[2]吳信東,李毅,李磊.在線社交網絡影響力分析[J].計算機學報
[3]陳克寒,韓盼盼,吳健.基于用戶聚類的異構社交網絡推薦算法[J].計算機學報
[4]王千,王成,馮振元,葉金鳳.K-means聚類算法研究綜述[J].電子設計工程