云南財經(jīng)大學(xué) 倪明明 曾志勇
微博用戶影響力模型研究①昆明理工大學(xué) 畢秋敏
云南財經(jīng)大學(xué) 倪明明 曾志勇
摘 要:本文建立的算法可用于在微博中尋找影響力大的用戶,并為控制虛假新聞的傳播提供有效的途徑。筆者在分析微博用戶的影響力中,發(fā)現(xiàn)本文提出的算法相對原始的PageRank算法更具有合理性;通過分析原始的PageRank與改進(jìn)的PageRank的基礎(chǔ)上,我們考慮引進(jìn)用戶內(nèi)在影響力建立偏隨機(jī)游走的PageRank算法;基于偏隨機(jī)游走的PageRank對用戶的影響力具有更好的分析性。本文沒考慮到地域性的差異,怎么結(jié)合地域的特點(diǎn)來建立模型也是下一步研究的重點(diǎn)。如果能較好地結(jié)合時間性與地域性的特點(diǎn),那么我們能更好地預(yù)測重點(diǎn)輿論爆發(fā)的時間,并且有效地進(jìn)行控制。
關(guān)鍵詞:用戶影響力 PageRank 主題模型 內(nèi)在影響力
Web2.0時代,基于互聯(lián)網(wǎng)的社交網(wǎng)絡(luò)正在成為人類社會中社會關(guān)系維系和信息傳播的重要渠道和載體。社會個體通過各種連接關(guān)系在社交網(wǎng)絡(luò)上構(gòu)成“關(guān)系結(jié)構(gòu)”;各類信息基于社交網(wǎng)絡(luò)的關(guān)系結(jié)構(gòu)和網(wǎng)絡(luò)群體,得以快速發(fā)布并傳播擴(kuò)散形成社會化媒體,并反饋到現(xiàn)實(shí)社會,從而使得社交網(wǎng)絡(luò)與現(xiàn)實(shí)社會間形成互動,并對現(xiàn)實(shí)世界產(chǎn)生影響[1]。
微博吸引了越來越多來自各個行業(yè)、擁有各種背景的人。人們可以自定義標(biāo)簽,五花八門的內(nèi)容體現(xiàn)出用戶的興趣需求點(diǎn)又廣又細(xì)。然而,除了一些大眾的需求,很多相對冷門的興趣點(diǎn)并沒有聚合起用戶。一方面,在當(dāng)前嘈雜的微博環(huán)境中,信息一出現(xiàn)就很有可能被迅速淹沒,據(jù)數(shù)據(jù)顯示[1],只有很少量的微博才得以廣泛傳播;但是只要有一部分影響力大的用戶點(diǎn)贊或者轉(zhuǎn)發(fā)相應(yīng)的微博就會使信息得到廣泛的關(guān)注。因此找到微博影響力大的用戶對輿論控制或者信息傳播是十分重要的。
目前有許多人應(yīng)用了PageRank算法對微博用戶影響力進(jìn)行排名。因此本文以新浪微博作為社交網(wǎng)絡(luò)的出發(fā)點(diǎn),類似于偏隨機(jī)游走PageRank算法從一個新的角度構(gòu)建微博用戶的影響力模型。
用戶影響力在微博領(lǐng)域的延伸始于鏈接分析,2010年Weng等基于PageRank設(shè)計了Twitter用戶和鏈接結(jié)構(gòu)的話題相似性影響力排序算法[3]。2010年王曉光將新浪微博作為研究對象,考察用戶的基本行為特征和關(guān)系特征,分析用戶影響力的相關(guān)變量,最終建立出影響力回歸方程[4]。2010年Cha等選擇從用戶行為的角度,通過分析微博的粉絲、被轉(zhuǎn)發(fā)與用戶被@狀況對用戶影響力進(jìn)行了考察[5]。Ye等將用戶粉絲數(shù)量影響力、回復(fù)影響力、轉(zhuǎn)發(fā)影響力、粉絲數(shù)、微博的數(shù)量、回復(fù)和轉(zhuǎn)發(fā)數(shù)作為排序的準(zhǔn)則進(jìn)行了計算和比較,認(rèn)為從回復(fù)最多的角度得出的用戶影響力值最穩(wěn)定,并按此進(jìn)行影響力排序作為標(biāo)準(zhǔn)[6]。2011年邵晶晶等提出PageRank算法的阻尼因子值[7]。2012年原福永等通過用戶活躍度與微博影響力針對微博的排名機(jī)制進(jìn)行研究,建構(gòu)了微博用戶的用戶影響力指數(shù)模型[8]。2013年周志峰等應(yīng)用h指數(shù)對博客的影響力進(jìn)行分析[9]。何靜等基于改進(jìn)PageRank算法的微博用戶影響力研究來控制僵尸粉的影響[10]。偏置游走模型針對PageRank的隨機(jī)游走模型進(jìn)行改進(jìn),其基本思想很接近,不同點(diǎn)在于:智能游走模型考慮的是網(wǎng)頁內(nèi)容和用戶查詢的相關(guān)性,而偏置游走模型考慮的是鏈接指向的網(wǎng)頁內(nèi)容和當(dāng)前游覽網(wǎng)頁內(nèi)容之間的相似性[11]。Chakrabarti等指出一個網(wǎng)頁傾向于鏈向主題相關(guān)性的網(wǎng)頁,這從一定角度解釋了PageRank這一與查詢無關(guān)的排序方式在搜索結(jié)果排序中的有用性,更重要的是給研究者以提示:通過考慮網(wǎng)頁的主題特性可以改進(jìn)PageRank的效果。
本文重點(diǎn)研究新浪微博社區(qū)中用戶的影響力。建立一個通過偏隨機(jī)游走建立的PageRank算法,利用微博社區(qū)網(wǎng)絡(luò)中用戶之間的相互關(guān)系作為微博影響力的因素,評價其在網(wǎng)絡(luò)中的影響力,找出微博社區(qū)網(wǎng)絡(luò)中的關(guān)鍵用戶,并且為PageRank算法提供新的思路。
2.1 基于傳統(tǒng)PageRank算法的影響力模型
PageRank算法是用來衡量網(wǎng)絡(luò)中節(jié)點(diǎn)重要程度的經(jīng)典算法[12],該算法基于用戶鏈接分析計算用戶的重要度。其基本思想是將用戶之間的鏈接作為一種投票行為。重要用戶投出的選票要比一般用戶投出的價值高。如果在最后一個用戶得到的選票越多說明該用戶越重要。雖然PageRank會一直傳遞,但經(jīng)過佩奇等(1997)的證實(shí),PageRank的計算是收斂的[13]。為此,拉里·佩奇和謝爾蓋·布林得到了簡易計算模型:
由于用戶在進(jìn)行瀏覽別人博客時,會出現(xiàn)“疲勞”,也就是會跳至別的URL。因此需要對PageRank公式進(jìn)行修正,的基礎(chǔ)上增加了阻尼系數(shù)d(一般為d=0.85)。所以得到修正后較為具體的PageRank。
PageRank算法運(yùn)用用戶之間的關(guān)注情況來評價用戶的重要性,在一定程度上避免和減少了人為因素對排序結(jié)果的影響;一個用戶只能通過別的用戶關(guān)注對其引用來增加自身的PR值,且算法的均分策略使得一個用戶的關(guān)注越多,被關(guān)注的用戶所獲得的PR值就越少。因此,算法可以有效避免那些為了提高網(wǎng)站的搜索排名而故意使用鏈接的行為,但是原始的PageRank算法僅利用網(wǎng)絡(luò)的鏈接結(jié)構(gòu),無法判斷網(wǎng)頁內(nèi)容上的相似性。我們針對這種情況在只有關(guān)注的與被關(guān)注的數(shù)據(jù)上對模型進(jìn)行修正。
2.2 改進(jìn)PageRank算法的影響力模型
僵尸粉是指已經(jīng)注冊卻不活躍在平臺上的用戶,他們的特點(diǎn)往往是無頭像、極少內(nèi)容、無粉絲、卻有大量關(guān)注,是一些虛假粉絲、“死粉絲”。現(xiàn)在一些用戶通過花錢購買僵死粉從而增加自己的粉絲數(shù)量,增加人氣值。僵尸粉的存在使得傳統(tǒng)的PageRank算法不合適。
改進(jìn)的PageRank算法的思想:每位影響力很大的用戶,必須具備兩個條件:一是具有大量的粉絲;二是具有較少的關(guān)注數(shù)。兩者的比值是一個較大的數(shù),結(jié)合實(shí)際生活中很多用戶是通過了解別人與之成為好友從而引發(fā)好友也關(guān)注他。這樣改進(jìn)后,如果某個用戶被一個重要的用戶引用,則這個用戶可以流入一個較大的PR值。如果這個用戶被很多虛假用戶引用,流入的PR值也應(yīng)該較小。通過這個方法,PR值大的用戶在分配給其他用戶時,其他用戶可以獲得較高PR值。對于虛假粉絲,具有很少粉絲卻具有較多關(guān)注的用戶,可以適當(dāng)?shù)亟档退麄儗R值的影響,有效地過濾掉了僵尸粉。因此可以引入一個條件系數(shù)m(粉絲數(shù)與關(guān)注數(shù)的比值)[10]。
由以上陳述現(xiàn)將改進(jìn)的PageRank算法計算公式記為:其中d為調(diào)節(jié)因子,在經(jīng)驗(yàn)上通常取為0.85,其中為指向用戶的所有用戶集合;為入鏈的值為用戶從中獲得PR值表示用戶的關(guān)注數(shù)。
2.3 偏隨機(jī)游走的PageRank算法
對于傳統(tǒng)的模型或者是現(xiàn)有改進(jìn)的模型來說,研究者常常是對原有網(wǎng)頁的PR進(jìn)行加權(quán)或者刪去一些僵尸粉。我們發(fā)現(xiàn)這種直接把運(yùn)用于網(wǎng)頁排名的PageRank算法應(yīng)用于微博用戶影響力中具有不合理性,因此我們提出了一種修正的偏PageRank算法模型。針對傳統(tǒng)的PageRank模型而言,用戶在進(jìn)行瀏覽微博時,會出現(xiàn)“疲勞”也就是會跳至別的URL。但是這種情況對應(yīng)于微博影響力的排名中是不合理的,在影響力中不存在游覽疲勞。我們對疲勞游覽進(jìn)行修正。
我們的解決方法類型:
(1)主題敏感的PageRank改進(jìn)算法[5]類似,我們選取用戶共同好友的所在比例作為用戶的內(nèi)在影響因素,稱為好友影響力。
(2)又因?yàn)榧词箾]有共同的好友,用戶之間還是有一點(diǎn)影響,稱為微弱影響。
通過以上方案(1)與(2)結(jié)合,我們根據(jù)原始的PageRank算法給出偏隨機(jī)游走PageRank。
由于公式(4)中表示以1-d的概率平均分到n個用戶上。在實(shí)際中,當(dāng)用戶游覽微博時,不可能隨機(jī)調(diào)到其他用戶中,我們參照主題下的PageRank算法,建立有偏向的PageRank算法。在微博中,用戶關(guān)注的相同用戶越多就越容易對相互產(chǎn)生更大的影響。在這里稱這種影響力為好友影響力。我們假定用戶i的集合為其中如果用戶i關(guān)注了用戶j則為1,否則為0。通過比較用戶i與用戶j所公共關(guān)注的用戶,我們得到為共同關(guān)注的用戶數(shù)量。如果用戶共同關(guān)注的數(shù)量越多就越說明用戶屬于同一個主題的概率越大。但是微博用戶不關(guān)注的用戶對用戶還是有一定的潛在影響力。
3.1 實(shí)驗(yàn)數(shù)據(jù)
新浪微博為用戶提供了豐富的API接口,使用戶可以方便地抓取和采集微博數(shù)據(jù)。用戶使用新浪微博API的前提是需要通過身份認(rèn)證。本文通過基于新浪微博開放的API來獲取信息[13]。
3.2 數(shù)據(jù)整理
在抓取的數(shù)據(jù)集中,實(shí)際數(shù)據(jù)存在著缺失的情況,比如A用戶的粉絲并不在所抓取的數(shù)據(jù)集中或者有些用戶和數(shù)據(jù)里面其他用戶沒有共同關(guān)注的對象。遇到這種情況,本文將刪去那些與其他用戶沒有共同觀注對象的用戶和只考慮在數(shù)據(jù)集中的粉絲。本文中的粉絲數(shù)與關(guān)注數(shù)都只是指關(guān)于用戶在所抓取數(shù)據(jù)里的粉絲與關(guān)注。
整理后的數(shù)據(jù)一共包含了12691個用戶,在用戶關(guān)系信息文件中包含了所有這些用戶的朋友關(guān)系,在用戶轉(zhuǎn)發(fā)信息文件中包含了所有這些用戶的轉(zhuǎn)發(fā)信息。在12691個用戶中,總共有1840290條朋友關(guān)系,每個用戶平均擁有145個朋友關(guān)系??偣灿?4565條轉(zhuǎn)發(fā)關(guān)系,平均每條轉(zhuǎn)發(fā)關(guān)系的轉(zhuǎn)發(fā)數(shù)為2.65條。在所有的朋友關(guān)系中,只有8.68%的朋友關(guān)系同時也是轉(zhuǎn)發(fā)關(guān)系。這些數(shù)據(jù)都說明了雖然微博上總體的轉(zhuǎn)發(fā)數(shù)量很大,但相對于微博上的用戶數(shù)以及朋友關(guān)系數(shù),平均到每個用戶以及每條關(guān)系上的轉(zhuǎn)發(fā)微博數(shù)還是十分少的。
3.3 實(shí)驗(yàn)結(jié)果與分析
首先,我們用原始的PageRank算法計算用戶影響力模型,并顯示用戶的粉絲數(shù)量,關(guān)注度,微博數(shù)量與微博被收藏次數(shù),如表1所示。
表1 微博影響力狀況
通過表1分析得到原始PageRank算法計算出來有較高PR值的用戶,相應(yīng)的他們的粉絲或者關(guān)注數(shù)量也比較多??梢缘玫皆糚ageRank算法對用戶影響力有一定的分析能力。
表2 偏隨機(jī)游走的PageRank影響力
通過表2我們看出原始PR算法與偏隨機(jī)PR算法比較接近。果粒那個橙用戶在原始的PR算法中有較大的下降。通過分析參考原始數(shù)據(jù)發(fā)現(xiàn),在所挖掘的信息中,果粒那個橙用戶在用戶之間影響力較大。我們可以分析基于偏隨機(jī)游走的用戶的影響力與粉絲與關(guān)注度的關(guān)系。如圖1所示。
圖1 偏隨機(jī)游走的微博影響力
通過圖1,我們發(fā)現(xiàn),用戶的粉絲與關(guān)注數(shù)與用戶影響力有一定的影響,并不是決定性因素,可以通過用戶6與用戶7可知。而用戶6和用戶7能有較高的排名,是因?yàn)樗麄冇休^高質(zhì)量的粉絲與用戶之間的影響力較大。
通過比較PageRank三種不同值的情況,我們可以得到如下情況。
圖2 原始pagerank與偏隨機(jī)PR算法的比較
由圖2對微博用戶主排名可以分析兩種算法模型的區(qū)別和聯(lián)系。基本上排在前十的用戶還在前十,大多是順序發(fā)生了變換,PR值并沒有發(fā)生顯著的改變。比較圖1中原始PR值與基于偏隨機(jī)游走的PR值,可以發(fā)現(xiàn)偏隨機(jī)游走的PR值只是對原始PageRank算法進(jìn)行微弱的改進(jìn)。
在社會輿論的管理中,我們控制影響力較大的用戶能對輿論監(jiān)督與管理有較大的意義,并且可以控制虛假新聞的傳播。本算法相對于原始PageRank算法都只用了粉絲數(shù)據(jù)與關(guān)注數(shù)據(jù),但是本算法通過用戶之間的影響力在微博用戶分析當(dāng)中具有更強(qiáng)的說服力。
本文從偏隨機(jī)游走的PageRank算法的角度考慮用戶與用戶之間的內(nèi)在影響力,并通過有限次計算得到一個穩(wěn)定的微博用戶的影響力值。該方法相對于原始PageRank算法的影響力模型來說,能夠?qū)ξ⒉┯绊懥M(jìn)行更加準(zhǔn)確的排名。更重要的是該方法能為進(jìn)一步擴(kuò)展PageRank算法提供新的思路。本文只在一個固定時間段進(jìn)行影響力排序,怎么合理地考慮動態(tài)效應(yīng)時間下的基于貝葉斯的PageRank算法是進(jìn)一步研究的重點(diǎn)。本文沒考慮到地域性的差異,怎么結(jié)合地域的特點(diǎn)來建立模型也是下一步研究的重點(diǎn)。如果能較好地結(jié)合時間性與地域性的特點(diǎn),那么我們能更好地預(yù)測重點(diǎn)輿論爆發(fā)的時間,并且有效地進(jìn)行控制。
參考文獻(xiàn)
[1] 丁兆云.社交網(wǎng)絡(luò)影響力研究綜述[J].計算機(jī)科學(xué),2014(01).
[2] 靳政衡.受眾心理對微博營銷效果的影響[D].安徽:安徽大學(xué),2013.
[3] Weng J S,Lim E P,Jiang J,et al.TwitterR-ank:Finding Topic-sensitive Influential Twitterers[C]//Proceedings of the 3rd ACM International Conference on Web Search and Data Mining(WSDM2010).New York:ACM,2010.
[4] 王曉光.微博客用戶行為特征與關(guān)系特征實(shí)證分析——以“新浪微博”為例[J].圖書情報工作,2010(14).
[5] Cha M Y,et al.Measuring user influence in Twitter:The million follower fallacy[C]// P r o c e e d i n g s o f I n t e r n a t i o n a l A A A I Conference on Weblogs and Social Media (ICWSM’10),Washington,Menlo Park:The AAAI Press,2010.
[6] Ye S Z,Wu S F.Measuring Message Propagation and Social Influence on Twitter.com[C]//Proceedings of the 2nd International Conference on Social Informatics (SocInfo‘10).Heidelberg:Springer-Verlag,2010.
[7] 邵晶晶,等.PageRank[J].華中師范大學(xué)學(xué)報,2011 (04).
[8] 原福永,等.微博用戶的影響力指數(shù)模型[J].現(xiàn)代圖書情報技術(shù),2012(06).
[9] 周志峰,等.H指數(shù)應(yīng)用于微博影響力分析的探索[J].情報雜志,2013(04).
[10] 何靜,等.基于改進(jìn)PageRank算法的微博用戶影響力研究[J].中國報業(yè),2013(01).
[11] 張俊林.這就是搜索引擎核心技術(shù)[M].北京:電子工業(yè)出版社,2012.
[12] 王冬,雷景生.一種基于PageRank的頁面排序改進(jìn)算法[J].微電子學(xué)與計算機(jī),2009,26(04).
[13] Page L,Brin S,Motwani R,et al.The Page-Rank citation ranking:Bringing order to the web[R].Stanford Digital Librar- ies,1999.
[14] Tang J,Sun J,Wang C,et al.Social influence analysis in large-scale net works[C]// Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining,2009.
[15] 黃延煒.新浪微博數(shù)據(jù)獲取技術(shù)研究[J].信息安全與通信保密,2013(06).
中圖分類號:F719.9
文獻(xiàn)標(biāo)識碼:A
文章編號:2096-0298(2015)08(c)-158-05
基金項(xiàng)目:①云南省哲學(xué)社會科學(xué)規(guī)劃基金項(xiàng)目“微博用戶影響力模型研究”研究成果(QN2014071)。
作者簡介:畢秋敏(1981-),女,碩士研究生,副教授,主要從事新媒體傳播方面的研究;倪明明(1990-),男,碩士研究生,主要從事統(tǒng)計學(xué)理學(xué)方面的研究;
通訊作者:曾志勇,男,博士研究生,教授,主要從事數(shù)據(jù)挖掘方面的研究。