劉 玲 楊長春
(常州大學(xué)信息科學(xué)與工程學(xué)院 江蘇 常州 213164)
?
一種新的微博社區(qū)用戶影響力評(píng)估算法
劉 玲 楊長春
(常州大學(xué)信息科學(xué)與工程學(xué)院 江蘇 常州 213164)
近年來,微博用戶都憑借其自身在社區(qū)中的影響力來對(duì)信息傳播做出貢獻(xiàn),尤其是活躍的大V用戶能夠引起信息廣泛的傳播。為了在微博社區(qū)中提高用戶影響力衡量的準(zhǔn)確性,提出了一種基于傳統(tǒng)的PageRank算法和用戶交互行為的用戶影響力改進(jìn)算法(IUIR算法),此算法通過直接質(zhì)量指數(shù)和間接質(zhì)量指數(shù)來構(gòu)建微博用戶的質(zhì)量指數(shù),再結(jié)合近期用戶的活躍度來構(gòu)造用戶影響力評(píng)價(jià)公式。在新浪微博數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并與傳統(tǒng)的PageRank算法作比較,結(jié)果表明,該算法能夠更有效地反映微博用戶影響力的排名。
微博社區(qū) 用戶影響力 用戶質(zhì)量指數(shù) 近期活躍度 PageRank算法
隨著Web2.0時(shí)代互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,微博以其獨(dú)特的應(yīng)用傳播模式逐漸成為了新的信息互動(dòng)和傳播的社會(huì)化媒體,并且在社會(huì)網(wǎng)絡(luò)中產(chǎn)生了巨大的影響力。作為一個(gè)近年來興起的在線社會(huì)網(wǎng)絡(luò),微博憑借其社交網(wǎng)絡(luò)和媒體傳播特性,吸引了越來越多的研究者從新聞傳播、社會(huì)網(wǎng)絡(luò)等多個(gè)角度、層次進(jìn)行分析。
在這個(gè)信息爆炸的時(shí)代,尤其是在微博客中,對(duì)用戶影響力的研究已經(jīng)在微博市場營銷、社會(huì)媒體搜索等應(yīng)用中呈現(xiàn)出重要的應(yīng)用價(jià)值[1]。作為一種廣泛應(yīng)用的、重要的傳輸媒介和信息載體,擁有大量流動(dòng)信息和活躍用戶的微博從很大程度上影響了我們的日常生活和工作。微博用戶影響力就是在微博中衡量用戶行為的一個(gè)重要標(biāo)準(zhǔn)。社會(huì)內(nèi)容是憑借自己的“傳播性”來進(jìn)行分享的,微博話題的擴(kuò)散也不例外。具有高影響力的用戶作為熱點(diǎn)話題產(chǎn)生和發(fā)展不可或缺的因素,直接決定了熱點(diǎn)話題的傳播范圍。例如,一些微博中的“大V”用戶,因?yàn)閾碛懈鄼C(jī)會(huì)閱讀、轉(zhuǎn)發(fā)和評(píng)論那些還沒得到足夠關(guān)注的微博,所以就會(huì)產(chǎn)生更多的熱點(diǎn)話題,從而一定程度上影響著輿論的走勢(shì)。因此,對(duì)微博用戶影響力的研究在實(shí)現(xiàn)微博用戶的客觀判斷、深入發(fā)掘微博消息機(jī)制的傳播規(guī)律以及網(wǎng)絡(luò)營銷、廣告投放、輿論引導(dǎo)等方面都具有重要的應(yīng)用價(jià)值。
目前,微博用戶影響力方面的研究大致分為4種[2]:(1) 基于用戶行為權(quán)值的評(píng)估方法,將用戶交互行為作為考慮因素,選取如粉絲數(shù)、評(píng)論數(shù)、轉(zhuǎn)發(fā)數(shù)等參量來進(jìn)行度量;(2) 基于PageRank算法的微博用戶影響力評(píng)估方法,即在總結(jié)微博特征的基礎(chǔ)上,依據(jù)用戶的粉絲數(shù)量或質(zhì)量來衡量影響力,雖然該方法實(shí)用、簡單,但因?yàn)椤敖┦邸钡挠绊懸欢ǔ潭壬蠒?huì)削弱該算法的準(zhǔn)確性、客觀性;(3) 基于用戶行為權(quán)值計(jì)算與PageRank算法相結(jié)合的評(píng)估方法,為了避免單憑粉絲數(shù)量作為影響指標(biāo)所帶來的客觀性、準(zhǔn)確性上的缺失問題,該方法利用用戶—內(nèi)容圖來較好地反映用戶與消息、用戶與用戶以及消息與消息之間的相互關(guān)系;(4) 基于URL追蹤的評(píng)價(jià)方法,即在URL受歡迎的種子節(jié)點(diǎn)的帶領(lǐng)下,通過一系列跟隨者的報(bào)告來追蹤URL的傳播情況,直到傳播結(jié)束。
微博網(wǎng)絡(luò)的用戶影響力研究在國內(nèi)外已有一些研究成果。針對(duì)區(qū)域信息傳播中能夠覆蓋主要網(wǎng)絡(luò)信息傳播行為的那些核心節(jié)點(diǎn),Weng等[3]提出了一種基于主題敏感的TwitterRank算法,該算法通過計(jì)算用戶和鏈接結(jié)構(gòu)的主題相似性來衡量用戶的影響力。肖宇等[4]將基于真實(shí)測(cè)量的信息傳播覆蓋率作為一種新的評(píng)價(jià)指標(biāo),提出了一種基于傳統(tǒng)PageRank算法的Weibo-Rank用戶傳播影響力識(shí)別算法,并通過與多種社會(huì)性傳統(tǒng)用戶影響力評(píng)估算法作比較,驗(yàn)證了該算法的有效性和準(zhǔn)確性。馬俊等[5]利用信息傳播特征對(duì)用戶影響力進(jìn)行度量,結(jié)合個(gè)人屬性特征對(duì)其進(jìn)行回歸分析,提出了一種基于個(gè)人屬性特征的用戶影響力分析方法—PBF方法,雖然一定程度上提高了用戶影響力的評(píng)估質(zhì)量,但是忽略了用戶間關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)在用戶影響力中所發(fā)揮的作用。Cha等[6]通過分析比較了被轉(zhuǎn)發(fā)次數(shù)、關(guān)注數(shù)量、被提及次數(shù)分別作為衡量影響力指標(biāo)的3種方法,得出用戶影響力隨時(shí)間變化的規(guī)律。雖然該方法獲得了較多關(guān)注者的用戶不一定引發(fā)更多的轉(zhuǎn)發(fā)和提及行為的結(jié)論,但是該研究并沒有利用歷史數(shù)據(jù)來評(píng)估當(dāng)前或者未來一段時(shí)間內(nèi)用戶的社會(huì)影響力,只是僅僅關(guān)注過去某個(gè)時(shí)刻用戶影響力的的大小。唐飛龍等[7]通過分析微博的網(wǎng)絡(luò)結(jié)構(gòu)特征,總結(jié)出微博相對(duì)于其他傳統(tǒng)社會(huì)載體的特性,并提出一種通過用戶相對(duì)微力值和用戶相對(duì)鏈接質(zhì)量對(duì)各博主的影響力進(jìn)行動(dòng)態(tài)評(píng)估的UIR算法,盡管一定程度上消除了僵尸粉絲對(duì)排序的影響,但是該算法沒有考慮到博文的具體信息對(duì)用戶影響力指標(biāo)的影響。
總而言之,在實(shí)際應(yīng)用中,如果單憑一種用戶行為或者用戶之間的好友關(guān)系,如轉(zhuǎn)發(fā)、評(píng)論和提及行為又或者是僵尸粉,對(duì)用戶影響力的評(píng)估結(jié)果是沒什么影響的。因此,將PageRank算法和用戶交互行為兩者相結(jié)合,才能更合理、客觀地對(duì)用戶影響力進(jìn)行度量,從而得出更有效的用戶影響力排名。本文的工作就是提出一種新的考慮用戶自身質(zhì)量指數(shù)(直接質(zhì)量指數(shù))、粉絲質(zhì)量指數(shù)(間接質(zhì)量指數(shù))以及用戶近期活躍度來綜合評(píng)估用戶影響力的方法。
(1) 平均節(jié)點(diǎn)度K:度是一種衡量微博關(guān)系網(wǎng)絡(luò)中個(gè)體影響力和重要程度的指標(biāo),通常指的是與當(dāng)前節(jié)點(diǎn)相連的其他節(jié)點(diǎn)的數(shù)目[8],而平均節(jié)點(diǎn)度是所有節(jié)點(diǎn)度的平均值,若N表示網(wǎng)絡(luò)中節(jié)點(diǎn)的個(gè)數(shù),j表示當(dāng)前節(jié)點(diǎn),那么K可表示為:
(1)
微博關(guān)系網(wǎng)絡(luò)中通常會(huì)出現(xiàn)同配性的現(xiàn)象,即度數(shù)大的節(jié)點(diǎn)會(huì)傾向于和度數(shù)大的節(jié)點(diǎn)相互連接,就如同在實(shí)際應(yīng)用中,大多數(shù)用戶會(huì)傾向于與自己同地位或者更高地位的用戶進(jìn)行互動(dòng)、交流,從而加入他們的朋友圈建立一種關(guān)聯(lián)關(guān)系。
(2) 平均路徑長度L:平均路徑長度是用來衡量網(wǎng)絡(luò)中節(jié)點(diǎn)間的分離程度和網(wǎng)絡(luò)的連通性的一個(gè)重要指標(biāo),通常指的是任意兩個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)距離的平均長度,L越大,說明整個(gè)網(wǎng)絡(luò)的連通性就越弱,傳輸性越弱。若dij表示節(jié)點(diǎn)i和j之間的最短距離,N表示網(wǎng)絡(luò)中節(jié)點(diǎn)的個(gè)數(shù),那么L可表示為:
(2)
(3) 平均聚類系數(shù)C:聚類系數(shù)是用來衡量相鄰節(jié)點(diǎn)之間所在社區(qū)也就是朋友圈子的重合程度,指的是微博網(wǎng)絡(luò)中所有節(jié)點(diǎn)的聚類系數(shù)的平均值,C越大,整個(gè)網(wǎng)絡(luò)中節(jié)點(diǎn)聯(lián)系越緊密,直接聯(lián)系程度越大。若Ei表示節(jié)點(diǎn)i的ki個(gè)相鄰節(jié)點(diǎn)間實(shí)際存在的邊數(shù),那么C可表示為:
(3)
文中通過采集和統(tǒng)計(jì)“校園那些事”這個(gè)微博社區(qū)的信息,得到的網(wǎng)絡(luò)特征值的統(tǒng)計(jì)結(jié)果如表1所示。
表1 微博社區(qū)網(wǎng)絡(luò)節(jié)點(diǎn)特征值統(tǒng)計(jì)
該社區(qū)的平均路徑長度為4.69,說明網(wǎng)絡(luò)中只要任意兩個(gè)節(jié)點(diǎn)通過平均4.69個(gè)節(jié)點(diǎn)就能夠相互連通起來。社區(qū)內(nèi)所發(fā)信息數(shù)為36 897條,不活躍節(jié)點(diǎn)數(shù)為4 062,占總節(jié)點(diǎn)數(shù)的43.9%,這些用戶可能是水軍或者是僵尸粉絲,因?yàn)樗麄兒芸赡茏罱欢螘r(shí)間內(nèi)沒有發(fā)布任何微博消息,包括評(píng)論、轉(zhuǎn)發(fā)等交互行為或者相當(dāng)長時(shí)間內(nèi)沒有登錄微博。這些僵尸用戶的存在一定程度上會(huì)影響該網(wǎng)絡(luò)社區(qū)中節(jié)點(diǎn)影響力的評(píng)估質(zhì)量。平均節(jié)點(diǎn)度為55.63,并且剩下的5 192名博主,貢獻(xiàn)了30 024條消息,占全部社區(qū)內(nèi)發(fā)言的81.4%,這充分說明這是一個(gè)人氣旺盛、互動(dòng)頻繁的微群。該社區(qū)的平均聚類系數(shù)為0.271,表現(xiàn)了該社區(qū)內(nèi)部較高的交互程度以及該微博網(wǎng)絡(luò)中較好的集聚性。總的來說,這些統(tǒng)計(jì)指標(biāo)顯示了此微博網(wǎng)絡(luò)具有“小世界網(wǎng)絡(luò)”模型的顯著特性,即有高聚類和低平均路徑長度的特征。這5 192名較活躍用戶是整個(gè)微博社區(qū)引導(dǎo)輿論方向的群體,其中的少部分用戶很可能就是此微博網(wǎng)絡(luò)中具有高影響力的活躍用戶,下文將具體對(duì)這些起著核心角色作用的用戶進(jìn)行影響力的綜合評(píng)估。
2.1 PageRank算法
微博用戶影響力指的是直接或者間接產(chǎn)生影響的能力,本質(zhì)上也可以認(rèn)為是用戶間的一種相互作用,即一個(gè)用戶如果對(duì)與他有交互作用的用戶產(chǎn)生的作用越大,其影響力、吸引度就越大[9]。相比于普通用戶,明星用戶往往就有著較大的影響力。Weng等[3]的研究說明,如果將被關(guān)注數(shù)作為影響力評(píng)價(jià)公式的唯一指標(biāo)應(yīng)用在Twitter上,雖然最后實(shí)驗(yàn)的排序結(jié)果與經(jīng)典的PageRank算法排序結(jié)果總體上一致,但是在一個(gè)擁有具體的、特定的話題的微博社區(qū)內(nèi),由于用戶的所有粉絲不一定都在該主題社區(qū)內(nèi),再使用唯一的影響指標(biāo)—粉絲數(shù)來進(jìn)行排名,結(jié)果肯定是不準(zhǔn)確的,所以用戶的影響力需要多項(xiàng)指標(biāo)來進(jìn)行綜合評(píng)估。
經(jīng)典PageRank算法的思想是通過對(duì)網(wǎng)絡(luò)圖上的網(wǎng)頁鏈接進(jìn)行分析來計(jì)算網(wǎng)頁的重要度。例如,若網(wǎng)頁C有一個(gè)指向網(wǎng)頁D的鏈接,就可認(rèn)為C要貢獻(xiàn)一定的分值給D,值的大小決定于網(wǎng)頁C本身的重要程度,即網(wǎng)頁C越重要或者影響力越大,網(wǎng)頁D最終獲取的貢獻(xiàn)分值就越高。傳統(tǒng)的PageRank表達(dá)式是沒有加入阻尼系數(shù)d的,引入阻尼系數(shù)是為了避免出現(xiàn)由于實(shí)際的網(wǎng)絡(luò)鏈接拓?fù)浣Y(jié)構(gòu)不可能形成一個(gè)強(qiáng)連通圖而出現(xiàn)大量的沒有外出鏈接的獨(dú)立網(wǎng)頁問題。若設(shè)某一頁面為Pi,頁面Pi到其他頁面的鏈接數(shù)目為L(Pj),鏈入頁面Pi的數(shù)目為M(Pi),阻尼系數(shù)為d,介于0到1之間(一般取值為0.15),它表示瀏覽者在瀏覽某個(gè)頁面之后能夠繼續(xù)以1-d的概率瀏覽某一個(gè)鏈出的頁面,以d的概率重新挑選一個(gè)隨意頁面進(jìn)行瀏覽[8],則修正的PageRank算法公式即頁面的PR值可以表示為:
(4)
總之,PageRank算法一定程度上避免了人為因素對(duì)排序結(jié)果的干擾影響,但由于在該算法中鏈出頁面上得到的PR值是被均勻傳送上去的,這就忽視了該頁面本身的重要程度。因?yàn)閮H僅利用網(wǎng)絡(luò)的鏈接結(jié)構(gòu)來評(píng)估網(wǎng)頁的重要性會(huì)出現(xiàn)主題漂移、偏重舊網(wǎng)頁問題,所以在微博社交網(wǎng)絡(luò)分析中應(yīng)用PageRank算法時(shí),應(yīng)該更要考慮用戶本身的特性來合理的分配PR值。
2.2 用戶影響力評(píng)價(jià)模型
文中通過結(jié)合用戶本身的特點(diǎn)再加入新的指標(biāo)微博用戶質(zhì)量指數(shù)(包括直接、間接質(zhì)量指數(shù))、近期用戶活躍度來改進(jìn)、優(yōu)化算法,即提出了一種基于傳統(tǒng)的PageRank算法和用戶交互行為的用戶影響力改進(jìn)算法(下文簡稱IUIR算法)來進(jìn)一步提高微博用戶影響力的綜合評(píng)價(jià)質(zhì)量,表2即為用戶影響力評(píng)估指標(biāo)體系。
表2 用戶影響力評(píng)估指標(biāo)體系
(1)用戶影響力指數(shù)
通過用戶質(zhì)量指數(shù)和近期用戶活躍度兩個(gè)指標(biāo),定義一個(gè)新的概念—用戶影響力指數(shù)。即用戶的質(zhì)量指數(shù)與近期平均每天發(fā)博數(shù)的乘積值,設(shè)用戶影響力指數(shù)為Ii,則可以表示為:
Ii=Qi×Ai
(5)
(2) 微博用戶質(zhì)量指數(shù)
微博用戶質(zhì)量指數(shù)定義為用戶自身質(zhì)量指數(shù)(直接質(zhì)量指數(shù))與粉絲質(zhì)量指數(shù)(間接質(zhì)量指數(shù))兩個(gè)指標(biāo)共同來決定。
用戶質(zhì)量指數(shù)越高,對(duì)其粉絲的影響力就越大,就能越吸引粉絲對(duì)用戶所發(fā)的微博內(nèi)容進(jìn)行轉(zhuǎn)發(fā)和評(píng)論。用戶與粉絲之間的轉(zhuǎn)發(fā)、評(píng)論這兩種交互行為可以作為衡量影響力的指標(biāo)。那些用戶感興趣、關(guān)注的微博信息可以通過轉(zhuǎn)發(fā)傳遞給其他用戶,轉(zhuǎn)發(fā)的次數(shù)越多,信息傳播的能力就越強(qiáng),影響力就越大;用戶還可以對(duì)微博信息進(jìn)行評(píng)論,一個(gè)用戶的信息被評(píng)論的次數(shù)越多,用戶信息產(chǎn)生的影響力就越大。同樣,用戶微博中原創(chuàng)微博數(shù)、含有圖片和視頻的微博數(shù)越多,從而用戶的博文質(zhì)量也就相應(yīng)越高。因此,每篇博文平均被轉(zhuǎn)發(fā)、評(píng)論的次數(shù)越多,微博內(nèi)容的原創(chuàng)豐富度越高,證明用戶更多的表達(dá)了自己的思想,博文質(zhì)量越高,用戶的影響力也就越大。
① 用戶自身質(zhì)量指數(shù)(直接質(zhì)量指數(shù))
用戶自身質(zhì)量指數(shù)其實(shí)就是用戶自身微博總數(shù)、被評(píng)論數(shù)、被轉(zhuǎn)發(fā)數(shù)、原創(chuàng)微博數(shù)、含有圖片和視頻的微博數(shù)以及是否認(rèn)證等方面綜合得到的直接質(zhì)量指數(shù)。設(shè)微博用戶為i,微博平均轉(zhuǎn)發(fā)率為Ri,用戶微博平均評(píng)論率為Ci,用戶微博內(nèi)容原創(chuàng)豐富度為Oi,用戶原創(chuàng)微博數(shù)為Ki,帶有圖片和視頻的微博數(shù)為Mi,用戶是否認(rèn)證為Vi,(為了實(shí)驗(yàn)操作方便,這里定義:如果是認(rèn)證用戶Vi取值0.5,反之為0)微博被轉(zhuǎn)發(fā)總數(shù)為Si(Retweet),被評(píng)論總數(shù)為Si(Comment),用戶所發(fā)微博總數(shù)為Si(Microblog),微博總用戶數(shù)為Sum(User),則用戶自身質(zhì)量指數(shù)(直接質(zhì)量指數(shù))Qself(i)、Ri、Ci、Oi和Vi分別表示為:
(6)
(7)
(8)
(9)
Qself(i)=Ri+Ci+Oi+Vi
(10)
② 粉絲質(zhì)量指數(shù)(間接質(zhì)量指數(shù))
考慮粉絲質(zhì)量是為了剔除僵尸粉、新浪自身運(yùn)營手段所產(chǎn)生的偽聽眾以及泛濫性營銷的追隨者,另外粉絲是否認(rèn)證、粉絲自身質(zhì)量指數(shù)等都與用戶真實(shí)影響力有一定的關(guān)系,所以這其實(shí)是一個(gè)迭代過程。粉絲質(zhì)量其實(shí)是指用戶的粉絲為用戶所貢獻(xiàn)的質(zhì)量指數(shù),即間接質(zhì)量指數(shù)。如果設(shè)i、j為微博用戶,用戶i的粉絲集合為M(i),用戶j追隨者的微博用戶總數(shù)為L(j),粉絲質(zhì)量指數(shù)(間接質(zhì)量指數(shù))為Qfollow(i),則微博用戶i的質(zhì)量指數(shù)Qi可以表示為:
Qi=Qself(i)+Qfollow(i)
(11)
由于粉絲質(zhì)量指數(shù)的計(jì)算是一個(gè)迭代過程,所以文中在PageRank算法的基礎(chǔ)上來對(duì)其作進(jìn)一步的評(píng)估,表達(dá)式可以描述為:
(12)
其中,將式(12)進(jìn)一步分解可得:
(13)
(3) 近期用戶活躍度
如果用戶只是習(xí)慣性地轉(zhuǎn)發(fā)自己感興趣的微博消息,就會(huì)增加最終得到的轉(zhuǎn)發(fā)、評(píng)論次數(shù),而實(shí)際的微博發(fā)表次數(shù)很少,但也不能說明這種用戶的影響力比較大。因此,僅僅以用戶質(zhì)量指數(shù)這一個(gè)指標(biāo)來衡量用戶影響力是不全面的,需要添加近期用戶活躍度這一指標(biāo)來綜合評(píng)價(jià)。近期用戶活躍度指的是最近一段時(shí)間內(nèi)(如一個(gè)月)用戶平均每天所發(fā)微博數(shù)。若設(shè)用戶i最近30天內(nèi)所發(fā)微博數(shù)量為Ni,時(shí)間T=30,則近期用戶i的活躍度Ai可以表示為:
(14)
3.1 數(shù)據(jù)采集
文中的實(shí)驗(yàn)數(shù)據(jù)是采用廣度優(yōu)先方式、從大節(jié)點(diǎn)開始爬取的新浪微博中標(biāo)簽為“校園那些事”這個(gè)微博社區(qū)的數(shù)據(jù),從表1可以看出這是一個(gè)人氣旺盛、互動(dòng)頻繁的微群,具有高聚類性和低平均路徑長度的特點(diǎn)。由于在爬取的數(shù)據(jù)中存在大量的垃圾用戶,所以經(jīng)過數(shù)據(jù)預(yù)處理、篩選之后最終得到用戶數(shù)9 254個(gè),發(fā)微博總數(shù)達(dá)到36 897。文中重點(diǎn)研究用戶的轉(zhuǎn)發(fā)、評(píng)論等交互行為來評(píng)估該社區(qū)中用戶的影響力。采用Matlab、Ucinet可視化工具進(jìn)行數(shù)據(jù)分析,其中數(shù)據(jù)庫采用SQL Server 2010。即將文中提出的算法模型與采集到的數(shù)據(jù)相結(jié)合,再通過Matlab、Ucinet軟件進(jìn)行社會(huì)網(wǎng)絡(luò)可視化分析處理,最后得到分析結(jié)果。
3.2 實(shí)驗(yàn)結(jié)果及分析
對(duì)文中采集的“校園那些事”這個(gè)微博社區(qū)的數(shù)據(jù)進(jìn)行采樣分析,再將文中提出的IUIR算法與傳統(tǒng)的PageRank算法作比較,分別得到不同用戶影響力的評(píng)估結(jié)果。其中表3和表4分別是PageRank算法、本文算法得到的該社區(qū)內(nèi)影響力前十名用戶的排名結(jié)果對(duì)比。
表3 PageRank算法得到的社區(qū)內(nèi)影響力前十名的用戶
表4 IUIR算法得到的社區(qū)內(nèi)影響力前十名的用戶
對(duì)比兩種算法的排名結(jié)果,可以發(fā)現(xiàn)前2名和第4、第10名是一樣的。雖然本文提出的IUIR算法經(jīng)14次迭代才收斂,經(jīng)典的PageRank算法只需要12次迭代才得到收斂結(jié)果,效率雖然略高于本文算法,但是最終兩種算法所得到的影響力排名總體上是相似的。由于傳統(tǒng)的PageRank算法只考慮用戶的粉絲數(shù)和粉絲質(zhì)量,不注重微博數(shù)對(duì)用戶影響力的影響,所以往往關(guān)注數(shù)、粉絲數(shù)和微博數(shù)較低的用戶排名會(huì)靠前。比如“仰望太陽的向日葵41”這個(gè)用戶,分析原因發(fā)現(xiàn),該用戶的粉絲質(zhì)量非常的高,前10名PR值最高的用戶中有4名都是他的粉絲,因此導(dǎo)致他在PageRank算法中排名如此之高,排在第5位。另外,反觀“罔龐”和“寶帥帥2012”這兩位用戶,由于他們粉絲中有79%的是潛水黨即僵尸粉絲,粉絲與用戶之間通過瘋狂轉(zhuǎn)發(fā)他們所發(fā)布的微博互粉廣告,一張凝聚力比較大的僵尸粉絲網(wǎng)就會(huì)構(gòu)建起來,最終會(huì)影響PageRank算法的排序,所以這兩個(gè)用戶在PR算法中排在第6和第8兩名,而在本文算法中都排出了前10,減少了僵尸粉絲對(duì)用戶影響力評(píng)估的干擾作用。同時(shí),表4中還有兩個(gè)新排進(jìn)前10的用戶“沉睡的貓”和“向上的大雨”,由于“沉睡的貓”的粉絲中有排名前5的用戶有2個(gè),“向上的大雨”的粉絲中排名前10的用戶有5個(gè),并且他們兩個(gè)微博平均轉(zhuǎn)發(fā)和評(píng)論的頻率也非常高,盡管他們的關(guān)注、粉絲和微博數(shù)都相比于其他用戶低,但是這兩個(gè)用戶在IUIR算法中越居到了前10名內(nèi),分別排在第8、9位。表3中的“烈日驕陽哥”和“仰望太陽的向日葵41”分別從原來的第9、5位上升到了表4中的7、3位,其主要原因是很多有高影響力的用戶轉(zhuǎn)發(fā)他們的微博,再通過二次轉(zhuǎn)發(fā),大大增強(qiáng)了用戶的影響力。綜合分析兩種算法所得結(jié)果,影響力排名中第5到9名的排名次序相差較大,是因?yàn)镮UIR算法在考慮節(jié)點(diǎn)的關(guān)系之外還考慮了節(jié)點(diǎn)本身的特性,并且該算法能有效地過濾掉不活躍用戶對(duì)結(jié)果的干擾,能夠更加準(zhǔn)確客觀地反映用戶的影響力排名。
目前,微博作為一個(gè)既有媒體傳播特性又有社交網(wǎng)絡(luò)特性的在線社會(huì)網(wǎng)絡(luò),吸引了越來越多的學(xué)者對(duì)其進(jìn)行研究,尤其是微博社區(qū)用戶影響力方面的研究。文中首先對(duì)微博網(wǎng)絡(luò)結(jié)構(gòu)特征進(jìn)行了重點(diǎn)分析,然后通過用戶之間的評(píng)論、轉(zhuǎn)發(fā)等交互行為來構(gòu)建用戶影響力的評(píng)價(jià)公式,提出了一種基于傳統(tǒng)的PageRank算法和用戶交互行為的用戶影響力改進(jìn)算法(IUIR算法),最后通過在新浪微博數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證了該算法的有效性,提高了用戶影響力的評(píng)估質(zhì)量。盡管如此,研究還需進(jìn)一步完善,比如沒有考慮到微博網(wǎng)絡(luò)中用戶所發(fā)微博的具體信息以及時(shí)間因素對(duì)用戶影響力的影響,這將都是本文接下來的研究目標(biāo)。
[1] 馮靜. 微博用戶排名機(jī)制的研究[D]. 燕山大學(xué),2012.
[2] 陳浩. 基于Hadoop的微博用戶影響力排名算法研究[D]. 華東理工大學(xué),2014.
[3] Weng J, Lim E P, Jiang J, et al. TwitterRank: finding topic-sensitive influential twitterers[C]// International Conference on Web Search and Web Data Mining, WSDM 2010, New York, Ny, Usa, February. 2010:261-270.
[4] 肖宇,許煒,商召璽. 微博用戶區(qū)域影響力識(shí)別算法及分析[J]. 計(jì)算機(jī)科學(xué),2012, 39(9):38-42.
[5] 馬俊,周剛,許斌,等. 基于個(gè)人屬性特征的微博用戶影響力分析[J]. 計(jì)算機(jī)應(yīng)用研究, 2013, 30(8):2483-2487.
[6] Cha M, Haddadi H, Benevenuto F, et al. Measuring User Influence in Twitter: The Million Follower Fallacy[C]// Icwsm 10: International AAAI Conference on Weblogs & Social. 2015.
[7] 唐飛龍,葉施仁,肖春. 基于用戶質(zhì)量的微博社區(qū)博主影響力排序算法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2015, 51(4):128-132.
[8] 康書龍. 基于用戶行為及關(guān)系的社交網(wǎng)絡(luò)節(jié)點(diǎn)影響力評(píng)價(jià)—以微博研究為例[D]. 北京郵電大學(xué), 2011.
[9] 馬俊. 基于話題傳播的微博用戶影響力分析[D]. 解放軍信息工程大學(xué), 2013.
A NEW ASSESSMENT ALGORITHM ON INFLUENCE OF USERS IN MICROBLOG COMMUNITY
Liu Ling Yang Changchun
(SchoolofInformationScienceandEngineering,ChangzhouUniversity,Changzhou213164,Jiangsu,China)
In recent years, Microblog users made contributions to the dissemination of information by virtue of its own influence in the microblog community, especially active users could spread information widely. In order to improve the accuracy of measuring the influence of users in microblog community, an improved influence algorithm based on traditional PageRank algorithm and user interactions (IUIR algorithm) is proposed. This algorithm created the final quality index of users through direct and indirect mass index, combining with the recent user activity to construct user influence assessment formula. Through the experimental analysis on the Sina microblog data collection to compare this proposed algorithm with the traditional PageRank algorithm, the results indicate that the algorithm could reflect the users’ influence ranking more accurately.
Micro blog community Influence of users Users mass index Recent user activity PageRank algorithm
2016-09-06。國家自然科學(xué)基金項(xiàng)目(61272367);江蘇省產(chǎn)學(xué)研前瞻性聯(lián)合研究項(xiàng)目(BY2014037-08)。劉玲,碩士生,主研領(lǐng)域:數(shù)據(jù)挖掘。楊長春,教授。
TP391
A
10.3969/j.issn.1000-386x.2017.07.039