面向微博話題的用戶影響力分析算法

2019-08-01 01:35:23劉威張明新安德智

計算機(jī)應(yīng)用 2019年1期

劉威張明新安德智

摘要：微博用戶影響力分析作為社交網(wǎng)絡(luò)分析的重要組成部分，一直受到研究人員的關(guān)注。針對現(xiàn)有研究工作分析用戶行為時間性的不足和忽略用戶與參與話題之間關(guān)聯(lián)性等問題，提出了一種面向微博話題的用戶影響力分析算法——基于話題和傳播能力的用戶排序（TSRank）算法。首先，基于微博話題分析用戶轉(zhuǎn)發(fā)行為時間性，進(jìn)一步構(gòu)建用戶轉(zhuǎn)發(fā)和用戶博文轉(zhuǎn)發(fā)兩種話題轉(zhuǎn)發(fā)關(guān)系網(wǎng)絡(luò)，預(yù)測用戶話題信息傳播能力;然后，分析用戶個人歷史微博和背景話題微博文本內(nèi)容，挖掘用戶與背景話題之間的關(guān)聯(lián)性;最后，綜合考慮用戶話題信息傳播能力以及用戶與背景話題間關(guān)聯(lián)性計算微博用戶影響力。爬取新浪微博真實話題數(shù)據(jù)進(jìn)行實驗，實驗結(jié)果表明，話題關(guān)聯(lián)度更高用戶的話題轉(zhuǎn)發(fā)量明顯大于關(guān)聯(lián)度很低的用戶，引入用戶轉(zhuǎn)發(fā)行為時間性相比無轉(zhuǎn)發(fā)時間性，TSRank算法的捕獲率（CR）提高了18.7%，進(jìn)一步與典型影響力分析算法WBRank、TwitterRank和PageRank相比，TSRank算法在準(zhǔn)確率和召回率上分別提高了5.9%、8.7%、13.1%和6.7%、9.1%、14.2%，驗證了TSRank算法的有效性。該研究成果對社交網(wǎng)絡(luò)的社會屬性、話題傳播等理論研究以及好友推薦、輿情監(jiān)控等應(yīng)用研究具有支撐作用。

關(guān)鍵詞：社交網(wǎng)絡(luò);用戶影響力;轉(zhuǎn)發(fā)關(guān)系;微博話題;信息傳播能力

中圖分類號： TP391; TP181

文獻(xiàn)標(biāo)志碼：A

Abstract： As an important part of social network analysis， Weibo user influence analysis has been concerned by researchers all the time. Concerning the timeliness shortage and neglect of the relevance between users and topics when analyzing user behaviors， a user influence analysis algorithm for Weibo topics， named Topic and Spread user Rank （TSRank）， was proposed. Firstly， based on Weibo topics， the timeliness of users forwarding behavior was analyzed to construct two topic forwarding networks， user forwarding and user blog forwarding， in order to predict the users topic information dissemination capability. Secondly， the text contents of users personal history Weibo and background topic Weibo were analyzed to mine the relevance between user and background topic. Finally， the influence of Weibo user was calculated by comprehensively considering users topic information dissemination capability and relevance between user and background topic. The experiments on crawled real topic data of Sina Weibo were conducted. The experimental results show that the topic forwarding number of users with higher topic correlation is significantly greater than that of users with lower topic correlation. Compared with no forwarding timeliness， the Catch Ratio （CR） of TSRank algorithm is increased by 18.7%， which is further compared with typical influence analysis algorithms， such as WBRank， TwitterRank and PageRank， TSRank algorithm improves the precision and recall by 5.9%， 8.7%， 13.1% and 6.7%， 9.1%， 14.2% respectively， which verifies the effectiveness of TSRank algorithm. The research results can support theoretical research of social attributes and topic forwarding of social networks as well as the application research of friend recommendation and public opinion monitoring.

Key words： social network; user influence; forward relationship; Weibo topic; information dissemination capability

0 引言

社交網(wǎng)絡(luò)平臺是以互動交友、用戶之間共同興趣愛好為基礎(chǔ)，以實名或非實名方式在網(wǎng)絡(luò)平臺構(gòu)建的一種社會關(guān)系網(wǎng)絡(luò)服務(wù)。社交網(wǎng)絡(luò)平臺現(xiàn)已取得迅速發(fā)展[1]，全球最大社交網(wǎng)站Facebook發(fā)布2018年第一季度財報顯示，截止2018年3月31日，F(xiàn)acebook的月活躍用戶達(dá)22億，比去年同期增長3.8%;新浪微博發(fā)布2018年第一季度財報顯示，微博月活躍用戶共4.11億，比去年同期增長20%。微博作為新型公共話題傳播平臺，已有龐大的用戶群體，用戶量也保持較好增長，如此龐大的用戶群體中存在有較高聲望和影響力的用戶，他們的言論和觀點(diǎn)會影響大多數(shù)用戶的觀點(diǎn)，社交網(wǎng)絡(luò)的無標(biāo)度性質(zhì)也決定了社交網(wǎng)絡(luò)中少部分人掌握著大部分話語權(quán)[2]，這部分有話語權(quán)的影響力用戶非常值得關(guān)注。微博用戶影響力可以通過微博話題的互動表現(xiàn)出來，表現(xiàn)為話題參與用戶的行為和觀點(diǎn)受其他用戶的影響發(fā)生改變的現(xiàn)象[3]。分析微博話題的用戶影響力對社交網(wǎng)絡(luò)的研究具有重要意義：1）有影響力用戶是推動話題持續(xù)傳播和擴(kuò)大話題傳播范圍的關(guān)鍵因素[4]，研究微博用戶影響力可以發(fā)現(xiàn)微博話題信息的傳播規(guī)律;2）微博話題在傳播過程中存在著錯綜復(fù)雜的社會屬性，研究微博用戶影響力有助于了解社交網(wǎng)絡(luò)的社會屬性;3）微博用戶質(zhì)量參差不齊，用戶需要推薦高質(zhì)量和有影響力的用戶，以獲取有價值和感興趣的信息，識別有影響力用戶有助于推薦微博中有共同興趣的高質(zhì)量好友，因此，計算微博用戶的影響力并找出影響力排名靠前的用戶，對話題信息傳播[5]、微博好友推薦[6]、網(wǎng)絡(luò)輿情監(jiān)督[7]等具有重要意義。

微博用戶影響力得到了研究人員的持續(xù)關(guān)注，目前研究工作側(cè)重于偏離用戶關(guān)系網(wǎng)絡(luò)分析用戶行為時間，忽略行為時間對傳播廣度和互動關(guān)系強(qiáng)度的影響;側(cè)重于從用戶之間興趣話題的角度分析，忽略用戶對話題的興趣關(guān)注和微博短文本等特征對話題識別的影響。

1）用戶行為的時間性。毛佳昕等[8]認(rèn)為用戶帖子的被轉(zhuǎn)發(fā)頻率是最能代表用戶影響力大小的指標(biāo)，利用用戶發(fā)布微博的時間分布、微博時效性和轉(zhuǎn)發(fā)偏好計算用戶帖子的被轉(zhuǎn)發(fā)頻率，確定用戶的影響力大小，該方法側(cè)重分析用戶發(fā)布微博時間分布對被轉(zhuǎn)發(fā)頻率的影響，忽略發(fā)布微博時間對轉(zhuǎn)發(fā)傳播廣度和轉(zhuǎn)發(fā)關(guān)系強(qiáng)度的影響，不能區(qū)分影響人群廣度不同的有影響力用戶和轉(zhuǎn)發(fā)對影響力的貢獻(xiàn)度。廖祥文等[9]將用戶觀點(diǎn)、活躍度、中心度等特征加入到張量模型中，假設(shè)用戶間評論的延遲時間滿足指數(shù)分布，得到評論時間特征約束矩陣并引入到張量模型分解過程中，以此計算用戶影響力，該方法側(cè)重分析在張量分解模型中引入評論延遲時間來度量用戶影響力，忽略評論延遲時間在用戶關(guān)系網(wǎng)絡(luò)中對影響力傳播范圍廣度的影響，不能很好識別最有影響力用戶。Su等[10]將用戶交互行為的整個時間區(qū)間劃分成時間片，在主題模型中引入文本主題、各類交互關(guān)系以及交互相關(guān)聯(lián)的時間片，提出了一種主題級影響力時間模型（Topic-level Influence over Time， TIT），該模型側(cè)重基于轉(zhuǎn)發(fā)、評論等交互行為所屬時間片來識別影響力有潛在增長趨勢的用戶，忽略轉(zhuǎn)發(fā)、評論等交互行為本身發(fā)生時間對用戶間交互關(guān)系強(qiáng)度的影響程度，不能有效地確定不同交互時間對用戶影響力的影響程度。

2）用戶的興趣話題。周東浩等[11]使用潛在狄利克雷分布（Latent Dirichlet Allocation， LDA）主題模型分析用戶的興趣話題相似度，基于用戶的傳播概率、興趣相似度和結(jié)構(gòu)相似度構(gòu)建隨機(jī)游走模型，提出了一種用戶傳播能力排序算法，該算法側(cè)重分析用戶之間在結(jié)構(gòu)和興趣話題上的相似度，忽略用戶興趣與參與話題之間的關(guān)聯(lián)性，最終識別出的影響力用戶并非真正關(guān)注話題并持續(xù)產(chǎn)生影響力的用戶，微博也具有短文本和數(shù)據(jù)稀疏等特點(diǎn)，直接使用LDA主題模型識別用戶潛在興趣話題分布的效果不佳。祝升等[12]利用LDA主題模型計算用戶在博文內(nèi)容上的話題分布，構(gòu)建話題關(guān)系網(wǎng)絡(luò)，綜合用戶之間的話題相似度、平均轉(zhuǎn)發(fā)延遲和轉(zhuǎn)發(fā)量占比得出邊權(quán)重，迭代計算出用戶影響力，該方法側(cè)重分析用戶之間的話題相似性，LDA主題模型直接應(yīng)用到微博短文本的效果不理想，識別用戶興趣話題的效果不佳，計算用戶之間話題相似度不準(zhǔn)確。Wu等[13]利用消息內(nèi)容、標(biāo)簽、轉(zhuǎn)發(fā)、回復(fù)和提及（@）構(gòu)建主題行為網(wǎng)絡(luò)，采用啟發(fā)式搜索方法生成用戶的主題行為影響樹，通過最大化受影響用戶數(shù)和最小化傳播路徑識別有影響力用戶，該方法側(cè)重用戶之間主題行為影響樹的構(gòu)建，忽略微博短文本特點(diǎn)和用戶對參與話題的興趣來分析用戶主題，影響對話題真正感興趣而持續(xù)產(chǎn)生影響力的關(guān)鍵用戶的識別。

綜上所述，現(xiàn)有研究有以下不足：1）忽略用戶轉(zhuǎn)發(fā)行為時間對用戶影響力傳播廣度和交互關(guān)系強(qiáng)度的影響;2）未結(jié)合微博短文本等特征分析用戶話題;3）忽略用戶對參與話題的興趣關(guān)注。本文選擇國內(nèi)最大的新浪微博社交網(wǎng)站作為研究對象，基于微博話題分析用戶影響力。針對第1）點(diǎn)不足，在用戶轉(zhuǎn)發(fā)關(guān)系網(wǎng)絡(luò)和用戶博文轉(zhuǎn)發(fā)關(guān)系網(wǎng)絡(luò)中分析轉(zhuǎn)發(fā)時間性（時間差）對轉(zhuǎn)發(fā)關(guān)系強(qiáng)度和微博用戶影響力傳播廣度的影響來計算轉(zhuǎn)發(fā)時間性對微博用戶影響力的貢獻(xiàn)度。針對第2）點(diǎn)和第3）點(diǎn)不足，基于用戶與參與話題之間的關(guān)聯(lián)性來計算用戶對微博話題的興趣關(guān)注度，通過微博關(guān)系擴(kuò)展微博短文本改進(jìn)LDA主題模型，分別識別用戶和背景話題的微博文本內(nèi)容的潛在話題分布，計算用戶與背景話題之間的關(guān)聯(lián)度。算法思路：首先，基于微博話題綜合分析用戶交互以及包含的時間信息構(gòu)建用戶轉(zhuǎn)發(fā)和博文轉(zhuǎn)發(fā)兩種話題轉(zhuǎn)發(fā)關(guān)系網(wǎng)絡(luò)，分析轉(zhuǎn)發(fā)行為時間性對轉(zhuǎn)發(fā)影響力和用戶自身質(zhì)量的影響，并從用戶轉(zhuǎn)發(fā)影響力和用戶自身質(zhì)量兩個方面計算用戶信息傳播能力;然后，通過微博關(guān)系拓展微博短文本并改進(jìn)LDA主題模型，通過改進(jìn)LDA主題模型分析用戶個人微博文本內(nèi)容和微博話題文本內(nèi)容的潛在話題分布，據(jù)此計算用戶與背景話題之間的關(guān)聯(lián)度;最后，綜合分析用戶話題信息傳播能力和用戶與背景話題之間的關(guān)聯(lián)度，計算話題參與用戶的影響力大小。通過爬取新浪微博真實話題數(shù)據(jù)進(jìn)行實驗，分別驗證了引入用戶轉(zhuǎn)發(fā)行為時間性和用戶與參與話題之間關(guān)聯(lián)性的有效性。與典型影響力分析算法WBRank、TwitterRank和PageRank比較，本文提出的基于話題和傳播能力的用戶排序（Topic and Spread user Rank， TSRank）算法在準(zhǔn)確率和召回率上分別提高了5.6%、8.5%、12.9%和6.3%、9.4%、13.5%5.9%、8.7%、13.1%和6.7%、9.1%、14.2%此處的值與摘要不一致，是否以摘要中的數(shù)值為準(zhǔn)？請明確。，表明了TSRank算法的有效性。

1 微博用戶影響力分析與度量

微博用戶影響力可以通過微博話題的互動表現(xiàn)出來，對其他用戶的行為和觀點(diǎn)等產(chǎn)生影響，因此，本文基于微博話題分析用戶影響力。話題參與用戶的影響力主要表現(xiàn)為微博用戶信息的傳播廣度和影響強(qiáng)度，即用戶的話題信息在話題傳播過程中，影響人群越廣，影響用戶強(qiáng)度越大，用戶的影響力越大。微博用戶影響力分析算法的整體思路如圖1所示。

1.1 問題定義

1.2 權(quán)重指標(biāo)定義

1.2.1 轉(zhuǎn)發(fā)行為時間性

這樣書寫符合表達(dá)嗎？請明確?；貜?fù)如下：1.括號使用不正確，應(yīng)該是（∑e X ri（v，u））/（∑ri（v，u）），解釋是第一個求和符號里的計算單元是e乘以ri（對多個e乘以ri求和），然后第一個求和符號的結(jié)果除以ri求和的結(jié)果，（這里只能文字說明，如未說明清除，請見郵件內(nèi)容公式截圖）;

2.第二個求和符號下方也可以加上如同第一求和符號下方，也可不加，此處的i只是表示用戶u的博文范圍，無初值，第二公式表明對ri的求和。

其中：e為自然常數(shù)（e>0）;O1（u）表示用戶u發(fā)布話題博文集合，t0i為用戶u發(fā)布第i條博文時刻（單位為h，表示距離博文發(fā)布當(dāng)天凌晨的時間），ti為用戶v轉(zhuǎn)發(fā)用戶u第i條博文時刻（單位為h，表示距離被轉(zhuǎn)發(fā)博文發(fā)布當(dāng)天凌晨的時間），ti-t0i為用戶v轉(zhuǎn)發(fā)用戶u第i條博文的時間差（時間差越小，對被轉(zhuǎn)發(fā)用戶u的影響力貢獻(xiàn)度越大）;λ為控制衰減速率的參數(shù)，設(shè)置λ=11h。對于固定值λ（λ>0），當(dāng)ti-t0i → 0+時，e-ti-t0iλ → 1;當(dāng)ti-t0i → +∞時，e-ti-t0iλ → 0。

1.2.2 用戶活躍度

1.3 度量指標(biāo)定義

話題參與用戶通過發(fā)布話題信息的傳播對被轉(zhuǎn)發(fā)用戶產(chǎn)生影響，其影響的人數(shù)越多，在用戶轉(zhuǎn)發(fā)關(guān)系網(wǎng)絡(luò)中從其他用戶引入的鏈接數(shù)越多，表明其影響人群越廣;同時，用戶轉(zhuǎn)發(fā)行為由用戶自身的價值驅(qū)動，話題內(nèi)用戶質(zhì)量越高，對其他用戶的影響程度越大，體現(xiàn)了用戶的信息傳播能力的影響強(qiáng)度，所以從用戶轉(zhuǎn)發(fā)影響力和用戶自身質(zhì)量兩個角度計算用戶信息傳播能力，分別體現(xiàn)微博用戶影響力的影響傳播廣度和影響用戶強(qiáng)度。

1.3.1 用戶轉(zhuǎn)發(fā)影響力

話題用戶轉(zhuǎn)發(fā)網(wǎng)絡(luò)與網(wǎng)頁鏈接結(jié)構(gòu)十分相似，用戶u被用戶v轉(zhuǎn)發(fā)相當(dāng)于網(wǎng)頁v存在一個鏈接指向網(wǎng)頁u，用戶v將自己的影響力貢獻(xiàn)給用戶u，網(wǎng)頁v將自己的重要性貢獻(xiàn)給網(wǎng)頁u，但由于用戶v的轉(zhuǎn)發(fā)時間間隔和自身活躍度都不同，對用戶u的影響力貢獻(xiàn)度也是不同的，所以，在用戶轉(zhuǎn)發(fā)關(guān)系網(wǎng)絡(luò)中，話題參與用戶u的轉(zhuǎn)發(fā)影響力表示為R（u），引入wr（v，u）來體現(xiàn)轉(zhuǎn)發(fā)時間間隔對用戶轉(zhuǎn)發(fā)關(guān)系強(qiáng)度和用戶影響人群廣度的影響，借鑒經(jīng)典網(wǎng)頁排序算法PageRank的思想計算R（u），微博用戶轉(zhuǎn)發(fā)影響力的計算公式如下：

其中：O2（u）為用戶u的轉(zhuǎn)發(fā)用戶集合;R（v）為用戶v的轉(zhuǎn)發(fā)影響力;out（v）為用戶v指向其他用戶的轉(zhuǎn)發(fā);c為阻尼系數(shù)，通常設(shè)置為經(jīng)驗值0.85。

1.3.2 用戶自身質(zhì)量

在用戶博文轉(zhuǎn)發(fā)關(guān)系網(wǎng)絡(luò)中，用戶u發(fā)布博文b（b∈VB）的質(zhì)量記為Blogb（u），用戶到博文節(jié)點(diǎn)的轉(zhuǎn)發(fā)關(guān)系邊權(quán)重設(shè)置為wr（v，u），體現(xiàn)轉(zhuǎn)發(fā)時間差對博文傳播廣度和博文轉(zhuǎn)發(fā)關(guān)系強(qiáng)度的影響，借鑒PageRank思想計算Blogb （u），計算如下：

其中：O3（b）是博文b的轉(zhuǎn)發(fā)用戶集合，Q（v）是用戶v的自身質(zhì)量，out（v）是用戶v指向其他用戶的轉(zhuǎn)發(fā)。

在微博話題傳播過程中，因為用戶自身質(zhì)量主要通過用戶發(fā)布博文的質(zhì)量體現(xiàn)，所以，使用用戶u所有博文的質(zhì)量表示用戶u自身質(zhì)量Q（u）。在用戶博文轉(zhuǎn)發(fā)關(guān)系網(wǎng)絡(luò)中，設(shè)置博文節(jié)點(diǎn)b到用戶節(jié)點(diǎn)u的邊權(quán)重為wb（u），體現(xiàn)博文質(zhì)量b對用戶自身質(zhì)量計算的重要程度。用戶u的自身質(zhì)量計算公式如下：

其中：O4（bu）此處的b，是否應(yīng)該為u，為與式（8）保持書寫一致是用戶u的所有博文集合;wb（u）此處wb（u）是矢量或向量，但是其后的值Nb、Nc為常數(shù)，如何理解二個常數(shù)相除后卻變?yōu)槭噶浚ɑ蛳蛄浚┻@個事情，是表述錯誤？還是其他，請明確。

回復(fù)如下：wb（u）是博文節(jié)點(diǎn)b到用戶節(jié)點(diǎn)u的邊權(quán)重，是有方向的，反過來，用戶指向博文節(jié)點(diǎn)就不是Wb（u），該權(quán)重刻畫的是博文節(jié)點(diǎn)b對用戶節(jié)點(diǎn)u自身質(zhì)量的貢獻(xiàn)度。

其后的Nb和Nc是通過公式計算該權(quán)重值的大小，只是對Wb（u）的量化。=Nb/Nc，Nb為用戶u的博文b的總轉(zhuǎn)發(fā)數(shù)，Nc為用戶u所有博文總轉(zhuǎn)發(fā)數(shù)。

1.4 用戶信息傳播能力計算

在話題傳播過程中，轉(zhuǎn)發(fā)影響力體現(xiàn)被轉(zhuǎn)發(fā)用戶信息傳播能力在話題內(nèi)的信息傳播廣度，用戶自身質(zhì)量體現(xiàn)用戶信息傳播能力影響用戶的強(qiáng)度，因此本文將這兩個度量指標(biāo)通過線性融合計算用戶在話題內(nèi)的信息傳播能力大小，表示為Spread（u），計算如下：

其中：α1是用戶轉(zhuǎn)發(fā)影響力所占比重，α2是用戶自身質(zhì)量所占比重。設(shè)置α1=α2=0.5，表示用戶的轉(zhuǎn)發(fā)影響力和用戶自身質(zhì)量對用戶信息傳播能力同等重要。

2 面向話題的用戶影響力算法

2.1 用戶與參與話題間的關(guān)聯(lián)性

面向微博話題的用戶影響力研究大多假設(shè)用戶影響力不受微博之外的因素影響，但微博社交網(wǎng)絡(luò)用戶具有社會屬性，其影響力受多種因素影響。用戶興趣與熱點(diǎn)話題之間的關(guān)聯(lián)性代表該用戶是否會持續(xù)關(guān)注該話題，頻繁參與話題互動并產(chǎn)生持續(xù)影響力。本文在實驗部分驗證了用戶與背景話題之間關(guān)聯(lián)性對用戶轉(zhuǎn)發(fā)微博話題相關(guān)博文數(shù)量的影響，表明話題關(guān)聯(lián)度較高的用戶相比較話題關(guān)聯(lián)度較低的用戶，會更頻繁地參與話題互動并產(chǎn)生持續(xù)影響力，為此通過分析微博話題相關(guān)所有博文集合和用戶對應(yīng)時段內(nèi)的個人歷史博文集合，計算用戶與微博話題之間的關(guān)聯(lián)度。

針對LDA主題模型不適用于微博短文本，結(jié)合微博短文本特征改進(jìn)LDA主題模型。將微博話題內(nèi)的每一個博文以及其他用戶評論它的內(nèi)容和原始發(fā)布者對這些評論的回復(fù)聚合成多個單個博文集合，然后聚合微博話題內(nèi)的所有單個博文集合形成微博話題文檔集合?；诖朔椒ㄍ卣共┪亩涛谋镜脑蚴?，用戶發(fā)布博文以及用戶之間的評論回復(fù)通常是圍繞博文主題進(jìn)行的。同樣采用此方法拓展用戶在同一時間段內(nèi)的歷史博文內(nèi)容得到用戶文檔集合，然后使用中文微博關(guān)系主題模型（Micro-blog Relation Latent Dirichlet Allocation， MR-LDA）方法[15]改進(jìn)LDA主題模型，該方法結(jié)合了博文之間的提及（@）、轉(zhuǎn)發(fā)、評論和點(diǎn)贊關(guān)系。

識別微博話題文檔集合和用戶文檔集合主題數(shù)K，使用改進(jìn)LDA主題模型識別微博話題文檔集合的主題概率分布Vtopic和用戶文檔集合的主題概率分布Vu，向量表示如下：

其中：piu和pitopic分別是用戶u的文檔集合和微博話題文檔集合產(chǎn)生主題i的概率，且∑Ki=01piu=∑Ki=01是否應(yīng)該為i=1？請明確pitopic=1。

相對熵，又稱KL（Kullback-Leibler）散度，是描述兩個概率分布之間差異的一種方法，符合本文計算用戶與背景話題之間關(guān)聯(lián)度的特點(diǎn)，所以本文使用KL散度計算Vtopic和Vu向量之間的距離，值越大，說明越不相似，計算公式如下：

由于KL散度不具有對稱性，與用戶和背景話題之間關(guān)聯(lián)度的對稱性不相符。為了使得公式符合對稱性，便于描述用戶與背景話題關(guān)聯(lián)度和KL值對應(yīng)關(guān)系，將公式進(jìn)行轉(zhuǎn)換。定義用戶u與背景話題之間關(guān)聯(lián)度S（u，topic），公式如下：

其中：S（u，topic）為用戶與背景話題之間關(guān)聯(lián)度，S（u，topic）的值越大，用戶歷史微博內(nèi)容與背景話題內(nèi)容的概率分布差別越小，用戶與背景話題之間的關(guān)聯(lián)度越高。

2.2 面向微博話題的用戶影響力計算

用戶信息傳播能力代表用戶對話題信息傳播能力的大小，用戶與背景話題之間的關(guān)聯(lián)度代表用戶與背景話題之間的黏性，是用戶對話題傳播持續(xù)產(chǎn)生的影響力，所以，基于用戶信息傳播能力和用戶與參與話題之間的關(guān)聯(lián)度直接計算話題參與用戶的影響力大小，計算如下：

程序后

3 實驗結(jié)果及分析

為了驗證該算法的普適性和有效性，實驗部分首先選取了新浪官方公布的微博熱點(diǎn)話題“徐玉玉案”，該話題事件范圍為2017年6月2日—2017年7月21日，又增加了該話題時間內(nèi)的“2017NBA總決賽”“李文星事件”“順豐菜鳥‘?dāng)?shù)據(jù)斷交門”“四川‘格斗孤兒”“中國式相親鄙視鏈”5個話題，共計6個話題，使實驗數(shù)據(jù)包括教育、體育、社會、科技、民生等多領(lǐng)域的一般性話題和熱點(diǎn)話題，同時，選取2017年6月21日—6月22日兩天時間內(nèi)新浪微博上的所有話題數(shù)據(jù)，進(jìn)行實驗驗證，使實驗驗證具有普適性。通過網(wǎng)絡(luò)爬蟲獲取以上相關(guān)數(shù)據(jù)，同時爬取話題參與用戶在對應(yīng)時間內(nèi)的歷史消息微博數(shù)據(jù)。對得到數(shù)據(jù)進(jìn)行預(yù)處理后，數(shù)據(jù)集統(tǒng)計情況如表1所示。由于爬取的微博話題的用戶數(shù)據(jù)量較大，借助Spark平臺實現(xiàn)本文算法（TSRank），使用Matlab仿真實驗結(jié)果，通過多次實驗的最優(yōu)結(jié)果，設(shè)置控制衰減速率的參數(shù)λ=11h。

3.1 有效性測試

首先驗證用戶與參與話題之間關(guān)聯(lián)度和轉(zhuǎn)發(fā)行為時間性的有效性。以話題“2017NBA總決賽”為例，通過計算用戶與背景話題之間的關(guān)聯(lián)度對用戶進(jìn)行分類，將關(guān)聯(lián)度較高和較低的用戶分為話題相關(guān)用戶和話題不相關(guān)用戶，分析用戶與背景話題間關(guān)聯(lián)度對轉(zhuǎn)發(fā)行為的影響。統(tǒng)計所有用戶（all users）、話題相關(guān)用戶（topics related users）和話題不相關(guān)用戶（other users）所轉(zhuǎn)發(fā)的與熱點(diǎn)話題相關(guān)微博的數(shù)量變化，其中，時間周期為2天，結(jié)果如圖2所示。

從圖2中可知，在話題傳播周期內(nèi)，微博話題相關(guān)博文數(shù)的增長對各類用戶的轉(zhuǎn)發(fā)量都有所影響，話題相關(guān)用戶的轉(zhuǎn)發(fā)量上升幅度明顯高于話題不相關(guān)用戶，同時話題相關(guān)用戶轉(zhuǎn)發(fā)趨勢與話題整體轉(zhuǎn)發(fā)趨勢比較接近，而話題不相關(guān)用戶轉(zhuǎn)發(fā)量的趨勢與之并不明顯接近。表明話題相關(guān)用戶話題參與度更高，更易促進(jìn)話題傳播，話題相關(guān)用戶會對話題傳播持續(xù)產(chǎn)生影響力。驗證了引入用戶與背景話題之間的關(guān)聯(lián)度有助于識別微博話題傳播過程中有持續(xù)影響力用戶，能在一定程度上屏蔽僅靠刷微博數(shù)來提升微博話題熱度的水軍用戶。

驗證引入轉(zhuǎn)發(fā)行為時間性的有效性，使用捕獲率（Catch Ratio， CR）作為評測指標(biāo)，CR為通過Top-k用戶檢測到的信息與網(wǎng)絡(luò)中實際存在的信息的比值。驗證結(jié)果使用六個話題以及兩日內(nèi)的所有話題數(shù)據(jù)集的平均捕獲率，如圖3所示。從圖中可以看出，轉(zhuǎn)發(fā)時間性對CR指標(biāo)的影響較大，隨著Top-10、Top-20、Top-30、Top-50、Top-80和Top-100的變化，引入轉(zhuǎn)發(fā)時間性的CR值明顯優(yōu)于不考慮轉(zhuǎn)發(fā)時間性的情況。

3.2 實驗對比測試

通過實驗對比，測試TSRank算法識別有影響力用戶的準(zhǔn)確性，選取WBRank算法[16]、TwitterRank算法[6]和PageRank算法三種算法作為對比，其原因是：WBRank算法是較新提出算法，同樣基于新浪微博平臺和考慮用戶行為進(jìn)行分析;TwitterRank算法也是基于話題和網(wǎng)絡(luò)結(jié)構(gòu)的經(jīng)典算法;PageRank是經(jīng)典排序算法，且本文有借鑒其算法思想。圖4給出Top-10、Top-20、Top-30、Top-50、Top-80和Top-100下四種算法對CR指標(biāo)影響的實驗結(jié)果。從圖4中可以看出，隨著選取有影響力用戶數(shù)量的增多，TSRank方法的CR指標(biāo)均優(yōu)于其他三種算法，說明TSRank算法識別微博話題內(nèi)有影響力用戶的效果更佳。

3.3 算法準(zhǔn)確率和召回率驗證

為了更進(jìn)一步驗證本文方法的有效性，分別驗證挖掘影響力個體的準(zhǔn)確率和召回率。由于微博話題中的實際影響力用戶難以人為確定，所以通過上述3種算法和TSRank算法的交叉驗證來確定真實影響力用戶的排名。

交叉驗證方法[17]是將多種算法（N種）認(rèn)為的正確結(jié)果作為最終正確結(jié)果。例如給定4種算法A、B、C和D，各算法得出的正確結(jié)果分別為IA、IB、IC和ID，設(shè)置N=2，即2種算法認(rèn)為的正確結(jié)果作為最終的參考結(jié)果，稱其為參考標(biāo)準(zhǔn)集合I2，則定義I2為：

準(zhǔn)確率P（Precision）體現(xiàn)挖掘話題內(nèi)影響力用戶的真實性，算法A挖掘影響力用戶的準(zhǔn)確率定義如式（16）所示：

召回率R（Recall）體現(xiàn)微博話題內(nèi)影響力用戶的挖掘充分程度，即算法A挖掘影響力用戶的召回率定義如式（17）所示：

實驗根據(jù)4種算法，在N=2，3，4時，對比了六個話題以及兩日所有話題的平均準(zhǔn)確率在Top-10、Top-20、Top-30、Top-50、Top-80和Top-100下的實驗結(jié)果，如圖5所示。

實驗結(jié)果表明，參考標(biāo)準(zhǔn)數(shù)量N在不同取值情況下，

TSRank算法的準(zhǔn)確率均優(yōu)于其他三種算法，但實驗效果有所不同。因為參考標(biāo)準(zhǔn)數(shù)量N設(shè)置過?。∟=2）時，參考標(biāo)準(zhǔn)集合IN元素數(shù)目偏多，各算法與IN交集元素較一致，導(dǎo)致準(zhǔn)確率相差不大;參考標(biāo)準(zhǔn)數(shù)量N設(shè)置過大（N=4），參考標(biāo)準(zhǔn)集合IN元素數(shù)目偏少，同樣使得各算法與IN交集元素較一致，導(dǎo)致準(zhǔn)確率相差也不大。當(dāng)N=3時，四種算法的準(zhǔn)確率效果最理想，能體現(xiàn)出各算法的準(zhǔn)確性優(yōu)劣，此時，TSRank相比WBRank、TwitterRank和PageRank，在不同Top-k和三個話題下的平均準(zhǔn)確率分別提高了5.9%、8.7%和13.1%，表明TSRank算法能更準(zhǔn)確地識別出有影響力用戶。

實驗同樣對比了在參考標(biāo)準(zhǔn)數(shù)量N=2，3，4的不同設(shè)置下，6個話題以及兩日所有話題的平均召回率在不同Top-k影響力用戶下的實驗結(jié)果，如圖6所示。

從圖6可知，參考標(biāo)準(zhǔn)數(shù)量N在不同取值情況下，TSRank算法的召回率均優(yōu)于其他三種算法，但實驗效果同樣不同，因為N設(shè)置過?。∟=2）時，各算法與IN元素的交集元素同樣多，召回率相差不大;N設(shè)置過大（N=4）時，各算法與IN元素的交集元素同樣少，召回率相差也不大。參考標(biāo)準(zhǔn)數(shù)量N=3時，實驗效果最佳，此時，TSRank相比WBRank、TwitterRank和PageRank，在不同Top-k和三個話題下的平均召回率分別提高了6.7%、9.1%和14.2%，表明TSRank算法能更充分地識別出有影響力用戶。

3.4 算法效率和復(fù)雜度分析

為了測試TSRank算法的執(zhí)行效率，本文將數(shù)據(jù)集按照用戶節(jié)點(diǎn)數(shù)逐漸遞增，劃分為5個規(guī)模不同的數(shù)據(jù)塊，分別將其標(biāo)識為數(shù)據(jù)塊1、2、3、4、5，對應(yīng)的用戶節(jié)點(diǎn)數(shù)為76837、110381、158353、229361、281539，對比了4種算法在6個話題以及兩日內(nèi)所有話題數(shù)據(jù)上的平均執(zhí)行時間（min），實驗結(jié)果如圖7所示。

實驗結(jié)果表明，本文提出的TSRank算法的執(zhí)行時間更少，算法效率明顯優(yōu)于同其他三種算法;同時，4種算法的執(zhí)行時間隨著數(shù)據(jù)集規(guī)模的增大而呈線性增長，但TSRank算法的增幅較小。

TSRank算法與PageRank算法相比，算法復(fù)雜度有所增加，需要計算用戶轉(zhuǎn)發(fā)影響力和用戶自身質(zhì)量，但它們的計算簡單，且轉(zhuǎn)發(fā)影響力、用戶自身質(zhì)量以及用戶與話題間關(guān)聯(lián)度是并行的，因此算法復(fù)雜度增幅較小，相比WBRank算法和TwitterRank算法，TSRank算法復(fù)雜度也沒有過高，三者都考慮了用戶網(wǎng)絡(luò)結(jié)構(gòu)和用戶行為，其中，WBRank和本文算法都是基于PageRank迭代收斂，TwitterRank和本文算法都考慮了話題因素。對于算法的優(yōu)化策略，可以從技術(shù)角度出發(fā)，增大并行節(jié)點(diǎn)數(shù)或?qū)⒅虚g輸出結(jié)果同用戶關(guān)系相結(jié)合作為下一次迭代輸入，提高執(zhí)行效率，同時可以借助Spark GraphX技術(shù)提高對大規(guī)模圖計算的效率。

4 結(jié)語

利用社交網(wǎng)絡(luò)中微博話題和參與用戶數(shù)據(jù)，本文給出了話題參與用戶的話題信息傳播能力和用戶對微博話題興趣關(guān)注的度量機(jī)制，提出了一種面向微博話題的用戶影響力分析算法，通過真實新浪微博數(shù)據(jù)驗證和與其他同類經(jīng)典算法對比，測試了本文算法的可行性、高效性和準(zhǔn)確性。本文提出的算法，可以用于解決大規(guī)模微博話題用戶中的關(guān)鍵用戶識別問題，對社交網(wǎng)絡(luò)中解決信息傳播和輿情監(jiān)控等問題具有支撐作用。

本文僅在用戶行為時間性和用戶與微博話題間關(guān)聯(lián)度基礎(chǔ)上提出挖掘微博話題內(nèi)有影響力用戶算法，進(jìn)一步的工作可以基于話題傳播網(wǎng)絡(luò)，將微博用戶影響力與微博情感結(jié)合考慮，挖掘話題傳播過程中高影響力用戶的情感極性，更有效地監(jiān)控輿情。

參考文獻(xiàn) （References）

[1] 趙姝，劉曉曼，段震，等.社交關(guān)系挖掘研究綜述[J].計算機(jī)學(xué)報，2017，40（3）：535-555.（ZHAO S， LIU X M， DUAN Z， et al. Review of social relationship mining research [J]. Chinese Journal of Computers， 2017， 40（3）：535-555.）

[2] 韓忠明，陳炎，劉雯，等.社會網(wǎng)絡(luò)節(jié)點(diǎn)影響力分析研究[J].軟件學(xué)報，2017，28（1）：84-104.（HAN Z M， CHEN Y， LIU W， et al. Analysis of influence of social network nodes [J]. Journal of Software， 2017， 28（1）： 84-104.）

[3] 吳信東，李毅，李磊.在線社交網(wǎng)絡(luò)影響力分析[J].計算機(jī)學(xué)報，2014，37（4）：735-752.（WU X D， LI Y， LI L. Analysis of influence of online social networking [J]. Chinese Journal of Computers， 2014，37（4）：735-752.）

[4] LUARN P， YANG J C， CHIU Y P. The network effect on information dissemination on social network sites [J]. Computers in Human Behavior， 2014， 37（37）：1-8.

[5] CHEN Z， TAYLOR K. Modeling the spread of influence for independent cascade diffusion process in social networks[C]// Proceedings of the 2017 International Conference on Distributed Computing Systems Workshops. Piscataway， NJ： IEEE， 2017：151-156.

[6] WENG J， LIM E P， JIANG J， et al. TwitterRank： finding topic-sensitive influential twitterers [C]// ACM 2010： Proceedings of the 2010 ACM International Conference on Web Search and Data Mining. New York： ACM， 2010：261-270.

[7] LI Z， LI M， JI W. Modelling the public opinion transmission on social networks under opinion leaders [C]// AEECE 2017： Proceedings of the 2017 3rd International Conference on Advances in Energy， Environment and Chemical Engineering. Bristol： IOP Publishing， 2017：012215.

[8] 毛佳昕，劉奕群，張敏，等.基于用戶行為的微博用戶社會影響力分析[J].計算機(jī)學(xué)報，2014，37（4）：791-800.（MAO J X， LIU Y Q， ZHANG M， et al. Analysis of social influence of Weibo users based on user behavior [J]. Chinese Journal of Computers， 2014，37（4）：791-800.）

[9] 廖祥文，張凌鷹，魏晶晶，等.融合時間特征的社交媒介用戶影響力分析[J].山東大學(xué)學(xué)報（理學(xué)版），2018，53（3）：1-12.（LIAO X W， ZHANG L Y， WEI J J， et al. An analysis of social media users influence on the integration of time characteristics [J]. Journal of Shandong University （Natural Science）， 2018， 53（3）：1-12.）

[10] SU S， WANG Y， ZHANG Z， et al. Identifying and tracking topic-level influencers in the microblog streams [J]. Machine Learning， 2017， 107（3）： 551-578.

[11] 周東浩，韓文報.DiffRank：一種新型社會網(wǎng)絡(luò)信息傳播檢測算法[J].計算機(jī)學(xué)報，2014，37（4）：884-893.（ZHOU D H， HAN W B. DiffRank： a new social network information propagation detection algorithm [J]. Chinese Journal of Computers， 2014，37（4）： 884-893.）

[12] 祝升，周斌，朱湘.綜合用戶相似性與話題時效性的影響力用戶發(fā)現(xiàn)算法[J].山東大學(xué)學(xué)報（理學(xué)版），2016，51（9）：113-120.（ZHU S， ZHOU B， ZHU X. User discovery algorithm based on comprehensive user similarity and topic time effectiveness[J]. Journal of Shandong University （Natural Science）， 2016， 51（9）：113-120.）

[13] WU J， SHA Y， LI R， et al. Identification of influential users based on topic-behavior influence tree in social networks[C]// Proceedings of the 6th Conference on Nature Language Processing and Chinese Computing. Dalian： [s.n.]， 2017： 477-489.

[14] GOTEZ M， LESKOVEC J， MCGLOHOM M， et al. Modeling blog dynamics[C]// Proceedings of the 2009 International Conference on Weblogs and Social Media. Menlo Park， CA： AAAI Press， 2009： 26-33.

[15] LIN W， PANG X， WAN B， et al. MR-LDA： an efficient topic model for classification of short text in big social data [J]. International Journal of Grid and High Performance Computing， 2016， 8（4）： 100-113.

[16] HU M， HANG G， ZHOU J， et al. A method for measuring social influence of micro-blog based on user operations[C]// Proceedings of the 2017 International Conference information Technology and Applications. Sydney： ICITA， 2017： 82-87.

[17] 丁兆云，周斌，賈焰，等.微博中基于多關(guān)系網(wǎng)絡(luò)的話題層次影響力分析[J].計算機(jī)研究與發(fā)展，2013，50（10）：2155-2175.（DING Z Y， ZHOU B， JIA Y， et al. Analysis of topic influence on multi-relational networks in Weibo[J]. Journal of Computer Research and Development， 2013， 50（10）：2155-2175.）

計算機(jī)應(yīng)用2019年1期

計算機(jī)應(yīng)用的其它文章: 二維Logistic分?jǐn)?shù)階微分方程的離散化過程; 面向農(nóng)業(yè)應(yīng)用的無人機(jī)遙感影像地塊邊界提取; 煤炭運(yùn)輸公路網(wǎng)絡(luò)可靠性仿真分析; 巡檢機(jī)器人中指針式儀表示數(shù)的自動識別方法; 多因子判定與滲流模型相結(jié)合的裂縫檢測算法; 基于結(jié)構(gòu)自相似性和形變塊特征的單幅圖像超分辨率算法

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向微博話題的用戶影響力分析算法