吳聯(lián)仁 李瑾頡 齊佳音3)
1) (上海對(duì)外經(jīng)貿(mào)大學(xué)工商管理學(xué)院, 上海 201620)
2) (上海師范大學(xué)數(shù)理學(xué)院, 上海 200234)
3) (北京郵電大學(xué), 可信分布式計(jì)算與服務(wù)教育部重點(diǎn)實(shí)驗(yàn)室, 北京 100876)
社交媒體上的信息流行度演化與預(yù)測給復(fù)雜系統(tǒng)的研究者提出了諸多挑戰(zhàn), 如識(shí)別“病毒式”傳播的原因、網(wǎng)絡(luò)結(jié)構(gòu)特征以及通過信息的內(nèi)容和早期的關(guān)注預(yù)測未來的流行度. 雖然在線信息流行度的建模與預(yù)測已經(jīng)取得了一定的研究進(jìn)展[1?4], 然而這個(gè)方向的研究大多由于可用的大規(guī)模數(shù)據(jù)缺少而受到阻礙. 近年來, 從在線社交網(wǎng)絡(luò)獲得的大規(guī)模社交數(shù)據(jù)為探索人類行為特征及其對(duì)在線內(nèi)容流行的影響創(chuàng)造了前所未有的機(jī)會(huì).
建模和預(yù)測信息流行度的困難在于各種混雜因素的共存[5?9]. 同時(shí), 它給研究人員帶來了許多挑戰(zhàn), 包括原因的識(shí)別[10?13], 時(shí)間效應(yīng)[14]和結(jié)構(gòu)特征[15,16]. 一些學(xué)者對(duì)這一問題提出了不同的看法. Cetin和Bingol[17]認(rèn)為個(gè)人注意力對(duì)信息的流行有重要影響, 并且提出能見度的衰退和分散注意力的結(jié)合解釋了為什么社交網(wǎng)絡(luò)中的大多數(shù)信息級(jí)聯(lián)不能成為流行. Weng等[18]采用agent?based模型來研究模因(memes)之間的競爭是否會(huì)影響其流行度, 結(jié)果表明模因的流行度存在異質(zhì)性, 這種現(xiàn)象是由模因競爭用戶有限的注意力和在線網(wǎng)絡(luò)的結(jié)構(gòu)共同導(dǎo)致的. Gleeson等[19]認(rèn)為, 有限的用戶注意力資源限制了消息的流行, 并且自然地導(dǎo)致一些消息變得非常流行, 其他消息只是中等流行, 或者被忽略. Yan等[20,21]通過微博信息數(shù)據(jù)從人類動(dòng)力學(xué)方面研究微博信息傳播及擴(kuò)散.
針對(duì)上述問題, 本文對(duì)新浪微博的信息數(shù)據(jù)和網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)進(jìn)行了分析, 結(jié)果發(fā)現(xiàn)信息流行度衰減遵循標(biāo)度律. 其次, 提出了基于分支過程的概率模型, 來描述微博信息流行度變化的過程. 第三,對(duì)所提出的模型進(jìn)行數(shù)值仿真和理論求解, 發(fā)現(xiàn)該模型能夠再現(xiàn)真實(shí)社交網(wǎng)絡(luò)數(shù)據(jù)的若干特征. 此外, 信息流行度分布的冪指數(shù)與微博網(wǎng)絡(luò)的度分布冪指數(shù)相關(guān), 微博系統(tǒng)中信息流行度受網(wǎng)絡(luò)結(jié)構(gòu)的影響.
在線社交網(wǎng)絡(luò)用戶之間相互關(guān)注形成有向網(wǎng)絡(luò)(如Twitter、新浪微博等). 在新浪微博系統(tǒng)中,每個(gè)用戶具有“微博首頁”和“個(gè)人頁面”兩個(gè)列表.用戶關(guān)注的好友如果發(fā)出信息, 這些信息按時(shí)間先后順序都將顯示在“微博首頁”這個(gè)列表上. 當(dāng)用戶打開微博系統(tǒng)查看“微博首頁”列表上的信息時(shí), 就會(huì)對(duì)感興趣的微博進(jìn)行轉(zhuǎn)發(fā)或評(píng)論. 轉(zhuǎn)發(fā)的微博信息同時(shí)會(huì)顯示在“個(gè)人頁面”這個(gè)列表上. 本文定義表示微博信息的流行度, 即從信息被生成后時(shí)間內(nèi)獲得轉(zhuǎn)發(fā)和評(píng)論的總數(shù).表示在時(shí)間信息獲得流動(dòng)度的概率.
由于“微博首頁”存儲(chǔ)列表的頂部是最新收到的信息, 之前收到的信息會(huì)逐漸淹沒在列表的底部. 根據(jù)用戶注意力有限的假設(shè), 每次用戶從“微博首頁”列表頂部開始查看信息, 并且查看的信息是有限的. 這就會(huì)導(dǎo)致一些被淹沒在列表底部的信息不被用戶評(píng)論或轉(zhuǎn)發(fā). 不失一般性, 此處假設(shè)“微博首頁”和“個(gè)人首頁”存儲(chǔ)信息的能力為1, 即都只能保存一條信息, 新的信息到來時(shí)將覆蓋掉原來保存在列表上的信息.
圖1描述的是微博系統(tǒng)中信息傳播的過程. 對(duì)于每個(gè)用戶在當(dāng)前時(shí)刻有兩個(gè)動(dòng)作(或狀態(tài)):1)以概率生成一條新的信息發(fā)出去; 2)以概率轉(zhuǎn)發(fā)“微博列表”上已有的信息. 如用戶1在時(shí)刻以概率生成了一條信息(用圓圈表示), 同時(shí)發(fā)給其粉絲用戶2和3; 在時(shí)刻用戶2以概率轉(zhuǎn)發(fā)這條信息給其粉絲用戶4和5; 在時(shí)刻, 用戶3又以概率生成一條新的信息(用方框表示), 并將該信息發(fā)給其粉絲用戶6和7. 每當(dāng)信息被傳播一次, 信息的流行度加1.
圖1 流行度模型示意圖Fig. 1. Schematic of the model.
根據(jù)第2節(jié)的模型描述, 本節(jié)采用分支過程來刻畫信息的流行度動(dòng)力學(xué)過程, 微博系統(tǒng)中每條消息的傳播都遵循一個(gè)分支過程.
表1 一個(gè)時(shí)間步節(jié)點(diǎn)(用戶)“微博首頁”的結(jié)果Table 1. Single time?step outcomes of user’s list.
則(5)式變?yōu)?/p>
將上面的推導(dǎo)一般化為每個(gè)用戶的列表具有容量c, 即用戶的“微博首頁”和“個(gè)人頁面”可同時(shí)保存c條微博信息:
本文分析了兩個(gè)數(shù)據(jù)集, 均通過新浪微博開放平臺(tái)API收集(www.weibo.com), 新浪微博是目前中國最流行的微博平臺(tái)之一. 第1個(gè)數(shù)據(jù)集是微博信息數(shù)據(jù), 通過滾雪球采樣的方法收集了某個(gè)話題在2009/8/20―2010/9/3之間發(fā)布的125139條微博, 以及這些微博被轉(zhuǎn)發(fā)了2260826次和1822450條評(píng)論. 每條微博包括發(fā)出用戶ID、微博ID、微博發(fā)布時(shí)間、微博內(nèi)容、轉(zhuǎn)發(fā)次數(shù)和評(píng)論次數(shù). 此外還采集了微博的評(píng)論時(shí)間, 微博的轉(zhuǎn)發(fā)時(shí)間雖無法獲得, 但微博的轉(zhuǎn)發(fā)流行度分布和評(píng)論流行度分布具有相同的分布特征(如圖2所示), 均服從冪指數(shù)約為1.8的冪律分布. 因此, 評(píng)論流行度的變化可近似表示微博整體流行度的變化(評(píng)論流行度和轉(zhuǎn)發(fā)流行度).
第2個(gè)數(shù)據(jù)是微博用戶數(shù)據(jù), 第2個(gè)數(shù)據(jù)集收集了參與話題討論的41667個(gè)用戶信息. 對(duì)每個(gè)用戶, 采集了用戶ID、用戶關(guān)注數(shù)和關(guān)注關(guān)系、用戶粉絲數(shù). 從而獲得微博網(wǎng)絡(luò)用戶度分布情況, 數(shù)據(jù)統(tǒng)計(jì)分析發(fā)現(xiàn)用戶入度(粉絲)和出度(關(guān)注)分布均服從冪指數(shù)約為1.5的冪律分布(如圖3所示),但出度分布在2000附近具有一個(gè)截?cái)? 這是由于新浪微博系統(tǒng)初期允許關(guān)注的上限是2000.
圖2 微博的流行度分布Fig. 2. Distribution of micro?blogs popularity.
圖3 微博用戶度分布Fig. 3. Distribution of out?degree and in?degree.
為了驗(yàn)證分支過程近似的精確性, 并探討網(wǎng)絡(luò)結(jié)構(gòu)與有限注意力的相互作用, 本文將模型的數(shù)值仿真結(jié)果與實(shí)際數(shù)據(jù)和理論預(yù)測結(jié)果進(jìn)行比較. 首先生成具有指定度分布的有向網(wǎng)絡(luò), 網(wǎng)絡(luò)的度分布服從冪律分布,. 模型參數(shù)設(shè)定為節(jié)點(diǎn)總數(shù)是, 且
數(shù)值仿真的微博信息的平均流行度(藍(lán)圓線),與實(shí)際數(shù)據(jù)(黑鉆石線)和方程6的理論預(yù)測(紅方線)的比較如圖4所示. 其中參數(shù)取值為微博生成概率, 平均入度, 微博列表存儲(chǔ)信息能力. 因新浪微博網(wǎng)絡(luò)中不同時(shí)間窗口、不同主題話題下微博信息流行度存在差異, 本文實(shí)證數(shù)據(jù)計(jì)算結(jié)果與理論模擬存在偏差. 從圖4可見, 在初始階段, 平均流行度的實(shí)際數(shù)據(jù)與理論預(yù)測和仿真偏差較大, 隨著時(shí)間不斷增加, 偏差先減小后增大, 最后實(shí)際平均流行度值和理論預(yù)測值均趨向于定值, 偏差穩(wěn)定. 另外在數(shù)據(jù)處理與選擇時(shí), 單個(gè)微博信息流行度時(shí)間序列數(shù)據(jù)點(diǎn)大于等于10時(shí), 該微博信息才被納入計(jì)算平均流行度的數(shù)據(jù). 每個(gè)微博信息流行度的時(shí)間序列數(shù)據(jù)點(diǎn)不相等, 也導(dǎo)致了平均流行度的計(jì)算結(jié)果和理論模擬的偏差.
圖4 微博信息平均流行度Fig. 4. Mean popularity of Micro?blogs.
圖5 比較了微博信息流行度模型仿真結(jié)果、實(shí)際數(shù)據(jù)和理論預(yù)測的結(jié)果. 其中參數(shù)取為,. 網(wǎng)絡(luò)結(jié)構(gòu)是新浪微博中41667個(gè)用戶數(shù)據(jù)生成的網(wǎng)絡(luò). 在較小時(shí), 模型仿真結(jié)果與實(shí)際數(shù)據(jù)及理論預(yù)測結(jié)果一致, 當(dāng)時(shí), 實(shí)證數(shù)據(jù)與仿真結(jié)果和理論預(yù)測之間存在一定偏差, 但大致結(jié)果是符合的. 導(dǎo)致偏差的主要原因是, 基于分支過程的流行度模型是建立在假設(shè)微博網(wǎng)絡(luò)是樹形結(jié)構(gòu)基礎(chǔ)上的, 但實(shí)際上, 新浪微博41667用戶生成的網(wǎng)絡(luò)中34%的鏈接是互惠鏈接. 基于樹形結(jié)構(gòu)理論的精確結(jié)果應(yīng)用于現(xiàn)實(shí)世界的網(wǎng)絡(luò)中, 因此導(dǎo)致了一定的偏差.
圖5 微博信息流行度的互補(bǔ)累積概率分布(CCDF)Fig. 5. Complementary cumulative distribution functions(CCDFs)–the fraction of micro?blogs with popularity .
通過對(duì)微博信息評(píng)論轉(zhuǎn)發(fā)數(shù)據(jù)和網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)的統(tǒng)計(jì)分析可知, 在微博系統(tǒng)中存在高度的異質(zhì)性, 如流行度小于100的微博信息占比達(dá)到95.8%, 而流動(dòng)度超過1萬的微博信息數(shù)量是非常少的. 粉絲數(shù)(入度)小于100的用戶占比達(dá)56.4%,而有的用戶粉絲數(shù)高達(dá)百萬. 通過仿真, 重現(xiàn)了復(fù)雜社會(huì)系統(tǒng)中的高度異質(zhì)性, 大量的流行度(或關(guān)注)都被少量的信息(或用戶)獲得, 得到了流行度依賴時(shí)間的重尾分布特征. 本文所提出的框架構(gòu)成了社會(huì)傳播現(xiàn)象的零模型, 與純粹的實(shí)證研究或基于模擬的模型相比, 它清楚地區(qū)分了影響信息流行度的兩個(gè)不同因素的作用, 即用戶的記憶時(shí)間和社交網(wǎng)絡(luò)的連接結(jié)構(gòu).
在線社交媒體極大地影響了人們彼此溝通的方式. 近年來, 在線社交媒體信息流行度的預(yù)測和建模引起了眾多學(xué)者的關(guān)注. 例如, 預(yù)測和建模社交媒體上的新聞流行度[22]和量化論文流行度[23].本文引入并分析了一種信息傳播的概率模型, 該模型具有分析易處理性, 可以再現(xiàn)實(shí)際數(shù)據(jù)的若干特征. 但是該模型也存在一定的局限性, 其中要求做出一些假設(shè)以獲得分析結(jié)果. 在將來的研究中, 我們希望對(duì)模型進(jìn)行一些可能的擴(kuò)展.