吳聯(lián)仁,李瑾頡,閆 強(.北京第二外國語學院酒店管理學院 北京 朝陽區(qū) 0004;.北京郵電大學經濟管理學院 北京 海淀區(qū) 00876;3.圣母大學網絡科學與應用跨學科研究中心 南本德 印第安納州 美國 46556)
基于時間異質性的微博信息傳播模型
吳聯(lián)仁1,李瑾頡2,3,閆 強2
(1.北京第二外國語學院酒店管理學院 北京 朝陽區(qū) 100024;2.北京郵電大學經濟管理學院 北京 海淀區(qū) 100876;3.圣母大學網絡科學與應用跨學科研究中心 南本德 印第安納州 美國 46556)
提出了具有時間異質性的SI(susceptible-infected)傳播模型。通過構建異質的時間間隔序列,將微博信息傳播動力學過程在無標度網絡上仿真。研究結果發(fā)現(xiàn)信息新接受個體數(shù)n(t)以冪律形式減少,n(t)~t?β。與傳統(tǒng)假設的時間間隔服從泊松分布的信息傳播模型相比,時間間隔服從冪律分布的傳播速度要緩慢很多。同時,傳播動力學的冪指數(shù)β受行為時間間隔分布冪指數(shù)a影響,且具有關系β≈a?1。本文的仿真分析結果與理論預測結果一致。
BA網絡;SI模型;傳播動力學;時間異質性
傳播動力學代表了許多真實的社會現(xiàn)象,如新興傳染病和信息流動,學者在這方面進行了多年的研究。傳統(tǒng)的信息傳播模型研究假設事件發(fā)生的時間和聯(lián)系人的連接模式具有同質性[1]。最近學者針對經典傳播動力學模型進行了改進,以說明社交網絡的復雜連接模式[2]和非泊松特性的人類活動模式[3-8]。學者已經在具有連接異質性存在的情況下,對傳播動力學進行了深入的研究,特別是在無標度網絡中,P(k)~k?a,具有代表性的是萬維網、合著者網絡,以及許多其他社交網絡[9-13]。
另一方面,時間異質性對人類行為的影響剛被認識。各種不同的人類活動方式,從電子郵件回復等待時間間隔、在線交易和網頁訪問的行為時間間隔、到及時通信行為時間間隔[14-16],如果只考慮活動行為的時間,這些行為能夠很好地用冪律的時間間隔分布來描述P(τ)~τ?a,τ表示連續(xù)兩次行為的時間間隔。這些發(fā)現(xiàn)與傳統(tǒng)的模型假設“人類行為時間間隔服從泊松分布”完全不同。人類行為的時間異質性是否影響信息傳播的動力學?
微博作為為大眾提供信息分享和交流的平臺,其中的信息傳播和網絡結構得到了深入的研究[17-18]。本文以新浪微博為研究對象,認為轉發(fā)和評論(一般評論后伴隨著轉發(fā))是微博用戶最常用的行為,研究微博用戶轉發(fā)、評論微博信息的時間特性是否影響微博信息的傳播動力學。
本文基于對新浪微博數(shù)據的統(tǒng)計分析,建立基于時間異質性的微博信息傳播模型,對模型的傳播動力學給出理論分析;通過一種算法構造異質的時間間隔序列(即時間間隔序列服從冪律分布),再通過BA網絡模型生成一個無標度網絡,在無標度網絡上進行信息傳播模型仿真。
通過“網絡爬蟲”,以滾雪球抽樣的方法抓取了新浪微博上某一熱門話題中的所有參與用戶和微博信息,一共搜集到175名用戶和125 150條微博信息。這些信息總共被轉發(fā)了2 260 826次,被評論了1 786 000次。收集數(shù)據的時間窗口是從2009年8月20日~2010年9月3日,共380天。針對每條信息,收集了信息ID、信息獲得的轉發(fā)數(shù)和評論數(shù)、信息被轉發(fā)和評論的時間。收集了用戶的ID、粉絲數(shù)、關注數(shù)和微博數(shù)。數(shù)據格式如表1和表2所示。
表1 信息數(shù)據格式
表2 用戶數(shù)據格式
根據用戶轉發(fā)、評論微博的時間數(shù)據,研究用戶連續(xù)兩次行為的時間間隔。圖1a描述的是群體層面,用戶連續(xù)兩次微博行為的時間間隔服從冪律分布,冪指數(shù)為2.5,并且具有明顯的胖尾特征。與網頁瀏覽、在線電影點播和社交網絡中行為的時間間隔分布冪指數(shù)相近,都在1.0~3.0之間[19-20]。
以微博單位時間內獲得的行為數(shù)(轉發(fā)數(shù)與評論數(shù)之和)研究微博的傳播情況。對125 150條微博進行篩選,選出獲得行為數(shù)大于10的微博,總共有69 440條微博(微博獲得的行為數(shù)太少,統(tǒng)計特征不明顯)。以天為單位,統(tǒng)計每條微博每天獲得的行為數(shù),然后對69 440條微博在每天獲得的行為數(shù)求平均值。微博每天獲得的行為數(shù)分布情況如圖1b所示。圖中橫坐標是時間,單位為天,縱坐標是微博獲得行為數(shù)的均值。行為數(shù)以冪律形式消亡(冪指數(shù)β=1.5)。如果一個新的行為(轉發(fā)或評論)認為是一個新感染個體(即一個新用戶)在閱讀微博后做出的行為,則微博信息新感染個體數(shù)n(t)以冪律形式減少,n(t)~t?β,β=1.5。冪指數(shù)β=1.5與圖1a中用戶行為時間間隔分布冪指數(shù)a=2.5相差為1。
圖1 新浪微博數(shù)據統(tǒng)計分析結果
圖1c描述的是每條微博的生命周期。微博的生命周期指在數(shù)據收集時間窗口,微博首次發(fā)出時刻到最后一條與該微博相關轉發(fā)或評論發(fā)出時刻的時間間隔。如圖1c所示,橫軸表示微博生命周期,單位為天。縱軸表示具有該生命周期的不同微博數(shù)N。微博生命周期服從指數(shù)為1.4的冪律分布,并且具有顯著的胖尾特征。這說明大部分微博的生命周期很短,只有少部分微博具有長的生命周期,在微博社區(qū)中成為熱點話題,具有較高的流行度。
基于上述問題,對模型的描述如下。1)信息傳播過程:在微博使用過程中,每個用戶具有微博首頁和個人頁面兩個列表。用戶關注的對象如果發(fā)出信息,都將顯示在微博首頁上。因此,用戶收到好友發(fā)送的信息存儲在微博首頁上,當用戶打開微博查看信息時,就會對感興趣的微博進行轉發(fā)或評論。用戶會以一定的概率轉發(fā)收到的微博信息,轉發(fā)信息存儲在個人頁面上。2)時間異質性:根據微博用戶的實際使用情況,每個用戶都有自己的習慣。因此,假設每個用戶個體i具有一個固定的使用時間間隔τi,并且在群體層面用戶行為(轉發(fā)或評論行為)時間間隔服從冪律分布P(τ)~τ?a,2<a≤3。當用戶收到一條信息到將這條信息轉發(fā)(或評論分享)出去的時間間隔稱為轉發(fā)信息的時間間隔,表示為Δ,則轉發(fā)時間間隔分布記為g(Δ)~Δ?β。
基于上述模型的描述,本文提出的微博信息傳播模型具有以下規(guī)則。1)假設網絡中總共有N個個體,在時間步t=ti,隨機選擇一個個體i發(fā)出微博,其他個體對該微博信息均未知。2)個體j收到該微博,其中j∈δi,δi是個體i的鄰居集合。對每個個體j,第一個轉發(fā)時間步是tj0∈(ti,ti+τi)。并且時間步t=tj0+kτj,k=1,2,3,…都是j的轉發(fā)時間步。其中τj是個體j的轉發(fā)時間間隔。3)在每個轉發(fā)時間步,個體j將以一定概率λ轉發(fā)微博。如果個體j在tj時刻轉發(fā)微博,可以得到j的微博轉發(fā)時間Δ=tj?ti,并且滿足Δ<T,T表示微博在微博首頁保留的時間上限。4)更新時間步t=tj,重復第2步到第4步直到設定的時間步。
為了研究時間異質性對微博信息傳播動力學的影響,本文提出了兩個假設,并給出了相應的理論推導。
假設1:假設微博轉發(fā)時間間隔服從冪律分布g(Δ)~Δ?β,并且1<β<2,則微博傳播速度的消亡形式也服從冪律分布n(t)~t?β,并且具有相同的冪指數(shù)β。
證明:考慮傳播過程的一般理論,假設傳播過程在一個沒有環(huán)形結構的網絡上,并且在t=0時刻網絡中只有一個感染個體,其他都是易感染個體。則在t時刻新感染個體的平均數(shù)可以表示為[21]:
式中,zd表示在離初始感染節(jié)點第d步的平均易感個體數(shù);D為d的最大值;?表示卷積,如:
當1?d時,可以得到:
因此,式(3)為:
即:
假設得證。
該假設表示如果微博轉發(fā)時間間隔服從冪指數(shù)為β的冪律分布,則微博信息傳播速度將服從同樣的冪律分布。
假設2:假設個體行為時間間隔服從冪律分布P(τ)~τ?a,2<a<3,則微博信息傳播速度的消亡形式服從冪律分布n(t)~t?β,1<β<2并且β=a?1。
證明:當個體行為時間間隔服從冪律分布P(τ)~τ?a,2<a<3,則時間間隔τi具有有限的平均值。
由于轉發(fā)時間間隔概率密度函數(shù)與個體行為時間間隔概率密度函數(shù)有如下關系:
根據假設1可以得到:
即:
假設得證。
4.1 異質時間間隔序列的構造
圖2 構造的時間間隔序列
本文建立的模型需要給每個節(jié)點i分配一個固定的時間間隔τi,并且τi取自冪律分布P(τ)~τ?a。由于冪律分布在產生時間間隔時,可能會出現(xiàn)極大的值,因此需要事先對時間間隔τi設定一個上限M。即本文的目的就轉變?yōu)樯梢幌盗姓麛?shù)τ∈[1,M],并且滿足P(τ)~τ?a。根據文獻[23]中提出的算法,在給定初值M和β,然后隨機生成一個0~1之間的實數(shù),就可以得到時間間隔序列τ,服從冪指數(shù)為β的冪律分布,且對任何β時間間隔序列τ具有相同的平均值。采用同樣的方法,也可以產生服從指數(shù)分布P(τ)~τ?aτ的時間間隔序列。通過該算法獲得的服從冪律分布和指數(shù)分布的時間間隔序列如圖2所示。
在圖2a中小圓圈代表的是冪指數(shù)a=2產生的時間間隔,小方塊代表的是冪指數(shù)a=3產生的時間間隔。圖2b中小圓圈代表的是泊松過程,時間間隔服從指數(shù)分布P(τ)~τ?aτ,并且指數(shù)a=1。在以上兩種情況下,個體總數(shù)N=104,時間間隔的上限M=105。并且,獲得的3個序列的時間間隔的平均值都為=1.96。
4.2 仿真與分析
在4.1節(jié)生成的時間間隔序列基礎上,該小節(jié)首先通過Barabasi和Albert提出的BA無標度網絡模型生成一個網絡,仿真的微博信息傳播過程在生成的網絡上進行。網絡節(jié)點總數(shù)量N=104,初始節(jié)點數(shù)N0=200,平均度=10,T=1 440,轉發(fā)率λ=0.5。在每一個時間步,網絡中添加一個新的節(jié)點來實現(xiàn)網絡的連續(xù)增長,同時這個新的節(jié)點總是傾向于選擇連接網絡中舊節(jié)點中度較大的節(jié)點。模型的初始條件是:當t=0時隨機選擇一個感染節(jié)點,其他都是易感染節(jié)點。每個節(jié)點i給定一個固定的時間間隔τi,τi取自冪律分布P(τ)~τ?a,2<a<3。并且將時間間隔服從指數(shù)分布P(τ)~τ?aτ的情況加入到文中進行比較。模擬結果如圖3和圖4所示。
圖3 數(shù)值仿真結果
圖3a描述的是在初始只有一個感染節(jié)點的情況下,新感染個體數(shù)n(t)隨時間消亡的形式,個體行為時間異質性冪指數(shù)分別為a=2.8、a=2.5和a=2.2的冪律分布P(τ),及a=1.0的指數(shù)分布,P(τ)~τ?aτ,所有分布P(τ)有相同的平均時間間隔=1.96。圖3b所有個體行為時間間隔分布P(τ)對應的轉發(fā)時間間隔分布g(Δ)。圖中的連續(xù)直線分別是對應圖形的擬合,兩個圖中的黑線斜率都分別近似等于?1.8,?1.5和?1.2,圖中結果是2×103次獨立運行的平均值。
從仿真結果看出在個體行為時間間隔服從冪律分布情況下新感染個體數(shù)n(t)和轉發(fā)時間g(Δ)都服從冪指數(shù)為β≈a?1的冪律分布。新感染個體數(shù)和轉發(fā)時間間隔與個體行為密切相關,表明個體行為對信息傳播具有影響。個體行為的時間間隔冪指數(shù)越大,則新感染個體數(shù)n(t)消亡也越快。當個體行為時間間隔服從冪律分布,則新感染個體數(shù)n(t)也以冪律形式消亡。
圖4 數(shù)值仿真結果
圖4a中顯示了冪指數(shù)分別為a=2.8、a=2.5和a=2.2的冪律分布P(τ),以及a=1.0的指數(shù)分布,P(τ)~τ?aτ。從圖4仿真結果可以看出,時間間隔分布冪指數(shù)a越小,時間間隔的異質性越大,信息傳播的速度越慢,感染個體的比例也越低。且本文中時間間隔服從冪律分布的模型的信息傳播速度顯著地慢于時間間隔服從泊松布分的模型。
微博系統(tǒng)下信息傳播的影響因素有很多,例如微博網絡的拓撲結構、個體行為的方式。國內外學者對異質的網絡結構(如無標度網絡、小世界網絡)上的信息傳播動力學進行了深入的研究。近年來,大量實證研究表明個體的活動行為具有時間異質性,這主要表現(xiàn)在不同個體對信息做出處理的等待時間不同,從而產生了服從冪律分布的行為時間間隔。通過實際微博數(shù)據統(tǒng)計分析說明異質的行為時間間隔對微博信息傳播具有影響。
文章進一步提出了基于時間異質性的信息傳播模型,強調了時間異質性對信息傳播的影響。數(shù)值仿真結果和理論預測結果一致表明,先前假設傳播時間間隔服從泊松分布的情況,其傳播速度顯著的快于時間間隔服從冪律分布的情況。并且個體行為模式對信息傳播過程具有顯著的影響,時間間隔分布冪指數(shù)越小,即時間間隔的異質性越大,信息傳播的速度越慢,感染個體的比例也越低。
[1]DALEY D J,GANI J.Epidemic modeling:an introduction[M].Cambridge:Cambridge University Press,1999.
[2]ALBERT R,BARABáSI A L.Statistical mechanics of complex networks[J].Review of Modern Physics,2002,74:47-97.
[3]BARABASI A L.The origin of bursts and heavy tails in human dynamics[J].Nature,2005,435:207-211.
[4]KARSAI M,KIVELA M,PAN R K,et al.Small but slow world:How network topology and burstiness slow down spreading[J].Physics Review E,2011,83:025102.
[5]張彥超,劉云,張海峰,等.基于在線社交網絡的信息傳播模型[J].物理學報,2011,60(5):050501.
ZHANG Yan-chao,LIU Yun,ZHANG Hai-feng,et al.The research of information dissemination model on online social network[J].Acta Phys Sin,2011,60(5):050501.
[6]SANZ J,F(xiàn)LORIA L M,MORENO Y.Spreading of persistent infections in heterogeneous populations[J].Physics Review E,2010,81(5):056108.
[7]MIN B,GOH K I,VAZQUEZ A.Spreading dynamics following bursty human activity patterns[J].Physics Review E,2011,83(3):036102.
[8]韓筱璞,汪秉宏,周濤.人類行為動力學研究[J].復雜系統(tǒng)與復雜性科學,2010,7(2):132-144.
HAN Xiao-pu,WANG Bing-hong,ZHOU Tao.Researches of human dynamics[J].Complex System and Complexity Science,2010,7(02):132-144.
[9]MIRITELLO G,MORO E,LARA R.Dynamical strength of social ties in information spreading[J].Physics Review E,2011,83:045102.
[10]PASTOR-SATORRAS R,VAZQUEZ A,VESPIGNANI A.Dynamical and correlation properties of the Internet[J].Physics Review Letter,2001,87(25):258701.
[11]SANZ J,F(xiàn)LORIA L M,MORENO Y.Spreading of persistent infections in heterogeneous populations[J].Physics Review E,2010,81(5):056108.
[12]周濤,韓筱璞 閆小勇,等.人類行為時空特性的統(tǒng)計力學[J].電子科技大學學報,2013,42(4):481-540.
ZHOU Tao,HAN Xiao-pu,YAN Xiao-yong,et al.Statistical mechanics on temporal and spatial activities of human[J].Journal of University of Electronic Science and Technology of China,2013,42(4):481-540.
[13]李楠楠,周濤,張寧.人類動力學基本概念與實證分析[J].復雜系統(tǒng)與復雜性科學,2008,5(2):138-143.
LI Nan-nan,ZHOU Tao,ZHANG Ning.Concept and empirical results of human dynamics[J].Complex Systems and Complexity Science,2008,5(2):138-143.
[14]GONCALVES B,RAMASCO J J.Human dynamics revealed through web analytics[J].Physics Review E,2008,78(2):026123.
[15]RADICCHI F.Human activity in the web[J].Physics Review E,2009,80(2):026118.
[16]LESKOVEC J,HORVITZ E.Planetary-scale views on a large instant-messaging network[C]//Proceedings of the 17th international conference on World Wide Web.Beijing,China:ACM,2008:915-924.
[17]陸豪放,張千明,周瑩,等.微博中的信息傳播:媒體效應與社交影響[J].電子科技大學學報,2014,43(2):167-173.
LU Hao-fang,ZHANG Qian-ming,ZHOU Ying,et al.Information spreading in microblogging systems:Media effect versus social impact[J].Journal of University of Electronic Science and Technology of China,2014,43(2):167-173.
[18]邵鳳,郭強,曾詩奇,等.微博系統(tǒng)網絡結構的研究進展[J].電子科技大學學報,2014,43(2):174-183.SHAO Feng,GUO Qiang,ZENG Shi-qi,et al.Research progress of the microblog system structures[J].Journal of University of Electronic Science and Technology of China,2014,43(2):174-183.
[19]周濤.在線電影點播中的人類行為動力學模式[J].復雜系統(tǒng)與復雜性科學,2008,5(1):1-5.
ZHOU Tao.Human activity pattern on on-line movie watching[J].Complex Systems and Complexity Science,2008,5(1):1-5.
[20]趙庚升,張寧,周濤.網頁瀏覽中的標度行為研究[J].統(tǒng)計與決策,2009,277(1):18-19.
ZHAO Geng-sheng,ZHANG Ning,ZHOU Tao.Scaling behavior of web browsing[J].Statistics and Decision,2009,277(1):18-19.
[21]VAZQUEZ A.Polynomial growth in branching processes with diverging reproductive number[J].Physics Review Letter,2006,96(3):038702.
[22]FELLER W.An introduction to probability theory and its applications[M].New York:Wiley,1967.
[23]YANG Zi-mo,CUI Ai-xiang,ZHOU Tao.Impact of heterogeneous human activities on epidemic spreading[J].Physica A,2011,390(23):4543-4548.
編輯 蔣 曉
Micro-Blog Information Spreading Model Based on Temporal Heterogeneity
WU Lian-ren1,LI Jin-jie2,3,and YAN Qiang2
(1.School of Hospitality Management,Beijing International Studies University Chaoyang Beijing 100024;2.School of Economics and Management,Beijing University of Posts and Telecommunications Haidian Beijing 100876;3.Interdisciplinary Center for Network Science and Applications,University of Notre Dame South Bend Indiana USA 46556)
A susceptible-infected(SI)spreading model with temporal heterogeneity is proposed.By generating heterogeneous time-interval sequence,the spreading dynamics processes are simulated on scale-free networks.The results show that the number of new infectionsn(t)decays with a power law,n(t)~t?β,leading to extremely slow prevalence decay.And the power-law exponent in the spreading dynamicsβis related toa,β≈a?1.These observations are well supported by both the theoretical predictions and simulation analysis.
BA networks;SI model;spreading dynamics;temporal heterogeneity
TP391
A
10.3969/j.issn.1001-0548.2015.05.003
2014-06-06;
2015-06-16
北京市社科基金項目(13KDB011)
吳聯(lián)仁(1985-),男,博士,主要從事社交媒體、信息傳播方面的研究.