王 怡,梁 循,付虹蛟,徐志明
(中國人民大學信息學院,北京 100872)
隨著社會網絡的發(fā)展和普及,普通大眾主導網絡信息的擴散活動,擴散主體具有私人化、平民化、普泛化、自主化等特性。博客、微博、微信、論壇等網絡社區(qū)都是自媒體的表現(xiàn)平臺,普通用戶在信息擴散過程中既是接收者也是擴散者,大大增加了信息擴散的廣度和速度。社交網絡上的信息量十分巨大,雖然大部分信息會在短時間內被其它信息覆蓋,但有一部分信息會有很長的生命周期,由于其自身所含的信息量和網絡中用戶的推動,會在短時間內迅速擴散到很大的范圍,帶來巨大的影響。這種網絡輿論由于其范圍之廣,速度之快,可能還伴隨著用戶的情緒波動和觀點態(tài)度,應該引起極大的重視。尤其是對于一些虛假信息或是極端觀點的擴散,更加需要及時有效地加以控制,避免引起社會恐慌或是危害人們的財產。在線社交網絡中的信息擴散問題也因此成為了網絡輿論監(jiān)控的研究熱點。對輿情的整體態(tài)勢分析有助于預估事件影響力,信息擴散路徑中的關鍵環(huán)節(jié)也對控制輿論擴散有重要參考價值。
從微觀角度對信息擴散進行分析時,我們發(fā)現(xiàn)現(xiàn)有研究模型存在以下不足:首先,用戶是否在線是用戶獲取信息的前提,而已有的研究并沒有考慮用戶接收到信息的概率;其次,準確評價用戶之間的影響力是信息擴散過程的基礎,現(xiàn)有文獻并沒有在利用模型進行模擬之前分析節(jié)點對之間的影響值;另外,已有研究更多從級聯(lián)層次上來分析信息擴散過程,所得結果對于時效性更強的社會網絡中信息的擴散來說適應度不高,實際指導意義不大。針對現(xiàn)有研究的不足,本文在獨立級聯(lián)模型的基礎上,補充了節(jié)點的在線狀態(tài),將信息的獨立級聯(lián)模型擴展為基于離散時間的雙概率獨立級聯(lián)擴散模型;同時本文改進了現(xiàn)有的有關求解網絡中邊的權重的最大期望算法,利用實際數(shù)據(jù)分析節(jié)點之間的擴散概率,并將所得結果代入所建模型。針對特定的突發(fā)型社會事件的信息擴散,本文對實際數(shù)據(jù)集中節(jié)點之間的影響概率進行分析,以所得結果為基礎進行實驗。為彌補微觀模型在網絡結構和信息質量上表述的不足,本文進一步從宏觀角度對信息擴散過程進行分析,并對其動態(tài)變化定量建模。結合微觀模擬和現(xiàn)有研究,本文提取重要的影響因素,并以此為基礎構建信息擴散方程,從宏觀角度對網絡輿情擴散的過程進行模擬和分析。
本文第2節(jié)根據(jù)不同的研究目的對現(xiàn)有的研究進行了闡述。第3節(jié)分別從微觀和宏觀角度對信息擴散的過程進行分析和模型刻畫。第4節(jié)則根據(jù)本文所提模型進行實驗模擬,并對實驗結果進行分析。第5節(jié)對本文的工作進行總結。
獨立級聯(lián)(Independent Cascade, IC)模型和線性閾值(Linear Threshold, LT)模型[1]是最為經典的兩個用來描述社交網絡中影響力擴散的模型,分別從概率和閾值的角度對信息擴散機制進行刻畫,自提出后被廣泛應用并擴展。獨立級聯(lián)模型源于市場影響模型研究,在此模型中,網絡中的節(jié)點有激活和未激活兩種狀態(tài),且節(jié)點只存在由未激活狀態(tài)轉化為激活狀態(tài)這一種變化形式。在第t步擴散時,某一節(jié)點v的鄰居節(jié)點u處于激活狀態(tài),此時u有使處在未激活狀態(tài)的節(jié)點v變成活躍狀態(tài)的可能,且成功的概率是pu,v;若節(jié)點v有多個被激活的鄰居節(jié)點,則鄰居們對節(jié)點v的影響順序是任意的。獨立級聯(lián)模型能夠較好地反應網絡中的影響力擴散過程,適用性較強,后續(xù)對于該模型也有更為深入的研究。Sauti等[2]則首次提出了異步級聯(lián)(Asynchronous Independent Cascadel, AsIC)模型,強調時間對于信息擴散的影響,并設計了迭代更新參數(shù)的算法,使結果更合理。Saito等[3]對IC模型、LT模型和AsIC模型對于不同主題的信息的適用性進行了分析,用實際擴散數(shù)據(jù)進行驗證,發(fā)現(xiàn)大部分信息擴散符合AsIC模型。萬圣賢等[4]還采用最大熵的方法對IC模型中涉及的閾值進行了定義和分析,發(fā)現(xiàn)與Logistic Regression模型相比,此方法具有更好的穩(wěn)定性。Chen Wei等[5]則提出了加權級聯(lián)(Weighted Cascade)模型,其中節(jié)點成功激活后繼節(jié)點的概率是后繼節(jié)點的入度的倒數(shù),其它規(guī)則與IC模型一致。朱湘等[6]則在已有模型的基礎上,提出了一種結合用戶去重、垃圾用戶濾除和概率閱讀的擴散模型。
以往的研究表明,獨立級聯(lián)模型能夠很好地匹配在線社交網絡的結構特性;但由于社交網絡的自身特性,傳統(tǒng)的模型在時間和概率上存在明顯的不足。首先,在線社交網絡中的用戶會以一定的概率停留在線上并接收網絡中的信息,即用戶是否在線是用戶能否閱讀到已有信息的前提,傳統(tǒng)的IC模型沒有考慮節(jié)點的狀態(tài)是否有效。其次,信息在網絡中的擴散速度很快,時效性是輿論監(jiān)控中的關鍵要素之一。既有的信息擴散模型更多地從擴散層級出發(fā),考慮的是每一步的擴散結果,無法體現(xiàn)時間的特性。網絡中不同的信息在自身屬性上差異很大,包括信息的內容、信息的展現(xiàn)形式和信息本身所含的信息量等方面,將不同主題的信息一概而論是粗糙且不合理的。
以上的模型都需要有一個先驗知識,即節(jié)點之間的擴散概率,在網絡中也稱為邊的權重,一般研究擴散模型的文章中,都將這一知識看作是已知的,僅部分學者就這一關鍵問題進行了獨立研究。Saito等[6]第一次系統(tǒng)提出了如何求解擴散概率的問題并給出了解答,他們的研究基于獨立級聯(lián)模型,對擴散過程的概率進行分析,在求解似然函數(shù)最大值的時候采用的是最大期望(Expectation Maximum, EM)算法。Goyal等[8]則分別從靜態(tài)和動態(tài)的角度分析了擴散概率,并為這兩種擴散模式中的概率獲取設計了相應的算法。他們的研究從大量的日志數(shù)據(jù)入手,優(yōu)化算法的掃描次數(shù),使得所需參數(shù)能夠在兩遍以內的掃描中求得,而且能夠預測用戶會在什么時刻進行轉發(fā)。這一算法適用于大規(guī)模的網絡,在性能和時間上都有所提高。郭靜等[9]在線性閾值模型的框架下,以社交網絡中用戶的歷史行為日志為基礎,利用最大似然估計的思想對用戶間的影響力進行學習,同樣能夠對網絡中邊的權重進行求解。
線性閾值模型則源于節(jié)點的特異性研究,它與獨立級聯(lián)模型的不同之處在于,當一個激活節(jié)點u嘗試去激活它的處于未激活狀態(tài)的鄰居節(jié)點v時,其影響力pu,v不會失效,而是積累下來。此模型也被廣泛改進和應用,典型的包括從多層級級聯(lián)擴散[10]、競爭性[11]、動態(tài)性[12]、網絡結構[13]等方面對其進行擴展。除此以外,傳染病模型從另一角度對信息擴散進行描述,經典的傳染病模型將人的狀態(tài)分為易感S(susceptible)、感染I(infected)、治愈R(recovered)三種狀態(tài),根據(jù)狀態(tài)轉換定義出SIR模型,后續(xù)還調整出SIS、SIRS模型等,是擴散動力學的主要分支之一。其它的模型包括連續(xù)時間模型、博弈論模型和多實體擴散模型等。
在對信息擴散過程從宏觀角度進行研究時,部分文獻從統(tǒng)計結果出發(fā),通過對實際數(shù)據(jù)集的分析,得出信息隨時間擴散的特性,或是用數(shù)值方程進行擬合。也有一些動態(tài)方程模型,在假設信息擴散過程的基礎上,用函數(shù)進行刻畫,都取得了較大的認可。此外,Yang等[14]則沒有關注網絡結構或者預測哪些節(jié)點會被影響,而是從宏觀上構建了一個線性影響(Linear Influence)模型,通過最小方差法來得到參數(shù)的值,取得了較好的數(shù)值模擬結果。劉德海[15]等綜合考慮群體性突發(fā)實踐中不同利益方同時存在信息過剩、信息匱乏和虛假信息等多樣化的信息特征,建立信息傳播的演化博弈模型,分析信息特征對震蕩型群體性突發(fā)事件的演化影響。Boyd等[16]以Twitter為研究對象,對用戶Retweet(類似于國內微博的“轉發(fā)”)的方式、動機以及信息的內容主題傾向進行了分析。廖為民等[17]則從具體的事件出發(fā),通過對整個事件過程中信息的擴散數(shù)據(jù)進行整理和分析,定量和定性相結合,準確而形象地對事件的發(fā)展過程進行了刻畫。劉樑[18]等考慮政府、網民、媒體和非常規(guī)突發(fā)事件等agent,建立行為特征模型、因果關聯(lián)圖等,并通過防火怎計算提出在線信息的預警策略。王秀利[19]等利用無標度網絡模型具有的增長、擇優(yōu)連接特性,加入社會輿論因素,提出微博平臺下的商業(yè)輿論傳播模型。這些研究主要研究的是最終的擴散效果,但是對于時間方面的特性則沒有考慮。曹學艷[20]等把突發(fā)事件應對等級引入網絡輿情熱度指標中,進一步豐富和完善了輿情熱度指標。
本文在認識信息擴散的微觀機理的基礎上,對整個事件的擴散進行梳理,并建立對應的方程,以方程的形態(tài)特征來描述事件擴散的特點。
在本節(jié),我們?yōu)樯鐣W絡中的信息擴散建立相關的模型以描述其擴散機理,并參考已有資料對信息擴散過程建立數(shù)值化模型。模型涉及到的變量及其含義如表1所示。
這一部分構建了雙概率獨立級聯(lián)擴散模型,從微觀角度刻畫社會網絡中信息隨時間變化的擴散過程。
表1 方程組中變量及其含義
將社會網絡中的用戶看成是圖中的節(jié)點,用戶之間的關注關系看成圖中的邊。本文中節(jié)點和用戶代表的是同一實體,可以相互替換。對于一個有向網絡G= (V,E), 其中V代表節(jié)點的集合;?v,w∈V,v≠w,e= (v,w)表示存在從節(jié)點w指向節(jié)點v的邊,信息可沿著邊e從v傳向w;網絡中所有的邊構成集合E。對于G中的每個節(jié)點v,其子節(jié)點的集合用F(v) = {w: (v,w)∈E}表示,而它的父節(jié)點集合則用B(v) = {u: (u,v)∈E}表示。每個節(jié)點的狀態(tài)從兩個維度來考慮:一方面,根據(jù)是否轉發(fā)特定的信息可以分為激活(Active)和未激活(Inactive)狀態(tài)。即對于一條特定信息,若用戶已經轉發(fā),則屬于激活狀態(tài);反之,所用戶沒有轉發(fā),則處于未激活狀態(tài)。另一方面,根據(jù)用戶是否在線可以分為在線(Online)和離線(Offline)兩種狀態(tài),且用戶v在時間段[ti,ti+1)(i=1, 2, 3, …)內在線的概率為kv。用戶處于離線狀態(tài)時無法獲取信息,也就不可能出現(xiàn)激活的過程。用戶在線時則意味著用戶能夠獲取相關新信息,并有可能被激活。用戶一旦處于激活狀態(tài),則無需再考慮用戶的在線狀態(tài)。對于圖G中的每一條有向邊e= (v,w),我們用實數(shù)pv,w來表示e的權重,其中0 圖1為信息在給定節(jié)點網絡中的擴散示意圖,其中橙色表示節(jié)點處于激活狀態(tài),綠色表示節(jié)點尚未被激活且處于在線狀態(tài),灰色表示節(jié)點未被激活且處于離線狀態(tài)。信息在時間段[ti,ti+1)內的級聯(lián)層次并不固定,在圖中用sij來表示[ti,ti+1)內的第j層傳播,比如圖1中,[t1,t2)內擴散了2層,[t2,t3)內擴散了3層。每層激活過程中,活躍節(jié)點的子節(jié)點中處于在線狀態(tài)的節(jié)點組成待激活節(jié)點集合,接著活躍節(jié)點會嘗試影響待激活節(jié)點。例如圖中初始時刻t1只有一個初始活躍節(jié)點,在[t1,t2)的s11階段,它的子節(jié)點中處于在線狀態(tài)的兩個節(jié)點形成了待激活節(jié)點集合,進而它嘗試激活這兩個節(jié)點,最終成功和失敗各一個,此激活結果作為s12的初始狀態(tài)。在s12階段,活躍節(jié)點的子節(jié)點中滿足在線狀態(tài)的有兩個,但其中一個曾經激活失敗且并無新的活躍父節(jié)點,所以不能加入待激活節(jié)點集合。唯一符合要求的節(jié)點也最終激活失敗,因此進入[t2,t3)時依然只有兩個活躍節(jié)點。該時間段會重復第一個時間段內的過程。由于觀測時刻只到t2,圖示中的信息擴散過程結束。 圖1 信息的級聯(lián)擴散隨時間變化的過程示意圖 圖1中某一時間段內的信息擴散過程可以由圖2表示。信息在每個時間段[ti,ti+1) 中可能會擴散多層,設為step(i) (i=1, 2, 3, …)。用sij表示信息在[ti,ti+1)內的第j層傳播,集合C(ti,sij)表示時間段[ti,ti+1)的第sij層級聯(lián)中,所有處于活躍狀態(tài)的節(jié)點集合。 圖2 節(jié)點網絡中信息擴散的過程示意圖 給定初始的活躍節(jié)點集合C(t1,s11),在時間段[ti,ti+1]中第sij層,任意v(C(ti,sij)有機會來激活它的子節(jié)點集合中處于不活躍狀態(tài)的節(jié)點。對于w∈F(v), 當w處于不活躍狀態(tài)且在線時,若之前v沒有嘗試激活過w,則本輪可以進行激活,且激活成功的概率為pv,w。如果v成功了,則w在下一次擴散時處于活躍狀態(tài),即: (1) 若v沒有激活成功,則之后無法再次激活。也就是說,v最多只有一次機會來激活w。對于處于未激活狀態(tài)的節(jié)點w來說,若在這一時間段內處于在線狀態(tài),且最近一次處于在線狀態(tài)的時間為t’,而在(t’,ti)中有多個父節(jié)點新被激活,則將這些節(jié)點隨機排序,依次判斷是否能夠激活w,一旦被激活則停止判斷。 當沒有新的節(jié)點存在被激活的可能性,或是時間已經超過我們設定的考慮范圍,則信息的級聯(lián)擴散過程停止。 以上模型總結如下: 模型I. (1)給定一個初始活躍節(jié)點集合C(t1,s11),其中C(ti,sij)表示時間段[ti,ti+1)內第j層的活躍節(jié)點集合,且i= 1, 2, 3….。 (2)在每個時間段[ti,ti+1)中,信息會發(fā)生step(i)級擴散。 (3)對于每一級的擴散,當結點v處于激活狀態(tài)時,它的每個非激活狀態(tài)且在線的鄰接點w都有可能變成激活狀態(tài)。若w有多個新的激活鄰接點,影響順序可以是任意的。如果w被激活,則它會加入活躍節(jié)點集合,具體方式如公式(1)。 (4)一旦v嘗試激活過w,就不能再次激活。 (5)當超過有效追蹤時間,或是不在產生新的激活點,該過程結束。 模型I能夠較好地描述社會網絡中信息在用戶群體間的擴散過程,且可以體現(xiàn)出信息的擴散隨時間變化的數(shù)量變化。 模型I從微觀角度對信息的擴散過程進行了刻畫和分析。但事情發(fā)生后,其擴散過程還會受傳播平臺、用戶網絡、時間、前期傳播等諸多不確定性因素的影響,需要從宏觀的角度對其進行分析。我們在模型II中梳理了信息擴散過程中主要因素的反饋和發(fā)展機制,并定量化分析網絡中事件信息的擴散情況。 假設網絡中有N個節(jié)點,且對于相關的話題沒有明顯的傾向性。在時刻nb發(fā)生了一件突發(fā)事件,此時有Sb個用戶及時地對其進行了擴散。我們將這一外部的突發(fā)事件看成是一個信息刺激。用(來表示事件本身的影響力即信息的質量,包括它的內容、來源、爭議性、信息量等本身的性質,這一特征會對信息的擴散速度、廣度和深度產生重要的影響。若(為0,則沒有人會對這一刺激產生興趣,也不會有人對其進行發(fā)布或轉發(fā)、評論等。但(越大,則會有更多用戶參與到輿情的擴散中來。根據(jù)已有的研究,信息的影響力會隨著時間的變化而衰減,并服從冪律(power law)衰減的規(guī)律。本文用函數(shù)f(n)表示信息的影響力隨擴散階段n的衰減過程。對事件擴散的模型描述如下: 模型II. (1)某一事件發(fā)生后,一批初始結點會迅速擴散相關消息,進而影響到網絡中大量的未被激活結點。 (2)在時間段[ti-1,ti),i= 1, 2, 3…,活躍結點以一定的概率影響非活躍結點。此概率同時與信息質量和結點的活躍程度有關。 (3)其它平臺會對信息的擴散產生外部刺激,且該刺激與上一時刻信息的擴散量正相關。 (4)擴散過程中會因為不可控的隨機因素而產生不可避免的噪聲。 (5)超過有效追蹤時間時,信息擴散結束。 模型II假設:(1)每一個用戶只會在相關事件的擴散中參與一次。(2)假設信息的刺激源頭是單一的,即在事情的擴散過程中,沒有相關的事件發(fā)生對信息的擴散產生二次影響。 假設節(jié)點有兩種狀態(tài):U(un-informed of the rumor)代表未被感染狀態(tài),I(informed of the rumor)代表已被感染狀態(tài)。用△B(n)表示在時刻n被感染的用戶數(shù),并且一旦被感染,則會立即改變狀態(tài)。用U(n)表示在時刻n未被感染的用戶數(shù)目,則: (2) U(n+1)=U(n)-ΔB(n+1) (3) 其中,f(τ)=βτ-1.5,且△B(0) = 0,U(0) =N。ρ為用戶關聯(lián)的緊密程度,用來刻畫用戶關注網絡中用戶的連接概率。由于現(xiàn)在信息的多元化,不同平臺上的信息之間彼此會存在影響,因此,我們會增加一個外部的刺激S(n),代表時刻n產生的影響。數(shù)值上可以表示為: (4) 在上述模型中, a)△B(t) +S(t)這一項代表了在時刻t新增的受影響用戶數(shù)目和外部來源的影響;他們的感染率可以用函數(shù)f來表述,而且我們認為影響因子隨著時間呈現(xiàn)冪率降低。從初始時刻nb開始后的所有項進行累積就可以得到所有的影響力。 b)影響因子函數(shù)f完全符合冪函數(shù)形式,且從以往基于真實數(shù)據(jù)集的研究得知,其常數(shù)為-1.5。 c)外部影響函數(shù)S是自適應的項,在初始時刻,即n=nb時,外部影響就是初始感染的用戶集數(shù)目。但在以后的時刻中,我們假設外部影響會與信息的擴散情況相關,存在一定的滯后性。即在上一個時間段中,若信息的擴散量很大,則說明信息的擴散能力很強,更容易受到外部平臺中的影響。相反,若擴散量較小,外部的影響也會降低。為避免信息擴散數(shù)量的絕對值影響,本文先對其取對數(shù),并加上常數(shù)a對其進行調節(jié)。同時為避免信息沒有擴散△B(t-1)=0而可能出現(xiàn)的錯誤,我們給其加上常數(shù)1。 d)將從初始時刻開始到時刻n的所有新增項進行加和,得到的是所有的刺激因素;而有效的激活目標是尚未被感染的用戶U(n),它們的乘積與當前的信息影響力f(n+ 1 -t)相乘時時可以得到新的感染用戶數(shù)目。 e)用隨機項ε來對一些特殊情況進行建模,比如信息加上了一些話題時,就會產生一定的影響。一般情況下,0<ε< 1。 同時,信息的擴散與用戶的行為息息相關,考慮到用戶的生活周期性,我們將周期性這一特性也加入到信息擴散的數(shù)值方程中,則: (5) (6) 其中,A(n)是周期性調節(jié)因子,代表用戶在網絡中的活躍程度;A為振幅,表示用戶活躍程度的變化程度;T為周期,本文以小時為單位進行分析,所以T為24。根據(jù)用戶的日常活動,在白天的時候,會存在一個峰值,而到了晚上,則會降低對事件的關注度。As是相位調節(jié)因子,由事件發(fā)生的初始時刻與用戶活躍極大值的時刻共同決定,若事件發(fā)生在上午8點,而用戶最活躍的時間為中午12點,則As= 2。 在這一部分,我們對上文中的模型進行實驗模擬,并對實驗結果進行分析。 (1) 用戶之間擴散概率的分析 這一部分根據(jù)模型I所述的擴散機制,從擴散概率的角度出發(fā),對信息擴散的結果進行概率推導,進而分析得到節(jié)點對v,w之間權重pv,w的求解方法。為使分析過程更為清晰,我們只考慮到時間段這一層次,而不進入到里面具體的級聯(lián)層數(shù),時間也用t進行簡化表示。 用rw(t)代表節(jié)點w在t時刻被激活的概率,則t+1時刻節(jié)點w被激活的概率表示如公式(7)所示: (7) 這里,節(jié)點w在t時刻沒有被激活包含兩種可能性,一是w沒有在線,一是雖然w在線,但是其父節(jié)點集合中的節(jié)點均未能成功激活w。 集合D(t)表示在時間段t內新被激活成功的節(jié)點集合,則整個擴散過程D可以表示為各個時間段內新增集合的并集,即D=D(0) ∪D(1) ∪ … ∪D(T),其中T表示有效的觀察時間長度。用C(t)表示截至時間段t所有的被激活節(jié)點集合,Rw(t)代表截至時間段t時已經嘗試過激活w的節(jié)點集合,則C(t) (8) 用{Ds:s= 1, 2, …,S}表示S個獨立的信息擴散過程的集合,則對于整個數(shù)據(jù)集中的信息擴散概率,我們可以得到總的目標函數(shù),如公式(9)所示: (9) (10) 接下來,需要得到所有的擴散概率使得(9)的值最大。由于(9)的偏導數(shù)十分復雜,難以直接分析或采用梯度上升算法進行求解,所以在本文中我們采用的是最大期望算法,最后得到網絡中所有邊的擴散概率分布θ。 (11) 需要注意的是,雖然實際情況下kw在不同的時刻是不一致的,不同用戶在線的概率也有差別,但為了使求解結構簡單,本文在求解時將其設置為一個固定的常數(shù)值P即所有節(jié)點在任何時刻處于有效狀態(tài)的概率均相同;同時本文在后續(xù)的實驗中分析P的不同取值對概率的影響。為了求得最優(yōu)解,令偏導數(shù)?θ/?pv,w=0,則: (12) (2)實驗數(shù)據(jù) 為排除信息內容和信息來源對網絡信息擴散的影響,本文從新浪微博平臺上獲取2015年8月13日到2015年8月22日之間由頭條新聞發(fā)布的有關天津港爆炸事件的微博,其轉發(fā)量最小為68,最大超過15萬。為了排除偶然的超級爆炸性新聞對轉發(fā)關系的影響,本文選擇了轉發(fā)量在1500以下的120條微博,并獲取這些微博的所有轉發(fā)路徑以及相關的用戶信息。這些數(shù)據(jù)中,共包括41783名用戶,分析得到他們之間的好友關系,并將其投射到社會網絡中。 根據(jù)4.1中方法,我們獲取存在好友關系的節(jié)點對(v,w)之間的擴散概率pv,w。為簡化問題,本文將用戶在線概率為設定為常數(shù)P,圖4所示即為不同概率值下得到的用戶之間影響值的結果。 圖3 P取不同值下節(jié)點對之間的權重分布情況 圖3中,橫軸表示節(jié)點之間的影響值的大小,縱軸表示累積概率。P越大,說明用戶對微博平臺的粘性越大,花費在該平臺上的時間越長。從上圖中可以看出,只有當P處于極值(P的最小值0.2和最大值1)時,概率值分布才會出現(xiàn)相對明顯的差異。而當P取中間值時,所得的結果差異十分微小,幾乎可以忽略不計。在極端情況之外,我們發(fā)現(xiàn)80%左右的節(jié)點對之間的影響力小于0.1,基本無明顯影響,而有近10%的節(jié)點對影響值超過了0.9,近乎完全影響。這一結果符合社會網絡中的用戶結構特性:微博平臺中用戶的密度和關聯(lián)度整體不高,網絡相對稀疏,大部分節(jié)點之間進行信息擴散的概率很低;同時平臺上存在關聯(lián)密切的局部網絡,彼此之間影響很大,信息滲透深入。 (3) 實驗結果 在這一部分,我們利用上面所得的節(jié)點之間的影響概率,根據(jù)基于離散時刻的獨立級聯(lián)模型,從特定的節(jié)點出發(fā),利用蒙特卡羅方法追蹤單條信息在24小時內的擴散情況變化過程,實驗共模擬5000次,所得結果如圖4所示。 圖4 蒙特卡羅方法所得的信息擴散情況示意圖 從圖中可以看出,前10個小時中,每個時刻都有可能產生巨大數(shù)量的擴散,也可能極少擴散甚至不擴散。而當擴散時間超過10小時后,產生巨量擴散的可能性會急劇減少。中間的短橫代表的是5000次模擬實驗的中位數(shù),它們會在短時間內迅速降低。此外,從整體來看,我們對其平均值的情況進行了分析,在這一部分的實驗中,經過曲線擬合,發(fā)現(xiàn)其擬合函數(shù)為y= 448.61e- 0.54x,R2= 0.986,有較強的可信度證明其符合指數(shù)函數(shù)衰減的特征。與平均值相類似,模擬實驗數(shù)據(jù)的上四分位點也符合指數(shù)衰減的特性。因此對輿論進行控制時應該在有效的時間段內采取行動;若不夠及時則擴散已經基本完成,再采取的行動已經滯后。 Yang等[14]設計了K-SC聚類算法,對在線媒體中信息的擴散模式進行分析,共得出6種擴散模式。Matsubara等[21]則提出了SPIKEM模型,通過參數(shù)的調節(jié),可以擬合出不同的擴散模式,且具有統(tǒng)一性、實證性、簡約性和有效性。以上的模型劃分主要在波峰數(shù)量、下降速度、峰值出現(xiàn)的時間上有所區(qū)別。因此,本文對上面的因素進行了簡化,主要根據(jù)波峰數(shù)量和峰值出現(xiàn)的時刻,將信息的擴散模式分為延時多峰波動型、延時單峰衰減型、即時多峰波動型和即時單峰衰減型,其特征和數(shù)量如表2所示。 表2 不同擴散模式的信息所占比例 從它可以看出超過80%的信息會很快形成擴散巔峰。另外,單峰模式的數(shù)量比多峰模式略少,說明信息在整個擴散周期中很容易形成回彈。 圖5 信息隨時間變化的擴散情況示意圖(h為小時) 圖5展示了四種典型的擴散模式與總體的擴散平均值,發(fā)現(xiàn)即時單峰衰減型與總體平均擴散模型最為相近,在初始是擁有很大的擴散量,但擴散量隨時間迅速衰減??梢园l(fā)現(xiàn),雖然多峰出現(xiàn)的概率也比較大,但是后續(xù)的峰值產生的波動較小,但其強度主要取決于第一個峰值,反映了控制首次爆發(fā)的重要性。 接下來,我們設置了三組對比試驗,以驗證初始節(jié)點對于信息擴散的影響。所得結果表3所示。從表中可以看出,對于入度很大的初始節(jié)點,其發(fā)布的信息的擴散數(shù)量會遠遠超過一般節(jié)點的擴散;而對于鏈入較少的節(jié)點來說,其擴散的可能性會很小,在社會類事件中基本不會擴散。因此對于突發(fā)的社會事件,用戶更傾向于從權威人士或機構處獲取信息并加以擴散,有一定的判別性行為存在;而對于一般的用戶來說,其影響力相對較小。 從平均覆蓋率來看,中等節(jié)點的平均覆蓋率最大,強節(jié)點的覆蓋率次之,而弱節(jié)點的覆蓋率最小。如上面所分析的那樣,強節(jié)點的鏈入節(jié)點中只有一部分屬于強聯(lián)系,另外一部分的權重很小,所以能夠有效影響的概率也很?。患由匣鶖?shù)很大,所以整體的覆蓋率就會降低。而對于中等節(jié)點,它是一簇聯(lián)系較強的小網絡,彼此之間的影響很大,信息流通比較高效,所以它的覆蓋率也最高。而對于弱節(jié)點,它自身的低活躍度、較小的受眾規(guī)模和較弱的影響力,使得其很難將信息擴散出去。因此在對信息擴散進行監(jiān)控時,應該重點關注強節(jié)點以及它的強聯(lián)系關注節(jié)點,同時對于小規(guī)模的強聯(lián)系網絡也應該加以重視。 表3 信息從不同節(jié)點發(fā)布所得的結果 (4) 小結 從以上的實驗模擬結果中,我們分析得到了如下結論:在社交網絡中,基于離散時間的雙概率獨立級聯(lián)擴散模型能夠較好地模擬現(xiàn)實中信息隨時間的擴散過程。網絡中的信息要在前10個小時內加以控制,超過有效時間,則基本擴散結束,滯后性太強。對輿論監(jiān)控過程中,要重點監(jiān)控兩類群體:一是具有高度鏈入度的節(jié)點以及其關注節(jié)點中關聯(lián)性很強的群體;二是鏈入度較高,且關系密切的小網絡。單條信息的擴散過程會呈現(xiàn)多種形態(tài),但是當擴散源一定時,其擴散總體影響會有一定的規(guī)律,比如總體來看符合指數(shù)分布,總體的影響規(guī)?;鞠嗤?。 本節(jié)根據(jù)模型II對信息的擴散進行模擬,主要從用戶網絡規(guī)模、消息質量和用戶連接程度這三個方面進行分析,以便從宏觀角度得出信息在本身質量和受眾群體不同時擴散的情況。 圖6展示了用戶連接強度對信息擴散的影響,其中x軸表示時間,y軸表示當前時刻下消息擴散的數(shù)目。從圖中可以發(fā)現(xiàn),連接強度越大,傳播的最大速度越大,峰值出現(xiàn)的時間越早。即在用戶關聯(lián)越緊密的網絡中,信息的擴散會更迅猛,也需要更及時地對信息擴散進行干預。 圖6 信息在不同用戶連接強度下的擴散情況 在用戶活躍程度和連接程度相同的情況下,信息在不同的信息質量和用戶規(guī)模下,也會體現(xiàn)出不同的特性,實驗結果如圖7所示。 圖7中x軸表示時間,y軸表示當前時刻下消息擴散的數(shù)目。整體來看,在擴散之初,受到初始用戶規(guī)模的限制,擴散量會以較緩慢的速度逐漸增長,對應于信息擴散的潛伏期和成長期;當積累了一定量數(shù)目的用戶后,擴散量會爆炸式增長,所達用戶數(shù)目迅速增加,對應于信息擴散的爆發(fā)期;之后由于事件影響力的衰減和未達用戶數(shù)量的減少,擴散數(shù)量會迅速減弱,對應于衰退期。在傳播過程中,消息擴散呈現(xiàn)出單峰、雙峰、多峰等不同的形態(tài);波峰的強度差異性很大,但是波峰出現(xiàn)的時刻基本與用戶的活躍程度一致。 圖7 當用戶連接程度、用戶活躍度等因素相同時,不同信息質量和網絡規(guī)模下信息的擴散速度對比 對比圖7中的每一列可以發(fā)現(xiàn),信息質量一定時,用戶數(shù)量越大,信息越容易獲得較大的傳播速度,峰值出現(xiàn)的時刻越早。這一發(fā)現(xiàn)說明,具備相同質量的信息在小規(guī)模用戶網絡中擴散會比較平緩;但用戶數(shù)量達到一定規(guī)模后,信息則容易在短時間內爆發(fā)。因此大規(guī)模用戶網絡理應成為輿情干預的重要監(jiān)控對象,并需在短時間內及時干預。 對比每一行則可以發(fā)現(xiàn),當用戶數(shù)量一定時,信息質量會對信息擴散特征產生較大影響。圖(a)中,信息在初期的傳播的速度隨著消息質量β的增大而增大,傳播越來越集中在前面一段時間內。圖(b)中,信息在第一個傳播周期內都會爆發(fā),隨著信息質量β的增大,信息擴散到所有用戶的時間進一步縮短。當β小于0.1時,信息在第2個和第3個傳播周期內依然有較明顯的擴散,但當β超過0.1時,信息基本在第一個周期內擴散完成。圖(c)中,較大的用戶數(shù)目使得信息在傳播初期就有較多的用戶傳播,并形成“羊群效應”,因此整體都只有一個較明顯的波峰;隨著消息質量β的增大,消息爆發(fā)的時刻也會提前。 以上的試驗說明,用戶的關聯(lián)強度、用戶規(guī)模和消息質量對于信息的擴散速度和爆發(fā)時間有很大影響,對輿論進行監(jiān)控時,對于大規(guī)模用戶網絡或聯(lián)系緊密的用戶網絡需要進行重點監(jiān)控。對于信息質量很高的輿情,更需要在信息爆發(fā)前做出反應,控制或者引導輿論。 針對自媒體時代下社會網絡中信息的擴散,本文從微觀和宏觀兩個角度對信息擴散的過程和特點進行刻畫。微觀部分主要結合用戶個體之間的影響設計了基于離散時刻的擴散機制,并利用蒙特卡洛方法多次模擬,實驗結果發(fā)現(xiàn)了一些重要的影響因素和其它規(guī)律。宏觀部分則在考慮用戶活躍特性、外部平臺的影響、信息本身和受眾特征的基礎上對信息擴散過程進行數(shù)量建模,并主要針對信息質量、用戶規(guī)模和用戶連接程度這三個因素進行對比分析。微觀模型可以更細致描述出特定用戶網絡中的信息擴散,而宏觀模型則能豐富信息擴散的場景,展現(xiàn)出更多的傳播特性。兩個模型之間的結論相互補充,為社會網絡中的輿情監(jiān)控提供幫助。 本文發(fā)現(xiàn),在信息擴散過程中,信息擴散量都會有一個劇烈增長的過程,隨后會迅速衰減。在信息爆發(fā)前進行管理才可以有效控制輿情造成的影響。用戶規(guī)模越大、關聯(lián)越緊密以及信息質量越高時,爆發(fā)所需的時間越短。當用戶數(shù)量超過1萬時,信息會在 10小時中完成大部分的擴散,因此10小時是輿情控制的有效時間。當網絡組成成分較為清晰時,可以對網絡的特征進行分析,重點監(jiān)控強節(jié)點及其關系密切的節(jié)點以及關聯(lián)密度很大的小網絡,從而對信息的擴散進行更為有效的控制。同時,信息在擴散過程中會呈現(xiàn)出不同的形態(tài),在波峰個數(shù)、波峰強度和波峰出現(xiàn)時間上各不相同,在監(jiān)控過程中要對不同階段進行分析,針對性引導。 我們會在未來的研究中加強對信息質量的分析,并在定量分析關鍵因素影響的基礎上,研究出預判方法以便提前預警并加以管控。 [1] Kempe D, Kleinberg J, Tardos E. Maximizing the spread of influence through a social network[C] // Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining,Washington D C,August,24-27,2003. [2] Saito K, Kimura M, Ohara K, et al. Learning continuous-time information diffusion model for social behavioral data analysis[M] // Advances in Machine Learning. Springer Berlin Heidelberg, 2009: 322-337. [3] Saito K, Kimura M, Ohara K, et al. Selecting information diffusion models over social networks for behavioral analysis[M] //Zhou Zhihua,Washio T.Machine learning and knowledge discovery in databases. Berlin-Heidelberg:Springer,2010:180-195. [4] 萬圣賢, 郭嘉豐, 蘭艷艷, 等. 基于傳播模擬的消息流行度預測[J]. 中文信息學報, 2014,28(3):68-74. [5] Chen Wei, Wang Yajun, & Yang Siyu. Efficient influence maximization in social networks[C]//proceedings of the 15th ACM SIGKDD International Conference on Knowledge discovery and Data Mining,Paris,F(xiàn)rance,June 28-July 1,2009. [6] 朱湘, 賈焰, 聶原平. 基于微博的事件擴散分析[J]. 計算機研究與發(fā)展, 2015, 52(2):437-444. [7] Saito K, Nakano R, Kimura M. Prediction of information diffusion probabilities for independent cascade model[M]//Lovrek I, Howlett R J,Jian L C.Knowledge-based intelligent information and engineering systems. Berlin-Heidelberg:Springer, 2008:67-75. [8] Goyal A, Bonchi F, Lakshmanan L V S. Learning influence probabilities in social networks[C] // Proceedings of the third ACM international conference on Web search and data mining,New York,us,February 04-06,2010. [9] 郭靜, 曹亞男, 周川. 基于線性閾值模型的影響力擴散權重學習[J]. 電子與信息學報, 2014, 36(8): 1804-1809. [10] Srivastava J,Pathak N, Banerjee A. A generalized linear threshold model for multiple cascades[C]//Proceedings of the 13th International Conference on Data Ming,December13-17,2010. [11] He Xinran, Songuojie G, Chen Wei, et al. Influence blocking maximization in social networks under the competitive linear threshold model[J]//Compting Science,2011. [12] Litou I, Kalogeraki V, Katakis I. Real-time and cost-effective limitation of misinformation propagation[C]//Proceedings of the 17th TEEE Internation Confernce on Mobile Data Management,Porto,Portugal,June 13-16,2016. [13] 田家堂,王軼彤,馮小軍. 一種新型的社會網絡影響最大化算法[J]. 計算機學報,2011,34(10):1956-1965. [14] Yang J, Leskovec J. Patterns of temporal variation in online media[C] // Proceedings of the fourth ACM international conference on Web search and data mining,Hong kong,China,February 09-11,2011. [15] 劉德海, 蘇燁, 王維國. 振蕩型群體性突發(fā)事件中信息特征的演化博弈分析[J].中國管理科學,2012,20(S1):172-178. [16] Boyd D, Golder S, Lotan G. Tweet, tweet, retweet: Conversational aspects of retweeting on twitter[C] // the 43rd Hawaii International Conference on System Sciences (HICSS),Honolulu,HI,USA,January5-8,2010. [17] 廖衛(wèi)民, 柯偉. 網絡輿論波研究——基于波浪力學及杭州兩起輿論事件的理論思考[J]. 新聞記者, 2010,(4):12-16. [18] 劉樑, 戴偉, 李仕明. 基于多Agent的非常規(guī)突發(fā)事件在線信息預警策略研究[J]. 中國管理科學, 2014,22(S1):180-187. [19] 王秀利, 朱建明. 社會輿論方向影響下的微博商業(yè)言論傳播模型[J]. 中國管理科學, 2012,20(S2):691-695. [20] 曹學艷, 張仙, 劉樑,等. 基于應對等級的突發(fā)事件網絡輿情熱度分析[J]. 中國管理科學, 2014, 22(3):82-89. [21] Matsubara Y, Sakurai Y, Prakash B A, et al. Rise and fall patterns of information diffusion: model and implications[C] // Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining. Beijing,August 12-16,2012.3.2 事件擴散的數(shù)值模型
4 實驗
4.1 面向單條信息的擴散實驗
4.2 面向事件的數(shù)值擴散方程
5 結語