社會(huì)網(wǎng)絡(luò)中信息的擴(kuò)散機(jī)理及其定量建模

2018-01-25 00:55:16付虹蛟徐志明

中國管理科學(xué) 2017年12期

王怡，梁循，付虹蛟，徐志明

(中國人民大學(xué)信息學(xué)院，北京 100872)

1 引言

隨著社會(huì)網(wǎng)絡(luò)的發(fā)展和普及，普通大眾主導(dǎo)網(wǎng)絡(luò)信息的擴(kuò)散活動(dòng)，擴(kuò)散主體具有私人化、平民化、普泛化、自主化等特性。博客、微博、微信、論壇等網(wǎng)絡(luò)社區(qū)都是自媒體的表現(xiàn)平臺(tái)，普通用戶在信息擴(kuò)散過程中既是接收者也是擴(kuò)散者，大大增加了信息擴(kuò)散的廣度和速度。社交網(wǎng)絡(luò)上的信息量十分巨大，雖然大部分信息會(huì)在短時(shí)間內(nèi)被其它信息覆蓋，但有一部分信息會(huì)有很長的生命周期，由于其自身所含的信息量和網(wǎng)絡(luò)中用戶的推動(dòng)，會(huì)在短時(shí)間內(nèi)迅速擴(kuò)散到很大的范圍，帶來巨大的影響。這種網(wǎng)絡(luò)輿論由于其范圍之廣，速度之快，可能還伴隨著用戶的情緒波動(dòng)和觀點(diǎn)態(tài)度，應(yīng)該引起極大的重視。尤其是對(duì)于一些虛假信息或是極端觀點(diǎn)的擴(kuò)散，更加需要及時(shí)有效地加以控制，避免引起社會(huì)恐慌或是危害人們的財(cái)產(chǎn)。在線社交網(wǎng)絡(luò)中的信息擴(kuò)散問題也因此成為了網(wǎng)絡(luò)輿論監(jiān)控的研究熱點(diǎn)。對(duì)輿情的整體態(tài)勢分析有助于預(yù)估事件影響力，信息擴(kuò)散路徑中的關(guān)鍵環(huán)節(jié)也對(duì)控制輿論擴(kuò)散有重要參考價(jià)值。

從微觀角度對(duì)信息擴(kuò)散進(jìn)行分析時(shí)，我們發(fā)現(xiàn)現(xiàn)有研究模型存在以下不足：首先，用戶是否在線是用戶獲取信息的前提，而已有的研究并沒有考慮用戶接收到信息的概率；其次，準(zhǔn)確評(píng)價(jià)用戶之間的影響力是信息擴(kuò)散過程的基礎(chǔ)，現(xiàn)有文獻(xiàn)并沒有在利用模型進(jìn)行模擬之前分析節(jié)點(diǎn)對(duì)之間的影響值；另外，已有研究更多從級(jí)聯(lián)層次上來分析信息擴(kuò)散過程，所得結(jié)果對(duì)于時(shí)效性更強(qiáng)的社會(huì)網(wǎng)絡(luò)中信息的擴(kuò)散來說適應(yīng)度不高，實(shí)際指導(dǎo)意義不大。針對(duì)現(xiàn)有研究的不足，本文在獨(dú)立級(jí)聯(lián)模型的基礎(chǔ)上，補(bǔ)充了節(jié)點(diǎn)的在線狀態(tài)，將信息的獨(dú)立級(jí)聯(lián)模型擴(kuò)展為基于離散時(shí)間的雙概率獨(dú)立級(jí)聯(lián)擴(kuò)散模型；同時(shí)本文改進(jìn)了現(xiàn)有的有關(guān)求解網(wǎng)絡(luò)中邊的權(quán)重的最大期望算法，利用實(shí)際數(shù)據(jù)分析節(jié)點(diǎn)之間的擴(kuò)散概率，并將所得結(jié)果代入所建模型。針對(duì)特定的突發(fā)型社會(huì)事件的信息擴(kuò)散，本文對(duì)實(shí)際數(shù)據(jù)集中節(jié)點(diǎn)之間的影響概率進(jìn)行分析，以所得結(jié)果為基礎(chǔ)進(jìn)行實(shí)驗(yàn)。為彌補(bǔ)微觀模型在網(wǎng)絡(luò)結(jié)構(gòu)和信息質(zhì)量上表述的不足，本文進(jìn)一步從宏觀角度對(duì)信息擴(kuò)散過程進(jìn)行分析，并對(duì)其動(dòng)態(tài)變化定量建模。結(jié)合微觀模擬和現(xiàn)有研究，本文提取重要的影響因素，并以此為基礎(chǔ)構(gòu)建信息擴(kuò)散方程，從宏觀角度對(duì)網(wǎng)絡(luò)輿情擴(kuò)散的過程進(jìn)行模擬和分析。

本文第2節(jié)根據(jù)不同的研究目的對(duì)現(xiàn)有的研究進(jìn)行了闡述。第3節(jié)分別從微觀和宏觀角度對(duì)信息擴(kuò)散的過程進(jìn)行分析和模型刻畫。第4節(jié)則根據(jù)本文所提模型進(jìn)行實(shí)驗(yàn)?zāi)M，并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。第5節(jié)對(duì)本文的工作進(jìn)行總結(jié)。

2 社會(huì)網(wǎng)絡(luò)中信息擴(kuò)散相關(guān)研究

2.1 擴(kuò)散機(jī)理研究

獨(dú)立級(jí)聯(lián)(Independent Cascade, IC)模型和線性閾值(Linear Threshold, LT)模型[1]是最為經(jīng)典的兩個(gè)用來描述社交網(wǎng)絡(luò)中影響力擴(kuò)散的模型，分別從概率和閾值的角度對(duì)信息擴(kuò)散機(jī)制進(jìn)行刻畫，自提出后被廣泛應(yīng)用并擴(kuò)展。獨(dú)立級(jí)聯(lián)模型源于市場影響模型研究，在此模型中，網(wǎng)絡(luò)中的節(jié)點(diǎn)有激活和未激活兩種狀態(tài)，且節(jié)點(diǎn)只存在由未激活狀態(tài)轉(zhuǎn)化為激活狀態(tài)這一種變化形式。在第t步擴(kuò)散時(shí)，某一節(jié)點(diǎn)v的鄰居節(jié)點(diǎn)u處于激活狀態(tài)，此時(shí)u有使處在未激活狀態(tài)的節(jié)點(diǎn)v變成活躍狀態(tài)的可能，且成功的概率是pu,v；若節(jié)點(diǎn)v有多個(gè)被激活的鄰居節(jié)點(diǎn)，則鄰居們對(duì)節(jié)點(diǎn)v的影響順序是任意的。獨(dú)立級(jí)聯(lián)模型能夠較好地反應(yīng)網(wǎng)絡(luò)中的影響力擴(kuò)散過程，適用性較強(qiáng)，后續(xù)對(duì)于該模型也有更為深入的研究。Sauti等[2]則首次提出了異步級(jí)聯(lián)(Asynchronous Independent Cascadel, AsIC)模型，強(qiáng)調(diào)時(shí)間對(duì)于信息擴(kuò)散的影響，并設(shè)計(jì)了迭代更新參數(shù)的算法，使結(jié)果更合理。Saito等[3]對(duì)IC模型、LT模型和AsIC模型對(duì)于不同主題的信息的適用性進(jìn)行了分析，用實(shí)際擴(kuò)散數(shù)據(jù)進(jìn)行驗(yàn)證，發(fā)現(xiàn)大部分信息擴(kuò)散符合AsIC模型。萬圣賢等[4]還采用最大熵的方法對(duì)IC模型中涉及的閾值進(jìn)行了定義和分析，發(fā)現(xiàn)與Logistic Regression模型相比，此方法具有更好的穩(wěn)定性。Chen Wei等[5]則提出了加權(quán)級(jí)聯(lián)(Weighted Cascade)模型，其中節(jié)點(diǎn)成功激活后繼節(jié)點(diǎn)的概率是后繼節(jié)點(diǎn)的入度的倒數(shù)，其它規(guī)則與IC模型一致。朱湘等[6]則在已有模型的基礎(chǔ)上，提出了一種結(jié)合用戶去重、垃圾用戶濾除和概率閱讀的擴(kuò)散模型。

以往的研究表明，獨(dú)立級(jí)聯(lián)模型能夠很好地匹配在線社交網(wǎng)絡(luò)的結(jié)構(gòu)特性；但由于社交網(wǎng)絡(luò)的自身特性，傳統(tǒng)的模型在時(shí)間和概率上存在明顯的不足。首先，在線社交網(wǎng)絡(luò)中的用戶會(huì)以一定的概率停留在線上并接收網(wǎng)絡(luò)中的信息，即用戶是否在線是用戶能否閱讀到已有信息的前提，傳統(tǒng)的IC模型沒有考慮節(jié)點(diǎn)的狀態(tài)是否有效。其次，信息在網(wǎng)絡(luò)中的擴(kuò)散速度很快，時(shí)效性是輿論監(jiān)控中的關(guān)鍵要素之一。既有的信息擴(kuò)散模型更多地從擴(kuò)散層級(jí)出發(fā)，考慮的是每一步的擴(kuò)散結(jié)果，無法體現(xiàn)時(shí)間的特性。網(wǎng)絡(luò)中不同的信息在自身屬性上差異很大，包括信息的內(nèi)容、信息的展現(xiàn)形式和信息本身所含的信息量等方面，將不同主題的信息一概而論是粗糙且不合理的。

以上的模型都需要有一個(gè)先驗(yàn)知識(shí)，即節(jié)點(diǎn)之間的擴(kuò)散概率，在網(wǎng)絡(luò)中也稱為邊的權(quán)重，一般研究擴(kuò)散模型的文章中，都將這一知識(shí)看作是已知的，僅部分學(xué)者就這一關(guān)鍵問題進(jìn)行了獨(dú)立研究。Saito等[6]第一次系統(tǒng)提出了如何求解擴(kuò)散概率的問題并給出了解答，他們的研究基于獨(dú)立級(jí)聯(lián)模型，對(duì)擴(kuò)散過程的概率進(jìn)行分析，在求解似然函數(shù)最大值的時(shí)候采用的是最大期望(Expectation Maximum, EM)算法。Goyal等[8]則分別從靜態(tài)和動(dòng)態(tài)的角度分析了擴(kuò)散概率，并為這兩種擴(kuò)散模式中的概率獲取設(shè)計(jì)了相應(yīng)的算法。他們的研究從大量的日志數(shù)據(jù)入手，優(yōu)化算法的掃描次數(shù)，使得所需參數(shù)能夠在兩遍以內(nèi)的掃描中求得，而且能夠預(yù)測用戶會(huì)在什么時(shí)刻進(jìn)行轉(zhuǎn)發(fā)。這一算法適用于大規(guī)模的網(wǎng)絡(luò)，在性能和時(shí)間上都有所提高。郭靜等[9]在線性閾值模型的框架下，以社交網(wǎng)絡(luò)中用戶的歷史行為日志為基礎(chǔ)，利用最大似然估計(jì)的思想對(duì)用戶間的影響力進(jìn)行學(xué)習(xí)，同樣能夠?qū)W(wǎng)絡(luò)中邊的權(quán)重進(jìn)行求解。

線性閾值模型則源于節(jié)點(diǎn)的特異性研究，它與獨(dú)立級(jí)聯(lián)模型的不同之處在于，當(dāng)一個(gè)激活節(jié)點(diǎn)u嘗試去激活它的處于未激活狀態(tài)的鄰居節(jié)點(diǎn)v時(shí)，其影響力pu,v不會(huì)失效，而是積累下來。此模型也被廣泛改進(jìn)和應(yīng)用，典型的包括從多層級(jí)級(jí)聯(lián)擴(kuò)散[10]、競爭性[11]、動(dòng)態(tài)性[12]、網(wǎng)絡(luò)結(jié)構(gòu)[13]等方面對(duì)其進(jìn)行擴(kuò)展。除此以外，傳染病模型從另一角度對(duì)信息擴(kuò)散進(jìn)行描述，經(jīng)典的傳染病模型將人的狀態(tài)分為易感S(susceptible)、感染I(infected)、治愈R(recovered)三種狀態(tài)，根據(jù)狀態(tài)轉(zhuǎn)換定義出SIR模型，后續(xù)還調(diào)整出SIS、SIRS模型等，是擴(kuò)散動(dòng)力學(xué)的主要分支之一。其它的模型包括連續(xù)時(shí)間模型、博弈論模型和多實(shí)體擴(kuò)散模型等。

2.2 擴(kuò)散整體態(tài)勢的研究

在對(duì)信息擴(kuò)散過程從宏觀角度進(jìn)行研究時(shí)，部分文獻(xiàn)從統(tǒng)計(jì)結(jié)果出發(fā)，通過對(duì)實(shí)際數(shù)據(jù)集的分析，得出信息隨時(shí)間擴(kuò)散的特性，或是用數(shù)值方程進(jìn)行擬合。也有一些動(dòng)態(tài)方程模型，在假設(shè)信息擴(kuò)散過程的基礎(chǔ)上，用函數(shù)進(jìn)行刻畫，都取得了較大的認(rèn)可。此外，Yang等[14]則沒有關(guān)注網(wǎng)絡(luò)結(jié)構(gòu)或者預(yù)測哪些節(jié)點(diǎn)會(huì)被影響，而是從宏觀上構(gòu)建了一個(gè)線性影響(Linear Influence)模型，通過最小方差法來得到參數(shù)的值，取得了較好的數(shù)值模擬結(jié)果。劉德海[15]等綜合考慮群體性突發(fā)實(shí)踐中不同利益方同時(shí)存在信息過剩、信息匱乏和虛假信息等多樣化的信息特征，建立信息傳播的演化博弈模型，分析信息特征對(duì)震蕩型群體性突發(fā)事件的演化影響。Boyd等[16]以Twitter為研究對(duì)象，對(duì)用戶Retweet(類似于國內(nèi)微博的“轉(zhuǎn)發(fā)”)的方式、動(dòng)機(jī)以及信息的內(nèi)容主題傾向進(jìn)行了分析。廖為民等[17]則從具體的事件出發(fā)，通過對(duì)整個(gè)事件過程中信息的擴(kuò)散數(shù)據(jù)進(jìn)行整理和分析，定量和定性相結(jié)合，準(zhǔn)確而形象地對(duì)事件的發(fā)展過程進(jìn)行了刻畫。劉樑[18]等考慮政府、網(wǎng)民、媒體和非常規(guī)突發(fā)事件等agent，建立行為特征模型、因果關(guān)聯(lián)圖等，并通過防火怎計(jì)算提出在線信息的預(yù)警策略。王秀利[19]等利用無標(biāo)度網(wǎng)絡(luò)模型具有的增長、擇優(yōu)連接特性，加入社會(huì)輿論因素，提出微博平臺(tái)下的商業(yè)輿論傳播模型。這些研究主要研究的是最終的擴(kuò)散效果，但是對(duì)于時(shí)間方面的特性則沒有考慮。曹學(xué)艷[20]等把突發(fā)事件應(yīng)對(duì)等級(jí)引入網(wǎng)絡(luò)輿情熱度指標(biāo)中，進(jìn)一步豐富和完善了輿情熱度指標(biāo)。

本文在認(rèn)識(shí)信息擴(kuò)散的微觀機(jī)理的基礎(chǔ)上，對(duì)整個(gè)事件的擴(kuò)散進(jìn)行梳理，并建立對(duì)應(yīng)的方程，以方程的形態(tài)特征來描述事件擴(kuò)散的特點(diǎn)。

3 社會(huì)網(wǎng)絡(luò)中的信息擴(kuò)散模型

在本節(jié)，我們?yōu)樯鐣?huì)網(wǎng)絡(luò)中的信息擴(kuò)散建立相關(guān)的模型以描述其擴(kuò)散機(jī)理，并參考已有資料對(duì)信息擴(kuò)散過程建立數(shù)值化模型。模型涉及到的變量及其含義如表1所示。

3.1 信息的微觀擴(kuò)散模型

這一部分構(gòu)建了雙概率獨(dú)立級(jí)聯(lián)擴(kuò)散模型，從微觀角度刻畫社會(huì)網(wǎng)絡(luò)中信息隨時(shí)間變化的擴(kuò)散過程。

表1 方程組中變量及其含義

將社會(huì)網(wǎng)絡(luò)中的用戶看成是圖中的節(jié)點(diǎn)，用戶之間的關(guān)注關(guān)系看成圖中的邊。本文中節(jié)點(diǎn)和用戶代表的是同一實(shí)體，可以相互替換。對(duì)于一個(gè)有向網(wǎng)絡(luò)G= (V,E), 其中V代表節(jié)點(diǎn)的集合；?v,w∈V,v≠w,e= (v,w)表示存在從節(jié)點(diǎn)w指向節(jié)點(diǎn)v的邊，信息可沿著邊e從v傳向w；網(wǎng)絡(luò)中所有的邊構(gòu)成集合E。對(duì)于G中的每個(gè)節(jié)點(diǎn)v，其子節(jié)點(diǎn)的集合用F(v) = {w: (v,w)∈E}表示，而它的父節(jié)點(diǎn)集合則用B(v) = {u: (u,v)∈E}表示。每個(gè)節(jié)點(diǎn)的狀態(tài)從兩個(gè)維度來考慮：一方面，根據(jù)是否轉(zhuǎn)發(fā)特定的信息可以分為激活(Active)和未激活(Inactive)狀態(tài)。即對(duì)于一條特定信息，若用戶已經(jīng)轉(zhuǎn)發(fā)，則屬于激活狀態(tài)；反之，所用戶沒有轉(zhuǎn)發(fā)，則處于未激活狀態(tài)。另一方面，根據(jù)用戶是否在線可以分為在線(Online)和離線(Offline)兩種狀態(tài)，且用戶v在時(shí)間段[ti,ti+1)(i=1, 2, 3, …)內(nèi)在線的概率為kv。用戶處于離線狀態(tài)時(shí)無法獲取信息，也就不可能出現(xiàn)激活的過程。用戶在線時(shí)則意味著用戶能夠獲取相關(guān)新信息，并有可能被激活。用戶一旦處于激活狀態(tài)，則無需再考慮用戶的在線狀態(tài)。對(duì)于圖G中的每一條有向邊e= (v,w)，我們用實(shí)數(shù)pv,w來表示e的權(quán)重，其中0

圖1為信息在給定節(jié)點(diǎn)網(wǎng)絡(luò)中的擴(kuò)散示意圖，其中橙色表示節(jié)點(diǎn)處于激活狀態(tài)，綠色表示節(jié)點(diǎn)尚未被激活且處于在線狀態(tài)，灰色表示節(jié)點(diǎn)未被激活且處于離線狀態(tài)。信息在時(shí)間段[ti,ti+1)內(nèi)的級(jí)聯(lián)層次并不固定，在圖中用sij來表示[ti,ti+1)內(nèi)的第j層傳播，比如圖1中，[t1,t2)內(nèi)擴(kuò)散了2層，[t2,t3)內(nèi)擴(kuò)散了3層。每層激活過程中，活躍節(jié)點(diǎn)的子節(jié)點(diǎn)中處于在線狀態(tài)的節(jié)點(diǎn)組成待激活節(jié)點(diǎn)集合，接著活躍節(jié)點(diǎn)會(huì)嘗試影響待激活節(jié)點(diǎn)。例如圖中初始時(shí)刻t1只有一個(gè)初始活躍節(jié)點(diǎn)，在[t1,t2)的s11階段，它的子節(jié)點(diǎn)中處于在線狀態(tài)的兩個(gè)節(jié)點(diǎn)形成了待激活節(jié)點(diǎn)集合，進(jìn)而它嘗試激活這兩個(gè)節(jié)點(diǎn)，最終成功和失敗各一個(gè)，此激活結(jié)果作為s12的初始狀態(tài)。在s12階段，活躍節(jié)點(diǎn)的子節(jié)點(diǎn)中滿足在線狀態(tài)的有兩個(gè)，但其中一個(gè)曾經(jīng)激活失敗且并無新的活躍父節(jié)點(diǎn)，所以不能加入待激活節(jié)點(diǎn)集合。唯一符合要求的節(jié)點(diǎn)也最終激活失敗，因此進(jìn)入[t2,t3)時(shí)依然只有兩個(gè)活躍節(jié)點(diǎn)。該時(shí)間段會(huì)重復(fù)第一個(gè)時(shí)間段內(nèi)的過程。由于觀測時(shí)刻只到t2，圖示中的信息擴(kuò)散過程結(jié)束。

圖1 信息的級(jí)聯(lián)擴(kuò)散隨時(shí)間變化的過程示意圖

圖1中某一時(shí)間段內(nèi)的信息擴(kuò)散過程可以由圖2表示。信息在每個(gè)時(shí)間段[ti,ti+1) 中可能會(huì)擴(kuò)散多層，設(shè)為step(i) (i=1, 2, 3, …)。用sij表示信息在[ti,ti+1)內(nèi)的第j層傳播，集合C(ti,sij)表示時(shí)間段[ti,ti+1)的第sij層級(jí)聯(lián)中，所有處于活躍狀態(tài)的節(jié)點(diǎn)集合。

圖2 節(jié)點(diǎn)網(wǎng)絡(luò)中信息擴(kuò)散的過程示意圖

給定初始的活躍節(jié)點(diǎn)集合C(t1,s11)，在時(shí)間段[ti,ti+1]中第sij層，任意v(C(ti,sij)有機(jī)會(huì)來激活它的子節(jié)點(diǎn)集合中處于不活躍狀態(tài)的節(jié)點(diǎn)。對(duì)于w∈F(v), 當(dāng)w處于不活躍狀態(tài)且在線時(shí)，若之前v沒有嘗試激活過w，則本輪可以進(jìn)行激活，且激活成功的概率為pv,w。如果v成功了，則w在下一次擴(kuò)散時(shí)處于活躍狀態(tài)，即:

(1)

若v沒有激活成功，則之后無法再次激活。也就是說，v最多只有一次機(jī)會(huì)來激活w。對(duì)于處于未激活狀態(tài)的節(jié)點(diǎn)w來說，若在這一時(shí)間段內(nèi)處于在線狀態(tài)，且最近一次處于在線狀態(tài)的時(shí)間為t’，而在(t’,ti)中有多個(gè)父節(jié)點(diǎn)新被激活，則將這些節(jié)點(diǎn)隨機(jī)排序，依次判斷是否能夠激活w，一旦被激活則停止判斷。

當(dāng)沒有新的節(jié)點(diǎn)存在被激活的可能性，或是時(shí)間已經(jīng)超過我們?cè)O(shè)定的考慮范圍，則信息的級(jí)聯(lián)擴(kuò)散過程停止。

以上模型總結(jié)如下：

模型I.

(1)給定一個(gè)初始活躍節(jié)點(diǎn)集合C(t1,s11)，其中C(ti,sij)表示時(shí)間段[ti,ti+1)內(nèi)第j層的活躍節(jié)點(diǎn)集合，且i= 1, 2, 3….。

(2)在每個(gè)時(shí)間段[ti,ti+1)中，信息會(huì)發(fā)生step(i)級(jí)擴(kuò)散。

(3)對(duì)于每一級(jí)的擴(kuò)散，當(dāng)結(jié)點(diǎn)v處于激活狀態(tài)時(shí)，它的每個(gè)非激活狀態(tài)且在線的鄰接點(diǎn)w都有可能變成激活狀態(tài)。若w有多個(gè)新的激活鄰接點(diǎn)，影響順序可以是任意的。如果w被激活，則它會(huì)加入活躍節(jié)點(diǎn)集合，具體方式如公式(1)。

(4)一旦v嘗試激活過w，就不能再次激活。

(5)當(dāng)超過有效追蹤時(shí)間，或是不在產(chǎn)生新的激活點(diǎn)，該過程結(jié)束。

模型I能夠較好地描述社會(huì)網(wǎng)絡(luò)中信息在用戶群體間的擴(kuò)散過程，且可以體現(xiàn)出信息的擴(kuò)散隨時(shí)間變化的數(shù)量變化。

3.2 事件擴(kuò)散的數(shù)值模型

模型I從微觀角度對(duì)信息的擴(kuò)散過程進(jìn)行了刻畫和分析。但事情發(fā)生后，其擴(kuò)散過程還會(huì)受傳播平臺(tái)、用戶網(wǎng)絡(luò)、時(shí)間、前期傳播等諸多不確定性因素的影響，需要從宏觀的角度對(duì)其進(jìn)行分析。我們?cè)谀Ｐ虸I中梳理了信息擴(kuò)散過程中主要因素的反饋和發(fā)展機(jī)制，并定量化分析網(wǎng)絡(luò)中事件信息的擴(kuò)散情況。

假設(shè)網(wǎng)絡(luò)中有N個(gè)節(jié)點(diǎn)，且對(duì)于相關(guān)的話題沒有明顯的傾向性。在時(shí)刻nb發(fā)生了一件突發(fā)事件，此時(shí)有Sb個(gè)用戶及時(shí)地對(duì)其進(jìn)行了擴(kuò)散。我們將這一外部的突發(fā)事件看成是一個(gè)信息刺激。用(來表示事件本身的影響力即信息的質(zhì)量，包括它的內(nèi)容、來源、爭議性、信息量等本身的性質(zhì)，這一特征會(huì)對(duì)信息的擴(kuò)散速度、廣度和深度產(chǎn)生重要的影響。若(為0，則沒有人會(huì)對(duì)這一刺激產(chǎn)生興趣，也不會(huì)有人對(duì)其進(jìn)行發(fā)布或轉(zhuǎn)發(fā)、評(píng)論等。但(越大，則會(huì)有更多用戶參與到輿情的擴(kuò)散中來。根據(jù)已有的研究，信息的影響力會(huì)隨著時(shí)間的變化而衰減，并服從冪律(power law)衰減的規(guī)律。本文用函數(shù)f(n)表示信息的影響力隨擴(kuò)散階段n的衰減過程。對(duì)事件擴(kuò)散的模型描述如下：

模型II.

(1)某一事件發(fā)生后，一批初始結(jié)點(diǎn)會(huì)迅速擴(kuò)散相關(guān)消息，進(jìn)而影響到網(wǎng)絡(luò)中大量的未被激活結(jié)點(diǎn)。

(2)在時(shí)間段[ti-1,ti),i= 1, 2, 3…,活躍結(jié)點(diǎn)以一定的概率影響非活躍結(jié)點(diǎn)。此概率同時(shí)與信息質(zhì)量和結(jié)點(diǎn)的活躍程度有關(guān)。

(3)其它平臺(tái)會(huì)對(duì)信息的擴(kuò)散產(chǎn)生外部刺激，且該刺激與上一時(shí)刻信息的擴(kuò)散量正相關(guān)。

(4)擴(kuò)散過程中會(huì)因?yàn)椴豢煽氐碾S機(jī)因素而產(chǎn)生不可避免的噪聲。

(5)超過有效追蹤時(shí)間時(shí)，信息擴(kuò)散結(jié)束。

模型II假設(shè)：(1)每一個(gè)用戶只會(huì)在相關(guān)事件的擴(kuò)散中參與一次。(2)假設(shè)信息的刺激源頭是單一的，即在事情的擴(kuò)散過程中，沒有相關(guān)的事件發(fā)生對(duì)信息的擴(kuò)散產(chǎn)生二次影響。

假設(shè)節(jié)點(diǎn)有兩種狀態(tài)：U(un-informed of the rumor)代表未被感染狀態(tài)，I(informed of the rumor)代表已被感染狀態(tài)。用△B(n)表示在時(shí)刻n被感染的用戶數(shù)，并且一旦被感染，則會(huì)立即改變狀態(tài)。用U(n)表示在時(shí)刻n未被感染的用戶數(shù)目，則：

(2)

U(n+1)=U(n)-ΔB(n+1)

(3)

其中，f(τ)=βτ-1.5，且△B(0) = 0，U(0) =N。ρ為用戶關(guān)聯(lián)的緊密程度，用來刻畫用戶關(guān)注網(wǎng)絡(luò)中用戶的連接概率。由于現(xiàn)在信息的多元化，不同平臺(tái)上的信息之間彼此會(huì)存在影響，因此，我們會(huì)增加一個(gè)外部的刺激S(n)，代表時(shí)刻n產(chǎn)生的影響。數(shù)值上可以表示為：

(4)

在上述模型中，

a)△B(t) +S(t)這一項(xiàng)代表了在時(shí)刻t新增的受影響用戶數(shù)目和外部來源的影響；他們的感染率可以用函數(shù)f來表述，而且我們認(rèn)為影響因子隨著時(shí)間呈現(xiàn)冪率降低。從初始時(shí)刻nb開始后的所有項(xiàng)進(jìn)行累積就可以得到所有的影響力。

b)影響因子函數(shù)f完全符合冪函數(shù)形式，且從以往基于真實(shí)數(shù)據(jù)集的研究得知，其常數(shù)為-1.5。

c)外部影響函數(shù)S是自適應(yīng)的項(xiàng)，在初始時(shí)刻，即n=nb時(shí)，外部影響就是初始感染的用戶集數(shù)目。但在以后的時(shí)刻中，我們假設(shè)外部影響會(huì)與信息的擴(kuò)散情況相關(guān)，存在一定的滯后性。即在上一個(gè)時(shí)間段中，若信息的擴(kuò)散量很大，則說明信息的擴(kuò)散能力很強(qiáng)，更容易受到外部平臺(tái)中的影響。相反，若擴(kuò)散量較小，外部的影響也會(huì)降低。為避免信息擴(kuò)散數(shù)量的絕對(duì)值影響，本文先對(duì)其取對(duì)數(shù)，并加上常數(shù)a對(duì)其進(jìn)行調(diào)節(jié)。同時(shí)為避免信息沒有擴(kuò)散△B(t-1)=0而可能出現(xiàn)的錯(cuò)誤，我們給其加上常數(shù)1。

d)將從初始時(shí)刻開始到時(shí)刻n的所有新增項(xiàng)進(jìn)行加和，得到的是所有的刺激因素；而有效的激活目標(biāo)是尚未被感染的用戶U(n)，它們的乘積與當(dāng)前的信息影響力f(n+ 1 -t)相乘時(shí)時(shí)可以得到新的感染用戶數(shù)目。

e)用隨機(jī)項(xiàng)ε來對(duì)一些特殊情況進(jìn)行建模，比如信息加上了一些話題時(shí)，就會(huì)產(chǎn)生一定的影響。一般情況下，0<ε< 1。

同時(shí)，信息的擴(kuò)散與用戶的行為息息相關(guān)，考慮到用戶的生活周期性，我們將周期性這一特性也加入到信息擴(kuò)散的數(shù)值方程中，則:

(5)

(6)

其中，A(n)是周期性調(diào)節(jié)因子，代表用戶在網(wǎng)絡(luò)中的活躍程度；A為振幅，表示用戶活躍程度的變化程度；T為周期，本文以小時(shí)為單位進(jìn)行分析，所以T為24。根據(jù)用戶的日?；顒?dòng)，在白天的時(shí)候，會(huì)存在一個(gè)峰值，而到了晚上，則會(huì)降低對(duì)事件的關(guān)注度。As是相位調(diào)節(jié)因子，由事件發(fā)生的初始時(shí)刻與用戶活躍極大值的時(shí)刻共同決定，若事件發(fā)生在上午8點(diǎn)，而用戶最活躍的時(shí)間為中午12點(diǎn)，則As= 2。

4 實(shí)驗(yàn)

在這一部分，我們對(duì)上文中的模型進(jìn)行實(shí)驗(yàn)?zāi)M，并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。

4.1 面向單條信息的擴(kuò)散實(shí)驗(yàn)

(1) 用戶之間擴(kuò)散概率的分析

這一部分根據(jù)模型I所述的擴(kuò)散機(jī)制，從擴(kuò)散概率的角度出發(fā)，對(duì)信息擴(kuò)散的結(jié)果進(jìn)行概率推導(dǎo)，進(jìn)而分析得到節(jié)點(diǎn)對(duì)v,w之間權(quán)重pv,w的求解方法。為使分析過程更為清晰，我們只考慮到時(shí)間段這一層次，而不進(jìn)入到里面具體的級(jí)聯(lián)層數(shù)，時(shí)間也用t進(jìn)行簡化表示。

用rw(t)代表節(jié)點(diǎn)w在t時(shí)刻被激活的概率，則t+1時(shí)刻節(jié)點(diǎn)w被激活的概率表示如公式(7)所示：

(7)

這里，節(jié)點(diǎn)w在t時(shí)刻沒有被激活包含兩種可能性，一是w沒有在線，一是雖然w在線，但是其父節(jié)點(diǎn)集合中的節(jié)點(diǎn)均未能成功激活w。

集合D(t)表示在時(shí)間段t內(nèi)新被激活成功的節(jié)點(diǎn)集合，則整個(gè)擴(kuò)散過程D可以表示為各個(gè)時(shí)間段內(nèi)新增集合的并集，即D=D(0) ∪D(1) ∪ … ∪D(T)，其中T表示有效的觀察時(shí)間長度。用C(t)表示截至?xí)r間段t所有的被激活節(jié)點(diǎn)集合，Rw(t)代表截至?xí)r間段t時(shí)已經(jīng)嘗試過激活w的節(jié)點(diǎn)集合，則C(t) 〗Rw(t)是在時(shí)間段t中可以嘗試激活w的有效節(jié)點(diǎn)集合，記作Aw(t)。當(dāng)出現(xiàn)(a)v∈Aw(t)且w∈C(t), 或是(b)v∈C(t)這兩種情況時(shí)，我們無法獲得關(guān)于連接e = (v, w)的有效信息。因此，對(duì)于一條信息的擴(kuò)散過程D，我們可以用θ = { pv,w}來表示某一已知的擴(kuò)散結(jié)果出現(xiàn)的概率：

(8)

用{Ds:s= 1, 2, …,S}表示S個(gè)獨(dú)立的信息擴(kuò)散過程的集合，則對(duì)于整個(gè)數(shù)據(jù)集中的信息擴(kuò)散概率，我們可以得到總的目標(biāo)函數(shù)，如公式(9)所示：

(9)

(10)

接下來，需要得到所有的擴(kuò)散概率使得(9)的值最大。由于(9)的偏導(dǎo)數(shù)十分復(fù)雜，難以直接分析或采用梯度上升算法進(jìn)行求解，所以在本文中我們采用的是最大期望算法，最后得到網(wǎng)絡(luò)中所有邊的擴(kuò)散概率分布θ。

(11)

需要注意的是，雖然實(shí)際情況下kw在不同的時(shí)刻是不一致的，不同用戶在線的概率也有差別，但為了使求解結(jié)構(gòu)簡單，本文在求解時(shí)將其設(shè)置為一個(gè)固定的常數(shù)值P即所有節(jié)點(diǎn)在任何時(shí)刻處于有效狀態(tài)的概率均相同；同時(shí)本文在后續(xù)的實(shí)驗(yàn)中分析P的不同取值對(duì)概率的影響。為了求得最優(yōu)解，令偏導(dǎo)數(shù)?θ/?pv,w=0，則:

(12)

(2)實(shí)驗(yàn)數(shù)據(jù)

為排除信息內(nèi)容和信息來源對(duì)網(wǎng)絡(luò)信息擴(kuò)散的影響，本文從新浪微博平臺(tái)上獲取2015年8月13日到2015年8月22日之間由頭條新聞發(fā)布的有關(guān)天津港爆炸事件的微博，其轉(zhuǎn)發(fā)量最小為68，最大超過15萬。為了排除偶然的超級(jí)爆炸性新聞對(duì)轉(zhuǎn)發(fā)關(guān)系的影響，本文選擇了轉(zhuǎn)發(fā)量在1500以下的120條微博，并獲取這些微博的所有轉(zhuǎn)發(fā)路徑以及相關(guān)的用戶信息。這些數(shù)據(jù)中，共包括41783名用戶，分析得到他們之間的好友關(guān)系，并將其投射到社會(huì)網(wǎng)絡(luò)中。

根據(jù)4.1中方法，我們獲取存在好友關(guān)系的節(jié)點(diǎn)對(duì)(v,w)之間的擴(kuò)散概率pv,w。為簡化問題，本文將用戶在線概率為設(shè)定為常數(shù)P，圖4所示即為不同概率值下得到的用戶之間影響值的結(jié)果。

圖3 P取不同值下節(jié)點(diǎn)對(duì)之間的權(quán)重分布情況

圖3中，橫軸表示節(jié)點(diǎn)之間的影響值的大小，縱軸表示累積概率。P越大，說明用戶對(duì)微博平臺(tái)的粘性越大，花費(fèi)在該平臺(tái)上的時(shí)間越長。從上圖中可以看出，只有當(dāng)P處于極值(P的最小值0.2和最大值1)時(shí)，概率值分布才會(huì)出現(xiàn)相對(duì)明顯的差異。而當(dāng)P取中間值時(shí)，所得的結(jié)果差異十分微小，幾乎可以忽略不計(jì)。在極端情況之外，我們發(fā)現(xiàn)80%左右的節(jié)點(diǎn)對(duì)之間的影響力小于0.1，基本無明顯影響，而有近10%的節(jié)點(diǎn)對(duì)影響值超過了0.9，近乎完全影響。這一結(jié)果符合社會(huì)網(wǎng)絡(luò)中的用戶結(jié)構(gòu)特性：微博平臺(tái)中用戶的密度和關(guān)聯(lián)度整體不高，網(wǎng)絡(luò)相對(duì)稀疏，大部分節(jié)點(diǎn)之間進(jìn)行信息擴(kuò)散的概率很低；同時(shí)平臺(tái)上存在關(guān)聯(lián)密切的局部網(wǎng)絡(luò)，彼此之間影響很大，信息滲透深入。

(3) 實(shí)驗(yàn)結(jié)果

在這一部分，我們利用上面所得的節(jié)點(diǎn)之間的影響概率，根據(jù)基于離散時(shí)刻的獨(dú)立級(jí)聯(lián)模型，從特定的節(jié)點(diǎn)出發(fā)，利用蒙特卡羅方法追蹤單條信息在24小時(shí)內(nèi)的擴(kuò)散情況變化過程，實(shí)驗(yàn)共模擬5000次，所得結(jié)果如圖4所示。

圖4 蒙特卡羅方法所得的信息擴(kuò)散情況示意圖

從圖中可以看出，前10個(gè)小時(shí)中，每個(gè)時(shí)刻都有可能產(chǎn)生巨大數(shù)量的擴(kuò)散，也可能極少擴(kuò)散甚至不擴(kuò)散。而當(dāng)擴(kuò)散時(shí)間超過10小時(shí)后，產(chǎn)生巨量擴(kuò)散的可能性會(huì)急劇減少。中間的短橫代表的是5000次模擬實(shí)驗(yàn)的中位數(shù)，它們會(huì)在短時(shí)間內(nèi)迅速降低。此外，從整體來看，我們對(duì)其平均值的情況進(jìn)行了分析，在這一部分的實(shí)驗(yàn)中，經(jīng)過曲線擬合，發(fā)現(xiàn)其擬合函數(shù)為y= 448.61e- 0.54x,R2= 0.986，有較強(qiáng)的可信度證明其符合指數(shù)函數(shù)衰減的特征。與平均值相類似，模擬實(shí)驗(yàn)數(shù)據(jù)的上四分位點(diǎn)也符合指數(shù)衰減的特性。因此對(duì)輿論進(jìn)行控制時(shí)應(yīng)該在有效的時(shí)間段內(nèi)采取行動(dòng)；若不夠及時(shí)則擴(kuò)散已經(jīng)基本完成，再采取的行動(dòng)已經(jīng)滯后。

Yang等[14]設(shè)計(jì)了K-SC聚類算法，對(duì)在線媒體中信息的擴(kuò)散模式進(jìn)行分析，共得出6種擴(kuò)散模式。Matsubara等[21]則提出了SPIKEM模型，通過參數(shù)的調(diào)節(jié)，可以擬合出不同的擴(kuò)散模式，且具有統(tǒng)一性、實(shí)證性、簡約性和有效性。以上的模型劃分主要在波峰數(shù)量、下降速度、峰值出現(xiàn)的時(shí)間上有所區(qū)別。因此，本文對(duì)上面的因素進(jìn)行了簡化，主要根據(jù)波峰數(shù)量和峰值出現(xiàn)的時(shí)刻，將信息的擴(kuò)散模式分為延時(shí)多峰波動(dòng)型、延時(shí)單峰衰減型、即時(shí)多峰波動(dòng)型和即時(shí)單峰衰減型，其特征和數(shù)量如表2所示。

表2 不同擴(kuò)散模式的信息所占比例

從它可以看出超過80%的信息會(huì)很快形成擴(kuò)散巔峰。另外，單峰模式的數(shù)量比多峰模式略少，說明信息在整個(gè)擴(kuò)散周期中很容易形成回彈。

圖5 信息隨時(shí)間變化的擴(kuò)散情況示意圖(h為小時(shí))

圖5展示了四種典型的擴(kuò)散模式與總體的擴(kuò)散平均值，發(fā)現(xiàn)即時(shí)單峰衰減型與總體平均擴(kuò)散模型最為相近，在初始是擁有很大的擴(kuò)散量，但擴(kuò)散量隨時(shí)間迅速衰減。可以發(fā)現(xiàn)，雖然多峰出現(xiàn)的概率也比較大，但是后續(xù)的峰值產(chǎn)生的波動(dòng)較小，但其強(qiáng)度主要取決于第一個(gè)峰值，反映了控制首次爆發(fā)的重要性。

接下來，我們?cè)O(shè)置了三組對(duì)比試驗(yàn)，以驗(yàn)證初始節(jié)點(diǎn)對(duì)于信息擴(kuò)散的影響。所得結(jié)果表3所示。從表中可以看出，對(duì)于入度很大的初始節(jié)點(diǎn)，其發(fā)布的信息的擴(kuò)散數(shù)量會(huì)遠(yuǎn)遠(yuǎn)超過一般節(jié)點(diǎn)的擴(kuò)散；而對(duì)于鏈入較少的節(jié)點(diǎn)來說，其擴(kuò)散的可能性會(huì)很小，在社會(huì)類事件中基本不會(huì)擴(kuò)散。因此對(duì)于突發(fā)的社會(huì)事件，用戶更傾向于從權(quán)威人士或機(jī)構(gòu)處獲取信息并加以擴(kuò)散，有一定的判別性行為存在；而對(duì)于一般的用戶來說，其影響力相對(duì)較小。

從平均覆蓋率來看，中等節(jié)點(diǎn)的平均覆蓋率最大，強(qiáng)節(jié)點(diǎn)的覆蓋率次之，而弱節(jié)點(diǎn)的覆蓋率最小。如上面所分析的那樣，強(qiáng)節(jié)點(diǎn)的鏈入節(jié)點(diǎn)中只有一部分屬于強(qiáng)聯(lián)系，另外一部分的權(quán)重很小，所以能夠有效影響的概率也很?。患由匣鶖?shù)很大，所以整體的覆蓋率就會(huì)降低。而對(duì)于中等節(jié)點(diǎn)，它是一簇聯(lián)系較強(qiáng)的小網(wǎng)絡(luò)，彼此之間的影響很大，信息流通比較高效，所以它的覆蓋率也最高。而對(duì)于弱節(jié)點(diǎn)，它自身的低活躍度、較小的受眾規(guī)模和較弱的影響力，使得其很難將信息擴(kuò)散出去。因此在對(duì)信息擴(kuò)散進(jìn)行監(jiān)控時(shí)，應(yīng)該重點(diǎn)關(guān)注強(qiáng)節(jié)點(diǎn)以及它的強(qiáng)聯(lián)系關(guān)注節(jié)點(diǎn)，同時(shí)對(duì)于小規(guī)模的強(qiáng)聯(lián)系網(wǎng)絡(luò)也應(yīng)該加以重視。

表3 信息從不同節(jié)點(diǎn)發(fā)布所得的結(jié)果

(4) 小結(jié)

從以上的實(shí)驗(yàn)?zāi)M結(jié)果中，我們分析得到了如下結(jié)論：在社交網(wǎng)絡(luò)中，基于離散時(shí)間的雙概率獨(dú)立級(jí)聯(lián)擴(kuò)散模型能夠較好地模擬現(xiàn)實(shí)中信息隨時(shí)間的擴(kuò)散過程。網(wǎng)絡(luò)中的信息要在前10個(gè)小時(shí)內(nèi)加以控制，超過有效時(shí)間，則基本擴(kuò)散結(jié)束，滯后性太強(qiáng)。對(duì)輿論監(jiān)控過程中，要重點(diǎn)監(jiān)控兩類群體：一是具有高度鏈入度的節(jié)點(diǎn)以及其關(guān)注節(jié)點(diǎn)中關(guān)聯(lián)性很強(qiáng)的群體；二是鏈入度較高，且關(guān)系密切的小網(wǎng)絡(luò)。單條信息的擴(kuò)散過程會(huì)呈現(xiàn)多種形態(tài)，但是當(dāng)擴(kuò)散源一定時(shí)，其擴(kuò)散總體影響會(huì)有一定的規(guī)律，比如總體來看符合指數(shù)分布，總體的影響規(guī)?；鞠嗤取?/p>

4.2 面向事件的數(shù)值擴(kuò)散方程

本節(jié)根據(jù)模型II對(duì)信息的擴(kuò)散進(jìn)行模擬，主要從用戶網(wǎng)絡(luò)規(guī)模、消息質(zhì)量和用戶連接程度這三個(gè)方面進(jìn)行分析，以便從宏觀角度得出信息在本身質(zhì)量和受眾群體不同時(shí)擴(kuò)散的情況。

圖6展示了用戶連接強(qiáng)度對(duì)信息擴(kuò)散的影響，其中x軸表示時(shí)間，y軸表示當(dāng)前時(shí)刻下消息擴(kuò)散的數(shù)目。從圖中可以發(fā)現(xiàn)，連接強(qiáng)度越大，傳播的最大速度越大，峰值出現(xiàn)的時(shí)間越早。即在用戶關(guān)聯(lián)越緊密的網(wǎng)絡(luò)中，信息的擴(kuò)散會(huì)更迅猛，也需要更及時(shí)地對(duì)信息擴(kuò)散進(jìn)行干預(yù)。

圖6 信息在不同用戶連接強(qiáng)度下的擴(kuò)散情況

在用戶活躍程度和連接程度相同的情況下，信息在不同的信息質(zhì)量和用戶規(guī)模下，也會(huì)體現(xiàn)出不同的特性，實(shí)驗(yàn)結(jié)果如圖7所示。

圖7中x軸表示時(shí)間，y軸表示當(dāng)前時(shí)刻下消息擴(kuò)散的數(shù)目。整體來看，在擴(kuò)散之初，受到初始用戶規(guī)模的限制，擴(kuò)散量會(huì)以較緩慢的速度逐漸增長，對(duì)應(yīng)于信息擴(kuò)散的潛伏期和成長期；當(dāng)積累了一定量數(shù)目的用戶后，擴(kuò)散量會(huì)爆炸式增長，所達(dá)用戶數(shù)目迅速增加，對(duì)應(yīng)于信息擴(kuò)散的爆發(fā)期；之后由于事件影響力的衰減和未達(dá)用戶數(shù)量的減少，擴(kuò)散數(shù)量會(huì)迅速減弱，對(duì)應(yīng)于衰退期。在傳播過程中，消息擴(kuò)散呈現(xiàn)出單峰、雙峰、多峰等不同的形態(tài)；波峰的強(qiáng)度差異性很大，但是波峰出現(xiàn)的時(shí)刻基本與用戶的活躍程度一致。

圖7 當(dāng)用戶連接程度、用戶活躍度等因素相同時(shí)，不同信息質(zhì)量和網(wǎng)絡(luò)規(guī)模下信息的擴(kuò)散速度對(duì)比

對(duì)比圖7中的每一列可以發(fā)現(xiàn)，信息質(zhì)量一定時(shí)，用戶數(shù)量越大，信息越容易獲得較大的傳播速度，峰值出現(xiàn)的時(shí)刻越早。這一發(fā)現(xiàn)說明，具備相同質(zhì)量的信息在小規(guī)模用戶網(wǎng)絡(luò)中擴(kuò)散會(huì)比較平緩；但用戶數(shù)量達(dá)到一定規(guī)模后，信息則容易在短時(shí)間內(nèi)爆發(fā)。因此大規(guī)模用戶網(wǎng)絡(luò)理應(yīng)成為輿情干預(yù)的重要監(jiān)控對(duì)象，并需在短時(shí)間內(nèi)及時(shí)干預(yù)。

對(duì)比每一行則可以發(fā)現(xiàn)，當(dāng)用戶數(shù)量一定時(shí)，信息質(zhì)量會(huì)對(duì)信息擴(kuò)散特征產(chǎn)生較大影響。圖(a)中，信息在初期的傳播的速度隨著消息質(zhì)量β的增大而增大，傳播越來越集中在前面一段時(shí)間內(nèi)。圖(b)中，信息在第一個(gè)傳播周期內(nèi)都會(huì)爆發(fā)，隨著信息質(zhì)量β的增大，信息擴(kuò)散到所有用戶的時(shí)間進(jìn)一步縮短。當(dāng)β小于0.1時(shí)，信息在第2個(gè)和第3個(gè)傳播周期內(nèi)依然有較明顯的擴(kuò)散，但當(dāng)β超過0.1時(shí)，信息基本在第一個(gè)周期內(nèi)擴(kuò)散完成。圖(c)中，較大的用戶數(shù)目使得信息在傳播初期就有較多的用戶傳播，并形成“羊群效應(yīng)”，因此整體都只有一個(gè)較明顯的波峰；隨著消息質(zhì)量β的增大，消息爆發(fā)的時(shí)刻也會(huì)提前。

以上的試驗(yàn)說明，用戶的關(guān)聯(lián)強(qiáng)度、用戶規(guī)模和消息質(zhì)量對(duì)于信息的擴(kuò)散速度和爆發(fā)時(shí)間有很大影響，對(duì)輿論進(jìn)行監(jiān)控時(shí)，對(duì)于大規(guī)模用戶網(wǎng)絡(luò)或聯(lián)系緊密的用戶網(wǎng)絡(luò)需要進(jìn)行重點(diǎn)監(jiān)控。對(duì)于信息質(zhì)量很高的輿情，更需要在信息爆發(fā)前做出反應(yīng)，控制或者引導(dǎo)輿論。

5 結(jié)語

針對(duì)自媒體時(shí)代下社會(huì)網(wǎng)絡(luò)中信息的擴(kuò)散，本文從微觀和宏觀兩個(gè)角度對(duì)信息擴(kuò)散的過程和特點(diǎn)進(jìn)行刻畫。微觀部分主要結(jié)合用戶個(gè)體之間的影響設(shè)計(jì)了基于離散時(shí)刻的擴(kuò)散機(jī)制，并利用蒙特卡洛方法多次模擬，實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)了一些重要的影響因素和其它規(guī)律。宏觀部分則在考慮用戶活躍特性、外部平臺(tái)的影響、信息本身和受眾特征的基礎(chǔ)上對(duì)信息擴(kuò)散過程進(jìn)行數(shù)量建模，并主要針對(duì)信息質(zhì)量、用戶規(guī)模和用戶連接程度這三個(gè)因素進(jìn)行對(duì)比分析。微觀模型可以更細(xì)致描述出特定用戶網(wǎng)絡(luò)中的信息擴(kuò)散，而宏觀模型則能豐富信息擴(kuò)散的場景，展現(xiàn)出更多的傳播特性。兩個(gè)模型之間的結(jié)論相互補(bǔ)充，為社會(huì)網(wǎng)絡(luò)中的輿情監(jiān)控提供幫助。

本文發(fā)現(xiàn)，在信息擴(kuò)散過程中，信息擴(kuò)散量都會(huì)有一個(gè)劇烈增長的過程，隨后會(huì)迅速衰減。在信息爆發(fā)前進(jìn)行管理才可以有效控制輿情造成的影響。用戶規(guī)模越大、關(guān)聯(lián)越緊密以及信息質(zhì)量越高時(shí)，爆發(fā)所需的時(shí)間越短。當(dāng)用戶數(shù)量超過1萬時(shí)，信息會(huì)在 10小時(shí)中完成大部分的擴(kuò)散，因此10小時(shí)是輿情控制的有效時(shí)間。當(dāng)網(wǎng)絡(luò)組成成分較為清晰時(shí)，可以對(duì)網(wǎng)絡(luò)的特征進(jìn)行分析，重點(diǎn)監(jiān)控強(qiáng)節(jié)點(diǎn)及其關(guān)系密切的節(jié)點(diǎn)以及關(guān)聯(lián)密度很大的小網(wǎng)絡(luò)，從而對(duì)信息的擴(kuò)散進(jìn)行更為有效的控制。同時(shí)，信息在擴(kuò)散過程中會(huì)呈現(xiàn)出不同的形態(tài)，在波峰個(gè)數(shù)、波峰強(qiáng)度和波峰出現(xiàn)時(shí)間上各不相同，在監(jiān)控過程中要對(duì)不同階段進(jìn)行分析，針對(duì)性引導(dǎo)。

我們會(huì)在未來的研究中加強(qiáng)對(duì)信息質(zhì)量的分析，并在定量分析關(guān)鍵因素影響的基礎(chǔ)上，研究出預(yù)判方法以便提前預(yù)警并加以管控。

[1] Kempe D, Kleinberg J, Tardos E. Maximizing the spread of influence through a social network[C] // Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining,Washington D C,August,24-27,2003.

[2] Saito K, Kimura M, Ohara K, et al. Learning continuous-time information diffusion model for social behavioral data analysis[M] // Advances in Machine Learning. Springer Berlin Heidelberg, 2009: 322-337.

[3] Saito K, Kimura M, Ohara K, et al. Selecting information diffusion models over social networks for behavioral analysis[M] //Zhou Zhihua,Washio T.Machine learning and knowledge discovery in databases. Berlin-Heidelberg:Springer,2010:180-195.

[4] 萬圣賢, 郭嘉豐, 蘭艷艷, 等. 基于傳播模擬的消息流行度預(yù)測[J]. 中文信息學(xué)報(bào), 2014,28(3):68-74.

[5] Chen Wei, Wang Yajun, & Yang Siyu. Efficient influence maximization in social networks[C]//proceedings of the 15th ACM SIGKDD International Conference on Knowledge discovery and Data Mining，Paris，F(xiàn)rance，June 28-July 1，2009.

[6] 朱湘, 賈焰, 聶原平. 基于微博的事件擴(kuò)散分析[J]. 計(jì)算機(jī)研究與發(fā)展, 2015, 52(2):437-444.

[7] Saito K, Nakano R, Kimura M. Prediction of information diffusion probabilities for independent cascade model[M]//Lovrek I, Howlett R J，Jian L C.Knowledge-based intelligent information and engineering systems. Berlin-Heidelberg:Springer, 2008:67-75.

[8] Goyal A, Bonchi F, Lakshmanan L V S. Learning influence probabilities in social networks[C] // Proceedings of the third ACM international conference on Web search and data mining,New York,us,February 04-06,2010.

[9] 郭靜, 曹亞男, 周川. 基于線性閾值模型的影響力擴(kuò)散權(quán)重學(xué)習(xí)[J]. 電子與信息學(xué)報(bào), 2014, 36(8): 1804-1809.

[10] Srivastava J,Pathak N, Banerjee A. A generalized linear threshold model for multiple cascades[C]//Proceedings of the 13th International Conference on Data Ming,December13-17,2010.

[11] He Xinran, Songuojie G, Chen Wei, et al. Influence blocking maximization in social networks under the competitive linear threshold model[J]//Compting Science,2011.

[12] Litou I, Kalogeraki V, Katakis I. Real-time and cost-effective limitation of misinformation propagation[C]//Proceedings of the 17th TEEE Internation Confernce on Mobile Data Management,Porto,Portugal,June 13-16,2016.

[13] 田家堂,王軼彤,馮小軍. 一種新型的社會(huì)網(wǎng)絡(luò)影響最大化算法[J]. 計(jì)算機(jī)學(xué)報(bào),2011,34(10):1956-1965.

[14] Yang J, Leskovec J. Patterns of temporal variation in online media[C] // Proceedings of the fourth ACM international conference on Web search and data mining,Hong kong,China,February 09-11,2011.

[15] 劉德海, 蘇燁, 王維國. 振蕩型群體性突發(fā)事件中信息特征的演化博弈分析[J].中國管理科學(xué)，2012，20(S1)：172-178.

[16] Boyd D, Golder S, Lotan G. Tweet, tweet, retweet: Conversational aspects of retweeting on twitter[C] // the 43rd Hawaii International Conference on System Sciences (HICSS)，Honolulu,HI,USA,January5-8,2010.

[17] 廖衛(wèi)民, 柯偉. 網(wǎng)絡(luò)輿論波研究——基于波浪力學(xué)及杭州兩起輿論事件的理論思考[J]. 新聞?dòng)浾? 2010,(4):12-16.

[18] 劉樑, 戴偉, 李仕明. 基于多Agent的非常規(guī)突發(fā)事件在線信息預(yù)警策略研究[J]. 中國管理科學(xué), 2014,22(S1):180-187.

[19] 王秀利, 朱建明. 社會(huì)輿論方向影響下的微博商業(yè)言論傳播模型[J]. 中國管理科學(xué), 2012,20(S2):691-695.

[20] 曹學(xué)艷, 張仙, 劉樑,等. 基于應(yīng)對(duì)等級(jí)的突發(fā)事件網(wǎng)絡(luò)輿情熱度分析[J]. 中國管理科學(xué), 2014, 22(3):82-89.

[21] Matsubara Y, Sakurai Y, Prakash B A, et al. Rise and fall patterns of information diffusion: model and implications[C] // Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining. Beijing,August 12-16,2012.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放