王 怡,梁 循,付虹蛟,徐志明
(中國人民大學(xué)信息學(xué)院,北京 100872)
隨著社會(huì)網(wǎng)絡(luò)的發(fā)展和普及,普通大眾主導(dǎo)網(wǎng)絡(luò)信息的擴(kuò)散活動(dòng),擴(kuò)散主體具有私人化、平民化、普泛化、自主化等特性。博客、微博、微信、論壇等網(wǎng)絡(luò)社區(qū)都是自媒體的表現(xiàn)平臺(tái),普通用戶在信息擴(kuò)散過程中既是接收者也是擴(kuò)散者,大大增加了信息擴(kuò)散的廣度和速度。社交網(wǎng)絡(luò)上的信息量十分巨大,雖然大部分信息會(huì)在短時(shí)間內(nèi)被其它信息覆蓋,但有一部分信息會(huì)有很長的生命周期,由于其自身所含的信息量和網(wǎng)絡(luò)中用戶的推動(dòng),會(huì)在短時(shí)間內(nèi)迅速擴(kuò)散到很大的范圍,帶來巨大的影響。這種網(wǎng)絡(luò)輿論由于其范圍之廣,速度之快,可能還伴隨著用戶的情緒波動(dòng)和觀點(diǎn)態(tài)度,應(yīng)該引起極大的重視。尤其是對(duì)于一些虛假信息或是極端觀點(diǎn)的擴(kuò)散,更加需要及時(shí)有效地加以控制,避免引起社會(huì)恐慌或是危害人們的財(cái)產(chǎn)。在線社交網(wǎng)絡(luò)中的信息擴(kuò)散問題也因此成為了網(wǎng)絡(luò)輿論監(jiān)控的研究熱點(diǎn)。對(duì)輿情的整體態(tài)勢分析有助于預(yù)估事件影響力,信息擴(kuò)散路徑中的關(guān)鍵環(huán)節(jié)也對(duì)控制輿論擴(kuò)散有重要參考價(jià)值。
從微觀角度對(duì)信息擴(kuò)散進(jìn)行分析時(shí),我們發(fā)現(xiàn)現(xiàn)有研究模型存在以下不足:首先,用戶是否在線是用戶獲取信息的前提,而已有的研究并沒有考慮用戶接收到信息的概率;其次,準(zhǔn)確評(píng)價(jià)用戶之間的影響力是信息擴(kuò)散過程的基礎(chǔ),現(xiàn)有文獻(xiàn)并沒有在利用模型進(jìn)行模擬之前分析節(jié)點(diǎn)對(duì)之間的影響值;另外,已有研究更多從級(jí)聯(lián)層次上來分析信息擴(kuò)散過程,所得結(jié)果對(duì)于時(shí)效性更強(qiáng)的社會(huì)網(wǎng)絡(luò)中信息的擴(kuò)散來說適應(yīng)度不高,實(shí)際指導(dǎo)意義不大。針對(duì)現(xiàn)有研究的不足,本文在獨(dú)立級(jí)聯(lián)模型的基礎(chǔ)上,補(bǔ)充了節(jié)點(diǎn)的在線狀態(tài),將信息的獨(dú)立級(jí)聯(lián)模型擴(kuò)展為基于離散時(shí)間的雙概率獨(dú)立級(jí)聯(lián)擴(kuò)散模型;同時(shí)本文改進(jìn)了現(xiàn)有的有關(guān)求解網(wǎng)絡(luò)中邊的權(quán)重的最大期望算法,利用實(shí)際數(shù)據(jù)分析節(jié)點(diǎn)之間的擴(kuò)散概率,并將所得結(jié)果代入所建模型。針對(duì)特定的突發(fā)型社會(huì)事件的信息擴(kuò)散,本文對(duì)實(shí)際數(shù)據(jù)集中節(jié)點(diǎn)之間的影響概率進(jìn)行分析,以所得結(jié)果為基礎(chǔ)進(jìn)行實(shí)驗(yàn)。為彌補(bǔ)微觀模型在網(wǎng)絡(luò)結(jié)構(gòu)和信息質(zhì)量上表述的不足,本文進(jìn)一步從宏觀角度對(duì)信息擴(kuò)散過程進(jìn)行分析,并對(duì)其動(dòng)態(tài)變化定量建模。結(jié)合微觀模擬和現(xiàn)有研究,本文提取重要的影響因素,并以此為基礎(chǔ)構(gòu)建信息擴(kuò)散方程,從宏觀角度對(duì)網(wǎng)絡(luò)輿情擴(kuò)散的過程進(jìn)行模擬和分析。
本文第2節(jié)根據(jù)不同的研究目的對(duì)現(xiàn)有的研究進(jìn)行了闡述。第3節(jié)分別從微觀和宏觀角度對(duì)信息擴(kuò)散的過程進(jìn)行分析和模型刻畫。第4節(jié)則根據(jù)本文所提模型進(jìn)行實(shí)驗(yàn)?zāi)M,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。第5節(jié)對(duì)本文的工作進(jìn)行總結(jié)。
獨(dú)立級(jí)聯(lián)(Independent Cascade, IC)模型和線性閾值(Linear Threshold, LT)模型[1]是最為經(jīng)典的兩個(gè)用來描述社交網(wǎng)絡(luò)中影響力擴(kuò)散的模型,分別從概率和閾值的角度對(duì)信息擴(kuò)散機(jī)制進(jìn)行刻畫,自提出后被廣泛應(yīng)用并擴(kuò)展。獨(dú)立級(jí)聯(lián)模型源于市場影響模型研究,在此模型中,網(wǎng)絡(luò)中的節(jié)點(diǎn)有激活和未激活兩種狀態(tài),且節(jié)點(diǎn)只存在由未激活狀態(tài)轉(zhuǎn)化為激活狀態(tài)這一種變化形式。在第t步擴(kuò)散時(shí),某一節(jié)點(diǎn)v的鄰居節(jié)點(diǎn)u處于激活狀態(tài),此時(shí)u有使處在未激活狀態(tài)的節(jié)點(diǎn)v變成活躍狀態(tài)的可能,且成功的概率是pu,v;若節(jié)點(diǎn)v有多個(gè)被激活的鄰居節(jié)點(diǎn),則鄰居們對(duì)節(jié)點(diǎn)v的影響順序是任意的。獨(dú)立級(jí)聯(lián)模型能夠較好地反應(yīng)網(wǎng)絡(luò)中的影響力擴(kuò)散過程,適用性較強(qiáng),后續(xù)對(duì)于該模型也有更為深入的研究。Sauti等[2]則首次提出了異步級(jí)聯(lián)(Asynchronous Independent Cascadel, AsIC)模型,強(qiáng)調(diào)時(shí)間對(duì)于信息擴(kuò)散的影響,并設(shè)計(jì)了迭代更新參數(shù)的算法,使結(jié)果更合理。Saito等[3]對(duì)IC模型、LT模型和AsIC模型對(duì)于不同主題的信息的適用性進(jìn)行了分析,用實(shí)際擴(kuò)散數(shù)據(jù)進(jìn)行驗(yàn)證,發(fā)現(xiàn)大部分信息擴(kuò)散符合AsIC模型。萬圣賢等[4]還采用最大熵的方法對(duì)IC模型中涉及的閾值進(jìn)行了定義和分析,發(fā)現(xiàn)與Logistic Regression模型相比,此方法具有更好的穩(wěn)定性。Chen Wei等[5]則提出了加權(quán)級(jí)聯(lián)(Weighted Cascade)模型,其中節(jié)點(diǎn)成功激活后繼節(jié)點(diǎn)的概率是后繼節(jié)點(diǎn)的入度的倒數(shù),其它規(guī)則與IC模型一致。朱湘等[6]則在已有模型的基礎(chǔ)上,提出了一種結(jié)合用戶去重、垃圾用戶濾除和概率閱讀的擴(kuò)散模型。
以往的研究表明,獨(dú)立級(jí)聯(lián)模型能夠很好地匹配在線社交網(wǎng)絡(luò)的結(jié)構(gòu)特性;但由于社交網(wǎng)絡(luò)的自身特性,傳統(tǒng)的模型在時(shí)間和概率上存在明顯的不足。首先,在線社交網(wǎng)絡(luò)中的用戶會(huì)以一定的概率停留在線上并接收網(wǎng)絡(luò)中的信息,即用戶是否在線是用戶能否閱讀到已有信息的前提,傳統(tǒng)的IC模型沒有考慮節(jié)點(diǎn)的狀態(tài)是否有效。其次,信息在網(wǎng)絡(luò)中的擴(kuò)散速度很快,時(shí)效性是輿論監(jiān)控中的關(guān)鍵要素之一。既有的信息擴(kuò)散模型更多地從擴(kuò)散層級(jí)出發(fā),考慮的是每一步的擴(kuò)散結(jié)果,無法體現(xiàn)時(shí)間的特性。網(wǎng)絡(luò)中不同的信息在自身屬性上差異很大,包括信息的內(nèi)容、信息的展現(xiàn)形式和信息本身所含的信息量等方面,將不同主題的信息一概而論是粗糙且不合理的。
以上的模型都需要有一個(gè)先驗(yàn)知識(shí),即節(jié)點(diǎn)之間的擴(kuò)散概率,在網(wǎng)絡(luò)中也稱為邊的權(quán)重,一般研究擴(kuò)散模型的文章中,都將這一知識(shí)看作是已知的,僅部分學(xué)者就這一關(guān)鍵問題進(jìn)行了獨(dú)立研究。Saito等[6]第一次系統(tǒng)提出了如何求解擴(kuò)散概率的問題并給出了解答,他們的研究基于獨(dú)立級(jí)聯(lián)模型,對(duì)擴(kuò)散過程的概率進(jìn)行分析,在求解似然函數(shù)最大值的時(shí)候采用的是最大期望(Expectation Maximum, EM)算法。Goyal等[8]則分別從靜態(tài)和動(dòng)態(tài)的角度分析了擴(kuò)散概率,并為這兩種擴(kuò)散模式中的概率獲取設(shè)計(jì)了相應(yīng)的算法。他們的研究從大量的日志數(shù)據(jù)入手,優(yōu)化算法的掃描次數(shù),使得所需參數(shù)能夠在兩遍以內(nèi)的掃描中求得,而且能夠預(yù)測用戶會(huì)在什么時(shí)刻進(jìn)行轉(zhuǎn)發(fā)。這一算法適用于大規(guī)模的網(wǎng)絡(luò),在性能和時(shí)間上都有所提高。郭靜等[9]在線性閾值模型的框架下,以社交網(wǎng)絡(luò)中用戶的歷史行為日志為基礎(chǔ),利用最大似然估計(jì)的思想對(duì)用戶間的影響力進(jìn)行學(xué)習(xí),同樣能夠?qū)W(wǎng)絡(luò)中邊的權(quán)重進(jìn)行求解。
線性閾值模型則源于節(jié)點(diǎn)的特異性研究,它與獨(dú)立級(jí)聯(lián)模型的不同之處在于,當(dāng)一個(gè)激活節(jié)點(diǎn)u嘗試去激活它的處于未激活狀態(tài)的鄰居節(jié)點(diǎn)v時(shí),其影響力pu,v不會(huì)失效,而是積累下來。此模型也被廣泛改進(jìn)和應(yīng)用,典型的包括從多層級(jí)級(jí)聯(lián)擴(kuò)散[10]、競爭性[11]、動(dòng)態(tài)性[12]、網(wǎng)絡(luò)結(jié)構(gòu)[13]等方面對(duì)其進(jìn)行擴(kuò)展。除此以外,傳染病模型從另一角度對(duì)信息擴(kuò)散進(jìn)行描述,經(jīng)典的傳染病模型將人的狀態(tài)分為易感S(susceptible)、感染I(infected)、治愈R(recovered)三種狀態(tài),根據(jù)狀態(tài)轉(zhuǎn)換定義出SIR模型,后續(xù)還調(diào)整出SIS、SIRS模型等,是擴(kuò)散動(dòng)力學(xué)的主要分支之一。其它的模型包括連續(xù)時(shí)間模型、博弈論模型和多實(shí)體擴(kuò)散模型等。
在對(duì)信息擴(kuò)散過程從宏觀角度進(jìn)行研究時(shí),部分文獻(xiàn)從統(tǒng)計(jì)結(jié)果出發(fā),通過對(duì)實(shí)際數(shù)據(jù)集的分析,得出信息隨時(shí)間擴(kuò)散的特性,或是用數(shù)值方程進(jìn)行擬合。也有一些動(dòng)態(tài)方程模型,在假設(shè)信息擴(kuò)散過程的基礎(chǔ)上,用函數(shù)進(jìn)行刻畫,都取得了較大的認(rèn)可。此外,Yang等[14]則沒有關(guān)注網(wǎng)絡(luò)結(jié)構(gòu)或者預(yù)測哪些節(jié)點(diǎn)會(huì)被影響,而是從宏觀上構(gòu)建了一個(gè)線性影響(Linear Influence)模型,通過最小方差法來得到參數(shù)的值,取得了較好的數(shù)值模擬結(jié)果。劉德海[15]等綜合考慮群體性突發(fā)實(shí)踐中不同利益方同時(shí)存在信息過剩、信息匱乏和虛假信息等多樣化的信息特征,建立信息傳播的演化博弈模型,分析信息特征對(duì)震蕩型群體性突發(fā)事件的演化影響。Boyd等[16]以Twitter為研究對(duì)象,對(duì)用戶Retweet(類似于國內(nèi)微博的“轉(zhuǎn)發(fā)”)的方式、動(dòng)機(jī)以及信息的內(nèi)容主題傾向進(jìn)行了分析。廖為民等[17]則從具體的事件出發(fā),通過對(duì)整個(gè)事件過程中信息的擴(kuò)散數(shù)據(jù)進(jìn)行整理和分析,定量和定性相結(jié)合,準(zhǔn)確而形象地對(duì)事件的發(fā)展過程進(jìn)行了刻畫。劉樑[18]等考慮政府、網(wǎng)民、媒體和非常規(guī)突發(fā)事件等agent,建立行為特征模型、因果關(guān)聯(lián)圖等,并通過防火怎計(jì)算提出在線信息的預(yù)警策略。王秀利[19]等利用無標(biāo)度網(wǎng)絡(luò)模型具有的增長、擇優(yōu)連接特性,加入社會(huì)輿論因素,提出微博平臺(tái)下的商業(yè)輿論傳播模型。這些研究主要研究的是最終的擴(kuò)散效果,但是對(duì)于時(shí)間方面的特性則沒有考慮。曹學(xué)艷[20]等把突發(fā)事件應(yīng)對(duì)等級(jí)引入網(wǎng)絡(luò)輿情熱度指標(biāo)中,進(jìn)一步豐富和完善了輿情熱度指標(biāo)。
本文在認(rèn)識(shí)信息擴(kuò)散的微觀機(jī)理的基礎(chǔ)上,對(duì)整個(gè)事件的擴(kuò)散進(jìn)行梳理,并建立對(duì)應(yīng)的方程,以方程的形態(tài)特征來描述事件擴(kuò)散的特點(diǎn)。
在本節(jié),我們?yōu)樯鐣?huì)網(wǎng)絡(luò)中的信息擴(kuò)散建立相關(guān)的模型以描述其擴(kuò)散機(jī)理,并參考已有資料對(duì)信息擴(kuò)散過程建立數(shù)值化模型。模型涉及到的變量及其含義如表1所示。
這一部分構(gòu)建了雙概率獨(dú)立級(jí)聯(lián)擴(kuò)散模型,從微觀角度刻畫社會(huì)網(wǎng)絡(luò)中信息隨時(shí)間變化的擴(kuò)散過程。
表1 方程組中變量及其含義
將社會(huì)網(wǎng)絡(luò)中的用戶看成是圖中的節(jié)點(diǎn),用戶之間的關(guān)注關(guān)系看成圖中的邊。本文中節(jié)點(diǎn)和用戶代表的是同一實(shí)體,可以相互替換。對(duì)于一個(gè)有向網(wǎng)絡(luò)G= (V,E), 其中V代表節(jié)點(diǎn)的集合;?v,w∈V,v≠w,e= (v,w)表示存在從節(jié)點(diǎn)w指向節(jié)點(diǎn)v的邊,信息可沿著邊e從v傳向w;網(wǎng)絡(luò)中所有的邊構(gòu)成集合E。對(duì)于G中的每個(gè)節(jié)點(diǎn)v,其子節(jié)點(diǎn)的集合用F(v) = {w: (v,w)∈E}表示,而它的父節(jié)點(diǎn)集合則用B(v) = {u: (u,v)∈E}表示。每個(gè)節(jié)點(diǎn)的狀態(tài)從兩個(gè)維度來考慮:一方面,根據(jù)是否轉(zhuǎn)發(fā)特定的信息可以分為激活(Active)和未激活(Inactive)狀態(tài)。即對(duì)于一條特定信息,若用戶已經(jīng)轉(zhuǎn)發(fā),則屬于激活狀態(tài);反之,所用戶沒有轉(zhuǎn)發(fā),則處于未激活狀態(tài)。另一方面,根據(jù)用戶是否在線可以分為在線(Online)和離線(Offline)兩種狀態(tài),且用戶v在時(shí)間段[ti,ti+1)(i=1, 2, 3, …)內(nèi)在線的概率為kv。用戶處于離線狀態(tài)時(shí)無法獲取信息,也就不可能出現(xiàn)激活的過程。用戶在線時(shí)則意味著用戶能夠獲取相關(guān)新信息,并有可能被激活。用戶一旦處于激活狀態(tài),則無需再考慮用戶的在線狀態(tài)。對(duì)于圖G中的每一條有向邊e= (v,w),我們用實(shí)數(shù)pv,w來表示e的權(quán)重,其中0 圖1為信息在給定節(jié)點(diǎn)網(wǎng)絡(luò)中的擴(kuò)散示意圖,其中橙色表示節(jié)點(diǎn)處于激活狀態(tài),綠色表示節(jié)點(diǎn)尚未被激活且處于在線狀態(tài),灰色表示節(jié)點(diǎn)未被激活且處于離線狀態(tài)。信息在時(shí)間段[ti,ti+1)內(nèi)的級(jí)聯(lián)層次并不固定,在圖中用sij來表示[ti,ti+1)內(nèi)的第j層傳播,比如圖1中,[t1,t2)內(nèi)擴(kuò)散了2層,[t2,t3)內(nèi)擴(kuò)散了3層。每層激活過程中,活躍節(jié)點(diǎn)的子節(jié)點(diǎn)中處于在線狀態(tài)的節(jié)點(diǎn)組成待激活節(jié)點(diǎn)集合,接著活躍節(jié)點(diǎn)會(huì)嘗試影響待激活節(jié)點(diǎn)。例如圖中初始時(shí)刻t1只有一個(gè)初始活躍節(jié)點(diǎn),在[t1,t2)的s11階段,它的子節(jié)點(diǎn)中處于在線狀態(tài)的兩個(gè)節(jié)點(diǎn)形成了待激活節(jié)點(diǎn)集合,進(jìn)而它嘗試激活這兩個(gè)節(jié)點(diǎn),最終成功和失敗各一個(gè),此激活結(jié)果作為s12的初始狀態(tài)。在s12階段,活躍節(jié)點(diǎn)的子節(jié)點(diǎn)中滿足在線狀態(tài)的有兩個(gè),但其中一個(gè)曾經(jīng)激活失敗且并無新的活躍父節(jié)點(diǎn),所以不能加入待激活節(jié)點(diǎn)集合。唯一符合要求的節(jié)點(diǎn)也最終激活失敗,因此進(jìn)入[t2,t3)時(shí)依然只有兩個(gè)活躍節(jié)點(diǎn)。該時(shí)間段會(huì)重復(fù)第一個(gè)時(shí)間段內(nèi)的過程。由于觀測時(shí)刻只到t2,圖示中的信息擴(kuò)散過程結(jié)束。 圖1 信息的級(jí)聯(lián)擴(kuò)散隨時(shí)間變化的過程示意圖 圖1中某一時(shí)間段內(nèi)的信息擴(kuò)散過程可以由圖2表示。信息在每個(gè)時(shí)間段[ti,ti+1) 中可能會(huì)擴(kuò)散多層,設(shè)為step(i) (i=1, 2, 3, …)。用sij表示信息在[ti,ti+1)內(nèi)的第j層傳播,集合C(ti,sij)表示時(shí)間段[ti,ti+1)的第sij層級(jí)聯(lián)中,所有處于活躍狀態(tài)的節(jié)點(diǎn)集合。 圖2 節(jié)點(diǎn)網(wǎng)絡(luò)中信息擴(kuò)散的過程示意圖 給定初始的活躍節(jié)點(diǎn)集合C(t1,s11),在時(shí)間段[ti,ti+1]中第sij層,任意v(C(ti,sij)有機(jī)會(huì)來激活它的子節(jié)點(diǎn)集合中處于不活躍狀態(tài)的節(jié)點(diǎn)。對(duì)于w∈F(v), 當(dāng)w處于不活躍狀態(tài)且在線時(shí),若之前v沒有嘗試激活過w,則本輪可以進(jìn)行激活,且激活成功的概率為pv,w。如果v成功了,則w在下一次擴(kuò)散時(shí)處于活躍狀態(tài),即: (1) 若v沒有激活成功,則之后無法再次激活。也就是說,v最多只有一次機(jī)會(huì)來激活w。對(duì)于處于未激活狀態(tài)的節(jié)點(diǎn)w來說,若在這一時(shí)間段內(nèi)處于在線狀態(tài),且最近一次處于在線狀態(tài)的時(shí)間為t’,而在(t’,ti)中有多個(gè)父節(jié)點(diǎn)新被激活,則將這些節(jié)點(diǎn)隨機(jī)排序,依次判斷是否能夠激活w,一旦被激活則停止判斷。 當(dāng)沒有新的節(jié)點(diǎn)存在被激活的可能性,或是時(shí)間已經(jīng)超過我們?cè)O(shè)定的考慮范圍,則信息的級(jí)聯(lián)擴(kuò)散過程停止。 以上模型總結(jié)如下: 模型I. (1)給定一個(gè)初始活躍節(jié)點(diǎn)集合C(t1,s11),其中C(ti,sij)表示時(shí)間段[ti,ti+1)內(nèi)第j層的活躍節(jié)點(diǎn)集合,且i= 1, 2, 3….。 (2)在每個(gè)時(shí)間段[ti,ti+1)中,信息會(huì)發(fā)生step(i)級(jí)擴(kuò)散。 (3)對(duì)于每一級(jí)的擴(kuò)散,當(dāng)結(jié)點(diǎn)v處于激活狀態(tài)時(shí),它的每個(gè)非激活狀態(tài)且在線的鄰接點(diǎn)w都有可能變成激活狀態(tài)。若w有多個(gè)新的激活鄰接點(diǎn),影響順序可以是任意的。如果w被激活,則它會(huì)加入活躍節(jié)點(diǎn)集合,具體方式如公式(1)。 (4)一旦v嘗試激活過w,就不能再次激活。 (5)當(dāng)超過有效追蹤時(shí)間,或是不在產(chǎn)生新的激活點(diǎn),該過程結(jié)束。 模型I能夠較好地描述社會(huì)網(wǎng)絡(luò)中信息在用戶群體間的擴(kuò)散過程,且可以體現(xiàn)出信息的擴(kuò)散隨時(shí)間變化的數(shù)量變化。 模型I從微觀角度對(duì)信息的擴(kuò)散過程進(jìn)行了刻畫和分析。但事情發(fā)生后,其擴(kuò)散過程還會(huì)受傳播平臺(tái)、用戶網(wǎng)絡(luò)、時(shí)間、前期傳播等諸多不確定性因素的影響,需要從宏觀的角度對(duì)其進(jìn)行分析。我們?cè)谀P虸I中梳理了信息擴(kuò)散過程中主要因素的反饋和發(fā)展機(jī)制,并定量化分析網(wǎng)絡(luò)中事件信息的擴(kuò)散情況。 假設(shè)網(wǎng)絡(luò)中有N個(gè)節(jié)點(diǎn),且對(duì)于相關(guān)的話題沒有明顯的傾向性。在時(shí)刻nb發(fā)生了一件突發(fā)事件,此時(shí)有Sb個(gè)用戶及時(shí)地對(duì)其進(jìn)行了擴(kuò)散。我們將這一外部的突發(fā)事件看成是一個(gè)信息刺激。用(來表示事件本身的影響力即信息的質(zhì)量,包括它的內(nèi)容、來源、爭議性、信息量等本身的性質(zhì),這一特征會(huì)對(duì)信息的擴(kuò)散速度、廣度和深度產(chǎn)生重要的影響。若(為0,則沒有人會(huì)對(duì)這一刺激產(chǎn)生興趣,也不會(huì)有人對(duì)其進(jìn)行發(fā)布或轉(zhuǎn)發(fā)、評(píng)論等。但(越大,則會(huì)有更多用戶參與到輿情的擴(kuò)散中來。根據(jù)已有的研究,信息的影響力會(huì)隨著時(shí)間的變化而衰減,并服從冪律(power law)衰減的規(guī)律。本文用函數(shù)f(n)表示信息的影響力隨擴(kuò)散階段n的衰減過程。對(duì)事件擴(kuò)散的模型描述如下: 模型II. (1)某一事件發(fā)生后,一批初始結(jié)點(diǎn)會(huì)迅速擴(kuò)散相關(guān)消息,進(jìn)而影響到網(wǎng)絡(luò)中大量的未被激活結(jié)點(diǎn)。 (2)在時(shí)間段[ti-1,ti),i= 1, 2, 3…,活躍結(jié)點(diǎn)以一定的概率影響非活躍結(jié)點(diǎn)。此概率同時(shí)與信息質(zhì)量和結(jié)點(diǎn)的活躍程度有關(guān)。 (3)其它平臺(tái)會(huì)對(duì)信息的擴(kuò)散產(chǎn)生外部刺激,且該刺激與上一時(shí)刻信息的擴(kuò)散量正相關(guān)。 (4)擴(kuò)散過程中會(huì)因?yàn)椴豢煽氐碾S機(jī)因素而產(chǎn)生不可避免的噪聲。 (5)超過有效追蹤時(shí)間時(shí),信息擴(kuò)散結(jié)束。 模型II假設(shè):(1)每一個(gè)用戶只會(huì)在相關(guān)事件的擴(kuò)散中參與一次。(2)假設(shè)信息的刺激源頭是單一的,即在事情的擴(kuò)散過程中,沒有相關(guān)的事件發(fā)生對(duì)信息的擴(kuò)散產(chǎn)生二次影響。 假設(shè)節(jié)點(diǎn)有兩種狀態(tài):U(un-informed of the rumor)代表未被感染狀態(tài),I(informed of the rumor)代表已被感染狀態(tài)。用△B(n)表示在時(shí)刻n被感染的用戶數(shù),并且一旦被感染,則會(huì)立即改變狀態(tài)。用U(n)表示在時(shí)刻n未被感染的用戶數(shù)目,則: (2) U(n+1)=U(n)-ΔB(n+1) (3) 其中,f(τ)=βτ-1.5,且△B(0) = 0,U(0) =N。ρ為用戶關(guān)聯(lián)的緊密程度,用來刻畫用戶關(guān)注網(wǎng)絡(luò)中用戶的連接概率。由于現(xiàn)在信息的多元化,不同平臺(tái)上的信息之間彼此會(huì)存在影響,因此,我們會(huì)增加一個(gè)外部的刺激S(n),代表時(shí)刻n產(chǎn)生的影響。數(shù)值上可以表示為: (4) 在上述模型中, a)△B(t) +S(t)這一項(xiàng)代表了在時(shí)刻t新增的受影響用戶數(shù)目和外部來源的影響;他們的感染率可以用函數(shù)f來表述,而且我們認(rèn)為影響因子隨著時(shí)間呈現(xiàn)冪率降低。從初始時(shí)刻nb開始后的所有項(xiàng)進(jìn)行累積就可以得到所有的影響力。 b)影響因子函數(shù)f完全符合冪函數(shù)形式,且從以往基于真實(shí)數(shù)據(jù)集的研究得知,其常數(shù)為-1.5。 c)外部影響函數(shù)S是自適應(yīng)的項(xiàng),在初始時(shí)刻,即n=nb時(shí),外部影響就是初始感染的用戶集數(shù)目。但在以后的時(shí)刻中,我們假設(shè)外部影響會(huì)與信息的擴(kuò)散情況相關(guān),存在一定的滯后性。即在上一個(gè)時(shí)間段中,若信息的擴(kuò)散量很大,則說明信息的擴(kuò)散能力很強(qiáng),更容易受到外部平臺(tái)中的影響。相反,若擴(kuò)散量較小,外部的影響也會(huì)降低。為避免信息擴(kuò)散數(shù)量的絕對(duì)值影響,本文先對(duì)其取對(duì)數(shù),并加上常數(shù)a對(duì)其進(jìn)行調(diào)節(jié)。同時(shí)為避免信息沒有擴(kuò)散△B(t-1)=0而可能出現(xiàn)的錯(cuò)誤,我們給其加上常數(shù)1。 d)將從初始時(shí)刻開始到時(shí)刻n的所有新增項(xiàng)進(jìn)行加和,得到的是所有的刺激因素;而有效的激活目標(biāo)是尚未被感染的用戶U(n),它們的乘積與當(dāng)前的信息影響力f(n+ 1 -t)相乘時(shí)時(shí)可以得到新的感染用戶數(shù)目。 e)用隨機(jī)項(xiàng)ε來對(duì)一些特殊情況進(jìn)行建模,比如信息加上了一些話題時(shí),就會(huì)產(chǎn)生一定的影響。一般情況下,0<ε< 1。 同時(shí),信息的擴(kuò)散與用戶的行為息息相關(guān),考慮到用戶的生活周期性,我們將周期性這一特性也加入到信息擴(kuò)散的數(shù)值方程中,則: (5) (6) 其中,A(n)是周期性調(diào)節(jié)因子,代表用戶在網(wǎng)絡(luò)中的活躍程度;A為振幅,表示用戶活躍程度的變化程度;T為周期,本文以小時(shí)為單位進(jìn)行分析,所以T為24。根據(jù)用戶的日?;顒?dòng),在白天的時(shí)候,會(huì)存在一個(gè)峰值,而到了晚上,則會(huì)降低對(duì)事件的關(guān)注度。As是相位調(diào)節(jié)因子,由事件發(fā)生的初始時(shí)刻與用戶活躍極大值的時(shí)刻共同決定,若事件發(fā)生在上午8點(diǎn),而用戶最活躍的時(shí)間為中午12點(diǎn),則As= 2。 在這一部分,我們對(duì)上文中的模型進(jìn)行實(shí)驗(yàn)?zāi)M,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。 (1) 用戶之間擴(kuò)散概率的分析 這一部分根據(jù)模型I所述的擴(kuò)散機(jī)制,從擴(kuò)散概率的角度出發(fā),對(duì)信息擴(kuò)散的結(jié)果進(jìn)行概率推導(dǎo),進(jìn)而分析得到節(jié)點(diǎn)對(duì)v,w之間權(quán)重pv,w的求解方法。為使分析過程更為清晰,我們只考慮到時(shí)間段這一層次,而不進(jìn)入到里面具體的級(jí)聯(lián)層數(shù),時(shí)間也用t進(jìn)行簡化表示。 用rw(t)代表節(jié)點(diǎn)w在t時(shí)刻被激活的概率,則t+1時(shí)刻節(jié)點(diǎn)w被激活的概率表示如公式(7)所示: (7) 這里,節(jié)點(diǎn)w在t時(shí)刻沒有被激活包含兩種可能性,一是w沒有在線,一是雖然w在線,但是其父節(jié)點(diǎn)集合中的節(jié)點(diǎn)均未能成功激活w。 集合D(t)表示在時(shí)間段t內(nèi)新被激活成功的節(jié)點(diǎn)集合,則整個(gè)擴(kuò)散過程D可以表示為各個(gè)時(shí)間段內(nèi)新增集合的并集,即D=D(0) ∪D(1) ∪ … ∪D(T),其中T表示有效的觀察時(shí)間長度。用C(t)表示截至?xí)r間段t所有的被激活節(jié)點(diǎn)集合,Rw(t)代表截至?xí)r間段t時(shí)已經(jīng)嘗試過激活w的節(jié)點(diǎn)集合,則C(t) (8) 用{Ds:s= 1, 2, …,S}表示S個(gè)獨(dú)立的信息擴(kuò)散過程的集合,則對(duì)于整個(gè)數(shù)據(jù)集中的信息擴(kuò)散概率,我們可以得到總的目標(biāo)函數(shù),如公式(9)所示: (9) (10) 接下來,需要得到所有的擴(kuò)散概率使得(9)的值最大。由于(9)的偏導(dǎo)數(shù)十分復(fù)雜,難以直接分析或采用梯度上升算法進(jìn)行求解,所以在本文中我們采用的是最大期望算法,最后得到網(wǎng)絡(luò)中所有邊的擴(kuò)散概率分布θ。 (11) 需要注意的是,雖然實(shí)際情況下kw在不同的時(shí)刻是不一致的,不同用戶在線的概率也有差別,但為了使求解結(jié)構(gòu)簡單,本文在求解時(shí)將其設(shè)置為一個(gè)固定的常數(shù)值P即所有節(jié)點(diǎn)在任何時(shí)刻處于有效狀態(tài)的概率均相同;同時(shí)本文在后續(xù)的實(shí)驗(yàn)中分析P的不同取值對(duì)概率的影響。為了求得最優(yōu)解,令偏導(dǎo)數(shù)?θ/?pv,w=0,則: (12) (2)實(shí)驗(yàn)數(shù)據(jù) 為排除信息內(nèi)容和信息來源對(duì)網(wǎng)絡(luò)信息擴(kuò)散的影響,本文從新浪微博平臺(tái)上獲取2015年8月13日到2015年8月22日之間由頭條新聞發(fā)布的有關(guān)天津港爆炸事件的微博,其轉(zhuǎn)發(fā)量最小為68,最大超過15萬。為了排除偶然的超級(jí)爆炸性新聞對(duì)轉(zhuǎn)發(fā)關(guān)系的影響,本文選擇了轉(zhuǎn)發(fā)量在1500以下的120條微博,并獲取這些微博的所有轉(zhuǎn)發(fā)路徑以及相關(guān)的用戶信息。這些數(shù)據(jù)中,共包括41783名用戶,分析得到他們之間的好友關(guān)系,并將其投射到社會(huì)網(wǎng)絡(luò)中。 根據(jù)4.1中方法,我們獲取存在好友關(guān)系的節(jié)點(diǎn)對(duì)(v,w)之間的擴(kuò)散概率pv,w。為簡化問題,本文將用戶在線概率為設(shè)定為常數(shù)P,圖4所示即為不同概率值下得到的用戶之間影響值的結(jié)果。 圖3 P取不同值下節(jié)點(diǎn)對(duì)之間的權(quán)重分布情況 圖3中,橫軸表示節(jié)點(diǎn)之間的影響值的大小,縱軸表示累積概率。P越大,說明用戶對(duì)微博平臺(tái)的粘性越大,花費(fèi)在該平臺(tái)上的時(shí)間越長。從上圖中可以看出,只有當(dāng)P處于極值(P的最小值0.2和最大值1)時(shí),概率值分布才會(huì)出現(xiàn)相對(duì)明顯的差異。而當(dāng)P取中間值時(shí),所得的結(jié)果差異十分微小,幾乎可以忽略不計(jì)。在極端情況之外,我們發(fā)現(xiàn)80%左右的節(jié)點(diǎn)對(duì)之間的影響力小于0.1,基本無明顯影響,而有近10%的節(jié)點(diǎn)對(duì)影響值超過了0.9,近乎完全影響。這一結(jié)果符合社會(huì)網(wǎng)絡(luò)中的用戶結(jié)構(gòu)特性:微博平臺(tái)中用戶的密度和關(guān)聯(lián)度整體不高,網(wǎng)絡(luò)相對(duì)稀疏,大部分節(jié)點(diǎn)之間進(jìn)行信息擴(kuò)散的概率很低;同時(shí)平臺(tái)上存在關(guān)聯(lián)密切的局部網(wǎng)絡(luò),彼此之間影響很大,信息滲透深入。 (3) 實(shí)驗(yàn)結(jié)果 在這一部分,我們利用上面所得的節(jié)點(diǎn)之間的影響概率,根據(jù)基于離散時(shí)刻的獨(dú)立級(jí)聯(lián)模型,從特定的節(jié)點(diǎn)出發(fā),利用蒙特卡羅方法追蹤單條信息在24小時(shí)內(nèi)的擴(kuò)散情況變化過程,實(shí)驗(yàn)共模擬5000次,所得結(jié)果如圖4所示。 圖4 蒙特卡羅方法所得的信息擴(kuò)散情況示意圖 從圖中可以看出,前10個(gè)小時(shí)中,每個(gè)時(shí)刻都有可能產(chǎn)生巨大數(shù)量的擴(kuò)散,也可能極少擴(kuò)散甚至不擴(kuò)散。而當(dāng)擴(kuò)散時(shí)間超過10小時(shí)后,產(chǎn)生巨量擴(kuò)散的可能性會(huì)急劇減少。中間的短橫代表的是5000次模擬實(shí)驗(yàn)的中位數(shù),它們會(huì)在短時(shí)間內(nèi)迅速降低。此外,從整體來看,我們對(duì)其平均值的情況進(jìn)行了分析,在這一部分的實(shí)驗(yàn)中,經(jīng)過曲線擬合,發(fā)現(xiàn)其擬合函數(shù)為y= 448.61e- 0.54x,R2= 0.986,有較強(qiáng)的可信度證明其符合指數(shù)函數(shù)衰減的特征。與平均值相類似,模擬實(shí)驗(yàn)數(shù)據(jù)的上四分位點(diǎn)也符合指數(shù)衰減的特性。因此對(duì)輿論進(jìn)行控制時(shí)應(yīng)該在有效的時(shí)間段內(nèi)采取行動(dòng);若不夠及時(shí)則擴(kuò)散已經(jīng)基本完成,再采取的行動(dòng)已經(jīng)滯后。 Yang等[14]設(shè)計(jì)了K-SC聚類算法,對(duì)在線媒體中信息的擴(kuò)散模式進(jìn)行分析,共得出6種擴(kuò)散模式。Matsubara等[21]則提出了SPIKEM模型,通過參數(shù)的調(diào)節(jié),可以擬合出不同的擴(kuò)散模式,且具有統(tǒng)一性、實(shí)證性、簡約性和有效性。以上的模型劃分主要在波峰數(shù)量、下降速度、峰值出現(xiàn)的時(shí)間上有所區(qū)別。因此,本文對(duì)上面的因素進(jìn)行了簡化,主要根據(jù)波峰數(shù)量和峰值出現(xiàn)的時(shí)刻,將信息的擴(kuò)散模式分為延時(shí)多峰波動(dòng)型、延時(shí)單峰衰減型、即時(shí)多峰波動(dòng)型和即時(shí)單峰衰減型,其特征和數(shù)量如表2所示。 表2 不同擴(kuò)散模式的信息所占比例 從它可以看出超過80%的信息會(huì)很快形成擴(kuò)散巔峰。另外,單峰模式的數(shù)量比多峰模式略少,說明信息在整個(gè)擴(kuò)散周期中很容易形成回彈。 圖5 信息隨時(shí)間變化的擴(kuò)散情況示意圖(h為小時(shí)) 圖5展示了四種典型的擴(kuò)散模式與總體的擴(kuò)散平均值,發(fā)現(xiàn)即時(shí)單峰衰減型與總體平均擴(kuò)散模型最為相近,在初始是擁有很大的擴(kuò)散量,但擴(kuò)散量隨時(shí)間迅速衰減。可以發(fā)現(xiàn),雖然多峰出現(xiàn)的概率也比較大,但是后續(xù)的峰值產(chǎn)生的波動(dòng)較小,但其強(qiáng)度主要取決于第一個(gè)峰值,反映了控制首次爆發(fā)的重要性。 接下來,我們?cè)O(shè)置了三組對(duì)比試驗(yàn),以驗(yàn)證初始節(jié)點(diǎn)對(duì)于信息擴(kuò)散的影響。所得結(jié)果表3所示。從表中可以看出,對(duì)于入度很大的初始節(jié)點(diǎn),其發(fā)布的信息的擴(kuò)散數(shù)量會(huì)遠(yuǎn)遠(yuǎn)超過一般節(jié)點(diǎn)的擴(kuò)散;而對(duì)于鏈入較少的節(jié)點(diǎn)來說,其擴(kuò)散的可能性會(huì)很小,在社會(huì)類事件中基本不會(huì)擴(kuò)散。因此對(duì)于突發(fā)的社會(huì)事件,用戶更傾向于從權(quán)威人士或機(jī)構(gòu)處獲取信息并加以擴(kuò)散,有一定的判別性行為存在;而對(duì)于一般的用戶來說,其影響力相對(duì)較小。 從平均覆蓋率來看,中等節(jié)點(diǎn)的平均覆蓋率最大,強(qiáng)節(jié)點(diǎn)的覆蓋率次之,而弱節(jié)點(diǎn)的覆蓋率最小。如上面所分析的那樣,強(qiáng)節(jié)點(diǎn)的鏈入節(jié)點(diǎn)中只有一部分屬于強(qiáng)聯(lián)系,另外一部分的權(quán)重很小,所以能夠有效影響的概率也很?。患由匣鶖?shù)很大,所以整體的覆蓋率就會(huì)降低。而對(duì)于中等節(jié)點(diǎn),它是一簇聯(lián)系較強(qiáng)的小網(wǎng)絡(luò),彼此之間的影響很大,信息流通比較高效,所以它的覆蓋率也最高。而對(duì)于弱節(jié)點(diǎn),它自身的低活躍度、較小的受眾規(guī)模和較弱的影響力,使得其很難將信息擴(kuò)散出去。因此在對(duì)信息擴(kuò)散進(jìn)行監(jiān)控時(shí),應(yīng)該重點(diǎn)關(guān)注強(qiáng)節(jié)點(diǎn)以及它的強(qiáng)聯(lián)系關(guān)注節(jié)點(diǎn),同時(shí)對(duì)于小規(guī)模的強(qiáng)聯(lián)系網(wǎng)絡(luò)也應(yīng)該加以重視。 表3 信息從不同節(jié)點(diǎn)發(fā)布所得的結(jié)果 (4) 小結(jié) 從以上的實(shí)驗(yàn)?zāi)M結(jié)果中,我們分析得到了如下結(jié)論:在社交網(wǎng)絡(luò)中,基于離散時(shí)間的雙概率獨(dú)立級(jí)聯(lián)擴(kuò)散模型能夠較好地模擬現(xiàn)實(shí)中信息隨時(shí)間的擴(kuò)散過程。網(wǎng)絡(luò)中的信息要在前10個(gè)小時(shí)內(nèi)加以控制,超過有效時(shí)間,則基本擴(kuò)散結(jié)束,滯后性太強(qiáng)。對(duì)輿論監(jiān)控過程中,要重點(diǎn)監(jiān)控兩類群體:一是具有高度鏈入度的節(jié)點(diǎn)以及其關(guān)注節(jié)點(diǎn)中關(guān)聯(lián)性很強(qiáng)的群體;二是鏈入度較高,且關(guān)系密切的小網(wǎng)絡(luò)。單條信息的擴(kuò)散過程會(huì)呈現(xiàn)多種形態(tài),但是當(dāng)擴(kuò)散源一定時(shí),其擴(kuò)散總體影響會(huì)有一定的規(guī)律,比如總體來看符合指數(shù)分布,總體的影響規(guī)?;鞠嗤取?/p> 本節(jié)根據(jù)模型II對(duì)信息的擴(kuò)散進(jìn)行模擬,主要從用戶網(wǎng)絡(luò)規(guī)模、消息質(zhì)量和用戶連接程度這三個(gè)方面進(jìn)行分析,以便從宏觀角度得出信息在本身質(zhì)量和受眾群體不同時(shí)擴(kuò)散的情況。 圖6展示了用戶連接強(qiáng)度對(duì)信息擴(kuò)散的影響,其中x軸表示時(shí)間,y軸表示當(dāng)前時(shí)刻下消息擴(kuò)散的數(shù)目。從圖中可以發(fā)現(xiàn),連接強(qiáng)度越大,傳播的最大速度越大,峰值出現(xiàn)的時(shí)間越早。即在用戶關(guān)聯(lián)越緊密的網(wǎng)絡(luò)中,信息的擴(kuò)散會(huì)更迅猛,也需要更及時(shí)地對(duì)信息擴(kuò)散進(jìn)行干預(yù)。 圖6 信息在不同用戶連接強(qiáng)度下的擴(kuò)散情況 在用戶活躍程度和連接程度相同的情況下,信息在不同的信息質(zhì)量和用戶規(guī)模下,也會(huì)體現(xiàn)出不同的特性,實(shí)驗(yàn)結(jié)果如圖7所示。 圖7中x軸表示時(shí)間,y軸表示當(dāng)前時(shí)刻下消息擴(kuò)散的數(shù)目。整體來看,在擴(kuò)散之初,受到初始用戶規(guī)模的限制,擴(kuò)散量會(huì)以較緩慢的速度逐漸增長,對(duì)應(yīng)于信息擴(kuò)散的潛伏期和成長期;當(dāng)積累了一定量數(shù)目的用戶后,擴(kuò)散量會(huì)爆炸式增長,所達(dá)用戶數(shù)目迅速增加,對(duì)應(yīng)于信息擴(kuò)散的爆發(fā)期;之后由于事件影響力的衰減和未達(dá)用戶數(shù)量的減少,擴(kuò)散數(shù)量會(huì)迅速減弱,對(duì)應(yīng)于衰退期。在傳播過程中,消息擴(kuò)散呈現(xiàn)出單峰、雙峰、多峰等不同的形態(tài);波峰的強(qiáng)度差異性很大,但是波峰出現(xiàn)的時(shí)刻基本與用戶的活躍程度一致。 圖7 當(dāng)用戶連接程度、用戶活躍度等因素相同時(shí),不同信息質(zhì)量和網(wǎng)絡(luò)規(guī)模下信息的擴(kuò)散速度對(duì)比 對(duì)比圖7中的每一列可以發(fā)現(xiàn),信息質(zhì)量一定時(shí),用戶數(shù)量越大,信息越容易獲得較大的傳播速度,峰值出現(xiàn)的時(shí)刻越早。這一發(fā)現(xiàn)說明,具備相同質(zhì)量的信息在小規(guī)模用戶網(wǎng)絡(luò)中擴(kuò)散會(huì)比較平緩;但用戶數(shù)量達(dá)到一定規(guī)模后,信息則容易在短時(shí)間內(nèi)爆發(fā)。因此大規(guī)模用戶網(wǎng)絡(luò)理應(yīng)成為輿情干預(yù)的重要監(jiān)控對(duì)象,并需在短時(shí)間內(nèi)及時(shí)干預(yù)。 對(duì)比每一行則可以發(fā)現(xiàn),當(dāng)用戶數(shù)量一定時(shí),信息質(zhì)量會(huì)對(duì)信息擴(kuò)散特征產(chǎn)生較大影響。圖(a)中,信息在初期的傳播的速度隨著消息質(zhì)量β的增大而增大,傳播越來越集中在前面一段時(shí)間內(nèi)。圖(b)中,信息在第一個(gè)傳播周期內(nèi)都會(huì)爆發(fā),隨著信息質(zhì)量β的增大,信息擴(kuò)散到所有用戶的時(shí)間進(jìn)一步縮短。當(dāng)β小于0.1時(shí),信息在第2個(gè)和第3個(gè)傳播周期內(nèi)依然有較明顯的擴(kuò)散,但當(dāng)β超過0.1時(shí),信息基本在第一個(gè)周期內(nèi)擴(kuò)散完成。圖(c)中,較大的用戶數(shù)目使得信息在傳播初期就有較多的用戶傳播,并形成“羊群效應(yīng)”,因此整體都只有一個(gè)較明顯的波峰;隨著消息質(zhì)量β的增大,消息爆發(fā)的時(shí)刻也會(huì)提前。 以上的試驗(yàn)說明,用戶的關(guān)聯(lián)強(qiáng)度、用戶規(guī)模和消息質(zhì)量對(duì)于信息的擴(kuò)散速度和爆發(fā)時(shí)間有很大影響,對(duì)輿論進(jìn)行監(jiān)控時(shí),對(duì)于大規(guī)模用戶網(wǎng)絡(luò)或聯(lián)系緊密的用戶網(wǎng)絡(luò)需要進(jìn)行重點(diǎn)監(jiān)控。對(duì)于信息質(zhì)量很高的輿情,更需要在信息爆發(fā)前做出反應(yīng),控制或者引導(dǎo)輿論。 針對(duì)自媒體時(shí)代下社會(huì)網(wǎng)絡(luò)中信息的擴(kuò)散,本文從微觀和宏觀兩個(gè)角度對(duì)信息擴(kuò)散的過程和特點(diǎn)進(jìn)行刻畫。微觀部分主要結(jié)合用戶個(gè)體之間的影響設(shè)計(jì)了基于離散時(shí)刻的擴(kuò)散機(jī)制,并利用蒙特卡洛方法多次模擬,實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)了一些重要的影響因素和其它規(guī)律。宏觀部分則在考慮用戶活躍特性、外部平臺(tái)的影響、信息本身和受眾特征的基礎(chǔ)上對(duì)信息擴(kuò)散過程進(jìn)行數(shù)量建模,并主要針對(duì)信息質(zhì)量、用戶規(guī)模和用戶連接程度這三個(gè)因素進(jìn)行對(duì)比分析。微觀模型可以更細(xì)致描述出特定用戶網(wǎng)絡(luò)中的信息擴(kuò)散,而宏觀模型則能豐富信息擴(kuò)散的場景,展現(xiàn)出更多的傳播特性。兩個(gè)模型之間的結(jié)論相互補(bǔ)充,為社會(huì)網(wǎng)絡(luò)中的輿情監(jiān)控提供幫助。 本文發(fā)現(xiàn),在信息擴(kuò)散過程中,信息擴(kuò)散量都會(huì)有一個(gè)劇烈增長的過程,隨后會(huì)迅速衰減。在信息爆發(fā)前進(jìn)行管理才可以有效控制輿情造成的影響。用戶規(guī)模越大、關(guān)聯(lián)越緊密以及信息質(zhì)量越高時(shí),爆發(fā)所需的時(shí)間越短。當(dāng)用戶數(shù)量超過1萬時(shí),信息會(huì)在 10小時(shí)中完成大部分的擴(kuò)散,因此10小時(shí)是輿情控制的有效時(shí)間。當(dāng)網(wǎng)絡(luò)組成成分較為清晰時(shí),可以對(duì)網(wǎng)絡(luò)的特征進(jìn)行分析,重點(diǎn)監(jiān)控強(qiáng)節(jié)點(diǎn)及其關(guān)系密切的節(jié)點(diǎn)以及關(guān)聯(lián)密度很大的小網(wǎng)絡(luò),從而對(duì)信息的擴(kuò)散進(jìn)行更為有效的控制。同時(shí),信息在擴(kuò)散過程中會(huì)呈現(xiàn)出不同的形態(tài),在波峰個(gè)數(shù)、波峰強(qiáng)度和波峰出現(xiàn)時(shí)間上各不相同,在監(jiān)控過程中要對(duì)不同階段進(jìn)行分析,針對(duì)性引導(dǎo)。 我們會(huì)在未來的研究中加強(qiáng)對(duì)信息質(zhì)量的分析,并在定量分析關(guān)鍵因素影響的基礎(chǔ)上,研究出預(yù)判方法以便提前預(yù)警并加以管控。 [1] Kempe D, Kleinberg J, Tardos E. Maximizing the spread of influence through a social network[C] // Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining,Washington D C,August,24-27,2003. [2] Saito K, Kimura M, Ohara K, et al. Learning continuous-time information diffusion model for social behavioral data analysis[M] // Advances in Machine Learning. Springer Berlin Heidelberg, 2009: 322-337. [3] Saito K, Kimura M, Ohara K, et al. Selecting information diffusion models over social networks for behavioral analysis[M] //Zhou Zhihua,Washio T.Machine learning and knowledge discovery in databases. Berlin-Heidelberg:Springer,2010:180-195. [4] 萬圣賢, 郭嘉豐, 蘭艷艷, 等. 基于傳播模擬的消息流行度預(yù)測[J]. 中文信息學(xué)報(bào), 2014,28(3):68-74. [5] Chen Wei, Wang Yajun, & Yang Siyu. Efficient influence maximization in social networks[C]//proceedings of the 15th ACM SIGKDD International Conference on Knowledge discovery and Data Mining,Paris,F(xiàn)rance,June 28-July 1,2009. [6] 朱湘, 賈焰, 聶原平. 基于微博的事件擴(kuò)散分析[J]. 計(jì)算機(jī)研究與發(fā)展, 2015, 52(2):437-444. [7] Saito K, Nakano R, Kimura M. Prediction of information diffusion probabilities for independent cascade model[M]//Lovrek I, Howlett R J,Jian L C.Knowledge-based intelligent information and engineering systems. Berlin-Heidelberg:Springer, 2008:67-75. [8] Goyal A, Bonchi F, Lakshmanan L V S. Learning influence probabilities in social networks[C] // Proceedings of the third ACM international conference on Web search and data mining,New York,us,February 04-06,2010. [9] 郭靜, 曹亞男, 周川. 基于線性閾值模型的影響力擴(kuò)散權(quán)重學(xué)習(xí)[J]. 電子與信息學(xué)報(bào), 2014, 36(8): 1804-1809. [10] Srivastava J,Pathak N, Banerjee A. A generalized linear threshold model for multiple cascades[C]//Proceedings of the 13th International Conference on Data Ming,December13-17,2010. [11] He Xinran, Songuojie G, Chen Wei, et al. Influence blocking maximization in social networks under the competitive linear threshold model[J]//Compting Science,2011. [12] Litou I, Kalogeraki V, Katakis I. Real-time and cost-effective limitation of misinformation propagation[C]//Proceedings of the 17th TEEE Internation Confernce on Mobile Data Management,Porto,Portugal,June 13-16,2016. [13] 田家堂,王軼彤,馮小軍. 一種新型的社會(huì)網(wǎng)絡(luò)影響最大化算法[J]. 計(jì)算機(jī)學(xué)報(bào),2011,34(10):1956-1965. [14] Yang J, Leskovec J. Patterns of temporal variation in online media[C] // Proceedings of the fourth ACM international conference on Web search and data mining,Hong kong,China,February 09-11,2011. [15] 劉德海, 蘇燁, 王維國. 振蕩型群體性突發(fā)事件中信息特征的演化博弈分析[J].中國管理科學(xué),2012,20(S1):172-178. [16] Boyd D, Golder S, Lotan G. Tweet, tweet, retweet: Conversational aspects of retweeting on twitter[C] // the 43rd Hawaii International Conference on System Sciences (HICSS),Honolulu,HI,USA,January5-8,2010. [17] 廖衛(wèi)民, 柯偉. 網(wǎng)絡(luò)輿論波研究——基于波浪力學(xué)及杭州兩起輿論事件的理論思考[J]. 新聞?dòng)浾? 2010,(4):12-16. [18] 劉樑, 戴偉, 李仕明. 基于多Agent的非常規(guī)突發(fā)事件在線信息預(yù)警策略研究[J]. 中國管理科學(xué), 2014,22(S1):180-187. [19] 王秀利, 朱建明. 社會(huì)輿論方向影響下的微博商業(yè)言論傳播模型[J]. 中國管理科學(xué), 2012,20(S2):691-695. [20] 曹學(xué)艷, 張仙, 劉樑,等. 基于應(yīng)對(duì)等級(jí)的突發(fā)事件網(wǎng)絡(luò)輿情熱度分析[J]. 中國管理科學(xué), 2014, 22(3):82-89. [21] Matsubara Y, Sakurai Y, Prakash B A, et al. Rise and fall patterns of information diffusion: model and implications[C] // Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining. Beijing,August 12-16,2012.3.2 事件擴(kuò)散的數(shù)值模型
4 實(shí)驗(yàn)
4.1 面向單條信息的擴(kuò)散實(shí)驗(yàn)
4.2 面向事件的數(shù)值擴(kuò)散方程
5 結(jié)語