宋磊
摘要:在互聯(lián)網(wǎng)飛速發(fā)展的今天,流言作為信息的一種,其危害在社交網(wǎng)絡(luò)的作用下不斷地被放大。隨著社交網(wǎng)絡(luò)的迅速發(fā)展,流言傳播無論從影響規(guī)模上和還是傳播速度上來說都每日劇增,這使得人們對判別流言和抑制流言方法的需求也隨之增長。為了對社交網(wǎng)絡(luò)中的流言進行判別與溯源,從真實社交網(wǎng)絡(luò)數(shù)據(jù)爬取入手,基于數(shù)據(jù)的時間軌跡,挖掘出流言的傳播路徑,構(gòu)建信息傳播網(wǎng)絡(luò),并基于傳播網(wǎng)絡(luò)拓撲特征分析對流言進行判別和溯源。并且基于傳播網(wǎng)絡(luò)以及相關(guān)拓撲特征信息,提出了通過檢測其連通分支節(jié)點數(shù)目和直徑分布是否滿足冪律分布來判別該網(wǎng)絡(luò)中是否有流言存在,對不滿足冪律分布的,通過檢測“離群點”的方法來初步定位流言。
關(guān)鍵詞:社交網(wǎng)絡(luò);流言;傳播路徑;判別與溯源
中圖分類號:TP391 文獻標(biāo)識碼:A 文章編號:1009-3044(2019)04-0006-03
Abstract: Today, with the rapid development of the Internet, rumors as a kind of information, its harm is constantly amplified by the role of social networks. With the rapid development of social networks, rumors spread daily, both in terms of scale and speed of communication, which has led to an increase in the demand for discriminating rumors and suppressing rumors. In order to discriminate and trace the rumors in the social network, start from the real social network data crawling, based on the time trajectory of the data, mine the propagation path of the rumors, construct the information dissemination network, discriminate and trace the rumors based on the topological characteristics of the propagation network. Based on the propagation network and related topological feature information, it is proposed to determine whether there are rumors in the network by detecting whether the number of connected branch nodes and the diameter distribution satisfy the power law distribution. Then detecting the "outlier point" of the power law distribution to initially locate rumors.
Key words: Social network; rumors; propagation path; discrimination and traceability
1 研究背景
社交網(wǎng)絡(luò)就是社交網(wǎng)絡(luò)服務(wù),它源自英文SNS(Social Network Service)的翻譯?;赪eb2.0的社交網(wǎng)絡(luò)已經(jīng)成為人們?nèi)粘I钪芯S系社會關(guān)系和信息傳播的重要方式,在社會的各個方面都產(chǎn)生了深遠的影響:(1)社交網(wǎng)絡(luò)上的人們通過各種聯(lián)系形成了各種“關(guān)系結(jié)構(gòu)”,其中最顯著的便是形成了大量的虛擬社區(qū);(2)基于社交網(wǎng)絡(luò)的關(guān)系結(jié)構(gòu),社交網(wǎng)絡(luò)用戶圍繞著某個熱點事件或者話題聚集在一起,相互作用,影響,構(gòu)成了社交網(wǎng)絡(luò)上具有相似特征的“網(wǎng)絡(luò)群體”;(3)社交網(wǎng)絡(luò)推動下,使得現(xiàn)實信息一旦變?yōu)椤熬W(wǎng)絡(luò)信息”,得益于社交網(wǎng)絡(luò)本身自帶的關(guān)系結(jié)構(gòu)以及各種網(wǎng)絡(luò)群體的出現(xiàn),將以往常難以想象的速度在網(wǎng)絡(luò)上擴散,網(wǎng)絡(luò)世界與現(xiàn)實世界的信息互動將不可避免地造成影響。
流言與社交網(wǎng)絡(luò)的結(jié)合不僅改變了流言傳播的方式,同時也使得流言的傳播群體更容易被同化和產(chǎn)生從中心理。因此,對真實社交網(wǎng)絡(luò)中流言傳播模型以及其判別方法的研究具有非常重要的現(xiàn)實意義。近年來,盡管社交網(wǎng)絡(luò)中的信息傳播已經(jīng)是當(dāng)前熱點之一,但是大多數(shù)研究只是提供了傳播理論以及傳播模型,卻沒有結(jié)合真實社交網(wǎng)絡(luò)的數(shù)據(jù)來分析;也有一些文章研究了傳播過程中每個節(jié)點的行為及其影響,但是沒有從整體上去分析和研究社交網(wǎng)絡(luò)中整個話題的信息傳播;同時,當(dāng)前對于真實社交網(wǎng)絡(luò)上的流言并沒有一個有效判別和溯源流言的方法。本文正是基于這樣的狀況,提出了一種從公共信息中判別流言的方法,并做到簡單的溯源,找到流言來源。
2 實驗分析
本文樣本數(shù)據(jù)是通過選取不同時間twitter上的三個熱門話題來作為搜索關(guān)鍵字,獲取推文數(shù)據(jù)和相關(guān)用戶數(shù)據(jù),它們分別為BroadwayACeleb,F(xiàn)lyDubai,MakeTVShowsEvil。我們?yōu)槊恳活愱P(guān)鍵字建立了對應(yīng)的信息數(shù)據(jù)庫。
2.1 社交網(wǎng)絡(luò)信息傳播網(wǎng)絡(luò)構(gòu)建
傳統(tǒng)社會網(wǎng)絡(luò)中,通常以信息內(nèi)容為主體,而在在線網(wǎng)絡(luò)中,信息依賴于人與人之間的好友關(guān)系進行傳播,通過人與人之間的關(guān)系影響人與信息的關(guān)系。具體到本文中我們采用的Twitter,信息傳播往往依賴于Twitter用戶之間的關(guān)注與被關(guān)注的關(guān)系,因此我們在構(gòu)建信息傳播網(wǎng)絡(luò)中著重考慮了這一點。
網(wǎng)絡(luò)由點與邊構(gòu)成,構(gòu)建信息傳播網(wǎng)絡(luò)首先就是定義網(wǎng)絡(luò)中點與邊代表的內(nèi)容。
首先是信息傳播網(wǎng)絡(luò)中的點,我們將話題下的每一條推文視為一個節(jié)點,這個節(jié)點對應(yīng)我們數(shù)據(jù)庫中的一個文檔,因而每個節(jié)點都有一個用戶ID,一個對應(yīng)的推文發(fā)布時間,同時也帶有該用戶的粉絲列表。
其次是邊的生成。由于我們所獲取的推文是在關(guān)鍵字搜索下得到的,因而傳統(tǒng)的轉(zhuǎn)發(fā)關(guān)系不能很好地描述我們話題數(shù)據(jù)庫中的所有信息,因而在這個信息傳播網(wǎng)絡(luò)中,我們需要重新定義一種關(guān)系來描述信息的傳播,結(jié)合社交網(wǎng)絡(luò)的實際:Twitter用戶發(fā)推往往受其關(guān)注者發(fā)推影響,我們對于每一條用戶發(fā)的推文,都去查詢:是否這個用戶的關(guān)注者中在不久前發(fā)布了同樣話題的推文。具體來說,在信息傳播網(wǎng)絡(luò)中,對于一個節(jié)點A,我們進行以下處理:
初始化最相鄰時間tnearest,遍歷數(shù)據(jù)庫,對于每一條推文B(對應(yīng)網(wǎng)絡(luò)的一個節(jié)點),
(1)查詢A對應(yīng)的用戶ua是否在B對應(yīng)用戶ub的粉絲列表中,如果是,執(zhí)行(2);否則,跳過該節(jié)點,繼續(xù)查詢下一條推文
(2)比較B對應(yīng)的推文發(fā)布時間tb與最相鄰時間tnearest(初始值設(shè)定為早于ta的某個時間),若tnearest 在遍歷完整個數(shù)據(jù)庫后,我們就找到了節(jié)點A對應(yīng)用戶關(guān)注者中最新發(fā)布相同話題的用戶IDidnearest_time,在節(jié)點A和idnearest_time對應(yīng)的節(jié)點之間我們生成一條邊。 對每一個節(jié)點都進行上述處理,我們信息傳播網(wǎng)絡(luò)中的邊就由此生成。 2.2 拓撲網(wǎng)絡(luò)特性分析 由于我們所獲取的推文來自同一個話題,推文用戶本身并沒有特殊的聯(lián)系,因而網(wǎng)絡(luò)應(yīng)該由各個不同的小網(wǎng)絡(luò)構(gòu)成,每個小網(wǎng)絡(luò)中的節(jié)點用戶都或多或少存在關(guān)注與被關(guān)注的關(guān)系,其中還存在很多單個節(jié)點,這些節(jié)點在我們所得的數(shù)據(jù)庫信息中是單獨的,不存在互相關(guān)注的關(guān)系。我們根據(jù)話題數(shù)據(jù)庫構(gòu)建的話題傳播網(wǎng)絡(luò)也驗證了這一點,整個網(wǎng)絡(luò)由一個個連通分支構(gòu)成,從話題傳播網(wǎng)絡(luò)中可以直觀地發(fā)現(xiàn):網(wǎng)絡(luò)中最多的是直徑為1(兩個節(jié)點的連通分支)的連通分支,而直徑特別大的連通分支數(shù)很少,連通分支的數(shù)量隨著直徑(節(jié)點數(shù)目)的增長而急劇減少。 之后我們定量分析拓撲網(wǎng)絡(luò)特征,分別針對三個不同的話題網(wǎng)絡(luò)統(tǒng)計了其聯(lián)通分支的節(jié)點數(shù)目和直徑分布(圖1-圖3)。 我們可以直觀地看出,直徑很大或者節(jié)點數(shù)目很多的連通分支數(shù)量很少,大多數(shù)都是直徑為1或者說節(jié)點數(shù)目為2的連通分支,直徑分布和節(jié)點數(shù)目分布圖呈現(xiàn)冪律分布的特征。 2.3 驗證冪律分布 如果樣本數(shù)據(jù)滿足冪律分布,那么對其橫縱坐標(biāo)都取對數(shù),即在雙對數(shù)坐標(biāo)下,冪律分布表現(xiàn)為一條斜率為冪指數(shù)的負數(shù)的直線,我們以直徑分布為例,將傳播路徑網(wǎng)絡(luò)的直徑分布圖轉(zhuǎn)換為雙對數(shù)坐標(biāo),之后對散點圖進行線性擬合,得到每個話題傳播網(wǎng)絡(luò)連通分支直徑分布的雙對數(shù)曲線,分別如圖4到圖6所示。我們可以看到,在雙對數(shù)坐標(biāo)下,直徑分布幾乎可被完美擬合為一條負斜率直線,因而,我們可以得出結(jié)論,話題傳播路徑網(wǎng)絡(luò)的連通分支直徑分布滿足冪律分布。 2.4 “離群點”與流言判別 2.4.1 “離群點”檢測 在樣本空間中,與其他的樣本點的一般行為或者特征不一致的點,我們稱為離群點。在這里,我們把雙對數(shù)曲線中明顯偏離擬合直線的點稱之為“離群點”,例如圖6中的第四個點,它明顯偏離擬合曲線,我們稱之為“離群點”。那么,如何確定這樣的“離群點”呢? 在聚類分析中,離群點檢測常用的方法包括基于統(tǒng)計分布的離群點檢測、基于距離的離群點檢測、基于密度的局部離群點檢測、基于偏差的離群點檢測等。 基于統(tǒng)計分布的離群點檢測:這一類離群點檢測方法首先假設(shè)樣本空間中所有的數(shù)據(jù)符合某一個分布或者某一個數(shù)據(jù)模型,之后基于模型或者分布采用不和諧校驗的方法來識別離群點。這種離群點檢測方法需要我們預(yù)先知道樣本空間中的數(shù)據(jù)結(jié)構(gòu)的分布特征,這在檢測之前我們往往無法獲知。 基于距離的離群點檢測:這種檢測方法定義如果在樣本空間S中與對象O的距離大于d的至少有N個樣本點,那么我們稱這個對象O是以N(指至少N個樣本點)和d為參數(shù)的基于距離的離群點。這種檢測方法需要數(shù)據(jù)均勻分布,如果數(shù)據(jù)分布不均勻,那么可能檢測就會遇到困難。 基于密度的局部離群點檢測:定義如果某個對象屬于局部離群點,那么相對于它自己的局部領(lǐng)域,它是遠離的。區(qū)別于前兩種方法,基于密度的局部離群點檢測不將離群點看成是二元性質(zhì)的點,換句話說,不僅僅是判斷一個點是否離群點,而是有一個權(quán)值來描述離群程度,它可以應(yīng)用到樣本分布不均勻的情況下。 基于偏差的離群點檢測:這種方法通過檢查對象的特征,查看其是否有“偏差”的特征,通過這種方法來判別是否為離群點。 對圖3中的三個樣本分別進行“離群點”檢測,我們發(fā)現(xiàn)圖4和圖5不存在離群點,而圖6的第四個點為離群點,這與我們對圖像的直觀印象相符。 2.4.2 流言判別與溯源 研究表明,公共信息的相關(guān)分布符合冪律分布,不存在2.4.1中定義的“離群點”。上一步我們基于距離檢測,對每一個話題的樣本空間進行了檢測,關(guān)鍵字話題FlyDubai、MakeTVShowsEvil的樣本空間中不存在“離群點”,那么我們認為這兩個話題為公共信息,存在流言的可能性很低。而對于話題BroadwayACeleb,存在一個“離群點”,那么我們認為該話題下存在流言,且流言極大可能性存在于“離群點”所在的連通分支中,我們以”離群點”到擬合直線的距離為衡量標(biāo)準(zhǔn),距離越大,那么”離群點”越偏離擬合曲線,流言的可能性也越大。這樣,我們就將可能流言從公共信息中判別出來了,并指出了流言的來源分支。
3 總結(jié)
本文主要針對當(dāng)前熱門社交網(wǎng)絡(luò)平臺Twitter,以三個樣本話題為例,獲取真實社交網(wǎng)絡(luò)數(shù)據(jù),再進一步的將原始數(shù)據(jù)進行數(shù)據(jù)處理,得到信息傳播網(wǎng)絡(luò)構(gòu)建所需的用戶信息、用戶關(guān)系信息,建立相關(guān)的話題數(shù)據(jù)庫。之后,提出了一種新的信息傳播網(wǎng)絡(luò)的構(gòu)建方法,基于此方法構(gòu)建了網(wǎng)絡(luò)信息傳播網(wǎng)絡(luò)。基于網(wǎng)絡(luò)信息傳播網(wǎng)絡(luò)的拓撲特征分析,本文主要定量分析了話題信息傳播網(wǎng)絡(luò)連通分支的節(jié)點數(shù)目和直徑分布,提出了通過檢測其連通分支節(jié)點數(shù)目或直徑分布是否滿足冪律分布來判別流言的方法,對存在“離群點”的,通過檢測“離群點”的方法來溯源流言。經(jīng)實驗研究,該方法與現(xiàn)實世界演化趨勢相一致,證明了其對流言判別方向的啟發(fā)性作用,有助于社交網(wǎng)絡(luò)流言的判別與溯源。
參考文獻:
[1] Tong H, Papadimitriou S, Philip Y et al. Fast monitoring proximity and centrality on time-evolving bipartite graphs[J]. Statistic Analysis on Data Mining, 2008, 1: 142-156.
[2] Ghoshal G, Zlatic V, Caldarelli G et al. Random hypergraphs and their applications. Phys Rev E, 2009, 79: 066118.
[3] 張彥超,劉云,張海峰,等.基于在線社交網(wǎng)絡(luò)的信息傳播模型[J]. 物理學(xué)報2011,5:050501(1-8).
[4] 趙遠萍.即時通信系統(tǒng)拓撲建模及消息傳播模型研究[D].北京:北京郵電大學(xué),2010.
[5] Sznajd W K,Sznajd .A simple model of price formation[J] .Int.J.Mod.Phys.C ,2000: 1157
[6] 熊熙,胡勇,等. 基于社交網(wǎng)絡(luò)的觀點傳播動力學(xué)研究 物理學(xué)報[J], 2012,15: 10-110.
[7] Hethcote H. The mathematics of infectious diseases[J]. SI-AM Rev, 2000, 42: 599-653.
【通聯(lián)編輯:梁書】