◆韓法旺
?
微博突發(fā)現(xiàn)象的信息級(jí)聯(lián)演化過程探究
◆韓法旺
(南京森林警察學(xué)院信息技術(shù)學(xué)院 江蘇 210023)
隨著手機(jī)上網(wǎng)用戶的增多,人們越來越多地利用乘車、吃飯間隙等碎片化時(shí)間刷微博,因此微博成為一個(gè)重要的社會(huì)公共輿論平臺(tái)。一些突發(fā)的熱點(diǎn)話題會(huì)迅速引起人們的熱議、轉(zhuǎn)發(fā),對社會(huì)輿論造成重大影響。本文以信息級(jí)聯(lián)的演化過程來研究突發(fā)現(xiàn)象的生成發(fā)展過程,分為檢測觸發(fā)、突發(fā)、尖峰、消褪等過程,以此預(yù)測突發(fā)現(xiàn)象的走向。
突發(fā)現(xiàn)象;信息級(jí)聯(lián);微博影響力
隨著近幾年微博的快速發(fā)展和普及,其逐漸成為一個(gè)重要的社會(huì)化媒體和社會(huì)公共輿論的重要平臺(tái),對國家安全和社會(huì)發(fā)展都會(huì)產(chǎn)生深遠(yuǎn)的影響。微博意見領(lǐng)袖依靠自己的“獨(dú)特魅力”與網(wǎng)絡(luò)位置,對輿情的傳播起著“推波助瀾”的作用。因此,對微博影響力研究具有重要的理論價(jià)值和實(shí)際價(jià)值。
突發(fā)現(xiàn)象(Bursts)是指“一個(gè)長時(shí)間段內(nèi)的短暫劇烈活動(dòng)的時(shí)期”,是人類群體活動(dòng)中產(chǎn)生的一種常見現(xiàn)象。突發(fā)現(xiàn)象在很多領(lǐng)域得到了研究者的關(guān)注,如電子通信中的信道擁堵,股票市場中的震蕩,互聯(lián)網(wǎng)的數(shù)據(jù)流等。而隨著近年來社交網(wǎng)絡(luò)用戶參與量越來越多,其中的用戶行為中的突發(fā)現(xiàn)象也得到了很多研究者的關(guān)注,特別是在用戶間信息轉(zhuǎn)發(fā)行為的突然大量出現(xiàn)而造成的突發(fā)現(xiàn)象,這些研究工作發(fā)現(xiàn),大量用戶信息轉(zhuǎn)發(fā)所造成的信息級(jí)聯(lián)的演化中的震蕩效應(yīng),體現(xiàn)了社交網(wǎng)絡(luò)中用戶行為的突發(fā)特征。
隨著社交網(wǎng)絡(luò)中的信息量的指數(shù)級(jí)增加以及其中信息擴(kuò)散的突發(fā)性,社交網(wǎng)絡(luò)中信息傳播突發(fā)現(xiàn)象造成的影響也越來越大。過去網(wǎng)絡(luò)中的突發(fā)熱點(diǎn)話題只是吸引更多網(wǎng)友的關(guān)注,而如今微博網(wǎng)絡(luò)中的突發(fā)熱點(diǎn)則可能對社會(huì)事件的走向以及社會(huì)輿論都產(chǎn)生巨大影響[1]。如果能基于現(xiàn)有數(shù)據(jù)對信息級(jí)聯(lián)的突發(fā)時(shí)間進(jìn)行提前預(yù)測,對很多突發(fā)輿情事件應(yīng)對、災(zāi)難事件預(yù)警、產(chǎn)品推廣以及股市交易等實(shí)際工作提供很大的幫助。以往對信息級(jí)聯(lián)預(yù)測研究主要側(cè)重于預(yù)測信息級(jí)聯(lián)未來的影響范圍或級(jí)聯(lián)規(guī)模,近年來部分研究者嘗試通過對大規(guī)模數(shù)據(jù)分析來對社交網(wǎng)絡(luò)中信息級(jí)聯(lián)的突發(fā)特征進(jìn)行建模,并通過突發(fā)特征來對信息級(jí)聯(lián)進(jìn)行聚類。雖然對信息級(jí)聯(lián)的研究和突發(fā)檢測的研究都分別取得了很多進(jìn)展,然而對信息級(jí)聯(lián)演化過程的研究仍然不足。
信息級(jí)聯(lián)突發(fā)時(shí)間的預(yù)測工作存在著一些困難:一方面,由于信息級(jí)聯(lián)演化中的震蕩的特征,使得現(xiàn)有基于時(shí)間序列的預(yù)測研究無法直接應(yīng)用于信息級(jí)聯(lián)突發(fā)時(shí)間的預(yù)測工作中。如回歸方法,其通過學(xué)習(xí)歷史數(shù)據(jù)中的特征間關(guān)系被廣泛用于預(yù)測工作,然而信息級(jí)聯(lián)演化的震蕩特征使得歷史數(shù)據(jù)和預(yù)測數(shù)據(jù)之間的相關(guān)性很難由回歸方法來分析,微博數(shù)據(jù)流與傳統(tǒng)的時(shí)間序列數(shù)據(jù)差異巨大,也使得時(shí)間序列預(yù)測方法在針對特征豐富的社交數(shù)據(jù)時(shí)無法有效進(jìn)行[2]。另一方面,社交網(wǎng)絡(luò)中的信息級(jí)聯(lián)具有大小的冪律分布和壽命差異巨大等特征,使得對信息級(jí)聯(lián)的有效特征提取變得困難。因此,一種能夠解決差異性級(jí)聯(lián)大小和壽命情況的,基于時(shí)間維度的信息級(jí)聯(lián)演化過程模型的提出就非常有意義了。
突發(fā)檢測在很多領(lǐng)域被廣泛研究。Kleinberg最早對數(shù)據(jù)流中的突發(fā)現(xiàn)象的檢測進(jìn)行了研究,其后也有研究者研究了數(shù)據(jù)流中突發(fā)檢測的實(shí)用算法,以及具有擴(kuò)展性的實(shí)時(shí)檢測算法。近年來隨著社交網(wǎng)絡(luò)中大規(guī)模數(shù)據(jù)流中的突發(fā)現(xiàn)象得到了越來越多的關(guān)注,很多研究者對社交網(wǎng)絡(luò)中的信息級(jí)聯(lián)的突發(fā)特征以及演化模式都進(jìn)行了多方面的分析研究。Yang等人對Twitter中的數(shù)據(jù)流的時(shí)序特征進(jìn)行了研究,Matsubara等人研究了信息級(jí)聯(lián)演化過程中的震蕩現(xiàn)象,并對Twitter數(shù)據(jù)流進(jìn)行了突發(fā)檢測[3]。已有研究工作集中于突發(fā)檢測和突發(fā)模式的識(shí)別,本研究關(guān)注的主要方向?yàn)榛谛畔⒓?jí)聯(lián)早期的演化過程,對信息級(jí)聯(lián)演化中的突發(fā)時(shí)間進(jìn)行預(yù)測,所以現(xiàn)有的突發(fā)特征識(shí)別的方法無法直接應(yīng)用于本研究的任務(wù)中。
而對時(shí)間序列分析以及趨勢預(yù)測研究,旨在基于觀察到的現(xiàn)有時(shí)間序列預(yù)測未來的序列值。時(shí)間序列預(yù)測研究主要借助線性模型,如自動(dòng)回歸方法,以及對其的擴(kuò)展模型等,然而由于信息級(jí)聯(lián)演化中的震蕩特征,線性模型對其中突發(fā)時(shí)間的預(yù)測無法直接應(yīng)用[4]。也有一些非線性的模型被提出用于時(shí)間序列預(yù)測,然而這些模型并不能用于預(yù)測突發(fā)性上,同時(shí)社交網(wǎng)絡(luò)中豐富的用戶關(guān)系特征也使得對信息級(jí)聯(lián)的突發(fā)預(yù)測不等同于簡單的時(shí)間序列分析。
對社交網(wǎng)絡(luò)信息級(jí)聯(lián)預(yù)測的研究中,預(yù)測的主要目標(biāo)是能夠?qū)π畔⒓?jí)聯(lián)的流行程度和未來信息轉(zhuǎn)發(fā)量進(jìn)行預(yù)測。如Cui等人提出的基于信息傳播初始的特征,預(yù)測新的級(jí)聯(lián)在未來能否成為熱點(diǎn)趨勢話題[5];或者如Cheng等人提出了一種預(yù)測框架來對信息級(jí)聯(lián)的增長規(guī)模進(jìn)行預(yù)測,對給定的大小為k的信息級(jí)聯(lián),預(yù)測其在未來能否增長到2k。然而雖然這些研究工作對信息級(jí)聯(lián)未來的增長趨勢進(jìn)行了預(yù)測,但其研究方法無法應(yīng)用于對突發(fā)時(shí)間的預(yù)測工作中。
微博網(wǎng)絡(luò)中的信息傳播過程通常被描述為信息級(jí)聯(lián)的演化過程。為了對信息級(jí)聯(lián)演化中突發(fā)時(shí)間預(yù)測問題進(jìn)行形式化定義,本節(jié)中定義信息級(jí)聯(lián)演化過程中的各個(gè)階段。
信息級(jí)聯(lián)中突發(fā)的時(shí)間和閾值很難直接判斷,對微博數(shù)據(jù)流中的級(jí)聯(lián)突發(fā)還沒有一個(gè)統(tǒng)一的定義。通過對信息級(jí)聯(lián)的統(tǒng)計(jì)分析發(fā)現(xiàn),微博數(shù)據(jù)流中的大多數(shù)信息級(jí)聯(lián)在其生命周期中都不會(huì)出現(xiàn)突發(fā)現(xiàn)象,僅僅隨著時(shí)間流逝快速消亡。對于少量出現(xiàn)突發(fā)現(xiàn)象的信息級(jí)聯(lián),其在之前都會(huì)有一定的潛伏期,然后才是持續(xù)的增長,為了縮小需要預(yù)測的信息級(jí)聯(lián)的范圍,這里對潛在的突發(fā)信息級(jí)聯(lián)定義一個(gè)檢測觸發(fā)閾值。對信息級(jí)聯(lián)演化過程中的階段進(jìn)行定義,可以對時(shí)間窗口內(nèi)的信息級(jí)聯(lián)進(jìn)行分類篩選,降低檢測計(jì)算量。
在圖1中給出了對真實(shí)信息級(jí)聯(lián)演化的一個(gè)突發(fā)時(shí)期的實(shí)例,其中陰影部分表示突發(fā)時(shí)期。有些信息級(jí)聯(lián)的生命周期內(nèi)可能存在多個(gè)突發(fā)時(shí)期,本研究中的分析和預(yù)測主要針對信息級(jí)聯(lián)的第一個(gè)突發(fā)時(shí)期。
圖1 信息級(jí)聯(lián)的突發(fā)過程
本研究主要側(cè)重對微博網(wǎng)絡(luò)大數(shù)據(jù)的分析研究,基于Spark分布式計(jì)算平臺(tái),嘗試解決微博網(wǎng)絡(luò)中信息級(jí)聯(lián)演化的突發(fā)過程問題。信息級(jí)聯(lián)預(yù)測以及信息級(jí)聯(lián)的突發(fā)現(xiàn)象得到了很多研究者的關(guān)注,然而對突發(fā)過程的定義依然缺乏研究。本研究中通過分析信息級(jí)聯(lián)突發(fā)現(xiàn)象的模式,提出了信息級(jí)聯(lián)的觸發(fā)、突發(fā)、尖峰、消褪過程模型,為后續(xù)的實(shí)時(shí)微博輿論的預(yù)測,突發(fā)現(xiàn)象的出現(xiàn)以及引導(dǎo)等輿情監(jiān)控工作打下堅(jiān)實(shí)的理論基礎(chǔ)。
[1]雷宏振,賈悅婷.基于復(fù)雜網(wǎng)絡(luò)的在線社交網(wǎng)絡(luò)特征與傳播動(dòng)力學(xué)分析[J].統(tǒng)計(jì)與決策,2015.
[2]歐治花,湯胤.SNS社交網(wǎng)絡(luò)結(jié)構(gòu)實(shí)證研究——以豆瓣網(wǎng)為例[J].科技管理研究,2012.
[3]趙文兵,趙宇翔,朱慶華,等.Web2.0環(huán)境下社交網(wǎng)絡(luò)信息傳播仿真研究[J].情報(bào)學(xué)報(bào),2013.
[4]王昊翔,曾珊,劉揮揚(yáng).虛擬社交網(wǎng)絡(luò)中節(jié)點(diǎn)重要度分析[J].上海交通大學(xué)學(xué)報(bào),2013.
[5]蘭月新,鄧新元.突發(fā)事件網(wǎng)絡(luò)輿情演進(jìn)規(guī)律模型研究[J].情報(bào)雜志,2011.
1.江蘇高校品牌專業(yè)建設(shè)工程資助項(xiàng)目,項(xiàng)目編號(hào):PPZY2015A058;2.南京森林警察學(xué)院教學(xué)改革研究與教學(xué)建設(shè)重點(diǎn)研究項(xiàng)目,項(xiàng)目編號(hào):ZD18003。