陳 婷, 曲 霏, 陳福集
(1.天津大學 仁愛學院管理系, 天津 310636;2.福州大學 經(jīng)濟與管理學院, 福州 350002)
?
陳 婷1, 曲 霏1, 陳福集2*
(1.天津大學 仁愛學院管理系, 天津 310636;2.福州大學 經(jīng)濟與管理學院, 福州 350002)
著眼于輿情話題演化的時序特性、衍生特性和話題漂移現(xiàn)象,在分析話題演化特性的基礎(chǔ)上構(gòu)建了基于時間片劃分的話題動態(tài)演化模型并通過數(shù)理分析和實驗仿真對模型的有效性進行了驗證.實驗結(jié)果說明劃分時間片的話題演化模型可以在保證熱點話題追蹤準確性前提下可進一步通過縮減信息流規(guī)模來提高話題追蹤效率,從而解決以往話題追蹤算法中由于輿情話題的漂移和衍生特性導(dǎo)致的追蹤效率低下的問題.
網(wǎng)絡(luò)輿情; 話題演化動態(tài)模型; 話題熱度; 模型仿真
據(jù)中國互聯(lián)網(wǎng)信息中心(CNNIC)發(fā)布的《第33次中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》,截至2013年12月底,我國網(wǎng)民規(guī)模已達6.18億,互聯(lián)網(wǎng)普及率為45.8%[1].借助于網(wǎng)絡(luò)這一平臺,人們可以自由發(fā)表對某一事件的言論和觀點,各種不同的觀點、思想、言論碰撞交匯,逐漸形成一種強大的漩渦-網(wǎng)絡(luò)輿情.網(wǎng)絡(luò)輿情是互聯(lián)網(wǎng)上公眾對某事件的認知、態(tài)度、情感和行為傾向的集合[2].
突發(fā)事件網(wǎng)絡(luò)輿情的發(fā)展和演化規(guī)律,很大程度上反映了其自身的內(nèi)在規(guī)律.對突發(fā)事件發(fā)生后的相關(guān)輿情話題的收集和追蹤,是分析事態(tài)發(fā)展的重要依據(jù).輿情話題演化是指在網(wǎng)絡(luò)的動態(tài)信息流中,隨著時間推進,輿情話題在元素構(gòu)成和關(guān)注焦點及強度上的變化過程[3].時序信息是輿情話題的重要屬性,揭示出子話題發(fā)生和成長階段的序列關(guān)系,反映了輿情話題發(fā)生發(fā)展過程.若能將某一突發(fā)事件相關(guān)的互聯(lián)網(wǎng)輿情報道中的網(wǎng)頁信息抽象為話題的形式,根據(jù)話題的時序信息合理劃分時間片,分析各時間片內(nèi)的話題關(guān)注度,并實現(xiàn)相鄰時間片內(nèi)的話題關(guān)聯(lián),就能夠獲得輿情話題隨時間變化的遷移規(guī)律和發(fā)展趨勢,跟蹤事態(tài)發(fā)展,有理有據(jù)應(yīng)對各種問題,從根本上提升政府突發(fā)事件應(yīng)急管理中決策環(huán)節(jié)的效率和效果.
輿情研究是一個融合社會科學與自然科學的研究領(lǐng)域,輿情演化規(guī)律一直是國內(nèi)外學者的研究熱點[4-5],從應(yīng)用領(lǐng)域需要看,輿情話題的演化模型構(gòu)建和話題追蹤方法研究具有強大的生命力[6-7],但大多數(shù)是對新聞報道中的話題模型進行研究,鮮有工作考慮到輿情話題的特殊性—強衍生性和輿情衰退期明顯的話題漂移現(xiàn)象,導(dǎo)致模型對話題演化過程的動態(tài)性和復(fù)雜性描述不足,不能準確直觀反映輿情話題隨時間的遷移規(guī)律,不能從話題粒度深刻揭示突發(fā)事件發(fā)生后公眾關(guān)注點的變化.筆者充分考慮到輿情話題相較于普通新聞話題的特殊性,在對輿情話題的多維屬性及衍生特征分析的基礎(chǔ)上構(gòu)建了輿情話題演化動態(tài)模型,該模型利用話題時序信息,劃分時間片,并實現(xiàn)了不同時間片內(nèi)的話題關(guān)聯(lián).該模型更符合實際網(wǎng)絡(luò)中的輿情話題傳播,通過仿真實驗說明該模型更能適應(yīng)互聯(lián)網(wǎng)輿情話題的演化特征,具有較好的適用性.
根據(jù)輿情話題的生命周期論[8],本文提出基于話題相關(guān)度調(diào)整方法的話題模型更新策略.
1)劃分時間片,根據(jù)輿情報道的時序信息,將網(wǎng)頁劃歸到對應(yīng)的時間片.
關(guān)于突發(fā)事件的互聯(lián)網(wǎng)輿情報道是按時序連續(xù)更新的,對于一系列連續(xù)的報道,為了反映出輿情話題的隨時間的演化路徑,先將時間軸劃分為一定長度的時間片,然后按照輿情報道發(fā)布的時間將其劃歸到相應(yīng)的時間片中,同時對與報道相關(guān)的新入網(wǎng)頁進行特征抽取,獲得特征項,用權(quán)重較高的特征項對報道進行描述,將報道轉(zhuǎn)化為特征項形成的多元向量空間,然后計算其與原輿情報道話題之間的內(nèi)容相似度.
時間片大小的確定,可根據(jù)研究問題的細致程度和突發(fā)事件的關(guān)注度大小進行劃分,但時間片要適中,過小會導(dǎo)致研究細節(jié)大量損失,研究結(jié)果誤差大,過大導(dǎo)致復(fù)雜度并沒有在原來問題規(guī)模上有明顯的降低,失去模型使用的意義.時間片的劃分主要是基于時間片的用戶關(guān)系網(wǎng)絡(luò)和話題衍生程度、關(guān)注度的變化.圖1是時間片(t,Δt+t)和話題分布示意圖.
圖1 時間片和話題分布示意圖Fig.1 Time slices and topics distribution
2)話題熱度量化和相鄰時間片內(nèi)的話題關(guān)聯(lián)實現(xiàn)
對時間片內(nèi)的話題熱度進行量化,是發(fā)現(xiàn)熱點話題,實現(xiàn)話題追蹤的前提,與此同時實現(xiàn)相鄰時間片內(nèi)的話題關(guān)聯(lián)則是展現(xiàn)突發(fā)事件發(fā)生后隨時間發(fā)展引發(fā)的各輿情話題之間衍生、耦合、內(nèi)生關(guān)系的前序工作.
(1)話題熱度量化
時間片內(nèi)的話題熱度主要與3方面相關(guān):話題與原事件的關(guān)聯(lián)度,與原生事件相關(guān)度越高的話題越容易成為某段時間內(nèi)的熱點話題;在該時間片內(nèi)話題的互聯(lián)網(wǎng)報道頻率,熱點話題的形成與該話題的報道頻率呈正相關(guān);與話題相關(guān)的網(wǎng)頁博文獲得的評論與轉(zhuǎn)發(fā)數(shù),評論和轉(zhuǎn)發(fā)數(shù)可以反映網(wǎng)頁博文的影響力,而發(fā)表高影響力的文章是用戶具有高認可度的主要標識,用戶的認可度越高,公眾與其互動越頻繁,具有高認可度和活躍性的博文所包含的話題更容易成為輿情熱點話題[9].綜合3個方面,改進文獻[10]的話題熱度計算公式(1),提出修正后的話題熱度計算公式(2):
(1)
(2)
受限于篇幅,對公式(1)中的變量說明參見文獻[10],其余變量說明如表1.
表1 變量定義及其意義
(2)相鄰時間片內(nèi)的話題關(guān)聯(lián)
針對圍繞突發(fā)事件的輿情話題的相關(guān)報道的語料信息,話題模型中話題信息層中的節(jié)點與輿情話題的相關(guān)度計算需要綜合考慮節(jié)點網(wǎng)頁之間的鏈接關(guān)系和內(nèi)容相似度.基于網(wǎng)頁間鏈接關(guān)系和內(nèi)容相關(guān)度本文提出網(wǎng)頁間話題相關(guān)度的計算公式(3).
R=RL⊕RC.
(3)
關(guān)于突發(fā)事件的互聯(lián)網(wǎng)輿情報道是按時序連續(xù)更新的,對于一系列連續(xù)的報道,為了反映出輿情話題的隨時間的演化路徑,先將時間軸劃分為一定長度的時間片,然后按照輿情報道發(fā)布的時間將其劃歸到相應(yīng)的時間片中,同時對與報道相關(guān)的新入網(wǎng)頁進行特征抽取,獲得特征項,用權(quán)重較高的特征項對報道進行描述,將報道轉(zhuǎn)化為特征項形成的多元向量空間,然后計算其與原輿情報道話題之間的內(nèi)容相似度[8].
定義RnewC(S,T)為互聯(lián)網(wǎng)輿情報道語料S和話題T的內(nèi)容相似度,式(4)表示了新輿情報道的內(nèi)容相似度的調(diào)整.
(4)
對于RL,主要根據(jù)新入輿情報道的網(wǎng)頁與原網(wǎng)頁之間的鏈接指向關(guān)系進行調(diào)整.如果新入的報道網(wǎng)頁Pa有指向原話題T的鏈接,根據(jù)公式(5)調(diào)整RL.
(5)
式中,Rc(Pa)為通過公式(4)計算出的內(nèi)容相似度.
計算出新的輿情報道的RL,RC后根據(jù)公式(3)調(diào)整話題相關(guān)度R.
預(yù)先設(shè)定閾值θ,當R≤θ時,認為新話題與原話題存在衍生關(guān)系,反之,則認為是對已有話題的重復(fù)報道.
2.1 模型有效性分析
話題熱度具有積累效應(yīng),突發(fā)事件從發(fā)生到結(jié)束的時間跨度內(nèi),一個話題可能貫穿事件的始末,熱度值隨時間的發(fā)展而產(chǎn)生、高漲直至消亡淡出公眾的視野.因此話題的熱度值計算也要考慮時間積累,以話題產(chǎn)生所在時間片為第1個時間片,ΔAtt(eij)為話題熱度在第j個時間片內(nèi)的增量,根據(jù)公式(2)進行量化.假設(shè)話題在第s個時間片內(nèi)消亡,則話題的熱度值為:
進行簡單的推導(dǎo)則可得到
為了分析話題當前熱度對歷史數(shù)據(jù)的依賴程度,假設(shè)當前時間片為第2s+1個時間片,而前s個時間片內(nèi)該話題的熱度正向變化,而后s+1個時間片的話題熱度值沒有發(fā)生明顯變化.則根據(jù)公式(2)代入計算該話題的熱度為:
h(α,s)=αs+1(1-αs) 對h函數(shù)關(guān)于α求偏導(dǎo)數(shù)得到:
利用Matlab繪制h(α,s)的函數(shù)圖像,反映時間片s對衰減因子的影響,如圖2.
圖2 時間片的變化對話題衰減因子的影響Fig.2 Affects of changes of time Slices on attenuation
從圖像中可觀測到:
1)函數(shù)值先增至最大值,然后下降至0,說明輿情話題隨著互聯(lián)網(wǎng)報道迅速吸引廣大網(wǎng)民關(guān)注成長為熱點話題,隨著時間推移,網(wǎng)民對該話題的關(guān)注度開始出現(xiàn)疲軟,并在后期逐漸淡出網(wǎng)民的視野,這符合輿情在互聯(lián)網(wǎng)中的傳播規(guī)律,在理論層面上直接證明了本文模型構(gòu)建的正確性.
2)s值越小,函數(shù)圖像的“峰值”越高,說明話題的熱度值對歷史數(shù)據(jù)的依賴程度越大.因此在對輿情熱點話題進行追蹤時,如果設(shè)置的時間跨度越小,話題的熱度值和真實的歷史數(shù)據(jù)(互聯(lián)網(wǎng)報道頻率,網(wǎng)民的關(guān)注度等)關(guān)聯(lián)越大,因此得到熱度值越準確,對熱點話題的追蹤結(jié)果也會比較合理.相反,如果進行話題追蹤時選擇的時間跨度較大,得到的話題熱度值受當前的網(wǎng)絡(luò)數(shù)據(jù)影響較大,而對歷史數(shù)據(jù)依賴程度低,在此基礎(chǔ)上形成的話題追蹤方法是不合理的,因為輿情話題的時效性較強,有的話題從產(chǎn)生到消亡的周期較短,在某一時期是熱點話題,但是隨著事件的發(fā)展,經(jīng)過一段時間熱度逐漸消退,如果選擇的時間跨度較大,觀測到的這些短時間內(nèi)的熱點話題的熱度值會較低,甚至低于預(yù)先設(shè)定的閾值,造成的結(jié)果便是認為其不是熱點話題.這種偏差性使得以此為基礎(chǔ)設(shè)計的話題追蹤方法不具備較好的話題探測能力.從這個角度來說,選取較小的時間片進行話題熱度計算,從而探測時間片內(nèi)的熱點話題,依此設(shè)計的話題追蹤方法是占優(yōu)的,從而說明本文基于時序信息劃分時間片的話題演化模型是合理的,可以據(jù)此設(shè)計話題追蹤方法.
3)s越大,函數(shù)圖像從上升至衰減至0的時間比較長,說明熱度積累的時間比較長.從話題追蹤的準確性角度考慮,一方面希望熱度能夠積累較長時間,另一方面又不希望由此造成的過于龐大的數(shù)據(jù)集.但是從函數(shù)圖像中雖然當s較大時,即熱度積累的時間跨度較長時,話題熱度先達到峰值,即最快成長為熱點話題,但是四條曲線的峰值產(chǎn)生的時間先后相差不大,說明時間跨度大小對熱點話題的產(chǎn)生時間并無明顯的影響.因此,在保證話題追蹤準確性的前提下,可適當降低s值,以縮減網(wǎng)頁信息層的數(shù)據(jù)規(guī)模.這也說明劃分時間片的話題演化模型可以在保證熱點話題追蹤準確性前提下可進一步通過縮減信息流規(guī)模來提高話題追蹤效率.
2.2 案例仿真
利用2013年引起全民關(guān)注的劉志軍案的輿情事件的傳播規(guī)律對模型進行驗證.事件發(fā)生后,由案件衍生出的“性賄賂是否入罪”話題成為媒體和公眾熱議的焦點話題.實驗選取的數(shù)據(jù)集來源于新浪博客,選用“網(wǎng)絡(luò)神采”數(shù)據(jù)采集器作為實驗工具,時間段設(shè)置為2013年6月9日至7月10日,采集到涉及“劉志軍案”熱點話題——“性賄賂入罪”的博文7 684篇, 865個關(guān)鍵詞,95 678條評論,過濾掉垃圾評論后得到86 235條有效評論.以此作為實驗數(shù)據(jù)集,來模擬突發(fā)事件發(fā)生后的互聯(lián)網(wǎng)報道信息流,按照公式(2)對數(shù)據(jù)集進行處理得到每日的話題熱度值,為了模擬仿真的需要,設(shè)定基數(shù)為2000,通過對話題熱度值進行簡單處理,可以得到能刻畫話題熱度值變化的數(shù)據(jù),見表2.
表2 “劉志軍案”熱點話題相關(guān)數(shù)據(jù)
根據(jù)處理后的數(shù)據(jù)繪制話題熱度變化的折線圖,同時利用Matlab軟件,取s=2,α=0.4進行模型擬合,如圖3.
圖3 “性賄賂入罪”熱點話題的演化仿真模擬圖Fig.3 Evolution simulation diagram of topic-sex bribery incrimination
從圖3中可以看出,仿真模擬曲線和實際數(shù)據(jù)基本吻合,擬合效果較好,實際情況是在第8天出現(xiàn)了最大值為0.347,而理論值是在第7天出現(xiàn)了最大值為0.344,第6天的數(shù)值為0.338與最大值幾乎是相等,也可以認為是最大值,所以天數(shù)基本可以認為是一致的,誤差為(0.347-0.344)/0.344=0.87%.在誤差允許的范圍,話題“性賄賂入罪”的熱度變化曲線與模型擬合曲線具有高度一致性,可見模型符合實際的輿情熱點話題的演化情況,可以據(jù)此設(shè)計話題追蹤算法來對熱點話題進行追蹤,反映事件的演化過程.
本文針對輿情話題傳播演化中的話題漂移和衍生現(xiàn)象,分析話題的衍生路徑和拓撲結(jié)構(gòu),構(gòu)建了基于時間片的話題演化動態(tài)模型,提出了話題模型的動態(tài)更新策略.利用數(shù)學仿真工具matlab軟件對模型的有效性進行了驗證說明了劃分時間片的方法建立演化模型是占優(yōu)的,除此之外將案例分析法引入模型,案例仿真的實驗結(jié)果和實際相吻合,驗證了本文建模的正確性,符合實際的輿情熱點話題的演化規(guī)律,這說明模型具有較好的適用性,可以據(jù)此設(shè)計話題追蹤算法實現(xiàn)對互聯(lián)網(wǎng)輿情話題的實時追蹤.受限于篇幅,在話題動態(tài)演化模型的基礎(chǔ)上設(shè)計有效的話題追蹤方法克服傳統(tǒng)的話題探測算法中不能兼顧話題漂移和衍生問題的缺陷的研究工作課題組將另行撰文.
[1] 中國互聯(lián)網(wǎng)絡(luò)信息中心. 第31次中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況調(diào)查統(tǒng)計報告[J].互聯(lián)網(wǎng)天地,2013(1):88-93.
[2] 曾潤喜. 網(wǎng)絡(luò)輿情管控工作機制研究[J].圖書情報工作, 2009 (18):79-82.
[3] 朱恒民, 蘇新寧. 互聯(lián)網(wǎng)輿情演化的動態(tài)網(wǎng)絡(luò)模型研究[J].情報理論與實踐, 2010, 33(10):75-78.
[4] MATSUMURA N , OHSAWA Y, ISHIZU K A M. Influence diffusion model in text-based communication[J].Journal of the Japanese Society for Artificial Intelligence,2002, 3(13):259-267.
[5] 張 虹, 鐘 華, 趙 兵. 基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)論壇話題熱度趨勢預(yù)報[J].計算機工程與應(yīng)用, 2013, 57(9):96-118.
[6] 胡艷麗, 白 亮, 張維明. 網(wǎng)絡(luò)輿情中一種基于OLDA的在線話題演化方法[J].國防科技大學學報, 2012, 34(1):150-154.
[7] 趙 華, 趙鐵軍, 趙 霞. 時間信息在話題檢測中的應(yīng)用研究[J].計算機科學, 2008, 35(1):221-223.
[8] CHEN C C, CHEN Y T, CHEN M C. An aging theory for event life-cycle modeling[J].IEEE Transactions on Systems, Man and Cybernetics, Part A: Systems and Humans, 2007, 37(2):237-248.
[9] AKRITIDIS L, KATSAROS D, BOZANIS P. Identifying the productive and influential bloggers in a community[J].IEEE Transactions on Systems, Man, and Cybernetics, 2011, 41(5):759-764.
[10] 高 田, 杜軍平. 基于領(lǐng)域知識本體的突發(fā)事件演化[J].中南大學學報(自然科學版), 2011, 42(S1):847-852.
Dynamic evolution model based on time slices of the topic
CHEN Ting1, QU Fei1, CHEN Fuji2
(1.School of Renai Tianjin University, Tianjin 310636;2.School of Economics and Management, Fuzhou University, Fuzhou 350108)
This article focuses on the timing characteristics, derivative features and topic drift in evolution of public opinion topic. Based on these, the dynamic evolution model is established. The accuracy of the model is verified through mathematical analysis and experimental simulation. In addition, the result demonstrates the efficiency of hot topic tracing is able to be increased upon accuracy by establishing time slices according the timing information. Furthermore, through actual evolution of a hot topic-“sexual bribery conviction” of “Liu Zhijun case” event, the correctness of the method is demonstrated.
network public opinions; dynamic model of topics evolution; hot degree of topic; model simiulation
2015-04-20.
國家自然科學基金項目(71271056).
1000-1190(2015)06-0890-05
G203
A
*E-mail: 215003771@qq.com.