張茂元,孫樹園,王奕博,孟瓊瑤,王 琦
(華中師范大學計算機學院,湖北 武漢 430079)
隨著互聯(lián)網的快速發(fā)展,網絡已經成為思想文化信息的集散地和社會輿論的放大器,網絡輿情成為映射社會輿情態(tài)勢的實時晴雨表。由于互聯(lián)網的虛擬性,如果不能準確把握網絡輿情的傳播規(guī)律并采取有效的引導管理措施,便極有可能影響社會的和諧與穩(wěn)定,近年來,對網絡輿情研究與監(jiān)管已經得到黨和國家的高度重視[1,2]。網絡輿情通常是由網絡中的各種熱點事件刺激而產生的,因此研究如何在熱點事件發(fā)展的萌芽階段預測其熱度及發(fā)展趨勢具有重要意義。
現(xiàn)實生活中,人們對網絡事件的參與程度(如報道數、評論數、轉發(fā)數等)是衡量網絡事件熱度的重要度量,這些度量跟隨時間的變化呈現(xiàn)為一個時間序列。不同來源、不同類型的網絡事件的熱度隨著時間的發(fā)展呈現(xiàn)一定規(guī)律的變化[3 - 5]。如圖1所示,其中圖1a是關于“天津港爆炸事件”的熱度序列圖,有數個高峰,衰減速度緩慢;圖1b是關于藝人大婚的熱度序列圖,其波形只有一個高峰,且衰減迅速。由此可見,網絡事件的時間序列蘊含著豐富的時態(tài)信息,通常情況下,同一類事件的發(fā)展趨勢有較高的相似性[6]。
Figure 1 Development trend of two different events圖1 兩個不同事件的熱度圖
在熱度預測方面,現(xiàn)有的方法大多是通過文本處理方法對網絡上的信息進行統(tǒng)計,并通過挖掘自身歷史數據對未來熱度趨勢進行預測。這種方法雖然可以達到較高的準確率,但由于新事件產生時,相關的報道數量、評論數、點擊率很少,加之網絡熱點事件通常具有爆發(fā)周期短的特點,使得該類算法無法有效地對新出現(xiàn)的事件進行預測,并且在預測的過程中忽視了事件時間序列中蘊含的時態(tài)信息。
在現(xiàn)實世界中,事件的發(fā)生并不是孤立的,相似事件的受關注程度及發(fā)展趨勢總是相似的?;谏鲜鏊枷?,本文提出了一種基于EKSC(EEMD-based K_SC)算法的網絡事件熱度預測模型。該模型使用EKSC算法對每類已知網絡輿情事件的時間序列進行聚類,并構建類模型庫。當待預測的事件發(fā)生時,首先確定事件的類別并獲取其已知的熱度時間序列,尋找合適的縮放比例并使用最小二乘法選取類模型庫中均方誤差和最小的模型對該事件進行預測。
在熱度發(fā)展趨勢預測方面,早期的預測方法主要是用于平穩(wěn)時間序列分析的自回歸模型AR(AutoRegressive)、滑動平均模型MA(Moving Average)和自回歸滑動平均模型ARMA(AutoRegressive Moving Average)三類。但自然界中絕大部分時間序列都是非平穩(wěn)的,隨著研究的逐漸深入,又出現(xiàn)了一批以現(xiàn)代科學技術方法為主要手段的預測模型。例如:文獻[7]采用高斯模型對帖子的發(fā)展態(tài)勢進行擬合,在此基礎上對帖子的后續(xù)發(fā)展進行預測;文獻[8]利用小波變換對帖子的點擊數或回復數所形成的時間序列進行轉換,得到低頻和高頻小波系數值,通過神經網絡對訓練集中各個小波系數進行評價,選取貢獻度最高的若干系數作為該類別的特征系數;文獻[9]利用馬爾科夫鏈對輿情的發(fā)展趨勢做預測。通過分析輿情事件的點擊數、回復數以及轉載數得到事件的熱度值,并求出熱度趨勢值,運用馬爾科夫鏈構造狀態(tài)轉移矩陣,最后得到預測結果。文獻[10]通過將經驗模態(tài)分解EMD(Empirical Mode Decomposition)和自回歸積分滑動平均模型ARIMA(AutoRegressive Integrated Moving Average Model)相結合進行輿情演化分析。這類方法的共同特點是采用模型和方法,不追求嚴格的數學推導,更重視對時間序列的擬合效果。雖然研究者們在熱度預測方面取得了豐碩的成果,但是由于網絡輿情是由多種成分共同作用的結果,而現(xiàn)有的方法大多在建模時使用具有一定局限性的單一模型進行建模,忽略了相似的網絡事件背后蘊含的發(fā)展規(guī)律。
對網絡事件熱度定義的問題,當前研究多采用的方法可分為:(1) 直接將事件的報道數或點擊數作為熱度;(2) 綜合考慮時間、關注度、轉發(fā)數、用戶影響力等多種因素定義事件的熱度。
方法(1)將多種因素納入到熱度的計算中簡單直觀,統(tǒng)計方便,如張虹等人[8]在使用小波分解對帖子的熱度進行預測時采用帖子的點擊數作為熱度標準;何炎祥等人[11]將各話題的發(fā)帖數量作為話題熱度,并以此為基礎改進了人口模型,使用遺傳優(yōu)化的神經網絡對話題的趨勢進行預測。方法(2)綜合考慮時間、關注度、轉發(fā)數、用戶影響力等多種因素對熱度進行計算。如鄭志蘊等人[12]在內容特征、博主特征和傳播特征三個方面對熱門微博進行特征分解,并使用信息增益算法對微博的熱度進行度量;Pal等人[13]在Twitter數據集上將發(fā)帖數、回復數、轉發(fā)數、粉絲數、被引用數引入熱度的計算中。
定義1(事件) 事件是在特定的時間和地點,由一系列的原因和條件而產生的,對一定的人群產生影響的事情,其表現(xiàn)形式為與之相關的一系列報道和文檔[14]。
定義2(熱度) 對一個網絡事件,在時間間隔t內被報道和評論的次數稱為該網絡事件在時間間隔t內的熱度。
定義3(熱度序列) 在一定時間范圍內,對事件的熱度進行記錄可得到關于該事件熱度的時間序列,稱為熱度序列。根據事件熱度序列,可畫出熱度時間序列圖,其反映了該事件的熱度是如何隨著時間的推移而變化的。
定義4(類模型) 對熱度時間序列聚類的結果中,每一個類別中所有成員序列所形成的矩陣中心曲線稱為類模型曲線。每一個類別的類模型序列反映了該類成員時間序列的共同模式特征。
文獻[15]為了刻畫兩個話題的時間序列之間的內在規(guī)律特征提出了K_SC(K_Spectral Centroid Clustering)算法。K_SC算法分為兩個步驟:首先,把所有時間序列隨機地進行分類,根據矩陣中心公式計算出每個類別矩陣的中心;其次,遍歷所有的時間序列,使用差異度計算公式,計算出與每個類別矩陣中心的差異度,并將其歸到差異度最小的類中,最后更新該類的矩陣中心。K_SC算法是一個迭代的過程,迭代停止的條件是:每個類別的成員不再發(fā)生變化或者達到預定的迭代次數。
下面給出時間序列差異度計算公式和更新矩陣中心公式。
(1)差異度計算公式:
(1)
(2)更新矩陣中心公式:
(2)
化簡后得到:
(3)
K_SC算法在初始類選擇上很敏感,如果初始類的選擇不好,則算法收斂的速度十分緩慢;此外,K_SC算法的差異度計算和矩陣中心選擇上使用了原始的時間序列進行處理,由于網絡事件的時間序列呈現(xiàn)非平穩(wěn)的變化特點,直接用來作為輸入會影響算法的聚類效果。因此,為了減少非平穩(wěn)性對聚類效果的影響,本文在集合經驗模式分解的基礎上,提出了改進的K_SC算法,稱為EKSC算法。EKSC算法分為兩個步驟:(1)對非平穩(wěn)的時間序列分解為若干近似于平穩(wěn)的時間序列進行處理;(2)重構并進行聚類。EKSC算法通過集合經驗模式分解將非平穩(wěn)的時間序列處理為不同尺度的時間分量,將不同周期的局部特征從原始序列中分離出來,再利用多變量相空間估計嵌入維數對數據進行重構,把在不同分量上的聚類結果作為迭代的基礎,有效地減少了非平穩(wěn)特性對算法準確性的影響。
非平穩(wěn)時間序列的分解方法較多,經驗模式分解EMD(Empirical Mode Decomposition)[16]是美國航天局Huang等人提出的一種信號處理方法。該方法的本質是對信號進行平穩(wěn)化處理,通過將信號中不同尺度(頻率)的波動逐級抽離出來,產生一系列包含原信號不同時間尺度局部特征信息的本征模函數IMF(Intrinsic Mode Function)和趨勢項res。IMF需要滿足兩個條件:(1)任一局部點上的由序列的極大值和極小值定義的包絡均值必須為0;(2)序列過零點的數量和極值點的數量必須相等,或者最多相差一個。EMD的分解過程是根據信號自身的特性將高低頻率先后抽離出來,因此EMD分解具有自適應性;而且EMD分解的各個分量在局部與標準的正弦曲線相吻合,因此各個IMF分量在局部近似正交,這使得瞬時頻率具有物理意義。
雖然EMD在解決非線性問題上比小波分解更加精確,但是EMD算法仍存在一些問題,即出現(xiàn)不同模態(tài)之間的混淆,稱為模態(tài)混疊。模態(tài)混疊是由在信號分解的過程中原始時間信號中含有的噪聲而造成的,最終將會導致分解的結果不穩(wěn)定。為了解決這一缺陷,Wu等人[17]在EMD的基礎上提出了EEMD(Ensemble Empirical Model Decomposition)算法。EEMD算法的核心是,在信號處理的過程中加入高斯白噪聲,從而改變信號不同頻率成分的極值點的分布情況,通過改變加入白噪聲的次數和大小可以有效地解決模態(tài)混疊的問題。序列y(t)的EEMD分解過程如下:
(1)設定加入高斯白噪聲的大小和次數為N,將第i次加入噪聲后的序列記為yi(t);
(2)將所有加入噪聲后的序列yi(t)進行EMD分解,得到不同尺度的本征模函數IMFij和趨勢項resi。其中,IMFij表示序列第i次加入噪聲后分解得到的第j個IMF;
(3)將N次分解的結果進行均值處理,得到EEMD分解后最終的IMF,即:
(4)
最終的結果表示為:
(5)
對某一類網絡事件的時間序列,我們首先對序列進行平穩(wěn)化處理,得到具有物理意義的各個IMF分量;然后從低頻分量開始聚類,將低頻分量的聚類結果作為高頻分量聚類的初始矩陣中心。算法迭代過程的結束條件為:
(1)如果低頻分量的聚類情況在高頻聚類時沒有改變,則跳出循環(huán)迭代結束;
(2)當算法運行到指定IMF分量層次時,迭代結束。
算法1EKSC算法
輸入:N個維度為L的時間序列,k個初始隨機類C={C1,C2,…,Ck}。
輸出:k個類的矩陣中心。
定義:IMF分量的個數用m表示
1.fori=1 toNdo
2.yi← EEMD Transform(xi);
3.end for
4.forj=mto 0 do
5. fori=1 toNdo
6. (C,μ1,μ2,…,μk)←K_SC(y,C,k);
7. if(finsh(C)) break;
8.end for
9.returnC,μ1,μ2,…,μk。
將原始序列使用EKSC算法進行聚類后可得到聚類結果C={C1,C2,…,Ck} ,對于每一類Ci,使用最小二乘法求出與該類包含的所有時間序列均方誤差和最小的類模型。具體做法如下:設類別Ci所包含的時間序列集合為{y1,y2,…,yn},n為類別Ci中所包含的時間序列的個數。每個時間序列表示為yj={tj1,tj2,…,tjl},l為時間序列的維度,1≤j≤n。則類別Ci的類模型可以表示為:
(6)
(7)
將式(6)代入式(7),式(7)可以看做關于a0,a1,…,ak的多元函數,根據多元函數求極值法,分別對a0,a1,…,ak求一階偏導,并令等式的右邊為零,得到如下的非齊次線性方程組:
(8)
解上述非齊次線性方程組,求出所有的駐點a0,a1,…,ak,并找到邊界值上的最小值,最小值對應的駐點即為該類類模型中的各個系數,從而可獲得該類的類模型。采取同樣的方法,可以建立每一類的類模型。
當新的網絡事件發(fā)生時,首先確定事件所屬的類別,并按一定的時間間隔采集該事件的熱度,獲得該事件的時間序列;將該事件的時間序列進行自適應的縮放變換,并逐一與其所屬的事件類別中的所有類模型進行匹配,選取與已知時間序列均方差和最小的類模型作為該事件的預測模型,具體流程如圖2所示。
Figure 2 Process of predicting development trend圖2 熱度預測流程
圖2中,新事件的熱度預測方法主要分為三個步驟:
(1)按一定的時間間隔采集新事件的熱度形成時間序列y,長度為len(y),對時間序列的橫坐標和縱坐標按照比例p1、p2進行平移和縮放。經過縮放變換后的橫坐標ti和縱坐標yi分別為:
ti=(tθ+tr-tθ)(xi-θ))p2
(9)
實驗共使用三個數據集,分別來自Stanford大學(http://snap.stanford.edu/data/volumeseries.html)的MemePhr數據集、Twhtag數據集和從“新浪新聞”爬取的社會安全類新聞報道數據。MemePhr數據集選取1 000個博客和網站上的熱門帖子和新聞,以評論數作為熱度,按小時進行劃分,維度為128;Twhtag選自Twitter上的1 000個熱門帖子,以帖子被提及的次數作為熱度,按小時劃分,維度為128;第三個數據集來自“新浪”新聞中在2015年4月~2015年10月期間關于社會安全類的新聞報道,以新聞報道的評論數為熱度,按小時進行劃分,維度為120。實驗分為兩個部分,實驗第一部分分別在MemePhr數據集、Twhtag數據集和從“新浪新聞”爬取的社會安全類新聞報道數據上對EKSC算法與K_SC算法的聚類效果進行評估;實驗第二部分在從“新浪新聞”爬取的社會安全類新聞報道數據上對“天津港爆炸”事件的發(fā)展趨勢進行預測。
(1)EKSC算法和K_SC算法聚類效果評價指標。
作為聚類算法,主要考慮算法的聚類結果是否合理,為此,分別從類內和類間進行評價:
①F-Value(F值)。F值反映了每個類內部成員的緊湊程度,F(xiàn)值越小,表明類內的元素越緊湊。其計算方法如下:
②D-Value(D值)。
其中,μi、μj分別代表了類i和類j的中心。D值的大小反映了類間的差異性,因此,D值越大表明聚類的效果越好。
(2)趨勢預測評價指標。
趨勢預測的目的在于對網絡事件發(fā)展過程中所形成的時間序列進行預測,其準確性可通過預測值與真實值的對比進行衡量。因此,選擇均方誤差MSE(Mean Square Error)和趨勢預測準確率(PRE)兩個指標對結果進行評價。
①均方誤差MSE。MSE反映了事件熱度的預測值與真實值之間的差距,計算方式如下:
(10)
②趨勢預測準確率PRE。趨勢預測準確率反映了對事件發(fā)展趨勢預測的準確性,PRE值越大,表明預測的結果越準確。對待預測事件所形成的時間序列Y和預測得到的時間序列Y′,其第i個時刻到第i+1個時刻的趨勢預測是否正確記為Ri,Ri的定義如下:
(11)
則趨勢預測準確率PRE的計算公式如下:
(12)
4.3.1 EKSC算法與K_SC算法聚類效果比較
表1給出了K_SC算法和EKSC算法在三個數據集上的F值和D值。從表1中可以看出,EKSC算法在F值和D值上都要優(yōu)于K_SC算法,說明無論在類內成員的緊湊程度上還是類間的差異度上,EKSC算法都要好于K_SC算法。其原因在于,EEMD能根據信號的自身特性自適應地分解若干表征局部特征的IMF分量,不同尺度的IMF分量物理含義明顯。在網絡事件的時間序列分解上,各個分量所代表的物理含義可以看作事件演化過程的特征成分、瞬時成分、周期成分和趨勢成分。因此,在初始矩陣中心的選擇上,EKSC算法所選擇的矩陣中心更能反映各個類別的發(fā)展特性。
Table 1 F-Value and D-value of two algorithms under different data sets
4.3.2 趨勢預測結果與分析
對“天津港爆炸事件”的預測需要對其所屬的事件類型構建類模型庫,為了構建類模型庫,首先使用EKSC算法對其所屬的社會安全類數據集進行聚類,并通過最小二乘法得到每一小類的模型。對社會安全類事件的聚類,其模型曲線如圖3所示。圖3表示將該類事件劃分為4個小類的模型曲線。構建得到每一小類的模型后,將“天津港爆炸事件”前60小時的數據作為訓練數據,后60小時的數據作為測試數據,設定橫縱坐標的縮放比例,當p1=2,p2=1.5時,模型庫中的第3類模型與縮放后的“天津港爆炸事件”數據的均方誤差和最小。因此,選定模型3作為天津港事件的預測模型。對模型3的橫縱坐標按照1/p1,1/p2的比例進行反變化,并將模型中前60小時的數據替換為天津港事件前60小時的數據,從而得到天津港事件的預測曲線。
Figure 3 Class model library of the development trend圖3 類模型曲線圖
為了驗證本文方法的有效性,將本文提出的方法與其他兩種算法進行比較。
算法1參照文獻[10]中提出的“基于數據挖掘的網絡論壇話題熱度趨勢預報”方法,選取N=4階消失矩的db4小波,采用3層BP(Back Propagation)神經網絡模型對“天津港爆炸事件”進行熱度預測,其中隱含層和輸出層的傳遞函數設置為logsig,訓練函數為trainlm。在BP神經網絡中,學習速率Ir的大小對收斂的速度和訓練結果影響很大,一般設定在0.01~0.1,本文設定Ir為0.1。
算法2參照文獻[18]中提出的“基于K近鄰的新話題熱度預測算法” 對“天津港爆炸事件”進行熱度預測。在文獻[18]中,當K=1時,實驗效果最好,因此本文將K的值取為1。
表2給出了三種方法得到的預測值與實際值之間的均方誤差和趨勢預測準確率,圖4給出了天津港事件的真實熱度曲線和預測曲線。從表2中可以看到,基于EKSC算法的熱度預測方法在預測熱度值的準確性和事件發(fā)展趨勢的預測上都要優(yōu)于其他兩種方法,因此,本文提出的預測方法是有效的。
Table 2 Predicted results of different methods
Figure 4 Comparison of predicted trend and actual trend圖4 “天津港爆炸事件”熱度預測對比圖
近年來隨著我國進入關鍵的轉型階段,社會的復雜程度進一步提高,合理科學地監(jiān)管和引導網絡輿情對確保社會的穩(wěn)定和諧具有重要意義。如何準確把握網絡輿情的傳播規(guī)律是一個關鍵問題,本文就此提出了基于ESKC算法的網絡事件熱度預測模型。該模型使用EKSC算法對每類的已知網絡輿情事件的時間序列進行聚類,并構建類模型庫。當待預測的事件發(fā)生時,首先確定事件的類別并獲取其已知的熱度時間序列,尋找合適的縮放比例并使用最小二乘法選取類模型庫中均方誤差和最小的模型對該事件進行預測。實驗表明本文提出的方法比傳統(tǒng)的預測方法預測結果更準確,可以更好地幫助監(jiān)管部門對網絡輿情事件發(fā)展態(tài)勢的把控,提高網絡輿情監(jiān)管功效。
[1] Dai Yuan,Yao Fei.Research on information mining and evaluation index system based on network public opinion security [J].Information Studies:Theory & Application,2008,31(6):873-876.(in Chinese)
[2] Zeng Run-xi,Xu Xiao-lin.A study on early warning mechanism and index for network opinion [J].Journal of Intelligence,2009,28(11):52-54.(in Chinese)
[3] Szabo G,Huberman B A.Predicting the popularity of online content [J].Communications of the ACM,2010,53(8):80-88.
[4] Mei Q,Liu C,Su H et al.A probabilistic approach to spatiotemporal theme pattern mining on weblogs [C]∥Proc of the 15th International Conference on World Wide Web, 2006:533-542.
[5] Crane R, Sornette D.Robust dynamic classes revealed by measuring the response function of a social system [J].Proceedings of the National Academy of Sciences of the United States of America,2008,105(41):15649-15653.
[6] Gao Hui,Wang Sha-sha,Fu Yan.Prediction model for long-term development trend of web sentiment [J].Journal of University of Electronic Science and Technology of China,2011,40(3):440-445.(in Chinese)
[7] Lu Jun-jia,Zhang Hong-li,Zhang Yue.Research on the technology of hot topics foundation and trend forecast in BBS [J].Intelligent Computer and Applications,2012,2(2):1.(in Chinese)
[8] Zhang Hong,Zhong Hua,Zhao Bing.Hot trend prediction of network forum topic based on data mining [J].Computer Engineering and Applications,2007,43(31):159-161.(in Chinese)
[9] Liu Kan,Li Jing,Liu Ping.Trend analysis of public opinion based on Markov chain [J].Computer Engineering and Applications,2011,47(36):170-173.(in Chinese)
[10] Zhou Yao-ming, Wang Bo, Zhang Hui-cheng.Evolution analysis and modeling method of internet public opinions based on EMD [J].Computer Engineering,2012,38(21):5-9.(in Chinese)
[11] He Yan-xiang, Liu Jian-bo, Liu Nan.Based on improved Malthusian model microblogging topic trend forecast [J].Journal on Communications,2015,36(4):5-12.(in Chinese)
[12] Zheng Zhi-yun, Jiang Guo-lin,Zhang Hang-jin.Researh on the prediction algorithm for Sina popular micro blog based on multi-features [J].Journal of Chinese Computer System,2017,38(3):494-498.(in Chinese)
[13] Pal A,Counts S.Identifying topical authorities in microblogs [C]∥Proc of the 4th ACM International Conference on Web Search and Data Mining,2011:45-54.
[14] Chen Xue-chang,Han Jia-zhen,Wei Gui-ying.Topic detection and tracking pilot study [J].China Management Informationization,2011,14(9):56-58.
[15] Yang J,Leskovec J.Patterns of temporal variation in online media [C]∥Proc of the 4th ACM International Conference on Web Search and Data Mining,2011:177-186.
[16] Huang N E, Shen Zheng,Long S R,et al.The empirical mode decomposition and the hilbert spectrum for nonlinear and non-stationary time series analysis[J].Proceedings of the Royal Society,1998,454(1971):903-995.
[17] Wu Zhao-hua, Norden E H.Ensemble empirical mode decomposition:A noise-assisted data analysis method[J].Advances in Adaptive Data Analysis,2009,1(1):1-41.
[18] Nie En-lun,Chen Li,Wang Ya-qiang.Algorithm for prediction of new topic’s hotness using theK-nearest neighbors [J].Computer Science,2012,39(S1):257-260.(in Chinese)
附中文參考文獻:
[1] 戴媛,姚飛.基于網絡輿情安全的信息挖掘及評估指標體系研究[J].情報理論與實踐,2008,6(31):873-876.
[2] 曾潤喜,徐曉林.網絡輿情突發(fā)事件預警系統(tǒng)、指標與機制[J].情報雜志,2009,28(11):52-54.
[6] 高輝,王沙沙,傅彥.Web輿情的長期趨勢預測方法[J].電子科技大學學報,2011,40(3):440-445.
[7] 盧珺珈,張宏莉,張玥.基于BBS的熱點話題發(fā)現(xiàn)與態(tài)勢預測技術的研究[J].智能計算機與應用,2012,2(2):1.
[8] 張虹,鐘華,趙兵.基于數據挖掘的網絡論壇話題熱度趨勢預報[J].計算機工程與應用,2007,43(31):159-161.
[9] 劉勘,李晶,劉萍.基于馬爾可夫鏈的輿情熱度趨勢分析[J].計算機工程與應用,2011,47(36):170-173.
[10] 周耀明,王波,張慧成.基于EMD的網絡輿情演化分析與建模方法[J].計算機工程,2012,38(21):5-9.
[11] 何炎祥,劉健博,劉楠.基于改進人口模型的微博話題趨勢預測[J].通信學報,2015,36(4):5-12.
[12] 鄭志蘊,江國林,張行進,等.基于多特征的熱門微博預測算法研究[J].小型微型計算機系統(tǒng),2017,38(3):494-498.
[18] 聶恩倫,陳黎,王亞強,等.基于K近鄰的新話題熱度預測算法[J].計算機科學,2012,39(S1):257-260.