黃敏,胡學(xué)鋼
1.安徽廣播電視大學(xué),合肥 230022
2.合肥工業(yè)大學(xué)計算機與信息學(xué)院,合肥 230009
基于支持向量機的網(wǎng)絡(luò)輿情混沌預(yù)測
黃敏1,胡學(xué)鋼2
1.安徽廣播電視大學(xué),合肥 230022
2.合肥工業(yè)大學(xué)計算機與信息學(xué)院,合肥 230009
網(wǎng)絡(luò)輿情是社會輿情的重要組成部分,相對于傳統(tǒng)新聞媒體,它的互動性更強,用戶既是信息接收者,又是信息發(fā)起者,使得信息在網(wǎng)絡(luò)上傳播更加及時和迅速,負面的網(wǎng)絡(luò)輿情將會對社會公共安全形成較大威脅,因此對網(wǎng)絡(luò)輿情變化進行分析和建模,并對其發(fā)展趨勢進行預(yù)測,可以幫助有關(guān)部門制定正確的輿論引導(dǎo)策略,對維護社會和諧穩(wěn)定具有重要的現(xiàn)實意義[1-2]。
當前網(wǎng)絡(luò)輿情預(yù)測方法主要分為兩類:傳統(tǒng)統(tǒng)計學(xué)預(yù)測方法和機器學(xué)習(xí)預(yù)測方法。傳統(tǒng)統(tǒng)計學(xué)預(yù)測方法有自回歸(AR)、滑動平均(MA)、差分自回歸移動平均(ARIMA)等[3-5]。該類方法簡單、易實現(xiàn),尤其是ARIMA極具彈性,它可表示各種不同種類的時間序列模型,融合了時間序列分析和回歸分析的優(yōu)點,在網(wǎng)絡(luò)輿情變化預(yù)測應(yīng)用最為廣泛,然而ARIMA是一種線性預(yù)測模型,網(wǎng)絡(luò)輿情變化受到多種因素的影響,具有非線性,ARIMA無法捕捉網(wǎng)絡(luò)輿情變化的非線性變化特點,從而影響了預(yù)測精度[6]。機器學(xué)習(xí)算法主要有人工神經(jīng)網(wǎng)絡(luò)(ANN)、支持向量回歸機(SVR)等。該類方法基于非線性理論建模,可以更加準確地描述網(wǎng)絡(luò)輿情變化,較傳統(tǒng)的線性預(yù)測模型,預(yù)測精度得到進一步提高,結(jié)果更加理想[7-10]。由于網(wǎng)絡(luò)輿情有人的參與,用戶有自己的偏好和思想,導(dǎo)致網(wǎng)絡(luò)輿情具有較強混沌性,當前機器學(xué)習(xí)算法均忽略了網(wǎng)絡(luò)輿情的混沌特性,因此建立的模型不能全面、準確描述網(wǎng)絡(luò)輿情變化,預(yù)測準確性有待進一步提高[11]。
針對網(wǎng)絡(luò)輿情變化的混沌性,將混沌理論引入到網(wǎng)絡(luò)輿情建模預(yù)測中,并與SVR相結(jié)合,提出一種基于相空間重構(gòu)和支持向量回歸機相融合的網(wǎng)絡(luò)輿情預(yù)測模型(PHR-SVR),并通過仿真實驗驗證PHR-SVR的有效性。
相空間重構(gòu)是混沌理論的基礎(chǔ),主要思想是:系統(tǒng)任一分量的演化是由與其相互作用的其他分量決定的,它的相關(guān)分量的信息隱藏在這一分量的演化過程中,因此可以通過分析某一分量的時間序列,了解原系統(tǒng)的動力學(xué)特性,提取和恢復(fù)出原系統(tǒng)的規(guī)律[12]。
設(shè)時間序列為:x(t),t=1,2,…,N,通過選擇合適的嵌入維數(shù)m和延遲時間τ,就可以對其進行重構(gòu),得到一個多維向量序列X(t),從而挖掘隱藏于時間序列的信息,恢復(fù)原動力系統(tǒng)。
式中,M=N-(m-1)τ,M為相點個數(shù)。
2.1 樣本數(shù)據(jù)來源
選擇“長春嬰兒隨車被盜案”作為網(wǎng)絡(luò)輿情的源事件,由于天涯社區(qū)是鳳凰網(wǎng)和艾瑞咨詢集團共同發(fā)布的“全球中文論壇100強”中排名第一的論壇,在知名度和影響度上具有優(yōu)勢,其數(shù)據(jù)具有代表性,因此選擇天涯社區(qū)中的論壇數(shù)據(jù)作為網(wǎng)絡(luò)輿情的數(shù)據(jù)源。從2013年3月4日上午10時天涯社區(qū)中出現(xiàn)第一個關(guān)于“長春嬰兒隨車被盜案”事件的源帖開始,到2013年3月8日10時為止,共采集96小時的帖子數(shù)作為研究對象,具體如圖1所示。
圖1 收集的網(wǎng)絡(luò)輿情數(shù)據(jù)
2.2 數(shù)據(jù)預(yù)處理
從圖1可知,網(wǎng)絡(luò)輿情變化范圍比較大,為了避免取值范圍大的數(shù)據(jù)淹沒了取值范圍小的數(shù)據(jù);且SVR核函數(shù)的值依賴于特征向量的內(nèi)積,數(shù)據(jù)過大會對訓(xùn)練過程產(chǎn)生不利影響,為此,在數(shù)據(jù)輸入到SVR之前對其進行歸一化處理,歸一化公式為:
式中,x′表示歸一化后的值,xmax和xmin分別表示最大值和最小值[13]。
2.3 網(wǎng)絡(luò)輿情相空間重構(gòu)
2.3.1 互信息法計算延遲時間
(1)構(gòu)建網(wǎng)絡(luò)輿情量時間序列{x(t)}的二維相圖,令(x,y)=[x(t),x(t+τ)],τ=1。
(2)在二維相圖中畫出吸引子的矩形框,并將矩形框劃分成等間距的小格子,x0和y0是格子的起始點,Δx和Δy分別是x和y方向上小格子的長度,Mx和My分別是x和y方向上格子的數(shù)目。
式中,H(X)代表X的不確定程度,P(xi)是xi發(fā)生的概率,q為狀態(tài)總數(shù),H(X,Y)為X和Y的聯(lián)合信息熵,P(xi,yi)為事件xi與yi同時發(fā)生的聯(lián)合概率。
(4)令τ=τ+1,返回步驟(2)。
網(wǎng)絡(luò)輿情時間序列的互信息函數(shù)變化曲線如圖2所示。從圖2可知,當τ=3時,互信息函數(shù)達到第一極小值,所以網(wǎng)絡(luò)輿情時間序列的τ=3。
圖2 網(wǎng)絡(luò)輿情的延遲時間計算
2.3.2 G-P法選擇嵌入維數(shù)
(1)根據(jù)互信息法求出τ=3,嵌入維數(shù)的初值為m=1。
(2)選擇合適的臨界距離r,根據(jù)式(6)計算Cn(r),向量距離采用∞范數(shù)計算,即兩個向量最大分量差作為向量距離。
式中,M為相點的個數(shù),r為臨界距離,θ為Heaviside單位函數(shù)。
(3)用最小二乘法擬合lgC(r)n~lgr曲線中的直線段,直線的斜率為關(guān)聯(lián)維數(shù)D。
(4)增加嵌入維數(shù),即m=m+1,返回步驟(2)。
網(wǎng)絡(luò)輿情時間序列在不同嵌入維數(shù)下的關(guān)聯(lián)維數(shù),如圖3所示。從圖3可知,當嵌入維數(shù)m=5時,關(guān)聯(lián)維數(shù)達到飽和狀態(tài),這表明網(wǎng)絡(luò)輿情時間序列的最優(yōu)m=5。
圖3 網(wǎng)絡(luò)輿情的嵌入維數(shù)計算
2.4 網(wǎng)絡(luò)輿情時間序列的混沌性識別
混沌系統(tǒng)具有對初始值敏感的特性,若系統(tǒng)的最大Lyapunov指數(shù)λ1>0,則該系統(tǒng)一定是混沌的?;谛?shù)據(jù)量法求取最大Lyapunov指數(shù)計算步驟如下:
(1)對時間序列x(t),t=1,2,…,N,進行快速傅里葉變換,計算出平均周期p。
(2)利用互信息法計算延遲時間τ。
(3)根據(jù)延遲時間τ和嵌入維數(shù)m重構(gòu)相空間X(t),t= 1,2,…,M。
(4)找相空間中每個點X(t)的最近鄰點X(t?),并限制短暫分離,即
式中,t=1,2,…,M。
(5)對相空間中每個點X(t),計算出該鄰域點對的i個離散時間步長后的距離dt(i)。
式中,q為非零dt(i)的數(shù)目,并用最小二乘法做出回歸直線,該直線的斜率為最大Lyapunov指數(shù)。
通過計算得到網(wǎng)絡(luò)輿情時間序列的平均周期p=1,嵌入維數(shù)m=5,延遲時間τ=3,利用最小二乘法擬合直線,其斜率為最大Lyapunov指數(shù),得到λmax=0.001 52>0,這表明,網(wǎng)絡(luò)輿情時間序列具有弱混沌特性。
2.5 支持向量機算法
2.5.1 支持向量機回歸
支持向量機是一種基于統(tǒng)計學(xué)習(xí)理論的機器學(xué)習(xí)算法,在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折衷,以期獲得最好的推廣能力[14]。SVR的回歸估計函數(shù)為:
式中,w表示權(quán)向量,b表示偏置向量。
使得預(yù)測的期望風(fēng)險函數(shù)最?。?/p>
在求解實際問題時,只需利用支持向量進行求解,于是回歸估計函數(shù)為:
式中,σ為徑向基核函數(shù)的寬度。
2.5.2 支持向量機回歸的網(wǎng)絡(luò)輿情預(yù)測模型
給定網(wǎng)絡(luò)輿情時間序列的數(shù)據(jù)集D={x(t),t=1,2,…,N},取延遲時間τ=3,嵌入維數(shù)m=5,按照上述的相空間重構(gòu)方法,就可以得到相空間域中的數(shù)據(jù)集為:D?={X(t), Y(t)},t=1,2,…,M,其中X(t)={}x(t),x(t+τ),…,x[t+(m-1)τ],Y(t)=x(t+1+(m-1)τ),t=1,2,…,M,寫成矩陣形式為:
相空間域的預(yù)測模型就是用相空間中的點X(t)預(yù)測出Y(t),即找到一個映射函數(shù)F,使得:
本文通過利用SVR來求取該映射函數(shù),基于PHR-SVR的建模過程如圖4所示。
圖4 PHR-SVR的網(wǎng)絡(luò)輿情預(yù)測流程
3.1 仿真環(huán)境
在PIV 3.0 GHz CPU,2 GB RAM,操作系統(tǒng)為Windows 2000環(huán)境,通過VC++編程實現(xiàn)算法。采用ARIMA、SVR(沒有相空間重構(gòu))、PHR-BPNN作為對比模型。采用均方誤差(RMSE)和平均相對百分比誤差(MAPE)作為模型優(yōu)劣評價標準。它們定義如下:
式中,xt和分別為實際值和模型預(yù)測值,n為樣本數(shù)。
3.2 結(jié)果與分析
3.2.1 一步預(yù)測
由于原始訓(xùn)練樣本為65,而且最優(yōu)嵌入維數(shù)為m=5,那么重構(gòu)后就得到66-5=61個新的訓(xùn)練集。首先采用含有61個數(shù)據(jù)進行訓(xùn)練,并進行一步預(yù)測,然后將預(yù)測點的真實值加入到訓(xùn)練集中,再進行一步預(yù)測,依此類推,最后得出30個測試集的一步預(yù)測值,再將最后預(yù)測值與測試集的真實值進行比較,并計算相應(yīng)的RMSE和MAPE。BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)為5-11-1;通過粒子群算法得到SVR最優(yōu)的C=100,σ=1.715,ARIMA模型選擇ARIMA(3,2,2)。各模型對網(wǎng)絡(luò)輿情測試集的預(yù)測結(jié)果如圖5所示,它們相應(yīng)的RMSE和MAPE見表1。
圖5 網(wǎng)絡(luò)輿情一步預(yù)測結(jié)果
表1 各模型的一步預(yù)測性能對比
從表1和圖5的結(jié)果進行分析,可以得到如下結(jié)論:
(1)相對于ARIMA,PHR-SVR的網(wǎng)絡(luò)輿情預(yù)測精度大幅度提高,這主要由于ARIMA無法捕捉到網(wǎng)絡(luò)輿情時間序列的非線性變化特點,而PHR-SVR利用SVR的非線性預(yù)測能力有效提高了網(wǎng)絡(luò)輿情的預(yù)測精度。
(2)相對于SVR,PHR-SVR的網(wǎng)絡(luò)輿情預(yù)測誤差值更小,預(yù)測值與真實值十分接近,這主要由于PHR-SVR通過采用PHR挖掘隱含于網(wǎng)絡(luò)輿情時間序列的信息,可以更加準確、全面地對網(wǎng)絡(luò)輿情變化趨勢進行描述,得到更加可靠的預(yù)測結(jié)果,進一步提高了網(wǎng)絡(luò)輿情預(yù)測精度。
(3)相對于PHR-BPNN,PHR-SVR的預(yù)測結(jié)果始終比較穩(wěn)定,且預(yù)測結(jié)果的RMSE、MAPE值遠遠小于PHR-BPNN,這主要由于SVR很好地克服了BP神經(jīng)網(wǎng)絡(luò)過擬合、局部極小和網(wǎng)絡(luò)參數(shù)難以確定的難題,泛化能力更強,預(yù)測精度更高。
3.2.2 多步預(yù)測
網(wǎng)絡(luò)輿情預(yù)測時間一般要求有較大的提前量,采用一步預(yù)測(即僅對當前時間下一小時網(wǎng)絡(luò)輿情進行預(yù)測),既不能有效反映網(wǎng)絡(luò)輿情變化趨勢,也無法針對一些負面網(wǎng)絡(luò)輿情作出有效和及時的應(yīng)對,因此,有必要將一步預(yù)測擴展到多步預(yù)測方法,于是采用多步預(yù)測法預(yù)測未來24 h的網(wǎng)絡(luò)輿情,所有模型均采用迭代法的多步預(yù)測法,即重復(fù)使用一步向前預(yù)測若干次,并把上一次的預(yù)測值視做系統(tǒng)輸出真值,應(yīng)用于下一次預(yù)測中[15]。各模型的預(yù)測結(jié)果真實值與預(yù)測值對比見圖6。它們的RMSE和MAPE見表2。
從圖6和表2可以看出,ARIMA、SVR、PHR-BPNN網(wǎng)絡(luò)輿情的多步預(yù)測精度較低,誤差相當高,預(yù)測結(jié)果不可靠,預(yù)測結(jié)果實際應(yīng)用價值較低,而PHR-SVR預(yù)測誤差明顯小于對比模型,而且PHR-SVR對網(wǎng)絡(luò)輿情變化的趨勢預(yù)測比較準確,預(yù)測性能要優(yōu)于對比模型,預(yù)測結(jié)果具有較大的實際價值。
圖6 多步預(yù)測法的預(yù)測結(jié)果對比
表2 各模型的多步預(yù)測性能對比
3.2.3 其他網(wǎng)絡(luò)熱點話題預(yù)測
為了使模型的性能更具說服力,采用2013年4月最熱門的話題“解放軍新式軍車號牌曝光”、“蘋果公司向中國消費者致歉”、“美媒體稱中國向中朝邊境調(diào)軍隊”、“浙江大姐中國式過馬路被罰,追著交警吐口水”、“日本允許臺灣漁船在釣魚島捕魚”、“劉志軍被曝光涉嫌受賄6千萬元”進行測試實驗,得到的一步預(yù)測誤差見表3。從表3可知,PHR-SVR獲得較好的預(yù)測精度,預(yù)測誤差控制在有效的范圍(5%)以內(nèi),結(jié)果表明,PHR-SVR是一種預(yù)測精度高、通用性好的網(wǎng)絡(luò)輿情預(yù)測模型。
表3 PHR-SVR對其他網(wǎng)絡(luò)熱點話題一步預(yù)測誤差
網(wǎng)絡(luò)輿情受到多種影響因素的綜合影響,具有時變性、混沌性,是一種復(fù)雜的變化系統(tǒng),傳統(tǒng)預(yù)測算法難以建立準確的預(yù)測模型。針對網(wǎng)絡(luò)輿情的混沌變化特點,采用混沌理論和SVR建立了一種基于PHR-SVR的網(wǎng)絡(luò)輿情預(yù)測模型。結(jié)果表明:相對于對比模型,PHR-SVR提高了網(wǎng)絡(luò)輿情預(yù)測精度,預(yù)測結(jié)果更加穩(wěn)定,更加準確描述了網(wǎng)絡(luò)輿情復(fù)雜的變化趨勢,預(yù)測結(jié)果有助于正確把握網(wǎng)絡(luò)輿情的發(fā)展,從而有助于科學(xué)合理地引導(dǎo)、管理各種網(wǎng)絡(luò)輿情傳播平臺,促進和諧社會構(gòu)建工作的開展。
[1]王來華.輿情研究概論——理論、方法和現(xiàn)實熱點[M].天津:天津社會科學(xué)院出版社,2007.
[2]方薇,何留進,宋良圖.因特網(wǎng)上輿情傳播的預(yù)測建模和仿真研究[J].計算機科學(xué),2012,39(2):203-207.
[3]劉常昱,胡曉峰,司光亞,等.基于小世界網(wǎng)絡(luò)的輿論傳播模型研究[J].系統(tǒng)仿真學(xué)報,2006,18(12):608-6l0.
[4]錢愛玲,瞿彬彬,盧炎生,等.多時間序列關(guān)聯(lián)規(guī)則分析的論壇輿情趨勢預(yù)測[J].南京航空航天大學(xué)學(xué)報,2012,44(6):904-910.
[5]高輝,王沙沙,傅彥.Web輿情的長期趨勢預(yù)測方法[J].電子科技大學(xué)學(xué)報,201l,40(3):440-445.
[6]張虹,鐘華,趙兵.基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)論壇話題熱度趨勢預(yù)報[J].計算機工程與應(yīng)用,2007,43(31):159-161.
[7]方薇,何留進.采用元胞自動機的網(wǎng)絡(luò)輿情傳播模型研究[J].計算機應(yīng)用,2010,30(3):751-755.
[8]劉勘,李晶,劉萍.基于馬爾可夫鏈的輿情熱度趨勢分析[J].計算機工程與應(yīng)用,2011,47(36):170-173.
[9]周耀明,李弼程.一種自適應(yīng)網(wǎng)絡(luò)輿情演化建模方法[J].數(shù)據(jù)采集與處理,2013,28(1):69-75.
[10]Zeng J P,Zhang S Y,Wu C R,et al.Predictive model for Internet public opinion[C]//Fourth International Conference on Fuzzy Systems and Knowledge Discovery.Haikou:IEEE Press,2007:7-11.
[11]Zeng J P,Zhang S Y,Wu C R,et al.Modeling topic propagation over the Internet[J].Mathematical and Computer Modeling of Dynamic Systems,2009,15(1):83-93.
[12]張春濤,馬千里,彭宏.基于信息熵優(yōu)化相空間重構(gòu)參數(shù)的混沌時間序列預(yù)測[J].物理學(xué)報,2010,59(11):7623-7629.
[13]黃虎,蔣葛夫,嚴余松,等.基于支持向量回歸機的區(qū)域物流需求預(yù)測模型及其應(yīng)用[J].計算機應(yīng)用研究,2008,25(9):2738-2740.
[14]趙云,肖嵬,陳阿林.基于加權(quán)支持向量回歸的網(wǎng)絡(luò)流量預(yù)測[J].計算機工程與應(yīng)用,2012,48(21):103-106.
[15]洪貝,胡昌華,姜學(xué)鵬.基于證據(jù)理論的迭代多步預(yù)測方法研究[J].控制理論與應(yīng)用,2010,27(12):1737-1742.
HUANG Min1,HU Xuegang2
1.Anhui Radio&TV University,Hefei 230022,China
2.School of Computer and Information,Hefei University of Technology,Hefei 230009,China
In order to improve the prediction accuracy of internet public opinion,this paper proposes an internet public opinion prediction model based on chaotic theory and Support Vector Regression.The internet public opinion time series proves to be with chaos characteristics,and then delay time and embedding dimension are calculated using mutual information method and G-P method respectively according to takens theorem,and the internet public opinion time series is reconstructed in phase space. The internet public opinion forecasting model is established using Support Vector Regression,and the simulation experiment is carried out with comparison models.The experimental results show that,compared with other models,the proposed model has improved the prediction accuracy and stability of internet public opinion and the prediction results have practical value.
internet public opinion;Support Vector Regression(SVR);phase space reconstruction;chaotic theory
精確預(yù)測網(wǎng)絡(luò)輿情發(fā)展趨勢,對防止負面網(wǎng)絡(luò)輿情對公共安全威脅具有重要意義,針對網(wǎng)絡(luò)輿情變化的時變性、混沌性,提出一種基于支持向量機的網(wǎng)絡(luò)輿情混沌預(yù)測模型(PHR-SVR)。證明了網(wǎng)絡(luò)輿情具有混沌特性,根據(jù)Takens定理分別采用互信息法和G-P法確定延遲時間和嵌入維數(shù)重構(gòu)網(wǎng)絡(luò)輿情時間序列相空間;在相空間中,利用支持向量回歸機(SVR)建立網(wǎng)絡(luò)輿情預(yù)測模型,與其他預(yù)測模型進行對比實驗。結(jié)果表明,相對于對比模型,PHR-SVR提高了網(wǎng)絡(luò)輿情的預(yù)測精度和可靠性,預(yù)測結(jié)果具有一定實用價值。
網(wǎng)絡(luò)輿情;支持向量回歸機;相空間重構(gòu);混沌理論
A
TP393
10.3778/j.issn.1002-8331.1307-0248
HUANG Min,HU Xuegang.Internet public opinion chaotic prediction based on Support Vector Regression machine. Computer Engineering and Applications,2013,49(24):130-134.
安徽省教育廳自然科學(xué)基金(No.KJ2013B091)。
黃敏(1977—),女,講師,研究方向:數(shù)據(jù)挖掘;胡學(xué)鋼(1961—),男,教授,博士生導(dǎo)師,研究方向:知識工程,數(shù)據(jù)挖掘,數(shù)據(jù)結(jié)構(gòu)。
2013-07-19
2013-09-04
1002-8331(2013)24-0130-05
CNKI出版日期:2013-10-17http://www.cnki.net/kcms/detail/11.2127.TP.20131017.1529.020.html