饒浩++文海寧++林育曼++陳曉鋒
〔摘要〕為了提高微博輿情的預測精度,針對不同單一核函數的局限,用線性擬合確定兩種核函數的權重提出改進的支持向量機模型。首先利用馬爾科夫模型矩陣的稀疏程度提取影響因子指標,得到微博傳播的增減趨勢;然后用改進的支持向量機對實時數據按照4∶1的比例劃分測試集和訓練集,進行實時預測與警示。實驗結果表明:應用馬爾科夫模型進行微博輿情的主成分提取效果較佳,改進的支持向量機構造了新的組合核函數,比傳統(tǒng)的預判效果更佳。
〔關鍵詞〕馬爾科夫模型;組合支持向量機;微博;輿情;熱點話題;預測
DOI:10.3969/j.issn.1008-0821.2017.03.009
〔中圖分類號〕G206〔文獻標識碼〕A〔文章編號〕1008-0821(2017)03-0046-06
〔Abstract〕In order to improve the prediction accuracy of Microblog public opinion and make up for performance deficiency of single kernel function,the weight coefficients of two kernel functions have been calculated by linear fitting.The Markov matrix was used to determine the weights of the impact factors and the trend of Microblog public opinion.Improved support vector machine was used to divide real time data into training set and test set according to the proportion of 4∶1.Experiment showed that the features which affected micro blogging publica opinion,had been mined better by using Markov model;Optimized SVM model constructed a new combined kernel function,and the forecasting results were better.
〔Key words〕Markov model;combination support vector machine;microblog;public opinion;hot topic;prediction
目前我國針對輿情分析指標的研究有很多,按照功能的完善程度分為告警和預警。告警模型如李綱等在突發(fā)公共事件大背景下,對突發(fā)公共事件、公共衛(wèi)生事件、社會安全事件等指標進行分析,結合信息空間模型分析微博輿情傳播的過程,構建微博輿情監(jiān)測指標[1]。易臣何分析微博輿情的傳播特點,在此基礎上研究演化規(guī)律[2]。預警模型如朱衛(wèi)紅等采用離散的時間序列和地圖定位做生態(tài)畫像,根據標簽特征進行提取、分析并提前一定的時間周期告警實現預警目標[3]。葉金印等建立了多條預判擬合函數進行分類和預測,用MAE等誤差指標尋優(yōu)[4]。
針對微博輿情預測算法的研究,不同算法有不同的業(yè)務場景的優(yōu)點,例如局部最優(yōu)、全局最優(yōu)等的差別。例如杜智濤等用灰色預測方法,用微分方程解法做時間序列回歸模型[5]。張華基于BP-神經網絡算法對其經典模型進行優(yōu)化,對輸入層與隱含層的矩陣、隱含層與輸出層的矩陣權值的稀疏性處理較好[6]。魏德志提出用混沌理論解決非線性的函數,一改用線性函數進行擬合的前提假設,并且改進了徑向基核函數,使得神經網絡發(fā)揮了在具體輿情預測中的優(yōu)點以提高數據準確性[7]。
微博話題的影響因子與權值矩陣的處理是預測準確度提升的保證。雖然微博話題的影響因子有很多,但是許多學者的研究主要在于確定影響因子之間內在邏輯,往往難以分離各個指標確定各自的權重而進行定量分析。也有一些學者涉及定量的研究,但是用戶能獲取到的微博指標權限有限,實際操作無法進行。因此,本文基于容易獲取到的一些指標,進行兩個算法過程的預測與驗證,分別從不同角度預測趨勢,得到較好的預測效果,供輿情部門參考。
1馬爾科夫模型的增減趨勢預判
馬爾科夫區(qū)別于回歸模型,在于將問題看作是離散隨機過程,并非連續(xù)函數,且強調下一個時間節(jié)點的狀態(tài)與上一個無關(即相鄰兩個時間節(jié)點的數據無法互相影響)[8]。而這恰恰更適合預測隨機波動大的動態(tài)過程,可彌補灰色預測的局限[9]。
馬爾科夫模型要求數據具有馬爾科夫鏈和平穩(wěn)過程等均值的特點,而現實生活的預測問題大都是隨時間變化或呈某種變化趨勢的非平穩(wěn)過程。若用灰色GM(1,1)模型對滿足時間序列的數據進行擬合,可用變化趨勢彌補馬爾科夫鏈預測的局限;而在灰色預測的基礎上進行馬爾科夫預測,又可彌補灰色預測對隨機波動大的數據預測準確度低的缺陷。從而得出兩種模型結合,能較準確地預測微博熱點話題。
圖1是從MySQL主表界面得到的隨著時間分段不同獲取的單位時間內中文分詞的關鍵詞出現的時間段的情況(其中“Null”代表空)。
從MySQL里獲取的分詞數據,將3月上旬的時間劃分為30個等距時間間隔,及8個小時為1個獲取時間周期。以每個時間點檢測獲取到的關鍵詞不同作為劃分標準,沒有出現的地方顯示為“Null”,以選取的16條記錄為例,計算每項出現關鍵詞的時間段個數,作為馬爾科夫模型中每種關鍵詞的詞頻。
2改進的支持向量機的熱點話題預測
21算法實現偽代碼
Step 1:數據的提取和預處理
1)將半年微博數據用Java提取四列數據,即:時間節(jié)點、點贊數、評論數、轉發(fā)數。
2)將原始數據進行歸一化(mapminmax為matlab自帶的映射函數,對點贊數、評論數、轉發(fā)數進行歸一化處理,公式為:y=(ymax-ymin)*(x-xmin)/(xmax-xmin)+ymin;并對點贊數、評論數、轉發(fā)數進行轉置,以符合libsvm工具箱數據格式要求。
Step 2:確定核函數的各項參數:
1)寫調用函數kernel(ker,x,y)。
2)對比各個經典核函數模型的誤差率,確定各自的優(yōu)缺點。
3)確定怎樣分配比例使得組合模型能實現最佳預測。
Step 3:利用回歸預測分析最佳的參數進行SVM網絡訓練
22多項式核、高斯核、線性與非線性核函數的對比使用支持向量機算法要從常用的3種函數模型中選擇最優(yōu)的作改進,經過對比分析確定一種核函數為指標的最佳核函數[10-11],目的是將高維空間的內積運算轉化為低維空間的函數運算。
對核函數的選擇,目前沒有成熟完善的指導原則,必須根據各種測試數據的觀察結果來確定[12-13]。某些問題用某些核函數效果很好,用另一些很差。多項式核是典型的全局核函數,相距很遠的點對核函數的值均有影響,不論函數中的階數從1~5增加,其周邊的數據點都對多項式核函數的值產生影響;而高斯核函數是典型的局部核函數,只有當落在某個寬度之間時才會對核函數值有影響,只有在一定的范圍內取值對高斯核函數有效。
23組合核函數的確定
24結果與分析
241改進的馬爾科夫模型
列舉16個中文分詞得到的關鍵詞,以及統(tǒng)計的出現時間段次數,T1~T15表示15個等距時間段,表中數字代表增長速率,使得快速上升(≥03)在程序中用“2”表示;緩慢上升(0,003),用“1”表示;相對不變用“0”表示;緩慢下降(-003,0)用“-1”表示;快速下降(≤-003)用“-2”表示,從而得到各個關鍵詞在不同時段的相對值Ai(i=1,2,…,30)。
以第一個關鍵詞“以后”為例,T1~T15這15個等距時間段中,取前14個等距時間段的增長率參加計算,第15個增長率與模型的預測率進行比對,從而驗證模型的準確性。
先算出增長率,使用概率轉移矩陣完成馬爾科夫預測。由于微博爆發(fā)趨勢受到多重因素的影響,若籠統(tǒng)地采用擬合計算分析,會使誤差率增加;而用概率矩陣轉移,則是根據下一次的爆發(fā)趨勢所出現的狀態(tài)的最大可能概率進行預測,可靠性高。
Key1:“以后”
10200010200010102000104000110212210216710087210236710247211024181021981009801024351019691102432102238101030102481101818110245310224010104610248810177311024571022431010501024911017591102458102243101052102492101755用1個關鍵詞為例,可知:列數表示5個狀態(tài)下對應的概率,行數表示預測的時段個數,輸出數據的每一行的最大的概率值表示相應時間段最可能出現的增長狀態(tài)。下面為關鍵詞1:“以后”的算法數值,其中D1~D5分別表示“先迅速增長”、“先緩慢增長”、“先相對不變”、“先緩慢下降”、“先快速下降”。如表3:
如果目前微博熱點預測的話題處于狀態(tài)Bi(i=1,2,3,4,5),這時Eij描述目前狀態(tài)Bi在將來轉移狀態(tài)Bj(j=1,2,3,4,5)的可能性。按照最大概率原則,即選{Ei1,Ei2,Ei3,Ei4,Ei5}中最大者對應的狀態(tài)即為預測結果。
由于通過計算得到的關鍵詞“以后”的增長率狀態(tài)為E3,即相對穩(wěn)定。由上面的轉移矩陣可知:由一次轉移到5種狀態(tài)的概率分別為:E31=0833,E32=02083,E33=06250,E34=00833,E35=0,Max={Ei1,Ei2,Ei3,Ei4,Ei5}=E33=06250,且E31、E32、E34、E35比E33對比,均差距很大。
因此,預測的結果顯示:在T11~T30時間段內的微博熱點話題的熱度將繼續(xù)保持穩(wěn)定,且增長幅度為1,將預測結果與實際結果表對比可知:實際微博繼續(xù)保持緩慢上升,因預測結果是準確的。
改進的支持向量機模型綜合了兩個經典核函數的優(yōu)點,對實際數據出現的稀疏矩陣問題采用核函數映射,歸一化處理后將其映射到[0,1]區(qū)間,解決誤差大造成的預測影響。最后反歸一化回去,得到實際預測數值。
由此可以得出,改進的支持向量機模型可以解決局部樣本最優(yōu)問題,得到的趨勢誤差較小,可以代替全局最優(yōu)函數用逼近法逼近,逐步減小誤差。
242組合核函數模型
新構造的組合核函數,即加入各種核函數的權重,構建組合核函數來適應數據的特點。其近期樣本重要性遠大于前期樣本,體現最近時間樣本點最重要的原則,增強預測準確度。
由于采集的是點贊數、評論數、轉發(fā)數,分別記為y1、y2、y3,對其一一進行訓練與測試,得到擬合與預測曲線。表4以預測部分的10分鐘為例:
其中4058759664-4058760602是2016/3/15 15∶00~2016/3/15 15∶10的10分鐘數據,Matlab中調用函數將標準時間(時間格式)轉為時間戳(字符格式),預測數據(藍色)與真實數據(黑色)的對比,每分鐘獲取一次數據,經過測試尋優(yōu),確定訓練集與測試集的比例為4∶1時最佳的數據。后面1/5的數據即為表4所示。圖3中是50分鐘的數據,分為40分鐘實際數據與10分鐘預測數據。藍色實際值的離散點與擬合、預測紅色曲線很接近,走向趨勢也保持一致,表明擬合與預測效果較佳。
其中程序展示最優(yōu)化正則參數與最優(yōu)核參數的檢驗結果,省略展示R2、MSE、MAE、MAPE等誤差類的統(tǒng)計驗證,且采用快速留一的交叉驗證方法,不斷迭代降低誤差。得到組合模型預測效果較佳。
3結束語
本研究結合馬爾科夫與改進的支持向量機來構建微博話題預測趨勢預測,通過實例來驗證模型的準確性。此外,該模型也會存在著一些缺點。首先是獲取到的指標參數有限,后選取時間序列和轉發(fā)數、評論數、點贊數的指標用于預測。另外,獲取到的是2015年上半年的數據訓練,用4∶1的比例做訓練預測,和實時情況中組合模型取最近的權重最大,沒有進行歷史數據按天同期的統(tǒng)計,不可避免地存在特定日期等情況時輿情暴增帶來的誤差。因此需要人工處理這種趨勢帶來的例外。該模型的預測結果的準確性依賴于數據的邏輯聯系與誤差的迭代。研究所得到的結果可以為輿情的管理提供有效的指導。
參考文獻
[1]李綱,陳璟浩.突發(fā)公共事件網絡輿情研究綜述[J].圖書情報知識,2014,(3):117-123.
[2]易臣何.突發(fā)事件網絡輿情的演化規(guī)律與政府監(jiān)控[D].湘潭:湘潭大學,2014.
[3]朱衛(wèi)紅,苗承玉,鄭小軍.基于3S技術的圖們江流域濕地生態(tài)安全評價與預警研究[J].生態(tài)學報,2014,(1):119-121.
[4]葉金印,李致家,常露.基于動態(tài)臨界雨量的山洪預警方法研究與應用[J].氣象雜志,2014,(1):114-116.
[5]杜智濤,謝新洲.利用灰色預測與模式識別方法構建網絡輿情預測與預警模型[J].圖書情報工作,2013,(8):76-81.
[6]張華.基于優(yōu)化BP神經網絡的微博輿情預測模型研究[D].武漢:華中師范大學,2014.
[7]魏德志,陳福集,鄭小雪.基于混沌理論和改進徑向基函數神經網絡的網絡輿情預測方法[J].物理學報,2015,(4):93-95.
[8]徐揚,孟文霞,李廣建.基于灰色預測模型的情報學熱點主題發(fā)展預測[J].情報科學,2016,(7):3-6.
[9]楊怡.銷量的多因素灰色預測和馬爾柯夫鏈模糊修正模型研究[J].工業(yè)工程與管理,2014,(5):90-93.
[10]王和勇,崔蓉.在線用戶評論的主題發(fā)現研究[J].現代情報,2015,(9):63-69.
[11]商麗媛,譚清美.基于支持向量機的突發(fā)事件分級研究[J].管理工程學報,2014,(1):119-123.
[12]曹云忠,邵培基,李良強.微博網絡中用戶關注行為預測[J].系統(tǒng)工程,2015,(7):146-152.
[13]章成志,李蕾.社會化標簽質量自動評估研究[J].現代圖書情報技術,2015,(10):2-12.
(本文責任編輯:孫國雷)