張貴紅+李中華
摘 要: 微博熱點(diǎn)話題受到多種因素的影響,具有強(qiáng)烈的非線性變化特點(diǎn),為了獲得理想的微博熱點(diǎn)話題預(yù)測(cè)結(jié)果,提出基于數(shù)據(jù)挖掘技術(shù)的微博熱點(diǎn)話題預(yù)測(cè)模型。首先對(duì)當(dāng)前微博熱點(diǎn)話題的研究現(xiàn)狀進(jìn)行分析,指出當(dāng)前微博熱點(diǎn)話題預(yù)測(cè)模型的局限性,然后采用數(shù)據(jù)挖掘技術(shù),即支持向量機(jī)對(duì)微博熱點(diǎn)話題進(jìn)行建模與分析,最后采用仿真實(shí)驗(yàn)對(duì)微博熱點(diǎn)話題的預(yù)測(cè)性能進(jìn)行分析。結(jié)果表明,數(shù)據(jù)挖掘技術(shù)可以描述微博熱點(diǎn)話題的變化特點(diǎn),提高了微博熱點(diǎn)話題的預(yù)測(cè)準(zhǔn)確性。
關(guān)鍵詞: 數(shù)據(jù)挖掘; 網(wǎng)絡(luò)技術(shù); 微博話題; 預(yù)測(cè)模型
中圖分類號(hào): TN911.1?34; TP391 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)15?0052?04
Abstract: The micro?blog hot topic affected by various factors has the characteristic of strong nonlinear change. In order to obtain the ideal forecasting results of micro?blog topic, a micro?blog hot topic forecasting model based on data mining technology is proposed. The current research status of micro?blog hot topic is analyzed to point out the limitations of the current micro?blog hot topic prediction model. The data mining technology (support vector machine) is used to analyze and model the micro?blog hot topic. The simulation experiment is used to analyze the forecasting performance of the micro?blog hot topic. The results show that the data mining technology can describe the change characteristic of micro?blog hot topic, and improve the forecasting accuracy of the micro?blog hot topic.
Keywords: data mining; network technology; micro?blog topic; forecasting model
0 引 言
隨著互聯(lián)網(wǎng)的不斷發(fā)展,出現(xiàn)了微博熱點(diǎn)話題,指人們對(duì)某個(gè)問(wèn)題的議論和評(píng)價(jià)。微博熱點(diǎn)話題有直接性、突發(fā)性、偏差性等變化特點(diǎn),傳播速度快,影響大[1]。一些負(fù)面的微博熱點(diǎn)話題會(huì)對(duì)國(guó)家安全、社會(huì)穩(wěn)定性產(chǎn)生不利影響,而微博熱點(diǎn)話題預(yù)測(cè)可以了解將來(lái)變化態(tài)勢(shì),因此微博熱點(diǎn)話題的預(yù)測(cè)成為網(wǎng)絡(luò)輿情研究領(lǐng)域中的重要研究方向[2?3]。
微博熱點(diǎn)話題建模與預(yù)測(cè)主要采用時(shí)間分析方法,它們將微博熱點(diǎn)話題歷史樣本看作按時(shí)間變化的數(shù)據(jù),可以劃分為傳統(tǒng)方法和現(xiàn)代方法兩種類型[4],傳統(tǒng)方法有指數(shù)平滑、線性回分、灰色模型等[5?7],微博熱點(diǎn)話題預(yù)測(cè)精度低,這主要是因?yàn)槲⒉狳c(diǎn)話題受到多種因素的作用,其中人為因素影響最為嚴(yán)重,具有強(qiáng)烈的時(shí)變性,傳統(tǒng)模型無(wú)法準(zhǔn)確描述該變化特點(diǎn),其應(yīng)用范圍受到一定的限制[8]?,F(xiàn)代方法主要采用數(shù)據(jù)挖掘技術(shù),有神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等[9?11],獲得比傳統(tǒng)模型更加理想的預(yù)測(cè)結(jié)果。神經(jīng)網(wǎng)絡(luò)要求收集大量的微博熱點(diǎn)話題歷史數(shù)據(jù),否則預(yù)測(cè)結(jié)果不可靠;相對(duì)于神經(jīng)網(wǎng)絡(luò),支持向量機(jī)要求的微博熱點(diǎn)話題樣本相對(duì)較少,且預(yù)測(cè)結(jié)果要優(yōu)于神經(jīng)網(wǎng)絡(luò),實(shí)際應(yīng)用范圍更廣[12]。在實(shí)際應(yīng)用中,要獲得理想的微博熱點(diǎn)話題預(yù)測(cè)結(jié)果,首先選擇支持向量機(jī)核函數(shù),并且估計(jì)其參數(shù),當(dāng)前采用遺傳算法、粒子群優(yōu)化算法等進(jìn)行參數(shù)估計(jì),但它們自身存在不可克服的缺陷,如收斂速度慢、易找到局部最優(yōu)解,對(duì)微博熱點(diǎn)話題預(yù)測(cè)結(jié)果產(chǎn)生不利影響[13]。
為了獲得理想的微博熱點(diǎn)話題預(yù)測(cè)結(jié)果,提出基于數(shù)據(jù)挖掘技術(shù)的微博熱點(diǎn)話題預(yù)測(cè)模型,采用支持向量機(jī)構(gòu)建微博熱點(diǎn)話題預(yù)測(cè)模型,并采用量子粒子群優(yōu)化算法確定支持向量機(jī)的參數(shù),結(jié)果表明,本文模型提高了微博熱點(diǎn)話題的預(yù)測(cè)精度。
1 量子粒子群優(yōu)化算法和支持向量機(jī)
1.1 量子粒子群優(yōu)化算法
設(shè)粒子的位置和速度向量分別為和粒子和種群的最優(yōu)位置分別為和在粒子對(duì)問(wèn)題求解過(guò)程中的第代,粒子的位置和速度向量更新方程為:
為了分析量子粒子群算法的優(yōu)越性,采用兩個(gè)函數(shù)進(jìn)行仿真測(cè)試,函數(shù)具體定義為:
兩個(gè)函數(shù)的仿真測(cè)試結(jié)果如圖1所示??梢园l(fā)現(xiàn),相對(duì)于粒子群優(yōu)化(PSO)算法,QPSO算法的速度顯著加快,獲得了較高的收斂精度。
1.2 支持向量機(jī)
采用函數(shù)將訓(xùn)練樣本映射到高維空間中,支持向量機(jī)的回歸方程為:
2 數(shù)據(jù)挖掘技術(shù)的微博熱點(diǎn)話題預(yù)測(cè)步驟
Step1:采集具體一個(gè)微博熱點(diǎn)話題變化的歷史樣本,并去除一些奇異的數(shù)據(jù)點(diǎn)。
Step2:初始化粒子群,每一個(gè)粒子的位置表示支持向量機(jī)參數(shù)。
Step3:將微博熱點(diǎn)話題的訓(xùn)練樣本輸入到支持向量機(jī)進(jìn)行學(xué)習(xí),估計(jì)粒子的適應(yīng)值得到粒子群的最優(yōu)位置
Step4:對(duì)粒子群進(jìn)行分群,最優(yōu)適應(yīng)值的序號(hào)為相應(yīng)的最優(yōu)解為,。
Step5:更新和(),計(jì)算并與比較,確定
Step6:更新粒子的適應(yīng)值,更新子群的與種群的最優(yōu)解。
Step7:根據(jù)最優(yōu)粒子群位置得到支持向量機(jī)的最優(yōu)參數(shù)。
Step8:根據(jù)最優(yōu)參數(shù)建立微博熱點(diǎn)話題預(yù)測(cè)模型。
基于數(shù)據(jù)挖掘技術(shù)的微博熱點(diǎn)話題預(yù)測(cè)流程如圖2所示。
3 仿真測(cè)試
3.1 數(shù)據(jù)源
為了分析基于數(shù)據(jù)挖掘技術(shù)的微博熱點(diǎn)話題預(yù)測(cè)性能,采用VC++ 6.0編程實(shí)現(xiàn)微博熱點(diǎn)話題預(yù)測(cè)模型,選擇“薄熙來(lái)案”作為微博熱點(diǎn)話題預(yù)測(cè)對(duì)象,選擇最后50個(gè)微博熱點(diǎn)話題對(duì)模型的泛化能力進(jìn)行測(cè)試。
對(duì)微博熱點(diǎn)話題數(shù)據(jù)進(jìn)行歸一化處理,具體為:
式中和為最小值和最大值。
選擇BP神經(jīng)網(wǎng)絡(luò)和粒子群優(yōu)化支持向量機(jī)(PSO?SVM)進(jìn)行對(duì)比實(shí)驗(yàn),采用微博熱點(diǎn)話題預(yù)測(cè)精度作為性能分析指標(biāo)。
3.2 結(jié)果與分析
本文模型的微博熱點(diǎn)話題預(yù)測(cè)結(jié)果如圖4所示,從圖4可以發(fā)現(xiàn),本文模型能夠?qū)ξ⒉狳c(diǎn)話題的變化特點(diǎn)進(jìn)行精確刻畫(huà),微博熱點(diǎn)話題的預(yù)測(cè)誤差很小,預(yù)測(cè)結(jié)果十分穩(wěn)定,而且預(yù)測(cè)結(jié)果可靠,預(yù)測(cè)結(jié)果可以為網(wǎng)絡(luò)輿情管理者提供有用的信息。
本文模型與對(duì)比模型的微博熱點(diǎn)話題預(yù)測(cè)精度見(jiàn)表1,對(duì)比發(fā)現(xiàn):
(1) BP神經(jīng)網(wǎng)絡(luò)的微博熱點(diǎn)話題預(yù)測(cè)誤差最大,這表明BP神經(jīng)網(wǎng)絡(luò)不能對(duì)微博熱點(diǎn)話題的變化特點(diǎn)進(jìn)行準(zhǔn)確建模,預(yù)測(cè)精度低。
(2) 相對(duì)于BP神經(jīng)網(wǎng)絡(luò),PSO?SVM的微博熱點(diǎn)話題預(yù)測(cè)誤差下降,主要是由于支持向量機(jī)的非線性建模能力更優(yōu)。
(3) 相對(duì)于BP神經(jīng)網(wǎng)絡(luò)和支持向量機(jī),本文模型的微博熱點(diǎn)話題預(yù)測(cè)結(jié)果有了明顯的改善,有效降低了微博熱點(diǎn)話題的預(yù)測(cè)誤差,獲得了十分理想的微博熱點(diǎn)話題的預(yù)測(cè)結(jié)果。
4 結(jié) 語(yǔ)
微博熱點(diǎn)話題是當(dāng)前網(wǎng)絡(luò)輿情研究中的焦點(diǎn),由于受到多種因素的作用,變化十分復(fù)雜,導(dǎo)致當(dāng)前微博熱點(diǎn)話題預(yù)測(cè)精度低,為此,提出基于數(shù)據(jù)挖掘技術(shù)的熱點(diǎn)話題預(yù)測(cè)模型,采用數(shù)據(jù)挖掘技術(shù)中的支持向量機(jī)對(duì)微博熱點(diǎn)話題進(jìn)行分析和建模,并對(duì)支持向量機(jī)的參數(shù)進(jìn)行優(yōu)化,實(shí)驗(yàn)結(jié)果表明,本文模型獲得了十分理想的微博熱點(diǎn)話題預(yù)測(cè)結(jié)果,預(yù)測(cè)結(jié)果可靠,具有廣泛的應(yīng)用前景。
參考文獻(xiàn)
[1] 王來(lái)華.輿情研究概論:理論?方法和現(xiàn)實(shí)熱點(diǎn)[M].天津:天津社會(huì)科學(xué)院出版社,2007.
[2] 劉志明,劉魯.微博網(wǎng)絡(luò)輿情中的意見(jiàn)領(lǐng)袖識(shí)別及分析[J].系統(tǒng)工程,2011,29(6):8?16.
[3] 毛佳昕,劉奕群,張敏,等.基于用戶行為的微博用戶社會(huì)影響力分析[J].計(jì)算機(jī)學(xué)報(bào),2014,37(4):791?798.
[4] 許曉東,肖銀濤,朱士瑞.微博社區(qū)的謠言傳播仿真研究[J].計(jì)算機(jī)工程,2011,37(10):272?274.
[5] 張一文,齊佳音,方濱興,等.基于貝葉斯網(wǎng)絡(luò)建模的非常規(guī)危機(jī)事件網(wǎng)絡(luò)輿情預(yù)警研究[J].圖書(shū)情報(bào)工作,2012,56(2):76?80.
[6] 郭浩,陸余良,工宇,等.基于信息傳播的微博用戶影響力度量[J].山東大學(xué)學(xué)報(bào),2012,47(5):78?83.
[7] 韓忠明,張玉沙,張慧,等.有效的中文微博短文本傾向性分類算法[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(10):89?93.
[8] 傅向華,劉國(guó),郭巖巖,等.中文博客多方面話題情感分析研究[J].中文信息學(xué)報(bào),2013,27(1):47?55.
[9] 方薇,何留進(jìn),宋良圖.因特網(wǎng)輿情傳播的協(xié)同元胞自動(dòng)機(jī)模型[J].計(jì)算機(jī)應(yīng)用,2012,32(2):399?402.
[10] 聶恩倫,陳黎,王亞強(qiáng),等.基于K近鄰的新話題熱度預(yù)測(cè)算法[J].計(jì)算機(jī)科學(xué),2012,39(6):257?260.
[11] 張晨逸,孫建伶,丁軼群.基于MB?LDA模型的微博主題挖掘[J].計(jì)算機(jī)研究與發(fā)展,2011,48(10):1795?1802.
[12] 廉捷,周欣,曹偉,等.新浪微博數(shù)據(jù)挖掘方案[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,51(10):1300?1305.
[13] 路榮,張腸,楊青.社交網(wǎng)絡(luò)中新聞趨勢(shì)的預(yù)測(cè)分析[J].中文信息學(xué)報(bào),2012,26(6):85?90.