楊雪林
摘 要: 針對(duì)傳統(tǒng)的網(wǎng)絡(luò)輿情監(jiān)管預(yù)測(cè)算法對(duì)大廣度、強(qiáng)干擾的網(wǎng)絡(luò)輿情數(shù)據(jù)預(yù)測(cè)性能差的缺點(diǎn),在深入研究現(xiàn)有網(wǎng)絡(luò)輿情監(jiān)管預(yù)測(cè)算法基礎(chǔ)上提出一種基于大數(shù)據(jù)語(yǔ)義特征分析的網(wǎng)絡(luò)輿情監(jiān)管預(yù)測(cè)算法。該算法采用二元語(yǔ)義對(duì)網(wǎng)絡(luò)輿情特征進(jìn)行擬合,構(gòu)建與匹配網(wǎng)絡(luò)輿情關(guān)鍵詞,構(gòu)建時(shí)間序列模型,分析與提取語(yǔ)義特征,從而實(shí)現(xiàn)大數(shù)據(jù)分析法對(duì)網(wǎng)絡(luò)輿情的監(jiān)管預(yù)測(cè)。最后利用仿真實(shí)驗(yàn)對(duì)該算法進(jìn)行驗(yàn)證,其結(jié)果表明,該算法預(yù)測(cè)精度高、實(shí)時(shí)性強(qiáng),對(duì)提高網(wǎng)絡(luò)輿情的監(jiān)管能力具有重要意義。
關(guān)鍵詞: 大數(shù)據(jù); 網(wǎng)絡(luò)輿情; 特征提取; 輿情監(jiān)管
中圖分類號(hào): TN711?34; TP393 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)24?0028?03
Abstract: In allusion to the problem that the traditional network public opinion monitoring and prediction algorithm has poor prediction performance for large amount of network public opinion data with strong interference, a network public opinion monitoring and prediction algorithm based on semantic feature analysis of big data is proposed after the in?depth study on the current network public opinion monitoring and prediction algorithm. In the algorithm, the two?tuple semantics is used to fit the features of network public opinions, construct and match the keywords of network public opinions, construct the time series model, and analyze and extract semantic features, so as to realize the monitoring and prediction of network public opinions by using the big data analysis method. The simulation experiment was carried out to verify the algorithm. The results show that the algorithm has high prediction precision and strong real?time performance, which is of great significance for improving the network public opinion monitoring capability.
Keywords: big data; network public opinion; feature extraction; public opinion monitoring
網(wǎng)絡(luò)輿情是指在博客、微博、BBS論壇等網(wǎng)絡(luò)平臺(tái)上發(fā)表評(píng)論與意見(jiàn),而形成的互聯(lián)網(wǎng)空間社會(huì)輿情的映射[1?4]。網(wǎng)絡(luò)的開(kāi)放性與網(wǎng)絡(luò)通信技術(shù)的發(fā)展促進(jìn)了信息的快速傳播,從而加速網(wǎng)絡(luò)輿情發(fā)酵傳播。為了避免不良情緒與謠言等網(wǎng)絡(luò)輿情給社會(huì)生活造成惡劣的影響,需要對(duì)網(wǎng)絡(luò)輿情加強(qiáng)管理[5?8]。針對(duì)傳統(tǒng)的基于主題[9]、基于自相關(guān)特征[10]、基于概念格的網(wǎng)絡(luò)輿情監(jiān)管預(yù)測(cè)算法對(duì)大廣度、強(qiáng)干擾的網(wǎng)絡(luò)輿情數(shù)據(jù)預(yù)測(cè)性能差的缺點(diǎn),本文在深入研究現(xiàn)有網(wǎng)絡(luò)輿情監(jiān)管預(yù)測(cè)算法基礎(chǔ)上提出了一種基于大數(shù)據(jù)語(yǔ)義特征分析的網(wǎng)絡(luò)輿情監(jiān)管預(yù)測(cè)算法。該算法采用二元語(yǔ)義對(duì)網(wǎng)絡(luò)輿情特征進(jìn)行擬合,構(gòu)建與匹配網(wǎng)絡(luò)輿情關(guān)鍵詞,構(gòu)建時(shí)間序列模型,分析與提取語(yǔ)義特征,從而實(shí)現(xiàn)大數(shù)據(jù)分析法對(duì)網(wǎng)絡(luò)輿情的監(jiān)管預(yù)測(cè),對(duì)提高網(wǎng)絡(luò)輿情的監(jiān)管能力具有重要意義[11]。
1 網(wǎng)絡(luò)輿情時(shí)間序列模型構(gòu)建
構(gòu)建本質(zhì)為非線性特征序列的網(wǎng)絡(luò)輿情的時(shí)間序列模型。設(shè)d維隨機(jī)變量Ui,監(jiān)測(cè)到的網(wǎng)絡(luò)輿情為,并通過(guò)網(wǎng)絡(luò)平臺(tái)對(duì)其進(jìn)行特征提取與聚類分析。在經(jīng)過(guò)傳播之后,網(wǎng)絡(luò)輿情在路由鏈路層的域間關(guān)聯(lián)特征表示為:
式中:β為二元語(yǔ)義分解系數(shù),取值范圍為;S為熱點(diǎn)時(shí)間評(píng)價(jià)集;K為抽取關(guān)鍵詞算子。其中元素為實(shí)函數(shù),S中第k個(gè)元素為sk。設(shè)二元語(yǔ)義為,,對(duì)網(wǎng)絡(luò)平臺(tái)上頻繁出現(xiàn)的詞匯進(jìn)行篩選,當(dāng)逆函數(shù)滿足:
采用傅里葉變換分解輿情語(yǔ)義特征,使其轉(zhuǎn)化為:
對(duì)熱點(diǎn)信息的關(guān)鍵詞與特征參量進(jìn)行采集,從而實(shí)現(xiàn)基于大數(shù)據(jù)的時(shí)間序列模型構(gòu)建。并以此進(jìn)行特征提取與數(shù)據(jù)分析,為網(wǎng)絡(luò)輿情監(jiān)管提供數(shù)據(jù)信息。
2 網(wǎng)絡(luò)輿情二元語(yǔ)義擬合
語(yǔ)義特征提取的基礎(chǔ)是基于主題詞表的二元語(yǔ)義擬合。主題詞表呈樹(shù)狀,其分叉特征為二元語(yǔ)義,,則其之間的距離為:
采用閉合頻繁項(xiàng)檢索法檢索二元語(yǔ)義,輸出為:
通過(guò)對(duì)網(wǎng)絡(luò)輿情時(shí)間序列的信息采樣與結(jié)合路徑消耗,網(wǎng)絡(luò)輿情主題詞表結(jié)構(gòu)圖如圖1所示。從中進(jìn)行特征分解可得到,自特征序列和分解序列分別為:
基于叉項(xiàng)信息鏈狀態(tài)估計(jì)方法統(tǒng)計(jì)的信息實(shí)現(xiàn)網(wǎng)絡(luò)輿情的二元語(yǔ)義擬合。
3 基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情監(jiān)管預(yù)測(cè)算法
3.1 語(yǔ)義特征分析
針對(duì)傳統(tǒng)網(wǎng)絡(luò)輿情監(jiān)測(cè)方法抗干擾能力低、精度差的缺點(diǎn),本文提出基于大數(shù)據(jù)語(yǔ)義特征分析的網(wǎng)絡(luò)輿情監(jiān)管預(yù)測(cè)算法,以提高抗干擾度與精度。相空間中的網(wǎng)絡(luò)輿情序列的語(yǔ)義本體模型表達(dá)式為:endprint
其實(shí)質(zhì)為非線性均衡信道模型。式中:相空間中的網(wǎng)絡(luò)輿情序列嵌入維數(shù),延遲時(shí)間為,,為輿情信息權(quán)重向量,由二元語(yǔ)義決策得到評(píng)價(jià)指標(biāo)權(quán)重輸出為。從而建立決策矩陣為:
網(wǎng)絡(luò)輿情相空間的綜合評(píng)價(jià)映射為:
根據(jù)綜合評(píng)價(jià)與指標(biāo)權(quán)重對(duì)網(wǎng)絡(luò)輿情語(yǔ)義列表向量進(jìn)行分割,從而得到基于大數(shù)據(jù)語(yǔ)義特征分析的網(wǎng)絡(luò)輿情提取方案為:
3.2 基于大數(shù)據(jù)分析的網(wǎng)絡(luò)輿情監(jiān)管預(yù)測(cè)實(shí)現(xiàn)
針對(duì)聚斂的語(yǔ)義特征網(wǎng)絡(luò)輿情可預(yù)測(cè),而發(fā)散時(shí)擾動(dòng)大的特點(diǎn),本文采用協(xié)方差修正法對(duì)語(yǔ)義主題樹(shù)特征進(jìn)行處理,協(xié)方差修正模型為:
網(wǎng)絡(luò)輿情預(yù)測(cè)基于輿情分布網(wǎng)頁(yè)與文檔的相關(guān)聯(lián)度匹配語(yǔ)義主題詞特征分析。由于大數(shù)據(jù)種類多樣、處理速度快,因而基于修正過(guò)后的主題詞表能夠?qū)崿F(xiàn)網(wǎng)絡(luò)輿情的準(zhǔn)確預(yù)測(cè),且速度更快。
4 仿真實(shí)驗(yàn)分析
采用SQL Server數(shù)據(jù)庫(kù)中網(wǎng)絡(luò)輿情數(shù)據(jù),對(duì)本文所提算法進(jìn)行實(shí)驗(yàn)驗(yàn)證。采樣周期為0.02 s,樣本長(zhǎng)度為1 024,干擾強(qiáng)度為,圖2為采樣的網(wǎng)絡(luò)輿情大數(shù)據(jù)信息。對(duì)其進(jìn)行二元語(yǔ)義擬合,提取其語(yǔ)義特征,結(jié)果如圖3所示。從圖3可見(jiàn),語(yǔ)義特征匹配性好、聚斂性高。將本文方法與傳統(tǒng)預(yù)測(cè)方法進(jìn)行比對(duì),對(duì)比結(jié)果如圖4所示。從圖4可見(jiàn),本文所提出的預(yù)測(cè)方法收斂時(shí)間較短,且誤差小。
5 結(jié) 語(yǔ)
本文通過(guò)對(duì)網(wǎng)絡(luò)輿情監(jiān)管與預(yù)測(cè)問(wèn)題進(jìn)行大量研究,針對(duì)傳統(tǒng)的網(wǎng)絡(luò)輿情監(jiān)管預(yù)測(cè)算法對(duì)大廣度、強(qiáng)干擾的網(wǎng)絡(luò)輿情數(shù)據(jù)預(yù)測(cè)性能差的缺點(diǎn),提出一種基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情監(jiān)管預(yù)測(cè)算法,并對(duì)其進(jìn)行了仿真實(shí)驗(yàn)驗(yàn)證。驗(yàn)證結(jié)果表明,該算法預(yù)測(cè)精度高,實(shí)時(shí)性強(qiáng),對(duì)提高網(wǎng)絡(luò)輿情的監(jiān)管能力具有重要意義。
參考文獻(xiàn)
[1] 卜湛,伍之昂,曹杰,等.在線評(píng)論情感計(jì)算與博弈預(yù)測(cè)[J].電子學(xué)報(bào),2015,43(12):2530?2535.
[2] 張雙雙,王延年.節(jié)點(diǎn)分布不均勻的無(wú)線傳感網(wǎng)絡(luò)低功耗算法[J].西安工程大學(xué)學(xué)報(bào),2015,29(6):720?723.
[3] LANCET T. Identifying influential users in network public opinion of crowd unfollow on twitter [J]. Journal of information & computational science, 2015, 12(17): 6629?6642.
[4] PATCHARAMANEEPAKRON P, ARMOUR S, DOUFEXI A. Coordinated beamforming schemes based on modified signal?to?leakage?plus?noise ratio precoding designs [J]. IET communications, 2015, 9(4): 558?567.
[5] 柳虹.網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)研究[J].科技通報(bào),2011,27(3):421?423.
[6] 馬俊濤,高梅國(guó),董健.基于稀疏迭代協(xié)方差估計(jì)的缺失數(shù)據(jù)譜分析及時(shí)域重建方法[J].電子與信息學(xué)報(bào),2016,38(6):1431?1437.
[7] 李云,陳龐森,孫山林.基于近場(chǎng)通信認(rèn)證的無(wú)線局域網(wǎng)無(wú)線接入?yún)f(xié)議的安全性設(shè)計(jì)[J].計(jì)算機(jī)應(yīng)用,2016,36(5):1236?1245.
[8] MA N, LIU Y. SuperedgeRank algorithm and its application in identifying opinion leader of online public opinion supernetwork [J]. Expert systems with applications, 2014, 41(4): 1357?1368.
[9] 胡金柱,周星,舒江波,等.基于啟發(fā)式規(guī)則的網(wǎng)頁(yè)主題信息精確定位方法[J].計(jì)算機(jī)應(yīng)用研究,2010,27(2):494?497.
[10] ZHANG W, LI X, HE H, et al. Identifying network public opinion leaders based on Markov Logic Networks [J]. The scientific world journal, 2014, 4 (5): 435?444.
[11] 王少鵬,彭巖,王潔.基于LDA的文本聚類在網(wǎng)絡(luò)輿情分析中的應(yīng)用研究[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2014,49(9):129?134.endprint