◆印曉天
?
基于SPARK ON YARN的網(wǎng)絡(luò)輿情預(yù)警技術(shù)
◆印曉天
(公安部第一研究所 北京 100048)
隨著互聯(lián)網(wǎng)的快速發(fā)展,近年來網(wǎng)絡(luò)輿情熱點(diǎn)事件頻發(fā),一些不良熱點(diǎn)事件嚴(yán)重影響了網(wǎng)絡(luò)社會(huì)治安,因而迫切要求網(wǎng)絡(luò)監(jiān)管者提高網(wǎng)絡(luò)管理水平,然而傳統(tǒng)的人工監(jiān)控方式無法準(zhǔn)確有效地發(fā)現(xiàn)潛在的危害事件并采取相關(guān)預(yù)警措施。因此,本文從傳播媒體級(jí)別、地域空間分布、帖子數(shù)量、爆料者影響力、意見傾向狀況、信息文本長度、事件內(nèi)容這七個(gè)方面建立相應(yīng)的指標(biāo)項(xiàng)以及對(duì)應(yīng)的預(yù)警分?jǐn)?shù),基于此預(yù)警指標(biāo)體系,本文以spark on yarn為基礎(chǔ)構(gòu)建分布式預(yù)警框架,對(duì)海量的網(wǎng)絡(luò)輿情數(shù)據(jù)進(jìn)行深度分析挖掘,最后,本文以“六安教師討薪”為例子進(jìn)行說明,來分析預(yù)警效果。
指標(biāo)體系;預(yù)警;分布式;網(wǎng)絡(luò)輿情;SPARK ON YARN
預(yù)警的本質(zhì)是對(duì)某種結(jié)果的預(yù)測,并對(duì)應(yīng)某種惡劣情況做出實(shí)施預(yù)案,以更好的進(jìn)行防范。隨著社交網(wǎng)絡(luò)突飛猛進(jìn)式的發(fā)展,一些社交平臺(tái)應(yīng)運(yùn)而生,比如微博、微信、論壇等,人們利用這些網(wǎng)絡(luò)平臺(tái)來表達(dá)民意,訴說自己的情感,以及對(duì)某個(gè)熱點(diǎn)進(jìn)行評(píng)論,進(jìn)而產(chǎn)生了大量的輿情信息。網(wǎng)絡(luò)輿情預(yù)警是發(fā)現(xiàn)影響網(wǎng)絡(luò)輿情產(chǎn)生、發(fā)展、消失的重要因素,并對(duì)其信息進(jìn)行動(dòng)態(tài)監(jiān)測、測量和收集。根據(jù)預(yù)警系統(tǒng)的內(nèi)容,采用預(yù)警分析技術(shù)對(duì)網(wǎng)絡(luò)輿情進(jìn)行評(píng)估,預(yù)測其發(fā)展變化情況,相關(guān)政府部門會(huì)根據(jù)預(yù)警情況作出正確的引導(dǎo)和措施,防止產(chǎn)生嚴(yán)重的社會(huì)影響力。
國外學(xué)者對(duì)于網(wǎng)絡(luò)輿情預(yù)警的研究相比于我國更早也更為全面,現(xiàn)有的研究主要致力于技術(shù)領(lǐng)域的更新和有效支持。相關(guān)研究情況主要有:最早的一個(gè)輿論互動(dòng)模型是由Katarzyna Sznajd Weron設(shè)計(jì)的“Sznajd模型”;隨后帕維爾?索伯科維茨針對(duì)輿情跟蹤、輿情監(jiān)管進(jìn)行研究,實(shí)現(xiàn)自動(dòng)主題、情感和意見以及實(shí)時(shí)監(jiān)測;卡洛琳?凱瑟在輿情預(yù)警系統(tǒng)中添加輿情關(guān)鍵詞,進(jìn)而來對(duì)輿情進(jìn)行檢測;戴維和斯科特對(duì)應(yīng)對(duì)突發(fā)事件提出預(yù)案,針對(duì)不同的公共安全危機(jī)提供對(duì)應(yīng)的對(duì)策。
目前,在我國市場上也出現(xiàn)了不少輿情監(jiān)控以及預(yù)警系統(tǒng),但是在預(yù)警準(zhǔn)確率方面仍存在很大的優(yōu)化空間,尤其是在預(yù)警指標(biāo)體系方面,沒有一個(gè)完善的指標(biāo)體系分析方法,不能很好地建立輿情事件之間的關(guān)系以及挖掘期間的傳播規(guī)律。因此,本文結(jié)合社會(huì)的不同方面,從不同的角度來建立輿情指標(biāo)項(xiàng),并按照輿情發(fā)展的全過程以及輿情的擴(kuò)散度、聚集度等得到輿情參數(shù)值?;诖祟A(yù)警指標(biāo)體系,本文以spark on yarn為基礎(chǔ)構(gòu)建分布式預(yù)警框架,對(duì)海量的網(wǎng)絡(luò)輿情數(shù)據(jù)進(jìn)行深度分析挖掘,進(jìn)而對(duì)網(wǎng)絡(luò)輿情進(jìn)行預(yù)警。
目前關(guān)于網(wǎng)絡(luò)輿情預(yù)警的研究越來越引起廣大研究人員的關(guān)注,一些研究人員也進(jìn)行了專門研究,提出了不少具有權(quán)威性和共識(shí)性的觀點(diǎn):
在網(wǎng)絡(luò)輿情預(yù)警模型方面,王衛(wèi)華、石強(qiáng)強(qiáng)等人提出了基于BP神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情預(yù)警模型研究[1][2]。Dianjie等提出了一種改進(jìn)的Elman神經(jīng)網(wǎng)絡(luò)模型,為網(wǎng)絡(luò)輿情預(yù)警機(jī)制的科學(xué)解決提供了新的方法[3]。Li, Zhaocui等研究了應(yīng)急網(wǎng)絡(luò)輿情傳播與預(yù)警模型[4]。Wang, Gaofei等結(jié)合層次分析法和模糊綜合分析方法,構(gòu)建了基于AHP模糊綜合分析的移動(dòng)社交網(wǎng)絡(luò)輿情預(yù)警模型[5]。Sun, Lingfang等建立了11個(gè)網(wǎng)絡(luò)輿情危機(jī)二級(jí)指標(biāo)的三級(jí)預(yù)警指標(biāo)體系。然后,利用遺傳算法對(duì)BP神經(jīng)網(wǎng)絡(luò)的初始權(quán)值和閾值進(jìn)行優(yōu)化,建立了一個(gè)網(wǎng)絡(luò)輿情危機(jī)預(yù)警模型[6][7]。Zhang Y等在海量信息傳遞模型的基礎(chǔ)上,運(yùn)用扎根理論提取指標(biāo)要素,運(yùn)用模糊層次分析法確定指標(biāo)要素,運(yùn)用模糊推理算法和模糊綜合評(píng)價(jià)方法對(duì)網(wǎng)絡(luò)輿情的監(jiān)測和早期預(yù)警進(jìn)行評(píng)價(jià)[8]。Du Z等利用灰色預(yù)測和模式識(shí)別方法建立輿情預(yù)測預(yù)警模型[9]。Sun L提出了一種基于支持向量機(jī)算法的網(wǎng)絡(luò)輿情預(yù)警模型[10]。Wang Q等基于層次分析法的網(wǎng)絡(luò)輿情預(yù)警研究[11]。
在網(wǎng)絡(luò)輿情預(yù)警體系方面,F(xiàn)u, Yeqin等運(yùn)用修正德爾菲法和層次分析法,設(shè)計(jì)了一個(gè)由三個(gè)層次指標(biāo)組成的旅游危機(jī)事件網(wǎng)絡(luò)輿情監(jiān)測預(yù)警指標(biāo)體系[12]。Tian, Yi Lin等在分析不同時(shí)期網(wǎng)絡(luò)輿情特征的基礎(chǔ)上,提出了構(gòu)建網(wǎng)絡(luò)輿情預(yù)警指標(biāo)體系的三個(gè)關(guān)鍵要素[13]。Lin, Peiguang等實(shí)現(xiàn)了基于輿情特征分析的網(wǎng)絡(luò)輿情預(yù)警指標(biāo)體系研究[14]。Zhu, Chao Yang等提出了一種基于支持向量機(jī)的新穎網(wǎng)絡(luò)輿論預(yù)警指標(biāo)體系[15]。Zhikai等利用層次分析法(AHP)構(gòu)建網(wǎng)絡(luò)視角下的公眾輿論司法風(fēng)險(xiǎn)預(yù)警評(píng)價(jià)指標(biāo)體系[16]。Gao H等構(gòu)建了政府重大項(xiàng)目輿情風(fēng)險(xiǎn)預(yù)警指標(biāo)體系[17]。Liu M Y等通過對(duì)語義網(wǎng)絡(luò)和高頻詞的分析,運(yùn)用扎根理論,歸納出4個(gè)一級(jí)指標(biāo)和14個(gè)二級(jí)指標(biāo),基于旅游網(wǎng)絡(luò)輿情的視角,最終建立旅游網(wǎng)絡(luò)輿情發(fā)布指標(biāo)體系[18]。Song J等設(shè)計(jì)并實(shí)現(xiàn)了高校社會(huì)網(wǎng)絡(luò)輿論的貝葉斯預(yù)警系統(tǒng)[19]。Li-Xia P U等構(gòu)建了新疆網(wǎng)絡(luò)輿情系統(tǒng)[20]。
本文主要從覆蓋傳播媒體級(jí)別、地域空間分布、帖子數(shù)量、爆料者影響力、意見傾向狀況、信息文本長度、事件內(nèi)容這七個(gè)方面建立相應(yīng)的指標(biāo)項(xiàng),并根據(jù)不同的指標(biāo)值全面分析得到預(yù)警分?jǐn)?shù),監(jiān)測到的輿情信息經(jīng)分析后若發(fā)現(xiàn)超出預(yù)警指標(biāo)閾值的情況,則進(jìn)行預(yù)警評(píng)級(jí)。其中,網(wǎng)絡(luò)輿情指標(biāo)項(xiàng)如下表1所示:
表1 網(wǎng)絡(luò)輿情指標(biāo)項(xiàng)
其中,對(duì)于事件內(nèi)容,本文分別從政治、司法、公共以及民生領(lǐng)域來描述對(duì)應(yīng)的影響因素。
綜上所述,根據(jù)網(wǎng)絡(luò)輿情預(yù)警指標(biāo)體系,得到輿情預(yù)警得分。
最后,本文將網(wǎng)絡(luò)輿情的預(yù)警等級(jí)被劃分為五個(gè)等級(jí):分?jǐn)?shù)為0-20為安全區(qū),20-40為較安全區(qū),40-60為較危險(xiǎn)區(qū),60-80為危險(xiǎn)區(qū),80-100為非常危險(xiǎn)區(qū),分別用綠、藍(lán)、黃、橙、紅表示對(duì)應(yīng)的預(yù)警區(qū)域,具體如圖1所示:
圖1 網(wǎng)絡(luò)輿情預(yù)警等級(jí)圖
綠色區(qū)域表示社會(huì)發(fā)展呈穩(wěn)定狀態(tài),社會(huì)風(fēng)險(xiǎn)極低,群體性事件發(fā)生的可能性極?。凰{(lán)色區(qū)域表示社會(huì)風(fēng)險(xiǎn)較低,群體性事件發(fā)生的可能性較小;黃色區(qū)域表示具有一定社會(huì)風(fēng)險(xiǎn),存在群體性事件發(fā)生的隱患,有關(guān)部門應(yīng)及時(shí)采取措施,對(duì)預(yù)警指標(biāo)體系中超出預(yù)警閾值的指標(biāo)進(jìn)行重點(diǎn)排查,制定群體性事件應(yīng)急預(yù)案;橙色區(qū)域表示社會(huì)處于危險(xiǎn)狀態(tài),群體性事件發(fā)生的可能性很大,政府應(yīng)采取有效行動(dòng),尋找警源,捕捉警兆,演練并完善應(yīng)急預(yù)案;紅色區(qū)域表示大規(guī)模的群體性事件已經(jīng)或者必然出現(xiàn),社會(huì)處于非常危險(xiǎn)的狀態(tài),政府必須采取緊急處置措施,迅速控制態(tài)勢,維護(hù)社會(huì)穩(wěn)定。
分布式預(yù)警框架主要是采用在SPARK ON YARN的分布式集群部署方案,對(duì)于流式數(shù)據(jù)的處理,本文結(jié)合基于Spark Streaming的數(shù)據(jù)分析方法,可實(shí)現(xiàn)實(shí)時(shí)挖掘數(shù)據(jù)中有價(jià)值的信息。對(duì)于數(shù)據(jù)存儲(chǔ)采用HDFS分布式存儲(chǔ)方法,可存儲(chǔ)海量數(shù)據(jù)。采用分布式計(jì)算框架的主要原因是該框架基于主/從結(jié)構(gòu),會(huì)將海量數(shù)據(jù)的操作劃分為若干個(gè)小作業(yè)集,并將任務(wù)分配給集群中的各個(gè)節(jié)點(diǎn),并行處理所有的子任務(wù)?;诜植际筋A(yù)警框架,本文結(jié)合網(wǎng)絡(luò)輿情預(yù)警指標(biāo)體系,對(duì)采集來的數(shù)據(jù)進(jìn)行深度分析,從而達(dá)到預(yù)警效果。分布式預(yù)警框架圖如下圖2所示:
在分布式并行計(jì)算框架下,一些深度分析算法并不能很好地實(shí)現(xiàn)并行化處理,因此,本文還需要對(duì)算法進(jìn)行處理與優(yōu)化。其中,深度分析算法包括傾向性分析技術(shù)、話題發(fā)現(xiàn)與追蹤技術(shù)、預(yù)處理技術(shù)、實(shí)體識(shí)別技術(shù)、敏感詞智能推薦技術(shù)、文本特征提取技術(shù)等。文本預(yù)處理技術(shù)可采用基于MapReduce的文本處理方式,包括去網(wǎng)頁標(biāo)簽、中文文本分詞技術(shù)、分詞結(jié)果去無用詞等。對(duì)于TF-IDF計(jì)算,文本特征提取是可支持分布式并行計(jì)算的。對(duì)于分布式敏感詞智能推薦的實(shí)現(xiàn)方法如下圖3所示,主要是利用MapReduce計(jì)算詞頻。
圖2 分布式預(yù)警框架圖
圖3 分布式敏感詞智能推薦的實(shí)現(xiàn)方法圖
話題檢測與跟蹤是網(wǎng)絡(luò)輿情分析的重中之重,它是旨在發(fā)展一系列基于事件的信息組織的技術(shù)。在網(wǎng)絡(luò)輿情事件中,并不是所有的輿情事件都具有一定危害性的,因此,如何從大量的話題中發(fā)現(xiàn)敏感話題,是值得我們研究的對(duì)象。本文采用基于敏感詞查詢來實(shí)現(xiàn)敏感話題的發(fā)現(xiàn),首先根據(jù)當(dāng)前社會(huì)形勢建立敏感詞庫,根據(jù)分詞后的話題對(duì)敏感詞庫中的敏感詞進(jìn)行檢索,并統(tǒng)計(jì)出該話題中包含的敏感詞的總頻數(shù),若敏感詞詞頻數(shù)達(dá)到一定的閾值,則將該話題識(shí)別為敏感話題。算法實(shí)現(xiàn)過程:
(1)對(duì)于敏感關(guān)鍵詞,主要是發(fā)現(xiàn)識(shí)別對(duì)社會(huì)安全事件具有相關(guān)意義和關(guān)聯(lián)的領(lǐng)域詞匯,此類詞匯由專家提供。
(2)使用敏感關(guān)鍵詞對(duì)文本數(shù)據(jù)進(jìn)行初篩。
(3)敏感詞詞頻統(tǒng)計(jì)。
(4)閾值比較,并確認(rèn)敏感話題。
通過網(wǎng)絡(luò)輿情預(yù)警監(jiān)控系統(tǒng),實(shí)時(shí)對(duì)網(wǎng)絡(luò)輿情數(shù)據(jù)進(jìn)行檢測,對(duì)不同的輿情熱點(diǎn)進(jìn)行檢測與追蹤。比如5月27日,安徽六安市部分學(xué)校教師因待遇發(fā)放問題,集體上街維權(quán)。隨著我們系統(tǒng)對(duì)該事件的演化分析,由之前的“六安教師討薪”事件不斷演化為“教師是否遭受不公平待遇和警察是否存在粗暴執(zhí)法”這一問題上,此時(shí)我們系統(tǒng)及時(shí)預(yù)警,隨著時(shí)間變化指數(shù)快速上升。經(jīng)過27、28日兩天的發(fā)酵后,于5月29日即六安市政府回應(yīng)之后達(dá)到峰值,此后有所回落,對(duì)應(yīng)的預(yù)警分?jǐn)?shù)變化圖如圖4所示。
圖4 “六安教師討薪”事件預(yù)警分?jǐn)?shù)趨勢圖
總之,基于SPARK ON YARN的網(wǎng)絡(luò)輿情預(yù)警技術(shù)預(yù)計(jì)網(wǎng)絡(luò)預(yù)警指標(biāo)體系構(gòu)建的網(wǎng)絡(luò)輿情預(yù)警系統(tǒng)能夠有效地協(xié)助政府相關(guān)部門進(jìn)行網(wǎng)絡(luò)預(yù)警監(jiān)控,并及時(shí)發(fā)現(xiàn)情報(bào)線索,對(duì)即將要發(fā)生的危害社會(huì)安全秩序的時(shí)間及時(shí)預(yù)警,并采取相關(guān)措施,迅速控制態(tài)勢,控制惡劣輿情事件的蔓延,從而構(gòu)建和諧的網(wǎng)絡(luò)社會(huì)環(huán)境。
[1]王衛(wèi)華.基于BP神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情預(yù)警模型研究[J].凈月學(xué)刊,2017.
[2]石強(qiáng)強(qiáng),楊紅云,趙應(yīng)丁,周瓊,李新煥.基于BP神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情預(yù)警監(jiān)測研究[J].信息技術(shù),2017.
[3]Dianjie, B. I., et al. "Early-warning of Network Public Opinion Model Based on Modified Elman Neural Network." Journal of Hebei Normal University of Science & Technology,2016.
[4]Li, Zhaocui, and S. X. University. "Research on Public Opinion Propagation and Early Warning Model of Emergency Network." Computer & Telecommunication,2016.
[5]Wang, Gaofei, M. Li, and M. School. "Research on the Early Warning Model of Mobile Social Network Public Opinion Based on AHP-fuzzy Comprehensive Analysis." Journal of Modern Information,2017.
[6]Sun, Lingfang, et al. "On Network Public Opinion Crisis Early Warning Based on the BP Neural Network and Genetic Algorithm." Journal of Intelligence,2014.
[7]Sun, Lingfang, et al. "The Concept of Network Public Opinion Crisis Analysis and Index Set." Journal of Modern Information,2014.
[8]Zhang Y, Li H, Peng L, et al. Research on Network Public Opinion Monitoring and Early Warning Evaluation Method Based on Intuitionistic Fuzzy Reasoning[J]. Journal of Intelligence, 2017.
[9]Du Z, Xie X, Amp J, et al. The Establishment of Public Opinion Forecasting and Early-warning Model with the Methods of Grey Forecasting and Pattern Recognition[J]. Library & Information Service, 2013.
[10]Sun L. Study of support vector machine based on network public opinion crisis warning[J]. Automation & Instrumentation, 2016.
[11]Wang Q, Xie S, Wang Y. Research on the Network Public Opinion Pre-warning Based on Analytic Hierarchy Process[M]. 2014.
[12]Fu, Yeqin, et al. "Research on the Monitoring and Early-warning Index Systems of Tourism Crisis Events' Network Public Opinions." Journal of Intelligence,2014.
[13]Tian, Yi Lin, and Y. Zhou. Network Public Opinion Information Monitoring Index System Model Research. Proceedings of 20th International Conference on Industrial Engineering and Engineering Management. Springer Berlin Heidelberg, 2013.
[14]Lin, Peiguang, et al. "Research on Network Public Opinion Warning Index System Based on Feature Analysis of the Public Opinion." Information Technology Journal 12.19(2013): 5326-5330.
[15]Zhu, Chao Yang, et al. "A Novel Early-warning Method for the Network Public Opinion of Power Grid Emergency." Electric Power,2014.
[16] Zhikai, Q. U., and Y. Lan. "Research on the Risk Early Warning of Public Confidence Force of Judicature from the Perspective of Network Public Opinion." China Public Security ,2015.
[17]Gao H, Ding R G. Research on Risk Early Warning Index System of Public Opinions on Major Government Projects[J]. Library Tribune, 2014.
[18]Liu M Y, Chen X X, Jian-Wei W U, et al. Research on Construction of Index System of Tourist Attraction Network Public Opinion——Based on Tourists' Reviews over 100 5A Scenic Spots on Mafengwo[J]. Resource Development & Market, 2017.
[19]Song J, Ke Y. A bayesian early warning system of public opinion in social networks in colleges and universities[J]. International Journal of Simulation -- Systems, Science & Techno, 2016.
[20] Li-Xia P U, Miao Z J, Pei H J, et al. View on Construction and Promotion of Xinjiang Early Warning System for the Netwrok Public Opinion[J]. Border Economy & Culture, 2014.