侯學(xué)慧
(新疆警察學(xué)院 新疆烏魯木齊 830001)
在大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)信息和輿論信息的監(jiān)管及正確引導(dǎo)是非常重要的,保護(hù)好我們祖國、人民群眾的安全是我們警察的使命和義務(wù)。網(wǎng)絡(luò)輿情是指由于各種事件的刺激而產(chǎn)生的通過互聯(lián)網(wǎng)傳播的人們對(duì)于該事件的所有認(rèn)知、態(tài)度、情感和行為傾向的集合[1]。我們生活在一個(gè)突發(fā)事件頻發(fā)的大數(shù)據(jù)網(wǎng)絡(luò)時(shí)代下,突發(fā)事件是指突然發(fā)生,造成或可能造成嚴(yán)重的社會(huì)危害,需要采取應(yīng)急處置措施予以應(yīng)對(duì)的公共事件[2]。突發(fā)事件的網(wǎng)絡(luò)輿情演化是指“沒有對(duì)事件源和次發(fā)生事件進(jìn)行人工應(yīng)急干擾的原擴(kuò)散路徑”[3]。突發(fā)事件爆發(fā)后,一定會(huì)引起網(wǎng)絡(luò)輿情發(fā)生,在各種網(wǎng)絡(luò)平臺(tái)上信息快速傳播和蔓延下,政府部門要發(fā)揮常規(guī)的傳播模式的效力,還要積極有效的給予矯正型的傳播影響作用,才能更好有效地控制網(wǎng)絡(luò)輿情發(fā)酵。為此,必須要做到日常網(wǎng)絡(luò)輿情的預(yù)警、完善輿情監(jiān)管監(jiān)督機(jī)制、加強(qiáng)輿情的導(dǎo)控。
目前對(duì)網(wǎng)絡(luò)輿情的預(yù)警機(jī)制的定量研究,更多是注重網(wǎng)絡(luò)輿情的構(gòu)成因素和因素之間的關(guān)系方面,沒有對(duì)時(shí)間序列模式與網(wǎng)絡(luò)輿情的變化規(guī)律上研究更深入。在大數(shù)據(jù)的網(wǎng)絡(luò)環(huán)境下,只有定量、深層次地分析網(wǎng)絡(luò)輿情的動(dòng)態(tài)演化過程,分析其函數(shù)特征和演化規(guī)律,才能針對(duì)將要發(fā)生的網(wǎng)絡(luò)輿情做出預(yù)警應(yīng)對(duì)。針對(duì)現(xiàn)有的網(wǎng)絡(luò)上熱門案例,通過信息提取工作包GooSeeker等信息提取軟件,對(duì)案例建立事件發(fā)生的時(shí)間與每天新聞發(fā)布數(shù)量做函數(shù)擬合,得到網(wǎng)絡(luò)輿情隨時(shí)間周期的發(fā)生、發(fā)展、擴(kuò)散、消亡的動(dòng)態(tài)演化過程,從而建立網(wǎng)絡(luò)輿情導(dǎo)控和預(yù)警機(jī)制。
研究者們運(yùn)用不同的模型和方法對(duì)網(wǎng)絡(luò)輿情演化階段和構(gòu)成因素進(jìn)行分析,建立預(yù)警機(jī)制,主要包括三方面的研究。一是建立預(yù)警指標(biāo)因素體系,注重于影響輿情變化的關(guān)鍵指標(biāo)討論。二是基于情感傾向性分析,這里包括群眾的態(tài)度是“贊同”“中立”“反對(duì)”,從海量信息中,發(fā)現(xiàn)潛在的危機(jī)隱患。三是基于數(shù)據(jù)挖掘的預(yù)警,這種方法是從網(wǎng)絡(luò)中提取和目標(biāo)相關(guān)的數(shù)據(jù),構(gòu)成數(shù)據(jù)集。本文就是基于真實(shí)數(shù)據(jù),從數(shù)據(jù)挖掘中找到規(guī)律,從而做到更加精確的預(yù)警。
大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)輿情具有突發(fā)性、群體性、不確定性等特征,本文從其特征分析,建立數(shù)學(xué)模型符合基于多項(xiàng)式函數(shù)的數(shù)據(jù)特征??梢酝ㄟ^已有的國內(nèi)熱門網(wǎng)絡(luò)輿情案例與實(shí)際數(shù)據(jù)挖掘,建立網(wǎng)絡(luò)輿情演化模型,分析、量化輿情動(dòng)態(tài),做好預(yù)警模型。分析事件的真實(shí)性、敏感度、主題吸引力、發(fā)布者影響度、主題聚焦度、輿情觀點(diǎn)傾向度、參與度、容忍度、變化頻度、突變度等。在大數(shù)據(jù)環(huán)境下建立基于多項(xiàng)式函數(shù)的網(wǎng)絡(luò)輿情預(yù)警機(jī)制,并用MATLAB軟件對(duì)預(yù)測(cè)數(shù)據(jù)作仿真實(shí)驗(yàn)。從而建立網(wǎng)絡(luò)輿情隨時(shí)間發(fā)展,每個(gè)時(shí)間段的預(yù)警信號(hào)及相關(guān)參數(shù)、關(guān)鍵詞、事件的動(dòng)態(tài)演化預(yù)警模型。
持有、接受、表達(dá)某種相同、相似的觀點(diǎn)的人在社會(huì)人群中所占的比例超過一定的閥值,這時(shí)候這種觀點(diǎn)就上升為輿論[1]。我們從定量的、模型化的分析大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)輿情的演化規(guī)律:
我們主要針對(duì)互聯(lián)網(wǎng)上的網(wǎng)絡(luò)輿情進(jìn)行研究、分析。關(guān)注的新媒體網(wǎng)絡(luò)平臺(tái)主要是新聞網(wǎng)站-微博等。也通過相應(yīng)的輿情觀測(cè)平臺(tái)和軟件得到相應(yīng)的數(shù)據(jù)和圖表。利用數(shù)據(jù)挖掘和分析突發(fā)事件隨時(shí)間的演化規(guī)律和普通民眾對(duì)突發(fā)事件的關(guān)注度等指標(biāo)因素,從而做到下一階段的輿情預(yù)警機(jī)制,并且對(duì)下一次發(fā)生的相同突發(fā)案件有應(yīng)對(duì)的預(yù)警模型。
對(duì)于大數(shù)據(jù)背景下,已有的網(wǎng)絡(luò)突發(fā)案件的客觀數(shù)據(jù),利用網(wǎng)絡(luò)爬蟲、信息提取工具包Goo-Seeker中的抓取規(guī)則和網(wǎng)頁信息抓取工DataScraper等,抓取網(wǎng)站的新聞報(bào)道數(shù)量和相應(yīng)的時(shí)間分布,以及頻繁出現(xiàn)的關(guān)鍵詞等指標(biāo)因素[4]。通過DataStudio定義搜索信息屬性為url(網(wǎng)頁鏈接地址)、title(新聞標(biāo)題)、time(新聞發(fā)布時(shí)間)、num(新聞機(jī)構(gòu)名稱以及新聞關(guān)注條數(shù))
對(duì)通過信息抓取的獲得的數(shù)據(jù)進(jìn)行挖掘、分析,我們知道突發(fā)事件的網(wǎng)絡(luò)輿情新聞報(bào)道數(shù)量(普通民眾關(guān)注、評(píng)論程度)是分布在事件發(fā)生時(shí)間軸上的一些離散的點(diǎn),制止整個(gè)事件最終消亡。在網(wǎng)絡(luò)熱門事件影響力較大、關(guān)注度較高的突發(fā)事件,往往這些離散點(diǎn)成規(guī)律性的變化,假定任何事件的真實(shí)發(fā)展都可以被看成是時(shí)間的連續(xù)函數(shù)。在網(wǎng)絡(luò)的大數(shù)據(jù)背景下,從已經(jīng)發(fā)生的突發(fā)事件案例挖掘的數(shù)據(jù)入手,量化的去分析網(wǎng)絡(luò)輿情的演化和發(fā)展。根據(jù)散點(diǎn)圖的規(guī)律,擬合相應(yīng)的多項(xiàng)式函數(shù),找到其函數(shù)分布規(guī)律,從而做好更好、更早、更加正確的預(yù)警機(jī)制和應(yīng)對(duì)手段。
筆者采用根據(jù)大數(shù)據(jù)背景下具體真實(shí)案例的數(shù)據(jù)進(jìn)行挖掘和分析,做出相應(yīng)的散點(diǎn)圖,通過MATLAB軟件進(jìn)行函數(shù)擬合,得到與網(wǎng)絡(luò)輿情的動(dòng)態(tài)演化最貼近的連續(xù)曲線-多項(xiàng)式函數(shù)擬合,建立數(shù)學(xué)模型,分析其演化特征。在考慮是否符合相應(yīng)的函數(shù)擬合時(shí),采用最小二乘法[5]來分析誤差,找到離散點(diǎn)的最佳的函數(shù)逼近,在有限數(shù)據(jù)的基礎(chǔ)上建立合適的、合理化的數(shù)學(xué)模型。利用變量之間的相關(guān)系數(shù)R,分析擬合的多項(xiàng)式函數(shù)的預(yù)測(cè)值與真實(shí)值之間的具體的相關(guān)性。
分析突發(fā)事件的輿論數(shù)據(jù)是一些在時(shí)間軸上離散的數(shù)據(jù)點(diǎn)。根據(jù)其圖像,規(guī)律的發(fā)現(xiàn)散點(diǎn)圖符合基于最小二乘法的多項(xiàng)式函數(shù)擬合。下面給出一些定義:
最小二乘法:通過最小化誤差的平方和找到數(shù)據(jù)的最佳擬合函數(shù),對(duì)挖掘出的真實(shí)數(shù)據(jù)再取定相應(yīng)的多項(xiàng)式函數(shù)Px(x),使得誤差的平方和E2達(dá)到最小值,定義:
E2=,其中Yi為數(shù)據(jù)的真實(shí)值、p(xi)為數(shù)據(jù)預(yù)測(cè)值,我們稱pn(x)為擬合函數(shù)或最小二乘解。
由最小二乘法原理,可以知道擬合函數(shù)應(yīng)該滿足:
我們通過分析案例的散點(diǎn)圖,得到擬合多項(xiàng)式函數(shù)圖像,發(fā)現(xiàn)突發(fā)事件網(wǎng)絡(luò)輿情的演化規(guī)律,從概率和統(tǒng)計(jì)學(xué)上分析,服從指數(shù)分布(突發(fā)型)和多峰值高斯函數(shù)分布特征(持續(xù)型),函數(shù)分布成分段函數(shù)型(混合型)。
指數(shù)分布(突發(fā)性):在概率論和統(tǒng)計(jì)學(xué)中,指數(shù)分布是一種連續(xù)概率分布,可以用來表示獨(dú)立隨機(jī)事件發(fā)生的時(shí)間間隔。一個(gè)指數(shù)分布的概率密度函數(shù)是:
p(x,a)=a*e-a*x(x>0)X是時(shí)間變量;其中a>0是分布的一個(gè)參數(shù),常被稱為率參數(shù),即每單位時(shí)間發(fā)生該事件的次數(shù)。其中我們定義a是影響因子,a決定著突發(fā)事件網(wǎng)絡(luò)輿情的開始影響程度,a的值越大,整個(gè)事件的影響力就越大,所以在預(yù)警時(shí)一定要關(guān)注影響因子的值。
多峰值高斯分布模型(持續(xù)型):高斯分布又稱為正態(tài)分布,根據(jù)具體的案例分析,我們不難發(fā)現(xiàn)持續(xù)型輿情案例,呈現(xiàn)峰多值的高斯分布,其函數(shù)如下:
p(x)=;其中n是指峰的個(gè)數(shù)決定。當(dāng)n=1時(shí),是一次單峰的持續(xù)型輿情案例,當(dāng)n=2時(shí),是雙峰的持續(xù)型案例;ai是第i個(gè)峰值的影響因子,ai決定著突發(fā)事件網(wǎng)絡(luò)輿情該峰值的影響程度,ai的值越大,整個(gè)事件的影響力就越大。βi是事件的關(guān)注因子,當(dāng)βi的值說明在該峰值內(nèi)的關(guān)注時(shí)間長短,越大時(shí),說明事件關(guān)注時(shí)間較長。
分段概率分布函數(shù)(混合型):根據(jù)分析具體的輿情案例,有些較為復(fù)雜的突發(fā)事件輿情演化,呈現(xiàn)出前段圖像走勢(shì)呈指數(shù)函數(shù)分布,后段呈多峰值高斯分布函數(shù)模型,其函數(shù)如下:
按照關(guān)于社會(huì)治理、公共安全服務(wù)類、法制信息化、刑事案件等四類典型輿情案例進(jìn)行分析,具體分析其動(dòng)態(tài)變化情況。
1.“天津毒瘤造假”事件——突發(fā)型。2017年1月16日,在天津市靜海區(qū)獨(dú)流鎮(zhèn)的一些普通民宅里,每天生產(chǎn)著大量假冒名牌調(diào)料,雀巢、太太樂、王守義、家樂、海天、李錦記等市場(chǎng)知名品牌幾乎無一幸免。這些假冒劣質(zhì)調(diào)料,通過物流配送或送貨上門的方式,流向北京、上海、安徽、江西、福建、山東、四川、黑龍江、新疆等地區(qū)。監(jiān)測(cè)關(guān)鍵詞[(天津+獨(dú)流)*(造假+假冒+劣質(zhì)+制假)*(調(diào)料+窩點(diǎn))]
我們?cè)诖髷?shù)據(jù)環(huán)境下,通過數(shù)據(jù)爬蟲得到1周之內(nèi)新聞網(wǎng)站、大型媒體傳播情況。如圖1、圖2:
圖1 天津毒瘤造假輿情監(jiān)測(cè)傳播數(shù)據(jù)
圖2 多項(xiàng)式擬合——天津毒瘤造假輿情傳播
建立基于最小二乘法的多項(xiàng)式函數(shù)擬合,新聞報(bào)道量與時(shí)間序列的函數(shù)關(guān)系滿足:
2.“怕冷哥”事件——持續(xù)型(單峰值)。2016年1月央視記者大鬧冬運(yùn)會(huì)的安檢口的視頻,全長1分44秒。根據(jù)視頻顯示,該名攜帶央視“媒體記者”證的黑衣男子在某安檢口和安檢人員發(fā)生沖突,安檢人員讓其脫掉外套配合安檢,男子態(tài)度囂張,回復(fù)八個(gè)“我冷”,并質(zhì)問“省領(lǐng)導(dǎo)需要安檢嗎?”因男子拒不配合工作,安檢人員要求其從安檢儀上下來,對(duì)此,男子回應(yīng)“我冷,怎么了,小心我投訴你”,這類社會(huì)公共服務(wù)類輿情事件。監(jiān)測(cè)關(guān)鍵詞[(新疆+安檢)*(央視+記者)*冬運(yùn)會(huì)]
通過對(duì)微博信息數(shù)據(jù)爬蟲抓取,得到一周之內(nèi)微博網(wǎng)友的傳播情況。
圖3 多項(xiàng)式擬合——怕冷哥事件輿情傳播
微博發(fā)表轉(zhuǎn)帖數(shù)與時(shí)間序列的函數(shù)關(guān)系滿足:
3.“法制信息化建設(shè)”輿情——持續(xù)型(雙峰值)。2017年2月23日,由中國社科院法學(xué)研究所和社科文獻(xiàn)出版社共同發(fā)布的《法治藍(lán)皮書·中國法院信息化發(fā)展報(bào)告》指出,借助法院信息化的應(yīng)用和發(fā)展,中國法院的司法透明度得到全方位提升,信息化為司法公開提供了平臺(tái),拓展了司法公開的廣度與深度。監(jiān)測(cè)關(guān)鍵詞[法院信息化發(fā)展,法院*信息化,法院*智慧,法治*藍(lán)皮書,社科院*法治]。
通過輿情觀測(cè)軟件,得到15天新聞媒體的傳播情況。
圖4 法制信息化建設(shè)輿情監(jiān)測(cè)傳播數(shù)據(jù)
圖5 多項(xiàng)式擬合——法制信息化建設(shè)輿情傳播
新聞報(bào)告量與時(shí)間序列的函數(shù)關(guān)系滿足:
4.“杭州保姆縱火案”事件——持續(xù)型(雙峰值)。2017年6月22日,杭州小區(qū)保姆縱火案是于北京時(shí)間6月22日凌晨5點(diǎn)左右在杭州某小區(qū)發(fā)生的縱火案。該事件造成4人死亡(1位母親和3個(gè)未成年孩子)。23至24日,受害人家屬林生斌的家庭生活細(xì)節(jié)、作案保姆的嗜賭欠債背景曝光,由此,夾雜著群眾對(duì)消防部門和物業(yè)部門的救援行動(dòng)的質(zhì)疑,以及對(duì)保姆、家政行業(yè)深入反思的輿情呈井噴之勢(shì)。
通過輿情觀測(cè)軟件,得到30天新聞媒體的傳播情況。監(jiān)測(cè)關(guān)鍵詞[保姆*家政,小區(qū)*物業(yè),消防設(shè)施*消防]。
圖6 多項(xiàng)式擬合——杭州保姆縱火案輿情傳播
新聞報(bào)告量與時(shí)間序列的函數(shù)關(guān)系滿足:
我們把大數(shù)據(jù)背景下的突發(fā)事件網(wǎng)絡(luò)輿情事件分成三種類型:突發(fā)型、持續(xù)型、混合型。突發(fā)型:“天津獨(dú)流造假”事件屬于突發(fā)型輿情事件,函數(shù)滿足:p(x,a)=a*e-a*x。
根據(jù)研究基于多項(xiàng)式函數(shù)擬合的圖像分析,符合指數(shù)型分布的特征。該類事件的突發(fā)性強(qiáng)、破壞性大、社會(huì)影響大。事件發(fā)生頻率低,具有很大的轟動(dòng)性,事發(fā)后引起數(shù)量大的報(bào)道,但隨著網(wǎng)民對(duì)該事件的了解和解決,網(wǎng)絡(luò)輿情呈現(xiàn)出遞減趨勢(shì),直至消亡。
持續(xù)型:“怕冷哥”事件、“法制信息化建設(shè)”“杭州保姆縱火案”事件都屬于持續(xù)型網(wǎng)絡(luò)輿情。均滿足多峰值的高斯分布函數(shù)特征;其函數(shù)表達(dá)式:
p(x)=;具有持續(xù)型特征的網(wǎng)絡(luò)輿情事件,從事件發(fā)生到高漲,一般經(jīng)歷一段時(shí)間的發(fā)展過程,從而達(dá)到第一次峰值,通過社會(huì)、政策、公安等采取一定措施后,在輿情生命周期內(nèi)達(dá)到平緩,但由于信息傳播的波動(dòng)性或者應(yīng)對(duì)輿情處理措施等,可能會(huì)再一次達(dá)到峰值,最終消亡。
混合型:既包含“突發(fā)型”特征,也包含“持續(xù)型”網(wǎng)絡(luò)輿情特征,我們用分段函數(shù)表示這一類輿情演化:
綜上,本項(xiàng)目研究的主要脈絡(luò)是,在大數(shù)據(jù)條件下選取網(wǎng)絡(luò)上的熱點(diǎn)事件進(jìn)行分析,利用了網(wǎng)絡(luò)爬蟲、信息提取工具包等手段,抓取了網(wǎng)站的新聞報(bào)道量和相應(yīng)的時(shí)間分布以及在熱門事件中出現(xiàn)的關(guān)鍵詞,以網(wǎng)絡(luò)輿情演化特征為標(biāo)準(zhǔn),將輿情事件分為突發(fā)型、持續(xù)型、混合型,對(duì)網(wǎng)絡(luò)輿情每一種類型進(jìn)行了數(shù)據(jù)挖掘,分析相應(yīng)的新聞報(bào)道量和時(shí)間分布的離散點(diǎn),構(gòu)造出合理的多項(xiàng)式函數(shù)。由此探索網(wǎng)絡(luò)輿情演化規(guī)律,有助于對(duì)網(wǎng)絡(luò)輿情事件的監(jiān)控和預(yù)警,為引導(dǎo)網(wǎng)絡(luò)輿情提供參考。由于案例樣本量有限,成果的推廣價(jià)值尚有待進(jìn)一步驗(yàn)證。對(duì)數(shù)據(jù)的抓取,也可能存在一定程度的誤差,這可能影響輿情演化規(guī)律探索的精確性。而且影響網(wǎng)絡(luò)輿情的因素很多,本文中考慮的因素未及全面,研究還需要繼續(xù)深入。