◆徐嘉豪
輿情大數(shù)據(jù)環(huán)境下突發(fā)事件主題異化預警研究
◆徐嘉豪
(中國人民警察大學 河北 065000)
互聯(lián)網時代里信息異化現(xiàn)象時有發(fā)生,輿情大數(shù)據(jù)環(huán)境下有效預測突發(fā)事件主題異化,可以正確引導輿論,將突發(fā)事件控制于萌芽狀態(tài)。本文以 Logistic回歸為理論依據(jù),以突發(fā)事件主題異化為對象,建立了主題異化發(fā)生的概率模型,通過對實驗數(shù)據(jù)的模擬,提高預測精度,確保預測模型可行。根據(jù)理論建模和實證分析,得出科學有效的突發(fā)事件主題異化預測模型,可以為政府加強對突發(fā)事件輿情的控制以及利用提供理論依據(jù)。
網絡輿情;突發(fā)事件;主題異化;logistic回歸模型;異化預測
近年來,各類突發(fā)事件在我國爆發(fā)的頻次不斷增加,這對政府治理提出了挑戰(zhàn)。每當突發(fā)事件發(fā)生,“三人成虎”的現(xiàn)象不可避免,突發(fā)事件信息在傳播過程中往往出現(xiàn)信息異化現(xiàn)象,虛假負面信息在網絡中蔓延,公眾情緒“火上澆油”,極大增加了處置難度,甚至引起社會恐慌,如果不加以控制,很容易擴大傷害范圍。研究輿情大數(shù)據(jù)環(huán)境下突發(fā)事件主題異化的機理,構建科學預測模型,為政府控制信息異化,應對和治理網絡輿情,提供了理論依據(jù)。
學者劉珺曾對突發(fā)事件傳播中的信息異化進行了定義:即突發(fā)事件傳播中的信息異化是指,在構成特定輿論場的諸因素共同作用下,出現(xiàn)信息的極端和非理性傳播,是一種信息傳播的非常態(tài)化過程。突發(fā)事件的不確定性導致傳播風險無可避免,當信息受到編造、篡改、加工,各種流言蜚語充斥輿論場,往往會出現(xiàn)嚴重的信息異化現(xiàn)象。本文所指的突發(fā)事件主題異化是指突發(fā)事件主題信息在產生、傳播及利用的過程中,作為主體的突發(fā)事件信息制造者、信息傳播者與信息客體之間關系失衡,主體的思想、行為被信息所控制支配,失去理性判斷正誤的現(xiàn)象。
一個完整的突發(fā)事件主題異化指標體系包含兩個方面:必要指標和完備指標,完備指標作為衡量突發(fā)事件內容強度從側面反映了突發(fā)事件的生長特征,一般難以量化,如突發(fā)事件主題對接收者的重要程度及接收者對突發(fā)事件主題的敏感程度等?;诰W絡輿情傳播角度,結合眾學者的研究成果,筆者建立以輿情流量、發(fā)布主體、內容要素、狀態(tài)趨勢、輿情受眾5個維度為一級指標的突發(fā)事件主題異化預警指標體系。但是這幾個一級指標都屬于定性指標,因此有必要對其進行量化。本文的思路是增加二級指標,通過量化二級指標,間接量化一級指標。拐度是指輿情生命周期中拐點(主題熱度發(fā)生轉變的點)所處狀態(tài)。時效度是一個累計指標,利用主題熱度、強度、傾度等進行歸一化整理,加權測算,反映特定時段輿情在其生命周期中所處的階段水平。技術異化則通過信息超載、網絡的助長性、網絡技術的漏洞進行分析。具體量化值見表1。
在搜集基礎數(shù)據(jù)時,以微博為例,爬蟲時搜集關鍵詞、發(fā)布日期、微博內容、轉發(fā)、點贊、評論以及發(fā)布主體的基本信息。此外,相關網頁的數(shù)量可以衡量關注度。輿情網站覆蓋度是指包含該主題輿情信息的網站占樣本網站的比重(主題輿情的站點分布);樣本網站使得選取條件必須能在一定程度上代表整個網絡狀態(tài)和水平的網站集合。輿情地區(qū)覆蓋度用主題輿情的地區(qū)分布表示,在突發(fā)輿情的監(jiān)測中作用尤為突出。輿情權威度包括來源權威度(刊載媒體的權威性)、輿情署名度(輿情主題下署名信息所占比重)、發(fā)布者影響力(可設置為循環(huán)累計指標)等。
突發(fā)事件主題異化預警模型是輿情大數(shù)據(jù)環(huán)境下科學評判突發(fā)事件風險的重要前提。根據(jù)突發(fā)事件信息傳播的實況進行主題異化的風險等級預報。模型預報因子加入上述指標,通過Logistic回歸,預警突發(fā)事件主題異化的發(fā)生概率。
Logistic回歸為概率型非線性回歸模型,是研究事件發(fā)生結果(Y)與其相關因素(X)之間關系的1種多變量分析方法,發(fā)生結果(1=發(fā)生),(0=不發(fā)生)。線性表達式為:
Y=log it(P)=β0+β1X1+…+βmXm(1)
運用Logistic回歸應進行變量篩選,OR表示突發(fā)事件主題異化存在與不存在發(fā)生時間的優(yōu)勢之比,以OR值的大小判斷變量X對Y的作用的大小,在數(shù)據(jù)分析過程中將作用不顯著的排除在外。本文變量篩選采用向后逐步法。數(shù)據(jù)樣本用5維特征向量={x1,x2,x3,x4,x5}描述輿情流量、發(fā)布主體、內容要素、狀態(tài)趨勢、輿情受眾等屬性,各屬性數(shù)據(jù)的量化過程如上所述。
本文利用微博爬蟲技術收集了重慶墜江突發(fā)事件200條微博數(shù)據(jù),其中160條為訓練集,用于建模。40條為測試集,用于驗證模型。
用逐步回歸法做變量篩選,數(shù)據(jù)處理在計算機軟件SPSS中進行,計算分析結果見表2。
表2 用逐步回歸法做參數(shù)估計
統(tǒng)計結果分析:影響突發(fā)事件主題異化的主要因素有輿情流量、發(fā)布主體、內容要素、狀態(tài)趨勢、輿情受眾。其中作用大小依次為:輿情受眾、發(fā)布主體、內容要素、輿情流量、狀態(tài)趨勢。
其中預測表達式為
Y=log it(P)=-0.8026+0.6321X1- 0.4503X2+ 0.3921X3+ 0.2586X4-0.5894X5
采用Hosmer-Lemeshow擬合優(yōu)度指標對突發(fā)事件主題預警模型的適合度檢驗。如果模型的預測值能夠與Hosmer-Lemeshow擬合優(yōu)度的觀測值有較高的一致性,就認為擬合較好。經計算,本文Hosmer-Lemeshow擬合優(yōu)度得到的Sig值為0.920,其遠大于0.05,說明該模型擬合效果很好。
2017年11月22 日晚,“紅黃藍”事件在網絡引起眾多網民關注,成為社會公眾輿論焦點。這是一起典型的突發(fā)事件,縱觀整個突發(fā)事件,主題異化現(xiàn)象在信息傳播過程中時有發(fā)生。基于此本文以此作為主題異化的實證研究。
本文選取受網民關注且評論量較大的新聞,確保樣本數(shù)據(jù)盡可能具有代表性;樣本來源于微博,內容為不同發(fā)布者的聲明或公告,同時跟蹤同一個發(fā)布者不同時期發(fā)布的微博評論數(shù)據(jù),以觀察在事件發(fā)展過程中是否存在信息異化現(xiàn)象。
通過互聯(lián)網信息采集技術,本文選取采集了“紅黃藍幼兒園虐童事件”相關的6條由不同角色主體發(fā)布官方微博的轉發(fā)及評論數(shù)據(jù)作為研究樣本如表3。
表3 “紅黃藍幼兒園”時間樣本數(shù)據(jù)
(1)發(fā)布時間編碼
將微博發(fā)布時間作為起始時間,(轉發(fā))評論時間相對于發(fā)布時間的差值按每2天為一個時間段進行劃分,按1,2,3,..進行時段編碼。
(2)評論者的地區(qū)來源
微博類樣本地區(qū)信息為用戶在新浪微博平臺上填寫的所在地區(qū),研究時對樣本中評論者所在地的總數(shù)量進行編碼,以此作為地區(qū)分布度的依據(jù)。
(3)關鍵詞的處理
主要統(tǒng)計該主題下敏感詞的數(shù)量水平。可以根據(jù)自己的需求設定若干關鍵詞,并按其重要程度為其添加權重,主題重要度的計算可通過該輿情主題下關鍵詞權重的累加實現(xiàn)。
(4)信息強度的處理
一個微博內容被瀏覽、回復、轉載的頻率反映的是信息強度的變化。0-1000量化為0,1000-20000量化為1,20000-50000量化為2,超過50000均量化為3。量化的范圍不一定固定,需要綜合考慮一個突發(fā)事件的整體信息強度再做權衡。
根據(jù)表1進行量化,將量化值代入公式(1),依次算出P值:
P1=0.2301 P2= 0.3221 P3=0.6035 P4= 0.3214 P5= 0.2561 P6=0.5897
綜合多數(shù)預警結果,導致信息異化的關鍵因素之一是公眾傳播心理的異化。該事件相關輿情信息中負面輿情信息的占比為49.82%。事件的網絡輿情熱度不斷上升,網民開始在網絡圍繞事件細節(jié)真相和政府部門處置情況進行激烈的評論,涉事人員具有背景后臺、虐童細節(jié)等負面和質疑信息充斥網民的評論,夾雜著大量的憤怒、悲觀情緒。而一旦人處于這樣一種焦慮、擔憂、恐懼的情緒之中,人們對事件的看法和行為也會喪失理性。二是政府的處置能力?!凹t黃藍幼兒園虐童事件”是典型的由網民發(fā)布微博爆料引爆輿論并逐漸演變成挑戰(zhàn)政府公信力的公共危機事件。其中,“虐童”話題本屬于社會熱點,廣受政府、社會關注?!凹t黃藍幼兒園虐童事件”涉及網民造謠情節(jié),使得事件性質大變,憤怒、悲觀、懷疑等負面情緒在網絡快速蔓延。此外,網民對監(jiān)管部門(北京市教委)、公安機關等政府部門對事件的處置過程提出了嚴重質疑,產生較大社會輿論,并對政府公信力造成嚴重影響。
[1]吳駿一.基于logistic回歸的信用反欺詐預測模型[J].價值工程,2020,39(01):206-211.
[2]劉繼,李磊.大數(shù)據(jù)背景下網絡輿情智能預警機制分析[J].情報雜志,2019,38(12):92-97+183.
[3]于茜.大數(shù)據(jù)環(huán)境下的突發(fā)事件網絡輿情動態(tài)監(jiān)測與預警研究[J].無線互聯(lián)科技,2018,15(18):29-30.
[4]文竹.大數(shù)據(jù)背景下網絡輿情監(jiān)測與預警模型研究[J].信息通信,2018(04):141-142.
[5]李佳. 新媒體環(huán)境下突發(fā)事件信息異化及應對研究[D].鄭州大學,2018.
[6]夏一雪,蘭月新,趙玉敏.大數(shù)據(jù)背景下網絡輿情信息異化控制模型研究[J].現(xiàn)代情報,2018,38(02):3-11.
[7]丁蒙蒙. 突發(fā)事件網絡輿情監(jiān)測指標體系構建研究[D].電子科技大學,2015.
[8]劉可揚. 突發(fā)事件信息傳播中的信息異化問題研究[D].黑龍江大學,2014.
[9]高倩,安英博,吳鳳祥.基于Logistic回歸的落葉松毛蟲預測模型研究[J].河北農業(yè)大學學報,2011,34(06):108-110.
[10]劉珺.突發(fā)事件傳播中的信息異化與化解策略[J].實事求是,2011(02):29-31.