仇麗青,曲福帥
(山東科技大學 計算機科學與工程學院, 山東 青島 266590)(?通信作者電子郵箱qiuliqing2019@163.com)
基于情感分析和影響力評估的突發(fā)事件情感圖譜
仇麗青*,曲福帥
(山東科技大學 計算機科學與工程學院, 山東 青島 266590)(?通信作者電子郵箱qiuliqing2019@163.com)
針對突發(fā)事件中負面網(wǎng)絡輿情傳播的問題,提出了一種基于情感分析和影響力評估的突發(fā)事件情感圖譜研究方法。提出了一種基于多頭自注意力機制和雙向長短期記憶網(wǎng)絡(Bi-LSTM)的情感分析模型來計算網(wǎng)站用戶的情感傾向,并提出了一種融合加權度與K-shell值的節(jié)點影響力評估算法來評估用戶的影響力,從而綜合構建突發(fā)事件的情感圖譜,有效提高了情感圖譜的準確性和科學性。以“7.7安順公交車墜湖事件”為例,將突發(fā)事件的生命周期劃分為爆發(fā)期、蔓延期、成熟期和衰退期四個階段,分別生成情感圖譜進行可視化分析。實驗結果表明,在酒店評論數(shù)據(jù)集上,所提出的情感分析模型的F1值在積極和消極方面比文本循環(huán)神經(jīng)網(wǎng)絡(Text-RNN)模型分別提升了9.92個百分點和2.5個百分點;在Karate網(wǎng)絡上,所提影響力評估算法的區(qū)分度和準確性比K-shell算法分別提升了46.89個百分點和29.05個百分點。構建基于社交網(wǎng)絡的情感圖譜有助于相關部門發(fā)現(xiàn)意見領袖及其情感傾向,從而把握網(wǎng)絡輿情的發(fā)展趨勢,并降低消極情感對社會造成的影響。
社交網(wǎng)絡;情感分析;意見領袖;情感圖譜;輿情監(jiān)測
隨著互聯(lián)網(wǎng)技術的發(fā)展,社交網(wǎng)絡已成為用戶信息傳遞和接收的重要平臺。第47次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》顯示,截至2020年12月,我國網(wǎng)民規(guī)模達9.89億,互聯(lián)網(wǎng)普及率達70.4%[1]。與傳統(tǒng)的傳播平臺相比,在線社交網(wǎng)絡中信息與情感的傳播具有速度更快、影響范圍更廣等特點,使得社交網(wǎng)絡的輿情研究成為研究者們重要研究的課題。
社交網(wǎng)絡的情感圖譜是綜合社交網(wǎng)絡影響力分析和用戶信息情感傾向的動態(tài)分布圖,為社交網(wǎng)絡中突發(fā)事件輿情的分析和監(jiān)控提供了方便[2]。眾多輿情危機事件表明,對網(wǎng)絡輿情進行實時監(jiān)控、正確引導,能有效降低或避免負面輿情帶來的社會問題[3]。安璐等[4]以“魏則西事件”為例,對利益相關者進行標識,構建利益相關者的社會網(wǎng)絡情感圖譜;趙蓉英等[5]對突發(fā)事件輿情傳播進行定量化的測度分析,對結構特征及演化規(guī)律進行研究,提出了多種突發(fā)事件的網(wǎng)絡輿情控制和引導對策;張柳等[6]以“高校學術不端”話題為例,基于詞云統(tǒng)計進行內容特征分析,構建微博環(huán)境下的高校輿情情感演化圖譜。
在情感圖譜研究中,首先要對文本數(shù)據(jù)進行情感分析。情感分析是從特定領域的主觀文本中提取用戶的意見、情感,并區(qū)分其極性[7]。Vaswani等[8]首次將自注意力機制應用在了機器翻譯領域,提出了Transformer 模型,并將注意力機制與傳統(tǒng)深度網(wǎng)絡相結合;Wang等[9]提出了一種基于注意力的方面嵌入長短期記憶網(wǎng)絡(ATtention-based Long Short-Term Memory network with Aspect Embedding, ATAE-LSTM)模型,在方面級別的情感分類上達到了更好的性能;Liu等[10]將注意力機制與雙向長短期記憶網(wǎng)絡(Bi-directional Long Short-Term Memory network, Bi-LSTM)相結合并將其應用到計算機視覺領域,提出了一種AB-LSTM(Attention-based Bidirectional Long Short-Term Memory)模型,在場景文本檢測上取得了很好的效果;關鵬飛等[11]提出了一種注意力增強的雙向LSTM模型,建立自注意力機制來提高對句中情感關鍵詞的關注度,實驗結果表明該模型具有優(yōu)越性能。
得到用戶情感傾向后,還需評估用戶在突發(fā)事件中的影響力。社交網(wǎng)絡中節(jié)點影響力評估方法主要根據(jù)節(jié)點的拓撲結構來評估節(jié)點的影響力[12],常用的節(jié)點重要性度量方法有度中心性[13]、接近中心性[14]、介數(shù)中心性[15]、PageRank算法[16]和K-shell算法[17]等。鄧凱旋等[18]利用K-shell分解過程中節(jié)點被刪除時的迭代層數(shù)來增加節(jié)點區(qū)分度,提高了影響力排序的分辨率和準確性;Ibnoulouafi等[19]利用節(jié)點的度和距離來定義節(jié)點的密度,提出了一種密度中心性算法;王安等[20]考慮節(jié)點的社區(qū)結構特征和其節(jié)點連接特征,提出了一種基于社區(qū)劃分的節(jié)點重要性排序算法,得到了關鍵節(jié)點排序結果。
現(xiàn)有的大部分情感圖譜研究忽視了網(wǎng)絡中的信息傳播方向,且大多使用單一標準對影響力進行度量。網(wǎng)絡中具有較大影響力的個體會對其他個體造成一定的影響,信息傳播的方向決定個體之間的影響關系和影響強度。在情感分析過程中,輸入特征向量中的特征應具有不同重要性,現(xiàn)有方法一般采用注意力機制賦予不同的重要性權重,然而這種方法只能獲取一個方面的信息,導致信息獲取的多樣性受限。若在構建情感圖譜之前考慮到上述問題,情感圖譜的研究會更加的準確、合理。因此,本文首先提出了一種情感分析模型,該模型將多頭自注意力機制和Bi-LSTM模型相結合,使用多頭自注意力機制獲取不同子空間的信息并計算每個特征的重要性權重;此外,還提出了一種綜合考慮節(jié)點加權度和K-shell值的節(jié)點影響力評估算法WDK(Weighted Degree fusion K-shell),用來評估網(wǎng)絡中單個頂點的影響力。綜上所述,本文的主要工作如下:
1)提出了一種新的中文短文本情感分析模型,將多頭自注意力機制與Bi-LSTM模型結合來分析用戶的情感。
2)提出了一種評估節(jié)點影響力的WDK算法。該算法結合節(jié)點加權度和節(jié)點K-shell值來評估有向圖中節(jié)點的影響力。
3)使用1)、2)提出的模型和算法,提出了一種社交網(wǎng)絡情感圖譜研究方法。
實驗結果驗證了所提算法的優(yōu)越性和本文社交網(wǎng)絡的情感圖譜分析方法在實際案例上的可用性。
為了構建準確、合理的突發(fā)事件情感圖譜,本文綜合情感分析和影響力評估方法進行算法設計與分析。首先,將多頭自注意力機制與Bi-LSTM相結合,并將其應用到中文短文本情感分析當中,獲取突發(fā)事件中用戶的情感傾向。同時,提出了一種融合加權度與K-shell算法的節(jié)點影響力計算方法,對突發(fā)事件中用戶的影響力大小進行度量,在有向圖的節(jié)點影響力計算中具有良好的區(qū)分度和準確性。
1.1.1 雙向長短期記憶網(wǎng)絡
Hochreiter等[21]提出長短期記憶網(wǎng)絡(Long Short-Term Memory network, LSTM)模型,引入“門”的概念,有效避免了梯度消失與爆炸問題。LSTM的基本結構如圖1所示。
圖1 LSTM模型結構Fig. 1 LSTM model structure
傳統(tǒng)的LSTM模型只考慮了序列前值,忽略了未來的上下文信息。Bi-LSTM分別考慮前向和后向傳播,利用兩次LSTM充分提取短文本的所有特征。Bi-LSTM提取的文本特征向量如式(7)所示:
1.1.2 多頭自注意力機制
自注意力機制(self-attention)可以在模型訓練中判斷關鍵詞的重要程度,關注那些對研究更有用的信息。為了增加情感詞在分類過程中的權重,利用多頭自注意力機制獲取情感詞在句子中的權重分布。通過多頭自注意力機制獲取不同方面更重要的上下文信息,與雙向長短期記憶網(wǎng)絡相結合,實現(xiàn)了短文本的情感分類。本文使用多頭自注意力機制獲取不同子空間的信息并計算每個特征的重要性權重,具體實現(xiàn)原理如式(8)~(10)所示:
多頭自注意力機制的算法描述如下。
1.1.3 模型設計
為了更加準確地得到突發(fā)事件中用戶的情感傾向,構建更加科學有效的突發(fā)事件情感圖譜。本文使用基于多頭自注意力機制的雙向長短期記憶網(wǎng)絡模型,將用戶情感劃分為積極(Positive)和消極(Negative)兩種。本文所使用的情感分析模型可以分為以下四層,模型結構如圖2所示。
1)數(shù)據(jù)處理層。文本預處理之后,利用Word2vec將預處理之后的數(shù)據(jù)進行向量化表示。
2)特征提取層。詞是模型處理的基本單位,利用Bi-LSTM模型獲取詞在句子上下文中的文本特征。
3)加權層。判斷詞級特征的重要性并賦予該詞在句子中的注意力權重。
4)分類層。對特征進行加權處理后,利用Softmax函數(shù)進行情感預測,預測結果分為積極和消極。
圖2 基于自注意力的Bi-LSTM模型結構Fig. 2 Self-attention based Bi-LSTM model structure
1.2.1 K-shell算法
K-Shell算法首次提出了節(jié)點的影響力與節(jié)點在社交網(wǎng)絡中的位置有關,相較于傳統(tǒng)的中心性算法,K-Shell在處理大型社交網(wǎng)絡時,具有較高的準確性和更低的時間復雜度。
2)刪除度值為1的節(jié)點,如果網(wǎng)絡中新出現(xiàn)度值為1的節(jié)點,繼續(xù)刪除度為1的節(jié)點,重復以上操作,直至網(wǎng)絡中不再存在度值為1的節(jié)點。本步驟刪除的節(jié)點構成網(wǎng)絡的1-shell層,節(jié)點的層數(shù)。
3)重復步驟2)刪除操作,刪除度值為2的節(jié)點,如果網(wǎng)絡中新出現(xiàn)度值小于等于2的節(jié)點,重復以上操作,直至網(wǎng)絡中不再存在度值小于等于2的節(jié)點。本步驟刪除的節(jié)點構成網(wǎng)絡的2-shell層,節(jié)點的層數(shù)。
1.2.2 WDK算法
大部分社交網(wǎng)絡中節(jié)點的影響不是對稱的,信息的傳播方向決定著節(jié)點之間的影響關系和影響力強度。K-shell算法能夠較好地從全局角度反映節(jié)點的影響力,但存在分辨率不高的問題,忽略了節(jié)點之間的影響關系。度指標是一種經(jīng)典的局部性指標,可以反映節(jié)點的局部影響。為了讓影響力評估算法有效適用于突發(fā)事件的情感圖譜研究,本文考慮用戶之間信息的傳播關系,將K-shell算法應用到有向社交網(wǎng)絡中,從局部和全局方面對節(jié)點影響力進行綜合度量,獲取用戶的綜合影響力。
定義1 由于有向圖中節(jié)點之間的影響不是對稱的,因此計算過程中只考慮影響關系,即只考慮節(jié)點的出度,為防止出現(xiàn)出度值為0的情況,計算節(jié)點影響力時,節(jié)點的度記作:
為了更加準確地對節(jié)點局部影響力進行評估,提高節(jié)點間影響力的分辨率,考慮節(jié)點本身的同時結合其影響的鄰居節(jié)點的影響力,提出了一種加權度對有向圖的局部影響力進行度量,如式(12)所示:
基于上述研究,本文提出了一種基于有向圖的融合加權度與K-shell的WDK算法,將度中心性與K-shell算法相結合,對節(jié)點影響力進行綜合評估。WDK算法如式(13)所示:
融合度與K-shell的節(jié)點影響力算法綜合考慮節(jié)點的局部屬性和全局屬性,算法主要過程如下:
1)加權度計算,分別計算每個節(jié)點的出度、入度以及鄰居節(jié)點的度,利用三者的關系計算節(jié)點的加權度。
2)K-shell值計算,利用基于有向圖的K-shell算法計算節(jié)點的層數(shù)。
3)影響力計算,綜合考慮節(jié)點影響力的局部因素和全局因素,利用加權度與值計算節(jié)點的影響力。
WDK算法的偽代碼如下。
4) end for
7) end for
10) end for
通過構建社交網(wǎng)絡的突發(fā)事件情感圖譜,將用戶的情感傾向和影響力差異進行可視化表示,有效地展現(xiàn)突發(fā)事件的情感傳播方式和演化特征,為相關部門對突發(fā)事件風險監(jiān)控預警和調控提供了有效途徑,以維護社會的穩(wěn)定,降低消極情感對社會造成的影響。
在突發(fā)事件的情感圖譜研究過程中,首先將利用爬蟲技術獲取的突發(fā)事件中用戶評論關系及其發(fā)表的情感文本,作為本文研究的實驗數(shù)據(jù)。為了構建突發(fā)事件的情感圖譜,使用結合情感分析和影響力評估的方法進行設計分析,提高本文情感圖譜研究的科學性和有效性。將用戶情感傾向和影響力大小作為情感圖譜中的評價標準,分別設計相應算法。在用戶情感傾向研究中,本文基于多頭自注意力機制和Bi-LSTM的情感分析模型計算用戶文本數(shù)據(jù)的情感傾向,得出用戶在突發(fā)事件中的情感傾向。在用戶對突發(fā)事件中影響力的評估上,利用WDK算法評估用戶在突發(fā)事件輿情傳播中的影響力。結合用戶情感傾向與影響力大小,對輿情事件的生命周期劃分為多個階段進行分析,得到基于社交網(wǎng)絡的突發(fā)事件情感圖譜,動態(tài)展示突發(fā)事件輿情的發(fā)展趨勢,全面了解突發(fā)事件輿情的發(fā)展趨勢與用戶的情感變化規(guī)律。
基于社交網(wǎng)絡的突發(fā)事件情感圖譜結構如圖3所示。
圖3 基于社交網(wǎng)絡的情感圖譜結構Fig. 3 Emotional map structure based on social network
2.1.1 數(shù)據(jù)集與對比模型
為了準確地獲取突發(fā)事件中用戶的情感傾向,構建更加科學有效的情感圖譜,對本文情感分析模型在突發(fā)事件中的有效性進行驗證,在中文情感文本數(shù)據(jù)集上設計對比實驗。實驗使用酒店評論數(shù)據(jù)集和電商評論數(shù)據(jù)集對本文模型進行測試對比。酒店評論數(shù)據(jù)集包含4 315條積極評論,1 971條消極評論;電商評論數(shù)據(jù)集包括書籍、平板、手機、水果、洗發(fā)水、熱水器等10個領域,其中積極評論31 728條,消極評論31 046條。本文按照6∶2∶2的比例對訓練集、驗證集和測試集進行劃分。
將本文模型在不同數(shù)據(jù)集上分別與文本分類循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Networks for Text classification, Text-RNN)[22]、文本循環(huán)卷積神經(jīng)網(wǎng)絡(Recurrent Convolutional Neural Networks for Text classification, Text-RCNN)[23]、Text-RNN+Attention[24]、FastText[25]、深度金字塔卷積神經(jīng)網(wǎng)絡(Deep Pyramid Convolutional Neural Network,DPCNN)[26]和Transformer[8]進行對比。
1)Text-RNN:將Word Embedding輸入到雙向RNN中,將最后一位的輸出輸入到全連接層中,進行Softmax分類。
2)Text-RCNN:使用雙向RNN處理輸入的向量,把雙向RNN的輸出與對應的詞向量拼接,將其輸入到全連接網(wǎng)絡對其進行整合,然后使用池化層進行特征選擇,最后將其輸入一個全連接分類器中實現(xiàn)分類。
3)Text-RNN+Attention:將注意力機制應用到Text-RNN中,為每個特征賦予不同的重要性,從而提高模型的預測準確率。
4)FastText: 使用n-gram特征代替單個詞的特征,提取序列信息,使用層次Softmax對文本進行分類,具有快速高效的優(yōu)勢。
5)DPCNN:通過下采樣來捕捉長距離文本依賴關系,發(fā)現(xiàn)CNN不能提取的隱含的長距離依賴關系,從而提高了模型預測準確率。
6)Transformer:通過多頭自注意力機制,在不同的獨立子空間發(fā)現(xiàn)獨特的特征表示,在并行計算的同時捕獲長距離依賴關系,學習得到文本的全局語義信息。
為了保證結果的可信度,本文的所有實驗都在同一環(huán)境下進行。
實驗環(huán)境如下:操作系統(tǒng)Windows 10,內存16 GB,處理器為Intel Core i5-8400H,GPU為Geforce GTX 1050 Ti,顯存4 GB,使用PyTorch深度學習框架。
為了防止過擬合,本文在訓練過程中使用早停法來防止泛化能力的下降,具體參數(shù)設置如表1所示。
表1 實驗參數(shù)設置Tab. 1 Experimental parameter setting
2.1.2 模型性能分析
將本文模型與其他情感分析模型分別在酒店評論數(shù)據(jù)集和電商評論數(shù)據(jù)集上進行實驗對比,并分析各模型在積極和消極兩個方面的準確率、召回率和F1值情況,各情感分析模型在酒店評論數(shù)據(jù)集上的實驗結果如表2所示。
表2 不同模型在酒店評論數(shù)據(jù)集上的實驗結果 單位:%Tab. 2 Experimental results of different models on hotel review dataset unit:%
各情感分析模型在電商評論數(shù)據(jù)集上的實驗結果如表3所示。
表3 不同模型在電商評論數(shù)據(jù)集上的實驗結果 單位:%Tab. 3 Experimental results of different models on e-commerce review dataset unit:%
由表2~3可知,在酒店評論數(shù)據(jù)集上,本文模型在積極和消極方面的性能均優(yōu)于其他對比模型,Text-RCNN的性能僅次于本文模型,Text-RNN在該數(shù)據(jù)集上性能最差。具體來說,在酒店評論數(shù)據(jù)集上,本文模型在積極和消極方面,與Text-RCNN模型相比,本文模型的F1值分別提升了0.65個百分點和0.2個百分點;與Text-RNN模型相比,本文模型的F1值分別提升了9.92個百分點和2.5個百分點。在電商評論數(shù)據(jù)集上,本文模型在積極方面表現(xiàn)出最優(yōu)的性能,在消極方面略低于DPCNN模型,與Text-RCNN模型相比,本文模型的F1值分別提升了1.71個百分點和0.18個百分點;與Text-RNN模型相比,本文模型的F1值分別提升了3.38個百分點和0.56個百分點。出現(xiàn)上述結果的主要原因是:本文模型使用Bi-LSTM更好地捕捉雙向的語義依賴,使用多頭自注意力機制自動學習多個子空間權重分布,獲得更加多樣的信息增加情感詞在分類過程中的權重。因此,本文模型可以有效地提高模型的預測準確率,有利于對中文短文本進行情感分析,可應用在突發(fā)事件的情感圖譜研究中。
2.2.1 數(shù)據(jù)集與對比算法
為了驗證本文節(jié)點影響力評估算法在突發(fā)事件中用戶言論影響力度量上的有效性,對該算法的區(qū)分度和準確性進行驗證。本節(jié)實驗中使用的公開數(shù)據(jù)集均來自Network Repository網(wǎng)站,數(shù)據(jù)集詳細信息如表4所示。為了驗證WDK算法的性能,將本文算法與度中心性(Degree Centrality, DC)[13]、接近中心性(Closeness Centrality, CC)[14]、介數(shù)中心性(Betweenness Centrality, BC)[15]、K-Shell(KS)[17]和H-indeX(HX)[27]算法進行對比。將各算法在每個數(shù)據(jù)集上計算得到其節(jié)點影響力序列,利用影響力序列對算法的區(qū)分度和準確性進行對比分析。
表4 社交網(wǎng)絡數(shù)據(jù)集統(tǒng)計Tab. 4 Statistics of social network datasets
2.2.2 區(qū)分度分析
通過提高影響力評估算法的區(qū)分度,使影響力較高的用戶意見領袖地位更加明確,方便情感圖譜針對意見領袖進行研究,因此對WDK算法的區(qū)分度進行對比分析。算法的區(qū)分度是指影響力算法區(qū)分節(jié)點影響力的能力,在相同級別中節(jié)點的數(shù)量越少,其區(qū)分度就越高。本文利用M函數(shù)[28]對算法區(qū)分度進行測試,評價標準如式(17)所示:
由表5可知,WDK算法在不同數(shù)據(jù)集上的區(qū)分度均優(yōu)于其他對比算法。以Karate網(wǎng)絡為例,與度中心性算法相比,WDK算法的區(qū)分度提升了25.68個百分點;與K-shell算法相比,WDK算法的區(qū)分度提升了46.98個百分點。WDK算法通過對度值進行加權,使相同級別中節(jié)點的數(shù)量更少。將加權度與K-shell算法相結合,提高算法的區(qū)分度,滿足情感圖譜研究中對用戶影響力的區(qū)分性要求。
表5 節(jié)點影響力算法的M函數(shù)值Tab. 5 M-function value of node influence algorithm
2.2.3 準確性分析
通過提高影響力評估算法的準確性,可以使用戶的評估影響力更加接近真實影響力,使得情感圖譜更加準確科學,因此對本文影響力評估算法的準確性進行對比分析。本文使用易感-感染-免疫(Susceptible-Infected-Recovered, SIR)模型進行模擬,得到數(shù)據(jù)集的影響力序列作為數(shù)據(jù)集真實影響力序列,采用肯德爾相關系數(shù)來計算和的關聯(lián)程度,測試算法的準確性。對于節(jié)點對和,若滿足,或,,則認為這兩個節(jié)點是協(xié)調的;反之認為節(jié)點之間不協(xié)調??系聽栂嚓P系數(shù)越高,表示算法的準確度越高。肯德爾相關系數(shù)如式(18)所示:
在SIR模型中,節(jié)點在任意時刻只能處于易感染(Susceptible)、已感染(Infected)和免疫(Recovered)三種狀態(tài),利用節(jié)點在感染概率下的感染數(shù)量表示節(jié)點的影響力。在SIR模型中,常用一階鄰居與二階鄰居的平均度數(shù)表示傳播概率的閾值,為了提高準確性,實際應用中傳播概率一般大于閾值。本節(jié)實驗中,對每個節(jié)點進行1 000次SIR模擬,取平均值作為節(jié)點的真實影響力。通過對比各算法在不同數(shù)據(jù)集上的肯德爾相關系數(shù),驗證了WDK算法具有良好的準確性,節(jié)點影響力算法的準確性如表6所示。
表6 節(jié)點影響力算法的肯德爾相關系數(shù)Tab. 6 Kendall coefficients of node influence algorithms
由表6可知,WDK算法在不同數(shù)據(jù)集上的準確性均優(yōu)于其他對比算法,可以準確體現(xiàn)節(jié)點的真實影響力。以Karate網(wǎng)絡為例,與度中心性算法相比,本文算法的準確性提升了3.2個百分點;與K-shell算法相比,本文算法的準確性提升了29.05個百分點。度中心性算法在準確性上具有較好的性能,度指標在計算時更加接近準確影響力。本文算法將度指標進行加權,對節(jié)點的局部影響力進行評估,且與K-shell值相結合,得到節(jié)點的綜合影響力,獲得更優(yōu)的準確性,滿足情感圖譜研究中對用戶影響力的準確性要求。
本文選取“7.7安順公交車墜湖事件”為研究案例,構建基于社交網(wǎng)絡的情感圖譜對突發(fā)事件進行可視化分析。2020年7月7日12時12分,安順市一公交車在行駛至西秀區(qū)虹山水庫大壩時,突然轉向沖入水庫,造成人員傷亡;7月12日,貴州省安順市公安局公布公交車墜湖原因,系駕駛員的個人犯罪行為,共搜救出37人,其中20人當場死亡,1人經(jīng)搶救無效死亡,15人受傷,1人未受傷。該事件引起網(wǎng)友的廣泛關注,形成社會輿論。本文以微博為研究平臺,以“安順公交車墜湖事件”為研究案例,生成相應的情感圖譜,對突發(fā)事件進行研究分析。為方便數(shù)據(jù)獲取和處理,利用微博的高級搜索功能篩選出熱門微博,對7月7日至7月17日時間區(qū)間內事件相關的微博、用戶、評論、時間等信息進行獲取。對實驗數(shù)據(jù)進行分析前,首先進行預處理操作,具體包括去除停用詞、制定正則表達式過濾規(guī)則、利用Jieba工具進行分詞處理等。數(shù)據(jù)處理完成后,以用戶為節(jié)點,以用戶之間的評論關系為有向邊,構建突發(fā)事件的社交網(wǎng)絡圖。
“7.7安順公交車墜湖事件”的發(fā)生沒有任何征兆和預警,事件發(fā)生后輿情熱度瞬間爆發(fā),達到該事件熱度峰值。根據(jù)該突發(fā)事件不同時間段的熱度特征,將該事件的生命周期劃分為爆發(fā)期、蔓延期、成熟期和衰退期四個階段進行分析,生命周期中各階段的用戶狀態(tài)如圖4所示。其中,7月7日為事件的爆發(fā)期,8~11日至為蔓延期,12日為成熟期,13~17日為衰退期?!?.7安順公交車墜湖事件”引發(fā)網(wǎng)民的熱議,網(wǎng)民的整體情感趨于正向,但依然存在一定比例的負面評論。
圖4 “7.7安順公交車墜湖事件”各發(fā)展階段用戶狀態(tài)Fig. 4 User status in each development stage of “7.7 Anshun Bus Falling into Lake Incident”
本文利用基于多頭自注意力和Bi-LSTM的情感分析模型計算用戶文本數(shù)據(jù)的情感傾向,情感值為正表示積極情感,情感值為負表示消極情感。若用戶發(fā)表多條信息,將多條文本數(shù)據(jù)的情感傾向平均值作為用戶的情感傾向。利用融合度與K-shell的節(jié)點影響力算法,計算用戶在突發(fā)事件輿情傳播中的影響力大小。在得到用戶的情感傾向和影響力之后,將計算結果導入Gephi可視化軟件,按照事件生命周期的不同階段生成情感圖譜?!?.7安順公交車墜湖事件”的情感圖譜如圖5所示。在圖5中,每個節(jié)點表示一個用戶,節(jié)點大小表示用戶的影響力大小,節(jié)點標簽表示用戶名;節(jié)點的顏色表示用戶的情感傾向,灰色表示傳播消極的情感,白色表示傳播積極的情感,有向邊表示用戶之間的評論關系。
圖5 “7.7安順公交車墜湖事件”情感圖譜Fig. 5 Emotional map of “7.7 Anshun Bus Falling into Lake Incident”
為了更好地分析用戶在突發(fā)事件的不同階段關注的熱點問題,研究用戶群體的情感變化趨勢,本文利用該事件中用戶發(fā)布的文本信息,為事件生命周期各階段生成輿情詞云,對每個階段的話題詞頻進行分析。“7.7安順公交車墜湖事件”詞云如圖6所示。
通過生成“7.7安順公交車墜湖事件”的情感圖譜和輿情詞云,對該事件爆發(fā)期、蔓延期、成熟期和衰退期進行分析,研究了該事件的輿情發(fā)展趨勢。
在輿情的爆發(fā)期,事件熱度迅速增長,大量網(wǎng)友關注該事件,開始形成社會輿論,輿論熱度出現(xiàn)“井噴式”傳播現(xiàn)象。在該時期,“共青團中央”“紫光閣”“人民網(wǎng)”等官方賬號迅速向公眾發(fā)布事件的真實情況,對社會輿論進行積極引導。從該時期情感圖譜可以看出,“共青團中央”“紫光閣”“人民網(wǎng)”“楚天都市報”等白色節(jié)點數(shù)量較多,“北京突發(fā)”“江蘇侃爺”等灰色節(jié)點數(shù)量較少,大多數(shù)用戶表現(xiàn)積極的情感。該時期出現(xiàn)頻次較高的詞語有“公交車”“司機”“平安”“逝者”等,用戶主要圍繞事件的基本情況發(fā)表言論。在該時期的意見領袖中,官方賬號占據(jù)輿論的中心,不斷向公眾傳遞事件相關信息,防止事件相關謠言傳播。
圖6 “7.7安順公交車墜湖事件”詞云Fig. 6 Word cloud of “7.7 Anshun Bus Falling into Lake Incident”
在輿情的蔓延期,相關部門對事件展開調查,該事件依然保持較高熱度?!叭嗣袢請蟆钡裙俜劫~號對該事件持續(xù)跟進,傳達事件的正確信息并安撫網(wǎng)民情緒?!叭嗣袢請蟆薄吧蜿柧W(wǎng)警巡查執(zhí)法”等具有較大影響力節(jié)點均呈現(xiàn)白色,個別影響力較小的意見領袖節(jié)點呈現(xiàn)灰色。該時期用戶的討論話題以“公交車”“貴州”“司機”“英雄”為主,更多的用戶開始關注事件的后續(xù)發(fā)展,出現(xiàn)較多對事件起因的分析。該時期用戶之間呈現(xiàn)明顯的小團體現(xiàn)象,各小團體之間存在大量關聯(lián),用戶接收到多方信息,降低了受到謠言的影響。
在輿情的成熟期,警方對案件基本情況及原因進行通報,對網(wǎng)絡傳言進行聲明。官方媒體占據(jù)輿論的中心,傳達事件真實信息,使網(wǎng)民對該事件得到全方位的了解。其中,“新京報”“澎湃新聞”“人民日報”等用戶節(jié)點均呈現(xiàn)白色,“中國新聞網(wǎng)”等少量用戶節(jié)點呈現(xiàn)灰色。該時期用戶討論話題以“司機”“蓄意”“報復社會”為主,隨著事件起因的爆出,輿情重心進一步轉移。相較事件初期,該階段網(wǎng)絡輿情影響力得到有效的控制,體現(xiàn)出官方媒體的公信力。
在輿情的衰退期,事件熱度開始分散,輿情傳播擴散速度緩慢。該時期,傳播積極情感和傳播消極情感的意見領袖數(shù)量沒有明顯差距,未出現(xiàn)對事件占據(jù)主導作用的意見領袖。該時期用戶談論話題以“司機”“報復社會”“心理健康”為主,網(wǎng)民在討論事件起因的同時,開始出現(xiàn)對事件進行反思和預防的話題。該時期網(wǎng)絡輿情進入衰退狀態(tài),整個事件開始進入反思階段。
在事件整體過程中,官方賬號積極介入,向網(wǎng)民傳達正確的信息,有效避免了謠言及偏激輿論的傳播。傳播積極情感的用戶在該突發(fā)事件生命周期的各個階段,均多于傳播消極情感的用戶,絕大多數(shù)用戶對該事件具有正確的認知。爆發(fā)期和蔓延期是進行輿情監(jiān)控的主要時期。在爆發(fā)期中,普通用戶對事件的了解不夠全面,容易受到消極情緒的影響,需對用戶進行正確引導。在蔓延期時,用戶對事件有了更全面的認知,主流媒體對事件真實情況持續(xù)更新,保證了積極的輿論發(fā)展趨勢。在突發(fā)事件發(fā)生時,絕大部分用戶處于輿論的邊緣,對輿論的影響較小,官方媒體和主流媒體對事件的輿情發(fā)展具有主導作用。主流媒體表達信息客觀公正,能夠保證信息的正向傳播,有利于事件的和諧發(fā)展和社會的穩(wěn)定。在該事件中,雖然大多意見領袖能夠傳播積極的情感,也難免存在意見領袖傳播消極的情感,這類用戶屬于突發(fā)事件不穩(wěn)定因素,需進行重點監(jiān)控和引導。
為了對突發(fā)事件的網(wǎng)絡輿情進行合理監(jiān)控和引導,本文基于情感分析和社交網(wǎng)絡分析方法,構建情感圖譜對網(wǎng)絡輿情進行可視化分析。為了有效評估突發(fā)事件中用戶的情感傾向和影響力大小,綜合情感分析與影響力評估算法構建突發(fā)事件的情感圖譜。首先,提出了一種中文短文本情感分析模型,將多頭自注意力機制與Bi-LSTM模型結合來分析用戶的情感。同時,提出了一種評估節(jié)點影響力的WDK算法,結合節(jié)點加權度和節(jié)點的K-shell值來評估有向圖中節(jié)點的影響力。實驗結果表明,本文情感分析模型在情感分類上具有較優(yōu)的性能,社交網(wǎng)絡影響力算法在區(qū)分度和準確性上表現(xiàn)優(yōu)異。
為了驗證本文研究方法的有效性及實用性,以“安順公交車墜湖事件”為研究案例,對突發(fā)事件進行了可視化分析。實驗結果表明,通過構建社交網(wǎng)絡的情感圖譜,可以有效地展現(xiàn)突發(fā)事件的情感傳播方式和演化特征,為相關部門對突發(fā)事件風險監(jiān)控預警和調控提供了有效途徑。在未來的研究中,可以進一步提高情感分析精確度和影響力區(qū)分度,使情感圖譜更加準確有效。
[1] 中國互聯(lián)網(wǎng)絡信息中心.第47次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告[EB/OL].[2021-03-12].http://cnnic.cn/hlwfzyj/hlwxzbg/hlwtjbg/202102/P020210203334633480104.pdf.(China Internet Network Information Center. The 47th China statistical report on Internet development [EB/OL]. [2021-03-12]. http://cnnic.cn/hlwfzyj/hlwxzbg/hlwtjbg/202102/P020210203334633480104.pdf.)
[2] 戴杏云,張柳,戴偉輝,等.社交網(wǎng)絡的情感圖譜研究[J].管理評論,2016,28(8):79-86.(DAI X Y, ZHANG L,DAI W H, et al. Research on emotional mapping of social networks [J]. Management Review, 2016, 28(8): 79-86.)
[3] 黃星,劉樑.突發(fā)事件網(wǎng)絡輿情風險評價方法及應用[J].情報科學,2018,36(4):3-9.(HUANG X, LIU L. The evaluation method and application of unexpected events network public opinion [J]. Information Science, 2018, 36(4): 3-9.)
[4] 安璐,歐孟花.突發(fā)公共衛(wèi)生事件利益相關者的社會網(wǎng)絡情感圖譜研究[J].圖書情報工作,2017,61(20):120-130.(AN L, OU M H. Social network sentiment map of the stakeholders in public health emergencies [J]. Library and Information Service, 2017, 61(20): 120-130.)
[5] 趙蓉英,王旭.突發(fā)事件網(wǎng)絡輿情關鍵節(jié)點識別及導控對策研究——以“大賢村遭洪災事件”為例[J].現(xiàn)代情報,2018,38(1):19-24,30.(ZHAO R Y, WANG X. Research on identifying key nodes and guiding and controlling strategies of network public opinion in emergency — a case study of being suffered by flooding in Da Xian Village [J]. Journal of Modern Information, 2018, 38(1): 19-24, 30.)
[6] 張柳,王晰巍,王鐸,等.微博環(huán)境下高校輿情情感演化圖譜研究——以新浪微博“高校學術不端”話題為例[J].現(xiàn)代情報,2019,39(10):119-126,135.(ZHANG L, WANG X W, WANG D, et al. The study of emotional evolution map of public opinions in university under the microblog environment — a case of “academic misconduct in universities” in Sina Weibo [J]. Journal of Modern Information, 2019, 39(10): 119-126, 135.)
[7] HEMMATIAN F, SOHRABI M K. A survey on classification techniques for opinion mining and sentiment analysis [J]. Artificial Intelligence Review, 2019, 52(3): 1495-1545.
[8] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 2017 31st International Conference on Neural Information Processing Systems. Red Hook: Curran Associates Inc., 2017: 6000-6010.
[9] WANG Y Q, HUANG M L, ZHAO L, et al. Attention-based LSTM for aspect-level sentiment classification [C]// Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Stroudsburg: ACL, 2016: 606-615.
[10] LIU Z, ZHOU W, LI H. AB-LSTM: attention-based bidirectional LSTM model for scene text detection [J]. ACM Transactions on Multimedia Computing,Communications, and Applications, 2019, 15(4): Article No.107.
[11] 關鵬飛,李寶安,呂學強,等.注意力增強的雙向LSTM情感分析[J].中文信息學報,2019,33(2):105-111.(GUAN P F,LI B A, LYU X Q, et al. Attention enhanced Bi-directional LSTM for sentiment analysis [J]. Journal of Chinese Information Processing, 2019, 33(2): 105-111.)
[12] ZAREIE A, SHEIKHAHMADI A, FATEMI A. Influential nodes ranking in complex networks: an entropy-based approach [J]. Chaos, Solitons and Fractals, 2017, 104: 485-494.
[13] FREEMAN L C. Centrality in social networks conceptual clarification [J]. Social Networks, 1978, 1(3): 215-239.
[14] SABIDUSSI G. The centrality index of a graph [J]. Psychometrika, 1966, 31(4): 581-603.
[15] NEWMAN M E J. A measure of betweenness centrality based on random walks [J]. Social Networks, 2005, 27(1): 39-54.
[16] BRIN S, PAGE L. The anatomy of a large-scale hypertextual Web search engine [J]. Computer Networks and ISDN Systems, 1998, 30 (1/2/3/4/5/6/7) :107-117.
[17] GARAS A, SCHWEITZER F, HAVLIN S. Ak-shell de-composition method for weighted networks [J]. New Journal of Physics, 2012, 14(8): 2017 No. 083030.
[18] 鄧凱旋,陳鴻昶,黃瑞陽.一種基于改進K-shell的節(jié)點重要性排序方法[J].計算機應用研究,2017,34(10):3017-3019, 3084.(DENG K X, CHEN H C, HUANG R Y. Method of node importance ranking based on improved K-shell [J]. Application Research of Computers, 2017, 34(10):3017-3019, 3084.)
[19] IBNOULOUAFI A, EL HAZITI M. Density centrality: identifying influential nodes based on area density formula [J]. Chaos, Solitons and Fractals, 2018, 114: 69-80.
[20] 王安,顧益軍.基于社區(qū)劃分的節(jié)點重要性評估方法[J].計算機工程與應用,2020,56(8):42-48.(WANG A, GU Y J. Nodes importance ranking method based on community detection [J]. Computer Engineering and Applications,2020, 56(8): 42-48.)
[21] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[22] LAI S W, XU L H, LIU K, et al. Recurrent convolutional neural networks for text classification [C]// Proceedings of the 2015 29th AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2015: 2267-2273.
[23] LIU P, QIU X, HUANG X. Recurrent neural network for text classification with multi-task learning [C]// Proceedings of the 2016 Twenty-Fifth International Joint Conference on Artificial Intelligence. New York: AAAI Press, 2016: 2873-2879.
[24] YANG Z C, YANG D Y, DYER C, et al. Hierarchical attention networks for document classification [C]// Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg: ACL, 2016: 1480-1489.
[25] JOULIN A, GRAVE E, BOJANOWSKI P, et al. Bag of tricks for efficient text classification [C]// Proceedings of the 2017 15th Conference of the European Chapter of the Association for Computational Linguistics (Volume 2, Short Papers). Stroudsburg: ACL, 2017: 427-431.
[26] JOHNSON R, ZHANG T. Deep pyramid convolutional neural networks for text categorization [C]// Proceedings of the 2017 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg: ACL,2017:562-570.
[27] Lü L Y, ZHOU T, ZHANG Q M, et al. The H-index of a network node and its relation to degree and coreness [J]. Nature Communications, 2016, 7: Article No.10168.
[28] LI H J, ZHANG X S. Analysis of stability of community structure across multiple hierarchical levels[J]. Europhysics Letters, 2013, 103(5): Article No.58002.
Emotional map of emergency based on sentiment analysis and influence evaluation
QIU Liqing*, QU Fushuai
(College of Computer Science and Engineering,Shandong University of Science and Technology,Qingdao Shandong266590,China)
Aiming the spread of negative network public opinions in emergencies, a research method of emotional map of emergency based on sentiment analysis and influence evaluation was proposed. In the proposed method, a sentiment analysis model based on multi-head self-attention mechanism and Bi-directional Long Short-Term Memory network (Bi-LSTM) was proposed to evaluate website users’ emotional tendencies. Meanwhile, a point influence evaluation algorithm combining weighted degree and K-shell value was proposed to measure users’ influences. Based on the above models, the emotional map of emergency was constructed, which effectively improved the accuracy and scientificity of the emotional map. Taking “7.7 Anshun Bus Falling into Lake Incident” as an example,the life cycle of an emergency was divided into four stages such as outbreak stage, spread stage, maturity stage and decline stage, which were used to separately generate the emotional maps for visualization analysis. Experimental results show that, the F1-score of the proposed sentiment analysis model on the hotel review dataset is 9.92 percentage points and 2.5 percentage points higher than that of Recurrent Neural Networks for Text Classification (Text-RNN) model in positive and negative aspects respectively. On the Karate network, the discrimination and accuracy of the proposed influence evaluation algorithm are 46.89 percentage points and 29.05 percentage points higher than those of the K-shell algorithm respectively. By building the emotional map based on social networks, relevant department can find the opinion leaders and their tendencies, thereby grasping the development trend of online public opinion, and reducing the influence of negative emotions on society.
social network; sentiment analysis; opinion leader; emotional map; public opinion monitoring
TP391
A
1001-9081(2022)05-1330-09
10.11772/j.issn.1001-9081.2021040654
2021?04?25;
2021?07?10;
2021?07?14。
國家自然科學基金資助項目(71772107);山東省自然科學基金資助項目(ZR2020MF044);山東省社會科學規(guī)劃數(shù)字山東研究專項(21CSDJ48);青島市社科規(guī)劃項目(QDSKL1801103)。
仇麗青(1978—),女,山東德州人,副教授,博士,主要研究方向:社交網(wǎng)絡、數(shù)據(jù)挖掘; 曲福帥(1996—),男,山東濰坊人,碩士研究生,主要研究方向:社交網(wǎng)絡、情感分析。
This work is partially supported by National Natural Science Foundation of China (71772107),Shandong Natural Science Foundation (ZR2020MF044), Digital Shandong Research Project of Shandong Social Science Plan (21CSDJ48), Qingdao Social Science Planning Project (QDSKL1801103).
QIU Liqing, born in 1978, Ph. D., associate professor. Her research interests include social network, data mining.
QU Fushuai, born in 1996, M. S. candidate. His research interests include social network,sentiment analysis.