牟冬梅 靳春妍 邵琦
DOI:10 3969/j.issn.1008-0821.2021.10.007
[中圖分類號]G202 [文獻標識碼]A [文章編號]1008—0821(2021)10—0059—08
社交網(wǎng)絡(luò)的重要載體“三微一端”承載了公眾情感表達及輿論傳播的重要功能。由于突發(fā)公共衛(wèi)生事件涉及公眾的健康和生命安全問題,公眾對此類信息更為敏感、關(guān)注度更高,所以在突發(fā)公共衛(wèi)生事件發(fā)生后,真假難辨的信息極易加劇公眾的恐慌形成持續(xù)發(fā)酵的網(wǎng)絡(luò)輿情。近年來,突發(fā)公共衛(wèi)生事件網(wǎng)絡(luò)輿情頻頻發(fā)生,突發(fā)公共衛(wèi)生事件也成為網(wǎng)絡(luò)輿情研究的焦點之一。
網(wǎng)絡(luò)輿情研究的關(guān)注對象通常為公共事件領(lǐng)域的新聞及其評論以及電子商務(wù)領(lǐng)域的產(chǎn)品或服務(wù)評論,其主要研究內(nèi)容是對關(guān)注對象的文本內(nèi)容、行為屬性、形成機理、傳播規(guī)律等進行深入分析。輿情預(yù)測是實現(xiàn)網(wǎng)絡(luò)輿情監(jiān)控的重要環(huán)節(jié),對于網(wǎng)絡(luò)輿情分析具有重要的意義,也是網(wǎng)絡(luò)輿情領(lǐng)域的重要組成部分。網(wǎng)絡(luò)輿情在大量的網(wǎng)絡(luò)數(shù)據(jù)之中具有延續(xù)性、交互性和演化性,有一定的可預(yù)測性。網(wǎng)絡(luò)輿情在短時間內(nèi)會大規(guī)模、快速地擴散,從風險的社會放大理論看,如果突發(fā)公共衛(wèi)生事件網(wǎng)絡(luò)輿情處理不當,容易誘發(fā)民眾的不良情緒,導致漣漪效應(yīng),引爆輿情危機。建立合適的預(yù)測模型來仿真網(wǎng)絡(luò)輿情的熱度,相關(guān)部門就可以盡快掌握社情民意,及時發(fā)現(xiàn)工作中存在的不足和對問題矛盾出現(xiàn)的影響,對負面聲音進行正確引導,這對于政府相關(guān)部門有效監(jiān)管網(wǎng)絡(luò)輿情、維護社會穩(wěn)定具有一定的重要意義。突發(fā)公共衛(wèi)生事件網(wǎng)絡(luò)輿情的發(fā)生,往往是因為公眾對輿情趨勢的未知而造成恐慌蔓延,安全感缺失更加重公眾的焦慮恐慌情緒,用戶在網(wǎng)絡(luò)平臺上通過情感詞充分表達自身的情感,又由于網(wǎng)絡(luò)輿情的否定多于肯定,激情壓倒理性的特征,負面的情感推動輿情不斷發(fā)酵,加劇了突發(fā)公共衛(wèi)生事件網(wǎng)絡(luò)輿情的監(jiān)管難度。
因此,本研究將情感因素引入網(wǎng)絡(luò)輿情熱度預(yù)測依據(jù)之中,針對突發(fā)公共衛(wèi)生事件構(gòu)建網(wǎng)絡(luò)輿情熱度預(yù)測模型并進行仿真。研究將解決以下兩個問題:①構(gòu)建基于情感分析的突發(fā)公共衛(wèi)生事件網(wǎng)絡(luò)輿情熱度預(yù)測模型,以期優(yōu)化突發(fā)公共衛(wèi)生事件網(wǎng)絡(luò)輿情熱度的預(yù)測效果;②在理論模型的指導下,以“×××疫苗造假”事件為例進行模型仿真,驗證理論模型的有效性和可行性,評價加入情感值的網(wǎng)絡(luò)輿情熱度預(yù)測效果。
1相關(guān)研究
目前,國內(nèi)外學者對網(wǎng)絡(luò)輿情預(yù)測的研究大多采用的是時間序列分析或者灰色理論。輿情預(yù)測與時間序列分析相結(jié)合的研究方法,一種是利用歷史網(wǎng)絡(luò)輿情熱度來進行網(wǎng)絡(luò)輿情預(yù)測,歷史網(wǎng)絡(luò)輿情熱度的測量多選擇百度指數(shù)、發(fā)文量等;另一種是針對網(wǎng)民的各類情感傾向性伴隨時間的轉(zhuǎn)移所發(fā)生的變化來進行研究的。梳理輿情預(yù)測與灰色理論相結(jié)合的研究成果發(fā)現(xiàn),一種是僅通過輿情方面的單一觀測值來實現(xiàn)網(wǎng)絡(luò)輿情的預(yù)測研究;另一種是利用多種網(wǎng)絡(luò)輿情觀測值來實現(xiàn)網(wǎng)絡(luò)輿情的預(yù)測研究。張和平等選用百度指數(shù)作為輿情熱度的衡量指標,利用馬爾可夫修正灰色模型的預(yù)測結(jié)果。王寧等分別以微指數(shù)、百度指數(shù)、頭條指數(shù)作為事件熱度的衡量指標,運用灰色模型實現(xiàn)預(yù)測并運用灰色關(guān)聯(lián)分析方法提出網(wǎng)絡(luò)輿情事件分級方案,還有學者選取多個指標數(shù)據(jù)建立多因素灰色模型,并利用BP神經(jīng)網(wǎng)絡(luò)對多因素灰色模型的預(yù)測殘差進行修正,實現(xiàn)網(wǎng)絡(luò)輿情的精確預(yù)測。
網(wǎng)絡(luò)輿情預(yù)測的方法還包括Logistic模型、模糊綜合評價法、馬爾科夫鏈、BP神經(jīng)網(wǎng)絡(luò)、組合預(yù)測等。有學者基于灰色關(guān)聯(lián)度方法構(gòu)建網(wǎng)絡(luò)輿情熱度模型,并在此基礎(chǔ)上構(gòu)建多維度Logistic模型對各個媒體平臺輿情信息開展預(yù)測。Chen X G等采用粗糙集理論篩選輿情指標體系,通過層次分析法確定指標權(quán)重,引入模糊綜合評價法預(yù)測和評估輿情發(fā)展趨勢。劉勘等采用馬爾科夫鏈對網(wǎng)絡(luò)輿情熱度進行預(yù)測,結(jié)果表明,建模方法和預(yù)測算法是有效的。曾子明等在構(gòu)建微博輿情熱度評價指標體系的基礎(chǔ)之上,建立了基于BP神經(jīng)網(wǎng)絡(luò)的突發(fā)傳染病輿情熱度趨勢預(yù)測模型。還有學者將常用的Logistic模型、指數(shù)平滑法模型和灰色模型結(jié)合在一起,通過層次分析法進行權(quán)重賦值后得到最優(yōu)化網(wǎng)絡(luò)輿情數(shù)據(jù)的預(yù)測值。
對近年來國內(nèi)外相關(guān)文獻進行梳理,發(fā)現(xiàn)目前國內(nèi)外學者的網(wǎng)絡(luò)輿情預(yù)測研究尚處于探索階段,已有的輿情預(yù)測研究多采用時間序列分析或者是灰色理論來實現(xiàn)研究目的。網(wǎng)絡(luò)輿情熱度預(yù)測是網(wǎng)絡(luò)輿情預(yù)測的子類。網(wǎng)絡(luò)輿情預(yù)測不僅包括網(wǎng)絡(luò)輿情熱度預(yù)測,還包括話題演化預(yù)測、觀點預(yù)測等。在網(wǎng)絡(luò)輿情熱度預(yù)測的相關(guān)研究中,鮮有研究人員在網(wǎng)絡(luò)輿情熱度預(yù)測模型仿真中引入情感因素。鑒于突發(fā)公共衛(wèi)生事件的影響力大、危害程度高、更容易使網(wǎng)絡(luò)輿情發(fā)酵,結(jié)合上文所述,考慮到網(wǎng)民情感對網(wǎng)絡(luò)輿情傳播的影響作用,納入情感因素不僅能夠從理論上優(yōu)化輿情熱度預(yù)測模型的精準度,也具有一定的現(xiàn)實意義,為輿情應(yīng)對及監(jiān)測提供管控依據(jù)。因此,本研究將情感因素引入網(wǎng)絡(luò)輿情熱度預(yù)測之中,針對突發(fā)公共衛(wèi)生事件,實現(xiàn)基于情感分析的網(wǎng)絡(luò)輿情熱度預(yù)測模型仿真。
2突發(fā)公共衛(wèi)生事件網(wǎng)絡(luò)輿情熱度預(yù)測模型的構(gòu)建
本研究提出的基于情感分析的突發(fā)公共衛(wèi)生事件網(wǎng)絡(luò)輿情熱度預(yù)測模型包括數(shù)據(jù)處理層、情感分析層、熱度預(yù)測層3個層級,各層級之間逐層遞進,基于數(shù)據(jù)預(yù)處理獲得文本數(shù)據(jù)的結(jié)構(gòu)化語料集,基于多特征融合的情感分析方法獲得情感傾向,基于多元時間序列分析進行輿情熱度預(yù)測。數(shù)據(jù)的預(yù)處理部分包括數(shù)據(jù)清洗、按時間排序、分詞、去停用詞4個步驟,從而獲得結(jié)構(gòu)化的語料集。將數(shù)據(jù)處理層的結(jié)構(gòu)化數(shù)據(jù)作為情感分析層的輸入數(shù)據(jù),情感分析層采用多特征融合情感分析方法,獲得詞典特征、表情特征、向量特征后融合成為情感分類特征,再利用機器分類算法得到情感傾向作為情感分析結(jié)果。在熱度預(yù)測層,將情感值及原創(chuàng)博文量、轉(zhuǎn)發(fā)量、評論量作為相關(guān)因素,百度指數(shù)作為輸出序列,利用LSTM實現(xiàn)突發(fā)公共衛(wèi)生事件網(wǎng)絡(luò)輿情熱度預(yù)測。所構(gòu)建的理論模型如圖1所示。
2.1數(shù)據(jù)處理層
數(shù)據(jù)的預(yù)處理是突發(fā)公共衛(wèi)生事件網(wǎng)絡(luò)輿情熱度預(yù)測模型的基礎(chǔ),對原始數(shù)據(jù)進行預(yù)處理可以將以自然語言書寫的博文轉(zhuǎn)化為方便機器學習方法識別的形式,同時也利于后續(xù)各類時間序列數(shù)據(jù)的建立。本研究所構(gòu)建的突發(fā)公共衛(wèi)生事件網(wǎng)絡(luò)輿情熱度預(yù)測模型的預(yù)處理部分包括以下步驟:①數(shù)據(jù)清洗環(huán)節(jié)包括刪除非原創(chuàng)的微博數(shù)據(jù)和博文噪聲,博文噪聲是指網(wǎng)址鏈接、標簽、特殊符號(“$”“#”“@”……)等;②將所有的原創(chuàng)微博數(shù)據(jù)按照時間進行排序;③使用Jieba分詞腳本對原創(chuàng)博文進行分詞;④對原創(chuàng)博文去停用詞。
2.2情感分析層
本研究的創(chuàng)新點就是在突發(fā)公共衛(wèi)生事件網(wǎng)絡(luò)輿情熱度預(yù)測中加入情感傾向,因此情感分析方法的有效性對網(wǎng)絡(luò)輿情熱度預(yù)測來說必不可少。而《融入表情特征的網(wǎng)絡(luò)輿情情感分析方法研究》一文中所提出的網(wǎng)絡(luò)輿情情感分析方法是對以往方法的改良,所以本研究在突發(fā)公共衛(wèi)生事件網(wǎng)絡(luò)輿情熱度預(yù)測模型中的情感分析部分采用了融入表情特征的網(wǎng)絡(luò)輿情情感分析方法。該輿情情感分析方法是在詞典特征和向量特征的基礎(chǔ)之上融入表情特征,通過表情特征對情感的濃縮表達提升輿情表述中潛在情感的挖掘能力。在關(guān)注單一文本信息的同時還考慮了重要的情感線索——表情符號所具有的強烈情感表達能力對于情感傾向判斷的影響,而且避免了文字表述與表情符號的情感歧義問題,提高了網(wǎng)絡(luò)輿情情感分析效果。
融入表情特征的網(wǎng)絡(luò)輿情情感分析方法分3個步驟:①抽取文本的情感詞、修飾詞、語氣詞和標點符號,按照一定的規(guī)則進行組合計算來提取詞典特征;在構(gòu)建表情符號集的基礎(chǔ)上,考慮積極表情、消極表情、中性表情的數(shù)量來獲取表情特征;選擇Doc2vec作為提取向量特征的手段;②將詞典特征、表情特征、向量特征進行融合,得到情感分類特征;③將情感分類特征作為分類器的輸入,獲得文本的情感分析結(jié)果。本研究利用融入表情特征的網(wǎng)絡(luò)輿情情感分析方法獲得所有原創(chuàng)微博數(shù)據(jù)的情感分析結(jié)果后,把情感分析結(jié)果作為輿情熱度預(yù)測部分中情感值的來源。
2.3熱度預(yù)測層
屈啟興等、陳福集等、曾子明等研究者在進行網(wǎng)絡(luò)輿情預(yù)測時都把博文量、轉(zhuǎn)發(fā)量、評論量作為輿情熱度的影響因素,研究者們普遍認為民眾對于網(wǎng)絡(luò)輿情的關(guān)注程度可以通過發(fā)文、評論與轉(zhuǎn)載等方式來體現(xiàn),原創(chuàng)博文量可以測度話題的曝光度,轉(zhuǎn)發(fā)量、評論量則是從受眾視角來反映輿情熱度。情感傾向作為社會屬性的一種,對突發(fā)公共衛(wèi)生事件網(wǎng)絡(luò)輿情的傳播有重要的影響作用,所以本研究也考慮了原創(chuàng)博文量、轉(zhuǎn)發(fā)量、評論量,并在此基礎(chǔ)上加入情感值來作為輿情熱度的相關(guān)因素。百度指數(shù)是統(tǒng)計網(wǎng)民在百度上針對關(guān)鍵詞的搜索量,通過科學分析并計算關(guān)鍵詞在百度上搜索量的加權(quán)而獲得,反映網(wǎng)民的主動搜索量和某一類事件受網(wǎng)民的關(guān)注程度,由于其在搜索引擎產(chǎn)品中極高的市場占有率及數(shù)據(jù)的可獲得性,受到學者們的廣泛關(guān)注。因此,本研究選取百度指數(shù)作為網(wǎng)絡(luò)輿情熱度的衡量指標。
多元時間序列分析指對多變量時間序列的研究,是一種將多元回歸分析與時間序列分析相結(jié)合的方法。LSTM屬于多元時間序列分析的一種實現(xiàn)方式,它是RNN的變體,內(nèi)部更為復雜,能夠處理長時依賴問題,其相比于RNN主要進行了兩個改進:一是在記憶狀態(tài)的基礎(chǔ)上加入了新的內(nèi)部狀態(tài)——單元狀態(tài),讓它來儲存較長時期的記憶;二是引入了門限機制來控制信息流動。也就是說,LSTM的結(jié)構(gòu)中不但包含了RNN中所涉及的隱含層單元之間的外循環(huán),而且包含了神經(jīng)元內(nèi)部的自循環(huán)。針對序列數(shù)據(jù)而言,LSTM的優(yōu)勢在于一方面可以提高模型的收斂速度;另一方面由于門限機制的存在可以促使模型避免局部最優(yōu)朝正確的方向進行收斂,因此適用于序列數(shù)據(jù)的分類、處理和預(yù)測。所以,選擇LSTM來實現(xiàn)突發(fā)公共衛(wèi)生事件網(wǎng)絡(luò)輿情熱度的預(yù)測。
LSTM內(nèi)部隱含層由“遺忘門”“輸入門”“輸出門”和記憶單元構(gòu)成,使用“門”來有選擇地控制信息的流動。當前時刻的輸入數(shù)據(jù)xt和上一時刻隱含層的輸出ht-1依次流向“遺忘門”“輸入門”和“輸出門”,通過使用激活函數(shù)將數(shù)據(jù)映射到0~1得到隱含層的輸出ht?!斑z忘門”的表達式見式(1),“輸入門”的表達式見式(2),“輸出門”的表達式見式(3)。
3實驗及結(jié)果分析
3.1數(shù)據(jù)預(yù)處理
在百度指數(shù)官網(wǎng)獲取某突發(fā)公共衛(wèi)生事件“×××疫苗造假”2018年7月15日—2018年10月31日的百度指數(shù),形成百度指數(shù)時間序列作為預(yù)測模型的輸出序列。以新浪微博作為網(wǎng)絡(luò)輿情數(shù)據(jù)的獲取渠道,利用Python自編網(wǎng)絡(luò)爬蟲得到新浪微博上該事件2018年7月15日—2018年10月31日的相關(guān)微博,部分原始數(shù)據(jù)如圖2所示。獲得的原始數(shù)據(jù)經(jīng)過數(shù)據(jù)清洗、按時間排序、分詞、去停用詞的預(yù)處理后,剩余87860條原創(chuàng)博文。計算該事件對應(yīng)時間段內(nèi)的原創(chuàng)博文量、轉(zhuǎn)發(fā)量、評論量分別形成原創(chuàng)博文量時間序列、轉(zhuǎn)發(fā)量時間序列、評論量時間序列。
3.2網(wǎng)絡(luò)輿情情感分析
詞典特征規(guī)則模板的輸入為微博文本集合M,輸出為每條文本的詞典特征。詞典特征的具體構(gòu)建方式包括如下步驟:
1)讀取文本數(shù)據(jù),對每條文本進行分句。
2)查找每個分句中的詞語,若該詞在積極詞典中出現(xiàn),則賦值為“+1”,若在消極詞典中出現(xiàn),則賦值為“-1”,沒有出現(xiàn),則賦值為“0”。
3)在程度級別詞詞典、否定詞詞典中比對修飾詞,若在情感詞前出現(xiàn)則賦予對應(yīng)的權(quán)值。
4)在語氣詞詞典中比對語氣詞,若出現(xiàn)則賦予相應(yīng)的權(quán)值,沒有出現(xiàn)則賦值為“0”。
5)標點符號按照標點符號詞典給予對應(yīng)的權(quán)值。
6)將情感詞和修飾詞的分數(shù)相乘,再對句子中依存關(guān)系的分數(shù)進行累加,然后乘以語氣詞和標點符號的權(quán)值。累加各分句的情感傾向分數(shù),最終得到該博文的詞典特征,記為SCOl'e,如式(4)所示。
其中,n是微博文本集合M中某個博文包含的分句數(shù),m是句子包含的依存關(guān)系數(shù),basescore是情感詞的基本分值(+1、-1或0),modifiers是句i的程度詞權(quán)重或否定詞權(quán)值,mood是語氣詞權(quán)值,punctuation是標點符號權(quán)值。
以人工選擇的方式篩選新浪微博平臺的169個常用表情符號,構(gòu)建表情符號集。將篩選后的表情符號劃分為積極、消極、中性3種類型。表情特征使用三維特征[e1,e2,e3]表示,3個維度從左到右分別對應(yīng)積極表情個數(shù)、消極表情個數(shù)、中性表情個數(shù)。
Doc2vec包括Distributed Memory(DM)、Dis-tributed Bag-of-Words(DBOW)兩種方式。由于DBOW在訓練中只需要存儲Softmax參數(shù),更加節(jié)省存儲空間。所以,選擇DBOW作為獲得向量特征的方式。利用Python中的Gensim庫提取向量特征,經(jīng)過反復試驗,維度設(shè)置為200維時效果最佳。
相關(guān)領(lǐng)域的現(xiàn)有研究中大多使用拼接的方式實現(xiàn)多特征融合,所以本研究亦采用拼接的方式將詞典特征、表情特征、向量特征融合后得到情感分類特征,情感分類特征=[詞典特征+表情特征+向量特征]。選擇One-Versus-One SVM作為分類方法,核函數(shù)選用高斯核函數(shù)來實現(xiàn)網(wǎng)絡(luò)輿情的情感三分類。
情感分析方法的有效性為網(wǎng)絡(luò)輿情熱度預(yù)測的順利開展奠定基礎(chǔ)。經(jīng)過上述過程,得到尚未進行情感標注的79860條原創(chuàng)博文的情感分析結(jié)果。接著在對應(yīng)時間段內(nèi)對原創(chuàng)博文的情感傾向取絕對值后進行累加得到情感值,形成情感值時間序列,用情感值來代表對應(yīng)時間段微博網(wǎng)民對該事件的整體情感傾向。
3.3網(wǎng)絡(luò)輿情熱度預(yù)測
3.3.1序列平穩(wěn)性檢查及評價指標
研究采用多元時間序列分析方法進行輿情熱度的預(yù)測,多元時間序列分析的各個時間序列必須滿足以下兩個條件之一:①輸入序列和輸出序列均平穩(wěn);②雖然序列非平穩(wěn),但是具有協(xié)整關(guān)系。平穩(wěn)序列必須滿足3點要求:第一個要求為整體序列的均值保持不變,是一個與時間無關(guān)的常數(shù)。即隨時間的發(fā)展,數(shù)據(jù)在均值范圍內(nèi)上下波動;第二個要求是方差與時間無關(guān)。即意味著數(shù)據(jù)在圍繞均值上下波動的范圍是相同的;第三個要求是協(xié)方差只與時間間隔相關(guān),而與具體的時間點無關(guān)。即數(shù)據(jù)隨著時間波動的兩個波峰或者波谷之間的距離是相等的。序列的平穩(wěn)性檢查包括時序圖檢驗、偏相關(guān)函數(shù)圖與自相關(guān)函數(shù)圖檢驗、單位根檢驗3種方式,單位根檢驗又可分為DF檢驗、ADF檢驗、PP檢驗。協(xié)整檢驗方法包括EG檢驗和Johansen檢驗。本研究選用被廣泛使用的ADF檢驗對序列數(shù)據(jù)的平穩(wěn)性進行檢查,通過Eviews軟件來實現(xiàn)。若Eviews軟件的結(jié)果中P值小于0.05且t值為負值,則該時間序列為平穩(wěn)時間序列數(shù)據(jù)。
根據(jù)本研究的數(shù)據(jù)量按照8:2劃分訓練集和測試集。為了評價模型的擬合效果,以及方便將預(yù)測結(jié)果與現(xiàn)實數(shù)據(jù)做量化比較,本文引入了兩種評價指標,分別是均方根誤差(Root Mean Square Er-roy,RMSE)和平均絕對百分比誤差(Mean Abso-lute Percentage Error,MAPE)。RMSE指的是預(yù)測值與真實值偏差的平方與觀測次數(shù)N比值的平方根,其計算方式見式(5)。MAPE指的是偏差與真實值比值的平均絕對值百分數(shù),其計算方式見式(6)。同種誤差的誤差值越小就表示預(yù)測值與真實值的差值越小,模型的預(yù)測效果越好。
分別對百度指數(shù)時間序列、原創(chuàng)博文量時間序列、轉(zhuǎn)發(fā)量時間序列、評論量時間序列和情感值時間序列進行平穩(wěn)性檢查,ADF檢驗的結(jié)果如表1所示。如表1所示,百度指數(shù)時間序列、原創(chuàng)博文量時間序列、轉(zhuǎn)發(fā)量時間序列、評論量時間序列和情感值時間序列的p值都小于0.05且1%、5%、10%置信區(qū)間均為負值,因此這5個序列都是平穩(wěn)時間序列數(shù)據(jù)。
3.3.2預(yù)測模型仿真結(jié)果
對經(jīng)過平穩(wěn)性檢驗后的各個時間序列數(shù)據(jù)進行Min-max標準化方式處理后,采用LSTM進行多元時間序列分析,從而實現(xiàn)突發(fā)公共衛(wèi)生事件網(wǎng)絡(luò)輿情熱度預(yù)測。在時間窗口的選擇方面,部分進行網(wǎng)絡(luò)輿情預(yù)測研究的學者們選擇的最長滯后范圍為4~6天。因此,本研究的時間窗口選擇為滯后1~5天。圖3展示了滯后1天時的真實值與預(yù)測值,圖4展示了滯后2天時的真實值與預(yù)測值,圖5展示了滯后3天時的真實值與預(yù)測值,圖6展示了滯后4天時的真實值與預(yù)測值,圖7展示了滯后5天時的真實值與預(yù)測值。
網(wǎng)絡(luò)輿情熱度預(yù)測模型仿真結(jié)果的RMSE和MAPE如表2所示。表2顯示,滯后1天時,加入情感值的網(wǎng)絡(luò)輿情熱度預(yù)測模型RMSE為270.413、MAPE為0.163,均低于未加入情感值的網(wǎng)絡(luò)輿情熱度預(yù)測模型;滯后2天時,加入情感值的網(wǎng)絡(luò)輿情熱度預(yù)測模型RMSE為289.440、MAPE為0.169,均低于未加入情感值的網(wǎng)絡(luò)輿情熱度預(yù)測模型;滯后3天時,加入情感值的網(wǎng)絡(luò)輿情熱度預(yù)測模型RMSE為285.601、MAPE為n 174,均低于未加入情感值的網(wǎng)絡(luò)輿情熱度預(yù)測模型;滯后4天時,加入情感值的網(wǎng)絡(luò)輿情熱度預(yù)測模型RMSE為283.762、MAPE為0.175,均低于未加入情感值的網(wǎng)絡(luò)輿情熱度預(yù)測模型;滯后5天時,加入情感值的網(wǎng)絡(luò)輿情熱度預(yù)測模型RMSE為223.089、MAPE為0.150,均低于未加人情感值的網(wǎng)絡(luò)輿情熱度預(yù)測模型。可見,無論時間窗口選擇的滯后天數(shù)是哪種情況,加入情感值的網(wǎng)絡(luò)輿情熱度預(yù)測模型效果優(yōu)于未加入情感值的網(wǎng)絡(luò)輿情熱度預(yù)測模型,且時間窗口選擇的滯后天數(shù)為5天時加入情感值的網(wǎng)絡(luò)輿情熱度預(yù)測效果最好。因此,將情感因素引入突發(fā)公共衛(wèi)生事件網(wǎng)絡(luò)輿情熱度預(yù)測之中可以顯著提高其預(yù)測效果。
4結(jié)論與展望
本研究的目的是突發(fā)公共衛(wèi)生事件網(wǎng)絡(luò)輿情熱度預(yù)測,而較少有研究人員將網(wǎng)民情感引入網(wǎng)絡(luò)輿情熱度預(yù)測之中,因此確立了基于情感分析進行突發(fā)公共衛(wèi)生事件網(wǎng)絡(luò)輿情熱度預(yù)測的研究主題。在研究設(shè)計中,以大多數(shù)學者選用的百度指數(shù)作為網(wǎng)絡(luò)輿情熱度衡量指標,在考慮了網(wǎng)絡(luò)用戶的原創(chuàng)博文量、轉(zhuǎn)發(fā)量、評論量等網(wǎng)絡(luò)輿情熱度相關(guān)因素之外,增加情感因素,利用多個指標更為全面地實現(xiàn)突發(fā)公共衛(wèi)生事件網(wǎng)絡(luò)輿情熱度預(yù)測。獲得情感傾向時,采用了融入表情特征的網(wǎng)絡(luò)輿情情感分析方法。本研究的模型仿真結(jié)果也顯示了情感因素對于突發(fā)公共衛(wèi)生事件網(wǎng)絡(luò)輿情熱度預(yù)測的重要性。
本研究提出了基于情感分析的突發(fā)公共衛(wèi)生事件網(wǎng)絡(luò)輿情熱度預(yù)測模型,并選取某一突發(fā)公共衛(wèi)生事件的新浪微博數(shù)據(jù)進行預(yù)測模型仿真。雖然在研究思路和方法上有了一些創(chuàng)新性,但由于時間因素以及現(xiàn)實條件的限制,研究仍然存在著一定的不足之處:僅選擇了單一突發(fā)公共衛(wèi)生事件。未來可選擇更多的突發(fā)公共衛(wèi)生事件進行實證研究,以驗證基于情感分析的突發(fā)公共衛(wèi)生事件網(wǎng)絡(luò)輿情熱度預(yù)測模型的普適性。
基于情感分析的突發(fā)公共衛(wèi)生事件網(wǎng)絡(luò)輿情熱度預(yù)測模型為輿情監(jiān)管部門的工作提供了新思路。網(wǎng)民通過網(wǎng)絡(luò)針對突發(fā)公共衛(wèi)生事件發(fā)表自己觀點的過程中產(chǎn)生大量具有感情色彩的文本信息,體現(xiàn)出的情感傾向展現(xiàn)網(wǎng)民所持的態(tài)度。突發(fā)公共衛(wèi)生事件網(wǎng)絡(luò)輿情的監(jiān)管中,要考慮到網(wǎng)民情感對網(wǎng)絡(luò)輿情傳播的影響作用,充分了解網(wǎng)民的態(tài)度和意見,將情感因素納入網(wǎng)絡(luò)輿情熱度預(yù)測依據(jù)之中。同時也要注意網(wǎng)民情感的疏導,定位網(wǎng)民負面情緒的根源,及時準確地發(fā)布事件相關(guān)的各種信息,以公開透明的方式解答網(wǎng)民的質(zhì)疑,消除焦慮與恐慌,避免引爆輿情危機。
(責任編輯:孫國雷)