亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

突發(fā)事件網(wǎng)絡輿情趨勢的影響因素分析及預測

2024-12-04 00:00:00徐孟圓張旖華

商洛學院學報 2024年6期

摘要：以微博平臺為研究對象，聚焦突發(fā)事件的網(wǎng)絡輿情傳播，旨在識別和量化影響輿情趨勢的關鍵因素，并利用機器學習技術構建精準預測模型。通過網(wǎng)絡爬蟲技術收集27 422條相關微博數(shù)據(jù)，提取內容特征、用戶互動行為等多維特征，采用聚類算法分類微博內容，結合隨機森林算法預測轉發(fā)量。結果表明，評論數(shù)和點贊數(shù)對輿情傳播的影響最顯著，模型預測準確率高達87%，為優(yōu)化輿情應對策略提供科學依據(jù)。

關鍵詞：爬蟲;機器學習;聚類算法;隨機森林

中圖分類號：TP393.092; C912.63 文獻標識碼：A 文章編號：1674-0033（2024）06-0051-07

引用格式：徐孟圓，張旖華.突發(fā)事件網(wǎng)絡輿情趨勢的影響因素分析及預測[J].商洛學院學報，2024，38（6）：51-57.

Analysis and Prediction of Factors Influencing

Online Public Opinion Trends in Sudden Incidents

XU Meng-yuan1， ZHANG Yi-hua2

（1.School of Physics and Information Technology， Shaanxi Normal University， Xi'an" 710119， Shaanxi; 2.School of Language and Literature， Shaanxi Normal University， Xi'an" 710119， Shaanxi）

Abstract： This study focuses on the Weibo platform to investigate the dissemination of online public opinion during sudden incidents. It aims to identify and quantify key factors influencing opinion trends and develop an accurate prediction model using machine learning techniques. A total of 27 422 related Weibo posts were collected through web crawling， and multidimensional features such as content characteristics and user interaction behaviors were extracted. Clustering algorithms were applied to classify the content of the posts， and the random forest algorithm was used to predict the number of reposts. The results indicate that comment count and like count are the most significant factors influencing public opinion dissemination. The prediction model achieved an accuracy of 87%， providing a scientific basis for optimizing public opinion response strategies.

Key words： reptiles; machine learning; clustering algorithm; random forest

在信息化高速發(fā)展的時代，網(wǎng)絡輿情傳播迅猛，常在短時間內引發(fā)廣泛社會關注，尤其是突發(fā)事件發(fā)生時，媒體平臺迅速報道推動了輿論在網(wǎng)絡空間的快速擴散。在此過程中，情感和主觀因素影響輿情的發(fā)展方向，聚焦于熱點事件，進而形成輿情熱潮[1]。社交媒體的普及使公眾隨時發(fā)表評論、交換看法和表達觀點，為輿情擴散提供了新的渠道，但其開放性和強互動性也成為虛假信息傳播的溫床，增加了信息傳播的復雜性[2]。近年來，學術界圍繞網(wǎng)絡輿情的傳播特性及情緒表現(xiàn)進行了多方面研究，主要集中在情緒表達、傳播機制和危機管控方面。情緒表達方面，劉瓊等[3]指出了“彈幕+視頻”加速了個體情緒向群體情緒的傳遞，尤其是負面情緒影響顯著。Burgess[4]通過對比傳統(tǒng)與個人制作短視頻，發(fā)現(xiàn)傳統(tǒng)機構在正面情緒傳播上更具效果。傳播機制上，祁凱等[5]以政務短視頻輿情為例構建多主體模型，揭示事件因素和網(wǎng)民參與對輿情傳播的影響。王微等[6]則發(fā)現(xiàn)信息因素對傳播的推動最顯著，而技術和環(huán)境因素亦不可忽視。輿情危機管控方面，畢翔等[7]提出了融媒體時代的危機防范機制，以遏制輿情快速爆發(fā)的負面影響。戴亦陶等[8]分析了抖音平臺在涉警輿情防控中的策略。新浪微博作為較早的社交平臺，自上線以來吸引了大量用戶，許多高影響力的“網(wǎng)紅”賬號也應運而生，逐步形成了具商業(yè)價值和社會影響力的數(shù)據(jù)資產(chǎn)。趙阿敏等[9]從關注度、活躍度、互動性和整合力四個維度對微博賬號影響力因素進行量化分析，為輿情傳播效果的研究提供了數(shù)據(jù)依據(jù)。白建磊等[10]探討了政務微博的傳播效果，強調社交媒體的互動特征、多媒體屬性及內容特性的重要性。在輿情演變與預測方面，F(xiàn)ilieri等[11]研究了電子口碑（E-WOM）對輿情方向的改變，并提出基于網(wǎng)絡趨勢預測的輿情應對方法?；谟媱澬袨槔碚摚芯勘砻饔脩舻膫鞑ヒ庠革@著影響其傳播行為，尤其在移動短視頻用戶生成內容（UGC）平臺上，用戶的主觀意愿和傳播意圖對輿情擴散具有顯著作用。盡管上述研究對網(wǎng)絡輿情傳播機制和危機應對提供了豐富的參考，但對突發(fā)事件背景下具體影響網(wǎng)絡輿情傳播的因素及其作用機制的探討仍顯不足?；诖耍疚囊晕⒉┢脚_上的突發(fā)事件為切入點，系統(tǒng)分析多種信息特征對微博轉發(fā)量的影響，從而預測輿情的傳播趨勢。通過隨機森林算法構建的預測模型，有望實現(xiàn)對突發(fā)事件網(wǎng)絡輿情傳播趨勢的精準預測。

1" 微博影響力預測模型選擇

在微博影響力預測模型的選取中，本文經(jīng)過對多個模型的性能比較，選取基于隨機森林算法的預測模型作為最優(yōu)模型。

隨機森林屬于集成學習算法。如圖1所示，集成學習通過訓練學習出多個估計器，當需要預測時通過結合器將多個估計器的結果整合起來當作最后的結果輸出。

隨機森林是通過集成學習的Bagging思想將多棵樹集成的一種算法，它的基本單元是決策樹，是將一個輸入樣本進行分類，就需要將它輸入到每棵樹中進行分類。將若干個弱分類器的分類結果進行投票選擇，從而組成一個強分類器。

每棵樹的規(guī)則生成：

1）如果訓練集大小為N，對于每棵樹而言，隨機且有放回地從訓練集中抽取N個訓練樣本作為該樹的訓練集，每棵樹的訓練集都是不同的，而且里面包含重復的訓練樣本。

2）如果存在M個特征，則在每個節(jié)點分裂的時候，從M中隨機選擇m個特征維度（m遠遠小于M），使用這些m個特征維度中最佳特征（最大化信息增益）來分割節(jié)點。在森林生長期間，m值保持不變。

隨機森林中的“隨機”是指隨機抽取訓練樣本，隨機選擇特征維度。兩個隨機性的引入使隨機森林不容易陷入過擬合，并且具有很好的抗噪能力。

構建流程：

初始化模型參數(shù)：在訓練隨機森林之前，需要定義一下相關的參數(shù)，特別是樹的數(shù)量和樹的深度常用的參數(shù)有n_estimators、max_depth等。

構建決策樹：隨機森林由多棵決策樹組成，每棵樹的構建過程。

1）樣本抽樣：如果bootstrap=True，則使用自助采樣從訓練集中有放回地抽取樣本，形成每棵樹的訓練集，未被抽中的樣本成為袋外（Out-of-Bag，OOB）樣本。2）特征選擇：在每個節(jié)點的分裂過程中，隨機選擇max_features數(shù)量的特征作為候選特征。3）最佳分裂點選擇：在候選特征中，選擇一個特征和閾值來最大化節(jié)點的純度（例如使用基尼不純度或信息增益）。4）遞歸分裂：重復特征選擇和最佳分裂點選擇的過程，直到達到最大深度或葉節(jié)點的最小樣本數(shù)。

決策樹訓練：每棵決策樹都從根節(jié)點開始，遞歸分裂直到滿足停止條件。

1）內部節(jié)點分裂：在內部節(jié)點，根據(jù)選定的特征和閾值分裂樣本。2）葉節(jié)點生成：當節(jié)點滿足停止條件時，將其標記為葉節(jié)點，并根據(jù)多數(shù)類或平均值確定預測結果。

聚合結果：隨機森林的最終預測結果通過聚合所有決策樹的預測結果得到。

1）分類任務：對于每個樣本，所有樹對其進行分類，并采用多數(shù)投票法確定最終類別。2）回歸任務：對于每個樣本，所有樹給出預測值，并計算這些預測值的平均值作為最終預測結果。

模型損失函數(shù)：隨機森林是一種基于決策樹的集成學習方法，它通過構建多棵決策樹并結合它們的預測結果來提高整體模型的性能。每棵決策樹在訓練時會使用特定的分裂準則（比如基尼不純度、均方誤差等）來選擇最佳的分裂點。隨機森林的訓練目標是最小化整個森林的預測誤差，這通常是通過減少模型的方差來實現(xiàn)的[8]。

評估指標：

均方誤差（MSE）的計算公式：

MSE=（yi-i）（1）

均絕對誤差（MAE）的計算公式：

MAE= |yi-i|（2）

式（1）和（2）中，N為樣本集中的觀測點數(shù)目;yi為第i個觀測點的實際值;i為第i個觀測點的預測值;（yi-i）為第i個觀測點的殘差，表示實際值與預測值之間的差，通過平方消除正負號影響，使誤差為正值。

2" 微博影響力預測模型構建與實證研究

2.1 數(shù)據(jù)獲取及處理

為了實現(xiàn)對突發(fā)事件網(wǎng)絡輿情傳播的精準分析與預測，本研究在2024年3月17～24日通過編寫爬蟲程序獲取了27 422條微博數(shù)據(jù)，涵蓋用戶ID、微博內容、點贊數(shù)、評論數(shù)等屬性，如圖2所示。這些特征不僅反映了用戶的互動行為，還直接影響信息的傳播效果。通過對關鍵特征（如點贊數(shù)和評論數(shù)）的分析，本文進一步探索了這些變量在輿情傳播預測中的作用。

2.2 指標體系構建及微博特征值測量

2.2.1指標體系構建

微博特征提取思路是結合突發(fā)環(huán)境事件的特點和實際情況，選擇從微博內容、時間、收到的反饋，包括點贊、評論、轉發(fā)數(shù)等，以及作者基本信息等方面對微博特征進行提取，共選取13個特征，選取的微博特征為微博ID、發(fā)布時間、微博內容、點贊數(shù)、評論數(shù)、轉發(fā)數(shù)、作者ID、作者名稱、作者地址、作者粉絲、關注數(shù)、創(chuàng)號時間、作者標簽及標識。

2.2.2微博特征值測量

1）微博內容特征值測量

微博內容監(jiān)測主要指標有：發(fā)布時間、微博內容、微博情感因素、微博被轉發(fā)時間。

表1展示了微博發(fā)布的時間分布特征，揭示了突發(fā)事件網(wǎng)絡輿情的活躍期主要集中在上午8～12點和晚上18～23點，尤其是上午10點和晚上20點這兩個高峰時段。這一模式與公眾的日常生活和工作節(jié)奏緊密相關，反映了人們在上班前和下班后的社交媒體使用習慣。這種時間分布對輿情分析至關重要，因為它不僅指示了信息傳播的活躍窗口，也為制定有效的輿論引導和信息傳播策略提供了依據(jù)。

微博內容涉及到社會的各個方面，通過分詞的方式，查到部分關鍵字，并通過關鍵字的分析，查找微博的方向。如表2所示，通過對微博關鍵詞的分析，可以看出某些詞匯對轉發(fā)影響較大，同時也發(fā)現(xiàn)并不是所有的熱點都會引來大量的轉發(fā)。例如，“微博之夜”和“旅行”相關話題的高轉發(fā)量反映了公眾對娛樂話題的高度關注和參與熱情。而“焦慮”和“美國”等詞匯的低頻出現(xiàn)則暗示了在當前網(wǎng)絡語境下，負面情緒和國際政治議題并未成為主流討論焦點，這可能與用戶傾向于在社交媒體上分享討論更加輕松愉悅的內容有關。

對微博的情感分析，可以獲取網(wǎng)民此時的心理狀態(tài)，對某個事件或事物的看法，還可以獲取其潛在的商業(yè)價值，還能對社會的穩(wěn)定做出一定貢獻。采用基于情感字典的SnowNLP方法進行微博的情況分析。SnowNLP是一個python的類庫，可以方便處理中文文本內容，是受到了TextBlob的啟發(fā)而寫的，所有的算法都是自己實現(xiàn)并且自帶了一些訓練好的字典。表3揭示了在突發(fā)事件中，公眾情感傾向對信息傳播力度的顯著影響。無論是消極還是積極的微博內容，其轉發(fā)量都維持在較高水平，這表明極端情感（無論是正面還是負面）都能激發(fā)用戶的參與度和傳播意愿。這種情感極化現(xiàn)象可能是由于強烈的情感表達更能吸引注意力，促使用戶進行轉發(fā)和評論，從而加速信息的傳播。

對微博被轉發(fā)時間的分析，有助于了解大部分人閱讀并轉發(fā)微博的時間。大多數(shù)人通常沒有辦法讀完所有的微博，而只讀那些他們上微博主頁后看到的最新內容。發(fā)微博的時間和讀取微博的時間是相互關聯(lián)的。因此，了解發(fā)微博和讀取微博的時間對于及時了解網(wǎng)上輿情進展變得尤為重要。本研究用微博的轉發(fā)時間替代讀微博時間。

由表4所示，微博轉發(fā)量的高峰時段集中在上午10～12點和晚上20～24點，這一現(xiàn)象與用戶的日?；顒幽Ｊ骄o密相關。上午的高峰可能與人們開始一天的工作或學習前利用碎片時間瀏覽和分享信息有關。而晚上的高峰則可能與人們結束一天的工作后，在家中放松時更傾向于參與社交媒體活動有關。這種時間分布特征對于理解網(wǎng)絡輿情的動態(tài)變化具有重要意義。

2）微博作者特征值測量

涉及到微博作者特征值有：作者所在地區(qū)，作者的粉絲數(shù)，對作者的關注數(shù)。如表5所示，微博作者的所在地區(qū)分布主要集中在經(jīng)濟發(fā)達地區(qū)，如廣東、北京、山東、浙江、江蘇和上海。這一現(xiàn)象可能與這些地區(qū)的互聯(lián)網(wǎng)普及率較高、居民教育水平和信息獲取能力較強有關，也可能與他們較為開放和活躍的網(wǎng)絡使用習慣有關。

由表6得出，作者粉絲數(shù)量的平均值為994 378人，最大值高達1.785億人，這表明一些極具影響力的微博作者擁有龐大的粉絲基礎，能夠在突發(fā)事件中迅速傳播信息并引導公眾輿論。相比之下，關注數(shù)的平均值為696人，最大值為20 000人，這反映了普通用戶的關注范圍相對有限，但他們的集體行為同樣對網(wǎng)絡輿情的形成和演變具有重要影響。

3）微博社會影響的特征值測量

表7中，采用點贊數(shù)、評論數(shù)和轉發(fā)數(shù)的平均值和最大值評估微博內容的社會影響力，有助于識別和預測可能引發(fā)廣泛公眾關注和討論的輿情趨勢。通過這些指標，可以更準確地分析和預測突發(fā)事件中的網(wǎng)絡輿情動態(tài)，為相關決策提供數(shù)據(jù)支持。

2.3 預測突發(fā)事件網(wǎng)絡輿情

2.3.1預測傳播方向

采用機器學習的聚類算法分析預測微博的傳播方向，實現(xiàn)流程如圖3所示。

表8通過聚類算法對微博轉發(fā)量進行分類，結果顯示不同類別微博的平均轉發(fā)量存在顯著差異。類別0和類別3的微博表現(xiàn)出較高的平均轉發(fā)量，分別為21次和26次，這可能意味著這些內容具有較強的吸引力和傳播力。相反，類別1和類別4的平均轉發(fā)量較低，分別為1次和2次，表明這些內容在傳播上可能不夠引人注目或受眾范圍有限。

如圖4所示，通過對第0類和第3類微博內容的詞云分析，能夠洞察這些高轉發(fā)量微博的核心主題和公眾興趣點。第0類微博的詞云中，“沒有” “會” “吃” “事”等詞匯的頻繁出現(xiàn)，暗示其內容可能圍繞日常生活、個人體驗或社會現(xiàn)象的討論，這些貼近大眾生活的話題往往能引起廣泛共鳴，促進信息的傳播。而第3類微博的詞云則突出了“中國” “里” “吃” “說”等詞匯，這可能意味著其內容涉及國家大事、社會議題或文化討論，這類內容因其公共性和話題性而受到廣泛關注。

2.3.2預測轉發(fā)量

為了精準預測微博轉發(fā)量，本研究采用隨機森林算法，結合特征重要性評估機制，系統(tǒng)分析了影響微博轉發(fā)量的關鍵因素，并構建了高效預測模型。首先，在數(shù)據(jù)預處理中，對所有特征進行了歸一化和標準化處理，以消除量綱差異和極值對模型的影響。例如，針對粉絲數(shù)的極大值差異，采用MinMaxScaler進行歸一化，而其他特征則使用StandardScaler標準化。與此同時，通過剔除缺失值和異常值，確保了模型輸入數(shù)據(jù)的完整性和準確性。在特征選擇環(huán)節(jié)，隨機森林算法的特征重要性評估結果表明，評論數(shù)和點贊數(shù)是影響微博轉發(fā)量的關鍵因素，其重要性評分分別達到76.3%和15.2%，顯著高于其他特征（見表9）。這一發(fā)現(xiàn)凸顯了用戶互動行為在輿情傳播中的核心作用，而關注數(shù)、創(chuàng)號時間等特征的直接影響相對較低，為研究的簡化和模型的優(yōu)化提供了依據(jù)。

在模型構建過程中，本研究采用80%的數(shù)據(jù)作為訓練集，20%的數(shù)據(jù)用于測試集，并利用交叉驗證方法調整模型參數(shù)（如樹的數(shù)量和深度）以優(yōu)化模型性能。最終，基于隨機森林算法的預測模型在測試集上的準確率達到87%，展現(xiàn)了該算法在輿情傳播預測中的優(yōu)越性。分析結果顯示，高互動量微博的預測誤差較低，表明評論數(shù)和點贊數(shù)能夠有效提升預測的精準性。與此同時，對于互動量較少的微博，由于數(shù)據(jù)分布較為稀疏，預測結果誤差相對較大，提示未來可通過引入更多細化特征（如地域信息或情感特征）來進一步提高模型的預測能力。

總體而言，本研究通過隨機森林算法實現(xiàn)了對微博轉發(fā)量的預測，明確了評論數(shù)和點贊數(shù)等核心因素對信息傳播的決定性作用，為輿情管理中的關鍵指標篩選提供了量化依據(jù)。模型的高準確性不僅為突發(fā)事件中的網(wǎng)絡輿情分析提供了技術支持，也為未來在多平臺、多場景下的輿情傳播研究提供參考。

3" 結語

本研究以微博平臺為對象，探討了突發(fā)事件中網(wǎng)絡輿情傳播的關鍵因素及其預測方法，發(fā)現(xiàn)用戶互動行為（特別是評論數(shù)和點贊數(shù)）對輿情傳播的推動作用最為顯著，情感濃烈的內容對信息擴散具有放大效應。研究構建的基于隨機森林算法的預測模型準確率為87%，有效揭示了輿情傳播的時間分布特征和用戶行為規(guī)律，為預測輿情趨勢和優(yōu)化信息引導策略提供參考。盡管研究僅限于微博平臺，未來可進一步拓展至多平臺數(shù)據(jù)，結合外部環(huán)境因素，提升模型的廣泛適用性。本研究為輿情管理和突發(fā)事件中的信息傳播優(yōu)化提供了一定的理論參考和實踐價值。

參考文獻：

[1]" 牛芳，劉瑩，王艷威，等.基于爬蟲與深度學習的校園網(wǎng)絡輿情監(jiān)測系統(tǒng)[J].信息記錄材料，2024，25（8）：228-230.

[2]" 姚婷，趙錦棟，楊莉.突發(fā)環(huán)境事件中微博影響力的預測研究[J].智能計算機與應用，2022，12（10）：36-42.

[3]" 劉瓊，馬文婷，范一欣.短視頻平臺突發(fā)公共事件的網(wǎng)絡情緒呈現(xiàn)及輿情治理——以Bilibili網(wǎng)站“新冠疫情”議題為例[J].電子政務，2021（6）：52-65.

[4]" BURGESS M M. From trust us to participatory governance： deliberative publics and science policy[J].Public Understanding of Science，2014，23（1）：48-52.

[5]" 祁凱，彭程，楊志，等.基于SEIR演化博弈模型的突發(fā)危機事件網(wǎng)絡輿情治理研究[J].現(xiàn)代情報，2022，42（4）：120-133.

[6]" 王微，孟麗娟，王新愛.自媒體時代高校網(wǎng)絡輿情監(jiān)測機制研究[J].高教學刊，2020（1）：77-79.

[7]" 畢翔，唐存琛.后輿情時期社會風險與政府行為變革模式研究[J].圖書館，2020（2）：68-74.

[8]" 戴亦陶，李沐林，李恒旭.抖音時代的涉警網(wǎng)絡輿情防控策略研究[J].法制與社會，2021（3）：121-122.

[9]" 趙阿敏，王業(yè)鵬，羅佳.基于網(wǎng)絡購物費我國互聯(lián)網(wǎng)金融發(fā)展分析[J].現(xiàn)代商貿工業(yè)，2015，36（13）：122-124.

[10] 白建磊，張夢霞.國內外政務微博研究的回顧與展望[J].圖書情報知識，2017（3）：95-107.

[11] FILIERI R， MCLEAY F， TSUI B， et al. Consumer perceptions of information helpfulness and determinants of purchase intention in online consumer reviews of services[J].Information amp; Management，2018，55（8）：956-970.

收稿日期：2024-10-11

作者簡介：徐孟圓，男，陜西西安人，碩士研究生