李敏 項(xiàng)朝輝
關(guān)鍵詞: 后疫情時(shí)代;網(wǎng)絡(luò)輿情;文本挖掘;LDA主題聚類(lèi);情感分析
0 引言
隨著移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)已成為人們表達(dá)民意和交流情感的重要載體,推動(dòng)了輿論和信息傳播的網(wǎng)絡(luò)化發(fā)展。網(wǎng)絡(luò)輿情傳播的特點(diǎn)在于速度快、意見(jiàn)集中等,近年來(lái),各種突發(fā)公共衛(wèi)生事件頻發(fā),輿論引導(dǎo)工作面臨前所未有的挑戰(zhàn)。其中,微博這一重要的社交媒體平臺(tái),涵蓋了海量的用戶(hù)觀點(diǎn)和情感信息。用戶(hù)在微博上的情感表達(dá)不僅能夠影響微博內(nèi)容本身的傳播,還能夠迅速感染其他用戶(hù),甚至可以在短時(shí)間內(nèi)引爆話(huà)題,影響公眾情感,如涉及人身安全、社會(huì)公平和性別對(duì)立等問(wèn)題。
利用計(jì)算機(jī)技術(shù)自動(dòng)快速地從海量微博文本數(shù)據(jù)中挖掘輿論熱點(diǎn)和情感傾向,并能夠快速地推斷出事件的趨勢(shì)和影響程度,對(duì)輿情研判和輿論引導(dǎo)具有重要的意義。因此,利用計(jì)算機(jī)技術(shù)進(jìn)行微博情感分析對(duì)于社會(huì)輿情管理和研究而言,具有重要的意義和價(jià)值,可以為人們提供更全面、準(zhǔn)確的情感信息,從而更好地了解公眾的態(tài)度和情感傾向,做出針對(duì)性的決策和措施。
在社交媒體中,用戶(hù)對(duì)輿情事件發(fā)表了大量的相關(guān)話(huà)題數(shù)據(jù),為挖掘輿情演化提供了可能。主題挖掘技術(shù)和情感分析方法已經(jīng)成為常用的文本挖掘手段。主題挖掘技術(shù)是指通過(guò)分析一系列文本數(shù)據(jù),自動(dòng)發(fā)現(xiàn)隱含在文本中的主題、詞匯、情感以及其他有關(guān)內(nèi)容的關(guān)聯(lián)和模式的方法。經(jīng)常被應(yīng)用于分析社交媒體、新聞報(bào)道和其他類(lèi)型的文本數(shù)據(jù),可以幫助研究人員和企業(yè)了解人們的需求、偏好和態(tài)度等信息。Pu[1]提出了一種新的方法TDCS(Topic Distilling withCompressive Sensing),利用無(wú)監(jiān)督方法和迭代法對(duì)少量文檔關(guān)鍵詞中隱含的主題進(jìn)行建模和分析。曾莉等[2]通過(guò)LDA-Attention-BiLSTM模型分析微博某單位招聘熱點(diǎn)事件的輿情演變過(guò)程,挖掘輿論熱點(diǎn)和情感傾向。莊穆妮等[3]將LDA模型和Bert融合,改進(jìn)后的模型精確度更高,能夠有效地運(yùn)用于大規(guī)模網(wǎng)絡(luò)輿情演化仿真。張柳等[4]利用LDA構(gòu)建新冠肺炎疫情事件下微博用戶(hù)轉(zhuǎn)發(fā)評(píng)論關(guān)系構(gòu)建微博用戶(hù)主題聚類(lèi)圖譜,提出網(wǎng)絡(luò)社群間主題傳播路徑分析方法,發(fā)現(xiàn)衍生的輿情話(huà)題。
情感分析是文本挖掘領(lǐng)域的一個(gè)重要研究方向,旨在從文本數(shù)據(jù)中提取、分析、歸納和推理涵蓋的主觀信息,如觀點(diǎn)、情感、評(píng)價(jià)和態(tài)度。這一領(lǐng)域始于21 世紀(jì),并逐漸成為自然語(yǔ)言處理、機(jī)器學(xué)習(xí)等多個(gè)領(lǐng)域的研究熱點(diǎn)。情感分析的研究對(duì)于理解和解釋人們?cè)谖谋局斜磉_(dá)的情感和情緒具有重要意義。在情感分析中,常見(jiàn)的方法主要有以下3種:基于情感詞典的情感分析、基于機(jī)器學(xué)習(xí)的情感分析和基于深度學(xué)習(xí)的情感分析?;谇楦性~典的方法通過(guò)匹配文本中出現(xiàn)的情感詞與預(yù)定義的情感詞典進(jìn)行分析,從而獲得文本的情感傾向。基于機(jī)器學(xué)習(xí)的方法依靠訓(xùn)練模型從大量標(biāo)注數(shù)據(jù)中學(xué)習(xí)情感分類(lèi)的規(guī)律,從而對(duì)未知文本進(jìn)行情感分析。而基于深度學(xué)習(xí)的方法則通過(guò)構(gòu)建深度神經(jīng)網(wǎng)絡(luò)模型,可以更準(zhǔn)確地從文本中捕捉情感信息。因此,情感分析的研究和應(yīng)用對(duì)于深入理解人們?cè)谖谋局斜磉_(dá)的情感,以及在輿情研判、社交媒體分析、品牌管理等方面具有重要意義。林偉[5]通過(guò)基于Bert多特征融合網(wǎng)絡(luò)輿情情感識(shí)別模型,模型的精確率達(dá)到92.7%,有效地提升了輿情情感識(shí)別的性能。陳興蜀等[6]用SnowNLP情感分析模型以及KMeans文本聚類(lèi)算法等方法分析疫情事件中網(wǎng)絡(luò)輿情的時(shí)空演化過(guò)程。吳小華等[7]提出了基于字向量表示方法并結(jié)合Selfattention和BiLSTM的中文短文本情感分析算法,在COAE 2014微博數(shù)據(jù)集和酒店評(píng)論數(shù)據(jù)集的情感分類(lèi)效果有所提升。王彤等[8]基于SnowNLP模型對(duì)突發(fā)公共衛(wèi)生事件發(fā)生后政務(wù)媒體的相關(guān)評(píng)論信息進(jìn)行情感分析,將網(wǎng)民情感劃分為形成期、爆發(fā)期和衰退期,并通過(guò)LDA主題模型,得出每個(gè)階段的主題分類(lèi)。
針對(duì)突發(fā)公共衛(wèi)生事件發(fā)生后,社交媒體情緒識(shí)別和輿論熱點(diǎn)的研究相對(duì)較少,本文以后疫情時(shí)代微博數(shù)據(jù)為研究對(duì)象,采用大數(shù)據(jù)技術(shù)對(duì)新浪微博用戶(hù)發(fā)布的文本數(shù)據(jù)進(jìn)行采集和分析,可以實(shí)時(shí)感知網(wǎng)民的情緒變化和關(guān)注熱點(diǎn),從而及時(shí)發(fā)現(xiàn)問(wèn)題、深入分析原因。這種實(shí)時(shí)輿情監(jiān)測(cè)為公共衛(wèi)生事件管理和社會(huì)輿情管理提供了重要科學(xué)依據(jù)。
1 研究框架和模型構(gòu)建
本文通過(guò)研究LDA模型、情感分析等方法對(duì)微博短文本數(shù)據(jù)進(jìn)行分析,挖掘網(wǎng)民對(duì)后疫情時(shí)代情感態(tài)度的變化和輿情焦點(diǎn)。
1.1 情感分析
文本情感分析最初是針對(duì)帶有情感色彩的詞語(yǔ)的分析,也稱(chēng)為意見(jiàn)挖掘,是自然語(yǔ)言研究領(lǐng)域的一個(gè)重要方向。本文使用Python中的SnowNLP庫(kù)對(duì)中文文本進(jìn)行情感得分計(jì)算。SnowNLP庫(kù)是基于Text?Blob開(kāi)發(fā)的專(zhuān)門(mén)針對(duì)中文文本內(nèi)容進(jìn)行情感識(shí)別的方法。該庫(kù)提供了一系列功能,包括情感分析、文本分類(lèi)、文本摘要和關(guān)鍵詞提取等。它使用貝葉斯分類(lèi)器和隱馬爾科夫模型,基于中文語(yǔ)料庫(kù)進(jìn)行訓(xùn)練和預(yù)測(cè)。該方法能夠處理大量中文文本數(shù)據(jù),并具有高準(zhǔn)確性和高效率,經(jīng)常用于輿情監(jiān)控、評(píng)論分析和輿情分析等任務(wù)。
1.2 TF-IDF 模型
TF-IDF(Term Frequency-Inverse Document Fre?quency,詞頻-逆文檔頻率)是一種用于評(píng)估文檔中詞語(yǔ)重要程度的統(tǒng)計(jì)方法。它基于兩個(gè)核心概念:詞頻(Term Frequency,TF)和逆文檔頻率(Inverse DocumentFrequency,IDF)。TF表示一個(gè)詞語(yǔ)在文檔中出現(xiàn)的頻率,它將一個(gè)文檔看作是一個(gè)詞語(yǔ)的集合,TF可以幫助找出文檔中重要的詞語(yǔ),因?yàn)轭l繁出現(xiàn)的詞語(yǔ)往往具有更高的重要性。IDF表示一個(gè)詞語(yǔ)在整個(gè)文檔集合中的重要程度。IDF可以幫助找出在整個(gè)文檔集合中唯一或者罕見(jiàn)的詞語(yǔ),因?yàn)檫@些詞語(yǔ)往往能提供更多獨(dú)特的信息。TF-IDF的計(jì)算公式如下:
其中,w 表示一個(gè)詞語(yǔ),D 表示一篇文檔,N 表示文檔總數(shù),df (w) 表示包含詞語(yǔ)w 的文檔數(shù),nw,D 表示詞語(yǔ)w 在文檔D 中出現(xiàn)的次數(shù)。TF-IDF值就越高,說(shuō)明這個(gè)詞在文本中的重要程度越高,TF-IDF模型能夠幫助對(duì)文本進(jìn)行特征提取、關(guān)鍵詞提取等,從而有效地處理和分析大量的文本數(shù)據(jù)。
1.3 LDA 主題模型
Blei等[9]在2003年提出了潛在狄利克雷分布(La?tent Dirichlet Allocation,LDA) ,該方法是一種無(wú)監(jiān)督學(xué)習(xí)模型,可以從一組文檔中發(fā)現(xiàn)潛在的主題。LDA 模型假設(shè)每個(gè)文檔是由多個(gè)主題混合而成的,而每個(gè)主題又由多個(gè)單詞組成。LDA 模型中文檔-主題和主題-詞都服從多項(xiàng)分布,其先驗(yàn)概率是 Dirichlet 分布。通過(guò)觀察文檔來(lái)推斷出這些潛在的主題和單詞分布。運(yùn)用機(jī)器學(xué)習(xí)方法統(tǒng)計(jì)詞頻生成主題單詞和評(píng)論主題后構(gòu)成的多層概率分布,進(jìn)而實(shí)現(xiàn)文本聚類(lèi)。
利用LDA模型進(jìn)行文本主題聚類(lèi)時(shí),需要確定最優(yōu)的主題數(shù)。困惑度(Perplexity) 常被用作評(píng)估聚類(lèi)效果的指標(biāo),進(jìn)而幫助調(diào)整主題數(shù)目,以達(dá)到最佳聚類(lèi)效果。其計(jì)算公式如下:
其中,D 表示文檔中所有詞的集合,M 表示文檔的數(shù)量,Wd 表示文檔d 中的詞,Nd 表示每個(gè)文檔中d 的詞數(shù),P (Wd )表示文檔中詞出現(xiàn)的概率。通過(guò)計(jì)算困惑度,可以量化LDA模型的表現(xiàn),并對(duì)主題數(shù)進(jìn)行逐步調(diào)整,以獲得最佳的主題聚類(lèi)結(jié)果。它的數(shù)值越小,表示該主題模型的生成能力越強(qiáng),即模型對(duì)于文本數(shù)據(jù)的擬合度越高。在確定LDA模型的最優(yōu)參數(shù)時(shí),可以選擇困惑度較小且主題數(shù)相對(duì)較少的值作為最佳參數(shù)。通過(guò)這種方式,可以找到一個(gè)相對(duì)準(zhǔn)確的主題聚類(lèi)結(jié)果,避免了過(guò)多的主題數(shù)對(duì)于聚類(lèi)結(jié)果的干擾。
1.4 本文研究框架
本文的研究框架主要包括數(shù)據(jù)采集、數(shù)據(jù)清洗、TF-IDF計(jì)算、主題聚類(lèi)、情感分析這5個(gè)部分。
本文提出的主題提取與情感分析框架,如圖1所示,具體包括5個(gè)部分:
1) 數(shù)據(jù)采集,利用Python采集新浪微博“疫情”相關(guān)話(huà)題數(shù)據(jù);
2) 數(shù)據(jù)預(yù)處理,對(duì)采集的文本數(shù)據(jù)進(jìn)行清洗,包括去重、分詞以及去除停用詞等;
3) 情感分析,使用SnowNLP進(jìn)行計(jì)算情感得分;
4) TF-IDF 計(jì)算,找出文本數(shù)據(jù)中相對(duì)重要的詞語(yǔ);
5) 主題識(shí)別,使用LDA主題模型對(duì)文本數(shù)據(jù)進(jìn)行主題聚類(lèi),并提取出每個(gè)主題的關(guān)鍵詞。
2 實(shí)證分析
2.1 數(shù)據(jù)采集
本文以后疫情時(shí)代網(wǎng)民的情感和話(huà)題為研究背景,在新浪微博的“高級(jí)搜索”中以“疫情”為搜索關(guān)鍵詞,爬取了2022年12月7日0時(shí)至2023年6月7日23 時(shí)相關(guān)微博數(shù)據(jù)。為了使數(shù)據(jù)樣本盡量均勻分布,爬蟲(chóng)以小時(shí)為單位,對(duì)每小時(shí)微博搜索數(shù)據(jù)結(jié)果的前2 頁(yè)進(jìn)行采集,累計(jì)共獲取73 229條,包含微博id、發(fā)布時(shí)間和微博文本。通過(guò)Python和Excel工具對(duì)數(shù)據(jù)去重和錯(cuò)誤數(shù)據(jù)清洗,經(jīng)過(guò)初步預(yù)處理后共得到72 492 條微博文本數(shù)據(jù)。
2.2 數(shù)據(jù)預(yù)處理
在微博文本分析中,由于存在大量的噪聲數(shù)據(jù),如表情符號(hào)、微博標(biāo)簽、語(yǔ)氣詞等,這些詞語(yǔ)會(huì)對(duì)情感傾向判別和主題模型聚類(lèi)效果。為解決這些問(wèn)題,本文采用了Jieba工具進(jìn)行分詞,并融合了百度停用詞庫(kù)、哈爾濱工業(yè)大學(xué)停用詞庫(kù)以及新建的自定義停用詞庫(kù),對(duì)分詞后的文本進(jìn)行清洗。通過(guò)對(duì)文本分詞和停用詞處理,消除一些沒(méi)有實(shí)際語(yǔ)義意義的詞語(yǔ)干擾,可以減少模型處理的數(shù)據(jù)量,提高情感傾向判別和主題模型效果的可靠性。
2.3 情感得分
本文采用SnowNLP庫(kù)對(duì)去除特殊標(biāo)點(diǎn)符號(hào)后的微博評(píng)論數(shù)據(jù)進(jìn)行情感傾向分析,并按月份統(tǒng)計(jì)2022 年12月至2023年8月期間情感得分的平均值。情感得分的值介于0~1,越接近1表示情感越積極,越接近0則情感越消極。首先,利用SnowNLP方法計(jì)算所有評(píng)論數(shù)據(jù)的情感得分。隨后,按月份對(duì)微博數(shù)據(jù)進(jìn)行加權(quán)平均,計(jì)算每個(gè)月的情感分?jǐn)?shù)。這樣,能夠了解整個(gè)時(shí)間段內(nèi)網(wǎng)民情感的趨勢(shì)和變化,結(jié)果如圖2 所示。
根據(jù)對(duì)網(wǎng)民情感的觀察,可以發(fā)現(xiàn),整體上網(wǎng)民的情感波動(dòng)較大,但總體呈現(xiàn)出正向積極的情緒傾向。在2022年12月,隨著疫情的放開(kāi),網(wǎng)民情感得分達(dá)到最低點(diǎn),情緒相對(duì)較低落。然而,隨著時(shí)間的推移以及媒體在網(wǎng)絡(luò)平臺(tái)上發(fā)布有關(guān)疫情的相關(guān)知識(shí),網(wǎng)民對(duì)疫情的認(rèn)識(shí)逐漸加強(qiáng),總體情緒呈現(xiàn)積極向上的趨勢(shì)。然而,在2023年4月和5月,由于對(duì)小長(zhǎng)假聚集、復(fù)陽(yáng)等情況的擔(dān)憂(yōu),網(wǎng)民的情緒值呈現(xiàn)出相對(duì)走低的趨勢(shì)。
2.4 TF-IDF 模型
本文使用sklearn 中的TfidfVectorizer 方法,對(duì)詞袋向量進(jìn)行訓(xùn)練,并得到每個(gè)詞語(yǔ)對(duì)應(yīng)的TF-IDF值。通過(guò)對(duì)所有詞語(yǔ)的TF-IDF值排序,可以得到詞語(yǔ)的重要程度排名,從而幫助確定文本中關(guān)鍵的詞語(yǔ)或者特征。表1是微博文本分詞后統(tǒng)計(jì)TF-IDF的值排名前20的詞語(yǔ)。
可以大致看出網(wǎng)民對(duì)于后疫情時(shí)代的主要關(guān)注點(diǎn)包括疫情發(fā)展和防控情況、復(fù)工復(fù)學(xué)、經(jīng)濟(jì)發(fā)展、未來(lái)生活期望等。為了能挖掘出更多有用信息,接下來(lái)利用 LDA 主題模型對(duì)微博文本聚類(lèi)。
2.5 LDA 主題聚類(lèi)
本文使用了基于sklearn開(kāi)源的LDA模型,并采用Gibbs(Gibbs sampling)采樣方法訓(xùn)練模型參數(shù)。在確定最優(yōu)參數(shù)時(shí),采用Perplexity方法,讓主題數(shù)在區(qū)間[1,20]內(nèi)進(jìn)行迭代,計(jì)算困惑度的變化狀況,以尋找最優(yōu)的主題數(shù)。困惑度越低,表示模型的聚類(lèi)效果越好。如圖3所示,隨著主題數(shù)的增加,總體困惑度呈波動(dòng)下降的趨勢(shì)。筆者發(fā)現(xiàn),困惑度的局部極小值點(diǎn)出現(xiàn)在主題數(shù)為11時(shí)。隨著主題數(shù)的增加,主題分析變得更加復(fù)雜,可能會(huì)導(dǎo)致模型過(guò)擬合,從而影響結(jié)果的準(zhǔn)確性。通過(guò)選擇一個(gè)適中的主題數(shù),我們可以得到更合理和可靠的聚類(lèi)結(jié)果。因此,本文將聚類(lèi)主題數(shù)設(shè)置為11個(gè),以獲得更為穩(wěn)健的聚類(lèi)結(jié)果。
使用LDA模型聚類(lèi),得到不同主題的關(guān)鍵詞,并概括主題關(guān)鍵詞的內(nèi)容,表2展現(xiàn)了不同主題下概率最高的前12個(gè)關(guān)鍵詞。
從關(guān)鍵詞看出,在后疫情時(shí)代,網(wǎng)民關(guān)注的焦點(diǎn)除了疫情發(fā)展情況外,還包括疫情防護(hù)和健康問(wèn)題。隨著疫情的進(jìn)一步緩解,網(wǎng)民的關(guān)注重點(diǎn)逐漸轉(zhuǎn)移到復(fù)工復(fù)產(chǎn)、旅游、校園生活和經(jīng)濟(jì)發(fā)展情況等方面。此外,社會(huì)熱點(diǎn)問(wèn)題也是網(wǎng)民關(guān)注的焦點(diǎn)。這些關(guān)注點(diǎn)反映了社會(huì)對(duì)于疫情后重建和恢復(fù)正常生活的渴望,以及對(duì)于各種社會(huì)問(wèn)題的關(guān)切。
3 研究結(jié)論
本研究基于SnowNLP算法對(duì)后疫情時(shí)代網(wǎng)民的情緒傾向進(jìn)行識(shí)別,并結(jié)合TF-IDF方法提取微博話(huà)題的關(guān)鍵詞。通過(guò)應(yīng)用LDA模型分析后疫情時(shí)代微博的輿論焦點(diǎn),并利用困惑度評(píng)價(jià)指標(biāo)確定最優(yōu)的主題數(shù)。研究結(jié)果顯示,隨著2022年12月疫情放開(kāi),網(wǎng)民的情感得分達(dá)到最低。然而隨著時(shí)間的推移,媒體在網(wǎng)絡(luò)平臺(tái)發(fā)布疫情相關(guān)的信息,網(wǎng)民的情緒總體呈現(xiàn)積極向上的趨勢(shì)。此外,研究利用LDA模型提取了11個(gè)網(wǎng)民關(guān)注的話(huà)題,有助于政府部門(mén)進(jìn)行輿情監(jiān)管和輿情引導(dǎo)。當(dāng)前,輿情情感分析的研究日益增多。本文中情感分類(lèi)的方法僅將輿情評(píng)論的情感傾向劃分為正向和負(fù)向,為了提高情感傾向識(shí)別的精確度,未來(lái)工作中可以使用深度學(xué)習(xí)方法,引入更多情感類(lèi)別如中性情感或復(fù)雜情感。