邢云菲,李玉海,2
(1.華中師范大學(xué)信息管理學(xué)院,武漢 430079;2.湖北省數(shù)據(jù)治理與智能決策研究中心,武漢 430079)
微博是基于用戶關(guān)系的輿情傳播、信息共享的社交媒體平臺(tái)。微博憑借其終端移動(dòng)性、內(nèi)容精簡(jiǎn)性、用戶交互便捷性以及動(dòng)態(tài)內(nèi)容聚類方式,成為中國(guó)最受歡迎的社交媒體平臺(tái)之一[1]。微博輿情是指公眾在某些社會(huì)熱點(diǎn)事件發(fā)生后通過(guò)微博平臺(tái)表達(dá)其態(tài)度、觀點(diǎn)和意見,具有動(dòng)態(tài)性、復(fù)雜性和群體極化性等特征[2]。2019 年12 月湖北省武漢市發(fā)現(xiàn)多起病毒性肺炎病例,診斷為新型冠狀病毒。在該事件的信息傳播與交流過(guò)程中,微博成為公眾獲得相關(guān)報(bào)道和討論的主要平臺(tái)之一。由于新冠狀病毒事件的突發(fā)性和高影響力,使微博平臺(tái)日均發(fā)布微博和評(píng)論數(shù)量達(dá)到百萬(wàn)級(jí),為政府和微博輿情監(jiān)管部門的管理工作帶來(lái)巨大挑戰(zhàn)。如何針對(duì)海量微博用戶評(píng)論信息快速挖掘用戶關(guān)注內(nèi)容,分析用戶評(píng)論信息中的隱性關(guān)聯(lián),幫助政府和輿情管理者掌握輿情走勢(shì),及時(shí)定位發(fā)布網(wǎng)絡(luò)謠言的用戶群體并進(jìn)行監(jiān)管是本文的主要研究意義。目前學(xué)術(shù)界對(duì)微博輿情的研究主要關(guān)注輿情傳播主題挖掘、意見領(lǐng)袖識(shí)別、用戶關(guān)系挖掘等方面[3-6],較少學(xué)者針對(duì)微博用戶評(píng)論文本進(jìn)行文本聚類研究并構(gòu)建主題圖譜通過(guò)可視化的形式挖掘微博用戶關(guān)注主題。
本文基于文本挖掘中的聚類技術(shù),結(jié)合主題圖譜理論和構(gòu)建方法,以新浪微博平臺(tái)為例,構(gòu)建微博用戶評(píng)論文本的主題圖譜,通過(guò)聚類分析和剖析圖譜結(jié)構(gòu)特征,為微博輿情文本挖掘研究提供了新的研究視角。在實(shí)踐層面,本研究能夠指導(dǎo)微博輿情管理部門進(jìn)行輿情管控、防止不良輿論擴(kuò)散、維護(hù)微博平臺(tái)和諧健康發(fā)展。同時(shí),本研究也對(duì)幫助政府及時(shí)了解民情、維護(hù)社會(huì)秩序、避免引發(fā)恐慌具有重要作用。
微博輿情將網(wǎng)絡(luò)輿情賦予一個(gè)特定的平臺(tái),公眾對(duì)與其自身利益密切相關(guān)的熱點(diǎn)話題在微博平臺(tái)發(fā)表主觀性意見和觀點(diǎn),并互相討論形成傳播力場(chǎng)[7]。根據(jù)微博輿情用戶發(fā)布文本內(nèi)容挖掘輿情傳播特征具有重要研究?jī)r(jià)值,國(guó)內(nèi)學(xué)者紛紛開展對(duì)微博輿情文本挖掘的研究。吳青林[8]通過(guò)話題聚類及情感強(qiáng)度分析中文微博輿情對(duì)輿情演進(jìn)趨勢(shì)進(jìn)行預(yù)測(cè);周鵬[9]提出基于特征詞抽取技術(shù)的微博事件內(nèi)容聚合方法;廖海涵[10]基于生命周期理論結(jié)合文檔主題生成模型(LDA)方法進(jìn)行輿情主題觀點(diǎn)發(fā)現(xiàn)以及語(yǔ)義分析等。
文本聚類分析是指利用集合中文本之間的相似性對(duì)文本進(jìn)行團(tuán)簇識(shí)別。目前在社交媒體分析中,文本聚類的分析技術(shù)應(yīng)用十分廣泛。黃微[11]以文本聚類結(jié)果和文本聚類有效性為依據(jù),提出網(wǎng)絡(luò)輿情衍進(jìn)的判別標(biāo)準(zhǔn)和輿情衍進(jìn)指數(shù)的構(gòu)建過(guò)程;張穎怡[12]分析聚類集成在學(xué)術(shù)文本聚類中的有效性的基礎(chǔ)上,展開了基于特征詞的學(xué)術(shù)文本聚類研究。如何基于微博輿情的用戶評(píng)論內(nèi)容進(jìn)行文本聚類的研究則較少;朱曉峰[13]使用K-Means 算法通過(guò)計(jì)算文本平均相似度進(jìn)行微博聚類中心簇研究;陳雪剛[14]同樣使用改進(jìn)的文本相似度計(jì)算模型,使文本能夠自主聚類,為微博輿情監(jiān)測(cè)提供指導(dǎo)。然而當(dāng)前較少有研究將微博輿情傳播的用戶評(píng)論文本聚類結(jié)果以可視化的形式展現(xiàn)出來(lái)。
針對(duì)主題圖譜的研究,國(guó)外學(xué)者GOLD 等[15]采用點(diǎn)匹配和圖匹配距離度量聚類的方法學(xué)習(xí)二維點(diǎn)聚合圖,通過(guò)圖譜顯示知識(shí)的優(yōu)化聚類結(jié)果。CHUNG 等[16]在2005 年提出一個(gè)網(wǎng)絡(luò)知識(shí)發(fā)現(xiàn)視覺架構(gòu),集成了Web 挖掘、集群和可視化技術(shù)以進(jìn)行知識(shí)管理。國(guó)內(nèi)學(xué)者潘東華[17]基于專利文獻(xiàn)分類碼,結(jié)合領(lǐng)域本體中的語(yǔ)義相似度構(gòu)建主題圖譜;尚小溥[18]對(duì)自然語(yǔ)言處理技術(shù)在超聲文本環(huán)境下的應(yīng)用進(jìn)行改進(jìn),建立其結(jié)構(gòu)化知識(shí)網(wǎng)絡(luò)。當(dāng)前學(xué)者從微博用戶關(guān)系角度以及話題演進(jìn)角度構(gòu)建微博輿情用戶關(guān)系圖譜和話題圖譜。王丹[19]從微博主體(用戶)、客體(信息)以及主體客體相結(jié)合形成的全景3 個(gè)維度,進(jìn)行微博輿情圖譜的構(gòu)建;劉雅姝[20]利用LDA 方法,以多維特征融合分析視角構(gòu)建輿情話題圖譜。主題圖譜已經(jīng)成為知識(shí)管理過(guò)程中揭示知識(shí)關(guān)聯(lián)的重要手段,是情報(bào)領(lǐng)域的一大研究熱點(diǎn)。然而,基于文本聚類方法,構(gòu)建微博輿情傳播過(guò)程中用戶評(píng)論文本的聚類主題圖譜的相關(guān)研究則較少。本文選擇重大突發(fā)公共衛(wèi)生事件輿情話題傳播具有較強(qiáng)代表性,通過(guò)對(duì)微博輿情用戶評(píng)論文本進(jìn)行文本聚類的圖譜可視化研究能夠揭示如何快速識(shí)別海量文本主題內(nèi)容,為微博輿情文本主題圖譜構(gòu)建研究提供了新的挑戰(zhàn)。
本文提出的微博輿情主題圖譜構(gòu)建流程如圖1 所示。①數(shù)據(jù)采集及處理。使用Python 采集人民日?qǐng)?bào)發(fā)布的“武漢加油”話題下微博用戶評(píng)論內(nèi)容,形成文本數(shù)據(jù)庫(kù)。②實(shí)體抽取。通過(guò)數(shù)據(jù)清洗和分詞構(gòu)建特征詞實(shí)體數(shù)據(jù)庫(kù)。③實(shí)體關(guān)系抽取。以特征詞的關(guān)聯(lián)關(guān)系為實(shí)體間關(guān)系繪制圖譜并進(jìn)行對(duì)比分析。通過(guò)使用不同文本相似度計(jì)算方法、網(wǎng)絡(luò)優(yōu)化算法以及聚類標(biāo)簽生成方法獲得實(shí)體關(guān)系。④聚類可視化分析。對(duì)圖譜進(jìn)行聚類簇分析、實(shí)體中心度分析并挖掘輿情演化機(jī)制。
圖1 微博輿情用戶評(píng)論文本的主題圖譜構(gòu)建方法Fig.1 Construction method of topic graph for Weibo public opinion
2020 年初,新型冠狀病毒肺炎疫情發(fā)生,微博迅速成為民眾了解疫情動(dòng)態(tài)和走向的重要平臺(tái)。面對(duì)疫情,微博用戶為疫情防治積極貢獻(xiàn)力量,其規(guī)模大幅增長(zhǎng)。據(jù)Questmobile 報(bào)道[21],微博日活躍用戶規(guī)模于1 月27 日達(dá)到2.39 億,相比疫情前平日上漲37.5%。自疫情發(fā)生以來(lái),超過(guò)5 000 萬(wàn)用戶已累計(jì)發(fā)布3.5 億條與疫情相關(guān)的微博;平均每天超過(guò)2 億網(wǎng)友通過(guò)微博關(guān)注最新疫情、獲取防治服務(wù)、參與公益捐助。數(shù)據(jù)的持續(xù)增長(zhǎng),印證了微博在重大突發(fā)事件網(wǎng)絡(luò)輿情傳播過(guò)程中的獨(dú)特價(jià)值。
本文選取“新冠病毒”話題作為數(shù)據(jù)源,該突發(fā)事件網(wǎng)絡(luò)輿情是互聯(lián)網(wǎng)信息流的集中體現(xiàn),一方面反映著大眾的關(guān)注所在,另一方面也發(fā)揮著輿情的導(dǎo)向發(fā)酵作用。本文以“新冠病毒”為關(guān)鍵詞,分析疫情在該階段發(fā)展過(guò)程中國(guó)內(nèi)輿論焦點(diǎn)的變化,關(guān)注度的高低,以及各時(shí)間點(diǎn)的標(biāo)志性事件。本文最終選取“武漢加油”話題,其相關(guān)話題圖譜如下圖2 所示,涉及重要關(guān)鍵詞包括“抗擊疫情”“中國(guó)加油”“白衣天使”“公關(guān)軟文”等。本文使用Python 采集人民日?qǐng)?bào)于1 月23 日7:17 發(fā)布的“【轉(zhuǎn)發(fā)為# 武漢加油#!讓武漢人民知道,全國(guó)人民和你們?cè)谝黄穑 ?...打贏這場(chǎng)防疫戰(zhàn)!”。獲取的字段包括用戶昵稱、ID、評(píng)論內(nèi)容、時(shí)間和工具端等。本文共采集到37 845 條微博用戶評(píng)論信息,存入文本數(shù)據(jù)庫(kù)。
圖2 “武漢加油”事件相關(guān)話題圖譜Fig.2 Related topic graph of“Wuhan refueling”event
在實(shí)體關(guān)鍵詞抽取階段,首先檢查文本數(shù)據(jù)庫(kù)中的數(shù)據(jù)一致性,處理無(wú)效值和缺失值,以進(jìn)行數(shù)據(jù)清洗。包括刪除停用詞、缺失值、空字符串和亂碼數(shù)據(jù)、異常數(shù)據(jù)等,最終得到32 688 條有效數(shù)據(jù)。然后基于清華大學(xué)開發(fā)的THUOCL 詞庫(kù),使用ROST CM6 進(jìn)行分詞,人工添加網(wǎng)絡(luò)熱門詞語(yǔ)和話題相關(guān)詞語(yǔ),如大數(shù)據(jù)、淘寶、熱干面、封城等。然后啟動(dòng)歸并詞群表、保留詞表和過(guò)濾詞表,比對(duì)帶分詞數(shù)據(jù)庫(kù)中和分詞詞庫(kù)進(jìn)行分詞,抽取到實(shí)體保存在數(shù)據(jù)庫(kù)中。最后過(guò)濾停用詞,計(jì)算特征詞的詞頻并轉(zhuǎn)換為詞向量。
實(shí)體關(guān)系抽取為計(jì)算實(shí)體間關(guān)聯(lián)度的過(guò)程。通過(guò)CiteSpace 軟件計(jì)算實(shí)體的文本相似度,使用不同網(wǎng)絡(luò)優(yōu)化算法以及文本聚類標(biāo)簽得到實(shí)體間關(guān)聯(lián)關(guān)系。本文使用的文本相似度算法包括Cosine 相似度算法、Dice 相似度算法以及Jaccard 相似度算法;在網(wǎng)絡(luò)優(yōu)化方面,本文使用兩種網(wǎng)絡(luò)優(yōu)化算法分別為路徑搜索網(wǎng)絡(luò)(PFNETs)算法和最小生成樹(MSTs)算法;在文本聚類方面,分別基于TF-IDF 算法、LLR 算法和MI 算法標(biāo)注聚類標(biāo)簽。
通過(guò)對(duì)數(shù)據(jù)進(jìn)行處理,分別基于3 種文本相似度計(jì)算方法和兩種網(wǎng)絡(luò)優(yōu)化處理方法構(gòu)建微博輿情文本的主題圖譜如圖3 所示。在處理該話題下微博用戶評(píng)論文本可視化上,使用Cosine 函數(shù)和Dice 函數(shù)(圖3(a)~(d))進(jìn)行文本相似度處理比Jaccard 函數(shù)效果更好。使用Jaccard 函數(shù)處理得到的圖譜(圖3(e)、(f))具有相對(duì)較高的分散程度和延展性。使用Cosine函數(shù)處理得到的圖譜有多個(gè)中心或星形節(jié)點(diǎn),而Dice函數(shù)處理得到的圖譜聚類簇更明顯。
圖3 微博輿情用戶評(píng)論文本的主題圖譜Fig.3 Topic graph of Weibo users'comments
在網(wǎng)絡(luò)優(yōu)化處理算法上,路徑搜索網(wǎng)絡(luò)(PFNETs)顯示出比最小生成樹(MSTs)更優(yōu)越的優(yōu)化特征。盡管中心度較高的節(jié)點(diǎn)主導(dǎo)了MSTs 模型的結(jié)構(gòu),但由于MSTs 從高中心度節(jié)點(diǎn)的最短路徑中刪除了潛在的重要連接,因此MSTs 結(jié)構(gòu)不能很好地描述網(wǎng)絡(luò)分布的特征。相比之下,PFNET 模型能夠清楚地展示高中心度節(jié)點(diǎn)在保持一些最關(guān)鍵路徑的內(nèi)聚性方面的優(yōu)勢(shì),這反過(guò)來(lái)又使特征詞聚類更加具有可預(yù)測(cè)和可解釋性。在本文采集的關(guān)于“武漢加油”話題的文本數(shù)據(jù)中,使用PENETs 算法得到的網(wǎng)絡(luò)優(yōu)化效果更好。
使用Jaccard 函數(shù)進(jìn)行文本相似度計(jì)算、PFNETs進(jìn)行網(wǎng)絡(luò)優(yōu)化以及Jaccard 算法和MSTs 算法組合得到的圖譜能夠得到最多聚類簇,均為21 個(gè)。說(shuō)明相比較Cosine 和Dice 函數(shù),Jaccard 函數(shù)處理得到的圖譜能夠得到最多聚類簇。使用Cosine 函數(shù)進(jìn)行文本相似度計(jì)算得到的聚類簇?cái)?shù)量最少。從數(shù)據(jù)結(jié)果來(lái)看,使用Dice 函數(shù)進(jìn)行文本相似度計(jì)算,PFNETs 進(jìn)行網(wǎng)絡(luò)優(yōu)化得到的聚類效果更好。該算法聚類中得到的“捐助”“醫(yī)學(xué)”“感冒”均為該話題下正確聚類集合。
依據(jù)網(wǎng)絡(luò)結(jié)構(gòu)和聚類的清晰度,圖譜的密度、模塊化系數(shù)和平均輪廓值結(jié)果如表1 所示。模塊值(Q值)大于0.3 說(shuō)明社團(tuán)結(jié)構(gòu)顯著,Q 值大于0.5 聚類平均輪廓值平均輪廓值(S 值)能夠衡量圖譜緊密性和分離性。S 值大于0.5 則聚類結(jié)果合理;S 值大于0.7則聚類結(jié)果較標(biāo)準(zhǔn)。數(shù)據(jù)結(jié)構(gòu)顯示,使用不同文本相似度和網(wǎng)絡(luò)優(yōu)化算法得到的圖譜密度較接近,使用PFNETs算法比MSTs 算法得到的圖譜密度、模塊值以及平均輪廓值都稍高,基于Jaccard 相似度算法得到的圖譜模塊值高于Cosine 和Dice 相似度處理得到的圖譜模塊值,而圖譜的平均輪廓值則相反。說(shuō)明使用Jaccard 相似度算法的圖譜模塊化程度更高,社團(tuán)結(jié)構(gòu)更顯著,但聚類效果不如使用Cosine 和Dice 相似度算法得到的圖譜。
表1 基于不同文本相似度和網(wǎng)絡(luò)優(yōu)化算法的圖譜指標(biāo)統(tǒng)計(jì)Table 1 Index statistics based on different text similarity and network optimization algorithms
3 種相似度計(jì)算方法下和兩種網(wǎng)絡(luò)優(yōu)化算法下的聚類表如表2 所示。表中統(tǒng)計(jì)了每種組合下得到聚類結(jié)果中節(jié)點(diǎn)數(shù)量排在前7 的聚類簇,節(jié)點(diǎn)數(shù)量、聚類平均輪廓值(Silhouette)、以及在3 種聚類方法(TFIDF、LLR 和MI)下的標(biāo)簽內(nèi)容。使用Dice 相似度計(jì)算、MSTs 進(jìn)行網(wǎng)絡(luò)優(yōu)化得到的聚類簇中節(jié)點(diǎn)數(shù)量最多,cluster#0 包含66 個(gè)特征詞。Jaccard 算法和PFNETs 算法組合、Cosine 算法和MSTs 算法組合以及Jaccard 算法和MSTs 組合得到的聚類簇中節(jié)點(diǎn)數(shù)量相對(duì)較少,最多的簇僅包含52 個(gè)節(jié)點(diǎn)。從聚類簇的S 值結(jié)果來(lái)看,使用Jaccard 算法得到的結(jié)果相對(duì)更標(biāo)準(zhǔn),其中和PFNETs 算法組合的圖譜聚類效果最好,S 值均達(dá)到0.73 以上。Dice 算法和PFNETs 算法組合的圖譜聚類結(jié)果準(zhǔn)確率較低,S 值均低于0.7,但聚類結(jié)果較接近輿情現(xiàn)實(shí)情況。3 種(TFIDF、LLR 和MI)標(biāo)簽顯示結(jié)果來(lái)看,TFIDF 產(chǎn)生的聚類標(biāo)簽更符合“武漢加油”話題下的實(shí)際評(píng)論情況,LLR 和MI 算法僅在單一情況下能夠產(chǎn)生比TFIDF 更準(zhǔn)確的聚類標(biāo)簽。
表2 基于不同文本相似度和網(wǎng)絡(luò)優(yōu)化算法的文本聚類表Table 2 Text clustering based on different text similarity and network optimization algorithms
表2 (續(xù))Table 2 (continued)
相關(guān)輿情管理部門在使用本文構(gòu)建的主題圖譜分析微博用戶評(píng)論內(nèi)容時(shí),使用Cosine 或Dice 算法進(jìn)行文本相似度計(jì)算,PFNETs 算法進(jìn)行網(wǎng)絡(luò)優(yōu)化,TFIDF繪制聚類標(biāo)簽,能夠快速了解用戶關(guān)注主題,在保證聚類準(zhǔn)確度的基礎(chǔ)上提高工作效率。
本文對(duì)微博輿情文本聚類特征詞的中心度進(jìn)行分析,分別分析該6 個(gè)圖譜中中心度值排在前10 的特征詞,如表3 所示。結(jié)果顯示,不論使用哪種文本相似度計(jì)算方法,使用MSTs 算法進(jìn)行網(wǎng)絡(luò)優(yōu)化處理得到的圖譜中特征詞的中心度都比PENETs 算法高。而使用Jaccard 算法進(jìn)行文本相似度計(jì)算得到的特征詞中心度比Dice 算法高,Cosine 算法處理得到的特征詞中心度最低。因此,使用Jaccard 算法和MSTs 算法組合得到的特征詞點(diǎn)度中心度是6 個(gè)圖譜中最高的。
表3 基于不同文本相似度和網(wǎng)絡(luò)優(yōu)化算法的特征詞中心度統(tǒng)計(jì)表Table 3 Statistics of word centrality based on different text similarity and network optimization algorithms
在Cosine 算法和PENETs 算法組合的圖譜中,特征詞“防范”“保障”和“支援”均屬于第6 聚類簇;在Jaccard 算法和PENETs 算法組合的圖譜中,特征詞“控制”“治療”和“第一”均屬于第3 聚類簇;在Jaccard 算法和MSTs 算法組合的圖譜中著3 個(gè)特征詞均屬于第4 聚類簇。在中心度排名前10 的節(jié)點(diǎn)中,有3 個(gè)節(jié)點(diǎn)來(lái)自一個(gè)聚類簇,說(shuō)明該簇是圖譜中的核心聚類簇,在圖譜中具有重要位置。微博輿情管控主體通過(guò)本文提出的文本聚類可視化方法能夠快速定位圖譜中具有較多高中心度特征詞的聚類簇,這些高中心度值得特征詞能夠代表該話題下微博用戶的最主要觀點(diǎn)。同樣,單一中心度高的特征詞所在簇也需要引起管理者的重視,因?yàn)榧词乖摯刂袃H有一個(gè)特征詞具有高中心度,這個(gè)特征詞也能極大代表該簇中用戶評(píng)論內(nèi)容的核心觀點(diǎn)。
將微博輿情用戶評(píng)論內(nèi)容按照事件發(fā)展時(shí)序劃分為突發(fā)期、蔓延期和消散期。網(wǎng)絡(luò)輿情話題熱度與信息數(shù)量呈正相關(guān)。假設(shè)網(wǎng)絡(luò)輿情信息傳播數(shù)量是關(guān)于時(shí)間的連續(xù)可微函數(shù),N=N(t)。N 表示輿情信息傳播數(shù)量。設(shè)t=0 時(shí)N 的初始值為N0。N 的上限為T,r 為固有增長(zhǎng)率[22,23],則:
則將輿情傳播過(guò)程劃分為突發(fā)期、蔓延期和消散期的兩個(gè)關(guān)鍵時(shí)間點(diǎn)為:
經(jīng)計(jì)算兩個(gè)關(guān)鍵時(shí)間點(diǎn)分別在1 月23 日11:23 和1 月26 日14:40。將文本數(shù)據(jù)使用CiteSpace 時(shí)間演化序列圖按照不同時(shí)期進(jìn)行布局得到微博輿情演化圖譜如圖4 所示。圖譜中的實(shí)體為用戶評(píng)論特征詞,實(shí)體間關(guān)系為用戶評(píng)論特征詞關(guān)聯(lián)關(guān)系,實(shí)體間連線數(shù)字代表這兩個(gè)實(shí)體的關(guān)聯(lián)強(qiáng)度值。如上文論述,使用Dice 算法計(jì)算文本相似度,Pathfinder 算法進(jìn)行網(wǎng)絡(luò)布局得到的圖譜的模塊化值和平均輪廓值最高,各聚類簇的平均輪廓值也最高,并且經(jīng)過(guò)TF-IDF 計(jì)算得到的聚類結(jié)果相對(duì)更合理,因此基于該算法組合計(jì)算實(shí)體間關(guān)聯(lián)強(qiáng)度值。關(guān)聯(lián)強(qiáng)度值主要在0.2~0.5 之間,值越高代表這兩個(gè)特征詞關(guān)聯(lián)次數(shù)較多。數(shù)據(jù)結(jié)果顯示,在該事件的爆發(fā)期,用戶評(píng)論主要集中在對(duì)武漢疫情的關(guān)注和對(duì)武漢人民的鼓勵(lì),希望武漢人民能夠平安度過(guò)困難;在蔓延期主要為武漢人民的回應(yīng),包括感謝來(lái)自各地的網(wǎng)民的支持,以及對(duì)感染群眾的安慰和祝福;在消散期主要為網(wǎng)民對(duì)疫情發(fā)展嚴(yán)重程度的討論以及戰(zhàn)勝疫情的決心。
圖4 微博輿情用戶評(píng)論的主題演化圖譜Fig.4 Thematic evolution graph of Weibo users'comments
當(dāng)出現(xiàn)其他爆發(fā)力強(qiáng)的衍生輿情時(shí),往往在輿情傳播末期則會(huì)相應(yīng)顯示。輿情管理者即可從輿情演化分析中提前得到預(yù)警,及時(shí)對(duì)輿情傳播進(jìn)行合理引導(dǎo)和管控。輿情管理者可以通過(guò)輿情演化分析方法了解輿情傳播中用戶評(píng)論信息隨時(shí)間和事件發(fā)展趨勢(shì)的變化過(guò)程,對(duì)輿情走勢(shì)預(yù)測(cè)、網(wǎng)民情緒波動(dòng)分析、輿情預(yù)警都具有重要的實(shí)踐意義。
本文基于主題圖譜理論與構(gòu)建方法,將微博輿情用戶評(píng)論文本中特征詞作為實(shí)體,結(jié)合文本聚類技術(shù)將特征詞的關(guān)聯(lián)關(guān)系作為實(shí)體間關(guān)系,以新浪微博熱點(diǎn)話題“武漢加油”為例構(gòu)建微博輿情用戶評(píng)論文本的主題圖譜。使用CiteSpace 進(jìn)行可視化分析,通過(guò)應(yīng)用不同文本相似度算法、網(wǎng)絡(luò)優(yōu)化算法和文本聚類算法分析圖譜結(jié)構(gòu)特征。研究發(fā)現(xiàn),在該輿情話題下,使用Jaccard 相似度算法的圖譜模塊化程度更高,社團(tuán)結(jié)構(gòu)更顯著,但聚類效果不如Cosine 和Dice 相似度算法;TFIDF 產(chǎn)生的聚類標(biāo)簽比LLR 和MI 的準(zhǔn)確度更高;PFNETs 在網(wǎng)絡(luò)優(yōu)化處理算法上顯示出比MSTs 更優(yōu)越的優(yōu)化特征;使用Jaccard 算法進(jìn)行文本相似度計(jì)算、MSTs 算法進(jìn)行網(wǎng)絡(luò)優(yōu)化得到圖譜中特征詞中心度較高。本文基于對(duì)比分析結(jié)果總結(jié)出構(gòu)建微博輿情用戶評(píng)論文本主題圖譜的最優(yōu)算法組合能夠幫助輿情管理者快速準(zhǔn)確識(shí)別用戶關(guān)注內(nèi)容。通過(guò)對(duì)微博輿情用戶發(fā)布文本進(jìn)行監(jiān)控,預(yù)測(cè)輿情演化趨勢(shì),防止不良輿情滋生和擴(kuò)散具有重要作用。在該事件下,部分網(wǎng)民在微博大V 下夸大實(shí)情、散布謠言、甚至引發(fā)社會(huì)動(dòng)蕩。針對(duì)這些用戶,輿情管理者應(yīng)對(duì)用戶發(fā)布文本聚類,定位特征詞為負(fù)向的聚類簇并進(jìn)行集中管理,找到發(fā)布該簇下負(fù)面文本的用戶進(jìn)行警告或封號(hào),提高輿情管理效率。
本研究也存在一定局限性,僅以微博平臺(tái)為例選擇“武漢加油”這一話題作為數(shù)據(jù)源對(duì)該話題下的輿情用戶評(píng)論內(nèi)容進(jìn)行文本聚類分析,得到結(jié)果在處理相關(guān)話題時(shí)具有一定優(yōu)越性,在分析其他話題下的文本時(shí)可能產(chǎn)生偏差。在未來(lái)研究中,本文將選取不同社交媒體平臺(tái)針對(duì)更廣泛的話題對(duì)社交網(wǎng)絡(luò)輿情傳播展開更深入的分析。