張 柳,王晰巍,2,3,5,黃 博,劉婷艷
(1. 吉林大學(xué)管理學(xué)院,長春 130022;2. 吉林大學(xué)大數(shù)據(jù)管理研究中心,長春 130022;3. 吉林大學(xué)網(wǎng)絡(luò)空間治理研究中心,長春 130022;4. 吉林大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,長春 130022;5. 吉林大學(xué)東北振興研究院,長春 130022)
新型冠狀病毒肺炎在全球的持續(xù)蔓延引起了各國政府和民眾的熱切關(guān)注,公眾通過微博、微信、論壇、短視頻等社交網(wǎng)絡(luò)平臺(tái),聚焦全球疫情趨勢(shì)并形成了大量輿情。在新浪微博上,關(guān)于新冠肺炎每分鐘以幾十萬甚至上百萬的搜索量出現(xiàn)在微博頂端。以微博為代表的社交網(wǎng)絡(luò),成為當(dāng)前疫情期間我國網(wǎng)絡(luò)用戶獲取疫情進(jìn)展信息、分享信息和評(píng)論信息的首選平臺(tái)。如何從疫情期間大量社交網(wǎng)絡(luò)數(shù)據(jù)中識(shí)別出微博用戶群體關(guān)注的主題和關(guān)鍵意見領(lǐng)袖,并對(duì)疫情期間的網(wǎng)絡(luò)社群間主題傳播路徑進(jìn)行分析,進(jìn)而對(duì)關(guān)鍵輿情的信息傳播進(jìn)行有效引導(dǎo),成為了輿情監(jiān)管部門和學(xué)術(shù)界在新冠肺炎疫情期間關(guān)注的重要問題[1]。
近年來,國內(nèi)外學(xué)者相繼展開了突發(fā)公共事件中信息的傳播研究。國外學(xué)者:Theja Bhavaraju 等[2]研究了災(zāi)難事件在Twitter 中關(guān)注的持續(xù)時(shí)間和情感等指標(biāo)的變化;Kumar 等[3]基于長短期記憶模型對(duì)海量的推文、圖片和視頻進(jìn)行分析,識(shí)別出Twitter中與突發(fā)事件有關(guān)的信息內(nèi)容,以便于及時(shí)輔助民眾進(jìn)行決策的作用;Ray 等[4]利用監(jiān)督學(xué)習(xí),來區(qū)分社交媒體中關(guān)于災(zāi)難事件的真實(shí)信息和虛假信息,從而減輕謠言造成的負(fù)面影響。國內(nèi)學(xué)者唐明偉等[5]應(yīng)用案例分析法對(duì)突發(fā)事件應(yīng)急響應(yīng)情報(bào)體系進(jìn)行解析,結(jié)果發(fā)現(xiàn)突發(fā)事件應(yīng)急響應(yīng)情報(bào)體系對(duì)公共安全事件的處理具有可預(yù)見的效果;李明等[6]通過構(gòu)建可信度影響因素,評(píng)估模型研究突發(fā)事件環(huán)境下,虛擬問答社區(qū)的知識(shí)可信度影響因素;劉建準(zhǔn)等[7]運(yùn)用突發(fā)事件應(yīng)急管理領(lǐng)域的介入模型,高效、快速地提升了突發(fā)事件的處理速度。從國內(nèi)外學(xué)者的研究現(xiàn)狀來看,國外學(xué)者主要分析了社交媒體在突發(fā)公共事件時(shí)社交媒體在信息傳播中的重要作用,而國內(nèi)學(xué)者的研究主要集中在對(duì)突發(fā)公共事件的應(yīng)急管理和信息識(shí)別等方面。從現(xiàn)有研究成果來看,目前圍繞重大突發(fā)公共衛(wèi)生事件中的輿情傳播主題及進(jìn)行意見領(lǐng)袖識(shí)別的研究相對(duì)較少,運(yùn)用LDA(Latent Dirichlet Allocation) 主題模型進(jìn)行微博用戶主題偏好聚類及主題傳播路徑分析的研究成果相對(duì)更少。
本文試圖研究并解決如下三個(gè)方面的問題:①如何基于LDA 模型識(shí)別新冠肺炎疫情中微博用戶的主題聚類特征并進(jìn)行可視化分析?②如何結(jié)合新冠肺炎疫情期間的典型話題進(jìn)行微博主題在不同網(wǎng)絡(luò)社群間的主題傳播路徑分析?③如何基于微博用戶的主題聚類特征及主題傳播路徑對(duì)新冠肺炎疫情期間的輿情事件進(jìn)行更好的輿情疏導(dǎo)?本文基于LDA模型構(gòu)建新冠肺炎疫情微博用戶主題聚類圖譜,結(jié)合 “日本鉆石公主號(hào)郵輪” 熱點(diǎn)輿情話題,對(duì)微博用戶的群體主題進(jìn)行劃分、意見領(lǐng)袖識(shí)別,以及不同網(wǎng)絡(luò)社群間主題傳播路徑進(jìn)行實(shí)證分析,從而更好地引導(dǎo)和管控新冠肺炎疫情期間輿情的互聯(lián)網(wǎng)生態(tài),并為相關(guān)輿情監(jiān)管部門正確引導(dǎo)疫情輿情,減低輿情監(jiān)管成本,建設(shè)網(wǎng)絡(luò)生態(tài)目標(biāo)起到積極的推動(dòng)作用。
突發(fā)公共事件,是指突然發(fā)生的,造成或者可能造成嚴(yán)重社會(huì)危害的,需要采取應(yīng)急處置措施予以應(yīng)對(duì)的自然災(zāi)害、事故災(zāi)難、公共衛(wèi)生事件和社會(huì)安全事件[8]。例如,新型冠狀病毒肺炎疫情屬于突發(fā)公共衛(wèi)生事件,其具有傳染性、突發(fā)性、復(fù)雜性和持續(xù)性等特點(diǎn)。2020 年1 月30 日,世界衛(wèi)生組織(World Health Organization,WTO)宣布新型冠狀病毒肺炎疫情升級(jí)為 “國際關(guān)注的突發(fā)公共衛(wèi)生事件” 。公共衛(wèi)生事件具有嚴(yán)重的危害性,不但影響著人民的健康,嚴(yán)重時(shí)將會(huì)阻礙經(jīng)濟(jì)的發(fā)展,甚至威脅社會(huì)的穩(wěn)定[9]。隨著新冠肺炎疫情的不斷擴(kuò)散與升級(jí),有關(guān)疫情期間的相關(guān)信息持續(xù)在網(wǎng)上發(fā)酵,并演化成網(wǎng)絡(luò)輿情,然而其中不可避免地充斥著很多謠言信息,人民網(wǎng)指出要警惕這 “第二波” 疫情[10]。因此,準(zhǔn)確、有效地識(shí)別微博用戶群體特征和意見領(lǐng)袖,并對(duì)疫情期間的網(wǎng)絡(luò)社群間主題傳播路徑進(jìn)行分析,有助于對(duì)此次疫情網(wǎng)絡(luò)輿情的信息傳播有針對(duì)性地進(jìn)行引導(dǎo),消除社會(huì)恐慌,增強(qiáng)人民群眾抗擊疫情的信心。
LDA 是三層級(jí)的貝葉斯概率圖模型,其組成結(jié)構(gòu)包含文檔、主題和詞三種粒度[11]。LDA 模型可挖掘出文檔集或語料庫中的潛在主題信息,并采用詞袋構(gòu)建模型,在不考慮詞匯出現(xiàn)順序的情況下,構(gòu)成 “文檔-主題分布” 和 “主題-詞分布”[12]。一個(gè)或多個(gè)主題構(gòu)成一篇文檔,且文檔中的每個(gè)詞由其中之一的主題生成[13]。因此,針對(duì)大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)輿情話題事件,LDA 模型可幫助進(jìn)行潛在主題識(shí)別和用戶聚類等基于文本的分析過程。
本文通過perplexity(困惑度)評(píng)價(jià)指標(biāo)來確定文檔中的最優(yōu)主題個(gè)數(shù)。Perplexity 常用來度量一個(gè)概率分布或概率模型預(yù)測(cè)樣本的優(yōu)劣程度,可用于調(diào)節(jié)主題個(gè)數(shù)[14],其計(jì)算公式為
其中,D表示文檔中所有詞的集合;M表示文檔的數(shù)量;Wd表示文檔d中的詞;Nd表示每個(gè)文檔中d的詞數(shù);P(Wd)表示文檔中詞出現(xiàn)的概率。perplexity數(shù)值一般隨著潛在主題數(shù)量的增加呈現(xiàn)遞減的規(guī)律,perplexity 數(shù)值越小,則該主題模型的生成能力越強(qiáng)[15]。因此,本文選擇perplexity 相對(duì)小且主題數(shù)量相對(duì)較少的主題數(shù)值作為LDA 模型訓(xùn)練的最優(yōu)模型參數(shù)[16]。
主題聚類圖譜采用圖的建模方式,以網(wǎng)絡(luò)用戶作為節(jié)點(diǎn),轉(zhuǎn)發(fā)評(píng)論關(guān)系為邊,來連接不同的網(wǎng)絡(luò)用戶。主題聚類圖譜在社交圖譜和興趣圖譜的基礎(chǔ)上,不但可以將相同主題興趣下的網(wǎng)絡(luò)用戶聚集在一起,而且可以將社交網(wǎng)絡(luò)中的用戶通過主題分類成不同的聚類群體[17],凸顯出網(wǎng)絡(luò)用戶對(duì)某一話題事件的轉(zhuǎn)發(fā)、評(píng)論和點(diǎn)贊行為。主題聚類圖譜將海量的微博用戶發(fā)布的文本信息通過主題相似度進(jìn)行劃分,并將同一主題下的網(wǎng)絡(luò)用戶通過社交關(guān)系聚集在一起。主題聚類圖譜是為適應(yīng)信息資源網(wǎng)絡(luò)化而出現(xiàn)的一種新興智能化的知識(shí)組織方式、一種模型化的知識(shí)表示技術(shù),可以解決大量的、無序的、非結(jié)構(gòu)化信息的組織問題。社交媒體中的主題聚類圖譜來源于互聯(lián)網(wǎng)用戶的轉(zhuǎn)發(fā)評(píng)論語料,主題聚類圖譜的構(gòu)建可獲取用戶討論的熱點(diǎn)主題以及主題間的關(guān)系,進(jìn)行用戶主題挖掘[18]。
突發(fā)公共事件往往伴隨著輿情話題的集中爆發(fā)和輿情的快速轉(zhuǎn)化,某一突發(fā)輿情事件會(huì)包含若干子話題的輿情演化過程[19]。傳統(tǒng)的輿情分析方法主要是基于時(shí)間變量來分析網(wǎng)絡(luò)輿情的演化特征,缺乏對(duì)潛在主題的抽取[20]?,F(xiàn)有的分析方法難以根據(jù)網(wǎng)絡(luò)用戶的轉(zhuǎn)發(fā)評(píng)論關(guān)系發(fā)現(xiàn)輿情中小社群中的意見領(lǐng)袖對(duì)輿情整體發(fā)展的影響,故引導(dǎo)與治理突發(fā)事件輿情的難度及管理成本較高。輿情監(jiān)管部門容易忽視潛在輿情主題中網(wǎng)絡(luò)群體,對(duì)相關(guān)輿情分析很難掌握全局。因此,本文通過LDA 模型對(duì)微博用戶的轉(zhuǎn)發(fā)評(píng)論文本進(jìn)行主題建模,確定文檔-主題分布、主題-詞分布,從而確定某一微博用戶節(jié)點(diǎn)的隸屬主題,而具有相同主題的微博用戶節(jié)點(diǎn)通過聚類可視化展示,構(gòu)成微博用戶主題聚類圖譜。同時(shí),微博用戶的轉(zhuǎn)發(fā)評(píng)論文本對(duì)應(yīng)了LDA 模型所確定的文本主題,本文通過LDA 模型來確定用戶轉(zhuǎn)發(fā)評(píng)論的文本主題,進(jìn)而代表用戶的主題。
對(duì)網(wǎng)絡(luò)社群間主題傳播路徑進(jìn)行分析,可以更好地把控微博用戶主題信息的傳播路徑,從而便于進(jìn)行信息傳播的疏導(dǎo)。為降低后續(xù)計(jì)算的復(fù)雜度,本文進(jìn)行如下假設(shè):①意見領(lǐng)袖節(jié)點(diǎn)代表其所在網(wǎng)絡(luò)社群的主題傾向,并選擇PageRank 值最大的節(jié)點(diǎn)作為子社群中的意見領(lǐng)袖;②邊權(quán)重可以看作是網(wǎng)絡(luò)社群在不同節(jié)點(diǎn)間傳播的信息損耗,即主題相似度越高的節(jié)點(diǎn),信息傳播的越容易,其信息損耗也就越小。
因此,本文通過PageRank 值確定各個(gè)網(wǎng)絡(luò)社群的意見領(lǐng)袖,結(jié)合LDA 主題模型得到 “文檔-主題分布” ,獲得意見領(lǐng)袖之間的相似度,利用該相似度確定不同社群間意見領(lǐng)袖的語義距離,并將語義距離作為社群之間的邊權(quán)重,通過Dijkstra 算法計(jì)算遍歷各個(gè)意見領(lǐng)袖的最短主題傳播路徑。不同社群間意見領(lǐng)袖的相似度計(jì)算方式為
其中,JS 散度度量了兩個(gè)分布的相似度,是基于KL 散度的變體;P(x)與Q(x)表示不同微博用戶的概率分布,即通過LDA 主題模型求得的 “文檔-主題分布” ,JS 散度的值域范圍是[0,1],相似度越高,值域越接近于0[21]。形式上,在某話題空間下,通過困惑度評(píng)價(jià)指標(biāo)得到的最優(yōu)LDA 主題參數(shù)為n個(gè),再通過JS 散度,計(jì)算各網(wǎng)絡(luò)社群間意見領(lǐng)袖的主題相似度,即求得一個(gè)n×n的方陣,進(jìn)而得到不同網(wǎng)絡(luò)社群間的邊權(quán)重。在確定了不同網(wǎng)絡(luò)社群意見領(lǐng)袖之間傳播路徑上的邊權(quán)重后,構(gòu)建網(wǎng)絡(luò)社群之間主題的傳播路徑,并通過Dijkstra 算法確定意見領(lǐng)袖節(jié)點(diǎn)全連通圖中,遍歷各個(gè)網(wǎng)絡(luò)社群間意見領(lǐng)袖的最短路徑。
微博具有傳播主體平民化、多媒體綜合化和信息碎片化等社交媒體的傳播特點(diǎn),吸引了眾多的網(wǎng)絡(luò)用戶[22],在Alexa 網(wǎng)站中擁有較高的排名[23]。在新冠肺炎疫情期間輿情話題的選擇上,本文選取了全球新冠肺炎疫情爆發(fā)早期公共關(guān)注的新浪微博熱點(diǎn)話題 “日本鉆石公主號(hào)郵輪” 作為信息源,采集全部轉(zhuǎn)發(fā)評(píng)論數(shù)據(jù)。
本文運(yùn)用火車頭采集器爬蟲軟件[24]獲取微博用戶轉(zhuǎn)發(fā)評(píng)論數(shù)據(jù)。獲取數(shù)據(jù)字段包括用戶ID、用戶名、微博內(nèi)容、轉(zhuǎn)發(fā)評(píng)論及時(shí)間等。根據(jù)百度指數(shù)的統(tǒng)計(jì)數(shù)據(jù),關(guān)鍵詞 “日本郵輪” 輿情的生命周期為2020 年2 月5 日至2020 年2 月23 日,數(shù)據(jù)達(dá)到頂峰的時(shí)間段位于2 月19 日。在近半個(gè)月的時(shí)間中,本文共獲得 “日本鉆石公主號(hào)郵輪” 話題下的微博數(shù)據(jù)為32265 條。
對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,本文首先利用火車頭采集器爬蟲軟件實(shí)現(xiàn)海量微博數(shù)據(jù)的爬?。黄浯?,通過Jieba 分詞腳本對(duì)獲得的文本進(jìn)行分詞,并過濾無關(guān)字符和去停用詞等;再次,對(duì)微博用戶的轉(zhuǎn)發(fā)評(píng)論文本進(jìn)行去重處理,使文本信息的話題性朝著更具 “原創(chuàng)” 性的方向傾斜;最后,獲得微博轉(zhuǎn)發(fā)評(píng)論數(shù)據(jù)20814 條。本文采用LDA 主題模型對(duì)話題下的微博用戶評(píng)論文本進(jìn)行分類主題挖掘。
經(jīng)過數(shù)據(jù)預(yù)處理后,本文選用gensim 中的類實(shí)例化LDA 主題模型,對(duì)預(yù)處理后的文本進(jìn)行分類訓(xùn)練,并擬定在區(qū)間[2,30]內(nèi)的整數(shù)作為候選主題數(shù),通過調(diào)用LDA 主題模型類下的Log_Perplexity 方法,得出不同模型的對(duì)數(shù)化困惑度數(shù)值,如圖1 所示。
圖1 perplexity-topic折線圖
圖1 表明了某一文檔對(duì)于各個(gè)潛在主題的不確定程度。困惑度越低,文檔歸屬于某一潛在主題的可能性就越高,即模型的聚類效果越好。圖1 的折線圖顯示,隨著主題數(shù)的增加,總體上困惑度呈現(xiàn)波動(dòng)上升的態(tài)勢(shì);困惑度的局部極小值點(diǎn),出現(xiàn)在主題數(shù)為11 的模型選擇上。主題數(shù)越多,則后續(xù)的主題分析也越為復(fù)雜。根據(jù)奧卡姆剃刀準(zhǔn)則,本文輿情話題擬選取11 個(gè)潛在主題數(shù)。
本文的研究對(duì)象是新冠肺炎疫情輿情空間下的微博用戶節(jié)點(diǎn),任意兩個(gè)節(jié)點(diǎn)間的轉(zhuǎn)發(fā)評(píng)論關(guān)系,代表這兩個(gè)節(jié)點(diǎn)在同一輿情空間下的話題傾向性趨同,因此,這種轉(zhuǎn)發(fā)評(píng)論關(guān)系代表節(jié)點(diǎn)之間的相似性[25]。本文以 “日本鉆石公主號(hào)郵輪” 輿情話題中微博用戶為節(jié)點(diǎn),轉(zhuǎn)發(fā)評(píng)論為邊,將最終獲得的20814 條微博轉(zhuǎn)發(fā)評(píng)論數(shù)據(jù)導(dǎo)入VOSviewer 可視化軟件中,構(gòu)建新冠肺炎微博用戶主題聚類圖譜,如圖2 所示。
根據(jù)不同顏色,將該輿情話題下的微博用戶主題聚類劃分為不同網(wǎng)絡(luò)社群。其中,氣泡直徑與微博用戶節(jié)點(diǎn)的度中心度成正比。微博用戶節(jié)點(diǎn)氣泡越大,其度中心度越大,說明其在社群中具有較高的影響力。從圖2 中可以看出,新冠肺炎期間 “日本鉆石公主號(hào)郵輪” 的微博用戶主題聚類共分為11個(gè)主題(即11 個(gè)網(wǎng)絡(luò)社群),且每個(gè)網(wǎng)絡(luò)社群都存在著邊連接;并且同一網(wǎng)絡(luò)社群內(nèi)的用戶節(jié)點(diǎn)連接相對(duì)緊密,網(wǎng)絡(luò)社群內(nèi)的邊密度高于網(wǎng)絡(luò)社群間的邊密度,各個(gè)網(wǎng)絡(luò)社群之間連接的相對(duì)稀疏。數(shù)據(jù)分析結(jié)果表明,主題10 所在的網(wǎng)絡(luò)社群在輿情的整體用戶中占有較大的用戶比例;主題6 所在的網(wǎng)絡(luò)社群所占的用戶比例在該輿情話題中相對(duì)最小。通過新冠肺炎微博用戶的主題聚類可視化分析,不僅可以直觀地展示 “日本鉆石公主號(hào)郵輪” 話題下新冠肺炎微博用戶的主題聚類,還可以根據(jù)氣泡面積的大小有效識(shí)別每個(gè)網(wǎng)絡(luò)社群中的意見領(lǐng)袖。
圖2 “日本鉆石公主號(hào)郵輪” 輿情話題微博用戶主題聚類圖譜(彩圖請(qǐng)見http://qbxb.istic.ac.cn/CN/volumn/home.shtml)
表1 主題高頻詞分布
在確定最優(yōu)主題數(shù)后,將分詞后的文本數(shù)據(jù)用于LDA 主題模型訓(xùn)練,得到 “主題-詞” 以及 “文檔-主題” 兩個(gè)概率分布。通過 “主題-詞” 分布,可確定各個(gè)主題包含的高頻詞,并以分類的主題個(gè)數(shù)確定微博用戶群體。利用LDA 主題模型訓(xùn)練得到的11 個(gè)主題結(jié)果如表1 所示,且各個(gè)主題均選取詞頻最高的前5 個(gè)詞,如表1 所示。
通過表1 可以看出,各個(gè)主題的關(guān)鍵詞都占有較大的概率值,這符合微博文本主題的特點(diǎn),即微博用戶在某一特定話題空間下的評(píng)論用詞習(xí)慣趨于相同[23]。同時(shí),各個(gè)主題的高頻詞各不相同,也說明了該模型能夠較好地實(shí)現(xiàn)微博文本主題的劃分。通過文檔-主題分布,本文可以得出用戶轉(zhuǎn)發(fā)評(píng)論文本信息的主題劃分,從而確定微博用戶群體,并統(tǒng)計(jì)新冠肺炎微博用戶群體主題強(qiáng)度圖,如圖3 所示。從圖3 中可以看出,主題出現(xiàn)頻率從高到低依次為主題10、主題8、主題4、主題1、主題0、主題2、主題5、主題3、主題9、主題7 和主題6。其中,主題10 占比最高達(dá)到19%;主題6 的占比最少,只有5%左右。
圖3 微博用戶不同網(wǎng)絡(luò)群體的主題強(qiáng)度圖
圖4 最大社群微博用戶主題10節(jié)點(diǎn)分布
基于LDA 模型對(duì)新冠肺炎疫情微博用戶進(jìn)行主題劃分后,本文以最大網(wǎng)絡(luò)社群主題10 和最小網(wǎng)絡(luò)社群主題6 為例,進(jìn)行主題網(wǎng)絡(luò)社群中意見領(lǐng)袖的識(shí)別分析。主題10 和主題6 的網(wǎng)絡(luò)社群用戶節(jié)點(diǎn)分布如圖4 和圖5 所示,圖中的用戶節(jié)點(diǎn)氣泡直徑與用戶節(jié)點(diǎn)的度中心度成正比,用戶節(jié)點(diǎn)氣泡越大,其度中心度就越大,表明該網(wǎng)絡(luò)節(jié)點(diǎn)在此社群中較為活躍,對(duì)社群內(nèi)用戶的影響力較大。由于PageRank 的計(jì)算綜合了度中心度以及網(wǎng)絡(luò)傳播的特點(diǎn),PageRank 值表明了意見領(lǐng)袖在整個(gè)主題聚類圖譜中的核心作用,即可通過PageRank 值來定位意見領(lǐng)袖[26]。PageRank 算法作為使用最廣泛的網(wǎng)頁排名算法,可用于各種有向或無向、有權(quán)或無權(quán)網(wǎng)絡(luò)中節(jié)點(diǎn)影響力分析,PageRank 值高的微博用戶節(jié)點(diǎn)代表了網(wǎng)絡(luò)社群中的核心節(jié)點(diǎn),進(jìn)而可對(duì)微博傳播中意見領(lǐng)袖的影響力做出判斷[27]。此外,為進(jìn)一步確定社群中的意見領(lǐng)袖,本文利用PageRank 算法,綜合考慮度中心度以及網(wǎng)絡(luò)傳播特點(diǎn),對(duì)主題社群中的意見領(lǐng)袖影響力做出判斷[28]。主題10 和主題6 的社群用戶PageRank 值如表2 和表3 所示。
通過對(duì)比發(fā)現(xiàn),最小網(wǎng)絡(luò)社群主題6 中存在意見領(lǐng)袖的PageRank 值大于最大網(wǎng)絡(luò)社群主題10 中的意見領(lǐng)袖的PageRank 值,即小社群中的意見領(lǐng)袖影響力不一定小于大社群中的意見領(lǐng)袖影響力。通過圖2 的新冠肺炎微博用戶主題聚類圖可以發(fā)現(xiàn),影響力較大的節(jié)點(diǎn),如主題4 中的 “梨視頻” 和 “人民網(wǎng)” ,其PageRank 值分別為1891 和392.67,遠(yuǎn)遠(yuǎn)大于一些社群中意見領(lǐng)袖的PageRank 值。由此可見,在諸如主題6 的節(jié)點(diǎn)數(shù)較少的社群中,其意見領(lǐng)袖(如 “阿金實(shí)驗(yàn)員” )的影響力甚至大于節(jié)點(diǎn)數(shù)較多的社群中意見領(lǐng)袖(如主題10 中的 “七本青木l” )。
圖5 最小社群微博用戶主題6節(jié)點(diǎn)分布
表2 主題10社群用戶PageRank值(Top10)
表3 主題6社群用戶PageRank值(Top10)
在常規(guī)的社交網(wǎng)絡(luò)分析法中,一般根據(jù)社交網(wǎng)絡(luò)中的評(píng)論轉(zhuǎn)發(fā)關(guān)系,將網(wǎng)絡(luò)建立為一個(gè)有向圖模型。直接計(jì)算其上面的各項(xiàng)性能指標(biāo)(如出度、入度、PageRank 值等)。然而,這種方法會(huì)導(dǎo)致一些小社群中的意見領(lǐng)袖被 “淹沒” 。由于這些節(jié)點(diǎn)只在其潛在的主題聚類中擁有相對(duì)較高的性能指標(biāo),倘若放置于整個(gè)話題空間中,則無法通過性能指標(biāo)的降序排列進(jìn)行有效地篩查。如果不采用LDA 模型對(duì)新冠肺炎疫情微博用戶進(jìn)行主題聚類,那么將無法有效地劃分新冠肺炎疫情話題空間下的網(wǎng)絡(luò)用戶社群,也就無法確定潛在的意見領(lǐng)袖。
在對(duì)不同網(wǎng)絡(luò)社群意見領(lǐng)袖的主題相似度進(jìn)行計(jì)算后,得到網(wǎng)絡(luò)社群間的邊權(quán)重。本文以最大網(wǎng)絡(luò)社群主題10 到最小網(wǎng)絡(luò)社群主題6 為例,進(jìn)行網(wǎng)絡(luò)社群間主題傳播路徑的分析。其中,網(wǎng)絡(luò)社群間意見領(lǐng)袖的主題相似度如表4 所示。根據(jù)網(wǎng)絡(luò)社群間意見領(lǐng)袖的主題相似度,確定不同網(wǎng)絡(luò)社群意見領(lǐng)袖之間主題傳播路徑上的邊權(quán)重,并構(gòu)建網(wǎng)絡(luò)社群之間主題的傳播路徑,通過Dijkstra 算法確定網(wǎng)絡(luò)社群主題10 的傳播能夠遍歷各個(gè)網(wǎng)絡(luò)社群主題,最終到達(dá)網(wǎng)絡(luò)社群主題6 的最短主題傳播路徑,如圖6 所示。由于JS 散度的值域范圍是[0,1],相似度越高,值域越接近于0。在表4 眾多主題相似度的值域中,加粗下劃線的值域是相對(duì)最小的,如主題10 與主題8 的相似度為0.13,滿足網(wǎng)絡(luò)社群之間主題傳播的最優(yōu)路徑。
表4 網(wǎng)絡(luò)社群間意見領(lǐng)袖的主題相似度
圖6 “日本鉆石公主號(hào)郵輪” 輿情話題網(wǎng)絡(luò)社群主題傳播路徑圖
由圖6 可知,在選擇網(wǎng)絡(luò)社群主題10 進(jìn)行輿情信息的傳播時(shí),經(jīng)由主題8、主題4、主題5、主題1、主題0、主題2、主題3、主題9、主題7,最終到達(dá)網(wǎng)絡(luò)社群主題6 的主題傳播路徑所帶來的信息損耗最小,如圖6 所示。研究結(jié)果表明,在網(wǎng)絡(luò)輿情的管控中,除了重點(diǎn)關(guān)注較大網(wǎng)絡(luò)社群中的意見領(lǐng)袖,還應(yīng)該關(guān)注一些小網(wǎng)絡(luò)社群中的意見領(lǐng)袖,其可能會(huì)是網(wǎng)絡(luò)輿情傳播過程中的潛在力量。同時(shí),疫情中典型輿情話題動(dòng)態(tài)的有效、及時(shí)傳播,不僅取決于話題空間下不同網(wǎng)絡(luò)社群間的傳播效率,也取決于在同一網(wǎng)絡(luò)社群內(nèi)進(jìn)行有效傳播。意見領(lǐng)袖所代表的網(wǎng)絡(luò)社群,其關(guān)注的主題傾向性趨同,在意見領(lǐng)袖的引導(dǎo)下,意見領(lǐng)袖與普通用戶之間更會(huì)產(chǎn)生頻繁的輿情交互,使得疫情動(dòng)態(tài)在社群內(nèi)部得到更為有效的傳播。因此,確定不同網(wǎng)絡(luò)社群間主題傳播的最優(yōu)路徑,識(shí)別網(wǎng)絡(luò)社群中的意見領(lǐng)袖,可以減少輿情在傳播過程中的信息失真。
本文結(jié)合表1 和圖3 分析結(jié)果可知,從微博用戶群體主題強(qiáng)度和高頻詞分布,可大致發(fā)現(xiàn)新冠肺炎疫情的 “日本鉆石公主號(hào)郵輪” 網(wǎng)絡(luò)輿情發(fā)展周期內(nèi),主要出現(xiàn)的輿情事件及衍生的次生輿情事件。此事件從2 月5 日日本政府宣布所有在船人員隔離14 天開始,于2 月19 日到達(dá)頂峰,是整個(gè)話題空間的入口。主題10 的微博用戶主要對(duì) “采取的隔離措施” 進(jìn)行討論,其中包括對(duì)在船隔離提出質(zhì)疑,并引發(fā)了對(duì)國內(nèi)方艙醫(yī)院的討論;主題8 的微博用戶主要關(guān)注 “在船人員感染人數(shù)的增加以及確診死亡病例” ;主題4 的微博用戶對(duì) “確診的第一例中國香港游客以及被隔離的郵輪” 發(fā)布恐慌的言論。隨著中國防疫專家提出假陰性以及病毒潛伏周期可能超過14 天,主題1 的微博用戶紛紛對(duì) “日本郵輪的隔離時(shí)間” 等提出了討論;主題0 的微博用戶表達(dá) “中國武漢和日本共同加油” 的信息;主題2 的微博用戶主要關(guān)注 “日本政府” 應(yīng)該借鑒中國政府在疫情期間的應(yīng)對(duì)措施,不要抄錯(cuò) “試卷” ;主題5 的微博用戶主要關(guān)注 “鉆石公主號(hào)有美國乘客確診感染” 的信息;主題3 的微博用戶對(duì) “在疫情期間東京奧運(yùn)會(huì)是否能如期舉辦” 表示擔(dān)憂;主題9 的微博用戶希望 “日本政府重視此次疫情減少不必要的恐慌” ;主題7 的微博用戶 “對(duì)船內(nèi)環(huán)境表示擔(dān)憂,并發(fā)現(xiàn)在船隔離人員并未佩戴口罩” ;主題6 的微博用戶主要關(guān)注 “郵輪中持續(xù)增加的確診人數(shù)” 。
結(jié)合 “日本鉆石公主號(hào)郵輪” 輿情話題的演進(jìn)周期,根據(jù)劃分的主題數(shù)及展現(xiàn)的高頻詞,不僅可以確定 “郵輪隔離” “確診病例增加” “美國乘客感染” “隔離結(jié)束” 等輿情子話題,還可以發(fā)現(xiàn) “武漢方艙” “東京奧運(yùn)會(huì)” “艙內(nèi)環(huán)境” “日本體制” 等潛在衍生話題,更可以通過網(wǎng)絡(luò)社群用戶群體主題的分析幫助輿情監(jiān)管部門準(zhǔn)確有效地識(shí)別微博用戶群體話題特征,確定重點(diǎn)輿情監(jiān)管對(duì)象。因此,在新冠肺炎疫情的輿情管控期間,不僅需要注意期間的主要輿情發(fā)展走向,更應(yīng)關(guān)注輿情衍生的潛在話題[29],并結(jié)合不同主題的網(wǎng)絡(luò)群體特征做到有針對(duì)性的監(jiān)管,從而幫助輿情監(jiān)管部門降低輿情監(jiān)管成本,實(shí)現(xiàn)有針對(duì)性的輿情引導(dǎo)。
隨著新冠肺炎疫情的發(fā)展,網(wǎng)絡(luò)用戶對(duì)于疫情相關(guān)信息的需求隨著時(shí)間的推移急速上升,并通過網(wǎng)絡(luò)輿情不同周期的演進(jìn)呈現(xiàn)出不同的主題特征。本文提出的基于LDA 模型的 “日本鉆石公主號(hào)郵輪” 輿情話題微博用戶主題聚類圖譜,不僅可以展示出網(wǎng)絡(luò)用戶對(duì)于疫情發(fā)展的客觀事實(shí)信息,也展示出網(wǎng)絡(luò)用戶的主觀評(píng)論與感受。由于部分主題能夠反映出話題事件中子話題甚至是衍生話題,因此確定各部分的主題社群意見領(lǐng)袖對(duì)于引導(dǎo)輿情走向和進(jìn)行疫情期間更為有效的輿情監(jiān)管具有重要作用。研究發(fā)現(xiàn),主題2 中的 “環(huán)球時(shí)報(bào)” 和主題4中的 “梨視頻” 等官方微博,主要關(guān)注政府措施和疫情通報(bào)等信息;主題8 中的 “小野妹子學(xué)吐槽” 自媒體微博主要關(guān)注 “日本鉆石公主號(hào)郵輪” 的確診人數(shù)等;主題10 中的 “忘不了人海中的朵兒” 普通網(wǎng)絡(luò)用戶,則主要關(guān)注公眾情緒等。
通過LDA 主題模型能夠識(shí)別出網(wǎng)絡(luò)輿情話題事件中的子話題與衍生話題中的意見領(lǐng)袖。因此,媒體和政府等機(jī)構(gòu)可以盡全力滿足這些意見領(lǐng)域的信息主題需求,讓意見領(lǐng)袖在最大程度上發(fā)揮與其在網(wǎng)絡(luò)主題社群中的正能量引導(dǎo)作用。同時(shí),在輿情爆發(fā)期與熱議期,媒體、政府以及相關(guān)輿情監(jiān)管部門可以通過適當(dāng)?shù)闹黝}選擇,向意見領(lǐng)袖推薦多樣化的主題信息,引入與新冠肺炎疫情話題信息同樣重要的其他話題,避免網(wǎng)絡(luò)用戶過于集中于一類疫情信息從而導(dǎo)致信息過載,造成信息倦怠并產(chǎn)生負(fù)面影響,引發(fā)次生輿情事件[30]。
本文結(jié)合表4 的數(shù)據(jù)分析結(jié)果與圖6 的主題傳播路徑分析發(fā)現(xiàn),主題10 中的意見領(lǐng)袖節(jié)點(diǎn) “七本青木1” 與主題8 中的意見領(lǐng)袖節(jié)點(diǎn) “小野妹子學(xué)吐槽” 間的主題相似度最高,JS 散度值為0.13;主題8 中的意見領(lǐng)袖節(jié)點(diǎn) “小野妹子學(xué)吐槽” 與主題4 中的意見領(lǐng)袖節(jié)點(diǎn) “彭拜新聞” 的主題相似度相對(duì)較高,JS 散度值為0.27;主題4 中的意見領(lǐng)袖節(jié)點(diǎn) “彭拜新聞” 與主題5 中的意見領(lǐng)袖節(jié)點(diǎn) “吃土的土豪13” 的主題相似度相對(duì)較高,JS 散度值為0.32。以此類推,本文可確定在 “日本鉆石公主號(hào)郵輪” 話題空間下疫情輿情從主題10 到主題6 的最優(yōu)傳播路徑。為保證推送信息在傳播路徑上的信息失真最小、信息傳播效率最高,在新冠肺炎輿情監(jiān)管中,本文通過確定不同社群間主題傳播的最優(yōu)路徑,并利用社交網(wǎng)絡(luò)的連通性,可進(jìn)行更為高效的網(wǎng)絡(luò)社群關(guān)鍵意見領(lǐng)袖的話題推送,從而更好地引導(dǎo)輿情未來走向。
在網(wǎng)絡(luò)輿情的實(shí)際監(jiān)管中,相關(guān)輿情監(jiān)管部門可以對(duì)微博輿情中關(guān)鍵意見領(lǐng)袖進(jìn)行及時(shí)的話題推送,從而更好地引導(dǎo)輿情的進(jìn)一步走向。確定網(wǎng)絡(luò)社群間主題傳播的最優(yōu)路徑,有助于提升推送話題的傳播速度。以 “導(dǎo)” 與 “控” 相結(jié)合的方式對(duì)新冠肺炎期間的網(wǎng)絡(luò)輿情進(jìn)行管控,讓意見領(lǐng)袖發(fā)揮更大的正能量和輿情疏導(dǎo)作用。針對(duì)某一突發(fā)事件的網(wǎng)絡(luò)社群所進(jìn)行的輿情監(jiān)管,其投入的監(jiān)管資源往往是十分有限的,如果對(duì)整個(gè)網(wǎng)絡(luò)社群進(jìn)行話題推送,則容易造成推送阻塞或推送風(fēng)暴。推送阻塞容易對(duì)網(wǎng)絡(luò)造成過大的負(fù)載壓力;推送風(fēng)暴則會(huì)降低用戶對(duì)推送內(nèi)容的信任度。同時(shí),這種無差別的話題推送沒有利用社交網(wǎng)絡(luò)的傳播性質(zhì),忽略了用戶之間的社群屬性。通過確定不同網(wǎng)絡(luò)社群間主題傳播的最優(yōu)路徑,可以為輿情管控提供一種可解釋性的推送流量入口分析,并降低推送阻塞與推送風(fēng)暴帶來的輿情管控風(fēng)險(xiǎn)。
在理論層面,本文構(gòu)建基于LDA 模型的 “日本鉆石公主號(hào)郵輪” 輿情話題微博用戶主題聚類圖譜,采用困惑度評(píng)價(jià)指標(biāo)確定LDA 模型最優(yōu)主題數(shù),為新冠肺炎疫情輿情話題下的微博用戶主題聚類圖譜的網(wǎng)絡(luò)社群用戶特征分析和不同社群下意見領(lǐng)袖、網(wǎng)絡(luò)社群間主題傳播路徑分析提供一定的理論和方法支撐。在實(shí)踐層面,本文結(jié)合新冠肺炎疫情期間 “日本鉆石公主號(hào)郵輪” 話題下微博用戶主題群體,進(jìn)行劃分及意見領(lǐng)袖的識(shí)別,并對(duì)該話題下的網(wǎng)絡(luò)社群間主題傳播路徑進(jìn)行分析。研究結(jié)果表明,基于LDA 模型的微博用戶主題聚類圖譜,不僅可以識(shí)別網(wǎng)絡(luò)用戶群體關(guān)注的重要主題,而且能夠準(zhǔn)確定位每個(gè)主題聚類下的意見領(lǐng)袖和關(guān)鍵主題的傳播路徑,為輿情監(jiān)管部門識(shí)別新冠肺炎疫情下不同微博用戶關(guān)注的主題特征,通過主題傳播路徑進(jìn)行關(guān)鍵意見領(lǐng)袖的主題推送,從而幫助輿情監(jiān)管部門更為有效的進(jìn)行輿情監(jiān)管和輿情引導(dǎo)。
另外,本文在研究中存在一定的局限性:本文僅結(jié)合 “日本鉆石公主號(hào)郵輪” 這一典型的輿情話題進(jìn)行分析,在后續(xù)的研究中,將進(jìn)一步擴(kuò)大新冠肺炎期間其他輿情話題的分析,進(jìn)行多話題下的對(duì)比研究,從而使本文構(gòu)建的微博用戶主題聚類特征及主題傳播路徑分析方法具有更好的普適性,對(duì)新冠肺炎期間的輿情起到更好的引導(dǎo)作用。