朱恒民 錢 莉 楊欣誼 魏 靜
(1.南京郵電大學(xué)管理學(xué)院 南京 210003;2.江蘇高校哲學(xué)社會科學(xué)重點(diǎn)研究基地—信息產(chǎn)業(yè)融合創(chuàng)新與應(yīng)急管理研究中心 南京 210003;3.南京大學(xué)信息管理學(xué)院 南京 210023)
隨著時間的推進(jìn)、網(wǎng)民的持續(xù)關(guān)注和熱烈討論,網(wǎng)絡(luò)輿情的態(tài)勢也是在不斷地變化著。與傳統(tǒng)媒體的“就事論事”不同,網(wǎng)絡(luò)傳播者泛化以及網(wǎng)絡(luò)本身具有的虛擬性、匿名性、發(fā)散性、滲透性和隨意性等特點(diǎn),使得網(wǎng)絡(luò)輿情在發(fā)展過程中可能朝任何一個方向發(fā)展,路徑不確定并經(jīng)常進(jìn)行轉(zhuǎn)換,這導(dǎo)致原有的輿情可以衍生出多個與之相關(guān)的話題,本文稱此過程為話題漂移[1]。由于漂移話題與原有輿情話題在內(nèi)容上產(chǎn)生了較大的偏移,如何有效地探測和跟蹤輿情發(fā)展過程中的漂移話題,是輿情演化分析的關(guān)鍵問題。
不同于話題演化中通過計算話題內(nèi)容的相似性來描述話題的演化路徑,話題漂移后的新話題與原話題的內(nèi)容相似度較低,因此話題漂移路徑的追蹤更具有挑戰(zhàn)性。本文以“新冠肺炎”疫情為例,基于LDA(Latent Dirichlet Allocation)模型抽取出疫情發(fā)展中的話題,并觀察特征詞在話題漂移過程中的微觀特征,進(jìn)而提出一種話題漂移路徑追蹤分析方法,以期細(xì)粒度地揭示輿情事件發(fā)展中話題之間的漂移過程。
話題漂移區(qū)別于話題演化,但話題漂移研究起源于話題演化研究。為了描述話題的演化路徑,一些學(xué)者提出了解決方法。Gao等提出了一種新的在線加權(quán)條件隨機(jī)場正則化相關(guān)話題模型(OCCTM),該模型利用語義相關(guān)性捕捉來自短文本的主要話題和相關(guān)子話題的演化路徑[2]。通過度量相鄰時間段間的主題相似性,陳翔等人揭示了主題間的演化關(guān)系,并進(jìn)一步識別出主題的演化路徑[3]。吳菲菲等人將文本挖掘中的主題模型與專利引文相結(jié)合,提出了一種利用語義相似度構(gòu)建的有向有權(quán)網(wǎng)絡(luò)來識別技術(shù)多主題演化路徑的方法[4]。范少萍等人設(shè)計了基于統(tǒng)計與語義相結(jié)合的關(guān)鍵關(guān)聯(lián)計算方法,進(jìn)而識別出主題在時間片上的演化路徑[5]。顯然,識別話題演化路徑研究的常見方法是通過度量相鄰時間片中的話題相似性。
關(guān)于話題漂移的研究,陳偉等在LDA與隱馬爾可夫鏈(HMM)相結(jié)合的基礎(chǔ)上,對船用柴油機(jī)技術(shù)領(lǐng)域的主題演化趨勢進(jìn)行了定量預(yù)測,分析了不同時期主題的轉(zhuǎn)移概率及演化規(guī)律,描繪了主題演化路徑并對該方法的準(zhǔn)確性和有效性進(jìn)行了驗(yàn)證[6]。關(guān)鵬等結(jié)合專家經(jīng)驗(yàn)進(jìn)行語義演化分析,以判斷相鄰階段哪些主題是新生的,哪些主題間產(chǎn)生了融合、分裂以及繼承等演化模式,并由此繪制主題演化圖譜[7]。不同于科技文獻(xiàn),網(wǎng)絡(luò)文本中的詞匯語義更為豐富復(fù)雜,這給網(wǎng)絡(luò)文本話題漂移研究中帶來了挑戰(zhàn),一些學(xué)者提出了一些思路。黃微等提出并構(gòu)建了網(wǎng)絡(luò)輿情衍進(jìn)指數(shù),用以描述網(wǎng)絡(luò)輿情演化過程中衍生出新話題的現(xiàn)象[8]。Li等人針對短文本語義稀疏問題,通過引入維基知識庫對模型語義進(jìn)行擴(kuò)展,結(jié)果表明改進(jìn)過的主題漂移檢測方法能夠更有效跟蹤短文本流中的主題漂移[9]。
特征詞在話題演化中的重要作用引起了學(xué)者的關(guān)注。例如,李慧等人將特征詞熱度加入到微博熱點(diǎn)話題模型演化模型中,可以發(fā)現(xiàn)微博熱點(diǎn)事件子話題的演化規(guī)律[10]。黃微等人結(jié)合詞權(quán)重分析話題漂移情況,提出網(wǎng)絡(luò)熱點(diǎn)事件話題漂移指數(shù)構(gòu)建過程,并繪制話題漂移指數(shù)變動曲線用以體現(xiàn)網(wǎng)絡(luò)熱點(diǎn)事件發(fā)生話題漂移的時間節(jié)點(diǎn)[11]。Yang等人指出特征詞呈現(xiàn)出長度短、信號弱、速度快等特點(diǎn),并在此基礎(chǔ)上提出了一種同時監(jiān)測作者寫作風(fēng)格的動態(tài)性和學(xué)習(xí)作者的興趣的主題漂移模型(TDM)[12]。
綜上所述,區(qū)別于話題演化中通過話題內(nèi)容相似性來構(gòu)建話題的演化路徑,話題漂移所產(chǎn)生的新話題往往呈現(xiàn)出與原話題內(nèi)容不同的特點(diǎn),因此話題演化路徑的分析方法并不適用于話題漂移研究。其次,特征詞在話題漂移中的作用引起了學(xué)者的關(guān)注,如何基于特征詞的微觀視角描繪話題漂移過程尚需要進(jìn)一步探索。
話題由一系列特征詞構(gòu)成,話題在漂移過程中首先表現(xiàn)為特征詞的變化。話題漂移過程中特征詞的變化特征是什么?能否從詞的視角來揭示話題漂移的微觀過程?針對上述問題,本文選取2020年初爆發(fā)的新型冠狀病毒疫情事件,以前期1月份的微博數(shù)據(jù)為研究對象,對疫情事件中話題的漂移過程進(jìn)行分析。
圖1 2020年1月“新冠”疫情話題熱度占比
以2020年1月份每一周為一個時間切片,基于LDA模型抽取出每個時間切片內(nèi)發(fā)布微博所覆蓋的話題,統(tǒng)計出隸屬具體話題的微博數(shù)量所占的比例,作為該話題的熱度,如圖1所示。從中可看出,一些話題的熱度隨著時間的推移發(fā)生著明顯的變化。例如,“病毒檢測”話題熱度逐漸降低,而“支援湖北行動”熱度逐漸增加。這是因?yàn)橐咔樽畛踉谖錆h大規(guī)模爆發(fā),檢測試劑供不應(yīng)求,引起網(wǎng)民廣泛關(guān)注。隨著時間的推移,人們普遍更加關(guān)注疫情防控期間醫(yī)療物資等問題,各地紛紛對湖北疫情伸出援助之手。話題熱度隨著時間的演進(jìn)出現(xiàn)起伏變化,說明話題之間可能發(fā)生了漂移。
基于上述話題熱度分析結(jié)果,本文選取“病毒檢測”和“支援湖北行動”兩個話題,對其特征詞進(jìn)行分析?;贚DA模型提取的話題可表示為一系列特征詞及其對話題的貢獻(xiàn)。將兩個話題中的特征詞分別用氣泡表示,氣泡的大小表示特征詞對話題的貢獻(xiàn),氣泡的顏色區(qū)分兩個不同的話題,如圖2所示。黑色表示“病毒檢測”話題,灰色表示“支援湖北行動”話題,中間區(qū)域?yàn)閮蓚€話題共有的特征詞。結(jié)果顯示,這兩個話題盡管內(nèi)容差異較大,但仍然包含一些相同的特征詞,且這些共有特征詞對不同話題的貢獻(xiàn)大小存在著差異。
圖2 特征詞對話題貢獻(xiàn)對比
不同話題包含多個共同特征詞。如果我們定義特征詞隸屬到各話題的詞頻作為該特征詞的熱度(計算方法詳見3.3節(jié)),則可以觀察話題漂移過程中共有特征詞在不同話題上熱度隨時間的變化差異。本文對比分析了話題“病毒檢測”和“支援武漢行動”中共有特征詞的熱度變化,并繪制折線圖,如圖3所示。結(jié)果顯示,共有特征詞在話題“病毒檢測”上的熱度隨著時間逐漸減小,在話題“支援湖北行動”上的熱度逐漸增大。結(jié)合前面的分析可知,話題“病毒檢測”向話題“支援湖北行動”漂移。
圖3 共有特征詞在不同話題上的熱度變化對比
綜上所述,話題熱度變化是話題漂移的指征之一;發(fā)生漂移的兩個話題之間包含了一些相同特征詞,但同一特征詞對不同話題的貢獻(xiàn)存在著差異;在話題發(fā)生漂移的過程中,共有特征詞在不同話題上的熱度呈現(xiàn)出不同的變化趨勢。因此,以話題中的特征詞為視角,可以描述出話題漂移的微觀過程。
本文話題漂移的研究方法框架如圖4所示,包括特征詞提取和篩選、基于LDA的話題識別和話題漂移路徑識別及可視化三部分。
圖4 話題漂移路徑研究方法框架
話題中的特征詞,是指用戶生成內(nèi)容中能夠反映主題內(nèi)容、具有明確語義的詞匯。由于互聯(lián)網(wǎng)的開放性,普通用戶在發(fā)表自己觀點(diǎn)時用詞較為口語化,也存在表情符號、圖片以及網(wǎng)絡(luò)用語等不規(guī)范形式。為了提取網(wǎng)絡(luò)文本中的話題特征詞,本文首先采用結(jié)巴工具分詞,根據(jù)詞性對特征詞進(jìn)行篩選,將其限定為名詞、名動詞、名形詞、人名、地名、機(jī)構(gòu)團(tuán)體和專用名詞等承載較多語義的詞匯,去除代詞、擬聲詞、副詞等詞性以及各種網(wǎng)絡(luò)用語及符號。在詞性篩選的基礎(chǔ)上,采用TF-IDF進(jìn)一步提升特征詞篩選質(zhì)量,其能夠在無需人工參與的情況下兼顧詞頻和重要性,過濾掉一些常見詞,保留能提供更多信息的重要詞[13]。
目前研究者進(jìn)行話題識別和演化分析,需要劃分時間片以明確話題演化的時間維度。本文采用按照固定時間片的方法,對不同時間片中的文檔信息分別運(yùn)行LDA模型,得到不同時間片內(nèi)覆蓋的話題及其包含的特征詞。
LDA話題模型發(fā)揮降維作用的關(guān)鍵在于對文本潛在話題數(shù)量的準(zhǔn)確設(shè)定,但 LDA 方法自身并不能生成最佳的話題數(shù)量。Blei提出使用困惑度(Perplexity)作為確定話題數(shù)量的標(biāo)準(zhǔn),但容易導(dǎo)致話題間相似度過大[14]。Teh等提出層次狄利克雷過程(Hierarchical Dirichlet Processes),其使用非參數(shù)模型自動訓(xùn)練得到話題數(shù),但該方法運(yùn)算效率較低,針對大規(guī)模文本分析時很難保證迭代精度[15]??紤]到模型的泛化能力以及話題抽取效果,本文采用話題Coherence數(shù)值指標(biāo)計算各時間片中最佳話題數(shù),在Coherence值趨于穩(wěn)定時,相應(yīng)的話題數(shù)量最優(yōu)[16]。
互聯(lián)網(wǎng)輿情所具有的衍生性和動態(tài)性,使輿情呈現(xiàn)出復(fù)雜的演化特征。話題漂移過程中衍生出的新話題與原話題在內(nèi)容上具有較大偏差,這種情況下追蹤話題間的漂移路徑是具有挑戰(zhàn)性的。從本文第二節(jié)分析結(jié)果可知,可以從特征詞角度描述話題漂移過程。
首先,本文定義了共有特征詞在話題下的熱度。基于LDA模型構(gòu)建話題-特征詞矩陣與文檔-話題矩陣,即話題由一系列特征詞所構(gòu)成,而文檔是隸屬到不同話題下的。特征詞的熱度可通過在文檔中出現(xiàn)的詞頻來度量。令話題ti和tj中共有的特征詞集合為SV={sv1,sv2,…,svn},n表示兩個話題中共有特征詞的數(shù)量。特征詞svl在話題ti下的熱度可定義為:
(1)
其中,freq(svl,dock)表示共有特征詞svl在文檔dock中出現(xiàn)的詞頻,weight(dock,ti)表示文檔dock隸屬到話題ti的權(quán)重,m表示文檔集大小,即文檔的數(shù)量。
其次,本文定義了話題之間的漂移概率。給定兩個話題ti和tj,并假設(shè)前者出現(xiàn)的時間早于后者,則話題ti向話題tj漂移的概率可定義為:
(2)
實(shí)證數(shù)據(jù)來源于新浪微博。首先設(shè)置關(guān)鍵詞(“新冠”“肺炎”和“疫情”)和時間段等檢索條件,然后通過編寫網(wǎng)絡(luò)爬蟲程序?qū)崿F(xiàn)自動化批量采集。數(shù)據(jù)集包含300 034條微博,時間跨度為2019年12月31日至2020年4月24 日。
對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行預(yù)處理:對每一條微博利用正則表達(dá)式去除非文字符號;采用百度停用詞表和哈爾濱工業(yè)大學(xué)停用詞表去除文本中部分代詞和語氣助詞等;利用結(jié)巴分詞工具分詞,定義需要保留的詞性為:名形詞、名詞、人名、地名、機(jī)構(gòu)團(tuán)體、專用名詞和名動詞;去除單字;保留TF-IDF值排名前80%的詞;對于檢索關(guān)鍵詞,我們予以去除,因?yàn)椤靶鹿凇薄胺窝住薄耙咔椤贝祟惛哳l關(guān)鍵詞幾乎在每篇微博中都出現(xiàn),不利于區(qū)分話題。
實(shí)驗(yàn)將數(shù)據(jù)集劃分為4個時間片,每個時間片為4周。采用Coherence指標(biāo)確定各時間片的最優(yōu)話題數(shù)量,利用Python中的LDA庫計算得到話題信息,導(dǎo)出每個話題的特征詞。這些話題之間邊界清晰,劃分效果較為理想。本文對話題進(jìn)行了編號和命名,根據(jù)每個話題下的前20個特征詞的語義基本可以歸納出該話題的內(nèi)容,如表1所示。由于篇幅的限制,這里僅列出每個話題的前8個特征詞。
表1 話題特征詞及命名
話題間的漂移關(guān)系描述了從一個話題衍生出另一個話題的可能性,它反映了疫情事件發(fā)展過程中相關(guān)話題的來龍去脈。根據(jù)公式(2)計算相鄰時間片下話題之間的漂移概率,結(jié)果如表2所示。將概率值高于0.5的話題判定為話題之間具有漂移關(guān)系,多個時間切片之間的漂移關(guān)系形成了話題漂移路徑,如圖5所示,其中,連邊粗細(xì)表示話題之間的漂移概率。
表2 話題間的漂移概率(部分)
圖5 疫情事件中話題漂移路徑圖
從研究結(jié)果可以看出,新冠疫情期間,微博上網(wǎng)民議題的變化反映了疫情事件的發(fā)展過程。從新冠病毒初顯端倪、專家組展開病毒調(diào)查,到疫情爆發(fā),各界開展全面抗疫,再到國內(nèi)疫情逐漸得到控制,而國際疫情局勢卻愈發(fā)嚴(yán)峻,我國的防控重點(diǎn)也逐漸從國內(nèi)疫情防控轉(zhuǎn)變?yōu)榫惩庖咔檩斎敕揽睾蛯H疫情的醫(yī)療援助。圖5中疫情話題的漂移路徑描繪出話題之間的來龍去脈,便于我們更好地掌握疫情事件的整個發(fā)展過程。具體分析如下:
P1至P2時間段處于疫情的初期,“疫情防控”以及“支援湖北行動”向“抗擊疫情”漂移。其原因是武漢出現(xiàn)了不明原因的感染者,人們對疫情的預(yù)防和疫情發(fā)展都給予了更多的關(guān)注,但隨著大量感染者的持續(xù)增加,各界為抗擊疫情做準(zhǔn)備,比如國家相關(guān)政策的出臺,社會各界的有效配合,以及各大醫(yī)療隊(duì)的馳援。此外,多個話題均向“病例監(jiān)測”漂移,在此期間,由于疫情發(fā)展迅速,人們更多關(guān)心病例病況、活動軌跡、年齡以及居住地等信息等。這是由于面對重大突發(fā)性公共事件,恐慌情緒在全社會迅速蔓延,公眾需要獲取更多的病例信息來滿足安全需求。
P2至P3時間段中,疫情逐步擴(kuò)展到全世界,因此人們的關(guān)注點(diǎn)擴(kuò)大到“全球疫情”的討論。其中“疫情防控”以及“抗擊疫情”均向“全球疫情”漂移,國內(nèi)出現(xiàn)了多例境外輸入病例,接著其他地區(qū)如英美等國紛紛發(fā)現(xiàn)了感染者,人們逐漸開始關(guān)注國外的疫情。此外,“抗擊疫情”和“病例監(jiān)測”向話題“疫情影響”漂移,這是由于隨著社會各界的有效舉措和人們的積極配合,疫情在國內(nèi)的發(fā)展得到及時控制,人們的生活也逐漸恢復(fù),整體經(jīng)濟(jì)也呈現(xiàn)復(fù)蘇趨勢。
P3至P4時間段中,“病例監(jiān)測”“抗擊疫情”向“法律法規(guī)”漂移。這一時期,在全球疫情蔓延階段,境外輸入病例超過本土確診病例,移民管理局發(fā)布在華外國人應(yīng)知法律法規(guī),對于隱瞞出境史或者入境不如實(shí)申報健康狀況將追求刑責(zé)。另外,中國各地開展抗擊疫情應(yīng)急攻關(guān),全國各級財政已下達(dá)疫情補(bǔ)助資金,對紅十字會有關(guān)領(lǐng)導(dǎo)和干部在抗擊疫情期間接收和分配捐贈款物工作中存在的失職問題進(jìn)行了嚴(yán)肅調(diào)查。此外,“病例監(jiān)測”以及“疫情影響”向“支援行動”漂移,國內(nèi)疫情整體出現(xiàn)衰退跡象,我國轉(zhuǎn)向國際疫情的援助。
正如文獻(xiàn)綜述中所指出的,話題演化中專門檢測話題漂移的已有工作非常少,話題演化路徑或演化圖譜分析的工作相對較多,且目前常見方法是通過度量相鄰時間片中話題之間的相似性來描繪話題演化路徑或演化圖譜??紤]到話題演化路徑可以在一定程度上反映話題在時序上的漂移狀態(tài),因此本文將話題演化路徑分析作為基線(Baseline)方法,同本文提出的話題漂移路徑方法進(jìn)行對比實(shí)驗(yàn)。
在話題演化路徑中,相鄰時間片內(nèi)話題之間相似性一般采用兩個話題分別對應(yīng)的詞向量之間的余弦相似度來度量[4,7],其值介于0到1之間,值越大說明話題之間的語義越接近。本實(shí)驗(yàn)中采用每個詞對話題的貢獻(xiàn)度構(gòu)成話題的詞向量。為了清晰地呈現(xiàn)話題之間的演化路徑,實(shí)驗(yàn)選取相似度閾值為0.4,即過濾掉相鄰時間片內(nèi)話題相似度較低的演化關(guān)系,得到話題演化路徑圖,如圖6所示。
圖6 基于相似性計算的話題演化路徑圖
從圖6中可以看出,話題演化路徑可以發(fā)現(xiàn)一些話題之間的漂移關(guān)系。例如, P1至P2時間片中“疫情防控”向“抗擊疫情”漂移、P2至P3時間片中“抗擊疫情”向“全球疫情”漂移以及P3至P4時間片中“疫情影響”向“法律法規(guī)”漂移等,這些話題之間的漂移關(guān)系在圖5中同樣被呈現(xiàn)出來。但是,基線方法檢測出的演化關(guān)系反映了前后話題之間語義上的一致性,如P2至P3時間片的“病例監(jiān)測”以及P1至P4時間片的“疫情防控”等。需要說明的是,圖6中有名稱相同的話題之間沒有演化關(guān)系,因?yàn)榍昂笤掝}之間的內(nèi)涵發(fā)生了變化。例如,P3 中的“疫情影響”主要指國內(nèi)復(fù)工復(fù)產(chǎn),而P4中的“疫情影響”則出現(xiàn)了更多關(guān)于疫情對國際形勢影響的微博,在語義上兩者的相似度不高,因此未被識別出來。
由此可見,當(dāng)相鄰時間片內(nèi)兩個發(fā)生漂移的話題在語義上具有一定的相似度時,基線方法可以識別出這類話題間的漂移關(guān)系。但是,當(dāng)發(fā)生漂移的兩話題語義跨度較大時,如P2時間片中的“抗擊疫情”和P3中的“疫情影響”,以及P3時間片中的“病例監(jiān)測”和P4中的“法律法規(guī)”漂移等,本文提出的漂移路徑方法則可以檢測出這類話題之間的漂移,而基線方法則不可以。由于相當(dāng)一部分漂移話題與原有輿情話題在內(nèi)容上產(chǎn)生了較大的偏移,甚至是衍生出了新話題,因此,本文提出的方法在話題漂移路徑追蹤中更具有優(yōu)勢。
區(qū)別于話題演化中通過話題內(nèi)容相似性來構(gòu)建話題的演化路徑,話題漂移所產(chǎn)生的新話題往往呈現(xiàn)出與原話題內(nèi)容不同的特點(diǎn)。本文通過觀察特征詞在漂移過程中的微觀特征,進(jìn)而提出一種話題漂移路徑分析方法。對輿情事件“新冠肺炎”進(jìn)行實(shí)證分析,通過LDA話題模型對各時間片文檔信息進(jìn)行話題抽取,結(jié)合詞熱度計算話題漂移概率,進(jìn)而描繪出話題之間的來龍去脈,更好地幫助我們掌握疫情事件發(fā)展的整個過程,也為輿情話題的監(jiān)控和預(yù)警提供了新的思路。對比實(shí)驗(yàn)驗(yàn)證了方法的有效性。
此外,從詞的視角研究話題漂移也為新話題預(yù)測提供了新的思路。因?yàn)椋?dāng)一個新的話題出現(xiàn)時,特征詞首先發(fā)生變化,未來我們將探索這個方向。