葉 瀚 胡凱茜 李 欣 孫海春
(中國(guó)人民公安大學(xué)信息網(wǎng)絡(luò)安全學(xué)院 北京 102623)
隨著微博、百度貼吧等互聯(lián)網(wǎng)社交平臺(tái)的快速發(fā)展與移動(dòng)終端的廣泛普及,在公開(kāi)互聯(lián)網(wǎng)平臺(tái)中滋生的網(wǎng)絡(luò)暴力輿情發(fā)生地愈發(fā)頻繁。為此,及時(shí)預(yù)警網(wǎng)絡(luò)暴力輿情對(duì)于防止進(jìn)一步的傷害并確保輿情可控至關(guān)重要。
但網(wǎng)絡(luò)暴力輿情預(yù)警也面臨諸多挑戰(zhàn)。其關(guān)鍵挑戰(zhàn)之一是所需分析的目標(biāo)數(shù)據(jù)量龐大。以主流社交媒體為例,每分鐘都有數(shù)以百萬(wàn)計(jì)的帖子、評(píng)論和消息產(chǎn)生,導(dǎo)致很難實(shí)時(shí)識(shí)別潛在的網(wǎng)絡(luò)暴力內(nèi)容。許多研究使用動(dòng)力學(xué)模型來(lái)模擬和預(yù)測(cè)特定話題的輿論演化趨勢(shì)。然而,這些模型的構(gòu)建需要大量的先驗(yàn)知識(shí)或?qū)<抑R(shí)。另一個(gè)挑戰(zhàn)是網(wǎng)絡(luò)輿情內(nèi)容本身的高度復(fù)雜性和變化性。俚語(yǔ)、諷刺、反語(yǔ)等表達(dá)方法的使用,為模型正確識(shí)別網(wǎng)絡(luò)暴力內(nèi)容增加了極大的難度,為預(yù)測(cè)輿情整體趨勢(shì)增大了難度。此外,網(wǎng)絡(luò)暴力內(nèi)容往往以極快的速度發(fā)展和變化。許多有監(jiān)督模型可能會(huì)受到訓(xùn)練時(shí)所必需的人工標(biāo)注數(shù)據(jù)的生產(chǎn)效率的制約,導(dǎo)致識(shí)別精度下降。
受到軟件開(kāi)發(fā)與自然語(yǔ)言處理中語(yǔ)義不一致性(Semantic Inconsistency,SI)概念的啟發(fā)[1-3],本文提出了基于語(yǔ)義不一致性的網(wǎng)絡(luò)暴力輿情預(yù)警方法,其原理是敏感地監(jiān)測(cè)當(dāng)前內(nèi)容相對(duì)于歷史內(nèi)容的細(xì)微變化,從而實(shí)現(xiàn)預(yù)警。該方法能夠盡可能同時(shí)減少對(duì)于先驗(yàn)知識(shí)的依賴(lài)、不需要全量完整數(shù)據(jù)、不依賴(lài)人工數(shù)據(jù)標(biāo)注的方法來(lái)預(yù)警與網(wǎng)絡(luò)暴力相關(guān)的潛在事件的爆發(fā)。
隨著互聯(lián)網(wǎng)的迅速發(fā)展,社交媒體平臺(tái)成為人們溝通日常、分享信息、表達(dá)觀點(diǎn)的重要渠道。然而,網(wǎng)絡(luò)暴力、極端主義、網(wǎng)絡(luò)色情等有害內(nèi)容的泛濫已經(jīng)成為網(wǎng)絡(luò)空間內(nèi)的嚴(yán)重問(wèn)題。這些內(nèi)容不僅會(huì)損害個(gè)人心理健康,甚至有可能對(duì)社會(huì)穩(wěn)定和國(guó)家安全造成威脅。
近年來(lái),研究人員運(yùn)用了多種機(jī)器學(xué)習(xí)技術(shù)來(lái)檢測(cè)和過(guò)濾網(wǎng)絡(luò)暴力等有害內(nèi)容[4-7]。例如,Pawar等人的研究表明[8],在檢測(cè)社交媒體中的網(wǎng)絡(luò)暴力內(nèi)容方面,支持向量機(jī)(Support Vector Machines,SVMs)等有監(jiān)督的機(jī)器學(xué)習(xí)算法能夠取得較高的準(zhǔn)確率。Ghosal和Jain使用無(wú)監(jiān)督方法識(shí)別大規(guī)模數(shù)據(jù)集中的有害內(nèi)容[9]。Mozafari等人研究使用預(yù)訓(xùn)練語(yǔ)言模型來(lái)檢測(cè)和分類(lèi)社交媒體上的網(wǎng)絡(luò)暴力言論[10]。雖然以上研究在探測(cè)網(wǎng)絡(luò)暴力內(nèi)容中取得了較好的效果,但缺乏對(duì)于網(wǎng)絡(luò)暴力輿情的預(yù)警預(yù)測(cè)能力。
在實(shí)現(xiàn)網(wǎng)絡(luò)暴力輿情的監(jiān)測(cè)預(yù)警方面已有多種不同角度的方案研究。研究人員開(kāi)發(fā)了監(jiān)測(cè)系統(tǒng)以監(jiān)測(cè)Twitter中仇恨言論的演變[11]。此外,Lingiardi等人根據(jù)社交媒體內(nèi)容和評(píng)論來(lái)實(shí)時(shí)監(jiān)測(cè)少數(shù)群體可能的異常行為[12]。另一些研究通過(guò)融合各種數(shù)據(jù)源或數(shù)據(jù)特征來(lái)預(yù)測(cè)網(wǎng)絡(luò)暴力輿情發(fā)生的可能性。Pratama等人提出利用社交網(wǎng)絡(luò)分析方法來(lái)預(yù)測(cè)網(wǎng)絡(luò)暴力輿情發(fā)生可能性[13]。類(lèi)似地,Atoum設(shè)計(jì)了基于文本情感特征的方法來(lái)識(shí)別和預(yù)測(cè)可能參與網(wǎng)絡(luò)暴力的個(gè)體[14]。
雖然這些研究在檢測(cè)和預(yù)防網(wǎng)絡(luò)暴力輿情方面取得了重大進(jìn)展,但仍然缺乏能夠在網(wǎng)絡(luò)暴力內(nèi)容大規(guī)模出現(xiàn)、造成嚴(yán)重網(wǎng)絡(luò)輿情發(fā)生之前進(jìn)行精確預(yù)警的技術(shù)方法,需要更高效、通用、簡(jiǎn)潔的方法以識(shí)別和預(yù)警網(wǎng)絡(luò)暴力等有害內(nèi)容所造成的網(wǎng)絡(luò)輿情。
網(wǎng)絡(luò)暴力輿情的產(chǎn)生與發(fā)展極為迅速且高度不確定,往往會(huì)引發(fā)意料之外的輿情危機(jī)。通過(guò)預(yù)測(cè)網(wǎng)絡(luò)輿情趨勢(shì)可以更好地應(yīng)對(duì)潛在危機(jī)。近年來(lái)已有許多方法可以對(duì)輿情進(jìn)行精確模擬[15-17],并且能夠預(yù)測(cè)互聯(lián)網(wǎng)上特定主題的輿情趨勢(shì)。
在早期的預(yù)測(cè)網(wǎng)絡(luò)輿情趨勢(shì)的研究中,研究人員通過(guò)輿情趨勢(shì)預(yù)測(cè)現(xiàn)實(shí)活動(dòng)。Tumasjan等人運(yùn)用情感分析技術(shù)識(shí)別推文中蘊(yùn)含的情感,然后基于Twitter數(shù)據(jù)探測(cè)選民的政治傾向,從而預(yù)測(cè)2009年德國(guó)聯(lián)邦大選結(jié)果[18]。另外,Rizk等人結(jié)合情感分析技術(shù)[19-21]和機(jī)器學(xué)習(xí)技術(shù),從基于地理位置的Twitter推文中預(yù)測(cè)2020年美國(guó)總統(tǒng)大選的結(jié)果[22]。
另一種預(yù)測(cè)輿情趨勢(shì)的方法是在大規(guī)模的文本數(shù)據(jù)中使用主題建模技術(shù)識(shí)別潛在的主題以預(yù)測(cè)輿情[23]。Wang等人提出了基于主題建模技術(shù)的社交媒體輿情檢測(cè)方法[24]。Zhang等人將主題建模技術(shù)應(yīng)用于大型微博語(yǔ)料庫(kù)中[25],分析了COVID-19疫情發(fā)展期間的輿情演化。
目前,基于深度學(xué)習(xí)的方法已經(jīng)廣泛應(yīng)用于網(wǎng)絡(luò)輿情趨勢(shì)的預(yù)測(cè)中。例如,Ali等人在Twitter等社交媒體平臺(tái)的基礎(chǔ)上[26],設(shè)計(jì)了用于預(yù)測(cè)巴基斯坦大選結(jié)果的深度學(xué)習(xí)模型。Qian等人利用深度神經(jīng)網(wǎng)絡(luò)GloVe分析推文數(shù)據(jù)[27],以研究NFT交易量與Twitter相應(yīng)主題的每日活躍度之間的相關(guān)性。
此外,研究人員還使用時(shí)間序列分析來(lái)預(yù)測(cè)網(wǎng)絡(luò)輿情趨勢(shì)。例如,Su等人提出基于ARIMA模型和改進(jìn)的季節(jié)性灰色分解的集成模型[28],應(yīng)用于“杭州林生斌事件”和“唐山打人案”這兩個(gè)事件的輿論熱度預(yù)測(cè)中,相較于與其他方法相比取得了較高的準(zhǔn)確率。
綜上所述,近年來(lái)研究人員已經(jīng)應(yīng)用情感分析、主題建模、深度學(xué)習(xí)和時(shí)間序列分析等多種方法以預(yù)測(cè)網(wǎng)絡(luò)輿情趨勢(shì)。這些方法達(dá)到了較好的效果,在實(shí)際應(yīng)用中具有很大的潛力。而本文在上述研究基礎(chǔ)之上,提出了一種專(zhuān)注于建模和監(jiān)測(cè)語(yǔ)義不一致性的方法,以期實(shí)現(xiàn)網(wǎng)絡(luò)暴力輿情的預(yù)警。
為設(shè)計(jì)現(xiàn)實(shí)條件下具備實(shí)踐意義的預(yù)警模型,本文首先基于現(xiàn)實(shí)需求分析網(wǎng)絡(luò)暴力輿情預(yù)警模型理應(yīng)具備的基本特征。
a.低先驗(yàn)知識(shí)。很多預(yù)警模型在進(jìn)行仿真實(shí)驗(yàn)時(shí)定向收集了特定關(guān)鍵詞的數(shù)據(jù),然而這在真實(shí)條件下是難以滿(mǎn)足的。因此,為了提升網(wǎng)絡(luò)暴力預(yù)警模型的現(xiàn)實(shí)可用性,本文所設(shè)計(jì)預(yù)警模型應(yīng)當(dāng)盡量減少對(duì)于事件關(guān)鍵詞的依賴(lài)。因?yàn)榫W(wǎng)絡(luò)暴力內(nèi)容的主題是多樣的、變化迅速的。
b.及時(shí)性。預(yù)警模型發(fā)出網(wǎng)絡(luò)暴力輿情預(yù)警時(shí),該事件應(yīng)當(dāng)仍然處于萌芽期或發(fā)展期。如果發(fā)出預(yù)警時(shí)事件熱度已經(jīng)處于頂峰,此時(shí)再發(fā)出預(yù)警將不具備現(xiàn)實(shí)意義。因此,理想的預(yù)警模型應(yīng)當(dāng)在網(wǎng)絡(luò)暴力輿情討論熱度達(dá)到頂峰前的合理時(shí)間發(fā)出預(yù)警信號(hào)。
c.數(shù)據(jù)可行性。真實(shí)環(huán)境下的數(shù)據(jù)量過(guò)于龐大,難以全量獲取數(shù)據(jù),無(wú)法實(shí)現(xiàn)實(shí)時(shí)的內(nèi)容分析。理想且可行的模式是通過(guò)采樣的方式抽取部分特定內(nèi)容以實(shí)現(xiàn)有效預(yù)警,而不必需要對(duì)目標(biāo)網(wǎng)站的所有內(nèi)容進(jìn)行分析。
綜上所述,本文認(rèn)為現(xiàn)實(shí)需要的預(yù)警模型應(yīng)當(dāng)至少滿(mǎn)足以下三個(gè)基本條件:①不需要與事件直接相關(guān)的特定關(guān)鍵詞;②應(yīng)當(dāng)在事件討論熱度到達(dá)頂峰前的合理范圍內(nèi)進(jìn)行預(yù)警;③不需要全量獲取目標(biāo)站點(diǎn)或平臺(tái)的所有數(shù)據(jù)。
為了在上述條件下成功實(shí)現(xiàn)預(yù)警,需要考慮一個(gè)基本的事實(shí):對(duì)于任意一個(gè)關(guān)鍵詞,如果無(wú)人使用該詞語(yǔ)在互聯(lián)網(wǎng)中發(fā)表新的內(nèi)容,那么不論何時(shí)搜索包含該關(guān)鍵詞的內(nèi)容,搜索結(jié)果的“內(nèi)容成分”應(yīng)當(dāng)是保持相對(duì)不變的。相反,如果網(wǎng)絡(luò)中即將出現(xiàn)某件極高討論度的事件,那么將會(huì)出現(xiàn)大量相同主題的評(píng)論、轉(zhuǎn)發(fā)內(nèi)容和原創(chuàng)帖子。
考慮到上述事實(shí),便可以著手考慮如何監(jiān)測(cè)網(wǎng)絡(luò)暴力輿情的發(fā)生。由上述分析可知,高熱度的突發(fā)事件在發(fā)展過(guò)程中,必然存在一個(gè)用戶(hù)討論陡然激增的時(shí)期。在這一時(shí)期中,將會(huì)有大量文本內(nèi)容集中于同一主題。因此,如果預(yù)警模型能夠靈敏地捕捉到某個(gè)主題內(nèi)容的快速激增,便可以實(shí)現(xiàn)網(wǎng)絡(luò)暴力輿情的預(yù)警。
但問(wèn)題在于,預(yù)警模型并不了解即將發(fā)生的網(wǎng)絡(luò)暴力輿情的直接相關(guān)關(guān)鍵詞。如果想要捕捉到有關(guān)某一個(gè)網(wǎng)絡(luò)暴力輿情主題內(nèi)容的快速激增,就只能實(shí)時(shí)監(jiān)測(cè)目標(biāo)平臺(tái)的所有數(shù)據(jù)。這顯然與2.1節(jié)提到的限制條件相悖。
為解決這一問(wèn)題,本文考慮了網(wǎng)絡(luò)暴力內(nèi)容監(jiān)測(cè)的特殊性。雖然每一起事件的直接相關(guān)關(guān)鍵詞并不相同,但是網(wǎng)絡(luò)暴力言語(yǔ)中的侮辱性詞匯一般相對(duì)固定。這是因?yàn)槿藗兿蚰骋粚?duì)象施加言語(yǔ)暴力時(shí)所使用的核心詞匯并不會(huì)發(fā)生劇烈變化。
因此,利用上述假設(shè)提出以下預(yù)警監(jiān)測(cè)方法:首先,收集網(wǎng)絡(luò)暴力言語(yǔ)中常用的侮辱性詞匯。這些詞語(yǔ)往往相對(duì)固定,且在一系列網(wǎng)絡(luò)暴力輿情中都被反復(fù)利用。然后,收集過(guò)去一段時(shí)間內(nèi)包含侮辱性詞匯的內(nèi)容,并分析其語(yǔ)義。同時(shí)收集給定的歷史時(shí)間段內(nèi)包含這些詞匯的內(nèi)容。最后,比較過(guò)去一段時(shí)間和給定歷史時(shí)期內(nèi)的語(yǔ)義是否一致,如果存在較大變化,即可判定網(wǎng)絡(luò)暴力輿情發(fā)生的可能性。
總的來(lái)說(shuō),如果能不斷地監(jiān)測(cè)和比對(duì)本時(shí)段和先前時(shí)段涉及特定關(guān)鍵詞的內(nèi)容的整體內(nèi)容相異性,就可以對(duì)即將發(fā)生的高討論度、高熱度事件作出預(yù)報(bào)。本文模型的主要思路見(jiàn)圖1,該圖闡述了應(yīng)用該思路的預(yù)警模型的主要框架。
圖1 本文所提方法的框架
如圖1所示,本文將整個(gè)過(guò)程劃分為三個(gè)不同階段:數(shù)據(jù)采樣和主題建模、計(jì)算語(yǔ)義不一致性、語(yǔ)義不一致性指數(shù)監(jiān)測(cè)。
a.數(shù)據(jù)采樣和主題建模。該階段需要從實(shí)時(shí)數(shù)據(jù)源中獲取最近一個(gè)時(shí)段和過(guò)去一個(gè)時(shí)段中有關(guān)特定核心詞匯的文本內(nèi)容。然后利用主題建模技術(shù)對(duì)兩個(gè)不同時(shí)段的內(nèi)容進(jìn)行分析,獲取兩個(gè)時(shí)段內(nèi)的主題內(nèi)容;
b.語(yǔ)義不一致性建模。該階段將根據(jù)兩個(gè)時(shí)段的主題內(nèi)容計(jì)算語(yǔ)義的不一致性(SI)。SI越大,意味著兩組不同時(shí)段的語(yǔ)義之間的差異性越大;
c.SI值監(jiān)測(cè)。該階段需要對(duì)SI時(shí)間序列進(jìn)行監(jiān)測(cè),一旦出現(xiàn)異常值則會(huì)觸發(fā)預(yù)警。
上述框架的實(shí)現(xiàn)存在以下幾個(gè)難點(diǎn):采用何種策略和方法進(jìn)行實(shí)時(shí)數(shù)據(jù)的采樣?采用何種主題建模技術(shù)?如何計(jì)算兩組內(nèi)容之間的語(yǔ)義不一致性?如何確認(rèn)SI時(shí)間序列中的異常值的出現(xiàn)并據(jù)此發(fā)布預(yù)警?
如圖2所示,對(duì)實(shí)時(shí)數(shù)據(jù)源采用的采樣策略可以描述如下:模型需要對(duì)時(shí)間窗口A和時(shí)間窗口B的文本內(nèi)容同時(shí)進(jìn)行主題建模,分別以CA和CB表示。如式1所示,時(shí)間窗口A僅包含基礎(chǔ)窗口(CBasic)中的文本,即過(guò)去一段時(shí)間的文本。如式2所示,時(shí)間窗口B同時(shí)包含了基礎(chǔ)窗口和增量窗口(CIncre)中的文本。增量窗口中的文本是指發(fā)布時(shí)間距離當(dāng)前時(shí)間最近的一部分文本內(nèi)容。所有被采樣的數(shù)據(jù)都必然包含與網(wǎng)絡(luò)暴力直接相關(guān)的核心詞匯。這些核心詞匯被事先指定,因此采樣時(shí)不需要獲取平臺(tái)中的所有數(shù)據(jù)。
圖2 采樣策略
CA=CBasic
(1)
CB=CBasic+CIncre
(2)
進(jìn)一步來(lái)講,在采樣窗口B中同時(shí)獲取基礎(chǔ)窗口和增量窗口的數(shù)據(jù),是因?yàn)槿绻麅H采用增量窗口將會(huì)使得預(yù)警模型過(guò)于敏感?,F(xiàn)有的采樣策略能夠很好的凸顯出增量窗口與基礎(chǔ)窗口之間的內(nèi)容變化程度。
LDA(Latent Dirichlet Allocation)是一種用于主題建模等領(lǐng)域的文檔主題生成模型[29-30]。LDA模型在處理文本數(shù)據(jù)時(shí),其輸出作為輸入文本的摘要,經(jīng)常被用于各種領(lǐng)域。其輸出可描述為:描述主題zn的一組詞語(yǔ)Wz(以主題詞命名)和屬于主題zn的Wz中每個(gè)詞wi的權(quán)重。
根據(jù)上述描述,LDA模型可以發(fā)現(xiàn)存在于文本文檔x的潛在主題z,并將每個(gè)文檔x分配到一個(gè)主題集中。LDA還將相關(guān)單詞或標(biāo)記映射到潛在主題集合z中,可以通過(guò)觀察LDA的生成過(guò)程來(lái)理解它的輸出。
文檔x在LDA模型中的主題生成過(guò)程可以用以下步驟表示[31]:①選擇N∈Poisson(σ);②選擇θ∈Dirichlet(α);③對(duì)于長(zhǎng)度為N的文檔中的每個(gè)詞語(yǔ)wn,選擇一個(gè)主題zn∈Multinominal(θ),然后從p(wn|zn,β)中選擇一個(gè)詞語(yǔ)wn,即一個(gè)基于主題zn的多項(xiàng)式概率。
其中主題數(shù)K是預(yù)先定義的。而由一組詞語(yǔ)組成的文檔xi的邊緣分布的定義見(jiàn)式(3):
(3)
詞語(yǔ)概率由矩陣β∈[0,1)K×#W實(shí)現(xiàn)參數(shù)化。模型參數(shù)α和β可以通過(guò)使用最大似然估計(jì)或貝葉斯推斷從語(yǔ)料庫(kù)中觀察到的詞語(yǔ)計(jì)數(shù)來(lái)估計(jì)其數(shù)值。
如式(4)和式(5)所示,采樣窗口A和采樣窗口B (CA和CB)中的內(nèi)容需要經(jīng)過(guò)LDA模型處理。LDA模型的輸出(ZA和ZB)如圖3所示。每一行代表文本中的一個(gè)話題。方框中的詞語(yǔ)為該主題中的一個(gè)主題詞,箭頭所指的數(shù)字為該主題詞在本主題中對(duì)應(yīng)的權(quán)重。
圖3 LDA模型輸出示例
ZA=LDA(CA)
(4)
ZB=LDA(CB)
(5)
在本文模型中,主題建模實(shí)現(xiàn)了對(duì)語(yǔ)義內(nèi)容的提取,其輸出的文本主題即為文本語(yǔ)義內(nèi)容的高度概括。為了實(shí)現(xiàn)語(yǔ)義不一致性的建模,接下來(lái)需要計(jì)算兩組主題間的不一致性。兩組主題間的語(yǔ)義不一致性直接反映了兩個(gè)時(shí)間窗口內(nèi)語(yǔ)料語(yǔ)義的不一致性。
在每一組主題中往往包含著多個(gè)獨(dú)立的主題。在計(jì)算兩組主題的不一致性之前,需要考慮單獨(dú)的兩個(gè)主題之間的相似度如何計(jì)算。因?yàn)閷蓚€(gè)主題之間的相似度取倒數(shù)或者取負(fù)數(shù)即可表征主題之間的不一致性,也即主題的語(yǔ)義相異性。本節(jié)基于LDA主題模型的輸出結(jié)果,提出了一種權(quán)重加和算法以解決主題相似度的計(jì)算問(wèn)題,如算法1所示。該算法的核心思想是,如果兩個(gè)主題之間相同位置順序(按詞語(yǔ)權(quán)重大小排序)上相同的詞語(yǔ)越多,則兩個(gè)主題越相似。縮放因子(記為t)用于將最終輸出分?jǐn)?shù)s縮放到合理的范圍。
算法1 主題相似性計(jì)算
輸入:主題1的詞匯集合WA,主題1的詞匯權(quán)重QA,主題2的詞匯集合WB,主題2的詞匯權(quán)重QB.
輸出:主題1與主題2的相似性分?jǐn)?shù)s.
c←0
end if
end for
Returns
算法1的流程如下:
第1步,先輸入相關(guān)數(shù)據(jù)集:分別為主題1、2的詞集WA、WB,兩個(gè)詞集中每個(gè)詞的權(quán)重QA、QB,縮放因子t。
第2步,初始化累加器c。
第3步,比較兩個(gè)詞集相同位置順序(按照詞語(yǔ)權(quán)重大小排序)的詞語(yǔ)是否相同,如果相同,則把相同位置上詞語(yǔ)的權(quán)重和累加入累加器c。
第4步,重復(fù)步驟3直至對(duì)兩詞集完成遍歷。
第5步,.計(jì)算兩個(gè)主題的相似度得分s。兩個(gè)主題相同位置順序上相同的詞語(yǔ)越多,則兩個(gè)主題越相似。再通過(guò)縮放因子將最終輸出分?jǐn)?shù)縮放到合理的范圍。
接下來(lái)將描述兩組主題之間的語(yǔ)義不一致性如何計(jì)算。首先,假設(shè)兩組主題完全相似,那么這兩組主題的語(yǔ)義不一致性指數(shù)應(yīng)該非常低。一組主題中的任意一個(gè)應(yīng)當(dāng)可以找到另一組主題中的唯一一個(gè)與其對(duì)應(yīng)。然而,主題模型輸出主題時(shí)往往不具備特定的順序。因此,本節(jié)使用遍歷計(jì)算的方法,在一組主題中選擇一個(gè)主題,并計(jì)算它與另一組主題中每個(gè)主題的相似度。然后保存這個(gè)過(guò)程中產(chǎn)生的最高分。最后將所有的最高分綜合起來(lái),作為兩組主題的語(yǔ)義不一致性。更為重要的是,如果發(fā)現(xiàn)在最近一個(gè)時(shí)間段內(nèi)的某一個(gè)主題無(wú)論如何也找不到與上一個(gè)時(shí)段相匹配的主題,那么該主題就有可能是即將發(fā)生的網(wǎng)絡(luò)暴力輿情的主題。具體見(jiàn)算法2。
算法2 語(yǔ)義不一致性計(jì)算
輸入:A主題集TA,B主題集TB.
輸出:A主題組所代表的語(yǔ)料與B主題組所代表的語(yǔ)料之間的語(yǔ)義不一致性數(shù)值st.
st←0
smax←0
ifstmp>smaxthen
smax←stmp
end if
end for
st←st+fs(smax)
end for
Returnst
算法2是基于遍歷計(jì)算的方法來(lái)解決兩組主題之間語(yǔ)義相異性的計(jì)算問(wèn)題。假設(shè)兩組主題完全相似,一組主題中的任何一個(gè)應(yīng)當(dāng)可以找到另一組主題中唯一一個(gè)與其對(duì)應(yīng)。但是考慮到主題模型輸出主題時(shí)往往不具備特定的順序,本算法使用遍歷計(jì)算的方法。算法過(guò)程描述如下:
第1步,輸入主題集TA、TB。每個(gè)主題集都有相同數(shù)量的主題。
第2步,選取主題集A中的一個(gè)主題,同時(shí)遍歷主題集B中所有主題,利用算法1計(jì)算主題集A中的那個(gè)主題與主題集B中最不相似的主題的語(yǔ)義不一致性數(shù)值。
第3步,重復(fù)步驟2到步驟3直至主題集A中每一個(gè)主題都計(jì)算了其與主題集B中最不相似的主題之間的語(yǔ)義不一致性數(shù)值。
第4步,將主題集A中所有主題與主題集B中最不相似的主題之間的語(yǔ)義不一致性數(shù)值加和,輸出兩主題集相異性得分st。
t時(shí)刻SI計(jì)算可以描述為:
TDIt=FA(ZA,ZB)
(6)
式中FA代表算法2。
在實(shí)際計(jì)算過(guò)程中,算法2包含感應(yīng)函數(shù)fs。公式st←st+fs(smax)將由算法1輸出的主題相似度分?jǐn)?shù)轉(zhuǎn)化為SI,因此稱(chēng)之為相異性感應(yīng)函數(shù)。本節(jié)設(shè)計(jì)了如下兩種函數(shù),分別稱(chēng)為函數(shù)A(式7)和函數(shù)B(式8),分別適用于不同的場(chǎng)景。
y=x-2
(7)
y=(log(x))2
(8)
為充分說(shuō)明兩種函數(shù)的性質(zhì),圖4展示兩個(gè)函數(shù)的圖像。虛線代表基于反比例函數(shù)設(shè)計(jì)的相異性感應(yīng)函數(shù)A,而實(shí)線是基于對(duì)數(shù)函數(shù)設(shè)計(jì)的相異性感應(yīng)函數(shù)B。
圖4 算法2中的兩個(gè)可用函數(shù)
由于算法1輸出的主題相似度分?jǐn)?shù)的值域是[0,1],故相異性感應(yīng)函數(shù)需要在[0,1]區(qū)間之內(nèi)保持單調(diào)遞減。如果兩個(gè)主題越相似,那么他們的不一致性分?jǐn)?shù)應(yīng)該越低。
而本文提供的兩種相異性函數(shù)均滿(mǎn)足上述基本要求,但是這兩種函數(shù)還是存在一些微妙的不同,因而適合不同的場(chǎng)景。如圖4所示,函數(shù)A在輸入為1時(shí)輸出也為1,而函數(shù)B在輸入為1時(shí)輸出為0(參考圖中垂直虛線與水平虛線)。隨著輸入x的減小,函數(shù)B的輸出增長(zhǎng)速度顯然慢于函數(shù)A。這意味著函數(shù)A會(huì)非常顯著地放大兩個(gè)主題間的任何不同。但是函數(shù)B則不如函數(shù)A敏感。除非兩個(gè)主題非常不同,否則主題間的差異很難用函數(shù)B感知。這兩種函數(shù)具有不同的感受特性,在后續(xù)的實(shí)驗(yàn)中將會(huì)證實(shí)這兩種函數(shù)具有不同的應(yīng)用場(chǎng)景。
在預(yù)警模型的實(shí)際運(yùn)行中,每隔一段時(shí)間就會(huì)輸出該段時(shí)間的SI。SI數(shù)值的時(shí)序序列處于波動(dòng)之中,但并沒(méi)有一個(gè)確切的預(yù)警閾值,須比較過(guò)往時(shí)間段內(nèi)的SI數(shù)值來(lái)判斷本時(shí)段的SI數(shù)值是否存在異常。
為此考慮使用無(wú)監(jiān)督的時(shí)序異常檢測(cè)方法來(lái)進(jìn)行對(duì)SI數(shù)值的監(jiān)測(cè)。無(wú)監(jiān)督方法的優(yōu)勢(shì)在于無(wú)需人工識(shí)別和數(shù)據(jù)標(biāo)注即可發(fā)現(xiàn)異常值,正是本文所指出的應(yīng)用場(chǎng)景的關(guān)鍵需求。
本節(jié)采用雙窗口波動(dòng)率檢測(cè)法對(duì)SI數(shù)值進(jìn)行監(jiān)測(cè)。兩個(gè)窗口內(nèi)數(shù)據(jù)(Dt1和Dt2)之間的波動(dòng)率vn可以定義為:
(9)
其中σ(D)的定義是:
(10)
[Q1-c×IQR,Q3+c×IQR]
(11)
IQR由式(10)定義。
IQR=Q3-Q1
(12)
其中,Q1代表整體時(shí)序數(shù)據(jù)的第一四分位數(shù),Q3代表第三四分位數(shù)。c是調(diào)節(jié)因子。
為了驗(yàn)證本文模型的有效性,本文需要確定現(xiàn)實(shí)世界中所存在的網(wǎng)絡(luò)暴力輿情。因此,首先收集了社交媒體“微博”的真實(shí)數(shù)據(jù),并為檢測(cè)本文模型的性能而界定了高熱度事件的標(biāo)準(zhǔn),使用本文模型進(jìn)行模擬預(yù)警。最后,通過(guò)比較真實(shí)數(shù)據(jù)和模擬的預(yù)警數(shù)據(jù)來(lái)計(jì)算本文模型的預(yù)警準(zhǔn)確率和覆蓋率。
本節(jié)首先確定了在互聯(lián)網(wǎng)社交媒體中所存在的一系列網(wǎng)絡(luò)暴力內(nèi)容中所使用的高頻關(guān)鍵詞。然后基于這些關(guān)鍵詞收集了2022年第三季度社交媒體“微博”中的語(yǔ)料內(nèi)容,總計(jì)218 395條。每月發(fā)帖數(shù)量見(jiàn)表1。
表1 預(yù)處理后的數(shù)據(jù)統(tǒng)計(jì)
為了驗(yàn)證本文模型有效性,需要確認(rèn)在此期間該社交媒體中出現(xiàn)了哪些高討論度的網(wǎng)絡(luò)暴力輿情。使用LDA模型對(duì)2022年第三季度內(nèi)的每個(gè)月進(jìn)行主題建模后,獲取該月份內(nèi)的語(yǔ)料中存在的主題內(nèi)容,以及相關(guān)主題內(nèi)容的時(shí)間分布。表2展示了部分月份的主要主題及主題詞。部分主題涉及政治、性別、地域爭(zhēng)議或嚴(yán)重的人身攻擊,為避免不必要的爭(zhēng)議,本文未詳細(xì)闡述和展示所有主題,僅節(jié)選了部分主題進(jìn)行展示。
表2 2022年7—9月期間部分主題內(nèi)容總結(jié)
3.2.1實(shí)驗(yàn)設(shè)置
在數(shù)據(jù)預(yù)處理階段,出現(xiàn)次數(shù)較多的詞語(yǔ)不能突出不同文本樣本之間的差別,而出現(xiàn)次數(shù)較少的詞語(yǔ)能提供的有效語(yǔ)義信息較少且徒增計(jì)算量,因此,為合理地降低LDA模型所使用的詞典大小,減少實(shí)際應(yīng)用過(guò)程中運(yùn)算及預(yù)警所需的時(shí)間,本節(jié)通過(guò)LDA模型實(shí)現(xiàn)詞語(yǔ)的輕量過(guò)濾:如果一個(gè)詞在LDA主題模型聚類(lèi)詞典中出現(xiàn)的次數(shù)少于10次或超過(guò)60 %,則在預(yù)處理過(guò)程中直接刪除該詞。
經(jīng)大量測(cè)試實(shí)驗(yàn)發(fā)現(xiàn),最佳的基礎(chǔ)時(shí)間窗口大小為48~96小時(shí)。從原理上分析,如果采樣時(shí)間過(guò)短,則主題內(nèi)容的波動(dòng)往往過(guò)大,導(dǎo)致預(yù)警的準(zhǔn)確率急劇下降。如果采樣時(shí)間過(guò)長(zhǎng),當(dāng)前時(shí)間窗口內(nèi)的數(shù)據(jù)變化將不再顯著,同樣會(huì)影響預(yù)警準(zhǔn)確率。
本文將LDA模型進(jìn)行文本成分分析時(shí)最佳的主題詞數(shù)量設(shè)置為4~5。該數(shù)值范圍的設(shè)置一方面是基于實(shí)驗(yàn)測(cè)試,另一方面可以由模型預(yù)警的原理進(jìn)行分析:如果輸出的主題數(shù)量過(guò)多(>10),就會(huì)導(dǎo)致語(yǔ)料整體語(yǔ)義的不一致性分散在不同的主題中,模型將難以靈敏地檢測(cè)到兩個(gè)時(shí)段中不同語(yǔ)料間的不一致性。另外,如果輸出的主題數(shù)量過(guò)少(<4),兩段語(yǔ)料的不一致性就會(huì)在極少的主題中被不合比例地放大,導(dǎo)致模型的誤報(bào)率過(guò)高,同樣影響預(yù)警模型的實(shí)際性能?;A(chǔ)時(shí)間窗口的采樣數(shù)據(jù)量一般可以設(shè)置為1500(不超過(guò)2000)。如果采樣數(shù)據(jù)量過(guò)大將會(huì)影響計(jì)算效率,從而大幅增加預(yù)警的時(shí)間消耗。
實(shí)驗(yàn)發(fā)現(xiàn),為確保模型的有效性,增量時(shí)間窗口與基礎(chǔ)時(shí)間窗口的采樣比例應(yīng)當(dāng)不小于10%,不大于50%。因此本節(jié)將增量時(shí)間窗口的采樣數(shù)據(jù)量設(shè)置為不超過(guò)基礎(chǔ)時(shí)間窗口樣本的37%。模型參數(shù)如表3所示。
表3 模型參數(shù)
3.2.2評(píng)價(jià)指標(biāo)
本實(shí)驗(yàn)選擇準(zhǔn)確率作為評(píng)價(jià)指標(biāo)之一,準(zhǔn)確率可以定義為:
(13)
其中TP表示正確預(yù)測(cè)網(wǎng)絡(luò)暴力輿情的預(yù)警次數(shù),TN表示錯(cuò)誤預(yù)測(cè)的預(yù)警次數(shù)。
另一個(gè)指標(biāo)是覆蓋率。覆蓋率的含義是正確的預(yù)警覆蓋了多少真實(shí)發(fā)生的事件,即有百分之多少的真實(shí)事件被正確地預(yù)報(bào)了。其計(jì)算公式如下:
(14)
其中,FP表示未被正確預(yù)測(cè)的網(wǎng)絡(luò)暴力輿情的數(shù)量。
3.2.3網(wǎng)絡(luò)暴力輿情的特征界定與有效預(yù)警界定
輿情事件內(nèi)容熱度變化基本符合正態(tài)分布假設(shè),本節(jié)考慮到模型的靈敏性和通用性。本節(jié)提出了一種基于實(shí)際監(jiān)測(cè)需求的網(wǎng)絡(luò)暴力輿情的判別方法:如果某日該主題的發(fā)帖數(shù)量同時(shí)超過(guò)前兩天任意一天發(fā)帖數(shù)量的2.5倍,則可以認(rèn)為發(fā)生了網(wǎng)絡(luò)暴力輿情。該判別標(biāo)準(zhǔn)還可以描述為:任意一天某主題的發(fā)帖數(shù)量相比于前兩天任意一天的發(fā)帖數(shù)量增長(zhǎng)率均超過(guò)了150%,則該主題所指向的輿情歸類(lèi)為突發(fā)網(wǎng)絡(luò)暴力輿情。上述定義可以描述為:
ct=now>2.5×ct=now-△t∩ct=now>2.5×ct=now-2△t
(15)
其中ct=now表示當(dāng)天在某一特定主題上的發(fā)帖數(shù)量。
該判別標(biāo)準(zhǔn)主要突出事件的突發(fā)性,即滿(mǎn)足該標(biāo)準(zhǔn)的事件往往是討論量突然激增的事件,符合對(duì)網(wǎng)絡(luò)暴力輿情監(jiān)測(cè)的要求。此外,在本文驗(yàn)證實(shí)驗(yàn)中,上述標(biāo)準(zhǔn)作為數(shù)據(jù)篩選的標(biāo)準(zhǔn),所有驗(yàn)證數(shù)據(jù)還經(jīng)過(guò)了人工進(jìn)一步確認(rèn)。
考慮到現(xiàn)實(shí)應(yīng)用中,相關(guān)人員往往需要充足的時(shí)間和討論以應(yīng)對(duì)相關(guān)事態(tài)和作出有益的決定,因此一次有效預(yù)警信號(hào)發(fā)出的時(shí)間應(yīng)當(dāng)顯著地早于網(wǎng)絡(luò)暴力輿情的討論熱度到達(dá)最高點(diǎn)的時(shí)期。為有效檢驗(yàn)本文模型的預(yù)警效率,在實(shí)驗(yàn)中將有效預(yù)警的標(biāo)準(zhǔn)界定為:高熱度事件達(dá)到討論峰值的當(dāng)天12:00前36小時(shí)內(nèi)發(fā)出預(yù)警信號(hào)即為有效預(yù)警。
3.3.1模型預(yù)警結(jié)果
為了更好地展示相應(yīng)主題的熱度,圖5、圖6和圖7中僅保留了表2中相應(yīng)主題的熱度折線,展示了網(wǎng)絡(luò)暴力輿情的實(shí)際發(fā)生情況與模型發(fā)出預(yù)警的情況。需要說(shuō)明的是,即便實(shí)驗(yàn)是在模擬場(chǎng)景下使用模型進(jìn)行預(yù)警,但是模型進(jìn)行預(yù)警時(shí),僅能獲取當(dāng)前時(shí)間窗口的數(shù)據(jù)。因此模型的預(yù)警條件與真實(shí)應(yīng)用場(chǎng)景無(wú)異。此外,網(wǎng)絡(luò)暴力輿情的實(shí)際發(fā)生情況是基于當(dāng)月的全量數(shù)據(jù)進(jìn)行分析的,以確保對(duì)于事件發(fā)生時(shí)間和事件內(nèi)容描述的準(zhǔn)確性。
圖5 2022年7月預(yù)警結(jié)果
圖7 2022年9月預(yù)警結(jié)果
首先,每張圖片上方的柱狀圖為當(dāng)月每4小時(shí)一次所計(jì)算的SI。為了更好地觀察其變化趨勢(shì),取所有SI的相反數(shù)繪制成圖。這意味著,對(duì)圖中SI取絕對(duì)值才是真實(shí)的語(yǔ)義不一致性。其中白色條塊表示該時(shí)段內(nèi)的SI處于正常范圍。而黑色條塊表示該時(shí)段內(nèi)的SI已被時(shí)序異常檢測(cè)模塊監(jiān)測(cè)為異常值,模型發(fā)布預(yù)警,且在36小時(shí)內(nèi)確實(shí)發(fā)生了網(wǎng)絡(luò)暴力輿情,即有效預(yù)警。而灰色條塊同樣為時(shí)序異常檢測(cè)模塊檢測(cè)為異常值,但是36小時(shí)內(nèi)并沒(méi)有發(fā)生網(wǎng)絡(luò)暴力輿情,即錯(cuò)誤預(yù)警。黑色區(qū)塊越多,意味著模型預(yù)警的準(zhǔn)確率越高?;疑珔^(qū)塊越多,意味著模型的預(yù)警準(zhǔn)確率越低。區(qū)塊的高度代表該時(shí)段內(nèi)SI數(shù)值。
然后是每張圖片下方的柱狀圖。每一個(gè)條塊意味著當(dāng)天有網(wǎng)絡(luò)暴力輿情的發(fā)生,其中有白色和灰色的條塊?;疑珬l塊即為模型成功預(yù)警的網(wǎng)絡(luò)暴力輿情。白色條塊為模型沒(méi)有成功預(yù)警的輿情。而條塊的高度表示著當(dāng)天所發(fā)生的網(wǎng)絡(luò)暴力輿情的討論熱度。
最后是每張圖片下方的折線圖。折線圖為不同主題在每一天的發(fā)帖數(shù)量,與3.1節(jié)數(shù)據(jù)相同,詳細(xì)的準(zhǔn)確率和覆蓋率數(shù)據(jù)匯總在表4中。
表4 準(zhǔn)確率和覆蓋率統(tǒng)計(jì)單位:%
3.3.2實(shí)驗(yàn)結(jié)果分析
從表4及圖5—圖7可以觀察到,在長(zhǎng)達(dá)92天的真實(shí)數(shù)據(jù)預(yù)測(cè)中,7月和8月的預(yù)測(cè)準(zhǔn)確率和覆蓋率均較高。模型在7月份準(zhǔn)確預(yù)測(cè)了發(fā)生在7月10—7月24日之間的密集的高討論度事件。模型在8月份的預(yù)警結(jié)果中表現(xiàn)出最高的準(zhǔn)確率和覆蓋率,除了8月16—24日之間的部分事件未能成功預(yù)測(cè),其他的高討論度事件均得到了很好的預(yù)測(cè)。在9月份,模型的預(yù)測(cè)準(zhǔn)確度仍然比較高,但是模型的預(yù)測(cè)覆蓋率大幅度下降,僅達(dá)到38%。經(jīng)分析,可能是因?yàn)樵?月份中存在部分主題(如圖7中的Topic 10)持續(xù)保持較高的討論熱度,導(dǎo)致預(yù)測(cè)不準(zhǔn)確。
為此使用函數(shù)B重新對(duì)9月的數(shù)據(jù)進(jìn)行另外的模擬預(yù)警實(shí)驗(yàn),如圖8所示。實(shí)驗(yàn)結(jié)果表明,使用函數(shù)B大幅度提升了預(yù)警模型在9月的預(yù)警效果,預(yù)警的準(zhǔn)確率和覆蓋率均得到了顯著提升。在圖7中可見(jiàn)原本使用函數(shù)A時(shí)無(wú)法準(zhǔn)確預(yù)警的事件(9月4—11日之間)大多數(shù)在使用函數(shù)B時(shí)都得到了準(zhǔn)確的預(yù)警。由此可見(jiàn),函數(shù)B更加適合在有大量數(shù)據(jù)干擾的情形下進(jìn)行準(zhǔn)確預(yù)測(cè)。
圖8 2022年9月函數(shù)B的預(yù)警結(jié)果
從實(shí)驗(yàn)數(shù)據(jù)來(lái)看,預(yù)警模型的整體覆蓋率存在一定的波動(dòng),但就本文所采集的樣本數(shù)據(jù)所進(jìn)行的實(shí)驗(yàn)結(jié)果平均來(lái)看均能達(dá)到60%以上。通過(guò)仔細(xì)檢閱未能覆蓋的事件可以發(fā)現(xiàn),未能覆蓋且符合本文定義的、需要進(jìn)行預(yù)警的網(wǎng)絡(luò)輿情大多是早期事件的再次爆發(fā)或者反轉(zhuǎn)內(nèi)容。此時(shí)由于相關(guān)的主題信息已經(jīng)存在于既往的時(shí)間窗口內(nèi),因此需要建立更加敏感的感應(yīng)函數(shù)以探測(cè)極為細(xì)微的語(yǔ)義組織變化。總的來(lái)說(shuō),本文中所提到的“函數(shù)A”更適合監(jiān)測(cè)事件剛開(kāi)始的初期,“函數(shù)B”更適合監(jiān)測(cè)已經(jīng)發(fā)酵的事件是否存在突發(fā)反轉(zhuǎn)或新的討論點(diǎn)。此外,本文模型雖然未能達(dá)到絕對(duì)精準(zhǔn)的預(yù)測(cè)預(yù)警精度,但可為“無(wú)先驗(yàn)知識(shí)預(yù)警”提供具備一定參考意義的實(shí)現(xiàn)方法。
3.3.3不同時(shí)序異常監(jiān)測(cè)方法的比較
為了說(shuō)明本文為語(yǔ)義不一致性所應(yīng)用的時(shí)序異常監(jiān)測(cè)方法具備相對(duì)的合理性,本文選取了三種主流無(wú)監(jiān)督時(shí)序異常監(jiān)測(cè)方法進(jìn)行對(duì)比實(shí)驗(yàn)。表5和表6分別展示了包括本文方法在內(nèi)的4種檢測(cè)方法的準(zhǔn)確率與覆蓋率。其中方法1是基于時(shí)間窗口中位數(shù)波動(dòng)的異常檢測(cè)方法,方法2是基于時(shí)序數(shù)據(jù)廣義方差的檢測(cè)方法,方法3是基于自回歸的異常監(jiān)測(cè)方法。從表5和表6中的數(shù)據(jù)對(duì)比可見(jiàn),本文方法在監(jiān)測(cè)語(yǔ)義不一致性的異常方面具備較優(yōu)越的性能。
表5 不同時(shí)序異常檢測(cè)方法的準(zhǔn)確率比較 單位:%
表6 不同時(shí)序異常檢測(cè)方法的覆蓋率比較 單位:%
3.3.4預(yù)警案例研究為了展示本文預(yù)警模型對(duì)于網(wǎng)絡(luò)暴力內(nèi)容主題的預(yù)警能力,將展示2022年8月9日達(dá)到討論最高峰的網(wǎng)絡(luò)暴力輿情。該輿情的主題已經(jīng)在表2中第6行展示,即8月的“Topic 10”《光與夜之戀》游戲官方運(yùn)營(yíng)的玩家社區(qū)被指責(zé)縱容社區(qū)中的網(wǎng)絡(luò)暴力行為。
在圖9所示的細(xì)節(jié)放大圖中,描述了主題“Topic 10”的相關(guān)內(nèi)容在8月7—14日一周之內(nèi)的熱度。折線圖表示關(guān)于該特定主題的帖子數(shù)量,條形圖則顯示預(yù)警模型輸出的SI數(shù)值。其中黑色的條塊是對(duì)網(wǎng)絡(luò)暴力輿情的成功預(yù)警,灰色條塊代表該時(shí)段內(nèi)模型未預(yù)警且沒(méi)有網(wǎng)絡(luò)暴力輿情發(fā)生。出于分析的目的,僅對(duì)圖5中的相關(guān)主題進(jìn)行說(shuō)明。
圖9 2022年8月9日爆發(fā)的網(wǎng)絡(luò)暴力輿情
從圖9中可以觀察到,在8月7日時(shí)僅有兩條相關(guān)的討論。而在8月8日時(shí)相關(guān)討論已經(jīng)迅速增長(zhǎng)到492條。最后在8月9日達(dá)到最高峰,采集數(shù)據(jù)達(dá)到了2295條。此后逐漸減弱,略有波動(dòng)。
如表7所示,模型共有兩次相關(guān)的預(yù)警,分別是圖9中箭頭所指的預(yù)警A和預(yù)警B。兩次預(yù)警都成功輸出了與所選事件相關(guān)的關(guān)鍵詞。其中,加粗的關(guān)鍵詞代表與所選事件成功匹配的關(guān)鍵詞。對(duì)比實(shí)際的“Topic 10”內(nèi)容可見(jiàn),本文模型不僅可以對(duì)是否將要發(fā)生網(wǎng)絡(luò)暴力輿情進(jìn)行預(yù)警,還能夠輸出相關(guān)的主題關(guān)鍵詞,為實(shí)際的預(yù)警監(jiān)測(cè)與干預(yù)提供進(jìn)一步的支撐。
表7 預(yù)警案例
互聯(lián)網(wǎng)中的網(wǎng)絡(luò)暴力內(nèi)容正隨著社交媒體的深度滲透而廣泛存在且極易造成惡劣影響,但目前對(duì)于網(wǎng)絡(luò)暴力輿情的預(yù)警仍然較為困難。因而本文提出了基于語(yǔ)義不一致性的網(wǎng)絡(luò)暴力輿情預(yù)警模型。本文使用微博真實(shí)數(shù)據(jù)進(jìn)行了長(zhǎng)時(shí)間、大窗口的現(xiàn)實(shí)仿真實(shí)驗(yàn)與突發(fā)事件模擬預(yù)警。在長(zhǎng)達(dá)92天的現(xiàn)實(shí)世界真實(shí)數(shù)據(jù)中,模型對(duì)網(wǎng)絡(luò)暴力輿情的預(yù)測(cè)取得了較高的準(zhǔn)確率和覆蓋率。希望本文能夠激發(fā)更多關(guān)于開(kāi)發(fā)有效的網(wǎng)絡(luò)暴力預(yù)警系統(tǒng)的研究,為創(chuàng)造一個(gè)更安全、更和諧的網(wǎng)絡(luò)環(huán)境做出貢獻(xiàn)。此外,模型所具備的“早期預(yù)警”特性和輸出主題詞的預(yù)警方法在一定程度上能夠溯源重大網(wǎng)絡(luò)輿情傳播的起點(diǎn),為相關(guān)工作人員提供指引,以及時(shí)關(guān)注實(shí)際應(yīng)用中引發(fā)輿情的事實(shí)與緣由。