畢 蓓,潘慧瑤,陳 峰,隋京言,高 揚,王耀君*
(1.中國農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院,北京 100083;2.北京理工大學(xué)計算機學(xué)院,北京 100081;3.北京工業(yè)大學(xué)經(jīng)濟(jì)與管理學(xué)院,北京 100124;4.中國科學(xué)院計算技術(shù)研究所,北京 100190)
(?通信作者電子郵箱wangyaojun@cau.edu.cn)
微博即微型博客,是一種基于用戶關(guān)系分享、傳播以及獲取簡短實時信息的廣播式的社交媒體。最早也是最知名的微博是美國Twitter,新浪微博于2009 年面世,是當(dāng)前中文社交媒體中活躍用戶數(shù)最多的微博媒體。本文提及的微博指新浪微博,研究使用的微博謠言數(shù)據(jù)也是來自新浪微博的官方公開數(shù)據(jù)。
微博謠言是指通過新浪微博傳播的,在傳播過程中被證實為謠言的內(nèi)容。微博謠言的內(nèi)容涉及社會安全、食品安全、社會熱點、明星名人等,具有傳播速度快、波及面廣、危害大等特性。部分涉及社會熱點的謠言具有煽動網(wǎng)民負(fù)面情緒及破壞社會穩(wěn)定、擾亂公共秩序、削弱公權(quán)部門權(quán)威性等特點,破壞性極大。如果可以根據(jù)微博的傳播模式,設(shè)計算法模型在微博謠言傳播的早期自動監(jiān)測及預(yù)警,然后進(jìn)一步轉(zhuǎn)交于有公信力的部門及時甄別,可以降低謠言的破壞性。
異構(gòu)圖(Heterogeneous Graph)是指一個圖模型中可以存在不止一種節(jié)點和邊的圖,且允許不同類型的節(jié)點擁有不同維度的特征或?qū)傩?。異?gòu)圖神經(jīng)網(wǎng)絡(luò)專門用于處理異構(gòu)圖數(shù)據(jù),是當(dāng)前熱門的算法,被應(yīng)用于生物醫(yī)學(xué)[1]、人機交互[2]和網(wǎng)絡(luò)安全[3]等領(lǐng)域。而引入注意力機制的異構(gòu)圖注意力網(wǎng)絡(luò)(Heterogeneous graph Attention Network,HAN)在DBLP、IMDB和ACM 等科研平臺和機構(gòu)發(fā)布的多行業(yè)公開數(shù)據(jù)集上的實驗結(jié)果都優(yōu)于幾種常用異構(gòu)圖算法[4]。本文主要探索異構(gòu)圖注意力模型應(yīng)用于包括社交媒體的信息傳播網(wǎng)絡(luò)分析場景中的效果,基于異構(gòu)圖注意力網(wǎng)絡(luò)構(gòu)建謠言監(jiān)測模型,通過對傳播內(nèi)容及傳播網(wǎng)絡(luò)的分析,實現(xiàn)新浪微博的謠言監(jiān)測。
在早期的研究中,網(wǎng)絡(luò)謠言監(jiān)測工作主要集中于從文本內(nèi)容、用戶信息和傳播結(jié)構(gòu)中手動提取特征,訓(xùn)練傳統(tǒng)機器學(xué)習(xí)分類器實現(xiàn)謠言識別和謠言監(jiān)測。例如,Castillo 等[5]的決策樹、Kwon 等[6]的隨機森林和Yang 等[7]的支持向量機(Support Vector Machine,SVM)。Ma 等[8]在訓(xùn)練SVM 分類器時,考慮了謠言的時間特征,利用時間序列建模技術(shù)來整合各種謠言信息。此外,Ma 等[9]還提出了傳播樹核模型,這是一種基于核的方法,通過分析傳播樹結(jié)構(gòu)之間的相似性來識別謠言。
近年來出現(xiàn)了一些使用深度學(xué)習(xí)模型來識別社交媒體謠言的方法。首次應(yīng)用神經(jīng)網(wǎng)絡(luò)模型監(jiān)測謠言的是Ma等[10],他們利用遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network,RNN)學(xué)習(xí)網(wǎng)絡(luò)謠言的文本表示。Chen 等[11]改進(jìn)了該方法,提出了一種基于RNN 的深度注意力模型,為不同的文本特征分配不同的權(quán)重。Yu 等[12]則提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的方法,利用CNN 學(xué)習(xí)輸入序列的關(guān)鍵特征,形成重要特征之間的高層交互。而Liu等[13]的時間序列分類器結(jié)合了RNN 和CNN,對用戶特征在傳播路徑上的全局和局部變化分別進(jìn)行捕獲。最近,Ma等[14]還采用了對抗學(xué)習(xí)方法,利用生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)的生成器產(chǎn)生沖突和噪聲,迫使鑒別器從增強的、更具挑戰(zhàn)性的例子中學(xué)習(xí)更強的謠言指示性表示。
采用傳統(tǒng)機器學(xué)習(xí)方法進(jìn)行謠言監(jiān)測,不僅費時費力,而且這些手動提取的特征往往缺乏從謠言傳播網(wǎng)絡(luò)中提取的高層表示。深度學(xué)習(xí)方法能自動學(xué)習(xí)謠言的高級特征,但這些方法不能處理圖或樹的全局關(guān)系,并沒有充分利用微博的傳播信息。
傳統(tǒng)的深度學(xué)習(xí)方法被應(yīng)用在提取歐氏空間數(shù)據(jù)的特征方面取得了巨大的成功,但處理非歐氏空間數(shù)據(jù)的表現(xiàn)卻仍難以使人滿意。為了分析復(fù)雜的圖數(shù)據(jù),Gori 等[15]提出了圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)模型。Kipf 等[16]將深度學(xué)習(xí)中常用于圖像的CNN 推廣到圖數(shù)據(jù)上,創(chuàng)建了圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN),在此基礎(chǔ)上Pei等[17]設(shè)計了圖卷積深度神經(jīng)網(wǎng)絡(luò)模型Geom-GCN 來更好地捕獲結(jié)構(gòu)信息和長距離依賴。受到注意力機制的啟發(fā),Veli?kovi? 等[18]設(shè)計了圖注意力網(wǎng)絡(luò)(Graph Attention neTwork,GAT)。該模型根據(jù)相鄰節(jié)點的表示來計算每個節(jié)點的中間表示,而不需要進(jìn)行代價高昂的矩陣運算,但模型只適用于同構(gòu)圖。在探索注意力機制應(yīng)用于異構(gòu)圖的效果方面,Wang等[4]提出了異構(gòu)圖注意力網(wǎng)絡(luò)(HAN)。
微博是一個廣播式的社交平臺,用戶通過關(guān)注機制分享、傳播以及獲取簡短的實時信息,這種信息傳播網(wǎng)絡(luò)可以建模為一張異構(gòu)圖[19]。本研究提出了一種基于異構(gòu)圖注意力網(wǎng)絡(luò)的模型MicroBlog-HAN 用于謠言微博的識別,為了描述簡便,簡稱為MHAN模型。
每一條微博的異構(gòu)圖網(wǎng)絡(luò)包含至少兩個節(jié)點,即微博主貼內(nèi)容及主貼的用戶名;如果有轉(zhuǎn)發(fā)和評論,每一次轉(zhuǎn)發(fā)及評論都分別可構(gòu)建為異構(gòu)圖中的一個節(jié)點。節(jié)點之間用三種邊連接:用戶-微博、用戶-評論/轉(zhuǎn)發(fā)、微博-評論/轉(zhuǎn)發(fā),如圖1所示。
圖1 微博的信息傳播網(wǎng)絡(luò)異構(gòu)圖示例Fig.1 Example of heterogeneous graph of microblog information dissemination network
元路徑是微博異構(gòu)圖的重要組成。異構(gòu)圖的一條元路徑Φ[20]可以定義為:
可簡略表示為A1A2…Al+1。該元路徑描述了節(jié)點A1到Al+1的一個復(fù)合關(guān)系R=R1°R2°...°Rl,°代表關(guān)系的復(fù)合操作。在微博數(shù)據(jù)構(gòu)成的異構(gòu)圖中,微博之間有可能形成多種元路徑連接,不同的元路徑包含不同的語義信息。例如“W1-U1-W2”和“W1-P1-U1-P2-W2”為微博異構(gòu)圖中的兩條元路徑,前者代表兩條微博W1和W2是由同一用戶U1發(fā)布的,后者代表兩條微博W1和W2被用戶U1轉(zhuǎn)發(fā)或評論。
給定元路徑Φ,節(jié)點i基于元路徑Φ的鄰居被定義為通過元路徑Φ與節(jié)點i連接的節(jié)點集。需要特別說明的是,節(jié)點的鄰居包括自身。同樣以微博異構(gòu)圖為例,假設(shè)微博Wi由用戶Uj發(fā)布,給定元路徑模式“W1-U1-W2”,微博Wi基于該元路徑模式的鄰居是用戶Uj發(fā)布的所有微博的集合,包括Wi本身。
通過2.1 節(jié)和2.2 節(jié)定義了異構(gòu)圖元路徑和基于元路徑的鄰居后,可進(jìn)一步定義異構(gòu)圖注意力網(wǎng)絡(luò)。HAN 模型采用分層的注意力結(jié)構(gòu):第一層是節(jié)點級注意力,目的是學(xué)習(xí)每一個節(jié)點基于元路徑的鄰居的權(quán)重,并對其進(jìn)行聚合,得到特定語義的嵌入;第二層是語義級注意力,目的是學(xué)習(xí)元路徑之間的差異,得到特定語義的節(jié)點嵌入的最優(yōu)加權(quán)組合[4]。圖2描述了這兩個層級的注意力聚合過程。下面分別對兩個層級的構(gòu)建原理和構(gòu)建過程進(jìn)行詳細(xì)描述。
圖2 HAN模型的分層注意力結(jié)構(gòu)Fig.2 Hierarchical attention structure of HAN model
2.3.1 節(jié)點級注意力
首先通過微博的傳播網(wǎng)絡(luò)構(gòu)建元路徑Φ1(W1-U1-W2)和Φ2(W1-P1-U1-P2-W2);然后利用自注意力機制學(xué)習(xí)微博節(jié)點基于元路徑的鄰居的重要性。利用word2vec 提取微博i的文本特征作為節(jié)點i的初始嵌入hi;接著以初始嵌入為輸入,利用節(jié)點級注意力深層次神經(jīng)網(wǎng)絡(luò)計算元路徑權(quán)重;最后,對所有通過softmax歸一化,得到權(quán)重系數(shù)。詳細(xì)計算過程如下:
將鄰居節(jié)點的特征和相應(yīng)的權(quán)重系數(shù)聚合,就可以得到微博異構(gòu)圖節(jié)點i基于元路徑Φ的嵌入。為了穩(wěn)定訓(xùn)練過程,模型采用多頭注意力機制,重復(fù)計算節(jié)點級注意力K次并連接計算結(jié)果,作為微博i特定語義的嵌入,最終節(jié)點i的節(jié)點級節(jié)點嵌入的計算公式為:
2.3.2 語義級注意力
將所有微博節(jié)點的特征輸入節(jié)點級注意力后,可以得到兩組語義特定的節(jié)點嵌入,記作。語義特定的節(jié)點嵌入只能從一個方面反映節(jié)點,只能反映被同一用戶發(fā)布的語義,只能反映被同一用戶轉(zhuǎn)發(fā)/評論的語義。為了融合兩種語義,學(xué)習(xí)更全面的節(jié)點嵌入,使用語義級注意力學(xué)習(xí)每個元路徑的重要性,softmax 歸一化得到每個元路徑的權(quán)重系數(shù),計算過程如下。
其中:attsem是語義級注意的深層神經(jīng)網(wǎng)絡(luò),模型結(jié)構(gòu)如圖3 所示;W為權(quán)重矩陣;b為偏置;q為語義級注意力向量;V為微博節(jié)點集,||V表示微博節(jié)點數(shù)目。q與特定語義的節(jié)點嵌入的非線性變換做內(nèi)積,對結(jié)果進(jìn)行平均得到wΦi,wΦi可以用來衡量元路徑Φi的重要性。
圖3 attsem神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Structure of attsem neural network
Z為聚合了元路徑Φ1和Φ2的語義信息的語義級節(jié)點嵌入,包含被同一用戶發(fā)布、轉(zhuǎn)發(fā)和評論的語義信息,是最終的微博節(jié)點嵌入,可以輸入到多層感知器中執(zhí)行二分類任務(wù),使用交叉熵作為損失函數(shù)。
模型在兩個真實的微博謠言數(shù)據(jù)集上對模型進(jìn)行評估,分別是Weibo2016 和Weibo2021。其中:Weibo2016 數(shù)據(jù)集是由香港浸會大學(xué)的Ma 等[10]提供,其謠言微博數(shù)據(jù)來自2016年之前微博社區(qū)管理中心公布的不實微博信息;Weibo2021數(shù)據(jù)集是通過爬蟲從微博社區(qū)管理中心的公開數(shù)據(jù)進(jìn)行采集獲取,采集了2019—2021 年間被官方證實的謠言微博及其評論轉(zhuǎn)發(fā)數(shù)據(jù)。為保證數(shù)據(jù)樣本均衡,同時也采集了同時間段的數(shù)量相近的非謠言微博。表1 展示了兩個數(shù)據(jù)集的樣本信息。其中,本文研究采集的Weibo2021 數(shù)據(jù)集已上傳到https://github.com/lemon-coder/Weibo2021-dataset。
表1 Weibo2016和Weibo2021數(shù)據(jù)集的統(tǒng)計信息Tab.1 Statistics of Weibo2016 and Weibo2021 datasets
MHAN 模型使用8 個注意力頭,并用隨機梯度下降法更新參數(shù),Adam 算法優(yōu)化模型,學(xué)習(xí)率為0.005。訓(xùn)練過程在200 個epoch 上迭代。每個微博節(jié)點初始的特征向量的維數(shù)為6 000,訓(xùn)練集與測試集的比例為6∶4。實驗采用了如下4個結(jié)果評價指標(biāo)。
準(zhǔn)確率:在謠言及非謠言數(shù)據(jù)上的識別準(zhǔn)確率;
精確率:正確預(yù)測為正的占全部預(yù)測為正的比例;
召回率:正確預(yù)測為正的占全部實際為正的比例;
F1打分:精確率和召回率的調(diào)和平均數(shù)。
基于Weibo2016 數(shù)據(jù)集,將MHAN 及MHAN 衍生模型與以下模型比較,實驗結(jié)果如表2 所示。其中MHAN 及其衍生模型以外模型的實驗結(jié)果來自Ma等[10]的研究。
表2 各模型在Weibo2016數(shù)據(jù)集的實驗結(jié)果Tab.2 Experimental results of different models on Weibo2016 dataset
DTR[21]:基于決策樹的模型,通過查詢短語檢測謠言的排序方法。
DTC[5]:利用謠言特征組合的決策樹模型。
RFC[6]:利用謠言特征組合的隨機森林模型。
SVM-RBF[7]:結(jié)合謠言特征的RBF核支持向量機模型。
SVM-TS[8]:對謠言特征隨時間的變化進(jìn)行建模的支持向量機模型。
GRU[10]:基于RNN,從用戶評論中學(xué)習(xí)時態(tài)語言模式的模型。
MHANWUW:只考慮“W1-U1-W2”元路徑的MHAN。
MHANWPUPW:只考慮“W1-P1-U1-P2-W2”元路徑的MHAN。
此外,使用了近3 年的Weibo2021 數(shù)據(jù)集對MHAN 進(jìn)行實驗,實驗結(jié)果如表3所示。
表3 MHAN模型在Weibo2021數(shù)據(jù)集的實驗結(jié)果Tab.3 Experimental results of MHAN models on Weibo2021 dataset
如表2 所示,依賴人工提取的機器學(xué)習(xí)謠言識別模型(DTR、DTC、RFC、SVM-RDF 和SVM-TS)在Weibo2016 數(shù)據(jù)集上表現(xiàn)普遍較差,測試集準(zhǔn)確率都在90%以下。這說明人工提取的文本、用戶和傳播等特征只能在一定程度上反映謠言特征,缺乏更高層的表示。
GRU 在測試集上的準(zhǔn)確率和F1 都高于傳統(tǒng)機器學(xué)習(xí)分類器。這是因為:一方面,作為神經(jīng)網(wǎng)絡(luò)模型,GRU 能自動學(xué)習(xí)深層的潛在特征;另一方面,GRU 能捕捉相關(guān)微博的信息隨時間的變化。
MHAN 的表現(xiàn)優(yōu)于其他模型,測試集準(zhǔn)確率達(dá)到了91.2%,說明模型泛化能力較強。該模型具有良好的可解釋性,利用注意力機制分別提取“被同一人發(fā)布”和“同一人轉(zhuǎn)發(fā)評論”這兩種語義信息,最后融合兩種語義,充分挖掘了微博異構(gòu)圖基于語義的結(jié)構(gòu)信息。對比MHAN、MHANWUW和MHANWPUPW在測試集上的準(zhǔn)確率和F1 都較低,說明在謠言監(jiān)測任務(wù)中,這兩個元路徑的語義都是有意義的。
表3 的實驗結(jié)果顯示,在Weibo2021 數(shù)據(jù)集上,MHAN 模型的準(zhǔn)確率和F1都在85%以上,而MHANWUW和MHANWPUPW表現(xiàn)較差,進(jìn)一步驗證了MHAN 模型的有效性,且能適用于泛化的數(shù)據(jù)集。
同時,對實驗數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn),發(fā)布微博謠言的用戶往往還具有發(fā)布其他不實言論的歷史。另外一個有意思的發(fā)現(xiàn)是:謠言舉報者常常是同一批用戶,說明謠言的受眾有重疊且有些用戶有很強的謠言甄別能力和檢舉意識。
本文將微博數(shù)據(jù)構(gòu)建成一張異構(gòu)圖,并利用異構(gòu)圖注意力網(wǎng)絡(luò)建立微博謠言監(jiān)測模型。經(jīng)過在謠言實驗數(shù)據(jù)的驗證,結(jié)果表明MicroBlog-HAN 模型在謠言分類任務(wù)上的表現(xiàn)優(yōu)于其他模型。
在未來的工作中,將嘗試結(jié)合圖片、視頻和用戶信息提取微博更全面的特征,在保障召回率的前提下,進(jìn)一步提高分類的準(zhǔn)確率。另外,將探索自動提取元路徑的方法,進(jìn)一步挖掘微博異構(gòu)圖的信息。