王菽裕,許曉宇
(西藏民族大學(xué) 信息工程學(xué)院,陜西 咸陽 712082)
隨著科技的發(fā)展和社交媒體的擴(kuò)張,謠言傳播范圍廣泛,謠言檢測(cè)也逐漸引起人們的廣泛關(guān)注。早期使用手工制作特征的方法由于效率低下而被淘汰,近年來逐漸采用深度學(xué)習(xí)方法。
深度學(xué)習(xí)方法在謠言檢測(cè)領(lǐng)域得到了廣泛應(yīng)用,可分為兩類。第一類方法主要關(guān)注文本挖掘和學(xué)習(xí)文本語義特征。例如,早期的研究中,Jing等[1-2]使用了遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)包括LSTM和GRU來學(xué)習(xí)謠言檢測(cè)中的說法表示。另外,Feng等[3]通過使用卷積核提取文本中的特征訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNNs)。據(jù)Huang等[4]的研究表明,謠言和非謠言通過傳播形成了不同的結(jié)構(gòu)。
Lin等[5]為了增強(qiáng)謠言檢測(cè)模型的結(jié)構(gòu)信息學(xué)習(xí)能力,提出了一種獲得文本、傳播和結(jié)構(gòu)信息的方法,由編碼器、解碼器和檢測(cè)器3個(gè)部分組成。編碼器采用高效的圖卷積網(wǎng)絡(luò),將初始的文本信息視為輸入,并通過傳播來更新節(jié)點(diǎn)特征,從而學(xué)習(xí)文本和傳播信息。編碼器生成的節(jié)點(diǎn)特征將被用于隨后的解碼器模塊,該模塊使用AutoEncoder方法來學(xué)習(xí)整體的圖結(jié)構(gòu)信息。同時(shí),檢測(cè)器利用編碼器的輸出對(duì)謠言事件進(jìn)行分類。然而在編碼器部分忽略了考慮謠言傳播的時(shí)間特性。近年來,圖神經(jīng)網(wǎng)絡(luò)的研究引起了人們的廣泛關(guān)注,許多研究者提出了一些方法,其中GCN對(duì)圖結(jié)構(gòu)的特征提取是最有效的。GCN也在許多領(lǐng)域都有很好的應(yīng)用,如蛋白質(zhì)界面預(yù)測(cè)、文本分類和社區(qū)檢測(cè)。某個(gè)問題是基于圖或者節(jié)點(diǎn)之間的關(guān)系時(shí),使用GCN對(duì)圖進(jìn)行操作,可以更好地獲得節(jié)點(diǎn)的高級(jí)特征。為了進(jìn)一步提升謠言檢測(cè)的準(zhǔn)確率,改進(jìn)Lin等[5]中的特征提取模塊,也就是在考慮謠言的靜態(tài)全局結(jié)構(gòu)特征的同時(shí),還要考慮謠言傳播的時(shí)間特性。在解碼部分,涉及多任務(wù)模式完成謠言檢測(cè),任務(wù)一是完成謠言全局靜態(tài)結(jié)構(gòu)特征的恢復(fù),任務(wù)二是完成謠言檢測(cè)(是或者否)。本文主要貢獻(xiàn)在于以下幾點(diǎn):
(1)提出了多任務(wù)謠言檢測(cè)模型ED2,任務(wù)一可以直觀觀測(cè)謠言傳播的全局結(jié)構(gòu)特征;任務(wù)二實(shí)現(xiàn)謠言的檢測(cè)。
(2)改進(jìn)了謠言特征提取模塊,一方面考慮全局結(jié)構(gòu)特征,一方面考慮謠言傳播時(shí)間特征。
(3)在公開數(shù)據(jù)集上驗(yàn)證了所提模型的謠言檢測(cè)準(zhǔn)確率,能達(dá)到最好的效果。
數(shù)據(jù)集具備相應(yīng)的標(biāo)簽,通過監(jiān)督學(xué)習(xí)的方式訓(xùn)練網(wǎng)絡(luò)模型,模型輸入和輸出可以表示為:
(1)
為了實(shí)現(xiàn)謠言檢測(cè),筆者設(shè)計(jì)了如圖1所示的多任務(wù)謠言檢測(cè)模型ED2,共包括3個(gè)模塊。Encoder模塊,用于實(shí)現(xiàn)謠言信息的特征提取,該模塊的設(shè)計(jì)思想是通過改進(jìn)前人模型,主要區(qū)別在于考慮全局靜態(tài)結(jié)構(gòu)特征提取的同時(shí),還需要考慮時(shí)序特征提取,為此引入第二分支LSTM用來實(shí)現(xiàn)該目標(biāo)。兩個(gè)分支提取的特征具有相同的形狀,通過級(jí)聯(lián)操作拼接為中間特征。中間特征將用于后續(xù)兩個(gè)模塊的輸入,也就是實(shí)現(xiàn)兩個(gè)子任務(wù)。分別是謠言結(jié)構(gòu)恢復(fù)模塊Decoder,該模塊通過將中間特征轉(zhuǎn)置再與中間特征進(jìn)行點(diǎn)乘操作,得到的特征向量經(jīng)過激活函數(shù)恢復(fù)可表示信息全局結(jié)構(gòu)特征的鄰接矩陣A。任務(wù)二是謠言檢測(cè)模塊Detector,中間特征經(jīng)過最大池化和平均池化操作,將兩者的輸出進(jìn)行拼接,依次輸入到全連接層和激活層得到謠言檢測(cè)的判斷。
圖1 多任務(wù)謠言檢測(cè)模型ED2
Encoder模塊。設(shè)初始輸入xi表示一個(gè)帖子,該帖子用TF-IDF表示為固定詞匯表中的單詞向量。A為鄰接矩陣,表示帖子之間的關(guān)系。分支一中使用原始GCN論文中使用的1stChebNet方法,GCN通過聚合鄰居的特征來更新節(jié)點(diǎn)特征。它對(duì)信息流如何通過傳播從源帖流向當(dāng)前節(jié)點(diǎn)進(jìn)行建模。單層GCN一般效果較差,因此該模塊結(jié)構(gòu)采用兩層GCN來增強(qiáng)學(xué)習(xí)能力,公式如下:
H1=GCN(xi, A)
(2)
H2=GCN(H1,A)
(3)
分支二中使用原始LSTM結(jié)構(gòu),用于提取時(shí)序特征,具體可以表示為:
M=LSTM(xi)
(4)
因?yàn)镠2和M具有相同的形狀,通過拼接兩個(gè)特征向量得到中間特征Z。
Decoder模塊。該模塊主要是用于恢復(fù)謠言傳播全局結(jié)構(gòu)特征,可以監(jiān)督特征提取模塊更好地提取到既能反映謠言傳播結(jié)構(gòu)又能反映謠言傳播時(shí)間上的中間特征Z。該模塊用公式表示為:
(5)
Detector模塊。檢測(cè)器模塊以中間特征作為輸入,目的是將事件分類為細(xì)粒度標(biāo)簽。該模塊采用最大池化和均值池化運(yùn)算將所有節(jié)點(diǎn)信息聚合為事件表示。其公式為:
(6)
本節(jié)介紹實(shí)驗(yàn)中使用的微博數(shù)據(jù)集,將提出的模型ED2與基線模型VAE-GCN進(jìn)行比較。與其比較的基線模型是VAE-GCN,用GCN作為編碼器,變分GAE作為解碼器。實(shí)驗(yàn)結(jié)果如表1所示。
表1 謠言檢測(cè)在微博上性能比較
表1顯示了兩個(gè)模型在微博數(shù)據(jù)集上的性能。本文提出的模型ED2在4個(gè)指標(biāo)上基本得到了提升。其原因主要在于特征提取模塊考慮了提取雙重特征,即全局結(jié)構(gòu)特征和傳播時(shí)序特征。ED2模型使用GCN通過傳播來更新節(jié)點(diǎn)的表示。由于頻譜卷積方法在圖數(shù)據(jù)上具有較高的準(zhǔn)確率,實(shí)驗(yàn)結(jié)果表明,ED2可以學(xué)習(xí)到更高層次、更好的特征表示方法。結(jié)合結(jié)構(gòu)表示,ED2模型更加關(guān)注傳播的最終全局結(jié)果,這有助于進(jìn)一步提升謠言檢測(cè)的性能。
謠言和非謠言具有明顯的全局結(jié)構(gòu)特征的區(qū)別,且謠言傳播具有時(shí)序特征,ED2模型在特征提取階段考慮了提取雙重特征,在微博數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果表明,ED2模型提高了謠言檢測(cè)性能,并且優(yōu)于最先進(jìn)的基線模型VAE-GCN。