王 壯,隋 杰
(中國科學(xué)院大學(xué) 工程科學(xué)學(xué)院,北京 100049)
網(wǎng)絡(luò)謠言檢測本質(zhì)上是一個二分類問題,即實驗者通過使用特定模型對一條或者一系列的帖子進(jìn)行判別,將其分類為謠言或者非謠言。
近年來,隨著神經(jīng)網(wǎng)絡(luò)技術(shù)不斷在自然語言處理領(lǐng)域取得進(jìn)展,越來越多的學(xué)者將其應(yīng)用到謠言檢測領(lǐng)域[1]。Ma等[2]將循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)運(yùn)用到網(wǎng)絡(luò)謠言檢測中,相比于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,大大提高了謠言檢測的效率。劉政等[3]提出了一種改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)模型用于微博謠言檢測,該模型結(jié)構(gòu)簡單,易于實現(xiàn)。Chen等[4]將注意力機(jī)制與RNN模型相結(jié)合用于謠言檢測,在一定程度上解決了文本信息過度冗余、遠(yuǎn)程間信息聯(lián)系薄弱的問題。然而,上述模型只關(guān)注于謠言的文本信息而忽略了其附帶的圖片和社會信息,限制了模型的檢測效果。針對于此,Jin等[5]利用神經(jīng)網(wǎng)絡(luò)分別對待測事件中的圖片、文本和社會特征等信息進(jìn)行編碼并使用注意力機(jī)制將其結(jié)合,提升了圖片信息的利用價值。Dhruv等[6]通過自動編碼器對融合后的多模態(tài)向量進(jìn)行約束,從而更好地學(xué)習(xí)多模態(tài)之間的聯(lián)合表示。劉金碩等[7]則通過提取圖像中隱藏的文字來提高模型的檢測效果。
目前,多模態(tài)謠言檢測模型已成為謠言檢測領(lǐng)域的一大發(fā)展趨勢,但現(xiàn)有的該類模型仍存在著各模態(tài)間信息融合不足和模型泛化能力較差等問題,這也是本模型著重解決的。
現(xiàn)有的謠言檢測模型大多數(shù)只關(guān)注于謠言的傳播途徑或者文本內(nèi)容,而忽略了事件相關(guān)的圖片信息。有研究表明[8],帶有圖片內(nèi)容的新聞轉(zhuǎn)發(fā)次數(shù)是純文本新聞的11倍以上,其具有更強(qiáng)的迷惑性和傳播性。目前,僅有少數(shù)工作關(guān)注到了新聞中的圖片信息,但這些多模態(tài)謠言檢測模型普遍只是將圖像信息與文本信息進(jìn)行簡單的特征級融合后進(jìn)行分類,而實際上各模態(tài)間的語義信息在特征空間是異構(gòu)的,這可能會導(dǎo)致以下兩個問題:①多模態(tài)之間的信息融合不夠充分;②模型過于依賴各模態(tài)間的信息完整度(可能有的事件只存在文本信息,而有的事件只存在圖片信息)。
針對上述問題,本文提出了將特征級融合與改進(jìn)后的決策級融合相結(jié)合的多模態(tài)謠言檢測模型MFCD。本模型通過多級融合框架對視覺特征和文本內(nèi)容之間的區(qū)別性特征和相關(guān)性進(jìn)行學(xué)習(xí),在保留各模態(tài)原始信息的基礎(chǔ)上進(jìn)一步提升了各模態(tài)間的信息融合程度。同時,根據(jù)不同模態(tài)信息的實際缺失情況采取不同的決策級融合策略,在一定程度上解決了現(xiàn)有的多模態(tài)謠言檢測模型過于依賴各模態(tài)間信息完整度的問題。
MFCD模型總體框架如圖1所示,主要由純文本模型Textual、純圖片模型Visual和深度特征級融合模型(feature-level fusion model,F(xiàn)FM)等3個部分組成。首先,分別利用文本-卷積神經(jīng)網(wǎng)絡(luò)(text convolutional neural network,TextCNN)和深度殘差網(wǎng)絡(luò)(residual neural network,Resnet)[9]對文本內(nèi)容和圖片內(nèi)容進(jìn)行編碼,構(gòu)建Textual模型和Visual模型;然后將兩者的語義映射進(jìn)行特征級的融合,得到深度特征級融合模型FFM,其可以挖掘不同模態(tài)信息間的非線性關(guān)系,在剔除多模態(tài)間冗余信息的同時學(xué)習(xí)互補(bǔ)信息;最后,將3個模型的各自決策輸入改進(jìn)后的決策級融合層得到最終的決策結(jié)果。
圖1 MFCD模型框架
相比于傳統(tǒng)的RNN模型,TextCNN模型能夠更好地?fù)渥降轿谋局械木植空Z義關(guān)系,已在短文本分類領(lǐng)域取得一定的成功[10]。其工作原理為利用各種形狀的卷積核分別提取文本中不同粒度的特征并加以拼接,進(jìn)而對文本進(jìn)行分類。模型主體結(jié)構(gòu)如圖2所示,主要由預(yù)處理層、卷積層、池化層、融合層和輸出層等5個部分組成。
(1)預(yù)處理層
使用預(yù)處理模型對分詞后的中文文本進(jìn)行編碼,得到代表該文本的矩陣。其中,n代表該文本分詞后的詞語數(shù)量,d代表每個詞語的向量表示維度。
(2)卷積層
卷積核c是一個形狀為d*h的矩陣。其中,h為該卷積核的長度,d為該卷積核的寬度,該寬度與詞語的向量維度保持一致。單位向量A中的第i個節(jié)點a(i)可表示為
(1)
(3)池化層
池化操作是從每個單位向量A中選取出最能代表該單位向量的某個節(jié)點。一般采用最大值池化方法,即選取其中值最大的節(jié)點代表該單位向量A。
(4)融合層
將各個池化層得到的特征進(jìn)行拼接即得到對應(yīng)的融合層。
(5)輸出層
一般使用Softmax函數(shù)對融合層進(jìn)行處理得到輸出層,輸出結(jié)果即為各個類別所對應(yīng)的概率大小。
圖2 TextCNN模型結(jié)構(gòu)
現(xiàn)有的大多數(shù)多模態(tài)謠言檢測模型[5-7]使用深度卷積神經(jīng)網(wǎng)絡(luò)模型VGG19(visual geometry group,VGG)對圖片進(jìn)行特征提取,在提升了圖片信息利用率的同時也造成了模型參數(shù)過多、易過擬合等問題。針對這個問題,本文提出采用基于遷移學(xué)習(xí)的深度殘差網(wǎng)絡(luò)Resnet18模型代替VGG19。相比之下,Resnet18模型的參數(shù)量更小,訓(xùn)練速度更快,準(zhǔn)確率更高。
Resnet模型最初由Kaiming He等提出,被廣泛應(yīng)用于圖像處理和計算機(jī)視覺領(lǐng)域。其主要思想是采用了多級的殘差模塊進(jìn)行連接,有效地緩解了傳統(tǒng)深度卷積神經(jīng)網(wǎng)絡(luò)模型因?qū)訑?shù)過多而導(dǎo)致的反向傳播梯度消失和模型性能退化等問題。
每個殘差單元由一個殘差學(xué)習(xí)分支和一個恒等映射分支組成,具體結(jié)構(gòu)如圖3所示。其中,x表示輸入,F(xiàn)(x)表示殘差學(xué)習(xí)分支的結(jié)果,relu表示激活函數(shù),則殘差單元的輸出可表示為H(x)=F(x)+x。 當(dāng)殘差學(xué)習(xí)分支不工作時,H(x)=x。 殘差分支中的兩個1*1層作用分別為降維和升維,以保證F(x)的維度與x的維度保持一致,進(jìn)而進(jìn)行后續(xù)操作。
圖3 Resnet單元結(jié)構(gòu)
根據(jù)目前已有的研究,多模態(tài)信息間的融合方式大致可分為數(shù)據(jù)級融合[11]、特征級融合[12,13]和決策級融合[14]。數(shù)據(jù)級融合是指直接將多個數(shù)據(jù)源集成到單個特征向量中再進(jìn)行后續(xù)處理。該種融合方式的優(yōu)點在于在一定程度上保持了數(shù)據(jù)的完整性,避免了數(shù)據(jù)的丟失和污染。但是其缺點也很明顯,由于各種模態(tài)間的信息表現(xiàn)形式差異較大,此種融合方式很難利用各種模態(tài)信息間的互補(bǔ)性,甚至?xí)斐珊艽蟮男畔⑷哂唷O啾葦?shù)據(jù)級融合,特征級融合和決策級融合的應(yīng)用范圍更加廣泛,應(yīng)用方式更加靈活。
近年來,將多種融合模式相結(jié)合使用的多模態(tài)模型已在多個領(lǐng)域取得進(jìn)展[15,16],受此啟發(fā),本文提出了結(jié)合特征級融合與改進(jìn)后的決策融合的多模態(tài)謠言檢測模型,在保留了各模態(tài)信息獨立性的同時使其充分互補(bǔ),其融合原理如圖4所示。
圖4 多級融合框架
2.3.1 特征級融合
特征級融合又稱中期融合,是指分別使用不同的特征提取器對各個模態(tài)信息提取后再進(jìn)行拼接、按位加或者按位乘的操作過程。本模型采用直接拼接的特征級融合方案,具體過程如式(2)所示
Fi=Ti⊕Vi
(2)
式中:Ti表示第i個樣本中文本信息的特征映射,Vi表示該樣本中圖片信息的特征映射,?表示連接操作,F(xiàn)i則表示該樣本的圖文聯(lián)合信息映射。
相比于數(shù)據(jù)級融合方式,特征級融合對不同模態(tài)信息采用不同的特征提取器,更加能挖掘各模態(tài)信息的潛在語義特征。但是單獨的特征級融合方式對各模態(tài)的信息完整度要求很高,如果某個模態(tài)的信息缺失,只能使用對應(yīng)模態(tài)數(shù)據(jù)的平均值或者其它數(shù)據(jù)進(jìn)行填充,將會對模型的決策結(jié)果造成很大的不利影響。
2.3.2 改進(jìn)后的決策級融合
決策級融合又稱為后期融合,其首先分別提取各個模態(tài)的特征,然后輸入對應(yīng)的模型中并得到各自的分類結(jié)果,最后將各個模態(tài)的分類結(jié)果進(jìn)行整合計算,以得到最終的分類結(jié)果。
決策級融合可以較好處理不同模態(tài)間的數(shù)據(jù)異步性問題,其融合規(guī)模也可以隨著模態(tài)個數(shù)的增加而進(jìn)行簡單的擴(kuò)展,對于融合不同性質(zhì)特征的數(shù)據(jù)分類結(jié)果是十分有效的。但是當(dāng)出現(xiàn)各個模態(tài)信息不完整的情況時,傳統(tǒng)的決策級融合方案不能避免其帶來的影響。針對本模型而言,當(dāng)某一模態(tài)信息缺失時,不僅會影響到該模態(tài)對應(yīng)模型的決策結(jié)果,還會對特征級融合模型FFM的結(jié)果產(chǎn)生影響,從而使總決策結(jié)果產(chǎn)生巨大偏差,導(dǎo)致分類錯誤。
針對于此,本模型采用一種改進(jìn)后的后期融合方案,對于不同的模態(tài)信息缺失情況采用不同的決策級策略,從而避免了因某個模態(tài)信息缺失而影響到最終模型的分類結(jié)果。具體來說,當(dāng)某一模態(tài)信息缺失時,則使用另一模態(tài)的分類結(jié)果作為最終分類結(jié)果;當(dāng)各個模態(tài)信息完整時,使用三者與對應(yīng)的自適用權(quán)重之積的和作為最終分類結(jié)果。具體見式(3)
(3)
式中:YTextual、YVisual、YFFM和YMFCD分別為各自模型對應(yīng)的決策結(jié)果;α、β和γ分別為各個模型的所占權(quán)重,且滿足 {α,β,γ|α,β, γ∈[0,1], α+β+γ=1}。
為驗證本模型的可行性及檢測效果,在微博數(shù)據(jù)集上進(jìn)行了實驗。
表1 微博數(shù)據(jù)集
從表1中可以看出,樣本中模態(tài)信息不完整的情況是切實存在的,這也從側(cè)面反映出本模型所采用的改進(jìn)后的決策級融合方案是具有一定現(xiàn)實意義的。
本模型采用小批量隨機(jī)梯度下降方法訓(xùn)練數(shù)據(jù),每個批次的樣本數(shù)量為32,初始學(xué)習(xí)率設(shè)置為0.001,共訓(xùn)練60次循環(huán)。采用交叉熵?fù)p失函數(shù)和Adam優(yōu)化器進(jìn)行反向傳播優(yōu)化。同時,為防止模型過擬合,使用Dropout和L2正則化對模型參數(shù)進(jìn)行約束。
為公平比較各模型性能,以下模型均在上述數(shù)據(jù)集進(jìn)行實驗,且訓(xùn)練集與測試集的劃分比例相同。
(1)Textual模型
該模型僅利用樣本中的文本信息進(jìn)行實驗。首先使用結(jié)巴分詞將中文文本進(jìn)行分詞,然后使用Word2vec技術(shù)將分詞后的文本進(jìn)行編碼,編碼后的單詞維度為32。對于文本長度不足或者文本缺失的樣本,使用0元素進(jìn)行填充。TextCNN模型共有高度分別為1、2、3、4等4種形狀不同的卷積核,每種卷積核的個數(shù)為8,故輸出向量維度為32。將輸出向量輸入分類器,即得到該樣本的最終分類結(jié)果。
(2)Visual模型
該模型僅利用樣本中的圖片信息進(jìn)行實驗,對于圖片信息缺失的樣本用0進(jìn)行像素級的填充,即利用一張純黑圖片代替該樣本中的圖片信息。將圖片編碼后輸入Resnet18模型,后接一個維度為32全連接層,最后輸入分類器得到樣本分類結(jié)果。為增強(qiáng)模型泛化能力和減少訓(xùn)練時間,Resnet18網(wǎng)絡(luò)采取遷移學(xué)習(xí)的方式,選用已在大型數(shù)據(jù)集Image1000上訓(xùn)練完畢的模型參數(shù)且不參與反向傳播,僅對后接線性層進(jìn)行微調(diào)。
(3)FFM模型
將Textual模型和Visual模型提取的特征向量進(jìn)行特征級融合后輸入分類器進(jìn)行分類。
(4)DFM模型
將Textual模型和Visual模型分別得到的分類結(jié)果進(jìn)行決策級的融合。
(5)att-RNN模型[5]
該模型利用注意力機(jī)制將文本、圖片及社會特征等信息進(jìn)行融合后輸入分類器進(jìn)行判斷。為公平比較,本文采用其刪除了社會特征后的模型,其余參數(shù)與文獻(xiàn)[5]中所述一致。
(6)MVAE模型[6]
該模型利用VAE(variational autoencoder,VAE)模塊對多模態(tài)特征融合后的向量進(jìn)行約束,然后利用該特征向量進(jìn)行分類。
(7)MRSD模型[7]
該模型首先將圖片中的文本提取出來,然后將其與樣本中的文本內(nèi)容進(jìn)行連接,最后將圖片與連接后的文本進(jìn)行特征級的融合并分類。
(8)MFCD-模型
使用一般的決策級融合代替改進(jìn)后的決策級融合,其余部分與MFCD模型一致。
本文采用F1值、準(zhǔn)確率(Accuracy,A)、精確率(Precision,P)和召回率(Recall,R)等4個常用指標(biāo)對各模型進(jìn)行評價。各模型結(jié)果見表2。
表2 實驗結(jié)果
由表2可以看出,MFCD模型在最重要的性能指標(biāo)F1值和準(zhǔn)確率上分別達(dá)到了0.830和0.829,均高于目前主流的多模態(tài)謠言檢測模型,充分驗證了本模型的先進(jìn)性能。精確率與召回率在一般情況下是相互矛盾的,難以做到雙高。MSRD模型在精確率指標(biāo)上最高,達(dá)到了0.854,但其召回率卻只有0.716,這可能是由于該模型對正負(fù)樣本的判別能力相差較大而導(dǎo)致的。
(1)單模態(tài)與多模態(tài)的性能對比
多模態(tài)模型FFM和DFM在F1值上分別達(dá)到了0.808和0.811,均高于純文本模型Textual的F1值0.775和純圖片模型Visual的F1值0.714,說明特征級融合和決策級融合都能夠有效地提高謠言檢測效果。
(2)單級融合與多級融合的性能對比
多級融合模型MFCD-的F1值達(dá)到了0.824,分別比FFM和DFM高出了1.6%和1.3%,且高于目前主流的多模態(tài)謠言檢測模型,說明通過構(gòu)建多級融合框架進(jìn)一步提高了多模態(tài)間的信息互補(bǔ)能力,剔除了冗余信息。
(3)決策級融合改進(jìn)前后的性能對比
MFCD模型在F1和準(zhǔn)確率指標(biāo)上均高于MFCD-模型,驗證本文提出的改進(jìn)后的決策級融合方案對于緩解樣本中模態(tài)信息缺失情況是切實有效的。針對模態(tài)信息不全的樣本單獨進(jìn)行統(tǒng)計,MFCD模型在其上的準(zhǔn)確率為0.831,而MFCD-模型的準(zhǔn)確率僅為0.812,進(jìn)一步驗證了改進(jìn)后決策級融合方案的效果。
MFCD模型效果優(yōu)于MFCD-模型的原因主要可以歸納為以下兩點:
一方面在于MFCD-模型對于樣本中缺失的模態(tài)信息需要使用0元素進(jìn)行填充。如在謠言事件“今天下午位于深圳東門發(fā)生特大暴力恐怖事件,前往東門的朋友要注意安全!請互相轉(zhuǎn)告!怕二次事件再次發(fā)生??!”中,因為該事件缺少圖片信息,MFCD-模型使用了大量的無意義的0元素填充出缺失的圖片信息,增加了無用的干擾信息,從而導(dǎo)致了最終的分類結(jié)果錯誤。而MFCD模型直接利用純文本進(jìn)行判斷,避免了圖片信息缺失帶來的負(fù)面影響,更容易得到正確的分類結(jié)果。
另一方面得益于MFCD模型對不同的子模型給予了不同的權(quán)重,更好地發(fā)揮了各自的性能。通過對超參數(shù)進(jìn)行迭代,發(fā)現(xiàn)當(dāng)α=0.11、β=0.39、γ=0.5時MFCD模型取得最佳分類效果。
本文針對目前多模態(tài)謠言檢測領(lǐng)域存在的模態(tài)間信息融合不充分、過于依賴各模態(tài)信息完整度等問題提出了MFCD模型,該模型將特征級融合與決策級融合相結(jié)合并對決策級融合進(jìn)行了改進(jìn),在一定程度上解決了上述的兩個問題。實驗結(jié)果表明,本模型性能在F1值和準(zhǔn)確率指標(biāo)上均優(yōu)于相關(guān)基線模型。下一步將重點研究如何構(gòu)建更加高效合理的特征級融合方案,進(jìn)一步剔除冗余信息,提高各模態(tài)間的信息互補(bǔ)能力。