袁 玥,劉永彬,歐陽純萍,田紋龍,方文瀧
(南華大學 計算機學院,湖南 衡陽 421001)
根據(jù)多模態(tài)的定義[1-2]“不同信息的來源或形式稱為不同的模態(tài)”,圖片、語音、視頻、文本等被認為是不同的模態(tài)。隨著社交網(wǎng)絡的迅速發(fā)展,新浪微博、短視頻等新興的媒體平臺成為了大眾獲取新聞的主要渠道。以新浪微博平臺為例,一條新聞帖子通常包含兩種模態(tài)即文本模態(tài)和視覺模態(tài)。本文致力于研究融合文本模態(tài)和視覺模態(tài)的互補信息,進行虛假新聞檢測。
不同于傳統(tǒng)媒體時代,新興媒體平臺的用戶可以發(fā)布或者轉(zhuǎn)載未經(jīng)核實的帖子,并且在帖子中使用了多張圖片作為“證據(jù)”,這種帶有圖片證據(jù)的虛假新聞容易被迅速傳播,會帶來巨大的經(jīng)濟和社會輿論影響。圖1(a)是一條來自新浪微博的新聞帖子,文本描述了一條關于“豬肉中存在鉤蟲”的虛假新聞帖子,并配圖證明此新聞的真實性,成功誤導了大眾并被迅速傳播[3]。針對這一新聞,當?shù)卣Q大眾所認為的“鉤蟲”并非真蟲,而是豬的神經(jīng)纖維、血管等結(jié)構(gòu),僅僅看起來像蟲子。相關研究顯示,圖片會刺激人大腦中的“偽證據(jù)”,其直觀性和易讀性更能吸引公眾的注意力。因此,基于文圖的虛假新聞自動檢測至關重要。
圖1 來自新浪微博數(shù)據(jù)集的新聞帖子
針對大量的文字和圖片混合的虛假新聞,學者們開始關注多模態(tài)虛假新聞自動檢測?,F(xiàn)有的面向多模態(tài)的虛假新聞檢測方法主要是利用了文圖特征的互補性來提升檢測性能。例如,EANN[4],MVAE[5]等方法簡單融合了提取的單模態(tài)特征,用于虛假新聞分類。隨后,研究學者通過研究文圖模態(tài)間的相似性特征,輔助虛假新聞檢測任務。例如,SAFE[6]學習了圖片和文本的語義相似性;文獻[7-8]學習了圖片和文本中實體對的相似性。與單模態(tài)相比,這些方法表現(xiàn)出了更好的性能,但它們只是抽取新聞帖子中一張圖片的信息作為文本內(nèi)容的補充。如圖1(b)所示,一段新聞文本對應了多張圖片,但是若只使用其中一張帶有“蠟燭”實體的圖片,而在新聞文本中又沒有對應的文本實體,則容易誤導檢測的結(jié)果。通過統(tǒng)計新浪微博數(shù)據(jù)集中每個帖子圖片數(shù)量占比(表1),我們發(fā)現(xiàn)大多數(shù)的新聞帖子內(nèi)包含多張圖片,包含1張圖片的帖子僅占比37.8%。因此,如何充分利用視覺信息并挖掘新聞帖子中多張圖片的有效特征進行虛假新聞檢測是當前亟需解決的一個問題。
表1 新浪微博數(shù)據(jù)集中每條新聞圖片數(shù)量統(tǒng)計
最近,一些研究學者還關注到利用一個帖子內(nèi)的模態(tài)交互關系可以增強融合圖文特征的聯(lián)合表示。例如,MFN[9]、HMCAN[10]等方法利用了注意力機制融合帖子內(nèi)的文圖特征,在虛假新聞檢測任務上取得了良好的表現(xiàn)。但是這些方法重點關注在一個帖子內(nèi)融合文圖特征,忽略了相同標簽新聞帖子之間的關聯(lián)。
新聞帖子1: 【震驚!五個孩子是被割腎?】……讓李元龍記者出來!垃圾箱內(nèi)如何燒東西?還有五個人呢?最先爆料者李元龍失蹤了,這又是在掩蓋什么?(假新聞)
新聞帖子2: #塘沽爆炸真相#……怎么可能就50人遇難,對面就是居民樓,方圓三十公里都有人,政府以為這樣就能瞞得住群眾嗎?太讓人心寒。(假新聞)
我們發(fā)現(xiàn)相同真(假)新聞的帖子具有共同特征,假新聞帖子間的語義表達更具有傾向性和主觀性。以上例子可以看出,帖子1和中的2的發(fā)布者均主觀性地虛構(gòu)了新聞事實,并使用疑問語氣渲染氣氛放大矛盾。其中,帖子1主觀性地認為爆料者在掩蓋真相;帖子2傾向性地將問題矛頭對準政府。當不明真相的網(wǎng)絡用戶看到這些帖子,他們的情緒瞬間被帶動,并轉(zhuǎn)載不實的帖子。因此,學習真新聞帖子間的共同特征和假新聞帖子間的共同特征,對于增強融合文圖特征的多模態(tài)表示十分重要。
針對上述問題,我們提出了一個基于文圖一對多關系的多模態(tài)虛假新聞檢測方法。主要貢獻如下:
(1) 利用新聞帖子中的一對多關系的文圖特征,捕捉文本和視覺內(nèi)容的完整語義。同時,利用跨模態(tài)注意力網(wǎng)絡,增強視覺內(nèi)容的語義表達。
(2) 基于多模態(tài)對比學習網(wǎng)絡,動態(tài)調(diào)整帖子間的關聯(lián)程度,學習真新聞帖子間的共同特征和假新聞帖子間的共同特征,加強融合文本和視覺特征的多模態(tài)聯(lián)合表示。
(3) 在新浪微博數(shù)據(jù)集上的多組對比實驗結(jié)果表明,本模型同時利用了帖子內(nèi)和帖子間的多模態(tài)特征表示,比現(xiàn)有的多模態(tài)虛假新聞檢測模型準確率提升大約3.15%。
面向單模態(tài)的虛假新聞檢測任務側(cè)重于提取文本或圖片的單模態(tài)語義特征。
基于文本的虛假新聞檢測任務主要研究新聞帖子的單詞符號和句子表示等文本內(nèi)容。例如,Ma等人[11]首次將深度學習應用到文本虛假新聞檢測任務中,利用循環(huán)網(wǎng)絡的隱藏層向量表示句子的語義特征,用于文本分類;Cheng等人[12]使用變分自動編碼器輔助編碼文本信息,用于新聞二分類任務,提升了模型的效果。另一方面,基于圖片的虛假新聞檢測則主要研究虛假新聞中的圖片特征。如Jin等人[13]利用統(tǒng)計學方法,提取了虛假新聞中圖片的特征(圖片的清晰度、圖片間的相似度),用于虛假新聞的自動檢測。Qi等人[14]設計了一個基于CNN[15]的模型,利用頻域和像素域的視覺信息,獲取了假新聞圖片在物理和語義層面的特征。由于文本或圖片只關注了某一層面的信息,所以限制了單模態(tài)虛假新聞檢測方法的性能。研究學者發(fā)現(xiàn)不同模態(tài)間的互補性能夠提供更多有效的信息,提高虛假新聞檢測效果。
面向多模態(tài)的虛假新聞檢測任務側(cè)重于關注模態(tài)間的聯(lián)系,構(gòu)建更為有效的文圖模態(tài)特征融合表示。
一部分學者側(cè)重于引入輔助增強功能提升模型的檢測效果。例如,Wang等人[4]提出使用對抗神經(jīng)網(wǎng)絡去除不同事件的特有特征,來學習不同領域新聞的共享特征;Khattar等人[5]提出利用變分自動編碼器來學習多模態(tài)表示;Zhou等人[6]認為文本和視覺信息不匹配的新聞更容易被偽造,從而利用跨模態(tài)相似性計算來分析新聞文本和視覺信息之間的相關性。這些方法將不同模態(tài)特征進行簡單融合,相比利用單模態(tài)特征進行虛假新聞檢測效果有所提升。所以后續(xù)有學者嘗試利用深度學習技術(shù)來增強各個單模態(tài)的表示效果,用于提升多模態(tài)聯(lián)合特征表示。2019年,Singhal等人[16]利用BERT[17]和VGG19[18]模型分別提取文本和圖片特征,再拼接各個單模態(tài)特征,用于虛假新聞檢測;2020年,該團隊又使用了一種新型的預訓練模型XLNET[19]抽取文本特征,提升了文本模態(tài)的表示效果。上述方法關注了增強某一種模態(tài)的特征表示來提升虛假新聞檢測效果,但是均未考慮不同模態(tài)間的特征關聯(lián),導致多模態(tài)聯(lián)合特征表示效果不佳。
有部分學者則將問題聚焦于如何利用一個新聞帖子內(nèi)模態(tài)間的關聯(lián),提升多模態(tài)融合特征表示。例如,Jin等人[20]首次引入注意力機制融合一個帖子內(nèi)的多模態(tài)特征;Qi等人[8]提出用實體連接文圖信息,并使用多模態(tài)協(xié)同注意力Transformer來對齊文本與視覺模態(tài);張少欽等人[9]利用多頭注意力來融合不同模態(tài)特征;Qian等人[10]提出了一種基于層次化的多模態(tài)上下文注意模型。以上方法雖然利用了一個帖子內(nèi)的圖文間豐富的分層語義特征及一個帖子內(nèi)不同模態(tài)間的交互關系,取得了不錯的效果,但是均忽略了多個新聞帖子間的特征關聯(lián)。
近年來,對比學習被廣泛應用于各大研究領域,如自然語言處理[21-22]、計算機視覺[23-24]領域等。其核心思想是: 使得相似樣本距離更近,反之距離更遠[25]。目前,關于多模態(tài)對比學習,現(xiàn)有的方法大多是進行圖片和文本模態(tài)之間的對比,學習更好的單模態(tài)表示。例如,Jia等人[26]基于對比學習損失,訓練模型將匹配的文圖對融合,不匹配的文圖對分散,用來對齊圖片和文本表示;Li等人[27]提出了一種對比損失,計算圖文特征表示的相似性,并動態(tài)構(gòu)造負樣本將多模態(tài)表示對齊。基于此,我們發(fā)現(xiàn)對比學習是解決模態(tài)之間的語義特征關聯(lián)發(fā)現(xiàn)的有效方法,可以利用不同帖子的多模態(tài)聯(lián)合表示作為正負樣本,進行對比學習,拉大真假新聞帖子樣本的差距,從而增強融合文圖信息的多模態(tài)聯(lián)合特征表示。
由于新聞帖子中大量存在文圖一對多的關系結(jié)構(gòu)特點,基于以上相關研究,本文提出了一個面向虛假新聞檢測的多模態(tài)深度學習模型(OMMFN),不僅能夠利用帖子內(nèi)的一對多的文圖語義信息,也能利用帖子間的高層次的語義特征關聯(lián),增強融合不同模態(tài)特征的聯(lián)合表示。
本文提出了一種基于文圖一對多關系的多模態(tài)虛假新聞檢測模型(OMMFN),整體框架如圖2所示。它由多模態(tài)特征提取、多模態(tài)增強功能和分類三個模塊組成。
圖2 基于文圖一對多關系的多模態(tài)虛假新聞檢測模型結(jié)構(gòu)圖
(1) 多模態(tài)特征提取。該模塊由文本編碼器和圖片編碼器組成,文本編碼器首先利用BERT模型獲取最后一層的特征向量,然后利用CNN增強模型的泛化能力,將特征向量轉(zhuǎn)化為32維,用于表示文本特征;圖片編碼器首先獲取該帖子的多張圖片數(shù)據(jù),使用VGG19模型對每一張圖片進行編碼,并轉(zhuǎn)化為與文本相同的32維的特征向量,最后聯(lián)合所有圖片作為視覺特征表示。
(2) 多模態(tài)增強功能。一方面,利用多模態(tài)對比學習網(wǎng)絡增大正負樣本之間的差距,在跨模態(tài)注意力前動態(tài)調(diào)整多模態(tài)的特征表示;另一方面,利用跨模態(tài)注意力網(wǎng)絡尋找文本和圖片模態(tài)間的聯(lián)系,賦予每張圖片不同的權(quán)重,最后將不同模態(tài)的特征拼接,得到新聞帖子的多模態(tài)表示。
(3) 分類。將多模態(tài)表示輸入新聞檢測器進行二分類預測,檢測新聞真假。
從新浪微博數(shù)據(jù)集中獲取新聞帖子的多模態(tài)數(shù)據(jù),用三元組D=(T,V,L)表示。其中,T、V、L分別代表文本、圖片和新聞的真假標簽。
2.2.1 文本編碼器
為了加強語義表示,首先使用BERT中文基礎模型(BERT-base-Chinese)為新聞帖子中的文本建立一個字序列{ai,1,ai,2,…,ai,200}(最大長度為200),然后轉(zhuǎn)化為對應的字向量。文本表示如(1)式所示。
W=x1⊕x2⊕…⊕x200
(1)
相應的Mask值如式(2)所示。
W_Mask=(m1,…,mr,…,m200)
(2)
其中,⊕是串聯(lián)(Concatenation)運算符,mr滿足式(3):
(3)
由于BERT具有超強的特征提取能力,可能使得訓練結(jié)果陷入局部最優(yōu)。于是,我們利用了Text-CNN的稀疏特性,經(jīng)BERT編碼后的特征向量使用不同窗口大小的濾波器,過濾掉一部分噪聲,捕捉到不同顆粒度的文本特征,同時為了防止梯度消失同時增強模型的泛化能力,使用了LeakyReLU激活函數(shù)并隨機遮蔽了部分參數(shù),最后,用一個全連接層提取到32維的文本特征向量,如式(4)所示。
T=et=(et1⊕…⊕et32)
(4)
2.2.2 圖片編碼器
使用VGG19網(wǎng)絡并增加一個全連接層,將特征轉(zhuǎn)換為與文本相同維度的特征序列。則第j張圖片的特征表示如式(5)所示。
Ij=bj,1⊕bj,2⊕…⊕bj,32
(5)
帖子中的視覺特征表示如式(6)所示。
南京市江寧區(qū)率先基本實現(xiàn)水利現(xiàn)代化的途徑和保障措施…………………………………… 吳玉敏,何 華,李育華(3.56)
V={I1,…,Ij,…,Ik}
(6)
其中,k為圖片數(shù)量,k∈{1,2,3,4,5}。相應的Mask值如式(7)所示。
V_Mask={I1_Mask,…,Ij_Mask,…,Ik_Mask}
(7)
Ij_Mask如式(8)所示。
(8)
2.3.1 多模態(tài)對比學習網(wǎng)絡
在引入多模態(tài)對比學習網(wǎng)絡之前,簡單拼接單模態(tài)特征, 并歸一化文圖對,得到帖子i的多模態(tài)特征,如式(9)所示。
q=Softmax(linear(T⊕Ii))
(9)
我們發(fā)現(xiàn)相同真(假)新聞的帖子具有共同特征。為了使真假新聞帖子更好地被區(qū)分,一方面,我們需要拉近相同真(假)新聞帖子的距離;另一方面,增大真假新聞帖子間的差距。而對比學習能夠使得相似樣本距離更近,使得不相似樣本距離更遠。
因此,在一個帖子數(shù)量為N的batch內(nèi),對于第i條真(假)新聞帖子,我們將其他的R(>0)個真(假)新聞帖子視為正樣本,記為k+;將M(M=N-R-1)個假(真)新聞帖子視為負樣本,記為k-。通過數(shù)據(jù)增強動態(tài)地增加一倍的負樣本,同時排除與自身的相似度,計算qi與正樣本的點乘相似度。對比損失定義如式(10)所示。
(10)
其中,τ是一個可以學習的溫度系數(shù)。對比損失表示如式(11)所示。
(11)
2.3.2 跨模態(tài)注意力網(wǎng)絡
為了有效融合圖片特征,緩解多張圖片帶來的噪聲問題,首先使用一層全連接層將圖片特征轉(zhuǎn)化為與文本對應的維度H,再利用跨模態(tài)注意力的打分機制,批量計算帖子中k張圖片與文本對應的相似度分數(shù)S,如式(12)所示。
S=H′?T
(12)
I=I?S
(13)
根據(jù)Ij_mask位置標記統(tǒng)計有效的圖片數(shù)量g,則過濾后的有效圖片特征可表示如式(14)所示。
V=I1⊕I2⊕…⊕Ig, (g≤k)
(14)
通過全連接層調(diào)整視覺特征向量,使得與文本向量維度一致,得到的視覺表示如式(15)所示。
V=ev=(ev1,…,ev32)
(15)
拼接文本和視覺特征,最終的多模態(tài)特征表示如式(16)所示。
e=et⊕ev
(16)
使用Softmax分類,將多模態(tài)特征向量e映射到真實和虛假兩類目標空間中,帖子的概率分布如式(17)所示。
P=Softmax(Wei+b)
(17)
其中,W代表對應的權(quán)重,b代表偏置項,帖子的概率P的取值范圍為[0,1],然后取最大值作為最終的二分類預測類別標簽。
在模型訓練過程中,選用 Adam優(yōu)化器,以及交叉熵函數(shù)(Cross Entropy Loss),虛假新聞預測的分類損失表示如式(18)所示。
(18)
其中,n代表訓練集中的樣本總和,y代表每條帖子的真實類別。最終的損失定義如式(19)所示。
L=Lce+Lcl
(19)
3.1.1 數(shù)據(jù)集
本文使用由Jin等人[20]構(gòu)建的新浪微博數(shù)據(jù)集,該數(shù)據(jù)集是多模態(tài)虛假新聞檢測領域的公開數(shù)據(jù)集。在該數(shù)據(jù)集中,真實的新聞帖子由中國的官方新聞來源(如新華社)收集,假新聞帖子經(jīng)過了微博官方辟謠平臺驗證。本文將整個數(shù)據(jù)集劃分為訓練集、驗證集和測試集,具體劃分形式如表2所示。
表2 數(shù)據(jù)集統(tǒng)計信息 (單位: 條)
3.1.2 參數(shù)設置和評價標準
設置每個帖子的文本最大長度為200,且最多包含5張圖片。在模型訓練過程,選取LeakyReLU為非線性激活函數(shù)。根據(jù)文獻[28]調(diào)整參數(shù)初始值,參數(shù)的設置如表3所示。
表3 參數(shù)設置
本文在訓練集和驗證集上采取常用的評判指標,即準確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1值(F1-score),并將測試集上的輸出值使用混淆矩陣可視化。
為了驗證OMMFN的有效性,我們同時對比了單模態(tài)和多模態(tài)的基線模型。其中,EM-FEND*模型的結(jié)果由文獻[7]作者提供,其他模型結(jié)果均是在上述實驗環(huán)境下復現(xiàn)所得。
3.2.1 單模態(tài)模型
(1) CNN[15],利用CNN模型提取文本特征,將卷積后的特征分類。
(2) BERT[17],使用大規(guī)模預訓練的BERT模型,得到的12層特征向量代表文本特征,并使用全連接層進行分類。
(3) VGG19[18],微調(diào)VGG19模型,生成32維的圖片特征,進行分類。
3.2.2 多模態(tài)模型
(1) EANN[4],使用Text-CNN和預訓練的VGG19模型分別提取文本和圖片特征,將兩種特征拼接后送入分類器。
(2) MVAE[5],分別利用VGG-19模型提取視覺模態(tài)特征,并使用Bi-LSTM提取文本模態(tài)特征,將其編碼后再重構(gòu)出原始的單模態(tài)特征向量,使用學習到的隱向量來預測新聞是否為假。
(3) SAFE[6],分別利用Text-CNN和VGG-19模型來提取文圖單模態(tài)特征,然后利用余弦相似度計算文圖特征的相關性,最后將兩種模態(tài)的特征拼接作為分類器的輸入,用于虛假新聞檢測。
(4) MFN[9],首先利用FasterRCNN模型提取圖片中多個區(qū)域的特征,然后使用多頭注意力以及權(quán)重拼接簡單融合單模態(tài)特征,得到包含文圖特征的多模態(tài)表示。
(5) HMCAN[10],將利用BERT和ResNet分別學習到的文圖模態(tài)表示,輸入一個上下文注意網(wǎng)絡,捕捉多模態(tài)的語義信息來進行新聞檢測。
(6) EM-FEND[8],提取圖片中的嵌入文本,并根據(jù)視覺實體與文本實體的一致性以及一個Transformer為基礎的多模態(tài)編碼器進行建模。
(7) OMMFN-,由于基線模型均使用了一張圖片的信息,在OMMFN模型的基礎上,我們僅保留一張圖片進行分類。
3.3.1 主實驗
將OMMFN模型與上述介紹的所有基線比較,實驗結(jié)果如表4所示。
表4 不同模型的性能比較
從表4的對比結(jié)果可以得出以下結(jié)論:
(1) 在單模態(tài)模型中,單一文本模態(tài)比單一圖片模態(tài)的檢測效果好。單一圖片模態(tài)在所有的對比模型中表現(xiàn)最差,其證明了文本能夠提供比圖片更豐富的特征,而單張圖片所含有的特征不足以識別虛假新聞。
(2) 與單模態(tài)相比,基于多模態(tài)的虛假新聞檢測模型大多有更好的表現(xiàn),表明了多模態(tài)特征的互補性能有效提升虛假新聞檢測效果。
(3) 使用BERT模型提取文本特征來檢測虛假新聞的方法均取得了較好的效果,說明BERT模型能夠有效捕捉文本的語義信息。但是使用了BERT模型的HMCAN和EM-FEND兩個方法雖然融合了文圖兩個模態(tài)特征,而效果并沒有比使用單一文本模態(tài)特征的BERT模型具有優(yōu)勢,說明多模態(tài)融合過程中視覺模態(tài)的特征表示還有待加強。
(4) 我們提出的OMMFN-和OMMFN模型效果表現(xiàn)較為優(yōu)越,顯著超過其他所有基線模型。其中OMMFN-模型僅在一對一文圖關系上使用了對比學習網(wǎng)絡,說明對比學習網(wǎng)絡能更好地增強多模態(tài)的特征表示。OMMFN模型既考慮了文圖一對多關系,也考慮了帖子間的語義關系,說明本文提出的模型確實能夠有效捕捉到多幅圖片中被忽視的重要特征,而加強圖片模態(tài)的特征表示確實是提升多模態(tài)虛假新聞檢測效果的有效途徑。
3.3.2 輔助實驗
(1) 分析圖片數(shù)量對虛假新聞檢測準確率的影響。如圖3所示,隨著圖片數(shù)目的增長,虛假新聞檢測的準確率不斷升高。實驗結(jié)果表明,圖片中的視覺內(nèi)容可以持續(xù)補充虛假新聞檢測需要的重要信息,使用五張圖片與使用一張圖片的視覺信息相比,準確率提升了2.41%。
圖3 圖片數(shù)量對虛假新聞檢測準確率的影響
(2) 消融實驗。在不考慮圖片數(shù)量對于模型效果影響的條件下,選擇性屏蔽不同模塊,分析在一對一文圖關系上各模塊的有效性,結(jié)果如表5所示。
表5 不同模塊的性能分析
去掉視覺(-V)在BERT模型的基礎上增加Text-CNN網(wǎng)絡,并將提取的文本特征用于虛假新聞檢測。
去掉多模態(tài)對比學習網(wǎng)絡(-MCL)使用一對一的文圖數(shù)據(jù),采用注意力機制用于新聞檢測。
去掉跨模態(tài)注意力網(wǎng)絡(-CMA)使用一對一的文圖數(shù)據(jù),分析多模態(tài)對比學習對新聞分類性能的影響。
實驗結(jié)果表明,屏蔽模型的任意一個模塊,虛假新聞檢測的效果都會出現(xiàn)一定程度的降低,說明了模型中各模塊的有效性。其中,與直接將BERT的輸出轉(zhuǎn)化為32維相比,-V準確率提高了1.55%,說明模型能夠利用Text-CNN捕捉不同顆粒度的文本特征,增強模型的泛化能力。另外,在使用一對一關系的圖文數(shù)據(jù)時,去掉MCL模塊比去掉CMA模塊的準確率降低2.07%,說明對比學習能有效提升虛假新聞檢測效果。
(3) 在對比學習模型中,溫度系數(shù)τ被用于調(diào)節(jié)正負樣本間的距離,增強樣本間的區(qū)分度。
為了找到合適的τ值,我們將τ值設置為1,0.3,0.07,分別測試其對虛假新聞檢測準確率的影響,結(jié)果如圖4所示。
圖4 τ值對虛假新聞檢測準確率的影響
圖4中,當τ值從1降低到0.3時,模型的準確率不斷提高,從0.3降低到0.07時,模型的準確率開始降低。結(jié)果表明,隨著τ值的減小,模型逐漸加強了對困難樣本(即與當前新聞帖子的相似度非常大但真假類別不同的的帖子)的關注度,但是τ值的進一步減小使得模型忽略了與大部分帖子的相關性,只關注與最困難樣本間的區(qū)分度。因此,我們在新浪微博數(shù)據(jù)集上的實驗選取了τ=0.3。
充分利用多模態(tài)數(shù)據(jù)以及帖子間的關系,提取新聞帖子中多張圖片的有效特征并增強完整豐富的多模態(tài)特征聯(lián)合表示,是目前面向多模態(tài)的虛假新聞檢測任務的關鍵性問題。本文針對以上問題提出了一種基于文圖一對多關系的多模態(tài)虛假新聞檢測模型。該模型首先提取文本和多張圖片的特征,通過跨模態(tài)注意力網(wǎng)絡聚焦于多張圖片的有效特征,并利用多模態(tài)對比學習網(wǎng)絡學習帖子間的特征關聯(lián)關系,拉大真假新聞之間的差距,動態(tài)調(diào)整融合后的多模態(tài)聯(lián)合表示,用于虛假新聞檢測。在新浪微博數(shù)據(jù)集上的實驗結(jié)果表明,該模型能捕捉文圖一對多關系的有效信息,提升圖片模態(tài)的特征表示,學習到不同帖子間的特征關聯(lián)關系,增強多模態(tài)特征表示能力,虛假新聞檢測準確率比基線模型提升了3.15%。
在未來的工作中,我們將考慮如何更有效地利用多種來源的信息提取不同圖片的有效特征。另外,隨著抖音、微視、快手等短視頻平臺的發(fā)展,基于視頻和文本的多模態(tài)虛假新聞檢測也是未來的研究方向之一。