景全亮 范鑫鑫 王保利 畢經(jīng)平 譚海寧
(中國(guó)科學(xué)院計(jì)算技術(shù)研究所 北京100190)
(中國(guó)科學(xué)院大學(xué) 北京100049)
近年來,隨著社交媒體(新浪微博、Twitter、Facebook 等)應(yīng)用的發(fā)展普及,獲取信息的方式正在發(fā)生改變,人們花費(fèi)在社交媒體上的時(shí)間越來越長(zhǎng)[1],越來越多的人正在從社交媒體等渠道中獲取信息,而不是從報(bào)紙、電視等傳統(tǒng)、正規(guī)的渠道,例如,2016 年有62%的美國(guó)成年人在社交媒體上獲得新聞,而在2012 年該比例只占49%。由于社交媒體等應(yīng)用的開放性,每天都會(huì)有成千上萬(wàn)的消息在社交媒體中發(fā)表、傳播,但是各機(jī)構(gòu)并沒有對(duì)各類信息進(jìn)行有效的甄別,各類假消息層出不窮,對(duì)人們的生活造成了重大影響[2-3]。這已經(jīng)成為各社交媒體、政府、社會(huì)面臨的主要問題之一。
傳統(tǒng)社交媒體的內(nèi)容僅僅是文字信息,人們可以通過專家標(biāo)注、分類方法[4-6]、圖模型[7-9]等技術(shù)手段識(shí)別假消息。隨著多媒體和計(jì)算機(jī)通信等技術(shù)的快速發(fā)展,社交媒體的內(nèi)容越來越多樣化,用戶可以通過社交媒體發(fā)表文字、圖片以及短視頻信息,這吸引了越來越多人的關(guān)注,同時(shí),由于人們可以隨意對(duì)文本、圖像、視頻等多種信息進(jìn)行偽造、拼接[10-11],這給假消息的檢測(cè)帶來了挑戰(zhàn)。
本文的目標(biāo)是檢測(cè)同時(shí)包含了文本和圖像的虛假消息。文本和圖像提供了豐富的信息[10,12-13],為假消息的檢測(cè)提供了各種技術(shù)途徑。有些消息從文本特征即可判斷真假[4,14-15],有些消息從圖像內(nèi)容即可識(shí)別真假[6-7],然而,有些消息需要使用圖像和文本數(shù)據(jù)聯(lián)合判斷才能更加準(zhǔn)確地判定是否為假消息[10,12,16]。
現(xiàn)階段,基于傳統(tǒng)的特征提取方法和基于深度學(xué)習(xí)的方法都已經(jīng)被應(yīng)用到假消息的檢測(cè)任務(wù)中。文獻(xiàn)[4]試圖從消息的文本內(nèi)容中提取特征進(jìn)行假消息的檢測(cè),文獻(xiàn)[17]利用人工提取的特征構(gòu)建決策樹模型實(shí)現(xiàn)假消息的識(shí)別。文獻(xiàn)[11]利用引入注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)實(shí)現(xiàn)假消息的識(shí)別。在利用多類型數(shù)據(jù)方面,基于深度學(xué)習(xí)的方法能夠提取更加相關(guān)的特征,取得了比傳統(tǒng)方法更好的效果。文獻(xiàn)[10]受自動(dòng)編碼器思想的啟發(fā),嘗試通過學(xué)習(xí)文本和圖像的共享表示形式,以此檢測(cè)假消息。文獻(xiàn)[12]通過基于注意力機(jī)制,利用視覺、文本和社交環(huán)境特征來預(yù)測(cè)假新聞。文獻(xiàn)[16]使用一個(gè)額外的事件判別器來學(xué)習(xí)所有消息中所有事件之間共享的共同特征,基于此特征通過一個(gè)假消息的檢測(cè)器判斷消息的真假。
針對(duì)同時(shí)包含圖像和文本的假消息檢測(cè),目前深度學(xué)習(xí)模型尚存在以下的缺陷或不足。首先,現(xiàn)有模型往往通過獨(dú)立分支各自獲取圖像和文本特征,并將其拼接的方式實(shí)現(xiàn)各模態(tài)信息的利用,該種使用方式?jīng)]有考慮文本和圖像之間的關(guān)系,如文本和圖像是否匹配等,從而降低了假消息檢測(cè)的準(zhǔn)確度,同時(shí),現(xiàn)有的檢測(cè)模型對(duì)于圖像特征的提取比較粗糙,僅僅獲取了整個(gè)圖像的總體特征,沒有對(duì)圖像進(jìn)行細(xì)粒度的處理,進(jìn)一步影響檢測(cè)準(zhǔn)確性;其次,社交媒體中含有大量的圖像和文本數(shù)據(jù),該類數(shù)據(jù)包含的信息可以增強(qiáng)假消息識(shí)別的準(zhǔn)確率,但是現(xiàn)有的方法僅僅基于標(biāo)準(zhǔn)的訓(xùn)練集,并沒有充分利用社交媒體中的圖像和文本數(shù)據(jù),造成模型不能充分理解未包含訓(xùn)練集中特征的消息,導(dǎo)致對(duì)該類型假消息檢測(cè)準(zhǔn)確度低。
為了解決以上問題,亟需探索如何構(gòu)建有效的模型融合文本和圖像信息以便更加精確地識(shí)別假消息。本工作首先通過將文本和圖像信息同時(shí)經(jīng)由Transformer[18]模型處理和預(yù)訓(xùn)練,學(xué)習(xí)兩者的融合表示;然后基于已標(biāo)注數(shù)據(jù)集對(duì)預(yù)訓(xùn)練的模型進(jìn)行參數(shù)調(diào)整,學(xué)習(xí)一個(gè)針對(duì)該任務(wù)的模型參數(shù);最后通過該調(diào)整的模型識(shí)別假消息。
本文的主要貢獻(xiàn)如下。
(1) 提出了一種融合社交媒體消息中文本和圖像的模型,通過該模型可以有效學(xué)習(xí)文本和圖像的融合表示。
(2) 所提融合模型充分利用了已有的海量社交媒體數(shù)據(jù),提高了假消息識(shí)別的準(zhǔn)確率,同時(shí)緩解了在數(shù)據(jù)分布不均衡時(shí)模型檢測(cè)準(zhǔn)確率下降過快的問題。
(3) 在真實(shí)數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,相較于當(dāng)前主流方法,本文提出的假消息檢測(cè)方法可以更有效地識(shí)別消息的真假。
本文剩余部分總結(jié)如下:第1 節(jié)介紹了假消息檢測(cè)相關(guān)工作,同時(shí)介紹了在多模態(tài)融合方面的研究進(jìn)展;第2 節(jié)介紹了本文模型所使用的大規(guī)模數(shù)據(jù)獲取方法;第3 節(jié)詳細(xì)描述了本文提出的假消息檢測(cè)框架和方法;第4 節(jié)通過充分的實(shí)驗(yàn)對(duì)本研究中提出的方法進(jìn)行了有效的驗(yàn)證,并分析實(shí)驗(yàn)結(jié)果;第5 節(jié)總結(jié)了對(duì)本文的工作并展望未來發(fā)展方向和前景。
本節(jié)將詳細(xì)介紹目前主流的面向文本和圖像的假消息檢測(cè)相關(guān)工作?,F(xiàn)階段,假消息的檢測(cè)方法主要可以分為兩類,即基于單模態(tài)的方法和基于多模態(tài)的方法。
首先,在基于單模態(tài)的檢測(cè)方法中,文獻(xiàn)[4,14]基于文本的統(tǒng)計(jì)特征或者語(yǔ)義特征探索消息的可信性。文獻(xiàn)[4]基于消息、用戶、主題以及傳播數(shù)據(jù),構(gòu)建決策樹實(shí)現(xiàn)消息可信度的評(píng)估。文獻(xiàn)[14]把假消息的檢測(cè)問題轉(zhuǎn)化為分類問題,基于支持向量機(jī)(support vector machine,SVM)的方法,利用從推文中提取的45 個(gè)特征,包括推文內(nèi)容、作者特征以及有關(guān)外部URL 的信息等,對(duì)推文的可信度進(jìn)行評(píng)分,依此識(shí)別虛假消息。文獻(xiàn)[19]提出了一種在開放域中對(duì)非結(jié)構(gòu)化文本進(jìn)行可信度分析的通用方法,利用消息的語(yǔ)言風(fēng)格和來源可靠性來評(píng)估其可信度。文獻(xiàn)[11]利用深度學(xué)習(xí)的方法提取文本時(shí)空特征進(jìn)行假消息的識(shí)別。文獻(xiàn)[15]提出了一種基于遞歸神經(jīng)網(wǎng)絡(luò)的深度關(guān)注模型,選擇性地學(xué)習(xí)文本的表示形式以進(jìn)行謠言識(shí)別。該模型將注意力機(jī)制用在遞歸層面學(xué)習(xí)不同特征,并生成隱藏的表示,以捕獲相關(guān)推文隨時(shí)間變化的情況。以上現(xiàn)有的各類方法一方面需要人工提取特征,且提取何種類型的特征需要領(lǐng)域?qū)<业膮⑴c,耗時(shí)耗力。除此之外,需要人工提取的特征,比如傳播數(shù)據(jù)、關(guān)注數(shù)等,往往在微博消息發(fā)表的初期是采集不到的,限制了該類方法的實(shí)時(shí)性;另一方面,僅僅通過文本信息的特定特征識(shí)別假消息,忽略了微博中包含的其他模態(tài)信息對(duì)檢測(cè)的作用。
此外,最近的研究表明,視覺特征是用來檢測(cè)假新聞非常重要的依據(jù)[1,6]。但是,關(guān)于驗(yàn)證社交媒體上多媒體內(nèi)容的可信度的研究非常有限[10]。此外,文獻(xiàn)[6,7]探索研究了微博內(nèi)容中的視覺信息基本特征的提取,但是這些特征的獲取仍是采用人工方式,不能代表視覺內(nèi)容的復(fù)雜分布[10],因此通過這些特征并不能很好地識(shí)別假消息。
還有,社交上下文信息也為假消息的檢測(cè)提供豐富的信息,比如消息傳播方式、轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)和評(píng)論內(nèi)容等。文獻(xiàn)[20]探索利用消息的傳播模式挖掘假消息出現(xiàn)時(shí)特定的特征。然而,消息傳播此類數(shù)據(jù)的獲取十分困難,且需要消息傳播之后才能檢測(cè),無法做到實(shí)時(shí)或者準(zhǔn)實(shí)時(shí)地進(jìn)行真假識(shí)別。
僅基于文本或者圖像數(shù)據(jù)進(jìn)行假消息檢測(cè)的方法,忽略了兩者之間包含的隱形關(guān)聯(lián)信息,因此,近幾年通過融合圖像和文本信息的檢測(cè)方法逐漸被提出來。
現(xiàn)階段,由于深度學(xué)習(xí)在算力、模型處理能力等各方面的提升,大部分多模態(tài)融合模型均是基于深度學(xué)習(xí)的思路,包括圖像描述(image captioning)[20-21]和視覺問答(visual question answering,VQA)[22]。在基于多模態(tài)數(shù)據(jù)的假消息檢測(cè)方面,文獻(xiàn)[12]采用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)融合圖像、文本和社交上下文信息,其中,社交上下文信息是一些統(tǒng)計(jì)信息,包括正面詞匯數(shù)量、負(fù)面詞匯數(shù)量、URL 中包含的@符號(hào)數(shù)量、微博文本的情感得分、評(píng)論的數(shù)量等信息。對(duì)于給定的推文,首先讓其文字和社交上下文信息采用長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)方式融合;然后將上一步獲取的融合表示與采用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)方法獲取的視覺特征融合。在融合過程中,LSTM 的每一個(gè)時(shí)間步長(zhǎng)的輸出都會(huì)采用注意力機(jī)制和視覺特征融合。文獻(xiàn)[16]模型主要由3個(gè)主要部分組成,即多模態(tài)特征提取器、事件鑒別器和假新聞檢測(cè)器。事件鑒別器采用對(duì)抗神經(jīng)網(wǎng)絡(luò)方式移除特定事件的特征,確保模型學(xué)習(xí)到推文中和事件無關(guān)的圖像和文字的共享特征,通過學(xué)習(xí)識(shí)別虛假新聞的可辨別表示,提高假新聞檢測(cè)的準(zhǔn)確率。文獻(xiàn)[10]采用了變分自動(dòng)編碼器(variational autoencoder)思想,模型由3 個(gè)主要部分組成,即一個(gè)編碼器、一個(gè)解碼器和一個(gè)假新聞檢測(cè)器,解決了在推文多模態(tài)數(shù)據(jù)之間學(xué)習(xí)共享表示這一挑戰(zhàn),以幫助假新聞檢測(cè)。以上的相關(guān)方法存在的缺陷是:在已有帶標(biāo)簽的數(shù)據(jù)集上訓(xùn)練,沒有充分使用社交媒體中無標(biāo)簽的數(shù)據(jù)信息;同時(shí)也沒有考慮針對(duì)圖像的細(xì)粒度處理。
在融合模型方面,文獻(xiàn)[23]提出了雙向注意力來解決視覺和語(yǔ)言任務(wù),提出了一種新的聯(lián)合圖像和文本特征的協(xié)同顯著性的概念,使得兩個(gè)不同模態(tài)的特征可以相互引導(dǎo)。此外,該文作者也對(duì)輸入的文本信息,從多個(gè)角度進(jìn)行加權(quán)處理,構(gòu)建多個(gè)不同層次的圖像問題聯(lián)合注意力映射(image-question co-attention maps),即詞級(jí)別(word-level)、短語(yǔ)級(jí)別(phrase-level)和問題級(jí)別(question-level)。最后,在短語(yǔ)級(jí)別,作者提出一種新穎的卷積-池化策略(convolution-pooling strategy)自適應(yīng)地選擇短語(yǔ)規(guī)模。文獻(xiàn)[24]對(duì)模型和注意力機(jī)制進(jìn)行了詳細(xì)的探究,提出了經(jīng)典的BiDAF(雙向注意流)模型,該模型計(jì)算了兩種注意力,從上下文到問題,以及從問題到上下文。文獻(xiàn)[18]在機(jī)器翻譯任務(wù)中提出了Transformer 模型,之后被應(yīng)用于各類任務(wù)中。Bert[25]是Google 在NLP 方面的一個(gè)重要工作,使NLP 預(yù)訓(xùn)練模型思想更加得成熟,可以說一定程度上改變了NLP 領(lǐng)域的研究方式,之后基于預(yù)訓(xùn)練思想的各類模型出現(xiàn)[26-27]??傮w的思想都是采用通用模型架構(gòu)在語(yǔ)料庫(kù)(Corpus)上預(yù)訓(xùn)練(pre-training);然后針對(duì)具體的任務(wù),在通用模型架構(gòu)上增加幾層,固定通用模型的參數(shù),微調(diào)(fine-tuning)增加的若干層參數(shù)。在跨模態(tài)信息融合方面,LXMERT[26]構(gòu)建了一個(gè)多層的Transformer 模型,它含有3 個(gè)編碼器:即一個(gè)對(duì)象關(guān)系編碼器、一個(gè)語(yǔ)言編碼器和一個(gè)跨模態(tài)編碼器。首先,采用對(duì)象關(guān)系編碼器和語(yǔ)言編碼器分別對(duì)文本和圖像單獨(dú)建模表示,然后將兩種模態(tài)的結(jié)果與交叉模態(tài)轉(zhuǎn)換器結(jié)合在一起。為了讓模型具備聯(lián)系視覺和語(yǔ)言語(yǔ)義的能力,用了大量的圖像和句子對(duì)進(jìn)行了模型預(yù)訓(xùn)練。文獻(xiàn)VisualBERT[27]采用了一組層疊的Transformer 層,使用自我注意力機(jī)制把輸入的一段文本和一張輸入圖像中的區(qū)域隱式地對(duì)齊起來。同時(shí),作者還提出了兩個(gè)在圖像描述數(shù)據(jù)上的視覺-語(yǔ)言關(guān)聯(lián)學(xué)習(xí)目標(biāo),用于VisualBERT 的預(yù)訓(xùn)練。以上的模型主要是基于有標(biāo)簽數(shù)據(jù)集應(yīng)用于VQA、VCR 等任務(wù),且大部分的模型都是通過兩個(gè)單獨(dú)分支對(duì)文本和圖像分別處理,然后再對(duì)各自得到的結(jié)果融合。本文提出的模型借鑒了語(yǔ)言模型中的Bert 思想,基于公眾媒體平臺(tái)上的大規(guī)模無標(biāo)簽數(shù)據(jù)實(shí)現(xiàn)自監(jiān)督學(xué)習(xí),實(shí)現(xiàn)文本和圖像融合,通過預(yù)訓(xùn)練步驟實(shí)現(xiàn)在沒有額外顯式監(jiān)督的條件下學(xué)習(xí)多模態(tài)的高階特征,然后基于有標(biāo)簽數(shù)據(jù)微調(diào)模型,最終利用圖像和文本的融合表示識(shí)別假消息。
在假新聞檢測(cè)方面,先前的工作對(duì)圖像的處理都是采用預(yù)訓(xùn)練的CNN 模型,比如VGG19,獲取整張圖像的特征。但最近的研究工作[28-30]均建議對(duì)圖像進(jìn)行細(xì)粒度處理,使用圖像目標(biāo)檢測(cè)模型獲取重點(diǎn)區(qū)域(regions of interest,ROI)作為圖像的描述信息,然后把重點(diǎn)區(qū)域作為模型的輸入。其中,文獻(xiàn)[29]把圖像檢測(cè)模型和Bert 模型結(jié)合,同時(shí)進(jìn)行訓(xùn)練。從以上的研究中可以看出,基于圖像重點(diǎn)區(qū)域的圖像描述信息可以輸入模型中,從而取得很好的效果。
本文提出的基于預(yù)訓(xùn)練思想的假消息檢測(cè)方法將圖像進(jìn)行細(xì)粒度處理,獲取圖像各個(gè)重點(diǎn)區(qū)域,然后將圖像各個(gè)重點(diǎn)區(qū)域和文本信息一同作為模型輸入進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)圖像和文本的融合表示,進(jìn)行假消息的識(shí)別。該方法不僅可以充分使用社交媒體網(wǎng)絡(luò)中已有的圖像和文本信息,同時(shí)也有效地緩解由數(shù)據(jù)不均衡導(dǎo)致的假新聞檢測(cè)準(zhǔn)確度不高的問題。
本節(jié)主要介紹如何收集大量的同時(shí)含有圖像和文本的數(shù)據(jù)集。目前,在自然語(yǔ)言處理領(lǐng)域,有非常多的文本語(yǔ)料可以使用,包括BooksCorpus[31]、Wikipedia 和新聞?wù)Z料[32]等;同時(shí),在涉及圖像和文本融合的任務(wù)中,現(xiàn)階段,大部分的預(yù)訓(xùn)練模型[27-29,33]都是采用兩個(gè)數(shù)據(jù)集:The Conceptual Captions(TCC)[34]和SBU Captions[35],其中,TCC 數(shù)據(jù)集從互聯(lián)網(wǎng)中的網(wǎng)頁(yè)收集,含有300 萬(wàn)張圖片以及對(duì)圖片的描述信息,SBU 數(shù)據(jù)集含有100 萬(wàn)張圖片以及對(duì)應(yīng)的標(biāo)題。本文的目標(biāo)是識(shí)別同時(shí)含有圖像和文字的假消息,由于社交網(wǎng)絡(luò)中不同用戶發(fā)表的圖片和文字消息在語(yǔ)言風(fēng)格、內(nèi)容等方面有較大的差異,檢測(cè)模型不能直接應(yīng)用于以上數(shù)據(jù)集,因此需要在社交媒體中收集大量的高質(zhì)量的同時(shí)含有圖像和文字的數(shù)據(jù)作為預(yù)訓(xùn)練集。
基于以上需求,本文設(shè)計(jì)了社交媒體數(shù)據(jù)收集方法,下面以新浪微博為例,說明采集數(shù)據(jù)的具體過程。
數(shù)據(jù)采集。微博用戶達(dá)到數(shù)億級(jí)別,每個(gè)用戶發(fā)表信息的質(zhì)量參差不齊。為了確保采集數(shù)據(jù)的質(zhì)量,從權(quán)威用戶發(fā)布的信息中采集數(shù)據(jù),文獻(xiàn)[16]使用的微博數(shù)據(jù)集中的真消息都是從微博權(quán)威用戶中獲取的,比如人民日?qǐng)?bào)、新華網(wǎng)等,因此以本數(shù)據(jù)集中的權(quán)威用戶為基礎(chǔ),爬取該類用戶的數(shù)據(jù)。本文所采集的數(shù)據(jù)年份為2010 年9 月至2020 年4月,采集的原始數(shù)據(jù)數(shù)量為18 萬(wàn)條。
數(shù)據(jù)過濾。在收集數(shù)據(jù)的過程中,為了獲取高質(zhì)量的數(shù)據(jù),根據(jù)圖像的內(nèi)容和文本的內(nèi)容對(duì)數(shù)據(jù)進(jìn)行過濾。針對(duì)圖像,把圖像低于300 ×300 像素的數(shù)據(jù)丟棄,同時(shí),也將丟棄不能被模型識(shí)別的GIF 動(dòng)態(tài)圖;針對(duì)文本信息,把文本低于10 個(gè)字的數(shù)據(jù)丟棄。為了確保文本信息的質(zhì)量,會(huì)過濾一些特殊的符號(hào),比如@、空格等信息。最終,過濾之后,收集了大約13 萬(wàn)條同時(shí)包含圖像和文字的數(shù)據(jù)。
圖1 是模型的整體框架,本文借鑒自然語(yǔ)言處理領(lǐng)域中Bert 模型思想,使用Transformer 作為基礎(chǔ)的結(jié)構(gòu)。Bert 中學(xué)習(xí)的是文本之間的相互關(guān)系,本文和Bert 不同的是,本文的模型需要學(xué)習(xí)文本、圖像以及文本和圖像之間的關(guān)聯(lián)關(guān)系,因此在模型數(shù)據(jù)輸入階段,本文會(huì)將圖像看作文本,同時(shí)把圖像和文本的表示輸入模型中。圖像和文本采用不同的編碼器分別進(jìn)行編碼,其中,圖像的編碼通過圖像檢測(cè)模型Faster-RCNN[36]獲取,該模型會(huì)對(duì)一張圖像進(jìn)行分割,提取重要的區(qū)域;模型中文本的每一個(gè)輸入代表一個(gè)字。圖像和文本輸入模型經(jīng)過多層Transformer 之后,模型會(huì)融合兩種模態(tài)的數(shù)據(jù),最終學(xué)習(xí)一個(gè)文本和圖像的融合表示。
本文采用模型在訓(xùn)練時(shí)包括兩個(gè)階段:預(yù)訓(xùn)練階段和微調(diào)階段。兩個(gè)階段數(shù)據(jù)輸入一致,都包括圖像和文本,不同的是在微調(diào)階段僅需一個(gè)目標(biāo)任務(wù)即可。本節(jié)將詳細(xì)介紹以上兩個(gè)階段,其中,在預(yù)訓(xùn)練階段將說明采用何種預(yù)訓(xùn)練任務(wù)使模型獲取好的模型預(yù)訓(xùn)練參數(shù),從而可以在微調(diào)階段獲取較優(yōu)的模型參數(shù)以進(jìn)行假消息的識(shí)別。
模型輸入包含文本和圖像兩部分,下面分別予以說明。
文本嵌入表示。首先需要構(gòu)造模型的文本輸入,本文采用中文全詞覆蓋(whole word masking)的方法處理文本信息[37]。
文本數(shù)據(jù)采用上述方法處理完成之后,整個(gè)文本就分成了詞的序列。在文本序列的起始位置添加特殊字符[CLS],在序列的結(jié)束位置添加特殊字符[SEP]。字符[CLS]的作用是在模型輸出時(shí)作為圖像和文本的共享表示,字符[SEP]的作用是作為圖像和文本的分隔符。之后,如式(1)~(3)所示,需要做字符嵌入wei、字符位置嵌入wpei和輸入類型的嵌入wtei,通過各個(gè)嵌入層,把各信息映射至向量,其中輸入類型表示輸入的是文本還是圖像。
式中wi代表了第i個(gè)位置的詞語(yǔ),wti代表了輸入類型。最后采用和Bert 中相同的策略,每一個(gè)字符的嵌入表示是字符嵌入、字符位置嵌入和輸入類型的嵌入的加和。
圖像嵌入表示。與現(xiàn)有工作不同,本文直接采用通過預(yù)訓(xùn)練的CNN 模型提取圖片的特征。本文應(yīng)用預(yù)訓(xùn)練好的Faster-RCNN 模型[36]提取n個(gè)候選框(RoI),該預(yù)訓(xùn)練模型基于ResNet-101 實(shí)現(xiàn),使用了Visual Genome 數(shù)據(jù)集預(yù)訓(xùn)練。RoI 用其特征和對(duì)應(yīng)的坐標(biāo)位置表示,把提取出來的n個(gè)RoI 的特征標(biāo)識(shí)為{c1,c2,…,cn},每一個(gè)ci是一個(gè)2048維度的向量,該維度是Faster-RCNN 模型提供的向量維度;每一個(gè)RoI 的位置標(biāo)識(shí)為{p1,p2,…,pn},每一個(gè)元素代表RoI 的具體位置信息:
圖像信息的表示生成和文本信息處理過程類似,可以把n個(gè)RoI 看做n個(gè)單詞。需要對(duì)這n個(gè)RoI 進(jìn)行特征嵌入、位置嵌入、類型嵌入、圖像坐標(biāo)位置嵌入。其中,針對(duì)特征嵌入,由于已經(jīng)獲取了每一個(gè)區(qū)域的特征,特征映射的作用是把特征向量采用多層感知機(jī)方式映射到和文本相同維度的向量空間。與文本處理不同的是,本文同時(shí)應(yīng)用了RoI 在圖像中的具體坐標(biāo)位置信息:
最終,每一個(gè)圖像的嵌入表示是特征嵌入、位置嵌入、類型嵌入和圖像坐標(biāo)位置嵌入的總和,即:
位置和類型嵌入表示。無論是文本還是圖像數(shù)據(jù)都使用位置嵌入信息,其目的是為了表示每一個(gè)元素在序列中的位置,其中,文本信息有著嚴(yán)格的順序,按照從小到大的順序排序。對(duì)于圖像輸入,由于每一個(gè)圖像之間沒有嚴(yán)格的順序關(guān)系,因此在圖像的位置嵌入中,位置變量都設(shè)置了相同的固定值;同時(shí),類型表示輸入的是文本還是圖像,是為了區(qū)分多模態(tài)信息。針對(duì)文本信息的類型嵌入,類型變量全部取0,即wti=0;針對(duì)圖像信息的類型嵌入,類型變量全部取1,即vti=1。
本小節(jié)將詳細(xì)介紹模型在預(yù)訓(xùn)練過程中所采用的預(yù)訓(xùn)練任務(wù)。本文主要采用了4 種預(yù)訓(xùn)練任務(wù),分別是掩碼語(yǔ)言模型(masked language modeling,MLM)、掩碼區(qū)域分類(masked ROI classification,MRC)、掩碼區(qū)域特征回歸(masked ROI regression,MRR) 和多模態(tài)匹配(cross-modality matching,CMM)。
掩碼語(yǔ)言模型。在文本輸入模型時(shí)會(huì)遮掩一部分詞,在模型的最終輸出時(shí)預(yù)測(cè)這些被遮掩的詞,其目的是為了捕捉句內(nèi)不同單詞之間的關(guān)系。與Bert[25]模型不同的是,在預(yù)測(cè)這些被遮掩詞的時(shí)候,不但利用了文本中非遮掩的詞,同時(shí)也利用了先前提取的n個(gè)RoI 信息,基于此種方式,可有效捕獲視覺和語(yǔ)言內(nèi)容之間的依賴關(guān)系。在執(zhí)行遮掩時(shí),文本中的詞會(huì)隨機(jī)按照15%的概率遮掩,具體地,如果某個(gè)詞匯被選中遮掩,那么有3 種遮掩方式:(1)該詞以80%的概率被一個(gè)特殊字符[MASK]代替;(2)該詞以10%的概率替換為任意的詞;(3)該詞以10%的概率保持不變。在預(yù)測(cè)時(shí),本文采用常用的交叉熵作為損失函數(shù):
式中D代表訓(xùn)練數(shù)據(jù)集,代表文本中被遮蓋的M個(gè)詞中的第j個(gè),s() 為真實(shí)標(biāo)簽值。對(duì)應(yīng)于Transformer 模型中針對(duì)該位置的輸出向量。通過添加一個(gè)多層感知機(jī)以預(yù)測(cè)正確的詞語(yǔ),多層感知機(jī)的輸入即,輸出為hk()。
掩碼區(qū)域分類。通過遮掩視覺特征并預(yù)測(cè)視覺分類信息,讓模型理解視覺,達(dá)到讓視覺信息和文本信息匹配對(duì)齊的目的。由于預(yù)測(cè)視覺分類信息是同時(shí)基于未被遮掩的文本信息和視覺信息,促進(jìn)了視覺信息和語(yǔ)言信息的融合。遮掩視覺特征信息時(shí),和掩碼語(yǔ)言模型類似,會(huì)隨機(jī)按照15%的概率遮掩視覺特征。在這里,同樣有3 種遮掩的方式:(1)該視覺特征以80%的概率被0 代替;(2)該詞以10%的概率替換為任意的其他特征;(3)該詞以10%的概率保持不變。在預(yù)測(cè)時(shí)需要用到分類的標(biāo)簽信息,此信息從Faster R-CNN[34]中獲取,同樣采用交叉熵作為損失函數(shù):
其中,代表被遮蓋的N個(gè)RoI 中的第i個(gè),l()為真實(shí)標(biāo)簽值。對(duì)應(yīng)于Transformer 模型中針對(duì)該位置的輸出向量,通過添加一個(gè)多層感知機(jī)以預(yù)測(cè)正確的分類,多層感知機(jī)的輸入即,輸出為
掩碼區(qū)域特征回歸。該任務(wù)和MRC 的目的相同,都是為了能夠讓模型學(xué)習(xí)理解視覺信息,讓視覺信息和文本信息匹配對(duì)齊。MRR 和MRC 相比,可以更加精確地學(xué)習(xí)視覺信息。該任務(wù)的目標(biāo)是針對(duì)遮掩的視覺區(qū)域,能夠預(yù)測(cè)具體的特征。在實(shí)現(xiàn)的過程中,本文會(huì)在Transformer 模型的輸出之后,添加一個(gè)全連接層,該層輸出維度和視覺特征的輸入維度一致,在這里使用的損失函數(shù)是L2 損失函數(shù)。
多模態(tài)匹配。除了以上3 個(gè)關(guān)于文本和視覺的任務(wù)之外,本文還設(shè)置了一個(gè)多模態(tài)的匹配任務(wù),該任務(wù)的目的是為了讓模型學(xué)習(xí)文本信息和視覺信息是否匹配。在訓(xùn)練的過程中,針對(duì)每一條包含圖像和文本的訓(xùn)練數(shù)據(jù),本文以0.5 的概率替換訓(xùn)練條目的視覺信息為其他任意視覺信息,使文本和視覺信息不匹配,以此生成負(fù)樣本。模型會(huì)訓(xùn)練一個(gè)分類器對(duì)是否匹配做出預(yù)測(cè),在模型輸入章節(jié),在文本的前面添加一個(gè)特殊字符[CLS];在訓(xùn)練時(shí),會(huì)在該特殊字符的輸出后面添加一個(gè)全連接層,得到一個(gè)分類結(jié)果,采用二分類交叉熵作為損失函數(shù)。
其中,代表特殊字符[CLS]的模型輸出,hf()為通過添加一個(gè)多層感知機(jī)以預(yù)測(cè)多模態(tài)信息是否匹配的輸出值,yf為真實(shí)標(biāo)簽值。
該模型的完整目標(biāo)函數(shù)定義如下:
其中,λ1、λ2、λ3、λ4代表各個(gè)損失的權(quán)重,其值分別設(shè)置為1、6.6、6.6、1。
本文所提檢測(cè)模型主要包括模型預(yù)訓(xùn)練及模型調(diào)整。
模型預(yù)訓(xùn)練。針對(duì)輸入的文本,首先采用Bert[25]中提供的WordPieceTokenizer[38]的分詞方式實(shí)現(xiàn)句子單詞級(jí)的切分,然后使用中文分詞工具實(shí)現(xiàn)對(duì)句子詞語(yǔ)級(jí)別的劃分,最終基于這兩個(gè)切分的列表實(shí)現(xiàn)中文全詞覆蓋,本模型使用的中文分詞工具是Jieba 分詞工具。針對(duì)輸入的圖像,使用在Visual Genome[36]上預(yù)訓(xùn)練的Faster R-CNN[39]模型對(duì)圖像處理,不同于文獻(xiàn)[39]的做法,針對(duì)每一張圖像,其獲取的候選框數(shù)量是一個(gè)動(dòng)態(tài)變化的數(shù)值,而本文固定獲取10 個(gè)候選框(RoI),這樣有助于對(duì)輸入模型時(shí)的數(shù)據(jù)進(jìn)行預(yù)處理操作,不用對(duì)候選框少的圖像進(jìn)行補(bǔ)全對(duì)齊操作。在模型結(jié)構(gòu)參數(shù)方面,采用了12 層的Transformer 模型,隱狀態(tài)向量維度為768維,中間向量維度大小為3076 維。在預(yù)訓(xùn)練過程中使用了多個(gè)預(yù)訓(xùn)練任務(wù),因此有多個(gè)損失。模型訓(xùn)練時(shí),最終損失的大小是所有損失的總和。訓(xùn)練的過程使用Adamw 作為模型優(yōu)化器,學(xué)習(xí)率為1e-4,批數(shù)量大小設(shè)置為50,訓(xùn)練輪數(shù)為65。
模型調(diào)整。調(diào)整過程就是應(yīng)用從微博中獲取的人工標(biāo)注假新聞數(shù)據(jù)集,對(duì)模型進(jìn)行訓(xùn)練,以便讓模型能夠適應(yīng)假新聞識(shí)別的任務(wù)。模型調(diào)整的過程中僅僅判斷消息的真假,不再執(zhí)行預(yù)訓(xùn)練任務(wù),由于本文僅執(zhí)行假新聞檢測(cè)任務(wù),沒有其他任務(wù),因此沒有采用在LXMERT[26]、VisualBERT[27]和VL-BERT[29]等其他研究中采用的僅僅微調(diào)模型中幾層神經(jīng)網(wǎng)絡(luò)參數(shù)的策略,而是對(duì)模型的所有參數(shù)進(jìn)行修改。在模型調(diào)整的過程中,設(shè)置學(xué)習(xí)率為1e-5,批數(shù)量大小設(shè)置為40,訓(xùn)練100 輪。
本節(jié)將對(duì)所提方法的有效性進(jìn)行驗(yàn)證及分析。首先,介紹測(cè)試使用的數(shù)據(jù)集,并說明對(duì)比的基準(zhǔn)方法;然后,對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析,驗(yàn)證本文所提模型的有效性。
當(dāng)前,同時(shí)含有圖像和文本的用于假消息檢測(cè)的數(shù)據(jù)集主要有2 個(gè):Tweet 數(shù)據(jù)集和新浪微博數(shù)據(jù)集。Tweet 數(shù)據(jù)集的隱私政策,無法獲取數(shù)據(jù),因此本文主要在新浪微博數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)評(píng)估。下面從數(shù)據(jù)集大小和數(shù)據(jù)特點(diǎn)等方面分別介紹這個(gè)數(shù)據(jù)集。
在假消息的檢測(cè)方面,新浪微博數(shù)據(jù)集已經(jīng)被諸多研究工作使用[10,12,16],其從官方渠道采集數(shù)據(jù),例如人民日?qǐng)?bào)、新華網(wǎng)等,數(shù)據(jù)集的爬取時(shí)間為2012 年5 月至2016 年1 月,后續(xù)本文把該數(shù)據(jù)標(biāo)識(shí)為weibo-T。針對(duì)該數(shù)據(jù)集,首先移除了沒有同時(shí)包含圖像和文本的微博,然后移除重復(fù)的圖片和低質(zhì)量的圖片,以確保數(shù)據(jù)集的質(zhì)量。由于該數(shù)據(jù)集爬取的截止時(shí)間為2016 年1 月,之后又有許多假消息產(chǎn)生,為了進(jìn)一步驗(yàn)證模型的性能,本文又進(jìn)一步從新浪微博官方渠道(https://service.account.weibo.com/index? type=5&status=4&page=1)中爬取了數(shù)據(jù),該渠道鼓勵(lì)普通用戶報(bào)告可疑帖子,并由專門的人員檢查帖子的真實(shí)性。本文爬取數(shù)據(jù)的截止時(shí)間為2020 年5 月,后續(xù)把該數(shù)據(jù)集標(biāo)識(shí)為weibo-O。在預(yù)處理此數(shù)據(jù)集時(shí),遵循和以往工作[12]中相同的步驟,首先刪除了低質(zhì)量的圖像,以確保整個(gè)數(shù)據(jù)集的質(zhì)量,然后統(tǒng)計(jì)正樣本和負(fù)樣本的數(shù)量,最后將整個(gè)數(shù)據(jù)集按照7:1:2 的比例分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。在生成數(shù)據(jù)的過程中,為了確保各集合中的數(shù)據(jù)不會(huì)重復(fù),本文設(shè)計(jì)了數(shù)據(jù)集生成算法,如算法1 所示。為了驗(yàn)證訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的相關(guān)性對(duì)檢測(cè)模型的影響,算法在具體執(zhí)行的過程中,需要相關(guān)系數(shù)參數(shù),取值設(shè)置為從0.2 到1 且步長(zhǎng)為0.1的9 個(gè)數(shù)值,這樣就生成了9 對(duì)數(shù)據(jù)集,數(shù)據(jù)集的詳細(xì)信息如表1 所示。表中數(shù)據(jù)用斜杠分割,分別表示在某個(gè)相關(guān)系數(shù)下的假新聞和真新聞的數(shù)量。為了公平比較,對(duì)weibo-T 和weibo-O 兩部分?jǐn)?shù)據(jù)集分別進(jìn)行測(cè)試,以驗(yàn)證所提模型的可行性。
表1 新浪微博數(shù)據(jù)集詳情
為了廣泛驗(yàn)證本文模型,選擇了兩類方法進(jìn)行對(duì)比,即單模態(tài)方法和多模態(tài)方法。
單模態(tài)方法。由于數(shù)據(jù)集包含圖像和文本兩種模態(tài),每一類模態(tài)都可以單獨(dú)使用作為假消息檢測(cè)的依據(jù),因此,可看作是單模態(tài)方法。
基于文本的檢測(cè)方法(Text)。該方法僅僅使用文本信息作為檢測(cè)依據(jù)。使用CNN 模型來提取文本特征作為檢測(cè)的依據(jù),在使用時(shí)把每一個(gè)詞編碼為32 維的向量,經(jīng)過CNN 提取特征得到結(jié)果之后,接一個(gè)全連接層,全連接層采用的維度大小也是32維,然后采用softmax 方式得到預(yù)測(cè)結(jié)果。CNN 模型的參數(shù)設(shè)置采用和文獻(xiàn)[14]相同的配置,使用20個(gè)過濾器(filter),每一個(gè)過濾器的窗口大小(window size)從1 到4。
基于圖像的檢測(cè)方法(Vis)。該模型僅僅使用圖像信息判斷是否為假消息。使用預(yù)訓(xùn)練好的VGG-19 對(duì)圖像進(jìn)行處理,獲取圖像特征,然后接一個(gè)32 維的全連接層獲取最終的預(yù)測(cè)結(jié)果。
多模態(tài)方法同時(shí)使用圖像和文本信息來檢測(cè)是否為假消息,目前利用多模態(tài)對(duì)假新聞進(jìn)行識(shí)別的方法主要有兩個(gè),即EANN[16]和MVAE[10]。
EANN。該框架利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)未見事件的可傳遞特征。它由3 個(gè)主要組件組成,即多模態(tài)特征提取器、假新聞檢測(cè)器和事件鑒別器。多模態(tài)特征提取器提取微博中文本和圖像的共有特征,其與假新聞檢測(cè)器配合使用,以學(xué)習(xí)用于識(shí)別假新聞的顯著特征表示。同時(shí),事件鑒別器通過去除事件特定特征來學(xué)習(xí)事件不變表示。該模型也可以只使用兩個(gè)組件來檢測(cè)假新聞,即多模態(tài)特征提取器和假新聞檢測(cè)器。因此,同MVAE[10]一樣,為了進(jìn)行公平的比較,實(shí)驗(yàn)中使用了一個(gè)不包括事件鑒別器的EANN 變體。
MVAE。該方法為解決在推文中學(xué)習(xí)各模態(tài)之間相關(guān)性的挑戰(zhàn),提出了一種多模態(tài)變分自編碼器模型,模型由3 個(gè)主要部分組成:編碼器、解碼器和假消息檢測(cè)器。基于文本和圖像的重建方式,聯(lián)合訓(xùn)練編碼器、解碼器和假消息檢測(cè)器,最終得到多模態(tài)數(shù)據(jù)(圖像和文本)的共享表示,依此進(jìn)行假消息檢測(cè)。
本節(jié)中,進(jìn)行了2 組實(shí)驗(yàn)來驗(yàn)證本文提出的假消息檢測(cè)模型的有效性。第1 組實(shí)驗(yàn)是通過在已有數(shù)據(jù)集和本文采集的數(shù)據(jù)集上進(jìn)行,數(shù)據(jù)集的詳細(xì)信息如表1 中相關(guān)系數(shù)為1 的列所示。該實(shí)驗(yàn)會(huì)計(jì)算模型檢測(cè)準(zhǔn)確率、召回率等指標(biāo),判斷模型的有效性。表2 展示了本文所提方法以及對(duì)比方法的實(shí)驗(yàn)結(jié)果,針對(duì)數(shù)據(jù)中包含的假消息和真實(shí)消息,分別列出了各檢測(cè)方法檢測(cè)結(jié)果的準(zhǔn)確率、召回率和F1分?jǐn)?shù)。從表中可以看到,總體來說,本文所提方法在檢測(cè)準(zhǔn)確率上要優(yōu)于各對(duì)比方法。
表2 在新浪微博數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
在2 個(gè)數(shù)據(jù)集中,僅通過文本識(shí)別假消息的準(zhǔn)確率要明顯高于僅通過圖像識(shí)別。也就是說在數(shù)據(jù)集中,相對(duì)于圖像數(shù)據(jù),文本信息提供了更加豐富的語(yǔ)義特征來輔助識(shí)別假消息。在weibo-T 數(shù)據(jù)集中,本文所提方法和基線方法相比,檢測(cè)準(zhǔn)確率提升了2.7%,從84.6% 提升到了87.3%,F1 分?jǐn)?shù)從85%提高到了88%;在weibo-O 數(shù)據(jù)集中也表現(xiàn)出了類似的趨勢(shì),檢測(cè)準(zhǔn)確率和F1 分?jǐn)?shù)也有了提升,其中檢測(cè)準(zhǔn)確率從85.1%提升到了86.2%,F1 分?jǐn)?shù)從85%提高到了86%。
在第2 組實(shí)驗(yàn)中,為了驗(yàn)證訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的相關(guān)性對(duì)檢測(cè)模型的影響,本文采用算法1 生成的訓(xùn)練數(shù)據(jù)集合對(duì)模型參數(shù)訓(xùn)練調(diào)整,并用對(duì)應(yīng)的測(cè)試集測(cè)試訓(xùn)練好的模型。在這里用本文所提模型和EANN 做比較,最終結(jié)果如圖2 所示。從圖中可以看到,在2 個(gè)數(shù)據(jù)集中,本文提出的模型全面優(yōu)于EANN 方法。在weibo-T 數(shù)據(jù)集中,隨著相關(guān)系數(shù)的增加,本文所提模型的準(zhǔn)確率從69.8%提高到了87.3%,EANN 模型的準(zhǔn)確率從62.8%提高到了84.6%,通過對(duì)比可以發(fā)現(xiàn),隨著相關(guān)系數(shù)的增加,由于測(cè)試集和驗(yàn)證集中能夠匹配到的詞語(yǔ)在增多,所以經(jīng)過測(cè)試集訓(xùn)練的模型,在驗(yàn)證集上的檢測(cè)準(zhǔn)確率也逐漸上升,符合直觀的理解。同時(shí),從圖中可以看到,在相關(guān)系數(shù)相同的條件下,本文所提模型識(shí)別假消息的準(zhǔn)確率也高于其他模型,在weibo-T數(shù)據(jù)集中,準(zhǔn)確率的變化幅度在1.4%~7%之間;在weibo-O 數(shù)據(jù)集中,準(zhǔn)確率的變化幅度在1.2%~8.6%之間。通過該實(shí)驗(yàn)可以證明,當(dāng)測(cè)試集和驗(yàn)證集中的數(shù)據(jù)分布不均衡時(shí),本文所提方法有明顯優(yōu)勢(shì)。上述現(xiàn)象出現(xiàn)是由于用戶發(fā)表微博消息中文本的多樣性,導(dǎo)致訓(xùn)練集和測(cè)試集中的數(shù)據(jù)可能存在較大差異性,同時(shí)現(xiàn)有的模型并沒有很好地學(xué)習(xí)文本之間的關(guān)系,從而導(dǎo)致用訓(xùn)練集訓(xùn)練的模型不能很好地對(duì)測(cè)試集中的數(shù)據(jù)進(jìn)行檢測(cè),模型效果不佳。
圖2 模型檢測(cè)準(zhǔn)確率對(duì)比示意圖
本文提出了一種基于預(yù)訓(xùn)練方式的假消息檢測(cè)方法?;谠摲椒梢猿浞掷蒙缃幻襟w中已有的大量多模態(tài)數(shù)據(jù),基于多個(gè)預(yù)訓(xùn)練任務(wù)有效地融合消息中圖像和文本信息,最終,基于多模態(tài)的融合表示有效地識(shí)別假消息。實(shí)驗(yàn)結(jié)果表明,本文提出的假消息檢測(cè)方法在準(zhǔn)確度方面優(yōu)于現(xiàn)有的檢測(cè)方法,并緩解了在數(shù)據(jù)內(nèi)容分布不均衡時(shí)造成的模型檢測(cè)準(zhǔn)確率下降問題。
未來的工作將進(jìn)一步考慮基于多模態(tài)的假消息識(shí)別方法,并從以下幾個(gè)方面進(jìn)行嘗試:(1) 在實(shí)際應(yīng)用場(chǎng)景中,越來越多的用戶發(fā)表的內(nèi)容中包含視頻信息,而目前大多數(shù)的方法都是建立在文本或者圖像之上,沒有對(duì)視頻數(shù)據(jù)分析處理,基于視頻和文本信息的假消息識(shí)別值得更多的關(guān)注;(2) 將用戶對(duì)微博的評(píng)論信息引入,進(jìn)一步提升假消息檢測(cè)的準(zhǔn)確信。