(四川大學(xué)網(wǎng)絡(luò)空間安全學(xué)院 四川 610065)
虛假新聞不是一個(gè)剛剛新出現(xiàn)的問題,虛假新聞現(xiàn)象已經(jīng)存在了很長一段時(shí)間。早在1835 年,《紐約太陽報(bào)》發(fā)表了一系列文章,描述了在月球上發(fā)現(xiàn)生命,被稱為“月球大騙局”[1]。然而,“虛假新聞”一詞時(shí)至今日都沒有公認(rèn)的定義。因此,綜合比較了現(xiàn)有一些被廣泛使用的假新聞定義,從中選擇如下定義:虛假新聞是指有意圖的并且被證實(shí)是假的新聞文章[2]。但由于人們天生就不擅長區(qū)分真新聞和假新聞,傳統(tǒng)的虛假新聞主要是利用人們心理的弱點(diǎn)來攻擊他們,有兩個(gè)心理學(xué)概念可以解釋這一現(xiàn)象。
(1)樸素實(shí)在論(Naive Realism):人們認(rèn)為他們對現(xiàn)實(shí)的感知是正確的,而不同意其感知的人則被認(rèn)為是不理性的或有偏見的[3];
(2)確認(rèn)偏差(Confirmation Bias):人們更愿意接受符合他們世界觀價(jià)值觀的事[4]。
據(jù)《2019 年虛假新聞研究報(bào)告》[5]顯示:隨著傳媒環(huán)境的急劇變遷,社交媒體平臺(tái)成為人們獲取新聞信息最主要的渠道。從報(bào)紙到廣播、電視,現(xiàn)在是網(wǎng)絡(luò)新聞和社交媒體,虛假新聞的媒體生態(tài)環(huán)境已經(jīng)發(fā)生了變化,并且面臨著更加復(fù)雜的情況。社交媒體對于新聞傳播來說是一把雙刃劍。一方面,社交媒體以其易獲取、信息傳播迅速、廉價(jià)等特點(diǎn),使得人們可以通過社交媒體快速獲得并傳播新聞。另一方面,社交媒體摒棄了傳統(tǒng)的新聞標(biāo)準(zhǔn),沒有固定格式和寫作風(fēng)格,海量無規(guī)則的信息數(shù)據(jù)都增加了虛假新聞監(jiān)管難度。此外,由于社交媒體中的回壁音效應(yīng)和惡意賬號(比如社交機(jī)器人)泛濫,缺乏可靠的第三方對新聞進(jìn)行篩選和核查,使得虛假新聞在社交媒體中的傳播速度明顯快于傳統(tǒng)媒體,這些都為“虛假新聞”的廣泛傳播創(chuàng)造了“有利”條件。毫無疑問的是,假新聞的廣泛傳播會(huì)對個(gè)人和社會(huì)產(chǎn)生極其負(fù)面的影響。因此,現(xiàn)階段社交媒體上的虛假新聞檢測成了一項(xiàng)備受關(guān)注的新興研究。
傳統(tǒng)虛假新聞檢測主要依靠新聞內(nèi)容特征,而在社交媒體中,因?yàn)槠渑c之前不同的新聞產(chǎn)生、分享、傳播的方式,所以在虛假新聞檢測階段,需要增加額外的社會(huì)語境信息作為輔助信息,來幫助檢測虛假新聞。現(xiàn)階段根據(jù)虛假新聞檢測所需要的不同特征,將虛假新聞檢測技術(shù)主要分為三個(gè)類:基于內(nèi)容特征的虛假新聞檢測技術(shù)、基于社會(huì)語境特征的虛假新聞檢測技術(shù)和基于內(nèi)容和社會(huì)語境特征的虛假新聞檢測技術(shù)。
基于內(nèi)容特征的虛假新聞檢測技術(shù)研究的特征包括新聞來源、新聞標(biāo)題、新聞?wù)?、新聞中包含的圖像或視頻等新聞的元信息?;谏鐣?huì)語境特征的虛假新聞檢測技術(shù)研究的特征主要分為2 個(gè)方向:基于語言特征和基于視覺特征。通過對元信息的屬性分析,提取其中新聞?wù)膶懽黠L(fēng)格、新聞中圖像信息、新聞中視頻信息等特征進(jìn)行虛假新聞檢測。
基于社會(huì)語境特征的虛假新聞檢測技術(shù)研究的特征主要分為三個(gè)方向:用戶、帖子和網(wǎng)絡(luò)?;谟脩舻奶摷傩侣剻z測技術(shù)主要利用基于用戶檔案信息(用戶檔案信息包括注冊年齡、關(guān)注者/粉絲數(shù)量、用戶發(fā)表的推文數(shù)量等信息)來捕獲用戶的個(gè)人信息和特征,用于虛假新聞檢測;基于帖子的虛假新聞檢測技術(shù)主要利用人們發(fā)表的帖子來判斷用戶對虛假新聞的觀點(diǎn)或立場,來推斷新聞文章的真實(shí)性;基于網(wǎng)絡(luò)的虛假新聞檢測技術(shù)主要根據(jù)相關(guān)帖子在社交網(wǎng)絡(luò)中的關(guān)聯(lián)關(guān)系,提取其中的網(wǎng)絡(luò)特征來檢測虛假新聞,預(yù)測新聞可信度(基本假設(shè)是新聞的可信度與相關(guān)社交媒體帖子的可信度高度相關(guān))
基于內(nèi)容和社會(huì)語境特征的虛假新聞檢測技術(shù)綜合了基于內(nèi)容特征的虛假新聞檢測技術(shù)和基于社會(huì)語境特征的虛假新聞檢測技術(shù)兩類方法,將新聞的元信息和社交網(wǎng)絡(luò)中的上下文社會(huì)語境信息等多種特征進(jìn)行提取與融合,來檢測虛假新聞。
虛假新聞檢測作為一個(gè)分類問題,數(shù)據(jù)標(biāo)注質(zhì)量對分類器的訓(xùn)練起著很重要的作用,但數(shù)據(jù)標(biāo)注工作往往需要耗費(fèi)大量的時(shí)間和金錢。因此,現(xiàn)有研究基本上都是基于已有的數(shù)據(jù)集進(jìn)行展開的,下面對現(xiàn)有的代表性數(shù)據(jù)集及其使用場景進(jìn)行簡單介紹。
BuzzFeedNews 數(shù)據(jù)集包含了2016 年美國大選前一周(9 月19日至23 日、9 月26 日至27 日)9 家新聞機(jī)構(gòu)在Facebook 上發(fā)布的完整新聞文章。每一篇文章和相關(guān)文章都經(jīng)過了5 名BuzzFeed 記者逐條核實(shí)。數(shù)據(jù)集內(nèi)包含作者、標(biāo)題、正文等屬性信息,適用于基于內(nèi)容特征的虛假新聞檢測算法。
LIAR[6]數(shù)據(jù)集通過API 從事實(shí)核查網(wǎng)站PolitiFact 收集并整理,它包括了12836 個(gè)帶有真假標(biāo)記的新聞信息,這些信息來自不同的語境場景,其中包括新聞發(fā)布、電視或電臺(tái)采訪、競選演講等。新聞標(biāo)簽包含6 個(gè)類別:pants-fire、false、barely-true、half-true、mostly true 和true。數(shù)據(jù)集內(nèi)包含文本內(nèi)容、陳述人、語境、標(biāo)簽等信息,適用基于內(nèi)容特征的虛假新聞檢測算法。
FakeNewsNet 數(shù)據(jù)集[7]通過從GossipCop 和PolitiFact 收集在Twitter 上分享的文章的新聞內(nèi)容(來源、標(biāo)題、正文等元信息)和背景信息(用戶檔案、關(guān)注者、粉絲等信息)。數(shù)據(jù)集內(nèi)包含標(biāo)注真假新聞標(biāo)簽的新聞內(nèi)容和相關(guān)的社會(huì)語境特征,適用基于內(nèi)容特征和社會(huì)語境特征結(jié)合的虛假新聞檢測算法。
CREDBANK 這是一個(gè)大規(guī)模的眾包數(shù)據(jù)集,從2015 年10 月開始,覆蓋96 天,大約有6000 萬條推文。所有的推文都由30 個(gè)評論員進(jìn)行可信度評估。該數(shù)據(jù)集包含新聞內(nèi)容和人工標(biāo)注的真假新聞標(biāo)簽,適用基于內(nèi)容特征的虛假新聞檢測算法。
虛假新聞檢測問題視為一個(gè)分類問題,用來預(yù)測一篇新聞文章是否為假新聞。使用的分類方法,包括傳統(tǒng)的機(jī)器學(xué)習(xí)算法(比如邏輯回歸算法、支持向量機(jī)和隨機(jī)森林等算法)、深度學(xué)習(xí)(包括卷積和遞歸神經(jīng)網(wǎng)絡(luò))和其他模型(矩陣分解和貝葉斯推理等模型)。為了評估假新聞檢測算法的性能,介紹了4 個(gè)基本概念(真陽性、真陰性、假陰性、假陽性)和4 個(gè)評價(jià)指標(biāo)(精確率、召回率、F1、準(zhǔn)確率如公式(1)、(2)、(3)、(4)所示),這些指標(biāo)可以幫助從不同的角度評估算法分類器的性能。
(1)真陽性(True Positive,TP):當(dāng)被預(yù)測的假新聞實(shí)際上被標(biāo)注為假新聞時(shí);
(2)真陰性(True Negative,TN):當(dāng)被預(yù)測的真新聞實(shí)際上被標(biāo)注為真新聞時(shí);
(3)假陰性(False Negative,F(xiàn)N):當(dāng)被預(yù)測的真新聞實(shí)際上被標(biāo)注為假新聞時(shí);
(4)假陽性(False Positive,F(xiàn)P):當(dāng)被預(yù)測的假新聞實(shí)際上被標(biāo)注為真新聞時(shí)。
在虛假新聞檢測具體問題中,準(zhǔn)確率衡量的是預(yù)測假新聞和真實(shí)假新聞之間的相似度;召回率衡量的是虛假新聞檢測分類器的敏感性;F1 衡量的是虛假新聞檢測分類器的預(yù)測性能;精確率衡量的是所有檢測到的被標(biāo)注為假新聞的假新聞的比例。
隨著社交媒體平臺(tái)的快速發(fā)展,越來越多的人從社交媒體中獲得新聞,社交媒體也被用來傳播假新聞,這對個(gè)人用戶和社會(huì)產(chǎn)生了的負(fù)面影響。在本文中,通過虛假新聞定義、虛假新聞檢測算法分類、代表性數(shù)據(jù)集和評價(jià)指標(biāo)概述虛假新聞相關(guān)技術(shù)研究,面對現(xiàn)實(shí)生活中更加復(fù)雜的挑戰(zhàn),虛假新聞檢測技術(shù)研究還值得繼續(xù)探索。