亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

虛假新聞檢測技術(shù)的應(yīng)用

2021-04-24 14:27:20

網(wǎng)絡(luò)安全技術(shù)與應(yīng)用 2021年4期

（四川大學(xué)網(wǎng)絡(luò)空間安全學(xué)院四川 610065）

虛假新聞不是一個(gè)剛剛新出現(xiàn)的問題，虛假新聞現(xiàn)象已經(jīng)存在了很長一段時(shí)間。早在1835 年，《紐約太陽報(bào)》發(fā)表了一系列文章，描述了在月球上發(fā)現(xiàn)生命，被稱為“月球大騙局”[1]。然而，“虛假新聞”一詞時(shí)至今日都沒有公認(rèn)的定義。因此，綜合比較了現(xiàn)有一些被廣泛使用的假新聞定義，從中選擇如下定義：虛假新聞是指有意圖的并且被證實(shí)是假的新聞文章[2]。但由于人們天生就不擅長區(qū)分真新聞和假新聞，傳統(tǒng)的虛假新聞主要是利用人們心理的弱點(diǎn)來攻擊他們，有兩個(gè)心理學(xué)概念可以解釋這一現(xiàn)象。

（1）樸素實(shí)在論（Naive Realism）：人們認(rèn)為他們對現(xiàn)實(shí)的感知是正確的，而不同意其感知的人則被認(rèn)為是不理性的或有偏見的[3]；

（2）確認(rèn)偏差（Confirmation Bias）：人們更愿意接受符合他們世界觀價(jià)值觀的事[4]。

據(jù)《2019 年虛假新聞研究報(bào)告》[5]顯示：隨著傳媒環(huán)境的急劇變遷，社交媒體平臺(tái)成為人們獲取新聞信息最主要的渠道。從報(bào)紙到廣播、電視，現(xiàn)在是網(wǎng)絡(luò)新聞和社交媒體，虛假新聞的媒體生態(tài)環(huán)境已經(jīng)發(fā)生了變化，并且面臨著更加復(fù)雜的情況。社交媒體對于新聞傳播來說是一把雙刃劍。一方面，社交媒體以其易獲取、信息傳播迅速、廉價(jià)等特點(diǎn)，使得人們可以通過社交媒體快速獲得并傳播新聞。另一方面，社交媒體摒棄了傳統(tǒng)的新聞標(biāo)準(zhǔn)，沒有固定格式和寫作風(fēng)格，海量無規(guī)則的信息數(shù)據(jù)都增加了虛假新聞監(jiān)管難度。此外，由于社交媒體中的回壁音效應(yīng)和惡意賬號（比如社交機(jī)器人）泛濫，缺乏可靠的第三方對新聞進(jìn)行篩選和核查，使得虛假新聞在社交媒體中的傳播速度明顯快于傳統(tǒng)媒體，這些都為“虛假新聞”的廣泛傳播創(chuàng)造了“有利”條件。毫無疑問的是，假新聞的廣泛傳播會(huì)對個(gè)人和社會(huì)產(chǎn)生極其負(fù)面的影響。因此，現(xiàn)階段社交媒體上的虛假新聞檢測成了一項(xiàng)備受關(guān)注的新興研究。

1 虛假新聞檢測技術(shù)的分類

傳統(tǒng)虛假新聞檢測主要依靠新聞內(nèi)容特征，而在社交媒體中，因?yàn)槠渑c之前不同的新聞產(chǎn)生、分享、傳播的方式，所以在虛假新聞檢測階段，需要增加額外的社會(huì)語境信息作為輔助信息，來幫助檢測虛假新聞。現(xiàn)階段根據(jù)虛假新聞檢測所需要的不同特征，將虛假新聞檢測技術(shù)主要分為三個(gè)類：基于內(nèi)容特征的虛假新聞檢測技術(shù)、基于社會(huì)語境特征的虛假新聞檢測技術(shù)和基于內(nèi)容和社會(huì)語境特征的虛假新聞檢測技術(shù)。

1.1 基于內(nèi)容特征的虛假新聞檢測技術(shù)

基于內(nèi)容特征的虛假新聞檢測技術(shù)研究的特征包括新聞來源、新聞標(biāo)題、新聞?wù)?、新聞中包含的圖像或視頻等新聞的元信息?；谏鐣?huì)語境特征的虛假新聞檢測技術(shù)研究的特征主要分為2 個(gè)方向：基于語言特征和基于視覺特征。通過對元信息的屬性分析，提取其中新聞?wù)膶懽黠L(fēng)格、新聞中圖像信息、新聞中視頻信息等特征進(jìn)行虛假新聞檢測。

1.2 基于社會(huì)語境特征的虛假新聞檢測技術(shù)

基于社會(huì)語境特征的虛假新聞檢測技術(shù)研究的特征主要分為三個(gè)方向：用戶、帖子和網(wǎng)絡(luò)?；谟脩舻奶摷傩侣剻z測技術(shù)主要利用基于用戶檔案信息（用戶檔案信息包括注冊年齡、關(guān)注者/粉絲數(shù)量、用戶發(fā)表的推文數(shù)量等信息）來捕獲用戶的個(gè)人信息和特征，用于虛假新聞檢測；基于帖子的虛假新聞檢測技術(shù)主要利用人們發(fā)表的帖子來判斷用戶對虛假新聞的觀點(diǎn)或立場，來推斷新聞文章的真實(shí)性；基于網(wǎng)絡(luò)的虛假新聞檢測技術(shù)主要根據(jù)相關(guān)帖子在社交網(wǎng)絡(luò)中的關(guān)聯(lián)關(guān)系，提取其中的網(wǎng)絡(luò)特征來檢測虛假新聞，預(yù)測新聞可信度（基本假設(shè)是新聞的可信度與相關(guān)社交媒體帖子的可信度高度相關(guān)）

1.3 基于內(nèi)容和社會(huì)語境特征的虛假新聞檢測技術(shù)

基于內(nèi)容和社會(huì)語境特征的虛假新聞檢測技術(shù)綜合了基于內(nèi)容特征的虛假新聞檢測技術(shù)和基于社會(huì)語境特征的虛假新聞檢測技術(shù)兩類方法，將新聞的元信息和社交網(wǎng)絡(luò)中的上下文社會(huì)語境信息等多種特征進(jìn)行提取與融合，來檢測虛假新聞。

2 代表性數(shù)據(jù)集

虛假新聞檢測作為一個(gè)分類問題，數(shù)據(jù)標(biāo)注質(zhì)量對分類器的訓(xùn)練起著很重要的作用，但數(shù)據(jù)標(biāo)注工作往往需要耗費(fèi)大量的時(shí)間和金錢。因此，現(xiàn)有研究基本上都是基于已有的數(shù)據(jù)集進(jìn)行展開的，下面對現(xiàn)有的代表性數(shù)據(jù)集及其使用場景進(jìn)行簡單介紹。

2.1 BuzzFeedNews

BuzzFeedNews 數(shù)據(jù)集包含了2016 年美國大選前一周（9 月19日至23 日、9 月26 日至27 日）9 家新聞機(jī)構(gòu)在Facebook 上發(fā)布的完整新聞文章。每一篇文章和相關(guān)文章都經(jīng)過了5 名BuzzFeed 記者逐條核實(shí)。數(shù)據(jù)集內(nèi)包含作者、標(biāo)題、正文等屬性信息，適用于基于內(nèi)容特征的虛假新聞檢測算法。

2.2 LIAR

LIAR[6]數(shù)據(jù)集通過API 從事實(shí)核查網(wǎng)站PolitiFact 收集并整理，它包括了12836 個(gè)帶有真假標(biāo)記的新聞信息，這些信息來自不同的語境場景，其中包括新聞發(fā)布、電視或電臺(tái)采訪、競選演講等。新聞標(biāo)簽包含6 個(gè)類別：pants-fire、false、barely-true、half-true、mostly true 和true。數(shù)據(jù)集內(nèi)包含文本內(nèi)容、陳述人、語境、標(biāo)簽等信息，適用基于內(nèi)容特征的虛假新聞檢測算法。

2.3 FakeNewsNet

FakeNewsNet 數(shù)據(jù)集[7]通過從GossipCop 和PolitiFact 收集在Twitter 上分享的文章的新聞內(nèi)容（來源、標(biāo)題、正文等元信息）和背景信息（用戶檔案、關(guān)注者、粉絲等信息）。數(shù)據(jù)集內(nèi)包含標(biāo)注真假新聞標(biāo)簽的新聞內(nèi)容和相關(guān)的社會(huì)語境特征，適用基于內(nèi)容特征和社會(huì)語境特征結(jié)合的虛假新聞檢測算法。

2.4 CREDBANK

CREDBANK 這是一個(gè)大規(guī)模的眾包數(shù)據(jù)集，從2015 年10 月開始，覆蓋96 天，大約有6000 萬條推文。所有的推文都由30 個(gè)評論員進(jìn)行可信度評估。該數(shù)據(jù)集包含新聞內(nèi)容和人工標(biāo)注的真假新聞標(biāo)簽，適用基于內(nèi)容特征的虛假新聞檢測算法。

3 評價(jià)指標(biāo)

虛假新聞檢測問題視為一個(gè)分類問題，用來預(yù)測一篇新聞文章是否為假新聞。使用的分類方法，包括傳統(tǒng)的機(jī)器學(xué)習(xí)算法（比如邏輯回歸算法、支持向量機(jī)和隨機(jī)森林等算法）、深度學(xué)習(xí)（包括卷積和遞歸神經(jīng)網(wǎng)絡(luò)）和其他模型（矩陣分解和貝葉斯推理等模型）。為了評估假新聞檢測算法的性能，介紹了4 個(gè)基本概念（真陽性、真陰性、假陰性、假陽性）和4 個(gè)評價(jià)指標(biāo)（精確率、召回率、F1、準(zhǔn)確率如公式（1）、（2）、（3）、（4）所示），這些指標(biāo)可以幫助從不同的角度評估算法分類器的性能。

（1）真陽性（True Positive，TP）：當(dāng)被預(yù)測的假新聞實(shí)際上被標(biāo)注為假新聞時(shí)；

（2）真陰性（True Negative，TN）：當(dāng)被預(yù)測的真新聞實(shí)際上被標(biāo)注為真新聞時(shí)；

（3）假陰性（False Negative，F(xiàn)N）：當(dāng)被預(yù)測的真新聞實(shí)際上被標(biāo)注為假新聞時(shí)；

（4）假陽性（False Positive，F(xiàn)P）：當(dāng)被預(yù)測的假新聞實(shí)際上被標(biāo)注為真新聞時(shí)。

在虛假新聞檢測具體問題中，準(zhǔn)確率衡量的是預(yù)測假新聞和真實(shí)假新聞之間的相似度；召回率衡量的是虛假新聞檢測分類器的敏感性；F1 衡量的是虛假新聞檢測分類器的預(yù)測性能；精確率衡量的是所有檢測到的被標(biāo)注為假新聞的假新聞的比例。

4 結(jié)束語

隨著社交媒體平臺(tái)的快速發(fā)展，越來越多的人從社交媒體中獲得新聞，社交媒體也被用來傳播假新聞，這對個(gè)人用戶和社會(huì)產(chǎn)生了的負(fù)面影響。在本文中，通過虛假新聞定義、虛假新聞檢測算法分類、代表性數(shù)據(jù)集和評價(jià)指標(biāo)概述虛假新聞相關(guān)技術(shù)研究，面對現(xiàn)實(shí)生活中更加復(fù)雜的挑戰(zhàn)，虛假新聞檢測技術(shù)研究還值得繼續(xù)探索。