張敏
(陜西藝術(shù)職業(yè)學(xué)院,影視傳媒學(xué)院,陜西, 西安 710054)
社交媒體是一個(gè)能夠分享用戶(hù)生成的內(nèi)容、信息、想法和表達(dá)方式的平臺(tái),訪問(wèn)容易,成本低廉,傳播速度快。如今,它已成為最容易、最及時(shí)、最優(yōu)秀的新聞消費(fèi)來(lái)源。由于社會(huì)化媒體上沒(méi)有管理機(jī)構(gòu)[1],它使得低質(zhì)量的新聞,甚至是假新聞傳播得比真實(shí)新聞要快。與傳統(tǒng)的新聞來(lái)源相比,帶有圖像和視頻的新聞吸引了讀者的注意力,成為一條更強(qiáng)有力的故事線(xiàn)。無(wú)論是互聯(lián)網(wǎng)還是科技的合作,都在各個(gè)方面降低了難度,但另外,社交媒體也給錯(cuò)誤信息帶來(lái)了根源。人的內(nèi)在傾向?qū)е铝巳藗兏菀紫嘈盘摷傩畔ⅲ@就造成了虛假新聞。本文設(shè)計(jì)了一個(gè)高效的神經(jīng)網(wǎng)絡(luò)來(lái)檢測(cè)假新聞,該方法使用三維張量向量傳遞輸入數(shù)據(jù)。在這個(gè)張量中,新聞和用戶(hù)之間的互動(dòng)被吸引,并與用戶(hù)社區(qū)信息連接在一起。這種三維張量可以被認(rèn)為是知識(shí)數(shù)據(jù),并在處理多關(guān)系數(shù)據(jù)時(shí)在網(wǎng)絡(luò)中使用[2-3]。隨后,使用張量分解的方法,基于新聞內(nèi)容和社會(huì)背景特征進(jìn)行分析,最終對(duì)新聞的真假進(jìn)行了判斷。
計(jì)數(shù)矩陣描述新聞文章的文本內(nèi)容,用N表示,維數(shù)為n×v,其中n是新聞文章的總數(shù),v是詞匯表中的單詞數(shù)。
參與矩陣用U表示,維數(shù)為n×u,其中n是新聞文章的總數(shù),u是社交媒體上的用戶(hù)數(shù)。
利用clauset-newman-moore算法從用戶(hù)網(wǎng)絡(luò)中提取重要的關(guān)系,這是一種有效的計(jì)算方法[4]。由C表示的用戶(hù)社區(qū)矩陣,其維數(shù)為u×c,其中u是給定社交網(wǎng)絡(luò)中的用戶(hù)數(shù),c是已識(shí)別社區(qū)數(shù)。
張量的形成如式(1)[5]所示:
Tijk=Uij×Cjk
(1)
其中,i代表矩陣U、C的第i行,j、k分別代表矩陣U、C的第j和k列。
矩陣化操作將張量重新排序?yàn)榫仃嘯3]。一個(gè)i型張量T可以表示為T(mén)∈RI1×I2×…×Ii。張量T的i型矩陣化可由式(2)得到,
(2)
矩陣X1是張量的模1矩陣化,其維數(shù)為n×(u×c)。
耦合矩陣張量分解(CMTF)如文獻(xiàn)[5-7]所示。這種技術(shù)解決了優(yōu)化目標(biāo),目標(biāo)如式(3)所述,
(3)
式中,T是新聞、用戶(hù)和社區(qū)信息的張量,T1、T2、T3表示對(duì)矩陣T1、T2和T3的Kruskal運(yùn)算,矩陣N是新聞內(nèi)容矩陣,N1和N2是N的非負(fù)矩陣分解(NMF)[8]。重寫(xiě)式(3),如式(4)所示:
(4)
可以利用分量f1和f2的計(jì)算梯度來(lái)解決優(yōu)化問(wèn)題。梯度的計(jì)算用式(5)~式(7)表示:
(5)
(6)
(7)
其中,
Z=T1,T2,T3
(8)
Z1=T1(T3⊙T2)T
(9)
Z2=T2(T3⊙T1)T
(10)
Z3=T3(T2⊙T1)T
(11)
T-i=TI⊙…Ti+1⊙Ti-1⊙…⊙T1
(12)
式中,符號(hào)⊙表示Khatri Rao積[9],Xi是張量T的i型矩陣化。最終的梯度矩陣是由關(guān)于因子矩陣的向量化偏導(dǎo)數(shù)串聯(lián)而成的,如式(13):
(13)
人工神經(jīng)網(wǎng)絡(luò)(ANN):為分類(lèi)任務(wù)設(shè)計(jì)了一個(gè)人工神經(jīng)網(wǎng)絡(luò)。在這個(gè)網(wǎng)絡(luò)中,使用了4個(gè)隱藏層,它們具有不同數(shù)量的過(guò)濾器和丟失值,提出的系統(tǒng)采用內(nèi)容和上下文特征相結(jié)合的方法,將測(cè)試樣本分為2類(lèi):假類(lèi)和真類(lèi)。
深度混合神經(jīng)網(wǎng)絡(luò)(DeepNet):設(shè)計(jì)了一種具有7個(gè)隱層和LSTM層的深度混合神經(jīng)網(wǎng)絡(luò)。為了更好地提取特征,設(shè)計(jì)了具有不同核尺寸卷積層的神經(jīng)網(wǎng)絡(luò),提出的模型在2個(gè)數(shù)據(jù)集上都提供了最新的結(jié)果。
特征提取:從BuzzFeed新聞網(wǎng)站中,獲取數(shù)據(jù)集,經(jīng)過(guò)clauset-newman-moore算法在提出的數(shù)據(jù)集中得到的社區(qū)數(shù)是81。在提出的模型中,利用這些社團(tuán)形成了一個(gè)張量。從表1可以看出,數(shù)據(jù)集中的新聞文章數(shù)是182篇,用戶(hù)總數(shù)是15 257。將所有的輸入矩陣作為分類(lèi)特征進(jìn)行降維??梢栽诒?觀察輸入向量的整體維數(shù)。
表1 使用BuzzFeed的特征尺寸
特征提?。篎akeddit是一個(gè)新的數(shù)據(jù)集,由來(lái)自不同分類(lèi)的假新聞,大約80萬(wàn)個(gè)例子組成。以該數(shù)據(jù)集為例,經(jīng)過(guò)clauset-newman-moore算法得到的社區(qū)數(shù)是122。在提出的模型中,利用這些社團(tuán)形成了一個(gè)張量,新聞文章總數(shù)1 063 106篇,用戶(hù)總數(shù)358 504人。表2給出了作為分類(lèi)任務(wù)輸入特征的所有矩陣的維數(shù)。
表2 使用Fakeddit的特征尺寸
人工神經(jīng)網(wǎng)絡(luò)(ANN):實(shí)現(xiàn)了一個(gè)具有4個(gè)密集隱層的ANN,分別設(shè)計(jì)了512、256、128和64個(gè)隱層節(jié)點(diǎn)。這里使用了弱ReLU作為激活函數(shù),對(duì)隱藏層設(shè)置為a=0.001,對(duì)于輸出層使用Softmax。在這些系統(tǒng)中,輸入權(quán)重從正態(tài)分布初始化,使用Adam作為優(yōu)化器對(duì)設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)進(jìn)行了20個(gè)階段的優(yōu)化。這里采用了Dropout作為正則化方法,從而避免過(guò)擬合。
深度混合神經(jīng)網(wǎng)絡(luò)(DeepNet):設(shè)計(jì)了一個(gè)包含7個(gè)隱藏層的DeepNet,其隱藏節(jié)點(diǎn)個(gè)數(shù)分別為1 024、512、256、128、64、32和2。在這個(gè)系統(tǒng)中,采用ReLU作為激活函數(shù),a=0.01,用Softmax函數(shù)作為最終輸出層。在該網(wǎng)絡(luò)中,輸入權(quán)重由規(guī)則模式初始化,并利用Adam作為優(yōu)化算法對(duì)設(shè)計(jì)的DeepNet進(jìn)行縮放。然后使用了一個(gè)Dropout作為正則化方法是用來(lái)繞過(guò)過(guò)擬合。
本文提出DeepNet的體系結(jié)構(gòu):圖1顯示了Deep神經(jīng)網(wǎng)絡(luò)的分層體系結(jié)構(gòu)。在提出的架構(gòu)中,第一層是一個(gè)嵌入層,它接受長(zhǎng)度為32的1 000字索引向量的輸入,然后是一個(gè)卷積層,它執(zhí)行基于矩陣乘法的操作。第一個(gè)卷積層由內(nèi)核大小為3組成,然后是最大池;第二個(gè)卷積層由內(nèi)核大小為4組成,然后是最大池;第三個(gè)卷積層包含內(nèi)核大小為5,然后是最大池。架構(gòu)中的下一層是LSTM層,用于處理順序數(shù)據(jù)的性質(zhì)。然后考慮了提出的神經(jīng)網(wǎng)絡(luò)中的7個(gè)密集層。第一個(gè)密集層有1 024個(gè)節(jié)點(diǎn),其衰減值為0.25;第二個(gè)隱藏層有512個(gè)節(jié)點(diǎn),其“Dropout”值為0.25;第三個(gè)隱藏層有256個(gè)節(jié)點(diǎn)和0.25的衰減值,依此類(lèi)推。使用ReLU(校正線(xiàn)性單元)作為激活函數(shù)。ReLU的公式可以定義為
圖1 提出的模型
σ=max(0,z)
(14)
由于Adam實(shí)現(xiàn)簡(jiǎn)單,計(jì)算高效,對(duì)內(nèi)存需求少,參數(shù)的更新不受梯度的伸縮變換影響,并且適用于梯度稀疏或梯度存在很大噪聲的問(wèn)題,因此在提出的網(wǎng)絡(luò)中,將Adam作為優(yōu)化器。
下面介紹了檢測(cè)假新聞的有效分類(lèi)方法。
(1) 將新聞內(nèi)容和社會(huì)語(yǔ)境特征與人工神經(jīng)網(wǎng)絡(luò)相結(jié)合:將新聞內(nèi)容和社會(huì)語(yǔ)境特征相結(jié)合,利用人工神經(jīng)網(wǎng)絡(luò)進(jìn)行分類(lèi),并將結(jié)果與現(xiàn)有的基準(zhǔn)進(jìn)行比較。
(2) 新聞內(nèi)容與社會(huì)語(yǔ)境+深網(wǎng):結(jié)合新聞內(nèi)容與社會(huì)語(yǔ)境的特征,采用深網(wǎng)進(jìn)行更準(zhǔn)確的結(jié)果分析,并將結(jié)果與現(xiàn)有方法進(jìn)行了比較。
Fakeddit: Fakeddit 來(lái)自假新聞+Reddit。每個(gè)示例都由2路、3路和5路特征化類(lèi)進(jìn)行標(biāo)記。
BuzzFeed:使用提出的方法對(duì)FakeNews-Net數(shù)據(jù)集中的BuzzFeed數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。在數(shù)據(jù)集中,存在以下信息。
包含真假新聞:包括新聞ID、標(biāo)題、文本、URL、作者、來(lái)源等屬性的新聞文章。
包含新聞?dòng)脩?hù)參與:在數(shù)據(jù)集中,它指定一個(gè)數(shù)字,用于描述用戶(hù)在社交媒體上共享新聞文章的次數(shù)。
包含用戶(hù)連接:定義用戶(hù)網(wǎng)絡(luò)。
FakeNews-Net數(shù)據(jù)集的簡(jiǎn)要描述見(jiàn)表3。
表3 FakeNews-Net數(shù)據(jù)集說(shuō)明
BuzzFeed和Fakeddit的分類(lèi)結(jié)果列于表4和表5。
表5 Fakeddit分類(lèi)結(jié)果
為了驗(yàn)證提出的模型的性能,使用了精確度、召回率、F1-分?jǐn)?shù)和準(zhǔn)確度作為評(píng)價(jià)參數(shù)。表4顯示,通過(guò)使用Deep-Net作為提出的分類(lèi)模型,將新聞內(nèi)容與基于社會(huì)背景的特征進(jìn)行整合,可以得到更準(zhǔn)確的結(jié)果。給出了簡(jiǎn)單神經(jīng)網(wǎng)絡(luò)和交叉熵?fù)p失曲線(xiàn)的精度,并給出訓(xùn)練樣本和用于分析的時(shí)期數(shù)。提出的模型中(DeepNet),精度和交叉熵?fù)p失與訓(xùn)練樣本已經(jīng)存在。為了驗(yàn)證新聞內(nèi)容組合(包括圖2所示的新聞文章的社會(huì)背景)的分類(lèi)性能,對(duì)年代數(shù)做了相同的對(duì)比(圖3)。從曲線(xiàn)上可以看出,該模型對(duì)基于內(nèi)容和上下文的數(shù)據(jù)具有較高的準(zhǔn)確率,達(dá)到95.20%。
圖3 基于內(nèi)容和上下文特征的DeepNet的準(zhǔn)確度和交叉熵?fù)p失
表4 使用BuzzFeed的分類(lèi)結(jié)果
圖2 利用基于內(nèi)容和上下文的特征相結(jié)合的ANN的準(zhǔn)確度和交叉熵?fù)p失
建議的方法勝過(guò)現(xiàn)有的假新聞檢測(cè)基準(zhǔn),因?yàn)樗鼨z查了內(nèi)容屬性的組合以及用戶(hù)與特定新聞文章的通信。使用了2個(gè)真實(shí)世界的假新聞數(shù)據(jù)集:BuzzFeed和Fakeddit。在這種方法中,新聞文章的社會(huì)關(guān)系被用作從表示新聞?dòng)脩?hù)參與度和用戶(hù)連接的張量中提取的隱藏特征。在此基礎(chǔ)上,提出了一種耦合矩陣張量因子分解方法來(lái)捕獲新聞?dòng)脩?hù)組內(nèi)部的相關(guān)關(guān)系。它提供了具有社會(huì)聯(lián)系的新聞文章的整體表現(xiàn),有助于提高假新聞檢測(cè)的性能。
本文介紹了提出的深層神經(jīng)網(wǎng)絡(luò)的分類(lèi)性能。在提出的模型中既使用了新聞文章的內(nèi)容,也使用了基于社會(huì)背景的特征。一種耦合張量因子分解,用于獲得新聞文章的基本表示,使用真實(shí)世界的假新聞數(shù)據(jù)集驗(yàn)證了提出的模型的性能。分類(lèi)結(jié)果表明,提出的方法具有較高的F1分?jǐn)?shù),并且將內(nèi)容和上下文特征相結(jié)合可以得到更準(zhǔn)確的分類(lèi)結(jié)果。