亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于雙分支網(wǎng)絡(luò)聯(lián)合訓(xùn)練的虛假新聞檢測

        2022-08-09 05:46:58郭鈴霓吳興財楊振國劉文印
        計算機工程與應(yīng)用 2022年15期
        關(guān)鍵詞:分支正文語義

        郭鈴霓,黃 艦,吳興財,楊振國,劉文印,2

        1.廣東工業(yè)大學(xué) 計算機學(xué)院,廣州 510006

        2.鵬城實驗室網(wǎng)絡(luò)空間安全研究中心,廣東 深圳 518000

        互聯(lián)網(wǎng)時代,推特、微博、微信等在線社交媒體平臺的快速發(fā)展,給讀者獲取新聞資訊提供了便利,也為虛假新聞的滋生和傳播提供了土壤?!?019年網(wǎng)絡(luò)謠言治理報告》(http://society.people.com.cn/n1/2019/1226/c1008-31524533.html)指出,2019年期間,微信平臺共發(fā)布17 881篇辟謠文章,辟謠文章閱讀量1.14億次。其中,醫(yī)療健康、食品安全、社會科學(xué)是虛假新聞的高發(fā)領(lǐng)域。

        虛假新聞的泛濫,給社會和人們的日常生活帶來不同程度的負面影響。例如,新冠肺炎疫情期間,各種虛假新聞層出不窮,包括但不限于:“鹽水漱口防病毒”“喝板藍根可以預(yù)防新型冠狀病毒”“雙黃連口服液能抑制新型冠狀病毒”等。諸如此類的虛假新聞,導(dǎo)致相關(guān)商品遭哄搶脫銷,不僅誤導(dǎo)群眾,還擾亂市場經(jīng)濟。Vosoughi等人指出,相比于真實新聞,虛假新聞傳播更快、更頻繁[1]。因此,對虛假新聞進行檢測,具有重要意義。

        最初的虛假新聞檢測主要依賴于官方辟謠網(wǎng)站,由相關(guān)領(lǐng)域的多位專家對新聞的真實性進行研判。這種方式需要專家知識,不僅耗費大量的人力物力,而且時效性差。近年來,基于機器學(xué)習(xí)和深度學(xué)習(xí)的虛假新聞自動檢測技術(shù)得到了發(fā)展。目前的虛假新聞檢測方法大致可以分為基于內(nèi)容的檢測方法和基于社交上下文的檢測方法。兩種方法的區(qū)別在于是否使用社交上下文信息。例如,新聞在社交媒體上的傳播路徑、社交用戶彼此之間的關(guān)系網(wǎng)絡(luò)、社交用戶的參與情況(點贊、轉(zhuǎn)發(fā)、評論)等。社交上下文信息越豐富,越有利于虛假新聞檢測。然而,基于社交上下文的虛假新聞檢測方法不適用于虛假新聞早期檢測,當(dāng)新聞在新聞渠道上發(fā)布但尚未在社交媒體上傳播時,社交上下文信息不充分。虛假新聞早期檢測具有實際意義,當(dāng)虛假新聞曝光的次數(shù)越多,并且反復(fù)出現(xiàn)在社交用戶視野中時,用戶越容易相信其真實性。一旦用戶認為虛假新聞是真的,就很難改變他們的認知?;谛侣剝?nèi)容的檢測,由于不需要考慮社交上下文信息,數(shù)據(jù)容易獲取且能夠?qū)崿F(xiàn)虛假新聞的早期檢測,受到越來越多的關(guān)注。已有研究通常把新聞文本內(nèi)容作為整體,進行虛假新聞檢測,較少考慮到新聞標(biāo)題和正文之間的語義關(guān)聯(lián)性。如果一則新聞并非真實發(fā)生,為了吸引讀者,通常會采用獵奇、煽動性的標(biāo)題,往往與正文內(nèi)容無關(guān)。雖然帶有“標(biāo)題黨”的新聞文章通常并不可靠,但并非所有這些新聞文章都是虛假新聞,這促使去探索虛假新聞和“標(biāo)題黨”之間的關(guān)系。

        為解決上述問題,本文提出一種基于雙分支網(wǎng)絡(luò)聯(lián)合訓(xùn)練的虛假新聞檢測模型(jointly training twobranch network,JTTN),該模型由兩個分支子網(wǎng)絡(luò)構(gòu)成,分別是最大池化網(wǎng)絡(luò)分支(max pooling network branch,MPB)和廣義均值池化網(wǎng)絡(luò)分支(generalized mean pooling network branch,GPB)。MPB采用卷積神經(jīng)網(wǎng)絡(luò)進行文本特征提取,GPB在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,引入了可訓(xùn)練的池化層,兩個分支網(wǎng)絡(luò)聯(lián)合訓(xùn)練,共同學(xué)習(xí)新聞內(nèi)容潛在的語義特征。在每個分支子網(wǎng)絡(luò)中,對新聞的標(biāo)題和正文之間進行語義關(guān)聯(lián)性度量。最終,對兩個分支子網(wǎng)絡(luò)聯(lián)合訓(xùn)練后的結(jié)果進行決策融合,輸出模型的預(yù)測結(jié)果。

        1 相關(guān)工作

        1.1 基于內(nèi)容的虛假新聞檢測

        基于內(nèi)容的虛假新聞檢測方法指利用新聞的內(nèi)容進行檢測,包括文本信息(標(biāo)題、正文、網(wǎng)頁鏈接),視覺信息(圖片、表情包),音頻信息等?,F(xiàn)有研究大多集中在新聞的文本內(nèi)容上,從中提取統(tǒng)計特征或語義特征。Castillo等人[2]基于新聞文本內(nèi)容的語言特征來檢測虛假新聞,他們設(shè)計了一份語言特征列表,如問號、表情符號、情緒正負詞和代詞,來衡量推特上信息的可信度。Popat[3]發(fā)現(xiàn),文章的語言風(fēng)格對于理解文章的可信度起著至關(guān)重要的作用。然而,基于語言風(fēng)格的特征不具備語義信息,很容易被操縱。Feng等人在文獻[4]中使用上下文無關(guān)的語法規(guī)則識別虛假信息。Ma等人[5]首先探索了通過捕獲時間語言特征來用深度神經(jīng)網(wǎng)絡(luò)表示新聞的可能性。Chen等人[6]將注意力機制引入到循環(huán)神經(jīng)網(wǎng)絡(luò)中,以集中捕獲獨特的時間語言特征。隨著多媒體技術(shù)的發(fā)展,虛假新聞試圖利用帶有圖像或視頻的多媒體內(nèi)容來吸引和誤導(dǎo)讀者,以便迅速傳播。Qi等人[7]從圖像角度出發(fā),通過探索圖像物理層面和語義層面的不同特征,提出了一個多域視覺神經(jīng)網(wǎng)絡(luò)模型來融合頻域和像素域的視覺信息,從而進行虛假新聞檢測。該模型對不同數(shù)據(jù)集的泛化能力仍需進一步驗證。Xue等人[8]進一步挖掘虛假圖片的信息,對圖片的像素域特征和頻域特征進行融合后,作為視覺特征。同時,引入了圖片的物理屬性,最后通過集成學(xué)習(xí)聯(lián)合視覺特征和物理特征,實現(xiàn)虛假新聞圖片檢測。

        大部分基于內(nèi)容的虛假新聞檢測工作通常把新聞標(biāo)題和正文作為一個整體來進行語義和風(fēng)格特征的分析,較少工作直接從“標(biāo)題黨”的角度出發(fā),即分析標(biāo)題和正文之間存在的差異和關(guān)聯(lián)性。雖然已經(jīng)有針對“標(biāo)題黨”檢測任務(wù)的研究工作[9],但該工作的重點在于識別新聞是否存在“標(biāo)題黨”的現(xiàn)象。因此,基于“標(biāo)題黨”檢測的思想,本文重點探索新聞標(biāo)題和正文之間的語義關(guān)聯(lián)性,利用最大均值差異(maximum mean discrepancy,MMD)[10]進行度量。結(jié)合深度神經(jīng)網(wǎng)絡(luò)和不同的池化操作進行聯(lián)合訓(xùn)練,自動提取文本的潛在特征,以檢測新聞的真實性。

        1.2 基于社交上下文的虛假新聞檢測

        基于社交上下文的虛假新聞檢測方法通過探索與新聞相關(guān)的社交上下文信息來檢測虛假新聞,即新聞在社交媒體上的傳播方式以及用戶的參與情況等。社交用戶和新聞之間的互動所建立的社會聯(lián)系,為新聞提供了豐富的社交上下文信息。社交上下文信息代表了用戶在社交媒體上對新聞的參與情況[11],例如關(guān)注者數(shù)量、評論、點贊、話題標(biāo)簽和分享轉(zhuǎn)發(fā)的網(wǎng)絡(luò)結(jié)構(gòu)。Wu等人[12]利用社交媒體上的用戶資料和新聞傳播路徑來分類虛假新聞。Liu等人[13]將新聞的傳播路徑作為多元時間序列來建模,結(jié)合RNNs和CNNs網(wǎng)絡(luò)來檢測虛假新聞。然而,在虛假新聞的早期檢測階段,即新聞在新聞渠道上發(fā)布但尚未在社交媒體上傳播時,不能依靠新聞的傳播信息,因為它們并不存在[14]。Ma等人[15]基于樹狀結(jié)構(gòu)的遞歸神經(jīng)模型來學(xué)習(xí)推文的表示。Jin等人[16]使用了手工提取的關(guān)注者數(shù)量、轉(zhuǎn)發(fā)量等社交上下文特征。尹鵬博等人[17]通過對用戶的歷史微博進行分析,結(jié)合用戶屬性和微博文本,采用C-LSTM模型實現(xiàn)謠言檢測。沈瑞琳等人[18]提出基于多任務(wù)學(xué)習(xí)的微博謠言檢測方法,利用情感分析任務(wù)輔助謠言檢測,在一定程度上解決了深度學(xué)習(xí)中帶標(biāo)簽數(shù)據(jù)不足的問題,但模型對相關(guān)的輔助數(shù)據(jù)具有依賴性。

        社交上下文信息通常是非結(jié)構(gòu)化數(shù)據(jù),需要通過大量的手工勞動來收集。同時,社交上下文特征需要經(jīng)過一段時間的積累才能提取出來,不能及時檢測新出現(xiàn)的虛假新聞。在新聞還沒在社交媒體上傳播開來之前,需要使用基于內(nèi)容的檢測方法,因為在這個階段還不存在豐富的社交上下文信息。因此,本文基于新聞內(nèi)容本身,通過挖掘潛在的信息來進行虛假新聞檢測。

        2 方法

        本文提出的基于雙分支網(wǎng)絡(luò)聯(lián)合訓(xùn)練的虛假新聞檢測模型結(jié)構(gòu)如圖1所示,模型由兩個分支子網(wǎng)絡(luò)組成,分別是MPB和GPB。每個分支子網(wǎng)絡(luò)包含了三個模塊:(1)文本特性提取器;(2)標(biāo)題正文間語義關(guān)聯(lián)性度量;(3)虛假新聞分類器。首先,文本特性提取器分別提取新聞文章的標(biāo)題特征和正文特征,并使用MMD來度量它們之間的語義關(guān)聯(lián)性,然后將兩個特征進行加權(quán)融合,作為虛假新聞分類器的輸入。最后,對兩個分支子網(wǎng)絡(luò)聯(lián)合訓(xùn)練的分類結(jié)果進行決策融合,輸出模型的預(yù)測結(jié)果(真實或虛假)。MPB采用最大池化進行下采樣,GPB采用廣義均值池化進行下采樣。

        圖1 JTTN模型Fig.1 JTTN model

        2.1 文本特征提取

        給定一篇由標(biāo)題T(title)和正文B(body text)組成的新聞文章A={T,B},在不同的分支子網(wǎng)絡(luò)中,采用不用的文本特征提取方法。在MPB中,本文使用卷積神經(jīng)網(wǎng)絡(luò)Text-CNN[19]來學(xué)習(xí)新聞的特征表示。Text-CNN利用不同窗口大小的多個卷積核來捕獲文本的特征信息。對于標(biāo)題T中的每個字,對應(yīng)的d維詞嵌入向量表示為x lt∈Rd,l=1,2,…,n t。本文使用下標(biāo)t來標(biāo)識標(biāo)題T,使用下標(biāo)b來標(biāo)識正文B。新聞標(biāo)題的詞嵌入向量序列可表示為:

        其中,T1:n t∈Rn t×d,⊕表示拼接操作,n t為新聞標(biāo)題的長度。窗口大小為h的卷積核以標(biāo)題中h個詞的連續(xù)序列作為輸入,對其進行卷積操作,輸出特征映射。以從第i個字開始的連續(xù)序列為例,卷積操作可表示為式(2):

        其中,x i:(i+h-1)t∈Rh×d,⊕表示拼接操作,w t為卷積核,b t為偏置項,σ(·)是ReLU激活函數(shù)。對卷積操作后得到的特征映射進行最大池化操作,實現(xiàn)降維。池化層對特征映射取最大值,從中提取出最重要的信息。每個特征映射經(jīng)過最大池化后,可表示為:

        最后,將池化后的結(jié)果輸入全連接層,得到標(biāo)題的特征表示為:

        其中,R tm的下標(biāo)tm表示標(biāo)題特征通過MPB子網(wǎng)絡(luò)獲得,W tm表示權(quán)重矩陣,∈Rk,k表示不同窗口大小的卷積核數(shù)目。

        類似地,對于長度為nb的新聞?wù)腂,經(jīng)過d維詞嵌入后,可表示為:

        采用跟上述新聞標(biāo)題相同的特征提取方式,新聞?wù)奶卣骺杀硎緸椋?/p>

        Text-CNN的池化層采用最大池化操作,在減少模型參數(shù)量的同時能保證特征的位置和旋轉(zhuǎn)不變性,但是忽略了文本特征的位置信息。Radenovi?等人在文獻[20]中提出了一種可訓(xùn)練的廣義均值池化層(GeM pooling layer),并證明其能夠顯著提高檢索性能。廣義均值池化介于最大池化和均值池化之間,二者是其特殊形式。

        因此,在GPB子網(wǎng)絡(luò)中,基于Text-CNN的網(wǎng)絡(luò)結(jié)構(gòu),采用廣義均值池化代替原來的最大池化方式,來捕獲不同粒度的特征信息。對于公式(2)得到的每個特征映射cit,分別進行廣義均值池化操作。計算公式可表示為:

        當(dāng)p i=1時,廣義均值池化相當(dāng)于均值池化,當(dāng)pi→∞時,廣義均值池化相當(dāng)于最大池化。相比于最大池化,廣義均值池化包含可學(xué)習(xí)的參數(shù)p i,對輸入的樣本先求p次冪,然后取均值,再進行p次開方。

        將池化后的結(jié)果輸入到全連接層,得到新聞標(biāo)題的特征表示為:

        其中,R tg的下標(biāo)tg表示標(biāo)題的特征表示通過GPB子網(wǎng)絡(luò)獲得,W tg為權(quán)重矩陣,b tg為偏置項。

        類似地,對于新聞?wù)腂,通過GPB子網(wǎng)絡(luò)獲得的特征表示為:

        2.2 標(biāo)題正文間語義關(guān)聯(lián)性度量

        一篇完整的新聞通常由標(biāo)題(短文本)T和正文(長文本)B組成。受到“標(biāo)題黨”檢測任務(wù)的啟發(fā),發(fā)現(xiàn)虛假新聞發(fā)布者為了吸引更多讀者閱讀和傳播虛假信息,通常會使用夸大、獵奇、色情的標(biāo)題來吸引眼球,新聞的正文內(nèi)容往往與標(biāo)題不匹配。但僅僅檢測“標(biāo)題黨”還不夠,因為一些真實新聞也會存在“標(biāo)題黨”現(xiàn)象。因此,在上述文本特征提取過程中,使用兩個分支網(wǎng)絡(luò),充分挖掘新聞的語義信息。接下來,本文使用最大均值差異來度量新聞標(biāo)題和正文之間的語義關(guān)聯(lián)性。最大均值差異是遷移學(xué)習(xí),尤其是域適應(yīng)中使用最廣泛的一種損失函數(shù),主要用來度量在再生希爾伯特空間中兩個分布的距離。

        假設(shè)一篇新聞的標(biāo)題和正文來自于兩個文本語義分布,分別表示為X T和X B。如果標(biāo)題跟正文描述同一件事情,在語義上相關(guān),則認為它們所在的分布相同,該新聞傾向于是真實新聞。反之,該新聞傾向于是虛假新聞。本文使用MMD來度量標(biāo)題和正文兩個分布間的距離,距離定義為:

        其中,σ(·)表示映射函數(shù),用于把原變量映射到再生希爾伯特空間。如果一篇新聞是虛假新聞,則它的標(biāo)題和正文之間的MMD距離要比真實新聞大,關(guān)聯(lián)性更小。本文目的在于最大化虛假新聞的標(biāo)題和正文之間的MMD距離。如果這個值足夠小,就認為兩個分布相同,否則就認為它們不相同。MMD距離損失函數(shù)可以表示為:

        其中,θT={θtm,θt g}表示新聞標(biāo)題特征提取過程中所需參數(shù),θB={θbm,θbg}表示新聞?wù)奶卣魈崛∵^程中所需參數(shù)。

        2.3 虛假新聞分類器

        到目前為止,通過文本特征提取器,分別獲得新聞標(biāo)題和正文的特征表示。在MPB中,標(biāo)題T的特征表示為R tm,正文B的特征表示為R bm。在GPB中,標(biāo)題T的特征表示為R tg,正文B的特征表示為R bg。在每個分支網(wǎng)絡(luò)中,分別對標(biāo)題特征和正文特征進行加權(quán)融合,融合后的特征作為虛假新聞檢測器的輸入,然后連接含Softmax函數(shù)的全連接層來預(yù)測新聞的真假。虛假新聞分類器可表示為Ld(·;θd),θd表示分類器中的所有參數(shù)。對于第i篇新聞ai,虛假新聞檢測器的最終輸出記為pθ(ai),表示該新聞是虛假新聞的概率。

        其中,R m、R g分別表示一篇文章在MPB和GPB中融合后的特征。λ1、λ2、λ3、λ4分別表示加權(quán)權(quán)重。虛假新聞檢測器的目的在于識別某一篇文章是否是虛假新聞。用Y表示新聞文章集合A的真實標(biāo)簽集合,使用交叉熵損失函數(shù)作為虛假新聞檢測器的分類損失:

        其中,a i表示某一篇文章,y表示該文章對應(yīng)的真實標(biāo)簽。目的在于尋找最優(yōu)的參數(shù)來最小化分類損失,這個過程可以表示為:

        2.4 雙分支聯(lián)合訓(xùn)練

        為了從不同范圍和粒度捕獲新聞文章的文本信息,采用了雙分支網(wǎng)絡(luò)聯(lián)合訓(xùn)練的方法,分別為MPB和GPB。在每個分支網(wǎng)絡(luò)里,基于Text-CNN和不同的池化方式,提取新聞的標(biāo)題和正文特征,然后利用MMD度量標(biāo)題和正文之間的語義距離并約束兩個分布的特征。最后,兩個分支網(wǎng)絡(luò)聯(lián)合訓(xùn)練,輸出虛假新聞檢測任務(wù)的預(yù)測結(jié)果。這樣做的目的在于,(1)檢測虛假新聞;(2)充分探索新聞的標(biāo)題和正文之間的語義關(guān)聯(lián)性。模型最終的損失函數(shù)可以表示為:

        其中,ζclass(·)表示交叉熵分類損失。ζmmd m(·)表示在MPB中,標(biāo)題和正文間的語義關(guān)聯(lián)損失。θtm、θbm分別表示在MPB中標(biāo)題和正文特征提取過程中所需要的參數(shù)。類似地,ζmmd g(·)表示在GPB中標(biāo)題和正文之間的語義關(guān)聯(lián)損失。θtg、θbg分別表示在GPB中標(biāo)題和正文特征提取過程中所需要的參數(shù)。目的在于最小化最終的損失函數(shù),該過程可以表示為:

        其中,θtm、θbm、θtg、θbg、θd表示MPB子網(wǎng)絡(luò)、GPB子網(wǎng)絡(luò)以及分類器中包含的參數(shù),例如卷積核、權(quán)重矩陣、偏置項等。通過反向傳播算法對上述參數(shù)進行更新,其優(yōu)化過程見算法1。每輪訓(xùn)練都采用Adam優(yōu)化器,通過自適應(yīng)調(diào)整學(xué)習(xí)率來優(yōu)化網(wǎng)絡(luò)的收斂速度。在網(wǎng)絡(luò)訓(xùn)練過程中,采用Early Stop策略,當(dāng)模型的性能無明顯變化時,停止訓(xùn)練。

        算法1JTTN

        輸出:網(wǎng)絡(luò)參數(shù)θtm,θbm,θtg,θbg,θd

        1.隨機初始化網(wǎng)絡(luò)參數(shù):θtm,θbm,θtg,θbg,θd

        2.whilenot convergence do/*當(dāng)網(wǎng)絡(luò)未收斂時*/

        3. for each epochdo/*對于每一輪迭代,執(zhí)行以下步驟*/

        4. for each mini-batch do/*對于每一個批處理,執(zhí)行以下操作*/

        10. end for

        11. end for

        12.end

        13.返回網(wǎng)絡(luò)參數(shù):θtm,θbm,θtg,θbg,θd

        3 實驗與結(jié)果分析

        3.1 數(shù)據(jù)集

        為評估本文所提出的模型性能,研究采用Wang等人公開的新聞數(shù)據(jù)集[21]進行實驗。該數(shù)據(jù)集(https://github.com/yaqingwang/WeFEND-AAAI20)收 集 了 從2018年3月到2018年10月,微信公眾號發(fā)布的新聞文章。公開的新聞數(shù)據(jù)集包含了微信公眾號名稱(新聞發(fā)布者)、新聞標(biāo)題、新聞鏈接、新聞封面鏈接、用戶反饋報告以及新聞標(biāo)簽(fake or real)這六項信息。為了能夠探索新聞標(biāo)題和正文之間的語義關(guān)聯(lián)性,從而進行虛假新聞檢測,在該數(shù)據(jù)集的基礎(chǔ)上,做進一步的信息收集和數(shù)據(jù)清洗。根據(jù)數(shù)據(jù)集公開的新聞鏈接和封面鏈接,通過網(wǎng)絡(luò)爬蟲技術(shù)爬取了每一篇新聞對應(yīng)的文章正文,封面圖片以及文章內(nèi)部的圖片。由于受到微信營運平臺的監(jiān)管和讀者的反饋舉報,很多新聞都已經(jīng)失效,特別是虛假新聞。通常情況是新聞文章被刪除或者公眾號被封號,這導(dǎo)致不能爬取到所有完整的數(shù)據(jù)。因此,對于已經(jīng)失效的新聞文章,只保留它們的標(biāo)題信息。最終得到的數(shù)據(jù)統(tǒng)計信息如表1所示。本文使用新聞的標(biāo)題和正文數(shù)據(jù)作為模型的輸入。

        表1 新聞數(shù)據(jù)集統(tǒng)計信息Table 1 Statistics of news dataset

        3.2 對比實驗

        為了驗證本文方法的有效性,選取了目前虛假新聞檢測任務(wù)常用的方法作為基線方法進行對比。

        (1)CNNT:CNNT只使用新聞標(biāo)題作為輸入,由于缺乏正文,所以在JTTN模型的基礎(chǔ)上去掉標(biāo)題和正文之間的語義關(guān)聯(lián)性度量,然后使用雙分支網(wǎng)絡(luò)進行特征提取,再通過分類器進行二分類。

        (2)CNNB:CNNB只使用新聞?wù)淖鳛檩斎?,其余設(shè)置與CNNT相同。

        (3)LSTM:LSTM使用一層LSTM作為文本特征提取器,通過對RNN在每個時間步長的輸出進行平均,得到潛在表示,然后將這些表示輸入到全連接層進行預(yù)測。建立在LSTM特征提取器之上的全連接層輸出新聞是虛假新聞的概率。

        (4)HAN[22]:HAN基于新聞的內(nèi)容,構(gòu)建了一個層次注意力神經(jīng)網(wǎng)絡(luò)框架來進行虛假新聞檢測。它對新聞內(nèi)容進行編碼,采用“詞-句子-文章”的層次化結(jié)構(gòu)來表示一篇文章,在句子級別關(guān)注詞層次,在文檔級別關(guān)注句層次。

        (5)Att-RNN[16]:Att-RNN利用注意機制來融合文本、視覺和社會上下文特征。實驗中,去除視覺和社會上下文信息,其余部分相同。

        (6)EANN[23]:EANN由三個主要部分組成,多模態(tài)特征提取器、虛假新聞檢測器和事件鑒別器。多模態(tài)特征提取器從帖子中提取文本和視覺信息,它與虛假新聞檢測器一起學(xué)習(xí)可識別的特征表示來檢測虛假新聞。事件鑒別器負責(zé)刪除任何特定于事件的特征。由于輸入只有文本信息,所以去除了視覺特征提取器和事件鑒別器。

        (7)SAFE[24]:SAFE基于Text-CNN提取新聞文本特征,通過計算新聞文章文本和視覺信息之間的相似性,實現(xiàn)虛假新聞檢測。該模型以完整的新聞文章作為輸入,設(shè)置了與文獻[24]相同的超參數(shù)。

        3.3 評估方法與參數(shù)設(shè)置

        本文使用準(zhǔn)確率(Accuracy)、精確度(Precision)、召回率(Recall)、F1值(F1-score)作為評估指標(biāo)。通常F1值越高,說明分類器性能越好。實驗采用PyTorch深度學(xué)習(xí)框架來構(gòu)建虛假新聞檢測模型并進行模型訓(xùn)練。根據(jù)新聞的發(fā)布日期,按照7∶1∶2的比例劃分數(shù)據(jù)集,70%作為訓(xùn)練集、10%作為驗證集、20%作為測試集。其中,最新發(fā)布的新聞文章作為測試數(shù)據(jù)。在參數(shù)設(shè)置方面,新聞標(biāo)題長度n t設(shè)為32,正文長度nb設(shè)為300,不足部分用0填充,超出部分刪除。標(biāo)題和正文的嵌入維度d均設(shè)為300,最后加權(quán)融合后的特征維度為128維。Text-CNN有三種卷積核,大小分別為2、3、4,每種卷積核的數(shù)量為200。在網(wǎng)絡(luò)訓(xùn)練過程中,使用Adam優(yōu)化器,設(shè)置批處理大小為256,迭代次數(shù)為200,學(xué)習(xí)率為1E-3。MMD中的映射函數(shù)φ(·)為高斯核函數(shù)。

        3.4 實驗結(jié)果及分析

        表2顯示了本文方法跟其他方法的實驗對比結(jié)果。實驗結(jié)果表明,針對虛假新聞檢測任務(wù),本文提出的方法在準(zhǔn)確率、精確度和F1值上均優(yōu)于其他方法,取得了最好的分類性能。針對實驗結(jié)果,有以下幾點分析:(1)從CNNT和CNNB的實驗結(jié)果可以看出,將新聞標(biāo)題和正文一起作為模型的輸入來檢測虛假新聞,其性能優(yōu)于僅使用標(biāo)題或者正文作為模型的輸入。由此可驗證新聞標(biāo)題正文間語義關(guān)聯(lián)性度量的有效性。(2)HAN采用了詞層級和句層級的注意力機制,目的在于提取出文章中貢獻最大的詞和句子。這種解決方法,對文本分類能起到很好的效果,但不適用于虛假新聞檢測,因為虛假新聞也是圍繞一個主題展開描述。僅僅依靠文章最重要的信息,無法有效地檢測虛假新聞,導(dǎo)致虛假新聞預(yù)測結(jié)果的F1分數(shù)偏低。(3)LSTM擅長處理時序信息,在文本任務(wù)中,它能夠更好地聯(lián)系上下文信息提取特征,但虛假新聞檢測任務(wù)更注重語義風(fēng)格等的局部特征,對時序特征不會過分依賴,因此使用Text-CNN進行特征提取的EANN模型能夠更好地提取文本的局部特征,在虛假新聞檢測任務(wù)上表現(xiàn)得更好。(4)SAFE通過引入額外的全連接層來擴展Text-CNN,以自動提取每篇新聞文章的文本特征。與之不同的是,本文方法引入了可訓(xùn)練的池化層,通過訓(xùn)練網(wǎng)絡(luò)自動調(diào)節(jié)參數(shù),進一步學(xué)習(xí)新聞潛在的文本特征,故其總體性能優(yōu)于SAFE。(5)本文的模型使用雙分支網(wǎng)絡(luò)進行聯(lián)合訓(xùn)練,能夠充分地挖掘新聞文章潛在的語義風(fēng)格特征,從而捕獲虛假新聞與真實新聞的差異。另外,基于“標(biāo)題黨”檢測的思想,通過度量新聞標(biāo)題和正文之間的語義關(guān)聯(lián)性,能更好地檢測出虛假新聞。

        表2 JTTN模型與其他方法的實驗結(jié)果對比Table 2 Comparison of experimental results between JTTN model and other methods

        3.5 不同關(guān)聯(lián)性度量方法對比

        為了分析不同關(guān)聯(lián)性度量方法對實驗結(jié)果的影響,共設(shè)計了4種變體:(1)去掉標(biāo)題和正文之間的語義關(guān)聯(lián)性度量(-MMD)。(2)使用CORAL[25]作為度量方法(CORAL)。(3)使用余弦相似度作為度量方法(COS)。(4)使用最大均值差異作為度量方法,即本文提出的方法(MMD)。實驗結(jié)果如表3所示,結(jié)果表明,在4種變體中,使用最大均值差異作為度量方法的實驗結(jié)果最好,使用余弦相似度作為度量方法的效果次之。實驗結(jié)果也表明新聞標(biāo)題和正文之間的語義關(guān)聯(lián)性度量對虛假新聞檢測任務(wù)的有效性。

        表3 不同關(guān)聯(lián)性度量方法的實驗結(jié)果Table 3 Results of different correlation measurement methods

        最大均值差異比余弦相似度表現(xiàn)更優(yōu)的原因在于:余弦相似度假設(shè)在語義特征空間中,兩個特征向量對應(yīng)位置的元素特征是對齊的,但這種假設(shè)過于嚴格,在異構(gòu)源向量中通常是無效的。而最大均值差異是將兩個特征向量映射到再生希爾伯特空間中,通過核學(xué)習(xí)方法,來度量兩個分布之間的距離,并不要求兩個特征向量間的元素特征對齊,更適用于度量標(biāo)題和正文間的語義關(guān)聯(lián)性。

        3.6 單分支網(wǎng)絡(luò)與雙分支網(wǎng)絡(luò)實驗結(jié)果對比

        為了探究雙分支網(wǎng)絡(luò)聯(lián)合訓(xùn)練模型是否比單分支網(wǎng)絡(luò)訓(xùn)練更有效,本文設(shè)計了單分支網(wǎng)絡(luò)與雙分支網(wǎng)絡(luò)的對比實驗。以本文設(shè)計的JTTN模型為基礎(chǔ),分別去掉其中的一個分支,作為單分支網(wǎng)絡(luò)。實驗結(jié)果如圖2所示,其中,MPB、GPB分支表示單分支網(wǎng)絡(luò),JTTN表示雙分支網(wǎng)絡(luò)。

        從圖2的結(jié)果可以看出,雙分支網(wǎng)絡(luò)的準(zhǔn)確率和F1值均比單分支網(wǎng)絡(luò)高。雙分支網(wǎng)絡(luò)的F1值分別比MPB和GPB高出了0.016和0.015。證明了雙分支網(wǎng)絡(luò)聯(lián)合訓(xùn)練比單分支網(wǎng)絡(luò)單獨訓(xùn)練效果更好。

        圖2 單分支網(wǎng)絡(luò)與雙分支網(wǎng)絡(luò)實驗結(jié)果對比Fig.2 Comparison of single-branch network and two-branch network experimental results

        3.7 參數(shù)分析

        在損失函數(shù)計算公式(19)中,α和β被用來權(quán)衡交叉熵分類損失(α)和語義關(guān)聯(lián)損失(β)之間的相對重要性。為了評估α和β對模型性能的影響,設(shè)計了相關(guān)實驗,分別設(shè)置α和β的值從0遞增到1,步長設(shè)置為0.2。在α和β不同的取值下,模型的檢測結(jié)果(準(zhǔn)確率和F1值)如圖3所示??梢钥闯觯啾扔讦?,不同的β值對模型性能的影響較為顯著。當(dāng)β的取值較大時,模型的準(zhǔn)確率和F1值較高,分類器效果較好。由此,可以驗證模型中標(biāo)題正文間語義關(guān)聯(lián)性度量的可行性和有效性。圖3(a)中,準(zhǔn)確率的變化范圍從0.982到0.988,α和β的不同取值對準(zhǔn)確率的影響不明顯。圖3(b)中,F(xiàn)1值的變化范圍從0.91到0.95,相差了0.04。從實驗結(jié)果可知,當(dāng)α=0.2;β=0.4或者α=0.4;β=1時,也就是說,當(dāng)α∶β≈1∶2.3時,模型取得最好的效果。

        圖3 損失函數(shù)參數(shù)分析Fig.3 Parameter analysis of loss function

        3.8 收斂性分析

        圖4展示了本文提出的模型在訓(xùn)練過程中,最終的損失函數(shù)值(loss)隨迭代次數(shù)(epoch)變化的情況。網(wǎng)絡(luò)經(jīng)過約20次迭代訓(xùn)練后,逐漸收斂到相對平穩(wěn)的趨勢。由此可以驗證本文提出的模型的有效性以及損失函數(shù)計算的可行性。

        圖4 損失函數(shù)Fig.4 Loss function

        3.9 案例分析

        對于模型分類錯誤的新聞,找出具有代表性的例子進行分析,探究分類錯誤的原因,如圖5所示。圖5(a)表示真實新聞被預(yù)測為虛假新聞的例子,從文章內(nèi)容可以看出,它的標(biāo)題使用了問號,且引用網(wǎng)友的話,讓讀者迫切地想知道文章主角的真實身份到底是什么。很明顯,這符合“標(biāo)題黨”的現(xiàn)象。文章正文前半部分對標(biāo)題提出的人物身份進行描述,但后半部分,卻轉(zhuǎn)向描述別的人物,偏離了標(biāo)題?;谏鲜鰞牲c,本文模型把它識別成了虛假新聞。圖5(b)表示虛假新聞被預(yù)測為真實新聞的例子,文章標(biāo)題表明已找到“馬航MH370”失聯(lián)飛機,正文部分也舉例證明標(biāo)題的說法,很難區(qū)分真假,所以本文模型將其預(yù)測為真實新聞。

        圖5 識別錯誤的新聞例子Fig.5 Examples of wrong results

        4 結(jié)束語

        文本所提出的基于雙分支網(wǎng)絡(luò)聯(lián)合訓(xùn)練的虛假新聞檢測方法,通過采用雙分支網(wǎng)絡(luò)結(jié)構(gòu)來挖掘新聞標(biāo)題和正文潛在的語義特征,同時,度量標(biāo)題和正文之間的語義關(guān)聯(lián)性,實現(xiàn)虛假新聞的早期檢測。本文模型取得了較好的性能,準(zhǔn)確率、F1值分別高達0.988、0.941。實驗結(jié)果表明,基于雙分支網(wǎng)絡(luò)進行聯(lián)合訓(xùn)練的方法具有可行性和有效性。目前本文僅使用新聞的文本類型(單模態(tài))作為模型的輸入,未來的工作將集中在增加模型的輸入數(shù)據(jù)類型,采用更多的社交媒體信息,如圖片、視頻等作為模型的輸入,實現(xiàn)多模態(tài)虛假新聞檢測。

        猜你喜歡
        分支正文語義
        更正聲明
        傳媒論壇(2022年9期)2022-02-17 19:47:54
        更正啟事
        語言與語義
        巧分支與枝
        一類擬齊次多項式中心的極限環(huán)分支
        “上”與“下”語義的不對稱性及其認知闡釋
        認知范疇模糊與語義模糊
        生成分支q-矩陣的零流出性
        大鼠腦缺血/再灌注后bFGF和GAP-43的表達與神經(jīng)再生
        碩果累累
        精品国产成人亚洲午夜福利| 最新国产熟女资源自拍| 国产性自爱拍偷在在线播放| aⅴ精品无码无卡在线观看| 亚洲精品国产成人| 国产精品每日更新在线观看 | 最近中文av字幕在线中文| 欧洲AV秘 无码一区二区三| 国成成人av一区二区三区| 国产av精品一区二区三区久久| 免费a级毛片18禁网站app| 又色又爽又黄又硬的视频免费观看 | 人妻系列中文字幕av| 亚洲中国精品精华液| 久久久久波多野结衣高潮| 亚洲日韩图片专区小说专区| 99久久无色码中文字幕鲁信| 日韩一区二区三区熟女| 久久精品国产字幕高潮| 亚洲aⅴ天堂av天堂无码麻豆| 无遮挡中文毛片免费观看| 青青草视全福视频在线| 亚洲av手机在线网站| 久久99热狠狠色精品一区| 亚洲av久久无码精品九九| 亚洲 美腿 欧美 偷拍| 麻豆成人久久精品一区| 久久理论片午夜琪琪电影网| 丰满熟女人妻中文字幕免费| 国产精品98视频全部国产| 亚洲国语对白在线观看| 国产无套内射又大又猛又粗又爽 | 亚洲无AV码一区二区三区| 国产午夜三级精品久久久| 国产精品日日做人人爱| 中文字幕一区二区三区日韩精品| 国产国语对白一区二区三区| 好看的国内自拍三级网站| 久久精品国产亚洲av超清| 最近在线更新8中文字幕免费| 永久免费看免费无码视频|