米 源,唐恒亮,2
1.北京物資學(xué)院 信息學(xué)院,北京101149
2.北京工業(yè)大學(xué) 多媒體與智能軟件技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京100124
互聯(lián)網(wǎng)時(shí)代,社交媒體成為最大的信息傳播渠道。有研究發(fā)現(xiàn),與傳統(tǒng)大眾媒體不同,社交媒體傳播信息速度快、范圍廣,正成為網(wǎng)絡(luò)謠言的主要傳播渠道。網(wǎng)絡(luò)謠言是以互聯(lián)網(wǎng)媒體平臺(tái)或網(wǎng)頁(yè)為主要載體,公開(kāi)或半公開(kāi)的傳播未經(jīng)證實(shí)或缺乏事實(shí)依據(jù)的信息,混淆視聽(tīng)形成替代性新聞。造謠者借助事件本身的重要性以及網(wǎng)絡(luò)信息的模糊性,利用富有煽動(dòng)性的語(yǔ)氣蠱惑網(wǎng)民對(duì)謠言進(jìn)行轉(zhuǎn)發(fā),擴(kuò)大傳播面積,將事件推向輿論中心。例如“是中國(guó)人就轉(zhuǎn)”“信不信由你”等都是常見(jiàn)擴(kuò)散網(wǎng)絡(luò)謠言的煽動(dòng)性語(yǔ)句。倘若未證實(shí)的消息上升為公眾話題,很可能混亂社會(huì)治安,形成謠言風(fēng)暴,造成一系列難以預(yù)見(jiàn)的連鎖反應(yīng)。
自武漢衛(wèi)健委通報(bào)不明原因肺炎事件開(kāi)始,新冠肺炎病毒已引起國(guó)內(nèi)外公眾的關(guān)注,隨之而來(lái)的是,網(wǎng)絡(luò)上出現(xiàn)各類(lèi)不實(shí)的信息。從初期的“吸煙可以預(yù)防非典,因?yàn)闊熡涂梢宰钃醪《具M(jìn)入肺細(xì)胞”“吃維生素C泡騰片能預(yù)防新型冠狀病毒”等傳播虛假健康消息、影響疫情防控工作的謠言,到最近的“特朗普新冠病毒測(cè)試結(jié)果呈陽(yáng)性”等可能造成社會(huì)恐慌的謠言,可以看出,借助網(wǎng)絡(luò)傳播渠道,網(wǎng)絡(luò)中的謠言對(duì)社會(huì)生活已造成極壞的影響。
目前網(wǎng)絡(luò)謠言信息繁雜,國(guó)內(nèi)外網(wǎng)絡(luò)謠言治理主要是依靠政府網(wǎng)絡(luò)管理部門(mén)監(jiān)管及一些公司建立的網(wǎng)絡(luò)辟謠平臺(tái)。鑒于手工監(jiān)測(cè)網(wǎng)絡(luò)謠言存在周期性和滯后性,因此對(duì)網(wǎng)絡(luò)謠言實(shí)現(xiàn)自動(dòng)鑒別,具有較為緊迫的現(xiàn)實(shí)意義。
鑒于網(wǎng)絡(luò)信息龐大,同時(shí)社交類(lèi)本文其字?jǐn)?shù)少、特征分散的特點(diǎn),有些網(wǎng)絡(luò)謠言信息很難被技術(shù)識(shí)別。例如在關(guān)鍵詞中插入字符、中英文交替、使用拼音疊字諧音字等,甚至采用隱喻、反語(yǔ)等手法,均可在一定程度上避開(kāi)句式特征的截取。
研究發(fā)現(xiàn)網(wǎng)絡(luò)謠言存在規(guī)律性,常見(jiàn)的謠言樣式可見(jiàn)表1??偨Y(jié)分析這些規(guī)律對(duì)實(shí)現(xiàn)網(wǎng)絡(luò)謠言實(shí)時(shí)監(jiān)測(cè)和主動(dòng)預(yù)警有重要意義。
表1 常見(jiàn)謠言樣式
此外,與真實(shí)信息在字面上差別很小的謠言或不包含詞庫(kù)關(guān)鍵詞的謠言很難被鑒別。為實(shí)現(xiàn)謠言文本特征的精準(zhǔn)鑒別,大量的學(xué)者主要建立敏感詞庫(kù)和采用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等技術(shù)的網(wǎng)絡(luò)謠言鑒別方法。
眾多學(xué)者從識(shí)別謠言的要素入手,構(gòu)造相關(guān)特征實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)謠言的自動(dòng)鑒別。很多研究一般是從敏感事件和熱點(diǎn)話題的敏感詞庫(kù)和熱點(diǎn)詞庫(kù)入手,類(lèi)似于關(guān)鍵字提取,采用計(jì)算特征詞權(quán)重的方法,取得了較好的效果。
構(gòu)建敏感詞庫(kù)主要在于識(shí)別敏感詞匯信息、提取及擴(kuò)展敏感詞匯[1]。學(xué)者們大多通過(guò)人工標(biāo)記或者基于傳統(tǒng)權(quán)重計(jì)算方法[2]去衡量與選擇敏感信息,構(gòu)建的詞庫(kù)多為專(zhuān)業(yè)詞匯。隨后,基于詞庫(kù)去迭代地識(shí)別敏感信息。僅僅構(gòu)建基礎(chǔ)詞庫(kù)對(duì)網(wǎng)絡(luò)謠言的鑒別是不夠的,需要對(duì)其進(jìn)行不斷擴(kuò)充從而得到較為完備的詞庫(kù)。詞庫(kù)擴(kuò)展,同樣類(lèi)似于關(guān)鍵字?jǐn)U展,可通過(guò)聚類(lèi)等相關(guān)算法計(jì)算詞義相似性或語(yǔ)義相似性進(jìn)行敏感詞匯的擴(kuò)充[3]。劉耕等[4]采用基于廣義的jaccard 系數(shù)方法來(lái)計(jì)算詞匯間相似性,擴(kuò)充得到敏感詞的相關(guān)聯(lián)詞匯。Chen等[5]提取詞典中近似敏感詞庫(kù)語(yǔ)義信息的詞作為擴(kuò)展。Yu等[6]主要是通過(guò)調(diào)用嵌入在Web瀏覽器中的分析器來(lái)獲取DOM 結(jié)構(gòu)以及視覺(jué)相關(guān)信息的VIPS(VIsion-based Page Segmentation)算法進(jìn)行查詢擴(kuò)展。Pnote等[7]將詞頻和文檔頻率按綜合頻率對(duì)詞信息進(jìn)行排序,提出將統(tǒng)計(jì)語(yǔ)言模型和信息檢索相結(jié)合的擴(kuò)展方法。Pedersen等[8]通過(guò)聚類(lèi)算法實(shí)現(xiàn)到語(yǔ)義擴(kuò)展。Turney等[9]通過(guò)計(jì)算傾向性基準(zhǔn)詞與目標(biāo)詞匯間相似度的方法識(shí)別詞匯語(yǔ)義傾向性。Neviarouskaya等[10]通過(guò)同義詞和反義詞的關(guān)系、上下文語(yǔ)義關(guān)系、推導(dǎo)關(guān)系以及與已知的詞匯單位復(fù)合來(lái)進(jìn)行詞庫(kù)的擴(kuò)展。Peng 等[11]利用線性鏈條件隨機(jī)場(chǎng)(CRFs)來(lái)進(jìn)行基于字、詞、多詞等形式的領(lǐng)域集成的中文分詞,并通過(guò)基于概率的新詞檢測(cè)方法進(jìn)行新詞識(shí)別。彭云等[12]從詞義理解、句法分析等角度獲得詞語(yǔ)間語(yǔ)義關(guān)系,并將其嵌入到主題模型,提出基于語(yǔ)義關(guān)系約束的主題模型SRC-LDA,從而實(shí)現(xiàn)主題詞的提取。Castillo 等[13]歸納文本特征、用戶特征、傳播特征和話題特征4個(gè)方面的要素以鑒別謠言,并在此基礎(chǔ)上總結(jié)出15項(xiàng)關(guān)鍵特征并利用決策樹(shù)算法實(shí)現(xiàn)對(duì)謠言的檢測(cè)。Ma 等[14]考慮謠言演變的時(shí)間特征,使用動(dòng)態(tài)時(shí)間序列模型對(duì)謠言進(jìn)行鑒別。祖坤琳等[15]基于微博的評(píng)論消息,將微博評(píng)論的情感傾向性加入模型,實(shí)現(xiàn)謠言的有效鑒別。李吉等[16]構(gòu)建基于PAD 模型的網(wǎng)絡(luò)口碑情感強(qiáng)度測(cè)度模型,實(shí)時(shí)監(jiān)控網(wǎng)絡(luò)口碑輿情。王晰巍等[17]構(gòu)建基于移動(dòng)環(huán)境下網(wǎng)絡(luò)輿情用戶評(píng)論情感分析模型,加強(qiáng)移動(dòng)環(huán)境下網(wǎng)絡(luò)輿情信息監(jiān)管。
以上所提到的方法雖然已取得一定效果,但是大多基于手工提取特征,只實(shí)現(xiàn)謠言特征的淺層提取,因而無(wú)法進(jìn)一步提升準(zhǔn)確率。鑒于深度學(xué)習(xí)技術(shù)可對(duì)文本特征進(jìn)行深層提取,于是基于深度學(xué)習(xí)的網(wǎng)絡(luò)謠言鑒別方法成為主流。
Ma等[18]使用RNN及其衍生模型對(duì)Tweet謠言事件進(jìn)行深層特征提取,實(shí)現(xiàn)網(wǎng)絡(luò)謠言的有效鑒別。Chen等[19]在此基礎(chǔ)上,引入注意力機(jī)制,同樣取得較好效果。Zhang等[20]提出借助多層自編碼器實(shí)現(xiàn)對(duì)謠言的無(wú)監(jiān)督學(xué)習(xí)鑒別方式。Chen等[21]引入層次網(wǎng)絡(luò),采用多層RNN模型,進(jìn)一步提升模型的效果。劉勘等[22]提出一種深度遷移網(wǎng)絡(luò),以Multi-BiLSTM 網(wǎng)絡(luò)為基礎(chǔ),加入MMD 統(tǒng)計(jì)量計(jì)算的領(lǐng)域分布差異,訓(xùn)練過(guò)程中同時(shí)學(xué)習(xí)源領(lǐng)域的標(biāo)簽損失與領(lǐng)域間的分布差異,完成標(biāo)簽信息在領(lǐng)域間的有效遷移。
傳統(tǒng)機(jī)器學(xué)習(xí)模型與深度學(xué)習(xí)模型都通過(guò)提取文本信息來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)謠言鑒別[23],但都存在一個(gè)問(wèn)題:模型需要借助海量的標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練得到相關(guān)參數(shù)。但目前網(wǎng)絡(luò)謠言的標(biāo)注大都需要用時(shí)較長(zhǎng)的官方辟謠來(lái)實(shí)現(xiàn)人工標(biāo)注數(shù)據(jù),于是本文針對(duì)這一問(wèn)題,提出采用半監(jiān)督學(xué)習(xí)的圖卷積網(wǎng)絡(luò)來(lái)探尋解決方法。將大量的無(wú)標(biāo)注數(shù)據(jù)和有限的有標(biāo)注數(shù)據(jù)引入圖卷積網(wǎng)絡(luò),通過(guò)聚合節(jié)點(diǎn)鄰域,不斷地訓(xùn)練模型,進(jìn)一步提升網(wǎng)絡(luò)謠言鑒別的準(zhǔn)確性和穩(wěn)定性。
圖卷積網(wǎng)絡(luò)GCN 可以看作是常規(guī)卷積網(wǎng)絡(luò)CNN的改編,用于對(duì)非結(jié)構(gòu)化數(shù)據(jù)的本地信息進(jìn)行編碼。本文使用圖卷積網(wǎng)絡(luò)GCN對(duì)所有帶標(biāo)注的節(jié)點(diǎn)進(jìn)行基于監(jiān)督損失函數(shù)的訓(xùn)練,并使其能夠?qū)W習(xí)所有節(jié)點(diǎn)(有標(biāo)注或無(wú)標(biāo)注)的表示。在半監(jiān)督學(xué)習(xí)中,圖卷積網(wǎng)絡(luò)GCN通過(guò)聚合當(dāng)前有標(biāo)注節(jié)點(diǎn)及節(jié)點(diǎn)附近無(wú)標(biāo)記節(jié)點(diǎn)的特征來(lái)生成當(dāng)前有標(biāo)注節(jié)點(diǎn)的特征表示。通過(guò)計(jì)算已知有標(biāo)注節(jié)點(diǎn)的損失函數(shù),反向傳播更新所有節(jié)點(diǎn)之間的共享權(quán)重,以此達(dá)到訓(xùn)練模型的目的。
對(duì)于具有k個(gè)節(jié)點(diǎn)的給定圖G=(V,E),其中V是圖G的節(jié)點(diǎn)集,E是圖G中節(jié)點(diǎn)間的邊集。圖G中節(jié)點(diǎn)的數(shù)量為文檔節(jié)點(diǎn)的數(shù)量與詞匯節(jié)點(diǎn)的數(shù)量之和,即|V|=k。圖G中邊集E包含兩種邊,分別是文檔節(jié)點(diǎn)與其所屬詞匯節(jié)點(diǎn)間的邊和詞匯間的邊。其中,詞匯間的邊只選取每個(gè)詞匯與其左側(cè)詞匯、右側(cè)詞匯間的邊,以利用語(yǔ)句中的詞序信息。在圖卷積運(yùn)算時(shí),由于每個(gè)文檔的詞匯數(shù)量不同,故文檔節(jié)點(diǎn)附近的鄰居節(jié)點(diǎn)是不固定的。
本文將單位矩陣I∈Rk×k設(shè)置為初始特征矩陣X,其中每個(gè)詞匯與文檔的向量被表示為one-hot形式。為了方便起見(jiàn),將節(jié)點(diǎn)i的第l層的輸出表示為其中表示節(jié)點(diǎn)i的初始狀態(tài)。對(duì)于一個(gè)L層的圖卷積網(wǎng)絡(luò)GCN,l∈[1,2,…,L],是節(jié)點(diǎn)i的最終狀態(tài)。由于圖卷積操作僅編碼直接鄰居的信息,因此一個(gè)L層圖卷積網(wǎng)絡(luò)GCN(如圖1 所示)其圖中的節(jié)點(diǎn)只能受到L步內(nèi)的相鄰節(jié)點(diǎn)的影響。對(duì)圖中節(jié)點(diǎn)i的圖卷積操作可表示為:
圖1 GCN模型
其中,Wl是可訓(xùn)練線性變換權(quán)重矩陣,bl是偏置項(xiàng),A∈Rk×k為圖G的帶自環(huán)鄰接矩陣,TFIDFij表示文檔節(jié)點(diǎn)i中詞匯節(jié)點(diǎn)j的詞頻逆文檔頻率(TF-IDF),D∈Rk×k為圖G的度矩陣,σ是非線性激活函數(shù),例如ReLU,可由計(jì)算得來(lái)。
其中,Wp和bp分別是學(xué)習(xí)的權(quán)重和偏差。
由于圖卷積網(wǎng)絡(luò)的操作基于有標(biāo)記節(jié)點(diǎn)的特征表示,而其特征表示又取決于有標(biāo)注節(jié)點(diǎn)及其附近未標(biāo)注的鄰居節(jié)點(diǎn),故本文模型通過(guò)標(biāo)準(zhǔn)梯度下降算法進(jìn)行訓(xùn)練,使用所有有標(biāo)注節(jié)點(diǎn)上的期望交叉熵作為損失函數(shù):
其中,yi表示真實(shí)值,pi表示由公式(5)求出的概率值,M為有標(biāo)注的節(jié)點(diǎn)集合YL的大小。
盡管圖卷積網(wǎng)絡(luò)GCN 通常不考慮方向,但可以將其調(diào)整為適合方向感知的情況。因此,本文提出圖卷積網(wǎng)絡(luò)GCN的兩個(gè)變體,即在無(wú)向圖上的GCN-UG,以及在有向圖上的GCN-DG。實(shí)驗(yàn)中,GCN-UG和GCN-DG之間的唯一區(qū)別在于它們的鄰接矩陣A∈Rk×k。無(wú)向圖GCN-UG與有向圖GCN-DG的鄰接矩陣可表示為:
可以發(fā)現(xiàn),有向圖模型GCN-DG的鄰接矩陣比無(wú)向圖模型GCN-UG的鄰接矩陣稀疏得多,其實(shí)驗(yàn)設(shè)置的目的是為驗(yàn)證父節(jié)點(diǎn)是否會(huì)廣泛受其子節(jié)點(diǎn)影響。
本實(shí)驗(yàn)所使用的數(shù)據(jù)存在已經(jīng)被證實(shí)為網(wǎng)絡(luò)謠言的數(shù)據(jù)和網(wǎng)絡(luò)謠言被辟謠后的真實(shí)事件,其來(lái)源有三:
(1)騰訊新聞疫情平臺(tái),收集關(guān)于“新冠肺炎病毒”的2020年1月18日至2020年3月15期間483條具有代表性的網(wǎng)絡(luò)謠言數(shù)據(jù)。同時(shí),根據(jù)收集到的483條謠言信息反查是否存在對(duì)應(yīng)的辟謠信息,將辟謠信息一并整理。
(2)新浪微博虛假消息辟謠官方賬號(hào)“微博辟謠”賬號(hào),收集關(guān)于“抗擊新冠肺炎第一線”2020年1月1日至2020年3月15日期間該平臺(tái)公布的758個(gè)謠言事件。
(3)新華網(wǎng)承辦的中國(guó)互聯(lián)網(wǎng)聯(lián)合辟謠平臺(tái),收集5 000條具有代表性的網(wǎng)絡(luò)謠言數(shù)據(jù)。此來(lái)源數(shù)據(jù)去除標(biāo)注,用于半監(jiān)督學(xué)習(xí)。
本文對(duì)這些不同渠道得到的數(shù)據(jù)進(jìn)行人工篩選、去重、和匯總,最終得到包含5 246條網(wǎng)絡(luò)謠言的數(shù)據(jù)集以驗(yàn)證半監(jiān)督學(xué)習(xí)的圖卷積網(wǎng)絡(luò)對(duì)網(wǎng)絡(luò)謠言鑒別的提升作用,可見(jiàn)表2。隨后,這些數(shù)據(jù)都經(jīng)過(guò)去噪聲、去停用詞等預(yù)處理過(guò)程。其中,去噪聲主要是刪除了總長(zhǎng)度不足2 個(gè)字的數(shù)據(jù),由于這類(lèi)數(shù)據(jù)攜帶信息較少,處理的意義不大,刪除后可提高處理效率。此外,本文的訓(xùn)練集包含2 627條數(shù)據(jù),測(cè)試集包含2 627條數(shù)據(jù)。以上數(shù)據(jù)均被隨機(jī)選取生成數(shù)據(jù)集。
表2 已收集疫情網(wǎng)絡(luò)謠言樣例
本文在對(duì)收集到的5 246條以文字為傳播形式的網(wǎng)絡(luò)謠言的分析過(guò)程中,發(fā)現(xiàn)疫情相關(guān)網(wǎng)絡(luò)謠言的傳播跟疫情的發(fā)展存在一定聯(lián)系。圖2 顯示的是新冠肺炎疫情期間的每日新增確診曲線圖,圖3顯示的是新冠肺炎疫情期間的每日謠言數(shù)量曲線圖。可以發(fā)現(xiàn),當(dāng)每日的新冠肺炎確診人數(shù)在增多時(shí),隨之而來(lái)的是每日謠言的數(shù)量在增多。
圖2 每日新增確診曲線圖
圖3 每日謠言數(shù)量曲線圖
本文采用一個(gè)兩層的圖卷積網(wǎng)絡(luò)GCN 進(jìn)行實(shí)驗(yàn),簡(jiǎn)化之前第2.1節(jié)的圖卷積網(wǎng)絡(luò)模型得到:
其中,W(0)輸入層到隱藏層的權(quán)重矩陣,W(1)為隱藏層到輸出層的權(quán)重矩陣,可通過(guò)梯度下降法訓(xùn)練得到。
對(duì)于圖的鄰接矩陣A,本文使用LIL格式稀疏矩陣表示,以降低空間復(fù)雜度。模型通過(guò)Dropout 引入訓(xùn)練過(guò)程中的隨機(jī)性,Dropout率為0.3,隱藏層為32個(gè)單元,最大迭代次數(shù)為100次,采用Adam優(yōu)化算法,訓(xùn)練過(guò)程中的學(xué)習(xí)率為0.001,省略L2 正則化。模型的停止條件為驗(yàn)證集損失函數(shù)L連續(xù)10個(gè)迭代周期沒(méi)有下降為止。
此外,本文實(shí)驗(yàn)環(huán)境所用硬件設(shè)備:操作系統(tǒng)為Windows 10 家庭版;CPU 為英特爾i5-8300H(四核,2.30 GHz);GPU為Nvidia GTX 1060(6 GB);內(nèi)存為三星DDR4(16 GB)。
為了全面評(píng)估模型的兩個(gè)變體,即GCN-UG 和GCN-DG,將它們與一系列基線和最新模型進(jìn)行了比較,如下所示:
(1)SVM(Support Vector Machine)算法是由Cortes和Vapnik[24]提出的一種屬于監(jiān)督學(xué)習(xí)的二分類(lèi)模型,學(xué)習(xí)策略是間隔最大化,常用來(lái)對(duì)小樣本、非線性及高維數(shù)據(jù)進(jìn)行模式識(shí)別、分類(lèi)以及回歸分析,并可以取得很好的效果。
(2)邏輯回歸(Logistic Regression,LR)算法通常是利用已知的自變量來(lái)預(yù)測(cè)一個(gè)離散型因變量的值,通過(guò)擬合一個(gè)邏輯函數(shù)來(lái)預(yù)測(cè)一個(gè)事件發(fā)生的概率值,其輸出值在0到1之間。
(3)LSTM(Long Short-Term Memory)最早由Hochreiter 和Schmidhuber[25]于1997 年提出,本文選取LSTM算法的優(yōu)化算法BiLSTM進(jìn)行實(shí)驗(yàn)。
評(píng)估指標(biāo)用于反映模型效果。在預(yù)測(cè)問(wèn)題中,要評(píng)估模型的效果,就需要將模型預(yù)測(cè)結(jié)果和真實(shí)標(biāo)注進(jìn)行比較。由于模型重點(diǎn)在于鑒別網(wǎng)絡(luò)謠言,故本文要求模型的召回率Recall,即本身是謠言且被正確識(shí)別出來(lái)的比例盡量大,同時(shí)模型要保證其準(zhǔn)確率Accuracy要盡量高。本文同時(shí)選取準(zhǔn)確率Accuracy、精確率Precision、召回率Recall、F-measure 四種指標(biāo)來(lái)評(píng)估模型的性能。本文引入混淆矩陣,如表3所示,表中,TP+FN+FP+TN=樣本總數(shù)。
表3 混淆矩陣
(1)準(zhǔn)確率Accuracy是指正確分類(lèi)的百分比。通常準(zhǔn)確率越高,分類(lèi)器越好,其定義如公式(10)所示:
(2)精確率Precision是指預(yù)測(cè)為正的樣本中有多少是真正的正樣本,其定義如公式(11)所示:
(3)召回率Recall是指所有準(zhǔn)確的條目有多少被檢索出來(lái),其定義如公式(12)所示:
(4)F1值是精確率P和召回率R的調(diào)和均值,通常F值越大,分類(lèi)器越好,其定義如公式(13)所示:
本文實(shí)驗(yàn)采用以上收集的數(shù)據(jù)集,通過(guò)SVM、LR、BiLSTM 和GCN 四種分類(lèi)模型分別構(gòu)建網(wǎng)絡(luò)謠言分類(lèi)器,以實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)謠言的自動(dòng)鑒別,其中,SVM、LR模型在實(shí)驗(yàn)中采用十折交叉驗(yàn)證。四種模型評(píng)估指標(biāo)的對(duì)比結(jié)果如表4所示。
表4 實(shí)驗(yàn)結(jié)果
如圖4所示,盡管圖卷積網(wǎng)絡(luò)的用時(shí)較長(zhǎng)于三種比較模型,但無(wú)向圖模型GCN-UG 在數(shù)據(jù)集上的準(zhǔn)確率、召回率和F1 值始終高于SVM、LR、BiLSTM 三種比較模型,取得了可觀的結(jié)果。
圖4 實(shí)驗(yàn)結(jié)果
通過(guò)實(shí)驗(yàn)可知,采用半監(jiān)督學(xué)習(xí)的圖卷積網(wǎng)絡(luò)可提升網(wǎng)絡(luò)謠言鑒別的準(zhǔn)確率、召回率和F1 值,其中GCN-UG 的準(zhǔn)確率達(dá)到85%,召回率達(dá)到86.1%,F(xiàn)1 值達(dá)到85.3%??梢钥闯觯瑘D卷積網(wǎng)絡(luò)在提升網(wǎng)絡(luò)謠言的鑒別方面達(dá)到了預(yù)期的效果。同時(shí),結(jié)果顯示無(wú)向圖模型GCN-UG的性能要優(yōu)于有向圖模型GCN-DG,原因是有向圖相對(duì)于無(wú)向圖,其鄰接矩陣丟失了一部分重要的信息。對(duì)于基于圖的模型來(lái)說(shuō),來(lái)自父節(jié)點(diǎn)的信息與來(lái)自子節(jié)點(diǎn)的信息一樣重要。
此外,由于圖卷積網(wǎng)絡(luò)GCN 涉及其層數(shù)L,因此本文還研究了GCN 模型層數(shù)對(duì)模型最終性能的影響。由于上述實(shí)驗(yàn)結(jié)果顯示,GCN-UG 模型的性能最優(yōu),故本文選擇GCN-UG 模型進(jìn)行實(shí)驗(yàn)。隨后,本文假定集合L={1,2,3,4,5,6},并在數(shù)據(jù)集上檢驗(yàn)?zāi)P蛯訑?shù)對(duì)無(wú)向圖模型GCN-UG 的影響。相關(guān)結(jié)果如圖5 所示。在評(píng)價(jià)模型的四個(gè)指標(biāo)上,當(dāng)L為2 時(shí),無(wú)向圖模型GCN-UG 均達(dá)到最佳性能,這證明了在實(shí)驗(yàn)中選擇層數(shù)是合理的,此外,隨著L的增加,四個(gè)指標(biāo)都呈現(xiàn)下降趨勢(shì),且當(dāng)L等于6時(shí),由于大量參數(shù),GCN-UG基本上變得更難訓(xùn)練。
圖5 模型層數(shù)對(duì)模型性能的影響
目前網(wǎng)絡(luò)謠言鑒別領(lǐng)域仍存在很多不足,面對(duì)如何更好的鑒別網(wǎng)絡(luò)謠言這個(gè)問(wèn)題還有漫長(zhǎng)的道路。為實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)謠言的自動(dòng)鑒別,本文提出采用基于半監(jiān)督學(xué)習(xí)的圖卷積網(wǎng)絡(luò)對(duì)網(wǎng)絡(luò)謠言進(jìn)行鑒別。通過(guò)圖卷積網(wǎng)絡(luò)獲取文本完整的特征向量表示,最終送入預(yù)測(cè)層生成類(lèi)別預(yù)測(cè)概率。相較于基于傳統(tǒng)機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的網(wǎng)絡(luò)謠言鑒別方法,本文所采用方法在召回率、F1值兩個(gè)評(píng)價(jià)指標(biāo)上分別達(dá)到86.1%、85.3%,進(jìn)一步提升網(wǎng)絡(luò)謠言鑒別的準(zhǔn)確性和穩(wěn)定性,有效利用無(wú)標(biāo)注數(shù)據(jù)減少標(biāo)注代價(jià),同時(shí)解決監(jiān)督學(xué)習(xí)模型泛化能力不強(qiáng)問(wèn)題和無(wú)監(jiān)督學(xué)習(xí)模型不穩(wěn)定的問(wèn)題。
本文所采用的數(shù)據(jù)集具有時(shí)效性,需依賴官方或者公眾平臺(tái)發(fā)布的辟謠信息作為語(yǔ)料標(biāo)注,雖可通過(guò)程序自動(dòng)獲取,但仍耗費(fèi)一部分的時(shí)間和資源,本文后續(xù)將對(duì)此進(jìn)一步研究,引入更先進(jìn)的方法以便更好地解決時(shí)效性問(wèn)題。同時(shí),本文研究發(fā)現(xiàn),文本存在領(lǐng)域性問(wèn)題,相同的文本在不同領(lǐng)域表現(xiàn)不同,如“癌癥”在醫(yī)學(xué)領(lǐng)域?qū)儆诔R?jiàn)中立傾向,但在一些其他領(lǐng)域?qū)儆谫H義傾向?,F(xiàn)有的網(wǎng)絡(luò)謠言鑒別方法對(duì)此表現(xiàn)不好,鑒別準(zhǔn)確率較低。本文未來(lái)會(huì)在優(yōu)化算法方面展開(kāi)深入研究,以進(jìn)一步提升算法性能。
相較于傳統(tǒng)的人工鑒別謠言方法,本文提出的模型攔截社交媒體和網(wǎng)絡(luò)新聞中的謠言數(shù)量可觀,為網(wǎng)絡(luò)謠言的治理提供新思路。同時(shí),本文算法并不僅僅只適用于網(wǎng)絡(luò)謠言鑒別,也可用于其他文本類(lèi)分類(lèi)場(chǎng)景中。