亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于圖自監(jiān)督對(duì)比學(xué)習(xí)的社交媒體謠言檢測(cè)

        2023-10-29 00:45:44喬禹涵賈彩燕
        關(guān)鍵詞:監(jiān)督方法模型

        喬禹涵 ,賈彩燕*

        (1.北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,北京,100044;2.交通數(shù)據(jù)分析與挖掘北京市重點(diǎn)實(shí)驗(yàn)室,北京交通大學(xué),北京,100044)

        國(guó)內(nèi)外社交媒體平臺(tái)已成為大眾獲取信息的主要渠道,然而,便捷的信息獲取方式也為虛假信息的傳播提供了有利條件.謠言的傳播會(huì)損害社會(huì)安定及公眾利益,因此高效準(zhǔn)確地進(jìn)行謠言檢測(cè)至關(guān)重要.社會(huì)心理學(xué)文獻(xiàn)[1]將謠言定義為一個(gè)廣泛傳播的未經(jīng)證實(shí)或故意捏造的事件,謠言檢測(cè)的目標(biāo)是對(duì)未經(jīng)證實(shí)事件的真假進(jìn)行判斷.謠言檢測(cè)的相關(guān)研究已從傳統(tǒng)的基于特征工程的方法演變?yōu)樯疃葘W(xué)習(xí)方法.考慮謠言傳播的拓?fù)浣Y(jié)構(gòu),近年來(lái)基于謠言傳播結(jié)構(gòu)的檢測(cè)方法不斷出現(xiàn).Ma et al[2]首次利用謠言的傳播結(jié)構(gòu)信息,使用遞歸神經(jīng)網(wǎng)絡(luò)來(lái)捕獲謠言傳播的結(jié)構(gòu)特征.Bian et al[3]在此基礎(chǔ)上開(kāi)創(chuàng)性地將謠言檢測(cè)建模為圖的分類(lèi)問(wèn)題,首次將圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Networks,GNN)應(yīng)用于謠言檢測(cè),借助圖神經(jīng)網(wǎng)絡(luò)強(qiáng)大的圖表示學(xué)習(xí)能力來(lái)捕獲謠言傳播圖的全局特征.隨后,結(jié)合謠言傳播結(jié)構(gòu)的基于圖表示學(xué)習(xí)的各種謠言檢測(cè)方法開(kāi)始涌現(xiàn).

        通常,在有標(biāo)注數(shù)據(jù)充足的情況下,深度學(xué)習(xí)模型能有效地解決分類(lèi)問(wèn)題,各種針對(duì)謠言特點(diǎn)精心設(shè)計(jì)的檢測(cè)模型也取得了良好的效果.但由于對(duì)謠言的標(biāo)注耗時(shí)耗力,有標(biāo)注謠言數(shù)據(jù)難以大量獲得,現(xiàn)實(shí)中的有標(biāo)注謠言數(shù)據(jù)極為有限,常用的公開(kāi)數(shù)據(jù)集(Twitter15,Twitter16,PHEME)樣本數(shù)量較少,針對(duì)謠言特點(diǎn)精心設(shè)計(jì)的方法存在過(guò)擬合風(fēng)險(xiǎn).同時(shí),現(xiàn)有模型的魯棒性不足,如圖1 所示,謠言傳播者惡意破壞謠言傳播結(jié)構(gòu),容易使模型分類(lèi)出現(xiàn)錯(cuò)誤.

        圖1 破壞謠言傳播結(jié)構(gòu)致使檢測(cè)結(jié)果發(fā)生錯(cuò)誤的實(shí)例Fig.1 An instance of rumor detection model making mistakes caused by perturbing the rumor propagation structures

        自監(jiān)督對(duì)比學(xué)習(xí)方法不利用額外標(biāo)注信息,通過(guò)將數(shù)據(jù)分別與正例樣本和負(fù)例樣本在特征空間進(jìn)行對(duì)比來(lái)得到更本質(zhì)的特征表示,但目前在謠言檢測(cè)領(lǐng)域?qū)ζ涞膽?yīng)用依舊匱乏.本文將謠言檢測(cè)視為圖結(jié)構(gòu)數(shù)據(jù)的分類(lèi)問(wèn)題,建立圖自監(jiān)督對(duì)比學(xué)習(xí)的輔助任務(wù).結(jié)合謠言特點(diǎn)提出三種圖的擾動(dòng)方式,將兩個(gè)經(jīng)過(guò)數(shù)據(jù)增強(qiáng)(可視為噪聲擾動(dòng))的謠言傳播圖輸入圖編碼器得到高層圖表示,再通過(guò)判斷兩個(gè)擾動(dòng)圖是否來(lái)自同一原始圖來(lái)建立自監(jiān)督對(duì)比損失,將有監(jiān)督任務(wù)和自監(jiān)督對(duì)比任務(wù)聯(lián)合訓(xùn)練,使圖編碼器捕獲謠言更趨向本質(zhì)的特征,緩解過(guò)擬合的負(fù)面影響,提高模型的泛化性能與魯棒性.

        1 相關(guān)工作

        1.1 謠言檢測(cè)相關(guān)工作現(xiàn)有的謠言檢測(cè)方法分三種:(1)基于特征工程的傳統(tǒng)方法;(2)深度學(xué)習(xí)方法;(3)基于謠言傳播結(jié)構(gòu)的方法.早期的謠言檢測(cè)研究[4-6]根據(jù)謠言帖子的文本內(nèi)容、用戶(hù)資料、傳播模式等來(lái)設(shè)計(jì)人工特征,這類(lèi)基于特征工程的方法費(fèi)時(shí)費(fèi)力,提取的特征針對(duì)性強(qiáng),泛化能力差.近年來(lái)基于深度學(xué)習(xí)的檢測(cè)方法不斷涌現(xiàn),如Ma et al[7]和Yu et al[8]分別采用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN),從謠言帖子的時(shí)間序列中學(xué)習(xí)謠言的特征表示,Liu and Wu[9]同時(shí)利用RNN 和CNN 根據(jù)時(shí)間序列提取用戶(hù)特征.然而,這些方法忽略了謠言傳播的拓?fù)浣Y(jié)構(gòu).為了利用謠言的傳播結(jié)構(gòu)信息,Ma et al[2]基于謠言雙向傳播樹(shù),建立遞歸神經(jīng)網(wǎng)絡(luò),同時(shí)從帖子文本內(nèi)容和傳播結(jié)構(gòu)兩方面學(xué)習(xí)謠言特征表示.Khoo et al[10]利用Transformer[11]架構(gòu)建模帖子長(zhǎng)距離之間的聯(lián)系,并在其中融入傳播樹(shù)的結(jié)構(gòu)信息.Bian et al[3]利用謠言傳播圖結(jié)構(gòu),設(shè)計(jì)了雙向圖卷積神經(jīng)網(wǎng)絡(luò),借助圖卷積網(wǎng)絡(luò)強(qiáng)大的圖表示學(xué)習(xí)能力來(lái)獲取謠言全局結(jié)構(gòu)特征.Wei et al[12]提出謠言傳播的不確定性,對(duì)圖卷積網(wǎng)絡(luò)中的鄰接矩陣進(jìn)行動(dòng)態(tài)更新.Lin et al[13]將謠言傳播圖作為無(wú)向圖,采用層次化的注意力機(jī)制網(wǎng)絡(luò),充分利用了源帖子的信息.

        1.2 圖自監(jiān)督對(duì)比學(xué)習(xí)相關(guān)工作自監(jiān)督學(xué)習(xí)的相關(guān)研究可分為對(duì)比式模型和生成式模型.對(duì)比學(xué)習(xí)是一種對(duì)比式模型,首先興起于視覺(jué)領(lǐng)域.Chen et al[14]的SimCLR 利用對(duì)比學(xué)習(xí)提高視覺(jué)表示的質(zhì)量.He et al[15]的Momentum Contrast方法利用Memory Bank 存儲(chǔ)負(fù)樣本,大大增加了負(fù)樣本的數(shù)量,緩解了顯存不足的問(wèn)題.Hjelm et al[16]提出Deep Infomax(DIM)來(lái)最大化一張圖片的局部和全局上下文的互信息.隨后,對(duì)比學(xué)習(xí)開(kāi)始在圖結(jié)構(gòu)數(shù)據(jù)上被大量應(yīng)用.Veli?kovi? et al[17]提出Deep Graph Infomax(DGI),將DIM 方法拓展應(yīng)用到圖數(shù)據(jù),最大化圖級(jí)表示與節(jié)點(diǎn)表示的互信息.Hassani and Khasahmadi[18]通過(guò)建立多視角對(duì)比來(lái)最大化不同視圖的互信息.Zhu et al[19]通過(guò)節(jié)點(diǎn)之間的對(duì)比來(lái)構(gòu)建對(duì)比學(xué)習(xí)的正負(fù)樣本.You et al[20]利用數(shù)據(jù)增強(qiáng)后的圖級(jí)表示構(gòu)建對(duì)比損失.自監(jiān)督對(duì)比學(xué)習(xí)任務(wù)的建立,使圖編碼器能捕獲圖更本質(zhì)的高層特征.

        在謠言檢測(cè)領(lǐng)域,使用圖自監(jiān)督學(xué)習(xí)方法的研究還極其有限.Zhang et al[21]利用神經(jīng)主題模型W-LDA,以Wasserstein 自編碼器獲取謠言傳播路徑中對(duì)事件不敏感的主題模式,并以此重構(gòu)謠言回復(fù)路徑的詞頻.He et al[22]對(duì)數(shù)據(jù)增強(qiáng)后的帖子節(jié)點(diǎn)表示和原謠言圖表示進(jìn)行互信息最大化,使用預(yù)訓(xùn)練后微調(diào)的方法得到了更魯棒的謠言表示.然而,謠言傳播圖中的帖子節(jié)點(diǎn)較多,計(jì)算對(duì)比損失需要較大的計(jì)算量,使對(duì)比學(xué)習(xí)不高效.Sun et al[23]使用有監(jiān)督的對(duì)比學(xué)習(xí)方法,利用謠言的類(lèi)別標(biāo)簽信息,使同類(lèi)樣本的圖表示在對(duì)比空間拉近,不同類(lèi)樣本的圖表示遠(yuǎn)離,提高了謠言圖特征表示的質(zhì)量,并利用對(duì)抗學(xué)習(xí)提高了模型的魯棒性,然而因其依賴(lài)標(biāo)簽信息,仍存在過(guò)擬合的風(fēng)險(xiǎn).為了減少對(duì)標(biāo)簽信息的依賴(lài),緩解過(guò)擬合問(wèn)題并提高模型的泛化能力,本文使用自監(jiān)督的圖對(duì)比學(xué)習(xí)方法,同時(shí),為了進(jìn)一步使對(duì)比學(xué)習(xí)更加高效,減少計(jì)算量,采用圖級(jí)表示的實(shí)例之間的對(duì)比學(xué)習(xí),并采用聯(lián)合訓(xùn)練的方式,將自監(jiān)督對(duì)比損失作為有監(jiān)督分類(lèi)損失的正則項(xiàng),緩解了有標(biāo)注數(shù)據(jù)匱乏造成的過(guò)擬合問(wèn)題,提升了模型的泛化性能與魯棒性.

        2 問(wèn)題描述

        將謠言定義為一組謠言事件(Rumor Events)的集合C={C1,C2,…,Cn},Ci表示其中第i個(gè)謠言事件,n表示所有謠言事件的數(shù)量.,ri表示第i個(gè)謠言的源帖子(Source Post)表示第j個(gè)回復(fù)帖子,m表示第i個(gè)謠言所有帖子的數(shù)量.雖然所有回復(fù)帖子以序列順序排列,但基于帖子之間的回復(fù)關(guān)系使整個(gè)謠言事件可以建立為一個(gè)帶有傳播關(guān)系的謠言傳播圖.用Gi=(Vi,Ei)表示第i個(gè)事件的謠言傳播圖,Vi表示以源帖子ri為根節(jié)點(diǎn)的所有帖子節(jié)點(diǎn)的集合,Ei表示所有邊的集合.如果是對(duì)的回復(fù)帖子,則存在一個(gè)直接的連邊→.分別表示謠言傳播圖的特征矩陣和鄰接矩陣.

        謠言檢測(cè)任務(wù)的目標(biāo)是學(xué)習(xí)一個(gè)分類(lèi)器f:Ci→Yi,Yi是謠言的類(lèi)別標(biāo)簽.常用數(shù)據(jù)集將謠言分為四類(lèi):Non-Rumor(非謠言),F(xiàn)alse-Rumor(驗(yàn)證為假的謠言),True-Rumor(驗(yàn)證為真的謠言),Unverified-Rumor(未經(jīng)驗(yàn)證的謠言).

        3 基于圖自監(jiān)督對(duì)比學(xué)習(xí)的謠言檢測(cè)方法RD-GCSL

        3.1 RD-GCSL 謠言檢測(cè)模型提出一個(gè)通用的謠言圖自監(jiān)督對(duì)比學(xué)習(xí)檢測(cè)框架RD-GCSL(Rumor Detection with Graph Contrastive Self-Supervised Learning),如圖2 所示,該框架由五個(gè)模塊組成.(1)數(shù)據(jù)增強(qiáng)模塊:擾動(dòng)原始謠言傳播圖的結(jié)構(gòu),生成兩個(gè)新的謠言傳播圖;(2)圖編碼器模塊:基于GNN 模型的圖編碼器對(duì)謠言傳播圖進(jìn)行節(jié)點(diǎn)特征聚合與更新,獲取謠言圖級(jí)別的特征表示;(3)投影頭:基于前饋神經(jīng)網(wǎng)絡(luò)的映射層,將圖的特征表示映射到對(duì)比空間;(4)對(duì)比損失:利用數(shù)據(jù)增強(qiáng)后得到的圖級(jí)表示構(gòu)建正負(fù)樣本對(duì),建立自監(jiān)督對(duì)比損失;(5)謠言分類(lèi)器:將圖級(jí)別表示輸入全連接層,預(yù)測(cè)謠言類(lèi)別標(biāo)簽.

        圖2 RD-GCSL 謠言檢測(cè)模型圖Fig.2 The architecture of RD-GCSL rumor detection model

        3.2 數(shù)據(jù)增強(qiáng)數(shù)據(jù)增強(qiáng)的目的是在不改變數(shù)據(jù)原始語(yǔ)義標(biāo)簽的條件下,對(duì)原數(shù)據(jù)進(jìn)行一定程度的變換,生成新的可用數(shù)據(jù).謠言的傳播結(jié)構(gòu)通常具有不確定性[12],謠言制造者經(jīng)常蓄意為虛假的事件發(fā)布支持的帖子或移除反對(duì)的帖子,此外,謠言傳播圖自身也包含一部分噪聲信息.為了使謠言檢測(cè)模型具有更強(qiáng)的魯棒性與泛化性能,對(duì)謠言事件的原始傳播圖G進(jìn)行兩次擾動(dòng),生成兩個(gè)新的擾動(dòng)圖,.在之前圖表示學(xué)習(xí)的相關(guān)工作[20]中,提出的基于圖數(shù)據(jù)的各種數(shù)據(jù)增強(qiáng)策略在圖分類(lèi)任務(wù)中已被證明簡(jiǎn)單有效.本文結(jié)合謠言傳播的具體特點(diǎn),設(shè)計(jì)了三種圖級(jí)數(shù)據(jù)增強(qiáng)策略:移除邊(Edge Removing,ER)、移除節(jié)點(diǎn)(Node Dropping,ND)、掩蓋節(jié)點(diǎn)特征(Feature Masking,F(xiàn)M),如圖3 所示.

        圖3 不同的圖數(shù)據(jù)增強(qiáng)策略Fig.3 Various graph augmentation strategies

        第一種策略是移除邊.社交網(wǎng)絡(luò)中,謠言傳播圖的結(jié)構(gòu)通常具有不確定性,回復(fù)帖子與被回復(fù)帖子不一定有直接的關(guān)聯(lián).例如,一些社交網(wǎng)絡(luò)用戶(hù)沒(méi)有遵循嚴(yán)格的回復(fù)關(guān)系,而是將回復(fù)帖子放置于謠言傳播圖的任意節(jié)點(diǎn).為了建模此種情況,使用隨機(jī)丟棄謠言傳播圖連邊的策略,具體方法:對(duì)鄰接矩陣為A,特征矩陣為X的謠言傳播圖G=(V,E),以概率r對(duì)原始邊的集合隨機(jī)采樣并丟棄.

        第二種策略是移除節(jié)點(diǎn).實(shí)際的謠言傳播過(guò)程中某些謠言制造者或惡意傳播者蓄意為虛假信息回復(fù)支持帖子,或?qū)⑻峁┳C據(jù)戳穿虛假信息的回復(fù)帖子刪除,以逃避謠言檢測(cè).此外,社交網(wǎng)絡(luò)中的用戶(hù)也可隨時(shí)將其回復(fù)的帖子刪除,造成回復(fù)信息的缺失.為了建模以上現(xiàn)象,提高謠言檢測(cè)模型的魯棒性,使用隨機(jī)丟棄謠言傳播圖節(jié)點(diǎn)的策略,具體方法:以概率r對(duì)原始節(jié)點(diǎn)的集合隨機(jī)采樣,移除采樣得到的節(jié)點(diǎn)和其對(duì)應(yīng)的連邊.

        第三種策略是掩蓋節(jié)點(diǎn)特征.社交媒體平臺(tái)的便利性使用戶(hù)回復(fù)的文本信息不需要具有高度的規(guī)范性,常包含一定噪聲或歧義,例如拼寫(xiě)錯(cuò)誤、特殊字符、俚語(yǔ)等,造成原始的語(yǔ)義信息具有一定噪聲或偏置.為了建模此種現(xiàn)象,使用節(jié)點(diǎn)特征掩蓋的策略,具體方法:以概率r對(duì)節(jié)點(diǎn)特征矩陣X的d個(gè)維度隨機(jī)采樣,將特征矩陣X中對(duì)應(yīng)采樣到的維度置0.

        數(shù)據(jù)增強(qiáng)是對(duì)比學(xué)習(xí)最關(guān)鍵的模塊,樣本對(duì)生成的策略會(huì)直接影響對(duì)比學(xué)習(xí)的質(zhì)量.對(duì)原始數(shù)據(jù)做的擾動(dòng)過(guò)少會(huì)使對(duì)比學(xué)習(xí)任務(wù)過(guò)于簡(jiǎn)單,圖編碼器無(wú)法捕獲謠言圖的本質(zhì)特征.對(duì)原始數(shù)據(jù)做的擾動(dòng)過(guò)多,可能造成有效信息丟失過(guò)多(詳細(xì)驗(yàn)證見(jiàn)4.3.2).為了使對(duì)比學(xué)習(xí)的過(guò)程更加高效,每次對(duì)原始圖的擾動(dòng)都使用兩種不同的數(shù)據(jù)增強(qiáng)方法的組合連續(xù)擾動(dòng).

        3.3 圖編碼器圖編碼器的作用是對(duì)輸入圖編碼來(lái)獲取圖級(jí)別的特征表示,但本文提出的圖自監(jiān)督對(duì)比學(xué)習(xí)方法不依賴(lài)特定的圖編碼器.考慮到謠言傳播樹(shù)的特點(diǎn),對(duì)于一則謠言帖子,其所有回復(fù)帖子的重要程度并不相同.圖注意力網(wǎng)絡(luò)(Graph Attention Networks,GAT)[24]在對(duì)待鄰居節(jié)點(diǎn)(回復(fù)帖子)時(shí),對(duì)鄰居節(jié)點(diǎn)指派不同級(jí)別的權(quán)重進(jìn)行聚合,而圖卷積網(wǎng)絡(luò)(Graph Convolutional Networks,GCN)[25]將所有鄰居帖子節(jié)點(diǎn)同等對(duì)待.因此,為了提高帖子表示的質(zhì)量,減少噪聲信息的權(quán)重,使用L層的GAT 作為圖編碼器.代表帖子節(jié)點(diǎn)在第l層的隱層表示,其中H(0)=X.注意力系數(shù)的計(jì)算如下:

        其中,代表帖子xj對(duì)帖子xi的重要性,a和W(l)代表權(quán)重參數(shù),‖代表拼接操作,Ni代表xi自身及其一階鄰居,?代表激活函數(shù)(如LeakyReLU).

        節(jié)點(diǎn)的聚合更新如下:

        對(duì)網(wǎng)絡(luò)最后一層節(jié)點(diǎn)進(jìn)行平均池化,獲得整個(gè)圖的全局表示:

        3.5 對(duì)比損失每輪訓(xùn)練中,每個(gè)minibatch 中的N個(gè)圖經(jīng)過(guò)數(shù)據(jù)增強(qiáng)生成2N個(gè)擾動(dòng)圖,選取一個(gè)擾動(dòng)圖的表示作為錨節(jié)點(diǎn),與其來(lái)自同一個(gè)原圖的擾動(dòng)圖的特征表示為正樣本,除此之外的2N-2 個(gè)擾動(dòng)圖的特征都視為負(fù)樣本.通過(guò)最大化正樣本的一致性(最小化負(fù)樣本的一致性),建立自監(jiān)督對(duì)比學(xué)習(xí)損失:

        其中,τ表示溫度系數(shù),zneg表示隨機(jī)采樣的負(fù)樣本.

        3.6 謠言分類(lèi)器將謠言原始圖的圖級(jí)表示hm輸入全連接層和一個(gè)softmax 層:

        利用數(shù)據(jù)真實(shí)標(biāo)簽信息,計(jì)算預(yù)測(cè)值和真實(shí)分布的交叉熵,得到有監(jiān)督分類(lèi)損失:

        有監(jiān)督分類(lèi)損失和自監(jiān)督對(duì)比學(xué)習(xí)損失相加作為總損失:

        其中,λ表示自監(jiān)督損失的權(quán)重超參數(shù).

        4 實(shí)驗(yàn)分析

        4.1 實(shí)驗(yàn)設(shè)置

        4.1.1 數(shù)據(jù)集使用來(lái)源于主流社交媒體平臺(tái)的三個(gè)公開(kāi)數(shù)據(jù)集Twitter15[26],Twitter16[26]和PHEME[27]進(jìn)行實(shí)驗(yàn),每則謠言事件的標(biāo)簽都通過(guò)謠言揭穿網(wǎng)站(如snopes.com,Emergent.info等)來(lái)標(biāo)定.所有數(shù)據(jù)集包含四種類(lèi)型的標(biāo)簽:Non-Rumor(非謠言),F(xiàn)alse-Rumor(經(jīng)驗(yàn)證真實(shí)值為假的謠言),True-Rumor(經(jīng)驗(yàn)證真實(shí)值為真的謠言),Unverified-Rumor(未經(jīng)驗(yàn)證的謠言).Twitter15,Twitter16 兩個(gè)數(shù)據(jù)集中謠言各類(lèi)別的數(shù)量相對(duì)均衡,然而,現(xiàn)實(shí)中虛假謠言的數(shù)量遠(yuǎn)少于真實(shí)事件的數(shù)量,因此,實(shí)驗(yàn)另外選取了類(lèi)別數(shù)量不平衡的數(shù)據(jù)集PHEME 進(jìn)行補(bǔ)充.表1 列出了所有數(shù)據(jù)集的詳細(xì)統(tǒng)計(jì)信息.

        4.1.2 評(píng)價(jià)指標(biāo)和參數(shù)設(shè)置與RvNN[2],Bi-GCN[3]等方法的實(shí)驗(yàn)設(shè)置一致,所有數(shù)據(jù)集按照4∶1 的比例劃分為訓(xùn)練集和測(cè)試集,采用5 折交叉驗(yàn)證,以不同的隨機(jī)種子運(yùn)行10 次并匯報(bào)平均值.采用與其他研究者相同的評(píng)價(jià)指標(biāo):準(zhǔn)確率(Accuracy)和F1.參數(shù)設(shè)置:謠言傳播圖初始節(jié)點(diǎn)的文本特征采用5000 維的TF-IDF 特征,圖神經(jīng)網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)的隱層特征維度為64,圖注意力網(wǎng)絡(luò)的層數(shù)為2,dropout 參數(shù)為0.5,batch size為256(Twitter16 為128),學(xué)習(xí)率為0.0005,兩次數(shù)據(jù)擾動(dòng)的比率r={0.1,0.2,0.3,}0.4,0.5,通過(guò)網(wǎng)格搜索選取最佳組合,自監(jiān)督損失項(xiàng)權(quán)重λ=1,對(duì)比損失中溫度系數(shù)τ=0.2,采用Adam優(yōu)化器更新參數(shù).每次訓(xùn)練迭代200 個(gè)epoches,驗(yàn)證集的loss在10 個(gè)epoches 之內(nèi)不再下降時(shí)采取早停機(jī)制.

        4.2 與主流模型的對(duì)比實(shí)驗(yàn)

        4.2.1 對(duì)比模型

        (1)RvNN[2]:是基于GRU 單元和樹(shù)結(jié)構(gòu)遞歸神經(jīng)網(wǎng)絡(luò)的謠言檢測(cè)方法.

        (2)BiGCN[3]:是基于GCN 的模型,利用謠言傳播的有向圖,分自上而下和自下而上兩部分提取謠言的高層特征.

        (3)UDGAT:是本文使用的圖編碼器,使用GAT 并將謠言傳播圖作為無(wú)向圖,其與BiGCN模型相比,大量減少了模型參數(shù).

        (4)ClaHi-GAT[13]:是基于GAT 的模型,采用層次化的注意力機(jī)制來(lái)充分利用源帖子的信息.

        (5)RDEA[22]:是基于GCN 的對(duì)比學(xué)習(xí)方法,將帖子節(jié)點(diǎn)表示和原謠言圖表示互信息最大化,使用預(yù)訓(xùn)練后微調(diào)的方法得到了更魯棒的謠言表示.

        (6)SRD-PSID[28]:是多視角的對(duì)比學(xué)習(xí)方法,利用兩個(gè)編碼器將傳播路徑與源帖文本編碼得到的兩個(gè)表示作為兩個(gè)不同視角進(jìn)行對(duì)比.

        (7)RD-GCSL 模型:是本文提出的自監(jiān)督圖對(duì)比學(xué)習(xí)謠言檢測(cè)方法,以UDGAT 作為圖編碼器,對(duì)數(shù)據(jù)增強(qiáng)的兩個(gè)謠言圖進(jìn)行圖級(jí)別的對(duì)比,建立自監(jiān)督輔助任務(wù),與有監(jiān)督分類(lèi)任務(wù)聯(lián)合訓(xùn)練.

        4.2.2 實(shí)驗(yàn)結(jié)果與分析表2~4 展示了各謠言檢測(cè)模型在Twitter15,Twitter16 和PHEME 三個(gè)數(shù)據(jù)集上的性能,表中黑體字表示最優(yōu)的性能.由表可見(jiàn),在基準(zhǔn)模型中,RvNN 和BiGCN 等深度學(xué)習(xí)模型通過(guò)捕獲謠言的文本和結(jié)構(gòu)信息,學(xué)習(xí)到了高層級(jí)的謠言特征,提升了謠言檢測(cè)的效果.本文方法在之前研究的基礎(chǔ)上,建立了新的自監(jiān)督對(duì)比學(xué)習(xí)任務(wù),使圖編碼器編碼得到的謠言圖表示具有謠言更本質(zhì)的特征,緩解了因有標(biāo)注數(shù)據(jù)少造成的過(guò)擬合問(wèn)題,提高了模型的泛化性能與魯棒性.提出的模型RD-GCSL 在Twitter15,Twitter16 和PHEME 數(shù)據(jù)集上分別達(dá)到88.0%,88.9%,85.6%的準(zhǔn)確率,與未使用對(duì)比學(xué)習(xí)的基模型UDGAT 相比,分別提升3.4%,1.8%,1.2%,驗(yàn)證了自監(jiān)督對(duì)比學(xué)習(xí)方法的有效性.

        表2 Twitter15 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 2 Experimental results on Twitter15 dataset

        表3 Twitter16 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 3 Experimental results on Twitter16 dataset

        表4 PHEME 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 4 Experimental results on PHEME dataset

        為了進(jìn)一步說(shuō)明自監(jiān)督對(duì)比學(xué)習(xí)方法能緩解標(biāo)注數(shù)據(jù)不足帶來(lái)的過(guò)擬合影響,僅使用少量樣本(10%,20%,50%)進(jìn)行訓(xùn)練.表5 展示了少量樣本訓(xùn)練的實(shí)驗(yàn)結(jié)果,表中“Δ”代表準(zhǔn)確率的增益.由表可見(jiàn),在有標(biāo)注的訓(xùn)練數(shù)據(jù)有限時(shí),提出的自監(jiān)督對(duì)比學(xué)習(xí)模型RD-GCSL 在所有數(shù)據(jù)集上的準(zhǔn)確率和基準(zhǔn)模型UDGAT 相比,仍有明顯提升,進(jìn)一步驗(yàn)證了自監(jiān)督對(duì)比學(xué)習(xí)方法的有效性.

        表5 不同訓(xùn)練數(shù)據(jù)規(guī)模下的實(shí)驗(yàn)結(jié)果Table 5 Experimental results with various scales of labeled training data

        4.3 消融實(shí)驗(yàn)

        4.3.1 謠言圖編碼器模塊的影響本文提出的RD-GCSL 不依賴(lài)特定的謠言圖編碼器,能作為一個(gè)通用的框架來(lái)提高現(xiàn)有謠言檢測(cè)模型的效果.為了驗(yàn)證其對(duì)不同的謠言圖編碼器普遍有效,使用三種謠言圖編碼器UDGAT,BiGCN,ClaHi-GAT,結(jié)合本文的圖自監(jiān)督對(duì)比學(xué)習(xí)方法進(jìn)行實(shí)驗(yàn).用-GCSL 代表提出的自監(jiān)督對(duì)比學(xué)習(xí)的模型,表中“Δ”代表準(zhǔn)確率的增益.

        表6 給出了三種不同的謠言圖編碼器結(jié)合提出的對(duì)比學(xué)習(xí)方法后在所有數(shù)據(jù)集上的準(zhǔn)確率.由表可見(jiàn),謠言圖編碼器結(jié)合提出的對(duì)比學(xué)習(xí)方法,使其性能獲得了提升,證明本文提出的對(duì)比學(xué)習(xí)方法作為一個(gè)通用的框架,可以提升已有的謠言檢測(cè)模型的效果.

        表6 對(duì)比學(xué)習(xí)結(jié)合不同圖編碼器的實(shí)驗(yàn)結(jié)果Table 6 Experimental results of contrastive learning by various graph encoders

        4.3.2 數(shù)據(jù)增強(qiáng)模塊的影響數(shù)據(jù)增強(qiáng)作為對(duì)比學(xué)習(xí)最關(guān)鍵的模塊,其生成的樣本對(duì)將直接影響對(duì)比學(xué)習(xí)的質(zhì)量.根據(jù)三種不同的圖擾動(dòng)方法,可以構(gòu)建樣本對(duì)多種擾動(dòng)方式的組合.此外,數(shù)據(jù)擾動(dòng)的比例r也將決定對(duì)比學(xué)習(xí)的質(zhì)量.為了探究不同數(shù)據(jù)增強(qiáng)方法對(duì)自監(jiān)督對(duì)比學(xué)習(xí)效果的影響,進(jìn)行以下實(shí)驗(yàn).

        4.3.2.1 不同數(shù)據(jù)增強(qiáng)策略的影響分別對(duì)原始圖進(jìn)行單種方法擾動(dòng)(移除邊(ER)、移除節(jié)點(diǎn)(ND)、掩蓋節(jié)點(diǎn)屬性(FM))、兩種不同方法組合連續(xù)擾動(dòng)、三種不同方法組合連續(xù)擾動(dòng)生成擾動(dòng)圖.每種方法的擾動(dòng)比例從r={0.1,0.2,0.3,0.4,0.5}中選取最優(yōu)參數(shù).

        表7 展示了不同數(shù)據(jù)增強(qiáng)策略的影響,表中黑體字表示性能最優(yōu).由表可見(jiàn),不同的增強(qiáng)方法在不同的數(shù)據(jù)集上的效果不同,移除邊略好于其他兩種策略,采用兩種不同方法連續(xù)擾動(dòng)的策略效果略好于單種方法擾動(dòng)和三種方法連續(xù)擾動(dòng)的策略.由此可以推斷,對(duì)比學(xué)習(xí)樣本對(duì)的生成不應(yīng)過(guò)于簡(jiǎn)單,因?yàn)檫@會(huì)降低對(duì)比學(xué)習(xí)的質(zhì)量,但也不應(yīng)過(guò)于復(fù)雜,因?yàn)閷?duì)原圖進(jìn)行過(guò)多擾動(dòng)會(huì)造成有效信息的丟失.

        表7 數(shù)據(jù)增強(qiáng)策略的影響Table 7 Experimental results with various data augmentation strategies

        4.3.2.2 不同數(shù)據(jù)增強(qiáng)比例r 的影響為了研究擾動(dòng)比例對(duì)圖對(duì)比學(xué)習(xí)效果的影響,采用三種方法連續(xù)擾動(dòng)的策略(ND+ER+FM),以不同的擾動(dòng)比例{0.1,0.2,…,0.8,0.9}進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖4 所示.由圖可見(jiàn),擾動(dòng)比例分別為0.3,0.5,0.5 時(shí),模型在Twitter15,Twitter16,PHEME三個(gè)數(shù)據(jù)集上表現(xiàn)最好.隨著擾動(dòng)比例的增大,模型分類(lèi)的準(zhǔn)確率明顯降低,說(shuō)明對(duì)原圖做過(guò)多的擾動(dòng)會(huì)引入過(guò)多的噪聲,丟失原圖的有效信息,也說(shuō)明建立更困難的對(duì)比學(xué)習(xí)任務(wù)不一定會(huì)提升對(duì)比學(xué)習(xí)的效果.

        圖4 不同擾動(dòng)比例的影響Fig.4 Effect of various perturbation ratios

        4.3.3 投影頭模塊的影響為了驗(yàn)證模型中投影頭模塊的作用,進(jìn)行了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表8 所示,表中w/o PH(without projection head)代表去掉投影頭模塊的模型.由表可見(jiàn),不使用投影頭時(shí),對(duì)比學(xué)習(xí)模型的表現(xiàn)明顯下降,在Twitter15,Twitter16,PHEME 數(shù)據(jù)集上的準(zhǔn)確率分別下降3.1%,2.3%,3.9%.說(shuō)明由圖編碼器得到的圖特征表示樣本對(duì)要經(jīng)過(guò)投影頭的非線(xiàn)性變換,在變換后的隱空間中計(jì)算對(duì)比損失才能確保對(duì)比學(xué)習(xí)的質(zhì)量,證明了投影頭模塊的重要性.

        表8 投影頭對(duì)模型的影響Table 8 Effect of projection head

        4.3.4 泛化性能驗(yàn)證實(shí)驗(yàn)為了驗(yàn)證提出的圖自監(jiān)督對(duì)比學(xué)習(xí)模型在魯棒性、泛化性能上的提升以及對(duì)過(guò)擬合問(wèn)題的緩解效果,設(shè)計(jì)了如下的實(shí)驗(yàn).對(duì)原始測(cè)試集中的謠言傳播圖進(jìn)行兩種不同類(lèi)型的數(shù)據(jù)增強(qiáng),將所得擾動(dòng)圖的類(lèi)標(biāo)簽設(shè)置為其所對(duì)應(yīng)原圖的謠言類(lèi)別標(biāo)簽.表9 展示了沒(méi)有使用圖自監(jiān)督對(duì)比學(xué)習(xí)的基模型UDGAT 和本文模型RD-GCSL 在新構(gòu)建的測(cè)試集上的效果,并與沒(méi)有進(jìn)行數(shù)據(jù)增強(qiáng)的原始數(shù)據(jù)集上的效果進(jìn)行比較,表中“Δ”代表準(zhǔn)確率的增益.由表可見(jiàn),對(duì)原始測(cè)試集進(jìn)行擾動(dòng)之后,所有模型的分類(lèi)準(zhǔn)確率均有所下降.但本文模型RD-GCSL 在擾動(dòng)測(cè)試集上下降的精度明顯小于沒(méi)有使用自監(jiān)督方法的基模型UDGAT,證明RD-GCSL 得益于自監(jiān)督對(duì)比學(xué)習(xí)任務(wù)的構(gòu)建,展示了較好的魯棒性與泛化性能,緩解了過(guò)擬合問(wèn)題.

        表9 泛化性能的驗(yàn)證實(shí)驗(yàn)Table 9 Experiment of generalization performance

        5 結(jié)論

        針對(duì)目前謠言有標(biāo)注數(shù)據(jù)有限,現(xiàn)有的謠言檢測(cè)模型存在過(guò)擬合與魯棒性不足的問(wèn)題,提出一種新的基于圖自監(jiān)督對(duì)比學(xué)習(xí)的謠言檢測(cè)方法.建立圖自監(jiān)督對(duì)比學(xué)習(xí)任務(wù),和有監(jiān)督分類(lèi)任務(wù)聯(lián)合學(xué)習(xí),使圖編碼器能捕獲謠言更本質(zhì)的圖結(jié)構(gòu)特征,緩解了有標(biāo)注數(shù)據(jù)匱乏造成的過(guò)擬合問(wèn)題,提升了模型的泛化性能與魯棒性.在Twitter15,Twitter16 和PHEME 三個(gè)公開(kāi)數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)中,本文提出的方法在使用全部有標(biāo)注數(shù)據(jù)和僅使用部分有標(biāo)注數(shù)據(jù)的條件下,均比基準(zhǔn)方法取得了更高的準(zhǔn)確率和F1,驗(yàn)證了本文方法在謠言檢測(cè)問(wèn)題上的有效性.通過(guò)消融實(shí)驗(yàn),探究了圖編碼器模塊、數(shù)據(jù)增強(qiáng)模塊和投影頭模塊對(duì)模型的影響,并驗(yàn)證了提出的自監(jiān)督對(duì)比學(xué)習(xí)方法不依賴(lài)于特定的謠言圖編碼器,能作為一個(gè)通用框架提高現(xiàn)有謠言檢測(cè)模型的性能.

        猜你喜歡
        監(jiān)督方法模型
        一半模型
        重要模型『一線(xiàn)三等角』
        突出“四個(gè)注重” 預(yù)算監(jiān)督顯實(shí)效
        重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        監(jiān)督見(jiàn)成效 舊貌換新顏
        夯實(shí)監(jiān)督之基
        可能是方法不對(duì)
        3D打印中的模型分割與打包
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        四虎影视久久久免费观看| 国产精品久久夜伦鲁鲁| 新视觉亚洲三区二区一区理伦| 国产午夜激无码av毛片不卡 | 九九99久久精品国产| 亚洲AV成人无码国产一区二区| 亚洲美女主播一区二区| 日本av亚洲中文字幕| 少妇被粗大的猛烈进出69影院一| 粗一硬一长一进一爽一a级| 91免费国产高清在线| 一区二区三区亚洲视频| 射精专区一区二区朝鲜| 久久成人麻豆午夜电影| 亚洲精品2区在线观看| 亚洲色图专区在线观看| 人人妻人人狠人人爽| 99爱这里只有精品| av网站可以直接看的| 亚洲人成综合第一网站| 天堂aⅴ无码一区二区三区 | 亚洲伊人av天堂有码在线| 成人aaa片一区国产精品| 在线免费毛片| 日美韩精品一区二区三区| 国产自拍高清在线观看| 国产美女久久精品香蕉69| 一区二区视频观看在线| 一级内射免费观看视频| 24小时日本在线视频资源| 亚洲一区中文字幕在线电影网| 国产精品综合色区av| 青青草亚洲视频社区在线播放观看 | 亚洲线精品一区二区三区八戒| 少妇特殊按摩高潮对白| 久久久久亚洲av无码专区首| 国产极品久久久久极品| 精品国产自拍在线视频| 午夜国产视频一区二区三区| 亚洲成av人片在线观看ww| 国产精品久久中文字幕第一页|