亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于事件-詞語-特征異質(zhì)圖的微博謠言檢測新方法

        2023-12-06 03:59:56王友衛(wèi)鳳麗洲王煒琦侯玉棟
        中文信息學報 2023年9期
        關鍵詞:特征文本檢測

        王友衛(wèi),鳳麗洲,王煒琦,侯玉棟

        (1.中央財經(jīng)大學 信息學院,北京 100081;2.天津財經(jīng)大學 統(tǒng)計學院,天津 300222)

        0 引言

        隨著社交媒體的發(fā)展,網(wǎng)絡謠言給社會帶來了嚴重的影響,并逐漸引起了公眾關注,成為了國內(nèi)外學者的研究熱點。黨的二十大報告中指出,“健全網(wǎng)絡綜合治理體系,推動形成良好網(wǎng)絡生態(tài)”??梢?實現(xiàn)謠言檢測對于促進網(wǎng)絡空間建設、維護社會穩(wěn)定快速發(fā)展具有重大的現(xiàn)實意義。

        謠言檢測任務通過模型將正常文檔與含有謠言的異常文檔區(qū)分開,屬于文本分類領域中的重要子問題。謠言檢測的相關方法可分為三類[1]: ①基于外部知識的方法; ②基于關系網(wǎng)絡的方法; ③基于文本內(nèi)容的方法。基于外部知識的方法主要利用專家系統(tǒng)或集體智慧對謠言文檔進行判別,該方法需要耗費大量的人工成本建立知識圖譜,因此相關研究較少?;陉P系網(wǎng)絡的方法通過消息的傳播特點、傳播者追加的評論文本以及傳播者的社會背景對謠言進行檢測[2]。但是,此類方法的檢測準確度與傳播時間成正比,無法在謠言傳播的初期對其進行較好的識別。基于文本內(nèi)容的方法認為謠言與非謠言在表達習慣、討論主題以及行文風格上存在一定差別,因此可以通過從文本中提取可供分類的向量化信息實現(xiàn)謠言檢測?;谖谋緝?nèi)容的檢測方法可進一步分為基于傳統(tǒng)分類器的檢測方法與基于深度學習的檢測方法兩類。前者方法通過匹配文本中出現(xiàn)的人工特征來構(gòu)建文本內(nèi)容的one-hot向量,之后將特征向量輸入支持向量機(Support Vector Machine, SVM)、隨機森林(Random Forest, RF)、邏輯回歸(Logistic Regression, LR)等機器學習模型,以此實現(xiàn)對謠言信息的識別。此類方法中最常用的特征是文本極性以及組合特征,如通過人工詞典構(gòu)建的情緒特征和語言學家構(gòu)建的句式特征等[3]。但此類方法在提取特征時單純依靠規(guī)則或者人工經(jīng)驗,因此相對于基于深度學習的檢測方法而言無法較好地表征文本中的潛在語義信息。

        近年來,基于深度學習的文本分類方法已被廣泛應用于謠言檢測任務中。Nguyen等[4]與Singh等[5]分別將謠言數(shù)據(jù)的向量化結(jié)果帶入到卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network, CNN)與循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network, RNN)中,相對于傳統(tǒng)分類器而言有效提高了謠言檢測的精度。Ma等[6]提出了一種基于RNN的評論上下文學習方法,通過學習微博事件的連續(xù)表示來實現(xiàn)謠言信息檢測。Song等[7]和王友衛(wèi)等[8]將所有轉(zhuǎn)發(fā)信息視為一個序列,通過CNN實現(xiàn)可信早期謠言檢測研究,有效縮短了謠言檢測的時間跨度。Chen等[9]結(jié)合知識圖譜提出一種基于圖的謠言文本生成模型G2S-AT-GAN。該模型使用基于注意力的圖卷積神經(jīng)網(wǎng)絡(Graph Convolutional Network, GCN)和生成對抗網(wǎng)絡(Generative Adversarial Network, GAN)來生成不同主題的謠言文本,在解決謠言數(shù)據(jù)不平衡問題的同時提高了謠言檢測的性能。但上述方法大多僅關注源信息和評論信息的內(nèi)容,并沒有有效利用評論、用戶之間的相互關系,為此,楊延杰等[10]利用消息轉(zhuǎn)發(fā)關系構(gòu)建評論轉(zhuǎn)發(fā)圖,通過兩個融合門控機制的圖卷積網(wǎng)絡模塊來聚合鄰居節(jié)點信息以生成節(jié)點的表示,有效利用了源博文的影響力與任意帖子之間的多角度影響。Wu等[11]提出了基于圖神經(jīng)網(wǎng)絡全局嵌入的謠言檢測模型和基于圖神經(jīng)網(wǎng)絡集成學習的謠言檢測模型。通過在有限時間步內(nèi)在相鄰節(jié)點之間交換信息來更新節(jié)點表示,有效提高了謠言檢測的準確性。Bian等[12]提出了一種雙向圖卷積網(wǎng)絡(Bi-GCN),根據(jù)謠言的轉(zhuǎn)發(fā)關系建立自上而下和自下而上的圖傳播結(jié)構(gòu),較好地實現(xiàn)了謠言信息的嵌入表達,不足之處在于圖中每個評論節(jié)點只能融合一個傳播方向上的鄰居節(jié)點信息。為了更好地考慮用戶信息的影響,Lu和Li通過引入文本發(fā)布者的社交關系進行謠言檢測[13]。Zhang等[14]借助立場檢測任務,提出了一種基于多模態(tài)融合和元知識共享的謠言檢測方法。該方法使用注意力機制計算評論權(quán)重,較好地區(qū)分了不同評論的重要性。

        通過研究發(fā)現(xiàn),雖然上述方法已獲得較好的謠言檢測效果,但仍存在以下問題: ①大多數(shù)方法在利用評論文本內(nèi)容時僅關注詞語特征信息,忽略了詞語情感特征、語法特征、語言特征等重要因素的影響; ②現(xiàn)有算法普遍根據(jù)原始博文和轉(zhuǎn)發(fā)評論之間的關系建立圖結(jié)構(gòu),忽略了原始評論之間的語義關聯(lián)性,因此難以針對新發(fā)布的博文進行檢測,限制了模型的泛化能力。

        為解決上述問題,本文以微博為研究對象,利用圖神經(jīng)網(wǎng)絡在圖表示學習任務方面的優(yōu)勢,提出了基于事件-詞語-特征異質(zhì)圖的微博謠言檢測新方法RD_EWF。具體而言,本文創(chuàng)新點如下:

        (1) 綜合考慮情感特征、語法特征以及語言特征對于謠言檢測的影響,在評論內(nèi)容信息基礎上提出文本特征的概念。在此基礎上,將微博事件、文本詞語、文本特征作為節(jié)點構(gòu)建事件-詞語-特征異質(zhì)圖,解決了傳統(tǒng)方法單純利用文本內(nèi)容信息導致的模型表達能力不足的問題。

        (2) 綜合考慮事件-事件之間、評論-詞語之間、評論-特征之間以及詞語-詞語之間的相互作用,提出基于GraphSAGE和異質(zhì)圖注意力網(wǎng)絡(Heterogeneous Graph Attention Network, HGAT)的圖節(jié)點表示學習方法GS_HGAT,以此區(qū)分不同類型節(jié)點的影響,實現(xiàn)對微博事件節(jié)點的歸納式表達,提高模型的泛化能力。

        1 相關理論

        1.1 圖神經(jīng)網(wǎng)絡(Graph Neural Network, GNN)[15]

        GNN是被廣泛應用于圖分析任務的一類神經(jīng)網(wǎng)絡,現(xiàn)已廣泛應用于社交網(wǎng)絡、推薦系統(tǒng)、生物科技等領域。給定一個屬性圖G=(V,E)(V為節(jié)點集、E為邊集)及其特征矩陣X={xi},其中xi是節(jié)點vi∈V的d維特征向量,GNN的目標是學習每個節(jié)點vi的表示hi,考慮第m層GNN,節(jié)點vi在第m層的表示向量定義為:

        (1)

        (2)

        1.2 中文語言查詢和詞數(shù)統(tǒng)計(Chinese Linguistic Inquiry and Word Count, C_LIWC)[16]

        C_LIWC詞典是在語言查詢和詞數(shù)統(tǒng)計詞典(Linguistic Inquiry and Word Count, LIWC)基礎上形成的詞典。Pennebaker等人研究建立的LIWC詞典主要用于對文本描述中的單詞進行統(tǒng)計分析。該詞典包含約4 500個從社會學、健康學以及心理學方面挖掘的情緒和認知方面單詞,現(xiàn)已成為英文情緒分析研究應用的重要依據(jù)。臺灣科技大學人文社會學科研究人員根據(jù)中文特性將LIWC詞典翻譯改編為中文版本C-LIWC。C-LIWC包含語言特征30類(如副詞、介詞等)、心理特性42類(如正向情緒詞、負向情緒詞等),共72個類別、6 862個詞。其中,與情緒相關的類別包括positive emotion、negative emotion、anxiousness、anger和sadness。C_LIWC詞典中每個詞都有一個或多個類別屬性,如“擔憂”同時屬于Negative Emotion類和Anxiousness類。

        2 研究方法

        2.1 問題描述

        以微博為研究對象,相關定義如下[8]:

        定義1 微博事件定義微博事件集合E= {Ei}(0≤i

        定義2 源微博源微博是指最開始發(fā)出的微博,該微博不回復其他任何微博。mi,0表示第i個微博事件的源微博。

        定義3 評論評論是指直接回復源微博或回復與源微博相關微博的微博。mi,j(1≤j≤ni)表示第i個微博事件的第j條評論。

        給定微博事件Ei,本文方法的目標是學習一個分類模型CM以輸出Ei是否為謠言的判定結(jié)果,即:y=CM(Ei,θ)(θ為參數(shù)集)。如果y=1,說明Ei為謠言事件,否則Ei為正常事件。

        2.2 方法描述

        首先,對微博語料庫中的微博事件進行中文分詞,獲得其中所有的事件及其對應的詞語;然后,引入情感、語法、心理等方面知識,構(gòu)建文本特征集,在此基礎上挖掘事件-事件之間、事件-詞語之間、詞語-特征之間以及詞語-詞語之間的相互作用,構(gòu)建事件-詞語-特征異質(zhì)圖;最后,為區(qū)分不同類型節(jié)點的影響,提出基于GraphSAGE和異質(zhì)圖注意力網(wǎng)絡的節(jié)點聚合方法,以此獲得事件節(jié)點的向量表達。本文方法RD_EWF執(zhí)行流程如圖1所示。其中,M為事件總數(shù),N為詞語總數(shù),S為特征總數(shù)。具體介紹如下:

        圖1 RD_EWF執(zhí)行流程

        2.2.1 文本特征構(gòu)建

        為了綜合考慮不同類型特征對謠言檢測結(jié)果的影響,本文將構(gòu)建以下三種文本特征: 情感特征、語法特征以及語言特征。具體如下:

        (1) 情感特征

        情感特征來自DUTIR實驗室構(gòu)建的Emotion Ontology情感詞典[17]。該詞典是大連理工大學信息檢索研究室在林鴻飛教授的指導下整理和標注的一個中文本體資源,從不同角度描述一個中文詞匯或者短語,包括詞語詞性種類、情感類別、情感強度及極性等信息。如表1所示,該詞典將詞語情感共分為樂、好、怒等7個大類,21小類,共計27 466個詞語。為了體現(xiàn)不同情感傾向?qū)τ谥{言檢測結(jié)果的影響,本文使用該詞典中的21個情感小類作為情感特征集Fs。

        (2) 語法特征

        對于信息含量較少的微博文本而言,詞性、實體等語法特征可能包含人物、地點、時間、機構(gòu)、數(shù)量、方位等多類信息,其中的部分信息可以作為檢測謠言文本的重要依據(jù)。一般而言,信息描述越模糊,其為謠言的可能越高。例如,“某大學教授稱……”“某知名人士稱……”“研究者發(fā)現(xiàn)……”等文本并沒有明確的人物、機構(gòu)等名稱,因此它們?yōu)橹{言的可能性較大。中文詞法分析(Lexical Analysis of Chinese, LAC)模型[18]是百度研發(fā)的一款聯(lián)合的詞法分析工具,能有效實現(xiàn)中文分詞、詞性標注、專名識別等功能。鑒于LAC模型在處理中文文本方面的優(yōu)勢,本文使用該模型獲得詞性標簽 24個、專名實體類別標簽4個,以此構(gòu)建語法特征集Fg。

        (3) 語言特征

        語言特征由評論中與用戶心理、情緒、認知、用詞習慣等相關的詞語所歸屬的類別構(gòu)成。此類特征能較好地反映用戶的情緒變化、心理狀態(tài)、用詞習慣等特點,因此包含與謠言檢測相關的重要信息。本文根據(jù)C-LIWC中文語言分析工具[16],將其整理的6 862個詞語所歸屬的72個類別作為語言特征集Fl。部分語言特征及其代表性詞語如表2所示。

        表2 部分語言特征

        2.2.2 謠言檢測異質(zhì)圖構(gòu)建

        首先,從訓練集中獲取事件集E、詞語集W、文本特征集F={Fs,Fg,Fl}。在此基礎上,建立由E、W、F構(gòu)成的異質(zhì)圖G={V,A},A為G中節(jié)點對應的鄰接矩陣,如圖2所示,其中,V={E,W,F},vea∈E(0≤a<5)、vwb∈W(0≤b<5)、vfc∈F(0≤c<5)。針對V中任意節(jié)點對vi、vj(0≤i,j

        圖2 謠言檢測異質(zhì)圖示意

        (1) 若vi∈E并且vj∈E: 根據(jù)它們之間的語義相似性建立連邊(圖2中細實線所示),連邊權(quán)重Aij為:

        其中,cossim為余弦相似度函數(shù),arccos為反余弦函數(shù),xwk為詞語wk對應的詞向量,xi、xj分別為vi、vj兩個事件中所有詞語的詞向量均值,nwi、nwj分別為vi、vj中的詞語數(shù)。

        (2) 若vi∈E并且vj∈W: 如果vj出現(xiàn)在vi中,則在vi、vj之間建立連接(圖2中細虛線所示),權(quán)重Aij為vj在vi中的歸一化TF-IDF值,即:

        (6)

        其中,nij為詞語vj在事件vi中出現(xiàn)的數(shù)量,ncj為詞語vj出現(xiàn)的事件數(shù),M為事件總數(shù)。

        (3) 若vi∈W并且vj∈W,則根據(jù)它們的共現(xiàn)情況建立連邊(圖2中粗實線所示)。采用點互信息(Pointwise Mutual Information, PMI)[19]來計算語料庫中詞語和詞語之間的連接權(quán)重Aij,定義如下:

        其中,p(vi)為詞語vi在事件中出現(xiàn)的概率,p(vi,vj)為詞語vi與詞語vj在事件中同時出現(xiàn)的概率,ncij為詞語vi、vj同時出現(xiàn)的事件數(shù)量。

        (4) 若vi∈W并且vj∈F: 如果vi屬于vj對應的詞語集,則在vi、vj之間建立連邊(圖2中粗虛線所示),令Aij=Aji=1。

        2.2.3 節(jié)點嵌入

        (10)

        其中,exp為以e為底的指數(shù)函數(shù),σ為Relu激活函數(shù),||為向量拼接操作,We1為參數(shù)矩陣,ek0為原微博vk0中所含詞語向量的均值向量,ekl為原微博的第l條評論中所含詞語向量的均值向量。在此基礎上,獲得事件vk對應的節(jié)點向量xek,如式(11)所示。

        (11)

        其中,We2為參數(shù)矩陣。由于xfj與xwi、xek維度不同,進一步通過前饋神經(jīng)網(wǎng)絡將其映射到一個維度相同的空間內(nèi),即:

        xfj=σ(xfjWe3+bf)

        (12)

        其中,We3∈R|F|×d、bf∈R1×d為訓練參數(shù)矩陣。

        2.2.4 節(jié)點采樣與聚合

        由于2.2.2節(jié)所構(gòu)建的謠言檢測異質(zhì)圖G規(guī)模較大,直接在該圖上使用節(jié)點分類算法將面臨計算開銷較大的問題。GraphSAGE算法[21]首先通過采樣鄰居的策略,將節(jié)點訓練由全圖訓練方式轉(zhuǎn)換為以節(jié)點為中心的小批量訓練方式,使得大規(guī)模圖數(shù)據(jù)的分布式訓練成為可能。此外,GraphSAGE對鄰居節(jié)點的聚合操作進行了拓展,提出平均聚合、LSTM聚合、池化聚合等方法以提高節(jié)點表達的準確性。本文利用GraphSAGE的上述優(yōu)勢,通過采樣得到圖G的子圖實現(xiàn)一種高效、可歸納的謠言檢測過程。如圖3所示,針對每個事件節(jié)點vi,首先,在一階(k=1)采樣過程中我們將獲取vi鄰居中的全部詞語節(jié)點并獲得vi鄰居中連邊權(quán)重最大的ns(ns=10)個事件節(jié)點;然后,為控制節(jié)點集規(guī)模,在第二、三階采樣中,分別針對vi的一階采樣結(jié)果中的每個節(jié)點vj,通過隨機采樣方法獲得vj的ns(ns=10)個鄰居節(jié)點;最后,利用上述采樣所得節(jié)點集Vi={Vij}(Vij為在第j階采樣過程中得到的節(jié)點集)及對應鄰接矩陣Ai構(gòu)建子圖Gi。

        如圖3所示,RD_EWF采樣方向按照階段k=1,2,3依次向外,而節(jié)點聚合過程則與采樣方向相反。由于每個節(jié)點的鄰居節(jié)點可能類型不同(如事件節(jié)點的鄰居可能為詞語節(jié)點或者事件節(jié)點,而詞語節(jié)點的鄰居可能為詞語節(jié)點、事件節(jié)點或者特征節(jié)點),HGAT[22]通過異質(zhì)圖注意力網(wǎng)絡來考慮不同類型信息的異構(gòu)性,并利用雙層注意力機制捕獲不同鄰居節(jié)點和不同節(jié)點類型對特定節(jié)點的重要性。但是,該方法在所有節(jié)點上進行訓練,因此難以適用于規(guī)模較大的圖結(jié)構(gòu)數(shù)據(jù)。為此,本文在GraphSAGE基礎上結(jié)合HGAT來為不同類型節(jié)點連邊賦予注意力權(quán)重,以此在提高節(jié)點計算效率的同時區(qū)分不同鄰居節(jié)點對當前節(jié)點的影響。在子圖Gi的第k層聚合過程中,本文基于GraphSAGE和HGAT的節(jié)點聚合過程(GS_HGAT)描述如下:

        (13)

        (16)

        其中,Wh為訓練參數(shù)矩陣。

        2.2.5 謠言分類

        (17)

        其中,Wo為訓練參數(shù)矩陣,hij為vi的第j個鄰居節(jié)點vij的隱狀態(tài)向量,BiGRU({hij})函數(shù)輸出詞語序列{vij}對應的句向量。在此基礎上,將hi輸入到全連接層中,并結(jié)合其實際類別及交叉熵函數(shù)來使損失最小化,如式(18)、式(19)所示。

        可見,為提高模型針對圖節(jié)點的學習能力,RD_EWF綜合考慮了事件、詞語、特征三類節(jié)點之間的相互影響,通過引入情感、語法、心理等方面的知識,解決傳統(tǒng)方法單純利用評論詞語信息導致的模型表達能力不足的問題。此外,為保證模型的高效性及針對新評論的學習能力,本文通過隨機采樣構(gòu)建謠言檢測子圖,利用基于GraphSAGE和HGAT的節(jié)點聚合方法(GS_HGAT)在區(qū)分不同類型節(jié)點影響的同時提升了模型的泛化學習能力。

        3 實驗結(jié)果與分析

        3.1 實驗設置

        如表3所示,本文使用Rumdect[24]和CED[7]兩個公開數(shù)據(jù)集驗證模型的有效性,采用7:1:2的比例將數(shù)據(jù)集切分為訓練集、驗證集與測試集。

        表3 實驗數(shù)據(jù)集

        為驗證RD_EWF在謠言檢測領域的有效性,將其與11個典型基準方法進行對比,具體包括: ①傳統(tǒng)機器學習方法: 樸素貝葉斯(Naive Bayes, NB)[25]、邏輯回歸(Logistic Regression, LR)[26]以及隨機森林(Random Forest, RF)[26]; ②基于深度學習的方法: FastText[27]、TextCNN[28]、BiGRU-CNN[29]、TextGCN[30]、TextING[31]、I-BERT-LSTM[32]、dEFEND[33]、Bi-GCN[12]、RumorGCN[34]及GLAN[35]。實驗參數(shù)設定如下: 節(jié)點丟棄率Dropout_rate=0.5,輪次Epoch=100,學習率Learning_rate=0.005,批大小Batch_size=100,詞向量維度Word_dim=256。為了避免實驗誤差,針對每種方法取50次實驗平均值作為最終的實驗結(jié)果。

        上述方法的參數(shù)設置如表4所示。

        表4 參數(shù)設置

        3.2 評價指標

        本文采用準確率(Accuracy)與F1值來衡量謠言檢測方法的分類效果,定義如式(20)、式(21)所示[35]。

        式(20)中TP是預測為謠言且實際為謠言的樣本數(shù),FN是預測為非謠言但實際為謠言的樣本數(shù),FP是實際為非謠言但被預測為謠言的樣本數(shù),TN是實際為非謠言且被預測為非謠言的樣本數(shù)。式(21)中精確率(Precision)與召回率(Recall)指標定義如式(22)、式(23)所示。

        3.3 隱藏層維度取值影響

        為獲得最優(yōu)的隱藏層維度d,分別令d=128、256、512、1 024,并統(tǒng)計RD_EWF在Rumdect與CED數(shù)據(jù)集上對應的Accuracy值和F1值,結(jié)果如圖4所示。由圖知,當隱藏層的維度小于256時,本文對應的Accuracy值和F1值均呈現(xiàn)上升趨勢;當d=256時,本文在Rumdect數(shù)據(jù)集上獲得最大Accuracy值(0.938)和F1值(0.934),在CED數(shù)據(jù)集上獲得最大Accuracy值(0.916)和F1值(0.914);當隱藏層的維度大于256時,模型對應的結(jié)果呈現(xiàn)下降趨勢。究其原因,過低的嵌入維度可能使得隱藏向量包含的特征信息較少,導致模型的特征表達能力不足,而過高的嵌入維度將使得模型出現(xiàn)過擬合或者欠擬合問題,繼而降低了算法的分類性能。由于當d=256時本文獲得最高的Accuracy值和F1值,因此這里設定默認隱藏層維度為256。

        圖4 隱藏層維度的影響

        3.4 圖節(jié)點聚合方法比較

        為驗證本文提出的基于GraphSAGE和HGAT的圖節(jié)點聚合方法(GS_HGAT)在提升節(jié)點表示方面的有效性,這里將其與以下兩種方法進行對比:

        (1)GS: 使用本文采樣方法獲得節(jié)點子圖,然后直接使用基于LSTM聚合器的GraphSAGE算法[21]生成圖節(jié)點表達。

        (2)GS_GAT: 使用本文采樣方法獲得節(jié)點子圖,然后使用圖注意力網(wǎng)絡(Graph Attention Network, GAT)[36]生成圖節(jié)點表達。

        在此基礎上,我們將上述不同方法在不同數(shù)據(jù)集上進行比較,當采樣鄰居節(jié)點數(shù)量n取2、4、 6、…、20時統(tǒng)計不同方法對應的Accuracy值和F1值,結(jié)果如圖5、圖6所示。由圖知,隨著ns值的增大,不同方法對應的結(jié)果均呈現(xiàn)出逐漸增加的趨勢,原因在于在圖節(jié)點信息聚合過程中采樣更多的鄰居節(jié)點能夠豐富節(jié)點語義信息,提高節(jié)點特征表示的完整性。但是,隨著ns值繼續(xù)增加,不難發(fā)現(xiàn)上述方法在不同數(shù)據(jù)集上的表現(xiàn)均呈現(xiàn)下降趨勢,例如當使用CED數(shù)據(jù)集時,GS方法在ns=12時取得最大的Accuracy值和F1值,但當ns=20時,該方法對應結(jié)果下降了超過0.01。可見,適當增加ns值能提高節(jié)點表示學習的準確性,但是ns值過大容易帶來較多的冗余特征信息,在提高算法計算開銷的同時降低信息聚合效果。

        圖5 不同聚合方法在Rumdect數(shù)據(jù)集上的比較

        進一步地,通過對比GS與GS_GAT發(fā)現(xiàn)后者對應的結(jié)果普遍高于前者對應的結(jié)果,這是因為GS方法在節(jié)點聚合過程中僅根據(jù)連邊權(quán)重來獲得鄰居節(jié)點的加權(quán)結(jié)果,而GS_GAT方法則計算了鄰居節(jié)點的注意力權(quán)重大小,繼而能區(qū)分不同鄰居節(jié)點對聚合結(jié)果的貢獻程度,提高節(jié)點表示的準確性。對比GS_HGAT和GS_GAT時發(fā)現(xiàn),前者對應的結(jié)果普遍偏高。例如,當使用Rumdect數(shù)據(jù)集時,GS_HGAT在ns=6時對應的Accuracy值比GS_GAT方法高出0.013;當使用CED數(shù)據(jù)集時,GS_HGAT在ns=20時對應的F1值比GS_GAT算法高出0.008,這說明在節(jié)點聚合過程中同時考慮節(jié)點權(quán)重與節(jié)點類型權(quán)重,能有效提高模型對于節(jié)點表示的學習能力,提升謠言檢測效果。

        3.5 消融實驗

        這里在RD_EWF的基礎上進行調(diào)整,衍生出以下幾種變體方法并將其與本文進行比較:

        (1)RD_E_noC: 區(qū)別于RD_EWF,僅使用事件構(gòu)建謠言檢測異質(zhì)圖,并且在計算事件初始化嵌入表達時不考慮評論文本的影響。此外,利用基于平均聚合的GraphSAGE算法獲得事件的最終嵌入表達,并利用公式(18)、(19)進行模型訓練。

        (2)RD_E: 區(qū)別于RD_EWF,僅使用事件構(gòu)建謠言檢測異質(zhì)圖。此外,利用基于平均聚合的GraphSAGE算法獲得事件的最終嵌入表達,并利用公式(18)、(19)進行模型訓練。

        (3)RD_EW: 區(qū)別于RD_EWF,該方法僅使用事件及詞語構(gòu)建謠言檢測異質(zhì)圖。

        (4)RD_EW_senF: 區(qū)別于RD_EWF,該方法使用事件、詞語以及文本特征中的情感特征構(gòu)建謠言檢測異質(zhì)圖。

        (5)RD_EW_entF: 區(qū)別于RD_EWF,該方法使用事件、詞語以及文本特征中的語法特征構(gòu)建謠言檢測異質(zhì)圖。

        (6)RD_EW_linF: 區(qū)別于RD_EWF,該方法使用事件、詞語以及文本特征中的語言特征構(gòu)建謠言檢測異質(zhì)圖。

        在此基礎上,我們統(tǒng)計了上述方法在不同數(shù)據(jù)集上對應的Accuracy值和F1值,結(jié)果如表5所示。由表5可知:

        表5 本文方法與不同變體方法的比較

        (1) 與未使用評論信息的RD_E_noC方法相比,RD_E對應的結(jié)果明顯偏高。例如,當使用Rumdect數(shù)據(jù)集時,RD_E相對于RD_E_noC在Accuracy值與F1值方面分別提升0.039和0.043,這說明評論文本對于檢測事件是否為謠言具有重要作用。

        (2) 對比RD_EW和RD_E發(fā)現(xiàn),前者在不同數(shù)據(jù)集上對應的Accuracy值與F1值相對后者均偏高,驗證了本文使用BiGRU融合文本詞語的上下文序列化信息對于提升事件節(jié)點表達精度的有效性。

        (3) 進一步發(fā)現(xiàn),與未使用文本特征的RD_EW方法相比,結(jié)合部分文本特征的RD_EW_senF、RD_EW_entF及RD_EW_linF方法對應的Accuracy值與F1值普遍偏高。例如,當使用Rumdect數(shù)據(jù)集時,RD_EW_senF相對于RD_EW_noF在Accuracy值與F1值方面分別提升0.006和0.002,RD_EW_linF相對于RD_EW在Accuracy值與F1值方面分別提升0.013和0.011,說明在事件、詞語等信息基礎上考慮情感特征、語法特征或者語言特征能從一定程度上提高謠言檢測效果。并且,不難發(fā)現(xiàn)RD_EW_linF相對于RD_EW的性能提升程度較另外兩種方法更為明顯。究其原因,RD_EW_linF方法使用事件、詞語以及文本特征中的語言特征構(gòu)建謠言檢測異質(zhì)圖,其抽取的語言特征中除包含情感特征外,還包含心理特征、認知特征等重要信息,因此相對于RD_EW_senF(RD_EW_entF),單純使用情感特征(語法特征)而言更有助于提高節(jié)點信息的聚合效果。

        當對比RD_EWF與其他算法表現(xiàn)時發(fā)現(xiàn),RD_EWF在不同數(shù)據(jù)集上的結(jié)果均明顯高于其他算法,這說明在謠言檢測過程中綜合考慮詞語的情感特征、語法特征、語言特征后的方法性能要優(yōu)于單純使用其中一種特征時的方法性能,進一步驗證了本文引入的文本特征對于提升謠言檢測效果的有效性。

        3.6 與現(xiàn)有典型方法的比較

        本文將RD_EWF與13個典型方法進行對比,結(jié)果如表6所示。其中,所有方法中的最優(yōu)結(jié)果用粗體表示,次優(yōu)結(jié)果使用下劃線表示。由表6可知:

        表6 不同方法的實驗結(jié)果 (單位: %)

        (1) 基于深度學習模型的文本分類方法在不同數(shù)據(jù)集上的表現(xiàn)均優(yōu)于NB、LR、RF等傳統(tǒng)分類方法,原因在于前者方法能更好地挖掘謠言信息的隱含特征,而傳統(tǒng)分類方法只是使用簡單的詞袋模型表示事件文本,丟失了文本上下文語義、詞語順序等重要信息。進一步發(fā)現(xiàn),I-BERT-LSTM結(jié)果相對于TextCNN、BiGRU-CNN、TextGCN、TextING等方法普遍偏高,這是由于TextCNN等方法直接將整個微博事件對應的文本信息作為模型輸入,而I-BERT-LSTM利用TextRank算法獲得微博事件對應的文本摘要,因此能有效避免截取有限長度序列帶來的關鍵信息丟失問題。

        (2) 當將dEFEND與TextCNN、TextGCN、I-BERT-LSTM等方法比較時發(fā)現(xiàn),前者對應結(jié)果明顯偏高,說明將原始微博劃分成句子并結(jié)合互注意力機制細化句子與相關評論的關系能較好地提升謠言檢測效果。

        (3) 相對于Bi-GCN,RumorGCN對應結(jié)果均有所提升,這是因為Bi-GCN僅僅考慮傳播樹中父子節(jié)點之間形成的層間依賴關系,而RumorGCN共同顯式建模層間依賴關系和兄弟節(jié)點之間形成的層內(nèi)依賴關系,因此能聚合不同依賴關系下的局部鄰域信息,繼而學習到更準確、更豐富的傳播結(jié)構(gòu)特征。

        (4) 通過比較RD_EWF和其他方法發(fā)現(xiàn),前者除在CED數(shù)據(jù)集上的Accuracy值低于dEFEND方法對應結(jié)果外,在其他情況下均獲得最優(yōu)實驗結(jié)果。究其原因: ①本文構(gòu)建的謠言檢測異質(zhì)圖在傳統(tǒng)評論、詞語信息的基礎上引入情感、語法、心理等知識,綜合了事件、詞語以及文本特征三方面之間的相互影響,豐富了節(jié)點向量表達中所含的特征信息; ②本文提出的基于GraphSAGE和HGAT的節(jié)點聚合方法不僅能區(qū)分不同鄰居節(jié)點的重要性,還考慮了不同節(jié)點類型對于聚合結(jié)果的貢獻,避免了TextING、Bi-GCN、RumorGCN等方法單純考慮鄰居節(jié)點重要性而導致的節(jié)點表示不準確的問題。

        3.7 微博評論數(shù)量影響分析

        由于謠言傳播較為迅速,因此能否及時地對尚未被評論或者較少被評論過的微博事件進行正確檢測是衡量謠言檢測算法性能的重要標準。為此,這里根據(jù)3.6節(jié)結(jié)果選取了4種表現(xiàn)較好的謠言檢測算法I-BERT-LSTM、RumorGCN、dEFEND和GLAN,并將它們與本文RD_EWF方法進行對比以分析評論數(shù)量對不同方法的影響。為了仿真那些尚未被評論或者較少被評論的微博信息,我們隨機選擇測試集中10%的微博事件,然后針對每個事件只保留其中10%的評論信息。在此基礎上,我們在數(shù)據(jù)集Rumdect與CED上統(tǒng)計了每種方法對應的Accuracy值和F1值,結(jié)果如圖7、圖8所示。

        圖7 微博評論數(shù)量對不同方法的影響

        圖8 微博評論數(shù)量對不同方法的影響

        由圖知,隨著測試集中部分微博評論數(shù)減少,上述方法對應性能均呈現(xiàn)出不同程度的下降,說明微博評論中蘊含著較多與謠言檢測相關的信息。進一步發(fā)現(xiàn),dEFEND對應結(jié)果普遍高于I-BERT-LSTM、RumorGCN和GLAN,說明關注原始微博不同句子之間以及句子與評論之間的語義關聯(lián)性能較好地保證謠言檢測效果。與I-BERT-LSTM和GLAN相比,RumorGCN對應結(jié)果稍高,可能原因是前兩種算法只關注評論信息之間的內(nèi)容相關性,忽略了評論之間實際轉(zhuǎn)發(fā)關系對謠言檢測結(jié)果的影響。對比RD_EWF與其他算法發(fā)現(xiàn),本文對應的Accuracy值和F1值在不同數(shù)據(jù)集上均獲得最大值,雖然相對于表6中的表現(xiàn)有所下降,但所得結(jié)果仍明顯高于其他算法??梢?由于本文在考慮原始微博和評論信息的基礎上進一步結(jié)合了不同事件之間的相關性,因此能在評論較少的情況下根據(jù)事件之間的相互聯(lián)系學習到對分類有用的重要信息,繼而提高針對尚未被評論或者有較少評論的微博信息的檢測能力。

        4 結(jié)束語

        本文提出了一種基于事件-詞語-特征異質(zhì)圖的微博謠言檢測新方法RD_EWF,主要貢獻包括: ①在微博原文及評論內(nèi)容信息基礎上,引入了由情感特征、語法特征以及語言特征構(gòu)成的文本特征的概念,將微博事件、文本詞語、文本特征作為節(jié)點構(gòu)建事件-詞語-特征異質(zhì)圖,解決了現(xiàn)有方法單純利用文本內(nèi)容導致節(jié)點信息表達不充分的問題; ②綜合考慮事件-事件之間、事件-詞語之間、詞語-詞語之間以及詞語-特征之間的相互作用,提出基于GraphSAGE和異質(zhì)圖注意力網(wǎng)絡的節(jié)點聚合方法GS_HGAT,以此區(qū)分不同類型節(jié)點的影響,在保證模型可歸納的同時提高節(jié)點表示的準確性。在兩個典型謠言檢測數(shù)據(jù)集上的實驗結(jié)果表明,RD_EWF相對于傳統(tǒng)文本分類方法及深度學習方法在提升微博謠言檢測準確性方面具有明顯優(yōu)勢。未來計劃將該方法推廣至標題黨識別、虛假信息識別等相關領域。

        猜你喜歡
        特征文本檢測
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        如何表達“特征”
        在808DA上文本顯示的改善
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        小波變換在PCB缺陷檢測中的應用
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        一区二区三区观看视频在线| 最新四色米奇影视777在线看| 亚洲av无码片在线播放| 视频一区中文字幕亚洲| 99精品国产一区二区三区| 日本特黄特色特爽大片| 欧美丰满熟妇bbbbbb百度| 国产精品人成在线观看| 水蜜桃在线精品视频网| 人与动牲交av免费| 精品人无码一区二区三区| 国产激情视频免费观看| 成人国产激情自拍视频| 亚洲av无码专区在线播放 | 精品视频999| 国产成版人性视频免费版| 大陆老熟女自拍自偷露脸| 亚洲av成人无码精品电影在线| 亚洲色婷婷免费视频高清在线观看| 亚洲国产精品一区亚洲国产| 亚洲悠悠色综合中文字幕| 亚洲欧美一区二区三区在线| 中文字幕在线日韩| 开心五月激动心情五月| 亚洲国产精品日本无码网站| 亚洲一区二区三区成人网站| 精精国产xxxx视频在线播放器| 久久人妻少妇嫩草av蜜桃| 看全色黄大色黄大片 视频| 国产午夜无码视频免费网站| 熟女少妇丰满一区二区| 中国一级黄色片久久久| 国产97色在线 | 亚洲| 国产熟女精品一区二区三区| 日本免费大片一区二区三区| 免费a级毛片18禁网站app| 天天天综合网| 白白白色视频在线观看播放| 一边做一边说国语对白| 大胆欧美熟妇xxbbwwbw高潮了| 国产人成在线成免费视频|