亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于雙重情感感知的可解釋謠言檢測(cè)

        2022-11-07 10:12:18葛曉義張明書(shū)
        中文信息學(xué)報(bào) 2022年9期
        關(guān)鍵詞:語(yǔ)義特征文本

        葛曉義,張明書(shū),魏 彬,劉 佳

        (1.武警工程大學(xué) 密碼工程學(xué)院,陜西 西安 710086;2.武警工程大學(xué) 網(wǎng)絡(luò)與信息安全武警部隊(duì)重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710086)

        0 引言

        社交媒體的快捷性和便利性等優(yōu)點(diǎn)給工作、生活和學(xué)習(xí)帶來(lái)了巨大的便利,為用戶發(fā)布、分享和獲取各種信息提供了便捷的渠道。目前社交媒體已成為各國(guó)發(fā)布外交政策和相關(guān)評(píng)論的重要平臺(tái),也演變成網(wǎng)絡(luò)認(rèn)知戰(zhàn)的主戰(zhàn)場(chǎng)。然而不可忽視的是,社交媒體的謠言泛濫,嚴(yán)重影響了網(wǎng)絡(luò)的良性發(fā)展,甚至影響著社會(huì)、經(jīng)濟(jì)和文化的發(fā)展。新冠肺炎疫情防控期間,博人眼球的虛假消息,對(duì)疫情防控造成了一定干擾。有效檢測(cè)謠言有利于凈化網(wǎng)絡(luò)空間和維護(hù)社會(huì)穩(wěn)定,具有重要的現(xiàn)實(shí)意義[1],為了遏制謠言傳播,消除謠言帶來(lái)的影響,越來(lái)越多的學(xué)者致力于謠言檢測(cè)任務(wù)[2]。

        情感分析作為文本分析中確定文本表達(dá)情感極性和強(qiáng)度的部分,常被用于謠言檢測(cè)任務(wù)中。Wu[3]等人考慮到謠言和用戶評(píng)論之間存在情感關(guān)聯(lián)和語(yǔ)義沖突,提出了自適應(yīng)交互融合網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)特征之間的交叉交互融合,從而捕獲帖子和評(píng)論之間的相似語(yǔ)義和沖突語(yǔ)義。Guo[4]等人分別提取謠言和用戶評(píng)論的語(yǔ)義及情感特征進(jìn)行謠言檢測(cè),取得較好效果。Zhang[5]等人通過(guò)情感字典獲取謠言和用戶評(píng)論的情感表示來(lái)探究二者之間的情感差,將情感特征作為增強(qiáng)特征進(jìn)行謠言檢測(cè)。

        然而上述方法仍有一定的局限性。首先,沒(méi)有考慮謠言和用戶評(píng)論的情感相關(guān)性,以及謠言語(yǔ)義和用戶評(píng)論情感的相關(guān)性。用戶評(píng)論往往是較短的句子,導(dǎo)致語(yǔ)義特征不夠豐富,而用戶評(píng)論中蘊(yùn)含著對(duì)謠言明確的態(tài)度,情感更加豐富,因此用戶評(píng)論的情感傾向更能反映檢測(cè)內(nèi)容的真假[6]。其次,沒(méi)有從局部角度獲取謠言和用戶評(píng)論的情感特征。社交媒體中謠言和用戶評(píng)論的句子往往較短,情感特征通常體現(xiàn)在個(gè)別情感色彩豐富的詞匯上,因此獲取局部情感特征更能表達(dá)情感傾向[7]。最后,在已有的可解釋謠言檢測(cè)模型中,僅利用謠言文本和用戶評(píng)論[8]、轉(zhuǎn)發(fā)用戶序列和用戶信息[9]等提供合理解釋,忽視了從情感角度提供合理的解釋。

        針對(duì)現(xiàn)有研究的不足,本文提出一種基于雙重情感感知的可解釋謠言檢測(cè)模型。為了從全局角度探究謠言語(yǔ)義和用戶評(píng)論的相關(guān)性,首先,利用雙向門(mén)循環(huán)單元(Bidirectional gate recurrent unit,Bi-GRU)和注意力(Attention)獲取謠言語(yǔ)義特征和用戶評(píng)論情感特征;其次,通過(guò)Co-Attention 獲取謠言語(yǔ)義特征與用戶評(píng)論情感特征的相關(guān)性,以篩選與謠言語(yǔ)義相關(guān)的用戶評(píng)論情感特征并進(jìn)行融合,利用協(xié)同注意力(Co-Attention)權(quán)重提供解釋。為了從局部角度探究謠言和用戶評(píng)論的情感相關(guān)性,首先,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)提取謠言和用戶評(píng)論的情感特征,其次,通過(guò)Co-Attention學(xué)習(xí)謠言與用戶評(píng)論的情感相關(guān)性,旨在獲取與謠言情感相關(guān)的用戶評(píng)論情感特征進(jìn)行融合,并利用Co-Attention權(quán)重提供解釋。本文的貢獻(xiàn)如下:

        (1)提出一種新的可解釋謠言檢測(cè)模型,分別從謠言語(yǔ)義和用戶評(píng)論情感以及謠言情感和用戶評(píng)論情感出發(fā)進(jìn)行謠言檢測(cè)。

        (2)通過(guò)Co-attention機(jī)制學(xué)習(xí)謠言語(yǔ)義與評(píng)論情感的相關(guān)性,以及謠言情感與評(píng)論情感的相關(guān)性,通過(guò)Co-attention權(quán)重從情感角度產(chǎn)生合理的解釋。

        (3)在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)表明,與先進(jìn)的模型相比,具有較好的檢測(cè)效果和合理的解釋性,實(shí)驗(yàn)代碼開(kāi)源在碼云①https://gitee.com/wj_gxy/dual-emotion_aware。

        1 相關(guān)工作

        1.1 謠言檢測(cè)

        謠言檢測(cè)根據(jù)特征通常分為基于謠言內(nèi)容、基于社會(huì)上下文及基于混合特征的方法。謠言內(nèi)容可以分為文本和視覺(jué)兩個(gè)方面,文本方面指根據(jù)謠言的語(yǔ)言風(fēng)格[10]、寫(xiě)作風(fēng)格[11]和情感[12-14]等提取文本特征和情感特征,例如劉[13]等人提出使用卷積神經(jīng)網(wǎng)絡(luò)提取文本特征進(jìn)行的謠言檢測(cè)模型,Cui[14]等人通過(guò)實(shí)驗(yàn)表明,情感分析對(duì)系統(tǒng)性能的影響最大。視覺(jué)特征則是從視頻或圖片中提取特征[15]?;谏鐣?huì)上下文的檢測(cè)方法一般可以分為基于用戶和基于網(wǎng)絡(luò)。前者是根據(jù)謠言發(fā)布者和轉(zhuǎn)發(fā)用戶的特點(diǎn)進(jìn)行建模[11,16],特征主要包括用戶性別、粉絲數(shù)、用戶配置;后者通過(guò)社交網(wǎng)絡(luò)中的轉(zhuǎn)發(fā)或關(guān)注結(jié)構(gòu)的特征進(jìn)行謠言檢測(cè),如:Bian[16]等人利用雙向圖神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)嵌入謠言傳播。基于混合特征的方法是融合多模態(tài)或者多重特征進(jìn)行謠言檢測(cè),如Wu[17]等人分別學(xué)習(xí)文本和圖像的表示,利用模態(tài)的上下文注意力網(wǎng)絡(luò)融合模態(tài)內(nèi)(Intra-modality)和模態(tài)間(Inter-modality)的關(guān)系進(jìn)行謠言檢測(cè);Zhang[5]等人在通過(guò)情感詞典獲取發(fā)布者情感、用戶評(píng)論情感和情感代溝,作為假新聞檢測(cè)器的補(bǔ)充特征,取得了很好的效果。

        近年來(lái)的研究趨向于可解釋謠言檢測(cè)[18],主要通過(guò)提取用戶信息[19]、轉(zhuǎn)發(fā)序列[9]、新聞內(nèi)容和用戶評(píng)論[8]等來(lái)提供解釋。Lu[19]等人利用兩次協(xié)同注意力機(jī)制通過(guò)突出可疑的轉(zhuǎn)發(fā)者以及他們關(guān)注的話語(yǔ)來(lái)生成解釋。Jin[20]等人通過(guò)對(duì)微妙線索的細(xì)粒度建模來(lái)提高檢測(cè)的,準(zhǔn)確性和可解釋性。

        1.2 深度學(xué)習(xí)可解釋性

        雖然深度學(xué)習(xí)模型在越來(lái)越多領(lǐng)域得到應(yīng)用,卻常因不具備透明度、可信度以及不符合倫理道德標(biāo)準(zhǔn)等遭詬病,因此對(duì)深度學(xué)習(xí)可解釋性的需求也越來(lái)越高[21]。近年來(lái),深度學(xué)習(xí)可解釋性模型開(kāi)始在越來(lái)越多的領(lǐng)域應(yīng)用,如網(wǎng)絡(luò)安全[22]、推薦系統(tǒng)[23]、醫(yī)療[24]、社交網(wǎng)絡(luò)[19]等。深度學(xué)習(xí)可解釋性模型一般是指模型決策結(jié)果以可理解的方式呈現(xiàn),能夠幫助理解復(fù)雜模型的內(nèi)部工作機(jī)制以及模型做出特定決策的原因[25]??山忉屝砸话惴譃閮?nèi)在可解釋性和事后可解釋性[26]。內(nèi)在可解釋性[8]是通過(guò)構(gòu)建將可解釋性直接納入其結(jié)構(gòu)的自解釋模型來(lái)實(shí)現(xiàn)的,而事后可解釋性[27]需要?jiǎng)?chuàng)建第二個(gè)模型來(lái)為現(xiàn)有模型提供解釋。在謠言檢測(cè)中應(yīng)當(dāng)更傾向于內(nèi)在可解釋性,在檢測(cè)結(jié)果中就存在著自解釋的信息。

        2 本文模型

        本文提出的可解釋謠言檢測(cè)模型分別從全局和局部對(duì)謠言和用戶評(píng)論在情感上的關(guān)系獲取特征,進(jìn)行謠言檢測(cè)。模型如圖1所示,主要由四部分構(gòu)成:①https://github.com/Embedding/Chinese-Word-Vectors嵌入層,利用詞嵌入向量和情感嵌入向量對(duì)謠言和用戶評(píng)論進(jìn)行向量表示;②特征提取層,通過(guò)Bi-GRU 與Attention獲取謠言的語(yǔ)義表示和用戶評(píng)論的情感表示,通過(guò)CNN 獲取謠言和用戶評(píng)論的情感表示;③雙重情感感知層,分別依據(jù)謠言語(yǔ)義特征與用戶評(píng)論情感特征,以及謠言文本情感特征與用戶評(píng)論情感特征,通過(guò)Co-attention獲取謠言語(yǔ)義特征與用戶評(píng)論情感之間的相關(guān)性和謠言情感特征與用戶評(píng)論情感特征的相關(guān)性;④預(yù)測(cè)層,將Co-attention 獲取的特征進(jìn)行拼接,通過(guò)Softmax分類。

        圖1 可解釋謠言檢測(cè)模型框架

        2.1 嵌入層

        在進(jìn)行特征提取前,首先對(duì)每個(gè)詞進(jìn)行詞向量嵌入和情感向量嵌入。英文詞向量嵌入采用Robyn[28]等人預(yù)先訓(xùn)練好的Numberbatch詞向量,在詞向量相似性上優(yōu)于Word2Vec[29]和Glo Ve[30],中文詞向量采用預(yù)訓(xùn)練的微博詞向量①。

        受情感建模工作文獻(xiàn)[31]的啟發(fā),本文將情感元素融入到預(yù)先訓(xùn)練好的詞向量中獲取情感嵌入向量。該方法基于NRC 情感詞典創(chuàng)建了兩組約束,一組用于與情緒(例如綁架,悲傷)具有積極關(guān)系的單詞,另一組用于跟蹤與該情緒相反的每個(gè)單詞(綁架,喜悅),喜悅是悲傷的反面。

        通過(guò)增加一個(gè)新的訓(xùn)練階段,使用情感詞匯和基本情緒詞匯將情感信息擬合到預(yù)訓(xùn)練的Numberbatch詞向量中獲取情感向量。在訓(xùn)練情感嵌入時(shí)采用的正面與反面的約束字典以及中英文向量大小統(tǒng)計(jì)如表1所示。

        表1 字典統(tǒng)計(jì)

        2.2 特征提取層

        經(jīng)過(guò)數(shù)據(jù)預(yù)處理后,一條謠言由M個(gè)句子組成,其中每個(gè)句子s由m個(gè)詞組成si=[xi1,xi2,…,xim],一條謠言對(duì)應(yīng)的用戶評(píng)論由N個(gè)句子組成,其中每個(gè)句子e由n個(gè)詞組成ej=[xj1,xj2,…,xjn]。經(jīng)過(guò)預(yù)訓(xùn)練的詞向量和情感向量表示后用于提取語(yǔ)義特征和情感特征。

        2.2.1 語(yǔ)義特征提取

        理論上RNN 能夠捕獲長(zhǎng)期依賴,但在實(shí)踐中,舊的記憶會(huì)隨著序列變長(zhǎng)而消失。為了捕獲RNN的長(zhǎng)期依賴關(guān)系,使用GRU 來(lái)確保更持久的內(nèi)存。雖然詞中都包含上下文信息和整個(gè)句子的信息,但是句子中每個(gè)詞的重要性不同。具體如圖2所示。

        圖2 語(yǔ)義特征提取過(guò)程

        謠言中的詞匯往往與上下文具有關(guān)聯(lián)性,具有較強(qiáng)的雙向語(yǔ)義依賴,因此逆序處理十分必要,采用Bi-GRU 從詞的兩個(gè)方向建模獲取謠言語(yǔ)義特征。詞嵌入的向量si=[wi1,wi2,…,wim]通過(guò)Bi-GRU可以得到,如式(1)所示。

        通過(guò)連接前向隱藏狀態(tài)和后向隱藏狀態(tài),獲取詞的特征表示通過(guò)注意力機(jī)制學(xué)習(xí)詞的重要性來(lái)獲得句子向量s∈R2d×m如式(2)所示。

        其中αit衡量tth單詞對(duì)新聞內(nèi)容s的重要性,αit計(jì)算如式(3)所示。

        其中,uit是通過(guò)完全嵌入層從隱藏狀態(tài)hit獲得的,Ww和bw是可訓(xùn)練的參數(shù),uw為權(quán)重矩陣。

        2.2.2 情感特征提取

        在模型中共提取三部分情感特征,圖中一部分用戶評(píng)論的情感特征與謠言語(yǔ)義特征提取方法相同,采用Bi-GRU 與Attention的方法獲得用戶評(píng)論的情感特征E=[e1,e2,…,eN]。

        其中謠言情感特征與另一部分用戶評(píng)論情感特征采用CNN 模型提取,CNN 模型能夠較好地提取局部特征,并且模型訓(xùn)練的效率高,因此選用一維卷積神經(jīng)網(wǎng)絡(luò)提取謠言情感特征U=[u1,u2,…,uM]與用戶評(píng)論情感特征V=[v1,v2,…,vN],具體方法如圖3所示。

        圖3 基于CNN 的特征表示

        對(duì)用戶評(píng)論中某一行評(píng)論情感嵌入后的向量ej=[wj1,wj2,…,wjn]∈Rn×d進(jìn)行卷積操作:

        其中,W∈Rλ×d是可學(xué)習(xí)的參數(shù)矩陣,b是偏置項(xiàng),ReLU 是激活函數(shù)。對(duì)卷積得到的hj進(jìn)行最大池化可得到每一句評(píng)論的情感特征:

        CNN 層使用兩個(gè)過(guò)濾器(λ∈{2,3})來(lái)獲取多個(gè)特征,將不同的輸出連接起來(lái),形成vj作為用戶評(píng)論的單個(gè)表示。最后可以得到用戶評(píng)論中每個(gè)評(píng)論的情感特征,形成用戶評(píng)論的情感矩陣V=[v1,v2,…,vN]。

        2.3 雙重情感感知層

        用戶評(píng)論中往往包含著大量的與謠言相關(guān)的信息,但它們信息量較小,噪聲較大。因此利用謠言自身進(jìn)行謠言檢測(cè)和解釋謠言真假是薄弱的,而評(píng)論中情感豐富,與語(yǔ)義特征相比,情感特征更加突出,更有利于謠言檢測(cè),并能通過(guò)情感反映謠言真假的原因。通過(guò)協(xié)同注意力機(jī)制學(xué)習(xí)評(píng)論情感與謠言的相關(guān)性,利用情感的注意力權(quán)重和謠言中的詞匯來(lái)進(jìn)行謠言檢測(cè)和謠言解釋,具體過(guò)程如圖4所示。

        圖4 協(xié)同表示過(guò)程

        謠言表示為:S=[s1,s2,…,sM],評(píng)論情感特征表示為:E=[e1,e2,…,eN]。

        首先計(jì)算相似矩陣F=tanh(EWseS),其中,F∈RN×M,Wse∈R2d×2d,是可學(xué)習(xí)的參數(shù)矩陣。將相似矩陣作為一個(gè)特征,則可以學(xué)習(xí)謠言語(yǔ)義特征和用戶評(píng)論情感特征的協(xié)同表示。

        Ws、We∈Rk×2d為可學(xué)習(xí)的參數(shù)矩陣,可以學(xué)習(xí)謠言文本和評(píng)論情感特征的注意力權(quán)重:

        其中,as∈R1×M,ae∈R1×N分別是謠言中每個(gè)詞和評(píng)論的情感特征中每個(gè)評(píng)論的注意權(quán)重。Whs、Whe是可訓(xùn)練權(quán)重。最終,通過(guò)加權(quán)協(xié)同表示。

        利用協(xié)同注意力機(jī)制對(duì)謠言情感特征和用戶評(píng)論情感特征計(jì)算相似矩陣,獲取對(duì)應(yīng)的權(quán)重分別生成協(xié)同表示。

        2.4 預(yù)測(cè)層

        將提取到的特征通過(guò)全連接層輸出,最后通過(guò)softmax函數(shù)來(lái)獲得分類的結(jié)果,如式(9)所示。

        其中,為softmax函數(shù)計(jì)算的概率值,Wf為權(quán)重矩陣,b為偏置項(xiàng)。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        Twitter15和Twitter16[32]數(shù)據(jù)集選擇“真”和“假”標(biāo)簽數(shù)據(jù),數(shù)據(jù)集中都包含謠言內(nèi)容、用戶評(píng)論和相應(yīng)的轉(zhuǎn)發(fā)用戶序列等信息。Weibo20由Zhang[5]等人在Weibo16[33]的基礎(chǔ)上通過(guò)聚類算法去重,并增加了2014年4月至2018年11月被微博社區(qū)管理中心認(rèn)定的虛假信息,形成新的數(shù)據(jù)集。Weibo20數(shù)據(jù)集包含謠言內(nèi)容、用戶評(píng)論和標(biāo)簽三部分信息。數(shù)據(jù)集的統(tǒng)計(jì)如表2所示。

        表2 數(shù)據(jù)集統(tǒng)計(jì)

        3.2 實(shí)驗(yàn)設(shè)置

        為突出本文方法的先進(jìn)性,在上述數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),將實(shí)驗(yàn)結(jié)果與先進(jìn)模型進(jìn)行比對(duì)和分析。

        ?RNN[33]:一種基于RNN 的方法,將社交上下文信息建模為可變長(zhǎng)度的時(shí)間序列,用于學(xué)習(xí)謠言的連續(xù)表示。

        ?text-CNN[34]:一種基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類模型,利用多個(gè)卷積濾波器來(lái)捕獲不同粒度的文本特征。

        ?HAN[35]:一種基于層次注意力網(wǎng)絡(luò)的文檔分類模型,利用詞級(jí)注意力和句子級(jí)注意力來(lái)學(xué)習(xí)新聞內(nèi)容表示。

        ?dEFEND[8]:一種基于協(xié)同注意力的假新聞檢測(cè)模型,學(xué)習(xí)新聞內(nèi)容和用戶評(píng)論之間的相關(guān)性,并利用Co-attention的權(quán)重從謠言文本和用戶評(píng)論給出解釋。

        ?PLAN[9]:一種關(guān)注用戶交互的可解釋謠言檢測(cè)模型,將謠言及轉(zhuǎn)發(fā)評(píng)論作為T(mén)ransformer的輸入,并利用延遲時(shí)間嵌入代替的位置嵌入進(jìn)行謠言檢測(cè),通過(guò)Attention為帖子和標(biāo)簽提供解釋。

        ?DualEmotion[5]:一種基于雙重情感特征的假新聞檢測(cè)模型,通過(guò)學(xué)習(xí)謠言情感特征、評(píng)論情感特征及情感特征差作為假新聞檢測(cè)器的補(bǔ)充特征。

        在Twitter15與Twitter16數(shù)據(jù)集中,d EFEND模型中謠言文本句子個(gè)數(shù)為1,長(zhǎng)度為32,評(píng)論句子分別選取12 和9 條,長(zhǎng)度為32;為了對(duì)比公平,Dual emotion模型利用Bi-GRU 提取文本特征,分別選擇12和9條評(píng)論提取情感特征;本文所提模型,謠言文本個(gè)數(shù)為1,長(zhǎng)度為32,評(píng)論個(gè)數(shù)分別為12和9條,長(zhǎng)度為32,其他模型參照原文設(shè)置。

        在Weibo20數(shù)據(jù)集中,dEFEND 模型中謠言文本句子個(gè)數(shù)為1,長(zhǎng)度為64,評(píng)論句子選取100條,長(zhǎng)度為32;由于數(shù)據(jù)集中不存在延遲時(shí)間,因此PLAN 模型不再對(duì)比;為了對(duì)比公平,Dual emotion模型利用Bi-GRU 提取文本特征,選擇100條評(píng)論提取情感特征;本文所提模型的謠言文本個(gè)數(shù)為1,長(zhǎng)度為64,評(píng)論個(gè)數(shù)為100條,長(zhǎng)度為32,其他模型參照原文設(shè)置。

        3.3 實(shí)驗(yàn)結(jié)果

        數(shù)據(jù)集按照6:2:2的比例劃分為訓(xùn)練集、驗(yàn)證集、測(cè)試集,每一個(gè)數(shù)據(jù)集中的樣本比例為1∶1。實(shí)驗(yàn)使用Adam 更新參數(shù),學(xué)習(xí)率分別為0.001與0.005,L2正則化系數(shù)為0.001。詞向量與情感詞向量維度均設(shè)置為300。設(shè)置常用的評(píng)價(jià)指標(biāo)為:正確率Accuracy、準(zhǔn)確率Precision、召回率Recall以及F1。在Twitter15、Twitter16 和Weibo20 上 的實(shí)驗(yàn)結(jié)果如表3~表5所示,表中加黑數(shù)據(jù)為最優(yōu)結(jié)果,下劃線數(shù)據(jù)為次優(yōu)結(jié)果。

        從表3、表4與表5可以發(fā)現(xiàn),在Twitter15、Twitter16與Weibo20 數(shù)據(jù)集上,本文所提模型在各個(gè)指標(biāo)上都顯著優(yōu)于其他模型,在Twitter15與Twitter16上的F1分別提高了約4.1%與3.0%,在準(zhǔn)確率上分別提高了約3.9%與3.3%;在Weibo20上F1提高了約4.3%,在準(zhǔn)確率上提高了約4.4%。實(shí)驗(yàn)結(jié)果證明,本文所提模型不僅優(yōu)于基于單一特征的方法,更是優(yōu)于基于混合特征的方法,充分體現(xiàn)了模型的優(yōu)越性。

        表3 Twitter15上不同模型的結(jié)果對(duì)比

        表4 Twitter16上不同模型的結(jié)果對(duì)比

        表5 Weibo20上不同模型的結(jié)果對(duì)比

        在RNN、text-CNN、HAN 三種基于單一特征的方法中,HAN 模型效果更好,說(shuō)明在提取語(yǔ)義特征方面,HAN 模型更具有優(yōu)勢(shì)。d EFEND、PLAN、Dual Emotion三種基于混合特征的方法明顯優(yōu)于基于單一特征的方法,這說(shuō)明基于混合特征的模型利用不同的方法融合更多的特征往往具有更好的效果。在基于混合特征的模型中,PLAN 模型將位置嵌入替換為延遲時(shí)間嵌入進(jìn)行謠言檢測(cè),取得優(yōu)于d EFEND 模型僅考慮謠言和用戶評(píng)論的效果。Dual Emotion模型在不采用Attention的情況下,僅利用謠言語(yǔ)義特征與情感特征融合就取得更好的結(jié)果。

        該模型與基于混合特征的方法相比,也具有明顯的優(yōu)勢(shì)。本文所提模型優(yōu)于dEFEND 模型和PLAN 模型,說(shuō)明同樣僅利用謠言和用戶評(píng)論,提取語(yǔ)義特征和情感特征取得更優(yōu)結(jié)果,這表明選取更有效的特征是檢測(cè)謠言的關(guān)鍵。本文所提模型優(yōu)于Dual Emotion模型,說(shuō)明同樣以文本與評(píng)論情感作為謠言檢測(cè)器特征,Co-Attention提取特征相關(guān)性更具有優(yōu)勢(shì)。不可否認(rèn)的是,Dual Emotion模型提取情感特征更具有全面性,因?yàn)楫?dāng)前社交媒體中的用戶評(píng)論更喜歡用表情或者一些圖片表達(dá)自己的情感傾向,Dual Emotion模型在獲取情感特征時(shí)能夠針對(duì)表情對(duì)應(yīng)的情感特征一并提取,但忽視了謠言文本情感與用戶評(píng)論情感的內(nèi)在關(guān)系。各個(gè)模塊對(duì)模型性能的影響將在消融實(shí)驗(yàn)部分詳細(xì)闡述。

        3.4 消融實(shí)驗(yàn)

        消融實(shí)驗(yàn)主要研究?jī)刹糠謨?nèi)容:①評(píng)論數(shù)量對(duì)模型性能的影響;②模型各模塊對(duì)模型性能的影響。

        實(shí)驗(yàn)一分別選擇不同的評(píng)論數(shù)量提取情感特征,實(shí)驗(yàn)結(jié)果如圖5所示。

        圖5 用戶評(píng)論數(shù)目的影響

        可以發(fā)現(xiàn),隨著評(píng)論數(shù)量的增加,模型檢測(cè)性能有所提高,在推特?cái)?shù)據(jù)集中,評(píng)論數(shù)量基數(shù)較少,隨著評(píng)論數(shù)目的增加,檢測(cè)性能隨之提高,但是在微博數(shù)據(jù)集中,評(píng)論基數(shù)大,隨著評(píng)論數(shù)目的增加,性能提升相對(duì)較小,這是因?yàn)槲⒉?shù)據(jù)集中,相同的評(píng)論較多。

        實(shí)驗(yàn)二是探究模型中各模塊對(duì)模型性能的影響,“-S”:僅有謠言語(yǔ)義特征和用戶評(píng)論情感特征的模型;“-E”:僅有謠言情感特征和用戶據(jù)評(píng)論情感特征的模型;“-B”:所有特征由Bi-GRU 與Attention提取;“-C”:表示所有特征均由CNN 提取的模型;“-A”:本文所提模型;實(shí)驗(yàn)結(jié)果如圖6所示。

        圖6 模型中各模塊的影響

        實(shí)驗(yàn)結(jié)果表明,模型中的每一個(gè)模塊都具有重要的作用,同時(shí)特征的提取方式發(fā)生改變會(huì)嚴(yán)重影響模型的性能。“-B”與“-C”模型雖然都提取了所有特征,但是準(zhǔn)確率依然沒(méi)有本文所提模型高,這是因?yàn)椤?B”模型提取的是整體特征,“-C”模型提取的是局部特征,而本文模型是整體特征與局部特征的結(jié)合,就整體與局部而言,僅提取局部特征的“-C”模型較“-B”模型具有更好的效果。尤其是當(dāng)去除情感特征提取模塊時(shí),模型的準(zhǔn)確率會(huì)顯著下降,同時(shí)將“-S”模型與dEFEND模型對(duì)比可以發(fā)現(xiàn),利用用戶評(píng)論的情感特征比用戶評(píng)論語(yǔ)義特征效果更好,這說(shuō)明在模型中情感特征比語(yǔ)義特征具有更好的作用。

        3.5 可解釋性分析

        在2.3節(jié)介紹的Co-attention權(quán)重使模型具有可解釋性,根據(jù)權(quán)重分布的位置,可以揭示謠言檢測(cè)在謠言文本和用戶評(píng)論中的證據(jù)詞,下面分別對(duì)模型中兩個(gè)Co-attention權(quán)重進(jìn)行案例分析。

        3.5.1 CNN 提取特征的可解釋性

        通過(guò)CNN 提取謠言情感特征和用戶評(píng)論情感特征,Co-attention權(quán)重可以揭示謠言文本和用戶評(píng)論中關(guān)注的句子,用戶評(píng)論中的權(quán)重分布如圖7和表6所示。

        表6 Weibo案例分析的權(quán)重分布(一)

        圖7 Twitter案例分析的權(quán)重分布(一)

        在圖7中,發(fā)現(xiàn)第2句和第6句的權(quán)重最大,上述兩句評(píng)論中均包含對(duì)謠言文本信息的否定態(tài)度,均能對(duì)此做出解釋。在NRC的情感字典中,分別有與情緒有著正反關(guān)系的詞匯,在第二句中的“sensationalist”與“sadness”對(duì)應(yīng),“crash”與“anger”對(duì)應(yīng)。

        通過(guò)表6中權(quán)重選擇的前6條用戶評(píng)論可以發(fā)現(xiàn),每一句都直接對(duì)謠言文本中的內(nèi)容表示懷疑和否定的態(tài)度。

        3.5.2 Bi-GRU 與Attention提取特征的可解釋性

        利用Bi-GRU 與Attention分別提取謠言語(yǔ)義特征和用戶評(píng)論情感特征,具體如圖8和表7所示。

        表7 Weibo案例分析的權(quán)重分布(二)

        通過(guò)圖8可以看出,在選擇用戶評(píng)論情感和謠言文本語(yǔ)義時(shí),權(quán)重更傾向于與謠言文本語(yǔ)義匹配信息的選擇,也從另一角度給出解釋。

        通過(guò)表7可以發(fā)現(xiàn),權(quán)重所選擇的前6條用戶評(píng)論與之前完全不同,更傾向于事實(shí)的選擇,其中3條評(píng)論與“政協(xié)”相關(guān),其他的也都是契合謠言文本的語(yǔ)義信息。

        3.5.3 全局與局部的可解釋性

        對(duì)比兩種權(quán)重分布可以發(fā)現(xiàn),Weibo20數(shù)據(jù)集的用戶評(píng)論基數(shù)大,兩種權(quán)重選擇前6條用戶評(píng)論完全不同,Twitters數(shù)據(jù)集的用戶評(píng)論基數(shù)小,雖然前2條評(píng)論都是第2句和第6句,但是先后順序、權(quán)重分布也不同。從全局看,基于Bi-GRU 與Attention提取特征的可解釋性是從謠言語(yǔ)義特征和用戶評(píng)論情感特征角度出發(fā),選擇用戶評(píng)論更多的是與謠言文本相關(guān)的內(nèi)容,如上述案列中,用戶評(píng)論中包含“政協(xié)”“農(nóng)民”等詞語(yǔ);從局部看,基于CNN 提取特征的可解釋方法是從謠言情感特征和用戶評(píng)論情感特征角度出發(fā),選擇用戶評(píng)論更多的是對(duì)謠言文本所持的態(tài)度,如上述案列中,用戶評(píng)論中包含“辟謠”“真的假的”“真相”等詞語(yǔ)。

        4 總結(jié)

        考慮到謠言和用戶評(píng)論中具有強(qiáng)烈的情感傾向,本文提出了一種基于雙重情感感知的可解釋謠言檢測(cè)模型,分別提取謠言語(yǔ)義特征,謠言情感特征和用戶評(píng)論情感特征進(jìn)行謠言檢測(cè),并提供解釋。實(shí)驗(yàn)結(jié)果表明,該模型具有較好的檢測(cè)結(jié)果和較合理的解釋性。同時(shí),該模型還可以用于社交媒體上的其他任務(wù),尤其是當(dāng)前社交媒體上認(rèn)知戰(zhàn)正越演越烈,可以利用該模型進(jìn)行仇恨語(yǔ)言檢測(cè)、意識(shí)形態(tài)檢測(cè)等任務(wù)。在下步工作中,我們將根據(jù)謠言的特點(diǎn)進(jìn)行仇恨語(yǔ)言檢測(cè)和立場(chǎng)檢測(cè)的多任務(wù)實(shí)驗(yàn),進(jìn)一步研究社交媒體中認(rèn)知偏移的規(guī)律。

        猜你喜歡
        語(yǔ)義特征文本
        語(yǔ)言與語(yǔ)義
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        不忠誠(chéng)的四個(gè)特征
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        認(rèn)知范疇模糊與語(yǔ)義模糊
        如何快速走進(jìn)文本
        少妇精品揄拍高潮少妇桃花岛| 亚洲天堂在线播放| 中文字幕第一页亚洲观看 | 在线麻豆精东9制片厂av影现网| 精品人妻午夜一区二区三区四区| 欧美日韩视频在线第一区| 欧美日韩视频无码一区二区三| 男女男在线精品网站免费观看| 中文字幕人妻中文| 欧美成人a视频免费专区| 亚洲色图在线视频观看| 亚洲av资源网站手机在线| 中文字幕精品亚洲字幕| 漂亮人妻洗澡被公强 日日躁| 啦啦啦www播放日本观看| 91av视频在线| 无码中文字幕专区一二三| 一本色道久久88综合亚洲精品| 国产一区二区三区免费视| 国产午夜视频在线观看免费| 门卫又粗又大又长好爽| 国产高颜值大学生情侣酒店| 四虎精品视频| 亚洲中文字幕人妻诱惑| 久久精品国产自产对白一区| 胸大美女又黄的网站| 亚洲av成人综合网| 欧美亚洲另类 丝袜综合网| 女人天堂av免费在线| 97超碰精品成人国产| 俺去啦最新地址| 亚洲中文字幕无码专区| 色www亚洲| 在线视频一区二区观看| 国产视频一区二区三区观看| 亚洲国产精品成人久久久| 国产成人精品无码一区二区老年人| 国产精品精品| 亚洲国产人成自精在线尤物 | 男女爱爱好爽视频免费看| 欧美黑人又粗又大久久久|