亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于情感增強(qiáng)的微博謠言檢測(cè)

        2021-03-14 00:50:38奚金霞
        現(xiàn)代計(jì)算機(jī) 2021年36期
        關(guān)鍵詞:謠言編碼器分類器

        奚金霞

        (四川大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,成都 610065)

        0 引言

        中國(guó)社會(huì)科學(xué)院2020年發(fā)布的《中國(guó)新媒體發(fā)展報(bào)告》指出[1]:我國(guó)網(wǎng)民在接收新聞信息時(shí),傾向于通過(guò)移動(dòng)端從微博、微信等社交媒體獲取信息,電視、紙媒等傳統(tǒng)媒體在信息傳播方面占有率大大下降。社交媒體的公開性、快捷性使人們可以隨時(shí)隨地分享自己感興趣的內(nèi)容,極大地方便了信息交流,但由于消息發(fā)布的便利以及社交媒體自身審核環(huán)節(jié)的薄弱,用戶的無(wú)節(jié)制傳播促進(jìn)了謠言的泛濫,在線社交網(wǎng)絡(luò)成為謠言傳播的重災(zāi)區(qū)。謠言在傳播過(guò)程中通常會(huì)被放大和扭曲,引起受眾恐慌,嚴(yán)重時(shí)甚至?xí){社會(huì)的和諧穩(wěn)定。因此,不論是對(duì)于網(wǎng)絡(luò)環(huán)境的凈化,還是社會(huì)穩(wěn)定的維護(hù),都迫切需要技術(shù)手段自動(dòng)化檢測(cè)信息內(nèi)容的真實(shí)性,從而促進(jìn)在線社交媒體上謠言的快速有效識(shí)別。

        為了及時(shí)鑒別謠言,遏制其傳播,業(yè)界做了大量的努力與嘗試。早期基于淺度機(jī)器學(xué)習(xí)的謠言檢測(cè)采用特征手動(dòng)提取結(jié)合機(jī)器學(xué)習(xí)算法的方法,主要圍繞如何選擇和提取有效的特征來(lái)區(qū)分謠言和非謠言而展開[3],所提取的特征通常分為四種類型:基于內(nèi)容的特征,如句子長(zhǎng)度、情感詞數(shù)等[2];基于用戶的特征,如是否認(rèn)證、用戶類型等[16];基于主題的特征(即前兩個(gè)特征集的聚合),如集合中積極和消極情緒的比例等[5];基于傳播的特征,如傳播樹的深度、廣度等[8]。之后,一部分研究探索了上述特征隨時(shí)間變化的動(dòng)態(tài)特性[3,6],提出了基于時(shí)間序列的謠言檢測(cè)方法。然而,基于淺度機(jī)器學(xué)習(xí)的謠言檢測(cè)方法嚴(yán)重依賴于初期的人工特征工程,難以獲取高維、復(fù)雜的數(shù)據(jù)特征[11],模型性能提升受限。為了解決這個(gè)問(wèn)題,研究者們將深度學(xué)習(xí)引入謠言檢測(cè)領(lǐng)域。循環(huán)神經(jīng)網(wǎng)絡(luò)RNN 最先被用來(lái)學(xué)習(xí)文本的時(shí)間序列特征[4],但RNN 在訓(xùn)練過(guò)程中存在梯度消失的問(wèn)題,因而只能適應(yīng)短文本中上下文依賴關(guān)系的學(xué)習(xí)。于是研究者們提出了用長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM 和門限遞歸單元GRU[4,11]來(lái)解決梯度消失問(wèn)題,實(shí)現(xiàn)了文本長(zhǎng)距離依賴關(guān)系的捕捉。之后,在圖像領(lǐng)域表現(xiàn)較好的卷積神經(jīng)網(wǎng)絡(luò)CNN 又被引入用于提取謠言全局特征[10,12-13],實(shí)驗(yàn)證明該方法能有效地識(shí)別謠言且有助于實(shí)現(xiàn)謠言早期檢測(cè)。上述基于深度學(xué)習(xí)的謠言檢測(cè)方法傾向于使用神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)文本的上下文語(yǔ)義特征來(lái)判定待檢測(cè)信息的可信度。然而,根據(jù)Vosoughi等人[14]的研究,人們對(duì)于謠言事件和真實(shí)事件的情感反應(yīng)是不同的,謠言事件中群體反應(yīng)多為恐懼、厭惡和驚訝等消極情緒,而真實(shí)事件多引發(fā)期待、喜悅和信任等積極情緒。相對(duì)于語(yǔ)義特征,文本中所攜帶的情感特征是區(qū)分謠言和非謠言更有效的特征[15]。因此,如何充分提取文本中的情感特征以提高謠言檢測(cè)效率是本文研究的重點(diǎn)。除此之外,對(duì)于不同類型的信息,使用不同的特征進(jìn)行模型訓(xùn)練將得到不同的結(jié)果。如Ro?sas 等人[9]發(fā)現(xiàn)對(duì)于教育、政治等嚴(yán)肅話題,需要重點(diǎn)關(guān)注信息中的語(yǔ)言特征,而對(duì)于明星類話題,則應(yīng)該給予用戶情感觀點(diǎn)更多的關(guān)注。然而現(xiàn)有工作大多通過(guò)獲取一套通用的特征集合來(lái)表征所有的網(wǎng)絡(luò)數(shù)據(jù),對(duì)數(shù)據(jù)集中的微博信息類型缺少必要的分析,忽略了不同類型數(shù)據(jù)的個(gè)性化特征,導(dǎo)致難以挖掘隱藏在異質(zhì)數(shù)據(jù)中的高價(jià)值信息。因此,如何有效提取不同類型信息中的細(xì)粒度數(shù)據(jù)特征,也是本文研究的重點(diǎn)。

        針對(duì)上述問(wèn)題,本文選取新浪微博作為重點(diǎn)研究對(duì)象,將謠言檢測(cè)任務(wù)拆分為微博類型檢測(cè)、情感增強(qiáng)、謠言分類三個(gè)子任務(wù),充分考慮情感特征對(duì)于謠言檢測(cè)的重要性,區(qū)分待檢測(cè)信息的類型。本文的主要貢獻(xiàn)概括如下:

        (1)將情感融入預(yù)訓(xùn)練模型來(lái)幫助識(shí)別不實(shí)信息。該方法在文本向量化過(guò)程中側(cè)重于提取文本內(nèi)容中的情感極性特征,能有效增強(qiáng)文本建模中情感特征的表現(xiàn)能力。

        (2)針對(duì)不同類型的微博信息,基于情感文本編碼結(jié)果,分類別構(gòu)建分類器,挖掘更細(xì)粒度、更有效的特征來(lái)區(qū)分謠言和非謠言,進(jìn)一步提高整個(gè)模型的檢測(cè)準(zhǔn)確率。

        1 基于情感增強(qiáng)的謠言檢測(cè)模型

        本節(jié)主要介紹我們提出的基于情感增強(qiáng)的謠言檢測(cè)模型。如圖1所示,本文提出的基于情感增強(qiáng)的謠言檢測(cè)模型由三部分構(gòu)成:微博類型分類器、情感增強(qiáng)編碼器、謠言分類器。在檢測(cè)過(guò)程中,首先根據(jù)微博原帖文本對(duì)待檢測(cè)微博進(jìn)行類型分類,然后通過(guò)情感編碼器獲得微博文本(原帖、轉(zhuǎn)發(fā)、評(píng)論)的情感增強(qiáng)向量,最后輸入到對(duì)應(yīng)類型的謠言分類器中得到謠言與否的分類結(jié)果。

        圖1 基于情感增強(qiáng)的謠言檢測(cè)模型

        1.1 微博類型分類器

        考慮到多數(shù)微博原帖文本長(zhǎng)度短、包含信息少等特點(diǎn),本文選取Google 提出的預(yù)訓(xùn)練語(yǔ)言模型BERT對(duì)原帖文本進(jìn)行建模。因?yàn)锽ERT利用多層的Transformer 作為基本的編碼器,通過(guò)selfattention 機(jī)制在大量無(wú)監(jiān)督數(shù)據(jù)上進(jìn)行自監(jiān)督訓(xùn)練,其內(nèi)部已充分學(xué)習(xí)到常用語(yǔ)料的語(yǔ)法和句法知識(shí),具有強(qiáng)大的語(yǔ)義表征能力。文本的編碼過(guò)程如圖2 所示,其中e1,…,en為輸入向量,T1,…,Tn為輸出向量。

        圖2 BERT模型結(jié)構(gòu)

        具體地,對(duì)于給定的微博原帖文本序列:

        其中xi表示文本序列的第i個(gè)字符??紤]到微博類型分類器實(shí)現(xiàn)的是對(duì)單個(gè)微博原帖文本的分類,所以我們將句子分割向量EA置為0,并獲取每個(gè)字位置嵌入符xi Pi和詞嵌入Ei形成字符的表示,位置嵌入Pi的計(jì)算具體如下:

        其中i表示字符在句子中的位置,2j和2j+ 1 分別表示詞向量的偶數(shù)和奇數(shù)維度,d表示詞向量的維度。我們分別對(duì)每個(gè)字符的三個(gè)向量求和,作為最終的輸入向量。之后我們將輸入到堆疊的Transformer 編碼器和解碼器中,取最后的輸出成為最終的語(yǔ)義上下文編碼,最后連接Softmax層產(chǎn)生微博類型概率分布:

        其中,wc和bc表示參數(shù)向量和偏置,xe為微博原帖的向量表示。得到類型概率分布后,取概率值最大的為預(yù)測(cè)結(jié)果,后續(xù)依此結(jié)果將數(shù)據(jù)輸入到對(duì)應(yīng)的謠言分類器中。

        1.2 情感增強(qiáng)編碼器

        在情感編碼器構(gòu)建階段,我們對(duì)數(shù)據(jù)集中的文本進(jìn)行了情感標(biāo)注,然后選出相近數(shù)量的積極情感文本和消極情感文本,基于BERT 進(jìn)行情感分類,并固定模型參數(shù)形成情感編碼增強(qiáng)編碼器EBERT,它以情感學(xué)習(xí)為目標(biāo),所以對(duì)于文本情感特征的捕捉更加敏銳。情感分類模型的設(shè)計(jì)與微博類型分類器相同。在句向量表示階段,具體地,對(duì)于待檢測(cè)微博m中的所有文本:

        再輸入到多層帶有多頭注意力機(jī)制的Trans?former 中,將xei分別與矩陣WQ、WK、WV相乘,得到查詢矩陣Q、鍵矩陣K、值矩陣V,以此計(jì)算自注意力:

        其中dK為向量維度。接著計(jì)算多頭注意力結(jié)果:

        多頭注意力輸出結(jié)果經(jīng)殘差計(jì)算和標(biāo)準(zhǔn)化后,輸入全連接層。經(jīng)過(guò)n層編碼器訓(xùn)練后,我們提取倒數(shù)第二層Transformer 的輸出作為最終句向量的表示。整個(gè)句向量的表示過(guò)程可公式化為:

        最后,將微博中所有句向量縱向拼接形成待檢測(cè)微博m的整體表示:

        1.3 謠言分類器

        TextCNN[29]是Yoon Kim 提出的一種用于處理文本分類問(wèn)題的卷積神經(jīng)網(wǎng)絡(luò),與CNN 從上到下、從左到右滑動(dòng)進(jìn)行特征提取不同的是,TextCNN 僅存在豎直方向的滑動(dòng),其核心思想是捕捉文本局部特征。對(duì)于單條文本來(lái)說(shuō),局部特征是由若干詞組成的滑動(dòng)窗口,通過(guò)學(xué)習(xí)可以得到文本上下文聯(lián)系,而對(duì)于本文所要檢測(cè)的微博來(lái)說(shuō),局部特征是若干評(píng)論/轉(zhuǎn)發(fā)組成的滑動(dòng)窗口,通過(guò)學(xué)習(xí)可以得到微博中評(píng)論/轉(zhuǎn)發(fā)文本之間的聯(lián)系。綜上所述,在構(gòu)建本文的謠言分類器時(shí),TextCNN 是一個(gè)合適的選擇。該模塊的模型結(jié)構(gòu)如圖3所示。

        圖3 謠言分類模塊架構(gòu)

        2 實(shí)驗(yàn)與分析

        2.1 數(shù)據(jù)集

        在目前的謠言檢測(cè)研究中,很少有工作考慮到微博信息類型對(duì)謠言檢測(cè)的影響,現(xiàn)存公開數(shù)據(jù)集不能滿足本文實(shí)驗(yàn)的需求。因此,我們選擇在新浪微博平臺(tái)上構(gòu)建自己的數(shù)據(jù)集。新浪微博平臺(tái)將微博信息分為社會(huì)、科技、財(cái)經(jīng)、歷史等49 類,我們對(duì)新浪微博管理平臺(tái)上的謠言進(jìn)行了類別統(tǒng)計(jì),發(fā)現(xiàn)謠言多產(chǎn)生于社會(huì)、國(guó)際、明星、健康類。因此,我們僅收集這四類微博數(shù)據(jù)驗(yàn)證本文方法的有效性,微博類型分類模塊所使用的數(shù)據(jù)集如表1 所示。之后我們?cè)贛a①https://www.dropbox.com/s/7ewzdrbelpmrnxu/rumdetect2017.zip?dl=0和Liu②https://github.com/thunlp/Chinese_Rumor_Dataset/的新浪微博公開數(shù)據(jù)集上進(jìn)行了驗(yàn)證,數(shù)據(jù)集的具體情況如表2所示。

        表1 微博類型分類所使用數(shù)據(jù)集概述

        表2 數(shù)據(jù)集中謠言與非謠言分布情況

        2.2 實(shí)驗(yàn)設(shè)置

        本文使用準(zhǔn)確率、精確率、召回率和F1值作為評(píng)估指標(biāo)。在模型的實(shí)現(xiàn)上,微博類型分類器、情感增強(qiáng)編碼器及其他對(duì)比實(shí)驗(yàn)所使用的預(yù)訓(xùn)練模型均基于BERT 中文預(yù)訓(xùn)練模型BERTBase-Chinese,模型結(jié)構(gòu)為:12-layer, 768-hid?den, 12-heads, 110M parameter,超參數(shù)設(shè)置為:batch size 為24,學(xué)習(xí)率為3e-5、最大句子長(zhǎng)度128。謠言分類器使用TextCNN,其中卷積核高度為[2,3,4],卷積核數(shù)量為128,Dropout 為0.5,batch size 為20,學(xué)習(xí)率為1e-3,使用ReLU 作為激活函數(shù),使用交叉熵作為模型的損失函數(shù)。

        2.2.1 對(duì)比方法

        (1)無(wú)情感增強(qiáng)和分類。移除微博類型分類器,用BERT-Base-Chinese 代替EBERT 獲得文本編碼,再將所有類型數(shù)據(jù)不加區(qū)分地輸入到TextCNN謠言分類器中。

        (2)僅分類。在對(duì)文本進(jìn)行建模時(shí),用BERT-Base-Chinese 代替EBERT 獲得文本編碼,再輸入到對(duì)應(yīng)類型的TextCNN謠言分類器中。

        (3)僅情感增強(qiáng)。移除微博類型分類器,使用EBERT 獲得情感增強(qiáng)文本編碼,再將所有類型數(shù)據(jù)不加區(qū)分地輸入到TextCNN謠言分類器中。

        (4)本文方法。使用微博類型分類器對(duì)微博進(jìn)行分類,使用EBERT 獲得情感增強(qiáng)文本編碼,再輸入到對(duì)應(yīng)類型的TextCNN謠言分類器中。

        2.2.2 實(shí)驗(yàn)結(jié)果及分析

        表3、表4列出了實(shí)驗(yàn)結(jié)果,觀察分析后可得出如下結(jié)論:

        表3 rumdect數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

        表4 CED_Dataset數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

        (1)在我們的實(shí)驗(yàn)中,分類或情感增強(qiáng)任一模塊的加入都使得模型四個(gè)指標(biāo)有不同程度的提高,證明各類別信息特征的細(xì)粒度提取和情感特征充分提取能有效提升模型的性能。

        (2)同時(shí)引入分類和情感增強(qiáng)模塊的模型在兩個(gè)數(shù)據(jù)集上均達(dá)到最高性能,召回率均提升5%以上,說(shuō)明所提出模型能有效識(shí)別虛假信息,減少謠言漏報(bào)率。

        3 結(jié)語(yǔ)

        針對(duì)現(xiàn)有方法忽略謠言文本情感特征和特征提取粗粒度的問(wèn)題,本文提出了基于情感增強(qiáng)的謠言檢測(cè)方法。借助預(yù)訓(xùn)練模型強(qiáng)大的文本語(yǔ)義表征能力,以情感檢測(cè)為導(dǎo)向構(gòu)建情感增強(qiáng)編碼器,充分提取文本中的語(yǔ)義和情感信息。并分類別構(gòu)建謠言分類器,更深層次捕捉各類別信息的細(xì)粒度特征,實(shí)現(xiàn)全方位多層次的數(shù)據(jù)特征提取。在公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,引入情感增強(qiáng)和微博類型分類后的謠言檢測(cè)模型性能大幅提升,充分證明了本文方法的有效性。

        猜你喜歡
        謠言編碼器分類器
        中國(guó)使館駁斥荒謬謠言
        當(dāng)謠言不攻自破之時(shí)
        基于FPGA的同步機(jī)軸角編碼器
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
        謠言
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        謠言大揭秘
        JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
        電子器件(2015年5期)2015-12-29 08:42:24
        91精品福利观看| 国产精品日日做人人爱| 亚洲精品www久久久久久| 中文字幕一区二区中文| 久久久久亚洲精品无码网址蜜桃 | 国产嫩草av一区二区三区| 国产乱子伦农村xxxx| 国产欧美乱夫不卡无乱码| 日本国主产一区二区三区在线观看| 精品国产一区二区三区av麻| 中文字幕一区日韩精品| 日韩AV不卡六区七区| 激情五月天俺也去综合网| 亚洲高清一区二区三区在线播放| 国产精品久久久国产盗摄| 亚洲激情成人| 少妇高潮太爽了免费网站| 国产一区二区三区三区四区精品 | 亚洲av熟妇高潮30p| 国产日韩一区二区精品| 日本一区二区视频在线| 精品人妻中文无码av在线| 精品国产18禁久久久久久久| 日韩视频午夜在线观看| 欧美顶级少妇作爱| 99re热这里只有精品最新| 国产精品美女久久久浪潮av| 国产亚洲91精品色在线| 精品人妻伦九区久久aaa片| 综合网五月| 亚洲av高清一区三区三区| 艳妇臀荡乳欲伦交换h在线观看| 97影院在线午夜| 亚洲女同系列高清在线观看| 日本熟女精品一区二区三区| 曰韩人妻无码一区二区三区综合部| 久久国产热精品波多野结衣av| 麻豆三级视频网站在线观看| 午夜免费电影| 精品久久久久久久久午夜福利| 精品女同一区二区三区不卡|