亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

傳播用戶代表性特征學習的謠言檢測方法

2022-06-17 07:10:44謝欣彤胡悅陽劉譞哲趙耀帥姜海鷗

計算機與生活 2022年6期

關鍵詞：謠言消息特征

謝欣彤，胡悅陽，劉譞哲，趙耀帥，姜海鷗

1.北京大學信息科學技術學院，北京 100871

2.高可信軟件技術教育部重點實驗室（北京大學），北京 100871

3.中國民航信息網(wǎng)絡股份有限公司，北京 101318

4.中國民用航空局民航旅客服務智能化應用技術重點實驗室，北京 101318

5.北京大學軟件與微電子學院，北京 102600

6.北京大學（天津濱海）新一代信息技術研究院，天津 300452

近年來，互聯(lián)網(wǎng)技術改變了千家萬戶的生活習慣，成為了人們獲取信息、互動交流的重要渠道。在中國互聯(lián)網(wǎng)信息中心2020 年4 月發(fā)布的第45 次中國互聯(lián)網(wǎng)發(fā)展統(tǒng)計報告（http://www.cac.gov.cn/2020-04/27/c_1589535470378587.htm）中稱，截至2020 年3 月，我國網(wǎng)民數(shù)量已超9.04億，互聯(lián)網(wǎng)普及率達到64.5%。

然而，互聯(lián)網(wǎng)在帶來便利的同時，也為謠言的傳播提供了環(huán)境。謠言是在社會中出現(xiàn)并流傳的未經(jīng)官方公開證實或已經(jīng)被官方辟謠的信息，其特點是所根據(jù)的事實較少，主觀的補充與改造較多。尤其在疫情期間，大量制造恐慌、捕風捉影、偽科學消息在網(wǎng)絡上涌現(xiàn)。中國互聯(lián)網(wǎng)聯(lián)合辟謠平臺數(shù)據(jù)統(tǒng)計顯示，2020 年4 月“糧食短缺，趕緊囤米搶油”相關信息達437 186 條，“新冠抗體可使人免受‘二次感染’”相關信息達205 187 條，這樣廣泛散布的謠言消息無疑將在一定程度上影響社會秩序。

互聯(lián)網(wǎng)已經(jīng)成為了思想文化信息的集散地和社會輿論的放大器，網(wǎng)絡空間中傳播的信息有著日益強大的社會影響力。如何有效地對網(wǎng)絡空間進行公共輿情管理，是對現(xiàn)代化政府治理能力提出的考驗。中共中央、國務院印發(fā)的《新時代公民道德建設實施綱要》中也提到，為適應新時代新要求，抓好網(wǎng)絡空間道德建設十分關鍵。

信息技術是一把雙刃劍，其發(fā)展同樣推動了互聯(lián)網(wǎng)與政府公共服務體系，特別是政務服務的深度融合，也加快了互聯(lián)網(wǎng)+政務服務模式創(chuàng)新進程。網(wǎng)絡空間中的公共輿情治理，是互聯(lián)網(wǎng)+政務服務中重要的一環(huán)，而及時有效地開展網(wǎng)絡平臺辟謠工作，更是公共輿情治理尤為關鍵的一步。

現(xiàn)有的網(wǎng)絡平臺辟謠工作大多依賴于人工舉報篩查機制。新浪公司成立了“微博辟謠”賬號及社區(qū)管理中心，開放用戶對存疑消息的舉報渠道，跟進有關部門的查證工作并進行結(jié)果發(fā)布。而為了提高平臺內(nèi)容可靠性，過濾編造、假新聞等低質(zhì)內(nèi)容，今日頭條公司在2018 年已有4 000 名內(nèi)容審核編輯，人員規(guī)模仍在進一步擴大，未來預期達到10 000 名。但是僅僅依靠人工進行舉報、篩查，不僅耗費大量時間和精力，辟謠的時效性也有很高的局限性，因為往往在謠言的傳播具有一定規(guī)模時，對社會公共秩序產(chǎn)生較大影響時才能引起有關部門工作人員的注意。

基于這樣的背景，為了幫助推進互聯(lián)網(wǎng)+政務服務公共輿情治理工作，本文提出以高時效性謠言自動檢測過濾代替?zhèn)鹘y(tǒng)的人工舉報篩查機制，輔助辟謠工作人員捕捉網(wǎng)絡平臺上發(fā)布的海量消息中疑似的謠言，進而推動互聯(lián)網(wǎng)治理進一步精準化和精細化。本文的主要工作是收集最新的數(shù)據(jù)集并進行真實性標注，對其中用戶特征分布進行統(tǒng)計分析進行特征選取并提出了基于傳播用戶代表性特征的早期謠言檢測方法RPPC，再通過實驗驗證該方法的有效性。實驗結(jié)果表明，RPPC 能夠在消息傳播初期過濾疑似謠言，在一定程度上輔助政府部門的輿情治理工作，從而提高政務服務的時效及質(zhì)量。

1 相關工作

謠言檢測算法方面的研究大多圍繞著提取謠言的消息內(nèi)容及傳播中的趨勢特點來展開?？梢愿鶕?jù)處理方式分為基于分類的機器學習方法和基于對比的方法。

基于對比的檢測方法將待檢測的消息與真實性可察的消息對象進行比照。此類方法雖能有效地提高檢測時效性，但準確率普遍較低，因此本章主要介紹基于分類的檢測方法及相關工作。

基于分類的方法，大多借助各類機器學習算法，利用帶標簽的數(shù)據(jù)訓練分類器，從而得到檢測模型。然而，輸入特征在很大程度上影響著分類器的準確度。謠言檢測領域的開創(chuàng)性研究團隊Castillo 等人提出包括消息、用戶、話題和傳播等方面的一系列特征。在此基礎上，后續(xù)工作大多通過對特征的取舍及創(chuàng)新來提高分類器的表現(xiàn)。下面對基于常見類型特征的相關工作進行介紹。

文本特征主要分為顯性特征和隱性特征。其中，顯性特征分析從語法角度出發(fā)，主要包括詞語、符號和簡單情感特征等。謠言檢測相關的早期研究大多借助于對顯性特征進行機器學習分類。文獻[3]提取的文本特征包括內(nèi)容長度、字母數(shù)量、符號數(shù)；Takahashi 等人提出將真實消息和謠言信息中的詞頻分布作為檢測謠言的文本特征；Ratkiewicz等人提取文本中的標簽、鏈接和提問作為特征。但研究發(fā)現(xiàn)獨特的顯性文本特征常局限于特定的話題，分類模型不具有普適性?；谡Z義的隱性特征包括潛在語義、情感（詞向量、分類器等）和消息間關聯(lián)特征（語義相似性計算）等。這類方法在預測的準確率方面優(yōu)于基于語法的顯性特征提取類方法，但總體而言，基于文本特征的方法常借助于大量對于消息評論文本、轉(zhuǎn)發(fā)文本的挖掘，因此由于謠言擴散早期文本信息不足，常用于追溯性謠言檢測，即時性檢測表現(xiàn)不佳。

多媒體信息特征包括圖片、音視頻等內(nèi)容，具有較強的吸引力和誤導性（Sun 等人的研究結(jié)果表明80%的謠言都含有圖片信息）。文獻[13]提出了從基于圖片本身的視覺特征（像素、清晰度、相關性、區(qū)分度）和基于事件的統(tǒng)計特征（圖片數(shù)、含圖片消息比率、圖像與消息數(shù)量比例）兩個角度識別圖片類虛假消息，且在各類分類器上實驗表明，圖片類特征的檢測效果優(yōu)于常見的其他特征。然而，當前基于多媒體特征檢測謠言大多需要在模型中引入文本特征及其他外部知識來印證內(nèi)容，模型輸入及結(jié)構較復雜，也未考慮到多媒體信息中包含的元數(shù)據(jù)（文件名、創(chuàng)建時間及地點等），同時很少運用基于相關的多媒體處理技術識別深層的語義特征。

基于用戶行為特征的方法主要對信息的發(fā)布者、傳遞者和接受者及其交互行為進行分析。此類方法大多通過搜集發(fā)布用戶的動態(tài)數(shù)、轉(zhuǎn)發(fā)數(shù)、關注數(shù)、粉絲數(shù)及異常行為模式等特征作為判別依據(jù)。Wu 等人對消息的傳播模式進行分析，指出謠言的傳播模式與其他消息存在明顯差異。文獻[17]使用了聚類的方法對用戶的轉(zhuǎn)發(fā)及評論行為進行分析。文獻[18]創(chuàng)新性地引入五個特征（日均關注數(shù)、日均動態(tài)數(shù)、發(fā)布相似內(nèi)容的用戶數(shù)、質(zhì)疑性質(zhì)評論比、糾正性質(zhì)評論比），實驗結(jié)果表明選取的新特征效果顯著。Li等人引入了用戶的可靠性特征，同時也結(jié)合了大量文本信息數(shù)據(jù)作為輸入。Liu 等人將消息傳播中的轉(zhuǎn)發(fā)用戶特征作為輸入，在中文及英文的社交媒體平臺數(shù)據(jù)集的早期謠言檢測中均取得了較好的檢測效果。

受其啟發(fā)，本文試圖探究基于用戶行為特征的謠言檢測方法的可移植性。例如一些綜合資訊類應用，雖然沒有集成度高的轉(zhuǎn)發(fā)功能，評論區(qū)信息卻很豐富；與此同時，此類應用的用戶信息完善度不及傳統(tǒng)社交媒體。因此，本文考慮從更改采集的數(shù)據(jù)源、精簡輸入特征兩方面入手，初步探究基于用戶行為特征的檢測方法是否具有移植可能。

2 基于傳播用戶代表性特征的謠言檢測方法

本文設計了一種基于傳播用戶代表性特征的謠言檢測方法（representative propagation path classification，RPPC），通過提取發(fā)布及評論用戶具有代表性的特征向量作為輸入，對消息的真實性進行分類。

2.1 問題定義

而每個消息a都對應著標簽(a)∈{0,1}，用于表示該消息的真實性，目標是得到模型，當給定消息a的傳播路徑(a)時，能預測得到消息的真實性，即(a)=((a))。本文目標是檢測消息為謠言與否，當=1 時，(a)=0 表示消息屬實，而(a)=1 表示其為謠言。當＞1 時，標簽可以表示多級別的真實性，如真實、虛假、不明等。

2.2 數(shù)據(jù)集構造

本文所構造的數(shù)據(jù)集Weibo2020 如表1 所示，由兩部分組成：謠言消息及真實消息。其中謠言消息來自微博社區(qū)管理中心2016 年8 月2 日至2020 年3月23 日所判定的不實信息，以及中國互聯(lián)網(wǎng)聯(lián)合辟謠平臺、騰訊新聞較真平臺中公布的謠言反向搜索得到的謠言微博。真實消息采集自3 月20 日微博熱門內(nèi)容中的社會、國際、科技、健康等板塊爬取實時發(fā)布的微博。篩去已刪除的微博及互動數(shù)為0 的條目，共收集謠言消息3 688 條，真實信息3 460 條。

表1 數(shù)據(jù)集Weibo2020 統(tǒng)計情況Table 1 Statistics of dataset Weibo2020

本文方法主要關注的是參與消息傳播的用戶特征，數(shù)據(jù)集包含的主要用戶字段如表2 所示。

表2 數(shù)據(jù)集Weibo2020 包含的用戶特征Table 2 User characteristics in dataset Weibo2020

該數(shù)據(jù)集的標簽為“真”或“假”，微博社區(qū)管理中心等判定的謠言信息標定為“假”，采集的實時微博為“真”。

2.3 消息傳播用戶特征分析

在問題定義中，本文用參與傳播的發(fā)布及評論用戶的特征作為傳播路徑的向量表示，關注用戶特征的選取。本文將消息的發(fā)布及評論行為作為傳播路徑，對Weibo2020 進行統(tǒng)計分析，結(jié)果顯示在消息的發(fā)布用戶和評論群體中，用戶的注冊時間、認證情況、粉絲數(shù)、動態(tài)數(shù)四個特征分布有明顯差異。

圖1、圖2 為用戶注冊時間分布情況，其中橫坐標為用戶注冊時間戳，縱坐標為用戶比例?？梢钥闯觯l(fā)布用戶中，普通用戶的注冊高峰出現(xiàn)較早，謠言用戶群體的注冊時間則比較平均。而在評論用戶中，普通評論用戶的注冊時間則普遍偏早于評論謠言用戶。

圖1 發(fā)布用戶注冊時間戳Fig.1 Publishers'registration timestamp

圖2 評論用戶注冊時間戳Fig.2 Commentators'registration timestamp

圖3 為用戶群體認證情況統(tǒng)計。在評論用戶群體中，用戶的認證情況分布較為相近。但在發(fā)布用戶群體的認證情況分布上，兩個群體比例存在顯著差異，一個可能的原因是認證用戶所發(fā)布的內(nèi)容更容易出現(xiàn)在熱門板塊，但是發(fā)布用戶的認證與否仍然極可能有助于謠言的檢測。

圖3 用戶認證情況Fig.3 Verification of users

圖4 用戶粉絲數(shù)Fig.4 User follower count

圖4 為發(fā)布用戶及評論用戶粉絲數(shù)分布箱線圖，可以看出普通發(fā)布用戶的粉絲數(shù)明顯高于謠言發(fā)布用戶。

圖5 為用戶動態(tài)數(shù)分布情況。在發(fā)布群體中，普通發(fā)布用戶相較于發(fā)布謠言用戶有更多的發(fā)表動態(tài)表現(xiàn)，因此傳播路徑中用戶的動態(tài)發(fā)布數(shù)也很可能成為判斷消息真實性的重要特征。

圖5 用戶動態(tài)數(shù)Fig.5 User status count

2.4 基于傳播用戶代表性特征學習的謠言檢測算法

本文算法RPPC 模型結(jié)構如圖6 所示，主要由四部分構成：傳播路徑構造與轉(zhuǎn)換模塊、基于門控循環(huán)單元的特征提取模塊、基于卷積神經(jīng)網(wǎng)絡的特征提取模塊和傳播路徑向量分類模塊。

其中傳播路徑構造與轉(zhuǎn)換模塊將消息的傳播過程處理為固定的輸入模式，基于門控循環(huán)單元、卷積神經(jīng)網(wǎng)絡的模塊對其進行學習，拼接后得到傳播路徑向量，最終交由傳播路徑向量分類模塊給出消息真實性預測結(jié)果。

圖6 算法RPPC 框架示意圖Fig.6 Workflow for RPPC

通過門控循環(huán)單元及卷積神經(jīng)網(wǎng)絡模塊獲得s、s后，將其拼接起來成為一個向量∈R：

再將其輸入多層前饋神經(jīng)網(wǎng)絡獲得對于消息的預測。

RPPC 使用Softmax 函數(shù)作為神經(jīng)網(wǎng)絡的最后一層，并選取概率最大的作為預測目標值。

其中，為隱藏層的數(shù)量，l為第個隱藏層的輸出，W、b為第層的權重矩陣及偏差，為最終的輸出，代表對于該消息傳播路徑的可信度預測值。

3 實驗及結(jié)果分析

本章對RPPC 算法進行實驗驗證。將RPPC 算法和現(xiàn)有工作中在早期謠言檢測表現(xiàn)突出的謠言檢測算法PPC（propagation path classification）進行比較，并對特征及傳播路徑長度選取對算法表現(xiàn)的影響進行實驗。

3.1 實驗參數(shù)選取

在模型結(jié)構設計部分，與PPC一致，選取了GRU 輸出維度及CNN 濾波器數(shù)量均為32，因此經(jīng)過循環(huán)神經(jīng)網(wǎng)絡及卷積循環(huán)網(wǎng)絡處理后得到的向量表示長度均為32，其中CNN 濾波器長度為3。傳播路徑分類部分的多層前饋神經(jīng)網(wǎng)絡中每層神經(jīng)元數(shù)為20，進行實驗后設定層數(shù)為4。

本文選擇的批量（batchsize）大小為32，優(yōu)化算法為Adam，學習率為1E-4，momentum 為0，多層前饋神經(jīng)網(wǎng)絡激活函數(shù)為ReLU。

為了更好地評估模型表現(xiàn)，本文進行了五折交叉驗證。

3.2 實驗結(jié)果與分析

將傳播路徑定義為在同條微博下的評論用戶特征向量序列。Weibo2020 中，單條微博下的評論數(shù)量分布如圖7 所示。僅有不到25%的微博評論不足10條，即超過75%的微博的評論數(shù)超過10。為了保證實驗結(jié)果對絕大多數(shù)微博有效，對傳播路徑長度為10 的情況進行實驗。

圖7 數(shù)據(jù)集評論數(shù)分布Fig.7 Distribution of dataset comment count

本實驗與PPC 一致，將PPC_RNN+CNN 模型作為基線，本文提出的將注冊時間、認證情況、粉絲數(shù)、動態(tài)數(shù)四個特征作為輸入的模型記為“RPPC_RNN+CNN”。本文同時也實現(xiàn)了模型的兩個輕量級版本，只使用單一的循環(huán)神經(jīng)網(wǎng)絡或者卷積神經(jīng)網(wǎng)絡，分別記為“RPPC_RNN”及“RPPC_CNN”。為了驗證模型特征選取是否合理，也在原有四個特征基礎上依次添加了個人簡介長度、用戶名長度、關注用戶數(shù)的模型進行實現(xiàn)，記為“RPPC_RNN+CNN_5”“RPPC_RNN+CNN_6”及“RPPC_RNN+CNN_7”，實驗結(jié)果如表3。

表3 實驗結(jié)果對比Table 3 Comparison of experimental results %

結(jié)果顯示，本文提出的模型“RPPC_RNN+CNN”在準確率等指標上超過了基于轉(zhuǎn)發(fā)路徑并使用了8個用戶特征的基線模型“PPC_RNN+CNN”，即在提高了遷移至其他應用平臺可能性的同時兼顧了檢測效果。同時，模型的表現(xiàn)也明顯優(yōu)于基于單一神經(jīng)網(wǎng)絡的“RPPC_CNN”及“RPPC_RNN”，說明將兩類神經(jīng)網(wǎng)絡集成于模型中在當前問題中是具有意義的。此外，與“RPPC_RNN+RNN_X”系列模型的對比結(jié)果顯示，增加模型使用的特征對模型表現(xiàn)幾乎沒有影響。因此本文認為提出的模型“RPPC_RNN+CNN”結(jié)構設計合理、特征選取得當，在檢測效果上具有很好的表現(xiàn)。

3.3 傳播路徑長度對模型的影響

RPPC 對消息的分類基于傳播路徑，而路徑長度越長，輸入數(shù)據(jù)所包含的信息量越大，模型的表現(xiàn)則可能會得到提升。因此本文也對選取不同長度的傳播路徑對模型表現(xiàn)的影響進行探究，并對實際應用中的模型選取進行討論。

基于圖8 對于Weibo2020 中微博評論數(shù)量隨時間增長的情況統(tǒng)計，發(fā)現(xiàn)在檢測時間1 h 內(nèi)，平均一條微博會收到60 條評論，因此本文對傳播路徑長度在10～60 之間的模型表現(xiàn)進行實驗。

圖8 微博評論數(shù)隨時間增長情況Fig.8 Weibo comment increasement with time

選用不同長度傳播路徑的模型運行結(jié)果如圖9所示。

實驗結(jié)果顯示，總體而言傳播路徑長度對RPPC表現(xiàn)的影響并不大，因此本文認為選用輸入傳播路徑長度為10的模型，便可以對5 min內(nèi)發(fā)布消息的真實性進行預測，具有很好的時效性，符合本文場景的需要。

4 總結(jié)與展望

本文針對目前辟謠工作中大量依靠人工舉報篩查、工作量大而時效性不高的情況，提出以高時效性謠言自動檢測分析代替?zhèn)鹘y(tǒng)的人工舉報篩查機制，推進互聯(lián)網(wǎng)+政務服務，幫助提升政府的公共輿情治理能力。具體工作如下：

收集最新的數(shù)據(jù)集Weibo2020 并進行真實性標注，通過對其中用戶群體的特征分布進行特征選取，在此基礎上設計并實現(xiàn)了基于傳播用戶代表性特征的謠言檢測算法RPPC，其具有遷移至社交媒體類之外應用平臺可能性，并通過實驗測試該方法的有效性。實驗結(jié)果表明，RPPC 與同規(guī)模的基于傳播路徑的算法，在輸入數(shù)據(jù)規(guī)模減少了50%的同時，提高準確率2.57 個百分點，能對5 min 內(nèi)發(fā)布的消息進行真實性預測，且準確率達到約80%。

圖9 傳播路徑長度對模型表現(xiàn)的影響Fig.9 Influence of propagation length on model performance

同時，也必須指出本文工作使用數(shù)據(jù)集的局限性。首先，由于采集的數(shù)據(jù)集規(guī)模有限，受當前較為特殊的時間環(huán)境背景影響較大，在與Liu 等人工作的比較中很可能存在偏差，算法的性能表現(xiàn)還需要在未來工作中構造規(guī)模更大、覆蓋面更全的數(shù)據(jù)集，進而進行更全面的測試、調(diào)整。此外，由于在實際運用場景中，謠言與真實消息的存在比例遠小于數(shù)據(jù)集中所選取的1∶1，在進行實時過濾時可能會出現(xiàn)將較多普通消息判斷為謠言的情況，目前本文模型RPPC的檢測結(jié)果僅作為對消息真實性的初步判斷。

在未來的工作中，為了能夠幫助提供更好的服務質(zhì)量，可以考慮從擴大數(shù)據(jù)集規(guī)模、調(diào)整數(shù)據(jù)集構造比例等方面進一步對算法性能進行測試；同時，為了提高服務覆蓋面及服務質(zhì)量，應構造綜合資訊類應用平臺數(shù)據(jù)集，實地驗證該方法的可遷移性，并考慮使用多種檢測方法相結(jié)合的方式，對處于各個傳播階段、包含信息量不同的消息提供更有針對性、準確率更高的檢測。