李元,張棲,朱建明,焦建彬?
(1 中國科學(xué)院大學(xué)電子電氣與通信工程學(xué)院, 北京 100049; 2 中國科學(xué)院大學(xué)應(yīng)急管理科學(xué)與工程學(xué)院, 北京 100049) (2022年3月18日收稿; 2022年6月6日收修改稿)
數(shù)字時(shí)代的到來使世界各地人們的聯(lián)系變得更加緊密和容易。在眾多的協(xié)作、分享和交流渠道中,社交網(wǎng)絡(luò)已成為人們生活中離不開的一種重要社交工具。公眾能用社交平臺(tái)關(guān)注當(dāng)下熱點(diǎn)事件、表達(dá)對(duì)熱門話題的觀點(diǎn)并分享自己的興趣和生活,這種信息快速共享和轉(zhuǎn)發(fā)的方式大大加快了信息融合的速度和規(guī)模。但是,信息的傳播并不總是可靠的。為了賺取流量或其他某種目的,不斷有人在社交平臺(tái)中散布大量謠言。謠言是一種未經(jīng)證實(shí)的信息,可能會(huì)帶來傷害或威脅[1]。大量事實(shí)證明社交網(wǎng)絡(luò)已成為謠言滋長的溫床[2]。不僅如此,Vosoughi等[3]研究表明,利用謠言的吸引力和在線社交網(wǎng)絡(luò)的廣泛影響力,謠言比事實(shí)信息傳播得更快、更廣。這勢必會(huì)給社會(huì)帶來恐慌和直接或間接的經(jīng)濟(jì)損失。因此,在謠言擴(kuò)散前,識(shí)別是否存在核心謠言傳播節(jié)點(diǎn)以及誰是核心謠言傳播節(jié)點(diǎn),對(duì)于預(yù)防和控制謠言傳播具有重要的理論和現(xiàn)實(shí)意義。
謠言控制已成為社交網(wǎng)絡(luò)研究領(lǐng)域的一個(gè)重要分支。過去的研究多數(shù)是基于影響最大化的思想,從阻塞點(diǎn)[4-6]、阻塞邊[7-8]以及尋找關(guān)鍵節(jié)點(diǎn)傳播正面信息[9-11]這3個(gè)方面進(jìn)行謠言事后控制。無論是哪種控制策略,其核心目的是通過某種算法尋找或識(shí)別關(guān)鍵的、有影響力的節(jié)點(diǎn)或邊。其中貪婪算法是一種重要的方法,其核心思想是計(jì)算每個(gè)節(jié)點(diǎn)的影響力,并依次選擇邊際影響力最大的,直到選出K個(gè)最有影響力的節(jié)點(diǎn)[12-15];雖然貪婪算法有效性較高,但特別耗時(shí)。因此具有較低時(shí)間復(fù)雜度的啟發(fā)式算法得到了學(xué)者的廣泛研究[16-18]。此外,也有學(xué)者通過分析用戶檔案信息[19]、觀察用戶在特定時(shí)間窗口的活動(dòng)模式[20]等方法識(shí)別網(wǎng)絡(luò)中的惡意用戶;還有不少學(xué)者從圖論結(jié)構(gòu)中心性的角度[21-23]描述了節(jié)點(diǎn)的重要性;隨著人工智能的發(fā)展,有的學(xué)者利用特征工程[24]的方法在特定場景中尋找重要節(jié)點(diǎn)[25-27];此外,逐漸有學(xué)者開始嘗試深度學(xué)習(xí)方法,例如圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)[28],可將關(guān)鍵節(jié)點(diǎn)識(shí)別問題轉(zhuǎn)換為分類、聚類或預(yù)測問題[29-32]。
相比事后控制,對(duì)謠言的事先控制,能在盡可能早的時(shí)間實(shí)現(xiàn)從源頭上進(jìn)行謠言阻斷,指數(shù)級(jí)地縮小全網(wǎng)監(jiān)控范圍,從而降低系統(tǒng)運(yùn)行和維護(hù)成本,進(jìn)一步推進(jìn)實(shí)現(xiàn)人防和機(jī)防的聯(lián)合響應(yīng),更好地阻止謠言傳播。而實(shí)現(xiàn)事先控制的關(guān)鍵是識(shí)別核心謠言傳播節(jié)點(diǎn)。因?yàn)楹诵闹{言傳播節(jié)點(diǎn)可能是謠言傳播的潛在來源或引爆節(jié)點(diǎn)。這里,我們將謠言傳播節(jié)點(diǎn)定義為那些可能參與傳播謠言的用戶。“核心”是指一種影響力,“核心謠言傳播節(jié)點(diǎn)”是指傳播謠言的用戶中影響力較大的用戶。實(shí)驗(yàn)中將謠言傳播節(jié)點(diǎn)影響力前10%的用戶視為核心謠言傳播節(jié)點(diǎn)。在社交平臺(tái)中,識(shí)別核心謠言傳播節(jié)點(diǎn)具有4大難點(diǎn):一是傳播謠言的用戶與眾多沒有參與傳播謠言的用戶建立了許多緊密的聯(lián)系,這種聯(lián)系加強(qiáng)了謠言傳播者的網(wǎng)絡(luò)融合性與隱蔽性;二是謠言話題具有復(fù)雜性和高維性;三是由于謠言事件發(fā)生的時(shí)間較短、隨機(jī)性大、刪除率高,因此無法有效地進(jìn)行重要數(shù)據(jù)提取,導(dǎo)致現(xiàn)有公開數(shù)據(jù)集普遍面臨數(shù)據(jù)樣本稀疏、正負(fù)樣本分布不均衡的問題;四是識(shí)別核心謠言傳播節(jié)點(diǎn)這一問題目前還沒有得到足夠的重視,這主要是因?yàn)槿狈﹃P(guān)于謠言傳播節(jié)點(diǎn)的標(biāo)注數(shù)據(jù)集。
基于此,提出一種多特征多層圖卷積網(wǎng)絡(luò)(MSF-GCN)模型的核心謠言傳播節(jié)點(diǎn)識(shí)別方法。模型主要基于GCN,將特征工程和網(wǎng)絡(luò)工程的方法結(jié)合起來,將節(jié)點(diǎn)靜態(tài)屬性和動(dòng)態(tài)屬性、謠言傳播的時(shí)序信息、節(jié)點(diǎn)的關(guān)系網(wǎng)絡(luò)整合起來一并納入神經(jīng)網(wǎng)絡(luò)中進(jìn)行學(xué)習(xí)。為解決謠言數(shù)據(jù)樣本分布不均,樣本數(shù)量缺乏這一問題,在進(jìn)行量化計(jì)算時(shí),設(shè)計(jì)了兩階段學(xué)習(xí)框架:第1階段是GCN的預(yù)訓(xùn)練模型,它能針對(duì)特定下游任務(wù),實(shí)現(xiàn)對(duì)整個(gè)場景的大概認(rèn)知和知識(shí)提取;第2階段是特征增強(qiáng)的GCN學(xué)習(xí)模型,它通過高斯采樣技術(shù),很好地?cái)U(kuò)展了樣本集的特征,提升了小樣本空間的致密性,促使神經(jīng)網(wǎng)絡(luò)的多層局部響應(yīng)機(jī)制更好地發(fā)揮出來。通過與支持向量機(jī)(support vector machine,SVM)、K近鄰(K-nearest neighbor,KNN)和邏輯回歸(logistic regression,LR)3種基線方法的對(duì)比可知,MSF-GCN學(xué)習(xí)框架在基本沒有增加計(jì)算量的情況下,不僅提高了識(shí)別類,而且實(shí)現(xiàn)了學(xué)習(xí)精度的顯著提升。
綜上所述,這項(xiàng)研究的創(chuàng)新性有以下3點(diǎn):
1)通過對(duì)社交網(wǎng)絡(luò)中用戶動(dòng)態(tài)和靜態(tài)特征進(jìn)行挖掘和提取,利用多層神經(jīng)網(wǎng)的局部響應(yīng)機(jī)制,有效地識(shí)別出核心謠言節(jié)點(diǎn),從而實(shí)現(xiàn)謠言的事先控制。
2)提出一個(gè)多維特征下圖卷積網(wǎng)絡(luò)的雙層學(xué)習(xí)框架,它將用戶特征表示與網(wǎng)絡(luò)結(jié)構(gòu)特征相結(jié)合,既能處理節(jié)點(diǎn)靜態(tài)/動(dòng)態(tài)屬性特征、語義特征和時(shí)序特征,又能處理節(jié)點(diǎn)的網(wǎng)絡(luò)結(jié)構(gòu)特征。
3)在MSF-GCN模型的雙層學(xué)習(xí)結(jié)構(gòu)中,通過預(yù)訓(xùn)練學(xué)習(xí),對(duì)基本數(shù)據(jù)集進(jìn)行特征提取。然后利用特征增強(qiáng)技術(shù),對(duì)特征空間進(jìn)行高斯采樣,顯著增加了特征樣本數(shù)。這不僅解決了小樣本分布不均、樣本數(shù)量缺乏的問題,而且使過擬合問題得到了緩解。
首先對(duì)實(shí)驗(yàn)選用的數(shù)據(jù)集進(jìn)行簡要說明,接著詳細(xì)解釋如何將原始微博數(shù)據(jù)集轉(zhuǎn)化為識(shí)別核心謠言傳播節(jié)點(diǎn)的實(shí)驗(yàn)數(shù)據(jù)集。然后給出核心謠言傳播節(jié)點(diǎn)的定義,并從實(shí)驗(yàn)數(shù)據(jù)集中提取3種不同類型的特征集,作為所提模型算法的原始輸入。最后介紹所提MSF-GCN學(xué)習(xí)模型的關(guān)鍵技術(shù)。
實(shí)驗(yàn)所用的數(shù)據(jù)集來源于清華大學(xué)Aminer團(tuán)隊(duì)編寫的新浪微博公開數(shù)據(jù)集[33]。這個(gè)公開數(shù)據(jù)集是隨機(jī)選擇100個(gè)用戶作為種子用戶,然后依次收集他們的關(guān)注者及關(guān)注者的關(guān)注者??偣彩占?70萬用戶和他們之間的40億個(gè)關(guān)注關(guān)系,平均每個(gè)用戶有200個(gè)關(guān)注者。對(duì)于每個(gè)用戶,同時(shí)收集他們的相關(guān)人物屬性及最近1 000條微博(發(fā)布+轉(zhuǎn)發(fā))。
為將原始數(shù)據(jù)轉(zhuǎn)化為所需的謠言數(shù)據(jù),實(shí)驗(yàn)采用關(guān)鍵字篩選的方式,選出2類不同的謠言微博(原微博+轉(zhuǎn)發(fā)微博)作為實(shí)驗(yàn)數(shù)據(jù)集。它們分別是“溫州動(dòng)車事故”(話題A)和“中國兒童嘗試吃轉(zhuǎn)基因大米”(話題B)。將參與這2個(gè)話題發(fā)布或轉(zhuǎn)發(fā)的用戶分為2大類,一類是支持謠言并繼續(xù)發(fā)布和轉(zhuǎn)發(fā)不實(shí)言論的謠言用戶uR,一類是不相信謠言并發(fā)布和轉(zhuǎn)發(fā)反謠言微博的反謠言用戶uAR。在數(shù)據(jù)提取過程中,對(duì)抽取數(shù)據(jù)做了細(xì)致的人工標(biāo)注。各話題具體統(tǒng)計(jì)信息見表1。
表1 實(shí)驗(yàn)數(shù)據(jù)集的統(tǒng)計(jì)量Table 1 The statistics of the experimental data set
抽取出的用戶屬性用UP={ui,Pi}表示,其中Pi表示謠言話題中用戶ui的靜態(tài)屬性和行為
屬性。靜態(tài)屬性包括節(jié)點(diǎn)的性別Gen(ui)、認(rèn)證情況Ver(ui),及注冊(cè)時(shí)間Reg(ui);行為屬性包括節(jié)點(diǎn)的微博轉(zhuǎn)發(fā)數(shù)Ret(ui)、微博原創(chuàng)數(shù)Pos(ui)、關(guān)注數(shù)Fol(ui)及粉絲數(shù)Deg(ui)。因此Pi=[Gen(ui),Ver(ui),Reg(ui),Deg(ui),Fol(ui),Ret(ui),Pos(ui)]。需要指出的是,由于一些用戶被系統(tǒng)封禁,原數(shù)據(jù)集中無法獲取到該類用戶屬性特征,因此將這類用戶視為異常節(jié)點(diǎn),將其刪除。
另外,用戶的歷史微博內(nèi)容用HC={ui,Ci}表示,其中Ci表示單個(gè)用戶ui在社交平臺(tái)上的微博歷史文本信息,包括原始微博內(nèi)容和轉(zhuǎn)發(fā)微博內(nèi)容。
基于以上實(shí)驗(yàn)數(shù)據(jù)集,進(jìn)一步對(duì)謠言用戶進(jìn)行細(xì)分。同時(shí),給出以下2個(gè)定義。
決定謠言用戶影響力的2個(gè)因素是擴(kuò)散范圍(粉絲數(shù))的大小和參與謠言(發(fā)布或轉(zhuǎn)發(fā))的時(shí)間。越早參與謠言話題的傳播,對(duì)謠言的擴(kuò)散更有助力。先在同類謠言微博中,對(duì)謠言用戶的參與時(shí)間進(jìn)行時(shí)序化處理,對(duì)應(yīng)得到謠言用戶的時(shí)序數(shù)(見定義2)。再將用戶粉絲數(shù)量乘以時(shí)序數(shù)的衰減因子,即用下式來衡量每個(gè)謠言用戶的綜合影響力
(1)
定義2時(shí)序s:指在同一謠言話題下,用戶參與轉(zhuǎn)發(fā)謠言的時(shí)間序列。
對(duì)同一類謠言微博按發(fā)布時(shí)間的先后進(jìn)行排序,將其持續(xù)時(shí)間的取值范圍分為k+1個(gè)等寬的區(qū)間,從0開始依次標(biāo)記,落在第i個(gè)區(qū)間的用戶的時(shí)序值用si表示,過程如圖1所示。沒有參與的用戶時(shí)序值設(shè)為+∞。
圖1 謠言微博時(shí)序處理過程Fig.1 Timing sequence process of rumor microblogs
根據(jù)上述定義,利用公式(1)可將實(shí)驗(yàn)數(shù)據(jù)集中謠言用戶分為核心謠言傳播節(jié)點(diǎn)與非核心謠言傳播節(jié)點(diǎn)。最終得到3類用戶,如表2所示。這也是實(shí)驗(yàn)的最終預(yù)測分類值。
表2 3類用戶的數(shù)據(jù)統(tǒng)計(jì)Table 2 Data statistics of three types of users
1.3.1 節(jié)點(diǎn)屬性特征矩陣的構(gòu)建
大量研究表明個(gè)體的異質(zhì)性在謠言傳播中起著關(guān)鍵作用,所以在構(gòu)建模型的過程中,特別考慮了節(jié)點(diǎn)屬性的作用。用戶屬性中包含節(jié)點(diǎn)的靜態(tài)屬性和行為屬性,從中提取出模型能夠識(shí)別的數(shù)據(jù)特征,并用于表示學(xué)習(xí)。
節(jié)點(diǎn)的粉絲數(shù)Deg(ui)可用于刻畫度中心性Deg_Cen(ui),它反映該用戶信息擴(kuò)散的能力以及在網(wǎng)絡(luò)拓?fù)渲械闹匾?。關(guān)注數(shù)Fol(ui)可用于表示節(jié)點(diǎn)獲取信息的范圍。認(rèn)證情況和性別是節(jié)點(diǎn)身份的一種象征,文中分別用認(rèn)證用戶和性別在原始數(shù)據(jù)集中的比例表示節(jié)點(diǎn)的認(rèn)證特征Ratio_Ver(ui)與性別特征Ratio_Gen(ui)。另外,微博轉(zhuǎn)發(fā)數(shù)Ret(ui)、微博原創(chuàng)數(shù)Pos(ui)和時(shí)間3個(gè)維度的組合可用來構(gòu)造用戶的活躍程度Act(ui),反映節(jié)點(diǎn)在一定時(shí)長內(nèi)參與話題討論的多少,其計(jì)算方式如下
(2)
T(ui)=Text-Reg(ui).
(3)
其中:T(ui)代表一個(gè)時(shí)間跨度,即用戶注冊(cè)時(shí)間到數(shù)據(jù)獲取時(shí)間中間的時(shí)長;Text指獲取數(shù)據(jù)的時(shí)間。
最后,通過上述分析,可以得到每個(gè)用戶的靜態(tài)及動(dòng)態(tài)屬性的特征向量:Fa=[Ratio_Gen(ui),Ratio_Ver(ui),Deg_Cen(ui),Fol(ui),Act(ui)],其中a為用戶屬性特性向量的維度5。整個(gè)網(wǎng)絡(luò)系統(tǒng)中用戶的特征表示可設(shè)為X=n×Fa,其中n為網(wǎng)絡(luò)中的節(jié)點(diǎn)數(shù)。
1.3.2 節(jié)點(diǎn)的歷史內(nèi)容特征矩陣的構(gòu)建
用戶發(fā)布的微博內(nèi)容在一定程度上可以反映出用戶在某個(gè)時(shí)間段的興趣和觀點(diǎn)。因此在構(gòu)造用戶的歷史內(nèi)容特征矩陣時(shí),選取節(jié)點(diǎn)的歷史微博信息HC={ui,Ci}來提取相應(yīng)的內(nèi)容特征。將用戶所有歷史微博內(nèi)容以文本形式存儲(chǔ)后,經(jīng)過文本向量化Doc2vec算法,可輸出用戶歷史文本的特征矩陣D=n×Fb,其中n表示網(wǎng)絡(luò)中節(jié)點(diǎn)數(shù),Fb表示每個(gè)節(jié)點(diǎn)的歷史文本內(nèi)容Ci特征向量,b為歷史內(nèi)容特征向量的維度。
1.3.3 節(jié)點(diǎn)的局部時(shí)序鄰域網(wǎng)絡(luò)矩陣的構(gòu)建
qi=-si+c,
(4)
(5)
(6)
例如圖2,若要為節(jié)點(diǎn)a(da=3)提取一個(gè)規(guī)模為S=6的鄰域矩陣,則需先提取a的所有1階鄰居b(1-hop,db=1)、c(1-hop,dc=2)和d(1-hop,dd=3),由于1階鄰居數(shù)為3,達(dá)不到S-1的規(guī)模,則繼續(xù)提取a的2階鄰居e(2-hop,de=1)、f(2-hop,df=0)和g(2-hop,dg=2)。從2階鄰居中尋找出度更大的鄰居e和g,就能得到節(jié)點(diǎn)a規(guī)模為6的鄰接矩陣Aa。假設(shè)目標(biāo)節(jié)點(diǎn)
圖2 時(shí)序鄰接矩陣的生成Fig.2 Generation of timing sequential adjacency matrix
MSF-GCN模型是將識(shí)別核心謠言節(jié)點(diǎn)的問題轉(zhuǎn)化為一個(gè)三分類的預(yù)測模型,3類分別是核心謠言傳播節(jié)點(diǎn)、非核心謠言傳播節(jié)點(diǎn)和反謠言傳播節(jié)點(diǎn)。整個(gè)預(yù)測模型主要由輸入層、隱藏層、全連接層、輸出層及損失函數(shù)構(gòu)成。
由于節(jié)點(diǎn)屬性特征值存在量綱的不同,為提升模型的卷積速度和精度、避免過擬合,實(shí)驗(yàn)中采用下式max-min標(biāo)準(zhǔn)化方法對(duì)節(jié)點(diǎn)的每個(gè)屬性特征值進(jìn)行歸一化處理
(7)
從而得到標(biāo)準(zhǔn)化后的節(jié)點(diǎn)屬性特征矩陣X′。
這樣每個(gè)目標(biāo)節(jié)點(diǎn)的表示可以用屬性特征矩陣與歷史行為特征矩陣拼接而成,因此,輸入層特征矩陣可表示為F(a,b)=(X′,D),其維度是a+b。
(8)
隱藏層也稱圖卷積層,它是一種利用圖結(jié)構(gòu)和特征向量學(xué)習(xí)節(jié)點(diǎn)表示向量的半監(jiān)督算法。該層定義如下
(9)
其中:Hi為GCN第i層的節(jié)點(diǎn)特征表示,Wi和bi表示第i層的訓(xùn)練權(quán)重和偏差參數(shù),σ為非線性激活函數(shù)。在實(shí)驗(yàn)中,模型設(shè)置了2層GCN,選擇ReLu(x)=max(0,x)作為這2層的激活函數(shù),H0為節(jié)點(diǎn)的特征矩陣F(a,b)。與此同時(shí),為避免過度擬合,在這層還應(yīng)用了Dropout[34]技術(shù)。
模型中設(shè)計(jì)了3個(gè)全連接層(fully connected layers,FC)用于進(jìn)行GCN下游任務(wù)學(xué)習(xí)。每個(gè)全連接層利用ReLu非線性函數(shù)激活。同樣,在前2個(gè)全連接層采用了Dropout技術(shù),以避免過擬合。
全連接層的輸出被送入LogSoftMax分類器。整個(gè)模型的輸出為Z=In(P(uk,k,uAR)),將輸出的分類結(jié)果與真實(shí)數(shù)據(jù)集中的標(biāo)簽進(jìn)行比較,利用下式優(yōu)化似然損失
(10)
綜上所述,模型整體框架圖如圖3所示。
圖3 模型框架圖Fig.3 Model frame
實(shí)驗(yàn)使用的是Window64位系統(tǒng),處理器為Intel(R) Core(TM) i7-9700 CPU@3.00 GHz,內(nèi)存32 GB。在對(duì)比實(shí)驗(yàn)中,選取SVM、KNN和LR 3個(gè)基線方法。
在模型框架中,訓(xùn)練集和測試集比例為8∶2。用戶歷史文本特征維度設(shè)為300,即Fb中b=300;實(shí)驗(yàn)中對(duì)目標(biāo)節(jié)點(diǎn)采樣了S=50的鄰域網(wǎng)絡(luò)。由于用戶屬性特征維度a=5,因此,輸入層中特征矩陣F(a,b)=(X′,D)中每個(gè)節(jié)點(diǎn)的特征維度為305維。
模型的前2層是圖卷積層,后3層是全連接層,所有參數(shù)使用Adam優(yōu)化器[35]訓(xùn)練得到,各層具體參數(shù)見表3。初始學(xué)習(xí)率設(shè)置為0.001,權(quán)值衰減為5e-4。當(dāng)訓(xùn)練算法迭代到第10個(gè)epoch時(shí),將學(xué)習(xí)率調(diào)為0.000 1。最終運(yùn)行訓(xùn)練算法20個(gè)epoch時(shí),通過early stopping方法[36]選出效果最好的模型。最終輸出經(jīng)過Logsoftmax處理,完成核心謠言傳播節(jié)點(diǎn)、非核心謠言傳播節(jié)點(diǎn)及反謠言傳播節(jié)點(diǎn)的預(yù)測任務(wù)。
表3 模型參數(shù)Table 3 Model parameters
3.2.1 預(yù)訓(xùn)練
由于小樣本問題(樣本不足和樣本不平衡)的存在,模型會(huì)產(chǎn)生過擬合且缺乏泛化能力,因此在實(shí)驗(yàn)中對(duì)模型做了預(yù)訓(xùn)練,以完成對(duì)已有知識(shí)的抽取。將訓(xùn)練數(shù)據(jù)集放入模型,通過BP算法[37]得到模型參數(shù),并且在預(yù)訓(xùn)練結(jié)束后得到數(shù)據(jù)通過GCN層后的特征表示,作為下一步高斯采樣的輸入。3類訓(xùn)練樣本數(shù)分別為509、4 592和2 053,3類樣本特征表示個(gè)數(shù)也依次對(duì)應(yīng)。需注意的是,若預(yù)訓(xùn)練的epoch設(shè)置太低,模型還未充分學(xué)習(xí),抽取到的知識(shí)自然是有限的;若epoch設(shè)置太高,模型雖然在訓(xùn)練集表現(xiàn)會(huì)越來越好,但是測試集上會(huì)表現(xiàn)得很差,這時(shí)候抽取到的知識(shí)是偏頗的,缺乏泛化能力。根據(jù)未做預(yù)訓(xùn)練之前模型在數(shù)據(jù)集上的擬合情況,實(shí)驗(yàn)將epoch設(shè)為3。
3.2.2 高斯采樣
3.2.3 訓(xùn)練過程
實(shí)驗(yàn)首先對(duì)MSF-GCN模型中加入預(yù)訓(xùn)練和高斯采樣這2項(xiàng)技術(shù)帶來的影響和效果做了驗(yàn)證。在MSF-GCN模型和傳統(tǒng)GCN模型(不加入預(yù)訓(xùn)練和高斯采樣)下,訓(xùn)練集、測試集的準(zhǔn)確率和損失值隨著epoch數(shù)的增加,變化趨勢如圖4所示。2組實(shí)驗(yàn)的模型參數(shù)一致。圖4(a)和4(b)顯示,隨著訓(xùn)練的進(jìn)行,傳統(tǒng)GCN模型在訓(xùn)練集上準(zhǔn)確率上升,但在測試集上,準(zhǔn)確率會(huì)逐步降低。但損失值在訓(xùn)練集和測試集的變化趨勢卻呈相反情況,這種情況說明了過擬合的出現(xiàn)。而圖4(c)和4(d)顯示,MSF-GCN模型雖然前3個(gè)epoch在測試集上準(zhǔn)確率比原始GCN低,損失值比原始GCN高,但是隨著訓(xùn)練次數(shù)的增加,準(zhǔn)確率在訓(xùn)練集和測試集都有所提高,且最終模型在測試集上的準(zhǔn)確率超過傳統(tǒng)GCN模型20%左右。MSF-GCN模型之所以在最開始表現(xiàn)得不如傳統(tǒng)GCN,是因?yàn)樗档土四P蛯?duì)某些特征的依賴,更復(fù)雜的特征空間使得最開始學(xué)習(xí)稍微困難。但是隨著學(xué)習(xí)的進(jìn)行,模型從訓(xùn)練集提取到更豐富的知識(shí)后,在測試集中面對(duì)未知的特征,也能做出更合適的判斷。最終,實(shí)驗(yàn)結(jié)果證明預(yù)訓(xùn)練和高斯采樣能夠有效解決小樣本帶來的過擬合和缺乏泛化性的問題。
圖4 MSF-GCN與傳統(tǒng)GCN模型對(duì)比Fig.4 Comparison between MSF-GCN and traditional GCN models
此外,還對(duì)MSF-GCN模型的有效性做了實(shí)驗(yàn)驗(yàn)證。這里選用SVM[38]、KNN[39]、LR[40]3種方法作為基準(zhǔn)對(duì)比方法,并采用4種度量指標(biāo),分別是Precision、Accuracy、Recall以及F1-score。MSF-GCN模型與3種基準(zhǔn)方法在4種度量指標(biāo)下的差異如表4所示。結(jié)果顯示MSF-GCN模型的有效性最好。在3種基準(zhǔn)方法中,SVM效果最好,LR稍差,KNN效果最差。主要原因是KNN在預(yù)測時(shí),需要考慮訓(xùn)練集中的每一個(gè)點(diǎn),而當(dāng)預(yù)測到稀有類別時(shí),大量無關(guān)類別的點(diǎn)也會(huì)被考慮進(jìn)去計(jì)算距離;LR和SVM都會(huì)增加與分類關(guān)系較大的數(shù)據(jù)權(quán)重,降低與分類關(guān)系較小的點(diǎn)的權(quán)重,但SVM通過支持向量來影響決策面,具有一定的稀疏性,因此效果較好。然而,MSF-GCN模型不僅考慮用戶的個(gè)人屬性特征,還考慮用戶之間的關(guān)系,同時(shí)對(duì)小樣本特征進(jìn)行了補(bǔ)充,因此表現(xiàn)出最好的效果。
表4 不同模型下的預(yù)測效果評(píng)價(jià)指標(biāo)Table 4 The evaluation statistics of different models
本文基于特征學(xué)習(xí)、節(jié)點(diǎn)的網(wǎng)絡(luò)結(jié)構(gòu)、歷史文本特征和時(shí)間特性,構(gòu)造了一個(gè)識(shí)別核心謠言傳播節(jié)點(diǎn)的三分類預(yù)測模型。目標(biāo)是提前鎖定謠言傳播中會(huì)發(fā)揮關(guān)鍵作用的節(jié)點(diǎn),以實(shí)現(xiàn)有效識(shí)別、偵測、防控謠言傳播,達(dá)到事先控制的目的。在這項(xiàng)工作中,提出MSF-GCN模型,通過模型預(yù)訓(xùn)練和特征增強(qiáng)的技術(shù),使模型比基線模型能更好地識(shí)別核心謠言傳播節(jié)點(diǎn)。同時(shí),MSF-GCN模型的整體性能表明了該方法的有效性。在未來的研究中,計(jì)劃構(gòu)造新的模型算法擴(kuò)展這項(xiàng)研究,例如圖注意網(wǎng)絡(luò)、殘差網(wǎng)絡(luò)等。另外,由于謠言話題的復(fù)雜性和高維性,在謠言分類下研究群體行為也將成為未來研究的一個(gè)重要方向。