汪子航,言鵬韋,蔣卓人
(浙江大學(xué)公共管理學(xué)院信息資源管理系,杭州 310058)
當(dāng)前,社交媒體已經(jīng)逐漸取代電視、報紙等傳統(tǒng)媒體,成為人們?nèi)粘I钪薪邮招畔⒌闹匾緩絒1]。然而,社交媒體的開放屬性也為謠言的產(chǎn)生和傳播創(chuàng)造了條件。謠言,即“信息流傳中的尚未得到證實的陳述”[2],這些未經(jīng)驗證的信息可能會引起社會公眾的懷疑或焦慮[3],推動虛假信息傳播或?qū)е螺浾搯栴}。此外,社交媒體數(shù)據(jù)規(guī)模日益增長、數(shù)據(jù)形式日趨復(fù)雜,謠言信息在社交媒體中以信息傳播樹的形式層層擴(kuò)散并大量傳播。因此,高效、準(zhǔn)確地識別網(wǎng)絡(luò)謠言并針對謠言傳播特征進(jìn)行治理是亟待解決的研究問題。
然而,目前社交媒體謠言識別的研究仍然面臨兩大挑戰(zhàn)。其一,謠言傳播網(wǎng)絡(luò)中的復(fù)雜結(jié)構(gòu)特征難以被充分挖掘。目前自動化謠言識別重點關(guān)注的是傳播內(nèi)容、傳播用戶等特征[4-9],而對于傳播結(jié)構(gòu)的特征關(guān)注較少。其二,隨著深度神經(jīng)網(wǎng)絡(luò)為代表的復(fù)雜模型在謠言識別任務(wù)上的應(yīng)用,模型可解釋性的需求也日益高漲。由于深度神經(jīng)網(wǎng)絡(luò)等復(fù)雜模型的推理過程通常是一個“黑箱”過程,在社會實踐中使用黑盒模型可能引發(fā)算法歧視等社會問題。相關(guān)法律法規(guī)(如歐盟的《通用數(shù)據(jù)保護(hù)條例》)對機器學(xué)習(xí)算法的可解釋性也提出了明確要求。因此,社交媒體謠言識別算法急需可解釋性分析,以提升其可信度。
針對上述挑戰(zhàn),本文設(shè)計并實現(xiàn)了一個可解釋圖神經(jīng)網(wǎng)絡(luò)謠言識別模型。該模型利用圖神經(jīng)網(wǎng)絡(luò)對謠言數(shù)據(jù)進(jìn)行識別,同時從網(wǎng)絡(luò)結(jié)構(gòu)和節(jié)點特征兩個角度對模型決策進(jìn)行解釋分析。具體而言,首先,本文基于社交媒體的用戶信息和消息傳播結(jié)構(gòu)等構(gòu)建謠言數(shù)據(jù)集,將用戶信息,如用戶粉絲數(shù)等作為傳播節(jié)點特征;將用戶間的交互行為,如轉(zhuǎn)發(fā)等作為傳播結(jié)構(gòu)中的邊,構(gòu)建包含多維節(jié)點特征的信息傳播樹。其次,利用殘差圖卷積神經(jīng)網(wǎng)絡(luò)模型,同時對信息傳播樹中的節(jié)點信息與結(jié)構(gòu)信息進(jìn)行學(xué)習(xí),以提高謠言識別的準(zhǔn)確率。最后,通過訓(xùn)練圖神經(jīng)網(wǎng)絡(luò)解釋器,利用基于網(wǎng)絡(luò)結(jié)構(gòu)掩碼的學(xué)習(xí)與基于節(jié)點特征掩碼的學(xué)習(xí)識別模型決策中對模型預(yù)測重要的網(wǎng)絡(luò)結(jié)構(gòu)和節(jié)點特征,并生成模型解釋。
本文使用源自新浪微博和推特的謠言數(shù)據(jù)集進(jìn)行模型實驗驗證與可解釋分析。模型驗證結(jié)果表明:①本文采用的殘差圖卷積神經(jīng)網(wǎng)絡(luò)模型在兩個數(shù)據(jù)集的所有評價指標(biāo)上均超過了對照組模型,證明了該模型的有效性和泛化性;②本文采用的模型僅使用謠言傳播的結(jié)構(gòu)特征也可以對謠言進(jìn)行準(zhǔn)確識別,驗證了謠言傳播結(jié)構(gòu)特征的重要性和圖神經(jīng)網(wǎng)絡(luò)模型的魯棒性。結(jié)合圖神經(jīng)網(wǎng)絡(luò)模型解釋器生成的解釋可以發(fā)現(xiàn):①非謠言數(shù)據(jù)的傳播結(jié)構(gòu)較為扁平,而謠言數(shù)據(jù)的傳播結(jié)構(gòu)相對縱深較長,在傳播路徑上往往產(chǎn)生多級轉(zhuǎn)發(fā)或評論;②對于復(fù)雜的傳播網(wǎng)絡(luò),圖神經(jīng)網(wǎng)絡(luò)模型可以充分學(xué)習(xí)用戶互動中的結(jié)構(gòu)信息,取得良好的預(yù)測結(jié)果;對于簡單的傳播網(wǎng)絡(luò),其傳播結(jié)構(gòu)特征較弱,需要結(jié)合更豐富的節(jié)點特征進(jìn)行謠言識別。
本文的主要貢獻(xiàn):第一,本文從模型可解釋性出發(fā),提出了可解釋圖神經(jīng)網(wǎng)絡(luò)謠言識別模型,不僅能夠?qū)χ{言進(jìn)行精準(zhǔn)識別,而且能夠結(jié)合圖神經(jīng)網(wǎng)絡(luò)解釋器對謠言傳播機理進(jìn)行分析。本文既增強了深度學(xué)習(xí)模型的可信度,也在謠言識別領(lǐng)域?qū)π畔⑿袨楹托畔r值的理論進(jìn)行了全新的探索。第二,與已有研究側(cè)重于傳播內(nèi)容等特征進(jìn)行謠言識別相比,本文將謠言傳播結(jié)構(gòu)特征納入了謠言識別模型,以提高識別準(zhǔn)確率。同時,利用圖神經(jīng)網(wǎng)絡(luò)模型對謠言傳播結(jié)構(gòu)進(jìn)行可解釋分析,更好地總結(jié)了謠言傳播行為的規(guī)律和模式。第三,在中英文兩個數(shù)據(jù)集上,本文綜合全局和案例分析得出謠言的拓?fù)浣Y(jié)構(gòu)特征和節(jié)點特征,并基于發(fā)現(xiàn)提出謠言治理的策略建議,對于謠言鑒別和輿情治理具有積極的實踐意義。
謠言的本質(zhì)屬性在于未經(jīng)驗證[2-4],本文將社交媒體謠言定義為在社交媒體平臺上廣泛傳播的、未經(jīng)驗證的信息陳述。傳統(tǒng)的謠言識別研究通常將其轉(zhuǎn)化為一個基于特征挖掘的分類問題。謠言的傳播過程形成了從信息源到不同受眾逐級傳播的信息傳播樹,其中包含了謠言信息本身的內(nèi)容特征、傳播路徑中涉及的用戶特征以及由傳播中用戶間互動產(chǎn)生的序列特征與結(jié)構(gòu)特征。早期的謠言識別主要采用傳統(tǒng)機器學(xué)習(xí)算法,關(guān)注對文本特征與時序特征的挖掘[4-6,10-12],重點在于通過特征挖掘提高謠言識別模型的準(zhǔn)確率。Afroz 等[10]利用詞匯、句法和內(nèi)容特定的特征,在眾多數(shù)據(jù)集上的謠言檢測任務(wù)中取得了較好的效果。Ma 等[12]使用動態(tài)時間序列的結(jié)構(gòu)從信息傳播的過程中抽取時間屬性,以觀察謠言在傳播過程中隨時間的變化。此外,部分研究通過統(tǒng)計的方式對信息傳播特征進(jìn)行提取,初步驗證了傳播特征對謠言識別的重要性[6,11]。
近年來,深度學(xué)習(xí)被廣泛應(yīng)用于謠言識別中。與傳統(tǒng)的機器學(xué)習(xí)方法相比,深度學(xué)習(xí)方法可以依靠復(fù)雜的模型結(jié)構(gòu)對文本、圖像等信息進(jìn)行特征挖掘與提取。這一研究方法的轉(zhuǎn)變,使問題從對輸入特征的建模轉(zhuǎn)變成設(shè)計一種有效解決謠言識別任務(wù)的網(wǎng)絡(luò)結(jié)構(gòu)。例如,Yu 等[8]與Wang 等[9]分別利用CNN(convolutional neural network)與LSTM(long short-term memory)加強了對文本信息提取的設(shè)計。
上述謠言識別方法關(guān)注的重點為謠言傳播內(nèi)容、傳播用戶和傳播時序的特征,但對于謠言傳播網(wǎng)絡(luò)的結(jié)構(gòu)特征,已有研究難以直接對傳播結(jié)構(gòu)進(jìn)行建模與分析,而圖神經(jīng)網(wǎng)絡(luò)的發(fā)展為此提供了新的研究可能[13]。圖卷積網(wǎng)絡(luò)(graph convolution network,GCN)是一種專門針對圖數(shù)據(jù)進(jìn)行空間特征提取的卷積神經(jīng)網(wǎng)絡(luò)[14],包括GraphSAGE(graph sample and aggregate)[15]、GAT(graph attention network)[16]、PGC(partition graph convolution)[17]等。近年來,研究者開始探索圖神經(jīng)網(wǎng)絡(luò)在謠言識別中的運用。例如,Bian 等[18]將會話表示為一個有向樹的結(jié)構(gòu),使用圖卷積網(wǎng)絡(luò),分別自上而下和自下而上對會話樹進(jìn)行編碼,用于學(xué)習(xí)謠言傳播結(jié)構(gòu)的特征;Bai 等[19]基于原始信息和回復(fù)構(gòu)建圖數(shù)據(jù),建立了具有節(jié)點比例分配機制的集成圖卷積網(wǎng)絡(luò);王昕巖等[20]采用邊權(quán)重來描述事件之間聯(lián)系的緊密程度,提出了一種基于加權(quán)圖卷積神經(jīng)網(wǎng)絡(luò)模型,對新浪微博中的謠言進(jìn)行檢測。
本文旨在結(jié)合謠言內(nèi)容、用戶屬性以及謠言傳播網(wǎng)絡(luò)結(jié)構(gòu)等多維度的特征對謠言識別進(jìn)行可解釋性分析,利用圖神經(jīng)網(wǎng)絡(luò)方法進(jìn)行研究。
近年來,機器學(xué)習(xí)技術(shù)在謠言識別場景的應(yīng)用提高了謠言識別任務(wù)的準(zhǔn)確率,但模型決策過程缺乏可解釋性,限制了其在諸多場景的應(yīng)用,因此,越來越多的研究者開始探索機器學(xué)習(xí)的可解釋性。
一方面,對于非圖結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),目前常用的一種解釋方法是基于代理模型的方法,如LIME(local interpretable model-agnostic explanations)[21]模型用一個簡單的線性模型作為代理,對一個復(fù)雜的黑箱模型的局部區(qū)域進(jìn)行近似。另一方面,許多研究使用基于梯度的反向傳播來計算輸入的重要性,如類激活映射(class activation mapping,CAM)等[22-26],以及應(yīng)用反事實推理的方法LEWIS[27]等,這些方法的關(guān)鍵思想是將梯度作為輸入重要性的近似值。
社交網(wǎng)絡(luò)是一種圖結(jié)構(gòu)。近年來,對圖神經(jīng)網(wǎng)絡(luò)的解釋工作的研究日益增加。Pope 等[28]將最終的節(jié)點嵌入映射到輸入空間,利用原始GNN(graph neural network)的網(wǎng)絡(luò)參數(shù)和分類器的輸出計算輸入的重要性,將基于梯度的方法擴(kuò)展到GNN 中,用于解釋圖分類模型。Huang 等[29]將LIME 擴(kuò)展到圖模型中,采用非線性代理模型的重要特征來近似對GNN 的解釋。Vu 等[30]通過隨機擾動的方法獲取局部的數(shù)據(jù)集,借助可解釋的貝葉斯網(wǎng)絡(luò)來擬合該數(shù)據(jù)集,可以同時用于解釋節(jié)點分類和圖分類任務(wù)。Ying 等[31]和Luo 等[32]分別提出了基于掩碼學(xué)習(xí)的GNNExplainer 與PGExplainer,對于給定一個訓(xùn)練好的GNN 模型和一個預(yù)測結(jié)果,掩碼學(xué)習(xí)可以用于識別一個小的子圖結(jié)構(gòu)和一個節(jié)點特征的子集,使整個輸入圖中GNN 預(yù)測的互信息最大化,可以同時識別對預(yù)測重要的網(wǎng)絡(luò)結(jié)構(gòu)和節(jié)點特征。
本文提出的可解釋圖神經(jīng)網(wǎng)絡(luò)謠言識別框架包含兩個重要組成部分:謠言傳播樹網(wǎng)絡(luò)結(jié)構(gòu)與節(jié)點特征預(yù)處理模塊(2.1 節(jié))和可解釋圖神經(jīng)網(wǎng)絡(luò)謠言識別模型(2.2 節(jié))。其中,網(wǎng)絡(luò)結(jié)構(gòu)與節(jié)點特征預(yù)處理模塊主要負(fù)責(zé)網(wǎng)絡(luò)謠言原始數(shù)據(jù)的預(yù)處理工作,可解釋圖神經(jīng)網(wǎng)絡(luò)謠言識別模型由殘差圖卷積神經(jīng)網(wǎng)絡(luò)模型(2.2.1 節(jié))和基于掩碼學(xué)習(xí)的圖神經(jīng)網(wǎng)絡(luò)解釋器(2.2.2 節(jié))兩大模塊組成。該框架的輸入是謠言傳播樹原始數(shù)據(jù),通過預(yù)處理后,可解釋圖神經(jīng)網(wǎng)絡(luò)謠言識別模型可通過殘差圖卷積神經(jīng)網(wǎng)絡(luò)模型對信息是否為謠言進(jìn)行預(yù)測,而圖神經(jīng)網(wǎng)絡(luò)解釋器通過訓(xùn)練可以分別生成基于網(wǎng)絡(luò)結(jié)構(gòu)的解釋和基于節(jié)點特征的解釋??傮w而言,本文提出的識別框架如圖1 所示。
圖1 可解釋圖神經(jīng)網(wǎng)絡(luò)謠言識別框架
在一個信息的傳播樹中,以原始信息為根節(jié)點,每一次評論/轉(zhuǎn)發(fā)作為一個節(jié)點,使用粉絲用戶數(shù)等用戶屬性特征和基于信息文本內(nèi)容的文本嵌入特征等作為節(jié)點特征,根據(jù)信息的轉(zhuǎn)發(fā)/評論關(guān)系,建立由被轉(zhuǎn)發(fā)/評論者指向轉(zhuǎn)發(fā)/評論者的邊,構(gòu)建謠言傳播樹網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)。
對于數(shù)據(jù)集中的第i個事件,用yi表示其對應(yīng)的標(biāo)簽,Y={y1,y2,y3,…,yn}∈Rn×2表示數(shù)據(jù)集標(biāo)簽的集合。根據(jù)信息的轉(zhuǎn)發(fā)關(guān)系,構(gòu)建信息的傳播結(jié)構(gòu)。其中,V={v1,v2,v3,…,vn}表示圖中所有的節(jié)點,E={e1,e2,e3,…,en}表示圖中所有的邊。A∈Rni×ni代表ci的鄰接矩陣,表示節(jié)點間的連接情況,若節(jié)點i和節(jié)點j之間有連接,則Aij=1,否則,Aij=0。X∈Rni×m代表數(shù)據(jù)集的特征矩陣,其中m為特征的維度。
2.2.1 殘差圖卷積神經(jīng)網(wǎng)絡(luò)模型
本文設(shè)計了一個基于殘差圖卷積神經(jīng)網(wǎng)絡(luò)的謠言識別模型。該模型的輸入為以事件為單位的信息傳播樹,輸出為該事件的預(yù)測標(biāo)簽。其核心思想是使用殘差圖卷積網(wǎng)絡(luò)抽取節(jié)點的鄰居節(jié)點的信息來更新每一層隱藏層的信息,從而整合謠言的擴(kuò)散過程中的關(guān)鍵結(jié)構(gòu)信息,獲取社交網(wǎng)絡(luò)結(jié)構(gòu)的深層表征。第k個圖卷積層的隱藏特征矩陣Hk的計算過程為
其中,Wk-1表示可訓(xùn)練參數(shù)。第k層的隱藏特征被聚合后再通過信息傳播函數(shù)M得到下一層的隱藏特征,當(dāng)k=1 時,隱藏特征即節(jié)點原始特征?;诖?,本文為每一層添加了殘差連接,作為殘差圖卷積網(wǎng)絡(luò)(ResGCN)[33]模型。該方法已經(jīng)被驗證能夠有效地避免梯度消失,可以在深層次上獲得更好的聚合能力,即
殘差圖卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)如圖2 所示。為了避免過擬合,在Readout 層使用Dropout 策略。
將圖數(shù)據(jù)輸入圖卷積網(wǎng)絡(luò),可得到輸出的隱藏特征矩陣H={h1,h2,h3,…,hn},使用全局平均池化操作來聚合該表征的信息。通過全連接層和Softmax 層計算事件i的預(yù)測標(biāo)簽,即
其中,是一個二維向量,表示預(yù)測為謠言和非謠言的概率。通過最小化預(yù)測標(biāo)簽和真實標(biāo)簽y的交叉熵來訓(xùn)練模型參數(shù)。
2.2.2 基于掩碼學(xué)習(xí)的圖神經(jīng)網(wǎng)絡(luò)解釋器
本文采用基于掩碼學(xué)習(xí)的圖神經(jīng)網(wǎng)絡(luò)解釋器[31]對殘差圖卷積神經(jīng)網(wǎng)絡(luò)的預(yù)測進(jìn)行解釋,通過改變輸入模型的信息、對比模型結(jié)果,來監(jiān)測被改變的信息的重要性,從而確定邊和特征對決策的重要程度,如圖3 所示。具體來說,給定一個訓(xùn)練好的圖神經(jīng)網(wǎng)絡(luò)模型和一個預(yù)測結(jié)果,該圖神經(jīng)網(wǎng)絡(luò)解釋器可以通過學(xué)習(xí)邊和節(jié)點特征的掩碼來預(yù)測解釋結(jié)果,從而識別一個小的子圖結(jié)構(gòu)GS?G和一個節(jié)點特征的子集XS?X,通過使整個輸入的原始圖的預(yù)測以及通過掩碼獲得的新的GNN 預(yù)測的互信息MI 最大化來優(yōu)化掩碼,即
圖3 圖神經(jīng)網(wǎng)絡(luò)解釋器工作原理[31]
新浪微博和推特(Twitter)分別是中文領(lǐng)域和世界范圍內(nèi)兩大重要的社交媒體平臺,具有用戶量多、曝光度大、信息傳播快的特點,容易成為謠言傳播的重災(zāi)區(qū)。為了驗證本文提出的可解釋性圖神經(jīng)網(wǎng)絡(luò)模型的有效性和魯棒性,選擇來自上述兩個平臺的公開數(shù)據(jù)集進(jìn)行實驗。Chinese_Rumor_Dataset數(shù)據(jù)集(https://github.com/thunlp/Chinese_Rumor_Dataset)是依據(jù)新浪微博社區(qū)管理中心公示內(nèi)容中的謠言微博進(jìn)行收集的,本文使用的是該數(shù)據(jù)集的第二部分,即CED_Dataset 數(shù)據(jù)集[34],該數(shù)據(jù)集包含事件的原始微博及其相應(yīng)的轉(zhuǎn)發(fā)/評論微博。本文通過爬蟲進(jìn)一步獲取數(shù)據(jù)集中相關(guān)用戶的粉絲數(shù)、博文發(fā)布數(shù)等用戶屬性信息。PHEME 數(shù)據(jù)集[35]對“弗格森騷亂”“《查理周刊》槍擊事件”等9 個突發(fā)新聞事件相關(guān)推文數(shù)據(jù)進(jìn)行收集,具體包含原始推文及其回復(fù),以及相關(guān)用戶的屬性信息。
按照2.1 節(jié)謠言傳播樹網(wǎng)絡(luò)結(jié)構(gòu)與節(jié)點特征預(yù)處理模塊,根據(jù)交互關(guān)系對上述兩各數(shù)據(jù)集構(gòu)建傳播網(wǎng)絡(luò)數(shù)據(jù)。每個傳播網(wǎng)絡(luò)對應(yīng)一個二分類的標(biāo)簽,表示謠言或非謠言。剔除數(shù)據(jù)缺失的事件,使用Python 的PyTorch Geometric 庫構(gòu)建圖結(jié)構(gòu)數(shù)據(jù)集,其中CED_Dataset 包含3300 個圖結(jié)構(gòu),PHEME包含6425 個圖結(jié)構(gòu)。兩數(shù)據(jù)集的標(biāo)簽分布情況如表1 所示。
表1 實驗數(shù)據(jù)集標(biāo)簽分布情況
Wellman[36]認(rèn)為,人們之間的互動和交流形成了社會關(guān)系,使得人們能夠?qū)W習(xí)他人的意見。因此,人們傳播消息很大程度上受到其社交關(guān)系的影響。本文選擇粉絲用戶數(shù)、關(guān)注用戶數(shù)、博文發(fā)布數(shù)作為用戶特征,用于衡量一名用戶的社會關(guān)系的復(fù)雜程度和強弱程度。
在本文所研究的數(shù)據(jù)集中,CED_Dataset 數(shù)據(jù)集中傳播樹節(jié)點更多,即謠言事件本身的轉(zhuǎn)發(fā)或評論等交互信息更豐富,傳播結(jié)構(gòu)較為復(fù)雜;PHEME 數(shù)據(jù)集傳播結(jié)構(gòu)相對較為簡單。圖4 展示了兩個數(shù)據(jù)集的傳播樹的節(jié)點數(shù)量分布情況。
圖4 數(shù)據(jù)集傳播樹節(jié)點數(shù)量分布直方圖
從理論角度來看,根據(jù)Bai 等[19]的研究結(jié)果,當(dāng)傳播樹的結(jié)構(gòu)較為簡單時,謠言和非謠言之間的圖的全局結(jié)構(gòu)特征可能難以區(qū)分。因此,對于簡單的傳播樹,文本特征對于謠言檢測更為重要。從實際數(shù)據(jù)角度來看,在微博的信息傳播網(wǎng)絡(luò)結(jié)構(gòu)中,大量用戶僅僅轉(zhuǎn)發(fā)而不做評論,不存在文本內(nèi)容。
基于上述兩點原因,本文對CED_Dataset 數(shù)據(jù)集和PHEME 數(shù)據(jù)集采用不同的特征選擇策略。在CED_Dataset 數(shù)據(jù)集中,使用粉絲用戶數(shù)、關(guān)注用戶數(shù)和博文發(fā)布數(shù)3 個用戶屬性信息作為節(jié)點特征。PHEME 數(shù)據(jù)集中的傳播樹結(jié)構(gòu)更為簡單,只依靠用戶信息難以對是否為謠言進(jìn)行判斷。因此,PHEME 數(shù)據(jù)集中節(jié)點特征除了用戶的關(guān)注用戶數(shù)、粉絲用戶數(shù)和博文發(fā)布數(shù)特征以外,還包含了每個節(jié)點所包含的文本信息。對于節(jié)點的文本信息,本文使用Sentence-BERT(bidirectional encoder representations from transformers)[37]獲取其向量表示,將文本轉(zhuǎn)換為768 維向量,并將其作為節(jié)點特征的一部分。兩個數(shù)據(jù)集的具體使用特征信息如表2所示。
表2 CED_Dataset數(shù)據(jù)集和
PHEME數(shù)據(jù)集特征選擇
基于預(yù)處理的數(shù)據(jù)集,本文從3 個方面來全面驗證可解釋圖神經(jīng)網(wǎng)絡(luò)謠言識別模型:①網(wǎng)絡(luò)謠言識別的效果(4.2 節(jié));②基于傳播結(jié)構(gòu)的可解釋性分析(4.3 節(jié));③基于節(jié)點特征的可解釋性分析(4.4 節(jié))。
本文的實驗在Windows 10 操作系統(tǒng)和Python 3.7 環(huán)境下進(jìn)行。采用Pytorch Geometric 框架構(gòu)建謠言識別模型,并進(jìn)行模型訓(xùn)練。模型選擇的優(yōu)化器為Adam,損失函數(shù)為交叉熵,分類層激活函數(shù)為Sigmoid。超參數(shù)設(shè)置如表3 所示。
表3 超參數(shù)設(shè)置
本節(jié)使用訓(xùn)練后的圖神經(jīng)網(wǎng)絡(luò)模型對數(shù)據(jù)集進(jìn)行預(yù)測。對于預(yù)測的結(jié)果,使用準(zhǔn)確率(accuracy)、精確率(precision)、召回率(recall)和F1 值(F1 score)來衡量其準(zhǔn)確性。
本文設(shè)置了5 組實驗作為對照組,分別檢驗不同情況下的實驗結(jié)果以及本文模型的性能。各組實驗具體如下。
(1)支持向量機[38]:支持向量機是一種二分類算法,其目標(biāo)是得到最好的超平面,對數(shù)據(jù)進(jìn)行二元分類。經(jīng)過擴(kuò)展,支持向量機也能應(yīng)用于回歸問題。
(2)隨機森林[39]:隨機森林是Bagging 集成算法的一種,多顆隨機采樣變量的弱分類器組成了隨機森林。隨機森林的所有基評估器均是決策樹,模型的最終分類結(jié)果由子樹進(jìn)行投票得到。
(3)XGBoost[40]:XGBoost 是一種集成算法,通過優(yōu)化結(jié)構(gòu)化損失函數(shù)來生成弱學(xué)習(xí)器,糾正前面所有弱學(xué)習(xí)器的殘差,最終多個學(xué)習(xí)器共同用于預(yù)測。
(4)樸素貝葉斯[41]:樸素貝葉斯方法是一種基于貝葉斯定理和特征條件獨立假設(shè)的分類方法。
(5)GCN[14]:GCN 是基于不使用殘差連接的樸素圖操作的圖卷積網(wǎng)絡(luò)模型。
在實驗中,使用十折交叉驗證方法,實驗結(jié)果如表4 所示。比較表4 中不同模型的表現(xiàn)可以看出,本文設(shè)計的基于殘差圖卷積神經(jīng)網(wǎng)絡(luò)的謠言識別模型在兩個數(shù)據(jù)集上的所有評價指標(biāo)均優(yōu)于其他對照組模型,這充分證明了該模型的有效性和泛化性。在CED_Dataset 數(shù)據(jù)集上,GCN 模型超過了上述機器學(xué)習(xí)算法的性能;在PHEME 數(shù)據(jù)集上,GCN 模型的性能有所欠缺。而殘差圖卷積神經(jīng)網(wǎng)絡(luò)模型則分別在兩個數(shù)據(jù)集上大幅度地超過了上述所有算法模型的準(zhǔn)確性。此外,殘差圖卷積神經(jīng)網(wǎng)絡(luò)模型在僅使用少量特征的情況下仍然能夠得到較高的準(zhǔn)確性,從而驗證了該模型的魯棒性。
表4 謠言識別結(jié)果
圖神經(jīng)網(wǎng)絡(luò)解釋器通過學(xué)習(xí)傳播結(jié)構(gòu)中邊的掩碼并為邊生成權(quán)重,表示其對預(yù)測結(jié)果的影響程度。如上文所述,CED_Dataset 數(shù)據(jù)集中謠言信息擴(kuò)散范圍較廣,傳播樹結(jié)構(gòu)豐富;PHEME 數(shù)據(jù)集中謠言信息的擴(kuò)散范圍較小,傳播結(jié)構(gòu)相對簡單。因此,本節(jié)主要基于CED_Dataset 數(shù)據(jù)集解釋結(jié)構(gòu)特征在謠言識別中作用,下文分別從案例和全局層面對模型生成的解釋進(jìn)行闡述。
4.3.1 基于案例的傳播結(jié)構(gòu)可解釋性分析
抽取CED_Dataset 數(shù)據(jù)集中節(jié)點較多、結(jié)構(gòu)相對復(fù)雜的數(shù)據(jù)進(jìn)行案例分析,選取其中一則關(guān)于“火車盒飯價格”的謠言數(shù)據(jù)與關(guān)于“下架日系產(chǎn)品”的非謠言數(shù)據(jù)進(jìn)行對比。圖5 展示了這兩個樣本的原始網(wǎng)絡(luò)結(jié)構(gòu)以及標(biāo)記了邊權(quán)重的網(wǎng)絡(luò)結(jié)構(gòu)。圖5b 和圖5d 用顏色的深淺來表示邊權(quán)重的大小,連邊顏色越深,表示其權(quán)重越大,代表其在謠言識別模型的決策過程中越重要。
圖5 CED_Dataset典型案例——傳播結(jié)構(gòu)
由原始傳播網(wǎng)絡(luò)結(jié)構(gòu)(圖5a 和圖5c)可以看出,謠言案例的傳播樹呈現(xiàn)雙中心的結(jié)構(gòu),兩個中心的一層傳播節(jié)點數(shù)目分別占整體節(jié)點總數(shù)的32.4%與22.4%。在非謠言的信息傳播樹中,非謠言案例呈現(xiàn)以根節(jié)點為中心的單中心結(jié)構(gòu),其一層傳播節(jié)點數(shù)占整體節(jié)點數(shù)的86.6%,信息傳播的核心節(jié)點相對單一。此外,結(jié)合表5 可知,案例中的謠言網(wǎng)絡(luò)傳播鏈平均長度是非謠言的2 倍,說明其傳播深度比非謠言案例更深。
表5 CED_Dataset案例——傳播鏈平均長度
由圖5b 和圖5d 可以看出,在謠言案例中,兩個中心節(jié)點的一層傳播并沒有被賦予較高的權(quán)重,相反地,模型更多地關(guān)注長傳播鏈條的末段傳播部分;在非謠言的傳播結(jié)構(gòu)的解釋中,整體邊的權(quán)重未呈現(xiàn)顯著差異。
結(jié)合實際傳播過程中的具體討論內(nèi)容與用戶進(jìn)行分析發(fā)現(xiàn),在初始傳播階段,即一級轉(zhuǎn)發(fā)/評論中,用戶通常是基于自身經(jīng)歷對事件進(jìn)行客觀討論;隨著傳播繼續(xù)進(jìn)行,類似“欺騙消費者[抓狂]”的討論內(nèi)容增加,討論情緒傾向明顯增強。結(jié)合對案例中不同傳播層級的用戶屬性進(jìn)行分析。表6 展示了一至三級轉(zhuǎn)發(fā)/評論層次下的節(jié)點的用戶特征的平均情況,表明隨著轉(zhuǎn)發(fā)層次的深入,用戶的粉絲用戶數(shù)、關(guān)注用戶數(shù)、博文發(fā)布數(shù)逐漸減少,尤其是粉絲數(shù)顯著下降。
表6 CED_Dataset謠言案例——不同轉(zhuǎn)發(fā)層次節(jié)點特征均值
上述分析說明,隨著轉(zhuǎn)發(fā)層次的深入,轉(zhuǎn)發(fā)/評論者更多為在網(wǎng)絡(luò)中影響力較小的普通用戶,這些用戶對信息的甄別和篩選能力相對較弱[42],面對不確定性的謠言事件,容易引發(fā)不同立場并產(chǎn)生遞進(jìn)式的討論,使得謠言事件具有相對更深的傳播結(jié)構(gòu)。因此,較深的傳播結(jié)構(gòu)反映了該微博的不確定性與爭議性。而模型通過關(guān)注這些傳播鏈較長的傳播結(jié)構(gòu),有助于對謠言進(jìn)行判別。
4.3.2 基于全局的傳播結(jié)構(gòu)可解釋性分析
為進(jìn)一步探索普遍性的規(guī)律,本文結(jié)合社交網(wǎng)絡(luò)的屬性,分別對謠言和非謠言數(shù)據(jù)進(jìn)行全局統(tǒng)計分析。對謠言與非謠言傳播樹的節(jié)點數(shù)量、一級轉(zhuǎn)發(fā)/評論占比、近似傳播深度(以圖數(shù)據(jù)中最大傳播長度/節(jié)點總數(shù)來近似事件傳播的深度)的平均值進(jìn)行統(tǒng)計與可視化,如圖6 所示。
圖6a 展示了一級轉(zhuǎn)發(fā)/評論在傳播網(wǎng)絡(luò)中的占比情況,非謠言數(shù)據(jù)的一級轉(zhuǎn)發(fā)/評論占比呈現(xiàn)左偏分布,說明針對非謠言事件的討論主要直接發(fā)生在與原始信息之間,而謠言事件中直接轉(zhuǎn)發(fā)/評論占比分布相對均衡。在整體上,非謠言事件的直接轉(zhuǎn)發(fā)/評論占比大于謠言事件。圖6b 對比了謠言與非謠言傳播樹中信息傳播深度的分布情況,相比于非謠言事件,謠言事件的傳播層次更深。
總體而言,謠言事件更容易引發(fā)用戶間的深層次傳播。上述全局統(tǒng)計情況驗證了圖神經(jīng)網(wǎng)絡(luò)解釋器在具體案例中生成的解釋結(jié)論。Prasad[43]認(rèn)為,謠言是一種群體反應(yīng),具有情緒化的傾向。這在熟人之間的網(wǎng)絡(luò)中更加突出。劉于思等[44]的研究表明,熟人關(guān)系居多的社交網(wǎng)絡(luò)提升了人們之間的依賴度和信賴度,人們更傾向于彼此分享信息。因此,當(dāng)謠言事件出現(xiàn)在用戶的社交網(wǎng)絡(luò)中時,用戶往往傾向于通過轉(zhuǎn)發(fā)以分享情緒,在累次轉(zhuǎn)發(fā)的過程中,隨著轉(zhuǎn)發(fā)層次的遞增,情緒化現(xiàn)象變得越發(fā)嚴(yán)重,從而進(jìn)一步加劇了用戶對謠言的轉(zhuǎn)發(fā)。
如2.2 節(jié)所述,圖神經(jīng)網(wǎng)絡(luò)解釋器不僅可以通過邊權(quán)重的學(xué)習(xí)生成網(wǎng)絡(luò)結(jié)構(gòu)的解釋,也可以通過學(xué)習(xí)節(jié)點特征的掩碼得出節(jié)點特征的權(quán)重。某一節(jié)點特征的權(quán)重越高,說明在這個網(wǎng)絡(luò)中,該節(jié)點特征的改變對預(yù)測結(jié)果產(chǎn)生的影響越大。相較于CED_Dataset,PHEME 數(shù)據(jù)集擁有更豐富的節(jié)點特征,節(jié)點特征除了包含用戶的關(guān)注用戶數(shù)、粉絲用戶數(shù)和博文發(fā)布數(shù)外,還納入了每個節(jié)點所包含的文本特征信息。因此,本節(jié)主要基于PHEME 數(shù)據(jù)集,通過節(jié)點特征的重要程度來解釋節(jié)點特征在謠言識別中作用。
4.4.1 基于案例的節(jié)點特征可解釋性分析
選取PHEME 數(shù)據(jù)集中“悉尼人質(zhì)”事件下的謠言數(shù)據(jù)進(jìn)行分析。“悉尼人質(zhì)”事件是指2014 年12 月15 日澳大利亞悉尼市中心一家咖啡館發(fā)生的人質(zhì)劫持事件。下文結(jié)合一則事件中關(guān)于“炸彈布置”的謠言數(shù)據(jù)與一則關(guān)于“警方行動”的非謠言數(shù)據(jù)的節(jié)點特征進(jìn)行可解釋分析。
圖7 以謠言傳播樹的形式對比了謠言案例和非謠言案例的部分節(jié)點特征:①節(jié)點顏色深淺表示節(jié)點的博文發(fā)布數(shù),顏色越深表示數(shù)量越多;②節(jié)點大小表示節(jié)點粉絲用戶數(shù),節(jié)點越大表示數(shù)量越多;③節(jié)點的文本嵌入通常包含情感立場等語義信息,因此結(jié)合文本的立場進(jìn)行案例分析;④用邊的顏色表示子節(jié)點對其父節(jié)點的立場,可以劃分為認(rèn)同、不認(rèn)同、中立或無關(guān)三類,分別標(biāo)記為藍(lán)色、紅色與黑色。在圖7a 中,謠言案例的根節(jié)點和12號節(jié)點的博文發(fā)布數(shù)顯著大于其他節(jié)點,并且12號節(jié)點對根節(jié)點持不認(rèn)同的態(tài)度;而在圖7b 中,僅有根節(jié)點的博文發(fā)布數(shù)顯著大于其他節(jié)點。博文發(fā)布數(shù)代表了用戶的在社交平臺上的活躍度。從案例數(shù)據(jù)上看,在謠言案例的傳播中出現(xiàn)了高活躍度節(jié)點的對立;在非謠言案例中,整個傳播結(jié)構(gòu)由單個觀點輸出者主導(dǎo)。
圖7 PHEME案例傳播樹結(jié)構(gòu)
通過圖神經(jīng)網(wǎng)絡(luò)解釋器可以得出案例中不同特征對預(yù)測重要性的權(quán)重,其中,文本嵌入特征的權(quán)重由768 維文本嵌入權(quán)重的和得到,作為整體文本嵌入特征的重要性表示。對全部4 個特征的重要性進(jìn)行0-1 標(biāo)準(zhǔn)化,得出謠言和非謠言案例中各個特征的相對重要程度,可以發(fā)現(xiàn)文本嵌入特征相對重要程度超過99%,說明模型對案例是否為謠言的預(yù)測幾乎全部依賴于文本信息。
圖8 展示了謠言案例中的文本向量的情況,本文使 用t-SNE(t-distributed stochastic neighbor embedding)[45]對其進(jìn)行降維,將768 維向量轉(zhuǎn)化為32 維向量,并采用熱圖分組展示圖中13 個節(jié)點的文本向量。文本向量由上到下包括謠言原文、持認(rèn)同立場的文本、中立或無關(guān)立場的文本以及持不認(rèn)同立場的文本。如圖8所示,不同內(nèi)容、立場的文本在部分維度上存在顯著差異,圖中使用方框標(biāo)記了這些維度,說明文本向量包含了豐富的語義信息,對謠言識別有重要意義。
圖8 PHEME謠言案例——文本向量熱力圖
4.4.2 基于全局的節(jié)點特征可解釋性分析
為了進(jìn)一步探索普遍性的規(guī)律,參照上述案例分析對特征權(quán)重的處理對PHEME 整體數(shù)據(jù)集進(jìn)行統(tǒng)計,得出謠言和非謠言數(shù)據(jù)中各個特征的相對重要程度,具體如表7 所示。就PHEME 數(shù)據(jù)集而言,謠言識別模型在進(jìn)行預(yù)測時很大程度上依賴于傳播中的文本信息。其原因可能是,對于簡單的傳播網(wǎng)絡(luò),由于互動者較少,謠言和非謠言之間的網(wǎng)絡(luò)結(jié)構(gòu)特征相似,文本特征對于謠言的識別更為重要。
表7 PHEME數(shù)據(jù)集標(biāo)準(zhǔn)化重要性權(quán)重
利用KL 散度(Kullback-Leibler divergence)[46]驗證文本特征在謠言與非謠言上分布的差異性。經(jīng)計算,謠言的文本特征各維度重要性分布與非謠言的文本特征各維度重要性的KL 散度為0.342,說明謠言和非謠言的文本嵌入特征值在重要性分布上存在顯著差異。
此外,對謠言識別中的用戶屬性特征進(jìn)行統(tǒng)計分析并做可視化處理,圖9a~圖9c 所示為謠言數(shù)據(jù),圖9d~圖9f 所示為非謠言數(shù)據(jù);圖中對比了PHEME 數(shù)據(jù)集中謠言與非謠言傳播樹中用戶平均粉絲用戶數(shù)、平均關(guān)注用戶數(shù)、平均博文發(fā)布數(shù)的分布情況??梢钥闯?,謠言數(shù)據(jù)中的平均用戶粉絲用戶數(shù)、平均關(guān)注用戶數(shù)、平均博文發(fā)布數(shù)均少于非謠言數(shù)據(jù),這說明謠言數(shù)據(jù)中涉及的用戶在社交平臺上的影響力與活躍度均較低。另外,謠言與非謠言數(shù)據(jù)在用戶屬性特征上的分布相似,削弱了用戶屬性特征在謠言識別模型預(yù)測中的重要性。
圖9 PHEME數(shù)據(jù)集平均用戶數(shù)據(jù)分布直方圖
本節(jié)通過圖神經(jīng)網(wǎng)絡(luò)解釋器的學(xué)習(xí)分別生成基于節(jié)點特征的解釋和基于傳播結(jié)構(gòu)的解釋,結(jié)合案例分析與全局統(tǒng)計分析發(fā)現(xiàn):①從傳播結(jié)構(gòu)來看,一方面,非謠言的傳播結(jié)構(gòu)相對較為扁平,往往由信息源直接傳播到網(wǎng)絡(luò)中的絕大多數(shù)用戶,而謠言傳播縱深往往相對較長,經(jīng)由較多次轉(zhuǎn)發(fā)引發(fā)廣泛傳播與討論;另一方面,非謠言數(shù)據(jù)傳播核心單一,而謠言數(shù)據(jù)傳播中且容易出現(xiàn)雙中心甚至多中心的結(jié)構(gòu),引發(fā)觀點的對峙與辯論。②從傳播的用戶及內(nèi)容來看,謠言文本內(nèi)容本身是進(jìn)行謠言識別的根本依據(jù),尤其是在謠言傳播初期等傳播網(wǎng)絡(luò)較小的情形下。此外,謠言傳播涉及的用戶通常在社交媒體上影響力較低、活躍度較低。
針對當(dāng)前謠言識別研究中傳播網(wǎng)絡(luò)結(jié)構(gòu)信息應(yīng)用不足與可解釋性不足的問題,本文提出可解釋圖神經(jīng)網(wǎng)絡(luò)謠言識別框架。一方面,可通過殘差圖卷積網(wǎng)絡(luò)謠言識別模型充分挖掘謠言傳播網(wǎng)絡(luò)中的結(jié)構(gòu)信息,提高謠言識別準(zhǔn)確率;另一方面,可通過圖神經(jīng)網(wǎng)絡(luò)解釋器的學(xué)習(xí)分別生成基于節(jié)點特征的解釋和基于傳播結(jié)構(gòu)的解釋,提升模型的可解釋性與可信度。
根據(jù)研究發(fā)現(xiàn),謠言在傳播結(jié)構(gòu)上具有路徑長、中心多的特點,而涉及謠言傳播的用戶通?;钴S度與影響力較低。從謠言治理角度來看,在謠言傳播初期,需要更關(guān)注謠言文本,通過文本特征對謠言進(jìn)行有效快速識別;在謠言傳播后期,需要關(guān)注引發(fā)深度討論與傳播的事件,長而深的傳播鏈條對謠言識別起著關(guān)鍵作用。對于社交媒體用戶,在使用社交媒體時,也可以根據(jù)本文總結(jié)出的謠言傳播的結(jié)構(gòu)特點及內(nèi)容特征增強對謠言的辨別能力。
本文具有一定的理論意義和實踐價值。
理論意義上,在信息行為的視角下,本文將謠言識別任務(wù)結(jié)合圖神經(jīng)網(wǎng)絡(luò)進(jìn)行可解釋分析,可以有效挖掘謠言傳播行為發(fā)生的機理,從行為特征以及傳播結(jié)構(gòu)等方面提取模式和規(guī)律,從而更好地解釋和預(yù)測人們在不同情境下的謠言傳播行為,為驗證現(xiàn)有理論提供實證結(jié)果。在信息價值的視角下,本文在社交媒體數(shù)據(jù)的基礎(chǔ)上自動生成謠言識別的傳播網(wǎng)絡(luò)結(jié)構(gòu)和傳播節(jié)點屬性的雙重解釋,是決策中信息質(zhì)量和價值評估理論框架的一種新探索。
實踐價值上,在謠言鑒別方面,圖神經(jīng)網(wǎng)絡(luò)模型可以從海量社交媒體數(shù)據(jù)中篩選出潛在的謠言信息,并對其進(jìn)行分析和評估。這有助于平臺管理方了解謠言的傳播路徑、傳播者及其背后的潛在動機,從而更好地洞察謠言事件的本質(zhì)。在輿情治理方面,社交媒體上的謠言傳播對社會輿情產(chǎn)生深遠(yuǎn)影響,管理部門可以利用圖神經(jīng)網(wǎng)絡(luò)模型對謠言進(jìn)行實時檢測和可解釋性分析。有助于政府部門及時了解社會輿情的變化趨勢、民意的走向,并為政府決策提供依據(jù)。
未來可考慮傳播網(wǎng)絡(luò)的動態(tài)變化,進(jìn)一步提升謠言識別模型的性能。信息的傳播結(jié)構(gòu)是一個隨時間變化的過程,對此動態(tài)網(wǎng)絡(luò)進(jìn)行研究,有助于更深入地理解謠言傳播機制。