中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A
Short Text News Fake Detection Model Based on Aggregating External Knowledge and Internal Contextual Semantics
QIU Yanfang 1 , ZHAO Zhenyu 2 , SUN Zhijie', MA Kun’ , JI Ke1 , CHEN Zhenxiang 1
(1.a.School of Information Science and Engineering,b.Shandong KeyLaboratory of Ubiquitous Inteligent Computing, University of Jinan,Jinan 250O22,Shandong,China; 2. Shandong Talent Development Group Information Technology Co., Ltd., Jinan , Shandong,China)
Abstract:To adressthe problem ofsemantic feature sparsityin shorttext news and the neglectof the homology between external knowledge and thesemanticsof short-text news,ashort text news fake detection model basedonagregating external knowledge and internal contextual semantics (EKCS-ST)was proposed.A news feature information network was constructed,which included three typesof external knowledge,such as news topics,authors,and entities,to enrichthe semantic featuresof short text news.The exteral knowledge graph features of the news were generated through graph convolution.The newstext was fed intoa text encoder to capture internal contextual semantic features.These external knowledgegraph featuresand internal contextual semantic features were thenused in a context-aware computation to strengthen thecorrelation between external knowledgeand contextual semantics.Theatention mechanism wasutilized to selectand enhance the keyfeaturesof the news,whiletheloss errorfor minority-classnews was increased to mitigate the data imbalance issue.The results show that F1 score of the proposed model,which is the harmonic mean of precision and recall,is O.86,outperforming BERT and TextGCN models by 18% and 17% ,respectively,validating the effectiveness of the model.
Keywords: short text news fake detection;external knowledge;attention mechanism;semantic feature
自媒體發(fā)布了大量快訊、頭條等表達(dá)簡(jiǎn)短扼要的短文本新聞,未經(jīng)鑒別的新聞?wù)鎸?shí)性無(wú)法保證[1]。假新聞是一種虛假的敘述,未能真實(shí)反映客觀事物本來(lái)面貌,會(huì)給新聞相關(guān)的人物和社會(huì)大眾帶來(lái)困擾,降低新聞聚合平臺(tái)的社會(huì)公信力[2]。短文本新聞(如推文、標(biāo)題等)缺乏充足的上下文信息,使得人們從中提取有意義的特征變得困難[3]因此,利用智能檢測(cè)方法識(shí)別假短文本新聞已成為亟需解決的問(wèn)題[4]
假新聞的檢測(cè)方法可以分為傳統(tǒng)機(jī)器學(xué)習(xí)方法[5]和深度學(xué)習(xí)方法[]。傳統(tǒng)的機(jī)器學(xué)習(xí)方法主要依賴于人工提取新聞內(nèi)容特征,這些提取到的特征經(jīng)過(guò)支持向量機(jī)、決策樹等機(jī)器學(xué)習(xí)分類器的處理得到檢測(cè)結(jié)果。在這之后有人提出了深度學(xué)習(xí)方法,通過(guò)構(gòu)造神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)時(shí)間序列中的文本特征[7]。2016年循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型應(yīng)用于社交網(wǎng)絡(luò)假新聞檢測(cè),將事件中的帖子建模為一個(gè)連續(xù)的時(shí)間序列,在這之后文本分類卷積神經(jīng)網(wǎng)絡(luò)(TextCNN)[8]、長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)等模型也展現(xiàn)出在自然語(yǔ)言處理(NLP)領(lǐng)域的優(yōu)越性。此后研究者們將不同神經(jīng)網(wǎng)絡(luò)模型相結(jié)合,提出了諸如選區(qū)卷積神經(jīng)網(wǎng)絡(luò)(RCNN)[9]、卷積神經(jīng)網(wǎng)絡(luò)(CNN)與LSTM相結(jié)合的(C-LSTM)[o]等由不同網(wǎng)絡(luò)結(jié)合而成的模型。深度學(xué)習(xí)模型相較于傳統(tǒng)模型具有自動(dòng)學(xué)習(xí)內(nèi)容特征的能力,提高了假新聞檢測(cè)任務(wù)的效率和準(zhǔn)確率,但是在結(jié)合外部知識(shí)庫(kù)來(lái)進(jìn)行學(xué)習(xí)的方面還有所欠缺。2017年由Google提出的多層變換器(Transformer)的注意力機(jī)制被廣泛應(yīng)用于Seq2Seq模型中[11]。之后的學(xué)者相繼提出了雙向LSTM 構(gòu)建的 ELMo 模型[12],以及利用 Trans-former網(wǎng)絡(luò)捕獲長(zhǎng)距離語(yǔ)言結(jié)構(gòu)的中文預(yù)訓(xùn)練(CPT)模型[13]。由谷歌提出的基于 Transformer 的雙向編碼器表示(BERT)[14模型采用掩碼語(yǔ)言模型(MaskedLM)技術(shù)實(shí)現(xiàn)了雙向語(yǔ)言模型訓(xùn)練,較單向訓(xùn)練的語(yǔ)言模型能夠?qū)W習(xí)到更加深入的語(yǔ)境理解。XLNet模型[15通過(guò)最大化所有可能的因式分解順序的對(duì)數(shù)似然學(xué)習(xí)雙向語(yǔ)境信息。2019年,Liu 等[16]在BERT模型基礎(chǔ)上,再次對(duì)模型參數(shù)量、數(shù)據(jù)量以及訓(xùn)練方法進(jìn)行優(yōu)化,提出了優(yōu)于BERT模型的改進(jìn)版RoBERTa[1模型,但是模型提取的文本特征之間缺少相關(guān)性。
近幾年,不少學(xué)者利用構(gòu)建圖的方式進(jìn)行新聞檢測(cè)。2019年,Yao等[17]提出基于圖卷積網(wǎng)絡(luò)的文本分類(TextGCN)模型,利用文檔和單詞構(gòu)建網(wǎng)絡(luò),使用圖卷積方式訓(xùn)練。2020年,Zhang等[18]提出基于圖神經(jīng)網(wǎng)絡(luò)的歸納式文本分類(TextING)模型,利用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行分類訓(xùn)練,同年,Ding等[19]提出超圖注意力網(wǎng)絡(luò)(HyperGAT)模型,利用圖注意力網(wǎng)絡(luò)進(jìn)行分類訓(xùn)練。2019年, Hu 等[20]針對(duì)于短文本的圖異構(gòu)注意力網(wǎng)絡(luò)(HGAT)方法,在文本處理時(shí)加入了實(shí)體、主題2個(gè)額外特征信息,將不同類型的節(jié)點(diǎn)詞嵌入映射到同一個(gè)維度空間,展現(xiàn)出該模型在短文本分類方面的優(yōu)勢(shì)。2021年,Ren等[2]針對(duì)于假新聞檢測(cè)的層次圖注意模型HGAT,使用了一種新的分層注意機(jī)制進(jìn)行假新聞分類。2022年,Mehta等[22]提出根據(jù)新聞來(lái)源、發(fā)布的文章以及在社交媒體上吸引用戶之間的關(guān)系進(jìn)行推理的假新聞檢測(cè)方法。這些圖處理方式加入主題、實(shí)體等文本的多種附加特征,可以豐富文本特征,也提供了一種利用外部特征異構(gòu)的檢測(cè)假新聞方式,尤其是在短文本分類方面,可以很好地解決短文本分類語(yǔ)義缺失等缺陷。
現(xiàn)有的短文本新聞虛假檢測(cè)方法主要是提取新聞的上下文語(yǔ)義特征;但由于短文本新聞特征稀疏、上下文聯(lián)系弱、詞表達(dá)易產(chǎn)生歧義,使得從文本中提取有意義的特征變得困難[3],因此檢測(cè)準(zhǔn)確率低?,F(xiàn)有技術(shù)利用外部知識(shí)(比如新聞的主題詞)增強(qiáng)短文本新聞的上下文語(yǔ)義理解,然而,這些技術(shù)往往忽略了外部知識(shí)與新聞內(nèi)容之間的同源關(guān)聯(lián)性。盡管外部知識(shí)可以提供額外的語(yǔ)境信息;但由于沒(méi)有考慮到它們與新聞內(nèi)容之間的關(guān)系,因此可能導(dǎo)致對(duì)新聞?wù)鎸?shí)語(yǔ)義的理解不足或誤導(dǎo)。除此之外,數(shù)據(jù)集不均衡問(wèn)題也給短文本新聞的檢測(cè)帶來(lái)挑戰(zhàn)。
為了應(yīng)對(duì)上述挑戰(zhàn),本文提出一種外部知識(shí)與內(nèi)部上下文語(yǔ)義聚合的短文本新聞虛假檢測(cè)(EKCS-ST)模型。該模型可以同時(shí)處理短文本新聞的附加外部知識(shí)和原文內(nèi)部上下文語(yǔ)義特征,利用附加外部知識(shí)豐富短文本新聞?wù)Z義并建立與原文上下文語(yǔ)義特征之間密切的聯(lián)系。
本文的主要貢獻(xiàn)包括3個(gè)方面:
1)構(gòu)建新聞特征信息網(wǎng)絡(luò),包含新聞主題、作者、實(shí)體3種外部知識(shí),通過(guò)圖卷積操作提取特征并通過(guò)隱藏層生成新聞信息表示,形成新聞的外部知識(shí)圖特征;將新聞文本輸人多層Transformer結(jié)構(gòu)的文本編碼器,使用多頭注意力機(jī)制捕獲新聞內(nèi)部上下文語(yǔ)義特征。
2)開展上下文感知計(jì)算,聚合圖編碼器中的主題、實(shí)體、作者等外部知識(shí)圖特征與文本編碼器中的內(nèi)部上下文語(yǔ)義特征,加強(qiáng)外部知識(shí)與上下文語(yǔ)義的關(guān)聯(lián)。
3)嵌入模式級(jí)和點(diǎn)級(jí)注意力機(jī)制,篩選和強(qiáng)化新聞關(guān)鍵特征;通過(guò)計(jì)算模型預(yù)測(cè)值的平衡量,調(diào)高少數(shù)類新聞的損失誤差,緩解數(shù)據(jù)不均衡問(wèn)題。
EKCS-ST 模型
針對(duì)短文本新聞,EKCS-ST模型使用圖編碼器處理提取的新聞附加外部知識(shí)(主題、命名實(shí)體、作者信息),將新聞外部知識(shí)表示作為圖節(jié)點(diǎn)并利用圖卷積操作提取數(shù)據(jù)特征,在不同新聞特征之間構(gòu)建聯(lián)系,增強(qiáng)短文本新聞?wù)Z義特征和上下文關(guān)系;此外,EKCS-ST模型使用文本編碼器處理新聞內(nèi)部上下文語(yǔ)義特征,動(dòng)態(tài)處理生成的詞向量,結(jié)合上下文進(jìn)行學(xué)習(xí);將圖編碼器中學(xué)習(xí)的外部知識(shí)圖特征與文本編碼器學(xué)到的內(nèi)部上下文語(yǔ)義特征進(jìn)行上下文感知計(jì)算。在EKCS-ST模型中嵌入注意力機(jī)制,篩選和強(qiáng)化新聞關(guān)鍵特征,并且針對(duì)數(shù)據(jù)集不均衡問(wèn)題,在任務(wù)分類時(shí)通過(guò)計(jì)算模型預(yù)測(cè)值的平衡量,調(diào)高少數(shù)類新聞的損失誤差,緩解數(shù)據(jù)不均衡問(wèn)題。
1. 1 新聞特征信息網(wǎng)絡(luò)
圖1為新聞特征信息網(wǎng)絡(luò)示意圖。該圖左側(cè)為新聞信息網(wǎng)絡(luò),以新聞文本為根起點(diǎn)聚合了以新聞主題、實(shí)體、作者信息為節(jié)點(diǎn)的新聞附加知識(shí)。該圖右側(cè)為通過(guò)圖網(wǎng)絡(luò)隱藏層處理后形成的新聞信息表示。在形式上,給定一個(gè)圖 G=(V,E) ,其中 V ( ∣V∣=n) 和 E 分別是 n 個(gè)節(jié)點(diǎn)和節(jié)點(diǎn)間邊的集合。對(duì)于任意節(jié)點(diǎn),假設(shè)其與自身相連,即邊 (v,v)∈ E 。令 X∈Rn×m 為 n 個(gè)節(jié)點(diǎn)的特征矩陣,其中 m 為特征向量的維度,每行的元素 xv∈Rm 為對(duì)應(yīng)節(jié)點(diǎn)的特征向量。引入 G 的鄰接矩陣 A 及其度矩陣 D ,其中 。由于節(jié)點(diǎn)的聚合表征不包含它自己的特征,只有自環(huán)的節(jié)點(diǎn)才在聚合中包含自己的特征,因此須要給每個(gè)節(jié)點(diǎn)增加自連接,設(shè)置 A 的對(duì)角線元素為1。圖網(wǎng)絡(luò)通過(guò)一層卷積僅能捕獲近鄰的信息,多個(gè)卷積層堆疊可以聚合更大鄰域的信息。對(duì)于1層卷積層,新的 k 維節(jié)點(diǎn)特征矩陣 L1∈ Rn×k 由以下公式計(jì)算:
式中: L1 為1層卷積層中新的 k 維節(jié)點(diǎn)特征矩陣;
為歸一化對(duì)稱鄰接矩陣,
; W0∈
為該層的權(quán)重矩陣; ρ 為設(shè)置的激活函數(shù)。
進(jìn)一步地,通過(guò)堆疊多個(gè)卷積層可以合并高階鄰域信息,即
式中: j 為卷積層的層數(shù),當(dāng) j=0 時(shí), L0 為卷積層的層數(shù)為0時(shí)的圖節(jié)點(diǎn)特征矩陣,此時(shí) L0=X : Lj )Lj+1 分別為 X 通過(guò) j,j+1 層卷積層之后得到的特征矩陣; Wj 為 j 層卷積層的權(quán)重矩陣。
1.2 上下文感知計(jì)算
EKCS-ST模型使用文本編碼器提取新聞內(nèi)部上下文語(yǔ)義特征并處理為信息表示,然后與新聞附加外部知識(shí)特征聚合。文本編碼器是包含Transformer結(jié)構(gòu)的編碼器,每個(gè)編碼器都包含多頭自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò),以捕捉文本中的上下文信息。
EKCS-ST模型結(jié)構(gòu)如圖2所示。在新聞數(shù)據(jù)中提取附加知識(shí)特征與新聞上下文語(yǔ)義特征并輸入模型,分別訓(xùn)練圖編碼器和文本編碼器,生成待驗(yàn)證測(cè)試文章的內(nèi)部上下文語(yǔ)義特征表示、外部知識(shí)表示以及上下文感知表示。首先,文本編碼器以文本為輸入,訓(xùn)練模型完成新聞分類任務(wù),經(jīng)過(guò)訓(xùn)練的文本編碼器生成新聞內(nèi)部上下文語(yǔ)義特征 ,其中 dt 是文本編碼器的隱藏維數(shù), Rdt 表示一個(gè) dt 維的實(shí)數(shù)向量空間。文本編碼器中的多頭注意力可以捕獲輸入新聞序列中的不同位置信息,通過(guò)一個(gè)線性層生成最終的輸出表示,并且文本編碼器利用Transformer架構(gòu)實(shí)現(xiàn)雙向上下文表示,同時(shí)考慮文本中每個(gè)詞左、右兩側(cè)的上下文信息,獲得語(yǔ)義表示。然后,圖編碼器將新聞附加知識(shí)作為圖網(wǎng)絡(luò)節(jié)點(diǎn),利用圖卷積網(wǎng)絡(luò)融合多項(xiàng)新聞附加知識(shí)特征。經(jīng)過(guò)訓(xùn)練的圖編碼器能夠生成外部知識(shí)聚合的嵌入信息 hg={n1,n2,…,nm} ,其中 ni∈Rdg , dg 為圖編碼器的隱維數(shù), Rdg 為圖編碼器輸出的維度為 dg 特征空間。EKCS-ST模型的最終信息上下文感知表示計(jì)算為 T=hg°ledastrt ,其中
是聚合操作符。這種形式的聚合可以保留不同類別特征的信息,并且將內(nèi)部上下文語(yǔ)義和外部知識(shí)特征相結(jié)合。最后,利用聚合完成的信息特征對(duì)邏輯回歸分類器(LR)進(jìn)行訓(xùn)練。經(jīng)過(guò)訓(xùn)練的文本編碼器從內(nèi)容中捕獲對(duì)任務(wù)至關(guān)重要的上下文語(yǔ)義特征,經(jīng)過(guò)訓(xùn)練的圖形編碼器考慮各種類型信息的差異,融合多種重要附加外部知識(shí)特征,經(jīng)過(guò)上下文感知計(jì)算后,使用經(jīng)過(guò)訓(xùn)練的邏輯回歸分類器對(duì)新聞分類,最終得到預(yù)測(cè)新聞?lì)悇e是否為假的結(jié)果。
1.3 嵌入模式級(jí)和點(diǎn)級(jí)注意力機(jī)制
EKCS-ST模型嵌入點(diǎn)級(jí)注意力機(jī)制,捕獲圖網(wǎng)絡(luò)中不同相鄰節(jié)點(diǎn)的重要性,并降低有噪聲節(jié)點(diǎn)的權(quán)重,給定一個(gè)特定節(jié)點(diǎn) b 以及它的相鄰節(jié)點(diǎn) b′∈ Nb,Nb 是一個(gè)包含與節(jié)點(diǎn) b 相連的所有鄰居節(jié)點(diǎn)的集合,通過(guò)節(jié)點(diǎn) b 的嵌入表示 hb 和節(jié)點(diǎn) b′ 的嵌入表示 hb′ 來(lái)計(jì)算點(diǎn)級(jí)注意力得分 dbb′ ,計(jì)算公式為
dbb′=σ(νT?α|hb||hb′|),
式中: ∣ν∣ 為注意力向量; α 是節(jié)點(diǎn) b 和鄰居節(jié)點(diǎn) b′ 之間的注意力權(quán)重。
在訓(xùn)練和測(cè)試模型的過(guò)程中,短文本新聞數(shù)據(jù)集數(shù)據(jù)不均衡問(wèn)題顯著,使得模型檢測(cè)的評(píng)估變得困難,傳統(tǒng)的評(píng)估指標(biāo)(如準(zhǔn)確率)可能無(wú)法準(zhǔn)確反映模型的性能,須要利用 F1 值即精確率和召回率的調(diào)和平均值、召回率和精確率等來(lái)全面評(píng)估模型,并且模型的整體泛化能力也會(huì)受限。為了解決短文本新聞數(shù)據(jù)不均衡問(wèn)題,本文在模型訓(xùn)練時(shí),根據(jù)統(tǒng)計(jì)真假新聞的數(shù)量,計(jì)算得到對(duì)應(yīng)類別模型預(yù)測(cè)值的平衡量,對(duì)于占比較少的類別給予更大的損失誤差調(diào)整,加強(qiáng)其對(duì)損失函數(shù)的干預(yù),減小因數(shù)據(jù)不均衡給模型訓(xùn)練造成的影響
2 實(shí)驗(yàn)與結(jié)果分析
2.1 數(shù)據(jù)集介紹
Fakeddit數(shù)據(jù)集由Nakamura等[23]在2020年提出,包括文本、圖像、用戶評(píng)論和其他信息,是一個(gè)典型的短文本類型數(shù)據(jù)集。本文中選用的數(shù)據(jù)包含24706個(gè)新聞實(shí)例樣本,平均長(zhǎng)度為12.5個(gè)單詞,包含774名作者,多數(shù)新聞實(shí)例詞量在50個(gè)以下。數(shù)據(jù)集包含真假新聞比例為18:7,數(shù)據(jù)比例相對(duì)不均衡。
2.2 基線模型解析
在實(shí)驗(yàn)中分別以文本檢測(cè)模型和圖網(wǎng)絡(luò)模型為基線模型來(lái)驗(yàn)證EKCS-ST模型的性能。
2.2.1 文本檢測(cè)模型
預(yù)訓(xùn)練的語(yǔ)言表征模型BERT,利用Transformer架構(gòu)實(shí)現(xiàn)雙向上下文表示,能夠捕捉文本中的雙向語(yǔ)義信息。同時(shí)考慮文本中每個(gè)詞的左、右兩側(cè)上下文獲得更豐富的語(yǔ)義表示,生成深度的雙向語(yǔ)言表征。
RoBERTa模型包含多層Transformer編碼器,每個(gè)編碼器由多頭自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)組成,能夠有效地捕捉文本中的上下文信息。
上述2個(gè)模型均有基礎(chǔ)版(base)、大型版(large)。BERT-base、RoBERTa-base模型均包含12個(gè)隱藏層,處理維度為768維,包含12個(gè)頭注意力;BERT-large[24]、RoBERTa-large 模型均包含 24個(gè)隱藏層,處理維度為1024維,包含16個(gè)頭注意力。
2.2.2 圖網(wǎng)絡(luò)檢測(cè)模型
TextGCN模型:將文本語(yǔ)料庫(kù)建模為一個(gè)包含文檔和單詞節(jié)點(diǎn)的圖,利用圖卷積網(wǎng)絡(luò)融合節(jié)點(diǎn)的特征和鄰居節(jié)點(diǎn)的信息,
TextING模型:為每個(gè)文檔構(gòu)建單獨(dú)的圖,使用圖神經(jīng)網(wǎng)絡(luò)(GNN)學(xué)習(xí)基于它們的局部結(jié)構(gòu)的細(xì)粒度單詞表示,將單詞節(jié)點(diǎn)作為文檔嵌人被合并。
HGAT模型:引入注意力機(jī)制捕捉文本數(shù)據(jù)中的復(fù)雜關(guān)系和語(yǔ)義信息,將主題、實(shí)體特征與原文本構(gòu)建圖網(wǎng)絡(luò)并加入注意力機(jī)制,學(xué)習(xí)不同特征的重要性。
圖注意力網(wǎng)絡(luò)(GAT)模型[25:基于注意力機(jī)制的圖神經(jīng)網(wǎng)絡(luò)模型,可以學(xué)習(xí)圖數(shù)據(jù)中節(jié)點(diǎn)之間的復(fù)雜關(guān)系,每個(gè)節(jié)點(diǎn)都有一個(gè)特征向量表示,通過(guò)注意力機(jī)制,每個(gè)節(jié)點(diǎn)可以根據(jù)與其相鄰節(jié)點(diǎn)的特征動(dòng)態(tài)地分配不同的注意力權(quán)重。
圖卷積網(wǎng)絡(luò)(GCN)模型[26]:用于處理圖數(shù)據(jù)的深度學(xué)習(xí)模型,通過(guò)在圖結(jié)構(gòu)上執(zhí)行卷積操作來(lái)學(xué)習(xí)節(jié)點(diǎn)表示,聚合每個(gè)節(jié)點(diǎn)的鄰居節(jié)點(diǎn)特征,并將這些聚合后的特征與節(jié)點(diǎn)自身的特征相結(jié)合,從而更新節(jié)點(diǎn)的表示。
用于短新聞分類的GAT(GAT-SN)模型[27]:從新聞中提取多種外部知識(shí)和文本特征信息構(gòu)建為圖網(wǎng)絡(luò),嵌入雙注意力機(jī)制進(jìn)行訓(xùn)練,捕獲不同相鄰節(jié)點(diǎn)的重要性,降低有噪聲節(jié)點(diǎn)的權(quán)重。
2.3 對(duì)比實(shí)驗(yàn)結(jié)果分析
2.3.1不同文本編碼器實(shí)驗(yàn)
EKCS-ST模型使用的文本編碼器包含基礎(chǔ)版本、大型版本,根據(jù)版本不同將文本語(yǔ)義特征處理為768、1024維度的張量數(shù)據(jù),而圖編碼器生成的外部知識(shí)圖特征為512維張量數(shù)據(jù)。首先,將文本編碼器和圖編碼器這兩部分的特征表示處理為相同維度后聚合,在獲得文本內(nèi)部上下文語(yǔ)義特征的同時(shí)兼顧新聞附加外部知識(shí)特征;然后,在EKCS-ST模型中嵌入的注意力機(jī)制,可以篩選和加強(qiáng)新聞關(guān)鍵特征;最后,計(jì)算得到新聞對(duì)應(yīng)類別的平衡量,從而減少對(duì)模型檢測(cè)結(jié)果的影響。在短文本類型的假新聞識(shí)別任務(wù)中,占比較少的類是假新聞,所以實(shí)際實(shí)驗(yàn)中對(duì)假新聞數(shù)據(jù)的損失誤差調(diào)整更大,以減少對(duì)模型檢測(cè)結(jié)果的影響。
首先分別使用文本編碼器的基礎(chǔ)、大型版本進(jìn)行模型的訓(xùn)練和測(cè)試,實(shí)驗(yàn)結(jié)果見表1。由表可知:大型版本的EKCS-ST模型編碼器效果優(yōu)于基礎(chǔ)版本的,因?yàn)樵诖笮桶姹镜哪P椭邪懈鄬拥奶幚頇C(jī)制,維度也由768維變?yōu)?024維,文本處理性能更好,并且在其內(nèi)部包含的多頭注意力機(jī)制也從原來(lái)的12個(gè)變?yōu)?6個(gè),對(duì)重要新聞特征信息的識(shí)別更準(zhǔn)確。從相同文本編碼器的EKCS-ST模型分別使用模式級(jí)、點(diǎn)級(jí)注意力機(jī)制的實(shí)驗(yàn)結(jié)果可以看出,點(diǎn)級(jí)注意力機(jī)制可以更好地篩選新聞重要特征,捕獲圖網(wǎng)絡(luò)中不同相鄰節(jié)點(diǎn)的重要性,并減小有噪聲節(jié)點(diǎn)的權(quán)重,因此EKCS-ST模型使用點(diǎn)級(jí)注意力機(jī)制的性能優(yōu)于另外2種機(jī)制。
在實(shí)驗(yàn)數(shù)據(jù)集中,EKCS-ST模型測(cè)試了真實(shí)出現(xiàn)的一些假新聞。例如,在2020年新型冠狀病毒感染防控期間,網(wǎng)絡(luò)上曾假借鐘南山院士的名義散布“這場(chǎng)瘟疫比17年前的非典更嚴(yán)重,用的藥副作用更大。一旦染上,就算治愈了,后遺癥也會(huì)拖累后半生”的謠言。EKCS-ST模型對(duì)這條新聞進(jìn)行了驗(yàn)證,輸出結(jié)果表明這是一條假新聞。通過(guò)網(wǎng)絡(luò)平臺(tái)上相關(guān)信息的驗(yàn)證,這條新聞確實(shí)是假新聞,這也證明了模型的有效性。
2.3.2 基線模型對(duì)比實(shí)驗(yàn)
EKCS-ST模型與基線模型對(duì)比的實(shí)驗(yàn)結(jié)果如表2所示,分別嵌人點(diǎn)級(jí)注意力機(jī)制、模式級(jí)注意力機(jī)制,選用準(zhǔn)確率、 F1 值、損失值3個(gè)評(píng)價(jià)指標(biāo)對(duì)比實(shí)驗(yàn)結(jié)果。由表可以看出,EKCS-ST模型在3個(gè)評(píng)價(jià)指標(biāo)上的性能優(yōu)于其他基線模型的,尤其在點(diǎn)級(jí)注意力機(jī)制的嵌入時(shí)EKCS-ST模型性能最優(yōu),其準(zhǔn)確率、 F1 值均大于其他基線模型的,損失值均小于基線模型的。
注: ① BERT-base為基于多層變換器的雙向編碼器表示模型的基礎(chǔ)版本。 ② BERT-large為BERT的大型版本。 ③ RoBERTa-base為改進(jìn)版BERT的基礎(chǔ)版本。 ④ RoBERTa-large為改進(jìn)版BERT的大型版本。 ⑤ TextGCN為基于圖卷積網(wǎng)絡(luò)的文本分類模型。 ⑥ TextING為基于圖神經(jīng)網(wǎng)絡(luò)的歸納式文本分類模型。 ⑦ HGAT為圖異構(gòu)注意力網(wǎng)絡(luò)。 ⑧GAT 為圖注意力網(wǎng)絡(luò)。 ⑨GCN 為圖卷積網(wǎng)絡(luò)。 ⑩ GAT-SN 為用于短新聞分類的GAT。 ?F1 值為精確率與召回率的調(diào)和平均值。
在同一數(shù)據(jù)集中,BERT、RoBERTa模型的大型版本的檢測(cè)結(jié)果整體優(yōu)于基礎(chǔ)版本的,這2個(gè)模型都是通過(guò)大規(guī)模的無(wú)監(jiān)督語(yǔ)言模型訓(xùn)練數(shù)據(jù)來(lái)學(xué)習(xí)文本表示,主要通過(guò)上下文語(yǔ)義信息表示來(lái)完成新聞檢測(cè);但是2個(gè)模型都以提取原文中的文本特征為新聞檢測(cè)任務(wù)的依據(jù),在檢測(cè)短文本新聞時(shí)存在短文本語(yǔ)義稀疏、上下文表示難以提取且數(shù)據(jù)不均衡問(wèn)題,所以檢測(cè)準(zhǔn)確率低于檢測(cè)長(zhǎng)文本數(shù)據(jù)集時(shí)的。EKCS-ST模型則在兼顧新聞內(nèi)部上下文語(yǔ)義特征的同時(shí),將幾種不同的外部知識(shí)特征加入其中,改善短文本語(yǔ)義稀疏、上下文表示難以提取的問(wèn)題,并且方法中嵌入的注意力機(jī)制可以幫助模型篩選和強(qiáng)化關(guān)鍵特征,提高模型檢測(cè)任務(wù)的準(zhǔn)確率。除此之外,調(diào)整模型的損失誤差,加強(qiáng)對(duì)損失函數(shù)的干預(yù),減小了數(shù)據(jù)不均衡帶來(lái)的影響,EKCS-ST模型的性能優(yōu)于用于對(duì)比的文本檢測(cè)模型。由于短文本數(shù)據(jù)具有特征少難提取的特點(diǎn),TextGCN模型和TextING模型這2種圖網(wǎng)絡(luò)檢測(cè)模型構(gòu)建的圖特征網(wǎng)絡(luò)較為簡(jiǎn)單,因此檢測(cè)短文本數(shù)據(jù)集的準(zhǔn)確率比檢測(cè)長(zhǎng)文本數(shù)據(jù)集的低。HGAT模型和GAN-ST模型都利用新聞文本的附加外部特征構(gòu)建圖網(wǎng)絡(luò),由于缺少文本內(nèi)部上下文語(yǔ)義特征的使用,并且沒(méi)有調(diào)整數(shù)據(jù)集中的數(shù)據(jù)不均衡問(wèn)題,因此這2種模型檢測(cè)數(shù)據(jù)不均衡的短文本新聞數(shù)據(jù)集的準(zhǔn)確率低于檢測(cè)長(zhǎng)文本數(shù)據(jù)集的。由于GAT模型和GCN模型中未加入新聞主題、實(shí)體等外部知識(shí)特征,并且未篩選和強(qiáng)化新聞關(guān)鍵特征,因此導(dǎo)致這2個(gè)模型在短文本新聞虛假檢測(cè)中存在缺陷。
綜上分析,與基于文本語(yǔ)義特征的檢測(cè)模型和基于圖特征網(wǎng)絡(luò)的檢測(cè)模型相比,EKCS-ST模型聚合新聞外部知識(shí)與內(nèi)部上下文語(yǔ)義特征,增強(qiáng)了外部知識(shí)特征與內(nèi)部上下文語(yǔ)義的關(guān)聯(lián),并且針對(duì)數(shù)據(jù)的不均衡問(wèn)題,在模型訓(xùn)練階段采用了邏輯回歸調(diào)整模型Logit以調(diào)整模型輸出損失誤差的方法,有效地減少了因數(shù)據(jù)不均衡給模型分類結(jié)果帶來(lái)的誤差。除此之外,EKCS-ST模型嵌入注意力機(jī)制,對(duì)不同類型特征給予對(duì)應(yīng)的權(quán)重,篩選和強(qiáng)化關(guān)鍵特征,提高有效信息的利用,其中在點(diǎn)級(jí)注意力機(jī)制的嵌入中表現(xiàn)突出。
3結(jié)論
本文中提出一種外部知識(shí)與內(nèi)部上下文語(yǔ)義聚合的短文本新聞虛假檢測(cè)模型(EKCS-ST模型),該模型的優(yōu)勢(shì)在于提取多種附加外部知識(shí)豐富短文本新聞的語(yǔ)義信息,并同時(shí)考慮新聞內(nèi)部上下文語(yǔ)義特征和附加外部知識(shí)在假新聞檢測(cè)任務(wù)中的同源關(guān)聯(lián)性,理解新聞數(shù)據(jù)的整體結(jié)構(gòu)和上下文語(yǔ)義。實(shí)驗(yàn)結(jié)果表明,EKCS-ST模型的性能優(yōu)于其他的基線模型。另外,在模型中嵌人的注意力機(jī)制篩選和強(qiáng)化新聞特征信息在檢測(cè)任務(wù)中的作用,通過(guò)計(jì)算模型預(yù)測(cè)值的平衡量,調(diào)高少數(shù)類新聞的損失誤差,緩解數(shù)據(jù)不均衡問(wèn)題
未來(lái)工作主要包括兩方面:1)EKCS-ST模型主要針對(duì)短文本類型假新聞檢測(cè),后期的研究將長(zhǎng)文本與短文本作為共同研究?jī)?nèi)容,進(jìn)一步完善模型結(jié)構(gòu);2)挖掘外部知識(shí)的深層應(yīng)用,通過(guò)挖掘不同外部知識(shí)庫(kù)、多類型信息特征的方式開展假新聞檢測(cè)。
參考文獻(xiàn):
[1] 張明道,周欣,吳曉紅,等.基于語(yǔ)義擴(kuò)充和HDGCN的虛假 新聞聯(lián)合檢測(cè)技術(shù)[J].計(jì)算機(jī)科學(xué),2024,51(4):299.
[2] 王騰,張大偉,王利琴,等.多模態(tài)特征自適應(yīng)融合的虛假新 聞檢測(cè)[J].計(jì)算機(jī)工程與應(yīng)用,2024,60(13):102.
[3] TOMMASEL A,GODOY D. Short-text feature construction and selection in social media data:a survey[J]. Artificial Intelligence Review,2018,49(3):301.
[4] ZHOUXY,ZAFARANIR,SHUK,etal.Fake news:fundamental theories,detection strategiesand challenges[C]//Proceedings of theTwelfthACMInternationalConferenceonWebSearchandData Mining,F(xiàn)ebruary11-15,2O19,Melbourne,VIC,Australia.New York:ACM,2019:836.
[5] 李海霞,宋丹蕾,孔佳寧,等.傳統(tǒng)機(jī)器學(xué)習(xí)模型的超參數(shù)優(yōu) 化技術(shù)評(píng)估[J].計(jì)算機(jī)科學(xué),2024,51(8):242. 研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2024,47(6):1244.
[7] MINAEE S,KALCHBRENNER N,CAMBRIA E et al. Deep learning-based text classification:a comprehensive review[J]. ACM Computing Surveys, 2021, 54(3) : 62.
[8]ZHANG T Y,YOU F C.Research on short text clasification based on TextCNN[J]. Journal of Physics:Conference Series, 2021,1757(1) : 012092.
[9]CHENG BW,WEI Y C,SHI HH,et al. Revisiting RCNN:On awakening the classfication power of faster RCNN[ C]//FERRARI V,HEBERT M, SMINCHISESCU C,et al. Computer Vision : ECCV 2018. Cham:Springer,2018:473.
[10]SHI MY,WANG KX,LI C F. A C-LSTM with word embedding model for news text classification[C]//2019 IEEE/ACIS 18th International Conference on Computer and Information Science (ICIS),June 17-19,2019,Beijing,China.New York: IEEE, 2019:253.
[11]LIU T Y,WANG K X,SHA L,et al. Table-to-text generation by structure-aware seq2seq learning[ C]//Proceedings of the AAAI Conference on Artificial Intelligence,F(xiàn)ebruary 2-7,2O18,New Orleans,Louisiana,USA. Palo Alto,CA: AAAI,2018: 4881.
[12]MASLENNIKOVA E. ELMO word representations for news protection[C]/CEUR Workshop Proceedings,September 9-12,2019, Lugano,Switzerland.Lugano:CEUR-WS. Org,2019:1.
[13]SHAO Y F,GENG Z C, LIU Y T,et al. CPT: a pre-trained unbalanced transformer for both chinese language understanding and generation[J]. Science China: Information Sciences,2024,67 (5):152102.
[14]DEVLIN J, CHANG MW,LEE K,et al. BERT: pre-training of deep bidirectional transformers for language understanding[ C]/ Proceedings of the2O19 Conferenceof the North American Chapter of the Association for Computational Linguistics: Human Language Technologies,June2-7,2019,Minneapolis,MN,USA.Stroudsburg:ACL,2019: 4171.
[15]YANG Z L,DAI Z H, YANG Y M,et al. XLNet:generalized autoregressve pretraining for language understanding[ C]//WALLACH H M,LAROCHELLE H,BEYGELZIMER A,et al. NIPS’19:Proceedings of the 33rd International Conference on Neural Information Processing Systems. Red Hook: Curran Associates Inc,2019:5753.
[16]LIU Y H, OTT M, GOYAL N,et al.RoBERTa: a robustly optimized bert pretraining approach[EB/OL].(2019-07-26)[2024- 05-01]. htps://doi.org/10.48550/arXiv.1907.11692.
[17]YAO L,MAO C S,LUO Y. Graph convolutional networks for text classification[ C]//Proceedings of the AAAI conference on artificial intelligence,January 27-February1,2019,Honolulu, Hawaii, USA. Menlo Park: AAAI Press,2019:7370.
[18]ZHANG Y F,YU X L,CUI Z Y,et al. Every document owns its structure:inductive text classification via graph neural networks [C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics,July 5-10,2020,Online.Stroudsburg:ACL,2020: 334.
[19]DINGK,WANGJL,LIJD,etal.Be more with less:hypergraphattention networks for inductive text classification[C]//2020 Conference on Empirical Methods in Natural Language Processing,November16-20,2020,Online.Stroudsburg:ACL,2020: 4927.
[20] HU L M,YANG TC,SHI C,et al.Heterogeneous graph attentionnetworks for semi-supervised short text classification[C]// Proceedings of the 2O19 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing,November 3-7,2019, HongKong,China.Stroudsburg:ACL,2019:4823.
[21] RENYX,ZHANGJW.Fake newsdetection onnews-oriented heterogeneous information networks through hierarchical graph attention[C]//2O21 International Joint Conference on Neural Networks(IJCNN),July 18-22,2021,Shenzhen,China.New York:IEEE,2021:1.
[22] MEHTAN,PACHECOML,GOLDWASSERD. Tackling fake newsdetectionbycontinually improving social contextrepresentations using graph neural networks[C]//Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics, May22-27,2022,Dublin,Ireland.Stroudsburg:ACL,2022: 1363.
[23]NAKAMURA K, LEVY S,WANG WY. Fakeddit: a new multimodal benchmark dataset for fine-grained fake news detection [C]//Proceedings of the Twelfth Language Resources and EvaluationConference,May11-16,2O2O,Marseille,F(xiàn)rance.Paris: European Language Resources Association,2O2O:6149.
[24] WANG S, GUO Y Z, WANG Y H, et al. SMILES-BERT: large scaleunsupervised pre-training for molecularproperty prediction [C]//Proceedings of the 1Oth ACM International Conference on Bioinformatics,Computational Biology and Health Informatics, September7-1O,2019,NewYork,NY,USA.NewYork:ACM, 2019:429.
[25]VELICKOVIC P,CUCURULL G,CASANOVA A,et al. Graph attention networks[C]//6th International Conference on Learning Representations,April30-May3,2018,Vancouver,BC,Canada. [S.1.]:OpenReview,2018:339.
[26] ZHOU Y C,HUO HT,HOU Z W,et al.A deep graph convolutionalneural network architecture for graph classification[J]. PLoSOne,2023,18(3):e0279604.
[27]SUN Z J. Graph attention network for short text type news[C]// Proceedings of the 2O23 6th International Conference on Big Data Technologies,September 22-24,2O23,Qingdao,China.NewYork: ACM,2023:66.
(責(zé)任編輯:劉飚)