米 源,唐恒亮,2
1.北京物資學(xué)院 信息學(xué)院,北京101149
2.北京工業(yè)大學(xué) 多媒體與智能軟件技術(shù)北京市重點實驗室,北京100124
互聯(lián)網(wǎng)時代,社交媒體成為最大的信息傳播渠道。有研究發(fā)現(xiàn),與傳統(tǒng)大眾媒體不同,社交媒體傳播信息速度快、范圍廣,正成為網(wǎng)絡(luò)謠言的主要傳播渠道。網(wǎng)絡(luò)謠言是以互聯(lián)網(wǎng)媒體平臺或網(wǎng)頁為主要載體,公開或半公開的傳播未經(jīng)證實或缺乏事實依據(jù)的信息,混淆視聽形成替代性新聞。造謠者借助事件本身的重要性以及網(wǎng)絡(luò)信息的模糊性,利用富有煽動性的語氣蠱惑網(wǎng)民對謠言進行轉(zhuǎn)發(fā),擴大傳播面積,將事件推向輿論中心。例如“是中國人就轉(zhuǎn)”“信不信由你”等都是常見擴散網(wǎng)絡(luò)謠言的煽動性語句。倘若未證實的消息上升為公眾話題,很可能混亂社會治安,形成謠言風(fēng)暴,造成一系列難以預(yù)見的連鎖反應(yīng)。
自武漢衛(wèi)健委通報不明原因肺炎事件開始,新冠肺炎病毒已引起國內(nèi)外公眾的關(guān)注,隨之而來的是,網(wǎng)絡(luò)上出現(xiàn)各類不實的信息。從初期的“吸煙可以預(yù)防非典,因為煙油可以阻擋病毒進入肺細胞”“吃維生素C泡騰片能預(yù)防新型冠狀病毒”等傳播虛假健康消息、影響疫情防控工作的謠言,到最近的“特朗普新冠病毒測試結(jié)果呈陽性”等可能造成社會恐慌的謠言,可以看出,借助網(wǎng)絡(luò)傳播渠道,網(wǎng)絡(luò)中的謠言對社會生活已造成極壞的影響。
目前網(wǎng)絡(luò)謠言信息繁雜,國內(nèi)外網(wǎng)絡(luò)謠言治理主要是依靠政府網(wǎng)絡(luò)管理部門監(jiān)管及一些公司建立的網(wǎng)絡(luò)辟謠平臺。鑒于手工監(jiān)測網(wǎng)絡(luò)謠言存在周期性和滯后性,因此對網(wǎng)絡(luò)謠言實現(xiàn)自動鑒別,具有較為緊迫的現(xiàn)實意義。
鑒于網(wǎng)絡(luò)信息龐大,同時社交類本文其字?jǐn)?shù)少、特征分散的特點,有些網(wǎng)絡(luò)謠言信息很難被技術(shù)識別。例如在關(guān)鍵詞中插入字符、中英文交替、使用拼音疊字諧音字等,甚至采用隱喻、反語等手法,均可在一定程度上避開句式特征的截取。
研究發(fā)現(xiàn)網(wǎng)絡(luò)謠言存在規(guī)律性,常見的謠言樣式可見表1??偨Y(jié)分析這些規(guī)律對實現(xiàn)網(wǎng)絡(luò)謠言實時監(jiān)測和主動預(yù)警有重要意義。
表1 常見謠言樣式
此外,與真實信息在字面上差別很小的謠言或不包含詞庫關(guān)鍵詞的謠言很難被鑒別。為實現(xiàn)謠言文本特征的精準(zhǔn)鑒別,大量的學(xué)者主要建立敏感詞庫和采用機器學(xué)習(xí)、深度學(xué)習(xí)、強化學(xué)習(xí)等技術(shù)的網(wǎng)絡(luò)謠言鑒別方法。
眾多學(xué)者從識別謠言的要素入手,構(gòu)造相關(guān)特征實現(xiàn)對網(wǎng)絡(luò)謠言的自動鑒別。很多研究一般是從敏感事件和熱點話題的敏感詞庫和熱點詞庫入手,類似于關(guān)鍵字提取,采用計算特征詞權(quán)重的方法,取得了較好的效果。
構(gòu)建敏感詞庫主要在于識別敏感詞匯信息、提取及擴展敏感詞匯[1]。學(xué)者們大多通過人工標(biāo)記或者基于傳統(tǒng)權(quán)重計算方法[2]去衡量與選擇敏感信息,構(gòu)建的詞庫多為專業(yè)詞匯。隨后,基于詞庫去迭代地識別敏感信息。僅僅構(gòu)建基礎(chǔ)詞庫對網(wǎng)絡(luò)謠言的鑒別是不夠的,需要對其進行不斷擴充從而得到較為完備的詞庫。詞庫擴展,同樣類似于關(guān)鍵字?jǐn)U展,可通過聚類等相關(guān)算法計算詞義相似性或語義相似性進行敏感詞匯的擴充[3]。劉耕等[4]采用基于廣義的jaccard 系數(shù)方法來計算詞匯間相似性,擴充得到敏感詞的相關(guān)聯(lián)詞匯。Chen等[5]提取詞典中近似敏感詞庫語義信息的詞作為擴展。Yu等[6]主要是通過調(diào)用嵌入在Web瀏覽器中的分析器來獲取DOM 結(jié)構(gòu)以及視覺相關(guān)信息的VIPS(VIsion-based Page Segmentation)算法進行查詢擴展。Pnote等[7]將詞頻和文檔頻率按綜合頻率對詞信息進行排序,提出將統(tǒng)計語言模型和信息檢索相結(jié)合的擴展方法。Pedersen等[8]通過聚類算法實現(xiàn)到語義擴展。Turney等[9]通過計算傾向性基準(zhǔn)詞與目標(biāo)詞匯間相似度的方法識別詞匯語義傾向性。Neviarouskaya等[10]通過同義詞和反義詞的關(guān)系、上下文語義關(guān)系、推導(dǎo)關(guān)系以及與已知的詞匯單位復(fù)合來進行詞庫的擴展。Peng 等[11]利用線性鏈條件隨機場(CRFs)來進行基于字、詞、多詞等形式的領(lǐng)域集成的中文分詞,并通過基于概率的新詞檢測方法進行新詞識別。彭云等[12]從詞義理解、句法分析等角度獲得詞語間語義關(guān)系,并將其嵌入到主題模型,提出基于語義關(guān)系約束的主題模型SRC-LDA,從而實現(xiàn)主題詞的提取。Castillo 等[13]歸納文本特征、用戶特征、傳播特征和話題特征4個方面的要素以鑒別謠言,并在此基礎(chǔ)上總結(jié)出15項關(guān)鍵特征并利用決策樹算法實現(xiàn)對謠言的檢測。Ma 等[14]考慮謠言演變的時間特征,使用動態(tài)時間序列模型對謠言進行鑒別。祖坤琳等[15]基于微博的評論消息,將微博評論的情感傾向性加入模型,實現(xiàn)謠言的有效鑒別。李吉等[16]構(gòu)建基于PAD 模型的網(wǎng)絡(luò)口碑情感強度測度模型,實時監(jiān)控網(wǎng)絡(luò)口碑輿情。王晰巍等[17]構(gòu)建基于移動環(huán)境下網(wǎng)絡(luò)輿情用戶評論情感分析模型,加強移動環(huán)境下網(wǎng)絡(luò)輿情信息監(jiān)管。
以上所提到的方法雖然已取得一定效果,但是大多基于手工提取特征,只實現(xiàn)謠言特征的淺層提取,因而無法進一步提升準(zhǔn)確率。鑒于深度學(xué)習(xí)技術(shù)可對文本特征進行深層提取,于是基于深度學(xué)習(xí)的網(wǎng)絡(luò)謠言鑒別方法成為主流。
Ma等[18]使用RNN及其衍生模型對Tweet謠言事件進行深層特征提取,實現(xiàn)網(wǎng)絡(luò)謠言的有效鑒別。Chen等[19]在此基礎(chǔ)上,引入注意力機制,同樣取得較好效果。Zhang等[20]提出借助多層自編碼器實現(xiàn)對謠言的無監(jiān)督學(xué)習(xí)鑒別方式。Chen等[21]引入層次網(wǎng)絡(luò),采用多層RNN模型,進一步提升模型的效果。劉勘等[22]提出一種深度遷移網(wǎng)絡(luò),以Multi-BiLSTM 網(wǎng)絡(luò)為基礎(chǔ),加入MMD 統(tǒng)計量計算的領(lǐng)域分布差異,訓(xùn)練過程中同時學(xué)習(xí)源領(lǐng)域的標(biāo)簽損失與領(lǐng)域間的分布差異,完成標(biāo)簽信息在領(lǐng)域間的有效遷移。
傳統(tǒng)機器學(xué)習(xí)模型與深度學(xué)習(xí)模型都通過提取文本信息來實現(xiàn)網(wǎng)絡(luò)謠言鑒別[23],但都存在一個問題:模型需要借助海量的標(biāo)注數(shù)據(jù)來訓(xùn)練得到相關(guān)參數(shù)。但目前網(wǎng)絡(luò)謠言的標(biāo)注大都需要用時較長的官方辟謠來實現(xiàn)人工標(biāo)注數(shù)據(jù),于是本文針對這一問題,提出采用半監(jiān)督學(xué)習(xí)的圖卷積網(wǎng)絡(luò)來探尋解決方法。將大量的無標(biāo)注數(shù)據(jù)和有限的有標(biāo)注數(shù)據(jù)引入圖卷積網(wǎng)絡(luò),通過聚合節(jié)點鄰域,不斷地訓(xùn)練模型,進一步提升網(wǎng)絡(luò)謠言鑒別的準(zhǔn)確性和穩(wěn)定性。
圖卷積網(wǎng)絡(luò)GCN 可以看作是常規(guī)卷積網(wǎng)絡(luò)CNN的改編,用于對非結(jié)構(gòu)化數(shù)據(jù)的本地信息進行編碼。本文使用圖卷積網(wǎng)絡(luò)GCN對所有帶標(biāo)注的節(jié)點進行基于監(jiān)督損失函數(shù)的訓(xùn)練,并使其能夠?qū)W習(xí)所有節(jié)點(有標(biāo)注或無標(biāo)注)的表示。在半監(jiān)督學(xué)習(xí)中,圖卷積網(wǎng)絡(luò)GCN通過聚合當(dāng)前有標(biāo)注節(jié)點及節(jié)點附近無標(biāo)記節(jié)點的特征來生成當(dāng)前有標(biāo)注節(jié)點的特征表示。通過計算已知有標(biāo)注節(jié)點的損失函數(shù),反向傳播更新所有節(jié)點之間的共享權(quán)重,以此達到訓(xùn)練模型的目的。
對于具有k個節(jié)點的給定圖G=(V,E),其中V是圖G的節(jié)點集,E是圖G中節(jié)點間的邊集。圖G中節(jié)點的數(shù)量為文檔節(jié)點的數(shù)量與詞匯節(jié)點的數(shù)量之和,即|V|=k。圖G中邊集E包含兩種邊,分別是文檔節(jié)點與其所屬詞匯節(jié)點間的邊和詞匯間的邊。其中,詞匯間的邊只選取每個詞匯與其左側(cè)詞匯、右側(cè)詞匯間的邊,以利用語句中的詞序信息。在圖卷積運算時,由于每個文檔的詞匯數(shù)量不同,故文檔節(jié)點附近的鄰居節(jié)點是不固定的。
本文將單位矩陣I∈Rk×k設(shè)置為初始特征矩陣X,其中每個詞匯與文檔的向量被表示為one-hot形式。為了方便起見,將節(jié)點i的第l層的輸出表示為其中表示節(jié)點i的初始狀態(tài)。對于一個L層的圖卷積網(wǎng)絡(luò)GCN,l∈[1,2,…,L],是節(jié)點i的最終狀態(tài)。由于圖卷積操作僅編碼直接鄰居的信息,因此一個L層圖卷積網(wǎng)絡(luò)GCN(如圖1 所示)其圖中的節(jié)點只能受到L步內(nèi)的相鄰節(jié)點的影響。對圖中節(jié)點i的圖卷積操作可表示為:
圖1 GCN模型
其中,Wl是可訓(xùn)練線性變換權(quán)重矩陣,bl是偏置項,A∈Rk×k為圖G的帶自環(huán)鄰接矩陣,TFIDFij表示文檔節(jié)點i中詞匯節(jié)點j的詞頻逆文檔頻率(TF-IDF),D∈Rk×k為圖G的度矩陣,σ是非線性激活函數(shù),例如ReLU,可由計算得來。
其中,Wp和bp分別是學(xué)習(xí)的權(quán)重和偏差。
由于圖卷積網(wǎng)絡(luò)的操作基于有標(biāo)記節(jié)點的特征表示,而其特征表示又取決于有標(biāo)注節(jié)點及其附近未標(biāo)注的鄰居節(jié)點,故本文模型通過標(biāo)準(zhǔn)梯度下降算法進行訓(xùn)練,使用所有有標(biāo)注節(jié)點上的期望交叉熵作為損失函數(shù):
其中,yi表示真實值,pi表示由公式(5)求出的概率值,M為有標(biāo)注的節(jié)點集合YL的大小。
盡管圖卷積網(wǎng)絡(luò)GCN 通常不考慮方向,但可以將其調(diào)整為適合方向感知的情況。因此,本文提出圖卷積網(wǎng)絡(luò)GCN的兩個變體,即在無向圖上的GCN-UG,以及在有向圖上的GCN-DG。實驗中,GCN-UG和GCN-DG之間的唯一區(qū)別在于它們的鄰接矩陣A∈Rk×k。無向圖GCN-UG與有向圖GCN-DG的鄰接矩陣可表示為:
可以發(fā)現(xiàn),有向圖模型GCN-DG的鄰接矩陣比無向圖模型GCN-UG的鄰接矩陣稀疏得多,其實驗設(shè)置的目的是為驗證父節(jié)點是否會廣泛受其子節(jié)點影響。
本實驗所使用的數(shù)據(jù)存在已經(jīng)被證實為網(wǎng)絡(luò)謠言的數(shù)據(jù)和網(wǎng)絡(luò)謠言被辟謠后的真實事件,其來源有三:
(1)騰訊新聞疫情平臺,收集關(guān)于“新冠肺炎病毒”的2020年1月18日至2020年3月15期間483條具有代表性的網(wǎng)絡(luò)謠言數(shù)據(jù)。同時,根據(jù)收集到的483條謠言信息反查是否存在對應(yīng)的辟謠信息,將辟謠信息一并整理。
(2)新浪微博虛假消息辟謠官方賬號“微博辟謠”賬號,收集關(guān)于“抗擊新冠肺炎第一線”2020年1月1日至2020年3月15日期間該平臺公布的758個謠言事件。
(3)新華網(wǎng)承辦的中國互聯(lián)網(wǎng)聯(lián)合辟謠平臺,收集5 000條具有代表性的網(wǎng)絡(luò)謠言數(shù)據(jù)。此來源數(shù)據(jù)去除標(biāo)注,用于半監(jiān)督學(xué)習(xí)。
本文對這些不同渠道得到的數(shù)據(jù)進行人工篩選、去重、和匯總,最終得到包含5 246條網(wǎng)絡(luò)謠言的數(shù)據(jù)集以驗證半監(jiān)督學(xué)習(xí)的圖卷積網(wǎng)絡(luò)對網(wǎng)絡(luò)謠言鑒別的提升作用,可見表2。隨后,這些數(shù)據(jù)都經(jīng)過去噪聲、去停用詞等預(yù)處理過程。其中,去噪聲主要是刪除了總長度不足2 個字的數(shù)據(jù),由于這類數(shù)據(jù)攜帶信息較少,處理的意義不大,刪除后可提高處理效率。此外,本文的訓(xùn)練集包含2 627條數(shù)據(jù),測試集包含2 627條數(shù)據(jù)。以上數(shù)據(jù)均被隨機選取生成數(shù)據(jù)集。
表2 已收集疫情網(wǎng)絡(luò)謠言樣例
本文在對收集到的5 246條以文字為傳播形式的網(wǎng)絡(luò)謠言的分析過程中,發(fā)現(xiàn)疫情相關(guān)網(wǎng)絡(luò)謠言的傳播跟疫情的發(fā)展存在一定聯(lián)系。圖2 顯示的是新冠肺炎疫情期間的每日新增確診曲線圖,圖3顯示的是新冠肺炎疫情期間的每日謠言數(shù)量曲線圖??梢园l(fā)現(xiàn),當(dāng)每日的新冠肺炎確診人數(shù)在增多時,隨之而來的是每日謠言的數(shù)量在增多。
圖2 每日新增確診曲線圖
圖3 每日謠言數(shù)量曲線圖
本文采用一個兩層的圖卷積網(wǎng)絡(luò)GCN 進行實驗,簡化之前第2.1節(jié)的圖卷積網(wǎng)絡(luò)模型得到:
其中,W(0)輸入層到隱藏層的權(quán)重矩陣,W(1)為隱藏層到輸出層的權(quán)重矩陣,可通過梯度下降法訓(xùn)練得到。
對于圖的鄰接矩陣A,本文使用LIL格式稀疏矩陣表示,以降低空間復(fù)雜度。模型通過Dropout 引入訓(xùn)練過程中的隨機性,Dropout率為0.3,隱藏層為32個單元,最大迭代次數(shù)為100次,采用Adam優(yōu)化算法,訓(xùn)練過程中的學(xué)習(xí)率為0.001,省略L2 正則化。模型的停止條件為驗證集損失函數(shù)L連續(xù)10個迭代周期沒有下降為止。
此外,本文實驗環(huán)境所用硬件設(shè)備:操作系統(tǒng)為Windows 10 家庭版;CPU 為英特爾i5-8300H(四核,2.30 GHz);GPU為Nvidia GTX 1060(6 GB);內(nèi)存為三星DDR4(16 GB)。
為了全面評估模型的兩個變體,即GCN-UG 和GCN-DG,將它們與一系列基線和最新模型進行了比較,如下所示:
(1)SVM(Support Vector Machine)算法是由Cortes和Vapnik[24]提出的一種屬于監(jiān)督學(xué)習(xí)的二分類模型,學(xué)習(xí)策略是間隔最大化,常用來對小樣本、非線性及高維數(shù)據(jù)進行模式識別、分類以及回歸分析,并可以取得很好的效果。
(2)邏輯回歸(Logistic Regression,LR)算法通常是利用已知的自變量來預(yù)測一個離散型因變量的值,通過擬合一個邏輯函數(shù)來預(yù)測一個事件發(fā)生的概率值,其輸出值在0到1之間。
(3)LSTM(Long Short-Term Memory)最早由Hochreiter 和Schmidhuber[25]于1997 年提出,本文選取LSTM算法的優(yōu)化算法BiLSTM進行實驗。
評估指標(biāo)用于反映模型效果。在預(yù)測問題中,要評估模型的效果,就需要將模型預(yù)測結(jié)果和真實標(biāo)注進行比較。由于模型重點在于鑒別網(wǎng)絡(luò)謠言,故本文要求模型的召回率Recall,即本身是謠言且被正確識別出來的比例盡量大,同時模型要保證其準(zhǔn)確率Accuracy要盡量高。本文同時選取準(zhǔn)確率Accuracy、精確率Precision、召回率Recall、F-measure 四種指標(biāo)來評估模型的性能。本文引入混淆矩陣,如表3所示,表中,TP+FN+FP+TN=樣本總數(shù)。
表3 混淆矩陣
(1)準(zhǔn)確率Accuracy是指正確分類的百分比。通常準(zhǔn)確率越高,分類器越好,其定義如公式(10)所示:
(2)精確率Precision是指預(yù)測為正的樣本中有多少是真正的正樣本,其定義如公式(11)所示:
(3)召回率Recall是指所有準(zhǔn)確的條目有多少被檢索出來,其定義如公式(12)所示:
(4)F1值是精確率P和召回率R的調(diào)和均值,通常F值越大,分類器越好,其定義如公式(13)所示:
本文實驗采用以上收集的數(shù)據(jù)集,通過SVM、LR、BiLSTM 和GCN 四種分類模型分別構(gòu)建網(wǎng)絡(luò)謠言分類器,以實現(xiàn)對網(wǎng)絡(luò)謠言的自動鑒別,其中,SVM、LR模型在實驗中采用十折交叉驗證。四種模型評估指標(biāo)的對比結(jié)果如表4所示。
表4 實驗結(jié)果
如圖4所示,盡管圖卷積網(wǎng)絡(luò)的用時較長于三種比較模型,但無向圖模型GCN-UG 在數(shù)據(jù)集上的準(zhǔn)確率、召回率和F1 值始終高于SVM、LR、BiLSTM 三種比較模型,取得了可觀的結(jié)果。
圖4 實驗結(jié)果
通過實驗可知,采用半監(jiān)督學(xué)習(xí)的圖卷積網(wǎng)絡(luò)可提升網(wǎng)絡(luò)謠言鑒別的準(zhǔn)確率、召回率和F1 值,其中GCN-UG 的準(zhǔn)確率達到85%,召回率達到86.1%,F(xiàn)1 值達到85.3%??梢钥闯觯瑘D卷積網(wǎng)絡(luò)在提升網(wǎng)絡(luò)謠言的鑒別方面達到了預(yù)期的效果。同時,結(jié)果顯示無向圖模型GCN-UG的性能要優(yōu)于有向圖模型GCN-DG,原因是有向圖相對于無向圖,其鄰接矩陣丟失了一部分重要的信息。對于基于圖的模型來說,來自父節(jié)點的信息與來自子節(jié)點的信息一樣重要。
此外,由于圖卷積網(wǎng)絡(luò)GCN 涉及其層數(shù)L,因此本文還研究了GCN 模型層數(shù)對模型最終性能的影響。由于上述實驗結(jié)果顯示,GCN-UG 模型的性能最優(yōu),故本文選擇GCN-UG 模型進行實驗。隨后,本文假定集合L={1,2,3,4,5,6},并在數(shù)據(jù)集上檢驗?zāi)P蛯訑?shù)對無向圖模型GCN-UG 的影響。相關(guān)結(jié)果如圖5 所示。在評價模型的四個指標(biāo)上,當(dāng)L為2 時,無向圖模型GCN-UG 均達到最佳性能,這證明了在實驗中選擇層數(shù)是合理的,此外,隨著L的增加,四個指標(biāo)都呈現(xiàn)下降趨勢,且當(dāng)L等于6時,由于大量參數(shù),GCN-UG基本上變得更難訓(xùn)練。
圖5 模型層數(shù)對模型性能的影響
目前網(wǎng)絡(luò)謠言鑒別領(lǐng)域仍存在很多不足,面對如何更好的鑒別網(wǎng)絡(luò)謠言這個問題還有漫長的道路。為實現(xiàn)對網(wǎng)絡(luò)謠言的自動鑒別,本文提出采用基于半監(jiān)督學(xué)習(xí)的圖卷積網(wǎng)絡(luò)對網(wǎng)絡(luò)謠言進行鑒別。通過圖卷積網(wǎng)絡(luò)獲取文本完整的特征向量表示,最終送入預(yù)測層生成類別預(yù)測概率。相較于基于傳統(tǒng)機器學(xué)習(xí)與深度學(xué)習(xí)的網(wǎng)絡(luò)謠言鑒別方法,本文所采用方法在召回率、F1值兩個評價指標(biāo)上分別達到86.1%、85.3%,進一步提升網(wǎng)絡(luò)謠言鑒別的準(zhǔn)確性和穩(wěn)定性,有效利用無標(biāo)注數(shù)據(jù)減少標(biāo)注代價,同時解決監(jiān)督學(xué)習(xí)模型泛化能力不強問題和無監(jiān)督學(xué)習(xí)模型不穩(wěn)定的問題。
本文所采用的數(shù)據(jù)集具有時效性,需依賴官方或者公眾平臺發(fā)布的辟謠信息作為語料標(biāo)注,雖可通過程序自動獲取,但仍耗費一部分的時間和資源,本文后續(xù)將對此進一步研究,引入更先進的方法以便更好地解決時效性問題。同時,本文研究發(fā)現(xiàn),文本存在領(lǐng)域性問題,相同的文本在不同領(lǐng)域表現(xiàn)不同,如“癌癥”在醫(yī)學(xué)領(lǐng)域?qū)儆诔R娭辛A向,但在一些其他領(lǐng)域?qū)儆谫H義傾向?,F(xiàn)有的網(wǎng)絡(luò)謠言鑒別方法對此表現(xiàn)不好,鑒別準(zhǔn)確率較低。本文未來會在優(yōu)化算法方面展開深入研究,以進一步提升算法性能。
相較于傳統(tǒng)的人工鑒別謠言方法,本文提出的模型攔截社交媒體和網(wǎng)絡(luò)新聞中的謠言數(shù)量可觀,為網(wǎng)絡(luò)謠言的治理提供新思路。同時,本文算法并不僅僅只適用于網(wǎng)絡(luò)謠言鑒別,也可用于其他文本類分類場景中。