李小艷
(貴州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴州 貴陽 550000)
946730793@qq.com
近年來,互聯(lián)網(wǎng)快速發(fā)展,在為信息傳遞帶來便利的同時(shí),也成為假新聞傳播的搖籃,如2016 年美國總統(tǒng)大選期間,網(wǎng)站上充斥著各種聳人聽聞的總統(tǒng)大選假新聞。更嚴(yán)重的是,由于此類假新聞持續(xù)、廣泛地傳播,最終間接影響了總統(tǒng)選舉的結(jié)果,因此假新聞檢測開始為人們所重視。
研究表明,社交網(wǎng)絡(luò)上的信息快速傳播,導(dǎo)致網(wǎng)絡(luò)平臺上的信息存在爆炸性、持續(xù)性增長的特點(diǎn)。在這樣的情形下,人工識別和檢測假新聞的方法存在效率低、具有時(shí)滯性等問題,往往難以滿足假新聞檢測的時(shí)效性及大規(guī)??蓱?yīng)用性等需求,更遑論篩選和阻止假新聞的傳播。因此,如何有效的識別和檢測網(wǎng)絡(luò)平臺上大量的假新聞成為一個(gè)急需解決的難題。如果能研究出一個(gè)有效的假新聞檢測方法,不僅能減少相關(guān)監(jiān)管部門的工作量,而且能減少網(wǎng)絡(luò)輿論帶來的負(fù)面影響,還能增強(qiáng)網(wǎng)絡(luò)媒體的社會公信力,從而構(gòu)建一個(gè)更加和諧穩(wěn)定的網(wǎng)絡(luò)生態(tài)環(huán)境。
目前,對網(wǎng)絡(luò)平臺上的假新聞自動檢測研究仍處于起步階段,大部分的研究工作都將這一問題作為分類任務(wù)來處理,可分為基于傳統(tǒng)文本分類的假新聞檢測和基于深度學(xué)習(xí)文本分類的假新聞檢測兩大類方法。
(1)基于傳統(tǒng)文本分類的假新聞檢測方法,主要是將整個(gè)文本分類問題拆分成特征工程和分類器兩部分。特征工程可以分為文本預(yù)處理、特征提取、文本表示三個(gè)部分,最終的目的是要把文本轉(zhuǎn)換成計(jì)算機(jī)可理解的格式并封裝。特征工程構(gòu)造的特征主要包括淺層的統(tǒng)計(jì)特征,如假新聞的內(nèi)容、用戶屬性、傳播方式等,以及深層的文本內(nèi)容特征,如假新聞事件情感傾向性、事件主題、事件關(guān)鍵詞等。在得到特征工程構(gòu)造的特征后,分類器基于構(gòu)造的特征來進(jìn)行文本分類,從而實(shí)現(xiàn)假新聞檢測的功能。
(2)基于深度學(xué)習(xí)文本分類的假新聞檢測方法,主要是通過深層的神經(jīng)網(wǎng)絡(luò)去探索真假新聞之間的差異,從而實(shí)現(xiàn)假新聞檢測。典型的方法或模型如O'BRIEN等人利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)從新聞主題的角度檢測假新聞,表明CNN可以捕獲虛假和真實(shí)新聞?wù)Z料在語法修辭上的差異性,從而實(shí)現(xiàn)假新聞的識別工作;UMER等人通過使用CNN-LSTM混合神經(jīng)網(wǎng)絡(luò),在文本特征向量傳遞到分類器之前對其進(jìn)行降維操作,以此提高假新聞檢測的準(zhǔn)確率。目前主流的XLNet、BERT等模型也被用于假新聞檢測。
對假新聞進(jìn)行檢測主要有四個(gè)途徑。(1)基于知識庫的方法:該方法利用已知的信息做一個(gè)知識庫,判斷另一個(gè)信息的真假。PAN等人使用已有數(shù)據(jù)集分別構(gòu)建真假知識圖譜,從而對新聞進(jìn)行檢測。(2)基于行文風(fēng)格的方法:該方法通過尋找真假新聞可區(qū)分的行文風(fēng)格特征,判斷新聞的真假。行文風(fēng)格特征有普通特征(字頻、詞頻、句法和篇章)和聚合特征(普通特征的融合)。PRZYBYLA等人基于行文風(fēng)格提出Stylometric Classifier模型用于檢測網(wǎng)頁源假新聞。(3)基于信息來源的方法:真假新聞的發(fā)布者有著不同的立場,基于用戶對內(nèi)容的操作(評論、點(diǎn)贊、舉報(bào)等)構(gòu)建矩陣或者圖模型,從而判斷其真假。WANG等人利用信息來源的用戶畫像作為一個(gè)特征,用于假新聞檢測。(4)基于傳播途徑的方法:類似PageRank的行為傳遞。假新聞比真新聞傳播速度快,而且傳播的路徑圖也有所差異。因而基于傳播途徑的假新聞檢測常轉(zhuǎn)化為圖的相似性比較。BIAN等人使用雙向圖卷積神經(jīng)網(wǎng)絡(luò)對社交媒體謠言進(jìn)行檢測。
研究發(fā)現(xiàn),網(wǎng)絡(luò)平臺上的假新聞常為了快速傳播或吸引網(wǎng)民的目光,在行文風(fēng)格上往往使用不規(guī)則字符、煽動性言語等,如圖1所示。因此,針對以上問題,本文聚焦新聞行文風(fēng)格的分析研究,提出了一種多維度行文風(fēng)格特征的假新聞檢測方法。該方法主要聚焦行文風(fēng)格的詞維度、句維度及篇維度來提取文本的特征因子,用于分析真假新聞文本之間存在的潛在關(guān)系,從而更加有效地對假新聞進(jìn)行檢測。
圖1 假新聞行文風(fēng)格實(shí)例Fig.1 Examples of fake news style
假新聞檢測是一個(gè)新興的問題,目前對假新聞的定義和識別沒有明確的方案和較為嚴(yán)謹(jǐn)?shù)恼f法,常見的定義如表1所示。因此,在研究之前我們必須明確假新聞的定義。在本次研究中,假新聞定義為:故意捏造并被證實(shí)為假的信息。
表1 假新聞定義Tab.1 Definition of fake news
本文從多角度分析行文風(fēng)格對假新聞檢測的影響力,并根據(jù)詞、句、篇的屬性,將這些特征詳細(xì)劃分為三個(gè)維度,即詞維度、句維度和篇維度,并結(jié)合文本的語義信息對假新聞檢測進(jìn)行研究。多維度行文風(fēng)格特征的具體分析如下:
(1)詞維度:實(shí)詞、情緒詞
詞典是文本分類中經(jīng)常使用的工具。POTTHAST等人在2017 年使用帶有詞性標(biāo)簽的詞典用于“超黨派”新聞識別,該工具的缺點(diǎn)在于詞典的大小有限。而在2020 年,PRZYBYLA等人使用Word2vec表示,用相似詞對實(shí)詞詞典進(jìn)行擴(kuò)展最終得到GI詞典用于網(wǎng)頁源假新聞檢測,并取得一定成果。因此,本文將帶有詞性標(biāo)簽的實(shí)詞劃分為詞維度行文風(fēng)格特征。為了使GI詞典更加豐富,本文將英文單詞翻譯為中文,并且為了防止原有詞義的丟失,將單詞的全部翻譯結(jié)果作為詞典的擴(kuò)展,得到最終的GI詞典。此外,假新聞常使用夸張的情緒詞來吸引人們的目光,因此情緒詞也被劃分為詞維度的行文風(fēng)格特征。目前已公開的情緒詞語集有很多,文本選用知網(wǎng)提供的情感分析用詞語集,因?yàn)樗兄S富的情感詞類別,分別為:主張、正面情感、負(fù)面情感、正面評價(jià)、負(fù)面評價(jià)和程度詞語。
(2)句維度:句長、平均句長、句數(shù)
通過對數(shù)據(jù)集的研究,發(fā)現(xiàn)真假新聞文本的句長和平均句長也存在差異。因此,本文將句長、平均句長和句數(shù)作為句維度的行文風(fēng)格特征。
(3)篇維度:符號、虛詞
對于整個(gè)篇章,本文關(guān)注文本的整體符號使用情況。除文本的語義信息,文章的嘆詞、助詞、介詞等虛詞的使用也是文本的行文風(fēng)格之一,而且據(jù)圖2統(tǒng)計(jì)可以看出,在新聞的真假文本中,虛詞的使用有很大的差異性,因此本文將虛詞作為篇維度的行文風(fēng)格特征。
圖2 常用虛詞使用頻率統(tǒng)計(jì)Fig.2 Frequency statistics of common function words
語義特征是文本分類的基礎(chǔ),做好內(nèi)容理解,準(zhǔn)確提取特征是文本分類的基石。卷積神經(jīng)網(wǎng)絡(luò)的核心思想是捕捉局部特征,對于文本來說,局部特征就是由若干單詞組成的滑動窗口,類似于N-gram。卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢在于能夠自動地對N-gram特征進(jìn)行組合和篩選,獲得不同抽象層次的語義信息。因此本文使用Text_CNN提取文本的語義信息,Text_CNN模型如圖3所示。
圖3 Text_CNN模型Fig.3 Text_CNN model
對于直觀的行文風(fēng)格特征,如GI詞典、情緒詞、句長、平均句長和句數(shù),本文使用統(tǒng)計(jì)學(xué)習(xí)方法對其進(jìn)行表示。對于較為復(fù)雜的復(fù)合特征如虛詞和符號,本文使用詞頻-逆文本頻率指數(shù)(TF-IDF)和互信息相結(jié)合的推薦算法篩選出特征的最優(yōu)組合,詳細(xì)介紹如下。
(1)TF-IDF
結(jié)合TF-IDF的思想,將其類比于符號(虛詞)-新聞?wù)婕訇P(guān)系上,確定核心符號(虛詞),從而去掉不必要的噪聲。具體公式如下:
(2)互信息
本文在式(1)的基礎(chǔ)上,進(jìn)一步挖掘一些深層知識,計(jì)算其與新聞?wù)婕俚幕バ畔?,以得到最?yōu)的符號(虛詞)組合特征?;バ畔⒌幕径x如下:
應(yīng)用到符號(虛詞)特征選擇:
其中,、都是二值隨機(jī)變量,當(dāng)文檔包含特征時(shí),的取值為e=1,否則e=0;當(dāng)文檔屬于類別時(shí),的取值為e=1,否則e=0。用最大似然估計(jì)時(shí),上面的概率值都是通過統(tǒng)計(jì)文檔中特征和類別的數(shù)目計(jì)算的,因而實(shí)際計(jì)算公式如下:
其中,N表示=e和=e情況下對應(yīng)的文檔數(shù)目,比如表示包含特征(此時(shí)e=1)但不屬于類別(此時(shí)e=0);=+表示所有包含特征的文檔數(shù)目,=+表示所有屬于類的文檔數(shù)目,=+++表示所有文檔的數(shù)目。
本文基于行文風(fēng)格特征的方法,從多維度提取行文風(fēng)格特征,并結(jié)合文本的語義信息對假新聞進(jìn)行檢測。其中提取的行文風(fēng)格特征來自不同的維度,若將其放入一個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,會模糊特征之間的潛在關(guān)系,因此本文使用CNN模型分別捕獲各特征的高階抽象信息。此外每個(gè)維度的特征因?yàn)槠湫再|(zhì)不同,對假新聞檢測的影響力度也不同,而Attention機(jī)制可以看成一種自動加權(quán)機(jī)制,它可以把多個(gè)不同模塊通過加權(quán)的方式進(jìn)行關(guān)聯(lián),在NLP任務(wù)中有著廣泛的應(yīng)用。因此,本文使用Attention機(jī)制突出各維度特征對假新聞檢測的重要程度,從而構(gòu)建了一個(gè)Multi_CNNSA模型,該模型結(jié)構(gòu)圖如圖4所示。
圖4 Multi_CNNSA模型Fig.4 Multi_CNNSA model
令為新聞文本,對文本進(jìn)行預(yù)處理,得到=,,…,其中t表示一個(gè)詞。令預(yù)處理好的Word2vec詞向量查找表為R,是查找表的大小,是向量矩陣=[,,x],其中x∈R,為最大文本長度,長度不足的文本補(bǔ)零。根據(jù)前文的行文風(fēng)格特征處理方法得到詞維度特征向量矩陣、句維度特征向量矩陣、篇維度特征向量矩陣。
本文的Multi_CNNSA層一共有三個(gè)CNN通道和一個(gè)Text_CNN通道,分別用于計(jì)算每個(gè)特征的高階抽象信息,且每個(gè)通道后接一個(gè)Attention層,用于計(jì)算每個(gè)特征對假新聞檢測的影響力度。其中Text_CNN通道接收輸入層的語義信息數(shù)據(jù),輸出結(jié)果記為',另外三個(gè)CNN通道分別接收來自輸入層的三個(gè)維度的行文風(fēng)格特征數(shù)據(jù)、、,輸出結(jié)果記為'、'、'。然后將每個(gè)結(jié)果作為Attention層的輸入,得到語義特征結(jié)果''、詞維度特征結(jié)果''、句維度特征結(jié)果''、篇維度特征結(jié)果''。最后通過特征拼接得到本層的輸出結(jié)果,即:
本文中Attention的計(jì)算公式如下:
本層的目的是通過Softmax函數(shù)將上層結(jié)果進(jìn)行歸一化,最終實(shí)現(xiàn)對新聞的二分類,即將上層的輸出結(jié)果作為本層的輸入,通過Softmax函數(shù)進(jìn)行歸一化操作。具體公式如下:
本次實(shí)驗(yàn)聚焦社交媒體的假新聞檢測,使用的是2018 年KDD論文發(fā)布的weibo假新聞數(shù)據(jù)集,該數(shù)據(jù)集來源于微博,并由人工進(jìn)行標(biāo)注,因此其數(shù)據(jù)的真實(shí)性有效。本文將其整理為短文本假新聞二分類數(shù)據(jù)集。其中假新聞的標(biāo)簽為“1”,真新聞的標(biāo)簽為“0”,詳細(xì)信息如表2所示。
表2 weibo假新聞數(shù)據(jù)集詳情Tab.2 Dataset details of weibo fake news
在假新聞檢測的任務(wù)中,模型需要盡可能多地檢測出假新聞,避免將真新聞?wù)`判為假新聞,所以為保證實(shí)驗(yàn)的公平性和可對比性,將綜合考慮檢測結(jié)果的精確率、召回率以及1值作為模型的評估指標(biāo)。為使每個(gè)類別都得到公平對待,使用宏平均計(jì)算最終結(jié)果。其混淆矩陣如表3所示,其中TP表示真陽性,即實(shí)際為假預(yù)測為假;TN表示真陰性,即實(shí)際為真預(yù)測為真;FP表示假陽性,即實(shí)際為真預(yù)測為假;FN表示假陰性,即實(shí)際為假預(yù)測為真。
表3 假新聞檢測混淆矩陣Tab.3 The confusion matrix of fake news detects
指標(biāo)計(jì)算公式如下:
數(shù)據(jù)預(yù)處理時(shí),使用Word2vec方法進(jìn)行詞向量處理,向量維度為100。其最大文本長度設(shè)置為500,長度不足時(shí),在文本后面補(bǔ)零表示。初始學(xué)習(xí)率為1,使用Adam函數(shù)進(jìn)行優(yōu)化。批次數(shù)為50,迭代數(shù)為100。使用的數(shù)據(jù)集隨機(jī)按8∶1∶1比例分為訓(xùn)練集、驗(yàn)證集和測試集。
在本部分中,本文通過四個(gè)對比實(shí)驗(yàn)來驗(yàn)證我們提出的多維度行文風(fēng)格假新聞檢測方法的可行性和高效性。實(shí)驗(yàn)結(jié)果如表4所示。
表4 各模型性能指標(biāo)結(jié)果Tab.4 Performance index results of each model
其中,樸素貝葉斯(Na?ve Bayes)方法是使用最為廣泛的分類模型之一。該方法在貝葉斯算法的基礎(chǔ)上進(jìn)行簡化,即假定給定目標(biāo)值時(shí)屬性之間相互條件獨(dú)立。也就是說沒有哪個(gè)屬性變量對于決策結(jié)果來說占有較大的比重,也沒有哪個(gè)屬性變量對于決策結(jié)果占有較小的比重。雖然這個(gè)簡化方式在一定程度上降低了貝葉斯分類算法的分類效果,但是在實(shí)際的應(yīng)用場景中,極大地簡化了貝葉斯方法的復(fù)雜性。因此本文將其作為模型的對比實(shí)驗(yàn)之一。
CNN最早用于圖像訓(xùn)練,如今其變體Text_CNN已應(yīng)用到文本挖掘任務(wù)。除預(yù)訓(xùn)練文本之外,Text_CNN可以通過不同大小的卷積核并行提取文本的高階抽象信息,同時(shí)通過最大池化突出關(guān)鍵詞信息,最終實(shí)現(xiàn)分類任務(wù)。而且其訓(xùn)練過程參數(shù)數(shù)目少,計(jì)算量少,訓(xùn)練速度快。因此本文將其作為對比實(shí)驗(yàn)之一。
EANN模型是WANG等人在Text_CNN提取文本語義信息的基礎(chǔ)上,加入文本的圖片信息,從而構(gòu)建多模態(tài)假新聞檢測模型。它證明了假新聞檢測任務(wù)中,除文本語義信息外,其他輔助特征也可以加入模型,而且可以顯著提高假新聞檢測的效果。作者使用的數(shù)據(jù)集與本文與我們使用的是同一個(gè)weibo數(shù)據(jù)集,因此我們直接引用其結(jié)果,而沒有復(fù)現(xiàn)該方法。
為進(jìn)一步證明本文提出的方法對假新聞檢測的有效性,本文提出一個(gè)SCNN模型,該模型只使用多維度行文風(fēng)格特征對假新聞進(jìn)行檢測,即去掉本文提出模型的文本語義特征提取部分。為保證實(shí)驗(yàn)的公平性,該模型的參數(shù)設(shè)置、特征提取和表示方法不變。
從表4可以看出,本文提出的Multi_CNNSA模型優(yōu)于另外四個(gè)模型,其1值達(dá)到了86.95%,比另外四個(gè)模型都高,這說明本文提出的方法和模型可以更好地表達(dá)真假新聞文本行文風(fēng)格之間的差異性。其中Text_CNN模型優(yōu)于Na?ve Bayes模型,其精確率和1值都比對方高。EANN是基于Text_CNN模型加入輔助特征提出的模型,其結(jié)果比單獨(dú)的Text_CNN效果好。這證明了假新聞檢測任務(wù)中,除文本的語義特征外,其他輔助特征的重要性。而本文提出的SCNN模型的表現(xiàn)雖沒有Text_CNN表現(xiàn)好,但是其結(jié)果卻高于Na?ve Bayes,這從側(cè)面證明了輔助特征的重要性。
本文研究真假新聞行文風(fēng)格之間的差異性,并將這些差異性特征根據(jù)詞、句和篇這三個(gè)維度對其進(jìn)行歸類。針對真假新聞的行文風(fēng)格特征提出一種基于多維度行文風(fēng)格的假新聞檢測方法,然后使用多通道卷積神經(jīng)網(wǎng)絡(luò)對各維度的行文風(fēng)格特征進(jìn)行融合。實(shí)驗(yàn)結(jié)果表明,該方法能夠有效提取真假新聞行文風(fēng)格特征之間的差異性,并利用這些潛在的差異性對假新聞進(jìn)行檢測。
在文本的句維度行文風(fēng)格特征中,句子的結(jié)構(gòu)信息在真假新聞文本中也存在一定的差異性,那么如何利用句子的結(jié)構(gòu)信息對假新聞進(jìn)行檢測將是在未來的工作中會著重思考的問題。