亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多維度行文風(fēng)格特征的假新聞檢測方法研究

2022-04-02 08:53:20李小艷

軟件工程 2022年4期

關(guān)鍵詞：風(fēng)格特征真假假新聞

李小艷

(貴州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，貴州貴陽 550000)

946730793@qq.com

1 引言(Introduction)

近年來，互聯(lián)網(wǎng)快速發(fā)展，在為信息傳遞帶來便利的同時(shí)，也成為假新聞傳播的搖籃，如2016 年美國總統(tǒng)大選期間，網(wǎng)站上充斥著各種聳人聽聞的總統(tǒng)大選假新聞。更嚴(yán)重的是，由于此類假新聞持續(xù)、廣泛地傳播，最終間接影響了總統(tǒng)選舉的結(jié)果，因此假新聞檢測開始為人們所重視。

研究表明，社交網(wǎng)絡(luò)上的信息快速傳播，導(dǎo)致網(wǎng)絡(luò)平臺上的信息存在爆炸性、持續(xù)性增長的特點(diǎn)。在這樣的情形下，人工識別和檢測假新聞的方法存在效率低、具有時(shí)滯性等問題，往往難以滿足假新聞檢測的時(shí)效性及大規(guī)?？蓱?yīng)用性等需求，更遑論篩選和阻止假新聞的傳播。因此，如何有效的識別和檢測網(wǎng)絡(luò)平臺上大量的假新聞成為一個(gè)急需解決的難題。如果能研究出一個(gè)有效的假新聞檢測方法，不僅能減少相關(guān)監(jiān)管部門的工作量，而且能減少網(wǎng)絡(luò)輿論帶來的負(fù)面影響，還能增強(qiáng)網(wǎng)絡(luò)媒體的社會公信力，從而構(gòu)建一個(gè)更加和諧穩(wěn)定的網(wǎng)絡(luò)生態(tài)環(huán)境。

目前，對網(wǎng)絡(luò)平臺上的假新聞自動檢測研究仍處于起步階段，大部分的研究工作都將這一問題作為分類任務(wù)來處理，可分為基于傳統(tǒng)文本分類的假新聞檢測和基于深度學(xué)習(xí)文本分類的假新聞檢測兩大類方法。

(1)基于傳統(tǒng)文本分類的假新聞檢測方法，主要是將整個(gè)文本分類問題拆分成特征工程和分類器兩部分。特征工程可以分為文本預(yù)處理、特征提取、文本表示三個(gè)部分，最終的目的是要把文本轉(zhuǎn)換成計(jì)算機(jī)可理解的格式并封裝。特征工程構(gòu)造的特征主要包括淺層的統(tǒng)計(jì)特征，如假新聞的內(nèi)容、用戶屬性、傳播方式等，以及深層的文本內(nèi)容特征，如假新聞事件情感傾向性、事件主題、事件關(guān)鍵詞等。在得到特征工程構(gòu)造的特征后，分類器基于構(gòu)造的特征來進(jìn)行文本分類，從而實(shí)現(xiàn)假新聞檢測的功能。

(2)基于深度學(xué)習(xí)文本分類的假新聞檢測方法，主要是通過深層的神經(jīng)網(wǎng)絡(luò)去探索真假新聞之間的差異，從而實(shí)現(xiàn)假新聞檢測。典型的方法或模型如O'BRIEN等人利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)從新聞主題的角度檢測假新聞，表明CNN可以捕獲虛假和真實(shí)新聞?wù)Z料在語法修辭上的差異性，從而實(shí)現(xiàn)假新聞的識別工作；UMER等人通過使用CNN-LSTM混合神經(jīng)網(wǎng)絡(luò)，在文本特征向量傳遞到分類器之前對其進(jìn)行降維操作，以此提高假新聞檢測的準(zhǔn)確率。目前主流的XLNet、BERT等模型也被用于假新聞檢測。

對假新聞進(jìn)行檢測主要有四個(gè)途徑。(1)基于知識庫的方法：該方法利用已知的信息做一個(gè)知識庫，判斷另一個(gè)信息的真假。PAN等人使用已有數(shù)據(jù)集分別構(gòu)建真假知識圖譜，從而對新聞進(jìn)行檢測。(2)基于行文風(fēng)格的方法：該方法通過尋找真假新聞可區(qū)分的行文風(fēng)格特征，判斷新聞的真假。行文風(fēng)格特征有普通特征(字頻、詞頻、句法和篇章)和聚合特征(普通特征的融合)。PRZYBYLA等人基于行文風(fēng)格提出Stylometric Classifier模型用于檢測網(wǎng)頁源假新聞。(3)基于信息來源的方法：真假新聞的發(fā)布者有著不同的立場，基于用戶對內(nèi)容的操作(評論、點(diǎn)贊、舉報(bào)等)構(gòu)建矩陣或者圖模型，從而判斷其真假。WANG等人利用信息來源的用戶畫像作為一個(gè)特征，用于假新聞檢測。(4)基于傳播途徑的方法：類似PageRank的行為傳遞。假新聞比真新聞傳播速度快，而且傳播的路徑圖也有所差異。因而基于傳播途徑的假新聞檢測常轉(zhuǎn)化為圖的相似性比較。BIAN等人使用雙向圖卷積神經(jīng)網(wǎng)絡(luò)對社交媒體謠言進(jìn)行檢測。

研究發(fā)現(xiàn)，網(wǎng)絡(luò)平臺上的假新聞常為了快速傳播或吸引網(wǎng)民的目光，在行文風(fēng)格上往往使用不規(guī)則字符、煽動性言語等，如圖1所示。因此，針對以上問題，本文聚焦新聞行文風(fēng)格的分析研究，提出了一種多維度行文風(fēng)格特征的假新聞檢測方法。該方法主要聚焦行文風(fēng)格的詞維度、句維度及篇維度來提取文本的特征因子，用于分析真假新聞文本之間存在的潛在關(guān)系，從而更加有效地對假新聞進(jìn)行檢測。

圖1 假新聞行文風(fēng)格實(shí)例Fig.1 Examples of fake news style

2 相關(guān)工作(Related work)

2.1 假新聞定義

假新聞檢測是一個(gè)新興的問題，目前對假新聞的定義和識別沒有明確的方案和較為嚴(yán)謹(jǐn)?shù)恼f法，常見的定義如表1所示。因此，在研究之前我們必須明確假新聞的定義。在本次研究中，假新聞定義為：故意捏造并被證實(shí)為假的信息。

表1 假新聞定義Tab.1 Definition of fake news

2.2 行文風(fēng)格特征分析

本文從多角度分析行文風(fēng)格對假新聞檢測的影響力，并根據(jù)詞、句、篇的屬性，將這些特征詳細(xì)劃分為三個(gè)維度，即詞維度、句維度和篇維度，并結(jié)合文本的語義信息對假新聞檢測進(jìn)行研究。多維度行文風(fēng)格特征的具體分析如下：

(1)詞維度：實(shí)詞、情緒詞

詞典是文本分類中經(jīng)常使用的工具。POTTHAST等人在2017 年使用帶有詞性標(biāo)簽的詞典用于“超黨派”新聞識別，該工具的缺點(diǎn)在于詞典的大小有限。而在2020 年，PRZYBYLA等人使用Word2vec表示，用相似詞對實(shí)詞詞典進(jìn)行擴(kuò)展最終得到GI詞典用于網(wǎng)頁源假新聞檢測，并取得一定成果。因此，本文將帶有詞性標(biāo)簽的實(shí)詞劃分為詞維度行文風(fēng)格特征。為了使GI詞典更加豐富，本文將英文單詞翻譯為中文，并且為了防止原有詞義的丟失，將單詞的全部翻譯結(jié)果作為詞典的擴(kuò)展，得到最終的GI詞典。此外，假新聞常使用夸張的情緒詞來吸引人們的目光，因此情緒詞也被劃分為詞維度的行文風(fēng)格特征。目前已公開的情緒詞語集有很多，文本選用知網(wǎng)提供的情感分析用詞語集，因?yàn)樗兄S富的情感詞類別，分別為：主張、正面情感、負(fù)面情感、正面評價(jià)、負(fù)面評價(jià)和程度詞語。

(2)句維度：句長、平均句長、句數(shù)

通過對數(shù)據(jù)集的研究，發(fā)現(xiàn)真假新聞文本的句長和平均句長也存在差異。因此，本文將句長、平均句長和句數(shù)作為句維度的行文風(fēng)格特征。

(3)篇維度：符號、虛詞

對于整個(gè)篇章，本文關(guān)注文本的整體符號使用情況。除文本的語義信息，文章的嘆詞、助詞、介詞等虛詞的使用也是文本的行文風(fēng)格之一，而且據(jù)圖2統(tǒng)計(jì)可以看出，在新聞的真假文本中，虛詞的使用有很大的差異性，因此本文將虛詞作為篇維度的行文風(fēng)格特征。

圖2 常用虛詞使用頻率統(tǒng)計(jì)Fig.2 Frequency statistics of common function words

2.3 語義特征及多維度行文風(fēng)格特征提取方法

語義特征是文本分類的基礎(chǔ)，做好內(nèi)容理解，準(zhǔn)確提取特征是文本分類的基石。卷積神經(jīng)網(wǎng)絡(luò)的核心思想是捕捉局部特征，對于文本來說，局部特征就是由若干單詞組成的滑動窗口，類似于N-gram。卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢在于能夠自動地對N-gram特征進(jìn)行組合和篩選，獲得不同抽象層次的語義信息。因此本文使用Text_CNN提取文本的語義信息，Text_CNN模型如圖3所示。

圖3 Text_CNN模型Fig.3 Text_CNN model

對于直觀的行文風(fēng)格特征，如GI詞典、情緒詞、句長、平均句長和句數(shù)，本文使用統(tǒng)計(jì)學(xué)習(xí)方法對其進(jìn)行表示。對于較為復(fù)雜的復(fù)合特征如虛詞和符號，本文使用詞頻-逆文本頻率指數(shù)(TF-IDF)和互信息相結(jié)合的推薦算法篩選出特征的最優(yōu)組合，詳細(xì)介紹如下。

(1)TF-IDF

結(jié)合TF-IDF的思想，將其類比于符號(虛詞)-新聞?wù)婕訇P(guān)系上，確定核心符號(虛詞)，從而去掉不必要的噪聲。具體公式如下：

(2)互信息

本文在式(1)的基礎(chǔ)上，進(jìn)一步挖掘一些深層知識，計(jì)算其與新聞?wù)婕俚幕バ畔?，以得到最?yōu)的符號(虛詞)組合特征?；バ畔⒌幕径x如下：

應(yīng)用到符號(虛詞)特征選擇：

其中，、都是二值隨機(jī)變量，當(dāng)文檔包含特征時(shí)，的取值為e=1，否則e=0；當(dāng)文檔屬于類別時(shí)，的取值為e=1，否則e=0。用最大似然估計(jì)時(shí)，上面的概率值都是通過統(tǒng)計(jì)文檔中特征和類別的數(shù)目計(jì)算的，因而實(shí)際計(jì)算公式如下：

其中，N表示=e和=e情況下對應(yīng)的文檔數(shù)目，比如表示包含特征(此時(shí)e=1)但不屬于類別(此時(shí)e=0)；=+表示所有包含特征的文檔數(shù)目，=+表示所有屬于類的文檔數(shù)目，=+++表示所有文檔的數(shù)目。

3 模型構(gòu)建(Model building)

本文基于行文風(fēng)格特征的方法，從多維度提取行文風(fēng)格特征，并結(jié)合文本的語義信息對假新聞進(jìn)行檢測。其中提取的行文風(fēng)格特征來自不同的維度，若將其放入一個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，會模糊特征之間的潛在關(guān)系，因此本文使用CNN模型分別捕獲各特征的高階抽象信息。此外每個(gè)維度的特征因?yàn)槠湫再|(zhì)不同，對假新聞檢測的影響力度也不同，而Attention機(jī)制可以看成一種自動加權(quán)機(jī)制，它可以把多個(gè)不同模塊通過加權(quán)的方式進(jìn)行關(guān)聯(lián)，在NLP任務(wù)中有著廣泛的應(yīng)用。因此，本文使用Attention機(jī)制突出各維度特征對假新聞檢測的重要程度，從而構(gòu)建了一個(gè)Multi_CNNSA模型，該模型結(jié)構(gòu)圖如圖4所示。

圖4 Multi_CNNSA模型Fig.4 Multi_CNNSA model

3.1 輸入層

令為新聞文本，對文本進(jìn)行預(yù)處理，得到=,,…，其中t表示一個(gè)詞。令預(yù)處理好的Word2vec詞向量查找表為R，是查找表的大小，是向量矩陣=[,,x]，其中x∈R，為最大文本長度，長度不足的文本補(bǔ)零。根據(jù)前文的行文風(fēng)格特征處理方法得到詞維度特征向量矩陣、句維度特征向量矩陣、篇維度特征向量矩陣。

3.2 Multi_CNNSA層

本文的Multi_CNNSA層一共有三個(gè)CNN通道和一個(gè)Text_CNN通道，分別用于計(jì)算每個(gè)特征的高階抽象信息，且每個(gè)通道后接一個(gè)Attention層，用于計(jì)算每個(gè)特征對假新聞檢測的影響力度。其中Text_CNN通道接收輸入層的語義信息數(shù)據(jù)，輸出結(jié)果記為'，另外三個(gè)CNN通道分別接收來自輸入層的三個(gè)維度的行文風(fēng)格特征數(shù)據(jù)、、，輸出結(jié)果記為'、'、'。然后將每個(gè)結(jié)果作為Attention層的輸入，得到語義特征結(jié)果''、詞維度特征結(jié)果''、句維度特征結(jié)果''、篇維度特征結(jié)果''。最后通過特征拼接得到本層的輸出結(jié)果，即：

本文中Attention的計(jì)算公式如下：

3.3 Softmax層

本層的目的是通過Softmax函數(shù)將上層結(jié)果進(jìn)行歸一化，最終實(shí)現(xiàn)對新聞的二分類，即將上層的輸出結(jié)果作為本層的輸入，通過Softmax函數(shù)進(jìn)行歸一化操作。具體公式如下：

4 實(shí)驗(yàn)與分析(Experiment and analysis)

4.1 數(shù)據(jù)集

本次實(shí)驗(yàn)聚焦社交媒體的假新聞檢測，使用的是2018 年KDD論文發(fā)布的weibo假新聞數(shù)據(jù)集，該數(shù)據(jù)集來源于微博，并由人工進(jìn)行標(biāo)注，因此其數(shù)據(jù)的真實(shí)性有效。本文將其整理為短文本假新聞二分類數(shù)據(jù)集。其中假新聞的標(biāo)簽為“1”，真新聞的標(biāo)簽為“0”，詳細(xì)信息如表2所示。

表2 weibo假新聞數(shù)據(jù)集詳情Tab.2 Dataset details of weibo fake news

4.2 評價(jià)指標(biāo)

在假新聞檢測的任務(wù)中，模型需要盡可能多地檢測出假新聞，避免將真新聞?wù)`判為假新聞，所以為保證實(shí)驗(yàn)的公平性和可對比性，將綜合考慮檢測結(jié)果的精確率、召回率以及1值作為模型的評估指標(biāo)。為使每個(gè)類別都得到公平對待，使用宏平均計(jì)算最終結(jié)果。其混淆矩陣如表3所示，其中TP表示真陽性，即實(shí)際為假預(yù)測為假；TN表示真陰性，即實(shí)際為真預(yù)測為真；FP表示假陽性，即實(shí)際為真預(yù)測為假；FN表示假陰性，即實(shí)際為假預(yù)測為真。

表3 假新聞檢測混淆矩陣Tab.3 The confusion matrix of fake news detects

指標(biāo)計(jì)算公式如下：

4.3 參數(shù)設(shè)置

數(shù)據(jù)預(yù)處理時(shí)，使用Word2vec方法進(jìn)行詞向量處理，向量維度為100。其最大文本長度設(shè)置為500，長度不足時(shí)，在文本后面補(bǔ)零表示。初始學(xué)習(xí)率為1，使用Adam函數(shù)進(jìn)行優(yōu)化。批次數(shù)為50，迭代數(shù)為100。使用的數(shù)據(jù)集隨機(jī)按8∶1∶1比例分為訓(xùn)練集、驗(yàn)證集和測試集。

4.4 實(shí)驗(yàn)結(jié)果與分析

在本部分中，本文通過四個(gè)對比實(shí)驗(yàn)來驗(yàn)證我們提出的多維度行文風(fēng)格假新聞檢測方法的可行性和高效性。實(shí)驗(yàn)結(jié)果如表4所示。

表4 各模型性能指標(biāo)結(jié)果Tab.4 Performance index results of each model

其中，樸素貝葉斯(Na?ve Bayes)方法是使用最為廣泛的分類模型之一。該方法在貝葉斯算法的基礎(chǔ)上進(jìn)行簡化，即假定給定目標(biāo)值時(shí)屬性之間相互條件獨(dú)立。也就是說沒有哪個(gè)屬性變量對于決策結(jié)果來說占有較大的比重，也沒有哪個(gè)屬性變量對于決策結(jié)果占有較小的比重。雖然這個(gè)簡化方式在一定程度上降低了貝葉斯分類算法的分類效果，但是在實(shí)際的應(yīng)用場景中，極大地簡化了貝葉斯方法的復(fù)雜性。因此本文將其作為模型的對比實(shí)驗(yàn)之一。

CNN最早用于圖像訓(xùn)練，如今其變體Text_CNN已應(yīng)用到文本挖掘任務(wù)。除預(yù)訓(xùn)練文本之外，Text_CNN可以通過不同大小的卷積核并行提取文本的高階抽象信息，同時(shí)通過最大池化突出關(guān)鍵詞信息，最終實(shí)現(xiàn)分類任務(wù)。而且其訓(xùn)練過程參數(shù)數(shù)目少，計(jì)算量少，訓(xùn)練速度快。因此本文將其作為對比實(shí)驗(yàn)之一。

EANN模型是WANG等人在Text_CNN提取文本語義信息的基礎(chǔ)上，加入文本的圖片信息，從而構(gòu)建多模態(tài)假新聞檢測模型。它證明了假新聞檢測任務(wù)中，除文本語義信息外，其他輔助特征也可以加入模型，而且可以顯著提高假新聞檢測的效果。作者使用的數(shù)據(jù)集與本文與我們使用的是同一個(gè)weibo數(shù)據(jù)集，因此我們直接引用其結(jié)果，而沒有復(fù)現(xiàn)該方法。

為進(jìn)一步證明本文提出的方法對假新聞檢測的有效性，本文提出一個(gè)SCNN模型，該模型只使用多維度行文風(fēng)格特征對假新聞進(jìn)行檢測，即去掉本文提出模型的文本語義特征提取部分。為保證實(shí)驗(yàn)的公平性，該模型的參數(shù)設(shè)置、特征提取和表示方法不變。

從表4可以看出，本文提出的Multi_CNNSA模型優(yōu)于另外四個(gè)模型，其1值達(dá)到了86.95%，比另外四個(gè)模型都高，這說明本文提出的方法和模型可以更好地表達(dá)真假新聞文本行文風(fēng)格之間的差異性。其中Text_CNN模型優(yōu)于Na?ve Bayes模型，其精確率和1值都比對方高。EANN是基于Text_CNN模型加入輔助特征提出的模型，其結(jié)果比單獨(dú)的Text_CNN效果好。這證明了假新聞檢測任務(wù)中，除文本的語義特征外，其他輔助特征的重要性。而本文提出的SCNN模型的表現(xiàn)雖沒有Text_CNN表現(xiàn)好，但是其結(jié)果卻高于Na?ve Bayes，這從側(cè)面證明了輔助特征的重要性。

5 結(jié)論(Conclusion)

本文研究真假新聞行文風(fēng)格之間的差異性，并將這些差異性特征根據(jù)詞、句和篇這三個(gè)維度對其進(jìn)行歸類。針對真假新聞的行文風(fēng)格特征提出一種基于多維度行文風(fēng)格的假新聞檢測方法，然后使用多通道卷積神經(jīng)網(wǎng)絡(luò)對各維度的行文風(fēng)格特征進(jìn)行融合。實(shí)驗(yàn)結(jié)果表明，該方法能夠有效提取真假新聞行文風(fēng)格特征之間的差異性，并利用這些潛在的差異性對假新聞進(jìn)行檢測。

在文本的句維度行文風(fēng)格特征中，句子的結(jié)構(gòu)信息在真假新聞文本中也存在一定的差異性，那么如何利用句子的結(jié)構(gòu)信息對假新聞進(jìn)行檢測將是在未來的工作中會著重思考的問題。