亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多維度行文風(fēng)格特征的假新聞檢測方法研究

        2022-04-02 08:53:20李小艷
        軟件工程 2022年4期
        關(guān)鍵詞:風(fēng)格特征真假假新聞

        李小艷

        (貴州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴州 貴陽 550000)

        946730793@qq.com

        1 引言(Introduction)

        近年來,互聯(lián)網(wǎng)快速發(fā)展,在為信息傳遞帶來便利的同時(shí),也成為假新聞傳播的搖籃,如2016 年美國總統(tǒng)大選期間,網(wǎng)站上充斥著各種聳人聽聞的總統(tǒng)大選假新聞。更嚴(yán)重的是,由于此類假新聞持續(xù)、廣泛地傳播,最終間接影響了總統(tǒng)選舉的結(jié)果,因此假新聞檢測開始為人們所重視。

        研究表明,社交網(wǎng)絡(luò)上的信息快速傳播,導(dǎo)致網(wǎng)絡(luò)平臺上的信息存在爆炸性、持續(xù)性增長的特點(diǎn)。在這樣的情形下,人工識別和檢測假新聞的方法存在效率低、具有時(shí)滯性等問題,往往難以滿足假新聞檢測的時(shí)效性及大規(guī)??蓱?yīng)用性等需求,更遑論篩選和阻止假新聞的傳播。因此,如何有效的識別和檢測網(wǎng)絡(luò)平臺上大量的假新聞成為一個(gè)急需解決的難題。如果能研究出一個(gè)有效的假新聞檢測方法,不僅能減少相關(guān)監(jiān)管部門的工作量,而且能減少網(wǎng)絡(luò)輿論帶來的負(fù)面影響,還能增強(qiáng)網(wǎng)絡(luò)媒體的社會公信力,從而構(gòu)建一個(gè)更加和諧穩(wěn)定的網(wǎng)絡(luò)生態(tài)環(huán)境。

        目前,對網(wǎng)絡(luò)平臺上的假新聞自動檢測研究仍處于起步階段,大部分的研究工作都將這一問題作為分類任務(wù)來處理,可分為基于傳統(tǒng)文本分類的假新聞檢測和基于深度學(xué)習(xí)文本分類的假新聞檢測兩大類方法。

        (1)基于傳統(tǒng)文本分類的假新聞檢測方法,主要是將整個(gè)文本分類問題拆分成特征工程和分類器兩部分。特征工程可以分為文本預(yù)處理、特征提取、文本表示三個(gè)部分,最終的目的是要把文本轉(zhuǎn)換成計(jì)算機(jī)可理解的格式并封裝。特征工程構(gòu)造的特征主要包括淺層的統(tǒng)計(jì)特征,如假新聞的內(nèi)容、用戶屬性、傳播方式等,以及深層的文本內(nèi)容特征,如假新聞事件情感傾向性、事件主題、事件關(guān)鍵詞等。在得到特征工程構(gòu)造的特征后,分類器基于構(gòu)造的特征來進(jìn)行文本分類,從而實(shí)現(xiàn)假新聞檢測的功能。

        (2)基于深度學(xué)習(xí)文本分類的假新聞檢測方法,主要是通過深層的神經(jīng)網(wǎng)絡(luò)去探索真假新聞之間的差異,從而實(shí)現(xiàn)假新聞檢測。典型的方法或模型如O'BRIEN等人利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)從新聞主題的角度檢測假新聞,表明CNN可以捕獲虛假和真實(shí)新聞?wù)Z料在語法修辭上的差異性,從而實(shí)現(xiàn)假新聞的識別工作;UMER等人通過使用CNN-LSTM混合神經(jīng)網(wǎng)絡(luò),在文本特征向量傳遞到分類器之前對其進(jìn)行降維操作,以此提高假新聞檢測的準(zhǔn)確率。目前主流的XLNet、BERT等模型也被用于假新聞檢測。

        對假新聞進(jìn)行檢測主要有四個(gè)途徑。(1)基于知識庫的方法:該方法利用已知的信息做一個(gè)知識庫,判斷另一個(gè)信息的真假。PAN等人使用已有數(shù)據(jù)集分別構(gòu)建真假知識圖譜,從而對新聞進(jìn)行檢測。(2)基于行文風(fēng)格的方法:該方法通過尋找真假新聞可區(qū)分的行文風(fēng)格特征,判斷新聞的真假。行文風(fēng)格特征有普通特征(字頻、詞頻、句法和篇章)和聚合特征(普通特征的融合)。PRZYBYLA等人基于行文風(fēng)格提出Stylometric Classifier模型用于檢測網(wǎng)頁源假新聞。(3)基于信息來源的方法:真假新聞的發(fā)布者有著不同的立場,基于用戶對內(nèi)容的操作(評論、點(diǎn)贊、舉報(bào)等)構(gòu)建矩陣或者圖模型,從而判斷其真假。WANG等人利用信息來源的用戶畫像作為一個(gè)特征,用于假新聞檢測。(4)基于傳播途徑的方法:類似PageRank的行為傳遞。假新聞比真新聞傳播速度快,而且傳播的路徑圖也有所差異。因而基于傳播途徑的假新聞檢測常轉(zhuǎn)化為圖的相似性比較。BIAN等人使用雙向圖卷積神經(jīng)網(wǎng)絡(luò)對社交媒體謠言進(jìn)行檢測。

        研究發(fā)現(xiàn),網(wǎng)絡(luò)平臺上的假新聞常為了快速傳播或吸引網(wǎng)民的目光,在行文風(fēng)格上往往使用不規(guī)則字符、煽動性言語等,如圖1所示。因此,針對以上問題,本文聚焦新聞行文風(fēng)格的分析研究,提出了一種多維度行文風(fēng)格特征的假新聞檢測方法。該方法主要聚焦行文風(fēng)格的詞維度、句維度及篇維度來提取文本的特征因子,用于分析真假新聞文本之間存在的潛在關(guān)系,從而更加有效地對假新聞進(jìn)行檢測。

        圖1 假新聞行文風(fēng)格實(shí)例Fig.1 Examples of fake news style

        2 相關(guān)工作(Related work)

        2.1 假新聞定義

        假新聞檢測是一個(gè)新興的問題,目前對假新聞的定義和識別沒有明確的方案和較為嚴(yán)謹(jǐn)?shù)恼f法,常見的定義如表1所示。因此,在研究之前我們必須明確假新聞的定義。在本次研究中,假新聞定義為:故意捏造并被證實(shí)為假的信息。

        表1 假新聞定義Tab.1 Definition of fake news

        2.2 行文風(fēng)格特征分析

        本文從多角度分析行文風(fēng)格對假新聞檢測的影響力,并根據(jù)詞、句、篇的屬性,將這些特征詳細(xì)劃分為三個(gè)維度,即詞維度、句維度和篇維度,并結(jié)合文本的語義信息對假新聞檢測進(jìn)行研究。多維度行文風(fēng)格特征的具體分析如下:

        (1)詞維度:實(shí)詞、情緒詞

        詞典是文本分類中經(jīng)常使用的工具。POTTHAST等人在2017 年使用帶有詞性標(biāo)簽的詞典用于“超黨派”新聞識別,該工具的缺點(diǎn)在于詞典的大小有限。而在2020 年,PRZYBYLA等人使用Word2vec表示,用相似詞對實(shí)詞詞典進(jìn)行擴(kuò)展最終得到GI詞典用于網(wǎng)頁源假新聞檢測,并取得一定成果。因此,本文將帶有詞性標(biāo)簽的實(shí)詞劃分為詞維度行文風(fēng)格特征。為了使GI詞典更加豐富,本文將英文單詞翻譯為中文,并且為了防止原有詞義的丟失,將單詞的全部翻譯結(jié)果作為詞典的擴(kuò)展,得到最終的GI詞典。此外,假新聞常使用夸張的情緒詞來吸引人們的目光,因此情緒詞也被劃分為詞維度的行文風(fēng)格特征。目前已公開的情緒詞語集有很多,文本選用知網(wǎng)提供的情感分析用詞語集,因?yàn)樗兄S富的情感詞類別,分別為:主張、正面情感、負(fù)面情感、正面評價(jià)、負(fù)面評價(jià)和程度詞語。

        (2)句維度:句長、平均句長、句數(shù)

        通過對數(shù)據(jù)集的研究,發(fā)現(xiàn)真假新聞文本的句長和平均句長也存在差異。因此,本文將句長、平均句長和句數(shù)作為句維度的行文風(fēng)格特征。

        (3)篇維度:符號、虛詞

        對于整個(gè)篇章,本文關(guān)注文本的整體符號使用情況。除文本的語義信息,文章的嘆詞、助詞、介詞等虛詞的使用也是文本的行文風(fēng)格之一,而且據(jù)圖2統(tǒng)計(jì)可以看出,在新聞的真假文本中,虛詞的使用有很大的差異性,因此本文將虛詞作為篇維度的行文風(fēng)格特征。

        圖2 常用虛詞使用頻率統(tǒng)計(jì)Fig.2 Frequency statistics of common function words

        2.3 語義特征及多維度行文風(fēng)格特征提取方法

        語義特征是文本分類的基礎(chǔ),做好內(nèi)容理解,準(zhǔn)確提取特征是文本分類的基石。卷積神經(jīng)網(wǎng)絡(luò)的核心思想是捕捉局部特征,對于文本來說,局部特征就是由若干單詞組成的滑動窗口,類似于N-gram。卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢在于能夠自動地對N-gram特征進(jìn)行組合和篩選,獲得不同抽象層次的語義信息。因此本文使用Text_CNN提取文本的語義信息,Text_CNN模型如圖3所示。

        圖3 Text_CNN模型Fig.3 Text_CNN model

        對于直觀的行文風(fēng)格特征,如GI詞典、情緒詞、句長、平均句長和句數(shù),本文使用統(tǒng)計(jì)學(xué)習(xí)方法對其進(jìn)行表示。對于較為復(fù)雜的復(fù)合特征如虛詞和符號,本文使用詞頻-逆文本頻率指數(shù)(TF-IDF)和互信息相結(jié)合的推薦算法篩選出特征的最優(yōu)組合,詳細(xì)介紹如下。

        (1)TF-IDF

        結(jié)合TF-IDF的思想,將其類比于符號(虛詞)-新聞?wù)婕訇P(guān)系上,確定核心符號(虛詞),從而去掉不必要的噪聲。具體公式如下:

        (2)互信息

        本文在式(1)的基礎(chǔ)上,進(jìn)一步挖掘一些深層知識,計(jì)算其與新聞?wù)婕俚幕バ畔?,以得到最?yōu)的符號(虛詞)組合特征?;バ畔⒌幕径x如下:

        應(yīng)用到符號(虛詞)特征選擇:

        其中,、都是二值隨機(jī)變量,當(dāng)文檔包含特征時(shí),的取值為e=1,否則e=0;當(dāng)文檔屬于類別時(shí),的取值為e=1,否則e=0。用最大似然估計(jì)時(shí),上面的概率值都是通過統(tǒng)計(jì)文檔中特征和類別的數(shù)目計(jì)算的,因而實(shí)際計(jì)算公式如下:

        其中,N表示=e和=e情況下對應(yīng)的文檔數(shù)目,比如表示包含特征(此時(shí)e=1)但不屬于類別(此時(shí)e=0);=+表示所有包含特征的文檔數(shù)目,=+表示所有屬于類的文檔數(shù)目,=+++表示所有文檔的數(shù)目。

        3 模型構(gòu)建(Model building)

        本文基于行文風(fēng)格特征的方法,從多維度提取行文風(fēng)格特征,并結(jié)合文本的語義信息對假新聞進(jìn)行檢測。其中提取的行文風(fēng)格特征來自不同的維度,若將其放入一個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,會模糊特征之間的潛在關(guān)系,因此本文使用CNN模型分別捕獲各特征的高階抽象信息。此外每個(gè)維度的特征因?yàn)槠湫再|(zhì)不同,對假新聞檢測的影響力度也不同,而Attention機(jī)制可以看成一種自動加權(quán)機(jī)制,它可以把多個(gè)不同模塊通過加權(quán)的方式進(jìn)行關(guān)聯(lián),在NLP任務(wù)中有著廣泛的應(yīng)用。因此,本文使用Attention機(jī)制突出各維度特征對假新聞檢測的重要程度,從而構(gòu)建了一個(gè)Multi_CNNSA模型,該模型結(jié)構(gòu)圖如圖4所示。

        圖4 Multi_CNNSA模型Fig.4 Multi_CNNSA model

        3.1 輸入層

        令為新聞文本,對文本進(jìn)行預(yù)處理,得到=,,…,其中t表示一個(gè)詞。令預(yù)處理好的Word2vec詞向量查找表為R,是查找表的大小,是向量矩陣=[,,x],其中xR,為最大文本長度,長度不足的文本補(bǔ)零。根據(jù)前文的行文風(fēng)格特征處理方法得到詞維度特征向量矩陣、句維度特征向量矩陣、篇維度特征向量矩陣。

        3.2 Multi_CNNSA層

        本文的Multi_CNNSA層一共有三個(gè)CNN通道和一個(gè)Text_CNN通道,分別用于計(jì)算每個(gè)特征的高階抽象信息,且每個(gè)通道后接一個(gè)Attention層,用于計(jì)算每個(gè)特征對假新聞檢測的影響力度。其中Text_CNN通道接收輸入層的語義信息數(shù)據(jù),輸出結(jié)果記為',另外三個(gè)CNN通道分別接收來自輸入層的三個(gè)維度的行文風(fēng)格特征數(shù)據(jù)、、,輸出結(jié)果記為'、'、'。然后將每個(gè)結(jié)果作為Attention層的輸入,得到語義特征結(jié)果''、詞維度特征結(jié)果''、句維度特征結(jié)果''、篇維度特征結(jié)果''。最后通過特征拼接得到本層的輸出結(jié)果,即:

        本文中Attention的計(jì)算公式如下:

        3.3 Softmax層

        本層的目的是通過Softmax函數(shù)將上層結(jié)果進(jìn)行歸一化,最終實(shí)現(xiàn)對新聞的二分類,即將上層的輸出結(jié)果作為本層的輸入,通過Softmax函數(shù)進(jìn)行歸一化操作。具體公式如下:

        4 實(shí)驗(yàn)與分析(Experiment and analysis)

        4.1 數(shù)據(jù)集

        本次實(shí)驗(yàn)聚焦社交媒體的假新聞檢測,使用的是2018 年KDD論文發(fā)布的weibo假新聞數(shù)據(jù)集,該數(shù)據(jù)集來源于微博,并由人工進(jìn)行標(biāo)注,因此其數(shù)據(jù)的真實(shí)性有效。本文將其整理為短文本假新聞二分類數(shù)據(jù)集。其中假新聞的標(biāo)簽為“1”,真新聞的標(biāo)簽為“0”,詳細(xì)信息如表2所示。

        表2 weibo假新聞數(shù)據(jù)集詳情Tab.2 Dataset details of weibo fake news

        4.2 評價(jià)指標(biāo)

        在假新聞檢測的任務(wù)中,模型需要盡可能多地檢測出假新聞,避免將真新聞?wù)`判為假新聞,所以為保證實(shí)驗(yàn)的公平性和可對比性,將綜合考慮檢測結(jié)果的精確率、召回率以及1值作為模型的評估指標(biāo)。為使每個(gè)類別都得到公平對待,使用宏平均計(jì)算最終結(jié)果。其混淆矩陣如表3所示,其中TP表示真陽性,即實(shí)際為假預(yù)測為假;TN表示真陰性,即實(shí)際為真預(yù)測為真;FP表示假陽性,即實(shí)際為真預(yù)測為假;FN表示假陰性,即實(shí)際為假預(yù)測為真。

        表3 假新聞檢測混淆矩陣Tab.3 The confusion matrix of fake news detects

        指標(biāo)計(jì)算公式如下:

        4.3 參數(shù)設(shè)置

        數(shù)據(jù)預(yù)處理時(shí),使用Word2vec方法進(jìn)行詞向量處理,向量維度為100。其最大文本長度設(shè)置為500,長度不足時(shí),在文本后面補(bǔ)零表示。初始學(xué)習(xí)率為1,使用Adam函數(shù)進(jìn)行優(yōu)化。批次數(shù)為50,迭代數(shù)為100。使用的數(shù)據(jù)集隨機(jī)按8∶1∶1比例分為訓(xùn)練集、驗(yàn)證集和測試集。

        4.4 實(shí)驗(yàn)結(jié)果與分析

        在本部分中,本文通過四個(gè)對比實(shí)驗(yàn)來驗(yàn)證我們提出的多維度行文風(fēng)格假新聞檢測方法的可行性和高效性。實(shí)驗(yàn)結(jié)果如表4所示。

        表4 各模型性能指標(biāo)結(jié)果Tab.4 Performance index results of each model

        其中,樸素貝葉斯(Na?ve Bayes)方法是使用最為廣泛的分類模型之一。該方法在貝葉斯算法的基礎(chǔ)上進(jìn)行簡化,即假定給定目標(biāo)值時(shí)屬性之間相互條件獨(dú)立。也就是說沒有哪個(gè)屬性變量對于決策結(jié)果來說占有較大的比重,也沒有哪個(gè)屬性變量對于決策結(jié)果占有較小的比重。雖然這個(gè)簡化方式在一定程度上降低了貝葉斯分類算法的分類效果,但是在實(shí)際的應(yīng)用場景中,極大地簡化了貝葉斯方法的復(fù)雜性。因此本文將其作為模型的對比實(shí)驗(yàn)之一。

        CNN最早用于圖像訓(xùn)練,如今其變體Text_CNN已應(yīng)用到文本挖掘任務(wù)。除預(yù)訓(xùn)練文本之外,Text_CNN可以通過不同大小的卷積核并行提取文本的高階抽象信息,同時(shí)通過最大池化突出關(guān)鍵詞信息,最終實(shí)現(xiàn)分類任務(wù)。而且其訓(xùn)練過程參數(shù)數(shù)目少,計(jì)算量少,訓(xùn)練速度快。因此本文將其作為對比實(shí)驗(yàn)之一。

        EANN模型是WANG等人在Text_CNN提取文本語義信息的基礎(chǔ)上,加入文本的圖片信息,從而構(gòu)建多模態(tài)假新聞檢測模型。它證明了假新聞檢測任務(wù)中,除文本語義信息外,其他輔助特征也可以加入模型,而且可以顯著提高假新聞檢測的效果。作者使用的數(shù)據(jù)集與本文與我們使用的是同一個(gè)weibo數(shù)據(jù)集,因此我們直接引用其結(jié)果,而沒有復(fù)現(xiàn)該方法。

        為進(jìn)一步證明本文提出的方法對假新聞檢測的有效性,本文提出一個(gè)SCNN模型,該模型只使用多維度行文風(fēng)格特征對假新聞進(jìn)行檢測,即去掉本文提出模型的文本語義特征提取部分。為保證實(shí)驗(yàn)的公平性,該模型的參數(shù)設(shè)置、特征提取和表示方法不變。

        從表4可以看出,本文提出的Multi_CNNSA模型優(yōu)于另外四個(gè)模型,其1值達(dá)到了86.95%,比另外四個(gè)模型都高,這說明本文提出的方法和模型可以更好地表達(dá)真假新聞文本行文風(fēng)格之間的差異性。其中Text_CNN模型優(yōu)于Na?ve Bayes模型,其精確率和1值都比對方高。EANN是基于Text_CNN模型加入輔助特征提出的模型,其結(jié)果比單獨(dú)的Text_CNN效果好。這證明了假新聞檢測任務(wù)中,除文本的語義特征外,其他輔助特征的重要性。而本文提出的SCNN模型的表現(xiàn)雖沒有Text_CNN表現(xiàn)好,但是其結(jié)果卻高于Na?ve Bayes,這從側(cè)面證明了輔助特征的重要性。

        5 結(jié)論(Conclusion)

        本文研究真假新聞行文風(fēng)格之間的差異性,并將這些差異性特征根據(jù)詞、句和篇這三個(gè)維度對其進(jìn)行歸類。針對真假新聞的行文風(fēng)格特征提出一種基于多維度行文風(fēng)格的假新聞檢測方法,然后使用多通道卷積神經(jīng)網(wǎng)絡(luò)對各維度的行文風(fēng)格特征進(jìn)行融合。實(shí)驗(yàn)結(jié)果表明,該方法能夠有效提取真假新聞行文風(fēng)格特征之間的差異性,并利用這些潛在的差異性對假新聞進(jìn)行檢測。

        在文本的句維度行文風(fēng)格特征中,句子的結(jié)構(gòu)信息在真假新聞文本中也存在一定的差異性,那么如何利用句子的結(jié)構(gòu)信息對假新聞進(jìn)行檢測將是在未來的工作中會著重思考的問題。

        猜你喜歡
        風(fēng)格特征真假假新聞
        真假大作戰(zhàn)
        真假大作戰(zhàn)
        真假大作戰(zhàn)
        傣族舞蹈中基本體態(tài)短句的風(fēng)格特征及訓(xùn)練方法
        眾聲喧嘩,怎樣識別假新聞?
        傳媒評論(2019年7期)2019-10-10 03:38:24
        三句話的真假
        快樂語文(2018年25期)2018-10-24 05:39:02
        假新聞泛濫,如何趨近真相?
        傳媒評論(2017年2期)2017-06-01 12:10:16
        假新聞炮制不出真實(shí)的社會冷暖
        淺析蒙古族民間舞蹈中“繞肩”的審美規(guī)范
        人間(2016年24期)2016-11-23 18:48:44
        基于民族風(fēng)格特征的云南原生態(tài)音樂分類研究
        亚洲中文字幕舔尻av网站| 日本视频一区二区三区免费观看| 国产在线高清无码不卡| 久久国产精品亚洲我射av大全| 丰满人妻一区二区三区蜜桃| 久久精品黄aa片一区二区三区| 精品中文字幕久久久人妻| 亚洲一区二区三区在线中文| 国产美腿丝袜一区二区| 亚洲av色香蕉一区二区三区老师| 国产无遮挡a片又黄又爽| 久久青青草原国产精品最新片| 亚洲成在人线天堂网站| 国产熟妇与子伦hd| 国产自国产在线观看免费观看| 欧美亚洲另类自拍偷在线拍 | 美女视频黄a视频全免费网站色| 国产精品免费看久久久无码| 狠狠色狠狠色综合日日不卡| 99日本亚洲黄色三级高清网站| 少妇人妻精品久久888| 山外人精品影院| 毛片免费在线播放| 亚洲在线视频一区二区| 久久精品免费中文字幕| 国产99久久精品一区二区| 中文字幕久久久久久久系列| 国产丝袜美腿一区二区三区| 亚洲av无码无限在线观看| 国产精品无码日韩欧| 久久高潮少妇视频免费| 45岁妇女草逼视频播放| 国产绳艺sm调教室论坛| 国产最新一区二区三区天堂| 亚洲精品国产熟女久久久| 国产毛多水多高潮高清| 免费av片在线观看网站| 人妻少妇精品视频一区二区三区| 国产亚洲精品国产精品| 激情综合色五月丁香六月亚洲| 亚洲欧美日韩国产综合专区|