亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學習的互聯(lián)網(wǎng)虛假信息識別研究

        2022-02-17 12:48:30劉建強盧為黨黃國興馬寧
        情報工程 2022年5期
        關鍵詞:特征文本算法

        劉建強 盧為黨 黃國興 馬寧

        1. 軍事科學院戰(zhàn)爭研究院 北京 100091;

        2. 浙江工業(yè)大學信息工程學院 杭州 310023

        引言

        互聯(lián)網(wǎng)虛假信息是近年來在高新技術領域凸顯出的網(wǎng)絡輿情樣式[1],主要以國外機構和研究人員夸大、偽造研究成果的影響力,質(zhì)疑、詆毀國內(nèi)科研成果和專家等形式呈現(xiàn),也包括國內(nèi)相關專家學者編造夸大本人及團隊研究效用,誤導國家科技管理部門在立項、評獎、人才培養(yǎng)等方面產(chǎn)生決策誤差,進而產(chǎn)生了巨大損失。近年來互聯(lián)網(wǎng)虛假信息成為學術界研究的熱點,Hindman等[2]以推特為例,對互聯(lián)網(wǎng)虛假信息在社交媒體中的成因和影響進行了介紹,詳細闡述了互聯(lián)網(wǎng)虛假信息可能造成的嚴重后果。Bradshaw[3]針對互聯(lián)網(wǎng)虛假信息對于國家安全的危害進行了分析,文中表明許多國家都成立了專門從事輿論干涉的網(wǎng)軍,用以掌握國際媒體言論,從而誤導他國國家戰(zhàn)略的目的。文獻[4-6]針對互聯(lián)網(wǎng)虛假信息的概念和誘導決策方法進行了梳理。互聯(lián)網(wǎng)虛假信息的主要迷惑對象是國家情報部門和領導決策層,隨著大數(shù)據(jù)分析、推薦算法等技術的快速發(fā)展,互聯(lián)網(wǎng)虛假信息的迷惑性得到極大增強,并且可以精準定位受眾目標。同時由于自媒體、短視頻等傳媒方式的興起,輿論的發(fā)布愈加輕量化。這些因素都無形間增加了預防互聯(lián)網(wǎng)虛假信息的成本。

        當前,網(wǎng)絡虛假信息的檢測手段主要是使用特征工程的手段,即根據(jù)專家或者經(jīng)驗總結設計的虛假信息特征,如語言特征、傳播特征等,再采用支持向量機、隨機森林等機器學習方法對信息進行真假分類。這種基于特征提取的方法可以充分地利用專家總結的經(jīng)驗和知識,但缺點在于這種方法需要人工手動提取特征,無法自動從大規(guī)模互聯(lián)網(wǎng)數(shù)據(jù)中自動挖掘特征。而網(wǎng)絡虛假信息與垃圾郵件或廣告類似,其技術、手段和形式也在不斷更新?lián)Q代,而這些專家總結的特征很難做到與時俱進,應對新出現(xiàn)的虛假信息形式。另一方面,隨著近年來深度學習的迅猛發(fā)展,使用自然語言處理利用分布式架構學習大規(guī)模數(shù)據(jù)集合信息的低維特征向量表示。低維向量空間中的位置信息,以及學習到向量之間的相對距離反映了原始對象(如詞、句子、文檔)的語義相關度。通過聚類分析等方法對信息中潛在的威脅進行分析預警。但此種方法存在以下幾個缺陷,首先對于同樣使用神經(jīng)網(wǎng)絡進行的深度偽造(Deep Fake)信息識別準確度低,其次,只能檢測數(shù)據(jù)庫已收錄的虛假信息種類,尚未收錄的新種類仍然需要通過人工檢測。另外,人工智能模型潛在的算法偏見、缺乏算法透明度和可解釋性的缺陷可能導致識別出錯。

        當前國內(nèi)外針對網(wǎng)絡虛假信息的識別方法,主要集中在建立用戶畫像以及針對基于網(wǎng)絡評論的信息識別。馬超[7]使用Facebook數(shù)據(jù)集,利用隨機游走算法,基于主題模型對社交網(wǎng)絡中的用戶畫像分析方法進行研究,實現(xiàn)了對于重點用戶的特征構建。李雅坤[8]基于微博平臺和用戶數(shù)據(jù),利用大數(shù)據(jù)技術建立用戶畫像模型,構建群體特征,可以對敏感用戶群體進行定位,同時生成特定的用戶標簽,方便對于用戶的精準把控。特征畫像的問題在于,需要為重點人群、群體提供多方位、全面的用戶數(shù)據(jù),數(shù)據(jù)收集成本較高。同時該方法對于長期保有用戶的賬號效果較好,對于網(wǎng)絡水軍短期快速注冊的機器人新賬號,效果較差。

        相比之下,基于評論的信息識別,對于網(wǎng)絡水軍賬號的信息識別,普適性更強?;谠u論的網(wǎng)絡虛假信息識別,可分為基于評論內(nèi)容的信息識別、基于評論行為的信息識別、基于評論關系的信息識別?;谠u論內(nèi)同的信息識別,主要側(cè)重于評論文本挖掘,由于評論文本為用戶偽造,所以在語言細節(jié)上會有破綻,例如文字重復率高、語言模型異常,協(xié)作風格單一等。Jindal等[9]以亞馬遜580萬條評論為研究對象,針對相似度進行邏輯回歸模型構建,實現(xiàn)了虛假評論的識別。Ott等[10]構建了負向情感詞庫,一次對虛假評論文本進行分析,取得了高于人工識別的效果。Fusilier等[11]提出利用PU-learning結合n-gram詞袋特征進行虛假意見檢測的方法,對1600余條評論進行分析,實驗結果表明,該方法在正面和負面欺騙意見的檢測上具有較好的學習效果。Yun 等[12]采用語體分析方法,對真實和虛假評論進行對比分析,構建貝葉斯和支持向量機模型,達到了90%準確率。針對評論行為的識別,由于虛假評論發(fā)表者的行為不同于正常用戶,會在短時間寫出大量的評論,并在評分上與正常用戶產(chǎn)生偏離,所以可針對以上特征進行檢測。Lim等[13]提出兩種虛假評論行為模型,即基于目標的虛假評論模型和基于偏差的虛假評論模型,通過結合兩個模型,提升了虛假評論信息識別的準確率。Mukherjee等[14]提出了虛假評論團體的概念,并針對團體行為等方面特征對虛假信息評論進行建模和識別。針對評論關系的虛假信息識別,主要著眼于評論發(fā)表者所存在的異常關系,可通過建立評論發(fā)表者、評論、時間之間的關系網(wǎng)絡圖模型,對此進行識別。Wang等[15]提出一種異構評論圖模型,將虛假評論識別問題轉(zhuǎn)化為異常關聯(lián)模式挖掘,補充了先用方法的不足?;谠u論信息的虛假信息識別缺陷在于只能針對文本評論進行分析,當前虛假信息已不局限于文本,在視頻音頻以及其他復合格式文件,都存在虛假信息。

        綜上所述,當前國內(nèi)外互聯(lián)網(wǎng)虛假信息的識別,對于網(wǎng)絡水軍機器人賬號,以及除文本外的虛假數(shù)據(jù)類型還有待進一步研究。虛假信息識別需要綜合數(shù)據(jù)采集、數(shù)據(jù)分析、特征工程、神經(jīng)網(wǎng)絡擬合、專家系統(tǒng)預警等多種關鍵技術的組合支撐,是一個系統(tǒng)性的工程。為了解決上述問題,本文提出一種基于深度學習的互聯(lián)網(wǎng)虛假信息平臺設計,以及一種基于生成對抗網(wǎng)絡的數(shù)據(jù)篩選算法。本文的主要共獻有以下幾點:

        (1)提出了一種基于深度學習的互聯(lián)網(wǎng)虛假信息平臺設計。該平臺設計有效的解決了當前多源異構數(shù)據(jù)無法有效進行特征提取的信息識別的問題;并且要素齊全,包含了數(shù)據(jù)收集、數(shù)據(jù)預處理,以及數(shù)據(jù)分析預警等多個功能模塊,減少了人工數(shù)據(jù)收集和標定的工作量,同時構建自然語言處理架構,可對各類信息進行文本分類、語法分析、語義分析。

        (2)針對收集到的各類異構信息,平臺集成了綜合預警模塊和信息挖掘模塊,可對可以信息進行持續(xù)的深度、迭代挖掘,對其關聯(lián)的話題和歷史信息進行熱點分析、觀點傾向分析。高效可靠的實現(xiàn)了虛假信息識別和溯源。

        (3)為提升平臺在處理海量數(shù)據(jù)時,識別精準度較低、預處理算法收斂困難,且針對Deep Fake消息識別效果差的問題,本文提出一種基于生成對抗網(wǎng)絡的改進虛假信息初篩方法,用于提升虛假信息識別平臺在數(shù)據(jù)分析、預警上的效能。

        1 互聯(lián)網(wǎng)虛假信息基本概念

        蘇鵬等[16]將互聯(lián)網(wǎng)虛假信息分為5類,分 別 是Disinformation、Misinformation、Malinformation、Fake News、Deepfakes。Disinformation是專業(yè)人士有意構建的假消息,目的在于影響目標人群的行為,進而達到自身目的[17,18]。Misinformation是誤報的消息,是由于信息接收者在解讀信息時出現(xiàn)了誤判,導致理解出現(xiàn)偏差[19,20]。Malinformation是被惡意傳播的真實消息,包括惡意泄密、賣密等都屬于此類[21,22]。Fake News是新聞工作者或自媒體人為了吸引眼球,或能力素質(zhì)不足導致傳播的假新聞[23,24]。Deepfakes則是通過大數(shù)據(jù)分析、深度學習等智能方法制造的假消息,利用推薦算法可以對目標人群進行精準的誤導[25-27]。互聯(lián)網(wǎng)虛假信息,目的性強,構造邏輯嚴密,是一種為了特定利益,利用傳統(tǒng)和智能手段構造虛假信息,并通過多種形式媒體進行主動宣傳的手段。它的主要特點是蓄意性、虛假性、傳播性、誤導性。

        互聯(lián)網(wǎng)虛假信息的傳播媒介可分為以下幾類:

        (1) 傳統(tǒng)媒體。主流的媒體如各國的權威報紙、官方媒體網(wǎng)站、新聞電視臺等,在信息傳播上扮演著權威、官方的角色。目標群體在潛意識中對傳統(tǒng)媒體具有更高的信賴度,所以在傳統(tǒng)媒體上發(fā)布的虛假信息,更容易對公眾和目標群體產(chǎn)生干擾。但另一方面,傳統(tǒng)媒體對于虛假信息審核較為嚴格,所以不易發(fā)布。

        (2) 社交媒體。社交媒體如國內(nèi)的微博、國外的Facebook等是當前互聯(lián)網(wǎng)虛假信息的重災區(qū)。由于社交媒體用戶注冊門檻低,用戶構成復雜,審核力度不足等原因,極易形成虛假信息。并且由于當前社會人們更趨向于利用短頻快的方式獲取信息,所以社交媒體上的虛假信息會對大量人群造成影響。

        (3) 網(wǎng)絡水軍。網(wǎng)絡水軍指的是由國家或特定組織,利用僵尸網(wǎng)絡或隱蔽身份小號組成的虛假信息構建團體。網(wǎng)絡水軍可能是真實的人,也有可能是被控制的自動機器人,主要用途就是在網(wǎng)絡上針對特定話題,以極高頻率散播謠言,迫使民眾和目標群體無法獲取準確信息源,從而出現(xiàn)信息和形勢的誤判。

        (4) Deepfakes。Deepfakes是指利用深度學習等人工智能算法作為互聯(lián)網(wǎng)虛假信息生成工具,利用大數(shù)據(jù)分析、推薦算法等手段對目標受眾進行精準定位,并高效推送虛假信息的手段。由于當前信息泄露嚴重,每個人的身份信息和偏好極易被特定群體所掌握分析,結合智能算法和大數(shù)據(jù)手段,Deepfakes成為了當前最高效的虛假信息生成方法。

        互聯(lián)網(wǎng)虛假信息的傳播模型揭示了虛假信息從產(chǎn)生到擴散的方式,準確的掌握傳播模型對于設計算法識別虛假信息,進而阻斷虛假信息的擴散有重要的意義[28,29]。當前大多數(shù)研究集中于信息傳播機制和信息傳播規(guī)律演化的預測[30],主要的模型包括線性閾值模型[31]、傳染病行為動力學模型[32]和基于博弈論的復雜網(wǎng)絡模型[33]等。傳染病模型是信息傳播領域的重要模型,研究人員基于此衍生開發(fā)了多種算法。文獻[34]提出了SLIR模型,通過引入潛在的用戶節(jié)點,結合平均場理論針對傳播網(wǎng)絡中的重要性進行了評估。文獻[35]基于博弈論的方法,構建動力學傳播模型,在不僅可以準確描述網(wǎng)絡中信息傳播趨勢,同時可以揭示不同影響因素對信息傳播的影響。但問題在于,算法面向的場景都是單消息場景,針對多消息場景的效果不佳?;诖?,文獻[36]利用演化博弈理論,將信息傳播的方式類比為生態(tài)系統(tǒng)中病毒傳播方式,對演化動力和進化策略進行分析,揭示了傳播過程中信息之間的促進和抑制關系。

        2 基于深度學習的互聯(lián)網(wǎng)虛假信息識別平臺架構

        為了能夠有效識別互聯(lián)網(wǎng)虛假信息,需要結合數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)分析預警等多重手段,綜合構建一套互聯(lián)網(wǎng)虛假信息識別平臺,用以高效處理多源異構的互聯(lián)網(wǎng)信息,準確識別虛假信息并做出及時的預警。本節(jié)對基于深度學習的互聯(lián)網(wǎng)虛假信息識別平臺的架構進行介紹,該平臺利用爬蟲工具對重要信息進行采集抓取。利用數(shù)據(jù)融合、自然語言處理等方法對多源異構的信息數(shù)據(jù)進行預處理,最后通過情感分析、聚類、數(shù)據(jù)分析等手段分析數(shù)據(jù),并對異常數(shù)據(jù)進行報警。圖1是上述三個流程的關系圖。

        圖 1 基于深度學習的互聯(lián)網(wǎng)虛假信息識別平臺架構圖

        2.1 基于網(wǎng)絡爬蟲的信息實時采集模塊

        網(wǎng)絡爬蟲[29]是一種高效的信息抓取工具,它集成了搜索引擎技術,并通過技術手段進行優(yōu)化,用以從互聯(lián)網(wǎng)搜索、抓取并保存任何通過超文本標記語言進行標準化的網(wǎng)頁信息,其流程如圖2所示。

        目前動態(tài)網(wǎng)頁(例如AJAX等技術所實現(xiàn))的流行,在實際中還需要基于事件驅(qū)動技術來獲取動態(tài)網(wǎng)頁的信息,這需要解決三項技術:(1)JavaScript的交互分析和解釋;(2)DOM事件的處理和解釋分發(fā);(3)動態(tài)DOM內(nèi)容語義的抽取。考慮到信息爬取效率,可以使用分布式爬蟲系統(tǒng),協(xié)同多臺計算機終端來進行協(xié)同爬取網(wǎng)頁信息[37]。

        通過網(wǎng)絡爬蟲采集技術,可以獲得豐富的用于分析的數(shù)據(jù),并構建高質(zhì)量的數(shù)據(jù)特征,具體包括:基礎屬性特征集、行為特征集、場景特征集、關聯(lián)特征集。

        基礎屬性特征集包括身份屬性、經(jīng)濟屬性、文化屬性、社群屬性等。為了獲取到更精準的目標用戶特征,對每類屬性進行細化,得到通用屬性下的二級屬性,具體如下。(1)基礎屬性:性別,年齡,文化程度,人種,語種,國家,民族,職業(yè),地域,行業(yè);(2)經(jīng)濟屬性:經(jīng)濟收入,可支配收入,付費方式;(3)文化屬性:所處文化圈,文化喜好,個性化需求;(4)社群屬性:交友需求,異性交往需求,歸屬需求,領導需求,合作需求等。

        行為特征集是基于用戶點擊流、操作行為軌跡等數(shù)據(jù)等提煉加工的用戶行為特征集,包括:(1)用戶資料輸入時長,如:聯(lián)系人輸入時長、工作單位輸入時長;(2)操作頻次,如:最近一月登錄次數(shù),最近一月提現(xiàn)次數(shù)等;(3)間隔時長,如:注冊到申請的時長,兩次操作之間的最大間隔時間;(4)用戶生物探針特征,如:手機陀螺儀位置偏好、用戶點擊屏幕位置偏好、屏幕點擊速度、屏幕點擊強度偏好等;(5)用戶影像拍攝偏好,如大頭照拍攝次數(shù)、是否使用美顏、是否裁減等。

        場景特征集主要指用戶習慣操作的場景,包括:(1)用戶設備信息,如:設備型號、設備語言設置、設備APP列表及類型等;(2)用戶操作時點場景,如:工作日或節(jié)假日操作,早中晚操作;(3)操作空間場景,即用戶操作的地理位置信息,如:公司或家庭,商場場或旅游區(qū)等;(4) IP環(huán)境,如:網(wǎng)絡類型,WIFI 或4G等;(5)運營商情況,如:運營商類型、在網(wǎng)時長、消費套餐等。

        關聯(lián)特征集主要指用戶核心屬性關聯(lián)的情況,包括一級關聯(lián)和多級關聯(lián)。核心屬性包括:手機號、賬號、身份證號、設備號、IP、GPS地址、微信號、第一聯(lián)系人電話、第二聯(lián)系人電話、公司名稱、家庭地址等。其中一級關聯(lián)指的是,主維度屬性關聯(lián)另一個維度的個數(shù),如:最近一年設備關聯(lián)的手機號個數(shù)、1天內(nèi)IP關聯(lián)的手機號個數(shù)等;而多級關聯(lián)指的是多個核心屬性之間的關聯(lián)情況,如二級關聯(lián):同IP關聯(lián)的設備,這些設備關聯(lián)的手機號個數(shù)。

        2.2 基于自然語言文本處理方法的數(shù)據(jù)預處理模塊

        互聯(lián)網(wǎng)虛假信息識別過程中,對互聯(lián)網(wǎng)虛假信息的關鍵詞提取是決定識別率的主要因素。因此通過自然語言處理手段主要完成分詞的處理。首先分詞模型將輸入的語句進行詞語分隔,然后把分隔的結果進行詞性標注和命名實體,其目的在于提取本文中的有意義的詞語并對其語義進行分析。在完成基礎處理之后,可以構建更深入的自然語言處理,如文本分類、信息熱度分析、觀點傾向分析等。網(wǎng)絡數(shù)據(jù)預處理流程圖3所示。

        圖3 網(wǎng)絡數(shù)據(jù)預處理流程圖

        用于分詞的機器學習模型和方法主要分為兩大類:一類是基于字符標記的,也就是對每一個字單獨進行分段信息的標注;還有一類就是基于詞的,也就是對詞進行整體的標注和建模?;趩蝹€字符標記方法的核心就是對每一個字所屬詞中的位置進行一個標注。對于任何一個字來說,它可以是一個詞的開始、一個詞的中間、一個詞的結尾,或者本身就是一個單字的詞,這也就是在序列標注中常用的分類。這類方法比較典型的是最大熵馬爾科夫模型[38]和條件隨機場[39]。

        雖然基于單個字符的模型對于抽取字具有較好的效果,但該模型無法直接建立相鄰詞之間的相關性,也無法直接看到當前整個詞所對應的字符串。而基于詞的模型能夠很好的解決這個問題,這種模型用類似基于轉(zhuǎn)換的句法分析去解決分詞的問題?;谠~的模型是一種漸進式、自下而上的語法分析辦法,一般以從左向右的方式處理逐字處理文本的輸入,并在運行過程中通過一個堆棧去保存到當前為止得到的不完整的分詞結果,并且通過機器學習的方法去決定如何整合當前的分析結果,或是接收下一個輸入去拓展當前的分析結果?;谠~的算法存在的問題是堆棧上保存的到當前位置的分析結果的數(shù)量會非常大,需要進行修剪來控制搜索空間的范圍。

        2.3 互聯(lián)網(wǎng)虛假信息數(shù)據(jù)分析與預警模塊

        虛假信息分析模塊是系統(tǒng)中最為關鍵的處理模塊,主要利用文本分類和聚類等方法對預處理后的虛假素材信息進行分析挖掘,實現(xiàn)虛假信息的熱點發(fā)現(xiàn)和跟蹤。

        (1)熱點分析

        熱點發(fā)現(xiàn)算法從本質(zhì)上來說是屬于數(shù)據(jù)挖掘中的文本聚類算法。算法的實現(xiàn)過程如下:將預處理后的文本信息歸入不同的話題,并在需要的時候建立新的話題,熱點發(fā)現(xiàn)的目的就是要按照話題將文檔進行聚類,從一組文檔集中發(fā)現(xiàn)新熱點,由于沒有關于新熱點的先驗知識,需要建立新的主題簇。熱點事件跟蹤是為了用戶能夠跟蹤自己所關心的類型事件而進行的操作,用戶可以將已獲得的事件的樣本信息通過系統(tǒng)學習的方式交給系統(tǒng),然后系統(tǒng)通過文本挖掘技術對不斷到來的信息進行分類,判斷是否為用戶感興趣的內(nèi)容,將判斷為是的信息交給用戶。同時系統(tǒng)可以通過用戶對獲得的信息的反饋,不斷地修正系統(tǒng)的學習結果,使得系統(tǒng)可以獲得越來越接近用戶所希望的信息。 因此,熱點事件跟蹤是一種特殊的二元分類問題。

        (2)觀點傾向分析

        敏感信息檢測是在海量的互聯(lián)網(wǎng)信息中,識別出虛假信息。在進行敏感信息識別時需要考慮規(guī)模和正負面程度兩方面,需要找出在一段時間內(nèi)的上升較快,或參與規(guī)模較大的虛假信息。規(guī)??梢酝ㄟ^聚類后的相關網(wǎng)頁數(shù)判斷,負面程度通過中文情感分析技術識別。中文情感分析技術旨在發(fā)現(xiàn)用戶對熱點事件的觀點和態(tài)度。傳統(tǒng)的實現(xiàn)方式是使用SVM[40]、條件隨機場等傳統(tǒng)機器學習算法根據(jù)手工標注情感特征對文本情感進行分析。最新的實現(xiàn)方式則利用深度學習實現(xiàn)。采用遞歸神經(jīng)網(wǎng)絡來發(fā)現(xiàn)與任務相關的特征,避免依賴于具體任務的人工特征設計,并根據(jù)句子詞語間前后的關聯(lián)性引入情感極性轉(zhuǎn)移模型加強對文本關聯(lián)性的捕獲?;谏疃葘W習的方法在性能上與當前采用手工標注情感特征的方法相當,但節(jié)省了大量人工標注的工作量。目前,情感分析的主要研究方法還是一些基于機器學習的傳統(tǒng)算法,如SVM、信息熵[41]、條件隨機場等。這些方法歸納起來有三類:有監(jiān)督學習、無監(jiān)督學習和半監(jiān)督學習。當前大多數(shù)基于有監(jiān)督學習的研究都取得了不錯的成績,但是由于有監(jiān)督學習依賴于大量人工標注的數(shù)據(jù),使得基于有監(jiān)督學習的系統(tǒng)需要付出很高的標注代價。半監(jiān)督學習則是采取綜合利用少量已標注樣本和大量未標注樣本來提高學習性能的機器學習方法,它兼顧了人工標注成本和學習效果,被視為一種折中方案。無監(jiān)督學習不需要人工標注數(shù)據(jù)訓練模型,是降低標注代價的解決方案?;谏疃葘W習的方法在性能上與當前采用手工標注情感特征的方法相當,節(jié)省了大量人工標注的工作量。

        (3)綜合預警

        網(wǎng)絡綜合虛假信息預警模塊的研發(fā)主要包括以下三方面:(1)建立預警指標體系。有學者認為網(wǎng)絡虛假信息的產(chǎn)生、發(fā)展過程會通過一系列關鍵指標體現(xiàn),并將這些指標按照一定的科學方法確定關鍵指標構成、指標維度、指標層次、指標量化方法等,從而建立預警指標體系。(2)基于網(wǎng)絡的數(shù)據(jù)挖掘的預警。這種方法就是從網(wǎng)絡中提取與目標相關的數(shù)據(jù),構成目標數(shù)據(jù)集。其任務是對網(wǎng)絡數(shù)據(jù)進行網(wǎng)頁特征提取、基于內(nèi)容的網(wǎng)頁聚類[42]、網(wǎng)絡間內(nèi)容關聯(lián)規(guī)則的發(fā)現(xiàn)等,從其中得到與網(wǎng)絡的挖掘目的相關的數(shù)據(jù)。利用相應的工具和技術對挖掘出的數(shù)據(jù)進行分析、解釋,并通過分析結果對網(wǎng)絡虛假信息進行預警。(3)基于觀點傾向性觀點分析技術的預警。采用這種方式進行預警的學者認為網(wǎng)絡虛假信息預警能力主要體現(xiàn)在是否能夠從海量的網(wǎng)絡言論中,發(fā)現(xiàn)潛在危機的隱患。到目前為止,對觀點傾向性分析主要包括“贊同”“反對”“中立”三種態(tài)度。

        3 基于深度神經(jīng)網(wǎng)絡的增強互聯(lián)網(wǎng)虛假信息初篩方法

        在第三節(jié)介紹的互聯(lián)網(wǎng)虛假信息識別平臺中,數(shù)據(jù)分析與預警模塊通過熱點分析和觀點傾向分析對海量的互聯(lián)網(wǎng)信息進行虛假信息篩選。而當前在熱點分析和觀點分析中大多使用基于大數(shù)據(jù)的無監(jiān)督學習方法,如文本聚類、降維分割等,或是使用基于傳統(tǒng)機器學習,如支持向量機、條件隨機場等方法。這類算法在處理海量數(shù)據(jù)時,識別精準度較低、預處理算法收斂困難,且針對Deep Fake消息識別效果差。因此,本文提出一種基于生成對抗網(wǎng)絡的改進虛假信息初篩方法,用于提升虛假信息識別平臺在數(shù)據(jù)分析、預警上的效能。

        互聯(lián)網(wǎng)虛假信息傳播存在多種不同類型的信息,包括不同的源(微博、知乎等)、不同的表現(xiàn)形式(不同格式的文本等),為了準確分析并研判可能的虛假信息,在互聯(lián)網(wǎng)虛假信息傳播模型中,對不同的信息來源可定義不同的網(wǎng)絡節(jié)點,例如對新浪微博、知乎、論壇等,網(wǎng)絡用戶可設為復雜網(wǎng)絡中的節(jié)點,其輸入經(jīng)處理后,表示為傳播信息的語義向量X。

        基于生成對抗網(wǎng)絡(GAN)的多層耦合網(wǎng)絡構建

        對輸入矩陣X=Xn×t,n表示節(jié)點數(shù)量,t表示采樣時間,訓練采用無監(jiān)督學習,如圖4所示。

        圖 4 構建多層耦合網(wǎng)絡框架

        該框架第一層是詞向量表示層,輸入句子矩陣的列和行分別是詞向量的維度和序列長度;第二層是卷積層,主要通過卷積操作來提取句子的局部特征;第三層進行最大池化操作,提取關鍵特征,舍棄冗余特征,生成固定維度的特征向量,最后將池化層學習到的特征與注意力文本連接并作為全連接層輸入特征的一部分,經(jīng)過全連接層后得到特征表示結果。CNN特征提取具體過程如下:將詞W(i)利用word2vec轉(zhuǎn)化為對應的詞向量E(W(i)),其中E(W(i))∈Rk代表句子中第i個詞,詞向量為K維,文本矩陣表示為

        用h×k的濾波器對文本矩陣執(zhí)行卷積操作,得到局部特征為

        式中:F代表h×k濾波器,b代表偏置量,f代表通過RELU進行非線性操作的函數(shù),E(W(i:i+h-1))為從i到i+h-1共h行向量,ci為通過卷積操作得到的局部特征。隨著濾波器依靠為1的步長從上往下進行滑動,走過整個句子,得到局部特征向量集合Ci∈Rt。采用n個不同的濾波器對短文本中連續(xù)單詞的h個窗口重復卷積運算,得到C1:m-h+1∈R(m-h+1)×n,采用VALID方式進行padding操作,獲得與原輸入相同長度的特征向量C1:m∈Rm×n。

        在生成器和判別器內(nèi)部,使用堆疊式自編碼機,其目的在于構建多層耦合網(wǎng)絡,最后生成的復雜網(wǎng)絡如圖5所示。其中,ci,t,n是得到的自編碼,i表示第i個網(wǎng)絡節(jié)點,t表示時刻,n表示第n個隱藏層。定義頂點之間的歐氏距離(也可用余弦距離)

        圖5 SAE生成框架

        (1)當n1=n2=const時,構建的是時間上的耦合網(wǎng)絡。

        (2)當t1=t2=const時,構建的空間粒度上的耦合網(wǎng)絡。SAE的輸出編碼是期望能夠恢復源輸入,不同隱藏層的維數(shù)為設定為不同,如果從第1層到第層中的節(jié)點逐漸減小,可以視為空間的粒度從細到粗的過程。因此,隱藏層的物理意義表示了空間粒度的不同,同時,SAE的使用也相當于對復雜網(wǎng)絡數(shù)據(jù)抽取進行了節(jié)點降維,通過使用GAN來生成虛假信息傳播網(wǎng)絡,其中生成器G試圖生成頂點對,而鑒別器D試圖區(qū)分生成的頂點對與網(wǎng)絡實際連接的頂點對,采用Wasserstein GAN網(wǎng)絡來訓練,其目標函數(shù)為:

        對于各個節(jié)點,可以沿用一般SIR模型對節(jié)點狀態(tài)的定義,可將網(wǎng)絡中的節(jié)點劃分為以下四種狀態(tài),即節(jié)點標簽可為節(jié)點標簽Y={S,E,I,R},其中易感狀態(tài)S、接收狀態(tài)E、傳播狀態(tài)I、免疫狀態(tài)R。易感狀態(tài)是指節(jié)點從未接收過網(wǎng)絡中傳播的虛假信息,即對該虛假信息處于未知時的狀態(tài);接收狀態(tài)表示節(jié)點已經(jīng)接收到網(wǎng)絡中傳播的虛假信息,但還未將該信息傳播出去時所處的狀態(tài);傳播狀態(tài)是指節(jié)點已將網(wǎng)絡中傳播的虛假信息傳播出去后所處的狀態(tài);免疫狀態(tài)是指節(jié)點完全不再接收網(wǎng)絡中傳播的虛假信息,并將不會再對其進行傳播時所處的狀態(tài)。通過對互聯(lián)網(wǎng)傳播信息的初篩,可以有效篩選出互聯(lián)網(wǎng)信息的統(tǒng)計信息特征,為精準互聯(lián)網(wǎng)虛假信息識別提供先驗支撐信息。

        4 實驗仿真分析

        本節(jié)針對提出的基于深度學習的互聯(lián)網(wǎng)虛假信息識別平臺進行實驗驗證,并對比提出的基于生成對抗網(wǎng)絡的虛假信息篩選方法與傳統(tǒng)方法的效能。近期由于國內(nèi)外重大事件頻發(fā),各大互聯(lián)網(wǎng)平臺都出現(xiàn)了嚴重的輿論引導和虛假信息,致使官方頻繁進行辟謠,并出臺顯示IP歸屬地的策略。實驗驗證以微博、微信朋友圈、知乎等平臺作為主要信息源收集數(shù)據(jù),并利用專家系統(tǒng)、基于自然語言處理的方法以及本文提出的基于深度學習的互聯(lián)網(wǎng)虛假信息識別平臺分別對數(shù)據(jù)進行識別。本文提出的系統(tǒng)基于Windows10系統(tǒng),使用python3.8及C等語言進行開發(fā)。數(shù)據(jù)采用爬蟲的方式獲取,并根據(jù)網(wǎng)絡信息對虛假信息進行人工標注。

        表1展示了不同識別方法對不同數(shù)據(jù)類型虛假信息的識別準確率。當前的虛假信息可大致分為單一文本數(shù)據(jù)、單一視頻數(shù)據(jù)、混合文本視頻數(shù)據(jù)。所謂單一文本數(shù)據(jù),即通過文章、評論、留言等方式在社交平臺進行虛假信息傳播的方式。所謂單一視頻數(shù)據(jù),即通過短視頻、或AI換臉等智能手段篡改真實視頻源的方法進行虛假信息傳播的方式。所謂混合文本視頻數(shù)據(jù),即通過DeepFake等方法,通過文本和視頻的方式,相互印證、傳播,這類數(shù)據(jù)造成的危害相較于前兩種更大。

        表1 識別方法準確性比較分析 (%)

        實驗結果表明,基于專家經(jīng)驗的識別方法,對于傳統(tǒng)的文本數(shù)據(jù)有著較高的識別準確率,但由于專家信息庫更新速度較慢,對于偽造的視頻數(shù)據(jù)識別率較低。而對于多源異構的偽造數(shù)據(jù),由于人工特征提取效率較低,所以識別準確度低,不能滿足要求。而基于NLP的方法,利用深度神經(jīng)網(wǎng)絡提取文本和視頻中的語音特征,可以較好的對單一來源的文本和視頻數(shù)據(jù)中的虛假信息進行識別。但對于精心構造的DeepFake數(shù)據(jù),由于算法缺少邏輯判斷和基于經(jīng)驗的信息比對能力,效果也不理想。相比之下,本文提出的基于深度學習的虛假信息識別平臺,在系統(tǒng)化的設計下,會對收集得到的數(shù)據(jù)先進行語義分析、預處理,再利用深度學習的方法進行信息聚類、識別。所以針對單一來源數(shù)據(jù)和多源異構數(shù)據(jù)都有較高的識別準確率。

        圖6展示了不同方法針對不同數(shù)據(jù)類型,在單位時間可以處理的數(shù)據(jù)量對比??梢钥吹接捎趯<蚁到y(tǒng)依靠寫定的規(guī)則進行判斷,所以可對單一文本數(shù)據(jù)進行高速處理,但其對于視頻數(shù)據(jù)特征提取效率低,并且由于專家信息庫更新迭代慢,所以對于視頻數(shù)據(jù)和混合數(shù)據(jù)的處理速度都較慢?;贜LP的方法,需要通過神經(jīng)網(wǎng)絡對數(shù)據(jù)進行處理,在進行判定前需要對特征進行提取并進行語義分割、聚類等操作,所以對于三類信息的處理速度都較慢。而本文提出的架構,由于對采集得到的數(shù)據(jù)會進行漸進式、自下而上的語法分析,同時在運行過程中通過堆棧去保存有效數(shù)據(jù),并根據(jù)語義分析的結果對搜索空間進行修剪。所以可以極大的提升信息特征提取和識別的速率,對于三類數(shù)據(jù)均有較高的處理速度。

        圖6 單位時間處理虛假數(shù)據(jù)量對比圖

        為了驗證本文提出的基于生成對抗網(wǎng)絡的信息篩選算法與傳統(tǒng)的使用基于大數(shù)據(jù)的機器學習方法的性能對比。本文選取不同網(wǎng)絡平臺的數(shù)據(jù),在經(jīng)過相同的預處理操作后,分別用傳統(tǒng)的方法和本文提出的方法進行虛假信息識別,結果如表2所示。改進后的算法在利用各網(wǎng)絡平臺采集得到的數(shù)據(jù)進行預篩選、傾向分析和虛假信息預警方面,相較于原算法,準確率都得到了較大的提升。原因在于基于生成對抗網(wǎng)絡的利用多層耦合網(wǎng)絡的架構,極大的提升了針對陌生虛假數(shù)據(jù)的識別的魯棒性。同時基于SIR模型的判定模式,也使得算法可以有效生成對于信息特征的統(tǒng)計表示,為識別虛假信息提供先驗經(jīng)驗。

        表2 篩選算法準確性比較分析 (%)

        5 結論

        本文針對互聯(lián)網(wǎng)虛假信息的基本概念、傳輸媒介、傳播模型進行梳理和總結。結合近年研究工作,提出了基于深度學習的互聯(lián)網(wǎng)虛假信息識別平臺的架構,從樣本采集、預處理、信息識別和預警三個方面對該架構進行介紹。為了改進傳統(tǒng)算法在信息識別上收斂速度慢、準確率較低的問題,本文提出一種基于生成對抗網(wǎng)絡的虛假信息識別方法,并應用于虛假信息識別平臺。實驗表明本文提出的虛假信息識別平臺相較于傳統(tǒng)的專家系統(tǒng)和基于NLP的方法,在準確率和處理效率上都有較大的提升。而基于生成對抗網(wǎng)絡的信息識別方法,相較于傳統(tǒng)的基于大數(shù)據(jù)的機器學習方法,在預篩選、傾向分析、虛假信息預警上也取得了更好的表現(xiàn)。

        猜你喜歡
        特征文本算法
        如何表達“特征”
        基于MapReduce的改進Eclat算法
        在808DA上文本顯示的改善
        Travellng thg World Full—time for Rree
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        進位加法的兩種算法
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        一種改進的整周模糊度去相關算法
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        亚洲女同一区二区久久| 精品人妻人人做人人爽夜夜爽| 国产高潮刺激叫喊视频| 日本一卡2卡3卡四卡精品网站| 青草热久精品视频在线观看| 久久亚洲精品国产精品婷婷| 久久亚洲av熟女国产| 少妇爽到高潮免费视频| 久久亚洲精品成人av无码网站| 国产精品99久久久久久宅男| 人妻少妇精品无码系列| 手机在线免费观看的av| 精品一区三区视频在线观看| 亚洲av日韩av天堂一区二区三区| 日韩人妻精品无码一区二区三区| 97久久久久国产精品嫩草影院| 大香蕉视频在线青青草| 小说区激情另类春色| 中文字幕+乱码+中文字幕一区 | 人妻丰满熟妇av无码区hd| 初尝人妻少妇中文字幕在线| 狼人精品剧情av在线观看| 全黄性性激高免费视频| 日韩亚洲av无码一区二区三区| 日本高清中文字幕一区二区三区| 久久国产高潮流白浆免费观看| 国产精品大片一区二区三区四区| 国产精品久免费的黄网站| 18禁美女裸身无遮挡免费网站 | 亚洲国产精品久久久天堂不卡海量| 亚洲天堂av在线免费看| 蜜臀久久99精品久久久久久| 鸭子tv国产在线永久播放| 成在人线av无码免费| 看黄色亚洲看黄色亚洲| 精品成人av人一区二区三区| 欧美性猛交xxxx三人| 人妻无码一区二区三区四区 | 97夜夜澡人人爽人人喊中国片| 免费一级黄色大片久久久| av免费在线国语对白|