亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于事件表示的虛假情報檢測研究*

        2023-12-13 11:43:46劉玉婷
        關(guān)鍵詞:語義特征信息

        劉玉婷,丁 鯤,劉 茗

        (1.國防科技大學第六十三研究所 信息科學技術(shù)學院,江蘇 南京 210007;2.南京信息工程大學 計算機學院、網(wǎng)絡空間安全學院,江蘇 南京 210044;3.國防科技大學大數(shù)據(jù)與決策實驗室,湖南 長沙 410073)

        0 引言

        隨著大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)、區(qū)塊鏈、5G 等信息技術(shù)的興起,社交媒體成為了人們獲取開源情報的重要渠道,但同時也為虛假情報的廣泛傳播提供了平臺。與傳統(tǒng)的秘密情報不同的是,開源情報是以滿足用戶特定情報需求為導向,圍繞一個或多個明確主題,在分散的公開可用的信息源中經(jīng)收集、整理及分析評估之后產(chǎn)生并及時傳遞給特定受眾的情報信息。近年來,互聯(lián)網(wǎng)的高速發(fā)展給用戶提供了大量開源情報,尤其是社交媒體渠道的膨脹使得情報的來源和真實性難以鑒別。據(jù)2022年度的微博辟謠報告顯示,全年有82 274條不實信息被官方處理。愈演愈烈的虛假情報引發(fā)了一系列社會治理問題,因此,如何有效進行虛假信息查證是突破信息迷霧的重要研究議題之一。

        以往的虛假情報檢測主要是情報員人工干預,以標記內(nèi)容特征等形式來對假新聞標示。但是這些方法還集中在靜態(tài)內(nèi)容的基礎(chǔ)上,并且很難掌握情報文本深層次的語義特征,另外以人工的方式來處理不僅耗費精力且效率不高。為解決上述問題,本文構(gòu)建了基于事件表示的虛假情報檢測模型。該模型具體如下,通過擴展網(wǎng)絡結(jié)構(gòu)的方式學習事件文本內(nèi)部結(jié)構(gòu)信息,進一步捕捉事件元素之間的交互信息進行深層特征提取,以獲得更高質(zhì)量的特征向量;再將事件表示映射到一個具體的領(lǐng)域。為了驗證本文所提出的方法的有效性,在謠言數(shù)據(jù)集上進行了相關(guān)任務的驗證。

        1 相關(guān)工作

        1.1 事件表示學習

        為保留事件豐富的語義信息,將結(jié)構(gòu)化的信息表示為計算機可以理解的形式。早期的事件表示學習研究主要基于離散的事件表示,將事件表示為由事件元素構(gòu)成的元組。文獻[1]將事件表示為三元組(Qi,P,t),其中Qi為對象的謂詞,P為對象間的關(guān)系,t為事件發(fā)生的時間。為進一步地添加事件角色[2],提出六元組(P,O1,O2,O3,O4,t),分別代表著標記事件發(fā)生的動作或狀態(tài)、實施者、事件作用的對象、使事件發(fā)生的工具、地點以及時間戳。為簡化事件表示[3],將其表示為(P,O1,O2,T),一個事件只包含一個施事者O1和受事者O2。

        但離散的事件表示面臨著稀疏性的問題,為緩解稀疏性[3],提出基于WordNet將各事件元素中的單詞還原為詞干,再將事件動詞泛化為其在VerbNet中的類別名稱,從而能得到泛化事件。

        為計算低維、稠密的事件向量表示,根據(jù)事件結(jié)構(gòu)對事件元素的詞向量進行語義組合。按組合方式的不同,分為基于詞向量與基于神經(jīng)網(wǎng)絡的事件表示這兩種方法[4]。提出了一種高效訓練詞向量的模型——Word2Vec,并利用向量的加法屬性來學習短語向量表示,再根據(jù)詞匯的“共現(xiàn)”信息將詞匯編碼成一個向量。基于詞向量的方法是對用矩陣向量表示短語的補充,在一定程度上推進了推理工作的發(fā)展。與基于詞向量的方法不同的是,基于神經(jīng)網(wǎng)絡的方法則是使用神經(jīng)網(wǎng)絡模型從文本中提取特征,進行編碼,解決了詞向量編碼存在的建模薄弱的問題[5]。提出了Neural Tensor Network模型,首先對施事者和動作詞、動作詞和受事者進行組合,再對得到的向量進行組合,從而得到最終的事件表示。

        以上研究表明,高效的事件表示學習方法可以很大程度上提升下游任務的效果。

        1.2 謠言檢測

        早期的謠言檢測方法主要是手工從消息中提取關(guān)于消息的文本內(nèi)容、用戶資料、傳播結(jié)構(gòu)等統(tǒng)計特征,然后利用機器學習算法進行分類檢測。但這類方法十分依賴特征工程,且無法提取語義特征。

        為解決手工提取特征的缺陷,基于深度學習的謠言檢測方法得到廣泛使用[6]。利用雙向長短時記憶神經(jīng)網(wǎng)絡(Bi-directional Long-Short Term Memory,Bi-LSTM)和貝葉斯網(wǎng)絡分別提取新聞和評論的語義特征,然后通過多層感知機將新聞特征和評論特征做融合輸入分類器進行分類。

        當前謠言檢測領(lǐng)域的方法大都是利用神經(jīng)網(wǎng)絡模型來提取不同的特征。然而僅將特征拼接、特征相加或基于簡單神經(jīng)網(wǎng)絡進行特征空間映射等方法很難準確地提取深層特征,所以需要利用特征融合策略來學習特征的增強表示[7-8]。

        1.3 虛假情報查證

        虛假情報的查證的方法可分為人工和算法兩類,人工手段主要是以標記等形式來對假情報進行標示,算法識別則是以內(nèi)容特征、傳播特征等為基礎(chǔ)進行識別[9-10]。提出以閾值為基礎(chǔ)的數(shù)據(jù)融合策略,分析了拓撲感知條件下的虛假信息攻擊,發(fā)現(xiàn)在大多數(shù)節(jié)點已經(jīng)妥協(xié)的基礎(chǔ)上,網(wǎng)絡對于虛假信息抵御的彈性仍能得到加強。人工手段亦會運用一些可視化工具輔助進行虛假情報的查證[11-13],運用知識圖譜等可視化分析方法,對比分析了國內(nèi)外網(wǎng)絡謠言研究的起源和發(fā)展,同時分析了國內(nèi)外研究熱點和未來研究趨勢。

        對海量數(shù)據(jù)進行判讀、清洗和篩選需要大量的人力資源,也難以滿足情報任務需求??紤]到人類的計算速度和精力有限,借助大數(shù)據(jù)等技術(shù)手段提升開源情報的處理效率和穩(wěn)定性。

        2 虛假情報檢測

        虛假情報檢測的框架包含三個部分。如圖1所示,情報收集層,從原始文本中提取事件,對其進行統(tǒng)一化處理;情報分析層,構(gòu)建模型對情報特征進行分析,獲取更深層次的特征;情報研判層,采用一些具有特定任務和指標的評估方法來測試模型的性能。

        圖1 虛假情報檢測框架

        2.1 情報收集層

        在情報收集階段,由于可公開獲取的信息越來越多,在搜集工作中要選擇可靠且權(quán)威性較高的情報源,保證情報的可信度。

        為提高收集到的情報質(zhì)量,首先針對收集到的原始情報進行數(shù)據(jù)預處理,預處理的步驟如圖2所示。數(shù)據(jù)清洗目的在于刪除原始數(shù)據(jù)集中無關(guān)數(shù)據(jù)、重復數(shù)據(jù)、平滑噪聲數(shù)據(jù),篩選掉與挖掘主題無關(guān)的數(shù)據(jù),處理缺失值、異常值等;數(shù)據(jù)集成的目的在于將多個數(shù)據(jù)源合并存放在一個一致的數(shù)據(jù)存儲中;數(shù)據(jù)歸約目的在于得到信息內(nèi)容的損失最小化;數(shù)據(jù)變換則是對數(shù)據(jù)進行規(guī)范化處理,將數(shù)據(jù)轉(zhuǎn)換成適當?shù)男问健?/p>

        圖2 預處理流程

        圖3 情報分析模型

        2.2 情報分析層

        經(jīng)預處理后的情報信息量仍然巨大,很難以人工的方法對其進行查證,情報分析的重要性就隨之凸顯了。在特征編碼階段,在提取語義特征時,使用Word2vec作為特征提取器,用長短期記憶網(wǎng)絡(Long Short-Term Memory,LSTM)獲取深層次的語義特征。模型圖如3所示。

        具體來說,詞嵌入模塊主要將情報文本轉(zhuǎn)化為詞向量矩陣,情報文本可表示為長度為N的事件序列(e1,e2,e3,…,eN),使用Word2vec獲取詞向量序列Ei,形式化過程可表示為(1):

        Ei=Embedding(ei)

        (1)

        事件特征融合主要由LSTM、最大池化層和全連接層組成,主要用于獲取事件中的語義信息。首先通過LSTM網(wǎng)絡捕捉到情報文本的語義特征,然后使用最大池化層對高維的特征進行降維,保留對目標有用的信息,最后通過全連接層得到低維的情報文本的抽象語義表示。

        LSTM采用了門控輸出的方式,主要由輸入門it、遺忘門ft和輸出門ot組成,形式化表示為:

        it=σ(Wiixt+Whih(i-1)+bii+bhi)

        (2)

        fi=σ(Wifxt+Whfh(i-1)+bif+bhf)

        (3)

        gt=tanh(Wigxt+Whgh(t-1)+bit+bhg)

        (4)

        ot=σ(Wioxt+Whoh(t-1)+bio+bho)

        (5)

        ct=ft*c(t-1)+it*gt

        (6)

        ht=ot*tanh(ct)

        (7)

        其中,σ代表sigmoid函數(shù),ct代表候選狀態(tài),ht代表隱藏狀態(tài)。

        池化層對LSTM的輸出進行最大池化操作,提取情報的重要特征,并將高維特征降至低維,如(8)所示:

        φi=MaxPooling(hi)

        (8)

        其中,MaxPooling(·)代表最大池化。

        全連接層將情報的高維特征映射到低維空間,降低模型計算復雜度,得到最終的事件表示ci。

        將最終得到的事件表示送入分類器中,采用softmax激活函數(shù)進行最終的預測,判斷情報的可信程度,計算過程為:

        (9)

        2.3 情報研判層

        對于普通用戶而言,通過利用情報分析結(jié)果,與虛假信息內(nèi)容進行直接對比,有效切斷虛假信息帶來的持續(xù)效應。

        對情報人員而言,通過對情報文本進行有序化處理和分析之后建立虛假信息查證的開源情報庫,促進信息轉(zhuǎn)化,形成系統(tǒng)完整的開源情報產(chǎn)品,將大大減少情報工作人員所耗費的時間與精力,使情報人員及信息用戶更方便地掌握、交流和共享信息。

        3 實驗與分析

        3.1 數(shù)據(jù)集

        以謠言事件為例探討本文所提出的方法的有效性。數(shù)據(jù)集來源為從微博不實信息舉報平臺抓取的中文謠言數(shù)據(jù)。數(shù)據(jù)集中共包括三個文件夾,分別是非謠言、謠言和所有數(shù)據(jù),其中每個文件里面單條數(shù)據(jù)均為json格式,其中text字段代表微博原文的文字內(nèi)容,數(shù)據(jù)集中共包含1 538條謠言和1 849條非謠言。

        3.2 實驗設置

        為了證明本模型的有效性,在相似度計算任務上進行測試。

        (1)相似度計算

        將任意四個場景的事件中的兩個事件作為一個事件對,相同場景的則為相似事件,否則為不相似事件。該實驗采用精確率P、召回率R和綜合評價指標F1作為模型性能的評判方法,計算方法如下:

        (10)

        (11)

        (12)

        其中,TP為模型識別正確的總數(shù),F(xiàn)P模型識別錯誤的總數(shù),F(xiàn)N為未識別正確的樣例的總數(shù)。

        3.3 參數(shù)設置

        實驗代碼使用Python編程語言編寫,機器學習框架采用PyTorch,在 NVIDIA GEFORCE RTX 3090 GPU平臺上進行實驗。在詞向量方面,采用謠言數(shù)據(jù)訓練的Word2vec詞向量。實驗中,Dropout 用來防止過擬合,“丟棄率”為 0.5。實驗使用的部分參數(shù)如表1所示。

        表1 模型參數(shù)

        3.4 實驗結(jié)果與分析

        (1)事件相似度計算結(jié)果與分析

        為了驗證模型的有效性,本文設計了相似度計算任務實驗。實驗結(jié)果如表2所示。

        表2 實驗結(jié)果

        實驗各項指標表明,通過融合事件的語義特征可以有效地區(qū)分詞向量共現(xiàn)高但語義不同的事件,一定程度上表明本文方法在區(qū)分真?zhèn)吻閳笊系挠行浴?/p>

        (2)事件聚類實驗結(jié)果與分析

        為了證明基于事件表示的虛假情報檢測方法能夠更加準確區(qū)分真?zhèn)吻閳螅O計了事件聚類相關(guān)實驗。實驗結(jié)果如圖4示。

        圖4 聚類可視化圖

        聚類結(jié)果的可視化表明,本方法將真實情報歸為同一組,虛假情報歸為不同的組。

        4 結(jié)論

        本文提出一種基于事件表示的虛假情報檢測方法,在掌握更深層次的情報內(nèi)容的基礎(chǔ)上進行情報真?zhèn)蔚谋鎰e。一方面,幫助普通用戶分辨開源情報的真?zhèn)危瑸橛行ё钄嗵摷偾閳蟮膫鞑ゲ⒉扇☆A警措施提供了科學的依據(jù)。另一方面,該方法能夠有效輔助情報人員預測情報的真?zhèn)???紤]到情報數(shù)據(jù)集的特殊性,謠言數(shù)據(jù)具有一定的代表性,因此選取微博謠言數(shù)據(jù)集進行本文方法的有效性驗證。隨著事件表示的方法愈發(fā)成熟,在未來的日常戰(zhàn)備活動中,將為情報員分辨情報提供智能化的輔助決策手段。

        猜你喜歡
        語義特征信息
        語言與語義
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        “上”與“下”語義的不對稱性及其認知闡釋
        認知范疇模糊與語義模糊
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        線性代數(shù)的應用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        語義分析與漢俄副名組合
        外語學刊(2011年1期)2011-01-22 03:38:33
        放荡人妻一区二区三区| 欧美人与动牲交a精品| 国产在线精品一区二区| 91亚洲人成手机在线观看| 午夜一区二区三区在线观看| 中文字幕一区二区人妻秘书| 亚洲精品国产av天美传媒| 护士的小嫩嫩好紧好爽| 国产精品熟女一区二区| 久久精品国产亚洲Av无码偷窍| 久久老熟女乱色一区二区| 日本久久伊人特级黄色| 人人爽久久涩噜噜噜av| 欧美国产日本精品一区二区三区 | 日本高清二区视频久二区| 人成在线免费视频网站| 中文字幕乱码一区av久久不卡| 中文无码成人免费视频在线观看| 一区二区三区四区亚洲综合| 久久综合久久综合久久| 无码国产69精品久久久久孕妇| 青青青爽国产在线视频| 久久国产精品视频影院| 国内国外日产一区二区| 久久精品99国产精品日本| 亚洲精品无码久久久久| 亚洲黄色性生活一级片| 久久99精品久久只有精品| 欧美最猛黑人xxxx黑人猛交| 亚洲国产中文在线二区三区免| 亚洲国产精品久久久性色av| 一道本加勒比在线观看| 伊甸园亚洲av久久精品| 老太脱裤让老头玩ⅹxxxx| 国产亚洲一区二区三区成人 | 免费播放成人大片视频| 性无码免费一区二区三区在线| 黄色网址国产| 日本美女性亚洲精品黄色| 国产精品久久久久久| 精品推荐国产精品店|