亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于專家混合與領域特征的網(wǎng)絡謠言識別模型*

        2023-12-18 17:25:14安全徐國天中國刑事警察學院
        警察技術 2023年6期
        關鍵詞:謠言卷積專家

        安全 徐國天 中國刑事警察學院

        引言

        隨著互聯(lián)網(wǎng)的快速發(fā)展和廣泛應用,以微博為代表的社交媒體平臺已成為人們獲取政治、金融和健康等信息的重要渠道。然而,社交媒體平臺在方便人們分享信息的同時,也為網(wǎng)絡謠言傳播提供了新渠道。2023年7月21日,公安部召開新聞發(fā)布會,自開展為期100天的網(wǎng)絡謠言打擊整治專項行動以來,全國公安機關共偵辦案件2300余起,整治互聯(lián)網(wǎng)平臺企業(yè)近8000家,依法關停違法違規(guī)賬號2.1萬余個,清理網(wǎng)絡謠言信息70.5萬余條[1]。謠言發(fā)布者利用熱點新聞的熱度散布虛假信息,混淆視聽,給社會帶來實際威脅的同時,也會削弱公眾對政府和媒體的信任。

        為了打擊網(wǎng)絡謠言,學者們曾采用機器學習算法,將謠言檢測視為二分類問題,從文本內(nèi)容和用戶個人資料等信息中提取各種類型特征[2]。這些特征可以包括詞頻、詞向量和句法結(jié)構等,之后對提取的特征進行學習,從而建立分類檢測模型。傳統(tǒng)的機器學習方法側(cè)重于人工提取特征來對謠言進行檢測。例如,2011年,Castillo等人[3]利用文本、主題和傳播特征來研究Twitter新聞的可信度,并構建決策樹分類模型;2015年,Ma等人[4]提出動態(tài)時間序列結(jié)構模型,該模型能夠抓取多種社會語境特征隨時間的變化,在網(wǎng)絡謠言傳播早期階段展現(xiàn)出強大的識別能力;2016年,曾子明等人[5]定義了用戶可信度和微博影響力特征,并提出融合LDA和隨機森林的謠言識別模型。

        機器學習算法在特征提取與選擇過程中,不僅耗費大量的人力、物力與時間,且獲取特征的魯棒性也不足。隨著網(wǎng)絡謠言規(guī)模和復雜性增加,深度學習方法應運而生。2016年,Ma等人[6]將謠言文本內(nèi)容輸入到循環(huán)神經(jīng)網(wǎng)絡中,利用隱層向量表示文本信息并輸入到分類器中,得到分類結(jié)果;2017年,F(xiàn)eng等人[7]對新聞內(nèi)容進行建模,將向量拼接成一個矩陣并用卷積神經(jīng)網(wǎng)絡提取文本特征,最終將嵌入向量輸入到分類器中進行檢測;2019年,Ma等人[8]利用對抗學習方法訓練生成器和判別器,擴展訓練數(shù)據(jù)。將生成內(nèi)容和原始內(nèi)容輸入到分類器中進行檢測,提升模型的魯棒性和分類準確率;2021年,南瓊等人[9]構建了中文多領域虛假新聞數(shù)據(jù)集Weibo21,并提出多領域虛假新聞檢測模型MDFEND,該模型利用注意力機制提取新聞的內(nèi)容和領域特征,通過門控網(wǎng)絡對特征表示進行聚合,從而進行多領域虛假新聞檢測工作;2022年,耿唯佳等人[10]融合TextCNN和TextRNN模型,挖掘文本語義和時序特征,對兩種特征進行加權融合,實現(xiàn)對網(wǎng)絡謠言的識別;2023年,吳越等人[11]提出了基于并行圖注意力網(wǎng)絡的謠言檢測方法ParallelGAT,該模型分別使用BiCAT和MIGAT模塊獲取謠言的傳播和知識特征,最終通過聚合模塊生成的特征向量進行謠言檢測。

        早期,由于網(wǎng)絡謠言數(shù)據(jù)量少,研究者們將不同數(shù)據(jù)混合用于檢測工作[12]。然而,這種方式忽略了不同領域間謠言的差異,例如,健康類謠言的高頻關鍵詞有“新冠”“醫(yī)院”和“病毒”等;事故類謠言的高頻關鍵詞有“地震”“火災”和“車禍”等。隨著數(shù)據(jù)量的增加,研究者們開始根據(jù)謠言所屬領域進行檢測工作[13]。在疫情期間,“喝白酒,能夠預防新冠病毒感染”等無根據(jù)言論在社交媒體平臺上層出不窮。研究者們利用深度學習模型開展有關新冠病毒網(wǎng)絡謠言的檢測工作,并取得顯著進展[14]。以ELECTRA模型為例,在COVID-19FakeNews數(shù)據(jù)集上訓練后準確率可達94.8%[15]。然而,將這類模型應用于其它領域謠言時,檢測效果則會大打折扣。

        現(xiàn)有的網(wǎng)絡謠言檢測方法多是利用單一領域的大量數(shù)據(jù)來訓練模型。這些模型在相應領域的性能較高,但在實際生活中面對多個領域數(shù)據(jù),此類模型泛用性不足,實用價值也隨之降低。為了進一步研究和開發(fā)適用于多樣化情境下的網(wǎng)絡謠言檢測模型,提高檢測的精度和覆蓋率,本文提出一種基于專家混合和領域特征的謠言識別模型WMTC。模型采用WoBERT預訓練模型,將謠言的文本內(nèi)容轉(zhuǎn)化為向量表示,選擇改進的多尺度TextCNN模型作為“專家模型”進行特征提取,之后根據(jù)謠言所屬領域?qū)μ卣鬟M行加權融合并輸入分類器中進行檢測。實驗結(jié)果表明,該模型的性能要優(yōu)于其它混合、單領域和跨領域謠言檢測模型。

        一、網(wǎng)絡謠言檢測模型

        (一)預訓練模型WoBERT

        BERT是GoogleAI研究院[16]于2018年發(fā)布的一種預訓練模型。傳統(tǒng)BERT模型采用WordPiece分詞操作,會將文本分割成較小的子詞來加快訓練速度。但對于中文來說,BERT會將每一個漢字都切分開,訓練的結(jié)果就是孤零零的漢字向量。在現(xiàn)代漢語中,以字為單位建模無法表達詞語或者短語中包含的豐富語義信息,這也造成BERT在很多中文任務上的表現(xiàn)并不理想。2020年,有研究人員發(fā)布了基于詞顆粒度的中文語言預訓練模型WoBERT[17]。該模型會使用結(jié)巴分詞對輸入的內(nèi)容進行“預分詞”操作,如果詞匯在分詞表中則保留,否則將其切分為字。最后,將詞序列拼接起來,作為最后的分詞結(jié)果。實驗結(jié)果表明,WoBERT在中文文本分類等任務上的性能要優(yōu)于Google發(fā)布的中文BERT。因此,本文選用WoBERT作為預訓練模型。

        (二)改進的多尺度TextCNN模型

        相較于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡,TextCNN網(wǎng)絡結(jié)構簡單,僅包含一個卷積層和一個池化層,使用Softmax來進行分類。模型的參數(shù)數(shù)目少,訓練速度快,對文本數(shù)據(jù)的淺層特征提取能力很強。但在長文本領域,TextCNN受限于卷積核大小,較長文本可能會被截斷或忽略部分信息,并且該模型是基于局部窗口進行卷積和池化操作,因此無法充分捕捉到全局語義和上下文信息。

        2014年,Google公司發(fā)布的GoogLeNet[18]采用Inception模塊來優(yōu)化卷積神經(jīng)網(wǎng)絡,即分別使用池化和卷積操作來縮小特征圖尺寸,再將兩者得出的特征圖組合起來,這種做法既增加了網(wǎng)絡的寬度和深度,又減少了模型的參數(shù)量,降低了過擬合風險。本文借鑒Inception模塊的思想,對TextCNN進行改進:在原有卷積層前添加池化核和卷積核,增加通道數(shù)并對文本信息的淺層特征進行提取。然后,并行使用多個不同尺寸的卷積核對特征進行進一步提取,并使用零填充保持維度不變。最后,將卷積層輸出的特征疊加后進行最大池化,得到特征向量。改進的多尺度TextCNN模型,如圖1所示。

        (三)混合專家模型

        混合專家模型的核心思想是將多個專家模型組合成一個大型集成模型。從結(jié)構角度來說,混合專家模型可以分為兩個部分,分別是專家模型和門控網(wǎng)絡,專家模型是多個獨立子模型組成的集合,每一個子模型被稱為一個專家模型。專家模型之間相互獨立,學習相同或不同的特征,本文選用多尺度TextCNN作為專家模型;門控網(wǎng)絡通過學習參數(shù)決定哪些專家模型應該對特定輸入數(shù)據(jù)或任務負責,從而將多個專家模型的預測結(jié)果進行加權組合,得到最終的輸出結(jié)果。使用混合專家模型可以顯著提高模型在處理復雜任務時的性能,但是卻存在著負載不平衡的問題:在最初的幾個樣本上表現(xiàn)較好的專家模型會被門控網(wǎng)絡分配更高的權重,并得到更充分的優(yōu)化,而其余專家模型無法被充分訓練。2021年,Simiao等人[19]提出負載不平衡本質(zhì)上是由門控網(wǎng)絡造成的,該問題源自于門控網(wǎng)絡的初始化或優(yōu)化過程,因此使用隨機門控網(wǎng)絡可以從根本上解決負載不平衡問題。

        (四)基于專家混合和領域特征的謠言識別模型WMTC

        本文在WoBERT和多尺度TextCNN的基礎之上,結(jié)合混合專家模型提出一種基于專家混合和領域特征的謠言識別模型WMTC,整體框架如圖2所示。

        模型的工作流程如下:

        對數(shù)據(jù)進行預處理,將網(wǎng)絡謠言文本內(nèi)容作為WoBERT的輸入,編碼后得到一組詞向量W={W1,…,WN},N為編碼后詞向量序列的長度。選用多尺度TextCNN作為專家模型,一個專家模型提取的特征只能包含部分信息,無法覆蓋謠言內(nèi)容的全部特征。為了獲取各個領域中謠言內(nèi)容的高質(zhì)量表示,模型利用專家混合的優(yōu)勢,同時使用多個專家模型(T=5)對謠言內(nèi)容進行特征提取。每個專家模型可以表示為公式(1):

        其中,W是輸入每個專家模型的詞向量,βi是模型參數(shù),T是專家模型數(shù)量,則每個專家網(wǎng)絡提取的特征可表示為公式(2):

        將網(wǎng)絡謠言的領域標簽作為WoBERT的輸入,編碼后得到一組領域向量X={X1,…,Xd},然后,將領域向量輸入多層感知機生成專家模型的權重向量。最后,與均勻分布生成的隨機矩陣A相乘,使權重向量α具有一定的隨機性并進行Softmax歸一化。權重向量α可以表示為公式(3):

        使用權重向量α={α1,α2,…αi}(1≤i≤T)來對不同專家模型獲取的特征表示進行聚合,各維度代表不同專家模型在不同領域所占權重。最終獲得謠言內(nèi)容的特征向量可表示為公式(4):

        使用有Softmax輸出層的MLP作為分類器,交叉熵作為損失函數(shù),y為預測值,yi為真實值,則有公式(5)和公式(6):

        本文模型將WoBERT和多尺度TextCNN相結(jié)合,充分利用了它們各自的特點:WoBERT作為一種強大的預訓練語言模型,能夠充分理解文本內(nèi)容的上下文信息,并捕捉詞匯、句法和語義的豐富信息。WoBERT豐富的詞向量表示,可以幫助TextCNN模型更好地理解和刻畫文本的語義和上下文關系?;旌蠈<夷P涂梢愿鶕?jù)網(wǎng)絡謠言所屬的領域生成不同的權重來調(diào)整不同專家模型的貢獻,從而顯著地提高了模型的泛用性和準確率。

        二、實驗設置

        (一)數(shù)據(jù)集

        本文使用中科院計算技術研究所,數(shù)字內(nèi)容合成與偽造檢測實驗室的Weibo21數(shù)據(jù)集進行網(wǎng)絡謠言檢測實驗。該數(shù)據(jù)集是中文文本數(shù)據(jù),包含2014年12月至2021年3月,微博社區(qū)管理中心官方帳戶認定的網(wǎng)絡謠言,以及同時期經(jīng)睿鑒識謠平臺鑒定的真實新聞。每條數(shù)據(jù)包含網(wǎng)絡謠言的文本內(nèi)容、評論和時間戳等多個維度的信息,共有4488條網(wǎng)絡謠言和4640條真實新聞,涵蓋科技、軍事、教育、災害、政治、健康、金融、娛樂、社會共9個領域。

        在數(shù)據(jù)預處理階段,首先,對數(shù)據(jù)進行篩選,僅保留文本內(nèi)容、所屬領域和標簽3個特征;然后,使用正則表達式對文本內(nèi)容中的特殊符號、亂碼文字和emoji表情進行去除;最后,對數(shù)據(jù)集進行隨機化,將得到隨機數(shù)據(jù)集按照6:2:2劃分為訓練集、驗證集和測試集。

        (二)實驗環(huán)境及參數(shù)設置

        本文實驗環(huán)境為一臺運行內(nèi)存為32GB,硬盤空間為1TB,搭載2.30GHz的12th Gen Intel CoreTMi7-12700H處理器,GPU為NVIDA GeForce RTX 3060(顯存6GB),安裝Windows11操作系統(tǒng)的電腦。編程語言和平臺版本為Python3.7.13,集成開發(fā)環(huán)境采用PyCharm Community Edition 2022.2,主要使用的深度學習庫為pytorch1.12、transformers4.27.3、numpy1.19.5。

        本文模型可分為WoBERT、多尺度TextCNN和分類器三部分。在WoBERT模型部分,選用的預訓練模型為WoBERT Plus,嵌入維度設置為768。在處理文本數(shù)據(jù)時,限制文本序列的最大長度為170個標記;在TextCNN部分,模型第一層池化層的池化核尺寸為768*5,第1層卷積核尺寸為768*5,第二層卷積核尺寸分別為1*1、3*1、5*1、10*1和15*1。在兩層之間進行批量歸一化并使用ReLU作為激活函數(shù),最終輸出維度為256;在分類器部分,包含線性層、BatchNorm和Dropout層,其中Dropout概率設置為0.2,選用ReLU作為激活函數(shù);整個訓練過程中,用于數(shù)據(jù)加載器中的工作線程數(shù)指定為4。經(jīng)過實驗和模型調(diào)優(yōu)后,本文在模型使用Adam優(yōu)化器來自動調(diào)整學習率和權重衰退,其參數(shù)初值分別選定為0.0001和5e-6。在綜合考慮計算資源、內(nèi)存限制和模型復雜度后,本文選定批量大小為64。通過觀察模型的收斂情況,本文選定模型訓練的epoch為20。

        (三)模型評價標準

        在使用深度學習模型進行分類任務時,通常使用精確率(Precision)、召回率(Recall)和F1分值(F1 Score)來評判模型性能的好壞。根據(jù)三種指標構成的混淆矩陣結(jié)構見表2。

        其中,TP表示被模型檢測為網(wǎng)絡謠言,并且檢測正確的樣本數(shù)量;FP表示被模型檢測為網(wǎng)絡謠言,但是檢測錯誤的樣本數(shù)量;FN表示被模型檢測為真實新聞,但是檢測錯誤的樣本數(shù)量;TN表示被模型檢測為真實新聞,并且檢測正確的樣本數(shù)量;N則表示TP、FP、FN、TN的總和,代表測試數(shù)據(jù)集中所有樣本的數(shù)量。

        在本文中,以上三種指標的具體評價方式如下:

        (1)精確率表示所有被預測為網(wǎng)絡謠言的樣本中,預測正確的樣本數(shù)量所占比例,如公式(7)所示。

        (2)召回率表示所有網(wǎng)絡謠言樣本中,預測正確的樣本數(shù)量所占比例,如公式(8)所示。

        (3)F1分值是精確率和召回率的加權平均值,如公式(9)所示。

        精確率體現(xiàn)了模型對真實新聞的區(qū)分能力,精確率越高,模型對真實新聞的區(qū)分能力越強;召回率體現(xiàn)了模型對網(wǎng)絡謠言的識別能力,召回率越高,模型對網(wǎng)絡謠言的識別能力越強;F1分值是兩者的綜合,F(xiàn)1分值越高,模型越穩(wěn)健。

        三、實驗結(jié)果及分析

        (一)基準模型

        為了評估本文提出的WMTC模型在謠言檢測任務中的實際效果,在實驗中使用經(jīng)過上述預處理后的數(shù)據(jù)集,與其它基準模型的檢測效果進行比較。為了確?;鶞誓P徒Y(jié)果的公正性,本文在進行單領域基準模型的實驗時,每次使用1個領域的數(shù)據(jù)對模型進行訓練并進行試驗;在進行混合基準模型實驗時,使用所有領域的數(shù)據(jù)對模型進行訓練,并分別對每個領域進行試驗。本文實驗采用的基準模型有:

        (1)BERT:使用相同的預訓練模型WoBERT Plus,并將模型參數(shù)設置為凍結(jié)狀態(tài);

        (2)TextCNN:使用多尺度TextCNN模型進行試驗,模型與專家模型結(jié)構保持一致;

        (3)MMoE[20]:多任務學習模型,MMoE在MoE的基礎上進行改進,對每個子任務都引入一個門控網(wǎng)絡,以此來捕獲不同子任務之間的差異性。使用該模型進行試驗時,將不同領域網(wǎng)絡謠言內(nèi)容視為不同子任務進行建模;

        (4)EDDFN[21]:該模型引入一種無監(jiān)督技術,選擇一組未標記的信息新聞記錄進行人工標簽,可以聯(lián)合保存新聞記錄中的特定領域和跨領域知識,以檢測來自不同領域的網(wǎng)絡謠言;

        (5)MDFEND:該模型使用TextCNN作為專家模型,將謠言內(nèi)容作為門控網(wǎng)絡的輸入,并通過注意力機制來提取謠言的領域特征為專家模型分配權重。

        (二)實驗結(jié)果對比

        WMTC模型與其它基準模型在Weibo21數(shù)據(jù)集上的實驗結(jié)果見表3至表5。

        (三)實驗結(jié)果分析

        通過比較WMTC模型與其它基準模型的實驗結(jié)果,可以得出如下結(jié)論:

        (1)比較單領域和混合檢測模型的結(jié)果,可以發(fā)現(xiàn),混合檢測模型的3項性能均高于單領域檢測模型。說明收集多個領域的網(wǎng)絡謠言對模型進行訓練,有助于提高模型的性能和魯棒性;

        (2)比較混合和跨領域檢測模型的結(jié)果,可以發(fā)現(xiàn),跨領域檢測模型的3項性能均高于混合檢測模型,說明了網(wǎng)絡謠言的領域特征對模型訓練的重要性;

        (3)比較WMTC和MMOE模型的結(jié)果,可以發(fā)現(xiàn),不同領域的網(wǎng)絡謠言之間存在著一定的聯(lián)系,可以利用其它領域的數(shù)據(jù)來提高特定領域的檢測效果;

        (4)比較WMTC和MDFEND模型的結(jié)果,可以發(fā)現(xiàn),使用隨機矩陣可以緩解混合專家模型的復雜不平衡問題,從而提高模型性能;

        (5)比較模型的召回率和精確率,可以發(fā)現(xiàn),選用的模型除MMOE模型外,均對網(wǎng)絡謠言的區(qū)分能力比較強;

        (6)WMTC模型在對網(wǎng)絡謠言內(nèi)容進行特征提取的同時,按照謠言所屬領域?qū)μ卣鬟M行聚合,有效對謠言內(nèi)容和領域之間的關系進行建模。因此,在Weibo21數(shù)據(jù)集上,WMTC模型綜合性能優(yōu)于其他模型,證明了該模型的有效性和優(yōu)越性。

        四、結(jié)語

        本文針對現(xiàn)有的網(wǎng)絡謠言檢測模型在多樣化情景下性能低的問題,提出了一種基于專家混合和領域特征的謠言識別模型WMTC。模型使用WoBERT和多尺度TextCNN對謠言文本內(nèi)容進行高質(zhì)量的提取,之后結(jié)合領域信息生成權重,對專家模型提取的特征進行聚合。實驗結(jié)果表明,WMTC模型在Weibo21數(shù)據(jù)集上的綜合表現(xiàn)優(yōu)于現(xiàn)有的單領域、混合以及跨領域謠言檢測模型。但模型仍存在一些不足之處,需要進一步研究和改進,現(xiàn)實中社交網(wǎng)絡平臺上,往往充斥著各種類型的網(wǎng)絡謠言,本模型僅能對網(wǎng)絡謠言的文字內(nèi)容進行識別,無法識別圖片和視頻信息。因此,針對網(wǎng)絡謠言檢測引入圖像信息處理技術是未來需要進一步研究和改進的方向。

        猜你喜歡
        謠言卷積專家
        中國使館駁斥荒謬謠言
        致謝審稿專家
        計算機應用(2022年2期)2022-03-01 12:35:06
        基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        當謠言不攻自破之時
        基于傅里葉域卷積表示的目標跟蹤算法
        謠言
        請叫我專家
        謠言大揭秘
        學生天地(2016年32期)2016-04-16 05:16:19
        專家面對面
        国产亚洲精品性爱视频| 98在线视频噜噜噜国产| 亚洲aⅴ无码日韩av无码网站| 国产成人亚洲欧美三区综合| 亚洲天堂av社区久久| 成人影院视频在线播放| 91久久国产香蕉视频 | 国产白浆大屁股精品视频拍| 激情五月天在线观看视频| 综合图区亚洲另类偷窥| 无遮挡呻吟娇喘视频免费播放 | 夫妻一起自拍内射小视频| 精品亚洲一区二区在线观看| 日韩亚洲一区二区三区四区| 无码熟妇人妻av影音先锋| 久久和欧洲码一码二码三码| 国产精品99久久精品爆乳| 婷婷一区二区三区在线| 加勒比特在线视频播放| 亚洲视频免费在线观看| 少妇被又大又粗又爽毛片| 国产午夜精品理论片| 无码不卡高清毛片免费| 亚洲国产AⅤ精品一区二区久| 国产精品自拍网站在线| 三级黄色片免费久久久| 天堂网www资源在线| 116美女极品a级毛片| 久久亚洲伊人| 中文字幕国产精品专区| 国产精品久色婷婷不卡| 乱中年女人伦| 99久久亚洲精品无码毛片| 久久半精品国产99精品国产| 国产一区二区在线观看视频免费 | 日韩人妻无码精品一专区二区三区 | 亚洲欧洲高潮| 欧美亚洲国产精品久久久久| 国语对白在线观看免费| 极品新婚夜少妇真紧| 一区一级三级在线观看|