陳錕 裴雷 范濤
關鍵詞: 突發(fā)事件; 多模態(tài)分類; 混合融合; 特征抽取
DOI:10.3969 / j.issn.1008-0821.2023.06.003
〔中圖分類號〕D63; TP391.3 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2023) 06-0024-11
隨著信息技術的迅猛發(fā)展, 網(wǎng)絡已然成為當下人們所依賴的虛擬世界。據(jù)中國互聯(lián)網(wǎng)絡信息中心(China Internet Network Information Center, CNNIC)發(fā)布的第50 次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》中顯示, 截至2022 年6 月, 我國的網(wǎng)民規(guī)模已經(jīng)達到10 51 億人次, 網(wǎng)絡新聞用戶突破7 88億, 占總體的75 0%[1] 。由于網(wǎng)民數(shù)量規(guī)模的龐大, 一旦在網(wǎng)絡環(huán)境中產(chǎn)生突發(fā)事件的新聞并傳播, 其傳播速度之快、輻射面之廣極易引起群體性事件的發(fā)生, 這對于社會秩序是極具破壞力的, 同時也會對政府公信力和執(zhí)政能力提出挑戰(zhàn), 網(wǎng)絡輿情也會在此過程中持續(xù)發(fā)酵。在中國共產(chǎn)黨第二十次全國代表大會中, 習總書記明確指出: “要提高公共安全治理水平。堅持安全第一、預防為主, 建立大安全大應急框架, 完善公共安全體系, 推動公共安全治理模式向事前預防轉(zhuǎn)型”[2] ?!吨腥A人民共和國突發(fā)事件應對法》也指出: “要預防和減少突發(fā)事件的發(fā)生, 控制、減輕和消除突發(fā)事件引起的嚴重社會危害, 規(guī)范突發(fā)事件應對活動”[3] 。突發(fā)事件事態(tài)預防、輿情治理的前提工作便是對突發(fā)事件新聞進行識別分類, 高效精確的分類能夠幫助相關部門搜集信息以及跟蹤其發(fā)展趨勢, 當某類突發(fā)事件的新聞數(shù)量陡然上升時, 政府部門就可以及時關注和處理, 這不僅能提前預警, 為政府采取對應的措施提供寶貴時間, 也能有效避免負面輿情升溫, 提升政府在人民群眾中的公信力。
突發(fā)事件的突發(fā)性、破壞性和衍生性等典型特征在傳播過程中會給社會帶來巨大的潛在威脅, 因此如何快速有效地識別分類突發(fā)事件信息成為目前的研究熱點。梳理突發(fā)事件分類相關研究, 可以發(fā)現(xiàn)以下兩個問題: ①多模態(tài)新聞在社交媒體中流行度較高[4] , 從筆者粗略統(tǒng)計的突發(fā)事件新聞數(shù)據(jù)來看, 多模態(tài)內(nèi)容所占比例達到約四成左右, 而現(xiàn)有的突發(fā)事件分類研究主要以文本模態(tài)為主[5-6] , 缺乏結(jié)合多模態(tài)特征的研究, 忽略了多模態(tài)信息能夠有效幫助提升突發(fā)事件分類模型性能的事實; ②在突發(fā)事件新聞中, 存在模態(tài)缺失或單個文本對應多張圖片的情況, 現(xiàn)有的多模態(tài)分類研究缺乏針對此問題的解決方案[7] 。鑒于此, 本文設計了一種基于多模態(tài)混合融合的突發(fā)事件分類模型(EmergencyClassification Model with Hybrid Fusion, ECMHF),該模型基于預訓練的BERT 模型和VGG19 模型對采集的新聞數(shù)據(jù)進行文本描述特征和圖片語義特征抽取, 并對其采取級聯(lián)拼接操作構(gòu)成多模態(tài)模型的輸入, 最后將單模態(tài)模型和多模態(tài)模型的決策層輸出賦予權(quán)重, 進一步提升整體模型的檢測性能和魯棒性, 從而實現(xiàn)混合模態(tài)下的突發(fā)事件分類。
1研究現(xiàn)狀
突發(fā)事件的分類研究是應急決策系統(tǒng)中的關鍵環(huán)節(jié), 對于開展應急響應工作有著至關重要的作用。本節(jié)將從突發(fā)事件現(xiàn)有研究和多模態(tài)混合融合研究兩個方面展開述評。
1.1突發(fā)事件分類研究
如何高效精準分類突發(fā)事件信息的關鍵在于信息特征的表示和模型的學習能力, 為此國內(nèi)外眾多學者開展了大量研究, 大體上可以分為兩個階段:第一階段是利用傳統(tǒng)的機器學習方法; 第二階段是采用層次結(jié)構(gòu)緊密的深度學習方法。在機器學習階段, 學者通過自主研究設計特征提取規(guī)則來將非結(jié)構(gòu)化的信息處理成形式一致的特征, 再利用分類器實現(xiàn)進一步的分類工作。例如, Liu Y 等[8] 考慮到單詞的順序和語義關系的重要性, 使用可變長度的n-gram 來表示文本特征, 利用支持向量機(SupportVector Machine, SVM)實現(xiàn)對突發(fā)事件文本分類;Wei B B 等[9] 在公共安全三角理論的基礎上構(gòu)建相應的事件規(guī)則庫, 將此輸入到最大熵模型(MaximumEntropy Model, MEM)中進行訓練, 構(gòu)造出突發(fā)事件分類模型; 陳國蘭[10] 采用相對詞頻、詞頻增長率和爆發(fā)詞權(quán)重來提取爆發(fā)詞特征, 采用共詞分析的方法實現(xiàn)爆發(fā)詞聚類, 以此達到突發(fā)事件識別分類的目的; 張馨月等[11] 構(gòu)建領域?qū)S猛S迷~表后利用TF-IDF 方法抽取文本特征, 再利用支持向量機在公開數(shù)據(jù)集上進行文本分類; 閆宏麗等[12] 將突發(fā)事件新聞中成組出現(xiàn)的類別關鍵詞作為決策樹的屬性項, 通過判定類別組合情況實現(xiàn)分類。然而,這些提取方法通常只能抽取到表層的信息特征, 遺漏掉高層次的抽象語義信息, 難以表達詞與詞之間的相互關系和詞序特征, 同時對于高維數(shù)據(jù)的泛化學習能力較差, 使得模型在識別分類的準確率上達到瓶頸階段。
近些年隨著技術和理論的不斷發(fā)展, 深度學習逐漸成為研究熱點, 與傳統(tǒng)的機器學習相比, 前者更能全面地挖掘深層次的語義特征信息。深度學習是由Hinton G E 等[13] 在2006 年提出的概念, 主要是通過深層結(jié)構(gòu)的學習模型從數(shù)據(jù)中提取出高度抽象的具備語義屬性特征的信息, 解決了淺層結(jié)構(gòu)網(wǎng)絡對復雜函數(shù)表達效果欠佳的問題, 因其性能優(yōu)越而被廣泛應用于自然語言處理的多個任務中, 其中突發(fā)事件分類任務也因利乘便, 日臻完善。例如,Lai S W 等[14] 首先將文本特征進行詞向量處理, 并將其輸入到RNN 和CNN 聯(lián)合組成的RCNN 神經(jīng)網(wǎng)絡中去, 最后可以觀察到分本分類的效果顯著提升;Zhou B 等[15] 利用多個基于BERT 模型對特定突發(fā)事件的推文進行分類, 實驗結(jié)果顯示基于BERT 的模型其準確率均有所上升; 胡庭愷等[16] 利用BERT模型抽取文本特征, 采用自適應決策邊界模型來學習突發(fā)事件類別在高維語義空間上的決策邊界, 該模型的有效性在公開數(shù)據(jù)集上被得以驗證; 范昊等[17] 以新聞標題為研究對象, 構(gòu)建融合詞嵌入信息、文本特征信息和上下文信息的BERT-TEXTC?NN-BiLSTM 模型, 模型泛化能力和分類效果相較于傳統(tǒng)模型有明顯上升; 宋英華等[5] 考慮到詞語間或詞語與類別間相互關系, 在關鍵詞特征的研究基礎上提出了DCLSTM-MLP 的深度學習新聞文本分類模型, 以實現(xiàn)突發(fā)事件的識別和分類。
雖然深度學習方法在突發(fā)事件分類研究中獲得巨大成功, 但從以上文獻可以看出, 目前該領域的分類研究仍然局限于單模態(tài)分類, 未考慮到圖片語義特征對分類模型研判性能的提升作用, 從而導致特征信息捕捉不充分、模型學習能力較弱的問題。針對此問題, 本文擬在突發(fā)事件分類研究中引入多模態(tài)融合思想, 結(jié)合突發(fā)事件文本和對應的圖片展開分類研究。
1.2混合融合分類研究
混合融合是特征級融合和決策級融合的結(jié)合體[18] 。特征級融合指對多模態(tài)數(shù)據(jù)進行特征信息提取后將其融合在一起的方式; 決策級融合是指將對數(shù)據(jù)進行推理或評估得到的初步?jīng)Q策信息進行融合的方式。多模態(tài)混合融合方法雖然使得模型的復雜度增加, 學習難度加大, 但結(jié)合了兩種策略的優(yōu)勢, 在深度學習模型搭建中較為常用。例如, Lan ZZ 等[19] 將混合融合方法應用于多媒體事件的檢測,設計雙融合的方案解決了過擬合問題, 并在該領域取得SOTA 效果; 陶霄等[20] 從文本、視覺和用戶3個特征維度切入口搭建謠言檢測模型, 并在前后期融合以實現(xiàn)特征和決策的自動加權(quán), 最后將模型運用于微博和Twitter 數(shù)據(jù)集檢驗自身的準確率; HuangF 等[21] 利用視覺與語義內(nèi)容之間的內(nèi)在聯(lián)系和特征, 通過混合融合框架搭建起一種新的圖文情感識別模型, 即深度多模態(tài)關注融合模型; Tashu T M等[22] 以藝術繪畫為研究對象, 利用CNN 抽取圖像特征, 利用BERT 聯(lián)動Bi-GRU 捕捉具有上下文關系的文本特征, 最后進行多級融合后, 構(gòu)造出藝術繪畫多模態(tài)情感識別框架; Yucel C 等[23] 在情感識別領域也提出一種混合融合策略, 尋找相同的潛在空間來融合視頻和音頻兩者的特征, 并采用D-S證據(jù)理論來融合視聽空間和文本模態(tài)特征; 張繼東等[24] 以旅游評論為研究對象, 將融合后的文本表情特征以及提取的圖片特征分別放入分類器中進行反諷識別, 再將二者的識別概率進行融合, 構(gòu)建出多模態(tài)旅游評論中反諷識別模型。
考慮到現(xiàn)有的突發(fā)事件分類研究中模態(tài)單一致使分類效果差、突發(fā)事件信息結(jié)構(gòu)不統(tǒng)一導致模態(tài)缺失或單文本對應多圖片的問題, 本文將在多模態(tài)思想的基礎上加入混合融合策略, 即用深度學習方法提取出突發(fā)事件新聞的文本描述特征和圖像語義特征后, 利用加權(quán)平均策略將指向同一條文本的所有圖片特征處理為一個特征向量, 然后在前后期分別對特征信息和決策信息進行融合, 并將收集的真實新聞數(shù)據(jù)輸入到模型中進行訓練和測試, 以此構(gòu)建起魯棒性強、分類效果優(yōu)越的突發(fā)事件分類模型。
2基于多模態(tài)融合的突發(fā)事件分類模型構(gòu)建
2.1模型總體架構(gòu)
本文將采集的突發(fā)事件新聞數(shù)據(jù)拆分為文本數(shù)據(jù)和圖片數(shù)據(jù), 然后分別輸入到特征提取模型中進行特征提取, 再將提取的文本特征和圖片特征輸入到特征融合模型中進行信息融合, 最后將單模態(tài)模型和多模態(tài)模型的決策層輸出賦予對應權(quán)重, 以實現(xiàn)混合融合策略下的突發(fā)事件分類。
具體地, 構(gòu)建多模態(tài)融合的突發(fā)事件分類模型ECMHF, 該模型由4 個部分組成, 分別是突發(fā)事件文本特征抽取分類模型、突發(fā)事件圖像特征抽取分類模型、突發(fā)事件多模態(tài)融合分類模型和突發(fā)事件混合融合策略, 其中混合融合由前期特征融合和后期各模型決策層輸出的概率分布及對應權(quán)重組成, 模型總體架構(gòu)如圖1 所示。在文本模塊, 利用預訓練模型BERT 對其進行特征抽取, 然后聯(lián)動BiLSTM 網(wǎng)絡捕捉上下文語義特征信息; 在圖片模塊, 利用遷移學習的思想將VGG19 卷積神經(jīng)網(wǎng)絡作為特征抽取的基礎模型; 在特征級融合模塊, 采用Concatenate 特征拼接技術融合文本特征和圖像特征; 最后利用3 個分類模型的決策層輸出進行權(quán)重分配, 構(gòu)建出ECMHF 模型。
2.2突發(fā)事件文本特征抽取分類模型
BERT(Bidirectional Encoder Representations fromTransformers)[25] 是谷歌團隊的Devlin J 等在2018 年提出的預訓練語言模型, 因掩碼語言模型(MaskedLanguage Model, MLM)和下一句預測(Next SentencePrediction, NSP)的獨特設計而在眾多的自然語言處理任務中表現(xiàn)突出。預訓練的BERT 模型可以很好地提取詞語級、句子級和句子之間關系的特征, 在文本分類任務[26] 、序列標注任務[27] 以及問答系統(tǒng)領域[28] 等都取得了很好的效果。在Jawahar G 等[29]對BERT 模型的內(nèi)置推理研究中表明, 各編碼層學習到的特征不盡相同, 從低向上分別是短語級特征、句法結(jié)構(gòu)特征和語義特征, 層次越高, 學習到的特征就越抽象。因此, 本文采用BERT 模型對突發(fā)事件的文本信息進行描述特征抽取, 同時引入BiL?STM 網(wǎng)絡來捕捉文本中長距離的上下文語義信息,獲取能為分類提供決策的優(yōu)質(zhì)特征。具體流程如圖2 所示。
2.3突發(fā)事件圖像特征抽取分類模型
在突發(fā)事件識別中, 除文本以外, 圖片同樣包含著豐富的視覺語義信息, 有助于精確識別突發(fā)事件類型, 因此在多模態(tài)分析過程中, 圖片的特征抽取也很重要。大量研究表明, 卷積神經(jīng)網(wǎng)絡在圖像特征抽取方面卓有成效, 在計算機視覺領域表現(xiàn)突出。本文選?。郑牵牵保?網(wǎng)絡作為突發(fā)事件圖像特征抽取器, VGG19 模型是在ImageNet 數(shù)據(jù)集(含有1 400多萬張圖片, 超過2 萬多個分類)上進行預訓練, 取最后一層作為圖像特征輸出, 其優(yōu)勢在于在感受也相同時, 采用迭代效率更高的3×3 小卷積減少參數(shù)量, 增加多個非線性層來保證復雜的模型學習, 同時其付出代價更?。郏常保?。
本文利用開源計算機視覺庫OpenCV[32] 內(nèi)置的resize()函數(shù)將圖片尺寸統(tǒng)一設置為224×224, 帶有RGB 彩色三通道, 作為VGG19 模型的輸入。再將深度學習庫Keras 中封裝的VGG19 載入, 其結(jié)構(gòu)包含16 個卷積層, 5 個最大池化層和3 個全連接層, 為保證實現(xiàn)領域遷移下的特征學習效果, 將VGG19 模型的權(quán)重參數(shù)Weights 設置為Imagenet,隨后將訓練得到的特征向量輸入到以ReLU 為激活函數(shù)的Dense 層。為防止出現(xiàn)過擬合現(xiàn)象, 增強模型泛化能力, 本文加入Dropout 層隨機丟棄網(wǎng)絡單元, 最后將結(jié)果輸入到Softmax 函數(shù)中獲得圖像的分類標簽。具體模型如圖3 所示。
2.4突發(fā)事件多模態(tài)融合分類模型
多模態(tài)特征融合能夠捕捉不同模態(tài)之間的信息交互, 是提升多模態(tài)分類模型性能的關鍵步驟[33] 。特征融合的方式有簡單的級聯(lián)融合和加權(quán)融合, 雖然特征級聯(lián)融合比較簡單, 但在識別任務中也能有效提升模型性能[34] 。本文選取級聯(lián)拼接的方式來融合突發(fā)事件的文本和圖片特征, 即用Concatenate操作將兩者聯(lián)合起來。
對于上游任務中獲取的文本描述特征H 和圖片語義特征V 進行拼接, 得到多模態(tài)向量表示M,如式(8) 所示。
3實驗與結(jié)果分析
3.1數(shù)據(jù)獲取及數(shù)據(jù)預處理
在國家標準化管理委員會發(fā)布的《突發(fā)事件分類與編碼》中將突發(fā)事件分為4 類: 自然災害事件、公共衛(wèi)生事件、社會安全事件和事故災難事件。本文將全球網(wǎng)、中國法院網(wǎng)、百度新聞以及澎湃新聞等新聞媒體作為數(shù)據(jù)源頭, 以4 類事件名稱為關鍵詞檢索, 采用爬蟲工具與人工結(jié)合的方法,共采集文本2 125條, 圖片2 137張, 文本與圖片存在一對多情況, 數(shù)據(jù)示例如圖4 所示。
對獲取的突發(fā)事件新聞進行預處理, 采用以下手段措施來檢驗數(shù)據(jù)可用性和降低噪音: ①檢查圖片與文本的契合度, 對圖文不符的進行剔除; ②利用Python 對文本去除特殊字符和停用詞; ③導入CV2 庫檢測圖片是否可讀取和修改為224×224 尺寸,對不符合要求的圖片進行剔除; ④以圖片存儲路徑字符串為基礎對象, 對其進行特定修改后獲得對應文本位置, 再一一對應讀取; ⑤為不同事件類型貼上數(shù)字標簽, 通過fit_transform 方法轉(zhuǎn)換為one-hot形式; ⑥將清洗后的文本、圖像和標簽數(shù)據(jù)存儲為Pickle 文件。經(jīng)過清洗篩選最終獲得符合條件的文本圖片2 111對, 各類別文本和圖片數(shù)量如表1 所示, 再將數(shù)據(jù)按照4 ∶1 劃分為訓練集和測試集, 分別為1 688對和423對。
3.2實驗設計
3.2.1實驗環(huán)境及參數(shù)設置
本文的所有實驗均使用Python3.8 進行編寫運行, 使用的深度學習框架為Tensorflow2.10.0, 實驗運行設備的內(nèi)存為16.0GB, Intel(R) Iris(R) XeGraphics 顯卡, CPU 型號為Intel(R) Core(TM) i5-12500H。
在本文的ECMHF 模型中, BERT 預訓練參數(shù)使用谷歌提供的基于維基百科中文預料訓練好的模型參數(shù), 句子長度設置為128, 若長度大于該值則從左向右截?。保玻?字符作為輸入數(shù)據(jù), 若不足則采用Padding 方法補充為0, 抽取模型的sequence_output 特征作為文本特征向量表示。在BiLSTM 中,將LSTM 的Units 設置為128, 優(yōu)化器采用隨機梯度下降(Stochastic Gradient Descent, SGD)[35] , 學習率設置為0.001, 動量大小為0.9, 同時采用Drop?out 技術防止模型訓練過擬合, 其值設置為0.5,全連接層使用激活函數(shù)ReLU。利用Earlystopping方法監(jiān)測損失值, 當損失值在10 個輪次中沒有進展時自動終止訓練。VGG19 模型訓練時設置輸入張量為(224,224,3), 抽取模型最后一個全連接層輸出作為圖像特征。經(jīng)多次實驗發(fā)現(xiàn), 文本特征抽取分類模型在訓練輪數(shù)為45 左右便穩(wěn)定, 故將Epochs 設置為50, 批次大小設置為8; 圖片特征抽取分類模型Epochs 設置為100, 批次大小設置為8; 特征融合分類模型Epochs 設置為25, 批次大小設置為128。損失函數(shù)設置為交叉熵損失函數(shù)。
經(jīng)過多次動態(tài)調(diào)整權(quán)重的實驗對比, 本文提出的ECMHF 模型在α =0.4、β =0. 4、γ =0.2 時識別性能最好, 即決策層融合階段文本分類模型輸出概率分布權(quán)重為0.4, 多模態(tài)分類模型輸出概率分布權(quán)重為0.4, 圖像分類模型概率分布權(quán)重為0.2。
3.2.2評價指標
本文選擇精確率(Precision)、召回率(Recall)和F1 值(F1-score)來對突發(fā)事件的分類結(jié)果進行評估, 精確率是衡量模型不將負類樣本預測為正的能力, 召回率是衡量模型找出真樣本的能力, F1 值是衡量模型的穩(wěn)健能力, 其值越大, 模型穩(wěn)健能力越強。具體計算方式如式(12)~式(14) 所示。
其中TP 表示樣本為正且預測為正, FP 表示樣本為負但預測為正, FN 表示樣本為正預測為負。
3.2.3基線模型
為驗證本文模型的有效性, 選取以下模型作為對比的基線模型, 這些模型在之前研究中都達到過優(yōu)越效果, 具有一定的對比性。
1) BERT-BiLSTM。為驗證提出模型的有效性,本文設計BERT 聯(lián)動BiLSTM 的對比模型來對文本特征進行抽取, 后接一個維度為256、激活函數(shù)為ReLU 的全連接層, 以及一個分類的Softmax 層。
2) VGG19[36] 。VGG19 模型在眾多計算機視覺任務中取得過最優(yōu)效果, 為探索該模型在領域遷移后的效果, 將收集的突發(fā)事件圖片數(shù)據(jù)處理后輸入模型獲得圖像語義特征, 后接一個維度為256、激活函數(shù)為ReLU 的全連接層, 以及一個分類的Softmax 層。
3) ECMMF。為與混合模態(tài)模型性能對比, 構(gòu)建文本圖片融合的多模態(tài)分類模型, 將突發(fā)事件的文本和圖片特征進行拼接, 后接一個維度為256、激活函數(shù)為ReLU 的全連接層和用于分類的Softmax層。
4) SVM(text)[11] 。SVM 在傳統(tǒng)的機器學習任務中性能優(yōu)越, 將BERT 模型抽取的文本特征降維后作為該模型輸入, 對文本進行分類。
5) SVM(img)。將VGG19 模型抽取的圖片特征作為SVM 輸入, 對圖片進行分類。
6) SVM(text+img)。級聯(lián)拼接降維后的文本描述特征和圖片語義特征, 作為SVM 的多模態(tài)特征輸入。
3.3實驗結(jié)果分析
本文通過在搜集的突發(fā)事件新聞數(shù)據(jù)集上實驗評估模型的性能效果, 通過消融實驗和不同模型對比實驗來比較模型的評價指標以及細粒度事件上的分類效果, 以此達到驗證本文提出的基于多模態(tài)融合的突發(fā)事件分類模型(ECMHF)有效性的目的。
3.3.1消融實驗
為驗證本文提出模型的有效性, 進行消融實驗對比, 實驗結(jié)果如表2 所示。
從實驗結(jié)果可以看出: 在融合文本特征和圖片特征后, 模型的表現(xiàn)均優(yōu)于單模態(tài)模型的表現(xiàn), 驗證了信息融合策略的有效性。同時, 為驗證本文提出的混合融合策略的有效性, 繪制ECMHF 模型與單文本模態(tài)分類模型BERT-BiLSTM 與單圖像模態(tài)分類模型VGG19 的分類效果對比圖, 如圖5 所示。在突發(fā)事件4 類新聞的分類效果中, 最差的是基于圖像特征的VGG19 模型, 其F1 值遠低于BERTBiLSTM模型和ECMHF 模型, 說明突發(fā)事件新聞識別分類任務中單一的圖像語義特征在信息表征能力上比文本描述特征弱。此外, 在自然災害類事件新聞中BERT-BiLSTM 模型分類效果最佳, 比EC?MHF 模型的F1 值高出0.38%, 但在事故災難、公共衛(wèi)生、社會安全3 類突發(fā)事件的識別分類任務中均為ECMHF 模型最佳, 其F1 值分別高出BERTBiLSTM模型0.888%、1.255%和4.685%。總體而言, ECMHF 模型識別分類綜合效果最佳, 說明混合融合策略極大地提升了模型在突發(fā)事件新聞上的分類性能。
3.3.2不同模型對比實驗
本文設計的其余基線模型對突發(fā)事件整體識別分類的結(jié)果如表3 所示。結(jié)合表1 分析, 在實驗結(jié)果對比中發(fā)現(xiàn): 捕捉長距離雙向語義信息的BERTBiLSTM模型性能優(yōu)于SVM 模型, 這說明融合文本上下文語義信息能夠提升文本分類器的識別效果。SVM 模型在圖片分類上的效果優(yōu)于深層次網(wǎng)絡結(jié)構(gòu)的VGG19 模型, 原因在于VGG19 提取圖像語義特征屬于高維特征, 且最后連接Softmax 分類器, 將提取的特征輸入到兩個分類器模型時, SVM 對高維特征的效果分類會比Softmax 好[37] 。融合文本圖片特征的多模態(tài)突發(fā)事件識別模型(Emergency Clas?sification Method with Multimodal Model, ECMMF)和基于SVM 的多模態(tài)識別模型均比單一模態(tài)識別模型在各項指標上略勝一籌, 這充分展現(xiàn)出多模態(tài)融合在突發(fā)事件識別中的優(yōu)勢。值得關注的是, 本文提出的ERMHF 模型在各項指標中均達到最優(yōu)效果, 與次優(yōu)模型相比, Precision 高出0.466%, Re?call 高出0.898%, F1-score 高出0.51%, 這充分說明ECMHF 模型性能優(yōu)越, 在突發(fā)事件新聞研究中提升了分類效果。
為對比各個模型在細粒度事件上的分類性能,繪制本文單模態(tài)分類模型和多模態(tài)分類模型在具體突發(fā)事件新聞上的識別效果, 得到各模型分類效果圖, 如圖6 所示。在自然災害類事件新聞中, 識別分類效果最好的是BERT-BiLSTM 模型, F1 值達到99.231%; 在事故災難類和社會安全類事件新聞中, 識別分類效果最好的是ECMHF 模型, F1 值分別為98.605%、99.259%; 在公共衛(wèi)生類事件新聞中, 識別分類效果最好的是ECMMH 模型和ECM?HF 模型, 兩者的F1 值均達到99.574%。在單模態(tài)文本分類中, BERT-BiLSTM 模型在自然災害和公共衛(wèi)生事件中分類效果均優(yōu)于SVM 模型, 但二者在社會安全類事件新聞的分類效果遠低于其他3類事件, 究其原因, 筆者認為是由于訓練樣本量偏少, 其訓練樣本僅為257 對新聞數(shù)據(jù), 致使模型學習不充分, 分類效果相比其他3 類事件較差一點;在單模態(tài)圖片分類中, SVM 模型在自然災害類、事故災難類和社會安全類事件新聞的分類效果均優(yōu)于基于VGG19 的分類模型, 但在公共衛(wèi)生類事件新聞上基于VGG19 的模型識別效果高出SVM 模型0.619%, 但兩個模型的分類效果均遠低于文本分類效果。此外, 在數(shù)據(jù)量充足的情況下, 兩個模型在自然災害類和事故災難類事件新聞的識別效果仍然低于66%, 筆者對此進行圖像數(shù)據(jù)整理與核對時發(fā)現(xiàn), 兩類事件新聞中部分圖片在不依賴文本的情況下極難區(qū)分, 例如自然災害類新聞中的火災圖片、不可抗力導致的建筑坍塌圖片與事故災害類新聞中的房屋火災圖片、撞擊導致建筑毀壞圖片, 這也致使計算機在提取兩類新聞圖片特征時因相似度高存在極高的難度, 導致分類模型不易區(qū)分; 在多模態(tài)分類中, 加入混合融合策略的ECMHF 模型在各類具體事件新聞識別分類效果都達到了98.6%以上,除了在公共衛(wèi)生類事件新聞中與僅融合特征的EC?MMF 模型識別效果持平外, 其余各項指標均高出SVM 模型和ECMMF 模型, 說明本文提出的模型在真實實驗數(shù)據(jù)中表現(xiàn)出較強的識別分類性能。
繪制ECMHF 模型accuracy 準確率曲線和loss損失曲線, 如圖7 和圖8 所示。從圖7 中可以看出,準確率在前10 輪迭代中穩(wěn)步上升, 在20 輪迭代后呈現(xiàn)出穩(wěn)定趨勢, 維持在98%以上, 表明模型學習能力穩(wěn)定, 同時模型訓練也未出現(xiàn)過擬合現(xiàn)象。從圖8 的損失曲線走勢中可以看出, 迭代初期模型loss 值下降趨勢明顯, 表明深度神經(jīng)網(wǎng)絡學習能力突出, 在20 輪后呈現(xiàn)出穩(wěn)定狀態(tài), 趨于收斂。
4結(jié)語
本文針對目前突發(fā)事件分類研究的模態(tài)單一、分類效果不理想的問題, 同時考慮到新聞媒體中承載著形式各異的新聞, 設計了一種在特征級和決策級混合融合的多模態(tài)突發(fā)事件分類模型ECMHF。該模型利用預訓練的BERT 模型對新聞提取文本特征, 引用VGG19 模型對新聞提取圖像特征, 再以此為基礎構(gòu)建文本單模態(tài)、圖像單模態(tài)和特征融合多模態(tài)的分類模型, 最后將各模型的結(jié)果輸出進行決策級融合。本文在真實的突發(fā)事件新聞數(shù)據(jù)集中展開實證研究, 實驗結(jié)果表明, 混合融合的策略能夠較好地結(jié)合前期融合和后期融合的優(yōu)勢, 具備一定的魯棒性和可拓展性, 該方法應用于真實場景下突發(fā)事件新聞數(shù)據(jù)集所取得的分類效果均優(yōu)于其他基線模型, 表明ECMHF 模型在突發(fā)事件的分類中具有一定的優(yōu)勢。盡管本文提出的模型在采集的新聞數(shù)據(jù)集上效果良好, 但仍需在更多樣、更復雜的突發(fā)事件新聞環(huán)境進一步驗證, 尤其在針對圖片模態(tài)的研究中, 為更加精準識別出不同類別的突發(fā)事件, 需要擴大樣本數(shù)據(jù)量。在未來研究中, 將嘗試設計能夠有效學習突發(fā)事件多模態(tài)數(shù)據(jù)特征的算法, 增強模型表示能力, 從而能更為精準地判別突發(fā)事件類型。