亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種基于CNN-RNN的社交媒體中突發(fā)事件感知方法

2021-09-09 05:35:54李小平

鐵道學(xué)報 2021年8期

關(guān)鍵詞：信息模型

李小平，白超

(蘭州交通大學(xué) 機(jī)電工程學(xué)院，甘肅蘭州 730070)

據(jù)中國互聯(lián)網(wǎng)信息中心(CNNIC)數(shù)據(jù)顯示，我國手機(jī)上網(wǎng)人數(shù)為8億左右。每一個手機(jī)用戶就是一個獨立的社會傳感器，可以隨時通過微博、微信等移動社交方式發(fā)送所見所聞，成為社會輿論熱點、突發(fā)危機(jī)事件傳播的第一觸角。近年來，社交媒體大數(shù)據(jù)已經(jīng)在突發(fā)事件情境感知、監(jiān)管決策和應(yīng)急處理等方面提供了有價值的信息[1-3]，對有效幫助應(yīng)急救援決策部門及時、果斷地做出正確決策提供了新的思路和手段，也引起了新聞傳播、計算機(jī)科學(xué)、公共管理等諸多領(lǐng)域?qū)W者的關(guān)注和研究[4]。

社交媒體中突發(fā)事件的感知屬于“熱點輿論”傳播的范疇，一般采用復(fù)雜網(wǎng)絡(luò)的方法進(jìn)行研究。Jermaine等[5]利用多層神經(jīng)網(wǎng)絡(luò)從社交網(wǎng)絡(luò)數(shù)據(jù)中感知事件真相；陳震等[6]基于貝葉斯網(wǎng)絡(luò)進(jìn)行輿情事件趨勢分析；楊峰等[7]將情報資源分析之上的情景要素與當(dāng)前突發(fā)事件呈現(xiàn)的特征屬性進(jìn)行相似度檢驗，然后通過扎根理論、文本分詞、特征詞提取以及相似度計算等方法實現(xiàn)情報感知；王艷東等[8]基于社交媒體數(shù)據(jù)建立應(yīng)急主題分類模型，并對突發(fā)事件的空間分布規(guī)律和異常區(qū)域進(jìn)行了挖掘分析；趙又霖等[9]針對社會感知數(shù)據(jù)進(jìn)行了多源異構(gòu)融合及語義層面的知識組織，構(gòu)建了社會感知數(shù)據(jù)驅(qū)動下的時空語義模型。

隨著大數(shù)據(jù)技術(shù)的應(yīng)用及計算機(jī)處理能力的提升，深度學(xué)習(xí)技術(shù)也逐漸應(yīng)用于社交媒體分析，并顯示出強(qiáng)大的解決能力。文獻(xiàn)[10]針對社交媒體感知中的大量異構(gòu)、噪聲、虛假以及缺乏空間參考信息的數(shù)據(jù)問題，采用高性能計算、深度學(xué)習(xí)以及多源數(shù)據(jù)融合技術(shù)實現(xiàn)災(zāi)難事件的及時感知與應(yīng)對；文獻(xiàn)[11]使用卷積神經(jīng)網(wǎng)絡(luò)以及支持向量機(jī)識別Facebook中的緊急事件，對應(yīng)急準(zhǔn)備、響應(yīng)、恢復(fù)信息進(jìn)行了分類研究；文獻(xiàn)[12]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的突發(fā)公共事件謠言轉(zhuǎn)發(fā)行為預(yù)測模型；文獻(xiàn)[13]研究了自然災(zāi)害期間社交媒體中的信息融合問題；文獻(xiàn)[14]提出了一種基于改進(jìn)RNN-LSTM的專業(yè)領(lǐng)域公共事件數(shù)據(jù)預(yù)測模型。

綜上所述，傳統(tǒng)的社交媒體事件感知方法主要依賴于語義信息和復(fù)雜社會網(wǎng)絡(luò)信息[5-9]；而深度學(xué)習(xí)方法能夠有效避免對于語義信息和社會網(wǎng)絡(luò)信息的過度依賴，快速從海量社交信息中篩選出關(guān)鍵敏感信息，成為社交媒體信息處理的新方向[10-14]。突發(fā)事件在社交媒體中的傳播可以看作是一個自發(fā)的自適應(yīng)社交網(wǎng)絡(luò)，具有較強(qiáng)的時空相關(guān)性[15]，決策者希望在事件發(fā)生的第一時間就能及時感知，以便快速采取應(yīng)對措施，因此，突發(fā)事件的社交媒體信息感知存在地理位置性、時間鏈條性、緊迫性、自適應(yīng)網(wǎng)絡(luò)、爆炸性傳播等特點。CNN(卷積神經(jīng)網(wǎng)絡(luò))方法具有較強(qiáng)的高維數(shù)據(jù)(如時空語義數(shù)據(jù))處理能力，又可避免對圖像的復(fù)雜前期預(yù)處理；RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))方法具有事件序列性的特點，能夠直接學(xué)習(xí)從消息傳播時間序列獲取的映射函數(shù)，具有及時、準(zhǔn)確感知突發(fā)事件的能力。因此，本文在前述研究的基礎(chǔ)上，提出一種基于CNN與RNN融合的社交媒體中突發(fā)事件感知方法，避免了自適應(yīng)復(fù)雜社會網(wǎng)絡(luò)的構(gòu)建及低效的事件特征提取，利用CNN的高維數(shù)據(jù)處理能力構(gòu)建事件消息多元傳遞網(wǎng)絡(luò)，利用RNN的時序處理能力構(gòu)建突發(fā)事件傳播的時間序列，融合實現(xiàn)對于一定傳播范圍(轉(zhuǎn)發(fā)次數(shù))、傳播時長敏感信息的自動獲取，然后通過事件鏈的語義信息、圖像、語音、視頻、地理位置等進(jìn)行事件畫像，實現(xiàn)對突發(fā)事件現(xiàn)場情境的快速感知。

1 社交媒體中的時空語義問題描述

一則社交網(wǎng)絡(luò)消息S可定義為一個七元組函數(shù)，即

S=f(created_at,id,mid,mutil_data,source,geo,uid)

(1)

式中：created_at為社交消息創(chuàng)建時間；id為社交消息ID號；mid為社交消息MID號；mutil_data為社交消息內(nèi)容；source為消息來源(源發(fā)、轉(zhuǎn)發(fā))；geo為消息發(fā)送地址(經(jīng)緯度)；uid為用戶ID。時間數(shù)據(jù)created_at和空間數(shù)據(jù)geo共同定義了社交消息的時空屬性。社交消息內(nèi)容mutil_data包含多個數(shù)據(jù)，其定義為

mutil_data=(text,original_pic,original_voice,

original_video)

(2)

式中：text為語義信息；original_pic為原始圖片數(shù)據(jù)；original_voice為語音數(shù)據(jù)；original_video為視頻數(shù)據(jù)。text、original_pic、original_voice、original_video共同構(gòu)成多模態(tài)社交網(wǎng)絡(luò)數(shù)據(jù)。采用網(wǎng)絡(luò)爬取工具(如Python等)可以從微博、微信、抖音、Facebook等社交媒體中獲取上述信息，并創(chuàng)建社交網(wǎng)絡(luò)消息源數(shù)據(jù)庫。

2 融合CNN-RNN的突發(fā)事件感知模型

2.1 網(wǎng)絡(luò)輸入

(1)時間created_at序列特征的向量表示

社交消息創(chuàng)建時間created_at(年、月、日、時、分、秒)的向量表示參考文獻(xiàn)[16]，采用正交互補(bǔ)的方法將時間變量映射成時間的向量表示。

(3)

式中：t2v(τ)[i]為t2v(τ)的第i個元素；F為周期激活函數(shù)；ωi和φi為可學(xué)習(xí)參數(shù)；τ為時間標(biāo)量。選擇F為正弦函數(shù)，對于1≤i≤k，ωi和φi為正弦函數(shù)的頻率和移相。

時間信息中，年月日是非周期量，時分秒是周期量，則每條消息發(fā)布的時間可以表示為

created_at={T0,T1,T2,T3}

(4)

式中：T0為年月日向量；T1為時向量；T2為分向量；T3為秒向量。降維處理后得到二維社會傳感網(wǎng)絡(luò)時間向量created_at-2為

(5)

式中：tntn為第n條消息發(fā)布的時間。

(2)社交消息mid及主題id的向量表示

社交消息mid和主題id是社交消息的標(biāo)識數(shù)據(jù)。假如某條社交消息的鏈接為http:∥weibo.com/2803301701/CeaOU15IT，則CeaOU15IT即為該消息的mid。mid經(jīng)過62進(jìn)制轉(zhuǎn)換即為主題id。CeaOU15IT對應(yīng)的id為3833781880260331。id和mid可以用一維向量表示。

(3)mutil_data文本數(shù)據(jù)的向量化

mutil_data為社交消息內(nèi)容，在事件感知時重點考慮text語義數(shù)據(jù)，original_pic、original_voice、original_video等其他數(shù)據(jù)在情景畫像時再進(jìn)行數(shù)據(jù)融合。mutil_data中文本數(shù)據(jù)的向量化采用隱含迪利克雷分布(Latent Dirichlet Allocation,LDA)方法[17]，處理過程見圖1。

圖1mutil_data文本數(shù)據(jù)向量化

首先將消息內(nèi)容采用TF-IDF方法進(jìn)行特征詞抽取，然后采用LDA進(jìn)行關(guān)鍵詞主題映射,最后通過word2vec函數(shù)將其主題向量化?；贕ibbs采樣的并行化計算特性，本文采用Gibbs來訓(xùn)練分布式的海量社交媒體文檔的LDA模型。

(4)geo數(shù)據(jù)的向量表示

geo為地理信息，以路網(wǎng)無向圖的方式對其進(jìn)行向量化，以帶屬性的線段集合方式儲存。每個線段由有序的經(jīng)緯度坐標(biāo)組成，再用一個二維數(shù)組存放頂點關(guān)系的數(shù)據(jù)。在無向圖中，任一坐標(biāo)頂點i的度數(shù)為第i列所有元素的和。

(5)用戶特征向量source及uid的向量表示

社交網(wǎng)絡(luò)中的用戶是消息的傳播者，初始發(fā)布者很有可能是事件的親歷者或者旁觀者，對于突發(fā)事件的感知，需要在盡可能短的時間內(nèi)從社交網(wǎng)絡(luò)數(shù)據(jù)中挖掘出敏感信息。RNN能夠很好地關(guān)聯(lián)轉(zhuǎn)發(fā)消息的時間序列，因此，基于用戶特征向量source及uid的社交消息轉(zhuǎn)發(fā)可以用一個時間序列向量表示，見圖2。

圖2 消息轉(zhuǎn)發(fā)的時間序列

圖2中，對于一條社交網(wǎng)絡(luò)消息，t0時刻的用戶x0為消息源，ti時刻發(fā)布的消息轉(zhuǎn)發(fā)自ti-1時刻的xi-1，因此，基于用戶特征(uid)可以構(gòu)建RNN神經(jīng)網(wǎng)絡(luò)。每個uid的字段長度是不同的，為了使進(jìn)入網(wǎng)絡(luò)的特征具有相同的長度，對輸入序列做如下處理：設(shè)置輸入序列X的最大長度為L；對于長度大于L的序列，從序列尾部做截斷處理；對于長度小于L的序列，在序列頭部添加0補(bǔ)足。轉(zhuǎn)發(fā)用戶uid帶有轉(zhuǎn)發(fā)信息的所有信息，屬于典型的RNN時間序列傳遞。

2.2 網(wǎng)絡(luò)結(jié)構(gòu)

在CNN環(huán)節(jié)，首先將轉(zhuǎn)發(fā)消息的信息進(jìn)行圖像化，然后將圖像化處理后的created_at、id、mid、uid、geo、text輸入CNN，經(jīng)過卷積操作提取不同抽象層次的高維度局部特征，再經(jīng)過池化技術(shù)有效控制學(xué)習(xí)規(guī)模，提高泛化能力，最后通過softmax進(jìn)行主題分類。為了防止過度擬合，降低神經(jīng)元之間連接的復(fù)雜性，在本模型中加入了Dropconnect函數(shù)[18]。不同激活函數(shù)對識別性能有顯著影響，激活函數(shù)RReLU的識別性能好于sigmoid函數(shù)和tanh函數(shù)[19]，所以本文選取RReLU激活函數(shù)。

在RNN環(huán)節(jié)，將CNN softmax的主題及消息分類輸出作為RNN神經(jīng)網(wǎng)絡(luò)的輸入，根據(jù)用戶特征向量source的時間序列保留轉(zhuǎn)發(fā)消息的時序性。在某一個時序xi，滿足一定轉(zhuǎn)發(fā)次數(shù)或傳播時長后作為突發(fā)事件進(jìn)行主題輸出，然后在該主題序列中追溯到原始消息x0及原始消息x0的地理位置geo0。以geo0為圓心，在半徑R的范圍內(nèi)該主題的消息即為突發(fā)事件發(fā)生地的社交媒體發(fā)出的消息，也是最接近真實的突發(fā)事件信息。采集這些信息(包括text、original_pic、original_voice、original_video)，并進(jìn)行事件畫像，即可感知到突發(fā)事件的現(xiàn)場情境。融合CNN-RNN的網(wǎng)絡(luò)模型結(jié)構(gòu)見圖3。

圖3 融合CNN-RNN的突發(fā)事件感知模型

2.2.1 基于多層CNN的社交消息主題聚類

海量社交消息的CNN聚類，卷積的層數(shù)越多則非線性擬合能力越強(qiáng)，提取的消息特征也越多，但過多的卷積層會延長運(yùn)算時間，造成過擬合現(xiàn)象，因此本模型采用了4層卷積層和2層最大池化層。具體處理過程如下。

(1)歸一化：由于模型涉及6層信息的疊加，因此在信息輸入網(wǎng)絡(luò)之前進(jìn)行歸一化操作。

(6)

(2)卷積層1：卷積層1選用3×3的卷積核進(jìn)行圖像局部特征提取，假設(shè)輸入層圖像為n×n，則卷積層1處理后得到(n-2)×(n-2)的特征圖。

(8)全連接層：全連接層將學(xué)到的“分布式特征表示”映射到樣本標(biāo)記空間中。由于全連接層的輸入是最大池化層2的輸出，是二維的特征圖，因此需要對二維特征圖進(jìn)行降維處理成一維向量。

(9)softmax：對于社交消息的分類輸出問題，采用softmax作為似然函數(shù)。全連接層輸出所有單元的激活值，通過softmax進(jìn)行歸一化，映射到(0，1)區(qū)間內(nèi)，即

(7)

式中：Si為第i個類別的概率；z(i)為第i個類別的單元激活值。選擇其中概率值最大的類別作為最終分類結(jié)果輸出，進(jìn)而完成了CNN對消息的特征提取和分類。

2.2.2 基于RNN循環(huán)網(wǎng)絡(luò)單元的突發(fā)事件感知

(1)長短期記憶模型

以CNN方法輸出社交消息主題聚類以后，采用RNN來輸出符合條件的突發(fā)事件信息。

O(t)=f(x(t))×W+O(t-1)×V+b

(8)

式中：O為輸出；x為輸入；W為輸入層訓(xùn)練的權(quán)重；V為輸出層訓(xùn)練的權(quán)重；b為偏置量；f為激活函數(shù)。

常規(guī)RNN在訓(xùn)練中容易出現(xiàn)梯度消失問題[20]，為此本課題采用長短期記憶(Long Short-Term Memory，LSTM)模型[21]和GRU[22]單元來進(jìn)行處理。LSTM模型是一種時間遞歸神經(jīng)網(wǎng)絡(luò)，旨在解決RNN的長期依賴與梯度消失問題。LSTM網(wǎng)絡(luò)的結(jié)構(gòu)與循環(huán)神經(jīng)網(wǎng)絡(luò)保持一致，而重復(fù)模塊會進(jìn)行更多的操作，增強(qiáng)重復(fù)模塊使LSTM網(wǎng)絡(luò)能夠記住長期依賴關(guān)系。LSTM加入了輸入門gin(t)、遺忘門gforget(t)和輸出門gout(t)，其表達(dá)式為

gin(t)=sigmoid[W×x(t)+V×y(t-1)+

U×C(t-1)]

(9)

gforget(t)=sigmoid[W×x(t)+V×y(t-1)+

U×C(t-1)]

(10)

gout(t)=sigmoid[W×x(t)+V×y(t-1)+

U×C(t)]

(11)

C(t)=gforgetC(t-1)+gin?f[W×

x(t)+V×O(t-1)]

(12)

式中：C(·)為記憶單元；?為對應(yīng)元素的乘積。

則LSTM的輸出為

O(t)=gout?f{gforgetC(t-1)+

gin?f[W×x(t)+V×O(t-1)]}

(13)

(2)突發(fā)事件感知流程設(shè)計

突發(fā)事件感知最希望得到事件發(fā)生地的現(xiàn)場用戶發(fā)出的消息，將社交消息中的地理位置信息geo與LDA提取的關(guān)鍵詞進(jìn)行閾值匹配，即可獲得事發(fā)地用戶發(fā)出的源消息。

要感知社交消息中的突發(fā)事件，核心是要獲取created_at、geo、text數(shù)據(jù)，created_at、geo、text共同定義為社交消息時空語義三要素。根據(jù)突發(fā)事件在社交媒體傳播中的地理位置性、時間鏈條性、感知緊迫性、網(wǎng)絡(luò)自適應(yīng)、傳播爆炸性等特點，設(shè)定突發(fā)事件消息在社交網(wǎng)絡(luò)傳播中的轉(zhuǎn)發(fā)次數(shù)為n、傳播時長為T時能夠被感知。

將CNN輸出的聚類消息輸入到RNN中時，首先判定該消息轉(zhuǎn)發(fā)次數(shù)是否超過所設(shè)定的轉(zhuǎn)發(fā)頻次閾值n，如果超過則認(rèn)為該事件即為突發(fā)事件，如果沒超過則輸入RNN中得到輸出結(jié)果y0,y1,y2,…,再根據(jù)式(10)判斷該事件為突發(fā)事件時進(jìn)行主題序列輸出。

(14)

突發(fā)事件感知最希望得到事件發(fā)生地的現(xiàn)場社交媒體發(fā)出的第一手消息。在圖3輸出主題序列后，通過主題中的地理位置詞與該主題社交消息序列的地理位置信息geo，采用k-means算法，再通過設(shè)計距離R找到距離事發(fā)地點R范圍內(nèi)的社交消息群，確定為該突發(fā)事件的源消息群。假設(shè)該源消息群包含text、original_pic、original_voice、original_video等多模態(tài)數(shù)據(jù)，通過事件畫像即可感知突發(fā)事件現(xiàn)場的情境。

突發(fā)事件感知算法設(shè)計如下。

輸入：源消息數(shù)據(jù)矩陣λ；轉(zhuǎn)發(fā)頻次閾值n；輻射半徑R。

輸出：突發(fā)事件原始消息λi1；突發(fā)事件位置信息g*。

開始：初始化源消息矩陣λ；將源消息數(shù)據(jù)矩陣λ按主題reshape為主題矩陣λi。

②判斷該主題事件轉(zhuǎn)發(fā)次數(shù)是否超過閾值，若超過則執(zhí)行⑥，若未超過則執(zhí)行③。

④計算輸出層O=g(VS)，其中S為隱含層，即

S=[f(Wx1+Us0),f(Wx2+Us1),…,

f(Wxk+Usk-1)]

(15)

式中：xk為時間序列k的輸入；sk-1為第k-1個神經(jīng)元輸出的隱含信息；U為隱含層訓(xùn)練的權(quán)重。

⑤根據(jù)輸出層結(jié)果計算softmax函數(shù)值并判斷該事件是否為突發(fā)事件。若該事件為突發(fā)事件則執(zhí)行⑥，否則返回①。

⑥輸出該事件原始消息λi1以及該事件原始消息的位置信息g*。

結(jié)束：以該原始消息的位置信息g*為原點、R為輻射半徑，對短期內(nèi)的消息生成分布圖像并輸出消息列表。

3 實驗

為了驗證本文提出算法的先進(jìn)性與可靠性，采用微博數(shù)據(jù)進(jìn)行測試實驗。

3.1 實驗環(huán)境

采用Intel(R) Core(TM) i5-4210處理器，主頻1.70 GHz，內(nèi)存為8 GB，基于Tensorflow深度學(xué)習(xí)框架。實驗環(huán)境配置見表1。

表1 實驗環(huán)境配置

3.2 實驗數(shù)據(jù)

本文使用的實驗數(shù)據(jù)來源于爬蟲在新浪微博上爬取到的從2020年3月30日到2020年4月9日共計12 939條數(shù)據(jù)，將其中的60%用于訓(xùn)練，40%用于測試。

3.3 實驗過程

(1)數(shù)據(jù)預(yù)處理

由于消息的產(chǎn)生并不是由同一個用戶發(fā)出，故同一主題可能會產(chǎn)生多條消息，特別是對于一些熱門話題，短期內(nèi)將會有許多用戶發(fā)表在社交網(wǎng)絡(luò)上。將消息文本輸入LDA模型進(jìn)行關(guān)鍵詞提取并通過word2vec函數(shù)向量化生成二維矩陣，對爬取到的12 939條消息數(shù)據(jù)進(jìn)行向量化、歸一化處理。

以郴州火車脫軌事件為例，其消息內(nèi)容為：“【湖南郴州火車脫軌事故現(xiàn)場】3月30日，T179次旅客列車行駛至湖南郴州永興縣境內(nèi)時脫軌，車廂發(fā)生側(cè)翻。經(jīng)現(xiàn)場確認(rèn)，事故未造成人員死亡，受傷的鐵路員工和旅客已送醫(yī)救治。@人民日報正在直播，一起關(guān)注救援工作！”

首先利用LDA進(jìn)行關(guān)鍵詞提取，獲取的關(guān)鍵詞為“脫軌、郴州、直播、湖南、關(guān)注、受傷、死亡、旅客、救援、造成”。關(guān)鍵詞向量化時,選取總詞量的10%作為詞袋模型的大小，則以上關(guān)鍵詞向量化結(jié)果為[0003 0002 9899 0523 9745 1234 1234 1124 0854 9857]。再經(jīng)過歸一化后生成二維矩陣，見圖4。

圖4 消息數(shù)據(jù)二維矩陣

(2)CNN模型處理

將向量化的訓(xùn)練集數(shù)據(jù)輸入CNN模型。本實驗采用了4層卷積層和2層最大池化層，最后全連接層數(shù)據(jù)再進(jìn)行softmax得到各個事件的主題聚類，并為每個消息附上主題標(biāo)簽?；贑NN的主題聚類見表2。

表2 基于CNN的主題聚類

(3)LSTM模型結(jié)果

將CNN中輸出同一類的消息輸入LSTM中預(yù)測是否為突發(fā)事件，若為突發(fā)事件則輸出其原始消息相關(guān)信息。輸出結(jié)果見圖5。

圖5 基于LSTM模型的事件預(yù)測

(4)突發(fā)事件臨近消息分布地圖

為了提高數(shù)據(jù)的可視化程度，使用Python的folium第三方庫導(dǎo)入世界地圖來生成突發(fā)事件臨近消息分布地圖。由于微博消息具有離散性，故這里選用散點標(biāo)記的方法生成分布地圖。郴州火車脫軌事件根據(jù)LSTM模型輸出的突發(fā)事件原始消息地理位置g*(這里以25 km為輻射半徑)生成的分布地圖見圖6。

圖6 郴州火車脫軌事件事發(fā)地附近社交網(wǎng)絡(luò)消息分布地圖

通過CNN-RNN融合的方法能夠在短期內(nèi)感知突發(fā)事件并生成分布地圖，再根據(jù)分布地圖可以較為容易地在早期找到突發(fā)事件的發(fā)生地點，同時也篩選出了早期的微博消息，因此具有很強(qiáng)的時效性和真實性，并根據(jù)分布地圖可以在短時間內(nèi)了解到現(xiàn)場的情況從而更早地做出更有針對性的決策。

3.4 實驗評價

基于社交網(wǎng)絡(luò)的突發(fā)事件感知問題屬于多元分類問題，可以采用精確率P、召回率R和F1值來進(jìn)行評估,計算式分別為

(16)

(17)

(18)

式中：P為正確預(yù)測到的正類樣本數(shù)量占所有預(yù)測為正類樣本數(shù)量的比例；R為正確預(yù)測到的正類樣本數(shù)量占實際正類樣本數(shù)的比例；F1值為精確率與召回率的調(diào)和均值，是綜合考慮精確率與召回率的一種評價標(biāo)準(zhǔn)；TP為實際是正類，預(yù)測也為正類的樣本數(shù)量；FP為實際是反類，預(yù)測為正類的樣本數(shù)量；FN為實際是正類，預(yù)測為反類的樣本數(shù)量。

3.5 對比實驗與分析

CNN-RNN(LSTM)模型中將防止過擬合泛化函數(shù)Dropconnect的取值從0.1到0.9進(jìn)行實驗，其實驗結(jié)果見圖7。

圖7 Dropconnect取值對精確率的影響

從圖7中可以看出，Dropconnect在CNN-RNN(LSTM)模型中對準(zhǔn)確率有一定的影響，其取值在0.5～0.7之間時效果最佳，故本文選取Dropconnect為0.6。

分別用LDA-CNN、RNN(LSTM)、CNN-RNN(LSTM)模型對微博數(shù)據(jù)進(jìn)行突發(fā)事件感知實驗，以驗證本文提出算法的有效性。實驗結(jié)果對比見圖8，F(xiàn)1值對比見表3。

圖8 Dropconnect對精確率的影響

表3 突發(fā)事件感知實驗F1值比較

由圖8和表3可以看出：

采用文獻(xiàn)[17]的LDA-CNN模型進(jìn)行實驗時，通過LDA主題抽取后將其向量化并輸入CNN網(wǎng)絡(luò)，在全連接層后直接利用softmax進(jìn)行突發(fā)事件感知，其精確率為89.2%，F(xiàn)1值為90.1%。主要是由于突發(fā)事件在社交媒體傳播中的時間鏈條性在LDA-CNN模型中并不能很好地得到體現(xiàn)。

采用文獻(xiàn)[23]的RNN(LSTM)模型進(jìn)行實驗時，由于RNN具有事件序列性，能夠直接學(xué)習(xí)從消息傳播事件序列到獲取的映射函數(shù)，故能夠?qū)崿F(xiàn)及時、準(zhǔn)確地感知發(fā)生的突發(fā)事件。但由于消息轉(zhuǎn)發(fā)序列通常都較長，故RNN(LSTM)收斂速度較慢，對突發(fā)事件的感知能力較弱。RNN(LSTM)模型精確率高于LDA-CNN模型，達(dá)到了89.6%，F(xiàn)1值達(dá)到91.3%。

本文提出的CNN-RNN(LSTM)模型，利用了CNN的圖像處理能力構(gòu)建消息傳遞網(wǎng)絡(luò)，獲得主題分類，為每個消息附上標(biāo)簽，再將同類消息輸入RNN模型中，用RNN的時序處理能力構(gòu)建突發(fā)事件特征傳播的時間序列，對敏感信息自動獲取，既保證了消息的鏈條特性，又使得收斂速度更快，精確率達(dá)到了95.0%，F(xiàn)1值達(dá)到93.4%。

4 結(jié)論

本文提出了一種用于社交媒體中突發(fā)事件感知的方法。該方法能夠克服傳統(tǒng)方法對語義信息的過度依賴，通過CNN構(gòu)建自適應(yīng)網(wǎng)絡(luò)，從傳播中提取抽象特征，并結(jié)合RNN保持傳播過程中的序列性，從而更快地收斂并有著較好的識別精度，可以在較短的時間內(nèi)檢測出可能的突發(fā)事件，追根溯源，并根據(jù)源頭地理位置對消息進(jìn)行聚類，最后通過事件鏈的語義信息、圖像、語音、視頻等進(jìn)行事件畫像，實現(xiàn)對突發(fā)事件的快速感知。

由于篇幅所限，本文對基于語義、圖像、語音、視頻、地理位置信息的事件畫像問題沒有進(jìn)行詳細(xì)描述，后續(xù)將針對這一問題開展研究。