亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于CNN-RNN的社交媒體中突發(fā)事件感知方法

        2021-09-09 05:35:54李小平
        鐵道學(xué)報 2021年8期
        關(guān)鍵詞:信息模型

        李小平,白 超

        (蘭州交通大學(xué) 機(jī)電工程學(xué)院,甘肅 蘭州 730070)

        據(jù)中國互聯(lián)網(wǎng)信息中心(CNNIC)數(shù)據(jù)顯示,我國手機(jī)上網(wǎng)人數(shù)為8億左右。每一個手機(jī)用戶就是一個獨立的社會傳感器,可以隨時通過微博、微信等移動社交方式發(fā)送所見所聞,成為社會輿論熱點、突發(fā)危機(jī)事件傳播的第一觸角。近年來,社交媒體大數(shù)據(jù)已經(jīng)在突發(fā)事件情境感知、監(jiān)管決策和應(yīng)急處理等方面提供了有價值的信息[1-3],對有效幫助應(yīng)急救援決策部門及時、果斷地做出正確決策提供了新的思路和手段,也引起了新聞傳播、計算機(jī)科學(xué)、公共管理等諸多領(lǐng)域?qū)W者的關(guān)注和研究[4]。

        社交媒體中突發(fā)事件的感知屬于“熱點輿論”傳播的范疇,一般采用復(fù)雜網(wǎng)絡(luò)的方法進(jìn)行研究。Jermaine等[5]利用多層神經(jīng)網(wǎng)絡(luò)從社交網(wǎng)絡(luò)數(shù)據(jù)中感知事件真相;陳震等[6]基于貝葉斯網(wǎng)絡(luò)進(jìn)行輿情事件趨勢分析;楊峰等[7]將情報資源分析之上的情景要素與當(dāng)前突發(fā)事件呈現(xiàn)的特征屬性進(jìn)行相似度檢驗,然后通過扎根理論、文本分詞、特征詞提取以及相似度計算等方法實現(xiàn)情報感知;王艷東等[8]基于社交媒體數(shù)據(jù)建立應(yīng)急主題分類模型,并對突發(fā)事件的空間分布規(guī)律和異常區(qū)域進(jìn)行了挖掘分析;趙又霖等[9]針對社會感知數(shù)據(jù)進(jìn)行了多源異構(gòu)融合及語義層面的知識組織,構(gòu)建了社會感知數(shù)據(jù)驅(qū)動下的時空語義模型。

        隨著大數(shù)據(jù)技術(shù)的應(yīng)用及計算機(jī)處理能力的提升,深度學(xué)習(xí)技術(shù)也逐漸應(yīng)用于社交媒體分析,并顯示出強(qiáng)大的解決能力。文獻(xiàn)[10]針對社交媒體感知中的大量異構(gòu)、噪聲、虛假以及缺乏空間參考信息的數(shù)據(jù)問題,采用高性能計算、深度學(xué)習(xí)以及多源數(shù)據(jù)融合技術(shù)實現(xiàn)災(zāi)難事件的及時感知與應(yīng)對;文獻(xiàn)[11]使用卷積神經(jīng)網(wǎng)絡(luò)以及支持向量機(jī)識別Facebook中的緊急事件,對應(yīng)急準(zhǔn)備、響應(yīng)、恢復(fù)信息進(jìn)行了分類研究;文獻(xiàn)[12]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的突發(fā)公共事件謠言轉(zhuǎn)發(fā)行為預(yù)測模型;文獻(xiàn)[13]研究了自然災(zāi)害期間社交媒體中的信息融合問題;文獻(xiàn)[14]提出了一種基于改進(jìn)RNN-LSTM的專業(yè)領(lǐng)域公共事件數(shù)據(jù)預(yù)測模型。

        綜上所述,傳統(tǒng)的社交媒體事件感知方法主要依賴于語義信息和復(fù)雜社會網(wǎng)絡(luò)信息[5-9];而深度學(xué)習(xí)方法能夠有效避免對于語義信息和社會網(wǎng)絡(luò)信息的過度依賴,快速從海量社交信息中篩選出關(guān)鍵敏感信息,成為社交媒體信息處理的新方向[10-14]。突發(fā)事件在社交媒體中的傳播可以看作是一個自發(fā)的自適應(yīng)社交網(wǎng)絡(luò),具有較強(qiáng)的時空相關(guān)性[15],決策者希望在事件發(fā)生的第一時間就能及時感知,以便快速采取應(yīng)對措施,因此,突發(fā)事件的社交媒體信息感知存在地理位置性、時間鏈條性、緊迫性、自適應(yīng)網(wǎng)絡(luò)、爆炸性傳播等特點。CNN(卷積神經(jīng)網(wǎng)絡(luò))方法具有較強(qiáng)的高維數(shù)據(jù)(如時空語義數(shù)據(jù))處理能力,又可避免對圖像的復(fù)雜前期預(yù)處理;RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))方法具有事件序列性的特點,能夠直接學(xué)習(xí)從消息傳播時間序列獲取的映射函數(shù),具有及時、準(zhǔn)確感知突發(fā)事件的能力。因此,本文在前述研究的基礎(chǔ)上,提出一種基于CNN與RNN融合的社交媒體中突發(fā)事件感知方法,避免了自適應(yīng)復(fù)雜社會網(wǎng)絡(luò)的構(gòu)建及低效的事件特征提取,利用CNN的高維數(shù)據(jù)處理能力構(gòu)建事件消息多元傳遞網(wǎng)絡(luò),利用RNN的時序處理能力構(gòu)建突發(fā)事件傳播的時間序列,融合實現(xiàn)對于一定傳播范圍(轉(zhuǎn)發(fā)次數(shù))、傳播時長敏感信息的自動獲取,然后通過事件鏈的語義信息、圖像、語音、視頻、地理位置等進(jìn)行事件畫像,實現(xiàn)對突發(fā)事件現(xiàn)場情境的快速感知。

        1 社交媒體中的時空語義問題描述

        一則社交網(wǎng)絡(luò)消息S可定義為一個七元組函數(shù),即

        S=f(created_at,id,mid,mutil_data,source,geo,uid)

        (1)

        式中:created_at為社交消息創(chuàng)建時間;id為社交消息ID號;mid為社交消息MID號;mutil_data為社交消息內(nèi)容;source為消息來源(源發(fā)、轉(zhuǎn)發(fā));geo為消息發(fā)送地址(經(jīng)緯度);uid為用戶ID。時間數(shù)據(jù)created_at和空間數(shù)據(jù)geo共同定義了社交消息的時空屬性。社交消息內(nèi)容mutil_data包含多個數(shù)據(jù),其定義為

        mutil_data=(text,original_pic,original_voice,

        original_video)

        (2)

        式中:text為語義信息;original_pic為原始圖片數(shù)據(jù);original_voice為語音數(shù)據(jù);original_video為視頻數(shù)據(jù)。text、original_pic、original_voice、original_video共同構(gòu)成多模態(tài)社交網(wǎng)絡(luò)數(shù)據(jù)。采用網(wǎng)絡(luò)爬取工具(如Python等)可以從微博、微信、抖音、Facebook等社交媒體中獲取上述信息,并創(chuàng)建社交網(wǎng)絡(luò)消息源數(shù)據(jù)庫。

        2 融合CNN-RNN的突發(fā)事件感知模型

        2.1 網(wǎng)絡(luò)輸入

        (1)時間created_at序列特征的向量表示

        社交消息創(chuàng)建時間created_at(年、月、日、時、分、秒)的向量表示參考文獻(xiàn)[16],采用正交互補(bǔ)的方法將時間變量映射成時間的向量表示。

        (3)

        式中:t2v(τ)[i]為t2v(τ)的第i個元素;F為周期激活函數(shù);ωi和φi為可學(xué)習(xí)參數(shù);τ為時間標(biāo)量。選擇F為正弦函數(shù),對于1≤i≤k,ωi和φi為正弦函數(shù)的頻率和移相。

        時間信息中,年月日是非周期量,時分秒是周期量,則每條消息發(fā)布的時間可以表示為

        created_at={T0,T1,T2,T3}

        (4)

        式中:T0為年月日向量;T1為時向量;T2為分向量;T3為秒向量。降維處理后得到二維社會傳感網(wǎng)絡(luò)時間向量created_at-2為

        (5)

        式中:tntn為第n條消息發(fā)布的時間。

        (2)社交消息mid及主題id的向量表示

        社交消息mid和主題id是社交消息的標(biāo)識數(shù)據(jù)。假如某條社交消息的鏈接為http:∥weibo.com/2803301701/CeaOU15IT,則CeaOU15IT即為該消息的mid。mid經(jīng)過62進(jìn)制轉(zhuǎn)換即為主題id。CeaOU15IT對應(yīng)的id為3833781880260331。id和mid可以用一維向量表示。

        (3)mutil_data文本數(shù)據(jù)的向量化

        mutil_data為社交消息內(nèi)容,在事件感知時重點考慮text語義數(shù)據(jù),original_pic、original_voice、original_video等其他數(shù)據(jù)在情景畫像時再進(jìn)行數(shù)據(jù)融合。mutil_data中文本數(shù)據(jù)的向量化采用隱含迪利克雷分布(Latent Dirichlet Allocation,LDA)方法[17],處理過程見圖1。

        圖1mutil_data文本數(shù)據(jù)向量化

        首先將消息內(nèi)容采用TF-IDF方法進(jìn)行特征詞抽取,然后采用LDA進(jìn)行關(guān)鍵詞主題映射,最后通過word2vec函數(shù)將其主題向量化?;贕ibbs采樣的并行化計算特性,本文采用Gibbs來訓(xùn)練分布式的海量社交媒體文檔的LDA模型。

        (4)geo數(shù)據(jù)的向量表示

        geo為地理信息,以路網(wǎng)無向圖的方式對其進(jìn)行向量化,以帶屬性的線段集合方式儲存。每個線段由有序的經(jīng)緯度坐標(biāo)組成,再用一個二維數(shù)組存放頂點關(guān)系的數(shù)據(jù)。在無向圖中,任一坐標(biāo)頂點i的度數(shù)為第i列所有元素的和。

        (5)用戶特征向量source及uid的向量表示

        社交網(wǎng)絡(luò)中的用戶是消息的傳播者,初始發(fā)布者很有可能是事件的親歷者或者旁觀者,對于突發(fā)事件的感知,需要在盡可能短的時間內(nèi)從社交網(wǎng)絡(luò)數(shù)據(jù)中挖掘出敏感信息。RNN能夠很好地關(guān)聯(lián)轉(zhuǎn)發(fā)消息的時間序列,因此,基于用戶特征向量source及uid的社交消息轉(zhuǎn)發(fā)可以用一個時間序列向量表示,見圖2。

        圖2 消息轉(zhuǎn)發(fā)的時間序列

        圖2中,對于一條社交網(wǎng)絡(luò)消息,t0時刻的用戶x0為消息源,ti時刻發(fā)布的消息轉(zhuǎn)發(fā)自ti-1時刻的xi-1,因此,基于用戶特征(uid)可以構(gòu)建RNN神經(jīng)網(wǎng)絡(luò)。每個uid的字段長度是不同的,為了使進(jìn)入網(wǎng)絡(luò)的特征具有相同的長度,對輸入序列做如下處理:設(shè)置輸入序列X的最大長度為L;對于長度大于L的序列,從序列尾部做截斷處理;對于長度小于L的序列,在序列頭部添加0補(bǔ)足。轉(zhuǎn)發(fā)用戶uid帶有轉(zhuǎn)發(fā)信息的所有信息,屬于典型的RNN時間序列傳遞。

        2.2 網(wǎng)絡(luò)結(jié)構(gòu)

        在CNN環(huán)節(jié),首先將轉(zhuǎn)發(fā)消息的信息進(jìn)行圖像化,然后將圖像化處理后的created_at、id、mid、uid、geo、text輸入CNN,經(jīng)過卷積操作提取不同抽象層次的高維度局部特征,再經(jīng)過池化技術(shù)有效控制學(xué)習(xí)規(guī)模,提高泛化能力,最后通過softmax進(jìn)行主題分類。為了防止過度擬合,降低神經(jīng)元之間連接的復(fù)雜性,在本模型中加入了Dropconnect函數(shù)[18]。不同激活函數(shù)對識別性能有顯著影響,激活函數(shù)RReLU的識別性能好于sigmoid函數(shù)和tanh函數(shù)[19],所以本文選取RReLU激活函數(shù)。

        在RNN環(huán)節(jié),將CNN softmax的主題及消息分類輸出作為RNN神經(jīng)網(wǎng)絡(luò)的輸入,根據(jù)用戶特征向量source的時間序列保留轉(zhuǎn)發(fā)消息的時序性。在某一個時序xi,滿足一定轉(zhuǎn)發(fā)次數(shù)或傳播時長后作為突發(fā)事件進(jìn)行主題輸出,然后在該主題序列中追溯到原始消息x0及原始消息x0的地理位置geo0。以geo0為圓心,在半徑R的范圍內(nèi)該主題的消息即為突發(fā)事件發(fā)生地的社交媒體發(fā)出的消息,也是最接近真實的突發(fā)事件信息。采集這些信息(包括text、original_pic、original_voice、original_video),并進(jìn)行事件畫像,即可感知到突發(fā)事件的現(xiàn)場情境。融合CNN-RNN的網(wǎng)絡(luò)模型結(jié)構(gòu)見圖3。

        圖3 融合CNN-RNN的突發(fā)事件感知模型

        2.2.1 基于多層CNN的社交消息主題聚類

        海量社交消息的CNN聚類,卷積的層數(shù)越多則非線性擬合能力越強(qiáng),提取的消息特征也越多,但過多的卷積層會延長運(yùn)算時間,造成過擬合現(xiàn)象,因此本模型采用了4層卷積層和2層最大池化層。具體處理過程如下。

        (1)歸一化:由于模型涉及6層信息的疊加,因此在信息輸入網(wǎng)絡(luò)之前進(jìn)行歸一化操作。

        (6)

        (2)卷積層1:卷積層1選用3×3的卷積核進(jìn)行圖像局部特征提取,假設(shè)輸入層圖像為n×n,則卷積層1處理后得到(n-2)×(n-2)的特征圖。

        (8)全連接層:全連接層將學(xué)到的“分布式特征表示”映射到樣本標(biāo)記空間中。由于全連接層的輸入是最大池化層2的輸出,是二維的特征圖,因此需要對二維特征圖進(jìn)行降維處理成一維向量。

        (9)softmax:對于社交消息的分類輸出問題,采用softmax作為似然函數(shù)。全連接層輸出所有單元的激活值,通過softmax進(jìn)行歸一化,映射到(0,1)區(qū)間內(nèi),即

        (7)

        式中:Si為第i個類別的概率;z(i)為第i個類別的單元激活值。選擇其中概率值最大的類別作為最終分類結(jié)果輸出,進(jìn)而完成了CNN對消息的特征提取和分類。

        2.2.2 基于RNN循環(huán)網(wǎng)絡(luò)單元的突發(fā)事件感知

        (1)長短期記憶模型

        以CNN方法輸出社交消息主題聚類以后,采用RNN來輸出符合條件的突發(fā)事件信息。

        O(t)=f(x(t))×W+O(t-1)×V+b

        (8)

        式中:O為輸出;x為輸入;W為輸入層訓(xùn)練的權(quán)重;V為輸出層訓(xùn)練的權(quán)重;b為偏置量;f為激活函數(shù)。

        常規(guī)RNN在訓(xùn)練中容易出現(xiàn)梯度消失問題[20],為此本課題采用長短期記憶(Long Short-Term Memory,LSTM)模型[21]和GRU[22]單元來進(jìn)行處理。LSTM模型是一種時間遞歸神經(jīng)網(wǎng)絡(luò),旨在解決RNN的長期依賴與梯度消失問題。LSTM網(wǎng)絡(luò)的結(jié)構(gòu)與循環(huán)神經(jīng)網(wǎng)絡(luò)保持一致,而重復(fù)模塊會進(jìn)行更多的操作,增強(qiáng)重復(fù)模塊使LSTM網(wǎng)絡(luò)能夠記住長期依賴關(guān)系。LSTM加入了輸入門gin(t)、遺忘門gforget(t)和輸出門gout(t),其表達(dá)式為

        gin(t)=sigmoid[W×x(t)+V×y(t-1)+

        U×C(t-1)]

        (9)

        gforget(t)=sigmoid[W×x(t)+V×y(t-1)+

        U×C(t-1)]

        (10)

        gout(t)=sigmoid[W×x(t)+V×y(t-1)+

        U×C(t)]

        (11)

        C(t)=gforgetC(t-1)+gin?f[W×

        x(t)+V×O(t-1)]

        (12)

        式中:C(·)為記憶單元;?為對應(yīng)元素的乘積。

        則LSTM的輸出為

        O(t)=gout?f{gforgetC(t-1)+

        gin?f[W×x(t)+V×O(t-1)]}

        (13)

        (2)突發(fā)事件感知流程設(shè)計

        突發(fā)事件感知最希望得到事件發(fā)生地的現(xiàn)場用戶發(fā)出的消息,將社交消息中的地理位置信息geo與LDA提取的關(guān)鍵詞進(jìn)行閾值匹配,即可獲得事發(fā)地用戶發(fā)出的源消息。

        要感知社交消息中的突發(fā)事件,核心是要獲取created_at、geo、text數(shù)據(jù),created_at、geo、text共同定義為社交消息時空語義三要素。根據(jù)突發(fā)事件在社交媒體傳播中的地理位置性、時間鏈條性、感知緊迫性、網(wǎng)絡(luò)自適應(yīng)、傳播爆炸性等特點,設(shè)定突發(fā)事件消息在社交網(wǎng)絡(luò)傳播中的轉(zhuǎn)發(fā)次數(shù)為n、傳播時長為T時能夠被感知。

        將CNN輸出的聚類消息輸入到RNN中時,首先判定該消息轉(zhuǎn)發(fā)次數(shù)是否超過所設(shè)定的轉(zhuǎn)發(fā)頻次閾值n,如果超過則認(rèn)為該事件即為突發(fā)事件,如果沒超過則輸入RNN中得到輸出結(jié)果y0,y1,y2,…,再根據(jù)式(10)判斷該事件為突發(fā)事件時進(jìn)行主題序列輸出。

        (14)

        突發(fā)事件感知最希望得到事件發(fā)生地的現(xiàn)場社交媒體發(fā)出的第一手消息。在圖3輸出主題序列后,通過主題中的地理位置詞與該主題社交消息序列的地理位置信息geo,采用k-means算法,再通過設(shè)計距離R找到距離事發(fā)地點R范圍內(nèi)的社交消息群,確定為該突發(fā)事件的源消息群。假設(shè)該源消息群包含text、original_pic、original_voice、original_video等多模態(tài)數(shù)據(jù),通過事件畫像即可感知突發(fā)事件現(xiàn)場的情境。

        突發(fā)事件感知算法設(shè)計如下。

        輸入:源消息數(shù)據(jù)矩陣λ;轉(zhuǎn)發(fā)頻次閾值n;輻射半徑R。

        輸出:突發(fā)事件原始消息λi1;突發(fā)事件位置信息g*。

        開始:初始化源消息矩陣λ;將源消息數(shù)據(jù)矩陣λ按主題reshape為主題矩陣λi。

        ②判斷該主題事件轉(zhuǎn)發(fā)次數(shù)是否超過閾值,若超過則執(zhí)行⑥,若未超過則執(zhí)行③。

        ④計算輸出層O=g(VS),其中S為隱含層,即

        S=[f(Wx1+Us0),f(Wx2+Us1),…,

        f(Wxk+Usk-1)]

        (15)

        式中:xk為時間序列k的輸入;sk-1為第k-1個神經(jīng)元輸出的隱含信息;U為隱含層訓(xùn)練的權(quán)重。

        ⑤根據(jù)輸出層結(jié)果計算softmax函數(shù)值并判斷該事件是否為突發(fā)事件。若該事件為突發(fā)事件則執(zhí)行⑥,否則返回①。

        ⑥輸出該事件原始消息λi1以及該事件原始消息的位置信息g*。

        結(jié)束:以該原始消息的位置信息g*為原點、R為輻射半徑,對短期內(nèi)的消息生成分布圖像并輸出消息列表。

        3 實驗

        為了驗證本文提出算法的先進(jìn)性與可靠性,采用微博數(shù)據(jù)進(jìn)行測試實驗。

        3.1 實驗環(huán)境

        采用Intel(R) Core(TM) i5-4210處理器,主頻1.70 GHz,內(nèi)存為8 GB,基于Tensorflow深度學(xué)習(xí)框架。實驗環(huán)境配置見表1。

        表1 實驗環(huán)境配置

        3.2 實驗數(shù)據(jù)

        本文使用的實驗數(shù)據(jù)來源于爬蟲在新浪微博上爬取到的從2020年3月30日到2020年4月9日共計12 939條數(shù)據(jù),將其中的60%用于訓(xùn)練,40%用于測試。

        3.3 實驗過程

        (1)數(shù)據(jù)預(yù)處理

        由于消息的產(chǎn)生并不是由同一個用戶發(fā)出,故同一主題可能會產(chǎn)生多條消息,特別是對于一些熱門話題,短期內(nèi)將會有許多用戶發(fā)表在社交網(wǎng)絡(luò)上。將消息文本輸入LDA模型進(jìn)行關(guān)鍵詞提取并通過word2vec函數(shù)向量化生成二維矩陣,對爬取到的12 939條消息數(shù)據(jù)進(jìn)行向量化、歸一化處理。

        以郴州火車脫軌事件為例,其消息內(nèi)容為:“【湖南郴州火車脫軌事故現(xiàn)場】3月30日,T179次旅客列車行駛至湖南郴州永興縣境內(nèi)時脫軌,車廂發(fā)生側(cè)翻。經(jīng)現(xiàn)場確認(rèn),事故未造成人員死亡,受傷的鐵路員工和旅客已送醫(yī)救治。@人民日報正在直播,一起關(guān)注救援工作!”

        首先利用LDA進(jìn)行關(guān)鍵詞提取,獲取的關(guān)鍵詞為“脫軌、郴州、直播、湖南、關(guān)注、受傷、死亡、旅客、救援、造成”。關(guān)鍵詞向量化時,選取總詞量的10%作為詞袋模型的大小,則以上關(guān)鍵詞向量化結(jié)果為[0003 0002 9899 0523 9745 1234 1234 1124 0854 9857]。再經(jīng)過歸一化后生成二維矩陣,見圖4。

        圖4 消息數(shù)據(jù)二維矩陣

        (2)CNN模型處理

        將向量化的訓(xùn)練集數(shù)據(jù)輸入CNN模型。本實驗采用了4層卷積層和2層最大池化層,最后全連接層數(shù)據(jù)再進(jìn)行softmax得到各個事件的主題聚類,并為每個消息附上主題標(biāo)簽?;贑NN的主題聚類見表2。

        表2 基于CNN的主題聚類

        (3)LSTM模型結(jié)果

        將CNN中輸出同一類的消息輸入LSTM中預(yù)測是否為突發(fā)事件,若為突發(fā)事件則輸出其原始消息相關(guān)信息。輸出結(jié)果見圖5。

        圖5 基于LSTM模型的事件預(yù)測

        (4)突發(fā)事件臨近消息分布地圖

        為了提高數(shù)據(jù)的可視化程度,使用Python的folium第三方庫導(dǎo)入世界地圖來生成突發(fā)事件臨近消息分布地圖。由于微博消息具有離散性,故這里選用散點標(biāo)記的方法生成分布地圖。郴州火車脫軌事件根據(jù)LSTM模型輸出的突發(fā)事件原始消息地理位置g*(這里以25 km為輻射半徑)生成的分布地圖見圖6。

        圖6 郴州火車脫軌事件事發(fā)地附近社交網(wǎng)絡(luò)消息分布地圖

        通過CNN-RNN融合的方法能夠在短期內(nèi)感知突發(fā)事件并生成分布地圖,再根據(jù)分布地圖可以較為容易地在早期找到突發(fā)事件的發(fā)生地點,同時也篩選出了早期的微博消息,因此具有很強(qiáng)的時效性和真實性,并根據(jù)分布地圖可以在短時間內(nèi)了解到現(xiàn)場的情況從而更早地做出更有針對性的決策。

        3.4 實驗評價

        基于社交網(wǎng)絡(luò)的突發(fā)事件感知問題屬于多元分類問題,可以采用精確率P、召回率R和F1值來進(jìn)行評估,計算式分別為

        (16)

        (17)

        (18)

        式中:P為正確預(yù)測到的正類樣本數(shù)量占所有預(yù)測為正類樣本數(shù)量的比例;R為正確預(yù)測到的正類樣本數(shù)量占實際正類樣本數(shù)的比例;F1值為精確率與召回率的調(diào)和均值,是綜合考慮精確率與召回率的一種評價標(biāo)準(zhǔn);TP為實際是正類,預(yù)測也為正類的樣本數(shù)量;FP為實際是反類,預(yù)測為正類的樣本數(shù)量;FN為實際是正類,預(yù)測為反類的樣本數(shù)量。

        3.5 對比實驗與分析

        CNN-RNN(LSTM)模型中將防止過擬合泛化函數(shù)Dropconnect的取值從0.1到0.9進(jìn)行實驗,其實驗結(jié)果見圖7。

        圖7 Dropconnect取值對精確率的影響

        從圖7中可以看出,Dropconnect在CNN-RNN(LSTM)模型中對準(zhǔn)確率有一定的影響,其取值在0.5~0.7之間時效果最佳,故本文選取Dropconnect為0.6。

        分別用LDA-CNN、RNN(LSTM)、CNN-RNN(LSTM)模型對微博數(shù)據(jù)進(jìn)行突發(fā)事件感知實驗,以驗證本文提出算法的有效性。實驗結(jié)果對比見圖8,F(xiàn)1值對比見表3。

        圖8 Dropconnect對精確率的影響

        表3 突發(fā)事件感知實驗F1值比較

        由圖8和表3可以看出:

        采用文獻(xiàn)[17]的LDA-CNN模型進(jìn)行實驗時,通過LDA主題抽取后將其向量化并輸入CNN網(wǎng)絡(luò),在全連接層后直接利用softmax進(jìn)行突發(fā)事件感知,其精確率為89.2%,F(xiàn)1值為90.1%。主要是由于突發(fā)事件在社交媒體傳播中的時間鏈條性在LDA-CNN模型中并不能很好地得到體現(xiàn)。

        采用文獻(xiàn)[23]的RNN(LSTM)模型進(jìn)行實驗時,由于RNN具有事件序列性,能夠直接學(xué)習(xí)從消息傳播事件序列到獲取的映射函數(shù),故能夠?qū)崿F(xiàn)及時、準(zhǔn)確地感知發(fā)生的突發(fā)事件。但由于消息轉(zhuǎn)發(fā)序列通常都較長,故RNN(LSTM)收斂速度較慢,對突發(fā)事件的感知能力較弱。RNN(LSTM)模型精確率高于LDA-CNN模型,達(dá)到了89.6%,F(xiàn)1值達(dá)到91.3%。

        本文提出的CNN-RNN(LSTM)模型,利用了CNN的圖像處理能力構(gòu)建消息傳遞網(wǎng)絡(luò),獲得主題分類,為每個消息附上標(biāo)簽,再將同類消息輸入RNN模型中,用RNN的時序處理能力構(gòu)建突發(fā)事件特征傳播的時間序列,對敏感信息自動獲取,既保證了消息的鏈條特性,又使得收斂速度更快,精確率達(dá)到了95.0%,F(xiàn)1值達(dá)到93.4%。

        4 結(jié)論

        本文提出了一種用于社交媒體中突發(fā)事件感知的方法。該方法能夠克服傳統(tǒng)方法對語義信息的過度依賴,通過CNN構(gòu)建自適應(yīng)網(wǎng)絡(luò),從傳播中提取抽象特征,并結(jié)合RNN保持傳播過程中的序列性,從而更快地收斂并有著較好的識別精度,可以在較短的時間內(nèi)檢測出可能的突發(fā)事件,追根溯源,并根據(jù)源頭地理位置對消息進(jìn)行聚類,最后通過事件鏈的語義信息、圖像、語音、視頻等進(jìn)行事件畫像,實現(xiàn)對突發(fā)事件的快速感知。

        由于篇幅所限,本文對基于語義、圖像、語音、視頻、地理位置信息的事件畫像問題沒有進(jìn)行詳細(xì)描述,后續(xù)將針對這一問題開展研究。

        猜你喜歡
        信息模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        一個相似模型的應(yīng)用
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        亚洲香蕉视频| 日本污ww视频网站| 国产老熟女网站| 欧美不卡视频一区发布| 免费国产一级片内射老| 人妻乱交手机在线播放| 婷婷色婷婷开心五月四| 中文字幕人妻被公上司喝醉 | 日日噜噜夜夜狠狠久久无码区| 精品18在线观看免费视频| 在线视频免费自拍亚洲| 亚洲av福利院在线观看 | 亚洲欧美国产日韩天堂在线视 | 久久久亚洲欧洲日产国码是AV| 亚洲乱码中文字幕三四区| 国产精品人人做人人爽| 日本一区二区三区精品不卡| 亚洲国产精品一区二区久久恐怖片 | 麻豆精品国产免费av影片| 人妻丝袜中文无码av影音先锋专区| 国产福利酱国产一区二区| 亚洲ⅤA中文字幕无码| 成人自拍三级在线观看| 人妻少妇艳情视频中文字幕| 国产综合精品一区二区三区| 同性男男黄g片免费网站| 国产AV高清精品久久| 日韩有码在线一区二区三区合集| 国产精品精品自在线拍| 中文在线√天堂| 啪啪视频免费看一区二区| 美女用丝袜脚玩我下面| 亚洲欧洲精品无码av| 国产精品大屁股1区二区三区| 亚洲福利网站在线一区不卡| 色综合久久蜜芽国产精品| 夫妇交换刺激做爰视频| 久久久久久人妻一区精品| 久久亚洲中文字幕精品熟| 99亚洲男女激情在线观看| 欧美亚洲国产人妖系列视|