亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于群體行為分析的人群異常聚集預(yù)測方法

2020-03-19 13:10:20黃賀賀曾園園

計(jì)算機(jī)工程 2020年3期

黃賀賀,曾園園,張毅,奈何

(武漢大學(xué) 電子信息學(xué)院,武漢 430072)

0 概述

近年來,隨著社會經(jīng)濟(jì)的發(fā)展,城市的人口密度急速增大,給城市建設(shè)和管理的各個(gè)方面帶來巨大挑戰(zhàn)。在公共安全方面,由于人群異常聚集而導(dǎo)致的各類安全問題時(shí)有發(fā)生,因此對人群異常聚集現(xiàn)象進(jìn)行預(yù)測具有重要的現(xiàn)實(shí)意義。

目前,國內(nèi)外學(xué)者對人群異常聚集的預(yù)測方法進(jìn)行了深入的研究,大多數(shù)基于圖像處理的監(jiān)控系統(tǒng)已投入運(yùn)行并已取得了一定的效果[1-2]。然而,基于圖像處理的方法具有局限性,例如,攝像機(jī)無法捕捉視野外的元素且易被其他障礙遮擋,難以融合來自多個(gè)攝像機(jī)的信息以獲得全局態(tài)勢感知。另外,基于圖像處理的方法需要良好的照明條件,因此,對于發(fā)生在夜間的事件而言,該方法難以發(fā)揮作用。

許多研究者根據(jù)各區(qū)域的人群密度歷史數(shù)據(jù)和用戶的歷史移動軌跡數(shù)據(jù),利用時(shí)間序列分析方法或概率模型預(yù)測未來的人群密度分布。文獻(xiàn)[3]提出一種利用長短時(shí)記憶網(wǎng)絡(luò)預(yù)測行人軌跡,從而估計(jì)各區(qū)域人群密度的方法。文獻(xiàn)[4]根據(jù)用戶的歷史移動軌跡數(shù)據(jù)構(gòu)建基于馬爾科夫模型的路徑預(yù)測系統(tǒng),用于預(yù)測每個(gè)用戶的未來位置和停留時(shí)間。上述方法對于日常的人群密度預(yù)測問題較為有效,然而人群異常聚集事件具有突發(fā)性,此類方法可能無法取得很好的效果。

針對人群異常聚集現(xiàn)象,許多學(xué)者嘗試從分析人群的移動行為模式出發(fā),預(yù)測各區(qū)域的人群密度分布情況,從而提早發(fā)現(xiàn)人群異常聚集現(xiàn)象。文獻(xiàn)[5]指出,一起人群聚集導(dǎo)致的踩踏事件的形成過程可以分為4個(gè)階段,即自由移動-停留-擁堵-踩踏。文獻(xiàn)[6]建立了一個(gè)社會力模型來分析人群移動機(jī)制,綜合考慮了行人意圖、期望速度和個(gè)體之間的相互作用。文獻(xiàn)[7]提出一種密度泛函理論,綜合考慮環(huán)境因素和行人在不同環(huán)境下的移動行為,用以預(yù)測人群密度的分布情況。上述方法均基于人群的移動行為特征進(jìn)行分析,然而對于人群異常聚集事件而言,群體情緒、公共輿論等因素對于群體行為也有重要的影響[8-9]。因此,對于人群異常聚集現(xiàn)象的預(yù)測問題,需要從多個(gè)維度全面具體地分析和描述群體行為,以提高預(yù)測性能。

本文提出一種基于用戶群體行為分析的人群異常聚集預(yù)測方法。通過對比分析異常聚集場景和正常場景下用戶群體的上網(wǎng)行為和空間移動行為,發(fā)現(xiàn)不同場景下用戶行為的差異性。根據(jù)群體上網(wǎng)行為和移動行為對未來時(shí)刻是否會發(fā)生異常聚集事件進(jìn)行預(yù)測,得到最終的預(yù)測結(jié)果。

1 人群異常聚集現(xiàn)象分析

1.1 人群異常聚集閾值計(jì)算模型

隨著智能移動終端的普及和移動互聯(lián)網(wǎng)的發(fā)展,通信基站會記錄大量用戶產(chǎn)生的會話數(shù)據(jù),這些數(shù)據(jù)準(zhǔn)確詳細(xì)地記錄了用戶的移動行為和上網(wǎng)訪問內(nèi)容,為群體行為的分析研究提供了數(shù)據(jù)支撐[10-11]。

大量的研究證明,人類行為在宏觀上服從一定的模式[12-13],各個(gè)基站覆蓋范圍內(nèi)的人群密度分布具有一定的穩(wěn)定性[14-15],因此,可以通過設(shè)定閾值的方式來判定當(dāng)前區(qū)域是否發(fā)生了人群異常聚集事件。

由于特定區(qū)域上的人群密度分布在一天內(nèi)會隨著時(shí)間變化,且同一區(qū)域上的人群密度在工作日和節(jié)假日時(shí)也會有所不同,因此對于某特定基站所在的區(qū)域,定義其人群密度期望值如下:

(1)

在此基礎(chǔ)上,定義人群聚集的異常判定閾值如下:

(2)

1.2 聚集群體行為分析

將用戶群體訪問過的內(nèi)容按照業(yè)務(wù)類型分為19類,如表1所示。

表1 用戶訪問內(nèi)容分類Table 1 Classification of content accessed by users

對正常場景和異常聚集場景下的用戶群體訪問內(nèi)容分布進(jìn)行統(tǒng)計(jì),結(jié)果如圖1所示?？梢钥闯?兩類場景下的用戶上網(wǎng)流量分布具有一定的相似性,都主要集中在社交、購物、音樂、視頻、新聞等類型上,說明用戶群體的內(nèi)容偏好在不同場景下具有一定的穩(wěn)定性。

圖1 不同場景下的用戶訪問流量分布

需要注意的是,在異常場景下,社交類應(yīng)用的流量占比有明顯提升,說明異常聚集場景下的用戶群體更多地訪問社交網(wǎng)站,更頻繁地在社交網(wǎng)絡(luò)上分享內(nèi)容或獲取內(nèi)容。此外,正常場景下的出行類內(nèi)容(主要包括打車出行類和地圖類內(nèi)容)的占比明顯高于異常場景下,說明在異常場景下的人群移動行為具有明確的目的地,并且移動范圍較為有限。

通過以上對比分析,可以將一起人群異常聚集事件的發(fā)生過程分為3個(gè)階段。首先,在某區(qū)域上發(fā)生一起突發(fā)性事件,然后,此事件引起區(qū)域附近人群的關(guān)注并移動至該區(qū)域,最后,該區(qū)域的聚集人數(shù)遠(yuǎn)超正常值,如圖2所示。其中,在第2個(gè)階段,當(dāng)前區(qū)域內(nèi)群體對于突發(fā)事件的反應(yīng)是在社交網(wǎng)絡(luò)上分享信息,即訪問的內(nèi)容集中在少數(shù)熱點(diǎn)內(nèi)容上,從而可以推斷異常聚集用戶群體的訪問內(nèi)容分布會表現(xiàn)出較高的相似性。

圖2 異常聚集事件發(fā)生過程

對于異常聚集事件的預(yù)測問題,除了傳統(tǒng)方法使用到的人群密度的時(shí)間序列信息之外,群體的上網(wǎng)行為信息以及相鄰區(qū)域上的群體行為信息均可提高預(yù)測的準(zhǔn)確性。

根據(jù)以上分析,異常聚集的用戶在上網(wǎng)內(nèi)容上可能會表現(xiàn)出較高的相似性,使用Jaccrd相似系數(shù)衡量用戶間的相似度,定義如下:

(3)

其中,N(u)表示用戶u的訪問內(nèi)容集合。然而在實(shí)際場景中,網(wǎng)絡(luò)中會存在一些流行內(nèi)容被大部分用戶都訪問過,顯然這類內(nèi)容用于衡量相似度會導(dǎo)致偏差,因此需要降低這些流行內(nèi)容的權(quán)重,將式(3)的分子修改為如下形式:

(4)

其中,i為被用戶u和用戶v共同訪問的內(nèi)容,C(i)為內(nèi)容i在同時(shí)段被所有用戶訪問的次數(shù)。

在得到用戶之間的訪問內(nèi)容相似度后,對觀測區(qū)域在指定時(shí)段內(nèi)的用戶群體構(gòu)建有權(quán)相似網(wǎng)絡(luò)G=。其中,U為用戶集合,每個(gè)用戶對應(yīng)相似網(wǎng)絡(luò)中的一個(gè)節(jié)點(diǎn),E為連邊集合,每條邊的權(quán)重為對應(yīng)的一對用戶之間的Jaccrd相似系數(shù)。在此基礎(chǔ)上,定義群體行為平均相似度為相似網(wǎng)絡(luò)中所有連邊的平均權(quán)重,具體如下:

(5)

其中,∑E表示所有連邊權(quán)重的加和,nnum(E)表示網(wǎng)絡(luò)中連邊的條數(shù)。

對2種場景(正?，F(xiàn)象和異常聚集現(xiàn)象)下的用戶群體行為進(jìn)行比較分析。統(tǒng)計(jì)2種場景下的用戶間的Jaccrd相似系數(shù),大致分布如圖3所示?？梢钥闯?人群異常聚集場景下的用戶相似度大多在0.7以上,顯著高于正常場景下的0.3,即異常聚集場景下的大部分用戶上網(wǎng)行為的相似度較高,說明用戶群體的異常聚集現(xiàn)象是由現(xiàn)實(shí)中的特定事件引起的,用戶對此類事件的反應(yīng)為社交網(wǎng)絡(luò)中的使用流量增加,用戶間的上網(wǎng)訪問內(nèi)容分布非常相似。

圖3 不同場景下的用戶行為相似度分布

Fig.3Distribution of user behavior similarity indifferent scenarios

下面驗(yàn)證用戶群體行為特征信息對于人群異常聚集現(xiàn)象的預(yù)測是否有用。由于人群異常聚集現(xiàn)象的直接特征為人群密度,因此需要計(jì)算所有基站上的人群密度分布的香農(nóng)熵和已知群體行為特征信息條件下的條件熵。香農(nóng)熵和條件熵的定義分別如式(6)和式(7)所示:

(6)

(7)

分別對正常和異常聚集場景下的人群密度的香農(nóng)熵和條件熵進(jìn)行統(tǒng)計(jì)計(jì)算,繪制累積分布函數(shù)圖(Cumulative Distribution Function,CDF),如圖4所示。可以看出,在兩種場景下,人群密度分布的條件熵均低于香農(nóng)熵,說明群體行為平均相似度信息能夠有效降低人數(shù)的不確定性。

圖4 不同場景下人群密度分布的香農(nóng)熵和條件熵

Fig.4 Shannon entropy and conditional entropy of crowd density distribution in different scenarios

值得注意的是,異常場景下人群密度分布的條件熵顯著低于香農(nóng)熵,即群體行為特征消除人群密度分布的不確定性的作用更為明顯,因此,群體行為相似度是預(yù)測異常聚集的一個(gè)有效特征。

1.3 空間網(wǎng)絡(luò)分析

在圖2中,引起用戶關(guān)注到聚集大量用戶的過程中,由于人的移動行為具有時(shí)空連續(xù)性,即區(qū)域最終聚集的人群是從相鄰區(qū)域移動而來的,因此一起異常聚集事件的影響范圍不局限于該特定區(qū)域,其相鄰區(qū)域也會受到一定的影響,需要考慮相鄰區(qū)域上的群體行為特征對于人群異常聚集現(xiàn)象是否會產(chǎn)生影響。

基站的空間網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)(如圖5所示)可以根據(jù)基站的經(jīng)緯度信息,選取距離最近的幾個(gè)基站作為該基站的鄰接基站。然而在實(shí)際場景中,由于建筑布局、道路設(shè)施等因素的影響,空間上直接相鄰的基站之間可能無法進(jìn)行用戶交互,因此根據(jù)用戶的移動軌跡,采用兩基站間的交互用戶數(shù)量作為連接權(quán)重,取權(quán)重排名前6的基站作為該基站的相鄰基站。

圖5 基站空間拓?fù)浣Y(jié)構(gòu)

莫蘭指數(shù)是一種用于衡量空間特征相關(guān)性的指標(biāo),被廣泛應(yīng)用于各領(lǐng)域的空間結(jié)構(gòu)問題分析中[16-17]。本文采用局部莫蘭指數(shù)量化分析當(dāng)前區(qū)域的聚集屬性,定義如下:

(8)

其中,n為空間網(wǎng)絡(luò)中的節(jié)點(diǎn)數(shù)量,本文中特指基站數(shù)量,x為待觀測的指標(biāo),本文中特指群體行為平均相似度,ωij為節(jié)點(diǎn)連邊權(quán)重,本文中特指兩個(gè)基站間的用戶交互數(shù)量。

對于人群異常聚集場景,局部莫蘭指數(shù)為正值表示當(dāng)前區(qū)域與相鄰區(qū)域具有相近的特征表現(xiàn),說明當(dāng)前區(qū)域具有聚集的潛在可能,為負(fù)值則說明當(dāng)前區(qū)域暫無聚集的可能。

計(jì)算數(shù)據(jù)集中發(fā)生異常聚集現(xiàn)象的基站人數(shù)分布的信息熵,以及已知局部莫蘭指數(shù)信息后人數(shù)分布的條件熵,繪制累積分布函數(shù)圖,如圖6所示?？梢钥闯?局部莫蘭指數(shù)能夠降低人數(shù)分布的不確定性,即空間網(wǎng)絡(luò)中的信息有助于提高基站人數(shù)分布的可預(yù)測性。

圖6 局部莫蘭指數(shù)條件熵的累積分布函數(shù)

Fig.6 Cumulative distribution function of conditional entropy of local Moran’s I

2 人群異常聚集現(xiàn)象預(yù)測模型

異常聚集場景具有以下典型特征:

1)突發(fā)性:事件的發(fā)生在較短時(shí)間內(nèi)吸引了大量用戶聚集。

2)持續(xù)時(shí)間短:事件的發(fā)生過程持續(xù)時(shí)間通常不超過2 h,即人群聚集一段時(shí)間后又迅速疏散。

3)非周期性:當(dāng)前區(qū)域的歷史數(shù)據(jù)中可能從未發(fā)生過類似事件。

4)影響范圍廣:事件的空間影響范圍不局限于指定觀測區(qū)域,鄰近區(qū)域也會受到影響。

由于人群異常聚集現(xiàn)象的突發(fā)性和非周期性,常用的時(shí)間序列分析方法(LSTM、ARIMA等)不適用于此問題。此外,已知空間網(wǎng)絡(luò)中鄰近區(qū)域的特征信息有助于提高目標(biāo)區(qū)域人數(shù)的可預(yù)測性,因此,最終的問題模型應(yīng)當(dāng)是多元輸入的非線性模型。

基于以上分析,模型選擇需要考慮時(shí)間序列的因果性以及多維特征的信息融合問題。CNN網(wǎng)絡(luò)模型的卷積層-池化層結(jié)構(gòu)能夠滿足多維特征信息融合的基本要求。在此基礎(chǔ)上,本文采用擴(kuò)張因果卷積[18]模型(Dilated Convolutional Neural Network,D-CNN)作為整體模型的基礎(chǔ)部分,其基本結(jié)構(gòu)如圖7所示。在隱層間的信息傳輸過程中,當(dāng)前網(wǎng)絡(luò)節(jié)點(diǎn)的輸出只能與之前時(shí)刻的輸入有關(guān),以保證信息傳輸過程中的因果性。

圖7 擴(kuò)張因果卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

在單個(gè)樣本中,對于待預(yù)測的區(qū)域,需要考慮人群密度、群體行為相似度和局部莫蘭指數(shù)3個(gè)特征,對于6個(gè)相鄰基站,需要考慮人群密度和群體行為相似度2個(gè)特征,因此,模型輸入包含15個(gè)時(shí)間序列信息。對于每個(gè)特征,從待預(yù)測的時(shí)刻回溯4 h,每15 min進(jìn)行切片,構(gòu)造長度為16的時(shí)間序列。將所有特征拼接成一個(gè)二維矩陣,因此,單個(gè)樣本的大小為15×16的二維矩陣。樣本標(biāo)簽為下一時(shí)刻是否會發(fā)生異常聚集現(xiàn)象,1表示會發(fā)生,0表示不會發(fā)生。

本文模型結(jié)構(gòu)如圖8所示,單個(gè)樣本中的每一個(gè)時(shí)間序列對應(yīng)一個(gè)D-CNN層,共15層。將每一個(gè)卷積層的輸出拼接成一維向量,通過邏輯回歸模型(Logistics Regression,LR)[19]得到最終的輸出。

圖8 預(yù)測模型整體結(jié)構(gòu)

本文預(yù)測方法的核心思想為考慮異常聚集發(fā)生時(shí)用戶的上網(wǎng)行為變化以及用戶行為特征的空間自相關(guān)性,利用擴(kuò)張因果卷積神經(jīng)網(wǎng)絡(luò)和邏輯回歸模型的組合模型進(jìn)行預(yù)測,預(yù)測方法流程如圖9所示。

圖9 本文方法預(yù)測流程

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)集介紹

本文實(shí)驗(yàn)采用廣東省江門市的中國聯(lián)通記錄的用戶上網(wǎng)詳單數(shù)據(jù),包括2018年4月和5月的完整數(shù)據(jù),數(shù)據(jù)集的關(guān)鍵字段和示例如表2所示。用戶ID為脫敏處理后的用戶手機(jī)號碼,時(shí)間為該條上網(wǎng)記錄的產(chǎn)生時(shí)間,基站標(biāo)識為用戶連接的基站的唯一標(biāo)識,URL為用戶訪問的網(wǎng)址信息。本文所有數(shù)據(jù)處理及算法設(shè)計(jì)均在Spark大數(shù)據(jù)平臺環(huán)境下運(yùn)行。

表2 數(shù)據(jù)基本字段與示例數(shù)據(jù)Table 2 Basic data fields and sample data

3.2 對比算法

本文選取時(shí)間序列分析方法LSTM和ARIMA作為對比算法。首先使用模型預(yù)測人群密度,然后通過一個(gè)線性判別器來判斷未來是否會發(fā)生異常聚集現(xiàn)象。同時(shí),為了驗(yàn)證擴(kuò)張因果卷積神經(jīng)網(wǎng)絡(luò)的有效性,選用機(jī)器學(xué)習(xí)中被廣泛使用的XGBoost模型[20]作為對比模型。

3.3 結(jié)果與分析

分類問題的模型評價(jià)指標(biāo)通常選用精確率(Precision)、召回率(Recall)和F1值(F1-Measure)。對于面向公共安全的人群異常聚集預(yù)測問題而言,通常認(rèn)為召回率(查全率)是更為重要的評價(jià)指標(biāo),即可以接受一定的誤報(bào)率,但要盡可能地檢測出所有異常聚集現(xiàn)象。具體的實(shí)驗(yàn)結(jié)果和模型訓(xùn)練過程如表3、圖10和圖11所示。

表3 4種模型的實(shí)驗(yàn)結(jié)果對比

Table 3 Comparison of experimental results of the four models

模型精確率召回率F1值A(chǔ)RIMA0.840.830.83LSTM0.810.840.82XGBoost0.910.910.91D-CNN0.930.970.95

圖10 D-CNN模型訓(xùn)練過程

圖11 4種模型的預(yù)測結(jié)果對比

從實(shí)驗(yàn)結(jié)果可以看出,本文預(yù)測方法在3項(xiàng)評價(jià)指標(biāo)上均取得了最好的效果,驗(yàn)證了群體行為特征信息和空間相關(guān)性信息對于人群異常聚集現(xiàn)象預(yù)測的有效性。需要注意的是,在相同的特征信息上,D-CNN模型的表現(xiàn)優(yōu)于XGBoost模型,說明D-CNN模型對于多維時(shí)間序列分析問題的有效性。

此外,基于時(shí)間序列分析的模型ARIMA和LSTM在各項(xiàng)評價(jià)指標(biāo)上的表現(xiàn)并不理想,其可能的原因是時(shí)間序列分析模型會累積預(yù)測誤差,預(yù)測結(jié)果與真實(shí)序列的差異呈現(xiàn)出一定的滯后性,如圖12所示。時(shí)間序列分析模型在人數(shù)快速增加時(shí)會產(chǎn)生較大的誤差,因此,人群異常聚集事件的突發(fā)性會使得該類模型的誤差較大,導(dǎo)致異?，F(xiàn)象的誤判和漏判,從而影響預(yù)測性能。

圖12 LSTM模型誤差

4 結(jié)束語

針對現(xiàn)實(shí)生活中時(shí)常發(fā)生的人群異常聚集現(xiàn)象,本文提出一種考慮用戶群體上網(wǎng)行為特征和空間自相關(guān)性的預(yù)測方法。通過引入用戶群體行為特征和群體特征的空間自相關(guān)性,全面地描述和分析異常聚集現(xiàn)象下的群體活動特征,從而提升預(yù)測性能。真實(shí)的中國聯(lián)通數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與ARIMA、LSTM和XGBoost模型相比,該方法對于人群異常聚集預(yù)測的準(zhǔn)確性更高。下一步將引入社交網(wǎng)絡(luò)中的內(nèi)容信息,更加全面細(xì)致地刻畫群體行為,以進(jìn)一步改善預(yù)測性能。