亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于群體行為分析的人群異常聚集預(yù)測方法

        2020-03-19 13:10:20黃賀賀曾園園
        計(jì)算機(jī)工程 2020年3期
        關(guān)鍵詞:群體行為基站人群

        黃賀賀,曾園園,張 毅,奈 何

        (武漢大學(xué) 電子信息學(xué)院,武漢 430072)

        0 概述

        近年來,隨著社會經(jīng)濟(jì)的發(fā)展,城市的人口密度急速增大,給城市建設(shè)和管理的各個(gè)方面帶來巨大挑戰(zhàn)。在公共安全方面,由于人群異常聚集而導(dǎo)致的各類安全問題時(shí)有發(fā)生,因此對人群異常聚集現(xiàn)象進(jìn)行預(yù)測具有重要的現(xiàn)實(shí)意義。

        目前,國內(nèi)外學(xué)者對人群異常聚集的預(yù)測方法進(jìn)行了深入的研究,大多數(shù)基于圖像處理的監(jiān)控系統(tǒng)已投入運(yùn)行并已取得了一定的效果[1-2]。然而,基于圖像處理的方法具有局限性,例如,攝像機(jī)無法捕捉視野外的元素且易被其他障礙遮擋,難以融合來自多個(gè)攝像機(jī)的信息以獲得全局態(tài)勢感知。另外,基于圖像處理的方法需要良好的照明條件,因此,對于發(fā)生在夜間的事件而言,該方法難以發(fā)揮作用。

        許多研究者根據(jù)各區(qū)域的人群密度歷史數(shù)據(jù)和用戶的歷史移動軌跡數(shù)據(jù),利用時(shí)間序列分析方法或概率模型預(yù)測未來的人群密度分布。文獻(xiàn)[3]提出一種利用長短時(shí)記憶網(wǎng)絡(luò)預(yù)測行人軌跡,從而估計(jì)各區(qū)域人群密度的方法。文獻(xiàn)[4]根據(jù)用戶的歷史移動軌跡數(shù)據(jù)構(gòu)建基于馬爾科夫模型的路徑預(yù)測系統(tǒng),用于預(yù)測每個(gè)用戶的未來位置和停留時(shí)間。上述方法對于日常的人群密度預(yù)測問題較為有效,然而人群異常聚集事件具有突發(fā)性,此類方法可能無法取得很好的效果。

        針對人群異常聚集現(xiàn)象,許多學(xué)者嘗試從分析人群的移動行為模式出發(fā),預(yù)測各區(qū)域的人群密度分布情況,從而提早發(fā)現(xiàn)人群異常聚集現(xiàn)象。文獻(xiàn)[5]指出,一起人群聚集導(dǎo)致的踩踏事件的形成過程可以分為4個(gè)階段,即自由移動-停留-擁堵-踩踏。文獻(xiàn)[6]建立了一個(gè)社會力模型來分析人群移動機(jī)制,綜合考慮了行人意圖、期望速度和個(gè)體之間的相互作用。文獻(xiàn)[7]提出一種密度泛函理論,綜合考慮環(huán)境因素和行人在不同環(huán)境下的移動行為,用以預(yù)測人群密度的分布情況。上述方法均基于人群的移動行為特征進(jìn)行分析,然而對于人群異常聚集事件而言,群體情緒、公共輿論等因素對于群體行為也有重要的影響[8-9]。因此,對于人群異常聚集現(xiàn)象的預(yù)測問題,需要從多個(gè)維度全面具體地分析和描述群體行為,以提高預(yù)測性能。

        本文提出一種基于用戶群體行為分析的人群異常聚集預(yù)測方法。通過對比分析異常聚集場景和正常場景下用戶群體的上網(wǎng)行為和空間移動行為,發(fā)現(xiàn)不同場景下用戶行為的差異性。根據(jù)群體上網(wǎng)行為和移動行為對未來時(shí)刻是否會發(fā)生異常聚集事件進(jìn)行預(yù)測,得到最終的預(yù)測結(jié)果。

        1 人群異常聚集現(xiàn)象分析

        1.1 人群異常聚集閾值計(jì)算模型

        隨著智能移動終端的普及和移動互聯(lián)網(wǎng)的發(fā)展,通信基站會記錄大量用戶產(chǎn)生的會話數(shù)據(jù),這些數(shù)據(jù)準(zhǔn)確詳細(xì)地記錄了用戶的移動行為和上網(wǎng)訪問內(nèi)容,為群體行為的分析研究提供了數(shù)據(jù)支撐[10-11]。

        大量的研究證明,人類行為在宏觀上服從一定的模式[12-13],各個(gè)基站覆蓋范圍內(nèi)的人群密度分布具有一定的穩(wěn)定性[14-15],因此,可以通過設(shè)定閾值的方式來判定當(dāng)前區(qū)域是否發(fā)生了人群異常聚集事件。

        由于特定區(qū)域上的人群密度分布在一天內(nèi)會隨著時(shí)間變化,且同一區(qū)域上的人群密度在工作日和節(jié)假日時(shí)也會有所不同,因此對于某特定基站所在的區(qū)域,定義其人群密度期望值如下:

        (1)

        在此基礎(chǔ)上,定義人群聚集的異常判定閾值如下:

        (2)

        1.2 聚集群體行為分析

        將用戶群體訪問過的內(nèi)容按照業(yè)務(wù)類型分為19類,如表1所示。

        表1 用戶訪問內(nèi)容分類Table 1 Classification of content accessed by users

        對正常場景和異常聚集場景下的用戶群體訪問內(nèi)容分布進(jìn)行統(tǒng)計(jì),結(jié)果如圖1所示??梢钥闯?兩類場景下的用戶上網(wǎng)流量分布具有一定的相似性,都主要集中在社交、購物、音樂、視頻、新聞等類型上,說明用戶群體的內(nèi)容偏好在不同場景下具有一定的穩(wěn)定性。

        圖1 不同場景下的用戶訪問流量分布

        需要注意的是,在異常場景下,社交類應(yīng)用的流量占比有明顯提升,說明異常聚集場景下的用戶群體更多地訪問社交網(wǎng)站,更頻繁地在社交網(wǎng)絡(luò)上分享內(nèi)容或獲取內(nèi)容。此外,正常場景下的出行類內(nèi)容(主要包括打車出行類和地圖類內(nèi)容)的占比明顯高于異常場景下,說明在異常場景下的人群移動行為具有明確的目的地,并且移動范圍較為有限。

        通過以上對比分析,可以將一起人群異常聚集事件的發(fā)生過程分為3個(gè)階段。首先,在某區(qū)域上發(fā)生一起突發(fā)性事件,然后,此事件引起區(qū)域附近人群的關(guān)注并移動至該區(qū)域,最后,該區(qū)域的聚集人數(shù)遠(yuǎn)超正常值,如圖2所示。其中,在第2個(gè)階段,當(dāng)前區(qū)域內(nèi)群體對于突發(fā)事件的反應(yīng)是在社交網(wǎng)絡(luò)上分享信息,即訪問的內(nèi)容集中在少數(shù)熱點(diǎn)內(nèi)容上,從而可以推斷異常聚集用戶群體的訪問內(nèi)容分布會表現(xiàn)出較高的相似性。

        圖2 異常聚集事件發(fā)生過程

        對于異常聚集事件的預(yù)測問題,除了傳統(tǒng)方法使用到的人群密度的時(shí)間序列信息之外,群體的上網(wǎng)行為信息以及相鄰區(qū)域上的群體行為信息均可提高預(yù)測的準(zhǔn)確性。

        根據(jù)以上分析,異常聚集的用戶在上網(wǎng)內(nèi)容上可能會表現(xiàn)出較高的相似性,使用Jaccrd相似系數(shù)衡量用戶間的相似度,定義如下:

        (3)

        其中,N(u)表示用戶u的訪問內(nèi)容集合。然而在實(shí)際場景中,網(wǎng)絡(luò)中會存在一些流行內(nèi)容被大部分用戶都訪問過,顯然這類內(nèi)容用于衡量相似度會導(dǎo)致偏差,因此需要降低這些流行內(nèi)容的權(quán)重,將式(3)的分子修改為如下形式:

        (4)

        其中,i為被用戶u和用戶v共同訪問的內(nèi)容,C(i)為內(nèi)容i在同時(shí)段被所有用戶訪問的次數(shù)。

        在得到用戶之間的訪問內(nèi)容相似度后,對觀測區(qū)域在指定時(shí)段內(nèi)的用戶群體構(gòu)建有權(quán)相似網(wǎng)絡(luò)G=。其中,U為用戶集合,每個(gè)用戶對應(yīng)相似網(wǎng)絡(luò)中的一個(gè)節(jié)點(diǎn),E為連邊集合,每條邊的權(quán)重為對應(yīng)的一對用戶之間的Jaccrd相似系數(shù)。在此基礎(chǔ)上,定義群體行為平均相似度為相似網(wǎng)絡(luò)中所有連邊的平均權(quán)重,具體如下:

        (5)

        其中,∑E表示所有連邊權(quán)重的加和,nnum(E)表示網(wǎng)絡(luò)中連邊的條數(shù)。

        對2種場景(正?,F(xiàn)象和異常聚集現(xiàn)象)下的用戶群體行為進(jìn)行比較分析。統(tǒng)計(jì)2種場景下的用戶間的Jaccrd相似系數(shù),大致分布如圖3所示??梢钥闯?人群異常聚集場景下的用戶相似度大多在0.7以上,顯著高于正常場景下的0.3,即異常聚集場景下的大部分用戶上網(wǎng)行為的相似度較高,說明用戶群體的異常聚集現(xiàn)象是由現(xiàn)實(shí)中的特定事件引起的,用戶對此類事件的反應(yīng)為社交網(wǎng)絡(luò)中的使用流量增加,用戶間的上網(wǎng)訪問內(nèi)容分布非常相似。

        圖3 不同場景下的用戶行為相似度分布

        Fig.3Distribution of user behavior similarity indifferent scenarios

        下面驗(yàn)證用戶群體行為特征信息對于人群異常聚集現(xiàn)象的預(yù)測是否有用。由于人群異常聚集現(xiàn)象的直接特征為人群密度,因此需要計(jì)算所有基站上的人群密度分布的香農(nóng)熵和已知群體行為特征信息條件下的條件熵。香農(nóng)熵和條件熵的定義分別如式(6)和式(7)所示:

        (6)

        (7)

        分別對正常和異常聚集場景下的人群密度的香農(nóng)熵和條件熵進(jìn)行統(tǒng)計(jì)計(jì)算,繪制累積分布函數(shù)圖(Cumulative Distribution Function,CDF),如圖4所示。可以看出,在兩種場景下,人群密度分布的條件熵均低于香農(nóng)熵,說明群體行為平均相似度信息能夠有效降低人數(shù)的不確定性。

        圖4 不同場景下人群密度分布的香農(nóng)熵和條件熵

        Fig.4 Shannon entropy and conditional entropy of crowd density distribution in different scenarios

        值得注意的是,異常場景下人群密度分布的條件熵顯著低于香農(nóng)熵,即群體行為特征消除人群密度分布的不確定性的作用更為明顯,因此,群體行為相似度是預(yù)測異常聚集的一個(gè)有效特征。

        1.3 空間網(wǎng)絡(luò)分析

        在圖2中,引起用戶關(guān)注到聚集大量用戶的過程中,由于人的移動行為具有時(shí)空連續(xù)性,即區(qū)域最終聚集的人群是從相鄰區(qū)域移動而來的,因此一起異常聚集事件的影響范圍不局限于該特定區(qū)域,其相鄰區(qū)域也會受到一定的影響,需要考慮相鄰區(qū)域上的群體行為特征對于人群異常聚集現(xiàn)象是否會產(chǎn)生影響。

        基站的空間網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)(如圖5所示)可以根據(jù)基站的經(jīng)緯度信息,選取距離最近的幾個(gè)基站作為該基站的鄰接基站。然而在實(shí)際場景中,由于建筑布局、道路設(shè)施等因素的影響,空間上直接相鄰的基站之間可能無法進(jìn)行用戶交互,因此根據(jù)用戶的移動軌跡,采用兩基站間的交互用戶數(shù)量作為連接權(quán)重,取權(quán)重排名前6的基站作為該基站的相鄰基站。

        圖5 基站空間拓?fù)浣Y(jié)構(gòu)

        莫蘭指數(shù)是一種用于衡量空間特征相關(guān)性的指標(biāo),被廣泛應(yīng)用于各領(lǐng)域的空間結(jié)構(gòu)問題分析中[16-17]。本文采用局部莫蘭指數(shù)量化分析當(dāng)前區(qū)域的聚集屬性,定義如下:

        (8)

        其中,n為空間網(wǎng)絡(luò)中的節(jié)點(diǎn)數(shù)量,本文中特指基站數(shù)量,x為待觀測的指標(biāo),本文中特指群體行為平均相似度,ωij為節(jié)點(diǎn)連邊權(quán)重,本文中特指兩個(gè)基站間的用戶交互數(shù)量。

        對于人群異常聚集場景,局部莫蘭指數(shù)為正值表示當(dāng)前區(qū)域與相鄰區(qū)域具有相近的特征表現(xiàn),說明當(dāng)前區(qū)域具有聚集的潛在可能,為負(fù)值則說明當(dāng)前區(qū)域暫無聚集的可能。

        計(jì)算數(shù)據(jù)集中發(fā)生異常聚集現(xiàn)象的基站人數(shù)分布的信息熵,以及已知局部莫蘭指數(shù)信息后人數(shù)分布的條件熵,繪制累積分布函數(shù)圖,如圖6所示??梢钥闯?局部莫蘭指數(shù)能夠降低人數(shù)分布的不確定性,即空間網(wǎng)絡(luò)中的信息有助于提高基站人數(shù)分布的可預(yù)測性。

        圖6 局部莫蘭指數(shù)條件熵的累積分布函數(shù)

        Fig.6 Cumulative distribution function of conditional entropy of local Moran’s I

        2 人群異常聚集現(xiàn)象預(yù)測模型

        異常聚集場景具有以下典型特征:

        1)突發(fā)性:事件的發(fā)生在較短時(shí)間內(nèi)吸引了大量用戶聚集。

        2)持續(xù)時(shí)間短:事件的發(fā)生過程持續(xù)時(shí)間通常不超過2 h,即人群聚集一段時(shí)間后又迅速疏散。

        3)非周期性:當(dāng)前區(qū)域的歷史數(shù)據(jù)中可能從未發(fā)生過類似事件。

        4)影響范圍廣:事件的空間影響范圍不局限于指定觀測區(qū)域,鄰近區(qū)域也會受到影響。

        由于人群異常聚集現(xiàn)象的突發(fā)性和非周期性,常用的時(shí)間序列分析方法(LSTM、ARIMA等)不適用于此問題。此外,已知空間網(wǎng)絡(luò)中鄰近區(qū)域的特征信息有助于提高目標(biāo)區(qū)域人數(shù)的可預(yù)測性,因此,最終的問題模型應(yīng)當(dāng)是多元輸入的非線性模型。

        基于以上分析,模型選擇需要考慮時(shí)間序列的因果性以及多維特征的信息融合問題。CNN網(wǎng)絡(luò)模型的卷積層-池化層結(jié)構(gòu)能夠滿足多維特征信息融合的基本要求。在此基礎(chǔ)上,本文采用擴(kuò)張因果卷積[18]模型(Dilated Convolutional Neural Network,D-CNN)作為整體模型的基礎(chǔ)部分,其基本結(jié)構(gòu)如圖7所示。在隱層間的信息傳輸過程中,當(dāng)前網(wǎng)絡(luò)節(jié)點(diǎn)的輸出只能與之前時(shí)刻的輸入有關(guān),以保證信息傳輸過程中的因果性。

        圖7 擴(kuò)張因果卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        在單個(gè)樣本中,對于待預(yù)測的區(qū)域,需要考慮人群密度、群體行為相似度和局部莫蘭指數(shù)3個(gè)特征,對于6個(gè)相鄰基站,需要考慮人群密度和群體行為相似度2個(gè)特征,因此,模型輸入包含15個(gè)時(shí)間序列信息。對于每個(gè)特征,從待預(yù)測的時(shí)刻回溯4 h,每15 min進(jìn)行切片,構(gòu)造長度為16的時(shí)間序列。將所有特征拼接成一個(gè)二維矩陣,因此,單個(gè)樣本的大小為15×16的二維矩陣。樣本標(biāo)簽為下一時(shí)刻是否會發(fā)生異常聚集現(xiàn)象,1表示會發(fā)生,0表示不會發(fā)生。

        本文模型結(jié)構(gòu)如圖8所示,單個(gè)樣本中的每一個(gè)時(shí)間序列對應(yīng)一個(gè)D-CNN層,共15層。將每一個(gè)卷積層的輸出拼接成一維向量,通過邏輯回歸模型(Logistics Regression,LR)[19]得到最終的輸出。

        圖8 預(yù)測模型整體結(jié)構(gòu)

        本文預(yù)測方法的核心思想為考慮異常聚集發(fā)生時(shí)用戶的上網(wǎng)行為變化以及用戶行為特征的空間自相關(guān)性,利用擴(kuò)張因果卷積神經(jīng)網(wǎng)絡(luò)和邏輯回歸模型的組合模型進(jìn)行預(yù)測,預(yù)測方法流程如圖9所示。

        圖9 本文方法預(yù)測流程

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 數(shù)據(jù)集介紹

        本文實(shí)驗(yàn)采用廣東省江門市的中國聯(lián)通記錄的用戶上網(wǎng)詳單數(shù)據(jù),包括2018年4月和5月的完整數(shù)據(jù),數(shù)據(jù)集的關(guān)鍵字段和示例如表2所示。用戶ID為脫敏處理后的用戶手機(jī)號碼,時(shí)間為該條上網(wǎng)記錄的產(chǎn)生時(shí)間,基站標(biāo)識為用戶連接的基站的唯一標(biāo)識,URL為用戶訪問的網(wǎng)址信息。本文所有數(shù)據(jù)處理及算法設(shè)計(jì)均在Spark大數(shù)據(jù)平臺環(huán)境下運(yùn)行。

        表2 數(shù)據(jù)基本字段與示例數(shù)據(jù)Table 2 Basic data fields and sample data

        3.2 對比算法

        本文選取時(shí)間序列分析方法LSTM和ARIMA作為對比算法。首先使用模型預(yù)測人群密度,然后通過一個(gè)線性判別器來判斷未來是否會發(fā)生異常聚集現(xiàn)象。同時(shí),為了驗(yàn)證擴(kuò)張因果卷積神經(jīng)網(wǎng)絡(luò)的有效性,選用機(jī)器學(xué)習(xí)中被廣泛使用的XGBoost模型[20]作為對比模型。

        3.3 結(jié)果與分析

        分類問題的模型評價(jià)指標(biāo)通常選用精確率(Precision)、召回率(Recall)和F1值(F1-Measure)。對于面向公共安全的人群異常聚集預(yù)測問題而言,通常認(rèn)為召回率(查全率)是更為重要的評價(jià)指標(biāo),即可以接受一定的誤報(bào)率,但要盡可能地檢測出所有異常聚集現(xiàn)象。具體的實(shí)驗(yàn)結(jié)果和模型訓(xùn)練過程如表3、圖10和圖11所示。

        表3 4種模型的實(shí)驗(yàn)結(jié)果對比

        Table 3 Comparison of experimental results of the four models

        模型精確率召回率F1值A(chǔ)RIMA0.840.830.83LSTM0.810.840.82XGBoost0.910.910.91D-CNN0.930.970.95

        圖10 D-CNN模型訓(xùn)練過程

        圖11 4種模型的預(yù)測結(jié)果對比

        從實(shí)驗(yàn)結(jié)果可以看出,本文預(yù)測方法在3項(xiàng)評價(jià)指標(biāo)上均取得了最好的效果,驗(yàn)證了群體行為特征信息和空間相關(guān)性信息對于人群異常聚集現(xiàn)象預(yù)測的有效性。需要注意的是,在相同的特征信息上,D-CNN模型的表現(xiàn)優(yōu)于XGBoost模型,說明D-CNN模型對于多維時(shí)間序列分析問題的有效性。

        此外,基于時(shí)間序列分析的模型ARIMA和LSTM在各項(xiàng)評價(jià)指標(biāo)上的表現(xiàn)并不理想,其可能的原因是時(shí)間序列分析模型會累積預(yù)測誤差,預(yù)測結(jié)果與真實(shí)序列的差異呈現(xiàn)出一定的滯后性,如圖12所示。時(shí)間序列分析模型在人數(shù)快速增加時(shí)會產(chǎn)生較大的誤差,因此,人群異常聚集事件的突發(fā)性會使得該類模型的誤差較大,導(dǎo)致異?,F(xiàn)象的誤判和漏判,從而影響預(yù)測性能。

        圖12 LSTM模型誤差

        4 結(jié)束語

        針對現(xiàn)實(shí)生活中時(shí)常發(fā)生的人群異常聚集現(xiàn)象,本文提出一種考慮用戶群體上網(wǎng)行為特征和空間自相關(guān)性的預(yù)測方法。通過引入用戶群體行為特征和群體特征的空間自相關(guān)性,全面地描述和分析異常聚集現(xiàn)象下的群體活動特征,從而提升預(yù)測性能。真實(shí)的中國聯(lián)通數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與ARIMA、LSTM和XGBoost模型相比,該方法對于人群異常聚集預(yù)測的準(zhǔn)確性更高。下一步將引入社交網(wǎng)絡(luò)中的內(nèi)容信息,更加全面細(xì)致地刻畫群體行為,以進(jìn)一步改善預(yù)測性能。

        猜你喜歡
        群體行為基站人群
        在逃犯
        群體行為識別深度學(xué)習(xí)方法研究綜述
        糖尿病早預(yù)防、早控制
        化工園區(qū)突發(fā)事件情景下的群體行為模擬演化研究*
        基于因果分析的群體行為識別
        我走進(jìn)人群
        百花洲(2018年1期)2018-02-07 16:34:52
        財(cái)富焦慮人群
        可惡的“偽基站”
        基于GSM基站ID的高速公路路徑識別系統(tǒng)
        小基站助力“提速降費(fèi)”
        移動通信(2015年17期)2015-08-24 08:13:10
        精品国产一区二区av麻豆不卡| 99久久精品国产一区二区蜜芽| 亚洲都市校园激情另类| 国内精品极品久久免费看| 有坂深雪中文字幕亚洲中文 | 激情综合色综合久久综合| 91日本精品国产免| 精品丝袜一区二区三区性色| 国产一区二区黄色网页| 一二三四日本中文在线| 亚洲在AV极品无码天堂手机版 | 丁香综合网| 久久爱91精品国产一区| 97精品一区二区三区| 奇米影视777撸吧| 2021精品国产综合久久| 国产情侣自拍偷拍精品| 国产av无码专区亚洲版综合| 一本大道久久东京热无码av| 国产高潮流白浆免费观看不卡| 99久久精品人妻一区| 日本少妇浓毛bbwbbwbbw| 荡女精品导航| 青青草原亚洲在线视频| 亚洲伦理第一页中文字幕| 国产成人一区二区三区影院动漫 | 成人av一区二区三区四区| 日韩日韩日韩日韩日韩日韩| 久久久精品久久日韩一区综合| 99久久久精品国产性黑人| 丝袜美腿视频一区二区| 少妇太爽了在线观看免费视频| 无遮挡十八禁在线视频国产制服网站 | 亚洲高清国产成人精品久久| 久久精品国产精品| 国产免费一级在线观看| 青青草精品在线免费观看| 精品国产乱码久久久久久婷婷| 成年男女免费视频网站| 日本大胆人体亚裔一区二区| 激情人妻另类人妻伦|