胡學(xué)敏,易重輝,陳 欽,陳 茜,陳 龍
(1.湖北大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,武漢 430062; 2. 中山大學(xué) 數(shù)據(jù)科學(xué)與計(jì)算機(jī)學(xué)院,廣州 510275)(*通信作者電子郵箱huxuemin2012@hubu.edu.cn)
近年來我國各個(gè)城市規(guī)模不斷擴(kuò)大,城市人口不斷增加。在人口密度過大的區(qū)域容易發(fā)生擁堵、踩踏等突發(fā)事件,存在較大的安全隱患。因此,利用智能視監(jiān)控技術(shù)進(jìn)行人群異常行為檢測(cè)具有巨大的研究意義和商業(yè)價(jià)值。
目前,國內(nèi)外研究人員在人群異常行為檢測(cè)方面做了許多工作,這些工作一般可分為兩大類[1]:一類是基于視覺特征提取的方法,這類方法先使用計(jì)算機(jī)視覺領(lǐng)域的技術(shù)提取人群特征,再利用分類器進(jìn)行異常檢測(cè)。如Solera等[2]提出用空間關(guān)系理論、格蘭杰因果關(guān)系、動(dòng)態(tài)時(shí)間規(guī)整和熱圖來激發(fā)特征,然后用結(jié)構(gòu)化的支持向量機(jī)(Support Vector Machine,SVM)進(jìn)行學(xué)習(xí)訓(xùn)練。短歷史軌跡(Short Local Trajectories,SLT)[3]、光流直方圖(Histogram Of the optical Flow Orientation, HOFO)[4]、光流協(xié)方差矩陣和圖像強(qiáng)度[5]也可用來描述運(yùn)動(dòng)特征信息,這已成為近年來研究人群異常行為檢測(cè)的熱點(diǎn)。Wang等[6-7]提出了用支持向量機(jī)與核主成分分析(Kernel Principal Component Analysis,KPCA)兩種分類器對(duì)光流直方圖進(jìn)行分類。基于視覺特征提取的方法能夠從宏觀的角度直觀反映人群形態(tài),但是所提取的運(yùn)動(dòng)信息比較單一,人群的行為特征提取不夠完整,導(dǎo)致準(zhǔn)確性不高,而且傳統(tǒng)的支持向量機(jī)存在訓(xùn)練效率不高、數(shù)據(jù)處理能力有限等問題[8]。另一類是基于物理特征分析的方法,這類方法通過構(gòu)建物理學(xué)模型來模擬人群行為,并用來檢測(cè)人群異常。社會(huì)力模型(Social Force Model, SFM)是其中的典型代表[9]?;谏鐣?huì)力模型,一種社會(huì)屬性感知力模型(Social Attribute-aware Force Model,SAFM)被提出[10-11],該模型加入了社會(huì)障礙和擁塞屬性來描述社會(huì)行為的相互作用。另外,Zhou等[12]提出動(dòng)態(tài)行人代理模型對(duì)人群行為進(jìn)行模擬和預(yù)測(cè)。此類方法能準(zhǔn)確描述人群行為,但涉及到很多參數(shù),建模比較復(fù)雜,而且實(shí)時(shí)性難以控制。
近年來,深度學(xué)習(xí)的迅速發(fā)展讓機(jī)器學(xué)習(xí)有了很大的進(jìn)展,其中一個(gè)典型的模型就是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)。CNN在圖像檢測(cè)與識(shí)別領(lǐng)域已經(jīng)取得了明顯的成果。文獻(xiàn)[13]用CNN解決在復(fù)雜情況下的圖像識(shí)別問題,該方法能夠有效識(shí)別可見光自然圖像和遙感圖像;大詞匯量連續(xù)語音識(shí)別在CNN上得以實(shí)現(xiàn)[14];文獻(xiàn)[15]用CNN針對(duì)人臉實(shí)現(xiàn)了對(duì)年齡和性別的識(shí)別,識(shí)別率領(lǐng)先于傳統(tǒng)算法。但是目前CNN僅能夠應(yīng)用于靜態(tài)的圖像分類與識(shí)別方面,而無法應(yīng)用動(dòng)態(tài)的視頻分析領(lǐng)域。
針對(duì)人群異常行為檢測(cè)的準(zhǔn)確性和實(shí)時(shí)性,以及CNN無法應(yīng)用于視頻分析領(lǐng)域的問題,本文提出一種新的基于運(yùn)動(dòng)顯著圖(Motion Saliency Map, MSM)的人群異常行為檢測(cè)方法。該方法先通過光流法求得特征點(diǎn)的光流場(chǎng),經(jīng)過時(shí)間和空間上的濾波處理后,再計(jì)算運(yùn)動(dòng)方向、速度和加速度信息。為了準(zhǔn)確描述人群的異常行為特征,將人群的速度幅值、運(yùn)動(dòng)方向變化量和加速度幅值分別對(duì)應(yīng)圖像的紅、綠、藍(lán)(R, G, B)三通道,以此合成運(yùn)動(dòng)顯著圖。由于MSM含有多重動(dòng)態(tài)特征,利用CNN對(duì)MSM進(jìn)行訓(xùn)練可構(gòu)建出能夠處理動(dòng)態(tài)特征的網(wǎng)絡(luò)。最后利用CNN對(duì)待測(cè)樣本進(jìn)行分類,從而達(dá)到檢測(cè)人群異常行為的目的。因此,該方法既能解決傳統(tǒng)人群異常檢測(cè)的準(zhǔn)確性和實(shí)時(shí)性問題,又能拓展CNN對(duì)動(dòng)態(tài)的圖像序列的處理能力,能為CNN在視頻分類和識(shí)別領(lǐng)域提供研究基礎(chǔ)。
本文提出的基于MSM的人群異常行為檢測(cè)方法如圖1所示,該運(yùn)動(dòng)顯著圖以光流法提取的運(yùn)動(dòng)特征為基礎(chǔ),將多種運(yùn)動(dòng)特征以8位RGB彩色圖像的形式進(jìn)行融合,并設(shè)計(jì)和訓(xùn)練CNN作為分類器,再對(duì)MSM進(jìn)行分類,以此來檢測(cè)人群中的異常行為。相對(duì)單一參數(shù)的灰度特征圖,該運(yùn)動(dòng)顯著圖能更準(zhǔn)確直觀地用二維圖像表達(dá)圖像序列中的運(yùn)動(dòng)特征,充分發(fā)揮CNN對(duì)靜態(tài)圖像識(shí)別的能力。
圖1 基于MSM的人群異常行為檢測(cè)流程
光流法是一種能夠有效提取運(yùn)動(dòng)特征的方法,Lucas-Kanade光流法[16]能夠消除光流方程里的多義性,相對(duì)于逐點(diǎn)計(jì)算而言,對(duì)圖像噪聲不敏感,所以本文采用Lucas-Kanade光流法計(jì)算光流場(chǎng)。為了減少計(jì)算量,本文先對(duì)原始圖像進(jìn)行等距采樣,采樣距離大小依據(jù)實(shí)際圖像分辨率以及鏡頭與人群距離等環(huán)境確定。對(duì)像素點(diǎn)采樣得到的點(diǎn)即特征點(diǎn),用于光流法計(jì)算稀疏光流場(chǎng)。假設(shè)圖像特征點(diǎn)灰度值函數(shù)為I(x,y,k),其中:(x,y)代表特征點(diǎn)坐標(biāo);k代表幀數(shù)。在k+Δk幀時(shí),點(diǎn)(x,y)運(yùn)動(dòng)到(x+Δx,y+Δy)處,k時(shí)刻點(diǎn)(x,y)的灰度值為I(x+Δx,y+Δy,k+Δk)。光流法假設(shè)經(jīng)過Δk幀后,點(diǎn)(x,y)的灰度值變化很小,其光流的約束方程[16]如式(1)所示:
(1)
其中:Ix、Iy和Ik分別為灰度值函數(shù)I(x,y,k)對(duì)變量x、y的k偏導(dǎo)。再引入附加約束條件則可得出在k幀時(shí)刻x和y方向上的速度Vx(x,y,k)和Vy(x,y,k)。為了消除噪聲抖動(dòng)的影響,本文先對(duì)其進(jìn)行時(shí)間和空間濾波,分別如式(2)和(3)所示:
(2)
(3)
圖2 人群運(yùn)動(dòng)的光流圖
正常情況下,人群運(yùn)動(dòng)速度會(huì)比較穩(wěn)定,運(yùn)動(dòng)速度的大小與方向不會(huì)發(fā)生太大的改變,如圖3(a)的正常情況。異常情況下,即受到外界環(huán)境的刺激后,人群會(huì)突然向四周迅速散開或者集體跑向某一方向,如圖3(a)的異常情況所示;該過程中人群運(yùn)動(dòng)速度幅值、加速度幅值、運(yùn)動(dòng)方向變化量等物理參數(shù)會(huì)發(fā)生較大的變化,因此可以通過這三個(gè)參數(shù)來描述人群的行為[17]。
圖3 正常和異常的運(yùn)動(dòng)顯著圖
在描述人群運(yùn)動(dòng)時(shí),運(yùn)動(dòng)速度幅值V映射為R通道,速度方向變化量Δθ映射為G通道,加速度幅值A(chǔ)映射為B通道,并融合成一幅三通道彩色圖像,其過程如圖4所示(其中:v、a與Δθ分別為速度、加速度與運(yùn)動(dòng)方向變化量)。
圖4 MSM的合成步驟
因圖4由人群的三種運(yùn)動(dòng)信息融合而成,其中人群的運(yùn)動(dòng)特征尤為顯著,因此本文稱之為“運(yùn)動(dòng)顯著圖”。V、A和Δθ的計(jì)算分別如式(4)~(6)所示:
(4)
(5)
(6)
其中:|A(x,y,k)|是加速度幅值。若以一幀作為時(shí)間尺度,即Δk=1,根據(jù)式(6)則可計(jì)算出k時(shí)刻的運(yùn)動(dòng)方向的變化量Δθ(x,y,k)。由于運(yùn)動(dòng)的特征參數(shù)的尺度單位與8位圖像的灰度數(shù)值不符合,因此本文設(shè)置三個(gè)歸一化參數(shù)去表達(dá)三個(gè)參數(shù)的圖像特征,其過程如式(7)所示:
T(x,y,k)=p|f(x,y,k)|
(7)
其中:T(x,y,k)為歸一化后的結(jié)果;f(x,y,k)為待歸一化的函數(shù);p為歸一化參數(shù),其取值取決于該場(chǎng)景中運(yùn)動(dòng)參數(shù)函數(shù)的最大值和最小值的差值。綜上,本文提出的MSM實(shí)際效果如圖3(b)所示,可看出二維的運(yùn)動(dòng)顯著圖能夠有效地表達(dá)人群的正常和異常行為的動(dòng)態(tài)特征,為CNN的設(shè)計(jì)與訓(xùn)練提取了合適的數(shù)據(jù)。
CNN是一種高效的識(shí)別方法,極高的準(zhǔn)確度使得它被廣泛認(rèn)可,并已經(jīng)成為商業(yè)開發(fā)和學(xué)術(shù)研究的熱點(diǎn)之一[18]。其利用局部感受野、權(quán)值共享、空間亞采樣等特性可以提取出圖像的多種特征,并獲得圖像的平移、縮放、變形的不變性,更重要的是大大減少了參數(shù)的數(shù)量和訓(xùn)練的計(jì)算量,減輕模型過擬合的程度。但是,這些特性都是以二維圖像為基礎(chǔ),對(duì)于連續(xù)圖像序列檢測(cè),CNN有著空間維度上的缺陷。
人群的異常行為檢測(cè)歸根結(jié)底就是檢測(cè)人群的運(yùn)動(dòng)特征,這種特征在MSM中體現(xiàn)得尤為明顯,并且MSM將運(yùn)動(dòng)特征的動(dòng)態(tài)特性以靜態(tài)的二維圖像表達(dá),因此MSM能解決CNN不能用于動(dòng)態(tài)視頻分析的問題。人群異常行為檢測(cè)屬于二值分類,分類復(fù)雜程度相對(duì)較低,所以本文以LeNet-5網(wǎng)絡(luò)[19]為基礎(chǔ),再針對(duì)人群異常行為檢測(cè)對(duì)其網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行重新設(shè)計(jì)和訓(xùn)練。
本文提出的MSM用于表達(dá)人群運(yùn)動(dòng)信息,其圖像尺寸為320×240;而原始的LeNet-5網(wǎng)絡(luò)用于小目標(biāo)(文字)分類,其圖像尺寸僅為28×28,故MSM的尺寸遠(yuǎn)遠(yuǎn)超過LeNet-5網(wǎng)絡(luò)的輸入圖像尺寸。如果將MSM的圖像尺寸大幅度縮減,則必定會(huì)丟失較多人群運(yùn)動(dòng)信息。因此,本文對(duì)輸入的MSM圖像不進(jìn)行尺寸縮減,保留320×240的尺寸。
由于大尺寸的圖像輸入至CNN中進(jìn)行訓(xùn)練會(huì)增加非常龐大的計(jì)算量,甚至出現(xiàn)訓(xùn)練過程中難以收斂的問題。為了盡可能有效地利用MSM中運(yùn)動(dòng)信息、適當(dāng)精簡(jiǎn)計(jì)算量,以及控制過擬合與欠擬合的問題,需要對(duì)CNN的每一層結(jié)構(gòu)進(jìn)行重新設(shè)計(jì)。如圖5所示,本文設(shè)計(jì)的模型共有11層,其中包含5個(gè)卷積層、4個(gè)池化層、1個(gè)全連接層和1個(gè)輸出層。第一層卷積運(yùn)算時(shí),卷積核尺寸被設(shè)置為11×11,步長為3,卷積核個(gè)數(shù)為256,描述了低級(jí)特征在原始圖片中的位置;第一個(gè)池化層采用重疊池化,核尺寸為3×3,有助于減少錯(cuò)誤率;因?yàn)閳D像尺寸上的變化,接下來的三層卷積運(yùn)算的卷積核尺寸被分別設(shè)置為5×5、3×3、3×3,個(gè)數(shù)設(shè)置為128,用逐次減小尺寸的卷積核表示更高級(jí)特征的激活映射;后三層的池化尺寸設(shè)計(jì)與圖像的尺寸相關(guān),分別為2×2、3×2、3×3,步長均為2,有效控制了過擬合,進(jìn)一步減小了圖片尺寸;由于輸出只有兩類,即正常和異常,因此設(shè)置全連接層結(jié)點(diǎn)個(gè)數(shù)為1 024,輸出層結(jié)點(diǎn)個(gè)數(shù)為2。
在激活函數(shù)設(shè)計(jì)方面,由于Relu函數(shù)增加了模型乃至整個(gè)神經(jīng)網(wǎng)絡(luò)的非線性特征,不會(huì)影響卷積層的感受野,并且可以加快收斂速度[20],因此使用Relu函數(shù)作為激活函數(shù)。另外,本文采用交叉熵作為損失函數(shù),網(wǎng)絡(luò)學(xué)習(xí)率被設(shè)置為0.000 01。
圖5 面向人群異常行為檢測(cè)的CNN模型
圖6 兩個(gè)數(shù)據(jù)集的測(cè)試結(jié)果
在該網(wǎng)絡(luò)結(jié)構(gòu)中,完整的輸入圖像和更深的卷積層數(shù)保留了充足的運(yùn)動(dòng)特征信息,池化層與卷積層的靈活設(shè)計(jì)減少了計(jì)算量,做到計(jì)算量和信息量之間的平衡。因此,該網(wǎng)絡(luò)結(jié)構(gòu)既能保留MSM中的人群運(yùn)動(dòng)信息,又能在有限數(shù)量的樣本訓(xùn)練時(shí),讓網(wǎng)絡(luò)快速達(dá)到收斂。本文針對(duì)MSM的特點(diǎn),設(shè)計(jì)CNN網(wǎng)絡(luò)結(jié)構(gòu),能有效、實(shí)時(shí)地應(yīng)用于人群異常行為檢測(cè)。CNN具有強(qiáng)大的分類能力,MSM使CNN所識(shí)別的對(duì)象不僅僅局限于具體的靜態(tài)目標(biāo),還可以是在圖像上表現(xiàn)出差異性的某種動(dòng)態(tài)現(xiàn)象,因此大大擴(kuò)大了CNN的應(yīng)用范疇,為CNN在動(dòng)態(tài)視頻識(shí)別領(lǐng)域提供研究基礎(chǔ)。
實(shí)驗(yàn)的硬件環(huán)境為:CPU為Core i7-7700K (Quad-core 4.2 GHz),顯卡為NVIDA GTX 1080ti,內(nèi)存為32 GB。軟件環(huán)境為:Windows 10 Pro操作系統(tǒng),MSM計(jì)算程序?yàn)镸atlab 9.0,CNN計(jì)算程序?yàn)镻ython 3.5和Tensorflow 1.2。
為了驗(yàn)證本文方法的有效性和實(shí)時(shí)性,本文利用UMN數(shù)據(jù)集和PETS2009數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試。UMN數(shù)據(jù)集是美國明尼蘇達(dá)大學(xué)為研究人群異常識(shí)別設(shè)立的公開數(shù)據(jù)集。本文從該數(shù)據(jù)集中選取三個(gè)場(chǎng)景的圖像序列作為實(shí)驗(yàn)測(cè)試的樣本,分別為廣場(chǎng)、室內(nèi)和草坪。圖像尺寸為320×240,幀率為25 frame/s。PETS2009是由英國雷丁大學(xué)授權(quán)使用的一個(gè)公開數(shù)據(jù)集,提供了關(guān)于人群人數(shù)與密度估計(jì)、跟蹤個(gè)人、人流檢測(cè)和人群事件檢測(cè)方面的研究數(shù)據(jù)。本文從人流檢測(cè)和人群事件檢測(cè)部分提取訓(xùn)練測(cè)試數(shù)據(jù),圖像尺寸為768×576,幀率是7 frame/s。
由于兩個(gè)數(shù)據(jù)集的尺寸、幀率以及拍攝場(chǎng)景、拍攝方位有較大的區(qū)別,因此本文將針對(duì)不同的數(shù)據(jù)集分別進(jìn)行訓(xùn)練和測(cè)試,測(cè)試結(jié)果如圖6所示。
在UMN數(shù)據(jù)集中,分別從三個(gè)場(chǎng)景中選擇一個(gè)視頻作為測(cè)試源數(shù)據(jù),其他的部分作為訓(xùn)練源數(shù)據(jù),測(cè)試結(jié)果中淺色代表正常幀,深色代表異常幀,數(shù)字代表幀數(shù);在PETS2009數(shù)據(jù)集中,選取兩個(gè)視頻Pet1和Pet2作為測(cè)試源數(shù)據(jù),其他的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。為了解決兩個(gè)數(shù)據(jù)集中異常行為樣本過少的問題,所有的異常行為的樣本都以180°翻轉(zhuǎn)、左右鏡像和上下鏡像的形式進(jìn)行數(shù)據(jù)擴(kuò)充,以平衡正負(fù)樣本懸殊的數(shù)量關(guān)系。為了定量描述每個(gè)場(chǎng)景的測(cè)試效果,本文根據(jù)實(shí)驗(yàn)結(jié)果繪制了受試者工作特性曲線(Receiver Operating Curve, ROC),為了使曲線可視化效果更好,將真陽性率(TPR)坐標(biāo)軸的刻度非均勻化顯示。同時(shí),計(jì)算了兩個(gè)數(shù)據(jù)集中每個(gè)場(chǎng)景ROC曲線下的面積(Area Under the Curve, AUC),并且將實(shí)驗(yàn)結(jié)果與近幾年提出的HOFO(SVM)[6]、HOFO(KPCA)[6]、HOFO[7]、PureOF(histogram of optical flow orientation Pure Optical Flow)[9]、純光流法(Pure Optical Flow,PureOF)[9]和綜合光流直方圖(Synthesized Histogram of Optical Flow,SHOF)[17]等方法進(jìn)行比較。其中:HOFO(SVM)是指基于SVM的HOFO分類算法;HOFO(KPCA)是指基于KPCA的HOFO分類算法。實(shí)驗(yàn)結(jié)果如表1~2所示。
CNN訓(xùn)練的迭代次數(shù)均35 000次。測(cè)試時(shí),記錄了本文方法對(duì)每一幀測(cè)試圖片平均檢測(cè)時(shí)間,并與SLT[3]、SAFM1[10]、SAFM2[11]和SHOF[17]相對(duì)比,如表3所示。
表1 UMN數(shù)據(jù)集中不同方法的AUC對(duì)比
注:“—”表示該文獻(xiàn)未提供在該場(chǎng)景下的測(cè)試數(shù)據(jù)。
表2 PETS2009數(shù)據(jù)集中不同方法的AUC對(duì)比
注:“—”表示該文獻(xiàn)未提供在該場(chǎng)景下的測(cè)試數(shù)據(jù)。
表3 不同方法的實(shí)時(shí)性表現(xiàn)
注:“—”表示該文獻(xiàn)未提供在該場(chǎng)景下的測(cè)試數(shù)據(jù)。
根據(jù)實(shí)驗(yàn)數(shù)據(jù)可知:
1)運(yùn)動(dòng)顯著圖能夠準(zhǔn)確反映人群運(yùn)動(dòng)特征。UMN數(shù)據(jù)集的真實(shí)情況與檢測(cè)結(jié)果幾乎完全一致,PETS2009數(shù)據(jù)集中的真實(shí)情況與檢測(cè)結(jié)果基本吻合,說明MSM有效地反映了正常與異常運(yùn)動(dòng)特征。
2)本文方法能夠有效檢測(cè)不同環(huán)境的人群異常行為。兩種行為的運(yùn)動(dòng)特征可以反映在MSM上,并且本文針對(duì)MSM設(shè)計(jì)了CNN模型結(jié)構(gòu),因此通過對(duì)運(yùn)動(dòng)顯著圖進(jìn)行監(jiān)督學(xué)習(xí),CNN能準(zhǔn)確區(qū)分不同行為下的運(yùn)動(dòng)特征,進(jìn)而準(zhǔn)確檢測(cè)人群的異常行為。從圖6可看出兩個(gè)數(shù)據(jù)集的ROC曲線較理想。
3)本文方法比其他方法更能有效識(shí)別臨界狀態(tài)的異常行為。由于本文引入了加速度幅值作為MSM的組成成分,所以在人群將要發(fā)生異常時(shí),人群的異常特征能在運(yùn)動(dòng)顯著圖中得以表現(xiàn),因此能夠提高臨界點(diǎn)的檢測(cè)率。從圖6中Pet1和Pet2的測(cè)試結(jié)果中可看出在人群異常剛出現(xiàn)時(shí)就檢測(cè)出了異常。
4)本文方法相對(duì)于其他經(jīng)典方法有更好的檢測(cè)效果。如表1~2所示,本文方法在UMN數(shù)據(jù)集中無論總體還是三個(gè)場(chǎng)景的AUC值均最高。其他的方法的整體AUC值不超過0.98;對(duì)于PETS2009數(shù)據(jù)集,其他的方法并未給出兩個(gè)場(chǎng)景的測(cè)試數(shù)據(jù);但在綜合測(cè)試數(shù)據(jù)中,本文的ACU值最高,其他方法的檢測(cè)率均不超過0.97。綜上數(shù)據(jù)可知,本文方法檢測(cè)效果更好。
5)本文方法有優(yōu)秀的實(shí)時(shí)性表現(xiàn)。本文方法在UMN和PETS2009兩個(gè)數(shù)據(jù)集中每幀的平均檢測(cè)時(shí)間分別為20 ms和29.17 ms,其中UMN數(shù)據(jù)集的尺寸與其他方法所用的數(shù)據(jù)集圖片尺寸接近,因此將其作為對(duì)比參數(shù)。如表3所示,相對(duì)于其他方法,雖然本文實(shí)驗(yàn)中的硬件配置具有一定的優(yōu)勢(shì),但因?yàn)樗惴ǖ膬?yōu)化,以致實(shí)時(shí)性的提升是數(shù)量級(jí)的,完全滿足多路實(shí)時(shí)監(jiān)控的要求。
本文提出了一種將人群動(dòng)態(tài)特性用靜態(tài)圖像表述的運(yùn)動(dòng)顯著圖方法,并利用CNN作為分類器解決人群異常檢測(cè)的問題。該方法首先利用光流法計(jì)算圖像序列中特征點(diǎn)的光流場(chǎng);隨后進(jìn)行時(shí)間和空間上的濾波處理;然后提取有效的運(yùn)動(dòng)特征和各類運(yùn)動(dòng)參數(shù),并歸一化,提出了包含速度幅值、運(yùn)動(dòng)方向變化量以及加速度幅值在內(nèi)的運(yùn)動(dòng)顯著圖MSM;再設(shè)計(jì)面向MSM的CNN模型,對(duì)取自不同數(shù)據(jù)集的樣本分別訓(xùn)練;最后用于人群行為的檢測(cè)。對(duì)UMN和PETS2009數(shù)據(jù)集的樣本分別進(jìn)行測(cè)試,并與幾種經(jīng)典的方法進(jìn)行了對(duì)比分析。實(shí)驗(yàn)結(jié)果表明,本文方法在檢測(cè)準(zhǔn)確性和實(shí)時(shí)性上優(yōu)勢(shì)明顯。
本文方法也存在一定的局限性。由于本文是通過光流法提取運(yùn)動(dòng)特征的,雖然采用了時(shí)間和空間的濾波方法,能夠解決光線變化等引起的光流不穩(wěn)定問題,但是受視頻的缺幀、重幀和跳幀影響仍然較大。另外,本文為CNN的模型只設(shè)置了兩種輸出,即正常和異常,并沒有識(shí)別是何種異常行為。因此未來的工作將集中于如何優(yōu)化光流穩(wěn)定性,以及對(duì)不同異常行為的分類問題。
參考文獻(xiàn)(References)
[1] LI T, CHANG H, WANG M, et al. Crowded scene analysis: a survey[J]. IEEE Transactions on Circuits & Systems for Video Technology, 2015, 25(3): 367-386.
[2] SOLERA F, CALDERARA S, CUCCHIARA R. Socially constrained structural learning for groups detection in crowd[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(5): 995-1008.
[3] BISWAS S, BABU R V. Anomaly detection via short local trajectories[J]. Neurocomputing, 2017, 242: 63-72.
[4] DALAL N, TRIGGS B, SCHMID C. Human detection using oriented histograms of flow and appearance[C]// Proceedings of the 9th European Conference on Computer Vision. Berlin: Springer, 2006: 428-441.
[5] WANG T, CHEN J, SNOUSSI H. Online detection of abnormal events in video streams[J]. Journal of Electrical and Computer Engineering, 2013, 2013: Article No. 20.
[6] WANG T, SNOUSSI H. Detection of abnormal events via optical flow feature analysis[J]. Sensors, 2015, 15(4): 7156-7171.
[7] WANG T, SNOUSSI H. Detection of abnormal visual events via global optical flow orientation histogram[J]. IEEE Transactions on Information Forensics & Security, 2014, 9(6): 988-998.
[8] 陳麗, 陳靜. 基于支持向量機(jī)和k-近鄰分類器的多特征融合方法[J]. 計(jì)算機(jī)應(yīng)用, 2009, 29(3): 833-835.(CHEN L, CHEN J. Multi-feature fusion method based on support vector machine andk-nearest neighbor classifier[J]. Journal of Computer Applications, 2009, 29(3): 833-835.)
[9] MEHRAN R, OYAMA A, SHAH M. Abnormal crowd behavior detection using social force model[C]// CVPR 2009: Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 935-942.
[10] ZHANG Y, QIN L, JI R, et al. Social attribute-aware force model: exploiting richness of interaction for abnormal crowd detection[J]. IEEE Transactions on Circuits & Systems for Video Technology, 2015, 25(7): 1231-1245.
[11] ZHANG Y, QIN L, YAO H, et al. Abnormal crowd behavior detection based on social attribute-aware force model[C]// Proceedings of the 2012 19th IEEE International Conference on Image Processing. Piscataway, NJ: IEEE, 2012: 2689-2692.
[12] ZHOU B, TANG X, WANG X. Learning collective crowd behaviors with dynamic pedestrian-agents[J]. International Journal of Computer Vision, 2015, 111(1): 50-68.
[13] 張文達(dá), 許悅雷, 倪嘉成, 等. 基于多尺度分塊卷積神經(jīng)網(wǎng)絡(luò)的圖像目標(biāo)識(shí)別算法[J]. 計(jì)算機(jī)應(yīng)用, 2016, 36(4): 1033-1038.(ZHANG W D, XU Y L, NI J C, et al. Image target recognition method based on multi-scale block convolutional neural network[J]. Journal of Computer Applications, 2016, 36(4): 1033-1038.)
[14] SAINATH T N, MOHAMED A R, KINGSBURY B, et al. Deep convolutional neural networks for LVCSR[C]// Proceedings of the 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2013: 8614-8618.
[15] LEVI G, HASSNCER T. Age and gender classification using convolutional neural networks[C]// Proceedings of the 2015 IEEE Workshop on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 34-42.
[16] HORN B K P, SCHUNCK B G. Determining optical flow[J]. Artificial Intelligence, 1981, 17(1/2/3): 185-203.
[17] 熊饒饒, 胡學(xué)敏, 陳龍. 利用綜合光流直方圖的人群異常行為檢測(cè)[J].計(jì)算機(jī)工程, 2017,43(10): 228-233.(XIONG R R, HU X M, CHEN L. Abnormal crowd behavior detection via synthesized optical flow histogram[J]. Computer Engineering, 2017,43(10): 228-233.)
[18] 李彥冬, 郝宗波, 雷航. 卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 計(jì)算機(jī)應(yīng)用, 2016, 36(9): 2508-2515.(LI Y D, HAO Z B, LEI H. Survey of convolutional neural network[J]. Journal of Computer Applications, 2016, 36(9): 2508-2515.)
[19] CUN Y L, BOSER B, DENKER J S, et al. Handwritten digit recognition with a back-propagation network[C]// NIPS 1989: Proceedings of the 2nd International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 1990: 396-404.
[20] NAIR V, HINTON G E. Rectified linear units improve restricted Boltzmann machines[C]// ICML 2010: Proceedings of the 27th International Conference on Machine Learning. [S.l.]: Omnipress, 2010: 807-814.
This work is partially supported by the Youth Talent Project of Scientific Research Plan of Hubei Provincial Education Department .