馬國(guó)祥 楊文忠 溫杰彬 姚苗 秦旭
摘 ?要: 針對(duì)視頻中人群異常行為檢測(cè)問(wèn)題,提出一種基于場(chǎng)景相似性和光流的人群異常行為檢測(cè)方法。該方法分別使用卷積網(wǎng)絡(luò)和光流提取視頻中人群的外觀特征和運(yùn)動(dòng)特征。在外觀特征方面,使用感知哈希算法得到場(chǎng)景相似性異常值;在運(yùn)動(dòng)特征方面,改進(jìn)Shi?Tomasi特征提取算法,并利用局部光流法提取運(yùn)動(dòng)特征異常值。文中將兩種特征的異常值融合作為異常行為的判定依據(jù)。在異常行為建模方面,使用單分類SVM對(duì)異常值進(jìn)行建模。在UMN基準(zhǔn)數(shù)據(jù)集上進(jìn)行對(duì)比試驗(yàn),文中提出的融合方法取得了較好的檢測(cè)效果,AUC值能夠達(dá)到0.91。
關(guān)鍵詞: 異常行為檢測(cè); 外觀特征提取; 運(yùn)動(dòng)特征提取; 特征融合; 行為建模; 對(duì)比試驗(yàn)
中圖分類號(hào): TN911.23?34; TP391.4 ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼: A ? ? ? ? ? ? ? ? ? ?文章編號(hào): 1004?373X(2020)02?0090?07
Method of crowd anomaly detection based on scene similarity and optical flow
MA Guoxiang1, YANG Wenzhong2, WEN Jiebin2, YAO Miao1, QIN Xu1
Abstract: As the detection of the crowd abnormal behavior in the video, a method of crowd abnormal behavior detection based on scene similarity and optical flow is proposed. In this method, the convolutional network and optical flow is respectively used to extract the appearance features and the motion features of the crowd in the video. In terms of the appearance features, the abnormal values of scene similarity are obtained by means of the perceptual hash algorithm (PHA). In the aspect of the motion features, the Shi?Tomasi feature extraction algorithm is improved, and the abnormal values of motion features are extracted by means of the local optical flow method. The fusion of the two features′ abnormal values is taken as the basis for the determination of abnormal behavior. In the aspect of the abnormal behavior modeling, modeling of the abnormal values is carried out with the single classification SVM. The contrast test was performed on the UMN benchmark data sets. The fusion method proposed in this paper has achieved good detection results, and the AUC value can reach 0.91.
Keywords: abnormal behavior detection; appearance feature extraction; motion feature extraction; feature fusion; behavior modeling; contrast test
0 ?引 ?言
近年來(lái),群體斗毆、非法聚集等群體異常行為時(shí)有發(fā)生,對(duì)社會(huì)的公共安全造成很大的威脅[1]。因此,對(duì)監(jiān)控場(chǎng)景的群體異常行為檢測(cè),實(shí)現(xiàn)在線預(yù)警成為計(jì)算機(jī)視覺(jué)和模式識(shí)別等領(lǐng)域重要的前沿課題。然而,由于視頻中人群運(yùn)動(dòng)的復(fù)雜性和異常事件的多樣性,難以對(duì)視頻中的異常行為進(jìn)行準(zhǔn)確描述。其次,視頻監(jiān)控大都部署在人群密集的公共場(chǎng)所,監(jiān)控場(chǎng)景多樣且人群中個(gè)體之間存在相互遮擋,導(dǎo)致提取的行為特征不準(zhǔn)確、異常行為建模困難等問(wèn)題。
目前,國(guó)內(nèi)外學(xué)者在群體異常行為檢測(cè)方面已經(jīng)取得了一定成果。其中,Mehran等人提出了社會(huì)力異常行為檢測(cè)模型,該方法利用社會(huì)力模型描述的視頻序列中的運(yùn)動(dòng)特征與周圍空間的相互作用力,并根據(jù)社會(huì)力的強(qiáng)度描述視頻圖像中運(yùn)動(dòng)物體的行為,最后使用詞袋模型對(duì)當(dāng)前幀的異常行為進(jìn)行檢測(cè)[2]?;诠饬餍畔?,研究人員建立了多種模型進(jìn)行異常行為檢測(cè),如運(yùn)動(dòng)影響系數(shù)矩陣[3]、運(yùn)動(dòng)能量模型[4]、能量模型[5]等。
另外,文獻(xiàn)[6]提出對(duì)時(shí)空視頻序列進(jìn)行聚類的異常行為檢測(cè)方法,該方法首先利用交互式視頻摳像技術(shù)提取訓(xùn)練模板,并利用改進(jìn)的均值漂移算法將視頻自動(dòng)分割成三維時(shí)空塊;然后在視頻上滑動(dòng)模板并計(jì)算匹配距離,從而實(shí)現(xiàn)對(duì)異常行為的檢測(cè)。這些方法主要關(guān)注的是視頻序列中運(yùn)動(dòng)目標(biāo)軌跡或光流和梯度等底層次特征的表示[7?9],并且需要手動(dòng)提取特征。這種人工干預(yù)的特征提取方式,導(dǎo)致從視頻序列中提取出的運(yùn)動(dòng)和外觀特征主觀性強(qiáng)、描述性弱,只能適用于單一場(chǎng)景的異常檢測(cè),難以應(yīng)用于復(fù)雜多變的現(xiàn)實(shí)場(chǎng)景中。
近年來(lái),深度學(xué)習(xí)的方法在圖像領(lǐng)域得到了廣泛的研究,如物體分類[10]、人臉識(shí)別[11]、文字識(shí)別[12]、行為識(shí)別[13]等。其中,卷積神經(jīng)網(wǎng)絡(luò)以其優(yōu)秀的特征提取能力成為圖像研究領(lǐng)域最為有效的工具之一,并得到廣泛的應(yīng)用。因此,本文將卷積網(wǎng)絡(luò)應(yīng)用于人群異常行為檢測(cè)中,提取更深層次的圖像特征。然而,在人群異常行為檢測(cè)問(wèn)題中,由于異常數(shù)據(jù)集常常難以收集,所以無(wú)法完成對(duì)多層卷積網(wǎng)絡(luò)反向傳播的訓(xùn)練過(guò)程,即使可以完成訓(xùn)練,也會(huì)由于數(shù)據(jù)集中訓(xùn)練樣本數(shù)量較少,導(dǎo)致過(guò)擬合等問(wèn)題。
根據(jù)文獻(xiàn)[14],可以使用已經(jīng)訓(xùn)練好的AlexNet卷積網(wǎng)絡(luò)模型進(jìn)行特征提取,不僅降低模型訓(xùn)練復(fù)雜度,而且增加了卷積網(wǎng)絡(luò)的靈活性。由于卷積網(wǎng)絡(luò)提取的特征映射較多,本文使用感知哈希算法進(jìn)行編碼壓縮后再進(jìn)行相似度比較。此外,為了提高模型的魯棒性,將局部光流方法融合到基于CNN的感知哈希算法中;然后融合兩種異常值并使用單分類SVM進(jìn)行異常行為建模。經(jīng)過(guò)在UMN[15]基準(zhǔn)數(shù)據(jù)集上驗(yàn)證,本文提出的算法能夠取得較好的異常檢測(cè)效果。
1 ?算法思路及步驟
本文從場(chǎng)景相似性和局部光流值變化的角度出發(fā),提出了一種魯棒的視頻人群異常行為檢測(cè)模型。首先,利用遷移學(xué)習(xí)的思想,將視頻序列輸入已經(jīng)預(yù)訓(xùn)練好的卷積網(wǎng)絡(luò)提取人群外觀特征;并使用感知哈希算法對(duì)提取到的特征圖進(jìn)行編碼,得到當(dāng)前圖像特征指紋;計(jì)算相鄰幀間圖像指紋相似度,并根據(jù)相似度的大小確定當(dāng)前幀的異常程度。視頻文件的特征不僅包含了圖像外觀高層語(yǔ)義特征,還包括視頻中目標(biāo)移動(dòng)所產(chǎn)生的運(yùn)動(dòng)特征。
本文提出使用基于Shi?Tomasi特征點(diǎn)增強(qiáng)的Lucas?Kanade光流方法提取目標(biāo)的局部光流特征。最后,將幀間相似度和光流值融合作為最終異常行為判定的依據(jù)。在異常行為建模方面,本文使用One?class SVM對(duì)正常情況下的融合值進(jìn)行建模,從而避免閾值等不確定性因素對(duì)人群異常檢測(cè)的影響。
具體框架如圖1所示。
1.1 ?深度外觀特征提取
外觀特征提取是進(jìn)行圖像高層語(yǔ)義識(shí)別的重要一步。為了能夠提取更好的外觀特征,本文使用卷積網(wǎng)絡(luò)作為特征提取的工具。目前很少有專門為異常檢測(cè)任務(wù)訓(xùn)練的卷積網(wǎng)絡(luò)模型。但是,卷積網(wǎng)絡(luò)在圖像處理中擴(kuò)展性較強(qiáng),可以將圖像分類任務(wù)中得到極好驗(yàn)證的網(wǎng)絡(luò)模型遷移在其他類似的圖像處理任務(wù)中。
本文使用AlexNet[10]卷積網(wǎng)絡(luò)模型,包含5個(gè)卷積層和兩個(gè)全連接層。該模型訓(xùn)練了1 183個(gè)類別,每個(gè)類別都有來(lái)自MIT數(shù)據(jù)庫(kù)的205個(gè)場(chǎng)景類別,以及360萬(wàn)幅來(lái)自ILSVRC2012 (ImageNet)訓(xùn)練數(shù)據(jù)集的978個(gè)對(duì)象類別[16]。本文為了能夠得到輸入圖像的特征圖,移除AlexNet卷積網(wǎng)絡(luò)的最后兩個(gè)全連接層。通過(guò)該模型提取的特征圖,能夠保持原圖更多的局部和全局信息,對(duì)應(yīng)著原圖中更大范圍的感受野。因此,可以保持更多的空間上下文信息。當(dāng)一幀圖像經(jīng)過(guò)本文的卷積網(wǎng)絡(luò),會(huì)產(chǎn)生256個(gè)6×6的特征圖[It],記為:
[It=fti,j,1,fti,j,2,…,fti,j,K]
式中:[K]的值為256,表示第[t]幀的圖像經(jīng)過(guò)卷積網(wǎng)絡(luò)提取的256個(gè)特征圖;[i,j]表示二維特征圖的第[i]行第[j]列的像素坐標(biāo)點(diǎn)。AlexNet網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
1.2 ?感知哈希編碼
由于視頻圖像的計(jì)算代價(jià)較高,為了提高視頻中幀間的異常檢測(cè)的處理效率,降低模型的計(jì)算復(fù)雜度,本文使用基于圖像指紋的感知哈希算法。感知哈希(Perceptual Hash)是一種基于認(rèn)知心理學(xué)的信息加工理論,由多媒體數(shù)據(jù)集到多媒體感知摘要集的一類單向映射,將具有相同感知內(nèi)容的多媒體數(shù)字表示成唯一的映射作為一段數(shù)字摘要,并滿足感知安全性要求的哈希算法[17]。
此外,為了壓縮數(shù)據(jù)量,消除冗余數(shù)據(jù),感知哈希算法使用2?D離散余弦變換(Discrete Cosine Transform,DCT)[18]進(jìn)行數(shù)據(jù)壓縮,DCT圖像變換編碼技術(shù)可以在消除冗余數(shù)據(jù)的同時(shí),盡可能多地保留原始圖片的有用信息,能夠有效地避免在存儲(chǔ)、傳輸、處理等階段帶來(lái)的額外計(jì)算代價(jià)。本文對(duì)視頻每一幀提取到的卷積特征使用感知哈希算法進(jìn)行編碼。根據(jù)第1.1節(jié)可知,第t幀圖像經(jīng)過(guò)AlexNet卷積網(wǎng)絡(luò)后產(chǎn)生的卷積特征圖為[It=fti,j,1,fti,j,2,…,fti,j,K]。本文針對(duì)卷積網(wǎng)絡(luò)提取到的特征圖使用感知哈希算法進(jìn)行編碼,得到第[t]幀圖像的[K]個(gè)特征圖指紋集合[Φt]:
[Φt=T1,T2,…,TK]
式中:[TK]為每個(gè)特征圖[ft]生成一個(gè)64位的特征圖像指紋;[K]的值為256,表示256個(gè)特征圖。提取視頻幀的圖像指紋結(jié)構(gòu)圖如圖3所示。
為了有效地捕捉視頻序列在時(shí)域上的變化,本文取連續(xù)10幀視頻塊的特征相似度的均值作為當(dāng)前幀的異常度。由于提取到的圖像指紋編碼為二進(jìn)制編碼,所以本文使用海明距離度量幀間相似度。計(jì)算公式如下:
[Asimilarity=1Nt-10≤i≤tHΦi,Φi]
式中:[N]取10,即前10幀與當(dāng)前哈希編碼比較相似度;[H·]為相似性度量函數(shù),取海明距離;[Φi]為當(dāng)前圖像的特征指紋。
1.3 ?改進(jìn)Shi?Tomasi特征點(diǎn)檢測(cè)方法
Shi?Tomasi算法是對(duì)Harris算法的簡(jiǎn)單改進(jìn),用于檢測(cè)圖像中沿著各個(gè)方向灰度值均發(fā)生劇烈變化的點(diǎn),或是邊緣曲線上取極大值的點(diǎn)[19]。該算法中引入了一階偏導(dǎo)數(shù)即圖像中鄰域像素梯度,計(jì)算圖像局部的小窗口沿著各個(gè)方向以微小量移動(dòng)后圖像灰度的變化。其基本思想為:若沿著任意方向移動(dòng)灰度變化都很小,則小窗口處于圖像的平坦區(qū)域;若沿某一特定方向移動(dòng)灰度變化很小,且沿著其垂直的方向移動(dòng),灰度變化很大,則小窗口在圖像邊緣處;若沿任意的方向移動(dòng)灰度變化都很大,則小窗口在角點(diǎn)處。若局部窗口[W(x,y)]平移[Δx,Δy]后,灰度變化的形式化表示如下:
[GΔx,Δy=W(x,y)ω(x,y)Ix,y-I(x+Δx,y+Δy)2] (1)
式中:[ω(x,y)]為加權(quán)函數(shù),常用高斯加權(quán)函數(shù);[Ix,y]表示點(diǎn)[x,y]處的灰度值。將式(1)泰勒展開,得:
[GΔx,Δy=Δx,ΔyM(x,y)ΔxΔy]
[Mx,y=W(x,y)ω(x,y)I2xIxIyIxIyI2y]
式中,[Ix],[Iy]分別表示圖像灰度在[x],[y]方向上的梯度值。定義特征點(diǎn)響應(yīng)函數(shù)為:
[R=min (λ1,λ2)]
通過(guò)計(jì)算自相關(guān)函數(shù)的兩個(gè)特征值,若最小的特征值[R]大于閾值時(shí),當(dāng)前特征點(diǎn)即為Shi?Tomasi角點(diǎn)。
Shi?Tomasi角點(diǎn)提取方法具有較好的穩(wěn)定性,不易受到光照條件、噪聲等影響。但是由于人群場(chǎng)景的復(fù)雜性,利用該方法檢測(cè)出的角點(diǎn)數(shù)量有限,不能很好地表示關(guān)鍵位置的運(yùn)動(dòng)特征。所以,為了提高表征顯著運(yùn)動(dòng)特征的能力,本文提出將LOF(Local Outlier Factor)[20]異常檢測(cè)算法應(yīng)用在角點(diǎn)特征的檢測(cè)中增加異常角點(diǎn)數(shù)量。當(dāng)前幀初始角點(diǎn)[Pt]為Shi?Tomasi檢測(cè)的默認(rèn)角點(diǎn)[Pt0]以及前兩幀的LOF算法檢測(cè)出的光流顯著變化的角點(diǎn)[St-1],[St-2]的總和。具體算法如下:
算法描述:
begin
for each frame in T:
1) 計(jì)算當(dāng)前幀圖像的Shi?Tomasi角點(diǎn)[Pt0]
2) 計(jì)算前兩幀每一個(gè)特征點(diǎn)的光流;
[Vt-1=Vt-1p0,Vt-1p2,…,Vt-1pn]
[Vt-2=Vt-2p0,Vt-2p2,…,Vt-2pn ]
3) 使用LOF算法提取顯著特征點(diǎn);
[St-1=LOFVt-1]
[St-2=LOFVt-2]
4) 保留前兩幀檢測(cè)出的顯著角點(diǎn),添加到當(dāng)前初始角點(diǎn)中,作為檢測(cè)下一幀的初始局部特征點(diǎn);
[Pt=Pt0∪St-1∪St-2]
end
改進(jìn)Shi?Tomasi特征點(diǎn)檢測(cè)算法后,特征點(diǎn)檢測(cè)在UMN數(shù)據(jù)集上的檢測(cè)結(jié)果如圖4所示。
圖4中,左邊是原始Shi?Tomasi算法檢測(cè)后的特征角點(diǎn);右邊是經(jīng)過(guò)改進(jìn)后的Shi?Tomasi特征點(diǎn)增強(qiáng)算法。其中綠色為增強(qiáng)到當(dāng)前幀的特征角點(diǎn),黃色為原始角點(diǎn)。從圖中可以看出,在運(yùn)動(dòng)較劇烈的位置,角點(diǎn)數(shù)量有了明顯提高。
1.4 ?金字塔Lucas?Kanade光流提取算法
光流(Optical Flow)的基本定義是三維空間中運(yùn)動(dòng)目標(biāo)在成像平面中對(duì)應(yīng)像素的二維運(yùn)動(dòng)瞬時(shí)速度。其中,LK(Lucas?Kanade)算法是一種稀疏光流跟蹤方法,與Horn?Schunck算法的全局平滑約束條件不同,LK光流法認(rèn)為像素在小范圍區(qū)域有近似相同的運(yùn)動(dòng)。因此,只需要獲取興趣點(diǎn)領(lǐng)域內(nèi)的局部信息即可,即光流的局部平滑約束。但是,利用小范圍領(lǐng)域來(lái)度量光流的方法存在不足之處,當(dāng)較大的運(yùn)動(dòng)出現(xiàn)時(shí),會(huì)導(dǎo)致特征點(diǎn)移出度量領(lǐng)域的情況發(fā)生,從而造成無(wú)法再找到這些點(diǎn)。因此,有學(xué)者提出金字塔LK光流算法,即從圖像金字塔的最高層開始向金字塔的底層進(jìn)行迭代跟蹤?;诮鹱炙P偷腖K光流跟蹤方法既可以估計(jì)小范圍內(nèi)微小的光流變化,也可以估計(jì)特征角點(diǎn)運(yùn)動(dòng)較大時(shí)的光流。金字塔光流如圖5所示。
因此,本文針對(duì)提取到的人群特征點(diǎn),使用光流檢測(cè)效果較好的金字塔LK光流方法計(jì)算特征點(diǎn)光流變化情況,并將光流作為運(yùn)動(dòng)特征用于人群異常事件建模。
2 ?群體異常行為建模
由于在復(fù)雜的人群視頻場(chǎng)景中,異常行為發(fā)生的次數(shù)較少且模式多變[21]。針對(duì)這個(gè)特點(diǎn),本文使用基于單類別的異常檢測(cè)技術(shù)One?class SVM。該方法假設(shè)訓(xùn)練數(shù)據(jù)集服從一個(gè)統(tǒng)一的分布,并學(xué)習(xí)該分布的邊界,以此界定當(dāng)前觀測(cè)樣本是否屬于該類。如果觀測(cè)樣本被分在邊界之外,則被認(rèn)為是異常樣本點(diǎn)。所以,根據(jù)計(jì)算到的幀間相似性和局部光流的異常值,選用正常情況下的數(shù)據(jù)樣本,對(duì)One?class SVM進(jìn)行訓(xùn)練,從而完成對(duì)異常事件的建模。
2.1 ?One?class SVM模型
One?class SVM是一個(gè)使用廣泛的異常檢測(cè)算法,該方法的主要思路是學(xué)習(xí)訓(xùn)練數(shù)據(jù)集的外接超平面。當(dāng)觀測(cè)樣本數(shù)據(jù)落在超平面的外面,則當(dāng)前觀測(cè)判定為異常。假設(shè)給定訓(xùn)練樣本數(shù)據(jù)為[D=dkiNki=1],則One?class SVM模型優(yōu)化方程形式化為:
[minw,ρ12w2+1vNki=1Nkξi-ρ]
[s.t. ?wTΦdki≥ρ-ξi,ξi≥0]
式中:[w]為需要根據(jù)訓(xùn)練數(shù)據(jù)學(xué)習(xí)的權(quán)重向量;[ρ]為偏置值;超參數(shù)[v∈(0,1]]表示訓(xùn)練誤差分?jǐn)?shù)的上界和支持向量分?jǐn)?shù)的下界;[Φ?]為特征映射函數(shù),將原始空間的樣本數(shù)據(jù)[dki]映射到更高維的空間,使其能夠線性可分,進(jìn)而求解最大超平面。本文由于異常值樣本數(shù)據(jù)維度不高,數(shù)據(jù)分布較為簡(jiǎn)單,所以[Φ?]選用線性映射函數(shù)。本文中,使用UMN數(shù)據(jù)集中正常情況下的融合異常值,進(jìn)行單分類SVM模型的訓(xùn)練。
2.2 ?異常值融合
根據(jù)計(jì)算的幀間不規(guī)則度和局部光流的異常值,本文采用乘積的方式進(jìn)行融合操作,具體公式如下:
[At=(1-Atsimilarity)R(Atlk)]
式中:[(1-Atsimilarity)]表示幀間不規(guī)則度;[Atlk]表示局部光流值。此外,對(duì)當(dāng)前幀的局部光流值進(jìn)行歸一化操作,歸一化函數(shù)[R(?)]使用雙曲正切函數(shù)。根據(jù)異常規(guī)則,當(dāng)場(chǎng)景中發(fā)生異常行為時(shí),幀間不規(guī)則度和局部光流值會(huì)出現(xiàn)急劇突變的情況。
計(jì)算得到當(dāng)前幀的異常值[At]后,根據(jù)已經(jīng)訓(xùn)練好的One?class SVM模型確定當(dāng)前幀是否為異常幀,判別公式如下:
[正常幀, ? ? 模型為inlier異常幀, ? ? 模型為outlier]
3 ?實(shí)驗(yàn)結(jié)果與分析
本實(shí)驗(yàn)的硬件平臺(tái)采用Intel i5 2.3 GHz,4 GB內(nèi)存,軟件平臺(tái)為Windows環(huán)境下Python語(yǔ)言編寫試驗(yàn)代碼。選取UMN人群異常數(shù)據(jù)庫(kù)作為模型測(cè)試數(shù)據(jù)集。試驗(yàn)結(jié)果表明本文提出的方法能夠有效地對(duì)人群異常事件進(jìn)行檢測(cè)。
3.1 ?數(shù)據(jù)集
UMN數(shù)據(jù)集包括綠地、室內(nèi)、廣場(chǎng)三個(gè)場(chǎng)景共11個(gè)視頻片段,視頻像素分辨率均為240×320。場(chǎng)景中包含的正常行為定義為:一群人停住、行走或游蕩;異常行為有:人群奔跑、人群逃散等視頻場(chǎng)景中目標(biāo)的劇烈運(yùn)動(dòng)情況。UMN數(shù)據(jù)集人群正常與異常行為舉例如圖6所示。
3.2 ?實(shí)驗(yàn)設(shè)計(jì)
為了驗(yàn)證本文提出方法的有效性,分別在場(chǎng)景相似性、局部光流、融合場(chǎng)景相似性和局部光流三種情況下進(jìn)行測(cè)試。在UMN數(shù)據(jù)集中各場(chǎng)景的檢測(cè)結(jié)果圖7所示。其中,圖7為三種方法的異常值波動(dòng)曲線,陰影區(qū)域?yàn)樗惴z測(cè)到的異常幀,曲線綠色部分表示標(biāo)記為正常幀的波動(dòng)情況,曲線紅色部分表示標(biāo)記為異常的波動(dòng)情況。表1為綠地場(chǎng)景一的量化數(shù)據(jù)。本文取綠地場(chǎng)景一中前600幀作為實(shí)驗(yàn)數(shù)據(jù)。
從圖7可以明顯地看出異常值的幅度變化情況,當(dāng)異常值出現(xiàn)急劇變化的情況時(shí),則表明當(dāng)前時(shí)刻該場(chǎng)景發(fā)生了異常事件。三種方法均能檢測(cè)到異常事件的發(fā)生,但是可以從圖7a)明顯看出在使用CNN及感知哈希算法情況下,檢測(cè)到的異常事件存在一定的滯后;而圖7b)使用LK局部光流算法雖然在檢測(cè)及時(shí)性方面有所改善,但是存在誤檢的情況;圖7c)是融合了兩種算法后的異常值波動(dòng)情況,可以看出在誤檢率和檢測(cè)精度方面都有所改善。
表1為三種方法檢測(cè)結(jié)果的具體量化,對(duì)比三種檢測(cè)方法,在檢測(cè)準(zhǔn)確率方面結(jié)合CNN的感知哈希算法、LK局部光流、融合算法分別為0.90,0.97,0.97。但是,融合兩種算法的檢測(cè)結(jié)果在正常幀標(biāo)記下的誤檢幀數(shù)有所降低。
本文方法在室內(nèi)場(chǎng)景一數(shù)據(jù)集中前468幀的實(shí)驗(yàn)結(jié)果如圖8、表2所示。
從圖8可以看出在該場(chǎng)景下的檢測(cè)效果比綠地場(chǎng)景稍差一些。具體體現(xiàn)在圖中,表現(xiàn)為異常幀波動(dòng)情況較小,異常值抖動(dòng)較為劇烈。從圖8a)明顯看出,在使用CNN及感知哈希算法情況下,當(dāng)異常事件發(fā)生時(shí),曲線雖然有所上升但是起伏程度不明顯;LK光流(圖8b))、融合方法(圖8c))兩種方法在異常值發(fā)生時(shí),抖動(dòng)劇烈,會(huì)出現(xiàn)在異常時(shí)刻曲線驟降的情況。本文歸結(jié)該現(xiàn)象的原因?yàn)閿?shù)據(jù)集場(chǎng)景受明暗、對(duì)比度等客觀因素影響過(guò)大。導(dǎo)致比較幀間相似度時(shí)人群處于較暗部分,未能有效提取到人群差異和LK局部光流信息。
在室內(nèi)場(chǎng)景的量化數(shù)據(jù)如表2所示,三種方法準(zhǔn)確率分別為0.74,0.89,0.90。其中融合感知哈希算法和LK局部光流方法在正常標(biāo)記下誤檢幀的數(shù)量有所上升,但是在準(zhǔn)確率方面可以保持較好的檢測(cè)效果。
本文方法在廣場(chǎng)場(chǎng)景一數(shù)據(jù)集前625幀的測(cè)試情況如圖9、表3所示。
從圖9可直觀地看到,三種方法均能較好地檢測(cè)到異常事件的變化過(guò)程。但是CNN及感知哈希算法(圖9a)和LK局部光流(圖9b))均存在一定的誤檢幀;而圖9c)是融合了兩種算法,可以看出在正常標(biāo)記下誤檢幀數(shù)和檢測(cè)精度方面均有所改善。從表3試驗(yàn)結(jié)果可以看出,檢測(cè)結(jié)果較好。結(jié)合CNN的感知哈希算法、LK局部光流、融合算法準(zhǔn)確率分別達(dá)到0.97,0.96,0.98。
3.3 ?對(duì)比實(shí)驗(yàn)
為了評(píng)估和量化本文算法的有效性,本文選用一些已經(jīng)取得較好效果的經(jīng)典算法光流(Optical Flow)、社會(huì)力模型(Social Force)[2]作相關(guān)對(duì)比試驗(yàn)。結(jié)果顯示,本文提出的算法在準(zhǔn)確率方面能夠達(dá)到與最好算法接近的水平。此外,為了說(shuō)明卷積網(wǎng)絡(luò)和感知哈希算法的結(jié)合能夠有效地檢測(cè)密集人群的異常行為,測(cè)試了不使用卷積網(wǎng)絡(luò)的情況下感知哈希算法對(duì)異常行為的檢測(cè)情況,對(duì)比試驗(yàn)結(jié)果如表4所示。
對(duì)比上述算法的AUC值,在不使用卷積網(wǎng)絡(luò)提取高層外觀特征的情況下,感知哈希算法的AUC值僅為0.51;基于CNN的感知哈希方法和LK局部光流的方法的AUC值分別為0.79,0.88;而融合了基于CNN的感知哈希方法和LK局部光流的方法取得了比使用單一算法更好的效果,AUC最終取得了0.91的良好效果。
4 ?結(jié) ?語(yǔ)
本文針對(duì)視頻中人群的異常行為,提出一種基于場(chǎng)景相似性和光流的人群異常行為檢測(cè)模型。首先,利用卷積網(wǎng)絡(luò)提取人群外觀特征,并使用感知哈希算法對(duì)提取到的特征圖進(jìn)行編碼,計(jì)算相鄰幀間圖像指紋的相似度,根據(jù)相似度的大小確定當(dāng)前幀外觀特征的異常程度。在運(yùn)動(dòng)特征異常檢測(cè)方面,本文使用基于Shi?Tomasi特征點(diǎn)增強(qiáng)的Lucas?Kanade光流方法提取目標(biāo)的局部光流特征。最后,將幀間相似度和光流值融合作為最終異常行為判定的依據(jù)。在異常行為建模方面,本文使用單分類SVM對(duì)正常情況下的融合值進(jìn)行建模,從而避免閾值等不確定性因素對(duì)人群異常檢測(cè)的影響。經(jīng)過(guò)在UMN人群數(shù)據(jù)集上驗(yàn)證,本文提出的算法能夠較好地檢測(cè)出視頻中人群異常,并取得較好的檢測(cè)效果。
注:本文通訊作者為楊文忠。
參考文獻(xiàn)
[1] HALBE M, VYAS V, VAIDYA Y M. Abnormal crowd behavior detection based on combined approach of energy model and threshold [C]// International Conference on Pattern Recognition and Machine Intelligence. Kolkata: Springer, 2017: 187?195.
[2] MEHRAN R, OYAMA A, SHAH M. Abnormal crowd behavior detection using social force model [C]// 2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Miami: IEEE, 2009: 935?942.
[3] LEE D G, SUK H I, LEE S W. Crowd behavior representation using motion influence matrix for anomaly detection [C]// 2013 2nd IAPR Asian Conference on Pattern Recognition. Naha: IEEE, 2013: 110?114.
[4] XIONG G, WU X, CHEN Y L, et al. Abnormal crowd behavior detection based on the energy model [C]// IEEE International Conference on Information and Automation. Shenzhen: IEEE, 2011: 495?500.
[5] CHEN T, HOU C, WANG Z, et al. Anomaly detection in crowded scenes using motion energy model [J]. Multimedia tools and applications, 2017, 77(11): 14137?14152.
[6] YONG L, HE D. Video?based detection of abnormal behavior in the examination room [C]// International Forum on Information Technology and Applications. Chengdu: IEEE, 2010: 295?298.
[7] ZHANG Y, QIN L, YAO H, et al. Beyond particle flow: bag of trajectory graphs for dense crowd event recognition [C]// IEEE International Conference on Image Processing. Melbourne: IEEE, 2014: 3572?3576.
[8] YANG C, YUAN J, LIU J. Abnormal event detection in crowded scenes using sparse representation [M]. Amsterdam: Elsevier Science Inc, 2013.
[9] LU C, SHI J, JIA J. Abnormal event detection at 150 FPS in Matlab [C]// IEEE International Conference on Computer Vision. Sydney: IEEE, 2014: 2720?2727.
[10] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [J]. Neural information processing systems. 2012, 25(2): 1097?1105.
[11] HAN X, DU Q. Research on face recognition based on deep learning [C]// 2018 Sixth International Conference on Digital Information, Networking, and Wireless Communications. Beirut: IEEE, 2018: 147?155.
[12] QU X, WANG W, LU K, et al. In?air handwritten Chinese character recognition with locality?sensitive sparse representation toward optimized prototype classifier [J]. Pattern recognition, 2018(78): 267?276.
[13] LUVIZON D C, PICARD D, TABIA H. 2D/3D Pose estimation and action recognition using multitask deep learning [J]. Computer vision and pattern recognition, 2018(2): 267?276.
[14] RAZAVIAN A S, AZIZPOUR H, SULLIVAN J, et al. CNN features off?the?shelf: an astounding baseline for recognition [J]. Computer science, 2014(15): 512?519.
[15] Anon. Umn anomaly dataset [EB/OL]. [2017?12?05]. http://mha.cs.umn.edu/Movies/Crowd?Activity?All.avi.
[16] SABOKROU M, FAYYAZ M, FATHY M, et al. Deep?anomaly: fully convolutional neural network for fast anomaly detection in crowded scenes [J]. Computer vision & image understanding, 2016, 47: 215?221.
[17] LIN K, YANG H F, HSIAO J H, et al. Deep learning of binary hash codes for fast image retrieval [C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Boston: IEEE, 2015: 12110?12115.
[18] 章毓晉.圖像工程(下冊(cè)):圖像理解[M].4版.北京:清華大學(xué)出版社,2018.
[19] ZHENG S, WEI W. Video?based abnormal crowd behavior detection on bus [J]. Journal of Nanjing University of Science and Technology, 2017, 41(1): 65?73.
[20] BREUNIG M M, KRIEGEL H P, NG R T. LOF: identifying density?based local outliers [C]// ACM Sigmod International Conference on Management of Data. Dallas: ACM, 2000: 93?104.
[21] 周培培,丁慶海,羅海波,等.視頻監(jiān)控中的人群異常行為檢測(cè)與定位[J].光學(xué)學(xué)報(bào),2018(8):89?97.
作者簡(jiǎn)介:馬國(guó)祥(1993—),男,新疆人,碩士研究生,研究領(lǐng)域?yàn)橛?jì)算機(jī)視覺(jué)、圖像理解。
楊文忠(1971—),男,河南人,博士,副教授,CCF會(huì)員,研究領(lǐng)域?yàn)檩浨榉治觥⑿畔踩?、機(jī)器學(xué)習(xí)。
溫杰彬(1994—),男,河南人,碩士研究生,研究領(lǐng)域?yàn)橛?jì)算機(jī)視覺(jué)。
姚 ?苗(1993—),女,新疆人,碩士研究生,研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。
秦 ?旭(1994—),女,碩士研究生,研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。