劉文哲 智敏
摘要摘要:如何進行適應不同場景的人群異常檢測是視頻監(jiān)控領域的研究難點。目前主流的人群行為特征表達式是基于HOF的,其中基于多尺度MHOF是主流方法,但由于多尺度MHOF特征是基于等距劃分場景區(qū)域的局部特征,因而不是人類觀察外界場景的方式。團塊特征是基本符合人類觀察事物的方式,因此提出基于Blob團塊的MHOF特征提取算法,并聯(lián)合Hog特征,應用多層遞歸神經(jīng)網(wǎng)絡提出了異常行為檢測的算法框架。在3個數(shù)據(jù)集上進行實驗,結果表明,該算法優(yōu)于基于多尺度MHOF特征的異常行為檢測方法。
關鍵詞關鍵詞:視頻監(jiān)控;異常行為檢測;團塊提取
DOIDOI:10.11907/rjdk.171656
中圖分類號:TP317.4
文獻標識碼:A文章編號文章編號:16727800(2017)005018903
0引言
由于人群場景分析的巨大應用價值,人群異常行為檢測已經(jīng)成為近幾年視頻監(jiān)控領域的研究熱點,吸引了大量研究者關注。人群異常行為檢測指對人群場景中不符合規(guī)則的行為進行檢測。這里不符合規(guī)則的行為即異常的定義往往帶有主觀性,比如可以把人群恐慌當作異常行為,也可以把在場景中打架斗毆當作異常行為,或者是在人行道上騎車等,而且視頻數(shù)據(jù)量巨大,依靠人工檢測不現(xiàn)實,必須依靠計算機技術實現(xiàn)人群異常的自動檢測。另外,人群密度高、模式變化快、場景中存在巨大遮擋等挑戰(zhàn),令傳統(tǒng)視頻監(jiān)控技術不能直接應用于人群場景,這使人群異常行為檢測仍是一個有待解決的問題,涌現(xiàn)出了大量相關研究,但仍然沒有被普遍接受的用于人群場景分析的問題解決方案。基于此,本文提出了基于深度學習的人群異常行為檢測方法。
主要工作包括:①提出基于團塊的BMHOF運動特征提取方法;②將BMHOF運動特征與HOG靜態(tài)特征進行聯(lián)合表達作為異常行為的檢測模型輸入;③應用多層遞歸神經(jīng)網(wǎng)絡構建異常行為檢測模型。
1相關工作
異常行為檢測領域包括個人異常行為檢測和人群異常行為檢測。其中,人群異常行為檢測正在成為研究熱點[1]。異常行為樣式各異,很難有一個明確的定義和界限,通常認為異常行為有以下特點:①偶爾發(fā)生;②無法提前預知;③可能和某個任務有關。目前在視頻監(jiān)控領域的異常行為檢測主要是針對人群的異常行為檢測,人群異常檢測可被建模為“正?!惓!倍诸悊栴}。
目前,對異常行為檢測的方法主要是監(jiān)督學習的方法,即預先對行為模式或異常行為的模型進行定義,然后對待識別的行為進行學習或匹配。Yang Cong等[2]提出了一種基于MHOF特征和稀疏表達的異常行為檢測方法,該方法通過對異常行為特征進行字典學習,獲得異常行為的表達方式,但該語義表達只能描述一些簡單的異常行為,對過于復雜的或某些未知的異常行為無法檢測;Si Wu等[3]提出用貝葉斯模型對人群的逃跑異常行為進行識別,取得了良好效果,但是針對單個人的行為特征表達仍不夠完善;在文獻[4]中,提出采用HOG特征融合的方法提高人體識別精度;A Adam等[5]利用多個監(jiān)視器從視頻序列中提取運動目標的光流特征并定義光流量級,然后在此基礎上進行異常行為檢測。
近年來,深度學習在圖像識別領域表現(xiàn)出較高的識別準確率,成為圖像識別領域的研究熱點,在異常行為檢測方面也具有很高的檢測準確率。文獻[6]提出了多尺度時間遞歸神經(jīng)網(wǎng)絡的人群異常檢測方法,通過該方法來考慮幀與幀之間的時空關系,從而提高了檢測準確率。
2異常行為檢測
算法框架如圖1所示,主要分為聯(lián)合靜態(tài)特征和基于團塊的多尺度光流方向直方圖特征提?。˙lob Based Multi-scal HOF,BMHOF)、基于深度遞歸神經(jīng)網(wǎng)絡的異常行為檢測模型訓練和異常行為檢測模型測試3部分。首先進行團塊檢測提取運動人群的團塊,同時計算光流場,然后提取團塊的紋理特征和運動特征,其中運動特征包括運動信息熵、平均速度,再應用VLAD將運動特征和靜態(tài)特征進行聯(lián)合特征表達,最后訓練時間遞歸神經(jīng)網(wǎng)絡作為異常行為檢測模型,完成異常檢測模型構建。
2.1基于團塊的BMHOF特征提取與靜態(tài)特征聯(lián)合表達
2.1.1Blob團塊檢測
基于Blob團塊提取的特征更符合人類觀察現(xiàn)實世界的方式[8]。Blob團塊提取的主要過程是當檢測出前景并進行二值化后,計算連通區(qū)域的外圍輪廓,如果輪廓目標內部存在空洞則不予考慮。
但是由于目標可能存在斷裂的情況,所以需要將距離比較近的目標輪廓合并。通過設定閾值,判斷目標輪廓的外接矩形是否鄰接,如果鄰接,則在合并時取這些鄰接輪廓的外接矩形。接下來計算合并后的矩形參數(shù),包括矩形的寬高以及形心的位置。然后刪除寬高過小的矩形,以進一步去除目標之外的噪聲干擾。如果該目標矩形符合一定條件,則認為該團塊為目標團塊。
2.1.2BMHOF特征提取
Blob分析的核心是連通區(qū)域檢測算法,它能夠將人群中的不規(guī)則目標進行分割,降低前景噪聲。本文提出采用MHOF特征作為時空運動信息的特征表達。首先對視頻序列進行光流場計算和團塊提取,然后對視頻劃分序列段,根據(jù)式(2)序列段中幀的光流場求和,得到序列段中每個像素的光流和。
2.1.3靜態(tài)特征提取
主要采用紋理作為靜態(tài)特征,其中紋理特征主要采用Hog特征[4]。Hog特征是對圖像進行分塊,獲得每個塊的紋理直方圖,在行人檢測方面效果非常好,因此本文采用Hog特征、輪廓特征以及灰度共生矩陣作為聯(lián)合靜態(tài)特征表達。
2.1.4基于VLAD的特征編碼
應用VLAD特征編碼方法[7]聯(lián)合動態(tài)特征和靜態(tài)特征共同表達運動圖像序列的特征。動態(tài)特征具有時空信息,靜態(tài)特征則包含局部信息和全局信息。因此將兩者進行統(tǒng)一聯(lián)合表達能夠同時利用運動圖像序列的時空信息和局部信息。聯(lián)合特征表達是通過將運動特征和靜態(tài)特征表達為一個特征向量,以實現(xiàn)運動視頻的特征表達。通過聯(lián)合視覺特征表達,可有效利用時空信息和紋理信息。
2.2多層遞歸神經(jīng)網(wǎng)絡結構
首先將特征向量作為輸入層,多層神經(jīng)元作為隱層,訓練結果分為異常和正常;然后用訓練樣本對多層遞歸神經(jīng)網(wǎng)絡進行訓練,根據(jù)輸出結果不斷調整連接權重,獲得神經(jīng)網(wǎng)絡每層的連接權重;最后測試階段將測試運動圖像序列,提取相同特征,采用與訓練特征向量同樣的方法得到融合特征向量,輸入到已訓練好的多層遞歸神經(jīng)網(wǎng)絡中,從而實現(xiàn)異常行為檢測。本文選擇隱層為三層的遞歸神經(jīng)網(wǎng)絡結構,學習率設置為0.01。
3實驗
3.1數(shù)據(jù)集
實驗采用3個數(shù)據(jù)集,分別是3個場景和3種異常行為。這3個數(shù)據(jù)集中有一個是公開數(shù)據(jù)集,即UCSD數(shù)據(jù)集,另外兩個數(shù)據(jù)集是從網(wǎng)絡上下載的,分別是人群異常行為數(shù)據(jù)集和稀疏人群的異常行為數(shù)據(jù)集。由于采用有監(jiān)督的學習方法,因此這些視頻文件需要人工標注。對于每個數(shù)據(jù)集采用5折交叉驗證方法來驗證模型的有效性。
3.2評估方式
對于本文提出的方法,使用受試者工作特征曲線(Receiver Operating Characteristic Curve, ROC)對其進行評估。ROC曲線的橫坐標表示本身為負類被檢測為正類的比例,即假陽性率(False Positve Rate,F(xiàn)PR);縱坐標表示本身為正類被檢測為正類的比例,即真陽性率(True Positive Rate,TPR)。
在兩個數(shù)據(jù)集上作了5折交叉驗證,并使用閾值平均方法[9]求取5 折交叉驗證的平均ROC 曲線。該方法在給定的閾值下得到每條ROC曲線對應的點,然后對這些點求均值,得到在該閾值下的平均值。變換閾值得到不同閾值下的平均值,最終得到5 折交叉驗證的平均ROC曲線。同時本文采用異常檢測結果ROC曲線下的面積(Area Under Curve,AUC)作為算法的整體評價指標。
3.3實驗結果
分別在Scufflec數(shù)據(jù)集、Ped1數(shù)據(jù)集、Ped2數(shù)據(jù)集和crowdNormal數(shù)據(jù)集上,采用blobHogMHOF特征和MHOF特征在多層遞歸神經(jīng)網(wǎng)絡下繪制ROC曲線(見圖5~圖8)。從圖5的ROC曲線中可以發(fā)現(xiàn),采用blobHogMHOF特征的分類性能明顯好于采用MHOF特征。從圖6中可以得出,在Ped1數(shù)據(jù)集上基于blobHogMHOF方法的性能優(yōu)于僅使用MHOF特征的方法。主要原因是在Ped1數(shù)據(jù)集中是人群散步,同時增加Hog特征能更好地表達人體特征,從而提高了人群異常行為的檢測精度。
方法,針對基于MHOF特征方法的不足提出了基于Blob塊和HOG特征的MHOF特征表達,即HOG-BMHOF特征表達方法,并提出基于HOG-BMHOF的人群異常檢測的算法框架。實驗結果表明,本文提出的方法針對稀疏人群或密集人群的異常行為,特別是在打架等異常行為方面具有較好的識別率。但是改進方法的不足之處主要是不具有實時性,其次是場景遷移后檢測效果不夠理想。今后的研究方向是在提高檢測實時性的同時能夠實現(xiàn)場景遷移的異常行為檢測。
參考文獻參考文獻:
[1]TENG LI,HUAN CHANG,MENG WANG,et al.Crowded scene analysis: a survey[J].IEEE Trans.on Circuits and Systems for Video Technology,2014,25(3):367386.
[2]YANG CONG,JUNSONGYUAN,JILIU.Abnormal event detection in crowded scenes using sparse representation[J].Pattern Recognition,2013(46):18511864.
[3]SI WU,HAUSAN WONG,ZHIWEN YU.A bayesian model for crowd escape behavior detection[J].IEEE Transactions on Circuits and Systems for Video Technology,2014,24(1):8598.
[4]GUO JINXIN,CHEN WE.Face recognition based on hog multifeature fusion and random forest[J]Computer Science,2013,40(10): 279282.
[5]A ADAM,E RIVLIN.Robust realtime unusual event detection using multiple fixedlocation monitors[J].Pattern Analysis and Machine Intelligence,2008,30(3): 555560.
[6]CAI RUICHU,XIE WEIHAO,HAO ZHIFENG,et al.Abnormal crowd detection based on multiscale recurrent neural network[J].Journal of Software,2015,26(11): 28842896.
[7]HERVE JEGOU,MATTHIJS DOUZE,CORDELIA SCHMID,et al.Aggregating local descriptors into a compact image representation[C].2013 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2010:33043311.
[8]SHI C,XU SHENGRONG JING RENJIE,et al.Blobbased feature extraction[J].Chinese Journal of Computers,1997,20(12):11241128.
[9]FAWCETT T.ROC graphs: notes and practical considerations for researchers[J].Machine Learning,2009.
責任編輯(責任編輯:黃健)