黃 煒,葉張帆,黃立勤
(福州大學(xué) 物理與信息工程學(xué)院,福建 福州 350108)
?
基于可變形部件模型的人群計數(shù)方法*
黃 煒,葉張帆,黃立勤
(福州大學(xué) 物理與信息工程學(xué)院,福建 福州 350108)
為實現(xiàn)戶外場景下中等密度人群的高精度高魯棒性計數(shù),基于因為可變形部件模型優(yōu)越的準(zhǔn)確性和魯棒性,首先使用其來進行行人檢測,來獲得大量的檢測候選框,然后對獲得的候選框進行預(yù)處理。接下來提取各個預(yù)處理后的候選框的空間、時間以及顏色特征,基于這些特征,用狄迪克雷混合模型和吉布斯采樣理論來對候選框進行聚類。通過這種方式,獲得人群團塊的區(qū)域。最后使用基于角點的人群計數(shù)方法來對每個人群團塊區(qū)域進行人群計數(shù),通過綜合這些檢測結(jié)果,最終得到人群數(shù)目。
人群計數(shù);行人檢測;狄迪克雷混合模型;吉布斯采樣
隨著人口的增長以及社會的進步,智能安防領(lǐng)域受到越來越多的重視,而人群計數(shù)技術(shù)作為智能安防中不可或缺的一個部分,這幾年也成為研究的熱點。
人群計數(shù)技術(shù)主要分為兩大塊[1]:基于檢測的人群計數(shù)和基于回歸的人群計數(shù)。
基于檢測的人群計數(shù)方法主要就是通過分割出一個個的人來實現(xiàn)人群計數(shù)。基于檢測的方法又可以進一步細(xì)分為基于各種檢測模型的方法和基于軌跡聚類的方法。基于檢測模型的方法用各種檢測模型來檢測人。在人體比較能清楚分辨的中低密度下,使用高精度的行人檢測模型[2];在中高密度下,因為遮擋問題,所以使用人頭檢測模型[3]又或者頭加肩膀檢測模型[4]等人體區(qū)域檢測的方法來魯棒精確地在中高密度下進行人群計數(shù)。而基于軌跡聚類的方法主要通過將場景中的角點的軌跡聚類來檢測出場景中的每一個獨立的動作,來區(qū)分出一個個的人,以此來實現(xiàn)人群計數(shù)[5]。
基于檢測的方法有構(gòu)建簡單、使用成本低的優(yōu)點。在中低密度時,人群遮擋不那么嚴(yán)重,基于檢測的方法能有很好的效果。但是當(dāng)人群密度增大,遮擋嚴(yán)重的時候,由于檢測器或者軌跡不能很好地分割出每個個體,因此人群計數(shù)效果就會大打折扣。
基于回歸的人群計數(shù)方法就是通過構(gòu)建特征與人數(shù)的映射關(guān)系來實現(xiàn)人群計數(shù)。比如使用局部特征[6],或者使用全局特征[7],又或者是采用基于角點的人群計數(shù)方法[4,8-9]?;诨貧w的人群計數(shù)方法有檢測準(zhǔn)確度高、在中高密度時檢測準(zhǔn)確性好的優(yōu)點。但是采用特征回歸的方法進行人群計數(shù),又要面臨視角失真糾正的問題,這就需要有場景的先驗知識,適用性就差了。并且在中低密度計數(shù)方法中,相較基于檢測的方法,基于回歸的方法又有著不必要的復(fù)雜度。
本文受到參考文獻[10]的啟發(fā),創(chuàng)新性地將可變形部件模型[11]與狄迪克雷混合模型[12-13]相結(jié)合。首先本文用高斯混合模型對輸入圖片流提取前景二值圖。其次再用可變形部件模型行人檢測器對輸入圖片流進行行人檢測。接著對獲得檢測候選窗進行預(yù)處理,刪除誤檢的檢測窗,補充漏檢的檢測框。然后將預(yù)處理過的檢測候選框提取特征,使用狄迪克雷混合模型進行聚類,再針對每個類進行基于角點的人群計數(shù),最后整合所有類的計數(shù)結(jié)果得到人群的數(shù)量,算法框架如圖1所示。
圖1 本論文的系統(tǒng)框圖
這種對檢測器輸出的結(jié)果進行聚類,再利用角點進行人群計數(shù)的方法,結(jié)合了基于檢測的和基于回歸的兩種人群計數(shù)方法的優(yōu)點,不僅提高了檢測的精度,且也不需要視角失真糾正,降低了系統(tǒng)的復(fù)雜度。再加上可變形部件模型行人檢測器優(yōu)秀魯棒的檢測效果,使得計數(shù)結(jié)果更精確魯棒。
1.1 可變形部件模型行人檢測器
可變形部件模型(Peformable Parts Models, DPM)是由FELZENSZWALB P[14]提出的一種基于部件的檢測方法,對目標(biāo)的變形具有很強的魯棒性。DPM采用改進后的梯度直方圖(Histogram of Oriented Gradients, HOG)。針對多角度問題,它采用了多組件策略,針對目標(biāo)自身一定程度的形變,它采用了基于圖結(jié)構(gòu)的部件模型策略。
DPM行人檢測模型由三個部分組成:根濾波器、部件濾波器和變形關(guān)系(彈簧模型)。根濾波器用于檢測目標(biāo)整體的輪廓特征,部件濾波器用于捕捉目標(biāo)具有區(qū)分意義的局部特征,變形關(guān)系用于增加檢測的魯棒性。
圖2所示是一個DPM行人檢測模型。其中左邊為根濾波器,中間為部件濾波器,右邊為變形關(guān)系。
DPM模型通過公式(1)計算各個部分的響應(yīng),最后通過閾值分割就可以得到檢測目標(biāo)。
(1)
其中,
(dxi,dyi)=(xi,yi)-(2(x0,y0)+vi)
(2)
φd(dxi, dyi)=(dx,dy,dx2,dy2)
(3)
1.2 選框預(yù)處理
不論多先進的檢測算法都有不連續(xù)的輸出,這里主要通過三種方法降低誤檢率和漏檢率。
為了降低誤檢率,本文首先通過高斯混合模型(Gaussian Mixture Models, GMMs)來對背景進行建模[10],從而得到每個像素的前景可能性值。以此通過閾值分割來去除未包含前景目標(biāo)的檢測窗。除此之外,本文還通過閾值分割去除掉高度大于規(guī)定門限的候選窗,來去除過大的檢測候選窗。
為了降低漏檢率,本文通過建立前一幀與當(dāng)前幀以及后一幀與當(dāng)前幀的光流圖,將前后幀的檢測候選窗都映射到當(dāng)前幀,來降低漏檢率。
實驗證明,這三個方法能有效地降低漏檢率和誤檢率。
1.3 狄迪克雷混合模型聚類
狄迪克雷混合模型是一種無監(jiān)督聚類方法,它可以在不知道類的數(shù)量的前提下進行無監(jiān)督聚類。這有別于一些傳統(tǒng)的聚類算法,比如K-Menas[15]就需要提前定義類的數(shù)量。
對經(jīng)過預(yù)處理的檢測候選框,提取以下特征:(1)檢測框的空間中心;(2)在Lab顏色空間中的a 和b的前景顏色分量;(3)方向光流直方圖[16]。綜合以上的時間、空間以及顏色特征,檢測候選框可以被更好地聚類。在參數(shù)θk下,檢測候選框Xn是由類k產(chǎn)生的可能性由公式(4)給出:
(4)
其中Xn代表檢測候選框,θk代表混合模型的參數(shù)。本文通過吉布斯采樣[13]來進行數(shù)據(jù)采樣,如公式(5)所示:
(5)
其中N是獲得的所有檢測候選框,Nk是被分配到類k的檢測候選窗數(shù)目。其中α控制著采樣的概率,值越大將使模型生成更多的類,反之亦然。這里α的值通過訓(xùn)練得出,本文選取每15幀進行訓(xùn)練,得出最佳的α值。
1.4 基于角點的人群計數(shù)方法
基于角點的人群計數(shù)方法使用檢測到的角點來估計人群數(shù)量,這種方法雖然簡單,但是效果卻很好,多次獲得相關(guān)比賽的冠軍[17-18]。
通過上面的步驟,本文將候選檢測框聚成一個個類。我們知道,如果多個檢測框包含同一個人,那這些檢測框里面的角點數(shù)量幾乎是一致的,并且如果一個類里面包含多個人,那這個類將有更多的角點。所以本文用公式(6)來計算每個類內(nèi)的人數(shù):
(6)
1.5 對計數(shù)結(jié)果的數(shù)據(jù)融合
由于輸入的視頻幀在時域上是連續(xù)的,因此當(dāng)前幀的檢測人數(shù)與前后幀的差值最小。基于此,本文采用基于連續(xù)三幀的平均濾波器[8,10,19],來平滑連續(xù)三幀的檢測結(jié)果。實驗證明,這種平滑是必要的,且效果顯著。
為了使本文的算法更有說服力,本文使用PETS2009數(shù)據(jù)庫作為實驗數(shù)據(jù),并選擇S1.L1.13-57與S1.L1.13-59作為測試數(shù)據(jù)。兩組視頻數(shù)據(jù)的基本情況如表1所示。
表1 測試數(shù)據(jù)詳情
在本文中,使用兩種性能衡量指標(biāo):平均絕對誤差(Mean Absolute Error, MAE)如公式(7)所示,平均相對誤差(Mean Relative Error, MRE)如公式(8)所示。
(7)
(8)
其中N代表總的測試幀數(shù),G(i)和T(i)分別代表第i幀的真實人數(shù)和檢測人數(shù),實驗結(jié)果如表2所示。
表2 MAE(MRE)測試結(jié)果
本文采用檢測效果魯棒準(zhǔn)確的可變形部件模型行人檢測器來獲得候選檢測窗,然后通過狄迪克雷混合模型聚類算法將人群細(xì)分成不同的類,并針對每個類進行基于角點的人群計數(shù)。實驗證明,這種方法魯棒性更強,也更準(zhǔn)確。但是存在著當(dāng)密度過高時,人群相互遮擋,產(chǎn)生大量漏檢的問題。在未來的研究工作中,可以考慮使用基于人頭或者頭加肩膀的行人檢測器,又或者在聚類后的人群計數(shù)方法上做深入研究來解決高遮擋帶來的問題。
[1] SALEH S A M, SUANDI S A, IBRAHIM H. Recent survey on crowd density estimation and counting for visual surveillance[J]. Engineering Applications of Artificial Intelligence, 2015, 41:103-114.
[2] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]. Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR′05), 2005: 886-893.
[3] SUBBURAMAN V B, DESCAMPS A, CARINCOTTE C. Counting people in the crowd using a generic head detector[J]. Proceedings of 2012 IEEE Ninth International Conference on the Advanced Video and Signal-Based Surveillance (AVSS), 2012: 470-475.
[4] Hu Ronghang, Wang Ruiping, Shan Shiguang, et al. Robust head-shoulder detection using a two-stage cascade framework[C]. Proceedings of the ICPR, 2014: 2796-2801.
[5] CHERIYADAT A M, BHADURI B L, RADKE R J. Detecting multiple moving objects in crowded environments with coherent motion regions[C]. Proceedings of 2008 CVPRW’08 IEEE Computer Society Conference on the Computer Vision and Pattern Recognition Workshops, 2008: 1-8.
[6] FRADI H, DUGELAY J L. Low level crowd analysis using frame-wise normalized feature for people counting[C]. Proceedings of the 2012 IEEE International Workshop on Information Forensics and Security (WIFS), 2012: 246-251.
[7] FRIEDMAN J, HASTIE T, TIBSHIRANI R. Additive logistic regression: a statistical view of boosting (with discussion and a rejoinder by the authors)[J]. The Annals of Statistics, 2000, 28(2): 337-407.
[8] ALBIOL A, SILLA M J, ALBIOL A, et al. Video analysis using corner motion statistics[C]. Proceedings of the Proceedings of the IEEE International Workshop on Performance Evaluation of Tracking and Surveillance, 2009: 31-38.
[9] CONTE D, FOGGIA P, PERCANNELLA G, et al. A method for counting moving people in video surveillance videos [J]. EURASIP Journal on Advances in Signal Processing, 2010, 2010(1): 1-10.
[10] TOPKAYA I S, ERDOGAN H, PORIKLI F. Counting people by clustering person detector outputs[C]. Proceedings of 2014 11th IEEE International Conference on the Advanced Video and Signal Based Surveillance (AVSS), 2014: 313-318.
[11] FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D, et al. Object detection with discriminatively trained part-based models[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2010, 32(9): 1627-1645.
[12] BDIRI T. Mixture models for multidimensional positive data clustering with applications to image categorization and retrieval [D]. Montred: Concordia University, 2015.
[13] NEAL R M. Markov chain sampling methods for Dirichlet process mixture models [J]. Journal of computational and graphical statistics, 2000, 9(2): 249-65.
[14] FELZENSZWALB P, MCALLESTER D, RAMANAN D. A discriminatively trained, multiscale, deformable part model[J]. IEEE Computer Society Conference on Computer Vision & Pattern Recognition, 2008, 8:1-8.
[15] MACQUEEN J. Some methods for classification and analysis of multivariate observations[C]. Proceedings of the Proceedings of the fifth Berkeley symposium on mathematical statistics and probability, 1967: 281-297.
[16] CHAUDHRY R, RAVICHANDRAN A, HAGER G, et al. Histograms of oriented optical flow and binet-cauchy kernels on nonlinear dynamical systems for the recognition of human actions[C]. Proceedings of 2009 CVPR 2009 IEEE Conference on the Computer Vision and Pattern Recognition, 2009: 1932-1939.
[17] ELLIS A, FERRYMAN J. PETS2010 and PETS2009 evaluation of results using individual ground truthed single views[C]. proceedings of 2010 Seventh IEEE International Conference on the Advanced Video and Signal Based Surveillance (AVSS), 2010: 135-142.
[18] ELLIS A, SHAHROKNI A, FERRYMAN J M. Pets2009 and winter-pets 2009 results: a combined evaluation[C]. Proceedings of 2009 Twelfth IEEE International Workshop on the Performance Evaluation of Tracking and Surveillance (PETS-Winter), 2009: 1-8.
[19] CONTE D, FOGGIA P, PERCANNELLA G, et al. Counting moving persons in crowded scenes[J]. Machine Vision and Applications, 2013, 24(5): 1029-1042.
The deformable parts model based crowd counting approach
Huang Wei, Ye Zhangfan, Huang Liqin
(School of Information Engineering, University of Fuzhou, Fuzhou 350108, China)
This paper resolves the problem of counting highly precisely and robustly in middle high density scene. Based on the accuracy and robustness of Deformable Parts Model(DPM), this paper uses deformable parts model to firstly detect the pedestrians, in order to get the candidate windows of detection. Then, these candidate windows are pre-processed. Besides, this paper exacts the spatial, temporal and color features of these candidate windows. Based on these features, Dirichlet Process Mixture Models(DPMMs) and Gibbs sampling methods are used to cluster the candidate windows. In this way, the crowd blob regions are obtained. Finally, the corner points based counting approach are used to count the crowd in the crowd blob regions. In this way, the crowd number will be obtained by synthesizing all the counting results.
crowd counting; pedestrian detection; Dirichlet Process Mixture Models(DPMMs); Gibbs sampling
國家自然科學(xué)基金(61471124);福建省中青年教師教育科研項目(JA15626)
TP181
A
10.19358/j.issn.1674- 7720.2017.12.017
黃煒,葉張帆,黃立勤.基于可變形部件模型的人群計數(shù)方法[J].微型機與應(yīng)用,2017,36(12):57-60.
2016-12-27)
黃煒(1991-),男,學(xué)士,主要研究方向:計算機視覺、機器學(xué)習(xí)。
葉張帆(1987-),通信作者,男,學(xué)士,主要研究方向:計算機視覺、機器學(xué)習(xí)。E-mail:yezhangfan@fzu.edu.cn。
黃立勤(1973-),男,博士,教授,主要研究方向:計算機視覺、機器學(xué)習(xí)、醫(yī)學(xué)圖像處理。