常慶龍 夏洪山 黎 寧
?
一種基于歸一化前景和角點信息的復(fù)雜場景人數(shù)統(tǒng)計方法
常慶龍*①夏洪山①黎 寧②
①(南京航空航天大學(xué)民航學(xué)院 南京 210016)②(南京航空航天大學(xué)電子信息工程學(xué)院 南京 210016)
針對智能視頻監(jiān)控領(lǐng)域的人數(shù)統(tǒng)計問題,該文提出了一種基于歸一化前景和角點信息的復(fù)雜場景人數(shù)統(tǒng)計方法。首先在提取的前景二值圖基礎(chǔ)上,計算透視校正后的歸一化前景面積。然后在提取前景區(qū)域有效角點信息的基礎(chǔ)上,計算能夠反映人群遮擋程度的遮擋因子。最后,將上述兩種特征輸入后向傳播(BP)網(wǎng)絡(luò)完成人數(shù)統(tǒng)計算法的訓(xùn)練與測試。實驗表明,該方法可以有效地實現(xiàn)對復(fù)雜場景的人數(shù)統(tǒng)計。
視頻監(jiān)控;人數(shù)統(tǒng)計;歸一化前景;角點信息;BP神經(jīng)網(wǎng)絡(luò)
隨著計算機硬件性能的不斷提高,基于數(shù)字圖像處理技術(shù)的智能化視頻監(jiān)控成為當(dāng)前的熱點研究領(lǐng)域。人數(shù)統(tǒng)計作為其中的關(guān)鍵技術(shù),在公共場所的安全監(jiān)控和大型商場的客流分析等方面有著重要的應(yīng)用價值,也成為研究的熱點。
為了能夠更加高效準(zhǔn)確地統(tǒng)計出復(fù)雜場景中的人數(shù),本文提出了一種基于歸一化前景和角點信息的復(fù)雜場景人數(shù)統(tǒng)計方法。該方法具有較高的準(zhǔn)確性和較好的魯棒性,在對機場候機樓監(jiān)控視頻的人數(shù)統(tǒng)計實驗中取得了較好的效果。
本文方法在提取出人群前景的基礎(chǔ)上,計算出透視校正后的歸一化前景面積,然后在提取出前景區(qū)域有效角點信息的基礎(chǔ)上,計算出能夠反映場景人群平均遮擋程度的遮擋因子,最后將上述兩個特征輸入后向傳播(BP)網(wǎng)絡(luò)回歸模型,實現(xiàn)了對復(fù)雜場景的人數(shù)統(tǒng)計,具體流程如圖1所示。
圖1 算法流程圖
本文采用高斯混合模型算法[11]完成了場景的背景建模??紤]到本文的實驗場景為機場候機大廳,如圖2(a)所示,光線變化較弱且行人的運動幅度與速率較低,因此,不同于傳統(tǒng)高斯混合模型算法由像素點灰度值的條件概率來決定更新速率。本文將更新速率設(shè)為一個固定的值,從而降低了背景模型的敏感度,提高了模型生成的效率。在所構(gòu)建的背景模型基礎(chǔ)上,通過背景減除,即可獲得初步的前景圖,如圖2(b)所示。
受光線影響,監(jiān)控場景中的目標(biāo)倒影是必須要解決的問題。本文基于傳統(tǒng)的HSV陰影去除算法[12],總結(jié)出一組簡化閾值過濾條件完成了陰影去除。
在完成背景減除操作后,將獲得的前景圖由RGB色彩空間轉(zhuǎn)換至HSV色彩空間。利用式(1)和式(2),對前景區(qū)域逐像素判別濾除,最終得到過濾了陰影區(qū)域的前景圖,如圖2(c)所示。
陰影去除后的前景圖,需要通過形態(tài)學(xué)濾波得到低噪聲,輪廓更為完整的人群前景圖。本文通過一組形態(tài)學(xué)開閉運算得到更好的前景二值圖,如圖2(d)所示。
本文通過對同一場景中同一行人處于不同縱向位置時的尺寸和縱向坐標(biāo)值進行采樣,并對尺寸和縱向坐標(biāo)值進行如圖3所示的線性擬合。由圖3所示,行人的寬和高與其所處的縱向坐標(biāo)值之間呈現(xiàn)明顯的線性關(guān)系,基于此,得到如式(3)和式(4)的擬合公式。
圖3 行人尺寸擬合曲線
由式(3)和式(4)可知,已知場景中某個目標(biāo)的尺寸和對應(yīng)的縱向坐標(biāo)后,可由上述兩個擬合公式推導(dǎo)出該目標(biāo)位移至場景中任意其它位置時的尺寸,具體見式(5)和式(6)。
傳統(tǒng)的前景面積計算公式如式(7):
為了校正透視效應(yīng),需要對原有前景面積公式進行歸一化修正。根據(jù)式(3)和式(4),可將每行前景像素點面積修正為其投影至場景底邊時的小矩形區(qū)域面積,因此歸一化后的前景面積統(tǒng)計式如式(8)。
對于人群密度較高的場景,必需考慮行人之間的遮擋問題。一般而言,人群越聚集,遮擋越嚴(yán)重的區(qū)域,對應(yīng)的邊緣紋理圖像也越復(fù)雜。本文基于前景區(qū)域的有效角點信息,提取了一種遮擋因子來表征對前景區(qū)域的人群遮擋程度。
本文首先采用經(jīng)典的Harris角點算法[13]提取候選角點信息,具體步驟如下:
上述候選角點需要經(jīng)過進一步的濾除處理得到最終的有效角點。考慮到遮擋邊緣一般處于前景區(qū)域內(nèi)部,為了使得角點能夠更好地體現(xiàn)場景中行人之間的遮擋程度,這里將處于前景區(qū)域邊緣的角點濾除。這樣得到的有效角點更準(zhǔn)確地反映了前景區(qū)域內(nèi)部紋理的復(fù)雜程度,并且可以濾除一些噪聲角點,角點濾除效果如圖4所示。提取有效角點的具體步驟如下:
圖4 角點濾除結(jié)果圖
統(tǒng)計回歸是人數(shù)統(tǒng)計算法的重要步驟。場景的歸一化前景和人數(shù)之間存在著一定的線性關(guān)系,但為了解決人群中的遮擋問題,本文引入了人群密度特征,使得一般的線性回歸模型并不適用。因此,這里選用經(jīng)典的BP網(wǎng)絡(luò)[15]作為回歸模型。
實驗在2.67 GHz主頻,4 G內(nèi)存下的Matlab 2007b平臺上進行,分別對一段機場候機樓值機柜臺區(qū)域的視頻和一段校園路口的自拍視頻進行人數(shù)統(tǒng)計。其中,候機樓場景的圖像尺寸為704×576,測試樣本長度為600幀;校園場景的圖像尺寸為320×240,測試樣本長度也為600幀,各場景樣本示例如圖5所示。實驗中BP網(wǎng)絡(luò)的隱含層設(shè)為1,訓(xùn)練次數(shù)設(shè)為1000,學(xué)習(xí)率設(shè)為0.1,訓(xùn)練目標(biāo)設(shè)為0.0001。
圖5 實驗樣本示例
文獻[8]中的GLCM算法是人數(shù)統(tǒng)計中的經(jīng)典算法,本節(jié)對該方法和本文方法進行對比實驗,回歸模型都采用BP網(wǎng)絡(luò)。候機樓場景和校園場景的實驗對比結(jié)果分別如圖6(a)和圖6(b)所示。
從圖6(a)可以明顯看出,對于機場候機大廳這類場景范圍較大的復(fù)雜場景,本文方法能夠比較準(zhǔn)確地統(tǒng)計出其各種密度狀況下的人數(shù),而GLCM算法對中低密度狀況下的人數(shù)統(tǒng)計不夠理想。對如圖6(b)所示的校園路口這類場景范圍較小的情況,本文方法依然能夠有效地實現(xiàn)人數(shù)統(tǒng)計,而GLCM算法的誤差明顯高于本文方法。
圖6 算法實驗結(jié)果對比圖
為了定量衡量本文方法和GLCM算法的性能差異,這里采用平均絕對誤差(MAE)和平均相對誤差(MRE)作為算法性能的評估標(biāo)準(zhǔn),具體如式(16)和式(17)所示。
同時,為了驗證本文歸一化前景提取方法的有效性,這里將未考慮陰影和透視影響的傳統(tǒng)前景提取方法[11]與本文的角點信息和遮擋因子相結(jié)合進行人數(shù)統(tǒng)計對比實驗。每種方法采用BP網(wǎng)絡(luò)運算10次,以10次實驗的平均值作為最終結(jié)果,實驗結(jié)果如表1所示。
表1 歸一化前景提取方法有效性對比
由表1可知,本文方法與GLCM算法相比,在候機樓場景中的MAE和MRE分別降低了35.1%和44.0%,在校園場景中的MAE和MRE分別降低了46.7%和54.6%,整體性能提升明顯,這與圖6中反映的情況也是一致的。另外,本文方法相比于基于傳統(tǒng)前景提取方法的人數(shù)估計方法,整體性能也有一定提升,證明了本文的歸一化前景提取方法的有效性。需要說明的是,盡管本文方法的單幀處理速度略低于GLCM算法,但足以滿足智能監(jiān)控系統(tǒng)的實時處理需求。
針對復(fù)雜場景下的人數(shù)統(tǒng)計問題,本文提出了一種基于歸一化前景和角點信息的人數(shù)統(tǒng)計方法。該方法首先利用混合高斯模型提取圖像背景,并通過背景減除得到初步前景圖。再結(jié)合陰影濾除和形態(tài)學(xué)濾波得到前景二值圖,接著計算出了透視校正后的歸一化前景面積。然后,利用Harris算法提取出前景區(qū)域的候選角點信息,并通過濾除前景邊緣角點得到有效的角點信息,接著結(jié)合原始前景面積計算出反映場景人群平均遮擋程度的遮擋因子。最后,將上述兩種特征輸入BP神經(jīng)網(wǎng)絡(luò)回歸模型完成人數(shù)統(tǒng)計算法的訓(xùn)練與測試。實驗證明,相比傳統(tǒng)的GLCM算法,本文算法可以更準(zhǔn)確地統(tǒng)計出類似機場候機大廳這類復(fù)雜場景的人數(shù)。
未來可根據(jù)場景需要進一步改進有效角點信息的提取算法和遮擋因子的計算模型,使其更加準(zhǔn)確地表征場景中人群區(qū)域的遮擋程度,從而獲得更高的計算準(zhǔn)確性。
[1] Zeng Cheng-bin and Ma Hua-dong. Robust head-shoulder detection by PCA-based multilevel HOG-LBP detector for people counting[C]. 20th International Conference on Pattern Recognition, Istanbul, 2010: 2069-2072.
[2] Zhang Zui, Gunes H, and Piccardi M. Head detection for video surveillance based on categorical hair and skin colour models[C]. 2009 IEEE International Conference on Image Processing, Cairo, 2009: 1137-1140.
[3] Conde C, Moctezuma D, Martin D D,.. HoGG: Gabor and HoG-based human detection for surveillance in non-controlled environments[J]., 2013 (Special issue: Behaviours in video), 100: 19-30.
[4] Gao Cong-wen, Huang Kai-qi, and Tan Tie-niu. People counting using combined feature[C]. 2011 3rd Chinese Conference on Intelligent Visual Surveillance, Beijing, 2011: 81-84.
[5] Chan A B and Vasconceloos N. Counting people with low-level features and bayesian regression[J]., 2012, 21(4): 2160-2177.
[6] 覃勛輝, 王修飛, 周曦, 等. 多種人群密度下的人群計數(shù)[J]. 中國圖象圖形學(xué)報, 2013, 18(4): 392-398.
Qin Xun-hui, Wang Xiu-fei, Zhou Xi,.. Counting people in various crowed density scenes using support vector regression[J]., 2013, 18(4): 392-398.
[7] Wu Xin-yu, Liang Guo-yuan, Lee K K,.. Crowd density estimation using texture analysis and learning[C]. 2006 IEEE International Conference on Robotics and Biomimetics, Kunming, 2006: 214-219.
[8] Guo Sen, Liu Wei, and Yan He-ping. Counting people in crowd open scene based on grey level dependence matrix[C]. 2009 IEEE International Conference on Information and Automation, Zhuhai, 2009: 228-231.
[9] Albiol A, Silla M J, Albiol A,.. Video analysis using corner motion statistics[C]. Proceedings of 12th IEEE International workshop on Performance, Miami, 2009: 31-37.
[10] Hajer F and Jean-Luc D. People counting system in crowded scenes based on feature regression[C]. Proceedings of the 20th European Signal Processing Conference, Bucharest, 2012: 136-140.
[11] Wan Qin and Wang Yao-nan. Background subtraction based on adaptive non-parametric model[C]. 7th World Congress on Intelligent Control and Automation, Chongqing, 2008: 5960-5965.
[12] Cucchiara R, Grana C, Piccardi M,.. Improving shadow suppression in moving object detection with HSV color information[C]. 2001 IEEE Intelligent Transportation Systems Proceedings, Oakland, 2001: 334-339.
[13] Harris C and Stephens M. A combined corner and edge detector[C]. Proceedings of 4th Alvey Vision Conference, Manchester, UK, 1988: 147-151.
[14] Gonzalez R C and Woods R E. Digital Image Processing[M]. Massachusetts: Addison-Welsey, 2007: 726-735.
[15] Hecht-Nielsen R. Theory of the backpropagation neural network[C]. International Joint Conference on Neural Networks, Washington, 1989: 593-605.
常慶龍: 男,1986年生,博士生,研究方向為圖像處理和模式識別.
夏洪山: 男,1952年生,教授,博士生導(dǎo)師,研究方向為航空運輸系統(tǒng)建模仿真與智能化.
黎 寧: 女,1967年生,副教授,碩士生導(dǎo)師,研究方向為圖像處理和機器視覺.
A Method for People Counting in Complex Scenes Based on Normalized Foreground and Corner Information
Chang Qing-long①Xia Hong-shan①Li Ning②
①(,,210016,)②(,,210016,)
For the problem of people counting in intelligent video surveillance, a method of people counting in complex scenes based on the normalized foreground and corner information is proposed. First, based on the binary foreground, the area of normalized foreground after perspective correction is calculated. Second, the optimized corner information of foreground is extracted to compute the occlusion coefficient of crowd. Finally, the above two features are used as the inputs of the Back Propagation (BP) neural network to train and test the people counting. Experiments results show that, the proposed method exhibits good performance in complex scenes.
Video surveillance; People counting; Normalized foreground; Corner information; Back Propagation (BP) neural network
TP391.4
A
1009-5896(2014)02-0312-06
10.3724/SP.J.1146.2013.00620
常慶龍 hacql2004@126.com
2013-05-06收到,2013-08-26改回
中國民用航空局科技項目(MHRD2009211)和民航大重點實驗室項目(1004-ZBA12016)資助課題