陳 良,高陳強(qiáng)
(重慶郵電大學(xué)信號(hào)與信息處理重慶市重點(diǎn)實(shí)驗(yàn)室,重慶 400065)
行人檢測(cè)是指利用計(jì)算機(jī)技術(shù)自動(dòng)搜索并確定圖像中行人位置、大小等信息。隨著計(jì)算機(jī)視覺(jué)的快速發(fā)展,行人檢測(cè)技術(shù)已經(jīng)廣泛應(yīng)用于人們生活的各個(gè)方面。例如,對(duì)車(chē)輛前方的行人進(jìn)行檢測(cè)和識(shí)別并及時(shí)發(fā)出警報(bào)信號(hào),可以提高車(chē)輛行駛的安全性;再如,在智能視頻監(jiān)控中對(duì)行人進(jìn)行檢測(cè)能夠?yàn)槊舾袌?chǎng)所提供安全保障。
目前提出了許多行人檢測(cè)算法,如利用梯度或邊緣方向上的方向密度分布來(lái)描述局部目標(biāo)的外形和形狀的方法[1],無(wú)監(jiān)督的多形態(tài)特征學(xué)習(xí)[2],結(jié)構(gòu)濾波[3]及基于卡爾曼濾波框架的行人檢測(cè)[4]。這些算法在成像條件較好的情況下可以取得較好的行人檢測(cè)效果。然而,在夜晚、霧天等條件下,這些方法將因?yàn)槌上駡D像質(zhì)量的下降而失效。因此,基于紅外圖像的行人檢測(cè)逐漸成為近年來(lái)的研究熱點(diǎn)。與可見(jiàn)光成像相比,紅外成像是一種熱成像,能夠利用物體紅外熱輻射的強(qiáng)度來(lái)形成圖像,具有不受光照、顏色、紋理等因素影響的優(yōu)點(diǎn)。目前,基于紅外圖像的行人檢測(cè)研究已經(jīng)取得了一些算法成果。文獻(xiàn)[5]采用目前最常用的混合高斯模型檢測(cè)人體目標(biāo)。文獻(xiàn)[6]學(xué)習(xí)不同方向下的圖像邊緣特征,并結(jié)合Adaboost分類(lèi)器實(shí)現(xiàn)了行人的檢測(cè)。文獻(xiàn)[7]采用雙目視覺(jué)系統(tǒng)的行人檢測(cè)實(shí)現(xiàn)方法。文獻(xiàn)[8]針對(duì)基于輪廓和模板匹配模型需要建立大量龐大的模板庫(kù)的缺點(diǎn),提出分級(jí)匹配和并行硬件處理的方法來(lái)實(shí)現(xiàn)人體的檢測(cè)。
然而,紅外行人檢測(cè)仍然面臨一個(gè)特征維數(shù)過(guò)高的問(wèn)題。文獻(xiàn)[9]采用經(jīng)典的主分量分析降維方法,但是這種方法在將二維圖像矩陣變?yōu)橐痪S向量的過(guò)程中破壞了圖像的空間結(jié)構(gòu)信息。由于紅外圖像沒(méi)有明顯的紋理信息,因此,這種空間的輪廓結(jié)構(gòu)信息對(duì)檢測(cè)結(jié)果具有重要的影響。為此,本文提出一種基于紅外行人目標(biāo)的廣義二維主分量特征和稀疏表示的行人目標(biāo)檢測(cè)算法。該方法在降低特征數(shù)據(jù)維數(shù)的同時(shí)可以保存圖像的空間結(jié)構(gòu)信息。實(shí)驗(yàn)結(jié)果表明,該算法具有較好的紅外行人目標(biāo)檢測(cè)效果。
隨著多尺度變換和壓縮感知[10]技術(shù)在圖像分析領(lǐng)域的興起,稀疏表示逐漸成為了模式識(shí)別圖像處理領(lǐng)域的研究熱點(diǎn)。圖像的稀疏表示就是將數(shù)據(jù)投影到變換空間上并用盡可能少的超完備字典原子來(lái)表示圖像的主要特征和內(nèi)在結(jié)構(gòu)信息。目前,稀疏表示已經(jīng)廣泛地應(yīng)用到了圖像去噪[11]、壓縮[12]和人臉識(shí)別[13]等領(lǐng)域。
圖像的稀疏表示模型描述如下:超完備字典為A=[A1,A2,…,An],其中,Ai= [vi,1,vi,2,…,vi,j]∈Rm×j表示字典第 i類(lèi)原子,vi,j表示第 i類(lèi)的第 j個(gè)原子。則屬于第i類(lèi)的圖像y(y∈Rm)在超完備字典A下的近似表示為
將稀疏表示理論應(yīng)用到圖像處理中,最重要的就是構(gòu)造有效的超完備字典。其構(gòu)造的原則是字典中的原子應(yīng)盡可能地描述圖像內(nèi)在的信息,并且能夠最大限度地減少重構(gòu)誤差。本文首先采用廣義二維主分量(generalized two-dimensional principal component analysis,G2DPCA)降維方法提取主分量,并由此構(gòu)造超完備特征字典,然后求解待測(cè)試圖像(滑動(dòng)窗口得到的子圖)在超完備特征字典中的稀疏表示系數(shù)向量,最后定義一個(gè)函數(shù)來(lái)實(shí)現(xiàn)判決行人目標(biāo)是否存在。
(6)式中,Di表示第i個(gè)訓(xùn)練樣本的特征,這樣通過(guò)學(xué)習(xí)得到的整個(gè)訓(xùn)練樣本集的超完備特征字典為D。
采用滑動(dòng)窗口的方法,即從左到右、從上到下地遍歷整幅圖像,并判斷每個(gè)局部子圖是否存在行人目標(biāo)。
對(duì)于給定的待檢測(cè)子圖,在超完備特征字典D中的稀疏表示系數(shù)可以采用基追蹤算法[16](BP)求解
當(dāng)?shù)玫酱龣z測(cè)圖像y的稀疏表示系數(shù)向量x后,定義一個(gè)系數(shù)稀疏度量函數(shù)S(x)來(lái)判定待檢測(cè)圖像y是行人目標(biāo)的可能性為
(8)式中:N表示整個(gè)字典原子總數(shù);A表示字典中行人原子編號(hào)的集合,A∈[0,N1]。然后,設(shè)置一個(gè)閾值門(mén)限λ(λ∈[0,1])來(lái)判決子圖y是否是行人目標(biāo)。
根據(jù)以上分析,總結(jié)本文算法流程如圖1所示。具體的算法步驟如下。
首先,對(duì)紅外圖像進(jìn)行預(yù)處理。為了能夠盡可能地保護(hù)圖像的細(xì)節(jié)信息,并權(quán)衡行人檢測(cè)效果,只對(duì)采集的紅外圖像做最簡(jiǎn)單的中值濾波去噪預(yù)處理。
其次,學(xué)習(xí)行人目標(biāo)的超完備特征字典D。選取N1幅大小為m×n的行人目標(biāo)圖像作為正樣本(參見(jiàn)圖2),隨機(jī)選取其他相同大小的任意圖像N-N1幅作為負(fù)樣本,并將所有訓(xùn)練樣本依次編號(hào),學(xué)習(xí)所有訓(xùn)練樣本的G2DPCA特征,完成超完備特征字典D的學(xué)習(xí)。
然后,對(duì)局部的行人目標(biāo)進(jìn)行識(shí)別。采用滑動(dòng)窗口得到局部子圖y,使用定義的稀疏度量函數(shù)S(x)判定局部子圖是否包含行人目標(biāo)。
最后,對(duì)整幅圖像的行人進(jìn)行標(biāo)記。在標(biāo)記行人目標(biāo)的過(guò)程中,為了避免同一個(gè)目標(biāo)重復(fù)標(biāo)記,設(shè)置相鄰標(biāo)記框的最小距離γ,當(dāng)2個(gè)標(biāo)記框的距離小于最小距離時(shí)放棄標(biāo)記。
圖1 算法流程圖Fig.1 Flow chart of algorithm
圖2 部分正樣本圖像Fig.2 Part of positive sample images
本文以 OSU thermal pedestrian database[17]俄亥俄州立大學(xué)紅外行人公開(kāi)圖像數(shù)據(jù)庫(kù)作為實(shí)驗(yàn)的對(duì)象。選取正負(fù)樣本圖像分別為650幅和600幅,樣本的量化尺寸為20×40。部分正樣本圖像如圖2所示。從圖2可以看出,該正樣本圖像基本包含了不同行人目標(biāo)的特征。在實(shí)驗(yàn)中,參數(shù)δ=0.000 5,γ=20,初始化RMSE(0)=∞ 。表1對(duì)比了文獻(xiàn)[18]算法的特征字典數(shù)據(jù)的維數(shù)。由表1可以看出,本文提出的算法具有較低的特征數(shù)據(jù)維數(shù)。
表1 特征數(shù)據(jù)維數(shù)對(duì)比Tab.1 Comparison of feature data dimensionality
圖3為整幅圖像的行人目標(biāo)檢測(cè)結(jié)果。由圖3可以看出,本文的算法具有較好的檢測(cè)效果。
為了定量評(píng)估本文的算法,定義紅外行人目標(biāo)檢測(cè)的正確識(shí)別率Pd,錯(cuò)誤識(shí)別率Pf分別為
圖3 行人檢測(cè)結(jié)果Fig.3 Results of pedestrian detection
(9)—(10)式中:Na為真實(shí)檢測(cè)到的目標(biāo)數(shù)目;Nu為圖像實(shí)際目標(biāo)總數(shù);Nf為檢測(cè)到的虛假目標(biāo)數(shù)目;Nb為圖像的非目標(biāo)數(shù)目。表2為在不同閾值λ情況下目標(biāo)的正確識(shí)別率Pd和錯(cuò)誤識(shí)別率Pf。由表2可以看出采用該算法取得了比較好的檢測(cè)效果。
表2 閾值λ取不同值時(shí)目標(biāo)正確識(shí)別率,錯(cuò)誤識(shí)別率情況Tab.2 Target recognition rate,error recognition rate when parameterλtakes different values
為了進(jìn)一步客觀評(píng)估本文算法的性能,我們對(duì)不同算法的接收機(jī)操作特性曲線[19](receiver operating characteristics,ROC)進(jìn)行對(duì)比。ROC是目標(biāo)正確識(shí)別率對(duì)錯(cuò)誤識(shí)別率的曲線,其下方的面積越大,表明算法性能越好。圖4為PCA和G2DPCA 2種超完備特征字典學(xué)習(xí)方法的ROC曲線。從圖4可以看出,采用G2DPCA字典學(xué)習(xí)方法的ROC曲線下方面積比PCA大,說(shuō)明本文采用的G2DPCA字典學(xué)習(xí)方法的目標(biāo)檢測(cè)性能優(yōu)于PCA字典學(xué)習(xí)的檢測(cè)性能。
圖5顯示了本文方法和文獻(xiàn)[18]中方法的ROC曲線。該方法采用行人目標(biāo)的HOG特征與SVM分類(lèi)相結(jié)合的檢測(cè)算法。從圖5可以看出,本文算法的ROC曲線位于HOG+SVM算法曲線上方,說(shuō)明本文算法優(yōu)于文獻(xiàn)[18]的紅外行人檢測(cè)算法。
圖4 G2DPCA,PCA字典學(xué)習(xí)方法的ROC曲線比較Fig.4 ROC curve comparison of G2DPCA and PCA dictionary learningmethods
圖5 本文算法與HOG+SVM的行人檢測(cè)算法的ROC曲線比較Fig.5 ROC curve comparison with HOG+SVM pedestrian detection algorithms
本文采用廣義二維主分量分析方法提取紅外圖像的特征,構(gòu)造行人目標(biāo)的超完備特征字典,然后結(jié)合稀疏表示理論計(jì)算滑動(dòng)窗口局部子圖,測(cè)試圖像在超完備特征字典下的稀疏系數(shù),根據(jù)系數(shù)稀疏程度的不同來(lái)實(shí)現(xiàn)紅外圖像中行人目標(biāo)的檢測(cè)。通過(guò)OSU thermal pedestrian database圖像數(shù)據(jù)庫(kù)的實(shí)驗(yàn)檢測(cè)結(jié)果,對(duì)比PCA提取目標(biāo)特征方法和HOG+SVM行人檢測(cè)算法,表明采用本文算法在降低特征數(shù)據(jù)維數(shù)的同時(shí)能夠有效檢測(cè)紅外圖像中的行人目標(biāo),并具有較好的檢測(cè)性能。
[1]DALAL N,TRIGGSB.Histograms of oriented gradients for human detection[C]//IEEE.Computer Vision and Pattern Recognition,2005.CVPR 2005.IEEE Computer Society Conference on.Piscataway,N.J:IEEE Press,2005,1:886-893.
[2]SERMANET P,KAVUKCUOGLU K,CHINTALA S,et al.Pedestrian Detection with Unsupervised Multi-Stage Feature Learning[J].arXiv preprint arXiv,2013:3626-3633.
[3]DUAN G,AIH,LAO S.A structural filter approach to human detection[M].Berlin:Springer Berlin Heidelberg,2010:238-251.
[4]MITTAL S,PRASAD T,SAURABH S,etal.Pedestrian detection and tracking using deformable partmodels and Kalman filtering[C]//IEEE.SoC Design Conference(ISOCC),2012 International.Piscataway,N.J:IEEE Press,2012:324-327.
[5]STAUFFER C,GRIMSONW E L.Adaptive background mixturemodels for real-time tracking[C]//IEEE.Computer Vision and Pattern Recognition,1999.IEEE Computer Society Conference on.Piscataway,N.J:IEEE Press,1999,2.
[6]WU B,NEVATIA R.Detection ofmultiple,partially occluded humans in a single image by bayesian combination of edgelet part detectors[C]//IEEE.Computer Vision,2005,ICCV 2005,Tenth IEEE International Conference on.Piscataway,N.J:IEEE Press,2005,1:90-97.
[7]BERTOZZIM,BROGGIA,LASAGNIA,etal.Infrared stereo vision-based pedestrian detection[C]//IEEE.Intelligent Vehicles Symposium,2005,IEEE Proceedings.Piscataway,N.J:IEEE Press,2005:24-29.
[8]GAVRILA D M.Pedestrian detection from amoving vehicle[M]//Berlin:Springer Berlin Heidelberg,2000:37-49.
[9]KOBAYASHI T,HIDAKA A,KURITA T.Selection of histograms oforiented gradients features for pedestrian detection[C]//ISHIKAWA M.Neural Information Processing.Berlin:Springer Berlin Heidelberg,2008:598-607.
[10]呂翊,林賀宇,趙輝,等.基于 sym8小波和部分 hadmard矩陣的深空?qǐng)D像壓縮編碼[J].重慶郵電大學(xué)學(xué)報(bào):自然科學(xué)版版,2012,24(5):646-651.
LV Yi,LIN Heyu,ZHAO Hui,etal.Deep-space image compression coding based on sym8 wavelet and partial hadmard matrix[J].Journal of Chongqing University of Posts and Telecommunications:Nature Science Edition,2012,24(5):646-651.
[11]MATSUYAMA E,TSAID Y,LEE Y,et al.A Method for Mammographic Image Denoising Based on Hierarchical Correlations of the Coefficients of Wavelet Transforms[C]//LONG M.World Congress on Medical Physics and Biomedical Engineering May 26-31,2012,Beijing,China.Berlin:Springer Berlin Heidelberg,2013:872-875.
[12]PLONKA G,TENORTH S,ISKE A.Optimally sparse image representation by the easy path wavelet transform[J].International Journal of Wavelets,Multiresolution and Information Processing,2012,10(01).
[13]WRIGHT J,YANG A Y,GANESH A,et al.Robust face recognition via sparse representation[J].Pattern A-nalysis and Machine Intelligence,IEEE Transactions on,2009,31(2):210-227.
[14]DONOHO D L.For Most Large Underdetermined Systems of Linear Equations the Minimal l1-Norm Solution Is also the Sparsest Solution[J].Communications on Pure and Applied Mathematics,2006,59(6):907-934.
[15]KONG Hui,WANG Lei,TEOH E K,et al.Generalized 2D principal component analysis for face image representation and recognition[J].Neural Networks,2005,18(5-6):585-594.
[16]van DEN Berg E,F(xiàn)RIEDLANDER M P.Probing the Pareto frontier for basis pursuit solutions[J].SIAM Journal on Scientific Computing,2008,31(2):890-912.
[17]JAMESW,DAVISJwdavis.OSU thermal pedestrian database[EB/OL].(2007-05-15)[2013-04-15].http://www.cse.ohio-state.edu/otcbvs-bench/.
[18]SUARD F,RAKOTOMAMONJY A,BENSRHAIR A,et al.Pedestrian detection using infrared images and histograms of oriented gradients[C]//IEEE.Intelligent Vehicles Symposium,2006 IEEE.Piscataway,N.J:IEEE Press,2006:206-212.
[19]AGARWAL S,ROTH D.Learning a sparse representation for object detection[C]//Proceedings of the 7th European Conference on Computer Vision-Part IV.New York:Springer-Verlag,2002:113-130.
(編輯:王敏琦)