摘 "要: 針對于稀疏編碼在行人檢測問題中提取的特征維數(shù)高和不能夠有效描述行人的問題,提出了一種基于多重稀疏字典直方圖的特征提取方法。通過稀疏表示方法,預(yù)先學習多個不同稀疏度的字典,分別利用每一個字典對行人圖像進行稀疏編碼,統(tǒng)計每個字典中對應(yīng)稀疏編碼單元的分布直方圖作為行人圖像的特征描述子。該方法提取到的特征維數(shù)低,并且能夠有效地描述行人,具有良好的檢測性能。
關(guān)鍵詞: 行人檢測; 特征提取; 稀疏表示; 多重稀疏; 字典
中圖分類號: TN919?34; TP391.4 " " " " " " " " 文獻標識碼: A " " " " " " " " " " 文章編號: 1004?373X(2015)02?0083?05
Pedestrian detection method based on multiple sparse dictionaries
YUAN Wen, LIU Ya?zhou
(School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing 210094, "China)
Abstract: The drawbacks of pedestrian detection method based on sparse code are high dimensions of features and can’t effectively describe the pedestrian. Aiming at the drawbacks, a feature extraction method based on multiple sparse dictionaries histogram is proposed. Several different sparse dictionaries need to be learned before hand by means of the sparse representation, sparse coding of pedestrian image is conducted with different sparse dictionaries to make statistics of the distribution histograms corresponding to the sparse coding units in each dictionary as the image feature descriptor. The feature dimensions extracted with this method are low, can effectively describe the pedestrian, and has good detection performance.
Keywords: pedestrian detection; feature extraction; sparse representation; multiple sparse; dictionary
0 "引 "言
行人檢測作為人體運動的視覺分析中的一項關(guān)鍵技術(shù),近年來在諸如視頻監(jiān)控、機器人、智能交通和高級人機交互等計算機視覺領(lǐng)域中有著廣泛的應(yīng)用。在行人檢測中,由于極易受到光照、自身姿態(tài)、服飾等眾多因素的影響,使得準確無誤的檢測行人有非常大的難度。
早期的行人檢測主要是基于Haar特征,MIT的AI實驗室在基于靜態(tài)圖像的人體識別方面做出了很多開創(chuàng)性的研究工作[1],將Harr特征與SVM相結(jié)合,進行基于整體或部分的行人檢測,并且成功將其運用到人臉、車輛等物體檢測中。Gavrila從人體輪廓的邊緣信息出發(fā),構(gòu)建了采用層次式的人體外輪廓模型,該模型與人們對于人體的直覺上的感知相似[2]。Lin等對其進一步研究,將整體輪廓擴展到由頭肩、軀干及腿部等多個部件輪廓模型,使其對遮擋有更好的魯棒性[3]。Wu等利用由直線段和圓弧組成小邊(Edgelet)特征來描述行人的局部輪廓方向特征,形成描述人體輪廓的局部模板[4]。
隨著局部描述子的發(fā)展,越來越多的研究者在這一方向進行了深入研究,并取得了比較好的結(jié)果。受到具有尺度、旋轉(zhuǎn)以及縮放不變性的局部描述子(SIFT)[5]的啟發(fā),Dalal等提出的方向梯度直方圖(Histogram of Oriented Gradient,HOG)[6],HOG是通過刻畫圖像的局部梯度幅值和方向特征來描述行人,這種特征對圖像的幾何形變和光學形變保持著一定的不變性,F(xiàn)elzenszwalb等將HOG特征應(yīng)用到可變形部件模型(Deformable Parts Model,DPM)中,該檢測模型在行人檢測中取得了很好的效果[7]。Leibe等直接利用SIFT描述子與隱式形狀模型(ISM)相結(jié)合進行行人檢測[8]。此外,基于局部二值模式(LBP)[9]和區(qū)域協(xié)方差矩陣[10]的方法在行人檢測中也取得了比較好的結(jié)果。
單一的特征往往只能在一定適用范圍內(nèi)才能發(fā)揮其自身的優(yōu)勢,因此,很多研究者希望通過采用多種特征融合的方法來彌補單一特征描述能力不足的問題。Wu和Nevatia提出一種綜合考慮特征判別能力和計算復(fù)雜度的特征選擇框架[11],實現(xiàn)了基于Edgelet、HOG和協(xié)方差矩陣相結(jié)合的行人檢測方法,在保證性能的前提下比較大幅度的提升了速度。Wojek等將HOG、Haar和光流HOG特征相結(jié)合進行行人檢測[12]。Schwartz等將基于共生矩陣的紋理特征和HOG特征相結(jié)合,并利用偏最小二乘(PLS)方法對特征降維,使得該方法取得了比較好的檢測效果[13]。
就單個特征而言,HOG特征可以說是目前最有效的行人特征描述子, 但是HOG特征也存在一定的局限性,一方面,其特征維數(shù)非常高,另一方面,只是單一的計算圖像的方向梯度作為特征,而忽略了其他隱含的圖像特征,如角點、邊緣等特征,這種單一特征對行人的描述能力有限。而基于多特征融合的混合特征如LBP?HOG[14]、CoHOG[15]等特征,往往會有特征維數(shù)高,計算開銷大等缺點,使得在實時的行人檢測應(yīng)用中難以普及。
對于圖像中隱含的特征可以通過稀疏表示[16]方法學習得到,該方法在信號和圖像處理中取得了非常好的效果,并且是一種有效的圖像特征提取算法,稀疏表示可以學習到圖像許多局部性質(zhì),如角點、邊緣等特性,并且能夠獲取比傳統(tǒng)的非自適應(yīng)方法更高的分辨率信息,更加符合人眼的視覺特性,從而能夠更有效地表達圖像信息。Ren等提出了稀疏編碼直方圖[17],該方法在HOG檢測模型的基礎(chǔ)上,計算每個像素為中心塊的稀疏編碼,對得到稀疏編碼值進行插值計算,以此形成圖像的特征,該方法在一定程度上提升了檢測精度,但其計算量大,并且特征維數(shù)非常高。
本文主要應(yīng)用稀疏表示方法,從多個不同稀疏的字典中學習到行人的特征,這種方法能夠有效的降低特征維數(shù),并且能夠準確對行人進行描述。
1 "基于多重稀疏字典的行人檢測
稀疏字典中每一個基向量實質(zhì)上都是一個隱藏單元,每個隱藏單元代表著某種特征信息,可以理解為是輸入信號的潛在特征。當輸入信號不同,稀疏表示時會激活相應(yīng)的隱藏單元而抑制其他隱藏單元,通過線性組合被激活單元來表示輸入信號,對于不同的輸入信號(行人或背景),被激活單元會表現(xiàn)出一定的分布差異性,可以利用這種差異性來區(qū)分輸入信號。
基于多重稀疏字典的行人檢測方法是建立在稀疏表示的基礎(chǔ)上,首先,運用稀疏表示方法,預(yù)先學習多個不同稀疏度的字典,分別用每一個字典對圖像進行稀疏編碼,之后,對于稀疏編碼中的非零稀疏項所對應(yīng)字典的被激活單元,統(tǒng)計每個激活單元在字典中的分布直方圖,形成多重稀疏字典直方圖作為圖像的描述特征。
1.1 "稀疏表示
在稀疏表示方法中,給定一個集合[D=?i,i=1,2,…,k,D∈Rm×k],[D]是原子信號構(gòu)成的字典,[k]遠大于[m],[?i]是字典的第[i]個原子,即基向量,則稀疏編碼模型可以表示為:
[Y=ikai?i] " " " " " "(1)
式中[Y]是給定空間的信號;[ai]為[Y]在基向量[?i]上分解表示系數(shù)。稀疏編碼的目標就是找到一組線性組合,并且用較少的幾個基向量將信號表示出來,也就是說,該線性組合中只有很少的幾個非零系數(shù)項,故稱之為稀疏。
在稀疏表示時,首先需要對輸入信號進行學習字典,其形式描述如下:令[Y∈Rm×n]表示輸入的訓(xùn)練信號,[D∈Rm×k]表示字典,[X∈Rk×n]表示訓(xùn)練信號的稀疏表示系數(shù)矩陣,在稀疏表示中,稀疏表示優(yōu)化問題可以表示為:
[ " " " " minD,XY-DX2Fs.t. " " " ?i,xi0≤K] " " " " " "(2)
式中[xi]是[X]的第[i]個列向量,[?0]為[?0]范式,[K]是稀疏表示稀疏中非零分量數(shù)目的上限。針對以上字典學習問題,現(xiàn)有很多常見的學習方法,如最優(yōu)方向方法(MOD)[18],基追蹤[19]等,本文采用Aharon等提出的經(jīng)典KSVD算法[20],K?SVD算法來源于奇異值分解(SVD),是一種期望條件?最大(Expectation Conditional Maximization)的算法,算法迭代過程中的每一次字典更新都會遍歷優(yōu)化每一個向量,該方法的好處在于優(yōu)化所有向量時可以降低計算量,并且可以避免陷入局部最小化問題。求解上述問題主要有兩個步驟,首先,假設(shè)字典是固定的,使用OMP[21]算法求解稀疏表示系數(shù)矩陣;然后根據(jù)稀疏矩陣優(yōu)化字典。
利用K?SVD算法,對INRIA行人數(shù)據(jù)集[6]的行人圖像學習到的字典如圖1所示,隨著選取塊和字典大小的增加,可以學習到更多復(fù)雜的特征信息。
圖1 稀疏字典
1.2 "多重稀疏字典直方圖
當圖像做稀疏表示時,字典中的被激活單元是一種非常有用的圖像特征信息,如何利用被激活單元來描述圖像。本文提出一種通過統(tǒng)計被激活單元在稀疏字典中的分布直方圖來形成圖像特征的方法。這種方法通過對圖像進行稀疏表示得到字典中的被激活的單元,并統(tǒng)計相應(yīng)激活單元的直方圖,以此獲得圖像特征的統(tǒng)計特性。稱這種直方圖為稀疏字典直方圖。稀疏字典直方圖如圖2所示,(a)是原始圖像;(b)是利用大小(基向量個數(shù))為100的字典對(a)的稀疏編碼圖像;(c)是統(tǒng)計字典中對應(yīng)的被激活單元直方圖。(b)中的每一塊(patch)即對應(yīng)字典稀疏編碼的激活單元,從(b)中可以看到,行人的右腿部分稀疏編碼后,表現(xiàn)出同一特性,其來自同一字典單元的編碼,在字典中對該單元進行統(tǒng)計,對應(yīng)(c)中右上角紅色柱條。從圖2可知,稀疏字典直方圖記錄了圖像稀疏表示時字典中被激活單元的分布特征,這種分布特征記錄了圖像的特征的統(tǒng)計信息,在一定程度上能夠?qū)D像進行描述。
圖2 圖像稀疏字典直方圖
在對圖像進行稀疏編碼時,由于稀疏度直接影響著字典中被激活單元,單個稀疏度的稀疏表示得到的被激活單元有限,很可能會遺漏其他有用的特征信息,并且單個稀疏度字典得到的統(tǒng)計特征信息對圖像的描述能力不足。因此,可以預(yù)先學習多個不同的稀疏度的字典,分別對圖像進行稀疏表示,統(tǒng)計每個字典中被激活單元的直方圖,以此形成多重稀疏字典直方圖。圖像的多重稀疏字典直方圖如圖3所示。在圖3中,每一個字典代表一種稀疏度,分別對圖像進行稀疏表示后,統(tǒng)計每一個字典中被激活單元的直方圖,即稀疏字典直方圖,聯(lián)合多個不同稀疏度字典直方圖,最終形成多重稀疏度字典直方圖。
1.3 "多重稀疏字典特征提取
多重稀疏度字典直方圖利用稀疏表示方法統(tǒng)計了多個不同稀疏字典的特征單元,記錄了更加豐富的稀疏表示特征信息。根據(jù)稀疏表示輸入的不同,這種特征信息顯示了圖像在稀疏表示中的特征分布差異特性。多重稀疏度字典直方圖提取特征形式化描述如下:
[M=His "D1,His "D2,…,His "Dc] (3)
式中[M]為多重稀疏度字典直方圖提取的特征,[His "Di]表示第[i]個稀疏字典直方圖,且其稀疏度為[i],其中[i=1,2,…,c],[c]即為稀疏字典個數(shù),為了保證其稀疏性,可取[1
[His "D=i=1kj=1nr?ij] " " " " (4)
式中:[?ij]為字典的第[i]個基向量,[?ij]中的[j]表示第[j]個輸入信號;[n]為輸入信號的個數(shù),即圖像劃分所有塊(patch)的個數(shù),[k]為字典列向量(基向量)的個數(shù), 式中[r(?i)]表示如下:
[r(?i)=0, " " " " " " " "if " " ai=01, " " " " " " " " otherwise] " " " (5)
式中,[ai]為基向量[?i]上分解表示系數(shù)。由提取到的特征可以看到,該特征維數(shù)大小是字典中基向量個數(shù)的倍數(shù),即[c?k],一般[1
圖3 多重稀疏字典直方圖
2 "實驗
2.1 "實驗數(shù)據(jù)集與評測方法
實驗在INRIA行人數(shù)據(jù)集[6]上進行,INRIA行人數(shù)據(jù)集中,訓(xùn)練集的正樣本共有614張(包含2 416個行人),負樣本共1 218張;測試集的正樣本共288張(包含1 126個行人),負樣本453張。實驗使用64×128檢測窗口進行實驗,實驗樣本圖像如圖4所示。實驗在CPU為3.0 GHz,內(nèi)存為8.0 GB的PC環(huán)境下運行。選用非線性核函數(shù)(RBF)的SVM分類器進行實驗,實驗中檢測性能由DET曲線[6]衡量,DET曲線使用漏檢率(Miss Rate)和誤檢率(False Positive Per Window,F(xiàn)PPW)兩個指標來衡量。其中miss rate 和FPPW如下所示:
[miss rate=FalseNegTruePos+FalseNeg] " " (6)
[FPPW=FalsePosTrueNeg+FalsePos] " " " (7)
圖4 INRIA行人數(shù)據(jù)集
2.2 "實驗結(jié)果與分析
2.2.1 "稀疏度
不同稀疏度的字典是影響多重稀疏字典直方圖的重要參數(shù),當稀疏度不同時,其對應(yīng)的統(tǒng)計特征信息則會出現(xiàn)一定的差異性。選取不同個數(shù)的稀疏度字典進行實驗,如圖5所示,選取的稀疏度分別是sparsity=1~sparsity=3(sp3),sparsity=1~ sparsity=5(sp5),sparsity=1~sparsity=7(sp7)以及 sparsity=1~ sparsity=9(sp9),由圖可可以看到,隨著稀疏度的不斷增加,實驗效果不斷提升,當稀疏度由sp7到sp9時,實驗效果已經(jīng)非常接近(當稀疏度為sp7時,在10-3FPPW時,miss rate為9.2%,當稀疏度為sp9時,在10-3FPPW時,miss rate為12.1%)。
可以得知,選取的稀疏度較少時(如sp3),其統(tǒng)計的特征分布信息不夠全面,表現(xiàn)效果較差;隨著選取的稀疏度字典不斷增加,其效果逐漸飽和,非常接近。
圖5 不同稀疏度字典的DET曲線
2.2.2 "字典大小
當字典大?。ɑ蛄總€數(shù))不同時,直接影響特征的維數(shù)和統(tǒng)計特征特性,選取不同大小的字典進行實驗,實驗結(jié)果如圖6所示。當字典大小從50~100時,隨著字典維數(shù)增大,實驗效果不斷提升,但當字典大小為150時,其表現(xiàn)效果要次于大小為100的字典,其主要是因為當字典較小時,其學習到的特征有限,表現(xiàn)出一定的局限性;而字典較大時,其對應(yīng)的特征分布比較離散,導(dǎo)致效果有所降低。
2.2.3 "選取塊
在稀疏表示中,當所選patch大小不同時,其學習到字典的特征不同,對實驗結(jié)果產(chǎn)生影響。根據(jù)稀疏編碼中所選取patch大小的不同,分別對5×5,7×7,9×9的patch進行了試驗,實驗結(jié)果如圖7所示。可以看到patch大小為7×7時得到的效果最優(yōu);當patch大小為5×5時,效果并不是很好,主要是因為patch較小時,其對特征描述能力不足;而當patch大小為9×9時,效果次于7×7的path,說明所選取的patch不宜偏大。
圖6 不同大小字典的DET曲線
圖7 不同大小塊的DET曲線
2.2.4 "實驗與現(xiàn)有方法的比較
實驗結(jié)果與現(xiàn)有經(jīng)典的方法做了比較,如圖8所示??梢钥吹?,在10-5~10-4FPPW時,本文實驗結(jié)果(spare,在10-4 FPPW時,miss rate為33.2%)介于wavelet[1](10-4 FPPW時,miss rate為37.6%)和hog[6](10-4 FPPW時,miss rate為19.3%)之間,在10-3~10-1FPPW本文實驗結(jié)果總體優(yōu)于wavelet和hog。
3 "結(jié) "論
本文提出一種基于多重稀疏字典的行人檢測方法:預(yù)先學習多個不同稀疏度的字典,分別用每一個字典對圖像進行稀疏表示,統(tǒng)計字典中被激活單元的分布直方圖,形成多重稀疏字典直方圖作為圖像的特征。這種方法提取到的特征維數(shù)非常低,并且可以有效的對行人進行描述。本文對實驗的各種影響參數(shù)如字典大小、稀疏度、塊(patch)大小等做了充分的研究,實驗表明,這一方法能夠有效地提取行人特征,在行人檢測中具有良好檢測效果。
圖8 與現(xiàn)有方法比較的DET曲線
參考文獻
[1] MOHAN A, PAPAGEORGIOU C, POGGIO T. Example?based object detection in images by components [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(4): 349?361.
[2] GAVRILA D M, MUNDER S. Multi?cue pedestrian detection and tracking from a moving vehicle [J]. International journal of computer vision, 2007, 73(1): 41?59.
[3] LIN Z, DAVIS L S. "A pose?invariant descriptor for human detection and segmentation [C]// 2008 European Conference on Computer Vision. [S.l.]: [s.n.], 2008: 423?436.
[4] WU B, NEVATIA R. Detection of multiple, partially occluded humans in a single image by bayesian combination of edgelet part detectors [C]// 2005 Tenth IEEE International Conference on Computer Vision. [S.l.]: IEEE, 2005, 1: 90?97.
[5] LOWE D G. Distinctive image features from scale?invariant key points [J]. International Journal of Computer Vision, 2004, 60(2): 91?110.
[6] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]// 2005.IEEE Computer Society Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2005, 1: 886?893.
[7] FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D, et al. Object detection with discriminatively trained part?based models [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627?1645.
[8] LEIBE B, SEEMANN E, SCHIELE B. Pedestrian detection in crowded scenes [C]// 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2005, 1: 878?885.
[9] MU Y, YAN S, LIU Y, et al. Discriminative local binary patterns for human detection in personal album [C]// 2008 IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2008: 1?8.
[10] TUZEL O, PORIKLI F, MEER P. Pedestrian detection via classification on Riemannian manifolds [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(10): 1713?1727.
[11] WU B, NEVATIA R. Optimizing discrimination?efficiency tradeoff in integrating heterogeneous local features for object detection [C]// 2008 IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2008: 1?8.
[12] WOJEK C, WALK S, SCHIELE B. Multi?cue onboard pedestrian detection [C]// 2009 IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2009: 794?801.
[13] SCHWARTZ W R, KEMBHAVI A, HARWOOD D, et al. Human detection using partial least squares analysis [C]// 2009 IEEE 12th international conference on Computer vision. [S.l.]: IEEE, 2009: 24?31.
[14] WANG X, HAN T X, YAN S. An HOG?LBP human detector with partial occlusion handling [C]// 2009 IEEE 12th International Conference on Computer Vision. [S.l.]: IEEE, 2009: 32?39.
[15] WATANABE T, ITO S, YOKOI K. Co?occurrence histograms of oriented gradients for pedestrian detection [J]. Advances in Image and Video Technology, 2009, 40: 37?47.
[16] RUBINSTEIN R, BRUCKSTEIN A M, ELAD M. Dictionaries for sparse representation modeling [J]. Proceedings of the IEEE, 2010, 98(6): 1045?1057.
[17] REN X, RAMANAN D. Histograms of sparse codes for object detection [C]// 2013 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). [S.l.]: IEEE, 2013: 3246?3253.
[18] ENGAN K, AASE S O, HUSOY J H. Frame based signal compression using method of optimal directions (MOD) [C]// Proceedings of the 1999 IEEE International Symposium on Circuits and Systems. [S.l.]: IEEE, 1999, 4: 1?4.
[19] HALL R J, PATWARDHAN A. A two step approach for semi?automated particle selection from low contrast cryo?electron micrographs [J]. Journal of structural biology, 2004, 145(1): 19?28.
[20] AHARON M, ELAD M, BRUCKSTEIN A. K?SVD: An algorithm for designing overcomplete dictionaries for sparse representation [J]. IEEE Transactions on Signal Processing, 2006, 54(11): 4311?4322.
[21] PATI Y C, REZAIIFAR R, KRISHNAPRASAD P S. Orthogonal matching pursuit: Recursive function approximation with applications to wavelet decomposition [C]// 1993 Conference Record of The Twenty?Seventh Asilomar Conference on Signals, Systems and Computers. [S.l.]: IEEE, 1993: 40?44.