康長(zhǎng)青
(湖北文理學(xué)院數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,湖北襄陽(yáng)441053)
行人檢測(cè)是研究在視頻中分割行人并精確定位的技術(shù),在智能視頻監(jiān)控、智能交通等領(lǐng)域應(yīng)用廣泛。由于人體受姿態(tài)、外表、干擾等因素的影響,使得行人檢測(cè)技術(shù)成為一個(gè)非常有挑戰(zhàn)性的課題。已有的檢測(cè)算法可以分為人體模型法[1]、模板匹配法[2-4]和特征分類法[5-9]三類。第一類方法對(duì)行人外觀特征和運(yùn)動(dòng)特征進(jìn)行數(shù)學(xué)建模,缺點(diǎn)是模型求解比較復(fù)雜。第二類方法采用人為經(jīng)驗(yàn)與實(shí)驗(yàn)驗(yàn)證的模板匹配方式,然而人形模板的多態(tài)性和復(fù)雜性很難構(gòu)造出合適的模板。第三類方法通過(guò)行人統(tǒng)計(jì)特征提取,利用模式分類進(jìn)行行人和非行人的分類,得到了廣泛的認(rèn)可和關(guān)注。典型的方法有DALAL提出的基于梯度直方圖(HOG)的行人檢測(cè)算法[5],表現(xiàn)出了優(yōu)良的檢測(cè)性能。后來(lái)學(xué)者們對(duì)HOG方法進(jìn)行了各種算法改進(jìn)[6-10]。如文獻(xiàn)[6]使用的綜合密度,梯度和空間位置等特征信息的協(xié)方差矩陣法,文獻(xiàn)[7]提出的融合顏色信息的局部二進(jìn)制模式法和文獻(xiàn)[8]提出的融合edgelets,HOG和協(xié)方差矩陣的級(jí)聯(lián)法等。分析這些方法可知,它們通過(guò)增加不同的低級(jí)特征而取得了各自的分類效果,而對(duì)紋理這一重要分類特征卻較少考慮。因此本文考慮行人紋理特征,在文獻(xiàn)[5]的基礎(chǔ)上提出融合邊緣,顏色,紋理等豐富特征的行人檢測(cè)算法。
行人的外觀特征通過(guò)形成分塊特征向量的方式進(jìn)行。將檢測(cè)窗口di分解為一些相互重疊的塊,通過(guò)提取每一塊的邊緣,紋理和顏色頻率特征來(lái)形成特征向量vi。下面將分別介紹這三個(gè)類別特征的提取方法。
邊緣特征的提取采用文獻(xiàn)[5]提出的HOG描述特征,HOG特征是針對(duì)矩形區(qū)域的梯度方向與強(qiáng)度統(tǒng)計(jì)信息而定義的一種特征。其計(jì)算過(guò)程如下:
(1)計(jì)算所有像素點(diǎn)的梯度G(x,y)和方向Ori(x,y),即:
(2)按空間位置將圖像分成均勻的小塊(cell),相鄰的cell組成一個(gè)大塊(Block)。
(3)在Block內(nèi)進(jìn)行歸一化直方圖來(lái)消除光照的影響,形成HOG特征向量。
HOG特征描述的是邊緣的結(jié)構(gòu)特征,位置和方向空間的量化可以抑制平移和旋轉(zhuǎn)帶來(lái)的影響;采取在局部區(qū)域歸一化直方圖,可以部分抵消光照變化帶來(lái)的影響。
紋理特征的提取采用灰度共生矩陣法[11]進(jìn)行?;叶裙采仃囃ㄟ^(guò)圖像灰度級(jí)之間的二階聯(lián)合條件概率密度函數(shù)來(lái)表示紋理,其中P(i,j d,θ)表示在給定的距離d和方向θ上,以灰度i為起點(diǎn),出現(xiàn)灰度j的概率,表示如下:
其中,#表示集合中元素?cái)?shù);右邊的分子項(xiàng)表示具有某種空間關(guān)系;灰度級(jí)分別為i;j的像素對(duì)的個(gè)數(shù);而分母項(xiàng)為像素對(duì)的總個(gè)數(shù)。
利用共生矩陣可以計(jì)算出大量的紋理特征,利用文獻(xiàn)[11]提出的14個(gè)紋理特征,選取其中的角二階矩,對(duì)比度,相關(guān)性,方差,差分矩,熵,和平均,和方差,和熵,差分方差,差分熵,方向性等12特征作為特征向量,詳細(xì)的公式參考文獻(xiàn)[11]。
基于灰度共生矩陣的紋理特征可以利用衣服紋理的同質(zhì)性和方向性,來(lái)區(qū)分衣服紋理和背景紋理,進(jìn)而為行人和非行人分類提供幫助。
由于行人的身體部位(如頭/臉)可以提供的顏色特征信息有對(duì)放大、縮小、微小變形不敏感的優(yōu)點(diǎn),有助于改善檢測(cè)效果,因此可以將這些信息用顏色頻率來(lái)表示的特征。在HSV空間選取顏色空間中梯度最大的幅值來(lái)計(jì)算每個(gè)像素點(diǎn)的梯度值和方向,用每個(gè)顏色空間被選擇的次數(shù)來(lái)表示顏色特征。
計(jì)算方法為:每個(gè)Block用一個(gè)3維的直方圖分別統(tǒng)計(jì)H、S、V 3個(gè)顏色空間被選擇的次數(shù),得到一個(gè)3維的顏色頻率向量,并進(jìn)行歸一化。這樣每個(gè)Block只用一個(gè)3維的向量就可以表示顏色信息。
利用偏最小二乘法[12](PLS)的主成分分析功能進(jìn)行分類器的創(chuàng)建。
PLS模型可以看作由外部關(guān)系(即獨(dú)立的X塊和Y塊)和內(nèi)部塊間關(guān)系構(gòu)成。X,Y塊的外部關(guān)系分別表示為:
其中,T,U 稱為 X,Y的成分矩陣;tk,uk為相應(yīng)的成分向量;P,Q分別是X,Y載荷矩陣;pk,qk相應(yīng)的載荷向量。E,F(xiàn)是殘差矩陣,分別是X,Y中無(wú)法用個(gè)潛在變量T,U反應(yīng)的部分。
PLS模型的計(jì)算采用NIPALS算法,通過(guò)對(duì)成分t,u和權(quán)重向量 w,c進(jìn)行迭代求解,最大化以下公式:
其中,cov(t,u)為核心向量t,u的樣本協(xié)方差。
通過(guò)NIPALS算法[12]提取一個(gè)成分后,對(duì)矩陣X,Y進(jìn)行退化,并繼續(xù)提取成分。如此往復(fù),直到提取的成分進(jìn)行回歸能達(dá)到一個(gè)較為滿意的精度為止。NIPALS的算法描述如下:
(1)隨機(jī)初始化向量u
(2)w=XTu
(4)c=YTt
(6)重復(fù)(2)~(5),直到收斂。
(7)退化矩陣 X,Y:X←X -ttTX,Y←Y-ttTY
用NIPALS算法對(duì)通過(guò)將從檢測(cè)窗口di中提取特征向量vi進(jìn)行預(yù)處理,計(jì)算得到主成分?jǐn)?shù)、各主成分?jǐn)?shù)的權(quán)重和主成分問(wèn)的關(guān)系矩陣。
利用計(jì)算出的各主成分權(quán)重,丟掉包含行人概率較低的檢測(cè)窗口,對(duì)概率較高的檢測(cè)窗口,使用全部特征進(jìn)行分類。經(jīng)過(guò)這樣處理,不但可以減少特征計(jì)算的數(shù)目,還可以減少需要提取的特征塊,進(jìn)而提高行人檢測(cè)的速度。
經(jīng)過(guò)以上PLS特征優(yōu)選后,利用二次判別分析建立判別器。二次判別分析的原理是在已知特征模式的類別數(shù)及其概率分布的前提下進(jìn)行Bayes決策,達(dá)到將特征模式分配到后驗(yàn)概率最大的類別中。
假設(shè)各個(gè)類別的先驗(yàn)概率相同,條件概率密度采用正態(tài)分布,得到二次判別函數(shù)如下:
對(duì)所有的 j≠i,若 gi> gj,將 x 歸于 ωi。其中 ui為各類的均值向量,i為各類的協(xié)方差矩陣。ui和i的估計(jì)采用極大似然估計(jì)。設(shè)模式類別有C類,ni表示第i類訓(xùn)練樣本數(shù),xij為第i類第j個(gè)訓(xùn)練樣本,則各類均值向量和各類協(xié)方差矩陣的極大似然估計(jì)表示為:
在前文特征提取和創(chuàng)建的分類器的基礎(chǔ)上,建立多特征優(yōu)選的行人檢測(cè)系統(tǒng),系統(tǒng)分為離線訓(xùn)練階段和在線監(jiān)測(cè)階段。如圖1所示。
圖1 行人檢測(cè)方塊圖
(1)離線訓(xùn)練階段。首先,收集人臉樣本和非人臉樣本,并利用上文提到的特征提取技術(shù),提取出樣本中行人的邊緣、紋理和顏色特征,建立豐富的特征集,然后利用PLS降維算法從這些特征集中優(yōu)選出權(quán)重較大的特征及權(quán)重系數(shù),從而形成QDA分類判別器。
(2)在線監(jiān)測(cè)階段。對(duì)于新的輸入圖像,利用離線階段訓(xùn)練好的分類器,掃描圖像中行人的候選區(qū)域,對(duì)行人進(jìn)行監(jiān)測(cè),得到檢測(cè)結(jié)果。
為了測(cè)試本文提出算法的性能,并與其他文獻(xiàn)中的方法進(jìn)行對(duì)比,在INRIA數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn)。
INRIA數(shù)據(jù)庫(kù)包含了訓(xùn)練集與測(cè)試集,訓(xùn)練集中含有64×128像素的正訓(xùn)練樣本2416個(gè),以及1218張不含人的背景圖片,測(cè)試集中含有同樣大小的正測(cè)試樣本1132個(gè),以及453張不含人的背景圖片。利用本文的特征提取方法對(duì)對(duì)INRIA數(shù)據(jù)庫(kù)進(jìn)行特征提取。
灰度共生矩陣的特征提取,采用16×16(步進(jìn)8個(gè)像素)和32×32(步進(jìn)16個(gè)像素)的塊,在HSV顏色空間里,對(duì)每一個(gè)顏色通道,d=1,θ=0°,45°,90°,135°創(chuàng)建4個(gè)分別對(duì)應(yīng)θ灰度共生矩陣,并量化為16 bins。從共生矩陣?yán)锾崛∏拔奶岬降?2個(gè)特征,產(chǎn)生63648個(gè)特征。HOG特征和顏色頻率特征提取,采用塊的大小12×12到64×128的區(qū)間之間。對(duì)于本實(shí)驗(yàn)中的2478個(gè)塊,對(duì)一個(gè)塊提取36個(gè)HOG特征,得到98928個(gè)特征。同時(shí)對(duì)于每一塊,利用顏色頻率提取方法,提取的顏色特征8274個(gè)。對(duì)于大小為64×128的檢測(cè)窗口,共得到170820個(gè)向量特征。為了避免特征向量太多,導(dǎo)致的檢測(cè)效率降低。
可見無(wú)論是在特征向量的提取、分類器的訓(xùn)練與分類中,其計(jì)算量都很大。
在實(shí)驗(yàn)中記錄正測(cè)試樣本與負(fù)測(cè)試樣本在分類器下的輸出,并通過(guò)改變分類器閾值得到DET(Detection Error Tradeoff)曲線,即漏檢率(Miss Rate)對(duì)誤檢率(False Positives Per Window,F(xiàn)PPW)曲線,如圖2所示。
圖2 三種算法的漏檢率/誤檢率
從圖中可以看到,本文算法(PLS+QDA)性能優(yōu)于文獻(xiàn)[5]中的HOG和文獻(xiàn)[13]中的PID算法,在FPPW=0.0001時(shí)本算法漏檢率為3%左右,在FPPW∈[0.000001,0.0001]本算法的漏檢率均小于HOG和PID算法。圖3為算法的跟蹤效果圖。在算法的計(jì)算時(shí)間上,本文算法1秒鐘可以處理2929個(gè)檢測(cè)窗口。
圖3 算法效果圖
針對(duì)站立行人的外觀特性,提出融合邊緣,紋理和顏色頻率的多特征融合的行人檢測(cè)算法。算法利用偏最小二乘法進(jìn)行重要特征優(yōu)選,形成二次判別分類器。實(shí)驗(yàn)結(jié)果表明,算法漏檢率小,取得較好的檢測(cè)精度;但算法也存在速度不夠快的缺點(diǎn),下一步研究將使用更好的降維方法來(lái)提高檢測(cè)的速度。
[1] Oren M,Papageorgious C,Sinha P.Pedestrian detection using wavelet templates[C]//Proc of the IEEE Conference on Computer Vision and Pattern Recognition,1997,193-199.
[2] Viola P,Jones M,Snow D.Detecting pedestrians using patterns ofmotion and appearance[C]//Proc of International Conference on Computer Vision,2003,734 -741.
[3] Mikolajczyk K,Schmid C,Zisserman A.Human detection based on a probabilistic assembly of robust part detectors[C]//Proc of European Conference on Computer Vision,2004,69 -82.
[4] Su Xiaoqian,Sun Shaoyuan,Ge Man,et al.Pedestrian detection and tracking of vehicle infrared images[J].Laser& Infrared,2012,42(8):949 -953.(in Chinese)蘇曉倩,孫韶媛,戈譙,等.車載紅外圖像的行人檢測(cè)與跟 蹤 技 術(shù)[J].激 光 與 紅 外,2012,42(8):949-953.
[5] Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Proc of the IEEE Conference on Computer Vision and Pattern Recognition, 2005,886-893.
[6] Tuzel O,Porikli F,Meer P.Human detection via classification on riemannian manifolds[C]//Proc of the IEEE Conference on Computer Vision and Pattern Recognition,2007,1 -8.
[7] Mu S,Yan Y,Liu T,et al.Discriminative local binary patterns for human detection in personal album[C]//Proc of the IEEE Conference on Computer Vision and Pattern Recognition,2008,1 -8.
[8] Zhu Q,Yeh M C,Cheng K T,et al.Fast human detection using a cascade of histograms of oriented gradients[C]//Proc of the IEEE Conference on Computer Vision and Pattern Recognition,2006,1491 -1498.
[9] Wu B,Nevatia R.Optimizing discrimination-efficiency tradeoff in integrating heterogeneous local features for object detection[C]//Proc of the IEEE Conference on Computer Vision and Pattern Recognition,2008,1 -8.
[10] Chen Y T,Chen C S.Fast human detection using a novel boosted cascading structure with meta stages[J].IEEE Trans.On Image Processing, 2008, 17 (8):1452-1464.
[11] Haralick R,Shanmugam K,Dinstein I.Texture features for image classification[J].IEEE Transactions on Systems,Man,and Cybernetics,1973,3(6):610 -621.
[12] Rosipal,N Kramer.Overview and recent advances in partial least squares[J].Lecture Notes in Computer Science,2006,3940:34 -51.
[13] Lin Z,Davis L S.A pose-invariant descriptor for human detection and segmentation[C]//Proc of European Conference on Computer Vision,2008,421 -436.