張艷麗
(上海海事大學(xué) 信息工程學(xué)院,上海 201306)
行人檢測在人工智能、汽車輔助駕駛、安全監(jiān)控等領(lǐng)域有著廣泛的應(yīng)用前景。針對行人檢測的方法主要有模板匹配法和統(tǒng)計(jì)分類法。文獻(xiàn)[1]采用梯度方向直方圖(HOG)用在靜態(tài)圖像中的行人檢測,取得了很高的檢測精度,已成為當(dāng)前主流的行人檢測方法。文獻(xiàn)[2]提出局部二值特征(LBP)結(jié)合HOG特征的行人檢測,克服了HOG特征對于行人輪廓邊緣信息的收集較多地忽略了平坦的表面,導(dǎo)致分類器對于嘈雜的邊緣信息的處理能力和魯棒性較差的缺陷,較大提高了檢測正確率。文獻(xiàn)[3]使用Gabor變換結(jié)合adaboost算法實(shí)現(xiàn)對人體目標(biāo)的檢測,由于Gabor小波能在多個(gè)尺度的多個(gè)方向提取人體目標(biāo)的局部變化信息,從而使檢測結(jié)果更加精確。
融合HOG、LBP、Gabor 3種特征算子,實(shí)現(xiàn)了它們在行人檢測中的優(yōu)勢互補(bǔ),更加綜合性的表達(dá)了行人特征。并且,都采用直方圖的提取方法,增強(qiáng)了特征間的融合性。特征提取階段3種特征同步處理、引入PLS降維,使提高檢測精度的同時(shí)保證了檢測速度。最后,采用IKSVM訓(xùn)練分類器,進(jìn)一步優(yōu)化了行人檢測系統(tǒng)的性能。
采用基于IKSVM的多特征行人檢測方法,其中,訓(xùn)練階段對正負(fù)行人樣本同時(shí)提取HOG特征、LBP特征和Gabor特征融合為一個(gè)新的行人特征向量集,引入偏最小二乘法(PLS)[4]進(jìn)行特征降維獲得權(quán)重較高的特征向量集,通過IKSVM訓(xùn)練得到多特征融合的行人分類器。檢測階段,利用訓(xùn)練好的行人分類器掃描、檢測運(yùn)動(dòng)區(qū)域,得到行人檢測結(jié)果。該算法框架如圖1所示。
圖1 行人檢測系統(tǒng)框圖Fig.1 Pedestrian detection system block diagram
HOG特征是通過計(jì)算局部梯度方向直方圖來構(gòu)成人體特征,描述的是邊緣結(jié)構(gòu)特征。利用[-1,0,1]梯度算子計(jì)算圖像中像素點(diǎn)(x,y)處的幅值和梯度方向分別為
式中,G(x,y)梯度幅值,α(x,y)梯度的方向,H(x,y)像素值。
首先,將圖像劃分成若干個(gè) 8×8像素單元(Cell),把[-的梯度方向平均劃分為9個(gè)區(qū)間(Bin),在每個(gè)Cell內(nèi)對所有像素的梯度幅值在各個(gè)方向Bin區(qū)間進(jìn)行直方圖統(tǒng)計(jì),每相鄰4個(gè) Cell形成一個(gè)塊(Block),用Block對樣本圖像進(jìn)行掃描,掃描步長為一個(gè)Cell,最后將所有Block的特征串聯(lián)得到人體的特征。對每個(gè)Block內(nèi)HOG特征使L2-norm范式即式(3)進(jìn)行歸一化,以便能夠更進(jìn)一步對光照、陰影和邊緣進(jìn)行壓縮。
式中,V為待歸一化的向量,ε為一個(gè)較小值,一般取ε=0.1,‖V‖k--k范數(shù),k=1,2。把所有的塊串聯(lián)起來,得到最終64*128圖像的特征向量維數(shù)為4*9*105=3 780維。
通常將計(jì)算α(x,y)落入的區(qū)間直接定義為所屬區(qū)間,但是它在圖像塊的邊界區(qū)域容易導(dǎo)致混淆效應(yīng),造成特征的不穩(wěn)定。本文進(jìn)行插值操作,將α(x,y)對應(yīng)的梯度投影到相鄰的兩個(gè)方向區(qū)間上,可避免上述不足。如圖2所示。
圖2 梯度方向上的插值處理Fig.2 Process on the gradient direction interpolation
LBP特征很好地兼顧了圖像的宏觀信息與微觀結(jié)構(gòu),具有高度的識(shí)別能力。為了提高基本二元制模式的統(tǒng)計(jì)性,Ojala[5]提出了“均勻模式”的概念
實(shí)驗(yàn)表明,使用LBP28,2的局部二元模式算時(shí),均勻模式的數(shù)量是58,用總數(shù)21%的LBP算子,表達(dá)了86.2%的紋理信息。
本文采用基于單一分塊的局部二元模式特征提取方法,將64*128大小的圖片按照16×16的小區(qū)域(cell),分為了32個(gè)cell;分塊過后,對每個(gè)cell使用算子求原始模式,將其轉(zhuǎn)化為對應(yīng)的“均勻模式”。最終得到59維的均勻模式向量;和之前求HOG特征類似,采用L1-范式對已得到的59維向量向量進(jìn)行歸一化,以克服一些噪聲的干擾提高魯棒性。
最后將得到的統(tǒng)計(jì)直方圖連接成為一個(gè)特征向量,則每個(gè)檢測窗口的LBP特征維數(shù)為32*59=1 888維。
圖3 LBP特征提取Fig.3 LBPfeature extraction figure
Gabor特征能夠在多個(gè)尺度和多個(gè)方向上抽取人體目標(biāo)的灰度變化信息,對目標(biāo)特點(diǎn)的描述更加精確。二維Gabor濾波器的復(fù)數(shù)形式
其中,x′=x cosθ+y sinθ,y′=-x sinθ+y cosθ;λ 表示正弦函數(shù)波長;θ表示Gabor核函數(shù)的方向;ψ表示相位移動(dòng);σ表示高斯函數(shù)的標(biāo)準(zhǔn)差;γ表示空間的高寬比。
利用二維Gabor小波提取特征:第一步,設(shè)計(jì)濾波器。為了增強(qiáng)特征間的融合性及對人體目標(biāo)的描述能力,設(shè)定尺度為 2、方向?yàn)?4(0°、45°、90°、135°)。 第二步是從各個(gè)濾波器的輸出中提取Gabor紋理特征。本實(shí)驗(yàn)中對 64*128進(jìn)行Gabor濾波以后的圖像進(jìn)行采樣,采樣后為16*32=512維的向量。同時(shí),由于對原有圖像在4個(gè)方向和兩個(gè)尺度上進(jìn)行濾波,獲得1 024*4=4 096維的向量。Gabor變換響應(yīng)的平均值如圖4所示。
圖4 Gabor變換響應(yīng)的平均值Fig.4 Gabor transform the average response
由圖4可見,人體目標(biāo)區(qū)域的Gabor響應(yīng)平均值在圖中顯得比較突出,相應(yīng)最大值總是出現(xiàn)在人體目標(biāo)的邊緣。
支持向量機(jī)(SVM)[6]是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上,對特定訓(xùn)練樣本的學(xué)習(xí)精度和學(xué)習(xí)能力之間尋求最佳折衷,克服了神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)分類器的過學(xué)習(xí)、局部極值點(diǎn)和維數(shù)災(zāi)難等諸多缺點(diǎn),具備較強(qiáng)的泛化能力。Maji等[7]人提出了加性交叉核 SVM的方法,其在性能上逼近非線性SVM,同時(shí)間復(fù)雜度上近似于線性SVM,完成了更好的性能平衡。
IKSVM通過一些特殊的交叉核來加速分類過程,設(shè)訓(xùn)練數(shù)據(jù)集為(yi,xi),yi∈{-1,1},xi∈Rn定義加性交叉核函數(shù)為
采用IKSVM行人檢測分類器,在INRIA實(shí)驗(yàn)結(jié)果表明,在 FPPW (False Positive Per Window)=10-6時(shí), 漏檢率為0.189%;在FPPT=10-4時(shí),漏檢率為0.026%。與線性SVM分類器漏檢率分別提高14%和12%。
步驟1:輸入視頻圖像,采用背景減除法把可能包含行人的運(yùn)動(dòng)目標(biāo)檢測出來以避免窮盡搜索。
步驟2:尺度變換統(tǒng)一檢測窗口大小為64*128,提取運(yùn)動(dòng)區(qū)域。
步驟3:掃描運(yùn)動(dòng)區(qū)域按上述方法同時(shí)提取HOG、LBP、Gabor特征,形成融合特征集矩陣tx,矩陣的每行代表一個(gè)擴(kuò)展的樣本特征向量,H(1)至 H(3 780)代表 HOG的 3 780維特征向量,L(1)至 L(1 888)代表 LBP 特征的 1 888 維向量,G(1)至 G(4 096)代表 Gabor特征的 4 096維特征向量,m 代表正樣本數(shù)量,n-m代表負(fù)樣本數(shù)量。向量ty中的 1和-1分別代表正負(fù)樣本。
步驟4:將融合特征矩陣tx和向量ty按式tx=TPT+E,ty=UqT+f(其中T和U是成分向量的矩陣,q表示載荷,f表示殘差)分解。然后通過NIPALS算法提取一個(gè)成分并初始化向量u;按計(jì)算步驟,循環(huán)往復(fù)直至收斂;最后對矩陣tx,ty進(jìn)行退化,并繼續(xù)提取成分,直到提取的成分進(jìn)行回歸能達(dá)到一個(gè)較為滿意的精度為止。
步驟5:通過加性交叉核支持向量機(jī)對正負(fù)行人樣本訓(xùn)練,其中,采用分段多項(xiàng)式函數(shù)去近似每1維函數(shù),多項(xiàng)式參數(shù)預(yù)存在查找表中,可進(jìn)一步降低分類復(fù)雜度,提高分類速度。
步驟6:用訓(xùn)練好的行人分類器,檢測行人。
步驟7:標(biāo)注并輸出行人檢測結(jié)果。
本文實(shí)驗(yàn)在MATLAB2009a上實(shí)現(xiàn),計(jì)算機(jī)環(huán)境配置為3 GHz CPU和4G內(nèi)存。采用libsvm工具包,選用加性交叉核支持機(jī)分類器。訓(xùn)練階段,數(shù)據(jù)來源于INRIA行人數(shù)據(jù)庫,正、負(fù)樣本統(tǒng)一分辨率大小均為64*128,實(shí)驗(yàn)種使用3 516個(gè)正樣本和1 218個(gè)負(fù)樣本作為訓(xùn)練集。檢測階段,利用訓(xùn)練好的行人分類器,對選取的一段INRIAL[8]視頻進(jìn)行行人檢測。
對于64*128的檢測窗口,采用16×16大小(步進(jìn)8個(gè)像素)對窗口分塊,依次按上述方法同時(shí)提取HOG、LBP、Gabor特征,共得到9 764維新的特征向量集。通過偏最小二乘的方法計(jì)算各主成分權(quán)重,丟掉包含行人概率較低的檢測窗口,節(jié)省檢測時(shí)間。實(shí)驗(yàn)結(jié)果使用檢錯(cuò)率、漏檢率和虛檢率、檢測時(shí)間等來描述特征的分類性能。
在同一樣本庫、相同的實(shí)驗(yàn)條件下,采用加性交叉核支持向量機(jī)分別對 HOG,LBP,HOG+LBP,HOG+LBP+Gabor 4類特征進(jìn)行訓(xùn)練,考察多特征融合檢測器的優(yōu)勢,訓(xùn)練結(jié)果如表1。
表1 基于不同特征的行人檢測效果對比Tab.1 Pedestrian detection results based on different characteristics of contrast
實(shí)驗(yàn)結(jié)果表明,與單獨(dú)使用HOG或LBP特征相比,使用聯(lián)合特征 HOG+LBP、HOG+LBP+Gabor能獲得較高的檢測率;聯(lián)合特征HOG+LBP+Gabor在檢測性能上與HOG+LBP相比,又有了進(jìn)一步的提高。在相似的檢測率下,基于多特征的行人檢測系統(tǒng)具有更低的虛檢率。由于綜合了多種特征,豐富了行人目標(biāo)信息,從而提高了檢測性能。
使用融合特征,比較了線性核SVM和加性交叉核 SVM分類器在分類性能上的差別,結(jié)果列于表2。
由表2可見,線性SVM其訓(xùn)練和分類速度快速雖比IKSVM稍快,但檢測率、虛檢率不及加性交叉核SVM的方法。綜合快速的訓(xùn)練和分類速度、準(zhǔn)確的檢測率性能,加性交叉核SVM的方法更能完成較好的性能平衡。
表2 線性SVM與加性交叉核SVM分類器性能對比Tab.2 Linear SVM and IKSVM classification performance comparison
分別采用 HOG+IKSVM、HOG-LBP+IKSVM、HOG-LBPGabor+IKSVM 3種方法檢測行人,選取視頻中第50幀、第100幀和第150幀,對比檢測結(jié)果,如圖5。
圖5 行人檢測結(jié)果Fig.5 Pedestrian detection results
由3種方法的檢測結(jié)果表明,HOG-LBP+IKSVM在檢測率及漏檢率相對于HOG+IKSVM都有所提高;HOG-LBPGabor+IKSVM相對于前兩種方法不但能更準(zhǔn)確的檢測出行人,還解決了部分遮擋問題。
采用融合HOG、LBP和 Gabor這 3種特征算子,更加準(zhǔn)確、全面的描述了行人特征。由于融合后的特征向量集維數(shù)較高,引入偏最小二乘法(PLS)對融合特征集進(jìn)行降維;綜合平衡分類器檢測性能,采用加性交叉核支持向量機(jī)訓(xùn)練并實(shí)現(xiàn)行人檢測。實(shí)驗(yàn)結(jié)果表明,本方法優(yōu)化了系統(tǒng)結(jié)構(gòu),在降低誤檢率的同時(shí)保證了檢測速度。
[1]Dalal N,Triggs B.Histograms of oriented gradients for human detection [C]//IEEE Conference on Computer Vision and Pattern Recognition, San Diego,CA, USA,2005:886-893.
[2]Wang Xiaoyu,Han Tony X,Yan Shuicheng.An HOG-LBP human detector with partial occlusion handling[C]//IEEE International Conference on Computer Vision, Kyoto,Japan,2009:32-39.
[3]梁英宏.基于 Gabor變換和 Adaboost算法的人體目標(biāo)檢測分類器[J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30(24):5790-5792.LIANG Ying-hong.Detect human target classification based on Gabor transform and Adaboost algorithm[J].Computer Engineering and Design,2009,30(24):5790-5792.
[4]Wold H.Path models with latent variables:the NIPALS approach[M].Quantitative Sociology:International perspectives on mathematical and statistical model building,Academic Press,1975:307-357.
[5]Ojala T,Pietikainen M,Maenpaa T.Multiresolution gray scale and potation invariant texture classification with local binary pattern[J].IEEETransaction,2002,24(7);971-987.
[6]Cortes, Corinna,Vapnik,et al.Support-Vector Networks[J].Machine Learning,1995,20,273-297.
[7]Maji S,Berg A,Malik J.Efficient classification for additive kernel SVMs[J].IEEE Transactions on Pattern A-nalysis and Machine Intelligence,2013,35(1):66-77.
[8]Dalal N,Triggs B.INRIA person dataset [EB/OL].http://pascal.inrialpes.fr/human/,2009-10-09.