柴恩惠,智 敏
(內(nèi)蒙古師范大學 計算機與信息工程學院,呼和浩特 010022) (*通信作者電子郵箱1309787302@qq.com)
融合分支定界的可變形部件模型的行人檢測
柴恩惠,智 敏*
(內(nèi)蒙古師范大學 計算機與信息工程學院,呼和浩特 010022) (*通信作者電子郵箱1309787302@qq.com)
針對可變形部件模型(DPM)算法在行人檢測領域中的檢測精度高,但由于在特征提取和行人定位兩步中的計算量過大,導致檢測速度過慢而不能應用于實時行人檢測的問題,提出了一種融合分支定界算法和級聯(lián)檢測算法的可變形部件模型(BBCDPM)算法。首先,選取梯度方向直方圖(HOG)特征作為描述人體目標的特征,從而生成特征金字塔;然后,進行可變形部件模型的建模,并使用隱變量支持向量機(LSVM)對模型進行訓練;同時,為了提高行人檢測的準確度,將傳統(tǒng)可變形部件模型算法中的5個部件模型增加到了8個;最后,在利用了級聯(lián)檢測算法簡化檢測模型的基礎上,結合了分支定界算法尋找最大值,排除大量不可能的對象假設,完成對行人目標的定位和檢測。在INRIA數(shù)據(jù)集上進行了實驗,結果表明,與傳統(tǒng)DPM算法相比,該算法將準確率提高了12個百分點,且大幅提高了行人檢測與識別的速度。
分支定界算法;可變形部件模型算法;級聯(lián)檢測算法;梯度直方圖特征;特征金字塔;隱變量支持向量機;行人檢測
隨著計算機視覺的普及,行人檢測在圖像和視頻檢測中的應用越來越廣泛,針對圖片或視頻畫面中的環(huán)境比較復雜且行人之間有嚴重遮擋等問題,可變形部件模型(Deformable Part Model, DPM)算法[1]被提出,但由于傳統(tǒng)DPM算法中的特征提取和行人定位兩部分的計算量過大,嚴重影響其檢測速度,近幾年來針對提高檢測速度這一問題,學者們進行了大量研究。文獻[2]應用并行計算的方法,使行人檢測的速度有了明顯提高,但該方法對硬件的要求較高,不能廣泛應用;文獻[3]應用多分辨率下的層次部件模型判斷目標假設,雖然達到了一定提速的效果,但影響了檢測精度;文獻[4]對部件中的稀疏線性組合進行編碼,用來壓縮部件數(shù)量,但對檢測精度的影響也較大;文獻[5]在行人定位的部分應用了級聯(lián)檢測(Cascaded Detection, CD)算法[6],檢測速度有所提高,但耗時只為原算法的1/4,效果并不明顯。
綜上所述,目前的研究難點是在提高檢測速度的同時不影響算法的檢測精度,因此,本文主要在提高檢測速度并適度提高檢測精度的問題上進行改進:首先,在傳統(tǒng)的DPM算法的模型訓練部分增加部件模型個數(shù),以提高檢測精度;然后,在行人定位和檢測部分融合CD算法和分支定界(Branch and Bound, BB)算法,以更高效地提高檢測速度。本文的算法與傳統(tǒng)DPM算法相比,在檢測精度方面提高了12個百分點,并且將行人檢測的速度也提高了近25倍。
目標的檢測屬于計算機視覺分析[7]領域和圖像處理領域內(nèi)最基礎的工作,其中,行人的檢測在近幾年的應用中尤為突出,行人檢測結果的好壞會直接影響之后的對行人的識別和跟蹤。目前,對行人的檢測普遍是在靜態(tài)圖像中完成的,但由于行人目標是非剛體,會產(chǎn)生形狀變化和視覺變化等,例如圖中可能有膚色不同、穿著不同的衣服、作著不同的姿勢的行人,這些情況都會在一定程度上影響最終檢測的結果,因此,在復雜的靜態(tài)圖像中如何使檢測的性能和檢測的速度兩方面達到一個高水平的權衡,已經(jīng)成為近幾年來數(shù)字圖像處理方面的研究熱點和難點。
到目前為止,行人的檢測大多是在靜態(tài)圖像中進行的,其主要方法可以分為兩大類:一類是基于模板匹配[8]的方法,通常又可以分為基于灰度模板的匹配、基于輪廓模板的匹配和基于形狀模板的匹配。該類方法的主要思想是:提取描述行人信息的模板,如行人的膚色、穿著的衣服等,并對這些模板加以訓練,將訓練得到的模板與輸入的靜態(tài)圖像進行匹配,從而可以檢測并定位行人;但是,該類方法在行人數(shù)量很多、行人信息差異很大、行人之間有嚴重遮擋和環(huán)境比較復雜的情況下,檢測結果并不理想。另一類是基于特征學習[9]的方法,該方法屬于機器統(tǒng)計學習領域,可以很好地解決行人遮擋嚴重和環(huán)境復雜情況下的誤檢問題,因此,近幾年的應用十分廣泛。該類方法的主要思想是:從輸入的圖像中提取行人的灰度、邊緣、膚色、紋理或梯度直方圖等信息,并建立模型,將模型放到分類器中進行訓練,將得到的模型與輸入的靜態(tài)圖像進行匹配,從而可以檢測并定位行人。該類方法中的分類器最主流的有:AdaBoost迭代算法[10]、支持向量機(Support Vector Machine, SVM)算法[11]、神經(jīng)網(wǎng)絡算法和DPM算法。這些算法中AdaBoost迭代算法只能檢測出近似正面或背面的行人;SVM算法對圖像的分辨率要求很高;神經(jīng)網(wǎng)絡算法和DPM算法是近幾年應用比較廣泛的算法,相比之下,DPM算法的行人檢測精度較高。該類算法主要的行人檢測步驟分為:圖像的特征提取、特征的建模與訓練和行人檢測。實驗結果表明,在現(xiàn)有的特征中,魯棒性最好的是梯度方向直方圖(Histograms of Oriented Gradients, HOG)特征[12];而用SVM算法進行特征訓練的效率最高;通過DPM算法進行行人檢測得到的實驗結果的準確率相對較高。傳統(tǒng)的DPM檢測算法是提取行人的HOG特征,得到圖像的特征金字塔,建立可變形部件模型,將模型通過增加了潛在值信息的隱變量支持向量機(Latent Support Vector Machine, LSVM)進行訓練,得到5個部件濾波器模型,并在輸入圖像內(nèi)進行掃描和匹配,從而檢測出行人。傳統(tǒng)的DPM算法能高準確率地檢測出行人目標,但由于部件濾波器與圖像中的目標假設匹配過程中的計算量過大,導致檢測速度過慢,無法實現(xiàn)實時檢測。
綜上所述,本文在傳統(tǒng)DPM算法的基礎上增加了部件濾波器的數(shù)量,用來提高行人檢測的準確性;同時為了解決部件濾波器的增加帶來的計算時間過長和傳統(tǒng)的DPM算法檢測速度過慢的問題,本文算法又在傳統(tǒng)的DPM算法中融合了BB算法和CD算法,并與傳統(tǒng)的DPM算法進行了比較。實驗結果表明,本文算法不但提高了檢測的準確率,從而將行人檢測的時間從10 s提高到了0.3 s。為了便于描述,將本文提出的算法稱之為融合分支定界算法和級聯(lián)檢測算法的可變形部件模型算法(deformable Part Model with Branch and Bound algorithm and Cascaded Detection algorithm, BBCDPM)。
可變形部件模型是由一個較為粗糙的且覆蓋整個目標的全局根濾波器、若干個高分辨率的部件濾波器和部件濾波器相對于根濾波器的位置這三部分組成。DPM算法主要分為提取行人輪廓特征,對可變形部件的建模,對可變形部件的訓練和行人的檢測。
2.1 特征提取
行人特征的提取作為行人檢測的第一步尤為重要,應選魯棒性強和描述行人特征能力好的特征,因此,DPM算法選取了HOG特征,通過描述行人的梯度直方圖特征實現(xiàn)特征的提取。HOG特征是一種在計算機視覺和圖像處理中用來進行物體檢測的特征描述子,它通過計算和統(tǒng)計圖像局部區(qū)域的方向梯度方向直方圖來構成特征。與其他的特征描述方法相比,由于HOG特征是在圖像的局部方格單元上操作,所以它對圖像幾何的和光學的形變都能保持很好的不變性,這兩種形變只會出現(xiàn)在更大的空間領域上,并且,在粗的空域抽樣、精細的方向抽樣以及較強的局部光學歸一化等條件下,只要行人大體上能夠保持直立的姿勢,可以容許行人有一些細微的肢體動作,這些細微的動作可以被忽略而不影響檢測效果。
為了使濾波器在掃描圖像時不受圖像分辨率的影響,近幾年的DPM算法中還利用了特征金字塔[13]的方式。具體步驟如下。
步驟1 對輸入的圖像進行歸一化處理,壓縮公式為:
I(x,y)=I(x,y)gamma
(1)
其中gamma=1/2,將圖像I縮放至尺度s。
步驟2 從輸入的原始圖像I開始,在每一個倍頻程中相對于上一步以21/t的倍數(shù)進行下采樣,直至經(jīng)歷t次迭代操作達到原圖像的1/2為止,得到輸入圖像的圖形金字塔。
步驟3 通過計算標準圖像金字塔中每一層圖像的HOG特征得到HOG特征金字塔,HOG金字塔中每一層的最小單位是細胞單元。
步驟4 將每一層得到的HOG特征金字塔歸一化并串聯(lián)得到最終圖像的HOG特征金字塔。
2.2 可變形部件的建模
可變形部件模型的實質是根濾波器和一系列部件濾波器結合形成的星形結構模型,而每一個濾波器的實質是一個權重向量。例如一個u×v的濾波器是一個含有u×v×g×h的權重向量,其中g×h為一個HOG細胞單元的特征向量的維數(shù),每個濾波器的分數(shù)實質是由該濾波器對應的權重向量與HOG金字塔中u×v大小的HOG特征向量的點積得到的,則總的測試窗口的得分就是根濾波器的分數(shù)加上所有部件濾波器的分數(shù)的和,再與相應的該部件濾波器在特征金字塔中的位置進行點積后,減去每個部件濾波器相對于根位置的偏移量與偏移實數(shù)之和就構成了它的語義模型,如式(2)所示:
(2)
2.3 可變形部件的模型訓練
有了語義模型后,下一步是對可變形部件濾波器進行訓練,最初使用SVM算法的分類器訓練模型,但由于SVM算法是一個凸函數(shù),在最終的行人檢測中,只標注了行人目標的整體位置,而不能標出每個部件的位置,因此,DPM算法采用LSVM來訓練模型濾波器,它是在原有的SVM算法上添加了潛在值信息,即SVM算法中遺漏的輸入信息,使得算法成為一個非凸函數(shù),從而在行人檢測過程中既可以標出整個行人目標的位置,又可以標出所有部件的位置。LSVM算法主要分為兩個部分:對參數(shù)模型進行優(yōu)化和對優(yōu)化模型進行訓練。
對參數(shù)模型進行優(yōu)化 在LSVM算法中,假設β為根濾波器、部件濾波器和部件濾波器相對于根位置的偏移量串聯(lián)起來得到的模型參數(shù)向量,z為目標匹配參數(shù),集合Z(x)定義了樣本x中可能的隱形變量的值。ψ(x,z)是特征金字塔中的一層HOG特征和部件的形變特征串聯(lián)起來構成的特征向量,則每一個樣本的得分就等于各個部件模型在給定位值的得分的最大值,如式(3)所示:
(3)
優(yōu)化模型參數(shù)向量β要通過使用梯度下降算法迭代,使得函數(shù)值收斂到L(β)的最小值,即得到了函數(shù)的局部最優(yōu)值,L(β)的計算如式(4)所示:
(4)
對優(yōu)化模型的訓練 初始化并更新根濾波器;初始化并更新部件濾波器。具體步驟如下。
步驟1 對于每個目標類別,根據(jù)訓練數(shù)據(jù)集中目標矩形框大小的統(tǒng)計值,自動選取根濾波器的尺寸,使用不含隱藏變量的SVM訓練得到一個初始的根濾波器,正樣本從實驗選取的數(shù)據(jù)集中無遮擋的目標圖片中截取得到,負樣本從不包含目標的圖片中隨機截取。
步驟2 在輸入的靜態(tài)圖中,如果訓練得到的根濾波器和訓練數(shù)據(jù)集中的目標矩形框有顯著重疊時,找到濾波器得分最高的位置。
步驟3 在根位置周圍選出具有最大分數(shù)的矩形區(qū)域,初始化為部件濾波器。
步驟4 不斷添加負樣本,不斷訓練新的部件模型來替換原來的部件模型。
圖1 部件濾波器數(shù)和檢測精度之間的關系
因此,本文應用的BBCDPM算法將傳統(tǒng)的DPM算法中訓練得到的5個部件濾波器增加到了8個,這樣既可以將檢測的精度提高到93.71%,并且對行人檢測速度的負面影響在可控制的范圍內(nèi)。為了進一步地提高檢測速度,雖然之前的研究工作中利用了動態(tài)規(guī)劃[14-15]和距離轉換算法[16],在搜索工作中可以排除部分假設位置,但效果并不明顯,而文獻[5]的DPM算法中加入了CD算法,將原始36維特征向量投影得到的11維特征向量,使用低維特征可以產(chǎn)生參數(shù)較少的模型,不但沒有降低檢測準確率,反而能夠加速學習和檢測。然而由于在計算特征金字塔時需要相對耗時的投影步驟,使獲得的加速優(yōu)勢有所減少,因此,本文在其基礎上應用了將BB和CD算法結合的方法,首先使用CD算法以一個序列模型順序地評估各個部件,從而快速排除大部分可能性較小的對象假設,以加快對象定位過程,可將檢測速度提高到傳統(tǒng)算法的3倍;同時應用BB算法在所有可能的圖像區(qū)域上搜索全局最優(yōu)的分類結果,使用最大響應的上界限進行搜索窗口的裁剪操作,這樣可以大幅提高檢測速度,結果顯示本文BBCDPM算法將行人檢測的時間從10 s提高到了0.3 s。
3.1 級聯(lián)檢測算法
在行人檢測中,分數(shù)大于全局閾值的根位置是檢測的關鍵,CD算法的實質是計算每一個目標假設位置的分數(shù),并從大到小進行重新排列,從而得到目標假設位置的裁剪閾值,并通過閾值修剪簡化檢測模型。將得到的修剪閾值與每一個目標假設位置的得分進行比較,將大于閾值的目標假設位置留下,并設定為感興趣區(qū)域,排除大部分無效的目標假設位置。只需將得分最高的根部件在感興趣區(qū)域內(nèi)的每個假設目標的位置上進行級聯(lián)檢測,確定根位置。由于根部件和其他部件之間不是相互獨立的,是有位置關聯(lián)的,因此,其他部件濾波器可依次在其確定的根位置周圍進行掃描和匹配。
3.2 分支界限分支定界算法
BB算法被用于非凸的或者不可微的函數(shù)值的最大值化的計算,該算法的主要思想是先將整個圖像劃分為區(qū)間,計算每個區(qū)間內(nèi)的所有函數(shù)值,找出區(qū)間內(nèi)函數(shù)值的最大值,將整個區(qū)間內(nèi)的函數(shù)值都重新賦值為計算得到的該區(qū)間內(nèi)函數(shù)值的最大值,每個區(qū)間的最大值是通過該區(qū)間內(nèi)的函數(shù)上界限決定的。假設區(qū)間X0的函數(shù)為S(x),BB算法可以在區(qū)間X0內(nèi)判斷出該函數(shù)值的最大值,因為BB算法可以將每一個區(qū)間內(nèi)的函數(shù)近似看作一個拋物線函數(shù),這樣易于在一個復合非凸的函數(shù)中找到對應函數(shù)值的最大值,即這個拋物線函數(shù)的頂點函數(shù)值。X0可被再次細劃分成兩個下級區(qū)間X1和X2,同樣的,可以分別計算X1內(nèi)和內(nèi)函數(shù)值的最大值,X1和X2又可以繼續(xù)各自劃分為兩個區(qū)間,這樣就可以很快地找出每個小區(qū)間內(nèi)的最大的函數(shù)值,并將整個區(qū)間的所有函數(shù)值都用這個最大值重新定義,如式(5)所示:
(5)
3.3 算法的融合
綜上所述:CD算法的實質是遍歷所有目標假設位置,找到并保留大于閾值的目標假設位置,其他的部分被裁剪掉;BB算法的實質是通過優(yōu)先權的思想,計算出每個區(qū)域內(nèi)函數(shù)值的最大值,將這個區(qū)域內(nèi)的函數(shù)值全部重新定義為這個最大值。兩種算法的融合步驟如下。
步驟1 利用主成分分析(Principal Component Analysis,PCA)系數(shù)矩陣[17]對特征向量和特征金字塔進行降維,保證維度一致。將標準的星形模型[18]簡化為星形級聯(lián)模型,并計算得到級聯(lián)檢測閾值。
步驟2 將輸入圖像劃分為區(qū)域,每個區(qū)域內(nèi)得到目標假設位置的函數(shù)。
步驟3 計算每個區(qū)域內(nèi)函數(shù)值的最大值,并將該區(qū)域內(nèi)的所有函數(shù)值都重新賦值為該最大值。
步驟4 對行人目標的假設位置和形變進行裁剪,計算每一個目標假設位置的分數(shù),將該分數(shù)與級聯(lián)檢測閾值進行比較,保留大于閾值的目標假設位置,并設置為感興趣區(qū)域。
步驟5 在感興趣區(qū)域中,進行級聯(lián)檢測,用根部件進行掃描,確定根部件的位置后,其他部件可通過與根部件的相對位置,在根部件周圍區(qū)間進行掃描,從而檢測出行人,并標識。
本文訓練所用的數(shù)據(jù)庫選擇INRIA數(shù)據(jù)庫,該數(shù)據(jù)庫包括從各種人體照片中剪切得到1 805個64×128像素的行人圖片。這些人體目標大多數(shù)是站立的,但行人朝向各不相同,并且背景是復雜且不同的,有些背景中還有人群。實驗選擇在Matlab(R2015a)上進行;測試設備使用Intel Core i5- 6300HQ CPU、內(nèi)存為4.00 GB、系統(tǒng)為64位操作系統(tǒng)、基于x64的處理器。
本文采用的BBCDPM算法應用了HOG特征對行人的梯度直方圖特征進行描述,并得到了輸入圖像的特征金字塔。通過LSVM對可變形部件模型進行訓練,本文BBCDPM算法與傳統(tǒng)DPM算法訓練的可變形部件模型對比結果如圖2所示,圖2(a)為傳統(tǒng)的DPM算法訓練得到的根濾波器模型、5個部件濾波器模型,分別為頭部、左上身部、右上身部、腿部、腳部和對應的5個部件模型;圖2(b)為本文BBCDPM算法細化的行人部件濾波器,將部件濾波器增加后訓練得到的根濾波器模型、8個部件濾波器模型,分別是在原有的頭部、左上身部、右上身部、腿部、腳部的基礎上,將上身部細化為左肩部、右肩部、左腹部、右腹部;又將腳部細化為左腳部右腳部,及對應的8個部件模型。由圖可以看出,通過細化部件濾波器,圖2(b)中的根濾波器相比較圖2(a)更為清晰,并且由于部件濾波器數(shù)量的增加使行人部件匹配的過程中可以更準確地匹配,從而可以提高行人定位和檢測的準確度。
圖2 訓練得到的根濾波器、部件濾波器和部件模型
將得到的部件模型在靜態(tài)圖中的感興趣區(qū)域內(nèi)進行檢測,得到的檢測結果如圖3所示:圖3(a)為本文算法在單個行人的靜態(tài)圖像上的檢測結果;圖3(b)為本文算法在多個行人且行人之間沒有重疊時的靜態(tài)圖像上的檢測結果;圖3(c)為本文算法在多個行人且行人之間有部分重疊時的靜態(tài)圖像上的檢測結果。從圖3中可以看到,由于使用了非凸的LSVM算法進行模型的訓練,因此,當可變形部件模型檢測出行人時,圖3中不僅能夠看到所有右側圖中標識出的整個行人目標,即根部件的位置,并且能夠看到所有對應的左側圖中標識出的行人各個部件的位置,但由于其他部件位置與根位置是有相對關系的,因此確定根位置后,其他部件濾波器會在根位置周圍根據(jù)相對距離關系進行掃描,所以,在圖3(c)中可以發(fā)現(xiàn)左右兩個人的左右腳的部件位置出現(xiàn)了誤檢,但不影響整個行人的檢測。
DPM算法一般用于靜態(tài)圖像中的人臉識別和人體檢測,準確率較高,但在輸入的靜態(tài)圖像中行人較多且有嚴重遮擋的情況下,漏檢率過高,針對這一問題,本文增加了部件濾波器的數(shù)量。如表1所示為傳統(tǒng)的DPM算法訓練得到的5個部件濾波器和本文BBCDPM算法訓練得到的8個部件濾波器的實驗結果數(shù)據(jù)對比,傳統(tǒng)的DPM算法得到的行人檢測的結果準確率為81.71%,但是卻存在13.1%的漏檢率;而本文所提出的BBCDPM算法的檢測準確率為93.71%,相比較傳統(tǒng)的DPM算法提高了12個百分點,并且漏檢率也降低到4%,因此本文的BBCDPM算法在行人檢測的準確率和漏檢率方面都有明顯的提高。
由于DPM算法的計算量過大,所以影響了行人檢測的速度,改進后的DPM算法提高了在行人檢測中的速度。實驗數(shù)據(jù)表明,傳統(tǒng)DPM算法的行人檢測所花費的時間為10.74±1.00 s,應用了CD算法后的DPM算法在行人檢測中所花費的時間為3.08±1.00 s,而本文提出的BBCDPM算法在行人檢測中所花費的時間為0.25±0.1。由實驗數(shù)據(jù)可以看出,傳統(tǒng)的DPM算法所需的時間花費過大,再結合了CD算法后,雖然行人檢測的速度有所提高,但由于在行人特征提取的過程中獲得特征金字塔的計算量過大,單純只結合CD算法并不能抵消之前的時間花費,因此,提速的效果并不明顯。所以在此基礎上,本文的BBCDPM算法在只結合了CD算法的DPM算法的基礎之上,又結合了BB算法,得到圖像各個區(qū)域的函數(shù)最大值,有利于CD算法排除大量不可能的對象假設,從而使檢測時間從原有的10 s左右縮短到了0.3 s左右。
圖3 靜態(tài)圖中的行人識別和檢測結果
表1 兩種算法的檢測準確率對比
DPM算法是近幾年被應用于行人檢測中準確度較好的算法,但由于計算量很大,導致檢測速度過慢,不能進行實時的行人檢測。為了更好地體現(xiàn)算法在行人檢測中的優(yōu)勢,本文在提高準確率和提高檢測速度兩個方面都進行了相應的改進,將部件濾波器的數(shù)量從原有的5個增加到了8個,這一改進將行人檢測的準確率提高了12個百分點。在此基礎上,本文又在改進DPM算法中結合了BB算法和CD算法,使得本文BBCDPM算法的檢測時間大幅縮短。
但在多個行人有嚴重遮擋的情況下,實驗會出現(xiàn)漏檢,因此,下一步的改進將研究添加多個行人檢測器,以提高在行人互相有嚴重遮擋情況時的準確率。
References)
[1] FELZENSZWALB P F, MCALLESTER D, RAMANAN D. A discriminatively trained, multiscale, deformable part model [C]// Proceedings of 2008 IEEE Computer Vision and Pattern Recognition Workshops. Washington, DC: IEEE Computer Society, 2008: 1-8.
[2] 劉琦,黃咨,胡福喬,等.基于GPU的卷積檢測模型加速[J].計算機應用與軟件,2016,33(5):226-230.(LIU Q, HUANG Z, HU F Q, et al. Convolution-based detection models acceleration based on GPU [J]. Computer Applications and Software, 2016, 33(5): 226-230.)
[3] PEDERSOLI M, VEDALDI A, GONZAIEZ J, et al. A coarse-to-fine approach for fast deformable object detection [J]. Pattern Recognition, 2015, 48(5): 1844-1853.
[4] SONG H, GIRSHICK R, ZICKLER S, et al. Generalized sparselet models for real-time multiclass object recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(5): 1001-1012.
[5] 甘鵬坤,陶凌,龍偉.基于可變形部件模型及稀疏特征的行人檢測[J].深圳大學學報(理工版),2015,32(6):563-570.(GAN P K, TAO L, LONG W. Cascade pedestrian detection based on the deformable part models and histograms of sparse codes features [J]. Journal of Shenzhen University (Science and Engineering), 2015, 32(6): 563-570.)
[6] QIANG Z, SHAI A, MEI C Y, et al. Fast human detection using a cascade of histograms of oriented gradients [C]// Proceedings of 2006 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Washington, DC: IEEE Computer Society, 2006: 1491-1498.
[7] 張國云,郭龍源,吳健輝,等.計算機視覺與圖像識別[M].北京:科學出版社,2012:165.(ZHANG G Y, GUO L Y, WU J H, et al. Computer Vision and Image Recognition [M]. Beijing: Science Press, 2012: 165.)
[8] 田娟,鄭郁正.模板匹配技術在圖像識別中的應用[J].傳感器與微系統(tǒng),2008,27(1):112-114.(TIAN J, ZHENG Y Z. Application of template matching technique in image recognition [J]. Transducer and Microsystem Technologies, 2008, 27(1): 112-114.)
[9] 王寧波.基于RGB-D的行人檢測[D].杭州:浙江大學,2013:5-7.(WANG N B. Pedestrian detection based on RGB-D [D]. Hangzhou: Zhejiang University, 2013: 5-7.)
[10] ROBERT E S, YORAM S. Improved boosting algorithms using confidence-rated prediction [J]. Machine Learning, 1999, 37(3): 297-336.
[11] 程和生,胡幸福.基于HOG和SVM的人體檢測技術在靜態(tài)圖像中的研究[J].儀器儀表用戶,2012,19(5):20-23.(CHENG H S, HU X F. The study on the human detection technology in the static image based on HOG and SVM [J]. Instrumentation Customer, 2012, 19(5): 20-23.)
[12] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection [C]// Proceedings of the 2005 Computer Vision and Pattern Recognition Workshops. Washington, DC: IEEE Computer Society, 2005: 886-893.
[13] FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D. et al. Object detection with discriminatively trained part based models [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645.
[14] FELZENSZWALB P F, HUTTENLOCHER D P. Distance transforms of sampled functions [J]. Theory of Computing, 2012, 8: 415-428.
[15] FELZENSZWALB P F, HUTTENLOCHER D P. Pictorial struc-tures for object recognition [J]. International Journal of Computer Vision, 2005, 61(1): 55-79.
[16] 趙宇.基于動態(tài)規(guī)劃的檢測前跟蹤算法研究[D].西安:西安電子科技大學,2012:9-12.(ZHAO Y. Research on tracking algorithm based on dynamic programming[D]. Xi’an: Xidian University, 2012: 9-12.)
[17] 張闖.基于可變形部件模型的人體級聯(lián)檢測[D].大連:大連海事大學,2014:33-34.(ZHANG C. Human cascade detection based on deformable component model [D]. Dalian: Dalian Maritime University, 2014: 33-34.)
[18] GIRSHICK R B. From rigid templates to grammars: object detection with structured models [D]. Chicago, IL: The University of Chicago, 2012: 1-129.
This work is partially supported by the Research Foundation of Inner Mongolia Normal University (2016ZRYB005).
CHAIEnhui, born in 1992, M. S. candidate. Her research interests include video retrieval, image processing.
ZHIMin, born in 1972, Ph. D., professor. Her research interests include video retrieval, image processing.
Pedestriandetectionbasedondeformablepartmodelwithbranchandbound
CHAI Enhui, ZHI Min*
(CollegeofComputerandInformationEngineering,InnerMongoliaNormalUniversity,HohhotNeiMongol010022,China)
The detection accuracy of the Deformable Part Model (DPM) algorithm is high in the field of pedestrian detection, however, in the two steps of feature extraction and pedestrian location, the computation is too large, which leads to the slow detection speed and the deformable part model algorithm can not be used in real time pedestrian detection. To solve the problems, a deformable Part Model with Branch and Bound (BB) algorithm and Cascaded Detection (CD) algorithm (BBCDPM) was proposed. First, the Histogram of Oriented Gradients (HOG) feature was selected to describe human target to generate characteristic pyramid. Then, the deformable part model was modeled, and the Latent Support Vector Machine (LSVM) was used to train the model. In order to increase the accuracy of pedestrian detection, the part model of traditional deformation part model algorithm was increased from 5 to 8 parts. Finally, the cascade detection algorithm was used to simplify detection model, then the maximum value was found by combining with the branch and bound algorithm, and a lot of impossible object assumptions were removed, so the pedestrian target location and detection were completed. The experimental results on INRIA dataset show that, compared with the traditional DPM algorithm, the proposed algorithm improves the accuracy rate by 12 percentage points and significantly accelerates pedestrian detection and recognition.
Branch and Bound (BB) algorithm; Deformable Part Model (DPM) algorithm; Cascaded Detection (CD) algorithm; Histogram of Oriented Gradients (HOG) feature; characteristic pyramid; Latent Support Vector Machine (LSVM); pedestrian detection
TP391.413; TP18
:A
2016- 12- 21;
:2017- 03- 02。
內(nèi)蒙古師范大學科研基金資助項目(2016ZRYB005)。
柴恩惠(1992—),女,山西原平人,碩士研究生,主要研究方向:視頻檢索、圖像處理; 智敏(1972—),女,內(nèi)蒙古巴林左旗人,教授,博士,主要研究方向:視頻檢索、圖像處理。
1001- 9081(2017)07- 2003- 05
10.11772/j.issn.1001- 9081.2017.07.2003