張 強
(中國科學技術大學 自動化系,安徽 合肥 230027)
一種利用特征選擇改進的行人檢測模型
張 強
(中國科學技術大學 自動化系,安徽 合肥 230027)
標準HOG模型在行人檢測領域中最為經典,相比于標準模型中整齊劃一的block,不同尺寸的block可以獲得更多的細節(jié)信息。首先,在去除上下文背景的32×96尺寸模型基礎上設計144個block特征;然后,提出類Fisher比計算block類別區(qū)分力;最后,利用NMS方法選出24個block,串接為1 854維的行人檢測模型。實驗結果表明,該利用特征選擇改進的行人檢測模型獲得了顯著的性能提升。
行人檢測;特征選擇;線性判別分析;非極大值抑制
行人檢測是計算機視覺熱門研究領域之一。人體的非剛體性、外觀多樣性、復雜背景、光照變化、尺度變化、遮擋等研究難點給行人檢測研究提出了巨大的挑戰(zhàn)。另一方面,行人檢測的市場應用前景十分廣闊,典型應用有智能視頻監(jiān)控、車輛輔助駕駛行人保護系統(tǒng)、智能交通控制等,近年來也應用到航拍圖像、受害者營救等新興領域[1]。
本文在32×96尺寸下,設計了144個不盡相同的block特征,然后利用一種新穎的特征選擇方法從中挑選出24個,將這些特征向量串聯(lián)構成一個1 854維的行人檢測模型,最后用線性支持向量機進行模型訓練。實驗結果表明,利用特征選擇改進的行人模型顯著提升了檢測性能。
DALAL N和TRIGGS B在2005年CVPR上提出HOG特征[2],3 780維的64×128標準HOG行人模型近乎完美地解決了MIT行人數(shù)據(jù)集[3],文中一并推出更具挑戰(zhàn)性的INRIA Person數(shù)據(jù)集。
針對標準HOG行人模型內部block尺寸單一、簡單地將block特征串聯(lián)而不能充分發(fā)揮HOG潛力的問題,Zhu Qiang等人[4]將block尺寸從典型的16×16中釋放出來,通過改變block的寬高比例以及block在窗口內部的滑動步長等,獲得5 031個不盡相同的block。每一個block結合SVM訓練得到一個弱分類器,最終用AdaBoost方法從這些弱分類器中選擇構建級聯(lián)結構的分類器。該方法不足之處在于:在FPPW(False Positives Per Window)vs.漏檢率的評價方法下,級聯(lián)HOG在漏檢率較大時的性能表現(xiàn)依然不如標準HOG行人模型;盡管可以從5 031個block中做出隨機選擇,但是訓練數(shù)以百計弱分類器的工作量依然十分巨大。
田仙仙等人[5]在標準HOG行人檢測模型的基礎上,通過改變block中cell大小,設計了3種不同尺寸共計21個block特征,然后利用Fisher準則給所有特征排序,將類間離散度矩陣與類內離散度矩陣之間行列式比值衡量block特征的區(qū)分能力,比值越大表示block區(qū)分力越強,最后挑選block直到滿足設定的分類準確率要求。作者利用這種方法選擇出10個block,特征向量合計360維。但是,作者采用從多種不同渠道獲得的隨機混合樣本,并沒有在完整的INRIA Person數(shù)據(jù)集上做出Multi HOG的性能對比。同時,Zhu Qiang等人[4]和田仙仙等人[5]均沒有在FPPI vs.漏檢率[6]的評價方法下做出性能評價。
特征選擇是從一系列特征中挑選出最有效的特征以降低特征空間維度的過程,其目標是尋找一個最小特征子集,該子集以較高程度的正確性代表原始的特征集合。特征選擇算法[7-8]按照特征集合評價策略可以劃分為過濾式(Filter)和封裝式(Wrapper)兩大類。
Filter與Wrapper方法的區(qū)別在于對特征子集的評價是否用到機器學習算法。其中,Wrapper方法將篩選出來的特征直接進行分類器訓練,然后根據(jù)分類器在驗證集上的表現(xiàn)來評價該特征子集。這類方法的優(yōu)點在于能夠有效地辨識關鍵特征,挑選出規(guī)模相對較小的特征子集,精簡學習機器的結構;缺點同樣明顯,由于需要反復不斷地訓練和測試分類器,這類方法一般比較耗時。Filter方法對特征子集的評價不需要經過機器學習算法的訓練,是一類計算效率相對較高的方法。相對Wrapper方法,F(xiàn)ilter方法對關鍵特征的尋找會有一些阻礙,但其能夠去除大量非關鍵性的噪聲特征,可以幫助找到次優(yōu)的特征子集。
本研究的數(shù)據(jù)類型與樣本數(shù)量決定了無法采用代價過大的Wrapper方法。Filter方法采用了概率距離和相關距離法、類間與類內距離測量法、信息熵法、決策樹濾波等評價方法。結合本文樣本數(shù)據(jù)特點,本文主要考慮類間與類內距離測量法。
線性判別分析(Linear Discriminant Analysis, LDA)通過尋找一個轉換矩陣W,將原始數(shù)據(jù)空間轉換為維度更低的特征空間,并使得類間離散度和類內離散度的比值最大,離散度測度用樣本離散度矩陣的行列式值計算,目標函數(shù)如下:
(1)
崔自峰等人[9]在LDA的基礎上提出受限線性判別分析。受限LDA完成的特征選擇沒有對特征進行轉換或組合,不改變特征語義,保留了原始數(shù)據(jù)的可理解性,其轉換矩陣為一個二值矩陣,轉換矩陣的每一列有且僅有一個非零元素1,表示對原始特征空間中某一個維度的選擇。而且針對類內離散度矩陣SW奇異,傳統(tǒng)求解特征方程組的方式不再適用,作者將離散度的測度由行列式值替換為矩陣的跡,目標函數(shù)修正為:
(2)
王颯等人[10]針對高維數(shù)據(jù)提出了一種基于Fisher準則和特征聚類的特征選擇方法。首先利用單個特征的Fisher比來衡量特征的類別區(qū)分力,并依據(jù)Fisher比對特征降序排序;然后累加所有特征的Fisher比,設定預選累加和占比ρ,預選出類別區(qū)分力較強的特征子集;最后利用相關系數(shù)度量特征之間的冗余度,在預選的特征子集上對特征進行分層聚類,從每一個聚類中選擇Fisher比最大的一維特征加入最終的特征子集,以達到去冗余的目的。
本文采用在64×128標準HOG行人模型基礎上去除上下文背景的32×96尺寸模型。
2.1 特征設計
Fast HOG[4]和Multi HOG[5]均延續(xù)了由2×2 cell構成block的做法,用9個方向統(tǒng)計cell的梯度方向直方圖,所以每個block特征均為36維。考慮cell尺寸過大將無法有效獲取圖片的細節(jié)信息,于是本文采用與上述不同的設計方案:將cell的尺寸保持為8×8,只在block的cell組合上做出變化。
在32×96滑動窗口內,將block寬度限定為16和32,寬高比例從1∶1、1∶2、1∶3、2∶1變化到2:3,相鄰block移動步長為8,如表1所示,設計了144個共9種不同尺寸的block。
表1 block特征設計
如圖1所示,每一個方格代表一個8×8 cell,32×96的滑動窗口包含48個cell。如表2所示,第1個16×16 block由1/2/5/6這4個cell組成,第2個16×16 block由2/3/6/7這4個cell組成,第1個32×32 block由1/2/3/4…13/14/15/16這16個cell組成,依此類推。
圖1 全體cell編號
表2 block占用cell編號說明
2.2 類Fisher比
本文采用Filter方法進行特征選擇。但是,F(xiàn)ilter方法一般判斷是否選擇特征向量中的某一維,而本文的特征集合由144個block組成,如表1所示,這些block特征均不是單一維度。因此黃仙仙等人[5]用Fisher比衡量block的類別區(qū)分力,首先計算訓練樣本的類間離散度矩陣SB和類內離散度矩陣SW:
(3)
(4)
雖然協(xié)方差矩陣為半正定矩陣,所有特征根非負,但是依然存在0值特征根的風險,從而導致離散度矩陣行列式為0。事實上,從本文的實驗過程來看,訓練樣本的類間離散度矩陣SB行列式值為0,是奇異矩陣。而一旦|SB|=0,F(xiàn)isher比將無法衡量該block的類別區(qū)分力。
為了避免0值特征根的風險,崔自峰等人[9]和王颯等人[10]在對單一維度特征進行選擇時,用訓練樣本集上的類間方差和類內方差的比值來度量該維特征的類別區(qū)分力。結合本文特征數(shù)據(jù)類型,將其擴展為樣本類間離散度矩陣的跡與類內離散度矩陣的跡之間的比值,用離散度矩陣特征根的和替代特征根的積,從而得到block特征的類別區(qū)分力,稱為類Fisher(Fisher-like)比:
(5)
類Fisher比越大,block的類別區(qū)分能力越好。
2.3 NMS特征選擇
圖2 NMS特征選擇流程
依據(jù)各block在訓練樣本集上的類Fisher比,可以得到有序的全體特征集合。如果遵循傳統(tǒng)的特征選擇方法,只選擇前k個block,那么存在一個嚴重問題:訓練樣本中目標某些部位的cell具有非常顯著的類別區(qū)分力,導致包含這些cell的block特征也具有較高的區(qū)分力得分。顯然,對cell過多地重復利用,將造成特征嚴重冗余。因此,本文提出了一種非極大值抑制(Non-Maximum Suppression, NMS)方式的特征選擇方法。
如圖2所示,首先依據(jù)block的類Fisher比值進行排序,得到有序的全體block特征集合,并且給每一個block設置標志位,標志位為0表示此cell沒有被block占用,標志位為1表示此cell已被占用;然后從類Fisher比值最大的block開始,標記占用的cell,并將其加入特征子集;再輸入下一個得分較低的block,如果該block占用了未標記的cell,那么將該block加入特征子集,并將新占用的cell標記為1,如果構成該block的所有cell標志位均為1,則抑制該block;循環(huán)執(zhí)行上一步,直到全體cell標志位均為1停止。最后,輸出特征子集。
與王颯等人[10]特征聚類的目的類似,本文NMS方法也是為了在保證特征子集類別區(qū)分力的基礎上進行特征去冗余。
本文提出的結合類Fisher比計算類別區(qū)分力和NMS選擇特征子集的特征選擇方法,既保持了特征語義,又實現(xiàn)了在合理代價下獲得次優(yōu)的特征子集。
本文以INRIA Person數(shù)據(jù)集作為驗證平臺,訓練集由2 416張裁剪好尺寸的正樣本和1 218張負樣本圖片組成,測試集由288張共包含589名行人目標的圖片組成。
首先分別在正負訓練樣本中提取全部144個block特征數(shù)據(jù),隨機從負樣本圖片中選擇10個窗口,組成12 180個負樣本。然后計算各block的類間離散度矩陣SB和類內離散度矩陣SW。如前文所言,從16×16 block開始計算SB的行列式,但33個block結果全部為0,而且SW的行列式值也極大,常溢出而被視為正無窮,這些均會導致block的Fisher比為0,這也是本文無法用Fisher比衡量block類別區(qū)分力的直接原因。因此提出類Fisher比,繼續(xù)利用SB和SW計算各block的類Fisher比值,并將全體block按類Fisher比值降序排序。最后利用NMS從144個block中選擇出24個特征,如表3所示,涵蓋6種尺寸,合計1 854維。
表3 24個block編號
值得說明的是,本文特征選擇的結果與訓練集正樣本間的對稱性保持一致:1 208個目標經由鏡面對稱處理得到翻倍的2 416張正樣本,而表3中的block之間也保持了左右對稱。
明確特征子集之后,從訓練樣本中提取這24個block的特征向量,串接成1 854維。然后利用線性支持向量機進行模型訓練,誤分類代價設為[0,1;1,0],其間搜尋了2輪的困難樣本,并將困難樣本加入初始樣本集中重新訓練,得到最終的分類器。最后基于FPPI vs.漏檢率的評價方法,在INRIA Person測試集上檢驗模型的性能。
如圖3所示,DET曲線越低表示性能更好[6],上方的性能曲線對應3 780維的標準HOG行人模型;居中的性能曲線對應1 188維去除上下文背景的32×96模型;下面的性能曲線對應本文1 854維的利用特征選擇改進的行人檢測模型。顯而易見,上述模型的性能依次遞增,以0.1FPPI為例,三條曲線的漏檢率分別為65.03%、51.61%以及43.12%。
圖3 DET曲線
圖4 檢測效果對比示例
如圖4示例,(a)、(b)、(c)分別為標準HOG行人模型、去除上下文背景行人模型以及利用特征選擇改進的行人檢測模型對同一張圖片的檢測結果,顯然,檢測效果是依次遞增的。
本文還存在以下問題:block設計上可以更豐富一些,可以將改變cell尺寸來設計block的方式與本文的方式相結合;本文的特征選擇方法得到的是一個次優(yōu)的特征子集,未來可以繼續(xù)研究具備可行性的尋找最優(yōu)特征子集的方法。
[1] 蘇松志, 李紹滋, 陳淑媛, 等. 行人檢測技術綜述[J]. 電子學報, 2012, 40(4): 814-820.
[2] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection [C]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, San Diego, CA, USA: IEEE Press, 2005, 1: 886-893.
[3] PAPAGEORGIOU C, POGGIO T. A trainable system for object detection [J]. International Journal of Computer Vision, 2000, 38(1): 15-33.
[4] Zhu Qiang, AVIDAN S,YEH M C, et al. Fast human detection using a cascade of histograms of oriented gradients[C].IEEE Computer Society Conference on Computer Vision and Pattern Recognition, New York, NY, USA: IEEE Press, 2006, 2: 1491-1498.
[5] 田仙仙, 鮑泓, 徐成. 一種改進HOG特征的行人檢測算法[J]. 計算機科學, 2014, 41(9): 320-324.
[6] DOLLáR P, WOJEK C, SCHIELE B, et al. Pedestrian detection: A
benchmark[C]. IEEE Conference on Computer Vision and Pattern Recognition. Miami, Florida, USA: IEEE Press, 2009: 304-311.
[7] 毛勇, 周曉波, 夏錚, 等. 特征選擇算法研究綜述[J]. 模式識別與人工智能, 2007, 20(2): 211-218.
[8] 姚旭, 王曉丹, 張玉璽, 等. 特征選擇方法綜述[J]. 控制與決策, 2012, 27(2): 161-166.
[9] 崔自峰, 吉小華. 基于線性判別分析的特征選擇[J]. 計算機應用, 2009, 29(10): 2781-2785.
[10] 王颯, 鄭鏈. 基于Fisher準則和特征聚類的特征選擇[J]. 計算機應用, 2008, 27(11): 2812-2813.
An improved human detection model using feature selection
Zhang Qiang
(Department of Automation, University of Science and Technology of China, Hefei 230027, China)
Standard HOG model is the most classic model in the field of human detection. Compared to uniform blocks in the standard model, blocks with different sizes can get more details. Firstly, 144 blocks were designed on the basis of the 32×96 model which the context of standard model was removed. Secondly, Fisher-like ratio was proposed to calculate blocks' discrimination performance. Finally, 24 blocks were selected by NMS feature selection method and composed a 1854-dimensional human detection model. The experimental results indicate that the improved human detection model using feature selection achieves significant performance improvements.
human detection; feature selection; linear discriminant analysis; non-maximum suppression
TP391
A
1674-7720(2016)02-0043-04
張強. 一種利用特征選擇改進的行人檢測模型[J] .微型機與應用,2016,35(2):43-46.
2015-10-26)
張強(1990-),通信作者,男,碩士研究生,主要研究方向:行人檢測。E-mail:zhangq12@mail.ustc.edu.cn。