夏道勛,蘇松志,李紹滋*
(1.貴州師范大學數(shù)學與計算機科學學院,貴州貴陽550001;2.廈門大學信息科學與技術(shù)學院,福建廈門361005)
行人檢測模型向平躺人體檢測的遷移及其性能分析
夏道勛1,2,蘇松志2,李紹滋2*
(1.貴州師范大學數(shù)學與計算機科學學院,貴州貴陽550001;2.廈門大學信息科學與技術(shù)學院,福建廈門361005)
人體檢測是計算機視覺研究中的難點和熱點,具有很好的理論意義和應用價值,它可分為行人檢測和平躺人體檢測.平躺人體檢測的研究正處于起步階段,存在視角變化大、姿態(tài)多樣、背景復雜等尚未解決的問題.為此本文借鑒行人檢測研究成果,將梯度方向直方圖和支持向量機模型(HOG+SVM)、形變部位模型(DPM)和聚合通道特征(ACF)三大主流行人檢測模型遷移到平躺人體檢測中,驗證它們的檢測效果和分析檢測性能.總結(jié)行人檢測和平躺人體檢測的異同,找出平躺人體檢測存在的關(guān)鍵問題,為建立適應平躺人體檢測建模提供了理論依據(jù)和實踐經(jīng)驗,最后給出平躺人體檢測模型的一些研究建議.
行人檢測;平躺人體檢測;梯度方向直方圖;支持向量機模型;形變部位模型;聚合通道特征
人體檢測是在輸入單張圖片或者視頻幀中,判斷其是否包含人體,如果存在,則給出人體的位置信息,它可分為行人檢測和平躺人體檢測.人體兼具剛性和柔性物體的特性,易受穿著、尺度、遮擋、姿態(tài)和視角等影響,逐漸受到研究人員的高度重視,使得人體檢測成為計算機視覺的研究難點與熱點.國內(nèi)外研究機構(gòu)在該領(lǐng)域做了許多研究工作[1-9].例如,Dollar等[]于2012年實現(xiàn)了100幀/s的檢測速度;Ouyang等[]將深度學習引入行人檢測中來,使檢測效率得到顯著提高.行人檢測研究中,最具代表性的三大主流行人檢測模型分別是梯度方向直方圖和支持向量機模型(histogram of oriented gradients(HOG)and support vector machines(SVM),HOG+SVM)[13]、形變部位模型(deformable parts model,DPM)[14]和聚合通道特征(aggregated channel features,ACF)[15].
然而,比較行人檢測,平躺人體檢測在姿態(tài)、視角、透射形變和樣本分布等更具挑戰(zhàn)性,是計算機視覺和模式識別應用如視頻監(jiān)控、災害救助、生物特征識別、醫(yī)療護理和公共服務機器人等研究領(lǐng)域的關(guān)鍵問題.主要研究方法有時空法、形狀不變性、姿態(tài)估計法、3D頭部位置分析、VAU技術(shù)和RGB-D等.研究者提出了一些獨特的平躺人體檢測算法[16-20].近年來,基于RGB-D目標檢測的研究受到廣泛的關(guān)注.Mastorakis等[21]提出一種新的基于Kinect傳感器檢測平躺人體方法.Kepski等[]設計一種頂置式三維深度相機實現(xiàn)平躺人體檢測,對超過45 000張深度圖像進行測試,獲得0.0%的錯誤率.在受害者檢測中,近年來研究者們提出了基于無人機(uninhabited aerial vehicle,UAV)的搜救方法[23-24].
根據(jù)平躺人體檢測研究的現(xiàn)狀,較行人檢測起步晚,并且不具備理論化、系統(tǒng)化.因此,本文試圖將行人檢測的三大主流模型向平躺人體檢測進行遷移,驗證它們的檢測效果和分析檢測性能,總結(jié)行人檢測和平躺人體檢測的異同,找出平躺人體檢測存在的關(guān)鍵問題,為建立適應平躺人體檢測建模提供了理論依據(jù)和實踐經(jīng)驗,最后給出平躺人體檢測的一些研究建議.
本文只涉及行人檢測的三大主流模型HOG+ SVM、DPM和ACF,并將其遷移到平躺人體檢測中,對模型遷移過程中存在的關(guān)鍵點和難點提出解決方案,主要包括數(shù)據(jù)集的重新標注、檢測器的重新設計和非極大值抑制的算法設計.
1.1 數(shù)據(jù)集的標注
人體檢測訓練階段和檢測階段輸入的數(shù)據(jù)都是帶有人體的圖像數(shù)據(jù)集.數(shù)據(jù)集由測試集和訓練集組成,它們都需要事先進行標注,獲取人體在圖像中的具體位置,平躺人體數(shù)據(jù)集也不例外.但是直到現(xiàn)在,較為完整、系統(tǒng)的平躺人體數(shù)據(jù)集應是廈門大學平躺人體數(shù)據(jù)集(XMULP),它的詳細內(nèi)容將在2.1中列出.
行人都是直立行走的,它的標注信息圖示化是正立的矩形框.如圖1的(a)所示,行人的標注信息是由正立矩形最左上角頂點A(x,y)、矩形框的寬w和高h決定·一個行人的標注信息可形式化描述為:{xi,yi,wi,hi},(xi,yi)是矩形框左上角頂點坐標,wi、hi分別是矩形框的寬和高·然而,平躺人體的檢測不單受限于行人檢測的諸多因素,并且還受人體軀干的主方向和姿態(tài)等更顯著性變化的限制,用行人檢測的標注方法已經(jīng)不再適應平躺人體檢測,需要有適應于平躺人體檢測的一套標注方案.本文提出“人體15關(guān)節(jié)點標注法”,如圖1的(b)所示,圖中的15個點分別代表人體15個關(guān)節(jié)點.該方法只要確定頭部和腹部關(guān)節(jié)點的坐標位置,標注軟件會自動擬合其他13個關(guān)節(jié)點的位置,擬合完畢后,可人為調(diào)整各個關(guān)節(jié)點的具體位置,使各個關(guān)節(jié)點的位置更加準確.當15個關(guān)節(jié)點位置確定后,以頸部和腹部關(guān)節(jié)點連線AB作為主方向,在主方向左側(cè)和右側(cè)、上方和下方最遠的點C和D、E和F,結(jié)合主方向的方向角度θ即可找到平躺人體的標注信息,形式化描述為{xi1,yi1,xi2,yi2,xi3,yi3,xi4,yi4},腳標1~4分別代表矩形的4個頂點序號.平躺人體標注信息是非正立的矩形框,不同的數(shù)據(jù)樣本可能存在不同的平躺方向,要使數(shù)據(jù)集樣本具備多樣性,其平躺人體主方向方向夾角應該在(0°,360°]區(qū)間服從均勻分布.因此,平躺人體數(shù)據(jù)集樣本在送入HOG+SVM、DPM和ACF模型中進行訓練時,必須涉及到訓練圖片的旋轉(zhuǎn),將矩形框主方向旋轉(zhuǎn)到正立的方向.
1.2 檢測器的重新設計
經(jīng)過前期的模型訓練,HOG+SVM、DPM和ACF模型已經(jīng)具備檢測平躺人體的主方向是正立的情況,非正立的平躺人體是檢測不到的.要提升檢測器的檢測性能,必須將3個模型的檢測器重新設計,主要涉及檢測圖片的視角變化、尺度縮放、非極大值抑制和結(jié)果處理等.新設計的檢測器如圖2所示.
圖1 行人標注和平躺人體標注的異同F(xiàn)ig.1 The differences between pedestrian annotation and lying-pose annotation
圖2 平躺人體檢測過程示意圖Fig.2 Sketch map of the lying-pose detection process
1)檢測圖片的視角變化和尺度縮放.平躺人體的表觀受透視變換的影響較大,需要通過透視變換采樣來模擬多視角下人體的變形,以增加平躺人體樣本的多樣性,提高檢測器的效率.Morel等[25]在研究圖像配準的過程中提出一種仿射變換矩陣(2×2的矩陣)分解方法,受該方法的啟示,我們提出了透視變換矩陣的分解方法,在圖像采樣過程中,以參考圖像的中心點作為三維世界坐標系的原點,S為模擬相機方位.根據(jù)透視變換成像原理,參考圖像上的點(x,y,0)T和采樣圖像平面上的點(x′,y′)T之間的關(guān)系可以通過共線方程描述:
其中f表示相機焦距,(r sin?sinκ, ̄r sin?cosκ,r cos ?)為相機的世界坐標,r表示投影中心和原點之間的距離·因此,圖像之間的單應矩陣可以表示為:
最終的透視變換矩陣與旋轉(zhuǎn)角?、κ和r、f這4個參數(shù)相關(guān),r和f的值與目標的尺度相關(guān)·在測試過程中,需要對滑動窗口進行歸一化,因此可以把這兩個參數(shù)的值設置為常數(shù)·擴充后測試集的數(shù)量與參數(shù)?和κ的采樣間隔有關(guān),設這兩個參數(shù)的采樣點數(shù)為M和N,則擴充后測試集數(shù)量是原始數(shù)據(jù)集數(shù)量的MN倍·但在測試過程中,如果同時兼顧檢測精度和檢測速度,需要對測試集的透視變換進行優(yōu)化和精簡·
2)檢測候選框的非極大值抑制.對原始測試集的單張圖像進行檢測時,通過上一步的透視變換,產(chǎn)生不同視角、不同尺度的待檢測實例,經(jīng)過滑動窗口切割的樣本送入模型進行分類,得到平躺人體檢測候選框,候選框附帶有(x1,y1,x2,y2,x3,y3,x4,y4,scale,angle,score)參數(shù)值,前面8個參數(shù)是候選框在尺度scale和角度angle下的矩形框的4個頂點坐標值,score是分類器對候選框的判分值.這些候選框相對于原始圖像有著不同的旋轉(zhuǎn)角度和縮放尺度,必須對這些候選框坐標值做反向處理,將所有候選框坐標反向變化到原始單張圖像下,帶有不同的尺度大小、不同主方向和不同分類器判分值的眾多候選框形成形如金字塔模型.利用Mean-Shift算法進行非極大值抑制,得出最終的檢測結(jié)果.
1.3 非極大值抑制的改進
本節(jié)重點闡述金字塔Mean-Shift算法.Mean-Shift最早由Fukunaga等[26]提出關(guān)于概率密度梯度函數(shù)的估計,是偏移的均值向量.后來,Cheng[27]對Mean Shift算法在族核函數(shù)和權(quán)重系數(shù)2個方面做了推廣,使得不同樣本點的重要性不一樣,這極大地延伸了Mean-Shift的適用范圍,它在聚類、圖像平滑、圖像分割和跟蹤方面得到廣泛的應用.
在數(shù)據(jù)集合的分析過程中,如果需要知道數(shù)據(jù)分布密度最大的位置,即可對標準密度梯度進行估計.利用核函數(shù)的可微性,其密度梯度估計定義為恒等于核密度估計的梯度·其梯度為:
令g(x)= ̄k′(x),假設除了有限個點,輪廓函數(shù)k(.x)的梯度對所有x∈[0,∞)均存在·將g(x)作為輪廓函數(shù),核函數(shù)G(x)定義為G(x)=cg,dg(‖x‖2),這里cg,d是標準化常量,核函數(shù)K(x)稱為核函數(shù)G(x)的陰影函數(shù)(shadow)·將g(x)代入上式有:
上式中的第1項是在x點處基于核函數(shù)G(x)的無參密度估計,第2項(第2個中括號內(nèi))是Mean-Shift向量,令為mh,G(x).為了更好地理解這個式子的物理意義,我們假設上式中的g(x)=1,這時mh,G(x)可以寫成.
Mean-Shift向量mh,G(x)應該轉(zhuǎn)移到樣本點相對于點x變化最多(最大)的地方,其方向也就是密度梯度的方向·但是,式(5)中的所有樣本點xi對m(x)的貢獻是一樣的·一般而言,離x越近的采樣點估計x周圍的統(tǒng)計特征越重要,因此引入了核函數(shù)的概念·就是對每個采樣點的權(quán)值,所以式(4)是在核函數(shù)g(x)加權(quán)下的Mean-Shift向量.
金字塔Mean-Shift算法是在它的基礎(chǔ)上,將不同尺度、不同角度以及不同分類權(quán)重等的所有數(shù)據(jù)集,融合在相同參考值下,做統(tǒng)一的非極大值抑制.為了較為直觀地展示算法的實現(xiàn)過程,我們將問題做簡化.在二維平面下,生成服從高斯分布的有限個隨機點,隨機點附帶有與檢測候選框相同的參數(shù)值,如圖3(a)所示.經(jīng)過金字塔Mean-Shift算法非極大值抑制后,得出如圖3(b)所示的6個中心點,中心點即為我們所需要的坐標位置.
圖3 金字塔Mean-Shift算法示意圖Fig.3 Sketch map of the pyramid Mean-Shift algorithm
2.1 數(shù)據(jù)集
人體檢測的訓練階段和檢測階段輸入的數(shù)據(jù)是人體數(shù)據(jù)集.本文的平躺人體數(shù)據(jù)集采用XMULP.見圖4.
該數(shù)據(jù)集由訓練集和測試集組成,訓練集正樣本有1 003張圖像共1 487個平躺人體,負樣本有3 764張圖像.測試集有313張圖像共532個平躺人體.它們是從廈門大學校園內(nèi)以及周邊不同場景下采集而得,有多于30個自愿者參與.圖4顯示,平躺人體軀體的朝向在(0°,360°]服從均勻分布,標注的平躺人體矩形框的寬高比服從高斯分布,證明了數(shù)據(jù)集的可靠性.
圖4 數(shù)據(jù)集平躺人體角度(a)和寬高比(b)的分布Fig.4 The aspect ratio(a)and lying-pose angular(b)distribution of the dataset
2.2 性能評價指標
在目標檢測領(lǐng)域中常用的性能評價指標有兩個:FPPW(false positive per window)和FPPI(false positive per image).基于滑動窗口的目標檢測框架中,窗口融合算法的選擇會影響到檢測器的性能,F(xiàn)PPI需要對檢測窗口進行合并,能有效評估不同檢測器的檢測能力,因此本文采用FPPI評估行人檢測模型遷移性能,它是通過逐漸遞增檢測器閡值而得.在某張檢測圖像中,如果檢測器檢測窗口BBdt能顯著地覆蓋人體真實窗口BBgt的大部分面積,則視為檢測窗口是正確地檢測到人體.
在實驗中,檢測器的輸出值都歸一化到[0,1],我們?nèi)hr=0.5.
2.3 實驗結(jié)果
實驗中,測試集圖像的大小為560×455.HOG+ SVM模型的樣本窗口大小為64×128,HOG描述子的參數(shù)設置為默認,單個樣本維度是3 780,利用線性SVM作為分類器.DPM模型沒有使用HOG特征默認的4×9=36維向量,而是對每個8×8的cell提取18+9+4=31維特征向量,再依據(jù)主成份分析(PCA)結(jié)果選9+4維特征,達到與HOG特征相等的維度.分類器采用Latent-SVM模型(LSVM),整個訓練分3個階段,它們分別是:1)傳統(tǒng)的SVM訓練;2)LSVM訓練;3)優(yōu)化LSVM模型.ACF模型是利用顏色空間(LUV)顏色特征、梯度方向特征以及6個方向特征構(gòu)成特征組,由AdaBoost訓練分類器模型,可使行人檢測達到實時.
本文采用FPPI-Missrate作為評價指標.FPPIMissrate二維曲線的橫坐標FPPI=FP窗口數(shù)/圖片數(shù);Miss rate=漏檢窗口數(shù)/目標總數(shù).模型的檢測性能曲線圖和檢測結(jié)果分別由圖5和圖6所示.從圖5曲線顯示,DPM模型和ACF模型的檢測性能明顯優(yōu)于HOG+SVM模型,在FPPI為10 ̄1時,ACF和DPM模型的漏檢率比HOG+SVM模型下降了13.1%,ACF和DPM模型基本相等,但從曲線的整體趨勢來看,ACF模型性能略高于DPM模型.從圖6來看,DPM模型和ACF模型矩形框所圍的平躺人體效果沒有HOG+SVM模型的好.
圖5 HOG+SVM、DPM v5和ACF的FPPI-Missrate曲線圖Fig.5 The FPPI-Missrate curve diagram of HOG+SVM,DPM v5 and ACF
平躺人體檢測受姿態(tài)多樣性、視角變化大、透射形變和樣本不服從統(tǒng)一分布等難題,挑戰(zhàn)性極大.經(jīng)過行人檢測3個主流模型向平躺人體檢測遷移實驗以及對檢測性能的分析,平躺人體檢測應在以下幾點做更深入的研究.1)平躺人體涉及平面內(nèi)旋轉(zhuǎn)和平面外旋轉(zhuǎn),需要設計快速的透視變換算法;2)為了增加樣本的多樣性,可考慮做樣本的幾何空間擴充和特征空間擴充;3)根據(jù)人體關(guān)節(jié)點標注信息,可以對人體姿態(tài)進行聚類,建立不同姿態(tài)模型,以增強模型的檢測性能.4)需要進一步在檢測速度上做深入的研究.
圖6 HOG+SVM、DPM v5和ACF的檢測結(jié)果Fig.6 The detection result of HOG+SVM,DPM v5 and ACF
[1] Dollar P,Wojek C,Schiele B,et al.Pedestrian detection:an evaluation of the state of the art[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(4):743-761.
[2] Andriluka M,Schnitzspan P,Meyer J,et al.Vision based victim detection from unmanned aerial vehicles[C]∥IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS).Taipei:IEEE,2010:1740-1747.
[3] Geronimo D,Lopez A M,Sappa A D,et al.Survey of pedestrian detection for advanced driver assistance systems[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(7):1239-1258.
[4] Duan Genquan,Ai Haizhou,Lao Shihong.A structural filter approach to human detection[J].Lecture Notes in Computer Science,2010,6316:238-251.
[5] Cao Song,Duan Genquan,Ai Haizhou.Fast human detection using node-combined part detector[C]∥Proc of ICIP.Brussels:IEEE,2011:3589-3592.
[6] 許言午.面向行人檢測的組合分類計算模型與應用研究[D].合肥:中國科學技術(shù)大學,2009:1-123.
[7] 蘇松志.行人檢測若干關(guān)鍵技術(shù)研究[D].廈門:廈門大學,2011:1-113.
[8] 謝堯芳.靜態(tài)圖像的行人檢測技術(shù)研究[D].廈門:廈門大學,2010:1-77.
[9] 蘇松志,李紹滋,陳淑媛,等.行人檢測技術(shù)綜述[J].電子學報,2012,40(4):814-820.
[10] Doll′ar P,Wojek C,Schiele B,et al.Pedestrian detection:an evaluation of the state of the art[J].IEEE Trans Pattern A-nal Machine Intell,2012,34(4):743-761.
[11] Ouyang W L,Wang X G.Joint deep learning for pedestrian detection[C]∥IEEE International Conference on Computer Vision.Sydney,VIC:IEEE,2013:2056-2063.
[12] Luo P,Tian Y L,Wang X G,et al.Switchable deep network for pedestrian detection[C]∥Computer Vision and Pattern Recognition(CVPR).2014 IEEE Conference on.Columbus,OH:IEEE,2014:899-906.
[13] Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]∥Proc IEEE Conf Computer Vision Pattern Recognition.[S.l.]:IEEE,2005:886-893.
[14] Felzenszwalb P F,Girshick R,Mc Allester D,et al.Object detection with discriminatively trained part based models[J].IEEE Trans Pattern Anal Machine Intell,2010,32(9):1627-1645.
[15] Doll′ar P,Appelv R,Belongie S,et al.Fast feature pyramids for object detection[J].IEEE Trans Pattern Analy-sis and Machine Intelligence,2014,36(8):1532-1545.
[16] Foroughi H,Naseri A,Saberi A,et al.An eigenspacebased approach for human fall detection using integrated time motion image and neural network[C]∥Signal Processing,2008.ICSP 2008.9th International Conference on.Beijing:IEEE,2008:1499-1503.
[17] Nait-Charif H,McKenna S J.Activity summarisation and fall detection in a supportive home environment[J]. Proceedings of the Pattern Recognition,17th International Conference on(ICPR′04),2004,4:323-326.
[18] Vinay V,Mandal C,Sural S.Automatic detection of human fall in video[J].Pattern Recognition and Machine Intelligence,2007,4815:616-623.
[19] Khandoker A H,Lai D T H,Begg R K,et al.Wavelet-based feature extraction for support vector machines for screening balance impairments in the elderly[J].Neural Systems and Ehabilitation Engineering,2007,15(4):587-597.
[20] Durrant-Whyte H,Roy N,Abbeel P.Lying pose recognition for elderly fall detection[C]∥Robotics:Science and Systems VII.[S.l.]:MIT Press,2012:345-353.
[21] Mastorakis G,Makris D.Fall detection system using kinect′s infrared sensor[J].Journal of Real-Time Image Processing,2014,9(4):635-646.
[22] Kepski M,Kwolek B.Fall detection using ceiling-mounted 3d depth camera[C]∥VISAPP.Chicago,IL,USA:IEEE,2014:1-8.
[23] Morse B S,Engh C H,Goodrich M A.Uav video coverage quality maps and prioritized indexing for wilderness search and rescue[C]∥Proceedings of the 5th ACM/ IEEE International Conference on Human-robot Interaction.Piscataway,NJ,USA:ACM/IEEE,2010:227-234.
[24] Naidoo Y,Stopforth V,Bright G.Development of an uav for search amp;rescue applications[C]∥AFRICON. Livingstone,Zambia:IEEE,2011:1-6.
[25] Morel J M,YU G S.ASIFT:a new framework for fully affine invariant image comparison[J].SIAM Journal on Imaging Sciences,2009,2(2):438-469.
[26] Fukunaga K,Hostetler L.The estimation of the gradient of a density function[J].IEEE Transactions on Information Theory,1975,21(1):32-40.
[27] Cheng Y Z.Mean shift,mode seeking,and clustering[J].Pattern Analysis and Machine Intelligence,1995,17(8):790-799.
The Migration Research of Pedestrian Detection Model to Lying-pose Detection and Performance Analysis
XIA Dao-xun1,2,SU Song-zhi2,LI Shao-zi2*
(1.School of Mathematics and Computer Science,Guizhou Normal University,Guiyang 550001,China;2.School of Information Science and Engineering,Xiamen University,Xiamen 361005,China)
The human body detection constitutes a difficult task and a hotspot in computer vision research.Bearing theoretical significance and application values,it can be divided into the pedestrian detection and the lying-pose detection.The research of lying-pose detection is in its infancy.View change,posture diversity,and complex background face several problems that need to be solved timely.This paper attempts to migrate from HOG+SVM,DPM,and ACF three mainstream pedestrian detection models to lying-pose detection on the basis of the research results of pedestrian detection.Its aim is to validate detection effects and analyze detection performances.Here we summarize similarities and differences between the pedestrian detection and lying-pose detection,and find key problems of the lying-pose detection.To establish adapt lying-pose detection model provides the theoretical foundation and practical experience.Finally,some research suggestions are given for lying-pose detection models.
pedestrian detection;lying-pose detection;histogram of oriented gradients(HOG);support vector machines(SVM);deformable parts model(DPM);aggregated channel features(ACF)
TP 391
A
0438-0479(2015)04-0540-06
10.6043/j.issn.0438-0479.2015.04.018
2014-12-02 錄用日期:2015-01-23
國家自然科學基金(61202143);貴州省自然科學基金(黔科合J字LKS[2013]24號)
*通信作者:szlig@xmu.edu.cn
夏道勛,蘇松志,李紹滋.行人檢測模型向平躺人體檢測的遷移及其性能分析[J].廈門大學學報:自然科學版,2015,
54(4):540-545.
:Xia Daoxun,Su Songzhi,Li Shaozi.The migration research of pedestrian detection model to lying-pose detection and
performance analysis[J].Journal of Xiamen University:Natural Science,2015,54(4):540-545.(in Chinese)