焦會英
摘要
行人檢測是智能交通視頻分析的基礎(chǔ)技術(shù)之一,也是計算機(jī)視覺中的關(guān)鍵技術(shù)本文基于卷積神經(jīng)網(wǎng)絡(luò)的Faster R-CNN框架,采用多層網(wǎng)絡(luò)構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò),實現(xiàn)復(fù)雜環(huán)境下的行人檢測?;谏疃葘W(xué)習(xí)的目標(biāo)檢測算法從海量數(shù)據(jù)中自動學(xué)習(xí)特征,此外,還采用了基于openev的高斯前景檢測方法,將其與深度神經(jīng)網(wǎng)絡(luò)檢測方法融合,從而整合了運動信息與靜態(tài)檢測的結(jié)果,降低了漏檢率,提高了檢測準(zhǔn)確度,相比傳統(tǒng)的目標(biāo)檢測算法有更好的檢測效果。最后,本文給出了稀疏人群場景下的行人人數(shù)評估方法,以減少當(dāng)前幀視頻人數(shù)檢測的誤檢率,提高檢測精度。
【關(guān)鍵詞】神經(jīng)網(wǎng)絡(luò) 深度學(xué)習(xí) 機(jī)器學(xué)習(xí) 行人檢測 行人計數(shù)
1 引言
近幾年來,卷積神經(jīng)網(wǎng)絡(luò)(CNN)和目標(biāo)檢測框架的成功應(yīng)用大大提高了目標(biāo)檢測的性能。目標(biāo)檢測最先進(jìn)的檢測框架例如R-CNN以及其后繼改進(jìn)框架Fast R-CNN,F(xiàn)asterR-CNN都是從區(qū)域檢測窗口中提取深度卷積特征,再將檢測區(qū)域分為不同的類別。這些基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)檢測方法,通過大量的數(shù)據(jù)訓(xùn)練,在目標(biāo)分類和目標(biāo)檢測領(lǐng)域表現(xiàn)出了非常優(yōu)秀的檢測準(zhǔn)確率和魯棒性。但其檢測算法更適用于靜態(tài)圖片行人檢測,在視頻檢測領(lǐng)域仍然存在一定的缺陷。由于視頻信息的時序性要求目標(biāo)的出現(xiàn)概率和位置在時間上是連續(xù)的,即隨著時間的推移所檢測出的目標(biāo)位置和在固定位置上檢測出的目標(biāo)的概率不會有突然變化。如果將卷積神經(jīng)網(wǎng)絡(luò)靜態(tài)圖片的檢測框架直接應(yīng)用于視頻檢測問題,由于每幀的檢測結(jié)果相互獨立,無法關(guān)聯(lián)行人的運動信息,將導(dǎo)致相鄰幀之間的行人計數(shù)結(jié)果容易出現(xiàn)較大偏差。
本文主要研究針對稀疏人群監(jiān)控場景下的行人計數(shù)算法。主要貢獻(xiàn)有以下幾點:
(1)提出了融合深度神經(jīng)網(wǎng)絡(luò)和運動信息的行人檢測方法,提升了稀疏目標(biāo)場景下的行人檢測準(zhǔn)確率。在技術(shù)細(xì)節(jié)上,我們采用非極大值抑制方法融合靜態(tài)圖像檢測結(jié)果和運動前景標(biāo)定的行人檢測框結(jié)果,并通過實驗設(shè)置檢測框的大小邊界,減除冗余標(biāo)定檢測框,提高了稀疏目標(biāo)場景下行人檢測的準(zhǔn)確率。
(2)提出稀疏目標(biāo)運動場景下的行人計數(shù)評估方法,提高檢測系統(tǒng)的準(zhǔn)確率和魯棒性。
2 相關(guān)工作
傳統(tǒng)的目標(biāo)檢測方法,一般采用人工提取的圖像特征,包括SIFT、HOG、LBP等特征。在此基礎(chǔ)上,考慮到單一模型無法解決遮擋和復(fù)雜背景等問題,F(xiàn)elzenszwalb等人提出DPM(Deformable part-based models)模型,它運用整體和部分的多模型系統(tǒng)解決遮擋等問題,在深度卷積神經(jīng)網(wǎng)絡(luò)問世之前,該算法在目標(biāo)檢測領(lǐng)域一直處于核心地位。
深度學(xué)習(xí)模型采用多層神經(jīng)網(wǎng)絡(luò),從大規(guī)模數(shù)據(jù)深度挖掘圖像的特征,并將這些特征表示出來應(yīng)用在各種計算模型之中。W.Ouyang等人提出聯(lián)合深度學(xué)習(xí)(UDN)的概念,將行人檢測的幾個重要的部分進(jìn)行了聯(lián)合學(xué)習(xí),在處理海量視頻圖像方面取得了很好的效果。
2.1 Faster R-CNN框架檢測
針對現(xiàn)有行人目標(biāo)檢測的方法,我們采用Faster R-CNN框架,將一直以來分離的regionproposal和CNN分類融合到了一起,使用端到端的網(wǎng)絡(luò)進(jìn)行目標(biāo)檢測,并且對框架進(jìn)行模型選擇和微調(diào),簡單網(wǎng)絡(luò)目標(biāo)檢測速度達(dá)到17fps,復(fù)雜網(wǎng)絡(luò)達(dá)到5fps。通過實驗比較,我們采用中型網(wǎng)絡(luò)進(jìn)行目標(biāo)檢測,其檢測速度接近于簡單網(wǎng)絡(luò)的檢測速度,檢測準(zhǔn)確率卻能基本達(dá)到復(fù)雜網(wǎng)絡(luò)的效果。圖1展示了采用中型復(fù)雜網(wǎng)絡(luò)對靜態(tài)行人圖片的檢測結(jié)果。
然而,采用基于Faster-RCNN的中型復(fù)雜網(wǎng)絡(luò)無法關(guān)聯(lián)視頻圖像的時序和運動信息,前一幀中標(biāo)定的行人目標(biāo)檢測框,在下一幀中同一目標(biāo)的檢測結(jié)果有可能會丟失。從而,整體視頻的檢測結(jié)果存在一定的突變性和不穩(wěn)定性。
2.2 混合高斯背景建模檢測
通過混合高斯模型,得到視頻圖像中目標(biāo)的運動信息,對運動目標(biāo)進(jìn)行前景圖像提取,采用形態(tài)學(xué)處理,定位前景連通區(qū)域的邊界像素,得到標(biāo)記目標(biāo)前景連通區(qū)域的矩形框,如圖2所示。
高斯混合背景檢測方法的優(yōu)點是可以利用相鄰視頻幀的時序和運動信息檢測出視頻中的運動目標(biāo):缺點是對于靜止的目標(biāo)檢測存在很大的局限性,并且對于運動聯(lián)通區(qū)域無法進(jìn)行行人識別,對相鄰運動目標(biāo)的計數(shù)存在誤差。且無法識別圖像中的陰影區(qū)域,造成統(tǒng)計誤差。因此,本文融合基于Faster R-CNN的檢測方法和基于高斯混合模型的運動信息檢測方法,得出更高效的視頻目標(biāo)檢測算法。
3 主要成果論述
3.1 融合神經(jīng)網(wǎng)絡(luò)和運動信息的檢測方法
本文提出的融合運動信息與神經(jīng)網(wǎng)絡(luò)靜態(tài)檢測的行人視頻計數(shù)算法,主要運用混合高斯背景建模和Faster R-CNN深度網(wǎng)絡(luò)對視頻圖像進(jìn)行處理。其主要思想是:以深度神經(jīng)網(wǎng)絡(luò)從視頻圖像中檢測出的行人區(qū)域R為基準(zhǔn),將混合高斯背景建模提取的前景運動區(qū)域D與R融合,生成更為準(zhǔn)確的最終檢測結(jié)果,如圖3所示。該算法的細(xì)節(jié)在3.2和3.3節(jié)進(jìn)行介紹。
3.2 標(biāo)定框計數(shù)優(yōu)化
使用混合高斯前景檢測算法和深度神經(jīng)網(wǎng)絡(luò)行人檢測算法兩種方法同時對相同視頻幀進(jìn)行行人檢測,一定會出現(xiàn)標(biāo)定框重疊現(xiàn)象。并且,當(dāng)行人相距較近時,采用混合高斯前景檢測算法得到的前景運動區(qū)域極大可能包含多個運動行人,得到錯誤的包含多個檢測結(jié)果的標(biāo)定框。
針對上而發(fā)生的情況,我們提出標(biāo)定框計數(shù)優(yōu)化算法:
(1)以深度神經(jīng)網(wǎng)絡(luò)檢測到的行人標(biāo)定框為基本,將與基本框重合面積超過50%的前景動態(tài)檢測框清除,保留Faster R-CNN和基于運動背景檢測算法得出的相對獨立的檢測結(jié)果。
(2)設(shè)置代表單人標(biāo)定框的而積范圍。在該范圍內(nèi),通常每個標(biāo)定框代表計數(shù)一個行人。對于檢測框標(biāo)定出的連通區(qū)域包含兩個以上行人的情況,其標(biāo)定框的像素而積一般遠(yuǎn)大于正常情況下單人標(biāo)定框的面積范圍。因此,我們在算法中設(shè)置當(dāng)標(biāo)定框的像素個數(shù)大于400時,我們對框內(nèi)的人數(shù)統(tǒng)計為2.
(3)前景檢測中出現(xiàn)的陰影區(qū)域也會被作為前景運動目標(biāo)提取出來,產(chǎn)生一些較小的標(biāo)定框。在算法中我們設(shè)置當(dāng)標(biāo)定框像素小于120時,清除此標(biāo)定框。
(4)根據(jù)上述方法,對不同大小的標(biāo)定框統(tǒng)計相應(yīng)的人數(shù)值,從而計算出視頻圖片中的實時人數(shù)。
經(jīng)標(biāo)定框計數(shù)優(yōu)化后的效果如圖4所示。
3.3 計數(shù)評估優(yōu)化算法
我們進(jìn)一步提出了稀疏目標(biāo)運動場景下的行人計數(shù)評估優(yōu)化方法。在稀疏目標(biāo)監(jiān)控場景下,通常短時間內(nèi)(一般為1~2秒)的人數(shù)可以認(rèn)為是一個常數(shù)。在算法中,我們將這個時間段設(shè)置為2秒,每秒的視頻幀率認(rèn)為是15ft,故在30幀內(nèi),我們認(rèn)為視頻中的實際人數(shù)是保持不變的。然而由于漏檢和錯檢,相近幀視頻的計數(shù)結(jié)果往往存在一定差異。設(shè)當(dāng)前時刻下最近30幀視頻的人數(shù)統(tǒng)計結(jié)果為X=(x1,x2,x3,…,x30),我們將向量內(nèi)出現(xiàn)頻率最高的檢測數(shù)作為當(dāng)前幀的行人計數(shù)結(jié)果(S'j)。
設(shè)xi為當(dāng)前視頻圖像第i幀的真實行人數(shù)量,si為未采用計數(shù)優(yōu)化算法時第i幀視頻圖像的檢測人數(shù),si'為使用上述計數(shù)優(yōu)化算法得到的第i幀的人數(shù)計數(shù)結(jié)果。對大量視頻幀數(shù)(N)的人數(shù)估計結(jié)果與真實情況進(jìn)行對比,可計算出:
兩個統(tǒng)計量。其中,|1-p|為未采用計數(shù)優(yōu)化的檢測錯誤率,|1-p|為采用計數(shù)優(yōu)化的檢測錯誤率,N為視頻幀數(shù),實驗結(jié)果顯示|1-p|<|1-p|。
4 關(guān)鍵實現(xiàn)技術(shù)
4.1 Faster-Rcnn檢測框架
R-CNN以及它的改進(jìn)框架Fast R-CNN、Faster R-CNN都是從區(qū)域檢測窗口中提取深度卷積特征,然后再將檢測區(qū)域分為不同類別。通過大量的數(shù)據(jù)訓(xùn)練,能夠提升這些基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)檢測方法對復(fù)雜環(huán)境下目標(biāo)檢測、識別的準(zhǔn)確性和魯棒性。
基于Faster-rcnn卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)分類算法如下所示:
(1)將整張圖片輸入CNN,進(jìn)行特征提取。
(2)用區(qū)域建議網(wǎng)絡(luò)(Region ProposalNetwork,簡稱RPN)生成候選區(qū)域(RegionProposal),每張圖片生成300個候選區(qū)域。
(3)把候選區(qū)域映射到CNN的最后一層卷積特征圖(feature map)上。
(4)通過Rol pooling層使每個RoI生成固定尺寸的feature map。
利用Softmax Loss(探測分類概率)和Smooth Ll Loss(探測邊框回歸)對分類概率和邊框回歸(Bounding box regression)聯(lián)合訓(xùn)練。技術(shù)細(xì)節(jié)可參考[5]。
4.2 Faster-Rcnn模型動]練與微調(diào)
在訓(xùn)練RPN時,一個Mini-batch是由一幅圖像中任意選取的256個proposal組成的,其中正負(fù)樣本的比例為1:1。如果正樣本不足128,則多用一些負(fù)樣本以滿足有256個Proposal可以用于訓(xùn)練,反之亦然。訓(xùn)練RPN時,與VGG網(wǎng)絡(luò)共有的層參數(shù)可直接拷貝經(jīng)ImageNet訓(xùn)練得到的模型中的參數(shù);其余層參數(shù)用標(biāo)準(zhǔn)差=0.01的高斯分布初始化。
5 實驗驗證
5.1 實驗環(huán)境
實驗采用VOC數(shù)據(jù)集【】進(jìn)行訓(xùn)練,在USCD行人檢測數(shù)據(jù)集的vidd子集上進(jìn)行測試,程序的運行環(huán)境為:
Ubuntu 14.10
Opencv2.9
Caffe7.5
GPU gtx860
內(nèi)存:8.00G
CPU:i7-4720HQ2.6GHz
5.2 實驗結(jié)果
圖5是基于卷積神經(jīng)網(wǎng)絡(luò)和運動前景檢測算法在USCD vidd.數(shù)據(jù)集上某個視頻幀的檢測效果。(a)為原始的視頻輸入圖像,(b)為基于混合高斯背景建模算法經(jīng)形態(tài)學(xué)處理后檢測出的前景運動目標(biāo),(c)圖融合了卷積神經(jīng)網(wǎng)絡(luò)的靜態(tài)檢測結(jié)果和混合高斯模型的運動前景檢測結(jié)果。其中,綠色框是深度卷積神經(jīng)網(wǎng)絡(luò)在每幀靜態(tài)圖像中檢測出的行人目標(biāo),藍(lán)色框是將運動前景圖像檢測與深度神經(jīng)網(wǎng)絡(luò)靜態(tài)檢測結(jié)果融合后標(biāo)記出的神經(jīng)網(wǎng)絡(luò)漏檢的行人目標(biāo)。(d)圖是經(jīng)標(biāo)定框計數(shù)優(yōu)化和最終計數(shù)評估優(yōu)化后得到的行人目標(biāo)計數(shù)結(jié)果。
從圖5中可以看出,本文提出的算法彌補(bǔ)了卷積神經(jīng)網(wǎng)絡(luò)在視頻圖像行人計數(shù)方面的主要缺陷,提高了視頻行人計數(shù)統(tǒng)計的魯棒性和準(zhǔn)確率。
6 總結(jié)
本文提出了一種融合卷積神經(jīng)網(wǎng)絡(luò)與前景運動信息的視頻行人計數(shù)方法。我們解決了Faster R-CNN等基于深度神經(jīng)網(wǎng)絡(luò)的檢測模型不能有效利用動態(tài)信息的主要問題,提高了視頻幀行人檢測的準(zhǔn)確性。并提出了標(biāo)定框計數(shù)優(yōu)化和計數(shù)評估優(yōu)化兩個新方法,利用魯棒統(tǒng)計技術(shù),有效降低了人數(shù)的誤檢率。實驗結(jié)果表明,本文提出的算法在相當(dāng)程度上解決了在稀疏目標(biāo)場景中存在一定形變、遮擋時目標(biāo)行人計數(shù)不準(zhǔn)確的問題,具有準(zhǔn)確率高,魯棒性好,檢測速率快等優(yōu)點,具有較強(qiáng)的實際應(yīng)用價值。
參考文獻(xiàn)
[1]C.Szegedy,W.Liu,y.Jia,P.Serinanet,S.Reed,D.Anguelov,D.Ethan,V.Vanhoucke,and A.Rabinovich,“Going deeper withconvolutions,”CVPR,2015.
[2]K.Simonyan and A. Zisserman,“Very deep convolutionalnetworks for large-scale imagerecognition,”IntI Conf.LearningRepresentations,2014.
[3]R.Girshick,J.Donahue,T.Darrell,and J.Malik,“Richfeature hierarchies for accurateobject detection and semanticsegmentation,”CVPR,2014.
[4]R.Girshick,“Fast r-cnn,”ICCV,2015.
[5]S.Ren,K.He,R.Girshick,and J.Sun,“Faster r-cnn:Towards real-time object detection with regionproposal networks,”NIPS,2015.
[6]K.He,X.Mang,S.Ren,and J.Sun,“Deep residual learning for imagerecognition,”in Proceedings of theIEEE Conference on Computer Visionand Pattern Recognition,2016,pp.770-778.
[7]S.loffe and C.Szegedy,“Batchnormalization:Accelerating deepnetwork training by reducing internalcovariate shift,”arXiv preprintarXiv:1502.03167,2015.
[8]W.Ouyang,X.Wang,X.Zeng,S.Qiu,P.Luo,Y.Tian,H.Li,S.Yang,Z.Wang,C.-C.Loy et al.,“DeepID-net:Deformable deep convolutional neuralnetworks for object detection,”CVPR,2015.
[9]David G.Lowe,Distinctive ImageFeatures from Scale-InvariantKeypoints,International Journal ofComputer Vision,Vol.60,Page 91-110,Nov 2004.
[10]Dalal N, Triggs B.Histogramsof oriented gradients for humandetection[C]//Computer Vision andPattern Recognition,2005.CVPR 2005.IEEE Computer Society Conference on.IEEE,2005,1:886-893.
[11]Ahonen T,Hadid A,Pietikdinen M.Face description with local binarypatterns:application to facerecognition[J].IEEE Trans PatternAnal Mach Intell,2006,28(12):2037-2041.
[12]Felzenszwalb P,Mcallester D,Ramanan D.A discriminativelytrained,multiscale,deformable partmodel[J].Cvpr,2008,8::1-8.
[13]Ouyang W,Wang X.JointDeep Learning for PedestrianDetection[C]//IEEE InternationalConference on Computer Vision.IEEE,2014:2056-2063.