羅南超 鄭伯川
摘 要:由于高清視頻監(jiān)控領域現(xiàn)有行人檢測算法在復雜背景下檢測準確率不高且檢測實時性不強,提出了一種新穎的深度特征行人檢測算法,該算法利用聚合通道特征模型對監(jiān)控高清圖像進行預處理,篩選出具有顯著特性的疑似目標,大大降低目標檢測的數(shù)量;然后對獲取的疑似目標區(qū)域進行尺度校正與特征提取,并輸入到深度模型中進行深度特征編碼,提高特征的表征能力;最后輸入到LSSVM分類模型,得到最終的行人檢測結果。仿真實驗結果顯示所提行人檢測算法在保證檢測準確率的同時,具有較高的檢測效率。
關鍵詞:模式識別;深度編碼;行人檢測;SVM算法;自編碼網(wǎng)絡;聚合通道特征
中圖分類號:TP 391.9 ? 文獻標志碼:A
DOI:10.13800/j.cnki.xakjdxxb.2019.0419 ? 文章編號:1672-9315(2019)04-0701-07
Abstract:To solve the problem of poor real time detection and low precision in video surveillance,a novel deep feature based pedestrian detection algorithm is proposed.The algorithm firstly uses the aggregation channel feature model to process the surveillance images,and selects the suspected target region with salient characteristics.Then,the scaled correction and feature extraction are performed on the obtained suspected target region.The corresponding low level features are obtained and input into the deep auto encoder network for deep feature coding so as to enhance the representation ability.Finally,the coding feature is input into the least squares SVM classification model to obtain the final detection results.A large number of qualitative and quantitative experimental results show that the proposed detection algorithm guarantees the accuracy of pedestrian detection with higher efficiency.
Key words:pattern recognition;deep coding;pedestrian detection;SVM Model;auto encoder network;aggregation channel feature
0 引 言
行人檢測是安防監(jiān)控、智能駕駛等領域的關鍵技術,吸引了國內(nèi)外科研人員的廣泛關注與深入研究[1]。并提出了許多有效的解決方案與算法,取得了重大的進展。然而,現(xiàn)有的大部分算法對目標姿態(tài)、服飾、分辨率等因素比較敏感,這就使得行人檢測的普適性不強,復雜背景下檢測精度不高[2]。
早期行人檢測算法大都是采用背景建模方法,通過提取前景目標特征,最后采用支持向量機、AdBoost,隨機森林、決策樹等模型進行行人檢測與分類[3]。這些傳統(tǒng)的檢測分類模型對固定場景下明顯行人目標檢測效果較好,但對復雜變化場景的檢測率不高,其本質(zhì)原因是現(xiàn)有特征對行人的描述能力不夠。近年來,以卷積神經(jīng)網(wǎng)絡為代表的深度模型強調(diào)模型的深度,通過將低層次特征進行逐層組合優(yōu)化,獲得更加抽象的高層次特征,增強目標模型的表征能力[4]。
目前,行人檢測領域的研究方向大都集中在深度學習領域,取得了巨大突破,提出了以卷積神經(jīng)網(wǎng)絡(CNN)為框架的RCNN,SPP NET,F(xiàn)ast RCNN,F(xiàn)aster RCNN和以YOLO為框架的SSD,CS SSD[5-6]。Byeon等人在RCNN的基礎上,將難分樣本挖掘機制嵌入SGD模型中,使得訓練過程根據(jù)訓練函數(shù)自動選擇合適的正負樣本進行訓練[7];由于高層的抽象特征損失了很多細節(jié)信息,Zhang等人提出了一個多層次特征融合的深度模型,不僅考慮了高層特征語義信息,還結合低層次紋理信息,提升行人目標定位精度。雖然深度學習算法提升了整個檢測領域的檢測性能,但由于該模型訓練耗時,同時對硬件要求較高,直接影響實時性應用[8]。
由于現(xiàn)有的算法都是采用窮舉策略對樣本訓練學習再進行分類,不僅具有很高的算法復雜度,模型的泛化能力也不高。因此,筆者結合多年在安防監(jiān)控領域圖像處理算法的經(jīng)驗,以“XXX市平安城市監(jiān)控項目”為契機,對高清監(jiān)控領域復雜場景下行人目標檢測算法進行了多層次深入分析,針對現(xiàn)有算法實時性不強的問題,提出了一種高層次特征深度編碼的行人檢測算法,該算法是利用聚合信道特征提取出高清圖像中多尺度顯著性目標,通過降低疑似樣本的數(shù)據(jù),提升檢測的速度;為了提高檢測的精度,該算法直接對獲取的疑似區(qū)域進行深度特征編碼,得到高層次深度特征;最后采用最小二乘支持向量機對獲得的深度特征進行決策分類,輸出檢測到的行人目標。實驗結果表明文中所提的特征深度行人檢測算法的檢測效率較高,對復雜背景下的小尺度、非剛性行人目標檢測準確率較高,適合應用于高清監(jiān)控、安防等領域。
1 深度特征自編碼網(wǎng)絡
1.1 深度自編碼模型及其相應符號描述
1.4 行人檢測及其框架
眾所周知,現(xiàn)在目標檢測算法大都利用一定的搜索策略生成海量的候選樣本集,然后利用響應的算法,如相關匹配、檢測器、模式識別等模型對候選區(qū)域進行評分(Score),從中找出最優(yōu)樣本作為最終檢測到的目標[17]。這是一種窮舉搜索模式,復雜度相當高。同時,由于行人是非剛性目標,其外形受尺度、姿態(tài)等因素影響太大,一方面只有通過多尺度篩選目標才能覆蓋所有目標區(qū)域,復雜度太高;另一方面對多尺度區(qū)域進行篩選的算法非常低效[18]。為了降低行人檢測樣本復雜度,增強檢測的效率,首先采用聚合通道特征模型獲取疑似目標區(qū)域,降低單幀圖像搜索時間。大量定性定量仿真實驗結果表明,經(jīng)過聚合通道特征模型處理后疑似目標幾乎囊括了圖像中所有可能目標區(qū)域,大大降低疑似目標檢測時間。
假定經(jīng)預處理的圖像具有M個疑似顯著性區(qū)域,可以表示為{Bi∈Rmi×ni|i=1,2,…,M}。由于不同疑似區(qū)域的尺度不同,且模型訓練參數(shù)是固定大小,因此,為了便于模型訓練與參數(shù)的優(yōu)化,M個疑似樣本需要歸一化到統(tǒng)一的尺度,{Di∈Rm×n|i=1,2,…,M}。
由于疑似樣本Di需要歸一化到統(tǒng)一的尺度,通過獲取相應的梯度直方圖特征,并將其轉(zhuǎn)換成特征向量di;然后利用學習到的深度模型進行深度編碼,得到深度特征向量vi;最后利用訓練好的LSSVM對深度特征進行分類,找到最優(yōu)行人目標,并重構出分類向量ci,其中ci=gd(θ,vi).圖1展示了文中提出的行人檢測模型的訓練流程;圖2則是提出的行人檢測算法對疑似樣本的檢測過程,可以看出該模型通過預處理可以大大降低樣本量,只需要對疑似區(qū)域進行檢測;同時,深度編碼增強了行人的表征能力,可提高疑似目標檢測精度。
2.1 實驗數(shù)據(jù)集
為了有效評估所提深度特征編碼行人檢測算法的性能,選擇了國際上通用的行人檢測公共數(shù)據(jù)集:NICAT與MIT。針對實驗特征,所有圖片被隨機分成測試集、訓練集與驗證集,其中訓練集中包含于13 589個訓練樣本,13 991個負樣本。由于模型都是歸一化到相同尺度進行深度特征編碼,所有樣本尺度設置為64×128.測試集則包含有948張具有不同尺度、服飾、分辨率,姿態(tài)的行人。
2.2 對比算法及評價指標
對比算法不僅包含傳統(tǒng)低層次特征行人檢測算法,也包含現(xiàn)有最新深度學習算法,分別是HoG SVM(HS)[19],CLPD[20],CrossTalk[21],Shapelet[22],HOG LPB[23],R CNN[24],各對比算法的特點見表1.為了便于定量分析各算法的檢測性能,實驗選用檢測錯誤權衡圖(DET)曲線[25]和檢測時間(Time)分析與評價不同算法的行人檢測效果,其中DET表征每個圖像檢測準確率與誤檢率(False Positives Per Image,F(xiàn)PPI)的關系。實驗軟硬件環(huán)境設置為:Xeon Bronze 3106-B 1.7 GHz,32 GB內(nèi)存,Nvidia Geforce GTX 1080Ti,Ubuntul 604,64位操作系統(tǒng)。
2.3 定量性能對比及其分析
為了定量對比所有算法的檢測性能,圖3展示了行人目標檢測準確率與FPPI的關系曲線。從曲線圖可以看出,相比于HS算法、HOG LPB算法、Shapelet算法、CLPD算法和CrossTalk算法,所提檢測算法具有較高的準確率,重要的是該深度編碼模型也比RCNN性能較好,主要是文中算法是對低層次特征進行深度編碼,泛化性較高。為了便于直觀分析,表2中展示了FPPI=1時不同算法下檢測的準確率,這便于直觀分析。當FPPI=1時,算法的檢測率是67.79%,而對比算法中最好檢測結果是65.01%.從曲線圖可以看出,在相同條件下,提出的算法準確率最高,相比于深度學習RCNN高2.78%.總之,所提算法獲得較好的檢測效果,主要歸功于直接對低層次方向直方圖特征進行深度編碼,增加了目標表征能力,進一步增強模型的泛化性;同時,模型摒棄了傳統(tǒng)深度學習采用softmax進行分類學習,而是采用了最優(yōu)線性最優(yōu)解得最小二乘SVM分類算法,進一步提升了模型檢測的整體性能。
時間復雜度是評價算法性能的一個重要指標。為了便于客觀分析,對比算法都是采用作者提供的源代碼或可執(zhí)行文件,其參數(shù)及其初值都使用默認值。由于對比算法的編程語言與編程風格的差異,這對評估文中所提算法的運算時間帶來了一定的困難。因此,文中僅僅對具有相同硬件環(huán)境下進行分析,其對相同圖像平均檢測時間見表3.雖然提出的深度特征編碼算法增加了預處理模塊,但這反而降低了算法的時間復雜度。這是由于采用的預處理模塊是一種低漏檢的顯著性目標檢測算法,可以過濾掉大量非目標區(qū)域,大大降低后續(xù)特征提取與深度編碼的時間。實驗結果也表明,模型的單幀計算時間最低。若能采取多通道GPU并行編程,算法將達到實時的檢測效果。
2.4 檢測結果定性分析
試驗從測試數(shù)據(jù)集中挑選了3幅比較有代表性的圖像進行分析,結果如圖4所示。由于篇幅的限制,只對定量結果中最好的HOG LPB,RCNN與Shapelet進行定性對比分析。紅色的矩形框是文中算法檢測到的行人結果,可以看出文中算法能夠檢測到圖像中的行人,尤其是第一行圖像中間的遠處模糊的白色衣服行人,主要歸功于深度編碼的表征能力,然而第二行中墻上的疑似區(qū)域也被檢測出來,但文中算法不存在漏檢,充分說明算法的有效性。第三行圖像中,墻壁的顏色與某個行人的衣服一致,導致對比結果中出現(xiàn)一些漏檢,文中的算法能夠檢測到行人,但墻壁上一些類似行人的區(qū)域也被檢測成行人,而且對類似行人的影子也有誤檢,但文中算法不存在漏檢。藍色矩形框為RCNN算法的檢測結果,該算法直接利用樣本進行深度特征學習,其結果中能找到大多數(shù)明顯的目標,然而對遠處的行人檢測效果不佳,主要是該模型在進行多層學習時存在梯度消失現(xiàn)象,造成一些弱小目標被排除;黃色矩形框是Shapelet算法的結果,該算法是利用機器學習的方法自動地生成自適應的局部特征,主要還是通過低層次梯度信息進行組合。從結果可以看出,該算法對明顯邊緣信息的行人檢測較好,但存在大量的虛檢。粉色矩形框是HOG LPB的結果,該方法是融合多種特征對行人進行檢測,但從結果看出,該方法的檢測精確度較差,存在漏檢與誤檢。值得注意的是,文中提出的行人檢測算法也存在一些誤檢,尤其是針對一些疑似強邊緣目標,主要是采用了方向梯度直方圖作為低層次特征,與人體類似的強邊緣很容易誤認為人體,但該模型也對對攜帶行李、附著物遮擋等情況的檢測效果較好,這表明深度編碼可以增強特征表征能力,提升檢測精度。
3 結 論
1)提出的深度特征編碼行人檢測算法能夠利用聚合信道特征模型篩選出具有顯著特性的疑似目標區(qū)域,降低檢測樣本的復雜度。
2)對獲取的疑似目標區(qū)域進行深度特征編碼,增強特征的表征能力。
3)實驗結果表明所提出算法在復雜背景下的檢測性能超過現(xiàn)有大多數(shù)檢測算法,具有一定的可行性和使用價值。
因此,文中提出的行人檢測算法可以應用于高清監(jiān)控、安防等領域,解決現(xiàn)有行人檢測算法在復雜背景下存在檢測準確率不高且檢測實時性不強的問題。下一步,我們將算法移植到監(jiān)控系統(tǒng)中,進一步驗證算法的工程價值。
參考文獻(References):
[1] 覃 劍,王美華.采用在線高斯模型的行人檢測候選框快速生成方法[J].光學學報,2016,36(11):169-179.
QIN Jian,WANG Mei hua.Fast pedestrian proposal generation algorithm using online Gaussian model[J].Acta Optica Sinica,2016,36(11):169-179.
[2]吳冬梅,王 靜,李白萍,等.基于改進SURF算法的大規(guī)模群體人數(shù)統(tǒng)計[J].西安科技大學學報,2015,35(5):650-655.
WU Dong mei,WANG Jing,LI Bai ping,et al.Large scale population statistics based on improved SURF algorithm[J].Journal of Xi’an University of Science and Technology,2015,35(5):650-655.
[3]Benenson R,Omran M,Hosang J,et al.Ten years of pedestrian detection,what have we learned?[C]//European Conference on Computer Vision,2014:613-627.
[4]Tian Y,Luo P,Wang X,et al.Deep learning strong parts for pedestrian detection[C]//International Conference on Computer Vision,2015:1904-1912.
[5]Liu W,Anguelov D,Erhan D,et al.SSD:Single shot MultiBox detector[C]//European Conference on Computer Vision,2016:21-37.
[6]Ren S,He K,Girshick R,et al.Faster rcnn:towards real time object detection with region proposal networks[C]//Advances in Neural Information Processing Systems,2015:91-99.
[7]Byeon Y H,Kwak K C.A performance comparison of pedestrian detection using faster RCNN and ACF[C]//International Conference on Advanced Applied Informatics,2017:858-863.
[8]Zh Z,Xie C,Wang J,et al.Deepvotin:a robust and explainable deep network for semantic part detection under partial occlusion[C]//IEEE Conference on Computer Vision and Pattern Recognition,2018:1372-1380.
[9]Munder S,Gavrila D M.An experimental study on pedestrian classification[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2006,28(11):1863-1868.
[10]Zhao X,He Z,Zhang S,et al.Robust pedestrian detection in thermal infrared imagery using a shape distribution histogram feature and modified sparse representation classification[J].Pattern Recognition,2015,48(6):1947-1960.
[11]Tang Z,Wang S,Huo J,et al.Bayesian framework with non local and low rank constraint for image reconstruction[C]//Journal of Physics Conference Series,2017:010-038.
[12]Zhang S,Benenson R,Schiele B,et al.Filtered channel features for pedestrian detection[C]//Computer Vision and Pattern Recognition,2015:1751-1760.
[13]Guo L,Ge P S,Zhang M H,et al.Pedestrian detection for intelligent transportation systems combining AdaBoost algorithm and support vector machine[J].Expert Systems with Applications,2012,39(4):4274-4286.
[14]Zhang J,Shan S,Kan M,et al.Coarse to Fine Auto Encoder Networks(CFAN) for real time face alignment[C]//European Conference on Computer Vision,2014:1-16.
[15]Mathur,Mridul Kumar.Image compression using robust error back propagation neural network with GDAL[J].International Journal of Research and Engineering,2017,14(4):133-136.
[16]Li L,Yu S,Xiao W,et al.Sequence based identification of recombination spots using pseudo nucleic acid representation and recursive feature extraction by linear kernel SVM[J].BMC Bioinformatics,2014,15(1):340.
[17]Hosang J H,Benenson R,Dollar P,et al.What makes for effective detection proposals[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,38(4):814-830.
[18]Girshick R B,Donahue J,Darrell T,et al.Region based convolutional networks for accurate object detection and segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,38(1):142-158.
[19]Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Computer Vision and Pattern Recognition,2005:886-893.
[20]Dollar P,Wojek C,Schiele B,et al.Pedestrian detection:an evaluation of the state of the art[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(4):743-761.
[21]Dollar P,Appel R,Kienzl W.Crosstalk cascades for frame rate pedestrian detection[C]//European Conference on Computer Vision,2012:645-659.
[22]Sabzmeydani P, Mori G. Detecting Pedestrians by Learning Shapelet Features[C]//Computer Vision and Pattern Recognition, 2007: 1-8.
[23]Wang X,Han T X,Yan S,et al.An HOG LBP human detector with partial occlusion handling[C]//International Conference on Computer Vision,2009:32-39.
[24]Girshick R B.Fast R CNN[C]//International Conference on Computer Vision,2015:1440-1448.
[25]Felzenszwalb P F,Girshick R B,Mcallester D A,et al.Object detection with discriminatively trained part based models[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(9):1627-1645.