郭克友,暴啟超
(北京工商大學 材料與機械工程學院,北京 100048)
近年來,各大城市中交通擁堵現(xiàn)象尤為突出,在上下班高峰期最為明顯,而解決交通擁堵問題的一個重要方面就是解決順利停車問題,由此提出由目標跟蹤實現(xiàn)停車位的尋找。目標跟蹤即為在視頻的初始序列中給定目標的初始狀態(tài),在隨后的視頻序列中進行目標狀態(tài)的評估。而影響目標跟蹤因素很多,例如遮擋、光照變化、尺寸的變化等。
Bolme提出最小輸入平方誤差和(minimun output sum of squared error,MOSSE)的跟蹤算法,具體定義參見文獻[1];Mean Shift是一種密度梯度的無參估計方法[2],由Fukunaga提出,Cheng[3]將其引入到計算機視覺領域,定義參見文獻[2]。Frag由運行的連續(xù)性,在當前幀中目標區(qū)域周圍遍歷所有的候選位置,由相似度最大原則確定當前幀中目標的最佳位置,定義參見文獻[4]。Henriques等提出了循環(huán)結構的檢測跟蹤算法(circulant structure of tracking-by-detection with kernel,CSK),CSK算法定義參見文獻[5],對訓練樣本循環(huán)移位得到新的樣本訓練分類器[6],同樣對候選目標區(qū)域循環(huán)移位作為檢測樣本,并且訓練和檢測過程均利用傅里葉變換在頻域實現(xiàn)快速計算。核相關濾波器(kernelized correlation filter,KCF)跟蹤在CSK跟蹤的基礎上,采用方向梯度直方圖特征代替CSK跟蹤中的灰度直方圖特征,KCF定義參見文獻[7]。以上算法中,F(xiàn)rag算法在受較大面積遮擋時,即會出現(xiàn)跟蹤失敗的情況,且處理速度較慢;Mean Shift算法在光照導致的顏色變化較為明顯時,也會跟蹤失??;MOSSE跟蹤算法以及傳統(tǒng)KCF均無尺寸自適應策略[8],因此在尺度發(fā)生較大變化時,即會跟蹤失敗。本文提出改進的KCF,首先,采用HOG特征與HIS特征相融合的多特征,可以避免顏色以及光照變化導致的跟蹤失?。黄浯?,提出尺寸自適應策略,可以更好適應尺寸變化,尤其對運動目標的跟蹤,效果尤為明顯;最后針對遮擋尤其是大面積遮擋時,提出檢測遮擋并處理的策略,可以更好適應遮擋對目標跟蹤的影響。
本文首先將顏色信息與梯度角度直方圖信息融合,得到一種新的色度飽和度-梯度角度直方圖特征;然后,將其應用在KCF目標跟蹤過程中;最后,在檢測階段采用尺寸自適應策略。采用文獻[1]中提出的HOG特征,該HOG特征統(tǒng)計并提取每個cell的梯度信息作為圖像特征。主要提取步驟如圖1所示。
圖1 提取HOG特征的主要步驟
HIS顏色空間是一種符合人類視覺特點的顏色表達[12],文獻[13]通過實驗驗證了HIS在跟蹤方面的性能優(yōu)于RGB。因此,本文將HIS和HOG特征融合[14,15]應用在KCF跟蹤中。
在HOG特征提取時采用了亮度信息,為避免冗余,僅對HS通道信息分析和提取。由圖2所示,HIS顏色空間中H和S通道構成極坐標,將色度飽和度分別看作是極坐標中的角度與梯度值。色度計算式為
(1)
(2)
飽和度計算式為
(3)
則特征提取流程為,首先將圖像劃分成小cells;然后,每個cell上統(tǒng)計梯度角度直方圖以及色度飽和度直方圖;進而將每個block內(nèi)所有的cell直方圖串聯(lián),即可得到該block的梯度角度直方圖以及色度飽和度直方圖;最后,將圖像內(nèi)所有的block直方圖串聯(lián),即可得到image的色度飽和度角度梯度直方圖。
圖2 HIS顏色空間原理
視頻序列中目標的尺寸會發(fā)生變化,而傳統(tǒng)的KCF是固定維度濾波器,因而其輸出的跟蹤結果尺寸固定不變[16]。為解決這一問題,本文采用如下的尺寸自適應方案。
假設KCF算法得到的當前目標區(qū)域為x″,對其進行多尺度變換得到不同尺寸的目標區(qū)域
Ii=si·x″,si∈{s1,s2,…,si}
(4)
式(4)中si為尺度因子,設fi為對區(qū)域Ii提取色度飽和度-梯度角度融合特征。由相關濾波知識[17]可得,尺度估計的相關濾波器模板為h,其頻域為H=Γ(h), 計算公式如下
(5)
遮擋檢測及處理對分類器以及尺寸濾波器h的更新都有至關重要的影響。當遮擋出現(xiàn)時,對模型尺寸估計的可信度降低。因此遮擋是否存在的判斷至關重要,而傳統(tǒng)的KCF算法本身并未提供遮擋判斷及處理機制。本文計算目標區(qū)域以及候選區(qū)域內(nèi)RGB這3個通道的直方圖特征,然后計算二者之間的巴氏相似度Bat。設定閾值為BatT=0.286。
遮擋檢測算法:
輸入:候選區(qū)域與目標區(qū)域的三維直方圖計算,并計算二者之間的巴氏系數(shù)
輸出:用于分類器檢測過程中用到的模型參數(shù)a
(1)計算第一幀中目標區(qū)域的三維直方圖為Hist1;
(2)計算候選區(qū)域的三維直方圖為Hist2;
(3)計算Hist1與Hist2之間的巴氏系數(shù)Bat;
(4)當巴氏系數(shù)Bat小于閾值BatT=0.286時,判斷為遮擋出現(xiàn),此時學習速率η取值0;否則,判斷為未被遮擋,學習速率η取值為0.02。
(5)遮擋處理機制:當遮擋出現(xiàn)時停止對模型的更新,當未出現(xiàn)遮擋時,更新下一幀中用于分類器檢測過程中用到的模型參數(shù)a。
本文將從定性性能評測與定量性能評測兩個方面進行跟蹤結果的分析。
視頻目標跟蹤中主要存在的挑戰(zhàn)見表1。
跟蹤結果如下:
(1)改進的KCF與幾種典型的跟蹤算法對比
文中視頻存在光照變化、目標尺度變化以及背景變化等干擾因素,由圖3~圖6可知:通過改進的KCF、Mean shift、Frag以及傳統(tǒng)KCF這4種算法跟蹤視頻中同一目標,只有改進的KCF跟蹤效果較好。由于改進的KCF能夠根據(jù)目標尺寸的變化自動調(diào)整跟蹤窗口的大小,從而減少了背景干擾,進而可以一直對目標的位置以及尺度進行準確評估。
表1 視頻存在主要問題
圖3 改進的KCF跟蹤效果
圖4 Mean Shift跟蹤效果
圖5 Frag跟蹤效果
圖6 傳統(tǒng) KCF跟蹤效果
由圖3中的第660幀顯示,視頻中第660幀中出現(xiàn)了行人遮擋,而改進的KCF跟蹤結果表明,該視頻跟蹤過程并不受背景的干擾;由圖4中的第660幀顯示,Mean shift算法在視頻跟蹤過程中受行人遮擋時,跟蹤效果出現(xiàn)劇烈變化;由圖5中的第660幀顯示,F(xiàn)rag在該視頻跟蹤過程中受行人遮擋時,同樣沒有受較大影響,依舊可以準確對目標進行定位。由圖3第960幀以及第1000幀可知,出現(xiàn)顏色相近的過路行車的較大面積遮擋且遮擋離開時,改進的KCF跟蹤在視頻跟蹤過程并未受到顏色相近的過路行車大面積遮擋的影響,依舊可以準確的鎖定目標位置;由圖4中的第960幀及第1000幀可知,Mean shift跟蹤視頻同一目標,受較大面積遮擋且當遮擋離開時,并不能較好鎖定目標位置;由圖5第960幀及第1000幀可知,F(xiàn)rag在跟蹤過程中遮擋物經(jīng)過時,跟蹤框已遠離目標,即為跟丟。由圖3第2125幀可知,出現(xiàn)顏色相差比較大的過路行車的嚴重遮擋,改進的KCF跟蹤在視頻跟蹤過程并未受到背景變化影響,依舊可以準確的跟蹤目標位置。同時視頻中第2220幀顯示,改進的KCF跟蹤過程,當遮擋目標已經(jīng)經(jīng)過,目標并未被跟丟。由圖4第2125幀可知,Mean shift跟蹤在第660幀出現(xiàn)行人部分遮擋時,目標已經(jīng)跟丟,并且之后無法重新成功跟蹤;由圖5第2125幀可知,F(xiàn)rag跟蹤在受顏色相近的過路行車的較大面積遮擋時,也已經(jīng)被遮擋物帶走,而無法重新成功跟蹤目標。由圖3第2300幀中目標尺寸以及角度均發(fā)生變化,改進的KCF跟蹤結果并未受到較大影響,且能較好適應目標尺寸的變化,準確定位目標;由圖4以及圖5第2300幀可知,Mean shift及Frag跟蹤均無法成功跟蹤目標。圖3第2550幀中目標自身導致的光照變化以及角度的變化,改進的KCF跟蹤結果顯示,仍能成功跟蹤;由圖4及圖5 顯示, Mean shift以及Frag跟蹤均無法成功跟蹤目標。圖3第2660幀,目標自身引起的光照變化以及尺寸的變化,改進的KCF跟蹤結果顯示,跟蹤結果并未受到影響,仍能較為準確鎖定目標位置,并能適應目標尺寸的變化。同樣Mean shift以及Frag跟蹤均無法成功跟蹤。
(2)改進的KCF與傳統(tǒng)KCF結果對比
由圖6可知,傳統(tǒng)KCF跟蹤在第1000幀即大面積嚴重遮擋出現(xiàn)時,且遮擋物與目標顏色相近,進而導致跟丟的情況發(fā)生,并且此后無法成功跟回。
通常在OTB中均采用精確度和成功率進行定量評估[20,21]。
(1)精確度即為中心誤差(center location error,CLE))表示為
(6)
圖7 3種跟蹤算法精確度
圖8 4種跟蹤算法的精確度
由圖7可知,在Mean Shift算法、Frag算法以及改進的KCF跟蹤算法中,改進的KCF算法精確度值趨近于0,且穩(wěn)定在0附近,因此改進的KCF算法精確度最高,即跟蹤效果最好。由圖8可知經(jīng)典KCF算法的精確度值在1000幀之后即出現(xiàn)較大波動,且精確度逐漸降低。從而由圖7、圖8可知,改進的KCF跟蹤算法精確度最高。
當中心位置誤差小于某一固定閾值時(一般取該閾值為20像素),增加一次m,n表示視頻總幀數(shù)
(7)
式(7)表示距離精度。4種跟蹤算法中同一視頻的總幀數(shù)相同,中心位置誤差小于該閾值的幀數(shù)越多,表明跟蹤效果越好,而此時距離精度越大。即DP值越大,表明跟蹤效果越好。
(2)重疊率(overlap rate)即為
(8)
(9)
OR值越大,表示跟蹤算法得到的跟蹤框與手動標記的跟蹤框的重疊部分越大,從而表示跟蹤效果越好。當OR大于某一閾值時(一般取該閾值為0.5),增加一次sn,SR表示成功跟蹤的次數(shù)。3種算法在同一視頻跟蹤中總幀數(shù)相同,重疊率大于該閾值的幀數(shù)越多,表明跟蹤效果越好,因此SR值越大表明跟蹤效果越好。
由圖9可知,改進的KCF跟蹤重疊率值維持在0.8附近且較穩(wěn)定,而經(jīng)典KCF算法在0~1000幀出現(xiàn)最高重疊率即為1,而1000幀之后出現(xiàn)較大波動,且重疊率維持在0附近。Mean Shift 算法的重疊率在700幀之后亦出現(xiàn)較大波動,且在700幀之后的重疊率維持在0值附近,F(xiàn)rag算法的重疊率一直維持在0值附近。從而對比4種算法重疊率可知,改進的KCF跟蹤效果最好。綜合圖7~圖9可知,與傳統(tǒng)的其它3種算法比較,精度值以及重疊率值均取得最佳,即改進的KCF均取得最好的跟蹤效果。
圖9 4種跟蹤算法的重疊率
表2為計算改進的KCF及其它兩種算法的SR值,DP值,MCLE值。
表2 定量評價指標值
由表2可知:成功率SR、平均中心誤差MCE、以及距離精度DP這3個定量評測標準表明,改進的KCF跟蹤效果最好,且平均幀率較高,運算速度較快。
本文使用Window7操作系統(tǒng),Intel(R)Core(TM)2 Quad CPU 處理器,2.83GHz,4GB內(nèi)存配置的電腦上運行,采用MATLAB與VS2013混合編寫,為便于比較,實驗中所有的視頻尺寸統(tǒng)一為720×480。
針對傳統(tǒng)算法不能很好處理目標跟蹤中出現(xiàn)的遮擋、角度變化、尺寸變化以及光照變化引起的跟蹤失敗問題,采用HOG特征與HS特征相融合的多特征,利用尺度自適應的KCF算法,可以較為準確的將背景與目標分離,同時加進遮擋判斷以及處理機制,當出現(xiàn)遮擋時,及時進行遮擋判斷及處理,進而達到更好的跟蹤效果。并且該算法通過循環(huán)移位運算不僅保證較高的幀率,而且提高了算法的準確性與魯棒性。但該算法存在的缺點是當出現(xiàn)長時間且大面積遮擋或者出現(xiàn)全遮擋時,跟蹤效果較差,因此該跟蹤算法仍有待改進。
[1]Liu T,Wang G,Yang Q.Real-time part-based visual tracking via adaptive correlation filters[C]//Computer Vision and Pattern Recognition.IEEE,2015:4902-4912.
[2]Duin R P W,Fred A L N,Loog M,et al.Mode seeking clustering by KNN and mean shift evaluated[J].Springer-Verlag Berlin Heidelberg,2012,7626(1):51-59.
[3]GUO Jingming,HE Xin,WEI Zhonghui.New Mean Shift tracking forcolor image based on online support vector machine[J].Chinese Journal of Liquid Crystals and Displays,2014,29(1):120-128(in Chinese).[郭敬明,何昕,魏仲慧.基于在線支持向量機的Mean Shift彩色圖像跟蹤[J].液晶與顯示,2014,29(1):120-128.]
[4]Electrónicas R.Robust fragments based tracking using the integral histogram[J].International Journal of Std & Aids,2014,26(8):321-325.
[5]Henriques J F,Caseiro R,Martins P,et al.Exploiting the circulant structure of tracking-by-detection with kernels[G].LNCS 7575:Proceedings of 12th European Conference on Computer Vision.Berlin:Springer,2012:702-715.
[6]Zhang K H,Zhang L,Yang M H.Real time compressive tracking[J].European Conference on Computer Vision,2012:7574(6):864-877.
[7]Henriques F,Caseiro R,Martins P,et al.High-speed trac-king with kernelized correlation filters[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(3):583-596.
[8]Pahikkala T,Airola A,Gieseke F,et al.Unsupervised multi-class regularized least-squares classification[J].Journal of Computer Science & Technology,2014,29(1):585-594.
[9]Takai R,Uchida S,Sato A,et al.Experimental investigation of signal sensing with overlapped FFT based energy detection[C]//International Symposium on Intelligent Signal Processing and Communications Systems.IEEE,2014:225-229.
[10]Zhang N,Donahue J,Girshick R,et al.Part-based R-CNNs for fine-grained category detection[C]//European Confe-rence on Computer Vision.Springer,2014:834-849.
[11]Ling H.Online robust image alignment via iterative convex optimization[C]//IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society,2012:1808-1814.
[12]Joao H,Rui C,Pedro M,et a1.Exploiting the circulant structure of tracking by detection with kernels[C]//Euro-pean Conference on Computer Vision,2012:702-715.
[13]Jiang Y S,Ma J W.Combination features and models for human detection[C]//IEEE Conference on Computer Vision and Pattern Recognition,2015:240-248.
[14]Martin D,Fahad SK,Michael F,et al.Adaptive color attributes for real-time visual tracking[C]//IEEE Conference on Computer Vision and Pattern Recognition,2014:1090-1097.
[15]ZHU Qiuping,YAN Jia,ZHANG Hu,et al.Real-time tracking using multiple features based on compressive sensing[J].Optics and Precision Engineering,2013,21(2):437-444(in Chinese).[朱秋平,顏佳,張虎,等.基于壓縮感知的多特征實時跟蹤[J].光學精密工程,2013,21(2):437-444.]
[16]ZHANG Lei,WANG Yanjie,SUN Honghai,et al.Adaptive scale object tracking with kernalized correlation filters[J].Optics and Precision Engineering,2016,24(2):448-459(in Chinese).[張雷,王延杰,孫宏海,等.采用核相關濾波器的自適應尺度目標跟蹤[J].光學精密工程,2016,24(2):448-459.]
[17]Boddeti V N,Kanade T,Kumar B V K V.Correlation filters for object alignment[C]//Proceedings of the IEEE Confe-rence on Computer Vision and Pattern Recognition.Pisa-taway:IEEE,2013:2291-2298.
[19]Danelljan M,H?ger G,Khan F S,et al.Accurate scale estimation for robust visual tracking[J].British Machine Vision Conference,2014,65(2):1-65.
[20]Wu Y,Lim J,Yang M H.Online object tracking:A benchmark[C]//IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society,2013:2411-2418.
[21]Everingham M,Winn J.The PASCAL visual object classes challenge 2010 (VOC2010) development kit contents[C]//International Conference on Machine Learning Challenges:Evaluating Predictive Uncertainty Visual Object Classification.Springer-Verlag,2011:117-176.