潘迪夫, 李耀通, 韓 錕
(中南大學(xué) 交通運輸工程學(xué)院,湖南 長沙 410075)
視覺跟蹤在許多計算機視覺應(yīng)用領(lǐng)域中都扮演著重要的角色[1~3],例如視頻監(jiān)控、人機交互、機器人技術(shù)和增強現(xiàn)實等。目前,基于相關(guān)濾波(correlation filtering,CF)的跟蹤算法因其高精度、高魯棒性、速度快的特點[4],引起了相關(guān)學(xué)者們的廣泛關(guān)注和研究。針對目標表征建模的相關(guān)濾波跟蹤算法主要分為兩類:單模型和多模型,單模型是指采用單特征來訓(xùn)練分類器的相關(guān)濾波跟蹤算法,主要包括核循環(huán)結(jié)構(gòu)檢測[4](circulant structure of tracking-by-detection with kernels,CSK)跟蹤器、顏色名[5](color name,CN)跟蹤器、核相關(guān)濾波器[6](kernelized correlation filter,KCF)、判別性尺度空間跟蹤器[7](discriminative scale space tracker,DSST);多模型是指采用多特征來訓(xùn)練分類器的相關(guān)濾波跟蹤算法,主要包括尺度自適應(yīng)與多特征融合跟蹤器[8](scale-adaptive and multi feature integration tracker,SAMF)、模板與像素學(xué)習器疊加的跟蹤器[9](sum of template and pixel-wise learners,STAPLe)、特征融合和模型自適應(yīng)更新相關(guān)濾波跟蹤[10](feature fusing and model adaptive updating tracking,FAUT)算法、快速多特征金字塔的尺度目標跟蹤[11](fast multi-feature pyramids for scale-adaptive object tracking,MFPSA)方法、自適應(yīng)特征融合的核相關(guān)濾波跟蹤[12](kernelized correlation filtering tracking based on adaptive feature fusion,FAKCF)算法。
盡管上述的跟蹤算法已取得較好的跟蹤效果,但現(xiàn)實環(huán)境中依然存在很多需要被解決的挑戰(zhàn)性問題,主要包括目標遮擋、快速運動和尺度變化等情況導(dǎo)致的目標跟蹤失敗,尤其是在目標快速運動情況下,傳統(tǒng)的相關(guān)濾波算法都是以上一幀的目標位置來確定當前幀的目標搜索區(qū)域,但是當目標的運動速度過快而超出了搜索區(qū)域,就會導(dǎo)致跟蹤失敗。
基于上述分析,本文提出基于極限學(xué)習機(extreme learning machine,ELM)和KCF的自適應(yīng)目標跟蹤方法,本文所提方法具有更好的跟蹤性能,能夠有效處理目標跟蹤過程中目標遮擋、快速運動和尺度變化等問題,且具有較快的跟蹤速率。
在傳統(tǒng)的KCF跟蹤算法中,第t幀圖像的目標搜索區(qū)域是以第t-1幀圖像的目標位置來確定的,對于緩慢運動的目標來說,前后兩幀的目標位置變化不大,按照上述方法依然能夠正確跟蹤目標。當目標是快速運動時,若仍然按上述方法來確定目標搜索范圍,那么目標可能已經(jīng)不在搜索范圍內(nèi),此時就會發(fā)生跟蹤失敗。為此需要對運動目標的位置進行預(yù)測,預(yù)測的位置只要在目標真實位置的附近即可,這樣就可以根據(jù)預(yù)測的位置確定目標搜索范圍,從而正確定位目標?;跉v史的目標位置信息,本文采用了一種學(xué)習速度快、泛化性能好的ELM[14]方法來預(yù)測目標位置。
假設(shè)有N個任意樣本(xj,tj),j=1,2,…,N,其中xj=[xj1,xj2,…,xjn]T∈Rn,tj=[tj1,tj2,…,tjm]T∈Rm,那么對于一個有L個隱層節(jié)點的單隱含層神經(jīng)網(wǎng)絡(luò)可以表示為
(1)
(2)
式(6)即為ELM模型,用矩陣表示為
H·β=T
(3)
式中H為隱含層節(jié)點的輸出,β為輸出權(quán)重,T為期望輸出,三者的表達式如下
H(w1,…,wL,b1,…,bL,x1,…,xN)=
在ELM算法中,輸入權(quán)重wi和隱含層的偏置bi由系統(tǒng)隨機確定,當前兩者確定后,則隱含層的輸出矩陣H就被唯一確定。由Moore-Penrose廣義逆定理可求得H+,則輸出權(quán)重
β=H+·T
(4)
在目標跟蹤過程中,由于跟蹤環(huán)境的多樣性和復(fù)雜性,常常會遇到一些挑戰(zhàn)性問題,如光照劇烈變化、背景復(fù)雜和目標遮擋等,特別是在發(fā)生目標遮擋時,若此時還是繼續(xù)以式(4)固定的更新速率對濾波器的參數(shù)和目標模板進行更新,則會將錯誤的目標表征信息引入到目標模板中,同時濾波器參數(shù)會出現(xiàn)偏差,最終導(dǎo)致后續(xù)的跟蹤失敗。因此必須制定一個更新策略,讓跟蹤算法能夠判斷當前環(huán)境而進行模型自適應(yīng)更新。經(jīng)過實驗分析可知,濾波器輸出的響應(yīng)圖分布能夠有效反映目標當前的環(huán)境狀態(tài),如發(fā)生遮擋等,見圖1。
圖1 不同環(huán)境下濾波器輸出響應(yīng)圖的分布情況
圖1(a)顯示在初始背景下濾波器輸出的響應(yīng)圖是單峰的,且峰值很大,分布情況與理想高斯函數(shù)輸出響應(yīng)接近;圖1(b)顯示在復(fù)雜背景下濾波器輸出的響應(yīng)圖雖然還是單峰的,但是峰值已經(jīng)明顯減?。粓D1(c)顯示當目標發(fā)生部分遮擋時,濾波器輸出的響應(yīng)圖是多峰的,且峰值已經(jīng)降到很低,但依然能夠成功定位目標;圖1(d)顯示當目標發(fā)生完全遮擋時,濾波器輸出的響應(yīng)圖是多峰的,峰值很低,此時最大峰值位置可能并不是目標位置,即出現(xiàn)偽峰值,導(dǎo)致后續(xù)的跟蹤失敗。
由圖1分析可知,在目標跟蹤過程中,可以根據(jù)濾波器輸出響應(yīng)圖的分布情況來判斷目標是否發(fā)生遮擋等情況。為了將響應(yīng)圖的分布情況轉(zhuǎn)化為一個量化指標,本文參考文獻[16],引入平均峰值相關(guān)(average peak-to correlation,APCE)能量對響應(yīng)圖的分布情況進行統(tǒng)計,APCE反映了響應(yīng)圖的振蕩程度和目標檢測的置信水平,計算方法如下
(5)
式中Fi,Fmax和Fmin分別為響應(yīng)圖的響應(yīng)值、最大響應(yīng)值和最小響應(yīng)值,為了更好衡量APCE的變化,定義
(6)
那么式(4)中模型更新速率η變?yōu)棣恰?,η′由下式確定
(7)
本文的仿真實驗均在CPU為Intel Corei5—6400、主頻為2.70 GHz、8 GB內(nèi)存的計算機環(huán)境下通過MATLAB 2016a軟件平臺進行實現(xiàn)。算法的參數(shù)設(shè)置具體如下:目標特征提取區(qū)域的大小設(shè)置為目標區(qū)域的1.5倍,7個尺度因子分別為0.985,0.990,0.995,1.000,1.005,1.010和1.015,更新速率η=0.02,參數(shù)β=0.3,正則λ=10-4,在實驗過程中所有的參數(shù)固定不變。
從OTB2013[17]測試數(shù)據(jù)集中選取 36個視頻序列,其中包括快速運動的16組視頻和目標遮擋的30組視頻,并與KCF、CN、SAMF、DSST、Staple算法相比。將根據(jù)實驗結(jié)果從定性和定量兩方面分析6種算法的跟蹤性能。
圖2展示的是實驗中6種跟蹤算法的部分跟蹤結(jié)果。
1)快速運動:以“Couple”和“Jumping”為例。由圖2(a)和圖2(b)可知,當目標是快速運動時,其它算法很快就丟失跟蹤目標,僅本文算法能夠一直成功跟蹤目標。
2)目標遮擋:以“Jogging1”和“Lemming”為例。在視頻序列中,當運動目標發(fā)生完全遮擋時,只有本文算法和samf算法能夠繼續(xù)跟蹤目標,其余算法均發(fā)生了跟蹤漂移。
3)尺度變化:以“Girl”和“Walking 2”為例。在Girl和Walking 2序列中,大部分算法都能較好地跟蹤目標,但本文跟蹤算法更加準確地實現(xiàn)目標尺度的自適應(yīng)變化。
圖2 6種跟蹤算法部分跟蹤結(jié)果顯示
本文將采用以下幾個評價指標[17]對跟蹤算法進行定量分析。1)中心位置誤差(center location error,CLE):跟蹤算法檢測的目標中心位置與標定的目標中心位置之間的平均歐氏距離;2)距離精度(distance precision,DP):視頻中CLE小于某一設(shè)定距離閾值的幀數(shù)與總幀數(shù)的百分比;3)重疊精度(overlap precision,OP):跟蹤算法預(yù)測的目標框與標定的目標框之間的重疊面積與總面積的比值超過某一設(shè)定重疊閾值的視頻幀數(shù)與總幀數(shù)的百分比;4)精度曲線:橫軸為給定的距離閾值,縱軸為對應(yīng)的DP,通常取閾值為20個像素時精度曲線值(P20)為典型值;5)成功率曲線:橫軸為給定的重疊閾值,縱軸為對應(yīng)的OP,將曲線下方的面積(area under curve,AUC)作為該曲線的典型值。
本文共設(shè)置了2組實驗,第一組是6種算法的單個視頻跟蹤性能的定量分析;第二組是6種算法的綜合性能的定量分析。
3.2.1 單個視頻跟蹤性能的定量分析
針對上述的6組視頻序列,采用CLE、DP和OP 3個評價指標對6種算法的跟蹤性能進行對比分析。表1為6種跟蹤算法在每組視頻中的平均CLE、DP(距離閾值為20像素)和OP(重疊閾值為0.5)結(jié)果。取每個評價指標的平均值作為算法跟蹤性能的判斷依據(jù),表中雙下劃線加粗數(shù)據(jù)表示最優(yōu)結(jié)果,下劃線加粗數(shù)據(jù)為次優(yōu)結(jié)果。在這3個評價指標中,本文算法均取得最優(yōu)結(jié)果,表明本文算法能夠很好地適應(yīng)不同的跟蹤環(huán)境,具有較好的跟蹤性能。
表1 6種算法在6組視頻中的CLE(像素)、DP(%)和OP(%)結(jié)果
3.2.2 算法綜合跟蹤性能的定量分析
為了綜合評比6種算法的跟蹤性能,選用OTB2013的36組視頻序列進行測試分析,采用精度曲線和成功率曲線兩個評價指標來進行綜合跟蹤性能的定量分析。
圖3為6種算法在36組視頻中的整體精度曲線和成功率曲線。由圖3分析可知,本文算法的精度(P20)和成功率(AUC)均是最高的,比第2名的samf分別提高10 %和9 %,證明本文算法具有較高的綜合跟蹤性能。
圖3 6種算法的精度曲線和成功率曲線
與當前幾種主流的相關(guān)濾波跟蹤算法相比,大量實驗結(jié)果表明:本文提出的跟蹤方法不僅具有較高的魯棒性和準確性,且有效地解決了目標跟蹤過程中的目標遮擋、快速運動等問題,提高了目標跟蹤的成功率。
同時由上述數(shù)據(jù)分析可知,本文提出的跟蹤方法在低分辨率跟蹤環(huán)境下的跟蹤性能需要進一步提高,可以結(jié)合深度學(xué)習方法來融合多分辨率的特征圖,以此提高本文方法的跟蹤性能。