黃月平, 李小鋒, 楊小岡, 齊乃新, 盧瑞濤, 張勝修
(火箭軍工程大學(xué)導(dǎo)彈工程學(xué)院, 陜西 西安 710025)
視覺目標(biāo)跟蹤可描述為在跟蹤序列第一幀給定目標(biāo)初始位置情況下,對后續(xù)序列中目標(biāo)運動軌跡進行估計的過程。作為計算機視覺研究領(lǐng)域中的熱點與難點問題,目標(biāo)跟蹤是高層計算機視覺處理技術(shù)的重要基石,在智能視覺導(dǎo)航[1]、戰(zhàn)場態(tài)勢偵察[2]、智能視頻監(jiān)控[3]、人機交互[4]、三維重建[5]等軍事及民用領(lǐng)域應(yīng)用廣泛。視覺目標(biāo)跟蹤的難點在于[6]:① 訓(xùn)練數(shù)據(jù)有限。通用目標(biāo)跟蹤任務(wù)中,目標(biāo)先驗知識缺乏,僅有目標(biāo)初始位置信息。② 目標(biāo)不確定性。跟蹤過程中,隨著目標(biāo)尺寸、形狀以及姿態(tài)等變化,其外觀模型存在明顯差異;多目標(biāo)跟蹤任務(wù)中,當(dāng)目標(biāo)進出視野或者完全遮擋時,目標(biāo)數(shù)量存在不確定性。③ 場景復(fù)雜性。在實際場景中存在光照變化、背景雜亂、遮擋以及圖像分辨率低等挑戰(zhàn)。
視覺目標(biāo)跟蹤算法主體框架一般可分為運動模型、特征提取、觀測模型、模型更新4個部分[7]。其中,運動模型用于確定目標(biāo)搜索的候選區(qū)域;特征提取用于對目標(biāo)或背景進行外觀建模;觀測模型根據(jù)目標(biāo)或背景的外觀模型,判斷候選區(qū)域是否為目標(biāo)區(qū)域;模型更新用于確定外觀模型和觀測模型的更新策略。
視覺目標(biāo)跟蹤算法分為生成式跟蹤算法和判別式跟蹤算法[8]。生成式跟蹤算法對目標(biāo)進行外觀建模,利用跟蹤序列中目標(biāo)外觀模型的相似性進行目標(biāo)定位,選擇與目標(biāo)模板具有最大相似性或最小重建誤差的候選區(qū)域作為跟蹤結(jié)果,常用方法主要有粒子濾波[9]、光流法[10]、均值移位算法[11]以及高斯混合模型[12]等。判別式跟蹤算法對目標(biāo)和背景同時進行外觀建模,將跟蹤任務(wù)視為目標(biāo)和背景的分類問題,選擇分類器輸出最大值對應(yīng)的候選區(qū)域作為跟蹤結(jié)果,常用方法主要有基于支持向量機[13]、多示例學(xué)習(xí)[14]、隨機森林[15]、在線Boosting[16]等經(jīng)典分類器的跟蹤算法以及基于相關(guān)濾波的跟蹤算法。相比生成式跟蹤算法,判別式跟蹤算法能有效利用背景信息,魯棒性更好,已成為視覺目標(biāo)跟蹤領(lǐng)域的主流方向。
2010年,文獻[17]提出最小輸出誤差平方和(minimum output sum of squared error, MOSSE)跟蹤算法,將信號處理領(lǐng)域的相關(guān)濾波用于目標(biāo)跟蹤,利用傅里葉變換在頻域進行加速,算法運行速度高達669 fps。2015年,文獻[18]將循環(huán)移位采樣[19]與核函數(shù)相結(jié)合提出了著名的核相關(guān)濾波(kernelized correlation filters, KCF)跟蹤算法。該算法通過循環(huán)移位采樣,緩解了訓(xùn)練數(shù)據(jù)有限的問題;在僅有寥寥數(shù)行主代碼的情況下,其性能優(yōu)于當(dāng)時頂尖跟蹤算法,如核結(jié)構(gòu)化輸出跟蹤學(xué)習(xí)算法[20]和檢測跟蹤學(xué)習(xí)(tracking learning detect, TLD)算法[21],運行速度高達每秒數(shù)百幀。自此,相關(guān)濾波跟蹤算法憑借其快速性和精確性,在目標(biāo)跟蹤領(lǐng)域引起廣泛重視、成為判別式跟蹤算法中的熱門方向,大量改進算法相繼被提出[22-24]。各相關(guān)濾波跟蹤算法通常針對某特定問題具有較好的解決方案,復(fù)雜場景下實時可靠的通用目標(biāo)跟蹤算法仍是一個需要長期重點研究的方向。
本文針對單目標(biāo)跟蹤領(lǐng)域中基于相關(guān)濾波的視覺目標(biāo)跟蹤算法進行討論,對相關(guān)濾波跟蹤算法原理、基本框架和問題進行研究總結(jié)。重點依據(jù)跟蹤框架對相關(guān)濾波跟蹤算法各工作階段取得的主要技術(shù)新進展及相應(yīng)改進算法特點進行總結(jié)分析;然后,利用數(shù)據(jù)集OTB-2015[25]對其中具有代表性的改進算法進行測試與分析;最后,探討未來發(fā)展方向,為研究者提供有效參考。
相關(guān)性研究最早源于信號處理領(lǐng)域,用于描述兩個信號相似性,兩者相似度越高,相關(guān)值越大。相關(guān)性算法的主要優(yōu)勢在于,可將時域的相關(guān)運算轉(zhuǎn)化為頻域點乘運算,即
(1)
x⊕h=F-1(XV*)
(2)
式中:x、h為時域中的離散信號;X、V分別為x和h的離散傅里葉逆變換;F-1為離散傅里葉逆變換運算符;⊕為相關(guān)操作運算符;*為共軛運算符。
相關(guān)濾波跟蹤算法基于相關(guān)性理論,構(gòu)造相關(guān)濾波器作為在線分類器,通過在目標(biāo)搜索區(qū)域內(nèi)對目標(biāo)和背景進行分類,實現(xiàn)對目標(biāo)的定位跟蹤,其典型代表有MOSSE算法和KCF算法[26]。
訓(xùn)練階段,MOSSE算法通過利用最小輸出誤差平方和的方法構(gòu)造相關(guān)濾波器,其目標(biāo)函數(shù)為
(3)
式中:Fk為頻域中第k訓(xùn)練圖像塊;H為頻域中相關(guān)濾波器;Gk為頻域中第k訓(xùn)練圖像塊的理想目標(biāo)響應(yīng)。
求解式(3)可得
(4)
檢測階段,目標(biāo)候選區(qū)域的相關(guān)濾波響應(yīng)為
G=FH*
(5)
目標(biāo)位置根據(jù)最大響應(yīng)值確定。模型更新階段,相關(guān)濾波器更新方式為
(6)
(7)
(8)
式中:η為學(xué)習(xí)率;t為視頻幀的序號。
MOSSE算法采用灰度特征,根據(jù)上一幀目標(biāo)位置提取目標(biāo)候選區(qū)域,通過構(gòu)造相關(guān)濾波器實現(xiàn)目標(biāo)跟蹤,并在頻域加速計算。但在初始幀中,僅有8個通過隨機仿射擾動生成的訓(xùn)練樣本,樣本個數(shù)和濾波器系數(shù)個數(shù)嚴重不平衡。
訓(xùn)練階段,KCF算法采用循環(huán)移位樣本通過嶺回歸的方法構(gòu)造相關(guān)濾波器,其目標(biāo)函數(shù)為
(9)
式中:xi為第i循環(huán)移位樣本;f(xi)=xi⊕w為真實目標(biāo)響應(yīng);yi為第i循環(huán)移位樣本的理想目標(biāo)響應(yīng);w為相關(guān)濾波器系數(shù);λ為正則化系數(shù),用于抑制過擬合。
借助循環(huán)矩陣理論[27],在線性回歸條件下,在頻域中求解式(9)可得
(10)
在非線性回歸條件下,KCF算法借助核嶺回歸方法[28],利用核函數(shù)將原空間中的非線性問題轉(zhuǎn)化為對偶空間中的線性問題。此時濾波器系數(shù)為
(11)
α=(K+λI)-1y
(12)
式中:αi為加權(quán)系數(shù),可視為對偶空間中的濾波器系數(shù);φ(xi)為樣本xi在對偶空間的映射;α為系數(shù)αi構(gòu)成的向量;K為核矩陣。此時,對相關(guān)濾波器系數(shù)w的優(yōu)化求解轉(zhuǎn)化為對加權(quán)系數(shù)向量α的優(yōu)化求解。
為避免矩陣求逆運算,在頻域中將式(12)簡化為
(13)
檢測階段,目標(biāo)候選區(qū)域z的相關(guān)濾波響應(yīng)為
(14)
(15)
(16)
式中:η為學(xué)習(xí)率;t為視頻幀的序號。
KCF算法在MOSSE算法的基礎(chǔ)上,采用具有多維數(shù)據(jù)的方向梯度直方圖(histogram of oriented gradient,HOG)特征,利用循環(huán)移位采樣構(gòu)造密集樣本,克服了MOSSE算法訓(xùn)練樣本過少的問題,加入正則化項,防止相關(guān)濾波器過擬合,完成了相關(guān)濾波跟蹤算法基本框架的搭建。MOSSE算法和KCF算法等經(jīng)典算法奠定了相關(guān)濾波跟蹤算法的理論基礎(chǔ),為后續(xù)相關(guān)濾波跟蹤算法發(fā)展提供了強勁動力[29-30]。
雖然各類相關(guān)濾波跟蹤算法針對特定問題提出了各自的解決方案,但其基本工作流程可歸納成較為統(tǒng)一的形式,如圖1所示。圖1為相關(guān)濾波跟蹤算法基本工作流程,其中,FFT為快速傅里葉變換,IFFT為快速傅里葉逆變換。參照視覺目標(biāo)跟蹤算法主體框架,總結(jié)其流程主要有4個模塊。
圖1 相關(guān)濾波跟蹤算法工作流程
(1)候選樣本獲取。在當(dāng)前幀中,以上一幀目標(biāo)位置為中心,提取圖像塊作為目標(biāo)搜索區(qū)域,通過循環(huán)移位采樣獲得密集候選樣本。
(2)特征提取。利用手工特征或者深度特征,對目標(biāo)搜索區(qū)域進行特征提取,獲得特征圖、建立外觀模型。
(3)目標(biāo)定位。為提高運算效率,在頻域中利用相關(guān)濾波器對特征圖進行相關(guān)濾波操作,獲得目標(biāo)響應(yīng)圖,根據(jù)響應(yīng)圖確定目標(biāo)位置;目標(biāo)位置通常對應(yīng)于最大響應(yīng)值位置。擁有尺度估計功能的跟蹤算法,還需對目標(biāo)尺寸進行估計。
(4)模型更新。該階段主要根據(jù)當(dāng)前目標(biāo)信息,視情更新相關(guān)濾波器和外觀模型。
MOSSE算法和KCF算法主要特性在于:
(1)頻域加速、實時性好,算法根據(jù)循環(huán)矩陣理論,利用離散傅里葉變換將時域相關(guān)運算轉(zhuǎn)化為頻域點乘運算,能夠快速獲得相關(guān)濾波器系數(shù)封閉解和搜索區(qū)域密集的目標(biāo)響應(yīng)值;
(2)數(shù)據(jù)儲存空間小,密集樣本通過循環(huán)移位隱式構(gòu)造,不需要顯性存儲循環(huán)移位產(chǎn)生的樣本,大大減輕了數(shù)據(jù)儲存負擔(dān);
(3)樣本標(biāo)注靈活,循環(huán)移位樣本采用高斯函數(shù)軟標(biāo)簽進行標(biāo)注,正負樣本占比可通過改變高斯函數(shù)的方差進行快速調(diào)整;
(4)在線更新快捷,基于循環(huán)移位采樣,算法能夠快速實現(xiàn)在線模型更新,使相關(guān)濾波器能夠及時學(xué)習(xí)目標(biāo)外觀模型的變化。
經(jīng)典相關(guān)濾波跟蹤算法有其自身特性,也存在亟待研究的幾個方面:
(1)邊界效應(yīng),候選樣本獲取階段,由圖像周期性假設(shè)引起的邊界效應(yīng),嚴重影響算法跟蹤性能;
(2)多特征融合,特征選取階段,選取單一手工特征如灰度特征或HOG特征,未能利用多特征融合的優(yōu)勢;
(3)尺度估計,目標(biāo)定位階段,目標(biāo)框大小固定,未對目標(biāo)尺度變化進行估計;
(4)模型更新,模型更新階段,更新策略缺乏自適應(yīng)性,憑經(jīng)驗設(shè)計的加權(quán)更新不能良好地捕捉外觀模型變化,特別是在遮擋情況下容易發(fā)生跟蹤漂移。
隨著視覺目標(biāo)跟蹤算法的廣泛應(yīng)用,相關(guān)濾波跟蹤算法由于其優(yōu)良的綜合特性吸引了大批研究者深入研究;針對經(jīng)典相關(guān)濾波跟蹤算法的特性和基本問題,重點研究了相關(guān)濾波跟蹤框架和與其他算法的結(jié)合,提出了一系列改進算法?;谙嚓P(guān)濾波跟蹤框架的改進,主要針對邊界效應(yīng)、特征選擇、尺度估計、模型更新等,通過改善相關(guān)濾波跟蹤算法自身的缺陷,提高算法應(yīng)對目標(biāo)不確定性、背景復(fù)雜性等跟蹤難點的能力;結(jié)合其他算法的方法,通過其他算法的優(yōu)勢彌補相關(guān)濾波跟蹤算法的不足,提高算法跟蹤性能。
邊界效應(yīng)由樣本的周期性假設(shè)引起。該假設(shè)使得相關(guān)濾波跟蹤算法可以利用FFT在頻域加速運算,但使用循環(huán)移位樣本代替真實平移樣本,造成樣本準(zhǔn)確性較差,降低了算法跟蹤性能。訓(xùn)練階段,由于缺乏真實的負樣本,降低了相關(guān)濾波器的鑒別能力;在遮擋和雜亂背景情況下,其影響尤為明顯;檢測階段,目標(biāo)響應(yīng)圖僅在搜索區(qū)域中心附近較為準(zhǔn)確,其余響應(yīng)值受樣本周期性循環(huán)影響較大。因此,邊界效應(yīng)限制了相關(guān)濾波跟蹤算法的目標(biāo)搜索范圍;當(dāng)搜索區(qū)域設(shè)置過小時,不利于快速運動目標(biāo)的跟蹤;過大時,大量背景信息引入正樣本,不利于目標(biāo)和背景分類。
目前,抑制邊界效應(yīng)的手段主要有加余弦窗、空間正則化以及掩膜矩陣。
對圖像施加余弦窗是相關(guān)濾波跟蹤算法的基本處理方法,能夠?qū)Ψ侵芷谛詧D像的邊緣不連續(xù)性進行抑制,弱化圖像邊緣。該方法簡單便捷,但作用有限。訓(xùn)練時,由于加窗后圖像邊緣背景信息被屏蔽,相關(guān)濾波器分類能力會有所降低;檢測時,如果目標(biāo)位于搜索區(qū)域邊緣附近,加窗后目標(biāo)信息會被弱化甚至消除,容易造成跟蹤失敗。
空間正則化方法主要根據(jù)空間位置對相關(guān)濾波器系數(shù)進行懲罰,使相關(guān)濾波器主要關(guān)注于樣本的中心區(qū)域、忽略樣本的邊緣區(qū)域,從而抑制邊界效應(yīng)。文獻[31]提出空間正則化相關(guān)濾波(spatially regularized discriminative correlation filters,SRDCF)跟蹤算法,采用較大的目標(biāo)搜索區(qū)域,利用從中心區(qū)域到邊緣區(qū)域平滑增大的濾波器系數(shù)約束權(quán)重,對遠離中心區(qū)域的濾波器系數(shù)進行懲罰。相關(guān)濾波跟蹤算法中,循環(huán)移位產(chǎn)生的樣本中心區(qū)域可靠性較高,邊緣區(qū)域可靠性較差。因此,SRDCF算法通過約束濾波器系數(shù)實現(xiàn)對邊界效應(yīng)的抑制,如圖2所示。
圖2 SRDCF算法空間正則化示意圖
該算法的目標(biāo)函數(shù)為
(17)
式中:h為相關(guān)濾波器系數(shù);xk為第k訓(xùn)練圖像塊;αk、yk分別為第k訓(xùn)練圖像塊的加權(quán)系數(shù)和理想響應(yīng);N為訓(xùn)練圖像塊個數(shù);W為濾波器系數(shù)約束權(quán)重。
SRDCF方法的優(yōu)勢在于:訓(xùn)練階段,較大的目標(biāo)搜索范圍顯著增加負樣本數(shù)量,且正樣本中未引入過多背景信息;檢測階段,較大的目標(biāo)搜索范圍有利于對快速運動目標(biāo)的跟蹤,且位于搜索區(qū)域邊緣附近的目標(biāo)不易被忽視,有效提升了跟蹤性能。算法中濾波器平滑約束權(quán)重保證了頻域稀疏性,但此正則項的矩陣結(jié)構(gòu)不具有對角性,使得相關(guān)濾波器系數(shù)的求解需采用高斯·賽德爾方法進行迭代求解,嚴重降低了算法運行速度。
由于空間正則化方法抑制邊界效應(yīng)的有效性,該思想隨后被諸多算法[32-33]沿用。針對SRDCF算法采用多幅圖像和空間正則化方法訓(xùn)練相關(guān)濾波器,破壞了循環(huán)矩陣結(jié)構(gòu),造成算法復(fù)雜度高、運行速度慢的問題,文獻[34]在單幅圖像空間正則化算法基礎(chǔ)上,提出了基于時空正則化的相關(guān)濾波(spatial-temporal regularized correlation filters,STRCF)跟蹤算法,利用時間正則化近似多幅圖像情況,將基于多幅圖像的訓(xùn)練有效簡化為基于單幅圖像的訓(xùn)練,使得算法可利用交替方向乘子法對相關(guān)濾波器系數(shù)進行求解,提高了跟蹤速度。該方法相對SRDCF算法而言,大大降低了計算復(fù)雜度,但其仍沿用固定的空間正則化系數(shù),不能根據(jù)跟蹤的目標(biāo)進行靈活調(diào)整。
文獻[35]針對固定約束權(quán)重的空間正則化方法不能良好適應(yīng)目標(biāo)外觀變化,提出了基于自適應(yīng)空間正則化的相關(guān)濾波(adaptive spatially regularized correlation filters, ASRCF)跟蹤算法。該算法聯(lián)合訓(xùn)練濾波器系數(shù)和約束權(quán)重,使得約束權(quán)重能根據(jù)目標(biāo)外觀變化及時進行調(diào)整,更有針對性地抑制低可靠性區(qū)域的濾波器系數(shù)。針對預(yù)設(shè)空間約束權(quán)重先驗性強、不能良好適應(yīng)未知應(yīng)用場景的問題,文獻[36]充分利用歷史跟蹤信息,提出了一種在線自動學(xué)習(xí)的時空正則化約束,通過局部響應(yīng)圖變化值生成空間約束權(quán)重。
W=PTδlg(Π+O)+W0
(18)
式中:P為二進制矩陣;O為元素為1的矩陣;δ為一個常數(shù);Π為局部響應(yīng)圖變化量;W0為固定空間約束權(quán)重,設(shè)置同SRDCF算法。該方法利用響應(yīng)圖變化情況判斷目標(biāo)是否出現(xiàn)遮擋、劇烈形變等情況,當(dāng)響應(yīng)圖變化值較大時,表明當(dāng)前像素可靠性較差,需加大對濾波器系數(shù)的懲罰力度。
總體而言,空間正則化方法能有效抑制邊界效應(yīng),但正則項優(yōu)化復(fù)雜度較高、運算耗時較長。同時,為獲得合適的正則權(quán)值系數(shù),需要謹慎設(shè)置超參數(shù)。
掩膜矩陣方法通過將相關(guān)濾波器與二進制掩膜矩陣相乘,實現(xiàn)對邊界效應(yīng)的抑制。文獻[29]提出有限邊界相關(guān)濾波(correlation filters with limited boundaries, CFLB)跟蹤算法,采用小尺寸相關(guān)濾波器,通過掩膜矩陣對其隱性補零擴充,使相關(guān)濾波器能部分忽略循環(huán)移位樣本的邊界區(qū)域,在一定程度上緩解邊界效應(yīng)。該方法等同于掩膜矩陣與循環(huán)移位樣本相乘,從大尺寸的循環(huán)移位樣本中裁剪出較小尺寸的真實樣本,增加了真實樣本數(shù)量。以一維樣本為例,如圖3所示,循環(huán)移位采樣獲得的樣本中只有1個真實樣本,掩膜矩陣作用后產(chǎn)生了3個真實樣本。
圖3 CFLB算法掩膜矩陣運用示意圖
CFLB算法采用灰度特征,由于其表征能力不足,造成算法跟蹤性能不佳。針對該問題,文獻[37]提出了背景感知相關(guān)濾波(background-aware correlation filters, BACF)跟蹤算法,將CFLB算法拓展為單幅圖像和多通道特征情況,使算法既能利用真實負樣本訓(xùn)練,緩解循環(huán)移位樣本帶來的邊界效應(yīng),也能受益于多維特征的強表征能力。其目標(biāo)函數(shù)為
(19)
式中:y∈RL為理想目標(biāo)響應(yīng);x[Δτi]為對訓(xùn)練圖像x進行i步循環(huán)移位操作;P為掩膜矩陣;λ為正則化系數(shù)??臻g正則化方法是對樣本不可靠區(qū)域的濾波器系數(shù)進行限制,而BACF算法通過增加真實訓(xùn)練樣本的方法對邊界效應(yīng)進行抑制,能更本質(zhì)地解決該問題。
文獻[38]提出基于通道和空間可靠性的相關(guān)濾波(discriminative correlation filter with channel and spatial reliability, CSR_DCF)跟蹤算法,利用顏色直方圖信息對圖像的空間可靠性進行判斷,根據(jù)空間可靠性生成二進制掩膜矩陣,利用該矩陣對相關(guān)濾波器系數(shù)進行限制。該方法本質(zhì)上也是一種空間正則化方法,但由于采用了由0,1組成的約束權(quán)重,使其既克服了邊界效應(yīng),也隱性打破了目標(biāo)搜索區(qū)域矩形框形狀預(yù)設(shè)的限制。
大量研究表明,特征提取對目標(biāo)跟蹤任務(wù)至關(guān)重要,合理選擇特征能顯著提高跟蹤算法性能[7]。特征描述越本質(zhì),外觀模型可鑒別性越好,越利于目標(biāo)跟蹤。在視覺目標(biāo)跟蹤任務(wù)中,利用有限的訓(xùn)練數(shù)據(jù)充分學(xué)習(xí)運動目標(biāo)和背景的外觀模型,是一個相當(dāng)困難的問題。
MOSSE算法和循環(huán)結(jié)構(gòu)核函數(shù)跟蹤(circulant structure of tracking-by-detection with kernels tracker, CSK)算法[19]均采用灰度特征,跟蹤速度高達每秒數(shù)百幀;但灰度特征過于簡單、描述能力弱,致使算法跟蹤精度較差。隨后,恩里克斯等將顏色名稱(color names,CN)[39]、HOG特征與相關(guān)濾波器結(jié)合用于目標(biāo)跟蹤,分別提出了CN算法[40]、KCF算法。HOG特征對目標(biāo)輪廓和表面紋理具有良好的描述能力,對運動模糊和光照變化魯棒性好;顏色特征能有效利用顏色信息,對目標(biāo)形變魯棒性好[41]。由于這兩種手工特征具有良好互補性,后續(xù)相關(guān)濾波跟蹤算法常將其融合使用。
隨著深度學(xué)習(xí)的發(fā)展,越來越多的相關(guān)濾波跟蹤算法采用深度特征。文獻[42]率先將深度特征用于相關(guān)濾波跟蹤領(lǐng)域,提出了分層卷積特征(hierarchical convolutional features,CF2)跟蹤算法。該算法將深度網(wǎng)絡(luò)卷積層視為一個非線性圖像金字塔,利用預(yù)先訓(xùn)練的VGG-Net-19網(wǎng)絡(luò)[43]的Conv3-4、Conv4-4和Conv5-4層卷積特征分別訓(xùn)練相關(guān)濾波器,從高層到低層按照由粗到精的方式使用多級相關(guān)響應(yīng)映射來確定目標(biāo)位置。由于深度特征卓越的表征能力,該算法與同類采用手工特征的跟蹤算法相比,顯著提高了跟蹤的精確性和魯棒性。CF2算法初步探索了深度學(xué)習(xí)在相關(guān)濾波跟蹤算法中的應(yīng)用,但與深度學(xué)習(xí)在目標(biāo)檢測和圖像分類任務(wù)中取得的成績相比,并未充分發(fā)揮出深度學(xué)習(xí)的效能。
文獻[44]提出揭示深度神經(jīng)網(wǎng)絡(luò)跟蹤力量的跟蹤算法,對深度特征在視覺目標(biāo)跟蹤領(lǐng)域未達到預(yù)期性能的問題進行了系統(tǒng)研究,發(fā)現(xiàn)數(shù)據(jù)增強能顯著提升深層卷積特征的跟蹤效能,卻惡化了淺層卷積特征的跟蹤效能;大方差的高斯標(biāo)簽函數(shù)有益于深層特征,小方差的高斯標(biāo)簽函數(shù)有益于淺層特征。因此,淺層卷積特征和深層卷積特征應(yīng)分開用于相關(guān)濾波器訓(xùn)練,淺層卷積特征側(cè)重于定位的精確性,而深層卷積特征側(cè)重于定位的魯棒性,最后通過響應(yīng)級融合實現(xiàn)目標(biāo)定位。該算法為相關(guān)濾波跟蹤算法分層利用深度特征提供了良好的指導(dǎo),克服了CF2算法對淺層卷積特征和深層卷積特征不加區(qū)分的使用。
利用預(yù)先訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)提取的特征更傾向于目標(biāo)識別和分類任務(wù),其與跟蹤任務(wù)的貼合度有待進一步提升。針對該問題,文獻[45]利用相關(guān)濾波器理想響應(yīng)和實際響應(yīng)的差值作為損失函數(shù),利用隨機梯度下降法訓(xùn)練卷積深度神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)提取的特征對相關(guān)濾波跟蹤任務(wù)適用性強,但是特征通道間缺乏獨立性,且由于網(wǎng)絡(luò)中輔助層的存在,使得網(wǎng)絡(luò)最后一層的特征質(zhì)量較差。文獻[46]提出了無監(jiān)督深度跟蹤算法,利用大規(guī)模無標(biāo)注視頻數(shù)據(jù)對深度卷積神經(jīng)網(wǎng)絡(luò)進行無監(jiān)督訓(xùn)練,使其更貼合跟蹤任務(wù)。該算法基于穩(wěn)健跟蹤器的前向跟蹤和后向跟蹤應(yīng)同時可靠的預(yù)設(shè),在孿生相關(guān)濾波網(wǎng)絡(luò)基礎(chǔ)上,采用多幀驗證方法和對代價敏感的損失函數(shù)訓(xùn)練網(wǎng)絡(luò),使網(wǎng)絡(luò)提取的深度特征更適合目標(biāo)跟蹤。雖然該文算法跟蹤性能提升有限,但其展示了無監(jiān)督學(xué)習(xí)在相關(guān)濾波跟蹤領(lǐng)域的巨大潛力。
文獻[47]針對深度特征維數(shù)過大、存在大量冗余,提出了群特征選擇相關(guān)濾波(group feature selection method for discriminative correlation filters, GFS-DCF)跟蹤算法,根據(jù)多通道特征的空間一致性,跨越空間維度和特征通道維度進行群特征選擇,學(xué)習(xí)具有空間-通道群稀疏性的相關(guān)濾波器,實現(xiàn)了從空間維度和特征通道維度對特征進行壓縮。該算法加入時間平滑性約束,將特征選擇和相關(guān)濾波器系數(shù)進行聯(lián)合訓(xùn)練,在跟蹤過程中動態(tài)學(xué)習(xí)自適應(yīng)的時間-空間-通道配置,突出關(guān)鍵特征,減少了信息冗余。該算法精確性高、魯棒性強,但計算復(fù)雜度高、運行速度遠低于實時性要求。
相關(guān)濾波跟蹤算法利用預(yù)先訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò),如VGG(visual geometry group)網(wǎng)絡(luò),在提取深度特性時,計算資源消耗大,難以部署到僅配置單核CPU的移動平臺上。針對上述問題,文獻[48]提出利用知識蒸餾框架對預(yù)先訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)進行聯(lián)合壓縮和轉(zhuǎn)移,得到一個輕量級的學(xué)生網(wǎng)絡(luò)作為特征提取器。該算法的蒸餾過程通過離線訓(xùn)練方式實現(xiàn),能將原本95 MB的教師網(wǎng)絡(luò)壓縮為1.5 MB的學(xué)生網(wǎng)絡(luò),從而使算法在單核CPU運行情況下能夠達到實時性需求,但算法的跟蹤精度有所下降。
手工特征相對簡單、數(shù)據(jù)維數(shù)小,采用此類特征的傳統(tǒng)相關(guān)濾波跟蹤算法容易滿足實時性要求,但手工特征先驗性強、描述能力有限、抗干擾能力弱。相比之下,深度特征描述更接近本質(zhì)、魯棒性更好。但深度神經(jīng)網(wǎng)絡(luò)各層提取的特征側(cè)重點不同需要合理配置使用,更關(guān)鍵之處在于,深度特征數(shù)據(jù)維度大、運算復(fù)雜度高,不利于算法的實時性??傮w而言,手工特征和淺層卷積特征分辨率高、目標(biāo)定位方便,有利于跟蹤的精確性,深層卷積特征包含高級語義信息、不變性強,有利于跟蹤的魯棒性,如何合理融合特征、充分發(fā)揮多特征優(yōu)勢,仍值得進一步研究。
視覺目標(biāo)跟蹤過程中,目標(biāo)的尺度會隨自身運動或攝像機運動發(fā)生改變。早期相關(guān)濾波跟蹤算法只對目標(biāo)平移進行估計,不具有目標(biāo)尺度估計能力。由于目標(biāo)框大小固定,當(dāng)目標(biāo)尺寸變大時,只有局部目標(biāo)信息被運用,當(dāng)目標(biāo)尺寸變小時,大量的背景信息被引入,二者均會造成跟蹤漂移。為實現(xiàn)目標(biāo)尺度估計,后續(xù)相關(guān)濾波跟蹤算法主要采用基于尺度池、特征點或者分塊的方法。
基于尺度池的方法,通過構(gòu)造圖像金字塔或者相關(guān)濾波器金字塔,實現(xiàn)對目標(biāo)尺寸的估計。在跟蹤序列中,相鄰兩幀中目標(biāo)的尺度變化通常小于平移變化。文獻[49]以此為據(jù),提出尺度空間判別跟蹤(discriminative scale space tracking, DSST)算法,利用二維平移相關(guān)濾波器確定目標(biāo)位置,然后在此基礎(chǔ)上,構(gòu)造具有33個尺度的圖像金字塔,利用一維尺度相關(guān)濾波器進行檢測,根據(jù)尺度相關(guān)濾波器最大響應(yīng)值確定目標(biāo)尺寸。其圖像金字塔構(gòu)造方式為
(20)
式中:a為尺度因子;H×W為當(dāng)前目標(biāo)尺寸;S為尺度數(shù)量。
文獻[50]提出多特征自適應(yīng)尺度跟蹤(scale adaptive with multiple features tracker, SAMF)算法,首先構(gòu)造具有7個尺度的圖像金字塔,然后利用相關(guān)濾波器檢測,根據(jù)目標(biāo)響應(yīng)最大值,同時確定目標(biāo)的位置和尺寸。與DSST算法分步估計位置和尺度相比,SAMF算法尺度估計更準(zhǔn)確,但其運算量更大,速度相對較慢。
利用圖像尺度池進行目標(biāo)尺度估計時,存在特征重復(fù)提取的問題。為避免該情況,文獻[51]提出一種基于尺度自適應(yīng)相關(guān)濾波器和嶺回歸跟蹤器(scale-adaptive correlation filter and ridge regression-based tracker, SCFR)的跟蹤算法,利用相關(guān)濾波器的空間結(jié)構(gòu)處理尺度估計問題,如圖4所示。該算法利用雙三次插值算法近似構(gòu)造具有多個尺度的相關(guān)濾波器金字塔,利用相關(guān)濾波器金字塔檢測目標(biāo)搜索區(qū)域,只需提取一次圖像特征,即可輕松實現(xiàn)對目標(biāo)位置和尺寸的估計,但其仍未解決尺寸比例固定的問題??傮w而言,基于尺度池的方法利用相關(guān)濾波器對目標(biāo)尺寸進行估計,運算速度較快,能夠輕松移植到其他算法;但尺度池大小固定、具有一定的局限性。
圖4 SCFR算法多尺度濾波器生成示意圖
基于目標(biāo)特征點或者分塊的方法,預(yù)設(shè)當(dāng)目標(biāo)大小發(fā)生變化時,其內(nèi)部顯著性特征點或者子模塊之間的距離也會隨之改變,通過衡量這些距離的變化能夠估計目標(biāo)尺寸。文獻[52]將目標(biāo)分解為5個局部子目標(biāo),對局部子目標(biāo)分別進行相關(guān)濾波跟蹤,根據(jù)周邊局部子目標(biāo)中心點與中間局部子目標(biāo)中心點之間的相對距離對目標(biāo)尺度進行估計,相對距離增加表明目標(biāo)尺寸增大,反之亦然。該算法采用分塊方法,不僅能實現(xiàn)目標(biāo)尺度估計,還能一定程度上緩解遮擋以及劇烈形變等復(fù)雜情況帶來的跟蹤漂移。文獻[53]在相鄰跟蹤序列的目標(biāo)區(qū)域提取特征點,根據(jù)特征匹配點相對位置的變化以及特征點的權(quán)值確定目標(biāo)尺寸,特征點的權(quán)值由其距離目標(biāo)中心點的距離確定,離中心點越遠其可靠性越低、權(quán)值越小。該類尺度估計方法能自適應(yīng)目標(biāo)尺寸變化,克服了尺度池中尺度變化范圍有限的限制,但其尺度估計的精度嚴重依賴于特征點匹配或局部子目標(biāo)跟蹤的精度,算法復(fù)雜度高,難以達到實時性要求。
視覺目標(biāo)跟蹤過程中,目標(biāo)和背景外觀模型會隨時間發(fā)生改變,為適應(yīng)其變化,相關(guān)濾波器系數(shù)和目標(biāo)外觀模型須及時進行更新,防止跟蹤漂移。在相關(guān)濾波跟蹤算法中,模型更新方式可分為固定式模型更新以及自適應(yīng)模型更新兩大類。
采用固定式模型更新時,跟蹤器每隔一幀或多幀更新一次且學(xué)習(xí)率固定。如高效卷積算子(efficient convolution operator, ECO)跟蹤算法[33]每6幀更新一次,高速多核相關(guān)濾波(multi-kernel correlation filters, MKCFup)跟蹤算法[54]每幀更新一次。該更新方式操作簡單,在遮擋、光照變化以及背景雜亂等復(fù)雜情況下,容易造成模型污染。
采用自適應(yīng)模型更新的相關(guān)濾波跟蹤算法,根據(jù)目標(biāo)響應(yīng)情況決定是否更新和設(shè)置學(xué)習(xí)率。該更新方式將目標(biāo)外觀模型變化程度和跟蹤結(jié)果可靠性納入考慮范圍,使算法在盡量降低更新頻率的基礎(chǔ)上,緩解跟蹤漂移問題。常用目標(biāo)響應(yīng)可靠性判別指標(biāo)如下。
(1)峰值旁瓣比(peak to sidelobe ratio,PSR),可表示為
(21)
式中:Rmax為目標(biāo)響應(yīng)最大值;μ為旁瓣均值;σ為旁瓣標(biāo)準(zhǔn)差。PSR指標(biāo)用來衡量目標(biāo)響應(yīng)圖峰值強度,若PSR值大,表明峰值強度高、跟蹤較為可靠,反之跟蹤結(jié)果可靠性低。
(2)響應(yīng)圖平滑約束(smooth constraint of confidence maps,SCCM)[52],可表示為
(22)
第二主峰與主峰比(ratio between the second and first major mode,RSFM)[38],可表示為
(23)
式中:Gpeak1為目標(biāo)響應(yīng)圖主峰峰值;Gpeak2為目標(biāo)響應(yīng)圖第二主峰峰值。RSFM指標(biāo)用來衡量目標(biāo)響應(yīng)圖主峰突出性。理想目標(biāo)響應(yīng)圖為二維高斯分布、主峰突出,RSFM值越大,表明主峰越突出、跟蹤可靠性越高,反之表明主峰不突出、跟蹤效果較差,存在相似物干擾、遮擋等情況。
(3)平均峰值相關(guān)能量(average peak to correlation energy, APCE)[55],可表示為
(24)
式中:Rmax,Rmin分別為目標(biāo)響應(yīng)最大值和最小值;Ri, j為目標(biāo)響應(yīng)圖中第i行、第j列取值。APCE指標(biāo)主要用于衡量目標(biāo)響應(yīng)圖的振蕩情況,值較小時,表明目標(biāo)響應(yīng)圖振蕩劇烈、跟蹤結(jié)果可靠性低,可能遇到遮擋、運動模糊或者目標(biāo)丟失等情況;值較大時,表明跟蹤結(jié)果較為可靠。
文獻[56]提出多線索相關(guān)濾波(multi-cue correlation filters, MCCT)跟蹤算法,根據(jù)不同特征組合構(gòu)成多專家跟蹤系統(tǒng),通過多專家間分歧大小確定跟蹤結(jié)果置信度,分歧小時,表明跟蹤結(jié)果可靠性高。在模型更新時,該算法利用跟蹤結(jié)果置信度和目標(biāo)響應(yīng)圖PSR值自適應(yīng)確定模型更新學(xué)習(xí)率,降低了模型被污染的風(fēng)險以及直接丟棄不可靠樣本導(dǎo)致的信息損失風(fēng)險。文獻[57]利用目標(biāo)響應(yīng)最大值衡量局部置信度,利用APCE值衡量全局置信度,通過局部置信度和全局置信度對目標(biāo)跟蹤結(jié)果進行綜合衡量,當(dāng)跟蹤結(jié)果可靠性超過設(shè)定閾值時更新模型。針對手工特征和深度特征對外觀模型魯棒性的差異,文獻[58]對深度特征模型每兩幀更新一次,當(dāng)APCE值大于閾值時,手工特征模型進行更新。該方法對深度特征模型的更新方式,避免了每幀更新帶來的計算量,但未充分考慮目標(biāo)外觀模型變化程度和跟蹤結(jié)果可靠性。
自適應(yīng)模型更新策略根據(jù)目標(biāo)外觀模型變化程度和訓(xùn)練樣本質(zhì)量,及時調(diào)整模型更新的頻率和學(xué)習(xí)率,對相關(guān)濾波跟蹤器的模型自適應(yīng)與跟蹤漂移進行權(quán)衡,有效避免固定式模型更新的盲目性,可緩解目標(biāo)嚴重形變、遮擋、出視角以及背景雜亂等情況對跟蹤器性能的影響。其難點在于,如何根據(jù)實際跟蹤應(yīng)用環(huán)境,選擇合適的目標(biāo)響應(yīng)可靠性判別指標(biāo),準(zhǔn)確判斷目標(biāo)是否遭遇嚴重形變、遮擋以及雜亂背景等情況。
相關(guān)濾波跟蹤算法除了改進自身算法框架,還可與其他算法相結(jié)合,利用其他算法的優(yōu)勢來彌補自身局限性。
文獻[59]將基于顏色直方圖的跟蹤模型和基于HOG特征的相關(guān)濾波跟蹤模型融合,提出綜合模板和像素級學(xué)習(xí)器(sum of template and pixel-wise learners, Staple)的跟蹤算法,其目標(biāo)響應(yīng)圖計算方法為
f(x)=γcfc(x)+γhfh(x)
(25)
式中:f(x)為算法的目標(biāo)響應(yīng)圖;fc(x),fh(x)分別為相關(guān)濾波跟蹤模塊和顏色直方圖跟蹤模塊的目標(biāo)響應(yīng)圖;γc,γh為響應(yīng)圖加權(quán)系數(shù),且滿足γc+γh=1。
顏色直方圖跟蹤模型對目標(biāo)形變魯棒性好,但對光照變化敏感,而相關(guān)濾波跟蹤模型特性正好與之相反。Staple算法由于有效利用了上述模型的互補性,故能同時應(yīng)對光照變化和目標(biāo)形變等挑戰(zhàn),獲得可觀的跟蹤性能。
文獻[60]將相關(guān)濾波跟蹤算法和支持向量機相結(jié)合,將基于支持向量機的跟蹤問題轉(zhuǎn)化為支持相關(guān)濾波器(support correlation filters,SCF)的學(xué)習(xí)問題。該算法在交替優(yōu)化過程中引入離散傅里葉變換,可以獲得實時性的全局最優(yōu)解,實現(xiàn)高效、準(zhǔn)確的視覺目標(biāo)跟蹤;同時,SCF還可以拓展到多通道特征、核函數(shù)和尺度自適應(yīng)情況,進一步提高跟蹤性能。文獻[61]將聯(lián)合卡爾曼濾波和運動軌跡平均的運動估計算法與KCF算法相結(jié)合,利用運動估計算法對目標(biāo)運動進行估計,初步確定目標(biāo)位置;然后,在此位置基礎(chǔ)上,運用KCF算法確定目標(biāo)精確位置。該算法的優(yōu)點在于克服了相關(guān)濾波跟蹤算法中目標(biāo)搜索區(qū)域以上一幀目標(biāo)位置為中心的局限,有利于快速運動目標(biāo)的跟蹤。但該算法無尺度估計能力,可考慮用其他改進的相關(guān)濾波跟蹤算法替代KCF算法。
隨著深度學(xué)習(xí)研究的火熱,相關(guān)濾波跟蹤算法與之結(jié)合越來越緊密。與深度學(xué)習(xí)的結(jié)合除了用于深度特征提取外,還可用于相關(guān)性操作和擔(dān)任輔助網(wǎng)絡(luò)角色。
文獻[62]提出基于卷積殘差學(xué)習(xí)的視覺跟蹤(convolutional residual learning for visual tracking, CREST)算法,將相關(guān)濾波器轉(zhuǎn)化為一個深度神經(jīng)網(wǎng)絡(luò)卷積層,通過空間域卷積操作實現(xiàn)相關(guān)性運算,避免了樣本周期性假設(shè)和循環(huán)移位采樣,從根本上消除了邊界效應(yīng);相關(guān)濾波卷積層完全可微分,通過網(wǎng)絡(luò)單向傳播更新相關(guān)濾波器,克服了經(jīng)驗插值更新方式難以在模型自適應(yīng)和穩(wěn)定性之間取得良好平衡的問題;利用殘差學(xué)習(xí)獲取目標(biāo)的外觀變化,有效緩解了目標(biāo)顯著外觀變化導(dǎo)致的模型快速退化問題。由于在線更新學(xué)習(xí)導(dǎo)致跟蹤速度較慢,該算法難以滿足實時需求。
文獻[63]將相關(guān)濾波跟蹤算法與SiameseFC算法[64]結(jié)合,提出了相關(guān)濾波網(wǎng)絡(luò)(discriminant correlation filters network, DCFNet)跟蹤算法,如圖5所示。
圖5 DCFNet算法網(wǎng)絡(luò)結(jié)構(gòu)示意圖
該算法將相關(guān)濾波器視作添加在孿生網(wǎng)絡(luò)后的一個特殊網(wǎng)絡(luò)層,該層輸出定義為目標(biāo)位置概率圖,模型更新通過該層反向傳播實現(xiàn),深度特征提取和相關(guān)濾波跟蹤可端到端進行訓(xùn)練。由于相關(guān)濾波網(wǎng)絡(luò)層的反向傳播仍然通過頻域中的點乘運算實現(xiàn),該算法即保留了相關(guān)濾波跟蹤算法的高效性,也受益于網(wǎng)絡(luò)端到端訓(xùn)練。
文獻[65]將注意力網(wǎng)絡(luò)和具有2種特征、2種核函數(shù)、13種尺度、5種延遲更新模式,共260種相關(guān)濾波跟蹤模塊的跟蹤網(wǎng)絡(luò)相結(jié)合,根據(jù)目標(biāo)動態(tài)特性,注意力網(wǎng)絡(luò)實時選擇適宜的跟蹤模塊用于目標(biāo)跟蹤。該算法中,各相關(guān)濾波跟蹤模塊分別針對跟蹤漂移、運動模糊、遮擋、尺寸變化和靈活縱橫比、延遲更新等情況設(shè)計,注意力機制自適應(yīng)配置其激活狀態(tài),使算法在低負荷計算條件下全面應(yīng)對上述多種跟蹤挑戰(zhàn)。針對CREST算法等基于深度學(xué)習(xí)的在線跟蹤算法運行速度較慢的問題,文獻[66]利用離線的元學(xué)習(xí)方法初始化相應(yīng)跟蹤算法的深度神經(jīng)網(wǎng)絡(luò),通過高質(zhì)量的初始值,減少網(wǎng)絡(luò)更新中的迭代次數(shù),從而加快網(wǎng)絡(luò)的訓(xùn)練速度。該方法的元學(xué)習(xí)組件能根據(jù)跟蹤序列中未來幀的誤差信號,獲得魯棒的初始目標(biāo)模型,但該方法對算法的精確性和魯棒性提升不明顯,未能充分發(fā)揮元學(xué)習(xí)方法的效能。文獻[67]將可微分的空間對準(zhǔn)模塊引入相關(guān)濾波網(wǎng)絡(luò),提出了基于空間對齊的相關(guān)濾波網(wǎng)絡(luò)(spatially aligned correlation filters network,SACFNet)。該算法利用空間對準(zhǔn)模塊的空間對齊功能,將目標(biāo)從邊界區(qū)域轉(zhuǎn)換到具有標(biāo)準(zhǔn)化縱橫比的區(qū)域中心,縮小目標(biāo)搜索空間,有效應(yīng)對邊界效應(yīng)和目標(biāo)縱橫比變化。文獻[68]將區(qū)域建議網(wǎng)絡(luò)(region proposal network,RPN)[69]和相關(guān)濾波跟蹤算法相結(jié)合,利用RPN生成目標(biāo)候選區(qū)域,在目標(biāo)候選區(qū)域利用相關(guān)濾波跟蹤算法完成目標(biāo)跟蹤。該算法克服了相關(guān)濾波跟蹤算法依賴運動平滑假設(shè)確定目標(biāo)搜索區(qū)域的局限性,提高了算法對不確定性運動目標(biāo)的跟蹤能力,但RPN網(wǎng)絡(luò)生成多個候選區(qū)域,需要進行多次相關(guān)濾波操作,運算量較大、跟蹤速度較慢。文獻[70]將長短時記憶(long short term memory, LSTM)網(wǎng)絡(luò)[71]和相關(guān)濾波跟蹤算法相結(jié)合,采用三層卷積特征分別訓(xùn)練一個相關(guān)濾波器,然后利用LSTM網(wǎng)絡(luò)確定3個目標(biāo)響應(yīng)圖的融合權(quán)值和模型更新方式。LSTM網(wǎng)絡(luò)可以充分編碼目標(biāo)的歷史信息,對外觀模型的變化程度更敏銳,學(xué)習(xí)出的融合權(quán)值可以更好地衡量各目標(biāo)響應(yīng)圖的可靠性。
現(xiàn)階段,各類改進的相關(guān)濾波跟蹤算法針對早期算法在跟蹤各階段存在的問題,從邊界效應(yīng)、特征提取、尺度估計以及模型更新方面入手,改善自身框架或結(jié)合其他算法,使得跟蹤性能得到了大幅提升。這些算法在顯著改善相應(yīng)問題的同時,也帶來一些新情況,如算法復(fù)雜度增大、運行速度下降等,要綜合解決這些問題仍需研究者不懈奮斗。
本文利用數(shù)據(jù)集OTB-2015對20種典型相關(guān)濾波跟蹤算法進行測試與分析。
數(shù)據(jù)集OTB-2015在視覺目標(biāo)跟蹤領(lǐng)域應(yīng)用廣泛,為單目標(biāo)跟蹤算法發(fā)展做出了突出貢獻[72],其含有彩色序列74個、灰度序列26個,共58 897幀圖像。該數(shù)據(jù)集包含光照變化、尺度變化、形變、遮擋、快速運動、運動模糊、平面外旋轉(zhuǎn)、平面內(nèi)旋轉(zhuǎn)、出視野、背景雜亂以及低分辨率共11種跟蹤挑戰(zhàn),有效覆蓋了目標(biāo)不確定性和背景復(fù)雜性。
本文采用精確度、成功率曲線下面積(area under curve,AUC)和運行速度作為跟蹤算法的性能評估指標(biāo)。精確度為跟蹤序列中目標(biāo)中心定位誤差(center location error,CLE)小于給定閾值的幀數(shù)占比,能有效評估跟蹤算法的目標(biāo)定位精度。CLE定義為標(biāo)注目標(biāo)框中心點P0和跟蹤目標(biāo)框中心點P1之間的歐式距離,如圖6所示。
圖6 評價指標(biāo)示意圖
成功率為跟蹤序列中標(biāo)注目標(biāo)框和跟蹤目標(biāo)框重疊得分大于給定閾值的幀數(shù)占比,閾值通常為0.5。重疊得分定義為
(26)
式中:B0為標(biāo)注目標(biāo)框;B1為跟蹤目標(biāo)框;∩為交集運算符;∪為并集運算符;||為區(qū)域中像素個數(shù)。
當(dāng)閾值從0到1變化,可以繪制出成功率曲線,AUC為成功率曲線下面積,能有效評估跟蹤算法的目標(biāo)定位和尺度估計能力。
運行速度為算法每秒跟蹤的圖像幀數(shù),單位為fps。
本文實驗硬件平臺為配置Intel(R)Core(TM)i5-8300H CPU@2.30HZ和NVIDIA GeForce GTX1060的計算機,軟件平臺為MATLAB R2018a。實驗采用一次通過評估(one-pass evaluation, OPE)方法,測試的相關(guān)濾波跟蹤算法包括:CSK算法[19]、CN算法[40]、DSST算法[48]、KCF算法[18]、SAMF算法[50]、CF2算法[42]、CFLB算法[29]、SRDCF算法[31]、連續(xù)卷積算子跟蹤(continuous convolution operator tracker,CCOT)算法[32]、Staple算法[61]、CREST算法[62]、BACF算法[37]、CSR_DCF算法[38]、DCFNet算法[63]、ECO算法[33]、MKCFup算法[54]、MCCT算法[56]、STRCF算法[34]、ASRCF算法[35]和GFS_DCF算法[47]。
圖7為上述20種跟蹤算法在數(shù)據(jù)集OTB-2015上的整體性能表現(xiàn),其中精確度曲線圖反映了各跟蹤算法精確度隨閾值變化的情況,成功率曲線圖反映了各跟蹤算法成功率隨閾值變化的情況。從圖7可以看出,整體性能排名后5位的算法為KCF算法、DSST算法、CN算法、CSK算法和CFLB算法,其余算法性能較這些早期算法均有顯著提升。
圖7 20種相關(guān)濾波跟蹤算法在數(shù)據(jù)集OTB-2015上的整體性能
表1為上述20種相關(guān)濾波跟蹤算法的性能對比表,給出各算法在數(shù)據(jù)集OTB-2015上的平均精確度、AUC、平均運行速度和特征類型。其中,ECO_HC和MCCT_H分別為使用手工特征的ECO算法和MCCT算法;Gray為灰度特征;CN為顏色空間;IC為強度通道特征;CH為顏色直方圖;CNN為卷積特征。加粗數(shù)據(jù)為最優(yōu)結(jié)果,下劃線數(shù)據(jù)為次優(yōu)結(jié)果,斜體數(shù)據(jù)為第3名結(jié)果。從表1可知,精確度排名前3的算法為GFS_DCF算法、ASRCF算法和MCCT算法,AUC排名前3的算法為GFS_DCF算法、ASRCF算法和ECO算法,運行速度排名前3的算法為CSK算法、CFLB算法和KCF算法。結(jié)合圖7和表1可知,精確度和AUC排名前3的算法均采用CNN特征、排名后五位的算法均采用手工特征;除DCFNet算法外,其余運行速度達實時性要求的算法均采用手工特征。相比手工特征,CNN特征描述能力更強、數(shù)據(jù)維度更大,故基于CNN特征的相關(guān)濾波跟蹤算法通常精確度和成功率更高、運行速度更慢,難以滿足實時性要求;基于手工特征的相關(guān)濾波跟蹤算法精確度和成功率通常較低,但運行速度更具優(yōu)勢,更易滿足實際應(yīng)用場景對跟蹤算法的綜合性能要求。如采用手工特征的MCCT_H算法、ECO_HC算法與采用深度特征的MCCT算法、ECO算法相比,精確度分別降低了7.52%和7.59%;AUC分別降低了6.74%和8.15%;運行速度卻分別提高了3.71倍和3.11倍,既滿足了實時性要求,也具有可觀的精確度和成功率。
表1 20種相關(guān)濾波跟蹤算法基于數(shù)據(jù)集OTB-2015的性能對比
圖8給出了20種相關(guān)濾波跟蹤算法在數(shù)據(jù)集OTB-2015的11類跟蹤挑戰(zhàn)下的成功率曲線圖。
圖8 20種相關(guān)濾波跟蹤算法在OTB-2015 11類屬性的成功率曲線圖
從圖8可以看出,總體而言,各跟蹤算法在遮擋、低分辨率、形變、尺度變化、出視野的挑戰(zhàn)下性能均有顯著下降。在具有遮擋挑戰(zhàn)的視頻序列中,采用固定模型更新的算法比自適應(yīng)模型更新的算法跟蹤性能下降更明顯,如KCF算法的AUC從0.477減少到0.445。在具有尺度變化挑戰(zhàn)的視頻序列中,具有尺度估計能力的算法(如DSST、SAMF算法)與采用固定目標(biāo)框的算法(如CSK、CN算法)相比,其AUC至少高出7個百分點。在具有快速運動挑戰(zhàn)的視頻序列中,SRDCF算法、ECO算法、CFLB算法、CSR_DCF算法等利用空間正則化方法或者掩膜矩陣方法處理邊界效應(yīng)的算法,由于采用更大的目標(biāo)搜索范圍,可良好應(yīng)對目標(biāo)快速運動的挑戰(zhàn)。
現(xiàn)階段相關(guān)濾波跟蹤算法在經(jīng)典算法基本框架的基礎(chǔ)上,針對邊界效應(yīng)、特征選擇、尺度估計、模型更新以及算法融合等方面,進行了卓有成效的改進,取得了顯著性成果。雖然改進的相關(guān)濾波跟蹤算法在各自應(yīng)用場景下取得了較大進步,但在復(fù)雜環(huán)境下實時穩(wěn)健地完成目標(biāo)跟蹤任務(wù)還需進一步研究。特征選擇、樣本選擇、長時目標(biāo)跟蹤、網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化等,作為相關(guān)濾波跟蹤算法研究的發(fā)展方向,已引起廣大研究者的重視和聚焦。
(1)特征選擇。單一特征難以對目標(biāo)和背景可靠建模,多特征融合使用已成為相關(guān)濾波跟蹤算法的基本操作。特征融合時,既要考慮特征的互補性還需盡量避免特征冗余。深度特征表征能力強,但特征提取耗時過多,預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)提取的深度特征與跟蹤任務(wù)貼合度不高,如何快速獲取適合跟蹤任務(wù)的深度特征仍是一個研究熱點。
(2)樣本選擇。相關(guān)濾波器本質(zhì)上是一個分類器,訓(xùn)練樣本的質(zhì)量對相關(guān)濾波器性能起著決定性作用。相關(guān)濾波器系數(shù)數(shù)量與訓(xùn)練樣本數(shù)量不平衡、正負樣本數(shù)質(zhì)量不平衡等,容易造成相關(guān)濾波器鑒別能力下降,在結(jié)合深度學(xué)習(xí)的相關(guān)濾波跟蹤算法中,其影響更為突出。隨著深度學(xué)習(xí)中無監(jiān)督學(xué)習(xí)的火熱,相關(guān)濾波跟蹤算法可進一步采用無監(jiān)督或弱監(jiān)督學(xué)習(xí)解決訓(xùn)練樣本缺乏問題,同時利用注意力機制增強訓(xùn)練樣本質(zhì)量。
(3)長時目標(biāo)跟蹤。目前相關(guān)濾波跟蹤算法主要立足于短時目標(biāo)跟蹤,在目標(biāo)發(fā)生遮擋、短暫出視野以及圖像低分辨率等實際場景下,如何實現(xiàn)長時目標(biāo)跟蹤值得深入研究,極具應(yīng)用價值。
(4)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化。基于深度學(xué)習(xí)的相關(guān)濾波跟蹤算法發(fā)展迅猛、成果頗豐,如何進一步優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),使其更利于目標(biāo)跟蹤,是跟蹤領(lǐng)域重點研究方向之一。例如,開發(fā)基于輕量級網(wǎng)絡(luò)結(jié)構(gòu)的相關(guān)濾波跟蹤算法,使其能在移動設(shè)備上流暢運行;有針對性地優(yōu)化具有端到端網(wǎng)絡(luò)結(jié)構(gòu)的相關(guān)濾波跟蹤算法,如與孿生網(wǎng)絡(luò)結(jié)合,使其兼具精確性、魯棒性和實時性,以滿足實際工程應(yīng)用。