劉霖楓,孔繁鏘,嚴(yán)小樂(lè),沈 秋
(南京航空航天大學(xué) 航天學(xué)院,南京 210016)
視覺(jué)目標(biāo)跟蹤廣泛應(yīng)用于視頻監(jiān)控、機(jī)器人實(shí)時(shí)定位及無(wú)人駕駛等領(lǐng)域。相關(guān)濾波跟蹤算法將跟蹤問(wèn)題看作是目標(biāo)與背景的分類問(wèn)題,并根據(jù)相關(guān)濾波器對(duì)兩者產(chǎn)生的不同響應(yīng)進(jìn)行分類。跟蹤算法的性能與諸多因素有關(guān),但文獻(xiàn)[1]發(fā)現(xiàn),特征提取是影響整個(gè)跟蹤算法性能的關(guān)鍵步驟,也是跟蹤算法研究中的熱門方向之一。
迄今為止,相關(guān)濾波跟蹤算法中使用的特征主要包括灰度特征[2]、形狀特征[3-5]、顏色特征[6-7]和紋理特征[8]。文獻(xiàn)[2]提出最小化平方誤差(Minimum Output Sum of Squared Error,MOSSE)算法,以圖像灰度為特征,使用最小化平方誤差準(zhǔn)則在線訓(xùn)練目標(biāo)模板,從而將相關(guān)濾波器運(yùn)用到在線跟蹤中。文獻(xiàn)[6]在顏色名跟蹤(Color Name Tracker,CNT)算法中使用了顏色名(Color Name,CN)[9]特征,在判別式尺度空間跟蹤(Discriminative Scale Space Tracker,DSST)算法[4]中使用了描述目標(biāo)形狀與輪廓的改進(jìn)梯度方向直方圖特征(Felzenszwalb’s Histogram of Oriented Gradient,FHOG)[10]與灰度特征。文獻(xiàn)[5]提出的核化相關(guān)濾波(Kernalized Correlation Filtering,KCF)算法使用了完整的FHOG特征,并用核化嶺回歸(Kernel Ridge Regression)模型,進(jìn)一步提高了相關(guān)濾波跟蹤算法的實(shí)時(shí)性及魯棒性。
盡管相關(guān)濾波跟蹤算法中對(duì)特征提取方法的研究已經(jīng)積累了豐富的成果,但多數(shù)是出于提升算法跟蹤性能的目的,分散地進(jìn)行特征優(yōu)化或多特征融合,其實(shí)驗(yàn)分析也多是對(duì)改進(jìn)前后算法性能的比較。而實(shí)際上各種特征因不同的特點(diǎn),所適用的場(chǎng)景也各不相同,如:灰度特征適合低分辨率場(chǎng)景,而形狀特征則在目標(biāo)形變場(chǎng)景下表現(xiàn)更突出。目前系統(tǒng)分析這些不同類型特征各自優(yōu)勢(shì)和劣勢(shì)的研究較少。本文通過(guò)理論推導(dǎo)分析各類特征的描述能力,比較其在不同場(chǎng)景下的性能表現(xiàn),并給出各特征的適用條件和互補(bǔ)條件,從而為特征選擇及特征融合提供理論和實(shí)驗(yàn)依據(jù)。
KCF算法[5]完善了相關(guān)濾波算法的基本框架,取得了很好的跟蹤效果。近年來(lái)流行的相關(guān)濾波跟蹤算法[7,11]均以KCF為基礎(chǔ),因此本文的實(shí)驗(yàn)使用帶有尺度預(yù)測(cè)的改進(jìn)KCF算法。KCF算法使用核化的嶺回歸方法學(xué)習(xí)一個(gè)用于分類的相關(guān)濾波器,通過(guò)循環(huán)矩陣的方式實(shí)現(xiàn)密集采樣,并在頻域加速計(jì)算,這使得KCF算法擁有良好準(zhǔn)確性、魯棒性和實(shí)時(shí)性。
核化的嶺回歸方法采用正則化最小平方誤差(Regularized Least Square,RLS)的原則訓(xùn)練分類器,即通過(guò)樣本訓(xùn)練出濾波器模板ω,使得濾波器響應(yīng)與對(duì)應(yīng)的樣本標(biāo)簽y之間的平方誤差最小:
(1)
其中,xi是樣本特征向量x的第i維分量,f(ω,x)=ωΤx是x的線性映射,yi是理想高斯分布,λ為正則化參數(shù)。
為增加非線性分類能力,核函數(shù)的方法被引入到模型中。在核函數(shù)方法中,樣本的特征向量x被φ(·)映射到高維Hilbert空間中,從而使目標(biāo)函數(shù)式(1)中:
(2)
高斯核函數(shù)可以表示為:
(3)
由式(3)進(jìn)行泰勒展開(kāi)可以發(fā)現(xiàn),高斯核函數(shù)能夠?qū)⒃卣饔成涞綗o(wú)限維特征空間,在此空間進(jìn)行RLS分類能夠很好地提升算法的非線性分類能力。而線性核函數(shù)則不進(jìn)行高維映射,僅相當(dāng)于原特征空間的內(nèi)積運(yùn)算:
k(x,z)=xTz
(4)
根據(jù)文獻(xiàn)[12]求解線性核函數(shù)假設(shè)下的濾波器模板ω后,可以得到當(dāng)前幀的相關(guān)濾波響應(yīng):
(5)
其中,x是模板的目標(biāo)特征,z為從當(dāng)前幀提取得到的特征,符號(hào)^表示變量的頻域形式。計(jì)算得到相關(guān)響應(yīng)的最大值所在位置即為當(dāng)前幀目標(biāo)位置。
從式(5)中可以看到,目標(biāo)的位置預(yù)測(cè)完全由當(dāng)前幀提取得到的特征z與濾波器的相關(guān)響應(yīng)決定。即在模板更新策略不變時(shí),線性核作用下的跟蹤表現(xiàn)可以直觀反映特征的描述能力并作為其評(píng)價(jià)標(biāo)準(zhǔn)。因此,本文實(shí)驗(yàn)采用線性核函數(shù)進(jìn)行分析和特征比較。
目前,在視覺(jué)目標(biāo)跟蹤算法中使用的特征主要有:灰度特征,形狀特征,紋理特征和顏色特征。
灰度特征直接使用圖像的灰度值對(duì)目標(biāo)進(jìn)行描述,因其提取簡(jiǎn)單且特征維度僅有一維,被廣泛地用于早期的單通道相關(guān)濾波跟蹤算法中。為進(jìn)一步簡(jiǎn)化計(jì)算、提高算法實(shí)時(shí)性,在算法實(shí)現(xiàn)中使用歸一化的灰度特征,其提取效果見(jiàn)圖1(b)。
形狀特征通過(guò)提取圖像中的邊緣信息,產(chǎn)生目標(biāo)外部輪廓及內(nèi)部邊緣的形狀描述子對(duì)目標(biāo)進(jìn)行描述,不僅可區(qū)分目標(biāo)與背景,還可以區(qū)分相似目標(biāo)。文獻(xiàn)[13]提出梯度方向直方圖特征(Histogram of Oriented Gradient,HOG),由于其對(duì)目標(biāo)形狀有較好的描述能力,被廣泛地用于視覺(jué)目標(biāo)跟蹤算法中。為了提高HOG計(jì)算的速度,文獻(xiàn)[10]使用主成分分析的方法對(duì)其進(jìn)行了降維處理,提出了FHOG特征。FHOG特征的可視化結(jié)果見(jiàn)圖1(c)。
紋理特征通過(guò)描述圖像中顏色與光強(qiáng)的空間分布,產(chǎn)生目標(biāo)紋理的描述子,從而區(qū)分具有不同紋理的目標(biāo)。在諸多的紋理特征中,文獻(xiàn)[14]提出的局部二值模式(Local Binary Pattern,LBP)有計(jì)算量小、對(duì)噪聲不敏感、對(duì)灰度和旋轉(zhuǎn)具有不變性等優(yōu)點(diǎn),被廣泛用于圖像紋理特征的提取。而LBP“等價(jià)模式”[15]的提出彌補(bǔ)了原始LBP特征維度較高的不足,大大減少了描述子種類,使得LBP特征的提取與計(jì)算實(shí)時(shí)性更強(qiáng),能更好地應(yīng)用于跟蹤算法中,其特征提取結(jié)果見(jiàn)圖1(d)。
顏色特征是一種直觀、易提取的圖像特征,符合人類視覺(jué)的直觀感受。近年來(lái),CN特征取得了很好的表現(xiàn),因此被廣泛地用于跟蹤算法中。CN特征將圖像中的顏色信息投影到11種基礎(chǔ)顏色上,并將歸一化的各顏色分量作為目標(biāo)的顏色特征描述子。相比于其他顏色特征,CN特征維數(shù)低,計(jì)算快,符合人眼對(duì)顏色細(xì)節(jié)不敏感的特點(diǎn),對(duì)細(xì)微的顏色變化有較好的魯棒性,其特征提取結(jié)果如圖1(e)所示。
圖1 視覺(jué)目標(biāo)跟蹤中常用的4類特征提取結(jié)果
上述特征分別從不同角度提取圖像信息、產(chǎn)生特征描述子,因此在復(fù)雜場(chǎng)景下的適用性也有所差異。例如:光照變化時(shí),灰度特征和顏色特征所受到影響較大;目標(biāo)邊緣模糊時(shí),形狀特征的描述能力下降;非自然圖像中,紋理信息不足,不宜使用紋理特征。為彌補(bǔ)單一特征描述能力的不足,文獻(xiàn)[4,7]相關(guān)濾波算法中采用了融合特征,并取得較好的跟蹤表現(xiàn)。綜上,本文充分發(fā)揮各個(gè)特征的優(yōu)勢(shì),對(duì)跟蹤性能進(jìn)行研究,但如何合理地選擇特征,仍然缺少理論和實(shí)驗(yàn)依據(jù)。
本文通過(guò)實(shí)驗(yàn),根據(jù)線性核作用下各類特征的跟蹤表現(xiàn),詳細(xì)分析各類特征在不同場(chǎng)景下的目標(biāo)描述能力及影響目標(biāo)描述能力的原因,并進(jìn)一步探討灰度特征、形狀特征、紋理特征、顏色特征間的互補(bǔ)性。
為準(zhǔn)確而全面地評(píng)價(jià)跟蹤表現(xiàn),本文分別使用OTB(Object Tracking Benchmark)[16]和VOT(Visual Object Tracking)[17]2種評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行量化評(píng)價(jià),并在2種評(píng)價(jià)結(jié)果沖突時(shí)使用主觀跟蹤表現(xiàn)加以補(bǔ)充。
OTB標(biāo)準(zhǔn)使用位置精度(Distance Precision,DP)曲線和重疊精度(Overlap Precision,OP)曲線評(píng)價(jià)跟蹤表現(xiàn),兩者分別刻畫了DP、OP小于不同閾值時(shí)的跟蹤成功率。此外,OTB標(biāo)準(zhǔn)將跟蹤序列細(xì)致地劃分為11種具有挑戰(zhàn)性的場(chǎng)景,能充分反映不同場(chǎng)景中的跟蹤表現(xiàn)。本文使用了OTB100[18]和TempleColor128[19]2個(gè)標(biāo)準(zhǔn)跟蹤數(shù)據(jù)集中共計(jì)160個(gè)不同的彩色序列進(jìn)行實(shí)驗(yàn)。OTB標(biāo)準(zhǔn)的場(chǎng)景劃分及其在數(shù)據(jù)集中對(duì)應(yīng)的序列數(shù)如表1所示。
表1 OTB標(biāo)準(zhǔn)的場(chǎng)景分類
VOT標(biāo)準(zhǔn)為減少評(píng)價(jià)過(guò)程中的偏差,在算法跟蹤失敗后,重置跟蹤框,以避免當(dāng)前失敗對(duì)后續(xù)測(cè)試的影響。根據(jù)算法的平均OP與失敗次數(shù),VOT標(biāo)準(zhǔn)使用精度和魯棒性分級(jí)(Accuracy-robustness rank,AR-rank)對(duì)所有參評(píng)算法給出相對(duì)性比較,并用平均期望重疊度(Expected Average Overlap,EAO)評(píng)價(jià)算法實(shí)際跟蹤表現(xiàn)。但VOT標(biāo)準(zhǔn)的場(chǎng)景僅劃分為遮擋、光照變化、運(yùn)動(dòng)變化、尺度變化和相機(jī)運(yùn)動(dòng)5類場(chǎng)景,無(wú)法多方面地對(duì)比各類特征的適用場(chǎng)景。
通過(guò)2種評(píng)價(jià)標(biāo)準(zhǔn)對(duì)灰度特征Gray、形狀特征FHOG、紋理特征LBP以及顏色特征CN在不同場(chǎng)景中跟蹤表現(xiàn)的評(píng)價(jià),可以對(duì)這幾類特征的描述能力做詳細(xì)的分析。
表2給出了各類特征在OTB標(biāo)準(zhǔn)中不同類別場(chǎng)景下的跟蹤表現(xiàn),其中,DP值采用20像素誤差下的成功率,OP值采用50%重疊度時(shí)的成功率。表2中加粗與下劃線標(biāo)注表現(xiàn)最優(yōu)特征,單一下劃線表示次優(yōu)特征。
表2 4類特征在彩色序列集下的跟蹤結(jié)果 %
由表2可知,灰度特征均表現(xiàn)較差,FHOG特征除運(yùn)動(dòng)模糊場(chǎng)景外,均有較好表現(xiàn),LBP特征在復(fù)雜背景和運(yùn)動(dòng)模糊中表現(xiàn)較優(yōu),但平均表現(xiàn)略差于FHOG與CN特征,CN特征僅在光照變化時(shí)表現(xiàn)較差。
在VOT標(biāo)準(zhǔn)中,4類特征在不同類別場(chǎng)景下的跟蹤表現(xiàn)如圖2所示。
圖2 4類特征在不同場(chǎng)景中的平均AR-rank及EAO
從圖2(a)中可以看出,VOT標(biāo)準(zhǔn)中灰度特征的精度和魯棒性較差,FHOG特征具有最佳的跟蹤精度,CN特征則有最優(yōu)的魯棒性,LBP特征的魯棒性與FHOG相近,但精度略差。而在圖2(b)中,VOT標(biāo)準(zhǔn)在光照變化與遮擋場(chǎng)景中的評(píng)價(jià)與OTB標(biāo)準(zhǔn)互相矛盾,因此圖3采用主觀跟蹤結(jié)果。
如圖3(a)所示,CN特征與灰度特征對(duì)光照變化較為敏感,跟蹤表現(xiàn)較差,而在圖3(b)中,FHOG與CN特征在完全遮擋的場(chǎng)景中的跟蹤表現(xiàn)優(yōu)于LBP與灰度特征。
圖3 4類特征在光照變化與遮擋場(chǎng)景中的跟蹤表現(xiàn)
上述結(jié)果表明:
1)在具有挑戰(zhàn)性的復(fù)雜序列中,灰度特征均表現(xiàn)不佳,描述能力較弱,不宜單獨(dú)使用。
2)FHOG特征在大多數(shù)場(chǎng)景中均有較好的目標(biāo)描述能力,并在外觀形變、遮擋場(chǎng)景中表現(xiàn)突出,此時(shí)目標(biāo)的輪廓特征變化較為平緩,且存在只有部分輪廓發(fā)生變化的情況,這使得FHOG特征能夠很好地描述目標(biāo)。但在運(yùn)動(dòng)模糊時(shí),目標(biāo)輪廓特征和內(nèi)部邊緣細(xì)節(jié)都被弱化,導(dǎo)致FHOG特征的目標(biāo)描述能力不佳。
3)LBP特征平均表現(xiàn)略差于FHOG與CN特征,但在復(fù)雜背景和運(yùn)動(dòng)模糊場(chǎng)景中表現(xiàn)更具優(yōu)勢(shì),雖然此時(shí)目標(biāo)的紋理細(xì)節(jié)被破壞,但其整體的紋理結(jié)構(gòu)變化不大,使得LBP在此類場(chǎng)景下具有更強(qiáng)的魯棒性。但在平面外旋轉(zhuǎn)和遮擋場(chǎng)景中,因其包含了目標(biāo)內(nèi)部所有的紋理變化,相比于形狀和顏色特征,所受到的影響更大,所以表現(xiàn)略差于FHOG與CN特征。
4)CN特征在彩色序列的大多數(shù)場(chǎng)景中表現(xiàn)優(yōu)秀,尤其在低分辨率時(shí),基于直方圖統(tǒng)計(jì)的FHOG和LBP特征不能很好地描述目標(biāo),但CN特征仍表現(xiàn)較好。此外由于目標(biāo)遮擋前后顏色變化一般較小,因此CN特征在遮擋時(shí)仍有良好地描述目標(biāo)能力。但CN特征對(duì)光照變化較為敏感,且在灰度序列中無(wú)法使用,一定程度上限制了其跟蹤表現(xiàn)。
5)在超出視野場(chǎng)景中,由于KCF算法缺乏相應(yīng)的模型更新及重檢測(cè)機(jī)制,使得這4類特征都無(wú)法取得較好的跟蹤表現(xiàn)。
通過(guò)上述實(shí)驗(yàn)得出,形狀特征FHOG、紋理特征LBP以及顏色特征CN分別從不同角度構(gòu)建目標(biāo)的特征描述子,在復(fù)雜的復(fù)合場(chǎng)景中能夠互相補(bǔ)充,從而提升對(duì)目標(biāo)的描述能力。為對(duì)各類特征在不同場(chǎng)景中的互補(bǔ)性進(jìn)行分析,本文采用特征向量串聯(lián)的方式進(jìn)行特征融合,融合所得的復(fù)合特征在各類場(chǎng)景下的平均OP如圖4所示。其中,OP值采用50%重疊度時(shí)的成功率。
圖4 復(fù)合特征在不同場(chǎng)景中的平均OP分布
各復(fù)合特征在不同場(chǎng)景中的平均OP分布結(jié)果表明:
1)FHOG特征在外觀形變和遮擋場(chǎng)景中表現(xiàn)突出,而LBP特征則在復(fù)雜背景、運(yùn)動(dòng)模糊場(chǎng)景中具有優(yōu)勢(shì),兩者在這4類場(chǎng)景中能夠很好的互相補(bǔ)充。
2)LBP特征擁有較強(qiáng)的光照不變性,可以彌補(bǔ)CN特征對(duì)光照敏感的不足,兩者融合亦可提高外觀形變與遮擋場(chǎng)景中的魯棒性,此外由于在運(yùn)動(dòng)模糊及相機(jī)運(yùn)動(dòng)場(chǎng)景中的出色表現(xiàn),兩者構(gòu)成的融合特征在劇烈運(yùn)動(dòng)類場(chǎng)景中有很好適應(yīng)性。
3)FHOG特征同樣能夠彌補(bǔ)顏色特征CN特征對(duì)光照敏感的不足,而CN特征的加入能夠改善FHOG特征在運(yùn)動(dòng)模糊場(chǎng)景中的表現(xiàn),兩者融合能夠在精度與魯棒性上優(yōu)勢(shì)互補(bǔ),且在遮擋和快速運(yùn)動(dòng)場(chǎng)景中具有很好的魯棒性。
4)3類特征的組合從不同角度完善了對(duì)目標(biāo)外觀的描述,從而在目標(biāo)旋轉(zhuǎn)及目標(biāo)超出視野的場(chǎng)景中均取得良好的表現(xiàn)。
雖然各類特征能夠互相補(bǔ)充,但在不同場(chǎng)景中各類特征的互補(bǔ)性仍有所差異,因此融合特征的特征選擇不能盲目選取不同種類的特征,亦要結(jié)合實(shí)際場(chǎng)景,選擇互補(bǔ)性更佳的特征,如:文獻(xiàn)[20-21]采用了各場(chǎng)景中互補(bǔ)性最佳的形狀和顏色特征;文獻(xiàn)[8,22]采用自適應(yīng)融合了形狀特征、紋理特征與顏色特征;文獻(xiàn)[23]將FHOG、CN與灰度特征融合,均取得了良好的跟蹤表現(xiàn)。
此外,由于灰度特征在這些具有挑戰(zhàn)性的序列上均表現(xiàn)不佳,因此需要進(jìn)一步的實(shí)驗(yàn)分析來(lái)對(duì)上述3類特征與灰度特征的互補(bǔ)性做出評(píng)價(jià)。本文實(shí)驗(yàn)使用串行融合方式,分別在FHOG、LBP和CN特征后串聯(lián)一維歸一化灰度特征,構(gòu)成FHOG_Gray、LBP_Gray和CN_Gray 3種復(fù)合特征,以探討各類特征與灰度特征間的互補(bǔ)性。
表3和圖5給出了OTB標(biāo)準(zhǔn)下各特征與對(duì)應(yīng)復(fù)合特征的跟蹤表現(xiàn)對(duì)比。其中,表3加粗表示較優(yōu)的特征,圖5(a)中括號(hào)數(shù)據(jù)表示平均位置精度,圖5(b)中括號(hào)數(shù)據(jù)表示平均重疊精度。實(shí)驗(yàn)結(jié)果表明:串聯(lián)了灰度特征的FHOG_Gray特征在快速運(yùn)動(dòng)、運(yùn)動(dòng)模糊、光照變化與低分辨率場(chǎng)景中優(yōu)于FHOG特征,而在復(fù)雜背景、外觀形變及旋轉(zhuǎn)場(chǎng)景中表現(xiàn)不佳;LBP_Gray特征在所有場(chǎng)景中都優(yōu)于LBP特征,體現(xiàn)出良好的互補(bǔ)性;CN_Gray特征則只在快速運(yùn)動(dòng)、運(yùn)動(dòng)模糊與光照變化場(chǎng)景中優(yōu)于CN特征,其余場(chǎng)景未能取得良好的表現(xiàn)。
表3 OTB標(biāo)準(zhǔn)中各特征與其對(duì)應(yīng)復(fù)合特征的20像素誤差成功率 %
圖5 OTB標(biāo)準(zhǔn)中各特征及其復(fù)合特征的平均位置精度與平均重疊精度曲線
OTB標(biāo)準(zhǔn)下各特征與對(duì)應(yīng)復(fù)合特征的跟蹤表現(xiàn)對(duì)比表明,灰度變化趨勢(shì)構(gòu)成描述子的形狀特征FHOG,灰度間關(guān)系構(gòu)建描述子的紋理特征LBP與灰度特征具有較好的互補(bǔ)性,而通過(guò)圖像RGB 3個(gè)子層的分量構(gòu)建描述子的顏色特征CN則與灰度特征間互補(bǔ)性不佳。
本文描述相關(guān)濾波跟蹤算法中的特征提取研究成果,并通過(guò)實(shí)驗(yàn)對(duì)灰度特征、形狀特征、紋理特征和顏色特征的適用性和互補(bǔ)性進(jìn)行評(píng)價(jià)。實(shí)驗(yàn)結(jié)果表明,形狀特征在目標(biāo)形變和遮擋場(chǎng)景中對(duì)目標(biāo)描述能力較強(qiáng),紋理特征更適用于運(yùn)動(dòng)模糊和復(fù)雜背景場(chǎng)景,顏色特征具有良好的魯棒性,且在旋轉(zhuǎn)、遮擋和低分辨率時(shí)表現(xiàn)優(yōu)秀,在復(fù)合場(chǎng)景中,三者有較好的互補(bǔ)性。此外,灰度特征雖不適用于復(fù)雜場(chǎng)景,但與形狀特征有很好的互補(bǔ)性。下一步將研究在復(fù)雜的復(fù)合場(chǎng)景中,綜合考慮各類特征的適用性及互補(bǔ)性,選擇互補(bǔ)性較優(yōu)的特征組合進(jìn)行特征融合,從而改善相關(guān)濾波跟蹤算法的跟蹤性能。