夏 翔,張曉林,李嘉茂
(1.中科院上海微系統(tǒng)與信息技術(shù)研究所 上海200050;2.上??萍即髮W(xué) 信息科學(xué)與技術(shù)學(xué)院,上海201210)
結(jié)合尺度預(yù)測(cè)的核相關(guān)濾波器目標(biāo)跟蹤方法
夏 翔1,2,張曉林1,2,李嘉茂1
(1.中科院上海微系統(tǒng)與信息技術(shù)研究所 上海200050;2.上??萍即髮W(xué) 信息科學(xué)與技術(shù)學(xué)院,上海201210)
視覺(jué)目標(biāo)跟蹤問(wèn)題中,被跟蹤目標(biāo)的尺度變化普遍存在。為解決這一難題,本文在核相關(guān)濾波器目標(biāo)跟蹤方法的基礎(chǔ)上提出了一種能結(jié)合尺度預(yù)測(cè)的目標(biāo)跟蹤方法,簡(jiǎn)稱(chēng)為KCFSE。該方法使用兩種更新策略不同的嶺回歸模型。在實(shí)際跟蹤過(guò)程中,先采用可塑性強(qiáng)的模型跟蹤目標(biāo)的位置偏移。然后,以此位置為中心,構(gòu)建圖像金字塔,利用穩(wěn)定相強(qiáng)的模型預(yù)測(cè)目標(biāo)的尺度變化。對(duì)10組視頻序列進(jìn)行的實(shí)驗(yàn)測(cè)試表明,該方法在處理尺度變化的被跟蹤目標(biāo)時(shí)性能明顯優(yōu)于其他目標(biāo)跟蹤算法。
:視覺(jué)目標(biāo)跟蹤;核相關(guān)濾波器;尺度預(yù)測(cè);多尺度目標(biāo)跟蹤
目標(biāo)跟蹤是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)基本問(wèn)題,其主要應(yīng)用于視頻監(jiān)控,人機(jī)交互與機(jī)器人視覺(jué)感知等場(chǎng)景[1]。目標(biāo)跟蹤可分為短時(shí)間目標(biāo)跟蹤與長(zhǎng)時(shí)間目標(biāo)跟蹤,單目標(biāo)跟蹤與多目標(biāo)跟蹤。文中主要研究最普遍的短時(shí)間單目標(biāo)跟蹤:給定視頻序列,以及序列第一幀的目標(biāo)位置與尺寸等初始狀態(tài),通過(guò)計(jì)算確定后續(xù)幀中目標(biāo)的狀態(tài)[2]。時(shí)至今日,目標(biāo)跟蹤問(wèn)題依然面臨許多挑戰(zhàn),包括背景干擾,光照變化,目標(biāo)尺度變化,目標(biāo)形變,目標(biāo)遮擋,目標(biāo)快速運(yùn)動(dòng)等[2]。
按照Wang等[10]的框架,目標(biāo)跟蹤方法可以分為運(yùn)動(dòng)模型,目標(biāo)的特征表示,觀測(cè)模型,模型更新,多方法聚合5個(gè)環(huán)節(jié)。早年的目標(biāo)跟蹤方法聚焦于運(yùn)動(dòng)模型,如卡爾曼濾波和粒子濾波。近年來(lái),在目標(biāo)表示與觀測(cè)模型等環(huán)節(jié)涌現(xiàn)了許多優(yōu)秀的算法,其中的研究熱點(diǎn)是判別式目標(biāo)跟蹤方法[3]。這一類(lèi)方法力圖將目標(biāo)跟蹤問(wèn)題構(gòu)建為背景與目標(biāo)間的分類(lèi)問(wèn)題,使用二元分類(lèi)器來(lái)進(jìn)行目標(biāo)跟蹤,也被稱(chēng)為基于檢測(cè)的跟蹤。Kalal等[5]在提出跟蹤-學(xué)習(xí)-檢測(cè)(TLD)目標(biāo)跟蹤算法時(shí),最早將學(xué)習(xí)與檢測(cè)的概念引入到目標(biāo)跟蹤問(wèn)題中。Hare等[6]提出了基于結(jié)構(gòu)化輸出的支持向量機(jī)(Struck)目標(biāo)跟蹤算法。Zhang[7]等將壓縮感知方法(CT)應(yīng)用于目標(biāo)跟蹤問(wèn)題。Bolme等提出了一種在灰度圖像上學(xué)習(xí)最小輸出平方誤差和(MOSSE)的相關(guān)濾波器方法,最早將相關(guān)濾波器引入目標(biāo)跟蹤問(wèn)題。在此基礎(chǔ)上,Henriques等[1]在核空間使用相關(guān)濾波器進(jìn)行目標(biāo)跟蹤,并利用核矩陣的循環(huán)特性簡(jiǎn)化計(jì)算步驟,設(shè)計(jì)了基于核函數(shù)的循環(huán)結(jié)構(gòu)跟蹤器(CSK)。該方法擁有出色的計(jì)算效率,平均跟蹤速度可達(dá)數(shù)百幀每秒(FPS)。在后續(xù)工作中,Henriques等[4]進(jìn)一步采用梯度方向直方圖(HOG)替代灰度圖像作為目標(biāo)的特征表示,提出了核相關(guān)濾波器(KCF)目標(biāo)跟蹤方法。KCF算法使用了大量的正負(fù)目標(biāo)樣本進(jìn)行訓(xùn)練,從而在面對(duì)背景干擾,目標(biāo)形變與光照變化等挑戰(zhàn)時(shí)既有較高的計(jì)算效率,又有優(yōu)秀的跟蹤結(jié)果。然而,KCF算法在跟蹤時(shí)局限于預(yù)測(cè)目標(biāo)的位置,并沒(méi)有對(duì)目標(biāo)的尺度變化進(jìn)行預(yù)測(cè),這在一定程度上限制了算法的跟蹤性能。
文中在KCF算法的基礎(chǔ)上,提出一種尺度預(yù)測(cè)的方法,并使用兩種回歸模型分別計(jì)算目標(biāo)的位置和尺度信息,從而實(shí)現(xiàn)能夠進(jìn)行多尺度檢測(cè)的相關(guān)濾波器目標(biāo)跟蹤方法(KCFSE)。
1.1 問(wèn)題建模
判別式目標(biāo)跟蹤方法可以分為訓(xùn)練和檢測(cè)兩個(gè)步驟。訓(xùn)練是指根據(jù)初始狀態(tài)或上一幀跟蹤結(jié)果得到樣本集,對(duì)檢測(cè)器進(jìn)行訓(xùn)練從而確定其參數(shù);檢測(cè)是指利用訓(xùn)練得到的參數(shù)對(duì)當(dāng)前幀圖像進(jìn)行計(jì)算,從而確定目標(biāo)的位置和尺寸,得到跟蹤結(jié)果。
經(jīng)典的判別式目標(biāo)跟蹤方法通常使用二元分類(lèi)器來(lái)對(duì)目標(biāo)和背景進(jìn)行分類(lèi)。然而,二元分類(lèi)器雖然有效,但對(duì)于樣本的處理卻失于簡(jiǎn)單。事實(shí)上,當(dāng)訓(xùn)練集的樣本容量擴(kuò)大,有大量樣本既含有目標(biāo)信息也含有背景信息。如果采用簡(jiǎn)單的二元分類(lèi)器,無(wú)法準(zhǔn)確地表現(xiàn)出這些樣本的價(jià)值。在此,使用嶺回歸方法(正則化的最小二乘回歸,RLS)為問(wèn)題建模。給定訓(xùn)練樣本集{(xi,yi)|i=1,…,m},樣本中xi為圖像塊的特征表示,yi為對(duì)應(yīng)的標(biāo)簽。記正則化系數(shù)為λ,嶺回歸模型的參數(shù)為w,則目標(biāo)訓(xùn)練過(guò)程可表示為求解使得總殘差最小的線性回歸函數(shù)f(x)=<w,x>:
對(duì)于回歸問(wèn)題,標(biāo)簽yi的取值可以是連續(xù)的,這里我們采用連續(xù)高斯函數(shù)來(lái)為樣本標(biāo)簽賦值,取值范圍為(0,1]區(qū)間。當(dāng)樣本位于目標(biāo)中心位置時(shí)標(biāo)簽取值為1,當(dāng)樣本遠(yuǎn)離目標(biāo)時(shí)標(biāo)簽取值接近于0。
在上述嶺回歸問(wèn)題的基礎(chǔ)上,可以使用核函數(shù)κ(x1,x2)將樣本的特征表示從低維空間的x映射到高維空間的φ(x)。核函數(shù)κ(x1,x2)滿足κ(x1,x2)=<φ(x1),φ(x2)>。則帶核函數(shù)的嶺回歸問(wèn)題(KRLS)可表示為:
其中:α為αi所組成的向量,y為yi所組成的向量,I為單位矩陣,K為核矩陣滿足Kij=κ(xi,xj)。由于涉及矩陣求逆操作,直接求解α的計(jì)算復(fù)雜度較高。
若已經(jīng)通過(guò)對(duì)樣本集的訓(xùn)練得到參數(shù)α,則在當(dāng)前幀的檢測(cè)中,對(duì)于新輸入的待檢測(cè)圖像塊z,回歸函數(shù)的響應(yīng)f(z)可表示為
1.2 循環(huán)矩陣
本節(jié)以一維特征為例說(shuō)明循環(huán)矩陣的性質(zhì)。對(duì)于圖像塊等二維特征,這些性質(zhì)同樣滿足[4]。假設(shè)樣本的特征表示x=[x1x2x3… xn]T為n維向量。以xT作為首行行向量,并以xT向右循環(huán)移位后的向量作為后續(xù)其他行的行向量,可以得到如下循環(huán)矩陣:
可以證明,所有的循環(huán)矩陣都可以通過(guò)離散傅里葉變換(DFT)矩陣對(duì)角化[13],即滿足:
其中:F為離散傅里葉變換矩陣,F(xiàn)FH=I,為x的離散傅里葉變換,滿足
在下文中,所有符號(hào)^均用于表示對(duì)應(yīng)向量的離散傅里葉變換。通過(guò)循環(huán)矩陣的這一性質(zhì),我們可以方便地計(jì)算循環(huán)矩陣的逆矩陣:
1.3 訓(xùn)練與檢測(cè)
我們以上一幀的跟蹤結(jié)果作為基礎(chǔ)樣本(x1,y1),通過(guò)對(duì)基礎(chǔ)樣本中目標(biāo)的特征表示x1進(jìn)行循環(huán)移位,以此得到整個(gè)樣本集{(xi,yi)|i=1,…,m;xi=Pi-1xi},其中P為置換矩陣。此時(shí),核矩陣的計(jì)算可以表示為Kij=κ(xi,xj)=κ(Pi-1x1,Pj-1x1)。 可以證明,如果核函數(shù)κ(xi,xj)是酉變換不變的,則核矩陣K是循環(huán)矩陣[1],滿足:
向量kxx的元素滿足。
滿足酉變換不變性質(zhì)的核函數(shù)包括徑向基函數(shù)核,點(diǎn)積核等[4]。在KCF算法的實(shí)現(xiàn)中,使用高斯核函數(shù)進(jìn)行計(jì)算:
在此基礎(chǔ)上,將循環(huán)矩陣的性質(zhì)應(yīng)用于式(3),可以快速計(jì)算訓(xùn)練得到的回歸系數(shù):
將循環(huán)矩陣的性質(zhì)應(yīng)用于式(4),可以快速計(jì)算輸入的待檢測(cè)特征zi=Pi-1z的回歸響應(yīng):
其中:向量 kxz的元素滿足…,m,f(z)的元素 f(zi)為檢測(cè)器在輸入特征表示zi處的響應(yīng)。f(zi)取得最大值時(shí)的zi即代表了被跟蹤目標(biāo)的預(yù)測(cè)位置,此時(shí)以zi的位置為中心重新采樣,即可得到新的基礎(chǔ)樣本模板xnewtpl。
當(dāng)新一幀目標(biāo)跟蹤完成,回歸模型需要根據(jù)跟蹤結(jié)果進(jìn)行更新。KCF算法采用線性插值對(duì)模型進(jìn)行更新。記第t幀跟蹤完成后,樣本的模板和系數(shù)分別為和,則:
然而,在回歸模型更新策略的選擇時(shí),我們必須在模型的穩(wěn)定性和可塑性之間做出權(quán)衡[11]。以式(14)(15)為例,學(xué)習(xí)因子μ的設(shè)定直接影響模型的性能。如果μ取值較大,則模型能及時(shí)適應(yīng)被跟蹤目標(biāo)的形變,但是同時(shí)隨著時(shí)間推移,模型也更容易產(chǎn)生漂移。反之如果μ取值較小,則模型可以有效避免漂移實(shí)現(xiàn)穩(wěn)定跟蹤,但是當(dāng)目標(biāo)發(fā)生形變時(shí),模型難以快速適應(yīng)目標(biāo)的形變。Ma等在處理長(zhǎng)時(shí)間目標(biāo)跟蹤問(wèn)題時(shí),引入兩種回歸模型以便有效判斷是否跟蹤失敗和是否重新檢測(cè)[11]。這一方法為文中處理短時(shí)間目標(biāo)跟蹤問(wèn)題時(shí)平衡目標(biāo)形變和模板漂移兩個(gè)因素帶來(lái)了啟示。
另一方面,KCF算法著重關(guān)注目標(biāo)位置的跟蹤,并未考慮目標(biāo)尺度的變化。但是在目標(biāo)跟蹤的實(shí)際應(yīng)用場(chǎng)景中,被跟蹤對(duì)象的尺度變化是普遍現(xiàn)象。以文獻(xiàn)[2]所提供的數(shù)據(jù)集TB-50為例,49個(gè)視頻序列中有37個(gè)存在不同程度的尺度變化。因此,在核相關(guān)濾波器的基礎(chǔ)上結(jié)合尺度預(yù)測(cè)功能,可以有效提升目標(biāo)跟蹤方法的通用性和靈活性。
基于上述兩點(diǎn)考慮,本文提出一種結(jié)合尺度預(yù)測(cè)的核相關(guān)濾波器目標(biāo)跟蹤方法,采用兩個(gè)KRLS模型,分別注重模型的穩(wěn)定性和可塑性,以可塑性強(qiáng)的模型用于目標(biāo)位置的跟蹤,以穩(wěn)定性強(qiáng)的模型用于目標(biāo)尺度變化的預(yù)測(cè),從而實(shí)現(xiàn)方法整體的均衡性。
2.1 回歸模型的設(shè)計(jì)與更新策略
表1 KCFSE目標(biāo)跟蹤算法流程
2.2 尺度預(yù)測(cè)
為驗(yàn)證文中算法的有效性,從文獻(xiàn)[2]所提供的TB-50數(shù)據(jù)集中選取10組場(chǎng)景復(fù)雜且存在尺度變化的視頻序列作為測(cè)試對(duì)象,利用文獻(xiàn) [2]提供的benchmark,對(duì)文中所實(shí)現(xiàn)的算法的性能進(jìn)行時(shí)間魯棒性評(píng)估(TRE)。
3.1 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)定
KCFSE算法基于 visual studio 2013和 Open CV2.4.9實(shí)現(xiàn),采用HOG作為樣本的特征表示,benchmark的測(cè)試平臺(tái)為matlab2013b,所有實(shí)驗(yàn)均在Intel Core i3-3220 CPU,主頻3.30 GHz,4GB內(nèi)存配置的windows7 64bit PC系統(tǒng)上完成。對(duì)所有測(cè)試的視頻序列,KCFSE算法的參數(shù)保持一致。對(duì)于特征維度為m×n維的樣本,標(biāo)簽yi賦值的高斯函數(shù)標(biāo)準(zhǔn)差。所有的輸入特征在檢測(cè)前都通過(guò)疊加漢寧窗以去除邊緣效應(yīng)。正則化參數(shù)λ取0.000 1,高斯核函數(shù)κ (xi,xj) 的標(biāo)準(zhǔn)差σ取0.6,學(xué)習(xí)因子μ取0.012,尺度因子取1.05,總備選尺度數(shù)N取21,尺度預(yù)測(cè)時(shí)用于濾波的高斯函數(shù)標(biāo)準(zhǔn)差為8.0。Rs模型更新的閾值Ts取0.5。
3.2 性能評(píng)估指標(biāo)
為了評(píng)估目標(biāo)跟蹤方法的性能,本文采用跟蹤成功曲線圖(Success Plot)作為評(píng)估指標(biāo)。跟蹤成功與否的判斷標(biāo)準(zhǔn)在于跟蹤結(jié)果和數(shù)據(jù)集真值之間的重合部分面積(overlap)的比例。記表示跟蹤結(jié)果的矩形框?yàn)閞t,表示數(shù)據(jù)集真值的矩形框?yàn)閞a,則重合面積所占的比例為:
其中:∩和∪分別表示對(duì)區(qū)域的交集運(yùn)算和并集運(yùn)算,area()表示求區(qū)域像素?cái)?shù)運(yùn)算。
當(dāng)重合面積比例Ratio大于給定閾值TR時(shí),我們便可以認(rèn)為對(duì)應(yīng)幀的目標(biāo)跟蹤是成功的[2]。相比于中心位置誤差(Center Location Error,CLE),重合面積比例作為評(píng)估指標(biāo)的優(yōu)勢(shì)在于評(píng)估結(jié)果不會(huì)受到被跟蹤目標(biāo)尺寸大小的影響。通過(guò)比較跟蹤成功幀的數(shù)量和占整個(gè)視頻序列總幀數(shù)的比例,可以衡量不同算法在該視頻序列中的跟蹤性能。為不失公正性,我們可以將閾值TR取值從0到1變化時(shí)所對(duì)應(yīng)的所有跟蹤成功幀的比例記錄下來(lái),從而得到跟蹤成功曲線圖。通過(guò)比較該圖的曲線下面積(Area Under Curve,AUC),我們可以更加客觀地評(píng)價(jià)各個(gè)目標(biāo)跟蹤算法的性能。
3.3 實(shí)驗(yàn)結(jié)果
分別將KCFSE算法和基于相關(guān)濾波器的經(jīng)典KCF算法,CSK算法,以及其他3種經(jīng)典目標(biāo)跟蹤算法CT,TLD,Struck放在10組場(chǎng)景復(fù)雜且存在尺度變化的視頻序列下進(jìn)行測(cè)試。這10組視頻序列的基本情況如表2所示。各種算法在測(cè)試集下對(duì)應(yīng)實(shí)驗(yàn)結(jié)果的跟蹤成功曲線圖和AUC如圖1所示。
表2 實(shí)驗(yàn)測(cè)試使用的視頻序列
圖1 本文算法(KCFSE)與其他算法在不同屬性數(shù)據(jù)集下的測(cè)試結(jié)果
根據(jù)圖1可以看到,相比于未考慮尺度的經(jīng)典KCF算法,本文提出的KCFSE算法在處理存在尺度變化的跟蹤目標(biāo)時(shí)可以在跟蹤性能上獲得明顯的提升。相比于其他代表性的基于檢測(cè)的目標(biāo)跟蹤算法,KCFSE算法基本保持了KCF算法在應(yīng)對(duì)光照變化,目標(biāo)遮擋等條件時(shí)的優(yōu)勢(shì)。典型的跟蹤過(guò)程如圖2所示。
圖2 部分算法在測(cè)試視頻序列上的跟蹤過(guò)程示例
在經(jīng)典的核相關(guān)濾波器目標(biāo)跟蹤方法的基礎(chǔ)上,文中提出了一種結(jié)合尺度預(yù)測(cè)的目標(biāo)跟蹤方法KCFSE。通過(guò)采用兩種更新策略不同的回歸模型,實(shí)現(xiàn)了方法在模型的可塑性和穩(wěn)定性這兩方面的平衡。可塑性強(qiáng)的模型被用于跟蹤目標(biāo)位置的偏移,穩(wěn)定性強(qiáng)的模型被用于預(yù)測(cè)目標(biāo)尺度的變化。對(duì)10組視頻序列進(jìn)行的實(shí)驗(yàn)測(cè)試表明,文中提出的KCFSE方法在處理被跟蹤目標(biāo)的尺度變化時(shí)性能明顯優(yōu)于經(jīng)典KCF算法和其他目標(biāo)跟蹤算法。后續(xù)工作將著手于將文中提出的方法應(yīng)用于長(zhǎng)時(shí)間多目標(biāo)跟蹤等領(lǐng)域。
[1]Henriques J F,Caseiro R,Martins P,et al. Exploiting the circulant structure of tracking-bydetection with kernels[C].Computer Vision-ECCV 2012.Springer Berlin Heidelberg,2012:702-715.
[2]Wu Y,Lim J,Yang M H.Online object tracking: A benchmark[C].Proceedings of the IEEE conference on computer vision and pattern recognition. 2013:2411-2418.
[3]Smeulders A W M,Chu D M,Cucchiara R,et al. Visual tracking:An experimental survey[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2014,36(7):1442-1468.
[4]Henriques J F,Caseiro R,Martins P,et al.Highspeed tracking with kernelized correlation filters[J]. Pattern Analysis and Machine Intelligence,IEEE Transactions on,2015,37(3):583-596.
[5]Kalal Z,Mikolajczyk K,Matas J.Tracking-learning-detection[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2012,34(7): 1409-1422.
[6]Hare S,Saffari A,Torr P H S.Struck:Structured output tracking with kernels[C].Computer Vision (ICCV),2011 IEEE International Conference on. IEEE,2011:263-270.
[7]Zhang K,Zhang L,Yang M H.Real-time compressive tracking [C].Computer Vision-ECCV 2012. Springer Berlin Heidelberg,2012:864-877.
[8]Bibi A,Ghanem B.Multi-Template Scale-Adaptive Kernelized Correlation Filters[C].Proceedings of the IEEE International Conference on Computer Vision Workshops.2015:50-57.
[9]張雷,王延杰,劉艷瀅,等.基于相關(guān)濾波器的視覺(jué)目標(biāo)跟蹤方法[J].光電子·激光,2015(7):1349-1357.
[10]Wang N,Shi J,Yeung D Y,et al.Understanding and diagnosing visual tracking systems[C].Proceedings of the IEEE International Conference on Computer Vision.2015:3101-3109.
[11]Ma C,Yang X,Zhang C,et al.Long-term correlation tracking[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015:5388-5396.
[12]Sch lkopf B,Smola A J.Learning with kernels: support vector machines,regularization,optimization,and beyond[M].MIT press,2002.
[13]Gray R M.Toeplitz and circulant matrices:A review [M].Now Publishers Inc,2006.
Kernelized correlation filter based visual tracking with scale estimation
XIA Xiang1,2,ZHANG Xiao-lin1,2,LI Jia-mao1
(1.Shanghai Institute of Microsystem and Information Technology,Chinese Academy of Science,Shanghai 200050,China;2.School of Information Science and Technology,Shanghaitech University,Shanghai 201210,China)
Scale variance of the object is universal in visual tracking applications.To solve this problem,we propose a novel KCF based tracking algorithm with scale estimation called KCFSE.In this algorithm,two regression model with different updating strategies are used.During the tracking procedure,the regression model with more plasticity is adopted at first to detect the spatially shift of the object. Afterwards,an image pyramid is built around the position detected and the regression model with more stability is adopted to estimate the the scale variance of the object.Experiments on 10 video sequence show that KCFSE outperforms other classic tracking algorithms as well as KCF when the scale of the tracked object is variant.
visual tracking;kernelized correlation filter;scale estimation;multi-scale object tracking
TN911.73
:A
:1674-6236(2017)02-0130-06
2016-04-11稿件編號(hào):201604101
中國(guó)科學(xué)院戰(zhàn)略性先導(dǎo)科技專(zhuān)項(xiàng)(XDB02080005);上海市科技人才計(jì)劃項(xiàng)目(14YF1407300)
夏 翔(1990—),男,浙江寧波人,碩士研究生。研究方向:計(jì)算機(jī)視覺(jué),圖像處理。