侯建華,鄧 雨,陳思萌,項(xiàng) 俊
(中南民族大學(xué) 電子信息工程學(xué)院,武漢 30074)
視覺目標(biāo)跟蹤是在給定視頻序列某一幀中目標(biāo)的初始狀態(tài)(例如目標(biāo)的位置及尺寸)條件下,在后續(xù)幀中對(duì)該目標(biāo)狀態(tài)做出估計(jì)或預(yù)測(cè)[1].現(xiàn)有方法大多通過提取目標(biāo)特征以構(gòu)建判別性外觀模型來實(shí)現(xiàn)跟蹤[2];然而,受目標(biāo)形變、遮擋、背景干擾、光照變化等影響,視覺目標(biāo)跟蹤研究仍有許多亟待解決的難題.
近年來,基于相關(guān)濾波器的跟蹤 (CFT) 因其突出的實(shí)時(shí)性受到了廣泛關(guān)注[2-4〗.CFT的基本思想是由目標(biāo)外觀學(xué)習(xí)一個(gè)判別性相關(guān)濾波器(DCF),在檢測(cè)過程中,相關(guān)濾波器對(duì)真實(shí)目標(biāo)輸出相關(guān)響應(yīng)峰值,從而實(shí)現(xiàn)目標(biāo)定位;此外,Bolme等人[2]提出了相關(guān)濾波器更新策略,能夠自適應(yīng)的在線訓(xùn)練相關(guān)濾波器,提高了算法的魯棒性.由于相關(guān)濾波運(yùn)算可以在頻域通過快速傅里葉算法實(shí)現(xiàn),CFT具有非常顯著的實(shí)時(shí)性優(yōu)勢(shì).如前所述,在CFT跟蹤框架下,關(guān)鍵之一仍然是目標(biāo)特征及外觀模型的設(shè)計(jì):最初是采用單通道灰度特征來訓(xùn)練相關(guān)濾波器[2],但灰度特征的表達(dá)能力有限;后來Danelljan等人[3]提出了多通道顏色特征(CN)、Henriques等人[7]則采用HOG[8]特征將相關(guān)濾波器擴(kuò)展多通道.上述手工特征顯著改善了CFT算法性能,但欲進(jìn)一步提高跟蹤算法的精確性和魯棒性,一個(gè)自然的思路是借助深度神經(jīng)網(wǎng)絡(luò).
深度神經(jīng)網(wǎng)絡(luò)因其強(qiáng)大的特征學(xué)習(xí)與表達(dá)能力,近年來在圖像分類、目標(biāo)檢測(cè)與目標(biāo)識(shí)別等應(yīng)用中取得了極大進(jìn)展[9-12].在圖像分類任務(wù)中通常的做法是將固定尺寸的圖像輸入到一個(gè)卷積神經(jīng)網(wǎng)絡(luò)(CNNs),經(jīng)過一系列的卷積、池化操作后,通過一個(gè)全連接層提取所需的深度特征.在視頻目標(biāo)跟蹤中廣泛采用16 或 19 層的VGG[13]網(wǎng)絡(luò),VGG網(wǎng)絡(luò)主要由小型的3×3 卷積操作和 2×2 池化操作組成,使用多個(gè)堆疊的小卷積核能夠有效減少參數(shù)數(shù)量、加快網(wǎng)絡(luò)收斂速度;此外,利用遷移學(xué)習(xí)特性,可以將在圖像分類數(shù)據(jù)庫(kù)上訓(xùn)練好的VGG網(wǎng)絡(luò)用于目標(biāo)跟蹤的特征提取,而無需專門對(duì)視頻序列重新訓(xùn)練.近期研究發(fā)現(xiàn),單獨(dú)將每一個(gè)卷積層的輸出(即卷積層特征)用于圖像分類也能取得優(yōu)越的性能[14],其原因在于這些卷積層特征具有判別性和語義特性、蘊(yùn)含目標(biāo)定位所需的結(jié)構(gòu)化信息.
本文在基于相關(guān)濾波器的跟蹤框架下,研究不同特征對(duì)于跟蹤算法性能的影響,包括傳統(tǒng)的灰度特征、RGB顏色特征、HOG特征、以及幾種不同形式的深度特征.由于VGG網(wǎng)絡(luò)遷移能力較強(qiáng),本文采用在ImageNet[15]庫(kù)上針對(duì)圖像分類任務(wù)訓(xùn)練得到的網(wǎng)絡(luò)模型imagenet-vgg-2048-network[16],分別提取該網(wǎng)絡(luò)的有關(guān)層特征用于目標(biāo)跟蹤.本文首先簡(jiǎn)要介紹相關(guān)濾波跟蹤基本原理,包括單通道和多通道兩種情況;在實(shí)驗(yàn)部分,詳細(xì)分析討論傳統(tǒng)手工特征與深度特征在CFT算法中的表現(xiàn),并提出一種將不同深度特征層的相關(guān)響應(yīng)圖加以融合后提高目標(biāo)定位精度的方法.本文工作對(duì)設(shè)計(jì)實(shí)際的視覺目標(biāo)跟蹤算法具有較好的參考價(jià)值.
相關(guān)濾波跟蹤框架示意圖如圖1所示.
圖1 相關(guān)濾波跟蹤框架Fig.1 Tracking framework based on correlation filter
首先是初始化,在初始幀指定的目標(biāo)位置處提取圖像塊,訓(xùn)練相關(guān)濾波器;在后續(xù)的每一幀中,在前一幀預(yù)測(cè)的目標(biāo)位置處提取圖像塊用于目標(biāo)檢測(cè)(即定位),得到新的目標(biāo)位置作為輸出,同時(shí)從該位置處提取圖像塊實(shí)現(xiàn)相關(guān)濾波器的更新.
以第t幀為例:
1)依據(jù)第t-1幀的目標(biāo)位置在第t幀提取圖像塊(patch);
2)對(duì)圖像塊做特征提取、并用余弦窗口平滑邊界效應(yīng);
3)相關(guān)濾波運(yùn)算,得到空域置信圖(即響應(yīng)圖);
4)置信圖峰值對(duì)應(yīng)的位置即為第t幀的目標(biāo)位置,即第t幀輸出;
5)依據(jù)第t幀估計(jì)的目標(biāo)位置,從第t幀提取圖像塊,用于相關(guān)濾波器的更新.
以下分單通道、多通道兩種情況,簡(jiǎn)要介紹相關(guān)濾波跟蹤基本理論.
設(shè)xk和yk分別代表輸入圖像塊、期望的濾波輸出,hk表示待求的相關(guān)濾波器.根據(jù)信號(hào)與系統(tǒng)理論[17],兩個(gè)信號(hào)的互相關(guān)運(yùn)算與卷積運(yùn)算在頻域只相差一個(gè)復(fù)共軛,因此所求濾波器可表示為:
(1)
(1)初始化.使用目標(biāo)外觀灰度圖像塊集合{xk}作為訓(xùn)練樣本集,對(duì)應(yīng)的相關(guān)濾波輸出為{yk},最優(yōu)濾波器則可以通過最小化以下問題得到:
(2)
(3)
(2)更新.為了保證濾波器能夠根據(jù)目標(biāo)外觀的變化做自適應(yīng)調(diào)整,需對(duì)濾波器H進(jìn)行在線更新.在第t幀提取新的樣本xt分別對(duì)分子At和分母Bt更新如下:
(4a)
(4b)
其中η為學(xué)習(xí)率.(4)式是一個(gè)迭代過程,在濾波器更新時(shí),最近幾幀序列賦予了更多的權(quán)重,而先前幀權(quán)重則隨時(shí)間按指數(shù)衰減.
為了將HOG、深度特征等應(yīng)用到相關(guān)濾波器,需要將上述單通道相關(guān)濾波跟蹤算法擴(kuò)展到多通道.
(5)
可以得到h={h1,…,hD},★表示循環(huán)相關(guān),λ為正則化參數(shù).
上述(5)式為一個(gè)最小二乘問題,可通過Parseval公式[17]將其轉(zhuǎn)換到頻域求出其閉式解,但需計(jì)算MN個(gè)D×D的線性系統(tǒng)方程[18],計(jì)算開銷很大.為求式(5)的近似解,本文采用與(4)式相似的在線更新策略.在第t幀,濾波器Ht的分子At和分母Bt分別用下式更新:
(6a)
(6b)
則每個(gè)通道所對(duì)應(yīng)的的濾波器可以用一個(gè)逐元素相除求得:
(7)
第一幀的初始化濾波器則為上述t=1的情形:
(8)
(9)
從(9)式可以看到,測(cè)試時(shí),將樣本每個(gè)通道所對(duì)應(yīng)的濾波器與樣本的相應(yīng)通道逐元素相乘后求和得到響應(yīng)圖,再根據(jù)圖中得分最大值確定目標(biāo)位置.
測(cè)試時(shí),以上一幀目標(biāo)位置pt-1為中心、以固定的目標(biāo)尺寸P×Q為基準(zhǔn),對(duì)目標(biāo)區(qū)域進(jìn)行填充,補(bǔ)充目標(biāo)背景信息,得到大小為M×N的圖像塊;對(duì)裁剪出的圖像塊提取特征、加hann窗作為測(cè)試樣本zt;測(cè)試樣本zt與前一幀濾波器ht-1求相關(guān)響應(yīng)圖,通過找到最大的相關(guān)得分定位目標(biāo)的位置pt.
更新時(shí),提取訓(xùn)練樣本的方式與測(cè)試時(shí)類似,即在當(dāng)前幀以預(yù)測(cè)的目標(biāo)位置pt為中心、以固定的目標(biāo)尺寸P×Q對(duì)目標(biāo)區(qū)域填充裁剪,對(duì)裁剪的圖像塊提取特征、加hann窗作為訓(xùn)練樣本xk;用訓(xùn)練樣本xk與相應(yīng)的標(biāo)簽函數(shù)yk更新相關(guān)濾波器.在第t幀的迭代過程如下:
算法流程:在第T幀的迭代過程輸入:圖像It,前一幀目標(biāo)位置pt-1,相關(guān)濾波器Ht-1輸出:估計(jì)的目標(biāo)位置pt,更新后的相關(guān)濾波器Ht位置估計(jì)1:從圖像It以位置pt-1和目標(biāo)尺寸為基準(zhǔn)對(duì)目標(biāo)進(jìn)行填充后獲得采樣區(qū)域2:對(duì)采樣區(qū)域提取特征(灰度、HOG或深度特征)作為測(cè)試樣本zt3:對(duì)測(cè)試樣本zt和濾波器Ht-1用公式(9)計(jì)算相關(guān)響應(yīng)gt4:通過找到gt中最大的相關(guān)值確定目標(biāo)位置pt模型更新5:對(duì)圖像It在位置pt處按與測(cè)試樣本相同的方式提取訓(xùn)練樣本xt6:使用訓(xùn)練樣本xt和公式(6)和(7)計(jì)算相關(guān)域?yàn)V波器Ht
本小節(jié)首先介紹實(shí)驗(yàn)平臺(tái)及參數(shù);隨后設(shè)計(jì)了不同特征下相關(guān)濾波器的跟蹤性能測(cè)試,并提出了一種融合不同層深度特征以提高跟蹤精度的方法;最后將所提方法與近年來一些性能優(yōu)異的算法進(jìn)行了綜合對(duì)比實(shí)驗(yàn).測(cè)試序列均來自于OTB-2013[1]數(shù)據(jù)庫(kù),包含51個(gè)視頻序列,評(píng)測(cè)時(shí)使用OPE[1]方法.為簡(jiǎn)化表達(dá),以下將使用灰度特征、HOG特征的方法分別記為CFT_raw、CFT_HOG,對(duì)于使用卷積神經(jīng)網(wǎng)絡(luò)不同層特征的方法,從第零層到第五層分別記為DeepCFT_c0,DeepCFT_c1,DeepCFT_c2,DeepCFT_c3,DeepCFT_c4,DeepCFT_c5.
本文實(shí)驗(yàn)環(huán)境:CPU為Intel(R) Core(TM) i5-4590 @3.30GHz,內(nèi)存為16GB,在Windows10操作系統(tǒng)下,采用MATLAB2016a編程實(shí)現(xiàn)本文算法.具體的參數(shù)設(shè)置如下:使用灰度特征時(shí),padding=2.0,正則化系數(shù)λ=0.01,學(xué)習(xí)率η=0.0025,標(biāo)記函數(shù)方差σ=1/12;使用HOG特征時(shí),cell大小為4×4 Pixel,統(tǒng)計(jì)梯度方向數(shù)為9,學(xué)習(xí)率為0.0025;使用深度特征時(shí),不同層的填充大小和學(xué)習(xí)率不一致,除第1層的填充為3,第0層到第5層的填充均為2,而第0,1,3,4層的學(xué)習(xí)率為0.0025,第2層的學(xué)習(xí)率為0.005,第5層的學(xué)習(xí)率為0.0065.
為比較不同特征在相關(guān)濾波框架下對(duì)跟蹤性能的影響,分別使用灰度特征、HOG特征、深度特征作為樣本訓(xùn)練相關(guān)濾波器.其中深度特征第0層即用視頻序列RGB三個(gè)通道作為特征,若視頻序列為灰度序列,則將灰度值復(fù)制3次分別作為RGB的3個(gè)通道.
為定量評(píng)判算法的跟蹤性能,采用視覺目標(biāo)跟蹤領(lǐng)域通用的評(píng)價(jià)指標(biāo):跟蹤成功率和跟蹤精度[1].圖2中精度圖的排序標(biāo)注值為中心位置誤差為20 pixel時(shí)的跟蹤精度,成功率圖的排序標(biāo)注值是曲線與坐標(biāo)軸所圍面積(AUC[1]).
圖2 51個(gè)測(cè)試序列的精度曲線和成功率曲線Fig.2 The success plots and precision plots of 51 sequences
為更直觀地顯示不同特征之間的精度與成功率的差距,用柱形圖分別畫出中心誤差在20 pixel時(shí)的精度分布和成功率AUC分布,如圖3所示.
分析圖2、圖3,可以得到以下結(jié)論.
(1)所有基于多通道特征的方法均優(yōu)于單通道特征方法CFT_raw;因此,多通道特征能夠更好的表達(dá)目標(biāo)外觀特性.
(2)用深度特征訓(xùn)練的相關(guān)濾波器無論在精度還是在成功率上都比傳統(tǒng)的手工特征具有較大優(yōu)勢(shì).例如在圖2(a)和圖3(a)中,使用第5層深度特征的DeepCFT_c5的跟蹤精度比灰度特征方法CFT_raw高29.9%,比RGB顏色特征方法DeepCFT_c0高23.5%,比HOG特征方法CTF_HOG高19.8%.
下面分析與討論深度特征.
(1)從圖3可知,當(dāng)中心誤差為20 pixel時(shí),第5層卷積特征能夠得到最好的精度與成功率;其次是1層特征,與第5層差距很小.從第1層到第4層,跟蹤性能依次下降,這是因?yàn)殡S著神經(jīng)網(wǎng)絡(luò)層數(shù)加深,卷積特征圖空間分辨率下降、紋理信息減少,不利于目標(biāo)定位;但最后一層(第5層)是個(gè)例外,該卷積層特征是為識(shí)別任務(wù)而專門訓(xùn)練的,包含有完整的語義信息,具有很強(qiáng)的判別性.
(2)另一方面,圖2(a)給出了不同中心誤差(橫坐標(biāo))下的精度曲線,當(dāng)中心誤差小于10 piexl時(shí),用第1層、或者第2層深度特征獲得的精度最高,這是因?yàn)镃NN淺層特征圖包含了更多的紋理信息、具有更高的空間分辨率,因此在更精確的定位場(chǎng)合(即中心誤差更小)能夠發(fā)揮更好的作用.
(3)同理從圖2(b)中的成功率曲線可知,當(dāng)重疊率大于0.7時(shí),用第1層、或者第2層卷積特征得到的成功率高于第5層卷積特征,同樣說明了CNN淺層特征在精確定位上的優(yōu)勢(shì).
基于上述分析,本文提出分別提取第1層、第5層深度特征的相關(guān)響應(yīng)圖并做加權(quán)后作為最終響應(yīng)圖,以進(jìn)一步提高目標(biāo)定位精度,該方法簡(jiǎn)記為DeepCFT_c1+c5.經(jīng)過多次實(shí)驗(yàn),跟蹤時(shí)第一層的學(xué)習(xí)率設(shè)為0.0025,第5層的學(xué)習(xí)率設(shè)為0.0065,填充設(shè)為3,對(duì)第1層、第5層對(duì)于的響應(yīng)圖權(quán)重分別為0.2、0.8.具體實(shí)驗(yàn)結(jié)果見下一小節(jié).
圖3 51個(gè)測(cè)試序列的中心位置誤差為20 pixel的精度柱形圖和成功率的AUC柱形圖Fig.3 The precision column chart with center position error of 20 pixel and the AUC column chart of success on 51 test sequences
將所提方法與上一小節(jié)中的DeepCFT_c1、DeepCFT_c5,以及近年來一些主流算法進(jìn)行了綜合對(duì)比實(shí)驗(yàn),包括:KCF[7],DSST[19],CNT[20],Struck[21],TLD[22],ASLA[23],ACFN-attNet[24].實(shí)驗(yàn)結(jié)果如圖4所示.
圖4 10個(gè)算法在51個(gè)測(cè)試序列的精度曲線和成功率曲線Fig.4 The success plots and precision plots of 51 sequences on 10 algorithms
由圖4可以看出:
(1)融合了第1層、第5層深度特征的相關(guān)響應(yīng)圖后,本文方法得到的跟蹤精度比使用單層深度特征的DeepCFT_c1、DeepCFT_c5方法分別高出4.7%、3.7%.由于該方法在目標(biāo)定位時(shí)有效利用了最后一層特征的語義信息、以及第一層特征較高的空間分辨率和紋理信息,因此獲得了較顯著的性能提升.
(2)與近年來一些主流算法相比,本文方法在精度上排名第一,例如在中心誤差為20 pixel時(shí),精度比深度學(xué)習(xí)方法ACFN-attNet高0.1%,比經(jīng)典核相關(guān)濾波方法KCF高5.5%,比尺度濾波方法DSST高5.5%;在中心誤差大于15pixel時(shí),本文算法精度一直保持最高,相對(duì)與其他算法來說優(yōu)勢(shì)較為明顯.
(3)從圖4(b)成功率曲線可知,本文使用響應(yīng)圖加權(quán)的方法在成功率上排第二,成功率比第一名的ACFN-attNet低2.19%;當(dāng)重疊率低于0.5時(shí),其性能和深度學(xué)習(xí)方法ACFN-attNet相近,且明顯優(yōu)于其他方法.
根據(jù)上述結(jié)果,綜合考慮成功率和精度圖,本文提出的響應(yīng)圖加權(quán)方法對(duì)跟蹤性能的改善具有較顯著的效果.
目標(biāo)外觀模型的設(shè)計(jì)是基于相關(guān)濾波器的跟蹤方法關(guān)鍵,本文簡(jiǎn)要介紹了相關(guān)濾波跟蹤基本原理,包括單通道和多通道兩種情況;研究了深度神經(jīng)網(wǎng)絡(luò)VGG-16不同卷積層特征的目標(biāo)跟蹤效果,并與傳統(tǒng)手工特征進(jìn)行了比較.實(shí)驗(yàn)和分析表明,深度特征相比于傳統(tǒng)手工特征具有顯著優(yōu)勢(shì),而深度特征的第1層和第5層對(duì)跟蹤性能的提升最顯著.以此為依據(jù),提出將不同深度特征層的相關(guān)響應(yīng)圖加權(quán)后再進(jìn)行目標(biāo)定位,實(shí)驗(yàn)結(jié)果表明該方法進(jìn)一步改善了跟蹤的精度和魯棒性.本文工作對(duì)設(shè)計(jì)實(shí)際的視覺目標(biāo)跟蹤算法具有一定的參考價(jià)值.
參 考 文 獻(xiàn)
[1] Wu Y, Lim J, Yang M H. Online ObjectTracking: A Benchmark[C]// IEEE. Conference on Computer Vision and Pattern Recognition. New Jersey: IEEE, 2013:2411-2418.
[2] Bolme D S, Beveridge J R, Draper B A, et al. Visual object tracking using adaptive correlation filters[C]// IEEE. Computer Vision and Pattern Recognition. New Jersey: IEEE, 2010:2544-2550.
[3] Danelljan M, Khan F S, Felsberg M, et al. Adaptive Color Attributes for Real-Time Visual Tracking[C]// IEEE. Conference on Computer Vision and Pattern Recognition. New Jersey: IEEE, 2014:1090-1097.
[4] Henriques J F, Caseiro R, Martins P, et al. Exploiting the circulant structure of tracking-by-detection with kernels[C]//Springer.European conference on computer vision. Berlin:Heidelberg, 2012: 702-715.
[5] 侯建華,邊群星,項(xiàng) 俊.基于在線學(xué)習(xí)判別性外觀模型的多目標(biāo)跟蹤算法[J].中南民族大學(xué)學(xué)報(bào)(自然科學(xué)版).2017,36(01):81-86.
[6] Xiang J, Sang N,Hou J, et al. Multitarget Tracking Using Hough Forest Random Field[J]. IEEE Transactions on Circuits & Systems for Video Technology.2016, 26(11):2028-2042.
[7] Henriques J F, Rui C, Martins P, et al. High-Speed Tracking with Kernelized Correlation Filters[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2015, 37(3):583-596.
[8] Dalal N, Triggs B. Histograms of Oriented Gradients for Human Detection[C]// IEEE. Computer Vision and Pattern Recognition. New Jersey: IEEE, 2005:886-893.
[9] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]// IEEE. Conference on Computer Vision and Pattern Recognition. New Jersey: IEEE,2014: 580-587.
[10] Krizhevsky A,Sutskever I,Hinton G E.ImageNet classi- fication with deep convolutional neural networks[C]// International Conference on Neural Information Processing Systems. Curran Associates Inc. 2012:1097-1105.
[11] Ahmed E,Jones M,Marks T K.An improved deep learning architecture for person re-identification[C]//IEEE. Computer Vision and Pattern Recognition. New Jersey: IEEE, 2015:3908-3916.
[12] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//IEEE. Computer Vision and Pattern Recognition. New Jersey: IEEE, 2016:770-778.
[13] Simonyan K,Zisserman A.Very deep convolutional net- works for large-scale image recognition[J]. CoRR, 2014, abs/1409.1556.
[14] Cimpoi M, Maji S, Vedaldi A. Deep filter banks for texture recognition and segmentation[C]// IEEE. Computer Vision and Pattern Recognition. New Jersey: IEEE, 2015:3828-3836.
[15] Russakovsky O, Deng J, Su H, et al. Imagenet large scale visual recognition challenge[J]. International Journal of Computer Vision. 2015, 115(3): 211-252.
[16] Chatfield K,Simonyan K, Vedaldi A, et al. Return of the devil in the details: Delving deep into convolutional nets[J]. CoRR, 2014, abs/1405.3531.
[17] Oppenheim Alan V,Willsky Alan S. HamidNawab S,等. 信號(hào)與系統(tǒng)[M]. 北京:電子工業(yè)出版社, 2013:192-193.
[18] Galoogahi H K, Sim T, Lucey S. Multi-channel correlation filters[C]// IEEE. International Conference on Computer Vision. New Jersey: IEEE, 2014:3072-3079.
[19] Danelljan M, H?ger G, Khan F S. Accurate scale estimation for robust visual tracking[C]// British Machine Vision Conference. Nottingham, September 1-5, 2014. BMVA Press, 2014:65.1-65.11.
[20] Zhang K, Liu Q, Wu Y, et al. Robust Visual Tracking via Convolutional Networks WithoutTraining[J]. IEEE Transactions on Image Processing.2016, 25(4):1779-1792.
[21] Hare S,Golodetz S, Saffari A, et al. Struck: Structured output tracking with kernels[J]. IEEE transactions on pattern analysis and machine intelligence.2016, 38(10): 2096-2109.
[22] Kalal Z, Mikolajczyk K, Matas J. Tracking-Learning-Detection[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence.2012, 34(7):1409-22.
[23] Lu H,Jia X, Yang M H. Visual tracking via adaptive structural local sparse appearance model[C]// IEEE. Conference on Computer Vision and Pattern Recognition. New Jersey: IEEE, 2012:1822-1829.
[24] Choi J, Chang H J, Yun S, et al. Attentional Correlation Filter Network for Adaptive Visual Tracking[C]// IEEE. Conference on Computer Vision and Pattern Recognition. New Jersey: IEEE, 2017:4828-4837.