薛模根 朱 虹 袁廣林
①(陸軍軍官學(xué)院偏振光成像探測(cè)技術(shù)安徽省重點(diǎn)實(shí)驗(yàn)室 合肥 230031)
②(陸軍軍官學(xué)院十一系 合肥 230031)
基于在線判別式字典學(xué)習(xí)的魯棒視覺(jué)跟蹤
薛模根①朱 虹*①袁廣林②
①(陸軍軍官學(xué)院偏振光成像探測(cè)技術(shù)安徽省重點(diǎn)實(shí)驗(yàn)室 合肥 230031)
②(陸軍軍官學(xué)院十一系 合肥 230031)
現(xiàn)有子空間跟蹤方法較好地解決了目標(biāo)表觀變化和遮擋問(wèn)題,但是它對(duì)復(fù)雜背景下目標(biāo)跟蹤的魯棒性較差。針對(duì)此問(wèn)題,該文首先提出一種基于Fisher準(zhǔn)則的在線判別式字典學(xué)習(xí)模型,利用塊坐標(biāo)下降和替換操作設(shè)計(jì)了該模型的在線學(xué)習(xí)算法用于視覺(jué)跟蹤模板更新。其次,定義候選目標(biāo)編碼系數(shù)與目標(biāo)樣本編碼系數(shù)均值之間的距離為系數(shù)誤差,提出以候選目標(biāo)的重構(gòu)誤差與系數(shù)誤差的組合作為粒子濾波的觀測(cè)似然跟蹤目標(biāo)。實(shí)驗(yàn)結(jié)果表明:與現(xiàn)有跟蹤方法相比,該文跟蹤方法具有較強(qiáng)的魯棒性和較高的跟蹤精度。
視覺(jué)跟蹤;模板更新;字典學(xué)習(xí);觀測(cè)似然
視覺(jué)跟蹤是通過(guò)視頻圖像序列不斷估計(jì)目標(biāo)狀態(tài)的過(guò)程,它在智能監(jiān)控、人機(jī)交互、機(jī)器人導(dǎo)航和運(yùn)動(dòng)分析等方面都具有重要的應(yīng)用價(jià)值。一直以來(lái),視覺(jué)跟蹤都是計(jì)算機(jī)視覺(jué)領(lǐng)域中研究的熱點(diǎn),它的主要難題有目標(biāo)表觀變化、目標(biāo)遮擋、復(fù)雜背景等。
針對(duì)以上難題,視覺(jué)跟蹤領(lǐng)域的研究者已經(jīng)提出一些視覺(jué)跟蹤方法[1],其中基于子空間的跟蹤方法較好地解決了目標(biāo)表觀變化和目標(biāo)遮擋問(wèn)題,因而受到了廣泛關(guān)注[2,3]。1996年,Black等人[4]首次提出了基于主成分分析的子空間跟蹤方法。該方法以子空間常量為假設(shè),不能適應(yīng)目標(biāo)表觀的變化。為了目標(biāo)表觀變化,Ross等人[2]提出一種基于增量子空間學(xué)習(xí)的目標(biāo)跟蹤方法,較好地解決了目標(biāo)表觀變化問(wèn)題。但是該方法對(duì)目標(biāo)遮擋的魯棒性較差,利用跟蹤結(jié)果和增量子空間學(xué)習(xí)更新模板易于發(fā)生模型漂移。受到稀疏編碼在人臉識(shí)別中應(yīng)用的啟發(fā),Mei等人[3]提出基于稀疏編碼的視覺(jué)跟蹤,又稱為“L1跟蹤”,該方法較好地解決了目標(biāo)遮擋問(wèn)題。L1跟蹤將視覺(jué)跟蹤問(wèn)題等價(jià)為候選目標(biāo)在目標(biāo)模板和小模板上稀疏編碼系數(shù)的求解問(wèn)題,它要求目標(biāo)模板在自適應(yīng)目標(biāo)變化的同時(shí)盡可能排除遮擋信息,這對(duì)模板更新提出了更高的要求。文獻(xiàn)[5]利用小模板系數(shù)進(jìn)行目標(biāo)遮擋檢測(cè),若當(dāng)前跟蹤結(jié)果未檢測(cè)出大量遮擋信息,則直接替換模板,緩解了模型漂移現(xiàn)象。文獻(xiàn)[6]借鑒文獻(xiàn)[7]引入字典學(xué)習(xí)思想,利用訓(xùn)練數(shù)據(jù)學(xué)習(xí)更新得到適用于跟蹤的字典(模板),提出一種基于在線字典學(xué)習(xí)的目標(biāo)跟蹤方法,所得模板增強(qiáng)了對(duì)目標(biāo)變化的適應(yīng)性和魯棒性。文獻(xiàn)[8]提出一種在線魯棒非負(fù)字典學(xué)習(xí)算法用于模板更新,該算法結(jié)合了在線魯棒字典學(xué)習(xí)和非負(fù)矩陣分解,采用L1數(shù)據(jù)擬合和非負(fù)約束,有效抑制了模型漂移。
綜上所述,現(xiàn)有子空間跟蹤方法較好地解決了目標(biāo)表觀變化和目標(biāo)遮擋問(wèn)題,但是仍存在一些不足:對(duì)于復(fù)雜背景下的目標(biāo)跟蹤魯棒性較弱,模板中缺少判別式信息,對(duì)目標(biāo)和背景的判別能力不足,從而導(dǎo)致跟蹤失敗。針對(duì)此問(wèn)題,一方面,受到在線字典學(xué)習(xí)和 Fisher判別式字典學(xué)習(xí)[9]的啟發(fā),本文提出了用于視覺(jué)跟蹤的在線判別式字典學(xué)習(xí)(Online Discrimination Dictionary Learning for Visual Tracking,ODDLVT)算法。該算法采用塊坐標(biāo)下降法[10]在線更新目標(biāo)模板,利用替換操作在線更新背景模板。另一方面,利用 ODDLVT算法得到目標(biāo)樣本編碼系數(shù)的均值,定義候選目標(biāo)編碼系數(shù)與它的距離為系數(shù)誤差,在粒子濾波框架下,以候選目標(biāo)的重構(gòu)誤差與系數(shù)誤差的組合作為觀測(cè)似然跟蹤目標(biāo)。
由文獻(xiàn)[6,8]可知,從字典學(xué)習(xí)的角度看,視覺(jué)跟蹤模板更新是在線的字典學(xué)習(xí)問(wèn)題。由文獻(xiàn)[9]可知,F(xiàn)isher判別式字典學(xué)習(xí)學(xué)得的字典具有較強(qiáng)的判別能力。據(jù)此,結(jié)合視覺(jué)跟蹤的特點(diǎn),2.1節(jié),2.2節(jié)分別給出了用于視覺(jué)跟蹤模板更新的在線判別式字典學(xué)習(xí)模型與算法。
2.1 ODDLVT模型
受到在線字典學(xué)習(xí)和Fisher判別式字典學(xué)習(xí)的啟發(fā),本文提出如式(1)所示的在線判別式字典學(xué)習(xí)模型用于視覺(jué)跟蹤:
其中,模板更新次數(shù) n= 1,2,…;第n次更新時(shí)輸入在線數(shù)據(jù) An形成訓(xùn)練樣本集 A =[A1,…, An],樣本子集 Ai=[Ai,1, Ai,2]包含N個(gè)訓(xùn)練樣本, Ai,1,Ai,2分別為目標(biāo)樣本和背景樣本,D2]為模板字典, D1, D2分別為目標(biāo)模板和背景模板; Xi=[Xi,1, Xi,2]為 Ai在D上的稀疏編碼系數(shù),Xi,1,Xi,2分別為 Ai,1, Ai,2在D上的編碼系數(shù);λ1, λ2為調(diào)節(jié)常數(shù);d為模板字典的任意原子。使用模板字典對(duì)每個(gè)樣本子集進(jìn)行稀疏表示,即 Ai≈DXi。 j= 1,2,判別保證項(xiàng) r( Ai,j, D, Xi,j)為
綜上所述,ODDLVT模型不僅使模板字典能夠很好地識(shí)別目標(biāo)和背景,同時(shí),編碼系數(shù)也具有強(qiáng)判別力。求解模型式(1)的優(yōu)化過(guò)程比較復(fù)雜,不利于實(shí)時(shí)目標(biāo)跟蹤。由文獻(xiàn)[9]可知,利用假設(shè)條件可以得到簡(jiǎn)化模型并保留原模型的物理涵義。據(jù)此,簡(jiǎn)化ODDLVT模型如式(6)所示。
2.2 ODDLVT算法
ODDLVT算法包括3個(gè)部分:在線數(shù)據(jù)的采集、目標(biāo)和背景模板更新。采集在線數(shù)據(jù)方面,假設(shè)每隔h幀圖像進(jìn)行一次模板更新,t時(shí)刻,當(dāng)?shù)趎次更新時(shí)取 t- h + 1,…, t 時(shí)刻跟蹤結(jié)果作為目標(biāo)樣本An,1;根據(jù)t時(shí)刻跟蹤結(jié)果中心點(diǎn)位置 l =(x, y),在環(huán)形區(qū)域{lB| γ<| |lB-l ||< δ}內(nèi)隨機(jī)采樣樣本作為背景樣本,2nA 。背景模板更新方面,結(jié)合子空間跟蹤特點(diǎn)可知,無(wú)需通過(guò)字典學(xué)習(xí)更新模板,利用背景樣本,2nA 直接替代即可。目標(biāo)模板更新方面,通過(guò)求解式(6)所示模型更新模板,式(6)的求解包括稀疏編碼和字典更新兩個(gè)階段。稀疏編碼階段,確定t - h時(shí)刻目標(biāo)模板 Dt-h,1求解編碼系數(shù)為
表1 視覺(jué)跟蹤的在線判別式字典學(xué)習(xí)(ODDLVT)算法
表2 在線更新目標(biāo)模板
本文跟蹤方法是以粒子濾波為框架建立的?;诹W訛V波的跟蹤方法是將目標(biāo)跟蹤問(wèn)題轉(zhuǎn)換為在貝葉斯理論框架下已知目標(biāo)狀態(tài)的先驗(yàn)概率,在獲得新的觀測(cè)值后求解目標(biāo)狀態(tài)的最大后驗(yàn)概率的過(guò)程。已知 1到 t- 1時(shí)刻所有圖像觀測(cè) y1:t-1={y1, y2,…,yt-1},則目標(biāo)狀態(tài)的先驗(yàn)概率為
其中,tx和1t-x 分別表示t和 1t- 時(shí)刻的目標(biāo)狀態(tài),p(xt|xt-1)為狀態(tài)轉(zhuǎn)移模型。本文采用高斯分布建立狀態(tài)轉(zhuǎn)移模型,如式(10)所示:
其中,Ψ為對(duì)角矩陣,其對(duì)角元素表示相應(yīng)狀態(tài)的方差。t時(shí)刻,當(dāng)觀測(cè)ty可用時(shí),目標(biāo)狀態(tài)的后驗(yàn)概率為
其中, p(yt|xt)為觀測(cè)似然模型。建立觀測(cè)似然模型分為兩個(gè)步驟。首先,對(duì)于任意圖像觀測(cè),求解其L1范數(shù)正則化編碼系數(shù),模型如下:
以粒子濾波為框架,將狀態(tài)轉(zhuǎn)移模型、觀測(cè)似然模型和模板更新方法相結(jié)合建立目標(biāo)跟蹤方法如表3所示。
表3 目標(biāo)跟蹤方法
本文提出的跟蹤方法是以Matlab R2010a為開(kāi)發(fā)工具實(shí)現(xiàn)的,并在Intel(R) Core(TM) 3.10 GHz CPU,8.00 GB內(nèi)存的臺(tái)式電腦上調(diào)試通過(guò)。采用Faceocc1,Dudek和CarDark序列[12]對(duì)本文跟蹤方法進(jìn)行了實(shí)驗(yàn)驗(yàn)證,并與FCT[13],SPT[14]和SMTT[15]等3種跟蹤方法進(jìn)行了定性和定量比較。關(guān)于本文跟蹤方法的參數(shù)設(shè)置說(shuō)明如下:對(duì)于目標(biāo)模板的初始化以及背景模板的初始化和更新,要特別注意參數(shù)的選取,確保目標(biāo)模板中不包含背景信息,背景模板中不包含過(guò)多目標(biāo)信息;模板更新頻率取決于目標(biāo)表觀變化的快慢,本文設(shè)置每5幀更新一次模板。
4.1 定性分析
圖1給出了對(duì)FCT,SPT,SMTT及本文跟蹤方法的定性比較。對(duì)于目標(biāo)遮擋問(wèn)題,本文方法成功克服了模型漂移,魯棒性能較好,見(jiàn)圖 1(a);對(duì)于目標(biāo)表觀變化,本文方法優(yōu)于其他方法,其模板適應(yīng)性良好,見(jiàn)圖1(b);對(duì)于復(fù)雜和低對(duì)比度背景,背景環(huán)境在很大程度上影響目標(biāo)跟蹤,這就要求跟蹤方法具有較強(qiáng)的判別能力,由圖1(b),1(c)可知,本文方法的跟蹤結(jié)果更好。
4.2 定量分析
實(shí)驗(yàn)采用成功率指標(biāo)進(jìn)行定量分析[12]。給定一幀圖像,已知由跟蹤方法所得跟蹤窗區(qū)域tr,實(shí)際跟蹤窗區(qū)域ar,定義重疊率為其中, ∩,∪分別表示兩個(gè)區(qū)域的交集、并集;表示區(qū)域中像素個(gè)數(shù)。成功率為重疊率大于給定重疊閾值的圖像幀數(shù)比率,實(shí)驗(yàn)中設(shè)定重疊閾值為0到1.0。圖2分別給出了4種跟蹤方法對(duì)3組圖像序列的成功率曲線。由圖2可知,本文方法在成功率方面都優(yōu)于其他方法。
4.3 魯棒性分析
本文提出的觀測(cè)似然模型是由重構(gòu)誤差觀測(cè)似然模型 g(yt|xt)與系數(shù)誤差觀測(cè)似然模型 m(yt|xt)兩部分組成,詳情見(jiàn)第3節(jié)。一般情況下,觀測(cè)似然模型僅使用,表示與目標(biāo)模板的相似程度。本文添加的 m(yt|xt)使觀測(cè)似然模型具備對(duì)目標(biāo)和背景的判別力,對(duì)復(fù)雜背景下的目標(biāo)跟蹤更加有效。圖3所示為Dudek序列在第54幀時(shí)322#候選目標(biāo)(好候選目標(biāo))與 434#候選目標(biāo)(差候選目標(biāo)),以及目標(biāo)模板字典。表4分別給出了圖3所示候選目標(biāo)的 g(yt|xt)與 p(yt|xt)。別表示322#,434#候選目標(biāo)的重構(gòu)誤差觀測(cè)似然概率;分別表示322#,434#候選目標(biāo)的本文觀測(cè)似然概率。由表 4 可知,,即當(dāng)觀測(cè)似然模型為 g(yt|xt)時(shí),會(huì)選取 434#候選目標(biāo)(差候選目標(biāo))為跟蹤結(jié)果;另一方面,,即當(dāng)觀測(cè)似然模型為時(shí),跟蹤結(jié)果為322#候選目標(biāo)(好候選目標(biāo))。據(jù)此,可以驗(yàn)證,本文模型優(yōu)于重構(gòu)誤差觀測(cè)似然模型。
針對(duì)現(xiàn)有子空間跟蹤對(duì)復(fù)雜背景下目標(biāo)跟蹤的判別力不強(qiáng)的問(wèn)題,本文提出了用于視覺(jué)跟蹤的在線判別式字典學(xué)習(xí)算法 ODDLVT更新模板,所得模板和編碼系數(shù)均具有良好的判別能力;另外,根據(jù)強(qiáng)判別力的編碼系數(shù),在一般重構(gòu)誤差的基礎(chǔ)上添加了系數(shù)誤差作為觀測(cè)似然,進(jìn)一步增強(qiáng)了目標(biāo)跟蹤魯棒性。在上述兩方面的基礎(chǔ)上,以粒子濾波為框架實(shí)現(xiàn)了基于在線判別式字典學(xué)習(xí)的魯棒視覺(jué)跟蹤。利用多個(gè)具有挑戰(zhàn)性的圖像序列對(duì)提出的跟蹤方法進(jìn)行了實(shí)驗(yàn)驗(yàn)證并與現(xiàn)有跟蹤方法進(jìn)行了比較,實(shí)驗(yàn)結(jié)果表明:與現(xiàn)有跟蹤方法相比,本文方法更能魯棒跟蹤目標(biāo)。
圖1 4種方法的跟蹤結(jié)果比較
圖2 4種方法的成功率曲線比較
圖3 Dudek序列在第54幀時(shí)322#,434#候選目標(biāo)和目標(biāo)模板字典
表4 圖3兩個(gè)候選目標(biāo)的 g( yt | xt)與 p( yt | xt)
[1] Li Xi,Hu Wei-ming,Shen Chun-hua,et al.. A survey of appearance models in visual object tracking[J]. ACM Transactions on Intelligent Systems and Technology,2013,4(4):1-48.
[2] Ross D,Lim J,Lin R S,et al.. Incremental learning for robust visual tracking[J]. International Journal of Computer Vision,2008,77(1-3):125-141.
[3] Mei Xue and Ling Hai-bin. Robust visual tracking using L1 minimization[C]. IEEE International Conference on Computer Vision,Kyoto,2009:1436-1443.
[4] Black M J and Jepson A D. Eigentracking:Robust matching and tracking of articulated objects using a view-based representation[C]. European Conference on Computer Vision,London,1996:329-342.
[5] Bao Cheng-long,Wu Yi,Ling Hai-bin,et al.. Real time robust L1 tracker using accelerated proximal gradient approach[C]. IEEE Conference on Computer Vision and Pattern Recognition,Providence,2012:1830-1837.
[6] Xing Jun-liang,Gao Jin,Li Bing,et al.. Robust object tracking with online multi-lifespan dictionary learning[C]. IEEE International Conference on Computer Vision,Sydney,2013:665-672.
[7] Mairal J,Bach F,Ponce J,et al.. Online dictionary learning for sparse coding[C]. The 26th International Conference on Machine Learning,Montreal,2009:539-547.
[8] Wang Nai-yan,Wang Jing-dong,and Yeung D. Online robust non-negative dictionary learning for visual tracking[C]. IEEE International Conference on Computer Vision. Sydney,2013:657-664.
[9] Yang Meng,Zhang Lei,F(xiàn)eng Xiang-chu,et al.. Sparse representation based Fisher discrimination dictionary learning for image classification[C]. IEEE International Conference on Computer Vision,Barcelina,2011:543-550.
[10] Richtarik P and Takac M. Iteration complexity of randomized block-coordinate decent methods for minimizing a composite function[J]. Mathematical Programming,2014,144(1):1-38.
[11] Rosasco L,Verri A,Santoro M,et al.. Iterative projection methods for structured sparsity regularization[R]. MIT,2009.
[12] Wu Yi,Lim J,and Yang M. Online object tracking:a benchmark[C]. IEEE Conference on Computer Vision and Pattern Recognition,Portland,2013:2411-2418.
[13] Zhang Kai-hua,Zhang Lei,and Yang M H. Fast compressive tracking[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,36(10):2002-2015.
[14] Wang Dong,Lu Hu-chuan,and Yang M H. Online object tracking with sparse prototypes[J]. IEEE Transactions on Image Processing,2013,22(1):314-325.
[15] Zhang Tian-zhu,Ghanem B,Liu Si,et al.. Robust visual tracking via structured multi-task sparse learning[J]. International Journal of Computer Vision,2013,101(2):367-383.
薛模根: 男,1964年生,博士,教授,研究方向?yàn)閳D像處理、計(jì)算機(jī)視覺(jué)、光電防御等.
朱 虹: 女,1987年生,碩士生,研究方向?yàn)閳D像處理、計(jì)算機(jī)視覺(jué)等.
袁廣林: 男,1973年生,博士,講師,研究方向?yàn)閳D像處理、計(jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)及其應(yīng)用等.
Robust Visual Tracking Based on Online Discrimination Dictionary Learning
Xue Mo-gen①Zhu Hong①Yuan Guang-lin②
①(Anhui Province Key Laboratory of Polarization Imaging Detection Technology,Army Officer Academy of PLA, Hefei 230031, China)
②(Eleventh Department, Army Officer Academy of PLA, Hefei 230031, China)
The existing subspace tracking methods have well solved appearance changes and occlusions. However,they are weakly robust to complex background. To deal with this problem,firstly,this paper proposes an online discrimination dictionary learning model based on the Fisher criterion. The online discrimination dictionary learning algorithm for template updating in visual tracking is designed by using the block coordinate descent and replacing operations. Secondly,the distance between the target candidate coding coefficient and the mean of target samples coding coefficients is defined as the coefficient error. The robust visual tracking is achieved by taking the combination of the reconstruction error and the coefficient error as observation likelihood in particle filter framework. The experimental results show that the proposed method has better robustness and accuracy than the state-of-the-art trackers.
Visual tracking;Template updating;Dictionary learning;Observation likelihood
TP391.4
A
1009-5896(2015)07-1654-06
10.11999/JEIT141325
2014-10-20收到,2015-02-09改回,2015-05-08網(wǎng)絡(luò)優(yōu)先出版
國(guó)家自然科學(xué)基金(61175035,61379105),中國(guó)博士后科學(xué)基金(2014M562535)和安徽省自然科學(xué)基金(1508085QF114)資助課題
*通信作者:朱虹 729039126@qq.com