蘇迎婭 趙清杰 郭 偉 王 博
(北京理工大學(xué)計(jì)算機(jī)學(xué)院,北京 100081)
(北京理工大學(xué)智能信息技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100081)
目標(biāo)跟蹤是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)熱點(diǎn)研究問題,其相關(guān)研究成果在武器制導(dǎo)、視頻監(jiān)控、醫(yī)療診斷、視頻檢索等眾多方面得到了廣泛應(yīng)用[1].簡單環(huán)境中魯棒目標(biāo)跟蹤容易實(shí)現(xiàn),但真實(shí)的跟蹤環(huán)境往往比較復(fù)雜,跟蹤的穩(wěn)定性和準(zhǔn)確性難以保證,目標(biāo)發(fā)生突變運(yùn)動(dòng)就是導(dǎo)致目標(biāo)跟蹤失敗的一種情況.目標(biāo)突變運(yùn)動(dòng)包括目標(biāo)不確定運(yùn)動(dòng)、目標(biāo)快速運(yùn)動(dòng)以及視頻低幀率等情況,在這些情形下,相鄰兩幀間目標(biāo)的位移量可能很大,容易導(dǎo)致目標(biāo)跟蹤失敗.
傳統(tǒng)的目標(biāo)跟蹤方法分為確定性跟蹤方法和概率性跟蹤方法.確定性跟蹤方法的代表性算法是均值漂移(mean shift)跟蹤算法[2],該算法計(jì)算速度快、易于實(shí)現(xiàn).概率性跟蹤方法典型的代表方法是粒子濾波算法[3],該算法能夠有效地解決目標(biāo)跟蹤中普遍存在的非線性非高斯問題.但上述跟蹤算法都是基于目標(biāo)平滑運(yùn)動(dòng)的假設(shè),因此在處理目標(biāo)突變運(yùn)動(dòng)時(shí),跟蹤效果較差.近年來,一些新的算法被提出,用以處理突變運(yùn)動(dòng)跟蹤.Philomin等[4]將擬隨機(jī)采樣引入到粒子濾波框架中,通過使用均勻采樣來應(yīng)對突變運(yùn)動(dòng),但這樣既浪費(fèi)時(shí)間又容易陷入局部極值.Kwon等[5]提出了模擬退火Wang-Landau蒙特卡羅采樣(A-WLMC)的突變運(yùn)動(dòng)跟蹤算法,該算法將每一幀圖像劃分為多個(gè)相同大小的塊,然后使用WLMC算法更新每個(gè)子塊的狀態(tài)密度,并基于狀態(tài)密度進(jìn)行目標(biāo)狀態(tài)的更新.該算法能夠從全局狀態(tài)空間中采樣,從而得到全局極值,但是還沒有嚴(yán)格的理論來證明其收斂性.Zhou等[6]提出了基于自適應(yīng)隨機(jī)逼近蒙特卡羅采樣(A-SAMC)的粒子濾波跟蹤算法,該算法提出一種狀態(tài)網(wǎng)格模型,通過學(xué)習(xí)狀態(tài)密度來估計(jì)粒子權(quán)值,并在跟蹤過程中自適應(yīng)更新提議分布,該算法也能有效跳出局部極值,很好地跟蹤突變運(yùn)動(dòng)目標(biāo).A-WLMC算法和A-SAMC算法雖然能在全局狀態(tài)空間中進(jìn)行采樣而避免陷入局部極值,但仍需要一定數(shù)量的粒子來進(jìn)行跟蹤.
視覺注意機(jī)制[7]本質(zhì)上是對人類視覺的模仿,在圖像檢索、場景分割等場合得到了廣泛應(yīng)用.Rutishauser等[8]證明了視覺顯著性信息也可以運(yùn)用到顯著目標(biāo)的檢測識別中來.本文提出了一種基于視覺顯著性的粒子濾波跟蹤算法,用以解決目標(biāo)突變運(yùn)動(dòng)下的跟蹤問題.實(shí)驗(yàn)結(jié)果表明,對于不同類型的目標(biāo)突變運(yùn)動(dòng)、短時(shí)全局遮擋等跟蹤場景,該算法均能獲得較好的跟蹤結(jié)果,表現(xiàn)出較好的魯棒性.
視覺注意機(jī)制是一種模擬人類視覺智能的重要機(jī)制,該機(jī)制能在海量的視覺信息中將注意力聚焦于較顯著的信息.Itti模型[7]就是一種經(jīng)典的視覺注意計(jì)算模型,它用自底向上的機(jī)制來計(jì)算視覺顯著圖.
自底向上的視覺注意計(jì)算模型是由數(shù)據(jù)驅(qū)動(dòng)的,該模型從圖像的特征出發(fā),不依賴于任何先驗(yàn)知識.常用的圖像的特征有顏色、亮度和局部方向等特征.首先把圖像分解成一組特征圖,然后從這組特征圖中提取顏色、亮度和局部方向的信息,分別得到亮度特征圖I,顏色特征圖CRG,CBY和方向特征圖O如下:
式中,r,g,b分別為圖像像素的RGB值;I為根據(jù)式(1)得到的亮度值;G(.)表示Gabor濾波;θ表示局部方向,θ∈{0°,45°,90°,135°}.
視覺顯著區(qū)域與其周圍區(qū)域相比差異明顯,因此采用中心強(qiáng)化-四周弱化的機(jī)制對各個(gè)特征圖進(jìn)行處理,用不同空間尺度的圖像的相減來模擬圖像中心與四周的差分.圖像的采樣尺度如果是σ,則對應(yīng)的圖像采樣比例應(yīng)是1/2σ.設(shè)采樣尺度分別為c和s,當(dāng)中心標(biāo)度c∈{2,3,4},中心周圍差標(biāo)度δ=s-c∈{3,4}時(shí),按照中心強(qiáng)化-四周弱化機(jī)制對上述亮度、顏色和方向特征圖進(jìn)行處理,通過計(jì)算圖像區(qū)域中心與周圍的差分,可得到不同空間尺度下的視覺刺激圖M:
式中,Θ表示2種不同空間尺度圖像相減(先經(jīng)過插值使2個(gè)圖像一樣大后,再逐像素相減),l∈L={I,LC,O(θ)},LC={CRG,CBY}.由于 c 有 3 種而δ有2種,共有6種組合,因此經(jīng)過上述計(jì)算可得到亮度刺激圖6幅;由于顏色有RG和BY兩種情況,共得到顏色刺激圖12幅;由于方向θ有4種選擇,共得到方向刺激圖24幅.
接下來通過歸一化和交叉尺度相加的操作,分別將每種特征上的多張視覺刺激圖融合成一幅視覺顯著圖M':
式中,⊕表示2種不同空間尺度圖像相加(先經(jīng)過插值使2個(gè)圖像一樣大后,再逐像素相加).由于特征圖的提取機(jī)制不同且像素值的動(dòng)態(tài)范圍不同,需要進(jìn)行歸一化操作后再處理,所以要對特征圖進(jìn)行競爭作用處理N(·).N(·)是一種局部非線性的迭代,具體過程參見文獻(xiàn)[9].
通過式(5)可得到3種特征的視覺顯著圖I',C'和O',最后通過求均值的方式將其融合成一幅最終的視覺顯著圖S:
上述視覺顯著圖的計(jì)算使用的是自底向上的計(jì)算模型,該模型是無意識引導(dǎo)的,不考慮具體的目標(biāo)或者任務(wù),屬于一種低級的視覺智能.在這種情況下,視覺顯著圖中目標(biāo)區(qū)域可能顯著性很低或者并不顯著,難以引起視覺注意.而相比于自底向上的視覺注意機(jī)制,自頂向下的視覺注意是主觀意識引導(dǎo)的,由任務(wù)驅(qū)動(dòng)的,帶有目的性,用于完成一定的搜索任務(wù),屬于一種高級的視覺智能,更加類似于視覺目標(biāo)跟蹤過程.因此本文結(jié)合自頂向下的思路,根據(jù)先驗(yàn)信息來驅(qū)動(dòng)顯著圖的計(jì)算,將自底向上和自頂向下的計(jì)算模型相結(jié)合以計(jì)算視覺顯著圖.本文為增強(qiáng)視覺顯著圖中目標(biāo)區(qū)域的顯著性,采用目標(biāo)模板作為先驗(yàn)信息并結(jié)合2.1節(jié)的計(jì)算模型自適應(yīng)計(jì)算視覺顯著圖.
對于目標(biāo)模板圖像,先按2.1節(jié)的計(jì)算模型計(jì)算得到3種特征的視覺顯著圖I'、C'和O',再通過計(jì)算每幅視覺顯著圖的局部極大值的均值,為每幅視覺顯著圖計(jì)算得到一個(gè)權(quán)值,計(jì)算公式如下:
式中,glocma為局部極大值的均值.如果一個(gè)像素點(diǎn)的值大于閾值T,且比它上下左右4個(gè)像素點(diǎn)的值都大,那么這個(gè)點(diǎn)稱為局部極大值點(diǎn),本文令T=0.1.通過式(7)計(jì)算得到了3個(gè)特征權(quán)值wts={ωI,ωC,ωO},那么最終的視覺顯著圖 S'的計(jì)算公式為
圖1對比了利用自底向上模型計(jì)算得到的視覺顯著圖和本文方法計(jì)算得到的視覺顯著圖.可以看出,本文方法加強(qiáng)了目標(biāo)區(qū)域在視覺顯著圖中的顯著性.
圖1 視覺顯著圖結(jié)果對比
傳統(tǒng)粒子濾波的采樣局限于一定的范圍,在本質(zhì)上是一種局部的搜索算法.因此,當(dāng)目標(biāo)發(fā)生突變運(yùn)動(dòng)導(dǎo)致相鄰兩幀間目標(biāo)的位移量過大時(shí),傳統(tǒng)粒子濾波算法容易發(fā)生跟蹤丟失,且難以重新恢復(fù)跟蹤.因此,本文考慮將基于視覺注意機(jī)制的視覺顯著圖引入到粒子濾波框架中,當(dāng)突變運(yùn)動(dòng)發(fā)生時(shí),利用目標(biāo)的顯著性對目標(biāo)進(jìn)行檢測定位.運(yùn)用自底向上的視覺顯著圖計(jì)算模型,即使目標(biāo)發(fā)生突變運(yùn)動(dòng),圖像背景發(fā)生變化,只要目標(biāo)是顯著的,目標(biāo)就能夠在視覺顯著圖的顯著性區(qū)域中得以體現(xiàn),這保證了目標(biāo)能夠被檢測到.另外,只需要對當(dāng)前幀圖像進(jìn)行處理就能得到視覺顯著圖,不需要額外的離線學(xué)習(xí).
圖像中不同的區(qū)域會(huì)競爭視覺注意力,只有那些能夠產(chǎn)生較強(qiáng)視覺刺激的區(qū)域才能夠爭取到視覺注意,這些區(qū)域稱為視覺顯著性區(qū)域.在本文中,顯著性區(qū)域R={R1,…,Rn}的選擇采用勝者為王(winner-take-all)和返回抑制(inhibition-of-return)機(jī)制.首先在視覺顯著圖S'中找到最大值點(diǎn),以此點(diǎn)為中心,以當(dāng)前樣本集中粒子尺度為尺度的區(qū)域被標(biāo)記成顯著性區(qū)域Ri,這就是勝者為王的選擇機(jī)制.接下來將整個(gè)Ri區(qū)域的像素值設(shè)置成0,再繼續(xù)用勝者為王機(jī)制選擇下一個(gè)顯著性區(qū)域Ri+1,這就是返回抑制機(jī)制.通過這種機(jī)制選擇的顯著性區(qū)域能隨著當(dāng)前粒子尺度的變化而變化,克服了傳統(tǒng)方法中顯著性區(qū)域尺度固定的問題.
本文在跟蹤情況良好時(shí)進(jìn)行局部采樣,即從運(yùn)動(dòng)轉(zhuǎn)移模型中進(jìn)行粒子采樣;而當(dāng)跟蹤發(fā)生丟失時(shí)進(jìn)行全局采樣,即從視覺顯著圖的顯著性區(qū)域中進(jìn)行采樣,具體過程如下:首先對此幀圖像計(jì)算視覺顯著圖,然后從圖中檢測顯著性區(qū)域R={R1,…,Rn},并分別用Ri與目標(biāo)模板進(jìn)行匹配,最后從匹配度最高的顯著性區(qū)域附近進(jìn)行粒子采樣,這樣就能從全局范圍內(nèi)采樣,避免陷入局部極值,從而恢復(fù)跟蹤.
在算法實(shí)現(xiàn)時(shí),目標(biāo)用矩形區(qū)域表示,t時(shí)刻的目標(biāo)狀態(tài)用xt=[x,y,s]表示,其中x和 y代表矩形區(qū)域中心坐標(biāo),s代表目標(biāo)尺度,目標(biāo)模板是在第1幀人為選定的.本文算法及對比算法采用HSV顏色直方圖作為目標(biāo)的表觀模型,采用二階自回歸模型作為運(yùn)動(dòng)轉(zhuǎn)移模型,其運(yùn)動(dòng)方程如下:
式中,wt為零均值的高斯噪聲,在所有實(shí)驗(yàn)中將其標(biāo)準(zhǔn)差設(shè)置為[σx,σy,σs]=[1,0.5,0.001].
本文采用多個(gè)視頻序列進(jìn)行跟蹤測試,并與其他幾種算法進(jìn)行對比,分別是PF跟蹤算法[3]、MCMC跟蹤算法[10]、AMCMC 跟蹤算法[11]和AWLMC跟蹤算法[5].本文方法所用粒子數(shù)量為100,其他算法所用粒子數(shù)量為600.
本文部分幀的實(shí)驗(yàn)結(jié)果如圖2所示,視頻序列face和stennis存在目標(biāo)快速運(yùn)動(dòng),視頻序列tennis是低幀率視頻,視頻序列g(shù)irl存在短時(shí)全部遮擋.圖2中,本文算法的跟蹤結(jié)果用紅色實(shí)線框表示,AWLMC算法的跟蹤結(jié)果用綠色虛線框表示,AMCMC算法的跟蹤結(jié)果用藍(lán)色虛線框表示,MCMC算法的跟蹤結(jié)果用品紅色虛線框表示,PF算法的跟蹤結(jié)果用淡藍(lán)色虛線框表示.實(shí)驗(yàn)結(jié)果顯示,本文算法在目標(biāo)發(fā)生突變運(yùn)動(dòng)時(shí)能準(zhǔn)確定位并跟蹤目標(biāo),且目標(biāo)丟失后能恢復(fù)跟蹤,跟蹤結(jié)果優(yōu)于其他算法;AWLMC算法雖能在全局搜索并進(jìn)行跟蹤,但跟蹤不穩(wěn)定,容易錯(cuò)誤跟蹤到其他位置;而AMCMC,MCMC和PF算法難以處理突變運(yùn)動(dòng),效果較差.
圖2 5種算法在4個(gè)視頻上的跟蹤結(jié)果
當(dāng)真實(shí)目標(biāo)的中心位置在預(yù)測目標(biāo)區(qū)域內(nèi),則稱該幀跟蹤成功.跟蹤成功率定義為跟蹤成功的幀數(shù)與視頻序列總幀數(shù)的比值.表1顯示了5種算法在4個(gè)視頻序列上的跟蹤成功率,其中本文算法用100個(gè)粒子,其他4種算法用600個(gè)粒子.表1表明,本文算法的跟蹤成功率總體上優(yōu)于其他算法,在粒子數(shù)量小于其他算法的情況下,總體跟蹤成功率提高了大約40%.
表1 5種算法在不同視頻上的跟蹤成功率 %
中心位置誤差是指真實(shí)目標(biāo)中心位置和預(yù)測目標(biāo)中心位置之間的以像素為單位的歐式距.圖3給出了5種算法在4個(gè)視頻上的中心位置誤差曲線,從圖3可看出,在處理突變運(yùn)動(dòng)的目標(biāo)跟蹤時(shí),本文算法穩(wěn)定性和準(zhǔn)確性都較好,而AWLMC算法很不穩(wěn)定,AMCMC算法、MCMC算法以及PF算法跟蹤丟失情況較嚴(yán)重,跟蹤誤差較大.
針對突變運(yùn)動(dòng)的目標(biāo)跟蹤問題,本文提出了一種基于視覺顯著性的粒子濾波跟蹤算法.該算法在跟蹤情況良好時(shí)從局部建議分布采樣,而當(dāng)跟蹤丟失時(shí)從視覺顯著圖的顯著性區(qū)域中進(jìn)行采樣,有效避免了跟蹤陷入局部極值.另外,本文利用目標(biāo)模板來計(jì)算各個(gè)特征圖的權(quán)重,自適應(yīng)建立了視覺顯著圖,增強(qiáng)了目標(biāo)在視覺顯著圖中的顯著性.在不同突變情況下的實(shí)驗(yàn)證明,本文算法能夠很好地處理具有突變運(yùn)動(dòng)的目標(biāo)跟蹤問題,并且在粒子數(shù)量較少的情況下也能取得較好的跟蹤效果.下一步工作將考慮在本文算法框架下,進(jìn)一步研究目標(biāo)表觀模型并考慮目標(biāo)模板的在線更新.
圖3 5種算法在4個(gè)視頻上的中心位置誤差曲線
References)
[1]Yilmaz A,Javed O,Shah M.Object tracking:a survey[J].ACM Computing Surveys,2006,38(4):13-45.
[2]Comaniciu D,Ramesh V,Meer P.Kernel-based object tracking[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2003,25(5):564-575.
[3]Isard M,Blake A.Condensation:conditional density propagation for visual tracking[J].International Journal of Computer Vision,1998,29(1):5-28.
[4]Philomin V,Duraiswami R,Davis L.Quasi-random sampling for condensation[J].Lecture Notes in Computer Science,2000,1843:134-149.
[5]Kwon J,Lee K.Tracking of abrupt motion using Wang-Landau Monte Carlo estimation[J].Lecture Notes in Computer Science,2008,5302:387-400.
[6]Zhou X,Lu Y,Lu J,et al.Abrupt motion tracking via intensively adaptive Markov-chain Monte Carlo sampling[J].IEEE Transactions on Image Processing,2012,21(2):789-801.
[7]Itti L,Koch C,Niebur E.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(11):1254-1259.
[8]Rutishauser U,Walther D,Koch C,et al.Is bottom-up attention useful for object recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition.Washington,DC,USA,2004:37-44.
[9]Itti L,Koch C.A comparison of feature combination strategies for saliency-based visual attention systems[J].Journal of Electronic Imaging,1999,10:161-169.
[10]Khan Z,Balch T,Dellaert F.An MCMC-based particle filter for tracking multiple interacting targets[J].Lecture Notes in Computer Science,2003,3024:279-290.
[11]Roberts G O,Rosenthal J S.Examples of adaptive MCMC[J].Journal of Computational and Graphical Statistics,2009,18(2):349-367.