董艷兵
(1.中國科學院上海微系統(tǒng)與信息技術(shù)研究所,上海200050;2.上海科技大學信息科學與技術(shù)學院,上海201210;3.中國科學院大學北京101407)
目標跟蹤是計算機視覺中非常有挑戰(zhàn)性的任務(wù)之一,它的目的是估計一個目標在圖像序列里的位置。它在很多應(yīng)用中有扮演了很重要的角色,比如人機交互,監(jiān)控和機器人[1-2]。有一些因素,比如光照變化,遮擋,背景雜亂和變形使這個任務(wù)變得復雜。近些年來,相關(guān)濾波[3]已經(jīng)被證明比那些非常復雜的方法更有競爭力,因為使用非常少的計算資源就可以達到很高的幀率和性能。這主要是利用了兩個圖像塊的卷積等價于在頻域逐元素進行相乘。因此通過在頻域?qū)栴}進行建模,對于圖像的多次平移,可以通過一次計算得到理想的線性分類器的輸出。從而使得相關(guān)濾波在目標跟蹤中得到非常廣泛的使用。
目標跟蹤是跟蹤一個目標在圖像序列中的軌跡,要求跟蹤算法是無模型,短期以及因果性,具體含義是:
1)無模型(model-free):唯一的訓練樣本就是第一幀中目標的位置,用矩形框表示。
2)短期(short-term):當跟蹤器沒有跟蹤到物體時,不進行重新檢測操作。
3)因果性(causality):跟蹤器不使用任何將來的圖像幀來進行計算。
在文獻[4]中,作者將一個跟蹤系統(tǒng)分解成5個部分,每部分如下:
1)運動模型:基于上一幀估計出來目標的位置,運動模型會在當前幀產(chǎn)生一個候選區(qū)域的集合。
2)特征提取器:提取每個候選區(qū)域的特征。
3)觀測模型:估測模型會基于從候選區(qū)域提取的特征去判斷候選區(qū)域是否為目標。
4)模型更新器:模型更新器控制著更新觀測模型的方法和頻率,平衡著模型的適應(yīng)性和漂移程度。
5)集成后處理:當一個跟蹤系統(tǒng)由多個跟蹤器組成時,集成后處理會使用集成學習的方法從多個跟蹤器的結(jié)果中得到最終的結(jié)果。
目標跟蹤任務(wù)中,測試視頻序列有著多樣性的屬性,用來檢測跟蹤器的準確性和魯棒性,常見的屬性有:光照變化,大小變化,遮擋,變形,運動模糊,快速運動,平面內(nèi)旋轉(zhuǎn),平面外旋轉(zhuǎn),不在視野內(nèi),背景雜亂和低分辨率。
現(xiàn)在目標跟蹤任務(wù)常用的數(shù)據(jù)庫有Online Tracking Benchmark(OTB)和 Visual Object Tracking(VOT)。其中
1)OTB:兩個版本,分貝是OTB2013和OTB100[5],有彩色視頻序列和灰度視頻序列
2)VOT:從 2013[6]年開始,每年有一個挑戰(zhàn)賽(Challenge),會更新數(shù)據(jù)集。
表1中列舉了OTB和VOT數(shù)據(jù)庫包含的視頻序列。
表1 視頻個數(shù)
相關(guān)濾波是一種訓練一個線性分類器用來區(qū)分圖像塊和它的平移是否為目標的算法,它很適合目標追蹤這個任務(wù),因為在頻域的定義為目標追蹤提供了快速的解,使得跟蹤器每幀都可以訓練一次。這種方法使用在樣本上訓練的濾波器對目標的外觀進行建模,基于第一幀中以目標為中心的跟蹤窗口選擇要跟蹤的對象,然后跟蹤和濾波器的訓練就在一起進行了。通過在下一幀對濾波器和搜索窗口做相關(guān)操作來跟蹤目標,相關(guān)系數(shù)中最大值對應(yīng)的位置就是目標的新位置,然后基于這個新的位置就可以對濾波器進行在線更新。
為了快速地構(gòu)造一個跟蹤器,相關(guān)性在頻域通過快速傅里葉變換(FFT)計算,首先輸入圖像和濾波器的2維FFT可以定義為,其中f和h分別為輸入特征和濾波器,為FFT。卷積定理表明空間域的相關(guān)操作在頻域就是逐元素相乘。使用☉顯示地表示逐元素相乘,*表示復數(shù)共軛,那么相關(guān)操作在頻域就可以表示為:
在MOSSE[7]方法中,需要一個訓練圖像fi和輸出yi的集合,通常情況下,yi由高斯函數(shù)產(chǎn)生,這個高斯函數(shù)以fi中的目標為中心,用Yi表示yi的FFT,由公式(1)可以得到
式(2)中的除法是逐元素的操作。
在MOSSE中通過最小化實際的輸出和理想的輸出來求解H,這個最小化問題的形式是
式(3)的閉式解為
MOSSE中在計算的過程中使用的fi為灰度圖。
在KCF[8-9]中,將濾波器的求解問題轉(zhuǎn)化為一個嶺回歸問題,如下所示。
在KCF中,引入了核函數(shù)到(5)中,并且通過使用FFT加速了計算。在計算時使用的特征有Histogram of Oriented Gradient(HOG)[10]和灰度圖,并且推導出了特征為多通道時的FFT計算公式。
在圖1中給出了一個訓練樣本(高為240,寬為320)在水平(left或者 right)和豎直(down或者 up)方向上經(jīng)過不同循環(huán)移動的得到的新的訓練樣本,從圖中可以看出當移動像素個數(shù)不多時(20,20或者-20,-20),產(chǎn)生的樣本和正常平移產(chǎn)生的樣本比較相似,但當移動像素個數(shù)比較大時(120,320),產(chǎn)生的樣本已經(jīng)將目標拆成不同的部分,這樣的樣本是不合理的,這就是邊界效應(yīng)(boundary effect),KCF中通過在樣本上余弦窗來環(huán)節(jié)這種效果,現(xiàn)在有很多工作提出了更加復雜的方法來處理邊界效應(yīng)。
圖1 不同的循環(huán)移位的圖片
在跟蹤算法中,主要目的是跟蹤目標的位置,同時目標的大小[11]對結(jié)果有很大的影響,如果目標縮小,濾波器就會學習到大量背景信息,如果目標擴大,濾波器只會考慮目標的局部紋理,這兩種情況都有可能出現(xiàn)非預期的結(jié)果,導致漂移和失敗。
在SAMF中,作者結(jié)合了HOG特征和Color Name(CN)去學習濾波器,然后計算在不同尺度下濾波器的最大響應(yīng)值,從而找到目標正確的大小。
在DSST[12]中,作者訓練了兩個相關(guān)濾波器:平移濾波器和尺度濾波器,首先使用平移濾波器估計目標的位置,然后再使用尺度濾波器估計目標的大小,尺度表示如圖2所示,其中有S個尺度,每個尺度特征為d維。為了加快計算,作者使用了PCA對樣本的特征降維。
在文獻[1]中,作者通過分析跟蹤算法不同部分的性能,發(fā)現(xiàn)特征表示對于跟蹤算法的影響是最大的。近些年來,神經(jīng)網(wǎng)絡(luò)[13-14]在計算機視覺領(lǐng)域取得了極大的進步,凸顯了神經(jīng)網(wǎng)絡(luò)強大的特征表示能力。
圖2 不同尺度對應(yīng)的特征
在 DeepSRDCF[15]中,作者使用了在 ImageNet[16]上預訓練的VGG網(wǎng)絡(luò)提取的特征來訓練相關(guān)濾波器,取得了比傳統(tǒng)手動設(shè)計的特征有更好的性能,但由于神經(jīng)網(wǎng)絡(luò)參數(shù)多,一次前向過程需要更多的時間,從而實時性無法保障,這也是神經(jīng)網(wǎng)絡(luò)類的方法需要去解決的問題。
盡管使用從預訓練的網(wǎng)絡(luò)中提取的特征可以提高跟蹤的性能,但這些特征是在其他任務(wù)中訓練的,比如分類,對于跟蹤不一定是最好的。在CFNet和DCFNet中,相關(guān)濾波器被嵌入到神經(jīng)網(wǎng)路中,作為神經(jīng)網(wǎng)絡(luò)的一層,可以反向傳播,端到端的訓練,使得訓練得到的特征更適合跟蹤任務(wù)。圖3是DCFNet的網(wǎng)絡(luò)結(jié)構(gòu)。
圖3 DCFNet網(wǎng)絡(luò)結(jié)構(gòu)
我們將在OTB2013上對上面介紹的方法進行評測,評價指標有重疊精度(Overlap Precision,OP),距離精度(Distance Precision,DP)和幀率(Fames Per Second,F(xiàn)PS)。OP表示一個視頻序列中對目標預測出來的位置,大小與實際的位置,大小的Intersection Of Union(IOU)大于一個閾值的幀數(shù)的比例。DP表示對目標預測出來的位置與實際的位置的歐氏距離小于一個閾值的比例。FPS表示跟蹤算法一秒能夠處理的幀數(shù)。
這 里 給 出 KCF,SAMF,DSST,DeepSRDCF,DCFNet在距離閾閾值為20個像素,重疊閾值為0.5時的OP,DP,以及每種方法的FPS,如表2所示。
表2 不同方法的OP,DP和FPS
從表2中可以看出,深度特征的引入使得OP和DP都有很大的提升,而且引入多尺度的信息后,OP有了明顯的提高,從FPS中可以看出,KCF最快,SAMF和DSST引入了多尺度計算,F(xiàn)PS下降,DeepSRDCF使用了預訓練的網(wǎng)絡(luò)來計算特征,需要很大的時間消耗,因而無法做到實時。
圖4 不同距離閾值曲線
圖5 不同重疊閾值曲線
圖4和圖5展示了在距離閾值從0到50間隔為1取值時的DP曲線和重疊閾值從0到1間隔為0.05取值時的OP曲線。
本研究介紹了目標跟蹤的定義,常用的數(shù)據(jù)庫,和基于相關(guān)濾波的目標跟蹤的經(jīng)典方法和最新的進展,并給出來了在OTB2013數(shù)據(jù)庫上的評測結(jié)果和簡短的分析。相關(guān)濾波目前仍是目標跟蹤的主流方向,近些年來,深度學習和相關(guān)濾波的結(jié)合使得目標跟蹤的性能有了很大的提升,但同時需要消耗更多的時間,如何減小計算時間是我們接下來的研究方向。