單玉剛,胡衛(wèi)國
1.湖北文理學(xué)院 教育學(xué)院,湖北 襄陽441053
2.中國人民解放軍 某部隊(duì)
視頻圖像序列目標(biāo)跟蹤是計(jì)算機(jī)視覺中的一個重要研究方向,廣泛地應(yīng)用在視頻監(jiān)控、無人駕駛、人機(jī)交互、醫(yī)學(xué)診斷以及精確制導(dǎo)武器等領(lǐng)域[1]。近十幾年來,視覺跟蹤技術(shù)取得了長足進(jìn)步,研究人員提出了許多有效的跟蹤算法。但當(dāng)存在視頻跟蹤目標(biāo)外觀的變化和外部環(huán)境復(fù)雜時,跟蹤精度會下降[2],因此,要對目標(biāo)進(jìn)行長時間穩(wěn)定的跟蹤,就需要合理地處理光照變化、目標(biāo)姿態(tài)的改變、目標(biāo)的形變、視角的改變、目標(biāo)旋轉(zhuǎn)變化和目標(biāo)尺度變化,否則會導(dǎo)致跟蹤失敗。
視頻目標(biāo)跟蹤發(fā)展到現(xiàn)在,從時間上可劃分為四個階段,第一階段:生成式模型[3]。生成式模型通過在線學(xué)習(xí)方式建立目標(biāo)模型,然后使用模型搜索重建誤差最小的圖像區(qū)域,完成目標(biāo)定位,典型模型有粒子濾波、相關(guān)匹配、Meanshift 和Camshift 等。第二階段:判別式模型[3]。通過機(jī)器學(xué)習(xí)方法,提取圖像特征,并訓(xùn)練分類器進(jìn)行分類,典型模型有MIL、TLD、SVM、隨機(jī)森林等。第三階段:相關(guān)濾波[4],嚴(yán)格說是判別式的一種,由于其獨(dú)特特性另成一類。2014 年,KCF[5](Kernel Correlation Filter,核相關(guān)濾波算法)的出現(xiàn)轟動一時。從VOT2014到VOT2018,相關(guān)濾波跟蹤效果一直處于領(lǐng)先地位。第四階段:深度學(xué)習(xí)[6]。深度學(xué)習(xí)的應(yīng)用起于2013 年DLT[7]的提出,在2019年,SiamMask[8]和SiamRPN++[9]的產(chǎn)生真正意義超過了相關(guān)濾波,性能達(dá)到了state of the art(目前最好的)。本文對近年來已發(fā)表的國內(nèi)外目標(biāo)跟蹤領(lǐng)域的SCI 文獻(xiàn)按照關(guān)鍵詞搜索,進(jìn)行了數(shù)量統(tǒng)計(jì),如圖1所示。生成式模型跟蹤文獻(xiàn)數(shù)量從2012年達(dá)到頂峰,之后開始逐年減少;判別式模型跟蹤文獻(xiàn)數(shù)保持在每年20 篇左右;相關(guān)濾波跟蹤文獻(xiàn)數(shù)量從2015 年達(dá)到頂峰,之后有所下降。深度學(xué)習(xí)跟蹤文獻(xiàn)數(shù)量從2012 年出現(xiàn)到2018 年一直處于顯著上升趨勢,2018 年發(fā)表200 多篇文獻(xiàn),2019 年到9 月不完全統(tǒng)計(jì)達(dá)150 篇。由圖1表明深度學(xué)習(xí)跟蹤是視頻目標(biāo)跟蹤發(fā)展趨勢。
圖1 目標(biāo)跟蹤發(fā)展歷程
尺度方向自適應(yīng)目標(biāo)跟蹤是在跟蹤過程中為了適應(yīng)目標(biāo)尺度和方向變化,而采取的自動調(diào)整尺度和方向策略,這樣可減少目標(biāo)中的背景信息,提高跟蹤精度。文獻(xiàn)[10-12]把尺度和方向自適應(yīng)跟蹤定義為多自由度跟蹤。多自由度的目標(biāo)跟蹤是指采用橢圓或矩形描述目標(biāo),具有中心坐標(biāo)、長短軸和旋轉(zhuǎn)角度等多個自由度。因此,每個目標(biāo)不僅僅有位置,而且能夠在水平和垂直兩個方向上獨(dú)立描述目標(biāo)的大小變化,并通過加入目標(biāo)傾角,還可以描述目標(biāo)旋轉(zhuǎn)運(yùn)動。由于并沒有國際組織或協(xié)會定義多自由度概念,這里使用尺度方向自適應(yīng)來描述對目標(biāo)尺度和方向的跟蹤。一個魯棒的目標(biāo)跟蹤算法應(yīng)該能夠有效處理目標(biāo)尺度和旋轉(zhuǎn)等變化,對于提高目標(biāo)跟蹤算法的魯棒性具有非常重要的意義。
為了解決跟蹤過程中目標(biāo)尺度方向變化問題,國內(nèi)外的專家學(xué)者進(jìn)行了大量的研究,提出了很多有效的算法,算法在特定場合下測試效果較好。這些算法大致可以分為如下幾類:(1)增量式搜索;(2)MeanShift 迭代;(3)區(qū)域二階矩;(4)角點(diǎn)匹配;(5)粒子濾波;(6)相關(guān)濾波器;(7)深度學(xué)習(xí)。本文對上述算法進(jìn)行了總結(jié),介紹了具有代表性的算法,重點(diǎn)分析了深度學(xué)習(xí)方法,并分析了各種算法優(yōu)缺點(diǎn)。最后,展望了尺度方向自適應(yīng)研究未來發(fā)展趨勢。
2.1.1 MeanShift增量式
核跟蹤方法[13]使用核窗口描述目標(biāo)形狀,包括矩形、橢圓形或其他固定形狀的目標(biāo)。核跟蹤在第一幀中先確定目標(biāo)模板,在后續(xù)幀中用候選塊與模板進(jìn)行匹配來實(shí)現(xiàn)跟蹤。MeanShift 算法[14]是典型的核跟蹤方法,其通過改變核窗口目標(biāo)角度實(shí)現(xiàn)目標(biāo)角度跟蹤。設(shè)S是帶寬,即:目標(biāo)的縮放因子,初始化目標(biāo)模式時一般取為1,Sx和Sy是坐標(biāo)歸一化系數(shù),目標(biāo)旋轉(zhuǎn)角度是θ,則核窗口為:
Comaniciu 等[15]采用對目標(biāo)±10%的增量方式的核窗口寬度進(jìn)行修正的方法。馬偉[16]提出了在每一次MeanShift迭代過程中,調(diào)整目標(biāo)跟蹤框的高和寬,然后調(diào)整3 次跟蹤框方位角的方法獲取局部最優(yōu)解達(dá)到自適應(yīng)跟蹤方法。賈靜平等[17]采用方式是重復(fù)對單個目標(biāo)的一次跟蹤過程3 次,傾角a值分別為原傾角值和原傾角值±10°,然后比較3 次收斂后的Bhattacharyya 系數(shù),取對應(yīng)系數(shù)較大的a 為新的傾角值。同時,采用橫軸增減10%方法自適應(yīng)獲取新的橫軸值和新的豎軸值。
2.1.2 相關(guān)匹配增量式
文獻(xiàn)[18]采用最小外接矩形對目標(biāo)建模,并采用最小外接矩形的兩步塊匹配搜索方式實(shí)現(xiàn)對目標(biāo)的中心定位,然后采用增量式搜索匹配方法獲取最優(yōu)尺度和方向角度。通過動態(tài)評估不同目標(biāo)模型在不同跟蹤場景中的置信度,對目標(biāo)模型進(jìn)行更新。候選區(qū)上的點(diǎn)(x,y)繞中心點(diǎn)旋轉(zhuǎn)變?yōu)?u,v)公式為:
增量式搜索匹配最優(yōu)角度時,帶傾角的候選區(qū)域移動在搜索區(qū)域中,用候選區(qū)域的直方圖與模板直方圖進(jìn)行巴氏系數(shù)比較,取最大巴氏系數(shù)的最大處即為所求位置。搜索時以上一幀尺寸和傾角為基礎(chǔ),根據(jù)式(2)將候選區(qū)旋轉(zhuǎn),使用角度增減步長Δβ,改變傾角值,分別為原傾角值θ 增加3Δβ、2Δβ、增加Δβ、減少Δβ、減少2Δβ 和減少3Δβ,然后比較6 次匹配的Bhattacharyya 系數(shù),并取對應(yīng)系數(shù)最大的角度為新的傾角值。最優(yōu)尺度獲取亦采取同樣方法。
文獻(xiàn)[19]介紹了非對稱核尺度和方向選擇方法。
文獻(xiàn)[20]推導(dǎo)出了角度均值迭代公式定義帶方向的二維橢圓高斯算子:
使用橢圓高斯算子進(jìn)行均值迭代可求取連續(xù)幀目標(biāo)的空間位置x1、尺度(σa1,σb1)和角度參數(shù)θ1。MeanShift迭代算法跟蹤在背景較單一場景跟蹤效果較好,跟蹤效果如圖2所示。
圖2 MeanShift迭代跟蹤效果
角點(diǎn)能夠很好地刻畫目標(biāo)空間結(jié)構(gòu)。常用的角點(diǎn)特征有:SIFT[21]特征、SURF[22]特征、Harris[23]角點(diǎn)。文獻(xiàn)[24]采用Harris角點(diǎn)特征匹配進(jìn)行跟蹤,董蓉[25]、侯志強(qiáng)[26]和趙欽君[27]等人通過提取圖像SIFT 角點(diǎn),根據(jù)SIFT 角點(diǎn)的匹配情況來計(jì)算被跟蹤目標(biāo)的旋轉(zhuǎn)角度,用以解決目標(biāo)跟蹤中的旋轉(zhuǎn)問題。
通過將前后兩幀中跟蹤窗口中匹配的角點(diǎn)作為樣本來對仿射模型參數(shù)進(jìn)行估算。應(yīng)用仿射變換原理,相鄰兩幀間的特征點(diǎn)位置關(guān)系滿足:
只需3 個匹配點(diǎn)對就可以計(jì)算出連續(xù)幀間的仿射變換參數(shù)。為了去除錯誤匹配以保證變換矩陣的準(zhǔn)確性,通常采用RANSAC[28](隨機(jī)采樣一致性)方法得到有效數(shù)據(jù)。Sift角點(diǎn)匹配效果如圖3所示。
圖3 Sift匹配
區(qū)域二階矩方法通過計(jì)算目標(biāo)候選區(qū)域二階矩,求得目標(biāo)大小和方向,典型算法有Camshift[29]和Soamst[30]等。Camshift 算法基本過程是:在第一幀初始化目標(biāo)模板大小和位置后,在接下來的幀里在搜索窗口內(nèi)將圖像中每個像素的值用其顏色出現(xiàn)的概率對當(dāng)前幀替換,可得到顏色概率分布圖即反向投影圖。然后,運(yùn)行Mean‐Shift 算法搜索獲得目標(biāo)新的位置,并用橢圓鎖定目標(biāo),由零階矩、一階矩和二階矩計(jì)算獲得橢圓的長軸、短軸及方向角。
Soamst[30]算法根據(jù)目標(biāo)模板計(jì)算候選目標(biāo)區(qū)域像素點(diǎn)顏色值與目標(biāo)顏色直方圖模型對應(yīng)分量的相似性權(quán)值,得到候選區(qū)域的權(quán)重分布圖,用權(quán)重分布圖的不變矩統(tǒng)計(jì)特征來反映目標(biāo)區(qū)域。通過計(jì)算二階中心矩構(gòu)成協(xié)方差矩陣來估計(jì)目標(biāo)的寬度、高度和方向。Soamst算法跟蹤效果如圖4所示。
圖4 Soamst跟蹤效果
粒子濾波[31]是求解貝葉斯概率的一種算法,其大概思想是用貝葉斯概率模型構(gòu)造目標(biāo)的先驗(yàn)知識、目標(biāo)狀態(tài)轉(zhuǎn)變模型和觀測模型,求解表征目標(biāo)狀態(tài)的后驗(yàn)概率。
為求取目標(biāo)尺度和方向,目標(biāo)狀態(tài)矢量設(shè)為st=[xt,yt,rt,dt]T,其中xt,yt為目標(biāo)位置,rt為目標(biāo)尺度,dt為目標(biāo)方向。觀測矢量ot,跟蹤就是對后驗(yàn)分布p(st|o1:t)最大化的過程。
其中,o1:t是到t 時刻觀測值集合,狀態(tài)轉(zhuǎn)移模型為p(st|st-1),觀測模型為p(ot|st)。則,當(dāng)前目標(biāo)狀態(tài)可以用后驗(yàn)分布p(st|o1:t)估計(jì)得到,即:其中,N 為粒子數(shù)量,ω為第k個粒子權(quán)重。
Satoh[32]應(yīng)用貝葉斯理論實(shí)現(xiàn)基于粒子濾波的尺度和方向自適應(yīng)運(yùn)動目標(biāo)跟蹤。文獻(xiàn)[33]使用顏色和DMG 測度為特征實(shí)現(xiàn)粒子濾波輪廓跟蹤。粒子濾波跟蹤效果如圖5所示。
圖5 粒子濾波跟蹤效果
相關(guān)濾波跟蹤方法[4]具有較強(qiáng)的魯棒性和超高的跟蹤速度,受到了國內(nèi)外學(xué)者廣泛的關(guān)注。其思想是:在首幀對目標(biāo)學(xué)習(xí)一個相關(guān)濾波器,在隨后幀中使用相關(guān)濾波器與候選區(qū)域相乘運(yùn)算,響應(yīng)值最大處為目標(biāo)位置。相關(guān)濾波跟蹤流程如圖6 所示。最初的相關(guān)濾波跟蹤沒有考慮尺度和角度變化。SAMF[34]使用尺度池解決目標(biāo)跟蹤過程中目標(biāo)尺度變化的問題,尺度池大小為7。SAMF 只需要一個濾波器,但需要計(jì)算7 次才能獲得目標(biāo)位置和尺度。DSST[35]在二維位置平移濾波器的基礎(chǔ)上增加一維尺度濾波器。兩個濾波器串聯(lián)起來并獨(dú)立工作,分別進(jìn)行目標(biāo)定位與尺度縮放。文獻(xiàn)[36]提出RAJSSC 跟蹤器算法,其將笛卡爾坐標(biāo)(x,y)變換成對數(shù)極坐標(biāo)(ρ,θ)來構(gòu)建方向?yàn)V波器實(shí)現(xiàn)旋轉(zhuǎn)估計(jì)。文獻(xiàn)[37]提出一種魯棒的旋轉(zhuǎn)角度估計(jì)算法,以核相關(guān)濾波器理論為基礎(chǔ),通過在目標(biāo)中心等角度間隔來采樣一個樣本金字塔,單獨(dú)訓(xùn)練一個角度估計(jì)濾波器,從而將目標(biāo)旋轉(zhuǎn)角估計(jì)問題變?yōu)橐粋€檢測問題。算法單獨(dú)訓(xùn)練一個位移跟蹤濾波器、一個尺度估計(jì)濾波器和一個角度估計(jì)濾波器來實(shí)現(xiàn)目標(biāo)尺度和方向自適應(yīng)跟蹤。
圖6 相關(guān)濾波跟蹤流程
文獻(xiàn)[37]構(gòu)建方向?yàn)V波器時,對目標(biāo)圖像進(jìn)行等角度間隔旋轉(zhuǎn)采樣,得到n 幅圖像,對每幅圖像縮放到固定的尺寸,用高斯函數(shù)給每個樣本賦生成一個標(biāo)簽值。同樣,構(gòu)建尺度濾波器時,對目標(biāo)圖像進(jìn)行等比例縮放采樣。方向特征采樣如圖7(a)所示,尺度特征采樣如圖7(b)所示。利用樣本特征和樣本標(biāo)簽,并使用帶核的最小二乘回歸來訓(xùn)練回歸器。
圖7 方向和尺度特征采樣
2.7.1 基于深度學(xué)習(xí)目標(biāo)跟蹤
由于深度特征對目標(biāo)擁有強(qiáng)大的表示能力,深度學(xué)習(xí)方法廣泛應(yīng)用到圖像識別、目標(biāo)檢測和目標(biāo)跟蹤中[6]。卷積神經(jīng)網(wǎng)具有權(quán)值數(shù)量少,訓(xùn)練速度快等優(yōu)點(diǎn)[38],目前,基于深度學(xué)習(xí)的跟蹤主要使用深度卷積神經(jīng)網(wǎng)。深度學(xué)習(xí)在目標(biāo)跟蹤上的應(yīng)用可以分為三種方法:
(1)深度學(xué)習(xí)與其他跟蹤框架結(jié)合。這類方法利用深度網(wǎng)絡(luò)提取深度特征,在其他跟蹤框架下執(zhí)行跟蹤過程,如:HCF[39]、ECO[40]等。
(2)基于經(jīng)典分類的方法。這類方法使用深度學(xué)習(xí)網(wǎng)絡(luò)作為跟蹤框架,可以在線更新分類器或目標(biāo)外觀模型,跟蹤性能優(yōu)越,但是大多數(shù)這類算法的速度都很慢,如:MDNet[41]、FCNT[42]等。
(3)基于匹配的跟蹤方法。這類方法使用目標(biāo)模板來匹配候選樣本,通常不需要在線更新目標(biāo)模型,所以達(dá)到了速度和精度的平衡。如:Siamese-FC[43]和GOTURN[44]等。
2017 年,Bertinetto[43]提出了Siamese-FC 跟蹤框架,其利用孿生網(wǎng)絡(luò)將跟蹤問題轉(zhuǎn)化為圖像對的匹配問題。Siamese-FC 結(jié)構(gòu)簡單,跟蹤速度快,精度高,受到了廣泛關(guān)注,成為了當(dāng)前目標(biāo)跟蹤領(lǐng)域研究最熱點(diǎn)之一。以Siamese-FC 為基礎(chǔ),衍生出了眾多優(yōu)秀的跟蹤器,如:SiamRPN[45]、DSiam[46]、Siam-BM[47]、SiamMask[8]和SiamRPN++[9]等。
2.7.2 基于深度學(xué)習(xí)目標(biāo)尺度方向跟蹤分類
基于深度學(xué)習(xí)目標(biāo)跟蹤解決尺度和方向自適應(yīng)問題有四種方法:
(1)利用深度特征,結(jié)合粒子濾波[48-50]多伯努利濾波[51]和光流[52]等框架獲得尺度和方向。
(2)采用選擇性搜索獲得尺度和方向,可以采用FPN[53](特征金字塔網(wǎng)絡(luò))和RPN[54](區(qū)域候選網(wǎng)絡(luò))等方式。FPN 利用不同層的特征圖預(yù)測不同尺度的目標(biāo)。通過使用RPN可生成候選區(qū)域ROI,然后對不同尺寸的目標(biāo),選用不同尺寸的特征圖去做識別。
(3)采用線性回歸方程訓(xùn)練并預(yù)測目標(biāo)Boundingbox[55-56](邊框)。
(4)訓(xùn)練并預(yù)測目標(biāo)Mask(掩碼)。
基于深度學(xué)習(xí)的目標(biāo)尺度方向跟蹤方法分類如圖8所示。
圖8 深度學(xué)習(xí)尺度方向自適應(yīng)方法
Bounding-box 回歸方法一般用于預(yù)測目標(biāo)尺度。文獻(xiàn)[55-56]增加了目標(biāo)旋轉(zhuǎn)角度作為方向參數(shù)。其思想是:設(shè)定候選區(qū)目標(biāo)邊框位置為(Px,Py,Pw,Ph,Pθ),真實(shí)目標(biāo)邊框位置為(Gx,Gy,Gw,Gh,Gθ),尋找映射f 使得f(Px,Py,Pw,Ph,Pθ)=(Gx,Gy,Gw,Gh,Gθ),根據(jù)約束關(guān)系可得:
Φ(P)為輸入的特征向量,w*為要學(xué)習(xí)的參數(shù),?代表x,y,w,h,θ,d*(P)為得到的預(yù)測值。設(shè)損失函數(shù)為:
則函數(shù)優(yōu)化目標(biāo)為:
利用梯度下降法或者最小二乘法就可以得到w*。邊框回歸框架可采用AlexNet[57]、VGGNet[58]、ResNet[59]、LeNet[60]網(wǎng)絡(luò)等。一種典型網(wǎng)絡(luò)結(jié)構(gòu)如圖9 所示。圖中全連接層可以使用1×1卷積替換變?yōu)榫矸e層。
圖9 LeNet邊框回歸網(wǎng)絡(luò)結(jié)構(gòu)
選擇性搜索典型例子是Siam-BM 模型[46],Siam-BM以Siamese-FC為基礎(chǔ),包含一個語義分支和一個用于特征提取的外觀分支。通過角度評估模塊和空間Mask模塊分別來解決目標(biāo)旋轉(zhuǎn)和網(wǎng)絡(luò)區(qū)分相似目標(biāo)(提高分割精度)的能力。目標(biāo)塊尺度為127×127,候選塊尺度為255×255。每個候選塊都與一個(s,a)對相關(guān)聯(lián),s 是比例因子,a是旋轉(zhuǎn)角度。候選塊及其相應(yīng)的比例角度設(shè)置為(1.037 5,0),(0.964,0),(1,0),(1,π/8),(1,-π/8)。Si‐am-BM候選塊設(shè)置如圖10所示。
圖10 Siam-BM候選塊
目標(biāo)掩碼預(yù)測是目標(biāo)跟蹤與目標(biāo)分割(實(shí)例分割)技術(shù)的結(jié)合。深度卷積神經(jīng)網(wǎng)絡(luò)已進(jìn)入目標(biāo)分割領(lǐng)域,相繼出現(xiàn)了DeepMask[61]、SharpMask[62]、Mask-RCNN[63]等分割模型。通過深度卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練目標(biāo)掩碼,當(dāng)輸入測試圖片后,用網(wǎng)絡(luò)預(yù)測出目標(biāo)掩碼。DeepMask是實(shí)例分割典型模型,模型網(wǎng)絡(luò)結(jié)構(gòu)如圖11 所示。分割模型在共享特征提取層之后,網(wǎng)絡(luò)被分成兩個分支。頂部分支預(yù)測目標(biāo)分割掩碼,底部分支預(yù)測輸入塊的目標(biāo)得分。在訓(xùn)練階段,兩個網(wǎng)絡(luò)聯(lián)合學(xué)習(xí),即端到端訓(xùn)練,每個訓(xùn)練樣本包含RGB 圖像塊xk和它的二進(jìn)制掩碼mk,標(biāo)記yk說明這個圖像塊是否包含目標(biāo)。檢測時以16像素為步長進(jìn)行滑窗檢測。
圖11 DeepMask實(shí)例分割模型
Mask 預(yù)測尺度方向方法典型實(shí)例是SiamMask 模型,該模型結(jié)合了Siamese-FC 和SharpMask 優(yōu)點(diǎn),將目標(biāo)跟蹤與目標(biāo)分割有機(jī)地結(jié)合起來,實(shí)時給出目標(biāo)的像素級標(biāo)注,通過求取掩碼的最小外接矩形可獲取目標(biāo)尺度和方向。SiamMask 有三個輸出score、bounding-box回歸和Mask。SiamMask 網(wǎng)絡(luò)結(jié)構(gòu)如圖12 所示。Siam‐Mask目標(biāo)跟蹤效果如圖13所示。
圖12 SiamMask模型
圖13 SiamMask跟蹤效果
SiamMask 和Siam-BM 都采用了孿生網(wǎng)結(jié)構(gòu),表1列出了2017 年以來出現(xiàn)的幾種經(jīng)典孿生網(wǎng)絡(luò)跟蹤算法對尺度和方向處理策略。
目標(biāo)分割的一個重要分支是視頻目標(biāo)分割,它的任務(wù)是在視頻的每一連續(xù)幀中尋找感興趣目標(biāo)的對應(yīng)像素。2016年時出現(xiàn)了兩個最重要的視頻目標(biāo)分割方法:OSVOS[64]和MaskTrack[65]。OSVOS 獨(dú)立地分割視頻的每一幀,而MaskTrack還需要考慮視頻中的時序信息。
MaskTrack 以VGG-16 網(wǎng)絡(luò)為基礎(chǔ),每一幀將前一幀的預(yù)測掩膜作為額外輸入送給網(wǎng)絡(luò),輸入有四個通道,包括當(dāng)前幀的RGB 圖像和前一幀的掩膜。使用第一幀的標(biāo)注初始化該流程。同時,增加一個基于光流場輸入的相同的網(wǎng)絡(luò),這個網(wǎng)絡(luò)模型的權(quán)重和RGB 輸入流的權(quán)重相同。通過將兩個網(wǎng)絡(luò)輸出融合取平均得到最終結(jié)果。MaskTrack 在目標(biāo)跟蹤上應(yīng)用的分割效果很好。
目標(biāo)跟蹤度量指標(biāo)[66]用來衡量跟蹤性能。常用的指標(biāo)有精確度(Precision)、中心誤差距離(CLE)、準(zhǔn)確率(Accuracy)、實(shí)時性等指標(biāo)。VOT2015[67]增加了平均重疊期望(EAO)和魯棒性(Robustness)兩個指標(biāo)對跟蹤結(jié)果進(jìn)行評估。
表1 幾種典型孿生網(wǎng)絡(luò)對比
(1)精確度是跟蹤算法估計(jì)的目標(biāo)位置(bounding box)的中心點(diǎn)與人工標(biāo)注(ground-truth)的目標(biāo)的中心點(diǎn),這兩者的距離小于給定閾值的視頻幀的百分比。一般閾值設(shè)定為20個像素點(diǎn)。
(2)中心誤差距離表示跟蹤結(jié)果的目標(biāo)位置與目標(biāo)真實(shí)位置的誤差距離。
(3)準(zhǔn)確率是指跟蹤器在單個測試序列下的平均重疊率(跟蹤結(jié)果和真實(shí)目標(biāo)兩矩形框的相交部分面積除以兩矩形框的相并部分的面積)。
(4)跟蹤算法的速度,采用幀/s表示算法的實(shí)時性。
(5)平均重疊期望是對跟蹤器在一個短時圖像序列上的非重置重疊的期望值,綜合了準(zhǔn)確率和魯棒性指標(biāo)。
(6)魯棒性是指單個測試序列下的跟蹤器失敗次數(shù),當(dāng)重疊率為0時即可判定為失敗。
前述的幾種自適應(yīng)尺度和方向跟蹤算法性能如表2所示。
一個良好的目標(biāo)跟蹤算法一般應(yīng)滿足兩個要求:一是算法魯棒性強(qiáng);二是實(shí)時性好,算法計(jì)算量少,否則無法實(shí)現(xiàn)正常跟蹤。由表2可知,增量式搜索、MeanShift迭代、區(qū)域二階矩、角點(diǎn)匹配、粒子濾波和相關(guān)濾波器等算法使用專門測試視頻或取標(biāo)準(zhǔn)測試數(shù)據(jù)集的部分視頻,說明其應(yīng)用場景較簡單,而且這些算法主要使用顏色特征,特征表示能力不強(qiáng)。深度學(xué)習(xí)方法使用深度卷積特征,特征表達(dá)更有優(yōu)勢,并在標(biāo)準(zhǔn)測試數(shù)據(jù)集上測試,能適應(yīng)各種復(fù)雜環(huán)境。MasTrack 算法在DAVIS 數(shù)據(jù)集上的測試準(zhǔn)確率達(dá)到了較高的0.748,SiamMask 和Siam-BM 在VOT 數(shù)據(jù)集測試上也取得了良好性能,說明深度學(xué)習(xí)方法算法魯棒性強(qiáng)。傳統(tǒng)算法具有運(yùn)行速度上的優(yōu)勢,僅僅使用CPU 可以滿足實(shí)時性,而深度學(xué)習(xí)方法在使用GPU情況下也可以滿足實(shí)時性。
相關(guān)匹配增量式和MeanShift增量式算法為了獲取目標(biāo)角度和橫軸和縱軸尺度,進(jìn)行多次均值迭代,精度與迭代次數(shù)有關(guān)。因此,為了獲取更高精度,需要增加迭代次數(shù),計(jì)算量較大,這樣會影響實(shí)時性。為了兼顧精度和速度需要合理選擇迭代次數(shù)。MeanShift 迭代算法大大減少了迭代步驟,只需少量次數(shù)迭代就可獲取目標(biāo)的位置、尺度和旋轉(zhuǎn)角度,相比增量式算法,實(shí)時性得到明顯改善。增量式方法和MeanShift迭代方法使用顏色直方圖特征描述目標(biāo)。因此,兩種算法對目標(biāo)形變和小范圍遮擋不敏感,但對光照變化敏感。而且,由于算法簡單其適于目標(biāo)快速運(yùn)動。
計(jì)算區(qū)域二階矩方法的優(yōu)點(diǎn)是簡單,計(jì)算量較少,跟蹤速度快。由于算法采用直方圖反投影獲得二值圖像,所以其對目標(biāo)形變和部分遮擋不敏感。如果跟蹤背景較為復(fù)雜或者物體的紋理較為豐富,那么此二值圖像的噪聲就很多,影響對目標(biāo)位置的判斷,導(dǎo)致跟蹤效果下降,所以區(qū)域二階矩方法適用于物體表面顏色較為單一,并且和背景顏色差距較大,尤其適合于固定背景下的目標(biāo)跟蹤,如:水中目標(biāo)跟蹤[68]、手勢跟蹤[69]等。區(qū)域二階矩有很多改進(jìn)算法,如采用中值濾波抗干擾[70]能適合較復(fù)雜環(huán)境。
角點(diǎn)特征對于圖像旋轉(zhuǎn)、縮放、仿射變換、普通光照變化等均保持一定不變性,其獨(dú)特性、穩(wěn)定性較好,較小的物體也能產(chǎn)生較多的SIFT 特征點(diǎn),適合于匹配跟蹤。但在形變和光照變化大情況下,角點(diǎn)匹配精度不高。因此,角點(diǎn)匹配算法適合于對剛體目標(biāo)的跟蹤,不太適合于復(fù)雜環(huán)境和對非剛體的目標(biāo)跟蹤,易導(dǎo)致跟蹤失敗。而且,角點(diǎn)檢測和RANSAC 算法時間開銷較多,影響跟蹤的實(shí)時性。
表2 算法的跟蹤性能
粒子濾波跟蹤在系統(tǒng)初始狀態(tài)未知情況下,使用大量的粒子對系統(tǒng)狀態(tài)進(jìn)行預(yù)估,個別粒子的漂移不會顯著地影響系統(tǒng)狀態(tài),所以其對目標(biāo)形變、部分遮擋具有魯棒性。粒子數(shù)量影響跟蹤精度和實(shí)時性,為了實(shí)現(xiàn)兩者平衡,需合理選擇粒子數(shù)量。粒子數(shù)量的選擇可根據(jù)場景情況自適應(yīng)確定[71]。另外,由于傳統(tǒng)粒子濾波算法采用RGB 顏色特征描述目標(biāo),因此跟蹤對光照變化比較敏感??梢圆捎枚喾N特征描述目標(biāo)以適應(yīng)跟蹤場景和光照的變化,并自適應(yīng)分配各種特征的權(quán)重以提升算法的精度和魯棒性[72]。
基于相關(guān)濾波器的尺度和方向自適應(yīng)跟蹤構(gòu)造三級濾波器[35-36]:定位濾波器、角度濾波器和尺度濾波器。根據(jù)定義的尺度池和方向池,每幀尺度檢測需要采樣多個圖像塊,之后分別計(jì)算特征、加窗、FFT 運(yùn)算等,因此,方向?yàn)V波器和尺度濾波器比平移濾波器慢很多。方向精度和尺度精度分別取決于方向池和尺度池大小設(shè)置。與上述尺度和方向自適應(yīng)方法相比,由于相關(guān)濾波跟蹤算法采用了核回歸和循環(huán)移位等技術(shù),其可以有效解決目標(biāo)形變、快速運(yùn)動、部分遮擋等問題,并且由于使用了HOG空間特征,其對光照變化有魯棒性。
深度學(xué)習(xí)預(yù)測尺度和方向的幾種方法在實(shí)驗(yàn)中都取得了較好效果,對部分遮擋、光照變化有較好適應(yīng),適合于復(fù)雜環(huán)境的目標(biāo)跟蹤任務(wù)。深度學(xué)習(xí)網(wǎng)絡(luò)目標(biāo)表示能力強(qiáng)以及預(yù)測任何輸出,粒子濾波、相關(guān)濾波和光流等算法具有良好的目標(biāo)尺度和方向變化處理能力,并有速度上優(yōu)勢,所以兩者有機(jī)結(jié)合會提高跟蹤性能。傳統(tǒng)算法如何融入到深度學(xué)習(xí)框架中以及深度學(xué)習(xí)網(wǎng)絡(luò)如何融入到傳統(tǒng)算法框架中是關(guān)鍵;選擇性搜索方法用多尺度、多方向測試,增加了計(jì)算量且不夠精確;邊框回歸方法訓(xùn)練時選擇的樣本與Groundtruth 距離比較近,在one-shot detection 時,訓(xùn)練出的回歸模型適合于前后幀目標(biāo)變化較小情況;Mask 預(yù)測方法使用Mask 分支預(yù)測精度并不高,一般使用Refine Module 來提升分割精度,導(dǎo)致網(wǎng)絡(luò)結(jié)構(gòu)較為復(fù)雜。表3 給出了深度學(xué)習(xí)預(yù)測尺度和方向各種方法的優(yōu)缺點(diǎn)。基于孿生網(wǎng)絡(luò)的在跟蹤精度和跟蹤速度上得到了較好平衡。但孿生網(wǎng)絡(luò)設(shè)計(jì)方案不需要在線模型更新,當(dāng)目標(biāo)發(fā)生較大的外觀變化時,會造成目標(biāo)候選框與目標(biāo)模板出現(xiàn)較大差異,易導(dǎo)致跟蹤失敗,若要提升跟蹤穩(wěn)定性,需要有高效在線學(xué)習(xí)算法。另外,孿生網(wǎng)絡(luò)對小目標(biāo)跟蹤效果不好,也是需要改進(jìn)的地方。用卷積神經(jīng)網(wǎng)實(shí)現(xiàn)目標(biāo)分割,一般使用較深層次的卷積神經(jīng)網(wǎng),構(gòu)建快速的小網(wǎng)絡(luò)更具有實(shí)際意義。
綜上所述,未來的研究方向可以從以下幾個方面來進(jìn)行:
(1)基于深度學(xué)習(xí)尺度方自適應(yīng)跟蹤是主流研究方向。孿生網(wǎng)絡(luò)框架下的目標(biāo)跟蹤是目前研究熱點(diǎn),孿生網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化一直在進(jìn)行中,出現(xiàn)了許多改進(jìn)算法,主要是從均衡采樣,多層特征融合,在線更新等方面考慮,改進(jìn)后的跟蹤性能得到了明顯提升。對于孿生網(wǎng)尺度方向自適應(yīng)未來研究可以從以下幾個方面考慮:①M(fèi)ask分支選擇何種網(wǎng)絡(luò)結(jié)構(gòu)是關(guān)鍵,為了加快分割速度,簡化結(jié)構(gòu)是趨勢,而且分割精度與數(shù)據(jù)量有關(guān),需要大量訓(xùn)練樣本。②視覺目標(biāo)跟蹤具有時空的相關(guān)性,可以使用深度學(xué)習(xí)模型來獲取這種相關(guān)性。③多種尺度方向自適應(yīng)策略結(jié)合有助于提高跟蹤性能,因此,多種自適應(yīng)策略結(jié)合方法,并增加全局優(yōu)化是應(yīng)該考慮的。如:采用MaskTrack 和SiamMask 多分支深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)。④高效在線學(xué)習(xí)模型。分析環(huán)境上下文關(guān)系,自適應(yīng)根據(jù)場景進(jìn)行學(xué)習(xí)。⑤提升泛化性能。引入學(xué)習(xí)方法使深度網(wǎng)絡(luò)具有one-shot learning 能力,提升對未知類別的泛化性能。⑥更精確預(yù)測。深度網(wǎng)絡(luò)要能很好地分辨出目標(biāo)差異,提高跟蹤精確度。
(2)深度學(xué)習(xí)跟蹤與其他算法結(jié)合使用具有潛力。文獻(xiàn)[73]提出了MFT 跟蹤算法,該算法基于ECO,并加入了卡爾曼濾波運(yùn)動估計(jì)模塊,深度模型使用ResNet。Danelljan[74]提出ATOM 模型,使用粒子濾波搭配IOU 預(yù)測,經(jīng)過多次迭代得到目標(biāo)結(jié)果。兩種算法在VOT 測試中表現(xiàn)了良好效果。所以,傳統(tǒng)算法與深度學(xué)習(xí)取長補(bǔ)短,兩者結(jié)合具有潛力。
(3)長時間目標(biāo)尺度和方向自適應(yīng)跟蹤仍是難題。目標(biāo)跟蹤的目標(biāo)是保持長時間穩(wěn)定的跟蹤。正確跟蹤時間要達(dá)到幾分鐘或十幾分鐘。但是,在各種復(fù)雜環(huán)境下,隨著跟蹤進(jìn)行模板必然會漂移。所以,short-term tracker+detecter(短期跟蹤+檢測)配合才能實(shí)現(xiàn)正確的長時間跟蹤。跟蹤過程中不僅要考慮尺度、方向變化、而且考慮目標(biāo)形變、快速運(yùn)動、以及遮擋、光照等情況。
表3 深度學(xué)習(xí)預(yù)測尺度和方向方法比較
在VOT2015[67]時提出使用旋轉(zhuǎn)矩形框來標(biāo)識目標(biāo),在VOT2016[75]時提出自動的通過Mask掩碼來生成旋轉(zhuǎn)框的方法,Ground_truth 標(biāo)注的跟蹤框轉(zhuǎn)向像素級。可見尺度和方向自適應(yīng)目標(biāo)跟蹤已成為今后目標(biāo)跟蹤發(fā)展趨勢。
本文對現(xiàn)有主要尺度和方向自適應(yīng)目標(biāo)跟蹤主要算法進(jìn)行分析和總結(jié),可以得出:基于深度學(xué)習(xí)的尺度和方向自適應(yīng)跟蹤已成為了一個研究熱點(diǎn)。其不論是在精度或是魯棒性上,表現(xiàn)都比經(jīng)典的跟蹤方法有較大的提升。但是由于跟蹤場景的復(fù)雜性,仍然沒有完美的解決方案。因此,設(shè)計(jì)出一種魯棒性強(qiáng)、實(shí)時性好、適用面廣的自適應(yīng)尺度和方向的目標(biāo)跟蹤算法是業(yè)界內(nèi)的一個長期奮斗目標(biāo)。