張豐,馮平
摘? 要: 研究近年來主流的目標跟蹤算法。通過文獻閱讀和歸納對比,分析了使用生成式模型和判別式模型的目標跟蹤算法。結(jié)果顯示,對于存在復(fù)雜干擾因素的場景,采用第二類模型的目標跟蹤算法的跟蹤效果更好。文章為視頻跟蹤領(lǐng)域的研究者們提供了一個關(guān)于目標跟蹤算法的客觀分析。
關(guān)鍵詞: 目標跟蹤; 深度學(xué)習(xí); 相關(guān)濾波; 計算機視覺
中圖分類號:TP399? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2022)01-32-04
Overview on video target tracking
Zhang Feng, Feng Ping
(Guizhou University of Finance and Economics, Guiyang, Guizhou 550025, China)
Abstract: This paper focuses on the mainstream target tracking algorithms in recent years, and analyzes the target tracking algorithms using generative and discriminative models through literature reading and inductive comparison. The results show that for the scenes with complex interference factors, the target tracking algorithms using the second kind of model have better tracking effect. This paper provides an objective analysis of target tracking algorithms for researchers in the field of video tracking.
Key words: target tracking; deep learning; correlation filtering; computer vision
0 引言
根據(jù)人們對感知覺的研究發(fā)現(xiàn),人們通過視覺、聽覺、味覺、嗅覺和膚覺來接受外部的刺激,其中視覺是人們獲取外部刺激的最主要途徑,約占80%。為了讓計算機可以與人一樣擁有視覺的能力,計算機視覺這一學(xué)科被提出。
視頻目標跟蹤是計算機視覺的一個重要研究方向,這個技術(shù)在人們?nèi)粘I钪幸灿泻芏鄳?yīng)用。例如:智能視頻監(jiān)控、現(xiàn)代化軍事、基于視頻的人機交互、智能交通系統(tǒng)、智能視覺導(dǎo)航、三維重建、虛擬現(xiàn)實、增強現(xiàn)實等方面[1]。目標跟蹤的任務(wù)是在給定第一幀目標的位置和狀態(tài)后,在后續(xù)幀中能識別,跟蹤到目標的位置狀態(tài)。這個任務(wù)可以分為四個步驟。①運動模型:以給定的目標框為中心在其附近生成多個候選框。②特征提?。簩ι傻暮蜻x框進行特征的提取和分析。③觀測模型:根據(jù)提取和分析的結(jié)果選出優(yōu)的候選框,這是最重要的一個步驟,也是研究者的主要研究的地方。④模型更新:由于目標是動態(tài)的,不能只以固定一幀里的目標作為參考模型,要及時地更新。
現(xiàn)實環(huán)境中進行跟蹤任務(wù)會由于環(huán)境的改變或者目標的運動而出現(xiàn)難點。
⑴ 光照的變化:在進行跟蹤時,現(xiàn)場燈光明暗的變化會使目標可提取的特征減少。
⑵ 遮擋:當目標被障礙物部分或者完全遮擋,這時候可獲取的信息會變少。
⑶ 背景混雜:當目標出現(xiàn)在周圍環(huán)境比較復(fù)雜的地方,會有許多背景因為與目標的特征相似而被誤認。
⑷ 快速運動:當目標快速運動時會產(chǎn)生運動模糊的情況,影響特征提取。
⑸ 尺度變化:由于目標與拍攝設(shè)備的距離發(fā)生變化,因此目標在視頻中大小也會發(fā)生變化,會影響目標的選定。
⑹ 姿態(tài)變化:當目標在運動過程中肢體發(fā)生變化,這會使目標的外觀有比較大的改變,從而影響跟蹤。
這些問題都不會單獨出現(xiàn),一個跟蹤任務(wù)中目標可能會發(fā)生其中幾種情況,因此研究一個強魯棒性和高精確性的算法是十分重要的。
1 目標跟蹤算法
隨著目標跟蹤技術(shù)的發(fā)展,大量的算法涌現(xiàn)。我們可以根據(jù)其在觀察模型中采用的方法不同把這些算法分為兩大類,一種是生成式模型和判別式模型。其中判別式模型里面又分為基于相關(guān)濾波的和基于深度神經(jīng)網(wǎng)絡(luò)的模型。
1.1 生成式模型
生成式模型是最早期的目標跟蹤的模型,運用這個模型的算法有光流法、粒子濾波、Meanshift算法,Camshift算法等[2],生成式模型首先會對目標進行特征提取然后根據(jù)特征來構(gòu)建目標的模型,最后用該模型去與每一幀圖片進行匹配,挑選與模型最相似的地方作為該幀圖片中目標的位置。根據(jù)建立模型的方法可以把生成式模型分為基于核的算法,基于子空間的算法和基于稀疏表示的算法。生成式模型有一個嚴重的缺點就是其模型沒有進行更新一直使用任務(wù)開始時構(gòu)建的模型,沒有考慮到任務(wù)過程中環(huán)境變化對目標狀態(tài)的影響,當有的幀中目標比較清晰的時候,可以比較好的找到目標。但當目標出現(xiàn)被遮擋或者處于環(huán)境光線條件不好的情況下,用這個模型來追蹤效果就不盡如人意了。
1.2 判別式模型
判別式模型是目前研究目標跟蹤的主流模型,這個模型把目標跟蹤問題轉(zhuǎn)化為了一個二分類問題,通過模型把目標與背景進行分離,從而獲得目標。這一種模型能很好的解決目標處于環(huán)境條件復(fù)雜的狀況下的跟蹤問題,而這個模型中根據(jù)使用的特征不同分為基于相關(guān)濾波和基于深度學(xué)習(xí)的兩種算法。
1.2.1 基于相關(guān)濾波的跟蹤算法
相關(guān)濾波本來是用于信號處理的,用來描述兩個信號的相關(guān)性。文獻[3]首先把這技術(shù)用于目標跟蹤領(lǐng)域并提出了MOSSE算法,該算法首先在首幀中提取目標的單通道灰度特征用來訓(xùn)練濾波器,再在下一幀中提取特征并與濾波器相乘,得到最大響應(yīng)點從而確定目標的位置,最后再把該幀的特征用于訓(xùn)練濾波器從而進行下一幀中目標的確定。后來文獻[4]在MOSSE的基礎(chǔ)上進行了改進提出了CSK算法,該算法采用循環(huán)矩陣去進行采樣從而獲得大量的循環(huán)樣本使濾波器更好的學(xué)習(xí)而且加入核函數(shù)使得高維空間中難以計算的值可以在低維空間中進行運算加快了模型的速度。這兩種算法都是采用的單通道的數(shù)據(jù)作為輸入的。而文獻[5]提出了KCF算法采用了多通道的HOG特征作為輸入并且利用了循環(huán)矩陣在傅里葉空間可對角化的性質(zhì)極大的減少運算量,這個算法與之前算法相比,準確率有了明顯的提高,但是由于該算法把目標框預(yù)先設(shè)定好,當目標出現(xiàn)尺度變化或姿態(tài)變化時不能有效的進行跟蹤。
對于尺度自適應(yīng)這個問題,文獻[6]提出了SAMF算法,該算法采用了尺度池的方法來應(yīng)對跟蹤中目標的尺度自適應(yīng)問題,并且提出把HOG特征,灰度特征和CN特征三者進行了結(jié)合來代替單特征的輸入。文獻[7]中提出了DSST算法,該算法解決尺度自適應(yīng)這問題提出采用了兩個濾波器的方法,把定位任務(wù)和尺度估計任務(wù)分開,先確定目標的中心位置,再根據(jù)中心點周圍的響應(yīng)來確定目標的尺度,這樣把任務(wù)分成兩部分可以使速度加快而且也便于單用其中一個功能來與其他算法相結(jié)合。在使用濾波器的算法中,由于進行快速傅里葉變換時會導(dǎo)致圖像信號缺失從而出現(xiàn)邊界效應(yīng),文獻[8]中的SRDCF算法采用了空間正則來解決這個問題,先獲得稍大的信號,然后通過引入懲罰機制,消除距離響應(yīng)中心最遠的信號。
1.2.2 基于深度學(xué)習(xí)的跟蹤算法
在目標跟蹤的任務(wù)中,獲取目標的特征是一個關(guān)鍵的問題,而深度學(xué)習(xí)在其他領(lǐng)域中已經(jīng)表現(xiàn)出了其強大的特征提取和表達能力,因此深度學(xué)習(xí)開始被應(yīng)用到了目標跟蹤領(lǐng)域,目前比較常用的神經(jīng)網(wǎng)絡(luò)模型有AlexNet,VggNet,ResNet,YoLo,GAN。一開始研究者采取的策略是用深度特征替換之前通過濾波器得到的特征,文獻[9]中提出的DeepSRDCF算法就是在相關(guān)濾波算法SRDCF的基礎(chǔ)上使用深度特征來替代原本的手工特征。而文獻[9]中提出的HCF算法采用的是KCF的框架,把其中的HOG特征替換成經(jīng)過VGG網(wǎng)絡(luò)訓(xùn)練完的深度特征。后來出現(xiàn)了深度網(wǎng)絡(luò)與濾波相結(jié)合的方法,文獻[10]中的C-COT算法先用VGG網(wǎng)絡(luò)同時提取目標多通道的特征,并且每個通道都對應(yīng)有一個濾波器,然后把經(jīng)過濾波的特征圖進行卷積和加權(quán)的工作,最后在采用插值的方法來獲得最后的響應(yīng)圖,這個方法的準確率高但是由于網(wǎng)絡(luò)太過大速度比較慢。后來文獻[11]提出了ECO算法,通過降低濾波器的維度以及在不影響特征多樣的情況下減少特征的數(shù)量來使模型加速。
從這些算法的實現(xiàn)結(jié)果來看,深度特征的運用可以使跟蹤結(jié)果更準確,同時還知道了淺層的網(wǎng)絡(luò)比較適合目標定位,而深層的網(wǎng)絡(luò)比較適合確定目標范圍。
隨后的目標跟蹤任務(wù)就不只是采用替換特征的方法,而是直接使用深度學(xué)習(xí)的方法,但是深度神經(jīng)網(wǎng)絡(luò)需要通過大量的數(shù)據(jù)訓(xùn)練才能擁有較強的特征提取能力。文獻[12]提出通過線下訓(xùn)練與在線微調(diào)的方法來解決獲取樣本數(shù)據(jù)量這個問題,這是首次運用深度學(xué)習(xí)的跟蹤算法,從此基于深度學(xué)習(xí)的跟蹤算法也慢慢發(fā)展起來。此后文獻[13]提出了一種基于分類的深度學(xué)習(xí)跟蹤算法MDNet,該算法采用小型VGG網(wǎng)絡(luò),而且作者認為不同訓(xùn)練視頻中目標之間有共性的特征,因此采用了多域訓(xùn)練的方式來進行跟蹤訓(xùn)練,這個算法在速度與應(yīng)對目標被遮擋的問題時表現(xiàn)不佳,因此文獻[14]在MDNet的基礎(chǔ)上加入GAN網(wǎng)絡(luò)提出VITAL算法,通過GAN網(wǎng)絡(luò)來生成遮擋情況下的正樣本從而使分類器擁有應(yīng)對目標被遮擋的問題。文獻[15]提出孿生神經(jīng)網(wǎng)絡(luò)(SiamFC),該算法把跟蹤看成是解決相似性問題,采用兩個Alexnet網(wǎng)絡(luò)組成雙分支結(jié)構(gòu)網(wǎng)絡(luò),其中一個分支用于提取樣本圖像特征,另一個分支用于提取搜索圖像的特征,做相似性比較,取響應(yīng)最大的地方作為目標中心。由于這個算法只能獲得目標中心,不能很好地應(yīng)對尺度變化問題,因此文獻[15]在文獻[16]的基礎(chǔ)上加入了RPN網(wǎng)絡(luò),解決了這個問題。
2 常用數(shù)據(jù)集
為了使神經(jīng)網(wǎng)絡(luò)更好的進行工作,必須做的一步就是調(diào)參,而調(diào)參的過程需要有大量的數(shù)據(jù)。因此一個優(yōu)秀的數(shù)據(jù)集可以使網(wǎng)絡(luò)更好的運行,下面將介紹幾個常用的數(shù)據(jù)集及其評價指標。
⑴ OTB:2013年Wu等人在CVPR上提出了OTB2013數(shù)據(jù)集,這個數(shù)據(jù)集里包含了51個視頻序列,有灰度和彩色圖像,都是以日常場景為背景,再把目標跟蹤常見的困難呈現(xiàn)出來。2017年作者把OTB2013進行擴容,把視頻序列增加到了100個形成OTB2017。OTB數(shù)據(jù)集的評價指標有精確圖(Precision Plot)、成功率圖(Succes Plot)、OPE、TRE、SRE。
⑵ VOT:VOT數(shù)據(jù)集是指每年視覺目標跟蹤競賽中舉辦方提供的數(shù)據(jù)集,里面通常含有60個彩色視頻序列,每年都會替換部分視頻。該數(shù)據(jù)集有一個特別的機制,即當程序跟丟目標的五幀后,會把程序初始化,使數(shù)據(jù)集得到充分利用。VOT數(shù)據(jù)集中的評價指標主要有Accuracy、Robustness。
⑶ Temple Color 128:TColor-128數(shù)據(jù)集是在2015年提出,全為彩色視頻序列,若算法只適用于彩色可以采用該數(shù)據(jù)集,評價標準與OTB相似。
⑷ LaSOT:LaSOT數(shù)據(jù)集主要收錄的是長時間的視頻序列,里面含有70個類別,1400個視頻序列。該數(shù)據(jù)集主要從YouTube上獲取,主要是生活的場景。該數(shù)據(jù)集提供了一致的可視化邊界標注,給使用者提供了便利。主要評價指標有精度、標準化精度、成功率。
⑸ UAV123:UAV123數(shù)據(jù)集是一個當一場景的數(shù)據(jù)集,全部視頻序列都是由無人機拍攝的。整個數(shù)據(jù)集由123個視頻序列,其視頻特點為視角的變化多,背景干凈。
3 展望
目前,目標跟蹤中的算法有專注跟蹤速度和專注于跟蹤精度的,前者的準確性不高容易造成目標的丟失,后者的速度不夠不能很好的用于實際的場景中,因此一個能同時把準確性和速度同時兼顧的算法是未來的一個研究方向。另外,通過淺層網(wǎng)絡(luò)提取出來的特征在面對目標形變等問題使會影響跟蹤,所以現(xiàn)在目標跟蹤算法中運用的網(wǎng)絡(luò)越來越深了,雖然網(wǎng)絡(luò)的加深可以是目標的特征更加突出,但是圖像的特征分辨率會變低信息就會被忽視,而且越深的網(wǎng)絡(luò)耗時也越多,對需要實時的跟蹤任務(wù)會造成困難,因此我覺得如何把深淺網(wǎng)絡(luò)的優(yōu)勢結(jié)合再進行跟蹤也是以后的一大發(fā)展趨勢。最后,目前的算法都只是在短時間的跟蹤中取得良好的成績。但當面對長時間任務(wù)時表現(xiàn)不好,在長時間任務(wù)中目標會經(jīng)常出現(xiàn)短期消失或長時間消失的情況,算法在追蹤失敗后難以重新識別和追蹤目標,因此設(shè)計一個在長期任務(wù)中能穩(wěn)定跟蹤的算法也是一個研究趨勢。
4 總結(jié)
目標跟蹤領(lǐng)域的研究開始了十多年,從最早的生成式算法,到基于相關(guān)濾波的算法再到現(xiàn)在的基于深度學(xué)習(xí)算法,已經(jīng)取得了很大的進步,在很多行業(yè)里面也有很好的應(yīng)用,越來越多的人也開始重視目標跟蹤的發(fā)展。本文介紹了在目標跟蹤領(lǐng)域具有代表性的幾個算法,簡要的分析算法的原理和優(yōu)缺點,以及對目標跟蹤領(lǐng)域未來的發(fā)展進行了展望,目標跟蹤技術(shù)仍有很大的發(fā)展空間,一個有強魯棒性,高精確性和高速的算法仍然被人們所期待,相信在研究者共同努力下,完成這個任務(wù)的時間不會太久。
參考文獻(References):
[1] 盧湖川,李佩霞,王棟.目標跟蹤算法綜述[J].模式識別與人工智能,2018,31(1):61-76
[2] 孟琭,楊旭.目標跟蹤算法綜述[J].自動化學(xué)報,2019,45(7):1244-1260
[3] Bolme DS,Beveridge JR, Draper BA,et al. Visual object?tracking using adaptive correlation filters[C]. IEEE Computer Society? Conference on Computer Vision and Pattern Recognition,2010:2544-2550
[4] Henriques J F, Caseiro R, Martins P, et al.: Exploiting the Circulant Structure of Tracking-by-Detection with Kernels[M].Fitzgibbon A, Lazebnik S, Perona P, Sato Y, Schmid C,editor,Computer Vision-Eccv 2012, Pt Iv,2012:702-715
[5] Henriques J F, Caseiro R, Martins P, et al. High-Speed Tracking with Kernelized Correlation Filters[J]. Ieee Transactions on Pattern Analysis and Machine Intelligence,2015,37(3):583-596
[6] LI Y,ZHU J K.A Scale Adaptive Kernel Correlation Filter Trac-ker with Feature Integration //Proc of the European Conference on Computer Vision. Berlin,Germany: Springer,2014:254-265
[7] Danelljan M, Hager G, Khan F S, Felsberg M. Accuratescale estimation for robust visual tracking.In:Proceed-ings British Machine Vision Conference. London, England:BMVA Press,2014,65:1-11
[8] DANELLJAN M, HAGERG, KHAN F S, et al.Learning-spatially regularized correlation filters for visual tracking[C]//Proceedings of the IEEE International Conference on Computer Vision.2015:4310-4318
[9] DANELLJAN M,HGER G,KHAN F S,et al.Learning?Spatia-lly Regularized Correlation Filters for Visual Tracking //Proc ofthe IEEE International Conference on Computer Vision.Washing-ton,USA:IEEE,2015:4310-4318
[10] DANELLJAN M, ROBINSON A, KHAN F S, et al.Beyond Co-rrelation Filters: Learning Continuous Convolution Operators forVisual Tracking //Proc of the European Conference on Computer Vision. Berlin,Germany: Springer,2016:472-488
[11] DANELLJAN M, BHAT G, KHAN F S, et al.ECO:Efficient Convolution Operators for Tracking[C/OL]. [2017-10-21].https://arxiv.org/pdf/1611.09224pdf.
[12] Wang NY, Yeung DY. Learning a deep compact image representation for visual tracking. In: Proceedings of the 26th International Conference on Neural Information Pro-cessing Systems.Lake Tahoe, Nevada: Curran Associates Inc.,2013:809?817
[13] Nam H,Han B. Learning Multi-Domain ConvolutionalNeural Networks for Visual Tracking[J],2015
[14] Song Y B, Ma C, Wu X H, Gong L J, Bao L C, Zuo W M,et.al. Visual tracking via adversarial learning. In: Proceedings of the 2018 IEEE Conference on Computer Vision and Pat-tern Recognition. Salt Lake City, Utah, USA:IEEE,2018:1084?1093
[15] Bertinetto L, Valmadre J, Henriques J F, et al. Fully-convolutional siamese networks for object tracking[C]. European conference on computer vision,2016:850-865
[16] Li B, Yan J, Wu W, et al. High performance visual tracking with? siamese region proposal network[C].Proceedings of the IEEE Conference of Computer Vision and Pattern Recognition,2018