程 朋, 劉鵬程, 程 誠, 周祥東, 石 宇
(中國科學(xué)院大學(xué) 中國科學(xué)院重慶綠色智能技術(shù)研究院,重慶 400714)
目標(biāo)跟蹤一直是計(jì)算機(jī)視覺領(lǐng)域研究的熱點(diǎn)問題,其相關(guān)研究成果在軍事科技、社會安全和生活娛樂等眾多領(lǐng)域有著廣泛的應(yīng)用[1]。目標(biāo)跟蹤算法的任務(wù)是只在視頻序列幀的第一幀通過一個矩形框的形式給出需要跟蹤的目標(biāo),即使在后續(xù)的視頻幀中出現(xiàn)多種變化,如形變,遮擋,光線的變化等,仍然可以定位到目標(biāo)的位置。
許多研究將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[2]應(yīng)用在目標(biāo)跟蹤中,然而,跟蹤目標(biāo)具有不確定性,使得在目標(biāo)跟蹤領(lǐng)域充分利用CNN強(qiáng)大的表觀能力是非常困難的。于是大部分算法采用在線學(xué)習(xí)的方式,隨著目標(biāo)的改變更新CNN模型。雖然取得了不錯的跟蹤效果,但實(shí)時更新模型帶來的巨大計(jì)算量嚴(yán)重地影響了算法的實(shí)時性。
本文提出了一種基于CNN的實(shí)時跟蹤算法,利用離線學(xué)習(xí)的方式,使網(wǎng)絡(luò)模型學(xué)習(xí)到跟蹤目標(biāo)的表觀特征與運(yùn)動之間的普遍規(guī)律,在不需要在線更新模型的情況下,得到目標(biāo)的位置和對應(yīng)預(yù)測結(jié)果的置信度,使算法在實(shí)時性和準(zhǔn)確性上均有不錯的表現(xiàn)。置信度的預(yù)測與目標(biāo)位置坐標(biāo)的回歸預(yù)測具有正相關(guān)性,即正確的目標(biāo)位置回歸區(qū)域應(yīng)該有較高的置信度保證該區(qū)域包含待跟蹤目標(biāo),置信度的引入有助于提升算法的跟蹤性能,同時反饋了更多的跟蹤信息。
文獻(xiàn)[3]對具有5層卷積層的AlexNet[4]進(jìn)行了分析,指出隨著卷積層的增加,網(wǎng)絡(luò)提取的特征具有更強(qiáng)的語義信息,但同時也會遺失含有精確位置的空間信息。不同于目標(biāo)檢測等任務(wù),物體的位置信息對目標(biāo)跟蹤至關(guān)重要。本文為了保留較多的空間信息,使用AlexNet的前3層卷積層提取圖片的特征,具體網(wǎng)絡(luò)結(jié)構(gòu)如圖1。為了使模型學(xué)習(xí)到由運(yùn)動帶來的視頻幀間的差異,使用雙通道網(wǎng)絡(luò),其中一通道的輸入用于目標(biāo)跟蹤,另一通道的輸入為搜索區(qū)域。通過卷積層提取到兩部分特征信息后,將其拼接作為全連接層的輸入。全連接層具有3層,每一層有4 096個節(jié)點(diǎn),用于學(xué)習(xí)表觀特征與運(yùn)動之間的普遍規(guī)律。將全連接層的最后一層與只含有4個節(jié)點(diǎn)的輸出層連接,通過回歸得到預(yù)測結(jié)果,即目標(biāo)的位置坐標(biāo),同時也與Softmax層相連,得到預(yù)測結(jié)果的置信度。置信度指當(dāng)前幀的搜索區(qū)域含有跟蹤目標(biāo)的可能性,與目標(biāo)位置的預(yù)測具有正相關(guān)性,兩者的協(xié)同學(xué)習(xí)有助于提升各自估計(jì)模型的性能。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)
本文提出的算法中對一張圖像的損失函數(shù)定義為
(1)
(2)
對于位置坐標(biāo)回歸損失,使用歐氏距離衡量準(zhǔn)則,對應(yīng)的損失函數(shù)定義為
(3)
利用數(shù)據(jù)增強(qiáng)在單張圖片上進(jìn)行訓(xùn)練,并用視頻幀進(jìn)行fine-tune的方式進(jìn)行訓(xùn)練[5]。整個過程中通過反向傳播和隨機(jī)梯度下降法(stochastic gradient descent,SGD)[6]對網(wǎng)絡(luò)的參數(shù)更新。
1.3.1 使用圖片進(jìn)行訓(xùn)練
(4)
(5)
式中w,h為目標(biāo)區(qū)域的寬和高;Δx,Δy為均值為0、尺度參數(shù)為1/5的拉普拉斯分布的隨機(jī)變量。經(jīng)過平移后
w*=w·γw
(6)
h*=h·γh
(7)
圖2 數(shù)據(jù)增強(qiáng)示例
1.3.2 使用視頻幀進(jìn)行fine-tune
圖3 視頻幀訓(xùn)練樣本示例
在進(jìn)行跟蹤時,首先根據(jù)標(biāo)注信息得到第一幀中跟蹤目標(biāo)的信息,然后從第二幀起,依次向網(wǎng)絡(luò)中輸入相鄰兩幀圖片中前一幀預(yù)測的目標(biāo)區(qū)域和當(dāng)前幀中相同位置的區(qū)域。通過網(wǎng)絡(luò)計(jì)算得到每一幀預(yù)測的結(jié)果和對應(yīng)的置信度。整個跟蹤過程中,CNN不進(jìn)行反向傳播,不需要在線學(xué)習(xí)更新模型參數(shù)。
在VOT2014數(shù)據(jù)集上對跟蹤算法的性能進(jìn)行測試。VOT2014數(shù)據(jù)集包括25組視頻幀,涉及到目標(biāo)跟蹤過程中目標(biāo)發(fā)生的各種基本變化,如目標(biāo)形變,目標(biāo)遮擋,光線變化等。VOT測試工具在跟蹤算法丟失目標(biāo)后會重新對其進(jìn)行初始化,通過預(yù)測結(jié)果與標(biāo)注信息計(jì)算準(zhǔn)確性的同時,也會給出跟蹤算法跟蹤失敗的次數(shù),即跟蹤算法的魯棒性。測試分為兩種類型:無噪聲干擾(Baseline)和有噪聲干擾(Region_noise)。關(guān)于測試工具更多的信息可以參考文獻(xiàn)[9]。通過與VOT2014挑戰(zhàn)賽的公開結(jié)果進(jìn)行比較,得到排名結(jié)果如圖4所示,性能越好的跟蹤算法越接近圖中右上角,可以看出本文算法(圖中實(shí)心圓所示)的性能達(dá)到了當(dāng)前領(lǐng)先水平。
圖4 排名結(jié)果
本文列出一些近期基于CNN跟蹤算法的實(shí)驗(yàn)平臺和跟蹤速度,具體如表1。跟蹤算法具有很好的跟蹤效果,但由于在跟蹤時需要對網(wǎng)絡(luò)模型進(jìn)行頻繁的更新,導(dǎo)致巨大的運(yùn)算量,處理速度達(dá)不到實(shí)時性的要求。本文提出的基于CNN的跟蹤算法在跟蹤時不需要進(jìn)行在線學(xué)習(xí),速度可以達(dá)到90幀/s左右,具有較好的實(shí)時性。
表1 跟蹤速度的比較
提出的基于CNN的實(shí)時跟蹤算法,在公共視頻幀數(shù)據(jù)集不充足的情況下,利用靜態(tài)圖片進(jìn)行數(shù)據(jù)增強(qiáng),模擬現(xiàn)實(shí)運(yùn)動,實(shí)現(xiàn)了雙通道CNN的離線訓(xùn)練,學(xué)習(xí)相鄰兩幀之間的差異。在進(jìn)行跟蹤時,將前一幀預(yù)測的位置信息作為當(dāng)前幀的搜索區(qū)域,通過網(wǎng)絡(luò)回歸得到目標(biāo)的位置和對應(yīng)置信度的預(yù)測。通過在VOT2014數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),并與VOT2014挑戰(zhàn)賽的公開結(jié)果進(jìn)行比較,在無噪聲干擾和有噪聲干擾條件下,本文算法的準(zhǔn)確性和魯棒性的排名均處在領(lǐng)先位置。與此同時,算法運(yùn)行速度可以達(dá)到90幀/s左右,相比其他方法具有更好的實(shí)時性。如何利用預(yù)測結(jié)果的置信度對算法在跟丟目標(biāo)后進(jìn)行處理是以后的工作方向。
參考文獻(xiàn):
[1] Yilmaz A,Javed O,Shah M.Object tracking:A survey[J].ACM Computing Surveys,2006,38(4):13.
[2] Wang L,Ouyang W,Wang X,et al.Visual tracking with fully convolutional networks[C]∥IEEE International Conference on Computer Vision,IEEE,2015:3119-3127.
[3] Ma C,Huang J B,Yang X,et al.Hierarchical convolutional features for visual tracking[C]∥IEEE International Conference on Computer Vision,IEEE,2015:3074-3082.
[4] Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[C]∥International Conference on Neural Information Processing Systems,Curran Associates Inc,2012:1097-1105.
[5] Chen K,Tao W.Once for All:A two-flow convolutional neural network for visual tracking[J].arXiv preprint arXiv:1604.07507,2016.
[6] Lecun Y,Boser B,Denker J S,et al.Back propagation applied to handwritten zip code recognition[J].Neural Computation,1989,1(4):541-551.
[7] Russakovsky O,Deng J,Su H,et al.ImageNet large scale visual recognition challenge[J].International Journal of Computer Vision,2015,115(3):211-252.
[8] Held D,Thrun S,Savarese S.Learning to track at 100 fps with deep regression networks[C]∥European Conference on Compu-ter Vision,Springer International Publishing,2016:749-765.
[9] Kristan M,Pflugfelder R,Leonardis A,et al.The visual object tracking VOT2014 challenge results[M]∥Europen Conference on Computer Vision,ECCV 2014 Workshops,Springer International Publishing,2013:191-217.
[10] Smeulders A W M,Chu D M,Cucchiara R,et al.Visual tracking:An experimental survey[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2014,36(7):1442-1468.
[11] Wu Y,Lim J,Yang M H.Object tracking benchmark[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2015,37(9):1834-1848.
[12] Li H,Li Y,Porikli F.Deeptrack:Learning discriminative feature representations online for robust visual tracking[J].IEEE Tran-sactions on Image Processing,2016,25(4):1834-1848.
[13] Nam H,Han B.Learning multi-domain convolutional neural networks for visual tracking[C]∥Proceedings of the IEEE Confe-rence on Computer Vision and Pattern Recognition,2016:4293-4302.