侯 淋,楊順華*,黃時加
(1.中國空氣動力研究與發(fā)展中心,四川 綿陽 621000;2.中山大學 電子與通信工程學院,廣東 廣州 511400)
目標跟蹤[1-2]是利用圖像的初始信息,在連續(xù)的圖像片段,持續(xù)預測目標位置變化等信息的過程。通常,其算法框架分為基于生成類和基于判別類兩種。自2013年起,相關濾波跟蹤算法和深度跟蹤算法[3]各自在視覺跟蹤領域獨樹一幟。采用循環(huán)矩陣技巧的KCF[4]算法的跟蹤速度可達到130 f·s-1。這類算法在速度和精度上的優(yōu)越性,促進了一系列相關方法的發(fā)展,可用于處理各種挑戰(zhàn)。而深度學習[5]模型具有豐富信息的深度特征和大量深度學習框架的落地實施,促使深度跟蹤技術帶領目標跟蹤領域邁入新技術時代。
深度學習是利用多層神經(jīng)網(wǎng)絡模型學習圖像魯棒特征的過程。它的出現(xiàn)促進了更多更高效的圖像特征方法的誕生。然而,跟蹤過程目標的不可預知性和訓練數(shù)據(jù)的缺失,使得深度學習算法在目標跟蹤領域的應用難以達到非常理想的效果。為此,有學者提出幾種目標跟蹤思路,如表1所示。
首個結(jié)合了深度學習網(wǎng)絡的跟蹤算法是DLT[6],其網(wǎng)絡結(jié)構(gòu)如圖1所示。其離線模型SDAE能學習可靠的圖像特征,初始化時利用目標的正負樣本對分類網(wǎng)絡進行微調(diào),使得分類網(wǎng)絡更具針對性。DLT的在線跟蹤模型提取基于粒子濾波方法篩選的候選圖像塊,在輸入分類網(wǎng)絡尋找置信度最高的目標位置。
當前,越來越多優(yōu)秀的深度跟蹤算法嶄露頭角,如圖2所示。以下將基于網(wǎng)絡功能介紹深度跟蹤算法的發(fā)展現(xiàn)狀。深度跟蹤算法分類及主要跟蹤算法如表2所示。
表1 常用的深度跟蹤算法模型
圖1 DTL網(wǎng)絡
圖2 深度學習跟蹤算法的分類
表2 深度跟蹤算法分類
相關濾波的概念源于信號間的相關性描述[7]。在目標跟蹤算法中,通過濾波器與視頻幀的相關性f預測目標位置,計算復雜度優(yōu)勢明顯。HCF[8]首度在相關濾波領域引入深度特征,它不僅利用深度特征更換手工特征,而且設計加權(quán)融合置信圖策略大大縮減算法的搜索空間。ECO[9]通過減少DCF參數(shù)、簡化訓練集并減少模型更新頻率加快算法速度,對抗模型漂移,在保持算法精度情況下達到60 f·s-1的速度。ECO+[10]考慮了不同層次的深度特征的不同性能,提出新的特征的融合策略提高跟蹤算法精度。
孿生跟蹤算法實質(zhì)是相關濾波的直接式深度網(wǎng)絡模型的應用。SiamFC[11]是首個在ILSVRC15進行端到端預訓練的孿生模型,在跟蹤精度較高的條件下有遠超實時性的速度,促使孿生系列跟蹤算法成為當前主流。SiamRPN[12]引入目標檢測的RPN模塊,將目標相似度問題轉(zhuǎn)化為回歸和分類問題。SiamCAR[13]繼續(xù)改進基于SiamRPN的不足,與傳統(tǒng)孿生網(wǎng)絡不同的是,該方法采用anchor-free策略,綜合分類情況和中心度決定最佳目標中心點,并輸入回歸網(wǎng)絡預測目標,在時間損耗和精度上實現(xiàn)SOTA的性能。
與圖像分類任務不同,基于分類跟蹤算法需注意目標和背景等序列信息,還要準確預測目標的特征變化,基于此,自主設計一個深度網(wǎng)絡模型而非直接使用深度分類模型更具可行性。因此,MDNet[14]提出由共享層和多目標分支網(wǎng)絡實現(xiàn)目標跟蹤。VITAL[15]針對深度分類跟蹤算法框架中正樣本高度重疊和正負樣本間嚴重的不均衡分布的缺陷,提出利用對抗學習保證網(wǎng)絡能識別目標的魯棒特征的mask。
GOTURN[16]是于2016年提出的基于回歸的跟蹤算法,其速度可達到驚人的100 f·s-1。GOTURN方法利用ALOV和ImageNet數(shù)據(jù)集訓練基于圖像對輸入的卷積網(wǎng)絡,在線跟蹤時輸入前后兩幀圖像塊,模型會直接返回預測的位置信息。深度回歸跟蹤算法具有直接和快速的特點。
以AlphaGO[17]為代表的深度強化學習技術在圍棋等領域取得傲人的成績,使得深度強化學習技術受到許多人的推崇。在深度強化跟蹤算法中,強化學習實現(xiàn)的主要是對網(wǎng)絡的參數(shù)優(yōu)化或目標移動狀態(tài)等的直接預測。Zhang[18]提出的端到端的強化學習算法是通過學習單幀圖像的空間表示和多幀圖像間的時序表示,使得網(wǎng)絡輸出的特征可以更好提取時序信息,且可以直接應用到跟蹤問題上。ADNet[19]通過強化學習的獎勵機制使得深度網(wǎng)絡能夠自主決定該如何“靠近”目標物體。ADNet避免了密集采樣,也降低了訓練數(shù)據(jù)的標注要求,適用于特定的跟蹤場景。
元學習用來研究如何提升模型解決一系列任務的能力。跟蹤算法中能利用的圖像序列較少,如何快速讓模型適應當前的跟蹤環(huán)境是許多跟蹤器關心的問題。Meta-Tracker[20]提出將元學習應用在目標模型的初始化。強化學習原理幫助跟蹤模型學到魯棒的網(wǎng)絡參數(shù),有利于提高算法的在線跟蹤精度。其在應用元學習到MDNet網(wǎng)絡的過程中,直接用元學習網(wǎng)絡促使MDNet的分支等學習一個魯棒的初始模型。實驗表明最終的跟蹤算法精度與速度都得到了提高。元學習協(xié)助的深度跟蹤算法具有初始化速度快和魯棒性高的特點。
目前,大型數(shù)據(jù)集對于深度跟蹤算法的意義非凡。為了挖掘深度跟蹤算法的優(yōu)越性,其網(wǎng)絡深度越來越高,在軍用目標探測和精確制導等落地應用不易實現(xiàn)。盡管深度跟蹤算法取得了突破性的研究進展,但對于長時跟蹤算法的嚴重遮擋和消失重現(xiàn)等問題,如何快捷高效地尋回目標仍是一大難題。如何利用深度網(wǎng)絡特性構(gòu)建適應長期跟蹤模型,解決跟蹤過程中遮擋與消失重現(xiàn)的困境,將是跟蹤領域未來一大重點發(fā)展方向。另外,隨著移動端輕薄化顯卡的發(fā)展和精煉的輕量深度卷積網(wǎng)絡如MobileNet等的涌現(xiàn),如何在移動端等場景布署深度跟蹤應用產(chǎn)品、快速精準跟蹤目標也逐漸成為許多學者的關注焦點。
深度學習技術對目標跟蹤領域的影響巨大,本文在普及目標跟蹤原理后系統(tǒng)闡述基于深度學習的跟蹤技術,綜合分析深度跟蹤技術在模型訓練和長時跟蹤場景的遮擋等不足情況,展望其未來發(fā)展方向。隨著更多大規(guī)模通用數(shù)據(jù)集的出現(xiàn),深度跟蹤算法有望取得進一步突破。如何利用魯棒的深度特征構(gòu)建適應于長期跟蹤的模型,并在移動端等場景布署深度跟蹤應用產(chǎn)品,快速精準跟蹤目標的運動,將成為未來深度跟蹤技術的重要方向。