金國棟, 薛遠亮, 譚力寧, 許劍錕
(火箭軍工程大學核工程學院, 陜西 西安 710025)
視覺目標跟蹤是計算機視覺的基礎領域之一,也是一項具有挑戰(zhàn)性的問題,受到學者的廣泛關注。視覺目標跟蹤是指在視頻序列的初始幀中給定跟蹤目標,算法能持續(xù)穩(wěn)定地對后續(xù)幀中的跟蹤目標進行狀態(tài)估計和定位的過程,廣泛應用于民用和軍用領域,如民用智能視頻監(jiān)控、汽車自動駕駛、智能人機交互和軍事目標情報收集和精準打擊、導彈制導等,目標跟蹤無論在國防軍事還是民用方面都具有重要的研究意義和廣闊的應用前景。
傳統(tǒng)的跟蹤算法(基于光流法、卡爾曼濾波、核跟蹤方法的跟蹤算法)通過單一的數(shù)學模型描述待跟蹤目標,具有很大局限性,很大程度影響模型準確性,且計算過程繁瑣,導致跟蹤速度難以得到本質(zhì)提升。為解決上述問題,目前的目標跟蹤算法主要分為基于相關濾波的跟蹤算法和基于深度學習的跟蹤算法。相關濾波(correlation filter, CF)本是通信領域用于計算兩個信號的相關性,最小輸出平方誤差和算法(minimum output sum of squared error, MOOSE)將其用于計算目標模板與后續(xù)搜索圖像的相關性,并且該過程是在頻域中完成的,跟蹤速度高達600幀每秒(frames per second, FPS)。核相關濾波算法(kerneli-zed CF, KCF)使用循環(huán)矩陣對正負樣本進行密集采樣,解決負樣本數(shù)量不足的問題,同時將高斯核引入嶺回歸中,大大減少計算量和模型大小??紤]到KCF對多尺度目標的跟蹤效果不理想,尺度自適應與多特征跟蹤算法(scale adaptive with multiple features tracker, SAMF)從7個不同尺度的目標模板中選擇響應值最大的尺度,解決尺度變化問題,而區(qū)別尺度空間跟蹤算法(discriminative scale space tracker, DSST)則單獨設計一個濾波器進行跟蹤目標的尺度估計??臻g正則化辨別相關濾波器(spatially regularized discriminative CF, SRDCF)針對目標快速運動時產(chǎn)生的邊界效應,加入正則化約束以抑制背景信息,提高算法的準確度。相較于傳統(tǒng)跟蹤算法,基于相關濾波的算法無論在精度還是速度方面都有著很大的提升,但都是使用手工設計的特征進行目標的描述,如灰度、顏色、方向梯度直方圖(histogram of oriented gradients, HOG)特征等。
近幾年來,卷積神經(jīng)網(wǎng)絡(convolutional neural networks, CNN)提取的深度特征魯棒性好、描述能力強,在目標跟蹤領域中漸漸取代了傳統(tǒng)手工設計的特征。基于深度學習的跟蹤算法主要分為兩類。一類算法與CF跟蹤算法結合,如分層卷積特征跟蹤器(hierarchical convolutional features tracker, HCF)、深度空間正則化辨別相關濾波器(deepSRDCF)、連續(xù)卷積跟蹤算法 (continuous convolution operators for visual tracking, C-COT)等。利用現(xiàn)成的神經(jīng)網(wǎng)絡模型,為CF跟蹤算法提供深度特征。與使用手工特征的CF算法相比,使用深度特征的CF算法的精度和魯棒性都有著顯著提升,但是其使用的神經(jīng)網(wǎng)絡是在圖像分類數(shù)據(jù)集中預先訓練好的,更適合分類任務,而不是專門為目標跟蹤任務訓練的神經(jīng)網(wǎng)絡,與目標跟蹤任務的聯(lián)系不夠緊密。為了充分發(fā)揮神經(jīng)網(wǎng)絡的能力,不再局限于使用現(xiàn)成的神經(jīng)網(wǎng)絡來提取特征,而是構造出一個端對端訓練的跟蹤器,另一類跟蹤算法則通過神經(jīng)網(wǎng)絡通過端對端的訓練,完成目標的特征提取和定位跟蹤如多域卷積神經(jīng)網(wǎng)絡(multi-domain convolutional neural network, MDNet)跟蹤器等,其中基于孿生神經(jīng)網(wǎng)絡的跟蹤算法SINT (siamese instance search for tracking)等得到廣泛應用。CF算法與孿生跟蹤算法相比:(1) 手工設計的傳統(tǒng)特征應對復雜場景的能力不足,而神經(jīng)網(wǎng)絡提取的深度特征中有著豐富的語義特征,能更加魯棒地表征目標,以應對相似目標干擾、環(huán)境變化、背景雜亂等挑戰(zhàn);(2) CF算法的多尺度搜索策略需要得到每個尺度上的響應值,再找出最合適的目標尺度,過程繁瑣且耗時。孿生跟蹤算法中使用的錨框機制和無錨框機制都能更有效地估計目標尺度,更好地應對尺度變化;(3) 兩種算法都將最大響應值的位置作為目標位置,而孿生跟蹤算法還會進行前背景分類和邊界框回歸,提高跟蹤結果的準確度。綜上所述:CF算法使用的手工特征相對簡單、計算量少,應用于計算資源十分有限的平臺(如無人機等),但手工特征的表征能力有限、魯棒性不夠,精度得不到保證。隨著深度學習技術和硬件配置的發(fā)展,絕大多數(shù)跟蹤平臺(如自動駕駛汽車等)都能輕易部署孿生跟蹤算法。因此魯棒性和精度更好、跟蹤速度也滿足實時要求(≥30 FPS)的孿生跟蹤算法,成為了目標跟蹤領域的主流方法。
本文對近幾年來孿生跟蹤算法的發(fā)展進行梳理總結。首先,介紹孿生跟蹤算法的常見挑戰(zhàn)、主要組成、跟蹤流程、常用數(shù)據(jù)集和評價指標。其次,對目前的孿生跟蹤算法進行分類總結。這些工作按照主要改進的方向可分為:改進特征提取部分的跟蹤算法、優(yōu)化相似度計算部分的跟蹤算法和優(yōu)化跟蹤結果生成部分的跟蹤算法。然后,選取20個有代表性的主流跟蹤算法進行測試與分析。最后,分析目前孿生跟蹤算法的主要問題與不足,并展望未來的研究方向。
孿生神經(jīng)網(wǎng)絡由兩個分支的神經(jīng)網(wǎng)絡組成,而這兩個分支的神經(jīng)網(wǎng)絡的權重是共享的,利用雙分支的輸出可以計算出兩條分支的輸入之間的相似度,因此最初用于銀行系統(tǒng)的客戶簽名驗證,后續(xù)還應用于人臉識別和地空圖像匹配等領域。SINT是第一個使用孿生神經(jīng)網(wǎng)絡用于目標跟蹤的算法,將目標跟蹤任務看作是一種相似度度量的問題,為目標跟蹤提供了一種新思路。后來Bertinetto等人提出的全卷積孿生網(wǎng)絡(fully-convolutional siamese networks, SiamFC)跟蹤算法,簡化了相似度的計算過程,大大提高了跟蹤速度,證明孿生跟蹤算法在精度和速度上的巨大潛力,因此后續(xù)的孿生跟蹤算法大多都是基于SiamFC進行研究的。
如圖1所示,目標跟蹤的挑戰(zhàn)對算法的穩(wěn)定性與精度有著較大影響,常見挑戰(zhàn)如下。
圖1 常見挑戰(zhàn)
(1) 目標尺度變化:隨著目標或者拍攝設備的運動,視角下的目標所占區(qū)域面積發(fā)生較大變化。如果跟蹤算法的尺度適應能力不足,將包含過多的背景信息,污染正樣本信息。
(2) 背景雜亂:跟蹤過程中背景中含有與目標差異較小的干擾信息,算法容易將背景信息錯認為跟蹤目標,考驗了算法對背景和目標的區(qū)分能力。
(3) 運動模糊:由于相機抖動或者目標運動過快,視野中的目標輪廓難以區(qū)分、特征信息難以提取,需要跟蹤算法有較強的辨別能力,依靠模糊的特征信息也能辨認出跟蹤目標。
(4) 相似目標干擾:跟蹤視野中出現(xiàn)了與跟蹤目標外觀、顏色等信息相似的目標,考驗跟蹤算法對目標的表征能力。能力不足將受到相似目標的干擾,從而跟蹤失敗。
(5) 出視野:相機的視角變化不及時,導致目標丟失在視野中,需要跟蹤算法在目標丟失的過程中有重檢測能力,在目標重新出現(xiàn)之后及時發(fā)現(xiàn)目標,繼續(xù)跟蹤。
(6) 遮擋:跟蹤過程中相機與目標之間有障礙物,使得視野中的目標信息不完整,需要跟蹤算法能通過不完全的目標信息來辨認出第一幀中的跟蹤目標,考驗算法對目標的辨別能力。
(7) 外觀變化:目標在運動過程中,其外觀與形狀發(fā)生較大變化,目標的邊界框會發(fā)生較大的縱橫比變化。外觀和形狀是目標的細節(jié)信息,變化的細節(jié)信息要求算法不能單純依靠細節(jié)信息來表征目標,還需要有更高級的、更抽象的特征信息來描述目標。
(8) 環(huán)境變化:目標所處環(huán)境不斷變化,目標信息與初始目標信息產(chǎn)生差異,跟蹤模板的可靠度下降,算法只有通過一定周期的模板更新才能有效應對目標信息的變化。
和SiamFC的網(wǎng)絡結構(見圖2)一樣,大多數(shù)孿生跟蹤算法由特征提取部分(·)、相似度計算部分(*)和跟蹤結果生成部分組成。特征提取部分為孿生神經(jīng)網(wǎng)絡,一個分支輸入初始幀的目標圖像作為模板、輸出為模板特征圖(),另一個分支輸入的是后續(xù)幀的搜索圖像、輸出為搜索特征圖();相似度計算部分(*)用于整合兩條分支的特征圖上的特征信息,計算搜索特征圖與模板特征圖的相似度,生成相似度響應圖(,);跟蹤結果生成部分根據(jù)得到的響應圖來預測搜索圖像上的目標位置,一般認為最大響應的位置即為目標預測位置,然后在預測位置進行目標尺度估計和邊界框回歸。
圖2 SiamFC網(wǎng)絡結構
(,)=()*()+·
(1)
式中:(·)為特征提取部分;*為互相關運算;為每個位置的偏差;為單位矩陣。
端對端訓練好的孿生跟蹤算法跟蹤流程如圖3所示,主要包括:
圖3 跟蹤流程
視頻序列逐幀輸入到特征提取部分;
若為第一幀,模板分支提取目標特征作為模板特征;
若不是第一幀,搜索分支提取當前幀的目標特征作為搜索特征;
相似度計算部分根據(jù)兩條分支各自提取的特征圖,計算二者之間的相似度,生成響應圖;
跟蹤結果生成部分利用相似度響應圖,預測當前幀中的目標位置;
重復步驟3~步驟5,直至視頻序列的最后一幀。
141 訓練集
待跟蹤目標的類別是未知的,而大多數(shù)孿生跟蹤算法是以離線、端對端訓練的方法來學習一個相似度匹配函數(shù),因此為提高算法對未知類別目標的跟蹤效果,包含目標類別多的大規(guī)模訓練集是必不可少的。跟蹤算法的訓練集大多數(shù)為圖像分類和目標檢測領域的數(shù)據(jù)集,這些數(shù)據(jù)集包含物體類別多、圖片數(shù)量多,能提高算法的泛化能力。目標跟蹤常用訓練集如下:
(1) ImageNet VID和DET:有30個基本級別的目標類別、200個子集的目標檢測數(shù)據(jù)集。VID、DET數(shù)據(jù)集分別有112萬和45萬張圖片。
(2) YouTube-BoundingBoxes:從38萬個視頻片段中截取的1 050萬張圖片,包含560萬個人工標注的邊界框,23個類別的日常物體。
(3) COCO:包含91個對象類型,328千張圖像,總共有250萬個標注框。
(4) GOT-10k:中科院專門為目標跟蹤設計的數(shù)據(jù)集。由10 000個視頻片段和150萬個人工標注的邊界框組成,包含現(xiàn)實世界中超過560個類別的運動目標和超過80種運動模式。訓練集和測試集中的目標類別沒有重合,確保了算法的泛化能力。
(5) LaSOT:擁有387萬張圖片的1 550個視頻序列;85個目標類別,平均每個類別有10~20個序列;平均視頻序列長度為2 500幀,適合長時跟蹤。
(6) TrackingNet:提供超過30 000個視頻的大規(guī)模數(shù)據(jù)集、超出其他數(shù)據(jù)集兩個數(shù)量級,并標注1 400萬個邊界框。
(7) Youtube-VOS:包含4 000多個高分辨率視頻片段、90多個目標類別,19萬個高質(zhì)量手工標注邊界框的半監(jiān)督視頻目標分割數(shù)據(jù)集。
142 測試集
用于評估目標跟蹤算法性能的測試集如表1所示,主要有目標跟蹤基準(object tracking benchmark, OTB)競賽(OTB2013、OTB2015)和視覺目標跟蹤(visual object tracking, VOT)競賽(VOT2013~VOT2020)所使用的基準數(shù)據(jù)集、ALOV300++、NUS-PRO、TColor-128、TLP、Nfs、LTB35(LTB50)、OxUvA、TrackingNet、GOT-10k、LaSOT、Small90(Small112)、HOB、ROB、TNL2K、UAV123(UAV20L)、DTB70、UAVDT、VisDrone2019-SOT和UAVDark135。其中大部分的數(shù)據(jù)集專注于短時跟蹤任務中,其平均序列長度小于600幀(即30 FPS速度下的視頻時長小于20 s),而長時跟蹤數(shù)據(jù)集的數(shù)量則相對較少。考慮到短期數(shù)據(jù)集下的評估效果不能很好地反映真實應用場景中跟蹤器的真實性能,從而限制了其實際部署,因此從VOT2018開始的VOT競賽增加了一條長時跟蹤賽道。
表1 主要測試集
續(xù)表1
目標跟蹤算法主要使用的評價指標中通常包括兩個基本參數(shù),中心定位誤差(center location error, CLE)和重疊分數(shù)。其中,如圖4(a)和式(2)所示,中心定位誤差是計算視頻序列中每一幀的預測框中心位置(,)與對應的真實框中心位置( , )的歐氏距離,然后取所有幀的定位誤差之和的平均值作為評價指標。
圖4 評價參數(shù)
(2)
式中:(,)分別為預測框中心的橫、縱坐標;( , )分別為真實框中心的橫、縱坐標。
重疊分數(shù)是計算序列每一幀的預測框 與真實框 的面積交并比(intersection over union, IoU),然后取所有幀的交并比之和的平均值作為評價指標,如圖4(b)所示,其表達工為
(3)
式中: 、 分別為預測框和真實框。
跟蹤算法跟丟目標時的跟蹤框位置是隨機的,因此直接取平均值的CLE,不能正確地衡量算法的性能。文獻[58-59]提出,通過計算CLE小于給定閾值的幀數(shù)量所占的百分比是更好的一個衡量標準。因此,OTB競賽使用準確率曲線和成功率曲線來衡量算法性能,其中準確率曲線由CLE小于不同閾值時的幀數(shù)量所占百分比組成,而成功率曲線由重疊分數(shù)大于閾值(從0到1)時的幀數(shù)量的百分比組成。將定位誤差閾值為20像素點時的準確率和重疊閾值為0.5時的成功率作為算法最終的準確率和成功率。另外,成功率還可以由成功率曲線與坐標軸面積圍成的面積,即曲線下面積(area under curve, AUC)計算得到。這種使用第一幀的目標真實框來初始化算法,計算成功率和準確率的方法叫做一次性評估(one-pass evaluation, OPE)方法。此外,為檢驗算法的魯棒性,OTB還提出了時間魯棒性評估(temporal robustness evaluation, TRE)方法和空間魯棒性評估(spatial robustness evaluation, SRE)方法,讓算法分別從不同時刻的幀、不同大小的邊界框開始跟蹤,檢驗算法的時間、空間魯棒性。
此外,VOT2014競賽提出了準確率(accuracy, A)、魯棒性(robustness, R)和等效濾波操作(equivalent filter operations, EFO)。準確率A衡量算法的預測框與真實框的平均重疊率;魯棒性R代表算法跟蹤過程中跟蹤失敗的次數(shù)(當重疊分數(shù)為0時認為跟蹤失敗);等效濾波操作EFO用于測量算法的跟蹤速度,減少硬件平臺和編程語言等外在因素對跟蹤速度的影響。VOT2015還提出了一個新的評價指標—期望平均重疊分數(shù)(expected average overlap, EAO),用于整體地衡量算法的準確率和魯棒性。不同數(shù)據(jù)集都會存在不同的評價指標,但大多數(shù)的目標跟蹤算法都采用OTB和VOT的評價指標對算法性能進行測試。
提取區(qū)分度高、魯棒性好的目標特征是一個優(yōu)良跟蹤算法的前提,因此后續(xù)研究針對特征提取部分做了許多改進和優(yōu)化。
SINT的特征提取部分要求搜索圖像塊和模板圖像大小必須一樣,因此為保證一定的搜索范圍,需要輸入搜索圖像上大量的小尺寸搜索圖像塊。盡管SINT使用了感興趣區(qū)域池化(region of interest pooling, ROI pooling)來篩選重疊的搜索圖像塊,但是留下的搜索圖像塊數(shù)量仍然較多,其跟蹤速度(2 FPS)遠不及實時要求。SiamFC則使用全卷積神經(jīng)網(wǎng)絡作為特征提取部分,跟蹤過程中直接輸入大尺寸的搜索圖像,避免了搜索圖像塊的重復輸入,大大提高了跟蹤速度(86 FPS)。全卷積網(wǎng)絡(fully convolutional network, FCN)跟蹤算法考慮到淺層特征辨別性強和深層特征語義信息豐富,為深淺層神經(jīng)層設計獨特的模塊,分別作為目標類別檢測器和相似干擾辨別器。如式(4)所示,CF跟蹤網(wǎng)絡(CF network, CFNet)將相關濾波器=()作為一個可微分的神經(jīng)層,整合到SiamFC的模板分支上,利用深度特征訓練相關濾波器,同時結合了兩種方法的長處,可有效提升淺層神經(jīng)網(wǎng)絡的跟蹤效果。Huang等人發(fā)現(xiàn)對于簡單場景下的跟蹤任務,淺層神經(jīng)層提取的特征足以應對,不需要再繼續(xù)輸入到深層神經(jīng)層。于是設計一個判斷機制插入到特征提取部分的每一層,根據(jù)當前跟蹤場景自適應地選擇某一特征層作為輸出,這種及時停止特征提取的機制能在保證跟蹤效果的前提下提高跟蹤速度。而語義外觀雙分支跟蹤算法(semantec and appearance twofold branch siamese network, SA-Siam)則發(fā)現(xiàn)淺層神經(jīng)網(wǎng)絡提取的特征缺乏語義信息,因此將SiamFC的特征提取網(wǎng)絡作為外觀分支,又加入一條圖像分類中預訓練的卷積神經(jīng)網(wǎng)絡作為語義分支,獨立訓練的兩條分支提取的特征信息是相互補充的,能提升SiamFC的魯棒性。
(,)=s(())*()+
(4)
式中:,為尺度和偏差參數(shù);(·)為可微分的相關濾波器。
深層神經(jīng)網(wǎng)絡(ResNet、Inception等)通過加深網(wǎng)絡深度,提取到的深層特征同樣具有豐富的語義信息。雖然廣泛應用在圖像分類、目標檢測等領域,但是在更深更寬孿生網(wǎng)絡(deeper and wider siamese networks, SiamDW)跟蹤算法和非常深層網(wǎng)絡的改進孿生區(qū)域建議(siamese region proposal network with very deep network, SiamRPN++)跟蹤算法之前的孿生跟蹤算法[23,68-69]都是用Alexnet或VGG作為特征提取網(wǎng)絡,主要原因是有填充存在的深層網(wǎng)絡在學習過程中會產(chǎn)生位置偏見:過分關注圖片中心位置而忽視邊緣位置。SiamDW設計一種裁切殘差模塊以抑制填充的影響,既能加深網(wǎng)絡深度又不會產(chǎn)生位置偏差。SiamRPN++則是在訓練過程中使用了一種隨機平移的采樣策略,同樣消除了位置偏見。為了解決目前手工設計的網(wǎng)絡結構不是專門為目標跟蹤設計的問題,Yan等人結合一次神經(jīng)結構搜索(neural architecture search, NAS)設計出一種適合目標跟蹤任務的搜索算法,得到的跟蹤器LightTrack性能更好且參數(shù)量更少,可部署在移動平臺上。
如圖5所示,卷積神經(jīng)網(wǎng)絡本質(zhì)上是具有平移不變性的,但是由于其具有旋轉(zhuǎn)等變性,不適合處理目標旋轉(zhuǎn)情況,因此旋轉(zhuǎn)等變孿生網(wǎng)絡(rotation equivariant siamese networks, RE-SiamNets)跟蹤器為了解決跟蹤目標出現(xiàn)的平面內(nèi)旋轉(zhuǎn),設計一組方向可控濾波器,組成旋轉(zhuǎn)不變模塊來替換現(xiàn)有跟蹤器中的卷積層。模板分支輸入一組不同方向的目標圖像,得到的響應圖通過最大池化層選取最佳旋轉(zhuǎn)方向的響應圖,實現(xiàn)算法對目標旋轉(zhuǎn)角度的估計。更佳匹配孿生網(wǎng)絡(better match in siamese network, Siam-BM)跟蹤器同樣將搜索分支輸入一組角度和尺度不同的搜索圖像進行訓練,訓練的算法能有效預測目標的角度和尺度變化。密集孿生網(wǎng)絡(densely-siamese network, DensSiam)跟蹤器設計出密集連接的孿生主干網(wǎng)絡,能捕獲對外觀變化具有魯棒性的非局部特征,實現(xiàn)了特征的重復利用,提高了泛化能力。
圖5 RE-SiamNets的CNN旋轉(zhuǎn)非等變性示意圖
文獻[75]專注于處理目標跟蹤過程中的尺度變化問題,設計的尺度等變化模塊用于替換傳統(tǒng)的卷積層、池化層和互相關運算,構建了一個內(nèi)置尺度等變化屬性的卷積網(wǎng)絡,能準確捕獲目標的尺度變化。尺度等變化模塊的參數(shù)設置需要評估目標在跟蹤過程中的變化情況,然而這一先驗信息通常是難以預料的。而文獻[76]則專注于處理十分具有挑戰(zhàn)性的遮擋情況,針對不同的遮擋情況設計了不同的結構化丟失方法,并將對應的互相關輸出相加得到最終預測結果,能夠有效模擬出被遮擋時的目標狀態(tài)。同樣是處理遮擋情況,文獻[77]使用遮擋感知模塊判斷遮擋是否發(fā)生,如果發(fā)生遮擋則基于生成對抗網(wǎng)絡(generative adversarial networks, GAN)的預測模塊開始工作,根據(jù)遮擋前的運動軌跡預測目標在后續(xù)幀中的運動軌跡,從而解決目標丟失的問題。
主干網(wǎng)絡認為特征圖的空間和通道維度上的各個位置都是一樣重要的,而融合注意力機制則能幫助網(wǎng)絡更好地關注輸入中的重要信息(跟蹤目標的特征),抑制不重要信息的干擾。SA-Siam在語義分支中使用通道注意力,使得在目標位置周圍的通道激活程度高,從而有選擇性地分配通道權重。Siam-BM發(fā)現(xiàn)當目標的縱橫比遠離1(即垂直或水平)時,背景信息中容易有顯著目標的干擾,而相比于通道注意力有限的抗干擾能力,在特征圖上應用空間掩膜有著更強的背景抑制能力和穩(wěn)定性。殘差注意力孿生網(wǎng)絡(residual attentional siamese network, RASNet)在特征提取部分中疊加殘差注意力和通用注意力模塊(如圖6)用于學習不同視頻中目標的共同特性和區(qū)別,同時又融合通道注意力模塊以適應目標的外觀變化。文獻[79]在主干網(wǎng)絡最后一層加入非局部注意力模塊以得到空間維度的自注意力特征圖,和引入通道注意力篩選通道維度上的特征。
圖6 注意力模塊
而改進的基于目標感知的無錨框(object-aware anchor-free network plus, Ocean-plus)跟蹤算法認為傳統(tǒng)的通道和空間注意力缺乏對其如何工作的理論解釋,提出了一種注意力檢索網(wǎng)絡,利用特征和存有模板特征的查找表來生成一種親和矩陣,由此計算得到加權特征圖,同樣能為提取特征增加一種平滑的空間約束。孿生注意力網(wǎng)絡(siamese attention networks, SiamAttn)在SiamRPN++的基礎上設計了可變形孿生注意力模塊,包括可變形注意力、自注意力和交叉注意力。其中可變形卷積組成的可變形注意力模塊,用于應對目標復雜的幾何變換;自注意力通過空間注意力來學習明顯的上下文信息,通道注意力來選擇性地強調(diào)通道特征;交叉注意力指導搜索分支來學習目標的模板信息,生成一個更有分辨力的表示,有助于更準確地識別目標,同時還會自適應地更新模板特征。柏羅等人為提高SiamFC對目標的整體感知能力,設計一個局部上下文感知模塊,同時嵌入一個高效通道注意力模塊用于增強目標與背景的差異化表示。
訓練過程中正負樣本數(shù)量的不平衡和難負樣本的缺少,導致孿生跟蹤算法的正負樣本辨別力和對相似物體的抗干擾能力不足。干擾物感知的孿生區(qū)域建議網(wǎng)絡(distractor-aware siamese region proposal networks, DaSiamRPN)算法在訓練樣本中加入DET和COCO數(shù)據(jù)集以提升正樣本數(shù)量,同時生成了同類語義信息和不同類語義信息的負樣本,提高了算法對干擾物的感知能力。孿生重檢測跟蹤器(siamese re-detection architecture, SiamR-CNN)同樣設計難樣本挖掘策略來訓練網(wǎng)絡,并且提出一種跟蹤片段動態(tài)規(guī)劃算法:同時檢測出包括干擾物在內(nèi)的所有潛在目標,再利用動態(tài)規(guī)劃算法篩選出最優(yōu)跟蹤結果,性能領先但實時性遠遠不夠。
SINT中的相似度計算部分,需要逐個匹配初始幀和后續(xù)幀,過程繁瑣且費時。如圖7(a)所示,SiamFC在全卷積神經(jīng)網(wǎng)絡的基礎上設計了一種相似度計算方法——互相關運算(cross correlation, Xcorr),可以看作是一種卷積運算:模板特征圖作為卷積核,在搜索特征圖上逐個滑動地計算相似度,十分靈活簡潔。
考慮到特征圖的各個位置對Xcorr的貢獻并不應該是相同的,RASNet在注意力機制的基礎上提出了一種加權Xcorr,有選擇性地利用特征圖的各個位置。Xcorr得到的單通道響應圖包含信息較少,因此孿生區(qū)域建議網(wǎng)絡(siamese region proposal network, SiamRPN)跟蹤算法Xcorr中整合了錨框等高級信息,生成的是多通道響應圖,因通道數(shù)量隨之增加,也叫上通道Xcorr(up-channel-Xcorr, UP-Xcorr),如圖7(b)所示。但是UP-Xcorr過大的參數(shù)量導致SiamRPN的訓練過程難以收斂,SiamRPN++設計了一種輕量化的深度Xcorr(DepthWise-Xcorr, DW-Xcorr),如圖7(c)所示,參數(shù)量減少10倍并且得到的多通道響應圖具有正交特性:不同通道上的響應圖代表的語義信息不同。
圖7 相似度計算方法
Xcorr在進行相似度匹配時僅利用了二維的長寬信息,而忽視了時間和空間維度的信息,匹配精度不高。孿生時空匹配(siamese spatio-temporal matching, SiamSTM)算法因此設計了用于空間維度匹配的Xcorr以及用于限制相鄰幀之間響應圖中突變的抑制模塊,跟蹤結果更加魯棒和精確。細節(jié)的空間信息是實現(xiàn)準確邊框估計的關鍵,而Xcorr和DW-Xcorr的卷積核過大以致于會模糊掉部分空間信息。于是文獻[86]引入視頻目標分割中的像素Xcorr(Pixel-XCorr),如圖7(d)所示,將卷積核分解之后再進行Xcorr,更好地保留和利用了細節(jié)空間信息。孿生圖注意力(siamese graph attention tracking, SiamGAT)跟蹤器認為基于Xcorr的匹配算法中使用固定大小的目標模板限制了跟蹤性能,提出了一種自適應感知目標尺寸變化的模板生成方法,并且設計了基于圖注意力的相似度度量模塊,更多衡量的是目標的部分之間相似度而不是整體,有效應對目標尺度變化和外觀變化。而文獻[89]分析出DW-Xcorr的局限性主要是因為其是一個不能學習的模塊、無法從大規(guī)模的離線學習中受益,設計了一個可學習的非對稱卷積模塊(asymmetric convolution module, ACM)取代Xcorr,通過離線訓練能更好地捕獲語義相關信息、并且還整合了初始幀的邊界框等非視覺信息用于輔助跟蹤。
為了應對目標跟蹤中常見的出視野情況,DaSiamRPN使用從局部到全局的搜索策略;文獻[90]同樣擴大搜索區(qū)域來應對部分遮擋和快速運動情況,同時融合卡爾曼濾波對目標位置進行預測,有效解決完全遮擋的情況。單次判別式分割跟蹤器(discriminative single shot segmentation tracker, D3S)設計的幾何不變模型(geometrically invariant model, GIM)和幾何約束的歐幾里德模型(geometrically constrained Euclidean model, GEM),分別完成對跟蹤目標的細粒度分割和魯棒性定位,二者生成的響應圖互補地提高算法的精度定位和辨別力。文獻[79]將非局部注意力和通道注意力級聯(lián)處理得到的響應圖與原本的響應圖進行加權融合,提高算法的魯棒性。
相比于多尺度搜索策略,文獻[92]提出的一種基于角點檢測的跟蹤算法,能靈活適應目標的尺度變化。因為傳統(tǒng)Xcorr不能計算像素級相似度,所以使用Pixel-Xcorr來計算RoI與模板特征上像素的相似度,編碼得到角點的空間信息,再使用空間、通道注意力模塊突出響應圖上的角點特征信息,提高角點檢測的準確度。孿生角點網(wǎng)絡(siamese corner networks, SiamCorners)跟蹤算法則是使用改進的角點池化層來預測目標的角點,多層特征融合策略幫助池化層生成跟蹤目標的多個候選角點,再使用懲罰機制從中選取最優(yōu)跟蹤框。Liu等人發(fā)現(xiàn)小目標在跟蹤過程中容易出現(xiàn)極度模糊和丟失的情況,因此將小目標信息整合到四元數(shù)離散余弦變換圖像特征中,通過不斷迭代生成目標的聚合特征,能有效提高響應圖上小目標的顯著性響應,提高對小目標的辨別能力。同時聚合特征還增強了小目標的重檢測過程,當發(fā)生跟蹤漂移時,觸發(fā)以跟蹤目標為優(yōu)先的顯著性檢測,重新定位跟蹤目標。
跟蹤結果生成部分根據(jù)相似度響應圖來預測搜索圖像上的目標位置,因此響應圖信息是否得到充分利用直接決定著跟蹤結果的精確與否。許多研究都著力于優(yōu)化跟蹤結果的生成部分,實現(xiàn)更好地利用響應圖信息、生成更精確的目標跟蹤結果。
目標尺度在跟蹤過程中會發(fā)生變化,為實現(xiàn)準確的跟蹤結果,尺度估計是跟蹤算法必不可少的環(huán)節(jié)。圖8(a)為SiamFC的多尺度搜索策略,同時計算多個尺度的搜索圖像的響應值,響應值最大的尺度為目標的最佳尺度,這種搜索策略的尺度估計能力有限且影響跟蹤速度的提升。最大重合度跟蹤(accurate tracking by overlap maximization, ATOM)算法的目標估計部分通過計算候選邊界框與真實值的IoU值,將IoU值最大的邊界框作為預測結果。但是ATOM的IoU損失函數(shù)無法優(yōu)化邊界框完全包含在另一個邊界框的情況,DIoUTrack則使用距離交并比視覺跟蹤(distance-IoU for visual tracking, DIoUTrack)算法損失函數(shù)進行改進,在保持IoU損失函數(shù)優(yōu)勢的同時,最小化兩個邊界盒中心點之間的距離,從而使目標估計更加準確。文獻[96]使用ROI Align模塊將大小不同的模板特征組成特征金字塔,分別與搜索特征計算相似度,提高網(wǎng)絡的尺度適應能力,同時引入全局上下文信息提高網(wǎng)絡對干擾物的辨別能力。
圖8 尺度估計方法
411 引入?yún)^(qū)域建議網(wǎng)絡
如圖9所示,SiamRPN拋棄了傳統(tǒng)的尺度搜索策略,引入?yún)^(qū)域建議網(wǎng)絡(region proposal network, RPN),其包含了區(qū)分前背景的分類分支和估計邊界框的回歸分支,將跟蹤任務看作局部的目標檢測任務。如圖8(b)所示,預先定義一組大小不同的錨框完成對目標尺度變化的估計,達到跟蹤速度和跟蹤精度平衡優(yōu)勢。速度快且精度高的RPN模塊在目標跟蹤領域得到了大幅應用:SiamRPN++通過加權融合多個RPN模塊,進一步精確跟蹤結果;預先定義的錨框很難通過一次回歸就完成目標的準確定位,導致SiamRPN不能有效應對相似物體干擾和大尺度變化,因此級聯(lián)孿生RPN (siamese cascaded RPN, C-RPN)算法級聯(lián)多個RPN模塊,逐步回歸實現(xiàn)目標的精確定位;跟蹤過程中目標尺度變化是隨機的,而RPN模塊中回歸分支依賴于預先定義的錨框,導致在快速運動和小目標情況下定位不準確,于是基于運動感知的孿生網(wǎng)絡(siamese motion-aware network, SiamMan)跟蹤算法引入一條定位分支和多尺度注意力模塊來幫助回歸分支精度定位,并且設計空洞空間金字塔模塊用于多個尺度的上下文信息。為了降低模型參數(shù),循環(huán)優(yōu)化跟蹤模型(recurrently optimizing tracking model, ROAM)使用可動態(tài)變換大小的卷積濾波器代替錨框機制來完成對目標尺度變化的估計。
圖9 RPN模塊示意圖
由于RPN模塊中回歸分支與分類分支是獨立訓練的,回歸分支的最佳邊界框與分類分支的最高得分所對應的結果容易出現(xiàn)不一致的情況。為了確保最佳分類分數(shù)與最佳邊框的統(tǒng)一,孿生互補跟蹤(siamese reciprocal classification and regression tracking, SiamRCR)在回歸和分類分支中互相建立一種互惠連接,加強兩條分支之間的交流,提高跟蹤結果的準確度?;貧w分支同時衍生一條定位分支,用于在推理階段輔助分類分支的分數(shù)預測。石國強等人簡化了正樣本IoU的計算,將IoU引入分類損失函數(shù),使得IoU越大的樣本對分類得分的影響也越大,還將IoU作為回歸分支的權重系數(shù),提高中心樣本的貢獻。IoU作為一個紐帶,加強回歸和分類分支的耦合,進行聯(lián)合優(yōu)化。Cheng等人設計了檢測模塊和優(yōu)化模塊,優(yōu)化模塊將兩條分支結合起來,共同預測目標位置。然后,為了解決干擾物體的影響,以小樣本方式訓練的檢測模塊獲得了較強的辨別力,能有效過濾背景中的干擾物體。
412 無錨框跟蹤器
RPN模塊中的回歸分支預先定義錨框的參數(shù)時,需要數(shù)據(jù)集中的目標尺度作為先驗信息,而文獻[27]認為通用目標跟蹤的出發(fā)點應該是跟蹤算法擺脫對目標先驗信息的依賴,如錨框中對尺度比例的預定義。并且錨框的超參數(shù)設置對算法的性能影響很大,影響魯棒性的提升。
Chen等人提出的無錨框跟蹤器——孿生邊界自適應網(wǎng)絡(siamese box adaptive network, SiamBAN)跟蹤器,避免了設計錨框時所引入的超參數(shù)。如圖10所示,回歸分支不再回歸錨框的尺寸,而是每個正樣本像素與真實框的偏移量、、、。之前的分類分支是通過計算錨框與真實框的IoU來判斷正負樣本,因此為無錨框跟蹤算法提出一種新的正負樣本判別方法:將響應圖的像素映射回搜索圖像中,落在橢圓之外為負樣本;落在橢圓內(nèi)則為正樣本。
圖10 前背景分類和邊界框回歸
無錨框跟蹤算法在逐像素生成預測框的過程中遠離目標中心的像素點會生成低質(zhì)量的預測框,影響跟蹤性能。因此無錨框?qū)\生分類回歸(siamese classification and regression, Siam CAR)算法在分類分支基礎上設計一條中心分支來移除生成的分類極端值,同時為防止相鄰幀的跟蹤結果發(fā)生抖動,由多個像素點的預測框加權平均得到每一幀跟蹤結果。無錨框的SiamFC(SiamFC++)同樣為了消除分類產(chǎn)生的極端值對跟蹤結果的影響,設計分類質(zhì)量評估分支,賦予目標中心位置的像素更高的權重。相比有錨框跟蹤算法的模糊分類分數(shù),SiamFC++計算的是模板與搜索圖像之間的置信度,確保分類的直接有效,降低了假正樣本的出現(xiàn)幾率。Zhang等人發(fā)現(xiàn)基于錨框的跟蹤算法的回歸分支是在IoU大于閾值的錨框中訓練得到的,而忽視了IoU小于閾值的錨框。跟蹤過程中復雜場景下會產(chǎn)生錯誤累計,預測框的IoU一旦小于閾值,回歸分支會因缺乏對低IoU跟蹤結果的修正能力而跟蹤失敗。于是設計了一種應對復雜場景能力強、魯棒性好的無錨框跟蹤算法基于目標感知的無錨框網(wǎng)絡(object-aware anchor-free network, Ocean)跟蹤算法,對目標逐像素預測回歸,修正不精確的邊框估計;分類分支中加入特征對齊模塊,利用目標的整體特征來提高分類分數(shù)的可靠度,同時也提高了對目標的感知能力和尺度適應能力。
發(fā)現(xiàn)半監(jiān)督的視頻目標分割類似于目標跟蹤都需要提供初始幀信息和準確定位運動目標等,Wang等人創(chuàng)造性地提出了一種能同時實現(xiàn)視頻目標分割和目標跟蹤的統(tǒng)一框架孿生分割跟蹤(siamese mask tracking, SiamMask)算法,在SiamRPN的RPN模塊中設計一條目標分割分支用于預測目標的掩膜,并設計二值分割損失函數(shù)用于加強網(wǎng)絡的像素級分割能力。在預測的像素級掩膜作為輔助信息的幫助下,算法對目標的辨別能力得到增強,同時生成的旋轉(zhuǎn)跟蹤框?qū)δ繕说亩ㄎ桓訙蚀_,避免過多背景信息的干擾。
由圖11可見,旋轉(zhuǎn)跟蹤框?qū)δ繕说墓烙嫺屿`活準確,也不會包含過多的干擾信息。VOT中基準數(shù)據(jù)集也開始采用旋轉(zhuǎn)框標注目標信息,如VOT2016和VOT2018。近年來,目標跟蹤領域一個明顯的趨勢是開始預測目標的二值掩膜,VOT2020的基準數(shù)據(jù)集中掩膜也取代傳統(tǒng)的邊界框來編碼目標信息,并且提出一種評估跟蹤器的新方法。
圖11 不同跟蹤框的跟蹤結果
許多研究開始縮小目標跟蹤和視頻目標分割的差距,SiamR-CNN將跟蹤模型預測的邊界框作為空間約束,使用現(xiàn)成的分割模型預測其中物體的掩膜,提高了算法的跟蹤指標但跟蹤速度受到影響。文獻[112]認為直接融合多層主干特征而忽略其中的背景干擾特征雖然有效但容易引入漏檢目標,降低分割準確率。因此,在無錨框跟蹤器Ocean的基礎上引入輕量化分支用于掩膜分割,設計注意力檢索網(wǎng)絡以過濾主干特征,和多分辨率多級分割網(wǎng)絡利用預測的掩膜進一步減弱背景干擾的影響。
D3S利用兩個幾何模塊GEM和GIM分別完成對目標的定位和分割,二者同時進行且相互彌補,共同提高算法準確率和魯棒性。僅在YouTube-VOS分割數(shù)據(jù)集上訓練,就能在多個數(shù)據(jù)集上取得第一。孿生優(yōu)化算法Alpha-Rene在SiamRPN++中設計一個掩膜預測分支,提供目標形狀信息,輔助其他分支提取更多的細節(jié)空間信息,同時也將預測的目標掩膜作為一種像素監(jiān)督,提高算法的辨別力。
圖12 目標分割分支
孿生跟蹤算法是一種基于模板匹配的方法,大多數(shù)算法在推理階段的模板從初始幀提取之后就固定不變。在處理遮擋和出視野時,搜索范圍允許的情況下能實現(xiàn)目標的重新跟蹤。一旦目標在跟蹤過程中發(fā)生較大的外觀變化,與初始模板差異很大時跟蹤算法容易跟蹤失敗。因此,擁有魯棒的目標匹配模板,對于目標跟蹤任務、特別是長時跟蹤任務來說至關重要。
4.3.1 模板更新策略
構建目標的模板庫,并從中更新匹配模板是一種常見的更新策略。文獻[113]認為模板更新應有合適的頻率,過快或者過慢都會造成跟蹤漂移,首先將每個候選目標稀疏表示在聯(lián)合字典中,然后使用粒子濾波框架下的動態(tài)模板更新聯(lián)合字典中的正樣本,負樣本的更新則是新樣本替換舊樣本。文獻[100]在孿生跟蹤算法的基礎上,利用高斯混合模型對以往的跟蹤結果進行建模并建立目標特征模板庫,使用感知哈希算法計算當前幀跟蹤結果與模板庫的相似度,判斷當前幀是否為目標的新狀態(tài)。如果是新狀態(tài)則提取特征并保存在模板集中,若為已存在類別狀態(tài)則直接替換模板集中的特征,使網(wǎng)絡能夠自適應目標的外觀變化。記憶網(wǎng)絡目標跟蹤(memory networks for object tracking, MemTrack)算法使用動態(tài)記憶網(wǎng)絡檢索跟蹤過程中生成的殘差模板,并將殘差模板與初始模板進行結合,得到一個合成模板。其中長短期記憶(long short term memory,LSTM)模塊作為檢索操作的控制器,其學習質(zhì)量決定著跟蹤器的整體表現(xiàn)。時空記憶網(wǎng)絡跟蹤(tracking with space-time memory networks, STMTrack)算法同樣使用時空記憶網(wǎng)絡檢索目標之前的跟蹤結果,引導跟蹤器關注當前幀中有用信息最豐富的區(qū)域。與MemTrack不同的是,當前幀控制著檢索操作,因此它可以自適應地獲得所需要的一切信息。
大多數(shù)在線更新算法由于梯度下降法和有限內(nèi)存下的過度更新策略的存在,導致算法收斂效果不好和容易對模板庫產(chǎn)生過擬合。因此文獻[116]提出了一種基于遞歸最小二乘估計(recursive least-squares estimation, RLSE)算法的在線更新機制,利用正態(tài)方程分別用LSE算法將各全連接層連接起來,以遞歸的方式保存內(nèi)存,保證算法不會過度拋棄舊樣本,降低過擬合的幾率。并在此基礎上使用改進的小批量隨機梯度下降算法來指導網(wǎng)絡的學習,提高了在所有歷史訓練樣本上計算代價函數(shù)時的收斂性能。文獻[117]發(fā)現(xiàn)目標跟蹤只有初始幀信息作為先驗知識,與小樣本學習任務類似,于是在SiamRPN++和ROI Align得到的候選目標集中訓練小樣本學習器,學習器用于區(qū)分正負樣本并更新模板庫,同時模板庫也會幫助小樣本學習器進行更好地學習。模板更新方法如圖13所示。
圖13 模板更新方法
另外還可以直接對匹配模板進行更新,避免了模板庫的建立,以提高在線更新的速度。CFNet在每一幀中都計算一個模板,并將其與之前幀的模板進行平均,作為新的模板,但是更新頻率過快容易造成錯誤累計。動態(tài)孿生網(wǎng)絡(dynamic siamese network, DSiam)跟蹤算法使用歸一化線性回歸計算一種能夠動態(tài)學習目標外觀變化的模型,利用前一幀跟蹤模板糾正匹配模板,充分考慮了目標跟蹤過程中的平滑時間變化。Li等人提出了一種梯度引導的孿生網(wǎng)絡(gradient-guided siamese network, GradNet)跟蹤算法,創(chuàng)造性地從梯度信息中提取出有助于辨別的信息,在前向和后向傳播中被用于目標模板的更新。并且模板也是在多個不同目標類別的搜索區(qū)域中生成的,提高了模板的魯棒性,避免對某個類別的過擬合。文獻[120]則是在強化學習的基礎上,智能體根據(jù)預測結果的分數(shù)來決定是否更新匹配模板,匹配方法的選擇也由智能體的決策記錄同時確定,并且同時完成了目標的跟蹤與分割任務。
432 在線更新網(wǎng)絡模型
相比于利用跟蹤過程中的樣本信息來更新匹配模板,直接更新模型參數(shù)能更好地提高模型的辨別能力。Ocean為捕獲目標的外觀變化,使用快速共軛梯度算法在跟蹤階段訓練一條在線更新分支。ROAM為了有效地使模型適應目標的外觀變化,離線訓練了循環(huán)神經(jīng)優(yōu)化器以元學習的方式更新模型,可以在幾個梯度步驟就收斂模型。Bhat等人為實現(xiàn)端對端的訓練,將模型在線學習整合到跟蹤框架中。設計的辨別預測式跟蹤(discriminative model prediction for tracking, DiMP)算法首先對初始幀使用數(shù)據(jù)增強的方式得到一組訓練集,并且直接利用來訓練模型預測器。當預測器能生成可靠的結果時,將其加入到,當樣本數(shù)超過50時拋棄舊樣本。這些方法只注重結合之前跟蹤結果中的目標特征,忽略了梯度信息的重要性。
大部分處理長時跟蹤器都是離線訓練的孿生結構,不能有效應對長期跟蹤過程中的不確定和嘈雜的影響因素,文獻[122]設計的元學習更新器有效地將幾何線索、判別線索和外觀線索按順序整合在一起,然后利用設計的級聯(lián)LSTM對序列信息進行挖掘,學習得到的二進制輸出用于決定跟蹤器是否更新。為了同時滿足魯棒性和準確性,Zhou等人設計了一個雙模態(tài)的跟蹤框架,在線回歸模塊用于對目標的魯棒定位、離線分類模塊進行目標的精確定位,利用分數(shù)投票策略融合二者的輸出,得到的跟蹤結果魯棒性好且準確性也高。文獻[124]將SiamFC主干網(wǎng)絡的前三層作為通用特征提取部分,后兩層作為個性特征提取部分并根據(jù)樣本在線更新網(wǎng)絡參數(shù),不同的更新方式確保了網(wǎng)絡的跟蹤速度和準確度。
Nam等人考慮到直接使用在ImageNet數(shù)據(jù)集上訓練得到的CNN為目標跟蹤提取特征,限制了跟蹤算法的性能。設計的MDNet,使用多個特定分支在不同視頻序列中訓練,從中學習到適合目標跟蹤任務的通用目標特征表示。但是其一部分訓練集來源于測試集,存在過擬合的可能。文獻[125]發(fā)現(xiàn)當目標存在尺度變化和旋轉(zhuǎn)情況時,Siam FC的跟蹤結果會變得不準確。于是將對數(shù)極坐標系下的相關濾波算法作為尺度和旋轉(zhuǎn)估計模塊,繼續(xù)對跟蹤位置進行精確細化,提高了Siam FC算法的定位精度。高琳等人為了提高CNN分類結果的可靠性,將孿生跟蹤算法嵌入一致性預測框架。根據(jù)算法隨機性水平來計算樣本的置信度,選取高置信度的樣本組成候選目標集,再利用優(yōu)化時空能量函數(shù)篩選候選目標集,從而得到跟蹤結果。并根據(jù)上一段序列的結果更新CNN參數(shù),提升了算法的穩(wěn)健性。動態(tài)多目標式跟蹤(tracking via dynamic convolutions and multi object tracking philosophy, DMTrack)算法首先使用動態(tài)卷積組成的輕量檢測器對搜索區(qū)域的所有潛在目標進行檢測,潛在目標特征與模板特征之間再進行重識別,完成跟蹤目標的搜索。借助多目標跟蹤原理,通過掌握所有潛在相似物體的狀態(tài)信息來區(qū)分出跟蹤目標與干擾物,實現(xiàn)干擾物的快速且準確的感知。
本文利用常用的測試數(shù)據(jù)集OTB2015對20種主流跟蹤算法進行測試與分析,其中孿生跟蹤算法有:SiamAttn、SiamDW、SiamCAR、SiamR-CNN、MDNet、DaSiamRPN、SiamRPN++、GradNet、SiamRPN、CFNet、SiamFC;相關濾波算法有:DeepSRDCF、MEEM、SRDCF、Staple、SAMF、DSST、fDSST、Struck。評價指標為第1.4節(jié)中的成功率和準確率,使用到的算法結果由數(shù)據(jù)集和作者官方提供。圖14為這20種算法在OTB2015上的成功率和準確率曲線,其中SiamDWrpn與SiamDWfc分別為SiamDW應用在SiamRPN和SiamFC上的跟蹤算法。
圖14 算法在OTB2015上的測試結果
從圖14中可以看出:
(1) 相關濾波算法的排名整體靠后。排名最靠前的相關濾波算法為DeepSRDCF,也是基于深度特征的相關濾波算法。說明CNN提取的深度特征具有更強的表達能力和魯棒性;
(2) 成功率、準確率排名前五的算法均為孿生跟蹤算法,為使用了注意力模塊和模板特征更新的SiamAttn、加深網(wǎng)絡深度的SiamDWrpn、無錨框跟蹤器SiamCAR、多域?qū)W習的MDNet以及有重檢測功能和目標分割輔助跟蹤的SiamR-CNN。其中的MDNet一部分訓練集來源于測試集,存在過擬合的可能。
表2為20種算法的具體性能對比,其中CNN代表卷積神經(jīng)網(wǎng)絡提取的深度特征、HOG代表方向梯度直方圖特征、CH代表顏色直方圖特征、CN為顏色特征、Gray為灰度特征、Haar為Haar角點特征。表中右上角標①的數(shù)據(jù)為結果中的第1名,標②的數(shù)據(jù)為第2名,標③的數(shù)據(jù)為第3名??梢钥闯?
表2 算法在OTB2015上的具體性能對比
(1) 基于傳統(tǒng)特征的相關濾波算法速度較快,但成功率和準確率不高。因此,大多數(shù)相關濾波算法為了提高跟蹤性能,會結合多種傳統(tǒng)特征來表示跟蹤目標,但是其跟蹤速度會受到影響。
(2) 整體性能排名前10的跟蹤算法中9個為孿生跟蹤算法,唯一的相關濾波算法DeepSRDCF也是基于深度特征的。并且成功率和準確率排名前3的算法都是孿生跟蹤算法,分別為SiamAttn、SiamR-CNN、SiamCAR和SiamAttn、SiamCAR、SiamDWrpn。跟蹤速度排名前3中的第1名和第3名為孿生跟蹤算法SiamRPN和SiamDWfc。引入RPN模塊的SiamRPN證明了孿生跟蹤算法可以同時具有速度和精度的雙重優(yōu)勢,因此孿生跟蹤算法逐漸代替相關濾波算法,成為了目標跟蹤領域的主流算法。
(1) 跟蹤速度不夠快,訓練周期較長:孿生跟蹤算法的特征提取部分的網(wǎng)絡層數(shù)一般較多,為提高模型的泛化能力,需要在ImageNet圖像分類數(shù)據(jù)集上進行預訓練;并且訓練過程中的數(shù)據(jù)集數(shù)量級較大,所需訓練時間較長。
(2) 缺少專門為目標跟蹤設計的主干網(wǎng)絡:目前孿生跟蹤算法的主干網(wǎng)絡都是使用現(xiàn)成或者微調(diào)的分類網(wǎng)絡(Alexnet、VGG、ResNet等),而這些網(wǎng)絡不一定就適合目標跟蹤任務且計算昂貴。
(3) 相較于短時跟蹤任務中的優(yōu)異表現(xiàn),孿生跟蹤算法在長時跟蹤任務中的性能一般。主要原因有兩點:① 在長時跟蹤過程中,目標的外觀和環(huán)境都會發(fā)生變化,而孿生跟蹤算法作為基于模板的匹配方法,匹配模板跟不上目標的變化,則會出現(xiàn)跟蹤漂移現(xiàn)象;② 在目標出視野或者完全被遮擋之后重新出現(xiàn)時,目前孿生跟蹤算法的解決辦法:目標丟失時擴大搜索區(qū)域和利用目標檢測網(wǎng)絡作為重檢測模塊,但這些耗時的目標搜索策略都會嚴重阻礙跟蹤速度,影響其實際應用。
未來研究方向可以從以下方面進行研究:
(1) 優(yōu)化主干網(wǎng)絡。利用剪枝、量化等模型壓縮技術對跟蹤模型進行輕量化處理,減少不必要的網(wǎng)絡計算有助于提高算法的跟蹤速度。也可利用神經(jīng)架構搜索的方式,根據(jù)任務特點,自動搜索出專門為目標跟蹤設計的主干網(wǎng)絡。
(2) 無監(jiān)督訓練或者小樣本訓練的跟蹤網(wǎng)絡。跟蹤任務中的目標信息是不可能提前知道的,為提高對未知類別目標的跟蹤性能,現(xiàn)有的跟蹤算法使用了大量的訓練數(shù)據(jù)集來提高算法的泛化能力。為了擺脫對訓練集的嚴重依賴,訓練跟蹤網(wǎng)絡的方法可考慮無監(jiān)督訓練或者小樣本訓練,利用僅有的初始幀目標信息作為正樣本來訓練神經(jīng)網(wǎng)絡。
(3) 重檢測機制是良好的長時跟蹤算法中必不可少的模塊??煽紤]在跟蹤算法中加入輕量化檢測網(wǎng)絡、傳統(tǒng)的光流法或者卡爾曼濾波進行目標的運動檢測和軌跡預測。也可以單獨訓練一個小網(wǎng)絡完成對目標的軌跡預測,并與現(xiàn)有的跟蹤網(wǎng)絡加權融合,互補地提升長時跟蹤能力。
(4) 以自注意力為主的Transformer模型在自然語言處理領域中取得優(yōu)異表現(xiàn),受其強大表示能力的啟發(fā),Transformer已開始應用在目標分類、檢測和分割等計算機視覺領域,并展示出競爭性甚至更好的性能。因其關注全局信息、能建模長距離依賴關系等特點,可與關注局部信息、全局信息捕捉能力弱的CNN結合,共同互補地改善孿生跟蹤框架,為目標跟蹤領域開拓更寬的思路。
視頻目標跟蹤是其他視頻理解任務(如姿態(tài)估計、行為識別)的基礎,魯棒性好且成功率高的目標跟蹤算法能更好地幫助計算機理解視頻內(nèi)容。孿生跟蹤算法作為目標跟蹤領域的主流算法,本文首先介紹了孿生跟蹤算法的常見挑戰(zhàn)、主要組成、常見數(shù)據(jù)集、常用的評價指標和跟蹤流程;然后根據(jù)在孿生跟蹤框架的不同部分的改進,介紹了近年來的主要工作,可分為對特征提取部分的改進、對相似度計算部分的優(yōu)化以及對跟蹤結果生成部分的優(yōu)化;接下來,選取有代表性的20個主流跟蹤算法進行測試、分析;最后對目前孿生跟蹤算法存在的問題進行總結并提出未來的研究方向。