馬玉民,錢育蓉,周偉航,公維軍,帕力旦·吐爾遜
(1.新疆大學(xué)軟件學(xué)院,新疆 烏魯木齊830000;2.新疆維吾爾自治區(qū)信號檢測處理重點實驗室,新疆 烏魯木齊 830046;3.新疆大學(xué)軟件工程重點實驗室,新疆 烏魯木齊 830000;4.新疆師范大學(xué),新疆 烏魯木齊 830000)
近年來,隨著人工智能[1]的熱潮以及計算機視覺領(lǐng)域的不斷進步,目標跟蹤相關(guān)研究也得到了充分的發(fā)展。截至目前,基于視覺的目標跟蹤已廣泛應(yīng)用于視頻監(jiān)控、城市交通以及軍事等領(lǐng)域[2,3]。例如,視頻監(jiān)控通過使用電子輸入設(shè)備捕獲大量視頻數(shù)據(jù)并通過目標跟蹤算法監(jiān)控目標數(shù)據(jù),從而完成對目標的跟蹤定位,提前預(yù)知目標大體走向,避免危險的發(fā)生。在城市交通領(lǐng)域,通過對車輛等運動目標的實時跟蹤,再對獲取的數(shù)據(jù)進行分析驗證,從而判斷是否有異常行為,為監(jiān)管提供了更為有效的手段。在軍事領(lǐng)域,通過無人機等偵察手段,進行航拍目標跟蹤,獲取目標運動狀態(tài),并根據(jù)該狀態(tài)做出相應(yīng)戰(zhàn)略措施,其中目標跟蹤起到了至關(guān)重要的作用。
雖然目標跟蹤算法已經(jīng)得到較為廣泛的應(yīng)用,但由于跟蹤場景種類繁多,環(huán)境復(fù)雜多變,導(dǎo)致目前仍沒有一個合適的算法可以應(yīng)對現(xiàn)有的所有情況,目標跟蹤仍是一個具有挑戰(zhàn)的任務(wù)。如圖1所示,目標跟蹤一般由5個部分組成,分別是生成運動模型、特征提取、觀測模型評分、模型更新以及預(yù)測集成[4,5]。
Figure 1 Main components of target tracking
在給定目標輸入以及對應(yīng)邊界框的情況下,目標跟蹤算法仍要克服包括光照變化、尺度變化、形變、運動模糊、快速運動、平面內(nèi)旋轉(zhuǎn)、平面外旋轉(zhuǎn)、出視野、背景干擾以及低像素等[6]挑戰(zhàn)。這些挑戰(zhàn)共同決定了目標跟蹤是一項極為復(fù)雜的任務(wù),目標跟蹤算法不僅要盡可能解決上述挑戰(zhàn)帶來的困難,也要同時兼顧準確率和實時性。
傳統(tǒng)的目標跟蹤算法通常被分為生成式模型方法和判別式模型方法[7],其劃分準則和依據(jù)為初始目標模型采取的建模方式[8]。
生成式模型的初始目標模型是在當前幀對目標區(qū)域建模,下一幀以相似度的度量為準則,選擇與目標模型最相近的區(qū)域作為預(yù)測位置,并更新為新的目標模型。
Comaniciu等人[9]構(gòu)建目標模型的均值漂移(Mean Shift) 向量,該向量始終指向樣本點最密集的區(qū)域并快速收斂,從而實現(xiàn)目標跟蹤。MeanShift算法因計算簡單、實時性好,同時又能較好地應(yīng)對遮擋與形變等狀況而得到了廣泛的應(yīng)用和研究。后來Vojir等人[10]使用經(jīng)典顏色直方圖特征在原有的均值漂移算法上增加了尺度估計,提出了ASMS(Adaptive Scale Mean Shift)算法。ASMS解決了由背景混亂導(dǎo)致的尺度擴張和相似物體的尺度內(nèi)爆問題,進一步提高了算法的適用度。
與均值漂移這一類內(nèi)核方法[11]不同,Nummiaro等人[12]基于貝葉斯估計理論,提出了粒子濾波算法,該算法對于非線性系統(tǒng)有著較好的建模能力,從而取得了較好的效果。Zhang等人[13]基于奇異值分解的新型卡爾曼粒子濾波器,使用卡爾曼濾波器來生成復(fù)雜的粒子預(yù)測分布,改善了原有的濾波效果。次年,他們又通過添加層次采樣,并使用粒子配置中提取的群體智能作指導(dǎo),克服原有的樣本貧化問題,提出了一種基于粒子群智能的粒子濾波算法[14]。
判別式模型方法將當前幀分為目標區(qū)域和背景區(qū)域2個部分,運用機器學(xué)習的方法訓(xùn)練出一個最優(yōu)判別函數(shù),從而在后續(xù)幀中找到符合判別函數(shù)的最優(yōu)解區(qū)域作為目標區(qū)域。
基于相關(guān)濾波思想的跟蹤算法是典型的判別式模型方法[15]。Bolme等人[16]通過高斯函數(shù)標識樣本標簽,將建模問題轉(zhuǎn)化為頻域求解,提出了MOSSE(Minimum Output Sum Square Error)算法,極大地提高了跟蹤算法的速度。Henriques等人[17]在相關(guān)濾波的基礎(chǔ)上對正樣本增加了循環(huán)移位,從而產(chǎn)生了一個新的樣本集合,利用循環(huán)矩陣的性質(zhì),降低模型復(fù)雜度,提出了CSK(Circulant Structure with Kernels)算法,并在后來使用方向梯度直方圖特征以及高斯核函數(shù)代替灰度特征,提出了KCF(Kernel Correlation Filter)[18]算法。在此基礎(chǔ)上,研究人員又融合了多種特征并兼顧尺度變化,提出了SAMF(Scale Adaptive Multiple Feature)[19]和KCFDP(Kernel Correlation Filter with Detection Proposals)[20]等算法繼續(xù)改進KCF,并取得了一定成效。
基于深度學(xué)習[21]的目標跟蹤算法是判別式模型方法的另一主流方法。Wang等人[22]最早將深度學(xué)習應(yīng)用于目標跟蹤領(lǐng)域,但其算法的性能不如當時其他算法的。Nam等人[23]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)[24]的多域?qū)W習算法MDNet(Multi-Domain Convolutional Neural Network),該算法將圖像分類任務(wù)中的預(yù)訓(xùn)練模型VGG-M(Visual Geometry Group-M)[25]作為網(wǎng)絡(luò)的初始化模型,利用不同的視頻序列進行離線訓(xùn)練,在精度上取得了重大的突破。
將目標跟蹤轉(zhuǎn)化為二分類問題可以更好地關(guān)注視頻中目標和背景的區(qū)分,所以判別式模型方法普遍優(yōu)于生成式模型方法。但是,即使深度學(xué)習方法進一步提高了判別式模型方法的精度,但其引入了大量的卷積計算,導(dǎo)致算法的跟蹤速度變慢,很難達到實時跟蹤的目的,這使得判別式模型方法很難兼顧精度與速度。
基于孿生網(wǎng)絡(luò)的目標跟蹤算法將跟蹤問題轉(zhuǎn)化為相似度度量問題,并在發(fā)展過程中逐漸從簡單的相似度匹配問題延伸到分類與回歸的綜合問題。與傳統(tǒng)方法相比,孿生網(wǎng)絡(luò)特殊的網(wǎng)絡(luò)結(jié)構(gòu)提高了樣本的利用率,在有限樣本中提取出了更多特征,同時其結(jié)果在一定程度上保證了精度和速度的平衡,并提高了算法的魯棒性。
孿生網(wǎng)絡(luò)結(jié)構(gòu)的根本在于孿生——即基于2個或多個人工神經(jīng)網(wǎng)絡(luò)建立的耦合框架。一般同時接收2幅圖像作為網(wǎng)絡(luò)的輸入,輸出一個相似度數(shù)值,如圖2所示。狹義的孿生網(wǎng)絡(luò)結(jié)構(gòu)是由2個結(jié)構(gòu)相同、權(quán)值共享的人工神經(jīng)網(wǎng)絡(luò)組成。廣義的孿生神經(jīng)網(wǎng)絡(luò)可由任意的2個人工神經(jīng)網(wǎng)絡(luò)拼接而成。本文主要介紹狹義的孿生網(wǎng)絡(luò)。
Figure 2 Structure of Siamese network in narrow sense
孿生網(wǎng)絡(luò)的原始過程是將輸入映射為一個或多個特征向量,使用2個向量之間的“距離”來表示輸入之間的差異,也就是相似度數(shù)值。這個數(shù)值在2個或多個輸入相似或?qū)儆谕活悇e時較小,輸入不相似或不屬于同一類別時較大。這里相同結(jié)構(gòu)僅代表有相同的參數(shù)和權(quán)重,可以在2個子網(wǎng)上同時進行更新。
Bromley等人[26]在首次提出孿生網(wǎng)絡(luò)這個概念時,將其用于簽名驗證,并取得了相對不錯的結(jié)果。
Zagoruyko等人[27]研究了如何從圖像數(shù)據(jù)中直接學(xué)習到一個普適性的相似度函數(shù)用于圖像匹配,結(jié)果表明孿生網(wǎng)絡(luò)在圖像匹配領(lǐng)域具有較大的優(yōu)勢。
Melekhov等人[28]提出了一種基于孿生網(wǎng)絡(luò)的全圖像相似度預(yù)測方法,結(jié)果表明孿生網(wǎng)絡(luò)在圖像比對任務(wù)中具有較好的可行性和競爭力。
Tao 等人[29]通過使用孿生網(wǎng)絡(luò)學(xué)習一個匹配函數(shù),以第1幀做模板,其他幀與第1幀進行匹配計算,選最高分幀作為目標,提出的SINT(Siamese Instance Search for Tracker)算法首次使用孿生網(wǎng)絡(luò)完成了目標跟蹤任務(wù)。
SINT的成果雖然證明了孿生網(wǎng)絡(luò)可以用于目標跟蹤領(lǐng)域,但其效果一般而未引起廣泛注意。同年Bertinetto等人[30]提出的SiamFC(Fully-Convolutional Siamese Network)方法,讓研究人員看到了孿生網(wǎng)絡(luò)的潛力與前景。該方法設(shè)計了一個端到端的全卷積孿生跟蹤網(wǎng)絡(luò),輸出是標量值的得分圖,尺寸取決于候選圖像的大小。其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,在跟蹤過程中,以Z作為輸入的模板圖像,X作為輸入的搜索圖像,接著對2個輸入分別進行φ變換進行特征提取。生成的特征圖進行互相關(guān)操作,即卷積操作,生成響應(yīng)圖。最后將響應(yīng)圖進行雙三次插值生成圖像確定目標位置。
Figure 3 Structure of SiamFC
SiamFC在取得具有競爭力的結(jié)果的同時,其在魯棒性和準確率方面的表現(xiàn)仍有所欠缺,但卻讓研究人員看到了孿生網(wǎng)絡(luò)更多的可能性。截至目前,研究人員改進的基于孿生網(wǎng)絡(luò)的目標跟蹤算法在準確率和實時性上都已經(jīng)趕超了傳統(tǒng)跟蹤算法和其他基于深度學(xué)習的算法,本節(jié)將介紹對應(yīng)的改進的孿生網(wǎng)絡(luò)目標跟蹤算法。
3.2.1 額外的分支
He等人[31]觀察到圖像分類任務(wù)中的語義特征和相似性匹配任務(wù)中的外觀特征互補,在原有的SiamFC的基礎(chǔ)上,增加了語義分支,并在該分支上加上通道注意力模型,該模型將網(wǎng)絡(luò)輸入的特征分為3*3的塊,然后對每塊進行最大池化處理,再通過多層感知機,得到最后每個通道的權(quán)重值,選擇對特定跟蹤目標影響最大的通道。SASiam(Semantic and Appearance Siamese Network)的2個分支是分開訓(xùn)練的,只在測試階段進行加權(quán)求和。
如圖4所示,z表示目標圖像,X表示搜索區(qū)域圖像。hs(zS,X)與ha(z,X)分別表示雙分支卷積得到的映射結(jié)果,通過加權(quán)求和,得到最終相似度結(jié)果h(zS,X)。SASiam的額外的分支為孿生網(wǎng)絡(luò)目標跟蹤算法從傳統(tǒng)的統(tǒng)一計算處理到之后的分別處理,綜合計算損失奠定了基礎(chǔ),擴寬了研究人員的視野。
Figure 4 Structure of SASiam
3.2.2 錨設(shè)計
SASiam雖然將分類和相似性檢測相結(jié)合,但并沒有對邊界框進行回歸,浪費了時間和空間,但同年的Li 等人[32]受到Faster R-CNN(Faster Regions with Convolutional Neural Network features)[33]的啟發(fā),在提出的SiamRPN(Siamese Region Proposal Network)中引入了RPN模塊來產(chǎn)生候選區(qū)域。如圖5所示,RPN候選區(qū)域由2個分支組成,一個是用來區(qū)分目標和背景的分類分支,另一個是微調(diào)候選區(qū)域的回歸分支。其中,x,y,w,h分別表示回歸得到矩形框的中心坐標和矩形的長與寬;n表示錨框的數(shù)量;k表示幀數(shù)。RPN通過對多個錨框上產(chǎn)生的多種矩形進行分類和回歸,得到感興趣的區(qū)域。
Figure 5 Structure of SiamRPN
在分類分支上,模板圖像和檢測圖像特征先經(jīng)過卷積處理,其中,模板分支的通道數(shù)會增加到對應(yīng)錨框數(shù)量的2倍,對應(yīng)前景和背景信息,并在后續(xù)操作中作為檢測圖像特征的卷積核,最終返回相應(yīng)錨框數(shù)量的維度為2的分數(shù)圖,也就是對應(yīng)的分類分數(shù)。在回歸分支上,類似地,模板分支的通道數(shù)會增加到4n倍,與分類分支不同,這些通道最終直接返回每個樣本的位置回歸值。
SiamRPN錨設(shè)計使得其在回歸方面表現(xiàn)優(yōu)異。但Zhu等人[34]后續(xù)發(fā)現(xiàn),該算法在面對目標短時間內(nèi)消失(超出視線、全遮擋、翻面等)情況時,即使跟蹤失敗,分類的相似度量依舊可保持較高的分數(shù)。因此,在不修改SiamRPN的原有骨干網(wǎng)絡(luò)的情況下,Zhu等人[34]提出了DaSiamRPN(Distractor- aware Siamese Region Proposal Network)。如圖6所示,該算法引入ImageNet Detection[35]和COCO(Microsoft Common Objects inCOntext)[36]數(shù)據(jù)集,并使用數(shù)據(jù)增強技術(shù)增加了3類樣本對:正樣本對、相同類別和負樣本對不同類別的負樣本對。
Figure 6 New sample pairs in DaSiamRPN
根據(jù)新增的負樣本對,DaSiamRPN在原有的相似度量函數(shù)基礎(chǔ)上,添加了負樣本的影響學(xué)習。如圖7所示,新的相似度量函數(shù)得到的相似度評分可以正確反映目標丟失現(xiàn)象(評分降低)。這種正確度量使DaSiamRPN可以較為精確地評估目標丟失,在目標丟失后,使用由局部到整體的策略逐步擴大搜索區(qū)域,從而在目標重現(xiàn)時可以快速且準確地重新跟蹤到它。
Figure 7 Detection scores and according overlaps of SiamRPN and DaSiamRPN
3.2.3 骨干網(wǎng)絡(luò)優(yōu)化
淺層的AlexNet[37]骨干網(wǎng)絡(luò)難以從現(xiàn)有的數(shù)據(jù)集中挖掘出更多的知識,研究人員也嘗試使用深度神經(jīng)網(wǎng)絡(luò)替換掉孿生網(wǎng)絡(luò)中的淺層骨干網(wǎng)絡(luò),但大都收效甚微。Zhang 等人[38]通過實驗分析認為深層網(wǎng)絡(luò)不會帶來改進的主要原因是:神經(jīng)元感受野的大幅度增加導(dǎo)致特征識別和定位精度降低;卷積的網(wǎng)絡(luò)填充導(dǎo)致了學(xué)習時的位置偏差。并通過定量分析找到了影響深層神經(jīng)網(wǎng)絡(luò)的多個因素,包括網(wǎng)絡(luò)的深度和寬度、步長、填充、感受野和輸出特征大小。再通過定性分析,認為網(wǎng)絡(luò)在填充之后,特征提取時會提取到填充的特征;當目標移動至圖像邊界時,不能精確地指示出目標的位置。
Zhang等人[38]認為適用于孿生網(wǎng)絡(luò)的深層骨干網(wǎng)絡(luò)步長不應(yīng)該相應(yīng)增加,而是保持在4或8即可,感受野的大小應(yīng)為模板圖像的60%~80%。對于完全卷積的孿生網(wǎng)絡(luò),處理2個網(wǎng)絡(luò)之間的感知不一致問題是至關(guān)重要的。Zhang等人給出了2種可行的解決方案:一種是刪除網(wǎng)絡(luò)中的多余的填充工作,另一種則直接裁剪受填充影響的特征并最終提出了SiamDW(Deep and Wider Siamese Network)。經(jīng)過裁剪修改的神經(jīng)網(wǎng)絡(luò)有更高的準確率。
如圖8所示,SiamDW破除了孿生網(wǎng)絡(luò)無法使用深層神經(jīng)網(wǎng)絡(luò)的枷鎖,使孿生網(wǎng)絡(luò)目標跟蹤算法可以從原有的圖像中獲取更多的特征信息,也在一定程度上緩解了目標跟蹤任務(wù)數(shù)據(jù)集較少而無法得到有效訓(xùn)練的問題。深層知識為回歸任務(wù)提供了更多有效信息,使算法的性能得到了較大提升。
Figure 8 Accuracy comparison of SiamDW backbone networks
同年,Li等人[39]提出的SiamRPN++中使用了修改后的殘差網(wǎng)絡(luò)[40],與SiamDW類似,為了定位的準確率,將最后2個殘差模塊的步長減少到8,并使用了空洞卷積[41]技術(shù)。這樣既增大了感受野,也利用了預(yù)訓(xùn)練參數(shù)。這種修改使最后3個殘差模塊的分辨率始終一致,所以作者又使用了多層融合技術(shù)。此外,作者還修改了互相關(guān)操作,并將新的互相關(guān)操作命名為深度互相關(guān),如圖9所示,這種改進使參數(shù)量大幅下降,同時也使整體訓(xùn)練變得更為穩(wěn)定,加強了網(wǎng)絡(luò)的整體性。類似地,SiamRPN++的作者也用MoblieNet[42]等網(wǎng)絡(luò)進行了相同的改動和實驗。
Figure 9 Differences between deep-wise cross-correlation method and traditional cross-correlation method
3.2.4 無錨設(shè)計
Li等人[43]認為,以SiamRPN為首的RPN頭需要對錨框選擇做出仔細調(diào)整,這個工作費時費力,于是提出了一種利用無錨的級聯(lián)KPN(Keypoint Prediction Network)特征融合頭實現(xiàn)的算法,并命名為SiamKPN。如圖10所示,SiamKPN使用的KPN模塊包括3個3×3的卷積和1個5×5的深度互相關(guān)模塊,并將返回的結(jié)果經(jīng)過2次卷積得到熱圖,該熱圖有5個通道,其中1個通道用于估計目標的中心點,2個用于解決步長導(dǎo)致的離散誤差,另外2個則用于估算目標大小。SiamKPN在使用3層級聯(lián)的同時,縮小了標簽熱圖的方差,沿著級聯(lián)方向逐漸細化,加強了特征信號的監(jiān)督強度。這種修改使得目標中線點周圍的區(qū)域特征更加突出,前后景差異更加明顯,從而更容易區(qū)分目標與類似的干擾項。
Figure 10 Structure of SiamKPN
類似地,Chen等人[44]認為使用錨框的多尺度設(shè)計來估計目標大小,雖然使精確度有顯著提高,但這種啟發(fā)式設(shè)計也引入了大量的參數(shù),增加了計算復(fù)雜度。于是在之后設(shè)計了無錨跟蹤器SiamBAN(Siamese Box Adaptive Network),它直接預(yù)測了相關(guān)特征映射上每個空間位置的前景與背景類別評分和一個4D向量。與傳統(tǒng)的回歸方法不同,該4D向量描述了從邊框的4個側(cè)面到搜索區(qū)域?qū)?yīng)的特征位置中心點的相對偏移。如圖11所示,一個骨干網(wǎng)絡(luò)中有多個特征融合頭處理單元用于進行自適應(yīng)邊框預(yù)測。與SiamRPN++類似,這些處理單元也使用模板分支的卷積結(jié)果,與檢測分支深度互相關(guān)得到對應(yīng)層的互相關(guān)特征圖。最后將各個卷積層的特征圖進行融合,得到最后的互相關(guān)結(jié)果。SiamBAN的無錨框設(shè)計在不損失精度的情況下,將輸出所需要的變量數(shù)減少到有錨框設(shè)計的1/5,極大地提高了訓(xùn)練與跟蹤的速度。
Figure 11 Structure of SiamBAN
Xu等人[45]受到質(zhì)量評估[46,47]的啟發(fā),在卷積模塊后的分類分支中增加了質(zhì)量評估分支,提出了SiamFC++。質(zhì)量評估分支對遠離中心點的位置進行約束,使距離中心點近的像素點評分高,遠離中心點的像素點評分低,如圖12所示,質(zhì)量評估分支最終與原分類分支結(jié)果點乘,得到分類分支結(jié)果。最后與回歸分支使用argmax函數(shù)結(jié)合。
Figure 12 Processing of SiamFC++ convolution results
綜合SiamBAN和SiamFC++的優(yōu)勢,Guo等人[48]提出了SiamCAR(Siamese fully Convolutional classification And Regression),為了抑制過大的位移導(dǎo)致的精確度下降,在SiamBAN的基礎(chǔ)上增加了類似SiamFC++的質(zhì)量評估分支,從而使網(wǎng)絡(luò)在跟蹤時更精確地獲取到目標的中心點。并且,SiamCAR修改了SiamBAN互相關(guān)特征圖的融合方式,將原來的相加取平均值修改為拼接后降維的方法,通過訓(xùn)練修改權(quán)重,找到最佳的融合方法。
3.2.5 Transformer方法
相關(guān)性在孿生網(wǎng)絡(luò)跟蹤領(lǐng)域起著關(guān)鍵作用,但該操作實際上是一個局部線性匹配的過程,易丟失語義信息,繼而陷入局部最優(yōu)。Chen等人[49]受Transformer[50]啟發(fā),提出了基于注意力的特征融合網(wǎng)絡(luò)TransT(Transformer Tracking)。TransT設(shè)計了一種獨特的特征融合層,先使用自注意力ECA(Efficient Channel Attention)模塊分別增強來自模板分支和搜索分支的特征信息,再使用交叉注意力CFA(Cross Feature Augment)模塊同時接收各分支自身和另一個分支的特征,并通過多頭交叉注意力進行特征融合。如圖13所示,TransT將孿生網(wǎng)絡(luò)提取的特征經(jīng)過降維后,輸入由4個獨特的特征融合層疊加的融合層,再使用一個額外的交叉注意力融合2個分支的特征。在預(yù)測結(jié)果時,使用無錨方法直接預(yù)測標準化坐標,從而使整體的跟蹤框架更加簡潔。
Figure 13 Structure of TransT
與TransT多個特征融合層疊加不同,Zhao等人[51]提出了TrTr(visual Tracking with Transformer)算法。如圖14所示,該算法設(shè)計的特征融合網(wǎng)絡(luò)中,先分別使用自注意力模塊增強模板分支和搜索分支的特征信息,之后,模板分支經(jīng)過一個額外的前饋網(wǎng)絡(luò)FPN(Feature Pyramid Network)后,直接與搜索分支的特征使用交叉注意力進行特征融合。
Figure 14 Transformer structure of TrTr
TrTr的特征融合網(wǎng)絡(luò)的設(shè)計更接近傳統(tǒng)的Transformer,對注意力使用和特征圖處理的探討相較TransT略有不足,但其使用了額外的在線學(xué)習方法,提高了跟蹤的準確率。
受到DETR(DEtection TRansformer)[52]啟發(fā),Yan等人[53]提出了STARK算法,不僅將原Transformer的編碼器層和解碼器層分別疊加6次,還使用角點概率分布設(shè)計了獨特的預(yù)測頭。如圖15所示,該預(yù)測頭首先從編碼器中獲取搜索分支的特征,計算與解碼器的輸出嵌入之間的相似程度;再使用該相似度的得分與搜索分支的特征相乘以突出重要特征;最后使用一個簡單的全卷積網(wǎng)絡(luò)完成對角點的預(yù)測。不僅如此,STARK考慮到目標物體的外觀可能會隨時間發(fā)生顯著變化,對算法進行進一步優(yōu)化,如圖16所示。首先,在輸入端引入中間幀采樣,以提供額外的其他時間信息。其次,添加了一個額外的得分預(yù)測頭過濾掉目標完全遮擋或移除視線等不可靠幀覆蓋動態(tài)模板。最后,將訓(xùn)練過程分為2個階段,分別關(guān)注定位和分類任務(wù),防止聯(lián)合學(xué)習導(dǎo)致2個任務(wù)的解決方案都不理想。
Figure 15 Structure of STARK’s box prediction head
Figure 16 Framework of spatio-temporal tracking
與殘差網(wǎng)絡(luò)相比,Swin-Transformer[54]可以提供更緊湊的特征表示和更豐富的語義信息,Lin等人[55]以此為骨干網(wǎng)絡(luò),設(shè)計并提出了SwinTrack算法。如圖17所示,得益于骨干網(wǎng)絡(luò)的更換,SwinTrack可以接收多模態(tài)的數(shù)據(jù)作為輸入,從而使用基于連接的融合方法代替基于交叉注意的融合方法,降低了運算的復(fù)雜度。不僅如此,在預(yù)測分類時引入目標候選包圍框與真實目標標注的交并比得分,使分類分支的預(yù)測更加準確。
Figure 17 Structure of SwinTrack
3.2.6 其他改進方法
Voigtlaender等人[56]設(shè)計了一種將Faster R-CNN中的RCNN模塊級聯(lián)3次的重檢測頭,以得到更精確的特征圖相似評分,并提出了SiamR-CNN。如圖18所示,該算法先使用孿生網(wǎng)絡(luò)進行特征提取后,將第1幀的特征中的目標區(qū)域特征與當前幀經(jīng)RPN網(wǎng)絡(luò)得到的候選區(qū)域特征結(jié)合,使用重檢測頭回歸計算這些候選區(qū)域與目標區(qū)域的相似度的得分。再使用其中得分較高的結(jié)果,與上一幀以相似方法得到的區(qū)域特征排列組合,再使用重檢測頭回歸計算。繼而完成了當前幀與第1幀、當前幀與上一幀的關(guān)聯(lián),得到了更精確的回歸邊框。
Figure 18 Structure of SiamR-CNN
在跟蹤過程中,SiamR-CNN對所有可能的結(jié)果都進行檢測,并隨著新目標的出現(xiàn)產(chǎn)生新的跟蹤軌跡,這些軌跡與真實的軌跡動態(tài)關(guān)聯(lián),得到正確的跟蹤結(jié)果。這些方法的融合極大地提高了跟蹤的精度,但復(fù)雜的計算導(dǎo)致網(wǎng)絡(luò)的實時性有待提高。
SiamKPN等無錨框設(shè)計擺脫了復(fù)雜的超參數(shù)調(diào)整,但與SiamRPN等跟蹤方法一樣,仍將固定比例的裁剪區(qū)域作為模板特征,這種方法可能會引入很多的背景信息,或者丟失大量的前景信息,特別是當模板目標的寬高比發(fā)生了急劇的變化時尤為突出。
Guo等人[58]在設(shè)計SiamCAR后繼續(xù)探索其他模塊與孿生網(wǎng)絡(luò)結(jié)合的可能性,利用注意力機制聚合相鄰節(jié)點的特征,構(gòu)建了適合孿生網(wǎng)絡(luò)的圖形注意力模塊[57],如圖19所示。作者根據(jù)該模塊設(shè)計了SiamGAT(Siamese Graph Attention Tracking)算法[58]。
Figure 19 Graph attention module of SiamGAT
SiamGAT將模板幀中標記的邊框投影到特征圖上,從而得到一個感興趣的區(qū)域,并僅使用這個區(qū)域的像素作為模板特征,這些像素作為模板子圖的節(jié)點GT。而在搜索幀中,所有的像素都被當作搜索子圖的節(jié)點GS。GT中的所有節(jié)點ht被aij賦予注意力后與GS中某個節(jié)點hs進行聚合表達,再將該聚合表達與原節(jié)點hs組合起來得到更強的特征表達。W為每次線性變換所使用的矩陣。這2幅子圖作為圖形注意力模塊的輸入,最終重構(gòu)出每個搜索節(jié)點的表示。最后,SiamGAT使用SiamCAR中的分類與回歸的特征融合頭處理網(wǎng)絡(luò)。2個分支共享圖形注意力模塊的輸出結(jié)果,并最終得到跟蹤結(jié)果。
Figure 20 Special process of SE-SiamFC
本文使用OTB2015[6]、VOT2018[60]與LaSOT(Large-scale Single Object Tracking)[61]作為上述所有基于孿生網(wǎng)絡(luò)的目標跟蹤算法的測試數(shù)據(jù)集,通過算法間的對比直觀地展示它們的跟蹤性能。
Wu等人[6]在前人研究的基礎(chǔ)上提出了目標跟蹤基準OTB2013,并在后續(xù)的研究中,將最初的50個視頻序列拓展到100個,即如今的OTB2015測試數(shù)據(jù)集,也稱OTB100。OTB2015包含灰度圖像和彩色圖像,數(shù)據(jù)集完全公開,而且涉及了目標跟蹤領(lǐng)域大部分復(fù)雜情況的挑戰(zhàn),從而能更加準確地判斷目標跟蹤算法面對現(xiàn)實生活中各種情況的能力。基于該測試集主要通過2個指標評價目標跟蹤算法:
(1)成功率Successrate。將每個視頻跟蹤算法估計的跟蹤框內(nèi)的像素點個數(shù)與人工標注的跟蹤框內(nèi)的像素點個數(shù)的交集與并集的比值定義為重合率得分。給定重疊率閾值,當某一幀算法得到的重疊率得分大于該閾值時,視該幀為成功幀。總成功幀數(shù)占所有幀數(shù)的比值即為當前閾值下的成功率。閾值由0到1,可擬合出成功率的曲線。
(2)準確率Precision。計算每個視頻跟蹤算法估計的跟蹤框中心點與人工標注的跟蹤框中心點的距離。給定距離閾值,準確率為2個中心點距離小于給定閾值幀數(shù)占總幀數(shù)的百分比。根據(jù)不同的距離閾值,可擬合出準確率的曲線。
各算法在OTB2015上的測試結(jié)果如圖21所示。
Figure 21 Comparison of success rates and precision rate of each algorithm on OTB2015
VOT競賽作為目標跟蹤領(lǐng)域最具權(quán)威和影響力的測評平臺,由伯明翰大學(xué)、盧布爾雅那大學(xué)、布拉格捷克技術(shù)大學(xué)和奧地利科技學(xué)院聯(lián)合創(chuàng)辦,旨在評測在復(fù)雜場景中單目標跟蹤算法的性能。該競賽使用的數(shù)據(jù)集由公開測試集與隱藏測試集組成,測試序列涵蓋遮擋、光照變化、快速運動和尺度變化等影響因素。評測集逐年進行更新,不斷加入更具挑戰(zhàn)性的序列,因此被視為視覺目標跟蹤領(lǐng)域最難的競賽。其中,VOT2018由于其特有的反映算法實時性的評價指標而廣泛用于測試算法的性能。
與OTB2015包含25%灰度序列不同,VOT2018是全彩色序列,且VOT序列的分辨率更高,評價指標更為完善?;赩OT2018的評價指標主要有以下3個:
(1)平均重疊期望EAO(Expected Average Overlap):是對每個跟蹤器在一個短時圖像序列上的非重置重疊的期望值,是VOT評估跟蹤算法的最重要的指標。
(2)準確率(Accuracy):是指跟蹤器在單個測試序列上的平均重疊率(2個矩形框的交集部分除以并集部分)。
(3)魯棒性(Robustness):是指在單個測試序列上跟蹤器跟蹤失敗次數(shù)所占比例,默認重疊率為0時跟蹤失敗。
各算法在VOT2018上的測試結(jié)果如表1所示。
Table 1 Test results of each algorithm on VOT2018
為了給目標跟蹤任務(wù)提供一個大規(guī)模的訓(xùn)練數(shù)據(jù)與專業(yè)且質(zhì)量高的評估基準,Fan等人構(gòu)建了LaSOT數(shù)據(jù)集。與其他數(shù)據(jù)集相比,LaSOT提供了70種目標類別,每一種又包含20個序列,即共有1 400個視頻。這些視頻平均每個長達2 512幀,最低不少于1 000幀。同時,LaSOT提供了豐富的可視化邊框注釋和自然語言規(guī)范,共計352萬個高質(zhì)量人工標注的包圍框。各算法在LaSOT上的測試結(jié)果如表2所示。實際測試過程中,將每種類別的4個序列用于測試,即共280個序列,總計69萬幀。與OTB2015相比,LaSOT不僅提供了評價指標成功率Successrate,還提供了標準化準確率NormalizedPrecision作為更準確體現(xiàn)精度的評價標準。標準化準確率在準確率中心點距離的基礎(chǔ)上額外增加了目標大小考量,以降低因準確率對圖像分辨率和目標大小過于敏感導(dǎo)致的效果不佳。
Table 2 Test results of each algorithm on LaSOT
從實驗對比結(jié)果來看,SiamKPN、SwinTrack與SiamFC++等無錨設(shè)計的算法表現(xiàn)良好,能夠在保持高準確率和高實時性的情況下應(yīng)對光照變化、尺度變化和平面內(nèi)變化等挑戰(zhàn)。但是,在梳理這些算法的結(jié)果時,本文也發(fā)現(xiàn)了一些普遍問題。下面主要討論目前孿生網(wǎng)絡(luò)目標跟蹤算法仍需突破的瓶頸,以及未來的研究趨勢。
雖然在近幾年基于孿生網(wǎng)絡(luò)的目標跟蹤算法得到了飛速發(fā)展,但目標跟蹤任務(wù)本就復(fù)雜,本文對上述所有算法的結(jié)果進行對比評估,總結(jié)出以下孿生網(wǎng)絡(luò)目標跟蹤算法仍待解決的問題與瓶頸。
5.1.1 網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜
目前,孿生網(wǎng)絡(luò)目標跟蹤算法雖在一定程度上解決了傳統(tǒng)跟蹤算法數(shù)據(jù)量少、泛化能力較差的問題,但網(wǎng)絡(luò)本身設(shè)計復(fù)雜,尤其是近幾年深層神經(jīng)網(wǎng)絡(luò)的引入,這一問題愈加突出。隨著時間推移,更多大規(guī)模目標跟蹤數(shù)據(jù)集的提出可以為孿生網(wǎng)絡(luò)目標跟蹤算法提供更大幫助,但如何優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),使數(shù)據(jù)得到充分利用的同時仍能保證回歸速度、訓(xùn)練速度與實時性是基于孿生網(wǎng)絡(luò)的目標跟蹤算法亟需解決的難題。
5.1.2 特殊遮擋
孿生網(wǎng)絡(luò)目標跟蹤算法在面對瞬時遮擋和部分遮擋等問題時,能夠快速重新找回目標并繼續(xù)跟蹤。但是,面對如圖22所示的長時間遮擋以及頻繁遮擋等特殊的遮擋問題時,孿生網(wǎng)絡(luò)目標跟蹤算法準確率較低,甚至可能出現(xiàn)目標丟失的情況。未來目標跟蹤任務(wù)會越來越復(fù)雜,上述的特殊遮擋情況更是屢見不鮮,能否準確找回復(fù)雜情況下被遮擋的目標是孿生網(wǎng)絡(luò)目標跟蹤算法的重要問題。
Figure 22 Long time occlusion problem and frequent occlusion problem
5.1.3 回歸困難
SiamRPN的提出讓后續(xù)孿生網(wǎng)絡(luò)目標跟蹤算法將跟蹤任務(wù)劃分成分類與回歸2個子任務(wù)。在實際訓(xùn)練過程中,算法已經(jīng)可以準確區(qū)分目標的前景與背景。但是,孿生網(wǎng)絡(luò)目標跟蹤算法主流的回歸指標IoU(Intersection over Union)[46],在面對完全不重合的目標與完全重合卻比例變化的的目標情況時,無法正確表達損失下降的方向,導(dǎo)致回歸損失無法繼續(xù)降低,成為孿生網(wǎng)絡(luò)目標跟蹤算法參數(shù)更新時的瓶頸。
5.1.4 局限于平面特征
孿生網(wǎng)絡(luò)的本質(zhì)仍是2幅圖像的特征匹配問題,當跟蹤物體在平面內(nèi)不發(fā)生劇烈變化時,孿生網(wǎng)絡(luò)目標跟蹤算法確實能夠發(fā)揮較好的性能優(yōu)勢。但是,當物體發(fā)生快速翻轉(zhuǎn)、翻折等立體維度的變化時,該類算法并沒有高效的應(yīng)對方法。如圖23所示,現(xiàn)實生活中,目標跟蹤任務(wù)并不只有平面內(nèi)的簡單跟蹤,能否正確認識到自身以及周圍環(huán)境的立體維度的信息,這也是孿生網(wǎng)絡(luò)目標跟蹤算法需要面對的一個難題。
Figure 23 Object flipping problem and folding problem
上節(jié)總結(jié)了孿生網(wǎng)絡(luò)目標跟蹤算法面臨的瓶頸,這些瓶頸帶來難題的同時,也引導(dǎo)著研究人員研究的方向。下面討論可能會成為今后研究熱點的幾個問題。
5.2.1 優(yōu)化骨干網(wǎng)絡(luò)
雖然SiamDW討論了卷積神經(jīng)網(wǎng)絡(luò)深度對孿生網(wǎng)絡(luò)目標跟蹤算法的影響,但影響骨干網(wǎng)絡(luò)性能的因素并不只有網(wǎng)絡(luò)深度。網(wǎng)絡(luò)的卷積方法(高波卷積[62]和動態(tài)卷積[63]等)、使用注意力機制(SE(Squeeze and Excitation networks)[64]、CBAM(Convolutional Block Attention Module)[65]和CA(Coordinate Attention)[66]等)以及引入其他額外模塊,都已被證明可以提升視覺圖像領(lǐng)域算法的性能。孿生網(wǎng)絡(luò)目標跟蹤算法由于其本質(zhì)是2個或多個人工神經(jīng)網(wǎng)絡(luò)組合的耦合框架,優(yōu)化骨干網(wǎng)絡(luò)對于提升算法準確率與實時性事半功倍。
5.2.2 困難樣本挖掘
DaSiamRPN證明了額外的訓(xùn)練樣本有助于提升算法的整體性能,而針對特殊遮擋等復(fù)雜的目標跟蹤任務(wù),孿生網(wǎng)絡(luò)目標跟蹤算法需要對困難樣本進行額外的訓(xùn)練來改善網(wǎng)絡(luò)參數(shù)。類似目標檢測領(lǐng)域中提出的OHEM(Online Hard Example Mining)[67]在線學(xué)習算法,訓(xùn)練時選擇困難樣本進行迭代,代替簡單的采樣,可以有效提高孿生網(wǎng)絡(luò)目標跟蹤算法在面對復(fù)雜挑戰(zhàn)時的魯棒性。
5.2.3 優(yōu)化評價指標
近年來,GIoU(Generalized Intersection over Union)[68]、DIoU(Distance Intersection over Union)[69]以及CIoU(Complete Intersection over Union)[70]的相繼提出,彌補了傳統(tǒng)IoU算法在部分情況下參數(shù)更新困難的問題(如圖24所示)。將更有助于梯度下降的指標引入到孿生網(wǎng)絡(luò)目標跟蹤算法中可以有效降低回歸損失。同時,SESiamFC也證明了其他的相似度量函數(shù)也可以有效應(yīng)用到孿生網(wǎng)絡(luò)目標跟蹤算法中,并提高算法的準確率。
Figure 24 Regression problems that IoU method cannot solve
5.2.4 目標立體建模
3D立體建模已經(jīng)廣泛應(yīng)用到目標檢測[71]和目標識別[72]任務(wù)中。將孿生網(wǎng)絡(luò)目標跟蹤算法的平面特征輸入修改為空間特征輸入,從而使網(wǎng)絡(luò)學(xué)習到目標和周圍環(huán)境的立體空間知識,提高網(wǎng)絡(luò)對發(fā)生劇烈形變和平面外翻轉(zhuǎn)的目標前后景的識別能力,這種方法還有很大的拓展空間。
基于孿生網(wǎng)絡(luò)的目標跟蹤算法是目標跟蹤領(lǐng)域的研究熱點。隨著目標跟蹤算法的不斷發(fā)展,該方向也逐漸受到研究人員更為廣泛的關(guān)注。本文首先介紹了目標跟蹤的現(xiàn)狀以及孿生網(wǎng)絡(luò)目標跟蹤算法的本質(zhì)與由來,并討論了多種以孿生網(wǎng)絡(luò)為基礎(chǔ)的目標跟蹤算法以及它們的特點與優(yōu)勢。通過使用近年主流且具有說服力目標跟蹤數(shù)據(jù)集作為測試標準,對比了所有介紹的基于孿生網(wǎng)絡(luò)目標跟蹤算法的性能差異。根據(jù)實驗結(jié)果,討論了當前基于孿生網(wǎng)絡(luò)的目標跟蹤算法的瓶頸并分析了日后的發(fā)展趨勢。