張?zhí)烨?劉明華,何 博,邵洪波
(青島科技大學 信息科學技術學院,山東 青島 266061)
在計算機視覺任務中,目標跟蹤定義為給定視頻初始幀的目標位置,預測后續(xù)視頻序列的目標狀態(tài)[1]。它被廣泛地應用于智能視頻監(jiān)控、無人機、機器人等[2],是計算機視覺的一個重要研究方向。如何在光照變化、遮擋形變、相似目標、尺度變化、運動突變等復雜場景中,準確、快速地跟蹤目標是亟待解決的問題[3],其中遮擋是導致目標跟蹤失敗最普遍的問題。
為應對局部遮擋問題,陳勇等[4]使用提出的注意網(wǎng)絡融合淺層和深層特征,進而引導模型更多關注被遮擋目標可視區(qū)域。王蓓等[5]判斷目標是否被遮擋的方法是平均峰值相關能量遮擋判據(jù),目標出現(xiàn)遮擋時,該算法依據(jù)目標的歷史運動軌跡使用濾波修正目標位置。姜文濤等[6]提出異常分析機制來判斷目標是否被遮擋,設計響應模型和響應圖做對比,二者差距大即說明目標存在遮擋或形變等異常。分塊算法能有效地應對遮擋問題。劉明華等[7]利用超像素分塊的模式不變性,得到能很好地保持目標邊界和空間結構特征的自適應目標子塊;遮擋處理方面,使用目標相似性度量和超像素判別處理每個目標子塊。考慮到局部模型和全局模型的聯(lián)系,張衛(wèi)峰等[8]使用局部濾波器粗略估計目標位置,再由全局濾波器準確定位目標。王任華等[9]利用局部分塊應對遮擋,聯(lián)合全局模型應對目標的大幅度形變。局部和全局模型的聯(lián)合實現(xiàn)了魯棒的目標跟蹤。以上方法從遮擋識別機制的設計到分塊算法,再到聯(lián)合全局模型處理遮擋,一定程度提升模型在遮擋場景中跟蹤的性能,然而遮擋圖片數(shù)據(jù)集有限限制了上述算法性能的提升,遮擋數(shù)據(jù)集有限導致模型很難學習到豐富的遮擋圖像特征,導致其識別能力在面對不同類型的遮擋場景時難以得到較好的體現(xiàn)。同時,遮擋情況的多樣性和復雜性也會導致模型的泛化能力下降,遮擋場景下,模型往往會出現(xiàn)漏檢或誤檢的情況。此外,由于過度擬合的情況常常在較小的數(shù)據(jù)集中出現(xiàn),遮擋圖片數(shù)據(jù)集有限也會引發(fā)此類問題,使模型難以泛化到新的場景并保持高精度跟蹤的效果。為了解決這些問題,需要引入更多的具有豐富變化的遮擋樣本數(shù)據(jù),或者采用更為先進的數(shù)據(jù)增強技術或網(wǎng)絡優(yōu)化算法以提高模型在遮擋場景下的抗干擾能力,因此本工作通過生成隨機遮擋塊,擴充負樣本數(shù)據(jù)集,提升模型在遮擋情況下對判別性特征的提取能力,進而提升模型在遮擋場景下的抗干擾能力。
注意力機制利用特征增強模塊篩選特征,為目標特征賦予高權重,從而引導跟蹤器關注重要信息,忽略干擾信息。HU 等[10]提出擠壓激勵模塊(squeeze and excitation module,SE),通過給通道加權顯式地建模特征通道間的依賴關系。PARK等[11]提出瓶頸注意模塊(bottleneck attention module,BAM),增加卷積模塊操作的空間注意力機制,與通道注意力機制并行,進一步優(yōu)化目標特征。鑒于SE 模型忽略了目標在特征圖中的位置信息,HOU 等[12]提出協(xié)調注意力(coordinate attention,CA)模塊,該模塊使用平均池化獲取并拼接特征圖的縱向和橫向上的信息,最后重標定特征圖。對比SE模型,精度提升的同時,參數(shù)和計算量更少。呂振虎等[13]在DiceNet[14]使用的卷積方法基礎之上提出了基于擠壓激勵的輕量化注意力機制模塊,獲取到特征圖在高度維度上的有用信息,證明了特征圖中仍存在著可利用的信息。從SE的通道注意力到BAM 的空間注意力,以及后來的協(xié)調注意力,都未能充分挖掘和融合特征圖中的信息,導致跟蹤器難以準確提取目標的特征造成跟蹤失敗,另外在處理部分遮擋、形變、旋轉或尺度變化等情況時表現(xiàn)較差,導致魯棒性下降,從而降低跟蹤模型的可靠性和穩(wěn)定性。因此,在目標跟蹤中,必須充分挖掘特征圖中的信息,以提高跟蹤模型的效果,因此本工作從特征圖的三個維度去捕獲有用信息,聯(lián)合空間注意力模塊,充分挖掘并融合特征圖信息,提升模型應用精度。
本工作提出一種基于多注意力融合的抗遮擋目標跟蹤方法(anti-occlusion target tracking based on multi-attention fusion,AOTMAF)。并在GOT-10k等多個公開數(shù)據(jù)集上驗證了模型的有效性。
基于多注意力融合的抗遮擋跟蹤方法總體框架如圖1所示,網(wǎng)絡由骨干網(wǎng)絡、特征融合網(wǎng)絡和預測頭三個部分組成。主干網(wǎng)絡首先,提取模板和搜索區(qū)域的特征;然后,利用特征融合網(wǎng)絡對特征融合,最后,預測頭對增強的特征進行二值分類和邊界盒回歸,生成跟蹤結果。
圖1 基于多注意力融合的抗遮擋目標跟蹤框架Fig.1 Anti-occlusion target tracking framework based on multi-attention fusion
1.1.1 特征抽取
與基于Siam 框架的跟蹤器類似,提議的網(wǎng)絡使用成對的圖像塊(即模板和搜索區(qū)域)作為輸入。模板是視頻序列第一幀中目標中心邊長的2倍放大圖,包含了目標的外觀及其鄰近環(huán)境的信息。前一幀圖像中目標中心坐標的邊長被放大4倍,形成搜索區(qū)域,該區(qū)域覆蓋了目標可能的運動范圍。搜索區(qū)域和模板都被轉換為正方形。緊接著,搜索圖像經(jīng)過漸進式隨機遮擋模塊(progressive random occlusion module,PRO)處理,得到遮擋圖像,將遮擋圖像和模板圖像送入主干網(wǎng)絡處理。隨機遮擋模塊具體實現(xiàn)細節(jié)見1.2節(jié)。
本工作調整Res Net50用于特征提取。更具體地說,Res Net50的最后一個階段被刪除,第四階段的輸出被用作動態(tài)輸出。第四階段的卷積步幅從2降到1,以達到更好的特征分辨率。為增加感受野,第四階段的3×3卷積也被改為2步幅。骨干網(wǎng)對遮擋搜索區(qū)域和模板進行處理,以獲得其特征映射
1.1.2 特征融合網(wǎng)絡
本工作設計了一種特征融合網(wǎng)絡,有效地增強并融合特征f z和f x。首先將特征表達送入多注意力融合模塊,獲得重要通道和目標所在空間的信息;再送入特征融合模塊,融合多層卷積后輸出的特征,特征的多樣性得到提升,進而提升模型性能。
多注意力融合模塊由三維度通道注意力和空間注意力組成。利用三維度通道注意力機制可以從三個維度捕獲特征圖有用信息,利用空間注意力機制可以引導模型關注特征圖空間信息,將基于三維度的通道注意力機制和空間注意力機制融合,在保持特征通道間關聯(lián)性的同時保留了特征圖的空間信息。多注意力融合模塊的具體實現(xiàn)細節(jié)見1.3。
1.1.3 預測頭網(wǎng)絡
分類和回歸分支組成預測頭,每個分支包含一個三層感知器和一個Re Lu激活函數(shù),感知器的隱藏維度為d。經(jīng)由特征融合網(wǎng)絡輸出特征圖(f∈Rd×H x Wx),預測頭對該特征圖中每個向量預測,分別得到H x W x個前/背景分類結果以及H x W x對搜索區(qū)域大小的歸一化坐標。算法直接預測歸一化的坐標,根據(jù)先驗知識完全消除了錨點和錨盒,這使得框架更加簡單。
圖像裁剪和遮擋等數(shù)據(jù)增強方法可以提高模型的魯棒性和通用性,但對于困難的訓練樣本,這種方法對性能提高是有限的。為了更好地模擬遮擋圖像,本算法嵌入漸進式遮擋模塊PRO。隨著學習次數(shù)的增加,網(wǎng)絡學習能力提升,PRO 漸進式地對一些圖像區(qū)域進行隨機遮擋,提升模型在遮擋情況下對判別性特征的提取能力。
給定一個圖像X∈R3×H×W,PRO 在X中隨機生成i個遮擋區(qū)域的塊P i。每個塊P i的面積為S i,塊P i的總面積為S,其中H和W是圖像的長度和寬度。i是區(qū)塊的數(shù)量,P i是區(qū)塊的數(shù)量。遮擋塊的生成過程如下:
1)圖像的面積為S o=H×W,隨機初始化生成S0,其中S0∈[s l×S,s h×S],s l、s h分別為最小和最大面積遮擋系數(shù)。
4)區(qū)域P i=(x i,y i,x i+h i,y i+w i)為遮擋區(qū)域。生成一個[0,255]的隨機值填充區(qū)域P i的像素點,最終得到一個人工遮擋特征張量模擬遭受遮擋的圖像Xobscure。
如圖2 所示,每5 個訓練輪次,遮擋塊數(shù)量翻倍,S隨著輪次的增加而增大。
圖2 基于批次的漸進式隨機遮擋塊Fig.2 Batch-based progressive random occlusion block
遮擋圖像Xobscure通過主干網(wǎng)得到特征圖F_obscure,F_obscure經(jīng)過多注意力融合模塊 進一步提取精煉特征與通過二值降維的mask按照元素級的操作乘法得到Fmask,Fmask與作為MSELoss 的輸入,Fmask通過計算MSELoss對F_obscure進 行監(jiān)督。該損失函數(shù)使遮擋的區(qū)域對應于特征盡可能為0,使模型在反向傳播中忽略生成的遮擋區(qū)域O i。該損失函數(shù)如下:
然后F'_obscure通 過3×3卷積層、批次歸一化層以及ReLU 層,最終得到特征圖Fobscure∈R32×24×8。該分支起到了提取局部非顯著性特征的作用。
其中:W O和b O分別為卷積層的權重和偏置。
通過融合三維度通道注意力和空間注意力機制,能有效抑制背景噪聲,強調目標區(qū)域,充分挖掘并融合目標特征,算法的跟蹤性能得到提升。本節(jié)介紹多注意力融合模型(muti-attention fusion,MAF)的細節(jié),如圖3所示。
圖3 多注意力融合機制Fig.3 Multi-attention fusion mechanism
1.3.1 HD-SE模塊和WD-SE模塊
對于一個三維特征圖張量F∈RC×H×W,不同于擠壓激勵操作在深度維度上加權特征圖的通道信息,HD-SE是在高度維度處理特征圖。具體地,首先將特征圖按高度維度轉置,得到F1∈RH×C×W輸入到HD-SE中,接著對F1進行擠壓激勵操作,得到基于高度維度的道道權重系數(shù),基于此對輸入特征圖F1重標定,應用懲罰系數(shù)b,最后將特征圖轉置回來。懲罰系數(shù)是為了降低由于轉置操作帶來的干擾信息對特征的影響。
圖4為HD-SE 結構圖。其中Fsq(·) 為擠壓操作,Fex(·,W)為激勵操作,Fscale(·,·)為特征重標定操作,β為懲罰系數(shù)。WD-SE 則是在寬度維度上對特征圖轉置,后續(xù)操作相同,該模塊實現(xiàn)從特征圖的高度維度去捕獲有用信息。
圖4 HD-SE結構Fig.4 HD-SE structure
分別得到從三個維度通道增強的特征,將這三個特征圖Concat在一起,即得通道數(shù)為3×256,大小為7×7的特征圖;最后,用Conv Transpose2d操作,得到大小為7×7×256的特征圖F c,該特征圖具備三個維度通道增強信息,接著將增強特征圖送入空間注意力模塊。
1.3.2 空間注意力機制
空間注意力機制可以對目標中的特征聚焦,通過賦予特征圖不同位置的重要性,增強重要區(qū)域,抑制不重要區(qū)域,增加了特征間的判別性,進而將跟蹤目標從復雜的背景下區(qū)分出來。
在本工作的模型中,將三維度通道注意力模型輸出的特征圖作為空間注意力機制模塊的輸入特征圖。如圖5 所示,首先分別使用最大池化(maxpooling)和平均池化(meanpooling)操作壓縮輸入特征圖通道域特征,接著為消除通道間信息分布對空間注意力機制的影響,使用卷積操作壓縮多通道特征為單通道特征,然后應用激活函數(shù)歸一化權重,最后進行特征重標定,得到具有空間權重信息的特征圖。
圖5 空間注意力機制Fig.5 Spatial attention mechanism
空間注意力模塊的運算過程:
其中,Fc為輸入特征圖,δ是sigmoid激活函數(shù),f3×3是卷積核大小為3 的卷積層,AvgPool(·)和Max Pool(·)分別表示平均池化和最大池化操作。
訓練完成后保存網(wǎng)絡參數(shù),在跟蹤時使用。跟蹤流程如下:
1) 從第一幀圖片中,以跟蹤目標的中心點截取127×127的區(qū)域,作為template。
2) 在隨后的圖片中,以上一幀跟蹤目標的中心點截取255×255的區(qū)域,作為search region。
3) 將template,search送入RPN 網(wǎng)絡預測出目標的box和score。
4) 對score進行window penalty,即采用窗函數(shù)(漢寧窗,余弦窗等)對距離中心點較遠的邊緣區(qū)域分數(shù)進行懲罰。
5) 取分數(shù)最高的box中心點作為新的中心點,上一幀目標的寬高和box的寬高進行平滑加權作為新的寬高。
6) 采用新的中心點和寬高作為當前幀的box。
本章在OTB100、VOT2018 和GOT-10k 3 個標準數(shù)據(jù)集上測試了算法的性能,并與幾種先進的目標跟蹤算法進行了比較。實驗結果表明,本章提出的算法具有良好的跟蹤性能。進行了消融實驗以驗證提出的模塊組件對性能的提升。
本工作采用ResNet-50作為主干網(wǎng)絡的預訓練模型。采用批量隨機梯度下降對模型進行訓練,批次大小為32。本工作使用權重衰減改變學習率,前5個迭代過程利用熱身訓練,其中初始學習率為0.001,隨后每個迭代過程增加0.001,熱身結束后采用學習率梯度下降對網(wǎng)絡進行訓練。共計20輪迭代過程,網(wǎng)絡總體訓練時間為50 h,實驗中使用的深度學習框架pytorch為1.11.0版本,python為3.8 版 本,GPU 為NVIDIA GeForce RTX2070,CUDA 為11.3.1版本,Cudnn為8.2.1。
OTB100數(shù)據(jù)集由100個人工標注的跟蹤視頻組成,這些視頻包含背景混合、光照、遮擋等目標跟蹤任務中常見的困難和挑戰(zhàn)。該數(shù)據(jù)集的兩個評價指標為準確率(precision)和成功率(success rate)。計算預測框和人工標注框中心點的距離,該距離小于一定閾值時的視頻幀數(shù)占總幀數(shù)的比率定義為準確率。計算預測框與真實框重疊的數(shù)值,該數(shù)值大于設定閾值即判定當前幀為跟蹤成功,成功率即成功幀數(shù)與所有幀數(shù)的比值。通過在OTB100 數(shù)據(jù)集上利用一次通過測試OPE對本算法與Siam RPN++、DeepSRDCF、DaSiam RPN、CFNet、Siam FC、Siam FC++等6種算法進行比較,圖6左圖為準確率曲線圖,右圖為成功率曲線圖。本章算法的準確率超過基于Transformer的Trans T[16]1.3個百分點,排名第一,成功率為68.8%,性能表現(xiàn)良好。
圖6 在OTB100上的精確率圖和成功率圖Fig.6 Accuracy and success rates on OTB100
VOT2018包含60個人工精確標注的短時跟蹤視頻序列,該數(shù)據(jù)集包括3個性能分析指標,分別是魯棒性(robustness,R)、準確率(accuracy,A)及期望平均重疊率(expected average overlap,EAO)。魯棒性用來衡量跟蹤失敗次數(shù);計算預測框和真實框重疊率,取平均值計為準確率;期望平均重疊率是通過計算跟蹤器在大量的具有相同視覺特性的短期序列上所期望得到的平均重疊率。表1給出了AOTMAF算法與其他跟蹤算法的測試結果。AOTMAF的EAO 指標達到0.489,排名第一,超過基于Transformer的Tr Di MP[17]2.7個百分點。
表1 VOT2018上與多個跟蹤器對比Table 1 Comparison with multiple trackers on VOT2018
GOT-10k是一個包含了超過10 000條視頻序列的大型多場景數(shù)據(jù)集,共包含560多個類別。該數(shù)據(jù)集的兩個評價指標為平均重合率(average overlap,AO)和成功率(success rate,SR)。預測框與和真實框交并比取平均值計為AO,重疊率超過一定閾值下幀數(shù)的百分比計為成功率,閾值取0.5和0.75。從表2可以看出AOTMAF算法的AO 指標值為64.4,超過ATOM[21]8.8個百分點,超過基于時空記憶網(wǎng)絡的無模板視覺跟蹤器STMTracker[22]0.2個百分點。實驗結果表明AOTMAF算法在不同類別目標跟蹤任務中有著良好的性能。
表2 GOT-10k上與多個跟蹤器對比Table 2 Comparison with multiple trackers on GOT-10k
如表3中所示,本算法可以以超過86幀·s-1的速度實時運行,該算法速度超過基于Transformer的STARK,而計算量和參數(shù)量與之持平,主要因為HD-SE與WD-SE模塊是輕量級結構,對網(wǎng)絡增加的參數(shù)量和計算量可以忽略不計。
表3 參數(shù)量、運算量和速度對比Table 3 Comparison about the speed,FLOPs and Params
為了進一步驗證本章跟蹤方法中漸進式隨機遮擋模塊(PRO)、多注意力融合模塊(MAF)的有效性,本小節(jié)在OTB100、VOT2018 和GOT-10K 數(shù)據(jù)集上開展消融實驗。如圖7 所示,算法在OTB100數(shù)據(jù)集上進行消融實驗,其中Base是指除去PRO 和MAF模塊的算法。對比Siam FC 算法,PRO 和MAF 在跟蹤精度上分別比Siam FC 提高7.4%和5.1%,驗證了本研究所提模塊的有效性。
圖7 OTB100上消融實驗Fig.7 Ablation study on OTB100
表4 展示了不同的模塊設計在VOT2018 和GOT-10K 上進行消融實驗所得到的跟蹤模型的性能對比。由表4中可以看出,當算法僅引入PRO 模塊時,跟蹤器在VOT2018上3項指標上均有提升,在準確度上達到了64.0%,在魯棒性和EAO 上分別提升了0.8%、0.5%;跟蹤器在GOT-10K 的平均重疊提升了1.4%。
表4 VOT2018與GOT-10K 上消融研究Table 4 Ablation study on VOT2018 and GOT-10K
當僅采用MAF模塊時,算法在VOT2018上的跟蹤結果保持了準確度的同時,在魯棒性和EAO上表現(xiàn)較好,分別達到了18.9%、48.4%;在GOT-10K 的平均重疊提升了1.6%。而當算法同時采用RPO 模塊和MAF 模塊時,算法的跟蹤效果最好,在VOT2018數(shù)據(jù)集的精確度、魯棒性和EAO 指標上分別達到了64.0%、18.1%、48.9%,在魯棒性和EAO 上提升明顯;在GOT-10K 的平均重疊提升2.2%。各性能指標的提升是因為PRO 模塊能夠由易到難地訓練模型識別遮擋圖像,提升了模型在遮擋情況下對判別性特征的提取能力,有效減少背景的干擾,使網(wǎng)絡更具有魯棒性。另外HD-SE 模塊及WD-SE模塊在特征圖的高度維度與寬度維度進行擠壓激勵捕獲特征圖中信息,充分挖掘和融合特征圖中的有用信息,提升模型跟蹤性能。結合以上兩點分析以及消融實驗結果,說明充分利用特征圖信息以及隨機遮擋塊的生成,使得本算法能很好的適應目標表觀變化和遮擋影響,有效提高復雜環(huán)境下跟蹤的精確性和魯棒性。
本研究提出了一種基于多注意力融合的抗遮擋目標跟蹤算法,主要解決特征挖掘不充分以及模型在遮擋情況下判別性特征的提取能力較弱兩類問題。本研究從特征圖的三個維度去捕獲有用信息,融合了特征三個維度的通道注意力及空間注意力,進一步挖掘了特征圖通道信息,并對特征圖中每個位置的空間依賴性進行聚合,模型應用精度得到提升。使用PRO 模塊,更好地模擬遮擋圖片,使網(wǎng)絡在遮擋情況下,能夠對具有較少顯著特征的圖片有更好的識別率。下一步工作將探索如何更好地生成遮擋區(qū)域,進行精準化遮擋,進而更加有效地將背景信息和前景信息區(qū)分開,以生成更有價值的遮擋圖像,從而進一步提高模型的準確率。