周雙雙,宋慧慧,張開華,樊佳慶
(1.南京信息工程大學 自動化學院,南京 210044; 2.江蘇省大數(shù)據(jù)分析技術重點實驗室,南京 210044)
視覺跟蹤是計算機視覺中的基本問題,被廣泛應用于人體運動分析、視頻監(jiān)控、自動駕駛等領域。雖然目前已有許多方法[1-3]被提出用于解決視覺跟蹤問題,但由于形變、遮擋、快速運動等因素的影響,穩(wěn)健的視覺跟蹤系統(tǒng)仍然難以實現(xiàn)。
近年來,相關濾波器被廣泛應用于視覺跟蹤。文獻[4]將自適應相關濾波器應用于目標跟蹤,利用單通道灰色特征使算法實時速度超過600幀/s。文獻[5]提出一種基于雙步相關濾波的目標跟蹤算法,在提高目標跟蹤精度的同時保證了跟蹤速度,該算法具有較強的魯棒性,同時能解決目標遮擋時目標模板被污染的問題。文獻[6]提出一種利用最大間隔相關濾波的目標跟蹤算法,通過最大分類間隔增強相關濾波器的判別性,將相似背景作為負樣本對模型進行更新來提高跟蹤的魯棒性。文獻[7]提出一種基于低秩重檢測的多特征時空上下文跟蹤方法,利用有效的矩陣分解方式對歷史跟蹤信息進行低秩表達,并將其引入在線重檢測器,解決了跟蹤失敗后的重定位問題。文獻[8]設計核化相關濾波器(Kernelized Correlation Filter,KCF),通過將多通道的HOG特征代替灰度特征,并添加余弦窗口抑制邊界效應。文獻[9]通過增加一個尺度的回歸實現(xiàn)了精確的尺度估計。文獻[10]在濾波器上結(jié)合空間正則化,使學習的濾波器權重集中在目標對象的中心部分以解決邊界效應,但是速度只有4幀/s,很難應用到實際場景中。
目前,已有較多研究結(jié)合了相關濾波和深度特征。文獻[11]在文獻[10]基礎上利用CNN深度特征,但其利用相關濾波將特征提取與跟蹤器訓練等隔離開,無法從端到端訓練中受益。文獻[12]采用全局顏色直方圖特征和局部HOG特征實現(xiàn)了判別相關濾波器(Discriminant Correlation Filter,DCF)跟蹤的融合特征。文獻[13]利用圖像分塊逐一檢測的方法設計重新檢測模塊,避免出現(xiàn)跟蹤漂移現(xiàn)象,但分塊檢測使運算時間成本增加。文獻[14]通過稀疏的模型更新策略減少了更新的參數(shù),但速度上表現(xiàn)一般。文獻[15]利用大規(guī)模數(shù)據(jù)集離線訓練設計前后幀特征相似性匹配的深度卷積網(wǎng)絡,雖然速度上能達到實時,但精度表現(xiàn)一般。盡管目前基于相關濾波器的跟蹤器有很多改進方法,也在精度和速度上得到提升,但面對遮擋和運動模糊等情況,仍未有較好的解決方案。
文獻[16]提出的可判別相關濾波器網(wǎng)絡(Discriminant Correlation Filter Network,DCFNet)雖然通過添加余弦窗有所改進,但仍受到邊界效應的影響,并且其在遮擋和運動模糊情況下目標容易發(fā)生域漂移。針對上述問題,本文采用多注意力機制自適應選擇重要目標特征信息進行學習,設計RACFNet網(wǎng)絡結(jié)構。通過由編碼器和解碼器組成的EDNet網(wǎng)絡獲取高級語義信息,并將其融合到原始低級特征中,以彌補單一低級特征表達力的不足。同時,根據(jù)解碼器作用的域獨立重構約束,利用編碼器中學習到的高級語義特征魯棒處理目標漂移情況。
與傳統(tǒng)DCF方法不同,本文分析DCF封閉解的求解方案,挖掘網(wǎng)絡以端到端方式學習最適合DCF跟蹤的特征,而無需手工干擾。將DCF視為文獻[15]在孿生網(wǎng)絡中添加的特殊相關濾波器層,提出RACFNet網(wǎng)絡的體系結(jié)構,其整體框架如圖1所示,其中包含卷積層、編碼器和解碼器結(jié)構層。在離線訓練過程中,卷積層、編碼器和解碼器構成特定的特征提取器ψ,相關濾波器層則通過將網(wǎng)絡輸出定義為目標位置的概率圖來有效地完成在線學習和跟蹤。由于相關濾波器層的推導仍然在傅里葉頻域中進行,因此保留DCF的效率特性。
圖1 RACFNet網(wǎng)絡框架
本文設計一個基于增強語義與多注意力機制學習的深度相關跟蹤算法,其特征提取框架如圖2所示,其不同于圖3所示的EDNet結(jié)構只含卷積Conv1和Conv2的淺層特征,本文加入編碼器和解碼器結(jié)構提取高級語義特征,結(jié)合淺層特征得到融合特征F。圖4所示為通道注意力機制結(jié)構。F跳躍連接通道注意力機制構成的通道殘差注意力機制,輸出特征為F1,表示在不同的通道位置上進行加權。圖5所示為空間注意力機制結(jié)構,其中,F1跳躍連接空間注意力機制構成的空間殘差注意力機制,是對通道注意力學習的補充,提高了對空間上下文信息的有效利用。此外,淺層特征中包含Conv1和Conv2卷積層,采用96個3×3×3濾波器,并且在濾波器后使用縮放指數(shù)線性單元(Scaled Exponential Linear Unit,SELU),該激活函數(shù)對網(wǎng)絡具有自歸一化功能。最后采用32個96×3×3濾波器,在濾波器后使用局部響應歸一化函數(shù)(Local Response Normalization,LRN)對局部神經(jīng)元的活動創(chuàng)建競爭機制,使響應比較大的值變得相對更大,并抑制其他反饋較小的神經(jīng)元,增強模型泛化能力。
圖2 特征提取器ψ結(jié)構
圖3 EDNet網(wǎng)絡結(jié)構
圖4 通道注意力機制結(jié)構
圖5 空間注意力機制結(jié)構
(1)
在式(1)中,wl是相關濾波器參數(shù)w的通道l層,表示循環(huán)相關,正則項λ≥0,目的是優(yōu)化如式(2)所示。
(2)
在檢測進程中,需要裁剪搜索的圖像塊在新的幀中特征ψ(z),通過搜索相關響應圖m最大值來估計轉(zhuǎn)換,如式(3)所示。
(3)
在離線訓練的大規(guī)模數(shù)據(jù)集上,本文方法保留了DCF性能的優(yōu)越性,離線訓練為在線DCF跟蹤提供了特定功能特征提取器。
在線模型的更新中,在線跟蹤將更新濾波器參數(shù)w,優(yōu)化式(1)問題以增量模式表示,如式(4)所示。
(4)
其中,參數(shù)μt≥0,表示對樣本xt的影響。由式(2)中的封閉解形式可以拓展到時間序列,如式(5)所示。
(5)
高級語義特征由編碼器和解碼器結(jié)構提取得到,命名為EDNet,該結(jié)構中存在池化層,這樣會丟失圖像信息和降低圖像分辨率且是不可逆的操作,結(jié)構中的上采樣可以彌補一些圖像的信息,但是補充的信息不夠完全,因此,還需要與分辨率高的圖像相互連接,在圖像卷積的同時增加填充使輸入輸出尺寸相同,隨著卷積次數(shù)的增多,提取的特征也更加有效,而比普通的編碼器和解碼器的特殊之處,采用上采樣并且直接復制淺層信息的方法,無需裁剪,獨特的通道層的設計使前后層信息融合從而彌補單一特征的不足,使特征表現(xiàn)得更魯棒。
EDNet網(wǎng)絡框架屬于輕量級網(wǎng)絡,如圖3所示,其中左半分支輸入原圖經(jīng)過6次卷積(3×3)、2次池化層(5×5)下采樣,原圖125×125×3經(jīng)過前半分支操作后變?yōu)?×5×64,通過后半分支采用4次卷積、2次反卷積上采樣,后半分支設計將前半分支特征圖和對稱的后半分支上采樣的特征圖級聯(lián),然后直接128通道經(jīng)過卷積(3×3)將通道降到32,減少信息的冗余,使高級語義特征更加顯著,最后經(jīng)過上采樣和卷積的操作使圖像恢復到輸入圖像的大小。EDNet網(wǎng)絡關注更多的高層信息,并還原原圖的底層空間結(jié)構信息,進一步增強了淺層特征的語義信息,這種增強語義信息的方法有助于目標跟蹤的特征穩(wěn)健性表達。
(6)
本文通過使用最大池化和平均池化操作得到特征圖的空間信息,其體現(xiàn)信息突出的部分,是對通道注意力圖的補充。空間注意力機制沿通道軸應用最大池化和平均池化操作,并將它們相連接以生成有效的特征表達。
MZ1(F1)=F1?σ(f3×3([MaxPool(F1);
AvgPool(F1)]))
(7)
其中,σ表示為Sigmoid函數(shù),f3×3表示為一個卷積核尺寸大小為3×3的卷積操作。F1跳躍連接MZ1(F1)形成空間殘差注意力機制。
本文設計是在DCFNet的基礎上引入高級語義特征和淺層特征的有效結(jié)合,算法主要分為3個階段:
1)訓練階段:輸入樣本,在當前的幀中確定搜索區(qū)域;初始化特征提取器參數(shù),構造均方誤差損失,通過梯度下降學習特征提取器的參數(shù),將搜索區(qū)域通過提取器提取特征;計算特征的自相關性,通過嶺回歸學習到濾波器模板。
2)檢測階段:新的一幀根據(jù)上一幀的目標位置確定搜索區(qū)域,通過特征提取器提取特征,計算搜索區(qū)域特征;將其特征與濾波器模板相關操作,輸出響應值中最大值就是目標的最新位置。
3)模型更新階段:每幀都對目標濾波器模板學習更新。
實驗平臺是Ubuntu16.04系統(tǒng)下PyTorch0.4.0,所有實驗都在配置為Inter Core i7-8700k 3.70 GHz CPU、GTX1080Ti GPU的計算機上完成的。本文使用文獻[18]數(shù)據(jù)集裁剪出尺寸為125×125像素的546 315個視頻幀作為離線訓練數(shù)據(jù),采用動量為0.9的隨機梯度下降最優(yōu)化網(wǎng)絡并設置離線學習率l為10-5,權重衰減γ為5×10-5,訓練周期約為20個周期且每次小批量訓練樣本數(shù)為16。對于相關濾波層超參數(shù),采用固定在線學習率μt為0.008,正則化λ為10-4,插值因子為0.01,最后為了解決尺度變換問題,在搜索圖像上采用5個不同的尺度縮放因子s,{ds|d=1.031,s=-2,-1,0,1,2}去搜索圖像,其中d是尺度步長。
在OTB-2013[19]和OTB-2015[20]公共標準數(shù)據(jù)集上進行實驗評估,并以距離精確度(Distance Precision,DP)、成功率(Success Rate,SR)和中心位置誤差(Center Location Error,CLE)作為評估標準。
1)精確度:跟蹤目標框的中心坐標和真實值的中心坐標的歐式距離小于一定閾值(實驗中設置為20)的幀數(shù)占全部幀數(shù)的比例。
2)成功率:跟蹤目標的邊界框和標準目標邊界框的重疊率超過一定閾值(實驗中設置為0.5)的幀數(shù)占視頻總幀數(shù)的比例。成功率越高,跟蹤效果越好,計算公式為(Sg∩Sp)/(Sg∪Sp),其中,Sg、Sp分別為真實和預測的目標框面積。
數(shù)據(jù)集圖片中均包含光照變化、平面外旋轉(zhuǎn)、尺度變化、遮擋、形變、運動模糊、快速運動、平面內(nèi)旋轉(zhuǎn)、超出視野、背景混亂、低分辨率等因素的干擾。視覺跟蹤遵循OTB規(guī)則,并根據(jù)成功率結(jié)果進行評估。
在OTB2013的公共數(shù)據(jù)集上進行評測,將本文的跟蹤器RACFNet與3個先進的跟蹤器DeepSRDCF[11]、SiamFC3S[15]、DCFNet[16]進行一次通過型(One Pass Evaluation,OPE)成功率對比,實驗結(jié)果如圖6所示??梢钥闯?本文算法的成功率為67.3%,排名第一,DCFNet跟蹤器成功率值為62.2%,本文算法提高了5.1個百分點,在本測試集上本文算法跟蹤速度達到92.7幀/s,可見加入的高級語義特征、通道殘差注意力機制和空間殘差注意力機制使跟蹤效果得到顯著提高。
圖6 在OTB2013數(shù)據(jù)集上的成功率對比
分別選取100個OTB2015標準數(shù)據(jù)集,將本文方法與DCFNet、CREST[21]和SiamFC3S 3個跟蹤器進行成功率對比,實驗結(jié)果如圖7所示??梢钥闯?本文算法在測試視頻上魯棒性能最好,平均成功率為64.2%,其次是CREST,成功率為62.3%。本文算法在高級語義特征中加入了通道和空間殘差注意力,針對特征通道信息分布和空間特征的分布分別進行加權,表達出重要信息特征,較基準DCFNet跟蹤成功率58%提高了6.2個百分點,在OTB2015數(shù)據(jù)集上跟蹤速度達到92幀/s,表現(xiàn)得更魯棒。
圖7 在OTB2015數(shù)據(jù)集上的成功率對比
基于OTB2015數(shù)據(jù)集上,使用不同視頻對本文RACFNet跟蹤器進行性能評測。表1顯示了不同算法的目標跟蹤結(jié)果,可以看出,本文算法在7組測試視頻上精確度、成功率、中心位置誤差整體表現(xiàn)最佳,本文算法成功率平均值為89.7%,相對基準DCFNet的成功率平均值76.2%,提高了13.5個百分點,中心位置誤差平均值減少了26.66,跟蹤目標準確性提升。
表1 針對不同視頻的目標跟蹤性能對比
表2顯示了不同算法在不同干擾因素下的目標跟蹤結(jié)果??梢钥闯?,在精確率和成功率方面,本文算法在5種算法中綜合表現(xiàn)最好,除了運動模糊和低分辨率情況下成功率值排名第二,其他成功率值均排名第一。而在運動模糊方面,從精確率的比較可以看出,本文算法比基準DCFNet算法提高了16.5個百分點。從上述實驗結(jié)果可以看出,本文算法通過加入高級語義特征和通道與空間殘差注意力機制,在面對不同干擾環(huán)境時較其他算法魯棒性更強。
表2 不同干擾下的目標跟蹤結(jié)果對比
表3列出不同算法在部分視頻跟蹤速度結(jié)果,本文算法RACFNet在7組視頻中表現(xiàn)得最好,以SUV視頻為例,本文算法設計的端到端輕量級相關濾波網(wǎng)絡結(jié)構,算法運行時間少,平均速度達到97.2幀/s,SiamFC3S采用離線訓練相似匹配的網(wǎng)絡,計算量低,平均速度為86.2幀/s,以上算法均能達到實時,具有實際場景的遷移應用價值,但SiamFC3S精度表現(xiàn)一般,SRDCF[10]通過空間正則化來抑制邊界效應的影響。這樣增加了參數(shù)量,平均速度為3.2幀/s,DeepSRDCF[11]在SRDCF的基礎上采用了深度的特征,這樣特征提取也損耗時間,跟蹤平均速度為0.2幀/s,不能滿足實時性,難以應用于實際場景。
表3 針對不同視頻的跟蹤速度對比
本文在DCFNet的基礎上設計RACFNet網(wǎng)絡結(jié)構。由EDNet網(wǎng)絡得到高級語義信息并作為原低級信息的補充,分別利用通道和空間殘差注意力機制自適應選擇重要目標進行特征學習,從而減小邊界效應的影響,去除冗余的特征信息。在DCFNet中采用低級特征同時結(jié)合高級語義信息,體現(xiàn)出目標的高層和底層空間信息,并且使淺層特征的語義信息得到增強。實驗結(jié)果表明,RACFNet的OPE成功率較DCFNet提高6.2個百分點,在滿足跟蹤高精度要求的同時,平均速度達到92幀/s,符合實時性要求。下一步將優(yōu)化本文設計,提高其在目標形變和超出視野干擾下的跟蹤性能。