翁靜文, 李磊民, 黃玉清
(1.西南科技大學 信息工程學院,四川 綿陽 621010; 2.西南科技大學 國防科技學院,四川 綿陽 621010)
在線視覺跟蹤是計算機視覺的一個熱門問題,在許多應用中起到至關重要的作用,比如自動駕駛、智能交通控制和無人機監(jiān)控等[1~3],其中無人機監(jiān)控具有地理阻礙小,數據采集快,視距范圍廣等優(yōu)勢,使得無人機能夠持續(xù)對目標進行觀測。
經典的行人跟蹤算法是通過給定行人初始幀信息并在后續(xù)幀中評估行人狀態(tài)的過程。但由于實際跟蹤場景中存在目標遮擋、尺度變化的問題會影響目標跟蹤結果,同時無人機實時跟蹤也對算法的效率提出了較高要求,而現有的跟蹤算法難以做到兩者兼顧。判別相關濾波(discriminative correlation filtering,DCF)的目標跟蹤算法具有良好的魯棒性和明顯的速度優(yōu)勢,改進了跟蹤基準[4,5]。目前,基于DCF的跟蹤算法的最新進展是使用多維特征[6]、魯棒性尺度估計[7]、長期記憶組件[8]、復雜學習模型[9]等來提高跟蹤精度,然而,這些算法都是以犧牲大量的跟蹤速度為代價。為此,2016年,Danelljan M等人[10]在DCF跟蹤框架上提出了一種用于訓練連續(xù)卷積濾波器的新方法,即連續(xù)卷積算子的視覺跟蹤(learning continuous convolution operators for visual tracking,C-COT),采用內插模型來構造連續(xù)空間學習問題,使其能夠有效集成多分辨深度特征圖,并獲得視覺跟蹤算法測試(visual object tracking challenge,VOT)2016冠軍,但C-COT計算復雜度高,對于高維度參數空間極易過擬合導致跟蹤失敗。同年,Danelljan M等人[11]又在C-COT基礎上提出了高效卷積算子跟蹤算法(efficient convolution operators for tracking,ECO),通過引入分解卷積算子,提出緊湊訓練樣本分布的生成模型和稀疏模型更新策略這三個方法解決了C-COT計算復雜和過度擬合的問題,并且速度比C-COT提高了20倍。
近年來,隨著卷積神經網絡(convolutional neural network,CNN)的發(fā)展,CNN展現出明顯的目標跟蹤優(yōu)勢[12],其深層卷積層包含高層語義信息,淺層卷積層具有目標的位置信息,ECO采用的就是CNN的卷積特征圖,但CNN自身的復雜度無法滿足無人機實時性需求且成本較高,不利于嵌入到無人機系統(tǒng)中。
為此,針對目標遮擋嚴重、尺度變化大的問題,提出一種基于無人機指定行人穩(wěn)定實時跟蹤算法,即ECO-HC,采用Felzenszwalb P F等人[13]改進的方向梯度直方圖(fHOG)和顏色(CN)特征替換CNN并與ECO跟蹤算法的連續(xù)卷積濾波進行融合,并引入快速判別尺度空間跟蹤算法[14](fDSST)中快速尺度濾波器的方法,將搜索區(qū)域限制在較小部分,實現快速尺度自適應跟蹤目標。
如圖1所示,首先,提取初始幀標定框的fHOG和CN特征訓練相應濾波器模型,并提取新幀感興趣區(qū)域的fHOG和CN特征,利用訓練樣本的內插模型,使其特征圖從離散域轉換為連續(xù)域,并利用分解卷積算子、緊湊訓練樣本模型和稀疏模型更新策略,減少算法復雜度。隨后通過連續(xù)學習方式得到的所有響應圖加權求和,最大值位置即為當前幀目標中心位置,最后,引入快速尺度濾波器的方法自適應得到目標尺寸最佳估計,訓練所有濾波器模型,實現模型在線訓練與目標實時跟蹤。本文算法優(yōu)勢在于響應分數在連續(xù)域中定義,用于融合多個不同空間分辨率的特征圖,而不需要顯式重新采樣;自適應目標的尺度變化具有更高的跟蹤精度和亞像素定位精度,并且本文采用的連續(xù)學習方式的理論框架具有普遍性,可以應用于監(jiān)督學習任務中,特別是在目標跟蹤檢測和動作識別方面。
圖1 本文算法流程
1.2.1 分解卷積算子
ECO引入分解卷積方法,目的是減少模型中的參數數量。ECO不為每個特征通道學習單獨的濾波器,只使用一組貢獻大的C個基礎濾波器f1…fC。卷積算子如下
(1)
1.2.2 緊湊樣本空間生成模型
為了解決由連續(xù)樣本組成的訓練集外觀變化緩慢引起的大量冗余而導致的最近樣本過擬合的問題。ECO通過將訓練數據建模為高斯分量的混合使用樣本集的概率生成模型消除冗余,增強多樣性,降低了過擬合風險。如圖2。
圖2 傳統(tǒng)方法和ECO算法在樣本集的可視化表示
采用高斯平均值μl和先驗權重πl(wèi)分別代替權重xj和αj,并將C-COT中采用的M個樣本替換為L個(L=M/8),得到目標函數為
(2)
式中 期望值E為在聯(lián)合樣本分布p(x,y)上評估,p(x,y)與分解卷積算子結合,使用聯(lián)合樣本估計p(x,y)的一個緊湊模型可以更有效地貼近預期損失。
(3)
1.2.3 模型更新策略
為了降低連續(xù)模型更新對濾波器的負載影響,提高跟蹤速度,ECO將DCF跟蹤器中連續(xù)模型更新優(yōu)化為稀疏模型更新,通過每個第N幀更新濾波器,參數Ns為濾波器更新的頻率,利用執(zhí)行固定數量的CG迭代次數NCG來改進模型,這種稀疏更新模型可以使每幀CG迭代的平均數量減少到NCG/Ns,使得對學習的整體計算復雜度具有實質性影響。值得注意的是模型更新不會影響樣本更新。
ECO采用CNN特征,但速度相對手工特征較慢[16],滿足不了實時性。因此,本文利用DCF框架的可兼容特征的優(yōu)勢,用fHOG和CN特征替換CNN并與ECO的連續(xù)卷積濾波進行融合,能夠穩(wěn)定快速地對目標遮擋嚴重的指定行人進行跟蹤。其原因在于:fHOG(算法參考文獻[13])是以HOG特征為基礎,在具有一定的平移、旋轉和光照不變性,并在不引起性能損失的前提下對特征降維至31維,減少模型參數降低特征提取時間;CN特征是一種有效的顯著顏色特征,將RGB空間轉換為11維顏色特征空間,能夠很好表示目標的顏色信息。兩者互補,已成為近年跟蹤算法中手工特征標配。
通過首幀視頻序列的人工標定目標框初始化濾波器,以目標位置為中心的感興趣區(qū)域提取fHOG和CN特征,獲得特征塊的數量和總體維度,特征圖分為兩個部分,分別存放fHOG和CN特征。為了防止訓練參數過多,加大算法復雜度,利用前述分解卷積算子會降低fHOG和CN特征所對應的濾波器數量,本文提取的fHOG和CN特征對應濾波器數量從相應的傳統(tǒng)方法的31,11個分別減少至10,3個。
(4)
在視頻序列中運動的行人目標會出現由于攝像機的運動或目標外觀的變化引起的目標尺寸的變化,目標尺寸的變化易導致跟蹤出現漂移現象,故本文引人fDSST(具體算法見文獻[14])中的快速尺度濾波器的方法來進行最優(yōu)的尺度估計。針對尺度變化大的問題,能夠做到尺度自適應跟蹤,提高跟蹤精度。由于在目標運動過程中,連續(xù)兩幀目標的位置的變化往往大于尺度的變化,因此,本文先由前文方法確定位置信息,再在目標中心位置的基礎上使用尺度濾波器確定尺度信息。
(5)
尺度濾波器的輸出響應為
(6)
式中Zl為z的離散傅里葉變換,λs為正則參數,找到y(tǒng)最大的尺度即為最終尺度估計結果。
實驗室硬件環(huán)境為Inter Core i7—4810 CPU,主頻2.80 GHz,測試序列來源于最具權威性目標跟蹤算法評估平臺之一的OTB,該測試序列包含了尺度變化大、目標遮擋嚴重,快速運動等跟蹤難點。本文采用一次通過評估(OPE)模式,通過平均距離精度曲線和成功率曲線來進行算法性能評估,其中距離精度曲線計算中心位置誤差(CLE)低于某個閾值的幀數占所有幀的百分比,本文設置像素閾值為20。CLE指預跟蹤的目標中心(xT,yT)與目標真實中心(xG,yG)之間的平均歐氏距離。成功率曲線則計算跟蹤重疊率大于某個閾值的幀數占所有幀數的百分比,其中重疊率是指目標跟蹤框與真實目標框的重疊面積與總面積之比,本文設定重疊率閾值為0.5。以每秒平均幀數(FPS)來代表跟蹤算法速度。
設置fHOG和CN特征的胞元大小分別為6和4,正則參數λ=2×10-7,樣本空間模型學習速率γ=0.012,模型數量L=50,更新濾波器幀數Ns=6,共軛梯度迭代次數NCG=5。尺度濾波器中尺寸個數為S=17,尺度因子為a=1.002,學習率η=0.025,正則參數λs=0.01。
本文采用ECO-HC與近年4種先進算法(SAMF,CTT[16],RPT[17],Struck[18])在OTB2015中60段行人跟蹤序列的跟蹤上整體性能對比,5種算法均在相同配置的計算機上進行實驗,通過跟蹤算法評價標準評估對比各算法。
圖3為ECO-HC在實驗中的部分跟蹤結果(圖中矩形框跟蹤標識),每段視頻序列選取其中2幀跟蹤結果展示。3段視頻序列包含了常見的行人跟蹤問題,如目標遮擋、尺度變化,從跟蹤結果可以看出,ECO-HC針對行人跟蹤中出現的目標遮擋、尺度變化具有很強的魯棒性。
表1記錄了5種跟蹤算法在60段行人跟蹤序列下的平均FPS(mean FPS),平均距離精度(mean DP)和平均重疊率精度(mean OP),相比其他4種跟蹤算法,本文算法在相同實驗條件下3個指標均取得最優(yōu)的結果,并取得了56.3 幀/s的平均跟蹤速度,可以滿足實時性需求。相應的距離精度曲線和成功率曲線如圖4所示。
圖3 ECO-HC行人跟蹤結果
指標ECO-HCCCTSAMFRPTStuckmean DP/%83.274.373.966.457.6mean OP/%87.380.378.975.267.5mean FPS/(幀·s-1)56.335.615.8 6.720.1
圖4 5種跟蹤算法的評估曲線(60段行人序列)
在上述實驗基礎上,將ECO-HC算法應用于無人機拍攝的行人視頻,利用大疆無人機(精靈4專業(yè)版)拍攝3組行人視頻,記錄本文算法與其他4種算法的平均跟蹤結果。
由于傳統(tǒng)的評估跟蹤算法方式是根據第一幀標定的目標標準位置進行跟蹤器初始化,然后在后續(xù)測試序列中運行算法,最后得出距離精度曲線或成功率曲線。但跟蹤器可能對初始化非常敏感,且在不同的初始幀給予不同的初始化會使其性能發(fā)生變化。因此,此實驗除OPE模式外還采用評估跟蹤器魯棒性的另2種方法:時域魯棒性評估(TRE)和空間魯棒性評估(SRE),即在不同幀和不同的邊界框開始跟蹤擾亂初始化。
針對無人機行人視頻序列的5種算法速度對比,結果為:ECO-HC 51.7幀/s,CCT 30.4幀/s,SAMF 13.8幀/s,RPT 5.8幀/s,Struck 23.2幀/s。本文算法速度最快,且符合實時性標準。
圖5為針對3組無人機行人視頻的跟蹤結果,可以看出:當目標出現背景復雜并且明顯遮擋、尺度變化時ECO-HC跟蹤算法具有穩(wěn)健的跟蹤效果。圖6為針對3組無人機行人視頻跟蹤評估結果。圖中的數值代表每種跟蹤算法對應的成功率曲線與坐標軸圍成的區(qū)域面積(area under the curve,AUC),其值越高越反映算法的跟蹤精度的好。且從OPE,TRE,SRE 3條曲線可以看出,ECO-HC相對其他算法均取得最好的跟蹤性能。
圖5 無人機實拍序列跟蹤結果
圖6 5種跟蹤算法的評估曲線
實驗結果表明,ECO-HC在無人機指定行人跟蹤中針對尺度變化、目標遮擋的問題展現出很強的穩(wěn)健性和準確性,且算法的實時性能夠滿足無人機指定行人穩(wěn)定跟蹤要求,具有很好的實際應用前景。