王洪雁,張莉彬,陳國強(qiáng),汪祖民,管志遠(yuǎn)
(1.浙江理工大學(xué)信息學(xué)院,浙江 杭州 310018;2.大連大學(xué)信息工程學(xué)院,遼寧 大連 116622;3.五邑大學(xué)智能制造學(xué)部,廣東 江門 529020;4.河南大學(xué)計(jì)算機(jī)與信息工程學(xué)院,河南 開封 475004;5.杭州電子科技大學(xué)電子信息學(xué)院,浙江 杭州 310018)
作為計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn),視覺跟蹤基于可見光等媒介持續(xù)感知目標(biāo),在視頻監(jiān)控[1]、自動(dòng)駕駛[2]、人機(jī)交互[3]等方面具有廣泛應(yīng)用。近年來,眾多高效且穩(wěn)健的視覺跟蹤算法相繼被提出[4],極大地促進(jìn)了視覺跟蹤的工程化進(jìn)程。然而,由于實(shí)際場景的復(fù)雜性,跟蹤過程中存在諸如光照變化、目標(biāo)遮擋等不確定因素,從而導(dǎo)致跟蹤性能顯著下降[5]。因此,如何提高復(fù)雜場景下目標(biāo)跟蹤算法精度及穩(wěn)健性仍是視覺跟蹤領(lǐng)域的研究難點(diǎn)之一[6-7]。
針對(duì)復(fù)雜場景下視覺跟蹤性能下降問題,文獻(xiàn)[8]提出深度學(xué)習(xí)跟蹤(DLT,deep learning tracking)算法,其基于堆疊降噪自編碼器無監(jiān)督訓(xùn)練以獲得目標(biāo)特征,且解碼器后接分類層以區(qū)分目標(biāo)背景進(jìn)而實(shí)現(xiàn)目標(biāo)跟蹤。然而,由于自編碼器僅可提取淺層特征,表達(dá)能力有限,因而目標(biāo)跟蹤實(shí)時(shí)性較差。針對(duì)此問題,基于卷積神經(jīng)網(wǎng)絡(luò)(CNN,convolutional neural network)高效且穩(wěn)健提取目標(biāo)特征的特點(diǎn),文獻(xiàn)[9]首先分析CNN 各層輸出特征,而后構(gòu)建特征篩選網(wǎng)絡(luò)以實(shí)現(xiàn)匹配跟蹤。需要注意的是,匹配方法雖具有較好追蹤性能,然而由于跟蹤前需基于巨量數(shù)據(jù)預(yù)訓(xùn)練所構(gòu)建網(wǎng)絡(luò)以學(xué)習(xí)通用特征表示,從而導(dǎo)致計(jì)算復(fù)雜度顯著上升、數(shù)據(jù)過擬合等問題。為解決此問題,文獻(xiàn)[10]提出基于卷積網(wǎng)絡(luò)的跟蹤器(CNT,convolutional network based tracker),其基于輕型兩層卷積神經(jīng)網(wǎng)絡(luò)以降低計(jì)算復(fù)雜度,且此網(wǎng)絡(luò)不需要大量訓(xùn)練數(shù)據(jù)即可提取較穩(wěn)健的目標(biāo)特征。然而,此方法所提模板更新策略涉及的參數(shù)值需基于經(jīng)驗(yàn)確定,因而跟蹤性能提升有限?;诖耍墨I(xiàn)[11]融合深度卷積網(wǎng)絡(luò)良好的特征提取特性及復(fù)雜場景下粒子濾波優(yōu)異的跟蹤能力,以提升遮擋及噪聲等條件下跟蹤性能,并利用簡單的在線更新策略抑制跟蹤器漂移,同時(shí)對(duì)目標(biāo)形變更穩(wěn)健。值得注意的是,上述跟蹤系統(tǒng)基于歐氏距離度量模板與候選目標(biāo)之間的相似性,然而幀間目標(biāo)外形變化通常較明顯,從而導(dǎo)致歐氏距離無法精準(zhǔn)度量目標(biāo)特征分布,進(jìn)而使目標(biāo)跟蹤性能改善有限。針對(duì)此問題,文獻(xiàn)[12]提出基于深度度量學(xué)習(xí)(DML,deep metric learning)的跟蹤模型,其基于前饋神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)分層非線性距離度量,以提升模板與候選目標(biāo)之間的度量精度。然而,該模型需基于大量數(shù)據(jù)訓(xùn)練非線性度量網(wǎng)絡(luò),因而計(jì)算復(fù)雜度較高,且樣本有限場景下所得非線性度量網(wǎng)絡(luò)度量精度較差,從而使跟蹤精度改善有限。
針對(duì)上述問題,本文提出基于粒子濾波與核回歸度量學(xué)習(xí)(MLKR,metric learning for kernel regression)的跟蹤方法以提高目標(biāo)背景的可分性。所提方法首先離線訓(xùn)練CNN,以提升網(wǎng)絡(luò)特征提取及泛化能力,并基于訓(xùn)練所得CNN 獲取目標(biāo)高層特征;其次,利用核回歸度量學(xué)習(xí)優(yōu)良的正負(fù)樣本區(qū)分能力[13],對(duì)目標(biāo)背景樣本構(gòu)建MLKR,以獲取表征最優(yōu)候選目標(biāo)的度量矩陣并構(gòu)造目標(biāo)觀測模型;最后,基于短時(shí)與長期穩(wěn)定更新結(jié)合的更新策略在線更新模板,以降低遮擋、形變等不利因素影響,從而實(shí)現(xiàn)基于粒子濾波框架的有效跟蹤。仿真表明,與現(xiàn)有主流方法相比,復(fù)雜場景下所提方法具有較高跟蹤精度及較好穩(wěn)健性。
所提方法整體框架如圖1 所示,其主要由如下部分構(gòu)成:基于給定運(yùn)動(dòng)目標(biāo)測試序列以離線訓(xùn)練CNN;基于MLKR 學(xué)習(xí)加權(quán)距離度量以最小化核回歸預(yù)測誤差從而實(shí)現(xiàn)動(dòng)目標(biāo)精確定位;基于短時(shí)更新與長期穩(wěn)定更新聯(lián)合更新策略以改善跟蹤精度及穩(wěn)健性;基于CNN 所提取深度特征以及粒子濾波框架實(shí)現(xiàn)目標(biāo)跟蹤。
相較于僅度量各特性差異的歐氏距離,馬氏距離可更有效地計(jì)算未知樣本間的相似度,且可表征各特性之間的關(guān)聯(lián)[14]。因此,為了更有效地區(qū)分正負(fù)樣本,本文基于樣本間馬氏距離可學(xué)習(xí)的核回歸方法獲得最優(yōu)映射矩陣A,而后最小化核回歸預(yù)測誤差以精確估計(jì)目標(biāo)位置,進(jìn)而提升跟蹤性能。
基于訓(xùn)練樣本集x=(x1,x2,…,xn)∈RB×N核回歸度量學(xué)習(xí),可以將訓(xùn)練樣本數(shù)據(jù)映射至高可分性空間,從而獲取表征目標(biāo)特征差異的距離度量,即
其中,B、N分別為樣本特征維度、數(shù)量,DM(xi,xj)為xi和xj之間的馬氏距離,為樣本間距離平方,M為度量矩陣,具有半正定性[12]。由于直接學(xué)習(xí)M需要明確半正定約束,因此計(jì)算效率較低[13]。為降低計(jì)算復(fù)雜度,可對(duì)其實(shí)施Cholesky 分解,即M=ATA,A∈Rb×B可視為從原空間RB到新度量空間Rb的映射矩陣,其中b?B,則可得
圖1 所提方法整體框架
核回歸中樣本xi的目標(biāo)估計(jì)值可通過鄰近樣本加權(quán)平均獲得,如式(13)所示[15-16]。
其中,c為xi的鄰近數(shù),y=(y1,y2,…,yn) ∈{0,1}為x對(duì)應(yīng)類別標(biāo)簽,Kij為xi與鄰近樣本xj之間高斯核距離函數(shù),表征二者之間相似性,可表示為
其中,δ為正則化參數(shù),仿真實(shí)驗(yàn)中設(shè)置δ2=1。
本文采用累積二次回歸誤差表征訓(xùn)練樣本誤差L,并最小化此誤差以獲得最優(yōu)映射矩陣A,即
不難發(fā)現(xiàn),式(5)為關(guān)于變量A的非線性問題,較難直接獲得閉式解。相較于其他方法,梯度下降法僅需估計(jì)一階導(dǎo)數(shù),計(jì)算復(fù)雜度較小、優(yōu)化結(jié)果較好[13]。因此,本節(jié)基于梯度下降法求解此問題?;阪?zhǔn)椒▌t,式(5)中目標(biāo)函數(shù)關(guān)于變量A的導(dǎo)數(shù)可表示為
將式(7)~式(9)代入式(6),可得
基于式(10),利用梯度下降迭代更新映射矩陣A,即
其中,ρ為學(xué)習(xí)速率,仿真中取值為0.001;f為迭代次數(shù)。將式(11)所得最優(yōu)A代入M=ATA,則可求得最優(yōu)M。實(shí)驗(yàn)中,A初始值可設(shè)為單位矩陣,為防止陷入局部最小值,可多次隨機(jī)初始化[13]。
作為復(fù)雜場景下目標(biāo)跟蹤的重要性采樣技術(shù),粒子濾波基于觀測序列估計(jì)目標(biāo)狀態(tài)后驗(yàn)概率分布,以實(shí)現(xiàn)有效跟蹤[17]。給定觀測圖像X1:r={x1,x2,…,xr}及其狀態(tài)H1:r={h1,h2,…,hr},可基于粒子濾波遞歸估計(jì)目標(biāo)最優(yōu)狀態(tài),即[18]
給定1~r幀觀測結(jié)果X1:r,基于貝葉斯推理遞歸推導(dǎo)式(12),以獲得當(dāng)前幀最優(yōu)目標(biāo)狀態(tài),可得
設(shè)時(shí)刻r的目標(biāo)狀態(tài)向量為為六自由度仿射變換參數(shù),分別表示水平位移、垂直位移、旋轉(zhuǎn)角度、水平尺度因子、扭曲角和寬高比例[19]。假設(shè)狀態(tài)變量相互獨(dú)立且服從高斯分布,則相鄰幀間目標(biāo)運(yùn)動(dòng)模型可構(gòu)建為[19]
CNN 以其優(yōu)良的特征提取能力、強(qiáng)大的容錯(cuò)能力以及高效的計(jì)算效率,被廣泛應(yīng)用于圖像識(shí)別、視頻跟蹤等領(lǐng)域[20]。本節(jié)基于具有卓越分類能力的AlexNet[21]構(gòu)造視頻跟蹤特征深度提取模型(結(jié)構(gòu)如圖2 所示)。該模型輸入圖片規(guī)格化為227 ×227;為有效保留局部特征,權(quán)衡欠擬合及過擬合,第一卷積層中卷積核尺寸設(shè)置為11×11×96,步長為4,卷積核個(gè)數(shù)為64,以提取測試序列各類深層特征;權(quán)衡計(jì)算復(fù)雜度及特征抽取,第一卷積層后同時(shí)接3 個(gè)卷積層;設(shè)置第五卷積層中卷積核尺寸為3×3 ×256,步長為1,提取圖像中目標(biāo)背景樣本作為后續(xù)度量學(xué)習(xí)樣本;在第一、二和五卷積層后銜接尺寸為3×3、步長為2 的最大池化層,由于最大池化法較平均池化法可更好地提取紋理信息,因此本節(jié)采用最大池化方法以降低計(jì)算復(fù)雜度、提升模型穩(wěn)健性并保留關(guān)鍵信息;第五卷積層后銜接3 個(gè)全連接層,以充分融合樣本信息;基于全連接層所得融合特征,分類層采用Softmax 函數(shù)對(duì)其分類以區(qū)分目標(biāo)背景;卷積層激活函數(shù)均采用ReLU 函數(shù),且于卷積層后增加歸一化層以降低過擬合。所提深度特征提取模型基于給定運(yùn)動(dòng)目標(biāo)測試序列離線訓(xùn)練AlexNet 網(wǎng)絡(luò),以提升其泛化能力進(jìn)而改善目標(biāo)跟蹤性能。
圖2 CNN 結(jié)構(gòu)
視頻跟蹤中,評(píng)估候選目標(biāo)與真實(shí)目標(biāo)之間相似度可為后續(xù)候選目標(biāo)選擇提供合理依據(jù)并改善目標(biāo)狀態(tài)估計(jì)性能。候選目標(biāo)相似度評(píng)估準(zhǔn)則主要包括以下2 類:整體評(píng)估和局部結(jié)構(gòu)化評(píng)估。整體評(píng)估準(zhǔn)則適用于局部特征要求不高、圖像整體區(qū)分度較小的場合;相較于整體評(píng)估方法,局部結(jié)構(gòu)化評(píng)估更關(guān)注區(qū)域噪聲和部分遮擋等局部細(xì)節(jié),因而復(fù)雜環(huán)境下局部結(jié)構(gòu)化評(píng)估準(zhǔn)則更具穩(wěn)健性[22]。需要注意的是,在目標(biāo)跟蹤過程中,圖像局部細(xì)微變化都將影響跟蹤效果。基于此,本節(jié)采用局部結(jié)構(gòu)化重構(gòu)誤差評(píng)估準(zhǔn)則衡量候選目標(biāo)相似度。設(shè)m個(gè)候選目標(biāo)Y=[Y1,Y2,…,Ym]可由包含w個(gè)模板的模板集T=[t1,t2,…,tw]表示。為避免局部變化導(dǎo)致跟蹤精度降低,將每個(gè)模板分割為W個(gè)局部塊,則模板集的第g個(gè)局部塊可表示為Tg=[t1g,t2g,???,twg]∈,其中,tig,i=1,2,…,w為第i個(gè)模板的第g個(gè)局部塊。類似地,將候選目標(biāo)Yg分割為W個(gè)局部塊{yg|g=1,2,???,W}∈Rb×1,利用特征映射A對(duì)每個(gè)yg進(jìn)行核回歸距離度量。由于局部遮擋、光照變化等干擾因素導(dǎo)致的目標(biāo)表觀變化具有空域稀疏性,由此可構(gòu)建如下基于局部化模板集的候選目標(biāo)最優(yōu)稀疏表示問題
式(16)所示問題可視為W個(gè)問題的累加,且各變量相互獨(dú)立,由此,可將此問題拆分為W個(gè)子問題,即
綜上所述,對(duì)應(yīng)候選目標(biāo)重構(gòu)誤差可表示為
其中,Γ為歸一化因子,γ為高斯核控制參數(shù),仿真取0.01[12]。
在實(shí)際跟蹤過程中,模板固定不變無法有效跟蹤復(fù)雜場景下多變的目標(biāo),因而模板更新是在線跟蹤的關(guān)鍵一環(huán)[11]。若基于固定模板實(shí)施跟蹤,則光照變化或部分遮擋等因素導(dǎo)致跟蹤器無法較好地捕捉目標(biāo);反之,若快速更新模板,每次更新都會(huì)引入誤差,則隨著時(shí)間流逝誤差逐漸累積,從而導(dǎo)致跟蹤器偏離目標(biāo)。針對(duì)上述問題,本節(jié)提出短時(shí)與長期穩(wěn)定更新相結(jié)合的在線跟蹤策略,以更新目標(biāo)模板。
模板初始化。首先確定目標(biāo)首幀所處位置,而后基于所提跟蹤方法獲得前n幀跟蹤結(jié)果并歸一化,最后將其組合為模板集T=[t1,t2,…,tn]∈Rb×n。
模板動(dòng)態(tài)更新。模板與跟蹤結(jié)果相似性可表示為ψ=[ψ1,ψ2,???,ψn],設(shè)閾值為η,則跟蹤結(jié)果與第i個(gè)模板相似性ψi可表示為
設(shè)最大相似度為Λ,其可表示為
將其與閾值η比較,若Λ>η,表明本次跟蹤結(jié)果與某目標(biāo)模板相似度最大,則更新對(duì)應(yīng)模板;反之,不進(jìn)行更新。仿真實(shí)驗(yàn)中閾值取值為η=0.7。綜上所述,具體更新方案可表述如下。
短時(shí)更新。為提高目標(biāo)狀態(tài)估計(jì)性能,對(duì)首幀后續(xù)各幀,若Λ>η,表明該模板與某目標(biāo)相似度最大,為提高后續(xù)各幀的跟蹤準(zhǔn)確度,可用本跟蹤結(jié)果替換對(duì)應(yīng)模板,并保存跟蹤所得目標(biāo)狀態(tài);反之,則表明相鄰幀變化較大,此時(shí)不更新模板。
長期穩(wěn)定更新。連續(xù)多幀所得最大相似度值Λ<η,導(dǎo)致無法及時(shí)更新模板,此時(shí)連續(xù)多幀最大相似度均小于閾值,從而加大多幀累積誤差,針對(duì)此類情況,可于跟蹤過程中每隔10 幀更新模板。由于起始幀目標(biāo)始終真實(shí),所提更新策略需包含首模板以增強(qiáng)跟蹤穩(wěn)健性。
綜上所述,結(jié)合粒子濾波與度量學(xué)習(xí)的目標(biāo)跟蹤算法詳細(xì)步驟如算法1 所示。
算法1結(jié)合粒子濾波及度量學(xué)習(xí)的目標(biāo)跟蹤算法
輸入測試序列I={I1,I2,I3,…,In},粒子數(shù)N,映射矩陣A以及度量矩陣M
輸出跟蹤結(jié)果目標(biāo)位置
1) 初始化CNN,粒子初始權(quán)重均設(shè)為1/N;
2) 采集首幀目標(biāo)背景樣本,并通過式(11)實(shí)施MLKR 以獲得最優(yōu)映射矩陣A及度量矩陣M;
3) 基于CNN 和度量學(xué)習(xí)區(qū)分目標(biāo)背景,并計(jì)算每個(gè)粒子置信度(權(quán)重);
4) 基于APG 方法,迭代更新式(20)、和式(22)直至滿足收斂條件,從而獲得最優(yōu)稀疏系數(shù)向量zg;
5) 基于式(23)、式(24)與式(12)獲取目標(biāo)狀態(tài)最優(yōu)估計(jì),并實(shí)施在線跟蹤;
6) 獲得跟蹤結(jié)果,基于式(25)和式(26)計(jì)算本次跟蹤最大相似度;
7) 若跟蹤最大相似度大于閾值,則用本幀跟蹤結(jié)果更新模板;反之,不進(jìn)行更新;
8) 若跟蹤最大相似度持續(xù)小于閾值,為防止跟蹤累計(jì)誤差過大,可每隔10 幀更新目標(biāo)模板;
9) 判斷是否跟蹤至最后一幀,若沒有,重復(fù)步驟3)~步驟8);反之,結(jié)束跟蹤,獲得最終跟蹤結(jié)果并保存所得目標(biāo)框。
目前,視覺跟蹤領(lǐng)域數(shù)據(jù)集主要為OTB-100 和VOT-2018,分別包含100 個(gè)和60 個(gè)測試序列[24-25],各序列皆面臨不同跟蹤挑戰(zhàn),包括光照變化、尺度變化、遮擋、形變、運(yùn)動(dòng)模糊、旋轉(zhuǎn)及背景復(fù)雜等,且多數(shù)序列包含2 種以上影響算法性能的因素[25]。
基于上述數(shù)據(jù)集,本節(jié)選擇包含多種跟蹤挑戰(zhàn)因素的MotorRolling、Jogging、Boy、Skating1、Matrix、Bird2、Tiger2、Basketball、Singer1 及Singer2共10種測試序列作為測試集(各序列主要挑戰(zhàn)因素如表1所示),通過與CNN-PF[26]、Struck[27]、CT[28]、TLD[29]、DFT[30]、BACF[31]等主流跟蹤器對(duì)比,以驗(yàn)證所提方法的有效性。實(shí)驗(yàn)硬件環(huán)境為處理器i5-4258、主頻2.4 GHz、內(nèi)存8 GB;軟件環(huán)境為Python3.7、MATLAB 2017a、深度學(xué)習(xí)框架Caffe。
所提跟蹤算法在首幀提取的正負(fù)樣本數(shù)分別為100 和400,后續(xù)各幀正負(fù)樣本數(shù)分別為30 和120。權(quán)衡跟蹤性能及計(jì)算復(fù)雜度,若粒子過多則會(huì)增加算法計(jì)算量,過少則無法獲取最優(yōu)目標(biāo)狀態(tài),因此,每幀粒子數(shù)設(shè)為600,粒子權(quán)重初始化為1/600。所提跟蹤算法在首幀提取的正負(fù)樣本數(shù)分別為100 和400,后續(xù)各幀正負(fù)樣本數(shù)分別為30和120。權(quán)衡跟蹤性能及計(jì)算復(fù)雜度,若粒子過多則會(huì)增加算法計(jì)算量,過少則無法獲取最優(yōu)目標(biāo)狀態(tài),因此,每幀粒子數(shù)設(shè)為600,粒子權(quán)重初始化為1/600。CNN 結(jié)構(gòu)如圖2 所示,采用深度學(xué)習(xí)框架Caffe,基于Imagenet 數(shù)據(jù)集訓(xùn)練所得模型,而后利用OTB-100 及VOT-2018 微調(diào)參數(shù),從而獲得可有效提取特征的離線網(wǎng)絡(luò),權(quán)值更新采用梯度下降法,設(shè)置局部區(qū)域歸一化參數(shù)α=0.0001,τ=0.75,以起到側(cè)抑制作用;學(xué)習(xí)率設(shè)為0.001,訓(xùn)練周期為300,以最大程度減少過擬合發(fā)生。
圖3 為10 種測試序列的7 種跟蹤算法的結(jié)果對(duì)比。MotorRolling 序列包含快速運(yùn)動(dòng)、背景雜波和光照變化等挑戰(zhàn)因素,第52 及64 幀中目標(biāo)由空中下降明顯變化,DFT 和TLD 出現(xiàn)跟蹤漂移或跟蹤框與真實(shí)目標(biāo)不符現(xiàn)象,而所提方法始終可較好地跟蹤目標(biāo),原因是所提方法考慮背景雜波及快速運(yùn)動(dòng)影響并對(duì)目標(biāo)背景樣本進(jìn)行誤差學(xué)習(xí),從而精確估計(jì)運(yùn)動(dòng)目標(biāo)。Jogging 中目標(biāo)存在明顯遮擋,所提方法與TLD 及BACF 可定位目標(biāo)并有效跟蹤,其余算法出現(xiàn)跟蹤丟失現(xiàn)象,表明部分遮擋條件下所提方法也具有較好的跟蹤效果。Boy 中目標(biāo)快速運(yùn)動(dòng),同時(shí)出現(xiàn)比例變化和旋轉(zhuǎn)等因素干擾,401 幀之后CT 出現(xiàn)跟蹤漂移現(xiàn)象,原因在于其泛化能力較差,無法較好地適應(yīng)顯著外觀變化,而所提方法始終可精確跟蹤。Skating1 屬于較復(fù)雜場景,目標(biāo)背景對(duì)比度較低,且存在較強(qiáng)光照變化。此場景下目標(biāo)分辨率較低,CT、DFT 及TLD 均出現(xiàn)目標(biāo)丟失,原因是目標(biāo)背景相似性較大,對(duì)比方法無法有效區(qū)分相似目標(biāo)背景;而所提方法通過長短時(shí)結(jié)合在線更新策略及時(shí)更新模板,從而可有效區(qū)分目標(biāo)背景進(jìn)而實(shí)現(xiàn)穩(wěn)定跟蹤。然而,某些特殊場景下訓(xùn)練數(shù)據(jù)量較小,從而使網(wǎng)絡(luò)參數(shù)無法獲得最優(yōu)值,導(dǎo)致跟蹤中平均中心位置誤差稍次于CNN-PF。由于Matrix 序列光照變化較大,對(duì)比方法均出現(xiàn)跟蹤丟失現(xiàn)象,而所提方法仍可較好地鎖定目標(biāo),這是由于所提方法基于MLKR 精準(zhǔn)度量目標(biāo)背景距離,并有效判別跟蹤結(jié)果以確保最優(yōu)候選目標(biāo)得
以選擇??焖龠\(yùn)動(dòng)導(dǎo)致運(yùn)動(dòng)模糊情況下,Bird2中目標(biāo)外觀尺度同時(shí)發(fā)生較大變化,Struck 及DFT 無法準(zhǔn)確估計(jì)目標(biāo)尺度,從而導(dǎo)致跟蹤失敗,而所提方法可自適應(yīng)目標(biāo)尺度變化因而仍可鎖定目標(biāo)。Tiger2 出現(xiàn)嚴(yán)重遮擋以及強(qiáng)背景雜波,對(duì)比方法均發(fā)生不同程度漂移或跟蹤框與真實(shí)目標(biāo)尺度不符,所提方法仍能穩(wěn)定跟蹤目標(biāo),且具有較高跟蹤精度及穩(wěn)健性,這是因?yàn)樗岱椒ㄍㄟ^引入重構(gòu)誤差構(gòu)建似然模型且采用局部化模板方法以解決目標(biāo)遮擋和背景雜波,所以具有較強(qiáng)穩(wěn)健性。由圖3 可知,基于數(shù)據(jù)集VOT-2018測試序列Basketball、Singer1 和Singer2 所得結(jié)果與上述結(jié)果類似。Singer2 序列平均中心位置誤差稍次于CNN-PF,原因與序列Skating1 相似,不再贅述。
表1 測試序列及其主要挑戰(zhàn)因素
圖3 7 種不同跟蹤方法的跟蹤結(jié)果
本節(jié)采用平均跟蹤重疊率和平均中心位置誤差定量分析所提方法性能。平均中心位置誤差為真實(shí)位置(x0,y0)與估計(jì)位置(x1,y1)之間距離,即
平均跟蹤重疊率表示為
其中,Rt、Rg分別為跟蹤結(jié)果及真實(shí)目標(biāo)的面積。
表2 和表3 分別為不同跟蹤方法在各測試序列的平均跟蹤重疊率與平均中心位置誤差。其中,加粗字體及下劃線分別為性能最優(yōu)及次優(yōu)值。重疊率越大,中心位置誤差越小,跟蹤效果越好。
表2 不同跟蹤方法在各測試序列的平均跟蹤重疊率
由表2 和表3 可知,基于OTB-100 及VOT-2018所選10 種測試序列,所提方法相較于對(duì)比方法均有較好的跟蹤效果,其可歸因于所提方法采用MLKR 并引入誤差項(xiàng)構(gòu)建似然模型以降低相似目標(biāo)背景之間敏感度。相較于對(duì)比方法,所提方法在遮擋及噪聲等條件下性能出色,主要原因可表述如下。
表3 不同跟蹤方法在各測試序列的平均中心位置誤差
1) 所提方法考慮候選目標(biāo)模板之間相關(guān)性,提高了復(fù)雜場景下算法跟蹤穩(wěn)健性。
2) 核回歸距離度量衡量粒子相似性,從而提升跟蹤有效性。
3) 目標(biāo)模板局部結(jié)構(gòu)化表示改善了噪聲及遮擋場景下所提方法的穩(wěn)健性及跟蹤精度。
基于平均跟蹤重疊率和平均中心位置誤差指標(biāo),采用成功率曲線和整體精度曲線評(píng)估跟蹤器整體性能[12]。成功率曲線表示將重合率大于給定閾值的幀作為成功跟蹤幀,當(dāng)閾值從0 變化到1 時(shí),記錄成功跟蹤幀數(shù)占總幀數(shù)的比率;整體精度表示中心位置誤差在距離閾值內(nèi)成功幀數(shù)與總幀數(shù)的百分比[12]。不同跟蹤方法跟蹤成功率及整體精度曲線分別如圖4 和圖5 所示。由圖4 可知,多數(shù)序列中所提方法跟蹤成功率高于對(duì)比方法;Skating1 序列中所提方法相較于Struck 成功率偏低,而整體跟蹤精度(如圖5 所示)仍優(yōu)于Struck;Tiger2 序列中所提方法跟蹤精度略次于BACF,而跟蹤成功率仍優(yōu)于BACF;此外,其他序列中所提方法整體跟蹤精度也優(yōu)于對(duì)比方法。由此可知,復(fù)雜場景下所提方法整體性能優(yōu)于對(duì)比方法,且具有較好的穩(wěn)健性。
圖4 不同跟蹤方法跟蹤成功率曲線
圖5 不同跟蹤方法跟蹤整體精度曲線
為驗(yàn)證復(fù)雜場景下所提方法的穩(wěn)健性,選取序列Boy 與MotorRolling 進(jìn)行時(shí)間穩(wěn)健性評(píng)估(TRE,temporal robustness evaluation)與空間穩(wěn)健性評(píng)估(SRE,spatial robustness evaluation),對(duì)比結(jié)果如圖6和圖7 所示。由圖6 和圖7 可知,相較于對(duì)比方法,所提方法在光照變化、雜波等復(fù)雜背景下仍可有效跟蹤目標(biāo),此可歸因于所提方法優(yōu)化所得度量矩陣可改善模板及候選目標(biāo)之間相似性度量,模板局部結(jié)構(gòu)化稀疏表示可顯著抑制雜波及噪聲,模板更新策略可有效抑制雜波、噪聲、光照變化及遮擋等影響,從而復(fù)雜場景下所提方法跟蹤穩(wěn)健性相較于對(duì)比方法也可獲得明顯提升。
圖6 序列Boy 場景下不同跟蹤方法穩(wěn)健性評(píng)估
圖7 序列MotorRolling 場景下不同跟蹤方法穩(wěn)健性評(píng)估
為驗(yàn)證所提方法各模塊的有效性,基于測試序列Boy 與MotorRolling 的仿真結(jié)果如表4 所示。由表4 可知,MLKR 跟蹤精度可平均提升0.065,粒子濾波跟蹤精度可平均提升0.045,長短時(shí)更新跟蹤精度可平均提升0.02,這表明度量學(xué)習(xí)及CNN融合模塊、目標(biāo)稀疏表示模塊以及長短時(shí)更新策略模塊均可有效提升視覺跟蹤性能。
表4 基于測試序列Boy 和MotorRolling 的仿真結(jié)果
此外,為驗(yàn)證所提方法的跟蹤時(shí)效性,本節(jié)采用每秒運(yùn)行幀數(shù)(FPS,frame per second)衡量算法速度(運(yùn)行50 次,平均所得FPS 作為評(píng)估指標(biāo)),不同測試序列中各跟蹤方法的FPS 如表5 所示。由表5 可知,所提方法速度高于CNN-PF、Struck 及DFT,低于CT、TLD 及BACF。然而,正如前文所述,各測試序列中所提方法跟蹤性能整體優(yōu)于對(duì)比方法。需要注意的是,基于粒子濾波的跟蹤算法計(jì)算復(fù)雜度通常正比于候選粒子數(shù)量,因此,可通過先驗(yàn)或時(shí)間序列信息自適應(yīng)調(diào)整粒子數(shù)量以降低復(fù)雜度,從而較好地均衡跟蹤性能以及實(shí)時(shí)性。
表5 不同測試序列中各跟蹤方法的FPS
針對(duì)目標(biāo)形變等因素導(dǎo)致跟蹤性能顯著下降的問題,本文提出了融合度量學(xué)習(xí)與粒子濾波的跟蹤方法。所提方法通過CNN 提取正負(fù)樣本,并基于MLKR 對(duì)其度量學(xué)習(xí)后構(gòu)建觀測模型,然后基于短時(shí)及長期穩(wěn)定更新相結(jié)合更新策略更新目標(biāo)模板?;贠TB-100 及VOT-2018 數(shù)據(jù)集所選包含遮擋及光照變化等因素的10 種測試序列,通過與BACF、CNN-PF、Struck、CT、TLD 以及DFT 這6 種主流跟蹤器對(duì)比驗(yàn)證了所提方法的有效性。由定性分析可知,所提方法在部分遮擋、光照變化、目標(biāo)形變等復(fù)雜場景下具有較強(qiáng)穩(wěn)健性;基于定量分析可知,相較于對(duì)比方法,多數(shù)測試場景下,所提方法平均中心誤差較低,平均重疊率較高,這表明所提方法整體跟蹤性能較優(yōu)。