張 飛,馬時(shí)平,張立朝,何林遠(yuǎn),仇祝令,韓永賽
(1.空軍工程大學(xué) 航空工程學(xué)院,陜西 西安 710038;2.空軍工程大學(xué) 研究生院,陜西 西安 710038)
視覺跟蹤的任務(wù)為在給定視頻首幀中目標(biāo)位置的情況下,預(yù)測(cè)后續(xù)幀中目標(biāo)位置以及尺度的變化。視覺跟蹤領(lǐng)域中,判別式相關(guān)濾波器[1-2]由于其在速度上的優(yōu)勢(shì)吸引了各領(lǐng)域(機(jī)器人、自動(dòng)駕駛等)的廣泛關(guān)注,得到了迅速發(fā)展。而隨著跟蹤算法應(yīng)用場(chǎng)景復(fù)雜度的上升,對(duì)跟蹤算法性能需求進(jìn)一步提升,對(duì)相關(guān)濾波的研究帶來了極大的挑戰(zhàn)。
HENRIQUES等人[3]提出的KCF算法中,循環(huán)矩陣和快速傅里葉變換的運(yùn)用使算法的實(shí)時(shí)性沖激式上升,打開了相關(guān)濾波快速發(fā)展的通道。但循環(huán)移位的假設(shè)不可避免地帶來了邊界效應(yīng),限制了相關(guān)濾波跟蹤器的性能。為解決該問題,DANELLJAN等人[4]提出了SRDCF算法,在標(biāo)準(zhǔn)DCF中引入逆高斯形狀的空間正則權(quán)重,促使濾波器的學(xué)習(xí)更加關(guān)注目標(biāo),有效緩解了邊界效應(yīng)。GALOOGAHIL等人[5]提出的BACF算法中,由于二值掩膜矩陣的引入,提升了真實(shí)負(fù)樣本的比例,增強(qiáng)了對(duì)背景信息的學(xué)習(xí),同時(shí)也有效抑制了目標(biāo)框以外背景信息的干擾;但該方法仍存在以下缺陷:二值矩陣的使用暗含一種假設(shè),即目標(biāo)框內(nèi)的所有位置上的信息對(duì)濾波器的學(xué)習(xí)貢獻(xiàn)相同(如圖1上方虛線框所示),缺乏對(duì)不同位置信息(空間)可靠性的描述,可能會(huì)導(dǎo)致背景信息主導(dǎo)濾波器的學(xué)習(xí),造成濾波器性能衰退。同時(shí),目前的大部分相關(guān)濾波算法[5-8]在跟蹤過程中,均使用固定的學(xué)習(xí)率線性加權(quán)得到目標(biāo)模型,不能感知目標(biāo)外觀的變化情況,導(dǎo)致了學(xué)習(xí)到的目標(biāo)模型次優(yōu)化,濾波器無法適應(yīng)目標(biāo)的變化。
為解決以上問題,筆者提出了一種空間可靠性和濾波器聯(lián)合學(xué)習(xí)的相關(guān)濾波跟蹤算法(Joint Spatial Reliability and Discriminative Correlation Filter learning for visual tracking,JSRDCF)。該算法將對(duì)空間可靠性的描述融入二值矩陣,使得空間可靠性和濾波器的學(xué)習(xí)統(tǒng)一起來,可同時(shí)對(duì)空間可靠性和判別式相關(guān)濾波器優(yōu)化學(xué)習(xí)(如圖1下方虛線框所示)??臻g可靠性描述了不同位置信息的重要程度,增強(qiáng)了濾波器對(duì)于訓(xùn)練樣本的優(yōu)化利用,從而提升了濾波器魯棒跟蹤的能力。同時(shí),為得到更優(yōu)化的目標(biāo)模型,基于感知哈希算法(Perceptual Hashing Algorithm,PHA)[9]改進(jìn)得到一種自適應(yīng)目標(biāo)模型更新方式。該方法可感知目標(biāo)外觀的變化情況,自適應(yīng)調(diào)整學(xué)習(xí)率,優(yōu)化目標(biāo)模型的學(xué)習(xí)。值得注意的是,該方法可融入現(xiàn)有大部分基于標(biāo)準(zhǔn)模型更新的相關(guān)濾波算法中。為深入評(píng)價(jià)JSRDCF的性能,在標(biāo)準(zhǔn)視覺跟蹤數(shù)據(jù)集OTB2013[10]、OTB2015[11]以及無人機(jī)視頻數(shù)據(jù)集UAV123[12]上進(jìn)行了大量實(shí)驗(yàn),驗(yàn)證了該算法的先進(jìn)性和魯棒性。主要貢獻(xiàn)如下:
(1)提出了學(xué)習(xí)空間可靠性,并將空間可靠性的學(xué)習(xí)與濾波器的求解統(tǒng)一于目標(biāo)函數(shù)中,利用交替方向法和交替方向乘子法(ADMM)[13]算法對(duì)兩者優(yōu)化求解;
(2)提出了一種基于感知哈希算法的自適應(yīng)模型學(xué)習(xí)方法,可根據(jù)目標(biāo)外觀的變化情況,自適應(yīng)地最優(yōu)化目標(biāo)模型;
(3)在數(shù)據(jù)集OTB2013、OTB2015和UAV123上對(duì)所提算法進(jìn)行了全面評(píng)估,驗(yàn)證其有效性。
首先回顧基準(zhǔn)算法(Background-Aware Correlation Filter,BACF)。優(yōu)化后的濾波器w通過最小化下面的目標(biāo)函數(shù)得到,
(1)
其中,xd∈N(d=1,2,…,D)表示輸入圖像的特征,N是特征向量化后的長度,D是通道數(shù),B∈M×N(M< 通過擴(kuò)大搜索區(qū)域和在標(biāo)準(zhǔn)DCF中引入二值矩陣B,BACF不僅有效抑制了目標(biāo)框外背景區(qū)域的影響,同時(shí)得到了更多真實(shí)負(fù)樣本(而不是通過正樣本循環(huán)移位得到的負(fù)樣本),增強(qiáng)了濾波器對(duì)目標(biāo)與背景區(qū)域的判別能力。雖然上述方法取得了有效的性能提升,但是其存在以下缺點(diǎn):如圖1所述,固定取值的二值矩陣未考慮空間上的可靠性,使得目標(biāo)框中所有區(qū)域?qū)V波器的學(xué)習(xí)貢獻(xiàn)相同。一般情況下,目標(biāo)并不是規(guī)則形狀的,因此目標(biāo)框中難免會(huì)有背景的引入,過多的背景學(xué)習(xí)使得濾波器的判別力下降,造成跟蹤漂移甚至失敗。 圖1 聯(lián)合學(xué)習(xí)示意圖 大部分相關(guān)濾波算法采用標(biāo)準(zhǔn)的模型更新: (2) (1)對(duì)于所有視頻序列使用了恒定的學(xué)習(xí)率。不同的視頻序列受不同影響因素的影響,如光照變化等,對(duì)于學(xué)習(xí)率的要求是不同的。即使對(duì)于同一視頻序列,學(xué)習(xí)率在不同時(shí)刻應(yīng)根據(jù)目標(biāo)外觀的動(dòng)態(tài)變化自適應(yīng)更新,以達(dá)到最好的學(xué)習(xí)效果。 (2)逐幀更新模型可能導(dǎo)致跟蹤漂移。在遮擋等樣本被污染的情況下,使用被污染的樣本更新會(huì)導(dǎo)致訓(xùn)練得到的跟蹤器判別能力下降,從而出現(xiàn)模型漂移甚至跟蹤失敗。 (3)使用標(biāo)準(zhǔn)的模型更新策略的相關(guān)濾波器無法得到當(dāng)前模型的最優(yōu)解,造成訓(xùn)練所得濾波器判別力的次優(yōu)化。 為上述問題,2.1節(jié)提出了一種空間可靠性和相關(guān)濾波器聯(lián)合學(xué)習(xí)的跟蹤方法,該算法可以同時(shí)優(yōu)化濾波器和空間可靠性,2.2節(jié)提出了一種自適應(yīng)的模型更新方法。 BACF中所裁剪區(qū)域的信息對(duì)濾波器的學(xué)習(xí)貢獻(xiàn)相同,可能會(huì)造成對(duì)背景信息的過度學(xué)習(xí)。不同于上述方法,文中的方法引入了空間可靠性權(quán)重αi,i∈{1,2,…,N},表示空間不同位置信息的可靠性。故有 (3) 其中,Rd表示空間可靠性矩陣(不同通道的Rd相同),Pi∈M×N是用于裁剪空間中不同位置特征信息的二值矩陣,如圖2所示(深色為1,淺色為0)。 圖2 空間可靠性矩陣計(jì)算示意圖 將提出的空間可靠性向量引入目標(biāo)函數(shù)(1)中,得到所提出方法的目標(biāo)函數(shù)。該方法可同時(shí)優(yōu)化濾波器和空間可靠性。故有 (4) 其中,上標(biāo)T表示轉(zhuǎn)置。 這里,通過最小化目標(biāo)函數(shù)交替迭代求解濾波器和空間可靠性向量α=[α1,α2,…,αN]T。式(4)是一個(gè)非凸優(yōu)化的問題,但是在給定α或w的情況下,上述問題便轉(zhuǎn)換成一個(gè)凸優(yōu)化的問題。因此,可利用交替方向法來交替優(yōu)化求解兩個(gè)未知量。 2.1.1 優(yōu)化w 給定空間可靠性向量α=α(j-1)(α(0)為裁剪矩陣B向量化后的值),w的求解轉(zhuǎn)換為一個(gè)凸優(yōu)化的求解問題,如式(4)所示。該問題可通過ADMM迭代求解。有 (5) 將上式轉(zhuǎn)換至頻域,得到: (6) 為求解上式,使用增廣拉格朗日法(ALM)[13]得到式(5)的ALM方程: (7) ADMM算法可將上述問題拆分為以下3個(gè)子問題迭代求解: (8) (1)求解子問題w* (9) (10) (11) (12) (3)更新拉格朗日參數(shù)μ 參數(shù)更新設(shè)置為 μ(i+1)=min(μmax,βμ(i)) , (13) 其中,μmax是μ的最大值,β是尺度因子。 2.1.2 優(yōu)化α 如果給定濾波器w,由于式(3)中的正則項(xiàng)不包含α,空間可靠性向量α可通過求解如下的目標(biāo)函數(shù)得到: (14) 上式轉(zhuǎn)化后可寫為 (15) 其中,(Xd)T=[x1T,x2T,…,xNT]T∈N×N,表示第d維通道樣本產(chǎn)生的循環(huán)矩陣。 將上式展開,可得 (16) 式(16)是典型的凸二次規(guī)劃問題,可以通過標(biāo)準(zhǔn)二次規(guī)劃工具(Matlab工具箱)有效解決。 不同于標(biāo)準(zhǔn)的模型更新,筆者提出了一種基于感知哈希算法的自適應(yīng)模型更新(Adaptive Model Update,AMU)方法。該方法可通過比較上一幀與當(dāng)前幀目標(biāo)區(qū)域的差異性來感知目標(biāo)外觀的變化情況,從而達(dá)到自適應(yīng)調(diào)整學(xué)習(xí)率,改變模型更新速度的效果(如圖7所示)。 圖7 自適應(yīng)模型學(xué)習(xí)模塊在Tiger1序列上對(duì)比結(jié)果圖 感知哈希算法中,圖像首先會(huì)被轉(zhuǎn)換成灰度圖,接著利用DCT將其轉(zhuǎn)換至頻域?;叶葓D像中具有高能量密度的低頻區(qū)域被保留,定義為A∈W×W。A中的每一個(gè)元素Aij(i,j∈W)與A中所有元素的平均值相比較,即可得到圖像哈希矩陣H中對(duì)應(yīng)的每一個(gè)元素hij(i,j∈W), (17) 當(dāng)前幀和上一幀目標(biāo)的差異得分可由當(dāng)前幀和上一幀目標(biāo)區(qū)域圖像對(duì)應(yīng)的哈希矩陣Hc和Hl得到: (18) (19) 相比于固定學(xué)習(xí)率的更新方式,該方法可感知目標(biāo)外觀的變化,自適應(yīng)調(diào)整跟蹤過程中的學(xué)習(xí)率以得到更加優(yōu)化的目標(biāo)模型,從而增強(qiáng)濾波器判別能力。 使用數(shù)據(jù)集OTB2013、OTB2015以及UAV123評(píng)估所提出算法,并將結(jié)果與目前最先進(jìn)的跟蹤方法進(jìn)行了定量和定性的對(duì)比;隨后驗(yàn)證了所提算法各模塊的有效性,同時(shí)就AMU模塊進(jìn)行了定性分析。 所有實(shí)驗(yàn)均在MATLAB 2019b上進(jìn)行,實(shí)驗(yàn)平臺(tái)為Intel i7-9750H CPU(2.60 GHz)和32 GB內(nèi)存,操作系統(tǒng)為Windows 10。所提算法的參數(shù)設(shè)置如表1所示(η是初始化學(xué)習(xí)率)。其中,η和γ取值與BACF保持一致,βmin和βmax、τ1和τ2通過實(shí)驗(yàn)調(diào)參得到。 表1 實(shí)驗(yàn)參數(shù)設(shè)置表 為了不失公平性,將使用不同特征的JSRDCF,即JSRDCF_H(只使用了Hog[15]特征)和JSRDCF_HC(同時(shí)使用了Hog和CN[16]特征),在數(shù)據(jù)集OTB2013、OTB2015和UAV123上與最先進(jìn)的跟蹤算法進(jìn)行全面評(píng)估比較。這些算法包括:(1)基于Hog特征的跟蹤算法:KCF,SRDCF,BACF;(2)基于Hog和CN特征的算法:STRCF[17],ECO_HC[18],CSR-DCF[19],Staple[20];(3)基于深度網(wǎng)絡(luò)的跟蹤算法:SiamFC[21],SiamRPN[22];(4)具有旋轉(zhuǎn)特性的跟蹤算法:LDES[23];(5)基于檢測(cè)的跟蹤算法:MEEM[24]。 算法性能比較使用一次性通過評(píng)估(One Pass Evaluation,OPE)的策略,以成功率曲線下面積(Area Under Curve,AUC)和精確率(Distance Precision,DP)曲線作為評(píng)價(jià)指標(biāo)。成功率定義如下:將跟蹤框與標(biāo)記框的交并比大于固定閾值的視頻幀認(rèn)為是成功的,則成功幀與視頻總幀數(shù)的比值稱為成功率。當(dāng)閾值取值為0到1之間時(shí),可得到一條曲線,該曲線稱為成功率曲線。而精確率定義為:將跟蹤結(jié)果中跟蹤框的中心位置與標(biāo)記框小于某一閾值的幀數(shù)與總幀數(shù)的比值稱為精確率。當(dāng)閾值變化時(shí),即可得到精確率曲線(一般輸出閾值為20的結(jié)果)。 (1)OTB數(shù)據(jù)集 圖3給出了文中所使用不同手工特征的JSRDCF在OTB2013和OTB2015數(shù)據(jù)集上與其他先進(jìn)跟蹤算法的性能比較圖。無論是在AUC和DP上,JSRDCF_HC在OTB2013和OTB2015上均取得了第一名的好成績,AUC分別得到68.1%和65.6%,DP分別得到89.3%和87.0%的分?jǐn)?shù);并且在速度上可以達(dá)到28 FPS,滿足了實(shí)時(shí)性的需求。只使用Hog特征的JSRDCF_H也能在兩個(gè)數(shù)據(jù)集上的AUC和DP均排名第3和第5,在OTB2013上相比于基準(zhǔn)算法BACF分別提升了4.2%和5.9%,在OTB2015分別提升了3.6%和4.9%。以上結(jié)果的取得說明了空間可靠性與濾波器的共同優(yōu)化學(xué)習(xí)提升了濾波器的判別能力,同時(shí)自適應(yīng)的模型更新策略也有益于適應(yīng)目標(biāo)外觀的變化,以學(xué)到更優(yōu)的目標(biāo)模型,進(jìn)一步提升跟蹤的準(zhǔn)確性。 圖3 所提算法在OTB2013和OTB2015上精確率和成功率曲線圖 (2)UAV數(shù)據(jù)集 UAV123數(shù)據(jù)集共有123個(gè)視頻序列,總幀數(shù)超過11萬幀。同時(shí),該數(shù)據(jù)集最長的視頻序列達(dá) 3 085 幀,平均幀數(shù)為915幀,遠(yuǎn)超OTB數(shù)據(jù)集。相比于OTB數(shù)據(jù)集,由于無人機(jī)拍攝的緣故,跟蹤目標(biāo)具有像素值低、移動(dòng)速度快等特點(diǎn),對(duì)于跟蹤算法的性能提出了更高的要求;圖4為所提算法與其他算法的性能比較圖。JSRDCF_HC在AUC與DP上均排名第2,JSRDCF_H在AUC與DP上分別排名第4和第5。相比于BACF,JSRDCF_H分別提升了1.6%和0.6%,JSRDCF_HC分別提升了3.3%和4.2%。結(jié)果表明所提算法在性能提升上的有效性,同時(shí)也表明了該算法具有較好的泛化性能。此外,由于該數(shù)據(jù)集視頻序列大部分均在1 000幀以上,在一定程度上也能說明算法具備一定長時(shí)跟蹤的能力。 圖4 所提算法在UAV123上精確率和成功率曲線圖 圖5給出了文中算法JSRDCF與其基準(zhǔn)算法BACF的定性比較圖。由于實(shí)際跟蹤應(yīng)用場(chǎng)景的復(fù)雜性,因此從OTB2015數(shù)據(jù)集中選取了3個(gè)不同復(fù)雜場(chǎng)景下的視頻序列Matrix,Blurow 1和Girl 2進(jìn)行分析。 從圖5可以看出,Matrix視頻中存在大量光照變化、背景雜波等因素的影響。隨著背景雜波的影響,BACF算法開始出現(xiàn)跟蹤漂移,最終跟蹤失敗。而JSRDCF由于對(duì)空間可靠性的學(xué)習(xí),能夠?qū)崿F(xiàn)更為魯棒的跟蹤。Blurowl視頻在跟蹤過程中由于出現(xiàn)了快速運(yùn)動(dòng),導(dǎo)致目標(biāo)的模糊;如155幀,在這種前光下本文算法依然可以檢測(cè)到目標(biāo)。Girl 2視頻中目標(biāo)在91至109幀之間發(fā)生了遮擋,JSRDCF在目標(biāo)被完全遮擋重新出現(xiàn)后,仍然跟蹤到了目標(biāo),可能的原因在于自適應(yīng)模型更新的作用。以上分析表明空間可靠性的學(xué)習(xí)有效提升了跟蹤器魯棒跟蹤的能力,自適應(yīng)模型更新提升了濾波器的學(xué)習(xí)效率。 圖5 不同算法在典型視頻序列跟蹤結(jié)果圖 為驗(yàn)證文中所提出的空間可靠性學(xué)習(xí)和自適應(yīng)模型更新的有效性,將使用JSRDCF_H(Baseline)在OTB2015上進(jìn)行消融分析。將去掉自適應(yīng)模型更新的跟蹤方法用Baseline + SRL表示,將去掉空間可靠性學(xué)習(xí)的跟蹤方法用Baseline + AMU表示,JSRDCF_H用Baseline + SRL+ AMU表示,實(shí)驗(yàn)結(jié)果如圖4所示。從圖中可以看出,相比于Baseline,Baseline + SRL在精確率和成功率上分別提升了2.7%和1.8%,Baseline + AMU在精確率和成功率上分別提升了0.5%和0.9%;而通過引入空間可靠性學(xué)習(xí)和自適應(yīng)模型更新的JSRDCF_H最終在精確率和成功率上分別提升了3.0%和2.6%。這表明了空間可靠性學(xué)習(xí)和自適應(yīng)模型更新的有效性。 本小節(jié)旨在通過實(shí)例說明AMU對(duì)跟蹤效果提升的作用。因此,將基準(zhǔn)算法(Baseline)與加上AMU方法的基準(zhǔn)算法(Baseline + AMU)進(jìn)行對(duì)比。如圖6所示,Tiger1視頻中存在大量遮擋、光照變化的場(chǎng)景,選取其中的典型場(chǎng)景進(jìn)行分析:Tiger1中目標(biāo)從101幀開始出現(xiàn)遮擋,AMU方法可以感知到目標(biāo)的突變,模型停止更新;而從284幀開始,光照變化影響到了目標(biāo),AMU依然可以感受到目標(biāo)的變化,學(xué)習(xí)率歸零;盡管從跟蹤的早期結(jié)果來看,AMU似乎未起到優(yōu)化模型、提升濾波器判別能力的作用,但在第346幀,目標(biāo)出現(xiàn)了部分遮擋(近乎完全遮擋),Baseline + AMU方法依然可以準(zhǔn)確定位目標(biāo)。這表明AMU對(duì)目標(biāo)模型優(yōu)化起到了很好的作用,增強(qiáng)了濾波器在復(fù)雜場(chǎng)景下的魯棒性。但是AMU只能應(yīng)對(duì)一些突變的時(shí)刻,并不能完全感知遮擋、光照變換、快速運(yùn)動(dòng)等干擾場(chǎng)景,從而停止對(duì)模型的更新。 圖6 所提算法各組件在OTB2015上性能對(duì)比結(jié)果圖 以現(xiàn)有算法缺乏對(duì)不同空間位置信息可靠性的學(xué)習(xí)為出發(fā)點(diǎn),將對(duì)空間可靠性的學(xué)習(xí)與相關(guān)濾波器的學(xué)習(xí)統(tǒng)一于目標(biāo)函數(shù)中,使得兩個(gè)問題轉(zhuǎn)換為一個(gè)統(tǒng)一的問題。通過使用交替方向法,達(dá)到了對(duì)空間可靠性和濾波器聯(lián)合優(yōu)化學(xué)習(xí)的目的,增強(qiáng)了濾波器對(duì)空間不同位置信息的感知力。此外,針對(duì)標(biāo)準(zhǔn)模型更新存在的問題,基于感知哈希算法,提出了一種自適應(yīng)學(xué)習(xí)的模型更新方式。OTB2013、OTB2015和UAV123數(shù)據(jù)集上的結(jié)果表明了所提出的算法的先進(jìn)性、魯棒性和泛化性,同時(shí)也說明了空間可靠性學(xué)習(xí)和自適應(yīng)模型更新對(duì)于濾波器魯棒性提升的有效性。 下一步工作中,將著眼于如何使模型更新的學(xué)習(xí)率滿足不同視頻序列的要求。1.2 標(biāo)準(zhǔn)的模型更新方式
2 可靠性和濾波器聯(lián)合學(xué)習(xí)算法
2.1 空間可靠性和相關(guān)濾波器聯(lián)合學(xué)習(xí)方法
2.2 自適應(yīng)模型更新
3 實(shí) 驗(yàn)
3.1 實(shí)驗(yàn)細(xì)節(jié)和實(shí)驗(yàn)設(shè)置
3.2 定量分析
3.3 定性分析
3.4 消融對(duì)比
3.5 自適應(yīng)模型更新分析
4 結(jié)束語