摘" 要:""""" 視覺(jué)目標(biāo)跟蹤是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要研究方向之一, 在戰(zhàn)場(chǎng)偵察、" 視頻監(jiān)控、" 自動(dòng)駕駛和視頻分析等軍事和民用領(lǐng)域得到廣泛應(yīng)用。 近年來(lái)目標(biāo)跟蹤算法已經(jīng)取得一系列進(jìn)展, 但由于在實(shí)際跟蹤過(guò)程中存在著復(fù)雜的目標(biāo)和背景變化, 穩(wěn)定的目標(biāo)跟蹤仍面臨很多挑戰(zhàn)。 本文首先介紹了實(shí)際跟蹤場(chǎng)景中出現(xiàn)的困難挑戰(zhàn); 其次, 主要針對(duì)背景相似干擾、" 旋轉(zhuǎn)變化、" 遮擋、" 尺度變化等難點(diǎn)問(wèn)題分別就特征提取、" 觀測(cè)模型和模型更新三個(gè)方面對(duì)具有代表性的判別式目標(biāo)跟蹤方法進(jìn)行深入闡述和分析; 隨后, 在OTB2015數(shù)據(jù)集上對(duì)25種典型跟蹤算法進(jìn)行了實(shí)驗(yàn)對(duì)比與分析; 最后, 對(duì)視覺(jué)目標(biāo)跟蹤技術(shù)的發(fā)展方向進(jìn)行展望。
關(guān)鍵詞:"""" 視覺(jué)目標(biāo)跟蹤; 判別式目標(biāo)跟蹤模型; 相關(guān)濾波; 深度學(xué)習(xí)
中圖分類(lèi)號(hào):""""" TJ760
文獻(xiàn)標(biāo)識(shí)碼:""" A
文章編號(hào):"""" 1673-5048(2024)03-0040-11
DOI: 10.12132/ISSN.1673-5048.2023.0112
引用格式: 于明鑫, 王長(zhǎng)龍, 張玉華, 等. 復(fù)雜環(huán)境下視覺(jué)目標(biāo)跟蹤研究現(xiàn)狀及發(fā)展[ J]. 航空兵器, 2024, 31( 3): 40-50.
Yu Mingxin, Wang Changlong, Zhang Yuhua, et al. Survey of Visual Tracking Algorithms in the Complex Scenarios[ J]. Aero Weaponry, 2024, 31( 3): 40-50.( in Chinese)
0" 引" 言
視覺(jué)目標(biāo)跟蹤是在初始視頻幀中框定感興趣目標(biāo), 在后續(xù)視頻幀中對(duì)該目標(biāo)進(jìn)行持續(xù)定位, 是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)研究熱點(diǎn)。 目標(biāo)跟蹤被應(yīng)用在包含視頻監(jiān)控、" 無(wú)人駕駛、" 軍事領(lǐng)域等眾多軍事和民用場(chǎng)景中。
在武器制導(dǎo)、" 戰(zhàn)場(chǎng)偵察和武器打擊效果評(píng)估領(lǐng)域中, 目標(biāo)的運(yùn)動(dòng)狀態(tài)是系統(tǒng)必需的重要信息。 比如在戰(zhàn)場(chǎng)偵察中, 通過(guò)對(duì)既定目標(biāo)進(jìn)行長(zhǎng)時(shí)間的持續(xù)跟蹤, 實(shí)時(shí)傳回目標(biāo)位置信息和狀態(tài)信息, 為指揮員的決策以及后續(xù)的精確打擊提供基礎(chǔ)。
近年來(lái), 目標(biāo)跟蹤技術(shù)的框架和精度獲得了很大提升和改進(jìn), 但跟蹤過(guò)程中目標(biāo)自身的變化和跟蹤環(huán)境的復(fù)雜性導(dǎo)致目標(biāo)外觀特征不斷變化, 對(duì)跟蹤提出了巨大的挑戰(zhàn), 存在如目標(biāo)遮擋、" 旋轉(zhuǎn)變化、" 尺度變化、" 背景雜波等情況, 在復(fù)雜場(chǎng)景下目標(biāo)跟蹤容易出現(xiàn)目標(biāo)失跟、" 漂移到相似干擾物等情況, 如何實(shí)現(xiàn)復(fù)雜場(chǎng)景下穩(wěn)定且魯棒的目標(biāo)跟蹤, 對(duì)實(shí)際應(yīng)用具有重大意義。 現(xiàn)有的大多數(shù)算法主要致力于提高在數(shù)據(jù)集上的綜合性能, 缺乏對(duì)具體跟蹤挑戰(zhàn)的解決。 針對(duì)不同的特定環(huán)境條件, 需要有針對(duì)性地解決相應(yīng)的困難挑戰(zhàn)。 本文針對(duì)復(fù)雜環(huán)境下的判別式目標(biāo)跟蹤算法進(jìn)行綜述, 針對(duì)目標(biāo)跟蹤過(guò)程中出現(xiàn)的困難挑戰(zhàn)對(duì)跟蹤算法進(jìn)行分類(lèi)分析, 能夠應(yīng)對(duì)復(fù)雜多變的環(huán)境帶來(lái)的跟蹤挑戰(zhàn), 實(shí)現(xiàn)在復(fù)雜場(chǎng)景中穩(wěn)定的目標(biāo)跟蹤。
1" 視覺(jué)跟蹤中的難點(diǎn)
視覺(jué)目標(biāo)跟蹤技術(shù)在跟蹤精度和準(zhǔn)確率上不斷提升, 但由于跟蹤環(huán)境的復(fù)雜性和多變性, 設(shè)計(jì)一個(gè)魯棒、" 穩(wěn)定的跟蹤算法實(shí)現(xiàn)復(fù)雜環(huán)境下的穩(wěn)定跟蹤仍然面臨很多挑戰(zhàn)。 這些挑戰(zhàn)主要來(lái)自外在挑戰(zhàn)和內(nèi)在挑戰(zhàn), 如圖1所示。
外在挑戰(zhàn)是指跟蹤場(chǎng)景中環(huán)境的變化, 如背景相似干擾、" 遮擋。
背景相似干擾: 目標(biāo)在運(yùn)動(dòng)過(guò)程中背景經(jīng)常發(fā)生變化, 背景可能會(huì)對(duì)目標(biāo)的判別產(chǎn)生干擾, 尤其當(dāng)目標(biāo)周?chē)霈F(xiàn)相似干擾物時(shí), 比如相似的外觀、" 相似的顏色分布或者相似的輪廓形狀等情況, 由于相似干擾物的特征和目標(biāo)具有相似性, 無(wú)法將目標(biāo)與相似干擾物區(qū)分開(kāi), 導(dǎo)致跟蹤器容易將干擾物誤認(rèn)為是目標(biāo), 模型在訓(xùn)練時(shí)將干擾物誤認(rèn)為是正樣本, 誤差通過(guò)正反饋不斷積累, 模型逐漸對(duì)干擾物過(guò)擬合, 無(wú)法重新識(shí)別目標(biāo), 造成模
收稿日期: 2023-06-06
基金項(xiàng)目: 基礎(chǔ)前沿科技創(chuàng)新項(xiàng)目(KYSZJXXXXX006)
作者簡(jiǎn)介:" 于明鑫(1996-), 女, 山東威海人, 博士研究生。
*通信作者: 馬曉琳(1979-), 女, 河北石家莊人, 教授。
型漂移。
遮擋: 當(dāng)目標(biāo)發(fā)生局部遮擋時(shí), 僅保留一部分有效的目標(biāo)的外觀特征, 導(dǎo)致跟蹤器無(wú)法識(shí)別出目標(biāo); 當(dāng)目標(biāo)發(fā)生全局遮擋時(shí), 遮擋物覆蓋了目標(biāo)的外觀特征, 導(dǎo)致將遮擋物誤認(rèn)為目標(biāo), 將錯(cuò)誤的信息引入濾波器訓(xùn)練階段, 導(dǎo)致模型漂移、" 判別能力下降, 即使目標(biāo)再次出現(xiàn)在視野中, 由于模型漂移也會(huì)導(dǎo)致跟蹤失敗。
內(nèi)在挑戰(zhàn)是指目標(biāo)自身變化帶來(lái)的跟蹤困難。 當(dāng)目標(biāo)發(fā)生變化時(shí), 目標(biāo)的外觀特征也發(fā)生改變, 對(duì)目標(biāo)外觀的建模不夠及時(shí)準(zhǔn)確, 造成跟蹤困難。 如圖1(c)中, 玩具在運(yùn)動(dòng)過(guò)程中發(fā)生了角度的旋轉(zhuǎn), 第一幀訓(xùn)練的目標(biāo)模板不足以反映當(dāng)前幀的目標(biāo)特征, 濾波器訓(xùn)練過(guò)程中會(huì)將豎直目標(biāo)框內(nèi)的背景誤認(rèn)為是目標(biāo), 造成模型漂移跟蹤失敗。 航空兵器" 2024年第31卷第3期
于明鑫, 等: 復(fù)雜環(huán)境下視覺(jué)目標(biāo)跟蹤研究現(xiàn)狀及發(fā)展
尺度變化: 在實(shí)際的跟蹤過(guò)程中, 目標(biāo)的尺度可能由于距離攝像頭的遠(yuǎn)近發(fā)生變化。 當(dāng)目標(biāo)尺度由大變小時(shí), 原本的跟蹤框內(nèi)存在著大量背景負(fù)樣本, 而背景信息也被認(rèn)為是目標(biāo)的一部分用來(lái)訓(xùn)練; 當(dāng)目標(biāo)尺度由小變大時(shí), 濾波器只能學(xué)習(xí)到目標(biāo)的局部信息, 損失一部分目標(biāo)特征。 兩種情況都會(huì)導(dǎo)致不正確的樣本參與濾波器訓(xùn)練, 長(zhǎng)時(shí)間會(huì)導(dǎo)致濾波器漂移造成跟蹤困難。
2" 跟蹤難點(diǎn)的解決辦法
2.1" 背景相似干擾
背景相似干擾指在跟蹤過(guò)程中視頻幀中目標(biāo)周?chē)霈F(xiàn)相似干擾物, 相似干擾物在特征表達(dá)上和感興趣目標(biāo)相似, 為了更準(zhǔn)確地判別目標(biāo)和相似干擾物, 需要針對(duì)相似干擾物特性對(duì)于相似的顏色、" 外觀設(shè)計(jì)一個(gè)判別能力強(qiáng)的跟蹤框架。 判別式目標(biāo)跟蹤框架核心主要包括特征提取、" 觀測(cè)模型和模型更新三部分。
2.1.1" 特征提取
(1) 單特征
MOSSE(Minimum Output Sum Square Error)[1]采用灰度特征作為目標(biāo)特征進(jìn)行目標(biāo)跟蹤, 計(jì)算量小, 跟蹤速度快, 但跟蹤精度低。 Danelljan等[2]利用CN特征作為目標(biāo)特征進(jìn)行目標(biāo)跟蹤, 把RGB顏色分為11類(lèi), 利用主成分分析法(PCA)將11維的特征降到2維, 自適應(yīng)的選擇顯著性顏色。 文獻(xiàn)[3]利用HOG特征, 將圖像劃分為局部方格單元, 并提取像素的梯度方向和梯度強(qiáng)度, 對(duì)幾何和光照都能保持很好的不變性。 單特征在某些特殊環(huán)境下具有局限性, 制約著跟蹤準(zhǔn)確度的提高。
(2) 多特征
不同的特征能夠表征目標(biāo)的不同屬性, 其在不同情形能發(fā)揮不同的效果, 多特征融合可以融合不同特征的特性實(shí)現(xiàn)優(yōu)勢(shì)特點(diǎn)的互補(bǔ)。 HOG特征在目標(biāo)發(fā)生形變時(shí)跟蹤效果差, 但目標(biāo)的顏色分布不會(huì)發(fā)生改變, 因此顏色直方圖特征對(duì)目標(biāo)形變具有良好的不變性。 文獻(xiàn)[4]融合了HOG特征與顏色直方圖特征作為目標(biāo)特征, 將兩種特征的優(yōu)勢(shì)特點(diǎn)進(jìn)行互補(bǔ), 彌補(bǔ)了各自的局限性, 在不同場(chǎng)景下發(fā)揮兩種特征的跟蹤優(yōu)勢(shì)。 但未考慮特征之間的內(nèi)在聯(lián)系, 僅以固定的權(quán)重將其級(jí)聯(lián)成高維向量, 在有些場(chǎng)景下會(huì)退化跟蹤器的表現(xiàn)甚至比單一特征的表現(xiàn)更差。 文獻(xiàn)[5]提出一種自適應(yīng)特征融合的目標(biāo)跟蹤算法, 利用峰值旁瓣比作為權(quán)重自適應(yīng)地對(duì)HOG特征和顏色特征加權(quán)融合。
(3) 深度特征
目標(biāo)分類(lèi)、" 目標(biāo)檢測(cè)等領(lǐng)域利用深度學(xué)習(xí)強(qiáng)大的特征表達(dá)能力實(shí)現(xiàn)了跨越式發(fā)展, 利用深度特征作為目標(biāo)跟蹤中的特征表示成為了新的研究方向。 文獻(xiàn)[6]首先在ImageNet上預(yù)訓(xùn)練VGG-19網(wǎng)絡(luò), 提取conv3_4, conv4_4, conv5_4三層特征作為目標(biāo)特征, 將不同層的深度特征進(jìn)行由粗到精的融合, 同時(shí)兼顧底層特征的細(xì)節(jié)信息和高層特征的語(yǔ)義信息, 三個(gè)響應(yīng)圖加權(quán)融合得到最終目標(biāo)響應(yīng), 利用最終響應(yīng)圖判斷目標(biāo)位置。
特征按空間維度和通道維度直接級(jí)聯(lián), 采樣區(qū)域內(nèi)的背景會(huì)對(duì)目標(biāo)產(chǎn)生干擾作用, 因此, 研究者們提出利用特征選擇的方式增強(qiáng)目標(biāo)特征[7-8]。 文獻(xiàn)[7]提出基于實(shí)例的特征金字塔, 設(shè)計(jì)基于實(shí)例的上采樣模塊融合淺層和深層特征, 同時(shí)利用壓縮空間通道選擇模塊對(duì)特征通道進(jìn)行自適應(yīng)加權(quán)組合, 充分挖掘淺層和深層特征的優(yōu)勢(shì)。 考慮到淺層特征魯棒性較差, DA-GNT(Domain Activation Mapping-Guided Network)[8]將VGG-M和VGG-16網(wǎng)絡(luò)進(jìn)行集成, 尤其將域空間注意力圖作為VGG-16網(wǎng)絡(luò)的輸入可以對(duì)背景特征實(shí)現(xiàn)一定的抑制, 利用VGG-M網(wǎng)絡(luò)的空間細(xì)節(jié)信息對(duì)VGG-16進(jìn)行了補(bǔ)充。 HiFT(Hierarchical Feature Transformer)[9]將多層卷積特征傳入Transformer, 實(shí)現(xiàn)底層特征和深層特征的自適應(yīng)交互性融合, 不僅能夠獲得全局上下文信息, 而且端到端的網(wǎng)絡(luò)結(jié)構(gòu)可以學(xué)習(xí)到多個(gè)卷積層特征之間的依賴(lài)關(guān)系。 特征之間在語(yǔ)義上可能是有重復(fù)性的, 很可能存在特征冗余。 RPformer(Robust Parallel Transformer)[10]利用雙路Transformer結(jié)構(gòu)提取目標(biāo)感知特征。 雙路Transformer是平行結(jié)構(gòu)形成信息互補(bǔ), 既可以利用特征的依賴(lài)性, 同時(shí)捕獲視頻序列中模板和搜索區(qū)域中豐富的全局上下文信息, 又利用多頭交叉注意力特征融合模塊對(duì)兩個(gè)分支特征自適應(yīng)融合, 提高目標(biāo)和背景特征的判別力。 相關(guān)操作會(huì)丟失語(yǔ)義信息, TransT(Transformer Tracking)[11]設(shè)計(jì)了基于自注意力的自我上下文增強(qiáng)模塊和一個(gè)基于交叉注意力的交叉特征增強(qiáng)模塊, 只使用Transformer來(lái)替代基于相關(guān)操作的網(wǎng)絡(luò)用于特征融合。
如何在不同的跟蹤任務(wù)選擇合適的特征以及更有效的特征融合方式仍然有進(jìn)一步研究的空間。
2.1.2" 觀測(cè)模型
觀測(cè)模型主要是判別當(dāng)前關(guān)注的候選區(qū)域是否為目標(biāo), 是目標(biāo)跟蹤算法中的核心部分之一。 跟蹤任務(wù)首先提取候選區(qū)域的特征, 再利用觀測(cè)模型判別是目標(biāo)還是背景區(qū)域, 最終預(yù)測(cè)目標(biāo)位置。 SCAFNet(Scene Context Attention-Based Fusion Network)[12]構(gòu)建目標(biāo)位置模塊和場(chǎng)景上下文模塊, 增加注意力層增強(qiáng)上下文信息, 在特征層和決策層自適應(yīng)融合目標(biāo)特征和上下文知識(shí), 利用上下文信息作為先驗(yàn)知識(shí)輔助目標(biāo)完成跟蹤。 CACF(Context-Aware Correlation Filter)[13]在相關(guān)濾波器的訓(xùn)練中引入了鄰域上下文信息, 顯式地利用上下文信息, 并證明新的優(yōu)化函數(shù)可以有閉式解, 目標(biāo)和上下文信息同時(shí)參與濾波器的訓(xùn)練。 上述目標(biāo)跟蹤方法主要是利用目標(biāo)附近上下文背景輔助目標(biāo)進(jìn)行定位, 增強(qiáng)背景感知能力, 但是當(dāng)目標(biāo)周?chē)邢嗨聘蓴_物時(shí), 上下文信息可能就存在對(duì)感興趣目標(biāo)的相似干擾, 造成跟蹤器的漂移。 為了更有效地抑制無(wú)關(guān)背景信息, 主要有兩類(lèi)方法:
(1) 邊界效應(yīng)抑制法
SiamFC(Fully Convolutional Siamese Networks)[14]利用余弦窗來(lái)降低圖像塊的邊緣背景干擾, 以上一幀目標(biāo)位置為中心提取搜索區(qū)域, 在搜索區(qū)域上添加余弦窗, 削弱邊緣部分背景信息, 但是余弦窗將搜索區(qū)域的邊緣像素全部置0, 過(guò)濾掉判別式跟蹤器本來(lái)需要學(xué)習(xí)的背景信息, 降低了判別式跟蹤器的判別力。 SRDCF(Spatially Regularized Correlation Filters)[15]采用空間正則化方式抑制背景, 根據(jù)空間位置對(duì)遠(yuǎn)離目標(biāo)中心的邊界區(qū)域的濾波器系數(shù)進(jìn)行懲罰, 通過(guò)懲罰系數(shù)降低背景區(qū)域的權(quán)重。 SCSTCF(Spatial-Channel Selection and Temporal Regularized Correlation Filters)[16]構(gòu)建時(shí)空正則化相關(guān)濾波器, 時(shí)間正則化避免濾波器在時(shí)間維度上發(fā)生突變, 而文獻(xiàn)[17]從不同的角度通過(guò)構(gòu)建相鄰幀環(huán)境殘差項(xiàng)保持濾波器的時(shí)序連續(xù)性, TrDiMP[18]通過(guò)Transformer結(jié)構(gòu)探索視頻幀之間的時(shí)間上下文關(guān)系, 將歷史幀模板送入解碼器, 這樣搜索區(qū)域可以從歷史幀中聚合目標(biāo)信息, 但空間正則化矩陣是固定不變的, 對(duì)背景的抑制作用也是固定的, 忽略了目標(biāo)的多樣性和時(shí)變性, 當(dāng)目標(biāo)形狀或者尺度發(fā)生改變時(shí), 對(duì)背景的抑制作用降低甚至可能減弱目標(biāo)。 文獻(xiàn)[19]引入自適應(yīng)空間正則化項(xiàng)懲罰邊界的濾波器系數(shù), 將自適應(yīng)正則化項(xiàng)整合于濾波器訓(xùn)練框架, 使得約束權(quán)重能夠根據(jù)目標(biāo)狀態(tài)的變化自適應(yīng)改變, 更有針對(duì)性地約束邊界區(qū)域。 AutoTrack[20]利用局部和全局響應(yīng)圖的變化自適應(yīng)地設(shè)計(jì)空間正則化超參數(shù), 后來(lái)的研究針對(duì)自適應(yīng)正則化的構(gòu)建進(jìn)行了擴(kuò)展, 比如基于尺度大小的正則化項(xiàng)[21]、" 基于跟蹤置信度的正則化項(xiàng)[22]和基于內(nèi)容感知的正則化項(xiàng)[23], 通過(guò)正則權(quán)重對(duì)邊界區(qū)域進(jìn)行約束, 減小邊界效應(yīng)的影響。
SCA-Siam[24]和SMCF(Soft Mask Correlation Filter)[25]在目標(biāo)外觀模型中引入了軟掩膜的概念, 然而基于正則化項(xiàng)和軟掩膜都忽略了背景區(qū)域中和目標(biāo)相關(guān)的有用信息, ATSM(Adaptive Target-and-Surrounding Soft Mask)[26]構(gòu)建目標(biāo)-背景自適應(yīng)軟掩膜, 使用非零區(qū)域?qū)V波器進(jìn)行擴(kuò)展, 其可以整合有用背景信息、" 抑制無(wú)關(guān)背景, 同時(shí)對(duì)于跟蹤框內(nèi)的目標(biāo)區(qū)域, 增強(qiáng)可靠性目標(biāo)區(qū)域、" 抑制頻繁變化的區(qū)域。 但空間正則化方法通常忽略特征的冗余性, 和空間正則化思路不同, LADCF(Learning Adaptive Discriminative Correlation Filters)[27]使用lasso約束對(duì)空間特征進(jìn)行選擇, 自適應(yīng)地保持了目標(biāo)及背景的判別流形結(jié)構(gòu), 自適應(yīng)選擇最優(yōu)判別空間掩膜, 避免邊界失真, 并抑制干擾信息的影響, 從而實(shí)現(xiàn)壓縮感知。
(2) 目標(biāo)響應(yīng)自適應(yīng)約束
當(dāng)目標(biāo)周?chē)尘按嬖谙嗨聘蓴_時(shí), 傳統(tǒng)相關(guān)濾波器的理想響應(yīng)不能反映當(dāng)前幀的場(chǎng)景, SRECF(Spatial Reliability Enhanced Correlation Filter)[28]通過(guò)空間可靠性動(dòng)態(tài)的調(diào)整響應(yīng)標(biāo)簽, 根據(jù)當(dāng)前跟蹤狀態(tài)和響應(yīng)圖的變化趨勢(shì)設(shè)置懲罰標(biāo)簽, 對(duì)不可靠的目標(biāo)區(qū)域進(jìn)行壓制。 Zheng等[29]提出背景約束項(xiàng), 將歷史幀中學(xué)習(xí)到的背景抑制信息加入濾波器訓(xùn)練中。 孿生網(wǎng)絡(luò)的深層特征只抽取了語(yǔ)義表述, 很容易漂移到屬性類(lèi)似的干擾物, EDCF[30]利用自編碼結(jié)構(gòu)強(qiáng)調(diào)目標(biāo)的細(xì)節(jié)信息, 并利用上下文感知的相關(guān)濾波器抑制掉周邊的干擾。 常見(jiàn)的孿生網(wǎng)絡(luò)框架只能區(qū)分目標(biāo)和無(wú)語(yǔ)義的背景雜波, 當(dāng)背景干擾是有具有語(yǔ)義含義的物體時(shí), 跟蹤效果較差, DaSiamRPN(Distractor-Aware Siamese Networks)[31]在訓(xùn)練數(shù)據(jù)內(nèi)加入語(yǔ)義負(fù)樣本對(duì), 通過(guò)非極大值抑制篩選類(lèi)內(nèi)干擾, 構(gòu)造干擾感知目標(biāo)函數(shù), 使用增量學(xué)習(xí)的方式來(lái)訓(xùn)練目標(biāo)模板和干擾模板, 對(duì)候選區(qū)域和目標(biāo)模板的目標(biāo)響應(yīng)與候選區(qū)域和干擾模板的干擾響應(yīng)的加權(quán)和作差, 實(shí)現(xiàn)了背景干擾的壓縮。 針對(duì)干擾物響應(yīng)可能存在超過(guò)目標(biāo)響應(yīng)造成跟蹤失敗的情況, ATOM(Accurate Tracking by Overlap Maximization)[32]采用基于共軛梯度的在線(xiàn)訓(xùn)練分類(lèi)器, 并采用難分類(lèi)樣本挖掘策略, 在有干擾物的場(chǎng)景中通過(guò)對(duì)干擾物峰值處訓(xùn)練樣本學(xué)習(xí)率加倍進(jìn)一步增強(qiáng)分類(lèi)組件的魯棒性, 其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。 Nocal-Siam[33]提出位置感知的非局部模塊, 利用非局部注意力機(jī)制的長(zhǎng)距離依賴(lài)性對(duì)多個(gè)響應(yīng)圖的位置信息進(jìn)行約束學(xué)習(xí), 生成自適應(yīng)的響應(yīng)權(quán)重對(duì)背景中的干擾物進(jìn)行抑制。 Pg-Net(Point Gathering Network)[34]設(shè)計(jì)一種像素-全局匹配的方法, SiamGAT(Siamese Graph Attention Tracking)[35]利用完全二分圖來(lái)建立目標(biāo)模板和搜索區(qū)域之間的部分與部分對(duì)應(yīng)關(guān)系的方法來(lái)抑制背景的干擾。
如何直接對(duì)背景中的相似干擾物有針對(duì)性地進(jìn)行約束建模并調(diào)整跟蹤響應(yīng)的分布," 還有待進(jìn)一步研究解決。
2.1.3" 模型更新
模型更新關(guān)注于如何設(shè)計(jì)一種更新策略及時(shí)適應(yīng)目標(biāo)表觀特征動(dòng)態(tài)變化, 降低模型漂移現(xiàn)象出現(xiàn)的概率, 使跟蹤算法在不同跟蹤場(chǎng)景保持較好的魯棒性。 現(xiàn)有的目標(biāo)跟蹤算法對(duì)在線(xiàn)更新和不更新之間進(jìn)行權(quán)衡, 一方面, 停止外觀模型的更新對(duì)于遮擋、" 光照變化等跟蹤挑戰(zhàn)具有更強(qiáng)的魯棒性, 然而當(dāng)出現(xiàn)相似干擾物或者目標(biāo)自身形變等情況, 會(huì)引入模板漂移、" 欠擬合等問(wèn)題; 相反, 在線(xiàn)更新可能會(huì)使模型受到遮擋等其他復(fù)雜干擾而產(chǎn)生漂移。 目前, 常見(jiàn)的目標(biāo)更新策略主要有以下三類(lèi):
(1)" 逐幀更新
文獻(xiàn)[36]提出利用線(xiàn)性插值法在每一幀采用固定的學(xué)習(xí)率對(duì)模型進(jìn)行更新。 但逐幀在線(xiàn)更新計(jì)算壓力大, 實(shí)時(shí)性較差, 而且逐幀更新更容易受到背景負(fù)樣本的干擾, 尤其是目標(biāo)被遮擋時(shí), 可能會(huì)把背景當(dāng)作目標(biāo)對(duì)模型進(jìn)行更新, 增加了跟蹤算法漂移的可能性。
(2)" 稀疏更新
DTT(Discriminative Tracking with Transformers)[37]間隔固定幀數(shù)進(jìn)行參數(shù)更新, 但是不能及時(shí)更新目標(biāo)狀態(tài), 且如何確定幀數(shù)間隔又是新的問(wèn)題。
(3)" 自適應(yīng)更新
通過(guò)判斷目標(biāo)外觀的變化情況動(dòng)態(tài)地更新模型, 可以有效避免固定式模型更新的盲目性。 文獻(xiàn)[38]提出利用模型參數(shù)的變化率表征模型更新的頻率, 模型參數(shù)的變化率越大, 越能促進(jìn)模型更新。 文獻(xiàn)[39]提出利用幀差法比較圖像的平均差分分段調(diào)整更新速率。 文獻(xiàn)[40]提出利用平均峰值相關(guān)能量(Average Peak to Correlation Energy, APCE)平衡模型更新, APCE指標(biāo)衡量目標(biāo)響應(yīng)圖的震蕩程度, 只有當(dāng)前幀APCE值大于歷史幀APCE均值, 才對(duì)濾波器模型進(jìn)行更新, 說(shuō)明目標(biāo)響應(yīng)圖震蕩緩慢, 跟蹤結(jié)果可靠, 降低了模型被污染的風(fēng)險(xiǎn)。 僅利用前一幀模型進(jìn)行更新, 容易導(dǎo)致對(duì)最近鄰模型的過(guò)擬合, 穩(wěn)定性較差, 文獻(xiàn)[41]提出UpdateNet模板更新方法, 在模板分支增加UpdateNet結(jié)構(gòu), 將初始幀、" 當(dāng)前幀以及累積模板作為網(wǎng)絡(luò)框架的輸入, 通過(guò)殘差學(xué)習(xí), 在下一幀預(yù)測(cè)最優(yōu)的目標(biāo)模板, 實(shí)現(xiàn)了模板自適應(yīng)更新, 利用前T幀模型共同進(jìn)行更新增強(qiáng)了模型更新的穩(wěn)定性。 文獻(xiàn)[42]利用動(dòng)態(tài)記憶網(wǎng)絡(luò)來(lái)動(dòng)態(tài)地更新目標(biāo)模板, 能夠自適應(yīng)地捕捉視頻序列的依賴(lài)性, 同時(shí)自適應(yīng)地學(xué)習(xí)目標(biāo)外觀的變化, 為了減小計(jì)算壓力, 采用快速的候選框選擇策略篩選高質(zhì)量的候選框用于LSTM進(jìn)行分類(lèi)。 由于跟蹤過(guò)程中正樣本不足, 分類(lèi)器容易過(guò)度擬合并且失去泛化能力, 元學(xué)習(xí)網(wǎng)絡(luò)[43]被用來(lái)進(jìn)行模型更新。 文獻(xiàn)[43]提出將元學(xué)習(xí)網(wǎng)絡(luò)和SiamFC網(wǎng)絡(luò)結(jié)合, 將SiamFC網(wǎng)絡(luò)最后一層的梯度傳遞到元學(xué)習(xí)網(wǎng)絡(luò), 生成額外的卷積核和通道注意力參數(shù), 將這些動(dòng)態(tài)新增的參數(shù)合并到SiamFC中, 從而讓特征空間可以根據(jù)追蹤過(guò)程中獲得的新的外觀模版進(jìn)行自適應(yīng)更新, 而不會(huì)產(chǎn)生過(guò)擬合情況。
2.2" 遮" 擋
視頻幀中局部遮擋會(huì)造成目標(biāo)外觀變化, 而全局遮擋會(huì)導(dǎo)致目標(biāo)在視野中消失, 同時(shí)在遮擋發(fā)生時(shí)如果不合理地更新目標(biāo)模板會(huì)引入大量負(fù)樣本, 造成模型漂移, 即使目標(biāo)再次出現(xiàn)在視野中, 由于模板的漂移使得模型無(wú)法識(shí)別目標(biāo)。 因此, 需要跟蹤算法能夠判斷出目標(biāo)遮擋的程度, 并利用歷史幀的目標(biāo)外觀模型和當(dāng)前幀僅有的目標(biāo)信息預(yù)測(cè)目標(biāo)位置。 目前解決目標(biāo)遮擋的策略主要有分塊跟蹤和重檢測(cè)兩種。
2.2.1" 分塊跟蹤
文獻(xiàn)[44]對(duì)目標(biāo)塊分別利用相關(guān)濾波進(jìn)行跟蹤(分塊跟蹤框架如圖3所示), 將分塊濾波器的響應(yīng)圖聯(lián)合得到最終的目標(biāo)位置, 采用SCCM指標(biāo)檢測(cè)各個(gè)圖像塊遮擋程度, 自適應(yīng)分配目標(biāo)塊權(quán)重, 降低了被遮擋局部圖像子塊對(duì)跟蹤結(jié)果的影響, 未發(fā)生遮擋的圖像子塊依舊可以表達(dá)目標(biāo)外觀特征, 但只考慮目標(biāo)的局部信息, 忽略目標(biāo)塊之間的空間結(jié)構(gòu)聯(lián)系以及全局上下文信息。 文獻(xiàn)[45]提出一種基于新的分塊方式的目標(biāo)跟蹤算法, 對(duì)圖像子塊分別進(jìn)行濾波跟蹤, 根據(jù)子塊的平均位移估計(jì)粗略的目標(biāo)位置, 在此基礎(chǔ)上利用全局濾波器估計(jì)得到最終精確的目標(biāo)位置。 Han等[46]提出目標(biāo)顯著性指導(dǎo)的圖像塊采樣策略, 并且利用非極大值抑制排除重疊率高的圖像塊, 充分考慮中心顯著性區(qū)域和邊緣區(qū)域的差別, 有利于目標(biāo)關(guān)鍵語(yǔ)義特征整合。 但局部目標(biāo)塊僅利用目標(biāo)局部信息, 一旦子塊發(fā)生漂移, 對(duì)跟蹤結(jié)果影響較大。 因此, 需要對(duì)局部子塊的跟蹤結(jié)果進(jìn)行篩選。 Wang等[47]提出利用MCS作為評(píng)價(jià)指標(biāo)衡量圖像子塊的可靠性, 根據(jù)可靠性權(quán)重采用Hedge算法融合各個(gè)圖像塊的跟蹤結(jié)果得到最終的目標(biāo)位置。 文獻(xiàn)[48]提出自適應(yīng)分塊策略, 以目標(biāo)的尺寸及寬高比作為依據(jù), 通過(guò)局部子塊與全局目標(biāo)之間的空間幾何關(guān)系估計(jì)目標(biāo)位置, 并且基于峰值旁瓣比和歐氏距離判斷跟蹤置信度, 對(duì)于置信度低的局部子塊的位置進(jìn)行重新初始化。
利用局部濾波器如何根據(jù)目標(biāo)特性設(shè)計(jì)合理的分塊策略, 如何處理局部子塊之間以及全局與局部之間的空間位置關(guān)系, 以及依據(jù)跟蹤狀態(tài)對(duì)目標(biāo)塊進(jìn)行篩選還有待進(jìn)一步研究。
2.2.2" 重" 檢" 測(cè)
通過(guò)對(duì)跟蹤過(guò)程中的遮擋程度進(jìn)行判斷, 利用重檢測(cè)機(jī)制重新定位跟蹤目標(biāo)。 TLD(Tracking-Learning-Detection)[49]首次將傳統(tǒng)的跟蹤模塊和檢測(cè)模塊相結(jié)合, 在判斷目標(biāo)發(fā)生遮擋時(shí)利用檢測(cè)模塊對(duì)圖像樣本進(jìn)行分類(lèi)來(lái)重新檢測(cè)目標(biāo)。 除了TLD以外, 條件隨機(jī)場(chǎng)模型[50]、" 隨機(jī)森林分類(lèi)器[51]、" boosting算法[52]、" MIL跟蹤器[53]、" SVM[54]、" 最近鄰規(guī)則分類(lèi)等也作為檢測(cè)模塊被廣泛應(yīng)用到目標(biāo)跟蹤領(lǐng)域, 然而, 檢測(cè)模塊有較大的偶然性, 沒(méi)有提出目標(biāo)跟蹤置信度評(píng)價(jià)指標(biāo), 在沒(méi)有遮擋情況發(fā)生時(shí)容易造成誤檢測(cè), 而且在全局進(jìn)行遍歷, 計(jì)算壓力較大。 LCT(Long-Term Correlation Tracking)[55]利用響應(yīng)峰值作為判斷遮擋的評(píng)價(jià)指標(biāo), 使用在線(xiàn)隨機(jī)蕨在目標(biāo)丟失時(shí)重新檢測(cè)目標(biāo), 很大程度上提升了目標(biāo)發(fā)生遮擋情況下跟蹤的精度, 跟蹤框架如圖4所示。 文獻(xiàn)[56]提出同時(shí)考慮APCE及其梯度作為跟蹤置信度評(píng)價(jià)指標(biāo), APCE梯度可以表征相鄰幀之間的變化程度。 文獻(xiàn)[57]提出同時(shí)考慮最大響應(yīng)值和APCE兩種可靠性指標(biāo)判斷目標(biāo)被遮擋程度, 在目標(biāo)被遮擋后啟用SVM重新檢測(cè)目標(biāo), 同時(shí)將濾波器重新初始化, 只有跟蹤置信度高的視頻幀的樣本被用來(lái)訓(xùn)練更新SVM。 文獻(xiàn)[58]將峰值旁瓣比和次主峰與主峰比相乘的結(jié)果作為跟蹤置信度。 文獻(xiàn)[59]將峰值響應(yīng)、" 峰值旁瓣比、" 次主峰與主峰比和APCE四個(gè)判斷指標(biāo)相乘作為遮擋的評(píng)價(jià)指標(biāo)。 SiamRPN(Siamese Region Proposal Network)[60]和SiamRPN++[61]將搜索策略從局部擴(kuò)展到全局來(lái)檢測(cè)目標(biāo)是否跟蹤丟失。 文獻(xiàn)[62]將重檢測(cè)機(jī)制分為第1幀重檢測(cè)和擴(kuò)展區(qū)域重檢測(cè)。 第1幀重檢測(cè)機(jī)制利用第1幀圖片信息更新目標(biāo)特征, 降低背景信息的干擾作用; 擴(kuò)展區(qū)域重檢測(cè)在擴(kuò)大的搜索區(qū)域內(nèi)重新搜索目標(biāo)。 Zhang等[63]提出1種反遮擋機(jī)制, 當(dāng)目標(biāo)局部遮擋時(shí), 局部極值點(diǎn)位置有可能是目標(biāo)位置, 因此提出將局部極值光滑性作為評(píng)價(jià)準(zhǔn)則判斷局部極值點(diǎn)是否為目標(biāo)位置。 如果局部極值光滑性大于給定閾值, 則以該極值點(diǎn)為中心提取搜索區(qū)域, 利用相關(guān)濾波器重新提取目標(biāo)特征跟蹤定位目標(biāo)。
雖然上述算法在解決遮擋挑戰(zhàn)下有一定效果, 但是遮擋評(píng)價(jià)指標(biāo)過(guò)分依賴(lài)響應(yīng)圖, 而且遮擋情況下有效目標(biāo)信息有限, 遮擋物對(duì)于模型訓(xùn)練帶來(lái)負(fù)面影響, 基于分類(lèi)器的重檢測(cè)模塊的性能發(fā)揮受限。 因此, 判斷目標(biāo)的置信度并在跟蹤遮擋后利用有限的目標(biāo)信息重新搜索定位目標(biāo)是很重要的。
2.3" 旋轉(zhuǎn)變化
視頻序列中當(dāng)目標(biāo)發(fā)生旋轉(zhuǎn)變化時(shí), 對(duì)目標(biāo)外觀的描述發(fā)生變化, 跟蹤框內(nèi)包含大量背景信息, 濾波器不可避免地學(xué)習(xí)到背景信息, 會(huì)引起模型漂移。 因此, 提取有效的目標(biāo)特征, 保持跟蹤過(guò)程中的旋轉(zhuǎn)不變性, 排除背景信息的干擾至關(guān)重要。
文獻(xiàn)[64-66]提出將樣本轉(zhuǎn)換到對(duì)數(shù)極坐標(biāo)系下, 利用相位相關(guān)法在對(duì)數(shù)極坐標(biāo)中同時(shí)估計(jì)目標(biāo)的尺度變化因子和旋轉(zhuǎn)角度, 利用相關(guān)濾波器估計(jì)目標(biāo)位置, 最后將極坐標(biāo)系下的平移量轉(zhuǎn)換到笛卡爾坐標(biāo)系下, 估計(jì)目標(biāo)旋轉(zhuǎn)角度。 文獻(xiàn)[67]提出在利用傳統(tǒng)相關(guān)濾波器訓(xùn)練位移濾波器的基礎(chǔ)上, 在目標(biāo)中心多角度采樣構(gòu)建樣本金字塔, 和DSST類(lèi)似的思路訓(xùn)練一個(gè)一維角度濾波器, 角度濾波器和樣本金字塔相關(guān)響應(yīng)的峰值即為當(dāng)前目標(biāo)的旋轉(zhuǎn)角度。 角度濾波器具有通用性, 可以整合在其他大部分以相關(guān)濾波器為基礎(chǔ)的跟蹤器內(nèi)。 文獻(xiàn)[68-69]重新構(gòu)造了旋轉(zhuǎn)感知的相關(guān)濾波器, 等角度間隔旋轉(zhuǎn)采樣特征模型, 得到目標(biāo)在不同角度下的特征表示, 以此構(gòu)造基本樣本并進(jìn)行循環(huán)移位, 傳入濾波器估計(jì)最優(yōu)目標(biāo)位置及旋轉(zhuǎn)角度, 利用旋轉(zhuǎn)后的樣本估計(jì)目標(biāo)尺度。 分別枚舉角度池和尺度池, 導(dǎo)致候選圖像塊數(shù)量加倍, 嚴(yán)重制約著跟蹤器的速度。 為了同時(shí)保持精度和速度, 文獻(xiàn)[70]將角度池和尺度池結(jié)合, 在搜索框上同時(shí)施加旋轉(zhuǎn)變換和尺度變換, 將變換后的搜索框輸入DCNN進(jìn)行特征提取, 但多個(gè)搜索框分別傳入DCNN依舊會(huì)造成計(jì)算壓力。 Siam-OS[71]提出對(duì)原始搜索框首先經(jīng)過(guò)DCNN進(jìn)行特征提取, 再對(duì)特征圖進(jìn)行旋轉(zhuǎn)和尺度變換, 減少了DCNN的深度特征提取過(guò)程的計(jì)算復(fù)雜度, 提高了計(jì)算速度, 但固定的角度池限制了角度估計(jì)的精度。 文獻(xiàn)[72]提出針對(duì)SAR圖像的目標(biāo)旋轉(zhuǎn)角度估計(jì)方法, 利用哈希算法檢測(cè)目標(biāo)的角點(diǎn)坐標(biāo), 利用最小二乘法估計(jì)目標(biāo)旋轉(zhuǎn)角度。 該類(lèi)旋轉(zhuǎn)估計(jì)方法能自適應(yīng)目標(biāo)旋轉(zhuǎn)角度的變化, 克服了角度池中角度變化范圍有限的限制, 但是角點(diǎn)坐標(biāo)估計(jì)的精度嚴(yán)重影響制約了旋轉(zhuǎn)角度的估計(jì), 算法復(fù)雜度高。 SiamMask-E[73]在SiamMask掩膜的基礎(chǔ)上利用橢圓擬合方法擬合目標(biāo)輪廓并進(jìn)行仿射變換得到旋轉(zhuǎn)的矩形邊界框, 將最小-最大軸對(duì)齊邊界框和擬合邊界框取交集得到最終目標(biāo)的邊界框。
2.4" 尺度變化
當(dāng)目標(biāo)尺度由大變小時(shí), 原本的跟蹤框內(nèi)存在著大量背景負(fù)樣本, 而背景信息也被認(rèn)為是目標(biāo)的一部分用來(lái)訓(xùn)練; 當(dāng)目標(biāo)尺度由小變大時(shí), 濾波器只能學(xué)習(xí)到目標(biāo)的局部信息而丟失其他重要信息, 兩種情況都會(huì)導(dǎo)致不正確的樣本參與濾波器訓(xùn)練, 長(zhǎng)時(shí)間會(huì)導(dǎo)致濾波器漂移造成跟蹤困難。 因此, 需要在跟蹤過(guò)程中估計(jì)目標(biāo)尺度, 針對(duì)尺度變化的解決方案主要有分塊處理和多尺度搜索兩種。
2.4.1" 分" 塊
PSC(Patch-Based Scale Calculation)[74]提出將目標(biāo)分成4個(gè)局部子塊, 根據(jù)圖像中4個(gè)局部子塊響應(yīng)峰值位置之間的相對(duì)距離變化來(lái)估計(jì)目標(biāo)尺度的變化。 Fu等[75]提出利用可靠局部子塊響應(yīng)圖的分布估計(jì)目標(biāo)初始尺度, 結(jié)合貝葉斯框架估計(jì)最優(yōu)目標(biāo)尺度。 分塊跟蹤處理尺度變化不僅能夠估計(jì)目標(biāo)尺度, 同時(shí)還能緩解目標(biāo)局部遮擋帶來(lái)的跟蹤挑戰(zhàn)。
2.4.2" 多尺度搜索
DSST[76]提出構(gòu)建尺度濾波器, 窮舉n個(gè)尺度的圖像塊, 給定一維高斯標(biāo)簽訓(xùn)練尺度濾波器, 最大目標(biāo)響應(yīng)對(duì)應(yīng)的尺度即為最優(yōu)尺度, 該算法的特點(diǎn)是通用性強(qiáng), 可以整合在其他大部分跟蹤器內(nèi), 基于位置跟蹤器的位置估計(jì)和基于尺度濾波器尺度估計(jì)互不影響。 類(lèi)似采用尺度濾波器的文獻(xiàn)[77, 79]給解決尺度變化提供了可行性。 SAMF[78]引入尺度池, 對(duì)多尺度圖像利用雙線(xiàn)性插值縮放, 保持目標(biāo)尺寸, 對(duì)多尺度圖像分別計(jì)算濾波響應(yīng), 響應(yīng)值最大處所在的位置和尺度為最終位置和最優(yōu)尺度。 為了能夠同時(shí)估計(jì)位置和尺度的變化, 文獻(xiàn)[80]采用多尺度搜索, 將不同尺度的候選區(qū)域同時(shí)輸入孿生網(wǎng)絡(luò), 經(jīng)過(guò)相關(guān)濾波層計(jì)算匹配響應(yīng), 具有最大響應(yīng)值的候選區(qū)域來(lái)確定位置和尺度。 為了減小逐幀窮舉尺度池的計(jì)算壓力, 文獻(xiàn)[81]提出一種自適應(yīng)的尺度檢測(cè)方法, 利用PSNR值作為評(píng)價(jià)指標(biāo)啟動(dòng)或停止多尺度檢測(cè)。 SiamRPN[60], SiamRPN++[61], STMTracker(Space-Time Memory Networks)[82], SiamMask[83]引入候選區(qū)域生成網(wǎng)絡(luò)以搜索區(qū)域上的對(duì)應(yīng)位置為多尺度錨盒的中心, 對(duì)目標(biāo)邊界盒進(jìn)行回歸, 這其實(shí)也是基于多尺度搜索, 本質(zhì)上和窮舉尺度池是一致的, 但錨框的設(shè)計(jì)需要啟發(fā)式調(diào)整, 引入大量超參數(shù)和計(jì)算復(fù)雜性。
尺度池在一定程度上可以估計(jì)目標(biāo)尺度的變化, 但尺度池的搜索范圍是粗略的, 想要提高尺度估計(jì)的精度需要對(duì)尺度池進(jìn)行擴(kuò)展。 盲目擴(kuò)展尺度池的搜索范圍會(huì)極大地增加計(jì)算壓力, 因此, 如何在盡量不增加計(jì)算壓力的前提下提高尺度估計(jì)的精度是迫切需要解決的問(wèn)題。
SiamFC++[84], SiamBAN(Siamese Box Adaptive Network)[85]和SiamCAR(Siamese Fully Convolutional Classification and Regression)[86]在統(tǒng)一的全卷積網(wǎng)絡(luò)中直接預(yù)測(cè)前景目標(biāo)得分和跟蹤框到特征位置中心點(diǎn)的相對(duì)偏移量, 通過(guò)偏移量可以直接估計(jì)目標(biāo)的尺度變化。 但是無(wú)錨框的跟蹤方法對(duì)于關(guān)鍵點(diǎn)的檢測(cè)不穩(wěn)定, 一旦檢測(cè)錯(cuò)誤, 目標(biāo)位置和尺度的估計(jì)產(chǎn)生偏差較大。
3" 實(shí)驗(yàn)結(jié)果與分析
為了全面清晰地評(píng)估跟蹤算法的性能, 對(duì)具有代表性的算法在OTB2015數(shù)據(jù)集上的測(cè)試結(jié)果進(jìn)行對(duì)比, 將本節(jié)的跟蹤算法與第2節(jié)的研究現(xiàn)狀相呼應(yīng)。 表1是25種跟蹤算法在OTB2015數(shù)據(jù)集上的跟蹤成功率以及各種視頻屬性下的跟蹤成功率。 根據(jù)測(cè)試結(jié)果, 按照不同的跟蹤挑戰(zhàn), 從特征提取、" 觀測(cè)模型和模型更新的角度對(duì)算法進(jìn)行對(duì)比分析。
從表中可以看出, 跟蹤成功率排名前三的跟蹤算法分別為STMTrack, SiamGAT和SiamBAN, 3種算法都是基于深度學(xué)習(xí)的跟蹤方法。 HCF使用VGG-19預(yù)訓(xùn)練的三層特征替代手工特征進(jìn)行外觀建模, 高層特征包含豐富的語(yǔ)義信息, 引進(jìn)了多層特征融合機(jī)制, 從而構(gòu)建更精準(zhǔn)有效的目標(biāo)外觀模板, 有助于目標(biāo)和背景的判別, HCF的跟蹤成功率相比KCF提高了13.8%。 相比手工特征, 深度特征具有強(qiáng)大的特征表達(dá)能力, 數(shù)據(jù)維度更大, 具有更高的跟蹤成功率。
針對(duì)背景雜波干擾, SRDCF通過(guò)空間正則化方式來(lái)抑制邊界效應(yīng), 達(dá)到抑制無(wú)效背景的目的。 為了保持濾波器在時(shí)序上的連續(xù)性, 防止濾波器的突變, TRBACF在空間正則化的同時(shí)引入時(shí)間正則化, 跟蹤成功率相比SRDCF提高了4.5%, 對(duì)于背景雜波挑戰(zhàn)屬性下的跟蹤成功率提高了8.3%; 針對(duì)固定的正則化權(quán)重不能很好地適應(yīng)目標(biāo)的變化, SARCF利用基于尺度變化的自適應(yīng)空間正則化, 通過(guò)對(duì)目標(biāo)尺度變化的判斷自適應(yīng)控制懲罰權(quán)重系數(shù), 在OTB2015數(shù)據(jù)集上整體成功率增加了5.2%,
在背景雜波挑戰(zhàn)屬性下的成功率提升了10.1%。 ATOM從目標(biāo)響應(yīng)自適應(yīng)約束的角度抑制無(wú)關(guān)背景, 并采用難分類(lèi)樣本挖掘策略, 在有干擾物的場(chǎng)景中通過(guò)對(duì)干擾物峰值處訓(xùn)練樣本學(xué)習(xí)率加倍進(jìn)一步增強(qiáng)分類(lèi)組件的魯棒性, 在背景雜波挑戰(zhàn)下取得60.6%的較高跟蹤成功率。 SiamGAT利用完全二分圖實(shí)現(xiàn)對(duì)背景的抑制, 成功率達(dá)到了68.8%。 上述實(shí)驗(yàn)結(jié)果表明, 通過(guò)邊界效應(yīng)抑制法和自適應(yīng)空間約束法可以實(shí)現(xiàn)對(duì)背景干擾的抑制, 避免將背景干擾誤認(rèn)為是目標(biāo)導(dǎo)致的跟蹤漂移, 提高了跟蹤的成功率。
針對(duì)遮擋環(huán)境, DPCF通過(guò)將目標(biāo)分塊處理, 利用局部濾波器實(shí)現(xiàn)局部目標(biāo)子塊的粗略估計(jì), 以子塊跟蹤結(jié)果為基礎(chǔ), 結(jié)合全局濾波器估計(jì)目標(biāo)位置, 有效解決局部遮擋問(wèn)題, 在遮擋情況下取得了54.6%的跟蹤成功率。 文獻(xiàn)[45]利用新的分塊方式將跟蹤成功率從54.6%提升到60.6%, 表明分塊處理可以有效處理遮擋挑戰(zhàn), 但同時(shí)根據(jù)目標(biāo)特性設(shè)計(jì)合理的分塊策略影響著跟蹤精度的提高。 TLD從重檢測(cè)的角度處理遮擋挑戰(zhàn); LCT通過(guò)峰值響應(yīng)對(duì)目標(biāo)遮擋情況進(jìn)行判斷, 并利用隨機(jī)蕨分類(lèi)器在遮擋發(fā)生時(shí)重新檢測(cè)目標(biāo)。 相比TLD, LCT的遮擋情況下的跟蹤成功率提高了16.4%。 CFRFRC重檢測(cè)模塊通過(guò)計(jì)算APCE值和峰值檢驗(yàn)跟蹤置信度, 和LCT相比跟蹤成功率獲得了6.8%的提升, 在一定程度上緩解了遮擋和模型漂移所帶來(lái)的影響。 文獻(xiàn)[63]利用反遮擋機(jī)制通過(guò)極值點(diǎn)判斷遮擋情況, 當(dāng)遮擋發(fā)生時(shí)極值點(diǎn)位置附近極有可能是目標(biāo)位置, 在極值點(diǎn)位置提取感興趣候選區(qū)域完成跟蹤, 在同類(lèi)相關(guān)濾波類(lèi)算法中取得了最高的跟蹤成功率, 具有最為優(yōu)異的跟蹤性能。 通過(guò)上述分析可以看出, 遮擋程度的判斷以及檢測(cè)模塊的選擇在目標(biāo)丟失時(shí)具有重新恢復(fù)搜索目標(biāo)定位的能力, 對(duì)于處理遮擋問(wèn)題至關(guān)重要。
針對(duì)尺度變化場(chǎng)景下跟蹤效果的局限性, DSST在KCF的基礎(chǔ)上構(gòu)建了一個(gè)一維尺度濾波器, 尺度挑戰(zhàn)下的跟蹤成功率相比KCF提高了11.4%; SAMF也利用了多尺度搜索的思想, 但是尺度池內(nèi)候選尺度只有5個(gè), 相比DSST跟蹤成功率下降了1.2%。 VGGCF提出放大倍數(shù)差異化選取方法, 在候選樣本選取階段對(duì)不同尺寸的視頻圖像、" 不同尺寸的目標(biāo)進(jìn)行篩選與過(guò)濾, 讓跟蹤算法從源頭便開(kāi)始適應(yīng)尺度變化的場(chǎng)景。 因此, 想要提高尺度估計(jì)的精度需要對(duì)尺度池進(jìn)行擴(kuò)展, 候選尺度的擴(kuò)展可以有效應(yīng)對(duì)跟蹤過(guò)程中的尺度變化。 SiamRPN利用區(qū)域生成網(wǎng)絡(luò)以搜索區(qū)域上的對(duì)應(yīng)位置為多尺度錨盒的中心, 對(duì)目標(biāo)邊界盒進(jìn)行回歸, 基于大量錨框的多尺度搜索, 在尺度挑戰(zhàn)下的成功率為61.8%, 相比DSST和SAMF具有明顯優(yōu)勢(shì), 但SiamRPN中錨框的設(shè)計(jì)帶來(lái)很多超參數(shù), 對(duì)結(jié)果影響較大。 SiamBAN和SiamCAR不依賴(lài)錨框, 在全卷積網(wǎng)絡(luò)中直接預(yù)測(cè)前景目標(biāo)和跟蹤框到特征位置中心點(diǎn)的相對(duì)偏移量, 通過(guò)偏移量可以直接估計(jì)目標(biāo)的尺度變化, 在尺度變化挑戰(zhàn)下的成功率分別達(dá)到了69.4%和69.6%。
4" 展" 望
本文就視覺(jué)目標(biāo)跟蹤技術(shù)在實(shí)際跟蹤過(guò)程中遇到的由于目標(biāo)和背景的變化造成的跟蹤挑戰(zhàn), 對(duì)相關(guān)濾波類(lèi)和深度學(xué)習(xí)類(lèi)跟蹤方法展開(kāi)了分析和討論, 隨著研究的不斷深入, 跟蹤算法在復(fù)雜環(huán)境下的精度不斷提高, 但也有繼續(xù)提升的空間。 結(jié)合本文對(duì)目標(biāo)跟蹤研究現(xiàn)狀的分析討論和實(shí)驗(yàn)結(jié)果的對(duì)比分析, 從特征提取、" 觀測(cè)模型和更新機(jī)制三個(gè)角度對(duì)目標(biāo)跟蹤未來(lái)的改進(jìn)方向進(jìn)行討論:
(1) 隨著深度學(xué)習(xí)的不斷發(fā)展, VGG, ResNet等各種網(wǎng)絡(luò)架構(gòu)層出不窮, 可以提取到魯棒的特征, 但不可避免地存在特征冗余的問(wèn)題, 因此, 選擇合適的網(wǎng)絡(luò)框架提取特征, 利用壓縮感知對(duì)空間維度上的有效特征進(jìn)行增強(qiáng), 保留有效特征降低特征冗余, 以及采用有效的特征融合方式可以進(jìn)一步提高跟蹤性能。
(2) 復(fù)雜的背景區(qū)域?qū)Ω櫰鲙?lái)漂移的可能, 背景區(qū)域不僅包括目標(biāo)框外的環(huán)境背景, 更包括目標(biāo)框內(nèi)除了目標(biāo)以外的部分背景, 結(jié)合注意力機(jī)制或者顯著性檢測(cè)排除兩部分背景的干擾作用, 有利于進(jìn)一步提高跟蹤的魯棒性。
(3) 研究實(shí)時(shí)可靠的模型更新機(jī)制, 更新機(jī)制能夠及時(shí)判別目標(biāo)變化的狀態(tài), 根據(jù)目標(biāo)自身的變化狀態(tài)以及響應(yīng)圖自適應(yīng)地進(jìn)行模型更新, 既能實(shí)時(shí)獲取最新的目標(biāo)特征, 又能避免不恰當(dāng)?shù)母聦?dǎo)致的模板漂移。
參考文獻(xiàn):
[1] Bolme D S, Beveridge J R, Draper B A, et al. Visual Object Tracking Using Adaptive Correlation Filters[C]∥IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2010: 2544-2550.
[2] Danelljan M, Khan F S, Felsberg M, et al. Adaptive Color Attri-butes for Real-Time Visual Tracking[C]∥ IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2014: 1090-1097.
[3] Henriques J F, Caseiro R, Martins P, et al. High-Speed Tracking with Kernelized Correlation Filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583-596.
[4] Yan Y M, Guo X X, Tang J, et al. Learning Spatio-Temporal Correlation Filter for Visual Tracking[J]. Neurocomputing, 2021, 436: 273-282.
[5] 陳法領(lǐng), 丁慶海, 常錚, 等. 自適應(yīng)特征融合的多尺度核相關(guān)濾波目標(biāo)跟蹤[J]. 光學(xué)學(xué)報(bào), 2020, 40(3): 109-120.
Chen Faling, Ding Qinghai, Chang Zheng, et al. Multi-Scale Kernel Correlation Filter Algorithm for Visual Tracking Based on the Fusion of Adaptive Features[J]. Acta Optica Sinica, 2020, 40(3): 109-120.(in Chinese)
[6] Wei J, Wang Y, Liu F, et al. Hierarchical Deep Feature for Visual Tracking via Discriminative Correlation Filter[C]∥2nd International Conference on Artificial Intelligence and Big Data (ICAIBD), 2019: 379-383.
[7] Pi Z X, Shao Y J, Gao C X, et al. Instance-Based Feature Pyramid for Visual Object Tracking[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(6): 3774-3787.
[8] Tu Z Z, Zhou A J, Gan C, et al. A Novel Domain Activation Mapping-Guided Network (DA-GNT) for Visual Tracking[J]. Neurocomputing, 2021, 449: 443-454.
[9] Cao Z A, Fu C H, Ye J J, et al. HiFT: Hierarchical Feature Transformer for Aerial Tracking[C]∥IEEE/CVF International Conference on Computer Vision (ICCV), 2021: 15437-15446.
[10] Gu F W, Lu J, Cai C T. RPformer: A Robust Parallel Transformer for Visual Tracking in Complex Scenes[J]. IEEE Transactions on Instrumentation and Measurement, 2022, 71: 1-14.
[11] Chen X, Yan B, Zhu J W, et al. Transformer Tracking[C]∥IEEE/CVF International Conference on Computer Vision (ICCV), 2021.
[12] Wang M H, Li Q P, Gu Y C, et al. SCAF-Net: Scene Context Attention-Based Fusion Network for Vehicle Detection in Aerial Imagery[J]. IEEE Geoscience and Remote Sensing Letters, 2021, 19: 3508305.
[13] Mueller M, Smith N, Ghanem B. Context-Aware Correlation Filter Tracking[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017: 1396-1404.
[14] Bertinetto L, Valmadre J, Henriques J F, et al. Fully-Convolutional Siamese Networks for Object Tracking[C]∥European Conference on Computer Vision, 2016: 850-865.
[15] Danelljan M, Hger G, Khan F S, et al. Learning Spatially Regularized Correlation Filters for Visual Tracking[C]∥IEEE International Conference on Computer Vision (ICCV), 2015: 4310-4318.
[16] Zhang J M, Feng W J, Yuan T Y, et al. SCSTCF: Spatial-Channel Selection and Temporal Regularized Correlation Filters for V-isual Tracking[J]. Applied Soft Computing, 2022, 118: 108485.
[17] Zhang F, Ma S P, Zhang Y L, et al. Perceiving Temporal Environment for Correlation Filters in Real-Time UAV Tracking[J]. IEEE Signal Processing Letters, 2022, 29: 6-10.
[18] Wang N, Zhou W G, Wang J, et al. Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021: 1571-1580.
[19] Zhou L, Jin Y, Wang H, et al. Robust DCF Object Tracking with Adaptive Spatial and Temporal Regularization Based on Target Appearance Variation[J]. Signal Processing, 2022, 195: 108463.
[20] Li Y M, Fu C H, Ding F Q, et al. AutoTrack: Towards High-Performance Visual Tracking for UAV with Automatic Spatio-Temporal Regularization[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 11920-11929.
[21] Pu L, Feng X X, Hou Z Q. Spatial Adaptive Regularized Correlation Filter for Robust Visual Tracking[J]. IEEE Access, 2020, 8: 11342-11351.
[22] Peng C, Liu F H, Yang J, et al. Robust Visual Tracking via Dirac-Weighted Cascading Correlation Filters[J]. IEEE Signal Processing Letters, 2018, 25(11): 1700-1704.
[23] Han R Z, Feng W, Wang S. Fast Learning of Spatially Regula-rized and Content Aware Correlation Filter for Visual Tracking[J]. IEEE Transactions on Image Processing, 2020, 29: 7128-7140.
[24] Fiaz M, Mahmood A, Jung S K. Learning Soft Mask Based Feature Fusion with Channel and Spatial Attention for Robust Visual Object Tracking[J]. Sensors, 2020, 20(14): 4021.
[25] Huo Y, Wang Y H, Yan X Y, et al. Soft Mask Correlation Filter for Visual Object Tracking[C]∥ 25th IEEE International Confe-rence on Image Processing (ICIP), 2018: 2705-2709.
[26] Zhang K, Wang W W, Wang J Y, et al. Learning Adaptive Target-and-Surrounding Soft Mask for Correlation Filter Based Visual Tracking[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(6): 3708-3721.
[27] Xu T Y, Feng Z H, Wu X J, et al. Learning Adaptive Discriminative Correlation Filters via Temporal Consistency Preserving Spatial Feature Selection for Robust Visual Object Tracking[J]. IEEE Transactions on Image Processing, 2019, 28(11): 5596-5609.
[28] Fu C H, Jin J, Ding F Q, et al. Spatial Reliability Enhanced Correlation Filter: An Efficient Approach for Real-Time UAV Tracking[J]. IEEE Transactions on Multimedia, 2021, 23: 1-15.
[29] Zheng Y H, Song H H, Zhang K H, et al. Dynamically Spatiotemporal Regularized Correlation Tracking[J]. IEEE Transactions on Neural Networks and Learning Systems, 2020, 31(7): 2336-2347.
[30] Wang Q A, Zhang M D, Xing J L, et al. Do not Lose the Details: Reinforced Representation Learning for High Performance Visual Tracking[C]∥ 27th International Joint Conference on Artificial Intelligence, 2018: 985–991.
[31] Zhu Z, Wang Q A, Li B, et al. Distractor-Aware Siamese Networks for Visual Object Tracking[C]∥" European Conference on Computer Vision, 2018: 103-119.
[32] Danelljan M, Bhat G, Khan F S, et al. ATOM: Accurate Tracking by Overlap Maximization[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 4655-4664.
[33] Tan H B, Zhang X, Zhang Z P, et al. Nocal-Siam: Refining V-isual Features and Response with Advanced Non-Local Blocks for Real-Time Siamese Tracking[J]. IEEE Transactions on Image Processing, 2021, 30: 2656-2668.
[34] Wang P F, Zhang C Q, Qi F, et al. PGNet: Real-Time Arbitrarily-Shaped Text Spotting with Point Gathering Network[C]∥ AAAI Conference on Artificial Intelligence, 2021, 35(4): 2782-2790.
[35] Guo D Y, Shao Y Y, Cui Y, et al. Graph Attention Tracking[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021: 9538-9547.
[36] 黃曉冬, 曾科軍, 李冬. 一種多特征融合的背景感知相關(guān)濾波跟蹤算法[J]. 兵器裝備工程學(xué)報(bào), 2021, 42(10): 230-236.
Huang Xiaodong, Zeng Kejun, Li Dong. Background-Aware Correlation Filter Tracking Algorithm Based on Multi-Feature Fusion[J]. Journal of Ordnance Equipment Engineering, 2021, 42(10): 230-236.(in Chinese)
[37] Yu B, Tang M, Zheng L Y, et al. High-Performance Discriminative Tracking with Transformers[C]∥IEEE/CVF International Conference on Computer Vision (ICCV), 2021: 9836-9845.
[38] Yin X L, Liu G X, Ma X H. Fast Scale Estimation Method in Object Tracking[J]. IEEE Access, 2020, 8: 31057-31068.
[39] 謝瑜, 陳瑩. 空間注意機(jī)制下的自適應(yīng)目標(biāo)跟蹤[J]. 系統(tǒng)工程與電子技術(shù), 2019, 41(9): 1945-1954.
Xie Yu, Chen Ying. Adaptive Object Tracking Based on Spatial Attention Mechanism[J]. Systems Engineering and Electronics, 2019, 41(9): 1945-1954.(in Chinese)
[40] Yang K Y, Wu X D, Zhu Z Y, et al. A High-Confidence Model Updating Correlation Filtering Tracker with Scale Adaptation for Visual Target Tracking[J]. Optik, 2020, 202: 163730.
[41] 覃瑞國(guó). 基于孿生網(wǎng)絡(luò)的候選區(qū)域推薦與模板更新的跟蹤算法[D]. 桂林: 廣西師范大學(xué), 2021.
Qin Ruiguo. Candidate Region Proposal and Update Model Tracking Algorithm Based on Siamese [D].Guilin: Guangxi Normal University, 2021. (in Chinese)
[42] Du Y H, Yan Y, Chen S, et al. Object-Adaptive LSTM Network for Real-Time Visual Tracking with Adversarial Data Augmentation[J]. Neurocomputing, 2020, 384: 67-83.
[43] Choi J, Kwon J, Lee K M. Deep Meta Learning for Real-Time Target-Aware Visual Tracking[C]∥IEEE/CVF International Conference on Computer Vision (ICCV), 2019: 911-920.
[44] Liu T, Wang G, Yang Q X. Real-Time Part-Based Visual Tracking via Adaptive Correlation Filters[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015: 4902-4912.
[45] Barcellos P, Scharcanski J. Part-Based Object Tracking Using Multiple Adaptive Correlation Filters[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 4505210.
[46] Han S C, Zhan Z H, Li W, et al. Recurrently Exploiting Co-Saliency of Target for Part-Based Visual Tracking[J]. EURASIP Journal on Advances in Signal Processing, 2019 (1): 1-12.
[47] Wang Y, Luo X B, Ding L, et al. Robust Visual Tracking via Part-Based Model[J]. Multimedia Systems, 2020, 26(5): 607-620.
[48] 張燦龍, 李燕茹, 李志欣, 等. 基于核相關(guān)濾波與特征融合的分塊跟蹤算法[J]. 廣西師范大學(xué)學(xué)報(bào): 自然科學(xué)版, 2020, 38(5): 12-23.
Zhang Canlong, Li Yanru, Li Zhixin, et al. Block Target Tracking Based on Kernel Correlation Filter and Feature Fusion[J]. Journal of Guangxi Normal University: Natural Science Edition, 2020, 38(5): 12-23.(in Chinese)
[49] Kalal Z, Mikolajczyk K, Matas J. Tracking-Learning-Detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(7): 1409-1422.
[50] Lv P Y, Zhong Y F, Zhao J, et al. Unsupervised Change Detection Based on Hybrid Conditional Random Field Model for High Spatial Resolution Remote Sensing Imagery[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(7): 4002-4015.
[51] Saffari A, Leistner C, Santner J, et al. On-Line Random Forests[C]∥IEEE 12th International Conference on Computer Vision Workshops, 2009: 1393-1400.
[52] Hare S, Golodetz S, Saffari A, et al. Struck: Structured Output Tracking with Kernels[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(10): 2096-2109.
[53] Babenko B, Yang M H, Belongie S. Visual Tracking with Online Multiple Instance Learning[C]∥IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2009: 983-990.
[54] 孫健, 向偉, 譚舒昆, 等. 改進(jìn)的核相關(guān)濾波跟蹤算法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2018, 54(9): 178-182.
Sun Jian, Xiang Wei, Tan Shukun, et al. Improved Kernelized Correlation Filter Tracking[J]. Computer Engineering and Applications, 2018, 54(9): 178-182.(in Chinese)
[55] Ma C, Yang X K, Zhang C Y, et al. Long-Term Correlation Tracking[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015: 5388-5396.
[56] Yin X L, Liu G X. Effective Appearance Model Update Strategy in Object Tracking[J]. IET Computer Vision, 2019, 13(6): 531-541.
[57] 孫曉鋒, 賈子彥, 張雷, 等. 基于重檢測(cè)機(jī)制的核相關(guān)濾波跟蹤算法[J]. 電光與控制, 2021, 28(8): 44-47.
Sun Xiaofeng, Jia Ziyan, Zhang Lei, et al. A Kernel Correlation Filter Tracking Algorithm Based on Re-Detection Mechanism[J]. Electronics Optics amp; Control, 2021, 28(8): 44-47.(in Chinese)
[58] 王鵬, 孫夢(mèng)宇, 王海燕, 等. 一種目標(biāo)響應(yīng)自適應(yīng)的通道可靠性跟蹤算法[J]. 電子與信息學(xué)報(bào), 2020, 42(8): 1950-1958.
Wang Peng, Sun Mengyu, Wang Haiyan, et al. An Object Tracking Algorithm with Channel Reliability and Target Response Adaptation[J]. Journal of Electronics amp; Information Technology, 2020, 42(8): 1950-1958.(in Chinese)
[59] 尹明鋒, 薄煜明, 朱建良, 等. 基于通道可靠性的多尺度背景感知相關(guān)濾波跟蹤算法[J]. 光學(xué)學(xué)報(bào), 2019, 39(5): 247-257.
Yin Mingfeng, Bo Yuming, Zhu Jianliang, et al. Multi-Scale Context-Aware Correlation Filter Tracking Algorithm Based on Channel Reliability[J]. Acta Optica Sinica, 2019, 39(5): 247-257.(in Chinese)
[60] Li B, Yan J J, Wu W, et al. High Performance Visual Tracking with Siamese Region Proposal Network[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), 2018: 8971-8980.
[61] Li B, Wu W, Wang Q, et al. SiamRPN: Evolution of Siamese Visual Tracking with very Deep Networks[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 4277-4286.
[62] 易宇凡, 瞿少成, 陶林. 基于重檢測(cè)和目標(biāo)遮擋判定的相關(guān)濾波跟蹤實(shí)現(xiàn)[J]. 電子測(cè)量技術(shù), 2020, 43(7): 93-96.
Yi Yufan, Qu Shaocheng, Tao Lin. Correlation Filter Tracking Implementation Based on Re-Detection and Target Occlusion Decision[J]. Electronic Measurement Technology, 2020, 43(7): 93-96.(in Chinese)
[63] Zhang J M, Liu H H, He Y Q, et al. Adaptive Response Maps Fusion of Correlation Filters with Anti-Occlusion Mechanism for Visual Object Tracking[J]. EURASIP Journal on Image and Video Processing, 2022, 2022(1): 1-19.
[64] Liao J W, Qi C, Cao J Z, et al. Rotation-Aware Correlation Filters for Robust Visual Tracking[J]. Journal of Visual Communication and Image Representation, 2022, 83: 103422.
[65] Zhang M D, Xing J L, Gao J, et al. Joint Scale-Spatial Correlation Tracking with Adaptive Rotation Estimation[C]∥IEEE International Conference on Computer Vision Workshop (ICCVW), 2015: 595-603.
[66] Li Y, Zhu J K, Hoi S C H, et al. Robust Estimation of Similarity Transformation for Visual Object Tracking[C]∥AAAI Conference on Artificial Intelligence, 2019, 33(1): 8666-8673.
[67] 李龍, 王耀南, 張振軍. 基于核相關(guān)濾波器的目標(biāo)旋轉(zhuǎn)跟蹤算法[J]. 傳感器與微系統(tǒng), 2017, 36(3): 147-149.
Li Long, Wang Yaonan, Zhang Zhenjun. Object Rotation Tracking Based on Kernelized Correlation Filters[J]. Transducer and Microsystem Technologies, 2017, 36(3): 147-149.(in Chinese)
[68] Marvasti-Zadeh S M, Ghanei-Yakhdan H, Kasaei S. Rotation-Aware Discriminative Scale Space Tracking[C]∥ 27th Iranian Conference on Electrical Engineering (ICEE), 2019: 1272-1276.
[69] Rout L, Raju P M, Mishra D, et al. Learning Rotation Adaptive Correlation Filters in Robust Visual Object Tracking[C]∥ Asian Conference on Computer Vision, 2019: 646-661.
[70] He A F, Luo C, Tian X M, et al. Towards a Better Match in Siamese Network Based Visual Object Tracker[C]∥ European Conference on Computer Vision, 2019: 132-147.
[71] Lee D H. One-Shot Scale and Angle Estimation for Fast Visual Object Tracking[J]. IEEE Access, 2019, 7: 55477-55484.
[72] Zhang Y, Zhuang Y A, Li H Z, et al. A Novel Method for Estimation of the Target Rotation Angle in SAR Image[C]∥IET International Radar Conference, 2015: 1-4.
[73] Chen B X, Tsotsos J. Fast Visual Object Tracking Using Ellipse Fitting for Rotated Bounding Boxes[C]∥IEEE/CVF International Conference on Computer Vision Workshop (ICCVW), 2019: 2281-2289.
[74] Xu Y L, Wang J B, Li H, et al. Patch-Based Scale Calculation for Real-Time Visual Tracking[J]. IEEE Signal Processing Letters, 2016, 23(1): 40-44.
[75] Fu C H, Zhang Y Q, Duan R, et al. Robust Scalable Part-Based Visual Tracking for UAV with Background-Aware Correlation Filter[C]∥IEEE International Conference on Robotics and Biomimetics (ROBIO), 2018: 2245-2252.
[76] Danelljan M, Hger G, Shahbaz Khan F, et al. Accurate Scale Estimation for Robust Visual Tracking[C]∥British Machine Vision Conference, 2014: 1-11.
[77] Wang X, Hou Z Q, Yu W S, et al. Online Scale Adaptive Visual Tracking Based on Multilayer Convolutional Features[J]. IEEE Transactions on Cybernetics, 2019, 49(1): 146-158.
[78] Li Y, Zhu J K. A Scale Adaptive Kernel Correlation Filter Tracker with Feature Integration[C]∥European Conference on Computer Vision, 2014: 254-265.
[79] 靳夢(mèng)磊. 復(fù)雜場(chǎng)景下視頻目標(biāo)跟蹤算法的研究與實(shí)現(xiàn)[D]. 北京: 北京交通大學(xué), 2019.
Jin Menglei. Research and Implementation of Video Object Tracking Algorithm in Complex Scenarios [D].Beijing: Beijing Jiaotong University, 2019. (in Chinese)
[80] 袁越. 結(jié)合相關(guān)濾波與深度網(wǎng)絡(luò)的多尺度目標(biāo)跟蹤[D]. 南昌: 南昌航空大學(xué), 2019.
Yuan Yue. Multiple Scale Object Tracking Combing Correlation Filters and Deep Network[D]. Nanchang: Nanchang Hangkong University, 2019. (in Chinese)
[81] 侯穎, 王穎, 林歆鈺. 多尺度視頻目標(biāo)跟蹤算法研究[J]. 信息技術(shù)與信息化, 2020(4): 37-39.
Hou Ying, Wang Ying, Lin Xinyu. Research on Multi-Scale Video Target Tracking Algorithm[J]. Information Technology and Informatization, 2020(4): 37-39.(in Chinese)
[82] Fu Z H, Liu Q J, Fu Z H, et al. STMTrack: Template-Free Visual Tracking with Space-Time Memory Networks[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021: 13769-13778.
[83] Wang Q, Zhang L, Bertinetto L, et al. Fast Online Object Tracking and Segmentation: A Unifying Approach[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 1328-1338.
[84] Xu Y D, Wang Z Y, Li Z X, et al. SiamFC++: Towards Robust and Accurate Visual Tracking with Target Estimation Guidelines[C]∥AAAI Conference on Artificial Intelligence, 2020, 34(7): 12549-12556.
[85] Chen Z D, Zhong B N, Li G R, et al. Siamese Box Adaptive Network for Visual Tracking[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 6667-6676.
[86] Guo D Y, Wang J, Cui Y, et al. SiamCAR: Siamese Fully Convolutional Classification and Regression for Visual Tracking[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 6268-6276.
Survey of Visual Tracking Algorithms in the Complex Scenarios
Yu Mingxin, Wang Changlong, Zhang Yuhua, Xing Na, Li Aihua, Ma Xiaolin*
(Shijiazhuang Campus of Army Engineering University, Shijiazhuang 050000, China)
Abstract: Visual object tracking is a fundamental problem in computer vision. It has been widely used in civilian and military fields, such as battlefield reconnaissance, video surveillance, automatic driving, video analysis, and many other areas. In recent years, although the object tracking algorithm has made great progress, stable object tracking is still a challenging task due to random target changes and complex scenarios. Firstly, the difficulties and challenges in actual tracking scenarios are introduced in this paper. Then, aiming at the background clutter, rotation changes, occlusion, and scale changes, the representative discriminative object tracking algorithms are summarized and analyzed from the perspective of feature extraction, observation model, and model update mechanism. Subsequently, 25 typical tracking algorithms are evaluated and analyzed on OTB2015 database. Finally, the further research directions are prospected.
Key words: visual object tracking; discriminative visual tracking model; correlation filter; deep learning