吳 捷,馬小虎
(1.泰州職業(yè)技術(shù)學(xué)院信息技術(shù)學(xué)院,江蘇 泰州 225300;2.蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
目標(biāo)跟蹤是計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)之一,在人機(jī)交互、醫(yī)學(xué)成像、交通監(jiān)測(cè)等領(lǐng)域有著極其廣泛的應(yīng)用。目標(biāo)跟蹤的基本流程是在待跟蹤視頻序列的第一幀中標(biāo)記出目標(biāo)邊界框,并在后續(xù)幀中對(duì)目標(biāo)進(jìn)行準(zhǔn)確定位。由于目標(biāo)物體在運(yùn)動(dòng)過(guò)程中可能會(huì)發(fā)生形變、旋轉(zhuǎn)以及受到自然環(huán)境中光照變化等諸多因素的影響,使得目標(biāo)跟蹤尚有不少亟待解決的難題。
近年來(lái)深度學(xué)習(xí)方法異軍突起,在目標(biāo)跟蹤領(lǐng)域得到廣泛應(yīng)用,DeepSRDCF、CF2、ECO、STRCF、MCCT等跟蹤器在DCF 框架下結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(CNN)達(dá)到了較高的跟蹤精度,但是使用深度特征也明顯降低了算法的運(yùn)行速度,限制了其應(yīng)用范圍。而全卷積孿生網(wǎng)絡(luò)(SiamNet)憑借超越DCF 方法的準(zhǔn)確度和端到端訓(xùn)練的優(yōu)勢(shì),成為目標(biāo)跟蹤領(lǐng)域最熱門(mén)的研究方向。
Bertinetto 等在CVPR2016 會(huì)議上提出了基于全卷積孿生網(wǎng)絡(luò)(SiamFC)的目標(biāo)跟蹤方法,實(shí)現(xiàn)了端到端訓(xùn)練,達(dá)到了超實(shí)時(shí)性能,并且具有較高的跟蹤精度。Li 等對(duì)Siamese 孿生網(wǎng)絡(luò)框架進(jìn)行了擴(kuò)展,引入?yún)^(qū)域推薦網(wǎng)絡(luò)(RPN)并提出了SiamRPN 跟蹤算法,跟蹤器的性能進(jìn)一步得到了提升。
雖然一系列基于SiamNet 的跟蹤算法取得了良好的跟蹤效果,但也存在如下問(wèn)題:視覺(jué)跟蹤中的目標(biāo)可以是任意形式的,而從普通圖像中預(yù)先訓(xùn)練的CNN 模型對(duì)感興趣的目標(biāo)對(duì)象是不可知的,這使得預(yù)訓(xùn)練的效率變得較低。從跟蹤速度來(lái)看,因?yàn)轭A(yù)訓(xùn)練模型的深度特征是高維的,造成了大量使用深度特征的跟蹤器計(jì)算負(fù)荷很高。為了提高跟蹤速度,提取和跟蹤目標(biāo)相關(guān)度較高的深層特征進(jìn)行視覺(jué)跟蹤是非常重要的。
在CVPR2019 會(huì)議上,Li 等提出TADT 算法,在SiamNet 框架基礎(chǔ)上,將目標(biāo)感知模塊嵌入到預(yù)訓(xùn)練網(wǎng)絡(luò)后面,使用回歸損失和排序損失來(lái)有效選擇對(duì)于目標(biāo)定位和尺度變化最為敏感的特征通道,取得了非常好的效果,在一系列實(shí)時(shí)跟蹤算法中精度最佳。TADT 算法在特征提取時(shí),僅使用卷積神經(jīng)網(wǎng)絡(luò)VGG16 中的Conv4-3 層深度特征定位目標(biāo)位置,在目標(biāo)發(fā)生大幅形變或低分辨率等場(chǎng)景下容易發(fā)生跟蹤漂移。
為了解決此問(wèn)題,本文在TADT 算法框架下結(jié)合通道選擇與位置優(yōu)化提出一種新型的目標(biāo)跟蹤算法。算法利用了Conv3-3、Conv4-3、Conv5-1 3 個(gè)層次的深度特征,并使用峰值旁瓣比對(duì)初次跟蹤結(jié)果進(jìn)行分類處理,兼顧了跟蹤精度與速度。在OTB跟蹤數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文算法具有較好的跟蹤性能,在主要跟蹤指標(biāo)上超過(guò)了目前主流跟蹤算法。
TADT 算法框架由通用CNN 特征骨干網(wǎng)、目標(biāo)感知模塊和相關(guān)匹配模塊3 部分組成。其中的核心為目標(biāo)感知模塊,其從預(yù)訓(xùn)練的CNN 網(wǎng)絡(luò)中提取目標(biāo)特征,進(jìn)而通過(guò)回歸損失和排序損失函數(shù),分別計(jì)算得到對(duì)于目標(biāo)活動(dòng)和尺度變化較為敏感的特征通道作為當(dāng)前目標(biāo)的特征表示。相關(guān)匹配模塊計(jì)算模板分支與搜索分支之間的相似度得分,得分圖的最大值即為目標(biāo)位置。圖1 為T(mén)ADT 跟蹤器的總體框架圖。
圖1 TADT 算法框架
跟蹤初始化。在此階段,初始化離線訓(xùn)練的CNN 網(wǎng)絡(luò)并提取Conv4-1 和Conv4-3 層特征,其中,預(yù)訓(xùn)練的特征提取器在分類任務(wù)中離線訓(xùn)練,目標(biāo)感知部分只在第一幀中進(jìn)行訓(xùn)練。在初始網(wǎng)絡(luò)訓(xùn)練中,分別訓(xùn)練回歸損失和排序損失部分,并在網(wǎng)絡(luò)收斂后根據(jù)每一損失計(jì)算梯度。利用梯度特征生成模型,從預(yù)先訓(xùn)練好的CNN 中選擇固定數(shù)量的重要度分?jǐn)?shù)最高的濾波器。通過(guò)疊加這兩種特征濾波器,得到最終的目標(biāo)感知特征。
在線檢測(cè)。利用目標(biāo)感知特征并通過(guò)卷積運(yùn)算,(即Siamese 框架中的相關(guān)層)直接計(jì)算初始目標(biāo)與當(dāng)前幀中搜索區(qū)域的相似度特征并輸出響應(yīng)圖。響應(yīng)圖中的值表示其對(duì)應(yīng)位置為實(shí)際目標(biāo)的置信度,利用響應(yīng)圖中最大置信度對(duì)應(yīng)的相對(duì)位置,可以計(jì)算出目標(biāo)物體在搜索區(qū)域中對(duì)應(yīng)的實(shí)際位置。
尺度估計(jì)。為了評(píng)估目標(biāo)的尺度變化,TADT 固定模板的大小,并將當(dāng)前幀中搜索區(qū)域的特征圖分別進(jìn)行縮小、放大和固定不變3 種操作。在跟蹤過(guò)程中,將這3 種特征圖與目標(biāo)模板進(jìn)行比較來(lái)得到最接近的尺度。為了獲取對(duì)目標(biāo)尺度變化較為敏感的濾波器,作者進(jìn)行了一系列對(duì)比實(shí)驗(yàn),最終證明利用Conv4-1 層深度特征效果最佳。
TADT 算法在實(shí)現(xiàn)實(shí)時(shí)跟蹤的情況下取得了很好的跟蹤效果,但是其僅使用卷積神經(jīng)網(wǎng)絡(luò)VGG16中的Conv4-3 層深度特征定位目標(biāo)位置,在目標(biāo)發(fā)生大幅形變或低分辨率等場(chǎng)景下容易發(fā)生跟蹤漂移。
而已有的研究發(fā)現(xiàn),卷積網(wǎng)絡(luò)不同層次特征對(duì)于目標(biāo)跟蹤都具有非常重要的作用。如圖2 所示,低層特征有較高的分辨率,能夠?qū)δ繕?biāo)進(jìn)行精準(zhǔn)的定位;高層特征包含更多的語(yǔ)義信息,能夠有效對(duì)目標(biāo)進(jìn)行范圍定位,處理較大的目標(biāo)變化和防止跟蹤器漂移。
圖2 卷積網(wǎng)絡(luò)不同層次特征圖對(duì)比
本文基于TADT 算法框架并對(duì)其進(jìn)行了改進(jìn)。在初始化VGG16 網(wǎng)絡(luò)時(shí),本文算法加入了Conv5-1卷積層,而TADT 則去除了全部的Conv5 層特征。本文算法并沒(méi)有選擇添加層次更高的Conv5-2 和Conv5-3 層,主要是考慮到使用更深層特征會(huì)顯著增加算法的處理時(shí)間。
除此之外,本文算法引入峰值旁瓣比,對(duì)每幀跟蹤結(jié)果進(jìn)行可靠性判斷,只有對(duì)于低可靠性的跟蹤結(jié)果使用Conv5-1 層特征進(jìn)行重定位,進(jìn)一步提升了算法的運(yùn)行速度。下面給出峰值旁瓣比的定義:
設(shè)第t 幀的特征響應(yīng)圖為R,則其峰值旁瓣比(PSR)定義為:
其中,max 用于求得R的最大值,μ、σ表示特征響應(yīng)圖的均值和方差。峰值旁瓣比主要體現(xiàn)跟蹤的可靠性。
利用上式計(jì)算得到的峰值旁瓣比可以對(duì)每幀跟蹤結(jié)果進(jìn)行可靠性判斷,本文進(jìn)行可靠度判斷的方法如下:
設(shè)跟蹤視頻序列中第t 幀的峰值旁瓣比為P,則計(jì)算其與前t-2 幀峰值旁瓣比均值的比值ratio:
根據(jù)求得的ratio 值,可將跟蹤結(jié)果分為高可信、待優(yōu)化和低可信3 種情況。
本文算法執(zhí)行流程如下:在TADT 框架下,利用Conv4-3 層特征進(jìn)行目標(biāo)初次定位,進(jìn)而通過(guò)計(jì)算峰值旁瓣比對(duì)初次定位結(jié)果進(jìn)行判斷,視其結(jié)果分別進(jìn)行處理。對(duì)于初次定位結(jié)果為高可信的,直接利用之前得到的初次目標(biāo)定位位置作為最終結(jié)果;對(duì)于待優(yōu)化情形,在初次定位得到的搜索區(qū)域基礎(chǔ)上,利用Conv3-3 層深度特征對(duì)目標(biāo)進(jìn)行精確再定位;對(duì)于低可信情形,利用Conv5-1 層深度特征進(jìn)行目標(biāo)重定位。
在目標(biāo)的尺度處理方面,本文和TADT 算法一致,使用Conv4-1 層特征進(jìn)行處理。
本文算法流程圖如下頁(yè)圖3 所示。
圖3 本文算法流程圖
本文在Win10 系統(tǒng)上使用Matlab2016b 編程語(yǔ)言實(shí)現(xiàn)了提出的目標(biāo)跟蹤算法。其中,核心硬件配置為主頻3.3 GHz Inter Xeon(R)E3-1225 的CPU,GTX1060 GPU,32 GB 運(yùn)行內(nèi)存。本文使用VGG16卷積神經(jīng)網(wǎng)絡(luò)作為離線訓(xùn)練網(wǎng)絡(luò),利用VGG16 網(wǎng)絡(luò)中Conv4-1 和Conv4-3 層特征作為目標(biāo)尺度和初次定位目標(biāo)位置的深度特征。本文所用其他跟蹤參數(shù)和TADT 一致。為了全面評(píng)估本文所提算法的性能,在OTB-50 及OTB-100數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),并與TADT、STRCF、MCCT_H、ECO_HC、Deep LMCF、BACF、Staple_CA、DeepSRDCF、LDES等9 個(gè)先進(jìn)的跟蹤器進(jìn)行了比較。
圖4 和圖5 是10 種算法在OTB-50 和OTB-100 上的總精確度圖和成功率圖,從圖4 和圖5 中看出,本文提出的算法精確度和成功率均排名第1,證明了本文所提算法性能優(yōu)異。圖6 給出了10 種算法在平面內(nèi)旋轉(zhuǎn)、出視野、低分辨率、變形等4 種復(fù)雜場(chǎng)景下的成功率曲線圖。相比基準(zhǔn)算法TADT,本文算法的跟蹤成功率分別提高了2.3%、1.4%、1.7%和2.2%,這主要得益于本文算法引入了Conv5-1 層深度特征,有效抑制了跟蹤漂移。
圖4 10 種算法在OTB-50 的成功率曲線圖和距離精度曲線圖
圖5 10 種算法在OTB-100 的成功率曲線圖和距離精度曲線圖
圖6 10 種算法在OTB-50 4 種挑戰(zhàn)性場(chǎng)景下的成功率曲線圖
表1 給出了10 種算法在OTB-100 上的性能對(duì)比,加星號(hào)的算法表示使用了深度特征。在使用深度特征的4 種算法中,本文算法跟蹤速度排名第2,達(dá)到實(shí)時(shí)跟蹤的要求。在跟蹤成功率及精確度方面,本文算法均排名第1,跟蹤成功率相比STRCF,提高了2.2%,相比Staple_CA 則提升了10.7%。數(shù)據(jù)對(duì)比可以看出,本文算法兼顧了跟蹤精度和跟蹤速度。
表1 10 種算法在OTB-100 上的性能對(duì)比
為更加直觀地評(píng)價(jià)本文算法在復(fù)雜環(huán)境下的性能表現(xiàn),表2 給出了本文算法與其他9 種目標(biāo)跟蹤算法在OTB-100 基準(zhǔn)數(shù)據(jù)集中11 個(gè)具有挑戰(zhàn)性的屬性上的精確度圖統(tǒng)計(jì)數(shù)據(jù),以加粗字體標(biāo)識(shí)單個(gè)屬性的最優(yōu)結(jié)果,加粗下劃線為第2 好結(jié)果。本文算法在8 種屬性的精確度圖中排在第1 位,其余3 種屬性均排在第2 位,且全部?jī)?yōu)于TADT 算法,說(shuō)明本文算法增加的位置優(yōu)化模塊有效增強(qiáng)了各種復(fù)雜情形下算法對(duì)目標(biāo)的定位能力,一系列對(duì)比數(shù)據(jù)有力地證明了本文改進(jìn)算法的合理性及有效性。
表2 在OTB-100 數(shù)據(jù)集上多屬性比較結(jié)果
為了更加直觀地展示各種算法的跟蹤效果,下頁(yè)圖7 給出了本文算法與TADT、STRCF、MCCT_H、ECO_HC、DeepLMCF 等5 種綜合性能排名靠前算法在5 個(gè)挑戰(zhàn)性視頻序列的可視化跟蹤結(jié)果對(duì)比,這5 個(gè)視頻序列依次為Bolt、MotorRolling、Bird1、DragonBaby 及Soccer。定性分析如下:
圖7 6 種算法在5 個(gè)挑戰(zhàn)性視頻序列的跟蹤結(jié)果比較
1)Bolt 視頻序列中存在遮擋、變形、平面內(nèi)旋轉(zhuǎn)等挑戰(zhàn)。TADT 算法因?yàn)橹皇褂肅onv4-3 層特征定位目標(biāo),在第246 幀時(shí)丟失目標(biāo),本文算法使用了更深層特征,有效解決了這一問(wèn)題。
2)MotorRolling 視頻序列中存在尺度變化、快速運(yùn)動(dòng)、平面內(nèi)旋轉(zhuǎn)、背景干擾等挑戰(zhàn)。從第142 幀和150 幀的截圖看出,只有本文算法和DeepLMCF可以準(zhǔn)確跟蹤。
3)Bird1 視頻序列存在長(zhǎng)時(shí)遮擋、快速運(yùn)動(dòng)、出視野、形變等多種復(fù)雜因素的干擾。在Bird1 視頻序列中,第204 幀時(shí)STRCF 和ECO_HC 算法丟失目標(biāo),308 幀時(shí)只有本文算法和TADT 可以跟蹤,本文算法的目標(biāo)定位更加精確,第406 幀時(shí)只有本文算法可以定位目標(biāo)。
4)DragonBaby 和Soccer 視頻序列中存在尺度
變化、平面內(nèi)(外)旋轉(zhuǎn)、遮擋、快速運(yùn)動(dòng)、運(yùn)動(dòng)模糊、出視野等多種挑戰(zhàn)因素。DragonBaby 視頻序列的第57 幀ECO_HC 算法出現(xiàn)了跟蹤漂移,第88 幀時(shí)TADT 及MCCT_H 也丟失了目標(biāo),從第94 幀可以看出,本文算法跟蹤最為準(zhǔn)確。從Soccer 視頻序列的第178 幀和388 幀截圖可以看出,本文算法無(wú)論是范圍定位還是精確定位均為最佳。
本文在孿生網(wǎng)絡(luò)框架下,結(jié)合通道選擇與目標(biāo)位置優(yōu)化模塊,提出了一種新型目標(biāo)跟蹤算法。通過(guò)梯度計(jì)算實(shí)現(xiàn)針對(duì)不同跟蹤目標(biāo)選擇特定特征通道,同時(shí)引入峰值旁瓣比對(duì)跟蹤結(jié)果進(jìn)行可信度判斷,進(jìn)而根據(jù)判斷結(jié)果分別進(jìn)行后續(xù)優(yōu)化處理。與近年來(lái)提出的多個(gè)優(yōu)秀算法在OTB 數(shù)據(jù)集上進(jìn)行了定量與定性分析,從一系列對(duì)比數(shù)據(jù)可以看出,本文算法具有最好的跟蹤精度與成功率,且有效解決了TADT 算法應(yīng)對(duì)物體形變、低分辨率等能力較差的問(wèn)題,具有一定的理論與實(shí)際應(yīng)用價(jià)值。后續(xù)工作重點(diǎn)是在跟蹤目標(biāo)的尺度估計(jì)方面進(jìn)一步改進(jìn),以更好地適應(yīng)目標(biāo)的旋轉(zhuǎn)、形變等場(chǎng)景。