任立成,楊嘉棋,魏宇星,張建林
(1.中國(guó)科學(xué)院光電技術(shù)研究所,成都610209;2.中國(guó)科學(xué)院大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,北京100049)
目標(biāo)跟蹤是計(jì)算機(jī)視覺(jué)領(lǐng)域中的重要研究方向,廣泛應(yīng)用在視頻監(jiān)控、人機(jī)交互、智能交通監(jiān)控等任務(wù)中[1]。近年來(lái),雖然研究人員已提出了大量的跟蹤算法,但由于遮擋、光照變化、尺度變化、運(yùn)動(dòng)模糊等因素的影響,目標(biāo)跟蹤仍然是一項(xiàng)重要且極具挑戰(zhàn)性的任務(wù),因此設(shè)計(jì)一個(gè)高精度、強(qiáng)魯棒的目標(biāo)跟蹤框架具有重要的理論價(jià)值和現(xiàn)實(shí)意義[2]。在傳統(tǒng)目標(biāo)跟蹤框架中,核相關(guān)濾波器(Kernel Correlation Filter,KCF)[3]使用循環(huán)矩陣和傅里葉變換有效減少計(jì)算量和提高計(jì)算速度,并采用高斯核函數(shù)將非線性問(wèn)題映射到高維空間,使得算法更具一般性[4]。隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的目標(biāo)跟蹤方法取得很大進(jìn)步。ECO[5]、C-COT[6]等結(jié)合深度學(xué)習(xí)和KCF 的跟蹤器將CNN 強(qiáng)大的特征提取能力集成到傳統(tǒng)跟蹤框架中,獲得了較好的跟蹤效果。基于CNN 的跟蹤框架主要分為兩類(lèi):一類(lèi)是先離線訓(xùn)練網(wǎng)絡(luò),而后在線運(yùn)行時(shí)進(jìn)行網(wǎng)絡(luò)微調(diào);另一類(lèi)是設(shè)計(jì)簡(jiǎn)化版的卷積神經(jīng)網(wǎng)絡(luò),直接在線運(yùn)行而無(wú)需離線訓(xùn)練[7]。DLT[8]算法利用離線訓(xùn)練和在線調(diào)整相結(jié)合的方式,解決在線訓(xùn)練時(shí)缺少正樣本的問(wèn)題。全卷積孿生網(wǎng)絡(luò)SiamFC[9]將孿生網(wǎng)絡(luò)結(jié)構(gòu)作為核心框架,僅使用5 個(gè)全卷積層端到端地訓(xùn)練Siamese 網(wǎng)絡(luò)的相似功能。孿生區(qū)域候選網(wǎng)絡(luò)(Siamese Region Proposal Network,SiamRPN)[10]使用區(qū)域候選網(wǎng)絡(luò)提升了尺度變化場(chǎng)景下跟蹤器的性能表現(xiàn)。SiamRPN++[11]采用一種簡(jiǎn)單有效的空間感知采樣策略保持了網(wǎng)絡(luò)的平移不變性,將殘差網(wǎng)絡(luò)應(yīng)用于孿生網(wǎng)絡(luò)。SiamDW[12]是由CIR 殘差單元組成的深度網(wǎng)絡(luò),替換了SiamFC 和SiamRPN 的主干網(wǎng)絡(luò),使其性能較原有的跟蹤器得到明顯提升。
盡管全卷積孿生網(wǎng)絡(luò)SiamFC 的跟蹤性能得到了較大提升,但仍存在以下問(wèn)題:改進(jìn)AlexNet[13]作為骨干網(wǎng)絡(luò),特征提取能力不強(qiáng),且僅使用骨干特征而未考慮淺層特征,特征類(lèi)型單一;語(yǔ)義信息豐富但缺乏位置信息,導(dǎo)致跟蹤器在快速移動(dòng)時(shí)定位能力較差;不具備模板更新功能,跟蹤器在遮擋、變形等復(fù)雜場(chǎng)景下,由于模板固定導(dǎo)致跟蹤不準(zhǔn)確和場(chǎng)景適應(yīng)性較差,最終跟蹤失敗。針對(duì)上述問(wèn)題,本文設(shè)計(jì)基于多特征融合與雙模板嵌套更新的實(shí)時(shí)目標(biāo)跟蹤算法。在SiamFC 的基礎(chǔ)上,將AlexNet 骨干網(wǎng)絡(luò)替換為具有22 個(gè)卷積的改進(jìn)型ResNet-22 深度網(wǎng)絡(luò),使跟蹤算法的識(shí)別能力更強(qiáng)。在網(wǎng)絡(luò)淺層中,使用包含位置信息的高分辨率特征計(jì)算用于定位的位置分支響應(yīng),采用包含語(yǔ)義信息的骨干特征計(jì)算用于分類(lèi)的語(yǔ)義分支響應(yīng)。按照訓(xùn)練權(quán)重融合兩個(gè)分支的響應(yīng),為跟蹤算法補(bǔ)充更精確的位置信息。通過(guò)雙模板嵌套更新機(jī)制對(duì)兩個(gè)分支的模板進(jìn)行更新,以適應(yīng)目標(biāo)的外觀和位置變化。
本文針對(duì)SiamFC 孿生網(wǎng)絡(luò)難以充分挖掘和利用深度語(yǔ)義特征的問(wèn)題,設(shè)計(jì)基于多響應(yīng)的孿生網(wǎng)絡(luò)跟蹤算法。為有效利用核相關(guān)濾波器在目標(biāo)跟蹤中的高效性與實(shí)時(shí)性,在SiamFC 跟蹤架構(gòu)中引入特征提取能力更強(qiáng)的ResNet-22,構(gòu)建SiamFC-22 網(wǎng)絡(luò)實(shí)現(xiàn)深度特征應(yīng)用與高效相關(guān)跟蹤的有效結(jié)合。通過(guò)多層特征的響應(yīng)融合與目標(biāo)表示的動(dòng)態(tài)更新,有效提升算法跟蹤性能。
基于SiamFC 的目標(biāo)跟蹤框架如圖1所示。該框架由模板分支和搜索分支兩個(gè)分支組成。模板分支的輸入為模板圖像z,搜索分支的輸入為搜索圖像x,z和x經(jīng)過(guò)共享權(quán)重的卷積神經(jīng)網(wǎng)絡(luò)φ提取特征。在跟蹤過(guò)程中,通過(guò)離線訓(xùn)練得到的相似度函數(shù)Δ將模板圖像z特征和搜索圖像x特征中相同大小的候選區(qū)域進(jìn)行比較得到響應(yīng)圖f(z,x)[14]。
圖1 基于SiamFC 的目標(biāo)跟蹤框架Fig.1 Target tracking framework based on SiamFC
整個(gè)跟蹤過(guò)程可定義為:
其中:φ(·)類(lèi)似于AlexNet 結(jié)構(gòu)的骨干網(wǎng)絡(luò),由5 個(gè)卷積組成全卷積網(wǎng)絡(luò);Δ表示由卷積實(shí)現(xiàn)的交叉相關(guān)運(yùn)算;b∈R 為偏置項(xiàng);f(z,x)是一個(gè)17×17 的置信響應(yīng)圖。
為使目標(biāo)位置更加精確,使用雙三次線性插值將響應(yīng)圖尺寸調(diào)整為接近搜索圖像x的尺寸,響應(yīng)圖尺寸的最大值位置即為目標(biāo)位置。
在訓(xùn)練時(shí),將損失函數(shù)定義為:
其中:D表示響應(yīng)圖的位置總數(shù);u∈D表示響應(yīng)圖的每一個(gè)位置;y[u]表示響應(yīng)圖u處對(duì)應(yīng)的真實(shí)標(biāo)簽值,y[u]∈{+1,-1};v[u]表示響應(yīng)圖u處的預(yù)測(cè)值;l(·)表示logistic 損失函數(shù)。l(·)的計(jì)算公式為:
通過(guò)隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)方法,最小化損失函數(shù),最終達(dá)到訓(xùn)練目標(biāo)。
SiamFC 使用修改后的AlexNet 全卷積網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò),無(wú)法發(fā)揮神經(jīng)網(wǎng)絡(luò)深度增加帶來(lái)的優(yōu)勢(shì)。因此,可直接將AlexNet 替換為ResNet[15]等深度網(wǎng)絡(luò),同時(shí)引入padding 使網(wǎng)絡(luò)的注意力集中到目標(biāo)的中心位置,形成位置偏好[12]。這是利用ResNet 加深網(wǎng)絡(luò)后,跟蹤性能不升反降的重要原因,而通過(guò)特征圖裁剪可以解決該問(wèn)題。
綜合以上討論可知,為提升SiamFC 的特征提取能力,本文使用ResNet-22 深度網(wǎng)絡(luò)替換AlexNet。網(wǎng)絡(luò)參數(shù)設(shè)置如表1所示,其中,w代表卷積核寬度,h代表卷積核高度,Cin代表輸入通道數(shù),Cout代表輸出通道數(shù)。
表1 ResNet-22 參數(shù)設(shè)置Table 1 Setting of parameters of ResNet-22
ResNet-22 中有22 個(gè)卷積,分別為1 個(gè)7×7 的卷積Conv1、3 個(gè)殘差塊組成的Conv2 和4 個(gè)殘差塊組成的Conv3,每個(gè)殘差塊(如圖2所示)包含1×1、3×3、1×1 共3 個(gè)卷積。針對(duì)padding 帶來(lái)的干擾,將Conv1 層的特征圖最外圍兩層裁剪(Crop1),將Conv2、Conv3 殘差塊的特征圖最外圍一層裁剪(Crop2),消除padding 給特征圖(feature map)邊緣帶來(lái)的影響。整個(gè)過(guò)程可定義為G(x)=F(x)+x,其中,x代表殘差塊的輸入數(shù)據(jù),F(xiàn)(x)代表經(jīng)過(guò)3 個(gè)卷積層處理后的數(shù)據(jù),x代表恒等映射獲得的數(shù)據(jù)。
圖2 殘差塊結(jié)構(gòu)Fig.2 Residual block structure
通過(guò)綜合分析SiamFC 和ResNet 的特點(diǎn),本文提出將深度語(yǔ)義特征與核相關(guān)跟蹤相結(jié)合的SiamFC-22 網(wǎng)絡(luò),將ResNet-22 作為SiamFC 的骨干網(wǎng)絡(luò)φ。對(duì)SiamFC-22 網(wǎng)絡(luò)進(jìn)行離線訓(xùn)練,其ResNet-22 網(wǎng)絡(luò)初始權(quán)重使用ImageNet[16]圖像分類(lèi)數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練。本文采用如下交叉熵?fù)p失函數(shù):
其中:yu表示響應(yīng)圖u處對(duì)應(yīng)的真實(shí)標(biāo)簽值,yu∈{+1,-1};vu表示響應(yīng)圖u處的預(yù)測(cè)值;l(·)表示logistic 損失函數(shù)。l(·)的計(jì)算公式為:
本文采用ILSVRC2015-VID[16]數(shù)據(jù)集進(jìn)行訓(xùn)練,該數(shù)據(jù)集約有4 500 個(gè)視頻序列,包含遮擋、快速移動(dòng)等復(fù)雜場(chǎng)景。在訓(xùn)練的每個(gè)周期內(nèi),隨機(jī)選取60 萬(wàn)個(gè)樣本對(duì)進(jìn)行訓(xùn)練,共迭代60 個(gè)周期,動(dòng)量設(shè)置為0.9,學(xué)習(xí)率由0.01 指數(shù)衰減至0.000 01,權(quán)重衰減系數(shù)設(shè)置為0.000 1,批次大?。╞atch size)設(shè)置為32。訓(xùn)練具體分為以下步驟:
1)在前50 個(gè)周期內(nèi)僅計(jì)算語(yǔ)義響應(yīng)R2,使用式(4)計(jì)算損失值,訓(xùn)練跟蹤器的識(shí)別能力。
2)在最后10 個(gè)周期內(nèi),初始化響應(yīng)融合參數(shù)λ1和λ2。同時(shí),計(jì)算位置響應(yīng)R1和語(yǔ)義響應(yīng)R2,并使用式(6)融合兩個(gè)響應(yīng)的損失值。一方面訓(xùn)練跟蹤器的定位能力,另一方面優(yōu)化兩個(gè)分支的融合權(quán)重。
兩個(gè)階段的訓(xùn)練均使用損失函數(shù),并利用隨機(jī)梯度下降法進(jìn)行優(yōu)化。
SiamFC-22 網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,其中,z表示尺寸為127 像素×127 像素的模板圖像,x表示尺寸為255 像素×255 像素的搜索圖像,R1和R2分別表示淺層位置分支和骨干語(yǔ)義分支的互相關(guān)響應(yīng)Δ,ωi表示兩個(gè)分支響應(yīng)融合的權(quán)重。在訓(xùn)練階段,分階段計(jì)算響應(yīng)R1和R2的損失值;在測(cè)試階段,自適應(yīng)更新響應(yīng)R1和R2的模板。
圖3 SiamFC-22 結(jié)構(gòu)Fig.3 SiamFC-22 structure
為充分利用網(wǎng)絡(luò)的深度特征,將深度語(yǔ)義特征響應(yīng)與淺層位置特征響應(yīng)進(jìn)行自適應(yīng)融合獲得更魯棒與準(zhǔn)確的目標(biāo)表示與跟蹤算法,并基于網(wǎng)絡(luò)響應(yīng)自適應(yīng)地動(dòng)態(tài)決策更新目標(biāo)深層模板與淺層模板,使網(wǎng)絡(luò)能夠適應(yīng)目標(biāo)的長(zhǎng)時(shí)間累計(jì)變化。
在進(jìn)行目標(biāo)跟蹤時(shí),將模板圖像z和搜索圖像x輸入骨干網(wǎng)絡(luò)ResNet-22,一般孿生網(wǎng)絡(luò)僅提取圖像最后一層(Conv3 層)的特征圖,但Conv2 層特征定位更精確,將其與Conv3 層的特征進(jìn)行集成,可以提升跟蹤算法的性能。本文算法在圖3 的Conv2 層和Conv3 層中同時(shí)提取z和x的特征圖,并且計(jì)算兩個(gè)分支響應(yīng)R1和R2,最終融合兩個(gè)響應(yīng)完成兩層特征的集成。多層次特征響應(yīng)的自適應(yīng)融合過(guò)程具體如下:
1)對(duì)于任意一個(gè)視頻序列,將第1 幀圖像裁剪為像素127×127 像素,然后將其作為模板圖像z輸入骨干網(wǎng)絡(luò)ResNet-22。在Conv2 層提取首幀位置模板,在Conv3 層提取首幀語(yǔ)義模板。
2)在視頻序列的后續(xù)每一幀i∈{1,2,…,N}中,將第i幀裁剪為255 像素×255 像素,然后將其作為搜索圖像x輸入骨干網(wǎng)絡(luò)ResNet-22。在Conv2 層提取位置特征FConv2,在Conv3 層提取語(yǔ)義特征FConv3。
3)第i幀的位置混合模板為,語(yǔ)義混合模板為。根據(jù)前一幀目標(biāo)位置在第i幀提取位置模板和語(yǔ)義模板。使用自適應(yīng)模板更新函數(shù)來(lái)確定和。
在融合后的響應(yīng)圖中,響應(yīng)值最高的位置即為目標(biāo)最可能出現(xiàn)的位置。
多數(shù)孿生網(wǎng)絡(luò)僅使用首幀模板,但不執(zhí)行模板更新,使得跟蹤器無(wú)法適應(yīng)各種變化。本文算法在2.1 節(jié)的第3 步執(zhí)行模板更新,考慮到位置模板反映目標(biāo)位置特征,相鄰幀位移通常不大,無(wú)需頻繁更新;語(yǔ)義模板反映目標(biāo)語(yǔ)義特征,目標(biāo)在外觀變化時(shí)常改變語(yǔ)義特征,需要及時(shí)更新。因此,本文算法針對(duì)以上問(wèn)題設(shè)計(jì)如圖4所示的SiamFC-22 雙模板嵌套更新策略。
圖4 SiamFC-22 雙模板嵌套更新Fig.4 SiamFC-22 dual-template nested update
SiamFC-22 雙模板嵌套更新策略具體步驟如下:
1)更新頻率設(shè)置為3。每3 幀執(zhí)行一次判斷,通過(guò)第2 步和第3 步判斷是否需要更新兩個(gè)模板。
2)判斷語(yǔ)義模板是否需要更新。使用平均峰值相關(guān)能量(Average Peak-to-Correlation Energy,APCE)[17]和最大響應(yīng)值Fmax變化進(jìn)行判斷。當(dāng)這兩個(gè)值突然減小時(shí),通常是目標(biāo)遮擋或丟失的情況,此時(shí)更新模板會(huì)造成污染,不進(jìn)行更新。具體操作如下:當(dāng)由式(7)得到融合響應(yīng)圖r時(shí),首先使用式(8)計(jì)算最大響應(yīng)值Fmax:
然后使用式(9)計(jì)算APCE 值:
其中:Fmax、Fmin及Fw,h分別代表響應(yīng)圖r中最大響應(yīng)值、最小響應(yīng)值及第w行和第h列元素的響應(yīng)值。最后使用式(10)進(jìn)行判斷:
其中:mean(Fmax)和mean(AAPCE)代表前面幀的歷史Fmax和AAPCE值的均值;ξmax和ξAPCE代表兩個(gè)閾值。當(dāng)滿足式(10)時(shí),使用式(11)更新第i幀的語(yǔ)義混合模板。這樣可以在很大程度上避免模型漂移現(xiàn)象,減少模型更新次數(shù),提高運(yùn)行速度。
經(jīng)過(guò)實(shí)驗(yàn)可得:β=0.010 3,μ=0.005,ξmax和ξAPCE分別設(shè)置為0.8 和0.2。
3)在語(yǔ)義模板執(zhí)行更新的前提下,使用式(13)的方差梯度比值(Variance Gradient Ratio,VGR)方法對(duì)位置模板進(jìn)行判斷,決定是否更新。VGR 值可以及時(shí)反映目標(biāo)位移情況,當(dāng)目標(biāo)出現(xiàn)在搜索圖像周邊區(qū)域時(shí),響應(yīng)圖r的峰值響應(yīng)也會(huì)出現(xiàn)在周邊區(qū)域。由于響應(yīng)圖存在余弦窗口,因此它對(duì)周邊響應(yīng)值進(jìn)行抑制,此時(shí)響應(yīng)圖峰值減小,響應(yīng)圖方差出現(xiàn)明顯變化。
首先使用式(12)計(jì)算響應(yīng)圖r的方差值:
然后使用式(13)進(jìn)行判斷:
其中:Vlast代表前一幀的方差;mean(V)代表歷史方差的均值。當(dāng)滿足式(13)時(shí),使用式(14)更新第i幀的位置混合模板。這樣可以有效地反映目標(biāo)的位置變化,并及時(shí)做出更新。
經(jīng)過(guò)實(shí)驗(yàn)可得,α設(shè)置為0.011 3,ζ設(shè)置為0.4。在雙模板嵌套更新過(guò)程中,兩個(gè)不同大小的響應(yīng)圖經(jīng)過(guò)雙三次線性插值調(diào)整為接近搜索圖像x的大小后再進(jìn)行融合。
SiamFC-22 網(wǎng)絡(luò)進(jìn)行離線訓(xùn)練時(shí),無(wú)需進(jìn)行在線微調(diào)。在訓(xùn)練SiamFC-22 的過(guò)程中,網(wǎng)絡(luò)參數(shù)的初始值遵循高斯分布。使用權(quán)重衰減為0.000 1 的隨機(jī)梯度下降方法進(jìn)行網(wǎng)絡(luò)優(yōu)化。學(xué)習(xí)率設(shè)置為0.01,共訓(xùn)練50 個(gè)epoch。在每個(gè)epoch 之后,學(xué)習(xí)率以對(duì)數(shù)形式下降,直到最后一個(gè)時(shí)期達(dá)到0.000 01。動(dòng)量設(shè)置為0.9,batch size 設(shè)置為32。在雙模板嵌套更新過(guò)程中,由式(6)在訓(xùn)練階段得到雙模板融合權(quán)重ω1和ω2并用于跟蹤,ω1和ω2約分別為0.3 和0.7時(shí),跟蹤算法可以獲得最佳性能。
實(shí)驗(yàn)軟件環(huán)境為安裝Pycharm 的Ubuntu 16.04,利用Pytorch 編程框架驗(yàn)證算法性能。所有實(shí)驗(yàn)均運(yùn)行在配置為Intel Core i5-8400 2.80 GHz CPU 和GeForce GTX 1080 GPU 顯卡的計(jì)算機(jī)上,算法執(zhí)行的平均運(yùn)行速度為34 frame/s。本文選用OTB2015[18]和VOT2016[19]數(shù)據(jù)集,在選定的數(shù)據(jù)集上進(jìn)行定性和定量分析實(shí)驗(yàn)。實(shí)驗(yàn)對(duì)比算法為DeepSRDCF[6]、SiamFC[9]、SiamRPN[10]、SiamDW[12]、SRDCF[20]、fDSST[21]、GradNet[22]、Staple[23]等具有代表性的跟蹤算法,并將SiamFC 和SiamDW 作為基準(zhǔn)算法。
3.1.1 OTB 定量實(shí)驗(yàn)
OTB 數(shù)據(jù)集中的OTB2015 包括100 個(gè)視頻序列,包含光照變化、快速運(yùn)動(dòng)、模糊、遮擋等11 個(gè)復(fù)雜場(chǎng)景。為定量地評(píng)估本文算法性能,采用OTB2015 視頻序列進(jìn)行比較。評(píng)價(jià)指標(biāo)主要為精確度和成功率兩個(gè)指標(biāo),并通過(guò)精確度曲線圖和成功率曲線圖來(lái)顯示評(píng)價(jià)結(jié)果。精確度代表視頻中跟蹤成功幀數(shù)占總幀數(shù)的比率,使用跟蹤預(yù)測(cè)框和真實(shí)標(biāo)注框的中心位置的歐式距離判斷跟蹤是否成功,若中心位置誤差低于閾值,則表示跟蹤成功;成功率代表覆蓋率大于某個(gè)閾值的幀數(shù)和視頻幀總數(shù)的比率,覆蓋率是指跟蹤預(yù)測(cè)框和真實(shí)標(biāo)注框的交并比(Intersection over Union,IOU)。
圖5 給出了SiamFC-22 與對(duì)比算法在OTB2015數(shù)據(jù)集上的定量對(duì)比結(jié)果,其中圖示框方括號(hào)中的數(shù)據(jù)表示平均值。可以看出,本文算法的平均精確度和成功率分別為88.6%和66.0%,明顯優(yōu)于對(duì)比算法。與基準(zhǔn)算法SiamFC 和SiamDW 相比,SiamFC-22的平均精確度分別提升了14.4%和4.9%,平均成功率分別提升了13.4%和2.6%。這表明SiamFC-22 的雙模板嵌套更新機(jī)制是有效的。同時(shí),本文算法在OTB2015 數(shù)據(jù)集上獲得了34 frame/s 的運(yùn)行速度,能夠?qū)崟r(shí)穩(wěn)定地跟蹤目標(biāo)。
圖5 8 種算法在OTB2015 數(shù)據(jù)集上的精確度和成功率對(duì)比Fig.5 Comparison of the accuracy and success rate of eight algorithms on OTB2015 dataset
為詳細(xì)分析SiamFC-22 的性能表現(xiàn),在光照變化(Illumination Variation,IV)、尺度變化(Scale Variation,SV)、遮擋(Occlusion,OCC)、運(yùn)動(dòng)模糊(Motion Blur,MB)、快速移動(dòng)(Fast Motion,F(xiàn)M)、平面內(nèi)旋轉(zhuǎn)(In-Plane Rotation,IPR)、平面外旋轉(zhuǎn)(Outof-Plane Rotation,OPR)、相似背景(Background Clutters,BC)、低分辨率(Low Resolution,LR)、變形(Deformation,DEF)和離開(kāi)視野(Out-of-View,OV)場(chǎng)景下,將本文算法與對(duì)比算法進(jìn)行精確度比較,如圖6所示??梢钥闯?,本文算法在IV、SV、MB、FM、IPR、OPR、BC、DEF 和OV 場(chǎng)景下的精確度均優(yōu)于對(duì)比算法,而在OCC 和LR 場(chǎng)景下排第2,并且本文算法的精確度在所有場(chǎng)景下均優(yōu)于基準(zhǔn)算法。
圖6 8 種算法在OTB2015 數(shù)據(jù)集上的精確度對(duì)比Fig.6 Comparison of the precision of eight algorithms on OTB2015 dataset
圖6 結(jié)果表明本文算法與對(duì)比算法相比,能更好地應(yīng)對(duì)目標(biāo)的語(yǔ)義變化和位置變化,具體分析如下:1)在快速移動(dòng)場(chǎng)景下,本文算法相比基準(zhǔn)算法平均精確度分別提高了11.7%和4.1%,這表明本文引入位置模板并根據(jù)語(yǔ)義模板嵌套更新,能夠?yàn)楦櫰餮a(bǔ)充目標(biāo)位置信息,提升快速移動(dòng)等場(chǎng)景下的跟蹤效果;2)遮擋、變形、運(yùn)動(dòng)模糊、內(nèi)外旋轉(zhuǎn)等場(chǎng)景會(huì)引起目標(biāo)語(yǔ)義的變化,此時(shí)本文算法的精確度仍然比基準(zhǔn)算法更高,這表明本文算法對(duì)語(yǔ)義模板的更新方法是有效的,能夠使跟蹤器獲得及時(shí)準(zhǔn)確的語(yǔ)義信息,并且更具魯棒性。
3.1.2 OTB 定性實(shí)驗(yàn)
為分析本文算法的性能,在OTB2015 數(shù)據(jù)集中選擇5 組視頻序列,將本文算法與基準(zhǔn)算法SiamFC和SiamDW 進(jìn)行比較。在圖7 中,跟蹤結(jié)果與紅色框重疊度越高,說(shuō)明跟蹤效果越好(彩色效果見(jiàn)《計(jì)算機(jī)工程》官網(wǎng)HTML 版)。視頻序列的跟蹤精確度對(duì)比結(jié)果如表2所示。
圖7 5 組視頻序列的跟蹤效果對(duì)比Fig.7 Comparison of the tracking effect of five groups of video sequences
表2 5 組視頻序列的跟蹤精確度對(duì)比Table 2 Comparison of the tracking precision of five groups of video sequences
下面結(jié)合圖7 和表2 做進(jìn)一步分析,具體如下:
1)尺度變化場(chǎng)景。在ClifBar 視頻序列中,紅色框的跟蹤框大小會(huì)發(fā)生變化。從第194幀和第216幀,隨著跟蹤框變大,SiamFC 和SiamDW 能定位目標(biāo),但跟蹤精確度出現(xiàn)偏差。在第261 幀時(shí),隨著跟蹤框由大變小,SiamFC 徹底跟丟目標(biāo)。SiamFC-22 始終能穩(wěn)定跟蹤。根據(jù)表2 可知,SiamFC-22 的精確度較SiamFC 和SiamDW 分別提升了0.519 和0.137 個(gè)百分點(diǎn)。由此可見(jiàn),SiamFC-22 更能適應(yīng)尺度變化,相比SiamFC 和SiamDW 能及時(shí)調(diào)整跟蹤框大小。
2)遮擋場(chǎng)景。在Liquor 視頻序列中,紅色框中的酒瓶不停地與其他瓶子相互遮擋。從第1 181 幀到第1 184 幀,因?yàn)槎啻握趽跄繕?biāo),SiamFC 和SiamFC-22 都發(fā)生跟蹤漂移,而SiamDW 徹底跟丟目標(biāo)。在第1 185 幀時(shí),SiamFC-22 因?yàn)榧皶r(shí)更新模板,重新定位目標(biāo)。根據(jù)表2 可知,SiamFC-22 的精確度較SiamFC 和SiamDW 分別提升了0.145 和0.049 個(gè)百分點(diǎn)。由此可見(jiàn),SiamFC-22 具有雙模板嵌套更新機(jī)制,相比SiamFC 和SiamDW 可以及時(shí)處理由遮擋引起的跟蹤漂移等問(wèn)題。
3)變形場(chǎng)景。在Jump 視頻序列中,紅色框中的人發(fā)生變形。從第16 幀到第73 幀,因?yàn)槟繕?biāo)不斷變形,SiamFC 和SiamDW 相繼跟丟,SiamFC-22 還能跟蹤目標(biāo),但是跟蹤精確度無(wú)法保證。在第106 幀時(shí),SiamFC-22 及時(shí)調(diào)整跟蹤框。根據(jù)表2 可知,SiamFC-22 的精確度較SiamFC 和SiamDW 分別提升了0.617 和0.345 個(gè)百分點(diǎn)。由此可見(jiàn),SiamFC-22的語(yǔ)義模板具有高置信度的更新機(jī)制,可以及時(shí)更新目標(biāo)的語(yǔ)義信息,這使得其可以有效反映目標(biāo)外觀發(fā)生的變化。
4)快速移動(dòng)場(chǎng)景。在MotorRolling 視頻序列中,紅色框中的摩托車(chē)位置快速改變。從第29 幀到第37 幀,因?yàn)槟繕?biāo)快速運(yùn)動(dòng),所以SiamFC 逐漸跟丟目標(biāo)。在第49 幀時(shí),SiamDW 目標(biāo)跟蹤出現(xiàn)誤差。根據(jù)表2 可知,SiamFC-22 的精確度較SiamFC 和SiamDW 分別提升了0.309 和0.042 個(gè)百分點(diǎn)。由此可見(jiàn),SiamFC-22 的位置分支響應(yīng)使用淺層特征,包含大量位置信息,并通過(guò)位置模板更新補(bǔ)充信息,這使得SiamFC-22 適用于快速移動(dòng)的場(chǎng)景。
5)相似背景場(chǎng)景。在Football 視頻序列中,紅色框中的人頭移動(dòng)時(shí)不斷出現(xiàn)相似的人頭。在第100 幀時(shí)能穩(wěn)定跟蹤目標(biāo),在第111 幀和第137 幀時(shí)因?yàn)橄嗨颇繕?biāo)干擾,所以SiamFC 和SiamDW 跟丟目標(biāo)。由表2 可以看出,SiamFC-22 的精確度較SiamFC和SiamDW 分別提升了0.591 和0.542 個(gè)百分點(diǎn)。SiamFC-22 相比SiamFC 和SiamDW 能更準(zhǔn)確地區(qū)分相似背景,抑制相似背景的高響應(yīng)值。
在目標(biāo)跟蹤VOT 數(shù)據(jù)集中,本文選用VOT2016[19]數(shù)據(jù)集進(jìn)行算法性能評(píng)估實(shí)驗(yàn),采用平均重疊期望(Expected Average Overlap,EAO)、準(zhǔn)確率和魯棒性分?jǐn)?shù)(R)作為主要評(píng)測(cè)指標(biāo),其中魯棒性分?jǐn)?shù)表示跟蹤失敗的幀數(shù)除以跟蹤重復(fù)的次數(shù),魯棒性分?jǐn)?shù)越低,跟蹤越穩(wěn)定。準(zhǔn)確率和平均重疊期望分?jǐn)?shù)越高,魯棒性分?jǐn)?shù)越低,跟蹤性能越好。實(shí)驗(yàn)對(duì)比算法為DeepSRDCF6]、SiamFC[9]、SiamRPN[10]、SiamDW[12]、SRDCF[20]、和Staple[23]。
由表3 可知,SiamFC-22 的平均重疊期望、準(zhǔn)確率以及魯棒性分?jǐn)?shù)僅低于SiamRPN。在圖8 中,SiamFC-22 將基準(zhǔn)算法SiamFC 和SiamDW 的EAO分別提升了30.0%和6.8%。同時(shí),運(yùn)行速度為32 frame/s,滿足實(shí)時(shí)性要求。因此,SiamFC-22 在VOT2016 數(shù)據(jù)集上的性能表現(xiàn)優(yōu)于基準(zhǔn)算法SiamFC 和SiamDW,僅次于SiamRPN。
表3 VOT2016 跟蹤結(jié)果Table 3 VOT2016 tracking results
圖8 VOT 2016 數(shù)據(jù)集EAO 結(jié)果Fig.8 EAO results of VOT 2016 dataset
為提高SiamFC 在快速移動(dòng)、遮擋等復(fù)雜場(chǎng)景下的跟蹤能力,本文提出一種基于多響應(yīng)圖融合與雙模板嵌套更新的跟蹤算法。將骨干網(wǎng)絡(luò)替換為特征提取能力更高的ResNet-22 網(wǎng)絡(luò),增強(qiáng)跟蹤算法的特征提取能力。使用淺層特征計(jì)算位置分支響應(yīng),利用骨干特征計(jì)算語(yǔ)義分支響應(yīng),并對(duì)兩個(gè)分支進(jìn)行融合,提高跟蹤算法的識(shí)別和定位能力。通過(guò)高置信度的雙模板嵌套更新機(jī)制,兼顧兩個(gè)模板不同的更新速率需求和更新置信度,適應(yīng)目標(biāo)的外觀變化和位置變化。在OTB2015和VOT2016 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文算法有效提升了目標(biāo)跟蹤效果。后續(xù)將使用動(dòng)態(tài)參數(shù)改進(jìn)位置分支與語(yǔ)義分支模板的融合方式,并引入注意力機(jī)制進(jìn)一步提高網(wǎng)絡(luò)跟蹤性能。