亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于特征融合與雙模板嵌套更新的孿生網(wǎng)絡(luò)跟蹤算法

2021-07-26 11:56:18任立成楊嘉棋魏宇星張建林

計(jì)算機(jī)工程 2021年7期

任立成，楊嘉棋，魏宇星，張建林

（1.中國(guó)科學(xué)院光電技術(shù)研究所，成都610209；2.中國(guó)科學(xué)院大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，北京100049）

0 概述

目標(biāo)跟蹤是計(jì)算機(jī)視覺(jué)領(lǐng)域中的重要研究方向，廣泛應(yīng)用在視頻監(jiān)控、人機(jī)交互、智能交通監(jiān)控等任務(wù)中［1］。近年來(lái)，雖然研究人員已提出了大量的跟蹤算法，但由于遮擋、光照變化、尺度變化、運(yùn)動(dòng)模糊等因素的影響，目標(biāo)跟蹤仍然是一項(xiàng)重要且極具挑戰(zhàn)性的任務(wù)，因此設(shè)計(jì)一個(gè)高精度、強(qiáng)魯棒的目標(biāo)跟蹤框架具有重要的理論價(jià)值和現(xiàn)實(shí)意義［2］。在傳統(tǒng)目標(biāo)跟蹤框架中，核相關(guān)濾波器（Kernel Correlation Filter，KCF）［3］使用循環(huán)矩陣和傅里葉變換有效減少計(jì)算量和提高計(jì)算速度，并采用高斯核函數(shù)將非線性問(wèn)題映射到高維空間，使得算法更具一般性［4］。隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展，基于卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）的目標(biāo)跟蹤方法取得很大進(jìn)步。ECO［5］、C-COT［6］等結(jié)合深度學(xué)習(xí)和KCF 的跟蹤器將CNN 強(qiáng)大的特征提取能力集成到傳統(tǒng)跟蹤框架中，獲得了較好的跟蹤效果。基于CNN 的跟蹤框架主要分為兩類(lèi)：一類(lèi)是先離線訓(xùn)練網(wǎng)絡(luò)，而后在線運(yùn)行時(shí)進(jìn)行網(wǎng)絡(luò)微調(diào)；另一類(lèi)是設(shè)計(jì)簡(jiǎn)化版的卷積神經(jīng)網(wǎng)絡(luò)，直接在線運(yùn)行而無(wú)需離線訓(xùn)練［7］。DLT［8］算法利用離線訓(xùn)練和在線調(diào)整相結(jié)合的方式，解決在線訓(xùn)練時(shí)缺少正樣本的問(wèn)題。全卷積孿生網(wǎng)絡(luò)SiamFC［9］將孿生網(wǎng)絡(luò)結(jié)構(gòu)作為核心框架，僅使用5 個(gè)全卷積層端到端地訓(xùn)練Siamese 網(wǎng)絡(luò)的相似功能。孿生區(qū)域候選網(wǎng)絡(luò)（Siamese Region Proposal Network，SiamRPN）［10］使用區(qū)域候選網(wǎng)絡(luò)提升了尺度變化場(chǎng)景下跟蹤器的性能表現(xiàn)。SiamRPN++［11］采用一種簡(jiǎn)單有效的空間感知采樣策略保持了網(wǎng)絡(luò)的平移不變性，將殘差網(wǎng)絡(luò)應(yīng)用于孿生網(wǎng)絡(luò)。SiamDW［12］是由CIR 殘差單元組成的深度網(wǎng)絡(luò)，替換了SiamFC 和SiamRPN 的主干網(wǎng)絡(luò)，使其性能較原有的跟蹤器得到明顯提升。

盡管全卷積孿生網(wǎng)絡(luò)SiamFC 的跟蹤性能得到了較大提升，但仍存在以下問(wèn)題：改進(jìn)AlexNet［13］作為骨干網(wǎng)絡(luò)，特征提取能力不強(qiáng)，且僅使用骨干特征而未考慮淺層特征，特征類(lèi)型單一；語(yǔ)義信息豐富但缺乏位置信息，導(dǎo)致跟蹤器在快速移動(dòng)時(shí)定位能力較差；不具備模板更新功能，跟蹤器在遮擋、變形等復(fù)雜場(chǎng)景下，由于模板固定導(dǎo)致跟蹤不準(zhǔn)確和場(chǎng)景適應(yīng)性較差，最終跟蹤失敗。針對(duì)上述問(wèn)題，本文設(shè)計(jì)基于多特征融合與雙模板嵌套更新的實(shí)時(shí)目標(biāo)跟蹤算法。在SiamFC 的基礎(chǔ)上，將AlexNet 骨干網(wǎng)絡(luò)替換為具有22 個(gè)卷積的改進(jìn)型ResNet-22 深度網(wǎng)絡(luò)，使跟蹤算法的識(shí)別能力更強(qiáng)。在網(wǎng)絡(luò)淺層中，使用包含位置信息的高分辨率特征計(jì)算用于定位的位置分支響應(yīng)，采用包含語(yǔ)義信息的骨干特征計(jì)算用于分類(lèi)的語(yǔ)義分支響應(yīng)。按照訓(xùn)練權(quán)重融合兩個(gè)分支的響應(yīng)，為跟蹤算法補(bǔ)充更精確的位置信息。通過(guò)雙模板嵌套更新機(jī)制對(duì)兩個(gè)分支的模板進(jìn)行更新，以適應(yīng)目標(biāo)的外觀和位置變化。

1 SiamFC-22 孿生網(wǎng)絡(luò)

本文針對(duì)SiamFC 孿生網(wǎng)絡(luò)難以充分挖掘和利用深度語(yǔ)義特征的問(wèn)題，設(shè)計(jì)基于多響應(yīng)的孿生網(wǎng)絡(luò)跟蹤算法。為有效利用核相關(guān)濾波器在目標(biāo)跟蹤中的高效性與實(shí)時(shí)性，在SiamFC 跟蹤架構(gòu)中引入特征提取能力更強(qiáng)的ResNet-22，構(gòu)建SiamFC-22 網(wǎng)絡(luò)實(shí)現(xiàn)深度特征應(yīng)用與高效相關(guān)跟蹤的有效結(jié)合。通過(guò)多層特征的響應(yīng)融合與目標(biāo)表示的動(dòng)態(tài)更新，有效提升算法跟蹤性能。

1.1 基于SiamFC 孿生網(wǎng)絡(luò)的目標(biāo)跟蹤

基于SiamFC 的目標(biāo)跟蹤框架如圖1所示。該框架由模板分支和搜索分支兩個(gè)分支組成。模板分支的輸入為模板圖像z，搜索分支的輸入為搜索圖像x，z和x經(jīng)過(guò)共享權(quán)重的卷積神經(jīng)網(wǎng)絡(luò)φ提取特征。在跟蹤過(guò)程中，通過(guò)離線訓(xùn)練得到的相似度函數(shù)Δ將模板圖像z特征和搜索圖像x特征中相同大小的候選區(qū)域進(jìn)行比較得到響應(yīng)圖f(z,x)［14］。

圖1 基于SiamFC 的目標(biāo)跟蹤框架Fig.1 Target tracking framework based on SiamFC

整個(gè)跟蹤過(guò)程可定義為：

其中：φ(·)類(lèi)似于AlexNet 結(jié)構(gòu)的骨干網(wǎng)絡(luò)，由5 個(gè)卷積組成全卷積網(wǎng)絡(luò)；Δ表示由卷積實(shí)現(xiàn)的交叉相關(guān)運(yùn)算；b∈R 為偏置項(xiàng)；f(z,x)是一個(gè)17×17 的置信響應(yīng)圖。

為使目標(biāo)位置更加精確，使用雙三次線性插值將響應(yīng)圖尺寸調(diào)整為接近搜索圖像x的尺寸，響應(yīng)圖尺寸的最大值位置即為目標(biāo)位置。

在訓(xùn)練時(shí)，將損失函數(shù)定義為：

其中：D表示響應(yīng)圖的位置總數(shù)；u∈D表示響應(yīng)圖的每一個(gè)位置；y[u]表示響應(yīng)圖u處對(duì)應(yīng)的真實(shí)標(biāo)簽值，y[u]∈{+1,-1}；v[u]表示響應(yīng)圖u處的預(yù)測(cè)值；l(·)表示logistic 損失函數(shù)。l(·)的計(jì)算公式為：

通過(guò)隨機(jī)梯度下降（Stochastic Gradient Descent，SGD）方法，最小化損失函數(shù)，最終達(dá)到訓(xùn)練目標(biāo)。

1.2 ResNet-22 網(wǎng)絡(luò)

SiamFC 使用修改后的AlexNet 全卷積網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò)，無(wú)法發(fā)揮神經(jīng)網(wǎng)絡(luò)深度增加帶來(lái)的優(yōu)勢(shì)。因此，可直接將AlexNet 替換為ResNet［15］等深度網(wǎng)絡(luò)，同時(shí)引入padding 使網(wǎng)絡(luò)的注意力集中到目標(biāo)的中心位置，形成位置偏好［12］。這是利用ResNet 加深網(wǎng)絡(luò)后，跟蹤性能不升反降的重要原因，而通過(guò)特征圖裁剪可以解決該問(wèn)題。

綜合以上討論可知，為提升SiamFC 的特征提取能力，本文使用ResNet-22 深度網(wǎng)絡(luò)替換AlexNet。網(wǎng)絡(luò)參數(shù)設(shè)置如表1所示，其中，w代表卷積核寬度，h代表卷積核高度，Cin代表輸入通道數(shù)，Cout代表輸出通道數(shù)。

表1 ResNet-22 參數(shù)設(shè)置Table 1 Setting of parameters of ResNet-22

ResNet-22 中有22 個(gè)卷積，分別為1 個(gè)7×7 的卷積Conv1、3 個(gè)殘差塊組成的Conv2 和4 個(gè)殘差塊組成的Conv3，每個(gè)殘差塊（如圖2所示）包含1×1、3×3、1×1 共3 個(gè)卷積。針對(duì)padding 帶來(lái)的干擾，將Conv1 層的特征圖最外圍兩層裁剪（Crop1），將Conv2、Conv3 殘差塊的特征圖最外圍一層裁剪（Crop2），消除padding 給特征圖（feature map）邊緣帶來(lái)的影響。整個(gè)過(guò)程可定義為G(x)=F(x)+x，其中，x代表殘差塊的輸入數(shù)據(jù)，F(xiàn)（x）代表經(jīng)過(guò)3 個(gè)卷積層處理后的數(shù)據(jù)，x代表恒等映射獲得的數(shù)據(jù)。

圖2 殘差塊結(jié)構(gòu)Fig.2 Residual block structure

1.3 基于ResNet 的SiamFC-22 深度孿生網(wǎng)絡(luò)

通過(guò)綜合分析SiamFC 和ResNet 的特點(diǎn)，本文提出將深度語(yǔ)義特征與核相關(guān)跟蹤相結(jié)合的SiamFC-22 網(wǎng)絡(luò)，將ResNet-22 作為SiamFC 的骨干網(wǎng)絡(luò)φ。對(duì)SiamFC-22 網(wǎng)絡(luò)進(jìn)行離線訓(xùn)練，其ResNet-22 網(wǎng)絡(luò)初始權(quán)重使用ImageNet［16］圖像分類(lèi)數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練。本文采用如下交叉熵?fù)p失函數(shù)：

其中：yu表示響應(yīng)圖u處對(duì)應(yīng)的真實(shí)標(biāo)簽值，yu∈{+1,-1}；vu表示響應(yīng)圖u處的預(yù)測(cè)值；l(·)表示logistic 損失函數(shù)。l(·)的計(jì)算公式為：

本文采用ILSVRC2015-VID［16］數(shù)據(jù)集進(jìn)行訓(xùn)練，該數(shù)據(jù)集約有4 500 個(gè)視頻序列，包含遮擋、快速移動(dòng)等復(fù)雜場(chǎng)景。在訓(xùn)練的每個(gè)周期內(nèi)，隨機(jī)選取60 萬(wàn)個(gè)樣本對(duì)進(jìn)行訓(xùn)練，共迭代60 個(gè)周期，動(dòng)量設(shè)置為0.9，學(xué)習(xí)率由0.01 指數(shù)衰減至0.000 01，權(quán)重衰減系數(shù)設(shè)置為0.000 1，批次大?。╞atch size）設(shè)置為32。訓(xùn)練具體分為以下步驟：

1）在前50 個(gè)周期內(nèi)僅計(jì)算語(yǔ)義響應(yīng)R2，使用式（4）計(jì)算損失值，訓(xùn)練跟蹤器的識(shí)別能力。

2）在最后10 個(gè)周期內(nèi)，初始化響應(yīng)融合參數(shù)λ1和λ2。同時(shí)，計(jì)算位置響應(yīng)R1和語(yǔ)義響應(yīng)R2，并使用式（6）融合兩個(gè)響應(yīng)的損失值。一方面訓(xùn)練跟蹤器的定位能力，另一方面優(yōu)化兩個(gè)分支的融合權(quán)重。

兩個(gè)階段的訓(xùn)練均使用損失函數(shù)，并利用隨機(jī)梯度下降法進(jìn)行優(yōu)化。

SiamFC-22 網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示，其中，z表示尺寸為127 像素×127 像素的模板圖像，x表示尺寸為255 像素×255 像素的搜索圖像，R1和R2分別表示淺層位置分支和骨干語(yǔ)義分支的互相關(guān)響應(yīng)Δ，ωi表示兩個(gè)分支響應(yīng)融合的權(quán)重。在訓(xùn)練階段，分階段計(jì)算響應(yīng)R1和R2的損失值；在測(cè)試階段，自適應(yīng)更新響應(yīng)R1和R2的模板。

圖3 SiamFC-22 結(jié)構(gòu)Fig.3 SiamFC-22 structure

2 基于SiamFC-22 的自適應(yīng)目標(biāo)跟蹤

為充分利用網(wǎng)絡(luò)的深度特征，將深度語(yǔ)義特征響應(yīng)與淺層位置特征響應(yīng)進(jìn)行自適應(yīng)融合獲得更魯棒與準(zhǔn)確的目標(biāo)表示與跟蹤算法，并基于網(wǎng)絡(luò)響應(yīng)自適應(yīng)地動(dòng)態(tài)決策更新目標(biāo)深層模板與淺層模板，使網(wǎng)絡(luò)能夠適應(yīng)目標(biāo)的長(zhǎng)時(shí)間累計(jì)變化。

2.1 多層次特征響應(yīng)的自適應(yīng)融合

在進(jìn)行目標(biāo)跟蹤時(shí)，將模板圖像z和搜索圖像x輸入骨干網(wǎng)絡(luò)ResNet-22，一般孿生網(wǎng)絡(luò)僅提取圖像最后一層（Conv3 層）的特征圖，但Conv2 層特征定位更精確，將其與Conv3 層的特征進(jìn)行集成，可以提升跟蹤算法的性能。本文算法在圖3 的Conv2 層和Conv3 層中同時(shí)提取z和x的特征圖，并且計(jì)算兩個(gè)分支響應(yīng)R1和R2，最終融合兩個(gè)響應(yīng)完成兩層特征的集成。多層次特征響應(yīng)的自適應(yīng)融合過(guò)程具體如下：

1）對(duì)于任意一個(gè)視頻序列，將第1 幀圖像裁剪為像素127×127 像素，然后將其作為模板圖像z輸入骨干網(wǎng)絡(luò)ResNet-22。在Conv2 層提取首幀位置模板，在Conv3 層提取首幀語(yǔ)義模板。

2）在視頻序列的后續(xù)每一幀i∈{1,2,…,N}中，將第i幀裁剪為255 像素×255 像素，然后將其作為搜索圖像x輸入骨干網(wǎng)絡(luò)ResNet-22。在Conv2 層提取位置特征FConv2，在Conv3 層提取語(yǔ)義特征FConv3。

3）第i幀的位置混合模板為，語(yǔ)義混合模板為。根據(jù)前一幀目標(biāo)位置在第i幀提取位置模板和語(yǔ)義模板。使用自適應(yīng)模板更新函數(shù)來(lái)確定和。

在融合后的響應(yīng)圖中，響應(yīng)值最高的位置即為目標(biāo)最可能出現(xiàn)的位置。

2.2 多層次模板的嵌套動(dòng)態(tài)更新

多數(shù)孿生網(wǎng)絡(luò)僅使用首幀模板，但不執(zhí)行模板更新，使得跟蹤器無(wú)法適應(yīng)各種變化。本文算法在2.1 節(jié)的第3 步執(zhí)行模板更新，考慮到位置模板反映目標(biāo)位置特征，相鄰幀位移通常不大，無(wú)需頻繁更新；語(yǔ)義模板反映目標(biāo)語(yǔ)義特征，目標(biāo)在外觀變化時(shí)常改變語(yǔ)義特征，需要及時(shí)更新。因此，本文算法針對(duì)以上問(wèn)題設(shè)計(jì)如圖4所示的SiamFC-22 雙模板嵌套更新策略。

圖4 SiamFC-22 雙模板嵌套更新Fig.4 SiamFC-22 dual-template nested update

SiamFC-22 雙模板嵌套更新策略具體步驟如下：

1）更新頻率設(shè)置為3。每3 幀執(zhí)行一次判斷，通過(guò)第2 步和第3 步判斷是否需要更新兩個(gè)模板。

2）判斷語(yǔ)義模板是否需要更新。使用平均峰值相關(guān)能量（Average Peak-to-Correlation Energy，APCE）［17］和最大響應(yīng)值Fmax變化進(jìn)行判斷。當(dāng)這兩個(gè)值突然減小時(shí)，通常是目標(biāo)遮擋或丟失的情況，此時(shí)更新模板會(huì)造成污染，不進(jìn)行更新。具體操作如下：當(dāng)由式（7）得到融合響應(yīng)圖r時(shí)，首先使用式（8）計(jì)算最大響應(yīng)值Fmax：

然后使用式（9）計(jì)算APCE 值：

其中：Fmax、Fmin及Fw,h分別代表響應(yīng)圖r中最大響應(yīng)值、最小響應(yīng)值及第w行和第h列元素的響應(yīng)值。最后使用式（10）進(jìn)行判斷：

其中：mean(Fmax)和mean(AAPCE)代表前面幀的歷史Fmax和AAPCE值的均值；ξmax和ξAPCE代表兩個(gè)閾值。當(dāng)滿足式（10）時(shí)，使用式（11）更新第i幀的語(yǔ)義混合模板。這樣可以在很大程度上避免模型漂移現(xiàn)象，減少模型更新次數(shù)，提高運(yùn)行速度。

經(jīng)過(guò)實(shí)驗(yàn)可得：β=0.010 3，μ=0.005，ξmax和ξAPCE分別設(shè)置為0.8 和0.2。

3）在語(yǔ)義模板執(zhí)行更新的前提下，使用式（13）的方差梯度比值（Variance Gradient Ratio，VGR）方法對(duì)位置模板進(jìn)行判斷，決定是否更新。VGR 值可以及時(shí)反映目標(biāo)位移情況，當(dāng)目標(biāo)出現(xiàn)在搜索圖像周邊區(qū)域時(shí)，響應(yīng)圖r的峰值響應(yīng)也會(huì)出現(xiàn)在周邊區(qū)域。由于響應(yīng)圖存在余弦窗口，因此它對(duì)周邊響應(yīng)值進(jìn)行抑制，此時(shí)響應(yīng)圖峰值減小，響應(yīng)圖方差出現(xiàn)明顯變化。

首先使用式（12）計(jì)算響應(yīng)圖r的方差值：

然后使用式（13）進(jìn)行判斷：

其中：Vlast代表前一幀的方差；mean(V)代表歷史方差的均值。當(dāng)滿足式（13）時(shí)，使用式（14）更新第i幀的位置混合模板。這樣可以有效地反映目標(biāo)的位置變化，并及時(shí)做出更新。

經(jīng)過(guò)實(shí)驗(yàn)可得，α設(shè)置為0.011 3，ζ設(shè)置為0.4。在雙模板嵌套更新過(guò)程中，兩個(gè)不同大小的響應(yīng)圖經(jīng)過(guò)雙三次線性插值調(diào)整為接近搜索圖像x的大小后再進(jìn)行融合。

2.3 參數(shù)設(shè)置

SiamFC-22 網(wǎng)絡(luò)進(jìn)行離線訓(xùn)練時(shí)，無(wú)需進(jìn)行在線微調(diào)。在訓(xùn)練SiamFC-22 的過(guò)程中，網(wǎng)絡(luò)參數(shù)的初始值遵循高斯分布。使用權(quán)重衰減為0.000 1 的隨機(jī)梯度下降方法進(jìn)行網(wǎng)絡(luò)優(yōu)化。學(xué)習(xí)率設(shè)置為0.01，共訓(xùn)練50 個(gè)epoch。在每個(gè)epoch 之后，學(xué)習(xí)率以對(duì)數(shù)形式下降，直到最后一個(gè)時(shí)期達(dá)到0.000 01。動(dòng)量設(shè)置為0.9，batch size 設(shè)置為32。在雙模板嵌套更新過(guò)程中，由式（6）在訓(xùn)練階段得到雙模板融合權(quán)重ω1和ω2并用于跟蹤，ω1和ω2約分別為0.3 和0.7時(shí)，跟蹤算法可以獲得最佳性能。

3 實(shí)驗(yàn)與結(jié)果分析

實(shí)驗(yàn)軟件環(huán)境為安裝Pycharm 的Ubuntu 16.04，利用Pytorch 編程框架驗(yàn)證算法性能。所有實(shí)驗(yàn)均運(yùn)行在配置為Intel Core i5-8400 2.80 GHz CPU 和GeForce GTX 1080 GPU 顯卡的計(jì)算機(jī)上，算法執(zhí)行的平均運(yùn)行速度為34 frame/s。本文選用OTB2015［18］和VOT2016［19］數(shù)據(jù)集，在選定的數(shù)據(jù)集上進(jìn)行定性和定量分析實(shí)驗(yàn)。實(shí)驗(yàn)對(duì)比算法為DeepSRDCF［6］、SiamFC［9］、SiamRPN［10］、SiamDW［12］、SRDCF［20］、fDSST［21］、GradNet［22］、Staple［23］等具有代表性的跟蹤算法，并將SiamFC 和SiamDW 作為基準(zhǔn)算法。

3.1 OTB2015 基準(zhǔn)實(shí)驗(yàn)

3.1.1 OTB 定量實(shí)驗(yàn)

OTB 數(shù)據(jù)集中的OTB2015 包括100 個(gè)視頻序列，包含光照變化、快速運(yùn)動(dòng)、模糊、遮擋等11 個(gè)復(fù)雜場(chǎng)景。為定量地評(píng)估本文算法性能，采用OTB2015 視頻序列進(jìn)行比較。評(píng)價(jià)指標(biāo)主要為精確度和成功率兩個(gè)指標(biāo)，并通過(guò)精確度曲線圖和成功率曲線圖來(lái)顯示評(píng)價(jià)結(jié)果。精確度代表視頻中跟蹤成功幀數(shù)占總幀數(shù)的比率，使用跟蹤預(yù)測(cè)框和真實(shí)標(biāo)注框的中心位置的歐式距離判斷跟蹤是否成功，若中心位置誤差低于閾值，則表示跟蹤成功；成功率代表覆蓋率大于某個(gè)閾值的幀數(shù)和視頻幀總數(shù)的比率，覆蓋率是指跟蹤預(yù)測(cè)框和真實(shí)標(biāo)注框的交并比（Intersection over Union，IOU）。

圖5 給出了SiamFC-22 與對(duì)比算法在OTB2015數(shù)據(jù)集上的定量對(duì)比結(jié)果，其中圖示框方括號(hào)中的數(shù)據(jù)表示平均值。可以看出，本文算法的平均精確度和成功率分別為88.6%和66.0%，明顯優(yōu)于對(duì)比算法。與基準(zhǔn)算法SiamFC 和SiamDW 相比，SiamFC-22的平均精確度分別提升了14.4%和4.9%，平均成功率分別提升了13.4%和2.6%。這表明SiamFC-22 的雙模板嵌套更新機(jī)制是有效的。同時(shí)，本文算法在OTB2015 數(shù)據(jù)集上獲得了34 frame/s 的運(yùn)行速度，能夠?qū)崟r(shí)穩(wěn)定地跟蹤目標(biāo)。

圖5 8 種算法在OTB2015 數(shù)據(jù)集上的精確度和成功率對(duì)比Fig.5 Comparison of the accuracy and success rate of eight algorithms on OTB2015 dataset

為詳細(xì)分析SiamFC-22 的性能表現(xiàn)，在光照變化（Illumination Variation，IV）、尺度變化（Scale Variation，SV）、遮擋（Occlusion，OCC）、運(yùn)動(dòng)模糊（Motion Blur，MB）、快速移動(dòng)（Fast Motion，F(xiàn)M）、平面內(nèi)旋轉(zhuǎn)（In-Plane Rotation，IPR）、平面外旋轉(zhuǎn)（Outof-Plane Rotation，OPR）、相似背景（Background Clutters，BC）、低分辨率（Low Resolution，LR）、變形（Deformation，DEF）和離開(kāi)視野（Out-of-View，OV）場(chǎng)景下，將本文算法與對(duì)比算法進(jìn)行精確度比較，如圖6所示?？梢钥闯?，本文算法在IV、SV、MB、FM、IPR、OPR、BC、DEF 和OV 場(chǎng)景下的精確度均優(yōu)于對(duì)比算法，而在OCC 和LR 場(chǎng)景下排第2，并且本文算法的精確度在所有場(chǎng)景下均優(yōu)于基準(zhǔn)算法。

圖6 8 種算法在OTB2015 數(shù)據(jù)集上的精確度對(duì)比Fig.6 Comparison of the precision of eight algorithms on OTB2015 dataset

圖6 結(jié)果表明本文算法與對(duì)比算法相比，能更好地應(yīng)對(duì)目標(biāo)的語(yǔ)義變化和位置變化，具體分析如下：1）在快速移動(dòng)場(chǎng)景下，本文算法相比基準(zhǔn)算法平均精確度分別提高了11.7%和4.1%，這表明本文引入位置模板并根據(jù)語(yǔ)義模板嵌套更新，能夠?yàn)楦櫰餮a(bǔ)充目標(biāo)位置信息，提升快速移動(dòng)等場(chǎng)景下的跟蹤效果；2）遮擋、變形、運(yùn)動(dòng)模糊、內(nèi)外旋轉(zhuǎn)等場(chǎng)景會(huì)引起目標(biāo)語(yǔ)義的變化，此時(shí)本文算法的精確度仍然比基準(zhǔn)算法更高，這表明本文算法對(duì)語(yǔ)義模板的更新方法是有效的，能夠使跟蹤器獲得及時(shí)準(zhǔn)確的語(yǔ)義信息，并且更具魯棒性。

3.1.2 OTB 定性實(shí)驗(yàn)

為分析本文算法的性能，在OTB2015 數(shù)據(jù)集中選擇5 組視頻序列，將本文算法與基準(zhǔn)算法SiamFC和SiamDW 進(jìn)行比較。在圖7 中，跟蹤結(jié)果與紅色框重疊度越高，說(shuō)明跟蹤效果越好（彩色效果見(jiàn)《計(jì)算機(jī)工程》官網(wǎng)HTML 版）。視頻序列的跟蹤精確度對(duì)比結(jié)果如表2所示。

圖7 5 組視頻序列的跟蹤效果對(duì)比Fig.7 Comparison of the tracking effect of five groups of video sequences

表2 5 組視頻序列的跟蹤精確度對(duì)比Table 2 Comparison of the tracking precision of five groups of video sequences

下面結(jié)合圖7 和表2 做進(jìn)一步分析，具體如下：

1）尺度變化場(chǎng)景。在ClifBar 視頻序列中，紅色框的跟蹤框大小會(huì)發(fā)生變化。從第194幀和第216幀，隨著跟蹤框變大，SiamFC 和SiamDW 能定位目標(biāo)，但跟蹤精確度出現(xiàn)偏差。在第261 幀時(shí)，隨著跟蹤框由大變小，SiamFC 徹底跟丟目標(biāo)。SiamFC-22 始終能穩(wěn)定跟蹤。根據(jù)表2 可知，SiamFC-22 的精確度較SiamFC 和SiamDW 分別提升了0.519 和0.137 個(gè)百分點(diǎn)。由此可見(jiàn)，SiamFC-22 更能適應(yīng)尺度變化，相比SiamFC 和SiamDW 能及時(shí)調(diào)整跟蹤框大小。

2）遮擋場(chǎng)景。在Liquor 視頻序列中，紅色框中的酒瓶不停地與其他瓶子相互遮擋。從第1 181 幀到第1 184 幀，因?yàn)槎啻握趽跄繕?biāo)，SiamFC 和SiamFC-22 都發(fā)生跟蹤漂移，而SiamDW 徹底跟丟目標(biāo)。在第1 185 幀時(shí)，SiamFC-22 因?yàn)榧皶r(shí)更新模板，重新定位目標(biāo)。根據(jù)表2 可知，SiamFC-22 的精確度較SiamFC 和SiamDW 分別提升了0.145 和0.049 個(gè)百分點(diǎn)。由此可見(jiàn)，SiamFC-22 具有雙模板嵌套更新機(jī)制，相比SiamFC 和SiamDW 可以及時(shí)處理由遮擋引起的跟蹤漂移等問(wèn)題。

3）變形場(chǎng)景。在Jump 視頻序列中，紅色框中的人發(fā)生變形。從第16 幀到第73 幀，因?yàn)槟繕?biāo)不斷變形，SiamFC 和SiamDW 相繼跟丟，SiamFC-22 還能跟蹤目標(biāo)，但是跟蹤精確度無(wú)法保證。在第106 幀時(shí)，SiamFC-22 及時(shí)調(diào)整跟蹤框。根據(jù)表2 可知，SiamFC-22 的精確度較SiamFC 和SiamDW 分別提升了0.617 和0.345 個(gè)百分點(diǎn)。由此可見(jiàn)，SiamFC-22的語(yǔ)義模板具有高置信度的更新機(jī)制，可以及時(shí)更新目標(biāo)的語(yǔ)義信息，這使得其可以有效反映目標(biāo)外觀發(fā)生的變化。

4）快速移動(dòng)場(chǎng)景。在MotorRolling 視頻序列中，紅色框中的摩托車(chē)位置快速改變。從第29 幀到第37 幀，因?yàn)槟繕?biāo)快速運(yùn)動(dòng)，所以SiamFC 逐漸跟丟目標(biāo)。在第49 幀時(shí)，SiamDW 目標(biāo)跟蹤出現(xiàn)誤差。根據(jù)表2 可知，SiamFC-22 的精確度較SiamFC 和SiamDW 分別提升了0.309 和0.042 個(gè)百分點(diǎn)。由此可見(jiàn)，SiamFC-22 的位置分支響應(yīng)使用淺層特征，包含大量位置信息，并通過(guò)位置模板更新補(bǔ)充信息，這使得SiamFC-22 適用于快速移動(dòng)的場(chǎng)景。

5）相似背景場(chǎng)景。在Football 視頻序列中，紅色框中的人頭移動(dòng)時(shí)不斷出現(xiàn)相似的人頭。在第100 幀時(shí)能穩(wěn)定跟蹤目標(biāo)，在第111 幀和第137 幀時(shí)因?yàn)橄嗨颇繕?biāo)干擾，所以SiamFC 和SiamDW 跟丟目標(biāo)。由表2 可以看出，SiamFC-22 的精確度較SiamFC和SiamDW 分別提升了0.591 和0.542 個(gè)百分點(diǎn)。SiamFC-22 相比SiamFC 和SiamDW 能更準(zhǔn)確地區(qū)分相似背景，抑制相似背景的高響應(yīng)值。

3.2 VOT2016 基準(zhǔn)實(shí)驗(yàn)

在目標(biāo)跟蹤VOT 數(shù)據(jù)集中，本文選用VOT2016［19］數(shù)據(jù)集進(jìn)行算法性能評(píng)估實(shí)驗(yàn)，采用平均重疊期望（Expected Average Overlap，EAO）、準(zhǔn)確率和魯棒性分?jǐn)?shù)（R）作為主要評(píng)測(cè)指標(biāo)，其中魯棒性分?jǐn)?shù)表示跟蹤失敗的幀數(shù)除以跟蹤重復(fù)的次數(shù)，魯棒性分?jǐn)?shù)越低，跟蹤越穩(wěn)定。準(zhǔn)確率和平均重疊期望分?jǐn)?shù)越高，魯棒性分?jǐn)?shù)越低，跟蹤性能越好。實(shí)驗(yàn)對(duì)比算法為DeepSRDCF6］、SiamFC［9］、SiamRPN［10］、SiamDW［12］、SRDCF［20］、和Staple［23］。

由表3 可知，SiamFC-22 的平均重疊期望、準(zhǔn)確率以及魯棒性分?jǐn)?shù)僅低于SiamRPN。在圖8 中，SiamFC-22 將基準(zhǔn)算法SiamFC 和SiamDW 的EAO分別提升了30.0%和6.8%。同時(shí)，運(yùn)行速度為32 frame/s，滿足實(shí)時(shí)性要求。因此，SiamFC-22 在VOT2016 數(shù)據(jù)集上的性能表現(xiàn)優(yōu)于基準(zhǔn)算法SiamFC 和SiamDW，僅次于SiamRPN。

表3 VOT2016 跟蹤結(jié)果Table 3 VOT2016 tracking results

圖8 VOT 2016 數(shù)據(jù)集EAO 結(jié)果Fig.8 EAO results of VOT 2016 dataset

4 結(jié)束語(yǔ)

為提高SiamFC 在快速移動(dòng)、遮擋等復(fù)雜場(chǎng)景下的跟蹤能力，本文提出一種基于多響應(yīng)圖融合與雙模板嵌套更新的跟蹤算法。將骨干網(wǎng)絡(luò)替換為特征提取能力更高的ResNet-22 網(wǎng)絡(luò)，增強(qiáng)跟蹤算法的特征提取能力。使用淺層特征計(jì)算位置分支響應(yīng)，利用骨干特征計(jì)算語(yǔ)義分支響應(yīng)，并對(duì)兩個(gè)分支進(jìn)行融合，提高跟蹤算法的識(shí)別和定位能力。通過(guò)高置信度的雙模板嵌套更新機(jī)制，兼顧兩個(gè)模板不同的更新速率需求和更新置信度，適應(yīng)目標(biāo)的外觀變化和位置變化。在OTB2015和VOT2016 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，本文算法有效提升了目標(biāo)跟蹤效果。后續(xù)將使用動(dòng)態(tài)參數(shù)改進(jìn)位置分支與語(yǔ)義分支模板的融合方式，并引入注意力機(jī)制進(jìn)一步提高網(wǎng)絡(luò)跟蹤性能。