亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于顯著性區(qū)域加權(quán)的相關(guān)濾波目標(biāo)跟蹤

2021-03-25 12:23:16朱均安曹景太

光學(xué)精密工程 2021年2期

朱均安，陳濤，曹景太

（1.中國科學(xué)院長春光學(xué)精密機械與物理研究所，吉林長春130033；2.中國科學(xué)院大學(xué)，北京100049）

1 引言

視覺目標(biāo)跟蹤是計算機視覺中的一個重要的研究問題，是高層語義分析的基礎(chǔ)，例如場景理解、行為理解等。視覺目標(biāo)跟蹤要解決的問題可以表述為：在視頻序列中，給出第一幀中目標(biāo)的位置及大小（通常是一個矩形邊界框），需要在后續(xù)幀中預(yù)測出目標(biāo)的位置及大小。視覺目標(biāo)跟蹤中存在許多挑戰(zhàn)［1-2］，包括光照變化、遮擋、旋轉(zhuǎn)、形變等。研究人員提出了許多跟蹤算法來解決這些問題，主要分為生成模型［3］和判別模型［4-8］兩類。基于生成模型的目標(biāo)跟蹤算法，采用歷史幀的結(jié)果來生成用于描述目標(biāo)特征的統(tǒng)計模型，能夠有效處理跟蹤過程中目標(biāo)丟失的情況，但是基于生成模型的方法忽略了目標(biāo)周圍的背景信息，在面對背景混亂時容易丟失目標(biāo)。與生成模型不同，判別模型主要是學(xué)習(xí)出一個決策邊界，利用這個決策邊界來區(qū)分目標(biāo)區(qū)域與背景區(qū)域。

近年來，基于判別模型的相關(guān)濾波跟蹤算法取得了良好的跟蹤性能。2010年，誤差最小平方和（Minimum Output Sum of Squared Error，MOSSE）［9］跟蹤算法首次將相關(guān)濾波器引入目標(biāo)跟蹤領(lǐng)域。通過最小化均方誤差，在后續(xù)幀中找到目標(biāo)的最佳位置。2012年，循環(huán)結(jié)構(gòu)的檢測跟蹤（Circulant Structure of Tracking-by-detection with Kernels，CSK）［10］算法提出了一種使用循環(huán)移位對數(shù)據(jù)進行密集采樣的方法，并通過快速傅立葉變換（Fast Fourier Transformation，F(xiàn)FT）快速訓(xùn)練出分類器。2014年，核相關(guān)濾波器（Kernelized Correlation Filter，KCF）［11］跟蹤算法對CSK進行了擴展，由單通道特征拓展到多通道特征，并引入核方法提高了基于相關(guān)濾波的目標(biāo)跟蹤算法的精度。為了更好地應(yīng)對尺度變化，區(qū)分尺度空間跟蹤算法（Discriminative Scale Space Tracking，DSST）［12］和多特征的尺度自適應(yīng)跟蹤算法（Scale Adaptive with Multiple Features tracker，SAMF）［13］分別提出了不同的解決方案。DSST將目標(biāo)跟蹤看成目標(biāo)中心平移和目標(biāo)尺度變化兩個獨立的問題，通過添加尺度濾波器來更好地應(yīng)對尺度變化。SAMF則對候選區(qū)域的目標(biāo)采用固定的七個尺度，同時檢測目標(biāo)平移變化和尺度變化，快速確定目標(biāo)的位置和尺度。2015年，為了抑制邊界效應(yīng)并擴大搜索范圍，空間正則化的判別相關(guān)濾波器（Spatially Regularized Discriminative Correlation Filter，SRDCF）［14］跟蹤算法采用了更大的檢測區(qū)域，同時加入空域正則化。2016年，連續(xù)卷積算子跟蹤算法（Continuous Convolution Operator Tracker，C-COT）［15］在連續(xù)域中應(yīng)用多分辨率特征，并在VOT2016競賽上實現(xiàn)了較好的跟蹤性能。模板與像素互補學(xué)習(xí)（Sum of Template and Pixelwise Learners，Staple）［16］跟蹤算法采用梯度方向直方圖（Histogram of Oriented Gradients，HOG）特征［17］和顏色直方圖來建立目標(biāo)的外觀模型，這兩種特征具有一定的互補性，通過分別求解他們的響應(yīng)圖，然后對響應(yīng)圖進行加權(quán)融合獲得了較好的跟蹤效果。2017年，在C-COT跟蹤算法的基礎(chǔ)上，高效卷積算子跟蹤算法（Efficient Convolution Operators for Tracking，ECO）［18］將手工設(shè)計的特征和卷積特征相結(jié)合，使用因式分解的卷積來減少特征的維數(shù)，并壓縮學(xué)習(xí)模型中的訓(xùn)練樣本以提高跟蹤速度和魯棒性。

基于判別模型的相關(guān)濾波跟蹤算法雖然在精度和速度上取得了較好的效果，但是這些算法目標(biāo)位置的定位精度依然有待提升。為了解決這個問題，本文在ECO的基礎(chǔ)上提出了基于顯著性區(qū)域加權(quán)的相關(guān)濾波目標(biāo)跟蹤算法，首先使用改進的殘差網(wǎng)絡(luò)（SE-ResNet）［19］來提取多分辨率特征，可以充分利用淺層和深層特征的不同特性。然后，提出了一種顯著性區(qū)域加權(quán)策略，通過對相關(guān)濾波器的響應(yīng)進行重新加權(quán)來提高定位精度。最后，在視覺目標(biāo)跟蹤（Visual Object Tracking，VOT）［1-2］競賽上進行評估，實驗結(jié)果表明本文算法取得了較好的效果，具有良好的跟蹤性能。

2 基于相關(guān)濾波的目標(biāo)跟蹤

相關(guān)性是用來描述兩個信號的聯(lián)系，分為互相關(guān)和自相關(guān)，在基于相關(guān)濾波的目標(biāo)跟蹤中，相關(guān)指的是互相關(guān)。

假設(shè)有兩個信號f和g，當(dāng)他們分別為連續(xù)信號和離散信號時的相關(guān)性計算方法如下：

其中：?代表卷積運算，f*表示f的共軛?；ハ嚓P(guān)就是衡量兩個信號在某個時刻τ時的相似程度。因此，將相關(guān)濾波應(yīng)用到目標(biāo)跟蹤領(lǐng)域最基本的思想就是：設(shè)計一個濾波模板，使得該模板與跟蹤目標(biāo)的感興趣區(qū)域（Region of Interest，ROI）做相關(guān)運算，得到最大的輸出響應(yīng)。該思想用數(shù)學(xué)語言可以描述為：

其中：g表示相關(guān)濾波的輸出響應(yīng)，f表示輸入原始圖片的特征，h表示濾波模板。在相關(guān)濾波的跟蹤框架中，只需要不斷地修正濾波模板，得到最大的輸出響應(yīng)即可。

由于卷積運算的計算量較大，采用快速傅里葉變換FFT的性質(zhì)將空間域的卷積運算轉(zhuǎn)化為頻率域的乘法運算，可以極大地提高運算速度。公式（3）可以轉(zhuǎn)化為：

其中：⊙表示逐元素相乘，F(xiàn)表示FFT變換，采用對應(yīng)字母的大寫表示其FFT變換后的結(jié)果，公式（4）可以簡化為：

因此，相關(guān)濾波器可以采用如式（6）求出：

3 本文算法

3.1 算法總體結(jié)構(gòu)

本文提出的跟蹤算法的整體結(jié)構(gòu)如圖1所示，該算法由兩部分構(gòu)成，即相關(guān)濾波響應(yīng)的計算和顯著性圖的計算。對于相關(guān)濾波的響應(yīng)圖的計算，本文算法在ECO的跟蹤框架基礎(chǔ)上，采用SE-ResNet-50來提取多分辨率特征，Rc是求出的相關(guān)濾波的響應(yīng)；對于顯著性圖的計算，采用背景對象模型［20］來獲取目標(biāo)的顯著性圖，Rs是求出的顯著性圖。最后，將相關(guān)濾波的響應(yīng)圖與顯著性圖的響應(yīng)相乘，即可得到最終的響應(yīng)圖，最終的響應(yīng)圖Rfinal可以通過如式（7）計算出：

把響應(yīng)圖Rfinal取得最大值時的位置映射到原圖中就可以求得在后續(xù)幀中目標(biāo)的位置。

圖1 本文算法的跟蹤框架Fig.1 Framework of proposed algorithm

3.2 分層卷積特征

近年來，手工設(shè)計的特征，如HOG特征和顏色名（Color Name，CN）［21］特征在目標(biāo)跟蹤領(lǐng)域取得了良好的效果，但手工設(shè)計的特征已經(jīng)成為了跟蹤精度提升的瓶頸。Yosinski等人［22］研究發(fā)現(xiàn)，在卷積神經(jīng)網(wǎng)絡(luò)中低層的部分學(xué)習(xí)的是一些顏色、紋理等簡單信息，而高層部分學(xué)習(xí)的是綜合的語義信息。卷積神經(jīng)網(wǎng)絡(luò)中的不同卷積層的特征圖的可視化的結(jié)果如圖2所示。卷積神經(jīng)網(wǎng)絡(luò)特征在圖像分類和目標(biāo)檢測領(lǐng)域都取得了較高的精度。因此，本文采用卷積神經(jīng)網(wǎng)絡(luò)來提取淺層和深層的特征，充分利用卷積神經(jīng)網(wǎng)絡(luò)不同層的特性。

圖2 卷積神經(jīng)網(wǎng)絡(luò)中的不同卷積層的特征圖的可視化［23］Fig.2 Visualization of deep feature maps from different convolutional layers of different CNN architectures

3.3 相關(guān)濾波的響應(yīng)圖的計算

為了進一步提升跟蹤算法的性能，在計算相關(guān)濾波的響應(yīng)圖時，采用了ECO的跟蹤框架，并使用了改進的殘差網(wǎng)絡(luò)SE-ResNet-50網(wǎng)絡(luò)來提取多分辨率特征，充分利用不同層的特征信息，并結(jié)合高層抽象的特征和低層基礎(chǔ)的圖像特征的特點。本文算法選擇Conv1x，Res3d和Res4f層作為多分辨率特征圖，輸出的特性在ReLU激活之前，提取的特征圖的大小為112×112，28×28和14×14。由于提取的特征的分辨率不同，采用C-COT中的隱式插值模型。每個樣本xj都包含D維的特征通道，從同一圖像塊中提取的D維通道的特征為表示特征通道x中空間采樣點的數(shù)目，d∈｛0，1，2，...｝。特征通道x∈RNd可以看作一個關(guān)于離散空間變量n∈｛0，...，Nd-1｝的函數(shù)x［n］。為了學(xué)習(xí)連續(xù)的卷積算子，特征圖被轉(zhuǎn)換到連續(xù)的空間域［0，T）∈R。其中常數(shù)T代表支持區(qū)域的大小。插值算子Jd被構(gòu)造為：

其中，bd∈L2（T），它表示插值函數(shù)。

式中a是固定系數(shù)。通過插值函數(shù)將不同分辨率的特征插值到相同尺寸，然后采用ECO中的因式分解的卷積來減小特征的維度，使用一組較小的基濾波器f1，f2，...，fC，在這里C＜D。然后使用一組學(xué)習(xí)的系數(shù)Pd，c將特征層d的濾波器構(gòu)造為一個線性組合的濾波器fC，系數(shù)Pd，c可以緊湊地表示為D×C的矩陣P=（Pd，c）。新的多通道濾波器可以寫成矩陣向量乘積Pf，因式分解的卷積算子可以表示為：

公式（10）的最后一步是卷積的線性組合，可以將因式分解卷積過程分為兩步操作，其中每個位置t的特征向量J｛x｝（t）首先與矩陣PT相乘，然后將生成的C維的特征圖與濾波器f進行卷積。因此，矩陣PT的作用類似于線性的降維算子。Rc即為相關(guān)濾波的響應(yīng)圖。

考慮從單個訓(xùn)練樣本x中學(xué)習(xí)因式分解的卷積算子公式（10），為了簡化表示，使用z^d[k]=Xd[k]b^d[k]表示插值特征圖z=J｛x｝的傅立葉系數(shù)。傅立葉域中的相應(yīng)的損失函數(shù)可推導(dǎo)為：

公式（11）相比于C-COT中的損失函數(shù)，添加了P的Frobenius范數(shù)作為正則化項，其約束效果由參數(shù)λ控制。損失函數(shù)公式（10）是一個非線性最小二乘問題，為了解決這個非線性最小二乘問題，首先采用了高斯-牛頓方法將上述非線性最小二乘問題轉(zhuǎn)化為線性最小二乘問題，然后再通過共軛梯度的方法來求解。

相關(guān)濾波的響應(yīng)圖的求解過程總結(jié)如下：

Step1：采用公式（8）對不同分辨率的特征圖進行雙三次插值操作，將不同分辨率的特征圖轉(zhuǎn)換到連續(xù)空間域；

Step2：通過采用公式（11）最小化損失函數(shù)，求出相關(guān)濾波器；

Step3：采用公式（10）進行因式分解的卷積求出相關(guān)濾波的響應(yīng)圖Rc。

3.4 顯著性區(qū)域提取

視覺顯著性（Visual Saliency）［24］是指人眼可以自動地從真實世界的場景中識別出感興趣區(qū)域，并對感興趣的區(qū)域進行處理而忽略掉不感興趣的區(qū)域。作為對人類視覺注意機制的模擬，顯著性檢測算法的目標(biāo)是將輸入圖像轉(zhuǎn)化為一幅顯著圖，顯著圖表現(xiàn)為將圖像中可能的感興趣區(qū)域進行高亮顯示，并抑制背景區(qū)域的顯示。通過在計算機視覺任務(wù)中引入視覺顯著性，可以為視覺信息處理任務(wù)帶來幫助和改善。通常，跟蹤任務(wù)中的目標(biāo)是運動中的前景物體，因此，在目標(biāo)跟蹤中采用視覺顯著性可以幫助快速定位目標(biāo)，提高定位的準(zhǔn)確率，顯著性檢測算法的計算結(jié)果對于目標(biāo)跟蹤任務(wù)具有重要的指導(dǎo)作用。

圖3 目標(biāo)區(qū)域和環(huán)繞區(qū)域Fig.3 Object region and surrounding region

本文采用背景對象模型來獲取目標(biāo)的顯著性圖。假設(shè)輸入圖像為I，為了從背景中分離出目標(biāo)像素x∈θ，采用基于顏色直方圖的貝葉斯分類。如圖3所示，給出一個目標(biāo)的矩形框區(qū)域O和它的環(huán)繞區(qū)域S。在x處的像素屬于目標(biāo)像素的概率為：

其中bx表示分配給輸入圖像I（x）的顏色分量，由于是從顏色直方圖直接估算，因此顏色分量屬于目標(biāo)區(qū)域和環(huán)繞區(qū)域的概率可以分別表示為：

HIΩ（b）表示在區(qū)域Ω∈I上計算的非標(biāo)準(zhǔn)化直方圖H的第b個計算區(qū)間，先驗概率可以近似為：

根據(jù)公式（15），公式（12）可以被簡化為：

分配給背景的像素值的最大熵為0.5，采用背景對象模型可以從背景像素中區(qū)分出目標(biāo)像素。通過搜索前一幀目標(biāo)位置的一個矩形區(qū)域Ot-1，當(dāng)前幀的顯著性圖Rs的計算公式如式（17）所示：

其中：sv（Ot，i）表示基于目標(biāo)模型的概率分數(shù)，sd（Ot，i）是基于到前一個目標(biāo)中心的歐式距離中心ct-1的距離分數(shù)，它們的計算公式如下：

在跟蹤階段，由于目標(biāo)的外觀是不斷變化的，所以需要不斷地更新目標(biāo)外觀模型，采用線性插值的方式來更新目標(biāo)外觀模型，公式如下：

其中η是學(xué)習(xí)率。

3.5 模型更新策略

在相關(guān)濾波響應(yīng)圖和顯著性圖的計算中都需要更新模型，并且采用了不同的更新策略。

在相關(guān)濾波響應(yīng)的計算過程中，本文采用了相關(guān)濾波的跟蹤框架，如果對每一幀都更新模型，由于圖像幀間樣本特征的差異較小，所以基于相關(guān)濾波方法的圖像幀間的損失函數(shù)變化也很小，每一幀都更新使得整個樣本集內(nèi)存在大量的冗余樣本信息，給目標(biāo)跟蹤算法帶來很大的計算負擔(dān)。為了解決上述逐幀更新模型的策略帶來的內(nèi)存與算力問題，采用與ECO相同的更新策略，使用稀疏的模型更新方法，直接設(shè)置每NS幀圖像進行一次模型更新。

在顯著性圖的計算中，本文采用背景對象模型來獲取目標(biāo)的顯著性圖，由于目標(biāo)的外觀是不斷變化的，需要不斷的更新目標(biāo)外觀模型。因此在顯著性圖的計算過程中，采用公式（20）在獲取每一幀的目標(biāo)后都更新目標(biāo)外觀模型。

3.6 目標(biāo)跟蹤過程

在目標(biāo)跟蹤過程中，給定第一幀的目標(biāo)位置，跟蹤算法在后續(xù)幀中根據(jù)前一幀中目標(biāo)的位置，在其周圍進行搜索，從而預(yù)測目標(biāo)在后續(xù)幀中最佳的位置和尺度。為了更好的應(yīng)對尺度變化，本文算法采用了與SAMF中相同的尺度策略，采用了七個尺度。本文算法的跟蹤過程可以作如下描述：

算法：基于顯著性區(qū)域加權(quán)的相關(guān)濾波目標(biāo)跟蹤算法輸入：圖像序列和第一幀圖像的目標(biāo)位置和尺寸大小輸出：圖像序列后續(xù)幀中的目標(biāo)位置和尺寸大小Begin if第一幀手動選定需跟蹤的目標(biāo)，提取目標(biāo)區(qū)域的多層卷積特征，最小化式損失函數(shù)得到初始濾波器f；else Step1：根據(jù)上一幀目標(biāo)的位置和尺寸大小裁剪出七個不同尺度的候選區(qū)域，并提取預(yù)測目標(biāo)區(qū)域的多層卷積特征；Step2：利用公式（10）計算相關(guān)濾波的響應(yīng)圖Rc；Step3：利用公式（17）計算顯著性圖Rs；Step3：利用公式（7）計算得到最終的響應(yīng)圖，得到的目標(biāo)位置和尺度；Step4：通過公式（11）更新濾波器f和公式（20）更新外觀模型；Step5：如果不是最后一幀，返回Step1。End

4 實驗結(jié)果與分析

4.1 實驗設(shè)置

始于2013年的VOT是一項目標(biāo)跟蹤算法的競賽，本文算法在VOT2016［1］和VOT2017［2］上進行評估，它們都包含60個手動標(biāo)記的圖像序列，但VOT2017用10個困難的視頻序列代替了VOT2016中10個簡單的視頻序列，并且重新標(biāo)記了一些視頻序列，使VOT2017比VOT2016更具挑戰(zhàn)性。VOT競賽中，跟蹤性能按三個主要指標(biāo)進行排序，即精度（Accuracy）、魯棒性（Robustness）和平均重疊期望（Expected Average Overlap，EAO），使用VOT競賽的評估工具包（VOT toolkit）來評估本文算法。

本文使用一臺搭載Intel i7-8700K CPU和GTX 1080 Ti顯卡的電腦對提出的跟蹤算法進行了評估，使用的軟件是MATLAB 2016a和它的工具包MatConvNet［25］（版本為MatConvNet-1.0-beta25），改進殘差網(wǎng)絡(luò)SE-ResNet-50模型可以公開下載（http：//www.robots.ox.ac.uk/～albanie/models/se-nets/SE-ResNet-50-mcn.mat）。實驗使用的參數(shù)如下：在相關(guān)濾波部分搜索區(qū)域范圍設(shè)置在200×200和250×250之間，尺度數(shù)量為7，尺度因子為1.03，固定更新頻率NS為5；在顯著性圖的計算中，學(xué)習(xí)率η設(shè)置為0.05。根據(jù)Mat-ConvNet的官方說明，不同版本的MatConvNet會影響運行結(jié)果，為了避免采用不同版本導(dǎo)致的結(jié)果差異，其他跟蹤算法的測試結(jié)果來自作者個人主頁或者VOT競賽的官方網(wǎng)站（https：//www.votchallenge.net/vot2016/results.html；https：//www.votchallenge.net/vot2017/results.html）。

4.2 消融實驗

為了驗證本文提出的顯著區(qū)域加權(quán)策略的有效性，在VOT2016和VOT2017上進行了消融實驗，將本文算法與沒有顯著區(qū)域加權(quán)策略的算法進行了比較。Ours_N代表沒有顯著區(qū)域加權(quán)策略，其他與本文算法相同。實驗結(jié)果如表1和表2所示，從這兩個表中可以看出，本文算法的EAO、準(zhǔn)確性和魯棒性方面都優(yōu)于沒有顯著區(qū)域加權(quán)策略的算法。實驗結(jié)果表明，顯著區(qū)域加權(quán)策略能夠有效地改善跟蹤性能。此外，與本文的基準(zhǔn)算法ECO相比，本文算法即使沒有顯著區(qū)域加權(quán)策略，在EAO的準(zhǔn)確性和魯棒性方面仍然比ECO好。實驗結(jié)果表明，利用改進的殘差網(wǎng)絡(luò)SE-ResNet-50網(wǎng)絡(luò)在相關(guān)濾波框架中提取多分辨率特征的策略是有效的，有助于提升跟蹤性能。

表1 VOT2016上的消融實驗結(jié)果對比Tab.1 Ablation study results on VOT2016

表2 VOT2017上的消融實驗結(jié)果對比Tab.2 Ablation study results on VOT2017

4.3 VOT2016實驗結(jié)果

本文算法與8種先進的跟蹤算法（包括ECO［17］，Staple［15］，DeepSRDCF［26］，SRDCF［13］，SiamFC［27］，KCF［10］，DSST［11］和SAMF［12］）在VOT2016上進行比較。實驗結(jié)果如表3所示，表中最好的三個結(jié)果分別用紅色、綠色和藍色表示（彩圖見期刊電子版）。從表中可以看出本文提出的算法的平均重疊期望、準(zhǔn)確性和魯棒性均優(yōu)于其他跟蹤算法，獲得了比其他算法更好的精度和魯棒性，具有良好的跟蹤性能。

表3 多種算法在VOT2016上的對比Tab.3 Comparison of trackers on VOT2016

VOT2016測試數(shù)據(jù)集上的精度-魯棒性圖和平均期望重疊率圖如圖4和圖5所示，精度-魯棒性圖中橫坐標(biāo)為指數(shù)化處理后的魯棒性值，縱坐標(biāo)為精度，算法在圖中的位置越靠近右上總體性能越好；平均期望重疊率圖中橫坐標(biāo)為算法排名，縱坐標(biāo)為平均期望重疊率，算法在圖中的位置越靠近右上總體性能越好。從圖4和圖5可以看出本文算法在圖中都處于右上的位置，這表示本文算法在9個跟蹤算法中總體跟蹤性能最好。

圖4 VOT2016測試數(shù)據(jù)集上的精度-魯棒性排名Fig.4 AR plot for experiment baseline on VOT2016

圖5 VOT2016測試數(shù)據(jù)集上的平均期望覆蓋率排名Fig.5 Expected overlap scores for baseline on VOT2016

4.4 VOT2017實驗結(jié)果

本文算法與7個先進的跟蹤算法（包括ECO［17］，CFNet［28］，DCFNet［29］，Staple［15］，SRDCF［13］，KCF［10］和DSST［11］）在VOT2017上進行了比較，實驗結(jié)果如表4所示，最好的三個結(jié)果分別用紅色、藍色和綠色標(biāo)注（彩圖見期刊電子版）。從表中可以看出，在8個跟蹤算法中，本文提出的跟蹤算法在EAO和魯棒性上都排名第一，精度略低于Staple排名第二。本文算法在VOT2017上也取得了較好的結(jié)果，具有良好的跟蹤性能。本文算法在VOT2017數(shù)據(jù)集上的精度-魯棒性圖和平均期望重疊率圖如圖6和圖7所示，本文算法在圖中都處于右上的位置，這代表本文算法的總體跟蹤性能較好。

表4 多種算法在VOT2017上的對比Tab.4 Comparison of trackers on VOT2017

圖6 VOT2017測試數(shù)據(jù)集上的精度-魯棒性排名Fig.6 AR plot for experiment baseline on VOT2017

圖7 VOT2017測試數(shù)據(jù)集上的平均期望覆蓋率排名Fig.7 Expected overlap scores for baseline on VOT2017

4.5 定性分析實驗

為了直觀地對比本文跟蹤算法的效果，從VOT數(shù)據(jù)集中選擇了5個有代表性的圖像序列（Bag，Bmx，Butterfly，F(xiàn)ish1和Matrix）進行定性分析實驗。這些圖像序列幾乎包含了跟蹤任務(wù)中所有的挑戰(zhàn)，不同跟蹤算法預(yù)測的目標(biāo)邊界框如圖8所示。為了更好地展示不同算法的結(jié)果，圖8只展示了本文提出的跟蹤算法和本文算法的基準(zhǔn)算法ECO的對比。如圖8所示，本文算法的跟蹤框與基準(zhǔn)算法ECO的跟蹤框相比位置更準(zhǔn)確，具有更好的跟蹤性能。甚至，在某些ECO丟失目標(biāo)的情況下，本文提出的算法依然可以很好的跟蹤目標(biāo)。

圖8 與基準(zhǔn)算法ECO相比，在五個具有挑戰(zhàn)性的序列（從上到下：Bag，Bmx，Butterfly，F(xiàn)ish1和Matrix）上對所提出算法的定性評估Fig.8 Qualitative evaluation of the proposed algorithm compared with ECO on five challenging sequences（from top to bottom：Bag，Bmx，Butterfly，F(xiàn)ish1，and Matrix）

4.6 運行速度對比實驗

運行速度是目標(biāo)跟蹤算法評價的重要指標(biāo)，本文算法在Intel i7-8700K CPU和GTX 1080 Ti顯卡的電腦上的運行速度為平均8幀速率（Frames Per Second，F(xiàn)PS），與另外三種跟蹤算法的運行速度對比如表5所示。從表中可以看出本文算法的運行速度與采用卷積特征的跟蹤算法ECO和DeepSRDCF相比相差不大，但是與采用手工設(shè)計特征的Staple跟蹤算法相比運行速度有一定差距，這是由于本文算法采用改進的殘差網(wǎng)絡(luò)SE-ResNet-50來提取多分辨率特征，在這個特征提取的過程中計算量較大，導(dǎo)致在跟蹤過程中即使采用GPU進行加速仍然不能實時運行。

表5 與3個跟蹤算法的速度對比Tab.5 Speed comparisons with three trackers

5 結(jié) 論

本文在ECO的跟蹤框架的基礎(chǔ)上，提出了基于顯著區(qū)域加權(quán)的相關(guān)濾波目標(biāo)跟蹤算法。首先采用SE-ResNet-50來提取多分辨率特征，增強特征表達；然后采用顯著性圖來對相關(guān)濾波的響應(yīng)圖進行加權(quán)，提高定位精度。最后，在VOT數(shù)據(jù)集上進行了實驗，VOT2016和VOT2017的EAO得分達到了0.415 7和0.341 2，實驗表明采用特征表達更強的卷積神經(jīng)網(wǎng)絡(luò)來提取特征對跟蹤算法的精度有較大提升。而且，采用視覺顯著性來加權(quán)相關(guān)濾波的響應(yīng)圖也可以有效地改善跟蹤精度。