亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

改進(jìn)的Siamese自適應(yīng)網(wǎng)絡(luò)和多特征融合跟蹤算法

2022-11-15 16:17:46連繼榮

計(jì)算機(jī)與生活 2022年11期

關(guān)鍵詞：特征

李睿，連繼榮

蘭州理工大學(xué) 計(jì)算機(jī)與通信學(xué)院，蘭州730050

目標(biāo)跟蹤是計(jì)算機(jī)視覺中一項(xiàng)基本但具有挑戰(zhàn)性的任務(wù)[1-2]。給定視頻序列初始幀中的目標(biāo)狀態(tài)，跟蹤器需要預(yù)測每個(gè)后續(xù)幀中目標(biāo)的位置和大小。盡管近年來取得了很大進(jìn)展，但由于遮擋、尺度變化、背景雜波、快速運(yùn)動、光照變化和形變等因素的影響[3]，視覺跟蹤仍然面臨巨大挑戰(zhàn)。

在現(xiàn)實(shí)生活中，目標(biāo)的大小和寬高比例隨著目標(biāo)的移動、攝像機(jī)的移動和目標(biāo)外觀的變化而變化。在目標(biāo)跟蹤任務(wù)中能夠快速、準(zhǔn)確地確定目標(biāo)的位置和大小是視覺跟蹤領(lǐng)域一個(gè)難以解決的問題。近幾年視覺跟蹤方法都是基于Siamese 網(wǎng)絡(luò)的架構(gòu)來實(shí)現(xiàn)[4-7]。許多研究者對此提出了大量改進(jìn)方法以實(shí)現(xiàn)準(zhǔn)確的目標(biāo)跟蹤。

Siamese網(wǎng)絡(luò)將目標(biāo)跟蹤看作目標(biāo)匹配問題來處理，核心思想是學(xué)習(xí)目標(biāo)模板和搜索區(qū)域的相似圖，一個(gè)常見的策略是在搜索區(qū)域的多個(gè)尺度上進(jìn)行匹配，以確定目標(biāo)尺度的變化，這就是這些跟蹤器耗費(fèi)時(shí)間、耗費(fèi)空間的原因。其中文獻(xiàn)[5]引入?yún)^(qū)域建議網(wǎng)絡(luò)以獲取更加準(zhǔn)確的目標(biāo)邊界框，通過聯(lián)合一個(gè)分類分支和一個(gè)回歸分支進(jìn)行視覺跟蹤，避免了由于目標(biāo)尺度不變性而費(fèi)時(shí)提取多特征的步驟，在許多基準(zhǔn)上取得了較好的結(jié)果。但是為了處理不同的尺度大小和高寬比，他們基于啟發(fā)式知識設(shè)計(jì)錨框，如此做將會引入大量的超參數(shù)以及計(jì)算復(fù)雜度很高。DaSiam[7]和SiamRPN++[8]針對以上問題對Siam-RPN 進(jìn)行了改進(jìn)。然而，由于為區(qū)域建議引入了錨點(diǎn)，這些跟蹤器對錨盒的數(shù)量、大小和長寬比都很敏感，超參數(shù)調(diào)優(yōu)技術(shù)對于成功地使用這些跟蹤器進(jìn)行跟蹤至關(guān)重要[9]。

本文按照Siamese 網(wǎng)絡(luò)的特點(diǎn),將跟蹤問題分解為兩個(gè)子問題：一個(gè)分類問題和一個(gè)回歸問題。其中分類任務(wù)是將每個(gè)位置預(yù)測為一個(gè)標(biāo)簽，而回歸任務(wù)將每個(gè)位置回歸為一個(gè)相對的邊界框。通過這種分解，可以將跟蹤任務(wù)進(jìn)行按模塊求解，設(shè)計(jì)一個(gè)簡單有效的Siamese自適應(yīng)網(wǎng)絡(luò)用于特征提取，同時(shí)進(jìn)一步進(jìn)行分類和回歸，以端到端的方式同時(shí)進(jìn)行學(xué)習(xí)。

1 相關(guān)工作

近年來，隨著大數(shù)據(jù)、機(jī)器學(xué)習(xí)等的快速發(fā)展，憑借計(jì)算機(jī)強(qiáng)大的計(jì)算能力極大地推動人工智能快速發(fā)展。目標(biāo)跟蹤成為計(jì)算機(jī)視覺領(lǐng)域最活躍的研究主題之一[10-13]。深度學(xué)習(xí)算法相比傳統(tǒng)的相關(guān)濾波算法，在目標(biāo)跟蹤精確度和成功率方面得到巨大的改善和提高。本章主要回顧基于Siamese 網(wǎng)絡(luò)設(shè)計(jì)的一系列跟蹤器，因?yàn)榻鼛啄赀@些跟蹤器在性能方面遙遙領(lǐng)先。

目標(biāo)跟蹤領(lǐng)域的研究者主要從特征提取[14-15]、模板更新[16-17]、分類器設(shè)計(jì)[18]、邊界框回歸[19]等不同方面，致力于設(shè)計(jì)更快、更準(zhǔn)確的跟蹤器。早期的特征提取主要使用顏色特征、紋理特征或其他手工制作的特征[20]。得益于深度學(xué)習(xí)的發(fā)展，卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural network，CNN）的深度卷積特性被廣泛采用。模板更新可以提高模型的適應(yīng)性，但在線跟蹤效率很低。

此外，模板更新的跟蹤漂移問題還有待解決。相關(guān)濾波方法[14]的引入使得跟蹤的效率和準(zhǔn)確率都達(dá)到了前所未有的高度[21-22]。目前的研究表明，基于Siamese的在線訓(xùn)練和帶有深度神經(jīng)網(wǎng)絡(luò)的離線跟蹤方法在準(zhǔn)確率和效率之間取得了最好的平衡。

作為開創(chuàng)性的工作之一，SiamFC[6]構(gòu)建了一個(gè)完全卷積的Siamese 網(wǎng)絡(luò)用于特征提取。由于SiamFC的結(jié)構(gòu)簡單，跟蹤速度可以達(dá)到86 frame/s。受其成功的鼓舞，許多研究者認(rèn)可了這項(xiàng)工作并基于Siam-FC提出了一些改進(jìn)方法。

CFNet[23]在SiamFC 框架中引入相關(guān)濾波層，進(jìn)行在線跟蹤,提高精度。DSiam 學(xué)習(xí)了一個(gè)特征變換，用于解決目標(biāo)外觀變化以及背景干擾。通過動態(tài)的Siamese 網(wǎng)絡(luò)，在可接受的速度損失的情況下，提高了跟蹤精度[7]。SAsiam構(gòu)建了一個(gè)雙重Siamese網(wǎng)絡(luò)，包括語義分支和外觀分支，兩個(gè)分支分開訓(xùn)練以保證輸出特征的異質(zhì)性，提高跟蹤精度。為了解決目標(biāo)尺度變化問題，這些跟蹤器需要進(jìn)行多尺度搜索，這會造成大量的時(shí)間消耗和空間浪費(fèi)。

SiamRPN[5]通過聯(lián)合訓(xùn)練一個(gè)分類分支和一個(gè)回歸分支進(jìn)行區(qū)域建議，避免了由于目標(biāo)尺度不變性而費(fèi)時(shí)提取多尺度特征圖的步驟，取得了非常高效的結(jié)果。然而，它很難處理與物體外觀相似的干擾物。至今，已對SiamFC 做了很多修改和改進(jìn)，但是使用AlexNet[24]作為主干網(wǎng)絡(luò)，跟蹤器的性能無法進(jìn)一步提高。針對這個(gè)問題，SiamRPN++通過使用ResNet[25]作為主干網(wǎng)絡(luò)，優(yōu)化了網(wǎng)絡(luò)架構(gòu)。為了消除中心位置偏差，在訓(xùn)練期間隨機(jī)移動目標(biāo)在搜索圖像區(qū)域的位置。經(jīng)過以上改進(jìn)，可以使用非常深的網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)更高精度的目標(biāo)跟蹤。

本文的主要創(chuàng)新點(diǎn)：

（1）設(shè)計(jì)了一個(gè)Siamese 自適應(yīng)網(wǎng)絡(luò)，即在Siamese 網(wǎng)絡(luò)的每個(gè)分支同時(shí)構(gòu)建AlexNet 淺層網(wǎng)絡(luò)和改進(jìn)的ResNet深層網(wǎng)絡(luò)，用于特征提取。

（2）提出一種全新的跟蹤策略，對淺層特征和深層特征進(jìn)行自適應(yīng)選擇以及基于多特征融合進(jìn)行識別和定位，增強(qiáng)網(wǎng)絡(luò)判別力，提高目標(biāo)跟蹤精度。同時(shí)采用由局部到全局的搜索策略，減小計(jì)算復(fù)雜度，降低時(shí)間資源和空間資源的浪費(fèi)。

（3）經(jīng)實(shí)驗(yàn)比較，提出的算法能夠達(dá)到較好的效果，與一些跟蹤器比較，具有較好的性能改善。

2 研究方法

本章主要詳細(xì)介紹提出的網(wǎng)絡(luò)結(jié)構(gòu)和實(shí)現(xiàn)方法。首先分析視覺目標(biāo)跟蹤的特點(diǎn)，需要說明的是，本文方法對于目標(biāo)的快速運(yùn)動不穩(wěn)定，在此基礎(chǔ)上提出一個(gè)假設(shè)：在視頻序列中，物體在相鄰幀之間的位移不大。

事實(shí)上，這個(gè)假設(shè)對于大多數(shù)數(shù)據(jù)集來說是成立的。因?yàn)閷τ谝粋€(gè)視頻序列而言，相鄰幀之間的時(shí)間間隔極小，所以在極小的時(shí)間間隔里常規(guī)運(yùn)動導(dǎo)致的位移很小?；诖思僭O(shè)，本文提出一種全新的目標(biāo)跟蹤策略。

2.1 網(wǎng)絡(luò)結(jié)構(gòu)

隨著Siamese網(wǎng)絡(luò)的提出，研究學(xué)者將該網(wǎng)絡(luò)模型應(yīng)用于視覺跟蹤領(lǐng)域，得到很好的效果。首先是基于全卷積的Siamese網(wǎng)絡(luò)，只有簡單的幾層就能夠達(dá)到很好的效果。隨后研究學(xué)者對其進(jìn)行改進(jìn)，將AlexNet 加入Siamese 網(wǎng)絡(luò)中，得到一定的改善,但也遇到瓶頸。之后又將更深層次的ResNet替換淺層的AlexNet。

如圖1所示，SiamFC網(wǎng)絡(luò)結(jié)構(gòu)由兩個(gè)分支構(gòu)成：一個(gè)是目標(biāo)分支，輸入數(shù)據(jù)為模板圖像塊（z:127×127×3）；另一個(gè)是搜索分支，輸入數(shù)據(jù)為搜索圖像塊（x:255×255×3）。

圖1 SiamFC網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 SiamFC network structure

兩個(gè)分支的卷積神經(jīng)網(wǎng)絡(luò)共享參數(shù)，確保相同的變換應(yīng)用于不同的兩個(gè)圖像塊。分別輸出兩個(gè)特征圖φZ和φX，為了結(jié)合兩個(gè)分支的信息，對φZ和φX執(zhí)行互相關(guān)操作，得到響應(yīng)圖R，為了后續(xù)獲得目標(biāo)的位置信息和比例信息，需要R包含大量的特征信息。因此，響應(yīng)圖R為：

根據(jù)Siamese網(wǎng)絡(luò)的結(jié)構(gòu)特點(diǎn)，將目標(biāo)跟蹤問題分為兩個(gè)分支：分類分支、回歸分支。

如圖2 所示，本文在Siamese 網(wǎng)絡(luò)的每個(gè)分支同時(shí)構(gòu)建AlexNet 淺層網(wǎng)絡(luò)和ResNet 深層網(wǎng)絡(luò)。低層次特征如邊緣、角、顏色、形狀等代表較好的視覺屬性，是定位不可或缺的特征，而高層次特征對語義屬性具有較好的表征，對識別更為關(guān)鍵。

圖2 改進(jìn)的Siamese自適應(yīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Improved Siamese adaptive network structure

在Siamese自適應(yīng)網(wǎng)絡(luò)學(xué)習(xí)過程中，根據(jù)圖像幀背景的復(fù)雜程度，對網(wǎng)絡(luò)設(shè)置不同的權(quán)重。對于淺層的AlexNet網(wǎng)絡(luò)設(shè)置權(quán)重為α，對于深層的ResNet網(wǎng)絡(luò)設(shè)置權(quán)重為β。

當(dāng)正樣本數(shù)量大于負(fù)樣本數(shù)量時(shí)，賦予α較大值。當(dāng)圖像幀背景復(fù)雜，負(fù)樣本數(shù)量大于正樣本數(shù)量時(shí)，賦予β較大值。則選擇用于特征提取的神經(jīng)網(wǎng)絡(luò)為：

其中，CA表示選擇AlexNet網(wǎng)絡(luò)，Ck為該網(wǎng)絡(luò)得分。CR表示選擇ResNet網(wǎng)絡(luò)，Cl為該網(wǎng)絡(luò)得分。根據(jù)網(wǎng)絡(luò)得分可以得知該幀圖像背景復(fù)雜程度，進(jìn)而選擇兩個(gè)網(wǎng)絡(luò)得分較大值用于該圖像幀特征提取的網(wǎng)絡(luò)。

在本文算法中，為了適應(yīng)提出的網(wǎng)絡(luò)結(jié)構(gòu)，需要對ResNet-50 作為主干網(wǎng)絡(luò)并進(jìn)行修改。基本的殘差單元如圖3所示。

圖3 殘差單元結(jié)構(gòu)Fig.3 Residual unit structure

由圖3可以看出，X為上一層特征圖的輸出。跳轉(zhuǎn)連接，被稱為Identity Function。G(X)=F(X)+X為深層輸出。

原始的ResNet-50的總步長為32，與本文構(gòu)建的網(wǎng)絡(luò)結(jié)構(gòu)不匹配，因此將conv4 和conv5 的步長改為1，使得總步長減少為8。并且對每個(gè)塊添加步長為1的卷積層。將conv3-3、conv4-6、conv5-3 的特征圖輸出，用于計(jì)算分類和回歸。

改進(jìn)的殘差網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示，以conv5為例。

圖4 改進(jìn)的殘差單元結(jié)構(gòu)Fig.4 Improved residual unit structure

2.2 多特征融合

在神經(jīng)網(wǎng)絡(luò)中，一般淺層特征如邊緣、顏色、形狀等，包含更多的位置信息，是用于定位不可或缺的特征。而深層特征魯棒性好，包含更多的語義信息，對識別更為關(guān)鍵。

在本文算法中，提出兩個(gè)多特征融合的方法：其一，兩個(gè)分支含有完全相同的兩個(gè)網(wǎng)絡(luò)。對于不同的輸入，提取更加完善、多樣性的特征。最后對兩個(gè)分支得到的特征進(jìn)行相加融合。通過將淺層特征和深層特征共同使用，能夠更好地進(jìn)行識別。其二，對于不同的圖像幀，由于其背景復(fù)雜程度不同，對于簡單背景來說，淺層特征可以輕松識別、定位目標(biāo)。但是如果選擇使用深層特征則會造成大量的時(shí)間消耗，增加計(jì)算復(fù)雜度，降低目標(biāo)跟蹤速度。因此，進(jìn)行自適應(yīng)的特征選擇和多特征融合，根據(jù)圖像幀的復(fù)雜程度，自動選擇使用淺層特征、深層特征還是淺層、深層混合使用。

給定圖像Ij以及使用哪些特征進(jìn)行組合的決策P(·)，因此，每個(gè)特征上的響應(yīng)圖為：

其中，fj∈{Lj,Hj,Mj}，L、H、M分別表示為淺層特征、深層特征、混合特征。

對于改進(jìn)的ResNet網(wǎng)絡(luò)提取的深層特征進(jìn)行加權(quán)總和，最終融合得到的自適應(yīng)特征圖ψ為：

其中，αi、βi為每個(gè)圖對應(yīng)的權(quán)重，與網(wǎng)絡(luò)一起參與訓(xùn)練，⊕表示特征融合操作。進(jìn)一步為了確保網(wǎng)絡(luò)自主學(xué)習(xí)每個(gè)特征圖的重要性，運(yùn)用Softmax函數(shù)規(guī)范化權(quán)重，表示每個(gè)特征圖的重要性：

其中，wi和wj表示學(xué)習(xí)的權(quán)值，Ci表示第i層的特征。

通過以上方法，能夠得到更加精確、更加精細(xì)的特征，用于特定的圖像幀進(jìn)行魯棒、快速的識別和定位。

2.3 邊界框回歸

本文通過端到端的完全卷積來訓(xùn)練網(wǎng)絡(luò)，直接對每個(gè)目標(biāo)位置進(jìn)行分類和回歸，避免了人工干預(yù)和多余的參數(shù)調(diào)整。用交叉熵?fù)p失用于分類，用具有標(biāo)準(zhǔn)化坐標(biāo)的Smooth L1 損失用于回歸。對于跟蹤數(shù)據(jù)集來說，每個(gè)圖像幀都有已標(biāo)注的真實(shí)邊界框。因此，用Tw、Th、(x1,y1)、(x0,y0)、(x2,y2)分別表示真實(shí)邊界框的寬度、高度、左上角坐標(biāo)、中心點(diǎn)坐標(biāo)、右下角坐標(biāo)。則以(x0,y0)為中心，Tw/2、Th/2 為軸長，可以得到橢圓Q1：

同理，以(x0,y0)為中心，Tw/4、Th/4 為軸長，可以得到橢圓Q2：

此時(shí)，如果目標(biāo)位置(pi,pj)在橢圓Q2內(nèi)，則將其標(biāo)記為正。如果在橢圓Q1之外，則標(biāo)記為負(fù)。如果位于橢圓Q2和Q1之間，則忽略不計(jì)。然后將標(biāo)記為正的位置(pi,pj)用于邊界框回歸，回歸目標(biāo)可以公式化為：

其中，d1、d2、d3、d4分別表示目標(biāo)位置(pi,pj)到邊界框四條邊的距離。為此，定義多任務(wù)損失函數(shù)：

其中，Lc為交叉熵?fù)p失，Lr表示Smooth L1損失。在訓(xùn)練期間，根據(jù)多次實(shí)驗(yàn)設(shè)定λ1=1，λ2=2。

Smooth L1損失函數(shù)如式（12）所示：

3 實(shí)驗(yàn)與分析

3.1 數(shù)據(jù)集與評價(jià)指標(biāo)

本文實(shí)驗(yàn)使用的數(shù)據(jù)集為目標(biāo)跟蹤標(biāo)準(zhǔn)數(shù)據(jù)集VOT（visual object tracking）[26]和OTB（object tracking benchmark）[27]，視頻序列均經(jīng)過精心標(biāo)注，更具權(quán)威性。OTB數(shù)據(jù)集包括OTB50和OTB100。其中50和100 代表該數(shù)據(jù)集中視頻序列的數(shù)目。VOT 是官方競賽的數(shù)據(jù)集，有VOT2015、VOT2016 等，且每年均會更新。OTB 和VOT 數(shù)據(jù)集存在一定的差別，其中OTB 數(shù)據(jù)集含有25%的灰度圖像，VOT 中均為彩色圖像。

本文實(shí)驗(yàn)主要使用以下四種評價(jià)指標(biāo)對提出的算法進(jìn)行分析。

（1）中心位置誤差

中心位置誤差（center location error，CLE）是計(jì)算預(yù)測目標(biāo)位置中心點(diǎn)和真實(shí)目標(biāo)中心點(diǎn)之間的歐氏距離。假設(shè)真實(shí)目標(biāo)的中心位置坐標(biāo)為(xg,yg)，預(yù)測的目標(biāo)中心位置坐標(biāo)為(xp,yp)。因此，中心位置誤差計(jì)算如下：

一般來說，計(jì)算視頻序列中所有圖像幀的平均中心位置誤差，在一定程度上能夠近似看作目標(biāo)跟蹤準(zhǔn)確度。但是，跟蹤算法在某些圖像幀中難免會丟失目標(biāo)，造成跟蹤目標(biāo)中心位置的預(yù)測具有隨機(jī)性。因此，此時(shí)的平均中心位置誤差值難以評價(jià)跟蹤器的準(zhǔn)確性。為此，在中心位置誤差的基礎(chǔ)上，通常采用準(zhǔn)確率擬合曲線來反映跟蹤器的準(zhǔn)確度，統(tǒng)計(jì)不同閾值下，成功跟蹤目標(biāo)的中心位置誤差的比例，使用誤差閾值為20個(gè)像素點(diǎn)時(shí)所對應(yīng)的數(shù)值，作為跟蹤算法在各個(gè)測試視頻序列中的準(zhǔn)確率。

（2）精確度

精確性表示目標(biāo)跟蹤算法預(yù)測的目標(biāo)框與真實(shí)目標(biāo)框的重疊程度，數(shù)值越大，表示該算法的精確性更好，如式（14）所示。

其中，φt(i,k)表示經(jīng)過k次重復(fù)后，第t幀圖像的精確性，N表示重復(fù)的次數(shù)。則平均準(zhǔn)確率為：

其中，M表示有效跟蹤圖像幀的數(shù)量。

（3）成功率

成功率用預(yù)測框和真實(shí)框之間的交并比表示。通過重疊率（overlap ratio，OR）表示預(yù)測目標(biāo)區(qū)域和真實(shí)目標(biāo)區(qū)域的重疊比率，即兩個(gè)邊界框的交并比，如式（16）所示。

其中，OR表示區(qū)域重疊比率；R表示預(yù)測目標(biāo)區(qū)域；G表示真實(shí)目標(biāo)區(qū)域。

（4）速度

在目標(biāo)跟蹤領(lǐng)域，跟蹤速度通常指算法所用時(shí)間與視頻序列幀數(shù)的比值，即平均每秒跟蹤的視頻幀數(shù)，值越大表示跟蹤的速度越快。

3.2 實(shí)驗(yàn)

該方法基于PyTorch 框架在Python 中實(shí)現(xiàn)。實(shí)驗(yàn)設(shè)備硬件為一臺裝備NVIDIA Titan X 顯示處理核心并配備i7-7700k處理器的計(jì)算機(jī)。

構(gòu)建的網(wǎng)絡(luò)在ImageNet[28]上進(jìn)行了預(yù)訓(xùn)練，然后使用該參數(shù)作為初始化來重新訓(xùn)練本文構(gòu)建的網(wǎng)絡(luò)模型。在OTB-50 數(shù)據(jù)集上實(shí)現(xiàn)的一些具有代表性的跟蹤效果如圖5所示。

圖5 跟蹤效果比較Fig.5 Tracking performance comparison

由圖5 可以看出，在各種影響因素下，本文算法能夠穩(wěn)定地跟蹤目標(biāo)。

將提出的算法與現(xiàn)有的跟蹤器在標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行公平比較。用一次性通過評估（one-pass evaluation，OPE）繪制精度曲線圖和成功曲線圖。由圖6可以看出，本文方法比一些現(xiàn)有跟蹤器的效果好，能夠在一些影響因素下進(jìn)行魯棒跟蹤。

圖6 精度和成功率曲線圖Fig.6 Accuracy graph and success rate graph

在OTB數(shù)據(jù)集上對不同算法在形變、背景雜波、遮擋等影響因素下進(jìn)行測試，繪制精度圖和成功率圖，如圖7～圖9所示。

圖7 形變影響下的精度和成功率曲線圖Fig.7 Accuracy graph and success rate graph drawn under influence of deformation

圖8 背景雜波影響下的精度和成功率曲線圖Fig.8 Accuracy graph and success rate graph drawn under influence of background clutter

圖9 遮擋影響下的精度和成功率曲線圖Fig.9 Accuracy graph and success rate graph drawn under influence of occlusion

將本文算法與已有跟蹤器Struck（structured output tracking with kernels）[29]、LOT（locally orderless tracking）[30]、TLD[31]、CT（real-time compressive tracking）[32]、SMS（mean-shift blob tracking through scale space）[33]、MTT（robust visual tracking via multitask sparse learning）[34]、CSK（exploiting the circulant structure of tracking-by-detection with kernels）[35]在精確度、成功率、速度三項(xiàng)指標(biāo)在OTB 數(shù)據(jù)集上進(jìn)行詳細(xì)評估，如表1所示。為了公平評估，均使用各指標(biāo)的平均值。

表1 提出的算法與已有跟蹤器性能對比Table 1 Performance comparison between proposed algorithm and existing trackers

由表1 顯示，本文算法在保證速度的前提下，能夠?qū)崿F(xiàn)較好的跟蹤準(zhǔn)確性和成功率。且對光照變化、形變、背景雜波、遮擋等影響較魯棒。

3.3 消融研究

通過對提出的算法和已有的跟蹤器進(jìn)行實(shí)驗(yàn)比較，發(fā)現(xiàn)本文算法實(shí)現(xiàn)效果較好，提出的跟蹤方法可行性較高。為此，本節(jié)從網(wǎng)絡(luò)結(jié)構(gòu)、特征圖選擇、跟蹤方法等方面對提出的方法進(jìn)行內(nèi)部比較。用N表示網(wǎng)絡(luò)結(jié)構(gòu)，N1表示Siamese 網(wǎng)絡(luò)每個(gè)分支僅使用AlexNet網(wǎng)絡(luò)，N2表示每個(gè)分支同時(shí)使用AlexNet和ResNet，N3表示每個(gè)分支同時(shí)使用AlexNet 和改進(jìn)的ResNet；F表示用于識別提取到的特征，其中F1表示僅用淺層特征，F(xiàn)2表示僅用深層特征，F(xiàn)3表示本文提出的多特征融合；M表示跟蹤方法，M1表示全局搜索，M2表示本文提出的由局部到全局的搜索方法。實(shí)驗(yàn)結(jié)果如表2所示。

由表2數(shù)據(jù)可得，改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)和多特征融合的方法能夠極大提高目標(biāo)跟蹤的精確度和成功率，但是跟蹤速度會有所下降。提出的由局部到全局的搜索策略導(dǎo)致在準(zhǔn)確度和成功率上效果不明顯，但是在跟蹤速度上有明顯提升。

表2 算法內(nèi)部比較Table 2 Algorithm internal comparison

4 結(jié)束語

本文針對目標(biāo)跟蹤領(lǐng)域存在的跟蹤精度和跟蹤速度不平衡問題，以Siamese 網(wǎng)絡(luò)為基礎(chǔ)，構(gòu)建結(jié)合AlexNet網(wǎng)絡(luò)和改進(jìn)的ResNet網(wǎng)絡(luò)的Siamese自適應(yīng)網(wǎng)絡(luò)。通過對提取到的特征進(jìn)行多特征融合和自適應(yīng)選擇提高特征圖的高效性，提高網(wǎng)絡(luò)的識別和定位能力。進(jìn)一步，通過加入一種由局部到全局的搜索策略，極大地降低網(wǎng)絡(luò)計(jì)算復(fù)雜度，能夠節(jié)約時(shí)間資源和空間資源。在目標(biāo)跟蹤標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對比，結(jié)果表明，本文算法能夠?qū)崿F(xiàn)較好的效果，同時(shí)在形變、背景雜波、遮擋等影響因素下具有較強(qiáng)的魯棒性。下一步工作將對實(shí)現(xiàn)超高的跟蹤精確度進(jìn)行深入研究。