張 磊,單玉剛,袁 杰
1.新疆大學(xué) 電氣工程學(xué)院,烏魯木齊 830001
2.湖北文理學(xué)院 教育學(xué)院,湖北 襄陽 441053
目標(biāo)跟蹤是計算機視覺領(lǐng)域一個重要的研究方向,它在視頻監(jiān)控、人機交互等方面得到廣泛應(yīng)用[1]?,F(xiàn)在目標(biāo)跟蹤仍面臨很多挑戰(zhàn),當(dāng)跟蹤目標(biāo)的外觀變化和背景干擾等復(fù)雜情況發(fā)生時,易導(dǎo)致跟蹤失敗。因此,仍需深入研究準(zhǔn)確率和穩(wěn)健性更高的算法。
隨著深度學(xué)習(xí)的發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的目標(biāo)跟蹤方法引起了國內(nèi)外專家學(xué)者的關(guān)注?;贑NN的目標(biāo)跟蹤通常有三種方法。第一種方法是深度學(xué)習(xí)與相關(guān)濾波相結(jié)合,這種方法將CNN提取的特征與相關(guān)濾波框架結(jié)合,比如ECO[2]、CCOT[3]。第二種方法使用CNN的跟蹤框架,首先在離線狀態(tài)下對網(wǎng)絡(luò)進行預(yù)訓(xùn)練,在線運行時再進行調(diào)整,比如DLT[4]算法。第三種方法是使用孿生網(wǎng)絡(luò),比如SiamFC[5]、SiamRPN[6]、SiamMask[7]等。由于孿生網(wǎng)絡(luò)的子網(wǎng)共享權(quán)重,加快了訓(xùn)練和檢測速度,而且子網(wǎng)使用相同的模型處理輸入,適用于圖像匹配。因此,基于孿生網(wǎng)絡(luò)目標(biāo)跟蹤成為當(dāng)前目標(biāo)跟蹤領(lǐng)域研究熱點。SiamFC使用AlexNet作為骨干網(wǎng)的全卷積孿生網(wǎng)絡(luò)經(jīng)典算法,具有跟蹤精度高、速度快的特點。雙重孿生網(wǎng)絡(luò)SASiam[8],同時提取外觀特征和語義特征,可以更好地刻畫目標(biāo)特征。SiamRPN使用候選區(qū)域生成網(wǎng)絡(luò)(RPN)提升了尺度變化場景下跟蹤器的表現(xiàn)。SiamRPN++[9]引入通道互相關(guān)操作,為了保持網(wǎng)絡(luò)的平移不變性,使用空間感知采樣策略。SiamDW[10]提出一種由CIR殘差單元組成的深度網(wǎng)絡(luò),將SiamFC和SiamRPN的主網(wǎng)絡(luò)替換為更深層的網(wǎng)絡(luò),獲取到更豐富的特征信息。SiamMask實時進行目標(biāo)跟蹤和半監(jiān)督視頻對象分割。TransT[11]借鑒Transformer結(jié)構(gòu)改進傳統(tǒng)孿生網(wǎng)絡(luò)中的特征融合操作,利用Transformer中的注意力機制將模板信息融合到搜索區(qū)域中,以便更好地進行目標(biāo)定位和尺度回歸。
全卷積孿生網(wǎng)絡(luò)SiamFC存在兩個問題。第一,在快速移動的情況下,跟蹤器的定位能力不足,當(dāng)目標(biāo)劇烈運動時,容易造成圖像模糊,SiamFC網(wǎng)絡(luò)難以提取到目標(biāo)的有效特征,易導(dǎo)致跟蹤失敗。第二,作為它的骨干網(wǎng)絡(luò),改進的AlexNet[12]作為SiamFC的骨干網(wǎng)絡(luò),其深度較淺,僅使用深層特征,特征提取能力不強。
為解決這兩個問題,本文提出一種基于條件對抗網(wǎng)和層次特征融合的目標(biāo)跟蹤算法。針對當(dāng)目標(biāo)因跟蹤視頻序列分辨率較低時,SiamFC的表征能力下降的問題,本文算法嵌入條件對抗生成網(wǎng)絡(luò)模型(DeblurGANv2)[13],提高圖像的分辨率,以獲得更為有效的特征,增強算法在低分辨率情況下的跟蹤效果。針對SiamFC骨干網(wǎng)絡(luò)信息表達能力不強的問題。首先,將SiamFC骨干網(wǎng)絡(luò)AlexNet網(wǎng)絡(luò)替換為具有19個卷積層的改進型VGG-19[14]深度網(wǎng)絡(luò)。其次,在網(wǎng)絡(luò)的淺層,提取高分辨率特征,其包含有效的位置信息;再選取一個中層特征用于融合;然后,在網(wǎng)絡(luò)的高層,采集豐富的語義信息;最后,將三層特征信息進行加權(quán)融合,使跟蹤器可以獲得更為豐富的位置信息。
SiamFC包括權(quán)重共享的兩個輸入分支,模板分支和搜索分支。模板圖像和搜索圖像分別被裁剪后輸入網(wǎng)絡(luò),經(jīng)過一個全卷積無填充的AlexNet,提取圖像特征,通過互相關(guān)操作得到響應(yīng)得分圖。響應(yīng)得分圖通過匹配函數(shù)計算預(yù)測分?jǐn)?shù),函數(shù)表示如下:
式中,x是搜索圖像;z是模板圖像;f(z,x)是兩者的相似度得分;變換?(·)是卷積相關(guān)性計算;*表示互相關(guān)運算;b表示偏置項。
訓(xùn)練階段的損失函數(shù)定義為:
其中,D表示響應(yīng)圖共有多少個位置;y[]u是響應(yīng)圖在位置u的具體真實標(biāo)簽值,y[u]∈{+1,-1};v[u]表示響應(yīng)圖在位置u的預(yù)測值;l(·)表示損失函數(shù),定義為:
在SiamFC算法中為了最小化損失函數(shù),采用了隨機梯度下降法(SGD),以獲得最優(yōu)化模型參數(shù)θ。
本文在SiamFC算法的基礎(chǔ)上提出基于條件對抗網(wǎng)和層次特征融合的目標(biāo)跟蹤框架。首先,輸入圖像輸入基于條件對抗網(wǎng)實現(xiàn)去模糊化;然后,經(jīng)過多層卷積特征融合后,進行互相關(guān)操作后得響應(yīng)得分圖;取最大的得分位置,即是目標(biāo)位置。使用條件對抗網(wǎng)絡(luò)實現(xiàn)圖像去模糊化,提高了對目標(biāo)定位能力,和對小目標(biāo)的辨別能力;低層特征包含更多空間信息,有助于目標(biāo)定位,高層特征包含目標(biāo)更多語義信息,有助于適應(yīng)目標(biāo)形變,通過多特征融合提高了目標(biāo)表征能力。改進后的網(wǎng)絡(luò)將會提高在復(fù)雜環(huán)境下目標(biāo)跟蹤精度,增強了目標(biāo)跟蹤魯棒性。算法跟蹤框架如圖1所示。
圖1 本文算法跟蹤框架Fig.1 Framework of propsed method
近些年來,生成對抗網(wǎng)絡(luò)GAN[15]在圖像生成領(lǐng)域得到廣泛應(yīng)用。GAN由生成器和判別器兩部分組成。生成器采集數(shù)據(jù)并生成觀測數(shù)據(jù),判別器判別輸入數(shù)據(jù)是否是真實數(shù)據(jù)。由于GAN存在梯度發(fā)散問題,會產(chǎn)生噪聲,影響圖像重建。結(jié)合GAN和多元內(nèi)容損失來構(gòu)建用于模糊移除的條件對抗生成(DeblurGAN-v2)模型,相比于CGAN等圖像重建模型,DeblurGAN-v2模型對圖像去模糊的精確率更高[13]。本文采用DeblurGAN-v2模型對SiamFC進行改進,使得跟蹤網(wǎng)絡(luò)能夠通過條件對抗生成網(wǎng)絡(luò)模型對低分率視頻幀進行重建,提高圖像分辨率,從而提高跟蹤算法的精確度。
對模糊圖像進行重建的數(shù)學(xué)模型如下:
其中,IB是模糊圖像,k(M)是模糊核,Is是清晰圖像,*代表卷積運算,N是噪聲。本文對未知模糊核的計算采用卷積網(wǎng)絡(luò),模型基礎(chǔ)框架如圖2所示。網(wǎng)絡(luò)框架可以分為兩部分:生成器和判別器。當(dāng)輸入為模糊圖像時,生成器可以生成清晰圖像,然后將生成的圖像輸入判別器,判別器判斷生成圖像的“真假”。若圖像為真,輸出生成后的圖像;若圖像為假,重新輸入生成器對圖像進行重建。通過這種方式達到圖像去模糊的作用。
圖2 條件對抗生成網(wǎng)絡(luò)模型基礎(chǔ)框架Fig.2 Basic framework of network model generated by conditional confrontation
2.1.1 條件對抗網(wǎng)絡(luò)損失函數(shù)
傳統(tǒng)GAN的訓(xùn)練過程十分不穩(wěn)定,判別器D使用的是sigmoid函數(shù),并且由于sigmoid函數(shù)飽和得十分迅速,sigmoid函數(shù)本質(zhì)上不會懲罰遠(yuǎn)離決策邊界的樣本,尤其是在最小化目標(biāo)函數(shù)時可能發(fā)生梯度彌散,使其很難再去更新生成器。而使用最小二乘GAN(LSGAN)作為判別器的損失函數(shù)可以解決這個問題,該損失有助于消除梯度消失,可以獲得更加平滑且非飽和的梯度,LSGAN表達式為:
其中,D為判別器,G為生成器,x為真實數(shù)據(jù),z為歸一化噪聲,Pdata(x)為x服從的概率分布,Pz(z)為z服從的概率分布,Ex~Pdata(x)為期望值,Ez~Pz(z)同為期望值。
本文所用的條件對抗生成網(wǎng)絡(luò)模型損失函數(shù)RaGAN-LS在LSGAN基礎(chǔ)上改進而來,適配了相對判別器模型,它可以使得訓(xùn)練更快、更穩(wěn)定,同時生成的結(jié)果具有更高的感知質(zhì)量、更優(yōu)的銳度,該損失定義如下所示:
構(gòu)建的損失函數(shù)定義如下:
其中,LP表示mean-square-error(MSE),LX表示感知loss,表示內(nèi)容的損失,Ladv表示全局和局部的損失,全局表示整個圖片的損失,局部類比于PatchGAN,表示將整個圖片分塊為一個一個的70×70的局部圖片的損失。
2.1.2 生成器和判別器網(wǎng)絡(luò)結(jié)構(gòu)
為了更好地保證生成質(zhì)量,本文在生成器模型中使用feature pyramid network(FPN)結(jié)構(gòu)進行特征融合。架構(gòu)由一個FPN骨干網(wǎng)組成,從中獲取五個不同尺度的最終特征圖作為輸出。這些特征被上采樣到輸入大小的1/4并連接成一個張量,其包含不同級別的語義信息。在網(wǎng)絡(luò)的最后添加一個上采樣層和一個卷積層來恢復(fù)清晰圖像和去偽影。輸入圖像歸一化到[-1,1],在輸出部分添加tanh激活以確保生成圖像的動態(tài)范圍。FPN除具有多尺度特征匯聚功能外,它還在精度與效率之間取得均衡。本文在判別器模型中使用帶有最小開方損失(least-square loss)的相對判別器(relativistic discriminator),并且分別結(jié)合了全局(global(image))和局部(local(patch))2個尺度的判別loss。
在上述框架基礎(chǔ)下,骨干網(wǎng)絡(luò)的選擇直接影響最終的去模糊質(zhì)量與效率。為了追求更高質(zhì)量,本文選用Inception-Resnet-v2作為對抗網(wǎng)的骨干網(wǎng)絡(luò)。本文采用的條件對抗生成模型結(jié)構(gòu)如圖3所示。
圖3 條件對抗生成模型結(jié)構(gòu)Fig.3 Model structure of conditional confrontation generation
為了提升本文算法的特征提取能力,本文算法使用改進的VGG-19深度網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò)[16]。因為直接用VGG網(wǎng)絡(luò)替換AlexNet網(wǎng)絡(luò)時,引入的padding會形成位置bias[8],導(dǎo)致預(yù)測準(zhǔn)確度下降。針對padding帶來的干擾,對于Conv1、Conv2層,裁剪(crop1)其特征圖最外圍兩層,對于Conv3、Conv4、Conv5、Conv6層,裁剪其特征圖最外圍一層(crop2),可以有效消除padding給特征圖邊緣帶來的影響。在這里使用了一種快速、高效的池化方法Softpool[17]來替換常用的最大池化層(maxpool),Softpool以指數(shù)加權(quán)方法累加激活,與一系列其他池化方法相比,Softpool在下采樣激活映射中保留了更多的信息,可以獲得更好的圖像特征。綜合以上討論,本文網(wǎng)絡(luò)參數(shù)如表1所示。
表1 骨干網(wǎng)絡(luò)參數(shù)Table 1 Backbone network parameters
孿生網(wǎng)絡(luò)高層卷積特征具有更加豐富的語義信息,可以更好地區(qū)分不同對象;低層特征如邊緣、顏色、形狀等,包含更多的位置信息,可以幫助精確定位目標(biāo)位置。對多層次卷積特征進行融合有助于提高算法的跟蹤精度[18-19]。本文提取Conv2、Conv4、Conv6三層特征。
對提取到的不同層特征,高層分辨率較小,可以采用雙線性插值的方法,將其特征圖進行擴大,使各層的特征圖具有相同的尺寸,實現(xiàn)融合。雙線性插值可以描述為:
其中,P"i表示第i幀的多層特征融合后的得分圖;wij表示第i幀第j層特征權(quán)重;Pij表示第i幀第j層響應(yīng)得分圖;j為需要融合的特征層序號,并且j=2,4,6。
層次特征融合的具體過程如下:
(1)將視頻序列中第一幀圖像輸入模板分支。在Conv2層提取首幀位置特征,在Conv4層提取首幀中層特征,在Conv6層提取首幀語義特征
(2)在視頻序列的后續(xù)幀i∈{1,2,…,N},將其輸入搜索分支。在Conv2層提取位置特征;Conv4層提取中層特征,在Conv6層提取語義特征
(3)第i幀低層特征混合模板為,中層特征混合模板為,高層特征混合模板為使用自適應(yīng)模板更新公式,確定
(4)將得到的混合模板作為響應(yīng)模板,分別計算響應(yīng)R1、R2、R3,對三個響應(yīng)使用自適應(yīng)權(quán)重進行融合。
(5)融合后的響應(yīng)圖中響應(yīng)值最高的位置為預(yù)測目標(biāo)位置。
為了驗證本文算法有效性,使用OTB2015[20]和VOT2018[21]數(shù)據(jù)集作為驗證集,與多個經(jīng)典跟蹤算法進行對比,基于各種實驗分析,可以看出本文算法具有優(yōu)秀的表現(xiàn)。
本文算法使用Python語言在Pytorch框架下進行實驗。實驗環(huán)境如表2所示。
表2 實驗環(huán)境Table 2 Experimental environment
訓(xùn)練階段,對于條件對抗生成網(wǎng)絡(luò)模型的訓(xùn)練,采用GoPro數(shù)據(jù)集,它包含2 013對模糊圖像和清晰圖像,全卷積孿生網(wǎng)絡(luò)跟蹤器的訓(xùn)練數(shù)據(jù)集選擇GOT-10k和ILSVRC2015-VID兩大公開標(biāo)準(zhǔn)數(shù)據(jù)集。GOT-10k數(shù)據(jù)集包含10 000個真實運動對象的視頻片段和超過150萬個手動標(biāo)記的邊界框。ILSVRC2015-VID包含了30多種目標(biāo),擁有超過4 000個視頻,標(biāo)注的幀數(shù)超過100萬個。
3.3.1 OTB2015定量分析
OTB2015擁有100個人工標(biāo)注的視頻序列,包含有11種屬性,代表了當(dāng)前目標(biāo)跟蹤領(lǐng)域的常見難點。將本文算法與CFNet[22]、SiamDW、SiamRPN、SRDCF[23]、DeepSRDCF[24]、fDSST[25]、Staple[26]以及SiamFC具有代表性的跟蹤器進行比較。
如圖4所示,是本文算法與對比算法在OTB2015數(shù)據(jù)上的定量對比結(jié)果。本文算法的精確度達到85.6%,成功率達到63.7%,都優(yōu)于其他對比算法。與基準(zhǔn)算法SiamFC相比,本文算法明顯取得了很好的表現(xiàn),精確度較之提升了8.5個百分點,成功率較之提升了5.5個百分點。
圖4 不同算法在OTB2015數(shù)據(jù)集上的精確率與成功率對比圖Fig.4 Comparison of accuracy and success rates of different algorithms on OTB2015 datasets
對于OTB2015數(shù)據(jù)集中各類難點屬性的結(jié)果如圖5所示,特別是對物體的低分辨率(low resolution)、快速運動(fast motion)、運動模糊(motion blur)等有很好的表現(xiàn),在精確率方面分別取得了0.933、0.832、0.849,進一步證明了條件對抗生成網(wǎng)絡(luò)模型和多層特征融合在目標(biāo)跟蹤上的有效性。
圖5 不同算法在11類挑戰(zhàn)下精確率的對比圖Fig.5 Comparison of accuracy rates of different alogorithms under 11 types of challenges
3.3.2 OTB2015定性分析
為了對比本文算法與其他優(yōu)秀算法的差異,選擇了OTB2015的測試結(jié)果進行定性分析。測試結(jié)果如圖6所示,由上到下分別為Skating1、Coke、MotorRolling、Skiing、CarScale、Football視頻序列,六個視頻序列包含了光照變化、遮擋、運動模糊、低分辨率、尺度變化、相似背景干擾等六種挑戰(zhàn)場景。紅色為本文算法,綠色、藍(lán)色、黑色、粉色分別為SiamDW、SiamFC、CFNet、SiamRPN算法。
圖6 在OTB2015不同視頻序列下各類算法跟蹤效果Fig.6 Tracking effect of various algorithms in different OTB2015 video sequences
(1)光照變化:在Skating1視頻序列中,目標(biāo)快速移動,其中還包括了遮擋,光照變化等情況,對跟蹤過程造成了極大的影響。在第173幀左右,目標(biāo)被遮擋,各算法均出現(xiàn)了一定程度的跟蹤漂移。第312幀左右,由于光照變化,目標(biāo)特征不明顯,SiamFC算法跟蹤跟蹤失敗,本文算法由于多特征融合模型的加入,可以獲取到更多的目標(biāo)特征,從而可以對當(dāng)前目標(biāo)位置做出有效判斷。
(2)遮擋:在跟蹤過程中,目標(biāo)被遮擋會給跟蹤帶來較大的干擾。Coke視頻序列中,隨著目標(biāo)移動,逐漸被綠葉遮擋,SiamFC已經(jīng)出現(xiàn)了一定的偏移,目標(biāo)繼續(xù)移動,在整個跟蹤過程中,相比其他對比算法,本文算法對目標(biāo)的整體性跟蹤效果良好。
(3)運動模糊:由于目標(biāo)快速運動,會帶來圖像模糊等問題。在MotorRolling視頻序列中,摩托車快速運動,造成了運動模糊,并且伴隨目標(biāo)旋轉(zhuǎn)等挑戰(zhàn),跟蹤難度較高。在32幀左右,SiamFC和CFNet已經(jīng)出現(xiàn)了目標(biāo)丟失,造成了后續(xù)的跟蹤失敗,本文算法和SiamRPN可以實現(xiàn)持續(xù)的跟蹤。
(4)低分辨率:當(dāng)圖像幀的分辨率較低的時候,提取的特征不明顯。在Skiing中,僅有本文算法和SiamRPN可以實現(xiàn)持續(xù)的跟蹤,在60幀左右,SiamFC和CFNet均丟失了目標(biāo)。而相比于SiamRPN,本文算法在低分辨率場景下有著更好的跟蹤準(zhǔn)確性,這很大一部分原因是基于對抗網(wǎng)絡(luò)模型對視頻幀的去模糊效果。
(5)尺度變化:在跟蹤過程中,經(jīng)常出現(xiàn)目標(biāo)尺度變化的情況,在CarScale視頻序列中,隨著汽車由遠(yuǎn)及近駛來,目標(biāo)不斷變大,相比于其他對比算法,本文算法擁有更好的尺度估計結(jié)果。
(6)相似背景干擾:相似目標(biāo)的干擾一直是目標(biāo)跟蹤中的難點問題之一,尤其在Football中,跟蹤目標(biāo)一方面運動較快,一方面光照變化劇烈,且存在目標(biāo)被遮擋的情況。在289幀左右,目標(biāo)被遮擋,基準(zhǔn)算法SiamFC跟蹤丟失,而本文算法在多層特征的特征增強下,對目標(biāo)實現(xiàn)了持續(xù)且穩(wěn)定的跟蹤。
3.3.3 VOT2018定量分析
視覺目標(biāo)跟蹤(visual object tracking,VOT)是一個專門針對單目標(biāo)跟蹤的挑戰(zhàn)賽。VOT2018一共有60個經(jīng)過精細(xì)標(biāo)注的短時跟蹤視頻集,且評價指標(biāo)更為精細(xì)。VOT2018相比OTB2015,在跟蹤序列上目標(biāo)的變化更為復(fù)雜,跟蹤難度更高。
如圖7所示,在VOT2018數(shù)據(jù)集中本文算法與其他七個算法在基線上進行比較。表3顯示,本文算法的平均期望重疊率EAO、準(zhǔn)確率A僅低于SiamRPN,但是魯棒性R好于SiamRPN。其中準(zhǔn)確率越高性能越好,魯棒性數(shù)值越低效果越好,期望平均重疊率越高效果越好。相比基準(zhǔn)算法SiamFC,本文算法的EAO提升了16.4個百分點。同時,運行速度為每秒39幀,進一步證明本文算法具有較強的穩(wěn)健性,滿足實時性要求,可以實現(xiàn)很好的跟蹤效果。
圖7 不同算法在VOT2018數(shù)據(jù)集上EAO的對比圖Fig.7 Comparision of EAO of different algorithms on VOT2018 datasets
表3 不同算法在VOT2018數(shù)據(jù)集上的測試結(jié)果對比Table 3 Comparision of test results of different algorithms on VOT2018 datasets
3.3.4 VOT2018定性分析
在VOT2018數(shù)據(jù)集上選取五個視頻序列進行定量分析,證明本文算法對小目標(biāo)跟蹤和模糊目標(biāo)跟蹤優(yōu)于SiamRPN等算法。測試結(jié)果如圖8所示,紅色為本文算法,紫色、藍(lán)色、綠色分別為SiamFC、SiamRPN、KCF[27]算法,青色為VOT2018數(shù)據(jù)集自帶標(biāo)注結(jié)果。
圖8 選定VOT2018視頻序列跟蹤效果Fig.8 Selected VOT2018 video sequences tracking effect
在birds1序列,一方面序列的跟蹤對象是一個小目標(biāo),另一方面圖像較為模糊,目標(biāo)特征不明顯,本文算法仍可以有效地跟蹤到目標(biāo),而且相比于其他算法,本文算法與VOT自帶標(biāo)注結(jié)果的重疊部分更多。basketball視頻序列,圖像模糊且存在相似目標(biāo)的干擾,在265幀左右,已經(jīng)有算法出現(xiàn)了跟蹤異常的情況。在bmx序列中,由于目標(biāo)旋轉(zhuǎn)以及外觀變化,其他算法已經(jīng)無法有效跟蹤到目標(biāo)的整體特征,比如:bmx的第37、69幀。在soccer1序列,由于圖像模糊,很容易干擾到跟蹤器,在第115幀,目標(biāo)被遮擋,SiamFC出現(xiàn)了跟蹤丟失。在fernando序列,由于光照變化以及遮擋的發(fā)生,跟蹤難度較大,相比于基準(zhǔn)算法本文算法跟蹤效果優(yōu)異。
3.3.5 消融實驗
對本文算法進行消融實驗,分析參數(shù)影響。數(shù)據(jù)集使用OTB2015,實驗結(jié)果如圖9所示。其中,Ours代表本文算法,Ours-VGG表示基準(zhǔn)算法只替換骨干網(wǎng)絡(luò)為VGG-19并將層次特征進行融合,Ours-DeblurGAN表示在基準(zhǔn)算法上加入用于模糊移除的DeblurGAN模型,Ours-CGAN表示加入典型對抗生成網(wǎng)絡(luò)CGAN模型。從圖9中可以看出,條件對抗網(wǎng)與多層特征融合等改進策略對原算法的性能均有著有效的提升,相比CGAN,DeblurGAN模型對算法性能提升更明顯。
圖9 算法關(guān)鍵環(huán)節(jié)對跟蹤性能影響Fig.9 Influence of key parts of algorithm on tracking performance
針對SiamFC在運動模糊和低分辨率等復(fù)雜場景下的跟蹤能力不強問題,本文提出一種結(jié)合條件對抗生成網(wǎng)絡(luò)和多層次特征融合的目標(biāo)跟蹤算法。在孿生網(wǎng)絡(luò)中加入了條件對抗生成網(wǎng)絡(luò)模型,對圖像進行去模糊;并用VGG-19替換Alexnet作為孿生網(wǎng)絡(luò)骨干網(wǎng)絡(luò)。使用淺層特征提取位置信息,加入中層特征進行融合,使用高層特征提取語義信息,提高跟蹤器的識別和定位能力。在OTB2015和VOT2018數(shù)據(jù)集上的測試結(jié)果表明,本文算法實時性能滿足實際的跟蹤需求,有效地提升了跟蹤器的跟蹤精度,在運動模糊以及低分辨率情況下具有良好的魯棒性。但是本文算法在面對光照變化明顯等極端情況時,跟蹤效果不是非常理想,下一步的工作是嘗試采用更深、更高效的主干網(wǎng)絡(luò)來提取特征,以及引入模板更新機制。