劉超軍,段喜萍,謝寶文
(哈爾濱師范大學(xué) 計(jì)算機(jī)科學(xué)與信息工程學(xué)院, 哈爾濱 150025)
視頻目標(biāo)跟蹤是計(jì)算機(jī)視覺的重要研究分支之一,被廣泛運(yùn)用于科學(xué)技術(shù)、國防建設(shè)、自動(dòng)駕駛以及其它重要經(jīng)濟(jì)領(lǐng)域。相鄰視頻序列相比靜態(tài)圖像有著明顯的時(shí)間以及空間上連續(xù)性的特征,時(shí)空上的特點(diǎn)會(huì)對(duì)視頻序列的建模方式產(chǎn)生多樣性的影響。視頻跟蹤過程主要分為視頻跟蹤和視頻分割兩部分。視覺目標(biāo)跟蹤任務(wù)是根據(jù)標(biāo)定視頻第1幀的位置,利用建模的方式預(yù)測后續(xù)幀的位置。視頻跟蹤在目標(biāo)被遮擋、形變以及光照變化等復(fù)雜場景下的應(yīng)用十分廣泛且重要,也是視覺目標(biāo)跟蹤方向的一個(gè)難點(diǎn)。視頻目標(biāo)跟蹤主要分為3類:基于生成式模型、基于判別式模型以及基于深度學(xué)習(xí)的方法。由HORN和SCHUNCK提出的盧卡斯-卡納德(Lucas-Kanade,LK)光流法[1]假設(shè)跟蹤目標(biāo)短時(shí)間保持穩(wěn)定狀態(tài)的同時(shí),在目標(biāo)所表示的高維空間中找到最優(yōu)估計(jì)。后繼研究者對(duì)生成式模型的方法進(jìn)行了改進(jìn)。2012年,CRUZ-MOTA等人利用穩(wěn)健的圖像描述加速穩(wěn)健特征(speeded up robust features,SURF)、檢測和描述圖片的局部特征的尺度不變特征變換(scale-invariant feature transform,SIFT)以及描述圖像結(jié)構(gòu)的最大穩(wěn)定極值區(qū)域(maximally stable extremal regions,MSER)等[2]。2013年,MEI和LING等人提出了L1跟蹤器[3],這類算法利用了目標(biāo)信息,但是忽略了算法在視覺任務(wù)中的背景信息。為了充分運(yùn)用目標(biāo)跟蹤過程中的背景信息,研究者將目標(biāo)跟蹤問題抽象為具體的判別模型,對(duì)跟蹤目標(biāo)進(jìn)行分類和回歸,再將目標(biāo)和背景分離,從而實(shí)現(xiàn)目標(biāo)跟蹤。2015年,COLLINS等人提出了利用目標(biāo)背景顏色分離進(jìn)行視覺任務(wù)的線性判別算法[4]。2016年,HARE等人提出了利用支撐向量機(jī)取得高效跟蹤的Struck算法[5],相關(guān)濾波的目標(biāo)跟蹤算法可作為基于回歸判別模型的典型方法。2014年,HENRIQUES等人提出核相關(guān)濾波(kernel correlation filter,KCF)算法[6],該算法主要利用快速傅里葉變換和循環(huán)矩陣大幅提高了跟蹤速度。他們還提出了循環(huán)結(jié)構(gòu)核(circulant structure kernel,CSK)算法[7],該算法基于最小輸出平方和誤差濾波器(minimum output sum of squared error filter,MOSSE)算法[8],利用循環(huán)移位和核函數(shù)極大地提高了算法的魯棒性。2018年,LI等人提出了時(shí)空正則相關(guān)濾波器(spatial-temporal regularized correlation filters,STRCF) 算法[9],該算法考慮視覺任務(wù)中時(shí)間和空間關(guān)系,降低了部分遮擋對(duì)算法的影響。KALAL等人基于跟蹤、檢測以及在線學(xué)習(xí)的方式提出了跟蹤學(xué)習(xí)檢測(tracking-learning-detection,TLD)算法[10],該算法通過在線學(xué)習(xí)方式使得跟蹤器不斷更新,提高算法在部分遮擋和形變情況下的魯棒性,但TLD算法在實(shí)時(shí)性上表現(xiàn)較差。目前,深度學(xué)習(xí)能夠很好地應(yīng)用在目標(biāo)追蹤領(lǐng)域,主要表現(xiàn)在利用深度學(xué)習(xí)目標(biāo)追蹤算法的深度特征表征能力對(duì)目標(biāo)進(jìn)行跟蹤。在基于深度學(xué)習(xí)的目標(biāo)追蹤算法中,基于端到端離線訓(xùn)練方式的跟蹤方法獲得了比基于生成式模型和基于判別式模型更好的跟蹤效果。判別式尺度空間跟蹤(discriminative scale space tracker,DSST)算法是在MOSSE算法基礎(chǔ)上的改進(jìn)[11],主要應(yīng)對(duì)尺度變化,通過兩個(gè)濾波器分別跟蹤位置變化和尺度變化,定位濾波器專門用于確定新的目標(biāo)位置,尺度濾波器用來進(jìn)行尺度估計(jì)。學(xué)習(xí)連續(xù)卷積算子(learning continuous convolution operators,C-COT)跟蹤算法[12]將深度特征引入相關(guān)濾波,提高了跟蹤過程中的魯棒性與準(zhǔn)確度。有效卷積算子(efficient convolution operators,ECO)算法[13]是對(duì)C-COT算法進(jìn)行改進(jìn),從模型大小、樣本集大小和更新策略3個(gè)方面分別加快速度。2016年,BERTINETTO等人提出了全卷積孿生網(wǎng)絡(luò)(fully-convolutional siamese networks,SiamFC)算法[14],在跟蹤過程中利用離線數(shù)據(jù)集訓(xùn)練的相似性度量函數(shù)選擇與模板最相似的候選區(qū)域,將該區(qū)域作為視覺任務(wù)的跟蹤結(jié)果。2018年,LI等人提出的SiamFC和區(qū)域建議網(wǎng)絡(luò)用于直接估計(jì)目標(biāo)尺度[15],提高了對(duì)目標(biāo)跟蹤的性能和效率。2018年,PARK等人提出了元跟蹤算法[16],使用元學(xué)習(xí)的方法有效提升了基于深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)跟蹤算法的性能,算法目的是學(xué)到模型網(wǎng)絡(luò)的初始參數(shù),訓(xùn)練并利用了其它跟蹤和檢測的數(shù)據(jù)庫和未來幀的信息,從而能夠?qū)ξ磥韼心繕?biāo)的運(yùn)動(dòng)變化更加魯棒,也避免對(duì)當(dāng)前幀信息訓(xùn)練過擬合。2020年,WANG等人提出與模型無關(guān)的元學(xué)習(xí)(model-agnostic meta-learning,MAML)跟蹤器,借鑒了小樣本學(xué)習(xí)和目標(biāo)檢測的研究內(nèi)容,提出了簡潔和高效的算法框架,即目標(biāo)檢測與小樣本學(xué)習(xí)結(jié)合的目標(biāo)跟蹤算法[17]。RAZIYE等人提出了一種基于元學(xué)習(xí)紅外點(diǎn)狀目標(biāo)跟蹤算法[18],該算法將元學(xué)習(xí)應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò),改進(jìn)紅外弱小跟蹤問題,在有效解決遮擋的同時(shí)解決訓(xùn)練數(shù)據(jù)少的問題。同年,VOIGTLAENDER等人提出了孿生區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(siamese region convolutional neural networks,Siam R-CNN)再檢測架構(gòu)[19],該算法也充分發(fā)揮了目標(biāo)檢測方法在視覺目標(biāo)跟蹤中的作用,將第1幀模板和前一幀預(yù)測的重新檢測的結(jié)果用來對(duì)被跟蹤對(duì)象和潛在干擾對(duì)象的完整過程進(jìn)行建模。
本文中針對(duì)ECO算法中特征提取過程,提出了一種基于GhostNet改進(jìn)的ECO(GhostNet for efficient convolution tracker,GECT)跟蹤算法。首先,該算法利用GhostNet[20]作為主干的特征提取網(wǎng)絡(luò),采用全局平均池化[21]下采樣特征方式增加卷積特征感受野;其次,利用提取到的深度特征與手工特征經(jīng)過加窗、插值后,與當(dāng)前濾波器在傅里葉域進(jìn)行卷積定位計(jì)算;最后,采用共軛梯度算法優(yōu)化響應(yīng)誤差與懲罰項(xiàng)之和的損失函數(shù),實(shí)現(xiàn)濾波器更新。
有效卷積算子 (ECO)算法是將卷積特征運(yùn)用在視覺任務(wù)的高效跟蹤算法。該算法主要將深度特征和手工特征(如方向梯度直方圖(histogram of oriented gridients,HOG)特征)、顏色空間(color-names,CN)特征等多種特征用于相關(guān)濾波算法的跟蹤過程中,從而實(shí)現(xiàn)目標(biāo)跟蹤。
ECO算法沿用C-COT算法將特征圖通過插值轉(zhuǎn)換到連續(xù)空間域,具體如下式所示:
C-COT算法中采用訓(xùn)練連續(xù)多通道卷積濾波器用于預(yù)測得分,ECO算法利用主成分分析法改進(jìn),具體如下式所示:
SP,f{xd}=Pf*Jd{xd}=f*PTJd{xd}
(2)
式中,f為通道d的相關(guān)濾波核,*表示卷積運(yùn)算,P表示主成分分析法D行C列的投影矩陣,SP,f{xd}表示響應(yīng)值得分。使用混合高斯模型(Gaussian mixture mode,GMM)方法壓縮訓(xùn)練集,并對(duì)卷積響應(yīng)得分與高斯標(biāo)簽的誤差取L2范數(shù),下式表示構(gòu)造的損失函數(shù):
式中,M為訓(xùn)練樣本,μm和πm表示訓(xùn)練樣本的均值和權(quán)重,SP,f{μm}表示訓(xùn)練樣本與當(dāng)前相關(guān)濾波核f的卷積響應(yīng)得分,y0表示訓(xùn)練樣本的高斯標(biāo)簽,ω是f的懲罰項(xiàng)。一般P在初始幀確定保持不變,(3)式每6幀使用共軛梯度更新。ECO算法對(duì)比C-COT算法,在以下3個(gè)方面有所改進(jìn)。
(1)減少濾波器。ECO算法相對(duì)于C-COT算法簡化了特征提取的過程,針對(duì)C-COT算法每一個(gè)維度對(duì)應(yīng)一個(gè)濾波器,但是濾波器對(duì)于算法的貢獻(xiàn)不同的問題,ECO算法選用相對(duì)貢獻(xiàn)較多的濾波器,減少濾波器的數(shù)量,用少于特征維度數(shù)量的濾波器利用線性組合表示每一維度特征。
(2)減少訓(xùn)練集。C-COT算法在跟蹤過程中每更新一幀就增加一次訓(xùn)練樣本,導(dǎo)致當(dāng)前的訓(xùn)練數(shù)據(jù)中存在相似度較高的樣本較多,從而導(dǎo)致濾波器過擬合的問題。而ECO算法用了GMM來生成不同的組合,從而使得每一個(gè)組合對(duì)應(yīng)一組相似度較高的樣本,不同的組合之間差異性較大。
(3)減少濾波器更新頻率。ECO算法規(guī)定模型每隔幀更新一次。模型更新頻率降低,在提高了跟蹤速度同時(shí)也避免模型在跟蹤過程中漂移問題。一般設(shè)置為6。
ECO算法主要對(duì)C-COT算法三方面改進(jìn),即減少濾波器數(shù)量、減少訓(xùn)練集的樣本量以及降低濾波器的更新頻率,從而降低了C-COT算法的計(jì)算復(fù)雜度,從而提升跟蹤速度。但其并未對(duì)特征提取網(wǎng)絡(luò)過程進(jìn)行改進(jìn),本文中針對(duì)特征提取網(wǎng)絡(luò)模型較大、計(jì)算量大以及參數(shù)量多的問題,進(jìn)一步對(duì)ECO算法進(jìn)行改進(jìn)。
1.2.1 Ghost模塊 深度卷積神經(jīng)網(wǎng)絡(luò)是由大量的卷積操作組成的神經(jīng)網(wǎng)絡(luò),會(huì)導(dǎo)致整個(gè)神經(jīng)網(wǎng)絡(luò)在卷積的計(jì)算開銷過大。針對(duì)上述現(xiàn)象以及深度卷積神經(jīng)網(wǎng)絡(luò)中間特征圖有較多的冗余情況,HAN 等人提出了GhostNet算法,并且主要運(yùn)用于減少特征提取的計(jì)算量。對(duì)于任意的卷積運(yùn)算都表示為:
Y=X*r+b
(4)
式中,Y∈Rh′×w′×e,X∈Ro×h×w,r∈Ro×k×k×l,*代表卷積操作,b表示卷積運(yùn)算偏置項(xiàng),R表示多維矩陣,o是卷積通道數(shù),h表示特征圖高度,w表示特征圖寬度,l代表卷積核數(shù)量,e表示特征圖的數(shù)量,h′是特征圖輸出高度,w′是特征圖輸出寬度,k×k是卷積核的內(nèi)核尺寸。在卷積過程中,每秒所執(zhí)行的浮點(diǎn)運(yùn)算次數(shù)(floating-point operations per second,F(xiàn)LOPS)的計(jì)算量為l×h′×w′×o×k×k,由于卷積核個(gè)數(shù)l和通道數(shù)o通常數(shù)量較多,使得網(wǎng)絡(luò)的參數(shù)量也較大。要優(yōu)化的整個(gè)網(wǎng)絡(luò)結(jié)構(gòu),決定于輸入和輸出的特征圖結(jié)構(gòu)。Ghost模塊采用基本卷積過程產(chǎn)生原始的q個(gè)特征圖,如下式所示:
Y′=X*r′
(5)
式中 ,r′∈Rc×k×k×q表示卷積核,q≤l,為了得到e個(gè)特征圖,采用如下式所產(chǎn)生的z個(gè)經(jīng)過線性運(yùn)算的特征:
yi,j=Φi,j(yi′),(i=1,…,q;j=1,…,z)
(6)
式中,yi′是Y′中第i個(gè)原始特征圖,Φi,j是第i個(gè)原始特征圖生成第j個(gè)經(jīng)過變換后的特征圖。經(jīng)過公式的變換即可得到e=q×z個(gè)特征圖。一般線性運(yùn)算在每個(gè)通道進(jìn)行,計(jì)算成本將小于原始卷積核。具體過程如圖1所示。
Fig.1 Maps of different ways to generate feature
1.2.2 端側(cè)類殘差模塊 端側(cè)類殘差模塊(ghost bo-ttlenecks,G-bneck)利用Ghost模塊的優(yōu)勢和小型的CNNs設(shè)計(jì)。由兩個(gè)Ghost模塊組成G-bneck主要結(jié)構(gòu),第1個(gè)Ghost模塊主要起增加通道數(shù)和膨脹層作用,第2個(gè)GhostNet主要用于減少通道數(shù)和連接兩個(gè)Ghost模塊的輸入輸出。具體結(jié)構(gòu)如圖2所示。
Fig.2 Ghost Bottlenecks structure of different stride
1.2.3 GhostNet網(wǎng)絡(luò)結(jié)構(gòu) GhostNet以G-bneck為基礎(chǔ),構(gòu)建如表1所示的網(wǎng)絡(luò)結(jié)構(gòu)。主要將Ghost模塊作為構(gòu)造塊,第1層采用標(biāo)準(zhǔn)的卷積過程, G-bneck操作增加通道數(shù),G-bneck根據(jù)不同大小的特征圖分組到不同階段。表1中包含擠壓與激發(fā)(squeeze-and-excitation,SE)塊,Conv2d表示卷積層,AvgPool表示均值池化層,F(xiàn)C表示全連接層。
Table 1 GhostNet network structure
全局平均池化是將一個(gè)特征圖用一個(gè)數(shù)值表示的過程,其中該數(shù)值是由特征圖中的所有像素相加后平均得來。全局平均池化主要作用是減少參數(shù)量、計(jì)算量以及防止網(wǎng)絡(luò)過擬合。網(wǎng)絡(luò)通過全局平均池化在防止過擬合過程中也對(duì)每個(gè)通道賦予了類的含義,該過程為網(wǎng)絡(luò)在結(jié)構(gòu)上減少了全連接層的操作。具體方式如圖3所示。本文中全局平均池化的參數(shù)設(shè)定為u/4,u/16。其中u為輸入圖像的尺寸。
Fig.3 Influence of global average pooling on feature maps
精確度表示追蹤算法估計(jì)位置中心點(diǎn)與人工標(biāo)注的目標(biāo)中心點(diǎn)之間的距離小于給定閾值的視頻幀的百分比。默認(rèn)閾值為20個(gè)像素點(diǎn)。
成功率表示追蹤算法的重合率得分(overlap score,OS),重合率定義如下式所示:
式中,φ表示重合率得分,α表示追蹤算法得到的邊界框,β表示人工標(biāo)注的真實(shí)邊界框。當(dāng)某一幀的φ大于設(shè)定的閾值,則視頻幀標(biāo)記為成功,總的成功幀占所有幀的百分比為成功率。φ默認(rèn)設(shè)定為0.5。
魯棒性表示追蹤算法在跟蹤過程中的跟蹤失敗幀數(shù)占總幀數(shù)的百分比。魯棒性在數(shù)值上越小表示跟蹤效果更好。
平均期望覆蓋率(expect average overlap rate,EAO)表示每個(gè)跟蹤器在短時(shí)圖像序列上的非重置重疊期望值。將所有的序列長度分類,使跟蹤器在固定長度的視頻幀上進(jìn)行測試,得到每一幀的精確度ρ(K)。根據(jù)下式得到每一幀總序列的平均值:
式中,ρU表示在序列長度為U的EAO值,U表示長度大小,K表示不同視頻幀的長度。
本文中提出的是一種基于GhostNet卷積特征的ECO目標(biāo)跟蹤改進(jìn)算法,主要由特征提取模塊,全局池化模塊以及跟蹤與更新模塊3個(gè)部分組成。GECT跟蹤算法框架圖如圖4所示。特征提取模塊主要用于跟蹤過程中的視頻幀的特征提取過程,主要包括手工特征提取與卷積特征提取。為了驗(yàn)證本文中提出算法在卷積特征的提取差異,故手工特征提取過程與ECO算法中保證一致性。本文中的算法卷積特征主要是在GhostNet特征提取網(wǎng)絡(luò)的第1層卷積和block層的提取視頻幀的圖像特征,而原始ECO算法中采用的VGG-16網(wǎng)絡(luò)或者ResNet-50網(wǎng)絡(luò)提取圖像特征。經(jīng)過特征提取模塊后,特征會(huì)通過全局池化模塊,該模塊對(duì)卷積特征下采樣增加特征對(duì)圖像的表征能力,提高對(duì)算法的性能,該模塊對(duì)ECO算法是一種新的改進(jìn)策略,該模塊不存在于ECO算法中。為了驗(yàn)證本文中提出算法在卷積特征的提取差異,故跟蹤與更新模塊與ECO算法結(jié)構(gòu)保持一致。
Fig.4 GECT tracking algorithm framework diagram
GECT跟蹤算法具體步驟如下:(1)初始化算法參數(shù),基本參數(shù)根據(jù)ECO算法中的默認(rèn)參量,如初始化相關(guān)濾波核f,創(chuàng)建余弦窗口,構(gòu)建高斯標(biāo)簽y0等參數(shù);(2)讀取視頻的第1幀作為初始幀圖像,根據(jù)數(shù)據(jù)集提供的位置信息裁剪第1幀子訓(xùn)練樣本;(3)將子訓(xùn)練樣本輸入GhostNet特征提取網(wǎng)絡(luò)提取卷積特征,將卷積特征經(jīng)過全局平均池化得到深度特征和淺層特征,同時(shí)根據(jù)ECO算法中的手工特征過程提取手工特征。對(duì)特征進(jìn)行加窗、插值處理Jd{xd};(4)將步驟3得到的特征初始化訓(xùn)練集GMM中的第1個(gè)組合產(chǎn)生訓(xùn)練集;(5)根據(jù)得到的訓(xùn)練集更新得到新的相關(guān)濾波核f,并保存當(dāng)前信息;(6)讀取下一幀視頻,同步驟(3)處理得到新的Jd{xd};(7)使用傅里葉變換將Jd{xd}和當(dāng)前相關(guān)濾波核f轉(zhuǎn)化到頻域進(jìn)行卷積計(jì)算,得到響應(yīng)分?jǐn)?shù)SP,f{μm},找到最高響應(yīng)分?jǐn)?shù)位置作為當(dāng)前幀目標(biāo)位置;(8)將步驟(7)得到的目標(biāo)信息在當(dāng)前幀裁剪出子訓(xùn)練樣本;(9)使用GMM對(duì)Jd{xd}更新訓(xùn)練集;(10) 對(duì)是否跟新濾波器f進(jìn)行判斷,如需更新,執(zhí)行步驟(5);(11)判斷是否跟蹤完成,如沒有,執(zhí)行步驟(6);如跟蹤完成,輸出目標(biāo)信息,保存結(jié)果。
本文中所做實(shí)驗(yàn)均在一臺(tái)處理器為Inter(R)Core(TM)i7-7700 3.60 GHZ,內(nèi)存為16GB,操作系統(tǒng)為64位Windows10 Professional,編程環(huán)境為Python3.6,深度學(xué)習(xí)框架為PyTorch。
GECT算法參數(shù)設(shè)置如下:采用GhostNet網(wǎng)絡(luò)作為特征提取模塊,選擇第一卷積層和最后Ghost層作為網(wǎng)絡(luò)特征提取層。采用全局平均池化為u/4,u/16作為池化參數(shù),其中u為輸入網(wǎng)絡(luò)的視頻幀尺寸大小。未提及的參數(shù)采用ECO算法默認(rèn)參數(shù)。
3.3.1 特征提取過程參數(shù)量與計(jì)算量分析 為了驗(yàn)證本文中所提出的GECT算法在特征提取網(wǎng)絡(luò)在計(jì)算量和參數(shù)量的輕量性,將GhostNet網(wǎng)絡(luò)與VGG-16、ResNet-50在參數(shù)量和計(jì)算量上進(jìn)行對(duì)比。具體結(jié)果如表2所示。表中VGG-16和ResNet-50分別表示原始ECO算法在特征提取過程中網(wǎng)絡(luò)模型,輸入圖像的大小為通道數(shù)3,寬度為224個(gè)像素,高度為224個(gè)像素。表中GhostNet的參數(shù)量為5.2Mbit,遠(yuǎn)遠(yuǎn)小于VGG-16的參數(shù)量,也較ResNet-50少近5倍的參數(shù)量。GhostNet的FLOPS計(jì)算量為0.15Gbit,也遠(yuǎn)遠(yuǎn)小于VGG-16的15.62Gbit,較ResNet-50少近23倍的計(jì)算量。
Table 2 Parameters and calculations with different structures
3.3.2 特征提取過程有無預(yù)訓(xùn)練過程分析 為了研究本文中所提出的GECT算法采用有無預(yù)訓(xùn)練的GhostNet特征提取網(wǎng)絡(luò)對(duì)整個(gè)跟蹤效果的影響,對(duì)特征提取網(wǎng)絡(luò)GhostNet是否有預(yù)訓(xùn)練進(jìn)行實(shí)驗(yàn)。表3所示為有無預(yù)訓(xùn)練對(duì)數(shù)據(jù)集OTB2015跟蹤結(jié)果的影響。GECT跟蹤算法的精確度0.847高于無預(yù)訓(xùn)練的GECT(GECT without pre-training,GECT-NP)算法的精確度0.804,成功率0.620高于無預(yù)訓(xùn)練的GECT-NP算法的成功率0.603。實(shí)驗(yàn)結(jié)果表明, GECT算法對(duì)有預(yù)訓(xùn)練的網(wǎng)絡(luò)對(duì)于整體的特征提取有良好的效果。
Table 3 The impact of pre-training process on the tracking results of OTB2015
3.3.3 特征提取過程特征數(shù)量對(duì)結(jié)果的影響分析 為了研究本文中所提出的GECT算法采用無預(yù)訓(xùn)練的GhostNet特征提取網(wǎng)絡(luò)對(duì)整個(gè)跟蹤效果的影響,將特征提取網(wǎng)絡(luò)GhostNet最后一層提取的特征數(shù)由960個(gè)增加到2000個(gè)。表4所示不同特征數(shù)對(duì)數(shù)據(jù)集OTB2015跟蹤結(jié)果的影響。實(shí)驗(yàn)結(jié)果表明,經(jīng)過增加最后一層的特征數(shù),本文中所提GECT算法的成功率從0.603增加到0.605,精確度從0.804增加到0.828,在成功率和精確度上都有明顯的提升。同時(shí)說明了經(jīng)過GhostNet的特征提取與變換,不同特征具有不同的表達(dá)能力。
Table 4 The influence of the number of features on the tracking results of OTB2015
3.3.4 特征可視化分析 為了研究本文中所提GECT算法在特征的表征能力,將GhostNet特征提取網(wǎng)絡(luò)和全局平均池化后的特征進(jìn)行輸出,圖5和圖6所示為GECT算法在數(shù)據(jù)集OTB2015中籃球視頻序列的可視化結(jié)果。圖5是視頻幀圖像和淺層特征的可視化結(jié)果,圖6是深度特征的可視化結(jié)果。實(shí)驗(yàn)結(jié)果表明,淺層特征更注重視頻幀的紋理,深層特征更注重視頻幀相應(yīng)的語義信息。
Fig.5 Visualization results of video frame images and shallow features
Fig.6 Visualization results of deep features
為了研究特征在具體視頻幀中的表現(xiàn),將VOT2018中的籃球視頻序列跟蹤分?jǐn)?shù)加權(quán)可視化。由圖7中可知,本文中提出的GECT算法在跟蹤過程中,高響應(yīng)分?jǐn)?shù)的區(qū)域一直處于目標(biāo)上,證明本算法在跟蹤過程中高穩(wěn)定性和高精確性。
Fig.7 Response score weighted visual tracking results
3.3.5 跟蹤速度分析 為了研究本文中所提出的GECT算法在運(yùn)行速度上的優(yōu)勢性,將GECT算法與ECO-VGG-16、ECO-ResNet-50在數(shù)據(jù)集VOT2018和OTB2015上進(jìn)行對(duì)比,其中ECO-VGG-16是VGG-16作為ECO算法的特征提取網(wǎng)絡(luò),ECO-ResNet-50是ResNet-50作為ECO算法的特征提取網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果如表5所示。在跟蹤速度上,GECT算法的速度為1.3frame/s,比ECO-ResNet-50的速度提升近250%,比ECO-VGG-16的速度提升近650%。結(jié)果表明,GECT算法在速度上的優(yōu)勢明顯高于同樣的深度特征的ECO-VGG-16算法和ECO-ResNet-50算法。
Table 5 The influence of feature extraction network on the tracking speed of VOT2018
3.3.6 全局平均池化對(duì)跟蹤性能分析 為了研究本文中所提出的GECT算法中全局平均池化對(duì)跟蹤結(jié)果的影響,對(duì)有無池化過程在數(shù)據(jù)集VOT2018上實(shí)驗(yàn),其中GECT-NGAP算法表示無全局平均池化過程。實(shí)驗(yàn)結(jié)果如表6所示。GECT算法的精確度(0.512)高于無全局平均池化的GECT(GECT without global average pooling,GECT-NGAP)算法的準(zhǔn)確度(0.498),GECT算法丟失的幀數(shù)為87幀,要少于GECT-NGAP算法的109幀, GECT算法整體的魯棒性(0.407)高于GECT-NGAP算法的魯棒性(0.512),GECT算法綜合結(jié)果EAO指標(biāo)(0.226)也高于GECT-NGAP算法EAO指標(biāo)(0.211)。結(jié)果表明,GECT算法在采用全局平均池化時(shí),跟蹤結(jié)果整體水平高于無平均池化的GECT-NGAP算法。
Table 6 The impact of the pooling process on the tracking results of VOT2018
3.3.7 跟蹤性能對(duì)比分析 為了驗(yàn)證GECT跟蹤算法的有效性,采用GECT算法與主流相關(guān)濾波算法對(duì)比結(jié)果。對(duì)比的算法如下:基于手工特征的ECO算法(ECO algorithm based on handcraft features,ECO-HC)、空間正則化相關(guān)濾波器(spatially regularized correlation filters,SRDCF)、背景感知相關(guān)濾波(background-aware correlation filters,BACF)算法、基于線性核的對(duì)偶的相關(guān)濾波器(dual correlation filter,DCF)算法、核相關(guān)濾波 (kernel correlation filter,KCF)算法、比例自適應(yīng)多特征(scale adaptive multiple feature,SAMF)算法、時(shí)空正則相關(guān)濾波器(spatial-temporal regularized correlation filters,STRCF) 算法等算法。
(1)在數(shù)據(jù)集 VOT2018的測試結(jié)果。多種跟蹤算法在VOT2018測試跟蹤結(jié)果如表7所示。本文中GECT算法的跟蹤精度為0.512、魯棒性為0.407、EAO為 0.226,在對(duì)比中主流的相關(guān)濾波算法中跟蹤效果最好。由表7可知,本文中所提出的GECT算法在精確度和魯棒性上排名靠前,EAO綜合評(píng)價(jià)指標(biāo)也比其它算法高,有效地證明了本文中算法在跟蹤算法中的高精度性和高穩(wěn)定性。
Table 7 Comparison test results of the algorithm on VOT2018
(2)在數(shù)據(jù)集OTB2015的測試結(jié)果。在公開數(shù)據(jù)集OTB2015進(jìn)行對(duì)比,并采用一次跟蹤評(píng)估(one-pass evaluation,OPE)作為評(píng)價(jià)方式。測試結(jié)果如表8所示。本文中所提算法其跟蹤精度為0.847、成功率為0.620。相比其它的相關(guān)濾波算法,本文中所提算法在精確度和成功率上都排名較高,在OTB2015上也表現(xiàn)出了高精度和高成功率。
Table 8 Comparison test results of the algorithm on OTB2015
本文中提出的GECT目標(biāo)跟蹤算法利用GhostNet特征提取網(wǎng)絡(luò)和全局平均池化方式提升了算法的跟蹤性能。首先應(yīng)用GhostNet在參數(shù)量和計(jì)算量的優(yōu)勢設(shè)計(jì)主干的特征提取網(wǎng)絡(luò),通過全局平均池化增加特征的表征能力。在減少目標(biāo)跟蹤算法參數(shù)量和計(jì)算量的同時(shí),提高整個(gè)過程的跟蹤速度;但在公共數(shù)據(jù)集OTB2015的精確度與成功率上仍然沒有達(dá)到最優(yōu)。下一步將在精確度與成功率上對(duì)本文中提出的GECT目標(biāo)跟蹤算法進(jìn)一步研究。