亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        特征增強(qiáng)的孿生網(wǎng)絡(luò)高速跟蹤算法

        2023-02-18 07:16:32李虹瑾
        計(jì)算機(jī)與生活 2023年2期
        關(guān)鍵詞:注意力卷積精度

        李虹瑾,彭 力

        物聯(lián)網(wǎng)技術(shù)應(yīng)用教育部工程研究中心(江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院),江蘇 無錫214122

        目標(biāo)跟蹤作為計(jì)算機(jī)視覺領(lǐng)域的重要分支,一直是研究的熱點(diǎn)與難點(diǎn),在智慧安防、視頻人機(jī)交互、現(xiàn)代化軍事等諸多領(lǐng)域都具有廣泛的應(yīng)用[1]。近年來提出的跟蹤算法多以犧牲速度換取精度,而在真實(shí)場景任務(wù)中對(duì)跟蹤算法的速度卻有著很高的要求,這也使得很多優(yōu)秀算法難以真正落地,因此設(shè)計(jì)一種兼顧速度與精度的跟蹤器具有較大的現(xiàn)實(shí)意義。

        縱觀目標(biāo)跟蹤技術(shù)十幾年的發(fā)展,其經(jīng)歷了從經(jīng)典算法到基于核相關(guān)濾波算法,再到基于深度學(xué)習(xí)孿生網(wǎng)絡(luò)方法的過程。目前主流的算法依然是基于相關(guān)濾波方法以及深度網(wǎng)絡(luò)方法兩大類,前者以Henriques等人提出的KCF(kernelized correlation filter)[2]核化相關(guān)濾波器為代表。這類跟蹤算法利用自身循環(huán)移位來構(gòu)建虛擬訓(xùn)練樣本,雖然運(yùn)行效率高,但是會(huì)出現(xiàn)邊界效應(yīng)問題,在復(fù)雜跟蹤場景下的魯棒性較差,因此跟蹤精度一直不高。隨著計(jì)算機(jī)計(jì)算能力大幅提升,深度學(xué)習(xí)幾乎主導(dǎo)了計(jì)算機(jī)視覺領(lǐng)域,同時(shí)也極大地推動(dòng)了后者算法的發(fā)展。Bertinetto 等人提出了SiamFC(fully-convolutional Siamese networks)[3]算法,開辟了孿生網(wǎng)絡(luò)應(yīng)用于目標(biāo)跟蹤的先河。該算法使用孿生網(wǎng)絡(luò)結(jié)構(gòu)提取目標(biāo)模板圖像與搜索圖像的特征,接著利用交叉相關(guān)計(jì)算兩者的相似度,最終預(yù)測目標(biāo)位置為響應(yīng)圖的峰值處。此后眾多優(yōu)秀的跟蹤算法皆在此之上提出,He 等人提出SA-Siam(semantic and appearance Siamese network for realtime object tracking)[4]跟蹤算法,使用兩個(gè)孿生網(wǎng)絡(luò)分別學(xué)習(xí)目標(biāo)的語義特征與外觀特征,提升了跟蹤器的泛化能力。Zhang 等人提出SiamDW(deeper and wider Siamese networks for real-time visual tracking)[5]算法,將主干網(wǎng)絡(luò)替換成CIResNet,并且設(shè)計(jì)了剪裁殘差單元,有效解決了深度模型應(yīng)用到目標(biāo)跟蹤上的退化問題。注意力機(jī)制由于其可以減少無關(guān)信息,強(qiáng)調(diào)重要信息,已經(jīng)被廣泛應(yīng)用于許多視覺任務(wù)中。Li等人[6]引入了一個(gè)編碼器-解碼器注意力模塊,通過壓縮特征圖并建立孿生網(wǎng)絡(luò)中各通道之間的關(guān)系,以實(shí)現(xiàn)對(duì)不同特征的過濾。文獻(xiàn)[7]通過整合不同類型的注意力機(jī)制,包括空間注意力、殘差注意力和通道注意力,極大地緩解了過擬合情況。SiamAttn(deformable Siamese attention networks)跟蹤算法[8]提出一種新的孿生注意力機(jī)制,包括可變形的自注意力機(jī)制和互注意力機(jī)制。其中,自注意力機(jī)制通過通道注意力和空間注意力學(xué)習(xí)了豐富的上下文信息以及選擇性地加強(qiáng)通道特征之間的依賴,該算法在各個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果都達(dá)到了先進(jìn)水平,并且可以保持實(shí)時(shí)速度。如今,大部分研究人員都將工作重心放在提升跟蹤準(zhǔn)確率上,但是隨著深度網(wǎng)絡(luò)結(jié)構(gòu)越發(fā)龐大,在線跟蹤的機(jī)制也更加復(fù)雜,導(dǎo)致了模型參數(shù)量和計(jì)算量劇增,雖然提升了精度但是也極大犧牲了速度。

        本文在SiamFC 算法的基礎(chǔ)上,旨在兼顧跟蹤精度與速度,提出一種基于特征增強(qiáng)的輕量級(jí)孿生網(wǎng)絡(luò)的高速跟蹤算法,具體包含以下三項(xiàng)改進(jìn):(1)使用改進(jìn)后的輕量級(jí)網(wǎng)絡(luò)ShuffleNet[9]作為骨干網(wǎng)絡(luò)用于特征提取,調(diào)整結(jié)構(gòu)使其適用于跟蹤。(2)為了提升模型特征判別能力,引入通道和空間雙重注意力機(jī)制,突出對(duì)跟蹤有利的特征。(3)設(shè)計(jì)一種分層特征融合策略,從多個(gè)層級(jí)完善目標(biāo)的外觀表達(dá),生成更高質(zhì)量的相似度響應(yīng)圖。實(shí)驗(yàn)結(jié)果表明所提跟蹤算法在OTB100 和VOT2018 數(shù)據(jù)集上較基準(zhǔn)的SiamFC 算法的跟蹤準(zhǔn)確率與速度都有大幅提升。在NVIDIA GTX1070 顯卡上的跟蹤速度達(dá)到約110 FPS的同時(shí),在OTB100 數(shù)據(jù)集上距離精度和重疊成功率分別領(lǐng)先了8.3 個(gè)百分點(diǎn)和6.5 個(gè)百分點(diǎn),更好地兼顧了精度與實(shí)時(shí)性。

        1 特征增強(qiáng)的高速跟蹤算法

        本文在SiamFC 的基礎(chǔ)上提出一種特征增強(qiáng)的輕量級(jí)高速跟蹤算法,算法框架如圖1 所示。首先,使用輕量級(jí)網(wǎng)絡(luò)ShuffleNetV2 作為骨干網(wǎng)絡(luò),通過裁剪卷積后得到特征圖的最外層特征,減少填充操作(padding)帶來的位置偏差。其次,融合了骨干網(wǎng)絡(luò)提取的深層與淺層特征,豐富了對(duì)目標(biāo)的表征。最后,在模板分支的末端嵌入雙重注意力模塊,使模板特征更具分辨能力。

        圖1 本文跟蹤算法框架Fig.1 Overall network architecture of proposed tracker

        1.1 孿生網(wǎng)絡(luò)結(jié)構(gòu)

        本文算法使用的是孿生網(wǎng)絡(luò)結(jié)構(gòu),由特征提取網(wǎng)絡(luò)與相似度計(jì)算模塊兩部分構(gòu)成。每一路分支采用同樣的網(wǎng)絡(luò)結(jié)構(gòu)且權(quán)值共享,這樣既減少了模型的參數(shù)量也保證了映射空間的一致性。使用孿生網(wǎng)絡(luò)做相似性學(xué)習(xí),可以將跟蹤過程簡化為目標(biāo)與候選區(qū)域進(jìn)行匹配的過程。

        在一個(gè)搜索區(qū)域內(nèi)使用互相關(guān)進(jìn)行模板圖片z和搜索圖片x之間的相似性度量,如式(1)所示。

        其中,φθ表示經(jīng)過參數(shù)為θ的神經(jīng)網(wǎng)絡(luò)得到的特征圖,b?1 表示偏置項(xiàng),?為互相關(guān)運(yùn)算,fθ(z,x)反映了輸入圖像對(duì)的相似度。整個(gè)跟蹤過程可以描述為:把第一幀提供的目標(biāo)圖像作為模板圖像,后續(xù)幀作為搜索圖像,將模板圖像和搜索圖像都放入深度孿生網(wǎng)絡(luò)中,得到兩者的特征圖;然后進(jìn)行互相關(guān)操作,即以模板分支得到的特征圖作為卷積核在搜索分支最終特征圖上進(jìn)行卷積操作,得到最終的得分響應(yīng)圖。與目標(biāo)相似度越高的區(qū)域在響應(yīng)圖上的值就越大,反之則會(huì)產(chǎn)生很小的響應(yīng)值,由此就可以通過響應(yīng)圖追溯到原圖中待跟蹤目標(biāo)的位置。

        在離線訓(xùn)練過程中,定義響應(yīng)圖上各點(diǎn)的邏輯損失為式(2):

        其中,v代表送入圖像對(duì)的實(shí)際得分,y∈{-1,1}表示樣本的真實(shí)標(biāo)簽值。不同的搜索區(qū)域?qū)?yīng)的標(biāo)簽值和估值也不同,最終由全部搜索區(qū)域構(gòu)成一張相似度相應(yīng)圖D。在算法訓(xùn)練時(shí)定義損失函數(shù)為響應(yīng)圖的均值,如式(3):

        其中,u表示響應(yīng)圖D上的各個(gè)位置點(diǎn),真實(shí)標(biāo)簽值y(u)生成如式(4),正樣本代表相似即與響應(yīng)圖中心c距離不超過R,用1 表示,剩下位置皆為不相似,用-1表示。

        1.2 改進(jìn)的輕量級(jí)網(wǎng)絡(luò)ShuffleNetV2

        1.2.1 深度可分離卷積

        SiamFC 算法使用AlexNet 作為骨干網(wǎng)絡(luò)提取目標(biāo)特征,但是該網(wǎng)絡(luò)只有五個(gè)卷積層,參數(shù)量較小,雖然帶來了可觀的跟蹤速度,但是由于淺層網(wǎng)絡(luò)對(duì)目標(biāo)特征的判別能力不足,導(dǎo)致了跟蹤準(zhǔn)確率受限。如果直接將網(wǎng)絡(luò)替換成更深層次的網(wǎng)絡(luò),意味著網(wǎng)絡(luò)結(jié)構(gòu)會(huì)更復(fù)雜,參數(shù)量劇增。此時(shí)為了滿足高速指標(biāo)就只能使用性能優(yōu)越的大型服務(wù)器,而在實(shí)際應(yīng)用中很難達(dá)到這一硬性條件。

        隨著谷歌公司提出一種新的卷積操作——深度可分離卷積[10],輕量級(jí)網(wǎng)絡(luò)自此在計(jì)算機(jī)視覺領(lǐng)域初露鋒芒。因此本文算法選擇比AlexNet[11]層數(shù)更多,參數(shù)量和計(jì)算量更小的ShuffleNetV2 作為主干網(wǎng)絡(luò)。ShuffleNetV2 使用深度可分離卷積,是一種高性能輕量級(jí)網(wǎng)絡(luò)。

        深度可分離卷積可分為逐通道卷積和逐點(diǎn)卷積兩部分。逐通道卷積實(shí)際上是在二維平面內(nèi)進(jìn)行,如圖2 所示,輸入的每一個(gè)通道都會(huì)由一個(gè)卷積核進(jìn)行滑窗運(yùn)算,這就要求卷積核的數(shù)量要與輸入通道數(shù)相同。由于對(duì)輸入層的每個(gè)通道進(jìn)行獨(dú)立運(yùn)算,忽略了通道不同但空間位置相同的特征信息,即輸入的各個(gè)通道沒有關(guān)聯(lián),因此需要第二步的逐點(diǎn)卷積。圖3 展示了逐點(diǎn)卷積的過程,輸出通道數(shù)等于卷積核數(shù)目,其本質(zhì)就是使用寬高為1 的卷積核將不同層的特征信息在深度方向上進(jìn)行加權(quán)組合,生成最終的特征圖。用DF表示輸出特征的大小,DK表示卷積核的大小,M和N代表輸入輸出的通道數(shù),則一次標(biāo)準(zhǔn)卷積的計(jì)算量如式(5):

        圖2 逐通道卷積Fig.2 Depthwise convolution

        圖3 逐點(diǎn)卷積Fig.3 Pointwise convolution

        而一次深度可分離卷積的計(jì)算量如式(6):

        兩者計(jì)算量之比α表示為式(7):

        可以明顯看出卷積核越小,兩者的運(yùn)算量相差就會(huì)越大。ShuffleNet 中卷積核的大小為3,理論上深度可分離卷積是標(biāo)準(zhǔn)卷積運(yùn)算量的1/9。

        深度可分離卷積的計(jì)算量主要集中在逐點(diǎn)卷積M×N的運(yùn)算,因此在ShuffleNet 中各通道關(guān)聯(lián)的方式不直接采用1×1 的卷積進(jìn)行加權(quán)組合,而是進(jìn)行通道重排。該過程可表示為圖4,輸入特征按照通道分組后進(jìn)行交叉重排形成新的特征分布,每一組特征都源自上層不同分組,如此一來通道不同的特征信息可以在不同分組之間輪轉(zhuǎn)實(shí)現(xiàn)通道通信。

        圖4 通道重排Fig.4 Channel shuffle

        1.2.2 網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)

        為了使ShuffleNetV2 能夠有效地完成跟蹤任務(wù),需要對(duì)網(wǎng)絡(luò)結(jié)構(gòu)做出幾點(diǎn)改進(jìn)。實(shí)驗(yàn)發(fā)現(xiàn),直接使用更深層的網(wǎng)絡(luò)如ResNet[12]、Vgg[13]替換SiamFC 算法中的AlexNet 無法帶來性能增益,主要原因在于填充操作以及網(wǎng)絡(luò)總步長。

        本文研究發(fā)現(xiàn)Padding 操作會(huì)帶來位置偏差,導(dǎo)致跟蹤成功率急劇下降。在卷積操作時(shí)為了保證輸入輸出特征圖尺寸不變通常會(huì)進(jìn)行邊緣填充,一般是在特征圖四周補(bǔ)零。圖5 展示了Padding 操作帶來的位置偏差。如果深度網(wǎng)絡(luò)采用了填充操作,那么模板特征不僅包含了原始圖像信息,還具備邊緣的填充信息,如圖5(a);當(dāng)目標(biāo)運(yùn)動(dòng)到圖像邊緣時(shí),位于邊緣處的候選區(qū)域同時(shí)包含了原始信息以及填充信息,如圖5(b)中橙色區(qū)域;而其余候選區(qū)域卻只包含了圖像本身信息,如圖5(b)中藍(lán)色區(qū)域。由于模板圖像與搜索圖像都是以目標(biāo)為中心進(jìn)行剪裁,隨著特征嵌入信息改變,即使得到了最大響應(yīng)值,最終的相似性度量也發(fā)生偏差,導(dǎo)致最后跟蹤失敗。為了減少Padding 帶來的偏差影響,通過剪裁操作去掉主干網(wǎng)絡(luò)中部分特征圖最外圍特征,在確保特征圖尺寸適宜的前提下盡可能提升跟蹤精度。

        圖5 填充導(dǎo)致的位置偏見Fig.5 Position bias caused by padding

        原始ShuffleNetV2 網(wǎng)絡(luò)總步長為32,適用于完成圖像分類任務(wù),但是步長越大,空間信息就會(huì)越模糊,難以適應(yīng)跟蹤任務(wù)。對(duì)于目標(biāo)跟蹤而言,它關(guān)注的重點(diǎn)在于待跟蹤目標(biāo)的精準(zhǔn)定位而不是目標(biāo)屬于哪一類,因此需要捕獲更多有效的空間信息來幫助定位。除此之外,步長會(huì)直接影響到特征圖輸出的尺寸以及感受野的大小。如果網(wǎng)絡(luò)步長過大,那么最終特征圖的尺寸就會(huì)較小,同時(shí)空間分辨率很低,難以保留深層特征圖中的大量特征信息。另一方面感受野也會(huì)越大,導(dǎo)致特征提取區(qū)域變大最終反映到對(duì)目標(biāo)位置信息不夠敏感。當(dāng)然網(wǎng)絡(luò)感受野也不宜過小,不僅會(huì)出現(xiàn)目標(biāo)無法完全覆蓋的問題,還會(huì)帶來計(jì)算負(fù)擔(dān)導(dǎo)致跟蹤速度下降。在權(quán)衡跟蹤精度與速度指標(biāo)后,最終調(diào)整網(wǎng)絡(luò)總步長為8。

        本文算法以ShuffleNetV2 為骨干網(wǎng)絡(luò),在原先網(wǎng)絡(luò)的基礎(chǔ)上,裁剪掉受Padding 操作影響的特征圖的最外圍特征,刪除了原先ShuffleNetV2 的Stage4 和第一次卷積后的最大池化層,同時(shí)將Stage3 中的BottleNeck 的重復(fù)次數(shù)由8 變?yōu)?,保證了網(wǎng)絡(luò)總步長為8。表1 展示了修改后的骨干網(wǎng)絡(luò)結(jié)構(gòu)。

        表1 骨干網(wǎng)絡(luò)的主要結(jié)構(gòu)Table 1 Detailed backbone configuration of proposed tracker

        1.3 嵌入通道與空間注意力

        在原始SiamFC 算法中,深度網(wǎng)絡(luò)提取到圖像特征后是平等地對(duì)待各通道的特征信息,然而對(duì)于卷積網(wǎng)絡(luò)來說,即使是同一個(gè)卷積層,不同的特征通道的響應(yīng)值也不一致,響應(yīng)值較大的通道說明該通道提取特征較為重要,反之則作用不大。SENet(squeezeand-excitation networks)[14]作為代表性的通道注意力網(wǎng)絡(luò),給每個(gè)通道賦予權(quán)重突出重要特征信息。CBAM(convolutional block attention module)[15]在此基礎(chǔ)上又引入了空間注意力,提升網(wǎng)絡(luò)對(duì)空間特征信息敏感性。BAM(bottleneck attention module)[16]是繼CBAM 后的又一次嘗試,不同于CBAM 先經(jīng)過通道注意力再進(jìn)入空間注意力,BAM 采用的是兩種注意力并行連接的方式。

        本文受BAM 的啟發(fā),為了提升骨干網(wǎng)絡(luò)對(duì)于特征信息的判別能力,僅在模板分支嵌入輕量級(jí)設(shè)計(jì)的通道和空間注意力模塊。不同于BAM 中激活函數(shù)使用ReLU(rectified linear unit)[17],本文算法將通道與空間注意力中的激活函數(shù)全部替換為PReLU(parametric rectified linear unit)[18]。ReLU 是目前深度學(xué)習(xí)中常用的激活函數(shù),它的數(shù)學(xué)表達(dá)式如式(8):

        PReLU 的數(shù)學(xué)表達(dá)式如式(9):

        PReLU 激活函數(shù)能夠自適應(yīng)學(xué)習(xí)參數(shù),并在幾乎不產(chǎn)生額外計(jì)算成本的條件下提高精度,與本文追求精度與速度兼?zhèn)涞母櫵惴ǖ淖谥枷嗥鹾?。所嵌入的雙重注意力結(jié)構(gòu)可表示為圖6,紅色虛線框部分表示通道注意力,藍(lán)色虛線框表示空間注意力。對(duì)于一張給定的特征圖F可以得到一個(gè)注意力映射M(F),加強(qiáng)后的特征圖F′可以表示為式(10),其中?為對(duì)應(yīng)元素逐個(gè)相乘。

        圖6 空間與通道注意力模塊結(jié)構(gòu)Fig.6 Detailed spatial and channel attention module architecture

        由于每個(gè)通道都包含著特定的特征響應(yīng),通道注意力模塊的任務(wù)就是要篩選出響應(yīng)大的神經(jīng)元讓它們盡可能大地發(fā)揮作用,同時(shí)抑制不太重要的特征信息,讓各個(gè)通道響應(yīng)值差距拉大,使接下來的相似性度量計(jì)算更為準(zhǔn)確。為了在通道分支中充分利用通道間的關(guān)系以及聚合特征圖在每個(gè)通道的信息,首先采用全局平均池化,接著通過兩個(gè)全連接層,在最后添加批量歸一化層(batch normalization,BN)來調(diào)整通道分支輸出的尺度。通道注意力的計(jì)算可以總結(jié)為式(11):

        與通道注意力相似,空間注意力的目的是突出或削弱在不同空間位置的特征信息。文獻(xiàn)[19]提到如果感受野較大就可以有效地利用上下文信息,知道應(yīng)該去關(guān)注哪些空間位置。因此,在空間分支主要用到空洞卷積來放大感受野,圖7 和圖8 分別為標(biāo)準(zhǔn)卷積和空洞卷積的示例。相比普通卷積,空洞卷積能夠在不丟失分辨率的情況下仍然擴(kuò)大感受野,此外隨著參數(shù)設(shè)置的不同,它還可以捕獲多尺度上下文信息。因此,空間分支主要流程為:首先經(jīng)過1×1 的卷積對(duì)通道維數(shù)進(jìn)行整合壓縮,接著利用兩個(gè)3×3 空洞卷積充分利用上下文信息,最后通過一個(gè)1×1 的卷積將通道壓縮為1??臻g注意力的計(jì)算可以總結(jié)為式(12):

        圖7 標(biāo)準(zhǔn)卷積Fig.7 Standard convolution

        圖8 空洞卷積Fig.8 Dilated convolution

        經(jīng)過通道注意力分支可得到Mc(F),空間注意力分支得到Ms(F),兩者融合得到最終的注意力映射M(F),如式(13)。

        1.4 分層特征融合

        孿生網(wǎng)絡(luò)跟蹤算法中至關(guān)重要的一步就是衡量相似度生成得分響應(yīng)圖,根據(jù)響應(yīng)圖估計(jì)目標(biāo)的位置。本文在SiamFC 的基礎(chǔ)上,為了進(jìn)一步提升算法精度與魯棒性,采取了分層特征融合策略。文獻(xiàn)[20]中提到,不同位置的卷積層蘊(yùn)含的信息有所不同,淺層卷積可以更好地保留目標(biāo)位置輪廓等結(jié)構(gòu)特征,而深層卷積側(cè)重點(diǎn)在于提取目標(biāo)語義特征。圖9 為模板圖像與搜索圖像分別經(jīng)過淺層卷積與深層卷積后得到的特征圖。

        圖9 淺層與深層特征圖Fig.9 Shallow and deep feature maps

        為兼顧淺層結(jié)構(gòu)特征與深層語義特征實(shí)現(xiàn)更精準(zhǔn)的跟蹤,算法以改進(jìn)后的ShuffleNetV2 作為主干網(wǎng)絡(luò),對(duì)Stage2 最后一層輸出特征進(jìn)行下采樣操作,分別使用采樣后的特征和最后一層卷積的特征對(duì)模板圖片和搜索圖片進(jìn)行相似度衡量,生成兩張尺寸一樣的響應(yīng)圖。圖10分別展示了利用Stage2末層、最后一層生成的響應(yīng)圖以及最終響應(yīng)圖。Stage2末層特征保留了豐富的空間信息,生成淺層的響應(yīng)圖有利于對(duì)目標(biāo)的定位,而最后一層特征蘊(yùn)含了目標(biāo)的語義信息,生成深層的響應(yīng)圖能夠有效處理目標(biāo)變化。因此將兩張響應(yīng)圖按照通道維度進(jìn)行拼接,再利用1×1 卷積生成通道數(shù)為1的最終響應(yīng)圖,可表示為式(14):

        圖10 三種響應(yīng)圖Fig.10 Three types of response maps

        其中,r、rlast及r2分別表示最終響應(yīng)圖、最終層及Stage2 末層通過式(1)得到的響應(yīng)圖,klast和k2是通過學(xué)習(xí)得到各個(gè)響應(yīng)圖的權(quán)重,b是卷積核的偏置項(xiàng)。通過式(14)可以看出,兩張響應(yīng)圖是采取線性加權(quán)融合的方式,通過端到端的離線訓(xùn)練,學(xué)習(xí)到一個(gè)相對(duì)穩(wěn)定和魯棒的權(quán)值參數(shù)。所提分層融合策略能夠在提取到豐富的語義信息的同時(shí)保留淺層結(jié)構(gòu)信息,從多個(gè)層面表征目標(biāo),提升最終響應(yīng)圖的質(zhì)量,最終實(shí)現(xiàn)更為精準(zhǔn)魯棒的跟蹤。

        2 實(shí)驗(yàn)結(jié)果與分析

        2.1 實(shí)驗(yàn)環(huán)境與參數(shù)配置

        本文算法是基于Pytorch0.4.1 深度學(xué)習(xí)框架實(shí)現(xiàn)的,操作系統(tǒng)為Ubuntu16.04,16 GB 內(nèi)存,CPU 為英特爾i7-8700,顯卡是NVIDIA GeForce GTX 1070,8 GB 顯存。

        實(shí)驗(yàn)選用Got-10K 數(shù)據(jù)集進(jìn)行模型離線訓(xùn)練,該數(shù)據(jù)集包含大約10 000 個(gè)視頻序列和150 萬個(gè)手動(dòng)標(biāo)注的邊界框。整個(gè)訓(xùn)練過程經(jīng)歷了50 個(gè)階段,每個(gè)階段有約10 000 個(gè)圖片對(duì),使用ShuffleNetV2 預(yù)訓(xùn)練模型對(duì)卷積層參數(shù)進(jìn)行初始化,利用動(dòng)量為0.9 的隨機(jī)梯度下降法來優(yōu)化網(wǎng)絡(luò),學(xué)習(xí)率由10-2指數(shù)衰減到10-5。圖11展示了訓(xùn)練階段損失函數(shù)的收斂曲線。

        圖11 損失函數(shù)收斂曲線Fig.11 Convergence curve of loss function

        在線跟蹤過程中,輸入模板圖像大小為127×127×3,搜索圖像大小為255×255×3,圖像對(duì)進(jìn)入到各自的網(wǎng)絡(luò)分支最終得到大小為17 的得分圖。使用縮放因子為1.037 5 的3 個(gè)不同尺度的搜索圖像塊分別與模板圖像進(jìn)行相似性度量,響應(yīng)最大的值就對(duì)應(yīng)了當(dāng)前幀最佳的尺度。

        2.2 OTB100 實(shí)驗(yàn)分析

        OTB100 數(shù)據(jù)集是一個(gè)公開的目標(biāo)跟蹤測試基準(zhǔn),共包含100 個(gè)人工標(biāo)注的視頻序列。OTB100 的測評(píng)方法是一次評(píng)估(one-pass evaluation,OPE),使用歐氏距離精度圖和重疊成功率圖來衡量跟蹤算法的優(yōu)劣。歐式距離精度圖是根據(jù)中心位置的誤差進(jìn)行繪制,衡量的是跟蹤器預(yù)測的目標(biāo)框與實(shí)際目標(biāo)框中心的歐氏距離,可表示為式(15):

        其中,(xA,yA)是跟蹤器預(yù)測的目標(biāo)中心,(xG,yG)是實(shí)際的目標(biāo)中心。而重疊成功率評(píng)估的是跟蹤器預(yù)測的目標(biāo)框與實(shí)際目標(biāo)框之間的重疊率,也稱為交并比,數(shù)學(xué)定義為式(16):

        其中,BA和BG分別表示跟蹤器得到的目標(biāo)框與實(shí)際的目標(biāo)框。

        為了驗(yàn)證本文提出跟蹤算法的性能,將與其他8種跟蹤算法在OTB100 數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),對(duì)比算法包括SiamRPN[21]、CIResNet22-FC(又稱SiamDW)、MemTrack[22]、UDT+[23]、DCFNet[24]、SiamTri[25]、CFNet[26]和SiamFC,OPE 實(shí)驗(yàn)結(jié)果如圖12 所示。本文算法不論是在距離精度指標(biāo)還是重疊成功率指標(biāo)都取得了最好的結(jié)果,相較于基礎(chǔ)算法SiamFC,更是在距離精度上提升了8.3 個(gè)百分點(diǎn),在重疊成功率上領(lǐng)先了6.5個(gè)百分點(diǎn),驗(yàn)證了提出的幾點(diǎn)改進(jìn)方法是具有可觀增益的。相比同在SiamFC 基礎(chǔ)上改進(jìn)的SiamDW算法,本文算法在距離精度和重疊成功率上分別取得了2.5 個(gè)百分點(diǎn)和1.4 個(gè)百分點(diǎn)的增益。SiamDW以CIResNet22 作為骨干網(wǎng)絡(luò)提取特征,所提算法在使用ShuffleNet 的基礎(chǔ)上嵌入了雙重注意力機(jī)制進(jìn)行特征提取,融合了分層響應(yīng)圖,故而具備更強(qiáng)的特征判別能力。不同于SiamRPN 使用大規(guī)模數(shù)據(jù)集進(jìn)行網(wǎng)絡(luò)訓(xùn)練,本文算法在訓(xùn)練時(shí)只使用了少量數(shù)據(jù)集,雖然在兩項(xiàng)指標(biāo)上只取得了少量的提升,但是極具發(fā)展?jié)摿Α?/p>

        圖12 9 種算法在OTB100 上的總體精度和成功率圖Fig.12 Overall precision and success rate plot with 9 trackers on OTB100 benchmark

        為了與其他跟蹤算法進(jìn)行更全面的對(duì)比,在OTB100 數(shù)據(jù)集上測試了不同困難場景下的跟蹤表現(xiàn),圖13 與圖14 展示了測評(píng)結(jié)果。實(shí)驗(yàn)1 共評(píng)估了11 項(xiàng)挑戰(zhàn)屬性:快速運(yùn)動(dòng)、背景擾動(dòng)、運(yùn)動(dòng)模糊、形變、光照變化、平面內(nèi)旋轉(zhuǎn)、低分辨率、遮擋、平面外旋轉(zhuǎn)、出視野、尺度變化。本文算法無論是距離精度指標(biāo)還是重疊成功率指標(biāo)都處于領(lǐng)先地位。在重疊成功率這項(xiàng)指標(biāo)上,所提算法在其中7 項(xiàng)挑戰(zhàn)中表現(xiàn)最優(yōu),在3 項(xiàng)挑戰(zhàn)中表現(xiàn)次優(yōu)。在運(yùn)動(dòng)模糊挑戰(zhàn)中,本文算法在重疊成功率指標(biāo)取得了0.674 的佳績,說明跟蹤器具有較強(qiáng)的魯棒性。對(duì)比DCFNet相關(guān)濾波算法通過將網(wǎng)絡(luò)輸出定義為目標(biāo)位置的概率熱圖完成在線學(xué)習(xí)和跟蹤,所提算法使用端到端的離線學(xué)習(xí),避免了在線訓(xùn)練更新十分耗時(shí)的問題,同時(shí)融合了淺層結(jié)構(gòu)特征與深層語義特征增強(qiáng)魯棒性,在大幅度提升精度的同時(shí)速度也得到了保證。在11 項(xiàng)困難因素中表現(xiàn)出的優(yōu)異結(jié)果都證明了所提改進(jìn)方法的有效性。

        圖13 9 種跟蹤器在OTB100 上各挑戰(zhàn)屬性的精度圖Fig.13 Attribute-based precision plots with 9 trackers on OTB100 benchmark

        圖14 9 種跟蹤器在OTB100 上各挑戰(zhàn)屬性的成功率圖Fig.14 Attribute-based success rate plots with 9 trackers on OTB100 benchmark

        圖15 展示了幾種算法在OTB100 數(shù)據(jù)集上4 個(gè)序列的跟蹤結(jié)果可視化,對(duì)所提算法進(jìn)行定性分析。實(shí)驗(yàn)結(jié)果表明,本文算法在這些序列上能夠準(zhǔn)確地定位目標(biāo)。Board 序列的跟蹤難點(diǎn)在于運(yùn)動(dòng)模糊、快速運(yùn)動(dòng)、平面外旋轉(zhuǎn)以及背景復(fù)雜。當(dāng)目標(biāo)快速運(yùn)動(dòng)到264 幀位置時(shí),SiamFC 和SiamRPN 已完全跟丟目標(biāo),611 幀目標(biāo)做平面外旋轉(zhuǎn),SiamFC 一直丟失目標(biāo),SiamRPN 重新找回目標(biāo),而本文跟蹤器與CIResNet22-FC 一直準(zhǔn)確跟蹤目標(biāo)。整個(gè)運(yùn)動(dòng)過程目標(biāo)都處于背景復(fù)雜的條件下且周圍有相似物體產(chǎn)生干擾,而所提算法能夠在每一幀都成功定位目標(biāo),這得益于分層特征融合,實(shí)現(xiàn)了從結(jié)構(gòu)到語義多方面地表征物體。ClifBar 序列具備尺度變化、遮擋、運(yùn)動(dòng)模糊、快速運(yùn)動(dòng)以及出視野的跟蹤難點(diǎn)。目標(biāo)在155 幀出現(xiàn)運(yùn)動(dòng)模糊,除了本文算法能夠跟準(zhǔn)目標(biāo),其他算法都出現(xiàn)或多或少的偏移。269 幀目標(biāo)發(fā)生尺度變化,本跟蹤器和CIResNet22-FC 依然能夠準(zhǔn)確定位目標(biāo),SiamFC 和SiamRPN 已完全丟失目標(biāo)。DragonBaby 序列跟蹤難點(diǎn)是遮擋、運(yùn)動(dòng)模糊、快速運(yùn)動(dòng)、平面內(nèi)旋轉(zhuǎn)以及平面外旋轉(zhuǎn)。在第52 幀,目標(biāo)快速移動(dòng)造成了運(yùn)動(dòng)模糊,由于CIResNet22-FC 只學(xué)習(xí)了深度特征,缺乏一定的空間信息最終跟蹤失敗,而本文算法嵌入了雙重注意力機(jī)制,增強(qiáng)了對(duì)目標(biāo)重要特征的表達(dá),實(shí)現(xiàn)了精準(zhǔn)的跟蹤。Tiger2 序列存在光照變化、遮擋、形變以及出視野的困難因素。在第174 幀,目標(biāo)所處環(huán)境光照發(fā)生劇烈變化,只有本文算法預(yù)測框能夠準(zhǔn)確完整鎖定目標(biāo),進(jìn)一步體現(xiàn)所提算法應(yīng)對(duì)復(fù)雜環(huán)境具備較強(qiáng)的魯棒性。

        圖15 OTB100 數(shù)據(jù)集上一些序列的跟蹤結(jié)果Fig.15 Tracking results of some sequences on OTB100 benchmark

        從上述分析可以看出,所提算法能夠在多種困難挑戰(zhàn)下對(duì)目標(biāo)進(jìn)行精準(zhǔn)的定位,實(shí)現(xiàn)了高精度跟蹤這一目標(biāo)。

        2.3 VOT2018 實(shí)驗(yàn)分析

        VOT 是視覺領(lǐng)域一年一度的目標(biāo)跟蹤競賽,VOT 數(shù)據(jù)集也成為當(dāng)前業(yè)內(nèi)主流測試集之一。VOT2018 數(shù)據(jù)集一共包括60 組視頻序列,它定義的真實(shí)目標(biāo)框是旋轉(zhuǎn)矩形框,相比OTB100 軸對(duì)齊矩形框更加精細(xì),跟蹤也更具難度。VOT2018 主要有三項(xiàng)跟蹤性能衡量指標(biāo),分別為平均期望重疊率EAO(expect average overlap rate)、準(zhǔn)確率A(accuracy)、魯棒性R(robustness)。

        為進(jìn)一步驗(yàn)證所提算法的通用性,表2 展示了在VOT2018 數(shù)據(jù)集上的測試結(jié)果,對(duì)比算法包括DSiam[27]、DCFNet、DensSiam[28]、SiamFC、Staple[29]以及KCF,表中加粗字體表示最優(yōu)結(jié)果,下劃線表示次優(yōu)結(jié)果??梢钥闯?,所提算法在平均期望重疊率指標(biāo)位列第一,有著不錯(cuò)的跟蹤表現(xiàn)。對(duì)比基準(zhǔn)算法SiamFC,本文算法EAO 指標(biāo)提升近0.06,同時(shí)準(zhǔn)確率和魯棒性都得到了大幅改進(jìn)。DensSiam 算法同樣是以SiamFC 為基礎(chǔ)做改進(jìn),將其骨干網(wǎng)絡(luò)AlexNet 替換為密集連接的DenseNet,提高特征提取水平。而本文算法在替換骨干網(wǎng)絡(luò)為輕量級(jí)的ShuffleNet 的同時(shí),嵌入了通道與空間雙重注意力機(jī)制來突出重要特征,進(jìn)一步強(qiáng)化了特征判別能力,故在各項(xiàng)指標(biāo)跟蹤表現(xiàn)更為優(yōu)異。相比使用傳統(tǒng)特征的Staple 算法,所提算法學(xué)習(xí)到更強(qiáng)大的深度特征,EAO 指標(biāo)提升0.077。同時(shí),本文算法跟蹤速度可以達(dá)到110 FPS,高于基準(zhǔn)SiamFC 算法的90 FPS,雖然不及KCF 算法能達(dá)到150 FPS,但在精度方面占據(jù)了更大優(yōu)勢。綜上來看,本文算法能夠更好地平衡跟蹤精度與速度,具備更大的發(fā)展空間。

        表2 7 種算法在VOT2018 上的表現(xiàn)對(duì)比Table 2 Performance comparison of 7 trackers on VOT2018 benchmark

        2.4 模型參數(shù)量與計(jì)算量分析

        通過與SiamFC 算法的骨干網(wǎng)絡(luò)的參數(shù)量、計(jì)算量以及模型大小三項(xiàng)指標(biāo)進(jìn)行對(duì)比,進(jìn)一步驗(yàn)證本文算法的輕量程度。參數(shù)量指的是神經(jīng)網(wǎng)絡(luò)中神經(jīng)元的數(shù)目,計(jì)算量包含神經(jīng)網(wǎng)絡(luò)中卷積層與批量歸一化層的乘法和加法的次數(shù)總和,模型大小則是指通過離線訓(xùn)練得到最終模型占用的存儲(chǔ)量。設(shè)輸入模板圖像的大小為127,對(duì)比結(jié)果如表3。所提算法由于使用了深度可分離卷積和通道重排策略,在三項(xiàng)指標(biāo)中均表現(xiàn)優(yōu)異。從參數(shù)量和計(jì)算量來看,SiamFC 幾乎是本文算法的10 倍,ResNet 則更多。此外,本文算法的模型占用空間僅有約1 MB,也遠(yuǎn)遠(yuǎn)小于另外兩種模型。

        表3 不同模型的參數(shù)量、計(jì)算量和模型大小Table 3 Number of parameters,calculation amount and model size of different models

        從上述分析可以看出所提算法不僅計(jì)算量少,模型存儲(chǔ)占用也很小,在保持輕量的同時(shí)兼顧跟蹤精度,發(fā)展?jié)摿εc應(yīng)用價(jià)值都可見一斑。

        2.5 消融實(shí)驗(yàn)

        2.5.1 成分有效性分析

        為了驗(yàn)證本文所提出的三點(diǎn)改進(jìn)策略——使用改進(jìn)后的輕量級(jí)網(wǎng)絡(luò)ShuffleNet 作為骨干網(wǎng)絡(luò)提取特征、通道與空間雙重注意力機(jī)制(spatial and channel attention,SCA)以及分層特征融合(hierarchical feature fusion,HF)的有效性,在OTB100 數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn),以SiamFC 作為基礎(chǔ)算法,實(shí)驗(yàn)結(jié)果如表4 所示。

        表4 本文算法與基礎(chǔ)算法消融實(shí)驗(yàn)Table 4 Ablation experiment of proposed algorithm and benchmark algorithms

        從實(shí)驗(yàn)結(jié)果可以看出,替換SiamFC 主干網(wǎng)絡(luò)為輕量級(jí)的ShuffleNet,跟蹤準(zhǔn)確率得到了明顯的提升,其中在重疊成功率指標(biāo)提升了0.039,這得益于深層網(wǎng)絡(luò)較淺層網(wǎng)絡(luò)更強(qiáng)的特征表達(dá)能力。其次,使用分層特征融合策略在重疊成功率指標(biāo)獲得了0.008 的增益,而嵌入通道與空間雙重注意力機(jī)制提升了0.006。最后,同時(shí)融合三點(diǎn)改進(jìn)策略得到最佳跟蹤效果。

        2.5.2 特征融合可視化分析

        為了更加直觀地說明分層特征融合策略在應(yīng)對(duì)復(fù)雜場景中目標(biāo)變化的有效性,本小節(jié)對(duì)算法中衡量相似度時(shí)用到的Stage2 末層和最后一層生成的響應(yīng)圖,以及最終融合后的響應(yīng)圖進(jìn)行了可視化,如圖16。可視化結(jié)果第一列為原圖像,其中被跟蹤的目標(biāo)由紅框標(biāo)注;第二、三列展示了Stage2末層和最后一層經(jīng)過相似度量得到的響應(yīng)圖;最后一列是特征融合后的響應(yīng)圖。可以看出,融合后的響應(yīng)圖相比單一的響應(yīng)圖能量更加集中,在干擾較少的區(qū)域幾乎沒有能量響應(yīng)。在第2 幀中,目標(biāo)周圍有相似干擾物,Stage2 末層的響應(yīng)圖的峰值很突出,但最后一層的響應(yīng)圖卻是能量分散沒有聚焦。而在第117 幀中,目標(biāo)也幾乎與其他球員重疊,最后一層的響應(yīng)圖卻比Stage2 末層的響應(yīng)圖能量更加集中。由此可以看出,單單使用一層特征生成的響應(yīng)圖是不夠全面的,相反,不同層提取的特征可以進(jìn)行互補(bǔ)完善,因此,使用分層特征融合可以從多個(gè)角度對(duì)目標(biāo)進(jìn)行表征,改善響應(yīng)圖質(zhì)量從而提升跟蹤質(zhì)量。

        圖16 特征融合可視化Fig.16 Feature fusion visualization

        3 結(jié)束語

        本文在SiamFC 算法的基礎(chǔ)上為兼顧跟蹤精度與速度,提出了一種特征增強(qiáng)的輕量級(jí)孿生網(wǎng)絡(luò)高速跟蹤算法。使用改進(jìn)后的ShuffleNetV2 作為骨干網(wǎng)絡(luò)提取目標(biāo)特征,通過在網(wǎng)絡(luò)的最后嵌入通道與空間雙重注意力增強(qiáng)特征信息,突顯重要特征,最后分層融合特征響應(yīng)圖,提升模型泛化能力。所提算法在OTB100 和VOT2018 數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn),結(jié)果表明了本文算法在跟蹤精度、成功率以及速度上遙遙領(lǐng)先基準(zhǔn)SiamFC 算法。在OTB100 上的跟蹤精度和成功率分別達(dá)到了0.854和0.647;在VOT2018數(shù)據(jù)集上的預(yù)期平均重疊率達(dá)到了0.246;同時(shí)在NVIDIA 1070 下的速度達(dá)到110 FPS 實(shí)現(xiàn)了高速跟蹤。所提算法在跟蹤精度提升的前提下,大幅度提升了跟蹤速度,完成了高速而準(zhǔn)確的跟蹤,具有一定的應(yīng)用價(jià)值與發(fā)展?jié)摿Α?/p>

        猜你喜歡
        注意力卷積精度
        讓注意力“飛”回來
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于DSPIC33F微處理器的采集精度的提高
        電子制作(2018年11期)2018-08-04 03:25:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        GPS/GLONASS/BDS組合PPP精度分析
        改進(jìn)的Goldschmidt雙精度浮點(diǎn)除法器
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
        亚洲高潮喷水无码av电影| 国产日产韩国级片网站| 中国一级黄色片久久久| 国产成人精品久久综合| 欧美视频二区欧美影视| 亚洲亚洲亚洲亚洲亚洲天堂| 亚洲人成精品久久熟女| 国产一精品一av一免费爽爽| 精品久久久噜噜噜久久久| 日韩熟妇精品视频一区二区| 亚洲乱码中文字幕第一页| 在线中文字幕乱码英文字幕正常 | 午夜精品久久久久久中宇| 美女超薄透明丝袜美腿| 日韩有码在线免费视频| 无码av中文一区二区三区 | 国产精品成人免费视频一区| 欧洲-级毛片内射| 国产免费一区二区三区免费视频| 国产精品久久久久久人妻精品| 福利片免费 亚洲| 精品人妻久久一日二个| 亚洲精品久久| 国产精品视频流白浆免费视频| 午夜在线观看一区二区三区四区 | 精品露脸国产偷人在视频| 亚洲国产成人精品无码区99| 欧亚精品无码永久免费视频 | 成熟人妻换xxxx| 亚洲日韩v无码中文字幕| 日韩亚洲欧美精品| 性感美女脱内裤无遮挡| 中文字幕久久熟女蜜桃 | 国产69精品久久久久久久| 美女啪啪国产| 免费黄网站一区二区三区| 久久精品亚洲精品国产色婷| 国产精品露脸视频观看| 最新国产av网址大全| 国产福利一区二区三区在线视频| 亚洲精品综合欧美一区二区三区|