亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合層次特征和混合注意力的目標(biāo)跟蹤算法

        2022-04-12 09:24:40朱文球鄒廣曾志高
        計(jì)算機(jī)應(yīng)用 2022年3期
        關(guān)鍵詞:集上注意力卷積

        朱文球,鄒廣,曾志高

        (1.湖南工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,湖南株洲 412000;2.湖南省智能信息感知與處理技術(shù)重點(diǎn)實(shí)驗(yàn)室,湖南株洲 412000)

        0 引言

        最近幾年,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在跟蹤任務(wù)中被廣泛應(yīng)用,使跟蹤器的各種性能都有了很大提升。目前,目標(biāo)跟蹤仍然面臨著很大挑戰(zhàn),比如目標(biāo)快速移動(dòng)、背景干擾、尺度變換、低分辨率等。為解決在現(xiàn)實(shí)場(chǎng)景中遇到的問(wèn)題,各個(gè)專家學(xué)者有針對(duì)性地提出了不同的目標(biāo)跟蹤算法。

        Bertinetto 等[1]提出了全卷積孿生網(wǎng)絡(luò)的目標(biāo)跟蹤(Fully-Convolutional Siamese network for object tracking,

        SiamFC)算法,通過(guò)AlexNet 模型提取模板特征和搜索區(qū)域特征,采用相似度度量的方法對(duì)特征進(jìn)行互相關(guān)運(yùn)算,得到響應(yīng)圖,根據(jù)響應(yīng)圖得分預(yù)測(cè)目標(biāo)位置;Valmadre 等[2]結(jié)合相關(guān)濾波和深度學(xué)習(xí),提出CFNet(end-to-end represention learning for Correlation Filter in deep neural Network)跟蹤算法,并且實(shí)現(xiàn)了網(wǎng)絡(luò)端到端訓(xùn)練,有效地提升了算法精度,但面對(duì)目標(biāo)遮擋等問(wèn)題時(shí)跟蹤效果不佳;Zhang 等[3]通過(guò)分析深層網(wǎng)絡(luò)應(yīng)用在孿生網(wǎng)絡(luò)中的問(wèn)題,提出一個(gè)能夠擴(kuò)展更深層數(shù)的網(wǎng)絡(luò)結(jié)構(gòu)SiamDW(Deeper and Wider Siamese Network),利用了深層網(wǎng)絡(luò)提取特征更充分的優(yōu)勢(shì);Li 等[4]在SiamFC 基礎(chǔ)上引入了目標(biāo)檢測(cè)中常用的區(qū)域候選網(wǎng)絡(luò)(Region Proposal Network,RPN),并提出孿生區(qū)域候選網(wǎng)絡(luò)(SiamRPN)算法,將目標(biāo)跟蹤問(wèn)題看成兩階段問(wèn)題,分為檢測(cè)分支和回歸分支,但對(duì)不同通道和位置特征一視同仁,沒(méi)有突出感興趣區(qū)域;Wang 等[5]采用三種不同的注意力機(jī)制[6]相融合的方式得到目標(biāo)位置的映射,僅僅利用到了網(wǎng)絡(luò)最后輸出的語(yǔ)義特征,缺少位置特征,不利于目標(biāo)定位。在實(shí)際場(chǎng)景中,目標(biāo)跟蹤過(guò)程中經(jīng)常由于目標(biāo)快速運(yùn)動(dòng)[7]、尺度變換[8]、背景復(fù)雜干擾、圖像分辨率低等問(wèn)題導(dǎo)致跟蹤失敗或者跟蹤漂移。SiamFC 算法由于其較淺網(wǎng)絡(luò)層數(shù)和簡(jiǎn)單模板圖像裁剪,導(dǎo)致:1)特征不具有目標(biāo)強(qiáng)判別性,面對(duì)干擾場(chǎng)景容易跟蹤失敗;2)模板圖像中包含的背景信息被當(dāng)成正樣本處理,在跟蹤過(guò)程中遇到背景相似物體時(shí)會(huì)跟蹤失敗,導(dǎo)致跟蹤精度下降。

        針對(duì)上述存在的僅利用語(yǔ)義信息作為對(duì)目標(biāo)的判別依據(jù)和忽略不同通道、位置特征之間權(quán)重等問(wèn)題,本文在孿生網(wǎng)絡(luò)框架基礎(chǔ)上,提出結(jié)合特征融合與注意力機(jī)制的跟蹤算法(簡(jiǎn)稱DeepSiamFC-Attn),主要工作如下:1)主干網(wǎng)絡(luò)采用改良的ResNet50[9],結(jié)合空洞卷積[10]增大感受野(Receptive Field),獲取更豐富的上下文信息。2)融合空間自注意力[11]和通道注意力[12]的混合注意力機(jī)制(Hybrid-Attn)對(duì)通道數(shù)和空間位置進(jìn)行選擇。本文根據(jù)目標(biāo)跟蹤任務(wù)特性設(shè)計(jì)了不同于傳統(tǒng)的通道注意力和空間注意力,使用計(jì)算量更小的通道注意力。通過(guò)空間自注意力反映任意兩個(gè)位置之間的相關(guān)關(guān)系,得到不同位置的響應(yīng),幫助更好地定位目標(biāo)。3)目標(biāo)特征經(jīng)過(guò)網(wǎng)絡(luò)中混合注意力機(jī)制篩選,能夠提取高層次語(yǔ)義信息,并且同低層紋理、位置、顏色等特征進(jìn)行互相關(guān)計(jì)算后再自適應(yīng)加權(quán)融合,得到更充分的目標(biāo)外觀特征,以適應(yīng)目標(biāo)外觀變化,從而提高網(wǎng)絡(luò)判別力,更好地區(qū)分目標(biāo)和背景。4)本文算法在基準(zhǔn)數(shù)據(jù)集上取得了不錯(cuò)的跟蹤效果,速度達(dá)到52 frame/s,滿足實(shí)時(shí)性要求。

        1 基準(zhǔn)孿生網(wǎng)絡(luò)算法

        SiamFC 跟蹤算法關(guān)鍵點(diǎn)是采用離線訓(xùn)練,在線微調(diào)網(wǎng)絡(luò),能有效提高算法速度。SiamFC 網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。

        圖1 SiamFC網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of SiamFC

        在采用全卷積網(wǎng)絡(luò)時(shí),搜索圖像尺寸不需要同模板圖像一致,能夠?yàn)榫W(wǎng)絡(luò)提供更大的搜索區(qū)域,計(jì)算更多子窗口的相似度?;ハ嚓P(guān)計(jì)算函數(shù)公式如式(1)所示:

        式中:x是輸入搜索圖像,z是輸入模板圖像;φ為特征提取網(wǎng)絡(luò);?代表卷積操作;b1表示在得分圖中每個(gè)位置取值的偏差值;f(z,x)表示z與x相似度得分。得分最高的位置即目標(biāo)位置。

        2 本文跟蹤算法

        基于孿生網(wǎng)絡(luò)思想,本文采用層數(shù)更深的ResNet50 作為特征提取主干網(wǎng)絡(luò)。在網(wǎng)絡(luò)中嵌入混合注意力機(jī)制分別對(duì)通道特征進(jìn)行選擇性增強(qiáng)和對(duì)空間特征進(jìn)行選擇,獲取圖像更豐富的上下文信息。

        2.1 網(wǎng)絡(luò)總體結(jié)構(gòu)

        網(wǎng)絡(luò)結(jié)構(gòu)和各層對(duì)應(yīng)操作如表1 所示。網(wǎng)絡(luò)共分5 個(gè)塊,第2~5 個(gè)網(wǎng)絡(luò)塊的殘差塊個(gè)數(shù)分別為(3,4,6,3),其中Block 代表網(wǎng)絡(luò)塊,Hybrid-Attn 表示混合注意力機(jī)制。Block1中的7×7 代表卷積核大小,64 代表輸出通道數(shù),maxp代表最大池化,s=2 表示下采樣操作,步長(zhǎng)為2。

        表1 網(wǎng)絡(luò)結(jié)構(gòu)及各網(wǎng)絡(luò)塊執(zhí)行的操作Tab.1 Network structure and corresponding operation of each block

        本文算法的目標(biāo)是不僅在深度網(wǎng)絡(luò)中學(xué)習(xí)到目標(biāo)語(yǔ)義特征,更要學(xué)習(xí)到低層顏色、外觀等輪廓特征,把兩者相融合,更好地幫助目標(biāo)定位。在模板分支和模板下,對(duì)經(jīng)第2個(gè)網(wǎng)絡(luò)塊(Block2)輸出的特征進(jìn)行選擇,篩選較為明顯的底層特征(紋理、位置、顏色等);對(duì)第4 個(gè)網(wǎng)絡(luò)塊(Block4)輸出的較高層語(yǔ)義特征進(jìn)行選擇,給予響應(yīng)得分高的位置更大權(quán)重,提高模型對(duì)正負(fù)樣本的區(qū)分能力。本文在3.4 節(jié)進(jìn)行了網(wǎng)絡(luò)塊選取對(duì)比實(shí)驗(yàn)。

        最后,對(duì)經(jīng)過(guò)3 個(gè)網(wǎng)絡(luò)塊模板圖像輸出特征和搜索圖像輸出特征進(jìn)行互相關(guān)操作,將低層次響應(yīng)圖和高層響應(yīng)圖做自適應(yīng)融合,得到最后輸出特征響應(yīng)圖。低層次特征做互相關(guān)得到的響應(yīng)圖能凸出目標(biāo)大致位置與輪廓,幫助定位目標(biāo);而高層次響應(yīng)圖對(duì)目標(biāo)與背景有更好區(qū)分度。響應(yīng)圖中得分最高的位置即為目標(biāo)位置,映射到原圖像中定位當(dāng)前目標(biāo)位置。總體算法模型如圖2所示。本文算法流程如圖3 所示。

        圖2 DeepSiamFC-Attn網(wǎng)絡(luò)模型Fig.2 Network model of DeepSiamFC-Attn

        圖3 DeepSiamFC-Attn算法流程Fig.3 Flowchart of DeepSiamFC-Attn algorithm

        2.2 層次特征自適應(yīng)加權(quán)融合

        ResNet50 網(wǎng)絡(luò)總步長(zhǎng)為32,會(huì)導(dǎo)致模板圖像經(jīng)過(guò)主干網(wǎng)絡(luò)提取特征后,特征圖分辨率會(huì)變得過(guò)小。為了避免這種情況,對(duì)最后3 個(gè)網(wǎng)絡(luò)塊不進(jìn)行下采樣操作,而是使用空洞率分別為2 和4 的空洞卷積。其中Block2 設(shè)置空洞率為2,Block4 設(shè)置空洞率為4,使用空洞卷積的優(yōu)勢(shì)就是能夠在同樣分辨率下增加感受野。在不做池化操作損失信息的情況下,加大了感受野,能讓每個(gè)輸出位置像素都包含較大范圍的信息,從而聚合圖像中不同尺寸的上下文信息,獲取多尺度信息。通過(guò)提高分辨率可以更加精確地定位目標(biāo),同時(shí)消除因?yàn)榫矸e填補(bǔ)操作對(duì)目標(biāo)帶來(lái)的平移影響。感受野增大的效果如圖4 所示,卷積核大小為3×3,左上角的矩形框代表一個(gè)點(diǎn)的感受野大小,外圍最大的矩形框代表整體感受野大小。

        每個(gè)元素感受野大小計(jì)算公式如式(2)所示:

        式中:k0,k1,…,ki,…,kn-2均為3× 3 大小,F(xiàn)表示經(jīng)卷積計(jì)算后的圖像,F(xiàn)0表示原圖像。每一層元素感受野大小都是在得到上一層圖像卷積結(jié)果上進(jìn)行計(jì)算。由此可見(jiàn)第i層采用2i大小的空洞率時(shí),得到第i+1 層每個(gè)元素感受野大小為(2i-1)×(2i-1)。由圖4 可見(jiàn)使用空洞卷積后,感受野的大小明顯增大。

        圖4 感受野結(jié)果Fig.4 Receptive field results

        本文算法以孿生網(wǎng)絡(luò)為基礎(chǔ),經(jīng)過(guò)網(wǎng)絡(luò)提取特征后,對(duì)模板特征圖和搜索特征圖進(jìn)行互相關(guān)操作,如圖5 所示。對(duì)目標(biāo)提取了三種不同層次(Block3、Block4、Block5)的卷積特征,模板分支和搜索分支進(jìn)行互相關(guān)操作得到3 個(gè)特征圖,對(duì)其進(jìn)行加權(quán)融合特征。加權(quán)融合的權(quán)重根據(jù)經(jīng)過(guò)混合注意力機(jī)制得到的空間和通道置信圖響應(yīng)位置分配。通過(guò)通道注意力機(jī)制,根據(jù)Sigmoid 函數(shù)給出的各位置響應(yīng)大小,依據(jù)置信圖,響應(yīng)位置高給予更高的權(quán)重,更符合目標(biāo)定位特征。如圖5 中響應(yīng)特征圖所示,響應(yīng)值越高的位置,對(duì)應(yīng)特征圖所占比權(quán)重就越大。計(jì)算公式如式(3)所示:統(tǒng)計(jì)響應(yīng)值高的位置數(shù)目,依次找出最大值,通過(guò)一個(gè)softmax 函數(shù)得到各權(quán)重大小。

        圖5 相似度計(jì)算結(jié)構(gòu)Fig.5 Structure of similarity computing

        式中:R表示置信圖,i、j、k表示置信圖中的位置,w(·)表示各位置響應(yīng)值。根據(jù)注意力機(jī)制篩選的置信圖位置得到自適應(yīng)權(quán)重,能更充分地結(jié)合低層模板特征與高層語(yǔ)義特征。

        式中:C代表響應(yīng)值高的位置數(shù)目,X1、X2、X3分別表示網(wǎng)絡(luò)塊Block3、Block4、Block5 的輸出特征,α1、α2、α3分別為三層特征權(quán)重,F(xiàn)代表最終融合特征。

        2.3 混合注意力(Hybrid-Attn)設(shè)計(jì)與實(shí)現(xiàn)

        本文通過(guò)引入混合注意力機(jī)制,篩選出對(duì)目標(biāo)響應(yīng)程度高且能反映目標(biāo)語(yǔ)義特征和位置特征的通道信息和空間信息,更關(guān)注這部分信息,賦予更大權(quán)重,有效提高對(duì)特征信息的處理準(zhǔn)確率,提升對(duì)正負(fù)樣本的辨別力。

        根據(jù)目標(biāo)跟蹤任務(wù)特性,本文算法設(shè)計(jì)了一種混合注意力機(jī)制,由空間注意力模塊和通道注意力模塊組成。空間注意力模塊是基于特征圖相同位置像素之間相關(guān)依賴結(jié)構(gòu)來(lái)表征特征,更強(qiáng)調(diào)內(nèi)部元素之間相關(guān)關(guān)系。因此采用更能捕捉內(nèi)部數(shù)據(jù)與特征之間關(guān)系的空間自注意力機(jī)制,建立任意兩個(gè)位置間相關(guān)關(guān)系,對(duì)其中某個(gè)特定位置的特征可通過(guò)所有位置特征信息進(jìn)行加權(quán)求和來(lái)更新。通道注意力模塊是基于特征圖不同通道之間對(duì)不同目標(biāo)的響應(yīng)程度不同的相關(guān)關(guān)系來(lái)表征目標(biāo)特征。響應(yīng)相關(guān)程度高的通道代表的是同一目標(biāo),給予高響應(yīng)權(quán)重,響應(yīng)程度低的通道給予低響應(yīng)權(quán)重,從而自適應(yīng)調(diào)整特征響應(yīng)。傳統(tǒng)的通道注意力機(jī)制采用多層感知機(jī)的方式計(jì)算各通道權(quán)重,這種方式由于大量全連接層的使用,增加了巨額參數(shù),降低了計(jì)算速度,影響算法實(shí)時(shí)性。本文算法設(shè)計(jì)引入了ECA-Net[13]中的ECA(Efficient Channel Attention)模塊,避免了采用全連接層降維帶來(lái)的負(fù)面影響,同時(shí)適當(dāng)跨信道交互可以顯著減少模型參數(shù)。該策略通過(guò)一維卷積實(shí)現(xiàn),利用卷積操作權(quán)值共享特性,同采用多層感知機(jī)全連接層彼此相連相比,參數(shù)量明顯降低,從而保證了算法實(shí)時(shí)性。

        卷積層注意力模塊分成通道模塊和空間模塊,沿著兩個(gè)獨(dú)立維度對(duì)特征進(jìn)行推斷。通過(guò)與輸入特征相乘,自適應(yīng)地對(duì)特征進(jìn)行提優(yōu)。這種注意力模塊可以與卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)結(jié)構(gòu)一起使用,不會(huì)增加額外參數(shù),并且能實(shí)現(xiàn)端到端訓(xùn)練?;旌献⒁饬δK框架如圖6 所示。通道注意力和空間注意力模塊以并聯(lián)方式進(jìn)行工作,卷積層輸出特征圖同時(shí)通過(guò)通道注意力模塊和空間注意力模塊篩選,得到加權(quán)結(jié)果后進(jìn)行元素級(jí)相加,最終經(jīng)過(guò)加權(quán)得到結(jié)果。

        圖6 混合注意力模塊框架Fig.6 Framework of hybrid-attention module

        整個(gè)過(guò)程表示如式(6)所示:

        式中:F∈RC×H×W為輸入特征,AttnC為通道注意力模塊,AttnS為空間注意力模塊,?表示逐元素相乘(element-wise multiplication),F(xiàn)′是最終精煉后的輸出特征。

        混合注意力機(jī)制具體實(shí)現(xiàn)如圖7 所示,通道注意力模塊(C-Attn)對(duì)輸入特征圖F進(jìn)行尺寸壓縮,經(jīng)全局平均池化得到一個(gè)特征向量f=(f1,f2,…,fc),作為一維卷積層的輸入,其中fi∈R。經(jīng) 過(guò)Sigmoid 函數(shù)得到權(quán)重向量P=(p1,p2,…,pc),其中pi∈R,然后將權(quán)重向量與輸入特征F進(jìn)行元素級(jí)相乘,經(jīng)張量變換操作調(diào)整特征圖大小后,最終得到經(jīng)通道注意力篩選的特征∈RC×h×w。其中卷積核K的大小通過(guò)自適應(yīng)計(jì)算得到并應(yīng)用于一維卷積中,具體計(jì)算方法如式(7):

        圖7 混合注意力實(shí)現(xiàn)模塊Fig.7 Hybrid-Attention implementation module

        本文實(shí)驗(yàn)根據(jù)通道一般都取2 的指數(shù)的情況,設(shè)定r=2,b=1。通過(guò)自適應(yīng)卷積核大小K來(lái)完成跨通道間信息交互,讓擁有較多通道數(shù)的網(wǎng)絡(luò)層可以更多地進(jìn)行通道間交互。

        空間注意力模塊是對(duì)通道注意力的一種補(bǔ)充。通過(guò)考慮元素級(jí)之間的內(nèi)部特征關(guān)系,建立任意兩個(gè)位置間的相關(guān)關(guān)系。通過(guò)空間自注意力機(jī)制增強(qiáng)對(duì)特征的表征能力,幫助更好地定位目標(biāo)。本文算法將輸入特征圖F經(jīng)過(guò)一個(gè)單獨(dú)的1× 1 卷積并通過(guò)三個(gè)轉(zhuǎn)換函數(shù)執(zhí)行張量轉(zhuǎn)換操作得到三個(gè)特征向量Q、K∈RC′×HW,V∈RC×HW,對(duì)向量Q轉(zhuǎn)置后與向量K進(jìn)行矩陣乘法后再通過(guò)一個(gè)softmax 層,得到結(jié)果βi,j。計(jì)算如式(8)所示:

        其中βi,j表示第i個(gè)位置區(qū)域與第j個(gè)位置區(qū)域之間的權(quán)重。將結(jié)果βi,j與向量V進(jìn)行元素級(jí)乘法,再經(jīng)過(guò)一層卷積核大小為7×7 卷積和Sigmoid 激活函數(shù)作用,得到帶有權(quán)重的特征向量Ω=(ω1,ω2,…,ωc),其中ωi∈R。

        如式(9)所示,Ω同輸入特征F相乘并經(jīng)過(guò)一個(gè)張量轉(zhuǎn)換操作,使之能同通道注意力模塊篩選的特征進(jìn)行相加,得到最后與目標(biāo)相似度高的輸出特征∈RC×h×w。

        其中α是一個(gè)超參數(shù)。初始化為0.000 1,然后漸漸增大賦予更大的權(quán)重,能夠適應(yīng)剛開(kāi)始時(shí)的簡(jiǎn)單任務(wù),到后期面對(duì)更復(fù)雜的任務(wù)。

        最后混合注意力的輸出是將經(jīng)通道注意力模塊和空間注意力模塊篩選后的特征進(jìn)行相加,得到表征能力更強(qiáng)的特征圖。本文算法采用相加的方式是因?yàn)槿魏我环N估算都無(wú)法準(zhǔn)確地同時(shí)獲取不同視頻中目標(biāo)的共同特征和外觀,而相加操作能疊加局部和全局信息來(lái)實(shí)現(xiàn)這種估算可能性。

        2.4 網(wǎng)絡(luò)訓(xùn)練

        網(wǎng)絡(luò)通過(guò)對(duì)正負(fù)樣本進(jìn)行訓(xùn)練,構(gòu)造損失函數(shù),通過(guò)最小化損失值來(lái)最優(yōu)化模型參數(shù)。本文使用logistic 函數(shù)來(lái)求損失值。正樣本表示為不超過(guò)中心一定距離范圍(一般這個(gè)范圍設(shè)置為20~30 個(gè)像素距離)的點(diǎn),超過(guò)這個(gè)范圍即標(biāo)記為負(fù)樣本。單個(gè)圖像像素點(diǎn)損失函數(shù)定義為:

        l(y,v)=log(1+exp(-yv)) (11)

        式中:y∈(+1,-1)表示樣本真實(shí)標(biāo)簽值;v表示單個(gè)搜索圖像候選對(duì)的實(shí)際得分。網(wǎng)絡(luò)訓(xùn)練時(shí)采用所有位置點(diǎn)的平均損失值來(lái)表示損失,如式(3)所示:

        式中:D表示得分圖,u為每個(gè)搜索位置,v[u]表示每個(gè)位置的得分。

        本文算法在原來(lái)的損失函數(shù)基礎(chǔ)上追加一個(gè)時(shí)間序列上的權(quán)重函數(shù)ω(i,j),其中μ是一個(gè)常數(shù),讓網(wǎng)絡(luò)能夠選取到與目標(biāo)幀相近的幀圖像而不是相距較遠(yuǎn)的幀圖像。選取相鄰幀圖像對(duì)能夠有效避免過(guò)擬合,因?yàn)檫x取到的模板圖像中若包含有過(guò)多的背景信息,會(huì)導(dǎo)致loss值過(guò)小,陷入過(guò)擬合狀態(tài)。

        網(wǎng)絡(luò)訓(xùn)練時(shí)采用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)來(lái)最小化損失函數(shù),如式(15)所示:

        式中:θ為網(wǎng)絡(luò)參數(shù);E 表示數(shù)學(xué)期望。算法具體訓(xùn)練實(shí)現(xiàn)過(guò)程和測(cè)試過(guò)程如算法1、2 所示。

        算法1 離線訓(xùn)練。

        輸入 模板圖像Z和對(duì)應(yīng)目標(biāo)真實(shí)邊界框,搜索圖像X和對(duì)應(yīng)目標(biāo)真實(shí)邊界框,隨機(jī)初始化網(wǎng)絡(luò)參數(shù)θ,設(shè)置超參數(shù)α=0.000 1。

        輸出 打印loss值print(loss),刷新緩存sys.stdout.flush()。

        預(yù)處理 使用crop_and_resize(Z,X)裁剪和調(diào)整圖像Z、X的大小。設(shè)置torch.device(“cuda:0”)GPU和cuda加速計(jì)算過(guò)程。定義主干網(wǎng)絡(luò)和互相關(guān)函數(shù)self.Net=(backbone,cross_correlation)。定義損失函數(shù)self.criterion=BalancedLoss()。定義優(yōu)化器self.optimizer=optim.SGD(param,learning_rate,weight_decay,momentum)。

        Whileepoch>0&輸入視頻序列不為空do

        算法2 測(cè)試推理。

        輸入 測(cè)試視頻序列;初始幀X和對(duì)應(yīng)的目標(biāo)真實(shí)邊界框;計(jì)算φ(Z)、φ(X);計(jì)算:self.channel_attention(features);計(jì)算:self.spatial_self_attention(features)。

        輸出 Show_image()。

        預(yù)處理 裁剪和調(diào)整圖像X大小crop_and_resize(X);設(shè)置torch.device(“cuda:0”)GPU 和cuda加速計(jì)算過(guò)程;設(shè)置3個(gè)不同的尺度圖像塊X1、X2、X3。

        While 測(cè)試視頻序列不為空do

        3 實(shí)驗(yàn)與分析

        3.1 實(shí)驗(yàn)細(xì)節(jié)

        實(shí)驗(yàn)環(huán)境及硬件設(shè)備如下:CPU 為Intel Core i5-9400F CPU 2.90 GHz,顯卡為NVIDIAGeForce RTX 2070Super,內(nèi)存內(nèi)32 GB DDR4 RAM,使用Python 3.8 和Pytorch1.6、CUDA10.2 和CuDNN7.6。

        實(shí)驗(yàn)在GOT10K 數(shù)據(jù)集[14]上離線訓(xùn)練。GOT10K 數(shù)據(jù)集包含超過(guò)10 000 個(gè)真實(shí)移動(dòng)物體視頻片段和超過(guò)150 萬(wàn)個(gè)手動(dòng)標(biāo)記邊界框,涵蓋560 多個(gè)類別,驗(yàn)證集和測(cè)試集各包含180 個(gè)視頻序列。實(shí)驗(yàn)選取了其中前4 000 個(gè)視頻序列進(jìn)行訓(xùn)練。在OTB50[15]、OTB100[16]、VOT2018[17]和LaSOT 數(shù)據(jù)集[18]進(jìn)行測(cè)試。OTB50 有50 個(gè)視頻序列,OTB100 有100 個(gè)視頻序列,VOT2018 包含60 多個(gè)具有挑戰(zhàn)性的視頻序列。模板圖像大小為127×127×3,搜索圖像大小為255×255×3,均為RGB 三通道圖。ResNet50 經(jīng)過(guò)大量數(shù)據(jù)預(yù)訓(xùn)練,網(wǎng)絡(luò)訓(xùn)練時(shí)設(shè)置初始學(xué)習(xí)率為0.01,學(xué)習(xí)率由10-2按指數(shù)型衰減至10-5,批尺寸(batch_size)大小為8,訓(xùn)練50 輪(epoch),采用SGD 優(yōu)化器,動(dòng)量值(Momentum)設(shè)置為0.9,L2 懲罰項(xiàng)(weight_decay)設(shè)置為5E-4。實(shí)驗(yàn)使用3 個(gè)尺度比例([0.963 8,1,1.037 5])對(duì)搜索圖像進(jìn)行縮放。超參數(shù)α初始為0.000 1,按照指數(shù)型增加至10-2。網(wǎng)絡(luò)訓(xùn)練過(guò)程中l(wèi)oss變化如圖8 所示,驗(yàn)證集下loss 變化如圖9 所示。

        圖8 訓(xùn)練過(guò)程中l(wèi)oss值隨迭代次數(shù)變化Fig.8 Loss value changes with iterations during training process

        圖9 驗(yàn)證集上loss值隨迭代次數(shù)變化Fig.9 Loss value varies with iterations on validation set

        3.2 定量分析

        OTB 數(shù)據(jù)集評(píng)測(cè)工具通過(guò)跟蹤精率(Precision)和跟蹤成功率(Success)這兩個(gè)指標(biāo)對(duì)跟蹤算法進(jìn)行評(píng)價(jià)。VOT2018數(shù)據(jù)集使用準(zhǔn)確率(Accuracy)、魯棒性(Robustness)和期望平均重疊率(Expected Averaged Overlap,EAO)三個(gè)指標(biāo)來(lái)對(duì)算法進(jìn)行評(píng)估。

        3.2.1 在OTB 與LaSOT 數(shù)據(jù)集上的跟蹤結(jié)果分析

        跟蹤精度的評(píng)估標(biāo)準(zhǔn)是中心位置誤差在T1(實(shí)驗(yàn)設(shè)置為20)個(gè)像素以內(nèi)的幀數(shù)占整個(gè)視頻序列幀數(shù)的百分比。跟蹤成功率指的是算法預(yù)測(cè)的目標(biāo)框和真實(shí)目標(biāo)框之間的交并比(Intersection-over-Union,IoU)大于閾值T2(實(shí)驗(yàn)設(shè)置為0.5)的幀數(shù)占整個(gè)視頻序列幀數(shù)的百分比。計(jì)算公式如式(16)所示:

        式中:Boxt、Boxg分別代表目標(biāo)預(yù)測(cè)框所圍成的區(qū)域面積和目標(biāo)真實(shí)框圍成的區(qū)域面積。

        從圖10 可以看到本文算法在OTB50 數(shù)據(jù)集上的跟蹤成功率和跟蹤精度分別為58.38%和77.54%,相較于使用AlexNet 網(wǎng)絡(luò)模型的SiamFC 分別提升6 個(gè)百分點(diǎn)和8 個(gè)百分點(diǎn),相較于基于通道性可靠的方法CSR-DCF(Discriminative Correlation Filter with Channel and Spatial Reliability)[19]提高5個(gè)百分點(diǎn)和3 個(gè)百分點(diǎn)。

        圖10 OTB50數(shù)據(jù)集上算法評(píng)測(cè)結(jié)果Fig.10 Algorithm evaluation results on OTB50 dataset

        從圖11 可以看到本文算法在OTB100 數(shù)據(jù)集上的跟蹤成功率和跟蹤精度分別為64.06%和81.25%,相較于基礎(chǔ)算法SiamFC 分別提升了5 個(gè)百分點(diǎn)和4 個(gè)百分點(diǎn),比結(jié)合了相關(guān)濾波和SiamFC 的CFNet 算法分別高出5 個(gè)百分點(diǎn)和4 個(gè)百分點(diǎn),比CSR-DCF 算法高出5 個(gè)百分點(diǎn)和1 個(gè)百分點(diǎn)??梢钥吹?,本文算法在OTB100 數(shù)據(jù)集上的跟蹤成功率比同樣引入了ResNet50 網(wǎng)絡(luò)的SiamDW 提高1 個(gè)百分點(diǎn)。本文算法在對(duì)ResNet50 進(jìn)行下采樣改進(jìn)的同時(shí)融合了混合注意力機(jī)制,選擇對(duì)目標(biāo)更具判別力的特征,因此能夠提高算法的穩(wěn)健性。由于本文算法樣本不同尺度選取方法的原因,雖然跟蹤效果遜色于融合了多維度尺度信息的MDNet(Multi-Domain convolutional neural Network)算法[20],但實(shí)時(shí)性更高。因此尺度選取方法也成為本文算法將來(lái)的改進(jìn)方向。

        圖11 OTB100數(shù)據(jù)集上算法評(píng)測(cè)結(jié)果Fig.11 Algorithm evaluation results on OTB100 dataset

        本文算法與其他10 種算法在已有的深度數(shù)據(jù)集上測(cè)試結(jié)果如表2 所示。本文算法在跟蹤精度和跟蹤成功率上都取得了不錯(cuò)成績(jī)。對(duì)比SiamFC,本文算法跟蹤成功率和跟蹤精度分別高出11.9 個(gè)百分點(diǎn)和7.4 個(gè)百分點(diǎn)。

        表2 LaSOT數(shù)據(jù)集上算法評(píng)測(cè)結(jié)果 單位:%Tab.2 Algorithm evaluation results on LaSOT dataset unit:%

        3.2.2 在VOT 數(shù)據(jù)集上的跟蹤結(jié)果分析

        通過(guò)計(jì)算每幀預(yù)測(cè)目標(biāo)框同目標(biāo)真實(shí)框之間的交并比(IoU),再對(duì)整個(gè)視頻序列求平均值,得到算法準(zhǔn)確率。魯棒性用來(lái)評(píng)估算法穩(wěn)健性,其數(shù)值越大,穩(wěn)健性越差。

        期望平均重疊率同準(zhǔn)確率和魯棒性有關(guān),首先定義視頻序列中幀長(zhǎng)度Ns的平均幀覆蓋率:

        式中Φi為預(yù)測(cè)目標(biāo)框與真實(shí)目標(biāo)框之間的準(zhǔn)確率。EAO 計(jì)算如式(18)所示:

        EAO 可作為對(duì)算法進(jìn)行綜合性能評(píng)估的指標(biāo)。

        為了進(jìn)一步驗(yàn)證本文算法的有效性,在VOT2018 數(shù)據(jù)集對(duì)本文算法和上述幾種算法進(jìn)行評(píng)估,結(jié)果如表3 所示。由表3 數(shù)據(jù)可以看出,本文算法同基準(zhǔn)算法SiamFC 對(duì)比,在VOT2018 數(shù)據(jù)集上的準(zhǔn)確率比SiamFC 提高了7 個(gè)百分點(diǎn),期望平均重疊率提高了9 個(gè)百分點(diǎn),比基于通道加權(quán)的算法CSR-DCF 分別高出12 個(gè)百分點(diǎn)和4 個(gè)百分點(diǎn),同時(shí)本文算法魯棒性也得到了增強(qiáng)。通過(guò)使用融合空洞卷積的深層次特征提取網(wǎng)絡(luò)模型,能夠提取對(duì)目標(biāo)更具判別力的特征,提高算法準(zhǔn)確率。平均跟蹤速度為52.2 frame/s,滿足實(shí)時(shí)性。

        表3 在VOT2018數(shù)據(jù)集上的評(píng)估結(jié)果Tab.3 Evaluation results on VOT2018 dataset

        3.3 定性分析

        為了驗(yàn)證本文算法有效性,從OTB 數(shù)據(jù)集選擇了具有挑戰(zhàn)性的序列對(duì)算法進(jìn)行測(cè)試,同時(shí)對(duì)比CFNet、結(jié)合深度學(xué)習(xí)特征的相關(guān)濾波算法(DeepSRDCF)和基準(zhǔn)孿生網(wǎng)絡(luò)算法SiamFC,以及基于通道加權(quán)可靠性算法CSR-DCF 等四種跟蹤算法。OTB 數(shù)據(jù)集中包含多個(gè)具有挑戰(zhàn)性的場(chǎng)景,如平面內(nèi)旋轉(zhuǎn)(In-Plane Rotation,IPR)、平面外旋轉(zhuǎn)(Out-of-Plane Rotation,OPR)、尺度變換(Scale Variation,SV)、低分辨率(Low Resolution,LR)、部分遮擋或完全遮擋(OCClusion,OCC)、光照強(qiáng)度(Illumination Variation,IV)、發(fā)生形變(DEFormation,DEF)、快速運(yùn)動(dòng)(Fast Motion,F(xiàn)M)、背景干擾(Background Clutters,BC)等。在對(duì)比實(shí)驗(yàn)中選取了Bolt、David3、Matrix、Singer2、Skating1、Walking2 六個(gè)視頻序列,這六個(gè)視頻序列包含多種挑戰(zhàn),如表4 所示。

        表4 各測(cè)試序列包含的挑戰(zhàn)屬性Tab.4 Challenge attributes included in each test sequence

        圖12 展示了包含本文算法在內(nèi)共5 種算法的跟蹤效果對(duì)比。

        圖12 各算法跟蹤結(jié)果定性比較Fig.12 Qualitative comparison of tracking results of various algorithms

        從實(shí)驗(yàn)結(jié)果可以看出,在這些有挑戰(zhàn)性的序列中本文算法都實(shí)現(xiàn)了比較好的跟蹤效果。

        1)平面內(nèi)外旋轉(zhuǎn)(IPR、OPR):在Bolt、Matrix、Singer2 三個(gè)序列中都存在著平面內(nèi)(外)旋轉(zhuǎn)挑戰(zhàn)。其中,在Bolt 序列中,CFNet 和SiamFC 算法在跟蹤過(guò)程中都出現(xiàn)了丟失目標(biāo)的情況,并且不能夠再找回目標(biāo)。本文算法和DeepSRDCF、CSR-DCF 算法能夠比較好應(yīng)對(duì)目標(biāo)平面內(nèi)外旋轉(zhuǎn)。

        2)部分遮擋或完全遮擋:在David3 序列中,目標(biāo)人物經(jīng)過(guò)樹(shù)旁時(shí)被遮擋,基礎(chǔ)算法SiamFC 對(duì)處理遮擋時(shí)不具有魯棒性,直接在第85 幀時(shí)丟失目標(biāo),而本文算法和其他三種算法都能較好應(yīng)對(duì)目標(biāo)任務(wù)被遮擋的場(chǎng)景。

        3)光照強(qiáng)度發(fā)生變化:在Matrix 序列和Singer2 序列以及Skating1 序列中,存在著強(qiáng)烈的光照強(qiáng)度變化,在目標(biāo)與背景顏色特征相同時(shí),包含CSR-DCF 在內(nèi)其他四種算法很容易就丟失目標(biāo),在第44 幀、第75 幀、第318 幀均沒(méi)有跟蹤到目標(biāo)。只有本文算法能夠跟到目標(biāo),本文算法融合多層特征對(duì)目標(biāo)特征更具判別力,因此能夠較好地跟蹤到目標(biāo),也證實(shí)了本文算法的有效性。

        4)低分辨率:在Walking2 序列中,存在低分辨率、目標(biāo)被遮擋、尺度變化等挑戰(zhàn)??梢钥吹皆诘?19 幀和第241 幀中有相似背景出現(xiàn)時(shí),CSR-DCF 算法和DeepSRDCF 算法會(huì)把背景當(dāng)作目標(biāo),本文算法則能較好地跟蹤到目標(biāo)。可見(jiàn)在低分辨率圖像下,本文算法也具有不錯(cuò)的跟蹤效果。

        3.4 消融實(shí)驗(yàn)

        為了驗(yàn)證本文算法有效性,對(duì)算法的主要組成模塊進(jìn)行消融實(shí)驗(yàn)對(duì)比。本文算法在基準(zhǔn)數(shù)據(jù)集OTB100 和VOT2018上進(jìn)行對(duì)比實(shí)驗(yàn)。

        表5 展示了不同層次網(wǎng)絡(luò)塊組合經(jīng)過(guò)混合注意力篩選后,進(jìn)行特征融合對(duì)算法性能的影響。可以看到Block1+Block2 和Block1+Block3 網(wǎng)絡(luò)塊的組合效果較差,因?yàn)檫@些組合沒(méi)有得到目標(biāo)的語(yǔ)義信息,僅有外觀和位置信息不能很好地識(shí)別目標(biāo)。同樣,Block3+Block4、Block3+Block5 和Block4+Block5 由于特征中缺乏目標(biāo)的外觀、位置等低層次信息,這使得定位目標(biāo)變得很困難。對(duì)于Block1+Block4、Block1+Block5 組合而言,由于Block1 的原因,一是提取特征圖像分辨率過(guò)高,導(dǎo)致網(wǎng)絡(luò)計(jì)算參數(shù)增大;二是因主干網(wǎng)絡(luò)層數(shù)過(guò)少,提取到的特征對(duì)目標(biāo)輪廓和位置的表達(dá)都較為模糊,不足以幫助精確定位目標(biāo)。經(jīng)過(guò)實(shí)驗(yàn)數(shù)據(jù)對(duì)比,Block2+Block4 這種組合能使得跟蹤效果達(dá)到最好。

        表5 不同網(wǎng)絡(luò)塊組合在OTB100數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比 單位:%Tab.5 Experimental results comparison of different network block combination on OTB100 dataset unit:%

        此外,本文算法為了驗(yàn)證混合注意力機(jī)制的有效性,對(duì)通道注意力和空間自注意力兩部分單獨(dú)進(jìn)行實(shí)驗(yàn)。如圖13所示,其中,Base 是指使用分層融合的ResNet50,CA(Channel Attention)代表通道注意力模塊,SA(Spatial Attention)代表空間自注意力模塊,DeepSiamFC-Attn 對(duì)應(yīng)表6中的Base+CA+SA 組合。以基準(zhǔn)算法SiamFC 和基于通道加權(quán)的CSR-DCF 算法為對(duì)照,通過(guò)在OTB100 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),本文算法都優(yōu)于基準(zhǔn)算法。其中,添加通道注意力模塊和分層特征融合的方法在OTB100 數(shù)據(jù)集上的跟蹤成功率比基準(zhǔn)算法SiamFC 提高4 個(gè)百分點(diǎn),比CSR-DCF 提高4 個(gè)百分點(diǎn)。而使用空間自注意力和分層融合的方法在跟蹤成功率上比SiamFC 提高4 個(gè)百分點(diǎn)。

        圖13 不同混合注意力機(jī)制在OTB100數(shù)據(jù)集上結(jié)果對(duì)比Fig.13 Result comparison of hybrid-attention mechanism on OTB100 dataset

        如表6 所示,在VOT2018 數(shù)據(jù)集上,本文算法各部件在準(zhǔn)確率(A)、魯棒性(R)和平均重疊率(EAO)上單獨(dú)作用的性能都比基準(zhǔn)網(wǎng)絡(luò)有提升,并且隨著獨(dú)立部件的增加,跟蹤性能隨之增加。其中,在主干網(wǎng)絡(luò)分層融合的情況下增加空間自注意力模塊,在準(zhǔn)確率和平均重疊率指標(biāo)上相較于SiamFC 分別提升5 個(gè)百分點(diǎn)和7 個(gè)百分點(diǎn)。得益于注意力機(jī)制對(duì)目標(biāo)特征的篩選,算法的魯棒性得到了明顯提升(58.8%→30.7%)。

        表6 不同混合注意力機(jī)制在VOT2018數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比Tab.6 Experimental results comparison of various hybrid attention mechanism on VOT2018 dataset

        4 結(jié)語(yǔ)

        本文基于孿生網(wǎng)絡(luò)SiamFC 算法提出了一種改進(jìn)的算法DeepSiamFC-Attn。該算法使用融合空洞卷積的深層次主干網(wǎng)絡(luò)ResNet50 對(duì)目標(biāo)進(jìn)行特征提取,同時(shí)融合多層特征和混合通道注意力機(jī)制做相似度計(jì)算,得對(duì)目標(biāo)更具判別力的特征,提升了模型的判別能力,在處理目標(biāo)遮擋、變形、旋轉(zhuǎn)時(shí)更具魯棒性。本文算法可以應(yīng)用于視頻行人監(jiān)控、車輛跟蹤、無(wú)人機(jī)跟蹤等方面,在處理尺度變化太大和目標(biāo)跑出視野外的場(chǎng)景下還會(huì)出現(xiàn)目標(biāo)框丟失或只能框住部分的情況,后續(xù)將考慮同圖像分割和目標(biāo)檢測(cè)相結(jié)合,引入更復(fù)雜的模型,進(jìn)一步提高算法的精度。

        猜你喜歡
        集上注意力卷積
        讓注意力“飛”回來(lái)
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        Cookie-Cutter集上的Gibbs測(cè)度
        鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        復(fù)扇形指標(biāo)集上的分布混沌
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
        一本一道久久精品综合| 精品国产一区二区三区香蕉| 97色人阁俺也去人人人人人| 精品综合久久88少妇激情| 日日躁夜夜躁狠狠躁| 国产又色又爽无遮挡免费| 国产小屁孩cao大人免费视频| 日本一区二区高清视频| 美女视频黄是免费| 在线人成免费视频69国产| 国产成人一区二区三中文| 精品女同一区二区三区在线播放器| 亚洲国产一区二区三区| 国产精品无码久久久久久| 日韩乱码视频| 亚洲精品中文字幕乱码人妻| 在线观看亚洲第一黄片| 国产激情久久久久影院老熟女免费| 亚洲精品第一国产麻豆| 亚洲天堂一区二区精品| 国产亚洲av看码精品永久| 护士人妻hd中文字幕| 极品美女高潮喷白浆视频| 一区二区黄色素人黄色| 日本真人添下面视频免费| 99久久人人爽亚洲精品美女| 亚洲是图一区二区视频| 91久久精品一区二区三区大全| 狂野欧美性猛xxxx乱大交| 国产主播一区二区三区在线观看 | av网站免费线看| 日韩精品人妻中文字幕有码| 国产一品二品精品在线| 亚洲精品国产熟女久久| 在线亚洲国产一区二区三区 | 亚洲一区av在线观看| av大片在线无码免费| 国产激情视频免费观看| 看日本全黄色免费a级| 熟妇高潮一区二区三区| 国产91一区二这在线播放|