亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于視覺Transformer的雙流目標(biāo)跟蹤算法

        2022-06-23 06:24:48江英杰宋曉寧
        關(guān)鍵詞:雙流解碼器編碼器

        江英杰,宋曉寧

        江南大學(xué) 人工智能與計(jì)算機(jī)學(xué)院,江蘇 無錫 214122

        視覺目標(biāo)跟蹤技術(shù)在智能安防、人機(jī)交互、無人駕駛、行為識(shí)別和人流統(tǒng)計(jì)等實(shí)際場(chǎng)景下具有非常廣泛的應(yīng)用[1-5],逐漸成為計(jì)算機(jī)領(lǐng)域內(nèi)的一個(gè)研究重點(diǎn)。根據(jù)需要跟蹤的目標(biāo)對(duì)象數(shù)量的不同,可以分為單目標(biāo)和多目標(biāo)跟蹤。本文主要針對(duì)單目標(biāo)跟蹤開展研究。近些年來,基于深度孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法[6-8]由于簡(jiǎn)潔高效的成對(duì)匹配形式和特征提取能力逐漸成為主流。其將跟蹤表示為匹配問題,使用共享參數(shù)的孿生網(wǎng)絡(luò)提取目標(biāo)模板和搜索區(qū)域的特征并進(jìn)行相似性衡量。在此基礎(chǔ)上,許多基于錨點(diǎn)(anchor-based)或無錨(anchor-free)的方法被提出,代表性的如SiamRPN++[9]和Ocean[10]。這些方法在跟蹤性能上取得了不錯(cuò)的進(jìn)展,但是其對(duì)模板和搜索區(qū)域特征的融合依賴于相關(guān)操作,對(duì)全局信息的利用還不夠充分。

        最近隨著Transformer[11]在計(jì)算機(jī)視覺領(lǐng)域的廣泛應(yīng)用,一些前沿的研究開始發(fā)掘Transformer在改進(jìn)孿生網(wǎng)絡(luò)跟蹤算法中的巨大潛力。如TrSiam[12]利用Transformer來增強(qiáng)和傳播深度卷積特征提高跟蹤精度。TrTr[13]使用Transformer獲得豐富的上下文信息來幫助孿生網(wǎng)絡(luò)進(jìn)行相關(guān)性計(jì)算。STARK[14]通過Transformer編碼器-解碼器建模目標(biāo)與搜索區(qū)域全局依賴關(guān)系。

        雖然上述基于Transformer的目標(biāo)跟蹤算法取得了不錯(cuò)的進(jìn)展,但是其主要都是為了更好地融合或者增強(qiáng)從深度卷積網(wǎng)絡(luò)如ResNet[15]中提取的目標(biāo)和搜索區(qū)域特征,忽視了視覺Transformer本身在特征提取和解碼預(yù)測(cè)方面的能力。針對(duì)這些問題,本文提出基于視覺Transformer的雙流目標(biāo)跟蹤算法。首先利用基于注意力機(jī)制的Swin Transformer[16]作為孿生主干網(wǎng)絡(luò)獲得更加魯棒的特征表示。接著通過Transformer編碼器-解碼器結(jié)構(gòu)充分融合目標(biāo)和搜索區(qū)域特征,并學(xué)習(xí)目標(biāo)特定的信息。最后對(duì)學(xué)習(xí)到的雙流信息分別進(jìn)行預(yù)測(cè)后再進(jìn)行決策層面的加權(quán)融合。通過本文這樣的設(shè)計(jì)可以有效利用雙流信息進(jìn)行互補(bǔ),能夠有效應(yīng)對(duì)遮擋、干擾和尺度變化等情況,實(shí)現(xiàn)準(zhǔn)確的目標(biāo)跟蹤。另外,由于本文算法是端到端進(jìn)行訓(xùn)練和測(cè)試的,避免了先前孿生網(wǎng)絡(luò)算法中使用的余弦窗等復(fù)雜的后處理步驟,跟蹤速度可達(dá)42 FPS(frame per second,F(xiàn)PS),具有巨大的潛力。

        1 基于視覺Transformer的雙流目標(biāo)跟蹤算法

        本文算法整體框架如圖1所示。首先使用一個(gè)共享權(quán)重參數(shù)的Swin Transformer作為孿生主干網(wǎng)絡(luò)對(duì)第一幀目標(biāo)模板(target template)圖像和當(dāng)前幀搜索區(qū)域(search region)圖像分別進(jìn)行特征提取。其次使用Transformer編碼器對(duì)目標(biāo)模板特征和搜索區(qū)域特征進(jìn)行特征融合,再使用Transformer解碼器學(xué)習(xí)目標(biāo)查詢中特定的目標(biāo)位置信息。然后對(duì)編解碼器輸出的雙流信息分別進(jìn)行邊界框預(yù)測(cè)。最后在決策層面上進(jìn)行加權(quán)融合得到目標(biāo)最終跟蹤結(jié)果。

        圖1 算法整體框架Fig.1 Overall framework of the algorithm

        1.1 視覺Transformer孿生主干網(wǎng)絡(luò)

        本文采用基于注意力機(jī)制的Swin Transformer作為孿生主干網(wǎng)絡(luò),具體結(jié)構(gòu)如圖2(a)所示。相比于經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò),Transformer中的自注意力機(jī)制能夠挖掘全局依賴關(guān)系,具有全局感受野,在許多視覺任務(wù)上取得了很好的效果。Swin Transformer是由微軟在2021年提出的視覺Transformer模型,通過在不重疊的窗口進(jìn)行自注意力計(jì)算和允許跨窗口連接來提高計(jì)算效率,使得其與視覺任務(wù)相兼容。

        圖2 Swin Transformer孿生主干網(wǎng)絡(luò)Fig.2 Swin Transformer siamese backbone network

        本文中Swin Transformer孿生主干網(wǎng)絡(luò)的輸入是一對(duì)圖像,分別是初始幀的目標(biāo)模板圖像z∈RHz×Wz×3和當(dāng)前幀的搜索區(qū)域圖像x∈RHx×Wx×3。輸出分別是模板特征和搜索區(qū)域特征為了降低計(jì)算成本,本文只使用Swin Transformer的前3個(gè)階段(Stage)提取特征,所以此處的步長(zhǎng)s為16。

        Swin Transformer每個(gè)階段由多個(gè)連續(xù)的Swin Transformer塊(block)組成,其中每?jī)蓚€(gè)連續(xù)塊的結(jié)構(gòu)如圖2(b)所示,由層歸一化(layer norm,LN)、窗口多頭自注意力(window based multi-head self-attention,W-MSA)、移位窗口多頭自注意力(shifted window based multi-head self-attention,SW-MSA)和多層感知機(jī)(multilayer perceptron,MLP)通過殘差連接組成。具體過程可表示為:

        其中,Xl和X?l分別表示第l個(gè)塊中MLP和兩種自注意力的輸出結(jié)果。當(dāng)固定每個(gè)局部窗口中所包含塊的數(shù)量M×M時(shí),W-MSA通過在不重疊的局部窗口計(jì)算多頭自注意力可以將計(jì)算復(fù)雜度從塊數(shù)量的二次方降低為線性復(fù)雜度。本文中M默認(rèn)設(shè)置為7。同時(shí)SWMSA在保持非重疊窗口的有效計(jì)算的同時(shí)引入跨窗口連接,與前一層的窗口進(jìn)行橋接,可以顯著增強(qiáng)特征建模能力。這種策略具有較低的實(shí)際延遲,并且可以逐層聚合相鄰窗口的特征表示,能夠感知全局信息,為跟蹤任務(wù)提供了更加魯棒的特征表示。

        1.2 Transformer編碼器-解碼器結(jié)構(gòu)

        Swin Transformer孿生主干網(wǎng)絡(luò)輸出的模板特征和搜索區(qū)域特征首先經(jīng)過一個(gè)1×1卷積層將通道數(shù)從C降低到d,與后續(xù)Transformer編碼器-解碼器結(jié)構(gòu)中的隱藏層維度保持一致。然后將兩個(gè)特征分別展平,再沿著空間維度連接起來得到長(zhǎng)度為的總特征表示F輸入到Transformer編碼器中。

        (1)編碼器。Transformer編碼器由一系列連續(xù)的編碼器層組成,每層包括多頭自注意力MSA和前饋網(wǎng)絡(luò)(feed forward network,F(xiàn)FN)。其中FFN包含一個(gè)兩層的多層感知機(jī)和GELU激活函數(shù)。每層間的計(jì)算過程如下:

        其中,F(xiàn)i和F?i分別表示第i層的輸入和中間計(jì)算結(jié)果。

        由于Transformer是序列到序列模型,具有排列不變性,因此在通過拼接方式自然地融合來自模板分支和搜索分支的特征之后,本文添加了正弦位置編碼[11]到每個(gè)注意力層的輸入序列中,以確保模型在計(jì)算注意力過程中知道特征標(biāo)記所處的位置和分支。通過編碼器層中的自注意力機(jī)制對(duì)總特征表示中的模板和搜索區(qū)域特征之間的依賴關(guān)系進(jìn)行捕獲,利用全局信息有效融合和增強(qiáng)特征的判別性,幫助網(wǎng)絡(luò)更加準(zhǔn)確地定位目標(biāo)位置。

        (2)解碼器。Transformer解碼器具有與編碼器類似的結(jié)構(gòu),也是由連續(xù)的解碼器層組成,每層包括多頭自注意力、編碼器-解碼器注意力和前饋網(wǎng)絡(luò)。

        解碼器的輸入是編碼器輸出的增強(qiáng)后的總特征表示F?和目標(biāo)查詢(target query)。不同于檢測(cè)任務(wù)中采用的多個(gè)對(duì)象查詢,本文只采用一個(gè)目標(biāo)查詢進(jìn)行預(yù)測(cè)來降低計(jì)算成本。目標(biāo)查詢通過編碼器-解碼器注意力關(guān)注模板和搜索區(qū)域上的所有位置,建立全局關(guān)系,輸出得到魯棒的目標(biāo)表示T用于后續(xù)邊界框預(yù)測(cè)。與編碼器類似,在解碼器的每個(gè)注意力層的輸入中也加入位置編碼來傳遞位置信息。

        1.3 雙流信息預(yù)測(cè)與決策融合

        總特征表示F經(jīng)過整個(gè)編碼器后輸出得到增強(qiáng)的總特征表示F?,然后將其按照原來的順序分離重新得到增強(qiáng)后的模板特征f?z和搜索區(qū)域特征f?x。解碼器輸出的目標(biāo)表示T與搜索區(qū)域特征f?x一起構(gòu)成了Transformer編碼器-解碼器輸出的雙流信息。

        為了充分地利用雙流信息中目標(biāo)判別特征以及全局區(qū)域信息進(jìn)行邊界框預(yù)測(cè),本文對(duì)雙流信息進(jìn)行融合與互補(bǔ)。具體地,如圖1中所示,一邊使用編碼器邊框預(yù)測(cè)頭(box head)融合雙流信息進(jìn)行預(yù)測(cè),另一邊通過多層感知機(jī)對(duì)解碼器信息進(jìn)行預(yù)測(cè)。最后在決策層面進(jìn)行融合進(jìn)一步優(yōu)化目標(biāo)跟蹤結(jié)果。

        編碼器邊框預(yù)測(cè)頭的結(jié)構(gòu)如圖3所示。搜索區(qū)域特征f?x與目標(biāo)表示T分別通過點(diǎn)積注意力機(jī)制和深度互相關(guān)(depth-wise cross correlation,DW Corr)操作進(jìn)行特征增強(qiáng),得到全新特征并進(jìn)行拼接(concatenation)。然后重塑成方形特征圖輸入到全卷積網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CNs)中進(jìn)行角點(diǎn)熱力圖(corner heatmap)預(yù)測(cè)。最后計(jì)算角點(diǎn)概率分布的期望得到編碼器流的邊界框預(yù)測(cè)結(jié)果BE。

        圖3 編碼器邊框預(yù)測(cè)頭Fig.3 Encoder box prediction head

        與STARK[14]不同的是,本文考慮到深度互相關(guān)操作在孿生網(wǎng)絡(luò)跟蹤算法中的廣泛應(yīng)用[9-10],能夠幫助找到搜索區(qū)域中與目標(biāo)表示高度相關(guān)的位置,有利于后續(xù)的角點(diǎn)概率預(yù)測(cè)。因此將其與點(diǎn)積注意力機(jī)制進(jìn)行互補(bǔ),從兩個(gè)角度共同衡量目標(biāo)相似性來增強(qiáng)重點(diǎn)區(qū)域得到更具判別性的全新搜索區(qū)域特征進(jìn)行預(yù)測(cè)。

        對(duì)于解碼器流信息使用三層的多層感知機(jī)MLP直接回歸目標(biāo)邊界框坐標(biāo),得到解碼器邊界框預(yù)測(cè)結(jié)果BD。這樣的設(shè)計(jì)能夠以微量的計(jì)算成本來利用解碼器學(xué)習(xí)到的目標(biāo)表示T中豐富的目標(biāo)信息進(jìn)行顯式的結(jié)果預(yù)測(cè),避免了該信息只在編碼器邊框預(yù)測(cè)頭中起到相似性度量的作用的情況,減少了目標(biāo)信息的浪費(fèi)。

        在得到雙流信息預(yù)測(cè)結(jié)果BE和BD之后,本文在決策層面使用了加權(quán)融合策略。通過兩個(gè)線性層分別學(xué)習(xí)編碼器流和解碼器流預(yù)測(cè)結(jié)果的融合權(quán)重w1和w2,然后對(duì)結(jié)果進(jìn)行加權(quán)融合得到最終優(yōu)化的目標(biāo)跟蹤結(jié)果BF,具體計(jì)算過程如公式(7)~(11)所示:

        其中,W1和W2分別為這兩個(gè)線性層的權(quán)重矩陣,b1和b2為對(duì)應(yīng)的偏置項(xiàng),w?1和w?2為歸一化之前的權(quán)重。

        1.4 損失函數(shù)與多監(jiān)督策略

        本文算法是通過端到端的方式進(jìn)行訓(xùn)練的,使用L1損失和GIoU(Generalized IoU)損失[17]對(duì)邊界框預(yù)測(cè)結(jié)果進(jìn)行監(jiān)督。整個(gè)框體損失函數(shù)LBBox的計(jì)算公式如下:

        其中,B?和B分別表示邊界框真實(shí)標(biāo)簽和預(yù)測(cè)結(jié)果,λ1和λ2是每項(xiàng)的損失權(quán)重系數(shù),在本文中分別設(shè)置為5和2。

        考慮到恰當(dāng)?shù)谋O(jiān)督策略對(duì)整體網(wǎng)絡(luò)的收斂與性能起到了非常重要的作用,本文針對(duì)提出的雙流信息預(yù)測(cè)與決策融合結(jié)構(gòu)使用了多監(jiān)督策略。即對(duì)雙流信息預(yù)測(cè)結(jié)果和最終跟蹤結(jié)果共同進(jìn)行監(jiān)督以保證充分的收斂性及性能提升。最終的損失函數(shù)如公式(15)所示:

        其中,BE、BD和BF分別代表編碼器預(yù)測(cè)框、解碼器預(yù)測(cè)框和最終預(yù)測(cè)框。

        2 實(shí)驗(yàn)結(jié)果與分析

        2.1 實(shí)驗(yàn)設(shè)置

        本文算法是使用Python 3.6和Pytorch 1.5.1框架實(shí)現(xiàn)的。在具有兩塊RTX 2080Ti GPU的64 GB物理內(nèi)存的服務(wù)器上進(jìn)行實(shí)驗(yàn)。本文使用Swin-T[16]作為孿生主干網(wǎng)絡(luò),主干網(wǎng)絡(luò)輸出特征維度C為384,訓(xùn)練過程中使用在ImageNet[18]上預(yù)訓(xùn)練的參數(shù)進(jìn)行初始化。Transformer編碼器-解碼器均為6層,其中多頭注意力的隱藏層維度d和頭數(shù)分別設(shè)置為256和8,前饋網(wǎng)絡(luò)的隱藏層維度為2 048。Dropout[19]設(shè)置為0.1來減少過擬合。編碼器邊框預(yù)測(cè)中的全卷積網(wǎng)絡(luò)由5層卷積塊組成,解碼器邊框預(yù)測(cè)使用的三層MLP的隱藏層維度為256。

        訓(xùn)練數(shù)據(jù)由LaSOT[20]、GOT-10k[21]和TrackingNet[22]數(shù)據(jù)集的訓(xùn)練部分以及COCO[23]數(shù)據(jù)集組成。目標(biāo)模板圖像及搜索區(qū)域圖像分別被裁剪成128×128和320×320的大小送到主干網(wǎng)絡(luò)中。數(shù)據(jù)增強(qiáng)采用了水平翻轉(zhuǎn)和亮度抖動(dòng)等策略。整體訓(xùn)練過程為500個(gè)周期(epoch),每個(gè)周期有60 000個(gè)樣本,使用AdamW[24]優(yōu)化器進(jìn)行優(yōu)化。整體網(wǎng)絡(luò)的初始學(xué)習(xí)率為5E-5,權(quán)重衰減為1E-4。為了穩(wěn)定訓(xùn)練保證收斂,采用梯度裁剪和學(xué)習(xí)率衰減策略,在400個(gè)周期后將學(xué)習(xí)率縮為原來的1/10。主干網(wǎng)絡(luò)以其他部分1/10的學(xué)習(xí)率進(jìn)行微調(diào)。

        2.2 數(shù)據(jù)集及評(píng)價(jià)指標(biāo)

        本文在LaSOT[20]、TrackingNet[22]、UAV123[25]和NFS[26]四個(gè)通用目標(biāo)跟蹤數(shù)據(jù)集上驗(yàn)證算法的有效性。其中LaSOT數(shù)據(jù)集有1 400個(gè)視頻序列,平均有2 512幀,共包含70個(gè)目標(biāo)類別,每類有20個(gè)序列,涉及野外場(chǎng)景下的各種挑戰(zhàn)。該數(shù)據(jù)集每幀都是手工標(biāo)注并經(jīng)過嚴(yán)格檢查,提供了一個(gè)高質(zhì)量的大規(guī)模目標(biāo)跟蹤基準(zhǔn)。其中劃分20%作為測(cè)試集,共包括280個(gè)視頻序列。

        TrackingNet是從大規(guī)模目標(biāo)檢測(cè)數(shù)據(jù)集中精挑細(xì)選出專門針對(duì)目標(biāo)跟蹤的視頻片段并進(jìn)行重新標(biāo)注??偣?0 643個(gè)視頻片段,平均時(shí)長(zhǎng)16.6 s。其中測(cè)試集包括511個(gè)視頻和70個(gè)目標(biāo)類別,并且沒有給出真實(shí)標(biāo)注,只能通過在線服務(wù)器進(jìn)行評(píng)估以確保公平比較。

        UAV123數(shù)據(jù)集中包括低空無人機(jī)平臺(tái)采集的123個(gè)航拍視頻,平均915幀。隨著無人機(jī)的運(yùn)動(dòng)相機(jī)視角也在不斷發(fā)生變化,因此目標(biāo)長(zhǎng)寬比的變化比較明顯,對(duì)跟蹤算法的狀態(tài)估計(jì)能力提出了巨大的挑戰(zhàn)。NFS數(shù)據(jù)集包括100個(gè)視頻序列,使用高幀率攝像機(jī)從真實(shí)世界場(chǎng)景捕獲并手動(dòng)標(biāo)注,為實(shí)際跟蹤應(yīng)用提供測(cè)試基準(zhǔn)。

        LaSOT和TrackingNet兩個(gè)數(shù)據(jù)集均采用一次性評(píng)估(one-pass evaluation,OPE)策略,評(píng)價(jià)指標(biāo)為精度(precision,P)、歸一化精度(normalized precision,NP)和成功率(success,S)。UAV123和NFS數(shù)據(jù)集只包括精度和成功率兩個(gè)指標(biāo)。其中精度是通過比較預(yù)測(cè)結(jié)果跟真實(shí)結(jié)果之間的距離來計(jì)算,成功率是通過衡量?jī)烧咧g的交并比來計(jì)算。由于精度指標(biāo)對(duì)目標(biāo)大小和圖像分辨率非常敏感,因此歸一化精度是根據(jù)真實(shí)目標(biāo)框大小對(duì)精度進(jìn)行歸一化計(jì)算。最終跟蹤算法通常根據(jù)成功率圖的曲線下面積(area under curve,AUC)進(jìn)行排名。

        2.3 消融實(shí)驗(yàn)

        為了降低訓(xùn)練成本,消融實(shí)驗(yàn)中比較的算法模型均統(tǒng)一訓(xùn)練250個(gè)周期,其余策略與實(shí)驗(yàn)設(shè)置中完全訓(xùn)練的模型保持一致。本文在LaSOT數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn),報(bào)告了各種算法的成功率結(jié)果以及模型的參數(shù)量(Parameters,Params)、浮點(diǎn)運(yùn)算數(shù)(floating point operations,F(xiàn)LOPs)和跟蹤速度(frames per second,F(xiàn)PS)。具體消融結(jié)果如表1所示。

        表1 LaSOT數(shù)據(jù)集上的消融實(shí)驗(yàn)Table 1 Ablation study on LaSOT dataset

        其中,基線(Baseline)為STARK-S50模型。模型一(Model1)表示移除解碼器結(jié)構(gòu),直接使用編碼器信息進(jìn)行邊框預(yù)測(cè)的模型。從模型一和基線的對(duì)比來看,基線中編碼器學(xué)習(xí)到的信息由于只起到了空間注意力的作用,因此移除整個(gè)解碼器對(duì)整體效果也不會(huì)帶來明顯的影響,反而節(jié)約了參數(shù)和計(jì)算量帶來了速度的提升。從側(cè)面反映出來基線結(jié)構(gòu)中對(duì)解碼器信息利用不夠充分,這也啟發(fā)了本文的改進(jìn)。

        模型二(Model2)表示使用本文改進(jìn)的編碼器邊框預(yù)測(cè)頭的模型。通過額外引入深度互相關(guān)操作幫助找到搜索區(qū)域中與目標(biāo)高度相關(guān)的位置來得到更具判別性的搜索區(qū)域特征,在大規(guī)模跟蹤數(shù)據(jù)集LaSOT上獲得一定的性能提升,證明了這種模型結(jié)構(gòu)改進(jìn)的有效性。此外,該改進(jìn)帶來的額外參數(shù)和計(jì)算量?jī)H約為1.2×106和4×108,跟蹤速度達(dá)50 FPS,不影響算法實(shí)時(shí)性。

        模型三(Model3)表示在模型二的基礎(chǔ)上加入雙流信息預(yù)測(cè)與決策層面融合的模型。與模型二相比,由于只增加了一個(gè)MLP和兩個(gè)線性層,因此只增加了1.0×105參數(shù)和1.0×108計(jì)算量。這樣的改動(dòng)取得了0.5個(gè)百分點(diǎn)的成功率提升,說明融合后預(yù)測(cè)邊界框與真實(shí)邊界框的交并比獲得提升,證明該方法能提高邊界框預(yù)測(cè)的準(zhǔn)確性,同時(shí)也反映出融合雙流信息的必要性。相比只使用編碼器的單信息進(jìn)行預(yù)測(cè),雙流信息預(yù)測(cè)可以融合解碼器中目標(biāo)特定的判別信息,減輕干擾物的影響,進(jìn)一步提高模型魯棒性。從實(shí)時(shí)性來看,算法的跟蹤速度保持在48 FPS,還是超過實(shí)時(shí)性要求(>20 FPS),并不影響其實(shí)際應(yīng)用。

        模型四(Model4)表示只把基線模型中主干網(wǎng)絡(luò)ResNet50替換成Swin-T的模型。可以發(fā)現(xiàn)獲得了1.4個(gè)百分點(diǎn)的成功率結(jié)果提升,證明基于注意力機(jī)制的視覺Transformer作為主干網(wǎng)絡(luò)能夠?yàn)槟繕?biāo)跟蹤提供更加魯棒的特征表示。這一改進(jìn)由于只影響了主干網(wǎng)絡(luò)提取特征部分,因此對(duì)跟蹤速度的影響也比較小。

        模型五(Model5)表示同時(shí)使用Swin-T主干網(wǎng)絡(luò)、改進(jìn)的編碼器邊框預(yù)測(cè)頭和雙流信息預(yù)測(cè)與決策融合的最終模型??傮w來說,通過4.7×106參數(shù)和1.3×109計(jì)算量獲得了在大規(guī)模跟蹤數(shù)據(jù)集LaSOT上2.2%的絕對(duì)性能提升。通過端到端的跟蹤,整體跟蹤速度仍能達(dá)到42 FPS,能夠滿足實(shí)時(shí)性的要求。

        2.4 不同融合方法比較

        對(duì)于編碼器和解碼器的雙流信息預(yù)測(cè)結(jié)果,本文在決策層面使用了決策層面的自適應(yīng)加權(quán)融合方法。為了進(jìn)一步證明本文方法的有效性,本文在上述模型二的基礎(chǔ)上,將幾種融合方法進(jìn)行實(shí)驗(yàn)比較,在LaSOT數(shù)據(jù)集上的成功率結(jié)果如圖4所示。

        圖4 不同融合方法比較結(jié)果Fig.4 Comparing results of different fusion methods

        其中,方法一為ATOM[27]算法中對(duì)多個(gè)邊界框結(jié)果取平均的融合方式,即分別用0.5的固定權(quán)重對(duì)雙流信息預(yù)測(cè)結(jié)果進(jìn)行融合。方法二在方法一基礎(chǔ)上參考目標(biāo)檢測(cè)領(lǐng)域的方法,先計(jì)算兩個(gè)邊界框的交并比,大于閾值0.8的情況下再取平均,否則采用編碼器的預(yù)測(cè)結(jié)果。此舉通過人工設(shè)計(jì)避免雙流信息中低質(zhì)量框?qū)θ诤辖Y(jié)果的影響。方法三與方法二不同的是,否則采用解碼器的預(yù)測(cè)結(jié)果。

        從圖中結(jié)果可以看出,直接取平均這種固定權(quán)重的融合方式效果相比未融合的上述模型二提升0.2%,說明直接融合雙流信息能夠帶來一定提升但是因?yàn)椴煌母櫗h(huán)境下兩者預(yù)測(cè)結(jié)果會(huì)有不同的表現(xiàn),固定權(quán)重難以適應(yīng)這種變化。

        相比之下,方法二有所提升,這是由于通過交并比約束避免了一些較低質(zhì)量的預(yù)測(cè)結(jié)果的干擾。方法三效果比方法一略高,但是比方法二略差,說明編碼器流信息在一定程度上比解碼器流信息更具有判別力,也反映出雙流信息需要分配不同的融合權(quán)重。

        本文方法取得了最好的結(jié)果,這是因?yàn)楸疚姆椒ǖ娜诤蠙?quán)重是通過線性層自適應(yīng)學(xué)習(xí)得到的,在不同跟蹤場(chǎng)景下會(huì)根據(jù)雙流信息的重要性和預(yù)測(cè)質(zhì)量為其賦予不同的融合權(quán)重。當(dāng)需要依賴編碼器的全局信息獲得更加準(zhǔn)確的預(yù)測(cè)結(jié)果時(shí),會(huì)為其分配更高的權(quán)重;當(dāng)需要依賴解碼器的判別信息時(shí),則為解碼器預(yù)測(cè)結(jié)果分配更高的權(quán)重。這樣的融合方式可以使得最終融合結(jié)果更適應(yīng)具體情況的變化,相比固定權(quán)重的方式更加合理,也更具有魯棒性。

        2.5 不同算法的結(jié)果比較

        為了驗(yàn)證本文所提出算法的有效性,在LaSOT和TrackingNet兩個(gè)大型數(shù)據(jù)集上與當(dāng)前主流的多種目標(biāo)跟蹤算法進(jìn)行實(shí)驗(yàn)結(jié)果比較。涉及的算法有SiamFC[7]、SiamRPN++[9]、Ocean[10]、TrSiam[12]、TrDiMP[12]、TrTr[13]、STARK[14]、ATOM[27]、MDNet[28]、SiamFC++[29]和DiMP[30]。LaSOT數(shù)據(jù)集上的結(jié)果如圖5所示。

        圖5 LaSOT數(shù)據(jù)集上的結(jié)果Fig.5 Results on LaSOT dataset

        可以看到本文算法(Ours)達(dá)到了最佳的67.4%的成功率和72.4%的精度,相比STARK-S50分別取得了1.6和2.7個(gè)百分點(diǎn)的提升,也超越了TrSiam和TrDiMP等基于Transformer的跟蹤算法。除圖中給出的結(jié)果外,本文算法在LaSOT上的歸一化精度NP可以達(dá)到77.4%。證明本文提出的雙流信息預(yù)測(cè)和決策融合能夠有效利用來自Transformer編碼器-解碼器的雙流信息并進(jìn)行融合互補(bǔ),使得算法具有很好的目標(biāo)尺度估計(jì)能力。在目標(biāo)旋轉(zhuǎn)、形變和遮擋等各種困難場(chǎng)景下仍然能夠獲得較為準(zhǔn)確的邊界框預(yù)測(cè)結(jié)果,跟蹤精度相比STARK-S50具有明顯的提升。也證明視覺Transformer作為孿生主干網(wǎng)絡(luò)能夠通過注意力機(jī)制建模全局依賴關(guān)系,為跟蹤任務(wù)提供優(yōu)秀的特征表示。

        表2給出了在TrackingNet數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,其中“—”表示原始論文中未給出相關(guān)結(jié)果。從表中可以發(fā)現(xiàn),本文算法分別取得了80.9%、77.8%和85.6%的成功率、精度和歸一化精度結(jié)果。與STARK-S50相比,在各項(xiàng)指標(biāo)上均有一定程度的提升,并且優(yōu)于SiamRPN++、Ocean和DiMP等主流跟蹤算法。得益于特征層面的主干網(wǎng)絡(luò)改進(jìn),信息層面的充分利用和決策層面的有效融合,在如此大規(guī)模野外跟蹤數(shù)據(jù)集上取得了優(yōu)秀的成果,證明了具有強(qiáng)大的跟蹤性能及泛化性。

        表2 TrackingNet數(shù)據(jù)集上的比較實(shí)驗(yàn)Table 2 Comparative experiments on TrackingNet dataset

        表3中給出了在UAV123和NFS數(shù)據(jù)集上不同算法的成功率曲線下面積AUC的比較結(jié)果??梢钥闯?,本文算法分別取得了68.6%和66.0%的結(jié)果,均比基線STARK-S50取得提升。在UAV123上取得了最好的結(jié)果,證明了算法的有效性。在NFS上僅次于TrDiMP,相比基線已經(jīng)獲得了1.7%的提升。不過本文算法的跟蹤速度可達(dá)42 FPS,超過TrDiMP的26 FPS,具有足夠的實(shí)際應(yīng)用潛力。

        表3 UAV123和NFS數(shù)據(jù)集上的成功率Table 3 Success rate on UAV123 and NFS dataset%

        2.6 跟蹤結(jié)果可視化

        為了進(jìn)一步展示出不同算法在目標(biāo)發(fā)生遮擋、干擾、形變和旋轉(zhuǎn)等復(fù)雜情況下的實(shí)際跟蹤效果。本文從大型真實(shí)場(chǎng)景跟蹤數(shù)據(jù)集LaSOT上選取視頻序列(飛機(jī)、鳥和自行車)進(jìn)行跟蹤結(jié)果的可視化,具體對(duì)比結(jié)果如圖6所示。其中紅色表示本文算法的跟蹤結(jié)果,綠色和藍(lán)色則分別表示DiMP和STARK算法的跟蹤結(jié)果。

        圖6 跟蹤結(jié)果對(duì)比Fig.6 Comparison of tracking results

        從圖6中可以看到在尺度變化、干擾、形變和遮擋等復(fù)雜跟蹤場(chǎng)景下,本文算法依然能夠獲得準(zhǔn)確的目標(biāo)狀態(tài)估計(jì),得到高質(zhì)量的跟蹤結(jié)果,而DiMP和STARK算法則容易丟失目標(biāo)或者尺度估計(jì)不夠準(zhǔn)確。

        具體來看,在第一行飛機(jī)視頻序列中目標(biāo)的尺度發(fā)生了較大變化,DiMP算法依靠判別信息能夠定位到目標(biāo),但是尺度估計(jì)還不夠準(zhǔn)確。STARK算法忽視了解碼器流信息,預(yù)測(cè)結(jié)果偏大。而本文算法通過雙流信息預(yù)測(cè)和決策融合,準(zhǔn)確估計(jì)目標(biāo)整體尺度,獲得更優(yōu)的跟蹤結(jié)果。

        在第二行鳥視頻序列中,由于干擾物的存在導(dǎo)致DiMP和STARK算法將干擾物的部分也當(dāng)作目標(biāo),產(chǎn)生誤判。即使DiMP算法采用了在線更新策略,但是在其更新的間隔仍然容易被干擾而導(dǎo)致跟蹤漂移。而本文算法通過自注意力機(jī)制有效捕獲目標(biāo)全局依賴關(guān)系,精確定位目標(biāo),避免了干擾物的影響。

        在第三行自行車視頻序列中,目標(biāo)發(fā)生形變和遮擋的情況下本文算法依然能夠準(zhǔn)確跟蹤,進(jìn)一步體現(xiàn)出本文所提方法的有效性。

        2.7 收斂性分析

        為了進(jìn)一步體現(xiàn)出本文使用的多監(jiān)督策略的有效性,本文對(duì)所提跟蹤算法的收斂性進(jìn)行了分析。算法在訓(xùn)練過程中的L1損失和GIoU損失結(jié)果如圖7所示,截取了其中300至500個(gè)周期部分。

        圖7 損失函數(shù)曲線Fig.7 Loss function curve

        其中第一行分別為最終融合后的邊界框BF、編碼器預(yù)測(cè)框BE和解碼器預(yù)測(cè)框BD的GIoU損失,第二行分別為三者的L1損失??梢钥吹阶罱K融合后的邊界框,無論是從衡量交并比的GIoU損失還是衡量中心位置誤差的L1損失來看,都成功收斂,并且取得了比融合前兩部分更小的損失值。這主要得益于本文使用的多監(jiān)督策略,將三個(gè)預(yù)測(cè)框共同進(jìn)行監(jiān)督訓(xùn)練,保證三者均成功收斂,并且獲得了更優(yōu)的融合結(jié)果。此舉可以避免只對(duì)最終融合結(jié)果進(jìn)行約束而導(dǎo)致編碼器和解碼器預(yù)測(cè)框不夠準(zhǔn)確的問題,具有明顯的優(yōu)勢(shì)。

        3 結(jié)論

        本文提出一種基于視覺Transformer的雙流目標(biāo)跟蹤算法。對(duì)現(xiàn)有基于Transformer跟蹤算法進(jìn)行改進(jìn),通過引入基于注意力機(jī)制的視覺Transformer作為孿生主干網(wǎng)絡(luò)提高特征抽取能力。設(shè)計(jì)雙流信息預(yù)測(cè)和決策層面的加權(quán)融合策略,簡(jiǎn)單有效地利用編碼器-解碼器結(jié)構(gòu)的雙流信息,以少量的計(jì)算成本獲得了具有競(jìng)爭(zhēng)力的大規(guī)模跟蹤性能提升。并且在端到端的跟蹤情況下,能夠達(dá)到42 FPS的跟蹤速度,具有巨大的潛力。

        猜你喜歡
        雙流解碼器編碼器
        方一帆
        四川省成都市雙流區(qū)東升迎春小學(xué)
        科學(xué)解碼器(一)
        科學(xué)解碼器(二)
        科學(xué)解碼器(三)
        雙流板坯側(cè)面鼓肚與邊角掛鋼原因與對(duì)策
        線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
        四川省成都雙流中學(xué)實(shí)驗(yàn)學(xué)校
        基于FPGA的同步機(jī)軸角編碼器
        基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
        久久蜜桃一区二区三区| 天天做天天躁天天躁| 图图国产亚洲综合网站| 国产伦理自拍视频在线观看| 免费看黄片的视频在线观看| 亚洲中文字幕无码不卡电影| 97精品伊人久久大香线蕉| 国产午夜激无码AV毛片不卡| 国产又黄又湿又爽的免费视频| 18国产精品白浆在线观看免费| 洗澡被公强奷30分钟视频| 成人在线免费视频亚洲| 人妻有码中文字幕在线| 国产精品久久久久久av| 亚洲精品无码久久久久av麻豆| 欧美日韩不卡合集视频| 亚洲成a人无码| 久久这里只精品国产免费10| 亚洲成AV人在线观看网址| 国产午夜免费啪视频观看| 日本妇女高清一区二区三区| 亚洲精品欧美精品日韩精品| 国产色综合天天综合网| 69堂在线无码视频2020| 校园春色日韩高清一区二区| 亚洲人成色7777在线观看不卡| 久久久男人天堂| 国产精品女人一区二区三区| 精品含羞草免费视频观看| 伊人色综合视频一区二区三区| 无码中文字幕av免费放| 亚洲精品中字在线观看| 久久香蕉国产线看观看精品yw| 国产啪精品视频网给免丝袜 | 一卡二卡三卡视频| 厕所极品偷拍一区二区三区视频 | 天天躁日日躁狠狠躁av| 久久道精品一区二区三区| 免费看av网站在线亚洲| 丰满多毛的大隂户毛茸茸| 96精品在线|