亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        注意力增強(qiáng)和目標(biāo)模型更新的紅外目標(biāo)跟蹤算法

        2023-09-26 04:22:10汲清波陳奎丞侯長(zhǎng)波李子琦戚宇飛
        關(guān)鍵詞:特征模型

        汲清波,陳奎丞,侯長(zhǎng)波*,李子琦,戚宇飛

        1.哈爾濱工程大學(xué)信息與通信工程學(xué)院,哈爾濱 150001;2.哈爾濱工程大學(xué)先進(jìn)船舶通信與信息技術(shù)工業(yè)和信息化部重點(diǎn)實(shí)驗(yàn)室,哈爾濱 150001

        0 引言

        目標(biāo)跟蹤作為計(jì)算機(jī)視覺(jué)的基本領(lǐng)域之一,在近十年內(nèi)取得了重大突破,廣泛用于安防、交通和軍事等眾多場(chǎng)景。目前,目標(biāo)跟蹤算法大多基于可見(jiàn)光場(chǎng)景設(shè)計(jì)(李璽 等,2019),而在某些情況下紅外目標(biāo)跟蹤則具有可見(jiàn)光不具備的優(yōu)勢(shì)。紅外設(shè)備利用物體自身的輻射進(jìn)行成像(李俊宏 等,2020),不需要額外的照明光源,可以在暗光、無(wú)光場(chǎng)景下顯示目標(biāo),具有一定的穿透能力。但紅外圖像也具有目標(biāo)與背景界限不清晰、成像模糊甚至與背景混雜等缺陷,同時(shí)紅外數(shù)據(jù)集(Liu等,2020c)的部分圖像粗糙,對(duì)基于數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)算法的訓(xùn)練有一定影響。

        紅外跟蹤算法可以分為傳統(tǒng)方法與深度學(xué)習(xí)方法兩類。傳統(tǒng)方法一般以相關(guān)濾波思想為核心,Asha 和Narasimhadhan(2017)在核相關(guān)濾波器上結(jié)合LK(Lucas-Kanade)單應(yīng)性估計(jì)法對(duì)紅外跟蹤目標(biāo)尺寸進(jìn)行估計(jì),提高了對(duì)行人目標(biāo)預(yù)測(cè)的準(zhǔn)確性。王承赟等人(2021)通過(guò)融合圖像灰度特征矢量和核相關(guān)濾波的方法,增加了樣本特征,同時(shí)利用多尺度搜索策略提高了紅外跟蹤的魯棒性。王海暉等人(2021)在均值漂移算法基礎(chǔ)上,通過(guò)構(gòu)建相似性度量函數(shù)求取目標(biāo)模型概率密度最大點(diǎn),在一定程度上解決了跟蹤紅外目標(biāo)遮擋問(wèn)題。李鑫隆和艾斯卡爾·艾木都拉(2021)針對(duì)紅外小目標(biāo)跟蹤雜波干擾與運(yùn)動(dòng)模糊問(wèn)題,使用局部相似的方法增強(qiáng)目標(biāo)的信息,降低了雜波和噪聲場(chǎng)景下對(duì)紅外小目標(biāo)的干擾,提高了算法的魯棒性。但是,傳統(tǒng)方法對(duì)紅外目標(biāo)的特征提取能力遠(yuǎn)不如深度學(xué)習(xí)方法,并且在線訓(xùn)練的濾波器無(wú)法適應(yīng)快速運(yùn)動(dòng)或模糊的目標(biāo),在背景復(fù)雜的場(chǎng)景中跟蹤精度較差?;谏疃葘W(xué)習(xí)的方法主要以神經(jīng)網(wǎng)絡(luò)為相關(guān)濾波器提供目標(biāo)特征和以孿生網(wǎng)絡(luò)為框架計(jì)算目標(biāo)相似性的兩類方法為主。Liu 等人(2017)使用預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)來(lái)提取熱紅外目標(biāo)不同層的特征,再使用相關(guān)濾波器構(gòu)造多個(gè)弱跟蹤器,最后合并響應(yīng)圖以獲得最終目標(biāo)位置。Zhang等人(2019a)利用生成式對(duì)抗網(wǎng)絡(luò)建立可見(jiàn)光圖像到紅外圖像的轉(zhuǎn)化模型,將可見(jiàn)光數(shù)據(jù)集合成為紅外跟蹤數(shù)據(jù)集并用于訓(xùn)練,提高了網(wǎng)絡(luò)對(duì)紅外目標(biāo)的特征提取能力。Li 等人(2019b)設(shè)計(jì)了多層卷積網(wǎng)絡(luò)組成的孿生網(wǎng)絡(luò)框架,充分使用多層空間和語(yǔ)義特征信息,并利用空間感知網(wǎng)絡(luò)來(lái)增強(qiáng)對(duì)紅外目標(biāo)特征的判別能力。李暢等人(2021)利用空間轉(zhuǎn)換網(wǎng)絡(luò)和通道注意力使孿生網(wǎng)絡(luò)具備對(duì)紅外目標(biāo)的全局感知能力,并融合多層特征以獲得對(duì)紅外目標(biāo)的最佳預(yù)測(cè)結(jié)果,提高了跟蹤的成功率。基于深度學(xué)習(xí)的紅外跟蹤算法基本采用固定錨框來(lái)訓(xùn)練和預(yù)測(cè)目標(biāo)尺寸,而錨框機(jī)制參數(shù)的設(shè)定需要人工重復(fù)調(diào)試,通用性不佳。為使神經(jīng)網(wǎng)絡(luò)更加注重紅外目標(biāo)特征,多數(shù)算法在網(wǎng)絡(luò)中加入大量注意力機(jī)制,嚴(yán)重影響了計(jì)算效率,又無(wú)法快速學(xué)習(xí)到紅外特征,而跟蹤器在跟蹤階段尤其是長(zhǎng)期跟蹤時(shí)極易受到周?chē)嗨莆锏母蓴_,如果無(wú)法充分利用目標(biāo)歷史信息,跟蹤器最終會(huì)丟失目標(biāo)。

        針對(duì)上述問(wèn)題,本文以SiamBAN(siamese box adaptive network)(Chen 等,2020)跟蹤算法為框架(該算法的無(wú)錨框機(jī)制對(duì)目標(biāo)回歸更加準(zhǔn)確,并去除了錨框機(jī)制帶來(lái)的冗余計(jì)算),在網(wǎng)絡(luò)模型前部加入針對(duì)紅外場(chǎng)景設(shè)計(jì)的快速注意力增強(qiáng)模塊,增強(qiáng)背景與目標(biāo)差異性并增強(qiáng)目標(biāo)的細(xì)節(jié)信息,同時(shí)減少噪聲、模糊等現(xiàn)象的影響。然后,將提取的特征融合到孿生網(wǎng)絡(luò)主干,提高主干網(wǎng)絡(luò)對(duì)紅外目標(biāo)特征的捕捉能力,并在主干網(wǎng)絡(luò)再次使用高效注意力,提高局部通道的信息交互。最后,在目標(biāo)更新階段,加入紅外目標(biāo)模型自適應(yīng)更新網(wǎng)絡(luò),僅利用主干網(wǎng)絡(luò)的中高層特征對(duì)目標(biāo)模板進(jìn)行更新,充分利用目標(biāo)的歷史變化信息,抑制搜索區(qū)域相似物的干擾,達(dá)到長(zhǎng)期精準(zhǔn)跟蹤。

        1 算法概述

        孿生網(wǎng)絡(luò)跟蹤算法主要通過(guò)大量數(shù)據(jù)集進(jìn)行端到端訓(xùn)練,使網(wǎng)絡(luò)主干獲得對(duì)目標(biāo)特征的提取能力。在推理時(shí),以第1 幀目標(biāo)為模板特征信息,并在后續(xù)幀的搜索區(qū)域上進(jìn)行相似性計(jì)算,響應(yīng)最大位置即為目標(biāo)的位置,該方法結(jié)構(gòu)簡(jiǎn)單且跟蹤效率高。但是,SiamFC(fully-convolutional siamese network)(Bertinetto 等,2016)、SiamRPN(siamese region proposal network)(Li 等,2018a)和SiamRPN++(Li 等,2019a)等算法多采用錨框機(jī)制,預(yù)先設(shè)定的錨框使它們需要煩瑣的手工調(diào)試才能適應(yīng)目標(biāo)的尺度和長(zhǎng)寬比變化。而SiamBAN 的無(wú)錨框設(shè)計(jì)避免了與候選框相關(guān)的超參數(shù),更加靈活和通用。因此,本文以Siam-BAN 為基礎(chǔ)跟蹤框架,為紅外目標(biāo)跟蹤設(shè)計(jì)快速注意力增強(qiáng)模塊(fast attention enhancement module,F(xiàn)AE)和目標(biāo)模型自適應(yīng)更新網(wǎng)絡(luò)(target model adaptive update network,TAUN),整體結(jié)構(gòu)如圖1 所示。網(wǎng)絡(luò)模型主要分為3 個(gè)部分,第1 部分為Siam-BAN 框架,第2 部分為快速注意力增強(qiáng)模塊,第3 部分為目標(biāo)模型自適應(yīng)更新網(wǎng)絡(luò)。首先,將輸入的紅外信息分別經(jīng)過(guò)主干網(wǎng)絡(luò)ResNet50(deep residual networks)的前兩層和快速注意力增強(qiáng)模塊,兩個(gè)操作并行進(jìn)行,再將兩部分提取到的特征在Conv3(convolutional)前進(jìn)行融合,以便于進(jìn)行后續(xù)的特征提取操作,同時(shí)在Conv4 與Conv5 之間使用一次注意力操作來(lái)加強(qiáng)局部信息交互(Att)。然后,紅外目標(biāo)模型自適應(yīng)更新網(wǎng)絡(luò),以當(dāng)前幀目標(biāo)在Conv4、Conv5 的特征、歷史幀目標(biāo)的特征信息和初始幀的真值為輸入,利用離線學(xué)習(xí)到的對(duì)紅外目標(biāo)特征變化趨勢(shì)的預(yù)測(cè)能力,對(duì)下一幀的目標(biāo)模板的中高層特征進(jìn)行預(yù)測(cè)。最后,將原網(wǎng)絡(luò)的Conv3 的特征、經(jīng)過(guò)目標(biāo)模型自適應(yīng)更新網(wǎng)絡(luò)更新后的Conv4 和Conv5 的中高層特征分別作為3 個(gè)BAN(box adaptive network)網(wǎng)絡(luò)的輸入,并進(jìn)行分類與回歸操作,將輸出的特征進(jìn)行加權(quán)融合,經(jīng)過(guò)后續(xù)選擇處理后完成跟蹤。在訓(xùn)練階段,回歸分支負(fù)責(zé)將預(yù)測(cè)出的目標(biāo)框4 個(gè)邊到真值框?qū)?yīng)邊的距離縮小。這個(gè)過(guò)程需要兩個(gè)框?qū)?yīng)邊的差值,即dl,dt,dr,db。

        圖1 本文算法結(jié)構(gòu)Fig.1 The structure of the proposed algorithm

        1.1 基于孿生網(wǎng)絡(luò)的無(wú)錨框目標(biāo)跟蹤框架

        SiamBAN由一個(gè)雙支路的主干和多個(gè)用于將不同層輸出的特征進(jìn)行互相關(guān)計(jì)算的模塊組成。雙支路網(wǎng)絡(luò)主干負(fù)責(zé)獲取模板區(qū)域和搜索區(qū)域的卷積特征,通過(guò)兩者的相關(guān)計(jì)算并加上位置偏差的影響,最終獲得響應(yīng)圖。響應(yīng)最高的位置即為目標(biāo)預(yù)測(cè)位置,響應(yīng)圖計(jì)算定義為

        式中,z表示初始幀目標(biāo)的圖像,x表示當(dāng)前幀搜索區(qū)域的圖像,f表示孿生網(wǎng)絡(luò)主干提取特征的操作,?表示相關(guān)計(jì)算,B表示特征圖每個(gè)位置的偏差信息。

        每個(gè)互相關(guān)計(jì)算模塊包括分類分支和回歸分支,分類分支對(duì)相關(guān)特征圖的每個(gè)點(diǎn)輸出兩個(gè)通道用于前景和背景分類,回歸分支對(duì)相關(guān)特征圖的每個(gè)點(diǎn)輸出4 個(gè)通道用于邊界框的預(yù)測(cè)。與其他基于錨框機(jī)制的孿生網(wǎng)絡(luò)跟蹤算法不同,BAN 對(duì)響應(yīng)點(diǎn)進(jìn)行尺寸預(yù)測(cè)采用的是目標(biāo)對(duì)4 個(gè)邊界距離的預(yù)測(cè),如圖2 所示。通過(guò)只計(jì)算其到邊界框的偏移值,可以解決分類與回歸的位置不一致的問(wèn)題。

        圖2 不同錨框機(jī)制對(duì)目標(biāo)回歸過(guò)程Fig.2 The regression process of different anchor mechanisms to the target((a)anchors-based;(b)anchors-free)

        在分類損失中,使用橢圓區(qū)域劃分正負(fù)樣本,如圖3所示,如果目標(biāo)點(diǎn)位置位于橢圓E1外,則分配負(fù)標(biāo)簽,此時(shí)橢圓長(zhǎng)短軸尺寸分別為真值邊界框的長(zhǎng)寬的1/2;如果目標(biāo)點(diǎn)位置位于橢圓E2內(nèi),則分配正標(biāo)簽,此時(shí)橢圓長(zhǎng)短軸尺寸分別為真值邊界框的長(zhǎng)寬的1/4;如果目標(biāo)點(diǎn)位置位于橢圓E1和E2之間,則不進(jìn)行處理,帶有正標(biāo)簽的位置用于回歸邊界框。

        圖3 正負(fù)樣本劃分過(guò)程Fig.3 The process of dividing positive and negative samples

        在訓(xùn)練時(shí),使用交叉熵?fù)p失(cross entropy loss,CE Loss)(Meng等,2019)作為分類損失,使用交并比損失(intersection over union loss,IoU Loss)(Rezatofighi等,2019)作為回歸損失,具體定義為

        式中,Lcls表示分類的交叉熵?fù)p失,Lreg表示回歸的交并比損失,λ1和λ2均為超參,此處設(shè)置為常數(shù)1。分類損失和回歸損失分別定義為

        式中,N為樣本數(shù)量,yi表示第i個(gè)樣本的真實(shí)標(biāo)簽,pi表示預(yù)測(cè)第i個(gè)樣本結(jié)果正確的概率,IoU表示預(yù)測(cè)邊界框和地面真值邊界框的交集與并集的面積比。

        1.2 快速注意力增強(qiáng)模塊

        紅外目標(biāo)在低對(duì)比度場(chǎng)景時(shí)會(huì)有外觀模糊、細(xì)節(jié)不清晰的現(xiàn)象,嚴(yán)重影響神經(jīng)網(wǎng)絡(luò)對(duì)目標(biāo)外觀特征信息的提取,這可能會(huì)導(dǎo)致跟蹤器在跟蹤過(guò)程中對(duì)背景發(fā)生誤判。此外,如何將增強(qiáng)后的目標(biāo)信息快速融入神經(jīng)網(wǎng)絡(luò),進(jìn)而提升神經(jīng)網(wǎng)絡(luò)對(duì)目標(biāo)信息的利用也是一個(gè)問(wèn)題。因此,本文設(shè)計(jì)了一種基于注意力的高效紅外圖像增強(qiáng)結(jié)構(gòu),并以此為基礎(chǔ),建立快速注意力增強(qiáng)模塊,最終將特征融合到網(wǎng)絡(luò)主干??焖僮⒁饬υ鰪?qiáng)模塊主要包含兩部分,第1 部分為限制對(duì)比度自適應(yīng)直方圖均衡化(contrast limited adaptive histogram equalization,CLAHE)(Reza,2004),第2 部分為高效注意力(efficient channel attention,ECA)(Wang 等,2020)模塊,兩個(gè)部分由3層卷積網(wǎng)絡(luò)構(gòu)成殘差結(jié)構(gòu)進(jìn)行聯(lián)接,如圖4所示。

        圖4 快速注意力增強(qiáng)模塊結(jié)構(gòu)Fig.4 The structure of fast attention enhancement module

        1.2.1 限制對(duì)比度自適應(yīng)直方圖均衡化

        限制對(duì)比度自適應(yīng)直方圖均衡化是對(duì)自適應(yīng)直方圖均衡化算法的進(jìn)一步優(yōu)化,可以更好地提升紅外場(chǎng)景中目標(biāo)與背景的對(duì)比度,突出細(xì)節(jié)信息。該方法依據(jù)概率密度函數(shù)的積分曲線的斜率來(lái)防止對(duì)圖像增強(qiáng)過(guò)度,對(duì)直方圖進(jìn)行裁剪,并將剪掉的部分均勻分布在灰度空間,如圖5所示。具體為

        圖5 CLAHE裁剪過(guò)程Fig.5 The clipping process of CLAHE

        式中,Hist(i)為灰階值,閾值T為直方圖截?cái)嘀?,直方圖上升高度L為截取部分均勻分布的灰階值,Hmax為均勻分布后的灰階最大值。這樣既能保證直方圖面積不變,又能限制其變化幅度,同時(shí)邊界像素使用相鄰子圖變換函數(shù)變換后,通過(guò)雙線性插值計(jì)算。

        圖6 為圖像及特征經(jīng)過(guò)CLAHE 處理后的對(duì)比。通過(guò)CLAHE 處理,可以在很大程度上解決弱對(duì)比度場(chǎng)景細(xì)節(jié)不清晰的問(wèn)題,提升神經(jīng)網(wǎng)絡(luò)對(duì)紅外目標(biāo)邊緣和紋理等特征的提取能力,如圖6(d)所示。但是,并不能完全將CLAHE 處理后的結(jié)果作為神經(jīng)網(wǎng)絡(luò)的唯一輸入,在一些特殊場(chǎng)景,例如圖像中存在高密度梯度時(shí),增強(qiáng)后的圖像會(huì)出現(xiàn)偽影。因此在后續(xù)處理中,采取將經(jīng)過(guò)CLAHE 處理與未經(jīng)過(guò)CLAHE 處理的特征進(jìn)行比例融合的方式作為下一級(jí)網(wǎng)絡(luò)的輸入。

        圖6 圖像經(jīng)過(guò)CLAHE處理后的特征對(duì)比Fig.6 Feature comparison of images processed by CLAHE((a)images without CLAHE;(b)images with CLAHE;(c)the feature of images without CLAHE;(d)the feature of images with CLAHE)

        1.2.2 高效通道注意力

        在獲得增強(qiáng)后的紅外目標(biāo)后,如何快速學(xué)習(xí)這些明顯的特征是首要解決的問(wèn)題。大多數(shù)紅外跟蹤算法為了提升對(duì)紅外目標(biāo)特征的捕捉能力,會(huì)添加更復(fù)雜的注意模塊,嚴(yán)重影響跟蹤效率。為此,本模塊使用一維卷積實(shí)現(xiàn)一種高效的通道注意力機(jī)制,參數(shù)少、但能極大提升通道間的信息交互。首先,設(shè)定參數(shù)矩陣來(lái)學(xué)習(xí)對(duì)通道的注意力,具體為

        式中,C為輸入特征的通道數(shù),故Wk包含k×C數(shù)量的元素,遠(yuǎn)少于一般的通道注意力機(jī)制。特征的通道權(quán)重僅通過(guò)考慮與其相鄰的k個(gè)通道來(lái)計(jì)算,再將權(quán)重轉(zhuǎn)為共享,即

        式中,φ表示一維卷積操作。通過(guò)自適應(yīng)改變卷積核大小來(lái)調(diào)整局部通道信息交互的范圍,卷積核大小定義為

        式中,k表示核大小,c為通道維數(shù),|t|odd表示t的最近奇數(shù),γ和b表示超參,本實(shí)驗(yàn)設(shè)置為2和1。

        如圖4所示,通過(guò)將目標(biāo)區(qū)域進(jìn)行一次CLAHE,進(jìn)行細(xì)節(jié)清晰化處理,經(jīng)過(guò)3 次卷積后,將大小為H2×W2、通道數(shù)為C2的特征進(jìn)行全局平均池化,獲得聚合特征,根據(jù)特征通道維度生成大小為3 的卷積核進(jìn)行快速1 維卷積,最后經(jīng)過(guò)Sigmoid 函數(shù)生成各通道權(quán)重,將輸出特征融合回主干網(wǎng)絡(luò)的第3 層。在加入融合注意力的快速增強(qiáng)模塊后,網(wǎng)絡(luò)對(duì)紅外目標(biāo)的特征捕捉能力更強(qiáng)。圖7 為主干網(wǎng)絡(luò)提取特征能力對(duì)比,其中,圖7(b)為沒(méi)有加入快速注意力增強(qiáng)模塊(FAE)情況下主干網(wǎng)絡(luò)提取的特征圖,圖7(c)為加入快速注意力增強(qiáng)模塊后提取的特征圖。如圖7(c)所示,在加入快速注意力增強(qiáng)模塊后,主干網(wǎng)絡(luò)的中高層部分對(duì)紅外行人目標(biāo)特征提取更精確。

        圖7 主干網(wǎng)絡(luò)提取特征能力對(duì)比Fig.7 Comparison of feature extraction capability of backbone((a)original images of search area;(b)feature maps of different layers of backbone without adding FAE;(c)feature maps of different layers of backbone with FAE)

        1.3 目標(biāo)模型自適應(yīng)更新網(wǎng)絡(luò)

        紅外目標(biāo)跟蹤是對(duì)目標(biāo)運(yùn)動(dòng)進(jìn)行連續(xù)處理的過(guò)程,因此對(duì)目標(biāo)歷史變化信息的利用顯得尤為重要,本文將UpdateNet(Zhang 等,2019b)進(jìn)行改進(jìn)后引入SiamBAN,設(shè)計(jì)了目標(biāo)模型自適應(yīng)更新網(wǎng)絡(luò)(TAUN),如圖8 所示。該網(wǎng)絡(luò)將主干網(wǎng)絡(luò)的中高層特征作為初始模板,即主干網(wǎng)絡(luò)第4、5 層輸出,再疊加歷史累積模板和當(dāng)前幀的模板,進(jìn)而推算下一幀的目標(biāo)的最佳模板,具體定義為

        圖8 目標(biāo)模型自適應(yīng)更新網(wǎng)絡(luò)結(jié)構(gòu)Fig.8 The structure of target model adaptive update network

        圖9 搜索區(qū)域的目標(biāo)分類響應(yīng)Fig.9 The response of target classification in the search area((a)original images;(b)the response of target classification without adding target model adaptive update network;(c)the response of target classification with target model adaptive update network)

        目標(biāo)模型自適應(yīng)更新網(wǎng)絡(luò)的功能是在下一幀預(yù)測(cè)目標(biāo)模板,即預(yù)測(cè)的目標(biāo)模板應(yīng)與下一幀從目標(biāo)真值位置提取的模板相匹配。為達(dá)到該目的,本文通過(guò)使更新模板和下一幀的真值模板之間的歐氏距離最小作為損失來(lái)訓(xùn)練,該損失具體定義為

        2 實(shí)驗(yàn)與分析

        2.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)集

        實(shí)驗(yàn)處理器為Intel i9-10900k,單塊RTX2080顯卡,操作系統(tǒng)為Ubuntu18.04,深度學(xué)習(xí)框架為PyTorch1.7.0,訓(xùn)練數(shù)據(jù)使用大型紅外數(shù)據(jù)集LSOTB-TIR(large-scale thermal infrared object tracking benchmark)(Liu 等,2020a)的訓(xùn)練集,該數(shù)據(jù)集的訓(xùn)練集包含47 個(gè)類別的1 280 個(gè)視頻序列,有超過(guò)520 k 幅圖像和650 k 個(gè)邊界框,包含廣闊的紅外場(chǎng)景。

        首先,將紅外訓(xùn)練集的數(shù)據(jù)進(jìn)行裁剪,目標(biāo)模板為127 × 127像素,搜索區(qū)域尺寸為255 × 255像素,并從一對(duì)圖像中最多收集16個(gè)正樣本和48個(gè)負(fù)樣本,其他與原算法保持一致。訓(xùn)練時(shí)加載SiamBAN可見(jiàn)光預(yù)訓(xùn)練模型,使用隨機(jī)梯度下降(stochastic gradient descent,SGD)訓(xùn)練,小批量為28對(duì)。共訓(xùn)練26個(gè)epoch,前5個(gè)epoch 使用1 × 10-3~5 × 10-3的學(xué)習(xí)率,后21 個(gè)epoch 使用5 × 10-3~5 × 10-5的學(xué)習(xí)率,并設(shè)置為指數(shù)衰減。其次,單獨(dú)訓(xùn)練目標(biāo)模型自適應(yīng)更新網(wǎng)絡(luò),從LSOTB-TIR 訓(xùn)練集隨機(jī)挑選25 個(gè)視頻序列,作為目標(biāo)模型更新網(wǎng)絡(luò)的訓(xùn)練集。具體步驟為:使目標(biāo)模型更新網(wǎng)絡(luò)模型權(quán)值隨機(jī)初始化,使用RMSprop(root mean square prop)作為優(yōu)化器,學(xué)習(xí)率為0.01,衰減速率設(shè)置為0.99,學(xué)習(xí)率在50 個(gè)epoch 內(nèi),以對(duì)數(shù)方式從1 × 10-5~1 × 10-6衰減,對(duì)模型進(jìn)行50個(gè)epoch的訓(xùn)練,batchsize設(shè)置為64。

        2.2 測(cè)試數(shù)據(jù)集及評(píng)測(cè)標(biāo)準(zhǔn)

        LSOTB-TIR 測(cè)試集將120 個(gè)序列、22 個(gè)對(duì)象類和超過(guò)82 k幀作為評(píng)估測(cè)試集。使用單次評(píng)估方法(one-pass evaluation,OPE)(Wu 等,2013),每個(gè)跟蹤器僅在每個(gè)視頻序列的第1 幀中初始化,后續(xù)不再修正跟蹤器,最終通過(guò)精度、歸一化精度和成功率來(lái)評(píng)估算法的性能。精度是預(yù)測(cè)位置中心與真值中心之間的歐氏距離的誤差小于給定閾值的視頻幀數(shù)與視頻幀總數(shù)的比值。成功率是重疊率大于設(shè)定閾值的幀數(shù)與總幀數(shù)的比率。重疊率是預(yù)測(cè)目標(biāo)區(qū)域和真值區(qū)域的并集和交集的比值。

        PTB-TIR(thermal infrared pedestrian tracking benchmark)數(shù)據(jù)集(Liu等,2020a)是用于紅外行人目標(biāo)跟蹤器評(píng)估的跟蹤數(shù)據(jù)集,包括60 個(gè)紅外視頻序列。每個(gè)序列有9 個(gè)屬性標(biāo)簽,用于基于屬性的評(píng)估。評(píng)測(cè)標(biāo)準(zhǔn)與LSOTB-TIR的精度與成功率一致。

        VOT-TIR2015(thermal infrared visual object tracking)(Felsberg等,2015)與VOT-TIR 2017(Kristan等,2017)是VOT(Visual Object Tracking)競(jìng)賽使用的紅外跟蹤數(shù)據(jù)集,兩者分別包含20個(gè)和25個(gè)測(cè)試序列。測(cè)試指標(biāo)均使用精確度、魯棒性和期望平均重疊值。精確度(accuracy,Acc)表示成功跟蹤時(shí)跟蹤框與真值的平均重疊值,魯棒性(robustness,Rob)表示失敗次數(shù),期望平均重疊值(expected average overlap,EAO)由精確度和魯棒性共同確定。

        2.3 實(shí)驗(yàn)結(jié)果

        2.3.1 LSOTB-TIR測(cè)試結(jié)果

        實(shí)驗(yàn)將本文算法與9 個(gè)在LSOTB-TIR 測(cè)試集上表現(xiàn)最好的紅外跟蹤器進(jìn)行比較,包括SiamRPN++(Li 等,2019a)、SiamBAN(Chen 等,2020)、ECO(efficient convolution operators)(Danelljan 等,2017)、ECO-stir(Zhang 等,2019a)、ECO-HC(efficient convolution operators with hand-crafted feature)(Danelljan等,2017)、ATOM(accurate tracking by overlap maximization)(Danelljan 等,2019)、MDNet(multi-domain convolutional neural networks)(Nam 和Han,2016)、VITAL(visual tracking via adversarial learning)(Song等,2018)和TADT(target-aware deep tracking)(Li等,2019c),測(cè)試結(jié)果如圖10 所示,本文跟蹤器的精度為79.0%,歸一化精度為71.5%,成功率為66.2%,相比基線跟蹤器分別提高了6.3%、5.3%和5.0%。本文算法較第2 名在精度和成功率方面分別高出4.0%和4.6%,均達(dá)到最優(yōu)。

        圖10 LSOTB-TIR測(cè)試結(jié)果Fig.10 The results on LSOTB-TIR dataset((a)precision plots;(b)normalized precision plots;(c)success plots)

        2.3.2 PTB-TIR測(cè)試結(jié)果

        在PTB-TIR 數(shù)據(jù)集上,將本文算法與其他紅外、可見(jiàn)光跟蹤器進(jìn)行比較,包括SiamBAN(Chen 等,2020)、ECO-stir(Zhang 等,2019a)、ECO(Danelljan等,2017)、ECO-HC(Danelljan 等,2017)、MDNet(Nam 和Han,2016)、VITAL(Song 等,2018)、SRDCF(spatially regularized discriminative correlation filter)(Danelljan 等,2015)、DeepSTRCF(Li 等,2018b)和MMNet(multi-task driven feature models network)(Liu等,2020b),測(cè)試結(jié)果如圖11所示,本文的跟蹤器的精度為85.1%,成功率為66.9%,相比基線跟蹤器分別提高了6.5%和5.3%。本文算法較第2名在精度和成功率方面分別高出1.3%和3.6%,達(dá)到目前最優(yōu)。

        圖11 PTB-TIR測(cè)試結(jié)果Fig.11 The results on PTB-TIR dataset((a)precision plots;(b)success plots)

        2.3.3 VOT-TIR測(cè)試結(jié)果

        在VOT-TIR2015 和VOT-TIR2017 數(shù)據(jù)集上,將本文算法與其他9 類紅外、可見(jiàn)光跟蹤器進(jìn)行比較,包括SRDCF(Danelljan 等,2015)、SiamRPN(Li 等,2018a)、MDNet(Nam 和Han,2016)、TADT(Li 等,2019c)、DeepSTRCF(Li 等,2018b)、ECO-deep(Danelljan 等,2017)、VITAL(Song 等,2018)、HSSNet(hierarchical spatial-aware siamese network)(Li 等,2019b)和MMNet(Liu 等,2020b),測(cè)試結(jié)果如表1 所示,本文算法在VOT-TIR2015上的EAO和Acc指標(biāo)、在VOT-TIR2017 上的 Acc 指標(biāo)均排名第1,但是魯棒性稍差。

        表1 VOT-TIR測(cè)試結(jié)果Table 1 The results on VOT-TIR dataset

        2.3.4 消融實(shí)驗(yàn)結(jié)果

        本節(jié)以SiamBAN 為基準(zhǔn),在LSOTB-TIR 數(shù)據(jù)集的測(cè)試集上進(jìn)行測(cè)試。為排除紅外訓(xùn)練集對(duì)紅外跟蹤器性能的影響,單獨(dú)對(duì)基準(zhǔn)算法在紅外訓(xùn)練集上進(jìn)行一次相同過(guò)程的訓(xùn)練,并將消融實(shí)驗(yàn)分為5 個(gè)部分,預(yù)加載模型權(quán)重均為基線跟蹤器在可見(jiàn)光數(shù)據(jù)集上訓(xùn)練的模型,實(shí)驗(yàn)結(jié)果如表2 所示。其中,SiamBAN 表示使用可見(jiàn)光數(shù)據(jù)集預(yù)訓(xùn)練的模型直接對(duì)紅外測(cè)試集進(jìn)行測(cè)試的結(jié)果;SiamBAN-TIR表示加載可見(jiàn)光數(shù)據(jù)集預(yù)訓(xùn)練的模型權(quán)重,且網(wǎng)絡(luò)模型不做改動(dòng),僅在紅外目標(biāo)訓(xùn)練集進(jìn)行訓(xùn)練后的測(cè)試結(jié)果;FAE表示快速注意力增強(qiáng)模塊,F(xiàn)AEWC表示FAE去掉了CLAHE處理,TAUN表示目標(biāo)模型自適應(yīng)更新網(wǎng)絡(luò),該實(shí)驗(yàn)的5部分訓(xùn)練參數(shù)與2.1節(jié)保持一致。

        表2 消融實(shí)驗(yàn)分析Table 2 Analysis of ablation study

        從表2 可以看出,SiamBAN 以可見(jiàn)光數(shù)據(jù)集訓(xùn)練的模型為基礎(chǔ),在紅外數(shù)據(jù)集繼續(xù)訓(xùn)練后,成功率和精度分別提升了2.4%和3.5%。為保持變量唯一,在后續(xù)分析中均以SiamBAN-TIR 為基礎(chǔ)。在加入去掉CLAHE 的快速注意力增強(qiáng)模塊后,算法性能出現(xiàn)輕微下降;在加入融合CLAHE 的快速注意力增強(qiáng)模塊后,算法的成功率和精度分別提升了1.7%和1.7%。單獨(dú)加入目標(biāo)模型自適應(yīng)更新網(wǎng)絡(luò)后,算法的成功率和精度分別提升了2.1%和2.0%。最終,將兩者融合后,算法的成功率和精度分別提升了2.6%和2.8%。該結(jié)果說(shuō)明了本文方法的有效性。算法的跟蹤速度隨著FAE 和TAUN 的加入呈現(xiàn)下降的趨勢(shì),尤其是TAUN 帶來(lái)的影響較大,因?yàn)門(mén)AUN需要對(duì)每一幀目標(biāo)模型進(jìn)行更新,因此帶來(lái)了一定計(jì)算量,但仍然可以達(dá)到實(shí)時(shí)。

        2.3.5 定性分析

        為具體評(píng)估算法性能,對(duì)紅外與可見(jiàn)光跟蹤器在各類具有挑戰(zhàn)性的場(chǎng)景表現(xiàn)進(jìn)行定性分析,測(cè)試對(duì)象包括2.3.1 節(jié)提到的10 個(gè)算法,在LSOTB-TIR測(cè)試集上,不同屬性的精度和成功率結(jié)果如圖12 和圖13 所示。可以看出,本文算法在背景雜亂、快速運(yùn)動(dòng)、強(qiáng)度變化、尺度變化、遮擋、超出視野、形變、低分辨率及運(yùn)動(dòng)模糊屬性跟蹤成功率取得最優(yōu),并在前6 個(gè)屬性取得精度最優(yōu),說(shuō)明本文算法的快速注意力增強(qiáng)模塊和目標(biāo)模型自適應(yīng)更新網(wǎng)絡(luò)對(duì)跟蹤成功率的提高有著明顯的增益作用。

        圖12 不同屬性下的精度曲線Fig.12 Precision plots of different attributes((a)background clutter;(b)fast motion;(c)intensity variation;(d)deformation;(e)scale variation;(f)low resolution;(g)occlusion;(h)out of view;(i)motion blur)

        圖13 不同屬性下的成功曲線Fig.13 Success plots of different attributes((a)background clutter;(b)fast motion;(c)intensity variation;(d)deformation;(e)scale variation;(f)low resolution;(g)occlusion;(h)out of view;(i)motion blur)

        本文對(duì)跟蹤器在5 個(gè)測(cè)試視頻序列上的跟蹤結(jié)果進(jìn)行可視化分析,其中每個(gè)測(cè)試視頻序列至少包含4類挑戰(zhàn)性屬性,結(jié)果如圖14所示。

        圖14 不同視頻序列跟蹤結(jié)果可視化Fig.14 Visualization of tracking results of different video sequences((a)airplane_H_001;(b)bat_H_001;(c)airplane_H_002;(d)dog_D_002;(e)person_D_009)

        圖14(a)為視頻序列第479 幀到634 幀,當(dāng)飛機(jī)在鏡頭范圍內(nèi)飛行時(shí),大多數(shù)算法能夠跟蹤成功,但是基本無(wú)法完成對(duì)飛機(jī)外輪廓的精準(zhǔn)回歸。這是因?yàn)閷?duì)飛機(jī)的拍攝角度發(fā)生劇烈變化導(dǎo)致的機(jī)身尺寸變化較大?;€算法SiamBAN 缺乏對(duì)目標(biāo)有效的更新手段,因此跟蹤框只包含飛機(jī)上半身。本文算法跟蹤器通過(guò)目標(biāo)模型自適應(yīng)更新網(wǎng)絡(luò)不斷對(duì)目標(biāo)模板進(jìn)行更新,更好地對(duì)目標(biāo)變化的尺寸做出推斷,達(dá)到精準(zhǔn)跟蹤。

        圖14(b)為視頻序列第28 幀到34 幀,目標(biāo)與背景相似且水面背景干擾因素過(guò)多,同時(shí)飛鳥(niǎo)快速運(yùn)動(dòng)會(huì)使自身發(fā)生運(yùn)動(dòng)模糊,導(dǎo)致VITAL、ECOHC、MDNet 與SiamBAN 發(fā)生漂移現(xiàn)象,本文算法加入注意力增強(qiáng)模塊,可以在雜亂背景中成功跟蹤目標(biāo)。

        圖14(c)為視頻序列第276 幀到427 幀,目標(biāo)發(fā)生長(zhǎng)時(shí)間遮擋現(xiàn)象,當(dāng)目標(biāo)再次出現(xiàn)時(shí),除本文算法、ATOM 和TADT,其他跟蹤器均發(fā)生漂移,無(wú)法成功跟蹤目標(biāo)。本文的注意力增強(qiáng)模塊可以在當(dāng)前搜索區(qū)域根據(jù)響應(yīng)變化確定目標(biāo),同時(shí)利用目標(biāo)模型更新網(wǎng)絡(luò)對(duì)下一幀目標(biāo)模板進(jìn)行預(yù)測(cè),進(jìn)而對(duì)目標(biāo)尺寸進(jìn)行精準(zhǔn)回歸。ATOM 雖然能夠再次跟蹤目標(biāo),但是該跟蹤器的在線學(xué)習(xí)模塊只對(duì)目標(biāo)的分類結(jié)果提供增益,對(duì)目標(biāo)變化的尺寸并沒(méi)有進(jìn)行充分學(xué)習(xí),因此導(dǎo)致跟蹤精度較差,無(wú)法在目標(biāo)出現(xiàn)時(shí)對(duì)輪廓進(jìn)行準(zhǔn)確回歸。

        圖14(d)為視頻序列第222 幀到274 幀,目標(biāo)在低分辨率場(chǎng)景下發(fā)生模糊現(xiàn)象,目標(biāo)的特征與背景相似,此時(shí)ECO-stir、VITAL 和MDNet 轉(zhuǎn)為對(duì)錯(cuò)誤目標(biāo)進(jìn)行跟蹤,原因是行人外觀信息與背景有較大差異,跟蹤器對(duì)模糊目標(biāo)提取的特征不夠充分,在搜索區(qū)域的行人的特征響應(yīng)大于目標(biāo)的特征,而ATOM和ECO-HC 由于無(wú)法找到目標(biāo),一直處于漂移狀態(tài)。本文算法能對(duì)初始目標(biāo)進(jìn)行細(xì)節(jié)清晰化處理,同時(shí)對(duì)目標(biāo)特征提取能力增強(qiáng),能夠區(qū)分背景與目標(biāo)。目標(biāo)模型更新網(wǎng)絡(luò)對(duì)目標(biāo)歷史信息持續(xù)利用,能夠應(yīng)對(duì)變化的視角下對(duì)目標(biāo)的捕捉能力。

        圖14(e)為視頻序列第661 幀到740 幀,行人目標(biāo)存在一次短時(shí)遮擋現(xiàn)象,由于行人與遮擋物同屬于高亮目標(biāo),SiamRPN++、TADT 和SiamBAN 無(wú)法將目標(biāo)與遮擋物區(qū)分,當(dāng)目標(biāo)再次出現(xiàn)時(shí),跟蹤器無(wú)法對(duì)出現(xiàn)的目標(biāo)進(jìn)行跟蹤。在第740幀到第939幀,目標(biāo)存在一次鏡頭快速縮放現(xiàn)象,當(dāng)目標(biāo)突然增大,ECO、ECO-stir、ATOM 和VITAL 無(wú)法快速應(yīng)對(duì)尺寸變化,因此對(duì)目標(biāo)回歸的尺寸精度較差,而本文算法的目標(biāo)模型自適應(yīng)更新網(wǎng)絡(luò)可以自適應(yīng)地對(duì)變化的目標(biāo)進(jìn)行學(xué)習(xí),短時(shí)間內(nèi)完成對(duì)新目標(biāo)尺寸的預(yù)測(cè)。

        3 結(jié)論

        針對(duì)目前跟蹤器對(duì)紅外目標(biāo)特征捕捉能力不足以及長(zhǎng)時(shí)間跟蹤時(shí)無(wú)法抑制背景干擾的問(wèn)題,本文提出了一種注意力增強(qiáng)和目標(biāo)模型自適應(yīng)更新的紅外目標(biāo)跟蹤算法。本文以無(wú)錨框算法為基礎(chǔ),設(shè)計(jì)了基于高效注意力的快速增強(qiáng)模塊,通過(guò)對(duì)目標(biāo)區(qū)域進(jìn)行對(duì)比度均衡化處理,削弱了低對(duì)比度紅外場(chǎng)景帶來(lái)的消極影響,同時(shí)對(duì)增強(qiáng)后的目標(biāo)特征細(xì)節(jié)進(jìn)行高效學(xué)習(xí),提升了主干網(wǎng)絡(luò)對(duì)紅外目標(biāo)特征的捕捉能力。然后,通過(guò)分析3 層BAN 結(jié)構(gòu)特征與目標(biāo)分類特性的聯(lián)系,提出了改進(jìn)的目標(biāo)模型自適應(yīng)更新網(wǎng)絡(luò),利用目標(biāo)的歷史信息對(duì)目標(biāo)的中高層特征進(jìn)行不斷更新,極大提升了長(zhǎng)期跟蹤階段的魯棒性。在LSOTB-TIR、PTB-TIR、VOT-TIR2015 和VOTTIR2017等4個(gè)紅外標(biāo)準(zhǔn)測(cè)試集上的評(píng)估結(jié)果表明,本文算法優(yōu)于大部分跟蹤器,并在快速運(yùn)動(dòng)、背景雜亂等場(chǎng)景有著顯著優(yōu)勢(shì)。本文以基線算法為基礎(chǔ),設(shè)計(jì)的消融實(shí)驗(yàn)結(jié)果表明所提方法具有相互促進(jìn)的作用,進(jìn)一步說(shuō)明了該方法的有效性。

        目前的目標(biāo)模型更新網(wǎng)絡(luò)的架構(gòu)設(shè)計(jì)仍比較簡(jiǎn)單,所以該部分學(xué)習(xí)能力有限,無(wú)法適應(yīng)全部跟蹤場(chǎng)景,并且缺少更新特征的篩選機(jī)制,在干擾嚴(yán)重的情況下容易產(chǎn)生跟蹤漂移現(xiàn)象。因此,在后續(xù)研究中,將在增強(qiáng)該網(wǎng)絡(luò)對(duì)紅外目標(biāo)特征學(xué)習(xí)能力的前提下,增加有效的特征篩選機(jī)制,選取最優(yōu)的目標(biāo)特征進(jìn)行更新,使網(wǎng)絡(luò)結(jié)構(gòu)兼具輕量和高效的優(yōu)點(diǎn)。

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        亚洲欧美日韩中文字幕一区二区三区| 精品久久免费一区二区三区四区| 久久久精品国产亚洲av网| 成年人一区二区三区在线观看视频 | 一性一交一口添一摸视频| 日韩第四页| 手机看片久久国产免费| 亚州精品无码人妻久久| 亚洲无码性爱视频在线观看| 中文天堂一区二区三区| 久久精品国产精品亚洲艾| 李白姓白白又白类似的套路| 亚洲人成网网址在线看| 欧美粗大无套gay| 日韩久久av电影| 精品少妇一区二区三区入口| 免费的小黄片在线观看视频| 怡红院av一区二区三区| 日本丰满熟妇hd| 久久无码一一区| 日本一区不卡在线观看| 精品卡一卡二乱码新区| 无码精品日韩中文字幕| 欧美日韩不卡视频合集| 欧美午夜精品久久久久久浪潮| 3亚洲日韩在线精品区| 国产久色在线拍揄自揄拍| 少妇激情av一区二区三区| 欧美怡红院免费全部视频| 91精品全国免费观看青青| 亚洲专区一区二区三区四区五区| 久久亚洲精品国产av| 亚洲a∨无码男人的天堂| 欧美激情在线不卡视频网站| 国产一区二区av男人| 日韩精品人妻久久久一二三| 伊伊人成亚洲综合人网香| 日本高清不在线一区二区色| 丝袜av乱码字幕三级人妻| 日韩乱码人妻无码系列中文字幕| 日本边添边摸边做边爱的网站|