亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力和角度間隔損失的高光譜目標(biāo)跟蹤

        2022-11-03 14:05:14施宗晗趙海濤
        應(yīng)用光學(xué) 2022年5期
        關(guān)鍵詞:特征模型

        施宗晗,趙海濤

        (華東理工大學(xué)信息科學(xué)與工程學(xué)院,上海200237)

        引言

        近年來(lái)隨著人工智能等技術(shù)的興起,目標(biāo)跟蹤在機(jī)器人導(dǎo)航、無(wú)人駕駛、人機(jī)交互、智能交通和體育賽事轉(zhuǎn)播等領(lǐng)域具有廣泛的應(yīng)用,涉及到國(guó)防建設(shè)、航空航天、安全保障等眾多方面。目標(biāo)跟蹤根據(jù)給定視頻序列初始幀的目標(biāo)大小與位置來(lái)預(yù)測(cè)后續(xù)幀中該目標(biāo)的大小與位置[1],是計(jì)算機(jī)視覺(jué)中重要的研究方向之一。由于跟蹤目標(biāo)和場(chǎng)景的復(fù)雜多變,且訓(xùn)練樣本匱乏,能在有限的訓(xùn)練樣本中克服運(yùn)動(dòng)模糊、快速移動(dòng)、光照變化、尺度變化、旋轉(zhuǎn)、遮擋等這些極具挑戰(zhàn)性的問(wèn)題[2],這考驗(yàn)著算法的速度、魯棒性和準(zhǔn)確性。早期的目標(biāo)跟蹤算法大多使用傳統(tǒng)方法,包括基于濾波理論的算法[3-5]、基于核方法的算法[6-7]以及基于相關(guān)濾波的算法[8-11]。隨著卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的發(fā)展,目標(biāo)跟蹤的性能得到了很大提升,深度學(xué)習(xí)在該領(lǐng)域的實(shí)際應(yīng)用也在不斷地改進(jìn)和創(chuàng)新。

        2013年,深度學(xué)習(xí)方法被首次應(yīng)用到目標(biāo)跟蹤領(lǐng)域。隨后,Ma 等人[12]提出的HCF(hierarchical convolutional features)算法將深度學(xué)習(xí)與相關(guān)濾波結(jié)合起來(lái),使用核相關(guān)濾波(kernel correlation filter,KCF)算法[9],并將其中使用的多通道梯度直方圖(histogram of oriented gradients,HOG)特征替換為深度卷積特征。而深度學(xué)習(xí)的功能十分強(qiáng)大,研究人員并不滿足于將深度特征僅用在目標(biāo)跟蹤中。Bertinetto 等人[13]提出的全卷積孿生網(wǎng)絡(luò)模型(fully-convolutional siamese networks,Siamese FC)實(shí)現(xiàn)了模型端到端的訓(xùn)練,使用大型數(shù)據(jù)集在孿生網(wǎng)絡(luò)框架上進(jìn)行離線預(yù)訓(xùn)練,提取目標(biāo)模板特征與候選區(qū)域特征并進(jìn)行卷積操作,得到的響應(yīng)圖中響應(yīng)最大的區(qū)域即為估計(jì)目標(biāo)位置。隨后,Danelljan 等人[14]又提出了一種訓(xùn)練連續(xù)卷積濾波器(continuous convolution operator tracker,C-COT)的新方法,通過(guò)創(chuàng)建在時(shí)域內(nèi)相關(guān)的連續(xù)卷積濾波器,有效地整合了多分辨率深度特征圖。對(duì)于跟蹤問(wèn)題,使用視頻跟蹤序列作為訓(xùn)練數(shù)據(jù)更為合理,而且從目標(biāo)檢測(cè)、分類任務(wù)中遷移來(lái)的網(wǎng)絡(luò)需要分出很多類別的目標(biāo),建成的網(wǎng)絡(luò)很大,增加了計(jì)算的復(fù)雜度,但在跟蹤問(wèn)題中只需分兩類,即目標(biāo)和背景。于是2015年VOT的冠軍算法,即多域卷積神經(jīng)網(wǎng)絡(luò)模型[15](multi-domain convolutional neural networks,MDNet)做出了一個(gè)示范,通過(guò)建立多域?qū)W習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)學(xué)習(xí)目標(biāo)的通用表示特征。隨后有研究人員提出MANet(multi-adapter convolutional networks,MANet)算法[16],將可見(jiàn)光圖像和紅外圖像進(jìn)行融合,并分別設(shè)計(jì)了共享卷積核和特定卷積核,同時(shí)延續(xù)MDNet的思想,跟蹤效果和現(xiàn)有其他現(xiàn)有算法相比又有一定的提升。

        雖然MANet 網(wǎng)絡(luò)跟蹤效果較好,但在一些場(chǎng)景較為復(fù)雜的情況下,例如目標(biāo)與背景紋理相似或顏色相近時(shí),跟蹤算法很容易出現(xiàn)漂移。CNN模型在處理數(shù)據(jù)時(shí),對(duì)每一個(gè)特征圖和特征子空間進(jìn)行等價(jià)處理,沒(méi)有重點(diǎn)關(guān)注的對(duì)象,當(dāng)目標(biāo)尺度變化或顏色與背景相近時(shí),缺乏對(duì)應(yīng)的響應(yīng)機(jī)制,限制了模型的性能。此外多域網(wǎng)絡(luò)訓(xùn)練過(guò)程中,每一個(gè)域都對(duì)應(yīng)一個(gè)不同的視頻序列,一個(gè)視頻中的目標(biāo)可能是另一個(gè)視頻中的背景。網(wǎng)絡(luò)使用的Softmax 損失的決策邊界是兩類預(yù)測(cè)概率相等,這樣就存在邊界判斷模糊的情況,在目標(biāo)與背景顏色相近時(shí),無(wú)法準(zhǔn)確跟蹤到目標(biāo),影響模型效果。

        因此本文針對(duì)高光譜數(shù)據(jù)提出了基于注意力機(jī)制和加性角度間隔損失[17]的跟蹤模型(multiadaptor convolutional neural network based on attention mechanism and AAML,AANet)。首先在卷積層后加入融合的注意力模型,該模型能夠有效整合兩路輸入中不同波段的信息,對(duì)全局特征和局部特征進(jìn)行處理,使得網(wǎng)絡(luò)的注意力集中在目標(biāo)上,在相似特征之間進(jìn)行整合和強(qiáng)化;其次為了使得目標(biāo)和背景更易區(qū)分,網(wǎng)絡(luò)引入了加性角度間隔損失,通過(guò)最大化角度分類間隔,提高了不同類之間的可分性和差異性,同時(shí)加強(qiáng)了類內(nèi)緊實(shí)度;最后整個(gè)網(wǎng)絡(luò)通過(guò)端到端的訓(xùn)練,使得跟蹤結(jié)果得到顯著提升,同時(shí)驗(yàn)證了模型的有效性。

        1 基于注意力和角度間隔的跟蹤網(wǎng)絡(luò)結(jié)構(gòu)

        本章首先介紹基于注意力機(jī)制和加性角度間隔損失的高光譜圖像目標(biāo)跟蹤算法,整體網(wǎng)絡(luò)受到MANet 的啟發(fā),采用融合的多域神經(jīng)網(wǎng)絡(luò),同時(shí)使用注意力機(jī)制來(lái)獲得更多的上下文信息,并采用加性角度間隔損失來(lái)增大正負(fù)類樣本的類間距離,縮短其類內(nèi)距離,使得網(wǎng)絡(luò)輸出的結(jié)果更為精確和魯棒。

        1.1 融合多域神經(jīng)網(wǎng)絡(luò)

        高光譜圖像的不同波段反映目標(biāo)物體不同的光譜特性,但其中仍有一些共有信息,如物體的邊界等。為了保留這些信息,網(wǎng)絡(luò)采用共享卷積核來(lái)提取圖像的共有特征,并針對(duì)不同波段通過(guò)特定卷積核來(lái)提取特有特征,構(gòu)成一個(gè)并行的網(wǎng)絡(luò)結(jié)構(gòu)。整體網(wǎng)絡(luò)結(jié)構(gòu)由共享層和特定域?qū)拥亩鄠€(gè)分支組成,如圖1所示。圖中C 表示特征圖的拼接。

        圖1 網(wǎng)絡(luò)模型結(jié)構(gòu)圖Fig.1 Structure diagram of network model

        為了最大化注意力矩陣信息的豐富性,將注意力機(jī)制模塊加載到卷積層通道數(shù)最多的conv3 之后,將提取的特征經(jīng)過(guò)融合的注意力機(jī)制得到加權(quán)特征,輸入到接下來(lái)的兩個(gè)全連接層中,網(wǎng)絡(luò)末端是K個(gè)權(quán)值分支(W1-WK),這些分支對(duì)應(yīng)K個(gè)域,也就是K個(gè)不同的視頻訓(xùn)練序列。對(duì)應(yīng)不同的視頻序列,需要分別訓(xùn)練一個(gè)單獨(dú)的權(quán)值W,每一個(gè)分支通過(guò)AAML 損失來(lái)求取正負(fù)類樣本和其類別中心夾角,并通過(guò)類別樣本夾角余弦值來(lái)判斷跟蹤是否成功。整個(gè)網(wǎng)絡(luò)的輸入層為107×107像素的圖像,每個(gè)輸入均來(lái)自3 個(gè)不同波段的圖像,輸入的圖像區(qū)域需經(jīng)裁剪統(tǒng)一為1 07×107像素大小,由于VGG-M 網(wǎng)絡(luò)[18]結(jié)構(gòu)簡(jiǎn)潔,并采用了較小的卷積核來(lái)降低參數(shù)量,因此共享的卷積核采用VGG-M 網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò)。

        1.2 融合注意力機(jī)制

        注意力機(jī)制源自于對(duì)人體和視覺(jué)學(xué)的研究。當(dāng)人類在觀察一件事物時(shí),由于信息處理能力有限,人類會(huì)將有限的注意力集中在重點(diǎn)信息上,即視覺(jué)的注意力焦點(diǎn),同時(shí)忽略其他不相關(guān)或無(wú)用的信息,從而節(jié)省資源,快速獲取最有效地信息。注意力機(jī)制包含source、query 和attention value 3 個(gè)要素,其中:source 表示需要處理的原始信息;query 代表給定的條件;attention value 則表示在給定query 下,原始數(shù)據(jù)通過(guò)注意力機(jī)制提取到的信息。通常source 中的信息是通過(guò)鍵(key)和值(value)來(lái)表示的[19]。

        本文構(gòu)建的注意力模型如圖2所示。模型輸入是通過(guò)卷積層提取到的不同波段組合的特征圖1和特征圖2,給定的query 通過(guò)特征圖1 重構(gòu)得到,key 則是通過(guò)特征圖2 重構(gòu)得到。相比于query 和key 均來(lái)自同一特征圖的注意力模型來(lái)說(shuō),這樣通過(guò)點(diǎn)乘操作后得到的attention value 可以融合不同波段組合的關(guān)聯(lián)信息,同時(shí)有效地將這些上下文信息進(jìn)行整合和強(qiáng)化。

        圖2 注意力機(jī)制模型Fig.2 Structure diagram of attention mechanism

        輸入為經(jīng)過(guò)卷積層提取到的特征矩陣A和B,且{A,B}∈RC×H×W,其中上標(biāo)C、H、W分別表特征圖的通道數(shù)、特征圖的高度和寬度。對(duì)特征圖1 進(jìn)行重構(gòu),可得到對(duì)特征圖2 進(jìn)行重構(gòu),可得到其中CQ=CK=C,N=H×W。將Q轉(zhuǎn) 置后與K進(jìn)行矩陣相乘的操作,其結(jié)果利用Softmax 歸一化為概率分布,得到注意力矩陣T=RN×N,aj,i是T在 (j,i)位置的元素,其計(jì)算的方式如(1)式:

        式中:aj,i是用來(lái)衡量位置j和位置i像素的相似度,aj,i的值越大,說(shuō)明兩個(gè)元素之間的關(guān)聯(lián)程度越高,同時(shí)代表兩個(gè)位置的信息也越相近;是一個(gè)尺度標(biāo)尺,用來(lái)避免點(diǎn)乘之后的結(jié)果過(guò)大而影響計(jì)算過(guò)程。將轉(zhuǎn)換和重構(gòu)得到的矩陣V1和V2分別與注意力矩陣T相乘,得到的結(jié)果再分別與原特征圖相加,最后注意力模塊的輸出為E1和E2,計(jì)算方式如(2)~(3)式:

        將特征圖E1和E2進(jìn)行拼接后作為網(wǎng)絡(luò)組件的輸入,此時(shí)特征圖中的各個(gè)位置信息均來(lái)自各路輸入中所有位置全部的特征和經(jīng)過(guò)注意力機(jī)制進(jìn)行特征加權(quán)之和,這樣能夠有效捕捉到上下文信息,同時(shí)相似的特征之間會(huì)互相強(qiáng)化,對(duì)跟蹤過(guò)程中對(duì)目標(biāo)的分類和定位效果都有一定的提升,得到更魯棒的目標(biāo)表示。

        1.3 加性角度間隔損失

        由于高光譜圖像的目標(biāo)和背景在顏色相近或出現(xiàn)背景干擾時(shí)容易錯(cuò)分,因此網(wǎng)絡(luò)在使用注意力機(jī)制的基礎(chǔ)上又改進(jìn)了損失函數(shù)。AAML 損失是基于余弦距離的間隔損失,該損失函數(shù)是對(duì)Softmax 損失函數(shù)的改進(jìn),Softmax 雖然可以進(jìn)行分類,但它只有一個(gè)決策邊界,如果類別中心向量之間的夾角較小,特征就容易混淆在兩類之間,而AAML 實(shí)現(xiàn)了在角度空間內(nèi)的最大化分類界限,通過(guò)給決策邊界增加間隔,使得類內(nèi)距離減小、類間距離增大,這意味著正負(fù)類樣本錯(cuò)分的概率會(huì)減小。

        假設(shè)樣本xi對(duì)應(yīng)的標(biāo)簽為yi,批量個(gè)數(shù)為N,類別數(shù)為n,那么Softmax 交叉熵?fù)p失函數(shù)定義為

        同時(shí)為了增強(qiáng)特征的鑒別性,使特征向量的分布更加集中于權(quán)重中心,在角度空間內(nèi)加上角度間隔m,可得到:

        在跟蹤問(wèn)題中,首先為正負(fù)類樣本設(shè)置中心類別向量,隨后計(jì)算樣本特征和類別中心的余弦距離并代入Softmax 函數(shù),最后通過(guò)分類任務(wù)來(lái)訓(xùn)練模型。其中s和m是超參數(shù),s=31.0,m=0.5。損失計(jì)算的偽代碼如表1所示。

        表1 AAML 損失計(jì)算Table 1 Loss calculation of AAML

        2 網(wǎng)絡(luò)訓(xùn)練

        2.1 高光譜圖像波段選擇

        高光譜圖像波段眾多,數(shù)據(jù)量大且冗余度高,直接進(jìn)行分析計(jì)算對(duì)分類精度和效果都有一定影響,同時(shí)也增加了計(jì)算量。因此在進(jìn)行跟蹤實(shí)驗(yàn)之前需要先對(duì)原始數(shù)進(jìn)行降維預(yù)處理,去除冗余波段以減少計(jì)算負(fù)擔(dān),從而獲得相關(guān)性小、維數(shù)低、信息量大且冗余度小的波段。本文通過(guò)圖像熵和OIF 指數(shù)相結(jié)合的方式來(lái)進(jìn)行波段的選擇。

        圖像熵是一種特征統(tǒng)計(jì)形式,反映了一張圖像中平均信息量的多少。圖像的一維熵表示圖像中灰度分布的特征所包含的信息量,一元灰度熵計(jì)算公式為

        式中:pi是某個(gè)灰度在圖像中出現(xiàn)的概率。

        最佳指數(shù)法(optimum index factor,OIF)將單波段圖像的信息量和波段之間的相關(guān)性考慮在內(nèi),選擇出信息量較大、冗余度較小的波段組合。計(jì)算公式如(9)式:

        式中:Si為第i個(gè) 波段的標(biāo)準(zhǔn)差;Ri j為i、j兩波段的相關(guān)系數(shù)。本文通過(guò)使用圖像信息熵和OIF 指數(shù)相結(jié)合的方式進(jìn)行波段選擇,具體算法流程如表2所示。

        表2 波段選擇Table 2 Bands selection

        首先計(jì)算高光譜圖像各波段的圖像熵,如圖3所示,按照光譜波段圖像熵由大及小進(jìn)行排序后,選擇前16 個(gè)信息量比較大的波段。

        圖3 原始高光譜圖像各波段圖像熵Fig.3 Image entropy of each band of original hyperspectral images

        隨后選擇兩組相關(guān)系數(shù)較小的波段作為算法的初始化波段,根據(jù)計(jì)算結(jié)果選出B1= {B15,B17},B2= {B11,B25},分別計(jì)算兩組波段和剩余每個(gè)波段的OIF 指數(shù),選擇OIF 指數(shù)最大的波段加入到當(dāng)前波段子集中,作為每路輸入的波段組合。圖4 展示了根據(jù)B1和B2進(jìn)行初始化后的OIF 指數(shù)曲線,從中選出OIF 指數(shù)最大的加入到當(dāng)前波段組合中,從圖4(a)中可以看出初始化為B1后,需要選擇波段16加入到當(dāng)前波段組合中,為了保證波段多樣性,減少冗余性,選擇OIF 指數(shù)較大的波段20 加入到B2波段組合中。因此從圖4(b)選出波段B1= {B15,B16,B17}和B2= {B11,B20,B25}進(jìn)行后續(xù)實(shí)驗(yàn)。76 個(gè)視頻,其中共包含17 846 幀高光譜圖像。數(shù)據(jù)集按照6∶1 的比例劃分為訓(xùn)練集與測(cè)試集,訓(xùn)練集共包含65 個(gè)視頻,共包含15 047 幀高光譜圖像,測(cè)試集共包含11 個(gè)視頻,共包含2 799 幀高光譜圖像。每個(gè)視頻包含從幾十幀到幾百幀不等的高光譜圖像,采集到的原始圖像分辨率為2 048×1 088像素,經(jīng)過(guò)解析后每一幀圖像包含25 個(gè)通道,空間分辨率為409×217 像素。這些波段分布是不均勻的,波段響應(yīng)范圍為600 mm~975 mm,除了包含一部分可見(jiàn)光波段(380 mm~780 mm)外,還覆蓋了一部分近紅外短波光譜(780 mm~1 100 mm),極大豐富了圖像的光譜信息。圖像真實(shí)目標(biāo)框需要人工進(jìn)行標(biāo)注,通過(guò)標(biāo)記邊界框的左上角和右下角來(lái)確定目標(biāo)邊界框的位置和大小。圖5 為高光譜圖像數(shù)據(jù)集各波段展示。圖6 展示了本文數(shù)據(jù)集中目標(biāo)特征的光譜曲線,橫坐標(biāo)為各波段標(biāo)號(hào),縱坐標(biāo)為目標(biāo)特征像元的灰度值,紅色曲線代表飛機(jī)目標(biāo)的光譜,藍(lán)色曲線代表背景的光譜。圖中標(biāo)注的4 種線形分別表示飛機(jī)機(jī)身、飛機(jī)機(jī)尾、

        圖4 波段選擇OIF 指數(shù)曲線Fig.4 Optimum index factor curves of band selection

        圖5 高光譜圖像樣本各波段展示Fig.5 Display of each band of hyperspectral image samples

        圖6 高光譜圖像目標(biāo)特征的光譜曲線Fig.6 Spectral curves of target features in hyperspectral images

        2.2 實(shí)驗(yàn)平臺(tái)與數(shù)據(jù)集

        本文所提出的模型均使用PyTorch 深度學(xué)習(xí)框架實(shí)現(xiàn),通過(guò)Python 語(yǔ)言進(jìn)行編程,使用NVIDIA RTX 2060 進(jìn)行模型訓(xùn)練和測(cè)試。

        本文所采用的實(shí)驗(yàn)數(shù)據(jù)集是自制的高光譜飛機(jī)數(shù)據(jù)集,由高光譜攝像機(jī)進(jìn)行對(duì)空拍攝,共計(jì)背景樣例1 和背景樣例2??梢钥闯鲭m然飛機(jī)機(jī)身和天空、地面等背景顏色紋理相近,但在某些特定波段其光譜差異明顯,使得飛機(jī)目標(biāo)和背景相比是可區(qū)分的。

        2.3 訓(xùn)練過(guò)程

        該學(xué)習(xí)算法的目標(biāo)是訓(xùn)練一個(gè)多域的卷積神經(jīng)網(wǎng)絡(luò),能夠辨別不同視頻序列中的目標(biāo)和背景,并通過(guò)不同高光譜圖像不同波段融合的方式增加算法的魯棒性和準(zhǔn)確性。但不同域中的目標(biāo)和背景具有不同的定義,為了將某一特定域與其他域分離開(kāi),采用多域?qū)W習(xí)的框架來(lái)提取目標(biāo)的共有特征。

        該CNN 網(wǎng)絡(luò)通過(guò)隨機(jī)梯度下降法(stochastic gradient descent,SGD)來(lái)訓(xùn)練,其中卷積層的學(xué)習(xí)率為0.000 1,全連接層學(xué)習(xí)率為0.000 2,動(dòng)量和權(quán)值衰減設(shè)定為0.9 和0.000 5。在第K次迭代中,小批量中只包含來(lái)自第K個(gè)視頻的樣本,K個(gè)特定域?qū)右仓患せ畹贙支。每個(gè)小批量從第K個(gè)視頻任意8 幀中提取,共包含N+=32 個(gè) 正樣本和N-=96個(gè)負(fù)樣本,其中正樣本 IoU ≥0.7,負(fù)樣本 IoU ≤0.5。一直重復(fù)到網(wǎng)絡(luò)收斂或達(dá)到預(yù)定義的迭代次數(shù)。通過(guò)這樣的訓(xùn)練過(guò)程,學(xué)習(xí)到的通用特征就會(huì)被保存在共享層中,這些信息會(huì)被作為非常有效的泛化特征表示。

        2.4 網(wǎng)絡(luò)在線跟蹤

        預(yù)訓(xùn)練完成后,權(quán)值分支W1-WK會(huì)被去掉并直接替換為一個(gè)新的權(quán)值W,訓(xùn)練好的模型中只需保留共享層的參數(shù),并根據(jù)跟蹤序列的第1 幀信息對(duì)新的特定域?qū)雍凸蚕韺又械娜B接層進(jìn)行在線微調(diào)。

        在訓(xùn)練一個(gè)分類器時(shí),若訓(xùn)練樣本類別不均衡,對(duì)訓(xùn)練無(wú)幫助的易分負(fù)樣本會(huì)使得模型整體的學(xué)習(xí)方向跑偏,產(chǎn)生無(wú)效學(xué)習(xí)的現(xiàn)象,即智能分辨出不包含目標(biāo)物體的背景信息,從而無(wú)法準(zhǔn)確地分辨真正的目標(biāo)。為了避免網(wǎng)絡(luò)的預(yù)測(cè)值向負(fù)樣本的方向靠攏,取正、負(fù)樣本數(shù)比約為1∶3來(lái)進(jìn)行網(wǎng)絡(luò)訓(xùn)練,在訓(xùn)練過(guò)程中采用難負(fù)例挖掘的思想,找到難分的負(fù)樣本,尤其是被錯(cuò)分為正樣本的負(fù)樣本,這樣不僅可以減少訓(xùn)練的樣本數(shù),還能提升模型的準(zhǔn)確性。參數(shù)更新過(guò)程中,全連接層的權(quán)重采用在線更新的方式,而卷積層的權(quán)重一直是固定的,這樣的策略不僅能夠提升計(jì)算效率,還能避免獲取通用表示特征時(shí)出現(xiàn)的過(guò)擬合現(xiàn)象。同時(shí)在首幀訓(xùn)練時(shí)采用了邊框回歸技術(shù)來(lái)改善目標(biāo)定位的準(zhǔn)確度,通過(guò)均勻分布的方式在測(cè)試視頻第1 幀時(shí)周圍生成1 000 個(gè)正樣本,其IoU ≥0.6,通過(guò)對(duì)這些樣本使用conv3 特征進(jìn)行訓(xùn)練,得到一個(gè)簡(jiǎn)單的線性回歸模型來(lái)對(duì)目標(biāo)的位置進(jìn)行一定修正,提升預(yù)測(cè)的精度。為了在每一幀中生成候選目標(biāo)框,根據(jù)上一幀的位置采用多維高斯分布的形式在大小和尺度兩個(gè)維度上采樣256 個(gè)候選目標(biāo)X1,···,XN,通過(guò)前向傳播計(jì)算每個(gè)目標(biāo)特征和正負(fù)類的類別中心向量夾角余弦值取余弦值最大的前5個(gè)樣本目標(biāo)框均值作為當(dāng)前幀的跟蹤位置,若余弦值在設(shè)定閾值范圍內(nèi),則視為跟蹤成功,通過(guò)訓(xùn)練好的回歸模型調(diào)整估計(jì)出的目標(biāo)位置,作為當(dāng)前幀最終的跟蹤位置。同時(shí)在跟蹤過(guò)程中采用長(zhǎng)期和短期更新兩種策略來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)的魯棒性和適應(yīng)性。跟蹤流程如圖7所示。

        圖7 在線跟蹤算法流程Fig.7 Flow chart of online tracking algorithm

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 模型評(píng)價(jià)指標(biāo)

        針對(duì)目標(biāo)跟蹤問(wèn)題,為了更直觀地分析跟蹤結(jié)果,一般通過(guò)精確率圖(precision plot)和成功率圖(success plot)進(jìn)行衡量。精確率計(jì)算模型估計(jì)的目標(biāo)位置中心點(diǎn)與人工標(biāo)注目標(biāo)中心點(diǎn)之間的距離,即:

        式中:xi和yi表示預(yù)測(cè)的目標(biāo)框中心點(diǎn)位置;xti和yti表示預(yù)測(cè)的目標(biāo)框的中心位置坐標(biāo),兩者距離小于給定距離閾值 θ的視頻幀百分比曲線即為精確率圖。

        成功率衡量的是目標(biāo)位置和真實(shí)標(biāo)注框的交并比(intersection over union,IoU),重疊率高于閾值的矩形框被認(rèn)為成功跟蹤到目標(biāo),反之則被認(rèn)為未跟蹤到目標(biāo),即:

        式中:Ai表示跟蹤到的目標(biāo)框;AGi表示真實(shí)的目標(biāo)框。大于給定交并比閾值δ 的視頻幀的百分比曲線即為成功率圖。

        3.2 注意力機(jī)制可視化

        注意力機(jī)制可以有效整合兩路輸入中不同波段的信息,使得網(wǎng)絡(luò)的注意力集中在目標(biāo)上。本節(jié)將把輸入圖片與注意力矩陣進(jìn)行可視化展示,來(lái)說(shuō)明注意力模型在跟蹤過(guò)程中的作用。

        圖8(a)圖展示注意力矩陣的可視化結(jié)果,8(b)圖展示注意力矩陣和原圖疊加的可視化結(jié)果。從圖中可以看出注意力機(jī)制可以使模型更多的將注意力集中到目標(biāo)上,尤其是飛機(jī)的機(jī)身,進(jìn)而更利于后續(xù)的跟蹤。

        圖8 注意力機(jī)制可視化Fig.8 Visualization of attention mechanism

        為了更進(jìn)一步展示注意力機(jī)制在跟蹤過(guò)程中的作用,將目標(biāo)和背景的特征圖和注意力圖進(jìn)行可視化,如圖9所示。圖中特征圖的可視化是將所有通道對(duì)應(yīng)像素點(diǎn)的值取平均來(lái)進(jìn)行的。根據(jù)結(jié)果可以看出,目標(biāo)的注意力矩陣集中在機(jī)頭和機(jī)身部分,背景的注意力矩陣則相對(duì)比較平滑,注意力分布比較均勻,因此網(wǎng)絡(luò)對(duì)于這類輸入不會(huì)產(chǎn)生較強(qiáng)的注意力,使得網(wǎng)絡(luò)對(duì)正類和負(fù)類的區(qū)分更為準(zhǔn)確。

        圖9 目標(biāo)與背景的特征圖和注意力圖對(duì)比Fig.9 Comparison of feature maps and attention maps of target and backgrounds

        3.3 目標(biāo)跟蹤結(jié)果可視化

        本節(jié)將從直觀和客觀兩個(gè)角度對(duì)本文模型結(jié)果進(jìn)行展示。圖10 是本文提出的算法對(duì)目標(biāo)的跟蹤軌跡圖。由于視頻均是由手持高光譜設(shè)備拍攝,因此視頻中的目標(biāo)存在一定抖動(dòng)。從跟蹤結(jié)果來(lái)看,本文提出的模型可以較好地跟蹤到目標(biāo)。

        圖10 本文算法跟蹤結(jié)果圖Fig.10 Tracking results of proposed algorithm

        圖11 展示了本文與其他算法在不同測(cè)試視頻中的跟蹤結(jié)果對(duì)比。從實(shí)驗(yàn)結(jié)果可以看出,本文提出的算法相比其他算法具有一定的優(yōu)勢(shì)。在測(cè)試數(shù)據(jù)集中,作為目標(biāo)的飛機(jī)與作為背景的天空、云朵及地面汽車的顏色和紋理較為相近,一些算法容易出現(xiàn)跟蹤失敗的情況。例如在測(cè)試視頻1、2 中,一些對(duì)比算法出現(xiàn)了漂移,開(kāi)始跟蹤天空中的云與地面的汽車,而本文算法由于改進(jìn)了損失函數(shù),使得網(wǎng)絡(luò)對(duì)正負(fù)類的區(qū)分更為準(zhǔn)確,因此能夠一直跟蹤到目標(biāo)。同時(shí),由于網(wǎng)絡(luò)使用了注意力機(jī)制,不僅能夠使模型將更多的關(guān)注集中到目標(biāo)上,還能夠獲得更精確的位置表示,例如在測(cè)試視頻3 中,在跟蹤初期,所有算法均能準(zhǔn)確跟蹤到目標(biāo),而在跟蹤后期,只有本文算法能完整地跟蹤到目標(biāo),其他算法只能跟蹤到一部分目標(biāo)。因此整個(gè)模型在引入注意力機(jī)制后,跟蹤結(jié)果更為精確,加入AAML 損失后整個(gè)模型的學(xué)習(xí)性能增強(qiáng),對(duì)正負(fù)樣本的區(qū)分也更為魯棒。

        圖11 不同算法跟蹤結(jié)果對(duì)比Fig.11 Comparison of results with different tracking algorithms

        接著以定量的角度對(duì)目標(biāo)跟蹤的結(jié)果以及兩種指標(biāo)方面進(jìn)行對(duì)比分析,進(jìn)一步佐證了上述直觀結(jié)果。從圖12 中可以看出本文所提出的方法在成功率和精確率上相較于其他方法均有提升,分別提升了1.3%和0.3%。

        圖12 不同網(wǎng)絡(luò)精確率和成功率對(duì)比圖Fig.12 Comparison curves of accurate rate and success rate of different networks

        3.4 消融實(shí)驗(yàn)

        為了進(jìn)一步驗(yàn)證本文提出模型中各模塊的有效性,設(shè)計(jì)了如表3所示的消融實(shí)驗(yàn),本文的模型框架基于MANet,因此以其為基準(zhǔn)。Ours-AAML(without margin)表示在MANet算法基礎(chǔ)上使用AAML 損失且不設(shè)角度間隔,Ours-AAML 表示在MANet 算法基礎(chǔ)上加入AAML 損失,Ours-Attention表示在MANet 算法基礎(chǔ)上加入注意力機(jī)制。由表3 可以看出,本文所設(shè)計(jì)的各個(gè)模塊對(duì)算法的提升都有著積極作用,相比于原始MANet 算法,在精確率和成功率上分別提升1.3%和2.7%,最佳的表現(xiàn)來(lái)自于3 個(gè)模塊的共同作用。

        表3 消融實(shí)驗(yàn)Table 3 Ablation experiment

        4 結(jié)論

        本文提出了一種基于注意力機(jī)制和加性角度間隔損失的融合高光譜圖像目標(biāo)跟蹤方法。利用注意力機(jī)制來(lái)獲取融合的加權(quán)特征,減少模型的漂移問(wèn)題,獲得更魯棒的位置表示,同時(shí)采用AAML 損失提升了模型對(duì)具有相似語(yǔ)義的目標(biāo)分判別能力。實(shí)驗(yàn)結(jié)果顯示,本文算法在自制高光譜數(shù)據(jù)集上獲得了優(yōu)于經(jīng)典目標(biāo)跟蹤算法的結(jié)果,精確率和成功率分別提升了1.1% 和0.3%。(代碼地址:https://github.com/Blueyonder00/AANet)但該算法在運(yùn)動(dòng)目標(biāo)突然發(fā)生尺度變化或快速移動(dòng)時(shí),追蹤效果仍不理想,在之后的工作中,將針對(duì)這個(gè)問(wèn)題進(jìn)行專門的研究。

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        蜜桃av多人一区二区三区| 成l人在线观看线路1| 永久免费的av在线电影网无码| 国产激情视频在线观看首页| 少妇一区二区三区乱码| 伊人久久大香线蕉av色婷婷色 | 激情五月开心五月av| 极品尤物一区二区三区| 国产人妻精品一区二区三区不卡| 亚洲无码夜夜操| 国产麻豆国精精品久久毛片 | 亚洲国产精品无码专区在线观看| 成 人 网 站 免 费 av| 中文国产成人精品久久一区| 国产一区二区视频免费| 国内精品久久久久伊人av| 少妇邻居内射在线| 亚洲最大av免费观看| 手机久草视频福利在线观看| 一进一出一爽又粗又大| 亚洲一区二区综合色精品| av男人操美女一区二区三区| 水蜜桃在线观看一区二区| 久久夜色精品国产| 成人不卡国产福利电影在线看| 极品少妇一区二区三区| 蜜臀av在线播放一区二区三区| 4444亚洲人成无码网在线观看| 韩国三级大全久久网站| 一区二区三区四区草逼福利视频 | 婷婷色国产精品视频二区| 在线不卡av片免费观看| 在线亚洲+欧美+日本专区| 成人影院视频在线播放| 久久精品国产亚洲av香蕉| 日韩精品大片在线观看| 国产三级视频一区二区| 97精品人妻一区二区三区蜜桃| 日本xxxx色视频在线播放| 国产成人精品日本亚洲直播| 中文字幕亚洲精品在线免费|