亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多層特征增強(qiáng)的實(shí)時(shí)視覺跟蹤

        2020-11-30 05:48:06費(fèi)大勝宋慧慧張開華
        計(jì)算機(jī)應(yīng)用 2020年11期
        關(guān)鍵詞:分支語義像素

        費(fèi)大勝,宋慧慧,張開華

        (1.江蘇省大數(shù)據(jù)分析技術(shù)重點(diǎn)實(shí)驗(yàn)室(南京信息工程大學(xué)),南京 210044;2.江蘇省大氣環(huán)境與裝備技術(shù)協(xié)同創(chuàng)新中心(南京信息工程大學(xué)),南京 210044)

        (?通信作者songhuihui@nuist.edu.cn)

        0 引言

        目標(biāo)跟蹤一直是計(jì)算機(jī)視覺中的一個(gè)熱點(diǎn)問題,在導(dǎo)彈定位、視頻監(jiān)控和無人機(jī)偵察等眾多領(lǐng)域有著豐富的應(yīng)用,但是在跟蹤過程中仍然存在許多挑戰(zhàn),包括光照變化、角度旋轉(zhuǎn)、比例變化、目標(biāo)變形、遮擋和攝像機(jī)運(yùn)動(dòng)等因素,這些問題仍然在不斷促進(jìn)著目標(biāo)跟蹤領(lǐng)域的蓬勃發(fā)展。

        目標(biāo)跟蹤算法主要分為基于相關(guān)濾波的跟蹤算法和基于孿生網(wǎng)絡(luò)的跟蹤算法兩大類?;谙嚓P(guān)濾波的跟蹤算法通過循環(huán)矩陣將目標(biāo)函數(shù)從頻域內(nèi)轉(zhuǎn)到傅里葉域求解獲得濾波器的閉式解,實(shí)現(xiàn)許多高速且簡易的跟蹤器[1-3]。隨著卷積神經(jīng)網(wǎng)絡(luò)的崛起,基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法[4-5]充分發(fā)揮了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的作用,將跟蹤當(dāng)作一個(gè)匹配任務(wù),把第一幀目標(biāo)當(dāng)作模板匹配其他幀,得到目標(biāo)區(qū)域。基于此任務(wù),之后工作也對(duì)全卷積孿生網(wǎng)絡(luò)(Fully-Convolutional Siamese visual tracking network,SiamFC)[5]不斷改進(jìn)。動(dòng)態(tài)孿生網(wǎng)絡(luò)(Dynamic Siamese network,DSiam)[6]使用一個(gè)動(dòng)態(tài)模板和一個(gè)快速轉(zhuǎn)變模塊更新孿生跟蹤模型。高性能的孿生候選區(qū)域網(wǎng)絡(luò)(Siamese with Region Proposal Network,SiamRPN)[7]將目標(biāo)檢測中的候選特征網(wǎng)絡(luò)Faster RCNN[8]引入到視覺跟蹤任務(wù)中,解決了SiamFC 多尺度測試消耗計(jì)算時(shí)間和出框方式過于粗糙的問題。干擾感知孿生網(wǎng)絡(luò)(Distractor-aware Siamese network,DaSiam)[9]更進(jìn)一步提出了一種干擾-感知的孿生網(wǎng)絡(luò)用于更精確的長時(shí)跟蹤。語義外觀雙分支孿生網(wǎng)絡(luò)(Semantic and Appearance Siamese network,SA-Siam)[10]在原有的兩分支上多加了兩個(gè)分支分別為語義分支和外觀分支來增加模型的表征能力。

        盡管現(xiàn)在的孿生網(wǎng)絡(luò)跟蹤算法在精度和性能上都取得了較大的突破,但是仍有兩個(gè)問題需要解決:首先,DASiam[4]只是簡單地將原始的特征提取網(wǎng)絡(luò)換成了VGG(Visual Geometry Group)[11]網(wǎng)絡(luò),這在一定程度上抽象了目標(biāo)的表示而忽略了目標(biāo)的外觀紋理特性,當(dāng)遇到具有相似語義信息的背景時(shí),目標(biāo)通常會(huì)發(fā)生漂移;其次,大多數(shù)基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法忽略了高層語義特征對(duì)于目標(biāo)在視頻序列中定位的長期依賴性,這限制了目標(biāo)在遇到相似語義特征干擾時(shí)的長期定位能力。

        為解決這兩個(gè)問題,本文提出一種多層特征增強(qiáng)的孿生網(wǎng)絡(luò)跟蹤算法。本文在SiamFC 基礎(chǔ)上,通過數(shù)據(jù)增強(qiáng)技術(shù)將淺層特征和高層特征相融合,增強(qiáng)模型魯棒性。為進(jìn)一步增強(qiáng)網(wǎng)絡(luò)模型長時(shí)定位能力,提出一種像素感知的全局上下文注意力機(jī)制模塊(Pixel-aware global Contextual Attention Module,PCAM),最后為驗(yàn)證該算法各模塊的有效性,在三個(gè)具有挑戰(zhàn)性的目標(biāo)跟蹤視頻庫中做了大量實(shí)驗(yàn),與一些經(jīng)典跟蹤算法進(jìn)行比較,得到了很有說服力的結(jié)果。

        1 多層特征增強(qiáng)的跟蹤算法

        本文提出一種輕量級(jí)多層特征增強(qiáng)的跟蹤網(wǎng)絡(luò)(Multilevel Feature Enhanced Siamese network for tracking,MFESiam),如圖1 所示。首先本文發(fā)現(xiàn)非語義背景和相似干擾物失衡是提升網(wǎng)絡(luò)性能的主要障礙,所以本文通過一種數(shù)據(jù)增強(qiáng)策略來增強(qiáng)淺層的特征;此外本文提出一種像素感知的全局上下文注意力機(jī)制模塊來增強(qiáng)高層模板特征的感知定位能力,最后將提取到的模板特征和搜索特征進(jìn)行卷積得到下一幀目標(biāo)位置。

        圖1 所提算法原理Fig.1 Principle of the proposed algorithm

        1.1 基于全卷積孿生網(wǎng)絡(luò)目標(biāo)跟蹤

        近年來目標(biāo)跟蹤孿生網(wǎng)絡(luò)算法都是基于全卷積孿生網(wǎng)絡(luò)跟蹤算法[5]改進(jìn),它是目標(biāo)跟蹤領(lǐng)域的開創(chuàng)性工作。原始孿生網(wǎng)絡(luò)有兩個(gè)輸入分支:模板分支Z 和搜索分支X,其中Z ∈RW×H×3,X ∈RW×H×3,Z和X分別被裁剪成255×255×3和127×127×3 的圖像對(duì)輸入網(wǎng)絡(luò),在搜索圖像的初始幀上采取16 個(gè)搜索框隨機(jī)滑動(dòng)。經(jīng)過一個(gè)全卷積無填充的AlexNet[12]提取圖像特征。Z 和X 在共享權(quán)重的AlexNet 中最后輸出分別為22×22×256和6×6×256,最后經(jīng)過卷積的相關(guān)操作得到一個(gè)17×17×1的得分圖。得分圖中得分最高的一個(gè)點(diǎn)即是下一幀預(yù)測點(diǎn)的中心位置。SiamFC 設(shè)置了三種固定的尺度{0.974 5,1,1.037 5},通過雙線性插值從而得到下一幀預(yù)測的跟蹤框。整個(gè)網(wǎng)絡(luò)通過一個(gè)離線訓(xùn)練的匹配函數(shù)F(Z,X)獲得最終得分圖的預(yù)測分?jǐn)?shù),網(wǎng)絡(luò)的預(yù)測函數(shù)公式如下:

        其中:Z 和X 分別為模板和搜索分支輸入,φ 為網(wǎng)絡(luò)特征的嵌入函數(shù),“*”表示相關(guān)運(yùn)算,b為網(wǎng)絡(luò)的偏置項(xiàng)。整個(gè)網(wǎng)絡(luò)采用二分類的邏輯損失函數(shù),具體表達(dá)式(2)如下:

        其中:v 表示單個(gè)模板-搜索匹配對(duì)的真實(shí)得分,y ∈{+1,-1}代表這個(gè)匹配對(duì)的真實(shí)標(biāo)簽值,從而計(jì)算出一個(gè)模板和多個(gè)搜索區(qū)域匹配的相似性。

        1.2 多層特征增強(qiáng)網(wǎng)絡(luò)框架

        本文方法不同于之前的孿生網(wǎng)絡(luò)只有兩支輸入分支:模板分支Z 和搜索分支X,如圖1 所示,MFESiam 增加了兩個(gè)輸入分支:噪聲模板分支Znoise和噪聲搜索分支Xnoise。首先,本文的噪聲模板分支和噪聲搜索分支是通過整個(gè)訓(xùn)練數(shù)據(jù)集在輸入若干個(gè)模板和搜索匹配對(duì)時(shí)以5%的概率隨機(jī)選取一個(gè)匹配對(duì);然后,在這個(gè)匹配對(duì)中隨機(jī)合成5%的像素值為0 的噪聲點(diǎn)和95%的像素值為255的噪聲點(diǎn);最后,將經(jīng)過數(shù)據(jù)增強(qiáng)的兩個(gè)分支:Znoise和Xnoise分別作為孿生網(wǎng)絡(luò)另外兩個(gè)并行的輸入分支,通過第一個(gè)卷積層和第一個(gè)最大池化層提取特征后分別與原始模板分支和搜索分支相融合,來模擬一些對(duì)目標(biāo)跟蹤具有挑戰(zhàn)性的因素。將噪聲模板分支和噪聲搜索分支在第一個(gè)最大池化層之后融合是因?yàn)樵谧畲蟪鼗瘜又?,特征圖通常會(huì)在一定程度上失去一些位置信息,所以在第一個(gè)最大池化層之后加入一些合成的椒鹽噪聲來增強(qiáng)算法的魯棒性,并且最大池化層由于對(duì)局部形變的不變性,所以它對(duì)局部的變化是具有魯棒性的。因此,融合后的淺層特征已經(jīng)被增強(qiáng),并且當(dāng)目標(biāo)在經(jīng)歷一些復(fù)雜場景挑戰(zhàn)例如快速運(yùn)動(dòng)、遮擋以及相似物干擾等時(shí)不會(huì)輕易丟失目標(biāo)。從圖2可視化的2D和3D特征中可以看出,在未采用本文數(shù)據(jù)增強(qiáng)方式下的熱力圖中會(huì)出現(xiàn)因相似語義信息干擾而導(dǎo)致跟蹤發(fā)生漂移的情況,而在經(jīng)過了數(shù)據(jù)增強(qiáng)后的融合特征則在一定程度上抑制了因?yàn)橄嗨莆矬w干擾而漂移的情況,使得跟蹤器能更為魯棒地對(duì)特定目標(biāo)進(jìn)行跟蹤。此外,本文還對(duì)無填充的全卷積AlexNet網(wǎng)絡(luò)進(jìn)行了改進(jìn),具體參數(shù)如表1,將原始的大尺寸卷積換成了多個(gè)小尺寸卷積,并且增加網(wǎng)絡(luò)層的維度,這樣加大網(wǎng)絡(luò)的深度和維度來學(xué)習(xí)到更為魯棒的特征表示。

        表1 多層特征增強(qiáng)孿生網(wǎng)絡(luò)參數(shù)Tab.1 Multi-level feature enhanced Siamese network parameters

        圖2 數(shù)據(jù)增強(qiáng)前后特征可視化圖Fig.2 Visualization of features before and after data enhancement

        在淺層特征融合的過程中,本文采用了一種新的正則化方式來訓(xùn)練網(wǎng)絡(luò),本文在每個(gè)訓(xùn)練過程中設(shè)置了5%的比率在模板圖片(Z)上裁剪出一個(gè)30×30的隨機(jī)掩碼,掩碼的像素值設(shè)置為0。通過這種方式來隨機(jī)生成一些被遮擋的目標(biāo)從而提升目標(biāo)在運(yùn)動(dòng)中遭遇遮擋時(shí)的魯棒性,不僅讓模型在遇到遮擋的情況下表現(xiàn)得更好,而且使得訓(xùn)練出的模型能更敏感地去考慮環(huán)境的變化。

        1.3 像素感知的全局上下文注意力機(jī)制

        鑒于本文提出的MFESiam 對(duì)于目標(biāo)定位是一個(gè)典型的匹配模型,模板圖片Z 的高層語義特征對(duì)模型的目標(biāo)外觀就顯得尤為重要。為了進(jìn)一步捕獲目標(biāo)與背景區(qū)域的長時(shí)依賴關(guān)系,使得跟蹤器在經(jīng)歷明顯的目標(biāo)位移下還能有優(yōu)異的定位能力,本文設(shè)計(jì)一個(gè)PCAM 模塊來增強(qiáng)高層語義特征從而加強(qiáng)模板分支的目標(biāo)定位能力。圖3 顯示了PCAM 的結(jié)構(gòu),A ∈RW×H×C作為輸入的卷積特征圖,H、W 分別代表了特征圖的長和寬,C 代表了通道的維數(shù),B 作為輸出擁有和A 一樣的結(jié)構(gòu)。

        圖3 像素感知的全局上下文注意力機(jī)制Fig.3 Pixel-aware global contextual attention module

        PCAM 由一個(gè)全局上下文模塊和一個(gè)轉(zhuǎn)換模塊組成。本文的全局上下文模塊是由非局部(Non-local)模塊[13]化簡而來,不僅極大地降低了原有的計(jì)算復(fù)雜度,而且可以從全局特征圖的時(shí)間域和空間域內(nèi)捕獲目標(biāo)可能存在的位置。首先在模板分支最后一個(gè)卷積層Conv6 后增加一個(gè)全局上下文模塊,將作為整個(gè)特征圖的輸入像素。Np為特征圖像素點(diǎn)位置的數(shù)目。整個(gè)全局上下文模塊采用一個(gè)1×1卷積Wk將H×W×C 的特征維度轉(zhuǎn)換成一個(gè)H×W×1 的特征圖,然后在特征圖的每個(gè)像素點(diǎn)xj上,通過一個(gè)行和列雙向的Softmax捕獲整個(gè)全局上下文的像素感知信息。最后,本文使用一個(gè)改良的SENet(Squeeze-and-Excitation Network)[14]改變?nèi)痔卣鲌D的維度到C維并且通過自主學(xué)習(xí)來獲得每個(gè)特征通道的重要性。這個(gè)轉(zhuǎn)變模塊在圖中由一個(gè)1×1 卷積Wv1、一個(gè)歸一化層LayerNorm(LN)、一個(gè)ReLU(Rectified Linear Unit)激活函數(shù)和一個(gè)1×1 卷積Wv2構(gòu)成。對(duì)特征通道的相關(guān)性進(jìn)行建模使得激活相應(yīng)目標(biāo)對(duì)指定通道的響應(yīng)。設(shè)置默認(rèn)的比率r=8,將轉(zhuǎn)換模塊的參數(shù)量減少到原始SENet 參數(shù)量的1/4,r 指通道的壓縮率,C/r 指隱藏特征表示維度。本文在ReLU 激活層之前增加LayerNorm 來減少優(yōu)化轉(zhuǎn)換模塊帶來的計(jì)算復(fù)雜度。是全局上下文池化信息,然后將原始輸出X 與帶權(quán)重的特征矩陣δ(?)=Wv2ReLU(LN(Wv1(?)))相加構(gòu)成一個(gè)殘差網(wǎng)絡(luò)來提高目標(biāo)特征的感知能力。像素感知的全局上下文注意力(PCAM)模塊的具體細(xì)節(jié)可以用如式(3)表示:

        本文的PCAM 由以下三部分組成:1)全局上下文池化為上下文本建模;2)轉(zhuǎn)換模塊捕獲通道相關(guān)性;3)用于特征融合的廣播機(jī)制相加。

        1.4 網(wǎng)絡(luò)訓(xùn)練細(xì)節(jié)

        本文隨機(jī)從GOT-10K[15]和VID2015[16]數(shù)據(jù)集里提取模板和搜索圖片離線訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu),采用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)算法隨機(jī)初始化目標(biāo)函數(shù),采用二分類交叉熵?fù)p失對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,訓(xùn)練50 個(gè)周期。學(xué)習(xí)率從10-2幾何式衰減到10-5。從圖4 中可以看出整個(gè)訓(xùn)練過程損失是最終收斂的,但是最優(yōu)值不一定是在最后一個(gè)周期內(nèi),從而證明本文算法的穩(wěn)定性。本文的算法是通過PyTorch1.0.1 來實(shí)現(xiàn),硬件由一臺(tái)配置為英特爾i7-8700k CPU 和一塊GTX2080 Ti 顯卡支持加速。采用基準(zhǔn)SiamFC 的方式,用三種固定的尺度{0.974 5,1,1.037 5}來估計(jì)目標(biāo)尺度。此外,尺度的變化通過線性插值的方式來更新,如式(4)所示,更新因子(scale_lr)設(shè)為0.59。x0為中間尺度1,x1為懲罰后的尺度,從而通過線性插值的方式更新尺度信息。

        圖4 網(wǎng)絡(luò)訓(xùn)練損失曲線Fig.4 Network training loss curve

        2 實(shí)驗(yàn)結(jié)果分析

        為驗(yàn)證本文算法有效性,在三個(gè)本領(lǐng)域公認(rèn)非常具有挑戰(zhàn)性的目標(biāo)跟蹤視頻庫OTB2015[17]、VOT2018[18]和GOT-10K[15]上進(jìn)行實(shí)驗(yàn),并與多個(gè)經(jīng)典算法進(jìn)行比較,大量實(shí)驗(yàn)顯示了本文算法具有比較有競爭力的表現(xiàn)。

        2.1 在OTB2015上的評(píng)估

        OTB2015[17]是目標(biāo)跟蹤領(lǐng)域用于評(píng)價(jià)算法優(yōu)異程度的視頻跟蹤庫,它由100 個(gè)人工標(biāo)注的跟蹤視頻組成。不同的數(shù)據(jù)集具有不同屬性,這些屬性可代表當(dāng)前目標(biāo)跟蹤領(lǐng)域的常見難點(diǎn),例如光照變化、尺度變化、遮擋和形變等。OTB2015主要使用兩個(gè)標(biāo)準(zhǔn)評(píng)價(jià)指標(biāo):精確率和成功率。精確率表示為預(yù)測目標(biāo)位置的中心點(diǎn)到真實(shí)位置的中心點(diǎn)距離小于給定閾值的視頻幀數(shù)所占總幀數(shù)的百分比。成功率則表示跟蹤框與標(biāo)注框的重疊率得分,即為超過某個(gè)閾值的幀個(gè)數(shù)占視頻總幀數(shù)的百分比。首先定義重疊率得分(Overlap Score,OS),跟蹤算法得到的定位框(記為a)與真實(shí)標(biāo)簽給出的框(記為b),重疊率定義如式(5)所示:

        其中|a ∩b|表示定位框和真實(shí)標(biāo)簽給出的框相交共有區(qū)域的像素?cái)?shù)目。當(dāng)某一幀OS大于設(shè)定閾值時(shí),則該幀被視為成功,總體成功的幀占所有幀的百分比即為成功率。跟蹤算法估計(jì)的目標(biāo)位置中心與目標(biāo)實(shí)際標(biāo)簽的中心點(diǎn),這兩者的距離小于給定閾值視頻幀的百分比即為精確率。首先我們?cè)贠TB2015 上可視化了目標(biāo)運(yùn)動(dòng)軌跡,如圖5,本文利用視頻幀中每幀目標(biāo)框上下左右的坐標(biāo)點(diǎn)計(jì)算出中心坐標(biāo)(圖中圓點(diǎn))可視化顯示每幀運(yùn)動(dòng)目標(biāo)軌跡。

        圖5 目標(biāo)運(yùn)動(dòng)軌跡Fig.5 Target trajectory

        這里將本文算法與六種經(jīng)典算法進(jìn)行比較:候選區(qū)域?qū)\生跟蹤器(Siamese Region Proposal Network,SiamRPN)[7]、空間正則判別相關(guān)濾波器(Spatially Regularized Discriminative Correlation Filter,SRDCF)[19]、核化相關(guān)濾波器(Kernelized Correlation Filter,KCF)[1]、全卷積孿生網(wǎng)絡(luò)(Fully-Convolutional Siamese network,SiamFC)[5]、判別尺度空間跟蹤器(Discriminative Scale Space Tracker,DSST)[20]和表征學(xué)習(xí)相關(guān)濾波跟蹤器(Representation Learning for Correlation Filter,CFNet)[21]。表2顯示本文MFESiam 在精確率和成功率上都取得最好效果,成功率達(dá)到64.5%的得分,精確率達(dá)到85.5%,分別優(yōu)于2018 年VOT 冠軍SiamRPN 0.8 個(gè)百分點(diǎn)和0.4 個(gè)百分點(diǎn),且本文的MFESiam 算法在成功率和精確率上分別在基線SiamFC 上提升了6.3 個(gè)百分點(diǎn)和8.4 個(gè)百分點(diǎn)。優(yōu)異的結(jié)果證明本文所提算法在跟蹤中面對(duì)一些具有挑戰(zhàn)性的因素如快速運(yùn)動(dòng)、目標(biāo)遮擋、相似物干擾等困難情況下是魯棒的。

        表2 OTB2015上算法成功率和精確率的對(duì)比Tab.2 Comparison of algorithms on success rate and accuracy on OTB2015

        圖6 是本文算法MFESiam 與基線SiamFC 算法在OTB2015上可視化對(duì)比。從三個(gè)比較有代表性的視頻序列中可看出本文算法在快速運(yùn)動(dòng)、目標(biāo)遮擋和相似語義干擾情況下,目標(biāo)都有優(yōu)異的跟蹤表現(xiàn)。從視頻序列(a)可看出,在模板分支的高層特征后添加PCAM 模塊提高了目標(biāo)的長時(shí)感知定位能力,在同樣的情況下本文基線SiamFC 在第337 幀之后已經(jīng)丟失了目標(biāo),而添加了PCAM 模塊后讓目標(biāo)在經(jīng)歷快速運(yùn)動(dòng)時(shí)也能精確跟蹤。而從序列(b)中可以看出采用了隨機(jī)裁剪的新型正則化訓(xùn)練方式,跟蹤器能自發(fā)地去思考環(huán)境的變化,從而在遭遇遮擋的情況下也能不丟失目標(biāo)。從序列(c)中可以看出通過數(shù)據(jù)增強(qiáng)的技術(shù)來加強(qiáng)淺層目標(biāo)的紋理特性,使得跟蹤器在遇到相似語義信息背景干擾時(shí)目標(biāo)不會(huì)輕易發(fā)生漂移。

        圖6 OTB2015上各算法可視化對(duì)比Fig.6 Visualization comparison of different algorithms on OTB2015

        對(duì)于模板分支的高層特征,本文采用一個(gè)像素感知的全局上下文注意力機(jī)制模塊來提升目標(biāo)的感知力。像素點(diǎn)特征對(duì)目標(biāo)的遮擋和快速運(yùn)動(dòng)都具有比較強(qiáng)的魯棒性,并且每幀圖像的搜索區(qū)域不受目標(biāo)初始模板大小的限制。從圖7 仿真實(shí)驗(yàn)可看出,本文通過全局上下文模塊捕捉全圖像素特征,通過轉(zhuǎn)換模塊激活對(duì)應(yīng)于特定目標(biāo)的響應(yīng)通道,可篩選出較為理想的目標(biāo)像素點(diǎn),最后根據(jù)強(qiáng)分類器對(duì)前景背景像素點(diǎn)進(jìn)行分類,輸出目標(biāo)位置。

        圖7 目標(biāo)像素點(diǎn)實(shí)驗(yàn)仿真圖Fig.7 Experimental simulation of target pixels

        2.2 在VOT2018上的評(píng)估

        VOT2018 一共有60 個(gè)經(jīng)過精細(xì)標(biāo)注的短時(shí)跟蹤視頻集,且評(píng)價(jià)指標(biāo)更為精細(xì)。VOT2018 與OTB2015 的最大差異是OTB2015 由隨機(jī)幀開始,而VOT2018 是給定第一幀初始化,每次跟蹤失敗時(shí),5 幀之后重新初始化。VOT2018 在跟蹤序列上目標(biāo)的變化更為復(fù)雜,跟蹤難度更高。VOT 的評(píng)價(jià)指標(biāo)主要是期望平均重疊率(Expected Average Overlap,EAO),由精度(Accuracy,A)和魯棒性(Robustness,R)組成。如圖8 所示,在VOT2018 數(shù)據(jù)庫中本文的算法與其他八個(gè)算法在基線上進(jìn)行比較,其EAO 指標(biāo)排名第一達(dá)到了0.256,超越本文基線SiamFC 6.8 個(gè)百分點(diǎn),表明本文所提算法在跟蹤難度較大的小目標(biāo)上也有非常良好的競爭力。

        圖8 VOT2018上的期望平均重疊率排名Fig.8 Expected average overlapping rate ranking on VOT2018

        2.3 在GOT-10K上的評(píng)估

        GOT-10K 包含訓(xùn)練集和測試集兩部分,而且為了訓(xùn)練出的模型能有更強(qiáng)的泛化能力,訓(xùn)練集和測試集之間不存在交集。它包含了1 000 個(gè)目標(biāo)跟蹤視頻,包含150 萬個(gè)手工標(biāo)注的邊界框。GOT-10K挑戰(zhàn)集有兩個(gè)內(nèi)部的評(píng)價(jià)指標(biāo),包括:在所有幀中跟蹤結(jié)果和真實(shí)標(biāo)簽平均重合率(Average Overlap,AO)和在一個(gè)給定閾值下成功跟蹤的視頻幀所占的比率(Success Rate,SR)。數(shù)據(jù)集大部分是戶外拍攝的物體,包含許多尺度變化劇烈的跟蹤目標(biāo)。從表3 可以看出本文的算法在AO 的指標(biāo)下超越了基線SiamFC 4.1 個(gè)百分點(diǎn),在SR0.50上超越基線SiamFC 4.7 個(gè)百分點(diǎn),這也證明本文算法在大尺度變化跟蹤序列上有著優(yōu)異的定位與跟蹤能力。

        表3 GOT-10K挑戰(zhàn)的指標(biāo)排名Tab.3 Indicator ranking on GOT-10K

        2.4 消融實(shí)驗(yàn)

        本文也在OTB2015 上進(jìn)行消融實(shí)驗(yàn)來驗(yàn)證本算法各個(gè)模塊的有效性,如表4所示。

        表4 OTB2015上的消融實(shí)驗(yàn)Tab.4 Ablation experiment on OTB2015

        首先,本算法在移除了PCAM 后成功率下降了1.3 個(gè)百分點(diǎn),這證明PCAM 模塊可以提升模板分支高層語義特征的感知定位,從而加強(qiáng)對(duì)于目標(biāo)的長時(shí)定位能力;然后,從本算法中移除隨機(jī)裁剪(Random Cutout,RC)的訓(xùn)練方式,算法成功率下降了0.9 個(gè)百分點(diǎn),由此可見采用這種新型正則化的訓(xùn)練方式來模擬目標(biāo)在遭遇遮擋的情形,可以讓模型能夠更自發(fā)地去思考目標(biāo)周圍所發(fā)生的變化,以達(dá)到更好的跟蹤效果;最后,本文移除了淺層特征融合模塊(Low Level Fusion,LLF),算法成功率下降了3.4個(gè)百分點(diǎn),性能大幅度地降低證明了淺層特征融合模塊對(duì)于加強(qiáng)淺層的紋理特征,從而提高目標(biāo)在跟蹤相似語義信息干擾是有效的。相較于原始基線SiamFC 成功率為58.2%,MFESiam 取得了最好的成功率為64.5%,這也充分證明本算法各模塊的有效性。

        3 結(jié)語

        本文提出一個(gè)實(shí)時(shí)跟蹤方法,通過設(shè)計(jì)一個(gè)有效的淺層特征增強(qiáng)模塊和一個(gè)用于模板分支高層語義特征增強(qiáng)的PCAM 模塊。淺層特征增強(qiáng)模塊使用一個(gè)簡易且高效的數(shù)據(jù)增強(qiáng)策略來加強(qiáng)網(wǎng)絡(luò)的魯棒性;而PCAM 模塊則是一個(gè)雙向像素感知的全局上下文注意力模塊,旨在于提升高層語義特征的感知定位能力。整個(gè)網(wǎng)絡(luò)通過離線訓(xùn)練,在測試時(shí)不需要花費(fèi)時(shí)間用于模型的在線更新。在OTB2015、VOT2018 和GOT-10K上充足的實(shí)驗(yàn)表明本文所提算法在精度和速度上所取得了優(yōu)越性能,并且其實(shí)時(shí)性能以滿足實(shí)際的工業(yè)需求。但是本文方法在目標(biāo)旋轉(zhuǎn)角度過大、光照變化明顯等因素出現(xiàn)時(shí),跟蹤結(jié)果仍不理想,接下來將對(duì)目標(biāo)旋轉(zhuǎn)角度過大和光照變化明顯等情況進(jìn)行下一步的研究。

        猜你喜歡
        分支語義像素
        趙運(yùn)哲作品
        藝術(shù)家(2023年8期)2023-11-02 02:05:28
        像素前線之“幻影”2000
        語言與語義
        “像素”仙人掌
        巧分支與枝
        一類擬齊次多項(xiàng)式中心的極限環(huán)分支
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        高像素不是全部
        CHIP新電腦(2016年3期)2016-03-10 14:22:03
        認(rèn)知范疇模糊與語義模糊
        生成分支q-矩陣的零流出性
        制服丝袜视频国产一区| 亚洲熟妇无码av在线播放| 国产成人精品久久一区二区三区 | 久久99老妇伦国产熟女高清| 国产精品又爽又粗又猛又黄| 亚洲精品无码久久久久y| 免费看黄色电影| 国产白丝网站精品污在线入口| 熟女丝袜美腿亚洲一区二区三区| 精品国产中文字幕久久久| 品色堂永远免费| 妺妺窝人体色www在线图片 | 变态 另类 欧美 大码 日韩| 国产91吞精一区二区三区| 亚洲国产精品成人av| 精品人妻一区二区三区浪人在线| 久亚洲一线产区二线产区三线麻豆| 欧美日韩在线视频| 日本熟妇色xxxxx欧美老妇| 国产精品一区二区资源| av男人的天堂第三区| 蜜臀av在线观看| 国产精品成人一区二区三区| 欧美精品日韩一区二区三区| 99久久婷婷亚洲综合国产| 午夜免费福利小电影| 少妇无码av无码一区| 亚洲熟妇无码久久精品疯| 三级黄片一区二区三区| 米奇欧美777四色影视在线| 国产男女猛烈视频在线观看| 波多野结衣一区二区三区免费视频| 久久人妻少妇嫩草av蜜桃| 国产精品精品自在线拍| 亚洲在AV极品无码天堂手机版| 伊人影院在线观看不卡| 最新中文字幕人妻少妇| 国产成年无码v片在线| 亚洲精品亚洲人成在线播放| 国产精品女同一区二区软件| 日本熟妇hdsex视频|