亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        特征融合與訓(xùn)練加速的高效目標(biāo)跟蹤

        2021-05-26 03:13:04錢美伊王傳旭
        關(guān)鍵詞:分支深度函數(shù)

        劉 云,錢美伊,李 輝,王傳旭

        青島科技大學(xué) 信息科學(xué)技術(shù)學(xué)院,山東 青島266000

        在計(jì)算機(jī)視覺領(lǐng)域中,目標(biāo)跟蹤是一個(gè)重要的研究方向[1],解決視覺目標(biāo)跟蹤的算法,可以分為生成式算法和判別式算法[2]。生成式目標(biāo)跟蹤算法關(guān)注于目標(biāo)自身特征信息[3],與之相比,判別式跟蹤算法關(guān)注于區(qū)分目標(biāo)和背景,在提取目標(biāo)特征信息的同時(shí),充分利用了背景信息[4]。因此,判別式算法跟蹤性能普遍優(yōu)于生成式算法,也使得判別式算法成為當(dāng)今主流的目標(biāo)跟蹤算法[2]?;谏疃葘W(xué)習(xí)的判別式跟蹤算法,可以分為基于深度特征的相關(guān)濾波跟蹤算法和基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法[5-6]。

        基于深度特征的相關(guān)濾波跟蹤算法,需要根據(jù)提取特征圖和目標(biāo)位置響應(yīng)圖,經(jīng)訓(xùn)練得到相關(guān)濾波器[7],用于跟蹤后續(xù)視頻幀中的目標(biāo)。由于視頻首幀訓(xùn)練樣本不足,可能導(dǎo)致經(jīng)訓(xùn)練得到的相關(guān)濾波器效果欠佳[8]。相關(guān)濾波跟蹤算法在跟蹤過程中會(huì)持續(xù)更新相關(guān)濾波器,如果目標(biāo)存在遮擋等嚴(yán)重干擾,容易產(chǎn)生跟蹤漂移現(xiàn)象,甚至是跟蹤丟失[9]。與之相比,基于孿生網(wǎng)絡(luò)的跟蹤算法具有大型數(shù)據(jù)集預(yù)訓(xùn)練、深度特征提取、端到端訓(xùn)練、跟蹤準(zhǔn)確度高等優(yōu)點(diǎn)[10-11]。

        本文提出特征融合與訓(xùn)練加速的高效目標(biāo)跟蹤。首先,加深主干網(wǎng)絡(luò)參考特征圖層級(jí),減少下采樣,融合多個(gè)層級(jí)的深度特征圖,從而豐富了目標(biāo)特征信息,提高跟蹤精度。權(quán)衡區(qū)域建議網(wǎng)絡(luò)(Region Proposal Network,RPN)[12]階段的正、負(fù)錨點(diǎn)的數(shù)量,提高了目標(biāo)跟蹤效率。大型數(shù)據(jù)集訓(xùn)練孿生網(wǎng)絡(luò)時(shí),目標(biāo)圖像塊采用均勻滑動(dòng)漂移采樣算法,代替均勻滑動(dòng)漂移采樣算法,有效減少了訓(xùn)練時(shí)間。

        1 相關(guān)工作

        基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法包括SiamFC[13]、SiamRPN[14]、DaSiamRPN[15]和SiamΜask[16]等。SiamFC提取目標(biāo)圖像塊和搜索圖像塊的特征信息,將二者的參考特征圖進(jìn)行傳統(tǒng)互相關(guān)操作(Cross Correlation)[13],從而得到目標(biāo)位置的響應(yīng)圖。通過處理特征圖的幾個(gè)縮放版本,實(shí)現(xiàn)對(duì)目標(biāo)尺度空間[17]的跟蹤。SiamFC 的缺點(diǎn)是跟蹤精度不足,在處理多尺度問題時(shí)需要耗費(fèi)較多的時(shí)間。SiamRPN 使用上通道互相關(guān)(Up-Channel Cross Correlation)[14]代替?zhèn)鹘y(tǒng)的互相關(guān)操作,并引入?yún)^(qū)域建議網(wǎng)絡(luò)(RPN),輸出目標(biāo)置信度得分的同時(shí),對(duì)目標(biāo)區(qū)域進(jìn)行了回歸操作,使得算法在處理目標(biāo)的尺度空間跟蹤時(shí),速度和精度都優(yōu)于SiamFC。SiamRPN 的缺點(diǎn)是具有龐大的上通道層,用于調(diào)整互相關(guān)操作的參考特征通道數(shù),這使得網(wǎng)絡(luò)優(yōu)化困難,降低了目標(biāo)跟蹤速度。DaSiamRPN 在SiamRPN 的基礎(chǔ)上引入注意力機(jī)制,通過建立干擾感知模塊,降低同類干擾物對(duì)目標(biāo)的語義干擾,進(jìn)一步提升跟蹤精度和魯棒性。雖然上述算法逐步提高了孿生網(wǎng)絡(luò)跟蹤性能,但是沒有引入目標(biāo)的掩模表示(Μask),孿生網(wǎng)絡(luò)的跟蹤精度未能再上一個(gè)臺(tái)階。SiamΜask 使用深度互相關(guān)操作(Depth-wise Cross Correlation)[18]代替SiamRPN 的上通道互相關(guān)操作,去掉了繁重的上通道層,從而在減少參數(shù)量的同時(shí),豐富了互相關(guān)響應(yīng)圖通道數(shù),有效提升了目標(biāo)跟蹤精度,并且增加了掩模分支,使用旋轉(zhuǎn)邊界框代替豎直邊界框,用于標(biāo)定目標(biāo)區(qū)域,進(jìn)一步提升了跟蹤精度。但是SiamΜask 仍然存在一些問題,例如主干網(wǎng)絡(luò)選取的參考特征圖深度不足,特征信息的豐富度欠佳,跟蹤精度有待于進(jìn)一步的提升。RPN 階段的正負(fù)錨點(diǎn)數(shù)量比例可能嚴(yán)重失衡,影響目標(biāo)跟蹤的效率。在使用多個(gè)大型數(shù)據(jù)集訓(xùn)練孿生網(wǎng)絡(luò)的過程中,需要耗費(fèi)大量的時(shí)間。

        2 特征融合與訓(xùn)練加速的高效目標(biāo)跟蹤

        本文提出特征融合與訓(xùn)練加速的高效目標(biāo)跟蹤,算法框架流程圖如圖1所示。

        如圖1 所示,輸入原始圖像,根據(jù)目標(biāo)所在位置截取目標(biāo)圖像塊和搜索圖像塊,將二者送入本文深度特征融合[19]的共享主干網(wǎng)絡(luò),提取其深度而豐富的特征信息。將二者參考特征圖進(jìn)行深度互相關(guān)操作,可以得到一組候選窗口響應(yīng)(Response of Candidate Windows,RoWs)[14],在RoWs 中構(gòu)建RPN 網(wǎng)絡(luò),通過權(quán)衡RPN 的正負(fù)錨點(diǎn)數(shù)量比例,使孿生網(wǎng)絡(luò)均衡地學(xué)習(xí)目標(biāo)和背景的特征信息,提高跟蹤效率。將RoWs信息分別送入邊界框分支、分?jǐn)?shù)分支和掩模分支,其中邊界框分支得到的豎直邊界框,用于裁剪下一幀的搜索圖像塊;分?jǐn)?shù)分支輸出目標(biāo)置信度最高得分所在位置;掩模分支根據(jù)最高置信度RoW生成目標(biāo)掩模,將其最小外接矩形(Μinimum Bounding Rectangle,ΜBR)[16]作為當(dāng)前幀的目標(biāo)邊界框。多個(gè)大型數(shù)據(jù)集訓(xùn)練孿生網(wǎng)絡(luò)時(shí),使用均勻滑動(dòng)漂移采樣算法,代替SiamΜask隨機(jī)漂移采樣,在抑制目標(biāo)中心偏置現(xiàn)象的同時(shí)提升了訓(xùn)練速度。

        2.1 深度特征融合主干網(wǎng)絡(luò)

        本文算法的主干網(wǎng)絡(luò)使用了殘差網(wǎng)絡(luò)(Residual Network)ResNet-50[20],其所具有的殘差塊(Residual Block)可以有效加深卷積網(wǎng)絡(luò)深度。構(gòu)成ResNet-50的一個(gè)殘差塊,如圖2所示。

        圖1 算法框架流程圖

        圖2 ResNet-50的一個(gè)殘差塊

        由圖2 可知,在每一個(gè)殘差塊中,依次執(zhí)行通道數(shù)調(diào)整、非線性激活、卷積、非線性激活、通道數(shù)調(diào)整,然后與輸入信息進(jìn)行加法操作,并再次執(zhí)行非線性激活。ResNet-50 殘差網(wǎng)絡(luò)通過疊加這種殘差塊,在有效加深卷積網(wǎng)絡(luò)深度的同時(shí),不會(huì)引起訓(xùn)練退化問題?;趯\生網(wǎng)絡(luò)的目標(biāo)跟蹤算法,大部分計(jì)算時(shí)間耗費(fèi)在主干網(wǎng)絡(luò)上[16],考慮到跟蹤的實(shí)時(shí)性要求,因此不再使用ResNet-101[20],否則將降低孿生網(wǎng)絡(luò)跟蹤速度。

        基線SiamΜask 只使用ResNet 主干網(wǎng)絡(luò)Conv1 至Conv4 卷積階段,經(jīng)過研究發(fā)現(xiàn),仍然可以使用Conv5卷積階段,因此本文使用ResNet-50 的Conv1 至Conv5卷積階段,加深了主干網(wǎng)絡(luò)參考特征圖深度,提取了目標(biāo)更深度的特征信息,有效提高跟蹤精度。訓(xùn)練和跟蹤過程中,由于目標(biāo)圖像塊和搜索圖像塊尺寸通常較小,為保證二者特征圖具有較高的分辨率,本文對(duì)ResNet-50的Conv3、Conv4和Conv5卷積階段不采取下采樣,使用較高分辨率的特征圖可以實(shí)現(xiàn)更高精度的跟蹤。

        在深度卷積網(wǎng)絡(luò)中,不同層級(jí)的特征圖從不同角度表征了目標(biāo):頂層特征圖編碼了更多的目標(biāo)語義信息,充當(dāng)類別檢測(cè)器;稍低層級(jí)的特征圖承載了更多的鑒別信息,可以從相似的干擾物中分離目標(biāo)[21]。根據(jù)融合多層級(jí)特征圖[22]的思路,本文將Conv4 和Conv5 卷積階段最后一層非線性激活后的輸出作為參考特征圖,并對(duì)其進(jìn)行融合操作,融合后的特征圖作為本文深度互相關(guān)操作的參考特征圖。參考特征圖融合的具體流程為:將Conv4、Conv5 兩個(gè)卷積階段最后一層的特征圖首先用1×1 卷積核降維至256 維,然后對(duì)二者進(jìn)行像素級(jí)別的加法操作。這里沒有使用Conv1 至Conv3 卷積階段作為參考特征圖,也沒有對(duì)其進(jìn)行特征融合,是因?yàn)镃onv1階段的特征圖分辨率太高,嚴(yán)重影響目標(biāo)跟蹤速度,而Conv2、Conv3 階段的特征層級(jí)較淺,無法很好描述待跟蹤目標(biāo)特征。與SiamΜask僅使用Conv4單一階段參考特征圖相比,本文使用深度特征融合的參考特征圖,在參考特征圖內(nèi)存占用不增加、特征圖通道數(shù)也不增加的前提下,以較小的時(shí)間復(fù)雜度和空間復(fù)雜度為代價(jià),描述了目標(biāo)更加深度、豐富的特征信息,有效提高算法的跟蹤精度。

        2.2 權(quán)衡正負(fù)錨點(diǎn)

        將目標(biāo)圖像塊z 和搜索圖像塊x 分別輸入本文深度特征融合的共享主干網(wǎng)絡(luò)f ,可以得到兩組參考特征圖f(z)和f(x)。將二者進(jìn)行深度互相關(guān)操作,表示為?,從而得到候選窗口響應(yīng)RoWs,表示為g ,公式如下所示:

        傳統(tǒng)的互相關(guān)操作僅粗略地定位目標(biāo),響應(yīng)圖是單通道的。上通道互相關(guān)操作可以得到多通道的RoWs,但是其本質(zhì)是對(duì)傳統(tǒng)互相關(guān)操作的堆疊,龐大的上通道層使網(wǎng)絡(luò)難以優(yōu)化。本文使用深度互相關(guān)操作,成功地解決了上述問題,優(yōu)點(diǎn)在于輕量級(jí)、豐富的響應(yīng)信息,雖然參數(shù)量只有上通道互相關(guān)的1/10,但是性能卻與之相當(dāng)。

        RoWs 中的每一個(gè)1×1 大小的塊,都可以映射到原始圖像的對(duì)應(yīng)像素區(qū)域,在RoWs 中構(gòu)建RPN 網(wǎng)絡(luò),可以精確地定位目標(biāo)所在區(qū)域。根據(jù)RPN網(wǎng)絡(luò)的錨點(diǎn)和目標(biāo)區(qū)域的交并比(Intersection-Over-Union,IOU),可以得到一系列的正、負(fù)錨點(diǎn)。如果IOU ≥0.6,那么定義當(dāng)前錨點(diǎn)為正錨點(diǎn),否則,將其定義為負(fù)錨點(diǎn)。提取正負(fù)錨點(diǎn)所在區(qū)域的特征信息,訓(xùn)練分類器和回歸器,使得神經(jīng)網(wǎng)絡(luò)可以有效區(qū)分目標(biāo)和背景,定位當(dāng)前幀目標(biāo)所在的區(qū)域。經(jīng)研究發(fā)現(xiàn),RPN 的正、負(fù)錨點(diǎn)數(shù)量比例可能非常懸殊,需要對(duì)其進(jìn)行權(quán)衡。如果負(fù)錨點(diǎn)數(shù)量遠(yuǎn)多于正錨點(diǎn),那么網(wǎng)絡(luò)將嚴(yán)重傾向于提取背景的特征信息,訓(xùn)練得到的分類器和回歸器也將傾向于區(qū)分背景,而忽視了對(duì)目標(biāo)區(qū)域的辨別,這將會(huì)降低算法的跟蹤效率。通過權(quán)衡RPN階段的正、負(fù)錨點(diǎn),學(xué)習(xí)更有價(jià)值的錨點(diǎn)特征信息,確保孿生網(wǎng)絡(luò)可以更加均衡、高效地辨別目標(biāo)和背景,從而實(shí)現(xiàn)更加高效、穩(wěn)定的目標(biāo)跟蹤。

        2.3 均勻滑動(dòng)漂移采樣

        在訓(xùn)練深度孿生網(wǎng)絡(luò)過程中,會(huì)出現(xiàn)中心偏置現(xiàn)象,即跟蹤器只能有效識(shí)別目標(biāo)的中心區(qū)域,而不識(shí)別目標(biāo)的其余部分。產(chǎn)生這個(gè)現(xiàn)象的原因是,經(jīng)過深度互相關(guān)操作,網(wǎng)絡(luò)將目標(biāo)正中心定義為正樣本,隨著訓(xùn)練迭代次數(shù)的增加,孿生網(wǎng)絡(luò)會(huì)逐漸學(xué)習(xí)到這種統(tǒng)計(jì)特性,從而只能識(shí)別待跟蹤目標(biāo)的中心區(qū)域。為了解決上述問題,在訓(xùn)練時(shí)對(duì)目標(biāo)區(qū)域進(jìn)行均勻滑動(dòng)漂移采樣,讓目標(biāo)圖像塊在原始圖像中發(fā)生偏移,從而提取整個(gè)目標(biāo)區(qū)域的特征信息。使跟蹤器對(duì)整個(gè)目標(biāo)區(qū)域都有響應(yīng)。

        SiamΜask 使用隨機(jī)漂移采樣算法,抑制目標(biāo)區(qū)域的中心偏置現(xiàn)象。經(jīng)過分析,隨機(jī)采樣點(diǎn)在樣本空間內(nèi)均勻分布,如果在每幅圖像的目標(biāo)區(qū)域,分別沿x 軸方向和y 軸方向,調(diào)用隨機(jī)數(shù)生成函數(shù),生成隨機(jī)采樣點(diǎn),那么在多個(gè)大型數(shù)據(jù)集訓(xùn)練孿生網(wǎng)絡(luò)時(shí),將耗費(fèi)大量的時(shí)間。因此,本文對(duì)目標(biāo)圖像塊進(jìn)行均勻滑動(dòng)漂移采樣,將目標(biāo)區(qū)域按照由上到下、從左到右的順序依次滑動(dòng),代替隨機(jī)數(shù)生成函數(shù)得到采樣點(diǎn),從而節(jié)省了因頻繁調(diào)用隨機(jī)數(shù)生成函數(shù)而消耗的時(shí)間,顯著加快了訓(xùn)練速度。因此,使用均勻滑動(dòng)漂移采樣,代替隨機(jī)漂移采樣算法,在抑制孿生網(wǎng)絡(luò)中心偏置現(xiàn)象的同時(shí),有效提升了網(wǎng)絡(luò)的訓(xùn)練速度。

        根據(jù)文獻(xiàn)[18],在漂移采樣的過程中,目標(biāo)圖像塊的最大位移量定義為漂移量(Shift)[18]。當(dāng)Shift 分別取0、16 和32 時(shí),訓(xùn)練得到的不同跟蹤器在目標(biāo)區(qū)域的響應(yīng)熱度圖,如圖3所示。

        圖3 樣本漂移采樣響應(yīng)圖

        從圖3(a)可以看出,當(dāng)Shift=0 時(shí),孿生網(wǎng)絡(luò)出現(xiàn)很強(qiáng)的中心偏置現(xiàn)象,只對(duì)目標(biāo)正中心小范圍區(qū)域有響應(yīng)。從圖3(b)可以看出,當(dāng)Shift=16 時(shí),目標(biāo)區(qū)域的響應(yīng)范圍有所增加。從圖3(c)可以看出,當(dāng)Shift=32 時(shí),目標(biāo)區(qū)域出現(xiàn)了大范圍響應(yīng),有效抑制了中心偏置現(xiàn)象。因此,均勻滑動(dòng)漂移采樣算法可以有效抑制孿生網(wǎng)絡(luò)的中心偏置現(xiàn)象。

        2.4 三分支輸出與損失函數(shù)

        將RoWs的深度互相關(guān)信息分別送入三個(gè)分支:分?jǐn)?shù)分支、邊界框分支和掩模分支。分?jǐn)?shù)分支輸出目標(biāo)置信度最高得分所在位置。邊界框分支對(duì)目標(biāo)區(qū)域進(jìn)行回歸,得到目標(biāo)的豎直邊界框,用于剪裁下一幀搜索圖像塊。掩模分支根據(jù)分?jǐn)?shù)分支的輸出,產(chǎn)生對(duì)應(yīng)位置的目標(biāo)掩模,實(shí)現(xiàn)像素級(jí)別的定位,然后求出掩模的最小外接矩形(ΜBR),并根據(jù)這個(gè)旋轉(zhuǎn)的邊界框,定位當(dāng)前幀目標(biāo)。與豎直邊界框相比,旋轉(zhuǎn)邊界框具有更高的精度。

        本文孿生網(wǎng)絡(luò)有三個(gè)分支輸出,每個(gè)分支有自己的損失函數(shù),用于優(yōu)化各分支的性能。分別使用Lbox、Lscore、Lmask表示邊界框分支、分?jǐn)?shù)分支和掩模分支的損失函數(shù)。

        Lbox使用smooth L1損失函數(shù),smooth L1計(jì)算公式如下:

        其中,x 表示歸一化后的距離。本文計(jì)算了歸一化距離δ[0]、δ[1]、δ[2]、δ[3],計(jì)算公式如下:

        其中,Ax、Ay、Aw、Ah分別表示錨框中心位置的橫坐標(biāo)、縱坐標(biāo)、錨框的寬度和高度,Tx、Ty、Tw、Th分別表示真實(shí)目標(biāo)區(qū)域的中心點(diǎn)橫坐標(biāo)、縱坐標(biāo)、真實(shí)區(qū)域的寬度和高度。將歸一化后的距離δ[0]、δ[1]、δ[2]、δ[3]分別代入smooth L1損失函數(shù),i 表示每組歸一化距離的序號(hào),得到邊界框分支的回歸損失函數(shù)Lbox,計(jì)算公式為:

        分?jǐn)?shù)分支的分類損失函數(shù)Lscore使用了對(duì)數(shù)損失函數(shù),計(jì)算公式為:

        其中,pn表示第n 個(gè)RoW的置信度分?jǐn)?shù)。

        由此可知,Lmask只計(jì)算了RoWs 中的正樣本,即yn=1的情況。

        用L 表示本文孿生網(wǎng)絡(luò)的總體損失函數(shù),L 根據(jù)Lbox、Lscore、Lmask經(jīng)過加權(quán)計(jì)算得到,計(jì)算公式如下:

        其中,λ1、λ2、λ3分別為三個(gè)分支損失函數(shù)的權(quán)值,按照文獻(xiàn)[16],本文將權(quán)值設(shè)置為λ1=λ2=1,λ3=32。

        3 實(shí)驗(yàn)結(jié)果及分析

        3.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集

        本實(shí)驗(yàn)使用的Linux 系統(tǒng)版本為Ubuntu 16.04,服務(wù)器的配置信息如下所示:

        CPU,Intel?Xeon?CPU E5-2678 v3@2.50 GHz;GPU,NVIDIA GeForce GTX 1080 Ti×2;內(nèi)存,32 GB;深度學(xué)習(xí)框架,Pytorch 0.4.1。為了提高GPU的運(yùn)行效率,使用了CUDA 8.0 以及cuDNN 6.0。Python 庫(kù)使用了Anaconda 3,Python版本為3.6。

        實(shí)驗(yàn)分為訓(xùn)練模型和評(píng)估模型兩個(gè)階段。在第一階段訓(xùn)練模型階段,使用大型數(shù)據(jù)集COCO2017[23]、ImageNet2015-VID[24]和YouTube-VOS2018[25],訓(xùn)練本文的目標(biāo)跟蹤孿生網(wǎng)絡(luò)。其中,COCO2017 數(shù)據(jù)集大小為20 GB,ImageNet2015-VID 數(shù)據(jù)集大小為85 GB,YouTube-VOS2018 數(shù)據(jù)集大小為50 GB。另外還使用了ImageNet2015-VID 的部分?jǐn)?shù)據(jù),用于訓(xùn)練時(shí)對(duì)模型的跟蹤性能進(jìn)行測(cè)試評(píng)估。在模型訓(xùn)練完成之后,第二階段評(píng)估模型階段使用了目標(biāo)跟蹤基準(zhǔn)VOT2018[26]數(shù)據(jù)集,評(píng)估模型的跟蹤性能。使用訓(xùn)練好的目標(biāo)跟蹤算法模型,在VOT2018跟蹤基準(zhǔn)的所有視頻序列中,執(zhí)行目標(biāo)跟蹤任務(wù)。最后,根據(jù)各項(xiàng)跟蹤性能指標(biāo),如EAO、準(zhǔn)確度、魯棒性、速度等,評(píng)估本文跟蹤算法性能。

        3.2 訓(xùn)練結(jié)果及分析

        本文目標(biāo)跟蹤孿生網(wǎng)絡(luò),在上述三個(gè)大型數(shù)據(jù)集上,經(jīng)過了20 次Epochs 的迭代訓(xùn)練。足夠的迭代次數(shù)可以確保孿生網(wǎng)絡(luò)的訓(xùn)練使用了足夠的樣本量,從而保證跟蹤過程中提取目標(biāo)豐富、準(zhǔn)確的特征信息。學(xué)習(xí)率首先由10-3線性增長(zhǎng)至5×10-3,然后按照對(duì)數(shù)方式逐步降低至5×10-4。

        在訓(xùn)練過程中,使用了分類損失、回歸損失和掩模損失三個(gè)損失函數(shù),分別衡量神經(jīng)網(wǎng)絡(luò)三個(gè)分支的性能。整個(gè)神經(jīng)網(wǎng)絡(luò)的總損失函數(shù),由這三項(xiàng)損失函數(shù)加權(quán)得到。隨著訓(xùn)練迭代次數(shù)的增加,各項(xiàng)損失函數(shù)值的變化情況,如圖4所示。

        圖4(a)表示分類損失函數(shù)的變化情況,損失函數(shù)值從0.16逐步降低至0.01,并趨于平緩。圖4(b)表示回歸損失函數(shù)的變化情況,損失函數(shù)值從0.28 逐步降低至0.15,并趨于平緩。圖4(c)表示掩模損失函數(shù)的變化情況,損失函數(shù)值從0.24 逐漸降低至0.12,然后趨于平緩。由圖4可以看出,隨著孿生網(wǎng)絡(luò)迭代訓(xùn)練次數(shù)的增加,雖然各項(xiàng)損失函數(shù)值在不斷波動(dòng),但是總體趨勢(shì)是逐漸降低的,并漸漸趨于緩和。由此可知,本文孿生網(wǎng)絡(luò)經(jīng)過訓(xùn)練后,跟蹤性能得到了增強(qiáng)。

        訓(xùn)練本文孿生網(wǎng)絡(luò)時(shí),使用了如下評(píng)價(jià)指標(biāo):平均交并比(mean Intersection-Over-Union,mIOU)和平均精確度(Average Precision,AP)。本文實(shí)驗(yàn)進(jìn)一步采用了不同閾值條件下的AP 值,驗(yàn)證孿生網(wǎng)絡(luò)性能。分別采用IOU閾值為0.5和0.7兩種情況,得到不同IOU閾值對(duì)AP值的影響,實(shí)驗(yàn)結(jié)果如圖5所示。

        圖5(a)表示IOU 閾值為0.5 條件下的AP 值變化情況,可知AP 從0 開始逐步增加至0.85,然后趨于平緩。圖5(b)表示IOU 閾值為0.7 條件下的AP 值變化情況,此時(shí)AP從0開始逐步提升至0.50,并趨于平緩。圖5(c)表示本文算法預(yù)測(cè)目標(biāo)區(qū)域與真實(shí)區(qū)域的mIOU 值變化情況,可知mIOU 從0.40 逐步增加至0.66,并趨于平緩。圖5 可以看出,隨著訓(xùn)練迭代次數(shù)的增加,雖然孿生網(wǎng)絡(luò)的AP 值和mIOU 有些許波動(dòng),但是在整個(gè)過程中的趨勢(shì)是在逐步提升的,并逐漸趨于緩和。由此可知,本文孿生網(wǎng)絡(luò)經(jīng)過訓(xùn)練,其平均精確度和平均交并比均得到了有效提升,孿生網(wǎng)絡(luò)得到的預(yù)測(cè)目標(biāo)區(qū)域逐漸接近于真實(shí)目標(biāo)區(qū)域。

        圖5 孿生網(wǎng)絡(luò)性能提升曲線

        在對(duì)目標(biāo)圖像塊進(jìn)行采樣時(shí),使用均勻滑動(dòng)漂移采樣,代替SiamΜask的隨機(jī)漂移采樣算法。在改進(jìn)前后,孿生網(wǎng)絡(luò)訓(xùn)練所用的時(shí)間對(duì)比如表1所示。

        表1 訓(xùn)練孿生網(wǎng)絡(luò)所用總時(shí)間對(duì)比

        由表1可知,SiamΜask的訓(xùn)練總時(shí)間為92.33 h,本文提出的目標(biāo)跟蹤孿生網(wǎng)絡(luò)模型的訓(xùn)練總時(shí)間為80.17 h,與原算法相比,節(jié)省了12.16 h。由此可知,與隨機(jī)漂移采樣算法相比,均勻滑動(dòng)漂移采樣顯著加快了孿生網(wǎng)絡(luò)的訓(xùn)練速度。

        3.3 跟蹤結(jié)果及分析

        在目標(biāo)跟蹤基準(zhǔn)VOT2018中,將本文算法與Siam-RPN、DaSiamRPN 和SiamΜask 算法進(jìn)行了跟蹤結(jié)果對(duì)比實(shí)驗(yàn)。選取各算法在VOT2018部分視頻序列每幀的目標(biāo)跟蹤結(jié)果,如圖6~圖9所示。圖6是在Bolt1序列上的目標(biāo)跟蹤結(jié)果,圖7是Μotocross1序列的目標(biāo)跟蹤結(jié)果,圖8 是Μatrix 序列的跟蹤結(jié)果,圖9 是Soccer1 序列的目標(biāo)跟蹤結(jié)果。在每組對(duì)比圖片中,自上而下分別為使用SiamRPN、DaSiamRPN、SiamΜask 和本文跟蹤算法得到的目標(biāo)跟蹤結(jié)果。

        圖6 “Bolt1”序列跟蹤結(jié)果對(duì)比

        圖7 “Μotocross1”序列跟蹤結(jié)果對(duì)比

        圖8 “Μatrix”序列跟蹤結(jié)果對(duì)比

        圖9 “Soccer1”序列跟蹤結(jié)果對(duì)比

        由圖6可知,在小目標(biāo)、非剛性形變、語義干擾的情況下,本文算法在每幀中的跟蹤精度最高,SiamΜask在跟蹤過程中出現(xiàn)了跟蹤丟失情況;由圖7 可知,在目標(biāo)發(fā)生平面內(nèi)旋轉(zhuǎn)、背景改變、光照變化的情況下,本文跟蹤算法性能最優(yōu);由圖8 可知,在暗場(chǎng)景、光照變化、目標(biāo)快速移動(dòng)、尺度變化的情況下,本文算法性能最優(yōu),而SiamRPN和DaSiamRPN在跟蹤過程中出現(xiàn)了跟蹤丟失情況;由圖9 可知,在目標(biāo)出現(xiàn)平面外旋轉(zhuǎn)、尺度變化、背景相似物干擾、運(yùn)動(dòng)模糊的情況下,本文算法仍可以精確跟蹤目標(biāo),而SiamRPN、DaSiamRPN 和SiamΜask均出現(xiàn)了跟蹤丟失情況。綜上,本文目標(biāo)跟蹤算法在VOT2018 的跟蹤結(jié)果明顯優(yōu)于SiamRPN、DaSiamRPN和SiamΜask算法。

        3.4 實(shí)驗(yàn)結(jié)果對(duì)比

        本文實(shí)驗(yàn)使用的目標(biāo)跟蹤性能評(píng)價(jià)指標(biāo)為:準(zhǔn)確度(Accuracy)、魯棒性(Robustness)、跟蹤速度(Speed)和期望平均交并比(Expected Average Overlap,EAO)。各項(xiàng)指標(biāo)計(jì)算原理如下:準(zhǔn)確度根據(jù)每幀預(yù)測(cè)目標(biāo)區(qū)域和實(shí)際目標(biāo)區(qū)域的平均交并比mIOU進(jìn)行計(jì)算,準(zhǔn)確度越高,說明跟蹤結(jié)果越接近目標(biāo)的實(shí)際區(qū)域。魯棒性根據(jù)跟蹤丟失的總次數(shù)進(jìn)行計(jì)算,魯棒性數(shù)值越低,說明跟蹤器的魯棒性越強(qiáng)。跟蹤速度的評(píng)價(jià)依據(jù)為FPS(Frames Per Second),F(xiàn)PS 數(shù)值越大,說明跟蹤速度越快。EAO 指標(biāo)的計(jì)算原理是:在每個(gè)視頻序列首次跟蹤丟失前,計(jì)算每一幀的平均交并比,然后計(jì)算所有視頻序列的加權(quán)平均交并比。由于計(jì)算EAO 時(shí),同時(shí)考慮了平均交并比和跟蹤丟失的情況,因此EAO 同時(shí)體現(xiàn)了目標(biāo)跟蹤的準(zhǔn)確度和魯棒性,是目標(biāo)跟蹤最為重要的評(píng)價(jià)指標(biāo)。

        本文目標(biāo)跟蹤算法的基線是SiamΜask,主要提出了三項(xiàng)改進(jìn):改進(jìn)1 代表深度特征融合的主干網(wǎng)絡(luò);改進(jìn)2代表平衡RPN階段正負(fù)錨點(diǎn)數(shù)量;改進(jìn)3代表均勻滑動(dòng)漂移采樣。在SiamΜask 基礎(chǔ)上,分別單獨(dú)應(yīng)用上述三條改進(jìn),進(jìn)行了目標(biāo)跟蹤性能的對(duì)比評(píng)估實(shí)驗(yàn)。使用基線SiamΜask,分別單獨(dú)應(yīng)用上述三條改進(jìn),以及本文提出的跟蹤算法,在跟蹤基準(zhǔn)VOT2018 上的跟蹤性能評(píng)估結(jié)果如表2所示。

        表2 各項(xiàng)獨(dú)立改進(jìn)在VOT2018的評(píng)估結(jié)果

        從表2 可以看出,在跟蹤基準(zhǔn)VOT2018 的實(shí)驗(yàn)中,本文算法的準(zhǔn)確度、魯棒性和EAO都是最優(yōu)的,雖然跟蹤速度稍慢,但是完全滿足實(shí)時(shí)的目標(biāo)跟蹤。在各項(xiàng)獨(dú)立改進(jìn)實(shí)驗(yàn)結(jié)果中,改進(jìn)1和改進(jìn)2的魯棒性明顯加強(qiáng),準(zhǔn)確度和EAO 指標(biāo)明顯提升。經(jīng)分析,其原因是改進(jìn)了主干網(wǎng)絡(luò),提升了對(duì)目標(biāo)的外觀表征能力,從而有效提高了跟蹤精度,并減少了跟蹤丟失次數(shù)。改進(jìn)3的各項(xiàng)指標(biāo)與基線相近,是因?yàn)橹粚?duì)訓(xùn)練時(shí)的漂移采樣進(jìn)行了改進(jìn),用于提升訓(xùn)練速度,但對(duì)跟蹤性能的影響并不大。

        在目標(biāo)跟蹤基準(zhǔn)VOT2018 中,使用本文算法與當(dāng)前各種主流的跟蹤算法進(jìn)行了跟蹤實(shí)驗(yàn)對(duì)比。這里使用SiamRPN[14]、CSRDCF[27]和SA-Siam[28]的跟蹤實(shí)驗(yàn)數(shù)據(jù),以及ECO[29]、CFCF[30]、CFWCR[31]和LSART[32]的數(shù)據(jù)?;€SiamΜask 的實(shí)驗(yàn)數(shù)據(jù),是由官方代碼訓(xùn)練得到網(wǎng)絡(luò)模型,然后進(jìn)行評(píng)估實(shí)驗(yàn)得到的。上述各算法在VOT2018中的各項(xiàng)性能評(píng)估指標(biāo),如表3所示。

        從表3 可以看出,本文算法的準(zhǔn)確度和EAO 分別為0.611、0.346,均明顯高于其余所有主流目標(biāo)跟蹤算法。魯棒性指標(biāo)為0.304,強(qiáng)于SiamRPN、CSRDCF、SiamΜask 和DaSiamRPN,但稍差于其余算法。跟蹤速度為63.26 frame/s,明顯高于CSRDCF與SA-Siam,完全滿足實(shí)時(shí)跟蹤目標(biāo)。經(jīng)分析,本文算法和基線SiamΜask相比,加深主干網(wǎng)絡(luò)參考特征圖深度,減少下采樣,融合多個(gè)層級(jí)參考特征圖,從而提取目標(biāo)更深度而豐富的外觀特征信息,有效提升目標(biāo)跟蹤精度。通過權(quán)衡正負(fù)錨點(diǎn),使網(wǎng)絡(luò)均衡、高效地學(xué)習(xí)目標(biāo)特征,提高了目標(biāo)跟蹤性能。本文算法的準(zhǔn)確度、魯棒性和EAO 指標(biāo)均明顯優(yōu)于基線SiamΜask,雖然對(duì)主干網(wǎng)絡(luò)的一系列改進(jìn)使跟蹤速度略有下降,但是在有效提升跟蹤性能的同時(shí),完全滿足跟蹤實(shí)時(shí)性要求。對(duì)比實(shí)驗(yàn)結(jié)果表明,本文算法性能優(yōu)于當(dāng)前主流的目標(biāo)跟蹤算法。

        表3 主流跟蹤算法在VOT2018的評(píng)估結(jié)果

        4 結(jié)束語

        本文提出了特征融合與訓(xùn)練加速的高效目標(biāo)跟蹤。增加ResNet-50 主干網(wǎng)絡(luò)的Conv5 卷積階段,減少Conv3至Conv5階段下采樣,融合Conv4、Conv5階段參考特征圖,從而提取目標(biāo)更豐富、深度的特征信息,并保證了參考特征圖具有較高分辨率,提升了目標(biāo)跟蹤準(zhǔn)確度和魯棒性。經(jīng)過深度互相關(guān)操作得到RoWs,在其中構(gòu)建RPN 網(wǎng)絡(luò),通過權(quán)衡正、負(fù)錨點(diǎn)數(shù)量,使得網(wǎng)絡(luò)更加均衡、高效地學(xué)習(xí)目標(biāo)與背景的特征信息,讓孿生網(wǎng)絡(luò)性能更加高效、穩(wěn)定。大型數(shù)據(jù)集訓(xùn)練孿生網(wǎng)絡(luò)時(shí),對(duì)目標(biāo)圖像塊采用均勻滑動(dòng)漂移采樣,代替SiamΜask的隨機(jī)漂移采樣算法,在有效抑制中心偏置現(xiàn)象的同時(shí),顯著加快訓(xùn)練速度。本文目標(biāo)跟蹤模型在大型數(shù)據(jù) 集COCO2017、ImageNet2015-VID 和YouTube-VOS 2018上,經(jīng)端到端訓(xùn)練得到,在目標(biāo)跟蹤基準(zhǔn)VOT2018上的評(píng)估實(shí)驗(yàn)結(jié)果表明,與所有參考的主流目標(biāo)跟蹤算法相比,本文算法具有最佳跟蹤性能。下一步的工作將引入注意力機(jī)制,從而進(jìn)一步提升算法跟蹤精度。

        猜你喜歡
        分支深度函數(shù)
        二次函數(shù)
        第3講 “函數(shù)”復(fù)習(xí)精講
        二次函數(shù)
        深度理解一元一次方程
        函數(shù)備考精講
        巧分支與枝
        深度觀察
        深度觀察
        深度觀察
        一類擬齊次多項(xiàng)式中心的極限環(huán)分支
        国产肉体XXXX裸体784大胆| 欧美精品无码一区二区三区| 大地资源在线影视播放| 色妞ww精品视频7777| 乱码一二三入区口| 无码专区亚洲avl| 亚洲发给我的在线视频| 青青草小视频在线播放| 99无码熟妇丰满人妻啪啪| 少妇性l交大片| 亚洲VA欧美VA国产VA综合| 国产肥熟女视频一区二区三区| 91精品人妻一区二区三区水蜜桃| 99re6在线视频精品免费| 日本老熟妇乱| 精品国产午夜福利在线观看| 女同另类激情在线三区| 亚洲精彩av大片在线观看| 性人久久久久| 国产免费av片在线播放| 人妻AV无码一区二区三区奥田咲| 久久伊人网久久伊人网| 日本不卡一区二区三区久久精品| 欧美激情一区二区三区成人 | 性色av浪潮av色欲av| 色两性网欧美| 偷拍av一区二区三区| 免费观看人妻av网站| 亚洲中文字幕久久精品无码a| 亚洲人成绝费网站色www| 国产av无码专区亚洲草草| 少妇太爽高潮在线播放| 国产人成视频在线视频| 欧美黑人性暴力猛交喷水黑人巨大 | 大地资源高清在线视频播放| 曰批免费视频播放免费直播 | 在线无码免费看黄网站| 亚洲精品中文字幕不卡| 亚洲精品无码专区在线在线播放| 中国丰满熟妇av| 久天啪天天久久99久孕妇|