亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        視頻目標(biāo)跟蹤算法綜述

        2022-07-21 03:23:18李蒙蒙鄭奇斌任小廣
        計(jì)算機(jī)與生活 2022年7期
        關(guān)鍵詞:尺度濾波文獻(xiàn)

        劉 藝,李蒙蒙,鄭奇斌,秦 偉,任小廣

        1.國防科技創(chuàng)新研究院,北京100071

        2.軍事科學(xué)院,北京100091

        視頻目標(biāo)跟蹤是計(jì)算機(jī)視覺領(lǐng)域的重要問題,指利用視頻或圖像序列的上下文信息,對(duì)目標(biāo)的外觀和運(yùn)動(dòng)信息進(jìn)行建模,從而對(duì)目標(biāo)運(yùn)動(dòng)狀態(tài)進(jìn)行預(yù)測并標(biāo)定位置的技術(shù)。視頻目標(biāo)跟蹤在視頻監(jiān)控、無人駕駛等實(shí)際環(huán)境中有著廣泛的應(yīng)用。盡管近年來關(guān)于視頻目標(biāo)跟蹤算法的研究取得了很大的進(jìn)展,但是由于跟蹤目標(biāo)的外觀變化、尺寸變化、物體遮擋、運(yùn)動(dòng)模糊、跟蹤背景干擾等因素的影響,現(xiàn)有方法的效果仍未達(dá)到理想狀態(tài)。根據(jù)是否涉及背景環(huán)境,可以將視頻目標(biāo)跟蹤面臨的挑戰(zhàn)分為目標(biāo)自身因素和背景因素兩方面。目標(biāo)自身變化帶來的挑戰(zhàn)主要有外形變化、尺度變化、運(yùn)動(dòng)模糊和目標(biāo)旋轉(zhuǎn)等;除了目標(biāo)自身變化帶來的挑戰(zhàn),背景因素的影響也較為顯著,主要包括遮擋與消失、光照變化和相似背景干擾等。具體分類如圖1所示。

        圖1 視頻目標(biāo)跟蹤面臨的挑戰(zhàn)Fig. 1 Challenges of video object tracking

        按照跟蹤方法的不同,本文將視頻目標(biāo)跟蹤算法分為基于相關(guān)濾波的視頻目標(biāo)跟蹤算法和基于深度學(xué)習(xí)的視頻目標(biāo)跟蹤算法?;谙嚓P(guān)濾波的視頻目標(biāo)跟蹤算法在跟蹤的過程中主要利用相關(guān)濾波器計(jì)算模板圖像和預(yù)測圖像之間的相似度來確定目標(biāo)位置;而基于深度學(xué)習(xí)的視頻目標(biāo)跟蹤算法主要是通過訓(xùn)練深層網(wǎng)絡(luò)來學(xué)習(xí)目標(biāo)特征,完成視頻目標(biāo)跟蹤。相關(guān)濾波方法最早源自信號(hào)領(lǐng)域,旨在通過卷積操作判斷兩個(gè)信號(hào)的相似程度。文獻(xiàn)[5]首次將相關(guān)濾波引入到視頻目標(biāo)跟蹤問題中,提出了誤差平方和最小濾波器(minimum output sum of squared error,MOSSE)算法,之后基于相關(guān)濾波的算法逐漸成為了視頻目標(biāo)跟蹤領(lǐng)域的主流方法。但是,隨著AlexNet 網(wǎng)絡(luò)的提出,基于深度學(xué)習(xí)的視頻目標(biāo)跟蹤算法逐漸興起,近幾年受到了廣泛關(guān)注,已經(jīng)產(chǎn)生了很多性能優(yōu)異的算法模型。

        本文對(duì)視頻目標(biāo)跟蹤算法的研究做詳細(xì)的總結(jié),為從事視頻目標(biāo)跟蹤方面研究的學(xué)者了解相關(guān)領(lǐng)域的進(jìn)展提供參考。首先從核相關(guān)濾波算法、尺度自適應(yīng)相關(guān)濾波算法和多特征融合相關(guān)濾波算法三方面描述了基于相關(guān)濾波的視頻目標(biāo)跟蹤算法,從基于孿生網(wǎng)絡(luò)的視頻目標(biāo)跟蹤算法和基于卷積神經(jīng)網(wǎng)絡(luò)的視頻目標(biāo)跟蹤算法兩個(gè)角度總結(jié)了近幾年基于深度學(xué)習(xí)的視頻目標(biāo)跟蹤算法,然后概述了視頻目標(biāo)跟蹤領(lǐng)域常用的數(shù)據(jù)集和評(píng)價(jià)指標(biāo),最后總結(jié)了全文并探討了該領(lǐng)域未來的發(fā)展趨勢。

        1 基于相關(guān)濾波的視頻目標(biāo)跟蹤算法

        1.1 算法原理

        MOSSE 算法是最典型的基于相關(guān)濾波的視頻目標(biāo)跟蹤算法,其主要思想是將視頻目標(biāo)跟蹤問題抽象為模板圖像與候選區(qū)域的相似度匹配問題。該類算法在跟蹤過程中首先訓(xùn)練一個(gè)濾波器,然后利用該濾波器對(duì)候選區(qū)域的特征做卷積操作,輸出響應(yīng)值,響應(yīng)最大值在候選區(qū)域中對(duì)應(yīng)的位置即為跟蹤目標(biāo)下一幀所在位置。相關(guān)濾波算法的流程如下所示。

        (1)用邊界框在視頻第一幀中標(biāo)定跟蹤目標(biāo),生成模板圖像;

        (2)提取模板圖像的特征圖F;

        (3)利用高斯函數(shù)生成特征圖F的輸出響應(yīng)圖G;

        (5)后續(xù)圖像特征圖經(jīng)過傅里葉變換之后與相關(guān)濾波器相乘,結(jié)果進(jìn)行逆傅里葉變換,生成輸出響應(yīng)圖,獲得當(dāng)前幀跟蹤目標(biāo)的位置;

        (6)利用當(dāng)前幀的目標(biāo)位置訓(xùn)練更新相關(guān)濾波器,用于之后的預(yù)測。

        1.2 核相關(guān)濾波算法

        MOSSE 算法雖然具有669 frame/s 的實(shí)時(shí)速度,且針對(duì)亮度、尺寸和形狀等不嚴(yán)格的變形具有很好的魯棒性,但是也具有準(zhǔn)確度不高等缺陷。針對(duì)此問題,研究學(xué)者提出了一系列基于MOSSE算法的優(yōu)化策略與改進(jìn)算法,其中一類重要的改進(jìn)算法是基于核函數(shù)的相關(guān)濾波算法。

        文獻(xiàn)[7]針對(duì)MOSSE算法中訓(xùn)練樣本數(shù)量較少,容易產(chǎn)生過擬合的問題提出了CSK(circulant structure with kernels)算法,該算法在MOSSE算法的基礎(chǔ)上增加了正則化項(xiàng),采用循環(huán)矩陣進(jìn)行稠密采樣,有效解決了濾波器過擬合的問題;此外,該算法還引入了核技巧,提高了在高維空間中的分類速度。文獻(xiàn)[8]在CSK 算法的基礎(chǔ)上提出了KCF/DCF(kernelized/dual correlation filter)算法,該算法把視頻目標(biāo)跟蹤問題抽象為目標(biāo)檢測問題。首先利用嶺回歸方法訓(xùn)練了一個(gè)目標(biāo)檢測器,然后利用訓(xùn)練的目標(biāo)檢測器預(yù)測候選位置是否為下一幀目標(biāo)的位置。此外,該算法利用循環(huán)矩陣在傅里葉空間對(duì)角化的性質(zhì)將矩陣運(yùn)算轉(zhuǎn)化為向量的Hadamad 運(yùn)算(即元素的點(diǎn)乘),提高了算法的運(yùn)算速度;同時(shí)引入了高斯核函數(shù),將低維空間中的線性不可分問題轉(zhuǎn)化為高維空間中的線性可分問題。KCF/DCF算法進(jìn)一步引進(jìn)了基于多通道的方向梯度直方圖(histogram of oriented gradient,HOG)進(jìn)行特征提取,進(jìn)一步提升了算法的跟蹤精度。KCF/DCF算法雖然在跟蹤速度和跟蹤精度兩方面都有了很大改進(jìn),但是其對(duì)尺度變化較大的視頻目標(biāo)跟蹤效果不太理想,主要是由于其僅采用單一尺度的候選圖像。針對(duì)此問題,相關(guān)學(xué)者提出多尺度縮放策略用于解決尺度變化較大的視頻目標(biāo)跟蹤問題。

        近幾年,一些核相關(guān)濾波視頻目標(biāo)跟蹤算法也相繼被提出。文獻(xiàn)[13]針對(duì)KCF/DCF算法在目標(biāo)遮擋和尺度變化問題中的局限性提出了一個(gè)基于核相關(guān)濾波的魯棒跟蹤算法。該算法針對(duì)目標(biāo)遮擋問題提出了損失辨別和重定位策略,根據(jù)當(dāng)前幀和第一幀的相似度判定目標(biāo)是否被遮擋,當(dāng)目標(biāo)被遮擋時(shí),算法在一定范圍內(nèi)重新定位目標(biāo);此外,該算法針對(duì)尺度變化問題引入了多尺度濾波器以緩解目標(biāo)漂移問題。文獻(xiàn)[14]針對(duì)衛(wèi)星數(shù)據(jù)中目標(biāo)較小且目標(biāo)與背景相似的問題提出了一個(gè)混合核相關(guān)濾波算法(hybrid kernel correlation filter,HKCF)。該算法利用光流和方向梯度直方圖兩個(gè)互補(bǔ)的特征進(jìn)行自適應(yīng)融合以檢測目標(biāo)變化。文獻(xiàn)[15]為了提高視頻目標(biāo)跟蹤算法在遇到背景雜波、遮擋等問題時(shí)的魯棒性,提出了一種基于自適應(yīng)更新策略和再檢測技術(shù)的關(guān)聯(lián)跟蹤算法。該算法的自適應(yīng)更新策略根據(jù)跟蹤結(jié)果的置信度自適應(yīng)調(diào)整模板更新系數(shù),當(dāng)目標(biāo)遭受遮擋時(shí),利用再檢測策略對(duì)目標(biāo)進(jìn)行重新檢測,不僅降低了目標(biāo)漂移概率,還提高了算法的糾錯(cuò)能力。

        1.3 尺度自適應(yīng)相關(guān)濾波算法

        在跟蹤過程中由于目標(biāo)與相機(jī)的距離經(jīng)常發(fā)生變化導(dǎo)致跟蹤目標(biāo)尺度不一。為適應(yīng)目標(biāo)尺度縮放的問題,文獻(xiàn)[10]提出的SAMF(scale adaptive with multiple features tracker)算法提出了尺度池策略,其主要思想是對(duì)候選區(qū)域的目標(biāo)做七個(gè)尺度的縮放,再與上一幀樣本進(jìn)行匹配,選擇相似度最高的候選區(qū)域作為最終的跟蹤目標(biāo)。尺度池策略的引入使得算法能夠在小范圍內(nèi)實(shí)現(xiàn)尺度自適應(yīng),提高了跟蹤精度。文獻(xiàn)[11]提出的DSST(discriminative scale space tracker)算法將視頻目標(biāo)跟蹤看成平移跟蹤和尺度跟蹤兩個(gè)問題,算法除了訓(xùn)練平移濾波器之外,還訓(xùn)練了尺度濾波器以解決目標(biāo)尺度變化的問題。尺度濾波器以目標(biāo)位置為中心進(jìn)行空間位置采樣,距離原始目標(biāo)越近抽樣越精細(xì),獲得33 個(gè)不同尺度的樣本。文獻(xiàn)[12]在DSST算法的基礎(chǔ)上提出了一種魯棒的旋轉(zhuǎn)估計(jì)算法。該算法基于等角度間隔策略在目標(biāo)中心區(qū)域進(jìn)行采樣,并訓(xùn)練角度濾波器,結(jié)合DSST 算法中的平移濾波器和尺度濾波器形成了一個(gè)由三層濾波器組成的跟蹤器,實(shí)現(xiàn)了對(duì)旋轉(zhuǎn)目標(biāo)的精確跟蹤。

        結(jié)合卷積神經(jīng)網(wǎng)絡(luò)深層特征的相關(guān)濾波跟蹤算法具有較好的跟蹤性能,但是無殘差的卷積神經(jīng)網(wǎng)絡(luò)深層特征缺乏目標(biāo)局部信息,容易受到相似物和背景噪聲的影響。針對(duì)此問題,文獻(xiàn)[16]提出尺度自適應(yīng)的視頻目標(biāo)跟蹤算法。該算法從ResNet網(wǎng)絡(luò)的不同層提取特征生成響應(yīng)圖,然后基于AdaBoost 算法進(jìn)行融合,再利用尺度濾波器估計(jì)目標(biāo)尺寸,實(shí)現(xiàn)準(zhǔn)確跟蹤。文獻(xiàn)[17]提出了一種可變尺度因子學(xué)習(xí)方法,該方法克服了常用的多尺度搜索方法中固定尺度因子的局限性,其次使用多尺度縱橫比方法替換固定尺度縱橫比方法進(jìn)一步緩解目標(biāo)尺度變化問題。

        尺度池策略和尺度自適應(yīng)方法的提出使得基于相關(guān)濾波的視頻目標(biāo)跟蹤算法在目標(biāo)尺度縮放、目標(biāo)外觀變化等挑戰(zhàn)下的跟蹤精度得到較大提升,但是如何得到一個(gè)合適的尺度濾波器對(duì)候選圖像進(jìn)行采樣仍是該領(lǐng)域面臨的難題。

        1.4 多特征融合相關(guān)濾波算法

        文獻(xiàn)[18]認(rèn)為提取合適的特征能夠顯著提升模型的跟蹤效果。因此,通過多特征融合的方法來提高視頻目標(biāo)跟蹤精度成為了當(dāng)下研究的熱點(diǎn)。

        在早期的視頻目標(biāo)跟蹤算法中,主要采用顏色直方圖或者單通道的灰度特征來辨別目標(biāo)。該類方法簡單高效,但是學(xué)習(xí)到的目標(biāo)信息較少,跟蹤精度較低。為了提高算法跟蹤精度,文獻(xiàn)[7-8,11]采用了HOG 特征,該特征是在圖像的局部方格單元上進(jìn)行操作,對(duì)圖像幾何變化和光照變化都具有較好的魯棒性。文獻(xiàn)[21]將RGB 三通道細(xì)化為11 種顏色,在跟蹤過程中將11 維顏色特征降為兩維,自適應(yīng)選擇顏色特征。文獻(xiàn)[22-24]則根據(jù)不同的顏色特征方法進(jìn)行視頻目標(biāo)跟蹤。

        自深度學(xué)習(xí)快速發(fā)展以來,基于深度特征的相關(guān)濾波跟蹤算法得到了廣泛的研究和發(fā)展。文獻(xiàn)[25]將SRDCF(spatially regularized discriminative correlation filters)算法中的傳統(tǒng)手工特征替換為基于卷積神經(jīng)網(wǎng)絡(luò)的深度特征,提出了deepSRDCF算法,取得了較好的跟蹤效果。C-COT(continuous convolution operator tracker)算法結(jié)合深度特征和傳統(tǒng)的手工特征共同進(jìn)行跟蹤。首先采用深度網(wǎng)絡(luò)VGGNet進(jìn)行特征提取,然后將提取的深度特征與HOG 和顏色直方圖等手工特征進(jìn)行融合實(shí)現(xiàn)視頻目標(biāo)跟蹤,深淺層特征的融合顯著提升了算法的跟蹤精度。

        采用深層特征的視頻目標(biāo)跟蹤算法雖然在性能上得到了顯著的提升,但是跟蹤速度卻明顯地下降。針對(duì)此問題,ECO(efficient convolution operators)算法深入分析了影響算法速度的三個(gè)主要原因:模型復(fù)雜度、訓(xùn)練集尺寸和模型更新策略。并針對(duì)不同的原因提出了相應(yīng)的解決方案:(1)跟蹤過程中僅選擇貢獻(xiàn)較大的濾波器進(jìn)行線性組合,減少模型參數(shù),實(shí)現(xiàn)快速跟蹤;(2)去除冗余樣本,簡化訓(xùn)練集;(3)提出間隔N幀更新一次模型,提升算法的實(shí)時(shí)性。針對(duì)當(dāng)前的跟蹤算法僅使用深度網(wǎng)絡(luò)中淺層特征的問題,UPDT(unveiling the power of deep tracking)算法系統(tǒng)地闡述了深層和淺層特征對(duì)視頻目標(biāo)跟蹤的影響,并指出深層特征能提升網(wǎng)絡(luò)的魯棒性,淺層特征能獲得更好的定位精度,提出了一種深淺層特征自適應(yīng)融合的跟蹤算法。深層和淺層特征的優(yōu)缺點(diǎn)如表1所示。文獻(xiàn)[31]針對(duì)基于深度互相關(guān)操作的視頻目標(biāo)跟蹤算法容易被相似物干擾且對(duì)目標(biāo)邊界的辨別能力較弱等問題提出了一種可學(xué)習(xí)模塊,稱為不對(duì)稱卷積模型(asymmetric convolution module,ACM)。ACM 可以在大規(guī)模數(shù)據(jù)的離線訓(xùn)練中學(xué)習(xí)如何更好地捕捉語義相關(guān)信息,有效地融合目標(biāo)和搜索區(qū)域中不同尺寸的特征圖,結(jié)合先驗(yàn)信息和視覺特征,可以很容易地集成到現(xiàn)有跟蹤器中,具有較好的泛化性能。

        表1 深層特征與淺層特征的對(duì)比Table 1 Comparison of deep and shallow features

        多特征融合算法的提出顯著提升了基于相關(guān)濾波視頻目標(biāo)跟蹤算法的跟蹤精度和魯棒性,尤其是傳統(tǒng)手工特征和深層特征的融合,使得在運(yùn)動(dòng)模糊、目標(biāo)旋轉(zhuǎn)等復(fù)雜情況下視頻目標(biāo)跟蹤算法的魯棒性也能得到較大提升。

        1.5 算法對(duì)比

        基于相關(guān)濾波的算法是視覺目標(biāo)跟蹤領(lǐng)域中發(fā)展較為成熟的一類算法,具有速度快、精度高等優(yōu)點(diǎn),但是該類算法通常采用手工淺層特征,因此魯棒性較差。現(xiàn)對(duì)典型的基于相關(guān)濾波的視頻目標(biāo)跟蹤算法進(jìn)行簡單對(duì)比,如表2所示。

        表2 基于相關(guān)濾波的視頻目標(biāo)跟蹤算法Table 2 Video object tracking algorithms based on correlation filter

        2 基于深度學(xué)習(xí)的視頻目標(biāo)跟蹤算法

        2.1 基于孿生網(wǎng)絡(luò)的視頻目標(biāo)跟蹤算法

        基于孿生網(wǎng)絡(luò)的視頻目標(biāo)跟蹤算法自提出以來得到了研究學(xué)者們的廣泛關(guān)注。孿生網(wǎng)絡(luò)架構(gòu)如圖2所示,輸入1和輸入2分別代表模板圖像和搜索區(qū)域圖像,經(jīng)過兩個(gè)結(jié)構(gòu)相同、參數(shù)共享的子網(wǎng)絡(luò)之后生成相應(yīng)的特征圖,然后通過計(jì)算生成兩個(gè)圖像的相似度。由于孿生網(wǎng)絡(luò)可以進(jìn)行離線訓(xùn)練,可以使用大規(guī)模的圖像數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,很好地緩解了視頻目標(biāo)跟蹤領(lǐng)域中訓(xùn)練樣本數(shù)量較少的問題。

        圖2 孿生網(wǎng)絡(luò)架構(gòu)Fig. 2 Architecture of siamese network

        SiamFC(fully-convolutional siamese networks)算法是由Bertinetto等人提出的全卷積孿生網(wǎng)絡(luò)。它首次將孿生網(wǎng)絡(luò)引入到視頻目標(biāo)跟蹤領(lǐng)域,把視頻目標(biāo)跟蹤問題轉(zhuǎn)化為圖像匹配問題,通過選擇與模板圖像最相似的候選圖像實(shí)現(xiàn)對(duì)目標(biāo)的跟蹤。

        SiamFC網(wǎng)絡(luò)的兩個(gè)輸入分別為模板圖像和搜索區(qū)域。其中模板圖像通常是視頻第一幀選定的跟蹤目標(biāo),跟蹤期間模板圖像不進(jìn)行更新;搜索區(qū)域一般以上一幀目標(biāo)所在位置為中心選出固定尺寸大小的區(qū)域。在跟蹤過程時(shí),算法對(duì)目標(biāo)圖像進(jìn)行多種尺度縮放,并以不同尺寸的滑動(dòng)窗口在整個(gè)搜索區(qū)域進(jìn)行滑動(dòng)匹配。兩個(gè)分支骨干網(wǎng)的結(jié)構(gòu)相同,參數(shù)共享,骨干網(wǎng)對(duì)兩個(gè)輸入進(jìn)行相同的變換后,將提取的特征圖送入到相似性度量函數(shù)中,利用式(1)得到相似度。

        其中,一般為卷積操作,()為卷積核。

        SiamFC 算法雖然具有實(shí)時(shí)的跟蹤速度,但是跟蹤精度并不理想,主要原因在于SiamFC算法并不能較好地處理目標(biāo)尺度變化問題。因此,為了更精確地跟蹤目標(biāo),文獻(xiàn)[33]在SiamFC 算法的基礎(chǔ)上提出了SiamRPN(siamese region proposal network)算法。SiamRPN 算法引入了候選區(qū)域生成網(wǎng)絡(luò)(region proposal network,RPN)模塊。該模塊取代了傳統(tǒng)的多尺度檢測方法,實(shí)現(xiàn)了高精度跟蹤。RPN 網(wǎng)絡(luò)架構(gòu)有兩個(gè)分支:分類分支和回歸分支。分類分支用于區(qū)分目標(biāo)和背景,實(shí)現(xiàn)對(duì)目標(biāo)的檢測分類;回歸分支用于對(duì)目標(biāo)邊界框回歸預(yù)測,實(shí)現(xiàn)對(duì)目標(biāo)的精確定位。SiamMask算法把視頻目標(biāo)跟蹤與實(shí)例分割結(jié)合起來,在SiamRPN 算法的基礎(chǔ)上對(duì)RPN 模塊進(jìn)行了擴(kuò)展,增加了目標(biāo)二值掩碼分支,該分支通過一個(gè)兩層神經(jīng)網(wǎng)絡(luò)得到目標(biāo)的實(shí)時(shí)像素級(jí)標(biāo)注信息,進(jìn)一步完成目標(biāo)的精確定位。C-RPN(siamese cascaded region proposal networks)算法利用特征轉(zhuǎn)換模塊融合多層特征,并將融合后的特征圖輸入到不同的RPN 模塊中,采用多RPN 模塊級(jí)聯(lián)的方式進(jìn)行候選區(qū)域選擇,該方法不僅可以充分利用深層特征和淺層特征,還可以精確地計(jì)算目標(biāo)邊界框、定位目標(biāo)。SPM-Tracker(series-parallel matching tracker)算法將視頻目標(biāo)跟蹤分為兩個(gè)階段:粗略匹配階段和精細(xì)匹配階段。粗略匹配階段采用SiamRPN 網(wǎng)絡(luò),分離目標(biāo)和相似干擾物;精細(xì)匹配階段通過兩層全連接網(wǎng)絡(luò)分類相似物體,選出真正的目標(biāo)。文獻(xiàn)[37]在SiamFC 的基礎(chǔ)上提出了一種融合注意力機(jī)制的孿生網(wǎng)絡(luò)視頻目標(biāo)跟蹤算法。該算法通過融合注意力機(jī)制,由神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模板圖像的通道相關(guān)性和空間相關(guān)性,增大前景貢獻(xiàn),抑制背景特征,提升網(wǎng)絡(luò)對(duì)目標(biāo)特征的辨別力。文獻(xiàn)[38]針對(duì)SiamFC在嚴(yán)重遮擋、旋轉(zhuǎn)、光照變化和尺度變化等情況下容易造成跟蹤失敗的問題,提出了一種融合擾動(dòng)感知模型的孿生神經(jīng)網(wǎng)絡(luò)視頻目標(biāo)跟蹤算法。該算法將孿生網(wǎng)絡(luò)提取的淺層特征和深層語義特征進(jìn)行有效融合,提高了特征表征能力;此外,該算法引入了顏色直方圖特征的擾動(dòng)感知模型,通過加權(quán)融合的方式獲得目標(biāo)響應(yīng)圖,以此來實(shí)現(xiàn)目標(biāo)跟蹤。

        為了進(jìn)一步提升算法的跟蹤速度,文獻(xiàn)[39]提出了一種目標(biāo)感知模塊,并將其與SiamFC 框架結(jié)合。目標(biāo)感知模塊選擇當(dāng)前跟蹤目標(biāo)所需通道,同時(shí)去除非必要的通道,提高了跟蹤速度。為了降低目標(biāo)漂移概率,DaSiamRPN(distractor-aware siamese region proposal network)算法提出了干擾物感知模型,降低了目標(biāo)漂移到相似干擾物的概率;同時(shí)提出了局部-全局搜索策略,當(dāng)目標(biāo)跟蹤失敗時(shí),以目標(biāo)消失位置為中心重新檢測目標(biāo),實(shí)現(xiàn)長時(shí)跟蹤。DSiam(dynamic siamese network)算法提出了動(dòng)態(tài)孿生網(wǎng)絡(luò),在SiamFC架構(gòu)上增加了形變學(xué)習(xí)層,利用視頻前幾幀圖像學(xué)習(xí)目標(biāo)外觀變化,抑制背景噪聲干擾,提升長時(shí)跟蹤精度。DCFNet(discriminant correlation filters network)算法提出了一種輕量級(jí)的端到端網(wǎng)絡(luò)架構(gòu)。首先利用預(yù)訓(xùn)練的卷積網(wǎng)絡(luò)進(jìn)行特征提取,然后利用相關(guān)濾波器層進(jìn)行目標(biāo)匹配和跟蹤。為了降低跟蹤成本,該架構(gòu)將卷積層設(shè)置成輕量級(jí)的網(wǎng)絡(luò),將相關(guān)濾波器層的計(jì)算轉(zhuǎn)換到傅里葉頻域中進(jìn)行。在測試階段,DCFNet的跟蹤速度可達(dá)60 frame/s,實(shí)現(xiàn)了實(shí)時(shí)跟蹤。CFNet(correlation filter network)算法提出一個(gè)非對(duì)稱的網(wǎng)絡(luò)架構(gòu),首先“訓(xùn)練圖像”和“測試圖像”經(jīng)過相同的卷積層進(jìn)行特征變換,然后“訓(xùn)練圖像”通過相關(guān)濾波操作學(xué)習(xí)線性模板,通過互相關(guān)操作對(duì)“測試圖像”進(jìn)行搜索,最后通過實(shí)驗(yàn)證明兩層的CFNet可以較好地平衡跟蹤精度和跟蹤速度,在跟蹤精度較理想的情況下,跟蹤速度可以達(dá)到75 frame/s。文獻(xiàn)[45]針對(duì)跟蹤目標(biāo)在平面內(nèi)旋轉(zhuǎn)的問題展開研究,提出了旋轉(zhuǎn)等變孿生網(wǎng)絡(luò)(rotation-equivariant siamese networks,RE-SiamNets),以無監(jiān)督的方式估計(jì)目標(biāo)旋轉(zhuǎn)方向變化,促進(jìn)算法跟蹤性能。文獻(xiàn)[46]針對(duì)現(xiàn)有視頻目標(biāo)跟蹤算法目標(biāo)邊界框精度不高,且算法耦合嚴(yán)重、各階段難以移植的問題提出了一種精確通用的跟蹤模塊,稱為AR(alpha-refine)。該模塊以孿生網(wǎng)絡(luò)架構(gòu)為基礎(chǔ),兩個(gè)分支分別對(duì)模板圖像和測試圖像進(jìn)行特征提取,然后利用相關(guān)模塊進(jìn)行特征融合,在跟蹤過程中將邊界框設(shè)定為目標(biāo)尺寸的2倍。比普通跟蹤器更小的邊界框可以讓跟蹤器更關(guān)注目標(biāo)空間信息,有利于精確定位。該模塊輕量級(jí)的設(shè)計(jì)降低了跟蹤成本,但具體效能仍與完整的跟蹤框架相關(guān)。

        跟蹤算法中使用的孿生子網(wǎng)絡(luò)相對(duì)較淺,目標(biāo)信息利用率不高,若直接將子網(wǎng)絡(luò)替換為深度網(wǎng)絡(luò),算法性能也并不能得到顯著提升,這主要是由于深度網(wǎng)絡(luò)一般都具有填充操作,但是在跟蹤過程中填充操作將引入目標(biāo)位置偏差,影響跟蹤效果。針對(duì)此問題,文獻(xiàn)[47]提出了內(nèi)部裁剪殘差單元來增強(qiáng)SiamRPN 的性能,該方法刪除了受填充操作影響的特征,把深度網(wǎng)絡(luò)有效地應(yīng)用到了視頻目標(biāo)跟蹤領(lǐng)域。文獻(xiàn)[48]提出了具有空間感知采樣策略的SiamRPN++算法,該策略較好地解決了填充操作帶來的負(fù)面影響,同時(shí)采用了多SiamRPN級(jí)聯(lián)策略,增強(qiáng)了算法的判別能力。

        為了更加充分地利用孿生網(wǎng)絡(luò)對(duì)稱性的優(yōu)勢,SASiam(semantic features and appearance features siamese network)算法提出了基于雙重孿生網(wǎng)絡(luò)的視頻目標(biāo)跟蹤算法。該算法由語義分支對(duì)和外觀分支對(duì)組成,語義分支對(duì)生成的語義特征用于圖像分類,外觀分支對(duì)生成的外觀特征用于相似度匹配。SiamBM(better match in siamese network)算法在SA-Siam算法的基礎(chǔ)上添加了旋轉(zhuǎn)角度模塊來預(yù)測目標(biāo)的旋轉(zhuǎn)。SA-Siam++算法提出了一種基于語義和外觀雙分支孿生網(wǎng)絡(luò)的跟蹤方法,雙分支網(wǎng)絡(luò)分別是通過沙漏-通道注意力機(jī)制提取語義信息的語義分支網(wǎng)絡(luò)和采用SiamFC 算法提取外觀特征的外觀分支網(wǎng)路,提高了算法的跟蹤性能。

        近幾年,基于孿生網(wǎng)絡(luò)的算法由于其思想簡單,架構(gòu)可伸縮,在視頻目標(biāo)跟蹤領(lǐng)域取得了快速的發(fā)展。該類算法在跟蹤速度較為可觀的情況下,有效提升了跟蹤器對(duì)背景和相似干擾物的辨別能力,是視頻目標(biāo)跟蹤領(lǐng)域未來研究的重點(diǎn)。

        2.2 基于卷積神經(jīng)網(wǎng)絡(luò)的視頻目標(biāo)跟蹤算法

        文獻(xiàn)[52]提出了一種基于深度學(xué)習(xí)的支持向量機(jī)算法(deep learning support vector machines,DLSVM),該算法利用圖像識(shí)別領(lǐng)域預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)對(duì)目標(biāo)進(jìn)行特征提取,利用支持向量機(jī)分類器進(jìn)行跟蹤。該算法由于不需要大量訓(xùn)練樣本學(xué)習(xí)網(wǎng)絡(luò)模型,因此在一定程度上提高了算法的執(zhí)行效率,但是直接將圖像識(shí)別領(lǐng)域的神經(jīng)網(wǎng)絡(luò)應(yīng)用到視頻目標(biāo)跟蹤領(lǐng)域中并不能達(dá)到預(yù)期效果,主要原因在于圖像分類關(guān)注類間差異,忽視類內(nèi)區(qū)別,而視頻目標(biāo)跟蹤關(guān)注目標(biāo)實(shí)例與背景間的差異,同時(shí)需要消除同類別其他實(shí)例物體的干擾。針對(duì)此問題,文獻(xiàn)[53]提出了針對(duì)視頻目標(biāo)跟蹤的多域卷積神經(jīng)網(wǎng)絡(luò)(multi-domain network,MDNet)。MDNet 網(wǎng)絡(luò)最終生成一個(gè)二維向量分別表示該邊界框中物體為目標(biāo)或者背景的概率,該網(wǎng)絡(luò)架構(gòu)較小,參數(shù)較少,具有很好的實(shí)時(shí)性。文獻(xiàn)[54]提出了一種基于樹狀結(jié)構(gòu)的CNN跟蹤算法。該算法在樹狀結(jié)構(gòu)的不同分支中維護(hù)多個(gè)CNN 網(wǎng)絡(luò),并對(duì)CNN網(wǎng)絡(luò)生成的結(jié)果進(jìn)行加權(quán)平均來估計(jì)目標(biāo)外觀的變化。文獻(xiàn)[55]針對(duì)MDNet 算法采樣密集的問題提出了行為驅(qū)動(dòng)策略,通過捕獲目標(biāo)的運(yùn)動(dòng)信息,搜索高質(zhì)量的候選樣本,提高算法泛化性能。

        SANet(structure-aware network)算法結(jié)合了CNN和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN),其中CNN負(fù)責(zé)類間判別,區(qū)分目標(biāo)類與背景,RNN負(fù)責(zé)類內(nèi)選擇,區(qū)分目標(biāo)實(shí)例與相似干擾物。Siam R-CNN(siamese R-CNN)算法結(jié)合了孿生網(wǎng)絡(luò)和Faster RCNN,孿生網(wǎng)絡(luò)用于特征提取,F(xiàn)aster R-CNN 用于候選區(qū)域生成。ATOM(accurate tracking by overlap maximization)算法結(jié)合了兩層深度回歸網(wǎng)絡(luò)和IoUNet網(wǎng)絡(luò)(intersection-over-union network),前者用于目標(biāo)粗略定位,生成候選區(qū)域,后者用于目標(biāo)精細(xì)定位和尺度估計(jì)。文獻(xiàn)[60]針對(duì)現(xiàn)有跟蹤器網(wǎng)絡(luò)架構(gòu)越來越龐大、跟蹤代價(jià)越來越高昂,在資源有限的應(yīng)用中部署越來越受限的問題,提出一種輕量級(jí)的神經(jīng)網(wǎng)絡(luò)跟蹤架構(gòu)(LightTrack)。該架構(gòu)使用神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(neural architecture search)方法自動(dòng)設(shè)計(jì)輕量級(jí)模型,首先將所有可能的架構(gòu)編碼為骨干超網(wǎng)絡(luò)和頭部超網(wǎng)絡(luò),骨干超網(wǎng)絡(luò)在ImageNet 數(shù)據(jù)集上進(jìn)行訓(xùn)練,然后利用測試數(shù)據(jù)進(jìn)行微調(diào),而頭部超網(wǎng)絡(luò)則直接使用測試數(shù)據(jù)進(jìn)行訓(xùn)練。所有超網(wǎng)絡(luò)只訓(xùn)練一次,然后每個(gè)候選架構(gòu)直接從超網(wǎng)絡(luò)中繼承權(quán)重。此外,該算法構(gòu)建了新的搜索空間,促使算法搜索更緊湊的神經(jīng)架構(gòu)。該算法在跟蹤性能和計(jì)算成本之間取得了較好的平衡。

        基于卷積神經(jīng)網(wǎng)絡(luò)的視頻目標(biāo)跟蹤算法雖然可以利用不同的網(wǎng)絡(luò)架構(gòu)提取不同深度的目標(biāo)特征,但是由于網(wǎng)絡(luò)架構(gòu)龐大,模型參數(shù)較多,該類算法的跟蹤代價(jià)通常較大,因此輕量級(jí)的跟蹤模型具有十分重要的研究意義。

        3 視頻目標(biāo)跟蹤常用數(shù)據(jù)集和評(píng)價(jià)指標(biāo)

        3.1 視頻目標(biāo)跟蹤常用數(shù)據(jù)集

        隨著對(duì)視頻目標(biāo)跟蹤算法的深入研究,傳統(tǒng)的數(shù)據(jù)集已經(jīng)不能有效地評(píng)估算法的綜合性能,為此,研究人員提出了更多高質(zhì)量的數(shù)據(jù)集。這些數(shù)據(jù)集除了能夠有效評(píng)估算法的性能,也進(jìn)一步推動(dòng)了視頻目標(biāo)跟蹤領(lǐng)域的發(fā)展。下面總結(jié)該領(lǐng)域常用的數(shù)據(jù)集及其特點(diǎn)。表3按照時(shí)間線給出了常用視頻目標(biāo)跟蹤數(shù)據(jù)集的信息,其中數(shù)據(jù)集包括:OTB-2013、OTB-2015、VOT2013、VOT2014、VOT2015、V0T2016、VOT2017、VOT2018、VOT2019、UAV123、UAV20L、TrackingNet、GOT-10K、LaSOT。

        表3 視頻目標(biāo)跟蹤領(lǐng)域常用數(shù)據(jù)集Table 3 Datasets widely used in field of video object tracking

        3.2 視頻目標(biāo)跟蹤評(píng)價(jià)指標(biāo)

        隨著數(shù)據(jù)集的不斷更新,更加準(zhǔn)確高效的評(píng)價(jià)指標(biāo)也在不斷完善,優(yōu)異的評(píng)價(jià)指標(biāo)可以更加公平客觀地反映算法的優(yōu)劣。在視頻目標(biāo)跟蹤算法中最常用的評(píng)價(jià)指標(biāo)為精確度、交并比、成功率和跟蹤速度等。

        精確度(precision plot)主要評(píng)估的是目標(biāo)中心位置誤差,指跟蹤目標(biāo)中心位置與目標(biāo)真值中心位置之間的平均歐氏距離小于給定閾值的視頻幀占整個(gè)視頻序列幀數(shù)的百分比,公式如式(2)所示。

        其中,是視頻序列長度,為跟蹤目標(biāo)與目標(biāo)真值之間的距離誤差,為設(shè)定的閾值。跟蹤精度雖然能直觀地反映算法的優(yōu)劣,但是不能很好地處理目標(biāo)尺寸發(fā)生變化的情況。因此,在OTB 數(shù)據(jù)集中同時(shí)采用了成功率指標(biāo)。

        成功率(success plot)主要依據(jù)的是交并比,指當(dāng)某一幀圖像的交并比大于規(guī)定閾值時(shí),則認(rèn)為該幀跟蹤成功,跟蹤成功的幀數(shù)占整個(gè)視頻序列的百分比設(shè)置為成功率,公式如式(3)所示。

        其中,為某一幀的交并比,為設(shè)定的閾值。

        交并比(intersection over union,IoU)是指“預(yù)測圖像”與“目標(biāo)真值圖像”之間面積的交集與并集的比值,如式(4)和圖3所示。

        圖3 交并比計(jì)算圖Fig. 3 Calculation graph of IoU

        其中,和分別代表“預(yù)測圖像”和“目標(biāo)真值圖像”。

        成功率指標(biāo)可以很好地評(píng)估目標(biāo)尺寸變化情況,但是并不能很好地體現(xiàn)跟蹤目標(biāo)與目標(biāo)真值未重疊和目標(biāo)旋轉(zhuǎn)等問題。當(dāng)跟蹤目標(biāo)與目標(biāo)真值未重疊時(shí),簡單地認(rèn)為跟蹤失敗并不能提供有用信息,導(dǎo)致算法無法在下一幀作出有效改進(jìn);當(dāng)目標(biāo)發(fā)生旋轉(zhuǎn)時(shí),某一幀預(yù)測圖像與目標(biāo)真值重疊率很高,但是角度相差較大,此時(shí)回歸效果很差,卻被誤判為跟蹤成功,導(dǎo)致成功率不可信。針對(duì)以上問題,文獻(xiàn)[74]提出了GIoU(generalized intersection over union)指標(biāo),如式(5)所示。

        其中,代表包圍和的最小面積框。GIoU是指用傳統(tǒng)的IoU 減去“‘從中去除和的面積框’與‘’之間的比值”。該指標(biāo)通過引入同時(shí)覆蓋預(yù)測圖像和目標(biāo)真值圖像的最小封閉面積框,使得兩者即使不重疊,預(yù)測圖像也會(huì)逐漸移向目標(biāo)真值。

        視頻目標(biāo)跟蹤領(lǐng)域中算法的實(shí)時(shí)性很重要,通常用跟蹤速率(單位為frame/s)來評(píng)估算法實(shí)時(shí)性能。

        4 總結(jié)與展望

        盡管近些年視頻目標(biāo)跟蹤技術(shù)取得了快速發(fā)展,但是在復(fù)雜的應(yīng)用場景中,現(xiàn)有的視頻目標(biāo)跟蹤算法仍未取得理想效果?,F(xiàn)對(duì)視頻目標(biāo)跟蹤領(lǐng)域存在的問題進(jìn)行簡單總結(jié)與展望,希望可以為相關(guān)學(xué)者的研究提供思路。

        (1)基于相關(guān)濾波的視頻目標(biāo)跟蹤算法把視頻目標(biāo)跟蹤問題抽象為模板圖像與候選區(qū)域的相似度匹配問題,因此模板圖像的選擇更新策略對(duì)算法的跟蹤精度具有顯著影響,加大對(duì)模板圖像的關(guān)注和研究具有重要意義。

        (2)基于深度學(xué)習(xí)的視頻目標(biāo)跟蹤算法主要依托深度網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)視頻目標(biāo)跟蹤,因此網(wǎng)絡(luò)架構(gòu)的設(shè)計(jì)和構(gòu)建非常重要。網(wǎng)絡(luò)架構(gòu)較深會(huì)限制算法長時(shí)跟蹤性能,參數(shù)較多會(huì)降低算法跟蹤效率,耦合性較高會(huì)加大算法改進(jìn)優(yōu)化難度,因此,設(shè)計(jì)輕量級(jí)的、耦合性較低的視頻目標(biāo)跟蹤模塊或者算法具有較大現(xiàn)實(shí)意義和應(yīng)用價(jià)值。

        (3)現(xiàn)有的視頻目標(biāo)跟蹤數(shù)據(jù)集涵蓋的類別較多,視頻序列場景豐富,雖然可以綜合評(píng)估算法性能,但是不能針對(duì)性地評(píng)估應(yīng)用在某一具體領(lǐng)域的跟蹤算法。因此,為了更有效地評(píng)估實(shí)用可靠的跟蹤算法,根據(jù)具體應(yīng)用領(lǐng)域制作相應(yīng)的數(shù)據(jù)集和評(píng)價(jià)指標(biāo)具有一定的必要性。

        猜你喜歡
        尺度濾波文獻(xiàn)
        Hostile takeovers in China and Japan
        速讀·下旬(2021年11期)2021-10-12 01:10:43
        財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
        Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
        大東方(2019年12期)2019-10-20 13:12:49
        The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
        The Role and Significant of Professional Ethics in Accounting and Auditing
        商情(2017年1期)2017-03-22 16:56:36
        宇宙的尺度
        太空探索(2016年5期)2016-07-12 15:17:55
        RTS平滑濾波在事后姿態(tài)確定中的應(yīng)用
        基于線性正則變換的 LMS 自適應(yīng)濾波
        遙測遙控(2015年2期)2015-04-23 08:15:18
        9
        基于隨機(jī)加權(quán)估計(jì)的Sage自適應(yīng)濾波及其在導(dǎo)航中的應(yīng)用
        亚洲成人免费av影院| 国产成人av综合亚洲色欲| 91日本在线精品高清观看| 日本人妻高清免费v片| 久久99精品久久久久久琪琪| 精品无码中文字幕在线| 欧美人与禽交zozo| 蜜桃成人精品一区二区三区| 亚洲综合图色40p| 青青草原综合久久大伊人| 色www亚洲| 亚洲桃色蜜桃av影院| 国产日产亚洲系列最新| 亚洲av无码之日韩精品| 欧美zozo另类人禽交| 国产一区二区av在线免费观看| 夹得好湿真拔不出来了动态图| 日本午夜免费福利视频| 91尤物在线看| 国产情侣亚洲自拍第一页| 午夜精品久久久久久毛片| 欧美精品在线一区| 亚洲全国最大的人成网站| 可以免费看亚洲av的网站| 国产精品久久久久久久免费看 | 国产亚洲日本人在线观看| 极品夫妻一区二区三区| 国产精品久久久久久一区二区三区| 婷婷综合久久中文字幕蜜桃三电影 | av中文字幕少妇人妻| 视频一区视频二区自拍偷拍| av色欲无码人妻中文字幕| 亚洲天堂99| 在线一区二区三区免费视频观看| 中文字幕亚洲乱码成熟女1区| 亚洲日韩欧洲无码av夜夜摸| 国产亚洲欧美另类第一页| 精品国产黄一区二区三区| 无码一区二区三区亚洲人妻 | 国产精品成人一区二区不卡| 欧美黑人性暴力猛交喷水黑人巨大|