張 晶,黃浩淼
1.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明650500
2.云南省人工智能重點(diǎn)實(shí)驗(yàn)室(昆明理工大學(xué)),昆明650500
3.云南梟潤(rùn)科技服務(wù)有限公司,昆明650500
在計(jì)算機(jī)視覺領(lǐng)域中目標(biāo)跟蹤是研究的熱點(diǎn),并且在信息物理融合系統(tǒng)(cyber physical systems)的感知層中也得到了廣泛的應(yīng)用。然而對(duì)于目標(biāo)嚴(yán)重變化、快速移動(dòng)、長(zhǎng)時(shí)間遮擋后再出現(xiàn)等復(fù)雜場(chǎng)景下,跟蹤仍然面臨很大的挑戰(zhàn)性。因此,研究者提出了許多優(yōu)秀的判別式與生成式目標(biāo)跟蹤算法[1-2],比如引入循環(huán)矩陣和核概念的算法(circulant structure of tracking-by-detection with kernel,CSK)[3]首先對(duì)訓(xùn)練樣本中前景和背景進(jìn)行密集采樣,再由分類器循環(huán)移位樣本從而快速檢測(cè)出目標(biāo),提高了算法的速度,但由于只提取灰度特征,導(dǎo)致CSK 算法在復(fù)雜情景下不能更好體現(xiàn)目標(biāo)外觀模型,容易跟蹤失敗。CN(adaptive color attributes for real-time visual tracking)[4]提取多通道顏色信息經(jīng)過快速傅里葉變換與核函數(shù)映射,得出目標(biāo)最大響應(yīng)值,同時(shí)該算法使用PCA(principal component analysis)降維技術(shù)大大減少顏色維度,提高跟蹤的實(shí)時(shí)性,但也屏蔽了部分目標(biāo)信息,對(duì)于光照強(qiáng)度下魯棒性較差。KCF(high-speed tracking with kernelized correlation filters)[5]在CSK 的基礎(chǔ)上,提取多通道HOG(histogram of gradient)特征替換灰度特征,然后高斯核函數(shù)簡(jiǎn)化特征矩陣,提高算法的魯棒性,但目標(biāo)尺度發(fā)生變化后,跟蹤框容易漂移。DSST(discriminative scale space tracking)[6]構(gòu)建33 層金字塔特征向量,再由尺度濾波器求響應(yīng)值應(yīng)對(duì)目標(biāo)尺度變化,在解決目標(biāo)尺度變化問題的同時(shí)跟蹤精度也很高,但目標(biāo)快速運(yùn)動(dòng)環(huán)境下跟蹤效果不佳。以上相關(guān)濾波器算法在目標(biāo)快速運(yùn)動(dòng)跟蹤過程中,濾波器都容易因?yàn)檫吔缧?yīng)而導(dǎo)致跟蹤失敗。Kalal 等人提出了跟蹤與檢測(cè)結(jié)合的TLD(tracking learning detection)算法[7],該算法通過正負(fù)樣本在線學(xué)習(xí)機(jī)制檢測(cè)樣本,由TLD檢測(cè)器篩除錯(cuò)誤樣本,避免快速運(yùn)動(dòng)后邊界效應(yīng)的影響,但檢測(cè)器使用循環(huán)采樣矩形框的方式,降低了算法的實(shí)時(shí)性。Danelljan等提出空間約束相關(guān)濾波器(spatially regularized correlation filter,SRDCF)[8],構(gòu)建濾波器的過程中引入正則化因子,得到較大的檢測(cè)區(qū)域,提高邊界效應(yīng)中邊緣物體檢測(cè)的魯棒性,但在目標(biāo)完全遮擋時(shí)容易出現(xiàn)跟蹤丟失。在目標(biāo)嚴(yán)重形變、長(zhǎng)時(shí)期遮擋等復(fù)雜情景下,傳統(tǒng)跟蹤算法使用手工特征無(wú)法提取目標(biāo)高級(jí)的語(yǔ)義信息,容易跟蹤失敗,而深度學(xué)習(xí)方法能更優(yōu)地表述目標(biāo)特征,因此,Ma 等人提出了HCF(hierarchical convolutional features for visual tracking)[9]方法,根據(jù)分層卷積特征訓(xùn)練不同的相關(guān)濾波器,使用高層特征找到目標(biāo)所在的區(qū)域范圍,然后由粗到精通過低層特征實(shí)現(xiàn)精確定位,從而有效地結(jié)合卷積層的空間位置信息,但在遮擋和物體變形的情況下魯棒性較差。Nam 等人提出TCNN(tree convolutional neural network)[10]方法,使用樹形的結(jié)構(gòu)管理具有CNN(convolutional neural network)特征的目標(biāo)外觀模型,通過加權(quán)平均模型的候選框預(yù)測(cè)目標(biāo)位置,可以適應(yīng)目標(biāo)的快速變化,但模型較為復(fù)雜后降低了跟蹤的實(shí)時(shí)性。Danelljan等人提出了ECO(efficient convolution operators for tracking)[11]方法,通過高維特征圖的集成,減少了特征的復(fù)雜度,解決高維度的參數(shù)空間過擬合,并引入相似性的度量方法對(duì)模型參數(shù)進(jìn)行更新,提高算法的跟蹤速度。Chen 等人提出MFKCF(single target tracking algorithm based on multi-fuzzy kernel fusion)[12]方法,首先將模糊理論應(yīng)用到核函數(shù)中,然后通過核映射空間融合多種模糊核函數(shù),提高算法的魯棒性。Wang 等人提出基于分塊檢測(cè)的跟蹤算法(scale adaptive correlation tracking method for circular target based on block detection)[13],通過邊緣特征點(diǎn)與輪廓擬合解決了目標(biāo)遮擋的問題,但光照強(qiáng)度發(fā)生變化時(shí)影響該算法提取邊緣特征,從而導(dǎo)致跟蹤框漂移。
深度特征和相關(guān)濾波器的結(jié)合,得到了更精確的跟蹤效果,但目標(biāo)與背景信息特征相似,快速運(yùn)動(dòng)后跟蹤模型仍然會(huì)受到背景信息干擾而更新失??;同時(shí)目標(biāo)長(zhǎng)時(shí)間遮擋后,由于缺乏重檢測(cè)機(jī)制使得跟蹤漂移。本文在目標(biāo)檢測(cè)區(qū)域的圖像分塊處理后建立混合高斯模型,將塊圖像內(nèi)服從高斯分布的像素點(diǎn)分別與該模型進(jìn)行匹配,由每一幀圖像不斷調(diào)整模型參數(shù),提高自適應(yīng)區(qū)分背景和目標(biāo)的能力,再根據(jù)文獻(xiàn)[9]中卷積層Conv3的底層特征有較高的空間分辨率可對(duì)目標(biāo)進(jìn)行精確定位,Conv5的高層特征包含著目標(biāo)語(yǔ)義信息可以應(yīng)對(duì)重大的形變和環(huán)境變化,本文提出梯度加權(quán)的類激活映射得到CNN 的多卷積層特征圖來訓(xùn)練出多卷積層濾波器,然后融合第3層Conv3卷積層和第5層Conv5卷積層濾波器的響應(yīng)值來預(yù)測(cè)目標(biāo)位置,從而避免目標(biāo)快速運(yùn)動(dòng)引起邊界效應(yīng)后,跟蹤過程受到背景信息的干擾;同時(shí)本文利用重檢測(cè)機(jī)制約束濾波器融合的響應(yīng)值,得到平滑輸出響應(yīng)結(jié)果,提高算法的魯棒性。
深度卷積網(wǎng)絡(luò)中存在池化的過程,隨著卷積層級(jí)的加深,特征的空間分辨率逐步降低為原輸入圖像尺寸224×224 的1/32,則在VGG(visual geometry group)網(wǎng)絡(luò)結(jié)構(gòu)[14]中Conv5-4 卷積層的空間尺寸是7×7,由于特征圖尺寸太小,沒法對(duì)目標(biāo)進(jìn)行精確的定位,因此對(duì)特征圖進(jìn)行升采樣將圖像縮放到一個(gè)固定合適的尺寸上。
其中,h代表升采樣前的特征圖,i代表特征圖位置,γ代表域的特征向量,a是插值的權(quán)值。
每個(gè)卷積層的輸出可以作為多個(gè)通道提取的特征,假設(shè)其尺寸為M×N×D,M、N和D分別代表圖像特征的寬和高和特征的通道數(shù),由于所有循環(huán)移位的訓(xùn)練樣本都有一個(gè)高斯函數(shù)標(biāo)簽,故構(gòu)造核相關(guān)濾波器的目標(biāo)函數(shù)為:
其中,y(m,n)=exp代表在(m,n)處像素的標(biāo)簽,λ為正則化參數(shù),防止過擬合現(xiàn)象,w為相關(guān)濾波器。然后將目標(biāo)函數(shù)經(jīng)過FFT 變換轉(zhuǎn)換到頻域,求解后可以得到卷積層的d通道下濾波器目標(biāo)函數(shù)的最優(yōu)解為:
其中,Y(M,N)表示頻域上的高斯標(biāo)簽,當(dāng)給定下一幀圖像塊Z的尺寸M×N×D,提取圖像的特征后,相關(guān)濾波器的目標(biāo)響應(yīng)可以表示為:
最后,通過搜索卷積層中響應(yīng)的最大值就可以估計(jì)出目標(biāo)位置。
卷積層的最優(yōu)濾波器可以通過最小化所有錯(cuò)誤輸出的跟蹤結(jié)果來更新,但涉及到在每一個(gè)位置(m,n)處求解一個(gè)D×D的線性方程組,而且深度特征的通道通常都特別多,導(dǎo)致計(jì)算量很大。因此,采用移動(dòng)平均分別更新濾波器的分子分母:
其中,η為學(xué)習(xí)率。同時(shí)根據(jù)視頻幀之間具有連續(xù)性,通過每?jī)蓭瑢?duì)目標(biāo)模型進(jìn)行更新,提高了算法的跟蹤速度,防止模型的過擬合和跟蹤漂移。
目標(biāo)快速運(yùn)動(dòng)導(dǎo)致圖像模糊產(chǎn)生邊界效應(yīng),濾波器目標(biāo)響應(yīng)容易受到背景信息的干擾,導(dǎo)致跟蹤失敗。本文利用混合高斯模型[15]對(duì)復(fù)雜情景下目標(biāo)和背景信息區(qū)分能力強(qiáng)的優(yōu)點(diǎn),首先對(duì)檢測(cè)區(qū)域中圖像進(jìn)行均勻分塊,然后根據(jù)塊圖像中心像素點(diǎn)的分布特征建立起混合高斯模型,再對(duì)于塊圖像內(nèi)剩余像素點(diǎn)分別與模型進(jìn)行匹配,若匹配成功則為背景像素點(diǎn),否則為目標(biāo)像素點(diǎn),最后下一幀輸入圖像不斷更新該混合高斯模型,提高跟蹤器對(duì)圖像邊緣處目標(biāo)與背景的區(qū)分能力。
檢測(cè)區(qū)域依據(jù)網(wǎng)格均分采樣N×N共W塊圖像,根據(jù)區(qū)域內(nèi)第τ塊圖像距離矩形框中心位置越近,其圖像塊特征得分權(quán)重值越高,進(jìn)而弱化矩形框內(nèi)邊緣處圖像中包含的背景信息對(duì)跟蹤器分類影響,第τ塊圖像權(quán)重值公式如下:
其中,(lx,ly)為矩形框的中心位置坐標(biāo),(τx,τy)為網(wǎng)格均分中第τ塊圖像的中心位置坐標(biāo)。再結(jié)合第τ塊圖像壓縮的特征權(quán)重值構(gòu)建混合高斯模型,假設(shè)塊中心的每個(gè)像素點(diǎn)序列為X1,X2,…,XW,建立k個(gè)高斯分布的混合模型,則像素點(diǎn)的高斯概率密度函數(shù)公式為:
其中,k為該像素點(diǎn)對(duì)應(yīng)的高斯模型的數(shù)目,Wτ,t是第t幀時(shí)的第τ塊圖像權(quán)重值,uτ,t是第t幀時(shí)的第τ塊圖像的期望,Στ,t是第t幀時(shí)的第τ塊圖像的協(xié)方差值,η()是高斯概率密度方程,表示為:
下一步對(duì)當(dāng)前幀服從式(9)的圖像塊內(nèi)剩余像素點(diǎn),若滿足以下條件:
則判定該點(diǎn)匹配成功,將匹配的高斯模型進(jìn)行更新:
其中,α為背景更新的學(xué)習(xí)率,δ為權(quán)值學(xué)習(xí)率,對(duì)于不匹配的高斯模型降低權(quán)重值Wτ,t,并對(duì)高斯模型方差和均值進(jìn)行更新:
其中,δ學(xué)習(xí)率越小,均值和方差更新得越快,對(duì)目標(biāo)跟蹤效果越好,通過每一幀圖像塊的像素點(diǎn)與混合高斯模型匹配過程中,不斷地更新高斯分布函數(shù),最終得到隨目標(biāo)變化的高斯模型。當(dāng)圖像目標(biāo)區(qū)域內(nèi)的像素點(diǎn)匹配結(jié)束,相對(duì)靜止的背景像素點(diǎn)高斯分布的方差小,其對(duì)應(yīng)的權(quán)重偏大,而運(yùn)動(dòng)的目標(biāo)像素點(diǎn)方差更大,權(quán)重偏小,本文按照權(quán)重與方差的比值進(jìn)行降序排列,由設(shè)定閾值ξ=0.7 選出B個(gè)服從高斯分布像素點(diǎn)判斷為最優(yōu)目標(biāo)像素點(diǎn):
圖1為圖像內(nèi)目標(biāo)與背景進(jìn)行區(qū)分的具體過程。
從2.1節(jié)獲得圖像處理的目標(biāo)區(qū)域后,VGG網(wǎng)絡(luò)卷積層中提取的目標(biāo)區(qū)域CNN 特征具有噪聲,導(dǎo)致形成的特征圖存在局部激活性和稀疏性。本文借鑒梯度加權(quán)的類激活映射[16]思想將目標(biāo)像素空間梯度引入導(dǎo)向反向傳播中使特征圖譜中突出細(xì)粒度細(xì)節(jié),減少圖像的噪聲對(duì)目標(biāo)模型產(chǎn)生定位誤差,從而弱化CNN 卷積層在特征映射時(shí)噪聲的影響;然后將映射后的深度特征圖訓(xùn)練出卷積層所對(duì)應(yīng)的濾波器;接下來為了結(jié)合Conv5 高層特征的語(yǔ)義信息和Conv3 底層特征的空間細(xì)節(jié)來處理目標(biāo)嚴(yán)重變化情況,通過融合卷積層中第3 層Conv3 和第5 層Conv5濾波器的目標(biāo)響應(yīng)位置,達(dá)到定位更魯棒的濾波器模型。
首先將標(biāo)記了目標(biāo)區(qū)域的圖像作為輸入,設(shè)置目標(biāo)區(qū)域的梯度為1,其余的梯度為0。然后計(jì)算目標(biāo)區(qū)域c的像素空間梯度yc與卷積層的γ個(gè)特征映射Aγ之間偏導(dǎo)數(shù)即,利用CNN全局平均池化的卷積特征映射直接輸入到濾波器的導(dǎo)向反向傳播中訓(xùn)練,具體通過卷積層產(chǎn)生γ個(gè)特征映射,根據(jù)全局平均池化將這些映射的特征圖進(jìn)行空間池化和線性變換反饋得到目標(biāo)位置的重要性權(quán)重:
Fig.1 Process diagram of distinguishing target from background in image圖1 圖像內(nèi)區(qū)分目標(biāo)與背景的過程圖
然后通過ReLU對(duì)映射的特征圖線性加權(quán)組合,關(guān)注目標(biāo)具有積極影響的特征,增加目標(biāo)位置定位的性能,得到:
從而獲得目標(biāo)區(qū)域c寬度為u和高度為v的混合特征圖,特征圖中每個(gè)特征層都有單獨(dú)的分辨率Nd,引入插值模型將特征圖轉(zhuǎn)移到連續(xù)空間域t∈[0,T],插值模型定義如下:
其中,d是通道數(shù),bd是周期T>0 插值核函數(shù),特征圖中插入的特征層。本文用J{x}表示整個(gè)插入的特征圖,通過訓(xùn)練連續(xù)的周期多通道卷積濾波器f=(f1,f2,…,f D)預(yù)測(cè)目標(biāo)位置響應(yīng)結(jié)果的得分Sf{x}(t),即:
因此,最小化目標(biāo)函數(shù)學(xué)習(xí)得到新的濾波器公式如下:
其中,ym,n是xm,n樣本像素標(biāo)簽的檢測(cè)得分,am,n是樣本xm,n的權(quán)重,由數(shù)據(jù)項(xiàng)加權(quán)的分類誤差構(gòu)成,取最大分?jǐn)?shù)作為位置響應(yīng)值。下一步依據(jù)自適應(yīng)權(quán)重分配系數(shù)ρ融合卷積層中Conv3 和Conv5 對(duì)目標(biāo)響應(yīng)結(jié)果進(jìn)行輸出:
約束模型中濾波器的目標(biāo)位置響應(yīng)值,得到平滑調(diào)整的輸出結(jié)果,從而構(gòu)建出強(qiáng)跟蹤器。傳統(tǒng)的跟蹤算法[7]檢測(cè)機(jī)制都假設(shè)目標(biāo)運(yùn)動(dòng)軌跡平滑,對(duì)當(dāng)前幀目標(biāo)位置周圍進(jìn)行全局搜索,導(dǎo)致樣本數(shù)量大。本文進(jìn)行改進(jìn)后采用半徑更小的局部窗搜索圖像,根據(jù)候選矩形框內(nèi)圖像紋理特征約束排除那些不太可能包含目標(biāo)的矩形框,減少了檢測(cè)的誤匹配,從而高效搜索整幀。
假設(shè)濾波器確定目標(biāo)響應(yīng)區(qū)域的大小(m,n,w′,h′),通過包含上下文信息的(w′+2p)×(h′+2p)的圖像進(jìn)行擴(kuò)展得到重檢測(cè)機(jī)制的多尺度信息:
其中,s=1.02 是尺度變換系數(shù),然后按照尺度掃描產(chǎn)生大量的滑動(dòng)矩形框,本文根據(jù)文獻(xiàn)[7],利用TLD檢測(cè)器的級(jí)聯(lián)分類器過濾掉那些與目標(biāo)區(qū)域相似度和重疊度低的滑動(dòng)矩形框,然后將過濾后的樣本作為置信度高的矩形框樣本,來約束卷積層濾波器的目標(biāo)響應(yīng)位置,得到平滑輸出的跟蹤結(jié)果:
Fig.2 Process diagram of filter's fusion response to target position圖2 濾波器對(duì)目標(biāo)位置融合響應(yīng)的過程圖
其中,ws表示平滑約束項(xiàng),最后跟蹤器得到平滑輸出結(jié)果,由濾波器響應(yīng)ft和檢測(cè)機(jī)制矩形框約束項(xiàng)s(Bt,Bt-1)組成。
對(duì)目標(biāo)進(jìn)行長(zhǎng)時(shí)間跟蹤時(shí),由于每一幀圖像都要計(jì)算2.2節(jié)自適應(yīng)權(quán)重系數(shù)ρ,導(dǎo)致算法的實(shí)時(shí)性降低。因此本文提出一種新的權(quán)重參數(shù)更新方法,同時(shí)為了防止模型過擬合,每隔5幀時(shí)對(duì)權(quán)重參數(shù)進(jìn)行更新,對(duì)應(yīng)于第t幀的權(quán)重自適應(yīng)調(diào)整公式為:
其中,θ、Γ、w-、w+是調(diào)整因子,若ρ一直減小,最后可能小于零,則復(fù)雜環(huán)境下跟蹤模型沒有考慮到高層特征的語(yǔ)義信息,導(dǎo)致跟蹤失敗;若ρ一直增大,則影響跟蹤模型對(duì)目標(biāo)的精確定位,導(dǎo)致跟蹤框漂移,因此本文設(shè)定兩個(gè)閾值來約束ρ,這樣就避免權(quán)重的過大過小問題影響跟蹤效果。
輸入:上一幀目標(biāo)位置p0(m,n)。
輸出:下一幀目標(biāo)位置pt(m,n),更新自適應(yīng)權(quán)重系數(shù)ρ,模型更新后濾波器。
步驟1人工劃分第一幀的目標(biāo)中心。
步驟2對(duì)圖像分塊提取特征,根據(jù)混合高斯模型對(duì)塊像素點(diǎn)進(jìn)行匹配,通過式(16)判斷出目標(biāo)像素點(diǎn)。
步驟3獲得目標(biāo)區(qū)域,通過式(18)得到深度特征圖,再與濾波器模型進(jìn)行卷積操作,通過式(22)融合目標(biāo)位置響應(yīng)值。
步驟4由式(26)重檢測(cè)機(jī)制約束濾波器的響應(yīng)值,得到平滑輸出的跟蹤結(jié)果。
步驟5使用式(27)對(duì)2.2 節(jié)自適應(yīng)權(quán)重系數(shù)進(jìn)行更新,并用目標(biāo)函數(shù)訓(xùn)練濾波器。
步驟6依次重復(fù)步驟2~步驟5,直到視頻結(jié)束為止。圖3是本文算法流程圖。
Fig.3 Flow chart of proposed algorithm圖3 本文算法流程圖
本文算法與HCF 算法、TCNN 算法、TLD 算法、DSST 算法、CN 算法進(jìn)行實(shí)驗(yàn)分析。在目標(biāo)跟蹤測(cè)試集網(wǎng)站上(http://www.visual-tracking.net)選擇了6個(gè)實(shí)驗(yàn)測(cè)試視頻,如表1 所示,共有2 691 幀,實(shí)驗(yàn)測(cè)試視頻序列包括光照變化、旋轉(zhuǎn)、背景雜亂、遮擋、快速運(yùn)動(dòng)等背景環(huán)境。
Table 1 Test video sequence表1 測(cè)試視頻序列
本文算法輸入包含上下文信息的224×224×3 圖像,經(jīng)過卷積、池化、全連接操作后由Softmax層得到1 000 個(gè)分類結(jié)果,然后提取Conv5 和Conv3 的平均特征圖輸入卷積層濾波器中訓(xùn)練得到目標(biāo)響應(yīng)結(jié)果。其中網(wǎng)絡(luò)偏置初始值設(shè)為0,VGG 網(wǎng)絡(luò)參數(shù)、輸入輸出、卷積核的元素設(shè)置見表2。
Table 2 VGG network structure表2 VGG網(wǎng)絡(luò)結(jié)構(gòu)
本文實(shí)驗(yàn)環(huán)境的處理器為Intel?i5-4210 2.60 GHz,內(nèi)存為4 GB。對(duì)本文權(quán)重更新參數(shù)調(diào)整因子取θ=0,Γ=0.05,w-=w+=1,背景更新的學(xué)習(xí)率取a=0.025,平滑約束項(xiàng)取ws=0.2,初始化混合高斯模型的塊圖像權(quán)重值Wτ,t取0.1,塊圖像的協(xié)方差值Στ,t取15,塊圖像的期望uτ,t取像素點(diǎn)的平均值。本文算法從成功率圖、精度圖和幀率FPS三方面評(píng)測(cè)標(biāo)準(zhǔn)來比較上述6種算法,使用文獻(xiàn)[17]給出的測(cè)試視頻中Ground truth 作為實(shí)際目標(biāo)框來計(jì)算得到成功率圖和精度圖[18-19],將跟蹤算法輸出跟蹤框的中心位置與實(shí)際跟蹤框的中心位置進(jìn)行歐氏距離計(jì)算,得到精確圖SSE=,其中(gxi,gyi)和(rxi,ryi)分別為本文算法得到的跟蹤框中心位置坐標(biāo)和實(shí)際的跟蹤框中心位置坐標(biāo);通過計(jì)算跟蹤算法每幀的跟蹤框重疊度,然后將大于給定閾值的幀數(shù)除以總幀數(shù)得到成功率圖S=,其中Bg和Br分別為本文算法得到的跟蹤框面積和實(shí)際的跟蹤框面積。接下來通過本文實(shí)驗(yàn)結(jié)果以及視頻測(cè)試序列部分截圖對(duì)6種不同的跟蹤算法進(jìn)行實(shí)驗(yàn)分析。
實(shí)驗(yàn)中本文算法用紅色表示,TLD 算法用藍(lán)色表示,CN 算法用綠色表示,DSST 算法用紫色表示,TCNN算法用黃色表示,HCF算法用青色表示。
在實(shí)驗(yàn)測(cè)試視頻中,本文選擇soccer測(cè)試視頻具有遮擋、背景雜亂、快速運(yùn)動(dòng)的情景,圖4 第1 行是soccer測(cè)試視頻跟蹤結(jié)果的截圖,從Frame 57、Frame 78可以看出,目標(biāo)的衣服與背景的顏色相似,在快速運(yùn)動(dòng)中,由于目標(biāo)姿態(tài)的變化產(chǎn)生邊界效應(yīng),導(dǎo)致CN算法的目標(biāo)顏色模型和DSST 算法的相關(guān)濾波器模型更新受到背景信息的干擾,對(duì)目標(biāo)顏色特征和HOG 特征的描述變差,影響跟蹤框準(zhǔn)確表征目標(biāo)區(qū)域,從而跟蹤框發(fā)生偏移;從Frame 114、Frame 149可以看出,目標(biāo)被彩帶遮擋時(shí),DSST 算法跟蹤框積累偏移誤差后跟蹤失敗,HCF 算法不能有效區(qū)分目標(biāo)與背景信息,使跟蹤器發(fā)生漂移。選擇coke 測(cè)試視頻具有光照變化、旋轉(zhuǎn)、遮擋的情景,圖4 第2 行是coke 測(cè)試視頻跟蹤結(jié)果的截圖,從Frame 25 可以看出,光線變強(qiáng)時(shí),影響TLD跟蹤框內(nèi)特征點(diǎn)通過光流法計(jì)算前后向誤差,導(dǎo)致特征點(diǎn)預(yù)測(cè)的跟蹤框縮?。粡腇rame 273、Frame 281 可以看出,目標(biāo)發(fā)生完全遮擋后,CN 算法和DSST 算法對(duì)偽目標(biāo)葉子進(jìn)行濾波器訓(xùn)練并更新目標(biāo)模型,導(dǎo)致跟蹤失敗,TCNN 樹狀模型根據(jù)上一幀偽目標(biāo)葉子的位置得到檢測(cè)后的候選框,導(dǎo)致跟蹤框不穩(wěn)健,HCF算法缺乏重檢測(cè)機(jī)制無(wú)法持續(xù)跟蹤到目標(biāo),TLD 算法通過檢測(cè)器的跟蹤失敗恢復(fù)機(jī)制重新找到目標(biāo)區(qū)域。選擇panda 測(cè)試視頻具有形變、旋轉(zhuǎn)、遮擋的情景,圖4第3行是panda測(cè)試視頻跟蹤結(jié)果的截圖,從Frame 148、Frame 162、Frame 182、Frame 215可以看出,目標(biāo)旋轉(zhuǎn)時(shí)影響CN算法和DSST 算法提取目標(biāo)顏色特征和HOG 特征,導(dǎo)致跟蹤框漂移,DSST算法引入過多背景信息的響應(yīng)導(dǎo)致跟蹤失敗,TCNN算法通過Tree的結(jié)構(gòu)對(duì)多個(gè)CNN模型進(jìn)行權(quán)重計(jì)算,選出候選框,可以適應(yīng)目標(biāo)的快速變換。選擇bird1 測(cè)試視頻具有快速運(yùn)動(dòng)、形變、遮擋的情景,圖4 第4 行是bird1 測(cè)試視頻跟蹤結(jié)果的截圖,從Frame 12、Frame 16可以看出,目標(biāo)發(fā)生形變后,由于翅膀的擺動(dòng),CN算法、TLD算法和HCF算法跟蹤框漂移;從Frame 119、Frame 187可以看出,目標(biāo)被彩云完全長(zhǎng)時(shí)間遮擋后,CN 算法和DSST 算法濾波器對(duì)背景信息進(jìn)行濾波響應(yīng),最后跟蹤失敗,TCNN算法通過多個(gè)模型檢測(cè)候選框,但無(wú)法對(duì)目標(biāo)進(jìn)行位置確定從而跟蹤失敗,HCF 算法使用的特征模型不能應(yīng)對(duì)長(zhǎng)期遮擋的目標(biāo)。選擇bolt 測(cè)試視頻具有快速運(yùn)動(dòng)、旋轉(zhuǎn)、形變的情景,圖4 第5 行是bolt測(cè)試視頻跟蹤結(jié)果的截圖,從Frame 241、Frame 250可以看出,目標(biāo)旋轉(zhuǎn)時(shí),影響CN算法和DSST算法對(duì)目標(biāo)提取特征進(jìn)行訓(xùn)練從而跟蹤失敗。選擇david3測(cè)試視頻具有背景雜亂、旋轉(zhuǎn)、遮擋的情景,圖4 第6行是david3 測(cè)試視頻跟蹤結(jié)果的截圖,從Frame 81看到DSST 算法受到樹的遮擋導(dǎo)致跟蹤框偏移;從Frame 117、Frame 136 可以看出,目標(biāo)發(fā)生旋轉(zhuǎn)后,CN 算法、TLD 算法和DSST 算法提取目標(biāo)單一的手工特征導(dǎo)致跟蹤框漂移,TCNN算法提取目標(biāo)深度特征后,通過樹的結(jié)構(gòu)模型避免了最近幀的過擬合,HCF 算法通過深度特征訓(xùn)練不同的濾波器,從粗到精對(duì)目標(biāo)位置進(jìn)行預(yù)測(cè)。
Fig.4 Screenshot of part of video tracking sequence圖4 視頻跟蹤序列部分截圖
Fig.5 Accuracy chart of test video圖5 測(cè)試視頻的精度圖
從以上視頻幀中看出,本文算法在以上情景下跟蹤效果更魯棒,本文采用多層次的深度卷積特征表征目標(biāo),并根據(jù)不同的卷積層語(yǔ)義信息和空間信息不同,通過自適應(yīng)訓(xùn)練多層的相關(guān)濾波器,由Conv5 卷積層濾波器的響應(yīng)區(qū)域融合Conv3 卷積層濾波器的初始響應(yīng)位置,得到目標(biāo)精確定位的結(jié)果。另外從bolt測(cè)試視頻中Frame 241、Frame 250可以看出,本文通過混合高斯模型進(jìn)行像素點(diǎn)匹配,有效地區(qū)分目標(biāo)和背景,避免了相似物的干擾。從bird1測(cè)試視頻中Frame 119、Frame 187 可以看出,本文重檢測(cè)機(jī)制輸出的矩形框平滑約束濾波器的位置響應(yīng),重新找到目標(biāo)區(qū)域。
圖5、表3 為6 種算法的精確度,圖6、表4 為6 種算法的成功率。從表3和表4的soccer實(shí)驗(yàn)精確度和成功率得到,本文算法精確度為0.726,成功率為0.573,比次優(yōu)的CN 算法分別提高了4.7%和7.2%。從圖6的soccer實(shí)驗(yàn)成功率圖得到,在重疊閾值大于0.7時(shí),本文算法和CN算法比其他算法的成功率高,主要是在目標(biāo)遮擋時(shí),DSST 算法跟蹤失敗,HCF 算法和TCNN 算法跟蹤框漂移,CN 算法通過目標(biāo)顏色特征進(jìn)行跟蹤,避免背景信息的干擾。本文算法根據(jù)混合高斯模型有效區(qū)分了目標(biāo)與背景信息;在重疊閾值小于0.7 時(shí),本文算法、TCNN 算法和HCF 算法比CN 算法和DSST 算法的成功率高,主要是在目標(biāo)快速移動(dòng)時(shí),產(chǎn)生的邊界效應(yīng)影響了CN 算法和DSST算法濾波器對(duì)位置響應(yīng),導(dǎo)致運(yùn)動(dòng)模型更新失敗。從表3和表4的coke實(shí)驗(yàn)精確度和成功率得到,本文算法精確度為0.812,成功率為0.679,比次優(yōu)的TCNN 算法分別提高了6.1%和9.8%。從圖5 的coke實(shí)驗(yàn)精度圖得到,本文算法比其他算法的精確度高,主要是視頻中存在光照變化導(dǎo)致TLD 跟蹤框縮小,相關(guān)濾波算法的濾波器對(duì)葉子進(jìn)行訓(xùn)練響應(yīng),導(dǎo)致目標(biāo)跟蹤失敗,深度學(xué)習(xí)算法模型得出錯(cuò)誤的候選框,而本文算法通過梯度加權(quán)的類激活映射得到深度特征圖,然后多層濾波器融合特征圖響應(yīng),得到目標(biāo)精確定位的結(jié)果。從表3和表4的panda實(shí)驗(yàn)精確度和成功率得到,本文算法精確度為0.758,成功率為0.632,比次優(yōu)的HCF 算法分別提高了5.8%和5.5%。從圖6 的panda 實(shí)驗(yàn)成功率圖得到,深度學(xué)習(xí)算法比相關(guān)濾波算法的成功率高,主要是因?yàn)樯疃忍卣鞅仁止ぬ卣鲗?duì)目標(biāo)的表述更魯棒。從表3 和表4 的bird1 實(shí)驗(yàn)精確度和成功率得到,本文算法精確度為0.691,成功率為0.564,比次優(yōu)的TCNN 算法分別提高了6.4%和6.9%。從圖5 的bird1 實(shí)驗(yàn)精度圖得到,本文算法比其他算法的精度高,主要是在目標(biāo)完全遮擋時(shí),其他算法被背景信息進(jìn)行錯(cuò)誤響應(yīng),導(dǎo)致目標(biāo)跟蹤失敗,而本文算法通過重檢測(cè)機(jī)制平滑約束濾波器的響應(yīng)值,重新找到圖像中目標(biāo)位置。從表3和表4的bolt實(shí)驗(yàn)精確度和成功率得到,本文算法精確度為0.745,成功率為0.617,比次優(yōu)的TCNN 算法分別提高了2.6%和4.1%。從圖6 的bolt 實(shí)驗(yàn)成功率圖得到,本文算法比其他算法的成功率高,主要原因是其他算法對(duì)目標(biāo)周圍進(jìn)行采樣時(shí),決策邊界位置正負(fù)樣本存在模糊性,HCF算法跟蹤框發(fā)生漂移,而CN 算法、DSST 算法跟蹤失敗,本文通過對(duì)Conv3 和Conv5層分別自適應(yīng)訓(xùn)練相關(guān)濾波器,緩解采樣模糊時(shí)的模型更新問題,并通過融合響應(yīng)來預(yù)測(cè)目標(biāo)位置。從表3 和表4 的david3 實(shí)驗(yàn)精確度和成功率得到,本文算法精確度為0.766,成功率為0.647,比次優(yōu)的TCNN 算法分別提高了2.7%和3.9%。從圖5 的david3實(shí)驗(yàn)精度圖得到,深度學(xué)習(xí)算法比相關(guān)濾波算法的成功率高,主要是深度學(xué)習(xí)算法采用卷積層對(duì)目標(biāo)提取特征,得到更優(yōu)的表觀模型,避免了目標(biāo)旋轉(zhuǎn)和背景雜亂導(dǎo)致的背景信息干擾。
Table 3 Average center error rate(accuracy)of 6 algorithms表3 6種算法的平均中心誤差率(精確度)
Fig.6 Success rate graph of test video圖6 測(cè)試視頻的成功率圖
Table 4 Average overlap rate(success rate)of 6 algorithms表4 6種算法的平均重疊率(成功率)
從表5 得到,CN 算法在CSK 算法上融入顏色特征后,使用主成成分降維,跟蹤的實(shí)時(shí)性最好,平均幀率達(dá)到105.06 f/s;DSST算法通過對(duì)高斯核函數(shù)轉(zhuǎn)為頻域計(jì)算,并提出濾波器更新機(jī)制,從而跟蹤的實(shí)時(shí)性得到提高;TLD算法通過網(wǎng)格循環(huán)采樣矩形框,計(jì)算每個(gè)矩形框的重疊度和相似度使得TLD算法實(shí)時(shí)性一般;HCF提取多個(gè)卷積層的特征訓(xùn)練濾波器,增加模型的復(fù)雜度,通過每一幀對(duì)濾波器進(jìn)行更新使算法的實(shí)時(shí)性較差;TCNN算法對(duì)目標(biāo)進(jìn)行多層卷積提取深度特征,并需要對(duì)每一幀進(jìn)行樹形判斷,導(dǎo)致實(shí)時(shí)性最差,平均幀率為1.35 f/s;本文算法選取局部窗搜索的方式,大大減少檢測(cè)器學(xué)習(xí)和訓(xùn)練的滑動(dòng)矩形框,并通過一種新的自適應(yīng)權(quán)重更新方法降低計(jì)算的復(fù)雜性,減少高維度參數(shù)空間的過擬合,使平均幀率達(dá)到29.46 f/s。
Table 5 Comparison of average frame rate of 6 algorithms表5 6種算法的平均幀率對(duì)比 f/s
本文算法融合多卷積層的深度特征后,能夠處理環(huán)境中目標(biāo)快速變化并防止跟蹤器漂移;檢測(cè)器機(jī)制可以有效應(yīng)對(duì)目標(biāo)長(zhǎng)時(shí)間遮擋情景下的持續(xù)跟蹤問題。提出了一種結(jié)合重檢測(cè)機(jī)制的多卷積層特征響應(yīng)跟蹤算法,首先將分塊處理后圖像內(nèi)服從高斯分布的塊像素點(diǎn)分別與混合高斯模型匹配,然后獲得目標(biāo)區(qū)域并由加權(quán)梯度的類激活映射出深度特征圖,再利用卷積層中第3 層Conv3 和第5 層Conv5提取深度特征圖并訓(xùn)練相關(guān)濾波器,自適應(yīng)權(quán)重系數(shù)融合Conv5 高層特征濾波器和Conv3 底層特征濾波器的目標(biāo)位置響應(yīng)值,重檢測(cè)機(jī)制約束該響應(yīng)值,得到平滑輸出的跟蹤結(jié)果,提高了跟蹤算法的魯棒性,同時(shí)本文通過對(duì)模型權(quán)重更新,減少了模型參數(shù)之間的過擬合。實(shí)驗(yàn)結(jié)果表明,本文算法對(duì)于目標(biāo)嚴(yán)重形變、旋轉(zhuǎn)、長(zhǎng)期遮擋等情景跟蹤結(jié)果更魯棒。然而,本文算法跟蹤速度較差,下一步的研究方向是通過端對(duì)端的更新策略提高跟蹤算法的實(shí)時(shí)性。