黃樹成,張 瑜,張?zhí)熘?徐常勝,王 直
1(江蘇科技大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 鎮(zhèn)江 212003)
2(中國人民解放軍91917部隊(duì),北京 100071)
3(模式識(shí)別國家重點(diǎn)實(shí)驗(yàn)室(中國科學(xué)院 自動(dòng)化研究所),北京 100190)
目標(biāo)跟蹤是計(jì)算機(jī)視覺領(lǐng)域研究的熱點(diǎn)之一,當(dāng)前廣泛應(yīng)用于視頻監(jiān)控、人機(jī)交互等實(shí)際問題中,具有重要的研究價(jià)值.但是受限于實(shí)際環(huán)境的復(fù)雜性,例如遮擋、光照變化、目標(biāo)形變以及背景相似干擾等,當(dāng)前跟蹤算法在準(zhǔn)確性、魯棒性以及實(shí)時(shí)性上還很難滿足實(shí)際應(yīng)用需求.因此它仍是一個(gè)極具挑戰(zhàn)性的課題.
基于相關(guān)濾波的跟蹤方法以其出色的性能和速度優(yōu)勢,在跟蹤領(lǐng)域引起了很大的關(guān)注.近年來,涌現(xiàn)出了大量基于相關(guān)濾波的跟蹤方法,如 KCF[1]、SAMF[2]、LCT[3]、MUSTer[4]和 CACF[5],這些方法多數(shù)采用手工特征,因此限制了算法的準(zhǔn)確性和魯棒性.隨著 CNN在目標(biāo)識(shí)別領(lǐng)域中的成功應(yīng)用,深度學(xué)習(xí)進(jìn)入了目標(biāo)跟蹤領(lǐng)域,比較有代表性的基于CNN的跟蹤方法有DeepSRDCF[6]、HCF[7]、SiamFC[8]、CFNet[9]和DCFNet[10]等,但這些算法僅考慮了對(duì)圖像中目標(biāo)表觀特征的提取,特征響應(yīng)存在多峰現(xiàn)象,跟蹤結(jié)果易產(chǎn)生漂移.本文結(jié)合連續(xù) CRF模型提出了一種新的端到端的目標(biāo)跟蹤方法,充分考慮了圖像相鄰超像素塊之間的相似性關(guān)系,利用該關(guān)系約束了初始響應(yīng)值,抑制了跟蹤過程中的漂移現(xiàn)象.
本文提出的基于條件隨機(jī)場的深度相關(guān)濾波目標(biāo)跟蹤算法,在跟蹤一段視頻序列時(shí),將其中每一幀圖片的目標(biāo)候選區(qū)域通過深度卷積神經(jīng)網(wǎng)絡(luò)提取特征,運(yùn)用相關(guān)濾波計(jì)算初始響應(yīng)圖,與此同時(shí),根據(jù)相鄰超像素塊之間的位置關(guān)系構(gòu)建相似度矩陣.然后結(jié)合當(dāng)前圖片的初始響應(yīng)與相似度矩陣更新響應(yīng)圖,最終確認(rèn)目標(biāo)的位置信息.如圖1所示,初始響應(yīng)圖中目標(biāo)位置附近多峰現(xiàn)象嚴(yán)重,本文加入了相鄰超像素塊之間的相似性關(guān)系,利用該關(guān)系去約束初始響應(yīng)圖,去除了多峰現(xiàn)象,抑制了跟蹤過程中的漂移,使得優(yōu)化后的響應(yīng)圖更加平滑,提高了判別目標(biāo)位置的魯棒性.
Fig.1 Process of model optimization圖1 算法模型優(yōu)化過程
本文的貢獻(xiàn)及創(chuàng)新點(diǎn)總結(jié)如下.
(1) 將連續(xù)CRF模型運(yùn)用到目標(biāo)跟蹤領(lǐng)域中,通過對(duì)CRF模型中單個(gè)勢節(jié)點(diǎn)和相鄰勢節(jié)點(diǎn)之間的關(guān)系建模,優(yōu)化了基于深度學(xué)習(xí)的 DCF跟蹤算法,有效緩解了不同情況下的跟蹤漂移問題,特別是在目標(biāo)尺度變化時(shí),明顯提高了跟蹤的成功率;
(2) 設(shè)計(jì)了一個(gè)端到端的框架,將CRF模型嵌入深度卷積神經(jīng)網(wǎng)絡(luò)中,在保持算法實(shí)時(shí)性的前提下,提升了算法的跟蹤精度;
(3) 構(gòu)建了一個(gè)基于圖像相鄰超像素塊之間位置關(guān)系的相似度矩陣,在響應(yīng)圖中校正了目標(biāo)的相對(duì)位置,減少了目標(biāo)周邊背景噪聲的影響;
(4) 將本文算法在OTB-2013的 50個(gè)視頻序列和OTB-2015的 100個(gè)視頻序列[11]上進(jìn)行了大量的測試,并與9種近年來在國際上具有代表性的相關(guān)算法進(jìn)行了對(duì)比分析,顯著性實(shí)驗(yàn)結(jié)果驗(yàn)證了算法的有效性、準(zhǔn)確性和魯棒性.
本文的主要貢獻(xiàn)是將CRF模型運(yùn)用到目標(biāo)跟蹤領(lǐng)域,優(yōu)化基于深度學(xué)習(xí)的DCF跟蹤算法.涉及到本文相關(guān)工作的兩個(gè)方面主要包括基于DCF的跟蹤方法以及CRF的應(yīng)用情況.
基于 DCF的目標(biāo)跟蹤算法利用快速傅里葉變換進(jìn)行濾波器的訓(xùn)練和響應(yīng)圖的計(jì)算,極大地提高了跟蹤效率,具有很好的擴(kuò)展性.傳統(tǒng)的基于DCF的算法有KCF、MOSSE[12]和CSK[13],隨后出現(xiàn)了各種改進(jìn)算法,包括優(yōu)化尺度變換的跟蹤器SAMF和fDSST[14]、將顏色信息考慮在內(nèi)的Staple[15]和CN[16]、希望跟蹤器能長期跟蹤的LCT和MUSTer、考慮緩和邊界效應(yīng)的SRDCF[17]和CACF,但這些方法多數(shù)使用手工特征,因此限制了算法的魯棒性.
隨著CNN在圖片分類[18,19]、目標(biāo)檢測[20]以及圖像分割[21]工作中的迅速發(fā)展,目標(biāo)跟蹤領(lǐng)域也開始將深度卷積神經(jīng)網(wǎng)絡(luò)作為解決問題的工具之一.越來越多的算法將DCF框架和CNN結(jié)合在一起,例如HCF和HDT[22],提出使用分層卷積特征對(duì)跟蹤目標(biāo)進(jìn)行學(xué)習(xí)和表達(dá),代替了原來的 HOG特征.SRDCF和 DeepSRDCF改善了DCF中存在的邊界效應(yīng),后者在前者基礎(chǔ)上將手工特征替換為 CNN特征,并說明了在解決跟蹤問題時(shí),采取CNN的底層特征效果較好,得出解決跟蹤問題并不需要太高語義信息的結(jié)論.CFNet和DCFNet在SiamFC的結(jié)構(gòu)上加入了 CF層,實(shí)現(xiàn)了網(wǎng)絡(luò)的端到端訓(xùn)練,用實(shí)驗(yàn)表明這種網(wǎng)絡(luò)結(jié)構(gòu)可以用較少的卷積層而不會(huì)降低精度.
CRF由Lafferty等人[23]提出,結(jié)合了最大熵模型和隱馬爾可夫模型的特點(diǎn),是一種無向圖模型,近年來在分詞、詞性標(biāo)注和命名實(shí)體識(shí)別等序列標(biāo)注任務(wù)中取得了良好的效果.CRF模型很少應(yīng)用在處理連續(xù)的回歸問題上,最早采用連續(xù)CRF模型的工作之一是Qin等人[24]提出的,應(yīng)用在文獻(xiàn)檢索中解決全球排名問題,在一定的約束條件下,可以用確定的規(guī)范化因子來優(yōu)化極大似然函數(shù).在這之后,連續(xù)CRF模型被成功開發(fā)應(yīng)用在各種結(jié)構(gòu)化回歸問題中,例如圖像降噪[25]和遙感領(lǐng)域[26],值得一提的是,隨著 CNN的普及應(yīng)用,Liu等人[27]成功地將連續(xù)CRF模型用于圖像深度估計(jì),結(jié)合深度值的連續(xù)性,學(xué)習(xí)連續(xù)CRF在CNN框架中的勢能函數(shù).
到目前為止,還沒有將連續(xù)CRF模型應(yīng)用到目標(biāo)跟蹤領(lǐng)域的魯棒性算法,本文提出的目標(biāo)跟蹤模型建立在連續(xù)圖像響應(yīng)值上,用連續(xù)CRF來估計(jì)目標(biāo)候選區(qū)域的響應(yīng),旨在共同探索CRF模型結(jié)合CNN的跟蹤方法在學(xué)習(xí)目標(biāo)特征表示時(shí)的能力和潛力.
本節(jié)首先對(duì)基于 CRF的相關(guān)濾波目標(biāo)跟蹤方法進(jìn)行簡要概述,然后詳細(xì)介紹本文算法中各個(gè)模塊的原理和實(shí)現(xiàn)方法,最后,介紹改進(jìn)后的算法流程以及網(wǎng)絡(luò)的優(yōu)化過程.
目標(biāo)跟蹤的主要目的在于確定目標(biāo)在視頻幀中的位置信息,需要通過相應(yīng)的目標(biāo)表觀特征描述方法將其中相對(duì)穩(wěn)定的統(tǒng)計(jì)特征或某些不變的特征提取出來,一般通過相關(guān)濾波器來獲取目標(biāo)候選區(qū)域的響應(yīng),作為判斷目標(biāo)位置的標(biāo)準(zhǔn),與背景加以區(qū)分.由于視頻中的每一幀圖像都由若干個(gè)像素組成,假設(shè)可以將每一張圖像分割成若干個(gè)超像素塊,并且認(rèn)為圖像模型是由很多超像素塊所構(gòu)成.
如圖2所示,輸入x∈ ?W0×H0表示圖像的目標(biāo)候選區(qū)域,用w×h的核(w,h∈?)對(duì)x進(jìn)行池化操作(步長分別為stride_w和stride_h),得到x′ ∈ ?W×H,且W=(W0-w)/stride_w+1,H=(H0-h)/stride_h+1;再經(jīng)過全連接操作將圖片分為n=W×H個(gè)超像素塊.其中,對(duì)應(yīng)的響應(yīng)值表示為向量的格式,即y= [y1,...,yn]T∈?n.
Fig.2 An illustration of the superpixel pooling method圖2 圖像超像素化過程
根據(jù)傳統(tǒng)的CRF參數(shù)化模型[28],在隨機(jī)變量X取值為x的條件下,隨機(jī)變量Y取值為y的條件概率密度函數(shù)可以表示為
式中,i,j=1,2,...,n,sl和tk是特征函數(shù),μl和λk是對(duì)應(yīng)的權(quán)值,求和是在所有可能的輸出序列上進(jìn)行的,Z(x)表示規(guī)范化因子,本文將特征表示部分用能量函數(shù)G(y,x)來表示,因此條件概率密度函數(shù)可以寫為
式(2)中,規(guī)范化因子Z(x)表示為
由于這里的y是連續(xù)值,與離散情況不同,因此用積分來替換原來的求和運(yùn)算.為了預(yù)測目標(biāo)位置,可用模型的最大后驗(yàn)概率(maximum a posteriori,簡稱MAP)來推斷視頻幀的響應(yīng)值,具體表示為
能量函數(shù)G(y,x)由一元狀態(tài)函數(shù)V和二元轉(zhuǎn)移函數(shù)E構(gòu)成,這里,V對(duì)應(yīng)于圖像中n個(gè)超像素塊,旨在回歸每個(gè)超像素塊對(duì)應(yīng)的響應(yīng);E依賴于圖像中S對(duì)相鄰超像素塊之間的關(guān)系,該關(guān)系的相似性會(huì)起到約束響應(yīng)值的作用,超像素塊間的相似度越高,對(duì)應(yīng)的響應(yīng)值越接近.這里的函數(shù)V和函數(shù)E可以表示為
因此,能量函數(shù)G(y,x)可以表示為
本文將V和E嵌入到統(tǒng)一的CNN框架中,結(jié)合相關(guān)濾波建立一個(gè)深度網(wǎng)絡(luò)來得到圖片目標(biāo)候選區(qū)的響應(yīng)值,從而準(zhǔn)確地預(yù)測目標(biāo)的位置信息.
圖3展示了本文提出的基于CRF的深度網(wǎng)絡(luò)框架,整個(gè)網(wǎng)絡(luò)架構(gòu)包括一元特征模塊、二元關(guān)系模塊和學(xué)習(xí)更新模塊 3個(gè)部分.一元特征模塊實(shí)現(xiàn)了在深度網(wǎng)絡(luò)中對(duì)圖片目標(biāo)候選區(qū)的特征提取,并且通過相關(guān)濾波輸出初始響應(yīng)值;二元關(guān)系模塊通過網(wǎng)絡(luò)輸出一組一維向量,該向量建立了相鄰超像素塊之間的相似性關(guān)系,用來約束一元特征模塊中的初始圖片響應(yīng);學(xué)習(xí)更新模塊結(jié)合一元特征模塊中的初始響應(yīng)值和二元關(guān)系模塊中的相似度矩陣更新響應(yīng)圖,最終確認(rèn)目標(biāo)的位置信息.
Fig.3 Improved deep correlation filters via conditional random field圖3 基于CRF和DCF的深度目標(biāo)跟蹤模型
2.2.1 一元特征模塊
本文使用一元狀態(tài)函數(shù)V對(duì)一元特征模塊進(jìn)行建模,目的是通過訓(xùn)練深度網(wǎng)絡(luò)獲取圖像目標(biāo)候選區(qū)域的特征,得到理想的濾波器,輸出初始響應(yīng).
這里,yi表示理想狀態(tài)下的響應(yīng),Ri(α)表示網(wǎng)絡(luò)輸出的響應(yīng),α為網(wǎng)絡(luò)中的參數(shù).
如第2.1節(jié)所述,將圖像分為n個(gè)超像素塊,每個(gè)超像素塊的區(qū)域vi={ai,bi,wi,hi} ,?i= 1 ,2,...,n對(duì)應(yīng)CRF中的節(jié)點(diǎn)信息,其中,(ai,bi)表示超像素塊的中心位置,(wi,hi)表示超像素塊的寬度和高度,考慮到對(duì)每一個(gè)超像素塊單獨(dú)進(jìn)行卷積運(yùn)算會(huì)存在大量的內(nèi)存消耗,導(dǎo)致計(jì)算效率降低,本文利用 Fast R-CNN[29]的思想,首先對(duì)圖像整體進(jìn)行卷積運(yùn)算,再對(duì)結(jié)果進(jìn)行分割,從而提高網(wǎng)絡(luò)訓(xùn)練的速度和準(zhǔn)確率.該模塊中的特征提取部分如圖3所示,主要由兩個(gè)卷積層、一個(gè)修正線性單元(rectified linear unit,簡稱ReLU)和一個(gè)局部響應(yīng)歸一化(local response normalization,簡稱 LRN)層構(gòu)成.假設(shè)模塊的輸入為圖片塊x0∈R125×125×3.在第1個(gè)卷積層中,為了能夠更好地利用位置對(duì)應(yīng)信息,本文在x0的外側(cè)進(jìn)行填補(bǔ),填補(bǔ)的尺寸為1.x0通過一個(gè)權(quán)重矩陣W1得到了96個(gè)特征映射,W1包含96個(gè)子矩陣,即,其中,表示第1個(gè)卷積層中每個(gè)卷積核對(duì)應(yīng)的參數(shù),卷積核的通道數(shù)和尺寸分別為3和3×3,采樣間隔為1.因此,輸出的96個(gè)特征映射是通過對(duì)x0卷積響應(yīng)和經(jīng)過激勵(lì)函數(shù)計(jì)算得到的.其中,,選用修正線性單元作為激活函數(shù)f(.) = m ax(0,.) ,“*”代表卷積運(yùn)算,分別表示權(quán)重矩陣與偏置項(xiàng).通過將所有的連接在一起,可以得到一個(gè)完整的特征映射.在第2個(gè)卷積層中,為了能更充分地利用輸入信息x1的外側(cè)進(jìn)行填補(bǔ),填補(bǔ)的尺寸為1.之后,將x1i與 32個(gè)卷積核依次進(jìn)行卷積,對(duì)應(yīng)的權(quán)重參數(shù)為每個(gè)卷積核的通道數(shù)和尺寸分別為96和3×3,采樣間隔為1,可得,其中,s(.)選用局部響應(yīng)歸一化層來實(shí)現(xiàn),使得其中響應(yīng)比較大的值變得相對(duì)更大,并抑制其他反饋較小的神經(jīng)元,增強(qiáng)了模型的泛化能力.將所有的特征映射組成x2∈R125×125×32.每跟蹤一個(gè)新的視頻幀,網(wǎng)絡(luò)就會(huì)輸出該幀的特征φ(z),再輸入到相關(guān)濾波層,根據(jù)上一幀的特征φ(x)來更新一個(gè)新的濾波器w,從而得到當(dāng)前幀目標(biāo)候選區(qū)域的初始響應(yīng)圖R(z):
這里,φl(z)表示CNN中提取特征的第l個(gè)通道,“?”代表循環(huán)矩陣的卷積運(yùn)算,wl表示第l個(gè)理想的濾波器,可以表示為[30]
這里,y表示目標(biāo)位置的真實(shí)值,表示離散傅里葉變換,*表示變量的復(fù)共軛,⊙表示矩陣的哈達(dá)瑪積.
2.2.2 二元關(guān)系模塊
本文使用二元轉(zhuǎn)移函數(shù)E對(duì)二元關(guān)系模塊進(jìn)行建模,目的是為了通過相鄰超像素塊之間的相似性關(guān)系來平滑視頻幀的輸出響應(yīng).
其中,Cij表示相鄰超像素塊vi和vj之間的依賴關(guān)系,可以用全連接層來表示:
這里,β是網(wǎng)絡(luò)參數(shù),S(k)表示相鄰超像素塊之間的第k種相似性關(guān)系矩陣.可以用位置信息、HOG特征等建立相鄰超像素塊之間的相似性關(guān)系,本文將這k種相似性關(guān)系的模型表示為
2.2.3 學(xué)習(xí)更新模塊
根據(jù)式(8)給出的一元狀態(tài)函數(shù)V和式(11)給出的二元轉(zhuǎn)移函數(shù)E的定義,能量函數(shù)G(y,x)可以表示為
為了便于函數(shù)表達(dá)和計(jì)算,這里定義矩陣A:
其中,I表示n×n的單位陣,D表示由組成的度矩陣,它是一個(gè)對(duì)角陣,C表示由Cij組成的鄰接矩陣,D-C是一個(gè)圖拉普拉斯矩陣,因此,這里的矩陣A是一個(gè)正則化拉普拉斯矩陣,能量函數(shù)G(y,x)可以替換為
由于上式中關(guān)于y的二次項(xiàng)系數(shù)是矩陣A,這里的A是正定陣,結(jié)合均值θ服從先驗(yàn)norm分布,且θ~N(μ0,∑0)的多維高斯分布的公式為
規(guī)范化因子Z(x)的積分可推算得到:
根據(jù)式(1)、式(16)和式(18),推出CRF的先驗(yàn)概率模型可以表示為
這里,R=[R1,...,Rn]T,是在初始響應(yīng)的基礎(chǔ)上做池化后得到的矩陣,|·|表示矩陣的行列式,A-1是A的逆矩陣.因此,根據(jù)式(4)可以得到圖像中目標(biāo)候選區(qū)域的響應(yīng)值為
根據(jù)式(15)中對(duì)矩陣A的定義,矩陣A是對(duì)稱陣,即AT=A,令:
因此,式(20)的閉式解為
當(dāng)不考慮二元關(guān)系模塊中相鄰超像素塊之間的關(guān)系時(shí),即Cij=0時(shí),上式可以表示為y★=R,這是一般的CNN回歸模型,本文將其作為比較的基準(zhǔn)算法,在第3節(jié)會(huì)對(duì)比這種模型的實(shí)驗(yàn)結(jié)果.
本文算法將矩陣A定為位置關(guān)系矩陣,根據(jù)第2.2.1節(jié)中對(duì)超像素塊區(qū)域的定義,利用相鄰超像素塊vi={ai,bi,wi,hi}和vj={aj,bj,wj,hj}之間的歐式距離建立的相似性關(guān)系Cij和度矩陣D可以表示為
根據(jù)式(15)將矩陣A帶入式(22)可以更新初始響應(yīng)矩陣,校正目標(biāo)的位置信息,得到校正后的響應(yīng)y★,從而確定目標(biāo)的位置,具體流程詳見算法1.
算法1.基于條件隨機(jī)場的魯棒性深度相關(guān)濾波目標(biāo)跟蹤算法.
本文將CRF和基于深度學(xué)習(xí)的DCF跟蹤網(wǎng)絡(luò)相結(jié)合,設(shè)計(jì)了一個(gè)新的端到端的網(wǎng)絡(luò)框架.為了使模型的跟蹤效果更優(yōu),算法魯棒性更強(qiáng),本文使用了基于隨機(jī)梯度下降的反向傳播來優(yōu)化網(wǎng)絡(luò)參數(shù).
假設(shè)通過網(wǎng)絡(luò)獲取的當(dāng)前幀響應(yīng)為y★,理想的響應(yīng)值為?,定義損失函數(shù)為
其中,θ表示網(wǎng)絡(luò)中的所有參數(shù),γ用來約束正則化項(xiàng).
根據(jù)文獻(xiàn)[31],離散傅里葉變換與離散傅里葉逆變換的梯度可用下述公式計(jì)算:
在學(xué)習(xí)更新模塊中,前向傳播過程只包含一般矩陣乘法,因此可以計(jì)算矩陣的導(dǎo)數(shù):
在二元轉(zhuǎn)移模塊中,由于關(guān)系矩陣A可以通過位置信息直接構(gòu)建,因此這支網(wǎng)絡(luò)無需從響應(yīng)更新層反向傳播更新參數(shù).在一元特征模塊中,損失函數(shù)對(duì)響應(yīng)更新層的偏導(dǎo)數(shù)可以表示為
在該模塊中,網(wǎng)絡(luò)的輸入分別為當(dāng)前幀圖片z和前一幀圖片x對(duì)應(yīng)網(wǎng)絡(luò)的檢測分支與學(xué)習(xí)分支.表示損失函數(shù)對(duì)檢測分支的偏導(dǎo)數(shù),具體計(jì)算如下:
誤差經(jīng)過反向傳播到有實(shí)值的特征圖后,余下的傳播過程可以看作是傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)優(yōu)化問題,這里不再贅述.由于本文算法中反向傳播涉及的運(yùn)算只是復(fù)頻域中的哈達(dá)瑪積以及一般的矩陣乘法,因此可以在大量數(shù)據(jù)集中進(jìn)行離線訓(xùn)練,再通過網(wǎng)絡(luò)模型進(jìn)行在線跟蹤.
本文算法在 Matlab 2015b上實(shí)現(xiàn),網(wǎng)絡(luò)層使用 MatConvNet工具[32]訓(xùn)練.計(jì)算機(jī)配置為 Intel i7?CoreTM-4770CPU@3.40GHz×8,內(nèi)存為 32GB RAM,顯卡為 NVIDIA GeForce GTX Titan X.本文的訓(xùn)練視頻來源于NUS-PRO[33]、TempleColor128[34]和UAV123[35],大約共有166 643幀.對(duì)于每個(gè)視頻,本文選取相鄰t-1和t兩幀進(jìn)行配對(duì),然后將每幀裁剪出以目標(biāo)位置為中心、1.5倍padding大小的圖片塊,并統(tǒng)一成125×125個(gè)像素點(diǎn).學(xué)習(xí)率γ設(shè)為 0.072,目標(biāo)候選區(qū)域 padding為 2.3.本文利用隨機(jī)梯度下降的方法更新網(wǎng)絡(luò)參數(shù),大約訓(xùn)練了 20 epoch.網(wǎng)絡(luò)測試所選用的數(shù)據(jù)集為OTB-2013和OTB-2015,其中,訓(xùn)練集與測試集無交叉,包含了各種具有挑戰(zhàn)性的場景,如:目標(biāo)遮擋、光照變化以及目標(biāo)快速運(yùn)動(dòng)等.本文選取了9種當(dāng)前國際上具有代表性的相關(guān)算法,分別是DCFNet算法、SRDCF算法、CFNet算法、KCF算法、LCT算法、MEEM算法、Staple算法、SAMF算法、DSST算法,并將本文算法與這9種算法進(jìn)行了對(duì)比實(shí)驗(yàn).其中,DCFNet算法是基于CNN直接回歸圖像中目標(biāo)候選區(qū)域響應(yīng)的一般回歸算法,本文將其作為對(duì)比的基準(zhǔn)算法.
圖4給出了5種跟蹤算法在數(shù)據(jù)集中5個(gè)視頻序列上的部分跟蹤結(jié)果,視頻按照從左到右、從上到下的順序分別是 carScale(第 110、167、183、194 幀)、bird2(第 49、60、70、75 幀)、tiger1(第 34、37、39、93 幀)、deer(第 11、26、28、33幀)、trans(第37、43、50、53幀).其中,不同的跟蹤算法用不同的顏色表示,紅色為本文算法,左上角的數(shù)字為當(dāng)前圖像幀數(shù).通過它們在具體視頻序列中的表現(xiàn),對(duì)結(jié)果進(jìn)行比對(duì)和分析后可以發(fā)現(xiàn),本文提出的算法對(duì)目標(biāo)位置的預(yù)測結(jié)果是比較理想的.
(1) 快速尺度變化:以“CarScale”為例,目標(biāo)在跟蹤過程中出現(xiàn)了劇烈的尺度變化,雖然給出的5種算法都能始終跟蹤目標(biāo),但是只有本文算法能夠很好地適應(yīng)目標(biāo)的尺度,隨著目標(biāo)尺度的變化實(shí)現(xiàn)理想跟蹤.
(2) 目標(biāo)平面內(nèi)/外旋轉(zhuǎn)、目標(biāo)形變:以“bird2”為例,目標(biāo)在跟蹤過程中出現(xiàn)了內(nèi)外旋轉(zhuǎn)變化,對(duì)算法的高度旋轉(zhuǎn)不變性提出了要求,這里,DCFNet、SRDCF以及KCF跟蹤結(jié)果都有偏差,只有本文提出的算法和CFNet方法能夠較好地跟蹤目標(biāo).
(3) 遮擋、光照變化:以“tiger1”為例,在第34、37和39幀時(shí),目標(biāo)被樹葉遮擋,跟蹤結(jié)果中其他算法都出現(xiàn)了不同程度的跟蹤漂移,只有本文算法對(duì)目標(biāo)遮擋問題具有較好的魯棒性,能夠始終準(zhǔn)確地跟蹤目標(biāo),在第 93幀時(shí),背景光照出現(xiàn)了劇烈變化,除了本文提出的算法和 DCFNet方法能夠較好地跟蹤目標(biāo)外,其他算法都偏離了目標(biāo).
(4) 運(yùn)動(dòng)模糊、低分辨率:以“deer”為例,這段視頻跟蹤目標(biāo)的分辨率較低,而且小鹿在跳躍中運(yùn)動(dòng)出現(xiàn)了模糊,考驗(yàn)了算法在復(fù)雜條件下對(duì)目標(biāo)特征的提取,在跟蹤結(jié)果中,DCFNet和KCF都出現(xiàn)了跟蹤失敗,本文算法能夠始終魯棒地跟蹤目標(biāo),對(duì)低分辨率的模糊運(yùn)動(dòng)目標(biāo)具有較好的處理能力.
(5) 快速運(yùn)動(dòng)、相似背景:以“trans”為例,目標(biāo)在快速運(yùn)動(dòng)過程中伴隨著與目標(biāo)相似的背景,對(duì)算法跟蹤的準(zhǔn)確性具有很大的挑戰(zhàn),只有本文提出的算法和 DCFNet方法能夠始終準(zhǔn)確地跟蹤目標(biāo),而其他算法都出現(xiàn)了不同程度的漂移現(xiàn)象.
為了綜合評(píng)價(jià)算法的跟蹤性能,本文采用跟蹤精度和跟蹤成功率這兩個(gè)通用的評(píng)價(jià)指標(biāo)來進(jìn)行定量分析.其中,跟蹤精度是指當(dāng)平均中心位置誤差小于 20像素時(shí),算法成功跟蹤的幀數(shù)與視頻總幀數(shù)的比值;跟蹤成功率是指當(dāng)覆蓋率overlap>0.5時(shí),算法成功跟蹤的幀數(shù)與視頻總幀數(shù)的比值.
在數(shù)據(jù)集OTB-2013下,由圖5(a)和圖5(b)可以得到所列10種算法的跟蹤精度和跟蹤成功率曲線AUC(area under curve)值.由圖 5(a)可以看出,本文算法的精度最高,達(dá)到了 0.856,相比 DCFNet算法,提高了 6.1%,相比CFNet算法,提高了 3.4%;由圖 5(b)中的曲線可以看出,本文算法的跟蹤成功率最高,AUC值達(dá)到了 0.652,相比DCFNet算法,提高了3%,相比CFNet算法,提高了4.2%.這種跟蹤精度和跟蹤成功率的明顯提升,是因?yàn)楸疚囊肓讼噜彸袼貕K之間的相似性關(guān)系,使得響應(yīng)圖更加平滑,校正了目標(biāo)位置.
在數(shù)據(jù)集OTB-2015下,由圖5(c)和圖5(d)中的曲線可以看出,與所列的9種其他跟蹤算法相比,本文算法的跟蹤精度最高,達(dá)到了 0.797,相比 DCFNet算法,提高了 4.8%,相比 CFNet算法,提高了 1.7%;跟蹤成功率也最高,AUC值達(dá)到了0.612,相比DCFNet算法,提高了3.5%,相比CFNet算法,提高了2.4%,驗(yàn)證了算法的有效性和魯棒性.
為了進(jìn)一步分析跟蹤算法在不同跟蹤條件下的跟蹤性能,表 1和圖 6分別給出了 10種算法在數(shù)據(jù)集OTB-2013下11種不同屬性的跟蹤結(jié)果,包括算法的成功率和跟蹤精度.表1中紅色加粗的數(shù)字表示最優(yōu)結(jié)果,藍(lán)色加粗的數(shù)字表示次優(yōu)結(jié)果,黑色加粗的數(shù)字表示排名第 3的結(jié)果,其中的字母縮寫分別表示不同的跟蹤條件,分別是:LR(低分辨率)、BC(背景雜波)、OV(目標(biāo)超出視野)、IPR(平面內(nèi)旋轉(zhuǎn))、FM(快速運(yùn)動(dòng))、MB(運(yùn)動(dòng)模糊)、DEF(目標(biāo)形變)、OCC(目標(biāo)遮擋)、SV(尺度變化)、OPR(平面外旋轉(zhuǎn))、IV(光照變化).
由表1和圖6可以看出,在11種不同屬性的跟蹤條件中,除了DEF屬性,本文算法的成功率和跟蹤精度在其他屬性中均處于最優(yōu)或次優(yōu)的位置,尤其是在SV屬性下,成功率達(dá)到了0.664,比第2名的DCFNet高了4.5%,比第3名的SRDCF高了7.7%,展現(xiàn)了本文算法在目標(biāo)尺度變化上的跟蹤優(yōu)勢,同時(shí)也表明了對(duì)于其他復(fù)雜條件下的跟蹤,本文算法也具有較好的魯棒性.
Table 1 Success score of average AUC for each attribute on OTB-2013表1 不同屬性下算法在OTB-2013中的跟蹤成功率對(duì)比結(jié)果
Fig.6 Precision score at 20 pixels for 11 attributes on OTB-2013圖6 OTB-2013中11種屬性下算法的跟蹤精度對(duì)比結(jié)果
表2給出了各種算法在OTB-2013和OTB-2015這兩個(gè)數(shù)據(jù)集上的平均視頻跟蹤速率(單位為fps).可以發(fā)現(xiàn),本文算法的跟蹤速度與DCFNet相近,比CFNet高約14幀/s左右,這是因?yàn)樵跒V波器的在線更新過程中,通過向量的傅里葉變換和點(diǎn)積運(yùn)算取代了時(shí)域的卷積運(yùn)算,同時(shí)避開了矩陣求逆,將原先矩陣相乘O(n3)的計(jì)算量轉(zhuǎn)換為了傅里葉變換nlog(n)和向量點(diǎn)乘n,極大地提高了濾波器的訓(xùn)練速度.
總體來說,本文算法在基于深度學(xué)習(xí)的跟蹤算法中,跟蹤速率較快,可以實(shí)現(xiàn)跟蹤的實(shí)時(shí)性要求.
Table 2 Tracking speed for OTB-2013 and OTB-2015 compared with baseline methods表2 各種算法在OTB-2013和OTB-2015數(shù)據(jù)集上的平均視頻跟蹤速度
本文將連續(xù) CRF模型運(yùn)用到目標(biāo)跟蹤領(lǐng)域中,將一元狀態(tài)函數(shù)與二元轉(zhuǎn)移函數(shù)嵌入到深度卷積神經(jīng)網(wǎng)絡(luò)中,設(shè)計(jì)了一個(gè)端到端的框架.該算法通過結(jié)合一元狀態(tài)函數(shù)得到的初始響應(yīng)圖和二元轉(zhuǎn)移函數(shù)得到的相似度矩陣對(duì)目標(biāo)位置進(jìn)行校正,從而得到了一個(gè)更平滑、更精確的響應(yīng)圖,提高了跟蹤的精度.本文在 OTB-2013和OTB-2015這兩個(gè)數(shù)據(jù)集上進(jìn)行了大量的測試,在復(fù)雜的跟蹤條件下,與近年來9種在國際上具有代表性的相關(guān)算法進(jìn)行了對(duì)比分析,實(shí)驗(yàn)結(jié)果表明,優(yōu)化后的算法不僅得到了精度高、魯棒性好的跟蹤結(jié)果,同時(shí)也較好地解決了跟蹤過程中的各類復(fù)雜狀況,有效地提高了目標(biāo)跟蹤的成功率.
在今后的工作中,我們將會(huì)繼續(xù)研究由相鄰超像素塊之間依賴關(guān)系構(gòu)建的相似度矩陣,并且進(jìn)一步優(yōu)化各類參數(shù),從而校正目標(biāo)位置的響應(yīng),提高算法的魯棒性.