(中國民航機場建設(shè)集團公司 西南分公司,成都 610201)
目標跟蹤是計算機視覺領(lǐng)域的重要組成部分,已經(jīng)廣泛應用于視頻監(jiān)控,智能交通,制導等諸多應用中。盡管近年來對目標跟蹤應用進行了大量的研究,取得了重大的進展。然而,由于跟蹤過程中目標會遭受諸如遮擋、光照、形變等干擾的影響,將會導致跟蹤失敗或跟蹤漂移,因此目標跟蹤任然是一個具有挑戰(zhàn)性的課題[1-10]。
現(xiàn)有的目標跟蹤算法大致上可分為判別模型、生成模型以及二者的混合模型?;谏赡P偷母櫵惴ㄊ峭ㄟ^搜索與目標模板最相似的區(qū)域來跟蹤目標,但生成模型并沒有將背景信息考慮其中,損失了非常有用的背景信息[7-10]。判別模型把跟蹤看作分類問題,通過訓練分類器來區(qū)分背景和目標,同時動態(tài)地更新分類器參數(shù)以適應目標外觀變化[11-18]。盡管近年來圖像跟蹤領(lǐng)域提出了許多卓有成效的跟蹤算法,大大的改善了跟蹤的視覺效果與性能,然而目標跟蹤在實際應用中任然存在較多的挑戰(zhàn)性問題。
為了增強目標外觀模型的可區(qū)分性,國內(nèi)外研究人員提出了多種基于多特征集成跟蹤算法,該類算法主要利用多特征的互補特性輔助解決單一特征無法完全表征目標的所有形態(tài)的問題[10]。 最近,基于在線外觀模型的跟蹤算法[11-12]使用了Haar-like 特征[11],該特征可以通過二分類器將目標與背景分離,使用[10]中描述的積分圖像技巧可以有效地計算出目標區(qū)域的Haar-like 特征;積分通道特征[13]主要使用不同通道的積分圖像提取的目標區(qū)域特征。也就是說,利用輸入圖像顏色,梯度,Gabor直方圖等信息的線性或非線性變換來計算圖像通道。上文提到的Haar-like 特征可以描述為高階積分通道特征。這些特征在描述目標方面具有獨特性和有效性。文獻[19]采用積分通道特征對目標區(qū)域特征提取,使用在線多實例學習(MIL)來逐步地對疑似目標的外觀模型進行訓練,實驗結(jié)果表明積分通道特征具有豐富多樣的特征信息與高效的計算效率,通過將不同通道的特征整合起來,可以克服單一通道特征對目標區(qū)域描述不足的缺陷。
為了實現(xiàn)干擾條件下對目標的穩(wěn)定跟蹤,本文以核相關(guān)跟蹤模型為基礎(chǔ)框架,利用魯棒有效的集成通道特征提取目標的多特征信息,提出了一種基于集成通道特征的核相關(guān)目標跟蹤算法,該算法不僅具有KCF算法跟蹤的實時性,還具有目標多特征的互補性,能夠在干擾條件下對目標穩(wěn)定跟蹤。實驗結(jié)果表明,本文提出的算法的跟蹤性能優(yōu)于現(xiàn)有的算法,且在多個基準測試視頻上的跟蹤指標也高于現(xiàn)有其他算法。
為了清楚地描述本文提出的算法,本節(jié)將簡要地討論與本文算法密切相關(guān)的跟蹤算法,有興趣的讀者可以參考相關(guān)文獻獲取詳細信息。
基于核相關(guān)的跟蹤算法(KCF)主要利用目標周圍區(qū)域的循環(huán)矩陣采集正負樣本,利用脊回歸訓練目標分類器,并成功的利用循環(huán)矩陣在傅里葉空間可對角化的性質(zhì)將矩陣的運算轉(zhuǎn)化為向量的Hadamad積,即元素的點乘,大大降低了運算量,提高了運算速度,使算法滿足實時性要求[17]。
KCF算法的關(guān)鍵核心是利用脊回歸優(yōu)化算法訓練出泛化能力較強的分類器,通過找出樣本xi與回歸目標yi之間的均方誤差最小的函數(shù)f(z)=wTz。因此,線性回歸的目標函數(shù)可以表示為:
(1)
其中:λ是其正則參數(shù),用以調(diào)節(jié)分類器的泛化性能,w是對應的權(quán)值系數(shù)。每個元素對應一個樣本的標簽,可由高斯函數(shù)產(chǎn)生,其中心值等于1,其循環(huán)移位后的衰減值表示0。 于是令其導數(shù)為0,可求得脊回歸的解析解為:
W=(XTX+λI)-1XTy
(2)
由于X是目標樣本xi對應的循環(huán)矩陣,則可以在DFT空間對角化表示為如下公式:
(3)
其中:F就是DFT矩陣。將等式(3)帶入等式(2),可以求解出如下等式:
(4)
其中:*表示向量對應的復共軛,且☉表逐點相乘。經(jīng)過以上分析可以得出,利用核技巧,該等式可以轉(zhuǎn)換成非線性的情況,如下所示:
(5)
常用到的核函數(shù)可以產(chǎn)生循環(huán)矩陣,雙空間系數(shù)α可通過以下公式獲?。?/p>
(6)
kxx稱之為核相關(guān),可由以下等式計算:
kxx=κ(x,pi-1x)
(7)
核相關(guān)目標跟蹤算法不論是在跟蹤效果還是跟蹤速度上都具有不錯的表現(xiàn),學術(shù)界和工業(yè)界也在陸續(xù)把這個算法應用在實際場景當中以,并提出了很多改進的算法。
Dollar等人[13]提出的積分通道特征的基本思想是對輸入的原始圖像進行線性或非線性圖像變換,如局部求和、直方圖、haar-like 特征以及其相應的變體特征都可以通過積分圖高效魯棒的計算出來。積分通道特征具有豐富多樣的特征信息與高效的計算效率,通過將不同通道的特征整合起來,可以克服單一通道特征對目標區(qū)域描述不足的缺陷。積分通道特征主要使用不同通道的積分圖像提取的目標區(qū)域特征。正如文獻[13]所述,積分圖可以非常魯棒地計算出多尺度的矩形特征,且計算復雜度與圖像區(qū)域的大小無關(guān)。積分圖上任意一點(x,y)的值是指從灰度圖像的左上角與當前所圍成的矩形區(qū)域內(nèi)所有像素點灰度值之和。
積分通道特征是一種對目標進行快速特提取的方法,通過聚合多類型通道特征得到的一種特征,融合形成的新特征性能遠高于其他特征。積分通道特征從不同的角度集成多種特征信息,能夠有效的描述目標的外觀模型,并且具有準確的性很高的空間定位性。給定一副輸入圖像I,其所對應的通道特征可定義為圖像的某種線性或非線性變換的輸出響應:
lm=P(I)
(8)
其中:P表示某種計算函數(shù),Im則表示輸出響應,即通道特征。若Im=I表示該通道特征即為圖像本身。為了充分表達圖像中色彩和邊緣等具有較高判別性質(zhì)的特征,本文選取了6種類型的通道特征,分別為灰度特征、顏色空間特征(Color Name)、歸一化的梯度幅度、DoG紋理特征、 HOG 特征和 Gabor特征,然后使用平均池化技術(shù)實現(xiàn)特征的聚合,即鄰域內(nèi)特征點平均作為新的特征點。
核相關(guān)跟蹤算法(KCF)是一個判別式跟蹤,利用循環(huán)矩陣獲取樣本去訓練一個判別分類器,通過快速傅里葉變化對算法進行加速計算,提高算法的跟蹤效率。由于KCF算法將單通道灰度特征換成了多通道Hog特征,通過核函數(shù)對多通道的Hog特征進行了融合,使得訓練所得的分類器對待檢測目標的泛化能力更強,但該算法對具有尺度變化,快速運動,剛性形變等視頻的跟蹤效果不佳。歸其原因,主要還是多通道的Hog特征對目標的描述能力不足,因此本文提出了一種基于積分通道特征的核相關(guān)目標跟蹤。利用積分通道特征豐富多樣的特征信息與高效的計算效率,通過將不同通道的特征整合起來,可以克服單一通道特征對目標區(qū)域描述不足的缺陷。同時,為了增強模型更新的泛化的能力,提出了一種自適應的學習因子的更新模型。接下來,本章將詳細描述本文提出的算法與跟蹤策略。
通過前面章節(jié)中的描述可以看出基于相關(guān)的目標跟蹤問題都能轉(zhuǎn)換成代價函數(shù)中損失項與正則項之間的折中。假設(shè)多通道特征x可以表述為x=[x1,x2,…,xm],其中m表示通道特征的總數(shù)。給定訓練輸入樣本xi以及對應的輸出gi,其代價函數(shù)可以簡寫為:
(9)
其中:Loss(xi,gi)是損失項,Reg(xi,yi)是防止優(yōu)化出現(xiàn)過擬合的正則項,h是濾波參數(shù),n是訓練樣本數(shù)量,λ則是代價函數(shù)的正則參數(shù)。一般情況下,常見的相關(guān)濾波最小化如下代價函數(shù):
(10)
(11)
為了最小化目標函數(shù),函數(shù)θ對H求導,并令其等于0,因此上式的解析解可以表述為:
(12)
k(x,y)=[φ(x),φ(y)]
(13)
本文采用高斯核可以將線性變換轉(zhuǎn)換非線性情況,其形式如下:
(14)
因此,由等式(7)可以推導到多通道特征形式,其表達式如下所示:
(15)
其中:i表示第i個特征通道則表示各通道特征數(shù)據(jù)分別點乘求和。因此,對等式12進行核變換,相關(guān)參數(shù)Hk的非線性變換形似如下:
(16)
(17)
(18)
因此,頻率域的相關(guān)平面輸出可以表示為:
(19)
基于文獻[17]核相關(guān)跟蹤的推導,對等式(19)進行高斯核轉(zhuǎn)換,其表達式如下:
(20)
以上分析可以看出,本文利用特征的良好互補性,如HOG強調(diào)目標區(qū)域的梯度信息,而顏色空間空間特征則強調(diào)目標的顏色信息。總之,同一區(qū)域的多通道特征共同起作用,提升跟蹤算法的穩(wěn)定性。雖然本文提出的基于積分通道特征的核相關(guān)跟蹤算法的思想比較簡單,但在多特征的共同作用下能夠提升算法的抗干擾能力。
本文提出的跟蹤算法不采用任何遮擋檢測、記憶重捕等約束或啟發(fā)式條件,僅僅通過模型的泛化能力跟蹤目標,模型的更新可由如下公式表示。
ht=(1-η)ht-1+ηht
yt=(1-η)yt-1+ηyt
(21)
其中:t和η分別表示幀數(shù)和學習因子,η選取范圍為(0,1)。學習因子允許模型參數(shù)隨著場景的變化而變化。通常情況下,學習因子的取值范圍在[0.01,0.15],大量的仿真實驗表明學習因子設(shè)置為0.025是最優(yōu)經(jīng)驗值。
在眾多基于學習的檢測跟蹤算法中,模型參數(shù)的更新都是通過線性插值的方式進行,利用學習因子調(diào)節(jié)模型的泛化能力,如式(21)所示。然而,固定學習因子的方式比較機械,不能完全適應復雜背景與顯著的外觀變化,一旦有微小的誤差積累就會引起跟蹤目標的漂移。因此,本文提出了一種自適應學習因子的更新策略。
在學習因子選擇過程中,如果學習因子η的值選擇過小,這會導致模型更新較慢,難以適應目標外觀的變化,跟蹤過程會出現(xiàn)漂移的情況,長期跟蹤會導致跟蹤失敗。因此,較低的學習因子限制了跟蹤算法的泛化能力,無法適應目標快速的形態(tài)變化。但是如果選擇較大的學習因子會使得目標模型更新過快,很容易引入背景等干擾信息到模型中,使得模型對目標的適應性較差,導致跟蹤過程中出現(xiàn)跟蹤點的跳躍?,F(xiàn)有基于學習的模型跟蹤算法通常使用固定的學習率來更新模型參數(shù),但隨著大量的仿真實驗發(fā)現(xiàn),學習因子應該隨著跟蹤目標區(qū)域的狀態(tài)進行調(diào)整,自適應的學習因子才能獲得泛化能力較強的跟蹤模型。因此,本文提出了一種基于目標形態(tài)變化的自適應學習因子選取策略。相比于傳統(tǒng)固定學習因子的方法,該方法能獲得更好的跟蹤效果。學習因子的選取與目標形態(tài)、外觀和姿態(tài)等參數(shù)正相關(guān)。分析發(fā)現(xiàn),目標形態(tài)的變化很多時候與目標的運動速度相關(guān)。目標移動速度越大,目標所處的環(huán)境也變化越大,也就導致目標的形態(tài)、外觀也有很大的變化。大量的仿真實驗發(fā)現(xiàn)學習因子與目標速度有關(guān),目標速度可以通過計算單前幀中目標位置(xt,yt)與上一幀位置(xt-1,yt-1)之間的像素差異獲取。因此,通過深入研究學習因子與目標速度的關(guān)系,本文提出如下函數(shù)關(guān)系表征學習因子:
(21)
圖1 自適應學習因子
為了驗證本文提出的基積分通道特征的核相關(guān)算法的有效性,本文選擇跟蹤精度(OR)和跟蹤重疊度(CLE)兩個指標進行定性定量分析,并與現(xiàn)有算法進行比較。實驗硬件仿真平臺采用MATLAB(R2010a),并在CP U為Core i3處理器:主頻 2.94 GHz,內(nèi)存8 G,操作系統(tǒng):WINDOWS 7上運行。
為了比較提出算法的性能,目前最優(yōu)算法被采用作為對比算法KCF[17]和STC[24],CN[22]。為了算法公平比較,本文采用的對比算法都使用作者提供的源代碼,參數(shù)及其初始化值選取其默認值。同時,所有跟蹤算法的跟蹤目標初始位置保持一致。
為了量化性能比較,我們采用重疊率準則(OR)和跟蹤中心誤差(CLE)兩種評價準則。重疊率準主要假設(shè)每一幀的跟蹤結(jié)果是RT,其相應的跟蹤基準為RG,因此重疊率定義為Sc=area(RT∩RG)/area(RT∪RG);跟蹤中心誤差定義為跟蹤器獲取的目標中心與基準中心的歐氏距離。一個完美性能跟蹤算法的跟蹤中心誤差應該是接近于0,重疊率(OR)應該完全一致。表1展現(xiàn)了所有算法在測試基準視頻序列上的平均OR和CLE跟蹤性能,其中深黑和斜體表示所有算法中最好的結(jié)果??梢钥闯?,本文提出的跟蹤算法性能在Animal、Girl、Surfing、Deer、Walking1和 Face視頻序列上的效果優(yōu)于其他算法,而在Sylvester和Occlusion1視頻序列上的效果與其他算法類似。
為了驗證在遮擋、光照等干擾因素影響下跟蹤性能的精度,本文利用10組視頻序列進行遮擋對比試驗, 部分試驗結(jié)果如圖2 所示,其跟蹤框顏色的意義如圖所示。在Dear序列中,第 23幀以前目標沒有被遮擋,KCF算法、本文算法等四種算法都能很好地進行跟蹤,其跟蹤指標基本一致,但是當目標運動時出現(xiàn)了遮擋,背景干擾后,STC跟蹤算法出現(xiàn)了跟蹤漂移,CN算法則丟失了目標,而本文提出的算法則穩(wěn)定跟蹤目標。充分說明了本文提出的基于積分通道特征的核相關(guān)跟蹤算法對干擾因素的適應性能力。
理論分析已經(jīng)提到CSK只是簡單的使用了灰度特征,對目標的外觀描述能力顯然不足,因此CN跟蹤算法在CSK的基礎(chǔ)上聯(lián)合顏色特征和灰度特征來描述目標,使得對目標的外觀描述更加精確和魯棒。KCF算法則從原來的單通道灰度特征換成了多通道Hog特征,通過核函數(shù)對多通道的Hog特征進行了融合,使得訓練所得的分類器對待檢測目標的泛化能力更強,但該算法對具有尺度變化,快速運動,剛性形變等視頻的跟蹤效果不佳。STC跟蹤算法是一個簡單快速而且魯棒的算法,它利用稠密的空時場景模型來進行跟蹤。
雖然STC算法、FCT算法表現(xiàn)出不錯的跟蹤效果,尤其是在跟蹤指標上的精度較好,主要是由于作者調(diào)參優(yōu)化的結(jié)果,而本文提出的算法,充分利用了多通道特征的互補特性,對可跟蹤區(qū)域的跟蹤能力具有明顯的跟蹤優(yōu)勢。這充分說明了本文提出的算法能夠處理復雜背景與顯著的外觀變化,大大提升了目標跟蹤的性能與穩(wěn)定性。
圖2 不同視頻的跟蹤結(jié)果定性分析
視頻指標平均OR平均CLECNKCFSTCOurCNKCFSTCOurDeer0.6550.5970.6020.6618.28.618.86.5Girl0.6150.9220.5390.8617.76.015.14.4Animal0.7250.8080.3910.83311.72.210.81.6Cup0.4570.5430.5040.69725.321.422.79.3Sylvester0.7570.8000.3980.8015.13.73.74.6Walking10.6820.6870.1090.6945.04.94.74.6Occlusion10.7790.9010.5900.89017.04.73.45.1Singer10.6070.8220.6870.7715.34.73.37.1Face0.5160.6630.3520.53713.61.72.43.2Woman0.6510.7010.6190.82619.320.266.92.4
本文針對復雜場景下基于單一特征的目標跟蹤算法適應性不強的問題,提出一種基于積分通道特征的核相關(guān)目標跟蹤算法,該算法利用積分通道特征豐富多樣的特征信息與高效的計算效率,將不同通道的特征整合到核相關(guān)模型中。由于多通道特征具有互補特性,可以克服單一通道特征對目標區(qū)域描述不足的缺陷,提升算法的抗干擾能力。同時,本文也提出了一種基于目標運動速度的自適應學習因子策略,增強了模型的泛化能力。大量的定性定量實驗表明本文所提的算法的跟蹤性能超過傳統(tǒng)的KCF算法,對復雜的跟蹤場景具有更強的魯棒性與抗干擾能力。
[1] 鄭 浩, 董明利, 潘志康. 基于背景加權(quán)的尺度方向自適應均值漂移算法[J].計算機工程與應用, 2016, 52(22):192-197.
[2] 徐少飛,劉政怡,桂 斌. 基于循環(huán)核矩陣的自適應目標跟蹤算法[J].計算機工程與應用, 2016, 52(20):177-181.
[3] 吳 盈,劉 哲,等. 基于隨機局部均值Hash特征的在線學習目標跟蹤[J].計算機工程與應用, 2016, 52(14):21-27.
[4] 曹義親,周小辭,黃曉生,等. 基于壓縮感知的互補特征加權(quán)目標跟蹤算法[J].計算機工程與應用, 2016, 52(19):110-116.
[5] 湯春明,盧永偉. 基于改進的稀疏重構(gòu)算法的行人異常行為分析[J]. 計算機工程與應用, 2017, 53(8):98-104.
[6] Matthews I, Ishikawa T, Baker S. The template update problem[J]. IEEE Trans. Pattern Anal. Mach. Intell. 2004,26(6):810-815.
[7] Balan A O, Black M J. An adaptive appear-ance model approach for model-based articulated object tracking[J]. In Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on, June 2006(1):758-765.
[8] Bolme D S, Beveridge J R, Draper B A, et al. Visual object tracking using adaptive correlation filters[J]. In Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on, June 2010:2544-2550.
[9] Briechle K, Hanebeck U D. Template Matching Using Fast Normalized Cross Correlation[J]. In Aerospace/Defense Sensing, Simulation, and Controls, 2001:95-102.
[10] Comaniciu D, Ramesh V, Meer P. Real-Time Tracking of Non-Rigid Objects Using Mean Shift[J]. In Proceedings IEEE Conference on Computer Vision and Pattern Recognition, 2000(2):142-149.
[11] Wu Y, Lim J, Yang M H. Online object tracking: A benchmark[C]. In CVPR, 2013.
[12] Zhang K, Zhang L, Yang M H. Real-time compressive tracking[C]. In ECCV, 2012.
[13] Dollar P, Tu Z, Perona P, et al. Integral Channel Features[C]. BMVC, 2009.
[14] Ross D A, Lim J, Lin R S, et al. Incremental learning for robust visual tracking[C]. Int. J. Comput.2008,77 (1-3):125-141.
[15] Zhong W, Lu H, Yang M H. Robust object tracking via sparse collaborative appearance model[J]. IEEE Trans. Image Process. 2014,23(5):2356-2368.
[16] Kalal, Mikolajczyk, Matas. Tracking Learning Detection[C]. Pattern Analysis and Machine Intelligence, 2011.
[17] Henriques J F, Caseiro R, Martins P, et al. High-speed tracking with kernelized correlation filters[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2014,99:1-1.
[18] Tang Z H, Wang S Z, et al. Bayesian Framework with Non-local and Low-rank Constraint for Image Reconstruction, in Journal of Physics: Conference Series[C].CCISP2017,787(1).
[19] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]. In: Advances in Neural Information Processing Systems, 2012, 1097-1105.
[20] 蘇巧平,劉 原,等.基于稀疏表達的多示例學習目標追蹤算法[J], 計算機工程, 2013, 39(3):213-217.
[21] Hilke Kieritz, Stefan Becker, et al. Online multi-person tracking using Integral Channel Features[A]. In 13th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS)[C]. 2016, 122-130.
[22] Danelljan M, Khan F S, et al. Adaptive Color Attributes for Real-Time Visual Tracking[J]. In Computer Vision & Pattern Recognition, 2014:1090-1097.
[23] Henriques J F, Rui C. Exploiting the Circulant Structure of Tracking-by-Detection with Kernels[A]. In European Conference on Computer Vision[C]. 2012,7575(1):702-715.
[24] Zhang K H, Zhang L, Yang M H,et al. Fast Trackingvia Spatio-Temporal Context Learning[C]. In Computer Science,2013.