丁建偉,唐云祁,田華偉,張小博
(1.中國(guó)人民公安大學(xué),北京 102623;2.中國(guó)電子科技集團(tuán)公司第三研究所,北京 100015)
?
復(fù)雜場(chǎng)景下基于多特征融合的視頻跟蹤
丁建偉1,唐云祁1,田華偉1,張小博2
(1.中國(guó)人民公安大學(xué),北京 102623;2.中國(guó)電子科技集團(tuán)公司第三研究所,北京 100015)
為了解決常見視頻跟蹤方法在復(fù)雜場(chǎng)景中難以有效跟蹤運(yùn)動(dòng)物體的難題,研究了在粒子濾波框架下基于多特征融合的判別式視頻跟蹤算法。首先分析了特征提取和跟蹤算法的魯棒性和準(zhǔn)確性的關(guān)系,指出融合多種特征能有效地提升算法在復(fù)雜場(chǎng)景中的跟蹤效果,然后選擇提取HSV顏色特征和HOG特征描述目標(biāo)表觀,并在線訓(xùn)練邏輯斯特回歸分類器構(gòu)造判別式目標(biāo)表觀模型。在公開的復(fù)雜場(chǎng)景視頻進(jìn)行測(cè)試,比較了使用單一特征和多種特征的實(shí)驗(yàn)效果,并且將所提算法和經(jīng)典跟蹤算法進(jìn)行了比較,實(shí)驗(yàn)結(jié)果表明融合多種特征的視頻跟蹤更具魯棒性和準(zhǔn)確性。
視頻跟蹤;多特征融合;復(fù)雜場(chǎng)景
視頻跟蹤研究如何讓計(jì)算機(jī)自動(dòng)確定感興趣的目標(biāo)在連續(xù)圖像序列中的位置、軌跡以及運(yùn)動(dòng)參數(shù)等信息。視頻跟蹤是計(jì)算機(jī)視覺的關(guān)鍵研究問題,其結(jié)果會(huì)促進(jìn)視頻分割、行為分析、場(chǎng)景理解等問題的研究。另外,視頻跟蹤還具有很高的應(yīng)用價(jià)值,在智能視頻監(jiān)控、人機(jī)交互和車輛導(dǎo)航等多個(gè)領(lǐng)域具有廣泛應(yīng)用。
近年來(lái),雖然視頻跟蹤研究有了長(zhǎng)足的進(jìn)步,但距離復(fù)雜場(chǎng)景下視頻的魯棒跟蹤仍然有較遠(yuǎn)的距離。當(dāng)場(chǎng)景中存在嚴(yán)重的圖像噪聲、快速的光照與姿態(tài)變化、相似物體干擾、復(fù)雜的目標(biāo)運(yùn)動(dòng)以及遮擋時(shí),現(xiàn)有的視頻跟蹤算法依然很難解決這些難題,原因在于跟蹤的核心問題目標(biāo)表觀建模還沒有得到根本解決。目標(biāo)表觀建模在對(duì)未知目標(biāo)進(jìn)行有效的視覺描述上依然存在很多不足。
對(duì)目標(biāo)進(jìn)行建模,首先需要進(jìn)行視覺描述并提取特征,選擇哪種特征對(duì)跟蹤性能有著重要影響。在跟蹤中常用的特征有原始像素特征[1]、直方圖特征[2]和二值特征[3]等。每種特征都有其優(yōu)缺點(diǎn)和適用場(chǎng)合。目前,研究者們還沒有找到一種有效的特征使得跟蹤對(duì)任意物體和場(chǎng)景均有效。
為了改正常見視頻跟蹤算法使用單一特征存在的缺點(diǎn),提升算法在復(fù)雜場(chǎng)景中的性能,本文研究融合多種特征來(lái)構(gòu)造視頻表觀模型,從而減少跟蹤中的漂移或失敗現(xiàn)象,提升跟蹤算法的魯棒性和準(zhǔn)確率。
為了更好地處理非線性非高斯運(yùn)動(dòng),本文基于粒子濾波框架設(shè)計(jì)跟蹤算法。在粒子濾波框架中,跟蹤可以看作是貝葉斯?fàn)顟B(tài)空間推理問題
p(Xt|Ot)∝p(ot|Xt)∫p(Xt|Xt-1)p(Xt|Ot)dXt-1
(1)
式中:Ot={o1,o2,…,ot}是目標(biāo)的觀測(cè)集合,ot是目標(biāo)在t時(shí)刻的觀測(cè)向量,且ot∈Rd×1。Xt描述的是目標(biāo)在t時(shí)刻的狀態(tài)參數(shù),在本文中僅考慮目標(biāo)的位置和尺度,因此Xt主要包括四個(gè)變量,即Xt=(xt,yt,ht,wt)。其中xt,yt,ht和wt分別表示目標(biāo)在橫軸和縱軸的位移,以及方框的長(zhǎng)度和寬度。表觀似然度函數(shù)p(ot|Xt)表示目標(biāo)狀態(tài)為Xt時(shí)觀測(cè)為ot的概率,基于在線學(xué)習(xí)的目標(biāo)表觀模型計(jì)算而得到。目標(biāo)動(dòng)態(tài)模型p(Xt|Xt-1)表示連續(xù)幀之間目標(biāo)狀態(tài)的轉(zhuǎn)移概率。圖1是整個(gè)視頻跟蹤系統(tǒng)的算法框架。
圖1 視頻跟蹤系統(tǒng)框架
(2)
根據(jù)權(quán)重分布函數(shù)的形式,可以選擇不同的粒子濾波器。SIR粒子濾波器假設(shè)權(quán)重分布函數(shù)和觀測(cè)無(wú)關(guān),即
q(Xt|X1:t-1,Ot)=p(Xt|Xt-1)
(3)
將式(3)代入式(2)后,粒子的權(quán)重可通過(guò)對(duì)表觀似然度p(ot|Xt)歸一化得到。由于SIR粒子濾波器采樣方式簡(jiǎn)單,因而得到了廣泛應(yīng)用,本文也采用SIR粒子濾波器。
在t時(shí)刻估計(jì)的最優(yōu)目標(biāo)狀態(tài)為粒子集合中權(quán)重最大的那個(gè)粒子對(duì)應(yīng)的狀態(tài)參數(shù),即
(4)
目標(biāo)表觀模型可分為生成式和判別式兩種。基于生成式模型的視頻跟蹤算法在每一幀中尋找與目標(biāo)模型最相似的區(qū)域,典型的生成式模型有子空間模型[1]和稀疏表達(dá)模型[4]等。而基于判別式模型的視頻跟蹤算法將跟蹤視為前景和背景的二分類問題,通過(guò)在線學(xué)習(xí)得到的分類器,在當(dāng)前幀中搜索與背景最具區(qū)分度的前景區(qū)域。典型的判別式模型有在線提升模型[5]等。由于判別式模型融合了背景信息,因而在跟蹤時(shí)能夠比生成式模型更好地區(qū)分相似物體的干擾,近年來(lái)成為跟蹤研究的熱點(diǎn)。本文選擇判別式表觀模型描述目標(biāo),具體包括特征提取和在線分類器學(xué)習(xí)。
2.1特征提取
為了得到更魯棒的視頻跟蹤算法,本文提取多種特征來(lái)構(gòu)造表觀模型,這樣可以克服單一特征造成的局限性,大大提高了跟蹤算法在復(fù)雜場(chǎng)景下的準(zhǔn)確性,并且可以減小跟蹤產(chǎn)生漂移的可能。
通過(guò)分析跟蹤中常用特征的優(yōu)缺點(diǎn),并且考慮到算法的實(shí)時(shí)性,本文選擇融合HSV顏色特征和方向梯度直方圖(Histogram of Oriented Gradient, HOG)[6]特征描述目標(biāo)。
HSV顏色特征是基于HSV顏色空間提取的特征,包括色度(Hue)、飽和度(Saturation)和亮度(Value)。首先輸入圖像從RGB空間轉(zhuǎn)化到HSV空間,然后采集樣本圖像并調(diào)整到標(biāo)準(zhǔn)大小,例如16×16像素,則對(duì)應(yīng)的HSV顏色特征是16×16×3=768維度的向量,最后將該顏色特征向量進(jìn)行歸一化,記為xhsv。
HOG特征[6]通過(guò)計(jì)算和統(tǒng)計(jì)圖像局部區(qū)域的梯度方向直方圖來(lái)描述物體,對(duì)圖像的幾何和光學(xué)形變都能保持較好的不變性,因而在計(jì)算機(jī)視覺領(lǐng)域獲得了廣泛應(yīng)用,特別是在圖像檢測(cè)領(lǐng)域取得了巨大的成功。由于原始的HOG特征提取比較費(fèi)時(shí),因此本文采用文獻(xiàn)[7]描述的快速HOG特征提取方法,并對(duì)提取的HOG特征進(jìn)行歸一化,記為xhog。
將HSV顏色特征和HOG特征組合,即可得到目標(biāo)圖像的特征描述子ot=[xhog,xhsv]T。
2.2在線分類器學(xué)習(xí)
在判別式跟蹤框架中,目標(biāo)的表觀似然度p(ot|Xt)一般由在線學(xué)習(xí)的二分類器計(jì)算得到,本文選擇邏輯斯蒂回歸(LogisticRegression,LR)分類器。LR分類器的輸入是特征描述子ot,設(shè)輸出的分類結(jié)果為y∈{0,1},其中數(shù)值0代表背景,數(shù)值1代表跟蹤目標(biāo),則目標(biāo)表觀似然度由下式計(jì)算得到
(5)
式中:hw(ot)是輸入為特征向量ot輸出分類結(jié)果為y=1的概率,w∈Rd×1是LR分類器的模型參數(shù)。
在跟蹤中目標(biāo)的表觀和場(chǎng)景都會(huì)發(fā)生較大變化,因此需要在線更新表觀模型,從而保證模型具有最佳區(qū)分性能。在更新表觀模型時(shí),為了減小LR分類器訓(xùn)練時(shí)發(fā)生過(guò)擬合的情況,本文在定義損失函數(shù)L(w)時(shí)增加模型參數(shù)w的L2正則化項(xiàng),即
(6)
(7)
式中:α為w的學(xué)習(xí)速率。
為了驗(yàn)證算法在復(fù)雜場(chǎng)景下跟蹤目標(biāo)的有效性,本文使用了公開的具有挑戰(zhàn)性的跟蹤測(cè)試視頻[8],在這些視頻中存在各種跟蹤難題,包括快速光照變化、姿態(tài)變化、雜亂背景、局部遮擋和低質(zhì)量圖像等。本文設(shè)計(jì)了兩組實(shí)驗(yàn),首先比較了使用單一特征和多種特征的跟蹤結(jié)果,然后將本文算法與其他幾種經(jīng)典的跟蹤算法進(jìn)行了比較。
3.1多種特征的有效性
為了驗(yàn)證融合多種特征能夠增強(qiáng)跟蹤算法的性能,本文使用了視頻“Bolt”和“David”進(jìn)行了測(cè)試。圖2和圖3分別是在視頻 “Bolt” 和“David”上使用不同特征的跟蹤結(jié)果截圖,圖中第一行和第二行分別是僅使用HSV顏色特征和HOG特征的跟蹤結(jié)果,第三行是融合兩種特征的跟蹤結(jié)果,圖中數(shù)字代表圖片序列號(hào),方框代表估計(jì)的目標(biāo)位置。
圖2 在視頻“Bolt”上使用不同特征的跟蹤結(jié)果(截圖)
圖3 在視頻“David”上使用不同特征的跟蹤結(jié)果(截圖)
在視頻 “Bolt”中,跟蹤目標(biāo)是一名運(yùn)動(dòng)員,該運(yùn)動(dòng)員身穿的運(yùn)動(dòng)服顏色與周圍運(yùn)動(dòng)員和場(chǎng)地具有較大差異性,因此使用顏色特征進(jìn)行跟蹤可以取得較好結(jié)果,而由于運(yùn)動(dòng)員跑動(dòng)中姿態(tài)變化較大,因此使用HOG特征跟蹤效果不太理想,圖2的跟蹤結(jié)果驗(yàn)證了該結(jié)論??梢钥吹降诙械母櫧Y(jié)果從第5幀就開始出現(xiàn)了偏差,然后很快失去目標(biāo),而第一行和第三行的跟蹤結(jié)果從始至終都是正確的。
在視頻 “David”中,跟蹤目標(biāo)是人臉,由于該目標(biāo)在運(yùn)動(dòng)中存在快速的光照變化,因此僅使用HSV顏色特征并不能很好地跟蹤目標(biāo),由圖3第一行的跟蹤結(jié)果可以看出,在第225幀、304幀和350幀都出現(xiàn)了較大的跟蹤誤差;而HOG特征對(duì)光照變化具有較強(qiáng)的不變性,因此圖3第二行和第三行的跟蹤結(jié)果都是比較精確的。
由該組實(shí)驗(yàn)可知,在跟蹤算法中融合多種特征可以增強(qiáng)算法在不同復(fù)雜場(chǎng)景下的魯棒性。
3.2與其他算法的比較
為了進(jìn)一步驗(yàn)證基于多特征融合跟蹤算法的有效性,將本文算法與增量式跟蹤算法IVT[1]、在線Adaboost跟蹤算法OAB[5]、結(jié)構(gòu)化輸出跟蹤算法Struck[8]和壓縮感知跟蹤算法CT[9]進(jìn)行了比較,共使用6組測(cè)試視頻[10],跟蹤目標(biāo)包括行人和車輛等典型物體,視頻中包括各種干擾因素,例如光照變化、姿態(tài)變化、尺度變化以及目標(biāo)形變等,評(píng)價(jià)指標(biāo)是跟蹤中心誤差均值,即標(biāo)定方框與跟蹤方框中心的歐氏距離,該值越小表明跟蹤結(jié)果越好。表1是3種方法在測(cè)試視頻上的跟蹤中心誤差均值比較結(jié)果。在6組視頻中,本文算法取得了4組第一,并且在剩下的2組視頻中與最好的結(jié)果相比也非常接近,可見本文算法在復(fù)雜場(chǎng)景跟蹤典型物體具有較好的魯棒性與正確性。
表13種方法在測(cè)試視頻的跟蹤中心誤差均值
視頻本文算法OAB[5]IVT[1]Struck[8]CT[9]David3.719.73.96.712.9Bolt4.0150.2200.6126.6180.6CarDark5.02.83.21.0119.2Deer7.031.310.88.113.9Walking2.45.31.84.66.9Woman8.632.310093.516.0
本文研究了復(fù)雜場(chǎng)景中視頻跟蹤的難題,分析了特征提取與跟蹤算法魯棒性和準(zhǔn)確性的關(guān)系。為了改正常見算法在復(fù)雜場(chǎng)景中僅使用單一特征很難有效跟蹤目標(biāo)的缺點(diǎn),本文研究了基于粒子濾波框架融合多種特征的視頻跟蹤算法。本文選擇融合HSV顏色特征和HOG特征,通過(guò)在線訓(xùn)練邏輯斯特回歸分類器構(gòu)造判別式目標(biāo)表觀模型。為了檢驗(yàn)算法的有效性,選取了公開的典型復(fù)雜場(chǎng)景視頻進(jìn)行測(cè)試,并與經(jīng)典的視頻跟蹤方法進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明使用多種特征能夠提高算法的魯棒性和準(zhǔn)確性。
[1]ROSSDA,LIMJ,LINR-S,etal.Incrementallearningforrobustvisualtracking[J].Internationaljournalofcomputervision, 2008,77(1):125-141.
[2]COMANICIUD,RAMESHV,MEERP.Kernel-basedobjecttracking[J].IEEEtransactionsonpatternanalysisandmachineintelligence, 2003,25(5):564-577.
[3]LIX,SHENCH,DICKA,etal.Learningcompactbinarycodesforvisualtracking[C]//IEEEConferenceonComputerVisionandPatternRecognition.Oregon:IEEE, 2013:2419-2426.
[4]MEIX,LINGH.RobustvisualtrackingusingL1minimization[C]//IEEEInternationalConferenceonComputerVision.Kyoto:IEEE, 2009:1436-1443.
[5]GRABNERH,GRABNERM,BISCHOFH.Real-timetrackingviaon-lineboosting[C]//BritishMachineVisionConference.Edinburgh:BMVA, 2006:47-56.
[6]DALALN,TRIGGSB.Histogramsoforientedgradientsforhumandetection[C]//IEEEConferenceonComputerVisionandPatternRecognition.SanDiego:IEEE, 2005:886-893.
[7]DOLLARP,APPELR,BELONGIES,etal.Fastfeaturepyramidsforobjectdetection[J].IEEEtransactionsonpatternanalysisandmachineintelligence, 2014, 36(8):1532-1545.
[8]HARES,SAFFARIA,TORRPHS.Struck:structuredoutputtrackingwithkernels[C]//IEEEInternationalConferenceonComputerVision.Barcelona:IEEE, 2011:263-270.
[9]ZHANGK,ZHANGL,YANGMH.Fastcompressivetracking[J].IEEEtransactionsonpatternanalysisandmachineintelligence, 2014, 36(10): 2002-2015.
[10]WUY,LIMJ,YANGMH.Onlineobjecttracking:abenchmark[C]//IEEEConferenceonComputerVisionandPatternRecognition.Oregon:IEEE, 2013:2411-2418.
丁建偉(1984— ),博士,講師,主要研究方向?yàn)橐曨l圖像處理、模式識(shí)別;
唐云祁(1983— ),博士,講師,主要研究方向?yàn)橐曨l圖像處理、模式識(shí)別;
田華偉(1983— ),博士,講師,主要研究方向?yàn)橐曨l圖像處理、信息安全;
張小博(1987— ),博士,主要研究方向?yàn)橐曨l圖像處理。
責(zé)任編輯:閆雯雯
Multiple features fusion for object tracking in complex scenes
DING Jianwei1, TANG Yunqi1, TIAN Huawei1, ZHANG Xiaobo2
(1.People′sPublicSecurityUniversityofChina,Beijing102623,China;2.TheThirdResearchInstituteofChinaElectronicsTechnologyGroupCorporation,Beijing100015,China)
To address difficulties of traditional object tracking methods which can′t track moving object effectively in complex scenes, a multiple features fusion based discriminative object tracking algorithm in particle filter framework is proposed. Firstly, the relationship between feature extraction and robustness and accuracy of tracking algorithm is analyzed, and points out that it can promote tracking performance largely by using multiple features in complex scenes. HSV color feature and HOG feature are selected to represent appearance of object, and the online trained logistic regression classifier is used to construct the discriminative appearance model. The method is tested in public videos with complex scenes. Results obtained by using only one kind of feature and multiple kinds of features are compared. And the proposed method with other classic tracking algorithms are compared. Experimental results show that the proposed object tracking algorithm with multiple features is more robust and accurate.
video tracking; multiple features fusion; complex scenes
TN941.1
ADOI: 10.16280/j.videoe.2016.10.019
國(guó)家自然科學(xué)基金項(xiàng)目(61503388;61402484;61503387);中國(guó)人民公安大學(xué)2016年度中央高校基本科研業(yè)務(wù)費(fèi)項(xiàng)目(2016JKF01203)
2015-11-20
文獻(xiàn)引用格式:丁建偉,唐云祁,田華偉,等. 復(fù)雜場(chǎng)景下基于多特征融合的視頻跟蹤[J].電視技術(shù),2016,40(10):93-96.
DING J W, TANG Y Q, TIAN H W,et al. Multiple features fusion for object tracking in complex scenes[J]. Video engineering,2016,40(10):93-96.