梁貴書(shū),牛為華,李寶樹(shù),李 強(qiáng),趙 鵬
(1.華北電力大學(xué)電力工程系,河北 保定 071003;2.華北電力大學(xué)計(jì)算機(jī)系,河北 保定 071003;3.河北省電力公司,石家莊 050021)
視覺(jué)跟蹤是計(jì)算機(jī)視覺(jué)研究領(lǐng)域中的一個(gè)重要課題,廣泛的應(yīng)用于智能監(jiān)控、視覺(jué)導(dǎo)航和人機(jī)交互等領(lǐng)域。國(guó)內(nèi)外的許多研究者們做了大量視覺(jué)跟蹤問(wèn)題的研究,并提出了許多可行的跟蹤算法。依據(jù)目標(biāo)表觀模型的建模方法,可以將當(dāng)前的跟蹤方法分為三類[1]:生成式跟蹤方法,如Mei[2]通過(guò)求解1最小化問(wèn)題實(shí)現(xiàn)跟蹤目標(biāo),zhang[3]提出將目標(biāo)跟蹤視為多任務(wù)稀疏學(xué)習(xí)問(wèn)題,Xu[4]提出了結(jié)構(gòu)化局部稀疏外觀模型,郭[5]利用擬蒙特卡羅模擬退火算法解決極大似然概率多假設(shè)中多目標(biāo)的優(yōu)化求解問(wèn)題;判別式跟蹤方法,如Babenko[6]利用多樣例學(xué)習(xí)進(jìn)行目標(biāo)跟蹤,Kalal[7]提出了跟蹤學(xué)習(xí)檢測(cè);混合式跟蹤方法,如Zhong[8]利用稀疏協(xié)同模型的魯棒目標(biāo)跟蹤算法,彭[9]將視覺(jué)顯著性與動(dòng)態(tài)模板匹配相結(jié)合從而進(jìn)行目標(biāo)識(shí)別。這些方法在一定程度上提高了目標(biāo)跟蹤的效果。然而,在復(fù)雜多變的自然場(chǎng)景中實(shí)現(xiàn)對(duì)表觀變化的目標(biāo)進(jìn)行魯棒的跟蹤依然存在很多困難,包括場(chǎng)景光照的變化、目標(biāo)旋轉(zhuǎn)、局部遮擋、目標(biāo)的形態(tài)以及尺度的變化等。因此,本文針對(duì)視覺(jué)跟蹤的難點(diǎn),提出了一種基于重要性加權(quán)的結(jié)構(gòu)稀疏跟蹤方法,通過(guò)常用視覺(jué)跟蹤的評(píng)價(jià)指標(biāo)精確度以及時(shí)間效率驗(yàn)證了提出新方法的有效性。
結(jié)構(gòu)稀疏表示[10-11]是在局部稀疏表示的基礎(chǔ)上提出來(lái)的,能夠融合局部信息和全局信息對(duì)目標(biāo)進(jìn)行稀疏表示。設(shè)X為一歸一化后的目標(biāo)圖像,根據(jù)事先給定塊的大小和步長(zhǎng),分塊按照從上到下、從左到右的方式進(jìn)行,記局部圖像為xk∈Rm×1,k=1,2,…,K,m和K分別為局部圖像塊的維度和數(shù)量。為了得到各局部塊在字典上的稀疏表示,將每個(gè)局部塊的字典構(gòu)造當(dāng)作一個(gè)單獨(dú)的問(wèn)題。記xk對(duì)應(yīng)的局部稀疏字典為Dk,Dk由模板中與xk處于相同位置局部圖像構(gòu)成,所以可以完整地描述xk的表觀。本文用于字典學(xué)習(xí)的模板由10個(gè)目標(biāo)模板和10個(gè)背景模板組成。因目標(biāo)圖像中各局部塊均有一個(gè)相應(yīng)的局部字典,因此xk可以由字典Dk表示為
xk=αkDk+ek
(1)
式中:αk是xk在字典Dk上的稀疏系數(shù),ek是xk在字典Dk上的分解殘差。目標(biāo)圖像X的結(jié)構(gòu)稀疏字典由所有局部塊的字典組成,即D=[D1,D2,…,DK]。每個(gè)局部塊對(duì)應(yīng)目標(biāo)圖像的一個(gè)區(qū)域,所有的局部塊一起可以描述目標(biāo)的整個(gè)結(jié)構(gòu)。稀疏字典構(gòu)造的過(guò)程如圖1所示。
圖1 結(jié)構(gòu)稀疏字典的構(gòu)造過(guò)程
當(dāng)目標(biāo)區(qū)域被分塊處理后,通過(guò)表達(dá)局部塊的局部特征來(lái)描述目標(biāo)的表觀。本文根據(jù)局部圖像在描述表觀時(shí)所起的作用對(duì)其進(jìn)行加權(quán)處理,使穩(wěn)定區(qū)域的權(quán)重值大,容易發(fā)生變化的區(qū)域權(quán)重值小。圖2為局部區(qū)域加權(quán)示意圖,將目標(biāo)區(qū)域分為16個(gè)子塊,每個(gè)子塊的權(quán)重分別為w1,w2,…,w16,若子塊1、2和5被遮擋而變的不穩(wěn)定,相應(yīng)地,w1、w2和w5將獲得較低的權(quán)重。本文根據(jù)局部圖像的重建殘差來(lái)定義每個(gè)局部塊的重要性。
圖2 局部重要性加權(quán)示意圖
(2)
則目標(biāo)局部圖像xk在字典Dw上的重建殘差為
ek=‖xk-Dwβk‖2
(3)
令目標(biāo)局部圖像xk的權(quán)重為
wk=exp(-ek)
(4)
則目標(biāo)圖像的權(quán)重矢量W=[w1,w2,…,wK]∈R1×K,W中的值描述了各局部圖像的穩(wěn)定性。權(quán)重值越大表示該區(qū)域越穩(wěn)定,該局部圖像在目標(biāo)表觀建模中就越重要。圖3(a)是歸一化后的目標(biāo)圖像,圖3(b)顯示了該圖像的權(quán)重分布示意圖,灰色代表權(quán)重值較小,白色代表權(quán)重值較大。為了降低跟蹤漂移發(fā)生的可能性,僅在視頻圖像序列的首幀構(gòu)造一次目標(biāo)的權(quán)重字典。當(dāng)更新目標(biāo)模型時(shí),計(jì)算當(dāng)前跟蹤結(jié)果的局部塊在權(quán)重字典上的重建殘差,對(duì)目標(biāo)的權(quán)重矢量進(jìn)行更新。
圖3 目標(biāo)圖像的權(quán)重分布示意圖
視覺(jué)跟蹤中,觀測(cè)模型通常表示為樣本與目標(biāo)間的相似度,表明采樣狀態(tài)是跟蹤結(jié)果的概率。圖4給出了算法的跟蹤流程。
圖4 重要性加權(quán)結(jié)構(gòu)稀疏跟蹤算法流程
在跟蹤過(guò)程中,根據(jù)上節(jié)的方法對(duì)當(dāng)前所有采樣樣本建立樣本模型,設(shè)第i個(gè)樣本的表觀模型為Ci,為度量目標(biāo)模型B與樣本模型Ci之間的相似程度,視模型為直方圖,根據(jù)直方圖相交定義二者間的相似性函數(shù)F為
(5)
(6)
式中:ek由式(3)計(jì)算,表示第k個(gè)圖像的殘差。φ為遮擋檢測(cè)閾值。加入該值后,B與Ci間的相似性函數(shù)為
(7)
式中:μ為歸一化參數(shù),式(7)利用稀疏表示系數(shù)之間的相似關(guān)系來(lái)計(jì)算目標(biāo)模型與樣本模型間的相似度,利用遮擋檢測(cè)排除遮擋的干擾。
通過(guò)目標(biāo)模型對(duì)跟蹤結(jié)果的表達(dá)程度,來(lái)判斷模板是否需要更新。令Ft為第t幀時(shí)的目標(biāo)模型與當(dāng)前跟蹤結(jié)果的相似值,Ft由式(7)確定,則由式(8)來(lái)判斷模板是否需要更新
(8)
式中:θ1為更新下限閾值,用來(lái)避免產(chǎn)生錯(cuò)誤的更新。θ2為更新上限閾值,用來(lái)減少產(chǎn)生不必要的更新。對(duì)于跟蹤中圖像序列的每一幀,由式(7)和式(8)對(duì)當(dāng)前模型的表達(dá)能力進(jìn)行判斷。若符合更新的條件,則進(jìn)行模板更新;否則,直接跟蹤下一幀。
P(St|St-1)=N(St;St-1,Σ)
(9)
式中:N表示高斯分布函數(shù),Σ表示方差矩陣,它的形式為對(duì)角矩陣并且對(duì)角元素是仿射變換的參數(shù)。由式(9)可對(duì)第t幀的目標(biāo)狀態(tài)進(jìn)行采樣。目標(biāo)的觀測(cè)模型P(ot|st)建模為式(7)所示的相似性函數(shù)
(10)
目標(biāo)在第t幀的狀態(tài)根據(jù)最大后驗(yàn)概率估計(jì)確定,即
(11)
為了評(píng)估本文算法的跟蹤性能,在Benchmark平臺(tái)上的51個(gè)公開(kāi)的標(biāo)準(zhǔn)視頻序列上進(jìn)行跟蹤實(shí)驗(yàn),并挑選了6個(gè)典型的挑戰(zhàn)性視頻序列的部分跟蹤結(jié)果進(jìn)行展示。所選的視頻序列如表1所示,分別為:Faceocc1,Faceocc2,Car4,Bolt,Coke,Deer。這些視頻序列覆蓋了絕大多數(shù)挑戰(zhàn)性場(chǎng)景,例如遮擋、運(yùn)動(dòng)模糊、光照變化、目標(biāo)尺寸及形態(tài)變化、目標(biāo)發(fā)生旋轉(zhuǎn)以及復(fù)雜背景等。
每個(gè)圖像樣本經(jīng)過(guò)仿射變換被映射到32 pixel×32 pixel的矩陣空間;利用600個(gè)粒子對(duì)目標(biāo)的真實(shí)狀態(tài)進(jìn)行了逼近;局部圖像塊的尺寸為8 pixel×8 pixel,即局部塊的維度m為64;分塊步長(zhǎng)為8 pixel,按照從上到下,從左到右的順序?qū)δ繕?biāo)圖像進(jìn)行分塊,則每個(gè)目標(biāo)圖像包含的局部塊的數(shù)量K為16;聚類中心個(gè)數(shù)c設(shè)置為10;遮擋檢測(cè)閾值φ設(shè)置為0.05;更新閾值θ1和θ2分別為30和50;相似性函數(shù)中的歸一化參數(shù)μ設(shè)置為0.5。為了驗(yàn)證本文方法的優(yōu)越性,對(duì)比分析了MTT[3]、ASLA[4]、MIL[6]、TLD[7]、SCM[8]。
表1 視頻及其挑戰(zhàn)性因素
通過(guò)算法在處理局部遮擋、姿態(tài)變化、光照與尺度變化及背景雜波等問(wèn)題時(shí)的跟蹤結(jié)果來(lái)定性分析算法的跟蹤性能。
從圖5中圖像序列Faceocc1跟蹤結(jié)果來(lái)看,對(duì)于目標(biāo)重復(fù)遮擋情況,TLD的跟蹤不穩(wěn)定,在200幀左右偏離了目標(biāo)的實(shí)際位置,在第300幀左右又恢復(fù)了正確的目標(biāo)跟蹤;ASLA始終未能恢復(fù)正確的目標(biāo)跟蹤;MIL在600幀左右之后,產(chǎn)生了較嚴(yán)重的跟蹤漂移;SCM和MTT在該視頻序列上從始至終獲得了較好的跟蹤結(jié)果;本文方法取得了更準(zhǔn)確的跟蹤結(jié)果。
圖5 視頻序列部分跟蹤結(jié)果
從圖5中圖像序列Faceocc1跟蹤結(jié)果來(lái)看,對(duì)于目標(biāo)旋轉(zhuǎn)和遮擋情況,由于MIL和MTT方法僅考慮全局信息,當(dāng)目標(biāo)發(fā)生旋轉(zhuǎn)和遮擋時(shí),會(huì)產(chǎn)生漂移;ASLA雖然使用結(jié)構(gòu)稀疏模型建模目標(biāo),但是它對(duì)局部圖像的處理是等權(quán)重的,在第718幀之后偏離了目標(biāo)的位置;SCM采用混合模型描述目標(biāo),但是遮擋對(duì)模型的影響也會(huì)干擾到模型的性能,在第700幀左右發(fā)生了尺度估計(jì)的偏差;本文方法能夠適應(yīng)變化較好,取得了更準(zhǔn)確的跟蹤結(jié)果。
從圖5中圖像序列Car4跟蹤結(jié)果來(lái)看,對(duì)于光照變化和尺度變化情況,TLD在第241幀左右產(chǎn)生了較嚴(yán)重的跟蹤漂移,在第431幀左右又恢復(fù)了正確的跟蹤目標(biāo);MIL表現(xiàn)較差,在第241幀左右就幾乎丟失目標(biāo),之后也始終未能恢復(fù)準(zhǔn)確的定位跟蹤;MTT方法到第241幀左右開(kāi)始出現(xiàn)較大的跟蹤誤差,直到跟蹤結(jié)束也沒(méi)有恢復(fù)對(duì)目標(biāo)狀態(tài)的正確估計(jì);本文方法和ASLA、SCM在整個(gè)視頻序列上都表現(xiàn)了良好的跟蹤性能。
從圖5中圖像序列Bolt跟蹤結(jié)果來(lái)看,對(duì)于局部遮擋和嚴(yán)重姿態(tài)變化情況,TLD、MIL、MTT、ASLA和SCM無(wú)法處理目標(biāo)頻繁的姿態(tài)變化,因此在跟蹤開(kāi)始后不久就完全失去了目標(biāo)的真實(shí)狀態(tài)。其中,TLD在第100幀左右產(chǎn)生漂移;MIL、MTT、ASLA和SCM在第15幀左右就產(chǎn)生了較大的跟蹤誤差,之后丟失目標(biāo);本文方法在整個(gè)視頻上都保持了準(zhǔn)確的跟蹤。
從圖5中圖像序列Coke跟蹤結(jié)果來(lái)看,對(duì)于光照變化同時(shí)又伴隨快速移動(dòng)、平面旋轉(zhuǎn)等復(fù)雜性挑戰(zhàn)情況,MIL在第20幀左右因Coke罐平面移動(dòng)而產(chǎn)生跟蹤誤差,在第40幀左右因嚴(yán)重遮擋而再次偏離了目標(biāo)的真實(shí)位置;ASLA在第40幀左右丟失目標(biāo);SCM和MTT雖然開(kāi)始能夠保持對(duì)目標(biāo)的跟蹤,但是在第190幀之后發(fā)生了偏移;TLD跟蹤目標(biāo)發(fā)生漂移;本文方法保持了準(zhǔn)確的跟蹤。
從圖5中圖像序列Deer跟蹤結(jié)果來(lái)看,對(duì)于運(yùn)動(dòng)模糊、快速運(yùn)動(dòng)和背景雜波等情況,ASLA和SCM在第10幀時(shí)目標(biāo)模型失效,跟蹤發(fā)生偏移;MIL在第38幀左右,目標(biāo)圖像由于模糊而失去清晰的邊界時(shí),不能準(zhǔn)確地描述目標(biāo)當(dāng)前的表觀,導(dǎo)致跟蹤產(chǎn)生誤差。TLD在第10幀到第18幀之間、第24幀到第34幀之間發(fā)生跟蹤漂移;本文方法保持了準(zhǔn)確的跟蹤。
本文方法采用結(jié)構(gòu)稀疏模型同時(shí)對(duì)目標(biāo)的局部信息和結(jié)構(gòu)信息建模,并且通過(guò)加權(quán)處理增強(qiáng)模型對(duì)表觀變化的魯棒性,經(jīng)過(guò)加權(quán)處理后,目標(biāo)模型排除了不穩(wěn)定的局部區(qū)域的干擾,增強(qiáng)了模型對(duì)目標(biāo)表觀變化的適應(yīng)能力,而在模板更新階段的遮擋檢測(cè)機(jī)制也提升了目標(biāo)模型對(duì)遮擋的處理能力。因此,在目標(biāo)出現(xiàn)遮擋、旋轉(zhuǎn)、光照變化、尺度變化、姿態(tài)變化、快速移動(dòng)、運(yùn)動(dòng)模糊及背景雜波等情況下仍能對(duì)其進(jìn)行有效的描述,降低了跟蹤中出現(xiàn)嚴(yán)重漂移的可能。
圖6 各挑戰(zhàn)性因素的TRE成功率曲線
為了能夠更為客觀地評(píng)價(jià)跟蹤算法的性能,需要制定合理的評(píng)價(jià)準(zhǔn)則。本文采用成功率標(biāo)準(zhǔn)來(lái)定量分析跟蹤效果,即計(jì)算跟蹤的重疊覆蓋率,該重疊覆蓋率考慮了目標(biāo)的尺度和姿態(tài),能夠表明每個(gè)算法的跟蹤穩(wěn)定性。已知每幀的跟蹤結(jié)果RT和真實(shí)值RG,則重疊覆蓋率定義為:score=area(RT∩RG)/area(RT∪RG),其中符號(hào)∩和∪分別代表兩個(gè)區(qū)域的交集和并集,area(·)為區(qū)域內(nèi)像素的個(gè)數(shù)。當(dāng)score值大于設(shè)定的重疊閾值t0時(shí),則認(rèn)為該方法在當(dāng)前圖像幀中成功跟蹤目標(biāo)。本文方法和其他對(duì)比方法在Benchmark中的51個(gè)測(cè)試視頻序列上進(jìn)行了定量分析。表2給出了包括本文方法在內(nèi)的6種方法在測(cè)試視頻序列上的平均重疊覆蓋率。
從表2中的數(shù)據(jù)可知,本文方法在絕大多數(shù)測(cè)試視頻上都獲得了最大的平均重疊覆蓋率,這充分證明了該算法的有效性。
表2 各種跟蹤方法的重疊覆蓋率均值
圖6給出了在背景雜波、光照變化、平面內(nèi)旋轉(zhuǎn)、遮擋、尺度變化和形態(tài)變化挑戰(zhàn)性因素下跟蹤方法在測(cè)試圖像序列上的時(shí)間魯棒性評(píng)估標(biāo)準(zhǔn)TRE(Temporal Robustness Evaluation)成功率曲線,為清晰起見(jiàn),僅顯示排名前6位的跟蹤方法的跟蹤性能曲線。
從圖6所示的跟蹤結(jié)果曲線可知,本文方法能夠充分利用目標(biāo)局部圖像間的結(jié)構(gòu)信息,從而對(duì)目標(biāo)的表觀變化具有更強(qiáng)的適應(yīng)性;對(duì)局部區(qū)域的加權(quán)處理,使得該方法能夠有效地捕捉到目標(biāo)的表觀變化;在跟蹤過(guò)程中,遮擋檢測(cè)的更新機(jī)制,減輕了遮擋對(duì)跟蹤的影響。因此,本文方法有較好的跟蹤準(zhǔn)確性和魯棒性。
本文在粒子濾波框架下,提出了一種基于重要性加權(quán)的結(jié)構(gòu)稀疏跟蹤算法。該方法通過(guò)引入仿射變換,使跟蹤結(jié)果能更好地描述目標(biāo)的狀態(tài);采用結(jié)構(gòu)稀疏表示對(duì)目標(biāo)表觀建模,利用了背景判別信息、目標(biāo)圖像局部信息和它們之間的結(jié)構(gòu)信息,減輕了模型退化;根據(jù)在表達(dá)目標(biāo)表觀時(shí)所起的作用,對(duì)每個(gè)局部圖像進(jìn)行加權(quán)處理,進(jìn)一步提高了目標(biāo)模型的魯棒性;在模板更新階段,通過(guò)帶有遮擋檢測(cè)機(jī)制的模板更新策略對(duì)目標(biāo)模板進(jìn)行在線的更新以避免跟蹤漂移,從而使得該算法能夠更好的適應(yīng)目標(biāo)表觀的變化。但是,本文方法在光照變化和尺度變化的同時(shí),跟蹤性能略差,如何進(jìn)行混合多種挑戰(zhàn)因素的圖像序列跟蹤是繼續(xù)研究的目標(biāo)。
[1] 齊苑辰,吳成東,陳東岳,等. 基于稀疏表達(dá)的超像素跟蹤算法[J]. 電子與信息學(xué)報(bào),2015(3):529-535.
[2] Mei X,Ling H B. Robust Visual Tracking UsingL1Minimization[C]//IEEE International Conference on Computer Vision,Kyoto,Japan,2009:1436-1443.
[3] Zhang T,Ghanem B,Liu S,et al. Robust Visual Tracking Via Multi-Task Sparse Learning[J]. International Journal of Computer Vision,2013,101(2):367-383.
[4] Xu J,Huchuan L,Ming-Hsuan Y. Visual Tracking Via Adaptive Structural Local Sparse Appearance Model[C]//IEEE Conference on Computer Vision and Pattern Recognition,2012:1822-1829.
[5] 郭云飛,滕方成,曾澤斌. 基于QS-ML-PMHT的多目標(biāo)無(wú)源協(xié)同定位方法[J]. 傳感技術(shù)學(xué)報(bào),2016,29(11):1753-1758.
[6] Babenko B,Yang M X,Belongie S. Visual Tracking with Online Multiple Instance Learning[C]//IEEE Conference on Computer Vision and Pattern Recognition,Miami FL,USA,2009:983-990.
[7] Kalal Z,Matas J,Mikolajczyk K. P-N Learning:Bootstrapping Binary Classifiers by Structural Constraints[C]//IEEE Conference on Computer Vision and Pattern Recognition,2010:49-56.
[8] Zhong W,Lu H C,Ming-Hsuan Y. Robust Object Tracking Via Sparsity-Based Collaborative Model[C]//IEEE Conference on Computer Vision and Pattern Recognition,Providence,USA,2012:1838-1845.
[9] 彭玉青,李木,高晴晴,等. 基于動(dòng)態(tài)模板匹配的移動(dòng)機(jī)器人目標(biāo)識(shí)別[J]. 傳感技術(shù)學(xué)報(bào),2016,29(1):58-63.
[10] Tianzhu Z,Si L,Changsheng X,et al. Structural Sparse Tracking[C]//IEEE Conference on Computer Vision and Pattern Recognition,Boston,USA,2015:150-158.
[11] 侯躍恩,李偉光,四庫(kù),等. 基于排名的結(jié)構(gòu)稀疏表示目標(biāo)跟蹤算法[J]. 華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,41(11):23-29.
[12] Elhamifar E,Sapiro G,Sastry S. Dissimilarity-Based Sparse Subset Selection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,38(11):2182-2197.