劉師師 徐學(xué)軍 李敏
收稿日期:2014-05-23
作者簡(jiǎn)介:劉師師(1990-),女,湖南郴州人,碩士研究生,主要研究方向:電路與系統(tǒng);
徐學(xué)軍(1964-),男,湖南益陽人,博士,教授,碩士生導(dǎo)師,主要研究方向:計(jì)算機(jī)應(yīng)用技術(shù)、醫(yī)學(xué)信息處理、電路與系統(tǒng)等。
摘要:針對(duì)L1跟蹤算法僅考慮了稀疏全局表達(dá)的不足,基于在線詞典學(xué)習(xí)的視覺跟蹤算法將詞典池化的優(yōu)化方法引入到稀疏表示模型中,充分利用了目標(biāo)模板的局部結(jié)構(gòu)和空間信息,并采用了一種有效的自適應(yīng)更新方法,本文根據(jù)該算法實(shí)現(xiàn)了視覺跟蹤處理。通過實(shí)驗(yàn)對(duì)比IYT、MIL和L1這三種目前較先進(jìn)的跟蹤算法,驗(yàn)證了本跟蹤處理器的先進(jìn)性和有效性。
關(guān)鍵詞:視覺跟蹤; 稀疏表示; 詞典池化
中圖分類號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2095-2163(2014)03-0090-03
Realization of The Visual Tracking Algorithm based on Online Dictionary to Learn
LIU Shishi, XU Xuejun, LI Min
(School of Physics And Electronic Science,Changsha University of Science And Technology,Changsha 410114,China)
Abstract:For the problem L1 tracking algorithm only considering sparse global express, pooling optimization method in the visual tracking algorithm based on online learning dictionary is introduced into the sparse representation model, which makes full use of local structure and spatial information. After that,using an effective adaptive updating method, this paper realizes the visual tracking processing. By contrast the experiment of IYT, MIL and L1, these three advanced tracking algorithm, the effectiveness of this tracking processor is verified.
Key words:Visual Tracking; Sparse Representation; Pooling Dictionary
0引言
作為計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要課題,視覺跟蹤更典型的應(yīng)用主要涉及車輛導(dǎo)航,人機(jī)界面和監(jiān)測(cè)研究等方面,而且在其中融合了計(jì)算機(jī)圖像處理、模式識(shí)別、人工智能及自動(dòng)控制等相關(guān)領(lǐng)域的諸多知識(shí)與關(guān)鍵技術(shù)。開展視頻目標(biāo)跟蹤的研究旨在模擬人類視覺運(yùn)動(dòng)感知功能,提升機(jī)器對(duì)序列圖像中運(yùn)動(dòng)目標(biāo)的辨識(shí)能力,由此而為視頻分析和理解提供重要的基礎(chǔ)實(shí)用數(shù)據(jù)[1-3]。
1詞典學(xué)習(xí)
目前,已有許多方法提出了基于詞典學(xué)習(xí)的重構(gòu)誤差最小化的稀疏表示,稀疏表示,也稱壓縮傳感,也是為數(shù)眾多領(lǐng)域的研究基礎(chǔ),并已在多類視覺應(yīng)用中獲得了成功[4]。鑒于稀疏的限制,一個(gè)信號(hào)可以表示為只有少數(shù)基向量的線性組。此后,根據(jù)目標(biāo)模板的存儲(chǔ)和更新,即形成了動(dòng)態(tài)詞典。針對(duì)如何快速而準(zhǔn)確地找到查詢點(diǎn)的近鄰,現(xiàn)已提出了高維空間索引結(jié)構(gòu)和近似查詢的很多種方法,本文采用的KD(k-dimensional)樹查找即為其中的一種[5]。
2模型構(gòu)建
針對(duì)樣品的一組重疊的局部圖像塊內(nèi)的目標(biāo)區(qū)域與空間布局,本文采用了目標(biāo)模板T=[Ti,T2,…,Tn],其中n為目標(biāo)模板數(shù)。
2.1詞典生成
初始階段,從目標(biāo)模板中選取樣本建立模板詞典,每5幀圖像采用KD樹追蹤獲取nT個(gè)范例:在每一幀中選取10個(gè)目標(biāo),用KD樹跟蹤這10個(gè)目標(biāo),存放在范例堆棧中。
利用KD樹查找最佳候選目標(biāo)并加入目標(biāo)模板詞典后,可將圖像分塊,每一塊的像素均排置到一起,返回的則是每個(gè)塊所含的像素標(biāo)簽,及每個(gè)塊所含的像素大小,由此而形成了塊索引,由塊索引進(jìn)而生成了塊詞典。此處假定塊尺寸是8,那么在目標(biāo)模板分塊中每步移動(dòng)的尺寸就是4。也就是說,塊與塊之間是有重疊的。這些可能候選區(qū)域內(nèi)的局部塊將用作詞典編碼,即D=[di,d2,…,dn×N]∈Rd×(n×N),其中,D是圖像塊矢量的維數(shù),n為目標(biāo)模板數(shù),N則是在目標(biāo)區(qū)域局部塊的采樣數(shù)量。以下的D,n,N的表述含義均與此處相同。
2.2詞典池化
對(duì)于一個(gè)候選目標(biāo),提取局部塊,利用塊索引生成候選塊,由Z=[z1,z2,…,zN]∈Rn×N表示。局部塊的目標(biāo)區(qū)域利用稀疏假設(shè),可以表示為只有幾個(gè)基礎(chǔ)詞典元素線性組合的形式,具體描述為:
min‖zi-dbi‖2+λ‖bi‖1,
s.t.bi≥0.(1)
這里,i是向量的局部圖像塊,bi∈R(n×N)×1是相應(yīng)的局部稀疏編碼塊,bi≥0意味著所有元素都是非負(fù)的。每個(gè)局部稀疏系數(shù)塊可分成若干段,并與模板向量的每個(gè)元素相對(duì)應(yīng),即biT=[bi(1)T,bi(2)T,…,bi(n)T,],其中bi(k)∈RN×1表示系數(shù)向量的k階段元素。對(duì)這些分段系數(shù)進(jìn)行加權(quán),獲得第i個(gè)塊,具體如公式(2)所示。
Xi=1C∑nk=1bi(k), i=1,2,…,N(2)
這里,向量Xi對(duì)應(yīng)于第i個(gè)局部,C是常數(shù)。包含目標(biāo)對(duì)象的模板經(jīng)常出現(xiàn)一些變化,在這些模板加權(quán)應(yīng)比別的模板具有更豐富、更確定的表示,可由公式(2)和稀疏編碼進(jìn)行加權(quán)處理。所有的向量Xi的局部在候選區(qū)域形成一個(gè)正方形矩陣X塊,利用L1正則優(yōu)化即將候選目標(biāo)塊表示為塊詞典的稀疏線性組合。
雖然單一的局部塊失去了空間信息,并且只考慮自己的系數(shù)向量描述,但卻可以通過L1正則優(yōu)化的矢量圖像局部塊所提取的T,而得知D中的每一列的每個(gè)局部都代表著一個(gè)固定目標(biāo)對(duì)象的某一局部,因此由局部塊信息即能完整地表示目標(biāo)結(jié)構(gòu)。從局部塊中收集模板,詞典收錄的這些模板即代表了各種形式的不同局部。
每個(gè)局部代表候選模塊一定位置的塊,通過塊模板的不同位置即可獲得。采用平方矩陣的對(duì)角元素X作為合并的特征,一個(gè)局部塊的外觀變化就可以在模板的相同位置塊利用稀疏代碼更好地表示出來。
當(dāng)目標(biāo)對(duì)象被局部遮擋,仍然可以僅由幾個(gè)原子的代表大系數(shù),而遮擋的斑塊密度表示的詞典,所以這是圖像塊不是遮擋。然而,對(duì)于一個(gè)性能良好的候選模板,局部圖像塊有更密集的、混合特征較小的系數(shù)。通過詞典池化的優(yōu)化方法可將候選塊的稀疏系數(shù)生成候選目標(biāo)與模板的相似度,而相似性度量則是通過詞典池化的方法在局部版塊內(nèi)劃定的一個(gè)候選區(qū)域。同時(shí),利用粒子的相似性度量還可構(gòu)造塊長(zhǎng)特征,即將塊數(shù)的單位矩陣變換成一個(gè)塊數(shù)乘以塊數(shù)的長(zhǎng)向量。如此則有助于更準(zhǔn)確地定位目標(biāo)對(duì)象與處理部分遮擋。第3期劉師師,等:基于在線詞典學(xué)習(xí)視覺跟蹤算法的實(shí)現(xiàn)智能計(jì)算機(jī)與應(yīng)用第4卷
2.3詞典更新
最后,基于增量奇異值分解算法,運(yùn)用堆棧方式將稀疏正交子空間的增量PCA(Principal Component Analysis)重構(gòu)的批處理最優(yōu)候選目標(biāo)加入目標(biāo)模板,并重新生成模板詞典和塊詞典,以上就形成了一個(gè)自適應(yīng)更新過程。
本文采用的增量子空間學(xué)習(xí)稀疏表示,能適應(yīng)模板目標(biāo)的外觀變化,將新的跟蹤結(jié)果更直接地存儲(chǔ)在模板堆棧中[6]。為了尋求一個(gè)平衡新舊模板之間的不同的更新概率方式,產(chǎn)生了一個(gè)累積概率序列,數(shù)學(xué)表示如公式(3)所示。
Lp={0, 12n-1-1, 32n-1-1, …, 1}(3)
根據(jù)均勻分布在單位區(qū)間[0,1]內(nèi)產(chǎn)生一個(gè)隨機(jī)數(shù)R。這可使舊模板只是緩慢地更新,而新模板卻能快速地更新,從而在一定程度上緩解漂移的發(fā)生。
稀疏表示的子空間的增量學(xué)習(xí)是利用模型更新的模板。通過收集目標(biāo)對(duì)象的跟蹤結(jié)果,并實(shí)現(xiàn)了增量式學(xué)習(xí)方法,這不僅可以增量式地適應(yīng)外觀改變,同時(shí)也保留了視覺信息收集之下的綜合結(jié)果。估測(cè)目標(biāo)可以通過PCA基矢量的線性組合模型和其他瑣碎的模板采用公式(4)而運(yùn)算獲得。
P=U+e=[UI]q
e(4)
其中,P表示觀測(cè)向量,U矩陣表示基礎(chǔ)特征向量,q的系數(shù)由基礎(chǔ)特征向量和e來共同表示。由于遮擋引起的誤差噪聲是任意,且稀疏的,為此就要解決L1正則優(yōu)化的最小二乘問題,其數(shù)學(xué)表述為:
mine‖p-Hc‖22+λ‖c‖1(5)
在H=[UI]中,c=[qe]T和λ是正則參數(shù)??紤]到瑣碎的模板系數(shù)要采用噪聲或避免許多遮擋才能更新得到模板集。重構(gòu)后的圖像使得PCA基向量將不受遮擋的影響,因此可用于更新替換模板。
3實(shí)驗(yàn)結(jié)果與分析
本文采用MATLAB 2009b和Visual C++ 2008速成版開發(fā)工具,實(shí)現(xiàn)了一個(gè)桌面跟蹤系統(tǒng)。通過以下三組視頻跟蹤序列與L1算法進(jìn)行了對(duì)比實(shí)驗(yàn)。
3.1部分遮擋
圖1顯示了當(dāng)目標(biāo)進(jìn)行遮擋或長(zhǎng)期局部遮擋的跟蹤結(jié)果。針對(duì)Faceocc2序列,當(dāng)面臨嚴(yán)重阻擋使眾多的追蹤器漂移并遠(yuǎn)離目標(biāo)時(shí),本文的方法能夠精確地跟蹤目標(biāo),這是因?yàn)榻Y(jié)構(gòu)化的局部稀疏外觀模型既有空間信息,也有局部信息。這些信息有助于屏蔽太多的影響,進(jìn)而更好地防止遮擋。并且,因?yàn)槭褂昧苏w和局部?jī)煞N信息,當(dāng)目標(biāo)重新出現(xiàn)即更容易再次區(qū)分目標(biāo)以及類似的對(duì)象。
圖1有圖像部分遮擋的Faceocc2序列
Fig.1Faceocc2 sequence with image partial occlusion
3.2光照變化
圖2顯示了在大型照明變化下的序列跟蹤結(jié)果。圖中Singer序列的對(duì)比目標(biāo)和背景均是低分辨的。當(dāng)光照發(fā)生劇烈變化時(shí),本文的方法很好地完成了歌手的跟蹤,而L1跟蹤法卻漂移到雜亂的背景。這可以歸結(jié)于使用增量子空間學(xué)習(xí)能夠捕捉由于照明強(qiáng)弱所引起的外觀變化。
圖2有圖像光照變化的Singer序列
Fig.2Singer sequence with illumination changes3.3背景雜波
圖3是目標(biāo)對(duì)象出現(xiàn)在背景雜波時(shí)的跟蹤結(jié)果。Stone
圖3有圖像背景雜波的Stone序列
Fig.3Stone sequence with image clutter
序列有許多不同形狀和顏色的石頭,因此非常具有挑戰(zhàn)性。當(dāng)跟蹤目標(biāo)被擋住,L1追蹤方法產(chǎn)生了漂移,而本文的方法卻成功地實(shí)現(xiàn)了目標(biāo)跟蹤。
4結(jié)束語
本文基于在線詞典學(xué)習(xí)視覺跟蹤算法所構(gòu)建的模型,對(duì)目標(biāo)區(qū)域內(nèi)的局部圖像重疊分塊,不斷地自適應(yīng)更新外觀模板形成詞典。由于該方法同時(shí)利用了局部結(jié)構(gòu)和空間信息,對(duì)于一些不易追蹤的遮擋,有助于更為精確地完成目標(biāo)跟蹤。
參考文獻(xiàn):
[1]WU Yi,LIM J, YANG Ming-Hsuan.Online object tracking: a benchmark[J]. IEEE Conference on Computer Vision and Pattern Recognition. 23-282013:(3)2411-2418.
[2]BABENKO B,YANG MING-HSUAN,BELONGIE S.Robust object tracking with online multiple instance learning[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(8):1619 - 1632.
[3]李安平.復(fù)雜環(huán)境下的視頻目標(biāo)跟蹤算法研究[D].上海:上海交通大學(xué),2006.
[4]MEI Xue,LING Haibin.Robust visual tracking and vehicle classification via sparse representation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(11):2259 - 2272.
[5]郭丁云.大規(guī)模視頻集中的近重復(fù)檢測(cè)[D].合肥:合肥工業(yè)大學(xué),2013.
[6]FENG Guorui,HUANG Guangbin,LIN Qingping,et al. Error minimized extreme learning machine with growth of hidden nodes and incremental learning[J]. IEEE Transactions on Networks Neural,2009,20(8) :1352 - 1357.
智能計(jì)算機(jī)與應(yīng)用2014年3期