鄭 超 陳 杰 殷松峰 楊 星 馮云松 凌永順
?
改進的協(xié)同訓(xùn)練框架下壓縮跟蹤
鄭 超①陳 杰*②殷松峰①楊 星①馮云松①凌永順①
①(電子工程學(xué)院脈沖功率激光技術(shù)國家重點實驗室 合肥 230037),②(安徽建筑大學(xué)電子與信息工程學(xué)院 合肥 230037)
針對基于傳統(tǒng)協(xié)同訓(xùn)練框架的視覺跟蹤算法在復(fù)雜環(huán)境下魯棒性不足,該文提出一種改進的協(xié)同訓(xùn)練框架下壓縮跟蹤算法。首先,利用空間布局信息,基于能量熵最大化的在線特征選擇技術(shù)提升壓縮感知分類器的判別能力,分別在灰度空間和局部二值模式空間建立起基于結(jié)構(gòu)壓縮特征的兩個獨立分類器。然后,基于候選樣本信任度分布熵的分類器聯(lián)合機制實現(xiàn)互補性特征的自適應(yīng)融合,增強跟蹤結(jié)果的魯棒性。最后,在級聯(lián)的梯度直方圖分類器輔助下,通過具備樣本選擇能力的新型協(xié)同訓(xùn)練準則完成聯(lián)合外觀模型的準確更新,解決了協(xié)同訓(xùn)練誤差的積累問題。對大量具有挑戰(zhàn)性的序列的對比實驗結(jié)果驗證了該算法相比于其它近似跟蹤算法具有更優(yōu)的性能。
視覺跟蹤;協(xié)同訓(xùn)練;空間布局信息;壓縮感知分類器;熵
1 引言
視覺跟蹤作為計算機視覺系統(tǒng)的核心部分,被廣泛應(yīng)用于智能監(jiān)控,自動導(dǎo)航,虛擬現(xiàn)實,人機交互等領(lǐng)域[1]。根據(jù)不同的外觀表征機制,視覺跟蹤算法可以分為:生成式跟蹤算法和判別式跟蹤算法。判別式跟蹤算法作為視覺跟蹤算法中的主流分支,由于同時利用了目標信息和背景信息建立目標外觀模型,具有跟蹤精度高的優(yōu)點;但其“自學(xué)習(xí)”的分類器在線訓(xùn)練更新模式,容易使跟蹤器因為誤差的積累而出現(xiàn)“漂移問題”[7]。為解決上述問題,研究者將文獻[8]提出的協(xié)同訓(xùn)練理論引入到判別式跟蹤器設(shè)計。文獻[9]提出基于協(xié)同訓(xùn)練框架的兩類在線支持向量機跟蹤器;文獻[10]將判別式跟蹤器和生成式跟蹤器通過協(xié)同訓(xùn)練整合;文獻[11]通過協(xié)同訓(xùn)練最小化了boosting跟蹤器的誤差上限,但上述跟蹤器忽視了標準協(xié)同訓(xùn)練存在引入誤差正樣本的風(fēng)險,跟蹤器的魯棒性不高。這是因為相比于分類問題,協(xié)同訓(xùn)練工作的假設(shè)條件——特征充分冗余性在跟蹤問題中更難滿足,存在相互引入誤差樣本訓(xùn)練的風(fēng)險。
文獻[12]提出的多示例學(xué)習(xí)(Multiple Instance Learning, MIL)由多個樣本組成的樣本包完成訓(xùn)練更新,相比于基于單個樣本的訓(xùn)練更新能降低協(xié)同訓(xùn)練引入誤差的風(fēng)險,這是因為即使分類器出現(xiàn)誤差,但是“最正確”的樣本還是有很大的概率存在于彼此提供的正樣本包中,于是文獻[13]在協(xié)同訓(xùn)練框架下,將多示例學(xué)習(xí)用于構(gòu)建基于顏色特征和梯度特征的獨立分類器;文獻[14]論證了在壓縮域提取的廣義Haar-like特征要比傳統(tǒng)的Haar-like特征判別性更好,文獻[15]將其運用于協(xié)同訓(xùn)練框架下獨立分類器建立,通過獨立分類器判別能力的提升,降低引入誤差樣本的風(fēng)險。
本文在文獻[15]的基礎(chǔ)上,通過引入空間布局信息加權(quán),基于能量熵的弱分類器選擇技術(shù)進一步提升分類器的判別能力;然后,通過基于候選樣本信任度分布熵的分類器聯(lián)合機制得到最終的跟蹤結(jié)果,實現(xiàn)自適應(yīng)地依賴判別性更強的特征;最后,在訓(xùn)練梯度直方圖特征[16]建立的多示例學(xué)習(xí)分類器的輔助下完成協(xié)同訓(xùn)練,保證聯(lián)合分類器的準確更新。
2 改進壓縮感知分類器
文獻[14]首次提出了壓縮感知分類器,文獻[15]利用示例重要性信息對樣本包概率建模,不僅簡化了計算,還減小了潛在誤差樣本的干擾。本文在此基礎(chǔ)上,主要通過使壓縮特征具備空間布局信息和基于能量熵最大化的弱分類器選擇機制,進一步提高壓縮感知分類器的判別能力。
2.1 新型的結(jié)構(gòu)壓縮特征
引入空間布局信息的加權(quán)因子獲取目標的結(jié)構(gòu)特征,如圖1所示。樣本圖像塊的中心定義為,則圖像塊中任意點的空間信息權(quán)重如式(1)所示。
圖1 空間信息加權(quán)展示
2.2 基于能量熵最大化的弱分類器選擇
文獻[15]沿用了原MIL框架中弱分類器池的啟發(fā)式構(gòu)建方式,且選擇方法沒有度量信息,導(dǎo)致需要構(gòu)建容量較大的弱分類器池,增加了計算的負擔(dān),為此本文首先構(gòu)造一個容量較小的弱分類器池,將式(2)定義的能量熵函數(shù)代替原MIL框架中的包對數(shù)似然函數(shù);依照式(3),采用貪婪選擇法提取出判別力最強的弱分類器組成強分類器。
3 改進的協(xié)同訓(xùn)練框架下壓縮跟蹤算法
3.1 基于候選樣本信任度分布熵的分類器聯(lián)合
分別建立圖像的灰度空間和局部二值模式(Local Binary Pattern, LBP)空間[17]的表征,由于LBP能提供豐富的紋理信息,且具有旋轉(zhuǎn)不變性,與反映圖像亮度特性的灰度特征具有很好的互補性;同時能較好地滿足協(xié)同訓(xùn)練對特征獨立性的要求。
圖2 候選樣本基于兩種特征的信任度值分布(亮度越高代表信任度值越大)
本文采用基于中心區(qū)域信任度分布熵的分類器聯(lián)合機制,熵值越大,說明中心區(qū)域信任度分布越均勻,即較多的候選樣本的信任度近似,這是因為該分類器訓(xùn)練的特征判別力下降造成的;反之熵值越小,說明“最優(yōu)”樣本與含有背景區(qū)域的“次優(yōu)”樣本的信任度差距較大,說明該分類器訓(xùn)練的特征判別能力強,具體步驟如下:
步驟3 計算候選樣本信任度分布的熵:
步驟4 依據(jù)式(7)得到分類器的權(quán)重因子:
步驟5 由式(8)得到融合跟蹤的輸出結(jié)果。
3.2 級聯(lián)梯度特征分類器輔助下協(xié)同訓(xùn)練更新
為了豐富訓(xùn)練特征的多樣性,訓(xùn)練梯度方向直方圖特征得到的多示例學(xué)習(xí)分類器作為第3個分類器與本文提出的聯(lián)合分類器級聯(lián),設(shè)置訓(xùn)練更新的閾值條件,避免頻繁地錯誤更新;基于Tri- training算法的思想[18]通過不同分類器預(yù)測的一致性隱式地對候選樣本的信任度進行比較,從而有效地減小挑選出誤差樣本用于協(xié)同訓(xùn)練的概率,具體協(xié)同訓(xùn)練過程如下:
(3)在遠離目標的環(huán)形區(qū)域內(nèi)均勻、隨機采樣若干圖像塊作為負樣本包添加到和各自的訓(xùn)練集中;
(4)更新弱分類器參數(shù),并基于式(2),式(3)完成弱分類器選擇。
3.3 本文跟蹤算法實現(xiàn)
本文提出的協(xié)同訓(xùn)練跟蹤算法,首先分別建立基于圖像結(jié)構(gòu)灰度特征空間和結(jié)構(gòu)LBP特征空間的壓縮感知分類器;然后通過候選樣本信任度分布熵的分類器聯(lián)合機制得到最終的跟蹤結(jié)果;最后,在級聯(lián)分類器輔助下完成協(xié)同訓(xùn)練更新,其整體框架如圖3所示,偽碼如表1的算法1所示。
表1 改進的協(xié)同訓(xùn)練跟蹤算法
圖3 提出的跟蹤算法概況
4 實驗結(jié)果及分析
在3.60 GHz CPU的PC機上基于MATLAB 2012,本文算法實現(xiàn)了9.1 fps的跟蹤速度,滿足實時性要求。為了驗證其魯棒性,選用文獻[19]中10組序列組成測試序列;采用基于跟蹤結(jié)果的定性分析和基于中心位置誤差(Center Location Error, CLE)及跟蹤成功率(Tracking Success Rate, TSR)的定量分析[20]等手段對COCT[15], ODFS[21], CT[14], WMIL[22], COMIL[13]等5種近似算法和本文算法進行測試,COCT根據(jù)作者在文中的介紹編程實現(xiàn),其余算法由作者個人主頁提供的代碼實現(xiàn)。本文算法參數(shù)設(shè)置如下:構(gòu)建的弱分類器池的容量是100,需要挑選出的弱分類器數(shù)15;計算LBP特征的鄰域半徑為1, 8個像素點,閾值取8;計算HOG特征選擇8×8像素窗口和8梯度方向;啟動協(xié)同更新的閾值取第2幀分類器輸出極大值的1/4,= 0.85;正包的選擇半徑,共獲取45個正樣本;負包的環(huán)形內(nèi)外半徑為(12,34),共獲取42個負樣本;采用由粗到精的搜索策略,先完成初定位,候選樣本的選擇半徑=25,間隔4個像素,共有122個圖像塊;精定位的選擇半徑為10,間隔1個像素,共有314個圖像塊,學(xué)習(xí)率。
4.1 定量分析
TSR判斷是否成功的覆蓋比率閾值設(shè)為0.5。跟蹤結(jié)果的CLE和TSR分別如表2,表3所示,對于多數(shù)測試序列,本文提出的跟蹤算法都取得了最小的中心位置誤差和最高的跟蹤成功率,其余也是接近最優(yōu)結(jié)果;圖4是10組測試序列的中心位置誤差曲線,相比與近似算法,本文跟蹤算法的誤差曲線在絕大多數(shù)序列中都較低和平滑,所反映的結(jié)果與表2和表3一致;從中可以發(fā)現(xiàn),由于所有跟蹤算法都沒有進行目標丟失后重新手動定位,一旦丟失目標后,CLE就會急劇升高,而本文提出的跟蹤算法由于具有較好的魯棒性,因此在所有的測試序列中基本上都沒有丟掉目標。
表2 近似跟蹤器的中心位置誤差
圖4 近似跟蹤器對所有測試序列的中心位置誤差曲線
4.2 定性分析
為了更直觀地反映跟蹤算法的魯棒性,本文利用部分測試序列中關(guān)鍵幀的跟蹤結(jié)果示例詳細地分析當存在部分遮擋、尺度變化、姿態(tài)扭曲、光照變化、近似和雜亂背景等干擾因素時跟蹤算法的性能,如圖5、圖6所示。
圖5 近似跟蹤器的部分跟蹤結(jié)果示例
圖6 近似跟蹤器的部分跟蹤結(jié)果示例
遮擋 序列Leimming, Tiger1存在不同程度的遮擋。Leimming中第386幀,經(jīng)過遮擋后重新出現(xiàn)的目標,COMIL和ODFS無法繼續(xù)跟蹤;本文提出的跟蹤算法受益于空間信息的引入,增強了局部特征應(yīng)對遮擋的能力,同時在梯度特征分類器輔助下的協(xié)同訓(xùn)練模式有效避免了錯誤更新,因此對于反復(fù)遮擋的Tiger1只有本文算法始終沒有丟失目標。
光照變化 序列Shaking的第62幀,由于光照突然劇烈變化,單獨基于Haar-like特征的ODFS, WMIL和CT都出現(xiàn)了較大誤差,而本文利用的HOG特征具有較好的光照不變性,因此沒有受到干擾;序列David中目標在行進過程中表面光照條件不斷改變,除本文以外的其它算法一開始就出現(xiàn)了不同程度的誤差,隨著誤差積累,到300幀左右,當目標做出帶眼鏡動作后,CT和WMIL已經(jīng)完全丟掉了目標,COMIL, COCT和ODFS跟蹤精度隨著光照條件改變波動較大,只有本文算法始終保持對目標的高精度跟蹤。
姿態(tài)扭曲和尺度變化 序列Leimming的目標在前后旋轉(zhuǎn)后導(dǎo)致一開始跟蹤精度較高的CT丟掉了目標;Tiger1中目標多次進行翻滾導(dǎo)致ODFS和COCT誤差較大,很快完全丟失了目標,Sylvester在第622幀突然上下翻轉(zhuǎn)引起COCT和COMIL出現(xiàn)誤差,Shaking中目標尺度和姿態(tài)的不斷變化導(dǎo)致只有CT和本文算法能始終有效跟蹤??梢?,受益于分類器聯(lián)合機制的合理性,面對不同表現(xiàn)形式的姿態(tài)扭曲和尺度變化,本文算法都能較好地跟蹤。
近似、雜亂背景 序列Deer中,反復(fù)出現(xiàn)目標與其它鹿的身軀重合的情況,在這種近似背景下,原先訓(xùn)練的特征判別性減弱,分類器性能明顯下降,導(dǎo)致COCT和COMIL迅速丟掉了目標。序列Leimming背景包含:書籍、打火機、鑰匙串、游標卡尺等,呈現(xiàn)非常雜亂的狀態(tài),且由于具有豐富的顏色和紋理信息,導(dǎo)致分類器訓(xùn)練的特征在背景與目標之間差別較小,除本文跟蹤器以外的其它跟蹤器都出現(xiàn)了較長時間內(nèi)丟失目標,因此誤差遠遠大于本文提出的跟蹤器,說明了基于能量熵最大化挑選出來的弱分類器組成的強分類器具有更強的判別能力。
5 結(jié)束語
本文圍繞降低復(fù)雜環(huán)境下,基于協(xié)同訓(xùn)練框架的跟蹤算法相互引入誤差樣本訓(xùn)練的風(fēng)險,主要完成了3方面的工作,一是通過空間信息加權(quán)和能量熵最大化的弱分類器選擇機制分別提高基于結(jié)構(gòu)灰度壓縮特征的分類器和結(jié)構(gòu)LBP壓縮特征的分類器的判別能力;二是提出基于候選樣本信任度分布熵的分類器聯(lián)合機制,使跟蹤結(jié)果更加依賴判別性強的特征;三是在基于梯度特征多示例分類器的輔助下完成協(xié)同訓(xùn)練更新。多組具有挑戰(zhàn)性的序列的跟蹤結(jié)果驗證了本文提出的改進方法的有效性,因此相比于近似算法,魯棒性有了明顯提升,獲得了較好的跟蹤結(jié)果。下一步的研究重點包括:(1)提取穩(wěn)定性和判別性更強的特征訓(xùn)練獨立的分類器;(2)研究合理的協(xié)同訓(xùn)練過程中的樣本選擇機制;(3)研究通過并行計算和代碼的優(yōu)化處理提高本文算法的實時性。
[1] LI Xi, HU Weiming, SHEN Chunhua,. A survey of appearance models in visual object tracking[J]., 2013, 4(4): 58. doi: 10.1145/2508037.2508039.
[2] 袁廣林, 薛模根. 基于稀疏稠密結(jié)構(gòu)表示與在線魯棒字典學(xué)習(xí)的視覺跟蹤[J]. 電子與信息學(xué)報, 2015, 37(3): 536-542. doi: 10.11999/JEIT140507.
YUAN Guanglin and XUE Mogen. Visual tracking based on sparse dense structure representation and online robust dictionary learning[J].&, 2015, 37(3): 536-542. doi: 10.11999/JEIT140507.
[3] HU Hongwei, MA Bo, and JIA Yunde. Multi-task0gradient minimization for visual tracking[J]., 2015, 54(1): 41-49. doi: 10.1016/j.neucom.2014.12.021.
[4] HU Weiming, LI Wei, ZHANG Xiaoqin,. Single and multiple object tracking using a multi-feature joint sparse representation[J]., 2015, 37(4): 816-833. doi: 10.1109/ TPAMI.2014.2353628.
[5] YIN Yingjie, XU De, WANG Xingang,. Online state-based structured SVM combined with incremental PCA for robust visual tracking[J]., 2015, 45(9): 1988-2000. doi: 10.1109/TCYB. 2014.2363078.
[6] KIM D H, KIM H K, LEE S J,. Kernel-based structural binary pattern tracking[J]., 2014, 24(8): 1288-1300. doi: 10.1109/TCSVT.2014.2305514.
[7] 陳思, 蘇松志, 李紹滋, 等. 基于在線半監(jiān)督 boosting 的協(xié)同訓(xùn)練目標跟蹤算法[J]. 電子與信息學(xué)報, 2014, 36(4): 888-895. doi: 10.3724/SP.J.1146.2013.00826.
CHEN Si, SU Songzhi, LI Shaozi,. A novel co-training object tracking algorithm based on online semi-supervised boosting[J].&, 2014, 36(4): 888-895. doi: 10.3724/SP.J.1146.2013.00826.
[8] BLUM A and MITCHELL T. Combining labeled and unlabeled data with co-training[C]. Proceedings of ACM 11th Annual Conference on Computational Learning Theory, USA, 1998: 92-100.
[9] TANG F, BRENNAN S, ZHAO Q,. Co-tracking using semi-supervised support vector machines[C]. IEEE International Conference on Computer Vision, Brazil, 2007: 1-8.
[10] YU Q, DINH T B, and MEDIONI G. Online tracking and reacquisition using co-trained generative and discriminative trackers[C]. European Conference on Computer Vision, Springer, Berlin Heidelberg, 2008: 678-691.
[11] LIU Rong, CHENG Jian, and LU Hanqing. A robust boosting tracker with minimum error bound in a co-training framework[C]. IEEE International Conference on Computer Vision, Japan, 2009: 1459-1466.
[12] BABENKO B, YANG M H, and BELONGIE S. Visual tracking with online multiple instance learning[C]. IEEE Conference on Computer Vision and Pattern Recognition, USA, 2009: 983-990.
[13] LU Huchuan, ZHOU Qiuhong, WANG Dong,. A co-training framework for visual tracking with multiple instance learning[C]. IEEE International Conference on Automatic Face & Gesture Recognition and Workshops, Spain, 2011: 539-544.
[14] ZHANG Kaihua, ZHANG Lei, and YANG M H. Fast compressive tracking[J]., 2014, 36(10): 2002-2015. doi: 10.1109/TPAMI.2014.2315808.
[15] ZHU Jianzhang, MA Yue, QIN Qianqing,. Adaptive weighted real-time compressive tracking[J]., 2014, 8(6): 740-752. doi: 10.1049/iet-cvi.2013.0255.
[16] DALAL N and TRIGGS B. Histograms of oriented gradients for human detection[C]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, USA, 2005: 886-893.
[17] HEIKKILA M and PIETIKAINEN M. A texture-based method for modeling the background and detecting moving objects[J]., 2006, 28(4): 657-662. doi: 10.1109/ TPAMI.2006.68.
[18] ZHOU Zhihua and LI Ming. Tri-training: exploiting unlabeled data using three classifiers[J]., 2005, 17(11): 1529-1541. doi: 10.1109/TKDE.2005.186.
[19] WU Yi, LIM J, and YANG M H. Online object tracking: A benchmark[C]. IEEE Conference on Computer Vision and Pattern Recognition, USA, 2013: 2411-2418.
[20] PASCAL visual object classes challenge results[OL]. http:// www.pascal-network.org, 2015.
[21] ZHANG Kaihua, ZHANG Lei, and YANG M H. Real-time object tracking via online discriminative feature selection [J]., 2013, 22(12): 4664-4677. doi: 10.1109/TIP.2013.2277800.
[22] ZHANG Kaihua and SONG Huihui. Real-time visual tracking via online weighted multiple instance learning[J]., 2013, 46(1): 397-411. doi: 10.1016/ j.patcog.2012.07.013.
Optimized Compressive Tracking in Co-training Framework
ZHENG Chao①CHEN Jie②YIN Songfeng①YANG Xing①FENG Yunsong①LING Yongshun①
①(,,230037,),②(,,230037,)
As visual tracking algorithms based on traditional co-training framework are characterized by poor robustness in complex environment, an optimized compressive tracking algorithm in a novel co-training criterion is proposed. Firstly, the spatial layout information and the online feature selection technique based on maximizing entropy energy are used to improve the discriminative capacity of compressive sense classifier, and two independent classifiers are constructed by structural compressive features selected from the gray intensity space and the local binary pattern space respectively. Secondly, on the basis of the classifiers collaborative strategy that is acquired by calculating the confidence score distribution entropy of the candidate samples, complementary features can be adaptive fused, which reinforces the robustness of tracking results. Thirdly, as assistant of the cascaded Histograms of Orientation Gradient (HOG) classifier, the collaborative appearance model is updated with accuracy by a novel co-training criterion with sample selecting ability, which solves the updating error of co-training accumulation problem. Comparative experiment results on extensive challenging sequences demonstrate that the proposed algorithm is of better performance than other similar tracking algorithms.
Visual tracking; Co-training; Spatial layout information; Compressive sense classifier; Entropy
TP391.41
A
1009-5896(2016)07-1624-07
10.11999/JEIT151001
2015-09-08;改回日期:2016-01-11;網(wǎng)絡(luò)出版:2016-03-14
陳杰 jdly1123@163.com
安徽高校自然科學(xué)重大研究項目(KJ2015ZD14),國家自然科學(xué)基金(61405248, 61503394),安徽省自然科學(xué)基金(1408085 QF131, 1508085QF121)
Higher Education Institutes Natural Science Research Project of Anhui Province of China (KJ2015ZD14), The National Natural Science Foundation of China (61405248, 61503394), The Natural Science Foundation of Anhui Province (1408085QF131, 1508085QF121)
鄭 超: 男,1987年生,博士生,研究方向為視覺跟蹤.
陳 杰: 男,1968年生,教授,研究方向為模式識別與智能控制.
殷松峰: 男,1984年生,博士,副教授,研究方向為圖像處理、跟蹤與融合.