方浩宇,曹丹華,吳裕斌( 華中科技大學 光學與電子信息學院,武漢 430074 )
?
基于極端學習機的實時目標跟蹤算法
方浩宇,曹丹華,吳裕斌
( 華中科技大學 光學與電子信息學院,武漢 430074 )
摘要:針對現(xiàn)有TBD(Tracking-by-Detection, TBD)跟蹤算法難以兼顧計算效率與跟蹤效果兩方面性能的問題,本文引入了一種新穎快速的跟蹤框架,利用在線序列極端學習機(On-line Sequential Extreme Learning Machine, OS-ELM),增量更新目標的外觀模型。由于ELM的學習速度非常快,分類器可以每幀更新,因此分類器更實用于目標的外觀變化。實驗結果表明,本文算法可以實現(xiàn)實時跟蹤,且跟蹤精度優(yōu)于其他TBD算法。
關鍵詞:圖像處理;目標跟蹤;極端學習機
目標跟蹤是計算機視覺領域的一個研究熱點,在人機交互、智能監(jiān)控、目標識別,以及交通監(jiān)控中有重要的應用。雖然近年來有大量的跟蹤算法涌現(xiàn),但是設計一個能夠適應目標外觀變化的實時跟蹤器依然是一個巨大的挑戰(zhàn)。
目前,檢測輔助跟蹤算法TBD是一種有效的應對目標外觀變化的跟蹤算法[1-9],受到了學者的廣泛關注。TBD的主要思想是通過引入在線更新機制,增量學習自適應的外觀模型。增量分類器學習算法將目標跟蹤看做是二值分類問題,通過在線訓練具有判別力的分類器將目標和背景分離[2-4]。文獻[10]提出了基于壓縮感知的跟蹤算法,利用壓縮感知的理論隨機選取50維特征進行目標跟蹤。文獻[11]提出了一種基于監(jiān)督學習的特征選取算法。但是,由于這些算法使用局部特征來表示目標,而且雖然多個弱分類器的組合能夠降低訓練誤差,但是組合并沒有理論根據(jù),因此算法在目標定位時結果往往不能達到最優(yōu)。Hara等[12]提出了基于結構輸出支持向量機(SVM)的目標跟蹤算法,算法通過分類器直接預測目標位置實現(xiàn)目標跟蹤?;赟VM的跟蹤算法一般能獲得較好的跟蹤效果,但是計算量較大,不適用于實時應用。
針對以上問題。本文將極端學習機引入到目標跟蹤領域。首先聯(lián)合局部特征和全局特征,更充分的提取目標信息,然后利用ELM建立分類器獲得候選目標,最后,利用粒子濾波計算最大后驗概率,獲得目標的位置。而為了適應目標的外觀變化,提出了基于OS-ELM的增量更新算法,使得分類器在每一幀都可進行更新。
1.1 算法簡介
一般來說,一個完整的跟蹤系統(tǒng)包含:圖像表示、外觀模型和目標定位。本文設計的跟蹤算法中,首先利用Haar-like和HOG特征相結合作為圖像表示,用ELM分類器學習這些特征作為目標外觀模型,然后利用基于瑞利分布的粒子濾波作為目標定位算法完成對目標的準確定位,最后,根據(jù)前后幀目標的相似性判定網(wǎng)絡是否需要重新訓練。
算法的基本流程如圖1所示。第一行是目標定位部分,圖中第二行是目標模型的建立和更新部分。在初始化階段,首先在指定的目標周圍采樣正負樣本然后對樣本提取特征,再用ELM分類器建立目標的外觀模型。在目標跟蹤階段,利用目標外觀模型來獲取候選目標位置,用粒子濾波最終確定目標的位置。目標位置確定后,在當前幀目標小范圍內選取正樣本,當下一幀圖像到來后,在下一幀圖像的相應較大范圍內選取負樣本,利用正負樣本對OS-ELM進行增量更新。
圖1 本文跟蹤算法框架Fig.1 Framework of proposed tracking algorithm
1.2 圖像表示
經(jīng)典的跟蹤算法中使用了各種各樣的特征(如Haar-like特征、HOG特征、LBP特征以及顏色直方圖特征等)來應對目標的外觀變化。這些特征的簡單級聯(lián)會導致高維的冗余特征,使得目標難以從背景中分離。為了解決這個問題,基于學習的降維方法常被用于降低這些特征的維度,但是降維算法本身增加了計算量。本文跟蹤算法通過實驗在計算量與跟蹤效果之間找到了一個平衡,將Haar-like特征與HOG特征進行結合,組成了本文的圖像表示描述子。Haar-like特征適用于提取局部結構性特征,HOG則適用于提取全局性特征,這兩種特征描述子在現(xiàn)有目標跟蹤算法中應用廣泛,本文的第二章也在實驗中驗證了結合兩種特征的本文圖像表示在目標跟蹤領域的適用性。
對于每個圖像塊,采用與文獻[10]類似的方法,隨機提取50維的Haar-like特征,同時提取HOG特征。HOG特征在每個塊內選用9維的梯度方向直方圖表示,將所有圖像塊的直方圖級聯(lián)形成HOG特征。最后,將兩種特征級聯(lián)形成統(tǒng)一的特征向量。
1.3 基于極端學習機的外觀模型
ELM是一種新穎有效的單隱層前饋神經(jīng)網(wǎng)絡學習算法。與傳統(tǒng)的神經(jīng)網(wǎng)絡算法或支持向量機相比,由于ELM的隱層節(jié)點的權重和偏置是隨機分配的,且輸出層的計算無需迭代,因此ELM的訓練速度要高出上百倍。在此基礎上,Huang等人提出了在線序列極端學習機算法(OS-ELM)[14]。OS-ELM包含兩個步驟:1) 初始化,2) 連續(xù)學習。初始化階段通過給定的訓練樣本構建標準的ELM分類器,隨機生成輸入權重和隱層偏置。連續(xù)學習階段用新的訓練樣本來更新分類器。
1.3.1 初始化
1.3.2 基于連續(xù)學習的分類器更新
在跟蹤階段,假設已獲得了一組新的訓練數(shù)據(jù)包含N1個數(shù)據(jù)集。最小化誤差問題轉化為兩個數(shù)據(jù)集合:
針對以上方程的解應該是:
增量學習的目的是將β?表示為β0,ψ1,H1和T1的函數(shù)。詳細的推導步驟見文獻[14]。最后,可以得到增量更新的方程:
其中:t表示當前幀,t-1代表前一幀圖像。可以看出,離線訓練可以被在線訓練取代。從式(5)到式(7)的計算量要低于初始化階段求廣義逆的計算量。因此,每幀進行的增量學習并不會影響跟蹤的實時性。
1.3.3 更新樣本的產生
一般情況下,更新樣本的產生是基于這樣一個假設:在較短的時間間隔內,目標的外觀變化是連續(xù)慢速的,而不是突變的。因此,用前一幀采集的訓練樣本更新外觀模型在本幀圖像上仍然適用。
本節(jié)中,我們提出一個新的樣本產生方法,該方法與文獻[4]方法類似,不同的是:正負樣本是從兩幀圖像中產生的。正樣本從t-1幀獲得:
*
-1是t-1幀圖像估計得到的目標位置。α是生成正樣本的半徑。負樣本是從t幀圖像中獲得的:
其中:(γ,)β表示產生負樣本的范圍。從當前幀中獲取負樣本使得分類器更加適合本幀中的場景變化。
1.4 目標定位
本文采用了粒子濾波作為目標定位算法。粒子濾波使用了有限數(shù)量的粒子,通過計算后驗概率來估計最準確的位置,該算法較傳統(tǒng)的滑動窗口算法得到的結果更加穩(wěn)定可靠,且計算量更小。然而,粒子濾波的動態(tài)模型是基于高斯分布的,當目標運動較快時,該模型不一定適合。本節(jié)利用基于瑞利分布的動態(tài)模型替代高斯分布以適應目標的快速運動。此外,粒子濾波的傳遞方程、后驗概率的計算以及粒子重采樣等過程與文獻[15-16]基本一致。二維瑞利分布定義為
其中μ是模型參數(shù)。在基于瑞利分布的動態(tài)模型中,粒子在半徑為μ的圓周分布的粒子較多,因此需要控制μ的大小,使盡量多的粒子分布在真實的目標周圍。本文主要根據(jù)目標的速度來定義μ的大小:
為檢驗本文算法的性能,選取了十組廣泛應用于目標跟蹤領域的視頻進行實驗,將其與現(xiàn)在性能最好的六種算法進行分析比較。這些算法分別是基于在線辨別的特征提取算法(ODFS),基于壓縮感知的跟蹤算法(CT),基于多示例的跟蹤算法(MIL),基于跟蹤檢測學習框架的算法(TLD),基于結構輸出支持向量機算法(Struck)以及基于視頻跟蹤分解的生成算法(VTD)。本文的跟蹤算法使用MATLAB編程實現(xiàn),在奔騰雙核2.6 GHz主頻4 G內存的電腦上每秒處理26幀。
2.1 圖像特征比較
本文將Haar特征與HOG結合,組成了本文的圖像表示描述子。本節(jié)將從兩個方面(跟蹤成功率和平均計算時間)對組合后的特征與單獨特征以及文獻[13]中哈希編碼特征(RFH)進行對比。
在保持本文跟蹤算法架構其他部分保持不變的情況下,改變不同的圖像表示方法,比較四種特征:Haar-like特征、HOG特征、本文圖像特征和哈希編碼特征,然后統(tǒng)計并比較上述不同特征對應的跟蹤成功率(Success Rate,SR)(%),跟蹤成功率的定義為
其中:Bp是估計得到的目標區(qū)域,Bgt是準確的目標區(qū)域。若RSR比0.5大,則被認定為目標跟蹤成功。
應用圖1所示的本文算法跟蹤框架,在同一個視頻(David)的三段子視頻上來測試以上4種特征。三段子視頻分別包含了姿態(tài)的變化、光照的變化以及尺度變化。表1是對跟蹤成功率(Success Rate,SR)(%)的比較,表2則是四種特征提取時間的對比。
表1 四種特征SR對比Table 1 SR comparison of 4 features
表2 四種特征提取時間對比Table 2 Computation time comparison of 4 features
從表1和表2中可以看出RFH特征擁有最高的跟蹤成功率,但其計算效率也最低,無法滿足實時跟蹤的需求。Haar-like特征與HOG特征的組合能夠達到與RFH算法幾乎相同的跟蹤成功率,但是,提取特征的時間只有9.32 ms,完全能夠滿足實時跟蹤的需要。單一的Haar-like特征和HOG特征計算時間雖然更少,但是跟蹤成功率相對較低。因此,本文選取Haar-like特征與HOG特征的組合作為本文算法的圖像表示是合理的。
2.2 整體性能比較
由于算法用到了隨機函數(shù),因此將算法執(zhí)行10次,取平均結果與其他算法進行比較。表3是七種跟蹤算法成功率和中心位置誤差(Center Location Error,CLE)(像素距離)的結果,由于TLD算法在大部分視頻中經(jīng)常出現(xiàn)完全丟失目標的情況,因此沒有給出TLD算法的中心位置誤差。可以看出本文算法在大多視頻中獲得了很好的結果。圖2是部分跟蹤結果。下面結合視頻的特點對表3的成功率數(shù)據(jù)進行分析。
1) 姿態(tài)、光照、尺度和場景變化。David indoor視頻包括光照、姿態(tài)、尺度以及場景變化,雖然CT、TLD、Struck和VTD跟蹤器可以在本視頻上取得不錯的效果,但是它們沒能成功的對所有幀進行跟蹤。同樣在Bolt和Basketball這兩段視頻中,由于目標的尺度、姿態(tài)以及場景的變化,其他算法也不如本文算法。由于Haar-like特征和HOG特征分別對應了圖像的局部特征和全局特征,因此算法對光照變化和尺度變化具有一定的適應性,此外算法每幀都在更新,使得算法能夠適應目標的姿態(tài)變化;最后,由于訓練集中負樣本是在要被跟蹤的幀中采集得到,因此算法在一定程度上能夠應對場景的變化。從表3可以看到,本文算法在以上提到的幾組視頻中有最好的跟蹤成功率。
2) 遮擋。在Occlusion face2和Bird視頻中,目標存在嚴重遮擋問題,大多數(shù)算法不能在這些視頻上取得較好的效果。對于視頻Occlusion face2,ODFS和CT算法由于其有效的特征提取方法,對有遮擋的目標跟蹤結果良好。本文算法中有一部分特征與CT算法相同,因此也具有較好的抗遮擋性能。
3) 快速移動。在kitesurf視頻中,目標不僅快速運動,并在移動過程中伴有三維的旋轉,大部分跟蹤算法無法適應這種快速的運動,導致目標丟失。而本文算法充分考慮了目標的運動速度,使用了基于瑞利分布的粒子濾波,因此能夠適應目標的快速移動,可以看出,本文算法對該視頻的跟蹤成功率最高。結合本文算法在Tiger1視頻中的跟蹤成功率,說明本文算法對快速移動的目標具有良好的跟蹤能力。
表3 七種跟蹤算法的成功率(SR)和平均中心位置誤差(CLE)對比Table 3 Comparison of seven algorithms SR and CLE
圖2 部分算法測試視頻結果截圖Fig.2 Screenshots of some sampled tracking results
2.3 目標外觀模型比較
為了驗證ELM作為目標外觀模型的有效性,本節(jié)將SVM和LS-SVM算法應用于本文框架來代替ELM。但是由于SVM和LS-SVM的訓練時間較長,因此本文按照文獻[13]的方法,對分類器每5幀更新一次。通過Girl與Tiger兩段視頻對比了三種方法,圖3是三種方法的中心位置誤差(CLE)的對比,表4是三種方法運行幀頻(f/s)的對比。從圖3可以看出本文算法比SVM和LS-SVM在CLE標準中有所提升,而且表4表明本文算法具有最快的處理速度。
圖3 外觀模型準確度CLE對比Fig.3 CLE comparison of appearance model
表4 三種外觀模型幀頻對比Table 4 FPS comparison of 3 appearance model
本文將極端學習機引入了目標跟蹤領域,并基于極端學習機實現(xiàn)了一種實時的跟蹤算法。算法采用ELM作為目標外觀模型,利用OS-ELM進行外觀模型的更新,能夠快速適應目標的外觀變化?;贖aar-like 與HOG的混合特征能夠提高算法對光照和尺度變化的抗干擾能力。為了提高目標定位的準確性,本文提出了基于瑞利分布的粒子濾波算法,由于其更符合目標的非線性運動,因此算法對目標的快速移動具有較好的適用性。實驗部分采用多組具有挑戰(zhàn)性的視頻驗證了算法的可靠性和優(yōu)越性。在今后的研究中,跟蹤的穩(wěn)定性以及對于遮擋漂移的目標跟蹤將是本算法繼續(xù)研究的方向。
參考文獻:
[1] Jepson A D,F(xiàn)leet D J,El-Maraghi T R. Robust online appearance models for visual tracking [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence(S0162-8828),2003,25(10):1296-1311.
[2] Collins R,Liu Y,Leordeanu M. Online selection of discriminative tracking features [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence(S0162-8828),2005,27(10):1631-1643.
[3] Adam A,Rivlin E,Shimshoni I. Robust fragments-based tracking using the integral histogram [C]// IEEE Conference on Computer Vision and Pattern Recognition(CVPR),New York,USA,2006:789–805.
[4] LIANG Dawei,HUANG Qingming,GAO Wen,et al. Online selection of discriminative features using bayes error rate for visual tracking [C]// Advances in Multimedia Information Processing-PCM,Hangzhou,China,November 2-4,2006:547-555.
[5] Grabner H,Grabner M,Bischof H. Real-time tracking via online boosting [C]// British Machine Vision Conference(BMVC),Edinburgh,UK,September 4-7,2006:47-56.
[6] Ross D,Lim J,LIN R S,et al. Incremental learning for robust visual tracking [J]. International Journal of Computer Vision S0920-5691),2008,77(1):125-141.
[7] Kalal Z,Matas J,Mikolajczyk K. P-n learning:bootstrapping binary classifier by structural constraints [C]// IEEE Conference on Computer Vision and Pattern Recognition(CVPR),San Francisco,USA,June 13-18,2010:49-56.
[8] Kwon J,Lee K. Visual tracking decomposition [C]// IEEE Conference on Computer Vision and Pattern Recognition(CVPR),San Francisco,USA,June 13-18,2010:1269–1276.
[9] Babenko B,YANG Ming-Hsuan,Belongie S. Robust object tracking with online multiple instance learning [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence(S0162-8828),2011,33(8):1619-1632.
[10] ZHANG Kaihua,ZHANG Lei,YANG Ming-Hsuan. Real-time compressive tracking [C]// The European Conference on Computer Vision(ECCV),F(xiàn)irenze,Italy,October 7-13,2012,III:864-877.
[11] ZHANG Kaihua,ZHANG Lei,YANG Ming-Hsuan. Real-Time Object Tracking Via Online Discriminative Feature Selection [J]. IEEE Transactions on Image Processing(S1057-7149),2013,22(12):4664-4677.
[12] Hare S,Saffari A,Torr P. Struck:structured output tracking with kernels [C]// IEEE International Conference on Computer Vision(ICCV),Barcelona,Spain,November 6-13,2011:263–270.
[13] LI Xi,Shen Chunhua,Dick A,et al. Learning compact binary codes for visual tracking [C]// IEEE Conference on Computer Vision and Pattern Recognition(CVPR),Portland,OR,June 24-28,2013:2419-2426.
[14] HUANG Guangbinin,ZHU Qinyu,Siew C K. Extreme learning machine:theory and applications [J]. Neurocomputing (S0925-2312),2006,70(1):489-501.
[15] SU Yingya,ZHAO Qingjie,ZHAO Liujun,et al. Abrupt motion tracking using a visual saliency embedded particle filter [J]. Pattern Recognition(S0031-3203),2014,47(6):1826-1834.
[16] Kitagawa G. Monte carlo filter and smoother for nongaussian nonlinear state space models [J]. Journal of Computational and Graphical Statistics(S1061-8600),1996,5(1):1-25.
Real Time Object Tracking via OS-ELM
FANG Haoyu,CAO Danhua,WU Yubin
( School of Optical and Electronic Information, Huazhong University of Science and Technology, Wuhan 430074, China )
Abstract:Tracking by Detection (TBD) is a widely used framework in object tracking. Most TBD algorithms focus on object`s appearance model, but hard to consider both fps and success rate. Point to these problem, a new and rapid tracking framework is imported which uses the On-line Sequential Extreme Learning Machine(OS-ELM) to update object`s appearance model incrementally. Due to the learning speed of elm is fast enough, classifier could be updated every frame, so the classifier is more suitable to object`s apparent variations. The result shows this algorithm realizes real time tracking, and the success rate is higher than other TBD algorithms.
Key words:image processing; object tracking; extreme learning machine
作者簡介:方浩宇(1990-),男(漢族),北京人。碩士,主要研究工作是目標跟蹤和數(shù)字圖像處理。E-mail: 214731550@qq.com。
收稿日期:2015-01-05; 收到修改稿日期:2015-07-07
文章編號:1003-501X(2016)02-0040-06
中圖分類號:TP391
文獻標志碼:A
doi:10.3969/j.issn.1003-501X.2016.02.007