李志軍,陳 雪,李志剛,顧海軍
(吉林大學(xué)通信工程學(xué)院,長春130012)
視頻跟蹤是近年來新興的一個研究方向,它融合了計算機視覺、模式識別和人工智能等學(xué)科技術(shù),在安全監(jiān)控,智能交通,電視制導(dǎo),人機交互和機器人視覺導(dǎo)航等方面有廣闊的應(yīng)用前景[1-3]。視頻跟蹤系統(tǒng)以視頻流(圖像序列)為輸入,對視頻流中的運動目標(biāo)進行檢測、提取、識別和跟蹤,以獲得圖像中目標(biāo)的各種屬性特征,如目標(biāo)大小,位置,質(zhì)心等作為輸出。
實現(xiàn)對視頻序列中運動目標(biāo)的跟蹤,首先要對運動目標(biāo)進行精確檢測[4-6]。目標(biāo)檢測是指運用目標(biāo)先驗知識或運動特性,基于目標(biāo)幾何或統(tǒng)計特征,提取序列圖像中與背景相對運動的前景目標(biāo),是視頻跟蹤的基礎(chǔ)。目前常用的視頻目標(biāo)檢測方法有:幀間差分法、背景差分法和光流法。前兩種方法原理簡單、容易實現(xiàn),但僅對靜態(tài)背景的運動目標(biāo)檢測效果好。光流法利用運動目標(biāo)隨時間變化的光流特性,通過計算光流檢測運動。光流法抗干擾性強,具有高精確率,可以直接獲得運動目標(biāo)的運動參數(shù)等優(yōu)點,但其原理復(fù)雜,計算量較大,在沒有專用硬件支持的情況下很難做到實時檢測。
與目標(biāo)物的檢測相比,目標(biāo)的跟蹤屬于更高級別的計算機視覺問題[7-9]。現(xiàn)有的視頻跟蹤方法主要分為兩大類。第1類方法,是通過當(dāng)前時刻目標(biāo)運動狀態(tài)量迭代預(yù)測下一幀目標(biāo)的狀態(tài)實現(xiàn)目標(biāo)的跟蹤。第2類視頻跟蹤方法是利用目標(biāo)的不同特征,例如顏色或灰度信息、形狀及運動信息等,通過預(yù)測幀與幀之間目標(biāo)特征變化進行目標(biāo)跟蹤。
基于以上分析,結(jié)合常用目標(biāo)檢測算法的不足與跟蹤算法的基本思路,針對每幀視頻圖像中的目標(biāo)與背景之間的灰度變化的特點,以及當(dāng)目標(biāo)剛進入視場時,目標(biāo)很小,目標(biāo)的紋理、角點等特征不明顯的問題,同時為了解決傳統(tǒng)算法實時性不強的問題,筆者提出基于梯度投影的目標(biāo)跟蹤算法。
梯度投影算法根據(jù)圖像灰度分布的特點求取每幀圖像中的目標(biāo)區(qū)域(或疑似目標(biāo)區(qū)域),首先對圖像進行區(qū)域分割梯度增強處理[10],突出目標(biāo)邊界信息;通過部分灰度投影[11]尋找疑似目標(biāo)(或目標(biāo))的位置信息,更新搜索窗(或跟蹤窗)位置大小,在跟蹤過程中,計算每幀灰度圖像的質(zhì)心,修正跟蹤窗的位置大小信息。本算法主要分為2個過程,即基于區(qū)域分割的梯度增強與部分灰度投影。
區(qū)域分割的梯度增強的實現(xiàn)過程,首先對圖像幀中的相鄰像素點間進行一階差分運算,稱為梯度運算,其次利用自適應(yīng)閾值對梯度運算后的圖像進行區(qū)域劃分與增強運算。
這里根據(jù)圖像像素點的一階差分,對圖像進行劃分。
設(shè)視頻流中的第n幀圖像為In,In(i,j)為第n幀圖像在(i,j)點處的灰度值,則圖像的一階水平差分定義為
根據(jù)dy的大小,可將圖像劃分成兩個區(qū)域,即dy>Ty與dy<Ty。其中Ty為閾值,dy>Ty為疑似目標(biāo)區(qū)域(目標(biāo)像素群);dy<Ty為背景區(qū)域。目標(biāo)檢測的目的是提取目標(biāo)區(qū)域,抑制背景區(qū)域。因此,根據(jù)不同區(qū)域設(shè)定圖像增強的灰度值
若dy>Ty,設(shè)定當(dāng)前的像素點值為In(i,j)=dy,為目標(biāo)像素群;否則In(i,j)=0。算法實現(xiàn)框圖如圖1所示。
圖1 區(qū)域分割梯度增強實現(xiàn)框圖Fig.1 Regional segmentation and gradient enhanced
閾值Ty的選取:當(dāng)光照強度低時,目標(biāo)與背景的區(qū)域分割梯度增強后的像素點灰度差值較小,故光照強度較低時希望Ty值相對小一點;而光照強時希望Ty值大一點。故Ty應(yīng)為圖像像素點的灰度值相關(guān)的值,根據(jù)大量的實驗數(shù)據(jù)分析,Ty應(yīng)該為窗體(搜索窗或跟蹤窗)內(nèi)的所有像素點灰度值和的平均除8加上修正值1。
自適應(yīng)閾值的具體確定過程如下
自適應(yīng)閾值的計算公式為
其中搜索窗(或跟蹤窗)的高寬分別為H、W,則窗內(nèi)的所有像素灰度值之和為
在整個跟蹤過程中的閾值均由公式Sa=Sg/(HW)求解。區(qū)域分割梯度增強,擴大了圖像中目標(biāo)與背景特征之間的差別,突出目標(biāo)的邊界信息,便于邊界提取。
對輸入的二維圖像進行梯度增強后,通過稀疏變換,將其灰度信息映射成兩個獨立的一維投影序列。Sr,Sc分別為投影區(qū)域行高、列寬的起點位置坐標(biāo)。
圖像第i行的灰度投影值為
圖像第j列的灰度投影值為
投影曲線反映了圖像灰度分布的特點,為方便描述,將圖像行方向的投影曲線記為水平投影曲線,將圖像列方向的投影曲線記為垂直投影曲線。傳統(tǒng)灰度投影通常采用全投影,即將投影區(qū)域每行(列)進行映射,行(列)內(nèi)的每個像素都參與投影。筆者提出的投影算法是基于部分圖像的投影計算:目標(biāo)檢測階段對每幀圖像開窗,對窗體內(nèi)的圖像進行增強投影;在跟蹤處理過程中對疑似目標(biāo)區(qū)域進行投影。與傳統(tǒng)灰度投影相比,該算法提高了運算速度。然而該算法對灰度值單一的圖像處理效果不佳,當(dāng)圖像灰度值單一、對比度很差時,會造成投影曲線很平,提取的目標(biāo)區(qū)域不精確,導(dǎo)致后續(xù)處理難度增大。
對投影曲線進行區(qū)域分割增強處理,在目標(biāo)搜索或跟蹤過程中降低非目標(biāo)區(qū)域的干擾。對大于某個閾值的投影值保留,否則置為零。為避免目標(biāo)區(qū)域投影后使目標(biāo)投影曲線出現(xiàn)不連續(xù)的現(xiàn)象,該算法對投影曲線進行平滑處理,通過對投影曲線判斷,對斷點進行連通。
視頻跟蹤過程主要分為目標(biāo)檢測與跟蹤兩個步驟[12]。通用的視頻跟蹤系統(tǒng)實現(xiàn)框圖如圖2所示。該算法實現(xiàn)視頻跟蹤的具體步驟如下。
圖2 視頻跟蹤系統(tǒng)框圖Fig.2 Frame of video tracking system
1)區(qū)域檢測。首先,進行區(qū)域分割增強與水平投影以及對投影曲線的平滑處理。其次,疑似目標(biāo)區(qū)域的確定,搜索投影曲線的波峰波谷獲得疑似目標(biāo)區(qū)域在圖像中的垂直方向位置信息,即獲得搜索窗的位置信息。
2)圖像二值化處理。采用自適應(yīng)閾值(Ty),對原圖的疑似區(qū)域二值化處理。所有灰度值大于或等于閾值的像素群被判定屬于疑似目標(biāo);否則這些像素群被排除在目標(biāo)區(qū)域之外,表示為背景或干擾物體。圖像二值化目的方便圖像的進一步處理,使圖像變得簡單,而且數(shù)據(jù)量減小,能凸顯出感興趣的目標(biāo)輪廓。
3)特征提取。將二值后的疑似區(qū)域進行特征提取與形態(tài)學(xué)分析,求解疑似區(qū)域中目標(biāo)各種屬性參數(shù),如,質(zhì)心、長短軸長和方向角等。
4)目標(biāo)的判別。根據(jù)目標(biāo)的特征組合成一些約束條件,濾除不符合要求的“假目標(biāo)”。即通過對目標(biāo)先驗知識的理解認知,組合成不同的約束條件,輸入到判別算法部分。判別函數(shù)根據(jù)輸入條件,確定目標(biāo)。如,實驗限制目標(biāo)的長寬比,方向角的范圍以及相鄰質(zhì)心之間的距離確定目標(biāo)。捕獲成功目標(biāo)后,觸發(fā)跟蹤處理進程,將目標(biāo)的位置及目標(biāo)區(qū)域的大小輸出到跟蹤部分。
目標(biāo)檢測與判別成功后,觸發(fā)跟蹤處理進程,利用目標(biāo)識別結(jié)果初始化跟蹤部分,對視頻流開小窗處理。首先,對圖像進行水平投影,獲得目標(biāo)的垂直方向的大概位置坐標(biāo);其次,在水平投影獲取的目標(biāo)區(qū)域范圍對圖像進行垂直投影,獲得目標(biāo)水平方向的大致位置坐標(biāo);最后,利用水平、垂直投影獲得的目標(biāo)位置信息,對小區(qū)域內(nèi)計算質(zhì)心。利用當(dāng)前幀目標(biāo)質(zhì)心坐標(biāo)更新與修正下一幀跟蹤窗位置的大小。目標(biāo)跟蹤過程如圖3所示。
圖3 目標(biāo)跟蹤框圖Fig.3 Frame of target tracking
目標(biāo)跟蹤過程的具體步驟如下。
1)水平梯度投影。利用目標(biāo)檢測階段輸出的目標(biāo)位置大小信息(僅執(zhí)行一次,以后利用質(zhì)心坐標(biāo)更新目標(biāo)位置信息,即跟蹤窗的位置信息),對視頻流開窗,執(zhí)行目標(biāo)檢測步驟1);根據(jù)投影曲線的波峰波谷位置確定目標(biāo)在垂直方向的位置坐標(biāo)。
2)垂直梯度投影。根據(jù)步驟1)中輸出的位置坐標(biāo),對目標(biāo)區(qū)域進行垂直梯度投影,同1)獲取目標(biāo)水平方向的位置坐標(biāo)。
3)質(zhì)心計算。根據(jù)1)、2)中確定的區(qū)域位置大小信息,計算此區(qū)域質(zhì)心。
4)更新目標(biāo)的位置信息。利用當(dāng)前幀質(zhì)心坐標(biāo)更新下一幀目標(biāo)的位置信息以及跟蹤窗的位置大小信息,當(dāng)前幀質(zhì)心坐標(biāo)輸出到跟蹤輸出進程。
算法流程圖如圖4所示。
圖4 算法流程圖Fig.4 Flow chart of algorithm
為驗證系統(tǒng)架構(gòu),筆者對幀速為15幀/s、圖像大小為270×216像素的視頻序列進行測試。實驗結(jié)果表明,該算法能可靠地對復(fù)雜場景下目標(biāo)實時、準(zhǔn)確地跟蹤。
1)第345幀視頻圖像如圖5所示。目標(biāo)剛進入視場,未進搜索窗內(nèi)。搜索窗位置坐標(biāo)為(x=1∶216;y=200∶240),此時Ty=28。
此幀處于搜索狀態(tài),目標(biāo)未進入搜索窗內(nèi),對搜索窗內(nèi)區(qū)域分割梯度增強(見圖6)后的圖像進行水平投影(為噪聲的投影曲線,如圖7所示),獲取疑似目標(biāo)區(qū)域,對原視頻幀圖像進行二值處理,判斷非目標(biāo),不進行跟蹤標(biāo)記。由此可知,非目標(biāo)區(qū)域二值處理后經(jīng)判斷干擾噪聲被濾除。
圖5 第345幀F(xiàn)ig.5 345th frame
圖6 梯度增強圖像Fig.6 Gradient enhanced
圖7 水平投影Fig.7 Horizontal projection
2)第375幀,如圖8所示,目標(biāo)進入搜索窗,捕獲成功。
圖9為梯度增強圖像,圖10為二值圖像。根據(jù)圖11中水平投影曲線,獲取目標(biāo)在垂直方向的位置信息(垂直方向上下坐標(biāo)分別為70,76;閾值Ty=183),對二值化處理的小區(qū)域圖像進行特征提取與連通性分析,并判斷是否為目標(biāo),判斷成功,進行跟蹤輸出(見圖12)。
圖8 第375幀F(xiàn)ig.8 375th frame
圖9 梯度增強圖像Fig.9 Gradient enhanced
圖10 二值圖像Fig.10 Binary image
圖11 水平投影圖Fig.11 Horizontal projection
圖12 跟蹤圖Fig.12 Tracking figure
3)第411幀視頻圖像如圖13所示,梯度增強圖像如圖14所示,處于跟蹤狀態(tài)的跟蹤結(jié)果如圖15所示。
第411幀由圖16中水平投影獲取目標(biāo)垂直方向上下點的坐標(biāo)分別為56,62;由圖17垂直投影獲取目標(biāo)水平方向左右點的坐標(biāo)分別為184,192,目標(biāo)的質(zhì)心坐標(biāo)為(59,187)。此時閾值Ty=212。
第412幀圖像、梯度增強圖像和跟蹤圖分別如圖18~圖20所示。由圖21中水平投影獲取目標(biāo)垂直方向上下點的坐標(biāo)分別為58,64;由圖22垂直投影獲取目標(biāo)水平方向左右點的坐標(biāo)分別為185,193,目標(biāo)的質(zhì)心坐標(biāo)為(60,188)。此時閾值Ty=213。
由水平投影獲得目標(biāo)在垂直方向的坐標(biāo)信息;對垂直方向進行投影獲取目標(biāo)在水平方向的坐標(biāo)信息,在跟蹤狀態(tài)中,跟蹤窗是小范圍的,故第1波峰的起點與第2波峰的終點確定為目標(biāo)在水平方向的大小。
圖13 第411幀圖像Fig.13 411th frame
圖14 梯度增強圖像Fig.14 Gradient enhanced
圖15 跟蹤圖Fig.15 Tracking figure
圖16 水平投影Fig.16 Horizontal projection
圖17 垂直投影Fig.17 Vertical projection
圖18 第412幀圖像Fig.18 412th frame
圖19 梯度增強圖像Fig.19 Gradient enhanced
圖20 跟蹤圖Fig.20 Tracking figure
圖21 水平投影Fig.21 Horizontal projection
圖22 垂直投影Fig.22 Vertical projection
在跟蹤輸出上顯示當(dāng)前幀目標(biāo)的質(zhì)心坐標(biāo)[wr,wc]。根據(jù)質(zhì)心坐標(biāo)對目標(biāo)進行標(biāo)記,并更新下一幀的搜索范圍。
4)采用兩個標(biāo)準(zhǔn)的度量準(zhǔn)則,即處理速度與跟蹤正確率測試該算法。處理速度定義為跟蹤算法每幀的處理時間,單位為ms/幀,其值越小,算法的實時性越強。跟蹤正確率TA=NA/N,其中N為視頻序列包含目標(biāo)圖像的幀數(shù),NA為在N幀圖像中準(zhǔn)確跟蹤目標(biāo)的總幀數(shù)。其值越大,表明系統(tǒng)的穩(wěn)定性越高,系統(tǒng)的魯棒性強。表1為筆者算法與文獻[5]算法的對比結(jié)果。由表1可看出,筆者算法能在當(dāng)幀內(nèi)完成運算,而傳統(tǒng)算法則不能,由此可以看出,筆者算法的實時性較強;通過統(tǒng)計計算,算法的準(zhǔn)確率較傳統(tǒng)算法高,穩(wěn)定性好。
表1 測量準(zhǔn)則Tab.1 Metrics
筆者提出了梯度投影的跟蹤算法。通過區(qū)域分割與灰度投影獲取目標(biāo)位置信息。該算法解決了目標(biāo)很小時,其紋理、角點等特征不明顯,利用傳統(tǒng)的檢測算法無法識別目標(biāo)的困擾。該算法利用目標(biāo)的先驗知識,對目標(biāo)進行自動檢測。在整個目標(biāo)檢測與跟蹤的過程中,該算法繞開常規(guī)的目標(biāo)檢測算法對整幀圖像進行處理,對視頻流中單幀圖像進行開窗處理與稀疏變換,減小了運算量,提高系統(tǒng)的運算速度。該算法原理簡單,實時性強,實現(xiàn)了對目標(biāo)的可靠性與穩(wěn)定性跟蹤。
[1]王書朋.視頻目標(biāo)跟蹤算法研究[D].西安:西安電子科技大學(xué)電子工程學(xué)院,2009.WANG Shupeng.Research on Methods of Visual Object Tracking[D].Xi'an:College of Electronic Engineering,Xidian University,2009.
[2]黃欣欣.復(fù)雜場景下視覺目標(biāo)跟蹤方法研究[D].廣州:華南理工大學(xué)計算機科學(xué)與工程學(xué)院,2010.HUANG Xinxin.Visual Target Tracking Method Study in Complex Scene[D].Guangzhou:College of Computer Science and Engineering,South China University of Technology,2010.
[3]李波.視頻序列中運動目標(biāo)檢測與跟蹤算法的研究[D].北京:北京交通大學(xué)電子信息工程學(xué)院,2011.LI Bo.Study on Moving Object Detection and Tracking in Video Sequences[D].Beijing:College of Electronic Information Engineering,Beijing Jiaotong University,2011.
[4]SIMON DENMAN,CLINTON FOOKES,SRIDHA SRIDHARAN.Improved Simultaneous Computation of Motion Detection and Optical Flow for Object Tracking[J].Digital Image Computing:Techniques and Applications,2009,35(9):175-182.
[5]徐瑞,王睿,李怡,等.動態(tài)場景下基于Bayesian分類光流法的運動目標(biāo)檢測[J].儀器儀表學(xué)報,2011,32(12):66-70.XU Rui,WANG Rui,LI Yi,et al.Moving Objects Deteetion Using Optical Flow Based on Bayesian Classifier in Dynamic Scence[J].Chinese Journal of Scientific Instrument,2011,32(12):66-70.
[6]施家棟,王建中.動態(tài)場景中運動目標(biāo)檢測與跟蹤[J].北京理工大學(xué)學(xué)報:2009,29(10):858-860,876.SHI Jiadong,WANG Jianzhong.Moving Objects Detection and Tracking in Dynamic Scene[J].Journal of Beijing Institute of Technology,2009,29(10):858-860,876.
[7]DAN SCHONFELD.Dynamic Proposal Variance and Optimal Particle Allocation in Particle Filtering for Video Tracking[J].Circuits and Systems for Video Technology,IEEE Transactions on,2008,18(9):1268-1279.
[8]WANG Junxian,GEORGE BEBIS,RONALD MILLER.Robust Video-Based Surveillance by Integrating Target Detection with Tracking[C]∥Computer Vision and Pattern Recognition Workshop Conference on Digital Object Identifier.New York,USA:[s.n.],2006:137-144.
[9]CHEN Ken,ZHANG Meng,BATUR C.Gaussage and Online Parameter Based Video Tracking Mode Transition from KF to PF for Optimal Performance[C]∥Control and Decision Conference 24th Chinese Digital Object Identifier.Taiyuan,China:[s.n.],2012:1331-1336.
[10]齊蘊光,安鋼,龔正波.基于梯度投影法的電子穩(wěn)像算法[J].計算機工程,2012,38(6):230-232,235.QI Yunguang,AN Gang,GONG Zhengbo.Electronic Image Stabilization Algorithm Based on Gradient Projection Method[J].Computer Engineering,2012,38(6):230-232,235.
[11]解梅,俞成浦.基于梯度投影和形態(tài)學(xué)的指紋圖像分割方法[P].中國:200810045690,2008-12-24.XIE Mei,YU Chengpu.The Fingerprint Image Segmentation Method Based on Gradient Projection and Morphology [P].China:200810045690,2008-12-24.
[12]HUANG SHIH-CHIA.An Advanced Motion Detection Algorithm with Video Quality Analysis for Video Surveillance Systems[J].Circuits and Systems for Video Technology,2011,21(1):1-14.