程明智, 高俊祥
(1.北京印刷學院,北京102600;2.華中農業(yè)大學理學院,湖北武漢430070)
目標跟蹤是視頻會議、遠程教育、和智能監(jiān)控等系統(tǒng)的重要組成部分,在現(xiàn)有主要跟蹤算法中,必須首先在參考幀中定義一個參考模型,然后在后續(xù)幀中比較候選目標和參考模型的相似性來確定目標的位置[1]。目前,參考模型的初始化一般是手動進行的,開始跟蹤前在參考幀中手動畫一個包含目標的矩形或橢圓并將內部的像素集作為參考模型[2]。雖然有少量文獻采用了自動初始化,但是一般需要目標的先驗知識,因而限制了算法的通用性。例如,文獻[3]提出的方法由于采用了膚色信息因而僅適用于人臉的跟蹤。文獻[4]的投影法具有計算簡單的優(yōu)點,但是若場景中多個目標的投影有重疊的部分,則可能會出現(xiàn)無法確定目標數(shù)量、位置或尺度的情況。
針對目標跟蹤中參考模型的初始化需要手動完成以及投影法的缺陷,提出了一種自動、精確初始化參考模型的方法,參考模型為二維空間內的一個橢圓。首先采用連通組分標記算法對目標進行計數(shù),并計算每個目標的位置;然后根據回轉半徑張量法求出包含目標的最小外接矩形;最后從最小外接矩形的參數(shù)出發(fā)用蒙特卡洛算法求出參考模型的估計,估計過程以統(tǒng)計學中的F指標最大為準則。
投影法首先根據圖像的垂直投影(即投射到橫坐標軸上的投影)確定目標的水平位置、寬度和數(shù)目;然后再對圖像進行水平投影(即投射到縱坐標軸上的投影)獲得目標的垂直位置和高度。下面分析投影法初始化參考模型的問題并提出對應策略。
第一,如果場景中的目標不只一個而且目標的投影有重疊的部分,則有可能造成目標的數(shù)量、位置或尺度的模糊性,即目標的個數(shù)、位置或尺度不能從投影信息準確獲得。第二,投影法算出的參考模型是目標的豎直外接矩形,如果目標在圖像中是傾斜狀態(tài)時,參考模型內將會包含大量不屬于目標的像素。第三,如果目標的緊湊性較低會使大量背景像素進入參考模型,從而降低參考模型對目標的描述能力。
應對策略如下。第一,目標的投影重疊引起的模糊性是投影法的固有缺陷,因而本文擯棄了這種檢測目標數(shù)目和位置的方法,采用連通組分標記算法對目標進行計數(shù),并計算每個目標的位置,從根本上避免了投影重疊帶來的問題。第二,能夠包含所有目標像素但同時非目標像素又最少的矩形是最小外接矩形而非豎直外接矩形,因而算法采用了前者。最小外接矩形的面積一般小于豎直外接矩形,從而包含的非目標像素更少。第三,當目標的結構比較松散時外接矩形會很大,根據F指標統(tǒng)計最大化的原則舍棄了少量目標像素,同時能夠把更多的背景像素排除在模板之外。
在跟蹤前目標檢測步驟已經完成,令目標檢測獲得的運動目標掩碼是二值圖像 M(x,y),如果存在一個像素集M(xi,yi)=v(i=0,1,2,…,n),其中 v=0或v=1,并且對序列中任何兩個像素都可以通過v值相連接,則稱這個像素集合是一個值為v的連通組分。如圖1(a)是一幅二值圖像,內有值為1的5個連通組分。對二值圖像M(x,y)做標記,生成標號圖LB,標號圖像中每個像素的值就是像素所在連通組分的標號,標號是一個是用于標記連通組分的整數(shù),圖1(b)顯示的是對圖1(a)的的標記結果。其詳細計算過程可參照相關文獻[5]。
圖1 內含5個值為1的連通組分的二值圖像
圖像中的目標不一定是豎直的,處于傾斜狀態(tài)的目標直接求其最小外接矩形是比較困難的,首先將目標旋轉一定角度使其扭正,而旋轉矩陣采用回轉半徑張量法求取,旋轉之后目標豎直外接矩形和最小外接矩形是重合的,因而矩形的位置和尺度容易求出。
令包含一個目標的連通組分標號圖像為LBk(k=1,2,…,K),對運動目標的 n個像素點的坐標求均值得到目標的中心坐標(m,c),各像素的坐標分別減去中心坐標后得到各點相對坐標(u,v),則用相對坐標值(u,v)可以組成n×2維矩陣X:
求矩陣X的內積,令 V=XTX/n,其中回轉半徑張量V是2×2矩陣,它的兩個特征向量構成矩陣U,設旋轉矩陣為 R,則
旋轉矩陣R求出后,可用其對所有目標像素進行旋轉。令旋轉后各像素的坐標為(xi,yi),則旋轉方程可表示為
此時目標在圖像中已經處于豎直狀態(tài)且每個連通組分標號圖像LBk中只有一個目標,用前面講述的投影法即可確定最小外接矩形的寬 W和高H。在二維空間中,旋轉可以用一個角度 α定義,逆時針旋轉α取正,反之取負。一個列向量關于原點旋轉α角的矩陣是:
可推出
于是可以用一個五維向量(m,c,W,H,-α)T表示圖像LBk中目標的最小外接矩形,其中(m,c)表示矩形的中心,(W,H)表示矩形的寬和高,-α表示矩形的傾斜角度。
目前衡量一個參考模型的準確性還沒有一個公認的標準,借鑒統(tǒng)計學中F指標的思想定義一個準確性度量參數(shù):
式中
式中,TP代表屬于參考模型同時又屬于目標的像素數(shù)量;FN代表不屬于參考模型但是屬于目標的像素數(shù)量;FP代表屬于參考模型但是不屬于目標的像素數(shù)量。F取值在[0,1],并且F值越大說明參考模型越準確。
算法的目的是計算出用橢圓表示的參考模型,令該橢圓用向量 S=(x,y,Hx,Hy,θ)表示,其中(x,y)代表橢圓中心,(Hx,Hy)代表半軸長度,θ為橢圓的傾斜角度,從而參考模型就是能夠使F取得最大值的橢圓。從理論上說可以用遍歷法在最小外接矩形附近搜索,但是由于需要在每一維上搜索因而計算量過大。采用蒙特卡洛模擬的思路對向量S進行估計:對S采樣得到N個樣本Si(i=0,1,2,…,N),并根據F指標賦予各個樣本權值wi,權值總合為1,而向量S的估計為:
蒙特卡洛模擬的原理可參照相關文獻[6],Si和wi按下述過程計算。一個合理的假設是橢圓中心(x,y)在最小外接矩形中心(m,c)的鄰域內,而半軸長度(Hx,Hy)和最小外接矩形的寬、高(W,H)的一半相近,橢圓的傾斜角度θ也與最小外接矩形的傾角-α相似。因而Si為
其中vi是零均值高斯白噪聲序列,對于每一個樣本Si,都可以計算出一個指標Fi,因而權值wi為:
式中 σ為Fi的標準差。在樣本 Si和權值wi獲得以后,代入即可計算出參考模型S。
采用算法對多條視頻序列進行了參考模型的初始化,下面以其中的5條序列為例進行分析。為方便起見將它們重新命名為S1~S5,序列中的運動目標包括人、車輛和圓形的球,它們具有不同的形狀、個數(shù)、顏色和運動狀態(tài),詳細信息列于表1中,算法在Matlab7.0環(huán)境下實現(xiàn)。
表1 實驗序列詳細信息
用文中算法與手動初始化方法、投影法相比較,為了使比較更公平投影法中的目標模板采用豎直外接矩形的內接橢圓。圖2至圖6展示了比較結果,每幅圖從左向右依次是手動、投影法和文中算法的處理結果。從S1的處理結果來看,圖2(c)包含了絕大部分目標像素但是腳部排除在橢圓之外,這是由于圖中目標的中心與目標外接矩形的中心并不重合而是處在偏右的位置,因而最左端的腳部沒有包含在橢圓中。雖然與圖2(c)相比圖2(b)中的目標幾乎沒有遺漏,但是橢圓尺度的擴大使得大量背景像素進入到參考模型中,這顯然是得不償失的。在S2的處理結果圖3(c)中,橢圓將兩輛汽車完整地包含在參考模型中,同時其中只有極少數(shù)背景像素。圖3(b)中的非目標像素則要多一些,如圖中的黑色箭頭所示;另外則有部分本應屬于目標的像素排除在了參考模型之外,如圖中的白色箭頭所示。
圖3 序列S2用3種方法初始化參考模型的結果
序列S1和S2的處理結果雖然有些差異,但總體上來說并不顯著,所有參考模型均能比較準確地反映目標的特性,序列S3、S4和S5則能更明顯地體現(xiàn)出文中算法的優(yōu)越性。序列S3中的目標在圖像中處于傾斜狀態(tài),這種情況使得圖4(b)中大量的背景像素進入橢圓而運動目標的頭部和腳部卻排除在橢圓之外;圖4(c)中并沒有出現(xiàn)這種情況,這是由于圖中的橢圓在平面內進行了旋轉因而適應了目標的傾斜狀態(tài)。圖5中的垂直投影能夠準確區(qū)分出三個圓球,但是水平方向的投影有一部分發(fā)生重疊,在投影法中水平投影對應著目標的高度,因而圖5(b)中目標高度明顯增加。圖中的三個目標雖然投影重疊,但是目標本身并沒有遮擋因而將它們分割成各自獨立的目標沒有任何困難,所以在圖5(c)中算法可以不受投影重疊的影響精確地計算出參考模型。在圖6中,圖像中的兩個人不但水平投影是重疊的,而且垂直投影也發(fā)生了重疊,其結果是投影法會將兩個目標判斷為一個目標導致建立參考模型失敗。與序列S4的情況類似,圖6(c)中采用算法可以不受投影重疊的影響。
圖4 序列S3用3種方法初始化參考模型的結果
圖5 序列S4用3種方法初始化參考模型的結果
圖6 序列S5用3種方法初始化參考模型的結果
提出了一種自動、精確初始化參考模型的方法。采用文中算法對不同性質的視頻序列進行了廣泛的實驗,結果表明在不同的場景下算法均能準確完成參考模型的初始化,計算出的模型能夠體現(xiàn)目標的視覺特征,從而為參考模型的初始化提供了一種有效的方法。
致謝:中央高校基本科研業(yè)務費專項資金資助項目(2010BA016);北京印刷學院本科生科學研究計劃資助項目(08150111007)對本文的資助。
[1]Leven W F,LantermanA D.Unscented Kalman Filters for Multiple Target Tracking with Symmetric Measurement Equations[J].IEEE Transactions on Automatic Control,2009,54(2):370-375.
[2]Kyriakides I,Morrell D,Papandreou-Suppappola A.Sequential Monte Carlo Methods for Tracking Multiple Targets with Deterministic and Stochastic Constraints[J].Signal Processing.2008,56(3):937-948.
[3]Pernkopf F.Tracking of Multiple Targets Using Online Learning for Reference Model Adaptation[J].IEEE Transactions on Systems,Man,and Cybernetics,Part B:Cybernetics.2008,38(6):1465-1475.
[4]Wang J T.Research on Object Detection,Tracking and Behavior Recognition in Video Sequences[D].Nanjing University of Science and Technology,2008.
[5]Shapiro L G,Stockman G C.Computer Vision[M].Prentice-Hall,2001.
[6]Mendo L,Hernando J M.Improved Sequential Stopping Rule for Monte Carlo Simulation[J].IEEE Transactions on Communications.2008,56(11):1761-1764.