韓延玲,趙遼英
(杭州電子科技大學計算機應用研究所,浙江杭州310018)
視頻檢測就是從視頻序列中將運動目標從背景圖像中提取出來,處于視覺監(jiān)視系統(tǒng)的最底層,是后續(xù)高級處理如視頻分析、視頻編碼、視頻檢索及視頻監(jiān)控等應用的基礎。在實時的視頻檢測系統(tǒng)中,背景模型的可靠性和目標定位的準確性,直接關(guān)系到下一步視頻處理的效果。目前常用的背景建模方法包括自適應建模方法、Kalman濾波器方法、單高斯方法及混合高斯方法等。自適應建模方法利用時間平均法獲取自適應模型[1],但當檢測區(qū)內(nèi)存在大量連續(xù)的運動物體或運動目標長時間靜止時,該方法失效;Kalman濾波器方法利用Kalman濾波器跟蹤每個象素抽取背景模型[2],該方法能夠克服光線變化帶來的影響,但要求象素級閾值,同時背景恢復較慢且無法處理象素的雙峰或多峰分布;單高斯方法[3],對于復雜環(huán)境(如樹枝搖動、水面晃動等)很難建立有效的背景模型;利用混合高斯方法來抽取背景[4,5],能夠魯棒地克服由光線、樹枝搖動等造成的影響,但存在運行速度慢的問題。目前常用的運動目標定位方法:基于區(qū)域生長的定位方法、基于投影的定位方法以及基于聚類的定位方法。而在這些方法中,基于區(qū)域生長的定位方法最為常用,然而,常規(guī)的區(qū)域生長法對于空域連通性較差的目標,容易導致誤定位的問題。本文針對混合高斯背景建模和常規(guī)區(qū)域生長目標定位存在的問題,提出了相應的改進方法。
依次讀入N幀視頻圖像,視頻圖像It的每個象素在整個時間上的值可看作一個時間序列,在任意時刻 t,象素點(x0,y0)的值為:{X1,…,Xt}={I(x0,y0,i):1≤i≤t}。
對于時間序列{X1,…,Xt}可看作由K個高斯模型迭代而成,即:
式中,K表示每個象素所允許的最大高斯模型個數(shù),通常K為3~5,ωi,t表示第i個高斯模型的權(quán)重系數(shù),η(Xt,μi,t,∑i,t)表示第i個高斯模型μi,t,∑i,t分別表示第i個高斯模型均值和協(xié)方差。
為了減小環(huán)境光線變化造成的影響,本文將得到的視頻圖像從RGB色彩空間轉(zhuǎn)換到Y(jié)CrCb色彩空間;為了降低計算復雜度,假設Y,Cr,Cb是相互獨立的,協(xié)方差矩陣可以簡化為:∑=σ2I。
在室內(nèi)外場景中,隨著時間的變化,背景也是不斷地發(fā)生變化,如光照變化、樹葉晃動、水面波動等,因此,背景模型需實時更新以適應這些變化。當讀入一幀圖像時,對于每個象素,如果其象素值與該象素的某個高斯模型的均值差d小于3σ,那么認為此象素與該模型匹配,用此象素值更新該高斯模型的均值、方差和權(quán)值;若不匹配,則只更新模型的權(quán)值。本文采用文獻5中給出的更新公式進行背景更新。通常情況下,背景在時間序列中相對穩(wěn)定,即混合背景模型中權(quán)重較大且方差變化較小的模型可認為背景,否則作為前景。以ω/σ進行排序,構(gòu)成β分布,則背景模型較大可能性的排在頂端,可能性最小的暫時性的背景模型將傾向于低端,將會被新的模型所代替。因此,前B個模型屬于背景模型:
式中,T是確定背景模型的閾值參數(shù),一般取T=0.6。
由于場景中有些部分變化不大,所以這些部分的象素的模型個數(shù)達不到最大模型數(shù)K,而在初始時仍然建立K個模型,背景更新時對其全部處理,會影響處理速度。因此,本文為每個象素動態(tài)選取高斯模型個數(shù),首先在初始化背景模型時,為每個象素建立一個高斯模型,在后續(xù)處理中增加新的模型同時更新已有模型的權(quán)值,當模型的權(quán)值變?yōu)樨摂?shù)時,則舍棄該模型,以確保每個模型的權(quán)重為正數(shù),歸一化所有模型的權(quán)值。這樣針對每個象素建立不同的模型數(shù),在背景更新時,減少了循環(huán)次數(shù),縮短了運行時間,提高了處理效率。
當前幀減去背景圖像閾值化后,得到前景二值圖??紤]到噪聲采集以及攝像機的輕微震動的存在,需要運用形態(tài)學的膨脹、腐蝕算法,來消除前景二值圖F(i,j)中的孤立點,達到改善視頻對象平面的空域連通性的目的。為了后續(xù)工作的準確性,需要在得到視頻運動區(qū)域后,進一步定位視頻運動目標,即獲取視頻運動目標的空間位置信息。
針對普通的區(qū)域生長法對于空域連通性較差的目標,容易導致誤定位的問題,本文提出了一種擴展的區(qū)域生長算法,將象素種子點和其鄰域擴展為寬為W高為H的超象素,設定超象素內(nèi)前景點個數(shù)的閾值Tf,將象素個數(shù)超過Tf的超象素作為種子點或者將其合并到種子點的連通區(qū)域中。采用兩步擴展區(qū)域生長法的迭代思想,實現(xiàn)視頻運動目標的連通區(qū)域標記,其基本步驟如下:
(1)初始化標記矩陣M(x,y,tk),設定超象素的寬W和高H;(2)掃描閾值化后的前景二值圖像,若超象素內(nèi)前景象素個數(shù)超過Tf,則設該超象素為種子點,記錄下超象素左上角的坐標f(x0,y0);(3)以f(x0,y0)為中心檢查以超象素為單位的鄰域,將滿足合并條件的鄰域超象素壓入堆棧,并置其內(nèi)所有的象素為背景點;(4)根據(jù)步驟(3)前景點的坐標找到目標矩形框位置坐標,將矩形框坐標壓入堆棧,返回步驟(2);(5)逐個取出矩形框位置坐標,將M(x,y,tk)對應的矩形區(qū)域內(nèi)的象素均置為前景點;(6)第二步擴展的區(qū)域生長標記,重復步驟(2)~(4),步驟(5)時逐個取出矩形框位置坐標,對目標連通區(qū)域進行標記,得到M(x,y,tk)。
為測試本文改進算法的實際效果,采用VC++6.0開發(fā)環(huán)境,在WindowsXP SP3,CPU Intel Core22.66GHz,內(nèi)存為2G的PC機上分別對自拍的實際車輛運動視頻序列(分辨率為352×240,幀率為15幀/s,共1 381幀)和Highway視頻序列(http://cvrr.ucsd.edu/aton/shadow/)進行測試。其中,背景建模的學習率取0.001,最大高斯模型數(shù)M 取5,確定背景模型的閾值為0.75,均方差取3.0,取0.05,擴展區(qū)域大小取3×5,Tf取5。自拍的實際車輛運動視頻序列的第137、300、500幀,如圖1所示。采用本文改進的GMM算法比差異積累方法提取的背景更加干凈可靠,如圖2(a、b)所示。
圖1 自拍視頻序列的第137、300、500幀
圖2 自拍視頻序列的第137、300、500幀的實驗效果圖
由圖2(c)的對比效果可見,本文提取的前景目標(左)不會像文獻6(右)那樣出現(xiàn)拖尾現(xiàn)象。圖2(d)表明,本文擴展的區(qū)域生長法(左)對目標的定位更加準確,這將有利于進一步的運動目標的跟蹤。Highway視頻序列的實驗效果如圖3所示,Highway視頻序列背景簡潔,但是視頻運動目標較多,且存在某些視頻運動目標區(qū)域重疊的情況,但應用本文的算法可以很準確的定位到目標。對于自拍序列分別應用文獻1和本文的改進GMM算法,得到的運行時間分別為156s和103s,表明本文的算法提高了處理效率。
圖3 Highway視頻序列第137、180、233幀的實驗效果圖
本文主要在背景建模和運動目標定位兩方面做了改進,自拍的實際車輛運動視頻序列和Highway視頻序列的實驗結(jié)果表明,為每個象素動態(tài)選取模型數(shù)提高了混合高斯的處理速度,擴展的兩步區(qū)域生長算法消除了視頻平面連通性差造成的目標誤定位的問題,改進算法具有較好的實時性、自適應性和魯棒性。
[1] Stauffer Chris,GrimsonW E L.Adaptive backgroundmixture models for real-time tracking[C].Cambridge:Proceeding IEEE Conference on Computer Vision and Pattern Recognition,1999:245-251.
[2] 嚴勇,黃席樾,劉愛君.Kalman濾波在運動圖像背景提取及更新中的應用[J].自化與儀器儀表,2006,(2):28-30.
[3] Wren Christoper Richard,Azarbayejani Alli,Darrell Trevor.Pfinder:Real-Time Tracking of the HumanBody[J].IEEE Transactions on Pattern Analysis and Machine,1997,19(7):780-785.
[4] Power P Wayne,Schoonees Johann A.Understanding Background Mixture Models for Foreground Segmentation[C].New Zealand:Proceedings Image and Vision Computing New Zealand,2002:267-271.
[5] Zivkovic Zoran.Improved Adaptive GaussianMixtureModel for Background Subtraction[C].Cambridge:Proceedings of the 17th International Conference on Pattern Recognition,2004:28-31.
[6] 孫志海,朱善安.基于差異積累的視頻運動對象自動分割[J].光電工程,2007,34(12):97-103.