黃 榜,劉忠杰,王 敏,趙娜娜,宋小波
(常州先進制造技術(shù)研究所 機器視覺實驗室,江蘇 常州 213164)
背景建模是基于視覺應(yīng)用的一個重要模塊,如智能交通、視頻監(jiān)控及行為識別等。運動目標(biāo)檢測的一般方法是將當(dāng)前圖像與根據(jù)歷史數(shù)據(jù)訓(xùn)練出的背景模型進行分析比較,進而將前景圖像與背景圖像分離開來。目前,背景建模的一個難點就是訓(xùn)練背景模型時背景并不是一成不變的,而是不穩(wěn)定的。這些波動可能是飄落的樹葉、隨風(fēng)飄動的旗幟、蕩漾的水波、變化的燈光及閃爍的顯示器等。即使背景是靜態(tài)的,攝像頭的抖動及信號噪音也會帶來不穩(wěn)定的因素。不僅如此,陰影及瞬間的光照變化也是較為重要的問題。除此之外,實時性也是一個重要的指標(biāo)。
大部分背景建模方法是基于像素的。高斯分布是背景建模的一種常用方法。因為背景不穩(wěn)定,僅僅使用單高斯模型是不夠的,STAUFFER C和GRIMSON W對每個像素點使用K個高斯分布進行描述,提出了混合高斯模型MoG(Mixture of Gaussians)[1-2]?;旌细咚鼓P屠肒-均值近似法[3]替代了期望最大化EM(Expectation-Maximization)方法。該方法后來被不斷改進和拓展。例如,HARVILLE M等使用YUV顏色編碼方式并利用立體相機加入了圖像的深度信息替代了RGB三原色顏色表示方法[4]。LEE D S提出了一個高效的MoG訓(xùn)練算法[5],描述如下:
對于一幅圖像I,首先對其進行高斯平滑處理,得到圖像 S:
這里 p是(x,y)處的一個像素,*是卷積運算,G(p,σ)是方差為σ2的高斯函數(shù)。
首先將圖像分割為若干圖像塊,然后對各圖像塊Bc建立一個描述元,顯然,最為直接的方法就是對Bc中的圖像強度進行采樣,作為一個模板,然后使用歸一化相關(guān)算法進行模板匹配,但是這種方法對噪聲較為敏感。
本文采用一種穩(wěn)定的描述元計算方法,避免了梯度運算。其描述元的建立基于如下定義的反差值:其中,p是 Bc中的一個像素,pc是由 Bc的 4個中心像素的均值估計出來的,并不存在于Bc中,使用反差值意味著對光線變化不敏感。反差值計算示意圖如圖1所示。
與SIFT算法類似,將每個圖像塊分成4個區(qū)域,然后利用每個四分之一區(qū)域的對比值來建立描述元。由于在每個四分之一區(qū)域里同時存在正數(shù)和負數(shù),若直接將它們相加將會衰減該區(qū)域的元素特征,因此這里將正反差和負反差進行獨立計算。若定義Qi為第i個四分之一區(qū)域,則 Qi關(guān)于 Pc的正反差PCHQi(pc)定義如下:
這里PQi是 Qi中具有正反差值的像素個數(shù),i=0,1,2,3。同樣,定義Qi關(guān)于 Pc的負反差 NCHQi(pc)如下:
這里NQi是Qi中具有負反差值的像素個數(shù),i=0,1,2,3。至此,可以用一個8維矢量定義圖像塊Bc的反差描述元如下:
以上反差描述元的建立是針對灰度圖像而言的,多數(shù)情況下,這種方法實現(xiàn)起來迅速有效,但是對于有些圖像卻是不適合的。如顏色相差很大亮度卻很接近,在這種情況下,利用灰度圖像對前景目標(biāo)進行識別是不容易做到的。因此,需要將本方法拓展到彩色圖像目標(biāo)識別中。
令 a∈{R,G,B},b∈{R,G,B}分別為 p和 pc的 3個顏色通道,關(guān)于Pc的正負反差定義如下:
其中,i=0,1,2,3,Ca,b(p,pc)是 p的 a通道與 pc的 b通道之間的反差值。
顯然,數(shù)對(a,b)有9種對比方式,這就預(yù)示著圖像塊Bc的反差描述元CHT(pc)是一個 72維矢量,為了提高算法的效率,將(a,b)限定為:
這樣,CHT(pc)就降為一個48維矢量,即 CHT(pc)∈R48。
混合高斯模型是目前背景建模最為成功的方法之一,它使用K個高斯分布來表征圖像所有像素的特性,在新一幀圖像獲得后更新混合高斯模型,用當(dāng)前圖像中的每個像素點與混合高斯模型匹配,如果成功匹配,則將該點判定為背景點,反之為前景點。
本文首先令n個圖像塊的反差描述元為{X1,X2,…,Xn},然后用K個高斯分布進行建模。當(dāng)前矢量Xn+1被識別為背景的概率為:
若K個高斯分布都不匹配,則用一個均值為Xn+1的高斯分布替代概率最小的概率分布,并將其初始化為一個較大的方差和較低的權(quán)值。若與其中一個高斯分布相匹配,則此高斯分布均值和方差更新如下:
其中 α,β 為學(xué)習(xí)率,且 α=βη(Xn|μn,i,σn,i),匹配的分布對應(yīng)Mn+1=1,不匹配的分布對應(yīng)Mn+1=0。
最后根據(jù)ω/σ的值對所有高斯分布進行降序排列,取前B個高斯分布以權(quán)值聯(lián)合生成背景如下:
其中,T是判別數(shù)據(jù)是否為背景的下限,如果當(dāng)前觀測圖像塊Xn+1與前B個高斯分布相匹配,將其判斷為背景,否則將其判斷為前景。
圖2(a)為從原始視頻序列中截取的9幀圖像,圖2(b)為使用本文基于反差描述元的混合高斯模型背景建模識別效果。本文所取的視頻右方是一片風(fēng)中搖曳的樹木,從圖 2(b)可以明顯看出,在速度為 20 S/s的情況下,改進的背景建模方法有效地濾除了干擾,基本無殘留的像素點,前景輪廓比較清晰,幾乎沒有拖影現(xiàn)象,達到了較好的前景識別效果。最后對檢測到的前景進行了實時跟蹤,并對其運動軌跡進行了實時描述。最終的檢測效果如圖 2(c)。
針對經(jīng)典的混合高斯背景建模算法魯棒性較差且背景建模實時性不足的缺點,本文提出了一種改進方法,其進行了兩點改進,首先將圖像矢量化,即將圖像分成若干塊,對每一塊圖像進行高斯背景建模,其次基于圖像塊的反差描述元進行匹配,降低了環(huán)境光等的干擾。經(jīng)實驗取得了良好的效果。
[1]FRIEDMAN N,RUSSELL S.Image segmentation in video sequences: A probabilistic approach[C].Proceedings of the 13th Annual Conference on Uncertainty in Artificial Intelligence,1997:175-181.
[2]STAUFFER C,GRIMSON W.Adaptive background mixture models for real time tracking[C].Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,1999:246-252.
[3]Sun Tong,NEUVO Y.Detail-preserving median based filters in image processing[J].Pattern Recognition Letters,1994,15(4):341-347.
[4]HARVILLE M.A framework for high-level feedback to adaptive,per-pixel,mixture-of-Gaussian background models[C].Proceedings of European Conference on Computer Vision,2002:543-560.
[5]LEE D S.Effective gaussian mixture learning for video background subtraction[J].IEEE Transactions on Pattern Anal.Mach.Intell.2005,27(5):827-832.