陳 淼,劉媛媛
(1.陜西師范大學 數學與信息科學學院,陜西 西安 710062;2.西安通信學院 通信裝備管理系,陜西 西安 710106)
視頻運動物體提取技術是視頻處理領域中的熱點之一,在基于內容的視頻檢索、高級視頻編碼、視頻傳輸、圖像理解、模式識別等領域都有著廣泛的應用。
現(xiàn)有的視頻運動物體提取技術方法很多,如光流場方法、基于像素值分割方法、利用運動矢量信息的方法[1-2]、壓縮域的方法[3-4]、全局運動估計方法[5-6]、基于模型的方法[7]、運用幀間差分方法[8]、聚類方法[9]、貝葉斯方法[10]等。 但是光流場的方法計算復雜度較高,不適合實時應用;利用運動矢量信息[1-2]方法計算復雜度不高,但卻有提取的準確性也相對不高的缺點。
根據視頻序列中運動物體的運動矢量與背景區(qū)域的運動矢量有較大區(qū)別,提出將運動物體與背景區(qū)域的運動矢量加以區(qū)分,再將運動物體從視頻序列中提取出來,算法復雜度相對較低而準確性相對較高。首先利用運動矢量計算分割因子,然后對分割因子加以修正,最后利用二維熵門限算法[5]對分割因子進行門限判決,從而實現(xiàn)運動物體的分割。
運動矢量是一個二維的數據,一般在直角坐標系里面表示為(MVx,MVy),變換到極坐標系可表示為(MVMagnitude,MVAngle),它表示的是宏塊的運動幅度以及運動方向。背景區(qū)域的各個宏塊的運動矢量幅度及方向往往相同,而運動物體所在宏塊處的運動矢量往往與背景區(qū)域宏塊的運動矢量在幅度和方向上有所區(qū)別。
單純的利用角度或者幅度信息都不足以完全地表示宏塊間的運動矢量的區(qū)別。這是由于有些宏塊的運動幅度相同但是角度不同,有些宏塊的運動角度相同但是幅度不同。然而幅度不同,角度也不同,但是它們的乘積卻相同的宏塊相對很少,所以本文采用運動矢量的角度與幅度的乘積作為分割因子,同時為了將這種分割因子之間的區(qū)別拉大,以便于更準確地進行分割門限的選擇,將這種乘積的平方作為最終的分割因子。假設在宏塊位置(i,j)處的運動矢量為(MVi,jx,MVi,jy),分割因子為:
分割因子針對每個宏塊進行計算,從而每幀的所有宏塊的分割因子將組成一個矩陣例如 CIF 格式(352×288 像素)的圖像 coastguard 有 22×18 個宏塊,每幀圖像構成一個22×18分割因子矩陣。coastguard第62幀的分割因子矩陣的直方圖如圖1所示。
在分割因子矩陣生成之后,為提取背景區(qū)域的分割因子,統(tǒng)計出現(xiàn)次數最多的分割因子值 (用Segmentation_Factor_Most表示),將其認作是背景區(qū)域分割因子特征值。從而,一種直接而簡單的分割方法是:對每個宏塊,若分割因子Segmentation_Factor (i,j)=Segmentation_Factor_Most, 則宏塊(i,j)被判斷為背景(如表 1~2和圖 2)。 這樣的判法基于這樣一個假設:鏡頭中背景的宏塊數量始終占據著宏塊數量的大多數。本文對多個標準序列,針對各種場景進行大量實驗,表1和表2是通過對多個序列分別隨機選取幾幀的統(tǒng)計,結果表明這種假設對絕大多數情形都是正確的,具有一般意義。
圖1coastguard第62幀的分割因子矩陣的直方圖Fig.1 Segmentation factor matrix histogram of the 62nd frame about coastguard
表1castguard宏塊分割因子數量統(tǒng)計Tab.1 Quantity statistic of macro blocks segmentation factor about castguard
表2 其他序列分割因子數量統(tǒng)計Tab.2 Quantity statistic of macro blocks segmentation factor about other sequences
通過分割因子可對背景與前景進行初步劃分,如圖2所示,圖2(b)中黑色為背景區(qū)域。從圖2可以看出,仍然有大片的背景區(qū)域與前景區(qū)域混在一起,未被劃分出來,因此需要選擇一個合適的門限才能取得更好的效果。本文利用二維熵門限的判決方法進行門限判決。
本文采用了與參考文獻[5]中類似的二維熵門限算法,但并不以像素為基礎,而是采用分割因子取代像素進行分割因子熵門限的選擇。步驟如下:
圖2coastguard第62幀的初步劃分結果Fig.2 Preliminary separation results of the 62nd frame about coastguard
1)首先對每個宏塊建立二維參數對(s,t),s表示宏塊分割因子的值,t表示該宏塊的鄰域宏塊分割因子的平均值:
2)計算共生矩陣 cm,n,cm,n為在(x,y)位置處宏塊的分割因子的值為m,在鄰域的分割因子的平均值為n的次數,它反映了相鄰宏塊的分割因子值的變化情況。
其中 I(x,y)表示(x,y)處的分割因子,I(x,y)表示其鄰域分割因子的平均值。由cm,n組成的矩陣稱為共生矩陣,并用C表示。
3)根據背景和運動物體的分布概率計算熵門限,靜止背景和運動物體的分布概率可以定義為
背景和物體的熵分別定義為:
門限矢量(S,T)應滿足方程
使背景和物體的后驗熵最大化,進而得到門限矢量(S,T)。
4)劃分運動物體與背景,二維參數對(s,t)的分布示意圖如圖3所示。
0和3區(qū)域分別表示背景和運動物體的分布,1和2區(qū)域分別表示邊緣和噪聲的分布。熵門限為步驟 3 中得到的(S,T)。
將 s(i,j)>S 且 t(i,j)>T的宏塊(即圖3中的3號區(qū)域的宏塊)判斷為運動物體。對于運動物體用flag=0標記,背景用flag=1標記。
圖3 二維參數對(s,t)的分布示意圖Fig.3 Sketch map of distribution in two-dimensional about s and t
最后通過中值濾波:flagi,j=flagm,n, 其中 flagm,n是窗口內所有宏塊的flag值排序后的中間值。去除獨立的噪聲就最終完成了運動物體的提取過程。中值濾波采用3×3的最小窗口進行。
實驗采用多個標準序列進行實驗,如coastguard,vectra_color,claire序列等。使用從H.263+碼流中提取的 16×16大小的宏塊的運動矢量進行實驗。erik序列和coastguard序列提取結果如圖4、圖5所示。
圖4中無背景運動,而且背景紋理一致,所以提取效果很好。由圖5可以看出當背景很復雜,全局運動比較快時,提取質量會有所下降。
圖4erik提取結果Fig.4 Result of extraction about erik
圖5coastguard提取幀結果Fig.5 Result of extraction about coastguard
將提出的算法與主觀分割的結果進行比較。將與主觀觀察的提取結果相差≤5個宏塊的幀的提取效果判為提取成功,其余判為提取失敗,以此作為分割質量的評判標準。表3給出了多個序列的實驗結果。
由表3中多個序列的實驗統(tǒng)計結果可以看出,該算法對于全局運動比較穩(wěn)定且運動物體的運動速度不是太快的序列具有較好的提取效果,如Claire、Container、Hallmonitor等。當運動物體運動速度過高,或者鏡頭的運動不穩(wěn)定,其提取效果不十分理想,如對 Vectra、Coastguard,F(xiàn)ootball的提取。
表3多種序列的實驗數據統(tǒng)計結果Tab 3 Experimental results on data statistics of several video sequences
利用運動矢量信息的二維熵門限運動物體提取方法,對鏡頭運動不太劇烈,背景不太復雜的序列,可以獲得很好的效果,因此本文的算法可以應用于視頻會議、可視電話及監(jiān)視系統(tǒng)錄像等系統(tǒng)中。然而當背景很復雜,鏡頭運動劇烈時提取效果不好,因此對于體育比賽等場景的應用還需進一步的改進。
[1]Takaya K.Detection and segmentation of moving objects in video[C].Proc of IEEE Conference on Electrical and Computer Engineering,Canadian:2006(5):2069-2073.
[2]MA Yu-fei,ZHANG Hong-jiang.A new perceived motion based shot content representation[J].Proceedings of IEEE International Conference on Image Processing,2001 (3):426-429.
[3]LIU Zhi,SHEN Li-quan,ZHANG Zhao-yang.An efficient compressed domain moving object segmentation algorithm based on motion vector field[J].Journal of Shanghai University ,2008,12(3):221-227.
[4]ZENG Wei,GAO Wen,ZHAO De-bin.Automatic moving object extraction in MPEG video[J].Proc.of IEEE Int'l Symposium on Circuits and Systems,2002(2):524-257.
[5]劉洋,李玉山.基于2D維時空熵門限的運動目標檢測[J].電子與信息學報,2005,27(1):39-42.LIU Yang,LI Yu-shan.The moving object detection based on 2D spatio-temporal entropic thresholding[J].Journal of Electronics&Information Technology,2005,27(1):39-42.
[6]李宏亮,劉貴忠,李永利.基于MPEG壓縮域的快速、魯棒的全局運動信息提取方法[J].電子學報,2004,32(1):121-124.LI Hong-liang,LIU Gui-zhong,LI Yong-li.Efficient global motion estimation method for MPEG video[J].Acta Electronica Sinica,2004,32(1):121-124.
[7]FAN Jian-ping,ZHU Xing-quan,WU Li-de.Automatic model-based semantic object extraction algorithm [J].IEEE Transaction on Circuits and Systems for Video Technology,2001,11(10):1073-1084.
[8]張玉霞,王小銘,李惠松,等.競技運動目標的提取及視頻合成與比較[J].計算機應用與軟件,2008,25(4):194-196.ZHANG Yu-xia,WANG Xiao-ming,LI Hui-song,et al.Sports moving object extraction and video composition and comparison[J].Computer Applications and Software,2008,25 (4):194-196.
[9]楊鵬,裴繼紅,楊烜.基于不變矩和Mean Shift聚類的視頻關鍵幀提取[J].計算機應用與軟件,2009,26(2):238-250.YANG Peng,PEI Ji-hong,YANG Xuan.Video key frame extraction using invariant moment and mean shift clustering[J].Computer Applications and Software,2009,26(2):238-250.
[10]Koo H I,Lee S H,Cho N I.Bayesian object extraction from uncalibrated image pairs [J].Signal Processing:Image Communication,2007,22(10):866-876.