摘 要: 針對現(xiàn)有的運動分割和背景估計方法無法分割停止運動的對象、不適用于復雜動態(tài)場景等不足,首先提出一種基于動態(tài)紋理(DT)的背景?前景混合模型(FBM),實現(xiàn)動態(tài)場景下前景和背景的聯(lián)合表示。FBM包括一組關于位置的DT成份和一組全局DT成份,前者用于模擬本地背景運動,后者用于模擬持續(xù)性的前景運動。其次,提出一種可學習FBM參數(shù)的EM算法及變分近似策略,使得FBM在不需要人工選擇閾值和不需要單獨訓練視頻的前提下,實現(xiàn)多種運動復雜場景下的前景運動分割,并檢測出停止運動的對象。仿真實驗結(jié)果表明,與當前最新的運動分割和背景估計方法相比,該方法可顯著提升背景估計和運動分割的精度。
關鍵詞: 運動分割; 背景估計; 動態(tài)紋理; EM算法; 閾值; 分割精度
中圖分類號: TN911.73?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2016)11?0063?07
Abstract: Since the available motion segmentation and background estimation method can′t segment the static object, and is unsuitable for complex dynamic scenes, a foreground?background hybrid model (FBM) based on dynamic texture (DT) is proposed to realize the union expression of background and foreground in dynamic scenes. The FBM is composed of a set DT components about location and a set global DT components. The former is used to simulate the local background motion, and the latter is used to simulate the persistent foreground motion. The EM algorithm for learning FBM parameters and variation approximation strategy are proposed, which can realize the foreground motion segmentation in various moving complex scenes and detect the static object while FBM needn′t threshold artificial selection and individually training video. The simulation experiment results show that, in comparison with the latest motion segmentation and background estimation method, the proposed method can significantly improve the accuracy of background estimation and motion segmentation.
Keywords: motion segmentation; background estimation; dynamic texture; EM algorithm; threshold; segmentation accuracy
0 引 言
將背景和前景分離是計算機視覺領域的一個重要步驟。如果背景在大部分時間內(nèi)處于靜止狀態(tài),則當前背景消減算法效果明顯[1?2]。對于具有動態(tài)背景的場景(比如移動的樹葉、水流或噴泉),可利用動態(tài)紋理(Dynamic Textures,DTs)表示背景運動區(qū)域[3],DTs是一種將視頻看作來自線性動態(tài)系統(tǒng)一個樣本的概率運動模型。為了實現(xiàn)背景和前景的分離,大部分算法需要人工設置一個背景得分閾值,場景不同,該閾值也會有顯著差異[4]。此外,大部分算法還需要只包含背景的“干凈”的訓練視頻等先驗知識[5]。
動態(tài)紋理模型在動態(tài)場景中的微觀和宏觀運動模式聚類方面展示了一定潛力[6?7]。文獻[8]利用多種DT紋理對視頻塊進行聚類,進而實現(xiàn)運動分割。然而,該算法存在的一個缺點就是它只基于運動,因此無法分割已經(jīng)停止運動的對象。文獻[9]中的人群分割方法將臨時停止運動的行人看作背景,因此無法計算靜止人體數(shù)量。為此,本文提出一種可以同時實現(xiàn)動態(tài)場景下運動分割和背景估計的聯(lián)合背景?前景混合模型(FBM),與單獨進行背景消減或運動分割的方法相比,F(xiàn)BM可提高復雜動態(tài)場景下前景和背景的分離精度。
1 相關工作
人們已經(jīng)提出多種方法進行運動分割和背景估計,比如文獻[5]利用自適應高斯混合模型對背景消減進行分析,提出一種基于局部圖像鄰域和全局一致性屬性的運動分割和背景估計方法。該方法假設背景在短時間內(nèi)相對靜止,因此在動態(tài)性較高的場景下算法性能較差。文獻[10]中的聯(lián)合域?范圍算法利用聯(lián)合特征空間模擬每個像素的前景和背景,通過比較前景和背景得分實現(xiàn)背景消減。然而,該方法以顏色分布為基礎,因此不適用于復雜動態(tài)場景,也無法實現(xiàn)多種運動的前景分割。
另外,文獻[11]通過分離“顯著”(前景)運動和背景運動實現(xiàn)背景消減。文獻[12]通過背景的低秩表示將運動對象檢測和背景學習集成到一個過程中,以適應全局變化。文獻[13]提出一種自適應SG拓展模型及一種相應的在線學習算法,SG拓展模型中的DTs構(gòu)成混合成份,而在線學習算法可解釋場景隨著時間而發(fā)生的變化。文獻[14]提出一種基于局部PCA的DT算法,當前幀中的每一區(qū)域如果沒有被PCA基有效模擬,則將其標識為前景。文獻[15]利用DTs模擬整個視頻幀,利用一個穩(wěn)健的卡爾曼濾波器將DTs沒有有效解釋的像素標識為前景。以上方法提高了復雜運動的分割精度。然而它們無法直接用于背景消減。分割出來的每一塊區(qū)域必須對應于一個獨一無二的運動,因此混合運動(比如水流、樹木)條件下的背景將被過分割。另外由于這些方法基于光流和參數(shù)模型,假設環(huán)境中各部位比較平坦,因此不適用于背景或前景具有復雜動態(tài)外觀的場景。為了解決以上方法的不足,本文首先提出一種基于動態(tài)紋理的背景?前景混合模型(FBM),實現(xiàn)動態(tài)場景下前景和背景的聯(lián)合表示。其次,提出一種可學習FBM參數(shù)的EM算法及變分近似策略。最后利用高難度動態(tài)場景數(shù)據(jù)集FBDynScn評估了FBM在背景消減和運動分割上的有效性。
2 本文方法
2.1 動態(tài)紋理
動態(tài)紋理可看作由包含觀察變量和隱藏狀態(tài)變量的隨機過程構(gòu)成;觀察變量對時間時的視頻幀外觀進行編碼,隱藏狀態(tài)變量對視頻在一段時間內(nèi)的動態(tài)特征進行編碼。通過線性動態(tài)系統(tǒng)(LDS)將狀態(tài)和觀察變量聯(lián)系起來:
2.2 前景?背景混合模型
前景?背景混合模型(FBM)包含用于同時進行背景估計和運動分割的兩組DT模型:一組關于位置的DT模型,用于模擬局部背景運動;一組與位置無關的DT模型,用于模擬前景中的全局一致運動。本文提出的前景?背景混合和聯(lián)合估計算法見圖1。
輸入視頻被分割為一組視頻塊(空間時間立方體)。利用帶有MRF約束的EM算法來訓練FBM,得到B個與位置相關的背景DT和K個全局前景DT。最后,前景和背景似然圖進行比較,實現(xiàn)聯(lián)合運動分割和背景估計。
視頻被分割為一組互相重疊的視頻塊(個時間?空間立方體),沿著間隔均勻的網(wǎng)格提取出這些視頻塊。視頻幀中共有個背景位置,每個位置在時域上共有個視頻塊。在FBM中,每個位置關聯(lián)了一個與位置相關的背景DT成份而前景用個DT成份來模擬。本文用索引0來表示處的背景成份,用索引來表示前景成份。在FBM中,在位置處觀察到的視頻塊是其背景DT和個全局前景DT混合之后的一個樣本,即:。
2.3 用于參數(shù)估計的EM算法
3.3 概 述
在FBM中,基于MRF的EM算法見算法2。為了對前景和背景DT初始化,采用一種自適應閾值算法,由最小方差和運動似然概率閾值(和)選擇視頻塊來學習初始的DT模型。初始化后,對所有視頻塊運行EM算法。在EM期間,假設前景DT只模擬帶有運動的視頻塊(前景運動總是處于動態(tài)之中),而后景DT模擬運動和非運動視頻塊(背景可靜可動)。EM算法收斂后,根據(jù)后驗概率把每個視頻塊分配給最有可能的混合成份(要么背景,要么前景),進而生成分割結(jié)果。如果有些視頻塊在背景成份下的似然概率較低,則將這些視頻塊作為非運動視頻塊,據(jù)此檢測出停止運動的對象。
4 實驗和結(jié)果
4.1 數(shù)據(jù)集
為了評估FBM的性能,收集一個新的數(shù)據(jù)集FBDynSyn,該數(shù)據(jù)集難度較大,由7個視頻組成,這些視頻的背景復雜且具有多個前景對象(比如水面上的人體和船只,噴泉,樹木),如圖1所示。視頻為灰度視頻且尺寸不同,平均尺寸為160 × 304 × 316。利用前景對象和背景的真實分割結(jié)果為每個視頻提供注解。另外,還利用文獻[13]中難度最大的視頻數(shù)據(jù)“Sailing02”測試了本文算法的性能。
4.2 實驗配置
將每個視頻分割為10 × 10 × 15且時域和空域重疊的數(shù)據(jù)塊(步進量為5 × 5 × 10)。全局前景成份數(shù)量根據(jù)每個視頻中的運動成份數(shù)量確定。設置時可獲得類似的背景估計結(jié)果,此時將所有的前景運動劃分為同一類型。對MRF模型,采用圖2(b)中的鄰域,且設置。為了分割視頻,利用EM算法并結(jié)合視頻來學習時的FBM(算法2)。對初始化步驟,設置最小方差閾值運動似然概率閾值。
將本文FBM與當前最新的背景消減和運動分割算法做比較。這些算法要么只能進行背景消減,要么只能進行運動分割,而本文算法可兩種任務同時進行。對背景消減,與文獻[17]中的自適應GMM算法做比較,該算法可自動選擇成份數(shù)量??紤]基于DT且將視頻塊尺寸設置為7×7的算法[14](表示為DT),以及穩(wěn)健型卡爾曼濾波器(RKF)[15](均設置)。利用文獻[14]測試帶有3個成份且性能最優(yōu)的自適應背景DTM算法(表示為BDTM3)。還利用文獻[13]中視頻塊尺寸為7×7且的PCA模型。同時測試文獻[12]中的DECOLOR算法,該算法是近期提出的一種運動對象檢測算法,與FBM一樣支持批處理模式。最后,本文數(shù)據(jù)集并沒有為每個場景提供一個單獨的訓練視頻。
對運動分割,與包含個成份的DTM模型[8]做比較(額外成份用于背景運動)。引入相同的MRF約束作為FBM來對DTM模型進行拓展。還利用個成份來與文獻[18]中的時域切換LDT做比較。其他參數(shù)設置與FBM相同。
為了衡量背景估計的精度,通過在背景得分圖上掃描閾值(比如從FBM中的背景成份),并計算相對真實背景分割的正確率(TPR)和虛警率(FPR)來計算ROC曲線。利用ROC曲線下的面積(AUC)來衡量總體性能。采用文獻[19]中的Rand索引(RI)來評估運動分割結(jié)果,以衡量真實結(jié)果和分割結(jié)果間的一致性比例。
4.3 背景估計的結(jié)果
表1比較了FBM和其他背景消減算法的AUC。FBM的平均AUC最高,為0.984,排名第二的算法BDTM3的AUC為0.954。請注意,BDTM3在每個位置采用了3個背景DT成份,而FBM在每個位置只采用了一個背景DT。即使如此,F(xiàn)BM通過模擬全局前景運動,提高了AUC水平。
4.4 運動分割的結(jié)果
表4給出了運動分割的Rand索引結(jié)果,圖5給出了每個視頻的分割示例,其中,前景分割用紅色、綠色或紫藍色表示,而背景分割沒有上色。停止運動的對象用黃色表示。FBM的平均RI值為0.94,遠優(yōu)于LDT的0.76和DTM的0.51。DTM即使多采用一個DT成份也無法將復雜背景作為單一部分來模擬。相反,它會對背景過分割,將多個前景運動分到同一部分(比如船2人體2)。LDT對同質(zhì)背景的場景具有優(yōu)異性能(比如人體2樹1)。然而,如果背景復雜且具有不同運動特征(比如噴泉2人體2),則LDT失效。相反,F(xiàn)BM可正確分割出背景復雜的不同前景運動。最后,F(xiàn)BM可成功分割出停止運動的對象(比如圖5中停止運動的人體1),而DTM和LDT等單純的運動分割算法無法分割出這些對象。
5 結(jié) 語
針對現(xiàn)有的運動分割和背景估計方法的不足,本文提出一種新的前景?背景混合模型,可進行聯(lián)合運動分割和背景估計。另外,文中還提出了EM算法來估計FBM的參數(shù),同時針對帶有MRF約束的FBM提出一種變分后驗概率。實驗結(jié)果表明,與其他最新算法相比,利用FBM進行聯(lián)合背景估計和前景分割可提升背景估計和運動分割的精度。如果利用視頻對FBM進行訓練,則可對任何新的視頻幀實現(xiàn)在線背景估計和運動分割。下一步研究中,將考慮視頻幀的在線更新,同時研究利用變分貝葉斯等方法實現(xiàn)成份數(shù)量的自動選擇。
參考文獻
[1] 趙謙,周勇,侯媛彬,等.一種自適應碼書模型背景更新算法[J].電視技術,2013,37(3):186?190.
[2] HAINES T S F, XIANG T. Background subtraction with Dirichlet process mixture models [J]. IEEE transactions on pattern analysis and machine intelligence, 2014, 36(4): 670?683.
[3] KOLEINI M, AHMADZADEH M R, SADRI S. A new efficient method to characterize dynamic textures based on a two?phase texture and dynamism analysis [J]. Pattern recognition letters, 2014, 45(2): 217?225.
[4] SHU G, DEHGHAN A, SHAH M. Improving an object detector and extracting regions using superpixels [C]// Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Re?cognition. Portland: IEEE, 2013: 3721?3727.
[5] KIM W, KIM C. Background subtraction for dynamic texture scenes using fuzzy color histograms [J]. IEEE signal processing letters, 2012, 19(3): 127?130.
[6] MUMTAZ A, COVIELLO E, LANCKRIET G R G, et al. Clustering dynamic textures with the hierarchical em algorithm for modeling video [J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(7): 1606?1621.
[7] WANG S J, YAN W J, LI X, et al. Micro?expression recognition using dynamic textures on tensor independent color space [C]// Proceedings of 2014 22nd International Conference on Pattern Recognition. Stockholm, Sweden: IEEE, 2014: 4678?4683.
[8] CHAN A B, VASCONCELOS N. Modeling, clustering, and segmenting video with mixtures of dynamic textures [J]. IEEE transactions on pattern analysis and machine intelligence, 2008, 30(5): 909?926.
[9] CHAN A B, VASCONCELOS N. Counting people with low?level features and Bayesian regression [J]. IEEE transactions on image processing, 2012, 21(4): 2160?2177.
[10] LIN L, XU Y, LIANG X, et al. Complex background subtraction by pursuing dynamic spatio?temporal models [J]. IEEE transactions on image processing, 2014, 23(7): 3191?3202.
[11] TIAN Y L, SENIOR A, LU M. Robust and efficient foreground analysis in complex surveillance videos [J]. Machine vision and applications, 2012, 23(5): 967?983.
[12] ZHOU X, YANG C, YU W. Moving object detection by detecting contiguous outliers in the low?rank representation [J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(3): 597?610.
[13] CHAN A B, MAHADEVAN V, VASCONCELOS N. Genera?lized Stauffer?Grimson background subtraction for dynamic scenes [J]. Machine vision and applications, 2011, 22(5): 751?766.
[14] BOUWMANS T, GONZàLEZ J, SHAN C, et al. Special issue on background modeling for foreground detection in real?world dynamic scenes [J]. Machine vision and applications, 2013, 25(5): 1101?1103.
[15] ALI I, MILLE J, TOUGNE L. Space?time spectral model for object detection in dynamic textured background [J]. Pattern recognition letters, 2012, 33(13): 1710?1716.
[16] HO H J, PYNE S, LIN T I. Maximum likelihood inference for mixtures of skew student?t?normal distributions through practical EM?type algorithms [J]. Statistics and computing, 2012, 22(1): 287?299.
[17] ZIVKOVIC Z. Improved adaptive Gaussian mixture model for background subtraction [C]// Proceedings of the 17th International Conference on Pattern Recognition. Stockholm, Sweden: IEEE, 2014: 28?31.
[18] CHAN A B, VASCONCELOS N. Variational layered dynamic textures [C]// Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, USA: IEEE, 2009: 1062?1069.
[19] ANDERSON D T, ROS M, KELLER J M, et al. Similarity measure for anomaly detection and comparing human beha?viors [J]. International journal of intelligent systems, 2012, 27(8): 733?756.