沈縈華,呂朝輝
(中國傳媒大學 信息工程學院,北京 100024)
責任編輯:哈宏疆
視頻分割是指將圖像或視頻序列按一定的準則分割成區(qū)域,目的是為了從視頻序列中分離出視頻對象。立體視頻對象分割技術是從靜態(tài)圖像分割技術和單通道視頻分割技術的基礎上發(fā)展起來的。進行立體視頻對象分割[1-3],可以利用靜態(tài)圖像分割技術和單通道視頻分割技術中的分割方法,先提取一路通道視頻的目標,然后根據(jù)視差估計提取另一通道的相應目標。立體圖像對中的深度信息指示了三維對象的空間位置,可以直接利用視差圖來提取出不同深度層面的物體。
根據(jù)視差圖的特性,筆者提出了利用改進的均值漂移算法與視差圖相結合的方法對立體視頻對象進行分割。通過實驗驗證,這種分割方法可以取得很好的分割效果。
所謂視差是指同一個點在兩幅圖像中投影點之間的位置偏差,定義P點在左右成像平面的投影點離各自平面中心的位移之差為視差dv,即:
式(1)把物體與像平面的距離z(即三維世界中的深度)及視差d直接聯(lián)系了起來。視差包含了三維場景物體的空間信息,可以用來描述相對深度。處在同一目標對象上的點,由于它們與攝像機之間的距離相近,其視差也相近,具有連續(xù)性;但在對象邊界處,由于不同對象離攝像機的距離不同,故視差不同,具有間斷性。離攝像機較近的物體,產(chǎn)生較小的立體視差;而離攝像機較遠的物體則產(chǎn)生較大的立體視差。
筆者使用的是一種基于自適應權值的視差估計方法[4]。
為了抑制視差圖中的噪聲,采用3×3模板的中值濾波方法對視差圖進行濾波。由連續(xù)性約束可知,除了對象邊界處深度間斷的地方,物體的視差變化是連續(xù)的。根據(jù)這個約束條件可以對立體圖像對的視差圖中處于不同視差平面的物體使用改進的mean shift方法對視頻對象進行提取。
mean shift是一種非參數(shù)密度估計的方法[5]。算法的核心是對特征空間的樣本點進行聚類,得到密度梯度為零的點。在d維歐氏空間Rd中,有n維樣本點組成的集合 S={xi,1≤i≤n},點 x 估計的密度概率值為
將g(x)作為G(x)輪廓函數(shù),將(4)代入(3),得
mean shift向量 mh,G(x)總是指向密度大的方向,即密度梯度增加的方向。
筆者基于視差圖的分割,對mean shift向量進行了改進
式中:d(x)代表灰度值。由于視差圖具有不同層次的灰度值,通過不同的灰度值可以確定不同的對象,在mean shift向量中通過加入灰度權值,可以更準確地區(qū)分不同層次的對象。
筆者是通過對視差圖使用改進的均值漂移聚類的方法得到視頻對象的分割。聚類是按照事物間的相似性進行分類的過程,聚類過程中聚類中心點的尋找是關鍵,聚類中心點是特征空間中密度的局部最大值點。mean shift方法是通過mean shift矢量迭代來定位密度的模式點,mean shift方法對圖像進行聚類時,迭代計算每一個像素點的mean shift矢量,來確定相應的密度模式點,并準確的將像素點歸到對應的區(qū)域內。如果對圖像中的每一個像素點都進行迭代計算,則計算量較大,為提高分割算法的效率,筆者利用視差圖的特性對mean shift算法進行了改進,改進的mean shift的算法步驟如下:
1)根據(jù)灰度值的不同對視差圖中的所有像素進行分類,屬于同一灰度級的像素進行標記Mi;
2)窗口中心處于當前某一像素的位置;
3)檢查當前像素的4鄰域,如果其中某個像素與當前像素處于同一灰度級,則用鄰域像素取代當前像素,返回 3),否則 4);
4)計算mean shift向量,將窗口中心移至鄰域的像素的位置,直到mean shift向量小于某一閾值時停止;
5)通過聚類,合并小于某一閾值的區(qū)域,進行分割。
為驗證算法的有效性,選取了人工合成圖像和自然圖像進行實驗。人工合成圖像的分割結果如圖1所示。選取的人工合成圖像包含有灰度值及形狀不同的區(qū)域。可以看出,筆者所采用的方法能夠準確分割出不同灰度層次的區(qū)域。
圖1 人工圖像的分割結果
自然圖像的分割如圖2所示,原始圖像采用了Tsukuba立體視頻序列對。圖2a和圖2b為原始的左圖像和右圖像,圖2c為求得的視差圖,圖2d為使用改進的mean shift算法分割的視差圖,圖2e和圖2g為燈和雕塑對象區(qū)域的二值掩模圖像,圖2f為對象燈的分割結果,圖2h為對象雕塑的分割結果。通過實驗結果可知,對圖像中前景的兩個對象可以取得很好的分割效果,分割對象的邊緣比較平滑準確。
筆者提出了一種利用改進的mean shift算法分割視差圖的立體視頻對象提取方法。首先利用自適應權值的視差估計方法得到立體視頻對象的視差圖,然后使用改進的mean shift算法對獲得的視差圖進行分割,實驗結果表明這種方法可以準確的提取視頻中具有語義信息的對象。進一步的工作可以結合對象的運動信息,修正單獨依賴深度信息進行分割的不足,以普遍適應對各種場景立體視頻序列對象的分割。
[1]朱仲杰,郁梅,蔣剛毅.用于立體視頻會議系統(tǒng)的立體對象分割和跟蹤算法[J].計算機輔助設計與圖形學報,2004,16(3):16-20.
[2]DOULAMIS A D,DOULAMIS N D,NTALIANIS K S,etal.Unsupervised semantic object segmentation of stereoscopic video sequences[C]//Proc.IEEE International Conference on Intelligence,Information and Systems.Washington D.C.:IEEE Press,1999:527-533.
[3]袁惇,呂朝輝.立體視頻對象分割綜述[J].電視技術,2006,30(S1):123-124.
[4]呂朝輝,袁惇.一種基于自適應權值的立體匹配方法[J].光學技術,2007,33(4):501-504.
[5]COMANICI D,MEER P.Mean shift:a robust approach toward feature space analysis[J]. IEEE Trans. Pattern Analysis and Machine Intelligence,2002,24(5):603-619.