李晗
(四川大學計算機學院,成都610065)
基于深度圖像的渲染(DIBR)技術是生成多視點視頻的一種實用方法,可以減少存儲空間,節(jié)省傳輸帶寬。然而由于前景參照物會遮擋到后景區(qū)域從而產生空洞,使得合成視頻較原景象出現較大的偏差。
解決空洞問題一直是當前主流的研究方向,一般來說,有兩種填充空洞的方法。一種是通過低通濾波器對深度圖進行預處理,從而減小空洞區(qū)域。對稱高斯低通濾波器和非對稱濾波器來平滑整個深度圖,使用著這種方法生成的虛擬圖像會產生一定的幾何失真。另一種類型的方法是使用視頻的空間或時間相關性來填充空洞。在空間域中,視圖混合方法可以通過使用多個視圖可以填充大多數空洞區(qū)域,但是它們需要更多的拍攝設備并且會增加傳輸帶寬的壓力。因此,采用單個視圖將更加具有優(yōu)勢。分層空洞填充方法對虛擬視圖進行下采樣然后逐漸上采樣,其中不產生幾何失真,但可以引入大孔周圍的模糊區(qū)域。時間填充方法能夠通過使用更多幀來獲取被遮擋域中的紋理。在時間域中,當前景對象移開時,當前幀中的被遮擋的背景可能在其他幀中變得可見。背景重建可以利用2D 視頻及其對應的深度圖中的時間相關性信息來生成背景視頻,該背景視頻可以用于消除合成視頻中的空洞。因此,采用一些背景模型來恢復被遮擋的背景。高斯混合模型(GMM)和前景深度相關(FDC)從幾個連續(xù)的視頻幀和深度圖離線構建穩(wěn)定的背景。如果前景對象緩慢移動或旋轉,則GMM 可以將該前景對象視為穩(wěn)定背景的一部分,因為真實背景在大多數幀中被前景對象遮擋。如果深度圖不完美,則FDC 可能會產生一些尾。大多數基于背景模型的方法可能在構造的背景中帶來一些前景紋理或者不適合于移動相機場景。本文提出了一種基于背景重建的填孔方法,其中去除前景物體,然后運動補償應用于移動攝像機場景,最后通過改進的GMM 生成干凈的背景視頻。我們的方法適用于運動場景,可以防止模糊效果,或者在移除前景對象時從前景紋理中帶來偽影。
為了生成不含尾影的背景視頻,需要從參考視圖中的2D 視頻及其深度圖中移除前景對象。如何自動提取視頻中的前景仍然是一個具有挑戰(zhàn)性的問題。在我們提出的方法中,通過隨機游走分割算法在參考視圖中自動提取前景對象。為了將前景和背景的分離,構造了無向圖G=(V,E)用于隨機游走公式,其中V 是深度圖中所有點的集合,E 是加權邊集。定義vi 代表深度圖中的第i 個點,v∈V。并使用典型的高斯加權函數定義節(jié)點之間的權重來解決標記問題。
其中gi表示像素i 處的深度值,β是平衡深度相似性成本的靈敏度的加權因子(例如,在此次的實驗中β=90)。將頂點分為兩組,標記節(jié)點VM和未標記節(jié)點VU,L 可以分解為:
其中LM是標記節(jié)點的權重,LU是非標記節(jié)點的權重。求解標簽的未知概率等價于求解矩陣方程:
其中xM和xU分別對應于標記和非標記節(jié)點的概率。另外,用表示節(jié)點xi屬于標簽s 的概率。將標記點的標簽集定義為函數,其中s ∈S,S={s1,s2}。定義 | VM|×1為矢量,每個標簽s 在節(jié)點vj∈VM為:
因此,求解Dirichlet 問題可以轉換為:
利用初始標記節(jié)點,可以通過求解上述公式獲得前景標簽和背景標簽的隨機游走概率圖,其結果如圖1所示。
圖1
刪除前景對象后,視頻的剩余部分可用于重建清晰的背景??紤]到傳統的背景重建方法不適合移動攝像機場景,采用了運動補償和混合高斯模型(GMM)兩個模塊進行背景重建,從而實現動態(tài)場景中依舊可以獲取清晰的背景。
運動補償(MC)在視頻濾波中非常有用,可消除噪聲并增強信號。它允許濾波器或編碼器基于構成圖像序列在近似最大相關的路徑上處理視頻。運動補償也用于所有分布質量的視頻編碼格式,因為它能夠實現最小的預測誤差,然后更容易編碼。運動可以用速度矢量v 或位移矢量d 來表示,并用于將參考幀轉換到目標幀上。運動估計可以目標幀中的每個像素,用于獲得這些位移。
光流是從所謂的約束方程中設置,得到的視位移矢量場為d=( d1,d2)。
所有方法都從這個基本方程開始,這實際上只是一種理想化。理想的偏離是由于在所觀察的場景中覆蓋和揭露物體,在時間和場景中的物體之間的光變化,朝向或遠離相機的運動,以及圍繞軸的旋轉。通常,約束方程僅在最小二乘意義上解決。此外,預期位移不是上式中假設的整數,通常需要使用某種類型的插值。
不能在逐個像素的基礎上確定運動,因為每個像素有兩個運動分量,因此未知數是方程的兩倍。一種常見的方法是假設運動在稱為孔徑的小區(qū)域上是恒定的。如果光圈太大,那么我們將錯過詳細的運動,并且只能獲得場景中物體運動的平均測量值。如果光圈太小,則運動估計可能很差到非常錯誤。事實上,所謂的孔徑問題涉及圖中所示的方形區(qū)域中的運動估計如圖2 所示。
圖2
如果均勻暗區(qū)的運動與其邊緣平行,則無法檢測到該運動。由于這種情況通常僅適用于自然圖像中的小區(qū)域,因此孔徑效應使我們選擇不太小的孔徑尺寸。因此,找到正確的孔徑尺寸是取決于視頻內容的重要問題。
另一個問題是覆蓋和揭露,如圖3 所示,顯示了兩個連續(xù)幀n 和n-1 的一維描述,一個物體向右移動。我們假設一個簡單的對象在固定的背景上在前景中進行轉換,而不是視頻幀的不合理的局部近似。我們看到目標幀n 中的背景區(qū)域的一部分未被覆蓋,而參考幀n-1 中的部分背景區(qū)域被覆蓋。試圖匹配兩個幀中的區(qū)域的運動估計將無法在覆蓋或未覆蓋區(qū)域中找到良好匹配。但是,在其他背景區(qū)域內,匹配應該是好的,并且在紋理對象內匹配也應該是好的,至少如果它可以按跟蹤的方式移動,并且像素樣本足夠密集。相對較小的覆蓋/未覆蓋區(qū)域中的問題是存在兩個運動。
圖3
混合高斯模型(GMM)屬于背景建模法中的一種,本文使用的GMM 在整個過程不斷的更新和學習因此對背景圖具有一定魯棒性,并且非常適用于動態(tài)場景。以下為建造GMM 的具體步驟:
(1)為矩陣的模型進行參數初始化。首先對模型進行訓練,使用視頻中的T 幀用來訓練GMM 模型。為每一個像素建立其模型個數最大高斯的GMM 模型。單獨為第一個像素在程序中設置好其固定的初始值。
(2)非第一幀訓練過程中,當后面來的像素值時,與前面已有的高斯的均值比較,如果該像素點的值與其模型均值差在3 倍的方差內,則任務屬于該高斯。此時用如下方程進行更新:
(3)當到達訓練的幀數T 后,進行不同像素點GMM 個數自適應的選擇。首先用權值除以方差對各個高斯進行從大到小排序,然后選取最前面B 個高斯,使其滿足:
(4)在測試階段,對新來像素點的值與B 個高斯中的每一個均值進行比較,如果其差值在2 倍的方差之間的話,則認為是背景,否則認為是前景。
使用多視點MVD 序列(Ballet)來測試我們在實驗中提出的方法的性能,并與Criminisi 提出的基于樣本的修復方法進行比較,比較結果如表1 所示。
在我們的實驗中,PSNR 用于測量合成和參考圖像像素的平方強度差異,并且SSIM(結構相似性)用于測量合成圖像和參考圖像之間的結構相似性。所提出的方法和測試序列的Criminisi 方法的平均PSNR 和SSIM 值顯示在表1 中,其中'測試序列'表示數據集和投影信息。結果表明,所提出的方法產生了較好的整體結果。與Criminisi 方法相比,本文所提出的方法有一定的提升。
表1
本文通過提取并去除二維視頻中的前景對象和參考視圖中的深度圖,并使用運動補償構造穩(wěn)定的背景。我們的研究表明,利用所提出的背景模型可以生成不帶前景物體偽影的純凈背景,從而可以消除遮擋區(qū)域中的模糊效應或偽影,并且消除前景邊界上的尖銳邊緣。