程 浩
(武漢工程大學電氣信息學院,湖北武漢 430205)
隨著視頻數(shù)據(jù)采集和顯示技術的不斷發(fā)展,三維視頻已被引起關注,3D電視和自由視點視頻是典型的三維視頻應用。在自由視點視頻應用中,用戶可自由的選擇角度,不受限制的享受立體盛宴。目前的商業(yè)網(wǎng)絡傳播系統(tǒng)還不能滿足多視點視頻信號的處理和傳輸,這是因為多視點視頻有海量的數(shù)據(jù)要進行處理。為解決這一問題,研究人員提出一些不同的3D表示方法和視點合成方法。已經(jīng)有三類不同的三維立體視頻格式,一類是由多路是視頻直接組成,稱為多視點視頻[1]。這種格式表示的好處是可完整的現(xiàn)象三維場景,觀眾也能更好選擇視點和視角,這個格式可利用基于圖像的描繪技術(IBR)[2]在終端虛擬合成視點,但這種格式最大的問題是要采集大量的視頻數(shù)據(jù)。IBR技術是需要大量視點視頻數(shù)據(jù)支持的。為減少數(shù)量,出現(xiàn)了單視點視頻與其深度的三維立體視頻格式,它由一個視點和該視點的深度圖序列組成,在終端可以利用基于深度圖的描繪(DIBR)虛擬合成視點,但其主要問題就是不能解決因遮擋問題到導致的空洞問題。最終出現(xiàn)了多視點視頻+深度視頻(MVD)的三維立體視頻格式[3],它可以利用DIBR技術合成虛擬視點。
基于深度圖像描繪是一種基于圖像的描繪方法?;谏疃葓D像描繪系統(tǒng)流程如圖1所示。該系統(tǒng)由深度圖像信息預處理;3D圖像變換;空洞填充組成。其中,根據(jù)深度圖像信息預處理的效果,空洞填充可有可無。
圖1 DIBR算法流程圖
相比IBR技術,DIBR技術改進了因遮擋問題而導致的空洞、重影、偽邊緣、像素重疊等問題,但是利用DIBR技術合成出的視點圖像中在物體邊緣區(qū)域仍然會有偽邊緣、空洞問題。在多視點視頻系統(tǒng)中,視頻數(shù)據(jù)編碼后傳輸,在終端解碼,合成視點。由于視頻編碼后,會丟失大量的數(shù)據(jù),特別是深度圖像序列[4]。在終端合成虛擬視點時,由于利用了壓縮過的視頻數(shù)據(jù),虛擬合成出的視點的質量必將受到影響。為解決這些DIBR存在的問題,文獻[4]提出一種面向虛擬視點繪制的深度壓縮算法。在前端編碼時,對下采樣深度圖進行編碼,在解碼端,對深度圖進行上采樣處理,并采用雙邊濾波器優(yōu)化深度圖。這種壓縮算法降低了傳輸碼率,但沒考慮解決空洞等問題。鞠芹等人先將多幅參考圖像分別合成虛擬視點位置的多幅目標圖像,再將這些虛擬視點目標圖像融合為含有少量空洞的目標圖像,然后采用逆映射的方法填充空洞,從而提高虛擬視點圖像的質量[5],較好的解決了DIBR技術空洞問題,但沒有考慮到壓縮對虛擬視點合成的影響。劉占偉等人對深度圖像進行邊緣濾波處理,對參考圖像進行規(guī)正處理,采用遮擋兼容算法處理遮問題,融合目標圖像得到新視點圖像,最后利用插值法處理較小的空洞問題[6]。文獻[7]利用空間線投影方法和視點間雙向插值算法解決誤投影問題。文獻[8]對深度圖不做預處理,采用兩個視點合成虛擬視點,其中一個做主視點,另一個為輔助視點,利用輔助視點進行裂紋,空洞修正。Nurulfajar等人根據(jù)視差圖的距離將深度圖進行分層,利用分層的深度圖和插值算法解決了空洞,偽邊緣等問題[9]。
針對目前較少考慮深度圖壓縮后對虛擬視點合成的影響問題,提出一種基于深度分層的虛擬合成算法。該方法先采用均值漂移聚類算法將深度圖進行分割處理,使得深度圖中的對象塊有同一深度值,然后對視頻信息以及處理后的深度信息進行3D圖像轉換,再在對圖像中的空洞填充處理,最后完成虛擬視點合成。
預處理深度圖主要有2個部分:一個是平滑處理深度圖,一個是選取零視差平面(ZPS)距離Zc。一般情況下Zc是由深度圖中最近和最遠的深度點決定的:
在8位的深度圖中Znear,Zfar=0。將深度圖中的值歸一化后,深度值就在[-0.5,0.5]之間。
采用高斯濾波器g(x,σ)對深度圖進行平滑處理:
對估計出的深度圖進行Mean Shift算法分割處理,方法如下:
一幅深度圖可以表示成一個二維網(wǎng)格點上p維向量,每一個網(wǎng)格點代表一個象素,P=1表示這是一個灰度圖,表示彩色圖,p=3表示一個多譜圖,p>3網(wǎng)格點的坐標表示圖像的空間信息.統(tǒng)一考慮圖像的空間信息和色彩(或灰度等)信息,組成一個p+2維的向量x=(xs,xr),其中xs表示網(wǎng)格點的坐標,xr表示該網(wǎng)格點上p維向量特征。
用核函數(shù)Khs,hr來估計x的分布,Khs,hr具有如下形式,
其中hs,hr核算,控制著平滑的解析度,C是一個歸一化常數(shù)。
設xi和zi,(i=1,2…n)分別表示原始和分割后的圖像。用MeanShift算法進行圖像分割的具體步驟如下:
(1)對深度圖中的所有像素點xi,分別計算每個像素點的Mh(xi),根據(jù)Mh(xi)值移動窗口,計算窗口中點的Mh(xi)值,重復這個過程直到Mh(xi)<T(T是收斂門限),不移動窗口后,將該點的深度值X*賦給初始點xi=X*;
(2)運用MeanShift算法的同時,計算yi,j+1,直到收斂.記收斂后的值為yi,c
(3)采用Gausss核函數(shù)進行MeanShift計算;
(4)重復2和3兩個步驟,直到所有深度點收斂;
(5)賦值zi=(,),合并同一對象區(qū)域,將圖像區(qū)域分類。
3D圖像轉換的目的是將世界坐標系中的點變換到幀圖像畫面中,假設在齊坐標系下,M=(X,Y,Z,1)T為世界坐標系中的點,其圖像中對應點為 m=(u,v,1)T,關系為:
其中P為攝像機投影矩陣,它是由攝像機外部矩陣和內部矩陣組成的,s為收縮因子,
R是旋轉矩陣,t是平移矩陣,F(xiàn)為攝像機的焦距,(u0,V0)為幀圖像中心點坐標。當知道點m=(u,v,1)T和該點的深度D,則可以根據(jù)公式(6),得到下面的線性關系:
式中Pij是投影矩陣的在第i行j列的元素。從上式不難發(fā)現(xiàn),在已知圖像坐標和深度值得情況下,可以求出空間中的坐標M。在得到世界坐標系中的點后,再利用公式(9),將該點重新變換得到虛擬幀圖像中對應的點,這個過程也就是3D變換。
在虛擬視點中,如果有些區(qū)域被遮擋,而真實幀圖像中對應區(qū)域的點沒有繪制這些遮擋區(qū)域的點,這些被遮擋的區(qū)域就會產(chǎn)生空洞,也可以稱為“遮擋區(qū)域”。為使虛擬出的幀圖像不影響觀看,這些虛擬幀圖像中的空洞點需要其相鄰的點插值填充。在攝像機是水平模型時,通常會用空洞點左邊或右邊的點來填充。
為驗證所提出算法的性能,采用日本名古屋大學提供的的dog測試序列進行仿真實驗。在試驗中,選擇dog測試序列的視點0和做為虛擬視點,視點2為輔助視點,視點1為虛擬視點。計算機硬件條件為:CPU為酷睿i5,主頻為2.30GHz,內存為4G,軟件編譯環(huán)境為vs2005。實驗結果如圖2和表1所示.
表1 dog虛擬圖像PSNR比較結果
圖2 dog序列的第1幀虛擬合成圖像
將虛擬合成出來的圖像進行噪聲峰值性噪比評價,實驗結果如表1所示。dog測試序列的第一個視點的虛擬合成圖的質量估計結果表明:利用本文算法產(chǎn)生的深度圖像合成出的虛擬圖像的PSNR值比較理想,利用壓縮后的視頻和深度圖序列圖進行虛擬合成圖像的平均PSNR值為36dB左右,而未經(jīng)過聚類處理而合成虛擬圖像的平均PSNR值是29dB左右。這證明該算法有較好的效果。在虛擬合成結果圖2中,明顯發(fā)現(xiàn),沒經(jīng)過類聚的深度合成出的虛擬幀圖有重影和空洞。
基于深度圖虛擬視點合成技術是MVD三維視頻格式在終端顯示的關鍵。在傳統(tǒng)的的DIBR算法中,由于遮擋問題,使得重繪的虛擬圖在物體邊緣有空洞和重影。為此,上述提出基于深度圖分層的虛擬視點合成算法。通過實驗證明,該方法很好的虛擬合成出視點,減少了物體邊緣的空洞、重影問題。
1 楊海濤,常義林,霍俊彥等.應用于多視點視頻編碼的基于深度特征的圖像區(qū)域分割與區(qū)域視差估計[J].光學學報,2008,28(6):1073-1078.
2E.Martinian,A.Behrens,J.Xin,A.Vetro,etal,“ExtensionsofH.264/AVCformultiviewvideocompression,”inProc.IEEEInt.Conf.ImageProcess.,Atlanta,GA,2006,pp.2981–2984
3H.-Y.Shum,S.-C.Chan,S.B.Kang,Image-Based Rendering.Berlin,Germany:Springer-Verlag,2007.
4 張秋聞,安平,張艷等.FTV系統(tǒng)中面向虛擬視點合成的深度編碼[J].應用科學學報,2011,29(3):298-307
5 鞠芹,安平,張倩等.高質量的虛擬視點圖像的繪制方法[J].數(shù)字視頻,2009.33(9):21-25.
6 劉占偉,安平,劉蘇醒等.基于DIBR和圖像融合的任意視點繪制[J].中國圖象圖形學報,2007,12(10):1695-1700.
7 陳思利,李鵬程.一種基于DIBR的虛擬視點合成算法[J].成都電子機械高等??茖W校學報,2010,13(1):14-19.
8XiaohuiYang,JuLiu,JiandeSun1,etal.DIBRBased ViewSynthesisforFree-ViewpointTelevision[C].3DTV Conference,2011,1-4
9Manap,N.ASoraghan,J.JNovelViewSynthesisBasedon DepthMapLayersRepresentationC〗.3DTVConference,2011,1-4.