(杭州電子科技大學(xué)通信工程學(xué)院,浙江 杭州310018)
隨著多視點(diǎn)視頻的獲取與播放技術(shù)的日益成熟,3D 視頻成為了影音娛樂(lè)中最有前途的應(yīng)用之一。自動(dòng)立體顯示器與自由視點(diǎn)視頻提供著全新的視覺(jué)體驗(yàn),而且又從自身派生出一系列的應(yīng)用,比如移動(dòng)自動(dòng)立體顯示器、虛擬電話(huà)會(huì)議等[1]。為解決3D系統(tǒng)的數(shù)據(jù)量更大及處理更復(fù)雜的問(wèn)題,混合分辨率(Mixed Resolution,MR)技術(shù)[2]被應(yīng)用到立體或多視點(diǎn)的壓縮中。為了有更好的視覺(jué)體驗(yàn),須對(duì)低分辨率視點(diǎn)圖做超分辨率(Super-resolution,SR)處理。
文獻(xiàn)[3]利用基于圖像的描述技術(shù),在譯碼端用多幅低分辨率圖像序列合成所需視點(diǎn)的高分辨率圖,卻沒(méi)有對(duì)低分辨率視角的高頻分量進(jìn)行估計(jì),使得生成的高分辨率圖質(zhì)量不高。文獻(xiàn)[4]采用基于深度圖的圖像繪制技術(shù)(Depth-image-based Rendering,DIBR),在低分辨率視點(diǎn)上,使用鄰近的高分辨率視角來(lái)合成一幅虛擬視點(diǎn)圖,但忽視了原低分辨率視圖,而且效果也隨著與相鄰視角的距離增加而成比例降低。文獻(xiàn)[5]為降低與相鄰視角距離的影響,提出了一致性檢測(cè)及虛擬視點(diǎn)圖的高頻分量與原圖低頻分量的融合技術(shù)。但提取的虛擬視點(diǎn)圖的高頻分量與真實(shí)的高頻分量存在誤差。
本文提出一種新穎的基于非局部(NonLocal,NL)相似性的立體圖像SR算法。算法把相鄰的高分辨率視點(diǎn)圖作為參考圖,以虛擬視點(diǎn)圖為初始估計(jì),將NL 作為正則項(xiàng)添加到圖像退化模型中,用梯度下降法求最優(yōu)解。實(shí)驗(yàn)結(jié)果表明,本文算法較現(xiàn)有的算法具有更高的重建質(zhì)量。
在MR技術(shù)中,立體或多視點(diǎn)圖像的一個(gè)視點(diǎn)圖X 會(huì)被下采樣為一個(gè)低分辨率圖Y,其過(guò)程包含了低通濾波和采樣。這個(gè)過(guò)程可以被視為圖X的退化過(guò)程,具體的數(shù)學(xué)模型如下[6]:
式中,x、y 分別表示X和Y的向量形式,D和H 分別表示采樣矩陣和模糊矩陣,v表示加性噪聲。SR 就是在已知D、H、Y的前提下,對(duì)X 進(jìn)行重建。
然而SR是典型的病態(tài)問(wèn)題,在一般情況下,式(1)在l2范數(shù)約束下的解不唯一。為了獲得一個(gè)更好的解,可以把自然圖像的先驗(yàn)知識(shí)作為正則項(xiàng)來(lái)求解SR 問(wèn)題??紤]到在一幅圖像中有許多重復(fù)的圖像結(jié)構(gòu),本文采用NL的自相似性約束作為正則項(xiàng)。
NL 認(rèn)為每個(gè)圖像塊與圖像自身的一些圖像塊有相似性,能很好地保存邊緣銳度和抑制噪聲[7]。立體圖像是空間中的物體在各個(gè)視點(diǎn)上的像。因此可以認(rèn)為NL 自相似性不僅存在于自身視點(diǎn)圖像內(nèi),也存在于參考圖像內(nèi)。
首先,將退化圖像Y 上采樣為高分辨率圖像X。對(duì)于任一圖像塊xi∈X,依據(jù)其深度圖在相鄰視點(diǎn)圖Xref上找到其對(duì)應(yīng)塊xref,i(可能被遮擋)。對(duì)于公共視野區(qū)的像素,搜索范圍為xref,i周?chē)囊粋€(gè)S×S的范圍;對(duì)于非公共視野區(qū)的像素,搜索范圍為xi周?chē)囊粋€(gè)S×S的范圍。依據(jù)搜索范圍中每個(gè)圖像塊與xi的歐氏距離,即選出eli值最小的N個(gè)圖像塊,記為xli,l =1,2,…,N。記xi為xi的中心像素,xli為xli的中心像素,那么xi的預(yù)測(cè)值為:
式中,bi為包含了所有權(quán)重bli的列向量,βi為包含了所有xli的列向量,η為NL 正則項(xiàng)的約束因子。在立體圖像中,式(3)可以寫(xiě)為:
式中,Ⅰ為單位矩陣,B,Bref矩陣滿(mǎn)足是βi的元素,且是X中的點(diǎn)是βi的元素,且是Xref中的點(diǎn)。
采用梯度下降法來(lái)解式(4)的最優(yōu)解。對(duì)于第 (k+1)次迭代,所求的X(k+1)為:
式中,xref為Xref的列向量形式,x(k)為第k 迭代結(jié)果X(k)的列向量形式,λ為正的步進(jìn)因子。收斂條件為其中M表示X()k 中像素個(gè)數(shù)。
在式(5)迭代前,需有一個(gè)初始圖。初始圖的清晰程度直接影響了結(jié)果圖。利用透視幾何的深度信息和相鄰視點(diǎn)圖Xref構(gòu)造X視點(diǎn)上的虛擬視點(diǎn)圖[5],記為X0,以此作為式(5)的初始圖。
首先,需要獲得各個(gè)視點(diǎn)圖之間的關(guān)系。記虛擬視點(diǎn)圖X0的深度圖為D,攝像機(jī)內(nèi)部參數(shù)為A(3×3),旋轉(zhuǎn)矩陣為R(3×3),平移矢量為t(3×1)。參考圖Xref的深度圖為Dref,攝像機(jī)內(nèi)部參數(shù)為Aref(3×3),旋轉(zhuǎn)矩陣為Rref(3×3),平移矢量為tref(3×1)。為了尋找對(duì)應(yīng)點(diǎn),先將X0上的點(diǎn)(u,v) 投影到世界坐標(biāo)系的點(diǎn)(x,y,z):
然后,將3D點(diǎn)重投影到Xref上,生成 (u,v) 在Xref上的對(duì)應(yīng)點(diǎn) (u',v'):
上述的映射過(guò)程無(wú)法保證合成視點(diǎn)圖X0中每一個(gè)像素都有參考圖Xref中的像素點(diǎn)與之相對(duì)應(yīng)。為改善合成錯(cuò)誤帶來(lái)的重建誤差,采用文獻(xiàn)[5]中的一致性檢測(cè)法篩選出投影正確的像素。文獻(xiàn)[5]認(rèn)為,通過(guò)透視幾何得到的X0中的高頻信息與該視點(diǎn)原圖相似。為使X0保留X中的關(guān)鍵低頻信息,可做如下處理:首先,對(duì)X0進(jìn)行下采樣與上采樣,得到它的低頻信息X0L;其次,將X0與X0L相減獲得X0的高頻信息X0H=X0-XLo;最后,將高頻信息X0H與X 相加,得到初始值X0,即:X0=X+X0H。
為了驗(yàn)證本文算法的準(zhǔn)確性,仿真實(shí)驗(yàn)測(cè)試了多視點(diǎn)圖像及圖像序列,包括了合成圖像和真實(shí)圖像,這些圖像一律采用含深度的多視點(diǎn)視頻(Multi-view Video plus Depth,MVD)格式,即每個(gè)視點(diǎn)圖都有一幅與之對(duì)應(yīng)的深度圖。這樣各個(gè)視點(diǎn)的深度信息可預(yù)先獲得。
本文比較了Lanczos 插值、文獻(xiàn)[5]以及本文方法,表1列出了各方法的PSNR,表中M表示縮放的倍數(shù)。其中,合成圖像Sawtooth、Cones、Venus[8]等均以右視圖為L(zhǎng)R 視圖,以左視圖為參考圖;真實(shí)圖像采用多視點(diǎn)視頻Ballet、Breakdancers的第0幀[9],且均以第1視點(diǎn)為L(zhǎng)R視點(diǎn),以第2視點(diǎn)為參考視點(diǎn)。由表1可知,相比于文獻(xiàn)[5]方法,本文方法在最好的情況下(Cones,M =2)有0.96 dB的提升,最差的情況下(Barn1,M =2)下也有0.28 dB的提升。圖1和圖2分別比較了各種算法對(duì)Cones 及Venus 圖的效果。其中,第一行為重建結(jié)果圖,第二行為結(jié)果圖中方框處的細(xì)節(jié)放大??芍?,本文的算法提升了圖像在邊緣處的銳度,如圖1中的椎體與面具間的區(qū)域及圖2的報(bào)紙邊緣上,能看到明顯的質(zhì)量提升。
表1 右視圖SR 重建結(jié)果的PSNR 比較 dB
圖1 Cones 圖重建結(jié)果及其細(xì)節(jié)放大圖
圖2 Venus 圖重建結(jié)果及其細(xì)節(jié)放大圖
在算法計(jì)算效率方面,由于本文采用梯度下降法迭代來(lái)求最優(yōu)解,所以在計(jì)算復(fù)雜度與時(shí)間上都有所增加。實(shí)驗(yàn)所用電腦性能如下:CPU為3.30 GHz 雙核,內(nèi)存為8.00 GB。每對(duì)立體圖的具體處理時(shí)間如圖3所示,可見(jiàn)本文較文獻(xiàn)[5]算法耗時(shí)更長(zhǎng),今后可以考慮添加加速措施,比如分塊處理、多線程并行加速、統(tǒng)一計(jì)算設(shè)備架構(gòu)(Compute Unified Device Architecture,CUDA)等。
本文利用圖像退化模型,結(jié)合立體圖像成像模型和NL 正則項(xiàng),提出了應(yīng)用于MR-MVD系統(tǒng)的新立體圖像SR算法。實(shí)驗(yàn)結(jié)果表明,本文算法有著比文獻(xiàn)[5]更好的性能。然而,由于在求解的過(guò)程中,采用了梯度下降迭代計(jì)算,在計(jì)算復(fù)雜度與運(yùn)行時(shí)間上會(huì)有所增加。因此,后續(xù)研究方向是提高重建的實(shí)時(shí)性。
[1]Chen Y,Hannuksela M M,Zhu L,et al.Coding techniques in multiview video coding and joint multiview video model[C]//Picture Coding Symposium.Chicago:IEEE,2009:1-4.
[2]Aflaki P,Hannuksela M M,Hakkinen J,et al.Subjective study on compressed asymmetric stereoscopic video[C]//Image Processing (ICIP),2010 17th IEEE International Conference on.Hong Kong:IEEE,2010:4021-4024.
[3]Chen Y,Wang Y K,Gabbouj M,et al.Regionally adaptive filtering for asymmetric stereoscopic video coding[C]//Circuits and Systems,2009.ISCAS 2009.IEEE International Symposium on.Taipei:IEEE,2009:2585-2588.
[4]Merkle P,Smolic A,Muller K,et al.Multi-view video plus depth representation and coding[C]//Image Processing,2007.ICIP 2007.IEEE International Conference on.San Antonio:IEEE,2007,1:I-201-I-204.
[5]Garcia D C,Dorea C,De Queiroz R L.Super Resolution for Multiview Images Using Depth Information[J].Circuits and Systems for Video Technology,IEEE Transactions on,2012,22(9):1249-1256.
[6]Dong W,Zhang D,Shi G,et al.Image Deblurring and Super-Resolution by Adaptive Sparse Domain Selection and Adaptive Regularization[J].Image Processing,IEEE Transactions on,2011,20(7):1838-1857.
[7]Mairal J,Bach F,Ponce J,et al.Non-local sparse models for image restoration[C]//Computer Vision,2009 IEEE 12th International Conference on.Kyoto:IEEE,2009:2272-2279.
[8]Scharstein D,Szeliski R.A taxonomy and evaluation of dense two-frame stereo correspondence algorithms[J].International journal of computer vision,2002,47(1-3):7-42.
[9]Zitnick C L,Kang S B,Uyttendaele M,et al.High-quality video view interpolation using a layered representation[J].ACM Transactions on Graphics,2004,23(3):600-608.