富顯祖,王曉東,婁達平,秦 闖,章聯(lián)軍
?
基于場景運動程度的深度視頻時域一致性增強
富顯祖,王曉東,婁達平,秦 闖,章聯(lián)軍
( 寧波大學(xué)信息科學(xué)與工程學(xué)院,浙江寧波315211 )
深度視頻靜止區(qū)域普遍存在深度值時域不一致,導(dǎo)致編碼效率下降且影響繪制質(zhì)量。針對該問題,提出一種基于場景運動程度的深度視頻一致性增強算法。首先,應(yīng)用基于塊的直方圖差值(Block Histogram Difference, BH)對深度視頻每幀之間做相對運動程度量化度量,根據(jù)BH值自適應(yīng)選取運動程度相對最弱的視頻段作為深度值修正源,通過運動檢測對相應(yīng)彩色視頻做運動區(qū)域分割,接著,利用彩色視頻準確的時域一致信息,對深度視頻中靜止區(qū)域的錯誤變化深度值進行時域一致性校正,最后應(yīng)用計算復(fù)雜度低的時域加權(quán)濾波函數(shù)對校正后的深度視頻進一步優(yōu)化,得到時域一致性優(yōu)化的深度視頻。本文算法相比于原估計獲得的深度視頻節(jié)省編碼碼率17.48%~31.75%,深度圖所繪制的虛擬視點主觀質(zhì)量提高。
深度視頻;時域一致性;運動劇烈程度;深度值修正
當(dāng)前的三維視頻應(yīng)用廣泛,如3DTV、多視點視頻、自由視點視頻,給觀看者帶來沉浸感和真實感?;谏疃鹊睦L制技術(shù)(Depth-image-based Rendering,DIBR)是其中的核心技術(shù)之一[1-2],獲取高分辨率和準確的深度圖就顯得尤為重要。目前高分辨率的深度圖主要通過深度估計獲取,深度估計軟件DERS對于深度圖的估計是每幀獨立進行的,導(dǎo)致深度圖在時域上存在嚴重不一致問題,不僅降低深度視頻編碼時的幀間預(yù)測效率,同時繪制的虛擬視點在時間方向上出現(xiàn)閃爍現(xiàn)象,虛擬視點質(zhì)量不佳。就此,在第86屆MEPG(Moving Picture Experts Group)會議后,發(fā)布的深度估計參考軟件DERS5.1在構(gòu)建最小化能量函數(shù)時引入增強深度圖時域一致性的權(quán)重因子[3-4],一定程度抑制靜止區(qū)域深度值不一致問題,但仍難保證時域上較高一致性。針對該問題,目前已有許多方法被提出,主要分兩種:動態(tài)的深度估計[4-7]、深度視頻濾波處理[8-10]。增強方法通常利用彩色圖的時域一致性作為指導(dǎo),根據(jù)彩色圖相鄰幀估計的運動矢量,融合前一幀深度值到當(dāng)前對應(yīng)的深度值中[11-12],忽略了軸方向的運動矢量從而降低了繪制的準確度,文獻[13-14]提出3D運動估計來解決該問題。接著,一些時域濾波方法被提出用來融合幀間的深度值,基于權(quán)重均值、權(quán)重中值濾波、多邊濾波或能量函數(shù)等[15-16]。Zuo等人[17]提出綜合靜止可靠性和深度值可靠信分析的加權(quán)時域濾波算法,但靜止可靠性權(quán)重很難做到魯棒,同時獲得的一致性在時域上并不持久。以上方法一方面過高依賴準確的運動估計,實際難以滿足;另一方面時域一致性效果僅維持在相鄰幾幀之間,持久性差。Sheng等人[18]針對以上情況,先實行深度分層處理,運動區(qū)域應(yīng)用空域補償,靜止區(qū)域構(gòu)建靜態(tài)模型進行優(yōu)化和自更新,較好的獲得持久且準確的時域一致性增強結(jié)果。本文提出利用運動程度分析,用相對可靠的深度值修正時域不一致的深度值,進一步應(yīng)用結(jié)合時空域相關(guān)性的加權(quán)濾波來優(yōu)化深度空域連續(xù)性和時域一致性。
深度估計分為三步驟:視差計算、基于grap-cut算法的最小能量函數(shù)使得誤差最小、視差深度轉(zhuǎn)換。第一步中,視差搜索范圍內(nèi)計算候選像素的視差,對應(yīng)的能量函數(shù)包括三項:
本文所提基于運動程度分析的深度視頻時域一致性增強的預(yù)處理算法框圖如圖1所示。對深度視頻進行運動程度分析,自適應(yīng)選取運動程度相對弱、深度值相對可靠的幀段;對相應(yīng)彩色視頻先后進行粗檢測、細檢測后得到運動區(qū)域掩膜視頻,在和輔助下,用作為修正源,對進行深度值時域一致性修正獲得修正后的深度視頻,最后,結(jié)合時空域相關(guān)性和運動區(qū)域判斷的加權(quán)時域濾波再對其優(yōu)化,獲得最終的深度視頻,其中表示幀,、為幀內(nèi)像素坐標。
圖1 深度視頻時域一致性增強算法框圖
2.1 深度視頻場景運動程度度量
本文對深度視頻按時間順序依次計算幀間的基于塊的直方圖差值(Block Histogram Difference, BH)來量化度量深度視頻在時間方向上的場景運動相對強弱程度,其計算是基于兩幀之間直方圖絕對誤差和(Sum of Absolute Difference,SAD):
2.2 選擇深度值修正源幀段
本文考慮原深度估計中的時域一致性增強帶來的影響,為盡可能避免選取該方法導(dǎo)致的錯誤深度值所分布的幀段作為修正源,優(yōu)先考慮時間方向上在幀段之前的幀段作為修正源幀段,據(jù)此,設(shè)計如下步驟確定深度值修正源的幀段和待修正的目標幀:
1) 計算總幀數(shù)為的深度視頻的BH值獲得-1個BH值;按時間順序,從第一幀開始計算連續(xù)長度為的BH值的均值,依次后推,計算獲得個幀段的BH均值,在這些均值中求取最大值與最小值來確定幀段與的長度以及位置。公式如下:
當(dāng)滿足條件時重復(fù)步驟2),直到不滿足約束條件或達到預(yù)設(shè)的最大長度值時停止,即確定最終的和,根據(jù)和可確定幀段和的首幀與尾幀幀號,分別用、與、表示。
3) 合理選擇運動相對弱的幀段作為修正源
經(jīng)過BH均值統(tǒng)計,將主要出現(xiàn)如圖2的三種情況,對應(yīng)情況處理:情況1,則直接選取幀段作為對幀段及其余部分的深度修正源。情況2,,而幀段鄰近第一幀,則只能選取時間末端幀作為深度修正源。情況3,,但幀段首幀離視頻第一幀距離大于或等于,考慮選取修正源應(yīng)以時間方向靠前的幀段優(yōu)先原則,則在幀段前的幀段內(nèi)再應(yīng)用式(5)得到,確定幀段,當(dāng)滿足時,該幀段選為深度值修正源,否則按情況2處理。當(dāng)場景存在運動而其程度無明顯波動,即不用確定幀段,選取時間最前的幀段作為修正源。
2.3 運動區(qū)域分割
權(quán)衡計算復(fù)雜度和對多模態(tài)復(fù)雜場景的運動檢測需求,針對YUV空間,本文采用文獻[20]中的方法對彩色視頻進行運動區(qū)域分割得到掩膜視頻,主要包含粗檢測和細檢測兩個步驟。
1) 運動區(qū)域粗檢測
采用運行期均值法(Running Average,RA)對每一幀運動區(qū)域粗檢測。首先對的前幀取均值作為背景幀,為當(dāng)前時刻視頻幀。為增強背景幀的魯棒性,引入學(xué)習(xí)因子,則:
當(dāng)檢測區(qū)域滿足式(10)則屬于運動區(qū)域。為減少噪聲,b選取較大值。本文b=35,,。獲得粗檢測的運動區(qū)掩膜視頻。
圖2 視頻幀間相對運動劇烈程度的主要情況示意圖
2) 運動區(qū)域細檢測
應(yīng)用改進的高斯混合模型(Gaussian Mixture Model,GMM)進一步檢測,在檢測前,對進行形態(tài)學(xué)膨脹獲得,設(shè)置較大的膨脹結(jié)構(gòu)元素,大小取15×15,符合不增大計算量又滿足效果的需求,能將粗檢測后存在的空洞填充且使運動區(qū)域更完整。改進的GMM其初始化階段采用期望值有效統(tǒng)計的在線期望最大的更新方式,有效估計背景模型參數(shù)且加快收斂,一般取3~5個高斯分布進行建立背景模型,為適應(yīng)復(fù)雜場景,本文取5個;其他預(yù)設(shè)參數(shù)及公式和步驟詳見文獻[20]。經(jīng)細檢測后應(yīng)用高斯濾波濾除噪聲,內(nèi)部膨脹填補細小空洞,獲得最終的運動區(qū)域掩膜視頻。
2.4 深度值時域一致性修正
在修正前進行修正源幀的選取和修正目標幀的待修正區(qū)域掩碼的確定,目標幀即為視頻中不屬于幀段的幀。等間隔選取幀段中的4幀作為候選修正源幀,應(yīng)用分別計算這4幀與目標幀靜止區(qū)域的公共區(qū)域面積,選取該面積最大的幀作為當(dāng)前目標幀的修正源幀,能最大程度修正存在的不一致深度值,相應(yīng)的公共區(qū)域掩膜即目標幀的深度待修正區(qū)域掩膜。修正步驟如下:
1) 為實現(xiàn)可靠的匹配和修正,按16×16為單位進行修正。首先對修正目標幀遍歷統(tǒng)計所有塊,當(dāng)塊內(nèi)的1/4以上的像素點屬于待修正區(qū)域,則標記為待修正塊;
2) 計算修正源幀與目標幀在對應(yīng)待修正塊的深度值差絕對值的均值,做如下判斷:當(dāng),則表明深度值相近,不需要修正;當(dāng),則表明深度值發(fā)生一定程度的錯誤變化,直接應(yīng)用修正源幀的深度值進行修正;當(dāng),則表明該塊深度值變化幅度過大,為避免錯誤修正,利用彩色圖輔助,對兩幀彩色圖中的塊做亮度分量的匹配,計算對應(yīng)塊的亮度值差絕對值的均值,做判斷:當(dāng),則直接做深度值修正,反之,不修正。遍歷的所有待修正塊,進行如上步驟,完成對目標幀的時域一致深度值修正,遍歷所有目標幀獲得修正后的。以上門限閾值的設(shè)定,根據(jù)已有的深度視頻發(fā)生深度值錯誤變化區(qū)域的統(tǒng)計和實驗結(jié)果對比,本文閾值、、分別設(shè)置為3、10、4。
2.5 加權(quán)時域濾波
雖應(yīng)用原深度值進行修正,仍會導(dǎo)致修正塊周邊深度值不連續(xù)。同時區(qū)域分割準確度有限,時域跨度較大的修正會使得一些相鄰幀少數(shù)區(qū)域的深度值一致性變?nèi)?,需對深度視頻進一步優(yōu)化。為保證運動區(qū)域深度動態(tài)變化,僅在靜止區(qū)域進行,優(yōu)化加權(quán)計算式:
條件中判斷前后幀對應(yīng)像素點是否屬于靜止區(qū)域且做空域相關(guān)性判斷,滿足兩個條件時設(shè)置加權(quán)標識為1,反之,為0,同前取值依據(jù),該判斷門限取30。該制約條件的作用是避免兩種像素參與加權(quán):深度值原本存在錯誤變化,或因運動分割不準確,原屬于運動區(qū)域邊緣部分而劃分到靜止區(qū)域中的。考慮以和的形式參與加權(quán),、是通過下式判斷結(jié)果來確定:
滿足判斷條件反映當(dāng)前像素點深度值在時域上可靠性較高,則設(shè)置較大權(quán)重,反之設(shè)置較小權(quán)重??紤]以和的形式參與加權(quán)。以上時域濾波的加權(quán)優(yōu)化,計算復(fù)雜低,利用時空域相關(guān)性一定程度改善的靜止區(qū)域深度值不連續(xù)問題,其中加權(quán)深度值分量引入優(yōu)化后的,增強一致性的時域方向的連續(xù)性;引入表征空域相關(guān)性的加權(quán)分量,使得加權(quán)模型更加可靠。
為驗證本文提出的基于運動程度的深度視頻一致性增強方法的有效性,將本文算法與文獻[4]和Lee算法[16]、Zuo算法[17]進行對比,其中本算法與Lee算法、Zuo算法的結(jié)果是在文獻[4]獲得的原始深度圖上優(yōu)化得到的。從深度視頻的編碼效率和繪制的虛擬視點質(zhì)量兩方面進行評估,再做深度視頻時域一致性測試。實驗測試序列為Newspaper、Lovebird2、BookArrival和Akko,各有5個視點,詳見表1。
3.1 深度視頻編碼效率及虛擬視點的客觀質(zhì)量對比
編碼實驗采用參考軟件JM8.6和HM15.0編碼平臺進行仿真,編碼結(jié)構(gòu)分別采用IBBP與IBBB;設(shè)置不同量化步長QP:22、27、32;其他配置參數(shù)均為默認。表2列出解碼后繪制虛擬視點的峰值信噪比(PSNR)均值對比結(jié)果;表3、4列出深度編碼效率對比結(jié)果。實驗結(jié)果表明,在不同編碼平臺下,本文算法性能平穩(wěn),相比于文獻[4]節(jié)省碼率17.48%~31.75%。Lee和Zuo算法適用于靜止區(qū)域大運動程度弱的視頻序列,對運動程度較強的序列節(jié)省碼率效果下降明顯,而Lee算法采用空域上四鄰參考且時域上多幀參考,一定程度改善主客觀質(zhì)量,且時域一致性增強效果比Zuo算法好,但其計算成本較高。而本文算法針對不同序列節(jié)省碼率不僅相比Lee算法有所提高,且適應(yīng)性強,性能更加穩(wěn)定,計算復(fù)雜度相對較低。相比于Zuo算法,一致性增強時間范圍更長,修正幅度大,且運動區(qū)域判斷更加準確,相比主觀質(zhì)量較好。
表1 測試序列參數(shù)
表2 虛擬視點的PSNR均值對比
3.2 深度視頻時域一致性檢測
本文采用Zuo算法中的一致性檢測方法[17],對深度視頻指定的靜止區(qū)域統(tǒng)計其每個像素深度值在時間方向上方差的均值,即時域均方差。不同是本文統(tǒng)計的時間跨度大,包含運動物體經(jīng)過前后幀段的靜止區(qū)域,如原深度視頻Newspaper的運動物體未經(jīng)過的第1~30幀靜止區(qū)域統(tǒng)計的方差均值為1.083 05,經(jīng)過后的112~300幀統(tǒng)計結(jié)果為1.178 85,但因前后該區(qū)域深度值變化較大,整體統(tǒng)計方差均值為47.291 11,第31~111幀中,運動物體經(jīng)過,靜止區(qū)域深度值發(fā)生明顯錯誤變化。測試序列中統(tǒng)計的靜止區(qū)域用方框標記在圖3中。統(tǒng)計結(jié)果如表5。從結(jié)果可知本文算法的時域均方差最小,相比Lee算法、Zuo算法獲得了更好的深度視頻持久的時域一致性增強效果。
表3 JM8.6平臺下編碼效率比較
表4 HM15.0平臺下編碼效率比較
圖3 測試視頻的靜止區(qū)域選擇
3.3 主觀效果評價
圖4給出序列Newspaper的三個不同時刻的彩色圖、文獻[4]獲得對應(yīng)的原始深度圖和本文算法處理后的深度圖。對比一:第1幀與第73幀人物背后靜止區(qū)域的深度值變化,對比說明本文算法時域一致性增強效果持久。對比二:第73幀至第74幀中運動物體經(jīng)過的靜止背景區(qū)域深度值變化情況,對比表明本文算法時域一致增強效果穩(wěn)定良好。評價深度圖的優(yōu)劣在于其繪制的虛擬視點的質(zhì)量,圖5給出繪制虛擬視點局部放大細節(jié)的主觀對比,其中如V9F34表示視點9的第34幀。從運動物體邊緣的細節(jié)看出本文算法處理后的深度圖所繪制出的虛擬視點相比原始深度圖與Zuo算法發(fā)生紋理失真更少,主觀質(zhì)量更好。
表5 時域一致性檢測
Table 5 Temporal consistency test
Depth sequencesViewsFrames Ref[4]Ref[16]Ref[17]Proposed Newspaper41~30,112~30047.291 11 17.870 2131.097 50 14.361 21 628.428 00 12.769 3216.275 06 9.626 25 Bookarrival71~10016.153 10 4.891 027.690 15 4.549 37 91.373 06 0.203 080.459 01 0.140 54 Lovebird280~2007.044 33 3.309 123.490 60 3.655 86 100.013 50 0.011 020.013 05 0.011 53 Akko270~45,165~2009.818 03 2.808 203.524 17 2.202 78 2910.279 47 6.903 827.540 60 6.798 77
圖4 深度視頻時域一致性增強效果主觀評價
圖5 虛擬視點局部放大對比
針對深度估計中時域一致性增強方法的不足和多數(shù)方法獲得的效果在時間上持續(xù)短,時域不一致改善幅度較低,深度修正不準確等問題,提出基于運動程度強弱的深度視頻時域一致性優(yōu)化算法,用相對可靠的深度值進行時間范圍更長的一致性修正,應(yīng)用運動分割和彩色信息輔助修正,再結(jié)合時空域相關(guān)性的加權(quán)模型進一步增強深度空域連續(xù)性和時域一致性。實驗結(jié)果表明,本文算法有效增強深度視頻時域一致性,一致性效果持久,節(jié)省編碼比特率17.48%~31.75%的同時改善虛擬視點的繪制質(zhì)量。
[1] Fehn C. Depth-image-based rendering (DIBR),Compression and Transmission for a New Approach on 3D-TV [J]. Proceedings of SPIE - The International Society for Optical Engineering(S0277-786X),2004,5291:93-104.
[2] Mori Y,F(xiàn)ukushima N,Yendo T,. View Generation with 3D Warping Using Depth Information for FTV [J]. Signal Processing Image Communication(S0923-5965),2009,24(S1/2):65-72.
[3] Tanimoto M,F(xiàn)ujii T,Suzuki K. Reference Software of Depth Estimation and View Synthesis for FTV/3DV [R]. ISO/IEC JTC1 /SC29/WG11,M15836,2008:5-34.
[4] LEE S B,LEE C,HO Y S. Experimental Results on Improved Temporal Consistency Enhancement [R]. ISO/IEC JTC1/SC29/WG11,M16063,2009:12-42.
[5] Larsen E S,Mordohai P,Pollefeys M,. Temporally Consistent Reconstruction from Multiple Video Streams Using Enhanced Belief Propagation [C]// IEEE International Conference on Computer Vision,Rio de Janeiro,Brazil,Oct 14-20,2007:1-8.
[6] ZUO Xinxin,ZHENG Jiangbing. A Refined Weighted Mode Filtering Approach for Depth Video Enhancement [C]// International Conference on Virtual Reality and Visualization (ICVRV),Xi¢an,China,Sept 14-15,2013:138-144.
[7] Stankiewicz O,Doman?Ski M,Wegner K. Estimation of Temporally-consistent Depth Maps from Video with Reduced Noise [C]// 3DTV-Conference: The True Vision - Capture, Transmission and Display of 3D Video (3DTV-CON),Lisbon,Portugal,July 8-10,2015:1-4.
[8] LI Li,ZHANG Caiming. Spatio-Temporal Consistency in Depth Video Enhancement [J]. Journal of Advanced Mechanical Design Systems & Manufacturing(S1881-3054),2013,7(5):808-817.
[9] JUNG Seungwon. Enhancement of Image and Depth Map Using Adaptive Joint Trilateral Filter [J]. IEEE Transactions on Circuits & Systems for Video Technology(S1051-8215),2013,23(2):258-269.
[10] PENG Zhongju,CHEN Fen,JIANG Gangyi,. Depth Video Spatial and Temporal Correlation Enhancement Algorithm Based on Just Noticeable Rendering Distortion Model [J]. Journal of Visual Communication & Image Representation(S1047-3203),2015,33(C):309-322.
[11] Christian R,Carsten S,Dodgson N A,. Coherent Spatiotemporal Filtering,Upsampling and Rendering of RGBZ Videos [J]. Computer Graphics Forum(S0167-7055),2012,31(2):247-256.
[12] MIN Dongbo,LU Jiangbo,Minh N Do. Depth Video Enhancement Based onWeighted Mode Filtering [J]. IEEE Transactions on Image Processing(S1057-7149),2012,21(3):1176-1190.
[13] Vogel C,Schindler K,Roth S. 3D cene Flow Estimation with a Rigid Motion Prior [C]// IEEE International Conference on Computer Vision,Barcelona,Spain,Nov 6-13,2011:1291-1298.
[14] Vogel C,Schindler K,Roth S. Piecewise Rigid Scene Flow [C]// IEEE International Conference on Computer Vision,Sydney,Australia,Dec 1-8,2013:1377-1384.
[15] ZHU Jiejie,WANG Liang,GAO Jizhou,. Spatial-temporal Fusion for High Accuracy Depth Maps Using Dynamic MRFs [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence(S0162-8828),2010,32(5):899-909.
[16] LEE Sangbeom,HO Yosung. Temporally Consistent Depth Video Filter Using Temporal Outlier Reduction [J]. Signal Image & Video Processing(S1863-1703),2014,9(6):1401-1408.
[17] ZUO Yifan,AN Ping,MA Ran,. Temporal Consistency Enhancement on Depth Sequences [J]. Journal of Optoelectronics Laser(S1005-0086),2014,25(1):172-177.
[18] LU Sheng,King Ngi Ngan,Lim Chern Loon,. Online Temporally Consistent Indoor Depth Video Enhancement via Static Structure [J]. IEEE Transactions on Image Processing(S1057-7149),2015,24(7):2197-2211.
[19] FU Deliang,ZHAO Yin,YU Lu. Temporal Consistency Enhancement on Depth Sequences [C]// Picture Coding Symposium (PCS),Nagoya,Japan,Dec 8-10,2010:342-345.
[20] LIU Min,LIU Weizhong,ZHANG Daoli. An Efficient Approach of Moving Objects Detection in Complex Background [J]. Proceedings of SPIE - The International Society for Optical Engineering(S0277-786X),2009,7495:74952V-2-74952V-5.
Temporal Consistency Enhancement on Depth Sequences Based on the Motion Intensity of Scene
FU Xianzu,WANG Xiaodong,LOU Daping,QIN Chuang,ZHANG Lianjun
( School of Information Science and Engineering, Ningbo University, Ningbo315211, Zhejiang Province, China)
The flaw in most depth videos is the temporal inconsistency of the depth value of static region, which decreases encoding performance and the quality of rendering. To solve the problem, this paper proposes a method to enhance the temporal consistency of depth video based on the motion intensity of scene. Firstly, we applied block histogram difference (BH) to measure the relative motion intensity of each depth frame, and selected a segment of video as the source for refinement adaptively according to BH value. Secondly, we detected motion region and made a segmentation for each frame of corresponding color video,then refined the depth value which had changed variously in static regions using the accurate temporal consistency information of color video. Finally, we applied the weighted mode temporal filtering on refined depth video to generate well optimized depth video further. Experiment results show that proposed algorithm can save encoding bite rate ranging from 17.48% to 31.75%, while it improves the subjective quality of rendered virtual views.
depth video; temporal consistency; motion intensity; depth refinement
1003-501X(2016)12-0175-08
TN911.73; TP391
A
10.3969/j.issn.1003-501X.2016.12.027
2016-01-15;
2016-04-22
國家科技支撐計劃(2012BAH67F01);國家自然科學(xué)基金重點項目(U1301257)
富顯祖(1991-),男(漢族),福建寧德人。碩士研究生,主要研究工作是多媒體信號處理。E-mail: andyfu57@gmail.com。
王曉東(1970-),男(漢族),浙江紹興人。碩士,副教授,主要研究工作是網(wǎng)絡(luò)通信、多媒體信號處理。