相凱 吳少群 袁紅星
摘 要:關(guān)鍵幀是半自動2D轉(zhuǎn)3D的核心技術(shù),現(xiàn)有方法沒有考慮關(guān)鍵幀提取與深度傳播間的相互影響,難以最小化深度傳播誤差。針對該問題,通過光流運動分析,根據(jù)顏色差異、運動差異與遮擋誤差建立深度傳播誤差預測模型,提出傳播誤差最小化的關(guān)鍵幀提取算法。實驗結(jié)果表明,基于誤差預測模型的關(guān)鍵幀提取方法深度傳播質(zhì)量更高,平均PSNR改善了0.6dB以上。
關(guān)鍵詞:3D視頻;2D轉(zhuǎn)3D;關(guān)鍵幀;深度傳播;誤差預測
DOI:10.11907/rjdk.172680
中圖分類號:TP312
文獻標識碼:A 文章編號:1672-7800(2018)004-0082-03
Abstract:Key-frame selection is one of core technologies in semi-automatic 2D-to-3D conversion. Existing methods cannot minimize depth propagation errors since they don′t consider key-frame′s impact on depth propagation. To address this issue, we predict propagation errors based on color dissimilarities, motion dissimilarities and occlusion errors, and select key-frames via minimization of propagation errors. Experiments demonstrate that our method can improve quality of depth propagation via the errors prediction model. The PSNR is improved by more than 0.6 dB compared with existing methods.
Key Words:3D video; 2D-to-3D conversion; key-frame; depth propagation; errors prediction
0 引言
3D在消費類媒體中占據(jù)著重要位置[1],涉及3D內(nèi)容制作、傳輸、存儲、播放和顯示等技術(shù),對于國民經(jīng)濟發(fā)展具有重要意義。為了在3D影像產(chǎn)業(yè)鏈中占據(jù)制高點,目前迫切需要解決以下3個問題:顯示終端、3D內(nèi)容創(chuàng)建與3D標準制定。其中,隨著3D電視頻道的開通,3D片源不足已成為制約3D影像發(fā)展的瓶頸,而2D轉(zhuǎn)3D技術(shù)是解決這一難題的關(guān)鍵。2D轉(zhuǎn)3D流程如圖1所示,其核心是深度估計?,F(xiàn)有轉(zhuǎn)換方法主要分為:人工轉(zhuǎn)換、半自動轉(zhuǎn)換和全自動轉(zhuǎn)換[2]。人工轉(zhuǎn)換能夠產(chǎn)生最佳深度圖,但也是最耗時、耗力且轉(zhuǎn)換成本最高的方法;全自動轉(zhuǎn)換因為無需人工干預而受到研究人員青睞,但現(xiàn)有的全自動轉(zhuǎn)換難以估計出高品質(zhì)的深度圖,且存在場景適用性問題;半自動轉(zhuǎn)換首先從原始2D視頻中提取若干關(guān)鍵幀,然后對這些關(guān)鍵幀進行人工轉(zhuǎn)換,再利用深度傳播技術(shù)將關(guān)鍵幀深度擴散到非關(guān)鍵幀,最后對非關(guān)鍵幀深度進行人工優(yōu)化,該轉(zhuǎn)換方式是兼顧轉(zhuǎn)換品質(zhì)和效率的最佳折衷方案。半自動轉(zhuǎn)換的核心問題是關(guān)鍵幀提取,這是最大限度減少人工成本和保證轉(zhuǎn)換品質(zhì)的關(guān)鍵,而現(xiàn)有研究對此關(guān)注較少。因此,本文從深度傳播誤差分析著手探討半自動2D轉(zhuǎn)3D的關(guān)鍵幀提取問題。
1 研究現(xiàn)狀
現(xiàn)有的關(guān)鍵幀提取算法研究主要針對視頻摘要、檢索等應(yīng)用。當前,關(guān)鍵幀提取算法可粗略分為序列法和基于聚類的方法。Vila等[3]利用Tsallis互信息和Jensen-Tsallis散度計算幀間相似度,并用一幀圖像和同一鏡頭內(nèi)其它幀所有圖像間的平均相似度作為該幀的代表性測度,將最具代表性的視頻幀選為關(guān)鍵幀;Yong等[4]提出一個對視頻序列語義上下文進行建模的計算框架,通過比較幀間語義級特征和一個統(tǒng)計分類器實現(xiàn)關(guān)鍵幀提取;張曉星等[5]利用圖像特征點檢測與匹配的方法,將相鄰圖像的非匹配點作為幀間相關(guān)性的近似,將累積或平均非匹配點數(shù)超過設(shè)定閾值的幀判為關(guān)鍵幀;張建明等[6]采用全局運動特征與局部運動特征作為視頻體特征,同時提取典型視頻相應(yīng)特征,采用粒子群算法自適應(yīng)提取視頻關(guān)鍵幀;雷少帥等[7]將序列法和聚類法結(jié)合起來,首先提取視頻的時空切片,然后對切片進行K均值聚類,最后根據(jù)相似度從每個類中提取關(guān)鍵幀;王方石等[8]針對聚類關(guān)鍵幀提取的閾值問題,提出二次聚類方法,根據(jù)內(nèi)容變化程度自適應(yīng)確定聚類所需的閾值,并采用動態(tài)無監(jiān)督聚類算法自動提取關(guān)鍵幀;羅森林等[9]以幀間顏色直方圖差為特征進行子鏡頭檢測,并對子鏡頭進行關(guān)鍵幀提取與聚類,在提升關(guān)鍵幀提取速度的同時,降低了關(guān)鍵幀提取冗余度;詹永照等[10]針對現(xiàn)有聚類方法對初始類劃分敏感、易陷入局部最優(yōu)、沒有考慮時序性等問題,提出一種基于人工免疫的有序樣本聚類算法。
目前,針對半自動2D轉(zhuǎn)3D的關(guān)鍵幀提取算法研究還較少。Cao等[11]使用基于采樣的關(guān)鍵幀提取算法(SKF),每隔一段時間從視頻中提取一幀作為關(guān)鍵幀。SKF的優(yōu)點是算法實現(xiàn)簡單,缺點是采樣間隔很難與視頻內(nèi)容匹配,導致選取的關(guān)鍵幀不具代表性,進而影響到后續(xù)的深度傳播質(zhì)量;Sun等[12]根據(jù)相鄰幀的遮擋面積和SURF特征點匹配比例計算關(guān)鍵幀選取閾值,進而對候選的每個關(guān)鍵幀估計攝像機的投影矩陣,最后將具有最小重投影誤差的候選幀作為關(guān)鍵幀。實驗表明該方法可顯著改善深度傳播質(zhì)量。然而,攝像機投影矩陣估計是個病態(tài)問題,Sun等[12]需要借助Lenz等[13]提出的標定方法進行投影矩陣估計。
現(xiàn)有面向半自動2D轉(zhuǎn)3D的關(guān)鍵幀提取算法將深度傳播與關(guān)鍵幀提取獨立進行研究,沒有考慮關(guān)鍵幀和深度傳播對彼此的影響。為此,本文對深度傳播誤差進行建模,計算候選關(guān)鍵幀到非關(guān)鍵幀的深度傳播誤差,選擇具有最小傳播誤差的視頻幀作為關(guān)鍵幀。
2 本文方法
如圖2所示,本文提出基于深度傳播誤差預測的關(guān)鍵幀提取算法,主要包括基于光流的運動分析、基于運動分析的深度傳播誤差預測,以及根據(jù)誤差代價矩陣進行關(guān)鍵幀提取,對關(guān)鍵幀進行人工深度分配并傳播到非關(guān)鍵幀。
2.1 深度傳播誤差預測分析
關(guān)鍵幀向非關(guān)鍵幀進行深度傳播,首先需要建立幀間像素點的對應(yīng)關(guān)系,大部分算法都采用運動估計的方法。本文通過前向光流和反向光流建立幀間像素點的匹配關(guān)系。假設(shè)第i幀圖像用Fi表示,其對應(yīng)的前向光流和反向光流分別為wfi和wbi。其中wfi表示Fi到Fi+1的光流,wbi為Fi+1到Fi的光流。利用前向光流wfi從Fi的像素點X=(x,y)處向后續(xù)幀F(xiàn)i+1進行深度傳播的誤差概率定義如式(1)所示。式(1)中ci+1i表示利用光流建立從Fi到Fi+1的像素點對應(yīng)關(guān)系的誤差代價,其定義如式(2)所示,主要包括顏色差異、運動差異和遮擋誤差,分別如式(3)—(5)所示。這里顏色差異假設(shè)匹配的像素點具有相似顏色,運動差異假設(shè)匹配的像素點運動具有一致性。對于非遮擋像素點,其前向光流和反向光流應(yīng)大小相同、方向相反,因而遮擋誤差項為0,否則這種非0值表示遮擋對深度傳播的誤差影響。
2.2 基于傳播誤差預測的關(guān)鍵幀提取
本文的關(guān)鍵幀提取算法是要尋找向其它幀傳播誤差概率最小的幀。為此,定義一個N×N的代價矩陣C,其中N表示總視頻幀數(shù)。矩陣C第i行、第j列的元素定義如式(7)所示:
假設(shè)S表示候選關(guān)鍵幀,定義如式(8)所示的能量函數(shù),其中l(wèi)和r分別表示距離候選關(guān)鍵幀F(xiàn)i左邊和右邊最近的候選關(guān)鍵幀索引?;趥鞑フ`差預測的關(guān)鍵幀提取即是最小化式(8)的求解過程。
3 實驗結(jié)果與分析
實驗數(shù)據(jù)來自微軟提供的3D視頻序列Ballet和Breakdancer[14]。將關(guān)鍵幀的真實深度向非關(guān)鍵幀進行傳播,并與非關(guān)鍵幀的真實深度進行比較,以PSNR作為客觀比較指標。其中深度傳播采用簡單的最近鄰法,即某個非關(guān)鍵幀的深度由距離其最近的關(guān)鍵幀深度傳播得到。實驗中,與Cao等[10]基于采樣的關(guān)鍵幀提取算法(SKF)、Sun等[11]的雙閾值法(DT)進行了比較。如表1所示,與SKF和DT方法相比,本文方法獲取關(guān)鍵幀的深度傳播平均PSNR改善了0.6dB以上。這是因為SKF和DT提取關(guān)鍵幀時并未考慮深度傳播誤差的影響,而本文通過最小化傳播誤差選取關(guān)鍵幀,因而能夠有效改善深度傳播質(zhì)量。
4 結(jié)語
關(guān)鍵幀提取直接決定了半自動2D轉(zhuǎn)3D質(zhì)量?,F(xiàn)有方法將關(guān)鍵幀提取與深度傳播割裂開來,難以最小化深度傳播誤差。本文從顏色差異、運動差異與遮擋誤差著手,建立深度傳播的誤差預測模型,進而構(gòu)造傳播代價能量函數(shù),通過能量最小化實現(xiàn)誤差最小化的深度傳播。實驗結(jié)果表明,本文方法可有效改善深度傳播質(zhì)量。
參考文獻:
[1] 王瑜.三維場景模型構(gòu)建研究與實現(xiàn)[J].軟件導刊,2017,16(7):199-201.
[2] 吳少群,袁紅星,安鵬,等.軟分割約束邊緣保持插值的半自動2D轉(zhuǎn)3D[J].電子學報,2015,43(11):2218-2224.
[3] VILA M, BARDERA A, QING X, et al. Tsallis entropy-based information measures for shot boundary detection and keyframe selection[J]. Signal, Image and Video Processing, 2013:1-14.
[4] YONG S P, DENG J D, PURVIS M K. Wildlife video key-frame extraction based on novelty detection in semantic context[J]. Kluwer Academic Publishers, 2013,62(2):359-376.
[5] 張曉星,劉冀偉,張波,等.分布視頻編碼中基于幀間相關(guān)性的自適應(yīng)關(guān)鍵幀選取算法[J].光電子·激光,2010,21(10):1536-1541.
[6] 張建明,蔣興杰,李廣翠,等.基于粒子群的關(guān)鍵幀提取算法[J].計算機應(yīng)用,2011,31(2):358-361.
[7] 雷少帥,曹長青,古赟,等.基于時空切片的關(guān)鍵幀提取研究[J].太原理工大學學報,2012,43(3):358-361.
[8] 王方石,須德,吳偉鑫.基于自適應(yīng)閾值的自動提取關(guān)鍵幀的聚類算法[J].計算機研究與發(fā)展, 2005, 42(10):1752-1757.
[9] 羅森林,馬舒潔,梁靜,等.基于子鏡頭聚類方法的關(guān)鍵幀提取技術(shù)[J].北京理工大學學報,2011,31(3):348-352.
[10] 詹永照,汪滿容,柯佳.基于人工免疫有序聚類的視頻關(guān)鍵幀提取方法[J].江蘇大學學報:自然科學版,2012,33(2):199-204.
[11] CAO X, LI Z, DAI Q H. Semi-automatic 2D-to-3D conversion using disparity propagation[J]. IEEE Transactions on Broadcasting, 2011,57(2):491-499.
[12] SUN J D, XIE J C, LIU J. Dual threshold based key-frame selection for 2D-to-3D conversion[J]. Journal of Computational Information Systems, 2013,9(4):1297-1305.
[13] LENZ R K, TSAI R Y. Technology for calibration of the scale factor and image center for high accuracy 3-D machine version metrology[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1988,10:68-75.
[14] ZITNICK C L, KANG S B, UYTTENDAELE M, et al. High-quality video view interpolation using a layered representation[J]. ACM Transactions on Graphics, 2004,23(3):600-608.
(責任編輯:黃 健)