王高飛,余 剛,謝世斌
(成都索貝數(shù)碼科技股份有限公司 基礎(chǔ)技術(shù)研究院,四川 成都 610041)
基于攝像機(jī)跟蹤和深度信息的三維合成
王高飛,余 剛,謝世斌
(成都索貝數(shù)碼科技股份有限公司 基礎(chǔ)技術(shù)研究院,四川 成都 610041)
闡述一種新的基于攝像機(jī)跟蹤和深度信息的三維合成技術(shù)。此技術(shù)將2D視頻源轉(zhuǎn)為3D視頻,然后提取3D視頻源的深度信息,再將攝像機(jī)跟蹤和視頻深度信息有機(jī)結(jié)合起來(lái),使得3D視頻和3D物件在三維場(chǎng)景中有機(jī)融合,進(jìn)而獲得更加真實(shí)自然的三維合成效果。
三維合成;2D轉(zhuǎn)3D;深度信息提取;攝像機(jī)跟蹤
【本文獻(xiàn)信息】王高飛,余剛,謝世斌.基于攝像機(jī)跟蹤和深度信息的三維合成[J].電視技術(shù),2015,39(2).
三維合成是將3D視頻和3D物件在同一個(gè)三維場(chǎng)景中進(jìn)行疊加和渲染,讓兩者有機(jī)融合在一起,形成一個(gè)真實(shí)自然的三維場(chǎng)景。三維合成一般是將3D物件融合進(jìn)3D視頻場(chǎng)景中,為了達(dá)到真實(shí)的效果,需要提取出3D視頻和3D物件的深度信息,通過(guò)深度信息得到兩者之間的遮擋關(guān)系,然后進(jìn)行疊加?;警B加示意圖如圖1所示。
圖1 三維合成示意圖
圖1中,長(zhǎng)方體遮擋住了小汽車,但又被松樹(shù)遮擋,這種遮擋關(guān)系,是根據(jù)小汽車、長(zhǎng)方體和松樹(shù)之間的深度關(guān)系產(chǎn)生的,這樣,就營(yíng)造出了符合邏輯的三維場(chǎng)景。對(duì)于視頻畫面,一般都是含有運(yùn)動(dòng)物體,比如行走的人和行駛的車輛,如果要在這種運(yùn)動(dòng)場(chǎng)景中融合進(jìn)3D物件,僅有3D視頻和3D物件的深度信息,雖然可以產(chǎn)生疊加效果,但3D視頻中物體會(huì)產(chǎn)生自旋轉(zhuǎn),而深度信息是不包含這種自旋轉(zhuǎn)信息的。這樣疊加出來(lái)的三維場(chǎng)景就會(huì)讓人感覺(jué)3D物件和3D視頻場(chǎng)景互相脫離,不是在一個(gè)統(tǒng)一的三維空間中,給人一種虛假的表象。類似的,3D視頻中一輛小汽車慢慢駛離鏡頭,逐漸遠(yuǎn)去,如果和小汽車配合的3D物件沒(méi)有逐漸變小,變模糊,也會(huì)給人一種兩者相互脫離的感覺(jué),瞬間讓三維合成效果大打折扣。
為了避免這種3D物件和3D視頻場(chǎng)景相互脫節(jié)的情況出現(xiàn),本文提出一種基于攝像機(jī)跟蹤和深度信息的新的三維合成技術(shù)。三維合成的流程示意圖如圖2所示。
圖2 三維合成流程圖
圖2描述了本文闡述的三維合成技術(shù)的整個(gè)流程。整個(gè)流程的文字描述如下:
1)源視頻為2D視頻,則通過(guò)2D轉(zhuǎn)3D技術(shù),轉(zhuǎn)換為3D視頻,同時(shí)獲取深度信息;源視頻為3D視頻,則提取深度信息。
2)對(duì)3D視頻進(jìn)行攝像機(jī)跟蹤,獲得每一幀的攝像機(jī)參數(shù)。
3)根據(jù)深度信息和每幀的攝像機(jī)參數(shù),將3D物件融合進(jìn)3D視頻,從而得到三維合成場(chǎng)景。
下面對(duì)涉及到的重要技術(shù)點(diǎn)2D轉(zhuǎn)3D、3D視頻深度信息提取和攝像機(jī)跟蹤進(jìn)行簡(jiǎn)單描述。
目前,不管是廣電行業(yè),還是一般民用消費(fèi)市場(chǎng),視頻的片源主要是2D視頻。因此,在三維合成系統(tǒng)中,有相當(dāng)一部分視頻源為2D視頻,這就需要將2D視頻轉(zhuǎn)換為3D視頻。2D轉(zhuǎn)3D的基本流程圖如圖3所示。
圖3 2D轉(zhuǎn)3D流程圖
2D轉(zhuǎn)3D流程的重點(diǎn)是深度信息的生成,目前有很多比較成熟的算法,主流算法都以圖像分割為基礎(chǔ)或作為一個(gè)支撐點(diǎn)。獲得深度信息之后,為避免“卡片堆積”效應(yīng),需要對(duì)獲得的深度信息進(jìn)行平滑處理,一般采用高斯模糊即可。最后生成3D畫面時(shí),如果質(zhì)量要求不高或者對(duì)效率要求較高,可以只生成左眼畫面,直接使用源單眼畫面作為右眼畫面,使用源單眼畫面作為右眼畫面的原因是約70%人的視覺(jué)以右眼為主。
2D轉(zhuǎn)3D的主流算法分為兩種:基于離焦原理分割前景和背景區(qū)域算法[1]和基于運(yùn)動(dòng)估計(jì)的圖像深度區(qū)域分割算法[2]。離焦算法根據(jù)離焦原理,即處于人眼或攝像機(jī)焦點(diǎn)處的畫面銳利,含有較多的高頻信息,離焦點(diǎn)越遠(yuǎn)的區(qū)域,越模糊,含有較多的低頻信息。通過(guò)Higher-Order Statistics,即高階統(tǒng)計(jì)量方法,加上區(qū)域生成等方法,將2D畫面分割為前景和背景區(qū)域。運(yùn)動(dòng)估計(jì)算法的主要原理為運(yùn)動(dòng)差越大的區(qū)域,離人眼或者攝像機(jī)越近。由于此方法能夠計(jì)算出物體之間的遮擋關(guān)系,因此提取出的深度更符合邏輯。這兩種算法各有優(yōu)劣,前者可以將單張2D圖片轉(zhuǎn)換為3D圖片,對(duì)于多焦點(diǎn)畫面或者整幅比較模糊的運(yùn)動(dòng)畫面,效果比較差;后者提取出的深度信息更加符合邏輯,更加準(zhǔn)確,但卻無(wú)法提取單張圖片的深度信息。
本文描述的技術(shù)采用離焦原理進(jìn)行2D轉(zhuǎn)3D,樣例圖如圖4所示。
圖4中,圖像4a為虛擬產(chǎn)生的左眼圖像,圖像4b為原2D圖像(作為右眼圖像),圖像4c為從原2D圖像提取出來(lái)的深度信息圖像。
目前,市場(chǎng)上大部分3D攝像機(jī)拍攝的3D視頻都不含深度信息,而在三維合成中,需要3D視頻和3D物件的深度信息,才可以判斷出兩者之間的遮擋關(guān)系。這樣,三維合成中就需要一個(gè)提取3D視頻深度信息的環(huán)節(jié)。
圖4 2D轉(zhuǎn)3D樣例圖
深度信息提取算法可以分為局部和全局兩大類。局部算法按照窗口對(duì)圖像進(jìn)行劃分,以窗口為單位進(jìn)行計(jì)算,這樣計(jì)算量小,但計(jì)算出來(lái)的深度信息會(huì)有較強(qiáng)的邊界效應(yīng)。全局算法可以有效避免深度信息的邊界效應(yīng),但計(jì)算量大。楊慶雄[3]提出的非局部花費(fèi)積累算法來(lái)提取深度信息,此算法使用樹(shù)形結(jié)構(gòu)來(lái)計(jì)算像素間的相似性。在像素構(gòu)成的最小生成樹(shù)上進(jìn)行花費(fèi)積累計(jì)算(雙邊濾波器即可達(dá)到較好效果),可以一方面避免局部算法產(chǎn)生的邊界效應(yīng),另一方面避免全局算法產(chǎn)生的巨大計(jì)算量。通過(guò)左右眼視差計(jì)算出深度信息后,可以使用樹(shù)形濾波[4]進(jìn)行深度信息的平滑和縮放處理,以達(dá)到對(duì)深度信息提取流程和質(zhì)量?jī)?yōu)化的目的。
基于雙邊濾波花費(fèi)積累公式為
式中:Cd(q)表示在視差等級(jí)為d時(shí)像素q的匹配花費(fèi);I表示引導(dǎo)圖像;σS和σR分別表示空間相似度常量和范圍相似度常量。
如果在MST上應(yīng)用此花費(fèi)積累公式,則可以轉(zhuǎn)換為
式中:D(p,q)表示像素p和像素q在MST上的距離;σ表示σS和σR的一個(gè)線性組合。這樣,可以在MST上計(jì)算花費(fèi)積累,減少了計(jì)算量,同時(shí)可以避免邊界效應(yīng)。
對(duì)3D視頻進(jìn)行深度信息提取的樣例圖如圖5所示。
攝像機(jī)跟蹤技術(shù)主要用來(lái)獲取視頻拍攝時(shí)攝像機(jī)的角度,從而計(jì)算出視頻中物體的運(yùn)動(dòng)軌跡,以及旋轉(zhuǎn)角度。攝像機(jī)跟蹤技術(shù)是3D物件和視頻融合的基本技術(shù),攝像機(jī)跟蹤得到的視頻攝像機(jī)幀參數(shù)的好壞直接決定了兩者融合產(chǎn)生的效果,要么渾然一體,要么漏洞百出。
圖5 深度信息提取樣例圖
攝像機(jī)跟蹤算法按照流程可以劃分為兩個(gè)階段——攝像機(jī)標(biāo)定和攝像機(jī)跟蹤。攝像機(jī)標(biāo)定的主要目的是得到視頻拍攝的攝像機(jī)的內(nèi)部參數(shù)以及畸變參數(shù),這樣才能在后期的攝像機(jī)跟蹤中更精確地計(jì)算出攝像機(jī)幀參數(shù)。目前無(wú)標(biāo)記的攝像機(jī)標(biāo)定技術(shù)都是基于張正友[5]的平面標(biāo)定法,此算法對(duì)于視頻畫面要求低,具有較高的魯棒性。
攝像機(jī)跟蹤算法較多,可以按照是否需要模型庫(kù)進(jìn)行劃分。董子龍[6]等提出實(shí)時(shí)攝像機(jī)跟蹤算法需要一個(gè)離線的特征模型庫(kù),在跟蹤時(shí)只提取視頻關(guān)鍵幀參數(shù)進(jìn)行匹配,以達(dá)到實(shí)時(shí)跟蹤的目的。
Georg Klein博士在2006年的博士論文中闡述了一種非標(biāo)記且不需要特征數(shù)據(jù)庫(kù)的視頻跟蹤方法用于增強(qiáng)現(xiàn)實(shí)。在2007年,他將這種方法加以發(fā)展,提出了并行跟蹤和映射方法[7]用于增強(qiáng)現(xiàn)實(shí)。此方法使用光束平差法計(jì)算出畫面中點(diǎn)的3D空間坐標(biāo),為了精確匹配特征點(diǎn),可以使用SIFT或SURF算子得到物體的精確匹配,最后使用基于擴(kuò)展卡曼濾波的SLAM算法來(lái)估算3D空間中點(diǎn)的運(yùn)動(dòng)來(lái)達(dá)到精確跟蹤的效果。
攝像機(jī)跟蹤的樣例圖如圖6所示。
圖6 攝像機(jī)跟蹤樣例圖
從圖6可以看出,隨著手的移動(dòng),甚至是手指的相對(duì)移動(dòng),虛擬3D物件依然可以準(zhǔn)確地找到跟蹤物體,并會(huì)隨著視頻中的物體做相應(yīng)的旋轉(zhuǎn)和平移運(yùn)動(dòng)。
通過(guò)深度信息提取可以得到3D視頻中不同物體的深度,3D物件在渲染的時(shí)候已經(jīng)包含了深度信息,這樣通過(guò)深度信息可以將3D物件符合邏輯地融合進(jìn)3D視頻場(chǎng)景。攝像機(jī)跟蹤可以比較精確地計(jì)算出3D視頻場(chǎng)景中一個(gè)物體的運(yùn)動(dòng)和旋轉(zhuǎn)信息。這樣在3D物件渲染時(shí),調(diào)整3D物件的攝像機(jī)參數(shù),使之配合3D視頻場(chǎng)景中一個(gè)物體的運(yùn)動(dòng)和旋轉(zhuǎn),就能夠更加真實(shí)地將3D物件融合進(jìn)行3D視頻,得到一個(gè)真實(shí)感強(qiáng)、符合視覺(jué)邏輯的三維合成場(chǎng)景。
3D物件和視頻的三維合成樣例圖如圖7所示。
圖7 三維合成樣例圖
[1] KO J,KIM M,KIM C.2D-To-3D stereoscopic conversion: depth-map estimation in a 2D single-view image[EB/OL].[2014-10-18].http://cat.inist.fr/?aModele=afficheN&cpsidt=205876 88.
[2] FENG Yue,REN Jinchang,JIANG Jianmin.Object-based 2D-to-3D video conversion for effective stereoscopic content gen?eration in 3D-TV applications[J].IEEE Trans.Broadcasting,2011,57(2):500-509.
[3] YANG Qingxiong.A non-local cost aggregation method for stereo matching[EB/OL].[2014-10-18].http://www.computer.org/csdl/pro?ceedings/cvpr/2012/1226/00/177P2A27-abs.htm l.
[4] YANG Qingxiong.Stereo matching using tree filtering[EB/OL].[2014-10-18].http://www.computer.org/csdl/trans/tp/preprint/06888 475-abs.htm l.
[5] ZHANG Z.A flexible new technique for camera calibration[J].IEEE Trans.Pattern Analysis and Machine Intelligence,2000,22(11):1330-1334.
[6]DONG Zilong,ZHANG Guofeng,JIA Jiaya,et al.Keyframe-based real-time camera tracking[EB/OL].[2014-10-18].http://www.docin.com/p-588205058.htm l.
[7] KLEIN G,MURRAY D.Parallel tracking and mapping for small AR workspaces[EB/OL].[2014-10-18].http://dl.acm.org/citation.cfm?id=1514363.
責(zé)任編輯:任健男
TN948
B
10.16280/j.videoe.2015.02.012
2014-11-18