2012年9月28日,由好萊塢華人導(dǎo)演李安執(zhí)導(dǎo)的首部3D電影《少年派的奇幻漂流》在紐約電影節(jié)全球首映,同年11月22日在中國正式上映,首周末票房快速攀升,四天票房累計超過一個億。李安更是憑借《少年派的奇幻漂流》獲得第85屆奧斯卡最佳導(dǎo)演獎、最佳攝影獎、最佳視覺效果獎和最佳原創(chuàng)音樂獎4項獎項,成為兩次問鼎奧斯卡大獎的唯一的華人導(dǎo)演,引起全世界華人的振奮和自豪!影片展現(xiàn)了冒險、生存、希望、驚奇,給予觀眾靈性和信念,這得力于令人震撼 的3D畫面。李安表示,這部電影不僅是3D的藝術(shù)片,更將“水、小孩、動物”這電影界公認(rèn)最難拍的三大元素一網(wǎng)打盡并放到了一起。李安成就的輝煌,再次點燃了人們對3D電影的狂熱。
國際3D電影熱,期待我國3D技術(shù)新突破
回想起3年前3D電影《阿凡達》在全球包括在中國引起的轟動,3D電影以其立體逼真、身臨其境的震撼效果,使人刮目相看。:“自《阿凡達》后,各種3D大片活躍在熒屏上,但大多數(shù)是通過后期立體轉(zhuǎn)換而來,立體效果普遍不佳,被斥為“偽3D”?!澳鞘且驗閺亩S到三維的視頻轉(zhuǎn)化技術(shù)不成熟,呈現(xiàn)的三維畫面不夠真實,沒有表現(xiàn)出應(yīng)有的3D效果?!?/p>
我國視頻技術(shù)研究專家、浙江大學(xué)計算機學(xué)院副教授章國鋒指出:“《阿凡達》是采用3D技術(shù)拍攝的,還有很多電影比如3D版的《泰坦尼克號》則是利用后期處理技術(shù)將其從二維轉(zhuǎn)為三維的?!币曨l立體化技術(shù)直接影響3D電影的視覺效果?!耙曨l三維立體化已是大勢所趨,是數(shù)字媒體產(chǎn)業(yè)的下一核心技術(shù)競爭點,產(chǎn)業(yè)前景巨大。章國鋒博士及他的團隊的研究正是為了提供更成熟的3D技術(shù),讓人們享受到更完美的3D畫面。
章國鋒,男,1981年生,博士,浙江大學(xué)副教授。2003年畢業(yè)于浙江大學(xué)計算機系,2009年6月獲浙江大學(xué)計算機應(yīng)用專業(yè)博士學(xué)位。同年7月在浙江大學(xué)計算機學(xué)院做博士后,2011年9月博士后出站并留校,2011年底被評為副教授。主要研究方向為攝像機跟蹤、三維重建、增強現(xiàn)實、視頻分割與編輯等方面。其博士論文《視頻場景的重建與增強處理》獲2010年度計算機學(xué)會優(yōu)秀博士學(xué)位論文獎,教育部和國務(wù)院學(xué)位委員會評定的2011年度全國百篇優(yōu)秀博士學(xué)位論文獎。近年來在國際頂級期刊(IEEE TPAMI,IEEE TVCG)和計算機視覺領(lǐng)域三大國際會議(CVPR, ICCV, ECCV)上發(fā)表了十多篇高水平論文。尤其在攝像機跟蹤與三維重建方面的研究取得了一系列重要成果,已經(jīng)在國內(nèi)外有較大影響力。
在博士后期間,他順利獲得國家自然科學(xué)基金青年項目的資助,研究如何從拍攝的視頻數(shù)據(jù)中恢復(fù)出高質(zhì)量的深度和三維幾何模型,以解決實際應(yīng)用遇到的一些問題。在國家自然科學(xué)基金青年項目結(jié)題之際又順利獲得了青年科學(xué)基金-面上項目的連續(xù)資助,同時承擔(dān)了一項國家科技支撐計劃項目的子課題。
從圖像、視頻數(shù)據(jù)中重建出實際場景的三維模型,是計算機視覺領(lǐng)域的基本問題,在虛擬現(xiàn)實、增強現(xiàn)實、機器人視覺導(dǎo)航、模擬仿真和影視娛樂等領(lǐng)域有著廣泛的應(yīng)用前景。但目前以多視圖立體為代表的三維重建方法,在精度、規(guī)模和效率上都遇到不同程度的瓶頸,難以滿足一些高端應(yīng)用需求。針對這些問題,章國鋒在其青年基金項目中成功研發(fā)了一套完整的基于密集圖像、視頻采樣的三維重建框架,后續(xù)擬結(jié)合各種自動和交互技術(shù)來研究如何將實拍的二維視頻高效地轉(zhuǎn)換成三維立體視頻,并搭建起一套完整的視頻三維立體化系統(tǒng),可以處理各種類型的視頻三維立體化轉(zhuǎn)換,以滿足日益高漲的3D視頻需求。
“如果技術(shù)足夠成熟,我們可以通過對場景拍照就能準(zhǔn)確地構(gòu)建出其三維幾何模型。除了視頻三維立體化,這些技術(shù)還可以用在三維城市建模、機器人視覺導(dǎo)航、模擬仿真等多個領(lǐng)域?!?章國鋒博士滿懷信心地設(shè)想著。
章國鋒團隊研究成果簡介
濃黑的眉毛,睿智的眼睛,堅毅的嘴唇,八零后青年才俊,出類拔萃,為我們娓娓道來——
隨著信息獲取與處理技術(shù)的飛速發(fā)展,如何利用計算機技術(shù)高效逼真地表達虛擬和真實的世界,實現(xiàn)二者的高度互動和融合,已經(jīng)成為一個非常重要的研究課題。一方面,處理對象復(fù)雜程度的日益提高,使得采用正向三維建模并進行繪制的方式在真實性、計算效率和交互的自然性等方面遇到了巨大的挑戰(zhàn);另一方面,實拍的影像數(shù)據(jù)雖然直接呈現(xiàn)了真實世界的外觀,但由于不直觀地反映實際場景的三維結(jié)構(gòu)和層次信息,導(dǎo)致計算機難以準(zhǔn)確自動地理解實際復(fù)雜場景。因此,如何對影像數(shù)據(jù)進行深層次的信息挖掘,恢復(fù)其三維幾何結(jié)構(gòu)、運動和層次等信息就成了解決諸多問題的關(guān)鍵。
基于上述研究背景,近幾年來深入研究了視頻場景的三維幾何重建、運動恢復(fù)與層次分割等問題,充分利用視頻序列中信息的連貫性和冗余性,借助視頻場景的關(guān)鍵幀表達和多幀信息統(tǒng)計互補的創(chuàng)新思路,提出了一個高效魯棒的全局優(yōu)化計算框架,有效解決了攝像機參數(shù)、深度和光流等信息的高精度恢復(fù)以及視頻場景的層次分割等難題,為城市三維建模、混合現(xiàn)實、機器人視覺導(dǎo)航和仿真模擬等重要應(yīng)用奠定了基礎(chǔ)。其主要研究成果可以概括為以下三個方面:
1.基于視頻的攝像機自動跟蹤定位
傳統(tǒng)的攝像機的自動跟蹤定位方法在處理規(guī)模、計算效率和穩(wěn)定性等方面都存在不同程度的瓶頸,這嚴(yán)重阻礙了其在實際問題上的應(yīng)用。經(jīng)過多年的努力,課題組成功研發(fā)了一套基于視頻序列的攝像機自動跟蹤系統(tǒng),采用基于關(guān)鍵幀的求解框架,并通過優(yōu)化關(guān)鍵幀求解次序、最佳自定標(biāo)時機選擇以及集束調(diào)整局部化等策略,極大地提高了焦距變化的長序列的求解穩(wěn)定性和計算效率。
此外,為了解決循環(huán)回路序列和大尺度場景的高精度攝像機定位問題,還提出了一個高效的非連續(xù)特征跟蹤方法,不但能有效延長特征點跟蹤壽命,而且還能快速地將分布在不同視頻序列的公共特征點匹配起來,從而可以將不同視頻序列恢復(fù)的三維結(jié)構(gòu)注冊到同一個三維坐標(biāo)系下。在此基礎(chǔ)上還提出了一個基于分段的運動推斷結(jié)構(gòu)技術(shù),可以在有限內(nèi)存情況下對整個場景的三維結(jié)構(gòu)和攝像機進行全局高效地優(yōu)化,從而快速消除誤差累積和重建漂移問題。如圖1(a)所示,繞著某個小區(qū)拍攝的十幾段視頻序列在恢復(fù)了場景的三維結(jié)構(gòu)和攝像機運動軌跡之后注冊到同一個三維坐標(biāo)系下,并最終疊加到谷歌地圖上。另外,通過在離線預(yù)處理中對場景進行關(guān)鍵幀簡化表達,并結(jié)合在線的關(guān)鍵幀快速識別與匹配,實現(xiàn)了街道規(guī)模級別下的攝像機在線實時跟蹤定位和增強現(xiàn)實,如圖1(b)所示。
這些研究成果分表發(fā)表在計算機視覺頂級會議CVPR 2007、ICCV 2009、ECCV 2010上。開發(fā)的攝像機自動跟蹤系統(tǒng)ACTS于2009年7月底在網(wǎng)上發(fā)布(http://www.zjucvg.net/acts/acts.html),供大家免費使用,受到了國內(nèi)外同行的廣泛關(guān)注和好評。該系統(tǒng)已經(jīng)更新到V2.0版本,目前已經(jīng)有超過一千名的注冊用戶下載使用。該系統(tǒng)已經(jīng)成為課題組諸多研究工作的基礎(chǔ)平臺。
2.稠密深度恢復(fù)與三維重建
為了能從實拍的視頻數(shù)據(jù)中恢復(fù)出高質(zhì)量的深度信息,基于多幀信息統(tǒng)計互補的思想,創(chuàng)造性地提出了一個基于集束優(yōu)化的稠密視頻深度恢復(fù)算法,有效克服了噪聲、遮擋和誤差對深度恢復(fù)的影響,很好地解決了深度恢復(fù)的時空一致性和邊界瑕疵等問題,如圖2(a)所示。該項研究成果最初發(fā)表在計算機視覺頂級會議CVPR 2008 上作為大會宣讀論文(錄取率4%),其擴展版發(fā)表在計算機視覺和模式識別領(lǐng)域的頂級期刊IEEE Transactions on Pattern Analysis and Machine Intelligence上(影響因子4.908)。這方面工作目前累計已被他引超過100次。
針對動態(tài)場景,分別提出了基于三目攝像機和基于多個自由移動的同步攝像機的時空一致性深度恢復(fù)方法,比傳統(tǒng)方法更為方便靈活,而且成本更?。▓D2(b))。還特別針對含有多個剛性運動物體的序列,提出了一個多體立體匹配深度恢復(fù)方法,可以將多個剛性運動物體自動分割出來并同時恢復(fù)其深度(圖2(c))。這方面的工作分別發(fā)表在計算機視覺頂級會議CVPR 2012、ECCV2012、ICCV 2011上。課題組還提出了一個新的視頻對象三維運動遷移技術(shù),無需借助特殊運動捕捉設(shè)備,只需一個手持的攝像機就可以將視頻物體的運動抽取出來作用到一個指定的三維模型上,生成三維模型動畫(圖2(d))。該項工作發(fā)表在國際頂級期刊IEEE Transactions on Visualization and Computer Graphics上。
3.單目視頻立體化、時空一致性視頻分割與視頻編輯
基于攝像機自動跟蹤技術(shù)研發(fā)了一個自動高效的無需稠密三維恢復(fù)的單目視頻立體化技術(shù),極大便利了立體視頻的創(chuàng)作。通過創(chuàng)造性地將視頻立體化問題轉(zhuǎn)化為一個非線性能量優(yōu)化問題,并對立體感、相似度和光滑度進行綜合優(yōu)化,實現(xiàn)了無需稠密三維恢復(fù)的單目視頻到立體視頻的自動轉(zhuǎn)化。該項研究成果發(fā)表在國際頂級期刊IEEE Transactions on Visualization and Computer Graphics上,并曾在國家十五科技重大創(chuàng)新成就展上展出。
在視頻分割方面,提出了一個新的運動前景抽取方法,通過魯棒的深度和運動估計來實現(xiàn)對運動前景的有效抽取,并且估計出整個場景的光流信息和背景的深度信息(圖3(a))。該研究成果發(fā)表在計算機視覺和模式識別領(lǐng)域的頂級期刊IEEE Transactions on Pattern Analysis and Machine Intelligence(影響因子4.908)。此外,基于深度恢復(fù),還提出了一個時空一致性視頻分割方法,可以將輸入的視頻序列分割成一堆時空分割塊,每個分割塊在序列上具有高度的時空一致性?;诜指罱Y(jié)果,還可以實現(xiàn)多幀深度圖的三維網(wǎng)格拼接,從而實現(xiàn)大尺度場景的高精度三維重建(圖3(b))。
基于深度恢復(fù)和視頻分割技術(shù)研發(fā)了一個半自動的視頻再創(chuàng)作技術(shù)框架,可以將各種視頻資源有效地利用起來,并解決了基于視頻的混合現(xiàn)實創(chuàng)作中所面臨的幾何一致性、光照一致性和遮擋一致性等問題。該系統(tǒng)提供了一系列的視頻特效制作功能(如圖4所示),有效增加了視頻編緝的手段和多樣性。該項工作發(fā)表在國際頂級期刊IEEE Transactions on Visualization and Computer Graphics上。