周忠 孟明 周頤
虛擬現(xiàn)實(VR)是一個新興的科學(xué)技術(shù)領(lǐng)域,該技術(shù)建立人工構(gòu)造的三維虛擬環(huán)境,用戶以自然的方式與虛擬環(huán)境中的物體進行交互,極大地擴展了人類認(rèn)識、模擬和適應(yīng)世界的能力。
虛實融合(MR)技術(shù)將虛擬環(huán)境與真實環(huán)境進行匹配合成,降低了三維建模的工作量,并借助真實場景及實物提高用戶的體驗感和可信度。隨著當(dāng)前視頻圖像的普及,MR技術(shù)的探討與研究更是受到關(guān)注。
視頻融合技術(shù)利用已有的視頻圖像,將它們?nèi)诤系饺S虛擬環(huán)境中,可以實現(xiàn)具有統(tǒng)一性的、深度的視頻集成。該技術(shù)最早可追溯到1996年P(guān)aul Debevec[1]提出的一種視點相關(guān)的紋理混合方法,即實現(xiàn)了不在相機視點的真實感漫游效果,但仍在很多方面存在難點。
1 MR的技術(shù)特點
現(xiàn)在業(yè)內(nèi)普遍認(rèn)可從真實世界到虛擬環(huán)境中間經(jīng)過了增強現(xiàn)實與增強虛擬環(huán)境這兩類VR增強技術(shù)[2],混合現(xiàn)實則是包含這兩類技術(shù)及其融合。
增強現(xiàn)實技術(shù)與增強虛擬環(huán)境技術(shù),可分別形象地描述為“實中有虛”和“虛中有實”。增強現(xiàn)實技術(shù)通過運動相機或可穿戴顯示裝置的實時連續(xù)標(biāo)定,將三維虛擬對象穩(wěn)定一致地投影到用戶視口。增強虛擬環(huán)境技術(shù)通過相機或投影裝置的事先或?qū)崟r標(biāo)定,提取真實對象的二維動態(tài)圖像或三維表面信息,實時將對象圖像區(qū)域或三維表面融合到虛擬環(huán)境中。兩項技術(shù)的MR方式如圖1和圖2所示,圖中虛線對象代表虛擬環(huán)境對象,實線對象代表真實對象或其圖像。
隨著VR技術(shù)的發(fā)展,其與現(xiàn)實世界正趨向于深度融合,一些技術(shù)開始兼具“虛中有實”和“實中有虛”這兩種模式。20世紀(jì)70年代電影《星球大戰(zhàn)》中展示的全息甲板是科幻中的終極理想狀態(tài),但U.C.Berkeley提出的Tele-immersion遠(yuǎn)程沉浸系統(tǒng)、微軟的Holoportation、Magic Leap所設(shè)計的光場頭盔顯示原型等已經(jīng)具備了這種深度MR特點。
2 視頻融合技術(shù)分類
早期的視頻融合技術(shù)只能做到將圖片向地面或簡單立面映射,現(xiàn)在的新技術(shù)則已經(jīng)能夠快速將視頻實時地映射到復(fù)雜的三維模型上。根據(jù)實現(xiàn)MR的維度不同,可將相關(guān)方法分為4類:視頻標(biāo)簽地圖、視頻圖像拼接、視頻疊加到三維場景,視頻融合到三維場景。需要說明的是:這些技術(shù)針對的是易于獲取的普通攝像頭視頻,F(xiàn)reeD等基于多視圖幾何的三維重建方法不在討論中。
2.1 視頻標(biāo)簽地圖
基于視頻監(jiān)測控制對于多地點視頻有效組織的需求,采用視頻標(biāo)簽與地圖的索引集成,實現(xiàn)在地圖上放置和觀看視頻。美國FX Palo Alto實驗室、美國三菱電機研究所、韓國電子通信研究院和法國原子能署CEA LIST等機構(gòu)在該方面開展了工作。
美國FX Palo Alto實驗室提出了用于室內(nèi)的多相機實時監(jiān)測控制系統(tǒng),動態(tài)物體跟蹤系統(tǒng)(DOTS)[3],該系統(tǒng)通過對平面設(shè)計圖的特征分割,獲得系統(tǒng)中視頻與位置信息的關(guān)聯(lián),直接向用戶提供一種視頻分析結(jié)果的展示手段。美國三菱電機研究所MERL的Ivanov等也實現(xiàn)了用于室內(nèi)居住環(huán)境可視化的類似系統(tǒng),通過加入運動傳感數(shù)據(jù)等信息,為建筑系統(tǒng)的設(shè)計人員和管理人員提供整棟樓的上下文信息[4]。視頻標(biāo)簽索引的融合方法除了用于監(jiān)測控制系統(tǒng),還廣泛應(yīng)用于地理信息系統(tǒng)(GIS),它們通過建立提取的視頻內(nèi)容與數(shù)據(jù)庫中GIS數(shù)據(jù)的對應(yīng)關(guān)系,進行視頻與GIS的融合。韓國電子通信研究院的Tae-Hyun Hwang等基于這個思想,將視頻和虛擬場景中的meta元素提出,建立了基于meta元素的視頻與GIS系統(tǒng)的關(guān)聯(lián)[5],通過簡單的點擊地圖查詢即可在手機上直接訪問視頻。此外,法國原子能署CEA LIST的Gay-Bellile等通過增強現(xiàn)實AR和相機追蹤的方式建立了實時視頻與2D GIS的關(guān)聯(lián)[6]。
2.2 視頻圖像拼接
視頻圖像拼接是指將空間上可配準(zhǔn)、相互之間具有足夠重疊區(qū)域的圖像序列經(jīng)過特征對齊、空間變換、重采樣和拼接合成之后形成寬視角甚至全景圖像的方法。經(jīng)過數(shù)十年的發(fā)展,圖像拼接算法目前已經(jīng)比較成熟,全景相機出現(xiàn)了低成本、消費級的特點,利用魚眼相機來降低對相機數(shù)量的要求,達(dá)到小型化成為新的“爆點”。圖像拼接主要針對的是窄基線相機圖像序列,寬基線相機不具備統(tǒng)一的單應(yīng)性,特別是遮擋大大影響重疊區(qū)域的匹配,其圖像拼接是目前研究的難點。
2.3 視頻疊加到三維場景
視頻疊加到三維場景的方法以2D和3D特征注冊為基礎(chǔ)進行虛實融合,允許用戶在相機視點的轉(zhuǎn)移路徑上觀看疊加的結(jié)果,其效果優(yōu)于視頻標(biāo)簽地圖方法。
塞爾維亞利茲大學(xué)CG&GIS實驗室中Milosavljevic^等提出基于GIS增強的視頻監(jiān)測控制系統(tǒng),將視頻窗口疊加到3D模型視圖窗口的上方顯示,在3D GIS環(huán)境中建立視頻與空間信息的位置關(guān)聯(lián)[7-8]。美國微軟公司的Snavely等于2006年提出了照片旅游系統(tǒng)[9],該系統(tǒng)利用對互聯(lián)網(wǎng)上照片集的匹配,重構(gòu)一個稀疏的三維點云場景,通過圖像變換的渲染方法進行照片瀏覽。荷蘭代爾夫特理工大學(xué)的Haan等人受到Snavely等共平面視點轉(zhuǎn)移方法的啟發(fā),于2009年面向監(jiān)測控制系統(tǒng)提出了第一人稱式的場景導(dǎo)航方法[10],通過交互地在場景中放置畫布的方法完成視頻的注冊,進而通過動態(tài)視頻嵌入實現(xiàn)導(dǎo)航,緩解了視點移動時視頻間重疊區(qū)域的視覺差異現(xiàn)象。
2.4 視頻融合到三維場景
視頻與三維場景的融合方法,實質(zhì)是將相機捕捉的視頻圖像,以紋理的方式實時注冊到虛擬環(huán)境中,達(dá)到增強虛擬環(huán)境的效果,能夠允許用戶從非相機虛擬視點觀察融合結(jié)果。這種方法比前幾種融合方法在視點可選范圍上進一步擴大,實際上是從另一個角度解決了寬基線相機以及無重疊視域相機的圖像拼接問題。但這類技術(shù)仍會存在一些難以克服的問題。
在IEEE VR 03上,南加州大學(xué)的Ulrich Neumann等人[11]系統(tǒng)闡述了增強虛擬環(huán)境的概念,實現(xiàn)了隨著圖像數(shù)據(jù)變化的動態(tài)三維模型效果,解決了非相機視點下貼圖扭曲現(xiàn)象[12]。在ACM MM 10上,麻省理工學(xué)院的DeCamp等人[13]設(shè)計了一套用于智能家庭的沉浸式系統(tǒng)HouseFly,通過魚眼相機的三維融合,讓用戶可以漫游于掀頂式樓宇。在ISMAR 09上,佐治亞理工學(xué)院Kihwan Kim等[14]提出基于動態(tài)信息增強Google Earth等航拍地球地圖的方法,提出對視頻進行分類處理和增強顯示的方法。2012年國立臺灣大學(xué)的Chen等人[15]建立了GIS輔助的可視化框架,融入了多分辨率監(jiān)測控制策略,以固定視角的相機提供低分辨圖像,球基相機根據(jù)用戶交互提供興趣區(qū)的高分辨圖像。endprint
3 MR技術(shù)進展
近幾年,我們在這方面開展了一系列工作,主要特色是將圖片建模技術(shù)用到MR中,以得到準(zhǔn)確的虛實對齊效果。其中圖片建模技術(shù)是利用二維圖片恢復(fù)場景三維結(jié)構(gòu)的數(shù)學(xué)過程和計算技術(shù),這一技術(shù)能夠很容易地達(dá)到虛實融合過程中對三維模型精度的高要求,克服了視頻投影本身帶來的二三維深度不匹配問題。
3.1 基于圖片建模的視頻模型
該方法的核心部分是一種快速建模視頻背景的交互式方法,使用體元和場景樹來描述圖像中各點之間的建模關(guān)系,首先針對單幅圖像,在圖像幾何分析的預(yù)處理基礎(chǔ)上,進行圖像與場景模型的三維注冊,然后提出了一種體元的定義,支持交互式的方式進行基本幾何結(jié)構(gòu)的恢復(fù),實現(xiàn)單幅圖像場景的視頻模型生成。場景樹結(jié)構(gòu)示意如圖3所示。
監(jiān)測控制場景中存在大量相機視頻區(qū)域重疊度很小的情況,現(xiàn)有基于多視圖的建模方法不能適用。進一步針對低重疊度圖像序列,使用點線聯(lián)合的匹配方法進行新圖像與現(xiàn)有視頻模型的注冊,用戶可以進一步進行新圖像場景的結(jié)構(gòu)建模,最終鏈?zhǔn)降仄ヅ浜妥愿嗟膱D像場景結(jié)構(gòu),如圖4所示。
在此基礎(chǔ)上,我們定義了一種基于單幅照片建模生成的視頻模型,它描述了該照片對應(yīng)的三維幾何結(jié)構(gòu),可以供二次開發(fā)使用。
3.2 基于視頻模型的MR方法
我們提出了基于視頻模型的MR方法,針對每個視頻創(chuàng)建對應(yīng)的視頻模型[16],然后通過紋理投影[17]和陰影投影方法將視頻與其模型進行融合。方法整體流程如圖5所示,分為兩個階段:(1)預(yù)處理階段。提取視頻的背景幀進行交互式建模,得到簡單的視頻模型,然后與三維場景模型進行注冊;(2)在線階段。該階段與直接投影的融合方法類似,但不再執(zhí)行遮擋測試。
3.3 MR場景中的自動路徑規(guī)劃方法
由于MR中視頻中的動態(tài)物體并未三維化,這類技術(shù)不可避免存在偏離原視點會出現(xiàn)畫面畸變的現(xiàn)象。研究視點變化與畫面畸變之間的關(guān)系,我們給出了一種基于視頻投影中的畫面畸變的視點質(zhì)量評價方法,進一步提出了一種MR場景中的自動路徑規(guī)劃方法,來盡量減少畸變現(xiàn)象。
3.4 支持大規(guī)模視頻融合的視頻
監(jiān)測控制
以上技術(shù)被應(yīng)用于支持大規(guī)模視頻融合的視頻監(jiān)測控制,如圖6所示,各建筑模型是手工建模得到的精細(xì)模型,視錐區(qū)域是視頻模型。通過空間劃分和瓦片關(guān)聯(lián),可以很容易地擴展到大規(guī)模的視頻模型場景。
4 展望
隨著視頻監(jiān)測控制在公共安全、交通等領(lǐng)域的廣泛應(yīng)用,多相機監(jiān)測控制網(wǎng)絡(luò)中相機數(shù)量日益增多,MR技術(shù)將現(xiàn)實世界中大量的相機視頻進行整合,提供與真實世界具有幾何結(jié)構(gòu)一致性的統(tǒng)一視圖,解決的是人類“認(rèn)知”的問題。另一方面,實際上不同位置的相機在內(nèi)容上也很難關(guān)聯(lián)分析,對于計算機的智能分析能力也帶來了巨大的挑戰(zhàn),這同樣需要MR的信息支持。
在MR技術(shù)的基礎(chǔ)上,我們正在研究多相機拓?fù)渲械膸缀?語義聯(lián)合理解與關(guān)聯(lián)問題,研究并實現(xiàn)了一種基于幾何-語義結(jié)構(gòu)分析的多相機場景拓?fù)溥B通圖的構(gòu)建方法。以多相機拍攝的監(jiān)測控制視頻為輸入,如圖7所示,解析相機圖像的語義信息與基本幾何結(jié)構(gòu),通過分析目標(biāo)在不同相機之間的轉(zhuǎn)移狀態(tài),計算各相機區(qū)域之間的連通概率,從而建立多相機間的拓?fù)溥B通圖。
圖8中展示了使用我們的算法在Duke[18]數(shù)據(jù)集上恢復(fù)出的相機拓?fù)溥B通圖,各視頻圖像和地圖上對應(yīng)的語義區(qū)域進行對齊,和原始場景中的拓?fù)溥B通關(guān)系相符。這種細(xì)粒度的相機視頻融合方式可以很容易地作為一個地圖圖層推廣到大規(guī)模GIS系統(tǒng)中,可以從根本上解決現(xiàn)有的海量視頻碎片化問題。
MR技術(shù)正在快速發(fā)展中,這種虛實信息的可視關(guān)聯(lián)對于人類認(rèn)知和人工智能都已表現(xiàn)出顯著的提升作用,未來作為一種基礎(chǔ)的地理信息資源來提供,有著重要的發(fā)展意義。
參考文獻(xiàn)
[1] DEBEVEC P E, TAYLOR C J, MALIK J. Modeling and Rendering Architecture from Photographs: A Hybrid Geometry-and Image-Based Approach[C]//Proceedings of the Annual Conference on Computer Graphics and Interactive Techniques. USA: ACM, 1996:11-20. DOI: 10.1145/237170.237191
[2] AZUMA R, BAILLOT Y, BEHRINGER R, et al. Recent Advances in Augmented Reality[J]. Computer Graphics and Applications, 2001, (21): 34-47
[3] GIRGENSOHN F, SHIPMAN T, TURNER, et al. Wilcox, Effects of Presenting Geographic Context on Tracking Activity Between Cameras[C]//Conference on Human Factors in Computing Systems. USA: California, 2007:1167-1176
[4] IVANOV Y, WREN C, SOROKIN A, et al. Visualizing the History of Living Spaces[J]. IEEE Transactions on Visualization and Computer Graphics, 2007, 13(6):1153-1160.DOI: 10.1109/TVCG.2007.70621
[5] HWANG T H, CHOI K H, JOOL I H, et al. MPEG-7 Metadata for Video-Based GIS
Applications[C]//Proceedings of IEEE International Geoscience and Remote Sensing Symposium. USA: IEEE, 2003, (6): 3641-3643. DOI: 10.1109/IGARSS.2003.1294880
[6] GAY-BELLILE V, LOTHE P, BOURGEOIS S,endprint