宋克凡
哈爾濱師范大學(xué)附屬中學(xué),黑龍江哈爾濱 150080
全息視頻會議研究
宋克凡
哈爾濱師范大學(xué)附屬中學(xué),黑龍江哈爾濱 150080
目的:不同于現(xiàn)有3D視頻和3D模擬會議室,通過實現(xiàn)3D虛擬對面視頻通話,該方法增加通過互聯(lián)網(wǎng)遠程聯(lián)系的對象之間交流的親密性以及視頻清晰度。方法:結(jié)合增強現(xiàn)實頭戴設(shè)備及3D遠程拍攝裝置。結(jié)果:可實現(xiàn)虛擬3D視頻會議。
全息投影;3D視頻會議;增強現(xiàn)實
現(xiàn)實生活中,人們之間交流的最主要且最重要的方式為語音通話。人們可以依此直觀快速的表達觀點傳遞信息。然而視頻通話先已因互聯(lián)網(wǎng)設(shè)備的普及而助手可得,卻遲遲未成為主流通訊方式,不僅僅因為所需數(shù)據(jù)流量較多(大多數(shù)固定生活地點覆蓋wifi),因為通話者周圍環(huán)境可能涉及隱私,亦或是視頻通話時所傳遞的信息并不比語音通話所傳遞的顯著增多,且最主要的是與通話是手機貼近耳朵不同,遠程視頻通話無法給使用者顯示出距離感,大多數(shù)人們通過手機大小的平面屏幕觀看一個活動幅度較小的動態(tài)頭像。而人類之間交流很主要的一個元素即為領(lǐng)地意識,通過個體之間的距離,或是身體的傾向,可以潛移默化的影響人們之間關(guān)系的疏密。而普通視頻通話拉近距離時僅能在一個距離使用者任意距離的小屏幕上看到一個被扭曲的面孔,更無法實現(xiàn)握手甚至擁抱等等的肢體交流。因此在一些人們之間關(guān)系需要強烈緊密交織的場景,譬如商業(yè)談判或是朋友聚會,愛人之間的約會,都需要正式的,線下的接觸與交流,只為獲得更多直觀的細節(jié)。
大量實驗證明3D的交流可以更加全面完整的模擬人們?nèi)粘5娜穗H交往,因此可以使聊天者獲得更高的使用滿意度。基于此,實現(xiàn)全真模擬先下交流的工具急需研發(fā)。
2.1 3D拍攝方法
人類視覺系統(tǒng)主要通過兩種方式實現(xiàn)3D識別,其一為物體或視角的移動,此方式為大多數(shù)共有,甚至部分動物僅能識別運動的物體進而感知深度。但依賴這種方式僅能獲取大致的位置信息,并且物體的大小很難有直觀的判斷。并且人們在視頻通話當(dāng)中身體的移動幅度不大,同時缺乏其他運動物體以相對比較,因此在2D屏幕之下視頻時,人們很難將這些信息完美的在大腦中還原成立體影像,影響通話的真實性。另一種3D識別方式即為雙目視覺,通過兩只眼睛在不同角度獲取圖像,人類的大腦可以通過比對這兩組圖像之間的差異直接感知深度,利用三角法確定物體相對自身的大小,且可以獲取更加豐富的信息以合成3D模型。
然而因目前3D掃描技術(shù)扔很難實現(xiàn)實時的對動態(tài)對象的掃描。多個攝像機同步實時建模的運算量過大,普通的個人計算設(shè)備只能靠大幅度降低清晰度和幀數(shù)以實現(xiàn),無法增強原有2D視頻的用戶體驗。雖然可以使用單一攝像機利用運動識別3D的原理進行掃描建模以減少數(shù)據(jù)總量,但依靠運動速度建模也遠遠達不到實現(xiàn)幀數(shù)正常的視頻通話。如若本系統(tǒng)僅利用立體攝像機而非多攝像頭的3D掃描儀,同于觀看實時的3D電影,因此可以巧妙的避免計算機的巨大運算量,而利用人腦合成最終的3D影像。
僅使用兩個攝像頭,一左一右平行放置,距離接近正常人瞳距的平均值,而攝像頭視角也應(yīng)接近人類視角水平120°,垂直60°以保證圖像始終在視野范圍之內(nèi)。應(yīng)實現(xiàn)可以將左眼正常做看到的周圍環(huán)境完全覆蓋掉,而顯示此錄像設(shè)備的左側(cè)攝像機畫面,而右眼所應(yīng)看到的畫面也可被相應(yīng)的攝像機所取代,相當(dāng)于將兩只眼睛遠程移動到了攝像機的位置,因此可以看到真切的圖像。
2.2 3D顯示方法
顯示端雖然可以使用任何3D顯示器,但大多都有較為嚴重的缺點。裸眼3D:立體效果不佳,像素密度大多不是很高,且觀看者不可以大幅度的左右移動,也對觀看距離有所限制,以上特點是使用者位置過于固定,很有可能阻礙通常交流的正常進行。普通偏振3D顯示器以及互補色式3D(anaglyphic 3D):不僅需要佩戴透光率較低的眼鏡,而且所看到對象的大小需要依賴屏幕的大小而決定,還原1:1比例的人所需的屏幕大小因現(xiàn)有3D屏幕大多非透明,只能使用大于對象大小的屏幕實現(xiàn)立體效果融入到周圍環(huán)境,不然透過一個較小的屏幕觀看將擋住周圍大部分環(huán)境信息以實現(xiàn)3D面對面通話效果,而且攝像機的擺放位置也較為尷尬,只能放置在不被屏幕遮擋的視線之內(nèi),而放置于屏幕與觀看者之間不僅會擋住用戶觀看屏幕的視線,而且會使拍攝距離比顯示距離近,此時對方如果需要還原同樣大小的對象,則需要使用更廣闊的屏幕來放大人物以拉近距離,況且在多人通話時需要更多塊屏幕以同時顯示所有人物,成本以及便攜性都將限制這種方式的實施。全息投影:大多數(shù)技術(shù)對顏色還原的并不真實,而且至今只有亞利桑那州大學(xué)的研究人員實現(xiàn)了實時錄制以及顯示,但幀數(shù)僅為0.5,即每兩秒鐘顯示一張靜態(tài)圖像,技術(shù)過于不成熟無法量產(chǎn)以及投入實際應(yīng)用。虛擬現(xiàn)實頭戴設(shè)備:雖可以完美顯示對方3D環(huán)境,或是顯示對方融入己方周圍環(huán)境之后的影像,但因需要佩戴較為笨重且不透明的眼鏡,致使對方無法看到佩戴著的雙眼以及臉部大部分細節(jié),嚴重阻礙了視頻是的良好體驗以及人們之間面對面交流的直觀性和流暢性??紤]到以上幾點問題,本系統(tǒng)使用增強現(xiàn)實眼鏡以在顯示任意大小3D效果的同時透明鏡片保證了面部表情的有效識別。所述增強顯示眼鏡為Moverio BT-200或Holo lens類裝配可以完全覆蓋雙眼視角的透明顯示屏。
2.3 3D通話的模式
基于以上設(shè)備:雙目視覺攝像頭,增強現(xiàn)實眼鏡,可以直接實現(xiàn)3D通話,僅需要將左右眼鏡片分別顯示兩個攝像機所拍攝下的畫面即可。但是這種方式有重大的問題:對方的背景與自身的背景將會有重合:兩種解決方式:將對方畫面通過云計算等方式從單一的角度建立片面的,部分的3D模型,再分析出人物的位置與畫面顯示其3D的畫面,但這種方式雖然較3D掃面節(jié)省部分資源,但所需的成本依然很高,且畫面不清晰。而可以利用intel 的realsense 技術(shù),調(diào)用其SDK中通過雙攝像頭拍攝去背景的功能,再將兩個均被去掉背景的畫面分別顯示到鏡片之上,即可完美的實現(xiàn)遠程與單一的某一個或多個3D人物對話。
同時也可以利用增強顯示眼鏡內(nèi)置陀螺儀檢測頭部運動,以此將對方的畫面虛擬的固定在生活環(huán)境之中的某一個特定的位置,當(dāng)頭部并未直視那個方向是對方的畫面即可隱出。用此方式可以實現(xiàn)在一個空無一人的圓桌上依次顯示出每一個對話者的虛擬的全息圖像,從而達到模擬線下對話的目的。
2.4 立體聲音
為達到更好的模擬效果,可以在攝像頭端配置雙麥克風(fēng),用以錄制立體音效并通過耳機用以識別人物位置,或在轉(zhuǎn)動頭部時產(chǎn)生左右耳時間差模擬出聲源的相反移動,以產(chǎn)生對話人物沒有隨頭戴設(shè)備的移動變動位置的效果。
而因為耳機本身即為兩個輸出源,覆蓋在雙耳表面以達到生成任何方位聲響的功能。
2.5 使用方式
通過利用realsense 去背景程序遠程視頻聊天API,以及增強現(xiàn)實顯示設(shè)備顯示視頻(含音頻)API以及三軸陀螺儀的調(diào)用接口,即可實現(xiàn)全息多人3D視頻通話。
此系統(tǒng)暫時實現(xiàn)了僅可以看到對方正面的三體成像,不過可以依靠三軸陀螺儀傳遞的頭部轉(zhuǎn)動信息水平的切換頭戴設(shè)備中顯示的聯(lián)系人,且可以使對方的影響虛擬的固定在一個位置,雖然在電腦中并未形成對話者的3D模型,但是想要拉近對方的影像可以簡便的依靠單純的放大縮小畫面。因在放大對方畫面的時候錄制對方的雙目視覺攝像機之間的距離也相應(yīng)改變,并不會出現(xiàn)縮小三維成像(HYPO STEREO),或放大三維成像(HYPER STEREO)因瞳距與事物之間比例失調(diào)而形成的成像失真。
上述系統(tǒng)與理想的全息會議還是有一定的出入,人物的虛擬影像在現(xiàn)實中的位置應(yīng)該是固定的,不隨另一個觀察者的移動而改變。雖然此系統(tǒng)可以通過陀螺儀和加速器調(diào)試實現(xiàn)令對方坐在自己環(huán)境中的凳子之上,但在大致前后移動的過程之中,人物的距離感僅可以通過放大縮小來實現(xiàn),而在做圍繞椅子運動的方向上,對方只能繼續(xù)顯示正臉的畫面,并使這個畫面一直以椅子的豎直方向為軸,面對觀看者旋轉(zhuǎn)。這種體驗并不能夠完全達到理想的模擬效果。但是可以使用無人機等設(shè)備作為平臺,搭載雙目視覺攝像機,遠程接受對方的移動信息,并同步的做出模擬。因此可以在人腦的高度做出與觀看者頭部同一的運動軌跡,因此即可達到幾近完美的模擬線下交流體驗,未來甚至可以佩戴虛擬現(xiàn)實觸感手套或服裝以實現(xiàn)與同伴握手擁抱等真切的肢體動作。屆時,當(dāng)此系統(tǒng)大量滲透到公司個人的日常工作生活之中的時候,人們便沒有什么理由交通,那時我們不僅僅可以遠程的傳送文件和資料,還可以通過互聯(lián)網(wǎng)瞬時傳送一個真實的人到任何地方。
[1]Fahle,M (1987).”Wozu zwei Augen? [Why two eyes?]”.Naturwissenschaften 74:383–385. Bibcode:1987NW.....74..383F. doi:10.1007/BF00405466.
[2]Rolland,Jannick; Baillott,Yohan; Goon,Alexei.A Survey of Tracking Technology for Virtual Environments,Center for Research and Education in Optics and Lasers,University of Central Florida.
[3]US Pat. 4295153,retrieved Jan 17,2011 (anaglyphic 3D).
[4]http://www.intel.com/content/www/us/en/ architecture-and-technology/realsense-overview.html (realsense ).
[5]GB patent 394325,Alan Dower Blumlein,”Improvements in and relating to Soundtransmission,Sound-recording and Sound-reproducing Systems.”,issued 1933-06-14,assigned to Alan Dower Blumlein and Musical Industries,Limited
[6]Stereo Realist Manual.
TP3
A
1674-6708(2015)142-0117-02