張偉 天津商業(yè)大學(xué)資產(chǎn)設(shè)備管理處
全景(Panorama)一詞源于希臘,其含義是“都能看見”。廣義上講,全景是指視角超過人類正常視角范圍的圖像。早在19世紀(jì)中期,全景相機(jī)就已經(jīng)出現(xiàn),但受到當(dāng)時(shí)技術(shù)水平的限制,早期全景相機(jī)存在體積笨重、操作不便、記錄媒介和光機(jī)系統(tǒng)不完善等諸多工藝和技術(shù)問題。進(jìn)入21世紀(jì)后,隨著數(shù)字媒體、網(wǎng)絡(luò)通信等相關(guān)技術(shù)的飛速發(fā)展,全景技術(shù)也取得了極大的進(jìn)步,現(xiàn)已成為虛擬現(xiàn)實(shí)技術(shù)的重要研究方向和熱門應(yīng)用領(lǐng)域。
近幾年,隨著互聯(lián)網(wǎng)巨頭YouTube、Facebook相繼開通360度視頻內(nèi)容體驗(yàn)平臺(tái),使得以沉浸性、真實(shí)性、趣味性為顯著特征的全景技術(shù)受到越來越多人的關(guān)注和喜愛。
根據(jù)場景設(shè)計(jì)和實(shí)現(xiàn)方式不同,全景視頻開發(fā)通常分為兩種[1]:一種稱為虛擬現(xiàn)實(shí)視頻(VR視頻),是一種基于計(jì)算機(jī)圖形學(xué)的純虛擬CG制作形式,先用Maya、Rhino3D、Blender等三維軟件完成三維建模,再用Unity、Unreal等游戲引擎完成交互場景搭建和交互任務(wù)的設(shè)計(jì)等工作;另一種稱為360度全景視頻,取景范圍通常為水平360度、垂直180度,由相機(jī)陣列或一體式全景相機(jī)對真實(shí)場景以圖片或視頻方式進(jìn)行多角度環(huán)視采集,支持多角度播放和輕度互動(dòng)體驗(yàn),觀看效果就像體驗(yàn)者站在空心球內(nèi)部觀看球體內(nèi)表面上的實(shí)景畫面。
目 前,基于全景技術(shù)的360度視頻形式主要有三種:360度2D視頻(普通2D視頻的水平360度、垂直180度環(huán)繞)、360度3D視頻(特定視角范圍內(nèi)具有動(dòng)態(tài)景深信息的三維立體視頻)、360度3D體式視頻(也叫體三維視頻,是將光場攝像機(jī)采集到的光線色彩、光線強(qiáng)度以及不同角度射入的光線信息,通過特殊算法進(jìn)行分析運(yùn)算、逆向建模,進(jìn)而還原出真實(shí)三維環(huán)境模型的技術(shù))。本文主要研究360度2D視頻(以下簡稱全景視頻)。
作為一種虛擬現(xiàn)實(shí)呈現(xiàn)技術(shù),全景視頻與VR視頻有許多相似之處,比如全方位可見、適度的交互性、較強(qiáng)的沉浸感等,但二者又有本質(zhì)的區(qū)別,具體如表1所示:
表1 全景視頻與VR視頻區(qū)別對比
通常來講,完整的全景視頻技術(shù)架構(gòu)主要有全景采集、拼接縫合、投影變換、編碼壓縮、傳輸分發(fā)五大環(huán)節(jié)。
與常規(guī)視頻拍攝不同,全景視頻的采集通常需要專用全景相機(jī)進(jìn)行采集,比如通過廣角相機(jī)陣列、立體相機(jī)組、光場相機(jī)陣列等采集設(shè)備來對應(yīng)實(shí)現(xiàn)360度2D視頻、360度3D視頻和360度3D體式視頻的內(nèi)容記錄。
目前,專業(yè)級(jí)全景拍攝設(shè)備主要有以Jump、Odyssey為代表的GoPro陣列、以NextVR、Upano J2VR、Manifold為代表的Red陣列和以Jaunt VR NEO、Nokia OZO為代表的一體化全景視頻前端采集產(chǎn)品;民用級(jí)全景拍攝設(shè)備主要有Insta360、GoPro Omni、三星Gear360等。以Facebook最新專業(yè)級(jí)產(chǎn)品Manifold為例,已經(jīng)可以實(shí)現(xiàn)16臺(tái)RED攝像機(jī)陣列在真實(shí)場景六自由度(X、Y、Z、三個(gè)直角坐標(biāo)軸方向的移動(dòng)自由度和繞這三個(gè)坐標(biāo)軸的轉(zhuǎn)動(dòng)自由度)上8K@60fps級(jí)別的全景采集。
另外,要得到優(yōu)質(zhì)的球型全景源視頻素材,還需要對全景相機(jī)進(jìn)行特殊調(diào)校,以克服每部相機(jī)在參數(shù)標(biāo)定、位置排列、角度調(diào)整、同步采集等方面存在的問題。
前期全景采集圖像通常具有拍攝角度不同、拍攝圖像重疊且不在同一投影平面上等特點(diǎn),因此,必須要完成對各路圖像的圖像配準(zhǔn)和圖像合成處理。
圖像配準(zhǔn)的精準(zhǔn)程度直接決定了全景圖像的拼接效率和質(zhì)量,而最影響圖像配準(zhǔn)效率的環(huán)節(jié)是關(guān)鍵點(diǎn)檢測和圖像匹配。目前主要有兩類配準(zhǔn)算法:全局灰度算法(如光流法、灰度模板)和特征點(diǎn)提取算法,其中尤其以特征點(diǎn)匹配算法中的SIFT特征點(diǎn)檢測法及其簡化算法(如SURF、FAST、ORB)最為熱門;圖像合成則主要解決畫面拼接問題,包括投影到球面模型之前二維重疊圖像的畸變校正拼接和投影到球面模型之后三維球面圖像的投影變換拼接兩部分。
投影主要解決拼接縫合后的三維球型畫面向二維矩形平面的視角變換,以便于后期編碼、分發(fā)和存儲(chǔ)。目前,常見的投影轉(zhuǎn)換技術(shù)主要有兩大類:視角依賴型和視角不依賴型[2]。
前者只保證用戶觀看視角內(nèi)局部畫面內(nèi)容的高質(zhì)量呈現(xiàn),對視角外畫面內(nèi)容則通過降低分辨率、碼率等方式來達(dá)到總體數(shù)據(jù)量減少的目的;后者則會(huì)將球型視頻全部畫面內(nèi)容同等質(zhì)量地投影到平面上,典型代表是目前應(yīng)用最廣泛的矩形映射(ERP)方式。這是一種最早應(yīng)用于地圖繪制領(lǐng)域的投影方式,該技術(shù)通過將三維球型的經(jīng)線映射為恒定間距的垂直線,將緯線映射為恒定間距的水平線,最終完成球型畫面向畫幅比為2:1的二維平面矩形圖的轉(zhuǎn)變。目前Facebook、YouTube、優(yōu)酷、愛奇藝等內(nèi)容平臺(tái)均以這種投影方式為主。
二類轉(zhuǎn)換技術(shù)的主要區(qū)別如表2[3]所示。
表2 二類轉(zhuǎn)換技術(shù)的主要區(qū)別
由于全景視頻在采集方式、投影轉(zhuǎn)換、分辨率、幀速率等方面發(fā)生的巨大變化,以HEVC、AVS2、VP9等為代表的傳統(tǒng)視頻編碼技術(shù)對于全景視頻的處理效果并不理想,需針對其特點(diǎn)進(jìn)行編碼優(yōu)化,進(jìn)而有效降低信息數(shù)據(jù)量,節(jié)省存儲(chǔ)空間和網(wǎng)絡(luò)傳輸帶寬[4]。
目前,針對全景視頻的下一代主流編碼有VVC/H.266、AVS3、AV1三種。
VVC/H.266(Versatile Video Coding)是由聯(lián)合視頻研究組(JVET,由ITU-T/VCEG和ISO-IEC/MPEG兩大組織聯(lián)合組成)于2018年4月正式命名的新一代視頻編碼標(biāo)準(zhǔn),主要目標(biāo)是改進(jìn)現(xiàn)有HEVC/H.265標(biāo)準(zhǔn),并針對新興應(yīng)用(全景視頻、HDR、VR、8K等)進(jìn)行優(yōu)化調(diào)整,實(shí)現(xiàn)更高的壓縮效率。該標(biāo)準(zhǔn)依然沿用傳統(tǒng)基于塊的混合編碼結(jié)構(gòu),對塊劃分結(jié)構(gòu)、預(yù)測方式、系數(shù)變換等方面進(jìn)行了較大改進(jìn),預(yù)計(jì)在2020年之前完成。
AVS3是我國廣電領(lǐng)域最新一代具有完全自主知識(shí)產(chǎn)權(quán)的數(shù)字音視頻編碼標(biāo)準(zhǔn),由原有AVS、AVS+、AVS2標(biāo)準(zhǔn)發(fā)展而來,目標(biāo)是繼續(xù)提升傳統(tǒng)混合編碼框架的性能,實(shí)現(xiàn)比現(xiàn)有超高清標(biāo)準(zhǔn)AVS2提升一倍以上編碼效率,主要應(yīng)用方向包括面向移動(dòng)媒體的輕量編碼、面向視頻間冗余和云計(jì)算環(huán)境的云編碼、面向神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)等新型領(lǐng)域。目前,AVS3第一階段成果主要是實(shí)現(xiàn)編碼復(fù)雜程度和效率轉(zhuǎn)換的平衡, 預(yù)計(jì)在2019年8月發(fā)布。
AV1的前身是Google的開源編碼標(biāo)準(zhǔn)VP9,該標(biāo)準(zhǔn)由行業(yè)聯(lián)合體開放媒體聯(lián)盟(Alliance for Open Media)開發(fā)和維護(hù),是一種完全開放的、免專利稅的視頻編碼標(biāo)準(zhǔn)。2018年6月正式推出以來,憑借其傳輸質(zhì)量高、網(wǎng)絡(luò)適應(yīng)性好、硬件要求低、完全免費(fèi)等極具競爭力的優(yōu)點(diǎn),已得到Y(jié)ouTube、Netflix、Amazon等互聯(lián)網(wǎng)巨頭的積極響應(yīng)。
全景視頻海量數(shù)據(jù)的高質(zhì)量傳輸對網(wǎng)絡(luò)帶寬、實(shí)時(shí)性能和終端解碼等方面都提出了巨大挑戰(zhàn)。對應(yīng)投影轉(zhuǎn)換技術(shù),全景視頻傳輸方法可分為全視角傳輸和視角自適應(yīng)傳輸兩大類。其中,后者通過動(dòng)態(tài)自適應(yīng)流媒體技術(shù)有效解決了全景視頻的帶寬資源浪費(fèi)、延時(shí)丟包等關(guān)鍵問題,已經(jīng)成為目前全景視頻傳輸?shù)闹饕鉀Q方案,常見傳輸協(xié)議有HLS、DASH、MMT等。
HLS(HTTP Live Streaming)最早由蘋果公司提出,其大致原理是將整個(gè)視頻流分成許多基于HTTP協(xié)議的碎片文件來下載,每次觀看時(shí)只下載緩存一部分,具有可靠性高、適應(yīng)性強(qiáng)、可控性好等優(yōu)點(diǎn),可輕松實(shí)現(xiàn)網(wǎng)絡(luò)直播和點(diǎn)播;缺點(diǎn)是實(shí)時(shí)性較差、視頻切片太小造成碎片增多而影響觀看體驗(yàn);
DASH(Dynamic Adaptive Streaming over HTT-P)和MMT(MPEG media transport)是基于全向媒體格式(Omnidirectional Media Format,OMAF)框架下提出的兩種傳輸協(xié)議,除傳輸架構(gòu)不同外,二者均采用高碼率保證主視角畫面質(zhì)量,對主視角外其他畫面采用低碼率進(jìn)行傳輸和存儲(chǔ)[5]。與HLS協(xié)議所不同是,DASH/MMT協(xié)議不會(huì)按一種分辨率或編碼進(jìn)行切片,而是保存多種不同規(guī)格的版本。這樣,用戶觀看時(shí)就可以根據(jù)網(wǎng)絡(luò)帶寬的變化動(dòng)態(tài)切換到與帶寬匹配的特定分辨率或編碼畫面,能夠有效改善畫面卡頓、緩沖時(shí)間過長等情況,提供更高質(zhì)量的觀看體驗(yàn)。
作為虛擬現(xiàn)實(shí)領(lǐng)域的重要分支,全景視頻以其獨(dú)特的真實(shí)性、沉浸性和易用性,為影像創(chuàng)作者提供了一種全新的敘事手法,同時(shí)也為觀影者提供了一種前所未有的觀影體驗(yàn)。就目前而言,全景視頻雖算不上真正完整的VR體驗(yàn),但眼下全景視頻在全球范圍內(nèi)如火如荼的發(fā)展趨勢,至少也為迎接真正VR時(shí)代的到來提供了豐富的內(nèi)容補(bǔ)充和龐大的用戶基礎(chǔ),相信不久的將來,我們一定能夠真正感受到科技給我們帶來的超現(xiàn)實(shí)體驗(yàn)。