董振江,張東卓,黃成,劉海軍
(中興通訊股份有限公司,江蘇 南京 210012)
虛擬現(xiàn)實(shí)視頻處理與傳輸技術(shù)
董振江,張東卓,黃成,劉海軍
(中興通訊股份有限公司,江蘇 南京 210012)
虛擬現(xiàn)實(shí)(VR)是當(dāng)前視頻領(lǐng)域研究熱點(diǎn)。介紹了VR視頻內(nèi)容制作以及終端顯示技術(shù)現(xiàn)狀,分析了基于用戶視點(diǎn)的VR視頻處理關(guān)鍵技術(shù),最后探討了VR視頻傳輸模式及其對(duì)承載網(wǎng)絡(luò)的需求。
虛擬現(xiàn)實(shí);虛擬現(xiàn)實(shí)視頻;投影;區(qū)域封裝;基于視點(diǎn)視頻編碼;全景視頻傳輸
虛擬現(xiàn)實(shí)(virtual reality,VR)因其沉浸感(immersion)、交互性(interaction)和構(gòu)想性(imagination)為人們帶來(lái)了更好的視覺(jué)體驗(yàn)。而VR視頻需要經(jīng)過(guò)內(nèi)容制作、編碼壓縮、網(wǎng)絡(luò)傳輸、終端顯示等多個(gè)環(huán)節(jié)。本文將對(duì)這些環(huán)節(jié)進(jìn)行介紹,并分析基于用戶視點(diǎn)的 VR視頻處理與傳輸關(guān)鍵技術(shù),最后探討 VR視頻業(yè)務(wù)對(duì)承載網(wǎng)絡(luò)的需求。
VR內(nèi)容形態(tài)上包括 VR視頻和 VR CG(computer graphic,計(jì)算機(jī)圖形)兩大類,前者主要是通過(guò)攝像機(jī)拍攝并生成全景(panorama)視頻(單目或雙目),后者主要是通過(guò)計(jì)算機(jī)圖形生成三維模型。本文主要討論前者。
2.1 VR視頻制作
VR視頻生成的方式有兩種:一種是用攝像機(jī)拍攝;另一種是采用CG技術(shù)3D建模生成視頻。
攝像機(jī)拍攝 VR視頻,需要用全景攝像機(jī)即多鏡頭攝像機(jī)拍攝各個(gè)方向的圖像內(nèi)容并進(jìn)行圖像拼接。目前市場(chǎng)上全景攝像機(jī)的鏡頭(含鏡頭后面的成像設(shè)備等)數(shù)量從兩個(gè)到十幾個(gè)不等。如果要生成雙目全景視頻,則每個(gè)方向上至少覆蓋兩個(gè)鏡頭。而有些全景攝像機(jī)還配置了激光雷達(dá)等深度測(cè)量設(shè)備。要生成分辨率更高的 VR視頻,則需要更高分辨率的攝像機(jī)或者更多攝像機(jī)鏡頭。如何降低高分辨率全景相機(jī)的成本也是未來(lái)VR高質(zhì)量視頻內(nèi)容進(jìn)行市場(chǎng)普及的一個(gè)重點(diǎn)問(wèn)題。由VR CG生成的視頻則類似于3D動(dòng)畫(huà)的VR版本,與全景拍攝相比,其最大的優(yōu)勢(shì)是節(jié)奏控制和調(diào)度方便,尤其是輔以各種貼圖、渲染和光效,其視覺(jué)效果經(jīng)常可以以假亂真。在未來(lái),VR視頻內(nèi)容如六自由度視頻和自由視點(diǎn)視頻,可能需要攝像機(jī)拍攝和 CG建模兩種技術(shù)手段的融合使用。
2.1.1 三自由度VR視頻
(1)單目全景視頻
拍攝和拼合出來(lái)的畫(huà)面是一個(gè)球面,球面電影就是一種單目全景(只是缺少下面一小部分),目前在網(wǎng)絡(luò)中多數(shù)VR視頻是單目全景,即左右雙眼看到的內(nèi)容是一致的。這種全景視頻的一個(gè)缺陷就是沒(méi)有立體感,對(duì)事物的距離感體驗(yàn)有缺失。
(2)雙目全景視頻
雙目全景視頻利用雙目視差原理,在 VR頭盔的左右雙眼中呈現(xiàn)具有一定視角差的影像,原理上與3D電影別無(wú)二致。只是在雙目全景視頻的生成過(guò)程中,可以通過(guò)并列雙鏡頭攝像機(jī)拍攝生成,也可以通過(guò)具有深度信息的單鏡頭攝像機(jī)拍攝并通過(guò)深度計(jì)算呈現(xiàn)左右眼視差。
(3)VR180視頻
日前,YouTube和微軟聯(lián)合推出了一種的全新的視頻格式,名為VR180,其相當(dāng)于全景視頻的前面一半,且全景的頂部和底部也進(jìn)行了消減,可在 VR HMD或普通電視/PC屏幕或移動(dòng)端收看。VR180只保留最核心局域,尤其適合觀看現(xiàn)場(chǎng)直播類的 VR內(nèi)容如賽場(chǎng)、演唱會(huì)、會(huì)議、談話節(jié)目等。但是VR180無(wú)法替代需要更強(qiáng)沉浸感的全景/VR視頻。VR180可降低拍攝成本,拍攝簡(jiǎn)便,減少侵權(quán)風(fēng)險(xiǎn),后期或即時(shí)制作更便捷,降低VR內(nèi)容門(mén)檻,促進(jìn)UGC產(chǎn)生。同時(shí),VR180同等分辨率下要求網(wǎng)絡(luò)帶寬低,終端計(jì)算能力低,終端可獲得性高,促進(jìn)了大屏VR業(yè)務(wù)發(fā)展。
總體來(lái)看,VR180是現(xiàn)階段技術(shù)水平限制性的明智務(wù)實(shí)的折中,將促進(jìn)VR內(nèi)容產(chǎn)生。
2.1.2 六自由度VR視頻
自由度(degrees-of-freedom,DoF)表示物體的可移動(dòng)維度,目前多數(shù)VR HMD和VR視頻只支持三自由度,即在特定觀察位置,實(shí)現(xiàn)頭部方位角旋轉(zhuǎn)(yaw)、俯仰角旋轉(zhuǎn)(pitch)和搖擺旋轉(zhuǎn)(roll)。六自由度是在三自由度的基礎(chǔ)上,加上觀看位置的空間變動(dòng):X、Y、Z。
六自由度視頻生成有如下3種方式:光場(chǎng)相機(jī)記錄、3D模型、空間捕捉。
六自由度如果用光場(chǎng)相機(jī)(多個(gè)相機(jī)組成的矩陣)記錄,則流量暴增(對(duì)多角度的視頻壓縮也是一個(gè)巨大的挑戰(zhàn)),且自由觀看的移動(dòng)范圍有限。3D模型中的六自由度,類似于3D游戲中主觀視點(diǎn)和視角的變動(dòng),實(shí)際上屬于VR CG范圍而不是VR視頻范圍,也實(shí)現(xiàn)了自由視點(diǎn)。所謂空間捕捉方式,是前兩種手段的一種融合。在攝像機(jī)拍攝同時(shí)通過(guò)激光雷達(dá)掃描生成四周環(huán)境的3D模型,之后進(jìn)行貼圖??梢砸欢ǔ潭壬细奖憧旖莸厣闪杂啥纫曨l,但它生成的環(huán)境模型基于一個(gè)視點(diǎn),所以3D環(huán)境模型和物體模型有一定的偏差。
盡管六自由度還處于起步階段,但 VR發(fā)展到六自由度是更高沉浸感的未來(lái)必然方向。
2.2 VR視頻顯示
對(duì)于單目全景視頻還有平面顯示、環(huán)幕顯示和球幕顯示方式,但 VR視頻顯示的絕對(duì)主力是VR頭盔(head mounted display,HMD)??傮w看來(lái),VR視頻顯示方面需要優(yōu)化演進(jìn)的包括如下幾個(gè)領(lǐng)域:視聽(tīng)效果,包括顯示分辨率、視場(chǎng)角等;VR HMD的顯示計(jì)算能力;更好的佩戴舒適性和移動(dòng)性。
2.2.1 顯示分辨率
目前 VR HMD最主要的短板在于顯示分辨率。VR HMD顯示分辨率的更準(zhǔn)確定義不是像素?cái)?shù),而是單位角度的像素?cái)?shù)(pixel per degree,PPD)。PPD的定義是每度視角有多少個(gè)像素。根據(jù)人眼的識(shí)別能力,視力1.0對(duì)應(yīng)的PPD是60,即每度視角里有60個(gè)像素點(diǎn),能達(dá)到60PPD的VR HMD將是一個(gè)比較理想的顯示分辨率。而目前主流VR HMD產(chǎn)品的PPD參數(shù)在10~15內(nèi),對(duì)應(yīng)的頭盔屏幕分辨率為2K左右,距離理想效果的要求還有較大的差距。目前已經(jīng)有幾款4K分辨率的頭盔上市,預(yù)計(jì)2018年將會(huì)進(jìn)入20PPD的階段。預(yù)計(jì)VR頭盔顯示分辨率的演進(jìn)見(jiàn)表1。
表1 VR HMD商用階段現(xiàn)狀和預(yù)測(cè)
2.2.2 視場(chǎng)角
FOV(field of view)角度是VR HMD與平面視頻不同的另一個(gè)重要參數(shù),它表示了帶上 VR HMD后,人眼可以看到VR內(nèi)容的范圍。人的雙眼在水平范圍的FOV可以達(dá)到200°,而目前主流商用VR HMD的FOV為96°~120°,距離完全沉浸還有較大的距離。當(dāng)然人眼在水平60°范圍之外的視覺(jué)敏感性很低,這些范圍并不需要很高的顯示分辨率,可以通過(guò)光學(xué)處理,用較少的顯示像素覆蓋較大的人眼余光視角范圍,在提升沉浸感的同時(shí)提高顯示效率。
2.2.3 VR HMD的顯示計(jì)算能力
VR視頻顯示需要VR HMD對(duì)壓縮視頻進(jìn)行解壓、球面投影、渲染等工作,需要一定的顯示計(jì)算力。即需要GPU(用于外接式VR頭盔)或者相應(yīng)的處理器(VR一體機(jī)或手機(jī)式VR頭盔)。而目前VR頭盔分辨率顯示的瓶頸就是VR HMD的顯示計(jì)算力。尤其是隨著 VR視頻分辨率的提升,圖像顯示計(jì)算量呈指數(shù)增長(zhǎng),這一方面需要集成電路芯片領(lǐng)域持續(xù)地提升計(jì)算力降低單位計(jì)算能力成本,另一方面也需要 VR領(lǐng)域圖形算法的持續(xù)優(yōu)化,以降低VR圖像生成的計(jì)算量。
VR視頻比起VR CG,在顯示計(jì)算力方面的需求較小,因此VR一體機(jī)和移動(dòng)式VR頭盔也會(huì)有較好的顯示效果。VR一體機(jī)在成本和效果之間有一個(gè)較好的平衡,未來(lái)預(yù)計(jì) VR一體機(jī)將是VR視頻的主流觀看平臺(tái)。
2.3 VR視頻體驗(yàn)
從用戶體驗(yàn)來(lái)講,VR視頻內(nèi)容與平面視頻相比,有更強(qiáng)的沉浸性、交互性和構(gòu)想性。但 VR視頻由于節(jié)奏、調(diào)度、鏡頭語(yǔ)言與平面視頻有很大差別,因此 VR視頻的題材范圍差異也很大。VR視頻并不適合所有的題材,其適合如下內(nèi)容:VR體育直播/大型活動(dòng)直播,VR成人視頻點(diǎn)播/直播,VR動(dòng)畫(huà)影視(相當(dāng)于VR版本的動(dòng)畫(huà)片),VR旅游/房產(chǎn)視頻點(diǎn)播/直播,VR綜藝節(jié)目、談話節(jié)目、真人秀,對(duì)話推進(jìn)的VR情景影視,UGC VR游戲/漫游轉(zhuǎn)錄的VR視頻點(diǎn)播/直播。
(1)沉浸感
VR視頻的主觀視角的沉浸感是最主要的特性,比如說(shuō)體育比賽的 VR直播,在拍攝的技術(shù)手段提升后,可能會(huì)在每個(gè)車手、球員身上設(shè)置VR拍攝設(shè)備,這樣可以讓觀眾“靈魂附體”于自己喜愛(ài)的車手、球員身上,從其主觀角度觀看甚至參與比賽,以達(dá)到更強(qiáng)烈的沉浸感。或者像《這個(gè)男人來(lái)自地球》這種依靠對(duì)話推進(jìn)的電影,如果通過(guò) VR拍攝,讓觀眾以其中一員的身份參與電影中,甚至可以通過(guò)交互選擇影響結(jié)局,那也將是一種全新的觀影體驗(yàn)。
(2)交互性
VR視頻的交互性也是相對(duì)平面視頻更有吸引力的特性,通過(guò)眼控、聲音、手勢(shì)、嗅覺(jué)和外置交互設(shè)備等都可以加持 VR視頻的觀影體驗(yàn),錦上添花。
(3)移動(dòng)性
目前VR HMD的佩戴舒適性并不太好,時(shí)間稍長(zhǎng)就會(huì)出現(xiàn)頭頸疲勞、緊箍感明顯和重量不均衡等不適感。隨著人機(jī)工程的進(jìn)一步研究,元器件體積的進(jìn)一步縮小,在這個(gè)方面有較大的提升空間。另一方面,目前顯示效果最好的外接式 VR頭盔需要和主機(jī)之間有一根 HDMI(high definition multimedia interface)或 USB(universal serial bus)的連接線以提供高速視頻數(shù)據(jù)傳輸,在一定程度上影響移動(dòng)性。而采用WiGig等高速低時(shí)延無(wú)線聯(lián)網(wǎng)技術(shù)將剪掉VR頭盔的“辮子”,給外接式VR HMD更好的靈活性。相對(duì)于VR一體機(jī)來(lái)說(shuō),這種方案相當(dāng)于將顯示計(jì)算能力從頭盔中抽離出來(lái),由PC、主機(jī)、手機(jī)等完成,從而降低頭盔的發(fā)熱量重量等??偟膩?lái)說(shuō),這是一個(gè)平衡的選擇過(guò)程,在某些應(yīng)用場(chǎng)景有更大的吸引力。
圖1 VR視頻處理流程
典型的虛擬現(xiàn)實(shí)處理流程如圖1所示。在虛擬現(xiàn)實(shí)內(nèi)容制作階段,現(xiàn)實(shí)物理世界的聲音—視覺(jué)場(chǎng)景是由一組攝像機(jī)或者一個(gè)帶有多個(gè)攝像頭和傳感器的攝像設(shè)備以及音頻傳感器錄制而成。設(shè)備的輸出是一組數(shù)字視頻和音頻信號(hào)。攝像頭通??梢垣@取設(shè)備中心周圍所有方向的內(nèi)容,故名全景視頻或者360°視頻。
其中,音頻可以通過(guò)不同的麥克風(fēng)配置來(lái)獲取,可以用不同格式存儲(chǔ),包括基于通道信號(hào)、靜態(tài)或動(dòng)態(tài)(在3D場(chǎng)景中移動(dòng))對(duì)象信號(hào)以及基于場(chǎng)景的信號(hào)。在一個(gè)虛擬現(xiàn)實(shí)應(yīng)用中,揚(yáng)聲器陣列的信號(hào)通過(guò)沉浸式音頻渲染程序處理后被量化,然后通過(guò)耳機(jī)呈現(xiàn)給用戶。
對(duì)于虛擬現(xiàn)實(shí)視頻而言,同一時(shí)刻的 VR視頻圖像經(jīng)過(guò)拼接、投影映射成一個(gè)封裝幀,如圖2所示。
圖2 虛擬現(xiàn)實(shí)圖像拼接、映射和基于區(qū)域封裝
與傳統(tǒng)視頻相比,虛擬現(xiàn)實(shí)視頻的獨(dú)特特征在于通常僅顯示對(duì)應(yīng)于當(dāng)前視點(diǎn)(即用戶當(dāng)前觀看區(qū)域)的全景視頻中的部分視頻。可以利用該特征,采用視點(diǎn)相關(guān)虛擬現(xiàn)實(shí)視頻處理技術(shù),包括:視點(diǎn)相關(guān)投影映射技術(shù)、基于視點(diǎn)的區(qū)域封裝技術(shù)以及基于視點(diǎn)的視頻編碼技術(shù),在保證為用戶提供相同視頻分辨率/質(zhì)量的條件下,減少視頻傳輸帶寬需求,或者降低視頻解碼復(fù)雜度,從而改善虛擬現(xiàn)實(shí)視頻系統(tǒng)整體性能。
3.1 投影映射
輸入圖像經(jīng)過(guò)拼接后投影到一個(gè)三維投影結(jié)構(gòu)上,例如一個(gè)單位球體或者正六面方體。投影結(jié)構(gòu)上的圖像數(shù)據(jù)將被進(jìn)一步地排布到一個(gè)二維平面的投影幀[1]。
ERP(equirectangular projection,等角投影)是目前VR視頻主流投影格式,如圖3所示。
圖3 ERP投影格式
ERP投影類似于地球球面展開(kāi)成地圖,將球面展開(kāi)為平面矩形,所以也被稱為經(jīng)緯圖展開(kāi)。這種方式簡(jiǎn)單并已經(jīng)普遍使用,但其缺點(diǎn)也是明顯的:球面赤道部分投影展開(kāi)后失真小,而兩極部分緯度越高,失真越大。同時(shí)引入了過(guò)多的無(wú)效像素,球面展開(kāi)成ERP后,面積即像素?cái)?shù)增加了57%,從而降低了傳輸效率。
PSP(platonic solid projection,正多面體投影)是業(yè)界關(guān)注的新方向,具有失真小、壓縮效率高的特點(diǎn)。正多面體投影將球體以球心為中心向外劃分為多個(gè)球面區(qū)域,并投影到多面體某個(gè)面上,正多面體可以是四面體、立方體、金字塔、十二面體和二十面體等,具體見(jiàn)表2。由于每個(gè)球面區(qū)域單獨(dú)投影,因此失真較小。對(duì)于面數(shù)多的方案,其總面積增加也較小,例如正二十面面體投影方案的總面積只有球面面積的 1.21倍。同時(shí),正多面體投影格式有利于實(shí)現(xiàn)基于視點(diǎn)VR視頻傳輸方案,傳輸部分“面”的視頻圖像,或者對(duì)于不同“面”提供不同的分辨率,這樣可以降低傳輸帶寬需求。
表2 正多面體投影格式
對(duì)于單目虛擬現(xiàn)實(shí)視頻,同一時(shí)刻的輸入圖像拼接后生成一個(gè)投影幀,用來(lái)代表一個(gè)視場(chǎng)。對(duì)于雙目立體虛擬現(xiàn)實(shí)視頻,同一時(shí)刻的輸入圖像拼接后生成的一個(gè)投影幀代表兩個(gè)視場(chǎng):左眼和右眼。兩個(gè)視場(chǎng)可以映射到相同的封裝幀,并基于傳統(tǒng)2D視頻編碼器進(jìn)行編碼?;蛘咄队皵?shù)據(jù)幀的不同視場(chǎng)可以被映射到各自的封裝幀。左視場(chǎng)或者右視場(chǎng)的封裝幀序列可以被單獨(dú)編碼,或基于多視點(diǎn)編碼技術(shù)進(jìn)行左右視場(chǎng)預(yù)測(cè)編碼。
3.2 區(qū)域封裝
基于區(qū)域封裝是對(duì)投影后形成的投影幀進(jìn)行重新映射,生成一個(gè)或多個(gè)封裝幀的過(guò)程。投影幀中不同的投影區(qū)域按照不同的采樣率以及旋轉(zhuǎn)(90°、180°、270°)、鏡像(水平)等轉(zhuǎn)換操作,被映射至封裝幀中對(duì)應(yīng)的封裝區(qū)域。例如,CMP(cube map projection,正六面體投影)中可以針對(duì)立方體某個(gè)面按照更高的分辨率進(jìn)行采樣,并將6個(gè)面映射到同一封裝幀,如圖4所示。
圖4 基于區(qū)域封裝示例
針對(duì)同一內(nèi)容源,可以多次執(zhí)行上述虛擬現(xiàn)實(shí)圖像拼接、投影和基于區(qū)域封裝處理,以創(chuàng)建相同虛擬現(xiàn)實(shí)內(nèi)容的不同版本。類似地,針對(duì)相同的投影圖像幀多次執(zhí)行基于區(qū)域封裝處理,可以創(chuàng)建用于編碼的多個(gè)封裝幀圖像序列。
3.3 基于視點(diǎn)編碼
不同于傳統(tǒng)視頻編碼方案,VR視頻內(nèi)容在編碼之前可以被分割成子圖像序列或者運(yùn)動(dòng)約束瓦片集合。 以前者為例,每個(gè)子圖像序列覆蓋全景視頻內(nèi)容空間區(qū)域的子集,彼此獨(dú)立地編碼為單層比特流,其中,同一子圖像序列可被編碼為多個(gè)不同碼率的比特流。
每個(gè)子圖像比特流作為獨(dú)立的軌道被封裝在一個(gè)視頻文件中用于流式傳輸。接收方基于視點(diǎn)朝向等元數(shù)據(jù)選擇要傳輸?shù)囊曨l軌道,接收方通常會(huì)接收覆蓋全方位區(qū)域的視頻軌道,其中對(duì)應(yīng)當(dāng)前視點(diǎn)區(qū)域的視頻軌道質(zhì)量或分辨率應(yīng)高于不可見(jiàn)區(qū)域的視頻軌道。
每個(gè)子圖像比特率必須使用獨(dú)立解碼器進(jìn)行解碼。為了減少用于解碼對(duì)應(yīng)當(dāng)前視點(diǎn)子圖像比特流所需視頻解碼器的數(shù)量,VR視頻中劃分的子圖像之間可以具有重疊區(qū)域。如圖5所示,子圖像1由區(qū)域A和B組成,子圖像2由B區(qū)和C區(qū)組成,子圖像3由C和D區(qū)組成,子圖像4由D區(qū)和E區(qū)組成。子圖像5由E和A區(qū)組成,子圖像6由區(qū)域F組成,子圖像7由區(qū)域G組成。
圖5 基于視點(diǎn)圖像編碼示例
該方案中使用1個(gè)子圖像即可渲染出靠近赤道的任何視點(diǎn)區(qū)域,當(dāng)用戶視點(diǎn)靠近南北極時(shí)最多再需要解碼1個(gè)子圖像,從而可以預(yù)先知道解碼當(dāng)前視點(diǎn)所需的最多解碼器
4.1 傳輸模式
FOV 是虛擬現(xiàn)實(shí)視頻或者全景視頻(omnidirectional video)的基本屬性,虛擬現(xiàn)實(shí)視頻可以具有預(yù)先確定的主視場(chǎng)(primary FOV),主視場(chǎng)內(nèi)的視頻質(zhì)量(分辨率)高于周圍視頻質(zhì)量。此外,虛擬現(xiàn)實(shí)視頻還可以劃分成為具有預(yù)先確定輔助視場(chǎng)(supplemental FOV)的分塊視頻,低分辨率的虛擬現(xiàn)實(shí)全景視頻結(jié)合高分辨率的分塊視頻,可以在預(yù)先確定的視場(chǎng)范圍內(nèi)獲得較高的視頻質(zhì)量[2]。
(1)視點(diǎn)獨(dú)立全景視頻傳輸
在視點(diǎn)獨(dú)立全景視頻傳輸模式(簡(jiǎn)稱為基本傳輸模式)下,虛擬現(xiàn)實(shí)視頻中不存在預(yù)先確定的主視場(chǎng)。客戶端向服務(wù)器請(qǐng)求獲取無(wú)差別的全景視頻文件,當(dāng)用戶視角發(fā)生變化時(shí),所有的處理都在終端完成。
(2)視點(diǎn)自適應(yīng)全景視頻傳輸
在主視場(chǎng)視點(diǎn)自適應(yīng)傳輸模式(簡(jiǎn)稱為FOV傳輸模式)下,虛擬現(xiàn)實(shí)視頻中存在預(yù)先確定的主視場(chǎng)。當(dāng)用戶視角變化量大于特定閾值時(shí),客戶端確定當(dāng)前用戶視角并根據(jù)用戶視角與視頻文件的對(duì)應(yīng)關(guān)系,向服務(wù)器請(qǐng)求獲取對(duì)應(yīng)于用戶當(dāng)前視點(diǎn)的全景視頻文件。
在輔助場(chǎng)視點(diǎn)自適應(yīng)傳輸模式下(簡(jiǎn)稱為混合傳輸模式),虛擬現(xiàn)實(shí)視頻中存在預(yù)先確定的輔助視場(chǎng)??蛻舳讼蚍?wù)器請(qǐng)求獲取無(wú)差別的全景視頻文件,當(dāng)用戶視角變化量大于特定閾值時(shí),客戶端確定當(dāng)前用戶視角并根據(jù)用戶視角與視頻文件的對(duì)應(yīng)關(guān)系,向服務(wù)器請(qǐng)求獲取對(duì)應(yīng)于用戶當(dāng)前視點(diǎn)的輔助視頻文件。
類似地,在分塊傳輸模式下,客戶端確定當(dāng)前用戶視角并根據(jù)用戶視角與視頻文件的對(duì)應(yīng)關(guān)系,向服務(wù)器請(qǐng)求獲取對(duì)應(yīng)于用戶當(dāng)前視點(diǎn)的分塊視頻文件。
4.2 網(wǎng)絡(luò)需求
根據(jù)各種VR視頻類型的特點(diǎn),可以定性分析出其對(duì)網(wǎng)絡(luò)的需求,包括網(wǎng)絡(luò)存儲(chǔ)分發(fā)、網(wǎng)絡(luò)計(jì)算需求、網(wǎng)絡(luò)帶寬需求、網(wǎng)絡(luò)時(shí)延需求等,具體見(jiàn)表3。
表3 各種類型VR視頻對(duì)網(wǎng)絡(luò)的需求
對(duì)于帶寬需求最高的全景視頻,可以定性估算一下其各個(gè)階段具體的網(wǎng)絡(luò)帶寬和時(shí)延需求,見(jiàn)表4。
表4 VR視頻商用階段現(xiàn)狀和網(wǎng)絡(luò)需求預(yù)測(cè)
可見(jiàn)商用階段 VR視頻對(duì)網(wǎng)絡(luò)帶寬需求非常高。這里如果采用視點(diǎn)自適應(yīng)視頻傳輸模式,其帶寬需求將大幅度降低(具體比例由具體傳輸模式的設(shè)定會(huì)有較大不同)。而多面體投影模式的不同面給予不同分辨率也同樣可以降低帶寬需求。當(dāng)然這需要采集用戶的視角方向信息,和全景傳輸模式相比,對(duì)網(wǎng)絡(luò)時(shí)延有更高的要求。
本文對(duì) VR視頻內(nèi)容制作、終端顯示環(huán)節(jié)技術(shù)現(xiàn)狀進(jìn)行了介紹,分析了基于用戶視點(diǎn)的 VR視頻處理關(guān)鍵技術(shù),最后探討VR視頻傳輸模式及其對(duì)承載網(wǎng)絡(luò)的需求。
隨著各方面支撐技術(shù)的持續(xù)發(fā)展,預(yù)期VR視頻將不斷向著更高的分辨率、更廣的視場(chǎng)角、更高效的編碼壓縮與實(shí)時(shí)傳輸方向發(fā)展演進(jìn)。未來(lái)市場(chǎng)上將會(huì)出現(xiàn)越來(lái)越多更平民化的成本、更友好的沉浸體驗(yàn)、更豐富精彩的VR視頻業(yè)務(wù)與應(yīng)用,進(jìn)而影響并豐富人們生產(chǎn)生活的各個(gè)方面。
[1]YU M, LAKSHMAN H, GIROD B. A framework to evaluate omnidirectional video coding schemes[C]//2015 IEEE International Symposium on Mixed and Augmented Reality, September 29-October. 3, 2015, Fukuoka, Japan. New Jersey: IEEE Press, 2015: 31-36.
[2]CORBILLON X, DEVLIC A, SIMON G, et al. Viewport-adaptive navigable 360-degree video delivery[C]//ACM Multimedia Systems 2016 & NOSSDAV, MoVid, and MMVE, May 10-13, 2016, Klagenfurt, Austria. New York: ACM Press, 2016.
Technology of virtual reality video processing and streaming
DONG Zhenjiang, ZHANG Dongzhuo, HUANG Cheng, LIU Haijun
ZTE Corporation, Nanjing 210012, China
Virtual reality is a hot topic in the field of video. The current situation of VR video content production and VR video display technology was introduced, and the key technologies of viewport dependent VR video processing were analyzed. Finally, the mechanisms of VR video streaming and corresponding network requirements were discussed.
virtual reality, virtual reality video, projection, region-wise packing, viewport dependent video coding, omnidirectional video streaming
TN919.8
A
10.11959/j.issn.1000?0801.2017244
董振江(1970?),男,中興通訊股份有限公司研究員級(jí)高級(jí)工程師、云計(jì)算及IT研究院副院長(zhǎng),中國(guó)人工智能學(xué)會(huì)常務(wù)理事,中國(guó)計(jì)算機(jī)學(xué)會(huì)服務(wù)計(jì)算常務(wù)委員,主要研究方向?yàn)槿斯ぶ悄堋R/VR、媒體分析與處理等。
張東卓(1974?),中興通訊股份有限公司資深架構(gòu)師,主要研究方向?yàn)樘摂M現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)。
黃成(1978?),男,中興通訊股份有限公司高級(jí)系統(tǒng)工程師,主要研究方向?yàn)橐曨l傳輸與多媒體通信系統(tǒng)。
劉海軍(1970?),男,中興通訊股份有限公司預(yù)研項(xiàng)目經(jīng)理,主要研究方向?yàn)橹悄芗揖訕I(yè)務(wù)與技術(shù),包括視頻業(yè)務(wù)、人機(jī)交互技術(shù)、人工智能應(yīng)用。
2017?07?15;
2017?08?02