宋彩霞,饒迎節(jié)
(1.福州大學(xué),福建 福州 350000;2.福建省媒體信息智能處理與無線傳輸重點實驗室,福建 福州 350000)
VR 是一種綜合計算機圖形技術(shù)、多媒體技術(shù)、傳感器技術(shù)、人機交互技術(shù)、網(wǎng)絡(luò)技術(shù)、立體顯示技術(shù)以及仿真技術(shù)等多種科學(xué)技術(shù)發(fā)展而來的計算機領(lǐng)域的新技術(shù)。它在醫(yī)療保健行業(yè)、沉浸式遠程監(jiān)控、遠程醫(yī)療、遠程體育以及遠程教育等方面,發(fā)揮著重要作用[1]。VR 視頻要求的4K 甚至更高的分辨率給傳統(tǒng)網(wǎng)絡(luò)帶來了很大壓力。盡管5G 網(wǎng)絡(luò)能在一定程度上解決VR視頻傳輸所要求的帶寬問題,但仍面臨許多未知的挑戰(zhàn),因此需深入研究5G 網(wǎng)絡(luò)下的VR 視頻傳輸。
VR 視頻是一種360°視頻,其中戴有頭戴設(shè)備的用戶在三維球體的中心。這樣能為用戶提供一個完全的三維虛擬世界,如圖1 所示。
圖1 VR 視頻觀看示意圖
VR 視頻有不同的自由度形式。3DoF 360 是目前主流的VR 視頻類型。這種形式下,用戶雖然可以自由選擇觀看區(qū)域,但是不能主動選擇觀看角度。觀看角度由視頻內(nèi)容決定,如圖2(a)所示。
理想的VR 技術(shù)除了能為用戶提供一個虛擬世界,還支持用戶在虛擬空間內(nèi)任意走動。因此,視頻類型是多維度下的360 視頻,但目前仍然無法完全實現(xiàn)這種理想的VR 呈現(xiàn)技術(shù)。通過一些機械設(shè)備的輔助,用戶能體驗到很好的效果,但是這種價格高昂的方式并不適合普通用戶。為此,人們提出6DoF 360,如圖2(c)所示。用戶僅佩戴頭戴設(shè)備就可以體驗良好的虛擬現(xiàn)實效果,但是也只能在三個方向上進行位置移動。6DoF 360 需要大量的視頻數(shù)據(jù)以便在不同方向和不同位置呈現(xiàn)不同的觀看內(nèi)容。
VR 視頻的觀看場所通常是空間有限的區(qū)域,比如室內(nèi)。為減小視頻數(shù)據(jù)量同時獲得較好的真實體驗,人們提出了3DoF+ 360。在這種形式下,觀眾只能在三個方向上進行有限的位置移動,如圖2(b)所示[2]。
圖2 不同自由度的VR 形式
3D 360 視頻利用兩路360 視頻,使用戶左右眼觀看到不同的視頻,為用戶提供一種3D 立體感的觀看體驗。因此,相對于傳統(tǒng)的單路VR 視頻,3D 360 視頻數(shù)據(jù)量將加倍。
根據(jù)華為白皮書[3]的建議,理想的VR 視頻幀率應(yīng)該在120 Hz 以上,分辨率在12K 以上。因此,為提供更加舒適的VR 觀看體驗,需要傳輸?shù)囊曨l數(shù)據(jù)量更大。
為避免網(wǎng)絡(luò)帶寬波動造成的視頻觀看體驗下降問題,視頻傳輸系統(tǒng)普遍運用基于DASH 的自適應(yīng)流技術(shù)。由于人眼在某一時刻視域有限,只能觀看360 視頻中的一部分,因此將360 視頻在空間上切割為區(qū)塊(tile),在時間上切割為片段(segment)。每個tile 分別以不同碼率編碼。將人眼觀看到的視點區(qū)域tile 以高質(zhì)量傳輸,其他區(qū)域tile 以低質(zhì)量傳輸,可以在不降低視頻觀看質(zhì)量的同時減少需要傳輸?shù)囊曨l數(shù)據(jù)[4]。
360 視頻的數(shù)據(jù)量大,通過客戶端緩存可以平衡帶寬波動帶來的影響??紤]到每一時刻視點區(qū)域不一致,傳統(tǒng)網(wǎng)絡(luò)下的360 視頻傳輸包含用戶視點預(yù)測模塊,即根據(jù)用戶的歷史觀看軌跡預(yù)測將來時刻視點的可能位置,從而合理獲取將來時刻的tile數(shù)據(jù)。通過設(shè)計合適的碼率選擇機制,即根據(jù)帶寬情況、緩沖情況及歷史碼率信息等選擇碼率,能在有限帶寬下為用戶提供最佳的體驗效果?;趖ile的360 視頻自適應(yīng)流傳輸系統(tǒng)如圖3 所示。
當(dāng)前,人工智能技術(shù)蓬勃發(fā)展?;跈C器學(xué)習(xí)的360 視頻自適應(yīng)流成為學(xué)者們研究的重點。例如,利用深度學(xué)習(xí)的長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)進行視點預(yù)測,利用強化學(xué)習(xí)進行碼率自適應(yīng)選擇,利用圖像重建(如超分辨、插幀等)有效減小視頻數(shù)據(jù)量。通過人工智能技術(shù)極大地提高了基于DASH 的360 自適應(yīng)流系統(tǒng)的潛力,緩解傳輸360 視頻造成的網(wǎng)絡(luò)帶寬壓力。
圖3 基于tile 的360 視頻自適應(yīng)流傳輸系統(tǒng)
5G 網(wǎng)絡(luò)具有大帶寬和低延遲的特點。5G 的下載速度是4G 的10 ~100 倍。如此大的帶寬使得遠程播放VR/AR 視頻更易實現(xiàn)[5]。但是,5G 網(wǎng)絡(luò)也面臨一些問題,如5G 采用的毫米波通信極易受到障礙物的干擾。圖4 展示了一段真實室外環(huán)境下的4G 和5G 帶寬軌跡??梢钥闯?,盡管5G 網(wǎng)絡(luò)帶寬相比4G 有很大的提升,但是網(wǎng)絡(luò)波動顯著。用戶實時觀看VR 視頻時,若直接傳輸360 視頻仍有可能出現(xiàn)視頻不流暢的問題。因此,傳統(tǒng)360 視頻流傳輸方案在5G 網(wǎng)絡(luò)仍大有可為,需結(jié)合5G 網(wǎng)絡(luò)進一步提升其性能。
高分辨率的視頻渲染需要耗費大量的計算資源,同時移動終端設(shè)備的計算能力有限,嚴重時會出現(xiàn)卡頓和黑屏現(xiàn)象。Cloud VR 將渲染工作交由云服務(wù)器完成[6],但增加了視頻傳輸?shù)难舆t,當(dāng)延遲大于20 ms 時會給觀眾造成眩暈感。邊緣服務(wù)器的計算能力和5G 的低延遲特點,能很好地解決該問題。
傳統(tǒng)360 視頻傳輸中,視點預(yù)測和碼率選擇通常在本地處理。深度學(xué)習(xí)中,繁雜的神經(jīng)網(wǎng)絡(luò)通過分析歷史幀獲取視覺關(guān)注區(qū)域,以進一步提高視點預(yù)測精度。通過強化學(xué)習(xí)可以充分利用網(wǎng)絡(luò)帶寬為tile 分配碼率。高幀率和高分辨率的360 視頻能帶來更好的觀看體驗。通過當(dāng)前流行的基于深度學(xué)習(xí)圖像超分辨率和視頻幀插值技術(shù),可以實現(xiàn)幀率和分辨率的轉(zhuǎn)換。通過邊緣計算,可提升分辨率和幀率,減少互聯(lián)網(wǎng)的網(wǎng)絡(luò)擁塞現(xiàn)象。5G 網(wǎng)絡(luò)下,邊緣服務(wù)器與終端的結(jié)合如圖5 所示。將復(fù)雜的計算任務(wù)放置于邊緣服務(wù)器,既能減小云計算通過網(wǎng)絡(luò)主干通路的路由交換產(chǎn)生的延遲,也能激發(fā)人工智能技術(shù)的潛力,給用戶帶來更好的VR 體驗。
5G 網(wǎng)絡(luò)下,視頻傳輸在帶寬較低時可選擇只傳輸用戶視點區(qū)域。5G 的低延遲特性允許在視點出錯時暫停下一segment 的傳輸,以保證及時傳輸高編碼質(zhì)量的tile對視點區(qū)域進行彌補,如圖6所示。5G 技術(shù)可支持減小傳統(tǒng)傳輸方案中的客戶端緩存,提高視點預(yù)測精度,也可以通過視點錯誤糾正提高視點區(qū)域質(zhì)量。
圖4 4G 和5G 帶寬軌跡
圖5 基于5G 網(wǎng)絡(luò)的VR 邊緣計算
邊緣服務(wù)器通過分析多個用戶觀看的同一視頻內(nèi)容,可以緩存經(jīng)常觀看的重點區(qū)域tile 和不經(jīng)常觀看的非重點區(qū)域tile,如圖7 所示。這樣不僅能減少傳輸?shù)臄?shù)據(jù)量,還可以減小網(wǎng)絡(luò)干路中數(shù)據(jù)傳輸造成的延遲。此外,利用當(dāng)前成熟的內(nèi)容分發(fā)技術(shù)(Content Delivery Network,CDN),能將網(wǎng)絡(luò)延遲降至最小。因此,5G 網(wǎng)絡(luò)給人們提供了足夠的支持,使用戶能夠流暢觀看高幀率和高分辨率的VR 視頻。
圖6 只傳輸視點區(qū)域和視點錯誤糾正示例
圖7 基于5G 網(wǎng)絡(luò)的VR 邊緣緩存
盡管5G 技術(shù)在傳輸VR 視頻方面具有明顯優(yōu)勢,但是對于不同自由度、高分辨率及高幀率的VR視頻仍然存在很多挑戰(zhàn)。通過改進傳統(tǒng)的傳輸方式能有效發(fā)揮5G 技術(shù)在VR 視頻傳輸中的優(yōu)勢,有效解決網(wǎng)絡(luò)帶寬不足的問題,為用戶提供更好的觀看體驗。