亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

全景視頻視口預(yù)測(cè)方法綜述

2022-03-14 02:19:00繆辰啟

電視技術(shù) 2022年2期

繆辰啟，羅鋮

（福州大學(xué) 物理與信息工程學(xué)院，福建福州 350108）

0 引言

全景視頻作為元宇宙中提供沉浸感的最關(guān)鍵的技術(shù)之一，能夠提供傳統(tǒng)平面視頻無(wú)法提供的體驗(yàn)感。與此同時(shí)，它也帶來(lái)了更高的傳輸帶寬需求，具體表現(xiàn)在相對(duì)于傳統(tǒng)平面視頻需要更高的視頻分辨率以及圖像質(zhì)量。如此巨大的數(shù)據(jù)量在當(dāng)前的網(wǎng)絡(luò)條件下具有一定的局限性。因此，如何減少全景視頻所需的傳輸帶寬，成為全景視頻落地的阻礙。視口預(yù)測(cè)技術(shù)作為全景視頻自適應(yīng)傳輸技術(shù)的關(guān)鍵，與傳輸帶寬的利用效率密切相關(guān)。

1 全景視頻視口預(yù)測(cè)

全景視頻的觀看如圖1所示。觀眾需要佩戴頭盔顯示器（Head-Mounted Display，HMD）進(jìn)行觀看。在觀看過(guò)程中，HMD可以通過(guò)傳感器捕獲觀眾頭部姿態(tài)的變化，從而改變顯示的視頻內(nèi)容，給用戶提供身臨其境的感受。其中，觀眾所觀看的部分稱為視口（Viewport），而視口之外的部分稱為非視口。

圖1 全景視頻觀看示意圖

當(dāng)前全景視頻的應(yīng)用主要集中于游戲、遠(yuǎn)程醫(yī)療、體育賽事直播、沉浸式旅游體驗(yàn)等場(chǎng)景[1]。其中大部分場(chǎng)景都對(duì)實(shí)時(shí)性提出了相當(dāng)高的要求。因此，如何減少全景視頻傳輸帶寬，成為全景視頻研究的熱點(diǎn)。

全景視頻傳輸?shù)闹髁鞣桨笧閆ARE等人[2]提出的基于tile的全景視頻自適應(yīng)傳輸方法。該方法根據(jù)全景視頻只能觀看視口部分的特性，將視頻進(jìn)行質(zhì)量區(qū)別化傳輸。視口內(nèi)使用更高質(zhì)量的視頻，而非視口使用較低質(zhì)量的視頻，從而在保證用戶體驗(yàn)的情況下降低傳輸帶寬。為了實(shí)現(xiàn)對(duì)同一視頻質(zhì)量的差異化傳輸，作者利用高效視頻編碼[3]（High Efficiency Video Coding，HEVC）中的運(yùn)動(dòng)約束分塊集（Motion-Constrained Tile Set，MCTS）技術(shù)，將視頻分割為不同的tile獨(dú)立編碼，服務(wù)器根據(jù)視口位置來(lái)組合不同質(zhì)量的tile進(jìn)而組成完整視頻。

視口預(yù)測(cè)是視頻質(zhì)量差異化傳輸?shù)幕A(chǔ)。服務(wù)器與客戶端之間存在傳輸?shù)墓逃醒舆t，為了避免卡頓，需要提前進(jìn)行緩沖，而緩沖時(shí)需要確定未來(lái)視口的位置，從而確定每個(gè)tile的質(zhì)量。因此，視口預(yù)測(cè)的作用在于，既能夠通過(guò)視口內(nèi)外視頻質(zhì)量差異化而降低傳輸帶寬，又能夠提前緩存視頻內(nèi)容從而提升觀看流暢度。但與此同時(shí)也對(duì)視口預(yù)測(cè)的可靠性提出了要求。若預(yù)測(cè)結(jié)果偏離實(shí)際情況，則將需要重新緩沖，從而導(dǎo)致卡頓、黑屏等降低用戶體驗(yàn)的情況出現(xiàn)。

當(dāng)前的全景視頻視口預(yù)測(cè)技術(shù)根據(jù)其預(yù)測(cè)依據(jù)分為基于軌跡的視口預(yù)測(cè)和基于視頻內(nèi)容的視口預(yù)測(cè)。兩種方法的主要區(qū)別在于預(yù)測(cè)過(guò)程中是否使用視頻內(nèi)容信息。接下來(lái)將分別對(duì)這兩種方法進(jìn)行介紹。

2 基于軌跡的視口預(yù)測(cè)方法

基于軌跡的視口預(yù)測(cè)方法指的是使用過(guò)去時(shí)刻的視口位置作為預(yù)測(cè)依據(jù)，通過(guò)算法模型對(duì)未來(lái)時(shí)刻的視口位置進(jìn)行預(yù)測(cè)。本文將根據(jù)是否使用深度學(xué)習(xí)來(lái)將基于軌跡的視口預(yù)測(cè)方法分為傳統(tǒng)視口預(yù)測(cè)方法和基于深度學(xué)習(xí)的視口預(yù)測(cè)方法。

2.1 傳統(tǒng)視口預(yù)測(cè)方法

QIAN[4]等人提出的線性回歸模型與加權(quán)線性回歸模型拉開(kāi)了視口預(yù)測(cè)領(lǐng)域的序幕。線性回歸模型通過(guò)對(duì)固定長(zhǎng)度的過(guò)去視口位置進(jìn)行線性擬合從而預(yù)測(cè)接下來(lái)的視口位置，而加權(quán)線性回歸在線性回歸的基礎(chǔ)上增加了距離權(quán)重，使得時(shí)間間隔相近的位置在預(yù)測(cè)中產(chǎn)生更大的影響。以上兩種模型僅僅適用于軌跡存在明顯規(guī)律的情況，當(dāng)視口軌跡存在多種變化模式時(shí)，性能將急劇下降。BAN[5]等人認(rèn)為用戶的觀看行為是存在一定相似性的，因此提出了將最鄰近算法與線性回歸相結(jié)合的方法。該方法首次使用跨用戶相似性進(jìn)行預(yù)測(cè)，將存在相似性行為的用戶進(jìn)行聚類，并以相似性行為來(lái)指導(dǎo)預(yù)測(cè)。CHEN[6]等人則在此啟發(fā)下提出了一種可解釋預(yù)測(cè)模型，該模型能夠根據(jù)不同的視頻類型來(lái)調(diào)整用戶相似性的使用程度，取得了更加穩(wěn)定的預(yù)測(cè)性能。以上模型雖然簡(jiǎn)單，但仍難以部署在服務(wù)器與客戶端上，并且無(wú)法隨著用戶的使用進(jìn)行自身的調(diào)節(jié)。PARK[7]等人針對(duì)此問(wèn)題提出了基于馬爾科夫鏈的導(dǎo)航圖（Navigation Graph）預(yù)測(cè)方法，通過(guò)不斷收集客戶端的用戶軌跡以及在服務(wù)器進(jìn)行匯總，從而生成導(dǎo)航圖。導(dǎo)航圖能夠提供各個(gè)視口間轉(zhuǎn)移的概率，根據(jù)概率大小來(lái)生成預(yù)測(cè)結(jié)果。

總體來(lái)說(shuō)，傳統(tǒng)的視口預(yù)測(cè)方法主要是對(duì)視口軌跡簡(jiǎn)單擬合、視口軌跡規(guī)律跨用戶之間的使用以及借助概率統(tǒng)計(jì)進(jìn)行預(yù)測(cè)，優(yōu)點(diǎn)在于易于部署，盡管在精度和穩(wěn)定性方面不斷提升，但仍無(wú)法提供可靠的預(yù)測(cè)結(jié)果。

2.2 基于深度學(xué)習(xí)的視口預(yù)測(cè)方法

隨著計(jì)算機(jī)算力的提升，深度學(xué)習(xí)的方法被廣泛應(yīng)用在時(shí)域問(wèn)題中，而傳統(tǒng)的視口預(yù)測(cè)的性能一直不盡如人意，因此研究人員對(duì)于深度學(xué)習(xí)在視口預(yù)測(cè)中的應(yīng)用展開(kāi)了嘗試。

JIANG[8]等人提出了一種基于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)（Long Short-Term Memory，LSTM）的視口預(yù)測(cè)方法，通過(guò)單層LSTM對(duì)輸入軌跡進(jìn)行建模，最后通過(guò)轉(zhuǎn)換層歸一化輸出預(yù)測(cè)結(jié)果。JAMALI[9]等在LSTM的基礎(chǔ)上提出了一種基于編碼器-解碼器結(jié)構(gòu)的方法，在這種結(jié)構(gòu)中使用編碼器提取軌跡信息，而通過(guò)解碼器進(jìn)行預(yù)測(cè)，更加復(fù)雜的模型降低了欠擬合的可能性。HOU[10]等人區(qū)別于以上方法直接輸出視口位置，而是通過(guò)多層LSTM與激活函數(shù)相結(jié)合，從而輸出每個(gè)tile的觀看概率，這種輸出形式能夠更好地服務(wù)于傳輸過(guò)程。XIAO[11]等人首次將注意力機(jī)制引入到視口預(yù)測(cè)中，依靠注意力機(jī)制來(lái)分配從LSTM提取的信息的權(quán)重。絕大多數(shù)基于深度學(xué)習(xí)的方法都是建立在LSTM框架上的，然而ZOU[12]等人提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Networks，CNN）的視口預(yù)測(cè)方法，利用一維卷積核提取軌跡信息，通過(guò)多層卷積核堆疊來(lái)獲取高維特征，最后使用全連接層來(lái)生成預(yù)測(cè)結(jié)果。

基于深度學(xué)習(xí)的視口預(yù)測(cè)方法，主要使用以LSTM為基本架構(gòu)的模型進(jìn)行預(yù)測(cè)，相對(duì)于傳統(tǒng)方法取得了性能上的提升，但該類模型存在如下兩個(gè)問(wèn)題影響性能：（1）依賴于自回歸，即預(yù)測(cè)結(jié)果會(huì)被當(dāng)做真實(shí)軌跡繼續(xù)預(yù)測(cè)，當(dāng)預(yù)測(cè)誤差較大時(shí)會(huì)產(chǎn)生誤差疊加；（2）缺乏長(zhǎng)距離依賴，隨著輸入的增加，無(wú)法獲得遠(yuǎn)距離時(shí)刻的信息。

3 基于視頻內(nèi)容的視口預(yù)測(cè)方法

迄今為止，單純依據(jù)軌跡來(lái)進(jìn)行視口預(yù)測(cè)仍然無(wú)法提供可靠的預(yù)測(cè)結(jié)果。其很大一部分原因在于用戶的視口軌跡存在隨機(jī)性，不同用戶針對(duì)不同內(nèi)容具有不同的觀看模式，內(nèi)容在其中起到了重要作用，無(wú)法簡(jiǎn)單地僅僅根據(jù)運(yùn)動(dòng)規(guī)律來(lái)進(jìn)行預(yù)測(cè)。因此，結(jié)合視頻內(nèi)容進(jìn)行視口預(yù)測(cè)的方法也吸引了大量研究。

在基于視頻內(nèi)容的視口預(yù)測(cè)方法中，有相當(dāng)一部分研究集中于全景視頻的顯著度預(yù)測(cè)，認(rèn)為顯著度與用戶興趣共同影響視口軌跡，因此顯著度與用戶觀看概率存在密切聯(lián)系。事實(shí)上，傳統(tǒng)視頻圖像的顯著度研究已經(jīng)產(chǎn)生了大量的成果[13]，而全景視頻圖像的顯著度預(yù)測(cè)卻無(wú)法簡(jiǎn)單地套用傳統(tǒng)方法，其原因在于當(dāng)前投影技術(shù)缺陷導(dǎo)致的邊緣圖像畸變問(wèn)題[14]。DAI等人[15]提出了一種支持立方體圖輸入的編碼器-解碼器結(jié)構(gòu)的顯著度預(yù)測(cè)網(wǎng)絡(luò)，立方體圖相對(duì)于其他投影方式畸變較小，從而減少了圖像畸變的影響。在此基礎(chǔ)上，ZHANG等人[16]提出的方案不僅支持立方體圖輸入，還加入光流以提供時(shí)空域信息，并將高斯先驗(yàn)加入到預(yù)測(cè)網(wǎng)絡(luò)中，進(jìn)一步提升了顯著度的預(yù)測(cè)性能。XU等人設(shè)計(jì)了一種全新的球面深度神經(jīng)網(wǎng)絡(luò)，包括球卷積、球池化等模塊，從本質(zhì)上避免了投影過(guò)程所造成的畸變帶來(lái)的影響。對(duì)抗生成網(wǎng)絡(luò)（Generative Adversarial Network，GAN）在許多視頻領(lǐng)域被廣泛地使用，CHAO等人[17]首次將GAN引入全景視頻顯著度檢測(cè)中，利用GAN網(wǎng)絡(luò)強(qiáng)大的生成能力，并融合全局與局部顯著度特征，為GAN網(wǎng)絡(luò)應(yīng)用在全景視頻顯著度檢測(cè)提供了范例。

基于視頻內(nèi)容的視口預(yù)測(cè)方法差別主要在于對(duì)軌跡的建模方式以及視頻圖像特征提取方式。XU等人[18]采用顯著度圖作為視頻內(nèi)容特征，利用LSTM提取時(shí)域特征，使用全連接網(wǎng)絡(luò)來(lái)結(jié)合兩者進(jìn)行預(yù)測(cè)。LI等人[19]則是利用LSTM的編碼器-解碼器結(jié)構(gòu)根據(jù)用戶軌跡生成該用戶熱圖，接著使用全卷積網(wǎng)絡(luò)對(duì)顯著度圖提取特征，最后使用全卷積將用戶熱圖與顯著度圖進(jìn)行組合從而輸出預(yù)測(cè)結(jié)果。YANG等人[20]提出了CFVT（Correlation Filter-based Viewport Tracker，CFVT）用于視頻內(nèi)容特征提取，并使用循環(huán)神經(jīng)網(wǎng)絡(luò)（Rerrent Neural Network，RNN）對(duì)軌跡建模，最后通過(guò)融合模塊對(duì)兩者進(jìn)行統(tǒng)一，從而輸出預(yù)測(cè)結(jié)果。

相較于單純依據(jù)軌跡進(jìn)行視口預(yù)測(cè)，結(jié)合視頻內(nèi)容的方法獲得了更高的預(yù)測(cè)精度，其性能提升的原因在于視頻內(nèi)容直接影響用戶的觀看行為。然而，其需要對(duì)圖像進(jìn)行顯著性預(yù)測(cè)等計(jì)算，時(shí)間復(fù)雜度大大增加，對(duì)設(shè)備的算力要求也相應(yīng)地增加，并不適用于當(dāng)前的全景視頻傳輸系統(tǒng)。

4 總結(jié)與展望

當(dāng)前，基于軌跡的預(yù)測(cè)方法和結(jié)合視頻內(nèi)容的預(yù)測(cè)方法都存在各自的弊端。單純利用軌跡來(lái)進(jìn)行預(yù)測(cè)，雖然能夠保證實(shí)時(shí)性，但無(wú)法提供可靠的預(yù)測(cè)結(jié)果；基于軌跡與視頻內(nèi)容的方法雖然預(yù)測(cè)精度較高，但由于涉及到視頻圖像特征等計(jì)算，暫時(shí)無(wú)法運(yùn)用在實(shí)時(shí)系統(tǒng)中。

要進(jìn)一步提高視口預(yù)測(cè)的可靠性，首先要在原理上對(duì)視口運(yùn)動(dòng)規(guī)律進(jìn)行更加深入的認(rèn)識(shí)，探究視頻內(nèi)容與視口軌跡之間的關(guān)系。其次，對(duì)其他領(lǐng)域新的方法的使用也很重要。

近來(lái)，自注意力機(jī)制[21]、圖神經(jīng)網(wǎng)絡(luò)[22]等一批新的深度學(xué)習(xí)模型的提出，給視口預(yù)測(cè)提供了新的思路。例如，自注意力機(jī)制具有強(qiáng)大的并行計(jì)算能力以及長(zhǎng)距離依賴捕獲能力，可以代替LSTM對(duì)視口軌跡進(jìn)行更好的建模；視口軌跡可以通過(guò)轉(zhuǎn)移圖來(lái)進(jìn)行表達(dá)，利用圖神經(jīng)網(wǎng)絡(luò)來(lái)提取轉(zhuǎn)移圖信息從而進(jìn)行視口預(yù)測(cè)。如何將這些新的工具應(yīng)用到全景視頻視口預(yù)測(cè)中，將成為提升視口預(yù)測(cè)性能的突破口之一。

5 結(jié) 語(yǔ)

視口預(yù)測(cè)作為全景視頻自適應(yīng)傳輸?shù)年P(guān)鍵一環(huán)，能夠有效降低全景視頻傳輸帶寬。本文對(duì)現(xiàn)有技術(shù)進(jìn)行分類以及詳細(xì)介紹，對(duì)視口預(yù)測(cè)的現(xiàn)狀進(jìn)行了總結(jié)，認(rèn)為當(dāng)前的視口預(yù)測(cè)方法無(wú)論是基于軌跡還是基于視頻內(nèi)容，都需要克服其本身存在的弊端才能走向?qū)嶋H應(yīng)用。此外，當(dāng)前深度學(xué)習(xí)領(lǐng)域的新技術(shù)與視口預(yù)測(cè)相結(jié)合，將會(huì)進(jìn)一步推動(dòng)視口預(yù)測(cè)技術(shù)的發(fā)展，從而推進(jìn)全景視頻更加廣泛的應(yīng)用。