亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        全景視頻視口預(yù)測方法綜述

        2022-03-14 02:19:00繆辰啟
        電視技術(shù) 2022年2期
        關(guān)鍵詞:全景軌跡傳輸

        繆辰啟,羅 鋮

        (福州大學(xué) 物理與信息工程學(xué)院,福建 福州 350108)

        0 引 言

        全景視頻作為元宇宙中提供沉浸感的最關(guān)鍵的技術(shù)之一,能夠提供傳統(tǒng)平面視頻無法提供的體驗(yàn)感。與此同時(shí),它也帶來了更高的傳輸帶寬需求,具體表現(xiàn)在相對(duì)于傳統(tǒng)平面視頻需要更高的視頻分辨率以及圖像質(zhì)量。如此巨大的數(shù)據(jù)量在當(dāng)前的網(wǎng)絡(luò)條件下具有一定的局限性。因此,如何減少全景視頻所需的傳輸帶寬,成為全景視頻落地的阻礙。視口預(yù)測技術(shù)作為全景視頻自適應(yīng)傳輸技術(shù)的關(guān)鍵,與傳輸帶寬的利用效率密切相關(guān)。

        1 全景視頻視口預(yù)測

        全景視頻的觀看如圖1所示。觀眾需要佩戴頭盔顯示器(Head-Mounted Display,HMD)進(jìn)行觀看。在觀看過程中,HMD可以通過傳感器捕獲觀眾頭部姿態(tài)的變化,從而改變顯示的視頻內(nèi)容,給用戶提供身臨其境的感受。其中,觀眾所觀看的部分稱為視口(Viewport),而視口之外的部分稱為非視口。

        圖1 全景視頻觀看示意圖

        當(dāng)前全景視頻的應(yīng)用主要集中于游戲、遠(yuǎn)程醫(yī)療、體育賽事直播、沉浸式旅游體驗(yàn)等場景[1]。其中大部分場景都對(duì)實(shí)時(shí)性提出了相當(dāng)高的要求。因此,如何減少全景視頻傳輸帶寬,成為全景視頻研究的熱點(diǎn)。

        全景視頻傳輸?shù)闹髁鞣桨笧閆ARE等人[2]提出的基于tile的全景視頻自適應(yīng)傳輸方法。該方法根據(jù)全景視頻只能觀看視口部分的特性,將視頻進(jìn)行質(zhì)量區(qū)別化傳輸。視口內(nèi)使用更高質(zhì)量的視頻,而非視口使用較低質(zhì)量的視頻,從而在保證用戶體驗(yàn)的情況下降低傳輸帶寬。為了實(shí)現(xiàn)對(duì)同一視頻質(zhì)量的差異化傳輸,作者利用高效視頻編碼[3](High Efficiency Video Coding,HEVC)中的運(yùn)動(dòng)約束分塊集(Motion-Constrained Tile Set,MCTS)技術(shù),將視頻分割為不同的tile獨(dú)立編碼,服務(wù)器根據(jù)視口位置來組合不同質(zhì)量的tile進(jìn)而組成完整視頻。

        視口預(yù)測是視頻質(zhì)量差異化傳輸?shù)幕A(chǔ)。服務(wù)器與客戶端之間存在傳輸?shù)墓逃醒舆t,為了避免卡頓,需要提前進(jìn)行緩沖,而緩沖時(shí)需要確定未來視口的位置,從而確定每個(gè)tile的質(zhì)量。因此,視口預(yù)測的作用在于,既能夠通過視口內(nèi)外視頻質(zhì)量差異化而降低傳輸帶寬,又能夠提前緩存視頻內(nèi)容從而提升觀看流暢度。但與此同時(shí)也對(duì)視口預(yù)測的可靠性提出了要求。若預(yù)測結(jié)果偏離實(shí)際情況,則將需要重新緩沖,從而導(dǎo)致卡頓、黑屏等降低用戶體驗(yàn)的情況出現(xiàn)。

        當(dāng)前的全景視頻視口預(yù)測技術(shù)根據(jù)其預(yù)測依據(jù)分為基于軌跡的視口預(yù)測和基于視頻內(nèi)容的視口預(yù)測。兩種方法的主要區(qū)別在于預(yù)測過程中是否使用視頻內(nèi)容信息。接下來將分別對(duì)這兩種方法進(jìn)行介紹。

        2 基于軌跡的視口預(yù)測方法

        基于軌跡的視口預(yù)測方法指的是使用過去時(shí)刻的視口位置作為預(yù)測依據(jù),通過算法模型對(duì)未來時(shí)刻的視口位置進(jìn)行預(yù)測。本文將根據(jù)是否使用深度學(xué)習(xí)來將基于軌跡的視口預(yù)測方法分為傳統(tǒng)視口預(yù)測方法和基于深度學(xué)習(xí)的視口預(yù)測方法。

        2.1 傳統(tǒng)視口預(yù)測方法

        QIAN[4]等人提出的線性回歸模型與加權(quán)線性回歸模型拉開了視口預(yù)測領(lǐng)域的序幕。線性回歸模型通過對(duì)固定長度的過去視口位置進(jìn)行線性擬合從而預(yù)測接下來的視口位置,而加權(quán)線性回歸在線性回歸的基礎(chǔ)上增加了距離權(quán)重,使得時(shí)間間隔相近的位置在預(yù)測中產(chǎn)生更大的影響。以上兩種模型僅僅適用于軌跡存在明顯規(guī)律的情況,當(dāng)視口軌跡存在多種變化模式時(shí),性能將急劇下降。BAN[5]等人認(rèn)為用戶的觀看行為是存在一定相似性的,因此提出了將最鄰近算法與線性回歸相結(jié)合的方法。該方法首次使用跨用戶相似性進(jìn)行預(yù)測,將存在相似性行為的用戶進(jìn)行聚類,并以相似性行為來指導(dǎo)預(yù)測。CHEN[6]等人則在此啟發(fā)下提出了一種可解釋預(yù)測模型,該模型能夠根據(jù)不同的視頻類型來調(diào)整用戶相似性的使用程度,取得了更加穩(wěn)定的預(yù)測性能。以上模型雖然簡單,但仍難以部署在服務(wù)器與客戶端上,并且無法隨著用戶的使用進(jìn)行自身的調(diào)節(jié)。PARK[7]等人針對(duì)此問題提出了基于馬爾科夫鏈的導(dǎo)航圖(Navigation Graph)預(yù)測方法,通過不斷收集客戶端的用戶軌跡以及在服務(wù)器進(jìn)行匯總,從而生成導(dǎo)航圖。導(dǎo)航圖能夠提供各個(gè)視口間轉(zhuǎn)移的概率,根據(jù)概率大小來生成預(yù)測結(jié)果。

        總體來說,傳統(tǒng)的視口預(yù)測方法主要是對(duì)視口軌跡簡單擬合、視口軌跡規(guī)律跨用戶之間的使用以及借助概率統(tǒng)計(jì)進(jìn)行預(yù)測,優(yōu)點(diǎn)在于易于部署,盡管在精度和穩(wěn)定性方面不斷提升,但仍無法提供可靠的預(yù)測結(jié)果。

        2.2 基于深度學(xué)習(xí)的視口預(yù)測方法

        隨著計(jì)算機(jī)算力的提升,深度學(xué)習(xí)的方法被廣泛應(yīng)用在時(shí)域問題中,而傳統(tǒng)的視口預(yù)測的性能一直不盡如人意,因此研究人員對(duì)于深度學(xué)習(xí)在視口預(yù)測中的應(yīng)用展開了嘗試。

        JIANG[8]等人提出了一種基于長短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)的視口預(yù)測方法,通過單層LSTM對(duì)輸入軌跡進(jìn)行建模,最后通過轉(zhuǎn)換層歸一化輸出預(yù)測結(jié)果。JAMALI[9]等在LSTM的基礎(chǔ)上提出了一種基于編碼器-解碼器結(jié)構(gòu)的方法,在這種結(jié)構(gòu)中使用編碼器提取軌跡信息,而通過解碼器進(jìn)行預(yù)測,更加復(fù)雜的模型降低了欠擬合的可能性。HOU[10]等人區(qū)別于以上方法直接輸出視口位置,而是通過多層LSTM與激活函數(shù)相結(jié)合,從而輸出每個(gè)tile的觀看概率,這種輸出形式能夠更好地服務(wù)于傳輸過程。XIAO[11]等人首次將注意力機(jī)制引入到視口預(yù)測中,依靠注意力機(jī)制來分配從LSTM提取的信息的權(quán)重。絕大多數(shù)基于深度學(xué)習(xí)的方法都是建立在LSTM框架上的,然而ZOU[12]等人提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的視口預(yù)測方法,利用一維卷積核提取軌跡信息,通過多層卷積核堆疊來獲取高維特征,最后使用全連接層來生成預(yù)測結(jié)果。

        基于深度學(xué)習(xí)的視口預(yù)測方法,主要使用以LSTM為基本架構(gòu)的模型進(jìn)行預(yù)測,相對(duì)于傳統(tǒng)方法取得了性能上的提升,但該類模型存在如下兩個(gè)問題影響性能:(1)依賴于自回歸,即預(yù)測結(jié)果會(huì)被當(dāng)做真實(shí)軌跡繼續(xù)預(yù)測,當(dāng)預(yù)測誤差較大時(shí)會(huì)產(chǎn)生誤差疊加;(2)缺乏長距離依賴,隨著輸入的增加,無法獲得遠(yuǎn)距離時(shí)刻的信息。

        3 基于視頻內(nèi)容的視口預(yù)測方法

        迄今為止,單純依據(jù)軌跡來進(jìn)行視口預(yù)測仍然無法提供可靠的預(yù)測結(jié)果。其很大一部分原因在于用戶的視口軌跡存在隨機(jī)性,不同用戶針對(duì)不同內(nèi)容具有不同的觀看模式,內(nèi)容在其中起到了重要作用,無法簡單地僅僅根據(jù)運(yùn)動(dòng)規(guī)律來進(jìn)行預(yù)測。因此,結(jié)合視頻內(nèi)容進(jìn)行視口預(yù)測的方法也吸引了大量研究。

        在基于視頻內(nèi)容的視口預(yù)測方法中,有相當(dāng)一部分研究集中于全景視頻的顯著度預(yù)測,認(rèn)為顯著度與用戶興趣共同影響視口軌跡,因此顯著度與用戶觀看概率存在密切聯(lián)系。事實(shí)上,傳統(tǒng)視頻圖像的顯著度研究已經(jīng)產(chǎn)生了大量的成果[13],而全景視頻圖像的顯著度預(yù)測卻無法簡單地套用傳統(tǒng)方法,其原因在于當(dāng)前投影技術(shù)缺陷導(dǎo)致的邊緣圖像畸變問題[14]。DAI等人[15]提出了一種支持立方體圖輸入的編碼器-解碼器結(jié)構(gòu)的顯著度預(yù)測網(wǎng)絡(luò),立方體圖相對(duì)于其他投影方式畸變較小,從而減少了圖像畸變的影響。在此基礎(chǔ)上,ZHANG等人[16]提出的方案不僅支持立方體圖輸入,還加入光流以提供時(shí)空域信息,并將高斯先驗(yàn)加入到預(yù)測網(wǎng)絡(luò)中,進(jìn)一步提升了顯著度的預(yù)測性能。XU等人設(shè)計(jì)了一種全新的球面深度神經(jīng)網(wǎng)絡(luò),包括球卷積、球池化等模塊,從本質(zhì)上避免了投影過程所造成的畸變帶來的影響。對(duì)抗生成網(wǎng)絡(luò)(Generative Adversarial Network,GAN)在許多視頻領(lǐng)域被廣泛地使用,CHAO等人[17]首次將GAN引入全景視頻顯著度檢測中,利用GAN網(wǎng)絡(luò)強(qiáng)大的生成能力,并融合全局與局部顯著度特征,為GAN網(wǎng)絡(luò)應(yīng)用在全景視頻顯著度檢測提供了范例。

        基于視頻內(nèi)容的視口預(yù)測方法差別主要在于對(duì)軌跡的建模方式以及視頻圖像特征提取方式。XU等人[18]采用顯著度圖作為視頻內(nèi)容特征,利用LSTM提取時(shí)域特征,使用全連接網(wǎng)絡(luò)來結(jié)合兩者進(jìn)行預(yù)測。LI等人[19]則是利用LSTM的編碼器-解碼器結(jié)構(gòu)根據(jù)用戶軌跡生成該用戶熱圖,接著使用全卷積網(wǎng)絡(luò)對(duì)顯著度圖提取特征,最后使用全卷積將用戶熱圖與顯著度圖進(jìn)行組合從而輸出預(yù)測結(jié)果。YANG等人[20]提出了CFVT(Correlation Filter-based Viewport Tracker,CFVT)用于視頻內(nèi)容特征提取,并使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Rerrent Neural Network,RNN)對(duì)軌跡建模,最后通過融合模塊對(duì)兩者進(jìn)行統(tǒng)一,從而輸出預(yù)測結(jié)果。

        相較于單純依據(jù)軌跡進(jìn)行視口預(yù)測,結(jié)合視頻內(nèi)容的方法獲得了更高的預(yù)測精度,其性能提升的原因在于視頻內(nèi)容直接影響用戶的觀看行為。然而,其需要對(duì)圖像進(jìn)行顯著性預(yù)測等計(jì)算,時(shí)間復(fù)雜度大大增加,對(duì)設(shè)備的算力要求也相應(yīng)地增加,并不適用于當(dāng)前的全景視頻傳輸系統(tǒng)。

        4 總結(jié)與展望

        當(dāng)前,基于軌跡的預(yù)測方法和結(jié)合視頻內(nèi)容的預(yù)測方法都存在各自的弊端。單純利用軌跡來進(jìn)行預(yù)測,雖然能夠保證實(shí)時(shí)性,但無法提供可靠的預(yù)測結(jié)果;基于軌跡與視頻內(nèi)容的方法雖然預(yù)測精度較高,但由于涉及到視頻圖像特征等計(jì)算,暫時(shí)無法運(yùn)用在實(shí)時(shí)系統(tǒng)中。

        要進(jìn)一步提高視口預(yù)測的可靠性,首先要在原理上對(duì)視口運(yùn)動(dòng)規(guī)律進(jìn)行更加深入的認(rèn)識(shí),探究視頻內(nèi)容與視口軌跡之間的關(guān)系。其次,對(duì)其他領(lǐng)域新的方法的使用也很重要。

        近來,自注意力機(jī)制[21]、圖神經(jīng)網(wǎng)絡(luò)[22]等一批新的深度學(xué)習(xí)模型的提出,給視口預(yù)測提供了新的思路。例如,自注意力機(jī)制具有強(qiáng)大的并行計(jì)算能力以及長距離依賴捕獲能力,可以代替LSTM對(duì)視口軌跡進(jìn)行更好的建模;視口軌跡可以通過轉(zhuǎn)移圖來進(jìn)行表達(dá),利用圖神經(jīng)網(wǎng)絡(luò)來提取轉(zhuǎn)移圖信息從而進(jìn)行視口預(yù)測。如何將這些新的工具應(yīng)用到全景視頻視口預(yù)測中,將成為提升視口預(yù)測性能的突破口之一。

        5 結(jié) 語

        視口預(yù)測作為全景視頻自適應(yīng)傳輸?shù)年P(guān)鍵一環(huán),能夠有效降低全景視頻傳輸帶寬。本文對(duì)現(xiàn)有技術(shù)進(jìn)行分類以及詳細(xì)介紹,對(duì)視口預(yù)測的現(xiàn)狀進(jìn)行了總結(jié),認(rèn)為當(dāng)前的視口預(yù)測方法無論是基于軌跡還是基于視頻內(nèi)容,都需要克服其本身存在的弊端才能走向?qū)嶋H應(yīng)用。此外,當(dāng)前深度學(xué)習(xí)領(lǐng)域的新技術(shù)與視口預(yù)測相結(jié)合,將會(huì)進(jìn)一步推動(dòng)視口預(yù)測技術(shù)的發(fā)展,從而推進(jìn)全景視頻更加廣泛的應(yīng)用。

        猜你喜歡
        全景軌跡傳輸
        混合型隨機(jī)微分方程的傳輸不等式
        牽引8K超高清傳輸時(shí)代 FIBBR Pure38K
        戴上耳機(jī),享受全景聲 JVC EXOFIELD XP-EXT1
        軌跡
        軌跡
        電子制作(2018年18期)2018-11-14 01:48:00
        全景敞視主義與偵探小說中的“看”
        軌跡
        進(jìn)化的軌跡(一)——進(jìn)化,無盡的適應(yīng)
        中國三峽(2017年2期)2017-06-09 08:15:29
        支持長距離4K HDR傳輸 AudioQuest Pearl、 Forest、 Cinnamon HDMI線
        99久久久国产精品免费蜜臀| 精品国产亚洲av久一区二区三区| 久久99久久99精品免视看国产成人| 一区二区在线观看日本免费| 伊人久久精品亚洲午夜| 国产大片内射1区2区| 亚洲国产天堂久久综合| 韩国无码av片在线观看网站| 亚洲av第一成肉网| 午夜无码一区二区三区在线| 国产成人精品视频网站| 亚洲自偷自拍另类第一页| 国产自拍精品视频免费| 国产午夜精品av一区二区麻豆| av无码精品一区二区三区宅噜噜| 丰满岳乱妇久久久| 一本大道东京热无码中字| 免费美女黄网站久久久| 亚洲精品一区二区高清| av无码电影一区二区三区| 亚洲精品无播放器在线播放| 午夜免费福利在线观看| 日本在线中文字幕一区| 精品久久人妻av中文字幕| 国产va免费精品观看精品| 国产成人无码av在线播放dvd| 伊人久久亚洲综合影院首页| 成年人视频在线播放麻豆| 一区二区三区四区在线观看日本 | 国产在线拍91揄自揄视精品91| 中文片内射在线视频播放| 亚洲国产av无码精品无广告| 真人与拘做受免费视频| 日韩久久av电影| 蜜桃人妻午夜精品一区二区三区| 色翁荡息又大又硬又粗视频| 国产av电影区二区三区曰曰骚网| 禁止免费无码网站| 蜜桃夜夜爽天天爽三区麻豆av| 丰满人妻熟妇乱又仑精品| 国产精品免费久久久久软件|