亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學(xué)習(xí)的多視點(diǎn)視頻編碼方法綜述

2021-02-14 06:23:42繆辰啟

電視技術(shù) 2021年12期

羅鋮，繆辰啟

（福州大學(xué) 物理與信息工程學(xué)院，福建福州 350108）

0 引言

為了提供身臨其境的體驗(yàn)，多視點(diǎn)視頻從不同的位置和角度捕捉視覺(jué)信息，導(dǎo)致了數(shù)據(jù)量的激增。如何在保證重建質(zhì)量的前提下降低編碼碼率已經(jīng)成為一個(gè)關(guān)鍵問(wèn)題。傳統(tǒng)的多視點(diǎn)視頻編碼（Multiview Video Coding，MVC）[1]方法通常利用混合編碼框架對(duì)每個(gè)視點(diǎn)進(jìn)行編碼。當(dāng)前流行的多視點(diǎn)加深度（Multi-view plus Depth，MVD）方法為了進(jìn)一步降低編碼碼率，在編碼時(shí)忽略中間視點(diǎn)，并在解碼端通過(guò)深度圖重建它們。然而這類方法在碰到物體遮擋和變形的情況時(shí)，很難得到精確的深度信息，所以難以重建中間視點(diǎn)。最近的研究工作已經(jīng)證實(shí)了基于深度學(xué)習(xí)的視頻編碼的可行性[2]，這得益于神經(jīng)網(wǎng)絡(luò)強(qiáng)大的非線性建模能力和大批量數(shù)據(jù)集的訓(xùn)練。不過(guò)現(xiàn)階段學(xué)術(shù)界對(duì)基于深度學(xué)習(xí)的多視點(diǎn)視頻編碼研究較少，這仍然是一個(gè)值得繼續(xù)探索的方向。

1 多視點(diǎn)視頻的特點(diǎn)及應(yīng)用

多視點(diǎn)視頻是由攝像機(jī)陣列對(duì)同一場(chǎng)景進(jìn)行拍攝所形成的一系列具有時(shí)間和空間相關(guān)性的視頻[3]，其采集過(guò)程如圖1所示。

圖1 多視點(diǎn)視頻拍攝示意圖

當(dāng)前多視點(diǎn)視頻在多個(gè)場(chǎng)景都有其巨大的應(yīng)用和研究?jī)r(jià)值，比如遠(yuǎn)程控制的醫(yī)療手術(shù)、VR/AR等沉浸式體驗(yàn)以及體育直播中的特效制作等等。在這些場(chǎng)景下，用戶可以基于自己所處的不同角度位置，觀看自己感興趣的內(nèi)容。然而多視點(diǎn)視頻不可避免地帶來(lái)多倍的數(shù)據(jù)量，因此不得不對(duì)其進(jìn)行壓縮編碼。

多視點(diǎn)視頻編碼可以通過(guò)消除同一視點(diǎn)內(nèi)的時(shí)域相關(guān)性和不同視點(diǎn)間的空域相關(guān)性，在保證重建視頻質(zhì)量的同時(shí)減少編碼碼率，實(shí)現(xiàn)對(duì)多視點(diǎn)視頻的有效壓縮。根據(jù)多視點(diǎn)視頻編碼方法是否涉及深度學(xué)習(xí)技術(shù)，可以將多視點(diǎn)視頻編碼分為傳統(tǒng)的多視點(diǎn)視頻編碼和基于深度學(xué)習(xí)的多視點(diǎn)視頻編碼兩類，具體分類如圖2所示。

圖2 多視點(diǎn)視頻編碼分類圖

2 傳統(tǒng)的多視點(diǎn)視頻編碼

多視點(diǎn)視頻編碼在高效視頻編碼（High Efficiency Video Coding，HEVC）標(biāo)準(zhǔn)的基礎(chǔ)上增加了視點(diǎn)間預(yù)測(cè)，形成了多視點(diǎn)高效視頻編碼（Multi View-High Efficiency Video Coding，MV-HEVC）標(biāo)準(zhǔn)[4]。除此之外，它還引入了深度圖的概念，其中每個(gè)視點(diǎn)都可以有一個(gè)額外的深度圖。將基于深度圖的渲染（Depth-Image-based Rendering，DIBR）技術(shù)應(yīng)用在HEVC中，這種編碼方法被稱為MVD[5]。由此，人們將傳統(tǒng)的多視點(diǎn)視頻編碼分為兩類，即基于視點(diǎn)預(yù)測(cè)的多視點(diǎn)視頻編碼和基于深度圖的多視點(diǎn)視頻編碼。

2.1 基于視點(diǎn)預(yù)測(cè)的多視點(diǎn)視頻編碼

MV-HEVC是當(dāng)前最先進(jìn)的多視點(diǎn)視頻編碼標(biāo)準(zhǔn)，它啟發(fā)了許多對(duì)其框架內(nèi)模塊改進(jìn)的工作。HANNUKSELA等人[4]對(duì)HEVC的多視點(diǎn)擴(kuò)展做了階段性總結(jié)，并描述了多視點(diǎn)視頻編碼的標(biāo)準(zhǔn)做法，為未來(lái)的工作樹(shù)立了一個(gè)重要的里程碑。ROODAKI等人[6]在MV-HEVC的基礎(chǔ)上提出了一種視點(diǎn)級(jí)的率失真（Rate Distortion，RD）模型，他們推導(dǎo)出一個(gè)將視點(diǎn)間和視點(diǎn)內(nèi)的差異考慮在內(nèi)的RD模型，以更準(zhǔn)確地估計(jì)每個(gè)視點(diǎn)的總體碼率。為了解決運(yùn)動(dòng)矢量（Motion Vector，MV）預(yù)測(cè)效率低下的問(wèn)題，LEE等人[7]提出了一種基于相鄰兩個(gè)視點(diǎn)間幾何相互關(guān)系的幀內(nèi)MV預(yù)測(cè)，這些幾何相互關(guān)系來(lái)源于對(duì)極幾何、相似度和仿射變換。與傳統(tǒng)的質(zhì)量失真/質(zhì)量碼率（Quality Distortion/Quality Rate，QD/QR）模型不同，LI等人[8]提出了一種基于基礎(chǔ)視點(diǎn)和依賴視點(diǎn)之間精確目標(biāo)碼率關(guān)系的多視點(diǎn)碼率分配方法。為了降低編碼復(fù)雜度，JIANG等人[9]提出了一種幀間預(yù)測(cè)方法，通過(guò)感知失真閾值模型，揭示模式選擇與編碼失真閾值間的關(guān)系。

2.2 基于深度圖的多視點(diǎn)視頻編碼

針對(duì)深度圖序列，人們從不同角度提出了各種編碼方法，如深度圖的率失真優(yōu)化、增強(qiáng)、碼率分配及虛擬視點(diǎn)合成等。MüLLER等人[10]通過(guò)改進(jìn)運(yùn)動(dòng)補(bǔ)償模塊來(lái)編碼深度圖序列，進(jìn)而提出了一種基于視點(diǎn)間預(yù)測(cè)的深度圖HEVC擴(kuò)展方法。通過(guò)對(duì)中間視點(diǎn)的深度圖和相鄰視點(diǎn)的紋理圖進(jìn)行合成，大大節(jié)省了編碼碼率。該方法在MVC的發(fā)展中樹(shù)立了一個(gè)重要的里程碑。為了解決合成中間視點(diǎn)邊界質(zhì)量下降的問(wèn)題，RAHAMAN等人[11]使用高斯混合模型來(lái)分離前景，以填補(bǔ)合成視點(diǎn)中的空洞。此外，通過(guò)幀插值的方式可以進(jìn)一步減少視頻傳輸?shù)臄?shù)據(jù)量。在文獻(xiàn)[12]中，YANG等人利用深度圖和視點(diǎn)間的相關(guān)性提出了一種幀插值方法，該方法將幀分解成多個(gè)層，利用相鄰的視點(diǎn)和深度圖重建遮擋區(qū)域。這種方法在顯著提高插值幀質(zhì)量的同時(shí)，進(jìn)一步減少了MVD傳輸?shù)臄?shù)據(jù)量?？紤]到深度圖在中間視點(diǎn)構(gòu)建中的應(yīng)用，改進(jìn)MVC的一個(gè)可行方法是獲取準(zhǔn)確的深度圖。YANG等人[13]提出了一種跨視點(diǎn)多邊濾波方案，利用不同間隙的相鄰視點(diǎn)的顏色和深度先驗(yàn)來(lái)提高深度圖的質(zhì)量。

研究人員研究的另一個(gè)問(wèn)題是紋理和深度圖之間的碼率分配。在傳統(tǒng)的率失真優(yōu)化中，深度圖是不需要呈現(xiàn)給用戶的。由此GAO等人[14]提出了一種聯(lián)合信源編碼和信道編碼方法來(lái)優(yōu)化碼率分配。為了降低編碼模式選擇的復(fù)雜度，ZHANG等人[15]提出了一種基于深度直方圖投影和允許深度失真的高效MVD方案。除此之外，LIN等人[16]提出了一種基于視覺(jué)感知的多視點(diǎn)深度快速編碼方法，提升了編碼效率。

3 基于深度學(xué)習(xí)的多視點(diǎn)視頻編碼

隨著深度學(xué)習(xí)熱潮的到來(lái)，很多方法將深度學(xué)習(xí)引入到多視點(diǎn)視頻編碼中，并大大改善了性能。這些工作包括基于深度學(xué)習(xí)的多視點(diǎn)視頻編碼優(yōu)化和基于深度學(xué)習(xí)的多視點(diǎn)視頻編碼后處理。其中，基于深度學(xué)習(xí)的多視點(diǎn)視頻編碼優(yōu)化指的是基于深度學(xué)習(xí)對(duì)多視點(diǎn)視頻編碼框架中的某一模塊進(jìn)行優(yōu)化；基于深度學(xué)習(xí)的多視點(diǎn)視頻編碼后處理指的是在多視點(diǎn)視頻編碼框架外對(duì)解碼后的視頻進(jìn)行增強(qiáng)。然而迄今為止，還沒(méi)有開(kāi)發(fā)出端到端的深度多視點(diǎn)視頻編解碼器，所以暫不討論。

3.1 基于深度學(xué)習(xí)的多視點(diǎn)視頻編碼優(yōu)化

基于深度學(xué)習(xí)的多視點(diǎn)視頻編碼優(yōu)化方法將深度學(xué)習(xí)引入多視點(diǎn)視頻編碼框架的特定模塊中，用于提升編碼效果。JIA等人[17]將生成對(duì)抗網(wǎng)絡(luò)（Generative Adversarial Network，GAN）與傳統(tǒng)的編碼框架相結(jié)合，合成高質(zhì)量的視點(diǎn)并提高編碼效率。此外，多視點(diǎn)視頻編碼通常利用視點(diǎn)內(nèi)的幀間相關(guān)性來(lái)實(shí)現(xiàn)更有效的壓縮。GU等人[18]提出了一種光場(chǎng)壓縮方法，將光場(chǎng)圖像看作MV-HEVC編碼框架下的多視點(diǎn)序列，利用神經(jīng)網(wǎng)絡(luò)合成虛擬幀并為設(shè)計(jì)的分層編碼結(jié)構(gòu)提供額外參考。LEI等人[19]提出了一種用于多視點(diǎn)視頻編碼的深度參考幀生成方法，通過(guò)視差引導(dǎo)的生成網(wǎng)絡(luò)轉(zhuǎn)換不同視點(diǎn)之間的視差。LIU等人[20]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）的多視點(diǎn)深度快速編碼方法，利用可學(xué)習(xí)的邊緣分類網(wǎng)絡(luò)降低編碼復(fù)雜度。

3.2 基于深度學(xué)習(xí)的多視點(diǎn)視頻編碼后處理

將深度學(xué)習(xí)應(yīng)用于多視點(diǎn)視頻編碼框架的后處理階段，不僅可以提高多視點(diǎn)視頻的質(zhì)量，還能有效地消除壓縮偽影。ZHU等人[21]提出了一種用于3D-HEVC的視點(diǎn)合成增強(qiáng)方法，將壓縮偽影去除視為圖像恢復(fù)任務(wù)，并以此重建無(wú)失真的合成圖像。JAMMAL等人[22]提出了一種多視點(diǎn)質(zhì)量增強(qiáng)方法，在沒(méi)有傳統(tǒng)深度信息的情況下直接學(xué)習(xí)低質(zhì)量視點(diǎn)和高質(zhì)量視點(diǎn)之間的映射關(guān)系。CHEN等人[23]提出了一個(gè)殘差學(xué)習(xí)框架，該框架利用視點(diǎn)間的相關(guān)性及多模態(tài)先驗(yàn)來(lái)恢復(fù)目標(biāo)視點(diǎn)的深度視頻。最近，HE等人[24]提出一種基于圖神經(jīng)網(wǎng)絡(luò)（Graph Neural Network，GNN）的壓縮偽影去除方法，通過(guò)融合相鄰視點(diǎn)信息和抑制誤導(dǎo)信息來(lái)減少壓縮偽影。

4 總結(jié)與展望

傳統(tǒng)的多視點(diǎn)視頻編碼方法衍生出MV-HEVC和3D-HEVC兩類標(biāo)準(zhǔn)。MV-HEVC在HEVC的基礎(chǔ)上增加了視點(diǎn)預(yù)測(cè)，而3D-HEVC又在其基礎(chǔ)上引入了邊信息的概念，將深度圖作為邊信息，以提高多視點(diǎn)視頻的編碼效率。但是，由于遮擋和變性問(wèn)題，深度圖難以精確地反映原始視點(diǎn)的信息，導(dǎo)致重建視頻的質(zhì)量偏低。

基于此，許多工作結(jié)合著傳統(tǒng)多視點(diǎn)編碼框架進(jìn)行。深度學(xué)習(xí)浪潮的到來(lái)，進(jìn)一步提高了這種混合編碼框架的效果。一類方法是將框架內(nèi)的模塊用基于深度學(xué)習(xí)的模塊進(jìn)行替代，另一類方法則是在解碼端對(duì)重建視頻進(jìn)行增強(qiáng)。引入深度學(xué)習(xí)后的這兩類多視點(diǎn)視頻編碼方法雖然對(duì)提高編碼效率和提升重建質(zhì)量有一定效果，但是由于其本質(zhì)是依賴于傳統(tǒng)多視點(diǎn)視頻編碼框架的方法，并不是端到端進(jìn)行優(yōu)化，因此沒(méi)能充分挖掘出大批量數(shù)據(jù)集的潛能。

因此，基于深度學(xué)習(xí)的端到端多視點(diǎn)視頻編碼方法研究工作非常有必要展開(kāi)。這類方法可以通過(guò)端到端優(yōu)化及數(shù)據(jù)驅(qū)動(dòng)的方式，有效去除傳統(tǒng)多視點(diǎn)視頻編碼框架內(nèi)模塊的性能冗余，達(dá)到更進(jìn)一步的率失真性能。

5 結(jié) 語(yǔ)

多視點(diǎn)視頻作為實(shí)現(xiàn)元宇宙的重要載體，在虛擬現(xiàn)實(shí)場(chǎng)景等方面起著重要作用，在深度學(xué)習(xí)蓬勃發(fā)展的今天，正成為研究的熱點(diǎn)問(wèn)題之一。本文介紹了多視點(diǎn)視頻的特點(diǎn)及應(yīng)用，討論了多視點(diǎn)視頻編碼的分類，并根據(jù)編碼方法是否涉及深度學(xué)習(xí)，詳細(xì)介紹了傳統(tǒng)的多視點(diǎn)視頻編碼和基于深度學(xué)習(xí)的多視點(diǎn)視頻編碼現(xiàn)有的工作進(jìn)展。其中，傳統(tǒng)多視點(diǎn)視頻編碼方法可分為基于視點(diǎn)預(yù)測(cè)的和基于深度圖的多視點(diǎn)視頻編碼方法，基于深度學(xué)習(xí)的多視點(diǎn)視頻編碼方法可分為基于深度學(xué)習(xí)的多視點(diǎn)視頻編碼優(yōu)化和多視點(diǎn)視頻編碼后處理。最后對(duì)現(xiàn)有方法進(jìn)行了總結(jié)，并結(jié)合深度學(xué)習(xí)背景，對(duì)多視點(diǎn)視頻編碼的未來(lái)發(fā)展方向給出了一些看法。