曾煥強 丁瑞 黃海靚 陳婧 朱建清
(1.華僑大學(xué)工學(xué)院,福建泉州 362021;2.華僑大學(xué)信息科學(xué)與工程學(xué)院,福建廈門 361021)
隨著視覺媒體技術(shù)的快速發(fā)展,人們在學(xué)習(xí)、工作和休閑等各個方面都渴望更加真實的視覺體驗,沉浸式視頻(Immersive video)獲得了越來越多的關(guān)注。沉浸式的概念早期出現(xiàn)于電影領(lǐng)域,通過覆蓋人眼至少120°(水平)×70°(垂直)視場角的巨幕,與音頻及特效系統(tǒng)相輔助,能讓觀眾完全沉浸在視聽環(huán)境中并有身臨其境的感覺[1]。目前,沉浸式視頻通過人機交互、虛擬現(xiàn)實(Virtual Reality,VR)等技術(shù),可將現(xiàn)實環(huán)境營造成兼具畫面包圍感和沉浸式音響的場景,并通過頭戴式顯示器(Head-Mounted Display,HMD)、傳感器及手柄等設(shè)備實現(xiàn)沉浸式體驗。
伴隨著數(shù)字時代技術(shù)的更新,沉浸式視頻也在不斷更新迭代,高分辨率、高幀率、高色深、廣色域、高動態(tài)的視頻能提供更為豐富的畫面層次,保持更為精致的畫面細節(jié),進一步強化沉浸式視頻的空間表現(xiàn)力和臨場感,更好地提升沉浸式視聽效果。與此同時,通過HMD 觀察的沉浸式視頻格式也不斷在變化,MPEG 會議上針對沉浸式媒體的標(biāo)準(zhǔn)化工作制定了MPEG-I標(biāo)準(zhǔn)[2],其根據(jù)視頻格式將沉浸式視頻分為了三個階段:3 個自由度(3DoF)、3DoF+(3 Degrees of Freedom Plus)和6DoF[3-5]。
與傳統(tǒng)視覺信號相同,沉浸式視頻在采集、處理、傳輸和展示等過程中,不可避免地受到外界干擾而導(dǎo)致視頻質(zhì)量下降。所以如何量化沉浸式視頻的質(zhì)量損耗并進行質(zhì)量評價,對于沉浸式視頻處理研究領(lǐng)域的發(fā)展具有學(xué)術(shù)研究意義和現(xiàn)實應(yīng)用價值。近年來,基于3DoF 的沉浸式視頻質(zhì)量評價研究已引起學(xué)術(shù)界的廣泛關(guān)注,并取得了初步進展[6-10],關(guān)于6DoF 沉浸式視頻的相關(guān)研究也在逐步探索中。沉浸式視頻質(zhì)量評價的研究目標(biāo)是設(shè)計符合人眼視覺主觀感知的算法模型,用以準(zhǔn)確高效地評估視頻質(zhì)量。研究內(nèi)容主要包括:主觀質(zhì)量評價數(shù)據(jù)庫和客觀質(zhì)量評價方法。
本文其余部分的安排如下:第2 節(jié)介紹基于3DoF 的沉浸式視頻質(zhì)量評價數(shù)據(jù)庫和質(zhì)量評價算法,第3節(jié)介紹涉及6DoF 沉浸式視頻質(zhì)量評價的主要技術(shù),第4節(jié)給出總結(jié)和未來的展望。
如圖1 所示,3DoF 沉浸式視頻指觀察者在固定位置上于三個旋轉(zhuǎn)度(偏航角(Yaw)、俯仰角(Pitch)、滾轉(zhuǎn)角(Roll))上自由活動,即在一個固定的觀看位置上環(huán)顧四周,如360°視頻[11],即具有360°寬廣視野感知范圍的視頻,用戶可視作球體的中心點,與球體表面的不同視頻信息具有相同距離,并可通過改變方向來選擇觀看內(nèi)容。3DoF+沉浸式視頻是對3DoF 的有限修改,即添加了三個位置維度(X,Y,Z)上頭部的有限范圍活動(腳步固定,不允許走動),其更加符合用戶感知事物的真實過程,并能兼容混合現(xiàn)實(Mixed Reality,MR)和增強現(xiàn)實(Augmented Reality,AR)。6DoF 沉浸式視頻是3DoF+的進一步改進,在3DoF視頻的基礎(chǔ)上額外提供3 個平動自由度,即視頻內(nèi)容可根據(jù)觀眾位置的移動而改變,支持用戶更大范圍的觀察行動。
圖1 關(guān)于3DoF(左)、3DoF+(中)、6DoF(右)的劃分[3]Fig.1 About the classification of 3DoF(left),3DoF+(middle),6DoF(right)[3]
在3DoF 的概念提出之前,通過HMD 實現(xiàn)的沉浸式體驗通?;谧匀?屏幕視頻和360°視頻,而現(xiàn)有的3DoF 沉浸式視頻一般都指代360°視頻(或稱為全向視頻、全景視頻)。用戶可通過改變方向來選擇觀看內(nèi)容。
沉浸式視頻主觀評價方法一般遵照國際標(biāo)準(zhǔn)ITU-R BT.500-13[12]中所規(guī)定的實驗設(shè)置搭建主觀質(zhì)量評價平臺,在特定環(huán)境內(nèi)觀看測試序列并基于各項規(guī)定方法進行打分,再對評分進行處理分析得到主觀平均得分(Mean Opinion Score,MOS)或主觀差異平均得分(Differential Mean Opinion Score,DMOS),以此反映失真沉浸式視頻的感知質(zhì)量退化?,F(xiàn)有的主觀評價方法主要分為以下幾種:
(1)雙刺激損傷尺度法(Double Stimulus Impairment Scale,DSIS):將參考視頻和失真視頻以“視頻對”的形式展示給受試者,觀看順序為參考視頻在前,失真視頻在后,即對參考視頻有主觀印象后再進行失真視頻的評分,通常采用表1 所示的5 分制評分表。
表1 DSIS的5分制失真測度Tab.1 Distortion measures on the 5-point scale for DSIS
(2)雙刺激連續(xù)質(zhì)量尺度法(Double Stimulus Continuous Quality Scale,DSCQS):與DSIS 觀看方式大致相同,區(qū)別是參考和失真視頻的播放順序隨機,且二者都需要評分,通常采用圖2 所示的5 分制失真測度。
圖2 DSCQS的評分測度Fig.2 Scoring measures of DSCQS
(3)單刺激法(Single Stimulus Methods,SSM):在不觀看參考視頻的前提下,以隨機方式顯示測試視頻并進行主觀評分,具體實現(xiàn)時根據(jù)播放次數(shù)分為兩種方式:不重復(fù)播放視頻序列(Single Stimulus,SS)和重復(fù)播放測試序列(Single Stimulus with Multiple Repetition,SSMR)。除了常用的5 分制評分,還可以通過采用圖3 所示9 分制或11 分制提高精度[12]。
圖3 SSM評分測度Fig.3 Scoring measures of SSM
(4)單刺激連續(xù)質(zhì)量評估方法(Single Stimulus Continuous Quality Evaluation,SSCQE):在不觀看參考視頻的前提下,選擇序列的時間較長,分值取平均,對序列評分時不僅考慮分值大小,還需關(guān)注評分時長。
(5)同時雙激勵連續(xù)質(zhì)量評估方法(Simultaneously Double Stimulus Continuous Evaluation,SDSCE):該方法以SSCQE 為基準(zhǔn)條件而制定,用以衡量較長序列的視頻質(zhì)量。
(6)多媒體視頻質(zhì)量主觀評估方法(Subjective Assessment Method for Video Quality evaluation,SAMVIQ)[13]:1)訓(xùn)練測試人員,播放一組參考視頻及相應(yīng)的測試序列(質(zhì)量從高到低排列),給定測試人員以基本的預(yù)期得分;2)進行預(yù)測試,播放一組包含參考視頻和三個失真視頻的視頻集合,當(dāng)測試人員的評分結(jié)果與預(yù)期得分相匹配時可正式測試;3)測試人員觀看多類視頻序列,每組包含一個原始視頻和三個隨機的失真序列,并基于連續(xù)評分測度進行打分,即在0 到100 之間的連續(xù)尺度(分5 個等級分別表示很好、好、一般、差、很差)上對視頻序列進行打分。
沉浸式視頻質(zhì)量評價數(shù)據(jù)庫反映了人類視覺系統(tǒng)對于沉浸式視頻的主觀質(zhì)量感知,是設(shè)計和評判沉浸式視頻客觀質(zhì)量評價方法的重要依據(jù)。目前,基于3DoF 沉浸式視頻的主觀質(zhì)量評價數(shù)據(jù)庫已經(jīng)較為成熟,考慮到數(shù)據(jù)庫的多樣性和實用性,本文具體介紹幾種常用的數(shù)據(jù)庫,如表2所示。
表2 幾種常用沉浸式視頻數(shù)據(jù)庫Tab.2 Several common immersive video databases
1)NAMA3DS1-COSPAD1 數(shù)據(jù)庫[14]:由10 個原始參考視頻、100個失真視頻及對應(yīng)主觀評分組成,失真類型包括H.264/AVC壓縮失真、JPEG2000壓縮失真、圖像銳化和下采樣銳化等。
2)QI-SVQA 數(shù)據(jù)庫[15]:包括9 個原始視頻和450個失真視頻,失真類型包括高斯模糊和H.264壓縮失真。
3)IVQAD 2017 數(shù)據(jù)庫[16]:由Insta 360 4K 球形VR 攝像機拍攝的10個不同場景構(gòu)成,涵蓋了人物、草坪、建筑物等室內(nèi)外場景,通過設(shè)置不同的幀率、分辨率和碼率模擬失真情況。
4)VR-VQA48 數(shù)據(jù)集[17]:采集了12 個參考視頻,并通過設(shè)置4種QP值模擬壓縮失真。
5)VQA-ODV[18]數(shù)據(jù)庫:參考視頻涉及60 個不同的場景,包括真實場景與CG 合成場景。該數(shù)據(jù)庫的失真視頻構(gòu)建考慮了沉浸式視頻在傳輸、重建以及顯示過程中可能引入的失真效應(yīng),即3 種不同量化參數(shù)(QP=27、37、42)下的H.265 壓縮失真與3 種不同投影格式(ERP、RCMP、TSP)的組合失真,每個視頻序列對應(yīng)9種質(zhì)量損失程度。
6)IIP-IVQD數(shù)據(jù)集[19]:在10個參考場景下通過HEVC壓縮失真模擬獲取50個失真視頻。
7)VRQ-TJU 數(shù)據(jù)集[20]:包含13 個VR 原始視頻,并基于H.264和JPEG2000壓縮失真構(gòu)建失真視頻數(shù)據(jù)集,其中包含104 個對稱視頻和260 個非對稱視頻。
8)VOD-VQA 數(shù)據(jù)庫[21]:選擇18 個360°視頻序列作為參考視頻,通過設(shè)置不同的幀大小、幀率和QP值得到774個失真視頻。
主觀實驗的觀看設(shè)備通常為HMD,后續(xù)再采用不同的主觀評分標(biāo)準(zhǔn)進行打分。值得注意的是,現(xiàn)有的主觀實驗僅能實現(xiàn)HMD 觀看者的口述評分與手動記錄數(shù)據(jù),主觀質(zhì)量評價實驗所需的大量數(shù)據(jù)處理工作仍然是亟待解決的一個問題。
沉浸式視頻的客觀質(zhì)量評價方法是通過數(shù)學(xué)統(tǒng)計方法預(yù)測失真視頻的質(zhì)量損耗,可以有效彌補主觀質(zhì)量評價方法適用范圍的局限,主觀實驗物力及人力耗費過高,做不到實時性,同時結(jié)果易受觀察者和觀測環(huán)境的影響??陀^質(zhì)量評價方法計算簡便,實用性強。根據(jù)對參考視頻的依賴程度可分為全參考、半?yún)⒖己蜔o參考方法[22]?,F(xiàn)有的沉浸式視頻客觀評價方法主要是針對3DoF 沉浸式視頻,包括全參考質(zhì)量評價和無參考質(zhì)量評價兩種類型。
關(guān)于全參考質(zhì)量評價方法,Sun等[22]提出了一種基于球形均勻加權(quán)的方法來準(zhǔn)確評估失真360°視頻的客觀質(zhì)量,通過對投影平面上每個像素點的誤差引入對應(yīng)的權(quán)重值,避免了由重采樣表示空間轉(zhuǎn)換到觀察空間時產(chǎn)生的誤差傳播。Azevedo等[23]提出了一種基于視口的多度量融合方法,通過組合從360°視頻的視口中提取的多種時空客觀質(zhì)量指標(biāo)(特征)來實現(xiàn)失真360°視頻的質(zhì)量評估。Gao等[24]考慮到失真空間特征和對應(yīng)時間變化對人眼視覺的影響,提出了一種時空建模方法,并將三種現(xiàn)有的VQA指標(biāo)(S-PSNR、CPP-PSNR、WS-PSNR)集成進該方法,提高了失真360°視頻的質(zhì)量評估準(zhǔn)確性。
關(guān)于無參考沉浸式視頻質(zhì)量評價方法,Zhang等[25]通過整合代表不同失真因素的質(zhì)量因子,構(gòu)建了一種VR 環(huán)境下的視聽質(zhì)量評估框架。Li等[26]同時考慮于視口方案(viewport proposal)和視口顯著性預(yù)測,提出了基于視口方案的CNN 方法來預(yù)測失真360°視頻的質(zhì)量評分。Zhang等[27]基于球域提取360°視頻的空間和時間特征,并通過多核學(xué)習(xí)(Multiple Kernel Learning,MKL)回歸計算失真視頻質(zhì)量分?jǐn)?shù)。Yang等[28]設(shè)計了一種端到端的神經(jīng)網(wǎng)絡(luò)模型來實現(xiàn)360°視頻質(zhì)量評價,該算法通過結(jié)合球形CNN 和非局部神經(jīng)網(wǎng)絡(luò),有效地提取360°視頻的復(fù)雜時空特征。
然而,360°視頻不支持人眼的運動視差,觀看360°視頻時,物體的相對位置信息無法根據(jù)觀看者與物體的相對位置變化而更新,這與用戶在現(xiàn)實世界中的體驗背道而馳,會導(dǎo)致感知的不適應(yīng)。3DoF+沉浸式視頻作為3DoF 至6DoF 階段的過渡產(chǎn)物,除了提供三個旋轉(zhuǎn)度上的體驗之外,還允許一定范圍的頭部活動,而6DoF視頻較3DoF+視頻進一步增加了用戶自由度,即視頻內(nèi)容可以根據(jù)用戶觀看位置的移動而改變。因此,6DoF 沉浸式視頻較3DoF視頻可提供正確的運動視差,帶來與真實世界更為相似的觀看體驗,并可進一步滿足沉浸式視頻的相關(guān)需求。
因此,觀測自由度及視差信息的增加使得基于3DoF 沉浸式視頻所設(shè)計的客觀質(zhì)量評價方法不適用于6DoF 視頻,如何探索出針對人類視覺系統(tǒng)和6DoF 沉浸式視頻特征的高效客觀質(zhì)量評價算法模型是當(dāng)前視頻處理領(lǐng)域的研究熱點。
MPEG-Ⅰ制定了沉浸式視頻標(biāo)準(zhǔn),具體涉及3DoF、3DoF+視頻及6DoF 視頻等等[29]。其中提及6DoF 視頻具有圖4 所示的三種類型:窗口式6DoF[30]、全向6DoF[31]以及6DoF。其中,窗口式6DoF需要借助顯示器的幫助,在窗口受限的情況下觀看視頻場景,窗口式6DoF 內(nèi)容是由普通2D 相機拍攝。全向6DoF 指提供不受限制的自由旋轉(zhuǎn)角度(Yaw、Pitch、Roll)和有限體積內(nèi)的小幅度身體平移活動,是一種受限制的6DoF形式,與3DoF+相似,但允許更大的視角范圍,全向6DoF 內(nèi)容是由全向(360°視頻)攝像機拍攝。
圖4 窗口式6DoF(左)、全向6DoF(中)和6DoF(右)[3]Fig.4 Windowed 6DoF(left)、Omnidirectional 6DoF(middle)和6DoF(right)[3]
MPEG-I 定義了6DoF 沉浸式視頻的源視頻格式,主要分為多視圖視頻加深度(Multiview Video Plus Depth,MVD)、多平面圖像(Multiplane Image,MPI)和多球 形圖像(Multi Sphere Image,MSI)。6DoF 視頻主要采用MVD 格式,如圖5 所示,具有每幀相關(guān)聯(lián)的多視圖紋理視頻和深度視頻,視頻子集為具有多個視圖的立體視頻格式,通常由多相機系統(tǒng)采集[32-35]。圖5(b)顯示的深度視頻序列場景與圖5(a)中的紋理視頻相對應(yīng),并可通過深度估計算法從后者提取。MVD 格式源自單視圖視頻加深度(Single-View Video Plus Depth,VPD),可利用深度圖來渲染虛擬視圖。由于MVD 格式表示的視圖合成基于多個紋理視圖和深度視圖,其合成視圖的質(zhì)量通常優(yōu)于VPD格式的質(zhì)量。MPI格式或MSI格式主要應(yīng)用于沉浸式光場視頻。將視頻的每一層像素固定為某一深度,MPI 視頻可近似為一疊排列在不同的深度的半透明彩色層,如圖6(a)所示,其是由二維規(guī)則網(wǎng)格圖像組成的單一矩形視頻。這些紋理視圖的分辨率相同,是由多個相機(如微透鏡陣列光場相機)拍攝得到的[36-37]。將來自相機陣列的視頻流編碼為一組具有RGBA 紋理的同心球體,得到如圖6(b)所示的MSI視頻。但由于MSI格式所占空間過大,存儲數(shù)據(jù)過多不易壓縮,不利于傳輸與展示,通常將其轉(zhuǎn)換為MPI格式以作后續(xù)處理。
圖5 6DoF沉浸式視頻的MVD視頻源格式Fig.5 MVD video source format for 6DoF immersive video
圖6 沉浸式光場視頻的MPI視頻和MSI視頻源格式Fig.6 MPI video and MSI video source formats for immersive light field video
MPEG-Ⅰ標(biāo)準(zhǔn)除了對沉浸式視頻做出的規(guī)劃和技術(shù)支持,其還提供部分可下載的測試參考序列(Common Test Conditions,CTC)[38],其中包含了紋理信息和深度信息。這些序列涵蓋了18 種不同場景,分別以普通視口的自然視圖或ERP 投影格式下的球面虛擬視圖呈現(xiàn)。目前,MPEG-Ⅰ標(biāo)準(zhǔn)架構(gòu)下已提出了許多關(guān)于6DoF 視頻的算法模型,如視頻的編碼和解碼技術(shù),用于提取紋理視頻中深度信息的深度估計技術(shù),以及對針對場景中某一目標(biāo)視點的虛擬視圖合成技術(shù)等??紤]到深度估計技術(shù)和虛擬視圖合成技術(shù)對沉浸式視覺感知的影響,二者已受到計算機圖形學(xué)領(lǐng)域的廣泛關(guān)注,并有望應(yīng)用于沉浸式質(zhì)量評價研究工作中。接下來我們分別介紹影響人眼視覺感知的6DoF 關(guān)鍵技術(shù):深度估計技術(shù)和虛擬視圖合成技術(shù)。
針對6DoF 沉浸式視頻的特征提取方案無法僅依靠紋理圖像來表征場景的全部信息,而深度信息表征了拍攝對象與相機之間的空間距離,可通過計算各點之間的相對距離對場景信息進行額外補充。具體來說,相機與拍攝場景中某個像素點的相對距離可由深度信息推斷,而深度信息一般以歸一化視差的形式來適應(yīng)人眼視覺系統(tǒng),即目標(biāo)像素點的灰度值反映了該點與攝像機的距離,因此更亮的區(qū)域?qū)?yīng)更高的視差(更小的相機拍攝距離)。然而,自然場景信息采集時可能無法直接獲取深度信息,深度估計技術(shù)應(yīng)運而生,即利用紋理信息來計算出場景深度信息[39-40]。
目前,獲取深度信息的方式主要分為主動方式和被動方式兩種。其中,主動方式需要采集設(shè)備自身發(fā)射能量,常用設(shè)備包括結(jié)構(gòu)光相機[41]、TOF 相機和激光雷達等。以TOF 相機[42]為例,其通過比較發(fā)射脈沖和反射脈沖的相位差來推算傳輸過程中的傳輸延遲,進而計算場景中拍攝對象與相機的距離。然而TOF 相機仍存在一些缺陷,比如相機的造價較高、采集過程易受噪聲的干擾、相機獲取的深度圖像分辨率不及紋理圖像的分辨率大,以及物體的邊緣深度信息不準(zhǔn)確等。此外,在被動獲取深度信息的方式中,雙目立體視覺[43-44]是比較通用的方法,即對同時獲得的兩張同一場景圖像使用匹配算法,找尋二者間相適配的像素點,再應(yīng)用三角原理得出視差,針對多張圖像進行相同運算得到場景深度信息。類似的,該算法同樣適用于同一場景下不同角度的圖像深度信息獲取。但基于雙目立體視覺獲取視差信息的過程易受像素點匹配精度的影響,其生成的視圖仍然存在一定誤差。除此之外,深度信息也能通過間接估算圖像的光度特征[45]、明暗特征[46]等特征獲取。以上方法主要都針對3DoF視頻設(shè)計,對于6DoF 視頻具有局限性,不能完全滿足其深度估計的相關(guān)需求。
為此,MPEG-Ⅰ標(biāo)準(zhǔn)提出一種高質(zhì)量的深度估計軟件(Depth Estimation Reference Software,DERS),目前已經(jīng)更新到DERS 8.0[47-49]。DERS 主要由表3所示的三個部分組成,即匹配成本、時間增強和圖像切割。首先,基于所有可能的標(biāo)簽(如深度信息)為參考圖像的每個像素計算一個誤差成本;其次,將每個像素和標(biāo)簽的最終誤差設(shè)定為圖像對的最小誤差;最后,將其進行圖形切割優(yōu)化,以找到每個像素的最佳深度估計。
表3 DERS算法框架[39]Tab.3 Basic framework of DERS[39]
6DoF 沉浸式視頻支持雙目立體視差、運動視差,提供了與現(xiàn)實世界更相似的觀看體驗。但是由于采集和存儲條件的限制,任意視點間的視覺信息不能完全獲取,即在位移、遮擋等情況下導(dǎo)致采集時的信息丟失?,F(xiàn)有情況下,如何有效利用已知視點預(yù)測目標(biāo)視點是6DoF 視頻重建及展示階段亟須解決的一項重要問題。
基于圖像的視圖合成算法通過參考已知視點的信息,利用3D-Warping 投影、插值等手段直接合成虛擬視圖,高效生成符合需求的虛擬視圖,因此基于圖像的虛擬視圖合成算法得到了廣泛應(yīng)用。此外,目前基于深度圖像探索算法模型對已知場景進行虛擬視圖合成的研究領(lǐng)域具有一定的熱點?;谏疃葓D像目標(biāo)視點的虛擬視圖合成方法(Depth Image Based Rendering,DIBR)[50-52]通過一組視頻序列(紋理視頻和深度視頻)和相應(yīng)的信息來生成非獲取視點的圖像,其算法框架如圖7所示,主要分為三步:3D-Warping 投影、融合和圖像修復(fù)。首先,對輸入紋理視圖及深度視圖進行變換,各自生成一個虛擬的目標(biāo)視圖;其次,融合兩幅生成的虛擬視圖;最后,對融合后產(chǎn)生的空洞進行填充修復(fù)。然而,DIBR 方法存在缺陷,其主要針對傳統(tǒng)2D場景。由于高自由度沉浸式視頻的映射方式區(qū)別于2D 視頻,滿足高自由度沉浸式視頻的虛擬視圖合成模型亟待探索。
圖7 DIBR算法基本框架Fig.7 Basic framework of DIBR
針對6DoF沉浸式視頻,MPEG-I標(biāo)準(zhǔn)提出兩種參考視圖合成工具RVS(Reference View Synthesizer)及VSRS(View Synthesis Reference Software)[53-55],克服了低數(shù)量參考視圖合成虛擬視圖的限制,支持任意數(shù)量的輸入視圖進行視圖合成,采用自然、逼真的渲染且無需事先進行3D 建模。值得注意的是,與RVS 相比,VSRS 在非平面相機對準(zhǔn)和步進方面的結(jié)果較差,然而這兩種軟件工具都顯示出較好的發(fā)展趨勢,即有助于在未來工作中推斷最佳輸入的相機位置及數(shù)量,滿足高自由度沉浸式視頻的采集和渲染需求。
深度估計技術(shù)和虛擬視圖合成技術(shù)對沉浸式視覺感知尤為重要,6DoF 沉浸式視頻相比于3DoF沉浸式視頻,表征的信息更多,因此更能帶來沉浸式的視覺感知體驗。對于沉浸式視頻的質(zhì)量評價而言,除了常用的紋理信息、邊緣信息和色度信息等,也需要考慮深度信息,用于模擬主觀感知場景過程中對景深信息的感知,因此深度估計技術(shù)對6DoF 視頻主觀評價過程具有重要意義。而虛擬視圖合成技術(shù)能夠?qū)θ我庖阎晥D間的虛擬視圖進行合成,視圖能夠進行任意切換滿足了6DoF 視頻觀看時更高的沉浸式視覺感知體驗。在6DoF 沉浸式視頻質(zhì)量評價研究工作中,除了利用多數(shù)經(jīng)典算法所考慮的紋理信息、色度信息等信息,如何利用這兩種技術(shù)設(shè)計出性能優(yōu)越、魯棒性好的算法模擬視覺感知,以此滿足6DoF 沉浸式視頻身臨其境的體驗需求,仍有待探索。
本文首先概述沉浸式視頻的概念和研究背景,然后就3DoF 沉浸式視頻的主觀質(zhì)量評價數(shù)據(jù)庫和客觀質(zhì)量評價算法展開介紹,最后分析影響6DoF沉浸式視頻質(zhì)量評價的相關(guān)技術(shù),并簡要介紹了最新成果。隨著人們在學(xué)習(xí)、工作和休閑等各個方面對視覺媒體不斷增強的視覺體驗需求,不同應(yīng)用場景下的視頻質(zhì)量評估和質(zhì)量感知優(yōu)化工作需求日益遞增。未來的研究工作中,端到端的沉浸式視頻處理系統(tǒng)在拍攝、制作、編轉(zhuǎn)碼、傳輸分發(fā)和呈現(xiàn)設(shè)備中仍存在很大的發(fā)展空間,高自由度沉浸式視頻也將在醫(yī)療、教育、虛擬游戲等領(lǐng)域得到廣泛應(yīng)用。因此,針對沉浸式視頻的質(zhì)量評價研究同時具有學(xué)術(shù)研究意義和現(xiàn)實應(yīng)用意義,其主觀和客觀研究方向有望深入探索并應(yīng)用于更多具體場景。