杜寶禎
摘 要 針對(duì)現(xiàn)有的恰可感知失真模型并不適用與立體全景場(chǎng)景的問(wèn)題,開(kāi)展了基于人眼視覺(jué)系統(tǒng)(Human Visual System,HVS)感知分析的立體全景視頻失真測(cè)度研究,并建立了失真測(cè)度模型,為下一步立體全景視頻編碼的優(yōu)化研究打下了理論基礎(chǔ)。
關(guān)鍵詞 立體全景;視頻編碼;失真測(cè)度
引言
目前全景視頻由于其“身臨其境”的良好視覺(jué)效果,已經(jīng)越來(lái)越多地進(jìn)入到人們的生產(chǎn)生活,特別是在游戲、模擬駕駛領(lǐng)域[1]。但全景、特別是立體全景,其數(shù)據(jù)量極大,這極大增加了編碼端的負(fù)擔(dān),傳統(tǒng)的編碼理論壓縮已接近極限,而且普通的恰可感知失真模型并不適用與立體全景場(chǎng)景,因此如何發(fā)掘HVS感知特性,建立面向立體全景的失真測(cè)度模型,對(duì)現(xiàn)有視頻編碼器改進(jìn)意義重大[2]。
1主觀感知實(shí)驗(yàn)與模型建立
目前通過(guò)大量主觀實(shí)驗(yàn),測(cè)定不同編碼失真程度下,立體全景視頻的平均主觀分?jǐn)?shù)值(Mean Opinion Score,MOS),得到第一手主觀視覺(jué)質(zhì)量的實(shí)驗(yàn)資料,該部分工作雖然非常耗時(shí),但對(duì)后續(xù)建模研究及其重要,是后續(xù)立體全景感知失真閾值模型的建立工作的基礎(chǔ)。
編碼失真視頻庫(kù)的構(gòu)建
在編碼失真視頻庫(kù)的構(gòu)建方面,實(shí)驗(yàn)選取Yang等[3]文獻(xiàn)中提供的M組立體全景序列作為原始立體全景序列。在此基礎(chǔ)上,為了進(jìn)一步生成各編碼失真等級(jí)的立體全景視頻,我們基于3D-HEVC編碼平臺(tái),采用的N個(gè)等級(jí)的編碼量化參數(shù)(Quantization Parameter,QP)對(duì)原始立體全景視頻進(jìn)行編碼,以得到各失真等級(jí)的立體全景測(cè)試視頻。其編碼失真的量化參數(shù)具體選擇為:
其中δ為編碼量化參數(shù)間隔,該主觀實(shí)驗(yàn)測(cè)試中QP0設(shè)置為25。考慮到實(shí)驗(yàn)樣本數(shù)量、代表性以及主觀實(shí)驗(yàn)工作量3個(gè)方面,在本實(shí)驗(yàn)中,M設(shè)置為8,N設(shè)置為5,δ設(shè)置為5,其中M組原始立體全景序列分別為Chat、Experience、Pedestrian、Photograph、Riverside、Scenic_spot、Sign_in、Tourist。按照上述設(shè)置的編碼失真處理后,本實(shí)驗(yàn)共有M×N組,即多達(dá)40組不同等級(jí)的編碼失真立體全景視頻用于主觀實(shí)驗(yàn)。
主觀實(shí)驗(yàn)采用HTC Vive Pro頭戴式顯示器(Head-Mounted Display,HMD)進(jìn)行觀看。硬件配置為:①DELL T630服務(wù)器,NVIDIA GTX 1080 GPU,32G內(nèi)存和硬盤(pán)1TB。②HMD選擇HTC Vive Pro,其雙目分辨率為2880×1600。③跟蹤站一對(duì),用于定位和跟蹤佩戴HMD的主觀實(shí)驗(yàn)測(cè)試者交互需求,主觀實(shí)驗(yàn)測(cè)試者通過(guò)HMD的HDMI接口連接與PC交互。
實(shí)驗(yàn)方法采用遵循提案[4]絕對(duì)類別評(píng)分(Absolute Category Rating,ACR)的單刺激法(Single Stimulus method, SS)進(jìn)行主觀打分。該主觀實(shí)驗(yàn)邀請(qǐng)25名主觀實(shí)驗(yàn)測(cè)試者參與主觀測(cè)試實(shí)驗(yàn)打分,平均年齡25周歲,性別分布均勻,且先前無(wú)立體視覺(jué)主觀打分經(jīng)驗(yàn),視力或矯正視力正常。在正式進(jìn)行主觀打分之前,需要對(duì)主觀實(shí)驗(yàn)測(cè)試者進(jìn)行預(yù)先培訓(xùn)。在培訓(xùn)中,主觀實(shí)驗(yàn)測(cè)試者給予觀看一定數(shù)量的立體全景視頻,這使其可以預(yù)先獲得各失真等級(jí)的視頻質(zhì)量主觀感知,并體驗(yàn)主觀打分的評(píng)級(jí)協(xié)議,然后可以開(kāi)始進(jìn)行主觀評(píng)估。
為了使主觀實(shí)驗(yàn)更客觀,對(duì)M×N組不同等級(jí)的編碼失真立體全景視頻進(jìn)行隨機(jī)排序。主觀打分,仍遵循提案[4],評(píng)分分值從1分到10分區(qū)間共10級(jí)評(píng)分,其中1分表示主觀質(zhì)量最差,10分表示主觀質(zhì)量最好。實(shí)驗(yàn)過(guò)程中,每位觀察者需要對(duì)M×N共40組編碼失真立體全景視頻進(jìn)行主觀打分,觀看時(shí)間以及打分時(shí)間、休息時(shí)間間隔均嚴(yán)格遵照提案[4]進(jìn)行。每一次主觀質(zhì)量評(píng)分試驗(yàn)都是相互獨(dú)立且無(wú)關(guān)的,因此,本次主觀實(shí)驗(yàn)共計(jì)可獲得1000份主觀打分的原始實(shí)驗(yàn)數(shù)據(jù)。
2實(shí)驗(yàn)結(jié)果與分析
針對(duì)主觀實(shí)驗(yàn)的打分?jǐn)?shù)據(jù),我們首先采用提案ITU-R BT.500-11[5]中描述的數(shù)據(jù)篩選方法,去除評(píng)級(jí)與其他主觀實(shí)驗(yàn)測(cè)試者不一致的奇異值。在進(jìn)一步統(tǒng)計(jì)分析基礎(chǔ),最終得到了基于不同編碼QP量化參數(shù)下的失真等級(jí)與MOS(置信區(qū)間為95%)之間的關(guān)系。圖1以Chat、Pedestrian序列為例,給出了失真等級(jí)與MOS的直觀表述,顯然,主觀質(zhì)量隨失真水平的提高而持續(xù)下降。
進(jìn)一步在上述統(tǒng)計(jì)基礎(chǔ)上,我們計(jì)算了各失真等級(jí)下各失真立體全景視頻序列的均方誤差(Mean Squared Error ,MSE),并對(duì)QP、MSE以及MOS進(jìn)行擬合,得到三者的關(guān)系模型:
其中各系數(shù)的推薦取值和95%置信區(qū)間如表1所示。
可以看到當(dāng)編碼量化參數(shù)QP逐漸升高時(shí),失真水平升高,主觀質(zhì)量MOS值呈下降趨勢(shì),這與現(xiàn)有失真理論一致。另外,實(shí)驗(yàn)進(jìn)一步還發(fā)現(xiàn),且QP與MOS以及MSE與MOS均呈現(xiàn)良好的線性關(guān)系,這對(duì)下一步感知失真測(cè)度模型建立具有重要指導(dǎo)意義。由于MSE仍是傳統(tǒng)意義的失真度量,下一步研究,我們將著重研究更具有立體全景感知意義的失真與主觀質(zhì)量的關(guān)系,進(jìn)一步應(yīng)用于實(shí)際的視頻編碼應(yīng)用。
3結(jié)束語(yǔ)
本文工作,通過(guò)主觀實(shí)驗(yàn)建立了立體全景視覺(jué)感知環(huán)境下編碼QP、MSE與主觀視覺(jué)質(zhì)量MOS值之間的關(guān)系模型,為下一步立體全景感知編碼打下了理論基礎(chǔ)。
參考文獻(xiàn)
[1] Liu X,Xiao Q,Gopalakrishnan V,et al. 360° Innovations for Panoramic Video Streaming [C].Proceedings of the 16th ACM Workshop on Hot Topics in Networks. 2017:50-56.
[2] Zare A,Aminlou A,Hannuksela M M,et al. HEVC-compliant tile-based streaming of panoramic video for virtual reality applications[C].Proceedings of the 24th ACM international conference on Multimedia. 2016:601-605.
[3] Yang J,Liu T,Jiang B,et al. 3D panoramic virtual reality video quality assessment based on 3D convolutional neural networks[J]. IEEE Access,2018(6):38669-38682.
[4] P.910: Subjective video quality assessment methods for multimedia applications. ITU-T Recommendation, approved in 1999-09.
[5] Recommendation ITU-R BT.500-11: Methodology for the subjective assessment of the quality of television pictures[S].Geneva, Switzerland: International Telecommunication Union,2002.