劉雨奇
(上海交通大學(xué),上海 200240)
隨著互聯(lián)網(wǎng)的普及和數(shù)字媒體技術(shù)的進(jìn)步,視頻逐漸成為人們娛樂(lè)和獲取信息的重要方式。伴隨各項(xiàng)技術(shù)的成熟和普及,人們對(duì)于視頻質(zhì)量有了更高的要求,高動(dòng)態(tài)范圍(High Dynamic Range,HDR)視頻成為視頻領(lǐng)域的熱點(diǎn)方向。相比于標(biāo)準(zhǔn)動(dòng)態(tài)范圍(Standard Dynamic Range,SDR)視頻,HDR視頻具有更接近真實(shí)場(chǎng)景的動(dòng)態(tài)范圍、更逼真的色彩、更沉浸的視覺(jué)體驗(yàn),帶動(dòng)了各個(gè)領(lǐng)域的更新?lián)Q代。
采集原生HDR視頻的過(guò)程比SDR視頻更加復(fù)雜,且在傳輸、用戶顯示的過(guò)程中也會(huì)導(dǎo)致多層次多類型的損傷。HDR視頻質(zhì)量直接影響用戶的體驗(yàn),這對(duì)HDR視頻的質(zhì)量評(píng)測(cè)提出了更高的要求。按照是否需要觀察者主觀參與評(píng)分來(lái)劃分,視頻質(zhì)量評(píng)價(jià)方法分為主觀評(píng)價(jià)方法和客觀評(píng)價(jià)方法兩大類。其中,客觀評(píng)價(jià)方法具有更高的實(shí)用價(jià)值,是本文的研究重點(diǎn)。
HDR視頻主觀質(zhì)量評(píng)價(jià)方法可以直觀反映觀看者的體驗(yàn),即在特定場(chǎng)景下,觀看者觀看以一定順序排列好的測(cè)試序列,并根據(jù)自身體驗(yàn)直接給出分?jǐn)?shù)。
國(guó)際電信聯(lián)盟無(wú)線電通信部門(ITU-Radiocommunication Sector,ITU-R)針對(duì)不同場(chǎng)景規(guī)范化了視頻主觀質(zhì)量評(píng)價(jià)的測(cè)試方法、環(huán)境參數(shù)、評(píng)價(jià)等級(jí)、測(cè)試數(shù)據(jù)以及后期數(shù)據(jù)處理[1]等。常用主觀評(píng)價(jià)方法如下:
(1)劣化等級(jí)評(píng)分法(DCR),使觀測(cè)者根據(jù)之前觀看的無(wú)損視頻來(lái)評(píng)價(jià)有損視頻等級(jí);
(2)絕對(duì)等級(jí)評(píng)分法(ACR),觀測(cè)者直接觀察有損視頻進(jìn)行評(píng)級(jí);
(3)配對(duì)比較法(PC),成對(duì)播放測(cè)試序列,并根據(jù)上一個(gè)觀看序列進(jìn)行評(píng)級(jí);
(4)視頻質(zhì)量主觀評(píng)估方法(SAMVIQ),綜合考慮顯性基準(zhǔn)和隱形基準(zhǔn),與DCR評(píng)測(cè)方案類似。
視頻主觀評(píng)價(jià)方法測(cè)試費(fèi)時(shí)費(fèi)力,無(wú)法滿足各類視頻系統(tǒng)的實(shí)時(shí)化評(píng)價(jià)需求,但其評(píng)價(jià)體系反映真實(shí)的觀看體驗(yàn),可以作為參考數(shù)據(jù)為客觀質(zhì)量評(píng)價(jià)的預(yù)測(cè)性能提供判斷依據(jù),是客觀質(zhì)量評(píng)價(jià)的設(shè)計(jì)基礎(chǔ)。但由于HDR高質(zhì)量原生視頻獲取困難,各方資源保密性較強(qiáng),目前沒(méi)有普適的HDR數(shù)據(jù)庫(kù)可以用于訓(xùn)練和測(cè)試。
1.2.1 客觀質(zhì)量評(píng)價(jià)方法概述
客觀視頻質(zhì)量評(píng)價(jià)方法是通過(guò)制定的算法和指標(biāo)模擬人眼對(duì)視頻質(zhì)量的主觀感受,預(yù)測(cè)視頻在人眼觀察下的質(zhì)量評(píng)分,按照是否需要原始視頻源的數(shù)據(jù)參與評(píng)價(jià),可分為全參考評(píng)價(jià)方法(Full-Reference,F(xiàn)R)、半?yún)⒖荚u(píng)價(jià)方法(Reduced-Reference,RR)以及無(wú)參考評(píng)價(jià)方法(No-Reference,NR)三類[2]。FR需要原始視頻的全部信息,方法較多,通常比較準(zhǔn)確;RR采用特征提取的方法,只獲取原始視頻的部分信息,然后傳輸?shù)浇邮辗竭M(jìn)行質(zhì)量評(píng)估,研究方法相對(duì)較少;NR不需要原始視頻信息,可直接進(jìn)行評(píng)估打分,通常準(zhǔn)確性較差,但具有靈活性、實(shí)時(shí)性以及可操作性,適用范圍廣。以下將重點(diǎn)介紹全參考質(zhì)量評(píng)價(jià)FR以及無(wú)參考質(zhì)量評(píng)價(jià)NR。
1.2.2 HDR視頻全參考質(zhì)量評(píng)價(jià)現(xiàn)狀
針對(duì)傳統(tǒng)低動(dòng)態(tài)范圍(Low Dynamic Range,LDR)視頻的方法如PSNR[3]、SSIM[4]、VIF[5]等假定圖像和人眼感知具有線性關(guān)系,這對(duì)HDR視頻并不成立。研究指出[6],經(jīng)過(guò)log運(yùn)算或者PU編碼后,其線性關(guān)系又將近似成立,使其具有較好的感知一致性。Hanhart等[7]針對(duì)35項(xiàng)視頻評(píng)價(jià)方法的測(cè)試可以說(shuō)明這點(diǎn),其中HDR視覺(jué)差異預(yù)測(cè)器(HDRVDP-2)[8]以及HDR-VQM[9]與主觀數(shù)據(jù)取得了最好的擬合效果,下面簡(jiǎn)要介紹這兩種算法。
HDR-VDP-2是一個(gè)用于比較參考圖片和測(cè)試圖片的視覺(jué)度量,并提供可見(jiàn)性和質(zhì)量?jī)蓚€(gè)方面的預(yù)測(cè)信息??梢?jiàn)度是參考圖片和測(cè)試圖片之間的差異性能夠被普通觀看者看得到的可能性;質(zhì)量是測(cè)試圖像相對(duì)于參考圖片的質(zhì)量退化,以平均意見(jiàn)得分進(jìn)行表達(dá)。其輸入分別是測(cè)試圖片和有質(zhì)量損失的參考圖片(一般是兩個(gè)HDR圖像或者兩個(gè)LDR圖像),然后經(jīng)過(guò)HDR-VDP-2處理后產(chǎn)生一個(gè)檢測(cè)概率圖。檢測(cè)概率圖告訴人們有多大的可能會(huì)感受到兩個(gè)圖的差異性,紅色表示可能性較高,綠色表示可能性較低。由于失真是噪聲和模糊共同造成的,因此在平滑區(qū)域(噪聲)和高對(duì)比度區(qū)域有最大的可能性檢測(cè)到失真。其算法流程圖如圖1所示。
圖1 HDR-VDP-2算法流程圖
HDR-VQM[9]質(zhì)量評(píng)價(jià)方法具有動(dòng)態(tài)范圍獨(dú)立的特征,并且考慮到了時(shí)域變化通過(guò)HVS的時(shí)域模型。由于人類視覺(jué)系統(tǒng)傾向于在特定時(shí)間內(nèi)關(guān)注特定區(qū)域,從而可在一個(gè)時(shí)空界內(nèi)分析質(zhì)量變化。其算法流程圖如圖2所示。
圖2 HDR-VQM算法流程圖
1.2.3 無(wú)參考HDR視頻質(zhì)量評(píng)價(jià)方法現(xiàn)狀
無(wú)參考視頻質(zhì)量評(píng)價(jià)方法不需要無(wú)損原視頻,因此具有更廣的應(yīng)用場(chǎng)景。根據(jù)評(píng)測(cè)方向,視頻質(zhì)量評(píng)測(cè)方法可以分為針對(duì)某種特定失真的評(píng)測(cè)方法和不針對(duì)特定失真類型的評(píng)測(cè)。
由于視頻經(jīng)歷制作、傳輸及壓縮等傳播流程,在不同階段,可能受到不同類型的損傷,且不同視頻的各類損傷嚴(yán)重程度不盡相同,如制作過(guò)程中受損、壓縮過(guò)程產(chǎn)生的塊效應(yīng)、傳播過(guò)程中產(chǎn)生的噪聲和模糊等,因此很多算法會(huì)針對(duì)其中一項(xiàng)進(jìn)行分析,即針對(duì)特定失真類型進(jìn)行評(píng)測(cè)。該方法復(fù)雜度低,很多時(shí)候?qū)τ谔囟ㄒ曨l具有很高的準(zhǔn)確性,但可能出現(xiàn)過(guò)擬合、魯棒性不強(qiáng)的問(wèn)題。除了以上針對(duì)普通視頻的方法,還有針對(duì)色彩、對(duì)比度及曝光度等特征的評(píng)價(jià)算法,更可以體現(xiàn)HDR視頻的失真程度。
不針對(duì)特定失真類型的評(píng)測(cè)即對(duì)各項(xiàng)失真類型進(jìn)行整體評(píng)價(jià),具有較高的抗干擾性,算法復(fù)雜度往往較高。針對(duì)LDR視頻的評(píng)測(cè)方法BRISQUE[10]、NIQE[11]、VIIDEO[12]及 Video BLIINDS[13]等對(duì) HDR視頻的擬合效果較差。目前針對(duì)HDR視頻的此類方法較少,且與主觀視頻質(zhì)量評(píng)價(jià)方法擬合效果較差,是未來(lái)研究的重點(diǎn)。
1.2.4 客觀視頻質(zhì)量評(píng)價(jià)方法比較標(biāo)準(zhǔn)
客觀視頻質(zhì)量評(píng)價(jià)方法依靠計(jì)算機(jī)預(yù)測(cè)分?jǐn)?shù),以逼近人眼的主觀感受。不同客觀評(píng)價(jià)指標(biāo)與主觀感受的符合程度差距較大,可以基于預(yù)測(cè)的準(zhǔn)確性、一致性、穩(wěn)定性、單調(diào)性來(lái)衡量評(píng)價(jià)指標(biāo)本身的好壞。準(zhǔn)確性是指主觀評(píng)價(jià)打分和客觀評(píng)價(jià)指標(biāo)分?jǐn)?shù)的相似性;一致性是指不應(yīng)僅對(duì)某種類型的視頻/圖像表現(xiàn)良好,而應(yīng)該對(duì)所有類型的視頻/圖像都可以表現(xiàn)良好;穩(wěn)定性是指對(duì)同一視頻/圖像每次評(píng)價(jià)的結(jié)果數(shù)值應(yīng)該相同或誤差在可接受的范圍內(nèi);單調(diào)性是指評(píng)價(jià)分?jǐn)?shù)應(yīng)該隨MOS分的增減而呈現(xiàn)相應(yīng)的單增或單減。
衡量客觀評(píng)價(jià)方法的指標(biāo)是通過(guò)客觀評(píng)價(jià)模型輸出QR與主觀MOS的非線性擬合后變化為MOS_P。
準(zhǔn)確性體現(xiàn)在MOS與MOS_P的Pearson線性相關(guān)系數(shù)PLCC(Pearson Linear Correlation Coefficient)以及均方根誤差(Root Mean Squared Error,RMSE),一致性體現(xiàn)在MOS_P的離群率(Outlier Ratio,OR),穩(wěn)定性體現(xiàn)在每次相同輸入后輸出非線性擬合得到的MOS_P間誤差,單調(diào)性體現(xiàn)在MOS與MOS_P之間的Spearman階相關(guān)系數(shù)(SRCC)。一個(gè)好的算法需要較高的PLCC和SRCC值、較低的RMSE值。
根據(jù)上述研究現(xiàn)狀,對(duì)于HDR視頻無(wú)參考質(zhì)量評(píng)價(jià)算法,可以得出以下思路。
(1)HDR視頻主觀評(píng)價(jià)方法費(fèi)時(shí)費(fèi)力,更多地作為客觀評(píng)價(jià)方法的參考,且現(xiàn)階段主觀數(shù)據(jù)集受限,需要自己制作視頻數(shù)據(jù)并打分。
(2)HDR客觀評(píng)價(jià)方法中,全參考評(píng)價(jià)方法要求較高,現(xiàn)階段有HDR-VDP-2算法取得了最好的主觀一致性,在主觀評(píng)價(jià)算法受限的時(shí)候,可以用HDR-VDP-2算法近似為主觀算法方便后續(xù)擬合。
(3)HDR客觀評(píng)價(jià)方法中,專門針對(duì)HDR視頻的無(wú)參考視頻評(píng)價(jià)方法算法比較少,一套普適性算法可以填補(bǔ)研究空白。
下面分3個(gè)步驟詳細(xì)設(shè)計(jì)并實(shí)現(xiàn)了一套基于多指標(biāo)融合的無(wú)參考HDR視頻評(píng)價(jià)算法,并與業(yè)內(nèi)傳統(tǒng)算法進(jìn)行比較,取得了較好的擬合效果。
由于主觀數(shù)據(jù)庫(kù)的缺失,但同時(shí)又需要選取準(zhǔn)確性較高的主觀數(shù)據(jù)作為評(píng)判依據(jù),因此選擇自建數(shù)據(jù)集。本文選取了SJTUHDR數(shù)據(jù)庫(kù),共包含16個(gè)無(wú)損視頻源文件,大小從幾百到幾千幀不等,包含自然環(huán)境、車展及建筑等不同類型的視頻內(nèi)容。
由于視頻制作過(guò)程中的編碼損失是最為重要且常見(jiàn)的損類型失,且損失可控、方便測(cè)試,因此用HEVC將原視頻編為不同損失的失真視頻,用Crf來(lái)控制損失大小。Crf參考值為0~51,而肉眼無(wú)損數(shù)值為18,因此等間隔設(shè)置為18、23、28、33、38、43、48的失真編碼視頻組。用HDR-VDP-2測(cè)試出其近似理論值,得到數(shù)據(jù)集的近似主觀評(píng)分,作為后續(xù)客觀評(píng)價(jià)指標(biāo)的groundtruth。
基于HDR視頻本身的屬性如較高亮度、豐富色彩、高對(duì)比度等,同時(shí)在其編碼過(guò)程中這些特征也相應(yīng)受到了不同程度的損傷,這些重要指標(biāo)的失真程度也可以反映整體HDR視頻的失真程度。因此首先選取一些成熟無(wú)參指標(biāo),得到失真視頻不同角度下的損失強(qiáng)度。本文選取的特征及其計(jì)算算法如下。
(1)亮度及對(duì)比度特征。每一幀轉(zhuǎn)灰度圖,灰度圖均值代表亮度指標(biāo),方差代表對(duì)比度指標(biāo)。
(2)色彩豐富度。每一幀轉(zhuǎn)LAB色域,AB分別代表兩個(gè)獨(dú)立的顏色色域,在這兩個(gè)顏色色域進(jìn)行方差的計(jì)算,代表色彩的兩個(gè)豐富度指標(biāo)。
(3)模糊度特征。每一幀轉(zhuǎn)灰度圖,再進(jìn)行拉普拉斯梯度算子的濾波計(jì)算出梯度圖,計(jì)算梯度圖的方差作為模糊度指標(biāo)。
(4)噪聲估計(jì)。每一幀圖轉(zhuǎn)灰度,進(jìn)行高斯濾波與原圖做差,對(duì)殘差進(jìn)行均值估計(jì),表征為高斯噪聲特征;進(jìn)行中值濾波與原圖作差,對(duì)殘差進(jìn)行均值估計(jì),表征為椒鹽噪聲特征。
(5)塊狀效應(yīng)估計(jì)。將每一幀轉(zhuǎn)yuv,取出y通道,從水平和豎直兩個(gè)方向去計(jì)算梯度;將梯度與區(qū)域內(nèi)的閾值進(jìn)行比較,高于閾值則判為塊狀邊緣并進(jìn)行高斯模糊去除邊緣。將處理過(guò)的圖與原圖作差,估計(jì)殘差的均值即為塊狀效應(yīng)指標(biāo)。
由于視頻每一幀都會(huì)有對(duì)應(yīng)的各種指標(biāo),假設(shè)視頻一共有M幀,則計(jì)算出所有特征在M幀上的均值和方差作為最終的視頻指標(biāo)。其中,均值表征特征強(qiáng)度,方差表征特征離散程度。
因此,一個(gè)失真視頻一共有亮度對(duì)比度(2*2)+色彩(2*2)+模糊度(1*2)+噪聲估計(jì)(2*2)+塊狀效應(yīng)(1*2)=16個(gè)特征。
由于不同指標(biāo)對(duì)于視頻失真的影響程度并不相同,因此可以利用機(jī)器學(xué)習(xí)算法融合各項(xiàng)指標(biāo)以增加魯棒性。由于輸入矩陣并不復(fù)雜,本文選取支持向量回歸(Support Vector Regression,SVR)進(jìn)行特征擬合。將16個(gè)視頻組劃分13個(gè)為訓(xùn)練集和3個(gè)為測(cè)試集,窮盡各種選取方式進(jìn)行測(cè)試,取平均值作為最后結(jié)果,并與4個(gè)前文提過(guò)的傳統(tǒng)無(wú)參算法進(jìn)行比較,選取SRCC、PLCC、KRCC及RMSE作為評(píng)價(jià)標(biāo)準(zhǔn),結(jié)果如表1所示。
表1 算法擬合結(jié)果比較
由表1的結(jié)果可見(jiàn),本文提出的方法比傳統(tǒng)無(wú)參算法取得了明顯提升的擬合效果,更逼近由HDR-VDP-2計(jì)算出來(lái)的近似主觀評(píng)分。
綜合以上3個(gè)步驟得到整體的方案,并取得了較好的擬合效果。在自建數(shù)據(jù)庫(kù)階段將HDRVDP-2評(píng)分近似為主觀評(píng)分;選取指標(biāo)特別根據(jù)HDR視頻特點(diǎn)選取了亮度、對(duì)比度及色彩等指標(biāo),同時(shí)也考慮視頻壓縮流程選取了噪聲和塊效應(yīng)等常規(guī)指標(biāo)。整體模型可移植性強(qiáng),后續(xù)針對(duì)不同的問(wèn)題也可以改變失真視頻制作方式,適當(dāng)增刪指標(biāo),選取不同的機(jī)器學(xué)習(xí)模塊等。
本文從HDR視頻研究背景入手,詳細(xì)介紹了HDR視頻質(zhì)量評(píng)價(jià)方法的分類以及研究現(xiàn)狀,并對(duì)當(dāng)前的研究難點(diǎn)進(jìn)行了總結(jié)分析,最后針對(duì)性地設(shè)計(jì)并實(shí)現(xiàn)了一套基于機(jī)器學(xué)習(xí)多指標(biāo)融合的無(wú)參考HDR視頻質(zhì)量評(píng)價(jià)算法,并取得了較好的擬合效果。HDR視頻是未來(lái)的發(fā)展方向,符合人眼主觀感受的HDR視頻評(píng)價(jià)方法,可以為HDR視頻傳播給出實(shí)時(shí)反饋,在迭代過(guò)程中不斷提升用戶體驗(yàn),并為技術(shù)的普及奠定重要基礎(chǔ)。