孟麗茹,趙 巖,王世剛,陳賀新
(吉林大學(xué)通信工程學(xué)院,長春130012)
視頻圖像壓縮所允許的失真程度需要人眼感知,并作為對(duì)信道、編解碼器性能進(jìn)行評(píng)估和優(yōu)化的判斷依據(jù),圖像質(zhì)量評(píng)價(jià)對(duì)視頻圖像產(chǎn)業(yè)的發(fā)展以及推廣起著推動(dòng)作用。根據(jù)是否需要大量觀察者,可以將圖像質(zhì)量評(píng)價(jià)方法分為主觀評(píng)價(jià)方法和客觀評(píng)價(jià)方法。主觀評(píng)價(jià)方法需要大量的人力、物力和財(cái)力,且評(píng)價(jià)結(jié)果容易受到測(cè)試者的主觀因素和外界環(huán)境的影響,評(píng)價(jià)過程的復(fù)雜性嚴(yán)重影響方法的準(zhǔn)確性和通用性,將其嵌入到實(shí)際視頻處理系統(tǒng)中有一定的困難。因此,研究人員提出了許多客觀質(zhì)量評(píng)價(jià)方法。均方根誤差和峰值信噪比是目前發(fā)展較成熟的全參考視頻客觀質(zhì)量評(píng)價(jià)方法[1],但只是對(duì)像素點(diǎn)間誤差的純數(shù)學(xué)統(tǒng)計(jì),沒有考慮像素點(diǎn)間的相關(guān)性,也忽略了HVS(Human Visual System)對(duì)圖像質(zhì)量感知的影響。Wang等[2]提出基于結(jié)構(gòu)相似度(SSIM:Structural Similarity Index Method)方法,其性能優(yōu)于PSNR(Peak Signal to Noise Ratio),但在評(píng)價(jià)嚴(yán)重模糊和壓縮圖像時(shí)主客觀評(píng)價(jià)并不完全一致。基于梯度的結(jié)構(gòu)相似度(GSSIM:Gradient based Structural Similarity Index Method)方法[3],只適合視頻圖像的質(zhì)量評(píng)價(jià),需要與運(yùn)動(dòng)信息相結(jié)合才能評(píng)價(jià)視頻質(zhì)量;沒有考慮圖像的顯著區(qū)域?qū)υu(píng)價(jià)方法的影響。根據(jù)是否需要圖像的原始信息以及需要程度,可將圖像質(zhì)量評(píng)價(jià)方法分為全參考質(zhì)量評(píng)價(jià)、部分參考質(zhì)量評(píng)價(jià)和無參考質(zhì)量評(píng)價(jià)。目前全參考評(píng)價(jià)方法最可靠,部分參考和無參考只是取得階段性成果,仍然不夠完善。
筆者利用視覺注意模型,并結(jié)合現(xiàn)有評(píng)價(jià)方法對(duì)圖像進(jìn)行評(píng)價(jià)。主要包括兩方面內(nèi)容:1)關(guān)注模型,面對(duì)一個(gè)復(fù)雜場(chǎng)景,HVS能迅速將注意力集中在少數(shù)幾個(gè)顯著的視覺對(duì)象上,即對(duì)圖像的不同對(duì)象和區(qū)域給予不同的處理優(yōu)先級(jí),并對(duì)其優(yōu)先處理;2)傳統(tǒng)并廣泛應(yīng)用的評(píng)價(jià)指標(biāo)PSNR、SSIM和GSSIM。根據(jù)筆者的模型,利用質(zhì)量評(píng)價(jià)方法進(jìn)行圖像質(zhì)量評(píng)價(jià)。
HVS的對(duì)比敏感度、多通道和掩模效應(yīng)等許多特性已被利用在視頻質(zhì)量評(píng)價(jià)當(dāng)中,并具有良好的性能,而HVS的視覺注意特性在質(zhì)量評(píng)價(jià)中的應(yīng)用不是很廣泛。心理學(xué)研究表明,HVS優(yōu)先處理的區(qū)域是能產(chǎn)生新奇刺激的區(qū)域或是包含觀察者自己期待刺激的區(qū)域,這個(gè)最吸引觀察者注意的區(qū)域稱為視覺顯著區(qū)域。圖像顯著區(qū)域包含圖像的主要信息和關(guān)鍵信息,處理圖像時(shí),著重對(duì)圖像中的ROI(Region of Interest)進(jìn)行分析,可得到較好的效果。人眼視覺顯著分為bottom-up控制的預(yù)注意機(jī)制和top-down控制的注意機(jī)制。前者是由視覺刺激驅(qū)動(dòng)的信息處理過程,屬于低級(jí)、快速的認(rèn)知過程;后者是由觀察任務(wù)驅(qū)動(dòng)的信息處理過程,通過調(diào)整選擇準(zhǔn)則適應(yīng)用戶觀察任務(wù)的要求,從而達(dá)到將注意集中于特定目標(biāo)的目的,屬于高級(jí)、慢速的認(rèn)知過程。目前,由于較難提取圖像的語義特征,ROI提取算法大多依賴圖像的底層特征,也在不斷考慮加入更多的高層語義信息提取ROI。因此,視覺注意模型的研究主要集中于低級(jí)結(jié)構(gòu)信息模型,高級(jí)語義模型的研究較少。
Itti視覺注意模型考慮HVS的特性:1)視覺多通道特性;2)視網(wǎng)膜神經(jīng)節(jié)細(xì)胞感受野形狀為同心圓拮抗式特性,即感受野的中心和周邊對(duì)信號(hào)的反應(yīng)是相反的,采用“中心-周邊”算子,將不同尺度的圖像序列相減,以便抽取各個(gè)特征中的對(duì)比度信息;3)分析并融合每一維,得到顯著圖(saliency map)[4]。
研究表明,在一幅圖像中,人類出現(xiàn)的區(qū)域即為感興趣區(qū)域。人們利用膚色檢測(cè)方法判斷人類出現(xiàn)區(qū)域。當(dāng)檢測(cè)到人物出現(xiàn)時(shí),為1,未檢測(cè)到人物出現(xiàn)時(shí),則為零。高級(jí)語義信息表示為
采取Itti視覺注意模型,得到亮度、顏色和方向特征顯著圖ˉI、ˉC和ˉO,wi、wc、wo分別為對(duì)應(yīng)特征顯著圖的權(quán)值,通過公式
進(jìn)行線性組合,得到最終的顯著圖S,即為低級(jí)結(jié)構(gòu)信息Sb。最終得到的2D視覺注意模型,可表示為
在2D視覺注意模型基礎(chǔ)上,利用PSNR、SSIM、GSSIM評(píng)價(jià)指標(biāo),得到基于2D視覺注意模型的圖像質(zhì)量評(píng)價(jià)方法,其算法流程圖如圖1所示。基于視覺注意模型的PSNR質(zhì)量評(píng)價(jià)方法(VAM_PSNR:Visual Attention Model PSNR)和SSIM質(zhì)量評(píng)價(jià)方法(VAM_SSIM:Visual Attention Model SSIM)、GSSIM質(zhì)量評(píng)價(jià)方法(VAM_GSSIM:Visual Attention Model GSSIM)分別表示為
圖1 算法流程圖Fig.1 Flowchart of proposed algorithm
其中(2n-1)2為圖像中最大可能的信號(hào)值平方,n為每個(gè)像素的比特?cái)?shù);I(i,j)、Id(i,j)分別為原始圖像、失真圖像在(i,j)位置處的像素。
筆者采用美國TEXAS大學(xué)圖像視頻工程實(shí)驗(yàn)室的LIVE圖像質(zhì)量評(píng)價(jià)數(shù)據(jù)庫第2版進(jìn)行了實(shí)驗(yàn)。該數(shù)據(jù)庫被認(rèn)為是圖像質(zhì)量評(píng)價(jià)的標(biāo)準(zhǔn)數(shù)據(jù)庫,具有較高的權(quán)威性和可靠性[5]。為衡量主客觀方法的一致性,以及驗(yàn)證該方法的有效性,選用視頻質(zhì)量專家組VQEG提出的模型檢驗(yàn)標(biāo)準(zhǔn),即4個(gè)客觀統(tǒng)計(jì)指標(biāo):Pearson相關(guān)系數(shù)、斯皮爾曼秩相關(guān)系數(shù)(SROCC:Spearman Rank-order Correlation Coefficient)、離散率(OR:Out Ratios)和均方根誤差(RMSE:Root Mean Square Error)。Pearson、Spearman值越大,主客觀相關(guān)性越好,即質(zhì)量評(píng)價(jià)方法的性能也越好;OR、RMSE值越小,客觀評(píng)價(jià)方法越好。為進(jìn)一步驗(yàn)證該方法的有效性,在LIVE數(shù)據(jù)庫上對(duì)PSNR、經(jīng)典的SSIM算法、GSSIM算法和小波[6]等傳統(tǒng)方法,以及視覺信噪比(VSNR:Visual Signal-to-Noise Ratio)[7]、視覺信息保真度(VIF:Visual Information Fidelity)[8]、基于特征相似度評(píng)價(jià)方法(FSSIM:Feature Structural Similarity Index Method)[9]、多尺度結(jié)構(gòu)化相似度(MSSSIM:Multi-scale Structural Similarity Index Method)[10]和信息量加權(quán)結(jié)構(gòu)化評(píng)價(jià)算法(IW-SSIM:Information Weighted Structural Similarity Index Method)[11]等現(xiàn)在性能較優(yōu)方法進(jìn)行仿真測(cè)試。
分別對(duì) LIVE數(shù)據(jù)庫中的 5類失真圖像:JPEG、JPEG200、Gaussian Blur(高斯模糊)、Fastfading(在fastfading通道傳輸JPEG2000碼流過程中發(fā)生錯(cuò)誤而失真的圖像)、White Noise(白噪聲),共779幅失真圖像進(jìn)行客觀質(zhì)量評(píng)價(jià)和非線性回歸后得到4個(gè)統(tǒng)計(jì)指標(biāo),并得出整體數(shù)據(jù)庫的平均結(jié)果。表1~表4分別為筆者以及其他傳統(tǒng)評(píng)價(jià)方法和目前性能較好的評(píng)價(jià)方法的Pearson相關(guān)系數(shù)、Spearman相關(guān)系數(shù)、Out Ratios值和RMSE值。
表1 Pearson值對(duì)比結(jié)果Tab.1 Comparison results of Pearson
(續(xù)表1)
由表1可知,筆者方法得到的Pearson系數(shù)(0.903 5)明顯高于其他方法的相關(guān)系數(shù)值,低于目前性能最優(yōu)的信息量加權(quán)方法IW_SSIM(0.910 6)的0.007 1;VAM_PSNR、VAM_SSIM、VAM_GSSIM三者較PSNR、SSIM、GSSIM 方法分別提高0.006 0、0.017 0、0.033 1,性能較優(yōu)。
表2 Spearman值對(duì)比結(jié)果Tab.2 Comparison results of Spearman
由表2可知,筆者方法得到的Spearman系數(shù)(0.903 1)明顯高于其他方法的相關(guān)系數(shù)值,略低于目前性能最優(yōu)的信息量加權(quán)方法(IW_SSIM、IW_PSNR、IW_MSE)以及基于多尺度的結(jié)構(gòu)相似度方法;VAM_PSNR、VAM_SSIM、VAM_GSSIM 三者較 PSNR、SSIM、GSSIM 方法分別提高 0.009 8、0.016 5、0.036 4,性能較優(yōu)。
表3 Out Ratios值對(duì)比結(jié)果Tab.3 Comparison results of Out Ratios
(續(xù)表3)
由表3可知,筆者方法得到的Out Ratios值(0.397 9)明顯低于其他方法的離心率,僅高于目前性能最優(yōu)的信息量加權(quán)方法(IW_SSIM)的0.001 2;VAM_PSNR、VAM_SSIM、VAM_GSSIM三者較PSNR、SSIM、GSSIM 方法分別提高 0.009 8、0.016 5、0.036 4。
由表4可知,筆者方法得到的RMSE值(6.902 4)明顯低于其他方法的離心率,僅高于目前性能最優(yōu)的信息量加權(quán)方法IW_SSIM(6.656 2)的0.246 2;VAM_PSNR、VAM_SSIM、VAM_GSSIM三者較PSNR、SSIM、GSSIM 方法分別降低 0.200 8、0.452 2、0.778 0。
由表1~表4可知,對(duì)白噪聲類型的失真圖像,PSNR取得的效果最好,白噪聲失真圖像是將白噪聲直接疊加到原圖像上而形成的,而PSNR方法的點(diǎn)對(duì)點(diǎn)計(jì)算像素的算法很好地符合了這一特性,所取得的效果較好。但在圖像質(zhì)量評(píng)價(jià)的整體性和對(duì)各類失真圖像通用性方面,性能還略差。
在2D視覺注意模型基礎(chǔ)上,利用PSNR、SSIM、GSSIM評(píng)價(jià)指標(biāo),得到筆者的基于2D視覺注意模型全參考圖像質(zhì)量評(píng)價(jià)方法(VAM_PSNR、VAM_SSIM、VAM_GSSIM),三者較原始PSNR、SSIM、GSSIM方法都有明顯提高;三者中最優(yōu)方法VAM_GSSIM較目前性能最高的基于信息量加權(quán)方法略低,較其他方法性能更優(yōu)。該質(zhì)量評(píng)價(jià)方法原理簡(jiǎn)單,計(jì)算復(fù)雜度低,并能得到較好的圖像質(zhì)量評(píng)價(jià)性能。
[1]WINKLER S.Digital Video Quaity:Vision Models and Metrics[M].Switzerland:John Wiley and Sons,2005:71-220.
[2]WANG Z,BOVIK A C.A Universal Image Quality Index[J].IEEE Signal Process,2002,9(3):81-84.
[3]楊春玲,陳冠豪,謝勝利.基于梯度信息的圖像質(zhì)量評(píng)判方法的研究[J].電子學(xué)報(bào),2007,35(7):1313-1318.YANG Chunling,CHEN Guanhao,XIE Shengli.Gradient Information Based Image Quality Assessment[J].Acta Electronica Sinica,2007,35(7):1313-1318.
[4]YOUNGSOO PARK,BONGHO LEE,WON-SIK CHEONG,et al.Stereoscopic 3D Visual Attention Model Considering Comfortable Viewing[C]∥Image Processing(IPR),IET Conference.London:IET,2012:1-5.
[5]SHEIKH H R,SESHADRINATHAN K,MOORTHY A K,el al.Image and Video Quality Assessment Research at LIVE[DB/OL]. [2004-05-28].http://live.ece.utexas.edu/research/quality.
[6]東野升云.多尺度分析與相似度的立體視頻人類視覺評(píng)價(jià)模型的研究[D].長春:吉林大學(xué)通信工程學(xué)院,2011.DONGYE SHENGYUN.Research on Evaluation Model of Human Vision in Stereo Video Based on Multiscale Analysis and Similarity[D].Changchun:College of Communication Engineering,Jilin University,2011.
[7]CHANDLER D M,HEMAMI S S.A Wavelet Based Visual Signal-to-Noise Ratio for Natural Images[J].IEEE Transaction on Image Process,2007,16(9):2284-2298.
[8]SHEIKH H R,BOVIK A C.Image Information and Visual Quality[J].IEEE Transactions on Image Processing,2006,15(2):430-444.
[9]ZHANG Lin,ZHANG Lei,MOU Xuanqin,et al.A Feature Similarity Index for Image Quality Assessment[J].IEEE Transactions on Image Processing,2011,20(8):2378-2386.
[10]WANG Z,SIMONCELLI E P,BOVIK A C.Multiscale Structural Similarity for Image Quality Assessment[C]∥Invited Paper,IEEE Asilomar Conference on Signals,Systems and Computers.[S.l.]:IEEE,2003,2:1398-1402.
[11]徐少平,楊榮昌,劉小平.信息量加權(quán)的梯度顯著度圖像質(zhì)量評(píng)價(jià)[J].中國圖象圖形學(xué)報(bào),2014,19(2):201-210.XU Shaoping,YANG Rongchang,LIU Xiaoping.Information Content Weighted Gradient Salience Structural Similarity Index for Image Quality Assessment[J].Journal of Image and Graphics,2014,19(2):201-210.