陳宏達, 丁 勇
(浙江大學 超大規(guī)模集成電路設(shè)計研究所,浙江 杭州 310027)
在圖像處理領(lǐng)域,定量評估圖像質(zhì)量是不可缺少的一環(huán)[1]。圖像質(zhì)量評價可分為主觀圖像質(zhì)量評價和客觀圖像質(zhì)量評價兩大類。相對于主觀評價,客觀質(zhì)量評價若能設(shè)計出與主觀評價相一致的算法,則能夠大大降低圖像評價成本,具有巨大的研究和應用價值。
本文討論的算法均為全參考圖像評價算法,其中無失真圖像作為參考圖像[2]。傳統(tǒng)的圖像算法中均方誤差(mean square error,MSE)和峰值信噪比(peak signal-to-noise ratio,PSNR)評估內(nèi)容相同和失真類型相同的圖像質(zhì)量效果良好,而涉及到多種圖像內(nèi)容或者多種失真類型的質(zhì)量評估,預測結(jié)果與人的主觀評價一致性較差[3]。因此,建立以人眼感知為導向的圖像質(zhì)量評價算法,對圖像處理算法的設(shè)計優(yōu)化和圖像傳輸質(zhì)量的控制監(jiān)測至關(guān)重要。2004年,Wang Z等人[4]提出了結(jié)構(gòu)相似度(structural similarity,SSIM)方法,該方法以人眼視覺系統(tǒng)(human visual system,HVS)對結(jié)構(gòu)信息高度敏感,取得了較好的圖像感知質(zhì)量。在后續(xù)研究中,Simonceili W Z等人[5]又提出了多尺度的SSIM算法(multi-scale SSIM,MS-SSIM),實驗證明效果好于對應的單一尺度SSIM;而后Wang Z和Li Q改善了原始的MS-SSIM算法,引入了基于信息內(nèi)容的加權(quán)聚合方式,提出基于信息內(nèi)容加權(quán)的SSIM算法(information content weighted SSIM,IW-SSIM)[6],更深入地模擬人眼感知特性。近幾年來,研究發(fā)現(xiàn)對于同樣一幅圖,不同區(qū)域信息對HVS的刺激程度不同[7]。這種視覺顯著特性和圖像質(zhì)量評價有著內(nèi)在的聯(lián)系[8]。Zhang L等人[9]提出了視覺顯著性指導的(visual saliency-induced index,VSI)圖像質(zhì)量評價算法,將顯著模型和評價模型融合在一起,表現(xiàn)出與主觀感知非常一致的評價效果。
本文提出一種基于新型視覺顯著模型的圖像質(zhì)量評價算法。首先利用最小可覺差(just noticeable difference,JND)模型提取圖像的梯度感知圖,再利用超像素分割提取圖像的權(quán)重感知圖,最后在融合兩種感知圖基礎(chǔ)上,采用融合感知圖的均值和方差結(jié)合支持向量回歸(support vector regression,SVR)[10]來度量圖像質(zhì)量的退化。本文算法中的參考圖和失真圖分別提取梯度感知圖,而權(quán)重感知圖根據(jù)參考圖得出,主要考慮到參考圖像的圖像信息最為完整,由其得出的權(quán)重感知圖能更為準確地反映出HVS對圖像不同區(qū)域的敏感性
人眼的JND[11]理論與HVS的觀察機制相一致,因此,應用JND模型可以有效地模擬HVS的觀察機制,將圖像中人眼最敏感的區(qū)域提取出來。本文設(shè)計了多種方向的卷積核如圖1,從0°,45°,90°和135° 4個方向提取圖像的梯度信息,并通過像素最大化原則,獲得最終的梯度感知圖SG
(1)
式中I為輸入圖像,Pn(n=1,2,3,4)為卷積核。相比于傳統(tǒng)的Sobel和Prewitt算子卷積核,這4種卷積核方向更充分,而且更大的卷積核保證了提取梯度信息的完整性。
圖1 梯度感知圖的提取過程
圖像的某些區(qū)域會因為包含很多梯度信息,吸引HVS著重觀察,這種對圖像局部區(qū)域的感知在梯度感知圖中體現(xiàn)并不充分,由此本文在梯度感知圖的基礎(chǔ)上提取了權(quán)重感知圖。
為了突出圖像不同區(qū)域的敏感度不同,需要將圖像按一定方式分塊,傳統(tǒng)的矩形分塊固然方便快捷,但在分塊的過程中并沒有體現(xiàn)HVS的感知特性,本文利用超像素分割算法簡單線性迭代聚類(simple linear iterative clustering ,SLIC)[12],SLIC算法主要依據(jù)是像素之間的顏色相似性與鄰近性進行圖像分塊
(2)
式中 [lab]為三原色(RGB)顏色空間圖像轉(zhuǎn)換為實驗室(LAB)空間對應的像素值;(x,y)為像素點的位置;[liaibixiyi]為局部分塊的中心點的5維向量;[ljajbjxjyj]為需要判斷所屬塊的像素點的5維向量;S為局部區(qū)域的像素點個數(shù),本文根據(jù)實驗經(jīng)驗選取S為9 000;D為5維向量的歐氏距離,是判斷像素點所屬塊的依據(jù)。
同時人眼在對梯度信息的感知過程中,依然存在敏感性不同的差異,為了提取這部分差異,本文的權(quán)重感知圖分為2個尺度:調(diào)局部細節(jié)重要性;強調(diào)整體輪廓重要性
(3)
式中n=1,2為不同尺度;W1=0.3,W2=0.7為大量實驗過程中選取的最優(yōu)值。
計算局部區(qū)域的有效像素個數(shù)占總像素個數(shù)的比例,作為該區(qū)域的權(quán)重系數(shù),模擬人眼對該局部區(qū)域的敏感度
(4)
式中l(wèi)abeli為第i個超像素區(qū)域;SWn(x,y)為在第i個超像素區(qū)域中的一個像素值。
利用JND模型提取參考圖像R梯度感知圖如圖2,提取過程如圖1;利用SLIC算法將圖像分塊,圖像的顏色信息和位置信息通過SLIC算法凸顯;后續(xù)梯度感知圖通過對感知程度的判斷,分成第一尺度SGW1和第二尺度SGW2,利用式(4)分別與得到的超像素分割圖像SP結(jié)合,得到最終的權(quán)重感知圖SW1和SW2。
圖2 權(quán)重感知圖的提取過程
經(jīng)過圖1和圖2的過程,一幅圖像可以得到梯度感知圖SG和權(quán)重感知圖SW1和SW2,兩種感知圖再通過點乘的方式融合成最后的視覺顯著圖。由此獲取參考圖像顯著圖與失真圖像顯著圖之間的絕對值差異,并統(tǒng)計差異的均值和方差,得到特征矩陣F=[μ1σ1μ2σ2]。為了尋找F映射成客觀質(zhì)量分數(shù)的最優(yōu)方式,本文在回歸分析的過程中選用SVR算法,SVR的目標即發(fā)現(xiàn)一種函數(shù)y(F)可以使得預測結(jié)果與數(shù)據(jù)庫中的主觀質(zhì)量分數(shù)一致性最高
y(F)=WTφ(F)+γ
(5)
式中φ(F)為特征向量F的非線性函數(shù),w為本文需要尋找出的最優(yōu)參數(shù),γ為偏差因子。訓練的目的為求出未知的最優(yōu)參數(shù)和偏差因子。本文隨機選取了數(shù)據(jù)庫80 %的數(shù)據(jù)量訓練,用20 %的數(shù)據(jù)量測試,訓練集和測試集的數(shù)據(jù)不重復。這種訓練和測試的方式在每個數(shù)據(jù)庫中重復了1 000次,取其均值作為最后的質(zhì)量評價分數(shù)。整體算法框架如圖3所示,實驗結(jié)果表明本文算法與人眼感知有很高的一致性。
圖3 本文提出的圖像質(zhì)量評價算法框架
為了分析本文算法效果的優(yōu)劣,采用Pearson線性相關(guān)系數(shù)(Pearson linear correlation coefficient,PLCC)和均方根誤差(root mean square error,RMSE)度量評價分數(shù)的準確性,采用Spearman排序相關(guān)系數(shù)(Spearman rank correlation coefficient,SRCC)和Kendall排序相關(guān)系數(shù)(Kendall ranking correlation coefficient,KRCC)評估質(zhì)量分數(shù)的單調(diào)性[13]。PLCC,SRCC和KRCC的值越接近1,RMSE值越接近0,則算法效果越好。采用3個國際公知的圖像評價數(shù)據(jù)庫為:LIVE[14],TID2008[15],TID2013[16]。這些數(shù)據(jù)庫中,每幅失真圖像都對應一個主觀質(zhì)量分數(shù)。LIVE數(shù)據(jù)庫包含5種失真類型的779幅失真圖像;TID2008數(shù)據(jù)庫包含17種失真類型的1 700幅失真圖像,TID2013數(shù)據(jù)庫包含24種失真類型的3 000幅失真圖像。在實驗中,基于PLCC,Searman等級相關(guān)系數(shù)(Spearman rankorder correlation coefficient,SROCC)和RMSE等指標,本文算法與多種代表性圖像質(zhì)量評價算法進行了性能比較。對比算法包括SSIM[4],MS-SSIM[5],IWSSIM[6],梯度相似性(gradient similarity,GSIM)[17],多尺度對比相似度偏差(multiscale contrast similarity deviation,MCSD)[18],VSI[9]。表1給出了不同算法在3種數(shù)據(jù)庫上的總體性能比較,其中效果最好的用加粗的形式表示。
表1 不同算法在3個數(shù)據(jù)庫中的性能比較
可以看出,在3種數(shù)據(jù)庫中,本文算法都表現(xiàn)出優(yōu)秀的性能,同時MCSD算法由于在多尺度特性的基礎(chǔ)上引入了對比敏感度特性,在LIVE和TID2008數(shù)據(jù)庫上也表現(xiàn)突出,而同樣采用視覺顯著圖的VSI算法則在TID2008和TID2013數(shù)據(jù)庫上更有優(yōu)勢。本文算法在提取梯度信息的基礎(chǔ)上,提出的權(quán)重感知圖,不但模擬了HVS的感知特性,而且通過對感知程度的判斷,將權(quán)重感知圖分層,從細節(jié)和整體2部分綜合度量圖像的客觀質(zhì)量。實驗結(jié)果表明,本文提出的基于新型視覺顯著模型的算法在3種數(shù)據(jù)庫上的性能表現(xiàn)穩(wěn)定,與人眼的主觀評價有很強的一致性,體現(xiàn)出很高的魯棒性。
表2給出了不同算法對LIVE數(shù)據(jù)庫中多種失真類型的評價性能比較,其中SRCC值最高的用加粗形式表示。從表2可以看出,在快通道衰減(fast channel fall-off,FF)失真,JPEG壓縮失真,高斯白噪聲(white noise,WN)失真和JPEG2000(JP2K)壓縮失真中,本文算法表現(xiàn)突出。而針對高斯模糊(Gaussian blur,GB)失真,由于高斯模糊是對圖像進行低通處理,而MCSD因為模擬人眼的多通道特性,可以對這種失真的預測取得相對較好的效果,本文在權(quán)重感知圖上的尺度概念,也對這種失真起了一定的預測作用,表現(xiàn)出僅次于MCSD的效果,評價效果也相對優(yōu)秀。
表2 LIVE數(shù)據(jù)庫中多種失真類型的SRCC值比較
另外,本文用到了SVR算法,在訓練和測試過程中在每個數(shù)據(jù)庫中重復了1 000次。圖4為根據(jù)100次測試結(jié)果得到的每個數(shù)據(jù)庫的箱線圖,可以看出在1 000次測試中,算法的效果性能一直非常穩(wěn)定,數(shù)據(jù)非常集中,都處于中位線附近。
圖4 各個數(shù)據(jù)庫的箱線圖
綜上,本文的基于新型視覺顯著模型的圖像質(zhì)量評價算法在跨數(shù)據(jù)庫和跨失真類型上都表現(xiàn)出與主觀評價很好的一致性,是一種非常有效的圖像質(zhì)量預測和評價方法。
本文提出了一種基于視覺顯著模型的全參考圖像質(zhì)量評價方法,從梯度感知圖和權(quán)重感知圖,兩個方面深度契合了人眼感知的特性,同時在權(quán)重感知圖中,將梯度信息的感知層級進一步細分,實驗效果也說明了算法的優(yōu)異性。而且這種視覺顯著模型可以適用于后續(xù)的視頻質(zhì)量的檢測,也對先存在的圖像質(zhì)量評價模型有重要的參考意義。