夏雨蒙, 王永芳, 葉 鵬
(1. 上海大學(xué) 通信與信息工程學(xué)院 上海 200444; 2. 上海先進(jìn)通信與數(shù)據(jù)科學(xué)研究院 上海 200444)
信息化時(shí)代,人們所接受的信息大多為視覺信息.圖像和視頻作為視覺信息的重要載體,是信息化時(shí)代的基本元素,具有直觀、高效等優(yōu)點(diǎn).因此,利用圖像信息直接或間接地反映客觀世界,成為眾多研究領(lǐng)域不可或缺的一種手段.在圖像的采集、處理、傳輸、存儲(chǔ)以及顯示等過程中,由于物理成像系統(tǒng)、處理算法、傳輸方法和儲(chǔ)存設(shè)備等不夠完善,會(huì)給圖像帶來不同程度的失真和退化.主要包括:① 圖像采集失真.主要是由于圖像采集設(shè)備不夠完善造成的,例如在拍攝過程中出現(xiàn)散焦現(xiàn)象、曝光不均勻或者人為產(chǎn)生的機(jī)械抖動(dòng)等.② 圖像編碼失真.圖像編碼一般是有損編碼,往往產(chǎn)生模糊效應(yīng)、塊效應(yīng)、振鈴效應(yīng)等不利于圖像質(zhì)量的現(xiàn)象.③ 圖像的傳輸及處理失真.主要是指在傳輸過程中會(huì)造成圖像信息的丟失等[1].目前,圖像質(zhì)量評(píng)價(jià)已經(jīng)在圖像和視頻編碼、數(shù)字水印[2]、不等錯(cuò)誤保護(hù)、去噪[3]、圖像融合等領(lǐng)域得到了廣泛的應(yīng)用,圖像質(zhì)量的退化會(huì)影響人們對(duì)信息的提取和理解.因此,對(duì)圖像進(jìn)行合理的評(píng)價(jià)具有重要意義.
早期常用的圖像客觀質(zhì)量評(píng)價(jià)方法是均方差誤差方法[4]和峰值信噪比方法[5],但其評(píng)價(jià)結(jié)果并不能準(zhǔn)確地反映出圖像的退化情況.人類視覺系統(tǒng)(human visual system, HSV)可以從自然圖像的可視區(qū)域內(nèi)獲取結(jié)構(gòu)信息,故可以利用結(jié)構(gòu)信息的改變來感知圖像失真的情況,結(jié)構(gòu)相似度的評(píng)價(jià)方法[6]就是其中一種經(jīng)典的方法,但它無法對(duì)圖像中位移、旋轉(zhuǎn)等非結(jié)構(gòu)失真進(jìn)行有效運(yùn)作.文獻(xiàn)[7]提出一種基于自然場(chǎng)景統(tǒng)計(jì)(natural scene statistics, NSS)的對(duì)比度失真圖像無參考評(píng)價(jià)算法,其利用對(duì)比度失真的圖像與NSS模型的偏差程度,得到似然特征以反映出圖像質(zhì)量的變化.實(shí)驗(yàn)結(jié)果表明,NSS模型在處理對(duì)比度失真圖像方面取得了優(yōu)良的效果,但NSS模型提取出的特征量會(huì)受到圖像內(nèi)容的影響,從主觀感知一致而內(nèi)容不一致的圖像中提取的統(tǒng)計(jì)特征可能差別很大,會(huì)造成評(píng)價(jià)結(jié)果不準(zhǔn)確.文獻(xiàn)[1]提出一種基于顯著性和奇異值分解的模糊圖像質(zhì)量評(píng)價(jià)算法,從人眼感知系統(tǒng)出發(fā),獲得圖像的顯著性圖和奇異值分解清晰度圖,將兩者進(jìn)行融合,獲得圖像最終的質(zhì)量分?jǐn)?shù),該算法能夠有效地消除冗余信息,提高評(píng)價(jià)準(zhǔn)確度,但計(jì)算復(fù)雜度較大.文獻(xiàn)[8]利用局部視覺特征對(duì)失真信息進(jìn)行建模,提出了一種無參考模糊圖像質(zhì)量評(píng)價(jià)方法,該方法計(jì)算比較簡(jiǎn)單,而且在LIVE圖像庫中5種失真類型上均具有良好的性能,但其只針對(duì)模糊類型圖像具有較好的性能.本文提出了一種聯(lián)合結(jié)構(gòu)與紋理特征的無參考圖像質(zhì)量評(píng)價(jià)方法,在2個(gè)混合失真圖像數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果表明,所提出算法的性能優(yōu)于已有的質(zhì)量評(píng)價(jià)算法.
圖像失真有多種類型,大部分質(zhì)量評(píng)價(jià)算法是針對(duì)某一特定類型的失真,例如壓縮、噪聲、模糊和對(duì)比度失真等,但在實(shí)際應(yīng)用中,圖像總是產(chǎn)生混合失真.HSV對(duì)圖像結(jié)構(gòu)信息變化敏感,灰度共生矩陣方法提取的紋理特征能夠有效地反映失真后圖像紋理的變化情況,將兩者進(jìn)行結(jié)合可以得到更準(zhǔn)確地反映圖像失真情況的融合特征.因此,本文針對(duì)混合失真圖像,提出一種基于結(jié)構(gòu)與紋理特征融合的無參考圖像質(zhì)量評(píng)價(jià)方法.首先,提取圖像的特征包括結(jié)構(gòu)特征和紋理特征,提取結(jié)構(gòu)特征采用了梯度域的局部二值模式(gradient domain based local binary pattern, GLBP)[9],提取紋理特征采用了灰度共生矩陣方法,然后將得到的結(jié)構(gòu)特征和紋理特征融合,采用支持向量回歸(support vector regression, SVR)[10]方法,將圖像特征映射到質(zhì)量分?jǐn)?shù),獲得無參考圖像質(zhì)量評(píng)價(jià)模型.
局部二值模式(local binary pattern,LBP)算子[11]是模式識(shí)別領(lǐng)域中應(yīng)用非常廣泛的邊緣檢測(cè)算子.相比于傳統(tǒng)的邊緣檢測(cè)算子,LBP算子能夠提取出更細(xì)致的邊緣信息.對(duì)LBP算子進(jìn)行改進(jìn)得到GLBP算子,用GLBP算子提取混合失真圖像的結(jié)構(gòu)信息.圖像的梯度計(jì)算有很多種算子,選用相對(duì)簡(jiǎn)單的P算子來計(jì)算圖像的梯度.通過圖像和P算子的卷積公式計(jì)算失真圖像的梯度等級(jí),公式如下:
(1)
式中:“*”表示卷積運(yùn)算;px和py分別表示橫向和縱向的P算子模板;I(x,y)和g(x,y)分別表示失真圖像和對(duì)應(yīng)的梯度強(qiáng)度.
每一個(gè)像素點(diǎn)的GLBP定義為
(2)
式中:P為周圍像素的個(gè)數(shù);R為中心像素與周圍像素之間的距離;gc和gi分別表示中心像素和鄰域像素的梯度值.P取8,R取1.s(·)的表達(dá)式為
(3)
GLBP描述了圖像中心像素點(diǎn)和周圍像素點(diǎn)的關(guān)系,這些圖像的局部結(jié)構(gòu)模式可以有效地描述不同失真原因引起的圖像混合失真.但是,當(dāng)設(shè)置P為8時(shí),上述GLBP計(jì)算后產(chǎn)生的結(jié)果有28種,這種情況下進(jìn)行統(tǒng)計(jì)的計(jì)算量非常大,此外它只覆蓋了一個(gè)固定半徑范圍內(nèi)的小區(qū)域,為了適應(yīng)不同尺度的特征,并達(dá)到灰度和旋轉(zhuǎn)不變性的要求,采用具有旋轉(zhuǎn)不變性的均勻GLBP算子,可以表示為
(4)
其中:
(5)
式(5)定義了均勻性,u是均勻尺度,它的計(jì)算是逐比特進(jìn)行的,即二進(jìn)制序列從0到1、從1到0的跳變不超過2次.旋轉(zhuǎn)不變性表現(xiàn)在GLBP通過計(jì)算中心像素和周圍像素梯度值的差,生成一個(gè)二值序列來描述邊緣,而二值序列中0和1的相對(duì)位置并不會(huì)因?yàn)閳D像的旋轉(zhuǎn)而產(chǎn)生變化.通過上述優(yōu)化過程,旋轉(zhuǎn)不變的均勻GLBP只含有P+2種模式.GLBP模式并不是保持不變的,當(dāng)圖像產(chǎn)生失真時(shí),它會(huì)從一種模式向另一種模式轉(zhuǎn)換,這樣GLBP就能更有效地描述不同失真對(duì)圖像的影響.圖1列出了一張?jiān)紙D像以及其產(chǎn)生混合失真之后的GLBP圖像,顯然,混合失真使得圖像的結(jié)構(gòu)信息嚴(yán)重丟失.
圖1 原始圖像、失真圖像及其對(duì)應(yīng)的GLBP圖像Fig.1 Pristine image,distorted image and their corresponding GLBP images
圖2 原始圖像與失真圖像梯度加權(quán)直方圖的比較Fig.2 Comparison on gradient weighted histogram of pristine and distorted image
獲得失真圖像的GLBP圖像后,使用梯度加權(quán)直方圖來表達(dá)圖像的結(jié)構(gòu)特征.權(quán)值由像素點(diǎn)的梯度值代表,實(shí)驗(yàn)中P取8,所以一共有10種GLBP模式,對(duì)梯度圖中具有相同模式的像素點(diǎn)的梯度幅值進(jìn)行統(tǒng)計(jì),即可得到梯度加權(quán)直方圖.圖2為原始圖像與失真圖像梯度加權(quán)直方圖的比較.可以看出,失真前后的梯度加權(quán)直方圖不同,這也證明了GLBP對(duì)結(jié)構(gòu)信息描述的有效性[12].人眼在評(píng)價(jià)圖像質(zhì)量時(shí),會(huì)受到觀察條件的影響,人眼感受到的圖像失真與觀察距離及圖像分辨率都有關(guān)系[8].因此,對(duì)原始圖像進(jìn)行了4次下采樣,獲得5個(gè)尺度上的圖像并進(jìn)行結(jié)構(gòu)信息提取,以獲得圖像更多的細(xì)節(jié)信息,然后產(chǎn)生了5個(gè)不同尺度上的梯度加權(quán)直方圖,得到總共50維的圖像結(jié)構(gòu)特征.
灰度共生矩陣[13]可以分析灰度圖像的局部模式,反映了圖像的灰度在方向、幅度和局部領(lǐng)域上的分布特性.通過計(jì)算灰度圖像上保持一定距離的2個(gè)像素點(diǎn)的相關(guān)程度,這里的相關(guān)程度為聯(lián)合概率分布情況,可以得到灰度共生矩陣.一幅尺寸為M×N的圖像I的灰度共生矩陣可以表示為
(6)
式中:(Δx,Δy)表示偏離像素點(diǎn)(p,q)的距離;G是一個(gè)二維矩陣,每一個(gè)元素代表著保持一定距離和角度的兩個(gè)像素聯(lián)合出現(xiàn)的概率.這個(gè)二維矩陣并不能很好地描述一幅圖像的紋理特征,因此在圖像處理中應(yīng)用灰度共生矩陣時(shí),往往采用二次統(tǒng)計(jì)量[14],本文應(yīng)用到以下4個(gè)統(tǒng)計(jì)量.
(1)能量
(7)
能量又稱為二階矩,如果灰度共生矩陣中的元素值都相等,則能量趨近于零. 能量越大,表示圖像紋理越粗;能量越小,表示圖像紋理越細(xì).
(2)信息熵
(8)
信息熵表示圖像擁有的信息量,紋理特征也屬于一種信息量的表達(dá).當(dāng)一幅圖像沒有紋理特征時(shí),圖像的信息熵為零.
(3)慣性矩
(9)
慣性矩主要反映了灰度圖像的空間分布差異.慣性矩越大,圖像紋理溝紋越深;慣性矩越小,圖像紋理溝紋越淺.
(4)相關(guān)性
(10)
相關(guān)性反映了圖像灰度的局部相似度.當(dāng)灰度共生矩陣中一行或者一列元素均勻相等時(shí),相關(guān)性值就越大;若元素間相差很大時(shí),那么相關(guān)性值就越小.
通過灰度共生矩陣可以提取出0°、45°、90°、135°方向上的上述4個(gè)特征類型,經(jīng)過一系列實(shí)驗(yàn)獲取最佳紋理特征.
為了驗(yàn)證所提出的無參考圖像質(zhì)量評(píng)價(jià)算法的有效性,在2個(gè)混合失真圖像數(shù)據(jù)庫MDID2013[15]和MLIVE[16]上進(jìn)行質(zhì)量評(píng)價(jià).將數(shù)據(jù)庫分為訓(xùn)練集和測(cè)試集兩個(gè)部分.實(shí)驗(yàn)中,每一個(gè)數(shù)據(jù)庫中80%的圖片作為訓(xùn)練集,剩下20%的圖片進(jìn)行測(cè)試.重復(fù)實(shí)驗(yàn)1 000次,得到圖像質(zhì)量評(píng)價(jià)的性能指標(biāo),取中值作為最終結(jié)果.選用3個(gè)常用的指標(biāo)來衡量算法的性能,分別是皮爾遜線性相關(guān)系數(shù)(PLCC)、斯皮爾曼秩相關(guān)系數(shù)(SRCC)和標(biāo)準(zhǔn)誤差(RMSE).PLCC和SRCC值越趨近1,表明這個(gè)算法的性能越好.而RMSE值越小,表明算法的性能越好.在計(jì)算PLCC和RMSE值之前,要對(duì)預(yù)測(cè)所得的分?jǐn)?shù)進(jìn)行非線性回歸,公式如下:
(11)
表1列出了MDID2013數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果,對(duì)本文算法和當(dāng)前幾種主流的評(píng)價(jià)算法的性能進(jìn)行了比較.實(shí)驗(yàn)結(jié)果表明,本文算法的性能優(yōu)于其他算法.表2和表3分別給出了MDID2013數(shù)據(jù)庫上4個(gè)紋理特征和方向紋理特征的性能比較.可以看出,慣性矩在4個(gè)紋理特征中性能最好;在方向紋理特征方面,90°方向上的慣性矩與結(jié)構(gòu)特征相融合,取得了最佳的性能.
表1 MDID2013數(shù)據(jù)庫上的性能對(duì)比Tab.1 Performance comparison on MDID2013 dataset
表2 MDID2013數(shù)據(jù)庫上4個(gè)紋理特征的性能對(duì)比Tab.2 Performance comparison of four texture features on MDID2013 dataset
表3 MDID2013數(shù)據(jù)庫上方向紋理特征的性能對(duì)比Tab.3 Performance comparison of different orientation texture features on MDID2013 dataset
表4列出了MLIVE數(shù)據(jù)庫上的性能對(duì)比結(jié)果. 可以看出,本文算法的性能優(yōu)于其他算法,算法的SRCC和PLCC值高于其他算法,而RMSE值明顯下降.表5和表6分別給出了MLIVE數(shù)據(jù)庫上4個(gè)紋理特征和方向紋理特征的性能比較.從表5可以看出,相關(guān)性對(duì)MLIVE數(shù)據(jù)庫的影響最大.從表6可以看出,4個(gè)方向的紋理特征性能相似. 對(duì)4個(gè)方向上的相關(guān)性進(jìn)行平均值計(jì)算后,將相關(guān)性平均值與結(jié)構(gòu)特征融合,取得了最佳的性能.
表4 MLIVE數(shù)據(jù)庫上的性能對(duì)比Tab.4 Performance comparison on MLIVE dataset
表5 MLIVE數(shù)據(jù)庫上4個(gè)紋理特征的性能對(duì)比Tab.5 Performance comparison of four texture features on MLIVE dataset
表6 MLIVE數(shù)據(jù)庫上方向紋理特征的性能對(duì)比Tab.6 Performance comparison of different orientation texture features on MLIVE dataset
通過提取圖像的結(jié)構(gòu)特征和紋理特征,本文提出了一種針對(duì)混合失真圖像的無參考質(zhì)量評(píng)價(jià)方法.在MDID2013和MLIVE混合失真圖像數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果表明,本文算法優(yōu)于現(xiàn)有的無參考圖像質(zhì)量評(píng)價(jià)算法,且與主觀圖像質(zhì)量具有較高的一致性.在圖像質(zhì)量評(píng)價(jià)領(lǐng)域,混合失真圖像的無參考質(zhì)量評(píng)價(jià)在今后的研究中仍然會(huì)是一個(gè)熱點(diǎn)和難點(diǎn),下一步的研究工作是應(yīng)用深度學(xué)習(xí)來進(jìn)一步提高混合失真圖像無參考質(zhì)量評(píng)價(jià)算法的性能.