秦小倩,杜 浩
(1.桂林學(xué)院,廣西 桂林 541006;2.桂林電子科技大學(xué),廣西 桂林 541004)
圖像信息是人類獲得外部信息的主導(dǎo)方式,這也是人類互動的重要組成部分。但是,由于傳輸環(huán)境的影響,操作不當(dāng)以及設(shè)備在圖像采集、處理、壓縮、傳輸和重建等過程中,圖像很容易受損從而給圖像研究帶來了很大的困難[1-2]。因此,如何準(zhǔn)確評估圖像質(zhì)量已成為圖像處理領(lǐng)域的研究熱點。圖像質(zhì)量評價方法分為主觀和客觀質(zhì)量評價方法,主觀質(zhì)量評價方法指的是利用人類的視覺感知對圖像進行評價,需要大量的人類參與,因此它是最準(zhǔn)確可靠但又繁瑣耗時的??陀^的圖像質(zhì)量評價方法是通過建立數(shù)學(xué)模型描述圖像質(zhì)量,達到與人類主觀感受近似一致的目的,主要分為3 個類別[3]:全參考圖像質(zhì)量評價方法(FR-IQA)、半?yún)⒖紙D像質(zhì)量評價方法(RR-IQA)、無參考圖像質(zhì)量評價方法(NRIQA)。全參考和部分參考圖像質(zhì)量評價方法都需要受損圖像與其對應(yīng)的無損圖像進行對比,而無參考圖像質(zhì)量評價方法在評價過程中不需要與對應(yīng)的無損圖像對比,具有更廣泛的研究和應(yīng)用價值。
當(dāng)前,無參考圖像質(zhì)量方法有三個主要研究的方向:
1)用于指定失真類型的方法,該方法根據(jù)失真特性建立指定失真模型評估圖像質(zhì)量。例如,對于模糊失真,文獻[4]通過模糊圖像的結(jié)構(gòu)被破壞程度建立模型描述圖像的質(zhì)量評估值;對于壓縮失真,利用在小波系數(shù)的對數(shù)域中具有近似線性規(guī)則,并且通過已建立的聯(lián)合直方圖模型獲得圖像質(zhì)量指標(biāo)[5]。
2)基于機器學(xué)習(xí)的方法,該方法取決于提取影響圖像評估質(zhì)量的圖像特征的能力,再使用機器學(xué)習(xí)領(lǐng)域已有算法構(gòu)建模型[6]。如使用SVR 導(dǎo)出失真圖像的特征進而評價圖像質(zhì)量[7]、基于通用深度神經(jīng)網(wǎng)絡(luò)算法預(yù)測圖像質(zhì)量[8]。
3)基于NSS 模型的方法,自然圖像都會有其固定特性,而失真會改變這些特性。例如,文獻[9]通過提取失真圖像改變的NSS 特性建立模型進行圖像的質(zhì)量評估。文獻[10]提出了BLIINDS 算法,該算法從DCT 域中提取4 個NSS 特征并訓(xùn)練它們,獲得圖像的質(zhì)量評價指標(biāo)。BLIINDS-Ⅱ[11]在BLIINDS的基礎(chǔ)上引入了離散余弦統(tǒng)計特征對圖像質(zhì)量進行評價。文獻[12]基于圖像在小波域中遵循非高斯分布的NSS 特性,進行圖像質(zhì)量的評估(BIQI)。Mattal.A 提出使用廣義高斯模型描述失真圖像的預(yù)測參數(shù)和實際參數(shù)之間的差異來進行質(zhì)量評價(NIQE)[13]。
本文提出一種基于NSS 的無參考圖像質(zhì)量評價算法,使用圖像的低尺度子帶能量預(yù)測高尺度子帶能量,并用各尺度能量的預(yù)測值和失真圖像實測值的差異來度量失真圖像的質(zhì)量。
二維離散小波變換(DWT)通常在實際圖像處理中使用,通常分別以行和列方向提取二維信號[14]。二維小波分解圖如圖1 所示。
圖1 二維小波分解圖
輸入圖像利用一維低通濾波器(LPF)和高通濾波器(HPF)進行行濾波,再通過相同的方法進行列濾波,得到4 個不同的頻率子帶(低頻信息LL、垂直信息LH、水平信息HL 和對角線信息HH)。在小波變換中,圖像的近似信息和細(xì)節(jié)信息分別以低頻組件(LL、HL、LH)和高頻組件(HH)表示。由于低頻成分蘊含了信號的主要特征,因此小波可以進一步分解圖像近似部分(LL),獲得更多的低頻成分。圖2 為圖像的3 級小波分解結(jié)構(gòu)圖,其中,1、2、3 表示小波的分解尺度。
圖2 3 級小波分解結(jié)構(gòu)圖
由于自然圖像具有不同的視覺感知區(qū)域(即邊緣、紋理、平坦和其他區(qū)域),因此在自然圖像中會出現(xiàn)某些頻率分布特性[15]。對數(shù)域中自然圖像的功率譜與空間頻率之間存在近似線性關(guān)系,即隨著分解級數(shù)的增加,對數(shù)域中小波子帶能量呈線性減小。子帶能量表示為[16]:
式中:E為子帶能量;N是相應(yīng)子帶的像素點序號;C為子帶系數(shù);s是分解的級數(shù);o表示方向;φ是調(diào)節(jié)因子。
圖3 為4 級小波分解各子帶能量序號,圖4a)表示了LIVE 圖像質(zhì)量評價數(shù)據(jù)庫[17]中29 張自然圖像經(jīng)過4 級小波分解后各子帶在對數(shù)域的能量分布。子波能量具有近似線性減小的規(guī)律,但是其形狀并不光滑,這是由于不同的圖像具有不同的內(nèi)容,不同圖像的能量譜差異大。
圖3 小波子帶能量序號
圖4 自然圖像和各失真類型的圖像在小波域中各小波子帶與能量的關(guān)系
振鈴效應(yīng)、模糊效應(yīng)、隨機噪聲等是圖像處理中常見的使圖像失真的原因,它們將影響圖像的高頻信息[18]。JPEG2000,JPEG,White Noise,Gaussian Blur和Fast Fading為圖像常見的失真類型,圖4b)~圖4e)顯示了各失真類型在對數(shù)域中各小波子帶與能量的關(guān)系,其中每種失真類型在LIVE圖像質(zhì)量評價數(shù)據(jù)庫隨機選取29幅圖。
可以看出,所有失真類型的圖像體現(xiàn)出NSS 特性:小波高尺度變換下的低頻子帶小波能量(子帶No.1 和子帶No.2)衰減較慢或者不衰減,但低尺度變換下的高頻子帶(子帶No.3~子帶No.8)衰減較快但不完全一致。這是由于失真類型的不同,圖像失真的部分與程度也不同。由于圖像的NSS 特性變化可以反映圖像的質(zhì)量變化,因此利用失真圖像的NSS 特性受影響程度來表示失真圖像的質(zhì)量。
從自然圖像和失真圖像的NSS 特性可以看出,自然圖像經(jīng)小波多尺度分解后的子帶能量在對數(shù)域中具有強線性規(guī)律,而失真圖像則打破了這一規(guī)律。對于失真圖像,失真主要表現(xiàn)為表細(xì)節(jié)的低尺度(高頻帶序號)的子帶能量部分有顯著變化,而表近似的高尺度(低頻帶序號)的子帶能量部分幾乎沒有變化。使用自然圖像的高尺度子帶能量預(yù)測低尺度子帶能量,并用各尺度能量的預(yù)測值和失真圖像實測值的差異來度量失真圖像的質(zhì)量。由于自然圖像和失真圖像中子帶能量的線性特性在4 級小波分解中表現(xiàn)明顯,因此在該方法中采用4 級小波分解。
4 級小波分解算法流程圖如圖5 所示,共分為以下幾部分。
圖5 算法流程圖
1)訓(xùn) 練
為了描述自然圖像子帶能量的線性規(guī)律,從訓(xùn)練N(N>20)幅自然圖像中得到線性預(yù)測矩陣M(s),使高尺度的子帶能量(子帶No.1 和子帶No.2)可以預(yù)測低尺度的子帶能量(子帶No.3~子帶No.8)。首先,在N(N>20)幅原始無損的圖像上,根據(jù)式(2)得到原始圖像的子帶能量矩陣IE(n,s,o);然后,利用最小二乘法的矩陣變換得到預(yù)測矩陣M(s)。
式中:s是尺度數(shù),s= 3,2,1;M(s)表示s尺度上的預(yù)測矩陣;IE(n,s,o)是自然圖像的s尺度上的子帶能量;n是原始圖像的數(shù)量,實驗中n= 29;o表示每層的方向;IE(n,4,o)是自然圖像的第4 尺度的子帶能量。
2)預(yù) 測
根據(jù)式(3),通過小波變換獲得失真圖像的子帶能量DE(s,o),再通過失真圖像的第4 尺度的子帶能量DE(4,o)與預(yù)測矩陣M(s)相乘得到相應(yīng)的預(yù)測無失真子帶能量PE(s,o)。
式中:s是尺度數(shù),s= 3,2,1;o表示每層的方向。
3)調(diào) 整
如圖4c)所示,當(dāng)圖像失真嚴(yán)重時,高尺度子帶(子帶No.1 和子帶No.2)的能量DE 會發(fā)生很大變化。如圖6a)所示,如果用這些波動的值進行預(yù)測,將產(chǎn)生顯著的誤差。因此,預(yù)測值PE 被調(diào)整以防止這種情況發(fā)生,如式(4)、式(5)所示:
圖6 調(diào)整前后失真圖像各子帶的預(yù)測能量變化
式中:s= 3,2,1;(IE(n,4,o))min是步驟1)中的29 個自然圖像第4 尺度的子帶能量的最小值;(IE(n,s,o))mean是自然圖像第s尺度子帶能量的平均值。調(diào)整后的能量分布如圖6b)所示。
4)使用CSF 模型構(gòu)建加權(quán)系數(shù)
對比敏感度是HVS 的一個顯著特征,指人眼對圖像中不同區(qū)域的敏感度,它隨著視覺場景中的空間頻率而變化[19]。因此,對比敏感度隨空間頻率變化的曲線稱為CSF。由于人眼在不同程度上可以感知不同的空間頻率,因此對不同頻率的子帶使用CSF 模型進行加權(quán),使其更接近HVS[16]。各尺度的加權(quán)系數(shù)如式(6)所示:
式中:fr=fn*fs表示人眼視覺范圍內(nèi)的空間頻率,fs為采樣頻率,fn為歸一化頻率和fy分別是圖像的水平頻率和垂直頻率。根據(jù)文獻[16]計算出各相應(yīng)子帶序號所對應(yīng)的加權(quán)值如表1 所示。
表1 各子帶序號所對應(yīng)的加權(quán)值
5)圖像質(zhì)量評價值Q
如圖7 所示,通過失真圖像中每個子帶的預(yù)測值PE和實際值DE 之間能量差的加權(quán)和(見式(7))獲得圖像質(zhì)量評估值Q。
圖7 失真圖像在各子帶中所預(yù)測無失真能量和實際能量之間的能量差
式中:A是每個尺度中兩個方向的權(quán)重,在實驗中,水平和垂直方向A= 1.1,對角線方向A= 0.9;As是通過CSF模型獲得的每個尺度的權(quán)重系數(shù);PE(s)是受損圖像的預(yù)測無損能量;DE(s)是受損圖像在s尺度上的實際能量。該圖像的質(zhì)量分?jǐn)?shù)Q越高,失真圖像的失真程度越高,則圖像質(zhì)量越低。
本文提出的算法在LIVE 圖像質(zhì)量評估數(shù)據(jù)庫上進行測試。在LIVE 數(shù)據(jù)庫中,有29 幅不同分辨率的原始圖像和779 幅由這些原始圖像生成的5 種不同類型的失真圖像,分別是:JPEG2000(JP2K)169 幅;JPEG175 幅;White Noise(WN)145幅;Gaussian Blur(GBlur)145幅;Fast Fading(FF)145幅。同時,該數(shù)據(jù)庫提供了所有失真圖像的平均主觀意見得分差異(DMOS)值。實驗中,該數(shù)據(jù)集被分為訓(xùn)練集和測試集,訓(xùn)練集由29幅原始圖像來形成預(yù)測矩陣,測試集由各失真類型的750幅圖像組成。
該算法的客觀質(zhì)量評價得分與圖像數(shù)據(jù)集提供的主觀DMOS 值之間的一致性程度作為該算法的性能度量。本實驗利用2 個客觀評價值作為算法的性能指標(biāo)。
秦漢魏晉南北朝時期的丞相…………………………………………………………………………………………甄 鵬(3.33)
1)線性相關(guān)系數(shù)(LCC):通過算法的客觀質(zhì)量評價值與主觀DMOS 值的相關(guān)性來表示算法的準(zhǔn)確性。
2)Spearman 等級相關(guān)系數(shù)(SROCC):反映算法的客觀質(zhì)量評價值單調(diào)性的一致性。LCC 和SROCC 的值在0 和1 之間,值越高,表明算法與人眼的一致度越好,則算法的性能越好。
3.2.1 單個數(shù)據(jù)庫驗證
本文算法在LIVE 數(shù)據(jù)庫上運行,圖8 顯示了各失真類型和全失真類型的客觀質(zhì)量評價分值和主觀DMOS 值的散點分布圖,圖中的每個點表示要評價的圖像。在理想條件下,客觀評價值與主觀DMOS 值之間存在一對一的關(guān)系,表現(xiàn)為直線或曲線。散射的點越是收斂到一條直線或曲線上,算法的性能就越好。從結(jié)果中可以看出,對于JPEG、GBlur、FF失真類型的圖像,算法的客觀值與主觀值具有良好的一致性。對于WN 類型失真的圖像,算法的客觀值與主觀值具有高度的一致性。
圖8 算法客觀評價值與主觀DMOS 的散點分布圖
表2 和表3 分別表示本文算法與現(xiàn)有算法的LCC 值和SROCC 值的比較。從表中可以看出,對于WN 失真類型的圖像,本文算法的性能與BLIINDS-Ⅱ算法性能接近并遠(yuǎn)遠(yuǎn)優(yōu)于NIQE 算法,與人眼具有高度的一致性;對于JPEG、FF、GBlur 失真類型的圖像,本文算法的性能與BIQI 性能接近,與人眼具有良好的一致性;但本文算法在評價JP2K 失真類型圖像質(zhì)量方面較差,這是由于JP2K 較JPEG 壓縮技術(shù)計算更復(fù)雜,從而造成圖像的高頻信息由于模糊效應(yīng)而丟失,還由于振鈴效應(yīng)在高頻子帶中增加了許多噪聲信息,導(dǎo)致各子帶無失真能量的預(yù)測有較大的誤差。
表2 本文算法與其他算法在各失真類型中的LCC 比較
3.2.2 跨數(shù)據(jù)庫驗證
由于本文算法主要在LIVE 數(shù)據(jù)庫上進行驗證,即在LIVE 數(shù)據(jù)庫中獲取訓(xùn)練集和測試集,因此需要用CSIQ 數(shù)據(jù)庫[20]來驗證本文算法對數(shù)據(jù)庫的敏感度。
本文設(shè)計實驗如下:
1)使用LIVE 數(shù)據(jù)庫中的29 幅原始圖像作為訓(xùn)練集,使用CSIQ 數(shù)據(jù)庫中各失真類型的圖像作為測試集;
2)使用CSIQ 數(shù)據(jù)集的30 張原始圖像作為訓(xùn)練集,LIVE 數(shù)據(jù)集中的各失真類型的圖像作為測試集。
表4 為各算法對于全失真類型的性能指標(biāo)(SROCC值)。結(jié)果表明,本文算法對數(shù)據(jù)庫的敏感度較低,算法穩(wěn)定性較好并優(yōu)于BIQI 算法。
表4 各算法在跨數(shù)據(jù)集的驗證(SROCC 值)
3.2.3 時間復(fù)雜度驗證
圖像質(zhì)量評價算法的時間復(fù)雜度是實際應(yīng)用中的一個重要指標(biāo)。表5 表示了各算法評價一幅分辨率為512×640 的圖像質(zhì)量的運行時間。實驗在Matlab R2020A 中運行。實驗運行平臺是一臺2.5 GHz CPU 和8 GB RAM的筆記本電腦,操作系統(tǒng)是64位Windows 10。
表5 各算法的運行時間
從表5 中可以看出,本文算法比BLIINDS-Ⅱ算法快得多。因此,從時間復(fù)雜度的角度來看,它在無參考圖像質(zhì)量評價應(yīng)用中具有競爭力。
本文提出了一種基于NSS 的無參考圖像質(zhì)量評價算法。本文算法在評價JPEG、WN、GBlur、FF 失真類型的圖像質(zhì)量時與人眼具有良好的一致性,并且對全失真類型圖像質(zhì)量評價時,穩(wěn)定性優(yōu)于BIQI 算法,適用范圍更廣。特別是在對WN 失真類型的圖像進行評價時,性能與其他算法一致,但運行時間遠(yuǎn)遠(yuǎn)小于BLIINDS-Ⅱ算法,具有很大的時間優(yōu)勢,適用于實時性強的工程運用中。然而,JP2K 失真類型的圖像由于其復(fù)雜的形成過程而不適用于本文算法,因此,算法需要在JP2K 失真圖像方向改進。
注:本文通訊作者為秦小倩。