劉 海,楊 環(huán),潘振寬,黃寶香,侯國家
(青島大學計算機科學技術(shù)學院,山東青島 266100)
隨著手機、平板等越來越多的移動電子設備出現(xiàn)在人們的日常生活中,數(shù)字圖像現(xiàn)在已是無處不在,人們對數(shù)字圖像質(zhì)量的要求越來越高,因此圖像質(zhì)量評價技術(shù)應運而生[1]。圖像質(zhì)量評價可分為主觀評價和客觀評價兩類,主觀評價是指人們根據(jù)對圖像的主觀視覺感受做出的定性評價,而圖像的客觀評價是通過算法或模型來模擬人眼視覺系統(tǒng),從而得到圖像的感知質(zhì)量分數(shù)。客觀評價相比主觀評價具有處理數(shù)據(jù)量大和結(jié)果可重現(xiàn)等特點。
根據(jù)對參考圖像的依賴程度,圖像客觀質(zhì)量評價又可分為全參考圖像質(zhì)量評價(FR-IQA)、半?yún)⒖紙D像質(zhì)量評價(RR-IQA)和無參考圖像質(zhì)量評價(NR-IQA)。全參考圖像質(zhì)量評價是在獲取到參考圖像的前提下,將失真圖像與參考圖像進行相似度對比,并計算出最終質(zhì)量分數(shù)。在全參考圖像質(zhì)量評價中,均方誤差(Mean Square Error,MSE)和峰值信噪比(Peak Signal to Noise Ratio,PSNR)是較先用來評估圖像質(zhì)量的標準[2]。但是隨著人眼視覺系統(tǒng)的深入研究,更多的評價算法被相繼提出,最典型的算法有結(jié)構(gòu)相似性(Structural Similarity,SSIM)[3]和基于視覺顯著性的索引(Visual-Saliency-based Index,VSI)[4]等算法,SSIM 算法通過計算圖像的亮度、對比度和結(jié)構(gòu)的相似度,并將其相結(jié)合而得到最終質(zhì)量分數(shù)。然后,研究人員在SSIM 算法的基礎上又提出了G-SSIM[5]、MS-SSIM[6]和3-SSIM[7]等算法。VSI 算法則是通過比較兩幅圖像的顯著性相似度來評價圖像的失真程度。因為使用到了參考圖像的全部信息作為輔助對比,所以通常全參考圖像質(zhì)量評價準確性較好。而半?yún)⒖紙D像質(zhì)量評價是根據(jù)參考圖像的部分信息來進行失真圖像的質(zhì)量評估,這些信息可以是圖像的灰度直方圖、變換域的參數(shù)以及圖像熵等統(tǒng)計信息。文獻[8]提出一種基于離散余弦變換(DCT)系數(shù)分布的半?yún)⒖紙D像質(zhì)量評價。無參考圖像質(zhì)量評價則完全擺脫了參考圖像的約束,解決了現(xiàn)實應用中無法獲取參考圖像的問題,實際應用能力更強。然而,研究人員對人眼視覺系統(tǒng)的生理學和心理學研究發(fā)現(xiàn),人眼在評價圖像的失真程度時,往往需要一個未失真的圖像作為參考對比,從而量化視覺感知的差異[9],這也是目前無參考圖像質(zhì)量評價面臨的一個重大挑戰(zhàn)。為解決該問題,傳統(tǒng)的無參考圖像質(zhì)量評價算法是從圖像中提取可反映失真信息的特征,然后使用回歸模型進行回歸學習,從而得到圖像質(zhì)量的預測分數(shù)。該算法的性能主要依賴于手工特征的設計提取,而這種特征無法有效表達圖像質(zhì)量評價中的失真類型(如JEPG、JEPG2K 和白色噪聲等)和圖像內(nèi)容(如人、動物和植物等)的多樣性和靈活性。近年來,卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)在計算機視覺方面應用較為廣泛,研究人員希望通過CNN 中強大的特征表達能力進行無參考圖像質(zhì)量評價。公開數(shù)據(jù)集的樣本有限性在很大程度上限制了CNN 在無參考圖像質(zhì)量評價模型中的應用,還有研究人員將ImageNet 上經(jīng)過預訓練模型的一般圖像特征遷移至圖像質(zhì)量評價中[10],但圖像分類與圖像質(zhì)量評價之間較低的相關(guān)性以及相似性降低了遷移學習的有效性。
在無參考圖像質(zhì)量評價中,為彌補視覺感知差異圖像的缺失,可通過使用最新的圖像超分辨重建技術(shù)從失真圖像中修復得到偽參考圖像,從而進一步獲得感知差異圖像。由于圖像修復是基于只有一種或某種特定失真的假設,但圖像的失真通常不止一種且存在多種失真,因此利用這種方式進行無參考圖像質(zhì)量評價是不可取的。為此,本文提出使用生成對抗網(wǎng)絡(Generative Adversarial Network,GAN)生成視覺感知差異圖像并用于無參考圖像質(zhì)量評價。在生成網(wǎng)絡中,利用失真圖像產(chǎn)生相應的感知差異圖像,并使用判別網(wǎng)絡對生成的感知差異圖像進行區(qū)分。通過引入梯度特征差異圖的GMAP[11]作為感知差異圖像的真實值,能夠有效表達感知失真[12]。使用感知差異圖像指導質(zhì)量評價回歸網(wǎng)絡的學習,并且除了從失真圖像和GMAP 學習一些感知差異特征之外,網(wǎng)絡還引入了特定的損失函數(shù),這些損失函數(shù)可滿足人眼視覺系統(tǒng)中的感知特性,也可有效表達視覺感知特征。
無參考圖像質(zhì)量評價算法因缺乏參考圖像信息,而只能使用失真圖像來提取感知失真特征。NR-IQA 算法根據(jù)特征提取可分為基于自然場景統(tǒng)計(NSS)特征和基于特征學習的方法兩類。自然場景統(tǒng)計特征可通過多種方式表達,比如文獻[13]根據(jù)圖像失真造成的信息損失來計算空間域中不同子集的區(qū)域性交互信息,并預測圖像的質(zhì)量分數(shù)。文獻[14]分別從非監(jiān)督學習的結(jié)構(gòu)信息、自然信息和感知信息3 個方面來提取統(tǒng)計特征。文獻[15]提出圖像失真會引起小波變換的子帶系數(shù)變化,并采用Daubechies 小波變換的廣義高斯分布和系數(shù)作為失真圖像特征。文獻[16]提出圖像的失真程度和離散余弦變換系數(shù)密切相關(guān),利用提取DCT 域中的統(tǒng)計特征來預測質(zhì)量分數(shù)。
除了以上提取自然場景統(tǒng)計特征方法外,通過深度學習來表達特征也取得了顯著進展。文獻[17]提出利用淺層CNN 對圖像質(zhì)量進行評價,且將該方法改進為多任務性網(wǎng)絡,以學習圖像的失真類型和質(zhì)量評價。文獻[18]采用CNN 提取特征,利用SVR回歸質(zhì)量分數(shù)方法計算圖像的預測分數(shù)。文獻[19]使用預訓練的ResNet 網(wǎng)絡提取特征,并根據(jù)特定數(shù)據(jù)集中的失真類型和預測分數(shù)對網(wǎng)絡進行微調(diào),以獲取學習失真圖像的概率。文獻[20]采用FR-IQA方法在分割圖像塊上生成的質(zhì)量分數(shù)作為訓練真實值,并將其用于預訓練模型。
本文通過生成缺少視覺感知差異的信息來模擬HVS 在無參考圖像質(zhì)量評價中的應用。根據(jù)梯度差異圖像的先驗知識,使得本文模型比其他方法具有更好的靈活性和可行性。
生成對抗網(wǎng)絡及其各種變體廣泛應用于圖像的超分辨率重建和語義分割等方面[21],關(guān)鍵思想是同時訓練生成網(wǎng)絡和判別網(wǎng)絡。在訓練過程中,生成網(wǎng)絡是通過使用生成結(jié)果來欺騙判別網(wǎng)絡,判別網(wǎng)絡是判斷生成網(wǎng)絡的結(jié)果是否真實,則這2 個網(wǎng)絡構(gòu)成一個動態(tài)的博弈過程。在理想的訓練狀態(tài)下,生成網(wǎng)絡可產(chǎn)生以假亂真的結(jié)果,而對于判別網(wǎng)絡而言,它難以判斷生成網(wǎng)絡的結(jié)果究竟是否真實,從而得到一個生成對抗網(wǎng)絡模型,用來生成理想的結(jié)果。
本文中輸入的圖像具有各種失真類型和失真級別,使得模型的穩(wěn)定性至關(guān)重要,并且圖像質(zhì)量回歸網(wǎng)絡的性能與生成網(wǎng)絡輸出的結(jié)果緊密相關(guān)。采用特定的損失統(tǒng)計函數(shù)進行穩(wěn)定的生成對抗訓練,以進行更為準確的圖像質(zhì)量評價。
本節(jié)將具體介紹本文所提無參考圖像質(zhì)量評價模型。該模型的總體框架如圖1 所示,其中虛線部分僅用于模型訓練。從圖1 可以看出,本文模型主要是由感知差異生成網(wǎng)絡G、感知差異判別網(wǎng)絡D以及質(zhì)量評價網(wǎng)絡A 這3 個部分組成,并將其命名為GDA-NR-IQA。模型使用生成網(wǎng)絡G 生成視覺感知差異圖像并作為失真圖像的輔助信息,判別網(wǎng)絡D 借助GMAP 的先驗知識,采用相應的對抗式訓練來幫助感知差異生成網(wǎng)絡G 生成更為合格的結(jié)果,并抑制不良結(jié)果對A 造成的負面影響。將感知差異圖像與失真圖像一起輸入到質(zhì)量評價網(wǎng)絡A中,學習圖像中更多的感知失真,以達到準確評價圖像質(zhì)量分數(shù)的目的。本文針對不同的網(wǎng)絡定義了相對應的損失函數(shù),以提高模型的準確性和魯棒性。
圖1 GDA-NR-IQA 模型的總體框架Fig.1 The overall framework of GDA-NR-IQA model
視覺感知差異生成對抗網(wǎng)絡依靠生成感知差異圖像來彌補NR-IQA 中感知失真差異的缺陷,具體結(jié)構(gòu)如圖2 所示。生成網(wǎng)絡G 以失真圖像產(chǎn)生感知差異圖像并用來進行質(zhì)量評價,且生成的感知差異圖像與真實視覺感知差異圖像越接近,則最終的質(zhì)量評價網(wǎng)絡性能越好。判別網(wǎng)絡D 是判斷生成結(jié)果與真實結(jié)果的接近程度,使用GMAP 模擬人眼的真實視覺感知差異。
圖2 視覺感知差異網(wǎng)絡結(jié)構(gòu)Fig.2 Structure of the visual perception difference network
圖像梯度是一種圖像質(zhì)量評價中經(jīng)常使用的特征,因為它可有效獲取HVS 非常敏感的圖像局部結(jié)構(gòu)。本文采用梯度差異圖像作為輔助訓練,使生成網(wǎng)絡G 能夠更好地生成感知差異圖像。為了降低噪聲對圖像質(zhì)量評價結(jié)果的影響,實驗使用Prewitt 梯度算子提取圖像的梯度特征,該算子濾波器沿水平方向h(x)和垂直方向v(x)的矩陣可分別定義為:
對于給定的參考圖像r和失真圖像d,其梯度圖像可表示為:
其中,?表示卷積操作。
梯度差異圖像可定義為:
其中,ε是避免分母為0 的常數(shù),并使得系統(tǒng)保持穩(wěn)定。
生成網(wǎng)絡G 由3 個卷積層和7 個殘差單元組成,而每個殘差單元中都有2 個卷積層,2 個卷積層之間使用ReLU 激活函數(shù)并進行批標準化(Batch Normal,BN)處理。每個殘差單元都將輸入與輸出相結(jié)合,并作為下一個單元的輸入。判別網(wǎng)絡D 是一個6 層卷積神經(jīng)網(wǎng)絡結(jié)構(gòu),使用網(wǎng)絡G 的輸出結(jié)果和GMAP 作為輸入,采用4 個卷積層和2 個全連接層區(qū)分生成的感知差異圖像與GMAP。
生成網(wǎng)絡G 是為了使得網(wǎng)絡輸出結(jié)果更接近于真實視覺差異,這主要體現(xiàn)在像素等級和視覺等級2 個方面。當給定一組失真圖像di{i=1,2,…,N}與梯度差異圖gi{i=1,2,…,N}時,生成網(wǎng)絡G 需滿足以下關(guān)系式:
其中,Lp表示輸出結(jié)果與真實值之間像素級別的差距,實驗采用MSE 方法進行計算,Lv則表示輸出結(jié)果與真實值之間視覺等級的差距。
基于深度學習的圖像質(zhì)量評價方法主要是通過對圖像的失真信息進行學習,使得網(wǎng)絡能夠給出與人類主觀評分相一致的結(jié)果。人類對失真圖像的觀察更依靠于視覺上的感知差異,雖然可以利用GMAP 模擬人眼感知特性,但是由于它不能完全模擬人類的視覺感知特性,對失真特性存在一定的限制。為解決該問題,本文將特定的損失函數(shù)運用到網(wǎng)絡G 中,以提升IQA 模型的整體性能。因為判別網(wǎng)絡是針對判別任務進行訓練的,所以每一個卷積層的特征圖都包含有不同級別的細節(jié)信息。將判別網(wǎng)絡中的特征圖表示為生成感知差異與GMAP 在視覺等級上的差距,從而保證了輸出結(jié)果與真實結(jié)果之間的相似性。Lv可表示為:
其中,φj表示判別網(wǎng)絡D 中第j個卷積層的特征圖,H和W分別表示特征圖的長和寬,M表示特征圖的個數(shù)。
為確保生成網(wǎng)絡產(chǎn)生合理的感知差異圖像,特別是針對不同的失真類型和失真級別,本文在模型中引入了對抗訓練機制。根據(jù)生成對抗網(wǎng)絡的理論,生成網(wǎng)絡G 產(chǎn)生可以欺騙判別網(wǎng)絡D 的感知差異圖像。然而,判別網(wǎng)絡D 通過訓練可用來區(qū)分生成的感知差異圖像與真實差異圖像。因為模型的最終目標是通過生成的視覺感知差異圖像來提升質(zhì)量評價深度回歸網(wǎng)絡A 的性能,所以可以使用網(wǎng)絡A的預測結(jié)果來解決上述問題。如果網(wǎng)絡G 產(chǎn)生的感知差異圖像可以提升網(wǎng)絡A 的精度,則將產(chǎn)生的結(jié)果圖像定義為真,否則定義為假,即網(wǎng)絡D 使用網(wǎng)絡A 的結(jié)果來抑制網(wǎng)絡G 生成具有負面影響的感知差異圖。網(wǎng)絡D 的優(yōu)化函數(shù)可以表示為:
其中,RFi表示根據(jù)網(wǎng)絡A 的預測結(jié)果決定的真假值,且其可定義為如式(8)所示:
其中,si表示失真圖像di的質(zhì)量分數(shù)真實值,pi表示失真圖像di通過生成網(wǎng)絡G 生成的視覺感知差異圖。
生成網(wǎng)絡G 最終可被優(yōu)化為通過生成對網(wǎng)絡A有利的合格感知差異圖像來欺騙判別網(wǎng)絡D,則網(wǎng)絡G 的對抗損失函數(shù)和損失函數(shù)分別如式(9)和式(10)所示,即生成網(wǎng)絡G 與判別網(wǎng)絡D 是通過相互制約以及相互加強的方式而訓練出來的。
圖3 給出了訓練好的生成網(wǎng)絡產(chǎn)生的視覺感知差異圖像與其他圖像之間的對比效果。從圖3 可以看出,在特定失真的情況下,該模型能夠較好掌握圖像的失真特性,并對質(zhì)量評價網(wǎng)絡起到促進作用。
圖3 視覺感知差異圖像與其他圖像的對比效果Fig.3 Comparison effect of visual perception difference images and other images
在圖像質(zhì)量評價網(wǎng)絡A 中,使用失真圖像和學習到的感知差異圖像作為輸入,并對質(zhì)量分數(shù)進行深度學習回歸。失真圖像的失真程度是人類主觀評價的重要依據(jù),而感知差異圖像則作為輔助過程對最終評價結(jié)果產(chǎn)生顯著影響。圖像質(zhì)量評價網(wǎng)絡結(jié)構(gòu)如圖4 所示,它由特征提取、特征融合以及特征回歸3 個部分組成。在該網(wǎng)絡中,特征提取通過4 個卷積單元來實現(xiàn),且每個卷積單元中包含2 個卷積層,而2 個卷積層之間使用ReLU 激活函數(shù),在2 個卷積層之后存在一個最大池化層。這樣可以得到感知差異圖像的特征fp和失真圖像的特征fd這2 個高維特征向量,融合層將這2 個特征進行融合連接并作為全連接層的輸入,則融合特征可表示為:
其中,f表示融合后的特征向量,融合前、后每個特征向量分別為512 維和1 024 維。通過3 個全連接層組成的回歸網(wǎng)絡得到失真圖像的預測分數(shù)。為了使預測的圖像分數(shù)與主觀評分之間具有線性關(guān)系,本文將圖像質(zhì)量評價網(wǎng)絡A 的最終損失函數(shù)定義為:
其中,dt和pt分別表示第t個輸入網(wǎng)絡的失真圖像和感知差異圖像,st表示對應圖像的主觀評價分數(shù),F(xiàn)(·)表示非線性函數(shù),T表示每批次輸入的圖像總數(shù)量。
圖4 圖像質(zhì)量評價網(wǎng)絡結(jié)構(gòu)Fig.4 Network structure of image quality assessment
本文將失真圖像和相應的參考圖像隨機裁剪為256×256,通過將計算失真圖像和參考圖像之間的GMAP 作為視覺感知差異生成對抗網(wǎng)絡訓練集數(shù)據(jù)的一部分。在生成網(wǎng)絡中,通過使用7 個殘差單元來生成感知差異圖像。在判別網(wǎng)絡中,采用6 層卷積神經(jīng)網(wǎng)絡判別生成的感知差異圖像,并將失真圖像與生成的感知差異圖像通過雙卷積神經(jīng)網(wǎng)絡回歸出圖像的質(zhì)量預測分數(shù)。算法1 列出了基于生成感知差異的無參考圖像質(zhì)量評價模型(GDA-NR-IQA)的訓練過程。
算法1基于生成感知差異的無參考圖像質(zhì)量評價
輸入失真圖像d
輸出失真圖像的預測質(zhì)量分數(shù)s
步驟1通過失真圖像d與參考圖像r計算得出梯度差異圖像的GMAP。
步驟2將失真圖像d與GMAP 輸入生成對抗網(wǎng)絡中,對網(wǎng)絡進行訓練,以生成感知差異圖像p。
步驟3將失真圖像d與生成的感知差異圖像p輸入質(zhì)量評價網(wǎng)絡中并對網(wǎng)絡進行訓練。
步驟4將失真圖像d輸入訓練好的生成對抗網(wǎng)絡,以獲取感知差異的圖像。
步驟5將失真圖像d與生成的感知差異圖像p同時輸入質(zhì)量評價網(wǎng)絡,得到圖像質(zhì)量的預測分數(shù)s。
針對訓練時網(wǎng)絡模型的優(yōu)化算法,本文采用自適應矩估計(ADAM)算法來代替?zhèn)鹘y(tǒng)的隨機梯度下降法(SGD)。參數(shù)設置為α=0.003、β1=0.5、β2=0.999,網(wǎng)絡中的權(quán)值都是以0 為中心、標準差為0.02的正態(tài)分布初始化的。實驗是基于TID2013 數(shù)據(jù)庫進行訓練,其中訓練集所占的比重為0.8,測試集的比重為0.2。
在實驗中,模型使用MATLAB 中的Caffe 工具開發(fā),利用包含2.50 GHz CPU 和GTX1080 GPU 的服務器訓練模型,其中GPU 用于加快模型的處理速度。本文在TID2013 數(shù)據(jù)庫上進行模型訓練時大約花費15 h,在測試階段中,每個圖像的平均處理時間約為0.2 s。
為了驗證本文模型的性能,實驗在TID2013[22]數(shù)據(jù)庫上訓練模型,并在LIVE[23]、CSIQ[24]和TID2008[25]數(shù)據(jù)庫上進行驗證。LIVE 數(shù)據(jù)庫中含779 幅失真圖像,分別來自于29 幅參考圖像的5 種不同失真。CSIQ 數(shù)據(jù)庫中含有866 幅失真圖像,分別來自于30 幅參考圖像的6 種不同失真。TID2008 數(shù)據(jù)庫則是將25 幅參考圖像通過17 種不同的失真類型,4 種不同的失真級別共獲得了1 700(25×17×4)幅失真圖像。TID2013 數(shù)據(jù)庫在此基礎上增加了7 種失真類型和1 種失真級別,從而獲得了3 000 幅失真圖像。該數(shù)據(jù)庫的主觀評分是由971 位觀察者給出524 340 個數(shù)據(jù)統(tǒng)計而得出。
實驗使用以下3 個評價指標對本文模型的準確性進行評估:斯皮爾曼等級相關(guān)系數(shù)(Spearman Rank Order Correlation Coeficient,SROCC)、皮爾遜線性相關(guān)系數(shù)(Pearson Linear Correlation Coeffi cient,PLCC)和均方根誤差(Root Mean Squared Error,RMSE)。本文通過計算預測分數(shù)值與主觀分數(shù)值之間的SROCC、PLCC 和RMSE 來比較各類算法的準確性,SROCC 和PLCC 的范圍為[0,1],且其值越高,則表示算法的準確度越高,而RMSE 越低則表示算法預測的得分與主觀分數(shù)之間的差異越小。
為了研究模型中關(guān)鍵部分的有效性,本文在TID2008 數(shù)據(jù)庫上進行基于不同損失函數(shù)的消融實驗。實驗將采用不同損失函數(shù)生成的感知差異圖像和失真圖像輸入至同一圖像質(zhì)量評價網(wǎng)絡中,用SROCC、PLCC 以及RMSE 值來體現(xiàn)不同損失函數(shù)對GDA-NR-IQA 性能的影響,結(jié)果如表1 所示。其中,Lp和Lv表示僅使用像素等級差異或視覺等級差異作為損失函數(shù),La表示相應的對抗損失函數(shù),接下來將三者結(jié)合起來(Lp+Lv+La)進行模型訓練。從表1 可以看出,Lv和La可以顯著提高網(wǎng)絡的整體精度,Lv和La的加入均可縮小預測分數(shù)與主觀評價分數(shù)之間的差距。Lp+La的方式可使模型更好地學習到感知失真差異信息,而Lv的加入可使生成的感知差異圖像更符合人類感知特性,并且Lp+Lv+La使得模型的SROCC 和PLCC 值達到最高,這說明本文提出的損失函數(shù)對模型的有效性以及評價能力均有顯著提升。
表1 不同損失函數(shù)在TID2008 數(shù)據(jù)庫上的結(jié)果對比Table 1 Comparison of the results of different loss functions on TID2008 database
深度學習在人臉識別、機器翻譯等各項任務中取得顯著效果,這是因為足夠深的網(wǎng)絡深度起到關(guān)鍵作用,一定的網(wǎng)絡深度可以產(chǎn)生更好的非線性表達能力,并且可以學習到復雜性更高的細節(jié)圖像特征。本文模型使用具有7 個殘差單元網(wǎng)絡生成圖像的感知差異圖像,并采用不同網(wǎng)絡深度在CSIQ 數(shù)據(jù)庫上進行圖像質(zhì)量評價性能對比,結(jié)果如圖5 所示。從圖5 可以看出,網(wǎng)絡深度的加深可有效提升模型性能以及對失真圖像的評價能力,但是當殘差單元數(shù)量達到7 個后,網(wǎng)絡深度的加深對性能影響不顯著,且還會引起更為復雜的網(wǎng)絡優(yōu)化問題以及增加網(wǎng)絡參數(shù)量和模型時間復雜度。因此,本文選擇使用7 個殘差單元來構(gòu)建生成網(wǎng)絡。
圖5 殘差單元數(shù)量對本文模型性能的影響Fig.5 Effect of the number of residual units on the performance of the proposed model
在現(xiàn)實應用中,失真圖像通常不僅只有一種失真,而是多種失真結(jié)果之間相互產(chǎn)生影響造成的。不同的失真類型都有其獨特特點,為研究GDA-NR-IQA在不同失真類型下的精度問題,將提出的本文模型與BRISQUE[26]、CORNIA[27]、CNN[17]、SOM[28]和BIECON[20]這5 種具有代表性的NR-IQA 模型在LIVE 數(shù)據(jù)庫中進行基于不同失真類型的實驗對比,結(jié)果如表2 所示。其中,最優(yōu)結(jié)果加粗表示。從表2可以看出,除了快速衰落失真(FF)外,針對其他4 種失真,GDA-NR-IQA 比其他模型的準確性高,這也說明本文模型具有良好的優(yōu)越性。同時,在LIVE 數(shù)據(jù)庫中的整體性能表明,GDA-NR-IQA 在多重失真的情況下還能通過有效生成感知差異圖像對失真圖像的質(zhì)量分數(shù)進行預測。
表2 6 種模型在不同失真類型下的性能對比Table 2 Performance comparison of six models under different distortion types
為進一步驗證GDA-NR-IQA 的有效性,在LIVE、TID2008 和TID2013 這3 種主流圖像質(zhì)量評價數(shù)據(jù)庫中,實驗對本文模型與PSNR、IFC、SSIM 和VSI 這4 種FR-IQA 模型以及DIIVINE[29]、BRISQUE、CNN、SOM、CORNIA 和BIECON 這6 種代表性NR-IQA 模型進行對比分析,結(jié)果如表3所示。其中,最優(yōu)結(jié)果加粗表示。從表3 可以看出,GDA-NR-IQA 在3 種數(shù)據(jù)集上的結(jié)果優(yōu)于其他模型。從表中還可以看出,本文模型在LIVE數(shù)據(jù)庫中評價結(jié)果的提升效果并不明顯,而在TID2008與TID2013 數(shù)據(jù)集中相比其他模型提升了1 個百分點以上,這主要是因為LIVE 數(shù)據(jù)庫具有較少的失真圖像數(shù)據(jù)量,在計算預測分數(shù)與主觀評分之間的相關(guān)性時,由于測試樣本過少使得模型的提升效果不顯著,且該模型在后兩種數(shù)據(jù)庫中的評價結(jié)果則能更好地反映出模型整體性能的優(yōu)越性。而針對本文提出的模型,發(fā)現(xiàn)其在TID2008 和TID2013 數(shù)據(jù)庫中的相關(guān)性結(jié)果相比于LIVE 數(shù)據(jù)庫都出現(xiàn)了明顯下降,這主要是因為前兩種數(shù)據(jù)庫的失真類型和失真圖像的數(shù)量均遠大于LIVE 數(shù)據(jù)庫,而GDA-NR-IQA 在TID2013數(shù)據(jù)庫中SROCC和PLCC也分別達到了0.918和0.925,相比于其他評價模型也提升了1.5 個百分點以上,這表明GDA-NR-IQA 在更加復雜的失真類型和更大的失真數(shù)據(jù)量下,也能夠獲得良好的精度。
表3 不同模型在3 種數(shù)據(jù)庫上的性能對比Table 3 Performance comparison of different models on three databases
本文提出一種基于生成視覺感知差異的無參考圖像質(zhì)量評價方法。采用失真圖像和GMAP 構(gòu)造一個生成網(wǎng)絡并生成合理的視覺感知差異圖像,利用構(gòu)造的判別網(wǎng)絡對生成的感知差異圖像和GMAP進行區(qū)分,并結(jié)合使用特定的損失函數(shù)通過逆向?qū)W習的方式增強生成圖像的合理性,以彌補無參考圖像質(zhì)量評價算法中視覺感知失真差異的缺失。實驗結(jié)果表明,本文模型在生成感知差異圖像能力方面取得了顯著效果,且與人眼主觀評分具有較高的一致性。由于本文模型僅考慮了人眼的視覺差異特性,因此下一步將對加入更多人眼視覺特性的人眼視覺系統(tǒng)進行研究,以得到通用性更強且預測精度更高的模型。