王德興,王 越,袁紅春
(上海海洋大學 信息學院,上海 201306)
近年不斷提及的海洋強國戰(zhàn)略表明,海洋資源的開發(fā)和利用是我國發(fā)展的必由之路。為了充分地了解海洋,獲取海洋信息具有重要意義。水下圖像作為水下信息的載體,其對深海環(huán)境感知與資源探索發(fā)揮著重要的作用。由于水下環(huán)境較為復雜,水下圖像往往會呈現(xiàn)出模糊、對比度低、顏色失真等退化現(xiàn)象。退化的水下圖像對水下高級視覺任務造成了一定的挑戰(zhàn),如水下機器人的自動巡航、水下目標檢測[1-2]等。因此,尋找一種有效的方法對退化水下圖像進行增強成為一個亟需解決的問題。
目前為止,存在3類方法可對退化的水下圖像進行增強處理,分別為:基于物理模型的方法、基于非物理模型的方法和基于數(shù)據(jù)驅(qū)動的方法[3]?;谖锢砟P偷姆椒ㄒ罁?jù)Jaffe-McGlamery水下成像模型,將水下圖像增強操作看成是水下成像的逆過程,通過求解水下成像模型的逆運算以獲得清晰的水下圖像[4-9]。該類方法需利用水下成像光學屬性或物理先驗知識,并依據(jù)水下成像模型對參數(shù)進行估計。由于模型通常建立在假設的基礎上,對模型參數(shù)的估計存在一定的偏差,會造成圖像增強效果不佳。Berman[5]等提出了基于模糊假設的傳輸估計和基于灰色世界假設的衰減系數(shù)比估計。當環(huán)境比場景更亮時,大多數(shù)像素都指向同一方向,很難檢測到霾線,因此該方法可能會失效?;诜俏锢砟P偷姆椒ㄖ饕ㄟ^直接調(diào)整圖像像素取值,以改善圖像的視覺感知[10-13]。文獻[11]提出一種基于小波變換的水下圖像增強算法,將空域中的原始圖像以某種映射方式變換到變化域中,在變化域中對圖像進行處理,再變換到空域,以得到增強圖像。小波變換在去除水下圖像噪聲方面取得了成功,但不能對水下圖像存在的顏色失真、對比度低等問題進行有效處理?;跀?shù)據(jù)驅(qū)動的方法根據(jù)模型采用的主體結(jié)構(gòu)可分為兩種,即基于卷積神經(jīng)網(wǎng)絡(CNN)的方法[14-15]與基于生成對抗網(wǎng)絡(GAN)的方法[16-17]。通常該類方法的網(wǎng)絡層數(shù)過深,模型訓練過程中容易出現(xiàn)梯度消失的現(xiàn)象。為了解決這一問題, He[18]等提出了深度殘差學習,將多個卷積層級聯(lián)得到的輸出和輸入圖像相加再用Relu函數(shù)進行激活。特別是基于卷積神經(jīng)網(wǎng)絡的殘差模型[19],在去模糊、對比度提升等方面表現(xiàn)良好。然而,一些水下圖像增強方法在顏色校正上的效果還有待改善。Islam[20]等提出一種基于生成對抗網(wǎng)絡的實時水下圖像增強模型,該方法增強后的圖像呈現(xiàn)出暗黑色,整體視覺效果較差。近年來,多尺度技術被廣泛地應用在模式識別、信號處理和計算機視覺等領域中。通過多尺度技術可保證圖像或特征大小不同時,能有效地提取出同等重要的關鍵點,從而有效地提升模型性能。
針對現(xiàn)有方法處理效果的不盡如人意,本文結(jié)合多尺度的Inception結(jié)構(gòu)、殘差學習思想和色彩感知損失,提出一種基于Inception-Residual和生成對抗網(wǎng)絡的水下圖像增強算法(IRGAN)。該算法由生成網(wǎng)絡和判別網(wǎng)絡兩個部分組成,利用生成網(wǎng)絡學習源域(退化水下圖像的集合)與目標域(增強圖像的集合)間的映射關系。其中,在生成網(wǎng)絡中引入Inception-Residual(IR)模塊,通過融合不同大小卷積核提取的不同尺度的圖像特征來提高網(wǎng)絡生成圖像的質(zhì)量。判別網(wǎng)絡通過學習區(qū)分生成圖像與參考圖像,進而判別輸入數(shù)據(jù)的來源。此外,通過構(gòu)建包含全局相似性、內(nèi)容感知和色彩感知損失的多項損失函數(shù),進一步提升模型性能。實驗結(jié)果表明,本文算法能有效地提高對比度,校正顏色偏差,提升圖像視覺感知。
本文提出一種水下圖像增強模型IRGAN, 它被分為生成網(wǎng)絡和判別網(wǎng)絡兩個部分。生成網(wǎng)絡的結(jié)構(gòu)由編碼器與解碼器組成,并與Inception-Residual模塊相結(jié)合,以對退化的水下圖像完成增強操作。它的目標是學習源域(退化水下圖像的集合)與目標域(增強圖像的集合)間的映射關系,從而生成視覺感知良好的水下圖像。判別網(wǎng)絡的結(jié)構(gòu)與馬爾科夫判別器類似,實現(xiàn)對生成圖像與其對應的參考圖像的判別。它的目標是區(qū)分來源于生成網(wǎng)絡生成的圖像與來源于真實分布的參考圖像,以促進生成的圖像更接近于參考圖像。所提算法的執(zhí)行過程如下:將退化水下圖像作為生成網(wǎng)絡的輸入,經(jīng)過網(wǎng)絡的推理得到生成圖像;再將生成圖像與其對應的參考圖像作為判別網(wǎng)絡的輸入,進一步計算出兩張圖像間的均方誤差;將計算出的均方誤差反饋到生成網(wǎng)絡的各個層,以對網(wǎng)絡的各層參數(shù)不斷迭代更新,從而獲得高質(zhì)量、清晰的水下圖像。IRGAN的網(wǎng)絡結(jié)構(gòu)以及數(shù)據(jù)流動方向如圖1所示。
圖1 IRGAN網(wǎng)絡結(jié)構(gòu)Fig.1 Network structure of IRGAN
Inception-Residual[21]模塊將Inception模塊與殘差學習相結(jié)合,克服了深層網(wǎng)絡的梯度消失問題,同時解決了過濾器尺寸的最佳組合問題。IR模塊通過讓網(wǎng)絡自己決定最佳路徑來幫助解決網(wǎng)絡設計的困難,該模塊由空間大小為1×1,3×3,5×5的卷積層和3×3的池化層4個并行網(wǎng)絡層組成。為了解決較大的卷積核計算復雜度較大問題,采用1×1卷積進行優(yōu)化,即先采用1×1卷積將特征的通道數(shù)降低,再對其進行相應的卷積運算。此外,為了將各個卷積層學習到的特征進行融合,將得到的特征圖兩兩拼接(密集連接)后再進行卷積操作。進一步,將卷積操作得到的特征圖按通道維度進行拼接,并將得到的結(jié)果輸入到卷積核大小為1×1的卷積層中,使特征維數(shù)與IR模塊的輸入相匹配。最后,利用恒等映射[18]將一系列卷積層學習到的特征圖與輸入特征圖相加,這有助于避免梯度消失問題,并保持整個網(wǎng)絡的誤差梯度。IR模塊的結(jié)構(gòu)如圖2所示。
為了獲得高質(zhì)量、清晰的水下圖像,采用生成網(wǎng)絡學習源域(退化水下圖像的集合)與目標域(增強圖像的集合)間的映射關系。由圖3的生成網(wǎng)絡結(jié)構(gòu)所示,生成網(wǎng)絡中的卷積層和上采樣層大致是對稱的,類似于Unet網(wǎng)絡中的收縮路徑和擴展路徑;為避免圖像的細節(jié)損失,網(wǎng)絡結(jié)構(gòu)引入跳躍連接。生成網(wǎng)絡由5個卷積層、5個IR模塊和5個上采樣層3個主要部分組成。圖3中,第一層的k5、n64、s2、S分別表示該層卷積核的尺寸為5×5、卷積核個數(shù)為64、步長為2、補零填充策略為same。BN(Batch Normalization)表示批量歸一化。LeakyReLU和Tanh分別代表不同的非線性激活函數(shù)。此外,生成網(wǎng)絡使用步長為2的步幅卷積代替?zhèn)鹘y(tǒng)的池化層,有效避免傳統(tǒng)池化操作的局限性。生成網(wǎng)絡中的一系列卷積層對輸入圖像進行下采樣操作,輸出8×8×512大小的特征圖;并將輸出的特征圖輸至IR模塊處理,得到融合不同尺度特征信息的特征圖;再利用生成網(wǎng)絡中的上采樣層對特征圖尺寸放大,得到256×256×3大小的生成圖像。
圖2 Inception-Residual模塊Fig.2 Inception-Residual module
圖3 生成網(wǎng)絡結(jié)構(gòu)Fig.3 Generative network structure
為促進生成網(wǎng)絡生成的圖像更接近于參考圖像,采用判別網(wǎng)絡學習生成的虛假圖像和真實的參考圖像間的差異。IRGAN的判別網(wǎng)絡采用5個卷積層實現(xiàn)下采樣,它類似于馬爾科夫判別器(PatchGAN)[22]體系結(jié)構(gòu)。如圖4的判別網(wǎng)絡結(jié)構(gòu)所示,判別網(wǎng)絡將生成的圖像和對應的參考圖像作為輸入;將大小為16×16×1的補丁塊作為輸出。如果生成圖像和參考圖像的某個區(qū)域差別較小,則輸出補丁塊中對應的位置像素點的值接近于1,反之接近于0。在判別網(wǎng)絡中,先使用Concat操作將生成圖像與參考圖像按通道維度疊加,得到256×256×6大小的圖像;再將疊加后的圖像通過一系列卷積層實現(xiàn)下采樣,最終得到大小為16×16×1的輸出,該輸出表示生成圖像和參考圖像間差異的平均值。
圖4 判別網(wǎng)絡結(jié)構(gòu)Fig.4 Discriminative network structure
IRGAN網(wǎng)絡模型通過生成網(wǎng)絡和判別網(wǎng)絡的交替優(yōu)化實現(xiàn)訓練,網(wǎng)絡模型的訓練過程與損失函數(shù)的最小化過程相對應。對抗網(wǎng)絡的損失函數(shù)如式(1)所示:
Ladv=E(y)[log(D(y))]+
E(x)[log(1-D(G(x)))],
(1)
式中:D表示判別網(wǎng)絡,G表示生成網(wǎng)絡,x表示輸入的水下圖像,y表示與輸入圖像對應的參考圖像,E表示數(shù)學期望。
由于單一的對抗損失Ladv很難約束模型進行訓練,網(wǎng)絡模型對退化的水下圖像增強效果不佳。為解決上述問題,本文構(gòu)建了一個多項損失函數(shù),它由全局相似性、內(nèi)容感知和色彩感知損失3部分組成。
全局相似性損失:大量研究表明,在目標函數(shù)中添加L1損失使G能夠?qū)W習從L1意義上的全局相似空間中采樣[23]。因此,我們在多項損失函數(shù)中加入了L1損失項,其計算過程可描述為:
L1=Ex,y[‖y-G(x)‖1],
(2)
式中:G表示生成網(wǎng)絡,x表示輸入的水下圖像,y表示與輸入圖像對應的參考圖像,E表示數(shù)學期望。
內(nèi)容感知損失:圖像內(nèi)容感知損失項可以驅(qū)動G生成與參考圖像內(nèi)容相似的增強圖像。受文獻[24]、文獻[25]的啟發(fā),將圖像內(nèi)容函數(shù)φ(·)定義為由預先訓練的VGG-19網(wǎng)絡的conv5_2層提取的高級特征。內(nèi)容感知損失的定義如式(3)所示:
Lcon=Ex,y[‖φ(y)-φ(G(x))‖2],
(3)
式中:x表示輸入的水下圖像,y表示與輸入圖像對應的參考圖像,φ(·)表示圖像內(nèi)容函數(shù),G表示生成網(wǎng)絡,E表示數(shù)學期望。
色彩感知損失:該損失項可促進G生成與參考圖像色彩相似的增強圖像,其計算過程可描述為:
(4)
式中:r、g、b分別表示參考圖像與生成圖像的紅、綠、藍顏色通道的差值;rmean表示參考圖像與生成圖像紅色通道的平均值。
(5)
r=yc_r-G(x)c_r,
(6)
g=yc_g-G(x)c_g,
(7)
b=yc_b-G(x)c_b,
(8)
上述式中:x表示輸入的水下圖像;y表示與輸入圖像對應的參考圖像;c_r、c_g、c_b分別表示圖像的紅、綠、藍三顏色通道。
IRGAN使用多項損失函數(shù)進行網(wǎng)絡模型的學習,這有利于網(wǎng)絡的加速收斂,同時可以提高模型的魯棒性。目標函數(shù)通過將對抗損失Ladv、L1損失函數(shù)、內(nèi)容感知損失Lcon和色彩感知損失Lcol_per進行線性組合,得到公式(9):
L=Ladv+λ1·L1+λ2·Lcon+λ3·Lcol_per,
(9)
式中:λ1、λ2、λ3分別表示L1、Lcon和Lcol_per所占權重。
由于現(xiàn)實世界水下圖像的參考圖像采集比較困難,對模型學習退化水下圖像與其對應的增強圖像間的映射關系造成了一定的挑戰(zhàn)。為了解決缺乏成對的訓練數(shù)據(jù)問題,Islam[20]等人提出大規(guī)?,F(xiàn)實世界水下圖像數(shù)據(jù)集EUVP。因此,我們利用現(xiàn)有的數(shù)據(jù)集EUVP 構(gòu)造了一個用于訓練IRGAN模型的數(shù)據(jù)集EUIDs。該數(shù)據(jù)集共有7 469張圖像,它被劃分為訓練集和測試集。其中,包含作為訓練集的3 700對配對的水下圖像,作為測試集的69張水下圖像。圖5展示了訓練集樣本示例,第一行表示退化的水下圖像,第二行表示對應的參考圖像。
測試集一般用在訓練結(jié)束之后,目的是評估最終訓練好的模型性能。其中,測試集又被劃分為測試集A和測試集B,測試集A包含46張有參考的水下圖像,測試集B包含23張無參考的水下圖像。圖6表示測試集A與測試集B的樣本示例,第一行表示測試集A樣本示例,第二行表示測試集B樣本示例。
圖5 訓練集樣本示例Fig.5 Examples of training set samples
圖6 測試集樣本示例Fig.6 Examples of test set samples
本實驗在Windows操作系統(tǒng)下,基于Tensorflow和Keras深度學習開源框架實現(xiàn)。計算機的配置如下:NVIDIA GeForce RTX2070 Max-Q (8 GB) GPU,Inter Core i7-10750H CPU,主頻2.60 GHz,內(nèi)存16 GB。
在訓練過程中,設置batch_size大小為4,將所有輸入圖像的尺寸縮放至256×256×3,并將其歸一化到[-1,1]區(qū)間。公式(9)中的權重λ1=0.6,λ2=0.3,λ3=0.1。為了降低深度神經(jīng)網(wǎng)絡的訓練難度,在部分卷積操作后加入批量歸一化(BN)操作。它能加速模型的收斂、減小震蕩、使訓練過程更加穩(wěn)定,同時可以防止訓練后的模型出現(xiàn)過擬合。此外,采用Adam優(yōu)化器(β1=0.5,β2=0.999)驅(qū)動模型進行學習;設置生成網(wǎng)絡和判別網(wǎng)絡的初始學習率為0.000 01,訓練輪數(shù)epoch為50。
為了證明所提算法在清晰度提升、對比度增強和顏色校正等方面的有效性,將其與現(xiàn)有的水下圖像增強方法做對比分析。對比方法包括基于非物理模型的方法(CLAHE,文獻[7]中的方法)、基于物理模型的方法(UDCP)、基于數(shù)據(jù)驅(qū)動的方法(Water-Net,F(xiàn)UnIE-GAN)。在實驗部分,先對色彩感知損失項做消融實驗,再對引入的IR模塊是否可以提升模型的性能進行分析,最終分別對測試集A和測試集B中的退化水下圖像做增強處理,并對各方法的實驗結(jié)果做定性和定量的對比分析。
3.3.1 色彩感知損失項的消融實驗
為證明采用色彩感知損失項對退化水下圖像顏色校正的有效性,分別對包含色彩感知損失的IRGAN(withLcol_per)和不包含色彩感知損失的IRGAN(withoutLcol_per)進行實驗。在測試集A上,采用全參考圖像質(zhì)量評價指標(PSNR和SSIM)對兩種模型的性能進行對比分析,定量對比結(jié)果如表1所示。PSNR和SSIM值越大,表明增強后的圖像亮度、對比度、整體結(jié)構(gòu)以及顏色信息越接近參考圖像。從表1結(jié)果來看,IRGAN(withLcol_per)在PSNR和SSIM評價指標上的取值均優(yōu)于IRGAN(withoutLcol_per),表明Lcol_per可以提升模型性能,有效校正水下圖像存在的顏色偏差,改善水下圖像的色彩效果。
表1 IRGAN(without Lcol_per)和IRGAN(with Lcol_per)在測試集A上的實驗結(jié)果
為了更加準確地評估色彩感知損失項對增強模型的作用,分別將IRGAN(withLcol_per)和IRGAN(withoutLcol_per)用于增強測試集B中的退化水下圖像。本部分采用兩種非參考圖像質(zhì)量評價指標(IE和NIQE)對增強后的結(jié)果進行評估。其中,信息熵(IE)可以表示圖像信息的豐富程度,其值越大,圖像包含的信息越豐富;自然圖像質(zhì)量評估(NIQE)可以表示圖像色彩的自然程度,其值越小,圖像越自然。定量對比結(jié)果如表2所示。從表2結(jié)果來看,加入Lcol_per后,信息熵(IE)和自然圖像質(zhì)量評估(NIQE)有更好的取值,均優(yōu)于未加入Lcol_per的IRGAN(withoutLcol_per)模型。
表2 IRGAN(without Lcol_per)和IRGAN(with Lcol_per)在測試集B上的實驗結(jié)果
3.3.2 IR模塊的對比實驗
圖7 未采用IR模塊和采用IR模塊的對比實驗結(jié)果。(a)水下圖像;(b)GAN;(c)IRGAN。Fig.7 Results of comparative experiments without IR module and with IR module. (a) Underwater images; (b) GAN; (c) IRGAN.
為了證明采用IR模塊的有效性,分別對本文模型和未采用IR模塊的GAN模型進行實驗,定性的實驗結(jié)果如圖7所示。圖7中,未采用IR模塊的GAN模型雖大致可以校正退化水下圖像呈現(xiàn)出的藍綠色調(diào),但校正效果欠佳。與本文模型相比,GAN模型增強的圖像鮮艷程度偏低,亮度偏暗,使得圖像整體的視覺感知效果較差。而所提算法將Inception模塊與殘差學習相結(jié)合,克服了深層網(wǎng)絡的梯度消失問題,有效提升了模型的性能,使得增強后的圖像在清晰度、對比度和顏色校正方面均表現(xiàn)良好。
為了客觀的評估IR模塊對增強模型的作用,對測試集A和測試集B中的圖像用上述兩種模型分別處理。本部分考慮采用兩種全參考圖像質(zhì)量評價指標和3種非參考圖像質(zhì)量評價指標對增強結(jié)果進行評估。其中,采用的全參考圖像質(zhì)量評價指標[25-27]包括PSNR和SSIM,非參考圖像質(zhì)量評價指標包括水下圖像質(zhì)量度量(UIQM)[28]、信息熵(IE)、基于梯度關聯(lián)的圖像質(zhì)量評估(OG-IQA)[29]。定量的實驗結(jié)果如表3和表4所示。
表3 GAN和IRGAN在測試集A上的實驗結(jié)果
PSNR和SSIM的值越大,表明待評圖像的亮度、對比度、整體結(jié)構(gòu)以及包含的信息越接近參考圖像。由表3可知,模型引入IR模塊,使得增強后的水下圖像與參考圖像之間的差距更小,在圖像亮度、對比度、結(jié)構(gòu)信息等方面更接近于參考圖像。
表4 GAN和IRGAN在測試集B上的實驗結(jié)果
由表4中的實驗結(jié)果可知,引入IR模塊后,所提算法增強的水下圖像在非參考圖像質(zhì)量評價指標上表現(xiàn)較好,均優(yōu)于未引入IR模塊的GAN模型。
3.3.3 在測試集A上的對比實驗
為評估所提算法的性能,在測試集A上分別進行多次實驗,將所提算法與現(xiàn)有的水下圖像增強方法進行定性和定量的對比分析,對比方法包括CLAHE[6]、文獻[7]中的方法、UDCP[4]、Water-Net[15]、FUnIE-GAN[20]。不同方法對測試集A中圖像的處理結(jié)果如圖8所示。圖8中,CLAHE方法處理的退化水下圖像出現(xiàn)曝光現(xiàn)象,增強效果欠佳,導致增強后的圖像與其對應的參考圖像存在一定差距。而通過文獻[7]中的方法處理的圖像呈現(xiàn)出黃色或淡藍色顏色偏差,整體視覺效果較差。UDCP方法對圖像引入了顏色偏差,主要呈現(xiàn)出藍色或藍綠色色偏。Water-Net方法有效去除了原始圖像中存在的霧化,清晰度得到提升;但亮度偏暗,色彩鮮艷程度偏低。FUnIE-GAN方法通??梢詫︻伾д娴膱D像進行有效校正,但偶爾會引入暗黑色色偏,使得增強效果不佳。所提算法在清晰度、顏色校正和對比度方面均表現(xiàn)良好,有效地提升了圖像的視覺感知。相比之下,所提算法增強的圖像在多個方面均最接近于參考圖像,并且有更自然的視覺感知。
圖8 不同方法在測試集A上的定性對比。(a)水下圖像;(b)CLAHE;(c)文獻[7]方法;(d)UDCP;(e)Water-Net;(f)FUnIE-GAN;(g)本文方法;(h)參考圖像。Fig.8 Qualitative comparison of different methods on test set A. (a) Underwater images; (b) CLAHE; (c) Method of Ref. [7]; (d) UDCP; (e) Water-Net; (f) FUnIE-GAN; (g) Our method; (h) Reference image.
為客觀證明所提算法的性能,采用峰值信噪比(PSNR)、結(jié)構(gòu)相似性(SSIM)兩種全參考圖像質(zhì)量評價指標,將所提算法與現(xiàn)有的方法做定量對比分析。各個方法在PSNR和SSIM指標上的均值如表5所示。由表5可知,所提算法在PSNR和SSIM評價指標上均優(yōu)于其他對比方法,表明所提算法能有效恢復圖像中所包含的內(nèi)容,提高圖像的亮度和對比度。
表5 不同方法在測試集A上的定量對比
續(xù) 表
3.3.4 在測試集B上的對比實驗
為了更加準確和全面地評估所提算法,將其與上述現(xiàn)有方法分別用于測試集B,并對各種方法處理的結(jié)果進行定性和定量對比分析。不同方法對測試集B中圖像的處理結(jié)果如圖9所示。由圖9可知,基于非物理模型的方法(CLAHE,文獻[7]中的方法)不能對圖像的藍綠色調(diào)實現(xiàn)完全去除,且引入顏色偏差,在顏色校正方面的性能欠佳?;谖锢砟P偷腢DCP方法增強的圖像整體上呈現(xiàn)出暗黑色,且引入了藍綠色色偏。Water-Net方法和FUnIE-GAN方法對圖像的亮度提升、霧化去除和顏色校正等方面表現(xiàn)出不足,還有較大程度的改善空間。所提算法在圖像的清晰度、對比度提升和顏色校正等方面均表現(xiàn)良好。相比之下,所提算法增強后的圖像更加清晰自然,具有較好的泛化性能。
圖9 不同方法在測試集B上的定性對比。(a)水下圖像;(b)CLAHE;(c)文獻[7]方法;(d)UDCP;(e)Water-Net;(f)FUnIE-GAN;(g)本文方法。Fig.9 Qualitative comparison of different methods on test set B. (a) Underwater images; (b) CLAHE; (c) Method of Ref. [7]; (d) UDCP; (e) Water-Net; (f) FUnIE-GAN; (g) Our method.
為了客觀地評估所提算法,選取4種非參考圖像質(zhì)量評價指標——水下圖像質(zhì)量度量(UIQM)[28]、信息熵(IE)、自然圖像質(zhì)量評估(NIQE)[30]和基于梯度關聯(lián)的圖像質(zhì)量評估(OG-IQA)[29],對經(jīng)過上述方法處理后的水下圖像進行評估、分析。其中,UIQM是水下圖像色度度量(UICM)、水下圖像清晰度度量(UISM)和水下圖像對比度度量(UIConM)的線性組合,其值越大,圖像在色度、清晰度、對比度方面表現(xiàn)越好。IE是衡量圖像信息豐富程度的重要指標,其值越大,圖像所包含的內(nèi)容越豐富。NIQE僅利用在自然圖像中觀察到的信息對圖像質(zhì)量進行評估,其值越小,圖像越自然。OG-IQA利用相鄰梯度間的關聯(lián)性對圖像的失真程度進行描述,其值越小,圖像視覺質(zhì)量越好。各方法在客觀評價指標上的平均得分如表6所示。由表6可知,除在NIQE客觀評價指標上,所提算法在其他3個客觀評價指標上均優(yōu)于對比方法。如表6,所提算法的UIQM評價指標取值為2.863 4,比第二名高4.1%,表明所提算法在色度、清晰度、對比度方面表現(xiàn)得更好。在IE和OG-IQA評價指標上,所提算法取值分別為4.794 0和-0.779 6,分別比第二名高0.9%和4.3%,表明所提算法處理后的圖像包含的信息量相對豐富,失真程度較小。綜上,所提算法增強的水下圖像在清晰度、對比度提升、顏色校正等方面表現(xiàn)得更為突出。
表6 不同方法在測試集B上的定量對比
針對水下圖像存在模糊、對比度低和顏色失真等問題,本文提出了一種基于Inception-Residual和生成對抗網(wǎng)絡的水下圖像增強算法(IRGAN)。此外,根據(jù)公開的水下圖像數(shù)據(jù)集構(gòu)造了一個用于訓練IRGAN模型的數(shù)據(jù)集EUIDs。IRGAN由生成網(wǎng)絡和判別網(wǎng)絡兩個部分組成。生成網(wǎng)絡中引入Inception-Residual模塊,克服了深層網(wǎng)絡的梯度消失問題,同時解決了過濾器尺寸的最佳組合問題,有效提升了水下圖像的增強效果。生成網(wǎng)絡用于生成視覺感知良好的水下圖像;而判別網(wǎng)絡實現(xiàn)區(qū)分生成的虛假圖像和真實的參考圖像,以促進生成網(wǎng)絡生成的圖像更接近于參考圖像。先將原始圖像縮放至256×256×3大小,再利用生成網(wǎng)絡生成與參考圖像在視覺感知上相似的圖像,采用多項損失函數(shù),令生成網(wǎng)絡和判別網(wǎng)絡輪流訓練。實驗結(jié)果表明,與對比方法相比,IRGAN在PSNR、UIQM和IE指標上的平均值分別為22.704 0、2.863 4和4.794 0,分別比第二名提升13.6%、4.1%和0.9%,表明所提算法在清晰度、顏色校正和對比度方面均表現(xiàn)良好,能有效提升圖像視覺感知。