陳清江,李金陽(yáng),屈 梅,胡倩楠
(西安建筑科技大學(xué)理學(xué)院,陜西 西安 710055)
在光照不足、背光等環(huán)境下拍攝的圖像往往存在對(duì)比度低、亮度低和顏色失真等問(wèn)題,這些問(wèn)題會(huì)影響后續(xù)圖像處理工作。圖像增強(qiáng)技術(shù)通過(guò)提高圖像的對(duì)比度和亮度,提升圖像質(zhì)量,恢復(fù)圖像內(nèi)容,解決低質(zhì)量圖像中存在的問(wèn)題,具有十分重要的應(yīng)用價(jià)值。
目前,國(guó)內(nèi)外用于圖像增強(qiáng)的主流技術(shù)主要有4種:(1)直方圖均衡化HE(Histogram Equalization)[1]的圖像增強(qiáng)算法。(2)基于Retinex理論[2]的圖像增強(qiáng)方法,文獻(xiàn)[3,4]對(duì)Retinex理論算法進(jìn)行了改進(jìn),提出了單尺度Retinex算法SSR(Single Scale Retinex)與多尺度Retinex算法MSR(Multi-Scale Retinex)。(3)Ying等[5]提出的相機(jī)重建模型,可獲取同場(chǎng)景下不同曝光度的圖像,有明顯的增強(qiáng)效果。(4)李慶忠等[6]提出的基于小波變換的圖像增強(qiáng)算法,有效實(shí)現(xiàn)了圖像增強(qiáng)與去噪。隨著深度學(xué)習(xí)的快速發(fā)展,該技術(shù)也被廣泛應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域。Park等[7]提出了一種自編碼網(wǎng)絡(luò),以實(shí)現(xiàn)低照度圖像增強(qiáng);Li等[8]提出了LightenNet網(wǎng)絡(luò),將卷積層與Retinex理論相結(jié)合得到增強(qiáng)后的圖像;馬紅強(qiáng)等[9]將色彩空間進(jìn)行轉(zhuǎn)換,對(duì)亮度通道進(jìn)行增強(qiáng),從而得到正常曝光度的圖像。通過(guò)深度學(xué)習(xí)實(shí)現(xiàn)低照度圖像增強(qiáng),其效果顯著,說(shuō)明利用深度學(xué)習(xí)技術(shù)增強(qiáng)低照度圖像是可行性。
針對(duì)低照度圖像增強(qiáng)現(xiàn)存的問(wèn)題,本文提出了一種基于端到端雙網(wǎng)絡(luò)的低照度圖像增強(qiáng)方法。該方法有3個(gè)創(chuàng)新點(diǎn):(1)采用并聯(lián)網(wǎng)絡(luò)進(jìn)行特征提取,并且引入?yún)^(qū)域損失與結(jié)構(gòu)損失,目的在于捕獲深層特征;(2)增加網(wǎng)絡(luò)寬度,緩解了網(wǎng)絡(luò)層數(shù)增加造成的過(guò)擬合;(3)解決了邊緣信息丟失問(wèn)題。利用峰值信噪比PSNR(Peak Signal to Noise Ratio)與結(jié)構(gòu)相似度SSIM(Structural SIMilarity)2項(xiàng)評(píng)價(jià)指標(biāo)對(duì)本文方法進(jìn)行性能測(cè)試。測(cè)試結(jié)果表明,本文所提方法優(yōu)于其他方法,可以顯著提高圖像亮度與對(duì)比度,解決部分現(xiàn)存問(wèn)題,增強(qiáng)后的圖像更加符合人類視覺。
殘差網(wǎng)絡(luò)是由He等[10]于2015年提出的,其解決了深層網(wǎng)絡(luò)易造成信息丟失、訓(xùn)練困難等問(wèn)題。殘差模型的引入可以加深網(wǎng)絡(luò)層數(shù),降低錯(cuò)誤率,緩解神經(jīng)網(wǎng)絡(luò)梯度消失問(wèn)題?;練埐罱Y(jié)構(gòu)如圖1所示。
Figure 1 Residual learning: A building block圖1 基本殘差單元結(jié)構(gòu)
該模型可表示為式(1):
H(x)=F(x)+x
(1)
其中,x表示輸入特征,F(xiàn)(x)表示經(jīng)過(guò)2層卷積后的輸出,H(x)表示整個(gè)殘差網(wǎng)絡(luò)的輸出。
在Retinex算法[2]中,人眼視覺感知是由物體反射屬性決定的,與自然環(huán)境中的光照無(wú)關(guān)。一幅圖像由入射分量圖像與反射圖像分量組成,其理論模型如式(2)所示:
S(x,y)=R(x,y)×L(x,y)
(2)
其中,(x,y)表示像素點(diǎn)坐標(biāo),R(x,y)表示入射圖像分量,L(x,y)表示反射圖像分量,×表示對(duì)應(yīng)像素點(diǎn)相乘。
由于圖像特征復(fù)雜,信息量多,采用單網(wǎng)絡(luò)模型難以提取深層次特征。本文所提方法中設(shè)計(jì)了一種雙網(wǎng)絡(luò)模型結(jié)構(gòu),緩解了單網(wǎng)絡(luò)模型層數(shù)過(guò)深造成的部分信息丟失、神經(jīng)網(wǎng)絡(luò)性能飽和等問(wèn)題。雙網(wǎng)絡(luò)模型是將2個(gè)單網(wǎng)絡(luò)模塊并聯(lián)以增加網(wǎng)絡(luò)寬度,減少網(wǎng)絡(luò)層數(shù),緩解過(guò)擬合,獲得更多特征信息,提升圖像的對(duì)比度與亮度,最終得到增強(qiáng)圖像。
本文的端到端雙網(wǎng)絡(luò)模型結(jié)構(gòu)包含2個(gè)子網(wǎng)絡(luò):Inception網(wǎng)絡(luò)模塊INM(InceptionNet Module)和URes-Net模塊URM(URes-Net Module),主要分為特征提取、特征融合與特征重建3個(gè)部分,如圖2a所示。
Figure 2 End-to-end dual network structure圖2 端到端雙網(wǎng)絡(luò)模型結(jié)構(gòu)
(1)特征提?。篣RM中特征提取結(jié)構(gòu)與Ronneberger等[11]提出的Unet模型的類似。在網(wǎng)絡(luò)模型結(jié)構(gòu)中統(tǒng)一采用3×3的卷積核,在第1和第9層、第2和第8層、第3和7層、第4和第6層以及第5層采用的卷積核數(shù)分別為16,32,64,128和256;在第1和第9層、第2和第8層、第3和第7層以及第4和第6層之間采用跳躍鏈接,防止信息丟失。在INM中采用InceptionNet V1模塊[12]進(jìn)行特征提取,可提高模型收斂速度,其中InceptionNet V1模塊如圖2b所示,每層卷積核均為16個(gè)。URM與INM中每層卷積后都使用ReLU作為激活函數(shù)。
特征提取中的卷積計(jì)算公式如式(3)所示:
Hi,j=Wi,j*C+bi,j
(3)
修正單元中ReLU激活函數(shù)的計(jì)算公式如式(4)所示:
Ri,j=max(0,Wi,j*C+bi,j)
(4)
聚合(Concat)操作計(jì)算公式如式(5)所示:
Gi=∑max(0,Wi,j*C+bi,j)
(5)
其中,Wi,j表示第i層卷積的第j個(gè)分支的卷積核,Hi,j表示第i層卷積的第j個(gè)分支的卷積輸出,Ri,j表示第i層卷積的第j個(gè)分支的修正單元輸出,Gi表示第i層聚合操作后的輸出,C表示輸入特征,bi,j表示第j個(gè)分支的第i層卷積的偏置,*代表卷積操作。
(2)特征融合:INM網(wǎng)絡(luò)采用2個(gè)3×3×16卷積核和4個(gè)InceptionNet V1進(jìn)行特征融合;URM采用殘差網(wǎng)絡(luò)進(jìn)行特征融合。殘差學(xué)習(xí)模型由2個(gè)雙路徑殘差塊和1個(gè)卷積操作組成,雙路徑殘差塊由4個(gè)3×3卷積與1個(gè)1×1的卷積組成,卷積核的個(gè)數(shù)均為16,每層卷積后都使用ReLU作為激活函數(shù)。殘差網(wǎng)絡(luò)如圖2c所示。
(3)特征重建:對(duì)URM與INM網(wǎng)絡(luò)模型輸出的特征進(jìn)行聚合(Concat)操作后,再用1個(gè)1×1×3的卷積核進(jìn)行重建,輸出正常照度的圖像。采用1×1的卷積核是為了減少網(wǎng)絡(luò)參數(shù),加快模型的訓(xùn)練速度。
針對(duì)增強(qiáng)后的圖像存在邊緣細(xì)節(jié)丟失的問(wèn)題,本文提出了一個(gè)新的損失函數(shù),由結(jié)構(gòu)損失SL(Structural Loss)與改進(jìn)的區(qū)域損失RL(Regional Loss)組成,如式(6)所示:
L=λ1Ls+λ2Lr
(6)
其中,Ls表示結(jié)構(gòu)損失;Lr表示區(qū)域損失;L為總損失;λ1,λ2為權(quán)重,λ1=0.75,λ2=0.25。
結(jié)構(gòu)損失可以防止細(xì)節(jié)丟失,提高模型的泛化能力,具體表示如式(7)所示:
Ls=LSSIM+LMS_SSIM
(7)
其中,LSSIM考慮了亮度、對(duì)比度和結(jié)構(gòu)3個(gè)方面,使增強(qiáng)后的圖像更加符合人類視覺;LMS_SSIM表示多尺度結(jié)構(gòu)相似度損失。SSIM損失和MS_SSIM損失計(jì)算如式(8)和式(9)所示:
LSSIM=1-SSIM(X,Y)
(8)
LMS_SSIM=1-MS_SSIM(X,Y)
(9)
其中,X表示增強(qiáng)后的結(jié)果,Y表示對(duì)應(yīng)的正常照度圖像。
在真實(shí)低照度圖像中,由于不同區(qū)域照度不同,因此不同區(qū)域需要的增強(qiáng)程度也不同,區(qū)域損失函數(shù)可以用來(lái)平衡不同區(qū)域的增強(qiáng)程度。本文根據(jù)低照度圖像的實(shí)際情況,設(shè)置極端低光區(qū)域約占40%,弱光區(qū)域約占40%,其他區(qū)域約占20%。區(qū)域損失函數(shù)計(jì)算如式(10)~式(13)所示:
Lr=μ1×L1+μ2×L2+μ3×L3
(10)
L1=
(11)
L2=
(12)
L3=
(13)
其中,mL1和nL1分別表示極端低光區(qū)域的寬和長(zhǎng),mL2和nL3分別表示弱光低光區(qū)域的寬和長(zhǎng),mL3和nL3分別表示其他低光區(qū)域的寬和長(zhǎng),EL1和GL1分別表示增強(qiáng)圖像的極端低光區(qū)域和正常圖像的對(duì)應(yīng)區(qū)域;EL2和GL2分別表示增強(qiáng)圖像的弱光區(qū)域和正常圖像的對(duì)應(yīng)區(qū)域;EL3和GL3分別表示增強(qiáng)圖像的其他區(qū)域和正常圖像的對(duì)應(yīng)區(qū)域;L1,L2和L3分別表示增強(qiáng)圖像的極端低光區(qū)域、弱光區(qū)域和其他區(qū)域的損失;wL1,wL2和wL3為權(quán)重,wL1=4,wL2=2,wL3=1。
由于真實(shí)世界的低照度圖像與合成的低照度圖像有一定的差距,因此為了檢驗(yàn)雙網(wǎng)絡(luò)模型的性能,在實(shí)驗(yàn)中對(duì)合成的低照度圖像數(shù)據(jù)集與真實(shí)低照度圖像數(shù)據(jù)集進(jìn)行測(cè)試與比較分析。利用本文方法與6種對(duì)比方法(MRSCR[12]、Ying等[5]方法、Ren等[13]方法、Li等[14]方法、Guo等[15]方法和Zhang等[16]方法)實(shí)現(xiàn)低照度圖像增強(qiáng),運(yùn)用峰值信噪比PSNR和結(jié)構(gòu)相似度SSIM2項(xiàng)指標(biāo)進(jìn)行定量分析。
在現(xiàn)實(shí)世界中獲取同一場(chǎng)景中不同曝光度的圖像是十分困難的,因此本文從Berkeley Segmentation Dataset公開數(shù)據(jù)集[16]中選取正常曝光度的圖像,然后運(yùn)用Retinex理論[2]合成低照度圖像來(lái)模擬真實(shí)環(huán)境下的低照度圖像,其中光照分量R∈(0,1),并對(duì)合成的不同亮度的低照度圖像進(jìn)行90°,180°與270°翻轉(zhuǎn),共計(jì)獲得990幅合成低照度圖像。從中選取850幅組成訓(xùn)練集,140幅組成測(cè)試集。
本文采用Keras和TensorFlow2.0深度學(xué)習(xí)框架與Python3.7環(huán)境進(jìn)行訓(xùn)練與測(cè)試,計(jì)算機(jī)硬件配置如下:CPU 為 Intel Core i7-15750H,主頻為 2.40 GHz,內(nèi)存為16 GB,GPU 為 NVIDIA GeForce 1660Ti(6 GB)。所有輸入圖像統(tǒng)一裁剪為256×256,3通道;采用Adam優(yōu)化器,動(dòng)量參數(shù)β1=0.9,β2=0.999;batch_size=2,epoch=5000。0~2 000次迭代設(shè)置固定學(xué)習(xí)率lr=0.001,2 000~4 000次迭代設(shè)置固定學(xué)習(xí)率lr=0.0005,4 000~5 000次迭代設(shè)置固定學(xué)習(xí)率lr=0.0001。
采用本文所提的雙網(wǎng)絡(luò)模型(Model1)、Inception網(wǎng)絡(luò)模型分支(Model2)、URes-Net模型分支(Model3)、沒有跳躍連接的URes-Net模塊(Model4)進(jìn)行對(duì)比實(shí)驗(yàn),4種模型增強(qiáng)后的結(jié)果如圖3所示,其指標(biāo)計(jì)算結(jié)果如表1所示。
Figure 3 Comparison of enhancement images using four models圖3 4種模型的增強(qiáng)圖像結(jié)果對(duì)比
Table 1 PSNR and SSIM of four network models
由圖3可知,Model1與Model2的增強(qiáng)效果優(yōu)于Model3的,Model1相比于Model2細(xì)節(jié)恢復(fù)更好,具體表現(xiàn)在墻面瓷磚的細(xì)節(jié)更加清晰。由表1可以看出,Model1的PSNR值與SSIM值高于其他2個(gè)對(duì)比模型的,同時(shí)也可以看出,不采用跳躍連接的Model4存在偽影與部分細(xì)節(jié)丟失問(wèn)題,其指標(biāo)值遠(yuǎn)遠(yuǎn)低于采用跳躍連接的模型。
采用結(jié)構(gòu)損失(SL)、區(qū)域損失(RL)以及結(jié)構(gòu)損失與區(qū)域損失的5種線性組合(RL+SL)損失函數(shù)的增強(qiáng)結(jié)果如圖4所示,其指標(biāo)計(jì)算結(jié)果如表2所示。
Figure 4 Comparison of subjective visual results of enhancement images using five loss functions圖4 使用5種損失函數(shù)的圖像增強(qiáng)主觀視覺結(jié)果對(duì)比
Figure 5 Comparison of subjective visual results between the proposed methodand six contrast methods on synthetic datasets圖5 合成數(shù)據(jù)集上本文方法與6種對(duì)比方法增強(qiáng)圖像主觀視覺對(duì)比
從圖4和表2可以看出,LS和Lr+LS的增強(qiáng)效果要好于Lr的增強(qiáng)效果,僅采用Lr損失函數(shù)增強(qiáng)后的圖像存在偽影;Lr+LS損失函數(shù)相比于LS損失函數(shù)細(xì)節(jié)恢復(fù)上效果更佳,亮度更加自然。當(dāng)權(quán)重λ1=0.75,λ2=0.25時(shí)增強(qiáng)結(jié)果最優(yōu),其指標(biāo)值高于其它2種組合方式的。
Table 2 PSNR and SSIM using five loss functions
隨機(jī)選取4組合成的低照度圖像,分別利用本文方法和6種對(duì)比方法對(duì)選取的圖像進(jìn)行增強(qiáng),增強(qiáng)后的圖像如圖5所示。
從圖5可以看出,Ren等[13]方法的增強(qiáng)圖像與低照度圖像相比有一定的增強(qiáng)效果,但從圖像的亮度與細(xì)節(jié)來(lái)看與清晰的圖像相比還有很大差距。Ying等[5]方法增強(qiáng)后的圖像整體偏暗,細(xì)節(jié)模糊。MSRCR[12]增強(qiáng)后的圖像曝光過(guò)度,圖像整體偏白。Li等[8]方法和Zhang等[15]方法增強(qiáng)后的圖像亮度偏低,存在偽影問(wèn)題。Guo等[14]方法相比于其他幾種對(duì)比方法增強(qiáng)效果顯著提升,但是在細(xì)節(jié)與亮度等方面依然與真實(shí)圖像有一定的差距。本文方法中所提網(wǎng)絡(luò)模型在恢復(fù)亮度的同時(shí)最大限度地保留了圖像的紋理細(xì)節(jié),在視覺效果上更加真實(shí)自然。
為了從定性和定量2方面評(píng)價(jià)增強(qiáng)后的圖像質(zhì)量,對(duì)上述4幅增強(qiáng)后的圖像采用PSNR和SSIM進(jìn)行衡量,結(jié)果如表3所示。
Table 3 PSNR and SSIM of the proposed method and six contrast methods on synthetic datasets
由表3中Image2與Image3的結(jié)構(gòu)相似度可以看出,本文方法與Zhang等[15]方法相比沒有明顯提升,但總體上本文方法的PSNR與SSIM相比于6種對(duì)比方法的有顯著提高,說(shuō)明本文方法在合成數(shù)據(jù)集上總體優(yōu)于其他方法。
為了進(jìn)一步說(shuō)明本文方法優(yōu)于其他方法,以及本文方法在真實(shí)數(shù)據(jù)集上的有效性,從LOL dataset公開數(shù)據(jù)集[18]中隨機(jī)選取了5組圖像,運(yùn)用不同方法增強(qiáng)低照度圖像,增強(qiáng)后的圖像如圖6所示。
Figure 6 Comparision of subjective visual results between the proposed method and six contrast method on real dataset圖6 真實(shí)數(shù)據(jù)集上本文方法與6種對(duì)比方法增強(qiáng)圖像主觀視覺對(duì)比
從圖6可以看出,MRSCR[12]增強(qiáng)的圖像結(jié)果存在曝光過(guò)度問(wèn)題,其中Image3沙發(fā)增強(qiáng)后的結(jié)果亮度偏高,失真最為明顯。文獻(xiàn)[5,8,13]3種方法增強(qiáng)的圖像亮度整體偏暗,圖像邊緣輪廓不清晰,其中文獻(xiàn)[8]較其他2種方法在Image1增強(qiáng)中表現(xiàn)最差。文獻(xiàn)[14]和文獻(xiàn)[15]在真實(shí)圖像數(shù)據(jù)集上相比其他幾種對(duì)比方法而言恢復(fù)的效果明顯有提升,但依然與真實(shí)圖像有一定差距。本文方法中所提網(wǎng)絡(luò)模型在低照度圖像增強(qiáng)上不僅提升了亮度,而且視覺效果更加真實(shí)自然,明顯優(yōu)于其他對(duì)比方法。
為了從定性和定量2方面評(píng)價(jià)增強(qiáng)后的圖像質(zhì)量,對(duì)上述4幅增強(qiáng)后的圖像采用客觀評(píng)價(jià)指標(biāo)PSNR和SSIM進(jìn)行衡量,其計(jì)算結(jié)果如表4。
由表4可看出,在真實(shí)低照度圖像數(shù)據(jù)集上,本文方法的PSRN和SSIM與其他6種對(duì)比方法的相比有顯著提高,說(shuō)明本文所提方法在真實(shí)低照度圖像增強(qiáng)上具有明顯優(yōu)勢(shì)。
為說(shuō)明本文方法中網(wǎng)絡(luò)模型的效率,記錄了本文方法與6種對(duì)比方法增強(qiáng)單幅圖像的運(yùn)行時(shí)間。其中文獻(xiàn)[5,8,13,14]的4種方法基于Matlab環(huán)境運(yùn)行,本文方法、MRSCR[12]和文獻(xiàn)[15]3種方法基于Python3.7環(huán)境運(yùn)行。具體時(shí)間如表5所示。
Table 4 PSNR and SSIM of the proposed method and six contrast methods on real dataset
Table 5 Comparison of running time between our method and six comtrast methods on different datasets
由于本文方法較為復(fù)雜,網(wǎng)絡(luò)參數(shù)較大,因此本文方法相比于文獻(xiàn)[8,13]的運(yùn)行時(shí)間有所增加,降低模型運(yùn)行時(shí)間是后續(xù)有待解決的問(wèn)題。
本文提出了一種基于端到端雙網(wǎng)絡(luò)的低照度圖像增強(qiáng)方法,通過(guò)增加網(wǎng)絡(luò)寬度防止網(wǎng)絡(luò)層數(shù)過(guò)多造成梯度消失、特征丟失等問(wèn)題。將InceptionNet V1作為特征提取模塊,改進(jìn)了常見網(wǎng)絡(luò)中的特征提取方式,并將改進(jìn)的U-Net網(wǎng)絡(luò)與殘差網(wǎng)絡(luò)相結(jié)合,提高了網(wǎng)絡(luò)利用率。實(shí)驗(yàn)結(jié)果表明,本文方法中所提雙網(wǎng)絡(luò)模型可以顯著提升圖像增強(qiáng)后的效果,加快網(wǎng)絡(luò)模型收斂速度,獲得更加符合人類主觀視覺的圖像。盡管增加網(wǎng)絡(luò)寬度緩解了過(guò)擬合,在一定程度上減小了網(wǎng)絡(luò)深度,但也導(dǎo)致網(wǎng)絡(luò)模型變大、參數(shù)量增大、訓(xùn)練時(shí)間增加。下一步將繼續(xù)優(yōu)化減小運(yùn)行時(shí)間,改進(jìn)損失函數(shù),以獲得更好的增強(qiáng)效果。