摘要 針對(duì)現(xiàn)有圖像去雨方法中存在雨紋去除不徹底、紋理信息丟失等問(wèn)題,提出一種多階段漸進(jìn)式處理的圖像去雨算法,可以同時(shí)將上下階段的特征融合,使去雨算法的性能有很大的提高。該去雨網(wǎng)絡(luò)模型由3個(gè)階段構(gòu)成。前2個(gè)階段采用改進(jìn)后的U-Net編碼器解碼器結(jié)構(gòu)學(xué)習(xí)多尺度上下文特征信息,特征提取部分采用有效通道注意力機(jī)制(efficient channel attention network,ECANet),使網(wǎng)絡(luò)模型參數(shù)變小,更加輕量級(jí);第3階段加入并行注意力機(jī)制(parallel attention subnetwork,PASNet),在學(xué)習(xí)上下文信息和空間細(xì)節(jié)特征的同時(shí)還能生成高分辨率特征,更好地保留圖像的輸出細(xì)節(jié)。此外,還引入監(jiān)督注意力模塊(supervised attention module,SAM)以加強(qiáng)特征學(xué)習(xí)。實(shí)驗(yàn)結(jié)果表明,在數(shù)據(jù)集Rain100H上PSNR達(dá)到29.37 dB,SSIM為0.88;在Test1200上PSNR達(dá)到32.50 dB,SSIM為0.93,驗(yàn)證了所提方法在圖像去雨任務(wù)上的有效性。
關(guān)鍵詞 圖像去雨;特征提取;監(jiān)督注意力;并行注意力機(jī)制;空間細(xì)節(jié)
中圖分類號(hào):TP391.4" DOI:10.16152/j.cnki.xdxbzr.2025-02-007
The image rain removal method based on multi-stageprogressive processing
LIAN Jihong, WANG Ping, LI Ying, LI Yunhong
(School of Electronics and Information, Xi’an Polytechnic University, Xi’an 710048, China)
Abstract Aiming at the problems of incomplete rain pattern removal and texture information loss in the existing image rain removal methods, this paper proposes a multi-stage progressive image rain removal algorithm, which can simultaneously fuse the features of the upper and lower stages and greatly improve the performance of the rain removal algorithm. The rain removal network model consists of three stages. In the first two stages, the improved U-Net coder-decoder structure is used to learn multi-scale context information, and the efficient channel attention network (ECANet) is used for feature extraction, which can reduce the parameters of the network model. In the third stage of becoming lighter, parallel attention subnet (PASNet) is added, which can generate high-resolution features while learning contextual information and spatial details, and can better preserve the output details of images. At the same time, supervised attention module (SAM) is introduced to strengthen feature learning. The experimental results show that the PSNR is 29.37 dB and SSIM is 0.88 on the data set Rain100H; The PSNR is 32.50 dB and SSIM is 0.93 on Test1200, which verifies the effectiveness of the proposed method in the task of image rain removal.
Keywords image deraining; feature extraction; supervise attention; parallel attention mechanism; spatial details
雨天是我們?nèi)粘I钪谐R?jiàn)的天氣現(xiàn)象,交通監(jiān)控、人物識(shí)別和跟蹤等其他計(jì)算機(jī)視覺(jué)應(yīng)用系統(tǒng)都需要在這種天氣中運(yùn)行。由于雨線的阻礙,雨天拍攝的圖像往往模糊不清,丟失了背景信息,導(dǎo)致無(wú)法完成預(yù)期目標(biāo)。大多實(shí)際問(wèn)題中,我們需要有清晰、質(zhì)量高的圖像來(lái)處理與分析后續(xù)的工作[1]。作為目前計(jì)算機(jī)視覺(jué)研究領(lǐng)域的重點(diǎn)之一[2],單幅圖像去雨技術(shù)的研究和應(yīng)用對(duì)目標(biāo)檢測(cè)[3-4]、目標(biāo)追蹤[5-6]等具有重要意義。
目前常用的雨圖像去除方法主要使用深度學(xué)習(xí)技術(shù)[7-9],基于深度學(xué)習(xí)的方法包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)[10]、殘差網(wǎng)絡(luò)(ResNet)、注意力機(jī)制(attention)[11]、生成對(duì)抗網(wǎng)絡(luò)(GAN)[12]、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等。基于深度學(xué)習(xí)的去雨技術(shù)通常依賴于大量的圖像數(shù)據(jù)進(jìn)行訓(xùn)練,以構(gòu)建有效的去雨模型,從而達(dá)到良好的去雨效果。一些研究提出了逐步去雨網(wǎng)絡(luò)結(jié)構(gòu)[13],采用殘差網(wǎng)絡(luò)實(shí)現(xiàn)圖像的雨紋去除任務(wù),并在網(wǎng)絡(luò)的不同階段使用長(zhǎng)短時(shí)記憶模塊進(jìn)行遞歸連接。盡管可以實(shí)現(xiàn)逐步去雨,但由于降雨的多尺度特性,這種方法無(wú)法完全去除不同尺度下的雨紋痕跡。另外一些研究提出了多尺度逐步融合去雨網(wǎng)絡(luò)[14],通過(guò)金字塔結(jié)構(gòu)消除多尺度的雨紋痕跡,但生成的圖像背景會(huì)變得模糊。隨著網(wǎng)絡(luò)層數(shù)的增加,尤其是在圖像處理和去雨算法的應(yīng)用中,計(jì)算工作量呈現(xiàn)逐漸增多的趨勢(shì)。為解決這一難題,學(xué)者們推崇輕量級(jí)圖像去雨網(wǎng)絡(luò)[15]的構(gòu)建,通過(guò)借助高斯拉普拉斯金字塔技術(shù)實(shí)現(xiàn)了輕量級(jí)圖像雨紋剔除。然而,隨著網(wǎng)絡(luò)深度的減少,去雨效果也明顯下降。文獻(xiàn)[16]通過(guò)縮小輸入圖像和輸出圖像之間的映射范圍,加入深度置信網(wǎng)絡(luò),并利用圖像處理中先驗(yàn)知識(shí)完成雨水去除任務(wù)。盡管這種方法可以有效去除雨圖像中大部分雨水痕跡,但同時(shí)也會(huì)造成圖像局部背景細(xì)節(jié)損失的現(xiàn)象。文獻(xiàn)[17]采用一種新穎簡(jiǎn)潔的循環(huán)網(wǎng)絡(luò),逐步消除圖像中積聚的雨水條紋。文獻(xiàn)[18]提出的去雨網(wǎng)絡(luò)是基于一種多階段協(xié)同處理的圖像去雨網(wǎng)絡(luò),該網(wǎng)絡(luò)利用遞歸計(jì)算的方式完成多階段協(xié)同處理的去雨任務(wù),取得了良好效果。然而,該方法處理完的圖像仍然存在雨紋去除不夠徹底、圖像背景區(qū)域模糊的問(wèn)題。
為了解決上述去雨方法中所面臨的問(wèn)題,本文提出一種多階段逐步處理的去雨網(wǎng)絡(luò)算法,網(wǎng)絡(luò)架構(gòu)基于MPRNet去雨算法進(jìn)行設(shè)計(jì)與優(yōu)化。該網(wǎng)絡(luò)模型由3個(gè)階段逐步完成去雨任務(wù),最初2個(gè)階段采用改進(jìn)后的U-Net作為編碼器解碼器網(wǎng)絡(luò),由于編碼器結(jié)構(gòu)感受野比較大,可以更全面學(xué)習(xí)到圖像的前后背景信息。在特征提取部分使用ECANet網(wǎng)絡(luò),使網(wǎng)絡(luò)模型參數(shù)變小,更加輕量級(jí)。在網(wǎng)絡(luò)第3階段引入PASNet,該模塊關(guān)注圖像的雨紋特性和圖像的顏色信息,并且能保留圖像的更多輸出細(xì)節(jié),從而生成高質(zhì)量的圖像。由于在編碼器解碼器中重復(fù)使用上采樣和下采樣操作,引入CSFF模塊使網(wǎng)絡(luò)不易受到信息丟失的影響,并且網(wǎng)絡(luò)優(yōu)化過(guò)程簡(jiǎn)化了信息流,從而使整體網(wǎng)絡(luò)變得更加穩(wěn)定。通過(guò)與7種經(jīng)典的圖像去雨方法進(jìn)行對(duì)比實(shí)驗(yàn),驗(yàn)證了本文網(wǎng)絡(luò)在圖像去雨任務(wù)上的準(zhǔn)確性和有效性。
1 網(wǎng)絡(luò)模型設(shè)計(jì)
本文提出的圖像去雨網(wǎng)絡(luò)模型由3個(gè)階段構(gòu)成,圖1為改進(jìn)后的MPRNet網(wǎng)絡(luò)總框架圖。在該網(wǎng)絡(luò)每2個(gè)階段之間用一個(gè)監(jiān)督注意力模塊進(jìn)行操作,使參考圖像的監(jiān)督效果得到增強(qiáng)。每階段網(wǎng)絡(luò)的第1部分是相同的,都是先經(jīng)過(guò)卷積層,然后再到ECANet模塊提取輸入圖像的初始特征,接著通過(guò)改進(jìn)的U-Net編碼器解碼器提取圖像細(xì)節(jié)特征,再由SAM得到該階段的輸出圖像。第3階段則采用并行注意子網(wǎng)進(jìn)行操作,使得最終的輸出圖像能更好地保留所需的空間細(xì)節(jié)。本文網(wǎng)絡(luò)模型第1階段和第2階段的輸入信息分別為4個(gè)圖像塊和2個(gè)圖像塊的特征信息,第3階段輸入信息則是原圖像。
1.1 有效通道注意力模塊
ECANet對(duì)SENet進(jìn)行了改進(jìn),文獻(xiàn)[19]對(duì)比了這2種注意力機(jī)制方法,ECANet通過(guò)低模型復(fù)雜度實(shí)現(xiàn)更優(yōu)越的性能表現(xiàn),同時(shí)能夠減小網(wǎng)絡(luò)模型的參數(shù)規(guī)模,從而明顯提升特征提取的效果。圖2為有效通道注意力模塊的網(wǎng)絡(luò)結(jié)構(gòu),W、H、C分別表示特征映射的寬度、高度、通道數(shù);加權(quán)特征為,GAP為全局平均池化運(yùn)算;K不僅為部分跨信道之間交互的頻率,其卷積核大小也用K表示。
對(duì)于輸入特征U∈RW×H×C,每個(gè)通道空間對(duì)應(yīng)的信息是由ECANet模塊經(jīng)過(guò)全局平均池化操作來(lái)聚集。平均池化計(jì)算公式如下,
PGA(U)=[SX(]1[]W×H[SX)]∑[DD(]W,H[]i=1,j=1[DD)]Ui,j" [JY](1)
PGA(U)經(jīng)過(guò)K大小的卷積核進(jìn)行一維卷積操作,使得部分K個(gè)大小的信息特征關(guān)系能被快速提取。一維卷積通過(guò)Sigmoid函數(shù)計(jì)算得到其激活值,由此獲得通道特征的ω∈R1×1×C權(quán)重值以及部分特征表示關(guān)系。
Sigmoid(x)=[SX(]1[]1+e-x[SX)]" [JY](2)
ω=Sigmoid{C1DK[PGA(U)]}" [JY](3)
式中:C1D表示一維卷積操作;K表示卷積核大小。
為了重新進(jìn)行編碼每個(gè)U中的通道特征信息,將ω與U進(jìn)行逐一相乘操作,獲得加權(quán)特征。賦予有用的特征較大的權(quán)值有助于實(shí)現(xiàn)增強(qiáng)的效果,賦予不需要的特征較小的權(quán)值以利于實(shí)現(xiàn)抑制的作用。
1.2 編碼解碼模塊
本文使用經(jīng)過(guò)改進(jìn)的U-Net[20]網(wǎng)絡(luò)作為本文編碼解碼器結(jié)構(gòu)。圖3展示了在傳統(tǒng)U-Net網(wǎng)絡(luò)結(jié)構(gòu)中引入了通道注意力模塊,上述模塊的作用是從各種尺度中提取特征,并通過(guò)通道塊關(guān)注處理U-Net的跳躍連接位置的特征圖。相較于普通卷積層,通道塊能更有效地關(guān)注關(guān)鍵特征信息,顯著提升模型的特征提取能力。為了增強(qiáng)解碼器特性的空間分辨率,在第3步驟中引入雙線性上采樣,并結(jié)合卷積操作,避免使用轉(zhuǎn)置卷積,因?yàn)檗D(zhuǎn)置卷積操作可能導(dǎo)致輸出圖像中出現(xiàn)不必要的棋盤狀偽影問(wèn)題。
1.3 并行注意子網(wǎng)模塊
本文網(wǎng)絡(luò)最后階段引入PASNet模塊,可以更好保留圖像輸出時(shí)的細(xì)節(jié)信息,該模塊生成的高分辨率特征包含豐富的空間細(xì)節(jié),卻不需要降采樣操作。該模塊是多個(gè)混合注意力模塊(hybrid attention module, HAM)進(jìn)行串聯(lián)組成,每個(gè)HAM模塊由8個(gè)并行注意力模塊(parallel attention module, PAM)連接而成,HAM模塊結(jié)構(gòu)如圖4所示。
1.3.1 像素注意塊
像素注意力(pixel attention, PA)更關(guān)注圖像中物體的邊緣和紋理,能更好關(guān)注像素特征,因此加入像素注意力可以提高去雨后圖像的細(xì)節(jié)恢復(fù)性能。如圖5所示,C為輸出特性的通道數(shù),定義為64個(gè)。在PA模塊中,經(jīng)過(guò)2層卷積運(yùn)算學(xué)習(xí)各像素特征后,會(huì)將特征維度由C×H×W調(diào)整為1×H×W。將PA的輸入注意力特征與生成的注意力特征逐像素相乘,為該模塊最后的輸出。
1.3.2 通道注意塊
通道注意力(channel attention, CA)不僅能夠有效地捕捉各通道之間的依賴關(guān)系,并能利用獨(dú)特的位置信息編碼增強(qiáng)模型對(duì)空間細(xì)節(jié)的敏感性,做到平衡雨紋信息,實(shí)現(xiàn)更精準(zhǔn)的視覺(jué)識(shí)別和分析。如圖6所示,模塊在通過(guò)全局平均池化操作后,會(huì)將特征信息轉(zhuǎn)變?yōu)樾诺兰{入,特征維度的大小將從C×H×W調(diào)整為C×1×1;接著,通過(guò)2個(gè)卷積操作學(xué)習(xí)相應(yīng)的權(quán)值信息;然后,將前面學(xué)習(xí)得到的權(quán)重值與CA輸入初始的特征相乘,作為該模塊最后的輸出。
PAM模塊的優(yōu)勢(shì)是在關(guān)注圖像雨紋特征的同時(shí),還可以關(guān)注圖像的顏色特征。如圖7所示,PAM模塊是由像素注意塊和通道注意塊以并聯(lián)的方式連接組成。該模塊首先通過(guò)降采樣操作提取簡(jiǎn)單特征;然后通過(guò)PA和CA并行模塊同時(shí)學(xué)習(xí)這些特征信息;隨后將學(xué)習(xí)到的特征相加。為了圖像雨紋特征和顏色信息之間的平衡,加入一個(gè)卷積層可以很好地解決這個(gè)問(wèn)題。模塊最后加入局部殘差連接,可以更加關(guān)注實(shí)際信息。
1.4 監(jiān)督注意力模塊
監(jiān)督注意力模塊結(jié)構(gòu)如圖8所示。Fin∈RH×W×C為上一階段的輸出特征,經(jīng)過(guò)SAM中的1×1卷積運(yùn)算,可以從SAM模型中獲得殘差圖像,其中,空間維度用H和W表示,通道數(shù)用C表示。去雨圖像是殘差圖像與原始輸入圖像之和XS∈RH×W×3。針對(duì)已知的XS圖像預(yù)測(cè),該模塊使用預(yù)定義的非雨天標(biāo)簽進(jìn)行監(jiān)督,接著經(jīng)過(guò)Sigmoid函數(shù)和1×1卷積的處理,生成XS圖像并創(chuàng)建逐像素的注意掩碼。隨后,局部特征Fin經(jīng)過(guò)這些掩碼對(duì)其進(jìn)行重新調(diào)整轉(zhuǎn)換,由此生成的特征是經(jīng)注意力所引導(dǎo)的,SAM模塊最后得到的注意力增強(qiáng)特征Fout將會(huì)傳遞給下一階段進(jìn)行操作處理。
1.5 損失函數(shù)
構(gòu)建出一個(gè)良好的算法模型并不只是需要設(shè)計(jì)出合適的網(wǎng)絡(luò)架構(gòu)以及相應(yīng)的網(wǎng)絡(luò)模塊,選擇合適的訓(xùn)練方式和相應(yīng)的損失函數(shù)約束是尤為重要的。在進(jìn)行網(wǎng)絡(luò)訓(xùn)練的過(guò)程中,不僅要考慮到圖像模糊或者過(guò)度平滑的視覺(jué)現(xiàn)象,還得考慮到可能會(huì)存在部分高頻紋理信息損失的問(wèn)題。
為了更好逼近真實(shí)雨線分布Iderain,在Charbonnier懲罰函數(shù)指導(dǎo)下,我們采取逐步接近的方法,這種函數(shù)具有更強(qiáng)的容錯(cuò)性和訓(xùn)練的收斂性,表達(dá)式為
Lchar=[KF(](Iderain-Irain)2+ε2[KF)]" [JY](4)
式中:Lchar為Charbonnie損失函數(shù);Iderain為無(wú)雨圖像(對(duì)去雨操作后的預(yù)測(cè));Irain為真實(shí)圖像中雨紋理分布;ε為懲罰系數(shù),其值設(shè)置為0.001。
為了在去除雨紋的同時(shí)更好保留高頻細(xì)節(jié)信息,本文還采用文獻(xiàn)[21]提出的邊緣損失來(lái)約束參考圖像(ground truth image)Iclean和預(yù)測(cè)的無(wú)雨圖像Iderain之間的高頻分量。本文的邊緣損失定義為
Ledge=[KF(](Lap(Iclean)-Lap(Iderain))2+ε2[KF)]" [JY](5)
式中:Lap(Iclean)為經(jīng)過(guò)拉普拉斯算子計(jì)算后,從Iclean中提取出的邊緣圖;同理,Lap(Iderain)是經(jīng)過(guò)拉普拉斯算子后,從Iderain中提取出的邊緣圖。
本文將邊緣損失函數(shù)Ledge與Charbonnier損失函數(shù)Lchar的和作為本文所使用的總損失函數(shù)L,表達(dá)式為
L=Lchar+λLedge" [JY](6)
式中:λ為權(quán)重的參數(shù),根據(jù)經(jīng)驗(yàn)將λ設(shè)置為0.05,能更好地平衡每個(gè)損失項(xiàng)。
2 實(shí)驗(yàn)結(jié)果及分析
2.1 實(shí)驗(yàn)設(shè)置
本文具體實(shí)驗(yàn)平臺(tái)為3090Ti GPU*1,所需搭建環(huán)境:CUDA 11.3、CUDNN 8.2、Pytorch 1.11.0,數(shù)據(jù)集圖像尺寸裁剪為256×256,在編碼器解碼器的每個(gè)尺度上使用了2個(gè)CAB,下采樣用大小為2×2的最大池化操作,步長(zhǎng)為2。在最后階段,使用了PASNet,其中包含3個(gè)HAM,每個(gè)HAM進(jìn)一步使用8個(gè)PAM。在網(wǎng)絡(luò)訓(xùn)練過(guò)程中,使用 Adam 優(yōu)化器進(jìn)行優(yōu)化,整體實(shí)驗(yàn)初始學(xué)習(xí)率設(shè)置為2×10-4,使用余弦退火策略,逐步降低到1×10-6。批量處理尺寸(batchsize)設(shè)置為16,訓(xùn)練周期(epoch)為250。另外,在訓(xùn)練過(guò)程中隨機(jī)利用水平翻轉(zhuǎn)和垂直翻轉(zhuǎn)增強(qiáng)訓(xùn)練數(shù)據(jù)集。
2.2 數(shù)據(jù)集
現(xiàn)有去雨算法都沒(méi)有統(tǒng)一的訓(xùn)練集,所以在訓(xùn)練階段釆用MSPFN[22]中的13 712對(duì)合成雨圖像作為本文訓(xùn)練集。選用Rainl00H[17]、Test1200[23]合成數(shù)據(jù)集作為本文測(cè)試集。Rain100H數(shù)據(jù)集中的雨圖雨線密集并且包含的雨紋形狀最多,雨紋去除是難度最大的,被視為圖像去雨問(wèn)題中最具代表性和挑戰(zhàn)性的數(shù)據(jù)集,所以這種情況更能檢驗(yàn)圖像去雨算法的性能。Test1200數(shù)據(jù)集中包含來(lái)自不同方向和不同密度大小的雨紋,其共有1 498對(duì)測(cè)試圖像。為了驗(yàn)證本文去雨網(wǎng)絡(luò)在真實(shí)雨圖上同樣具有出色的去雨效果,選用真實(shí)雨圖RealRain300數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。RealRain300包含300張真實(shí)雨圖像,涵蓋了多種現(xiàn)實(shí)場(chǎng)景,以及不同形狀和大小密度的雨紋。由于是真實(shí)雨圖數(shù)據(jù)集,所以沒(méi)有與其對(duì)應(yīng)的無(wú)雨圖像。
2.3 評(píng)價(jià)指標(biāo)
本文采用峰值信噪比(peak signal to noise ratio, PSNR)和結(jié)構(gòu)相似度(structural similarity index measure, SSIM)衡量去雨后圖像的質(zhì)量,作為去雨后圖像的評(píng)價(jià)指標(biāo)。
2.3.1 峰值信噪比
峰值信噪比(PSNR)是描述信號(hào)最大可能能量和噪聲之間關(guān)系的指標(biāo),通常以分貝(dB)為單位計(jì)量,數(shù)值范圍為20~40 dB。PSNR值高于40 dB說(shuō)明去雨后圖像非常接近原始圖像,去雨效果極好;在30~40 dB通常表示去雨圖像失真可以察覺(jué),去雨效果相對(duì)較好;在20~30 dB說(shuō)明去雨圖像有一定失真,去雨效果一般;PSNR低于20 dB,去圖像嚴(yán)重失真不可接受,去雨圖像效果最差。
計(jì)算PSNR時(shí),首要步驟是計(jì)算均方誤差(mean square error, MSE),即求取2幅圖像每個(gè)像素值之間的差的平方,然后再對(duì)這些平方差值求平均。計(jì)算公式如下,
MSE=[SX(]1[]MN[SX)]∑[DD(]M[]i=1[DD)]∑[DD(]N[]j=1[DD)][JBlt;2|]X(i,j)-Y(i,j)[JBlt;2|]2" [JY](7)
式中:M、N為雨圖像對(duì)中有雨圖像的高和無(wú)雨圖像的寬;X(i,j)、Y(i,j)為雨圖像的像素值。PSNR的計(jì)算公式如下,
PSNR=10×lg[SX(]MAX21 []MSE[SX)]" [JY](8)
式中:MAX1為圖像點(diǎn)中像素最大的值,一般地,大多時(shí)候用相機(jī)采集到的圖像中每個(gè)像素單通道數(shù)值的大小表示用8位數(shù)據(jù),因此公式中MAX1的值為255。
2.3.2 結(jié)構(gòu)相似度
2幅圖像之間存在的相似性即為結(jié)構(gòu)相似度。圖像的亮度、對(duì)比度和結(jié)構(gòu)3方面是SSIM評(píng)估2幅圖像之間相似度的指標(biāo)。
SSIM能考慮到特征信息,這些特征信息是來(lái)自圖像的結(jié)構(gòu)鄰域,計(jì)算公式如下,
SSIM(x,y)=[SX(](2μxμy+c)(2σxy+c2)[](μ2x+μ2y+c1)(σ2x)[SX)]" [JY](9)
式中:x為原圖像中提取出的像素值;y則是在去雨后的圖像中提取出的像素值;μx、μy分別表示x、y的平均值;σ2x、σ2y分別表示x、y的方差;σx,y為變量x和y之間的協(xié)方差。為了避免公式中出現(xiàn)分母為0的情況,在公式中引入常數(shù)c1和c2。c1=(K1×L)2,c2=(K2×L)2,K1、K2的值分別為0.01、0.03。像素值范圍L一般取值為255。結(jié)構(gòu)相似度SSIM的范圍為[0,1],SSIM值越接近1時(shí),表示處理后的圖像相比原始圖像更不失真。
2.4 實(shí)驗(yàn)結(jié)果分析
2.4.1 定量結(jié)果與分析
為了證明本文提出的算法有較好的性能,實(shí)驗(yàn)選取了7種基于深度學(xué)習(xí)的單幅圖像去雨算法:UMRL[24]、DIDMDN[9]、RESCAN[25]、PReNet[17]、MSPFN[22]、Uformer-B[26]和MPRNet[27],用定性和定量的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,分別在合成數(shù)據(jù)集Rainl00H、Test1200上進(jìn)行對(duì)比實(shí)驗(yàn),隨后在真實(shí)雨圖RealRain300數(shù)據(jù)集上觀察分析去雨效果。本文研究的訓(xùn)練和測(cè)試都使用相同的數(shù)據(jù)集,以確保實(shí)驗(yàn)對(duì)比的公正性。
表1為對(duì)比實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果,本文算法在合成數(shù)據(jù)集Rainl00H上PSNR值為29.37 dB,SSIM為0.875;在合成數(shù)據(jù)集Test1200上PSNR值為32.95 dB,SSIM為0.930。PSNR平均值比對(duì)比算法中最優(yōu)的MPRNet模型提高了0.23 dB,SSIM平均值比對(duì)比算法中最優(yōu)的Uformer-B模型提高了0.002,充分驗(yàn)證了本文提出的模型在去雨任務(wù)中具有良好的性能。
在Rainl00H數(shù)據(jù)集上,經(jīng)本文算法所得PSNR值相比對(duì)比算法中最優(yōu)模型Uformer-B相差0.94 dB,SSIM值相差0.025;在Test1200數(shù)據(jù)集上,經(jīng)本文算法所得PSNR值均達(dá)到最優(yōu)值,比對(duì)比實(shí)驗(yàn)中最優(yōu)模型MSPFN算法高出0.13 dB,比SSIM高出0.003。說(shuō)明本文算法在雨紋形狀復(fù)雜、雨線密集的情況下,圖像去雨任務(wù)仍然能有良好的表現(xiàn)。
為了全面驗(yàn)證本文所提算法在性能上的提升,將其與原始的MPRNet網(wǎng)絡(luò)模型進(jìn)行對(duì)比。該對(duì)比主要評(píng)估了網(wǎng)絡(luò)參數(shù)量和訓(xùn)練時(shí)間2個(gè)關(guān)鍵方面,測(cè)試數(shù)據(jù)集使用Rain100H和Test1200。Original代表原始的3階段MPRNet算法,而Stage1、Stage1&2和FullECA則表示在3個(gè)階段中依次加入ECANet模塊的網(wǎng)絡(luò)模型。其中,Stage1指的是僅在第1個(gè)階段加入ECANet模塊的網(wǎng)絡(luò),Stage1&2表示在第1個(gè)和第2個(gè)階段都加入了ECANet模塊,而FullECA則是在3個(gè)階段的網(wǎng)絡(luò)中都加入了ECANet后的網(wǎng)絡(luò)模型。
算法性能對(duì)比實(shí)驗(yàn)如表2所示,Parameters為在原網(wǎng)絡(luò)模型和各階段依次加入ECANet后,參數(shù)量的對(duì)比結(jié)果??梢郧宄赜^察到隨著3個(gè)階段依次加入ECANet模塊,網(wǎng)絡(luò)整體的參數(shù)量逐漸減少,原始網(wǎng)絡(luò)的參數(shù)量值最大,當(dāng)3個(gè)階段都加入ECANet網(wǎng)絡(luò)時(shí),參數(shù)量值達(dá)到最低。
Training Speed為在原網(wǎng)絡(luò)模型和各階段依次加入ECANet后,訓(xùn)練速度的對(duì)比結(jié)果??梢郧宄赜^察到隨著3個(gè)階段依次加入ECANet模塊,網(wǎng)絡(luò)每輪訓(xùn)練所花費(fèi)的時(shí)間逐漸減少,說(shuō)明訓(xùn)練速度在逐漸提升。原始網(wǎng)絡(luò)的訓(xùn)練時(shí)間最長(zhǎng),速度最慢,當(dāng)3個(gè)階段都加入ECANet網(wǎng)絡(luò)時(shí),訓(xùn)練時(shí)間值最低,速度達(dá)到最快。
在原網(wǎng)絡(luò)模型加入ECANet模塊后,有效降低了網(wǎng)絡(luò)的參數(shù)量,使得整體網(wǎng)絡(luò)框架更加輕量化。且由表1對(duì)比實(shí)驗(yàn)的結(jié)果可知,本文方法在數(shù)據(jù)集Rain100H和Test1200上取得較高的PSNR和SSIM值,更加充分驗(yàn)證本文所提方法的可行性。
2.4.2 定性結(jié)果與分析
圖9展示了在合成數(shù)據(jù)集Rain100H上不同算法的處理結(jié)果。UMRL算法在處理雨紋密集的有雨圖像時(shí),去除雨水的效果有限,導(dǎo)致大量雨紋仍然存在,去雨效果不佳;相比之下,盡管DIDMDN和RESCAN算法可以有效減少雨紋數(shù)量,但仍然有大量雨紋存在,去雨效果一般;PReNet算法整體去雨效果較好,但在圖像中的標(biāo)記廣告牌區(qū)域圖像模糊度較高;MSPFN算法雖能夠消除大部分雨紋,但同樣在圖像中標(biāo)記的廣告牌以及車身數(shù)字區(qū)域仍存在模糊的問(wèn)題,對(duì)細(xì)節(jié)的恢復(fù)效果較差;Uformer-B算法有效去除了雨紋,但是圖像標(biāo)記區(qū)域的字母以及數(shù)字的背景信息仍沒(méi)得到有效的恢復(fù);MPRNet算法處理完的圖像仍有少數(shù)雨紋殘留,并且標(biāo)記區(qū)域背景信息也很模糊;經(jīng)本文的方法處理后,消除雨紋的效果更加完善,同時(shí)還能夠保留大部分原圖的結(jié)構(gòu)和紋理特征,標(biāo)記區(qū)域車身數(shù)字背景信息得到較好的恢復(fù),處理后的圖像更加接近原始無(wú)雨圖像。因此,在數(shù)據(jù)集Rain100H上,本文方法不僅在能有效去除復(fù)雜雨圖中所包含的各種形狀雨紋的同時(shí),還能更好地保留原圖像的色彩信息和細(xì)節(jié)紋理特征,表明本文算法在除去大雨的能力上表現(xiàn)優(yōu)異。
圖10展示了在合成數(shù)據(jù)集Test1200上不同算法的處理結(jié)果。UMRL算法生成的無(wú)雨圖像中仍存在殘留的大量雨紋,去雨能力一般;DIDMDN算法仍有大量雨紋殘留,同時(shí)生成的圖像整體色調(diào)過(guò)亮;RESCAN算法處理完雨圖中雨紋時(shí),有少量雨紋殘留,且圖像背景標(biāo)記區(qū)域出現(xiàn)模糊問(wèn)題;PReNet算法去雨整體效果較好,但處理完的圖像標(biāo)記區(qū)域同樣出現(xiàn)了較輕的偽影以及模糊問(wèn)題;MSPFN算法在整體上去除了大部分雨水痕跡,但圖像對(duì)比度有所增強(qiáng),使得圖像視覺(jué)效果呈現(xiàn)泛白現(xiàn)象,從而導(dǎo)致生成的圖像質(zhì)量下降;Uformer-B算法有效去除了雨紋,但是在去雨后的背景區(qū)域能看到明顯的白影,圖像背景信息沒(méi)有得到很好的恢復(fù);MPRNet算法整體去雨效果較好,但處理完的圖像丟失了部分細(xì)節(jié)信息,如圖像標(biāo)記區(qū)域的飛機(jī)機(jī)翼部分。相比在合成數(shù)據(jù)集Test1200中,本文所提算法不僅有效地去除了雨水痕跡,還更好地保留了圖像中的邊緣紋理以及細(xì)節(jié)信息。與未處理的雨圖相比,本文算法處理后的結(jié)果更接近原圖像。
圖11展示了不同算法在真實(shí)雨圖RealRain300數(shù)據(jù)集上的處理結(jié)果。因?yàn)榕臄z的真實(shí)雨圖沒(méi)有與之相對(duì)應(yīng)的無(wú)雨圖,所以只能對(duì)去雨后的無(wú)雨圖進(jìn)行視覺(jué)觀測(cè),通過(guò)主觀觀測(cè)分析真實(shí)雨圖下的對(duì)比實(shí)驗(yàn)結(jié)果。UMRL和DIDMDN算法雖去除了部分雨線,但在3幅示例圖像標(biāo)記區(qū)域仍存在較多細(xì)小的雨線;RESCAN算法在3幅示例圖像中同樣未能有效去除雨紋,存在少部分雨紋,并且從第2幅標(biāo)記區(qū)域看出紋理細(xì)節(jié)沒(méi)有很好地恢復(fù);MSPFN和PReNet算法去雨效果相對(duì)較好,紋理細(xì)節(jié)相對(duì)有好的恢復(fù),但第3幅示例圖像左邊密集雨線區(qū)域雨水殘留太多,部分區(qū)域產(chǎn)生些許模糊,導(dǎo)致整體質(zhì)量偏差,視覺(jué)效果欠佳;Uformer-B和MPRNet算法處理完的圖像,相比前面5種算法的去雨能力有很大的提升,但在標(biāo)記區(qū)域仍有背景模糊和雨紋殘留的問(wèn)題。經(jīng)本文算法處理過(guò)的圖像不僅能有效消除密集的雨線,還能很好地保留輸出圖像的細(xì)節(jié)信息,說(shuō)明本文所提算法可以更有效地處理真實(shí)環(huán)境中的雨紋,圖像細(xì)節(jié)處理效果更出色。
2.5 消融實(shí)驗(yàn)
為了更深入地評(píng)估本文算法的可靠性以及ECANet和PASNet模塊作為模型組成部分的重要性,進(jìn)行了消融實(shí)驗(yàn)。在模型消融實(shí)驗(yàn)中,從MSPFN中選取13 712組無(wú)雨/有雨圖像作為訓(xùn)練數(shù)據(jù)集。而用于測(cè)試的數(shù)據(jù)集為Rain100H,因?yàn)樵摂?shù)據(jù)集中包含了不同方向的雨紋、各種形狀和大小的密集雨紋,能夠展示本研究算法在處理復(fù)雜雨線圖像時(shí)的出色表現(xiàn)和有效性。同時(shí),仍采用PSNR和SSIM這2個(gè)指標(biāo)對(duì)去雨結(jié)果進(jìn)行對(duì)比分析。
2.5.1 定量結(jié)果與分析
為了展示ECANet和PASNet這2個(gè)關(guān)鍵模塊的作用,研究建立了4種網(wǎng)絡(luò)模型,在同一數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),驗(yàn)證本文方法具有合理性和有效性。4個(gè)網(wǎng)絡(luò)分別為L(zhǎng)1、L2、L3和L4,其中L1為MPRNet去雨網(wǎng)絡(luò),L2、L3為分別使用ECANet和PASNet模塊后的網(wǎng)絡(luò),L4是本文算法網(wǎng)絡(luò)。表3為4個(gè)網(wǎng)絡(luò)模型通過(guò)消融實(shí)驗(yàn)在數(shù)據(jù)集Rain100H上的測(cè)試結(jié)果。
由表3可以看出,相較于L1網(wǎng)絡(luò),L2網(wǎng)絡(luò)加入ECANet模塊使得網(wǎng)絡(luò)整體的PSNR和SSIM值分別提高了0.05 dB和0.04;L3網(wǎng)絡(luò)加入PASNet模塊后,網(wǎng)絡(luò)整體的PSNR和SSIM值分別提高了0.02 dB和0.02;然而,只有當(dāng)這2模塊均存在時(shí),也就是L4網(wǎng)絡(luò)模型,該網(wǎng)絡(luò)的PSNR和SSIM表現(xiàn)達(dá)到最佳,分別提高了0.23 dB和0.12。充分說(shuō)明了本文所提網(wǎng)絡(luò)模塊組合的合理性和有效性。
2.5.2 定性結(jié)果與分析
圖12展示了4個(gè)網(wǎng)絡(luò)在Rain100H數(shù)據(jù)集上的處理結(jié)果實(shí)例圖。從圖中用紅色框標(biāo)記的區(qū)域可以看出,經(jīng)L1網(wǎng)絡(luò)處理完的圖像,在雨紋去除后的區(qū)域有背景模糊的問(wèn)題;L2網(wǎng)絡(luò)處理完的圖像雖能明顯去除掉絕大部分雨紋,但去除雨紋后的圖像背景區(qū)域恢復(fù)較差;L3網(wǎng)絡(luò)處理完的圖像在標(biāo)記區(qū)域有白影,但在圖像色彩和動(dòng)物身體邊緣信息恢復(fù)較好;本文提出的L4網(wǎng)絡(luò)去除雨紋效果都更接近原始干凈圖像,幾乎沒(méi)有雨紋殘留,圖像細(xì)節(jié)和紋理信息保留比較完整。再次驗(yàn)證了本文網(wǎng)絡(luò)模塊組合的有效性,展現(xiàn)出本文網(wǎng)絡(luò)在圖像去雨任務(wù)上具有較出色的效果。
3 結(jié)語(yǔ)
本文提出的圖像去雨模型采取分階段逐步處理的策略,融合經(jīng)過(guò)優(yōu)化的U-Net編碼解碼網(wǎng)絡(luò)和并行注意力網(wǎng)絡(luò)PASNet。模型不僅能學(xué)習(xí)到圖像空間細(xì)節(jié),還可以學(xué)習(xí)上下文特征信息,并生成高分辨率的特征。特征提取部分使用ECANet,以更低的模型復(fù)雜度獲得了更好的性能,模型參數(shù)變小,更加輕量級(jí),速度得到很好提升。為使模型的效果整體提升,在每2個(gè)網(wǎng)絡(luò)階段之間加入SAM模塊。本文提出的網(wǎng)絡(luò)模型在處理雨紋的同時(shí),也考慮到本身圖像質(zhì)量的優(yōu)化,以此確保去雨紋后的圖像不會(huì)丟失重要細(xì)節(jié)信息。實(shí)驗(yàn)結(jié)果顯示,在Rain100H和Test1200數(shù)據(jù)集上均達(dá)到了高PSNR和SSIM值,在真實(shí)的雨天圖像處理中也取得了優(yōu)異的效果。本文所提的去雨算法不僅有效去除了雨紋,還成功保留和恢復(fù)了圖像的細(xì)節(jié)紋理信息,泛化性能較好。采用多階段漸進(jìn)的去雨網(wǎng)絡(luò)結(jié)構(gòu)就會(huì)導(dǎo)致整體模型規(guī)格較大,因此如何在網(wǎng)絡(luò)模型更輕量化的同時(shí)保持去雨效果的穩(wěn)定是接下來(lái)的主要研究方向。
參考文獻(xiàn)
[1] 彭進(jìn)業(yè),余喆,屈書(shū)毅,等.基于深度學(xué)習(xí)的圖像修復(fù)方法研究綜述[J].西北大學(xué)學(xué)報(bào)(自然科學(xué)版),2023,53(6):943-963.
PENG J Y, YU Z, QU S Y, et al. A review of image restoration methods based on deep learning[J]. Journal of Northwest University (Natural Science Edition), 2023, 53(6): 943-963.
[2] 陳舒曼,陳瑋,尹鐘. 單幅圖像去雨算法研究現(xiàn)狀及展望[J]. 計(jì)算機(jī)應(yīng)用研究, 2022, 39(1): 9-17.
CHEN S M, CHEN W, YIN Z, Research status and prospect of single image ram removal algorithm [J]. Application Research of Computers, 2022, 39(1): 9-17.
[3] SUN P Z, ZHANG R F, JIANG Y, et al. Sparse R-CNN: End-to-end object detection with learnable proposals[C]∥2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Nashville, TN: IEEE, 2021: 14449-14458.
[4] CARION N, MASSA F, SYNNAEVE G, et al. End-to-end object detection with transformers[M]∥Computer Vision-ECCV 2020. Cham: Springer International Publishing, 2020: 213-229.
[5] FU Zhihong, FU Zehua, LIU Q J, et al. SparseTT: Visual tracking with sparse transformers[EB/OL].(2022-05-08)[2024-09-20].https:∥arxiv.org/abs/2205.03776.
[6] SONG Z K, YU J Q, CHEN Y P, et al. Transformer tracking with cyclic shifting window attention[C]∥2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, LA: IEEE, 2022: 8781-8790.
[7] YAN W D, TAN R T, YANG W H, et al. Self-aligned video deraining with transmission-depth consistency[C]∥2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, TN: IEEE, 2021: 11966-11976.
[8] YUE Z S, XIE J W, ZHAO Q, et al. Semi-supervised video deraining with dynamical rain generator[C]∥2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, TN: IEEE, 2021: 642-652.
[9] JIANG T X, HUANG T Z, ZHAO X L, et al. A novel tensor-based video rain streaks removal approach via utilizing discriminatively intrinsic priors[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI: IEEE, 2017: 2818-2827.
[10]ZHANG H, PATEL V M. Density-aware single image de-raining using a multi-stream dense network[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT: IEEE, 2018: 695-704.
[11]QIAN R, TAN R T, YANG W H, et al. Attentive generative adversarial network for raindrop removal from a single image[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT: IEEE, 2018: 2482-2491.
[12]WEI Y Y, ZHANG Z, WANG Y, et al. DerainCycleGAN: Rain attentive CycleGAN for single image deraining and rainmaking[J]. IEEE Transactions on Image Processing, 2021, 30: 4788-4801.
[13]FU X Y, HUANG J B, ZENG D L, et al. Removing rain from single images via a deep detail network[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI: IEEE, 2017: 1715-1723.
[14]ZHENG X H, LIAO Y H, GUO W, et al. Single-image-based rain and snow removal using multi-guided filter[M]∥Neural Information Processing. Berlin, Heidelberg: Springer Berlin Heidelberg, 2013: 258-265.
[15]FU X Y, LIANG B R, HUANG Y, et al. Lightweight pyramid networks for image deraining[J]. IEEE Transactions on Neural Networks and Learning Systems, 2020, 31(6): 1794-1807.
[16]FU X Y, HUANG J B, ZENG D L, et al. Removing rain from single images via a deep detail network[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI: IEEE, 2017: 1715-1723.
[17]YANG W H, TAN R T, FENG J S, et al. Deep joint rain detection and removal from a single image[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu, HI: IEEE, 2017: 1685-1694.
[18]REN D W, ZUO W M, HU Q H, et al. Progressive image deraining networks: A better and simpler baseline[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA: IEEE, 2019: 3937-3946.
[19]WANG Q L, WU B G, ZHU P F, et al. ECA-Net: Efficient channel attention for deep convolutional neural networks[C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA: IEEE, 2020: 11531-11539.
[20]RONNEBERGER O, FISCHER P, BROX T. U-Net: Convolutional networks for biomedical image segmentation[EB/OL].(2015-05-18)[2024-09-20]. https:∥arxiv.org/abs/1505.04597.
[21]LAI W S, HUANG J B, AHUJA N, et al. Deep Laplacian pyramid networks for fast and accurate super-resolution[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI: IEEE, 2017: 5835-5843.
[22]JIANG K, WANG Z Y, YI P, et al. Multi-scale progressive fusion network for single image deraining[C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA: IEEE, 2020: 8343-8352.
[23]YI Z L, ZHANG H, TAN P, et al. DualGAN: Unsupervised dual learning for image-to-image translation[C]∥2017 IEEE International Conference on Computer Vision (ICCV). Venice: IEEE, 2017: 2868-2876.
[24]YASARLA R, PATEL V M. Uncertainty guided multi-scale residual learning-using a cycle spinning CNN for single image de-raining[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA: IEEE, 2019: 8397-8406.
[25]LI X, WU J L, LIN Z C, et al. Recurrent squeeze-and-excitation context aggregation net for single image deraining[C]∥Computer Vision-ECCV 2018. Cham: Springer International Publishing, 2018: 262-277.
[26]WANG Z D, CUN X D, BAO J M, et al. Uformer: A general U-shaped transformer for image restoration[C]∥2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, LA: IEEE, 2022: 17662-17672.
[27]ZAMIR S W, ARORA A, KHAN S, et al. Multi-stage progressive image restoration[C]∥2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, TN: IEEE, 2021: 14821-14831.
(編 輯 李 靜)
基金項(xiàng)目:陜西省科技計(jì)劃項(xiàng)目(2022GY-053);陜西省自然科學(xué)基礎(chǔ)研究重點(diǎn)項(xiàng)目(2022JZ-35)。
第一作者:廉繼紅,男,副教授,從事工業(yè)信號(hào)信息處理、計(jì)算機(jī)控制系統(tǒng)研究,lianjihong@163.com。
西北大學(xué)學(xué)報(bào)(自然科學(xué)版)2025年2期