陳書貞 曹世鵬 崔美玥 練秋生
(燕山大學(xué)信息科學(xué)與工程學(xué)院 秦皇島 066004)
(河北省信息傳輸與信號處理重點實驗室 秦皇島 066004)
拍攝圖像時,相機與物體的相對運動往往會造成圖像模糊,嚴重影響圖像在實際生活中的應(yīng)用效果。圖像去模糊作為一種改善圖像質(zhì)量的方式,廣泛應(yīng)用于醫(yī)學(xué)圖像、交通監(jiān)控等領(lǐng)域。圖像去模糊是圖像處理中典型的病態(tài)反問題,旨在從模糊圖像中恢復(fù)出相應(yīng)的清晰圖像。近年來,這項技術(shù)受到廣泛的關(guān)注和研究,但由于現(xiàn)實場景中模糊核的復(fù)雜多變性,從真實模糊圖像中恢復(fù)清晰圖像仍具有挑戰(zhàn)性。
圖像去模糊過程可看作從解空間中尋找最優(yōu)解的過程,傳統(tǒng)方法利用不同的自然圖像先驗(如L0-范數(shù)梯度先驗[1])約束解空間,通過最大后驗估計模型的迭代尋找最優(yōu)解。然而傳統(tǒng)方法中采用的迭代優(yōu)化方式計算繁瑣,實時性差;且過于簡單的模糊模型假設(shè)會導(dǎo)致模糊核的不準確估計,降低算法性能。近年來,隨著深度學(xué)習的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)廣泛地應(yīng)用于圖像去模糊領(lǐng)域。根據(jù)圖像塊信息,Sun等人[2]利用CNN預(yù)測圖像的局部模糊核,通過非盲解卷積去除非均勻運動模糊。Gong等人[3]利用全卷積網(wǎng)絡(luò)估計模糊圖像的運動場,從估計的運動場中恢復(fù)清晰圖像。Nah等人[4]提出一種端到端(無核估計)的圖像處理方法,該方法遵循由粗到精的思想,逐步恢復(fù)清晰圖像。Kupyn等人[5]采用帶有梯度懲罰和感知損失的Wasserstein GAN(Wasserstein Generative Adversarial Networks)去除運動模糊,恢復(fù)更多的紋理信息。Kupyn等人[6]進一步改進網(wǎng)絡(luò),將特征金字塔網(wǎng)絡(luò)作為DeblurGAN-v2(Deblurring Generative Adversarial Networks Version 2)的核心構(gòu)建塊,此網(wǎng)絡(luò)可與各種骨干網(wǎng)絡(luò)配合使用,在性能和效率之間取得平衡。Tao等人[7]提出尺度遞歸的思想,利用不同尺度的圖像共同訓(xùn)練網(wǎng)絡(luò),實現(xiàn)網(wǎng)絡(luò)參數(shù)共享,運動去模糊效果顯著。梁曉萍等人[8]利用頭腦風暴優(yōu)化算法自動搜尋BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)更佳的初始權(quán)值和閾值,提升網(wǎng)絡(luò)性能。
近期的研究主要從改進網(wǎng)絡(luò)結(jié)構(gòu)、引入多尺度和增大感受野等角度改善圖像重建算法的性能。Tao等人[7]引入網(wǎng)絡(luò)參數(shù)共享機制,在減少參數(shù)的同時獲得更好的效果。Ronneberger等人[9]提出一種編-解碼結(jié)構(gòu)的網(wǎng)絡(luò)(Unet網(wǎng)絡(luò)),充分利用上下文信息,在圖像語義分割中獲得較好的性能。Nah等人[4]將多尺度應(yīng)用到去模糊網(wǎng)絡(luò)中,逐漸去除不同程度的模糊。Chen等人[10]將平滑的擴張卷積嵌入到網(wǎng)絡(luò)中,在保持參數(shù)量不變的情況下,通過增大感受野提高區(qū)域性能,但隨著網(wǎng)絡(luò)深度的增加,擴張卷積僅考慮使用棋盤格模式對位置進行稀疏采樣,從而導(dǎo)致部分信息丟失[11]。Jin等人[12]采用重采樣卷積操作確保網(wǎng)絡(luò)的第1層就具有大的感受野,但是隨著圖像尺寸的增加,網(wǎng)絡(luò)的效率大幅降低,且沒有增加圖像特征的稀疏性。
受上述研究的啟發(fā),本文提出一種基于深度多級小波變換的圖像盲去模糊算法,在小波域下學(xué)習模糊圖像和清晰圖像4個子帶之間的映射關(guān)系,以端到端的方式實現(xiàn)動態(tài)場景去模糊。本文的工作如下:(1) 將小波變換嵌入到編碼階段以減少特征圖的尺寸,確保網(wǎng)絡(luò)具有大的感受野。在解碼階段采用小波逆變換,將低分辨率特征圖上采樣為高分辨率特征圖,可有效地避免池化層造成的圖像信息損失[11]。此外,圖像在小波域中具有稀疏性,網(wǎng)絡(luò)學(xué)習稀疏特征到稀疏特征的映射[13],可有效地提高網(wǎng)絡(luò)的學(xué)習效率。(2) 利用多尺度擴張稠密塊(Multi-scale Dilated Dense Block, MDDB),在保證參數(shù)不變的前提下提取圖像的多尺度深層特征,同時通過稠密連接消除擴張卷積引起的網(wǎng)格偽影。引入的多尺度結(jié)構(gòu)提高了網(wǎng)絡(luò)對模糊程度的魯棒性,使恢復(fù)的圖像更加清晰。(3) 編-解碼結(jié)構(gòu)之間的跳躍連接通過增加信息流的傳遞來融合網(wǎng)絡(luò)淺層和深層的特征。本文提出的特征融合塊(Feature Fusion Block, FFB)引入了動態(tài)選擇機制[14],允許每個神經(jīng)元根據(jù)輸入信息自適應(yīng)地調(diào)整淺層特征與深層特征之間的比重,提高特征融合的有效性。(4) 圖像在小波域與空間域具有不同的表示方式,與小波域相比,圖像在空間域內(nèi)含有更加精細的圖像細節(jié)信息。為補充小波域忽略的圖像細節(jié)信息,本文提出空間域重建模塊(Spatial Domain Reconstruction Module, SDRM),在空間域內(nèi)學(xué)習模糊圖像與清晰圖像之間的映射關(guān)系,進一步提高重構(gòu)圖像的質(zhì)量。
本文的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,在該網(wǎng)絡(luò)中,首先利用模塊A在小波域中去除模糊圖像中的模糊,小波系數(shù)的稀疏性可簡化去模糊過程,同時通過增大感受野來提高大模糊核導(dǎo)致的運動模糊的魯棒性;然后利用模塊B在空間域重建圖像,得到去模糊圖像。
本文采用MDDB提取圖像的多尺度特征,同時進一步增大網(wǎng)絡(luò)的感受野,提升網(wǎng)絡(luò)性能。如圖2所示,MDDB由一個卷積層和3個多尺度擴張塊組成。卷積層減少特征圖的通道數(shù),多尺度擴張塊提取圖像的多尺度特征。每個多尺度擴張塊利用4個大小不同的濾波器提取不同尺度的特征,采用級聯(lián)操作融合多尺度信息,并使用大小為1×1的濾波器以解決特征級聯(lián)引起的參數(shù)過多的問題。為減少網(wǎng)絡(luò)的計算量,本文采用擴張率( s)分別為1,2, 3和4的擴張卷積[10]代替普通卷積以獲取大尺度特征。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)
圖2 多尺度擴張稠密塊
其中, fms為 MDDB提取的深層特征,h0表示多尺度擴張稠密塊中卷積層的輸出。
圖3 特征融合塊
模塊A是具有對稱編-解碼結(jié)構(gòu)的小波域重建模塊,編碼階段包括3個編碼模塊(Encoder Module,EM),每個EM均由卷積層和3個殘差塊[19]堆疊而成。EM中引入的小波變換將圖像尺寸降為原來的1/4,利用卷積層改變特征圖的通道數(shù),通過殘差塊提取豐富且稀疏的圖像特征。
解碼階段包括3個解碼模塊(Decoder Module, DM),DM的結(jié)構(gòu)與EM的完全對稱。利用小波變換的可逆性,在增加圖像分辨率的同時保留了圖像的細節(jié)信息。
模塊B是一個空間域重建模塊,在空間域?qū)W習圖像特征,獲取小波域忽略的更精細的圖像細節(jié)信息。模塊B由卷積層和殘差塊堆疊而成,首先通過卷積層提取圖像的淺層特征,然后利用殘差塊提取更豐富的特征,最后通過卷積層在空間域重建去模糊圖像。
本文采用的訓(xùn)練集是GoPro訓(xùn)練集[3],從GoPro訓(xùn)練集中隨機選取圖像,并隨機裁剪成320×320×3的圖像塊,batch size設(shè)為24。為提高模型的魯棒性,利用隨機旋轉(zhuǎn)、隨機上下翻轉(zhuǎn)、添加加性高斯噪聲進行數(shù)據(jù)擴充處理,其中旋轉(zhuǎn)角度為0°, 90°,180°, 270°,噪聲的均值為0,標準差為(0, 5)。此外,本文利用小尺度的模糊核與訓(xùn)練樣本的卷積來增強訓(xùn)練樣本的多樣性。測試集是GoPro測試集、DVD測試集[18]和真實模糊圖像[20]。在訓(xùn)練過程中,本文使用 l2范數(shù)損失函數(shù)來優(yōu)化網(wǎng)絡(luò),網(wǎng)絡(luò)的優(yōu)化方法為Adam,所有實驗在Pytorch深度學(xué)習框架下進行訓(xùn)練,在Inter Core i7-8700 CPU,主頻3.2 GHz,內(nèi)存64 GB,顯卡NVIDIA QUADRO RTX 5000平臺下完成。
值得注意的是,本文采用模塊化訓(xùn)練方法獲取網(wǎng)絡(luò)模型,在保證其他模塊參數(shù)不變的前提下,逐一訓(xùn)練網(wǎng)絡(luò)的各個模塊。首先在不添加多尺度擴張稠密塊(MDDB),特征融合模塊(FFB)和空間域重建模塊(Spatial Domain Reconstruction Module,SDRM)的情況下訓(xùn)練網(wǎng)絡(luò)其他模塊,初始學(xué)習率為1e-4,當網(wǎng)絡(luò)訓(xùn)練趨于穩(wěn)定時調(diào)整學(xué)習率為5e-5,再次趨于穩(wěn)定時調(diào)整學(xué)習率為5e-6;然后分別將MDDB, FFB和SDRM添加到網(wǎng)絡(luò)中進行單獨訓(xùn)練,訓(xùn)練周期為1300 epochs,初始學(xué)習率設(shè)置為1e-4,分別在400 epochs和900 epochs調(diào)整學(xué)習率為5e-5和5e-6;最后統(tǒng)一訓(xùn)練網(wǎng)絡(luò)中的所有模塊,微調(diào)網(wǎng)絡(luò)參數(shù),訓(xùn)練周期和學(xué)習率調(diào)整策略與多尺度模塊的相同。
為說明算法的性能,本文與近年來提出的去模糊算法進行比較,如DeblurGAN-v2[6]、SRN[7]等,分別在GoPro測試集、DVD測試集進行測試,采用峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)和結(jié)構(gòu)相似度(Structural SIMilarity index, SSIM)作為評價指標。GoPro測試集包含1111個模糊-清晰圖像對,主要由相機的抖動和物體的運動造成,可以有效地模擬動態(tài)場景下真實的運動模糊。DVD測試集由多種設(shè)備(如iPhone6s, GoPro)收集,包括1496對模糊-清晰圖像,所涉及的動態(tài)場景與GoPro測試集的不同。GoPro, DVD測試集上的實驗對比結(jié)果分別如表1,表2,表3所示,GoPro測試集、DVD測試集、真實模糊圖像上的視覺對比結(jié)果分別如圖4,圖5所示。
由表1,表2可以看出,與Tao等人[7]得到的結(jié)果相比,本文的PSNR提高1.13 dB, SSIM提高0.018,運行時間減少0.41 s。在重構(gòu)圖像的質(zhì)量方面,本文算法明顯優(yōu)于其他算法;在算法的重構(gòu)效率方面,本文算法同樣優(yōu)于其他算法(除Kupyn等人[6]提出的DeblurGAN-v2外)。由表3可以看出,本文算法在不同場景下具有更強的魯棒性。
表1 各算法在GoPro測試數(shù)據(jù)集上的定量評估
表2 各算法在GoPro測試數(shù)據(jù)集上的運行時間(s)
表3 文獻[7]與本文算法在DVD測試數(shù)據(jù)集上的定量評估
本文還在GoPro測試集、DVD測試集和真實的模糊圖像上與各個算法進行視覺比較。在GoPro測試集上的視覺對比結(jié)果如圖4所示,在大的非均勻運動模糊的情況下,本文算法在GoPro測試集上恢復(fù)出結(jié)果具有更加清晰的條紋和邊緣,如在第2行和第6行的紅色框中重建了清晰的臉部輪廓和數(shù)字形狀,沒有嚴重的顏色偽跡和圖像失真。在DVD測試集和真實的模糊圖像上的視覺對比結(jié)果如圖5所示,相比于Tao等人[7]得到的去模糊圖像,本文算法恢復(fù)的圖像的局部模糊更少,顏色更加逼真,結(jié)構(gòu)更加清晰。
為評價各個模塊的有效性,本文在GoPro測試集上進行對比試驗,采用W-MS, W-FF, W-SDR,W-C3和W-B這5個基準模型說明多尺度擴張稠密塊(MDDB),特征融合模塊(FFB)和空間域重建模塊(SDRM)對網(wǎng)絡(luò)性能的影響。W-MS, W-FF和W-SDR分別表示只包含MDDB, FFB和SDRM的網(wǎng)絡(luò)模型,W-C3表示用3個卷積層代替MDDB的網(wǎng)絡(luò)模型,其網(wǎng)絡(luò)深度與W-MS的相同,W-B表示不引入3種模塊的網(wǎng)絡(luò)模型。各模塊的對比結(jié)果如表4所示。
由表4可得,在不引入MDDB, FFB和SDRM的情況下,PSNR可達到30.98 dB,這說明將小波變換嵌入到編-解碼結(jié)構(gòu)中可有效地提升網(wǎng)絡(luò)的性能。其原因主要包括以下3個方面:⑴將小波變換嵌入到編-解碼結(jié)構(gòu)中會增大網(wǎng)絡(luò)的感受野,可有效地利用圖像的上下文信息產(chǎn)生邊緣更加清晰的結(jié)果,同時小波變換的可逆性避免了圖像信息的丟失。⑵圖像在小波域具有稀疏性,利用小波變換進行下采樣增強了圖像特征的稀疏性,提高網(wǎng)絡(luò)的學(xué)習能力。⑶小波變換在小波子帶中提供的垂直、水平和對角線邊緣信息,可用于學(xué)習圖像的輪廓和細節(jié)特征。MDDB, FFB和SDRM的引入使平均PSNR分別提高0.12 dB, 0.11 dB和0.15 dB,平均SSIM均提高0.001,使網(wǎng)絡(luò)獲得高質(zhì)量的重構(gòu)圖像。
圖4 各個算法在GoPro測試集上的恢復(fù)結(jié)果對比
圖5 文獻[7]與本文算法在DVD數(shù)據(jù)集和真實數(shù)據(jù)集上的恢復(fù)結(jié)果對比
本文分別采用整體訓(xùn)練和模塊化訓(xùn)練的方式訓(xùn)練網(wǎng)絡(luò),對比了這兩種訓(xùn)練方法對網(wǎng)絡(luò)性能的影響。GoPro測試集上的定量結(jié)果如表5所示,相比于整體訓(xùn)練的網(wǎng)絡(luò),模塊化訓(xùn)練的網(wǎng)絡(luò)的PSNR提高0.34 dB, SSIM提高0.003。對于本文算法來說,模塊化訓(xùn)練可以使網(wǎng)絡(luò)各個模塊分別達到最優(yōu)以確保網(wǎng)絡(luò)整體產(chǎn)生更好的結(jié)果,對網(wǎng)絡(luò)的性能起到積極的推動作用。
表4 各基準模型在GoPro測試集上的定量結(jié)果
表5 兩種訓(xùn)練方法在GoPro測試集上的定量對比
本文提出一種基于深度多級小波變換的圖像盲去模糊算法,通過正/逆小波變換實現(xiàn)上采樣/下采樣操作,在增大網(wǎng)絡(luò)感受野的同時利用圖像在小波域中的稀疏性,降低了映射的復(fù)雜程度。為了在小波域重建高質(zhì)量圖像,本文通過多尺度擴張稠密塊引入多尺度結(jié)構(gòu),實現(xiàn)了多尺度深層特征的提取與重用。同時,本文還利用特征融合塊自適應(yīng)地選擇編-解碼的特征進行有效的特征融合。由于圖像在小波域和空間域的表示方式存在差異,本文采用空間域重建模塊融合這兩種不同的特征表示以進一步提高重構(gòu)圖像的質(zhì)量。在訓(xùn)練時,采用模塊化訓(xùn)練的方式進一步提高網(wǎng)絡(luò)的性能。GoPro測試集和DVD測試集上的實驗結(jié)果表明,本文方法恢復(fù)的圖像具有更好的視覺效果,并且在不同場景下具有更強的魯棒性。