王曉華,侯佳輝,張凱兵,程 敬,蘇澤斌
(西安工程大學(xué) 電子信息學(xué)院,陜西 西安 710048)
在攝像機(jī)捕獲圖像的過程中,由于相機(jī)或拍攝對(duì)象的運(yùn)動(dòng),經(jīng)常會(huì)導(dǎo)致捕獲的圖像出現(xiàn)運(yùn)動(dòng)模糊。受損圖像的模糊邊緣和扭曲的紋理細(xì)節(jié)不利于自動(dòng)駕駛[1-3]、目標(biāo)檢測[4-6]和語義分割[7-9]等特定的計(jì)算機(jī)視覺任務(wù)的實(shí)現(xiàn)。因此,研究單圖像盲運(yùn)動(dòng)去模糊技術(shù)來提升所獲圖像的視覺質(zhì)量,已成為計(jì)算機(jī)視覺領(lǐng)域中非常關(guān)鍵的任務(wù)之一。
早期的基于深度學(xué)習(xí)的盲運(yùn)動(dòng)圖像去模糊方法通常包括2步,即首先使用卷積神經(jīng)網(wǎng)絡(luò)估計(jì)運(yùn)動(dòng)模糊圖像的模糊核,然后再使用非盲去卷積的方法恢復(fù)清晰圖像[10-11]。然而這種方法難以準(zhǔn)確地估計(jì)出適應(yīng)自然場景的模糊核,而且估計(jì)模糊核與非盲去卷積是2個(gè)相互獨(dú)立的步驟,因此難以獲得令人滿意的去模糊效果。近年來,隨著深度學(xué)習(xí)的發(fā)展[12-13],人們主要關(guān)注于研究端到端的盲運(yùn)動(dòng)圖像去模糊方法。該方法直接建立模糊圖像與清晰圖像之間端到端的非線性映射,無需明確估計(jì)模糊核,因而受到廣大研究者的青睞。例如,文獻(xiàn)[14-15]通過引入生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks, GANs),先后提出DeBlurGAN和DeBlurGANv2兩種深度網(wǎng)絡(luò)模型,借用GANs的生成能力恢復(fù)高質(zhì)量的清晰圖像。為使深度神經(jīng)網(wǎng)絡(luò)適應(yīng)復(fù)雜場景的運(yùn)動(dòng)模糊,文獻(xiàn)[16]提出利用多尺度卷積神經(jīng)網(wǎng)絡(luò)和多尺度損失函數(shù)的盲運(yùn)動(dòng)圖像去模糊方法,該方法以多階段漸進(jìn)的方式實(shí)現(xiàn)盲運(yùn)動(dòng)去模糊,在定性評(píng)估和定量評(píng)估2個(gè)方面均表現(xiàn)較好的性能。隨后,文獻(xiàn)[17]提出了基于圖像金字塔的尺度遞歸網(wǎng)絡(luò),其由3個(gè)子網(wǎng)絡(luò)組成,每個(gè)子網(wǎng)絡(luò)的輸入尺度不同,并且不同尺度的網(wǎng)絡(luò)之間共享參數(shù),因此該方法能以較少的網(wǎng)絡(luò)參數(shù)恢復(fù)更清晰的圖像。考慮到參數(shù)獨(dú)立模型和參數(shù)共享模型在不同尺度特征之間的差異性和相關(guān)性,文獻(xiàn)[18]提出了一種參數(shù)選擇共享策略,從而改善去模糊性能。受多尺度方案的啟發(fā),文獻(xiàn)[19]提出了深度分層分塊網(wǎng)絡(luò)進(jìn)行盲運(yùn)動(dòng)圖像去模糊,該網(wǎng)絡(luò)應(yīng)用空間金字塔匹配表示非均勻運(yùn)動(dòng)去模糊的分層特征,并將圖像分塊處理以得到具有局部和全局的圖像特征,表現(xiàn)出較好的性能。
綜上所述,已有的多階段方法的目的是通過在每個(gè)階段使用一個(gè)輕量級(jí)的子網(wǎng)絡(luò)來逐步恢復(fù)清晰的圖像,即使用逐級(jí)漸進(jìn)的思想。這種設(shè)計(jì)是有效的,因?yàn)樗鼘⒕哂刑魬?zhàn)性的圖像恢復(fù)任務(wù)分解為更小的更容易的子任務(wù),并且前一個(gè)階段的任務(wù)對(duì)后一個(gè)階段的任務(wù)起輔助作用。本文依據(jù)此架構(gòu)設(shè)計(jì)出基于漸進(jìn)式深度學(xué)習(xí)的盲運(yùn)動(dòng)圖像去模糊方法。然而,如何在不同子任務(wù)之間有效的進(jìn)行信息交互,實(shí)現(xiàn)不同階段特征的互補(bǔ)融合,仍然是一個(gè)具有挑戰(zhàn)性的問題。本文受文獻(xiàn)[20]方法的啟發(fā),針對(duì)盲運(yùn)動(dòng)圖像去模糊任務(wù)中多階段深度神經(jīng)網(wǎng)絡(luò)缺少大范圍感受野和難以合理交互各階段圖像特征的問題,構(gòu)建基于擴(kuò)張卷積塊和上下文注意力特征融合的漸進(jìn)式深度神經(jīng)網(wǎng)絡(luò),利用各階段之間的信息交互和多階段漸進(jìn)機(jī)制,充分利用局部和全局圖像特征引導(dǎo)圖像恢復(fù),以提升圖像特征的利用效率,從而獲得更高質(zhì)量的去模糊圖像。其次,應(yīng)用擴(kuò)張卷積塊捕獲大范圍的像素信息,有利于恢復(fù)更精細(xì)的圖像紋理結(jié)構(gòu)。最后,依據(jù)文獻(xiàn)[19]提出的分塊思想,本文根據(jù)層級(jí)不同將輸入圖像分塊處理,目的在于使較低的階段關(guān)注局部信息。
本文提出的基于PDNet盲運(yùn)動(dòng)圖像去模糊方法主要由局部特征提取、圖像特征整合和圖像恢復(fù)3個(gè)階段構(gòu)成,如圖1所示。
圖 1 PDNet的整體框架Fig.1 The framework of PDNet
圖1中,模糊圖像的淺層特征包含較多的紋理細(xì)節(jié),所以在每一階段都包含淺層特征提取模塊(shallow feature extraction module, SFEM)。為了捕獲更大范圍的像素信息以提高恢復(fù)質(zhì)量,PDNet在每一階段的編碼-解碼器中應(yīng)用MDCB。在圖1中的局部特征提取階段由SFEM、編碼器、解碼器和卷積層組成。在圖像特征整合階段和圖像恢復(fù)階段利用CAFM進(jìn)行不同階段圖像特征的信息交互,以實(shí)現(xiàn)漸進(jìn)式的圖像特征增強(qiáng)。不僅如此,本文在不同階段將輸入圖像均勻劃分成不同大小圖像塊,每個(gè)階段的輸入和輸出圖像塊的數(shù)量均不相同,使得圖像特征隨著階段的增加而相互融合,有利于低階段的局部信息融合高階段的全局信息,從而生成豐富的上下文圖像特征。在圖像恢復(fù)階段,除了包含與特征整合階段一樣的SFEM和CAFM外,為了保持原有的圖像分辨率,設(shè)計(jì)了具有殘差結(jié)構(gòu)的圖像分辨率保持模塊,避免上下采樣操作帶來的像素?fù)p失。
模糊圖像中的像素是不規(guī)則擴(kuò)散的,為了使模型更精確的關(guān)注模糊區(qū)域,本文引用坐標(biāo)注意力模塊實(shí)現(xiàn)水平和垂直空間方向的聚合特征,不僅可以捕獲圖像像素之間的遠(yuǎn)程依賴關(guān)系,而且可以保存精確的位置信息,坐標(biāo)注意力[21],坐標(biāo)注意力模塊如圖2所示。
圖 2 坐標(biāo)注意力模塊Fig.2 Coordinate attention module
為了獲取不同尺度的圖像特征,本文基于標(biāo)準(zhǔn)U-Net[22]構(gòu)建編碼-解碼器。相較于U-Net,編碼-解碼器可以利用擴(kuò)張卷積增大模型的感受野,并且使用橫向連接來彌補(bǔ)下采樣操作帶來的像素?fù)p失,編碼-解碼器結(jié)構(gòu)如圖3所示。
圖 3 編碼-解碼器結(jié)構(gòu)Fig.3 The encoder-decoder structure
為了捕獲更大范圍的像素信息,本文添加MDCB。MDCB利用擴(kuò)張卷積和編碼-解碼器中輸入的多尺度圖像來感知更大范圍的像素信息,并且利用多分支結(jié)構(gòu)進(jìn)一步增強(qiáng)圖像特征表達(dá),有助于盲運(yùn)動(dòng)圖像去模糊任務(wù)。MDCB結(jié)構(gòu)由2個(gè)多分支擴(kuò)張卷積組級(jí)聯(lián)構(gòu)成,各個(gè)分支的擴(kuò)張卷積層使用不同的擴(kuò)散因子,不但可以擴(kuò)大感受野,而且能適應(yīng)不同程度的運(yùn)動(dòng)模糊。每個(gè)分支的擴(kuò)張卷積的卷積核均為3,擴(kuò)散因子從上至下分別是1、3和5。
多階段深度學(xué)習(xí)模型可以獲得非常豐富的圖像信息,但如何使用這些圖像信息實(shí)現(xiàn)盲運(yùn)動(dòng)圖像去模糊任務(wù)非常關(guān)鍵。為交互不同階段之間的圖像特征,本文提出CAFM。首先,CAFM可以為各個(gè)階段之間的圖像特征建立橋梁,使得先前階段的多尺度特征增強(qiáng)下一階段的特征,并且利用注意力機(jī)制獲取當(dāng)前階段有利于去模糊的圖像特征,使得有用的圖像特征傳遞到下一階段。其次,利用CAFM有助于低級(jí)階段的局部信息和高級(jí)階段的全局信息充分融合。如圖1中的CAFM所示,來自上一階段的圖像特征經(jīng)過卷積層和Sigmoid函數(shù)處理后得到權(quán)重分?jǐn)?shù),然后以加權(quán)的方式增強(qiáng)當(dāng)前階段的圖像特征。計(jì)算過程表示為
W=fs(fc(Fpre))
(1)
Ffu=fcord(Fcur+fc(Fcur)⊙W)
(2)
式中:fc為卷積層;fs為Sigmoid函數(shù);fcord為坐標(biāo)注意力層;W為權(quán)重分?jǐn)?shù);Fpre為上一階段的圖像特征;Fcur為當(dāng)前階段的圖像特征;Ffu為融合后的圖像特征;⊙為對(duì)應(yīng)元素相乘。
由于在編碼-解碼器中采用上下采樣操作會(huì)導(dǎo)致圖像細(xì)節(jié)信息的丟失,不利于盲運(yùn)動(dòng)圖像去模糊。為了從輸入的模糊圖像中恢復(fù)出更加清晰的圖像細(xì)節(jié),在圖像恢復(fù)階段引入由多個(gè)殘差塊級(jí)聯(lián)組成的圖像分辨率保持模塊,如圖1所示。其由多個(gè)殘差塊組成,輸入圖像特征經(jīng)過卷積層和LeakyReLU激活函數(shù)處理后與自身相加,最終再通過LeakyReLU激活函數(shù)得到輸出圖像特征。圖像分辨率保持模塊不使用任何降采樣操作,以便于保留高分辨率的圖像特征。圖像分辨率保持模塊的計(jì)算過程描述為
Fn=fres(Fn-1),n=1,2,…,6
(3)
式中:fres為殘差塊;Fn-1為第n-1個(gè)殘差塊的輸入特征,其中F0為圖像分辨率保持模塊的輸入特征。
本文實(shí)驗(yàn)運(yùn)行平臺(tái)為Ubuntu16.04的操作系統(tǒng),設(shè)備配置為RTX2080Ti Intel i5-6700K。在GoPro數(shù)據(jù)集上訓(xùn)練盲運(yùn)動(dòng)圖像去模糊網(wǎng)絡(luò)模型。為了從有限的基準(zhǔn)數(shù)據(jù)庫中學(xué)習(xí)不同的圖像特征,本文對(duì)訓(xùn)練集中的圖像使用隨機(jī)水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)和90°旋轉(zhuǎn)進(jìn)行數(shù)據(jù)增強(qiáng)。網(wǎng)絡(luò)模型應(yīng)用Adam優(yōu)化器訓(xùn)練,訓(xùn)練次數(shù)設(shè)置為1 600輪,初始學(xué)習(xí)率設(shè)置為10-4,學(xué)習(xí)率調(diào)度策略為余弦下降,最低學(xué)習(xí)速率設(shè)置為10-6。
在優(yōu)化端到端的盲運(yùn)動(dòng)圖像去模糊深度網(wǎng)絡(luò)時(shí),設(shè)計(jì)有效的損失函數(shù)至關(guān)重要。由于PDNet的每一個(gè)階段都能重建出一張去模糊后的圖像,因此本文采用多階段聯(lián)合損失函數(shù)優(yōu)化PDNet。本文使用一范數(shù)衡量恢復(fù)圖像與真實(shí)標(biāo)簽圖像之間的差異。多階段聯(lián)合損失函數(shù)定義如下:
本文選用在多階段去模糊方法中具有代表性的SRN[17]和DMPHN(1-2-4-8)[19],GANs去模糊方法中的DeblurGAN[15]和DBGAN[23],以及具有迭代特點(diǎn)的SIUN[24]作為對(duì)比方法。首先在GoPro基準(zhǔn)數(shù)據(jù)集上評(píng)估PDNet的有效性。表1給出本文方法與另外5種主流盲運(yùn)動(dòng)圖像去模糊方法在客觀質(zhì)量上的對(duì)比結(jié)果,評(píng)價(jià)指標(biāo)包括PSNR和SSIM。
表 1 對(duì)比實(shí)驗(yàn)結(jié)果
從表1可以看出,DeblurGANv2獲得的評(píng)價(jià)指標(biāo)最差。SRN共享每一個(gè)階段的網(wǎng)絡(luò)參數(shù),并且利用由粗到細(xì)的去模糊策略,因此能獲得較好的盲運(yùn)動(dòng)圖像去模糊性能。而DBGAN集成了2個(gè)GANs,以一個(gè)指導(dǎo)另一個(gè)的策略恢復(fù)圖像,其可以得到相比于SRN更好的圖像質(zhì)量。SIUN以迭代的方式恢復(fù)清晰圖像,而且不同的模糊圖像使用不同的迭代次數(shù)進(jìn)行訓(xùn)練和預(yù)測,具有更好的適應(yīng)性,可以恢復(fù)出更優(yōu)的結(jié)果。DMPHN(1-2-4-8)采用圖像分塊策略實(shí)現(xiàn)圖像去模糊,結(jié)合圖像的局部與全局信息漸進(jìn)式地恢復(fù)清晰圖像,因此有更優(yōu)的去模糊效果。相比于上述方法,本文采用CAFM能有效地利用圖像特征,并利用MDCB感知不同范圍的像素信息,因此其評(píng)價(jià)指標(biāo)均高于其他對(duì)比方法。此外,為進(jìn)一步評(píng)估本方法的泛化性能,使用在GoPro數(shù)據(jù)集上訓(xùn)練的模型在RealBlur-J[25]低光場景測試集上進(jìn)行測試,從表1的RealBlur-J列上對(duì)應(yīng)的對(duì)比結(jié)果可以看出,SRN、DeblurGANv2和DBGAN的評(píng)價(jià)指標(biāo)明顯下降,表明其泛化能力不足。而SIUN使用獨(dú)特的迭代策略,可以適應(yīng)不同模糊程度的模糊圖像,表現(xiàn)出比其他方法更好的泛化能力。DMPHN(1-2-4-8)采用漸進(jìn)方式實(shí)現(xiàn)圖像去模糊,因而也能獲得較好恢復(fù)質(zhì)量。相比于上述對(duì)比方法,本文提出的盲運(yùn)動(dòng)圖像去模糊方法采用多階段漸進(jìn)式去模糊策略,并加強(qiáng)各階段之間的信息的交互,因此能獲得更好的泛化能力,在PSNR和SSIM上均獲得了具有競爭性的客觀評(píng)價(jià)結(jié)果。
為了進(jìn)一步驗(yàn)證本文提出的盲運(yùn)動(dòng)圖像去模糊方法的優(yōu)越性,圖4展示在GoPro測試數(shù)據(jù)集中盲圖像去模糊的視覺對(duì)比結(jié)果,此圖中具有較多的紋理細(xì)節(jié),視覺感知明顯。其中,除真實(shí)標(biāo)簽圖像和模糊圖像外,每幅圖像底部均展示了PSNR(單位:dB)和SSIM指標(biāo)值。
圖 4 GoPro數(shù)據(jù)集上去模糊圖像對(duì)比結(jié)果Fig.4 Results of deblurring images on GoPro data set
從圖4可以看出,盡管以往盲運(yùn)動(dòng)圖像去模糊網(wǎng)絡(luò)生成的圖像能獲得相比于原始運(yùn)動(dòng)模糊圖像更清晰的圖像細(xì)節(jié),但局部細(xì)節(jié)和邊緣結(jié)構(gòu)仍然存在明顯的失真。比如,DBGAN、SRN和DMPHN(1-2-4-8)放大區(qū)域中的斑馬線出現(xiàn)較顯著的扭曲現(xiàn)象,DeblurGANv2和SIUN恢復(fù)的圖像中放大區(qū)域中的汽車目標(biāo)區(qū)域出現(xiàn)較大區(qū)域的偽影。相比其他對(duì)比方法,本文提出的多階段漸進(jìn)式盲運(yùn)動(dòng)圖像去模糊方法能夠融合不同階段的上下文特征,并且MDCB使其適應(yīng)不同程度的運(yùn)動(dòng)模糊。因此能獲得更清晰的紋理細(xì)節(jié)和圖像邊緣。
為了進(jìn)一步驗(yàn)證本文提出的盲運(yùn)動(dòng)圖像去模糊方法的優(yōu)越性,圖5對(duì)比了在RealBlur-J低光場景數(shù)據(jù)集上不同方法生成的去模糊結(jié)果。
圖 5 RealBlur-J數(shù)據(jù)集上去模糊圖像對(duì)比結(jié)果Fig.5 Results of deblurring images on RealBlur-J data set
從圖5可以看出,由于自然場景的變化,導(dǎo)致不同方法的恢復(fù)圖像在視覺上存在較大的差異,其中SIUN的恢復(fù)圖像沒有清晰的文字輪廓,而DeblurGANv2使用圖像金字塔模型構(gòu)造多尺度特征組能在一定程度上抑制偽影失真,但在邊緣區(qū)域仍存在明顯的振鈴效應(yīng)。盡管DBGAN利用GANs模型的圖像生成能力,其恢復(fù)的圖像偽影較少,但細(xì)節(jié)上存在明顯的混疊現(xiàn)象。而DMPHN(1-2-4-8)和SRN采用漸進(jìn)式的網(wǎng)絡(luò)結(jié)構(gòu)將復(fù)雜的去模糊任務(wù)分解為若干個(gè)相對(duì)容易的子任務(wù),具有較強(qiáng)的抑制偽影失真的能力,恢復(fù)的圖像具有較好的視覺效果,但客觀評(píng)價(jià)質(zhì)量較低。而本文提出的盲運(yùn)動(dòng)圖像去模糊模型利用MDCB在多尺度圖像上感知更大范圍的像素信息,并且通過CAFM實(shí)現(xiàn)各階段之間的不同尺度特征信息的融合,因此在恢復(fù)紋理和文字等圖像細(xì)節(jié)方面明顯優(yōu)于其他模型。
為了驗(yàn)證CAFM和MDCB的有效性,本文在保持其他網(wǎng)絡(luò)結(jié)構(gòu)不變的情況下,減少或增加網(wǎng)絡(luò)模塊進(jìn)行對(duì)比實(shí)驗(yàn)。表2為消融實(shí)驗(yàn)結(jié)果,由于刪除MDCB之后PDNet的結(jié)構(gòu)會(huì)發(fā)生變化,本文使用卷積組替換MDCB。卷積組由6個(gè)帶有ReLU激活函數(shù)的卷積層級(jí)聯(lián)組成,在表2中√表示選用了該模塊,×表示不選用此模塊。
表 2 消融實(shí)驗(yàn)結(jié)果
從表2可以看出,在MDCB和CAFM均不使用的情況下,本文提出的方法在GoPro和RealBlur-J數(shù)據(jù)集上恢復(fù)出的圖像的2個(gè)客觀評(píng)價(jià)指標(biāo)最低。當(dāng)僅使用MDCB時(shí),恢復(fù)圖像的評(píng)價(jià)指標(biāo)有所降低。當(dāng)在此基礎(chǔ)上增加CAFM后,恢復(fù)圖像在2個(gè)評(píng)估數(shù)據(jù)集上均取得最好的評(píng)價(jià)指標(biāo)。上述實(shí)驗(yàn)表明,聯(lián)合使用MDCB和CAFM能明顯提高去模糊網(wǎng)絡(luò)的圖像恢復(fù)能力。
為進(jìn)一步驗(yàn)證MDCB和CAFM對(duì)去模糊任務(wù)的貢獻(xiàn),圖6展示了GoPro數(shù)據(jù)集中具有代表性的圖像的恢復(fù)效果,此圖像的紋理細(xì)節(jié)具有明顯的視覺感知區(qū)別。
圖 6 消融實(shí)驗(yàn)圖像Fig.6 Results of ablation experiment
從圖6的放大區(qū)域?qū)Ρ冉Y(jié)果可以看出,使用注意力融合模塊和多尺度擴(kuò)張卷積模塊的深度神經(jīng)網(wǎng)絡(luò)模型恢復(fù)出的圖像中衣服的褶皺區(qū)域更加清晰,而且集成MDCB和CAFM的去模糊模型能生成與原始高質(zhì)量圖像更逼近的重建結(jié)果,在客觀質(zhì)量評(píng)價(jià)方面取得更高的PSNR和SSIM值。
針對(duì)盲運(yùn)動(dòng)圖像去模糊任務(wù)中多階段深度神經(jīng)網(wǎng)絡(luò)缺少大范圍感受野和難以合理交互各階段圖像特征而導(dǎo)致恢復(fù)圖像質(zhì)量不高的問題,本文提出了一種新的端到端的深度網(wǎng)絡(luò)模型PDNet。該模型利用包含局部特征提取、圖像特征整合和圖像恢復(fù)3個(gè)階段的漸進(jìn)式深度神經(jīng)網(wǎng)絡(luò)框架實(shí)現(xiàn)盲運(yùn)動(dòng)圖像去模糊任務(wù),其中前2個(gè)階段使用具有MDCB的編碼-解碼器生成圖像的上下文特征,最后一個(gè)階段使用原始分辨率保持模塊恢復(fù)圖像,并在每個(gè)階段之間使用CAFM生成具有局部與全局信息的圖像特征,因此能恢復(fù)出具有精細(xì)紋理的清晰圖像。在GoPro數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果表明,本文提出的深度網(wǎng)絡(luò)模型在定量和定性方面均優(yōu)于其他模型。在RealBlur-J數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果表明,提出的模型在泛化能力上優(yōu)于其他模型。