倪 銘,盧晨暉
(上海工程技術(shù)大學(xué)機(jī)械與汽車工程學(xué)院,上海 201620)
圖像超分辨率(ImageSuper-Resolution,ISR)是一個非?;钴S的研究領(lǐng)域,它完成經(jīng)典的計算機(jī)視覺任務(wù),即從低分辨率(Low-Resolution,LR)圖像中重建高分辨率(High-Resolution,HR)圖像。目前,ISR 廣泛應(yīng)用于遙感圖像處理、紅色影像修復(fù)等多種領(lǐng)域[1],科研人員已經(jīng)提出了多種方法來獲得重構(gòu)SR 圖像[2-4]。近幾年深度學(xué)習(xí)的發(fā)展給圖像SR領(lǐng)域打開了新視角,幾種基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的深度模型在SR 中實現(xiàn)了極佳的性能。Dong等人[2]提出了一個包含三個卷積層的SRCNN,可以直接對映射進(jìn)行從LR 到HR 的建模,SRCNN 是深度學(xué)習(xí)方法在SR 領(lǐng)域工作的先驅(qū)。隨后,Kim 等人[3]在此工作基礎(chǔ)上將SR 網(wǎng)絡(luò)的深度提升到20 層,與SRCNN相比,該算法的性能明顯提高。EDSR 網(wǎng)絡(luò)[4]則進(jìn)一步加深了網(wǎng)絡(luò)的深度,實驗結(jié)果證明更深的網(wǎng)絡(luò)能夠顯著地提高SR圖像的質(zhì)量。
盡管深度網(wǎng)絡(luò)能夠挖掘SR圖像的空間特征,但是深度的增加也導(dǎo)致了巨大的計算力資源消耗,因此并不適合現(xiàn)實場景。從這個角度來看,設(shè)計一種輕量級的深度學(xué)習(xí)模型對于圖像超分辨率算法的移動端部署來說尤為重要。本文提出了一種更加輕量級、精確化的超分辨率網(wǎng)絡(luò)——輕量級變形卷積網(wǎng)絡(luò)(Lightweight deformable convolutional network,LDCN),以普通卷積和變形卷積為網(wǎng)絡(luò)的基礎(chǔ)組成組件,引入特征蒸餾的概念,降低模型訓(xùn)練所需參數(shù)。同時提出了一種增強(qiáng)的特征注意力融合模塊,能夠自適應(yīng)地為特征分配權(quán)重,提高特征融合效率。
知識蒸餾機(jī)制的具體步驟是:將提取的特征從通道維度劃分成兩個部分:一部分直接保留,而另外一部分作為后續(xù)網(wǎng)絡(luò)層的輸入,并用于特征細(xì)化。Hui等人[5]首先將知識蒸餾機(jī)制用于圖像超分辨率重建,提出了IDN 網(wǎng)絡(luò),用較少的參數(shù)量獲得了較高的超分辨性能。隨后,IMDN[6]在IDN 的工作基礎(chǔ)上進(jìn)一步改進(jìn),設(shè)計了一個信息多蒸餾塊(IMDB),獲得更精細(xì)化的特征,IMDN 在PSNR 和推理時間方面都有很好的表現(xiàn)。但是IDN 和IMDN 還是不夠輕量化,Liu 等人[7]提出了殘差特征蒸餾網(wǎng)絡(luò)(RFDN),該網(wǎng)絡(luò)以殘差特征蒸餾塊為網(wǎng)絡(luò)的主要模塊,并使用多特征蒸餾連接方式,獲得更準(zhǔn)確的特征,進(jìn)一步降低了模型參數(shù)。IDN、IMDN和RFDN模型的關(guān)鍵組成部分是知識蒸餾機(jī)制,三種模型在SR任務(wù)上的優(yōu)秀性能也充分證明了該機(jī)制的在減少模型參數(shù)和提高模型性能方面的有效性。
注意力機(jī)制是指模擬人類視覺注意力的特點,將注意力聚焦在更為有用的特征信息上,目前已被廣泛地應(yīng)用于各種計算機(jī)視覺任務(wù)[8-9]。Hu 等人[8]引入了由注意力機(jī)制構(gòu)成的SE 塊,來計算通道注意力權(quán)重,增強(qiáng)了網(wǎng)絡(luò)的特征表達(dá)能力,在圖像分類中效果極佳。Zhang 等人[9]對SE 塊進(jìn)行改進(jìn),提出了一種增強(qiáng)的殘差通道注意力機(jī)制來衡量不同通道之間的相關(guān)性,并將其用于超分辨率重建任務(wù),取得了當(dāng)時領(lǐng)先的重建效果。
本文設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,主要由三部分組成,包括卷積層、特征提取和融合塊(Feature Extraction and Fusion Module,FEFB)、增強(qiáng)的特征注意力融合模塊(EFAB)以及重建模塊。其中,重建模塊由一個3×3的卷積層和一個Pixel Shuffle構(gòu)成。
圖1 LDCN網(wǎng)絡(luò)結(jié)構(gòu)圖
如圖2(a)所示,F(xiàn)EFB 模塊首先將輸入從通道的維度劃分為兩個部分,其中一個部分用1×1的卷積操作獲得圖像的規(guī)則特征并進(jìn)行保留,另一部分利用殘差變形卷積塊(Residual Deformable Convolutional Block,RDCB)。獲得不規(guī)則的特征信息并進(jìn)行下一步細(xì)化。這樣就完成了一次蒸餾操作。以此類推,直到第三次蒸餾操作后,將細(xì)化特征進(jìn)行1×1 的卷積操作獲得保留特征。最后,將獲得的保留特征進(jìn)行串聯(lián)組合,采用EFAB模塊進(jìn)行融合。
圖2 FEFB整體結(jié)構(gòu)圖
給定輸入Fin,整個FEFB模塊可以表示為:
其中,F(xiàn)di和Fci分別表示第i次蒸餾操作后的保留特征和細(xì)化特征。fRDCB(?)和fEFAB(?)分別表示RDCB 和EFAB 模塊的操作函數(shù)。Conv1×1(?)為卷積核大小為1×1的卷積操作,F(xiàn)out為FEFB模塊的最終輸出。
RDCB 的結(jié)構(gòu)如圖2(b)所示,包括DC 層、殘差連接和Leaky ReLU 激活函數(shù),DC 為變形卷積(Deformable Convolution)層[10]。假定輸入為,RDCB過程可以表示為:
fDC表示變形卷積操作,fLR(?)為Leaky ReLU函數(shù)。
通過交替的普通卷積層和DC 層,能夠分別獲得規(guī)則和不規(guī)則的特征信息,進(jìn)而充分挖掘輸入的特征信息,提高特征表達(dá)能力。通過知識蒸餾的連接方式,從通道維度上減少需要細(xì)化的特征,從而減少了網(wǎng)絡(luò)訓(xùn)練參數(shù)。
為了提高模型的特征融合能力,本文設(shè)計了EFAB來考慮卷積層和變形卷積層特征之間的相關(guān)性,從而靈活地為每層分配不同的權(quán)重。EFAB 的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 EFAB結(jié)構(gòu)圖
給定輸入為Fin,首先通過1×1的卷積層Conv1×1(?)來減少輸入的通道數(shù)目:
其次采用步長為2 的卷積層和池化層Hpool減小特征圖尺寸,采用3×3卷積層Conv3×3(?)進(jìn)一步提取特征,利用上采樣操作來恢復(fù)特征尺寸:
EFAB 模塊用在每個FEFB 模塊的末端以及四個FEFB 模塊特征的融合階段,使注意力更加集中于感興趣的特征區(qū)域。當(dāng)這些突出顯示的特性被聚合時一起,可以得到更有代表性的特征,更有利于圖像SR重建。
本文使用目前流行的基準(zhǔn)數(shù)據(jù)集DIV2K 數(shù)據(jù)集訓(xùn)練SR 模型。DIV2K 包括800 張訓(xùn)練圖像,100 張驗證圖像和100 張測試圖像。使用Set5、Set14、BSD100(B100)和Urban100 (U100)[3]四個基準(zhǔn)數(shù)據(jù)集作為測試數(shù)據(jù)集。為了和現(xiàn)有得超分辨率方法進(jìn)行比較,我們參考了文獻(xiàn)[2]的操作,將縮放因子選擇為4,并將從SR模型中獲得的RGB值轉(zhuǎn)換到Y(jié)通道用于驗證SR效應(yīng)。
本文采用MSE 損失函數(shù)和Adam 優(yōu)化器。迭代次數(shù)為800,批大小為16,初始學(xué)習(xí)率為10?4,每迭代200 次減少一半。網(wǎng)絡(luò)訓(xùn)練平臺為Ubuntu 22.04,CPU Intel Core i9-11900,RAM 16G,GPU GTX 3070Ti的電腦。
為了驗證和評價所提出的LDCN 的性能,將其與目前主流的一些輕量級SR 方法進(jìn)行對比,主要包括:Bicubic、SRCNN[2]、VDSR[3]、IDN[5]、CARN[11]和IMDN[6]。
3.3.1 客觀評價
表1 為LDCN 在縮放因子取值為4 時四個基準(zhǔn)數(shù)據(jù)集上的定量結(jié)果,包括參數(shù)量、平均PSNR 和SSIM值。最佳結(jié)果已加粗表示,次佳結(jié)果用下劃線表示??梢园l(fā)現(xiàn),相比于對比的SR 方法,所提出的LDCN 在多個數(shù)據(jù)集上都取得了最佳或次佳的PSNR 和SSIM。盡管在Set14 數(shù)據(jù)集上LDCN 的SSIM 低于IMDN,但是LDCN 的參數(shù)量相比于IMDN 減少了50%以上(如表2 所示)。因此,相比于其余輕量級超分辨率算法,本文提出的LDCN基本上能夠以較少的參數(shù)代價獲得最好的圖像復(fù)原效果。
表1 不同SR方法的PSNR和SSIM對比
表2 不同SR方法的參數(shù)量和運行時間對比
3.3.2 主觀視覺評價
為了進(jìn)行主觀視覺評價,本文采用不同的SR方法獲得測試集中個別圖像的超分辨率圖像。對比方法包括:Bicubic、FSRCNN[12]、VDSR[3]、IDN[5]、CARN[11]和IMDN[6],代碼均來源于對應(yīng)算法作者提供的官方網(wǎng)址。對比圖片來自于B100 數(shù)據(jù)集的“8023”圖像。圖4顯示了不同SR 方法的復(fù)原圖像。我們可以發(fā)現(xiàn),通過Bicubic 方法獲得的SR 圖像非常模糊,復(fù)原效果相對而言比較差。而基于深度學(xué)習(xí)的方法雖然有了一定的提升,但仍然存在邊緣模糊和響鈴現(xiàn)象,圖像部分區(qū)域的紋理信息還不夠準(zhǔn)確。相比于其他對比方法,本文所提LDCN 能較為準(zhǔn)確的復(fù)原圖像中的紋理信息,LDCN 所復(fù)原的圖像中紋理更加清晰,也更接近真實圖像。主觀視覺對比結(jié)果可以進(jìn)一步說明所提出的LDCN 能夠更加有效地利用LR 圖像的特征,從而復(fù)原出更加清晰的邊緣和紋理信息。
圖4 不同SR方法對“8023”圖像的復(fù)原效果
3.3.3 模型復(fù)雜度分析
參數(shù)數(shù)量和網(wǎng)絡(luò)運行時間可作為模型復(fù)雜度的評價指標(biāo)。本文選擇VDSR、CARN 和IMDN 來進(jìn)行對比,結(jié)果見表2。相比于其他算法,LDCN 的參數(shù)量更少,其在不同的SR方法中是非常有競爭力的。
模型的運行時間對于實際應(yīng)用非常重要,以Set5數(shù)據(jù)集為例進(jìn)行四倍超分辨率重建。由表2對比結(jié)果可知,LDCN 的運行時間最少,說明LDCN 的模型復(fù)雜度更低,更容易在移動端進(jìn)行部署。
本文提出了一種輕量級的超分辨率網(wǎng)絡(luò)LDCN,該網(wǎng)絡(luò)以普通卷積和變形卷積為基礎(chǔ)組件,能夠充分利用規(guī)則和不規(guī)則的空間特征,獲得表示能力更強(qiáng)的特征。同時,LDCN 額外引入了一種增強(qiáng)的特征注意力機(jī)制,能夠考慮到卷積層和變形卷積層特征之間的相關(guān)性,從而為每層分配不同的權(quán)重,提高特征融合效率。在不同基準(zhǔn)數(shù)據(jù)集上的實驗結(jié)果證明了LDCN能夠在較少參數(shù)的情況下獲得較高的超分性能。