劉玉紅,陳滿銀,劉曉燕
(蘭州交通大學(xué)電子與信息工程學(xué)院,蘭州 730070)
奈奎斯特采樣定理要求采樣頻率必須達到信號帶寬的2 倍以上才能從采樣信號中恢復(fù)出原始信號。隨著物聯(lián)網(wǎng)和大數(shù)據(jù)時代的到來,從采樣信號中恢復(fù)原始信號,需不斷加快采樣速率,這使得傳統(tǒng)的奈奎斯特采樣過程面臨較大挑戰(zhàn)。近年來,DONOHO等[1]提出壓縮感知理論,利用隨機測量矩陣Φ∈Rm×n對原始信號x∈Rn×1進行采樣,即y=Φx(m?n),將x投影到m維的低維空間,并證明在隨機投影的測量值y∈Rm×1中包含較多的原始信號,通過求解一個稀疏化問題,利用投影在低維空間的測量信號以恢復(fù)出原始信號。
在圖像壓縮感知問題中,測量值y的維度m遠小于原始信號x的維度。壓縮感知圖像重構(gòu)的本質(zhì)是從一個具有多種不同解的方程中找出最優(yōu)解。為了找出最優(yōu)解,研究人員提出基于圖像變換域的重構(gòu)算法,該算法利用Lp-norm 范數(shù)衡量稀疏系數(shù)的稀疏性,使用正交匹配追蹤(Orthogonal Matching Pursuit,OMP)、迭代硬閾值等算法求解對應(yīng)的稀疏編碼問題。研究人員提出將梯度稀疏性[2]、非局部稀疏性[3]和塊稀疏[4]作為先驗知識,對原始信號進行恢復(fù)。然而,這些算法都需要大量的迭代運算,重構(gòu)時間較長,并且在低采樣率下重構(gòu)圖像的質(zhì)量較差。
由于深度學(xué)習(xí)能解決傳統(tǒng)方法中計算量大的問題,因此研究人員提出基于深度學(xué)習(xí)的壓縮感知重構(gòu)方法。KULKARNI等[5]提出ReconNet,利用固定的隨機高斯矩陣測量獲取的圖像采樣數(shù)據(jù),實現(xiàn)了非迭代壓縮感知重構(gòu)的目的。YAO 等將ReconNet[5]網(wǎng)絡(luò)與殘差網(wǎng)絡(luò)[6]相結(jié)合提出DR2-Net[7],可以更充分地捕獲圖像的細節(jié)信息。文獻[8]提出一種深度神經(jīng)網(wǎng)絡(luò)CombNet,通過卷積核級聯(lián)的方式加深網(wǎng)絡(luò)的深度,提高重建圖像的質(zhì)量。文獻[9]提出一種自適應(yīng)測量的方法Adaptive-Net,該方法可以保留較多的圖像信息。上述方法在低采樣率下都存在嚴重的塊效應(yīng),重構(gòu)圖像的視覺效果較模糊。
本文提出一種基于通道注意力的多尺度全卷積壓縮感知圖像重構(gòu)模型。通過均值濾波消除圖像中的噪聲點,減少原始圖像中的冗余信息,有利于采集更加有效的圖像信息。通過對圖像進行多尺度全卷積采樣,在消除重建圖像塊效應(yīng)的同時保留更多圖像信息。在殘差塊中引入注意力機制,根據(jù)挖掘特征圖通道之間的關(guān)聯(lián)性,提取特征圖中的關(guān)鍵信息用于恢復(fù)出高質(zhì)量的重構(gòu)圖像。
基于深度學(xué)習(xí)的圖像重構(gòu)方法在計算機視覺和圖像處理領(lǐng)域受到了廣泛的關(guān)注,如圖像超分辨率重建[10]、圖像語義分割[11]、圖像去噪[12]等。一些基于深度學(xué)習(xí)的方法也相繼被提出,并應(yīng)用于壓縮感知的重構(gòu)圖像上。例如,利用堆疊降噪自動編碼[13](Stacked Denoising Auto-encoder,SDA)模型和卷積神經(jīng)網(wǎng)絡(luò)[14](Convolutional Neural Network,CNN)學(xué)習(xí)一個端到端的映射,直接將測量值輸入到網(wǎng)絡(luò)得到的重構(gòu)圖像。文獻[13]利用SDA 訓(xùn)練得到測量值與重構(gòu)圖像之間的映射關(guān)系,通過測量值對該映射關(guān)系進行圖像重構(gòu)。KULKARNI等[5]提出的ReconNet 實現(xiàn)了非迭代壓縮感知重構(gòu),但重構(gòu)質(zhì)量相對較差。研究人員提出的DR2-Net[7]網(wǎng)絡(luò)由全連接層和四個殘差塊組成,可以更充分地捕獲圖像的細節(jié)信息。文獻[15]提出多尺度殘差網(wǎng)絡(luò)MSRNet,引入多尺度擴張卷積層來提取圖像中不同尺度的特征。ISTA-Net[16]網(wǎng)絡(luò)結(jié)合基于優(yōu)化和基于網(wǎng)絡(luò)的壓縮感知方法的優(yōu)點,具有良好的可解釋性。DPA-Net[17]通過將圖像的紋理結(jié)構(gòu)信息分開重建后再進行融合,以提升重構(gòu)圖像的質(zhì)量,文獻[15-16]所提方法通過對輸入圖像進行分塊,利用高斯矩陣進行逐塊測量,存在計算量大的問題。此外,基于塊的圖像壓縮感知重構(gòu)破壞了圖像結(jié)構(gòu)信息的完整性。在Pep-Net[18]、CSNET[19]、MSResICS[20]、FCMN[21]中用自適應(yīng)測量代替隨機高斯矩陣的分塊測量方法,保留圖像結(jié)構(gòu)和邊緣信息的完整性,然而在重構(gòu)時只采用單一的殘差網(wǎng)絡(luò),未充分提高重建圖像的質(zhì)量。當FDC-Net[22]網(wǎng)絡(luò)重構(gòu)時,利用卷積網(wǎng)絡(luò)與密集網(wǎng)絡(luò)組合成的雙路徑重構(gòu)網(wǎng)絡(luò),在提高重構(gòu)圖像質(zhì)量的同時縮短了重構(gòu)時間。但在低采樣率下重建圖像的視覺效果仍不清晰。為提高低采樣率下重建圖像的質(zhì)量,本文提出一種基于通道注意力的多尺度全卷積壓縮感知圖像重構(gòu)模型MSANet。
本文設(shè)計的網(wǎng)絡(luò)主要由測量和重構(gòu)兩部分組成。
均值濾波[23]是一種線性濾波器,用均值代替圖像中的各個像素值,即對待處理的當前像素點f(x,y)選擇一個模板。該模板由其近鄰的若干像素組成,求解模板中所有像素的均值,再把均值賦予當前像素f(x,y),并作為處理后圖像在該點的灰度g(x,y),即g(x,y)=∑f(x,y)/m,其中m為該模板中包含當前像素點在內(nèi)的像素點總個數(shù)。
均值濾波的核函數(shù)h(x,y) 及其傅里葉變換F[h(x,y)]如式(1)和式(2)所示:
從式(2)可以看出,F(xiàn)[h(x,y)]在頻域就是μ、ν兩個方向的sinc 函數(shù)相乘。在空域方向的窗長越大,頻域上從低頻到高頻的過渡就越陡。因此,均值濾波函數(shù)具有波動性,可以去除圖像中的冗余信息,減少圖像中的數(shù)據(jù)量,獲取感興趣區(qū)域的粗略描述。在壓縮感知采樣時獲得更多有效信息,有利于提升重構(gòu)圖像的質(zhì)量。同時,冗余信息的消除可以減少訓(xùn)練網(wǎng)絡(luò)時的數(shù)據(jù)量,有利于縮短重構(gòu)圖像的時間。
本文使用卷積層對圖像進行采樣,其過程如圖1所示。通過M個大小為N1×N1(N1?N)的卷積核對尺寸為N×N的輸入圖像塊x進行掃描和卷積運算,得到長度為M的采樣數(shù)據(jù)。將卷積核看作觀測矩陣,卷積核在圖片上滑動掃描的過程就是壓縮感知采樣的過程。
圖1 卷積采樣過程Fig.1 Process of convolution sampling
在傳統(tǒng)網(wǎng)絡(luò)中每一層使用一個尺寸的卷積核,而Google 和Inception 網(wǎng)絡(luò)中每一層的特征圖使用多個不同大小的卷積核,以獲得不同尺度的特征圖,再把這些特征相融合。Inception 網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示?;诙喑叨染矸e的思想,本文采用多尺度全卷積對原始圖像信號進行全圖像測量,實現(xiàn)圖像的多尺度全卷積采樣。每一層卷積可以得到一個特征圖,將多尺度卷積采樣得到的多個特征圖進行拼接融合,使得最終的特征圖包含更多、更全面的信息。
圖2 Inception 網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of Inception network
注意力機制能夠重點關(guān)注輸入圖像中的關(guān)鍵特征信息,分為硬注意力機制和軟注意力機制。硬注意力機制是在所有特征信息中選擇關(guān)鍵部分進行重點關(guān)注,其余特征則忽略不計。例如,文獻[24]的數(shù)字識別任務(wù)中,在提取原始圖像特征時,僅含有數(shù)字的像素點是有用的,因此,只需對含有數(shù)字的像素點進行重點關(guān)注。硬注意力機制能有效減少計算量,但丟棄了圖像的部分信息,而在壓縮感知重構(gòu)任務(wù)中,圖像的每一個像素點的信息都是有用的,顯然,硬注意力機制不適用于壓縮感知重構(gòu)任務(wù)。隨后,HU等[25]提出的SE 塊在殘差網(wǎng)絡(luò)之后使用原始的channel-wise attention 來提高分類精度。軟注意力機制對所有的特征設(shè)置一個權(quán)重,并對其進行特征加權(quán),通過自適應(yīng)調(diào)整凸顯重要特征。圖像經(jīng)過每個卷積層都會產(chǎn)生多個不同的特征圖,通道注意力機制[26]通過對每張?zhí)卣鲌D賦予不同的權(quán)重,使網(wǎng)絡(luò)從特征的通道維度來提取重要的特征。
通道注意力模型結(jié)構(gòu)如圖3 所示,在卷積操作后分出一個旁路分支,首先進行Squeeze 操作(即圖中的Fsq(·)),將空間維度進行特征壓縮,將每個特征圖變成一個實數(shù),相當于具有全局感受野的池化操作。因此,利用分局平均池化將全局空間內(nèi)的信息轉(zhuǎn)化為通道描述符,然后進行Excitation 操作(即圖中的Fex(·)),通過學(xué)習(xí)參數(shù)生成每個特征通道的權(quán)重。該權(quán)重值表示對應(yīng)通道與關(guān)鍵信息的相關(guān)性,權(quán)重越大,則對應(yīng)通道的信息越關(guān)鍵。
圖3 通道注意力模型結(jié)構(gòu)Fig.3 Structure of channel attention model
當卷積層對圖像進行卷積運算時,只能提取感受野內(nèi)的特征信息。并且單一卷積層的計算輸出沒有考慮各個通道的依懶性。因此,本文在重構(gòu)網(wǎng)絡(luò)中提出一種新的殘差注意力模型,其結(jié)構(gòu)如圖4 所示。通過在中間層設(shè)置通道注意力模塊,加強了不同層以及特征通道之間的長期依賴關(guān)系,使得重要的特征信息在傳遞過程中不易丟失,提升最終重建圖像的質(zhì)量。
圖4 殘差注意力模型結(jié)構(gòu)Fig.4 Structure of residual attention model
殘差塊由三個不同卷積核大小的卷積層組成。第一層卷積使用11×11 的卷積核,得到感受野較大的特征信息;第二層卷積首先使用1×1 卷積核,降低第一層卷積計算的輸出維度,然后將信息輸入到注意力模塊中,通過建模各個特征通道之間的重要程度,使網(wǎng)絡(luò)有選擇性地增強信息量大的特征,以充分利用這些特征信息,從而恢復(fù)出高質(zhì)量的重構(gòu)圖像,并對無用特征進行抑制;第三層使用7×7 的卷積核,提取各個通道上信息量大的特征信息,輸出一張大小為256×256 像素的灰度圖像。
本文所提MSANet 網(wǎng)絡(luò)模型結(jié)構(gòu)如圖5 所示。
圖5 MSANet 網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.5 Structure of MSANet network model
本文實驗在PyTorch 深度學(xué)習(xí)框架上完成。計算機配備了主頻率為2.8 GHz 的Intel Core i5-8400H CPU、1 個NVIDIA GeForce GTX 1080Ti GPU,網(wǎng)絡(luò)框架在windows 10 操作系統(tǒng)上運行。
為確保實驗的公平性,本文在不同的采樣率分別為1%、4%、25%下訓(xùn)練網(wǎng)絡(luò),使用相同的訓(xùn)練集和測試集,選擇DIV2K 作為模型的訓(xùn)練集數(shù)據(jù),并在Set0、Set5、Set14 和BSD100 數(shù)據(jù)集上進行測試與對比實驗。這些數(shù)據(jù)集包含大量來自各個領(lǐng)域的圖像,能夠?qū)δP托阅苓M行有效驗證。
RGB 圖像在輸入到網(wǎng)絡(luò)之前被轉(zhuǎn)換為灰度圖像,數(shù)據(jù)歸一化到區(qū)間[-1,1],使網(wǎng)絡(luò)能更快、更好地收斂。當訓(xùn)練模型時,本文使用Adam 算法對模型參數(shù)進行優(yōu)化,初始動量設(shè)置為0.9,每次迭代的批大小設(shè)置為8,學(xué)習(xí)率為0.001,激活函數(shù)采用PReLu。采用均方誤差(Mean Square Error,MSE)作為損失函數(shù),如式(3)所示:
其中:w為需要訓(xùn)練的網(wǎng)絡(luò)參數(shù);f(xi;w)為相對于圖像xi的最終壓縮感知重構(gòu)。
本文實驗采用國際通用的圖像重建評價指標:峰值信噪比(PSNR)、結(jié)構(gòu)相似度(SSIM)。PSNR 數(shù)值越大,重構(gòu)圖像的失真越小,重構(gòu)效果越好。PSNR 的計算如式(4)所示:
結(jié)構(gòu)相似度從圖像的亮度、結(jié)構(gòu)和相似度三個方面進行評價。給定兩張圖片A 和B,其結(jié)構(gòu)相似度計算如式(5)所示:
其中:μa為圖片A 的平均值;μb為圖片B 的平均值,表示圖像的亮度和分別為圖片A 和B 的方差,表示圖像的對比度;σab為圖片A 和B 的協(xié)方差,表示圖像的結(jié)構(gòu);C1和C2為用于維持穩(wěn)定的常數(shù),C1=(k1×L)2,C2=(k2×L)2,通常取k1=0.01,k2=0.03;L為像素值的動態(tài)范圍。結(jié)構(gòu)相似度的取值范圍在0 與1之間,結(jié)果越接近1,表示兩幅圖像越相似。
本文模型與TVAL3[27]、SDA[13]、ReconNet[5]、DR2-Net[7]、CombNet[8]、ISTA-Net[16]和Pep-Net[18]進行PSNR 對比,對比結(jié)果如表1 所示。從表1 可以看出,當采樣率為1%和4%時,本文所提模型的PSNR 值均優(yōu)于對比模型,說明重構(gòu)圖像的失真小且質(zhì)量較高。
表1 不同模型的峰值信噪比對比Table 1 Peak signal-to-noise ratio comparison among different models 單位:dB
為驗證本文模型重建圖像的視覺效果,在不同采樣率下重建圖像的視覺效果對比如圖6 所示。
圖6 在不同采樣率下不同模型重建圖像的視覺效果對比Fig.6 Visual effects of reconstructed images comparison among different models at different sampling rates
當采樣率為1%時,ReconNet[5]和DR2-Net[7]重建圖像產(chǎn)生了嚴重的塊效應(yīng)問題,視覺效果較差,而本文模型的重建效果比較清晰。當采樣率為4%時,ReconNet[5]和DR2-Net[7]重建圖像仍然存在塊效應(yīng),本文模型具有較優(yōu)的視覺效果。在不同采樣率下本文模型的均方差損失對比如圖7 所示。當采樣率為25%時,本文模型測試圖像均方差損失的平均值最小,相應(yīng)PSNR 值的優(yōu)勢較明顯,能有效消除塊效應(yīng)現(xiàn)象,具有較優(yōu)的視覺效果。
圖7 不同采樣率下本文模型的均方差損失平均值Fig.7 The average of mean square error loss of the proposed model under different sampling rates
分析上述結(jié)果可以得到:當采樣率(25%)較大時,由于模型的均方差損失較小,因此重建出的圖像都表現(xiàn)出較好的視覺效果,但在低采樣率為1%時,其他模型重建的圖像存在嚴重的塊效應(yīng)。
為驗證本文模型重構(gòu)的圖像在亮度、對比度和結(jié)構(gòu)的優(yōu)越性,當采樣率為1%時,不同模型在重構(gòu)圖像與原始圖像之間結(jié)構(gòu)相似性(SSIM)的計算結(jié)果如表2 所示。從表2 可以看出,本文模型的SSIM性能有較明顯的優(yōu)勢。相比其他模型,本文設(shè)計的多尺度全卷積的采樣方式可以保存完整的圖像結(jié)構(gòu)紋理信息,使大量有用信息進入重構(gòu)網(wǎng)絡(luò),減小了重構(gòu)圖像與原始圖像的差異性。因此,本文模型具有較優(yōu)的SSIM。
表2 當采樣率為1%時不同模型的結(jié)構(gòu)相似性對比Table 2 Structural similarity comparison among different models when the sampling rate is 1%
傳統(tǒng)的基于迭代壓縮感知模型存在迭代次數(shù)多、計算復(fù)雜度高、耗時長等問題。本文提出的基于深度學(xué)習(xí)的壓縮感知重構(gòu)模型,在采樣階段,通過對初始圖像進行濾波處理,消除了圖像中的噪聲信息,減少了數(shù)據(jù)量并保留有用信息。在重構(gòu)階段,利用卷積神經(jīng)網(wǎng)絡(luò)局部連接、權(quán)值共享的特性有效降低了網(wǎng)絡(luò)的復(fù)雜度,減少了訓(xùn)練參數(shù)量。通過上述兩個階段的處理,有效地縮短了重構(gòu)圖像所消耗的時間。不同模型重建單張256×256 像素圖像花費的時間對比如表3 所示。
表3 不同模型重建圖像花費的時間對比Table 3 Comparison of time spent on image reconstruction by different models 單位:s
從表3 可以看出,相比傳統(tǒng)的迭代模型,本文模型能有效降低重構(gòu)過程的時間復(fù)雜度,縮短重構(gòu)時間,節(jié)約了計算成本。
本文提出一種基于通道注意力的多尺度全卷積壓縮感知圖像重構(gòu)模型MSANet。在采樣階段,通過均值濾波消除圖像中的噪聲點,得到圖像的低頻信息。采用多尺度全卷積進行測量,消除重構(gòu)圖像的塊效應(yīng)且保留較多的原始圖像信息。在重構(gòu)階段,在殘差塊中引入通道注意力機制挖掘特征圖通道之間的關(guān)聯(lián)性,增強了網(wǎng)絡(luò)提取圖像關(guān)鍵特征信息的能力,恢復(fù)出視覺效果更加清晰的重構(gòu)圖像。實驗結(jié)果表明,相比傳統(tǒng)的壓縮感知模型,本文模型能有效縮短圖像的重構(gòu)時間,相較于基于深度學(xué)習(xí)的壓縮感知重構(gòu)模型ReconNet、DR2-Net 等,在低采樣率下生成的圖像更加逼真自然。下一步將在本文模型的基礎(chǔ)上引入密集網(wǎng)絡(luò),減少網(wǎng)絡(luò)訓(xùn)練參數(shù),增強特征傳播,以縮短重構(gòu)圖像花費的時間。