何卓豪,宋甫元,陸 越
(1.南京信息工程大學(xué) 數(shù)字取證教育部工程研究中心;2.南京信息工程大學(xué) 計(jì)算機(jī)學(xué)院、網(wǎng)絡(luò)空間安全學(xué)院,江蘇 南京 210044)
壓縮感知(Compression Sensing,CS)是由Donoho[1]提出的一種新的采樣方式,采樣過(guò)程即為壓縮,該方式突破了奈奎斯特采樣定理的限制,能更高效采樣信號(hào)。CS 證實(shí)當(dāng)信號(hào)在某個(gè)變換域?yàn)橄∈钑r(shí),可構(gòu)建一個(gè)測(cè)量矩陣Φ獲得較少的測(cè)量值,并通過(guò)測(cè)量值反向恢復(fù)原始信號(hào)。
在圖像壓縮感知研究中,基于優(yōu)化的CS 重構(gòu)方法最早開展了工作。Gan[2]基于塊的CS 重構(gòu)分割圖像后進(jìn)行采樣壓縮,以減少所需內(nèi)存與計(jì)算量。Mun 等[3]將方向變換與塊壓縮結(jié)合以提升圖像重構(gòu)質(zhì)量。Gao 等[4]針對(duì)圖像局部光滑特性,提出降低采樣矩陣復(fù)雜度的局部結(jié)構(gòu)測(cè)量矩陣,提升了壓縮效率。Dong 等[5]提出NLR-CS 對(duì)圖像進(jìn)行非局部塊匹配,并低秩優(yōu)化相似塊集合,利用圖像的結(jié)構(gòu)稀疏性提升圖像恢復(fù)質(zhì)量。Metzlerdamp 等[6]提出基于降噪的近似消息傳遞算法,在迭代中加入噪聲修正項(xiàng)以提升重構(gòu)質(zhì)量。然而,傳統(tǒng)方法需要大量的迭代計(jì)算,圖像重構(gòu)時(shí)間較長(zhǎng)且在低采樣率下重構(gòu)的圖像質(zhì)量較差。
近年來(lái),深度學(xué)習(xí)對(duì)圖像特征的學(xué)習(xí)為目標(biāo)檢測(cè)[7]、圖像分類[8]、圖像超分辨率重構(gòu)[9]、圖像壓縮感知方向等圖像視覺(jué)領(lǐng)域提供了新的方法。ReconNet 證明了使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)恢復(fù)圖像的可能性[10],網(wǎng)絡(luò)共有兩個(gè)卷積模塊,每個(gè)卷積模塊有3個(gè)卷積層,卷積核大小分別為11、7、1。DR2-Net 在Recon-Net 基礎(chǔ)上進(jìn)行改進(jìn),使用殘差網(wǎng)絡(luò)與線性映射層進(jìn)一步提升了圖像重構(gòu)質(zhì)量[11]。Lian 等[12]在DR2-Net 基礎(chǔ)上進(jìn)行改進(jìn),在重構(gòu)網(wǎng)絡(luò)中使用多尺度殘差網(wǎng)絡(luò)與擴(kuò)張卷積,學(xué)習(xí)圖像不同尺度的信息并增大網(wǎng)絡(luò)感受野。CSNet 使用卷積網(wǎng)絡(luò)訓(xùn)練測(cè)量矩陣優(yōu)化采樣過(guò)程[13]。CSNet+設(shè)計(jì)了3 種類型的采樣矩陣進(jìn)一步優(yōu)化采樣過(guò)程[14]。ISTA-Net將基于優(yōu)化迭代算法與神經(jīng)網(wǎng)絡(luò)結(jié)合,提升了網(wǎng)絡(luò)的可解釋性[15]。LDAMP 將神經(jīng)網(wǎng)絡(luò)與近似消息傳遞算法結(jié)合,去噪效果相較于較近似消息傳遞方法具有明顯提升[16]。然而,目前基于深度學(xué)習(xí)的算法對(duì)圖像特征的學(xué)習(xí)能力較弱,并未充分利用網(wǎng)絡(luò)所有層次特征,在較低采樣率下圖像紋理復(fù)雜區(qū)域中的恢復(fù)較差。
注意力機(jī)制與許多圖像視覺(jué)方向均有聯(lián)系,不少研究發(fā)現(xiàn),加入注意力機(jī)制有助于網(wǎng)絡(luò)更好地學(xué)習(xí)圖像特征,提升實(shí)驗(yàn)效果。Anwar 等[17]提出基于注意力機(jī)制的圖像超分辨率重構(gòu)網(wǎng)絡(luò),利用特征注意力與通道間依賴性調(diào)整通道特征,增強(qiáng)了網(wǎng)絡(luò)學(xué)習(xí)能力。Zhang 等[18]將殘差網(wǎng)絡(luò)與密集網(wǎng)絡(luò)結(jié)合,提出殘差密集模塊(Residual dense block,RDB),可充分利用所有層次特征提升圖像重構(gòu)質(zhì)量。Fu 等[19]提出一種新的注意力融合方式,能自適應(yīng)地結(jié)合網(wǎng)絡(luò)局部特征與其全局相關(guān)性。Sagar 等[20]在DANet的基礎(chǔ)上加入Channel Shuffle,在保證網(wǎng)絡(luò)精度的前提下進(jìn)一步提升了計(jì)算速度。此外,圖像視覺(jué)領(lǐng)域內(nèi)的研究可互相學(xué)習(xí),以上工作在網(wǎng)絡(luò)上的創(chuàng)新同樣能幫助其他方面的網(wǎng)絡(luò)進(jìn)行提升。
本文提出一個(gè)新的基于多尺度注意力融合的圖像CS重構(gòu)網(wǎng)絡(luò)。首先使用多尺度殘差模塊捕捉更多尺寸信息;然后設(shè)計(jì)并聯(lián)的RDB 學(xué)習(xí)更密集的特征,增強(qiáng)特征利用率;最后利用雙注意力融合模塊,融合每個(gè)多尺度殘差塊的空間注意力與密集殘差塊的通道注意力,結(jié)合每個(gè)塊的局部特征與全局相關(guān)性、淺層特征和深層特征,為高級(jí)特征補(bǔ)充更多低層特征空間信息,提升網(wǎng)絡(luò)學(xué)習(xí)能力。
本文受DMASNet[20]與多尺度殘差網(wǎng)絡(luò)MSRN[21]的啟發(fā),提出基于基于塊的CS 重構(gòu)網(wǎng)絡(luò)的多尺度注意力融合的圖像壓縮感知重構(gòu)模型,如圖1 所示。重構(gòu)網(wǎng)絡(luò)分為3個(gè)模塊,首先通過(guò)全連接層完成圖像初始化重構(gòu),得到原始圖像塊xi的近似解,然后通過(guò)后續(xù)網(wǎng)絡(luò)層學(xué)習(xí)xi與的殘差di,最后將xi與di相加得到最終的重構(gòu)圖像。
本文基于塊的壓縮并非基于圖像級(jí)別,因此有利于節(jié)省內(nèi)存與計(jì)算量。如圖1 所示,輸入圖像被分割為N個(gè)尺寸為33×33 的圖像塊,圖像塊xi被向量化為108 9×1 的向量。輸入的圖像塊可表示為xi=[x1,x2,…,xn-1,xn]T,對(duì)于一個(gè)信號(hào)x∈Rn×1可取滿足RIP[1]特性的隨機(jī)測(cè)量矩陣Φ∈Rm×n。例如,高斯隨機(jī)矩陣、伯努利隨機(jī)矩陣等。將x投影到m維的低維,圖像塊的測(cè)量值yi=[y1,y2,…,ym-1,ym]T,采樣過(guò)程表示為:
網(wǎng)絡(luò)首先使用一個(gè)完全連接層,從采樣得到的測(cè)量值yi中獲取圖像塊的初始重構(gòu),并將其輸入多尺度殘差模塊,如圖2 所示。為了學(xué)習(xí)不同尺寸的圖像特征,殘差塊擁有3 條不同尺寸卷積核的支路,各支路使用特征級(jí)聯(lián)(Concat),然后將特征輸出到三支路使支路信息相互共享。最后一層使用大小為1 的卷積核將通道數(shù)縮減至輸入時(shí)的通道數(shù),以此串聯(lián)多個(gè)多尺度殘差模塊,具體數(shù)學(xué)表達(dá)式為:
Fig.2 Multi-scale residual block圖2 多尺度殘差模塊
式中:f res表示多尺度殘差模塊的函數(shù);j表示第j個(gè)多尺度殘差模塊。
DenseNet[22]的網(wǎng)絡(luò)學(xué)習(xí)過(guò)程可傳遞上一層信息,加強(qiáng)特征利用率,RDB 在此基礎(chǔ)上能提取局部密集特征。殘差密集模塊解釋為設(shè)計(jì)的一個(gè)并聯(lián)RDB,目的是讓網(wǎng)絡(luò)盡可能學(xué)習(xí)更密集的特征。如圖3 所示,該模塊接收了多尺度殘差模塊的輸出,相較于RDN[18]組合的RDBs,并聯(lián)結(jié)構(gòu)能學(xué)習(xí)多尺度信息并減少網(wǎng)絡(luò)深度。同時(shí),模塊擁有兩個(gè)支路,卷積核尺寸大小分別為3、5,最后對(duì)兩個(gè)支路的密集特征進(jìn)行級(jí)聯(lián)并通過(guò)1×1 卷積以減少通道數(shù)量,數(shù)學(xué)表達(dá)式為:
Fig.3 Residual dense block圖3 殘差模密集模塊
式中:f RDB表示殘差密集模塊函數(shù)。
融合空間注意力與通道注意力可使用串行[23]或并行[24]結(jié)構(gòu),受DMSANet[20]啟發(fā),通過(guò)雙注意力融合每個(gè)模塊的局部特征能充分利用網(wǎng)絡(luò)所有層次特征,具體實(shí)現(xiàn)如圖4 所示。通道注意力模擬了特征映射間的長(zhǎng)期語(yǔ)義依賴,有選擇性地加權(quán)每個(gè)的通道重要性,以捕獲全局特征。空間注意力捕獲多尺度殘差模塊的局部特征,根據(jù)空間注意力圖選擇性地聚合語(yǔ)義。雙注意力融合將為高級(jí)特征補(bǔ)充更多低層特征空間信息,充分利用之前所有模塊的局部特征信息結(jié)合淺層特征和深層特征,豐富類別信息的高級(jí)特征以利于像素定位。
Fig.4 Dual attention fusion block圖4 雙注意力融合模塊
在通道注意力的計(jì)算過(guò)程中,對(duì)于輸入為A∈RC×H×W表示的特征圖,將A重塑為A∈RC×N、N=H×W,然后使用一個(gè)softmax 層獲得通道注意力圖x∈RC×C。
通道注意力特征的計(jì)算公式為:
式中:β為比例參數(shù);E1j∈RC×H×W;C為通道數(shù)。
在空間注意力計(jì)算過(guò)程中,對(duì)于輸入特征圖A∈RC×H×W,在輸入一個(gè)卷積層后得到兩個(gè)特征映射B、C∈RC×H×W,將B、C重塑為RC×N,然后利用softmax 層計(jì)算得到空間注意圖x∈RN×N,計(jì)算公式為:
之后,將特征A輸入一個(gè)卷積層生成新的特征映射D∈RC×H×W,并重塑尺寸為RC×N、N=H×W,D、轉(zhuǎn)置相乘得到融合空間信息后的特征圖,空間注意力特征計(jì)算公式為:
式中:α為比例參數(shù);E2j∈RC×H×W。
最后,將兩個(gè)注意力特征級(jí)聯(lián),使用1×1 卷積減少通道數(shù)量。
圖像采樣后的測(cè)量值yi作為網(wǎng)絡(luò)輸入,首先經(jīng)過(guò)線性映射層得到初始重構(gòu)圖像,通過(guò)后續(xù)網(wǎng)絡(luò)層逐漸提升重構(gòu)質(zhì)量,然后基于網(wǎng)絡(luò)多尺度殘差模塊、殘差密集模塊及雙注意力融合模塊估計(jì)殘差di。
網(wǎng)絡(luò)中多尺度殘差模塊與雙注意力融合模塊的數(shù)量各為3 個(gè),殘差密集塊的數(shù)量為1 個(gè),卷積會(huì)使特征圖數(shù)量增加,但模塊輸出通過(guò)1×1 卷積,始終保持在32 個(gè)通道數(shù)量,有利于提取局部特征和傳遞模塊信息,便于模塊在數(shù)量上的變動(dòng)及與其他框架相結(jié)合。網(wǎng)絡(luò)中除了最后一層,每一層卷積后都有Relu 函數(shù),防止梯度丟失。初始重構(gòu)與殘差相加得到網(wǎng)絡(luò)最終輸出。重構(gòu)過(guò)程可表示為:
綜上,網(wǎng)絡(luò)輸出圖像塊會(huì)被重新拼接成完整的圖像,網(wǎng)絡(luò)損失函數(shù)為均方誤差函數(shù)(Mean Squared Error,MSE),并使用Adam 優(yōu)化網(wǎng)絡(luò)參數(shù)。損失函數(shù)公式為:
式中:N為訓(xùn)練樣本數(shù)量;xi為對(duì)應(yīng)的原始圖像塊;為網(wǎng)絡(luò)輸出圖像塊。
網(wǎng)絡(luò)訓(xùn)練、測(cè)試運(yùn)行GPU 為GeForce GTX 1080 Ti,選取公共數(shù)據(jù)集BSD 500 的測(cè)試集[25]與訓(xùn)練集作為實(shí)驗(yàn)訓(xùn)練數(shù)據(jù)集,共400 張圖像,訓(xùn)練時(shí)圖像會(huì)被轉(zhuǎn)為灰度圖像。雖然,圖像顏色空間會(huì)對(duì)目標(biāo)檢測(cè)與圖像分類產(chǎn)生一定影響,但根據(jù)CS測(cè)量值恢復(fù)圖像的影響較小。
因此,本文選取與比較算法一致的公共數(shù)據(jù)集Set11作為測(cè)試數(shù)據(jù)集,網(wǎng)絡(luò)訓(xùn)練迭代120 輪,將初始學(xué)習(xí)速率設(shè)置為0.000 1,并在第40-80 輪時(shí)下降1/10。在0.01、0.04、0.1、0.25 采樣率(Measurement Ratio,MR)下進(jìn)行,采樣使用高斯隨機(jī)矩陣,圖像被裁剪為33×33 大小的圖像塊,取步長(zhǎng)為11,長(zhǎng)度為1 089 的圖像塊向量在對(duì)應(yīng)MR 下的測(cè)量值長(zhǎng)度分別為10、43、109、272。采用圖像的峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)與結(jié)構(gòu)相似性(Structure Similarity Index Measure,SSIM)作為重構(gòu)圖像質(zhì)量的評(píng)價(jià)指標(biāo),PSNR 與SSIM 值越高表示圖像質(zhì)量越好。
本文將所提方法與NLR-CS[5]、D-AMP[6]、Reconnet[10]、DR2Net[11]及MSRNet[12]方法進(jìn)行比較。其中,前兩者為基于優(yōu)化迭代的算法,后3種為基于深度學(xué)習(xí)的算法。PSNR 為基于對(duì)應(yīng)像素點(diǎn)誤差的評(píng)價(jià)指標(biāo),是衡量有損壓縮后圖像重建質(zhì)量的重要指標(biāo)之一。由表1 可知,在不同算法下測(cè)試Set11 數(shù)據(jù)集中11 幅圖像的PSNR,第5 組數(shù)據(jù)為11 幅圖像在不同MR 下的平均PSNR,前4 組數(shù)據(jù)為4 幅圖像的具體數(shù)據(jù)。相較于其他算法,本文算法在不同采樣率下PSNR 值均較高,表明重構(gòu)圖像質(zhì)量?jī)?yōu)于其他算法。
Table 1 PSNR values for different algorithms表1 不同算法的PSNR值
從人眼視覺(jué)標(biāo)準(zhǔn)而言,SSIM 評(píng)價(jià)指標(biāo)同樣重要。由表2 可知,本文算法在不同采樣率下,SSIM 值均優(yōu)于其他算法,證明了所提網(wǎng)絡(luò)學(xué)習(xí)到了更多圖像細(xì)節(jié)信息,重構(gòu)圖像擁有更好的視覺(jué)效果。由此可見(jiàn),基于深度學(xué)習(xí)算法優(yōu)于基于優(yōu)化迭代的算法,擁有更好的前景,對(duì)圖像特征學(xué)習(xí)能力更強(qiáng)的網(wǎng)絡(luò)的圖像重構(gòu)質(zhì)量越好。
Table 2 SSIM values for different algorithms表2 不同算法的SSIM值
由表3可知,基于優(yōu)化迭代的CS重構(gòu)算法計(jì)算量較大,相較于基于深度學(xué)習(xí)的算法更耗費(fèi)時(shí)間,基于深度學(xué)習(xí)算法的時(shí)間復(fù)雜度與重構(gòu)網(wǎng)絡(luò)大小相關(guān),當(dāng)網(wǎng)絡(luò)為增強(qiáng)特征學(xué)習(xí)能力而加深時(shí),計(jì)算量將隨之增加。在相同實(shí)驗(yàn)環(huán)境下,本文算法相較于通過(guò)犧牲重構(gòu)時(shí)間提升重構(gòu)質(zhì)量的MSRNet,運(yùn)行速度更快,耗時(shí)遠(yuǎn)低于傳統(tǒng)優(yōu)化迭代算法。
Table 3 Running time of reconstructing a single image(256×256)表3 重構(gòu)一張圖像(256×256)的運(yùn)行時(shí)間(s)
圖5 展示了測(cè)試數(shù)據(jù)集中4 幅圖像在不同采樣率下的重構(gòu)結(jié)果,測(cè)試圖片均為灰度圖像。由此可見(jiàn),本文算法在0.01 的采樣率下仍具有一定可見(jiàn)度,證明所提網(wǎng)絡(luò)在低采樣率下重構(gòu)性能良好,圖像質(zhì)量將隨著采樣率增加得到進(jìn)一步提升。
Fig.5 Reconstruction results of 4 images under different MR圖5 不同MR下的4張圖像的重構(gòu)結(jié)果
本文提出一種新的基于多尺度注意力融合的圖像CS重構(gòu)網(wǎng)絡(luò),從圖像初始重構(gòu)過(guò)程中學(xué)習(xí)殘差,以提升圖像重構(gòu)質(zhì)量。為了充分利用網(wǎng)絡(luò)所有層次特征,網(wǎng)絡(luò)引入雙注意力結(jié)構(gòu)融合殘差密集特征與多尺度殘差特征,利用先前所有模塊的局部特征信息結(jié)合淺層與深層特征,為高級(jí)特征補(bǔ)充更多低層特征空間信息。
實(shí)驗(yàn)表明,本文算法在性能上相較于傳統(tǒng)方法更優(yōu)。下一步,將在網(wǎng)絡(luò)去噪、塊效應(yīng)與速度方面進(jìn)行優(yōu)化,并嘗試在經(jīng)典壓縮感知算法基礎(chǔ)上增加網(wǎng)絡(luò)的可解釋性。