孫冰峰
(北京大學(xué)深圳研究生院 廣東省深圳市 518055)
奈奎斯特-香農(nóng)采樣理論指出,為了無失真的恢復(fù)原始信號,必須使用不低于兩倍信號帶寬的采樣率。但是,在很多圖像處理應(yīng)用中,由于圖片的帶寬較大,對應(yīng)的奈奎斯特采樣率根本無法滿足,這就給研究者提出了很大的挑戰(zhàn)。壓縮感知理論指出[1,2,3],如果輸入信號在某個(gè)轉(zhuǎn)換域具有稀疏特性,我們可以設(shè)計(jì)特殊的采樣矩陣以實(shí)現(xiàn)遠(yuǎn)低于奈奎斯特-香農(nóng)采樣定律要求的采樣率,進(jìn)而可以提高采樣效率,降低信號存儲、傳輸?shù)膸挕R舱驗(yàn)榇?,壓縮感知算法在很多不同的領(lǐng)域都有較成熟的應(yīng)用。
壓縮感知理論研究如何以盡可能低的采樣率對信號進(jìn)行采樣并重建。在早期階段多的是基于優(yōu)化的方法,近些年處理器性能的不斷迭代更新,尤其是顯示處理單元(GPU)的飛速發(fā)展,神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)的研究逐漸成為熱門,隨之而來也出現(xiàn)了很多的基于神經(jīng)網(wǎng)絡(luò)的壓縮感知方法。比較經(jīng)典的有Kulkarni 等人提出的基于卷積網(wǎng)絡(luò)的壓縮感知算法ReconNet[4]。其在壓縮采樣階段,按固定塊大小將圖片分成獨(dú)立的多個(gè)子圖塊,然后使用隨機(jī)高斯采樣矩陣進(jìn)行逐塊采樣,以獲得每一塊對應(yīng)的向量表示。在恢復(fù)階段,首先經(jīng)過一個(gè)全連接層得到該圖像塊的初始重建,然后再經(jīng)過由多個(gè)卷積層和非線性激活層堆疊構(gòu)造的卷積網(wǎng)絡(luò)得到對應(yīng)質(zhì)量被增強(qiáng)的圖像塊,所有的子圖塊按順序組合成原始圖像尺寸大小的圖片。在整個(gè)模型的最后,其使用了一個(gè)去噪器(BM3D)對圖片做了一個(gè)全尺寸的平滑,以去除塊效應(yīng)。
到現(xiàn)如今,許多融合的方法,也不斷被提出。其將傳統(tǒng)優(yōu)化方法以及深度學(xué)習(xí)方法做了完美的結(jié)合,兼有優(yōu)化方法的可解釋性,以及深度學(xué)習(xí)方法的強(qiáng)大表征能力,在很多數(shù)據(jù)集上取得了很不錯(cuò)的驗(yàn)證效果。比較有代表性的算法是Zhang 等人提出的ISTANet+[5],以及后來的基于自學(xué)習(xí)采樣矩陣的方法OPINE-Net+[6]。ISTA-Net+和OPINE-Net+均是基于迭代收縮閾值算法(ISTA)來設(shè)計(jì)神經(jīng)網(wǎng)絡(luò),并且不同于傳統(tǒng)方法使用固定稀疏表示基,其提出使用由兩個(gè)卷積層和一個(gè)非線性激活層組合的子網(wǎng)絡(luò)來學(xué)習(xí)稀疏變換表示基。其中,OPINE-Net+在ISTA-Net+的基礎(chǔ)上又引入了網(wǎng)絡(luò)自學(xué)習(xí)的采樣矩陣,并且加入了像素重組(PixelShuffle)的操作以去除塊效應(yīng),故相比ISTA-Net+在恢復(fù)精度上取得了很大的提升。由于清晰的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì),以及優(yōu)異的恢復(fù)效果,它對后來的研究者起到了一個(gè)很好的啟發(fā)作用。
Dinh 等人最早在NICE 框架中提出了一個(gè)通用耦合層(Generalcouplinglayer),其為后來的可逆網(wǎng)絡(luò)的發(fā)展起到了奠基石的作用。后來隨著RealNVP、GLOW 等框架的提出,可逆網(wǎng)絡(luò)逐漸發(fā)展壯大,并在多個(gè)領(lǐng)域生根發(fā)芽??赡婢W(wǎng)絡(luò)的正過程和逆過程均是信息無損的,故在前向傳播過程中,其無需保存輸入激活變量以及中間梯度信息,而在反向傳播過程中可以使用輸出量通過逆過程重新計(jì)算獲得。正因?yàn)榇?,將可逆網(wǎng)絡(luò)引入到壓縮感知網(wǎng)絡(luò)中,可以設(shè)計(jì)出層數(shù)更多以及具有更多特征圖傳遞的深度網(wǎng)絡(luò)模型,從而提升恢復(fù)精度。本文也正是受了該類方法的啟發(fā),嘗試將該可逆網(wǎng)絡(luò)與OPINE-Net+網(wǎng)絡(luò)做一個(gè)結(jié)合,提出了一個(gè)新的壓縮感知網(wǎng)絡(luò)InvICS,并在多個(gè)數(shù)據(jù)集上做了驗(yàn)證。
本文的整體流程與OPINE-Net+基本一致,如圖1所示。其中一個(gè)不同于OPINE-Net+的是,本方法在初始重建階段,通過引入初始全0 的信號,將擴(kuò)展至具有z 個(gè)通道數(shù)(本實(shí)驗(yàn)中,z=32)的多通道信號輸入到后續(xù)的深度可逆恢復(fù)網(wǎng)絡(luò)中。通過這種多通道融合的方式,可以提升恢復(fù)精度。
圖1:InvICS 的框圖
其由三個(gè)子網(wǎng)絡(luò)組成,分別是:采樣子網(wǎng)絡(luò)、初始重建網(wǎng)絡(luò)、深度可逆恢復(fù)網(wǎng)絡(luò)。其中深度可逆恢復(fù)網(wǎng)絡(luò)由K 個(gè)Phase 組成,且均接收多通道信號,輸出同樣尺寸的處理信號。輸出階段提取第1個(gè)通道信號作為最終的恢復(fù)信號。
本方法與OPINE-Net+最大的不同在于引入了可逆網(wǎng)絡(luò),設(shè)計(jì)了一個(gè)全新的深度可逆恢復(fù)子網(wǎng)絡(luò),這也是本文的主要?jiǎng)?chuàng)新點(diǎn)。深度可逆恢復(fù)子網(wǎng)絡(luò)由多個(gè)Phase 級聯(lián)而成,每一個(gè)Phase 接收多通道的輸入信號,并將其沿著通道維度分成尺寸完全一致的兩部分進(jìn)行處理,其結(jié)構(gòu)如圖2所示。
圖2 第k 個(gè)Phase 的示意圖,其由兩部分組成,分別是梯度下降模塊(GDM)以及組合耦合層模塊(AACM)。其中的Fk(·)為一個(gè)DenseBlock 模塊,Gk(·)以及Hk(·)模塊均為ResidualBlock。
由圖2 可知,每一個(gè)Phase 由兩部分模塊組成,分別是梯度下降模塊(Gradient DescentModule,GDM)和組合耦合層模塊(Additive&AffineCouplingModule,AACM)。GDM 模塊功能只針對輸入信號uk-1的第一個(gè)通道進(jìn)行處理,其他通道保持不變。其主要功能是在當(dāng)前最優(yōu)估計(jì)處,沿著梯度下降方向按設(shè)定的步進(jìn)更新估計(jì)值。然后,AACM 模塊通過多通道融合的方式對這個(gè)局部最優(yōu)做進(jìn)一步的優(yōu)化。AACM 模塊由一個(gè)加法耦合層和仿射耦合層組成,依次對的前半部分和后半部分通道做處理,然后重新合并后輸出到下一個(gè)Phase。
在訓(xùn)練模型的過程中,由于可逆網(wǎng)絡(luò)的特性,可以選擇不保存網(wǎng)絡(luò)的輸入以及網(wǎng)絡(luò)中的梯度信息,從而達(dá)到節(jié)省GPU 內(nèi)存消耗的目的。
表1 為不同數(shù)據(jù)集上的恢復(fù)精度(PSNR/SSIM)對比??梢园l(fā)現(xiàn)InvICS 均取得了顯著的提升。
表1
相比OPINE-Net+,InvICS 可以設(shè)計(jì)使用更多的Phase,本實(shí)驗(yàn)中選取K=30。本文從Train400 數(shù)據(jù)集上選取指定大小的小圖塊(比如:33×33)組成訓(xùn)練數(shù)據(jù)集,訓(xùn)練壓縮率CR=25%的模型,然后分別在Set11、Set68 以及Urban100 數(shù)據(jù)上做了對比驗(yàn)證。所采用的評估方法有結(jié)構(gòu)相似性(Structural Similarity Index,SSIM)和峰值信噪比(Peak Signal to Noise Ratio,PSNR),結(jié)果如表1所示。為了對照實(shí)驗(yàn)的公正性,本文選取了其他兩種壓縮感知方法,分別是:AdapReconNet[7]以及OPINE-Net+,它們均是使用了自學(xué)習(xí)的采樣矩陣。從實(shí)驗(yàn)結(jié)果可知,本文提出的InvICS 的恢復(fù)精度在Set11 和Set68 上取得了約0.5dB 的提升,在Urban100 數(shù)據(jù)集上表現(xiàn)更佳,約有1.0 dB 的提升。
關(guān)于內(nèi)存使用方面,OPINE-Net+在訓(xùn)練階段消耗約3.1GGPU內(nèi)存;而InvICS 使用了30 個(gè)Phase,約300 層卷積網(wǎng)絡(luò),但是GPU 內(nèi)存消耗只有約1.7 G,減少了約45%。
本文受到OPINE-Net+網(wǎng)絡(luò)的啟發(fā),通過引入可逆網(wǎng)絡(luò),提出了一個(gè)新的可逆壓縮感知網(wǎng)絡(luò)InvICS。由于可逆網(wǎng)絡(luò)的特性,前向操作不需要存儲輸入激活量以及中間梯度信息,故可以降低訓(xùn)練過程中的GPU 內(nèi)存消耗。因此,可以設(shè)計(jì)具有更多卷積層的深度網(wǎng)絡(luò)。通過在多個(gè)數(shù)據(jù)集上驗(yàn)證,該方法的確能極大的減少GPU 內(nèi)存消耗,而且在K=30 時(shí)取得了>0.5 dB 的性能提升。由于不存在內(nèi)存瓶頸,故本方法可以拓展至更多的Phase,這也是本文未來的實(shí)驗(yàn)和研究方向。