神經(jīng)網(wǎng)絡(luò)在退化圖像復(fù)原領(lǐng)域的進(jìn)展綜述

2019-05-14 07:59:50劉龍飛賴舜男

圖學(xué)學(xué)報(bào) 2019年2期

劉龍飛，李勝，賴舜男

劉龍飛，李勝，賴舜男

(北京大學(xué)信息科學(xué)技術(shù)學(xué)院，北京 100871)

退化圖像復(fù)原是圖像計(jì)算領(lǐng)域中的一個(gè)重要的難題。近年來(lái)以深度學(xué)習(xí)為代表的人工智能(AI)技術(shù)取得了快速的發(fā)展，越來(lái)越多的基于神經(jīng)網(wǎng)絡(luò)解決退化圖像復(fù)原的研究工作出現(xiàn)。首先介紹了神經(jīng)網(wǎng)絡(luò)進(jìn)行退化圖像還原的主要技術(shù)并對(duì)圖像復(fù)原的問(wèn)題進(jìn)行分類；然后利用神經(jīng)網(wǎng)絡(luò)解決退化圖像復(fù)原問(wèn)題中細(xì)分的多個(gè)主要問(wèn)題，并對(duì)每個(gè)問(wèn)題的當(dāng)前研究現(xiàn)狀與多種基于深度學(xué)習(xí)網(wǎng)絡(luò)的解決方法的優(yōu)勢(shì)與局限性進(jìn)行歸納分析，并給出與傳統(tǒng)方法的對(duì)比。最后介紹了基于對(duì)抗神經(jīng)網(wǎng)絡(luò)的極限退化圖像復(fù)原的新方法，并對(duì)未來(lái)前景進(jìn)行展望。

退化圖像復(fù)原；神經(jīng)網(wǎng)絡(luò)；對(duì)抗網(wǎng)絡(luò)；人工智能

近年來(lái)，以神經(jīng)網(wǎng)絡(luò)(neural networks)[1]為代表的深度學(xué)習(xí)方法為包括退化圖像復(fù)原在內(nèi)的計(jì)算機(jī)圖像與視覺(jué)各個(gè)領(lǐng)域帶來(lái)了快速的發(fā)展。其可以通過(guò)網(wǎng)絡(luò)訓(xùn)練的方式找到退化圖像與原圖像之間的映射關(guān)系，從而進(jìn)行退化圖像的復(fù)原。由于良好的復(fù)原效果和對(duì)不同場(chǎng)景靈活的適應(yīng)能力已經(jīng)吸引了越來(lái)越多的學(xué)者從事相關(guān)的研究。在多個(gè)退化圖像復(fù)原的相關(guān)細(xì)分問(wèn)題中，基于神經(jīng)網(wǎng)絡(luò)方法的復(fù)原效果超越了傳統(tǒng)方法。神經(jīng)網(wǎng)絡(luò)的快速發(fā)展為退化圖像復(fù)原的發(fā)展做出了巨大的貢獻(xiàn)。

1 退化圖像復(fù)原問(wèn)題

圖像在形成、記錄、處理和傳輸過(guò)程中，由于成像系統(tǒng)、記錄設(shè)備、傳輸介質(zhì)和處理方法的不完善，導(dǎo)致圖像質(zhì)量的下降，造成了圖像退化。退化圖像分很多種，本文重點(diǎn)介紹神經(jīng)網(wǎng)絡(luò)對(duì)6種退化圖像的復(fù)原問(wèn)題[2-6]，圖1為不同退化圖像的復(fù)原效果圖[7-10]。

退化圖像復(fù)原圖像 (a) 圖像局部缺失修復(fù)(b) 插值圖像復(fù)原(c) 高斯噪聲圖像復(fù)原(d) 運(yùn)動(dòng)模糊圖像復(fù)原(e) 黑白圖像著色(f) 低分辨率圖像復(fù)原

圖2 圖像退化/復(fù)原過(guò)程的模型[12]

2 基于神經(jīng)網(wǎng)絡(luò)的退化圖像復(fù)原技術(shù)

HINTON等[13]于2006年提出深度學(xué)習(xí)的概念。2011年卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork，CNN)被應(yīng)用在圖像識(shí)別領(lǐng)域，取得的成績(jī)令人矚目。2015年LECUN等[14]在Nature上刊發(fā)了一篇深度學(xué)習(xí)(deep learning)的綜述，標(biāo)志著深度神經(jīng)網(wǎng)絡(luò)不僅在工業(yè)界獲得了成功，也被學(xué)術(shù)界所接受。而在圖像領(lǐng)域，最出名的無(wú)疑是CNN。通常CNN在卷積層之后會(huì)接上若干個(gè)全連接層，將卷積層產(chǎn)生的特征圖(feature map)映射成一個(gè)固定長(zhǎng)度的特征向量。以AlexNet[1]為代表的經(jīng)典CNN結(jié)構(gòu)適用于圖像的分類和回歸任務(wù)，并期望得到整個(gè)輸入圖像的一個(gè)數(shù)值描述(概率)，當(dāng)AlexNet網(wǎng)絡(luò)訓(xùn)練ImageNet數(shù)據(jù)集時(shí)輸出一個(gè)1 000維的向量，其向量表示輸入圖像屬于每一類的概率(經(jīng)softmax歸一化)。在此基礎(chǔ)之上，提出了全卷積網(wǎng)絡(luò)(full convolution network，F(xiàn)CN)[15]，自編碼器(autoencoder)[16-17]和生成對(duì)抗網(wǎng)絡(luò)(generative adversarial nets，GANs)[18]，其是神經(jīng)網(wǎng)絡(luò)能夠進(jìn)行退化圖像復(fù)原的基礎(chǔ)。FCN實(shí)現(xiàn)了通過(guò)神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像生成的愿望。自編碼器最早是用來(lái)進(jìn)行數(shù)據(jù)降維，但之后人們發(fā)現(xiàn)使用自編碼結(jié)構(gòu)的FCN能夠?qū)D像的生成的穩(wěn)定性起到很大的幫助。2014年GOODFELLOW等[18]提出GANs，進(jìn)一步提高了圖像的生成質(zhì)量。其也是使用神經(jīng)網(wǎng)絡(luò)進(jìn)行退化圖像復(fù)原的主要技術(shù)。

2.1 全卷積網(wǎng)絡(luò)

FCN[15]對(duì)圖像進(jìn)行像素級(jí)別的分類，從而解決了語(yǔ)義級(jí)別的圖像分割(semantic segmentation)問(wèn)題。與經(jīng)典的CNN在卷積層之后使用全連接層得到固定長(zhǎng)度的特征向量進(jìn)行分類(全連接層加softmax輸出)不同，F(xiàn)CN可以接受任意尺寸的輸入圖像。首先，將輸入圖像逐層卷積；然后，對(duì)最后一個(gè)卷積層的特征采用反卷積層進(jìn)行上采樣，使其恢復(fù)到輸入圖像相同的尺寸；最后，使用損失函數(shù)計(jì)算生成圖像的loss值進(jìn)行反向傳播，結(jié)構(gòu)如圖3所示。需對(duì)每個(gè)像素均產(chǎn)生了一個(gè)預(yù)測(cè)，同時(shí)保留原始輸入圖像中的空間信息；在上采樣的特征圖上進(jìn)行逐像素分類并計(jì)算其softmax分類的損失，相當(dāng)于每一個(gè)像素對(duì)應(yīng)一個(gè)訓(xùn)練樣本。該網(wǎng)絡(luò)如UNet[19-20]能實(shí)現(xiàn)從一張圖片生成另一張圖片的功能，即FCN技術(shù)是使用神經(jīng)網(wǎng)絡(luò)進(jìn)行以圖生成圖的基礎(chǔ)技術(shù)。

圖3 全卷積網(wǎng)絡(luò)模型[6]

2.2 自編碼器

自編碼器，也稱自動(dòng)編碼器[16-17](auto-encoder，AE)，其是一種人工神經(jīng)網(wǎng)絡(luò)。在無(wú)監(jiān)督學(xué)習(xí)中用于有效編碼。自編碼器的目的是通過(guò)對(duì)一組數(shù)據(jù)學(xué)習(xí)得出一種表示(也稱表征，編碼)，通常用于降維。

自編碼的概念廣泛地用于數(shù)據(jù)的生成模型。如Auto-Encoding Variational Bayes[21]和Generating Faces with Torch[22]，其基本原理是輸入和輸出使用不同的圖像。這樣自編碼器可以根據(jù)輸入圖像生成新的圖像。在退化圖像復(fù)原領(lǐng)域，很多網(wǎng)絡(luò)如Context Encoders[23]，UNet[19]借鑒了自編碼器的設(shè)計(jì)思想并取得了不錯(cuò)的效果。

圖4 自編碼器網(wǎng)絡(luò)模型結(jié)構(gòu)

2.3 生成對(duì)抗網(wǎng)絡(luò)

GANs與2014年由GOODFELLOW等[18]在深度卷積網(wǎng)絡(luò)的基礎(chǔ)上提出，且在深度學(xué)習(xí)領(lǐng)域產(chǎn)生了巨大的轟動(dòng)。

GANs與普通的CNN相比一個(gè)突出的優(yōu)點(diǎn)是在判別網(wǎng)絡(luò)與生成網(wǎng)絡(luò)的博弈下，使生成的圖像更加逼真。GANs的核心思想是從訓(xùn)練樣本中學(xué)習(xí)所對(duì)應(yīng)的概率分布，以期根據(jù)概率分布函數(shù)獲取更多的“生成”樣本實(shí)現(xiàn)數(shù)據(jù)的擴(kuò)張[24]。GANs由生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)組成，且網(wǎng)絡(luò)相互交替學(xué)習(xí)?！皩?duì)抗”是該網(wǎng)絡(luò)的核心，結(jié)合了博弈論的零和博弈思想。訓(xùn)練判別網(wǎng)絡(luò)讓其更好地區(qū)分真實(shí)樣本與生成網(wǎng)絡(luò)生成圖像的差別，而訓(xùn)練生成網(wǎng)絡(luò)，是讓生成網(wǎng)絡(luò)更好地生成圖像來(lái)“欺騙”判別網(wǎng)絡(luò)。2個(gè)網(wǎng)絡(luò)通過(guò)不斷的相互博弈，最終達(dá)到讓GANs能夠生成更加逼真圖像的目的。

有時(shí)除使用隨機(jī)噪聲圖像生成類似真實(shí)圖像分布的逼真圖像外，還需通過(guò)得到原圖像與退化圖像之間的映射關(guān)系來(lái)生成某些退化圖像的原圖像，也就是常說(shuō)的以圖生圖。此時(shí)僅給GANs提供大量完整圖像的訓(xùn)練集進(jìn)行訓(xùn)練顯然是不夠的，還需要將缺損的圖像和對(duì)應(yīng)的完整圖像一起提供給網(wǎng)絡(luò)，讓網(wǎng)絡(luò)學(xué)習(xí)到其間的一一對(duì)應(yīng)關(guān)系。條件生成對(duì)抗網(wǎng)絡(luò)(conditional generative adversarial nets，cGANs)[25]的出現(xiàn)解決了上述問(wèn)題。

cGANs是在GANs提出不久后由MIRZA和OSINDERO[25]在GANs的基礎(chǔ)上進(jìn)行了改進(jìn)、設(shè)計(jì)并提出。條件生成對(duì)抗網(wǎng)絡(luò)(如圖5所示為條件生成對(duì)抗網(wǎng)絡(luò)的目標(biāo)函數(shù))的生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)都基于下述條件信息，即

其中，為生成網(wǎng)絡(luò)；為判別網(wǎng)絡(luò)；為損失函數(shù)的縮放系數(shù)。PATHAK等[23]證明，在cGANs的損失函數(shù)中加入傳統(tǒng)1或2范數(shù)，會(huì)進(jìn)一步提升網(wǎng)絡(luò)有效性。

在條件生成對(duì)抗網(wǎng)絡(luò)提出不久后，人們便意識(shí)到其將會(huì)給退化圖像復(fù)原領(lǐng)域帶來(lái)巨大的影響，對(duì)圖像合成和編輯也有廣泛的用途[26]。ISOLA等[9]利用條件生成對(duì)抗網(wǎng)絡(luò)技術(shù)開發(fā)了pix2pix①項(xiàng)目，用于實(shí)現(xiàn)一類圖像到另一類圖像的生成任務(wù)，為圖像領(lǐng)域的應(yīng)用帶來(lái)了新的啟發(fā)(如圖5所示)，輸入圖像經(jīng)過(guò)生成網(wǎng)絡(luò)得到新生成的圖像()，然后分別將()與結(jié)合作為負(fù)樣本，將真實(shí)圖像與結(jié)合作為正樣本訓(xùn)練判別網(wǎng)絡(luò)，讓其學(xué)習(xí)鑒別該圖像是否為真實(shí)圖像。只有網(wǎng)絡(luò)學(xué)習(xí)找到缺損圖像與完整圖像之間的對(duì)應(yīng)關(guān)系后，生成網(wǎng)絡(luò)生成的對(duì)應(yīng)完整圖像，才能使與()融合在一起的圖像被判別網(wǎng)絡(luò)認(rèn)可。該方法為退化圖像復(fù)原的很多領(lǐng)域打下了基礎(chǔ)。

圖5 條件生成對(duì)抗網(wǎng)絡(luò)pix2pix的網(wǎng)絡(luò)模型結(jié)構(gòu)[9]

2.4 自監(jiān)督學(xué)習(xí)

自監(jiān)督學(xué)習(xí)(self-supervised learning)是一種自主監(jiān)督學(xué)習(xí)的方法，能夠消除人們對(duì)標(biāo)注數(shù)據(jù)的依賴。自監(jiān)督學(xué)習(xí)方法非常自然的使用了訓(xùn)練數(shù)據(jù)以及上下文之間的關(guān)系或是嵌入元素作為監(jiān)督信號(hào)進(jìn)行網(wǎng)絡(luò)訓(xùn)練。其可以是輸入數(shù)據(jù)即為訓(xùn)練目標(biāo)的類Auto-Encoder[16-17]網(wǎng)絡(luò)結(jié)構(gòu)，也可以是訓(xùn)練目標(biāo)即為輸入的數(shù)據(jù)的類循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，甚至可以是輸入與輸出數(shù)據(jù)通過(guò)某種固定策略相互轉(zhuǎn)換，然后網(wǎng)絡(luò)目標(biāo)是學(xué)習(xí)這種轉(zhuǎn)換規(guī)則的逆運(yùn)算的網(wǎng)絡(luò)結(jié)構(gòu)等。自監(jiān)督學(xué)習(xí)也是目前解決非監(jiān)督學(xué)習(xí)難題的有效手段之一。很多神經(jīng)網(wǎng)絡(luò)處理退化圖像還原問(wèn)題，如文獻(xiàn)[8, 20]等借鑒了自監(jiān)督學(xué)習(xí)的思路。神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)目標(biāo)往往是清晰的圖像，而輸入圖像往往是退化圖像。通常情況采用傳統(tǒng)的策略或手段將清晰圖像轉(zhuǎn)變?yōu)橥嘶瘓D像，而網(wǎng)絡(luò)的學(xué)習(xí)目標(biāo)就是逆向該處理過(guò)程，學(xué)習(xí)如何將退化圖像轉(zhuǎn)換為清晰圖像。

3 退化圖像問(wèn)題分類及解決方法

3.1 圖像局部缺失修復(fù)

圖像局部缺失修復(fù)問(wèn)題[23,27](image inpainting)，是指一張圖像中一整片區(qū)域或幾片區(qū)域缺失，而缺失的區(qū)域可以是固定的色彩，也可能是隨機(jī)的色彩，缺失區(qū)域的形狀也可能是固定形狀或隨機(jī)形狀。這些有局部缺失的圖像作為神經(jīng)網(wǎng)絡(luò)的輸入，而原圖像作為網(wǎng)絡(luò)的目標(biāo)圖像，從而進(jìn)行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。需說(shuō)明的是，此類問(wèn)題因?yàn)槿笔У膮^(qū)域通常很大，所以往往不能通過(guò)傳統(tǒng)方法[2,28-30]解決。在計(jì)算機(jī)圖形學(xué)領(lǐng)域，填充缺失區(qū)域一般使用基于場(chǎng)景計(jì)算的方法[31]，但該方法通常用于修復(fù)圖像中某個(gè)物體缺失的一部分。而使用神經(jīng)網(wǎng)絡(luò)技術(shù)可以根據(jù)整個(gè)圖像缺失的內(nèi)容進(jìn)行復(fù)原。評(píng)價(jià)處理此類問(wèn)題的難點(diǎn)為：①缺失區(qū)域的大小及所占原圖的比例；②缺失區(qū)域的個(gè)數(shù)；③缺失的區(qū)域形狀是否固定；④缺失的區(qū)域呈現(xiàn)固定已知的單一顏色還是未知的多種色彩。

表1為近年主要處理圖像修補(bǔ)問(wèn)題文獻(xiàn)成果[20,23]，文獻(xiàn)[23]方法通過(guò)在原有2 loss函數(shù)的基礎(chǔ)上增加Adversarial loss，可以有效地提高圖像的修補(bǔ)效果。文獻(xiàn)[20]提出了多尺度訓(xùn)練的思路，能夠?qū)⒏蟪叽绲膱D像進(jìn)行復(fù)原并能提高復(fù)原的效果。由于該問(wèn)題的解決是在原圖中遮蓋或替換較大部分的區(qū)域，所以生成的圖像不一定需要與原圖像內(nèi)容一致。因此判斷圖像復(fù)原的好壞就不能單一通過(guò)客觀評(píng)價(jià)指標(biāo)(如PSNR值)來(lái)衡量，更多的是需要主觀評(píng)價(jià)來(lái)衡量。

表1 主流圖像修補(bǔ)網(wǎng)絡(luò)對(duì)退化圖像處理結(jié)果

Context Encoder[23]是最早提出通過(guò)合理的參數(shù)化算法解決圖像缺失問(wèn)題的算法(圖6)。其將缺失圖像作為網(wǎng)絡(luò)的輸入圖像，經(jīng)過(guò)特征編碼和特征解碼的過(guò)程，生成缺失部分圖像。利用生成圖像和真實(shí)缺失圖像計(jì)算損失函數(shù)，進(jìn)行網(wǎng)絡(luò)的反向傳播訓(xùn)練。

圖6 Context Encoder的網(wǎng)絡(luò)結(jié)構(gòu)

綜上，神經(jīng)網(wǎng)絡(luò)已經(jīng)成為解決圖像局部缺失問(wèn)題的最重要手段，而且已經(jīng)取得了令人興奮的效果。尤其是GANs的出現(xiàn)，使復(fù)原效果得到了質(zhì)的飛躍。從某些角度講，圖像局部缺失問(wèn)題已經(jīng)成為了GANs的“代名詞”。然而，還需面對(duì)當(dāng)圖像缺失面積過(guò)大，區(qū)域過(guò)多或是缺失后又有一定其他圖片混淆，且神經(jīng)網(wǎng)絡(luò)依舊無(wú)法復(fù)原出令人滿意的效果的情況。

3.2 像素插值與圖像去噪

像素插值復(fù)原問(wèn)題[7,32](pixel interpolation)，是指原始圖像被其他顏色以像素為單位有規(guī)律或無(wú)規(guī)律的插入。神經(jīng)網(wǎng)絡(luò)處理像素差值復(fù)原的過(guò)程為：先將原圖像的隨機(jī)像素位置替換為固定或隨機(jī)顏色，然后將生成的圖像作為神經(jīng)網(wǎng)絡(luò)的輸入圖像，原圖像為神經(jīng)網(wǎng)絡(luò)的目標(biāo)圖像。該問(wèn)題的關(guān)鍵是被插入像素占原圖像的比例(通常比例較大)大小，被插入像素的位置是否遵循一定的規(guī)律，以及被插入像素的顏色是固定的單一顏色還是未知的多種顏色等。此類問(wèn)題在CT圖片復(fù)原等方面有著重要的實(shí)用意義，但針對(duì)該問(wèn)題的研究并不很多，只是作為圖像重建方法的附帶功能，更多的研究集中在圖像的去噪問(wèn)題上。

圖像去噪[33-43](image denoising)是指減少圖像中噪聲像素的過(guò)程，也可以被看作是圖像插值復(fù)原問(wèn)題的一種特例，由于在現(xiàn)實(shí)中十分常見(jiàn)，而被單獨(dú)提出來(lái)，作為一類研究。噪聲概率密度函數(shù)(probability density function，PDF)包括：高斯噪聲、瑞利噪聲、伽馬噪聲、指數(shù)噪聲、均勻噪聲和椒鹽噪聲等。通常處理比較多的是加性高斯白噪聲(additive white Gaussian noise，AWGN)和椒鹽(脈沖)噪聲(salt and pepper noise)，AWGN是將符合零均值分布的高斯噪聲添加到原圖像上，噪聲級(jí)別根據(jù)高斯分布的方差決定，的取值通常在75以內(nèi)。而椒鹽噪聲，又稱為雙極脈沖噪聲或散粒噪聲、尖峰噪聲；噪聲脈沖可以為正也可以為負(fù)。與圖像信號(hào)的強(qiáng)度相比，脈沖污染通常較大，所以在一幅圖像中脈沖噪聲通常被數(shù)字化為最大值(純黑或純白)。由于這一結(jié)果，負(fù)脈沖以一個(gè)黑點(diǎn)(胡椒點(diǎn))出現(xiàn)，而正脈沖則以白點(diǎn)(鹽粒點(diǎn))出現(xiàn)在圖像中。噪聲級(jí)別是根據(jù)插入椒鹽噪聲的像素占圖像整體的百分比決定的，通常情況下噪聲所占比例不會(huì)超過(guò)75%。

表2對(duì)比了幾個(gè)比較流行的使用神經(jīng)網(wǎng)絡(luò)在不同數(shù)據(jù)集上進(jìn)行去噪PSNR值。由表2可以看出，在神經(jīng)網(wǎng)絡(luò)提出之前就有很多學(xué)者從事圖像去噪的相關(guān)工作。而近些年使用神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像去噪的工作，不斷地取得突破。JAIN和SEUNG[43]建議使用CNN進(jìn)行圖像去噪，并證明CNN可以達(dá)到甚至超越MRF模型且具有更好的復(fù)原能力。此外，文獻(xiàn)[39]成功將多層感知機(jī)應(yīng)用于圖像降噪中；文獻(xiàn)[42]還將稀疏自編碼器引到圖像去噪問(wèn)題中，并取得了與K-SVD相近的效果。文獻(xiàn)[40]使用基于非線性反應(yīng)擴(kuò)散(TNRD)模型，用前饋神經(jīng)網(wǎng)絡(luò)對(duì)使用稀疏編碼的傳統(tǒng)迭代方法進(jìn)行擴(kuò)展，然后通過(guò)使用固定步數(shù)的梯度下降來(lái)加速模型推理的性能。然而，TNRD模型也存在局限性，其采用的先例是基于分析模型，而該模型在捕獲圖像結(jié)構(gòu)的全部特征方面有限，因此限制了TNRD的作用。然而，與BM3D相比，TNRD具有較高的性能優(yōu)勢(shì)。而且TNRD與MLP相結(jié)合可達(dá)到與BM3D相近的處理效果。

表2 主流圖像去噪網(wǎng)絡(luò)對(duì)退化圖像處理結(jié)果

(注：表中數(shù)據(jù)為高斯方差為50的噪聲圖復(fù)原結(jié)果與原圖計(jì)算的PSNR值)

綜上所述，神經(jīng)網(wǎng)絡(luò)之所以在圖像去噪領(lǐng)域有著不錯(cuò)的效果得益于機(jī)器學(xué)習(xí)的模式，對(duì)圖像去噪有較好的泛化能力。神經(jīng)網(wǎng)絡(luò)不但能處理固定噪聲的圖像，經(jīng)過(guò)相應(yīng)的訓(xùn)練也可以對(duì)不同程度的噪聲產(chǎn)生不錯(cuò)的復(fù)原效果。然而，神經(jīng)網(wǎng)絡(luò)處理去噪問(wèn)題時(shí)會(huì)遇到被去噪圖像的噪聲與訓(xùn)練圖像的噪聲分布相差較大，就根本無(wú)法復(fù)原其結(jié)果的情況。而且，當(dāng)出現(xiàn)復(fù)原效果不理想的時(shí)候，神經(jīng)網(wǎng)絡(luò)的可解釋性也比較差。

3.3 圖像去模糊

圖像去模糊[8,32,44-45](image deblurring) 是指經(jīng)過(guò)某種模糊處理的圖像通過(guò)神經(jīng)網(wǎng)絡(luò)進(jìn)行清晰圖像復(fù)原的過(guò)程。常見(jiàn)的模糊種類包括高斯模糊、運(yùn)動(dòng)模糊、中值模糊等，也可能是多種模糊混合生成的一種復(fù)合模糊。神經(jīng)網(wǎng)絡(luò)處理圖像去模糊的過(guò)程為：先將原圖像進(jìn)行模糊處理，得到的圖像為神經(jīng)網(wǎng)絡(luò)的輸入圖像，原圖像為神經(jīng)網(wǎng)絡(luò)的目標(biāo)圖像。非均勻圖像模糊計(jì)算為

其中，I為模糊的圖像；()為由運(yùn)動(dòng)場(chǎng)決定的模糊核；I為原圖像；為卷積操作；為加性噪聲。

文獻(xiàn)[44]是早期的工作，主要集中在假設(shè)模糊核()是已知的非盲去模糊。其主要依賴于執(zhí)行反卷積操作獲得和模糊核()的估計(jì)值。由于要為每個(gè)像素找到一個(gè)合適的模糊核是一個(gè)無(wú)法解決的問(wèn)題，之前大多數(shù)算法是基于啟發(fā)式，圖像統(tǒng)計(jì)和假設(shè)的方法獲得圖像模糊的來(lái)源，即假設(shè)模糊來(lái)源于相機(jī)，那么整幅圖像的模糊是一致的，然后再執(zhí)行反卷積操作去模糊。

之后出現(xiàn)了一些基于CNN的方法進(jìn)行去模糊操作。SUN等[45]最早利用CNN的方法預(yù)測(cè)模糊核進(jìn)行圖像去模糊操作，圖像的非均勻模糊是由物體或相機(jī)的運(yùn)動(dòng)造成的，其為原圖像帶來(lái)了具有方向性的運(yùn)動(dòng)向量，這些非零的運(yùn)動(dòng)向量沿著運(yùn)動(dòng)軌跡構(gòu)成了模糊核，其在清晰圖像上的卷積操作產(chǎn)生了模糊的圖像。圖7(a)為輸入的模糊圖片，圖7(b)中的線段表示利用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)出的非均勻運(yùn)動(dòng)模糊核，圖7(c)為復(fù)原后的效果。文獻(xiàn)[45]并未做全局性的運(yùn)動(dòng)參數(shù)假設(shè)，而是將圖像分成很多局部的區(qū)域進(jìn)行分別估計(jì)(模糊核)，從而實(shí)現(xiàn)圖像去模糊操作。而最近，NAH[46]使用多尺寸CNN進(jìn)行端到端的去模糊，也取得了一定的效果。表3對(duì)比了幾個(gè)比較流行的網(wǎng)絡(luò)[8,45-48]進(jìn)行圖像去模糊的實(shí)驗(yàn)效果。由于模糊的情況種類較多，而且程度也有很大區(qū)別，神經(jīng)網(wǎng)絡(luò)在圖像去模糊問(wèn)題上與傳統(tǒng)算法相比還有一定的距離。

(a) 輸入圖像(b) CNN估計(jì)的運(yùn)動(dòng)模糊場(chǎng)(c) 去模糊后結(jié)果

圖7 文獻(xiàn)[45]去模糊的處理流程

表3 主流圖像去模糊網(wǎng)絡(luò)對(duì)退化圖像處理結(jié)果

方法名稱神經(jīng)網(wǎng)絡(luò)損失函數(shù)復(fù)原效果PSNR(dB) Unnatural L0 SR[47]×–較好27.47 Non-uniform Deblurring[48]×–較好27.03 LCNN[45]√L2較差25.22 DMsCNN[46]√L2+adversarial loss較差26.48 DeblurGAN[8]√L1+adversarial loss一般26.10

目前基于神經(jīng)網(wǎng)絡(luò)的圖像去模糊仍未能達(dá)到傳統(tǒng)方法所取得效果，主要問(wèn)題在于模糊的種類和范圍難以估計(jì)。在真實(shí)環(huán)境中，模糊的種類可能是高斯模糊、運(yùn)動(dòng)模糊、中值模糊等，而且模糊所占圖片的范圍也可能不固定，模糊的程度差別很大，此類問(wèn)題都對(duì)使用神經(jīng)網(wǎng)絡(luò)處理圖像去模糊問(wèn)題產(chǎn)生了限制。

3.4 圖像著色

圖像著色[49-50](image colorization)是指將局部或整體顏色缺失的退化圖像通過(guò)著色進(jìn)行圖像復(fù)原處理。使用神經(jīng)網(wǎng)絡(luò)處理圖像著色問(wèn)題的步驟為：先將原圖片處理為灰度圖像，并做為神經(jīng)網(wǎng)絡(luò)的輸入圖像。原圖像為神經(jīng)網(wǎng)絡(luò)的目標(biāo)圖像。解決該問(wèn)題早期使用的是半自動(dòng)化的方法，如基于圖像示例的方法[51-55]，從單幅圖或多幅圖中統(tǒng)圖像的顏色信息[56-57]，然后使用類似色彩遷移[58]或圖像類別[59]的技術(shù)輸出到灰度圖像中。當(dāng)引用圖像與被處理圖像十分相似時(shí)，此類方法有很好的處理效果。然而找到相似圖像的工作十分的耗時(shí)，尤其是對(duì)于那些復(fù)雜的對(duì)象或場(chǎng)景。

最近，全自動(dòng)的圖像著色方法被紛紛提出[9,60-63]，通常使用基于全卷積的深度神經(jīng)網(wǎng)絡(luò)技術(shù)來(lái)完成。而對(duì)于圖像著色問(wèn)題的另一種思路是給出一定的位置的提示信息，進(jìn)行圖像著色。圖8展示了文獻(xiàn)[64]使用的半自動(dòng)著色方案，將黑白圖像與彩色離散的色塊相結(jié)合的方式輸入網(wǎng)絡(luò)，進(jìn)行圖像色彩預(yù)測(cè)。一方面能夠讓網(wǎng)絡(luò)更加有針對(duì)性的進(jìn)行顏色預(yù)測(cè)，另一方面也為圖像著色提供了更多的選擇，能夠?qū)⒅付ㄎ恢弥山o定的顏色。表4對(duì)比了幾個(gè)主流圖像著色網(wǎng)絡(luò)[5,62-64]的處理效果。由表4可以看出在圖像著色問(wèn)題上神經(jīng)網(wǎng)絡(luò)較傳統(tǒng)方法有著較明顯的優(yōu)勢(shì)，因?yàn)榛谏窠?jīng)網(wǎng)絡(luò)的圖像著色技術(shù)擅長(zhǎng)于從圖像中提取豐富的語(yǔ)義信息，然后將其關(guān)聯(lián)到高層次的感官和場(chǎng)景信息中。尤其是在給出一定額外的提示輸入后，神經(jīng)網(wǎng)絡(luò)可以很好的充分利用提示信息進(jìn)行圖像顏色推斷并將最合理的顏色賦予指定的區(qū)域。

(a) 灰度圖像(b) 用戶輸入的稀疏色塊(c) 輸出圖像

表4 主流圖像著色網(wǎng)絡(luò)對(duì)退化圖像處理結(jié)果

方法名稱神經(jīng)網(wǎng)絡(luò)額外輸入復(fù)原效果PSNR (dB) 像素預(yù)測(cè)×–較差22.82 CIC[5]√自動(dòng)局部顏色缺失22.04 LRAC[63]√自動(dòng)局部顏色缺失24.93 AICSC[62]√自動(dòng)局部顏色缺失23.69 RTUGIC[64]√局部顏色提示較好24.43

目前基于神經(jīng)網(wǎng)絡(luò)的圖像著色問(wèn)題已經(jīng)取得一定的進(jìn)展。然而，使用神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像著色依舊存在很多的問(wèn)題，如對(duì)于圖像中物體的細(xì)節(jié)部分或是圖像中有一定遮擋物體來(lái)說(shuō)，神經(jīng)網(wǎng)絡(luò)的著色通常不是很準(zhǔn)確。這主要是因?yàn)樯窠?jīng)網(wǎng)絡(luò)的著色過(guò)程是基于機(jī)器學(xué)習(xí)的思路，對(duì)于物體細(xì)節(jié)部分或是受到遮擋物體的顏色信息容易受到光線、角度等因素影響。但是，在神經(jīng)網(wǎng)絡(luò)技術(shù)發(fā)展的推動(dòng)下正逐步被克服。例如對(duì)于圖像顏色信息不明確的問(wèn)題，學(xué)術(shù)界的處理思路已經(jīng)從基于端到端的全自動(dòng)著色進(jìn)展到基于一定條件的半自動(dòng)著色上來(lái)。而且，從現(xiàn)階段的復(fù)原效果上看，半自動(dòng)噪聲已經(jīng)逐步替代了全自動(dòng)著色成為了圖像著色領(lǐng)域的主力。相信在不久的將來(lái)，利用神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像著色一定會(huì)有更大的發(fā)展市場(chǎng)，也會(huì)讓更多的資源傾向到利用神經(jīng)網(wǎng)絡(luò)處理圖像著色問(wèn)題中來(lái)。

3.5 圖像超分辨率

圖像超分辨率[50,65-73](image super resolution)是利用量化后的關(guān)系將LR圖像通過(guò)恢復(fù)生動(dòng)紋理和顆粒細(xì)節(jié)等以變成HR (high resolution)的過(guò)程。通常使用神經(jīng)網(wǎng)絡(luò)進(jìn)行超分辨率的方法為：先將原清晰圖像壓縮尺寸得到LR圖像，然后將LR圖像通過(guò)線性插值方式得到新的HR圖像。由于新的HR圖像是經(jīng)過(guò)LR處理后得到的，所以內(nèi)容比較模糊，此圖像即為神經(jīng)網(wǎng)絡(luò)的輸入圖像，原清晰圖像為神經(jīng)網(wǎng)絡(luò)訓(xùn)練的目標(biāo)圖像。從圖像轉(zhuǎn)換的角度看，通常說(shuō)的超分辨率問(wèn)題指的是單幅圖像的超分辨率(single image super-resolution，SISR)問(wèn)題，其可分為4類[67]：預(yù)測(cè)模型(prediction models)、基于邊緣方法(edge based methods)、基于圖像統(tǒng)計(jì)方法(image statistical methods)、基于補(bǔ)丁(patch based)或基于樣例(example-based)的方法。評(píng)價(jià)此類問(wèn)題處理的難度主要看圖像放大的倍數(shù)。放大倍數(shù)通常為2，3，4倍。表5比較了主流圖像超分辨率網(wǎng)絡(luò)[67,69-73]的處理效果。可以看到神經(jīng)網(wǎng)絡(luò)處理超分辨率問(wèn)題相較于傳統(tǒng)算法有著比較明顯的優(yōu)勢(shì)。當(dāng)圖像放大4倍時(shí)，基本能達(dá)到30 dB以上的峰值信噪比(peak signal noise ratio，PSNR)。雙線性插值是在神經(jīng)網(wǎng)絡(luò)之前經(jīng)典的處理超分辨率問(wèn)題的算法。

表5 主流圖像超分辨率網(wǎng)絡(luò)對(duì)退化圖像處理結(jié)果

(注：表中數(shù)據(jù)為放大4倍的復(fù)原圖與原圖計(jì)算的PSNR值)

SRCNN[69](圖9)是使用CNN處理超分辨率的鼻祖方法，其通過(guò)FCN的方式預(yù)測(cè)LR與HR之間的非線性映射關(guān)系。具體方法為：先將LR圖像使用雙三次差值放大至目標(biāo)尺寸(如放大2倍、3倍、4倍)，并稱放大至目標(biāo)尺寸后的圖像為L(zhǎng)R圖像(Low-resolution image)，即圖中的輸入(input)。將LR圖像輸入3層CNN，第1層卷積：卷積核尺寸9×9，卷積核數(shù)目為64，輸出64張?zhí)卣鲌D；第2層卷積：卷積核尺寸1×1，卷積核數(shù)目32，輸出32張?zhí)卣鲌D；第3層卷積：卷積核尺寸5×5，卷積核數(shù)目1，輸出1張?zhí)卣鲌D即為最終重建HR圖像。該方法處理LR圖片的效果明顯優(yōu)于非神經(jīng)網(wǎng)絡(luò)方法。之后隨著神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展，人們逐漸意識(shí)到更深的網(wǎng)絡(luò)層數(shù)能夠提高網(wǎng)絡(luò)預(yù)測(cè)HR的效果。于是VDSR[72]提出使用20層的卷積層來(lái)提高網(wǎng)絡(luò)的復(fù)原能力；之后DRCN[67]引入了非常深的遞歸鏈結(jié)構(gòu)層。此時(shí)，不斷加深的網(wǎng)絡(luò)層次所帶來(lái)的龐大的參數(shù)數(shù)量又給神經(jīng)網(wǎng)絡(luò)處理超分問(wèn)題帶來(lái)了新的困惑。DRRN[73]提出了具有多路徑結(jié)構(gòu)的遞歸塊(該模塊能夠在增加卷積深度而不添加參數(shù)的情況下提升準(zhǔn)確率)，再次緩解了該問(wèn)題。而且隨著網(wǎng)絡(luò)的發(fā)展，參數(shù)也在盡可能的縮減。

圖9 SRCNN網(wǎng)絡(luò)架構(gòu)圖(左側(cè)的低分辨率圖像經(jīng)過(guò)特征提取層、非線性映射層與重建層，最終生成右側(cè)的高分辨率圖像)

目前基于神經(jīng)網(wǎng)絡(luò)的圖像超分辨率已經(jīng)取得令人滿意的效果，尤其是在GANs大行其道的今天，神經(jīng)網(wǎng)絡(luò)技術(shù)已經(jīng)成為了解決圖像超分辨率問(wèn)題首選技術(shù)。然而，對(duì)于使用神經(jīng)網(wǎng)絡(luò)技術(shù)解決超分辨率問(wèn)題仍存在一定的問(wèn)題。其中就包括超分辨率后圖像的尺寸問(wèn)題，現(xiàn)階段使用神經(jīng)網(wǎng)絡(luò)進(jìn)行超分辨率時(shí)很難生成高質(zhì)量的清晰圖片(如分辨率在1 K或2 K)。因?yàn)?，生成HR圖像需要更高清晰度的訓(xùn)練集和更大的計(jì)算量。神經(jīng)網(wǎng)絡(luò)是基于訓(xùn)練的機(jī)器學(xué)習(xí)方法，訓(xùn)練的耗時(shí)是主要問(wèn)題。

4 基于對(duì)抗神經(jīng)網(wǎng)絡(luò)的極限退化圖像復(fù)原

圖像的復(fù)原可能要面臨非常極端低質(zhì)的原始數(shù)據(jù)。在極端條件下，由于大量的原始信息丟失、有效信息稀少同時(shí)還存在大量的干擾信息，因此如何在惡劣的條件下進(jìn)行有效的圖像復(fù)原是一個(gè)非常困難的問(wèn)題。針對(duì)上述極端條件，提出X (Etreme Cases)-GANs，一種基于條件生成對(duì)抗網(wǎng)絡(luò)的方法來(lái)解決極限退化圖像復(fù)原問(wèn)題[7]。圖10為網(wǎng)絡(luò)架構(gòu)圖，網(wǎng)絡(luò)由生成器Generator和損失函數(shù)組成。生成器包括下采樣、基于殘差網(wǎng)絡(luò)的殘差塊Residual blocks和上采樣3部分。損失函數(shù)包括關(guān)聯(lián)點(diǎn)損失函數(shù)Corresponding point loss、基于VGG網(wǎng)絡(luò)的感知損失函數(shù)VGG perceptual loss和基于多尺度判別器的對(duì)抗感知損失函數(shù)Adversarial perceptual loss、GANs本身的對(duì)抗損失函數(shù)Adversarial loss 4部分組成。本文聚焦于僅包含極少的有用信息的圖像復(fù)原工作，不同于文獻(xiàn)[3]是將25%以上離散點(diǎn)的64×64或128×128圖像進(jìn)行復(fù)原，挑戰(zhàn)具有更高難度的只包含20%以內(nèi)有用信息的256×256退化圖像復(fù)原。面對(duì)將盡少量的隨機(jī)離散點(diǎn)進(jìn)行復(fù)原的問(wèn)題，基于文獻(xiàn)[6, 74]的工作，本文嘗試了如使用非參數(shù)概率密度函數(shù)估計(jì)方法等。X-GANs可以解決更少的已知離散點(diǎn)的圖像復(fù)原并可以得到更好和更穩(wěn)定的效果。本文所設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)在解決此類問(wèn)題時(shí)有著自身獨(dú)特的優(yōu)勢(shì)，通過(guò)對(duì)大量數(shù)據(jù)樣本進(jìn)行學(xué)習(xí)，學(xué)會(huì)了“聯(lián)想”出離散點(diǎn)與對(duì)應(yīng)圖像映射關(guān)系。X-GANs對(duì)極少量離散點(diǎn)(20%以內(nèi)離散點(diǎn))的圖像復(fù)原也取得了不錯(cuò)的效果。

圖10 網(wǎng)絡(luò)架構(gòu)圖(左側(cè)生成器由殘差塊組成，右側(cè)包括對(duì)抗損失函數(shù)，對(duì)抗感知損失函數(shù)組成的多尺度判別器以及VGG感知損失函數(shù)和下面的關(guān)聯(lián)點(diǎn)損失函數(shù))

為了進(jìn)一步壓縮已知離散點(diǎn)數(shù)量，本文將離散點(diǎn)分布在特定的區(qū)域其有益于圖像復(fù)原，采用sobel[75]或canny算子將圖像邊緣提取出來(lái)，目的是將離散點(diǎn)分布在梯度變化較大的區(qū)域。實(shí)驗(yàn)表明，在相同百分比有效離散點(diǎn)的時(shí)候，使用sobel[75]算子指定離散點(diǎn)分布的圖像能夠更好的進(jìn)行圖像復(fù)原。被復(fù)原圖像的細(xì)節(jié)和邊緣更加清晰?？紤]到人們對(duì)圖像某些區(qū)域的復(fù)原效果更為重視，也就是人們視覺(jué)重點(diǎn)關(guān)注的區(qū)域。本文最終將被復(fù)原的圖像定義為離散點(diǎn)根據(jù)概率重點(diǎn)覆蓋梯度變化較大的區(qū)域進(jìn)行掩碼處理之后的圖像。而對(duì)于那些梯度沒(méi)什么變化的區(qū)域，則覆蓋較少的離散點(diǎn)。該策略可用于圖像的高倍率壓縮方法中。

為了從另一個(gè)方面挑戰(zhàn)網(wǎng)絡(luò)訓(xùn)練的能力。本文嘗試解決具有更高復(fù)雜性的隨機(jī)彩色噪聲這個(gè)新問(wèn)題。因?yàn)榫W(wǎng)絡(luò)需要在大量彩色點(diǎn)中剝離開干擾信息找到能夠構(gòu)成某個(gè)人物的圖像的有效點(diǎn)信息并進(jìn)行復(fù)原。針對(duì)該問(wèn)題，同樣采用了僅包含20%以內(nèi)的有用信息的圖像進(jìn)行復(fù)原并取得了良好的結(jié)果。

最后，本文在圖像修補(bǔ)問(wèn)題上也進(jìn)行了探討，網(wǎng)絡(luò)對(duì)256×256圖像，缺失塊在128×128大小也取得不錯(cuò)的效果。并且為提升問(wèn)題難度，本文定義了將缺失白色塊替換為隨機(jī)的錯(cuò)亂色塊的圖像缺失問(wèn)題，提高了網(wǎng)絡(luò)恢復(fù)圖像難度。網(wǎng)絡(luò)除了要面對(duì)區(qū)分復(fù)原數(shù)據(jù)的區(qū)域，還要進(jìn)行復(fù)原這兩個(gè)任務(wù)。圖11在上述2個(gè)問(wèn)題上都取得了令人滿意的效果。

圖11 X-GANs網(wǎng)絡(luò)對(duì)不同退化圖像的復(fù)原結(jié)果((a) 隨機(jī)場(chǎng)景彩色噪聲；(b) 隨機(jī)場(chǎng)景像素插值；(c) 使用Sobel算子處理后的像素插值復(fù)原問(wèn)題；(d) 圖像修補(bǔ)；(e) 圖像修補(bǔ)(空白)；(f) 人物場(chǎng)景彩色噪聲圖像)

5 結(jié)論與展望

綜上可知，相比于非神經(jīng)網(wǎng)絡(luò)的算法，使用基于神經(jīng)網(wǎng)絡(luò)技術(shù)解決退化圖像復(fù)原問(wèn)題的優(yōu)勢(shì)十分明顯。首先，開發(fā)者不必針對(duì)每種復(fù)原問(wèn)題設(shè)計(jì)完全獨(dú)立的算法并進(jìn)行分析，而只需要設(shè)計(jì)一種網(wǎng)絡(luò)模型，就能解決很多種退化圖像復(fù)原的問(wèn)題。其次，網(wǎng)絡(luò)的訓(xùn)練只需要進(jìn)行簡(jiǎn)單的數(shù)據(jù)標(biāo)注和映射等工作，網(wǎng)絡(luò)能夠根據(jù)所給的數(shù)據(jù)自動(dòng)學(xué)習(xí)到退化圖像與完整圖像的映射關(guān)系并自動(dòng)進(jìn)行圖像的復(fù)原工作。最后，GANs根據(jù)學(xué)習(xí)到的東西產(chǎn)生了一定的“聯(lián)想”能力，能夠在數(shù)據(jù)量極少的情況下對(duì)未知區(qū)域給出相對(duì)合理的數(shù)據(jù)預(yù)測(cè)。

但是神經(jīng)網(wǎng)絡(luò)處理上述問(wèn)題也有一定的局限性。如泛化能力不足，是因?yàn)槠涫腔跈C(jī)器學(xué)習(xí)的，所以多數(shù)情況下只對(duì)學(xué)過(guò)的問(wèn)題類型敏感，并依賴于訓(xùn)練的數(shù)據(jù)質(zhì)量和數(shù)量。而且在很多時(shí)候網(wǎng)絡(luò)對(duì)大尺寸圖像和高清圖像處理效果不是很理想，神經(jīng)網(wǎng)絡(luò)存在不穩(wěn)定性，很容易陷入到一個(gè)鞍點(diǎn)或局部極值點(diǎn)上。除此之外，神經(jīng)網(wǎng)絡(luò)的可解釋性比較差[24]，當(dāng)出現(xiàn)生成效果不理想時(shí)很難通過(guò)調(diào)整網(wǎng)絡(luò)來(lái)進(jìn)行修復(fù)。而這些問(wèn)題都是未來(lái)研究工作需要解決的關(guān)鍵。

神經(jīng)網(wǎng)絡(luò)技術(shù)為解決退化圖像復(fù)原問(wèn)題帶來(lái)了新的思路，同時(shí)也帶來(lái)了新的挑戰(zhàn)。本文除了介紹的6類問(wèn)題之外，還有圖像去霧(haze removal)、去雨水(raindrop removal)等問(wèn)題也受到學(xué)者們的關(guān)注。對(duì)于圖像去霧問(wèn)題，比較經(jīng)典的解決方案還是傳統(tǒng)算法為主[76-78]，如文獻(xiàn)[76]使用暗通道先驗(yàn)去霧算法對(duì)圖像去霧問(wèn)題產(chǎn)生了巨大的影響。對(duì)于去雨水問(wèn)題，神經(jīng)網(wǎng)絡(luò)已經(jīng)是主流的解決方法[79-81]，如文獻(xiàn)[79]解決思路與上文介紹的主流算法一致，通過(guò)全卷積或GANs等方式進(jìn)行雨水圖像還原。

隨著越來(lái)越多的學(xué)者投身其中，問(wèn)題也在不斷地被克服。比如pix2pixHD方法[82]對(duì)解決條件生成對(duì)抗網(wǎng)絡(luò)如何生成高清圖像問(wèn)題取得了不錯(cuò)的效果。再比如使用非監(jiān)督方式訓(xùn)練條件生成對(duì)抗網(wǎng)絡(luò)方面也做出貢獻(xiàn)[83]。相信不久的將來(lái)在越來(lái)越多學(xué)者的努力下，神經(jīng)網(wǎng)絡(luò)在退化圖像復(fù)原領(lǐng)域會(huì)有更好的發(fā)展。

[1] KRIZHEVSKY A, ILYA S, HINTON G E. Imagenet classification with deep convolutional neural networks [C]//The 25th International Conference on Neural Information Processing Systems. New York: ACM Press, 2012: 1097-1105.

[2] BERTALMIO M, SAPIRO G, CASELLES V, et al. Image inpainting [C]//The 27th Annual Conference on Computer Graphics and Interactive Techniques. New York: ACM Press, 2000: 417-424.

[3] GAO R, GRAUMAN K. On-demand learning for deep image restoration [EB/OL]. [2016-12-05]. https://arxiv. org/abs/1612.01380.

[4] BUADES A, COLL B, MOREL J M. A non-local algorithm for image denoising [C]//2005 IEEE Conference on Computer Vision and Pattern Recognition. York: IEEE Press, 2005: 60-65.

[5] ZHANG R, ISOLA P, EFROS A A. Colorful image colorization [C]//The 17th European Conference on Computer Vision. Heidelberg: Springer, 2016: 649-666.

[6] YANG J, WRIGHT J, HUANG T S, et al. Image super-resolution via sparse representation [EB/OL]. [2010-05-18]. https://ieeexplore. ieee.org/abstract/ document/ 5466111.

[7] LIU L, LI S, CHEN Y, et al. X-GANs: Image reconstruction made easy for extreme cases [EB/OL]. [2018-08-06]. https://arxiv.org/abs/1808.04432.

[8] KUPYN O, BUDZAN V, MYKHAILYCH M, et al. DeblurGAN: Blind motion deblurring using conditional adversarial networks [EB/OL]. [2017-11-19]. https://arxiv. org/abs/1711.07064.

[9] ISOLA P, ZHU J Y, ZHOU T, et al. Image-to-image translation with conditional adversarial networks [EB/OL]. [2016-11-21]. https://arxiv.org/abs/1611.07004.

[10] S?NDERBY C K, CABALLERO J, THEIS L, et al. Amortised map inference for image super-resolution [EB/OL]. [2016-10-14]. https://arxiv.org/abs/1610.04490.

[11] 張紅英, 彭啟琮. 數(shù)字圖像修復(fù)技術(shù)綜述[J]. 中國(guó)圖象圖形學(xué)報(bào), 2007(1): 1-10.

[12] 岡薩雷斯, 伍茲. 數(shù)字圖像處理[M]. 3版. 阮秋琦, 阮宇智等譯. 北京: 電子工業(yè)出版社, 2011: 1-633.

[13] HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets [EB/OL]. [2006-07-18]. https://www.mitpressjournals.org/doi/abs/ 10.1162/neco.2006.18.7.1527.

[14] LECUN Y, BENGIO Y, HINTON G. Deep learning [EB/OL].[2015-05-28]. https://www.nature. com/articles/ nature14539.

[15] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 3431-3440.

[16] LIOU C Y, HUANG J C, YANG W C. Modeling word perception using the Elman network [EB/OL]. [2008-10-01]. https://www.sciencedirect. com/science/ article/pii/S0925231208002865.

[17] LIOU C Y, CHENG W C, LIOU J W, et al. Autoencoder for words [EB/OL]. [2014-09-02]. https://www.sciencedirect.com/science/article/pii/S0925231214003658.

[18] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets [C]//NIPS’14 Proceedings of the 27th International Conference on Neural Information Processing Systems. New York: IEEE Press, 2014: 2672-2680.

[19] RONNEBERGER O, FISCHER P, BROX T. U-net: Convolutional networks for biomedical image segmentation [C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Heidelberg: Springer, 2015: 234-241.

[20] YANG C, LU X, LIN Z, et al. High-resolution image inpainting using multi-scale neural patch synthesis [C]// The IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 3.

[21] KINGMA D P, WELLING M. Auto-encoding variational bayes [EB/OL]. [2013-12-26]. https://arxiv. org/abs/1312.6114.

[22] Generating Faces with Torch [EB/OL]. [2015-11-13]. http://torch.ch/blog/2015/11/13/gan.html.

[23] PATHAK D, KRAHENBUHL P, DONAHUE J, et al. Context encoders: Feature learning by inpainting [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 2536-2544.

[24] 焦李成. 深度學(xué)習(xí)、優(yōu)化與識(shí)別[M]. 北京: 清華大學(xué)出版社, 2017: 1-137.

[25] MIRZA M, OSINDERO S. Conditional generative adversarial nets [EB/OL]. [2014-11-06]. https://arxiv. org/abs/1411.1784.

[26] WU X, XU K, HALL P. A survey of image synthesis and editing with generative adversarial networks [EB/OL]. [2017-12-14]. https://ieeexplore.ieee.org/abstract/ document/8195348.

[27] YEH R A, CHEN C, LIM T Y, et al. Semantic image inpainting with deep generative models [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 5485-5489.

[28] OSHER S, BURGER M, GOLDFARB D, et al. An iterative regularization method for total variation-based image restoration [EB/OL]. [2005-04-06]. https:// epubs.siam.org/doi/abs/10.1137/040605412.

[29] BARNES C, SHECHTMAN E, FINKELSTEIN A, et al. PatchMatch: A randomized correspondence algorithm for structural image editing [J]. ACM Transactions on Graphics (ToG), 2009, 28(3): 24.

[30] EFROS A A, LEUNG T K. Texture synthesis by non-parametric sampling [EB/OL]. [1999-08-10]. https://www.computer.org/csdl/proceedings/iccv/1999/0164/02/01641033.pdf.

[31] HAYS J, EFROS A A. Scene completion using millions of photographs [J]. Communications of the ACM, 2008, 51(10): 87-94.

[32] LIU S, PAN J, YANG M H. Learning recursive filters for low-level vision via a hybrid neural network [C]// The 17th European Conference on Computer Vision. Heidelberg: Springer, 2016: 560-576.

[33] LIU C, FREEMAN W T, SZELISKI R, et al. Noise estimation from a single image [C]//2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2006: 901-908.

[34] LIU X, TANAKA M, OKUTOMI M. Single-image noise level estimation for blind denoising [EB/OL]. [2013-08-10]. http://www.ok.sc.e. titech.ac.jp/res/NLE/ TIP2013-noise-level-estimation06607209.pdf.

[35] CHEN G, ZHU F, ANN HENG P. An efficient statistical method for image noise level estimation [C]// Proceedings of the IEEE International Conference on Computer Vision.New York: IEEE Press, 2015: 477-485.

[36] DABOV K, FOI A, KATKOVNIK V, et al. Image denoising by sparse 3-D transform-domain collaborative filtering [EB/OL]. [2007-07-16]. https://ieeexplore.ieee. org/abstract/document/4271520.

[37] GU S, ZHANG L, ZUO W, et al. Weighted nuclear norm minimization with application to image denoising [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: Press, 2014: 2862-2869.

[38] ZORAN D, WEISS Y. From learning models of natural image patches to whole image restoration [C]// 2011 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2011: 479-486.

[39] BURGER H C, SCHULER C J, HARMELING S. Image denoising: Can plain neural networks compete with BM3D? [C]//2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2012: 2392-2399.

[40] CHEN Y, POCK T. Trainable nonlinear reaction diffusion: A flexible framework for fast and effective image restoration [EB/OL]. [2016-08-01]. https:// ieeexplore.ieee.org/abstract/document/7527621.

[41] ZHANG K, ZUO W, CHEN Y, et al. Beyond a gaussian denoiser: Residual learning of deep cnn for image denoising [EB/OL]. [2017-02-01]. https://ieeexplore. ieee.org/abstract/document/7839189.

[42] XIE J, XU L, CHEN E. Image denoising and inpainting with deep neural networks [C]//NIPS’12 Proceedings of the 25th International Conference on Neural Information Processing Systems. New York: IEEE Press, 2012: 341-349.

[43] JAIN V, SEUNG S. Natural image denoising with convolutional networks [EB/OL]. [2012-08-10]. http://papers.nips.cc/paper/4686-image-denoising-and-inpainting-with-deep-neural-networks.

[44] SZELISKI R. Computer vision: Algorithms and applications [EB/OL]. [2010-08-10] http://citeseerx.ist. psu.edu/viewdoc/download?doi=10.1.1.414.9846&rep=rep1&type=pdf.

[45] SUN J, CAO W, XU Z, et al. Learning a convolutional neural network for non-uniform motion blur removal [C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 769-777.

[46] NAH S, KIM T H, LEE K M. Deep multi-scale convolutional neural network for dynamic scene deblurring [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 3.

[47] XU L, ZHENG S, JIA J. Unnatural l0 sparse representation for natural image deblurring [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2013: 1107-1114.

[48] WHYTE O, SIVIC J, ZISSERMAN A, et al. Non-uniform deblurring for shaken images [EB/OL]. [2011-10-27]. https://link.springer. com/article/10.1007/ s11263-011-0502-7.

[49] LEVIN A, LISCHINSKI D, WEISS Y. Colorization using optimization [J]. ACM Transactions on Graphics (TOG), 2004, 23(1): 689-694.

[50] XU L, YAN Q, JIA J. A sparse control model for image and video editing [C]//ACM Transactions on Graphics (TOG), 2013, 32(6): 1-10.

[51] CHIA A Y S, ZHUO S, GUPTA R K, et al. Semantic colorization with internet images [J]. ACM Transactions on Graphics (TOG), 2011, 30(6): 156.

[52] GUPTA R K, CHIA A Y S, RAJAN D, et al. Image colorization using similar images [C]//Proceedings of the 20th ACM International Conference on Multimedia. New York: ACM Press, 2012: 369-378.

[53] IRONI R, COHEN-OR D, LISCHINSKI D. Colorization by Example [EB/OL]. [2005-08-11]. http:// citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.76.424&rep=rep1&type=pdf.

[54] LIU X, WAN L, QU Y, et al. Intrinsic colorization [J]. ACM Transactions on Graphics (TOG), 2008, 27(5): 152.

[55] WELSH T, ASHIKHMIN M, MUELLER K. Transferring color to greyscale images [J]. ACM Transactions on Graphics (TOG), 2002, 21(3): 277-280.

[56] LIU Y, COHEN M, UYTTENDAELE M, et al. Autostyle: Automatic style transfer from image collections to users’ images [EB/OL]. [2014-07-15]. https://onlinelibrary.wiley.com/doi/abs/10.1111/cgf.12409.

[57] MORIMOTO Y, TAGUCHI Y, NAEMURA T. Automatic colorization of grayscale images using multiple images on the web [C]//ACM SIGGRAPH Computer Graphics 2009. New York: ACM Press, 2009: 59.

[58] REINHARD E, ADHIKHMIN M, GOOCH B, et al. Color transfer between images [EB/OL]. [2001-09-11]. https://ieeexplore.ieee.org/abstract/document/946629.

[59] HERTZMANN A, JACOBS C E, OLIVER N, et al. Image analogies [C]//Proceedings of the 28th Annual Conference on Computer Graphics and Interactive Techniques. New York: ACM Press, 2001: 327-340.

[60] CHENG Z, YANG Q, SHENG B. Deep colorization [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 415-423.

[61] Deshpande A, Rock J, Forsyth D. Learning large-scale automatic image colorization [C]//Procee Dings of the IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 567-575.

[62] IIZUKA S, SIMO-SERRA E, ISHIKAWA H. Let there be color!: Joint end-to-end learning of global and local image priors for automatic image colorization with simultaneous classification [J]. ACM Transactions on Graphics (TOG), 2016, 35(4): 1-11.

[63] LARSSON G, MAIRE M, SHAKHNAROVICH G. Learning representations for automatic colorization [C]// The 16th European Conference on Computer Vision. Heidelberg: Springer, 2016: 577-593.

[64] ZHANG R, ZHU J Y, ISOLA P, et al. Real-time user-guided image colorization with learned deep priors [EB/OL]. [2017-05-08]. https://arxiv.org/abs/1705.02999.

[65] DONG C, LOY C C, HE K, et al. Learning a deep convolutional network for image super-resolution [C]// The 14th European Conference on Computer Vision. Heidelberg: Springer, 2014: 184-199.

[66] DONG C, LOY C C, TANG X. Accelerating the super-resolution convolutional neural network [C]// The 16th European Conference on Computer Vision. Heidelberg: Springer, 2016: 391-407.

[67] KIM J, KWON LEE J, MU LEE K. Deeply-recursive convolutional network for image super-resolution [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 1637-1645.

[68] YANG C Y, MA C, YANG M H. Single-image super-resolution: A benchmark [C]// The 14th European Conference on Computer Vision. New York: IEEE Press, 2014: 372-386.

[69] DONG C, LOY C C, HE K, et al. Image super-resolution using deep convolutional networks [EB/OL]. [2015-06-01]. https://ieeexplore.ieee.org/ abstract/document/7115171.

[70] HUANG J B, SINGH A, AHUJA N. Single image super-resolution from transformed self-exemplars [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 5197-5206.

[71] SCHULTER S, LEISTNER C, BISCHOF H. Fast and accurate image upscaling with super-resolution forests [C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 3791-3799.

[72] KIM J, KWON LEE J, MU LEE K. Accurate image super-resolution using very deep convolutional networks [C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 1646-1654.

[73] TAI Y, YANG J, LIU X. Image super-resolution via deep recursive residual network [C]//Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 5.

[74] YEH R A, CHEN C, LIM T Y, et al. Semantic Image Inpainting with Deep Generative Models [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 4.

[75] IRWIN S. History and definition of the sobel operator [EB/OL]. [2014-07-11]. https://www. researchgate.net/publication/239398674_An_Isotropic_3_3_Image_Gradient_Operator.

[76] HE K, SUN J, TANG X. Single image haze removal using dark channel prior [EB/OL]. [2010-09-09]. https://ieeexplore.ieee.org/abstract/document/5567108.

[77] ZHU Q, MAI J, SHAO L. A fast single image haze removal algorithm using color attenuation prior [EB/OL]. [2015-11-11]. https://ieeexplore.ieee.org/iel7/83/4358840/ 07128396.pdf.

[78] CAI B, XU X, JIA K, et al. Dehazenet: An end-to-end system for single image haze removal [EB/OL]. [2016-08-10]. https://ieeexplore. ieee.org/abstract/ document/7539399.

[79] FU X, HUANG J, ZENG D, et al. Removing rain from single images via a deep detail network [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 1715-1723.

[80] YANG W, TAN R T, FENG J, et al. Deep joint rain detection and removal from a single image [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 1357-1366.

[81] QIAN R, TAN R T, YANG W, et al. Attentive generative adversarial network for raindrop removal from a single image [C]//Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 2482-2491.

[82] WANG T C, LIU M Y, ZHU J Y, et al. High-resolution image synthesis and semantic manipulation with conditional gans [EB/OL]. [2017-11-30]. https://arxiv. org/abs/1711.11585.

[83] DONG H, NEEKHARA P, WU C, et al. Unsupervised image-to-image translation with generative adversarial networks [EB/OL]. [2017-06-10]. https://arxiv.org/abs/ 1701.02676.

① “pix2pix”https://phillipi.github.io/pix2pix

Advance of Neural Network in Degraded Image Restoration

LIU Long-fei, LI Sheng, LAI Shun-nan

(School of Information Science and Technology, Peking University, Beijing 100871, China)

Restoration of degraded image is an important and challenging issue in the field of image computing. In recent years, artificial intelligence (AI), especially deep learning, has achieved rapid progress. More and more methods based on neural networks have been proposed to solve this problem. This paper first introduces the main techniques based on neural networks to restore the degraded images and makes a classification of the problems. Then we focused on the key neural networks to resolve the problems of each category. By reviewing the development of various network-based methods in the field of deep learning, we analyzed the advantages and limitations between these methods. Furthermore, a comparison between these methods and the traditional ones was also made. Finally, we put forward a new solution on restoration of extremely degraded image using GANs, sketching out the future work on the restoration of degraded image.

degraded image restoration; neural network; generative adversarial networks; artificial intelligence

TP 391

10.11996/JG.j.2095-302X.2019020213

2095-302X(2019)02-0213-12

2018-08-21；

2018-10-29

國(guó)家自然科學(xué)基金項(xiàng)目(61472010，61631001，61632003)

劉龍飛(1988-)，男，遼寧沈陽(yáng)人，算法工程師，碩士研究生。主要研究方向?yàn)槿斯ぶ悄?、?jì)算機(jī)視覺(jué)等。E-mail：liulongfei@pku.edu.cn

李勝(1974-)，男，廣東高州人，副教授，博士，碩士生導(dǎo)師。主要研究方向?yàn)橛?jì)算機(jī)圖形學(xué)、虛擬現(xiàn)實(shí)技術(shù)。E-mail：lisheng@pku.edu.cn

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

神經(jīng)網(wǎng)絡(luò)在退化圖像復(fù)原領(lǐng)域的進(jìn)展綜述

1 退化圖像復(fù)原問(wèn)題

2 基于神經(jīng)網(wǎng)絡(luò)的退化圖像復(fù)原技術(shù)

2.1 全卷積網(wǎng)絡(luò)

2.2 自編碼器

2.3 生成對(duì)抗網(wǎng)絡(luò)

2.4 自監(jiān)督學(xué)習(xí)

3 退化圖像問(wèn)題分類及解決方法

3.1 圖像局部缺失修復(fù)

3.2 像素插值與圖像去噪

3.3 圖像去模糊

3.4 圖像著色

3.5 圖像超分辨率

4 基于對(duì)抗神經(jīng)網(wǎng)絡(luò)的極限退化圖像復(fù)原

5 結(jié)論與展望