羅海銀,鄭鈺輝
1.南京信息工程大學(xué) 計(jì)算機(jī)學(xué)院、軟件學(xué)院、網(wǎng)絡(luò)空間安全學(xué)院,南京210044
2.南京信息工程大學(xué) 數(shù)字取證教育部工程研究中心,南京210044
圖像修復(fù)技術(shù)最早源于藝術(shù)家們通過(guò)修復(fù)受損的藝術(shù)繪畫(huà)或照片,使其質(zhì)量盡可能地接近原始圖像。在計(jì)算機(jī)視覺(jué)和圖形環(huán)境中,它通常被定義為恢復(fù)破損圖像缺失區(qū)域像素,使觀察者無(wú)法察覺(jué)圖像曾經(jīng)缺損或已被修復(fù)。圖像修復(fù)既是計(jì)算機(jī)視覺(jué)任務(wù)中的基礎(chǔ)技術(shù),又是圖像處理任務(wù)的重要組成部分,也是目前比較有前景的研究領(lǐng)域之一。圖1給出了圖像修復(fù)示例圖。
圖1 圖像修復(fù)示例圖Fig.1 Example of image inpainting
圖像修復(fù)的意義不僅僅在于目前研究方法的逐步改進(jìn),更在于其在實(shí)際生活中的應(yīng)用,主要應(yīng)用于:(1)對(duì)象移除。刪除圖像中不需要的對(duì)象并修復(fù)對(duì)象遮擋區(qū)域,可視為圖像篡改的一種特殊任務(wù)。(2)修復(fù)圖像。修復(fù)圖像中因處理不當(dāng)造成的像素丟失,例如劃痕、泛黃等。(3)圖片修飾。對(duì)不同人員的照片進(jìn)行修飾,去除皺紋、痣等面部特征。(4)文字移除。刪除圖像中不需要的文字、水印、照片日期等文字目標(biāo)并修復(fù)圖像。因此該研究具有極大的發(fā)展前景,也受到研究人員的廣泛研究。
傳統(tǒng)的圖像修復(fù)方法利用圖像樣本相似度、結(jié)構(gòu)紋理一致性等思想,結(jié)合數(shù)學(xué)、物理理論構(gòu)建算法模型修復(fù)小區(qū)域破損圖像。然而當(dāng)修復(fù)大程度破損區(qū)域或具有混合語(yǔ)義紋理、復(fù)雜結(jié)構(gòu)圖像時(shí),其生成修復(fù)圖像與原始圖像差異較大。這是由于傳統(tǒng)圖像修復(fù)方法無(wú)法有效獲取圖像深層特征信息,例如內(nèi)容對(duì)象、內(nèi)容語(yǔ)義信息等。
伴隨深度學(xué)習(xí)技術(shù)的崛起,研究者嘗試引入深度學(xué)習(xí)模型于計(jì)算機(jī)視覺(jué)任務(wù)中并卓有成效。受此啟發(fā),基于深度學(xué)習(xí)的圖像修復(fù)方法應(yīng)運(yùn)而生,它通過(guò)在深度模型基礎(chǔ)上引入不同的約束條件優(yōu)化模型修復(fù)圖像。其中,修復(fù)效果較為突出的深度學(xué)習(xí)模型有Rumelhart 等人提出的自編碼器(auto-encoder,AE)、Ronneberger 等人提出的U-Net、Goodfellow等人提出的生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)、Vaswani 等人提出的Transformer等。它們通過(guò)訓(xùn)練深度模型獲取圖像高層語(yǔ)義信息,學(xué)習(xí)圖像結(jié)構(gòu)紋理信息修復(fù)大區(qū)域破損圖像,這類(lèi)方法解決了傳統(tǒng)圖像修復(fù)不足的問(wèn)題,并且取得了出色的修復(fù)效果。
盡管圖像修復(fù)任務(wù)在計(jì)算機(jī)視覺(jué)領(lǐng)域占據(jù)著重要地位,然而相關(guān)的全面綜述性工作少之又少。基于此,本文針對(duì)圖像修復(fù)方法進(jìn)行了系統(tǒng)性全面研究,分析并闡述了不同類(lèi)型的圖像修復(fù)方法、常用數(shù)據(jù)集、評(píng)價(jià)指標(biāo)、方法實(shí)驗(yàn)對(duì)比、不足及未來(lái)展望。同時(shí)希望本文的研究?jī)?nèi)容能給予相關(guān)研究工作者一定的幫助。
傳統(tǒng)圖像修復(fù)方法通常依據(jù)破損圖像內(nèi)容、結(jié)構(gòu)以及紋理間的相似性預(yù)測(cè)圖像缺失區(qū)域像素,根據(jù)修復(fù)思想的不同,它可以被分為基于偏微分方程(partial differential equation,PDE)的圖像修復(fù)方法和基于樣本的圖像修復(fù)方法。
基于偏微分方程的圖像修復(fù)方法又叫基于擴(kuò)散的方法,它是指利用數(shù)學(xué)或物理學(xué)中的偏微分方程,將圖像已知區(qū)域像素平滑傳播到缺失區(qū)域中以修復(fù)破損圖像。基于偏微分方程的圖像修復(fù)方法特點(diǎn)如表1 所示。表中顯示出了不同修復(fù)方法的使用思想、方法優(yōu)勢(shì)以及方法局限性。
表1 基于偏微分方程的圖像修復(fù)方法特點(diǎn)Table 1 Characteristics of image inpainting methods based on partial differential equation
該類(lèi)方法最初由Bertalmio 等人將PDE 思想引入圖像修復(fù)任務(wù),提出了BSCB(Bertalmio-Sapiro-Caselles-Ballester)模型,他們將圖像已知信息沿等光線方向平滑傳播于缺失區(qū)域,以自動(dòng)修復(fù)圖像;隨后,Bertalmio 等人接連提出通過(guò)圖像灰度級(jí)和向量場(chǎng)的聯(lián)合插值填充圖像和使用流體動(dòng)力學(xué)將等光線平滑傳播到待修復(fù)區(qū)域,然而這些方法均不能修復(fù)大尺度破損或具有復(fù)雜紋理的圖像。
受此啟發(fā),Chan 和Shen 引入整體變分(total variation,TV)模型于修復(fù)任務(wù)中,通過(guò)最小化能量泛函已完成圖像補(bǔ)全;同年他們繼續(xù)改進(jìn)TV 模型繼而提出了利用曲率驅(qū)動(dòng)擴(kuò)散思想的CDD(curvature driven diffusion)模型、Mumford-Shah-Euler 模型、Euler's Elastica 模型以解決TV 模型修復(fù)局限性。
同時(shí),越來(lái)越多的研究者也通過(guò)新的優(yōu)化思想改進(jìn)以上模型。周密等人通過(guò)對(duì)破損區(qū)域邊緣各個(gè)參考點(diǎn)設(shè)置權(quán)值來(lái)確定其對(duì)目標(biāo)區(qū)域的影響程度,以改進(jìn)TV 模型不足;田艷艷等人則是提出了非線性擴(kuò)散模型改進(jìn)CDD 模型,以穩(wěn)定梯度值較小的等照度線;李薇等人在BSCB 模型基礎(chǔ)上,使用各向同性擴(kuò)散進(jìn)行快速信息推進(jìn),再使用各向異性擴(kuò)散沿等照度方向進(jìn)行信息擴(kuò)散以修復(fù)圖像;而劉庚龍等人于TV 模型中引入邊界引導(dǎo)函數(shù)保證圖像邊緣清晰、過(guò)渡自然。
上述基于PDE 的圖像修復(fù)方法修復(fù)小區(qū)域破損圖像時(shí),可以生成合理的紋理樣本;然而當(dāng)缺失區(qū)域較大時(shí),該類(lèi)方法在傳播過(guò)程中會(huì)導(dǎo)致修復(fù)時(shí)間過(guò)長(zhǎng)且修復(fù)圖像模糊不清晰,因而無(wú)法產(chǎn)生良好的修復(fù)結(jié)果。
基于樣本的圖像修復(fù)方法通過(guò)計(jì)算并搜索破損圖像缺失區(qū)域與已知區(qū)域相似度最高的樣本,并將其復(fù)制粘貼到缺失區(qū)域內(nèi)以修復(fù)破損圖像?;跇颖镜膱D像修復(fù)方法特點(diǎn)如表2 所示。
表2 基于樣本的圖像修復(fù)方法特點(diǎn)Table 2 Characteristics of image inpainting methods based on patch
最初,Efros 和Leung 提出了基于馬爾科夫隨機(jī)場(chǎng)的非參數(shù)紋理合成修復(fù)方法,但它需要花費(fèi)大量時(shí)間來(lái)計(jì)算樣本間相似度分?jǐn)?shù);基于此,Wei和Levoy等人(后簡(jiǎn)稱(chēng)為WL 算法)使用了多分辨率金字塔結(jié)構(gòu)設(shè)計(jì)以減少計(jì)算時(shí)間;受其啟發(fā),Ashikhmin改進(jìn)WL 算法以加快算法修復(fù)速度且生成合理自然的紋理樣本。之后研究者試圖使用圖像已知內(nèi)容補(bǔ)全圖像,Drori 等人通過(guò)已知圖像訓(xùn)練集上下文內(nèi)容指導(dǎo)算法迭代完全圖像修復(fù);同時(shí),Levin 等人則于修復(fù)任務(wù)中引入統(tǒng)計(jì)學(xué)思想,通過(guò)基于局部特征的直方圖在圖像上構(gòu)建指數(shù)族分布尋找與已知圖像最為相似的樣本。
為了獲得圖像的結(jié)構(gòu)和紋理信息,Criminisi等人在Efros 模型基礎(chǔ)上復(fù)制結(jié)構(gòu)和紋理信息傳播到破損圖像的缺失區(qū)域,但Criminisi 算法使用的計(jì)算相似度函數(shù)相對(duì)不穩(wěn)定導(dǎo)致樣本填充次序錯(cuò)誤。針對(duì)Criminisi 算法填充次序不準(zhǔn)確,張申華等人引入曲率和梯度信息以獲得更加可靠的樣本修復(fù)次序;方寶龍等人則通過(guò)在Criminisi 算法優(yōu)先權(quán)函數(shù)中引入像素間顏色差值信息;趙娜等人使用馬爾科夫隨機(jī)場(chǎng)作為Criminisi 算法的匹配準(zhǔn)則以提高圖像紋理細(xì)節(jié);Barnes 等人通過(guò)使用快速最近鄰算法搜索相似度最高的樣本,它可以降低搜索過(guò)程中的內(nèi)存消耗和計(jì)算成本。
上述方法通常適用于破損圖像已知區(qū)域與缺失區(qū)域具有相似紋理樣本的情況,為了解決這一不足,Hays 等人在外部數(shù)據(jù)庫(kù)中搜索與破損圖像相似的圖像,提取相似圖像的區(qū)域信息用于填充破損圖像,然而當(dāng)外部數(shù)據(jù)庫(kù)中沒(méi)有與破損圖像相似的圖像時(shí),檢索數(shù)據(jù)庫(kù)會(huì)花費(fèi)大量時(shí)間并且難以獲得高質(zhì)量的修復(fù)結(jié)果。
基于樣本的圖像修復(fù)方法對(duì)于缺失區(qū)域較大且紋理結(jié)構(gòu)簡(jiǎn)單的圖像修復(fù)可以生成高質(zhì)量的修復(fù)結(jié)果,但計(jì)算樣本間相似度需要大量時(shí)間;同時(shí),由于無(wú)法獲得圖像高層語(yǔ)義信息,在修復(fù)結(jié)構(gòu)和紋理復(fù)雜的破損圖像時(shí),會(huì)出現(xiàn)語(yǔ)義錯(cuò)誤、邊緣斷層等不足。
傳統(tǒng)圖像修復(fù)方法雖然在修復(fù)簡(jiǎn)單紋理圖像時(shí)可以生成合理的圖像樣本,然而由于缺乏對(duì)圖像高層語(yǔ)義的理解,這類(lèi)方法修復(fù)復(fù)雜結(jié)構(gòu)圖像時(shí)無(wú)法產(chǎn)生語(yǔ)義一致且視覺(jué)合理的修復(fù)結(jié)果。隨著深度學(xué)習(xí)的深入研究,越來(lái)越多的研究者試圖將深度學(xué)習(xí)模型引入圖像修復(fù)中,生成更好的修復(fù)結(jié)果。
近年來(lái),隨著深度學(xué)習(xí)在圖像處理任務(wù)的深入研究并卓有成效,不少研究者們也開(kāi)始研究深度學(xué)習(xí)的圖像修復(fù)技術(shù),他們嘗試引入不同的深度技術(shù)來(lái)實(shí)現(xiàn)圖像修復(fù)并提出了大量的修復(fù)方法。本文依據(jù)生成圖像數(shù)量的不同,將其分為單元圖像修復(fù)方法和多元圖像修復(fù)方法?;谏疃葘W(xué)習(xí)的圖像修復(fù)方法整體分類(lèi)如圖2 所示。其中,單元圖像修復(fù)方法指對(duì)于單張輸入圖像生成單張修復(fù)圖像,這也是當(dāng)前圖像修復(fù)任務(wù)中最常見(jiàn)的修復(fù)方法。多元圖像修復(fù)方法指對(duì)于單張輸入圖像生成多張修復(fù)圖像,這是近幾年開(kāi)始興起的圖像修復(fù)方法。
圖2 基于深度學(xué)習(xí)的圖像修復(fù)方法整體分類(lèi)Fig.2 Overall classification of image inpainting methods based on deep learning
由于單元圖像修復(fù)方法是修復(fù)領(lǐng)域主流研究方向,為了更好地分類(lèi)并分析這類(lèi)方法,本文依據(jù)模型結(jié)構(gòu)類(lèi)型不同,將低分辨率圖像修復(fù)方法細(xì)分為Encoder-Decoder 類(lèi)、U-Net 類(lèi)、GAN 類(lèi)和Transformer類(lèi)。其中部分修復(fù)方法可能同時(shí)包含多種修復(fù)思想,因此本文分類(lèi)時(shí)僅依據(jù)其重要修復(fù)思想來(lái)確定分類(lèi)。
Encoder-Decoder是一種由自編碼器(AE)衍生的模型結(jié)構(gòu),其模型結(jié)構(gòu)如圖3 所示。它由編碼器、解碼器組成,其中編碼器可以將輸入數(shù)據(jù)壓縮為潛在空間表示,解碼器將習(xí)得特征進(jìn)行重構(gòu)并輸出。它可以有效利用圖像已知內(nèi)容信息,生成與原圖像較為相似的內(nèi)容,在修復(fù)任務(wù)中效果優(yōu)越,同時(shí)由于其模型結(jié)構(gòu)較為簡(jiǎn)單,Encoder-Decoder 類(lèi)方法已逐漸成為近些年較為流行的修復(fù)方法,Encoder-Decoder 類(lèi)圖像修復(fù)方法特點(diǎn)如表3 所示。表中顯示出了不同修復(fù)方法的應(yīng)用圖像分辨率、損失函數(shù)、方法類(lèi)型、方法優(yōu)勢(shì)以及方法局限性。
圖3 編碼器-解碼器模型結(jié)構(gòu)Fig.3 Structure of Encoder-Decoder model
表3 Encoder-Decoder類(lèi)圖像修復(fù)方法特點(diǎn)Table 3 Characteristics of Encoder-Decoder image inpainting methods
Encoder-Decoder 類(lèi)較為經(jīng)典的方法為Pathak 等人提出的基于上下文信息的無(wú)監(jiān)督特征語(yǔ)義修復(fù)方法CE(context encoders)。它可以根據(jù)圖像缺失區(qū)域周?chē)卣餍畔⑸蓤D像任意區(qū)域內(nèi)容,設(shè)計(jì)了上下文編碼器結(jié)構(gòu)結(jié)合生成對(duì)抗思想來(lái)修復(fù)圖像,并使用重建損失聯(lián)合對(duì)抗損失訓(xùn)練上下文編碼器。其中,重建損失旨在獲取圖像缺失區(qū)域的語(yǔ)義信息并保證修復(fù)圖像上下文連貫性,對(duì)抗損失則確保修復(fù)圖像更加真實(shí);然而,其對(duì)抗損失僅應(yīng)用于圖像缺失區(qū)域,忽略了圖像全局區(qū)域,這一設(shè)計(jì)會(huì)使修復(fù)圖像出現(xiàn)邊緣連接不連續(xù)且整體結(jié)構(gòu)不一致。
針對(duì)CE不足,Iizuka 等人引入上下文局部鑒別器用于生成圖像全局和局部語(yǔ)義一致的修復(fù)圖像,同時(shí)模型引入了空洞卷積層增加獲取特征的感受野。Liao 等人在CE基礎(chǔ)上提出了邊緣感知上下文編碼器預(yù)測(cè)圖像邊緣結(jié)構(gòu),并使用全卷積網(wǎng)絡(luò)補(bǔ)全圖像邊緣信息,然后輸入修復(fù)邊緣圖、破損圖像于改進(jìn)CE以實(shí)現(xiàn)圖像補(bǔ)全。Vo 等人通過(guò)引入結(jié)構(gòu)損失于CE模型的第一個(gè)訓(xùn)練階段,第二個(gè)訓(xùn)練階段則是使用對(duì)抗損失優(yōu)化模型結(jié)構(gòu),這一設(shè)計(jì)可以實(shí)現(xiàn)各種視覺(jué)場(chǎng)景的結(jié)構(gòu)修復(fù)。
為了獲得圖像結(jié)構(gòu)合理的實(shí)驗(yàn)結(jié)果,研究者嘗試引入先驗(yàn)信息指導(dǎo)圖像結(jié)構(gòu)修復(fù),Yang 等人設(shè)計(jì)使用殘差塊替代CE中的卷積層設(shè)計(jì)了一個(gè)空間上下文編碼器聯(lián)合結(jié)構(gòu)嵌入為生成器提供結(jié)構(gòu)先驗(yàn)信息,并試圖訓(xùn)練一個(gè)共享生成器同時(shí)修復(fù)破損圖像結(jié)構(gòu)(邊緣和梯度)信息來(lái)補(bǔ)全圖像。Cao 等人繼續(xù)通過(guò)編碼器-解碼器學(xué)習(xí)草圖張量空間來(lái)恢復(fù)圖像的邊緣、線條和連接點(diǎn)進(jìn)而對(duì)圖像整體結(jié)構(gòu)進(jìn)行可靠預(yù)測(cè),同時(shí)作者在網(wǎng)絡(luò)中引入了門(mén)控卷積和高效注意力模塊,以節(jié)約成本的條件下顯著提高模型性能。Wang 等人使用多列結(jié)構(gòu)將圖像分解為具有不同感受野和特征分辨率的分量以預(yù)測(cè)不同尺度圖像的全局和局部結(jié)構(gòu)特征信息,同時(shí)聯(lián)合隱式多樣化馬爾科夫隨機(jī)場(chǎng)項(xiàng)將獲得的預(yù)測(cè)結(jié)構(gòu)信息擴(kuò)散到缺失區(qū)域。
針對(duì)簡(jiǎn)單編解碼器結(jié)構(gòu)的不足,Liu 等人提出了一種交互編碼器-解碼器網(wǎng)絡(luò),使用多尺度思想聯(lián)合修復(fù)圖像的結(jié)構(gòu)和紋理信息,并聯(lián)合雙邊傳播激活函數(shù)來(lái)均衡圖像結(jié)構(gòu)和紋理特征一致性,它有效去除了缺失區(qū)域周?chē)哪:蛡斡啊⑽⑷莸热颂岢鲆粋€(gè)多級(jí)解碼網(wǎng)絡(luò),使用一個(gè)主解碼器和多個(gè)副解碼器細(xì)化編碼階段各層特征信息,這一設(shè)計(jì)可以充分利用不同尺度的圖像特征信息并生成更加精確、視覺(jué)合理的修復(fù)結(jié)果。
上述兩階段網(wǎng)絡(luò)結(jié)構(gòu)的圖像修復(fù)方法需要堆疊卷積層獲取圖像特征信息。因此其會(huì)消耗較大的計(jì)算成本。針對(duì)這一局限性,Sagong 等人提出了一個(gè)由共享編碼網(wǎng)絡(luò)和并行解碼網(wǎng)絡(luò)組成的圖像修復(fù)方法,以減少修復(fù)計(jì)算成本和測(cè)試時(shí)間;并使用語(yǔ)義注意力模塊(contextual attention module,CAM)重建圖像語(yǔ)義特征信息進(jìn)而生成語(yǔ)義合理的修復(fù)圖像。之后,Sagong 等人繼續(xù)在PESPI的基礎(chǔ)上提出了速率自適應(yīng)擴(kuò)張卷積層,根據(jù)給定的擴(kuò)張速率獲得特征信息從而降低成本;同時(shí)設(shè)計(jì)了區(qū)域集成鑒別器集成全局和局部鑒別器,通過(guò)單獨(dú)計(jì)算每個(gè)像素的對(duì)抗損失用于處理任意形狀的缺失區(qū)域。Suin 等人則使用知識(shí)蒸餾思想和注意力轉(zhuǎn)移技術(shù)實(shí)現(xiàn)主編解碼器和輔助編解碼器的圖像信息轉(zhuǎn)移;此外,作者設(shè)計(jì)了一個(gè)像素全局-局部一致結(jié)構(gòu)用于融合圖像全局與局部特征信息。文獻(xiàn)[41,43-44]可以在不明顯降低修復(fù)效果的同時(shí),有效降低模型的參數(shù)量和計(jì)算量。
之前的修復(fù)方法僅僅利用了圖像自身特征,卻忽略了對(duì)應(yīng)掩碼信息?;诖?,Yu 等人使用空間區(qū)域歸一化替換特征歸一化,以對(duì)缺失區(qū)域和已知區(qū)域像素進(jìn)行歸一化并預(yù)測(cè)圖像可能存在的缺失區(qū)域,它可以有效提高損壞區(qū)域重建能力,且RN 模塊為即插即用模塊使用方便,但其對(duì)于具有混合場(chǎng)景圖像的修復(fù)難以生成合理的區(qū)域劃分。Zhu 等人在編碼器中引入了掩碼感知?jiǎng)討B(tài)濾波模塊直接利用掩碼信息處理任意形狀的缺失區(qū)域;同時(shí)作者設(shè)計(jì)了恢復(fù)解碼器和細(xì)化解碼器聯(lián)合逐像素歸一化更好地利用掩碼信息進(jìn)而細(xì)化圖像特征。李健等人設(shè)計(jì)了雙編碼器模型分別對(duì)圖像和掩碼進(jìn)行編碼,使用掩碼信息重建圖像樣本生成;同時(shí)在圖像生成階段使用跳躍連接加快模型收斂。
為了提高修復(fù)圖像的質(zhì)量,Xu 等人在編碼器、解碼器中結(jié)合補(bǔ)丁匹配、檢索和生成機(jī)制從背景區(qū)域中提取圖像樣本的紋理信息引導(dǎo)紋理生成,它結(jié)合了基于樣本和基于深度學(xué)習(xí)的優(yōu)點(diǎn),使用反向傳播的補(bǔ)丁匹配和檢索紋理記憶修復(fù)圖像。Wang等人設(shè)計(jì)了一個(gè)多分辨率部分卷積的并行修復(fù)網(wǎng)絡(luò),低分辨率分支修復(fù)全局結(jié)構(gòu),高分辨率分支修復(fù)局部紋理細(xì)節(jié);此外,模型結(jié)合掩碼感知和注意力引導(dǎo)圖像結(jié)構(gòu)和紋理信息的生成。
雖然圖像修復(fù)方法取得了極大進(jìn)展,但在細(xì)粒度和大區(qū)域的修復(fù)方面仍存在很大的提升空間。據(jù)此,曹承瑞等人提出在AE中使用多級(jí)注意力進(jìn)行特征信息傳播以實(shí)現(xiàn)不同尺度的圖像特征細(xì)化修復(fù)。Yu 等人在編解碼器中引入小波變換思想分別在多個(gè)頻帶上進(jìn)行圖像修復(fù);且使用頻域注意力歸一化,將注意力從低頻聚合到高頻以對(duì)齊和融合多頻特征,它可以確??珙l段的特征一致性并能夠有效抑制偽影和保留紋理細(xì)節(jié)。
現(xiàn)存圖像修復(fù)方法生成高分辨率圖像時(shí)存在顏色不一致的偽影現(xiàn)象,針對(duì)這一不足,Song 等人將修復(fù)任務(wù)分為推理和翻譯階段,其中推理階段根據(jù)樣本間相似度將缺失區(qū)域內(nèi)的每個(gè)神經(jīng)樣本替換為邊界上最相似樣本,翻譯階段學(xué)習(xí)交換特征圖特征信息進(jìn)而映射出完整且清晰的修復(fù)圖像。Wang等人引入外部-內(nèi)部修復(fù)思想于修復(fù)任務(wù)中,在外部學(xué)習(xí)階段重建圖像缺失結(jié)構(gòu)和細(xì)節(jié),在內(nèi)部學(xué)習(xí)階段使用漸進(jìn)式內(nèi)部顏色傳播方法實(shí)現(xiàn)顏色一致修復(fù),它可以生成有效結(jié)構(gòu)且視覺(jué)上優(yōu)秀的修復(fù)結(jié)果,且能夠有效消除顏色不一致的偽影。
U-Net為Ronneberger等人提出的用于圖像分割領(lǐng)域的一種深度網(wǎng)絡(luò)結(jié)構(gòu),它基于全卷積網(wǎng)絡(luò)改進(jìn)而來(lái),其網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。它由左側(cè)下采樣路徑和右側(cè)上采樣路徑組成,并使用跳躍連接融合不同尺度的圖像特征。右側(cè)最后一個(gè)上采樣卷積輸出特征是由左側(cè)第一個(gè)下采樣卷積輸出特征與其上一個(gè)上采樣卷積輸出特征融合得到,以此類(lèi)推。受該特征融合方式啟發(fā),研究者們嘗試使用U-Net 結(jié)構(gòu)進(jìn)行圖像修復(fù),它獨(dú)特的特征融合方式可以學(xué)習(xí)圖像不同尺度的特征信息并進(jìn)而重建出合理的圖像紋理和結(jié)構(gòu)?;诖?,U-Net被廣泛應(yīng)用于圖像修復(fù)中并衍生出大量的圖像修復(fù)方法,U-Net 類(lèi)圖像修復(fù)方法特點(diǎn)如表4 所示。
表4 U-Net類(lèi)圖像修復(fù)方法特點(diǎn)Table 4 Characteristics of U-Net image inpainting methods
圖4 U-Net模型結(jié)構(gòu)Fig.4 Structure of U-Net model
U-Net類(lèi)方法最初由Yan等人提出在U-Net結(jié)構(gòu)中引入移位連接(shift connection,SC)層的圖像修復(fù)方法Shift-Net,它使用SC 層替換全連接層以轉(zhuǎn)移圖像背景區(qū)域特征信息,這一設(shè)計(jì)可以處理任意形狀的缺失區(qū)域,并且可以在更短的時(shí)間內(nèi)得到更加精細(xì)的紋理和視覺(jué)上合理的修復(fù)結(jié)果。Guo 等人使用U-Net 思想提出了一種全分辨率殘差網(wǎng)絡(luò)(full-resolution residual network,F(xiàn)RRN)用于逐步修復(fù)不規(guī)則缺失區(qū)域,F(xiàn)RRN 由多個(gè)全分辨率殘差塊(full-resolution residual block,F(xiàn)RRB)和空洞模塊構(gòu)成,其中FRRB 有助于網(wǎng)絡(luò)收斂和紋理預(yù)測(cè),空洞模塊有助于增加特征感受野,然而它需要較大的模型參數(shù)量。
針對(duì)修復(fù)結(jié)果存在顏色差異、模糊和邊緣不一致不足,Liu 等人在U-Net 結(jié)構(gòu)中使用帶有自動(dòng)掩碼更新的部分卷積來(lái)實(shí)現(xiàn)圖像修復(fù)且無(wú)需任何額外后處理操作,有效消除了偽影問(wèn)題,但其自動(dòng)更新掩碼機(jī)制存在不穩(wěn)定性。Hong 等人采用融合塊作為自適應(yīng)模塊,將圖像的未知區(qū)域與原始圖像結(jié)合起來(lái),使結(jié)構(gòu)和紋理信息可以自然地從已知區(qū)域傳播到缺失區(qū)域中,它可以生成平滑的邊緣過(guò)渡細(xì)節(jié)。
隨后,Zeng 等人在U-Net 結(jié)構(gòu)上引入了多尺度編解碼器結(jié)構(gòu),并且在模型中逐層使用注意力轉(zhuǎn)移網(wǎng)絡(luò)從深到淺地逐層填充圖像的缺失區(qū)域;同時(shí)作者使用跳躍連接將從注意力轉(zhuǎn)移網(wǎng)絡(luò)學(xué)習(xí)到的重構(gòu)特征和潛在特征解碼得到修復(fù)圖像以確保圖像的視覺(jué)和語(yǔ)義修復(fù)結(jié)果。Qin 等人則是基于U-Net 結(jié)構(gòu)引入了多尺度注意力單元以捕獲不同感受野的深層特征,且設(shè)計(jì)了基于最大感受野的掩碼更新思想旨在預(yù)測(cè)邊緣區(qū)域像素。Wang 等人在U-Net編碼器中采用分層金字塔卷積和動(dòng)態(tài)歸一化機(jī)制以獲取不同感受野的圖像特征圖,解碼器中使用金字塔注意力機(jī)制以學(xué)習(xí)更加精細(xì)的特征信息。
上述圖像修復(fù)方法缺乏考慮圖像全局和局部像素連續(xù)性,Liu 等人設(shè)計(jì)了一種連貫語(yǔ)義注意層(coherent semantic attention,CSA),將其引入U(xiǎn)-Net結(jié)構(gòu)中以預(yù)測(cè)圖像缺失內(nèi)容,它可以保留圖像上下文結(jié)構(gòu),并且學(xué)習(xí)有效的圖像缺失區(qū)域特征間的語(yǔ)義相關(guān)性;然而CSA難以學(xué)習(xí)圖像缺失區(qū)域和已知區(qū)域間的對(duì)應(yīng)關(guān)系,可能會(huì)導(dǎo)致修復(fù)結(jié)果出現(xiàn)偽影,且它需要計(jì)算整個(gè)特征圖的樣本間相似度,計(jì)算成本高。Quan 等人設(shè)計(jì)了一個(gè)具有小感受野的局部細(xì)化網(wǎng)絡(luò)獲取圖像局部結(jié)構(gòu)和紋理細(xì)節(jié),一個(gè)基于注意力的具有大感受野的全局細(xì)化網(wǎng)絡(luò)進(jìn)一步提高圖像修復(fù)結(jié)果。
針對(duì)圖像缺失區(qū)域信息未被充分利用,Xie等人在U-Net 結(jié)構(gòu)上引入了可學(xué)習(xí)的注意力圖模塊用于端到端的學(xué)習(xí)特征重新歸一化并自動(dòng)更新掩碼,這一設(shè)計(jì)能夠有效地適應(yīng)不規(guī)則孔洞和卷積層的傳播;同時(shí)作者使用正向和反向注意力圖構(gòu)成可學(xué)習(xí)的雙向注意圖,促使其解碼器更加專(zhuān)注于填充不規(guī)則的缺失區(qū)域。Wang 等人提出了一個(gè)包括掩碼預(yù)測(cè)和魯棒修復(fù)的兩階段視覺(jué)一致性網(wǎng)絡(luò)用于盲修復(fù)任務(wù),掩碼預(yù)測(cè)階段預(yù)測(cè)掩碼區(qū)域,魯棒修復(fù)使用概率上下文歸一化方法修復(fù)預(yù)測(cè)掩碼區(qū)域;該方法對(duì)視覺(jué)不一致的圖像具有魯棒性,有利于各種圖像修復(fù)任務(wù),實(shí)際應(yīng)用更廣。Wang 等人使用動(dòng)態(tài)選擇機(jī)制區(qū)分圖像已知區(qū)域和未知區(qū)域,有效學(xué)習(xí)已知區(qū)域特征信息,并且作者設(shè)計(jì)了可遷移卷積動(dòng)態(tài)選擇空間卷積位置、區(qū)域復(fù)合歸一化融合三種歸一化方法動(dòng)態(tài)歸一化圖像已知區(qū)域。
雖然之前的結(jié)構(gòu)指導(dǎo)圖像修復(fù)方法取得了較大進(jìn)展,然而它們往往難以生成有意義的圖像結(jié)構(gòu)。據(jù)此,Li 等人在U-Net 結(jié)構(gòu)中重復(fù)堆疊了四個(gè)視覺(jué)結(jié)構(gòu)重建層構(gòu)成生成器,旨在逐步恢復(fù)圖像視覺(jué)結(jié)構(gòu);鑒別器由PatchGAN鑒別器與光譜歸一化相結(jié)合組成;它可以幫助模型逐步恢復(fù)丟失的結(jié)構(gòu)(邊緣)進(jìn)而生成圖像丟失的細(xì)節(jié)。Liao 等人設(shè)計(jì)了語(yǔ)義引導(dǎo)和評(píng)估機(jī)制,相互作用以為破損圖像生成準(zhǔn)確的語(yǔ)義信息指導(dǎo)圖像修復(fù)可以有效地提高圖像修復(fù)的性能。Guo 等人將圖像修復(fù)任務(wù)分為結(jié)構(gòu)約束的紋理合成和紋理引導(dǎo)的結(jié)構(gòu)重建兩個(gè)相互作用的子任務(wù),它們單獨(dú)建模并相互補(bǔ)充相互作用以獲得更合理的生成樣本。
為了更好地修復(fù)具有復(fù)雜背景的圖像,Wang 等人將U-Net底層卷積層替換為擴(kuò)張卷積并使用多尺度注意力模塊,設(shè)計(jì)了一個(gè)U-Net生成器以使生成結(jié)果更為清晰;同時(shí)引入風(fēng)格損失和感知損失優(yōu)化模型以生成一致的圖像風(fēng)格,引入對(duì)抗損失以生成精細(xì)的紋理細(xì)節(jié)。Liao 等人使用U-Net 架構(gòu)聯(lián)合語(yǔ)義注意傳播模塊獲取圖像遠(yuǎn)距離語(yǔ)義相關(guān)性,進(jìn)而跨尺度細(xì)化完整的圖像紋理;同時(shí)作者還提出了樣本和結(jié)構(gòu)相關(guān)性損失來(lái)確保修復(fù)圖像的整體結(jié)構(gòu)和詳細(xì)紋理的一致性。Li 等人設(shè)計(jì)了一個(gè)即插即用的循環(huán)特征推理模塊,它利用相鄰像素間相關(guān)性加強(qiáng)預(yù)測(cè)深層像素的約束,進(jìn)而以較低的計(jì)算成本增強(qiáng)了網(wǎng)絡(luò)的修復(fù)能力。
現(xiàn)存基于CNN(convolutional neural network)的圖像修復(fù)方法一般選擇通過(guò)堆疊卷積層來(lái)建立遠(yuǎn)距離特征之間的聯(lián)系,但是由于模型深度增加而導(dǎo)致了模型訓(xùn)練時(shí)間長(zhǎng)、參數(shù)大等問(wèn)題?;诖耍琘i 等人通過(guò)加權(quán)聚合來(lái)自上下文樣本殘差作為缺失內(nèi)容生成高頻殘差,因此其只需要粗略的低分辨率預(yù)測(cè)結(jié)果;同時(shí)作者使用了注意力模塊計(jì)算注意力得分,并在U-Net結(jié)構(gòu)上進(jìn)行注意力轉(zhuǎn)移,這一設(shè)計(jì)可以在多尺度上提升圖像修復(fù)質(zhì)量;此外,作者還設(shè)計(jì)了一個(gè)輕量級(jí)門(mén)控卷積網(wǎng)絡(luò)降低模型內(nèi)存成本和計(jì)算時(shí)間。
GAN是由Goodfellow 等人提出的一種利用零和博弈思想預(yù)測(cè)生成模型的網(wǎng)絡(luò)框架,其框架結(jié)構(gòu)如圖5 所示。它由生成器(generator,G)和鑒別器(discriminator,D)組成,其中G 根據(jù)隨機(jī)噪聲生成圖像,D 用于判斷生成圖像是否真實(shí),G 和D 不斷博弈直至達(dá)到平衡。正因這種對(duì)抗思想,生成圖像能更接近原始圖像,因此研究人員嘗試將GAN 思想引入圖像修復(fù)任務(wù)并取得了較優(yōu)的修復(fù)結(jié)果。CE是首次將生成對(duì)抗思想應(yīng)用于圖像修復(fù)任務(wù)的嘗試,并且取得了有效的進(jìn)展,這為后續(xù)圖像修復(fù)的研究提供了堅(jiān)實(shí)的基礎(chǔ)。GAN 類(lèi)圖像修復(fù)方法特點(diǎn)如表5所示。
表5 GAN 類(lèi)圖像修復(fù)方法特點(diǎn)Table 5 Characteristics of GAN image inpainting methods
圖5 生成對(duì)抗網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.5 Structure of GAN model
由于GAN更適用于人臉圖像的修復(fù),Yeh等人使用預(yù)訓(xùn)練的深度卷積GAN(deep convolution GAN,DCGAN),結(jié)合先驗(yàn)知識(shí)和上下文損失來(lái)預(yù)測(cè)缺失區(qū)域內(nèi)容,然而預(yù)訓(xùn)練的GAN 不穩(wěn)定,容易坍塌。Li等人則在CE基礎(chǔ)上加入了解析網(wǎng)絡(luò)確保生成樣本更加逼真,局部鑒別器獲取人臉圖像局部細(xì)節(jié)。Sun 等人使用DCGAN設(shè)計(jì)了一個(gè)基于U-Net的面部標(biāo)志生成器生成合理且逼真的頭部修復(fù)細(xì)節(jié)。
之后,Dolhansky 等人則是設(shè)計(jì)了一個(gè)示例GAN,利用已知區(qū)域的示例信息來(lái)實(shí)現(xiàn)自然圖片的閉眼修復(fù)。Liao 等人使用協(xié)作GAN 聯(lián)合學(xué)習(xí)圖像的語(yǔ)義分割、地標(biāo)檢測(cè)和面部補(bǔ)全任務(wù),以實(shí)現(xiàn)結(jié)構(gòu)準(zhǔn)確的面部修復(fù)。其后,為了生成視覺(jué)合理的人臉面部結(jié)構(gòu),Zhang 等人設(shè)計(jì)了一個(gè)域嵌入GAN,通過(guò)分層變分AE將三種人臉特征嵌入到空間中,并使用兩個(gè)基于PatchGAN的鑒別器來(lái)判斷人臉面部是否真實(shí)。
由于CNN無(wú)法捕獲遠(yuǎn)距離特征,當(dāng)在修復(fù)高分辨率圖像時(shí),會(huì)生成模糊且邊界不一致的偽影。據(jù)此,Yang 等人提出了內(nèi)容約束和紋理約束兩個(gè)步驟修復(fù)圖像,其中內(nèi)容約束通過(guò)訓(xùn)練CE生成器預(yù)測(cè)粗略修復(fù)結(jié)果,紋理約束使用多尺度神經(jīng)樣本合成方法重復(fù)計(jì)算局部神經(jīng)樣本相似度以預(yù)測(cè)圖像紋理細(xì)節(jié)。為解決文獻(xiàn)[84]修復(fù)大缺失區(qū)域時(shí)會(huì)出現(xiàn)偽影的不足,Zeng 等人使用每次迭代中置信度值最高的像素來(lái)逐步填充缺失區(qū)域,并在下次迭代中根據(jù)置信度值關(guān)注剩余像素,這一設(shè)計(jì)將先前迭代像素視作已知區(qū)域,可以逐步改善修復(fù)結(jié)果;同時(shí)模型使用指導(dǎo)上采樣網(wǎng)絡(luò)并引入語(yǔ)義注意力模塊實(shí)現(xiàn)高分辨率圖像修復(fù)。文獻(xiàn)[84-85]雖然可以修復(fù)高分辨率圖像的精細(xì)紋理細(xì)節(jié),然其需要重復(fù)迭代計(jì)算相似度,計(jì)算資源大。
為了消除修復(fù)圖像偽影生成且生成更高質(zhì)量的高分辨率修復(fù)結(jié)果,Yu 等人引入空洞卷積于修復(fù)網(wǎng)絡(luò)中以擴(kuò)大卷積層感受野,且使用上下文注意模塊遠(yuǎn)距離尋找最相似的樣本塊填充圖像;同時(shí)作者在模型中引入了全局和局部Wasserstein GAN聯(lián)合空間衰減重建損失以提高訓(xùn)練穩(wěn)定性和速度。然而文獻(xiàn)[42]沒(méi)有考慮缺失區(qū)域內(nèi)部特征間的相似性,修復(fù)結(jié)果會(huì)出現(xiàn)邊緣偽影、邊界像素不一致的現(xiàn)象。基于此,Yu 等人提出了一個(gè)用戶(hù)草圖指導(dǎo)圖像修復(fù)的方法,通過(guò)引入門(mén)控卷積解決卷積層錯(cuò)誤判斷像素的不足,并且使其可以提高圖像顏色一致性和修復(fù)不規(guī)則區(qū)域圖像質(zhì)量;同時(shí)作者提出了一個(gè)修復(fù)不規(guī)則缺失區(qū)域的樣本鑒別器SN-PatchGAN,以生成高質(zhì)量的修復(fù)結(jié)果并加快訓(xùn)練速度。
上述方法缺少結(jié)構(gòu)信息,這會(huì)導(dǎo)致不同物體間的邊界模糊,基于此,Song 等人首次將語(yǔ)義分割引入修復(fù)任務(wù),提出了先分割后修復(fù)的方法,它首先使用生成器預(yù)測(cè)分割標(biāo)簽,接著使用分割信息引導(dǎo)修復(fù),最后使用多尺度PatchGAN的鑒別器判斷生成圖像真假。然而當(dāng)破損圖像背景混亂或冗雜時(shí),圖像語(yǔ)義信息較難準(zhǔn)確區(qū)分,因此Xiong 等人首先使用深度模型學(xué)習(xí)圖像前景特征以預(yù)測(cè)輪廓信息,并使用由PatchGAN組成的輪廓鑒別器判別預(yù)測(cè)輪廓,之后使用預(yù)測(cè)輪廓信息指導(dǎo)破損圖像補(bǔ)全;它能夠生成自然輪廓信息,有利于圖像修復(fù)。
雖然結(jié)構(gòu)先驗(yàn)指導(dǎo)圖像修復(fù)提升了修復(fù)性能,卻忽略了圖像的紋理細(xì)節(jié)。因此,Ren 等人設(shè)計(jì)了結(jié)構(gòu)重構(gòu)器和紋理生成器,其中結(jié)構(gòu)重構(gòu)器旨在恢復(fù)圖像全局結(jié)構(gòu),紋理生成器引入外觀流合成高頻紋理細(xì)節(jié)。Nazeri 等人則是結(jié)合邊緣先驗(yàn)信息和PatchGAN的修復(fù)模型預(yù)測(cè)圖像邊緣信息,進(jìn)而指導(dǎo)圖像修復(fù)。之后,王富平等人設(shè)計(jì)了門(mén)卷積GAN,它由邊緣連接GAN 和圖像補(bǔ)全GAN 組成,使用門(mén)卷積學(xué)習(xí)更大感受野的人臉結(jié)構(gòu)信息。它們可以有效避免結(jié)構(gòu)預(yù)測(cè)錯(cuò)誤對(duì)圖像修復(fù)結(jié)果的影響,并且適用于部分高度結(jié)構(gòu)化場(chǎng)景圖像。
為了加快推理修復(fù)速度,Lahiri 等人訓(xùn)練一個(gè)PG-GAN和深度神經(jīng)網(wǎng)絡(luò)從給定的破損圖像中獲取噪聲特征信息,并使用噪聲先驗(yàn)信息指導(dǎo)預(yù)訓(xùn)練GAN 修復(fù)圖像;增加噪聲先驗(yàn)知識(shí)有利于提高樣本數(shù)據(jù)集質(zhì)量,且獲得更好的姿勢(shì)和方向特征。Zeng等人在PatchGAN生成器引入上下文重建損失,通過(guò)保留和推動(dòng)復(fù)制粘貼圖像上下文特征信息填充缺失區(qū)域。
針對(duì)大缺失區(qū)域的像素填充,Zhang 等人將課程學(xué)習(xí)思想引入修復(fù)任務(wù)中,并使用長(zhǎng)短期記憶框架串行所有子任務(wù);它可以提高修復(fù)速度和效率,然而它并不適用于不規(guī)則缺失區(qū)域的修復(fù)。雖然文獻(xiàn)[94]對(duì)于混合場(chǎng)景修復(fù)取得了有效進(jìn)展,然其仍有改進(jìn)空間。因此,Ardino 等人通過(guò)刪除用戶(hù)指定圖像部分并在該場(chǎng)景中插入新對(duì)象(例如汽車(chē)、行人)來(lái)修復(fù)復(fù)雜城市場(chǎng)景。作者設(shè)計(jì)了一個(gè)基于空間自適應(yīng)歸一化的生成器,結(jié)合語(yǔ)義分割和生成任務(wù)以更好地指導(dǎo)新對(duì)象和場(chǎng)景的生成,并且保持語(yǔ)義一致。
圖像修復(fù)在細(xì)粒度的紋理細(xì)節(jié)修復(fù)上仍存在較大提升空間。因此,Hui 等人設(shè)計(jì)了一個(gè)密集多尺度融合塊,它由四組空洞卷積組成以獲得更大和更有效的感受野;同時(shí)模型使用了VGG 特征匹配損失和自導(dǎo)回歸損失訓(xùn)練GAN,在一定程度上糾正了語(yǔ)義結(jié)構(gòu)錯(cuò)誤。李克文等人在修復(fù)中引入了多尺度鑒別器,其中不同尺度的鑒別器具有不同的感受野以生成更加精細(xì)的細(xì)節(jié),并結(jié)合WGAN(Wasserstein GAN)思想介紹梯度消失或爆炸的不足。Zeng 等人繼而提出了一種聚合上下文轉(zhuǎn)換GAN(aggregated contextual-transformation GAN,AOTGAN)用于實(shí)現(xiàn)高分辨率的大缺失區(qū)域細(xì)粒度紋理合成,其中AOTGAN 由生成器和鑒別器組成,生成器由多個(gè)AOT 塊堆疊而成以聚合來(lái)自不同卷積層感受野的上下文轉(zhuǎn)換,從而獲取到合理的遠(yuǎn)距離圖像內(nèi)容進(jìn)而預(yù)測(cè)上下文缺失內(nèi)容;鑒別器使用基于掩碼預(yù)測(cè)模塊的PatchGAN有效鑒別真實(shí)和合成紋理。
Transformer是由Vaswani 等人提出的一種使用自注意力機(jī)制連接編碼器和解碼器的一種新的網(wǎng)絡(luò)架構(gòu),其網(wǎng)絡(luò)結(jié)構(gòu)圖如圖6 所示。
圖6 Transformer模型結(jié)構(gòu)Fig.6 Structure of Transformermodel
Transformer 由編碼器和解碼器組成,其中編碼器由6 個(gè)相同的層組成,每個(gè)層包含多頭自注意力機(jī)制、全連接前饋網(wǎng)絡(luò)兩個(gè)子層,每個(gè)子層都使用一個(gè)殘差連接并進(jìn)行層歸一化;解碼器同樣由6 個(gè)相同的層組成,每個(gè)層包含掩蔽多頭自注意力機(jī)制、多頭自注意力機(jī)制和全連接前饋網(wǎng)絡(luò)3 個(gè)子層,每個(gè)子層都使用一個(gè)殘差連接并進(jìn)行層歸一化。Transformer通過(guò)使用自注意力機(jī)制有效解決了卷積層只能獲取局部感受野的不足,最初被用于機(jī)器翻譯任務(wù)并取得了較大進(jìn)展。因其不需要遞歸和卷積,所需訓(xùn)練時(shí)間更短,研究人員將其引入修復(fù)任務(wù)以學(xué)習(xí)圖像全局內(nèi)容,進(jìn)而實(shí)現(xiàn)較大缺失區(qū)域的圖像補(bǔ)全。Transformer類(lèi)圖像修復(fù)方法特點(diǎn)如表6 所示。
表6 Transformer類(lèi)圖像修復(fù)方法特點(diǎn)Table 6 Characteristics of Transformer image inpainting methods
基于此,Zhou 等人首次提出使用Transformer修復(fù)復(fù)雜場(chǎng)景圖像,模型首先根據(jù)原始圖像的預(yù)測(cè)深度圖對(duì)齊目標(biāo)圖像以實(shí)現(xiàn)圖像的粗略修復(fù),之后作者設(shè)計(jì)了顏色空間轉(zhuǎn)換器以實(shí)現(xiàn)圖像的顏色和空間匹配,最后使用融合模塊合并上述修復(fù)結(jié)果;它可以修復(fù)含復(fù)雜深度的大缺失區(qū)域圖像,然其并不適用于低光照或極端照明環(huán)境變化的圖像。隨后,Wang等人設(shè)計(jì)了一個(gè)兩階段盲人臉修復(fù)方法,它首先使用頻率引導(dǎo)Transformer通過(guò)學(xué)習(xí)圖像上下文間的關(guān)系以檢測(cè)圖像的缺失區(qū)域,隨后通過(guò)自上而下的細(xì)化編碼器-解碼器架構(gòu)來(lái)分層修復(fù)圖像特征,以生成語(yǔ)義一致的缺失內(nèi)容;然而該模型難以修復(fù)圖像中的較小視覺(jué)區(qū)域。
為了實(shí)現(xiàn)高保真圖像的細(xì)節(jié)修復(fù),Zheng 等人提出了一個(gè)基于Transformer的編碼器獲取低分辨率圖像的粗略結(jié)果,隨后在細(xì)化階段使用自適應(yīng)注意力感知層實(shí)現(xiàn)圖像的語(yǔ)義轉(zhuǎn)移,以獲取較高質(zhì)量和分辨率的圖像。Dong 等人設(shè)計(jì)了一個(gè)增量Transformer 結(jié)構(gòu)修復(fù)網(wǎng)絡(luò),它分別使用掩蔽位置編碼提高模型對(duì)于不同掩碼的泛化能力,Transformer結(jié)構(gòu)恢復(fù)器恢復(fù)圖像結(jié)構(gòu),結(jié)構(gòu)特征編碼器對(duì)圖像結(jié)構(gòu)特征進(jìn)行編碼和傅里葉CNN 紋理恢復(fù)器修復(fù)圖像的紋理信息,這些設(shè)計(jì)可以提高模型修復(fù)大缺失區(qū)域的性能。
雖然圖像修復(fù)任務(wù)已取得了卓然成就,然而研究人員仍重點(diǎn)研究單元圖像修復(fù)方法。圖像修復(fù)是一項(xiàng)不穩(wěn)定的任務(wù),它的輸出結(jié)果不應(yīng)受到限制,應(yīng)是具有多樣性的,只要保證輸出結(jié)果合理自然便可以認(rèn)作是較好的修復(fù)結(jié)果?;诖耍芯咳藛T嘗試使用VAE、卷積變分自編碼器(convolutional variational auto-encoder,CVAE)、GAN等模型架構(gòu)以實(shí)現(xiàn)多張修復(fù)圖像,并提出了部分多元圖像修復(fù)方法。多元圖像修復(fù)方法特點(diǎn)如表7 所示。
表7 多元圖像修復(fù)方法特點(diǎn)Table 7 Characteristics of pluralistic image inpainting methods
鑒于此,Han 等人首次提出了一個(gè)兩階段框架的多元時(shí)尚圖像修復(fù)方法,它使用形狀生成網(wǎng)絡(luò)和外觀生成網(wǎng)絡(luò)分別生成圖像的形狀和外觀,每一個(gè)生成網(wǎng)絡(luò)都有一個(gè)重建圖像的生成器、兩個(gè)交互的編碼器網(wǎng)絡(luò)以實(shí)現(xiàn)圖像的多樣性。Dupont 等人引入PixelCNN 模型至修復(fù)任務(wù)中,進(jìn)而提出了一個(gè)像素約束CNN 以可見(jiàn)像素為條件的圖像分布中執(zhí)行概率語(yǔ)義修復(fù)的模型。
上述修復(fù)方法缺乏先驗(yàn)特征信息,難以生成較為合理的語(yǔ)義結(jié)構(gòu)。因此,Zheng 等人使用兩個(gè)并行且連接的訓(xùn)練路徑并聯(lián)合GAN進(jìn)行多樣性修復(fù),分別是重建路徑和生成路徑,其中重建路徑使用VAE 結(jié)構(gòu)學(xué)習(xí)圖像掩碼分布,生成路徑使用先驗(yàn)信息指導(dǎo)圖像進(jìn)行多樣性修復(fù)。Zhang 等人在文本引導(dǎo)網(wǎng)絡(luò)中使用雙重多模態(tài)注意力機(jī)制提取圖像缺失區(qū)域的顯示語(yǔ)義信息,并提出了圖像-文本匹配損失最大化生成圖像區(qū)域和文本語(yǔ)義相似度,它能夠得到更豐富的語(yǔ)義信息,并且可以輸入不同文本以獲得多元化輸出結(jié)果。
Zhao 等人則試圖以掩碼圖像為先驗(yàn)信息指導(dǎo)網(wǎng)絡(luò)進(jìn)行多元化修復(fù),它主要分為三個(gè)模塊:第一個(gè)是條件編碼模塊,它通過(guò)輸入掩碼圖像學(xué)習(xí)條件分布信息;第二個(gè)是流形投影模塊,它將掩碼分布信息和實(shí)例圖像空間投影到共同的低維流形空間,學(xué)習(xí)兩個(gè)空間之間的一對(duì)一映射;第三個(gè)是生成模塊,以生成多元化圖像。
現(xiàn)存多元圖像修復(fù)方法很難保證每個(gè)修復(fù)圖像質(zhì)量,可能會(huì)生成扭曲結(jié)構(gòu)或模糊紋理。針對(duì)這一不足,Peng 等人設(shè)計(jì)了一個(gè)基于分層向量量化變分AE 用于生成圖像修復(fù)的多樣化結(jié)構(gòu),并使用紋理生成器聯(lián)合結(jié)構(gòu)注意模塊實(shí)現(xiàn)圖像的紋理真實(shí)和結(jié)構(gòu)一致。Liu 等人根據(jù)不同隨機(jī)噪聲生成不同的圖像內(nèi)容,作者提出了一個(gè)空間概率多樣性歸一化模塊以確保圖像生成的多樣性和真實(shí)性,并聯(lián)合感知多樣性損失以進(jìn)一步增強(qiáng)網(wǎng)絡(luò)多樣性?xún)?nèi)容生成能力。
前述使用由粗到細(xì)的架構(gòu)可以實(shí)現(xiàn)修復(fù)的高質(zhì)量生成,然而這種方法粗略結(jié)果會(huì)影響最后的生成結(jié)果,因此Phutke 等人認(rèn)為相比堆疊網(wǎng)絡(luò)獲取較大感受野,以較小的參數(shù)量獲取不同的感受野能夠?qū)崿F(xiàn)更優(yōu)秀的修復(fù)結(jié)果,作者提出了一個(gè)輕量級(jí)的對(duì)抗并發(fā)編碼器,通過(guò)結(jié)合不同感受野和并發(fā)解碼器降低模型計(jì)算量,獲取多樣化生成結(jié)果。
隨著Transformer在單元修復(fù)任務(wù)中的卓越表現(xiàn),Yu 等人嘗試將其引入多元修復(fù)任務(wù),提出了一個(gè)雙向自回歸Transformer 學(xué)習(xí)圖像的自回歸分布以提高模型的遠(yuǎn)距離獲取能力,修復(fù)圖像的多樣化結(jié)構(gòu);同時(shí)模型使用基于CNN的紋理生成器修復(fù)圖像紋理細(xì)節(jié)。Wan 等人使用雙向Transformer 實(shí)現(xiàn)低分辨率圖像多樣性外觀重建,并使用上采樣CNN網(wǎng)絡(luò)經(jīng)外觀先驗(yàn)指導(dǎo)圖像高保真紋理細(xì)節(jié)修復(fù)。
雖然多元圖像修復(fù)取得了較大進(jìn)展,然而其在大缺失區(qū)域、高分辨率等圖像修復(fù)方面存在不足。為此,Zhao 等人提出了一個(gè)協(xié)作調(diào)制GAN,通過(guò)協(xié)同調(diào)制嵌入條件和隨機(jī)樣式表示以生成多樣化且語(yǔ)義一致的圖像。受此啟發(fā),Li 等人設(shè)計(jì)了一個(gè)掩碼感知Transformer 實(shí)現(xiàn)高分辨率的大缺失區(qū)域圖像修復(fù),其中作者提出了一個(gè)多頭上下文注意力利用動(dòng)態(tài)掩碼的有效標(biāo)記實(shí)現(xiàn)信息的遠(yuǎn)程交互;同時(shí)作者提出了一個(gè)樣式操作模塊以確保生成多樣性。Liu 等人設(shè)計(jì)了一個(gè)基于樣本的向量量化VAE 以非重疊的設(shè)計(jì)修復(fù)破損圖像并保持已知區(qū)域不變,同時(shí)作者提出了一個(gè)非量化Transformer 將避免圖像信息丟失,從而實(shí)現(xiàn)圖像多樣化預(yù)測(cè)。
基于深度學(xué)習(xí)的圖像修復(fù)方法不僅可以生成語(yǔ)義一致且視覺(jué)合理的修復(fù)結(jié)果,同時(shí)可以修復(fù)大面積缺失區(qū)域和不規(guī)則缺失區(qū)域的破損圖像。但是其仍存在以下不足:(1)該類(lèi)方法要么生成高質(zhì)量圖像但分辨率較低,要么生成高分辨率圖像但圖像質(zhì)量較低;(2)該類(lèi)方法對(duì)于大缺失區(qū)域的修復(fù)仍然具有較大挑戰(zhàn),修復(fù)圖像會(huì)出現(xiàn)模糊偽影、顏色差異等不合理內(nèi)容;(3)Transformer 類(lèi)修復(fù)方法雖然可以獲取較大感受野,進(jìn)而對(duì)高分辨率圖像修復(fù)取得較優(yōu)結(jié)果,但是這類(lèi)方法需要大量計(jì)算成本。因此,接下來(lái)將重點(diǎn)研究如何在計(jì)算成本低的條件下實(shí)現(xiàn)高保真圖像的修復(fù)、高分辨率圖像的修復(fù)和大缺失區(qū)域的修復(fù)。
現(xiàn)有基于深度學(xué)習(xí)的圖像修復(fù)方法需要在大量圖像上進(jìn)行實(shí)驗(yàn)進(jìn)而評(píng)估方法的有效性,同時(shí)它也需要通過(guò)訓(xùn)練大量圖像進(jìn)而學(xué)習(xí)圖像特征信息。然而收集圖像和對(duì)應(yīng)破損圖像是非常困難的,因此研究人員通常在訓(xùn)練和測(cè)試時(shí)經(jīng)常會(huì)使用公共圖像數(shù)據(jù)集,并在圖像中添加掩碼圖像以生成破損圖像。表8 給出了關(guān)于圖像修復(fù)常用數(shù)據(jù)集的簡(jiǎn)要描述。表中顯示出了不同數(shù)據(jù)集的類(lèi)型、提出時(shí)間、數(shù)據(jù)集圖像數(shù)量、圖像分辨率(“—”表示圖像分辨率不定)以及使用方法。
表8 常用數(shù)據(jù)集描述Table 8 Description of common datasets
當(dāng)前常用圖像修復(fù)數(shù)據(jù)集被分為掩碼圖像數(shù)據(jù)集和圖像數(shù)據(jù)集。圖7 給出了部分掩碼數(shù)據(jù)集示例圖像,掩碼圖像數(shù)據(jù)集由規(guī)則掩碼和不規(guī)則掩碼組成。其中,規(guī)則掩碼一般為研究人員直接在圖像中心或任意位置添加矩形掩碼;不規(guī)則掩碼通常是任意形狀的,目前廣泛使用的兩個(gè)大型掩碼數(shù)據(jù)集,分別是Nvidia 不規(guī)則掩碼數(shù)據(jù)集和快速繪制不規(guī)則掩碼數(shù)據(jù)集。
圖7 部分掩碼數(shù)據(jù)集示例圖Fig.7 Some mask dataset sample images
圖像數(shù)據(jù)集可以被分為建筑、紋理、街景、場(chǎng)景、人臉數(shù)據(jù)集。圖8 給出了部分圖像數(shù)據(jù)集示例圖像。其中,常用建筑數(shù)據(jù)集為Facade 建筑物圖像數(shù)據(jù)集,它是一個(gè)來(lái)自世界各地不同城市的立面圖像數(shù)據(jù)集。這類(lèi)數(shù)據(jù)集具有結(jié)構(gòu)對(duì)稱(chēng)、對(duì)象單一、背景簡(jiǎn)單的特點(diǎn),因此修復(fù)難度低。紋理數(shù)據(jù)集常見(jiàn)為DTD 數(shù)據(jù)集,它是一個(gè)從Google 和Flickr 收集的真實(shí)世界的紋理圖像數(shù)據(jù)集。這類(lèi)數(shù)據(jù)集涵蓋類(lèi)別較多、組成復(fù)雜、語(yǔ)義相關(guān)不明顯,因此可以得出相較Facade數(shù)據(jù)集,增加了一定修復(fù)難度。
圖8 部分圖像數(shù)據(jù)集示例圖Fig.8 Sample images of some image datasets
街景圖像數(shù)據(jù)集包括谷歌街景數(shù)字圖像數(shù)據(jù)集SVHN、巴黎街景圖像數(shù)據(jù)集Paris StreetView和城市街景數(shù)據(jù)集Cityscapes,這類(lèi)數(shù)據(jù)集通常是從街景數(shù)據(jù)集中收集的來(lái)自世界各地不同城市的街景圖像;場(chǎng)景數(shù)據(jù)集包含日常場(chǎng)景圖像數(shù)據(jù)集MS COCO、大規(guī)模多場(chǎng)景圖像數(shù)據(jù)集ImageNet和自然場(chǎng)景圖像數(shù)據(jù)集Places2,它是從日常場(chǎng)景或野外自然場(chǎng)景中收集得到的圖像;這兩類(lèi)數(shù)據(jù)集包含多個(gè)場(chǎng)景語(yǔ)義類(lèi)別,基本上涵蓋了真實(shí)世界98%的場(chǎng)景,由于其背景復(fù)雜、類(lèi)別眾多,且背景區(qū)域占比面積較大,修復(fù)難度較大。
人臉圖像數(shù)據(jù)集包含人臉標(biāo)志數(shù)據(jù)集Helen Face、大型人臉屬性數(shù)據(jù)集CelebA、CelebA的高質(zhì)量圖像數(shù)據(jù)集CelebA-HQ和多樣化的高質(zhì)量人臉數(shù)據(jù)集FFHQ,這類(lèi)數(shù)據(jù)集中的圖像通常包含大量姿勢(shì)變化和背景混亂、豐富的注釋?zhuān)渲幸粡垐D像一般只包含一張人臉,并且圖像背景較為簡(jiǎn)單,因此相對(duì)前四種數(shù)據(jù)集,其修復(fù)難度較低。
為了評(píng)估圖像修復(fù)方法的性能,研究人員研發(fā)出了不同的評(píng)價(jià)指標(biāo)來(lái)評(píng)價(jià)其生成的修復(fù)圖像。它可以被分為主觀評(píng)價(jià)指標(biāo)和客觀評(píng)價(jià)指標(biāo),主觀評(píng)價(jià)指標(biāo)是指利用人類(lèi)的肉眼感知能力判斷生成圖像與原始圖像是否一致,然而這類(lèi)評(píng)價(jià)指標(biāo)主要依賴(lài)于人類(lèi)的主觀判斷能力,需要大量的觀察者和大量的評(píng)價(jià)對(duì)象才能保證評(píng)價(jià)結(jié)果一致性,這類(lèi)方法耗時(shí)耗力同時(shí)需要良好的觀測(cè)環(huán)境;因此,客觀評(píng)價(jià)指標(biāo)應(yīng)運(yùn)而生,它是指使用不同的數(shù)學(xué)公式對(duì)生成圖像進(jìn)行量化評(píng)價(jià),常用的客觀評(píng)價(jià)指標(biāo)特點(diǎn)如表9所示。
表9 給出了圖像修復(fù)常用客觀評(píng)價(jià)指標(biāo)的特點(diǎn),分為:(1)類(lèi)型,其中全參考是指選擇原始圖像作為參考圖像,比較生成圖像與原始圖像之間的差異;半?yún)⒖际侵高x擇部分原始圖像作為參考,對(duì)生成圖像進(jìn)行比較分析;無(wú)參考是指無(wú)需原始圖像,直接對(duì)生成圖像進(jìn)行比較分析。(2)數(shù)值大小,其中“↑”表示數(shù)值越大圖像質(zhì)量越好,“↓”表示數(shù)值越小圖像質(zhì)量越好。(3)作用,評(píng)價(jià)指標(biāo)判斷圖像不同角度的優(yōu)劣。(4)優(yōu)勢(shì)。(5)局限性。
表9 圖像評(píng)價(jià)指標(biāo)特點(diǎn)Table 9 Characteristics of image evaluation index
(1)平均絕對(duì)誤差(mean absolute error,MAE)是指修復(fù)圖像與原始圖像像素值間的絕對(duì)差值總和的平均值,其主要用于評(píng)價(jià)修復(fù)圖像與原始圖像的差異。其計(jì)算公式如式(1)所示:
其中,表示生成圖像;表示原始圖像;表示圖像像素點(diǎn)總量;表示圖像像素點(diǎn)變量。
(2)均方誤差(mean square error,MSE)是指修復(fù)圖像與原始圖像像素值間的差值平方總和的平均值,其主要用于評(píng)價(jià)修復(fù)圖像與原始圖像的相似度。其計(jì)算公式如式(2)所示:
(3)通用質(zhì)量指數(shù)(universal quality index,UQI)是一個(gè)通過(guò)將圖像失真建模為相關(guān)性損失、亮度失真和對(duì)比度失真三個(gè)因素的組合來(lái)評(píng)估圖像的質(zhì)量,它易于計(jì)算且適用于各種圖像處理任務(wù)。其計(jì)算公式如式(3)所示:
其中,δ表示原始圖像的像素標(biāo)準(zhǔn)差,δ表示生成圖像的像素標(biāo)準(zhǔn)差,δ表示生成圖像與原始圖像的像素協(xié)方差。
(4)峰值信噪比(peak signal to noise ratio,PSNR)一般用于評(píng)估含噪圖像的質(zhì)量。當(dāng)PSNR 值為48 dB時(shí),生成圖像質(zhì)量最好。其計(jì)算公式如式(4)所示:
其中,表示生成圖像中像素信號(hào)的最大值,表示生成圖像與原始(含噪)圖像的均方誤差。
(5)結(jié)構(gòu)相似指數(shù)度量(structure similarity index measure,SSIM)通過(guò)對(duì)生成修復(fù)圖像與原始圖像的結(jié)構(gòu)相似度、亮度和對(duì)比度三個(gè)因素度量進(jìn)而評(píng)估兩幅圖像的相似性。其計(jì)算公式如式(5)~(8)所示:
其中,(,)、(,)、(,)表示原始圖像與生成圖像的亮度、對(duì)比度、結(jié)構(gòu)相似度估計(jì)值,μ表示原始圖像的像素均值,μ表示生成圖像的像素均值,、、均表示常量。
(6)多尺度結(jié)構(gòu)相似數(shù)度量(multi-scale structure similarity index measure,MS-SSIM)是通過(guò)結(jié)合圖像分辨率和觀察條件的變化進(jìn)而評(píng)估圖像相似性的客觀評(píng)價(jià)指標(biāo)。其計(jì)算公式如式(9)所示:
其中,表示圖像尺度數(shù),與原始圖像的亮度、對(duì)比度、結(jié)構(gòu)相似度估計(jì)值,α、β、γ均為非零常量,用于調(diào)整不同分量的相對(duì)重要性。
(7)學(xué)習(xí)感知圖像塊相似度(learned perceptual image patch similarity,LPIPS)是一個(gè)基于學(xué)習(xí)的感知相似度評(píng)價(jià)指標(biāo),相比PSNR、SSIM,它更符合人類(lèi)的感知能力。其計(jì)算公式如式(10)所示:
(8)Fréchet 初始距離(Fréchet inception distance,F(xiàn)ID)是計(jì)算生成修復(fù)圖像與原始圖像的特征向量之間距離的評(píng)價(jià)指標(biāo),它是IS的改進(jìn),用于評(píng)估生成對(duì)抗網(wǎng)絡(luò)的性能。其計(jì)算公式如式(11)所示:
其中,μ表示原始圖像的特征均值,μ表示生成圖像的特征均值。
(9)邊界像素誤差(border pixel error,BPE)通過(guò)計(jì)算邊界區(qū)域附近的像素誤差進(jìn)而評(píng)估生成圖像缺失區(qū)域邊界修復(fù)質(zhì)量。其計(jì)算公式如式(12)所示:
(10)初始分?jǐn)?shù)(inception score,IS)是一個(gè)基于Inception 網(wǎng)絡(luò)的評(píng)價(jià)指標(biāo),它通過(guò)生成圖像的質(zhì)量和多樣性來(lái)評(píng)價(jià)生成模型的性能。其計(jì)算公式如式(13)所示:
其中,表示生成圖像;表示經(jīng)Inception 網(wǎng)絡(luò)得到的向量;表示生成圖像數(shù)量;表示生成圖像數(shù)量變量。
(11)改進(jìn)初始分?jǐn)?shù)(modified inception score,MIS)是由Zhao 等提出的一個(gè)評(píng)價(jià)指標(biāo),它在IS的基礎(chǔ)上進(jìn)行改進(jìn)是為了更好地評(píng)估生成修復(fù)圖像的質(zhì)量。相比IS,MIS 更適合在圖像修復(fù)任務(wù)中評(píng)估修復(fù)圖像質(zhì)量。其計(jì)算公式如式(14)所示:
其中,表示原始圖像;表示預(yù)訓(xùn)練模型預(yù)測(cè)的標(biāo)簽;p表示真實(shí)圖像的模型分布;表示生成圖像數(shù)量變量。
近年來(lái),基于深度學(xué)習(xí)的圖像修復(fù)方法快速發(fā)展并涌現(xiàn)出了大量成果。本章對(duì)于不同類(lèi)別的修復(fù)方法分別選取了兩種具有代表性的修復(fù)方法并統(tǒng)計(jì)其修復(fù)不同圖像數(shù)據(jù)的客觀評(píng)價(jià)對(duì)比結(jié)果。
表10 為單元圖像修復(fù)方法在常用數(shù)據(jù)集上修復(fù)規(guī)則掩碼的定量比較結(jié)果,表11 為單元圖像修復(fù)方法在常用數(shù)據(jù)集上修復(fù)不規(guī)則掩碼的定量比較結(jié)果,“↑”表示該評(píng)價(jià)指標(biāo)值越大圖像質(zhì)量越好,“↓”表示該評(píng)價(jià)指標(biāo)值越小圖像質(zhì)量越好,“—”表示文獻(xiàn)中沒(méi)有該評(píng)價(jià)指標(biāo)的數(shù)值結(jié)果。本節(jié)統(tǒng)計(jì)了以下數(shù)據(jù)的實(shí)驗(yàn)結(jié)果:(1)兩項(xiàng)評(píng)價(jià)指標(biāo),分別是PSNR、SSIM,其中PSNR 值反映圖像失真度,SSIM 值反映圖像結(jié)構(gòu)相似性;(2)三類(lèi)大型圖像數(shù)據(jù)集,分別是人臉圖像數(shù)據(jù)集CelebA-HQ、街景圖像數(shù)據(jù)集Paris StreetView和場(chǎng)景圖像數(shù)據(jù)集Places2;(3)兩種掩碼,分別是25%中心規(guī)則掩碼和不規(guī)則掩碼(占比面積分為10%~20%、20%~30%、30%~40%、40%~50%)。
從表10 數(shù)值分析可得,Encoder-Decoder 類(lèi)修復(fù)方法在三類(lèi)數(shù)據(jù)集的定量評(píng)價(jià)結(jié)果中,GMCNN方法生成圖像的SSIM值和MED方法生成圖像的PSNR值均優(yōu)于彼此,這是因?yàn)镚MCNN方法引入了多列結(jié)構(gòu),能有效預(yù)測(cè)圖像結(jié)構(gòu)信息,MED方法使用的交互編碼器可以生成更加合理的圖像紋理信息。
表10 單元圖像修復(fù)方法在規(guī)則區(qū)域的性能分析Table 10 Quantitative analysis of single image inpainting methods on regular regions
而在U-Net 類(lèi)修復(fù)方法修復(fù)數(shù)據(jù)中,PEN-Net方法的各項(xiàng)評(píng)價(jià)值大多低于MUSICAL方法。PENNet方法和MUSICAL方法均使用了注意力機(jī)制,不同的是,PEN-Net方法在編碼階段使用多尺度注意力機(jī)制,MUSICAL方法則是在解碼階段使用注意力機(jī)制。由此可以得出在U-Net 結(jié)構(gòu)中逐層使用注意力機(jī)制雖然能取得有效修復(fù)結(jié)果,但是大量疊加會(huì)在一定程度上影響圖像質(zhì)量。
進(jìn)一步分析GAN類(lèi)修復(fù)方法的評(píng)價(jià)指標(biāo)值,GC方法的六項(xiàng)評(píng)價(jià)指標(biāo)數(shù)值中有五項(xiàng)低于DMFN方法,GC方法使用門(mén)控卷積學(xué)習(xí)更有效的像素信息,DMFN方法則使用空洞卷積學(xué)習(xí)更大的感受野。可以知道,空洞卷積相較門(mén)控卷積能學(xué)習(xí)更有效的圖像特征信息以獲取高質(zhì)量的修復(fù)結(jié)果,因此反映圖像修復(fù)任務(wù)的重點(diǎn)為如何獲取更大且更有效的感受野以學(xué)習(xí)到更多、更合理的圖像信息。
由于Transformer 類(lèi)修復(fù)方法在近兩年才逐漸興起,其評(píng)價(jià)數(shù)據(jù)較少,這里暫不單獨(dú)分析。最后在三類(lèi)數(shù)據(jù)集的修復(fù)評(píng)價(jià)結(jié)果中,Encoder-Decoder 類(lèi)、UNet 類(lèi)、GAN 類(lèi)修復(fù)方法各占優(yōu)一項(xiàng),而Transformer類(lèi)修復(fù)方法占優(yōu)三項(xiàng),據(jù)此可以推出Transformer 類(lèi)修復(fù)方法性能優(yōu)于其他三類(lèi)修復(fù)方法,究其原因是Transformer模型可以利用自注意力機(jī)制獲取較大感受野,實(shí)現(xiàn)圖像遠(yuǎn)距離信息的獲取進(jìn)而生成語(yǔ)義一致且視覺(jué)合理的修復(fù)結(jié)果。
分析表11 評(píng)價(jià)數(shù)值,Encoder-Decoder 類(lèi)修復(fù)方法在三類(lèi)數(shù)據(jù)集上修復(fù)不同面積掩碼的定量數(shù)據(jù)中,MADF方法在10%~40%的掩碼修復(fù)數(shù)值均高于MED方法,主要原因是MADF方法有效利用了圖像掩碼信息。但當(dāng)掩碼面積占比40%~50%時(shí),圖像已知區(qū)域與未知區(qū)域較難區(qū)分,MADF方法在Places2圖像數(shù)據(jù)集上的修復(fù)效果大幅降低。據(jù)此可知圖像修復(fù)應(yīng)充分學(xué)習(xí)圖像已知與未知區(qū)域像素信息,進(jìn)而預(yù)測(cè)圖像修復(fù)結(jié)果。
表11 單元圖像修復(fù)方法在不規(guī)則區(qū)域的性能分析Table 11 Quantitative analysis of single image inpainting methods on irregular regions
分析U-Net 類(lèi)修復(fù)方法在不同面積掩碼區(qū)域的性能數(shù)據(jù),PEN-Net方法的評(píng)價(jià)數(shù)值基本低于RFRNet方法,其中RFR-Net方法通過(guò)利用圖像像素間的相關(guān)性有效解決復(fù)雜圖像的修復(fù)。由此推出復(fù)雜場(chǎng)景圖像修復(fù)任務(wù)應(yīng)充分學(xué)習(xí)圖像不同區(qū)域內(nèi)容間的對(duì)應(yīng)關(guān)系進(jìn)而預(yù)測(cè)出合理的修復(fù)結(jié)果。
同時(shí)觀察GAN 類(lèi)修復(fù)方法評(píng)價(jià)數(shù)據(jù),GC方法在三類(lèi)圖像數(shù)據(jù)集的不同掩碼區(qū)域的六項(xiàng)修復(fù)評(píng)價(jià)數(shù)值中均有五項(xiàng)低于EC方法。由于EC方法是通過(guò)預(yù)測(cè)圖像邊緣信息進(jìn)而指導(dǎo)圖像修復(fù),反映出先驗(yàn)結(jié)構(gòu)信息指導(dǎo)圖像修復(fù)的思想可以有效提高圖像修復(fù)質(zhì)量。
最后分析四類(lèi)修復(fù)方法在不規(guī)則區(qū)域的數(shù)值,可以得到:在10%~20%、30%~40%的掩碼修復(fù)指標(biāo)數(shù)值中,Encoder-Decoder 類(lèi)修復(fù)方法中的六項(xiàng)評(píng)價(jià)數(shù)據(jù)均優(yōu)于其他類(lèi)修復(fù)方法;20%~30%的掩碼修復(fù)數(shù)值中,Encoder-Decoder 類(lèi)修復(fù)方法五項(xiàng)占優(yōu)、UNet 類(lèi)修復(fù)方法一項(xiàng)占優(yōu);40%~50%的掩碼修復(fù)數(shù)值中,Encoder-Decoder 類(lèi)修復(fù)方法四項(xiàng)占優(yōu)、U-Net 類(lèi)和Transformer 類(lèi)修復(fù)方法各一項(xiàng)占優(yōu);同時(shí)GAN類(lèi)、Transformer 類(lèi)修復(fù)方法的部分指標(biāo)值僅低于Encoder-Decoder 類(lèi)修復(fù)方法。通過(guò)這些數(shù)據(jù)可以反映出Encoder-Decoder 類(lèi)、U-Net 類(lèi)和GAN 類(lèi)修復(fù)方法修復(fù)小缺失區(qū)域(10%~40%)的破損圖像效果較好,雖然Transformer 類(lèi)修復(fù)方法評(píng)價(jià)數(shù)據(jù)集少,但其在部分?jǐn)?shù)據(jù)集的大缺失區(qū)域(30%~50%)修復(fù)中仍表現(xiàn)出優(yōu)于其他類(lèi)修復(fù)方法的修復(fù)效果。
分析表10、表11 數(shù)據(jù)可得,在缺少的評(píng)價(jià)數(shù)據(jù)中,Places2圖像數(shù)據(jù)集與CelebA-HQ圖像數(shù)據(jù)集實(shí)驗(yàn)結(jié)果均缺少數(shù)據(jù)較少,而相比之下Paris StreetView圖像數(shù)據(jù)集研究缺少實(shí)驗(yàn)數(shù)據(jù)較多,反映出當(dāng)前圖像修復(fù)仍然重點(diǎn)研究人臉與場(chǎng)景圖像的修復(fù),而忽略了其他圖像數(shù)據(jù)集的修復(fù),例如街景、紋理、建筑等圖像數(shù)據(jù)集。
通過(guò)比較三類(lèi)圖像數(shù)據(jù)集的實(shí)驗(yàn)評(píng)價(jià)數(shù)據(jù)平均值,其中人臉圖像數(shù)據(jù)集數(shù)值最高,場(chǎng)景圖像數(shù)據(jù)集數(shù)值最低。這是因?yàn)槿四槇D像背景簡(jiǎn)單、對(duì)象單一,而場(chǎng)景圖像背景雜亂、對(duì)象冗雜,所以可以推理出人臉圖像更易修復(fù)。
分析規(guī)則區(qū)域的修復(fù)數(shù)據(jù),Paris StreetView圖像數(shù)據(jù)集的修復(fù)數(shù)據(jù)中PSNR最高僅25.00,SSIM最高僅86.50;而Places2圖像數(shù)據(jù)集的修復(fù)數(shù)據(jù)中PSNR最高僅24.42,SSIM最高僅87.00。據(jù)此可以得出場(chǎng)景、街景圖像的修復(fù)仍存在大量發(fā)展空間。
同時(shí)分析不規(guī)則區(qū)域的修復(fù)數(shù)據(jù),當(dāng)掩碼區(qū)域面積占比10%~40%時(shí),當(dāng)前修復(fù)方法基本能取得較好的修復(fù)數(shù)據(jù);而當(dāng)掩碼區(qū)域面積占比40%~50%時(shí),僅有少數(shù)修復(fù)方法能取得合理的修復(fù)結(jié)果。由此反映出大缺失區(qū)域的破損圖像修復(fù)仍存在較大研究空間。
表12 為多元圖像修復(fù)方法在常用數(shù)據(jù)集上修復(fù)規(guī)則掩碼的定量比較結(jié)果,表13 為多元圖像修復(fù)方法在常用數(shù)據(jù)集上修復(fù)不規(guī)則掩碼的定量比較結(jié)果。本節(jié)統(tǒng)計(jì)了以下數(shù)據(jù)的實(shí)驗(yàn)結(jié)果:(1)六項(xiàng)評(píng)價(jià)指標(biāo),分別是PSNR、SSIM、LPIPS、FID、IS和MIS,其中PSNR值反映圖像失真度,SSIM值反映圖像結(jié)構(gòu)相似性,LPIPS值反映圖像多樣性,F(xiàn)ID反映GAN的生成圖像多樣性,IS反映圖像感知質(zhì)量,MIS反映圖像質(zhì)量;(2)兩類(lèi)大型圖像數(shù)據(jù)集,分別是人臉圖像數(shù)據(jù)集CelebA-HQ(或FFHQ)和場(chǎng)景圖像數(shù)據(jù)集Places2、ImageNet;(3)兩種掩碼,分別是25%中心規(guī)則掩碼和不規(guī)則掩碼(占比面積分為20%~40%、40%~60%、10%~60%)。
如表12 所示,在CelebA-HQ圖像數(shù)據(jù)集的多元修復(fù)結(jié)果中,UCTGAN方法的PSNR、SSIM值和HVQ-VAE方法的IS、MIS值優(yōu)于彼此。其中UCTGAN方法利用掩碼先驗(yàn)信息修復(fù)圖像,HVQ-VAE方法則是基于自動(dòng)編碼器并使用注意力模塊生成圖像,由此表示先驗(yàn)信息更有利于圖像的結(jié)構(gòu)生成,注意力機(jī)制可以生成更加合理的圖像細(xì)節(jié)。
由于多元圖像修復(fù)方法旨在生成多張不同的修復(fù)圖像,表12 給出了三種方法在CelebA-HQ、Places2圖像數(shù)據(jù)集上的LPIPS值,以反映其輸出圖像多樣化程度。UCTGAN方法在CelebA-HQ圖像數(shù)據(jù)集上的修復(fù)指標(biāo)值優(yōu)于PICNet方法,PDGAN方法在Places2圖像數(shù)據(jù)集上的修復(fù)指標(biāo)值優(yōu)于PICNet方法。其中UCTGAN方法、PDGAN方法為基于GAN的修復(fù)模型,PICNet方法為聯(lián)合VAE與GAN的修復(fù)方法,由此可見(jiàn)GAN較VAE更適用于生成多樣的結(jié)構(gòu)和紋理。
表12 多元圖像修復(fù)方法在規(guī)則區(qū)域的性能分析Table 12 Quantitative analysis of pluralistic image inpainting methods on regular regions
觀察兩類(lèi)圖像數(shù)據(jù)集的實(shí)驗(yàn)評(píng)價(jià)數(shù)據(jù)平均值,其中人臉圖像數(shù)據(jù)集的LPIPS數(shù)值均低于場(chǎng)景圖像數(shù)據(jù)集的LPIPS數(shù)值。這是因?yàn)槿四様?shù)據(jù)集圖像一般僅含單一對(duì)象,而場(chǎng)景數(shù)據(jù)集圖像通常包含多個(gè)對(duì)象,反映出場(chǎng)景數(shù)據(jù)集圖像相較人臉數(shù)據(jù)集圖像更易生成多樣化的圖像結(jié)構(gòu)和紋理。
表13 數(shù)值反映不同修復(fù)方法在不同數(shù)據(jù)集上修復(fù)不同掩碼區(qū)域的評(píng)價(jià)數(shù)據(jù),其中ICT方法在各類(lèi)掩碼的修復(fù)中都取得了較優(yōu)結(jié)果,這是因?yàn)樗粌H使用Transformer修復(fù)圖像紋理,同時(shí)使用CNN對(duì)圖像紋理進(jìn)行修補(bǔ),實(shí)現(xiàn)了圖像的高保真修復(fù)。
表13 多元圖像修復(fù)方法在不規(guī)則區(qū)域的性能分析Table 13 Quantitative analysis of pluralistic image inpainting methods on irregular regions
PUT方法在ImageNet圖像數(shù)據(jù)集、Places2圖像數(shù)據(jù)集的FID數(shù)值均優(yōu)于其他方法,究其原因?yàn)镻UT方法使用了基于樣本的向量量化VAE 實(shí)現(xiàn)圖像中每個(gè)樣本的掩碼區(qū)域修復(fù),并聯(lián)合非量化Transformer 減少圖像信息丟失,輔助模型實(shí)現(xiàn)圖像相似性。因?yàn)閳?chǎng)景數(shù)據(jù)集圖像擁有大量特征信息,所以PUT方法在該類(lèi)數(shù)據(jù)集上表現(xiàn)出較好修復(fù)效果;而人臉數(shù)據(jù)集圖像像素間相關(guān)性較高,并不適用于樣本修復(fù)。
最后比較多元修復(fù)方法在三個(gè)數(shù)據(jù)集上的修復(fù)平均值,觀察到FFHQ圖像數(shù)據(jù)集的修復(fù)指標(biāo)值最高,據(jù)此推出當(dāng)前多元修復(fù)方法仍更適于修復(fù)人臉數(shù)據(jù)集。這是因?yàn)槿四様?shù)據(jù)集圖像含較少對(duì)象,修復(fù)難度低。同時(shí)可以反映場(chǎng)景數(shù)據(jù)集圖像的多元修復(fù)是今后重點(diǎn)研究的任務(wù)。
圖像修復(fù)任務(wù)是計(jì)算機(jī)視覺(jué)領(lǐng)域中不可替代的研究?jī)?nèi)容,隨著近幾年計(jì)算機(jī)的光速發(fā)展、數(shù)字工具的頻繁使用,圖像修復(fù)任務(wù)也得到了較多關(guān)注。其中基于深度學(xué)習(xí)的圖像修復(fù)任務(wù)取得了飛速發(fā)展,這類(lèi)方法通過(guò)在模型結(jié)構(gòu)、損失函數(shù)、先驗(yàn)信息等方面進(jìn)行優(yōu)化以獲得更好的修復(fù)結(jié)果,但是這類(lèi)方法研究時(shí)間較短,仍有較多不足。本文對(duì)圖像修復(fù)任務(wù)進(jìn)行了分類(lèi)總結(jié),對(duì)圖像修復(fù)常用數(shù)據(jù)集和評(píng)價(jià)指標(biāo)進(jìn)行了簡(jiǎn)單總結(jié)。針對(duì)現(xiàn)有圖像修復(fù)方法的不足,對(duì)其做了以下描述以推進(jìn)未來(lái)研究工作。
(1)如何同時(shí)實(shí)現(xiàn)圖像紋理和結(jié)構(gòu)兩部分的補(bǔ)全是圖像修復(fù)一直存在且需要解決的問(wèn)題?,F(xiàn)存修復(fù)方法主要包括僅修復(fù)紋理(如MRF-Net)、僅修復(fù)結(jié)構(gòu)(如SI)、先修復(fù)結(jié)構(gòu)后修復(fù)紋理(如EC、PRVS)三種修復(fù)思想。其中,僅修復(fù)紋理或結(jié)構(gòu)忽略了圖像紋理和結(jié)構(gòu)之間的相關(guān)性,進(jìn)而導(dǎo)致生成圖像出現(xiàn)語(yǔ)義混亂的現(xiàn)象;而先修復(fù)結(jié)構(gòu)后修復(fù)紋理的生成圖像取決于第一階段圖像結(jié)構(gòu)的修復(fù),同時(shí)這種兩階段的修復(fù)方法需要大量計(jì)算時(shí)間和成本。近幾年,聯(lián)合修復(fù)圖像紋理和結(jié)構(gòu)的思想也受到了廣大研究者的關(guān)注,但是他們并沒(méi)有解決紋理結(jié)構(gòu)融合出現(xiàn)的不合理圖像。因此,減少圖像紋理和結(jié)構(gòu)相互影響所帶來(lái)的修復(fù)缺陷應(yīng)在今后引起重視。
(2)多元圖像修復(fù)方法性能的提升以及其評(píng)價(jià)指標(biāo)的研究是當(dāng)前亟需解決的問(wèn)題之一。圖像修復(fù)是一項(xiàng)不確定的任務(wù),因此它只需要在輸出圖像合理的情況下保證圖像的多樣性。多元圖像修復(fù)在近幾年逐漸興起,但是它在修復(fù)性能上仍存在較大提升空間;同時(shí)多元修復(fù)方法的評(píng)價(jià)指標(biāo)依然是PSNR、SSIM、FID等,然而它們僅用于判斷原始圖像與生成圖像相似性,并不能較好地反映出生成圖像的多樣性。因此,多元圖像修復(fù)方法的相關(guān)研究是未來(lái)修復(fù)研究的熱點(diǎn)之一。
(3)研究低計(jì)算成本的高分辨率圖像修復(fù)模型是當(dāng)前最緊迫的任務(wù)之一。當(dāng)前較多圖像修復(fù)方法仍重點(diǎn)研究低分辨率的圖像修復(fù),然而隨著數(shù)據(jù)時(shí)代的發(fā)展,低分辨率圖像已無(wú)法滿(mǎn)足商業(yè)使用需求。雖然Transformer 類(lèi)修復(fù)方法可以實(shí)現(xiàn)高分辨率圖像的修復(fù)并取得了高質(zhì)量的修復(fù)結(jié)果,但是它們需要大量的計(jì)算成本和昂貴的實(shí)驗(yàn)設(shè)備,并不適合商業(yè)使用。同時(shí)Encoder-Decoder 類(lèi)、U-Net 類(lèi)、GAN類(lèi)修復(fù)方法雖然也可以通過(guò)堆疊卷積層獲取較大感受野進(jìn)而實(shí)現(xiàn)高分辨率的圖像修復(fù),但是堆疊卷積層隨之也會(huì)帶來(lái)計(jì)算成本的增加、修復(fù)模型的不穩(wěn)定等不足。因此,如何實(shí)現(xiàn)圖像遠(yuǎn)距離內(nèi)容的獲取且降低修復(fù)的計(jì)算成本也是值得深入研究的一個(gè)方向。
(4)如何創(chuàng)建一個(gè)基于亞洲人臉圖像的數(shù)據(jù)集是未來(lái)研究的重點(diǎn)方向。目前的修復(fù)方法在人臉數(shù)據(jù)集上取得了較好的修復(fù)性能,但是被大量使用的人臉數(shù)據(jù)集CelebA、FFHQ等涵蓋圖像均是基于國(guó)外人臉的圖像。使用這些圖像數(shù)據(jù)集訓(xùn)練模型并修復(fù)亞洲人臉時(shí),會(huì)出現(xiàn)不準(zhǔn)確甚至錯(cuò)誤的修復(fù)結(jié)果。這是因?yàn)橄噍^西方人臉,亞洲人臉的面部特征具有獨(dú)特的特征。因此,收集合理且符合亞洲面部特征的人臉圖像應(yīng)成為當(dāng)前修復(fù)的重點(diǎn)研究。
(5)如何實(shí)現(xiàn)在不同任務(wù)和場(chǎng)景的人臉修復(fù),是一個(gè)亟需解決的難題。人臉圖像的修復(fù)取得了較大進(jìn)展并被應(yīng)用于日常生活中,如公共安全、人臉識(shí)別等。然而,不同任務(wù)、不同場(chǎng)景條件下的人臉修復(fù)不僅需要修復(fù)缺失像素,同時(shí)需要修復(fù)許多無(wú)法提前預(yù)設(shè)的修復(fù)挑戰(zhàn),例如佩戴口罩、頭發(fā)遮擋、人臉重疊等,這些問(wèn)題都會(huì)提升人臉圖像的修復(fù)難度。于是,收集且整理不同類(lèi)型的破損人臉圖像或許成為未來(lái)的研究熱點(diǎn)。
(6)設(shè)計(jì)無(wú)參考且可以準(zhǔn)確反映圖像質(zhì)量的評(píng)價(jià)指標(biāo)是當(dāng)前修復(fù)面臨的難題。目前廣泛使用的圖像修復(fù)評(píng)價(jià)指標(biāo)MAE、PSNR、SSIM等均為全參考指標(biāo),這類(lèi)評(píng)價(jià)指標(biāo)需要使用原始圖像作為參考對(duì)象,同時(shí)計(jì)算整幅圖像像素相似性需要大量時(shí)間。故而,為了更好地評(píng)價(jià)修復(fù)圖像,研究系統(tǒng)、合理、符合人類(lèi)視覺(jué)判斷的圖像評(píng)價(jià)指標(biāo)是未來(lái)亟需解決的挑戰(zhàn)。