楊紅菊,李麗琴,王鼎
1. 山西大學(xué)計算機與信息技術(shù)學(xué)院,太原 030006; 2. 山西大學(xué)計算智能與中文信息處理教育部重點實驗室,太原 030006
近年來,圖像修復(fù)已成為計算機視覺中的一項重要任務(wù),在圖像編輯、文物保護和老照片修復(fù)(Zhang和Chang,2021;Wan等,2020)等工作中有著廣泛應(yīng)用。成功修復(fù)的圖像在缺失區(qū)域應(yīng)該與其他區(qū)域表現(xiàn)出結(jié)構(gòu)和紋理的一致性,然而當(dāng)缺失區(qū)域較大時,現(xiàn)有方法通常難以產(chǎn)生看起來自然且與其他區(qū)域一致的圖像結(jié)構(gòu)(強振平 等,2019;Elharrouss等,2020)。
圖像修復(fù)方法可分為傳統(tǒng)方法和深度學(xué)習(xí)方法兩類。傳統(tǒng)方法使用低級特征修復(fù)圖像,包括基于擴散和基于補丁的技術(shù)。基于擴散的方法通過求解偏微分方程,將梯度等關(guān)鍵信息從已知區(qū)域傳播到未知區(qū)域(Ballester等,2001;Bertalmio等,2000;張桂梅和李艷兵,2019);基于補丁的方法從鄰域中搜索相似的補丁,然后將這些補丁復(fù)制到缺失區(qū)域并融合(Kwatra等,2005)?;谘a丁的方法在計算補丁之間的相似度時通常消耗大量計算資源,因此,Barnes等人(2009)提出一種快速最近鄰搜索算法PatchMatch,以降低計算成本。傳統(tǒng)方法雖然可以生成逼真的紋理,但由于無法理解圖像的高級語義,面對復(fù)雜修復(fù)任務(wù)時,往往不能產(chǎn)生合理的結(jié)果。基于深度學(xué)習(xí)的圖像修復(fù)方法可以從大量數(shù)據(jù)中學(xué)習(xí)到圖像的高級語義信息,這是傳統(tǒng)修復(fù)方法難以做到的。Pathak等人(2016)首次將生成式對抗網(wǎng)絡(luò)(generative adversarial network, GAN)(Goodfellow等,2014)應(yīng)用于圖像修復(fù)任務(wù),使用一個編解碼器網(wǎng)絡(luò)作為生成器,從原始圖像中提取特征填充缺失區(qū)域。該方法能夠利用高級語義信息產(chǎn)生有意義的結(jié)構(gòu)與內(nèi)容,但是修復(fù)結(jié)果包含視覺偽影。Iizuka等人(2017)提出使用聯(lián)合的全局和局部鑒別器提高圖像修復(fù)結(jié)果的一致性,通過添加膨脹卷積層增加感受野,并使用泊松融合細化圖像,從而產(chǎn)生更清晰的結(jié)果。然而,這種方法嚴重依賴后期的泊松融合,且訓(xùn)練比較耗時。Liu等人(2018)和Yu等人(2019)設(shè)計了特殊的卷積層,使網(wǎng)絡(luò)能夠修復(fù)不規(guī)則掩膜遮擋的圖像。Wadhwa等人(2021)將超圖卷積引入空間特征,學(xué)習(xí)數(shù)據(jù)之間的復(fù)雜關(guān)系。包括上述方法在內(nèi)的很多基于端到端的深度學(xué)習(xí)圖像修復(fù)方法直接預(yù)測完整的圖像,在面對復(fù)雜的結(jié)構(gòu)缺失時,由于缺乏足夠的約束信息,往往會產(chǎn)生邊界模糊和結(jié)構(gòu)扭曲的圖像,無法獲得令人滿意的修復(fù)結(jié)果。
圖像邊緣包含豐富的結(jié)構(gòu)信息。對此,人們提出了多種利用邊緣信息改善圖像修復(fù)質(zhì)量的方法。Nazeri等人(2019)提出以邊緣預(yù)測信息為先驗,指導(dǎo)生成最終的圖像。Li等人(2019)提出通過漸進方式不斷修復(fù)缺失區(qū)域的邊緣信息,提高邊緣預(yù)測的準確性。然而,邊緣結(jié)構(gòu)丟失了大量的區(qū)域信息,且邊緣與語義結(jié)構(gòu)之間不明確的從屬關(guān)系往往導(dǎo)致生成錯誤的邊緣結(jié)構(gòu),從而誤導(dǎo)圖像的最終修復(fù)。
針對這個問題,本文提出利用語義分割信息指導(dǎo)邊緣重建,從而減少邊緣重建錯誤,并利用語義分割結(jié)構(gòu)與邊緣結(jié)構(gòu)聯(lián)合指導(dǎo)圖像紋理細節(jié)的修復(fù),進一步提高圖像修復(fù)質(zhì)量。具體地,將圖像修復(fù)分解為語義分割重建、邊緣重建和內(nèi)容補全3個階段,這與繪畫時先繪制輪廓,然后繪制更細致的邊緣,最后補全紋理和色彩的思路是一致的。在CelebAMask-HQ(celebfaces attributes mask high quality)(Liu等,2015)和Cityscapes數(shù)據(jù)集(Cordts等,2016)上將本文方法與其他先進方法進行對比實驗,結(jié)果表明,當(dāng)修復(fù)任務(wù)涉及復(fù)雜的結(jié)構(gòu)缺失時,本文方法具有更高的修復(fù)質(zhì)量。
圖像修復(fù)是指輸入受損圖像Iin,其受損區(qū)域表示為二值掩膜M(1表示缺失區(qū)域,0表示非缺失區(qū)域),目的是預(yù)測完整的圖像Ip,使其與真實圖像Igt盡可能相似。本文設(shè)計了一個3階段生成對抗網(wǎng)絡(luò)來實現(xiàn)受損圖像的修復(fù),模型整體框架如圖1所示。模型包含語義分割重建模塊、邊緣重建模塊和內(nèi)容補全模塊,每個模塊都由一對生成器和鑒別器組成,其中GS、GE和GI分別為3個模塊的生成器,DS、DE和DI分別為3個模塊的鑒別器。首先,語義分割重建模塊預(yù)測受損圖像的完整語義分割結(jié)構(gòu)。然后,邊緣重建模塊在重建的語義分割結(jié)構(gòu)指導(dǎo)下,預(yù)測受損圖像的完整邊緣結(jié)構(gòu)。最后,前兩階段重建的語義分割結(jié)構(gòu)和邊緣結(jié)構(gòu)聯(lián)合指導(dǎo)內(nèi)容補全模塊,修復(fù)缺失區(qū)域的紋理與色彩。
語義分割可以使圖像簡化,其結(jié)果能夠很好地表示圖像全局語義結(jié)構(gòu)?,F(xiàn)有的很多基于深度生成模型的修復(fù)方法由于沒有利用語義分割結(jié)構(gòu)來約束對象形狀,通常導(dǎo)致邊界上的模糊結(jié)果。語義分割重建模塊通過重建缺失區(qū)域的語義分割信息來指導(dǎo)后續(xù)的圖像修復(fù),有助于語義不同的區(qū)域之間生成更清晰的恢復(fù)邊界。
圖2為語義分割重建模塊的網(wǎng)絡(luò)結(jié)構(gòu)圖,邊緣重建模塊和內(nèi)容補全模塊的網(wǎng)絡(luò)結(jié)構(gòu)與之類似。如圖2所示,語義分割重建模塊的網(wǎng)絡(luò)結(jié)構(gòu)基于生成式對抗網(wǎng)絡(luò),包括生成器和鑒別器兩部分。其中生成器網(wǎng)絡(luò)使用編解碼器結(jié)構(gòu),從左到右依次為兩次下采樣的編碼器、8個殘差塊(He等,2016)和將圖像上采樣回原始大小的解碼器。在殘差層中,使用膨脹系數(shù)為2的膨脹卷積代替普通卷積,從而在最終殘差塊處產(chǎn)生205×205像素的感受野。鑒別器網(wǎng)絡(luò)使用70×70像素的PatchGAN(patch generative adversarial networks)結(jié)構(gòu)(Isola等,2017;Zhu等,2017),它決定了70×70像素的重疊圖像補丁是否真實。譜歸一化(Miyato等,2018)通過將權(quán)重矩陣按其最大奇異值進行縮放來進一步穩(wěn)定訓(xùn)練,有效地將網(wǎng)絡(luò)的Lipschitz常數(shù)限制為1。雖然譜歸一化最初提出時僅用于鑒別器,但Odena等人(2018)的研究表明,生成器也可以通過抑制參數(shù)和梯度值的突然變化從譜歸一化中獲益,因此本文將譜歸一化應(yīng)用于生成器和鑒別器。
圖2 語義分割重建模塊的網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Network structure diagram of the semantic segmentation reconstruction module
真實圖像Igt對應(yīng)語義分割結(jié)構(gòu)為Sgt,語義分割生成器GS輸入受損圖像Iin=Igt⊙(1-M)、受損圖像的語義分割結(jié)構(gòu)Sin=Sgt⊙(1-M)和不規(guī)則掩膜M,輸出預(yù)測語義分割結(jié)構(gòu)Sp,⊙表示哈達瑪乘積。生成器GS的預(yù)測過程具體為
Sp=GS(Iin,Sin,M)
(1)
(2)
(3)
(4)
邊緣是圖像發(fā)生變化最顯著的部分,邊緣兩側(cè)灰度、亮度、顏色和紋理等特征會發(fā)生突變,因此邊緣包含豐富的結(jié)構(gòu)信息。正確的邊緣結(jié)構(gòu)可以有效指導(dǎo)圖像修復(fù),然而現(xiàn)有模型直接預(yù)測缺失區(qū)域的邊緣信息,往往會生成錯誤的邊緣結(jié)構(gòu),最終誤導(dǎo)圖像修復(fù)。邊緣重建模塊通過引入語義分割結(jié)構(gòu)來指導(dǎo)邊緣結(jié)構(gòu)重建,可以提高邊緣重建的準確性。
真實圖像Igt對應(yīng)邊緣結(jié)構(gòu)為Egt,邊緣生成器GE輸入受損圖像Iin、第1階段預(yù)測的語義分割結(jié)構(gòu)Sp、受損圖像的邊緣結(jié)構(gòu)Ein=Egt⊙(1-M)和不規(guī)則掩膜M,輸出預(yù)測邊緣結(jié)構(gòu)Ep。生成器GE的預(yù)測過程為
Ep=GE(Iin,Sp,Ein,M)
(5)
(6)
(7)
(8)
前兩個階段重建的語義分割結(jié)構(gòu)和邊緣結(jié)構(gòu)作為全局結(jié)構(gòu)信息,可以有效指導(dǎo)圖像缺失區(qū)域的補全。結(jié)構(gòu)與內(nèi)容分階段修復(fù),使內(nèi)容補全模塊只需要專注顏色紋理等細節(jié)信息的補全。
生成器GI輸入受損圖像Iin、預(yù)測的語義分割結(jié)構(gòu)Sp和邊緣結(jié)構(gòu)Ep以及不規(guī)則掩膜M,輸出預(yù)測圖像Ip。生成器GI預(yù)測過程可以表示為
Ip=GI(Iin,Sp,Ep,M)
(9)
(10)
重建損失表示為
(11)
生成對抗損失表示為
(12)
感知損失通過定義預(yù)先訓(xùn)練的網(wǎng)絡(luò)特征圖之間的距離度量,對感覺上與標(biāo)簽不相似的結(jié)果進行懲罰。感知損失定義為
(13)
式中,Φi(I)表示圖像I在預(yù)訓(xùn)練網(wǎng)絡(luò)第i層的輸出特征圖,在本文中對應(yīng)于在ImageNet數(shù)據(jù)集(Russakovsky等,2015)上預(yù)訓(xùn)練的VGG-19網(wǎng)絡(luò)relu1_1、relu2_1、relu3_1、relu4_1和relu5_1層的輸出特征圖。這些特征圖也用于計算風(fēng)格損失,風(fēng)格損失測量特征圖協(xié)方差之間的差異。給定大小為Cj×Hj×Wj的特征圖,風(fēng)格損失定義為
(14)
實驗采用的圖像數(shù)據(jù)集為帶語義分割標(biāo)簽的CelebAMask-HQ和Cityscapes數(shù)據(jù)集。CelebAMask-HQ數(shù)據(jù)集是從CelebA(celebfaces attributes)數(shù)據(jù)集中選擇了30 000幅高分辨率面部圖像進行像素級標(biāo)注,共19個類別,包括背景、眼睛、帽子、眼鏡、耳環(huán)等。本文將30 000幅圖像隨機劃分為27 000幅訓(xùn)練圖像和3 000幅測試圖像。Cityscapes數(shù)據(jù)集是交通視圖的語義分割圖像數(shù)據(jù)集,包含50個城市的街道場景中駕駛視角的高質(zhì)量像素級標(biāo)注圖像,共35個類別,包括道路、建筑、天空、人、車輛等,實驗使用其中2 975幅訓(xùn)練圖像進行訓(xùn)練,500幅驗證圖像進行測試。
本文使用從Liu等人(2018)工作中獲得的不規(guī)則掩膜數(shù)據(jù)集,部分掩膜如圖3所示。掩膜根據(jù)其相對于整個圖像大小的面積比(例如0-10%、10%-20%)進行分類,共包含55 116幅訓(xùn)練圖像和12 000幅測試圖像。
圖3 掩膜數(shù)據(jù)集示例樣本Fig.3 Samples of irregular mask dataset
圖4為數(shù)據(jù)集的預(yù)處理結(jié)果,從左到右依次是原始圖像、受損圖像以及受損圖像的語義分割結(jié)構(gòu)和邊緣結(jié)構(gòu)。如圖4所示,將不規(guī)則掩膜遮擋在原始真實圖像及其語義分割圖像上,獲得待修復(fù)受損圖像和受損語義分割圖像,使用Canny邊緣檢測器獲得受損圖像的邊緣結(jié)構(gòu)圖像。Canny邊緣檢測器的靈敏度由高斯平滑濾波器σ的標(biāo)準差控制,從Nazeri等人(2019)的研究可知,σ≈2可以產(chǎn)生較好的結(jié)果。
圖4 數(shù)據(jù)集預(yù)處理Fig.4 Dataset preprocessing
實驗基于深度學(xué)習(xí)框架pytorch實現(xiàn),GPU為NVIDIA1080Ti顯卡,批處理大小為8,使用Adam優(yōu)化器優(yōu)化目標(biāo)函數(shù)。為了與現(xiàn)有的先進方法進行公平比較,采用256×256像素的圖像。3個模塊單獨進行訓(xùn)練,首先設(shè)置生成器的學(xué)習(xí)率為10-4,鑒別器的學(xué)習(xí)率為10-5,使用圖像的語義分割標(biāo)簽訓(xùn)練語義分割重建模塊,使用Canny算子生成的邊緣標(biāo)簽訓(xùn)練邊緣重建模塊,使用真實圖像標(biāo)簽訓(xùn)練內(nèi)容補全模塊,直至損失平穩(wěn)。然后調(diào)整生成器的學(xué)習(xí)率為10-5,鑒別器的學(xué)習(xí)率為10-6,繼續(xù)微調(diào)模型直至損失平穩(wěn)。
3.1.1 語義分割重建結(jié)果定量分析
使用語義分割中常用的像素精度(pixel accuracy,PA)和平均交并比(mean intersection over union,MIoU)來評估語義分割重建模塊的性能。其中,PA為標(biāo)記正確的像素占總像素的百分比,MIoU為真實語義分割與預(yù)測語義分割結(jié)果之間的交并比,兩個指標(biāo)值越高,表示重建的語義分割結(jié)構(gòu)與真實語義分割結(jié)構(gòu)越相似。
表1是語義分割重建模塊在兩個數(shù)據(jù)集上重建語義分割結(jié)構(gòu)的定量結(jié)果??梢钥闯?,在兩個數(shù)據(jù)集上,隨著掩膜比例的增大,重建結(jié)構(gòu)的PA和MIoU均呈下降趨勢,但依然保持較高的預(yù)測性能。該實驗的目的不是為了獲得最佳的指標(biāo)性能,而是為了展示語義分割重建模塊的重建結(jié)果與真實語義分割結(jié)構(gòu)的相似程度。需要注意的是,與一般語義分割解決識別分類任務(wù)不同,語義分割重建模塊是預(yù)測缺失區(qū)域的像素級語義分割,因此二者的指標(biāo)性能之間不具有可比性。
表1 語義分割重建的定量結(jié)果Table 1 Quantitative results of semantic segmentation reconstruction
3.1.2 邊緣重建結(jié)果定量分析
通過實驗驗證本文關(guān)鍵假設(shè):語義分割結(jié)構(gòu)有助于提高邊緣結(jié)構(gòu)重建的準確性。
表2為有、無語義分割結(jié)構(gòu)指導(dǎo)情況下,重建的邊緣結(jié)構(gòu)在兩個數(shù)據(jù)集上的準確率和召回率比較??梢钥闯?,有語義分割指導(dǎo)的邊緣重建性能明顯優(yōu)于無語義分割指導(dǎo),說明相較于直接預(yù)測邊緣結(jié)構(gòu)的方法,本文方法在語義分割結(jié)構(gòu)的指導(dǎo)下預(yù)測邊緣結(jié)構(gòu),可以有效減少邊緣重建錯誤。
表2 邊緣重建結(jié)果定量比較Table 2 Quantitative comparison of edge reconstruction results
本文設(shè)計的3階段生成對抗網(wǎng)絡(luò)的3個階段層層遞進,前一階段的修復(fù)結(jié)果會直接影響后續(xù)階段的修復(fù)效果,所以3個階段都必須能夠完成各階段設(shè)計的相應(yīng)任務(wù),本文模型的各階段修復(fù)效果如圖5所示。
圖5(a)為模型第1階段修復(fù)效果,從左到右依次是受損語義分割結(jié)構(gòu)、重建語義分割結(jié)構(gòu)和真實語義分割結(jié)構(gòu)??梢钥闯?,對于結(jié)構(gòu)簡單的人臉圖像,眼睛、鼻子和嘴巴等部位在絕大部分遮擋情況下,重建的結(jié)構(gòu)在視覺上依然合理。在結(jié)構(gòu)復(fù)雜的街景語義圖像上也成功重建出缺失的道路、行人和汽車等語義分割結(jié)構(gòu)。語義分割重建模塊可以重建圖像缺失區(qū)域的合理語義分割結(jié)構(gòu),重建的語義分割結(jié)構(gòu)在視覺上都較為合理,且與真實語義分割結(jié)構(gòu)相似。
圖5(b)為模型第2階段修復(fù)效果,從左到右依次是受損邊緣結(jié)構(gòu)、重建邊緣結(jié)構(gòu)和真實邊緣結(jié)構(gòu)。可以看出,對于人臉圖像,邊緣重建模塊可以重建出遮擋區(qū)域較為合理的人臉邊緣、眼睛邊緣和頭發(fā)邊緣等信息,并且在第1階段重建語義分割結(jié)構(gòu)指導(dǎo)下,生成了與圖5(a)中語義分割結(jié)構(gòu)相一致的邊緣結(jié)構(gòu)(如臉的輪廓、耳環(huán)和牙齒等)。在邊緣結(jié)構(gòu)復(fù)雜的城市景觀邊緣缺失圖像上也重建出了合理的街道、汽車和樹等的邊緣結(jié)構(gòu)。邊緣重建模塊可以重建出較為真實合理的邊緣結(jié)構(gòu),指導(dǎo)第3階段的內(nèi)容補全。
圖5(c)為模型第3階段修復(fù)效果,從左到右依次是受損圖像、最終修復(fù)結(jié)果和原始圖像。可以看出,對于人臉圖像,在語義分割結(jié)構(gòu)與邊緣結(jié)構(gòu)的指導(dǎo)下,內(nèi)容補全模塊生成的圖像與第1、2階段的修復(fù)結(jié)果結(jié)構(gòu)上保持一致,并且較為真實地補全了缺失的圖像內(nèi)容(如眼睛、鼻子和人臉皮膚等)。補全的圖像與原始圖像相比,眼袋消失、增加了沒有露出的牙齒,但在視覺上仍然自然合理。對于復(fù)雜的城市景觀圖像,內(nèi)容補全模塊同樣生成了真實合理的汽車、影子和建筑等內(nèi)容,沒有產(chǎn)生結(jié)構(gòu)缺失和過于模糊的結(jié)果。在語義分割結(jié)構(gòu)和邊緣結(jié)構(gòu)的聯(lián)合指導(dǎo)下,內(nèi)容補全模塊能夠?qū)θ笔^(qū)域的紋理色彩等細節(jié)做出合理預(yù)測,產(chǎn)生視覺上真實的修復(fù)結(jié)果。
圖5 各階段的修復(fù)效果Fig.5 Inpainting effects of each stage ((a) the first stage;(b) the second stage;(c) the third stage)
由上述分析可知,本文設(shè)計的3個階段都能夠按照模型設(shè)計的階段任務(wù),生成相一致且真實合理的結(jié)果。
將本文模型與PC(partial convolutions)(Liu等,2018)、RFR(recurrent feature reasoning)(Li等,2020)、EC(edge connect)(Nazeri等,2019)和HC(hypergraphs convolutions)(Wadhwa等,2021)等4種先進模型進行定性比較。
圖6是各模型在CelebAMask-HQ數(shù)據(jù)集上的比較結(jié)果??梢钥闯觯?行中,對于較小的掩膜,各模型都能完整修復(fù)出缺失區(qū)域的內(nèi)容,但本文模型生成的圖像在眼睛等細節(jié)上更加自然真實。第2-5行中,對于中等或較大的掩膜,PC無法完成合理的修復(fù),生成的圖像結(jié)構(gòu)扭曲、視覺上不真實;RFR生成的圖像邊界模糊、存在偽影;EC生成的圖像視覺上不自然,例如生成的眼睛左右不對稱;HC生成圖像結(jié)構(gòu)合理,但眼睛、耳朵等內(nèi)部細節(jié)不真實;本文模型生成的圖像不僅邊界清晰,而且在細節(jié)上更加真實自然。
CelebAMask-HQ數(shù)據(jù)集中的人臉大多為正臉,且具有左右對稱、結(jié)構(gòu)相似的特點。而Cityscapes數(shù)據(jù)集中的街景構(gòu)造復(fù)雜并且差異較大、標(biāo)簽類別多,所以圖像修復(fù)較為困難,具有挑戰(zhàn)性。
圖6 CelebAMask-HQ數(shù)據(jù)集上修復(fù)結(jié)果比較Fig.6 Comparison of inpainting results on CelebAMask-HQ dataset((a) original images; (b) damaged images; (c) PC; (d) RFR; (e) EC; (f) HC; (g)ours)
圖7是各模型在Cityscapes數(shù)據(jù)集上的比較結(jié)果,各列代表的模型與圖6相同。可以看出,本文模型的修復(fù)結(jié)果較其他模型明顯減少了不一致性,視覺上也更加自然真實??梢钥闯觯诘?行右邊汽車和左邊窗戶等缺失區(qū)域細節(jié)修復(fù)上,本文模型的結(jié)果更加清晰完整。第2行中,本文模型可以修復(fù)出正確的路肩細節(jié),而其他模型修復(fù)結(jié)果在語義上不正確。第3、4、5行中,PC和RFR生成的圖像(如第3行的大客車、第4行的行人以及第5行的建筑等)結(jié)構(gòu)缺失且模糊;由于街景圖像邊緣復(fù)雜,不同對象的邊緣相互交錯,導(dǎo)致EC生成的圖像結(jié)構(gòu)錯誤且邊界模糊;HC的修復(fù)效果較EC有了很大改善,但由于缺少明確的結(jié)構(gòu)指導(dǎo),生成的圖像邊界模糊;相比于HC,本文模型在語義分割結(jié)構(gòu)的指導(dǎo)下進行邊緣重建,有效減少了邊緣重建錯誤,生成的圖像邊界清晰、結(jié)構(gòu)合理,視覺上更加真實。
總的來說,在CelebAMask-HQ和Cityscapes數(shù)據(jù)集上,PC和RFR由于缺少有效的結(jié)構(gòu)指導(dǎo),生成的圖像邊界模糊、存在大量偽影且不真實。EC在邊緣結(jié)構(gòu)的指導(dǎo)下生成的圖像邊界清晰,但由于缺少語義分割結(jié)構(gòu)的指導(dǎo),往往會生成錯誤的邊緣結(jié)構(gòu),最終導(dǎo)致生成的圖像視覺上不自然。HC缺少明確的結(jié)構(gòu)指導(dǎo),雖然語義大致正確,但生成的圖像邊界不清晰。本文模型的修復(fù)結(jié)果明顯優(yōu)于其他模型,生成的圖像結(jié)構(gòu)更加合理,具有較少偽影,紋理細節(jié)也更加真實。
使用圖像修復(fù)中常用的平均絕對誤差(mean absolute error,MAE)、峰值信噪比(peak signal-to-noise ratio,PSNR)和結(jié)構(gòu)相似性(structure similarity index measure,SSIM)指標(biāo)(Wang等,2004)評估各模型的修復(fù)效果。表3和表4分別為PC、RFR、EC、HC以及本文模型在CelebAMask-HQ和Cityscapes數(shù)據(jù)集上不同比例不規(guī)則掩膜的定量比較結(jié)果。
從表3可以看出,在CelebAMask-HQ數(shù)據(jù)集上,各模型的性能均隨掩膜比例的增加逐漸變差。在掩膜比例為10%-20%時,本文模型的結(jié)果略差于HC和RFR。而在掩膜比例較大時,本文模型表現(xiàn)出了最優(yōu)的性能。這可能是因為面對較小的掩膜遮擋時,人臉圖像結(jié)構(gòu)相對簡單,沒有出現(xiàn)結(jié)構(gòu)缺失現(xiàn)象,所以HC和RFR取得較好的結(jié)果。
圖7 Cityscapes數(shù)據(jù)集上修復(fù)結(jié)果對比Fig.7 Comparison of inpainting results on Cityscapes dataset((a) original images; (b) damaged images; (c) PC; (d) RFR; (e) EC; (f) HC; (g)ours)
表3 不同方法在CelebAMask-HQ數(shù)據(jù)集上的定量比較Table 3 Comparison of results of different methods on CelebAMask-HQ dataset
從表4可以看出,在Cityscapes數(shù)據(jù)集上的定量比較結(jié)果表現(xiàn)出與CelebAMask-HQ數(shù)據(jù)集相似的趨勢,各模型的性能同樣隨掩膜比例的增加逐漸變差。在Cityscapes數(shù)據(jù)集上,3項指標(biāo)數(shù)據(jù)都較CelebAMask-HQ數(shù)據(jù)集差,這是因為城市景觀圖像結(jié)構(gòu)復(fù)雜,較小的掩膜遮擋就會導(dǎo)致圖像結(jié)構(gòu)缺失,所以修復(fù)具有挑戰(zhàn)性。本文模型在3項指標(biāo)上均優(yōu)于其他模型,表明面對復(fù)雜結(jié)構(gòu)的受損,本文的多階段修復(fù)模型展現(xiàn)出了明顯的優(yōu)越性,能夠合理修復(fù)出缺失的結(jié)構(gòu)信息,視覺上更加真實。
表4 不同方法在Cityscapes數(shù)據(jù)集上的定量比較Table 4 Comparison of results of different methods on Cityscapes dataset
總的來說,本文模型的定量比較結(jié)果整體上優(yōu)于其他對比模型,這也對應(yīng)了定性分析中各模型的視覺比較結(jié)果。
本文針對現(xiàn)有圖像修復(fù)方法存在的生成圖像邊界模糊和結(jié)構(gòu)扭曲問題,提出了一種基于深度生成模型的3階段圖像修復(fù)方法,并在CelebAMask-HQ和Cityscapes數(shù)據(jù)集上與多種先進方法進行對比實驗。結(jié)果表明,本文方法生成的圖像結(jié)構(gòu)更加合理,紋理細節(jié)更加真實。本文方法將圖像修復(fù)任務(wù)解耦為語義分割重建、邊緣重建和內(nèi)容補全3個階段。一方面,首先進行語義分割重建可以有效減少后續(xù)結(jié)構(gòu)重建中的錯誤;另一方面,在語義分割結(jié)構(gòu)和邊緣結(jié)構(gòu)的雙重約束下能夠?qū)崿F(xiàn)圖像紋理細節(jié)更加精細的修復(fù)。
本文方法存在以下不足,有待繼續(xù)研究。1)在網(wǎng)絡(luò)模型設(shè)計上,受限于物理設(shè)備,3個階段均為結(jié)構(gòu)簡單的網(wǎng)絡(luò),如果使用更加復(fù)雜的網(wǎng)絡(luò)模型,可以進一步提高圖像修復(fù)質(zhì)量。2)本文方法很大程度上依賴于語義分割結(jié)構(gòu)和邊緣結(jié)構(gòu)的預(yù)測準確性,如果設(shè)計神經(jīng)網(wǎng)絡(luò)能夠更好地理解圖像的結(jié)構(gòu)信息,可以進一步做出更準確的結(jié)構(gòu)預(yù)測。
本文提出的3階段解耦方法使用戶可以與圖像修復(fù)系統(tǒng)交互,能夠很容易地擴展到其他圖像任務(wù),包括條件圖像生成、圖像編輯、圖像去噪和圖像超分辨率等,這也是本文方法未來的實際應(yīng)用方向。