余映 何鵬浩 徐超越
(云南大學(xué) 信息學(xué)院,云南 昆明 650091)
圖像修復(fù)是通過填充掩碼區(qū)域的像素來恢復(fù)出在語義上正確和在視覺上逼真的圖像。近年來,圖像修復(fù)是計算機視覺任務(wù)中一個具有挑戰(zhàn)性且重要的問題,在受損文物復(fù)原、圖像編輯、圖像物體去除等方面已被廣泛應(yīng)用。
圖像修復(fù)方法總體上可以分為傳統(tǒng)圖像修復(fù)和基于深度學(xué)習(xí)的圖像修復(fù)兩類。傳統(tǒng)圖像修復(fù)方法主要分為基于擴散的方法[1]和基于樣本塊[2]的方法?;跀U散的方法通過微分方程提取背景信息特征來填充缺失區(qū)域的像素?;跇颖緣K的方法是將最匹配的背景塊圖像信息依次復(fù)制到相應(yīng)的缺失區(qū)域。這些方法對于較大的缺失區(qū)域有較好的修復(fù),但它們對于復(fù)雜的缺失區(qū)域無法精確地修復(fù)圖像的紋理細節(jié)和結(jié)構(gòu)特征。
近年來,隨著卷積神經(jīng)網(wǎng)絡(luò)和生成對抗網(wǎng)絡(luò)的快速發(fā)展,基于深度學(xué)習(xí)的方法被廣泛應(yīng)用于圖像修復(fù)任務(wù)中。這些方法通常在生成器上使用U-Net[3]結(jié)構(gòu),使其能夠更好地捕獲圖像的高級語義特征,從而更準(zhǔn)確地恢復(fù)出破損圖像的紋理和結(jié)構(gòu)特征,生成更高質(zhì)量的圖像修復(fù)結(jié)果。利用UNet網(wǎng)絡(luò),Iizuka等[4]提出了全局和局部鑒別器,以保持全局圖像細節(jié)的一致性。Yan 等[5]提出了一個特殊的位移連接層來連接U-Net 的編碼器和解碼器部分,以更好地融合基于樣本塊的學(xué)習(xí)方法和深度學(xué)習(xí)方法。在基于深度學(xué)習(xí)的圖像修復(fù)模型中,隨著注意力機制的快速發(fā)展,注意力機制已經(jīng)廣泛應(yīng)用于圖像修復(fù)任務(wù)[6-8]中。Liu 等[7]提出了連貫語義注意力,在空間內(nèi)保持了上下文的語義連貫性。Xie 等[8]提出了可學(xué)習(xí)的雙向注意力,更好地提高了修復(fù)模型對不規(guī)則掩碼破損圖像的修復(fù)能力。為了提高修復(fù)模型對不規(guī)則破損區(qū)域的修復(fù)能力,Liu等[9]提出了部分卷積替換U-Net結(jié)構(gòu)的所有標(biāo)準(zhǔn)卷積,從而提高了破損圖像中有效像素的利用。Yu 等[10]為解決不規(guī)則掩碼對圖像修復(fù)的影響提出了門控卷積。之后,Liu 等[11]在編碼器和解碼器結(jié)構(gòu)中提出了特征均衡,將圖像的低級特征和高級特征進一步融合;Li等[12]提出了一種新的特征遞歸網(wǎng)絡(luò),對破損面積較大且不規(guī)則的圖像區(qū)域有較佳的修復(fù)效果。為了更有效地分別利用圖像的細節(jié)信息和結(jié)構(gòu)信息,科研人員提出了兩階段的圖像修復(fù)模型。Nazeri 等[13]為了更好地提取破損圖像中的邊緣信息,提出了邊緣修復(fù)到整體結(jié)構(gòu)修復(fù)的兩階段修復(fù)網(wǎng)絡(luò)。Ma 等[14]采用從粗到細的兩階段U-Net 網(wǎng)絡(luò),獲得了更準(zhǔn)確的修復(fù)結(jié)果。盡管這些方法在大尺度和復(fù)雜的破損圖像中取得了較好的修復(fù)結(jié)果,但它們?nèi)匀淮嬖趫D像邊緣模糊和細節(jié)生成不佳的問題,主要原因如下:①使用標(biāo)準(zhǔn)卷積運算不僅捕獲了圖像背景中的有效信息,而且同時捕獲了掩碼區(qū)域中的破損信息,因此圖像修復(fù)的結(jié)果受到了破損信息的不利影響;②遠距離圖像區(qū)域之間的相關(guān)信息不能通過簡單的跳躍連接準(zhǔn)確捕獲,這對于圖像修復(fù)任務(wù)至關(guān)重要,例如在人臉修復(fù)中,五官幾乎完全不可見,圖像修復(fù)需要捕獲遠距離圖像特征之間的相關(guān)性信息,以完美還原修復(fù)結(jié)果;③在兩階段的修復(fù)網(wǎng)絡(luò)中兩個編碼器分別學(xué)習(xí)圖像的紋理和結(jié)構(gòu)特征,而不能將它們視為一個整體,因此,編碼器功能的利用不足導(dǎo)致了該類修復(fù)模型無法準(zhǔn)確地生成紋理細節(jié)和結(jié)構(gòu)特征。
針對上述問題,本文在U-Net 框架基礎(chǔ)上,提出了基于殘差注意力融合和門控信息蒸餾的圖像修復(fù)模型。殘差注意力融合模塊用來替換U-Net 層中的所有標(biāo)準(zhǔn)卷積,它是由殘差塊和通道空間注意力融合塊組成,該模塊不僅可以通過殘差塊提取圖像的多尺度信息,而且可以通過通道空間注意力融合塊增強殘差塊中提取出的有效信息,同時抑制冗余信息,從而提高圖像修復(fù)的質(zhì)量。另外,為了提高修復(fù)模型對遠距離圖像特征之間的相關(guān)信息的捕獲能力,本文在生成器網(wǎng)絡(luò)的前兩層跳躍連接中嵌入門控信息蒸餾模塊,以便將編碼器提取出的遠距離特征信息進一步地蒸餾與提取,從而保留更有效的特征信息。
本文提出的圖像修復(fù)模型整體結(jié)構(gòu)如圖1 所示,主要由5個模塊組成:生成器、門控信息蒸餾模塊(GIDB)、移位連接、鑒別器、VGG16 模型。生成器的主干是殘差注意力融合U-Net,鑒別器采用馬爾可夫判別器[15],由6個卷積層構(gòu)成。圖像的特征信息可分為低級特征和高級特征兩部分,有效的低級特征由低層次卷積操作獲得,有利于待修復(fù)圖像恢復(fù)紋理細節(jié),減少邊緣模糊;高級特征由高層次卷積操作獲得,有利于待修復(fù)圖像恢復(fù)整體結(jié)構(gòu)。為了采用圖像中的有效低級特征,本文在編碼器與解碼器前兩層跳躍連接中嵌入門控信息蒸餾模塊。移位連接層來自Yan 等[5]提出的修復(fù)模型,嵌入編碼器與解碼器的第三層跳躍連接,它利用空間注意力獲取圖像背景信息,從而保持上下文的語義連貫性。圖像中的高級特征主要由殘差注意力融合模塊進行提取,通過殘差連接可以有效增大卷積操作的感受野,從而能夠提取更豐富的圖像信息特征。與普通卷積相比,殘差注意力融合模塊不僅可以提取破損圖像中的有效信息特征,而且能夠抑制破損區(qū)域的無效信息特征。圖2所示為普通卷積和本文的殘差注意力融合模塊之間的差異對比,其中綠色區(qū)域是采樣區(qū)域,黑色小塊代表圖像中破損區(qū)域的無效信息,橙色小塊是圖像中非破損區(qū)域的有效信息。當(dāng)采樣區(qū)域包含有效信息和無效信息時,殘差注意力融合模塊可以加強有效信息的利用,抑制無效信息的影響。
圖1 本文模型的整體結(jié)構(gòu)Fig.1 Overall structure of the proposed model
圖2 普通卷積和殘差注意力融合模塊的差異對比Fig.2 Comparison of the differences between ordinary convolution and residual attention fusion blocks
為了使生成的圖像有更清晰的紋理和滿足視覺上的語義內(nèi)容,本文將多種損失函數(shù)結(jié)合起來作為修復(fù)模型的聯(lián)合損失,其中包括l1損失Ll1、風(fēng)格損失Lstyle、內(nèi)容損失Lcontent、總變分損失Ltv和對抗損失Ladv。本文采取的聯(lián)合損失函數(shù)計算公式為
式中,λl1、λstyle、λcontent、λtv和λadv是正則化參數(shù),文 中 分 別 設(shè) 置λl1= 100、λstyle= 10、λcontent= 1、λtv= 0.01、λadv= 0.2。
Ll1損失函數(shù)用來表示真實圖像與生成圖像之間的像素差異,其計算公式為
式中,Igt為真實圖,Iout為生成圖。
風(fēng)格損失和內(nèi)容損失都是用VGG16 網(wǎng)絡(luò)中的卷積層分別提取出生成圖像和真實圖像的特征,唯一不同的是風(fēng)格損失引入格拉姆矩陣G,計算公式分別為
式中,?(Iout)和?(Igt)分別為VGG16 提取出的生成圖像和真實圖像的特征。
總變分損失是指生成圖像的相鄰像素差值的平方,它可以減少生成圖像中的噪聲,使生成圖像更加平滑,計算公式為
式中:i,j為圖像的像素位置。
對抗損失表示修復(fù)模型通過最小化對抗損失進行更新,鑒別器通過最大化對抗損失進行更新,計算公式為
式中,Pdata(Igt)是真實圖像樣本的分布,Pmiss(Iout)是生成圖像樣本的分布,D是鑒別器,W是生成器。
相比普通卷積,殘差卷積包含兩個大小不同的感受野,能夠提取豐富的多尺度圖像特征信息。這些多尺度特征信息不僅包含待修復(fù)圖像中的有效背景信息,也包含部分冗余信息。對于圖像修復(fù)任務(wù)來說,待修復(fù)圖像中的掩碼破損信息是無效的,過多提取這部分像素信息會使修復(fù)結(jié)果出現(xiàn)重影和邊緣細節(jié)模糊等問題,而且每幅待修復(fù)圖像中都含有小部分噪聲信息。針對上述問題,本文提出了殘差注意力融合模塊,該模塊不僅減少了冗余信息的干擾,加強了有效特征信息的重要程度,而且能夠使生成器更好地捕獲長距離的圖像區(qū)域間的特征相關(guān)性。
在本文修復(fù)模型中,生成器由編碼器和解碼器兩部分組成,分別是殘差注意力融合編碼器和殘差注意力融合解碼器。殘差注意力融合編碼器是生成器的下采樣部分,其基礎(chǔ)模塊如圖3(a)所示。在下采樣過程中,首先通過兩個3×3卷積,增大編碼器的感受野,有利于編碼器提取受損圖像中豐富的多尺度細節(jié)信息。研究表明[16],兩個3×3 卷積級聯(lián),第二個3×3 卷積感受野相當(dāng)于5×5 卷積,該方法有利于節(jié)省模型內(nèi)存。該處理過程表示為
圖3 殘差注意力融合U-Net構(gòu)成Fig.3 Residual attention fusion U-Net composition
式中,F(xiàn)in是輸入,F(xiàn)1是輸出結(jié)果,Conv 是卷積操作。
為了減少F1中冗余信息的干擾并且更好地利用有效信息,本文將F1輸入到注意力融合模塊中。在注意力融合模塊中,本文采取通道注意力與空間注意力的并排連接方式,這樣不僅可以同時對圖像通道進行加權(quán)操作,而且可以獲得每個通道內(nèi)不同像素位置的重要性。與常用的注意力模塊CBAM[17]和BAM[18]相比,在整體結(jié)構(gòu)上,本文的殘差注意力融合模塊首先進行了感受野的進一步擴大,并沒有直接將特征信息進行權(quán)重分配,這是因為CBAM 和BAM 最初是在目標(biāo)檢測領(lǐng)域提出的,而圖像修復(fù)領(lǐng)域的模型需要更豐富的特征信息來進行恢復(fù)。與CBAM 相比,殘差注意力融合模塊在整體結(jié)構(gòu)上采用了殘差跳躍連接和并排連接輸入方式,而CBAM只是簡單地將特征信息依次輸入到串聯(lián)的通道注意力分支和空間注意力分支中。與BAM 相比,本文在融合通道注意力圖和空間注意力圖過程中采取了哈達瑪乘積操作,并沒有采取像素相加操作,這是為了減少有效信息被無效信息的干擾。將F1分別輸入到空間注意力模塊和通道注意力模塊中,可獲得圖像的空間像素值權(quán)重和通道值權(quán)重。在空間注意力分支中,相比以往的空間注意力,本文只通過選取最大值Max操作(即最大池化操作),沒有通過選取平均值A(chǔ)verage 操作(即平均池化操作)。這是因為對于圖像修復(fù)任務(wù),高頻細節(jié)非常重要,而高頻細節(jié)大部分以極值體現(xiàn)。只通過Max操作,不僅有利于提取圖像中的最顯著信息,而且有利于待修復(fù)圖像的高頻信息恢復(fù)。如果加入Average 操作,會考慮整個圖像像素的全局信息,但其中部分像素信息可能是無效的,這樣將導(dǎo)致部分高頻信息的重要性降低,從而出現(xiàn)修復(fù)后圖像的部分結(jié)構(gòu)和細節(jié)模糊的問題。其次,通過7×7 卷積生成空間注意力圖,以表示圖像中有效信息的重要性。在通道注意力分支中,先通過平均池化操作對通道內(nèi)的信息進行整合,有利于減少通道內(nèi)冗余信息的不良影響;然后利用1×1卷積和PReLU函數(shù)給每個通道分配不同的權(quán)重,增強待修復(fù)圖像中的重要細節(jié)特征。接著,將兩個并排分支的輸出結(jié)果通過空間注意力圖和通道注意力圖進行哈達瑪乘積操作,再與特征F1進行矩陣乘法運算。該處理過程可表示為
式中,F(xiàn)ap是平均池化操作,F(xiàn)fc是全連接卷積操作,δ是PReLU 函數(shù),σ是Sigmoid 函數(shù),Max 是選取最大值操作,⊙是哈達瑪乘積操作。
在獲得加權(quán)注意力機制特征圖后,利用殘差連接將特征F4與輸入特征Fin相加,這種殘差連接方式不僅有助于改善模型在訓(xùn)練時梯度消失或爆炸的問題,而且有助于保存圖像長距離的特征相關(guān)信息。最后,通過一個步長為2 的4×4 卷積,不僅可以實現(xiàn)下采樣操作,也可以進行特征信息的簡單精煉提取。該處理過程可表示為
殘差注意力融合解碼器是生成器的上采樣部分,用于恢復(fù)圖像中的紋理和結(jié)構(gòu)特征,其基礎(chǔ)模塊如圖3(b)所示。解碼器部分和編碼器部分的結(jié)構(gòu)大體相似。唯一的區(qū)別是,在解碼器部分,本文使用填充量為2的空洞卷積代替編碼器中的卷積。這種操作不僅有利于解碼器增大感受野,也有利于模型在修復(fù)缺失圖像內(nèi)容時捕獲更大范圍的特征間的相關(guān)信息。
為了進一步提取編碼器中更有效的低級特征信息,恢復(fù)出圖像的真實細節(jié)和邊緣信息,本文提出了門控信息蒸餾模塊,其整體結(jié)構(gòu)如圖4(a)所示。門控信息蒸餾模塊先對圖像內(nèi)的所有通道進行分割,然后采用漸進方式分別提取各個通道內(nèi)的特征信息。首先,編碼器中的低級特征先通過通道分割Split 操作將圖像的通道分為蒸餾分支和精細分支。受Yu 等[10]提出的門控卷積的啟發(fā),本文在蒸餾分支和精細分支中圴采用門控卷積,所采用的門控卷積完全一致,如圖4(b)所示。門控卷積的實現(xiàn)是通過在卷積層后加入Sigmoid 函數(shù)作為軟門控,在輸入到下一層卷積之前對當(dāng)前卷積層的輸出進行加權(quán),這樣可以表示每個區(qū)域的重要性。蒸餾分支先提取圖像通道內(nèi)一部分特征信息,并將這些特征信息進一步繼續(xù)向下通過門控卷積再次提取,最后通過多次蒸餾來提取圖像通道內(nèi)的更有效的特征信息;精細分支將其余通道內(nèi)的特征信息通過門控卷積進行一次提取。蒸餾分支采用漸進式細化模塊,由門控卷積和通道分割操作進行三次通道特征信息的分離提取。每次蒸餾可以提取圖像中有效的特征信息。在第三次蒸餾后,加入一個3×3的門控卷積進行最后一步精煉提取。蒸餾后的最有效特征信息對修復(fù)圖像的紋理和邊緣細節(jié)都有較大的幫助。精細分支采用3×3門控卷積,將每次蒸餾分離出的圖像通道信息進行進一步精煉提取。最后,將輸出結(jié)果進行拼接操作,通過1×1卷積實現(xiàn)跨通道信息交互,有利于模型捕獲圖像之間的長距離相關(guān)信息。該處理過程可表示為
圖4 門控信息蒸餾模塊Fig.4 Gated information distillation block
式中,D1、D2、D3是蒸餾分支的結(jié)果,R1、R2、R3、R4、R5是精細分支的結(jié)果,d1、d2、d3、r1、r2、r3分別為蒸餾分支通道數(shù)和精細分支通道數(shù),GConv是門控卷積,Split 是通道分割操作,cat 是通道拼接操作,o為輸出結(jié)果。第二層編碼器和解碼器之間的門控信息蒸餾模塊的通道數(shù)如表1所示。
表1 門控信息蒸餾模塊的通道數(shù)Table 1 Number of channels of the gated information distillation block
同其他修復(fù)實驗一樣,文中實驗采用公開數(shù)據(jù)集CelebA-HQ[19]和Pairs StreetView[20]。CelebA-HQ是高清人臉數(shù)據(jù)集,包含30 000 幅大小為1 024×1 024 的人臉圖像,在本次實驗中,選取28 000 幅人臉圖像作為訓(xùn)練集,剩下的2 000 幅人臉圖像作為測試集。Pairs StreetView 是街景數(shù)據(jù)集,包含15 000 幅不同場景下的街景圖像,在本次實驗中,選取14 900 幅街景圖像作為訓(xùn)練集,剩下的100 幅街景圖像作為測試集。在訓(xùn)練過程中,所有數(shù)據(jù)集的圖像大小調(diào)整為256×256,中心掩碼大小調(diào)整為128×128。本文模型在訓(xùn)練過程中采用Adam 算法進行優(yōu)化,學(xué)習(xí)率設(shè)置為0.000 2,Batchsize設(shè)置為1。此外,本次實驗在Ubuntu18.04系統(tǒng)下采用PyTorch1.7.1框架CUDA11.0進行訓(xùn)練和測試模型,實驗平臺配置是NVIDIA GeForce GTX 2080Ti GPU。本次實驗將與5種經(jīng)典主流方案GMCNN[21](通過生成多列卷積神經(jīng)網(wǎng)絡(luò)的圖像修復(fù))、Shift-Net[5](通過特殊移位連接的圖像修復(fù))、PEN[22](基于金字塔結(jié)構(gòu)的圖像修復(fù))、PIC[23](基于GAN 網(wǎng)絡(luò)的多元化圖像修復(fù))和HIIH[24](基于兩階段U-Net的修復(fù)網(wǎng)絡(luò))進行比較。
為了準(zhǔn)確地評價模型的修復(fù)質(zhì)量,本文不僅使用最常用的峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)指標(biāo),而且引入平均絕對值誤差(L1損失)、最小平方誤差(L2損失)和弗雷歇距離(FID)指標(biāo)作為修復(fù)模型的定量分析結(jié)果。PSNR和SSIM指標(biāo)值越高,說明圖像的修復(fù)質(zhì)量效果越好,而L1損失、L2損失和FID 指標(biāo)值越低,說明圖像的修復(fù)質(zhì)量效果越好。
在CelebA-HQ 測試集和Pairs測試集上,6種模型的定量分析結(jié)果如表2所示。由表中可知,本文模型的5 項評價指標(biāo)(SSIM、PSNR、L1損失、L2損失和FID)均優(yōu)于其他對比模型,說明無論是在圖像像素層面,還是在圖像結(jié)構(gòu)層面,本文模型的修復(fù)質(zhì)量均優(yōu)于其他對比模型。
表2 6種模型在兩個測試集上的定量分析結(jié)果Table 2 Quantitative analysis results of six models on two test sets
在視覺效果評價中,本文采用大小為256×256的圖像和掩碼大小為128×128的圖像作為輸入。6種模型的修復(fù)視覺效果對比如圖5所示,共10幅效果對比圖,前5 幅圖像來自CelebA-HQ 人臉數(shù)據(jù)集,后5幅圖像來自Pairs街景數(shù)據(jù)集。
從圖5 中可以看出:對于第二和第三幅圖像,本文模型比較完美地修復(fù)出墨鏡特征,GMCNN、PIC、Shift-Net、PEN 模型無法修復(fù)出墨鏡特征且面部出現(xiàn)失真現(xiàn)象,HIIH 模型可以較好地修復(fù)出墨鏡特征,但墨鏡的結(jié)構(gòu)和紋理細節(jié)出現(xiàn)了一定的變形;對于第一與第四幅圖像,本文模型更好地修復(fù)出了黑色帽子的整體結(jié)構(gòu)和人臉的眼睛、鼻子,其他5種模型均存在結(jié)構(gòu)不完整和面部特征失真且變形的問題;對于第五幅圖像,相比其他模型,本文模型更好地修復(fù)出了人臉的面部特征和眼鏡的結(jié)構(gòu);對于第六幅圖像,本文模型幾乎完美地修復(fù)出了窗戶的結(jié)構(gòu)和紋理細節(jié),GMCNN模型和PEN 模型無法修復(fù)出窗戶的整體結(jié)構(gòu),Shift-Net、PIC 和HIIH 模型雖然能修復(fù)出窗戶的大體結(jié)構(gòu),但在紋理細節(jié)上與原圖像存在一定的差距;對于第七至第九幅圖像,缺失的部分包含了豐富的結(jié)構(gòu)和紋理信息,相比其他5種模型,本文模型能更好地修復(fù)出墻壁、門、窗戶的結(jié)構(gòu)和紋理;對于第十幅圖像,本文模型可以更好地恢復(fù)出缺失部分的整體結(jié)構(gòu),而其他5種模型均沒有恢復(fù)出缺失部分的藍色遮雨棚的整體結(jié)構(gòu)??傮w來說,本文模型對人臉面部特征的修復(fù)效果較好,缺失的眼鏡也被較完整地恢復(fù)出來,這證明了其能較好地提取和利用有效特征并保持長距離特征區(qū)域間的相關(guān)性。對于街景圖像,本文模型能夠較好地恢復(fù)出門窗和墻壁的整體結(jié)構(gòu)及紋理細節(jié)。因此本文模型的修復(fù)效果在語義結(jié)構(gòu)和紋理細節(jié)兩個方面均明顯優(yōu)于其他對比模型。
圖5 6種模型的修復(fù)視覺結(jié)果對比Fig.5 Comparison of repair visual effects of six models
使用Pairs 數(shù)據(jù)集(圖像大小為256×256,掩碼大小為128×128),在其他設(shè)置均相同的條件下進行了模塊消融實驗。以Shift-Net 為基礎(chǔ)模型,分別加入殘差注意力融合模塊U-Net 和門控信息蒸餾模塊進行對比實驗,結(jié)果如圖6 和圖7所示。
從圖6可以發(fā)現(xiàn):基礎(chǔ)模型添加殘差注意力融合模塊后,有利于圖像的語義結(jié)構(gòu)生成,修復(fù)的窗戶和墻壁的整體結(jié)構(gòu)都大致生成(見圖6(d));基礎(chǔ)模型添加門控信息蒸餾模塊后,有利于圖像的紋理細節(jié)生成,窗戶和墻壁的紋理及細節(jié)大部分被修復(fù)(見圖6(e))。從圖7可知,注意力融合模塊和信息蒸餾模塊對PSNR 指標(biāo)有一定的提升,對FID 指標(biāo)有一定的降低,對提升修復(fù)圖像的質(zhì)量有顯著的效果。
圖6 模塊消融實驗結(jié)果對比Fig.6 Comparison of experimental results of module ablation
圖7 在Pairs數(shù)據(jù)集上不同模塊消融實驗的PSNR和FID對比Fig.7 Comparison of PSNR and FID for different module ablation experiments on the Pairs dataset
為了定量分析不同損失函數(shù)對修復(fù)模型的不同效果,本文在CelebA-HQ數(shù)據(jù)集上進行消融實驗。首先,為保證公平,實驗采用相同的模型參數(shù),包括學(xué)習(xí)率、Batchsize、訓(xùn)練次數(shù)、圖像和掩碼的大小等。然后,在CelebA-HQ數(shù)據(jù)集上采用相同的模型分別移除一種損失函數(shù)并進行訓(xùn)練,得到5種不同的消融模型,實驗結(jié)果如圖8和表3所示。從圖8中可以看出:當(dāng)缺失L1損失和內(nèi)容損失函數(shù)時,圖像出現(xiàn)嚴重的變形和不正常效果;當(dāng)缺失風(fēng)格損失和總變分損失函數(shù)時,圖像中的部分內(nèi)容失真和部分細節(jié)不自然(如眼睛的對稱性、眼睛顏色,眼鏡清晰度);當(dāng)缺少對抗損失時,圖像的邊緣細節(jié)開始模糊。從表3可知,相比其他5種消融模型,本文完整模型的5個指標(biāo)值都是最高的。總體來說,聯(lián)合損失函數(shù)有利于圖像修復(fù)質(zhì)量的提升。
圖8 不同損失函數(shù)的消融實驗結(jié)果對比Fig.8 Comparison of ablation experimental results with different loss functions
表3 在CelebA-HQ數(shù)據(jù)集上損失函數(shù)的消融實驗定量對比Table 3 Quantitative comparison of loss function ablation experiments on CelebA-HQ
為了證明本文模型的可應(yīng)用性,本文在不規(guī)則掩碼數(shù)據(jù)集[9]上進行實驗,結(jié)果如圖9 所示,其中將掩碼占圖像面積比例分為6 類:(0.01,0.10)、(0.10,0.20)、(0.20,0.30)、(0.30,0.40)、(0.40,0.50)、(0.50,0.60)。從圖中可知:當(dāng)破損區(qū)域幾乎把人臉完全掩蓋時,本文模型仍然可以修復(fù)出人臉的大致結(jié)構(gòu)與細節(jié),恢復(fù)出較好的效果;對于不規(guī)則的破損區(qū)域,本文模型也有較不錯的修復(fù)效果,說明本文模型具有一定的實際應(yīng)用能力。
圖9 本文模型在不規(guī)則掩碼數(shù)據(jù)集下的修復(fù)效果Fig.9 Repair effects of the proposed model under the irregular mask dataset
本文提出了基于殘差注意力融合U-Net 和門控信息蒸餾的圖像修復(fù)模型。首先,該模塊通過引入殘差注意力融合模塊U-Net,不僅有利于生成器提取破損圖像中的有效結(jié)構(gòu)特征和細節(jié)特征,降低破損圖像中的冗余信息,而且殘差結(jié)構(gòu)可以增強生成器對圖像長距離信息的捕獲能力;然后,將門控信息蒸餾模塊嵌入到編碼器與解碼器之間的跳躍連接中,通過一步步地分離通道和精煉提取步驟,充分利用了圖像中的有效低級特征信息;最后,采用聯(lián)合損失函數(shù)訓(xùn)練整個模型,使得圖像的修復(fù)質(zhì)量效果更符合主觀感受。實驗結(jié)果表明,本文模型在語義結(jié)構(gòu)和紋理細節(jié)方面有較好的修復(fù)效果,定性和定量分析結(jié)果均優(yōu)于對比模型。本文模型主要針對大面積的矩形中心掩碼進行修復(fù),并取得了較好的實驗結(jié)果。今后將圖像修復(fù)模型應(yīng)用在現(xiàn)實生活中,包括大面積的壁畫修復(fù)以及現(xiàn)實中的破損圖像修復(fù),提供多個修復(fù)結(jié)果圖,讓使用者自由選擇。