李維 LI Wei
(西南交通大學(xué),成都 611730)
數(shù)字圖像修復(fù)是指利用數(shù)字圖像已知區(qū)域修補(bǔ)未知區(qū)域的技術(shù),是計(jì)算機(jī)視覺領(lǐng)域中極具挑戰(zhàn)性的研究課題。隨著社會(huì)數(shù)字化發(fā)展,圖像修復(fù)技術(shù)在生活、娛樂、安防和醫(yī)療等領(lǐng)域都具有廣泛的應(yīng)用價(jià)值[1]。
圖像修復(fù)技術(shù)早期使用基于物理和數(shù)學(xué)的傳統(tǒng)方法。該類方法基于圖像信息冗余性理論,利用前后幀的領(lǐng)域信息來(lái)填充未知的待修復(fù)區(qū)域。
傳統(tǒng)修復(fù)方法在紋理簡(jiǎn)單、語(yǔ)義性單一的修復(fù)任務(wù)中表現(xiàn)優(yōu)秀,但對(duì)于諸如人臉、動(dòng)物、建筑等破損圖像結(jié)構(gòu)復(fù)雜的修復(fù)任務(wù)則表現(xiàn)不佳,因?yàn)闊o(wú)法從數(shù)學(xué)或者圖形學(xué)的方法重建圖像的語(yǔ)義?;谏疃葘W(xué)習(xí)的圖像修復(fù)具備較好的學(xué)習(xí)能力,能夠?qū)W習(xí)其他圖像的先驗(yàn)知識(shí),通過訓(xùn)練模型,生成原圖中沒有的形狀和紋理。
最初基于深度學(xué)習(xí)的圖像修復(fù)網(wǎng)絡(luò)采用自編碼方式,用已知區(qū)域像素信息重新編碼再解碼生成缺失內(nèi)容。PATHAK等人[2]提出了結(jié)合GAN(Generative Adversarial Network,生成式對(duì)抗網(wǎng)絡(luò))的思想,通過生成器和判別器對(duì)抗來(lái)提高修復(fù)質(zhì)量。IIZUKA等人[3]使用了局部和全局的雙判別器WGAN,增加了GAN修復(fù)模型訓(xùn)練的穩(wěn)定性。Yu J等[6]結(jié)合了注意力機(jī)制的思想,在自編碼的雙階段網(wǎng)絡(luò)中加入了內(nèi)容注意力機(jī)制CA(Contextual Attention)的模塊?;趦?nèi)容注意力機(jī)制的修復(fù)模型能從背景區(qū)域選擇更相似的補(bǔ)丁塊來(lái)填充缺失區(qū)域,從而提高生成圖像的語(yǔ)義完整性,但對(duì)于結(jié)果容易出現(xiàn)模糊、偽影、暗沉等問題。
在后續(xù)的研究中,Yu J等[4]認(rèn)為自編碼網(wǎng)絡(luò)中,一般卷積會(huì)使提取的特征包含破損區(qū)域的無(wú)效像素;而局部卷積雖能夠提取有效特征,但由于缺乏對(duì)掩碼的處理手段,在深度神經(jīng)網(wǎng)絡(luò)層會(huì)出現(xiàn)丟失掩碼信息的問題。Yu認(rèn)為促使生成圖像具有暗沉、偽影等問題來(lái)自于此,為此,該研究提出了一種門控卷積模塊。門控卷積在普通卷積的基礎(chǔ)上增加了一倍的權(quán)重用于學(xué)習(xí)掩碼信息,同時(shí)對(duì)掩碼加上軟門控的Sigmoid函數(shù),通過卷積保留掩碼信息,從而屏蔽無(wú)效像素對(duì)特征的影響。Zeng等[7]加入了特征金字塔的結(jié)構(gòu),旨在從不同特征尺度下處理圖像的特征信息,使生成圖像在細(xì)節(jié)表達(dá)更清晰,從而減少模糊、偽影。但這些方法僅在圖像特征的利用效率上優(yōu)化模型,使得模型的參數(shù)增多,增加了網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜度,加大了模型的計(jì)算量。
本文提出了一種基于雙邊濾波的特征融合的思想,對(duì)Yu等人的CA模型中注意力分?jǐn)?shù)的計(jì)算方式進(jìn)行改進(jìn),從而使圖像在特征利用上能夠同時(shí)獲取最大注意力分?jǐn)?shù)的背景塊以及其周圍塊的建議,使生成的圖像在局部和全局有更強(qiáng)的一致性,從生成的角度解決模糊、偽影問題。
Yu J等人[5]提出了一種基于內(nèi)容注意力機(jī)制的方法來(lái)生成圖像缺失部分。作者采用基于自編碼的雙階段網(wǎng)絡(luò)結(jié)構(gòu),在第二階段網(wǎng)絡(luò)部分加入了基于上下文注意力機(jī)制的感知模塊,該模塊使用圖像的背景區(qū)域的特征分塊作為卷積核,對(duì)缺失部分進(jìn)行轉(zhuǎn)置卷積生成缺失圖像,沿著通道方向利用余弦相似性計(jì)算每個(gè)特征塊和前景區(qū)域的相關(guān)性分?jǐn)?shù),以此作為注意力分?jǐn)?shù)進(jìn)行反卷積生成精修圖像。該論文中作者使用注意力感知模塊有效地利用了背景區(qū)域的相似特征來(lái)逐像素修補(bǔ)缺失區(qū)域,使用基于局部和全局的WGAN[8](Wasserstein GAN)判別器進(jìn)行訓(xùn)練,使得生成前景具有局部和全局的語(yǔ)義一致性。但使用余弦相似性作為修補(bǔ)區(qū)域每個(gè)像素點(diǎn)的相關(guān)性分?jǐn)?shù)導(dǎo)致生成的前景特征像素之間缺乏相關(guān)性,使得修復(fù)區(qū)域的圖像在結(jié)構(gòu)特征上缺乏全局一致性,在生成圖像上缺乏正確的語(yǔ)義表達(dá)。
Liu H等[6]在U-Net結(jié)構(gòu)[11]的網(wǎng)絡(luò)提出了基于結(jié)構(gòu)約束的特征均衡修復(fù)網(wǎng)絡(luò)。作者認(rèn)為以往的論文對(duì)于修復(fù)任務(wù)沒有很好地融合圖像結(jié)構(gòu)特征和紋理特征來(lái)生成缺失部分,導(dǎo)致生成圖像在局部的語(yǔ)義表達(dá)上不完整,直觀表現(xiàn)在生成圖像的結(jié)構(gòu)、紋理模糊。因此,作者提出了在編碼解碼的過程中,對(duì)圖像特征加入紋理和結(jié)構(gòu)特征來(lái)提高修復(fù)圖像的質(zhì)量。在紋理特征中,該模型使用了SE-Block的通道方向的注意力模塊來(lái)均衡紋理特征;而在結(jié)構(gòu)特征的均衡上,作者提出了類似雙邊濾波函數(shù),該函數(shù)使用值域(range)和空間域(spatial)兩個(gè)分支對(duì)結(jié)構(gòu)特征做均衡。其中值域分支融合前景區(qū)域每個(gè)特征點(diǎn)和周圍3x3區(qū)域的像素信息;空間域分支則是使用高斯分布加權(quán)融合全局的特征點(diǎn)來(lái)生成前景的特征點(diǎn)。這種均衡方法有效地融合了前景像素和相鄰像素之間的特征信息,有利于生成圖像的結(jié)構(gòu)表達(dá)。
受雙邊濾波函數(shù)的啟發(fā),本文注意到,CA模塊契合了特征均衡中對(duì)紋理特征的均衡思路,而在CA模型中,沒有很好地解決對(duì)結(jié)構(gòu)特征的均衡,簡(jiǎn)單地逐像素點(diǎn)的選取相似度較大的背景塊將破壞前景區(qū)域的特征結(jié)構(gòu),因此,本文在CA模塊中加入了對(duì)前景和背景特征的融合邊。通過在內(nèi)容注意力模塊中加入基于高斯分布函數(shù)的全局特征像素融合的方法來(lái)增強(qiáng)修復(fù)圖像與全局圖像的語(yǔ)義一致性,從而提高修復(fù)結(jié)果的直觀效果。
1.3.1 修復(fù)模型結(jié)構(gòu)
本文章選用Yu等人的CA模型作為模型框架。模型分兩個(gè)修復(fù)階段。模型的一階段網(wǎng)絡(luò)基于自編碼網(wǎng)絡(luò)的結(jié)構(gòu),對(duì)破損圖像進(jìn)行編碼、解碼生成一張模糊的粗略修復(fù)結(jié)果。該階段的網(wǎng)絡(luò)由6塊卷積層(K5S1C32*1,K3S1C64*2,K3S2C128),4塊空洞卷積模塊(K3D8S1C128*4)以及5塊轉(zhuǎn)置卷積層(K3S1C128*2,K3S1C64,K3S1C16,K3S1C3)構(gòu)成。
模型的二階段為基于改進(jìn)CA模塊的精修網(wǎng)絡(luò)。該階段將前一階段生成的模糊圖像和掩碼信息分別通過兩個(gè)分支:分支1將通過6塊卷積塊(K5S1C32,K2S2C64,K3S1C64,K3S2C128),改進(jìn)的內(nèi)容注意力模塊以及2塊轉(zhuǎn)置卷積塊(K3D8S1C128*4);分支2將通過5塊卷積塊和4塊空洞卷積塊。最后將兩個(gè)分支生成的特征圖進(jìn)行拼接進(jìn)行轉(zhuǎn)置卷積生成最后的輸出圖像。分支一的作用是使用注意力方法均衡背景特征生成可靠的前景建議,而分支二則是對(duì)粗修結(jié)果進(jìn)行進(jìn)一步編碼來(lái)融合背景和模糊前景的特征。
1.3.2 基于高斯分布特征融合的改進(jìn)注意力分?jǐn)?shù)
本論文的內(nèi)容注意力模塊使用改進(jìn)的注意力分?jǐn)?shù)。其計(jì)算公式加入了以每個(gè)像素點(diǎn)自身出發(fā)通過二維高斯分布函數(shù)獲得的所有背景塊的建議分?jǐn)?shù)Px,y,x′,y′。如公式(1)所示,其中bx′,y′為圖像特征的背景區(qū)域的特征塊,j為特征塊中的特征像素點(diǎn),xj和yj分別代表該像素點(diǎn)的坐標(biāo),公式(1)使用二維高斯分布函數(shù)算出特征塊bx′,y′中各個(gè)點(diǎn)對(duì)于前景特征點(diǎn)的權(quán)值后取平均值作為特征塊bx′,y′對(duì)于前景fx,y的補(bǔ)正注意力分?jǐn)?shù)。補(bǔ)正后的注意力分?jǐn)?shù)為公式(2)所示,其中Sx,y,x′,y′為前景fx,y與bx′,y′背景的余弦相似分?jǐn)?shù),如公式(3)所示。
1.3.3 基于特征融合的內(nèi)容注意力模塊
本論文在內(nèi)容注意力模塊中加入改進(jìn)補(bǔ)正的標(biāo)準(zhǔn)化內(nèi)積計(jì)算前景區(qū)域每個(gè)像素點(diǎn)的注意力分?jǐn)?shù)。改進(jìn)的內(nèi)容注意力模塊首先提取待修復(fù)區(qū)域并作為前景區(qū)域,將背景區(qū)域劃分成等大小的背景塊(Patch),使用公式(1)計(jì)算每個(gè)背景塊與前景區(qū)域中每個(gè)像素點(diǎn)的平均高斯分?jǐn)?shù),并將該分?jǐn)?shù)作為當(dāng)前像素點(diǎn)位置的特征融合分?jǐn)?shù)。同時(shí),使用背景塊和前景區(qū)域進(jìn)行卷積,得到包含所有背景塊在每個(gè)前景像素點(diǎn)位置的原注意力分?jǐn)?shù)的特征圖。最后,如公式(2)所示,根據(jù)像素點(diǎn)位置將原注意力分?jǐn)?shù)特征圖與特征融合分?jǐn)?shù)相乘,得到補(bǔ)正的注意力分?jǐn)?shù)特征圖。不同于原論文中提出的感知偏移(Attention Propagation),使用特征融合能夠在不使用額外的卷積計(jì)算得到不同背景塊的相鄰塊的高斯分?jǐn)?shù)作為其感知分?jǐn)?shù)。同時(shí),采用高斯分布計(jì)算權(quán)重也能有效地提高圖像的一致性,同時(shí)在訓(xùn)練過程提供更加豐富的梯度。
本模塊在CelebA-HQ[9]人臉數(shù)據(jù)集和Paris Street View[10]街道數(shù)據(jù)集兩個(gè)數(shù)據(jù)集上進(jìn)行了評(píng)估。其中,CelebA-HQ是一個(gè)通過高分辨率GAN加工的CelebA的人臉數(shù)據(jù)集,該數(shù)據(jù)集總計(jì)30,000張人圖片,每張圖片的分辨率都是1024*1024,將其中26752張圖片作為訓(xùn)練樣本,余下圖片中選擇2688張圖片作為測(cè)試樣本。Paris數(shù)據(jù)集是由6412張巴黎街道圖片組成的數(shù)據(jù)集,本實(shí)驗(yàn)將其中隨機(jī)5760張圖片作為訓(xùn)練樣本,余下圖片中隨即選擇640張圖片作為測(cè)試樣本。本實(shí)驗(yàn)?zāi)P驮诓煌瑪?shù)據(jù)集上均訓(xùn)練同等的50個(gè)周期,根據(jù)實(shí)驗(yàn)的硬件內(nèi)存大小將batch設(shè)置為64。
實(shí)驗(yàn)在CelebA-HQ人臉數(shù)據(jù)集的驗(yàn)證集上計(jì)算了平均l1誤差和平均l2誤差、平均峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM),這些數(shù)據(jù)都是常用的圖像修復(fù)質(zhì)量評(píng)價(jià)指標(biāo)。并采用不同覆蓋程度的隨機(jī)掩碼在CelebA-HQ測(cè)試集上對(duì)上述的Yu等人,Zeng等人以及本文的算法進(jìn)行實(shí)驗(yàn)。
在低覆蓋率(<30%)掩碼的修復(fù)任務(wù)上,三種算法在上述指標(biāo)表現(xiàn)相當(dāng),其中Zeng等人的算法SSIM指標(biāo)最高,本文的算法平均SSIM為90.2%,平均PSNR值達(dá)到了34.79dB。隨著掩碼覆蓋率的增高,三種算法的PSNR和SSIM指標(biāo)有所下降,在高覆蓋率掩碼的實(shí)驗(yàn)中,本文算法具有最優(yōu)的PSNR值和SSIM值,平均PSNR為28.0dB,平均SSIM為86.74%。造成這一現(xiàn)象的原因是,在小面積缺失的任務(wù)中,三種算法對(duì)于圖像修復(fù)的水平相當(dāng),而隨著缺失區(qū)域的增大,Yu等人的修復(fù)網(wǎng)絡(luò)沒有很好地解決細(xì)節(jié)修復(fù)的問題;而Zeng等人的算法通過不同尺度的特征處理,可以在低層的特征結(jié)構(gòu)中處理更豐富的紋理細(xì)節(jié),在更高層的特征結(jié)構(gòu)中處理更抽象的語(yǔ)義,在大面積缺失的修復(fù)任務(wù)中,仍然具有較好的PSNR和SSIM指標(biāo);本文的算法則是使用了融合全局特征的方式,讓每一個(gè)背景塊融合相鄰塊的特征,在通過注意力分?jǐn)?shù)較大的塊進(jìn)行修復(fù)像素的同時(shí)也參考了周圍其他塊的建議,能更好地替代Yu等人提出的感知偏移(Attention Propagation)的效果,使得修復(fù)區(qū)域在亮度、對(duì)比度上具有更為符合周圍像素的表現(xiàn)。
圖1是Paris Street View數(shù)據(jù)集下本文算法的修復(fù)效果展示,在該數(shù)據(jù)集下,本文章使用大量隨機(jī)的小掩碼來(lái)遮蓋街道圖片中的一些邊緣結(jié)構(gòu);圖2是在CelebA-HQ驗(yàn)證集下對(duì)3種算法部分的修復(fù)結(jié)果對(duì)比展示;圖3是通過消融實(shí)驗(yàn)分析來(lái)對(duì)比改進(jìn)前(CA模型)和改進(jìn)后(本文章模型)對(duì)修復(fù)區(qū)域的像素修補(bǔ)情況,本文章使用了與Yu等人相同的方法來(lái)生成前景區(qū)域的染色圖,該染色圖的色塊顯示了每個(gè)前景特征像素來(lái)自背景區(qū)域位置,可以看出,加入后在相鄰像素之間顏色變化更小,說明像素之間的關(guān)聯(lián)性增大了。
圖1 改進(jìn)算法在Paris驗(yàn)證集上的修復(fù)效果
圖2 Cel ebA-HQ上三種算法的主觀修復(fù)效果
圖3 改進(jìn)內(nèi)容注意力模塊消融實(shí)驗(yàn)對(duì)比
本文提出了一種基于特征融合思想的改進(jìn)內(nèi)容感知的圖像修復(fù)模型,該模型從融合圖像特征的角度出發(fā),針對(duì)現(xiàn)有網(wǎng)絡(luò)生成圖像的細(xì)節(jié)模糊、偽影的問題,通過使用高斯分布函數(shù)計(jì)算每個(gè)像素點(diǎn)到各個(gè)背景塊的距離,并以距離作為權(quán)重融合相鄰背景塊的特征信息,使模型能夠更生成局部結(jié)構(gòu)更清晰,與周圍像素更連貫的結(jié)果,經(jīng)實(shí)驗(yàn)結(jié)果驗(yàn)證本算法在客觀數(shù)據(jù)上達(dá)到了頗為優(yōu)秀的水平,主觀修復(fù)結(jié)果符合人類視覺的需求。本文為討論改進(jìn)的內(nèi)容注意力模塊的修復(fù)效果,在修復(fù)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)部分仍沿用了Yu等人(2018)的Deepfill-v1的框架,在一些大面積缺失任務(wù)上依舊會(huì)存在偽影問題,未來(lái)將在本文提出的改進(jìn)內(nèi)容注意力模塊的基礎(chǔ)上,在修復(fù)網(wǎng)絡(luò)的結(jié)構(gòu)的優(yōu)化上做進(jìn)一步的研究,此外,具有人機(jī)交互,可以通過人為輸入干預(yù)的修復(fù)結(jié)果的風(fēng)格的網(wǎng)絡(luò)模型同為本文的進(jìn)一步的研究和改進(jìn)方向。