亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向圖像修復(fù)的增強(qiáng)語義雙解碼器生成模型

        2022-10-21 01:56:00王倩娜陳燚
        關(guān)鍵詞:一致性特征區(qū)域

        王倩娜,陳燚

        南京師范大學(xué)計(jì)算機(jī)與電子信息學(xué)院/人工智能學(xué)院,南京 210023

        0 引 言

        圖像修復(fù)作為計(jì)算機(jī)視覺領(lǐng)域的任務(wù)之一,已經(jīng)廣泛地應(yīng)用到生活的各個(gè)領(lǐng)域,為越來越多的人所關(guān)注(強(qiáng)振平 等,2019)。在圖像和視頻編輯領(lǐng)域(Song等,2019),圖像修復(fù)技術(shù)可以用來還原一些變質(zhì)的舊照片、修復(fù)損壞的電影以及移除圖像上的物體。在醫(yī)學(xué)領(lǐng)域(Armanious等,2020),圖像修復(fù)可以用于抑制醫(yī)學(xué)成像系統(tǒng)產(chǎn)生的噪聲和偽影。在公安軍事領(lǐng)域(Wang等,2020),指紋、掌紋和人像的鑒定識(shí)別等都與圖像修復(fù)技術(shù)密不可分。通俗來說,圖像修復(fù)就是對(duì)圖像中的缺失區(qū)域進(jìn)行填充,并使填充后的圖像盡可能在視覺和語義層面上都達(dá)到合理的要求。從早期的傳統(tǒng)方法到目前基于深度學(xué)習(xí)的方法,圖像修復(fù)已經(jīng)取得了長(zhǎng)足的進(jìn)步。

        傳統(tǒng)圖像修復(fù)的解決方案(Bertalmio等,2000;Barnes等,2009)大部分是依據(jù)數(shù)學(xué)知識(shí)利用圖像缺失區(qū)域周圍的已知信息推導(dǎo)出一系列公式,然后根據(jù)公式對(duì)圖像進(jìn)行迭代更新,使缺失區(qū)域的修復(fù)慢慢達(dá)到相對(duì)較好的結(jié)果。因?yàn)檫@種方法通常是從原圖像中采樣完整的補(bǔ)丁并粘貼到缺失區(qū)域,所以只適合修復(fù)缺失區(qū)域較小且結(jié)構(gòu)簡(jiǎn)單的圖像。對(duì)于圖像中缺失區(qū)域結(jié)構(gòu)比較復(fù)雜的情況,由于該方法只利用了圖像的低級(jí)別特征,缺乏對(duì)圖像的高層語義理解,因此往往無法產(chǎn)生語義上合理的結(jié)果。

        基于深度學(xué)習(xí)的圖像修復(fù)方法(Pathak等,2016;Iizuka等,2017;Yu等,2018;Sagong等,2019)通過學(xué)習(xí)數(shù)據(jù)分布來捕捉圖像的高層語義信息,從而解決了傳統(tǒng)算法的難題。Pathak等人(2016)首次提出基于深度神經(jīng)網(wǎng)絡(luò)的CE(context encoder)模型,并將其應(yīng)用于大面積缺失區(qū)域的圖像修復(fù),取得了令人印象深刻的效果,自此基于深度學(xué)習(xí)的圖像修復(fù)方法得到廣泛研究。Iizuka等人(2017)引入擴(kuò)張卷積,利用全局和局部判別器來補(bǔ)全圖像,提高了修復(fù)圖像的全局一致性。Yu等人(2018)提出了一個(gè)兩階段的修復(fù)模型,并加入上下文注意力模塊,在一定程度上解決了具有復(fù)雜紋理圖像的修復(fù)問題。Sagong等人(2019)提出了用于語義修復(fù)的并行擴(kuò)展解碼路徑(parallel extended-decoder path for semantic inpainting,PEPSI),有效地提高了模型的訓(xùn)練速度。

        目前,圖像修復(fù)技術(shù)取得了長(zhǎng)足的進(jìn)步。然而,對(duì)于圖像中存在大面積缺失區(qū)域的情況,以上方法通常無法很好地產(chǎn)生語義信息一致的內(nèi)容,來增強(qiáng)修復(fù)圖像和真實(shí)圖像的視覺一致性。這使得生成器的修復(fù)結(jié)果往往會(huì)產(chǎn)生異常,諸如顏色差異、模糊等偽影;同時(shí),為了追求高質(zhì)量的修復(fù)結(jié)果,模型的設(shè)計(jì)也越來越復(fù)雜,尤其是目前常使用的兩階段(Yu等,2018;Liu等,2019)網(wǎng)絡(luò)結(jié)構(gòu)?;谠摻Y(jié)構(gòu)的模型不僅在訓(xùn)練時(shí)需要較長(zhǎng)的時(shí)間,而且圖像的修復(fù)效果對(duì)第1階段輸出結(jié)果的依賴性也比較強(qiáng)。針對(duì)依賴性的問題,本文在兩階段網(wǎng)絡(luò)模型CA(contextual attention)(Yu等,2018)上做了實(shí)驗(yàn),結(jié)果如圖1所示。從圖1(a)中可以看出,第1階段的輸出圖像存在明顯的黑色偽影,這導(dǎo)致了第2階段修復(fù)圖像中人臉的額頭部位出現(xiàn)了多余的內(nèi)容,呈現(xiàn)出較差的修復(fù)效果。而由圖1(b)中可以看出,當(dāng)?shù)?階段修復(fù)結(jié)果較好時(shí),第2階段的修復(fù)也會(huì)產(chǎn)生較好的結(jié)果。

        圖1 CA模型依賴性展示

        為了解決上述問題,本文在圖像修復(fù)任務(wù)中提出了一種基于雙解碼器的增強(qiáng)語義一致的圖像修復(fù)方法(enhanced semantic image inpainting with dual decoder,ESID)。1)為了增強(qiáng)圖像的語義一致性,本文利用一致性損失,縮小圖像在編碼器和對(duì)應(yīng)層解碼器之間的差異,同時(shí)結(jié)合感知損失、風(fēng)格損失來提高修復(fù)圖像和真實(shí)圖像的相似性。通過在高級(jí)深層特征中定義的一致性損失、感知損失以及風(fēng)格損失可以促使網(wǎng)絡(luò)更好地捕獲圖像的上下文語義信息,進(jìn)而產(chǎn)生語義一致的內(nèi)容,確保修復(fù)圖像和真實(shí)圖像的視覺一致性。2)為了消除兩階段網(wǎng)絡(luò)模型的修復(fù)效果對(duì)第1階段輸出結(jié)果的依賴性,同時(shí)減少模型的訓(xùn)練時(shí)間,本文使用了單一編碼器和具有簡(jiǎn)單路徑及重構(gòu)路徑的雙解碼器的網(wǎng)絡(luò)結(jié)構(gòu)。簡(jiǎn)單路徑粗略地預(yù)測(cè)圖像缺失區(qū)域的內(nèi)容,重構(gòu)路徑生成更高質(zhì)量的修復(fù)結(jié)果。雙解碼器的結(jié)構(gòu)使得兩個(gè)修復(fù)路徑可以同時(shí)獨(dú)立進(jìn)行,消除了兩階段網(wǎng)絡(luò)模型中存在的依賴性問題并減少了模型的訓(xùn)練時(shí)間。3)為了提高模型的特征提取能力,本文使用U-Net(Ronneberger等,2015)結(jié)構(gòu),在編碼器和解碼器之間引入跳躍連接,解決了通過下采樣而造成的信息損失問題。此外,在編碼結(jié)構(gòu)中使用擴(kuò)張卷積,提高了模型的感受野,同時(shí)在解碼結(jié)構(gòu)中加入了多尺度注意力模塊(Wang等,2019),進(jìn)一步加強(qiáng)了模型從遠(yuǎn)距離區(qū)域提取特征的能力。

        本文在CelebA、Stanford Cars和UCF Google Street View共3個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,本文算法有效減少了模型的訓(xùn)練時(shí)間,同時(shí)消除了兩階段網(wǎng)絡(luò)模型中的依賴性問題,修復(fù)的圖像也呈現(xiàn)出更好的視覺一致性。此外,本文進(jìn)行了消融研究,以驗(yàn)證ESID模型中不同組成部分的有效性。

        本文貢獻(xiàn)總結(jié)如下:

        1)提出了一種針對(duì)具有規(guī)則或不規(guī)則缺失區(qū)域的圖像修復(fù)模型,利用一致性損失、感知損失和風(fēng)格損失增強(qiáng)圖像的語義一致性,可以在圖像包含大面積缺失區(qū)域的情況下有效地提取語義信息,提高修復(fù)圖像和真實(shí)圖像的視覺一致性。

        2)使用雙解碼器消除了兩階段網(wǎng)絡(luò)模型修復(fù)效果對(duì)第1階段輸出結(jié)果的依賴性,同時(shí)有效減少了模型的訓(xùn)練時(shí)間。

        3)利用擴(kuò)張卷積擴(kuò)大了模型的感受野,使用跳躍連接減少了信息的損失,并引入了多尺度注意力模塊進(jìn)一步提高了網(wǎng)絡(luò)的特征提取能力。

        1 相關(guān)工作

        1.1 基于傳統(tǒng)的圖像修復(fù)

        從廣義上來說傳統(tǒng)的圖像修復(fù)方法分為兩類:基于擴(kuò)散的方法和基于樣本的方法。

        基于擴(kuò)散的方法(Bertalmio等,2000;Shen 和 Chan,2002)利用缺失區(qū)域的邊緣信息,向該區(qū)域內(nèi)慢慢擴(kuò)散周圍的已知信息。Bertalmio等人(2000)首次提出基于擴(kuò)散的模型。該模型沿著等照度線方向?qū)D像中缺失區(qū)域邊緣的已知信息擴(kuò)散到缺失區(qū)域內(nèi)部,達(dá)到圖像修復(fù)的目的。但該模型沒有考慮到圖像的完整性信息,導(dǎo)致修復(fù)效果比較差。Shen和Chan(2002)對(duì)BSCB模型進(jìn)行了改進(jìn),利用全變分(total variation,TV)模型進(jìn)行圖像修復(fù),提出一種基于變分原理的結(jié)構(gòu)邊緣處理算法,但修復(fù)結(jié)果存在明顯的斷裂現(xiàn)象。由于圖像的重建僅限于局部可用信息,因此基于擴(kuò)散的方法通常無法在缺失區(qū)域內(nèi)恢復(fù)有意義的結(jié)構(gòu),也不能充分處理缺失區(qū)域較大的圖像。

        基于樣本的方法(Drori等,2003;Barnes等,2009)是在圖像的未缺失部位搜索良好的替換補(bǔ)丁,并將其復(fù)制到相應(yīng)的位置來逐塊填充缺失區(qū)域。Drori等人(2003)提出一種基于樣本的圖像修復(fù)算法,采用自相似性原理得到圖像缺失區(qū)域的信息,但運(yùn)行速度較慢。Barnes等人(2009)提出了補(bǔ)丁匹配(patch match)算法,用于快速查找圖像補(bǔ)丁之間的相似匹配,可在一定程度上修復(fù)缺失區(qū)域較大的圖像,但需要人工干預(yù)?;跇颖镜姆椒ǘ技俣ㄈ笔^(qū)域內(nèi)的補(bǔ)丁可以在當(dāng)前圖像的其他位置找到,但是這種假設(shè)并不一定成立。由于缺乏對(duì)圖像語義的高級(jí)理解,因此基于樣本的方法只適用于修復(fù)高度結(jié)構(gòu)化的缺失區(qū)域,對(duì)具有復(fù)雜紋理圖像的修復(fù)往往很困難。

        1.2 基于深度學(xué)習(xí)的圖像修復(fù)

        基于深度學(xué)習(xí)的修復(fù)方法,一般是利用掩碼對(duì)原始圖像進(jìn)行處理,得到包含缺失區(qū)域的圖像。之后將得到的圖像輸入網(wǎng)絡(luò)中生成缺失的內(nèi)容。目前廣泛使用的是基于卷積自編碼和對(duì)抗訓(xùn)練的方式(Pathak等,2016;Iizuka等,2017;Liu等,2018;Yu等,2018;Nazeri等,2019)。

        Pathak等人(2016)首次提出基于深度神經(jīng)網(wǎng)絡(luò)的CE模型用于大面積缺失區(qū)域的圖像修復(fù),并取得了令人印象深刻的效果,自此基于深度學(xué)習(xí)的圖像修復(fù)得到廣泛研究。Yu等人(2018)提出了一種新的圖像修復(fù)框架,該框架由一個(gè)由粗到細(xì)的兩階段網(wǎng)絡(luò)結(jié)構(gòu)組成。第1階段網(wǎng)絡(luò)利用重構(gòu)損失粗略地預(yù)測(cè)缺失區(qū)域的圖像內(nèi)容;第2階段網(wǎng)絡(luò)通過重構(gòu)損失和對(duì)抗損失細(xì)化第1階段模糊的修復(fù)結(jié)果,這在一定程度上解決了具有復(fù)雜紋理圖像的修復(fù)問題。Yu等人(2019)在兩階段模型基礎(chǔ)上提出了門控卷積,完成具有自由形式掩碼以及用戶指導(dǎo)的圖像修復(fù)。Nazeri等人(2019)提出了兩階段修復(fù)模型EdgeConnect,引入邊緣信息來提高生成圖像中結(jié)構(gòu)的合理性。Liu等人(2019)在兩階段模型中加入連貫語義注意層,解決修復(fù)圖像中產(chǎn)生的結(jié)果不連續(xù)的問題。然而,這些由粗到細(xì)的兩階段網(wǎng)絡(luò)模型在訓(xùn)練時(shí)往往需要大量的計(jì)算資源,而且模型的修復(fù)效果對(duì)第1階段輸出結(jié)果的依賴性較高。此外,許多研究者也提出其他基于深度學(xué)習(xí)的方法。Liu等人(2018)使用具有自動(dòng)掩碼更新的部分卷積(partial convolutions,PConv)實(shí)現(xiàn)高質(zhì)量的圖像修復(fù)。Yan等人(2018)提出了基于U-Net(Ronneberger等,2015)架構(gòu)的模型,從結(jié)構(gòu)和細(xì)節(jié)兩方面準(zhǔn)確地對(duì)圖像中的缺失區(qū)域進(jìn)行修復(fù)。劉坤華等人(2021)以待修復(fù)圖像的邊界信息為約束條件,從而實(shí)現(xiàn)了高精度的圖像修復(fù)。

        2 ESID方法

        本文使用單一編碼器和具有簡(jiǎn)單路徑和重構(gòu)路徑的雙解碼器結(jié)構(gòu)。使用一致性損失、感知損失和風(fēng)格損失等對(duì)模型進(jìn)行優(yōu)化,同時(shí)引入擴(kuò)張卷積、U-Net結(jié)構(gòu)以及多尺度注意力模塊,來增強(qiáng)模型的修復(fù)效果。

        2.1 網(wǎng)絡(luò)結(jié)構(gòu)

        本文模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,其中Igt是原始圖像。Iin=Igt⊙(1-M),Iin是輸入網(wǎng)絡(luò)中包含缺失區(qū)域的圖像,⊙為點(diǎn)互相乘,M表示二值化掩碼,其中1是圖像中的缺失區(qū)域,0是非缺失區(qū)域。Ipred1是簡(jiǎn)單路徑輸出的圖像。Ipred2是經(jīng)過重構(gòu)路徑輸出的圖像。Lrec、Lperc、Lstyle、Ladv、Lcon分別是重構(gòu)損失、感知損失、風(fēng)格損失、對(duì)抗損失和一致性損失。本文模型的修復(fù)過程如下:

        圖2 網(wǎng)絡(luò)總體架構(gòu)

        1)給定原始圖像Igt,通過掩碼M得到具有缺失區(qū)域的圖像Iin,然后將該圖像輸入到編碼器中,經(jīng)過一系列卷積和擴(kuò)張卷積操作輸出圖像的潛在特征;

        2)將潛在特征分別輸入簡(jiǎn)單路徑和重構(gòu)路徑中,經(jīng)過兩個(gè)解碼器路徑得到修復(fù)的圖像Ipred1和Ipred2;

        3)分別計(jì)算修復(fù)圖像Ipred1、Ipred2與原始圖像Igt的重構(gòu)損失。同時(shí)將Ipred2和Igt輸入判別器計(jì)算對(duì)抗損失,并將兩者輸入VGG-19(Visual Geometry Group)特征提取器中計(jì)算感知損失和風(fēng)格損失。此外,在重構(gòu)路徑的解碼器和對(duì)應(yīng)層編碼器中計(jì)算一致性損失。

        從圖2可以看出,本文網(wǎng)絡(luò)由一個(gè)具有雙解碼器的生成器、一個(gè)判別器和一個(gè)特征提取網(wǎng)絡(luò)組成。在生成器中,使用U-Net(Ronneberger 等,2015)結(jié)構(gòu),通過跳躍連接將編碼部分的信息直接傳遞到解碼部分對(duì)應(yīng)位置。該結(jié)構(gòu)有效減少了傳統(tǒng)自動(dòng)編碼器結(jié)構(gòu)中的信息丟失問題,使網(wǎng)絡(luò)能夠提取到更全面且豐富的信息。具體地,如表1所示,編碼器的每一層采用的是卷積核大小為3×3,步長(zhǎng)為1,擴(kuò)張率為1的卷積操作以及卷積核大小為4×4,步長(zhǎng)為2,擴(kuò)張率為2的擴(kuò)張卷積操作。大小為3×3的卷積核用來保持相同的圖像空間大小,同時(shí)使圖像的通道數(shù)加倍,這有效提高了網(wǎng)絡(luò)獲取深層語義信息的能力;大小為4×4的擴(kuò)張卷積核用來保持相同的通道數(shù),并使圖像的空間大小減少一半,這有效擴(kuò)大了模型的感受野且防止過多的信息丟失。有關(guān)解碼器部分將在2.2小節(jié)給出具體的介紹。在判別器中,本文使用了馬爾可夫判別器(patch generative adversanal networks, Patch GAN)(Isola等,2017),可以評(píng)估每個(gè)結(jié)構(gòu)補(bǔ)丁是屬于真實(shí)分布還是虛假分布。此外,本文在判別器中還應(yīng)用了譜歸一化(Miyato等,2018)技術(shù)。即用相應(yīng)的Lipschitz常數(shù)劃分權(quán)重矩陣,穩(wěn)定判別器的訓(xùn)練過程。通過譜歸一化技術(shù)還可以約束判別器的梯度,進(jìn)而給生成器提供有效的梯度。

        表1 網(wǎng)絡(luò)詳細(xì)結(jié)構(gòu)

        2.2 雙解碼器模塊

        雙解碼器有效減少了模型的訓(xùn)練時(shí)間,同時(shí)消除了兩階段網(wǎng)絡(luò)模型中存在的依賴性問題。如圖3所示,本文中雙解碼器由簡(jiǎn)單路徑和重構(gòu)路徑組成,簡(jiǎn)單路徑對(duì)圖像中的缺失區(qū)域進(jìn)行粗略的預(yù)測(cè);重構(gòu)路徑通過多尺度注意力模塊和一致性損失等生成更精細(xì)的修復(fù)結(jié)果。在訓(xùn)練過程中,簡(jiǎn)單路徑和重構(gòu)路徑共享權(quán)重參數(shù)。

        圖3 雙解碼器結(jié)構(gòu)

        圖3中雙解碼器由兩個(gè)相互獨(dú)立的路徑組成。具體結(jié)合表1,解碼器每一層采用的是反卷積核大小為4×4,步長(zhǎng)為2的反卷積操作。同時(shí),在解碼器的中間3層額外加入了卷積核大小為3×3,步長(zhǎng)為1的卷積操作。4×4的反卷積核將編碼器輸出的特征圖恢復(fù)到原始圖像的尺寸,并有效地填充圖像中的缺失區(qū)域。3×3的卷積用來進(jìn)一步加強(qiáng)網(wǎng)絡(luò)提取圖像語義信息的能力。此外,在重構(gòu)路徑中將兩個(gè)并行的注意力模塊嵌入在解碼器的第4層后方,進(jìn)一步提高模型從遠(yuǎn)距離區(qū)域提取特征的能力,以此得到質(zhì)量更高的修復(fù)結(jié)果。在模型的訓(xùn)練過程中,本文還多次使用批標(biāo)準(zhǔn)化,來加速模型的收斂并提高模型的精度。

        2.3 多尺度注意力模塊

        注意力模塊(Zhang 等,2019;Yu 等,2018;Wang等,2019)的主要任務(wù)是讓模型在訓(xùn)練時(shí)只關(guān)注感興趣的區(qū)域而抑制無關(guān)區(qū)域的信息。為了更好地獲取遠(yuǎn)距離的圖像內(nèi)容,本文在重構(gòu)路徑的第4層后引入多尺度注意力,即兩個(gè)并行的注意力模塊。該模塊通過學(xué)習(xí)新的權(quán)重向量,將圖像中的關(guān)鍵信息標(biāo)注出來,接著利用模型優(yōu)化得到圖像所關(guān)注的區(qū)域。如圖4所示,注意力模塊主要由注意力分?jǐn)?shù)計(jì)算和自注意力特征圖計(jì)算兩部分構(gòu)成。圖中的C表示特征圖的通道數(shù),H和W分別表示特征圖的高度和寬度。具體地,首先將網(wǎng)絡(luò)前一層輸出的特征圖x∈RC×H×W分別經(jīng)過3個(gè)卷積核大小相同的卷積操作,將該特征圖變換到3個(gè)特征空間f,g,h中。其中,空間f和g中特征圖的通道縮小為原來的1/8,而空間h中的特征圖通道數(shù)保持不變。然后,依據(jù)式(1),利用點(diǎn)積來衡量f和g兩個(gè)特征空間中特征圖的相似度(dot-product similarity),即將特征f(xi)的轉(zhuǎn)置與特征g(xj)相乘。最后,根據(jù)式(2),用對(duì)softmax相似度進(jìn)行歸一化以獲得每個(gè)補(bǔ)丁的注意力分?jǐn)?shù),得到特征注意力矩陣δj,i∈RN×N。

        sij=f(xi)Tg(xj)

        (1)

        (2)

        式中,sij為相似度,f(xi)和g(xj)分別是特征空間f和g中的特征圖。δj,i表示在合成圖像第j個(gè)位置時(shí),模型對(duì)第i個(gè)位置的關(guān)注程度。兩個(gè)位置的特征越相似,它們之間的相關(guān)性就越大。

        獲得注意力分?jǐn)?shù)后,用注意分?jǐn)?shù)加權(quán)的上下文填充缺失區(qū)域,將注意力矩陣與h空間中的特征圖相乘即,

        (3)

        式中,oj是經(jīng)過注意力層第j個(gè)像素的輸出,h(xi)是變換到特征空間h中的特征圖,v是可訓(xùn)練的參數(shù)。

        所有補(bǔ)丁計(jì)算完之后,相應(yīng)的缺失區(qū)域也將得到填充。特別地,這些操作都可以表述為端到端訓(xùn)練的卷積操作(Yu等,2018)。

        在圖像修復(fù)中,利用注意力模塊可以更好地獲取遠(yuǎn)距離的圖像內(nèi)容,但是補(bǔ)丁大小的選擇是很難確定的。通常,較大的補(bǔ)丁大小有助于確保圖像樣式的一致性,而較小的補(bǔ)丁在使用背景特征圖時(shí)更加靈活。為了更好地提取圖像的特征,進(jìn)而準(zhǔn)確利用圖像的特征信息,本文對(duì)注意力模塊進(jìn)行了改進(jìn),使用兩個(gè)并行的注意力,引入了多尺度注意力模塊,在該模塊中分別將圖4中3個(gè)相同卷積核的大小設(shè)置為1×1和3×3來提取圖像的背景特征,然后將兩個(gè)特征進(jìn)行融合以靈活地利用圖像的背景內(nèi)容。

        圖4 注意力模塊

        2.4 損失函數(shù)

        損失函數(shù)是網(wǎng)絡(luò)訓(xùn)練和圖像修復(fù)的關(guān)鍵,通常是聯(lián)合損失函數(shù)。為了更好地捕獲圖像的語義信息,增強(qiáng)修復(fù)圖像和真實(shí)圖像的視覺一致性,本文除了使用圖像修復(fù)任務(wù)中常用的重構(gòu)損失和對(duì)抗損失外,還引入了一致性損失、感知損失和風(fēng)格損失來增強(qiáng)修復(fù)圖像的語義一致性。

        1)一致性損失。一致性損失Lcon是定義在生成器中的損失,用來衡量圖像在編碼器和對(duì)應(yīng)層解碼器之間的差異。通過逐漸縮小兩者間的差異來提高生成器重構(gòu)圖像的能力。定義為

        (4)

        式中,Ψencoder和Ψdecoder表示生成器提取的圖像特征,本文選擇編碼器和相應(yīng)解碼器第3層的差異作為一致性損失。

        2)感知損失。感知損失Lperc(Johnson 等,2016)用來比較原始圖像和生成圖像特征圖之間的差異,衡量高層結(jié)構(gòu)之間的相似性。本文分別將原始圖像和重構(gòu)路徑修復(fù)的圖像輸入VGG-19特征提取器中,將提取到的兩個(gè)特征進(jìn)行比較。感知損失定義為

        Irec2=Igt⊙(1-M)+Ipred2⊙M

        (5)

        (6)

        式中,M是二值化的掩碼,1表示圖像中的缺失區(qū)域,0表示非缺失區(qū)域,⊙表示點(diǎn)互相乘。Irec2是最終的效果圖,由重構(gòu)路徑輸出圖像的缺失區(qū)域與原始圖像的非缺失區(qū)域組合而成。Ψpooli(Igt)是原始圖像經(jīng)過VGG-19輸出的特征,Ψpooli(Irec2)是最終效果圖經(jīng)過VGG-19輸出的特征。pooli表示第i個(gè)池化層的特性,本文選取了pool1、pool2、pool3和pool4共4個(gè)池化層的特征。Hi、Wi和Ci表示第i個(gè)特征圖的高度、寬度和通道的大小。1/HiWiCi是歸一化參數(shù),N是VGG-19特征提取器生成的特征圖的數(shù)量。

        3)風(fēng)格損失。風(fēng)格損失Lstyle(Gatys 等,2016)可以有效解決感知損失缺乏保持風(fēng)格一致性的問題。通過風(fēng)格損失,本文模型可以從背景中學(xué)習(xí)顏色和整體樣式信息。與感知損失一樣,分別將原始圖像和最終效果圖輸入VGG-19特征提取器,得到圖像的特征。與感知損失直接計(jì)算特征差異不同,風(fēng)格損失首先計(jì)算特征圖的格拉姆矩陣(gram矩陣),該由特征圖之間的相似性定義,本文用特征圖與其轉(zhuǎn)置的點(diǎn)積來衡量),再通過gram矩陣來計(jì)算特征圖的差異。風(fēng)格損失定義為

        (7)

        (8)

        4)重構(gòu)損失。重構(gòu)損失Lrec是圖像修復(fù)任務(wù)中廣泛使用的損失函數(shù),用來衡量原始圖像和修復(fù)圖像之間的差異,在以前的修復(fù)模型(Pathak 等,2016)中證明是有效的。在本文中,重構(gòu)損失由兩部分構(gòu)成,即簡(jiǎn)單路徑和重構(gòu)路徑修復(fù)的圖像分別與原始圖像的差異。其定義為

        Irec1=Igt⊙(1-M)+Ipred1⊙M

        (9)

        (10)

        5)對(duì)抗損失。由于圖像修復(fù)往往有多種可能的修復(fù)結(jié)果,因此需要利用對(duì)抗訓(xùn)練來提高修復(fù)圖像的真實(shí)性。本文使用了Patch GAN(Isola 等,2017)作為對(duì)抗訓(xùn)練中的判別器,它可以判斷一個(gè)小的補(bǔ)丁是否真實(shí)。此外,采用譜歸一化(Miyato 等,2018)來控制泛化誤差并穩(wěn)定訓(xùn)練,對(duì)抗損失Ladv可以表示為

        E[log(1-D(Ipred2))]

        (11)

        式中,E()為期望,D(Igt)和D(Ipred2)是判別器的邏輯輸出。

        考慮到一致性損失、感知損失、風(fēng)格損失以及對(duì)抗性損失等,本文的總損失定義為

        Ltotal=λconLcon+λpercLperc+

        λstyleLstyle+λrecLrec+λadvLadv

        (12)

        3 實(shí) 驗(yàn)

        本文在3個(gè)數(shù)據(jù)集CelebA、Stanford Cars和UCF Google Street View上評(píng)估了本文模型ESID,并從定性和定量?jī)蓚€(gè)方面將ESID與其他方法進(jìn)行了比較。也通過實(shí)驗(yàn)驗(yàn)證了雙解碼器能有效消除兩階段網(wǎng)絡(luò)模型的修復(fù)效果對(duì)第1階段輸出結(jié)果的依賴性,同時(shí)減少模型的訓(xùn)練時(shí)間。此外,還驗(yàn)證了損失函數(shù)、多尺度注意力模塊以及U-Net結(jié)構(gòu)的有效性。

        3.1 實(shí)驗(yàn)設(shè)置

        3.1.1 實(shí)驗(yàn)環(huán)境

        本文用到的硬件和軟件環(huán)境如表2所示。

        表2 實(shí)驗(yàn)環(huán)境

        3.1.2 數(shù)據(jù)集

        本文采用的3個(gè)數(shù)據(jù)集劃分如表3所示。

        表3 數(shù)據(jù)集劃分

        CelebA(Liu 等,2015)是名人人臉屬性數(shù)據(jù)集,包含10 177位名人身份的202 599幅人臉圖像。

        Stanford Cars(Krause 等,2013)是汽車圖像數(shù)據(jù)集,一共包含196類,共16 185幅不同型號(hào)的汽車圖像。

        UCF Google Street View(Doersch 等,2015)是建筑物街景圖像數(shù)據(jù)集,包括62 058幅高質(zhì)量的谷歌街景圖,以下簡(jiǎn)稱Street View。

        3.1.3 對(duì)比算法

        將本文方法ESID與CE(Pathak 等,2016)、GL(Iizuka 等,2017)、CA(Yu 等,2018)、PConv(Liu 等,2018)、PEPSI(Sagong 等,2019)和EdgeConnect(Nazeri 等,2019)共6種方法進(jìn)行了對(duì)比。

        CE是首次提出基于深度神經(jīng)網(wǎng)絡(luò)的模型,用于缺失區(qū)域面積較大的圖像修復(fù)。GL方法引入擴(kuò)張卷積,利用全局和局部判別器來提高修復(fù)圖像的全局一致性。CA使用兩階段網(wǎng)絡(luò)結(jié)構(gòu),并加入上下文注意力模塊,一定程度上解決了具有復(fù)雜紋理圖像的修復(fù)問題。PConv提出了具有自動(dòng)掩碼更新步驟的部分卷積,實(shí)現(xiàn)了不規(guī)則缺失區(qū)域的圖像修復(fù)。PEPSI使用并行解碼器提高了模型的訓(xùn)練效率。EdgeConnect使用兩階段網(wǎng)絡(luò)結(jié)構(gòu),引入邊緣信息來增強(qiáng)修復(fù)圖像的結(jié)構(gòu)。

        3.1.4 參數(shù)設(shè)置

        一般來說,圖像中通常存在規(guī)則或不規(guī)則的缺失區(qū)域。為了公正地評(píng)價(jià),本文對(duì)具有規(guī)則和不規(guī)則缺失區(qū)域的圖像分別進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)過程中掩碼和圖像的分辨率都設(shè)置為256×256像素。對(duì)于規(guī)則缺失區(qū)域,將本文模型與CE、GL和CA進(jìn)行了比較,缺失區(qū)域的尺寸均設(shè)置為128×128像素。對(duì)于不規(guī)則缺失區(qū)域,本文將ESID與PEPSI、PConv和EdgeConnect進(jìn)行比較。不規(guī)則掩碼是由門控卷積(Yu 等,2019)提出的方法生成的。本文模型以端到端的方式進(jìn)行了批量大小為8的訓(xùn)練。與其他圖像修復(fù)模型一樣,本文利用Adam算法(Kingma和Ba,2017)對(duì)模型進(jìn)行優(yōu)化,訓(xùn)練時(shí)學(xué)習(xí)率設(shè)置為2×10-4,Adam優(yōu)化器的參數(shù)設(shè)置為β1=0.5,β2=0.999。

        為了確定損失函數(shù)的權(quán)重參數(shù),首先在3個(gè)數(shù)據(jù)集中分別選取200幅圖像,將所有權(quán)重參數(shù)均設(shè)置為1進(jìn)行訓(xùn)練。3個(gè)數(shù)據(jù)集中Lcon、Lperc、Lstyle、Lrec和Ladv的初始值均大致為2、8、0.01、0.6和0.5,訓(xùn)練過程中也基本維持同樣的比例下降。其次考慮到損失函數(shù)值的平衡性,將各個(gè)損失函數(shù)的權(quán)重分別設(shè)置為0.5、0.15、100、2和2進(jìn)行訓(xùn)練,最終發(fā)現(xiàn)訓(xùn)練效果非常不理想,結(jié)果如圖5(c)所示。通過實(shí)驗(yàn)結(jié)果并認(rèn)真分析各個(gè)損失函數(shù),了解到感知損失易導(dǎo)致圖像產(chǎn)生棋盤格偽影;風(fēng)格損失能促使模型從背景中學(xué)習(xí)顏色和整體樣式信息;重構(gòu)損失是圖像修復(fù)任務(wù)中廣泛使用的損失函數(shù)。因此,在訓(xùn)練過程中適當(dāng)降低感知損失權(quán)重,并增加風(fēng)格損失和重構(gòu)損失的權(quán)重,有利于圖像修復(fù)。此外,當(dāng)權(quán)重設(shè)置為0.5、0.05、150、50和2時(shí),通過實(shí)驗(yàn)結(jié)果還發(fā)現(xiàn)對(duì)抗損失權(quán)重太大可能導(dǎo)致訓(xùn)練結(jié)果出現(xiàn)不穩(wěn)定現(xiàn)象,結(jié)果如圖5(d)所示。最后依據(jù)實(shí)驗(yàn)結(jié)果并結(jié)合其他圖像修復(fù)模型參數(shù)設(shè)置情況,本文再次調(diào)整損失函數(shù)的權(quán)重進(jìn)行訓(xùn)練,最終發(fā)現(xiàn)圖像達(dá)到了較好的修復(fù)效果。圖5中展示的是迭代50次的訓(xùn)練效果圖,從中可以看出圖5(e)訓(xùn)練的效果圖表現(xiàn)最好。綜上所述,本文將損失函數(shù)的權(quán)重分別設(shè)置為λcon=0.5,λperc=0.05,λstyle=150,λrec=50,λadv=0.1。

        圖5 不同損失函數(shù)權(quán)重的訓(xùn)練效果圖

        3.2 實(shí)驗(yàn)結(jié)果

        3.2.1 定性比較

        對(duì)于具有規(guī)則缺失區(qū)域的圖像,將提出的方法與CE(Pathak 等,2016)、GL(Iizuka等,2017)和CA(Yu等,2108)3種方法進(jìn)行定性比較,結(jié)果如圖6—圖8所示。

        圖6 CelebA數(shù)據(jù)集規(guī)則缺失的定性比較

        圖7 Stanford Cars數(shù)據(jù)集規(guī)則缺失的定性比較

        圖8 Street View數(shù)據(jù)集規(guī)則缺失的定性比較

        在CelebA數(shù)據(jù)集中,從圖6可以看出,對(duì)于分辨率和缺失區(qū)域均較大的圖像,CE修復(fù)的結(jié)果通常不太真實(shí)且不易識(shí)別。如圖6(c)所示,圖中修復(fù)區(qū)域人臉的面部器官難以辨別,且出現(xiàn)了大量黑色的偽影,呈現(xiàn)出了較差的修復(fù)效果。GL在理解整個(gè)圖像的上下文方面是有效的,但是較難生成復(fù)雜的結(jié)構(gòu)性紋理,且修復(fù)的結(jié)果也比較模糊。如圖6(d)中的圖像可以識(shí)別出人的面部器官,但是修復(fù)的區(qū)域出現(xiàn)了較為模糊的結(jié)果。CA在一定程度上改善了圖像紋理修復(fù)的問題,但通常生成的圖像會(huì)出現(xiàn)扭曲的結(jié)構(gòu)和多余的內(nèi)容。如圖6(e)中紅色方框所標(biāo)注位置,修復(fù)區(qū)域額頭部位出現(xiàn)了在原始圖像中不存在的頭發(fā),這顯然是在修復(fù)任務(wù)中不希望看到的現(xiàn)象。與這些方法相比,ESID的修復(fù)結(jié)果具有明顯較少的偽影,修復(fù)的圖像和真實(shí)圖像在視覺一致性方面表現(xiàn)更好。

        在Stanford Cars數(shù)據(jù)集中,從圖7可以看出,ESID修復(fù)的圖像在視覺效果上明顯優(yōu)于CE和GL。CE的修復(fù)結(jié)果如圖7(c)所示,可看出對(duì)于Stanford Cars數(shù)據(jù)集,CE基本無法產(chǎn)生修復(fù)能力,圖中修復(fù)的內(nèi)容與原始圖像基本沒有任何關(guān)聯(lián),偽影現(xiàn)象非常嚴(yán)重。圖7(d)中GL對(duì)該數(shù)據(jù)集中的圖像產(chǎn)生了一定的修復(fù)能力,但修復(fù)結(jié)果較為模糊。CA修復(fù)的圖像雖然在紋理和顏色上都達(dá)到了較好的效果,但部分區(qū)域出現(xiàn)了扭曲的結(jié)構(gòu),如圖7(e)中紅色方框標(biāo)注區(qū)域車身部位產(chǎn)生了明顯的扭曲。與CA修復(fù)的結(jié)果相比,圖7(f)中ESID的修復(fù)圖像在缺失區(qū)域的邊界處過渡更自然,在視覺上與原始圖像更一致,而且未出現(xiàn)明顯的結(jié)構(gòu)扭曲現(xiàn)象。

        在Street View數(shù)據(jù)集中,從圖8(c)中可以看出,CE修復(fù)的圖像缺乏必要的結(jié)構(gòu)和紋理信息,具有明顯的偽影。與CE相比,圖8(d)中GL在圖像結(jié)構(gòu)的修復(fù)上是有效的,但無法生成清晰的紋理。圖8(e)中CA和圖8(f)中ESID修復(fù)的結(jié)果都呈現(xiàn)出了較好的視覺效果,但ESID在圖像的一致性方面表現(xiàn)出了更佳的性能。如圖8(e)中紅色方框標(biāo)注位置,CA的修復(fù)結(jié)果出現(xiàn)了扭曲的結(jié)構(gòu),與其相比,ESID修復(fù)的圖像與原始圖像在結(jié)構(gòu)紋理和視覺效果上更一致。

        對(duì)于具有不規(guī)則缺失區(qū)域的圖像,將本文方法與PConv(Liu等,2018)、PEPSI(Sagong 等,2019)和EdgeConnect(Nazeri等,2019)3種方法進(jìn)行定性的比較,結(jié)果如圖9—圖11所示。

        圖9 CelebA數(shù)據(jù)集不規(guī)則缺失的定性比較

        圖10 Stanford Cars數(shù)據(jù)集不規(guī)則缺失的定性比較

        圖11 Street View數(shù)據(jù)集不規(guī)則缺失的定性比較

        在CelebA數(shù)據(jù)集中,從圖9(c)中可以看出,PEPSI修復(fù)的圖像出現(xiàn)了較嚴(yán)重的偽影,可明顯看出修復(fù)的痕跡。PConv和EdgeConnect顯示出了可信的結(jié)果,但部分位置出現(xiàn)了模糊的現(xiàn)象或輕微扭曲的結(jié)構(gòu)。如圖9(d)(e)中紅色方框區(qū)域中,兩種方法在眼睛下方部位均生成不合理的結(jié)構(gòu)。此外,在第2行圖像中,PConv和EdgeConnect修復(fù)的眼鏡都出現(xiàn)了扭曲的現(xiàn)象。與這些方法相比,ESID修復(fù)的圖像內(nèi)容更精細(xì),語義更合理。

        在Stanford Cars數(shù)據(jù)集中,從圖10(c)中可以看出,PEPSI修復(fù)的圖像缺乏必要的紋理信息,具有明顯的偽影。圖10(d)中PConv對(duì)該數(shù)據(jù)集中的圖像產(chǎn)生了一定的修復(fù)能力,但易出現(xiàn)扭曲的結(jié)構(gòu)。如圖中第1行圖像的車頂、第2行圖像的后視鏡以及第3行圖像的車身均出現(xiàn)了明顯的扭曲。從圖10(e)(f)中可以看出,與EdgeConnect修復(fù)的結(jié)果相比,ESID的修復(fù)圖像在結(jié)構(gòu)和紋理上更合理,在視覺上與原始圖像更一致。

        在Street View數(shù)據(jù)集中,從圖11中紅色方框位置可以看出,對(duì)于結(jié)構(gòu)性特征比較強(qiáng)的建筑物圖像,ESID修復(fù)的結(jié)果在一定程度上要優(yōu)于其他方法。此外,在第2行圖像中,對(duì)于缺失部位的高樓,PEPSI、PConv和EdgeConnect修復(fù)的結(jié)果出現(xiàn)了明顯的扭曲現(xiàn)象。與這些方法相比,ESID修復(fù)的結(jié)果雖然出現(xiàn)了模糊的現(xiàn)象,但是在視覺效果上與原始圖像更一致。

        最后,為了測(cè)試本文ESID模型的魯棒性,通過增加噪聲的干擾,進(jìn)行了額外的對(duì)比實(shí)驗(yàn)。對(duì)于具有規(guī)則和不規(guī)則缺失區(qū)域的圖像,本文將ESID分別與CA(Yu等,2018)和PConv(Liu等,2018)進(jìn)行比較。實(shí)驗(yàn)結(jié)果如圖12所示,圖中σ表示高斯噪聲中的標(biāo)準(zhǔn)差,snr表示椒鹽噪聲中的信噪比。

        圖12 添加噪聲的定性比較

        在Stanford Cars、CelebA和Street View共3個(gè)數(shù)據(jù)集上,本文分別添加了均值為0,標(biāo)準(zhǔn)差為10、20和30的高斯噪聲。在Stanford Cars中,從圖12(d)中第1行可以看出,在有噪聲干擾的情況下,CA修復(fù)的圖像顯示出明顯的偽影。而ESID基本能還原圖像的輪廓,在視覺上產(chǎn)生不錯(cuò)的效果。在CelebA中,從圖12(d)(e)中第2行可以看出,ESID修復(fù)出的圖像明顯好于CA修復(fù)的圖像。在Street View中,從圖12中第3行可以看出,PConv修復(fù)的圖像存在明顯的噪聲點(diǎn),與其相比,雖然ESID修復(fù)的圖像有些模糊和偽影,但是在圖像的結(jié)構(gòu)和視覺上都呈現(xiàn)出了更好的效果。此外,在CelebA數(shù)據(jù)集上,本文還添加了椒鹽噪聲。結(jié)果如圖12中第4行所示,從圖中可以看出,雖然ESID修復(fù)的圖像出現(xiàn)了噪聲點(diǎn),但是與PConv相比,修復(fù)的圖像依然顯示出了較好的效果。

        綜上所述,與其他方法相比,本文方法ESID在3個(gè)數(shù)據(jù)集上具有相對(duì)較強(qiáng)的魯棒性。

        3.2.2 定量比較

        將提出的方法與其他方法在5個(gè)指標(biāo)上進(jìn)行了定量的比較,分別是均方誤差(L2)、峰值信噪比(peak signal-to-noise ratio,PSNR)、結(jié)構(gòu)相似性(structural similarity,SSIM)(Wang等,2004)、FID(Fréchet inception distance)(Heusel等,2017)以及IS(inception score)(Salimans等,2016)。其中L2、PSNR是對(duì)圖像中所有像素進(jìn)行逐個(gè)比較,沒有考慮人類的視覺感知。SSIM是從結(jié)構(gòu)、亮度和對(duì)比度3個(gè)方面比較圖像的差異,考慮了圖像之間的整體相似度。FID計(jì)算修復(fù)圖像和原始圖像分布之間的Wasserstein-2距離,可以表示修復(fù)結(jié)果的感知質(zhì)量。IS用來評(píng)價(jià)圖像生成的質(zhì)量和多樣性,是圖像生成領(lǐng)域常采用的評(píng)價(jià)指標(biāo)。

        對(duì)于具有規(guī)則缺失區(qū)域的圖像,定量比較結(jié)果如表4所示,從中可得,本文方法在CelebA和Street View數(shù)據(jù)集上以最佳L2、SSIM、PSNR和FID產(chǎn)生了不錯(cuò)的結(jié)果。尤其是FID指標(biāo),本文方法在CelebA數(shù)據(jù)集上比表4中性能第2的CA降低了5.055,在Street View數(shù)據(jù)集上降低了11.895。在Stanford Cars數(shù)據(jù)集上,本文方法具有更好的L2、SSIM和PSNR,但FID和IS略低于CA。

        表4 規(guī)則缺失圖像的定量比較

        對(duì)于具有不規(guī)則缺失區(qū)域的圖像,從表5可看出,本文方法在CelebA數(shù)據(jù)集上實(shí)現(xiàn)了所有指標(biāo)的最佳值。在Stanford Cars數(shù)據(jù)集上,除了IS略低于EdgeConnect,其他指標(biāo)也達(dá)到了最佳值。此外,在Street View數(shù)據(jù)集上,本文方法具有更好的L2、SSIM和PSNR。

        表5 不規(guī)則缺失圖像的定量比較

        如上所述,本文算法在CelebA、Stanford Cars和Street View數(shù)據(jù)集上實(shí)現(xiàn)了最佳的數(shù)值性能。這表明與其他方法相比,本文方法可以更好地修復(fù)出與原始圖像相一致的內(nèi)容。

        3.3 消融實(shí)驗(yàn)

        3.3.1 雙解碼器的有效性

        分別對(duì)雙解碼器能有效減少模型的訓(xùn)時(shí)間,以及消除兩階段修復(fù)模型中存在的依賴性進(jìn)行了實(shí)驗(yàn)驗(yàn)證。

        為了驗(yàn)證雙解碼器能有效減少模型的訓(xùn)練時(shí)間,設(shè)計(jì)了由粗到細(xì)的兩階段的網(wǎng)絡(luò)結(jié)構(gòu),稱為Net_stage。在保證Net_stage和ESID網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)、迭代次數(shù)以及所用損失函數(shù)等相同的條件下,對(duì)兩種結(jié)構(gòu)訓(xùn)練中所用的時(shí)間進(jìn)行了比較,結(jié)果如表6所示。從表中可以看出,與Net_stage結(jié)構(gòu)相比,ESID能有效提高模型的訓(xùn)練效率。在CelebA、Stanford Cars和Street View等3個(gè)數(shù)據(jù)集上將模型的訓(xùn)練時(shí)間分別減少了12.78%,21.44%和10.68%。

        表6 雙解碼器減少訓(xùn)練時(shí)間驗(yàn)證

        對(duì)于模型的依賴性驗(yàn)證,圖13展示了兩階段的模型CA(Yu等,2018)和ESID在CelebA數(shù)據(jù)集上的修復(fù)結(jié)果。從圖13(a)中紅色方框標(biāo)記位置可看出,當(dāng)CA模型的第1階段修復(fù)結(jié)果出現(xiàn)明顯的偽影時(shí),第2階段的修復(fù)結(jié)果會(huì)產(chǎn)生多余的內(nèi)容,導(dǎo)致修復(fù)結(jié)果較差。從圖13(b)中可以看出,當(dāng)?shù)?階段修復(fù)結(jié)果比較理想時(shí),第2階段也會(huì)產(chǎn)生較好的修復(fù)效果。

        這種依賴性主要是由于兩階段修復(fù)模型為了促使網(wǎng)絡(luò)更好地提取圖像的特征,將第1階段的修復(fù)結(jié)果作為第2階段的輸入所導(dǎo)致的。而對(duì)于本文提出的雙解碼器模型,簡(jiǎn)單路徑和重構(gòu)路徑在訓(xùn)練過程中相互獨(dú)立,互不干擾,從而消除了兩階段模型中的依賴性問題。從圖13中最后兩列可以看出,簡(jiǎn)單路徑和重構(gòu)路徑的修復(fù)圖像均顯示出了較好的效果,且兩者之間不存在依賴性的問題。與簡(jiǎn)單路徑輸出的圖像相比,重構(gòu)路徑修復(fù)的圖像更清晰,在視覺效果上與原始圖像更一致。

        圖13 雙解碼器消除依賴性驗(yàn)證

        3.3.2 損失函數(shù)的有效性

        為了驗(yàn)證一致性損失Lcon、感知損失Lperc和風(fēng)格損失Lstyle能有效增強(qiáng)圖像的語義一致性,針對(duì)損失函數(shù)模塊做了消融實(shí)驗(yàn)。從圖14中可以看出,當(dāng)沒有使用Lcon、Lperc和Lstyle時(shí),圖14(c)的修復(fù)結(jié)果過于平滑和模糊,而圖14(d)中ESID修復(fù)區(qū)域的內(nèi)容相對(duì)清晰。這表明通過一致性損失等函數(shù),ESID能夠更好地提取圖像的語義信息,這有效增強(qiáng)了修復(fù)圖像和真實(shí)圖像的視覺一致性。

        圖14 增強(qiáng)語義一致性驗(yàn)證

        3.3.3 多尺度注意力的有效性

        在實(shí)驗(yàn)中,多尺度注意力被從重構(gòu)路徑中移除。從圖15中可以看出,當(dāng)沒有使用多尺度注意力模塊時(shí),圖15(c)的修復(fù)結(jié)果缺乏良好的紋理細(xì)節(jié)且易出現(xiàn)偽影,而圖15(d)中ESID修復(fù)的側(cè)臉圖像呈現(xiàn)出了更好的紋理細(xì)節(jié)。這是由于注意力能充分利用遠(yuǎn)距離處的圖像內(nèi)容,關(guān)注感興趣的區(qū)域而抑制無關(guān)區(qū)域的信息,因此使用多尺度注意力可以使模型產(chǎn)生更合理的紋理內(nèi)容。

        圖15 多尺度注意的有效性驗(yàn)證

        3.3.4 U-Net結(jié)構(gòu)的有效性

        實(shí)驗(yàn)中用簡(jiǎn)單連接代替了跳躍連接,從而移除了U-Net結(jié)構(gòu)。從圖16中可以看出,當(dāng)沒有使用U-Net結(jié)構(gòu)時(shí),圖16(c)修復(fù)的圖像表現(xiàn)出了平滑的結(jié)果,在缺失區(qū)域的邊界處出現(xiàn)了較明顯的偽影。相比之下,由于U-Net結(jié)構(gòu)將編碼部分的信息直接傳遞到解碼部分對(duì)應(yīng)位置,有效減少了傳統(tǒng)自動(dòng)編碼器架構(gòu)中的信息丟失問題,使網(wǎng)絡(luò)能夠提取到更全面且豐富的信息,從而使ESID模型可以產(chǎn)生更清晰一致的圖像。

        圖16 U-Net結(jié)構(gòu)的有效性驗(yàn)證

        4 結(jié) 論

        針對(duì)大面積缺失區(qū)域圖像中修復(fù)圖像和真實(shí)圖像的視覺不一致性問題,以及兩階段修復(fù)模型中存在的依賴性問題,本文提出了一種基于雙解碼器的增強(qiáng)語義一致的圖像修復(fù)方法。利用雙解碼器消除了兩階段網(wǎng)絡(luò)模型的修復(fù)效果對(duì)第1階段輸出結(jié)果的依賴性,同時(shí)有效地減少了模型的訓(xùn)練時(shí)間。通過一致性損失、感知損失和風(fēng)格損失增強(qiáng)圖像的語義一致性,提高了網(wǎng)絡(luò)的細(xì)節(jié)修復(fù)能力。此外,本文使用U-Net結(jié)構(gòu)和多尺度注意力模塊等進(jìn)一步加強(qiáng)了模型的特征提取能力。定性實(shí)驗(yàn)結(jié)果表明,本文方法能夠修復(fù)出細(xì)節(jié)紋理更清晰的圖像,比其他方法展現(xiàn)出了更好的修復(fù)能力。定量實(shí)驗(yàn)結(jié)果表明,本文方法在CelebA、Stanford Cars和UCF Google Street View等3個(gè)數(shù)據(jù)集上實(shí)現(xiàn)了最佳的數(shù)值性能。進(jìn)一步,消融實(shí)驗(yàn)驗(yàn)證了雙解碼器的有效性。同時(shí)也驗(yàn)證了損失函數(shù)、多尺度注意力以及U-Net的有效性。通過這些模塊,本文方法能有效增強(qiáng)修復(fù)圖像和真實(shí)圖像的視覺一致性,為圖像缺失區(qū)域生成更合理的內(nèi)容。但是,本文方法仍存在一些不足,如在圖像結(jié)構(gòu)比較復(fù)雜的情況下,模型修復(fù)的效果不太理想。這將是未來需要進(jìn)一步研究和解決的問題。

        猜你喜歡
        一致性特征區(qū)域
        關(guān)注減污降碳協(xié)同的一致性和整體性
        公民與法治(2022年5期)2022-07-29 00:47:28
        注重教、學(xué)、評(píng)一致性 提高一輪復(fù)習(xí)效率
        IOl-master 700和Pentacam測(cè)量Kappa角一致性分析
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        關(guān)于四色猜想
        分區(qū)域
        基于事件觸發(fā)的多智能體輸入飽和一致性控制
        基于嚴(yán)重區(qū)域的多PCC點(diǎn)暫降頻次估計(jì)
        青青草在线免费观看在线| 国产精品亚洲精品日韩已方 | 亚洲综合国产成人丁香五月小说| 日本韩国一区二区高清| 亚洲av综合色区无码一区| 中文字幕在线亚洲日韩6页| 亚洲视频99| 玩弄丝袜美腿超短裙校花| 国产在线观看91一区二区三区 | 在线观看一区二区女同| 无码av专区丝袜专区| 国产三级不卡视频在线观看| 国产专区一线二线三线码| 最新亚洲人成网站在线观看| 中文字幕在线亚洲日韩6页手机版| 国产喷白浆精品一区二区| 午夜精品免费视频一区二区三区| 久久不见久久见免费影院国语| 久久婷婷色综合一区二区| 无码天堂亚洲国产av麻豆| 亚洲国产中文字幕九色| 一边摸一边抽搐一进一出视频| 中文字幕一区二区人妻| 日韩精品一区二区三区毛片| 男女打扑克视频在线看| 国产亚洲自拍日本亚洲| 欧美大屁股xxxx| 精品欧美久久99久久久另类专区| 国产精品自拍视频免费观看| 乱色欧美激惰| 亚洲级αv无码毛片久久精品| 久久91精品国产91久久麻豆| 97人妻中文字幕总站| 中文字幕人妻熟女人妻| 一个人看的www免费视频中文| av永久天堂一区二区三区蜜桃| 中文字幕乱码在线人妻| 国内精品人妻无码久久久影院导航| 乱人伦中文字幕在线不卡网站| 精品国产女主播一区在线观看| 国产乱子轮xxx农村|