亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于掩碼預(yù)測(cè)和多尺度上下文聚合的人臉圖像修復(fù)算法

        2023-10-12 07:37:48孫劍明吳金鵬沈子成彭俄禎
        無線電工程 2023年10期
        關(guān)鍵詞:掩碼補(bǔ)丁人臉

        孫劍明,吳金鵬,沈子成,彭俄禎

        (哈爾濱商業(yè)大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,黑龍江 哈爾濱 150028)

        0 引言

        圖像修復(fù)[1]是指利用已知上下文信息填充圖像中缺失的區(qū)域。盡管研究人員已經(jīng)提出許多圖像修復(fù)方法,無論是傳統(tǒng)算法還是現(xiàn)有深度學(xué)習(xí)算法,在修復(fù)圖像時(shí)都難以同時(shí)恢復(fù)合理的內(nèi)容和清晰的紋理。

        早期的圖像修復(fù)工作[1-13]試圖通過基于擴(kuò)散或基于補(bǔ)丁的算法來解決這一問題?;跀U(kuò)散的算法將上下文信息從邊界傳播到等照度線方向的孔洞(缺失區(qū)域)中。基于補(bǔ)丁的算法通過從未損壞的圖像區(qū)域或外部數(shù)據(jù)庫復(fù)制相似的補(bǔ)丁來合成缺失區(qū)域?,F(xiàn)有的深度模型在低分辨率圖像的語義修復(fù)方面已經(jīng)表現(xiàn)出良好的效果。但在更高分辨率(如512 pixel×512 pixel)使用這些深度模型往往會(huì)生成不合理的內(nèi)容且紋理細(xì)節(jié)不真實(shí),阻礙了用戶在高分辨率圖像中的實(shí)際應(yīng)用。

        為了克服以上2種問題,提出了一種基于掩碼預(yù)測(cè)和多尺度上下文聚合的人臉圖像修復(fù)模型。它包括一個(gè)以編碼器、多尺度上下文聚合模塊(Multi-Scale Context Aggregation Module,MSCAM)、解碼器為框架的生成器網(wǎng)絡(luò)和一個(gè)以掩碼預(yù)測(cè)為訓(xùn)練任務(wù)的判別器網(wǎng)絡(luò)。

        為了在破損圖像生成合理的內(nèi)容,通過堆疊多個(gè)MSCAM。通過使用各種擴(kuò)張率的空洞卷積來利用遙遠(yuǎn)的距離上下文信息進(jìn)行上下文推理,同時(shí)通過拼接多個(gè)特征圖來實(shí)現(xiàn)多尺度的特征融合。使用跳躍連接將編碼器中每一層卷積層的輸出與解碼器對(duì)應(yīng)位置的輸入在通道維度上拼接,使得圖像的上下文信息向更高層分辨率傳播,從而為缺失區(qū)域生成更合理的內(nèi)容。

        為了生成真實(shí)的紋理細(xì)節(jié),使用了一種新穎的掩碼預(yù)測(cè)任務(wù)來訓(xùn)練判別器。大多數(shù)現(xiàn)有的深度模型使用了帶有譜歸一化的PatchGAN判別器,從而迫使判別器將修復(fù)圖像中的所有補(bǔ)丁塊預(yù)測(cè)為假,而忽略了那些缺失區(qū)域之外的補(bǔ)丁塊確實(shí)來自真實(shí)圖像的事實(shí)。因此,這些深度模型可能難以生成逼真的細(xì)粒度紋理。為了克服以上問題,使用掩碼預(yù)測(cè)的PatchGAN(Mask Prediction-PatchGAN,MP-PatchGAN)判別器,迫使判別器區(qū)分真實(shí)和生成的小塊(缺失區(qū)域)的紋理細(xì)節(jié)。換句話說,對(duì)于修復(fù)圖像,判別器期望從真實(shí)圖像中分割出合成的圖像塊。這樣的學(xué)習(xí)目標(biāo)導(dǎo)致了一個(gè)更強(qiáng)的判別器,并且反過來促進(jìn)生成器來合成逼真的細(xì)粒度紋理。

        本文的貢獻(xiàn)如下:

        ① 首次提出了MSCAM和MP-PatchGAN判別器。MSCAM進(jìn)行特征提取,融合了來自不同感受野的特征圖,可以用來捕捉遙遠(yuǎn)距離的上下文信息和感興趣的模式增強(qiáng)上下文推理。MP-PatchGAN判別器迫使判別器區(qū)分真實(shí)和生成的小塊(缺失區(qū)域)的紋理細(xì)節(jié),進(jìn)一步提升人臉面部修復(fù)性能。

        ② 設(shè)計(jì)了一種基于掩碼預(yù)測(cè)和多尺度上下文聚合的人臉圖像修復(fù)網(wǎng)絡(luò),以便生成合理的內(nèi)容和逼真的紋理。

        ③ 本文設(shè)計(jì)的模型與其他主流的基于深度學(xué)習(xí)模型進(jìn)行定量、定性評(píng)估,且評(píng)價(jià)結(jié)果優(yōu)于其他深度模型。

        1 相關(guān)工作

        由于圖像修復(fù)對(duì)圖像編輯應(yīng)用(如物體移除和圖像復(fù)原)的重要實(shí)用價(jià)值,圖像修復(fù)已然成為近幾十年來活躍的研究課題之一?,F(xiàn)有的修復(fù)算法可以分為2類:基于傳統(tǒng)的算法和基于深度學(xué)習(xí)的算法。

        1.1 基于傳統(tǒng)的圖像修復(fù)算法

        基于擴(kuò)散的算法[1-6]沿著等照度線方向?qū)⑸舷挛南袼貜倪吔鐐鞑サ娇锥?。具體地,在像素傳播期間,通過使用偏微分方程來施加許多邊界條件。然而,這些方法通常會(huì)引入擴(kuò)散相關(guān)的模糊,因此無法完成大面積缺失區(qū)域。

        基于補(bǔ)丁的算法[7-13]通常通過從已知的圖像上下文或外部數(shù)據(jù)庫復(fù)制和粘貼相似的補(bǔ)丁塊來合成丟失的內(nèi)容。然而,這些方法在完成復(fù)雜場景的大面積缺失區(qū)域的語義修復(fù)方面存在不足。這是因?yàn)榛谘a(bǔ)丁的方法嚴(yán)重依賴于通過低級(jí)特征的逐片匹配。這種技術(shù)不能合成已知區(qū)域中不存在類似補(bǔ)丁的圖像。

        傳統(tǒng)算法往往在修復(fù)面積較小、紋理結(jié)構(gòu)較為簡單時(shí)有比較好的效果。一旦缺失區(qū)域比較大(30%以上)時(shí),修復(fù)效果往往會(huì)特別差。這是因?yàn)閭鹘y(tǒng)的圖像修復(fù)算法往往不能深層地理解圖像中的語義信息。因此,隨著2015年之后深度學(xué)習(xí)的火熱,越來越多從事圖像修復(fù)的研究人員開始采用深度學(xué)習(xí)方法以獲取更深層次的語義信息理解以及更高質(zhì)量的修復(fù)效果。

        1.2 基于深度學(xué)習(xí)的圖像修復(fù)算法

        深度特征學(xué)習(xí)和對(duì)抗訓(xùn)練的出現(xiàn)使得圖像修復(fù)取得了重大進(jìn)展。與基于傳統(tǒng)算法相比,深度修復(fù)模型能夠?yàn)閺?fù)雜的場景生成合理的內(nèi)容和逼真的細(xì)粒度紋理。

        Pathak等[14]提出了上下文編碼器(Context Encoder,CE)模型,利用潛在特征空間中的通道等寬全連接層(Channel-wise Fully Connected Layer)將編碼特征和解碼特征連接。該模型首次使用生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)框架,生成器由編碼器、解碼器組成。取AlexNet前5層作為編碼器,解碼器部分則由反卷積實(shí)現(xiàn)從高維特征向圖像真實(shí)大小的轉(zhuǎn)變。通過CE模型已經(jīng)能使街景、人臉生成有希望的結(jié)果。然而,由于使用了通道等寬全連接層,使得該模型只能處理固定大小(128 pixel× 128 pixel)的圖像。CE結(jié)構(gòu)如圖1所示。

        針對(duì)上述問題,Iizuka等[15]提出在全卷積網(wǎng)絡(luò)(Fully Convolutional Network,FCN)建立模型,使得該模型能處理任意大小的圖像。為了生成逼真的細(xì)粒度紋理,通過采用GAN的框架進(jìn)行語義修復(fù),已經(jīng)取得了重大進(jìn)展。通過生成器和判別器之間的博弈論最小最大博弈,基于GAN的修復(fù)模型能夠生成更清晰的紋理。為了進(jìn)一步改進(jìn)判別器網(wǎng)絡(luò),通過全局和局部判別器進(jìn)行聯(lián)合訓(xùn)練,從而達(dá)到全局和局部一致性。FCN結(jié)構(gòu)如圖2所示。

        然而,由于FCN中判別器網(wǎng)絡(luò)使用了全連接層,局部判別器只能處理固定形狀的缺失區(qū)域。為了解決這一問題,Yu等[16]繼承了PatchGAN判別器, PatchGAN判別器旨在區(qū)分真實(shí)圖像的Patch和修復(fù)圖像的Patch。但基于PatchGAN的模型通常忽略了這樣一個(gè)事實(shí):那些缺失區(qū)域之外的補(bǔ)丁塊確實(shí)來自真實(shí)圖像的事實(shí),并且盲目地促進(jìn)判別器來區(qū)分這些相同的補(bǔ)丁塊是假的,因此會(huì)削弱生成器生成缺失區(qū)域之外的真實(shí)塊的真實(shí)內(nèi)容。除此之外,為了捕獲基于FCN的遠(yuǎn)距離上下文,提出了上下文注意力模塊,以通過逐片匹配從上下文中找到感興趣的補(bǔ)丁塊。Yu等提出的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

        圖3 上下文注意力機(jī)制網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Contextual attention mechanism network structure

        Liu等[17]提出部分卷積層代替標(biāo)準(zhǔn)卷積來處理缺失區(qū)域內(nèi)外顏色差異和偽影的問題。部分卷積將像素分為有效和無效像素,且只對(duì)有效像素做卷積。Yu等[18]在上下文注意力模塊的基礎(chǔ)上使用了門控卷積學(xué)習(xí)掩碼的分布,進(jìn)一步提升了修復(fù)性能。Yi等[19]提出了上下文殘差聚合(Contextual Residual Aggregation,CRA)機(jī)制,該機(jī)制可以通過對(duì)上下文信息中的殘差進(jìn)行加權(quán)聚合來生成缺失區(qū)域的高頻殘差,提出的CRA網(wǎng)絡(luò)僅需輸入低分辨率圖像,再將低分辨率修復(fù)結(jié)果和高頻殘差合并得到高分辨率圖像。

        傳統(tǒng)的圖像修復(fù)算法只適用于修復(fù)與背景相似的紋理,但人臉圖像面部成分之間存在緊密的相關(guān)性,人臉修復(fù)結(jié)果應(yīng)當(dāng)具有全局語義的合理性,如眉毛對(duì)齊、眼睛對(duì)齊等。因此,傳統(tǒng)的圖像修復(fù)算法不適用于人臉圖像修復(fù)。

        隨著GAN的發(fā)展,有關(guān)深度學(xué)習(xí)的人臉圖像修復(fù)算法性能不斷提升?,F(xiàn)有基于深度學(xué)習(xí)的人臉圖像修復(fù)算法主要分為4類:基于全連接層的算法、基于FCN的算法、基于注意力機(jī)制的算法和基于掩碼更新的算法。文獻(xiàn)[14]提出的CE網(wǎng)絡(luò)使用通道等寬全連接層完成臉部特征的長程遷移,但由于使用了全連接層,其網(wǎng)絡(luò)只能使用固定大小的人臉圖像。針對(duì)這一問題,文獻(xiàn)[15]首次提出使用FCN進(jìn)行人臉修復(fù),使其能處理任意大小的人臉圖像。文獻(xiàn)[16]提出了上下文注意力模塊,該模塊具有優(yōu)秀的臉部特征長程遷移能力。但是,這個(gè)模塊大尺寸圖像會(huì)占用巨大的顯存,因此無法在多尺度特征上使用,修復(fù)結(jié)果仍然會(huì)出現(xiàn)全局語義信息不合理的情況。文獻(xiàn)[17-18]和文獻(xiàn)[20]使用不同掩碼更新策略進(jìn)一步提升了局部語義修復(fù)性能。但是,其在全局語義上存在如左右眼不對(duì)稱等不合理的問題。

        2 網(wǎng)絡(luò)結(jié)構(gòu)

        2.1 MSCAM

        受Inception v3[21]網(wǎng)絡(luò)的啟發(fā),MSCAM將標(biāo)準(zhǔn)卷積層拆分為4個(gè)子層,每個(gè)子層擁有較少的輸出通道,如圖4所示。首先,使用4個(gè)不同padding大小(1、2、4、8)的ReflectionPad2d轉(zhuǎn)化為4個(gè)特征圖。其次,將具有256個(gè)輸出通道的標(biāo)準(zhǔn)卷積層拆分為4個(gè)子層,使得每個(gè)子層具有64個(gè)輸出通道。每個(gè)子層通過使用不同擴(kuò)張率(1、2、4、8)的空洞卷積來執(zhí)行上一ReflectionPad2d層輸出特征圖的不同變換。具體來說,通過在連續(xù)位置之間引入零來擴(kuò)展卷積核。使用較大的擴(kuò)張率使得卷積核能夠“看到”輸入圖像的較大區(qū)域,而使用較小擴(kuò)張率只能使卷積核關(guān)注于較小感受野的局部區(qū)域。隨后通過在通道維度上拼接多尺度感受野的不同變換。最后使用標(biāo)準(zhǔn)卷積層進(jìn)行多尺度上下文聚合。通過MSCAM能夠聚合遙遠(yuǎn)距離的上下文信息和感興趣的模式來增強(qiáng)上下文推理。

        2.2 MP-PatchGAN判別器

        在早期深度修復(fù)模型的判別器中,通常采用softmax函數(shù)輸出一個(gè)整張圖像是否為真實(shí)的概率。最近的深度修復(fù)模型使用了帶有譜歸一化的PatchGAN判別器。然而,使用softmax函數(shù)的GAN判別器對(duì)于不規(guī)則破損圖像修復(fù)是不適用的。盡管,PatchGAN判別器適用不規(guī)則破損圖像修復(fù),但PatchGAN判別器會(huì)將修復(fù)圖像中的所有補(bǔ)丁塊預(yù)測(cè)為假,而忽略了那些缺失區(qū)域之外的補(bǔ)丁塊確實(shí)來自真實(shí)圖像的事實(shí)。因此,無論是softmax函數(shù)的PatchGAN判別器,還是PatchGAN判別器都可能導(dǎo)致邊緣處結(jié)構(gòu)扭曲、產(chǎn)生偽影。為了促進(jìn)生成器生成細(xì)粒度的紋理,本文算法使用MP-PatchGAN判別器。圖5為訓(xùn)練不同判別器的說明。

        圖5 訓(xùn)練不同判別器的說明Fig.5 Description of different training discriminators

        具體來說,對(duì)輸入掩碼進(jìn)行下采樣,作為真實(shí)圖像掩碼預(yù)測(cè)任務(wù)的真實(shí)值。使用補(bǔ)丁級(jí)別的軟掩碼作為生成圖像掩碼預(yù)測(cè)任務(wù)的真實(shí)值,它通過高斯濾波獲得。通過計(jì)算判別器生成的真實(shí)圖像的預(yù)測(cè)掩碼和輸入掩碼均方誤差(Mean Squared Error,MSE),再通過計(jì)算判別器生成的修復(fù)圖像的預(yù)測(cè)掩碼和補(bǔ)丁級(jí)軟掩碼的MSE。將判別器的對(duì)抗性損失表示為:

        Ex~Pdata[(D(x)-1)2],

        (1)

        式中:D為判別器,G為生成器,σ為下采樣和高斯濾波的合成函數(shù),z為修復(fù)圖像,m為掩碼,1為與掩碼相同大小的元素全為1的矩陣,x為真實(shí)圖像,σ(1-m)為補(bǔ)丁級(jí)別軟掩碼。相應(yīng)地,生成器的對(duì)抗性損失表示為:

        (2)

        式中:D為判別器,G為生成器,z為修復(fù)圖像,m為掩碼,⊙為逐像素相乘。僅對(duì)缺失區(qū)域的合成塊的預(yù)測(cè)被用于優(yōu)化生成器。通過這樣的優(yōu)化,使得判別器從缺失區(qū)域之外的真實(shí)上下文中分割缺失區(qū)域的合成塊,從而增強(qiáng)判別器的性能,反過來可以幫助生成器合成更真實(shí)的紋理。

        2.3 算法整體框架

        基于掩碼預(yù)測(cè)和多尺度上下文聚合的人臉圖像修復(fù)算法在設(shè)計(jì)上采用了GAN框架,用編碼器-MSCAM-解碼器為框架構(gòu)造了生成器。首先,通過將真實(shí)圖像和不規(guī)則掩碼圖像合并成受損圖像作為輸入圖像。然后,編碼器提取圖像高層次的語義信息。再通過堆疊8層MSCAM捕獲遙遠(yuǎn)距離的上下文特征和豐富的感興趣模式來增強(qiáng)上下文推理。使用跳躍連接將編碼器每一卷積層的輸出和解碼器對(duì)應(yīng)位置上的輸入在通道維度上做拼接,使得圖像的上下文信息向更高層分辨率特征圖傳播。最后通過解碼器使得提取的特征圖向真實(shí)圖像的分辨率大小轉(zhuǎn)變,通過重建損失、對(duì)抗損失、感知損失、風(fēng)格損失的聯(lián)合損失函數(shù)訓(xùn)練生成器模型。本文算法在判別器上改用MP-PatchGAN判別器,通過對(duì)抗損失進(jìn)行判別器訓(xùn)練。該判別器用于區(qū)分真實(shí)和修復(fù)的Patch,從而生成更為清晰的紋理。本文算法結(jié)構(gòu)如圖6所示。

        圖6 基于掩碼預(yù)測(cè)和多尺度上下文聚合的人臉圖像修復(fù)模型Fig.6 Face image inpainting model based on mask prediction and multi-scale context aggregation

        3 損失函數(shù)

        圖像修復(fù)優(yōu)化目標(biāo)既要保證像素重建精度,又要保證修復(fù)圖像的視覺效果。為此,遵循大多數(shù)現(xiàn)有深度修復(fù)模型,選擇4個(gè)優(yōu)化目標(biāo):重建損失、對(duì)抗損失[22]、感知損失[23]和風(fēng)格損失[24]。采用對(duì)抗損失來優(yōu)化判別器,采用4個(gè)損失的加權(quán)聯(lián)合損失來優(yōu)化生成器。

        3.1 重建損失

        首先,使用L1損失,以確保像素級(jí)別的重建精度,重建損失表示為:

        (3)

        3.2 感知損失和風(fēng)格損失

        由于感知損失和風(fēng)格損失對(duì)于圖像修復(fù)的有效性已經(jīng)得到廣泛驗(yàn)證[25],將它們包括在內(nèi)以提高感知重建的準(zhǔn)確性。具體而言,感知損失旨在最小化修復(fù)圖像和真實(shí)圖像的激活圖之間的L1距離,感知損失表示為:

        (4)

        (5)

        在本文算法優(yōu)化中,感知損失計(jì)算VGG19網(wǎng)絡(luò)前5層修復(fù)圖像和真實(shí)圖像的激活圖之間的L1距離。風(fēng)格損失計(jì)算VGG-19網(wǎng)絡(luò)前4層修復(fù)圖像和真實(shí)圖像的深度特征的格拉姆矩陣之間的L1距離。

        3.3 聯(lián)合損失

        使用重建損失、對(duì)抗損失、感知損失和風(fēng)格損失加權(quán)聯(lián)合損失函數(shù)優(yōu)化生成器模型。聯(lián)合損失函數(shù)表示為:

        (6)

        式中:λ1=1,λ2=0.01,λ3=0.1,λ4=250。

        4 實(shí)驗(yàn)及分析

        4.1 數(shù)據(jù)集來源

        本文在公開數(shù)據(jù)集CelebA-HQ中訓(xùn)練和測(cè)試模型,CelebA-HQ包括30 000張分辨率為512 pixel×512 pixel的人臉圖像,其中訓(xùn)練集26 000張,驗(yàn)證集2 000張,測(cè)試集2 000張。本文使用了Liu等[17]提供的任意形狀掩碼數(shù)據(jù)集,其中包括12 000張不同破損比例的任意形狀掩碼圖像。數(shù)據(jù)集樣例如 圖7所示。

        圖7 數(shù)據(jù)集樣例Fig.7 Samples of dataset

        4.2 參數(shù)設(shè)置

        本文所有實(shí)驗(yàn)均在CentOS平臺(tái)下進(jìn)行,本文算法基于PyTorch 1.12、CUDNN 8.6和CUDA 11.6實(shí)現(xiàn)。CPU為Intel Xeon Platinum 8375C 2.90 GHz,GPU為NVIDIA GeForce RTX 3090。使用Adam算法[26]優(yōu)化模型,動(dòng)量衰減指數(shù)β1=0.5、β2=0.999,學(xué)習(xí)率為0.001,批量大小為16。

        4.3 現(xiàn)有深度模型

        深度模型及其縮寫和簡要介紹如下:

        ① CA[16]是一個(gè)由粗到細(xì)的兩階段模型。它使用一個(gè)基于Patch的非局部模塊,即上下文注意力模塊。

        ② PConv[17]采用提出部分卷積層代替標(biāo)準(zhǔn)卷積來處理缺失區(qū)域內(nèi)外顏色差異的問題。

        ③ GatedConv[18]在上下文注意力模塊的基礎(chǔ)上,結(jié)合了用于圖像修復(fù)的門控卷積和SN-PatchGAN判別器。

        ④ CRA[19]采用提出上下文殘差聚合模塊,該模塊通過加權(quán)聚合上下文的殘差來產(chǎn)生缺失內(nèi)容的高頻殘差。將高頻殘差和上采樣后生成圖像聚合來生成高分辨率圖像,且用同一組注意力分?jǐn)?shù)多次注意力轉(zhuǎn)移。注意力分?jǐn)?shù)的共享實(shí)現(xiàn)了更少的參數(shù)以及在模型訓(xùn)練方面更好的效率。

        ⑤ MAT[20]是首個(gè)基于Transfomer的人臉修復(fù)網(wǎng)絡(luò),其提出的多頭上下文注意力模塊能夠獲取長距離的上下文信息提升臉部修復(fù)能力。MAT是目前人臉修復(fù)領(lǐng)域里SOTA算法。

        4.4 定性分析

        為了證明本文提出的人臉修復(fù)算法的優(yōu)越性,將本文算法與CA、PConv、GatedConv、CRA和MAT五種算法的修復(fù)結(jié)果進(jìn)行定性比較,如圖8所示。

        圖8 不同深度模型在CelebA-HQ測(cè)試集上的修復(fù)結(jié)果Fig.8 Inpainting results of different depth models on CelebA-HQ test set

        結(jié)果表明,大多數(shù)深度模型在完成強(qiáng)語義的極大缺失區(qū)域修復(fù)時(shí)效果不理想。具體來說,CA模型通過提出的上下文注意力模塊可以從已知圖像內(nèi)容中尋找與待修復(fù)區(qū)域相似度最高的Patch,然后使用這個(gè)Patch的特征做反卷積從而重建該P(yáng)atch,但如果已知圖像內(nèi)容和待修復(fù)區(qū)域差距很大,往往會(huì)產(chǎn)生不合理的內(nèi)容,人臉的五官會(huì)出現(xiàn)扭曲(如圖8(c)所示)。PConv模型通過提出的部分卷積對(duì)每一卷積層的Mask更新,從而優(yōu)化修復(fù)結(jié)果,將已知區(qū)域內(nèi)的像素視為有效像素,將缺失區(qū)域內(nèi)的像素視為無效像素,且只對(duì)有效像素進(jìn)行卷積,使用部分卷積代替標(biāo)準(zhǔn)卷積,能在一定程度上避免缺失區(qū)域內(nèi)外顏色差異的問題,但眼睛會(huì)產(chǎn)生偽影(如圖8(d)所示)。GatedConv模型通過提出的門控卷積優(yōu)化部分卷積中Mask更新機(jī)制,該Mask更新機(jī)制是可學(xué)習(xí)的,但GatedConv模型使用PatchGAN判別器驅(qū)使已知區(qū)域像素改變,進(jìn)而影響修復(fù)結(jié)果(如圖8(e)所示)。CRA模型通過多次的注意力轉(zhuǎn)移導(dǎo)致了嚴(yán)重的偽影(如圖8(f)所示)。MAT模型通過多頭上下文注意力模塊以及Transfomer架構(gòu)的優(yōu)勢(shì),其獲取長距離的上下文信息和全局感受野也能帶來不俗的修復(fù)性能(如圖8(h)所示)。而本文通過提出的MSCAM來捕捉遙遠(yuǎn)距離的上下文信息和更多感興趣的模式和訓(xùn)練掩碼預(yù)測(cè)的判別器來增強(qiáng)判別器的性能,以此生成更合理的內(nèi)容和更清晰的紋理(如圖8(g)所示)。

        4.5 定量分析

        為了客觀評(píng)價(jià)本文模型在人臉圖像修復(fù)效果,對(duì)CA、PConv、GatedConv、CRA、MAT和本文提出的模型進(jìn)行定量比較。評(píng)價(jià)指標(biāo)包括L1Loss、峰值信噪比(Peak Signal to Noise Ratio,PSNR)、結(jié)構(gòu)相似性(Structural Similarity,SSIM)和弗雷歇初始距離(Fréchet Inception Distance,FID)(如式(7)、式(8)、式(10)、式(11)所示),分別衡量修復(fù)圖像和原始圖像像素級(jí)差異、整體相似度、感知相似度以及特征相似度,其中L1Loss、FID 越低修復(fù)效果越好,PSNR、SSIM越高修復(fù)效果越好。具體來說,使用了CelebA-HQ驗(yàn)證集的所有圖像。在不同孔洞率的掩碼下,對(duì)上述方法分別做測(cè)試。對(duì)于每個(gè)測(cè)試圖像,隨機(jī)采用自由形狀的掩碼作為測(cè)試掩碼。為了公平起見,在掩碼孔洞率一樣的情況下,對(duì)所有方法的相同圖像都使用了相同的掩碼。

        (7)

        式中:N為樣本的數(shù)量,W、H、C分別為圖像的寬度、高度以及通道數(shù),Iout為修復(fù)圖像,Igt為真實(shí)圖像。

        (8)

        (9)

        式中:X1為修復(fù)圖像,X2為真實(shí)圖像,H、W分別為圖像的高度和寬度。

        (10)

        (11)

        式中:μx、∑x分別為修復(fù)圖像在Inception Net-V3輸出的2 048維特征向量集合的均值和協(xié)方差矩陣,μg、∑g分別為真實(shí)圖像在Inception Net-V3輸出的2 048維特征向量集合的均值和協(xié)方差矩陣,tr為矩陣的跡。

        定量分析結(jié)果如表1和表2所示。不難看出,本文模型在L1Loss、PSNR、SSIM和FID指標(biāo)下都優(yōu)于CA模型、PConv模型、GatedConv模型、CRA模型。本文模型與MAT模型的定量分析結(jié)果如表3所示,不難看出,本文模型的L1Loss、PSNR、SSIM均優(yōu)于現(xiàn)階段人臉修復(fù)MAT模型,由此說明本文提出的模型與現(xiàn)有先進(jìn)深度模型相比,具有更優(yōu)秀的人臉面部修復(fù)能力。

        表1 CA模型、PConv模型和本文模型在CelebA-HQ測(cè)試集下的平均指數(shù)對(duì)比Tab.1 Average index comparison of CA model,PConv model and proposed model under CelebA-HQ test set

        表2 GatedConv模型、CRA模型和本文模型在CelebA-HQ測(cè)試集下的平均指數(shù)對(duì)比Tab.2 Average index comparison of GatedConv model,CRA model and proposed model under CelebA-HQ test set

        表3 MAT模型和本文模型在CelebA-HQ測(cè)試集下的平均指數(shù)對(duì)比Tab.3 Average index comparison between MAT model and proposed model under CelebA-HQ test set

        5 結(jié)束語

        本文提出了一種基于掩碼預(yù)測(cè)和多尺度上下文聚合的高分辨率人臉圖像修復(fù)模型。該模型由一個(gè)生成器和一個(gè)判別器組成。生成器由編碼器、多層MSCAM和解碼器組成。為了生成看似合理的內(nèi)容,提出了MSCAM來構(gòu)造生成器,融合了來自不同感受野的特征,且可以捕捉遙遠(yuǎn)距離的上下文信息和感興趣的模式進(jìn)行上下文推理。為了改善紋理合成,通過使用MP-PatchGAN判別器迫使它區(qū)分真實(shí)和生成的小塊(缺失區(qū)域)的紋理細(xì)節(jié)。此外,使用跳躍連接將編碼器中每一層卷積層的輸出與解碼器對(duì)應(yīng)位置的輸入在通道維度上拼接,使得圖像的上下文信息向更高層分辨率特征圖傳播。實(shí)驗(yàn)表明,本文模型在人臉圖像修復(fù)任務(wù)中能夠生成合理的內(nèi)容和逼真的細(xì)粒度紋理。

        猜你喜歡
        掩碼補(bǔ)丁人臉
        有特點(diǎn)的人臉
        低面積復(fù)雜度AES低熵掩碼方案的研究
        健胃補(bǔ)丁
        學(xué)與玩(2018年5期)2019-01-21 02:13:06
        繡朵花兒當(dāng)補(bǔ)丁
        文苑(2018年18期)2018-11-08 11:12:30
        三國漫——人臉解鎖
        補(bǔ)丁奶奶
        幼兒畫刊(2018年7期)2018-07-24 08:25:56
        基于布爾異或掩碼轉(zhuǎn)算術(shù)加法掩碼的安全設(shè)計(jì)*
        基于掩碼的區(qū)域增長相位解纏方法
        馬面部與人臉相似度驚人
        基于掩碼的AES算法抗二階DPA攻擊方法研究
        国产精品igao视频网| 亚洲自拍偷拍一区二区三区| 日本一区二区国产高清在线播放 | 中文字幕人妻互换激情| 亚洲色偷偷偷综合网| 国产精品亚洲二区在线观看| 精品人体无码一区二区三区 | 少妇太爽了在线观看| 丰满熟妇人妻av无码区 | 搡老熟女中国老太| 国产美女一级做a爱视频| av有码在线一区二区三区| 手机在线看片| 亚洲av综合色区无码一二三区 | 日韩精品人妻久久久一二三| 国产精品9999久久久久| 精品久久久久久国产| 在线观看av片永久免费| 久久精品熟女亚洲av麻豆永永| 久久久无码精品亚洲日韩蜜臀浪潮| 男人扒开女人下面狂躁小视频| 欧美日韩国产亚洲一区二区三区 | 黄射视频在线观看免费| 精品www日韩熟女人妻| 午夜一级在线| 亚洲天堂一区二区三区视频| 人人超碰人人爱超碰国产| 无码人妻精品一区二区| 一区二区三区日韩亚洲中文视频| 男女搞黄在线观看视频| 人妻夜夜爽天天爽三区丁香花| 无码国产精品一区二区免费式直播| 国产亚洲欧美成人久久片| 亚洲天堂av免费在线| 五月色婷婷丁香无码三级| 五月天激情婷婷婷久久| 国产精品18久久久久网站| 免费av一区男人的天堂| 国产区女主播在线观看| 性xxxx视频播放免费| 杨幂Av一区二区三区|