亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于視覺注意力機(jī)制的人臉屬性遷移

        2021-04-15 03:48:32謝志峰閆淑萁張文領(lǐng)
        關(guān)鍵詞:數(shù)據(jù)分布人臉老化

        謝志峰 閆淑萁 張文領(lǐng)

        1(上海大學(xué)上海電影學(xué)院 上海 200072) 2(上海大學(xué)上海電影特效工程技術(shù)研究中心 上海 200072)

        0 引 言

        圖像翻譯(Image-to-Image Translation)的任務(wù)是將源圖像域轉(zhuǎn)換為目標(biāo)圖像域,是圖像處理中的一種重點(diǎn)研究方向。人臉屬性遷移作為圖像翻譯中的一種,其目的是把同種屬性下,不同屬性值的人臉圖像域進(jìn)行轉(zhuǎn)換,比如性別轉(zhuǎn)換、發(fā)色變化和人臉老化。它廣泛應(yīng)用在數(shù)字娛樂社交領(lǐng)域,并對(duì)增強(qiáng)數(shù)據(jù)集、輔助人臉識(shí)別具有重要意義。之前,人臉屬性遷移主要是利用配對(duì)數(shù)據(jù)集進(jìn)行回歸分析。近些年,生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks)[1]的出現(xiàn)推動(dòng)了圖像合成[2-3]和圖像翻譯[4-6]的發(fā)展。這種生成器和判別器相互博弈學(xué)習(xí)真實(shí)數(shù)據(jù)分布的網(wǎng)絡(luò)框架也成為人臉屬性遷移任務(wù)的主流模型。

        Isola等[7]提出有監(jiān)督的圖像翻譯方法pix2pix,其模型以U-net[8]為生成網(wǎng)絡(luò),新穎的PatchGAN為判別網(wǎng)絡(luò),通過配對(duì)數(shù)據(jù)集訓(xùn)練完成翻譯任務(wù)。但是對(duì)于人臉屬性遷移任務(wù)來說,這種有監(jiān)督學(xué)習(xí)模型所需配對(duì)的人臉屬性數(shù)據(jù)集難以得到。Zhu等[9]基于對(duì)偶學(xué)習(xí)和循環(huán)一致性損失提出了一種無監(jiān)督學(xué)習(xí)的圖像遷移模型CycleGAN,可以在未配對(duì)數(shù)據(jù)集上實(shí)現(xiàn)人臉屬性遷移,但是其生成圖像模糊。Liu等[10]提出UNIT模型,利用編碼器提取源域和目標(biāo)域共享的潛在向量,并讓對(duì)應(yīng)的解碼器學(xué)習(xí)潛在向量與各個(gè)域的映射完成屬性轉(zhuǎn)移,但是存在棋盤狀多余紋理。Zhang等[11]提出了基于視覺注意力機(jī)制的可解釋生成對(duì)抗性網(wǎng)絡(luò)SAT,可以在圖像到圖像轉(zhuǎn)換中減少屬性無關(guān)區(qū)域改變。

        針對(duì)生成圖像存在偽影、屬性無關(guān)區(qū)域改變等問題,本文提出基于視覺注意力機(jī)制的生成對(duì)抗網(wǎng)絡(luò),主要貢獻(xiàn)如下:

        1) 為了減小屬性無關(guān)區(qū)域的變化,生成網(wǎng)絡(luò)引入視覺注意力機(jī)制,構(gòu)建視覺注意力子網(wǎng)絡(luò)和圖像翻譯子網(wǎng)絡(luò)。非零的注意力值所在的區(qū)域視為屬性相關(guān)區(qū)域,剩下的部分為屬性無關(guān)區(qū)域。

        2) 在判別器網(wǎng)絡(luò)中采用多尺度PatchGAN網(wǎng)絡(luò)結(jié)構(gòu)判斷圖像的真假,豐富轉(zhuǎn)移圖像的細(xì)節(jié),并提高圖像質(zhì)量和視覺效果。

        3) 為了保持人臉身份信息,減少偽影噪聲,添加循環(huán)一致性損失函數(shù)和注意力圖像損失函數(shù)。

        1 相關(guān)工作

        1.1 人臉屬性遷移

        Mirza等[12]提出條件生成對(duì)抗網(wǎng)絡(luò)(CGAN),通過輸入人臉的屬性標(biāo)簽作為條件,生成器能隨機(jī)生成帶有相應(yīng)屬性的人臉圖像。Perarnau等[13]在條件生成對(duì)抗網(wǎng)絡(luò)[12]的基礎(chǔ)上引入自編碼器,提出用于圖像編輯的可逆條件生成對(duì)抗網(wǎng)絡(luò)(IcGAN)。人臉圖像通過兩個(gè)獨(dú)立的編碼器訓(xùn)練分別得到內(nèi)容特征向量C和屬性特征向量A。重新對(duì)特征向量組合,放入生成對(duì)抗網(wǎng)絡(luò)中可以生成同一張臉不同屬性的圖像。Choi等[14]提出了新穎的StarGAN模型,通過改變輸出標(biāo)簽即可完成不同域之間的屬性遷移。Bao等[15]提出了CVAE-GAN模型,在生成對(duì)抗網(wǎng)絡(luò)中加入了輔助分類器作為判別器的補(bǔ)充共同約束生成器,保持人臉的內(nèi)容信息,穩(wěn)定屬性遷移結(jié)果。Xiao等[16]基于特征解纏繞理論提出了實(shí)例級(jí)人臉屬性轉(zhuǎn)移網(wǎng)絡(luò)ELEGANT,原圖像和目標(biāo)圖像在潛層空間進(jìn)行特征交換,經(jīng)過圖像解碼完成屬性遷移。Pumarola等[17]提出了人臉表情轉(zhuǎn)移模型GANimation,其以視覺注意力機(jī)制為原理,將生成網(wǎng)絡(luò)分為色彩轉(zhuǎn)移網(wǎng)絡(luò)和注意力生成網(wǎng)絡(luò)。

        1.2 生成對(duì)抗網(wǎng)絡(luò)

        Arjovsky等[18]提出了WGAN模型,利用wassertein距離衡量生成數(shù)據(jù)分布與真實(shí)數(shù)據(jù)分布之間的距離。它解決了判別網(wǎng)絡(luò)和生成網(wǎng)絡(luò)能力平衡問題,使生成圖像的視覺質(zhì)量有所提高,生成結(jié)果多樣性更豐富。Gulrajani等[19]為了解決WGAN中l(wèi)ipschitz連續(xù)性限制性問題,進(jìn)一步改善了梯度穩(wěn)定性提出了基于梯度懲罰的WGAN-GP模型。Mao等[20]認(rèn)為最小二乘法可以將生成圖像的分布盡可能的接近目標(biāo),并利用最小二乘距離度量構(gòu)建一個(gè)更加穩(wěn)定而且收斂更快的、生成質(zhì)量高的對(duì)抗網(wǎng)絡(luò)LSGAN。

        2 基于視覺注意力的人臉屬性遷移

        為減小屬性無關(guān)區(qū)域的變化,本文提出基于視覺注意力機(jī)制的人臉屬性遷移網(wǎng)絡(luò),并采用CycleGAN形式的循環(huán)結(jié)構(gòu)解決了未配對(duì)數(shù)據(jù)集帶來的訓(xùn)練不穩(wěn)定問題。獨(dú)立的生成器GX、GY和獨(dú)立判別器DX1、DX2、DY1、DY2共同組成了兩組GAN網(wǎng)絡(luò)架構(gòu),分別進(jìn)行特定屬性方向的遷移。生成器將圖像源域遷移為目標(biāo)域完成特征映射,判別器本質(zhì)上是一個(gè)二分類網(wǎng)絡(luò),判別輸出圖像的真假。

        2.1 注意力機(jī)制生成器模型

        本文的生成器是基于文獻(xiàn)[11]提出的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),注意力子網(wǎng)絡(luò)和圖像翻譯子網(wǎng)絡(luò)除最后一層外,共享其余的網(wǎng)絡(luò)參數(shù),具體結(jié)構(gòu)如圖1所示。本文工作以Smiling屬性遷移為例,無表情人臉圖像和Smile圖像分別設(shè)為圖像域X和Y。生成器GX負(fù)責(zé)將源域X轉(zhuǎn)移到目標(biāo)域Y,即GX(X)→Y,生成器GY負(fù)責(zé)將源域Y轉(zhuǎn)移到目標(biāo)域X,即GY(Y)→X。

        圖1 本文模型的生成器結(jié)構(gòu)

        生成器GX的編碼部分使用了3塊卷積-正則-激活的網(wǎng)絡(luò)模塊,其中卷積和為3×3,Batch Normalization作為正則項(xiàng)加速模型收斂。為了使高維特征更好地映射到潛層向量空間,中間層采用4塊殘差網(wǎng)絡(luò)塊[21]。由于上采樣會(huì)失去原始數(shù)據(jù)的信息,相比轉(zhuǎn)置卷積,在解碼部分采用了卷積+PixelShuffle的方法減少生成圖像的棋盤狀多余紋理。在解碼的最后一層,本文工作分別采用Sigmoid激活和Tanh激活得到注意力圖像Mx和轉(zhuǎn)移RGB圖像Rx。最后通過式(1)將原圖像Ix、注意力圖像和轉(zhuǎn)移RGB圖像融合,得到最終的人臉屬性遷移圖像Ig。

        Ig=Rx+Ix×(1-Mx)

        (1)

        2.2 多尺度判別器模型

        判別器作為生成器的博弈對(duì)手,不僅要約束和引導(dǎo)生成器生成低頻的全局信息,也要讓生成圖像的高頻細(xì)節(jié)部分更為豐富。本文引用PatchGAN結(jié)構(gòu)[7],并采用多尺度判別器在不同的圖像分辨率上判別圖像的真假,網(wǎng)絡(luò)結(jié)果如圖2所示。

        圖2 人臉屬性遷移的多尺度判別器

        判別器網(wǎng)絡(luò)將輸入圖像當(dāng)作馬爾可夫隨機(jī)場,每塊區(qū)域之間的像素保持獨(dú)立,可以避免極端輸出,而且多尺度的網(wǎng)絡(luò)結(jié)構(gòu)可以提取更多的局部細(xì)節(jié)信息。本文使用256×256和128×128兩個(gè)尺寸送入判別器進(jìn)行判別。它將輸入圖像劃分為N×N大小的Patch區(qū)域,分別對(duì)每個(gè)Patch區(qū)域進(jìn)行真假判別,最后輸出一個(gè)二維矩陣,其中每個(gè)元素各代表一個(gè)Patch區(qū)域的平均估計(jì)[22]。

        2.3 目標(biāo)函數(shù)

        GAN模型的訓(xùn)練是生成器G和判別器D之間不斷對(duì)抗博弈、優(yōu)化網(wǎng)絡(luò)參數(shù)的過程。與普通GAN模型的對(duì)抗損失不同,本文工作用最小二乘損失函數(shù)代替原來的交叉熵?fù)p失函數(shù),使特征空間中的決策邊界也能最小化,進(jìn)一步提高生成圖像的質(zhì)量。以生成器GX和對(duì)應(yīng)判別器DY1、DY2為例,對(duì)抗損失函數(shù)如式(2)和式(3)所示。

        LGAN(G)=(DY1(GX(x))-1)2+

        λ1×(DY2(Gx(x))-1)2

        (2)

        LGAN(D)=(DY1(y)-1)2+λ2×(DY2(y)-1)2+

        (DY1(GX(x)))2+λ2×(DY2(GX(x)))2

        (3)

        式中:x代表原圖像;y代表送入判別器的真圖像;LGAN(G)為生成器損失;LGAN(D)為多尺度判別器損失;在訓(xùn)練中,設(shè)置參數(shù)λ1=λ2=0.5。

        未配對(duì)的人臉圖像翻譯中,在指定屬性遷移的過程中既要保持人臉的基礎(chǔ)結(jié)構(gòu)也要保留人臉的身份信息。本文引入了無監(jiān)督圖像翻譯模型CycleGAN的循環(huán)一致性損失作為約束。生成器GX(x)生成的結(jié)果y′經(jīng)過另一生成器GY(y′)得到的重構(gòu)圖像應(yīng)該與x保持一致。即任意圖像經(jīng)過GX得到轉(zhuǎn)移后的圖像,再經(jīng)過GY會(huì)返回到原始圖像。循環(huán)一致性損失Lcyc為:

        (4)

        在模型訓(xùn)練中,本文工作并沒有給視覺注意力一個(gè)監(jiān)督,而是讓它在不斷地學(xué)習(xí)中獲取。這樣,注意力圖像很容易飽和到1,導(dǎo)致生成器沒有效果。本文采用L2正則化約束注意力圖像Mx的生成,損失函數(shù)Latt為:

        (5)

        3 實(shí) 驗(yàn)

        3.1 數(shù)據(jù)集預(yù)處理

        本文采用公開的人臉數(shù)據(jù)集CelebA作為本文工作的人臉屬性遷移模型的訓(xùn)練集和測(cè)試集。該數(shù)據(jù)集有202 599幅包含40種屬性標(biāo)簽的名人圖片。首先,根據(jù)圖像的人臉關(guān)鍵點(diǎn)定位對(duì)CelebA數(shù)據(jù)集進(jìn)行適當(dāng)?shù)男D(zhuǎn)和裁剪,將原始的圖像處理為五點(diǎn)對(duì)齊的人臉圖像,大小為256×256。這種人臉對(duì)齊的預(yù)處理可以加快生成網(wǎng)絡(luò)學(xué)習(xí)圖像的數(shù)據(jù)分布。其次,利用屬性標(biāo)簽將數(shù)據(jù)集中的圖像分成正樣本組標(biāo)簽為1和負(fù)樣本組標(biāo)簽為0。正樣本組和負(fù)樣本組就是本文要進(jìn)行屬性遷移任務(wù)的源域和目標(biāo)域。

        3.2 實(shí)驗(yàn)細(xì)節(jié)和評(píng)估方式

        所有實(shí)驗(yàn)采用處理器為Xeon E5-2620,內(nèi)存為64 GB的NVIDIA TITAN XP顯卡,64位Ubuntu操作系統(tǒng),Python 3.6+PyTorch 0.4的訓(xùn)練框架。設(shè)置優(yōu)化器為Adam,學(xué)習(xí)率為0.000 1,Batchsize為8,迭代次數(shù)為40。實(shí)驗(yàn)分別訓(xùn)練了表情轉(zhuǎn)移、男女變化、人臉老化模型,部分結(jié)果如圖3和圖4所示。

        (a) 輸入圖像

        (a) 輸入圖像

        由于無監(jiān)督學(xué)習(xí)生成的圖像缺乏真實(shí)圖像作為評(píng)價(jià)輔助,本文采用了WD分?jǐn)?shù)[23],即Wasserstein距離作為評(píng)價(jià)方法。WD分?jǐn)?shù)是計(jì)算生成圖像的數(shù)據(jù)分布與真實(shí)圖像的數(shù)據(jù)分布之間的差距:

        (6)

        式中:n是測(cè)試集真實(shí)圖像xr的樣本數(shù);m是測(cè)試集生成圖像xg的樣本數(shù);Pr,Pg分別是xr,xg的數(shù)據(jù)分布;d(·)代表樣本間的距離。

        3.3 實(shí)驗(yàn)對(duì)比

        人臉屬性遷移其實(shí)質(zhì)是一種圖像翻譯任務(wù),本文選用CycleGAN[9]、UNIT[10]和STGAN[24]三種圖像翻譯模型,分別在年齡和表情屬性遷移上進(jìn)行實(shí)驗(yàn)對(duì)比。

        從圖5的人臉老化實(shí)驗(yàn)結(jié)果可以看出:CycleGAN模型得到的轉(zhuǎn)移結(jié)果較差,僅僅在原圖上加了一些噪聲沒有實(shí)現(xiàn)老化的效果;UNIT模型實(shí)現(xiàn)了發(fā)色的老化,但面部細(xì)節(jié)的老化不明顯,且生成圖像模糊;STGAN模型會(huì)生成一點(diǎn)面部皺紋,但整體并沒有老化感覺;本文方法不僅實(shí)現(xiàn)了發(fā)色、胡須老化的效果,還生成了眼袋、皺紋這些臉部老化的細(xì)節(jié),且生成圖像清晰。

        (a) 原圖像

        圖6展示了表情屬性轉(zhuǎn)移的結(jié)果:CycleGAN模型生成的圖像表情與原圖相似,沒有實(shí)現(xiàn)微笑到不笑的表情遷移;UNIT模型的結(jié)果雖然表情部分實(shí)現(xiàn)了遷移,但是整體臉部存在模糊黑影,色調(diào)有違和感;STGAN模型生成的圖像存在大量棋盤狀紋理,圖像模糊;本文方法可以不改變無關(guān)屬性區(qū)域,很好地完成表情遷移任務(wù)。

        (a) 原圖像

        本文分別對(duì)實(shí)驗(yàn)對(duì)比中的兩個(gè)屬性遷移任務(wù)進(jìn)行FID分?jǐn)?shù)評(píng)估。將每個(gè)模型生成的人臉老化圖像與真實(shí)老年人臉圖像以及每個(gè)模型生成的不笑圖像和真實(shí)的不笑人臉圖像進(jìn)行整理,得到8個(gè)評(píng)估數(shù)據(jù)集。通過計(jì)算真實(shí)數(shù)據(jù)分布和生成數(shù)據(jù)分布的Wasserstein距離得到WD分?jǐn)?shù)。結(jié)果如表1所示,WD分?jǐn)?shù)越小,生成數(shù)據(jù)更接近真實(shí)數(shù)據(jù),屬性轉(zhuǎn)移的效果越好。

        表1 人臉屬性遷移結(jié)果的WD分?jǐn)?shù)

        4 結(jié) 語

        本文提出一種基于視覺注意力機(jī)制的生成對(duì)抗網(wǎng)絡(luò)人臉屬性遷移算法。針對(duì)現(xiàn)有算法的屬性無關(guān)區(qū)域改變問題,生成器引入視覺注意力輸出4通道圖像:RGB圖像和注意力圖像,通過融合完成屬性遷移任務(wù)。為了提高生成圖像的質(zhì)量,豐富人臉細(xì)節(jié)信息,判別器采用多尺度的PatchGAN網(wǎng)絡(luò)。訓(xùn)練過程中,為穩(wěn)定輸入人臉的身份信息,專注屬性相關(guān)區(qū)域的遷移,加入循環(huán)一致性約束和注意力圖像約束。實(shí)驗(yàn)對(duì)比表明本文算法相比于CycleGAN、UNIT和STGAN,能夠降低屬性無關(guān)區(qū)域的改變,提高人臉屬性遷移的質(zhì)量。但是GAN模型訓(xùn)練不穩(wěn)定,依賴大型數(shù)據(jù)集訓(xùn)練,這都是現(xiàn)有模型存在的問題,需要今后去解決。

        猜你喜歡
        數(shù)據(jù)分布人臉老化
        延緩大腦老化,要怎樣吃
        有特點(diǎn)的人臉
        改進(jìn)的云存儲(chǔ)系統(tǒng)數(shù)據(jù)分布策略
        三國漫——人臉解鎖
        節(jié)能技術(shù)在開關(guān)電源老化測(cè)試中的應(yīng)用
        電子制作(2018年10期)2018-08-04 03:24:30
        一種基于給定標(biāo)準(zhǔn)對(duì)數(shù)據(jù)進(jìn)行正態(tài)修正的算法
        試論大數(shù)據(jù)之“大”
        杜絕初春老化肌
        Coco薇(2016年2期)2016-03-22 02:40:06
        馬面部與人臉相似度驚人
        對(duì)數(shù)據(jù)分布特征測(cè)度的分析
        久久精品av一区二区免费| 欧美尺寸又黑又粗又长| 欧美人与物videos另类xxxxx| 亚洲国产精品无码久久九九大片健| 淫秽在线中国国产视频| 国产高颜值女主播在线| 开心五月激情综合婷婷色| 亚洲AV无码成人网站久久精品| 免费av网址一区二区| 久久精品国产亚洲av蜜点| 亚洲成av人片在www| 亚洲黄视频| 久久这里只有精品黄色| 一本之道久久一区二区三区| 一本一道久久综合久久| 手机看片福利日韩| 国产精品一区二区三区黄片视频| 久久中文字幕人妻淑女| 女人高潮被爽到呻吟在线观看| 五月婷婷六月激情| 国产三级在线观看不卡| 精品一区二区三区在线视频| 亚洲一线二线三线写真| 久久精品亚洲精品毛片| 熟女少妇av一区二区三区| 无套内内射视频网站| 99热久久这里只精品国产www| 中文亚洲AV片在线观看无码| 亚洲精品国产亚洲av| 欧美日韩亚洲中文字幕二区| 亚洲国产精品无码久久电影| 一区二区三区四区四色av| 中文字幕亚洲熟女av| av无码天堂一区二区三区| AV人人操| 国产av无毛无遮挡网站| 国产精品泄火熟女| 99精品久久这里只有精品| 91九色国产在线观看| 无码人妻精品中文字幕| 国产露脸精品产三级国产av |