亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        風(fēng)格強(qiáng)度可變的人臉風(fēng)格遷移網(wǎng)絡(luò)

        2023-12-23 10:14:06廖遠(yuǎn)鴻錢文華曹進(jìn)德
        中國圖象圖形學(xué)報(bào) 2023年12期
        關(guān)鍵詞:特征

        廖遠(yuǎn)鴻,錢文華*,曹進(jìn)德

        1.云南大學(xué)信息學(xué)院,昆明 650504;2.東南大學(xué)數(shù)學(xué)學(xué)院,南京 214135

        0 引言

        風(fēng)格遷移技術(shù)可將藝術(shù)圖像中的風(fēng)格傳輸?shù)皆嫉淖匀粓D像中,其中提供風(fēng)格紋理和筆觸等特征的圖像稱為風(fēng)格圖,而提供輪廓結(jié)構(gòu)的圖像稱為內(nèi)容圖,風(fēng)格遷移算法的目標(biāo)是以風(fēng)格圖的紋理筆觸與內(nèi)容圖的輪廓結(jié)構(gòu)合成一幅新的風(fēng)格化圖像。圖像風(fēng)格遷移算法在航空航天,圖像識別等領(lǐng)域中的應(yīng)用廣泛,如航拍測繪(Lin 等,2017)、圖像分類(Huang 和Belongie,2017)等。人臉風(fēng)格遷移算法作為風(fēng)格遷移算法中一個分支,其內(nèi)容圖與風(fēng)格圖均為人類面部肖像,目標(biāo)為將風(fēng)格圖的面部風(fēng)格特征與內(nèi)容圖的面部內(nèi)容合成為一幅新的面部圖像,如圖1 所示。如今人臉風(fēng)格遷移算法已廣泛應(yīng)用于人臉識別(Nirkin 等,2018)和照片美化(Li 等,2018)等方面。

        圖1 人臉風(fēng)格遷移算法示例Fig.1 Face style migration algorithm example((a)original image;(b)style image;(c)result image)

        早期的人臉風(fēng)格遷移算法(Shih 等,2014)使用了數(shù)學(xué)建模構(gòu)建濾波器的方法,對所要得到其風(fēng)格的目標(biāo)圖像的局部特征進(jìn)行統(tǒng)計(jì),并建立統(tǒng)計(jì)模型(Portilla 和Simoncelli,2000)描述其圖像風(fēng)格。這種算法只能針對一種單一風(fēng)格進(jìn)行生成,生成的結(jié)果圖像風(fēng)格不明顯,且統(tǒng)計(jì)模型必須手動建模,因此算法效率較低,圖2 顯示了此算法的風(fēng)格遷移結(jié)果。近年來,基于深度神經(jīng)網(wǎng)絡(luò)的算法已應(yīng)用于人臉風(fēng)格遷移工作中,Gatys 等人(2015a,b)首先提出基于深度神經(jīng)網(wǎng)絡(luò)的圖像風(fēng)格遷移算法,采用VGG-19(Visual Geometry Group)網(wǎng)絡(luò)(Simonyan 和Zisserman,2015)代替了傳統(tǒng)風(fēng)格遷移算法中的統(tǒng)計(jì)特征模型,算法效率得到了較大提升。但由于VGG-19網(wǎng)絡(luò)所生成的圖像分布較為均勻,此時的風(fēng)格遷移算法與紋理合成算法較為類似,風(fēng)格傳輸效果不明顯。

        圖2 早期人臉風(fēng)格遷移算法示例(Shih等,2014)Fig.2 Early face style migration algorithm example((a)original image;(b)style image;(c)result image)

        為了解決上述問題,將生成式對抗網(wǎng)絡(luò)(generative adversarial network,GAN)(Goodfellow 等,2020)應(yīng)用于圖像風(fēng)格遷移算法中。由于GAN 能夠生成符合某一分布規(guī)律的圖像,通過對GAN 網(wǎng)絡(luò)進(jìn)行訓(xùn)練即能生成與真實(shí)圖像較為相似的目標(biāo)圖像。Isola等人(2017)提出了pix2pix 算法,使用條件生成對抗網(wǎng)絡(luò)(Mirza 和Osindero,2014)學(xué)習(xí)從輸入圖像到輸出圖像的映射,以完成風(fēng)格遷移任務(wù),能夠生成風(fēng)格顯著、質(zhì)量較高的結(jié)果圖像。Xie等人(2020)提出了一種基于相關(guān)對齊的總變分圖像風(fēng)格遷移模型。Zhu 等人(2017)采用了雙判別器的結(jié)構(gòu),訓(xùn)練集可以指向兩個不成對的圖像集合,解決了風(fēng)格遷移網(wǎng)絡(luò)前期劃分圖像空間較復(fù)雜的問題。

        Choi 等人(2018)提出的StarGAN(star generative adversarial network)采用前置編碼器以實(shí)現(xiàn)風(fēng)格遷移。此編碼器可以實(shí)現(xiàn)圖像到向量的轉(zhuǎn)變,這個向量包含原本圖像中的信息,再通過損失函數(shù)將向量規(guī)范至網(wǎng)絡(luò)的潛空間中,以人為地修改網(wǎng)絡(luò)中的潛變量。StarGAN 能夠在保留原圖像特征的同時學(xué)習(xí)到目標(biāo)圖像的風(fēng)格,由于采用了前置編碼器,風(fēng)格遷移的多樣性及強(qiáng)度都有所提升,但其自身存在著以下問題:1)StarGAN 生成的圖像可能產(chǎn)生特征偽影,這種偽影有類似掩膜的性質(zhì),會在生成圖像上呈現(xiàn)出多余的特征,造成生成圖像失真;2)StarGAN 對于目標(biāo)圖像細(xì)節(jié)部分的特征學(xué)習(xí)有所欠缺,其原因在于此網(wǎng)絡(luò)使用的風(fēng)格向量較小,無法很好地歸納目標(biāo)圖像中的信息;3)StarGAN 對于每一對圖像輸入只有單一的風(fēng)格遷移輸出,不能較好地控制生成圖像的風(fēng)格強(qiáng)度。

        為了解決以上問題,本文提出了MStarGAN(multi-layer StarGAN),采用權(quán)重解調(diào)(Karras 等,2020)方法解決StarGAN 網(wǎng)絡(luò)中出現(xiàn)的特征偽影問題。為了解決傳統(tǒng)編碼器結(jié)構(gòu)臃腫、參數(shù)量大、效率較低等缺點(diǎn),采用Lin 等人(2017)提出的特征金字塔網(wǎng)絡(luò)(feature pyramid network,F(xiàn)PN)模型作為前置編碼器的基礎(chǔ)結(jié)構(gòu),擴(kuò)展了生成圖像的風(fēng)格多樣性,并能得到不同風(fēng)格強(qiáng)度的生成圖像。本文的主要工作包括:1)提出一個能生成不同風(fēng)格強(qiáng)度圖像的人臉圖像風(fēng)格遷移網(wǎng)絡(luò),通過調(diào)整網(wǎng)絡(luò)的參數(shù),引入不同強(qiáng)度的目標(biāo)圖像特征,能夠生成最多4 幅風(fēng)格遷移強(qiáng)度不同的結(jié)果圖像;2)采用權(quán)重解調(diào)方法重新構(gòu)造生成器,減小了風(fēng)格傳輸中的失真,減少了生成圖像中的特征偽影;3)采用風(fēng)格強(qiáng)度損失,保持了內(nèi)容圖特征與風(fēng)格圖特征在風(fēng)格遷移過程中的平衡,避免生成圖像風(fēng)格偏向原圖或風(fēng)格圖。

        1 相關(guān)工作

        1.1 GAN

        GAN 網(wǎng)絡(luò)可以生成滿足特定分布規(guī)律的輸出圖像。Mirza和Osindero(2014)首先將標(biāo)簽信息編碼為一個向量作為輸入,約束隱變量與輸出之間的關(guān)系,以控制GAN 的輸出。Denton 等人(2015)將生成器由原本的多層卷積結(jié)構(gòu)改為金字塔形結(jié)構(gòu),使用殘差逼近,獲得分辨率更高、質(zhì)量更好的輸出圖像。Shrivastava 等人(2017)首次將圖像作為生成器的輸入,較好地學(xué)習(xí)到輸入和輸出兩個不同數(shù)據(jù)分布間的映射。之后,基于GAN 的風(fēng)格遷移算法(Elgammal 等,2017;Sbai 等,2018;Huang 等,2017)得以提出。但由于GAN 本身較難對隱變量進(jìn)行修改,輸出結(jié)果具有較大的局限性,僅通過GAN 實(shí)現(xiàn)的風(fēng)格遷移算法無法很好地運(yùn)用于實(shí)際。

        1.2 編碼器

        目前主流的圖像風(fēng)格遷移算法分為兩類:1)不使用前置編碼器,僅對GAN 進(jìn)行改進(jìn)的網(wǎng)絡(luò),如pix2pix、CycleGAN(Zhu 等,2017)以及P2GAN(Zheng和Liu,2020)等;2)使用前置編碼器的網(wǎng)絡(luò),由于在GAN 結(jié)構(gòu)前增加了編碼器,這種網(wǎng)絡(luò)結(jié)構(gòu)較為復(fù)雜,但能夠得到更真實(shí)的結(jié)果,如StyleGAN(stylebased generative adversarial network)、StarGAN 等。StyleGAN 采用8 層的多層感知機(jī)(multilayer perceptron,MLP)作為基礎(chǔ)編碼器,通過將隨機(jī)變量輸入進(jìn)編碼器中,能夠生成符合生成器分布的風(fēng)格向量,將此風(fēng)格向量輸入到生成器中,即能達(dá)到控制輸出圖像風(fēng)格的目的;DualStyleGAN(dual style-based generative adversarial network)(Yang 等,2022)在此網(wǎng)絡(luò)的基礎(chǔ)上將編碼器擴(kuò)展為兩路18 層MLP,能夠較為精細(xì)地控制圖像細(xì)粒度風(fēng)格;StarGAN 采用ResNet(residual network)(He 等,2016a,b)作為編碼器,能夠針對不同的圖像風(fēng)格域生成不同的風(fēng)格向量。但這些網(wǎng)絡(luò)采用的前置編碼器效率較低,無法快速地將隨機(jī)變量規(guī)范至網(wǎng)絡(luò)的變量空間中。

        1.3 風(fēng)格學(xué)習(xí)模塊

        由于GAN 本身不具有學(xué)習(xí)風(fēng)格向量中特征的能力,需要額外的模塊進(jìn)行風(fēng)格學(xué)習(xí)。目前主流的方法是在生成器中采用AdaIN(adaptive instance normalization)(Huang 等,2017)算法。AdaIN 通過輸入原圖像與風(fēng)格圖像的均值與方差,對輸入圖像進(jìn)行歸一化,使處理后的圖像具有風(fēng)格圖像的部分特征。但AdaIN 對輸入圖像的每個通道均進(jìn)行了歸一化,導(dǎo)致層與層之間相關(guān)聯(lián)的信息受到破壞,輸出圖像原本信息量較高的部分進(jìn)一步增強(qiáng),導(dǎo)致結(jié)果圖像失真。

        本節(jié)提到的編碼器、GAN 網(wǎng)絡(luò)以及風(fēng)格學(xué)習(xí)模塊為目前人臉風(fēng)格遷移網(wǎng)絡(luò)的主要組成部分。網(wǎng)絡(luò)存在以下問題:1)編碼器結(jié)構(gòu)較簡單,提取的風(fēng)格向量無法完整表達(dá)風(fēng)格圖像的特征,通過增加編碼器網(wǎng)絡(luò)層數(shù)的方式能得到較好的風(fēng)格向量,但參數(shù)量巨大,耗費(fèi)時間久;2)采用AdaIN 的方法會在特征圖中產(chǎn)生特征偽影,使生成圖像失真;3)無法控制生成圖像的風(fēng)格強(qiáng)度,傳輸多少風(fēng)格到生成圖像中是隨機(jī)的。為了解決以上問題,本文提出了MStar-GAN。

        2 本文方法

        2.1 網(wǎng)絡(luò)整體結(jié)構(gòu)

        MStarGAN 的整體結(jié)構(gòu)如圖3 所示,整個網(wǎng)絡(luò)包含4個子網(wǎng)絡(luò):Style Encoder、Mapping Network、生成器和判別器。其中,Style Encoder 提取輸入圖像中的特征信息,將其轉(zhuǎn)化為風(fēng)格向量w;Mapping Network 可以將隨機(jī)變量轉(zhuǎn)變?yōu)轱L(fēng)格向量w;生成器和判別器即為GAN 網(wǎng)絡(luò)中的生成網(wǎng)絡(luò)與判別網(wǎng)絡(luò)。與StarGAN v2相比,MStarGAN 采用FPN網(wǎng)絡(luò)作為編碼器的主要結(jié)構(gòu),替代了原本的ResNet 編碼器,并需要原圖像與風(fēng)格圖像作為編碼器的輸入,以提高生成的風(fēng)格向量的精度及風(fēng)格多樣性。此外,本文還對StarGAN v2 的生成器部分進(jìn)行了改進(jìn),使生成圖像不易失真。

        圖3 網(wǎng)絡(luò)整體結(jié)構(gòu)Fig.3 Overall network structure

        采用編碼器的風(fēng)格遷移算法通常采用兩種方式獲取風(fēng)格向量w,一種方式為將風(fēng)格圖像輸入編碼器,從中提取出符合風(fēng)格圖像分布的風(fēng)格向量,使用此向量進(jìn)行風(fēng)格遷移的過程即為參考引導(dǎo)合成;另一種方式為將隨機(jī)變量z輸入編碼器,由于z是隨機(jī)生成的,導(dǎo)致生成的風(fēng)格向量w表達(dá)的特征也為隨機(jī)的,使用此向量進(jìn)行圖像風(fēng)格遷移的過程即為潛在引導(dǎo)合成。

        參考引導(dǎo)合成與潛在引導(dǎo)合成具有不同的功能。參考引導(dǎo)合成通過輸入原圖像及風(fēng)格圖像,能夠生成具有風(fēng)格圖像風(fēng)格的原圖像;潛在引導(dǎo)合成不需要輸入風(fēng)格圖像,通過輸入原圖像生成具有隨機(jī)風(fēng)格的圖像。本文采用參考引導(dǎo)合成、潛在引導(dǎo)合成的風(fēng)格遷移方法如圖4所示。

        圖4 兩種風(fēng)格遷移方法Fig.4 Two style transfer methods((a)reference-guided synthesis;(b)latent-guided synthesis)

        設(shè)輸入原圖像為xo,風(fēng)格圖像為xs,風(fēng)格向量為w,輸出圖像為xt,隨機(jī)變量為z,則兩種不同的風(fēng)格遷移方法如下:

        1)參考引導(dǎo)合成的風(fēng)格遷移方法為

        2)潛在引導(dǎo)合成的風(fēng)格遷移方法為

        式(1)—式(4)中,HSE為Style Encoder 模塊,HMN為Mapping Network模塊,G為生成器。

        2.2 子網(wǎng)絡(luò)結(jié)構(gòu)

        2.2.1 編碼器

        在GAN 網(wǎng)絡(luò)結(jié)構(gòu)前添加的編碼器模塊Style Encoder用于提取風(fēng)格輸入圖像xs中的圖像特征,并將此特征編碼為風(fēng)格向量w,輸入生成器模塊中實(shí)現(xiàn)參考引導(dǎo)合成。本文的Style Encoder 結(jié)構(gòu)如圖5所示。

        圖5 Style Encoder網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Style Encoder network structure

        FPN 最初應(yīng)用于多尺度目標(biāo)檢測,其目的是通過網(wǎng)絡(luò)重建部分產(chǎn)生的多個高層特征去提取目標(biāo)圖像中不同尺度的信息。FPN 網(wǎng)絡(luò)結(jié)構(gòu)包括一個下采樣層和一個上采樣層,對應(yīng)層之間存在橫向連接。FPN 通過簡單的網(wǎng)絡(luò)連接改變,在基本不增加原有模型計(jì)算量的情況下,大幅度提升了小物體檢測的性能。通過高層特征進(jìn)行上采樣和低層特征進(jìn)行自頂向下的連接,而且每一層都會輸出結(jié)果,重建上采樣層中高層的特征圖更容易提取圖像的細(xì)節(jié)部分特征,而底層更容易提取出圖像的全局輪廓特征。

        基于FPN能夠生成多層信息不同的特征圖的特點(diǎn),本文采用FPN 網(wǎng)絡(luò)構(gòu)造Style Encoder,通過提取FPN 網(wǎng)絡(luò)中重建部分的特征圖,生成對應(yīng)不同圖像細(xì)粒度的圖像風(fēng)格向量,并根據(jù)所得到的圖像風(fēng)格向量進(jìn)行風(fēng)格遷移操作。

        FPN 網(wǎng)絡(luò)的層數(shù)與所想得到的風(fēng)格向量維度成正相關(guān),F(xiàn)PN 網(wǎng)絡(luò)層數(shù)越多,風(fēng)格向量的維度也就越高,表達(dá)的信息就越豐富,但生成器生成圖像的性能會變低,由于層數(shù)增加,相鄰層之間信息差異縮小,導(dǎo)致生成的不同風(fēng)格強(qiáng)度的圖像間差異縮小。因此,本文采用6 層FPN 網(wǎng)絡(luò)構(gòu)造Style Encoder,每層上采樣層中能夠輸出1 × 256 大小的向量,共能得到6 × 256 大小的風(fēng)格向量。后續(xù)參考引導(dǎo)合成實(shí)驗(yàn)表明,生成圖像在包含了更多圖像風(fēng)格信息的同時,不同風(fēng)格強(qiáng)度圖像間仍存在較大差異。由于采用了FPN 網(wǎng)絡(luò)提取圖像風(fēng)格向量,因此這些向量也具有特征分層的特性,高層的向量包含圖像的細(xì)節(jié)部分特征,而低層的向量包含圖像的輪廓部分特征。由此,通過結(jié)合不同圖像的風(fēng)格向量并輸入到生成器中,生成具有豐富多樣性的風(fēng)格遷移圖像。

        為了對輸出圖像的風(fēng)格強(qiáng)度進(jìn)行控制,本文的編碼器輸入由原來的風(fēng)格圖像變?yōu)橥瑫r輸入原圖像及風(fēng)格圖像,因此,通過編碼器可以得到兩個風(fēng)格向量,分別為原圖像的風(fēng)格向量wo及風(fēng)格圖像的風(fēng)格向量ws。本文將ws中的底層部分和wo中的高層部分組合,得到具有原圖像輪廓特征和目標(biāo)圖像細(xì)節(jié)特征的新的風(fēng)格向量w。同時,還可以通過調(diào)整目標(biāo)圖像的層數(shù)分布與數(shù)量,以調(diào)整最終結(jié)果的風(fēng)格遷移強(qiáng)度。整體過程如圖6所示。

        圖6 風(fēng)格遷移過程Fig.6 Style transfer process

        在GAN 網(wǎng)絡(luò)結(jié)構(gòu)前添加的編碼器模塊Mapping Network 主要功能為將隨機(jī)變量z轉(zhuǎn)化為風(fēng)格向量w,輸入生成器模塊中實(shí)現(xiàn)潛在引導(dǎo)合成。通過這種方法生成的風(fēng)格向量具有較好的隨機(jī)性,能夠滿足隨機(jī)風(fēng)格遷移的需求。本文采用的網(wǎng)絡(luò)結(jié)構(gòu)為8 層MLP 網(wǎng)絡(luò),在潛在引導(dǎo)合成實(shí)驗(yàn)中能夠得到較好的結(jié)果。

        2.2.2 GAN

        生成器通過輸入原圖像x及風(fēng)格向量w來得到具有w內(nèi)含特征的圖像風(fēng)格遷移結(jié)果圖像x′。本文生成器結(jié)構(gòu)如圖7所示。

        圖7 生成器網(wǎng)絡(luò)結(jié)構(gòu)Fig.7 Generator structure

        生成器采用了經(jīng)典的圖像重建網(wǎng)絡(luò)結(jié)構(gòu),由一個下采樣區(qū)域和一個上采樣區(qū)域兩部分組成,其中下采樣區(qū)域提取輸入圖像的圖像特征,上采樣區(qū)域進(jìn)行圖像重建,兩部分之間采取了橫向連接的方式,使輸入圖像特征能夠傳遞到生成圖像中,確保生成圖像正確。為了防止橫向連接輸入的信息對生成圖像多樣性帶來影響,在橫向連接中采用了掩膜(Wang 等,2019)及高通濾波器處理,使通過此橫向連接的圖像信息只保留圖像輪廓部分。

        StarGAN v2 在生成器中采用了AdaIN 模塊提取風(fēng)格向量w中的特征信息,計(jì)算為

        式中,μ(x)和σ(x)分別表示原圖像的均值與方差,μ(y)和σ(y)分別表示風(fēng)格圖像的均值與方差,通過AdaIN 方法使生成圖像具有原圖像與風(fēng)格圖像的特征?,F(xiàn)有研究(Karras 等,2020)表明,使用AdaIN 模塊是出現(xiàn)特征偽影問題的原因,如圖8 所示,左側(cè)為生成圖像,右側(cè)為放大后的特征偽影區(qū)域。因此,基于權(quán)重解調(diào)不破壞特征圖關(guān)聯(lián)性的優(yōu)點(diǎn),本文采用權(quán)重解調(diào)算法代替AdaIN 歸一化算法作為風(fēng)格的傳輸模塊,該方法在保留完全可控性的同時消除了偽影。

        圖8 特征偽影現(xiàn)象Fig.8 Water droplet artifacts

        AdaIN 結(jié)構(gòu)可以拆分為兩部分:標(biāo)準(zhǔn)化部分與調(diào)制部分。其中,標(biāo)準(zhǔn)化部分負(fù)責(zé)將輸入標(biāo)準(zhǔn)化,調(diào)制部分負(fù)責(zé)將目標(biāo)圖像的信息通過參數(shù)的方式導(dǎo)入,即標(biāo)準(zhǔn)化外層的σ(y)與μ(y)部分。這種方法分別對每個特征圖的均值和方差執(zhí)行歸一化,因此會破壞特征維度中相互關(guān)聯(lián)的信息,導(dǎo)致生成器在生成圖像時產(chǎn)生針對特征的局部峰值,從而產(chǎn)生特征偽影。權(quán)重解調(diào)算法通過去掉AdaIN 中的歸一化部分,并通過卷積的方式代替,避免了對關(guān)聯(lián)特征信息的破壞,從而避免特征偽影問題。在調(diào)制之前插入一層卷積,縮放卷積權(quán)重計(jì)算為

        式中,si是第i個輸入特征圖的縮放比例。經(jīng)過縮放和卷積后,輸出激活的標(biāo)準(zhǔn)差為

        獲得標(biāo)準(zhǔn)差后,還需要對縮放后的權(quán)重進(jìn)行解調(diào),將輸出特征圖變?yōu)樵瓉淼膯挝粯?biāo)準(zhǔn)差,解調(diào)部分計(jì)算為

        式中,?為極小量,避免分母為0。權(quán)重解調(diào)方法遵循歸一化的思想,使輸出的特征圖有統(tǒng)一的分布均值和方差,在實(shí)現(xiàn)風(fēng)格遷移的同時,避免了特征偽影的產(chǎn)生。

        判別器Discriminator 通過輸入圖像x以判斷此圖像的真?zhèn)危⑤敵鲆粋€0~1 之間的值。輸出越靠近1,說明圖像大概率為真,反之則圖像大概率為假。

        本文的判別器結(jié)構(gòu)為6層的ResNet組成的多任務(wù)判別器,輸出有多個枝干,每個枝干對應(yīng)著一個域,枝干的輸出即為輸入圖像在這個域中的概率。因此在訓(xùn)練生成器時,判別器有兩個輸入:生成器的輸出圖像x與此圖像應(yīng)屬于的域y,輸出則為x屬于y的概率。

        2.3 損失函數(shù)

        為了使生成器能夠生成同時具有原圖像與風(fēng)格圖像特征的圖像,本文主要使用了以下5類損失:一般GAN 損失、風(fēng)格重建損失、風(fēng)格多樣性損失、圖像重建損失和風(fēng)格強(qiáng)度損失。

        一般GAN 損失用于規(guī)范生成器和判別器進(jìn)行的博弈訓(xùn)練,使判別器能夠更精準(zhǔn)地分辨真實(shí)圖像與生成器生成的圖像,計(jì)算為

        式中,D代表判別器,G代表生成器,x為輸入圖像,y為圖像所在的風(fēng)格域,z為隨機(jī)變量,s為生成的風(fēng)格向量。此外,本文還使用了R1 正則化(Mescheder等,2018),通過梯度懲罰來穩(wěn)定訓(xùn)練過程并防止模式崩潰,計(jì)算為

        風(fēng)格重建損失要求在進(jìn)行風(fēng)格遷移后,得到的圖像能夠產(chǎn)生相同的風(fēng)格向量,具體為

        風(fēng)格多樣性損失要求生成的圖像風(fēng)格多樣性盡可能高,具體為

        圖像重建損失要求圖像經(jīng)過網(wǎng)絡(luò)兩輪轉(zhuǎn)換后,圖像可以復(fù)原,具體為

        風(fēng)格強(qiáng)度損失為

        這兩個損失用于衡量生成圖像與原圖和目標(biāo)圖之間的差異。由于這兩個損失互斥,若將這兩個損失的加權(quán)和作為一個整體損失,能夠在一定程度上保證圖像風(fēng)格遷移的質(zhì)量,整體計(jì)算為

        最后,總損失表示為

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 數(shù)據(jù)集構(gòu)成

        本文使用CelebA-HQ 數(shù)據(jù)集對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,此數(shù)據(jù)集為高清人臉數(shù)據(jù)集,包含28 000 幅人臉圖像。本文將CelebA-HQ 數(shù)據(jù)集拆分為男性和女性兩個域,其中男性圖像有10 057幅,女性圖像有17 943幅。除了這兩個域標(biāo)簽外,本文不使用任何其他的域標(biāo)簽。所有數(shù)據(jù)集中的圖像大小均調(diào)整為256 ×256像素分辨率進(jìn)行訓(xùn)練。

        3.2 實(shí)驗(yàn)設(shè)置

        本文實(shí)驗(yàn)使用python 進(jìn)行編程并在NVIDIA RTX 2080Ti 上進(jìn)行訓(xùn)練。對于CelebA-HQ 數(shù)據(jù)集,本文訓(xùn)練100 000輪,每輪2個batch。本文對比的基準(zhǔn)模型為MUNIT(multimodal unsupervised image-toimage translation)(Huang 等,2018)、DRIT(diverse image-to-image translation)(Lee 等,2018)、MSGAN(mode seeking generative adversarial network)(Mao等,2019)、pix2pix、CycleGAN、StyleGAN 以及Star-GAN v2(Choi 等,2020)。所有這些模型學(xué)習(xí)的均為兩個域間的多模態(tài)映射,實(shí)驗(yàn)條件與數(shù)據(jù)集均一致。

        本文采用FID(Frechét inception distance score)(Heusel 等,2017)和LPIPS(learned perceptual image patch similarity)(Zhang 等,2018)評估生成圖像的視覺質(zhì)量和多樣性。通過計(jì)算數(shù)據(jù)集中每對圖像域的FID和LPIPS及計(jì)算其平均值,作為圖像風(fēng)格遷移的量化評價指標(biāo)。對于所有生成模型,取200 幅生成圖像并計(jì)算其平均值以進(jìn)行量化評價指標(biāo)對比。

        3.3 潛在指導(dǎo)合成實(shí)驗(yàn)結(jié)果

        潛在指導(dǎo)合成指不提供參考圖像,通過輸入隨機(jī)變量引導(dǎo)生成器進(jìn)行圖像生成。通過這種方法生成的圖像風(fēng)格由隨機(jī)變量決定,具有不確定性。本文通過Mapping Network 結(jié)構(gòu)生成隨機(jī)風(fēng)格向量,實(shí)現(xiàn)潛在引導(dǎo)合成。輸出結(jié)果如圖9 所示,其中圖9(a)為輸入的原始圖像,圖9(b)為男性域下輸出的隨機(jī)風(fēng)格遷移結(jié)果,圖9(c)為女性域下輸出的隨機(jī)風(fēng)格遷移結(jié)果。

        圖9 潛在引導(dǎo)合成生成結(jié)果圖Fig.9 Latent-guided synthesis results((a)original images;(b)random male style;(c)random female style)

        本文模型能夠在潛在引導(dǎo)合成實(shí)驗(yàn)中生成風(fēng)格差異較大且質(zhì)量較高的風(fēng)格遷移圖像。量化指標(biāo)如表1 所示。表中同時對比了幾個經(jīng)典圖像風(fēng)格遷移算法。FID 指標(biāo)主要評估生成圖像與原圖像的相似性,此指標(biāo)越小,說明與原圖像越相似;LPIPS 指標(biāo)主要評估生成圖像的多樣性,此指標(biāo)越大,說明圖像多樣性越豐富。由于本文在構(gòu)建數(shù)據(jù)集時采用了性別作為域標(biāo)簽,表中的FID 及LPIPS 指標(biāo)為兩組域標(biāo)簽指標(biāo)的平均值。

        表1 潛在引導(dǎo)合成實(shí)驗(yàn)量化指標(biāo)Table 1 Latent-guided synthesis quantitative indicator

        在潛在引導(dǎo)合成實(shí)驗(yàn)中,本文提出的模型能夠達(dá)到更優(yōu)的指標(biāo),對比原模型StarGAN v2 可以獲得更優(yōu)的輸出結(jié)果。StarGAN v2在潛在引導(dǎo)合成實(shí)驗(yàn)中采用了AdaIN 歸一化方法,這種方法在實(shí)現(xiàn)風(fēng)格遷移后會出現(xiàn)特征偽影問題。而本文方法則使用了權(quán)重解調(diào)方法,減小了結(jié)果圖像的失真,因此在本實(shí)驗(yàn)中能夠取得較好的結(jié)果。此外,本文模型在算法效率方面也優(yōu)于StarGAN v2,生成時間平均縮短了約8%。特征偽影消除結(jié)果如圖10 所示,其中第1 行為風(fēng)格圖像,第2 行為本文得到的結(jié)果,第3行為StarGAN v2 網(wǎng)絡(luò)得到的結(jié)果。

        圖10 特征偽影消除結(jié)果Fig.10 Remove water droplet artifacts results

        3.4 參考指導(dǎo)合成實(shí)驗(yàn)結(jié)果

        參考指導(dǎo)合成指提供目標(biāo)圖像,通過網(wǎng)絡(luò)學(xué)習(xí)目標(biāo)圖像中的風(fēng)格生成具有目標(biāo)圖像風(fēng)格的原圖像。本文通過Style Encoder 結(jié)構(gòu)實(shí)現(xiàn)參考引導(dǎo)合成,輸出結(jié)果如圖11 所示,最左側(cè)一列為原圖像,第1 行為風(fēng)格圖像,后兩行為風(fēng)格遷移結(jié)果。可以看到,本文得到的結(jié)果不僅保留了原圖像的輪廓,同時學(xué)習(xí)到了風(fēng)格圖像的特征。

        圖11 參考引導(dǎo)合成生成結(jié)果圖Fig.11 Reference-guided synthesis results

        本文實(shí)驗(yàn)結(jié)果與pix2pix 及CycleGAN 算法結(jié)果的量化指標(biāo)比較如表2 所示??梢钥闯?,本文提出的模型同樣能達(dá)到最優(yōu)指標(biāo)。對比StarGAN v2,本文模型提取了更豐富、層次更多的風(fēng)格向量,能夠在細(xì)節(jié)層面上還原參考圖像的特征。此外,Star-GAN v2 使用的Style Encoder 模塊結(jié)構(gòu)為ResNet 網(wǎng)絡(luò),對于圖像細(xì)節(jié)部分的信息提取較為困難。而本文模型采用了FPN 網(wǎng)絡(luò)較好地提取了圖像的細(xì)節(jié)特征,并且對圖像的特征進(jìn)行分層處理,進(jìn)一步提高風(fēng)格遷移質(zhì)量。圖12 顯示了本文與其他算法結(jié)果的對比情況。

        表2 參考引導(dǎo)合成實(shí)驗(yàn)量化指標(biāo)Table 2 Reference-guided synthesis quantitative indicator

        圖12 參考引導(dǎo)合成對比圖Fig.12 Reference-guided synthesis comparison results((a)original images;(b)style images;(c)DRIT;(d)MSGAN;(e)StarGAN v2;(f)ours)

        3.5 多風(fēng)格強(qiáng)度實(shí)驗(yàn)結(jié)果

        本文提出的模型可以通過調(diào)整Style Encoder 中的參數(shù)δ調(diào)整輸出圖像的風(fēng)格強(qiáng)度,δ取值為1~6間的整數(shù),數(shù)值越小越接近原圖,越大越接近風(fēng)格圖,輸出如圖13所示。

        圖13 多風(fēng)格強(qiáng)度實(shí)驗(yàn)結(jié)果圖Fig.13 Multi-style intensity test results((a)δ=1(origin);(b)δ=2;(c)δ=3;(d)δ=4;(e)δ=5;(f)δ=6(target))

        由于StarGAN 等人臉風(fēng)格遷移網(wǎng)絡(luò)提取了圖像的整體風(fēng)格特征,忽略了局部細(xì)節(jié)特征,因此不能較好地控制輸出圖像的風(fēng)格。這些網(wǎng)絡(luò)中生成的風(fēng)格向量為一個耦合的整體,內(nèi)部的風(fēng)格特征難以單獨(dú)解耦。而本文使用的Style Encoder 模塊所提取的風(fēng)格向量具有多層結(jié)構(gòu),每一層所蘊(yùn)含的風(fēng)格特征各不相同。因此,通過輸入不同的參數(shù)δ,Style Encoder可以將由原圖像得到的風(fēng)格向量wo及由目標(biāo)圖像得到的風(fēng)格向量wt進(jìn)行結(jié)合,生成不同的風(fēng)格向量w,以實(shí)現(xiàn)對風(fēng)格強(qiáng)度的控制。

        3.6 消融實(shí)驗(yàn)結(jié)果

        本文在參考引導(dǎo)合成實(shí)驗(yàn)中,對比了FPN網(wǎng)絡(luò)、權(quán)重解調(diào)方法和添加風(fēng)格強(qiáng)度損失這3 項(xiàng)改進(jìn)對量化指標(biāo)的提升,如表3所示。

        表3 參考引導(dǎo)合成實(shí)驗(yàn)中的模型優(yōu)化提升Table 3 Reference-guided synthesis model optimization and promotion

        由表3 可知,在添加FPN 網(wǎng)絡(luò)之后,提升了整體模型的FID 指標(biāo),這是因?yàn)镕PN 網(wǎng)絡(luò)提取的風(fēng)格向量大小為6 × 256,大于原來的1 × 64,包含了更多的風(fēng)格特征信息,使生成器生成的圖像更偏向于風(fēng)格圖像,而FID 指標(biāo)評估的是生成圖像與原圖像的相似度,因此FID 指標(biāo)得以提升。通過添加風(fēng)格強(qiáng)度損失規(guī)范原圖像與風(fēng)格圖像之間的風(fēng)格平衡,本文模型即能得到更優(yōu)秀的指標(biāo)。

        3.7 非正常面部實(shí)驗(yàn)結(jié)果

        本文模型對非正常面部的風(fēng)格遷移結(jié)果如圖14 所示。由于非正常面部圖像與正常圖像相比,存在不同程度的面部特征損失,且結(jié)構(gòu)上具有較大差異,因此本文模型無法很好地對非正常面部圖像進(jìn)行風(fēng)格遷移,亟待后續(xù)解決。

        圖14 非正常面部實(shí)驗(yàn)結(jié)果圖Fig.14 Abnormal face test results((a)hair covering;(b)eyeglass;(c)side face)

        4 結(jié)論

        本文針對人臉風(fēng)格遷移的問題,提出了一種能夠生成不同風(fēng)格強(qiáng)度圖像的算法MStarGAN,使用FPN 構(gòu)建前置編碼器,采用特征分類的思想提取信息更豐富且表達(dá)特征分層的風(fēng)格向量。通過對原圖像及風(fēng)格圖像的風(fēng)格向量進(jìn)行不同層數(shù)的合成,可以對生成圖像的風(fēng)格遷移強(qiáng)度進(jìn)行一定的控制。此外,采用權(quán)重解調(diào)算法作為生成器中風(fēng)格的傳輸模塊,能夠生成細(xì)節(jié)更加豐富的結(jié)果圖像。

        實(shí)驗(yàn)結(jié)果表明,本文算法在人臉遷移算法領(lǐng)域中能夠得到良好的量化指標(biāo)。與目前主流的人臉風(fēng)格遷移網(wǎng)絡(luò)相比,本文提取到更多的局部細(xì)節(jié)特征、減小了生成圖像失真并使生成圖像風(fēng)格可變。

        盡管本文方法能夠得到良好的結(jié)果,然而,對于原圖像中的細(xì)節(jié)特征解耦仍存在不足,無法將單一特征獨(dú)立解耦,如鼻子、眼睛等特征。此外,對于一些非正常面部圖像,如戴墨鏡、遮眼、側(cè)臉等,由于非正常面部圖像與正常面部圖像存在較大結(jié)構(gòu)性差異,本文的遷移效果不盡如人意。

        在未來的工作中,考慮參考Re-GAN(史彩娟等,2021)等方法,對編碼器及生成器進(jìn)行優(yōu)化,使網(wǎng)絡(luò)能夠解耦出更細(xì)節(jié)的特征,并考慮在判別器部分添加約束條件,對生成器生成的圖像進(jìn)一步優(yōu)化,獲得對非正常面部圖像的高質(zhì)量風(fēng)格遷移結(jié)果。

        猜你喜歡
        特征
        抓住特征巧觀察
        離散型隨機(jī)變量的分布列與數(shù)字特征
        具有兩個P’維非線性不可約特征標(biāo)的非可解群
        月震特征及與地震的對比
        如何表達(dá)“特征”
        被k(2≤k≤16)整除的正整數(shù)的特征
        不忠誠的四個特征
        詈語的文化蘊(yùn)含與現(xiàn)代特征
        新聞傳播(2018年11期)2018-08-29 08:15:24
        抓住特征巧觀察
        基于特征篩選的模型選擇
        国产免费又色又爽又黄软件| 国产免费观看久久黄av麻豆| av无码小缝喷白浆在线观看| 永久免费观看国产裸体美女| 免费看国产成年无码av| 精品国产乱来一区二区三区| 国产白浆一区二区在线| 亚洲精品v欧洲精品v日韩精品| 国产成人av一区二区三区在线| 无码高潮久久一级一级喷水 | 中文字幕一区久久精品| 国产激情久久久久久熟女老人av| 色一情一乱一伦一区二区三欧美| 国产小车还是日产的好| 久久女人精品天堂av影院麻| 亚洲av不卡一区二区三区| 久久成年片色大黄全免费网站| 杨幂二区三区免费视频| 一区二区三区国产免费视频| 国产无套内射久久久国产| 国产哟交泬泬视频在线播放| 久久精品国产亚洲av日韩精品| 色欲av永久无码精品无码蜜桃| 亚洲av第一页国产精品| 亚洲欧美日韩国产综合专区| 国产熟女自拍av网站| 夜夜躁狠狠躁日日躁2022| 免费啪啪视频一区| 精品中文字幕日本久久久| 国产视频自拍一区在线观看 | 人与人性恔配视频免费| 亚洲欧洲精品成人久久曰影片 | 无码免费午夜福利片在线| 午夜视频一区二区三区在线观看| 亚洲精品成人网站在线播放| 久久国产成人精品国产成人亚洲| 日本高清长片一区二区| 日韩人妻无码精品一专区二区三区| 国产亚洲av无码专区a∨麻豆| 婷婷五月亚洲综合图区| av网站免费在线浏览|