孔凡敏 普園媛 趙征鵬 鄧鑫 陽秋霞
摘 要:肖像風(fēng)格遷移旨在將參考藝術(shù)肖像畫中遷移到人物照片上,同時(shí)保留人物面部的基本語義結(jié)構(gòu)。然而,由于人類視覺對肖像面部語義結(jié)構(gòu)的敏感性,使得肖像風(fēng)格遷移任務(wù)比一般圖像的風(fēng)格遷移更具挑戰(zhàn)性,現(xiàn)有的風(fēng)格遷移方法未考慮漫畫風(fēng)格的抽象性以及肖像面部語義結(jié)構(gòu)的保持,所以應(yīng)用到肖像漫畫化任務(wù)時(shí)會出現(xiàn)嚴(yán)重的結(jié)構(gòu)坍塌及特征信息混亂等問題。為此,提出了一個(gè)雙流循環(huán)映射網(wǎng)DSCM。首先,引入了一個(gè)結(jié)構(gòu)一致性損失來保持肖像整體語義結(jié)構(gòu)的完整性;其次,設(shè)計(jì)了一個(gè)結(jié)合U2Net的特征編碼器在不同尺度下幫助網(wǎng)絡(luò)捕獲輸入圖像更多有用的特征信息;最后,引入了風(fēng)格鑒別器來對編碼后的風(fēng)格特征進(jìn)行鑒別,從而輔助網(wǎng)絡(luò)學(xué)習(xí)到更接近目標(biāo)圖像的抽象漫畫風(fēng)格特征。實(shí)驗(yàn)與五種先進(jìn)方法進(jìn)行了定性及定量的比較,該方法均優(yōu)于其他方法,其不僅能夠完整地保持肖像的整體結(jié)構(gòu)和面部的基本語義結(jié)構(gòu),而且能夠充分學(xué)習(xí)到風(fēng)格類型。
關(guān)鍵詞:雙流循壞映射網(wǎng)絡(luò);U2Net;結(jié)構(gòu)一致性損失;肖像漫畫化;風(fēng)格鑒別器
中圖分類號:TP391?? 文獻(xiàn)標(biāo)志碼:A?? 文章編號:1001-3695(2023)12-053-3854-05
doi:10.19734/j.issn.10013695.2023.05.0226
Portrait caricature based on doublestream cycle mapping network
Abstract:Portrait artistic style transfer aims to transfer the style from a given reference artistic portrait painting to a portrait photo while preserving the basic semantic structure of the persons face.However,due to the sensitivity of the human visual system to the facial structure of person,the task of artistic style transfer of portraits is often more challenging than that for general image,especially for caricature type which with more abstract style elements.Existing image style transfer methods,which do not consider the abstraction of the caricature style and the preservation of basic semantic structure of the portrait face,often suffer from serious structural collapse and feature information confusion when applied to the portrait caricature task.To address this problem,this paper proposed a doublestream cycle mapping DSCM(doublestream cycle mapping network) network to portrait caricature.Firstly,based on BeautyGAN,it introduced a structural consistency loss and cooperating with the cycle consistency loss to maintain the integrity of the overall semantic structure of the portrait.Secondly,it designed a feature encoder combined with U2Net to capture more valuable feature information of input images at different scales.In addition,it further introduced a style discriminator to discriminate the encoded style features to assist the network in learning abstract caricature style features closer to the target image.The experiments conducted qualitative comparisons of five advanced methods,and quantitative comparisons of FID(Fréchet inception distance) and PSNR(peak signal to noise ratio) index scores.The experimental results show that this method is superior to other methods.Through extensive experimental verification,the portrait caricature obtained by this method not only maintains the overall structure of the portrait and the basic semantic structure of the face,but also fully learns the abstract style of caricature.
Key words:doublestream cycle mapping network;U2Net;structure consistency loss;portrait caricature;style discriminator
0 引言
漫畫是一種獨(dú)特且當(dāng)下較為流行的藝術(shù)表現(xiàn)形式,通常使用稀疏且連續(xù)的圖形元素集(如線條)來表達(dá)人物的獨(dú)特外觀,并且在局部陰影和色調(diào)渲染等方面也具有較大的差異性。因此,即便是當(dāng)前比較出色的圖像藝術(shù)風(fēng)格遷移方法[1~3],應(yīng)用在肖像漫畫化上也會出現(xiàn)許多問題。
近年來受深度學(xué)習(xí)在圖像處理領(lǐng)域有效性的啟發(fā),Gatys等人[4]通過引入卷積神經(jīng)網(wǎng)絡(luò)(CNN)將風(fēng)格特征從目標(biāo)圖像轉(zhuǎn)換到內(nèi)容圖像中,實(shí)現(xiàn)了一般圖像的風(fēng)格遷移,由此開拓了神經(jīng)風(fēng)格遷移(NST)的新領(lǐng)域。隨后,基于生成對抗網(wǎng)絡(luò)(GAN)的風(fēng)格遷移方法[5~8],通過利用配對/不配對照片集和風(fēng)格化圖像集進(jìn)行學(xué)習(xí),在許多風(fēng)格遷移任務(wù)上也取得了很大的成功。然而,現(xiàn)有的方法主要應(yīng)用于比較雜亂的風(fēng)格,如油畫風(fēng)格,在風(fēng)格化的圖像中通常包含了許多零散的圖形元素,如不完整的畫筆筆觸,并且對單個(gè)風(fēng)格元素的質(zhì)量要求相對較低,即瑕疵不那么明顯。而漫畫則不同于油畫、素描等藝術(shù)風(fēng)格,它僅包含少量稀疏且連續(xù)的圖形元素,通常以簡單且流暢的線條來描繪人物肖像的輪廓,在恰當(dāng)?shù)奈恢檬褂藐幱昂蜕{(diào)來表達(dá)人物的個(gè)性特點(diǎn),并且具有較強(qiáng)的語義約束。
CartoonGAN[8]和WhiteBox[9]針對抽象的卡通風(fēng)格特征采取了對應(yīng)措施,并在一般風(fēng)景圖像的卡通化上取得了令人驚艷的效果,但由于它們未考慮如何保持肖像的整體輪廓和面部基本語義完整性,所以應(yīng)用在肖像風(fēng)格遷移上會出現(xiàn)嚴(yán)重的面部結(jié)構(gòu)變形。Li等人[10]開發(fā)了一種深度生成對抗網(wǎng)絡(luò)BeautyGAN,實(shí)現(xiàn)了實(shí)例級的面部妝容遷移,能夠在轉(zhuǎn)移不同妝容風(fēng)格的同時(shí),較好地保持人物肖像面部結(jié)構(gòu)的完整性。Yi等人[11]在分層生成器和鑒別器的基礎(chǔ)之上,結(jié)合全局和局部網(wǎng)絡(luò)構(gòu)建了一個(gè)新穎的APDrawingGAN架構(gòu),該模型首次在黑白肖像畫和藝術(shù)線條畫上取得了出色的效果,但該方法需要使用配對的數(shù)據(jù)集進(jìn)行訓(xùn)練,由于獲得配對的數(shù)據(jù)集成本高昂且耗時(shí),這大大限制了它的應(yīng)用。為了解決文獻(xiàn)[11]中的配對數(shù)據(jù)集問題,并將人臉照片轉(zhuǎn)換為肖像畫,Yi等人[12]又重新構(gòu)建了一種新的非對稱循環(huán)映射網(wǎng)絡(luò),并通過放松的前向循環(huán)一致性損失,解決了傳統(tǒng)CycleGAN[6]中傾向于在整個(gè)繪圖過程中不加選擇地嵌入不可見的重建信息的問題。但該方法需要使用配對的人臉MASK來訓(xùn)練局部鑒別器,這實(shí)際上也增加了其網(wǎng)絡(luò)訓(xùn)練的復(fù)雜度。
綜上所述,為了解決以上問題,本文在BeautyGAN[10]的基礎(chǔ)上進(jìn)行優(yōu)化拓展,提出了一個(gè)雙流循環(huán)映射網(wǎng)絡(luò)(doublestream cycle mapping network,DSCM)的肖像漫畫化方法。同時(shí),也解決了文獻(xiàn)[11,12]中的配對數(shù)據(jù)集和配對人臉MASK等問題。
本文工作的主要貢獻(xiàn)有以下三個(gè)方面:
a)提出了一個(gè)雙流循環(huán)映射網(wǎng)絡(luò)實(shí)現(xiàn)了人物肖像照片漫畫化任務(wù),通過訓(xùn)練優(yōu)化該網(wǎng)絡(luò)能夠生成高質(zhì)量且具有藝術(shù)表現(xiàn)力的肖像漫畫。同時(shí)解決了抽象藝術(shù)風(fēng)格遷移不充分的問題。
b)引入了結(jié)構(gòu)一致性損失函數(shù)并協(xié)同循環(huán)一致性損失來保持肖像整體語義結(jié)構(gòu)的完整性,解決了肖像風(fēng)格遷移任務(wù)中常見人物五官坍塌和輪廓變形的問題。
c)為了促使網(wǎng)絡(luò)更加充分地提取和學(xué)習(xí)抽象的漫畫風(fēng)格,設(shè)計(jì)了一個(gè)結(jié)合U2Net的特征編碼器,從不同尺度上捕獲輸入圖像更多有用的局部和全局特征信息;同時(shí),引入風(fēng)格鑒別器來輔助該特征編碼器更加充分地學(xué)習(xí)風(fēng)格特征。
1 相關(guān)工作
GAN的提出在深度學(xué)習(xí)領(lǐng)域掀起了一場巨大的革命并且隨之帶來了許多技術(shù)性的突破。它最厲害的地方是其學(xué)習(xí)性質(zhì)是無監(jiān)督的,訓(xùn)練過程不需要標(biāo)記數(shù)據(jù),解決了枯燥的數(shù)據(jù)標(biāo)記工作問題,這也使得它的功能強(qiáng)大。
在風(fēng)格遷移的任務(wù)中,CycleGAN對于僅涉及紋理和顏色改變的圖像風(fēng)格遷移時(shí)往往具有比較突出的效果,但不能用于幾何變換,例如,對于高度抽象的肖像藝術(shù)風(fēng)格遷移時(shí),往往會出現(xiàn)嚴(yán)重的輪廓坍塌。Li等人[10]提出了BeautyGAN,它通過兩個(gè)生成器之間的循環(huán)映射以及直方圖匹配損失,實(shí)現(xiàn)了實(shí)例級的面部妝容遷移,但應(yīng)用于抽象的漫畫風(fēng)格時(shí)無法較好地保持肖像五官的整體布局。另外,GANILLA[13]和WhiteBox[9]也實(shí)現(xiàn)了現(xiàn)實(shí)照片到高度抽象的插畫風(fēng)格和卡通風(fēng)格的轉(zhuǎn)換,雖然它們可以適應(yīng)高度抽象的藝術(shù)風(fēng)格,但由于其網(wǎng)絡(luò)設(shè)計(jì)只關(guān)注紋理和顏色的提取,僅在一般的風(fēng)景照片上效果良好,而應(yīng)用于肖像照片時(shí)同樣也會出現(xiàn)嚴(yán)重的肖像輪廓坍塌。為了生成高質(zhì)量的卡通化人臉,并同時(shí)保持輸入肖像的基本面部特征,Wu等人[14]提出了利用面部關(guān)鍵點(diǎn)來輔助CycleGAN,利用面部關(guān)鍵點(diǎn)一致性損失并指導(dǎo)局部鑒別器的訓(xùn)練,該方法可以生成高質(zhì)量的卡通化面孔,但它依賴于標(biāo)記的面部關(guān)鍵點(diǎn)。Futschik等人[15]在條件生成對抗網(wǎng)絡(luò)(CGAN)[16]的基礎(chǔ)上,開發(fā)出了一種基于學(xué)習(xí)的人物肖像風(fēng)格遷移算法,證明了將基于補(bǔ)丁的合成方法與圖像到圖像轉(zhuǎn)換網(wǎng)絡(luò)的強(qiáng)大功能相結(jié)合的巨大優(yōu)勢。然而,該算法需要利用Fier等人[17]提出的基于肖像視頻風(fēng)格化技術(shù)來生成配對的訓(xùn)練數(shù)據(jù),這種對配對數(shù)據(jù)的依賴在一定程度上限制了它的應(yīng)用范圍。
上述基于GAN的肖像風(fēng)格遷移算法在多種藝術(shù)繪畫風(fēng)格上取得了一定的效果。然而,這些方法在處理高度抽象的藝術(shù)風(fēng)格時(shí),往往不能兼顧風(fēng)格與肖像的基本面部特征;另一方面,它們?yōu)榱四軌虮3中は竦妮喞暾裕鶗褂秒y以獲取的配對數(shù)據(jù)集或者相應(yīng)配對肖像的MASK,而這也增加了網(wǎng)絡(luò)訓(xùn)練的復(fù)雜度。
為了解決上述問題,本文構(gòu)建了一個(gè)非對稱雙流循環(huán)映射網(wǎng)絡(luò)DSCM來適應(yīng)不同的風(fēng)格類型,提出了一個(gè)新穎的具有U型嵌套結(jié)構(gòu)的風(fēng)格編碼器,它能夠有效幫助編碼器從多個(gè)不同尺度下提取參考圖像的風(fēng)格信息。另外,還引入了一個(gè)風(fēng)格鑒別器來鑒別風(fēng)格編碼器提取后的風(fēng)格特征。同時(shí),采用特征拼接操作來進(jìn)行內(nèi)容—風(fēng)格的特征融合,相比當(dāng)前基于注意力機(jī)制特征融合的網(wǎng)絡(luò),它減少了網(wǎng)絡(luò)的計(jì)算量以及訓(xùn)練空間。
2 主要方法
本文構(gòu)建的DSCM模型的主體框架是基于CycleGAN架構(gòu)的。為了使生成器能夠滿足循環(huán)映射條件,本文將生成器拓展為雙輸入/雙輸出結(jié)構(gòu),以此來增加其反向映射過程。DSCM中的生成器有助于平衡兩個(gè)域之間差異性的非對稱結(jié)構(gòu),但將其風(fēng)格編碼器修改為 U 型嵌套結(jié)構(gòu)以能夠在多個(gè)尺度下捕捉目標(biāo)圖像中的風(fēng)格信息。此外,為了提高網(wǎng)絡(luò)性能,同時(shí)能夠減少網(wǎng)絡(luò)的計(jì)算量和所需占用空間,DSCM模型采用了特征拼接進(jìn)行原始內(nèi)容—風(fēng)格特征的融合,利用風(fēng)格鑒別器來保證其風(fēng)格特征學(xué)習(xí)的質(zhì)量。
為了便于描述,本文將兩個(gè)域的數(shù)據(jù)集分別表示為PEuclid Math TwoRApH×W×3(肖像照片數(shù)據(jù)集)和SEuclid Math TwoRApH×W×3(肖像漫畫數(shù)據(jù)集)。其中兩個(gè)域中的圖像完全是非配對的,即任意的肖像漫畫Iref∈S都不是某個(gè)肖像照片Isrc∈P對應(yīng)的漫畫。
本文構(gòu)建的DSCM網(wǎng)絡(luò)包含兩個(gè)生成器(GP→S,GS→P)和三個(gè)鑒別器,分別為兩個(gè)域鑒別器(DP,DS)和一個(gè)風(fēng)格鑒別器(Dstyle)。其中:P→S表示將肖像照片映射到漫畫風(fēng)格域,S→P則與之相反;DP用于鑒別生成的圖像是否屬于P域,DS用于鑒別生成的圖像是否屬于S域,Dstyle用于鑒別生成器中風(fēng)格特征編碼器編碼后的風(fēng)格特征的正負(fù)。DSCM網(wǎng)絡(luò)的總體目標(biāo)是將參考的肖像漫畫Iref∈S中的抽象漫畫風(fēng)格元素遷移到真實(shí)的人物肖像照片Isrc∈P中去,從而實(shí)現(xiàn)肖像漫畫化,其整體結(jié)構(gòu)如圖1所示。
網(wǎng)絡(luò)同時(shí)學(xué)習(xí)兩個(gè)域之間的映射,即G:P×S→S×P。也就是說,將肖像照片Isrc∈P和參考的肖像漫畫Iref∈S同時(shí)作為輸入,網(wǎng)絡(luò)通過訓(xùn)練學(xué)習(xí)后能夠生成一幅肖像照片對應(yīng)的肖像漫畫ISsrc和一幅由參考的肖像漫畫重建而來的肖像照片IPref,其中,ISsrc具有Iref∈S的漫畫風(fēng)格元素并同時(shí)保留Isrc∈P的整體輪廓和面部的基本語義特征,也是網(wǎng)絡(luò)的最終生成目標(biāo)。具體過程如下所示:
(Isrc,Iref)→GP→S(Isrc,Iref)→(ISsrc,IPref)(1)
(ISsrc,IPref)→GS→P(ISsrc,IPref)→(Irecsrc,Irecref)(2)
(Irecsrc,Irecref)≈(Isrc,Iref)(3)
為了使生成的肖像漫畫能夠保持原始肖像照片中人物輪廓的完整性和面部基本語義的正確性,本文在肖像照片Isrc∈P和生成的肖像漫畫ISsrc之間設(shè)計(jì)了一個(gè)結(jié)構(gòu)一致性損失來避免肖像結(jié)構(gòu)坍塌;并在生成器中設(shè)計(jì)了兩個(gè)結(jié)合U2Net[18]的特征編碼器(內(nèi)容編碼器U2EP,風(fēng)格編碼器U2ES)以在不同尺度下捕獲輸入圖像更多有用的特征信息;另外,還進(jìn)一步引入了風(fēng)格鑒別器來對編碼器編碼后的風(fēng)格特征進(jìn)行鑒別,從而輔助特征編碼器學(xué)習(xí)到更接近參考圖像的抽象漫畫風(fēng)格。
2.1 生成器網(wǎng)絡(luò)框架
本文的生成器采用雙輸入/雙輸出的雙流結(jié)構(gòu),具體包含內(nèi)容編碼器U2EP、風(fēng)格編碼器U2ES、特征融合模塊(feature fusion)和兩個(gè)解碼器(decoder),如圖2所示。其中,特征融合模塊是一個(gè)簡單的特征拼接操作且兩個(gè)解碼器結(jié)構(gòu)相同,由一系列卷積組成。生成器同時(shí)接收肖像照片Isrc∈P和參考的肖像漫畫圖像Iref∈S作為輸入,在經(jīng)過訓(xùn)練后,生成肖像照片對應(yīng)的肖像漫畫作品ISsrc以及由肖像漫畫重建而來的肖像照片IPref,即
(ISsrc,IPref)=GP→S(Isrc,Iref)(4)
考慮到肖像漫畫是一種特征元素稀疏且較為抽象的藝術(shù)風(fēng)格類型,傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)通常使用的1×1或3×3大小的卷積核。由于其較小的感受野而無法捕獲輸入圖像的全局特征,從而難以學(xué)習(xí)到有用的特征信息。本文設(shè)計(jì)了一種結(jié)合U2Net的特征編碼器作為生成器中的內(nèi)容編碼器U2EP和風(fēng)格編碼器U2ES,能夠從不同尺度下提取肖像照片和肖像漫畫更多有用的特征信息。
2.2 U2Net特征編碼器
局部和全局特征信息對于圖像的風(fēng)格遷移任務(wù)來說都具有非常重要的意義。因此,為了能夠充分地提取輸入圖像中重要的特征信息,本文引入了一種具有嵌套UNet結(jié)構(gòu)的U2Net來設(shè)計(jì)網(wǎng)絡(luò)中的編碼器,其中,內(nèi)容編碼器U2EP和風(fēng)格編碼器U2ES設(shè)計(jì)為相同的結(jié)構(gòu)。U2Net結(jié)構(gòu)由于混合了不同大小的感受野,所以能夠從不同尺度上捕獲圖像更多的特征信息,并且其中的池化操作使網(wǎng)絡(luò)在不增加計(jì)算成本的情況下,進(jìn)一步擴(kuò)展其深度。U2Net具體結(jié)構(gòu)如圖3所示。
輸入圖像首先經(jīng)過卷積操作初步提取得到低層特征:
f0=conv(I)(5)
特征圖隨后傳輸?shù)経2Net塊中進(jìn)行充分編碼。該U2Net結(jié)構(gòu)總共由7個(gè)階段組成:一個(gè)4階段編碼器,一個(gè)3階段解碼器及一個(gè)與解碼器階段和最后一個(gè)編碼器階段相連的特征圖融合模塊,如圖3(a)所示。其具體過程可表述如下:
其中:i和j分別表示U2Net中編碼器和解碼器階段的編號。編碼器階段En_1、En_2是由不同高度的殘差U型塊組成的,解碼器階段De_1、De_2與之類似,如圖3(b)所示。由于En_3、En_4和De_3中的特征圖分辨率相對較低,所以采用了擴(kuò)張卷積來代替殘差U型塊中的池化和采樣操作,即En_3、En_4和De_3中所有中間特征圖與其輸入特征圖有相同的分辨率,如圖3(c)所示。通過該結(jié)構(gòu)能夠更有效地提取階段內(nèi)多尺度特征和階段間多尺度特征的聚合。
2.3 風(fēng)格鑒別器
網(wǎng)絡(luò)的目標(biāo)是在數(shù)據(jù)集完全不配對的情況下學(xué)習(xí)兩個(gè)視覺域PEuclid Math TwoRApH×W×3和SEuclid Math TwoRApH×W×3之間的映射。如圖1所示,為了能夠充分學(xué)習(xí)風(fēng)格特征,本文在網(wǎng)絡(luò)中引入了一個(gè)風(fēng)格鑒別器Dstyle來區(qū)分風(fēng)格編碼器編碼后的風(fēng)格特征U2Es(Iref)和U2Es(Issrc)哪個(gè)為正哪個(gè)為負(fù),同時(shí)也可以促使風(fēng)格編碼器U2ES以及生成器學(xué)習(xí)生成Dstyle無法區(qū)分的風(fēng)格特征。
2.4 目標(biāo)函數(shù)
本文網(wǎng)絡(luò)框架的整體目標(biāo)損失包含對抗性損失、循環(huán)一致性損失、結(jié)構(gòu)一致性損失三種類型。
LG=αLadv+βLcyc+γLSC(9)
其中:α、β、γ為權(quán)重因子,用于控制每項(xiàng)損失之間的相對平衡。
1)對抗性損失Ladv 對抗性損失包含三項(xiàng),主要由DP、DS和Dstyle的目標(biāo)函數(shù)構(gòu)成:
Ladv=LDP+LDS+LDstyle(10)
首先給出DP和DS的目標(biāo)函數(shù),它們僅包含對抗性損失。DP目標(biāo)是將生成的IPref與真實(shí)的肖像照片區(qū)分開,由公式表示為
LDP=Euclid Math TwoEApIsrc[log DP(Isrc)]+Euclid Math TwoEApIsrc,Iref[log(1-DP(IPref))](11)
同樣地,DS的目標(biāo)是區(qū)分生成的圖像ISsrc與參考的肖像漫畫Iref。由公式表示為
LDS=Euclid Math TwoEApIref[log DS(Iref)]+Euclid Math TwoEApIsrc,Iref[log(1-DS(ISsrc))](12)
此外,Dstyle的目標(biāo)函數(shù)僅包括風(fēng)格對抗性損失,用于鑒別編碼后的風(fēng)格特征的正負(fù)。由公式表示為
LDstyle=Lstyleadv(U2Euclid Math TwoEAps,Dstyle)=Euclid Math TwoEApS[log Dstyle(U2Es(Iref))+
log(1-Dstyle(U2Euclid Math TwoEAps(Issrc)))](13)
2)循環(huán)一致性損失Lcyc 為了幫助生成器GP→S生成的圖像保留更多的有效信息,本文還在重構(gòu)圖像Irecsrc、Irecref與其分別對應(yīng)的原始圖像Isrc∈P、Iref∈S之間施加循環(huán)一致?lián)p失約束。其公式表示如下:
Lcyc=Euclid Math TwoEApIsrc,Iref[‖Isrc,Irecsrc‖2+‖Iref,Irecref‖2](14)
3)結(jié)構(gòu)一致性損失LSC Lcyc雖然能夠在一定程度上幫助網(wǎng)絡(luò)約束生成圖像與原始圖像之間語義的一致性,但在局部區(qū)域的生成上仍然存在瑕疵,因此本文通過在肖像照片Isrc和生成的對應(yīng)肖像線漫畫ISsrc之間施加結(jié)構(gòu)相似性約束,迫使生成器生成與肖像照片具有一致肖像語義結(jié)構(gòu)的肖像漫畫,從而防止肖像整體結(jié)構(gòu)坍塌的問題。
LSC=SSIM(Isrc,ISsrc)(15)
3 實(shí)驗(yàn)驗(yàn)證
3.1 數(shù)據(jù)集與實(shí)驗(yàn)細(xì)節(jié)
1)數(shù)據(jù)集 本文實(shí)驗(yàn)使用的肖像漫畫風(fēng)格數(shù)據(jù)集(github/photo2cartton)和肖像照片數(shù)據(jù)集(seeprettyface)完全是非配對的,所有圖像均被裁剪為256×256。其中風(fēng)格圖像總共包含2 400張高質(zhì)量的肖像漫畫,隨機(jī)選擇2 350張作為訓(xùn)練集,剩下的50張作為測試集;人物肖像照片總共包含2 812張,隨機(jī)選擇其中的2 556張作為訓(xùn)練集,剩下的256張作為測試集。
2)實(shí)驗(yàn)實(shí)現(xiàn)細(xì)節(jié) 實(shí)驗(yàn)訓(xùn)練和測試的所有環(huán)節(jié)均在PyTorch平臺下完成,模型的全部訓(xùn)練過程在NVIDIA Tesla V100(顯存32 GB)上進(jìn)行,輸入圖像和輸出圖像的分辨率均為256×256,初始學(xué)習(xí)率為0.000 2,批量大小設(shè)置為1,權(quán)重因子α、β中的設(shè)置分別為10和0.05,DSCM模型在單塊V100 GPUs上訓(xùn)練的時(shí)長約為40 h,總共迭代次數(shù)為100個(gè)epoch。
3.2 結(jié)果與討論
本文從對比實(shí)驗(yàn)和消融實(shí)驗(yàn)兩個(gè)方面來討論模型的效果。實(shí)驗(yàn)選擇的對比方法包括CNNMRF[19]、ASTMAN[2]、CycleGAN、GANILLA、WhiteBox和BeautyGAN五種。此外,受文獻(xiàn)[9,20]的啟發(fā),本文還采用了FID、PSNR等指標(biāo)對對比實(shí)驗(yàn)結(jié)果進(jìn)行了定量分析。FID用于衡量生成圖像與參考風(fēng)格圖像特征向量之間的距離,PSNR用于衡量生成圖像的視覺質(zhì)量。
3.2.1 對比實(shí)驗(yàn)
將本文的DSCM網(wǎng)絡(luò)與CNNMRF、ASTMAN、CycleGAN、GANILLA、WhiteBox、BeautyGAN六種模型進(jìn)行定性比較,如圖4所示。
與本文提出的DSCM生成的結(jié)果相比,CNNMRF幾乎不能學(xué)到目標(biāo)風(fēng)格的特征信息,并且肖像輪廓出現(xiàn)了比較嚴(yán)重的偽影以及五官錯(cuò)位現(xiàn)象,如圖4(a)所示,而且CNNMRF與其他所有的方法相比,在視覺上都呈現(xiàn)了最差的效果。
ASTMAN在肖像整體語義結(jié)構(gòu)上保持良好,但對于風(fēng)格特征的學(xué)習(xí)非常不到位,并且顏色渲染不均勻的問題非常突出,如圖4(b)所示,第一行和第三行生成結(jié)果的頭發(fā)有大量的留白,最后兩行的結(jié)果存在嚴(yán)重的偽影。
將GANILLA和CycleGAN與本文的DSCM生成結(jié)果相比較,本文方法可以很好地保持原始肖像照片的輪廓信息,而GANILLA和CycleGAN出現(xiàn)了比較嚴(yán)重的輪廓線條的扭曲變形以及偽影,如圖4(c)(d)所示的最后兩行生成的結(jié)果幾乎丟失了原始照片人臉的輪廓信息。
WhiteBox作為一種出色的圖像卡通化方法,在肖像漫畫化任務(wù)上并不出色,對肖像漫畫風(fēng)格的學(xué)習(xí)程度與ASTMAN類似,并且還出現(xiàn)了肖像部分輪廓缺失的問題,如圖4(e)第三行生成的結(jié)果丟失了部分頭發(fā)區(qū)域,而本文方法很好地保留了原始肖像照片的區(qū)域信息。
BeautyGAN在女性面部妝容遷移上具有出色的效果,然而應(yīng)用于抽象的漫畫風(fēng)格時(shí),同樣也出現(xiàn)了許多小瑕疵,如圖4(f)中標(biāo)注的框內(nèi)所示,肖像的鼻子出現(xiàn)了偽影并且在肖像面部出現(xiàn)了錯(cuò)誤的陰影,而本文方法在這些區(qū)域都生成了更加真實(shí)光滑的結(jié)果。
與現(xiàn)有的六種模型相比較,本文方法生成的肖像漫畫既完整地保持了肖像照片正確的基本語義特征,又充分捕捉到了抽象的漫畫風(fēng)格特征,如圖4(g)所示。另外,為了更加客觀地展示本文方法的良好性能,采用FID、PSNR指標(biāo)對相關(guān)的實(shí)驗(yàn)結(jié)果進(jìn)行了定量分析,如表1所示,無論是風(fēng)格還是圖像的生成質(zhì)量,本文的各項(xiàng)指標(biāo)均優(yōu)于對比算法。
3.2.2 消融實(shí)驗(yàn)
為了驗(yàn)證本文模型的有效性,對模型的三個(gè)關(guān)鍵組件進(jìn)一步進(jìn)行了消融實(shí)驗(yàn),分別為LSC、Dstyle以及U2Net特征編碼器,并對相應(yīng)的消融實(shí)驗(yàn)結(jié)果進(jìn)行了定性和定量分析。
1)結(jié)構(gòu)一致性損失LSC 在去掉LSC約束的情況下,網(wǎng)絡(luò)合成的肖像漫畫明顯地出現(xiàn)了五官變形扭曲的現(xiàn)象,如圖5(a)中標(biāo)注框內(nèi)所示。加入該結(jié)構(gòu)一致性損失后,得到的肖像漫畫避免了肖像面部結(jié)構(gòu)的坍塌,與原始的肖像照片保持了較高的結(jié)構(gòu)相似性,如圖5(b)所示。
2)風(fēng)格鑒別器Dstyle 如圖6(a)所示,在無Dstyle的情況下,網(wǎng)絡(luò)合成的肖像漫畫的某些區(qū)域無法成功地學(xué)習(xí)到目標(biāo)風(fēng)格,例如頭發(fā)等。如圖6(b)所示,引入Dstyle之后生成的肖像漫畫,無論從局部還是全局學(xué)到的風(fēng)格都比較和諧且線條流暢。
3)U2Net特征編碼器。如圖7(a)所示,在無U2Net特征編碼器的情況下,即使用一般卷積層代替U2Net結(jié)構(gòu)時(shí),雖然網(wǎng)絡(luò)生成的肖像漫畫結(jié)構(gòu)和風(fēng)格保持良好,但卻丟失了一些人物細(xì)節(jié),使得肖像漫畫的整體風(fēng)格不夠生動。而在引入U(xiǎn)2Net特征編碼器后生成的肖像漫畫具有更加豐富且生動的人物細(xì)節(jié)。
本文對消融實(shí)驗(yàn)進(jìn)行了一系列的指標(biāo)分?jǐn)?shù)評價(jià)。如表2所示,對風(fēng)格影響較大的是風(fēng)格鑒別器Dstyle,對生成圖像質(zhì)量影響較大的是結(jié)構(gòu)一致性損失LSC。
為了進(jìn)一步證明本文模型對不同肖像照片的適應(yīng)性,對不同人物類型的肖像照片進(jìn)行了實(shí)驗(yàn)驗(yàn)證。如圖8所示,本文的模型對兒童肖像照片、不同性別的男女青年肖像照片以及不同人種的歐美超模的肖像照片均有良好的適應(yīng)性。
4 結(jié)束語
本文基于BeautyGAN,提出了一個(gè)雙流循環(huán)映射(DSCM)網(wǎng)絡(luò)來實(shí)現(xiàn)肖像照片漫畫化的方法。在輸入支路中引入了具有嵌套結(jié)構(gòu)的U2Net塊作為特征編碼器以捕捉輸入圖像中不同尺度大小的特征信息,從而促使網(wǎng)絡(luò)能夠充分學(xué)習(xí)抽象的漫畫風(fēng)格元素,同時(shí)還引入了風(fēng)格鑒別器來輔助該特征編碼器更加充分地學(xué)習(xí)風(fēng)格特征;在肖像照片與生成的對應(yīng)肖像漫畫之間施加了結(jié)構(gòu)一致性損失約束,并聯(lián)合循環(huán)一致性損失來解決肖像整體結(jié)構(gòu)坍塌的問題。實(shí)驗(yàn)表明,本文方法生成的肖像漫畫不僅在肖像的整體結(jié)構(gòu)上保持良好,而且能夠保留肖像人物的基本面部語義特征,并且還可以充分地學(xué)習(xí)到參考的肖像漫畫風(fēng)格。
參考文獻(xiàn):
[1]An Jie,Li Tao,Huang Haozhi,et al.Realtime universal style transfer on highresolution images via zerochannel pruning [EB/OL].(20200616) .https://arxiv.org/pdf/2006.09029v2.pdf.
[2]Deng Yingying,Tang Fan,Dong Weiming,et al.Arbitrary style transfer via multiadaptation network[C]//Proc of the 28th ACM International Conference on Multimedia.New York:ACM Press,2020:2719-2727.
[3]張美玉,劉躍輝,秦緒佳,等.基于拉普拉斯算子抑制偽影的神經(jīng)風(fēng)格遷移方法[J].計(jì)算機(jī)科學(xué),2020,47(11):209214.(Zhang Meiyu,Liu Yaohui,Qin Xujia,et al.A neural style transfer method based on Laplacian operator to suppress artifacts [J].Computer Science,2020,47(11):209-214.)
[4]Gatys L A,Ecker A S,Bethge M.Image style transfer using convolutional neural networks [C]//Proc of the 36th IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:2414-2423.
[5]Isola P,Zhu Junyan,Zhou Tinghui,et al.Imagetoimage translation with conditional adversarial networks[C]//Proc of the 37th IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:11251134.
[6]Zhu Junyan,Park T,Isola P,et al.Unpaired imagetoimage translation using cycleconsistent adversarial networks[C]//Proc of the 16th IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:2223-2232.
[7]Azadi S,F(xiàn)isher M,Kim V,et al.Multicontent GAN for fewshot font style transfer[C]//Proc of the 38th IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:75647573.
[8]Chen Yang,Lai Yukun,Liu Yongjin.CartoonGAN:generative adversarial networks for photo cartoonization[C]//Proc of the 38th IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:94659474.
[9]Wang Xinrui,Yu Jinze.Learning to cartoonize using whitebox cartoon representations[C]//Proc of the 40th IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:8090-8099.
[10]Li Tingting,Qian Ruihe,Dong Chao,et al.BeautyGAN:instancelevel facial makeup transfer with deep generative adversarial network[C]//Proc of the 26th ACM International Conference on Multimedia.New York:ACM Press,2018:645653.
[11]Yi Ran,Liu Yongjin,Lai Yukun,et al.APDrawingGAN:generating artistic portrait drawings from face photos with hierarchical GANs[C]//Proc of the 39th IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:1074310752.
[12]Yi Ran,Liu Yongjin,Lai Yukun,et al.Unpaired portrait drawing generation via asymmetric cycle mapping[C]//Proc of the 40th IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:82178225.
[13]Hicsonmez S,Samet N,Akbas E,et al.GANILLA:generative adversarial networks for image to illustration translation[J].Image and Vision Computing,2020,95:103886.
[14]Wu Ruizheng,Gu Xiaodong,Tao Xin,et al.Landmark assisted CycleGAN for cartoon face generation [EB/OL].(2019-07-02).https://arxiv.org/pdf/1907.01424v1.Pdf.
[15]Futschik D,Chai Menglei,Cao Cheng,et al.Realtime patchbased stylization of portraits using generative adversarial network[C]//Proc of the 8th ACM/Eurographics Expressive Symposium on Computational Aesthetics and Sketch Based Interfaces and Modeling and NonPhotorealistic Animation and Rendering.New York:ACM Press,2019:3342.
[16]Mirza M,Osindero S.Conditional generative adversarial nets[EB/OL].(201411-06).https://arxiv.org/abs/1411.1784.
[17]Fier J,Jamriska O,Simons D,et al.Examplebased synthesis of stylized facial animations[J].ACM Trans on Graphics,2017,36(4):111.
[18]Zhang Kaihao,Luo Wenhan,Ma Lin,et al.Disentangled feature networks for facial portrait and caricature generation[J].IEEE Trans on Multimedia,2022,24:13781388.
[19]Li Chuan,Wand M.Combining Markov random fields and convolutional neural networks for image synthesis[C]//Proc of the 36th IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:24792486.
[20]Liao Jing,Yao Yuan,Yuan Lu,et al.Visual attribute transfer through deep image analogy[J].ACM Trans on Graphics,2017,6:115.
[21]Yang Shuai,Jiang Liming,Liu Ziwei,et al.Pastiche master:exemplarbased highresolution portrait style transfer[C]//Proc of the 42nd IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:76837692.
[22]Karras T,Laine S,Aittala M,et al.Analyzing and improving the image quality of StyleGAN[C]//Proc of the 40th IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:81108119.
[23]Qin Xuebin,Zhang Zichen,Huang Chenyang,et al.U2Net:going deeper with nested Ustructure for salient object detection [J].Pattern Recognition,2020,106:107404.