摘要: 提出了一種基于StyleGAN 生成器的新型自監(jiān)督人臉正面化模型( Self-SupervisedFace Frontalization Model,SFM),通過改變潛空間編碼實現(xiàn)人臉正面化。為了合成質(zhì)量優(yōu)異的正面人臉圖像,使用對比語言圖像預(yù)訓(xùn)練( Contrastive Language Image Pretraining,CLIP)模塊和自適應(yīng)增強模塊(Adaptive Enhancement Module,AEM)來編輯潛空間,在最大程度上只修改面部姿態(tài)而不修改面部的其他特征。研究結(jié)果表明,本文方法無需配對人臉數(shù)據(jù)集訓(xùn)練就能生成質(zhì)量優(yōu)且完整的正面人臉圖像。在定性和定量實驗數(shù)據(jù)的比較中,本文方法最優(yōu)。
關(guān)鍵詞:人臉正面化;潛空間編輯;生成對抗網(wǎng)絡(luò);StyleGAN;預(yù)訓(xùn)練
中圖分類號:TP391 文獻標志碼:A
人臉正面化是一種圖像處理技術(shù),其目的是將人臉圖像從側(cè)面不同的角度轉(zhuǎn)換為正面角度,是計算機視覺領(lǐng)域的一項重要研究課題。隨著深度學(xué)習(xí)的不斷發(fā)展,許多學(xué)者提出了解決人臉正面化的方法,應(yīng)用于多個領(lǐng)域。首先,人臉在人臉識別[1-2]、面部編輯[3] 和虛擬現(xiàn)實[4-5] 等許多應(yīng)用中發(fā)揮著重要作用,然而,由于人臉圖像的多樣性和復(fù)雜性,人臉識別等任務(wù)在非正面視圖中往往表現(xiàn)不佳。因此,正面化技術(shù)可以提高這些任務(wù)的準確性和可靠性。此外,人臉正面化還可用于數(shù)字藝術(shù)、娛樂和游戲等應(yīng)用領(lǐng)域。通過改變?nèi)四槇D像的角度和姿態(tài),可以為用戶提供更加個性化的選擇和娛樂體驗。根據(jù)目前大多數(shù)學(xué)者的研究,可以將人臉正面化方法大致分為兩類:基于三維模型的方法和基于深度學(xué)習(xí)的方法。
基于三維模型的人臉正面化通常是利用二維人臉圖像和三維人臉模型之間的對應(yīng)關(guān)系來實現(xiàn)旋轉(zhuǎn)、變形和渲染等操作的。Asthana 等[6] 提出了一種三維姿態(tài)歸一化方法,將非正面人臉圖像映射到對齊的三維人臉模型上,并通過調(diào)整該三維模型的姿態(tài)獲得正面人臉圖像。隨后,Hassner 等[7] 提出了一種簡單有效的生成正面人臉的方法,即使用單一不變的三維形狀生成正面人臉。Zhu 等[8] 考慮到傳統(tǒng)3DMM 計算速度慢等問題,提出了一種基于3DMM的高保真姿態(tài)和表情歸一化(High-Fidelity Pose andExpression Normalization ,HPEN)方法[9]。然而,這種方法在處理大姿態(tài)人臉時效果較差,而且存在模型結(jié)構(gòu)復(fù)雜、運行速度慢等問題。
隨著深度學(xué)習(xí)的不斷發(fā)展,人臉正面化的研究也得到了很大的進步。起初,它們大多基于自編碼器[10-11] 和卷積神經(jīng)網(wǎng)絡(luò)[12-13] 等網(wǎng)絡(luò)結(jié)構(gòu),近年來越來越多的相關(guān)研究開始使用生成對抗網(wǎng)絡(luò)( Generative Adversarial Network, GAN) 。GAN[14] 是近年來流行的模型,被廣泛應(yīng)用于計算機視覺和圖像處理領(lǐng)域。Huang 等[15] 提出了一種雙路徑生成對抗網(wǎng)絡(luò)(Two-Pathway Generative Adversarial Network,TP-GAN),它包含4 個有邊界位置的跳轉(zhuǎn)網(wǎng)絡(luò)和一個全局編碼器-解碼器網(wǎng)絡(luò)。通過將對抗性損失、對稱性損失和特性保持損失相結(jié)合,TP-GAN 在生成正面視圖的同時保留了全局結(jié)構(gòu)和局部細節(jié)。Tran 等[16] 認為,最好能聯(lián)合執(zhí)行人臉識別和人臉正面化這兩項任務(wù),以便它們能相互結(jié)合使用。在此基礎(chǔ)上,他們提出了3 種不同的新型分離表征學(xué)習(xí)-生成對抗網(wǎng)絡(luò)( Disentangled Representation Learning-Generative Adversarial Networks ,DR-GAN)。DR-GAN以 CGAN( Cycle GAN) [17] 為基礎(chǔ),增加了一些新功能,包括編碼器-解碼器結(jié)構(gòu)生成器、位姿編碼、鑒別器中的位姿分類以及集成的多圖像融合方案。Tu等[18]提出了一種名為 \"多生成人臉恢復(fù)( Multi-Degenerate Face Recovery, MDFR) \"的模型。該模型能夠從給定的低質(zhì)量圖像中恢復(fù)出任何面部姿勢的高質(zhì)量正面人臉圖像。Duan 等[19] 還提出了一種新穎的掩碼引導(dǎo)的兩階段生成對抗網(wǎng)絡(luò),它是一種基于掩碼的注意力模型以利用噪聲的先驗信息,并通過U 型連接將其集成到兩階段中。
雖然許多基于深度學(xué)習(xí)的方法都能實現(xiàn)人臉正面化,但這些方法大多是基于成對人臉數(shù)據(jù)集進行訓(xùn)練的。Richardson 等[20] 提出了一種基于StyleGAN[21]的圖像翻譯網(wǎng)絡(luò),該網(wǎng)絡(luò)可實現(xiàn)端到端的人臉正面化,且無需使用配對人臉數(shù)據(jù)集進行訓(xùn)練。然而,它無法控制人臉正面化過程中的潛空間編輯,這導(dǎo)致除了人臉姿態(tài)變化外,人臉的其他特征也會發(fā)生相應(yīng)的變化。本文提出了一種基于StyleGAN 生成器的新型自監(jiān)督人臉正面化模型(SFM),通過編輯潛空間編碼解決了這一問題。這樣,無需使用配對數(shù)據(jù)集進行訓(xùn)練,就能生成高質(zhì)量的正面人臉圖像。
1 自監(jiān)督人臉正面化模型框架及其實現(xiàn)
本文提出的框架建立在具有W+潛空間的預(yù)訓(xùn)練StyleGAN 生成器之上。首先通過編碼器對圖像進行反演,將其映射到潛空間W+,然后編輯潛空間中的潛編碼,并將其送入預(yù)訓(xùn)練的StyleGAN 生成器,從而得到最終合成的正面人臉圖像。
1.1 SFM 整體網(wǎng)絡(luò)結(jié)構(gòu)
本文的整體網(wǎng)絡(luò)框架如圖1 所示,主要由4 個模塊組成: GAN 反演模塊( GAN inversion module) 、正面化反演模塊(Frontalization inversion module)、潛空間編輯模塊( Latent space manipulation module)和StyleGAN生成器模塊( StyleGAN generator module)。本文的大致思路是將輸入人臉圖像通過GAN 反演模塊映射到潛空間,得到對應(yīng)的潛編碼,然后根據(jù)正面化反演模塊和潛空間編輯模塊改變潛編碼中的人臉姿態(tài)相關(guān)信息,得到轉(zhuǎn)正后的潛編碼,最后將轉(zhuǎn)正后的潛編碼送入StyleGAN 生成器合成正面人臉圖像。其中GAN反演模塊的目的是將輸入人臉圖像x映射到潛空間W+,本文采用預(yù)先訓(xùn)練好的e4e 編碼器[22] 作為GAN 反演模塊,得到輸入人臉圖像 的潛編碼w,以備后續(xù)潛空間編輯。通過編碼器得到的人臉圖像潛編碼w是一個18×512 維的向量,也就是18 個不同的風(fēng)格編碼,每個風(fēng)格編碼控制著人臉的相應(yīng)特征,通過改變這些參數(shù)可以改變?nèi)四樀南鄳?yīng)特征。將人臉圖像x和文字輸入正面化反演模塊得到所需的正面化潛編碼wfron,是后面潛空間編輯的主要依據(jù)。為了能通過編輯潛編碼來實現(xiàn)人臉正面化,本文將w和wfron一起輸入潛空間編輯模塊,得到編輯后的潛編碼w′。為了獲得更好的編輯效果,潛編碼w被分為可編輯部分wedit和固定部分wfix。在編輯過程中,只對可編輯部分wedit進行編輯,得到編輯后的w′edit,而固定部分wfix則保持不變,以盡可能確保除臉部姿態(tài)外的其他特征不被改變,獲得更好的正面化效果。將wedit替換為w′edit,就得到了編輯后的潛編碼w′。最后,將編輯后的潛編碼w′輸入預(yù)訓(xùn)練的StyleGAN 生成器,得到合成的正面人臉圖像x^ 。
1.2 正面化反演模塊
正面化反演模塊是在網(wǎng)絡(luò)中實現(xiàn)潛編碼編輯的關(guān)鍵模塊,通過它可以得到正面化編碼wfron。正面化反演模塊的結(jié)構(gòu)如圖2 所示。
在獲得輸入圖像潛編碼w之后,需要對人臉圖像潛編碼w進行編輯,盡量只改變面部姿態(tài)特征,而不改變其他特征。要完成潛編碼的編輯操作,需要利用相應(yīng)的模塊來獲取相應(yīng)的改變編碼。首先,為確保面部身份特征盡可能保持不變,將輸入的人臉圖像送入身份特征編碼器(ID Encoder),以獲得面部特征fid。然后,通過全連接層(MLPs)將面部特征fid映射到潛空間,得到對應(yīng)的潛編碼wid。獲取wid的主要目的是確保將人臉圖像輸入到正面化反演模塊后,面部身份特征信息保持不變。面部特征提取模塊使用Arcface 模塊[23],該模塊在應(yīng)用于面部識別等任務(wù)時表現(xiàn)出良好的性能。
然后,需要獲取相應(yīng)的潛編碼來改變面部姿態(tài),使面部正面化。這部分主要利用CLIP 模型強大的文本圖像對應(yīng)能力,監(jiān)督相應(yīng)潛編碼變化的形成。將輸入人臉圖像 x送入到CLIP 圖像編碼器( CLIPimage encoder)后,得到輸入人臉圖像的圖像編碼ei。將文本輸入CLIP 文本編碼器(CLIP text encoder),得到文本編碼et。由于本文的目標是將輸入的人臉圖像正面化, 因此輸入文本是 \"人臉正面化( Facefrontalization)\"。
通過CLIP 圖像編碼器得到的輸入人臉圖像的圖像編碼ei并不是正面人臉的圖像編碼,因此還設(shè)計了AEM (Adaptive enhancement module) 模塊來提取輸入人臉圖像編碼ei中與文字編碼et相近的部分。因為編碼et對應(yīng)的是正面人臉圖像,這樣可以使人臉圖像編碼更接近正面人臉。AEM 模塊的結(jié)構(gòu)如圖3 所示。將ei輸入AEM模塊后,該編碼經(jīng)過全連接層MLPs 后將被分解為e+i、e-i、e+i與所需的文字編碼et盡可能接近,然后對e+i部分進行一定程度的強化,再與e-i相加并組合,得到最終的輸入人臉圖像編碼e'i,該編碼與文字編碼et更加接近,以便后續(xù)對潛編碼進行編輯。這里采用對e+i進行γ倍放大的方法來實現(xiàn)對e+i部分的增強,經(jīng)過多次實驗比較,選擇γ=2作為放大倍數(shù),以達到最佳實驗效果。具體計算式如下:
ei = Ci (x) = e+i+e-i (1)
et = Ct (text) (2)
e′i = AEM(ei, et) ="γe+i+e-i (3)
其中,text代表輸入的文本,Ci、Ct和AEM 分別代表CLIP 圖像編碼模塊、CLIP 文本編碼模塊和AEM模塊,公式(3) 對應(yīng)的是AEM 模塊的計算公式。在實驗過程中,主要是通過對MLPs 網(wǎng)絡(luò)的不斷訓(xùn)練,讓不同的輸入人臉圖像的圖像編碼ei都可以分解出靠近文字編碼et的那一部分e+i,然后再對e+i這一部分進行相應(yīng)的加強,實現(xiàn)對圖像編碼轉(zhuǎn)正的自適應(yīng)加強。
通過正面化反演模塊可以得到3 個潛空間編碼wid、et和e′i。獲得的這3 個潛編碼具有相同的維度,我們將它們拼接在一起,以方便后續(xù)的潛空間操作。本文將這3 個潛編碼用圖中的正面化編碼wfron表示,以便后續(xù)編輯潛編碼w實現(xiàn)人臉正面化。
1.3 潛空間編輯模塊
通過正面化反演模塊得到用于人臉正面化的正面化編碼wfron后,還需要據(jù)此對w進行相應(yīng)的編輯,因此還設(shè)計了潛空間編輯模塊來實現(xiàn)這一操作,具體結(jié)構(gòu)如圖4 所示。
將輸入人臉圖像送入GAN 反演模塊和正面化反演模塊后,得到了人臉圖像潛編碼w和正面化編碼wfron。本文的目標是利用這些潛編碼編輯輸入人臉圖像潛空間編碼w來改變面部姿態(tài)。因此,將這些編碼輸入變換器層(Transformer layers)進行融合,得到必要的調(diào)整編碼ealign,以編輯潛編碼w。
在編輯人臉圖像潛編碼時,并非所有人臉圖像潛編碼都需要編輯。人臉圖像潛編碼中共有18 種不同的風(fēng)格編碼,它們控制著面部的不同特征。如果對所有18 個風(fēng)格編碼進行編輯和更改,除了姿勢之外,頭發(fā)等面部特征也會發(fā)生重大變化。然而,由于每個風(fēng)格編碼控制的并不是單一的面部特征,也不能完全解耦出單一的面部特征,因此不可能在改變一個特征的同時保持其他特征完全不變。因此,本文要做的就是盡可能減少其他面部特征的變化,為此參考了Lou 等[24] 的研究結(jié)果,如表1 所示。在這18 層中,每一層都控制了一個以上的面部特征。本文將這18 個風(fēng)格編碼分為兩部分:編輯層wedit和固定層wfix。由于前4 層風(fēng)格編碼主要控制面部姿態(tài)和其他特征,因此這4 個層被用作編輯層。其余的固定層不進行任何改變,以盡可能保證除面部姿態(tài)外的其他特征的變化。因此,如圖4 所示,將編輯層的wedit和調(diào)整編碼ealign一起送入文本注入模塊( Textinjection),實現(xiàn)編輯層的變化。本文提出的結(jié)構(gòu)是對Wei 等[25] 提出的調(diào)制模塊結(jié)構(gòu)的簡化,簡化公式如下:
w′edit = k(αwedit +β) (4)
其中,超參數(shù)α、β、k通過網(wǎng)絡(luò)訓(xùn)練得到。通過向兩個不同的全連接層網(wǎng)絡(luò)輸入ealign得到相應(yīng)的參數(shù)α和β。文本注入模塊主要是通過全連接層實現(xiàn)ealign對wedit的線性變化,從而實現(xiàn)對編輯層的變化,得到編輯后的w′edit。最后,編輯后的編輯層w′edit與固定層wfix結(jié)合,得到編輯后的圖像編碼w′,將其輸入預(yù)訓(xùn)練的StyleGAN 生成器模型,得到合成的正面圖像。
w = w′edit +wfix (5)
1.4 損失函數(shù)
在確定網(wǎng)絡(luò)結(jié)構(gòu)后,還需要確定合適的損失函數(shù)來訓(xùn)練網(wǎng)絡(luò)模型,本文選擇多個損失函數(shù)的加權(quán)組合來監(jiān)督網(wǎng)絡(luò)的訓(xùn)練。
(1)身份損失:對于人臉正面化來說,更重要的是保持人臉被翻轉(zhuǎn)前后的身份信息一致。為此,使用Arcface 計算輸入人臉圖像x與合成的正面人臉圖像^x的余弦相似度。
Lid = 1-?R(x) ,R( ?x? (6)
式中, R 是預(yù)訓(xùn)練 Arcface 網(wǎng)絡(luò), ?·,·? 代表計算余弦相似度的算子。
(2)CLIP 損失:為確保最終獲得正面人臉,利用CLIP 強大的文本與圖像對應(yīng)功能來監(jiān)督最終合成的正面人臉圖像。
Lclip = 1-? ?x,Ct (text)? (7)
(3)余弦損失:為了編輯潛編碼,使用CLIP 模塊結(jié)合AEM 來獲取與人臉正面化文本編碼et相似的圖像編碼e+i。為了確保在訓(xùn)練過程中獲得的e+i與et盡可能相似,還計算了e+i與et之間的余弦相似度。
Lcosin = 1-?e+i, et?(8)
(4)潛空間損失:在編輯潛空間編碼時,為了盡量減少人臉圖像細節(jié)的變化,還必須控制編輯前后潛空間編碼的變化不能太大。因此,潛空間損失的計算方法是輸入圖像的潛空間編碼w與編輯后的潛空間編碼w′之間的均方誤差。
Llatent = MSE(w,w′) (9)
式中, MSE 代表均方誤差。
最后,對4 個損失函數(shù)進行加權(quán)求和,得出總損失函數(shù)。如式(10) 所示,其中λi表示著每項損失的權(quán)重參數(shù)。
L = λ1Lid +λ2Lclip +λ3Lcosin +λ4Llatent (10)
2 實驗結(jié)果及分析
為了驗證提出方法的有效性和可靠性,本文在不同的數(shù)據(jù)集上進行了定量和定性實驗。
2.1 實驗設(shè)置
2.1.1 人臉數(shù)據(jù)集
在訓(xùn)練數(shù)據(jù)集方面,本文使用了Celeba-HQ 數(shù)據(jù)集[26]。Celeba-HQ 數(shù)據(jù)集是一個人臉數(shù)據(jù)集,是Celeba 數(shù)據(jù)集的高質(zhì)量版本。它包含30 000 張分辨率為1 024×1 024 的人臉圖像。這些圖像涵蓋了不同性別、年齡和種族的名人和非名人。每張圖像都有40 個屬性標簽,用于表示臉部的不同特征,如性別、面部表情等。
除此之外, 本文還測試了FFHQ 數(shù)據(jù)集[21]、Multi-PIE 數(shù)據(jù)集[27] 和FEI 數(shù)據(jù)集[28]。FFHQ 數(shù)據(jù)集是一個高質(zhì)量的人臉圖像數(shù)據(jù)集,包含70 000 張人臉照片,分辨率尺寸為1 024×1 024。FFHQ 數(shù)據(jù)集是通過從Flickr 網(wǎng)站搜索包含人臉的圖像,并使用自動化流程過濾和處理這些圖像,然后使用面部關(guān)鍵點檢測技術(shù)進行對齊和裁剪,以確保面部位置和姿勢的一致性。最終數(shù)據(jù)集經(jīng)過人工篩選和質(zhì)量控制,以確保數(shù)據(jù)集中包含高質(zhì)量的人臉圖像。
FEI 數(shù)據(jù)集包含來自不同性別、年齡和種族的200 名受試者的面部圖像,每個受試者包含7 種不同的面部表情,即中性、快樂、害怕、憤怒、厭惡、悲傷和驚訝。在相同的照明條件和背景下拍攝,以減少環(huán)境變化造成的不一致性。
Multi-PIE 數(shù)據(jù)集是人臉識別和人臉分析研究領(lǐng)域廣泛使用的高質(zhì)量數(shù)據(jù)集。它由卡內(nèi)基梅隆大學(xué)的多個研究團隊聯(lián)合創(chuàng)建。Multi-PIE 數(shù)據(jù)集具有多視角、多光照和多表情的特點,提供了豐富的應(yīng)用場景。該數(shù)據(jù)集包含750 000 多張圖片,涉及750 多人,每張圖片都有15 種不同的照明條件、9 種不同的相機視角和6 種不同的表情狀態(tài)。這些圖像涵蓋了現(xiàn)實世界中各種復(fù)雜的情況,如不同的光照強度、方向、顏色變化和姿勢變化。
2.1.2 實驗細節(jié)
在實驗中使用Adam 優(yōu)化器訓(xùn)練網(wǎng)絡(luò),初始學(xué)習(xí)率為 0.000 1。此外,通過多次實驗對比,將每個損失函數(shù)的權(quán)重分別設(shè)置為λ1=0.2、λ2=0.8、λ3=0.2 和λ4=2.0。所有實驗均使用 Pytorch 框架在單個英偉達RTX 2080Ti GPU 上進行訓(xùn)練。
2.2 結(jié)果及分析
2.2.1 定性比較
圖5 示出了在Celeba-HQ 數(shù)據(jù)集上測試的正面人臉可視化效果,并與其他不需要成對人臉數(shù)據(jù)集訓(xùn)練的自監(jiān)督方法進行了比較。其中,由于pix2pixHD[29] 在沒有配對人臉數(shù)據(jù)集訓(xùn)練的情況下,并不能實現(xiàn)人臉正面化功能,生成的人臉圖像不是正面的。pixel2style2pixel(psp)[20] 的方法完成了人臉正面化,但合成的正面人臉圖像與真實效果不太接近,圖像的風(fēng)格也發(fā)生了變化。Roate-and-Render(RaR)[30] 合成的正面人臉圖像效果較好,但由于RaR 是通過三維模型實現(xiàn)的,整體模型較為復(fù)雜。此外,圖像的背景也發(fā)生了很大變化。相比之下,本文方法合成的結(jié)果保持了較高的質(zhì)量和保真度,圖像背景變化不大,人臉正面化效果較好。
為了驗證本文提出的方法的泛化能力, 還在FFHQ 數(shù)據(jù)集上進行了測試。除了與已有的自監(jiān)督方法(psp)進行比較外,還與使用配對人臉數(shù)據(jù)集訓(xùn)練的其他方法進行了比較。如圖6 所示,在訓(xùn)練次數(shù)相同的情況下, psp 的效果明顯不如本文的方法。psp 得到的人臉并不是很相似,并且圖像背景也發(fā)生了變化。人臉歸一化模型( Face Normalization Model,F(xiàn)NM)[31] 的人臉正面化效果不錯,得到正面人臉與源人臉比較相似。但受到訓(xùn)練的成對人臉數(shù)據(jù)集的限制,F(xiàn)NM 合成的正面人臉圖像的背景都大致相似,與相應(yīng)測試圖像的背景變化很大。而完整人臉恢復(fù)GAN(Complete Face Recovery GAN,CFR-GAN)[32] 的合成效果也很差,合成的正面人臉圖像質(zhì)量不高,并且與源人臉不太相似。相比之下,本文提出的方法在FFHQ 數(shù)據(jù)集上也取得了很好的結(jié)果,具有良好的泛化能力。
2.2.2 消融實驗
本文提出的SFM 中,人臉正面化主要由正面化反演模塊完成,因此對其不同的模塊組合進行了比較,以驗證該方法的有效性。實驗過程中設(shè)置了4 種不同的實驗進行比較:(1)不含身份特征編碼器模塊和AEM 模塊的SFM; ( 2) 不含AEM 模塊的SFM;(3)不含身份特征編碼器模塊的SFM;(4)完整的SFM。本文在Multi-PIE Setting 2 數(shù)據(jù)集上測試了 30° 、 45° 、 60° 臉部圖像。通過測試不同實驗設(shè)置下的結(jié)構(gòu)相似性指數(shù)( StructuralSimilarity Index Metrics,SSIM)指標來評估圖像生成的質(zhì)量,以驗證添加不同模塊的效果。SSIM 的數(shù)值越大, 結(jié)構(gòu)相似度越高。表2 示出了在Multi-PIESetting 2 數(shù)據(jù)集上對不同實驗設(shè)置的比較。如表2所示,當(dāng)使用完整SFM 時,獲得的SSIM值最高,生成的圖像效果最好。兩個模塊都未使用時,結(jié)果最差。添加兩個模塊中的一個模塊后,SSIM 值都有不同程度的增加。這表明身份特征編碼器和AEM 在提升合成正面人臉圖像的相似度上都有貢獻。這是因為在獲取人臉正面化編碼的時候,添加了身份特征編碼模塊來對人臉特征信息進行加強,這樣在根據(jù)人臉正面化編碼對輸入人臉圖像潛編碼進行編輯時就會減少對人臉身份特征信息的影響。同時,通過AEM 模塊對人臉正面化進行自適應(yīng)增強,保證得到的人臉都是正面人臉。因為正面人臉的身份特征信息要多于側(cè)面人臉的身份特征信息,所以添加該模塊也會提高相應(yīng)的人臉相似性。由于本身對于傾斜角度不大的側(cè)面人臉來說,減少的身份特征信息也比較少,所以相應(yīng)的AEM 模塊的增益在SSIM 指標的體現(xiàn)上就會小于身份特征編碼器帶來的增益。但也可以看到,只有在兩個模塊都添加的情況下才能取得最高的SSIM 指標,證明了添加這兩個模塊的必要性。
2.2.3 定量比較
為了將本文的方法與現(xiàn)有方法進行比較,在FFHQ 數(shù)據(jù)集和FEI 數(shù)據(jù)集上進行了測試,并計算了相應(yīng)的指標進行比較。
首先在FFHQ 數(shù)據(jù)集進行了測試,并將其與模型FNM、psp 和CFR-GAN 進行了比較,結(jié)果如表3所示。本文計算了峰值信噪比(Peak Signal-to-NoiseRatio,PSNR)、SSIM 和學(xué)習(xí)感知圖像相似性(LearnedPerceptual Image Patch Similarity, LPIPS) [33] 指標, 其中PSNR 指峰值信噪比,其值越大,合成圖像的效果越好;LPIPS 指感知損失,其值越小,兩幅圖像的感知相似性越高。從表3 可以看出,本文SFM 方法的PSNR 指數(shù)最高,而PSNR 主要體現(xiàn)了生成圖像的質(zhì)量,這一部分的優(yōu)異表現(xiàn)主要取決于StyleGAN 生成器的高質(zhì)量圖像生成能力。除此之外, SSIM 和LPIPS 的指標也是SFM 最優(yōu),這兩個指標分別從圖像方面和人類感知方面計算圖像相似度,而SFM 在這兩方面的效果都最佳,可見本文的方法得到的正面人臉圖像要更接近于真實的正面人臉圖像。據(jù)此可以看出,本文提出的SFM 要優(yōu)于其他方法。
此外,為了驗證在不同旋轉(zhuǎn)角度下輸入人臉后是否具有良好的人臉正面化效果,本文在FEI 數(shù)據(jù)集的 30° 、 45° 、 75° 和 90° 這 4 個旋轉(zhuǎn)角度下測試了不同的方法,測試結(jié)果如表4 所示??梢钥闯?,在不同旋轉(zhuǎn)角度下,SFM 的指標均優(yōu)于其他方法。隨著旋轉(zhuǎn)角度的增大,SFM 的指標變化不大,這表明在姿態(tài)旋轉(zhuǎn)角度較大的情況下性能不會下降太多。最后通過計算自由切入距離( Frechet Inception Distance,F(xiàn)ID)[34] 來計算人臉的真實度。FID 用于評估生成對抗網(wǎng)絡(luò)生成圖像的質(zhì)量,分數(shù)越低代表著兩組圖像越相似。在FEI 數(shù)據(jù)集上測試的結(jié)果如表5 所示,SFM 的FID 值在人臉姿態(tài)的所有角度都最小,這證明了本文提出方法的優(yōu)越性。通過定量比較,本文提出的方法優(yōu)于psp、FNM 和CFR-GAN 方法,表現(xiàn)出良好的性能。
3 總結(jié)
本文介紹了一種通過文本編輯實現(xiàn)的自監(jiān)督人臉正面化網(wǎng)絡(luò)。整體網(wǎng)絡(luò)架構(gòu)基于預(yù)訓(xùn)練的StyleGAN 生成器,通過編輯潛空間實現(xiàn)人臉正面化,其中使用e4e 編碼器將輸入的人臉圖像映射到潛空間,從而獲得相應(yīng)的潛編碼。為了通過編輯潛編碼實現(xiàn)人臉正面化,采用CLIP 模塊強大的文本圖像轉(zhuǎn)換能力獲取潛編碼來改變?nèi)四樧藨B(tài),并增加了人臉特征提取模塊和AEM 模塊,以保證正面化前后人臉的身份信息保持不變。定性和定量實驗表明,本文的方法可以合成高質(zhì)量、高保真的正面化人臉圖像,效果優(yōu)于其他方法。
參考文獻:
[ 1 ]DORDINEJAD G G, ?EVIKALP H. Face frontalization forimage set based face recognition[C]//2022 30th Signal Processingand Communications Applications Conference(SIU). Safranbolu, Turkey: IEEE, 2022: 1-4.
[ 2 ]LIU Y, CHEN J. Unsupervised face frontalization for poseinvariantface recognition[J]. Image and Vision Computing,2021, 106(12): 104093.
[ 3 ]SHEN Y, GU J, TANG X, et al. Interpreting the latentspace of GANs for semantic face editing[C]//2020IEEE/CVF Conference on Computer Vision and PatternRecognition (CVPR). Seattle, WA, USA: IEEE, 2020:9240-9249.
[ 4 ] YU L, YU J, LI M, et al. Multimodal inputs driven talkingface generation with spatial-temporal dependency[J]. IEEETransactions on Circuits and Systems for Video Technology,2020, 31(1): 203-216.
[ 5 ]PENG C, WANG N, LI J, et al. Face sketch synthesis in thewild via deep patch representation-base"probabilisticgraphical model[J]. IEEE Transactions on InformationForensics and Security, 2019, 15: 172-183.
[ 6 ]ASTHANA A, MARKS T K, JONES M J, et al. Fully automaticpose-invariant face recognition via 3D pose normalization[C]//International Conference on Computer Vision.Barcelona, Spain: IEEE, 2011: 937-944.
[ 7 ]HASSNER T, HAREL S, PAZ E, et al. Effective facefrontalization in unconstrained images[C]//Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition. Boston, MA, USA: IEEE, 2015: 4295-4304.
[ 8 ]ZHU X, LEI Z, YAN J, et al. High-fidelity pose andexpression normalization for face recognition in thewild[C]//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition. Boston, MA, USA: IEEE,2015: 787-796.
[ 9 ]BLANZ V, VETTER T. A Morphable Model for the Synthesisof 3D Faces[M]. Seminal Graphics Papers: Pushingthe Boundaries, 2023.
[10]XU Q, WU Z, YANG Y, et al. The difference learning ofhidden layer between autoencoder and variational autoencoder[C]//2017 29th Chinese Control and Decision Conference(CCDC). Chongqing, China: IEEE, 2017: 4801-4804.
[11]KAN M, SHAN S, CHANG H, et al. Stacked ProgressiveAuto-Encoders (SPAE) for face recognition acrossposes[C]//2014 IEEE Conference on Computer Vision andPattern Recognition. Columbus, OH, USA: IEEE, 2014:1883-1890.
[12]NOURABADI N S, DIZAJI K G, SEYYEDSALEHI S A.Face pose normalization for identity recognition using 3Dinformation by means of neural networks[C]//The 5th Conferenceon Information and Knowledge Technology. Shiraz,Iran: IEEE, 2013: 432-437.
[13]JACKSON A S, BULAT A, ARGGYRIOU V, et al. Largepose 3D face reconstruction from a single image via directvolumetric CNN regression[C]//2017 IEEE InternationalConference on Computer Vision (ICCV). Venice, Italy:IEEE, 2017: 1031-1039.
[14]GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al.Generative adversarial nets[J]. Advances in Neural InformationProcessing Systems, 2014, 27: 2672-2680.
[15]HUANG R, ZHANG S, LI T, et al. Beyond face rotation:Global and local perception GAN for photorealistic andidentity preserving frontal view synthesis[C]//Proceedingsof the IEEE International Conference on Computer Vision.Venice, Italy: IEEE, 2017: 2439-2448.
[16]TRAN L, YIN X, LIU X. Disentangled representationlearning GAN for pose-invariant face recognition[C]//Proceedingsof the IEEE Conference on Computer Vision andPattern Recognition. Hondulu, HI, USA: IEEE, 2017: 1415-1424.
[17]MIRZA M, OSINDERO S. Conditional generative adversarialnets[EB/OL]. (2014-11-6) [2014-12-8]. https://doi.org/10.48550/arXiv.1411.1784.
[18]TU X, ZHAO J, LIU Q, et al. Joint face image restorationand frontalization for recognition[J]. IEEE Transactions onCircuits and Systems for Video Technology, 2021, 32(3):1285-1298.
[19]DUAN Q, ZHANG L, GAO X. Simultaneous face completionand frontalization via mask guided two-stage GAN[J].IEEE Transactions on Circuits and Systems for VideoTechnology, 2022, 32(6): 3761-3773.
[20]RICHARDSON E, ALALUF Y, PATASHNIK O, et al.Encoding in style: A stylegan encoder for image-to-imagetranslation[C]//Proceedings of the IEEE/CVF Conferenceon Computer Vision and Pattern Recognition. Nashville,TN, USA: IEEE, 2021: 2287-2296.
[21]KARRAS T, LAINE S, AILA T. A style-based generatorarchitecture for generative adversarial networks[C]//Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition. Long Beach, CA, USA:IEEE, 2019: 4401-4410.
[22]TOV O, ALALUF Y, NITZAN Y, et al. Designing anencoder for stylegan image manipulation[J]. ACM Transactionson Graphics (TOG), 2021, 40(4): 1-14.
[23]DENG J, GUO J, XUE N, et al. Arcface: Additive angularmargin loss for deep face recognition[C]//Proceedings ofthe IEEE/CVF Conference on Computer Vision and PatternRecognition. Long Beach, CA, USA: IEEE, 2019:4690-4699.
[24]LOU X, LIU Y, LI X. TeCM-CLIP: Text-based controllablemulti-attribute face image manipulation[C]//Proceedingsof the Asian Conference on Computer Vision. Macau,China:ACCV, 2022: 1942-1958.
[25]WEI T, CHEN D, ZHOU W, et al. Hairclip: Design yourhair by text and reference image[C]//Proceedings of theIEEE/CVF Conference on Computer Vision and PatternRecognition. New Orleans, LA, USA: IEEE, 2022: 18072-18081.
[26]KARRAS T, AILA T, LAINE S, et al. Progressive growingof gans for improved quality, stability, andvariation[EB/OL]. (2017-10-27) [2017-11-3]. https://doi.org/10.48550/arXiv.1710.10196.
[27]GROSS R, MATTHEWS I, COHN J, et al. Multi-PIE[C]//2008 8th IEEE International Conference on AutomaticFace amp; Gesture Recognition. Amsterdam, Netherlands:IEEE, 2008: 1-8.
[28]THOMAZ C E, GIRALDI G A. A new ranking method forprincipal components analysis and its application to faceimage analysis[J]. Image and Vision Computing, 2010,28(6): 902-913.
[29]WANG T C, LIU M Y, ZHU J Y, et al. High-resolutionimage synthesis and semantic manipulation with conditionalGANs[C]//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition. Salt Lake City, UT,USA: IEEE, 2018: 8798-8807.
[30]ZHOU H, LIU J, LIU Z, et al. Rotate-and-render: Unsupervisedphotorealistic face rotation from single-viewimages[C]//Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition. Seattle, WA,USA: IEEE, 2020: 5911-5920.
[31]QIAN Y, DENG W, HU J. Unsupervised face normalizationwith extreme pose and expression in the wild[C]//2019IEEE/CVF Conference on Computer Vision and PatternRecognition (CVPR). Long Beach, CA, USA: IEEE, 2019:9843-9850.
[32]JU Y J, LEE G H, HONG J H, et al. Complete facerecovery GAN: Unsupervised joint face rotation andde-occlusion from a single-view image[C]//IEEE/CVFWinter Conference on Applications of Computer Vision(WACV). Waikoloa, HI, USA: IEEE, 2022: 1173-1183.
[33]ZHANG R, ISOLA P, EFROS A, et al. The unreasonableeffectiveness of deep features as a perceptualmetric[C]//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition. Salt Lake City, USA:IEEE, 2018: 586-595.
[34]HEUSEL M, RAMSAUER H, UNTERTHINER T, et al.Gans trained by a two time-scale update rule converge to alocal nash equilibrium[J]. Advances in Neural InformationProcessing Systems, 2017, 30: 6629-6640.
(責(zé)任編輯:李娟)