陳軍波,劉 蓉,劉 明,馮 楊
(華中師范大學(xué) a.物理科學(xué)與技術(shù)學(xué)院; b.計(jì)算機(jī)學(xué)院,武漢 430079)
情感是人類社會(huì)交流中一種復(fù)雜而又穩(wěn)定的態(tài)度體驗(yàn)。其中,面部表情作為最常見的情感行為,是人類交流時(shí)信息傳遞的重要媒介。文獻(xiàn)[1]研究表明,當(dāng)人們?cè)谶M(jìn)行面對(duì)面交流時(shí),面部表情能傳遞多達(dá)55%的信息,使人們面對(duì)面交流更生動(dòng)形象。近年來,隨著智能人機(jī)交互技術(shù)的快速發(fā)展,人們嘗試在藝術(shù)和娛樂等領(lǐng)域進(jìn)行有關(guān)面部表情的研究,試圖重現(xiàn)逼真、自然的面部表情,因此,面部表情遷移成為計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)。
傳統(tǒng)的面部表情遷移方法在構(gòu)建人臉模型的基礎(chǔ)上進(jìn)行插值、圖像變形、模擬、合成等操作生成面部表情。文獻(xiàn)[2]構(gòu)建的肌肉模型模擬面部表情的生成過程,生成逼真的人臉表情,文獻(xiàn)[3]采用有限元方法建立一種結(jié)構(gòu)復(fù)雜的表情生成模型來生成面部表情,文獻(xiàn)[4]則提出靜態(tài)峰值表情合成方法。近年來,國內(nèi)的很多研究人員也都著眼于面部表情遷移的研究,且取得了一定成果。文獻(xiàn)[5]提出STNB變形和單視角圖片的人臉表情合成技術(shù),文獻(xiàn)[6]提出一種針對(duì)人臉表情生成的網(wǎng)格劃分技術(shù)用于劃分人臉主要器官,生成各種特定的表情,文獻(xiàn)[7]則建立了基于AAM-Candide結(jié)合的快速表情動(dòng)畫合成模型。
隨著深度學(xué)習(xí)概念的提出和發(fā)展,人們嘗試設(shè)計(jì)條件對(duì)抗網(wǎng)絡(luò)進(jìn)行面部表情遷移研究。文獻(xiàn)[8]提出圖像到圖像轉(zhuǎn)換的有條件對(duì)抗網(wǎng)絡(luò),在成對(duì)表情示例的條件下,輸入指定表情類別以生成帶表情樣本。文獻(xiàn)[9]提出用于圖像編輯的可逆條件對(duì)抗網(wǎng)絡(luò)IcGAN,對(duì)任意屬性上的面部條件映射的真實(shí)圖像進(jìn)行重構(gòu)和修改,實(shí)現(xiàn)表情風(fēng)格遷移,但不能保持圖像身份特征。為解決成對(duì)數(shù)據(jù)集難以獲取、圖像身份特征難以保持等問題,文獻(xiàn)[10]提出循環(huán)連續(xù)對(duì)抗網(wǎng)絡(luò)CycleGAN,文獻(xiàn)[11]提出跨域生成式對(duì)抗網(wǎng)絡(luò)DiscoGAN,在沒有配對(duì)示例的情況下,利用循環(huán)損失、保持輸入、輸出圖像的身份特征,實(shí)現(xiàn)面部表情遷移。對(duì)比傳統(tǒng)方法,循環(huán)連續(xù)對(duì)抗網(wǎng)絡(luò)和跨域生成對(duì)抗網(wǎng)絡(luò)具有循環(huán)學(xué)習(xí)、輸入可為任意圖例等優(yōu)點(diǎn),但要實(shí)現(xiàn)多表情的遷移需要訓(xùn)練多個(gè)生成網(wǎng)絡(luò),由此導(dǎo)致模型復(fù)雜和訓(xùn)練時(shí)間長的問題。
針對(duì)現(xiàn)有生成式模型配對(duì)面部表情示例不易獲取、難以保持身份特征以及需要訓(xùn)練多個(gè)生成網(wǎng)絡(luò)等問題,本文提出基于條件生成式對(duì)抗網(wǎng)絡(luò)的面部表情遷移模型。通過為生成模型指定表情域,使單個(gè)生成器學(xué)習(xí)多個(gè)表情域之間的映射,同時(shí)引入域分類損失函數(shù)確保生成表情的真實(shí)性。
在日常生活中,情緒扮演著極其重要的角色,情緒的表現(xiàn)和傳遞可通過多種行為方式實(shí)現(xiàn),如語言內(nèi)容、肢體手勢、面部表情等。其中,面部表情被認(rèn)為是最常見的情感行為信號(hào)。最初人類對(duì)面部表情的研究主要集中在社會(huì)學(xué)和心理學(xué)領(lǐng)域[1,12],社會(huì)學(xué)家和心理學(xué)家主要關(guān)注面部表情在情緒中的表現(xiàn)形式、面部表情的統(tǒng)一性以及面部表情在日常交流中的作用等問題。
達(dá)爾文對(duì)面部表情進(jìn)行了研究,指出人類天生就可以表現(xiàn)出一些基本的表情,隨后掀起了人們對(duì)面部表情研究的浪潮。文獻(xiàn)[12]研究表明,表情在不同種族和文化背景之間具有普遍的一致性。20世紀(jì)70年代,美國心理學(xué)家EKMAN和FRIESEN通過大量實(shí)驗(yàn),定義了人類6種基本表情[13]:憤怒,厭惡,恐懼,悲傷,高興和驚奇,并系統(tǒng)地建立了包含上千幅不同人臉表情的圖像庫。此后,研究者在此基礎(chǔ)上構(gòu)建了不同分類的表情庫:文獻(xiàn)[14]公開JAFFE庫,在6類表情的基礎(chǔ)上增加了第7類表情——中性表情,并將其廣泛應(yīng)用于表情分類、表情識(shí)別等領(lǐng)域;文獻(xiàn)[15]發(fā)布了擴(kuò)展Cohn-Kanade數(shù)據(jù)庫(CK+),該庫中的表情除了6種基本表情外又增加了蔑視和中性2種表情。上述研究者認(rèn)為表情是和種族文化相獨(dú)立的,是具有全人類性的。隨著表情分類研究的深入,人臉表情被分為7類[14],即憤怒(anger)、厭惡(disgust)、恐懼(fear)、微笑(happy)、中性(neutral)、悲傷(sad)和驚訝(surprise),為面部表情應(yīng)用到表情識(shí)別、分類和遷移等領(lǐng)域提供了重要的依據(jù)。
面部表情遷移是指將一個(gè)攜帶表情的人臉圖像,經(jīng)過遷移變換等操作,遷移到另一個(gè)中性表情的人臉中。面部表情遷移被應(yīng)用于人機(jī)交互、數(shù)字娛樂、虛擬現(xiàn)實(shí)等領(lǐng)域。在人機(jī)交互中,通過機(jī)器實(shí)時(shí)生成豐富多樣的表情,使機(jī)器與人交流溝通過程中更加真實(shí)和自然,智能機(jī)器更擬人化;在虛擬現(xiàn)實(shí)中,在歐洲誕生的首個(gè)虛擬播音員安娜、虛擬導(dǎo)購等虛擬人物,也都使用了面部表情遷移技術(shù)。在數(shù)字娛樂領(lǐng)域,利用面部表情遷移技術(shù)可為游戲和動(dòng)漫角色生成各式各樣的表情,讓電腦游戲、動(dòng)漫視頻的場景以及人物變得越來越真實(shí),給用戶一種身臨其境的感覺。面部表情遷移作為一個(gè)跨學(xué)科的研究方向[16],涉及計(jì)算機(jī)視覺、模式識(shí)別、圖像處理、人機(jī)交互和計(jì)算機(jī)圖形學(xué)等多個(gè)領(lǐng)域可促進(jìn)和推動(dòng)其她領(lǐng)域和學(xué)科的發(fā)展。
近年來,研究者針對(duì)面部表情遷移提出多種有效的方法與模型。傳統(tǒng)面部表情遷移方法通過模擬面部表情、提取靜態(tài)峰值、表情合成等方法生成面部表情。文獻(xiàn)[17]提出一種基于三方博弈和信息對(duì)稱的可控人臉生成算法FaceID-GAN。文獻(xiàn)[18]提出基于解剖結(jié)構(gòu)的面部表情生成算法GANimation,在解決無配對(duì)表情數(shù)據(jù)集、無監(jiān)督面部表情遷移、面部身份特征一致等問題的基礎(chǔ)上進(jìn)行面部表情遷移。然而,現(xiàn)有模型和方法普遍存在難以同時(shí)生成多表情、模型復(fù)雜、訓(xùn)練時(shí)間長等問題。因此,本文建立基于條件對(duì)抗網(wǎng)絡(luò)的面部表情遷移模型,開展針對(duì)7種面部表情遷移的研究。
生成式對(duì)抗網(wǎng)絡(luò)[19]包含2個(gè)模型:捕獲數(shù)據(jù)分布的生成模型G和判別模型D。基于先驗(yàn)隨機(jī)噪聲向量z,通過2個(gè)模型相互對(duì)抗學(xué)習(xí),可生成近似服從真實(shí)數(shù)據(jù)分布的圖像。在對(duì)抗訓(xùn)練中,判別模型作為一個(gè)二分類器,用于區(qū)分真實(shí)圖像和生成圖像,而生成模型通過隨機(jī)噪聲z學(xué)習(xí)數(shù)據(jù)分布,生成逼真的圖像,試圖“欺騙”判別器,在整個(gè)過程中尋求全局最優(yōu)解。但為了更好地控制生成結(jié)果類別,在生成模型和判別模型中輸入某些額外條件信息例如類別標(biāo)簽,可擴(kuò)展到條件生成對(duì)抗網(wǎng)絡(luò)[20],通過指定類別標(biāo)簽信息,實(shí)現(xiàn)控制網(wǎng)絡(luò)輸出的目的。條件生成式對(duì)抗網(wǎng)絡(luò)的結(jié)構(gòu)如圖1所示。
圖1 條件生成式對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)
在條件生成器中,先驗(yàn)隨機(jī)噪聲z和額外條件信息y以聯(lián)合隱藏表示的形式組合作為生成器的輸入,而將真實(shí)樣本和條件信息y作為判別器的輸入。在訓(xùn)練中對(duì)兩者進(jìn)行極大極小博弈,可表示為如下目標(biāo)函數(shù):
Ez~pz(z)[loga(1-D(G(z|y)))]
(1)
其中,pdata(x)表示真實(shí)數(shù)據(jù)分布,pz(z)表示先驗(yàn)隨機(jī)噪聲分布,x表示真實(shí)樣本數(shù)據(jù),y表示額外條件信息,Ex~pdata(x)[D(x|y)]表示將真實(shí)樣本x判別為條件信息y的概率,Ez~pz(z)[ (1-D(G(x|y)))]表示生成樣成樣本G(x|y)為真實(shí)樣本的概率。
2.2.1 網(wǎng)絡(luò)模型結(jié)構(gòu)
本文構(gòu)建基于條件生成式對(duì)抗網(wǎng)絡(luò)的面部表情遷移模型,主要用于解決以下問題:
1)在給定目標(biāo)表情域標(biāo)簽下,使生成器學(xué)習(xí)一個(gè)映射G,該映射將輸入圖像x和表情域標(biāo)簽y映射為相應(yīng)表情域的圖像G(x,y)。
2)采用重構(gòu)損失函數(shù),通過計(jì)算生成網(wǎng)絡(luò)的重構(gòu)圖像與真實(shí)原始圖像之間的距離,優(yōu)化生成網(wǎng)絡(luò)參數(shù),確保生成網(wǎng)絡(luò)在面部表情遷移中能保持面部身份特征的一致性。
3)在判別器D和生成器G上分別引入域分類損失,即真實(shí)圖像的域分類損失函數(shù)和判別器D,通過最小化該損失,正確地將真實(shí)圖像分類到相應(yīng)原始表情域。
對(duì)于偽圖像的域分類損失函數(shù),生成器G試圖最小化此損失以生成可被正確分類為目標(biāo)表情域的圖像,并且同時(shí)實(shí)現(xiàn)7種面部表情遷移。
為實(shí)現(xiàn)此目標(biāo),本文設(shè)計(jì)了使用圖2所示結(jié)構(gòu)的面部表情遷移模型。
圖2 基于條件生成式對(duì)抗網(wǎng)絡(luò)的面部表情遷移模型結(jié)構(gòu)
圖2中左邊為生成模型,參考了文獻(xiàn)[21]提出的多域圖像到圖像轉(zhuǎn)換的統(tǒng)一生成對(duì)抗網(wǎng)絡(luò)StarGAN,由輸入層、下采樣層、殘差塊、上采樣層以及輸出層組成,其中輸入層和輸出層僅包含一個(gè)卷積層,下采樣層和上采樣層均有2個(gè)卷積層,殘差塊包含6個(gè)深度、大小都相同的卷積層。右邊為判別模型,分為3個(gè)部分,即輸入層、隱藏層和輸出層,除輸出層外,其余層卷積深度均為前一層的2倍,最后輸出層包含2個(gè)卷積輸出,分別用于判別輸入圖像真假和表情域。
參考條件生成式對(duì)抗網(wǎng)絡(luò)的網(wǎng)絡(luò)模型,根據(jù)面部表情遷移的特點(diǎn),本文構(gòu)建的網(wǎng)絡(luò)模型具有如下特點(diǎn):
1)在生成模型中使用步長為2的微步幅卷積或反卷積代替池化層,在判別器中除輸出層使用步長為1的微步幅卷積外,其余層均使用步長為2的微步幅卷積。
2)生成模型每個(gè)卷積層后都添加InstanceNorm層,除輸出層使用Tanh激活函數(shù)外,其余層均使用Relu激活函數(shù)。
3)判別模型除輸出層外,其余層均使用LeakyRelu激活函數(shù)。
2.2.2 生成模型
生成模型用于學(xué)習(xí)多表情域映射,其將輸入圖像和目標(biāo)表情域標(biāo)簽映射為相應(yīng)表情域的圖像,包含輸入層、下采樣層、殘差塊、上采樣層以及輸出層。為在輸入圖片上提取面部表情特征,輸入層中輸入大小為128像素×128像素的彩色圖像和目標(biāo)表情域標(biāo)簽,采用步幅為1的微步幅卷積,輸出128像素×128像素大小的特征圖。下采樣層利用步幅為2的微步幅卷積,將輸入特征圖壓縮一半,輸出特征圖大小為32像素×32像素,確保生成網(wǎng)絡(luò)在遷移學(xué)習(xí)中能獲得提取面部表情特征的能力。同時(shí),為解決傳統(tǒng)卷積層在信息傳遞時(shí)存在的信息丟失和損耗等問題,模型中引入殘差塊,保持輸出特征圖不變,即32像素×32像素。而為了讓生成圖像具有和輸入圖像相同的尺寸,上采樣層使用步幅為2的反卷積,每個(gè)反卷積層輸出圖像為輸入圖像的2倍,輸出128像素×128像素大小的特征圖。最后,輸出層通過步幅為1的反卷積重構(gòu)逼真、自然的面部表情圖像,生成圖像與原始圖像大小保持不變。為加速生成模型的收斂,保持每個(gè)圖像樣本之間的獨(dú)立,在生成器的輸出層之前均添加實(shí)例規(guī)范化處理層[22]。生成模型結(jié)構(gòu)參數(shù)如表1所示。
表1 生成模型參數(shù)
2.2.3 判別模型
本文設(shè)計(jì)的判別模型作為一個(gè)二分類器,有2個(gè)作用:1)判別輸入圖像為真實(shí)圖像的概率;2)判定輸入圖像所屬表情域。判別模型由輸入層、隱藏層和輸出層構(gòu)成。其中,輸入層輸入為128像素×128像素的彩色圖像,先采用64個(gè)步幅為2的卷積核,提取輸入圖像表情特征,輸出64像素×64像素的特征圖。為提取穩(wěn)定可靠的表情特征,設(shè)計(jì)包含5個(gè)卷積的隱藏層,其卷積核的個(gè)數(shù)分別為128、256、512、1 024、2 048。輸出層對(duì)應(yīng)2個(gè)輸出:Dimg和Dclas。Dimg輸入為隱藏層第4層的輸出,利用深度為1步幅也為1的卷積核做卷積運(yùn)算,輸出2×2×1的張量數(shù)據(jù),表示輸入為真實(shí)圖像的概率;Dclas將隱藏層最后一層輸出作為輸入,采用ny(ny為遷移表情的個(gè)數(shù))個(gè)步幅為1的卷積核,輸出一個(gè)1×1×ny的張量數(shù)據(jù),表示輸入圖像所屬表情域的概率。判別模型結(jié)構(gòu)參數(shù)如表2所示。
表2 判別模型參數(shù)
本文模型訓(xùn)練針對(duì)3個(gè)目標(biāo):1)使判別器無法區(qū)分生成圖像與真實(shí)圖像;2)判別輸入圖像所在表情域;3)重構(gòu)原始圖像。因此,采用3種不同損失函數(shù):計(jì)算輸入圖像與輸出圖像之間差距的對(duì)抗損失函數(shù),用于優(yōu)化生成模型G或判別模型D的域分類損失函數(shù),以及為保留身份特征引入的重構(gòu)損失函數(shù)。損失函數(shù)用于估計(jì)模型中的預(yù)測值與真實(shí)值的不一致程度,其為非負(fù)實(shí)值函數(shù),損失函數(shù)越小,模型的魯棒性就越好。
2.3.1 對(duì)抗損失函數(shù)
本文網(wǎng)絡(luò)模型的目標(biāo)是利用單個(gè)生成器G學(xué)習(xí)多個(gè)表情域之間的映射,將標(biāo)準(zhǔn)圖像x和表情域標(biāo)簽y映射為樣本分布G(x,y),并在判別器中引入輔助分類器[23],允許單個(gè)判別器在原始表情域與目標(biāo)表情域標(biāo)簽上產(chǎn)生概率分布:D:x→{Dimg(x),Dclas(x)}(Dimg(x)為輸入圖像x為真的概率,Dclas(x)為輸入圖像x被正確分類為表情域的概率)。為使判別器無法區(qū)分生成圖像與真實(shí)圖像,采用如下對(duì)抗性損失函數(shù):
Ladv(G,D)=Ex[logaDimg(x)]+
Ex,y[loga(1-Dimg(G(x,y)))]
(2)
其中,G(x,y)表示輸入圖像x和表情域標(biāo)簽y的映射,Dimg(x)表示x為真實(shí)圖像的概率,Dimg(G(x,y))表示生成器生成圖像為假的概率。生成器G試圖使該損失最小化,而鑒別器D試圖使其最大化。
2.3.2 域分類損失函數(shù)
(3)
其中,Dclas(y′|x)表示圖像x被分類為表情域y′的概率。判別器D通過最小化此損失,可正確地將真實(shí)圖像分類到原始表情域y′。
(4)
其中,Dclas(y|G(x,y))表示生成器生成的偽造圖像被分類為表情域y的概率。生成器G試圖最小化該損失以生成可被正確分類為表情域y的圖像。
2.3.3 重構(gòu)損失函數(shù)
通過最小化對(duì)抗損失和域分類損失,生成器G具有生成逼真圖像且將其分類到正確表情域的能力。然而,最小化對(duì)抗損失和偽圖像的域分類損失并不能保證輸入圖像的身份特征,而僅能改變輸入中與表情相關(guān)的部分。為在面部表情遷移過程中保留面部圖像的身份特征,將循環(huán)一致性損失[10]應(yīng)用于生成器,定義為:
Lcyc(G)=Ex,y,y′[‖x-G(G(x,y),y′)‖1]
(5)
其中,生成器G采用L1規(guī)范作為重建損失,將映射得到的圖像G(x,y)和原始域標(biāo)簽y′作為輸入,嘗試重建原始圖像x。
2.3.4 總損失函數(shù)
在本文網(wǎng)絡(luò)模型中,生成器G和判別器D分別具有不同的損失函數(shù)。生成器G的損失函數(shù)主要包括對(duì)抗損失、偽圖像域分類損失和重構(gòu)損失。對(duì)抗損失計(jì)算生成圖像與真實(shí)圖像之間的距離,確保生成器G在學(xué)習(xí)樣本分布中獲得欺騙判別器的能力。偽圖像域分類損失計(jì)算生成的偽圖像域與真實(shí)域的誤差,確保生成器G生成逼真、自然、符合真實(shí)表情域的面部表情圖像。對(duì)抗損失和域分類損失不能保證輸入圖像的身份特征。為解決身份特征不能保持的問題,在模型中引入重構(gòu)損失,通過計(jì)算重構(gòu)圖像與真實(shí)圖像之間的誤差,確保生成器G保留面部圖像的身份特征。生成器G的總損失定義為:
(6)
判別器D作為一個(gè)二分類器,達(dá)到以下2個(gè)目的:1)學(xué)習(xí)正確區(qū)分偽造圖與真實(shí)圖;2)確保將偽造圖與真實(shí)圖正確分類到對(duì)應(yīng)表情域。判別器總損失函數(shù)由對(duì)抗損失和真實(shí)圖像的域分類損失兩部分組成。對(duì)抗損失計(jì)算真實(shí)圖像與偽造圖像之間的距離,提高判別器辨別真假的能力。通過利用真實(shí)圖像的域分類損失增強(qiáng)判別器區(qū)分表情域的能力。判別器D的總損失定義為:
(7)
在式(6)、式(7)中,λclas和λcyc分別是控制域分類損失和重建損失相對(duì)重要性的超參數(shù)。在本文實(shí)驗(yàn)中都使用λclas=1和λcyc=10。
本文實(shí)驗(yàn)在Ubuntu 16.04.2操作系統(tǒng)、雙核Intel 2.2 GHz CPU、Tesla K80 GPU、11 GB內(nèi)存、1 TB硬盤平臺(tái)下進(jìn)行,并使用基于GPU版本的Tensorflow1.2 深度學(xué)習(xí)框架。在模型對(duì)抗訓(xùn)練期間,采用參數(shù)β1=0.5,β2=0.999的Adam優(yōu)化器[24]優(yōu)化更新網(wǎng)絡(luò)模型參數(shù)。在鑒別器參數(shù)更新5次之后更新1次生成器參數(shù)。對(duì)于所有實(shí)驗(yàn),批量大小設(shè)置為16。
實(shí)驗(yàn)采用2種不同類型的數(shù)據(jù)集:CelebA[25]和FERG-DB[26]。CelebA是香港中文大學(xué)開放數(shù)據(jù)集,包含10 177個(gè)名人的202 599張圖像,并都做了特征標(biāo)記,每張圖像均包含40個(gè)屬性特征,其中僅有一種表情特征:微笑,本文實(shí)驗(yàn)選用此特征進(jìn)行微笑表情遷移。隨機(jī)選取4張帶微笑表情的示例圖像,如圖3所示,其中圖像具有不同微笑尺度、膚色、發(fā)色、性別、背景顏色以及人臉角度等特點(diǎn)。
圖3 CelebA數(shù)據(jù)庫帶微笑表情示例圖像
FERG-DB數(shù)據(jù)集是面部表情研究組數(shù)據(jù)庫,是具有帶注釋的面部表情程式化角色的數(shù)據(jù)庫。該數(shù)據(jù)庫包含6個(gè)風(fēng)格化人物的面部圖像,分為7種類型表情:憤怒,厭惡,恐懼,微笑,中立,悲傷,驚訝,共55 767張圖像。風(fēng)格化人物7種表情示例圖像如圖4所示,其中卡通圖像具有高質(zhì)量的7種表情,且每種表情具有逼真、自然、容易區(qū)分等特點(diǎn),適用于面部表情遷移研究。
圖4 FERG_DB數(shù)據(jù)庫7種表情示例圖像
在CelebA數(shù)據(jù)集實(shí)驗(yàn)中,將CelebA數(shù)據(jù)集按9∶1的比例分為訓(xùn)練集和測試集,得到182 339張訓(xùn)練圖像和20 260張測試圖像。將所有圖像裁剪、壓縮變換得到大小為128像素×128像素樣本圖像,作為模型在訓(xùn)練時(shí)的標(biāo)準(zhǔn)輸入。同時(shí),本文構(gòu)建了包含100張128像素×128像素圖片的驗(yàn)證集,驗(yàn)證集的圖像來自于實(shí)驗(yàn)室的碩士研究生圖像和網(wǎng)絡(luò)中下載的明星人臉圖像,其中男性圖像50張、女性圖像50張,且每張圖像背景、清晰度等都不同。隨機(jī)選取驗(yàn)證集中4張中性表情的示例圖像,如圖5所示。
圖5 中性表情人臉圖像
為評(píng)估本文模型在微笑表情數(shù)據(jù)集遷移中的性能,首先采用訓(xùn)練集圖像訓(xùn)練模型,在對(duì)抗訓(xùn)練中需執(zhí)行30次迭代,每次迭代訓(xùn)練10 000步,前15次迭代的學(xué)習(xí)率設(shè)置為0.000 1,后15次迭代將學(xué)習(xí)率線性衰減為0。然后利用測試集圖像測試模型面部表情遷移效果,優(yōu)化確定模型參數(shù)。最后用驗(yàn)證集圖像驗(yàn)證模型,以圖5中4張中性表情圖像為例,采用本文網(wǎng)絡(luò)模型和StarGAN網(wǎng)絡(luò)模型[21]進(jìn)行面部表情遷移,生成帶微笑表情圖像結(jié)果如圖6所示。對(duì)比2種模型微笑表情遷移圖像結(jié)果可知,本文模型通過引入重構(gòu)損失,生成帶微笑表情圖像,具有質(zhì)量高、自然、逼真的特點(diǎn),在面部表情遷移過程中能更好地保持面部身份信息和背景信息的一致性,證明了本文模型在微笑表情遷移中的有效性。
圖6 微笑表情遷移圖像
對(duì)于FERG-DB數(shù)據(jù)集,隨機(jī)選取其中5個(gè)風(fēng)格化人物圖像作為訓(xùn)練集和測試集,用同樣的預(yù)處理方法,獲得大小為128像素×128像素的標(biāo)準(zhǔn)輸入,按相同比例劃分后,訓(xùn)練集有40 046張圖像,測試集有4 450張圖像。最后,采用另外一個(gè)風(fēng)格化人物的200張中性圖像作為驗(yàn)證集。
為證明本文模型可同時(shí)遷移7種表情,使用FERG-DB數(shù)據(jù)集,模型輸入為訓(xùn)練圖像和表情域條件組合而成的128×128×10數(shù)據(jù),訓(xùn)練迭代20次,一次迭代訓(xùn)練10 000步,前10次迭代學(xué)習(xí)率設(shè)置為0.000 1,后10次迭代中線性衰減為0,每訓(xùn)練1 000步,測試輸出生成的表情圖像,以確定最好的模型參數(shù)。最后,在FERG-DB驗(yàn)證集中,通過本文設(shè)計(jì)網(wǎng)絡(luò)模型與StarGAN網(wǎng)絡(luò)模型進(jìn)行7種面部表情遷移,實(shí)驗(yàn)結(jié)果如圖7所示??梢钥闯?2個(gè)模型都能同時(shí)進(jìn)行7種面部表情遷移,但本文模型通過設(shè)計(jì)判別網(wǎng)絡(luò)的2個(gè)輸出和增加域分類損失,生成面部表情比StarGAN網(wǎng)絡(luò)更自然、逼真,具備較好的擬合真實(shí)面部表情的能力。實(shí)驗(yàn)結(jié)果表明,本文模型可同時(shí)生成7種表情圖像,每種表情圖像很好地保持了面部身份特征,且生成表情圖像與真實(shí)表情圖像有較高相適性,顯示本文方法在7種面部表情遷移中具有良好的魯棒性。
圖7 FERG-DB驗(yàn)證集上生成的7種面部表情圖像
圖6和圖7中與StarGAN模型的對(duì)比實(shí)驗(yàn)結(jié)果表明,本文提出的網(wǎng)絡(luò)模型能清晰地生成自然、逼真的面部表情,并且恰當(dāng)?shù)乇3置娌可矸菪畔?同時(shí)實(shí)現(xiàn)7種面部表情的遷移。與文獻(xiàn)[10]中提出的循環(huán)卷積對(duì)抗網(wǎng)絡(luò),通過單個(gè)屬性特征的映射,實(shí)現(xiàn)表情風(fēng)格遷移相比,本文模型訓(xùn)練更少的生成網(wǎng)絡(luò),實(shí)現(xiàn)多種表情風(fēng)格的遷移;與文獻(xiàn)[9]提出的可逆條件生成對(duì)抗網(wǎng)絡(luò),通過改變條件向量保留潛在向量來合成圖像相比,本文模型能更好地保留輸入圖像的身份信息。
本文構(gòu)建一種基于條件生成式對(duì)抗網(wǎng)絡(luò)的面部表情遷移模型,通過指定表情域條件,使單個(gè)生成器學(xué)習(xí)多表情域之間的映射,同時(shí)引入域分類損失,使判別器將輸入圖像正確分類到相應(yīng)目標(biāo)表情域,使生成器獲得更真實(shí)的表情偽造能力,最后達(dá)到理想條件下的納什均衡,生成逼真、自然的面部表情圖像。本文模型在單個(gè)數(shù)據(jù)集下的實(shí)驗(yàn)效果較好,而在FEGR-DB的卡通表情數(shù)據(jù)集與帶微笑表情的CelebA數(shù)據(jù)集之間的遷移質(zhì)量較差,如何實(shí)現(xiàn)較大差異數(shù)據(jù)集之間的面部表情遷移,將是下一步的研究重點(diǎn)。