趙璐璐,陳雁翔,趙鵬鋮,朱玉鵬,盛振濤
合肥工業(yè)大學(xué) 計算機與信息學(xué)院,合肥230009
人類所發(fā)出的聲音總是與其本身的諸多特性相關(guān)聯(lián),例如性別、年齡以及嘴唇開合等,而最能反映這些特性的就是人的臉部。因此,語音驅(qū)動人臉生成逐漸成為一個熱門的研究課題,其研究目的是挖掘語音與人臉之間的關(guān)聯(lián)性,進而能夠由給定的任意語音片段生成相對應(yīng)的人臉圖像。然而語音和人臉之間存在著多維復(fù)雜關(guān)聯(lián),其與單張靜態(tài)人臉圖像之間存在著多重屬性關(guān)聯(lián)(性別、年齡等),同時與多張動態(tài)人臉序列之間又存在嘴唇同步關(guān)聯(lián)。因此語音驅(qū)動人臉生成模型需要綜合考慮這兩方面的因素,從而能夠更好地將其應(yīng)用于實際生產(chǎn)生活中。
無論是生成靜態(tài)人臉圖像,還是生成動態(tài)人臉序列,都面臨著巨大的挑戰(zhàn)。首先,由于語音信號和人臉圖像在數(shù)據(jù)特征層面存在異質(zhì)性,因此在沒有確切先驗信息的前提下,模型需要捕捉到特定的語音特征來編碼得到與之對應(yīng)的人臉圖像。其次,動態(tài)人臉序列的生成要在時間維度上保持人臉屬性特征的不變性,同時所生成的人臉序列應(yīng)保證語音片段和嘴唇運動之間的同步性。
目前大多數(shù)工作在研究這種語音驅(qū)動的跨模態(tài)人臉生成時,都只考慮了其中一種的關(guān)聯(lián)性來生成相對應(yīng)的人臉圖像,缺乏對語音和人臉圖像對應(yīng)關(guān)系的綜合研究。例如,Speech2Face[1]通過利用視頻中人臉圖像和聲音在時間和語義這兩個維度上的雙重相關(guān)性,將語音聲譜圖的特征與預(yù)訓(xùn)練的真實人臉的特征在高維空間中相對齊,進而實現(xiàn)由語音生成靜態(tài)人臉圖像。但該模型依賴語音和人臉圖像之間嚴(yán)格時序?qū)R的數(shù)據(jù)集進行訓(xùn)練,而在實際中由于時間維度的影響,只有很少的數(shù)據(jù)集標(biāo)記了這種時間對齊信息,進而導(dǎo)致模型不具有廣泛應(yīng)用性。而本文考慮使用屬性對齊(性別、年齡)的語音-人臉圖像數(shù)據(jù)集對模型進行訓(xùn)練,以此來生成屬性對應(yīng)的靜態(tài)人臉圖像。對于語音驅(qū)動動態(tài)人臉序列生成的研究,Jamaludin等人[2]設(shè)計了一種基于編碼器-解碼器結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)模型Speech2Vid,該模型以一種自監(jiān)督的方式使用靜態(tài)人臉圖像和語音片段的聯(lián)合嵌入來合成說話者的人臉視頻幀,但是其將序列生成變換成與時間無關(guān)的圖像生成,因此容易造成像素抖動。Suwajanakorn等人[3]通過循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)原始語音特征到嘴唇區(qū)域的映射,進而定位到匹配度最佳的嘴唇區(qū)域圖像,并將檢索出的嘴唇區(qū)域圖像與原始的人臉圖像進行合成以得到最終的目標(biāo)視頻。雖然此方法可以獲得高真實感的生成效果,但是其只適用于特定身份的人,缺乏泛化能力。
本文所提出的方法與之前的語音驅(qū)動人臉生成模型不同,其綜合研究了語音驅(qū)動的靜態(tài)人臉圖像生成和動態(tài)人臉序列生成,并基于條件生成對抗網(wǎng)絡(luò)構(gòu)建了系統(tǒng)模型SDVF-GAN。為了更好地依托該模型生成屬性對齊的靜態(tài)人臉圖像,依據(jù)現(xiàn)有數(shù)據(jù)集建立了一個涵蓋性別和年齡兩種屬性的Voice-Face數(shù)據(jù)集,實現(xiàn)語音與靜態(tài)人臉之間屬性信息的精準(zhǔn)對應(yīng)。同時該模型還利用注意力思想定位到人臉圖像中的嘴唇區(qū)域,以此細(xì)節(jié)信息為條件,進一步從給定的語音和身份人臉圖像中生成嘴唇同步的動態(tài)人臉序列。為了驗證本文所提出方法的有效性,對其進行了一系列針對性實驗。實驗結(jié)果表明,SDVF-GAN 不僅可以生成屬性對應(yīng)的高質(zhì)量靜態(tài)人臉圖像,同時還可生成嘴唇運動與輸入語音同步的動態(tài)人臉序列。綜上所述,本文的主要貢獻如下:
(1)本文提出了一種基于條件生成對抗網(wǎng)絡(luò)的語音驅(qū)動靜動態(tài)人臉生成模型SDVF-GAN,該模型能由給定的語音信號生成屬性一致(年齡、性別)的靜態(tài)人臉圖像并在身份人臉圖像的條件下生成嘴唇同步的動態(tài)人臉序列。
(2)本文基于現(xiàn)有數(shù)據(jù)構(gòu)建了一個新的包含語音和人臉圖像的數(shù)據(jù)集Voice-Face,其中語音和人臉圖像在性別和年齡上具有屬性一致性。
(3)本文在動態(tài)人臉生成模型中設(shè)計了一個基于注意力思想的嘴唇判別器,通過將嘴唇區(qū)域信息與身份相關(guān)信息分離,來降低不準(zhǔn)確的嘴唇運動所造成的影響,實現(xiàn)在生成高質(zhì)量的人臉序列的同時進一步提高嘴唇同步的準(zhǔn)確性。
視聽覺數(shù)據(jù)是現(xiàn)實世界中自然共存的兩種信號,并且二者都可為對方提供豐富的監(jiān)督信息,利用視聽覺數(shù)據(jù)進行跨模態(tài)學(xué)習(xí)的研究也因此而取得了很多突破性的成就。Aytar 等人[4]利用視頻中音頻數(shù)據(jù)和視覺數(shù)據(jù)自然同步的特性,通過已建立的視覺識別網(wǎng)絡(luò)和未標(biāo)記的視頻數(shù)據(jù)對音頻特征提取網(wǎng)絡(luò)進行訓(xùn)練,進而學(xué)習(xí)到音頻的有效表示。Chen 等人[5]使用條件生成對抗網(wǎng)絡(luò)來實現(xiàn)視聽覺跨模態(tài)雙向生成,并在多模態(tài)數(shù)據(jù)集Sub-URMP 上實現(xiàn)面向樂器類別和面向演奏姿勢這兩種不同的訓(xùn)練場景下的視聽覺跨模態(tài)生成。Hu 等人[6]提出了兩種分別針對不同情況盲人的視聽跨模態(tài)生成模型,實現(xiàn)從編碼后的聲音生成相應(yīng)的視覺圖像,其目的是驗證機器模型可快速高效地評估為幫助盲人而構(gòu)建的視覺到聽覺編碼方案的性能與質(zhì)量。文獻[7-8]進一步實現(xiàn)了基于GAN 的語音到人臉圖像的跨模態(tài)生成,也即在給定語音波形的情況下生成相對應(yīng)的人臉圖像,并保留說話者的身份信息。而本文提出的靜態(tài)人臉生成模型研究的是如何生成與輸入語音信號屬性關(guān)聯(lián)(年齡、性別)的靜態(tài)人臉圖像,可使用屬性對齊的數(shù)據(jù)集對模型進行訓(xùn)練,其在實際中的應(yīng)用范圍更加廣泛。
動態(tài)人臉生成研究在給定目標(biāo)人臉圖像和語音片段的情況下,生成嘴唇運動與輸入語音準(zhǔn)確同步的說話者人臉序列。近年來,隨著生成式模型的不斷發(fā)展,對于任意人臉序列的生成涌現(xiàn)出眾多優(yōu)秀的模型。X2Face[9]提出一種能夠控制給定人臉的姿態(tài)和表情的深度神經(jīng)網(wǎng)絡(luò),它是以語音信號(或是另一張人臉圖像)作為條件實現(xiàn)任意說話者對應(yīng)的人臉生成,但是該方法以不受身份信息約束的形式對網(wǎng)絡(luò)進行訓(xùn)練,使得模型無法針對身份信息生成相應(yīng)的人臉,并且基于語音生成的人臉圖像質(zhì)量相對不高。Zhou 等人[10]利用對抗訓(xùn)練的思想,通過解耦一張人臉圖像中的主體相關(guān)信息和語言相關(guān)信息來實現(xiàn)任意主體說話者對應(yīng)的人臉生成,然而該方法主要關(guān)注圖像在模態(tài)內(nèi)部的一致性,缺乏對跨模態(tài)一致性的探索,從而導(dǎo)致生成人臉序列的嘴唇運動與輸入語音之間的同步性不夠準(zhǔn)確。Chen 等人[11]利用面部標(biāo)志作為中間信息來拉近兩種不同模態(tài)數(shù)據(jù)之間的距離,從而實現(xiàn)了說話者對應(yīng)的人臉序列生成,但是該方法缺乏對視聽跨模態(tài)的同步性進行建模,因此會出現(xiàn)嘴唇運動不同步的現(xiàn)象。
注意力機制模仿了生物觀察行為的內(nèi)部過程,是一種將內(nèi)部經(jīng)驗和外部感覺對齊從而增加部分區(qū)域的觀察精細(xì)度的機制。注意力機制可以快速提取到稀疏數(shù)據(jù)的重要特征,其最初提出的目的是解決機器翻譯研究領(lǐng)域中的文本序列問題。注意力機制本質(zhì)上源自于人類視覺注意機制,其核心目標(biāo)是從眾多信息中選擇出對當(dāng)前任務(wù)目標(biāo)更關(guān)鍵的信息并聚焦到這些重要信息上,因此注意力機制逐漸發(fā)展成計算機視覺領(lǐng)域的重要工具之一。例如Zhang 等人[12]將自注意力機制與GAN[13]相結(jié)合,提出了一種新的圖像生成模型SAGAN。本文通過將自注意力機制添加到語音編碼器網(wǎng)絡(luò)中以提取出更準(zhǔn)確的聽覺特征。同時在動態(tài)人臉生成模型中,還利用注意力思想捕捉嘴唇區(qū)域的特征,進而將身份人臉圖像中的身份屬性信息與嘴唇運動信息進行分離,以實現(xiàn)在任意身份下生成嘴唇同步的動態(tài)人臉序列。
為了滿足靜態(tài)人臉生成網(wǎng)絡(luò)的訓(xùn)練需求,本文構(gòu)建了“性別+年齡”屬性對齊的數(shù)據(jù)集Voice-Face。該數(shù)據(jù)集中包含大量的語音片段和人臉圖像,并滿足屬性一致性。為了切合本次研究的目的,選擇了aidatatang_1505zh數(shù)據(jù)集中的語音片段和CACD2000 數(shù)據(jù)集[14]中的人臉圖像。對于這兩個模態(tài)的數(shù)據(jù),對其按年齡段(11~20、21~30、31~40、41~50)和性別(男、女)進行組合,同時清除了一些質(zhì)量不佳和不符合要求的語音片段和人臉圖像,使得各種組合的數(shù)量處于相對平衡狀態(tài),最終將得到的語音和人臉圖像數(shù)據(jù)整合成屬性關(guān)聯(lián)的Voice-Face數(shù)據(jù)集。此外,為了更好地利用該數(shù)據(jù)集對靜態(tài)生成模型進行訓(xùn)練,還將對其中的數(shù)據(jù)進行一定的預(yù)處理操作,具體步驟如下:
語音預(yù)處理:原始的語音信號是由16 kHz的單聲道進行采樣而得到,在本文的模型中需要將其轉(zhuǎn)換成聲譜圖作為系統(tǒng)的原始輸入。將語音分別轉(zhuǎn)換成短時傅里葉變換(STFT)、梅爾頻率倒譜系數(shù)(MFCC)和對數(shù)振幅梅爾頻譜(LMS)這三種聲譜圖,并對比三者分別作為模型輸入時的生成效果,根據(jù)模型實際的性能表現(xiàn),最終選擇將語音信號的MFCC特征作為語音編碼器網(wǎng)絡(luò)的輸入。
人臉圖像裁剪:為了去除人臉圖像中多余的背景信息,采用人臉檢測器[15]來檢測圖像中相應(yīng)的人臉部分區(qū)域,進而從整幅圖像中裁剪出人臉區(qū)域,最后將裁剪后的人臉圖像統(tǒng)一縮放為相同的尺寸大小。
最終,經(jīng)過上述數(shù)據(jù)預(yù)處理操作之后,得到了8 種屬性組合下的48 000個語音-人臉圖像對,并將其按5∶1的比率劃分為訓(xùn)練集和測試集。
本文綜合考慮語音和人臉之間的靜態(tài)屬性和動態(tài)變化關(guān)系,在條件生成對抗網(wǎng)絡(luò)的基礎(chǔ)上構(gòu)建了語音驅(qū)動的靜動態(tài)人臉生成模型(SDVF-GAN)。該模型以給定的語音片段作為輸入,能夠生成屬性一致(性別、年齡)的靜態(tài)人臉圖像,同時能夠基于身份人臉圖像生成嘴唇同步的動態(tài)人臉序列。
SDVF-GAN模型的網(wǎng)絡(luò)架構(gòu)如圖1所示,其包含編碼器、生成器和判別器這三個部分。
圖1 語音驅(qū)動的靜動態(tài)人臉生成模型(SDVF-GAN)的框架結(jié)構(gòu)Fig.1 Frame structure of voice-driven static and dynamic face generation model(SDVF-GAN)
3.1.1 編碼器
本文使用基于深度卷積網(wǎng)絡(luò)構(gòu)建的語音編碼器VE來提取語音信號的聽覺特征向量。初始的語音信號是一維波形V,鑒于梅爾頻率倒譜系數(shù)(MFCC)特征能夠很好地表示語音的相關(guān)信息,因此將語音信號轉(zhuǎn)換成MFCC特征M以作為語音編碼器的輸入。由于MFCC特征在某一維度上對應(yīng)了時序信息,因此對于時間間隔較長的MFCC特征,語音編碼器在特征的提取過程中要能夠捕捉到它們之間的時間依賴關(guān)系。自注意力機制[16]可以模擬圖像區(qū)域中長距離、多級別的依賴關(guān)系,進而可以使得遠(yuǎn)距離依賴特征之間的距離極大地縮短。因此,在語音編碼器VE 中引入自注意力機制可以學(xué)習(xí)到MFCC中的時序信息,進而提取出更準(zhǔn)確的聽覺特征向量zv=VE(M)。最后將得到的聽覺特征向量作為靜態(tài)人臉生成網(wǎng)絡(luò)和動態(tài)人臉生成網(wǎng)絡(luò)的輸入,以實現(xiàn)靜態(tài)和動態(tài)的人臉生成。
在動態(tài)人臉生成網(wǎng)絡(luò)中,是將聽覺特征和圖像特征相串聯(lián)得到的混合特征作為網(wǎng)絡(luò)的輸入以確保生成的人臉序列中的多張人臉圖像在身份信息上的一致性。基于此,構(gòu)建了圖像編碼器IE,以提取相應(yīng)的圖像特征向量zI=VE(I),網(wǎng)絡(luò)參數(shù)如表1。
表1 編碼器網(wǎng)絡(luò)架構(gòu)Table 1 Encoder network architecture
3.1.2 生成器
SDVF-GAN模型是基于條件生成對抗網(wǎng)絡(luò)(CGANs)[17]的結(jié)構(gòu)而構(gòu)建。因此,在獲取聽覺特征向量和圖像特征向量后,以聽覺特征向量zv與使用標(biāo)準(zhǔn)正態(tài)分布采樣的噪聲向量zn~N(0,1)相串聯(lián)而得到的高維特征向量作為靜態(tài)人臉生成器SFG 的輸入,進而合成出屬性一致(年齡和性別)的靜態(tài)人臉圖像Is=SFG(zv,zn);以聽覺特征向量zv與圖像特征向量zI串聯(lián)得到的混合特征向量作為動態(tài)人臉生成器DFG 的輸入,通過分別考慮語音相關(guān)信息和身份相關(guān)信息來生成嘴唇同步的動態(tài)人臉序列Id=DFG(zv,zI),網(wǎng)絡(luò)參數(shù)如表2。
表2 生成器網(wǎng)絡(luò)架構(gòu)Table 2 Generator network architecture
3.1.3 判別器
圖像判別器以真實圖像或生成圖像作為輸入,輸出相應(yīng)的概率分?jǐn)?shù),以判別輸入圖像的真?zhèn)巍lo態(tài)人臉生成模型針對的是屬性對齊條件下的視聽覺跨模態(tài)人臉生成,需要在生成高質(zhì)量的真實圖像的同時確保屬性的一致性。為了生成符合要求的靜態(tài)人臉圖像,在原始圖像判別器的倒數(shù)第二層后加入投影層(Projection)[18],以獲得一個表示語音片段與人臉圖像屬性匹配程度的概率分?jǐn)?shù)。具體而言,本文使用x表示輸入特征向量,y表示條件信息,同時用D(x,y)=A(f(x,y))表示CGANs的圖像判別器,A表示激活函數(shù)。pt和pg分別表示真實樣本分布和生成樣本分布。當(dāng)使用Sigmoid作為最后卷積層的激活函數(shù)時,由CGANs的損失函數(shù)可知,最優(yōu)判別器:
在多分類問題中,一般使用Softmax 函數(shù)來計算輸入x屬于某一類別y=c的概率,則有:
其中,(x)表示全連接層的輸出,?為去除最后一層的傳統(tǒng)判別器網(wǎng)絡(luò)。同時令矩陣V表示行向量,并將其看作條件信息y的嵌入層,ψ表示判別器的最后一層,則此時最優(yōu)判別器可化簡為:
對上式進行分析可知,ψ(?(x))起到了原始CGANs中圖像判別器的作用,用于判斷輸入數(shù)據(jù)x的真實性;而yTV?(x)表示投影層的判別結(jié)果,其相當(dāng)于卷積網(wǎng)絡(luò)的輸出V?(x)與條件y進行點乘得到的對應(yīng)目標(biāo)組合的概率值,其值越大表示屬性匹配越準(zhǔn)確。因此,添加投影模塊的圖像判別器的輸出既表示了圖像的真?zhèn)?,又表示了圖像與語音之間的屬性匹配度,可更好地推動靜態(tài)人臉生成器生成與輸入語音屬性一致的高質(zhì)量的靜態(tài)人臉圖像。
動態(tài)人臉生成網(wǎng)絡(luò)的目的是生成嘴唇同步的人臉序列。由于圖像判別器以人臉圖像的整個區(qū)域為判別標(biāo)準(zhǔn)來更新動態(tài)生成器網(wǎng)絡(luò)的參數(shù),所以僅利用圖像判別器不足以在訓(xùn)練時捕獲到精準(zhǔn)的嘴唇運動。為了能夠在人臉圖像中捕獲嘴唇相關(guān)的變化信息,基于注意力的思想構(gòu)建了一個嘴唇判別器Dl,通過僅關(guān)注嘴唇區(qū)域的變化來去除身份相關(guān)信息及面部表情的干擾,并將其與圖像判別器相結(jié)合,二者共同以對抗訓(xùn)練的方式更新動態(tài)人臉生成器,以生成嘴唇同步的高質(zhì)量的動態(tài)人臉序列,判別器網(wǎng)絡(luò)架構(gòu)如表3。
表3 判別器網(wǎng)絡(luò)架構(gòu)Table 3 Discriminator network architecture
為防止傳統(tǒng)GAN中出現(xiàn)的梯度消失和模式崩潰的問題,SDVF-GAN模型采用了WGAN-GP形式的對抗損失函數(shù)。此時,對抗損失函數(shù)如下:
其中,I表示真實圖像,I表示生成圖像,其在靜態(tài)人臉生成網(wǎng)絡(luò)和動態(tài)人臉生成網(wǎng)絡(luò)中分別表示靜態(tài)人臉圖像Is=SFG(zv,zn)和動態(tài)人臉圖像Id=DFG(zv,zI),而I是沿真實圖像和生成圖像對之間的直線均勻采樣得到的圖像。D表示圖像判別器,其在靜態(tài)人臉生成網(wǎng)絡(luò)中嵌入了投影(projection)模塊。
為使得靜態(tài)人臉生成模型能夠生成屬性一致的人臉圖像,為其構(gòu)建如下所示的屬性損失函數(shù):
為了在動態(tài)人臉生成過程中保持身份的不變性,將重建損失應(yīng)用于動態(tài)人臉生成模型中,公式化如下:
如前所述,通過構(gòu)建嘴唇判別器Dl來確保生成的動態(tài)人臉序列具有準(zhǔn)確的嘴唇運動,其目標(biāo)函數(shù):
此時,靜態(tài)人臉生成模型和動態(tài)人臉生成模型的總損失函數(shù)分別如式(8)和式(9)所示:
其中,λatt、λrec和λlip是模型中的超參數(shù),它們分別控制模型的屬性損失、重建損失和嘴唇損失的相對重要程度,進而更好地對網(wǎng)絡(luò)模型進行訓(xùn)練。
4.1.1 數(shù)據(jù)集
分別利用自己構(gòu)建的Voice-Face 數(shù)據(jù)集和現(xiàn)有的LRW 數(shù)據(jù)集[19]對靜態(tài)人臉生成模型和動態(tài)人臉生成模型進行訓(xùn)練。對于Voice-Face 數(shù)據(jù)集,按照兩種性別(男性和女性)和四個年齡段(11~20、21~30、31~40、41~50)將其組合成8 種屬性類別。而LRW 數(shù)據(jù)集是目前最大規(guī)模的單詞級唇讀數(shù)據(jù)集,其包含數(shù)百個不同的說話者讀單詞的視頻,每個視頻的持續(xù)時間很短,只有1 s左右。從LRW 數(shù)據(jù)集中分別提取音頻流和視頻幀,并使兩者相互匹配。對于音頻流,以16 kHz 的采樣率提取出(Mel frequency cepstrum coefficient)MFCC 特征;對于視頻幀,使用人臉檢測器裁剪出相應(yīng)的人臉區(qū)域,然后將人臉區(qū)域的圖像維度調(diào)整為128×128。
4.1.2 實現(xiàn)細(xì)節(jié)
SDVF-GAN 中的語音編碼器、圖像編碼器、生成器和判別器都是由卷積層或反卷積層搭建而成。對于語音編碼器網(wǎng)絡(luò),在最后兩個卷積層之前都添加了一個自注意力層來捕獲語音中的長距離依賴信息,并在最后一層卷積層后添加了兩個全連接層來得到聽覺特征向量。動態(tài)人臉生成器中借鑒了U-Net[20]的思想,其將圖像編碼器中各卷積層的圖像特征分別饋送到生成器網(wǎng)絡(luò)中,以更好地保持生成的動態(tài)人臉序列身份信息的一致性。在實驗中,使用Pytorch 框架來實現(xiàn)整個系統(tǒng)模型。訓(xùn)練時的參數(shù)細(xì)節(jié)如下:選用ADAM 優(yōu)化器[21],其中α=0.5,β=0.999,并將學(xué)習(xí)率固定為1E-4;WGANGP 中的梯度懲罰參數(shù)λgp設(shè)置為10,同時將λatt、λrec和λlip分別設(shè)置為10、10和1。算法1和算法2分別說明了本文中所提出的靜態(tài)人臉生成網(wǎng)絡(luò)和動態(tài)人臉生成網(wǎng)絡(luò)的優(yōu)化訓(xùn)練過程。
算法1 靜態(tài)人臉生成模型的訓(xùn)練流程
算法2 動態(tài)人臉生成模型的訓(xùn)練流程
在實驗中,選用幾個常見的評價指標(biāo)來定量評估SDVF-GAN 模型的生成效果。對于靜態(tài)人臉生成模型,其通過跨模態(tài)準(zhǔn)確率(cross-modal accuracy)來定量評估屬性組合的跨模態(tài)人臉生成是否成功。此外,F(xiàn)réchet inception distance(FID)通過計算真實圖像和生成圖像在特征向量上的距離來定量評估生成的靜態(tài)人臉圖像質(zhì)量的好壞,具體公式如下:
其中,μr和μg分別表示真實圖像和生成圖像特征的均值,Σr和Σg分別表示真實圖像和生成圖像特征的協(xié)方差矩陣。FID值越小,表明生成數(shù)據(jù)與真實數(shù)據(jù)之間的分布越接近,生成的靜態(tài)人臉圖像質(zhì)量越高、多樣性越豐富。
對于動態(tài)人臉生成模型,使用常用的度量指標(biāo)peak signal-to-noise ratio(PSNR)和structural SIMilarity(SSIM)[22]來評估生成的視頻幀質(zhì)量的好壞,兩者的值越大,說明生成人臉序列的質(zhì)量越好。此外,采用landmarks distance(LMD)[23]來評估生成人臉序列中嘴唇同步的準(zhǔn)確性。LMD通過計算真實序列和生成序列之間的關(guān)鍵點距離來度量嘴唇同步準(zhǔn)確率,其值越小,表明合成人臉序列的嘴唇運動與輸入語音片段的匹配程度越高。
靜態(tài)人臉生成模型的目的是實現(xiàn)屬性一致(性別、年齡)的視聽覺跨模態(tài)人臉生成,因此,使用自己構(gòu)建的基于性別和年齡屬性對齊的Voice-Face 數(shù)據(jù)集對模型進行訓(xùn)練和測試。為了驗證模型所生成的靜態(tài)人臉圖像具有一定的優(yōu)越性,本文從定性和定量角度對實驗結(jié)果進行分析,并將其與最近的方法進行定量對比,同時針對自身模型架構(gòu)及損失函數(shù)進行了消融研究實驗。
定性結(jié)果。圖2顯示了8種不同屬性組合下的語音片段分別作為靜態(tài)人臉生成模型的輸入時,所生成的相應(yīng)組合下的靜態(tài)人臉圖像。從中可以觀察到,SDVFGAN 能夠?qū)W習(xí)到聲音和人臉之間的潛在聯(lián)系,其生成的人臉圖像和真實的人臉圖像對應(yīng)的屬性信息(年齡、性別)是一致的。此外,還為每個組合選取多個不同的語音片段分別送入靜態(tài)網(wǎng)絡(luò)模型中來進行相應(yīng)的實驗,實驗結(jié)果如圖3所示,可以觀察到SDVF-GAN在生成屬性一致的靜態(tài)人臉圖像的同時還可以保持生成圖像的多樣性。
圖2 靜態(tài)人臉生成模型合成的靜態(tài)人臉圖像Fig.2 Static face image synthesized by static face generation model
圖3 選取不同語音片段所生成的靜態(tài)人臉圖像Fig.3 Static face image generated by selecting different voices fragments
定量結(jié)果。使用Voice-Face數(shù)據(jù)集對Wen等人[7]提出的模型進行訓(xùn)練和測試,并將其與本文提出的靜態(tài)人臉生成模型進行定量比較,具體實驗結(jié)果如表4 所示。結(jié)果顯示SDVF-GAN在兩個常用的評價指標(biāo)下均明顯優(yōu)于Wen 等人的方法,表明了SDVF-GAN 模型不僅可以生成高質(zhì)量的靜態(tài)人臉圖像,而且在8種屬性組合下的跨模態(tài)分類準(zhǔn)確率也相對更高。
表4 Voice-Face數(shù)據(jù)集中不同方法的定量結(jié)果Table 4 Quantitative results of different methods in Voice-Face dataset
消融研究。為了定量評估靜態(tài)人臉生成模型中各組成部分(自注意力機制(SA)、投影模塊(Pro)以及屬性損失Latt)對生成效果的影響,通過逐一移除模型中的某個組件來進行相應(yīng)的消融研究實驗,實驗結(jié)果如表5所示。由表中的數(shù)據(jù)可以看出,當(dāng)僅去除網(wǎng)絡(luò)模型中的自注意力機制時,跨模態(tài)準(zhǔn)確率下降了將近3.1 個百分點;僅去除投影模塊時,F(xiàn)ID 的值相比提高了5.2 左右,也即生成圖像的質(zhì)量有所下降;而當(dāng)同時去除這兩個組件時,跨模態(tài)準(zhǔn)確率和FID 更是都朝著變壞的方向發(fā)展。這表明模型中加入這兩種組件不僅有助于降低FID值以提升人臉圖像的生成質(zhì)量,同時還可使得模型生成出的人臉圖像與輸入語音具有更好的屬性一致性。此外,表5 中的結(jié)果還反映出添加屬性損失Latt可進一步提高跨模態(tài)準(zhǔn)確率,定量表明了屬性損失的添加對靜態(tài)人臉生成模型的性能具有一定的提升。
表5 靜態(tài)人臉生成模型的消融研究Table 5 Ablation research of static face generation model
使用現(xiàn)有的LRW數(shù)據(jù)集來訓(xùn)練和測試SDVF-GAN中的動態(tài)人臉生成模型,以實現(xiàn)嘴唇同步的動態(tài)人臉序列生成。
定性結(jié)果。為了驗證本文所提出動態(tài)人臉生成模型的先進性,在相同的實驗設(shè)定下,將其與ATVGnet 模型進行定性對比,具體實驗結(jié)果如圖4所示。可以直觀地看到,相較于ATVGnet模型來說,SDVF-GAN所生成的人臉序列與真實人臉序列在嘴唇運動方面的同步性更好,并且生成的人臉圖像更加清晰。因此,無論從圖像質(zhì)量還是嘴唇同步來說,SDVF-GAN 模型的生成結(jié)果與先前的方法相比均有一定程度的提升。
圖4 動態(tài)人臉生成模型以及ATVGnet模型的生成結(jié)果Fig.4 Synthesis result of dynamic face generation model and ATVGnet model
定量結(jié)果。將本文的動態(tài)人臉生成模型與ATVGnet[11]和Speech2Vid[2]模型進行定量比較,具體實驗結(jié)果如表6所示。結(jié)果表明SDVF-GAN模型相比于其他的方法雖然在評價指標(biāo)PSNR上略低于ATVGnet模型,但其同時取得了最高的SSIM 和最低的LMD。這也定量說明了SDVF-GAN 可以在保證生成較高質(zhì)量圖像的同時實現(xiàn)嘴唇運動與輸入語音片段之間的精準(zhǔn)同步。
表6 LRW數(shù)據(jù)集中不同方法的定量結(jié)果Table 6 Quantitative results of different methods in LRW dataset
消融研究。為了驗證動態(tài)人臉生成模型中的自注意力機制(SA)和嘴唇判別器Dl對于模型性能提升的重要性,同樣進行了相應(yīng)的消融研究實驗來量化這兩個組件對模型性能的影響,具體實驗結(jié)果如表7所示。實驗結(jié)果表明,SA和Dl兩個組件逐一添加到模型中都可進一步提高所有評價指標(biāo)的性能,兩者聯(lián)合作用下更是使模型達到了最優(yōu)的生成效果。這也定量說明了自注意力機制和嘴唇判別器對動態(tài)人臉生成模型生成高質(zhì)量的嘴唇同步的動態(tài)人臉序列有著至關(guān)重要的作用。
表7 動態(tài)人臉生成模型的消融研究Table 7 Ablation research of dynamic face generation model
本文研究了語音與人臉之間靜態(tài)和動態(tài)的關(guān)聯(lián)性,提出了一種可生成靜態(tài)人臉圖像和動態(tài)人臉序列的語音驅(qū)動人臉生成模型SDVF-GAN。模型的語音編碼器在自注意力機制的作用下捕獲語音數(shù)據(jù)的全局聽覺特征,在靜態(tài)人臉生成網(wǎng)絡(luò)中通過將投影模塊加入到圖像判別器中以約束靜態(tài)生成器生成出屬性一致(性別、年齡)的靜態(tài)人臉圖像。同時,本文設(shè)計了一種基于注意力思想的嘴唇判別器,用于實現(xiàn)嘴唇區(qū)域與身份信息的分離,以在動態(tài)人臉生成網(wǎng)絡(luò)中校正不準(zhǔn)確的嘴唇運動,進一步提高生成的動態(tài)人臉序列的嘴唇運動與輸入語音片段之間的同步準(zhǔn)確率。
實驗結(jié)果表明,SDVF-GAN 模型生成的靜態(tài)人臉圖像具有高質(zhì)量、多樣化以及屬性一致(性別、年齡)的特點,生成的動態(tài)人臉序列的嘴唇運動與輸入語音片段具有高同步性的特點。此外,與現(xiàn)有方法對比發(fā)現(xiàn),SDVF-GAN 在跨模態(tài)準(zhǔn)確率和嘴唇同步準(zhǔn)確率方面均取得了更優(yōu)異的表現(xiàn)。
在現(xiàn)有的工作基礎(chǔ)之上,本文認(rèn)為后續(xù)的工作可以從以下兩個方面進行。首先,對于訓(xùn)練靜態(tài)人臉生成網(wǎng)絡(luò)的Voice-Face數(shù)據(jù)集,本文只考慮了性別和年齡兩種屬性,使得屬性組合相對較少。未來的工作中可進一步添加人的情感屬性,更深層次的挖掘語音和人臉的屬性關(guān)系,提高靜態(tài)人臉生成網(wǎng)絡(luò)的應(yīng)用范圍。其次,未來可在動態(tài)人臉生成網(wǎng)絡(luò)中實現(xiàn)生成的面部序列具有與輸入語音同步的表情變化,從而獲得更加逼真的視覺效果。