亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于GANs 無監(jiān)督回歸三維參數(shù)化人臉模型

2020-11-20 13:07:40張星星李金龍

網(wǎng)絡(luò)安全與數(shù)據(jù)管理 2020年11期

張星星，李金龍

(1.中國科學(xué)技術(shù)大學(xué) 軟件學(xué)院，安徽合肥 230026；2.中國科學(xué)技術(shù)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院，安徽合肥 230026)

0 引言

三維人臉重建是指通過一張或多張同一個人的照片來構(gòu)建該人的三維人臉網(wǎng)格。該課題一直是計算機視覺和圖形學(xué)的熱門關(guān)注焦點，擁有廣泛的應(yīng)用場景，如人臉身份識別、醫(yī)學(xué)方案展示、三維人臉動畫等。

在三維人臉重建領(lǐng)域，VETTER T 和 BLANTZ V在1999年提出的三維人臉參數(shù)化模型(3DMM)[1]具有重要意義。3DMM 采集了 200 位實驗對象的臉部激光掃描數(shù)據(jù)集，并對該數(shù)據(jù)集進行主成分分析(PCA)。通過對PCA 所提取的基向量進行線性組合從而構(gòu)成一張新的人臉。

傳統(tǒng)的三維人臉重建基于迭代方法[2]，即針對輸入人臉，利用人臉關(guān)鍵點，反復(fù)調(diào)整基向量的參數(shù)使得三維人臉渲染后提取的人臉關(guān)鍵點與二維人臉關(guān)鍵點接近，以此達到具有輸入人臉特征的三維人臉網(wǎng)格。然而，該方法較為依賴人臉關(guān)鍵點的檢測結(jié)果，在人臉姿勢較大或有遮擋物時，效果較差，迭代過程耗時也較長。

近年來，隨著深度學(xué)習(xí)的不斷發(fā)展，越來越多的研究開始運用基于回歸的方法重建三維人臉。然而，在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中，一個亟需解決的問題便是三維人臉訓(xùn)練數(shù)據(jù)稀少。針對這一問題，部分研究提出利用合成數(shù)據(jù)[3-4]，即先隨機初始化3DMM的參數(shù)作為參照的三維人臉，而后將該三維人臉投影成的二維人臉作為輸入數(shù)據(jù)，進而擴大訓(xùn)練數(shù)據(jù)集。因為合成數(shù)據(jù)投影形成的二維圖片不能反映真實世界的復(fù)雜度，故 GENOVA K[5]提議采用真實圖片及合成圖片的混合數(shù)據(jù)集進行兩步訓(xùn)練。TEWARI A[6]利用編碼解碼器結(jié)構(gòu)直接從單張圖片重建三維人臉，解碼器是基于專業(yè)知識精心設(shè)計的，但可擴展性較低。TRAN A T[7]等人提議利用迭代方法形成的三維人臉作為神經(jīng)網(wǎng)絡(luò)所需的配對三維人臉數(shù)據(jù)進行訓(xùn)練。

本文基于前人的思想，提出采用GANs 神經(jīng)網(wǎng)絡(luò)回歸3DMM 模型參數(shù)進行三維人臉重建任務(wù)。在解決三維人臉數(shù)據(jù)稀少問題上，本文提出兩種并列的監(jiān)督信號：(1)二維監(jiān)督信號：利用三維人臉投影后的二維人臉與輸入的二維人臉身份差異及皮膚顏色差異，來提供二維層面的監(jiān)督信號，使得二者相近；(2)三維監(jiān)督信號：利用重構(gòu)的三維人臉頂點分布與普遍三維人臉頂點分布差異，來提供三維層面的監(jiān)督信號，以使得重構(gòu)后的三維人臉具備真實感人臉形狀。由于僅依賴二維監(jiān)督信號可能會導(dǎo)致一些重構(gòu)后三維人臉頂點離正常人臉頂點偏差較大，雖然投影結(jié)果依舊初具人臉形狀，仍能被系統(tǒng)識別，但視覺感受卻與普遍人臉形狀相差較大。其原因在于缺少三維監(jiān)督信號，使得重構(gòu)后的三維人臉頂點分布近似于普遍三維人臉頂點分布。本文擬采用生成對抗網(wǎng)絡(luò)(GANs)[8]來提供三維監(jiān)督信號，利用生成器及判別器的對抗生成，指引人臉頂點分布接近于真實感人臉頂點分布。

1 方法

1.1 網(wǎng)絡(luò)結(jié)構(gòu)

本文所采取的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示，共包含四個部分：(1)生成對抗網(wǎng)絡(luò)(GANs)[8]，利用生成對抗網(wǎng)絡(luò)產(chǎn)生符合真實人臉分布的 398 個 3DMM 模型參數(shù)；(2)3DMM[1]模型，通過生成的 3DMM 參數(shù)重新構(gòu)建三維人臉網(wǎng)格；(3)可微分渲染器，將重構(gòu)的三維人臉網(wǎng)格渲染為二維渲染圖片；(4)身份編碼器，利用人臉身份特征識別網(wǎng)絡(luò)提取輸入及渲染身份特征向量。

1.1.1 生成對抗網(wǎng)絡(luò)GANs

(1)生成器

假設(shè)輸入圖片 x=(x1，x2，…，xn)，xi∈R224×224，生成器的輸出為其中是預(yù)測得到的3DMM 模型參數(shù)，具體含義詳見1.1.2 節(jié)。

對于生成器，采用修改過后的Resnet50。Resnet[9]使用的具體殘差塊如圖2 所示，其中，x 是輸入，F(xiàn)(x)是經(jīng)過兩層卷積層學(xué)習(xí)得到的特征，最后的輸出是F(x)和 x 的疊加結(jié)果。由于梯度可以從兩條支路進行傳播，從而解決了隨著網(wǎng)絡(luò)的層數(shù)加深，梯度消失的現(xiàn)象。

圖1 三維人臉重建網(wǎng)絡(luò)結(jié)構(gòu)

圖2 Resnet 殘差塊

采用Resnet50 作為生成器的目的是為了提升深度學(xué)習(xí)的訓(xùn)練效果。為了回歸 3DMM 模型 398 個參數(shù)，將 Resnet50 中最后一層 1 024-D 全連接層改為398-D。

(2)判別器

對于判別器來說，輸入共兩類，均為 398 維向量 y=(y1，y2， … ，yn),其中，yi是從符合真實人臉 3DMM 參數(shù)分布 p3DMM(y)(詳見 1.1.2 節(jié) )中取樣而得，而為生成器回歸而得的3DMM 模型參數(shù)。

由于判別器的輸入僅一維，故而采用3 層全連接層對生成器的回歸結(jié)果是否符合真實人臉3DMM 參數(shù)分布進行判斷。判別器的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

圖3 判別器網(wǎng)絡(luò)結(jié)構(gòu)

1.1.2 3DMM 模型

3DMM[1]人臉參數(shù)化模型是VETTER T 和BLANTZ V基于100 位年輕男性及100 位年輕女性的臉部激光掃描數(shù)據(jù)集而形成的一個數(shù)理統(tǒng)計模型。具體來說，首先假設(shè)對于每一個臉部激光掃描樣本的頂點均是按一致順序進行排列的，提取包含所有點位置信息的位置向量及顏色信息的顏色向量。之后，利用主成分分析(PCA)技術(shù)分別作用于位置向量及顏色向量，形成新的相互正交的位置特征基向量及顏色特征基向量。于是，一張新的人臉就可以由式(1)獲得。

然而，系數(shù)并非任意數(shù)值皆可。VETTER T 和BLANTZ V 發(fā)現(xiàn)，若令 αi、βi服從標(biāo)準(zhǔn)正態(tài)分布，可使得生成三維人臉網(wǎng)格符合真實人臉形狀。在此背景下，用 p3DMM(y)，y=(α，β)來表示符合真實人臉3DMM 參數(shù)分布，即標(biāo)準(zhǔn)正態(tài)分布。

Vetter 和 Blantz 采集的人臉數(shù)據(jù)庫于 2009年在Basel Face Model[10]中公開，稱為 BFM2009。本文所采用的3DMM 模型便是 BFM2009。

1.1.3 可微分渲染器

可微分渲染器是將3DMM 生成的三維人臉網(wǎng)格渲染成二維圖片由于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中涉及反向傳播，故本文采納GENOVA K[5]等人的提議使用了一個基于延遲陰影模型的可微光柵化器。光柵化器在每個像素處生成包含三角形id 和重心坐標(biāo)的屏幕空間緩沖區(qū)。光柵化過后，使用重心坐標(biāo)和id 在像素處插值每個頂點的屬性，如顏色和法線。光柵化導(dǎo)數(shù)是根據(jù)重心坐標(biāo)計算的，而不是三角形id。

因為可微分渲染器使用延遲著色，照明是用一組頂點屬性插值后形成的緩沖區(qū)作為圖像，獨立計算每個像素，所以本文采用Phong 反射光照模型進行陰影處理，Phong 反射光照模型比漫反射模型更有真實感，且既有效又可微。

1.1.4 身份編碼器

身份編碼器輸入一共有兩類，均為 160×160 的圖片 x=(x1，x2， … ，xn)，R160×160，其中，xi是將預(yù)處理過的 224×224 人臉圖片進一步裁剪后的圖片是經(jīng)過可微分渲染器渲染后的人臉圖片。對應(yīng)于每類輸入，身份編碼器的輸出也是兩類，均為對人臉圖片提取的128-D 身份特征向量R128，其中，fi是對 xi提取的身份特征向量而是對提取的身份特征向量。

本文采用預(yù)訓(xùn)練好的FaceNet[11]作為身份編碼器來提取輸入人臉及渲染人臉的身份特征向量。FaceNet 主要利用DNN，從原始圖片學(xué)習(xí)到歐氏距離空間的映射，故而圖像在歐式空間里的距離與人臉相似度關(guān)聯(lián)。本文通過最小化兩者身份特征向量，以使得生成的三維人臉接近輸入的二維人臉，詳見1.2.2 節(jié)。

1.2 損失函數(shù)

為了使得回歸得到的三維人臉網(wǎng)格能夠接近輸入人臉圖像，本文提出了三項損失函數(shù)提供監(jiān)督信號：GANs 損失函數(shù)、id 損失函數(shù)和皮膚顏色損失函數(shù)。

1.2.1 GANs 損失函數(shù)

為了簡化GANs 的目標(biāo)函數(shù)，將生成器的回歸過程表示為 G(x)，x=(x1，x2，…，xn)，代表生成器根據(jù)輸入的人臉圖片 x 回歸得到的 3DMM 參數(shù)。而判別器的判別學(xué)習(xí)過程被表示為代表判別器給出的對于某樣本 Yi的結(jié)果集?的概率來源于真實人臉 3DMM參數(shù)分布 p3DMM(y)而不是生成器生成。GANs 的目標(biāo)函數(shù)可以由式(2)表示：

其中，x~pdata(x) 表示x 取樣于人臉圖像數(shù)據(jù)分布，而 y~pdata(y) 表示 y 取樣于真實人臉 3DMM 參數(shù)分布p3DMM(y)。

目標(biāo)在于使得生成器回歸得出的3DMM 參數(shù)服從真實人臉 3DMM 參數(shù) 分布p3DMM(y)，即強迫該目標(biāo)是由GANs 的min-max 對抗過程實現(xiàn)的。GANs 一共包含兩個交叉訓(xùn)練階段：第一階段固定生成器 G，訓(xùn)練判別器 D，該階段中 D 的目標(biāo)是最大化 LGANs(G，D)，如此，D 可以在樣本來源于真實人臉 3DMM 參數(shù)分布 p3DMM(y)時給出一個較大概率，在樣本來源于生成器G 時給出一個較小的概率；第二階段固定判別器 D，訓(xùn)練生成器 G，該階段中 G 的目標(biāo)是最小化 LGANs(G，D)，以使得當(dāng)樣本來源于生成器G 時D 能給出一個較大的概率。

GANs 的損失函數(shù)對三維人臉重建任務(wù)提供了三維監(jiān)督信號。基于3DMM 模型本身的假設(shè)，利用生成器及判別器的對抗生成過程，指引生成器回歸的3DMM 參數(shù)接近于真實人臉3DMM 參數(shù)分布p3DMM(y)，進而生成的三維人臉網(wǎng)格中人臉的頂點分布能夠接近于真實人臉頂點分布。

1.2.2 id 損失函數(shù)

在歐式空間中，無論表情、姿勢或者照明條件如何，F(xiàn)aceNet 對于同一人的兩張照片提取的身份特征向量之間的距離要比從兩個不同的人的照片提取的身份特征向量之間的距離更加接近。采用式(3)來衡量兩張人臉的相似度：

id 損失函數(shù)對三維人臉重建任務(wù)提供了二維監(jiān)督信號。由于三維人臉數(shù)據(jù)集稀少的原因，評判三維人臉重建結(jié)果的好壞便可遷移到二維空間。首先將三維人臉重建網(wǎng)格渲染成二維人臉圖片，再利用FaceNet 對二維輸入人臉圖片及渲染后的人臉圖片進行身份特征向量提取，通過最小化兩個身份特征向量之間的距離，使得渲染后的人臉身份特征接近輸入圖片的人臉特征，進而迫使重建三維人臉網(wǎng)格具有輸入圖片的人臉特征。

1.2.3 皮膚顏色損失函數(shù)

由于FaceNet 可以忽略照明等因素對人臉特征進行身份特征提取，僅依靠 FaceNet 提供的二維監(jiān)督信號導(dǎo)致重建的三維人臉皮膚不能很好地反映輸入圖片人臉皮膚顏色。故而采用式(4)來進一步衡量兩張人臉的皮膚顏色損失。

由于嵌入后背景像素一致，通過對兩張圖片逐像素求l2損失，可以使得渲染后的人臉皮膚顏色逼近輸入人臉皮膚顏色。因此皮膚顏色損失函數(shù)對三維人臉重建任務(wù)提供了二維監(jiān)督信號。

1.2.4 總體損失函數(shù)

綜上，總體損失函數(shù)可由式(5)表示：

其中，wid=5，wtex=0.15 是訓(xùn)練時控制 id 損失和皮膚顏色損失比例的超參數(shù)。LGANs(G，D)為三維人臉重建任務(wù)提供了三維監(jiān)督信號，使得生成器回歸得到的3DMM 參數(shù)符合3DMM 模型假設(shè)的真實人臉3DMM 參數(shù)分布p3DMM(y)，進而迫使重建的三維人臉網(wǎng)格頂點分布接近于真實人臉頂點分布。而Lid，Ltex為三維人臉重建任務(wù)提供了二維監(jiān)督信號，Lid將三維人臉重建結(jié)果的評估移到二維空間，其中使得渲染后的二維人臉接近輸入圖片的人臉，進而迫使重建三維人臉網(wǎng)格具有輸入圖片的人臉特征，Ltex使得渲染后的皮膚顏色更加接近輸入圖片的人臉皮膚顏色。通過這三項損失函數(shù)，可以使得重構(gòu)后的人臉既符合真實三維人臉網(wǎng)格頂點的分布，又具備輸入圖片人臉的身份特征及皮膚顏色，故而使得人臉重建結(jié)果具有說服力。

2 實驗結(jié)果及分析

2.1 訓(xùn)練細節(jié)

本文實驗是在VGGFace2[12]數(shù)據(jù)集上進行訓(xùn)練，該數(shù)據(jù)集包含了 9 131 個人物的 3.31M 張圖片，圖片來源于不同的年齡、種族的人物及各個人物的不同姿勢。

由于冗余的背景信息往往對人臉重構(gòu)任務(wù)無用且降低網(wǎng)絡(luò)收斂速度，因而使用MTCNN[13]對每張圖片提取 224×224 像素的人臉。

在訓(xùn)練過程中使用了Adam 優(yōu)化算法來有效地更新網(wǎng)絡(luò)權(quán)重，學(xué)習(xí)率設(shè)置為 0.001，batch size 設(shè)置為 5，整個網(wǎng)絡(luò)共訓(xùn)練了 500k 次 iteration。

2.2 重建效果比較

因為三維人臉重建的重建效果判別較為主觀，故而主要將本文重建的三維人臉網(wǎng)格與文獻[5]～[7]重建結(jié)果進行比較。比較結(jié)果如圖4 所示，其中，輸入圖片來自文獻[6]提供的MoFA 測試圖像數(shù)據(jù)集，該數(shù)據(jù)集共包含 84 位實驗對象。

圖4 重建效果比較

從視覺效果上來說，相對于文獻[6]、文獻[7]，本文重建結(jié)果在皮膚及人臉形狀真實感上更有說服力；相對于文獻[5]，本文重建結(jié)果更能反映輸入人臉的身份特征。這說明，從渲染得到的二維圖片來說，本文重建結(jié)果渲染后更加接近真實人臉效果并保持輸入人臉的身份特征。

2.3 重建結(jié)果準(zhǔn)確性比較

為了衡量重建的三維人臉網(wǎng)格的準(zhǔn)確性，在MICC Florence[14]人臉數(shù)據(jù)庫中與文獻[5]、文獻[7]方法進行比較。

MICC Florence 人臉數(shù)據(jù)庫一共包含 53 位白種人的無表情人臉掃描，同時，數(shù)據(jù)集還提供了每位實驗對象的分別在三種條件下的三個視頻：采集人臉掃描環(huán)境、室內(nèi)環(huán)境、室外環(huán)境，可以看出，環(huán)境復(fù)雜度在依次增加。其中，文獻[7]對于視屏中每幀圖像的重建三維網(wǎng)格結(jié)果進行逐頂點求平均值，文獻[5]及本文對于視屏中每幀圖像回歸的3DMM 參數(shù)求平均值。

由于MICC Florence 人臉數(shù)據(jù)庫給出的人臉掃描頂點數(shù)與3DMM 模型的頂點數(shù)不對應(yīng)且數(shù)目不一致，故首先將回歸得到的三維人臉網(wǎng)格及人臉數(shù)據(jù)庫提供的人臉掃描均裁剪到以鼻頭為中心，95 mm為半徑的范圍內(nèi)，然后采用了各項同性的ICP 算法來將兩個三維點云進行對齊。實驗結(jié)果將 53 位實驗對象的point-to-plane 的距離求均方差。最終的準(zhǔn)確性比較結(jié)果如表1 所示。可以看出，本文的重建方法在三種環(huán)境下均優(yōu)于文獻[5]和文獻[7]方法。這得益于三維監(jiān)督信號使得三維人臉網(wǎng)格更具有真實人臉頂點分布。

表1 重建結(jié)果準(zhǔn)確性比較比較

3 結(jié)論

本文基于GANs 提出了一種無監(jiān)督回歸輸入圖片對應(yīng)的三維人臉網(wǎng)格的方法。具體來說，提出了三項并行的損失函數(shù)，GANs 損失函數(shù)使得回歸的3DMM 參數(shù)符合真實人臉參數(shù)分布，重構(gòu)的三維人臉網(wǎng)格頂點符合真實人臉頂點分布；id 損失函數(shù)使得重構(gòu)的三維人臉具有輸入人臉的身份特征；皮膚顏色損失使得重構(gòu)的三維人臉更能反映輸入人臉的皮膚顏色。在 MoFA 數(shù)據(jù)集及 MICC Florence 數(shù)據(jù)集上的實驗效果表明，重構(gòu)結(jié)果不僅保持了輸入人臉的身份特征，也在頂點位置上具有更小的誤差。