亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Star-Gan的人臉互換算法

        2020-05-20 01:35:06旭,白
        關(guān)鍵詞:特征模型

        易 旭,白 天

        (中國(guó)科學(xué)技術(shù)大學(xué) 軟件學(xué)院,安徽 合肥 230026)

        0 引言

        隨著深度學(xué)習(xí)技術(shù)的興起,圖像處理相關(guān)的研究有了一項(xiàng)強(qiáng)有力的技術(shù)支持。人臉互換在圖像處理方面作為一個(gè)里程碑式的技術(shù),意味著計(jì)算機(jī)能夠理解人臉圖像。如何通過(guò)對(duì)抗生成網(wǎng)絡(luò)實(shí)現(xiàn)人臉互換,提升生成效果是現(xiàn)如今計(jì)算機(jī)視覺(jué)的一大熱點(diǎn)。

        對(duì)于傳統(tǒng)的方法Face-swap[1],人臉互換只是把目標(biāo)人臉截取,粘貼到原始人臉上面,使用圖像融合的相關(guān)算法(如泊松融合)消除邊界,后續(xù)的改進(jìn)一般是在圖像融合方面進(jìn)行突破。

        近年來(lái),隨著深度神經(jīng)網(wǎng)絡(luò)技術(shù)的成熟,KORSHUNOVA I[2]提出基于深度學(xué)習(xí)的人臉互換,將兩個(gè)人臉的身份信息看成是兩個(gè)不同圖片風(fēng)格,為一個(gè)目標(biāo)人物訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò)提取人臉特征,換臉其實(shí)就是替換人臉的高維隱空間向量,而后再用訓(xùn)練好的人臉生成器進(jìn)行生成,這種方式要求同一身份大量的人臉數(shù)據(jù),其訓(xùn)練得到的模型只適用于這兩個(gè)身份。YUVAL N[3]提出先使用3DMM模型擬合人臉,再互換人臉,解決了需要大量同一身份人臉圖片的問(wèn)題,但3DMM仍然有人臉匹配失敗的問(wèn)題,最終導(dǎo)致模型出錯(cuò)。NATSUME R[4-5]提出了FSnet和RSGAN,使用編碼器學(xué)習(xí)整體人臉的編碼,對(duì)所有的人臉只學(xué)習(xí)一個(gè)單一的人臉身份編碼器網(wǎng)絡(luò),但由于輸出的編碼是一個(gè)高維的人臉身份向量,特征信息依然高度糾纏。

        本文借鑒前人的思想,使用Star-Gan模型作為生成器,利用Arcface[6]身份編碼器提取人臉高維身份特征,針對(duì)人臉細(xì)節(jié)的生成,使用基于U-net[7]的人臉特征編碼器模型為多層級(jí)的輸入,解決人臉特征糾纏的問(wèn)題,使用Patch-Gan的思想改造判別器網(wǎng)絡(luò)結(jié)構(gòu),引入實(shí)例歸一化層提升生成效果。

        1 Star-Gan模型[8]

        Star-Gan模型的目的是解決人臉在多個(gè)域之間的轉(zhuǎn)換問(wèn)題,通過(guò)使用循環(huán)損失保證生成圖像和背景圖像的一致性,判別器保證生成圖像的真實(shí)性,域分類(lèi)器保證轉(zhuǎn)換的有效性。調(diào)節(jié)多個(gè)損失,在生成效果上當(dāng)時(shí)達(dá)到了較優(yōu)的水平。

        Star-Gan可以作為一個(gè)不錯(cuò)的條件生成模型框架用于其他的生成任務(wù)。即將它的條件輸入替換成身份圖片的身份編碼。該模型包括3個(gè)下采樣模塊、6個(gè)殘差模塊和3個(gè)上采樣模塊。網(wǎng)絡(luò)的輸入是背景人臉圖片,在殘差層添加身份人臉的高維身份信息。最后端輸出換臉圖片。圖1是整體網(wǎng)絡(luò)架構(gòu)圖,詳細(xì)的損失細(xì)節(jié)見(jiàn)2.4節(jié)。

        圖1 模型整體框架圖

        1.1 數(shù)據(jù)預(yù)處理

        為了增強(qiáng)本模型的魯棒性及泛化能力,在保證數(shù)據(jù)標(biāo)簽不變的情況下增大數(shù)據(jù)集。本文使用圖像翻轉(zhuǎn)、添加高斯噪聲的方法擴(kuò)充數(shù)據(jù),提高模型魯棒性。

        (1)圖像翻轉(zhuǎn)

        使用圖像水平翻轉(zhuǎn)擴(kuò)充數(shù)據(jù),可直接將數(shù)據(jù)集擴(kuò)充一倍。如圖2所示,左邊的九張圖為數(shù)據(jù)集中的原始圖片,右邊為水平翻轉(zhuǎn)圖片。

        圖2 圖像水平翻轉(zhuǎn)效果

        (2)添加高斯噪聲

        (1)

        Ixy=min (0,max (1,Ixy+0.05N(0,1)))

        (2)

        1.2 實(shí)例歸一化(Instance Normalization)

        傳統(tǒng)的GAN使用批歸一化(Batch Normalization)的處理方式,雖然能提高收斂速度,但是卻會(huì)降低最終的生成效果,因?yàn)樗⒅氐氖且粋€(gè)batch的數(shù)據(jù),而更少地考慮單一圖像本身的一致性。Star-Gan使用實(shí)例歸一化,將輸入的圖像四個(gè)維度記為[N,C,H,W],N代表Batch_size,C代表通道數(shù),H和W分別是圖像的長(zhǎng)和寬。實(shí)例歸一化是在H和W維度上進(jìn)行歸一化,這樣的好處是它更加關(guān)注圖像本身的一致性,具體處理如式(3)~式(5)所示,三個(gè)公式中,t表示batch的數(shù)目,i表示通道數(shù),j和k表示圖像的像素位置,l和m表示圖像的長(zhǎng)和寬,式(3)中ε是一個(gè)極小的常數(shù),防止出現(xiàn)除以0的計(jì)算。通過(guò)式(3)處理原始圖像x,計(jì)算得出歸一化后的圖像y;式(4)計(jì)算得到原始圖像x本身像素的均值;式(5)計(jì)算得到原始圖像x本身像素的方差。

        (3)

        (4)

        (5)

        1.3 殘差層

        Resnet18[9]通過(guò)在block的輸出增加殘差層,使得網(wǎng)絡(luò)有了逼近恒等映射的能力,解決了網(wǎng)絡(luò)傳播過(guò)程中信息丟失的問(wèn)題,由于殘差層的存在,避免了深度乘法對(duì)梯度的影響。Star-Gan通過(guò)引入殘差層訓(xùn)練提升了深度學(xué)習(xí)訓(xùn)練效果,同時(shí)解決了由于網(wǎng)絡(luò)層數(shù)加深,出現(xiàn)的梯度消失現(xiàn)象。具體殘差塊如圖3所示。

        圖3 Resnet18殘差層

        圖3中,X是上一層的輸入,通過(guò)兩層的卷積層學(xué)習(xí)到新的特征輸出F(x),最后的輸出是F(x)和輸入X的疊加,梯度可以從兩條支路進(jìn)行傳播,避免過(guò)深的網(wǎng)絡(luò)導(dǎo)致的梯度消失。

        2 基于Star-Gan的人臉互換模型

        2.1 U-net結(jié)構(gòu)編碼器

        通過(guò)一個(gè)類(lèi)U-net的編碼解碼結(jié)構(gòu)提取人臉身份特征,如圖4所示,使用特征重構(gòu)損失約束編碼器學(xué)習(xí)圖片各個(gè)維度的特征。X特征是輸入圖片,X重構(gòu)是輸出圖片,中間層的特征輸出作為生成器的圖片高維特征輸入。

        2.2 Patch-Gan結(jié)構(gòu)

        Patch-Gan與傳統(tǒng)的GAN十分相似,不同的是它的判別器是一個(gè)全卷積網(wǎng)絡(luò),其輸出不是一個(gè)數(shù)字,而是一個(gè)二維矩陣,這樣的好處是它能夠保證圖片的局部一致性。判別器具體結(jié)構(gòu)如圖5所示。

        圖4 編碼器詳細(xì)結(jié)構(gòu)

        圖5 判別器詳細(xì)結(jié)構(gòu)

        2.3 Arcface人臉身份判別器

        本文使用Arcface最后一層的特征作為人臉身份信息的特征表示,并將它作為生成器前三層的身份特征輸入。

        2.4 整體損失函數(shù)和訓(xùn)練細(xì)節(jié)

        固定Arcface網(wǎng)絡(luò),網(wǎng)絡(luò)訓(xùn)練時(shí)不更新參數(shù),特征編碼器損失使用MSE損失訓(xùn)練確保每一層網(wǎng)絡(luò)能夠提取出不同維度的特征。解碼后能夠還原初始圖片。

        (6)

        為了保證生成器具有生成能力,使用了三個(gè)損失函數(shù):對(duì)抗損失LD、身份損失Lid和特征損失Latt,保證生成圖片Ys,t的真實(shí)度。具體公式如式(7)~式(9)所示。

        式(7)中X是從真實(shí)圖片中的采樣,來(lái)自于Xs和Xt,Zs和Zt是圖片分別經(jīng)過(guò)Arcface和特征編碼器提取的特征向量。

        LD=-Ex~pr[logD(X)]-Ez~pz[log(1-D(G(Zs,Zt,Xt)))]

        (7)

        式(8)中Ys,t表示換臉后的圖片,zid表示將人臉圖片輸入Arcface得到的身份特征,用兩張圖片的余弦距離作為身份相似度。

        Lid=1-cos(zid(Xs),zid(Ys,t))

        (8)

        提取多層級(jí)的人的身份特征后,使用Latt損失函數(shù)評(píng)估身份特征的保持。因?yàn)槭褂昧?層的身份特征,此時(shí)式(9)中n=5。

        (9)

        為了達(dá)到人臉互換的目的,需要最小化上述所有三個(gè)損失,最終損失L如式(10)所示,其中λid和λatt是訓(xùn)練時(shí)的兩個(gè)超參數(shù),調(diào)節(jié)三個(gè)損失的比例,這里設(shè)定λid=10和λatt=1。

        L=LD+λidLid+λattLatt

        (10)

        3 實(shí)驗(yàn)結(jié)果及分析

        實(shí)驗(yàn)環(huán)境為:Linux16.04的64位操作系統(tǒng);顯卡型號(hào)為RTX1080ti,并行化處理,每張顯卡擁有12 GB 顯存;使用Pytorch1.0.1環(huán)境;Python3.6包括python-open-cv庫(kù)以及Scipy。

        因人臉互換的輸出判別較為主觀,本文將輸出圖像與FF++的人臉互換模型中的Faceswap和Deepfake模型進(jìn)行比較。

        3.1人臉互換泛化能力測(cè)試

        初始訓(xùn)練時(shí)使用最新的FFHQ人臉數(shù)據(jù)集進(jìn)行訓(xùn)練,Arcface模型使用原Arcface論文提供的預(yù)訓(xùn)練模型。為了加速模型訓(xùn)練,將FFHQ的圖片縮放到3×256×256進(jìn)行訓(xùn)練,圖6是最終輸出結(jié)果,最上面一行為身份人臉Xs,最左邊是特征人臉,可以看出本文模型在很好地保持背景人臉的背景風(fēng)格的同時(shí)可以很好地保持人臉的身份特征,且較少出現(xiàn)圖像失真的情況。即使在雙方差異很大的情況下,模型仍然能夠保持良好的生成情況。第二列身份圖片和背景臉部朝向有很大的差距;第三列、第五列和第六列改變了性別,但生成器仍然能夠得到他們的合成圖片;第四列和第五列分別測(cè)試了年齡上的差異性,結(jié)果顯示模型在兩張圖片差異較大的情況下仍然能夠處理相應(yīng)的人臉圖片,具有較好的泛化能力。

        圖6 模型基于FFHQ數(shù)據(jù)集訓(xùn)練人臉互換結(jié)果

        3.2 人臉互換效果比較

        為了衡量本文模型的生成效果,將模型生成的圖片和Deepfake以及Faceswap的生成圖片進(jìn)行比較,此時(shí)不使用人臉數(shù)據(jù)集FFHQ進(jìn)行訓(xùn)練,僅使用FaceForensics++[10]數(shù)據(jù)集中視頻人臉數(shù)據(jù)進(jìn)行訓(xùn)練和替換。訓(xùn)練時(shí)對(duì)視頻幀進(jìn)行采樣,每1秒采樣10幀,為了保持背景盡量一致,保持Arcface固定不變,訓(xùn)練時(shí)提升L1損失的權(quán)重λatt=20,訓(xùn)練效果如圖7所示。

        圖7 模型與Faceswap、Deepfake視覺(jué)效果對(duì)比

        由圖7可以發(fā)現(xiàn)Faceswap方法的人臉會(huì)出現(xiàn)強(qiáng)烈的失真和臉部變形,其主要是由于Faceswap的方法著重于將身份人臉直接替換到背景人臉,導(dǎo)致前后幀不一致從而形成失真。而Deepfake著重于人臉框的替換,這樣的好處是其不需要關(guān)注背景的信息,但顯而易見(jiàn)地,它趨向于模糊化人臉,目標(biāo)人臉無(wú)法很好地融合進(jìn)背景人臉中。

        3.3 使用Face-net[11]比較人臉身份的保持

        Face-net是一個(gè)人臉識(shí)別的框架,它可以通過(guò)計(jì)算人臉圖片的高維特征的余弦距離衡量?jī)蓮埲四樦g的身份相似性。表1是將圖7的五種圖片分別與身份人臉比較,輸入Face-net網(wǎng)絡(luò)后計(jì)算得到的歐氏距離。距離越小表示身份越相似。經(jīng)過(guò)大量數(shù)據(jù)的測(cè)試,可以認(rèn)為兩張人臉是同一個(gè)人的閾值約為1.1,即余弦距離低于1.1,則可以認(rèn)為兩張圖片是同一個(gè)人,當(dāng)圖片完全一致時(shí),距離為0。

        表1 模型與Faceswap,Deepfake身份保持對(duì)比

        由于人臉互換模型的重點(diǎn)是保持身份特征,所以只需要關(guān)注表1第一行身份人臉和其他所有人臉的相似度。本文模型最大限度地保持了人臉身份,Deepfake也比較出色地完成了人臉互換,但是由于它只考慮到臉部中心區(qū)域,因此最后的效果比本文模型略差。而Faceswap只用了簡(jiǎn)單的扣取加替換方式,導(dǎo)致生成的人臉的一致性較低,與身份人臉的相似性較低。第二行顯示出本文模型轉(zhuǎn)換的圖片與特征人臉的身份差距較大,高于其他兩個(gè)人臉互換模型,證明本文模型更少地依賴(lài)特征人臉的身份信息。

        4 結(jié)論

        本文基于Star-Gan構(gòu)造了一個(gè)人臉互換模型,針對(duì)人臉身份獨(dú)立設(shè)計(jì)了一個(gè)編碼器用于提取身份,使用多層級(jí)的思想改良了生成器Star-Gan,實(shí)現(xiàn)了一個(gè)人臉互換的模型。在FaceForensics++數(shù)據(jù)集上的實(shí)驗(yàn)效果表明,該模型在生成效果和人臉身份保持上優(yōu)于現(xiàn)有的人臉互換模型。但該模型仍有缺陷,其雖然有良好的泛化能力,但針對(duì)初始身份人臉數(shù)量較少時(shí),模型效果仍然有待提升。

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        亚洲国产a∨无码中文777| 亚洲av永久青草无码精品| 精品人妻久久av中文字幕| 国产一区二区三免费视频| 高潮抽搐潮喷毛片在线播放| 国产真人无码作爱视频免费| 国产精品国产三级国产专区5o| 国产av精品久久一区二区| 一二三四五区av蜜桃| 亚洲性啪啪无码av天堂| 欧美视频九九一区二区| 国产精品久久久看三级| 国产亚洲精品美女久久久久| av在线亚洲欧洲日产一区二区| 久久久久久国产精品免费网站| 亚洲伊人av综合福利| 狠狠色噜噜狠狠狠狠97首创麻豆| 国产乱妇乱子在线播视频播放网站| 2021年最新久久久视精品爱| 白白色发布视频在线播放| 亚洲熟妇无码久久精品| 欧美亚洲日韩国产人成在线播放 | 国产高清吃奶成免费视频网站| 亚洲一级天堂作爱av| 精品亚洲国产成人蜜臀av| 中文字幕熟妇人妻在线视频| 色婷婷久久免费网站| 亚洲综合视频一区二区| 热久久美女精品天天吊色| 高清无码一区二区在线观看吞精| 精品丝袜一区二区三区性色| 国产毛片av一区二区| 99在线精品免费视频九九视| 视频国产精品| 天堂一区二区三区精品| 正在播放老肥熟妇露脸| 亚洲男人的天堂网站| 少妇人妻字幕一区二区| 久久婷婷五月综合色高清| 日韩精品人妻系列无码专区免费| 国产高清女人对白av在在线|