林 泓,陳壯源,任 碩,李 琳,李玉強
(武漢理工大學計算機科學與技術,武漢 430063)
人臉屬性遷移可以看成是一類圖像域到圖像域的任務[1],其主要應用于數(shù)據(jù)預處理、輔助人臉識別、娛樂社交等領域。生成對抗網(wǎng)絡[2]作為當前人臉屬性遷移的主流架構,結合零和博弈的思想,在判別器和生成器協(xié)同對抗訓練中不斷提高生成圖像的真實性和質量。相比使用配對圖像訓練數(shù)據(jù)集的有監(jiān)督圖像遷移方法[3],無監(jiān)督圖像遷移方法可以通過非配對圖像數(shù)據(jù)集完成圖像域遷移,具有更廣泛的應用場景[4]。
根據(jù)訓練過程中建立的源圖像域和目標圖像域的映射關系,無監(jiān)督圖像遷移分為單圖像域遷移和多圖像域遷移[5]。針對單圖像域之間的映射關系,文獻[6]提出DFI 方法,根據(jù)線性特征空間假設直接從源圖像域特征空間學習目標圖像的屬性特征,以實現(xiàn)單圖像域人臉屬性的遷移。文獻[7]提出cycleGAN 方法,引入循環(huán)重構一致性約束,采用兩個生成器和判別器在另外一個生成器中對生成的遷移圖像進行重構,從而更好地建立圖像域之間的映射關系。文獻[8]在cycleGAN 的基礎上,通過引入自注意力機制建立像素間遠近距離的依賴性,以更好地還原圖像的細節(jié)信息,并通過譜規(guī)范化提升模型的穩(wěn)定性,從而提高遷移圖像的真實性。但是無監(jiān)督的單圖像域人臉屬性遷移只能在單個人臉屬性圖像域之間進行,如果進行多個圖像域遷移,需分別對每個圖像域進行單獨訓練,增大了訓練的難度。
多圖像域人臉屬性遷移是單圖像域遷移的拓展,其目標是在一次訓練過程中完成多個圖像域之間的遷移。文獻[9]提出IcGAN 方法,使用標簽完成人臉圖像重構以及多圖像域遷移,采用兩個編碼器分別提取圖像中的內容信息和屬性標簽信息,再通過CGAN[10]生成指定的遷移圖像。文獻[11]在UNIT[12]基礎上提出MUNIT 方法,基于圖像可以分解成固定的內容編碼和樣式編碼的假設,利用自適應實例歸一化融合兩個編碼器,并分別提取內容編碼和樣式編碼,從而完成多圖像域的遷移任務。文獻[1]提出的ELEGANT 方法,通過提取圖像中各個屬性的內容信息來建立每個屬性和隱層編碼特征向量的位置關系,以指導多圖像域人臉屬性遷移。同樣,文獻[13]提出的StarGAN 方法,在生成器網(wǎng)絡中引入目標圖像域標簽信息,通過循環(huán)重構一致性約束保證遷移圖像域前后的一致性,并結合分類損失函數(shù)指導建立源圖像域和目標標簽的映射關系,從而完成多圖像域人臉屬性遷移。文獻[14]在StarGAN 基礎上提出StarGAN v2,利用映射網(wǎng)絡生成樣式編碼信息,生成器將源域輸入圖像和生成的樣式編碼信息遷移成目標域圖像,以增加遷移圖像域的多樣性。文獻[15]基于Attgan[16]提出STGAN方法,利用選擇性傳輸單元(Selective Transfer Units,STU)將編碼器提取的圖像內容特征根據(jù)差分屬性標簽選擇性傳輸?shù)浇獯a器,以降低跳躍連接對圖像分辨率的影響,從而減少無關圖像域的變化,且提升多圖像域人臉屬性遷移的質量。
當前多圖像域人臉屬性遷移方法能夠較好地建立目標標簽與遷移圖像域之間的對應關系,但仍存在圖像域表達形式多樣性差、無關遷移圖像域變化較大和判別器準確度低的問題,通過類別標簽指導的多圖像域人臉屬性遷移直接輸入離散形式的目標標簽,一方面無法明確遷移目標圖像域和源圖像域之間的差異,另一方面造成圖像域表達方式多樣性的損失。下采樣的卷積操作導致圖像分辨率降低和圖像遷移細節(jié)失真。單個判別器的鑒別能力無法準確定位遷移的圖像域,導致判定準確度低,從而降低生成圖像的協(xié)調性與真實性。在尋找納什均衡解的過程中,判別器未能很好地使用輸入數(shù)據(jù)(一半是真一半是假)的先驗知識,導致目標圖像域定位不夠準確,且指定圖像域的遷移效果欠佳。
為改進多圖像域人臉屬性遷移的視覺效果,本文提出一種多圖像域人臉屬性遷移方法。在生成器網(wǎng)絡設計中,通過引入相對屬性標簽[18]和選擇性傳輸單元,遷移目標圖像域。利用圖像域控制器和自適應實例歸一化[19]融合內容特征和樣式特征。在判別器網(wǎng)絡設計中,采用雙尺度判別提高人臉屬性遷移的圖像質量。在損失函數(shù)設計中,設計融合相對鑒別[20]與鉸鏈損失的鉸鏈對抗損失函數(shù),從而提升指定圖像域的整體遷移效果。
人臉屬性遷移任務的本質是在保證其他區(qū)域像素不變的情況下,通過修改特定部分的像素獲取遷移目標圖像?;诖耍疚脑O計的多圖像域人臉屬性遷移整體結構由一個生成器G和兩個判別器D組成,如圖1 所示。生成器網(wǎng)絡由基本網(wǎng)絡和圖像域控制器組成,其中基本網(wǎng)絡由編碼器、解碼器構成,圖像域控制器由多層感知機(Multilayer Perceptron,MLP)構成,主要生成目標圖像的樣式信息。判別器整體結構由鑒別網(wǎng)絡和分類網(wǎng)絡2 個部分組成,真假信息由鑒別網(wǎng)絡輸出,遷移圖像域類別信息由分類網(wǎng)絡獲取,如圖1 所示。
圖1 本文模型整體結構Fig.1 Overall structure of the proposed model
從圖1 可以看出,屬性標簽中每個位置的具體值分別表示其中的一種人臉屬性圖像域,為減少目標圖像域和生成圖像域之間的差異性,本文模型采用相對屬性標簽作為輸入,模型的整體流程主要是將真實圖像a和相對屬性標簽lrelative輸入到生成器G,生成器根據(jù)相對屬性標簽lrelative將真實圖像a遷移為圖像b,為保證遷移圖像和原始圖像的一致性,將生成的圖像b根據(jù)屬性標簽-lrelative再次經過生成器G重新生成循環(huán)重構的圖像a′。在判別器中利用卷積神經網(wǎng)絡獲得生成器所生成圖像各個域特征信息的分類損失,以建立生成圖像與相對屬性標簽的映射關系,同時對生成圖像進行真假鑒定,從而獲取生成圖像與原始圖像的對抗損失,更好地引導圖像域的遷移。
本文模型設計了相對屬性標簽,通過單個生成器和雙尺度判別器相互對抗,使其專注于生成目標圖像域,利用對抗損失和分類損失指導生成器建立相對屬性標簽和生成圖像域的映射,從而完成多圖像域遷移任務。
本文生成器的整體結構由圖像域控制器、上采樣、中間區(qū)域、下采樣和選擇性傳輸單元5 個部分組成。由MLP 構成的圖像域控制器將目標圖像的相對屬性標簽和高斯分布的噪聲數(shù)據(jù)遷移為圖像域樣式信息;由卷積神經網(wǎng)絡組成的下采樣區(qū)域提取圖像的內容特征信息;由自適應實例歸一化(AdaIN)殘差網(wǎng)絡塊結構組成的下采樣區(qū)域,融合提取的內容信息和圖像域控制器生成的樣式信息;STU 將在下采樣區(qū)域中的圖像內容特征信息傳輸?shù)缴喜蓸訁^(qū)域中;反卷積神經網(wǎng)絡組成的上采樣區(qū)域將融合的特征遷移成圖像。具體結構如圖2所示。
圖2 融合域控制器和選擇性傳輸單元的生成器結構Fig.2 Structure of generator with domain controller and selective transfer units
在生成器的參數(shù)設置上,除上采樣輸出層使用Tanh 作為非線性激活函數(shù)以外,其他區(qū)域的卷積神經網(wǎng)絡均選擇ReLU 作為激活函數(shù)。圖像歸一化處理時在下采樣區(qū)域卷積層采用IN,在中間區(qū)域的殘差網(wǎng)絡塊采用AdaIN,其他參數(shù)設置如表1 所示。
表1 生成器的參數(shù)設置Table 1 Parameter settings of generator
1.2.1 圖像域控制器
采用離散形式的目標標簽作為輸入,一方面導致無法建立明確的遷移圖像域和源圖像域映射關系,另一方面造成生成圖像的圖像域表達形式單一。本文利用相對屬性標簽代替目標標簽,將相對屬性標簽與隨機的噪聲數(shù)據(jù)拼接作為圖像域控制器的輸入。圖像域控制器根據(jù)不同的隨機噪聲生成圖2 中的目標圖像域樣式信息w,并利用中間區(qū)殘差網(wǎng)絡塊中的自適應實例歸一化,將圖像域控制器生成的樣式信息和下采樣提取的內容特征信息進行融合,以增加圖像域表達方式的多樣性。
圖像域控制器結構由4層感知機網(wǎng)絡組成,將c維隨機高斯噪聲數(shù)據(jù)和n維相對屬性標簽數(shù)據(jù)拼接后作為輸入,n代表訓練的屬性個數(shù),輸出維度設定為殘差網(wǎng)絡深度的2 倍,m代表AdaIN 層數(shù),整體結構參數(shù)設置如表2 所示。
表2 圖像域控制器的參數(shù)設置Table 2 Parameter settings of image domain controller
1.2.2 自適應實例歸一化殘差網(wǎng)絡
為更好地融合圖像域控制器生成的樣式信息和遷移圖像的內容信息,本文在生成器中采用多個自適應實例歸一化(AdaIN)殘差網(wǎng)絡塊組成中間區(qū),將圖像域控制器的輸出作為殘差網(wǎng)絡塊的輸入樣式信息,并利用AdaIN 融合圖像內容特征信息和樣式特征信息,以保留原圖像內容信息的同時增加樣式的多樣性。
AdaIN[19]是基于IN 的改進,將圖像內容信息與樣式信息的均值和標準差對齊,從而更好地融合不同的圖像域信息。x表示圖像內容信息,y表示樣式信息,AdaIN 的計算如式(1)~式(3)所示:
1.2.3 選擇性傳輸單元
下采樣的卷積操作僅通過跳躍連接將下采樣提取的特征傳輸?shù)缴喜蓸樱y以有效地增加遷移圖像域的細節(jié)特征信息。針對此問題,本文引入STU[15]將下采樣提取的特征根據(jù)輸入的相對屬性標簽選擇性地傳輸?shù)缴喜蓸?,以形成融合特征,從而增加遷移圖像域的細節(jié)信息,減少無關圖像域的變化。STU是在GRU[17]基礎上進行改進,結構如圖3 所示。
圖3 選擇性傳輸單元結構Fig.3 Structure of selective transfer units
為建立明確的相對屬性標簽和遷移圖像域之間的映射關系,本文在對輸入圖像真?zhèn)舞b別的基礎上增加類別的判定,通過類別的分類損失引導生成器明確標簽中每個位置上的數(shù)值信息與遷移目標圖像域的對應關系,從而根據(jù)相對屬性標簽生成遷移的目標圖像域。
在判別器結構設計中,判別器D1對尺寸為H×W的輸入圖像進行判別,判別器D2對平均池化后尺寸為H/2×W/2 的圖像進行判別。雙尺度判別的對抗損失和分類損失的計算如式(10)所示:
式(10)是通過協(xié)同鑒定圖像真?zhèn)魏皖悇e,解決單一判別器判定準確度低的問題,雙尺度判別器結構如圖4 所示。判別器網(wǎng)絡由真?zhèn)舞b定結構和圖像域分類結構組成,共享0~2 層網(wǎng)絡,在真假鑒別區(qū)采用PatchGAN[3]輸出真?zhèn)涡畔?,分類區(qū)輸出分類信息,具體參數(shù)設置如表3 所示。
圖4 雙尺度判別器結構Fig.4 Structure of dual-scale discriminator
表3 具有多分類結構的判別器參數(shù)設置Table 3 Parameter settings of discriminator with multi-classification structure
從表3可以看出,除輸入層和輸出層以外,判別器模型均采用譜歸一化(Spectral Normalization,SN)提高模型整體訓練的穩(wěn)定性。m為當前特征通道尺寸,如本文的輸入圖像尺寸為128,共享區(qū)網(wǎng)絡有3 層,則m設置為8,n為輸入圖像的類別標簽長度,如本文訓練5 種屬性,則n設置為5。
本文選擇在不同權重比例超參數(shù)λ1=0.3λ2=0.7、λ1=0.4λ2=0.6 和λ1=0.5λ2=0.5 的雙尺度判別器上進行實驗,驗證了λ1和λ2選擇0.5 效果最優(yōu)。
本文所提的人臉屬性遷移模型是基于STU 和鉸鏈對抗損失,通過循環(huán)一致性約束確保輸入圖像和遷移圖像內容特征的一致性,利用分類損失指導生成器建立屬性標簽與生成圖像的關聯(lián);同時,將相對對抗損失與鉸鏈損失相結合以關注整體樣本間的差異,從而指導人臉屬性的遷移,整體損失如式(11)所示:
其中:LRHingeGAN為鉸鏈對抗損失;重構損失由循環(huán)重構損失Lrec和自我重構損失Lidt兩個部分組成;Lcls為屬性標簽分類損失;λrec、λidt和λcls分別為循環(huán)重構、自我重構和分類損失的權重比例超參數(shù)。
GAN 的對抗損失是為了尋找在零和博弈狀態(tài)下的納什均衡解,在圖像遷移任務中,即生成與原始真實圖像分布相同的圖像。文獻[2]提出的原始GAN 中損失函數(shù)如式(12)所示:
其中:Pdata(x)為圖像域X的樣本分布;Pdata(z)為圖像域Z的樣本分布。當判別器D測量JS 散度的最小值時,由于其不具有輸入數(shù)據(jù)一半是真一半是假的先驗知識,會出現(xiàn)對所有的輸入x均為D(x) ≈1 的情況,從而造成判別器難以同時依賴真實數(shù)據(jù)和生成數(shù)據(jù),最終真實數(shù)據(jù)與生成數(shù)據(jù)的概率難以達到理想狀態(tài)下的0.5,即難以找到真實的納什均衡解。
針對原始生成對抗損失未能充分利用輸入數(shù)據(jù)一半是真一半是假的先驗知識,本文引入相對鑒別[20]的思想,采用相對真假代替絕對真假,增大生成數(shù)據(jù)為真的概率的同時減小真實數(shù)據(jù)為真的概率。在人臉屬性遷移任務中,本文通過訓練真?zhèn)螆D像之間的間隔邊界以提高生成圖像的真實性。因此,本文在真假二分類過程中利用鉸鏈損失尋找不同分布間的最大間隔,以嚴格決策真?zhèn)螆D像間的最大間隔邊界[21],進而關注所有樣本間的差異性,從而提升判別器真?zhèn)舞b別的能力與生成圖像的真實性和質量。最終,本文將相對鑒別與鉸鏈損失相結合,得到判別器和生成器的對抗損失如式(13)所示:
其中:x為 輸入圖 像;Pdata為真實 數(shù)據(jù)分 布;Dsrc為判別器D中的真?zhèn)舞b別結構;lrelative為相對屬性標簽;max()為取兩者間最大值函數(shù)。
本文的重構損失由循環(huán)重構和自我重構組成,通過增加自我重構以保證人臉屬性遷移圖像內容的一致性。
2.2.1 循環(huán)重構
在人臉屬性遷移任務中,循環(huán)重構不僅保留原始圖像的結構和內容等信息,同時還遷移指定的圖像域,僅利用對抗損失無法保證生成圖像與原圖像結構和內容信息的一致性。為更好地建立相對屬性標簽和遷移圖像間的映射關系,本文引入循環(huán)一致性條件約束,通過相對屬性標簽引導人臉屬性遷移。首先原始圖像a在相對屬性標簽lrelative的引導下,生成器G將原始圖像遷移成目標圖像b=G(a,lrelative);然后生成圖像b在標簽-lrelative的引導下,再次經過生成器G還原得到a的循環(huán)重構圖像a'=G(b,-lrelative)。循環(huán)重構損失如式(14)所示:
2.2.2 自我重構
為避免無關圖像域在遷移過程中發(fā)生改變,本文引入自我重構一致性約束以降低無關圖像域的變化。在自我重構過程中,對于任意的真實圖像a,在無差異屬性標簽的引導下,a經過生成器重構成原圖像a',減少無關圖像域的變化。自我重構損失的計算如式(15)所示:
其中:0 為無差異屬性標簽。
為保持原圖像域和遷移圖像域的一致性,本文設計分類損失以平衡輸入標簽與判別器輸出類別之間的差異。本文通過相對屬性標簽指導圖像遷移,以判定生成圖像中每個遷移圖像域特征的類別,從而加強相對屬性標簽和生成圖像之間的聯(lián)系,并完成目標圖像域的遷移。為區(qū)分不同的目標圖像域,本文采用多分類任務的交叉熵作為分類損失函數(shù)。判別器和生成器的分類損失如式(16)所示:
其中:x為輸入圖像;lorg為原始標簽;lsrc為目標標簽;Dcls為判別器D中的分類結構。
本文采用的數(shù)據(jù)集CelebA[22]由202 599 張人臉圖片組成,總共10 177 個名人,每張圖片有40 個二分屬性標簽。本文將數(shù)據(jù)集中原始大小為178×218 的圖像裁剪成178×178,并重新調整大小為128×128,隨機選擇其中1 999 張作為測試數(shù)據(jù)集,其余200 600 張作為訓練數(shù)據(jù)集。
在數(shù)據(jù)集上,本文通過選取發(fā)色(黑發(fā)、金發(fā)、棕發(fā))、性別和年齡這5 種屬性進行人臉屬性遷移實驗,并分別與采用標簽訓練的IcGAN、StarGAN 和STGAN 進行對比。本文選取發(fā)色(黑發(fā)、金發(fā)、棕發(fā))、劉海和眼鏡這5 種屬性完成多樣性效果實驗。
本文實驗CPU為40 Intel?Xeon?Silver 4210 CPU@2.20 GHz,31 GB;GPU 為NVIDIA GeForce RTX 2080 Ti,11 GB;操作系統(tǒng)為Ubuntu 18.04 LTS;開發(fā)環(huán)境為PyTorch 1.7.0,python 3.6.12,CUDA 10.0.130
在模型參數(shù)設置上,訓練集的迭代批次batch_size設置為16,生成器中間區(qū)域殘差塊個數(shù)設置為6;采用TTUR[23]策略提高判別器的收斂速度,生成器和判別器的學習率分別設置為0.000 1和0.000 2;在權重選擇上,循環(huán)重構超參數(shù)λrec和自我重構超參數(shù)λidt都設置為10,分類損失超參數(shù)λcls設置為1;在模型優(yōu)化訓練上,選取Adam 作為梯度下降算法,算法的一階矩估計和二階矩估計的指數(shù)衰減率參數(shù)分別設置為0.5 和0.999;選取70×70 的尺寸作為PatchGAN 判別區(qū)域的patch_size。具體實驗訓練參數(shù)設計如表4 所示。
表4 訓練參數(shù)設置Table 4 Training parameter settings
本文采用分類準確率(CCA)、FID(Frechet Inception Distance)和用戶調研評價(UUS)作為人臉屬性遷移效果的評價指標。
1)分類準確率CCA能有效反映遷移圖像域的準確性。本文利用圖像分類模型對真實圖像進行訓練,將其得到的分類準確率作為基準值,然后根據(jù)訓練好的模型對生成圖像進行分類,將得到的分類準確率與基準值進行對比。準確率越高,越容易區(qū)分遷移圖像的圖像域,生成圖像的效果越好。本文的分類模型選擇Xception[24]網(wǎng)絡,分類準確率如式(17)所示:
2)FID 能有效評估GAN 生成圖像質量的指標,用于度量2 個圖像數(shù)據(jù)集之間的相似性。本文通過將原始圖像數(shù)據(jù)集和GAN 生成的圖像數(shù)據(jù)集擬合到Inception[25]網(wǎng)絡,由網(wǎng)絡對所得到的兩個高斯分布之間的弗雷謝距離進行計算。FID 數(shù)值越低,代表生成圖像的真實性越高,遷移圖像的效果越好。定義X1~N(μ1,σ1)為真實數(shù)據(jù)集X1的高斯分布,X2~(μ2,σ2)為生成數(shù)據(jù)集的高斯分布,F(xiàn)ID 如式(18)所示:
3)用戶調研評價UUS能有效反映人眼對遷移圖像質量的評估,是屬性遷移常用的主觀評價方法。從測試集隨機選擇M張圖像輸入到不同的模型,根據(jù)相同輸入圖像的輸出圖像分成M組。被評選為最佳效果圖的次數(shù)越多,代表該模型的視覺效果越好,圖像遷移質量越高。UUS如式(19)所示:
其中:n為被評為最佳效果圖的次數(shù)
為驗證自適應實例歸一化和選擇性傳輸單元對遷移效果的影響,本文在CelebA 數(shù)據(jù)集上進行圖像遷移實驗。
3.3.1 鉸鏈對抗損失和選擇性傳輸單元效果評估
本文實驗進行了160 000~200 000 次迭代,當?shù)螖?shù)達到200 000 次時,模型處于完全收斂狀態(tài),故選擇200 000 次作為模型最終的迭代訓練次數(shù)。
為達到最優(yōu)的遷移效果,本文選擇雙尺度判別并選取原始圖像H×W和平均池化后的圖像H/2×W/2作為判別器的輸入。單尺度判別因缺少細節(jié)特征的判定,導致整體遷移圖像略顯失真。然而多尺度判別過于強調背景的細節(jié)特征,導致整體遷移圖像的背景等無關圖像域變化較為明顯,雙尺度判別能協(xié)同鑒定輸入圖像的真?zhèn)渭邦悇e,以提升圖像細節(jié)特征的判定準確度,提高遷移圖像的質量。
為驗證鉸鏈對抗損失和選擇性傳輸單元融合的有效性,在相同實驗環(huán)境下,不同條件的實驗對比結果如圖5 所示。
圖5 不同條件下的實驗結果對比Fig.5 Comparison of experimental results with different conditions
從圖5 可以看出,第1 行采用鉸鏈對抗損失和基本圖像生成結構的遷移效果,第2 行采用原始對抗損失和選擇性傳輸單元的遷移效果,第3 行融合鉸鏈對抗損失和選擇性傳輸單元的遷移效果。從第1行和第3行可以看出,通過增加選擇性傳輸單元后,在圖像域特征細節(jié)上的遷移效果更加明顯,如第3 列轉換金發(fā)屬性時,融合鉸鏈對抗損失和選擇性傳輸單元的圖像遷移效果中金發(fā)部分失真明顯減少。當?shù)? 列轉變?yōu)榕詴r,融合鉸鏈對抗損失和選擇性傳輸單元的背景顏色更接近輸入圖像;第6 列在年齡增大后面部輪廓特征更加明顯。從第2 行和第3 行可以看出,增加鉸鏈對抗后的圖像遷移效果能夠有效減少無關圖像域的轉變,如在第2 列遷移黑發(fā)屬性圖像域中,人物的膚色更接近輸入圖像的膚色;第5 列轉變?yōu)榕詴r,嘴唇的口紅顏色更鮮艷以及面部輪廓也更加明顯。第1 行和第3行的圖像遷移結果表明選擇性傳輸單元能改進圖像的細節(jié)特征;第2 行和第3 行的圖像表明鉸鏈對抗損失減少了無關圖像域的遷移。
本文在不同條件下計算生成圖像FID的數(shù)值,如表5所示,加粗表示最優(yōu)數(shù)據(jù)。從表5可以看出,與鉸鏈對抗損失相比,采用鉸鏈對抗損失+選擇性傳輸單元得到遷移圖像域的FID平均降低了0.652,即遷移的圖像域更接近真實圖像;與選擇性傳輸單元相比,采用鉸鏈對抗損失+選擇性傳輸單元得到遷移圖像域的FID平均降低了5.228。
表5 在不同條件下FID 對比Table 5 FID comparison under different conditions
實驗結果表明,鉸鏈對抗損失可以充分利用輸入數(shù)據(jù)一半是真一半是假的先驗知識,從而提高遷移圖像的真實性;選擇性傳輸單元可以解決下采樣的卷積操作存在圖像細節(jié)信息缺失的問題。融合鉸鏈對抗損失和選擇性傳輸單元可以有效提高本文整體模型遷移圖像的質量。
3.3.2 自適應實例歸一化效果評估
為評估融合域控制器和AdaIN 殘差網(wǎng)絡增加遷移圖像域表達方式的多樣性效果,本文選取發(fā)色(黑發(fā)、金發(fā)、棕發(fā))、眼鏡和劉海屬性作為訓練的屬性標簽進行實驗。在輸入圖像和相對屬性標簽不變的條件下,根據(jù)不同的隨機噪聲數(shù)據(jù),輸出遷移圖像,從多組圖像中選取具有代表性的輸出圖像。未采用AdaIN 和采用AdaIN 的實驗結果對比如圖6 所示。
圖6 本文方法未采用AdaIN 和采用AdaIN 的實驗結果對比Fig.6 Experimental results comparison of the proposed method with AdaIN and without AdaIN
從圖6(a)可以看出,未采用AdaIN的圖像遷移效果除發(fā)色變化之外,劉海比較稠密且向左下斜,鏡片是顏色略深的方形,樣式單一。從圖6(b)可以看出,采用融合域控制器與AdaIN后,劉海彎曲形狀的斜右下樣式、略微稀疏的左下斜樣式,鏡片輪廓上有方形的和橢圓形的,且顏色上是黑色的、白色的,均呈現(xiàn)多種不同的樣式。
為進一步驗證劉海和眼鏡遷移圖像多樣性的質量,本文計算相對應的FID 數(shù)值,如表6 所示。采用AdaIN 能有效提升眼鏡和劉海多種表達方式的真實性。實驗結果驗證融合域控制器與AdaIN 的有效性,將不同的隨機噪聲輸入到圖像域控制器,能有效增加圖像域樣式的多樣性。
表6 本文方法未采用AdaIN 和采用AdaIN 的FID 對比Table 6 FID comparison of the proposed method with AdaIN and without AdaIN
綜合以上的對比實驗可以得出:鉸鏈對抗損失通過訓練真?zhèn)螆D像的間隔邊界,可以更好地提高生成圖像的真實性;選擇性傳輸單元能有效降低下采樣的卷積操作對圖像分辨率的影響,提高圖像遷移的細節(jié)信息;融合圖像域控制器與AdaIN 可以實現(xiàn)圖像域多樣性的表達。
本文的圖像域屬性遷移模型經一次訓練后,既可以完成單個屬性的圖像域遷移,也可以同時完成多個屬性的圖像域遷移。為驗證本文方法在單個屬性遷移和多個屬性同時遷移的有效性,在相同的實驗環(huán)境下,本文選取發(fā)色(黑發(fā)、金發(fā)、棕發(fā))、性別和年齡這5 種屬性進行訓練,與同樣完成人臉屬性遷移工作的IcGAN[9]、StarGAN[13]和STGAN[15]進行對比實驗。
本文均復現(xiàn)原作者源代碼進行對比:1)IcGAN,在CGAN 基礎上融合Z 和Y 編碼器完成多圖像域遷移工作,引入標簽完成多圖像域遷移任務;2)StarGAN,經過一次訓練即可完成多圖像域遷移任務,通過循環(huán)一致性約束和分類損失完成多圖像域遷移任務;3)STGAN,經過一次訓練即可完成多圖像域遷移任務,在生成器的輸入中加入差分屬性和選擇性傳輸單元完成圖像遷移任務。
3.4.1 單屬性遷移
在經過一次訓練完成的多圖像域遷移模型中,本文分別改變輸入圖像單個目標圖像域屬性標簽,以生成人臉屬性遷移圖像。本文選取具有代表性的生成圖像進行單個屬性遷移效果對比,如圖7 所示。
從圖7(a)可以看出,采用IcGAN 方法將發(fā)色遷移成黑發(fā)時,出現(xiàn)了明顯的胡子,發(fā)型也發(fā)生了轉變,整體圖像失真嚴重;從圖7(b)可以看出,采用StarGAN 方法將發(fā)色遷移成金發(fā)時,斜向左的劉海發(fā)絲略微失真且不自然,遷移成男性時,唇部顏色略顯蒼白,面部膚色也略顯暗淡。從圖7(c)和圖7(d)可以看出,采用STGAN 和本文方法將發(fā)色遷移成黑發(fā)時,發(fā)色自然且發(fā)絲更加逼真;當增加圖像中人物年齡時,遷移圖像顯示僅改變了臉上的皺紋。因此,IcGAN 遷移效果中整體圖像細節(jié)模糊且背景變化大,StarGAN 遷移效果中部分細節(jié)不夠真實,STGAN 和本文方法都較好地完成了屬性的遷移,整體圖像顯得自然、真實,無關圖像域變化小。
圖7 不同方法的單個屬性遷移效果對比Fig.7 Single attribute migration effects comparison among different methods
為體現(xiàn)實驗的公正性,本文選擇10 名研究生分別對5 種屬性的遷移效果圖進行評選,遷移效果圖由30 組評價樣本組成,每組評價樣本由4 張相同的測試輸入圖像及4 種方法的遷移效果圖構成,以得到10×30=300 組遷移效果對比主觀評價結果。用戶評選最佳圖像標準如下:
1)圖像質量,輪廓邊緣、頭發(fā)和五官等細節(jié)清晰,整體真實的遷移圖像質量最佳。
2)無關圖像域變化,其他無關圖像域變化少,且符合目標圖像域特征的遷移圖像質量最佳。
用戶調研數(shù)據(jù)從300 組用戶問卷評估數(shù)據(jù)統(tǒng)計得到,每種方法在該對應屬性遷移上所占的百分比如表7 所示,加粗表示最優(yōu)數(shù)據(jù)。IcGAN 整體遷移圖像效果較差。在金發(fā)、棕發(fā)和性別遷移圖像評選中,STGAN 的遷移效果優(yōu)于本文方法。在黑發(fā)和年齡遷移圖像評選中,本文方法優(yōu)于STGAN。因此,本文方法在遷移效果與生成圖像質量方面相較于IcGAN 和StarGAN 均有提升,與STGAN 效果相當。
表7 單屬性遷移的用戶調研評價對比Table 7 Comparison of user survey evaluation of single attribute migration
為有效地評估本文方法,本文對這4 種方法輸出圖像的分類準確率進行對比,如表8 所示,加粗表示最優(yōu)數(shù)據(jù)。本文方法比IcGAN、StarGAN 的分類準確率平均提高16.3 和2 個百分點,與STGAN 效果相當,均接近真實圖像的分類準確率。
表8 不同方法單屬性遷移的分類準確率對比Table 8 Classification accuracy comparison among different methods with single attribute migration
為評估這4 種方法輸出圖像的真實性,本文計算不同方法輸出圖像FID 的數(shù)值,對比結果如表9 所示。從表9 中可知,IcGAN 遷移圖像的真實性較低,本文方法的遷移效果要優(yōu)于StarGAN 和IcGAN,與STGAN 效果相當。
表9 不同方法單屬性遷移的FID 對比Table 9 FID comparison among different methods with single attribute migration
3.4.2 多屬性遷移
在經過一次訓練完成的多圖像域遷移模型中,本文分別改變輸入圖像2 個或者3 個目標圖像域屬性標簽,以生成人臉屬性遷移圖像,選取具有代表性的輸出圖像進行對比,如圖8 所示。
圖8 不同方法的多屬性遷移效果對比Fig.8 Muti-attribute migration effects comparison among different methods
從圖8 可以看出:IcGAN 遷移的圖像真實性低,無關圖像域改變大;StarGAN、STGAN 和本文方法都較好地完成多個屬性同時遷移的任務,但StarGAN 和STGAN 仍然有一些無關圖像域發(fā)生了改變,當性別和年齡同時轉變時,StarGAN 出現(xiàn)了較為明顯的劉海;當黑發(fā)和性別同時轉變時,STGAN遷移的發(fā)型顯得不自然;本文方法整體遷移圖像真實性更高,人臉膚色隨著不同屬性的遷移均發(fā)生相應的轉變,隨著年齡增大,目標圖像域的特征更為明顯;當性別和年齡同時遷移時,本文方法遷移圖像中面部特征的細節(jié)清晰、自然,更接近真實圖像。
為進一步驗證本文方法多屬性遷移的有效性,本文計算多個屬性同時遷移FID 的數(shù)值,如表10 所示,加粗表示最優(yōu)數(shù)據(jù)。從表中數(shù)據(jù)得知,在多個屬性同時遷移的任務中,IcGAN 生成的遷移圖像真實性較差,STGAN 生成的遷移圖像要優(yōu)于IcGAN 和StarGAN,本文方法生成的遷移圖像質量最優(yōu)。
表10 不同方法多屬性遷移的FID 對比Table 10 FID comparison among different methods with multi-attributes migration
在人臉屬性遷移任務中單屬性遷移與多屬性遷移的主客觀實驗結果表明:相較于IcGAN、StarGAN,本文方法的單屬性遷移圖像效果能較好地保留人臉面部的細節(jié)特征信息,無關圖像域改變較少,且遷移圖像的真實性和質量與STGAN 效果相當;相較于IcGAN、StarGAN 和STGAN,本文方法的多屬性遷移效果更優(yōu),能建立更加明確的多圖像域映射關系。
本文提出一種選擇性傳輸和鉸鏈對抗的多圖像域人臉屬性遷移方法。通過引入域控制器和自適應實例歸一化,增加生成的人臉屬性樣式多樣性,同時利用選擇性傳輸單元提高遷移圖像的細節(jié)和質量,設計并融合相對鑒別與鉸鏈損失的鉸鏈對抗損失,以減少無關圖像域的遷移。實驗結果表明,與StarGAN、STGAN、IcGAN 方法相比,該方法遷移圖像的質量更優(yōu),同時能有效增加遷移圖像表達的多樣性。下一步將對屬性標簽進行優(yōu)化,以減少樣式信息對屬性標簽的依賴,使本文模型適用于實際的應用場景。