周華強(qiáng),曹 林,杜康寧
1.北京信息科技大學(xué) 光電測(cè)試技術(shù)及儀器教育部重點(diǎn)實(shí)驗(yàn)室,北京100101
2.北京信息科技大學(xué) 信息與通信工程學(xué)院,北京100101
素描人臉合成是指在給定訓(xùn)練光學(xué)人臉圖像集和素描人臉圖像集的情況下,根據(jù)一張光學(xué)人臉圖像合成出一張素描人臉圖像。隨著合成技術(shù)的發(fā)展,素描人臉合成在數(shù)字娛樂(lè)產(chǎn)業(yè)和刑偵領(lǐng)域中發(fā)揮著重要的作用[1]。就刑偵領(lǐng)域而言,可能存在以下狀況:在視頻監(jiān)控中提取到的人物面部照片分辨率較低,或受到姿勢(shì)、光線的影響沒(méi)有獲取到清晰圖像,不能為身份識(shí)別提供證據(jù),此時(shí)需要由法醫(yī)從被記錄的視頻或目擊者的描述中繪制出素描圖像來(lái)進(jìn)行匹配。但是素描人臉圖像和光學(xué)人臉圖像屬于異質(zhì)圖像,二者很難取得良好的識(shí)別效果,此時(shí)素描人臉合成對(duì)犯罪嫌疑人的識(shí)別起到替代作用[2]。在數(shù)字娛樂(lè)領(lǐng)域,素描圖像被用作個(gè)人資料頭像越來(lái)越受智能手機(jī)和社交網(wǎng)絡(luò)用戶的歡迎,光學(xué)人臉圖片轉(zhuǎn)換為素描風(fēng)格圖片在社交美圖軟件市場(chǎng)也得到了廣泛應(yīng)用。
目前已知的素描人臉合成方法主要有模型驅(qū)動(dòng)和數(shù)據(jù)驅(qū)動(dòng)兩類。基于數(shù)據(jù)驅(qū)動(dòng)的代表方法有Wang 和Tang[3]提出的基于概率圖形的馬爾可夫隨機(jī)場(chǎng)模型以及基于子空間學(xué)習(xí)的局部線性嵌入[4]合成方法?;谀P万?qū)動(dòng)的主要方法有多變量輸出回歸方法[5]以及基于貝葉斯學(xué)習(xí)[6]的方法等。上述方法得到的合成圖像素描效果和藝術(shù)家手繪的素描人臉圖像相比,沒(méi)有很好地捕捉個(gè)人細(xì)節(jié),導(dǎo)致合成出來(lái)的素描人像與光學(xué)人像相似度不夠;合成的素描缺乏藝術(shù)性,在對(duì)比過(guò)程中發(fā)現(xiàn)有些方法由于過(guò)度平滑丟失了素描的風(fēng)格。
近年來(lái),生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[7]由于其強(qiáng)大的生成能力在計(jì)算機(jī)視覺(jué)領(lǐng)域取得巨大的成功。特別是傳統(tǒng)GAN及其變體在圖像生成[8]、圖像編輯[9]、表示學(xué)習(xí)[10]、運(yùn)動(dòng)模糊圖像復(fù)原[11]等方面取得了令人矚目的成績(jī),彌補(bǔ)了傳統(tǒng)方法的不足。Guérin 等人提出使用CGAN 進(jìn)行地表模型繪制[12]應(yīng)用于電影和游戲領(lǐng)域中,Isola等[13]提出基于像素的生成對(duì)抗網(wǎng)絡(luò)考慮使用成對(duì)數(shù)據(jù)集進(jìn)行圖像風(fēng)格轉(zhuǎn)換,Zhu等人[14]提出了CycleGAN使用無(wú)監(jiān)督學(xué)習(xí)進(jìn)行圖像風(fēng)格轉(zhuǎn)換。王孝順等人[15]提出了LSTGAN 與單領(lǐng)域判別訓(xùn)練法進(jìn)行遷移學(xué)習(xí)。
圖1 MDC-GAN結(jié)構(gòu)圖
針對(duì)素描人臉合成問(wèn)題,本文提出一種多判別器循環(huán)生成對(duì)抗網(wǎng)絡(luò)(Multi-Discriminator Cyclic Generative Adversarial Network,MDC-GAN)。該方法在傳統(tǒng)CycleGAN 的基礎(chǔ)上,引入了多判別器網(wǎng)絡(luò)結(jié)構(gòu)與重構(gòu)誤差損失,避免了傳統(tǒng)方法中繁冗的計(jì)算步驟,克服了傳統(tǒng)GAN 模式易崩潰問(wèn)題,優(yōu)化CycleGAN 網(wǎng)絡(luò)結(jié)構(gòu),提高合成素描圖像質(zhì)量。在判別網(wǎng)絡(luò)中采用多判別器提供多通道特征融合方法提取圖像特征,通過(guò)添加產(chǎn)生一維輸出的卷積層使提取的特征能夠表示更多圖像信息。新增加的重構(gòu)誤差損失能夠?qū)崿F(xiàn)網(wǎng)絡(luò)整體的反向傳遞優(yōu)化,并且重構(gòu)誤差損失在訓(xùn)練過(guò)程中定義為正則化,對(duì)損失函數(shù)進(jìn)行限制,有效避免訓(xùn)練過(guò)擬合,提高訓(xùn)練時(shí)網(wǎng)絡(luò)的穩(wěn)定性。并且本文方法在處理光學(xué)面部圖像中的非人臉特征(如眼鏡、圍巾等)時(shí),也表現(xiàn)出很好的魯棒性和準(zhǔn)確性。
傳統(tǒng)GAN網(wǎng)絡(luò)由一個(gè)生成模型和一個(gè)判別模型構(gòu)成,在訓(xùn)練過(guò)程中二者構(gòu)成一個(gè)動(dòng)態(tài)的“博弈”過(guò)程[16]。但是傳統(tǒng)GAN 的網(wǎng)絡(luò)結(jié)構(gòu)是單向生成,采用單一生成對(duì)抗損失優(yōu)化網(wǎng)絡(luò)參數(shù),在訓(xùn)練過(guò)程中會(huì)導(dǎo)致多個(gè)樣本映射到同一個(gè)分布,從而容易導(dǎo)致網(wǎng)絡(luò)的模式崩潰。所以本文采用雙層循環(huán)對(duì)抗網(wǎng)絡(luò)[14]的方式,有效避免了傳統(tǒng)網(wǎng)絡(luò)的缺點(diǎn)。該方法新增的多判別器網(wǎng)絡(luò)(圖1中紅色箭頭所示)可以有效克服生成的素描圖像細(xì)節(jié)特征不明顯、缺乏真實(shí)感的問(wèn)題;重構(gòu)誤差損失(圖1中橙色箭頭所示)計(jì)算生成圖像和目標(biāo)圖像之間的L1距離,實(shí)現(xiàn)生成結(jié)果對(duì)整個(gè)網(wǎng)路的反向傳遞,增強(qiáng)原有網(wǎng)絡(luò)穩(wěn)定性。
1.1.1 素描人臉合成模型
假設(shè)給定一個(gè)數(shù)據(jù)集U由光學(xué)人臉圖像-素描人臉圖像對(duì)組成,本文方法中素描人臉合成的目標(biāo)是學(xué)習(xí)兩個(gè)功能:B′=fps(A)代表光學(xué)人臉圖像A 生成素描人臉圖像B′;A′=fsp(B)代表素描人臉圖像B 生成光學(xué)人臉圖像A′。
本文方法包含四個(gè)生成模型,四個(gè)判別模型,MDCGAN 素描人臉合成框架如圖1 所示。其中兩個(gè)Gps為相同的生成器模型,共享相同參數(shù),兩個(gè)Gsp生成器模型同理。生成器Gps采用真實(shí)的光學(xué)人臉圖像RA作為輸入,并輸出合成的素描人臉圖像FB;Gsp的目標(biāo)是將素描人臉圖像轉(zhuǎn)換為光學(xué)人臉圖像,它將FB轉(zhuǎn)換回輸入的圖像本身,這里本文將其表示為RecA。因此,一般過(guò)程可以表示為:
同樣,素描到照片轉(zhuǎn)換可以表示為:
如圖1所示,MDC-GAN的生成器模型Gps和Gsp分別在不同分辨率級(jí)別生成和輸出圖像,四個(gè)判別器模型分別為用以鑒別生成圖像的真實(shí)性。由于GAN網(wǎng)絡(luò)在生成不同分辨率層級(jí)圖像的過(guò)程中,會(huì)隨著像素空間維數(shù)的增加,出現(xiàn)由像素空間不均勻覆蓋而導(dǎo)致的偽影。針對(duì)GAN網(wǎng)絡(luò)在偽影問(wèn)題的局限性,本文選用多個(gè)獨(dú)立的判別子網(wǎng)絡(luò)對(duì)不同分辨率層級(jí)的圖像進(jìn)行監(jiān)督,并向生成器提供對(duì)抗性反饋,形成隱式迭代的細(xì)化特征映射,從而生成高質(zhì)量圖像。本文結(jié)構(gòu)采用四個(gè)結(jié)構(gòu)相對(duì)簡(jiǎn)單的判別子網(wǎng)絡(luò),只在訓(xùn)練階段約束網(wǎng)絡(luò),減少測(cè)試階段網(wǎng)絡(luò)的參數(shù)量和計(jì)算量。
1.1.2 生成網(wǎng)絡(luò)
傳統(tǒng)GAN 的生成網(wǎng)絡(luò)由簡(jiǎn)單的卷積層和反卷積層組成,提取出的圖像特征所傳遞的信息質(zhì)量不高,容易丟失圖像的細(xì)節(jié)特征,導(dǎo)致生成圖像模糊。而本文選用深度神經(jīng)網(wǎng)絡(luò)提取圖像信息,利用生成器子網(wǎng)絡(luò)中隱藏存在的不同分辨率的特征圖映射,在低分辨率階段捕捉圖像細(xì)節(jié)特征,建立淺層信息與深層信息的傳遞通道,改變?cè)械膯我痪€性結(jié)構(gòu)。對(duì)于深度神經(jīng)網(wǎng)絡(luò),加深網(wǎng)絡(luò)層次是提高精度的有效手段,但是持續(xù)加深網(wǎng)絡(luò)深度會(huì)出現(xiàn)梯度彌散的問(wèn)題。其原因在于反向傳播中誤差不斷積累,導(dǎo)致網(wǎng)絡(luò)最初幾層梯度值接近為0,從而無(wú)法收斂。測(cè)試發(fā)現(xiàn),當(dāng)深層網(wǎng)絡(luò)層數(shù)達(dá)到20層以上,會(huì)隨層數(shù)增加,收斂效果越來(lái)越差,出現(xiàn)深層網(wǎng)絡(luò)退化問(wèn)題。
針對(duì)上述問(wèn)題,本文生成器借鑒深度殘差網(wǎng)絡(luò)(Residual Network,ResNet)[17]的網(wǎng)絡(luò)結(jié)構(gòu),共包含3 個(gè)部分:前部是3 個(gè)卷積層,中部是9 個(gè)殘差塊,后部是2個(gè)轉(zhuǎn)置卷積和1個(gè)卷積層,共15層。卷積層結(jié)構(gòu)如圖2所示,其中第一層和最后一層的卷積核尺寸為7×7,其余層卷積核尺寸均為3×3。在每次進(jìn)行卷積操作前對(duì)特征圖進(jìn)行邊緣補(bǔ)零(Zero-Padding)處理,用于防止圖像邊緣信息點(diǎn)丟失,并保持輸入與輸出維度相同。卷積結(jié)束后對(duì)特征圖進(jìn)行實(shí)例歸一化(Instance Normalization)處理,目的在于歸一化當(dāng)前層輸入,減小特征圖中不同通道的均值和方差對(duì)圖像風(fēng)格的影響,并且加速模型收斂,提升網(wǎng)絡(luò)穩(wěn)定性。最后卷積激活層中采用帶泄露修正線性單元(Leaky Rectified Linear Unit,LeakyReLU)作為激活函數(shù),轉(zhuǎn)置卷積激活層中將修正線性單元(Rectified Linear Unit,ReLU)設(shè)置為激活函數(shù)。轉(zhuǎn)置卷積層依次對(duì)不同分辨率的特征圖進(jìn)行上采樣。每個(gè)轉(zhuǎn)置卷積層的特征圖譜通過(guò)3×3卷積層進(jìn)行轉(zhuǎn)發(fā),生成不同分辨率的輸出圖像。
圖2 生成器網(wǎng)絡(luò)圖
1.1.3 判別網(wǎng)絡(luò)
GAN網(wǎng)絡(luò)中判別器模型的目的是學(xué)習(xí)生成圖像與真實(shí)圖像之間的差異,通過(guò)與生成器形成對(duì)抗學(xué)習(xí)的方式,提升識(shí)別出真假樣本的準(zhǔn)確率以及優(yōu)化生成模型參數(shù),聯(lián)合生成器下降梯度,提高生成圖像的質(zhì)量。
傳統(tǒng)GAN 網(wǎng)絡(luò)判別器采用單層特征表達(dá)圖像信息,在識(shí)別過(guò)程中容易造成圖像細(xì)節(jié)丟失。本文使用70×70PatchGAN[13]構(gòu)建判別器模型,與全圖像輸入的判別器相比其維度降低,所需參數(shù)更少,可以處理任意大小的圖像。而且PatchGAN判別模型中圖像間像素距離僅存在于每一個(gè)Patch,而不是整張圖像。這樣在素描人臉合成過(guò)程中,可以有效捕捉人臉中的一些高頻細(xì)節(jié)特征,例如面部紋理風(fēng)格;而全局和低頻特征則由對(duì)偶聯(lián)合損失捕捉,從而合成的人臉圖像細(xì)節(jié)更豐富,更具素描風(fēng)格。
本文提出的多判別器均采用全卷積網(wǎng)絡(luò),多個(gè)通道最大程度提取圖像高頻特征信息,判別器網(wǎng)絡(luò)中將輸入圖像映射為70×70 的矩陣(Patch)X,對(duì)每個(gè)圖像局部分塊來(lái)進(jìn)行判別。其中Xij的值代表輸入圖像中一個(gè)感受野,為每一個(gè)圖像局部分塊是否為真實(shí)樣本的概率,最后取輸出矩陣中Xij的均值作為PatchGAN判別器的輸出。本文方法中加入的判別器將不同分辨率級(jí)別的圖像轉(zhuǎn)化成多個(gè)圖像局部分塊,對(duì)每個(gè)塊單獨(dú)判別。判別器網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示,由五層卷積操作組成,均使用4×4 大小的卷積核,輸入為不同分辨率的三通道圖像,前四層卷積核數(shù)分別為[64,128,256,512],且步長(zhǎng)(Stride)為2。在卷積結(jié)束后連接批量歸一化(Batch Normalization)進(jìn)行處理,激活層設(shè)置LeakyReLU 作為激活函數(shù),第五層的卷積核數(shù)為1,步長(zhǎng)為1。最后,將特征向量輸入至Sigmoid 激活函數(shù)[14],判別生成樣本是否符合真實(shí)樣本的分布。
圖3 判別器網(wǎng)絡(luò)圖
本文方法聯(lián)合生成對(duì)抗損失、重構(gòu)誤差和對(duì)偶聯(lián)合損失共同訓(xùn)練網(wǎng)絡(luò),有效避免了傳統(tǒng)GAN 網(wǎng)絡(luò)中存在的模式易崩潰等問(wèn)題。為了縮小生成樣本與決策邊界距離,MDC-GAN中聯(lián)合使用最小二乘損失和重構(gòu)誤差損失改進(jìn)CycleGAN中原有的生成對(duì)抗損失,并使用對(duì)偶聯(lián)合損失減少多余映射,提高生成圖像質(zhì)量。
1.2.1 生成對(duì)抗損失和重構(gòu)誤差
原始CycleGAN 網(wǎng)絡(luò)中交叉熵的損失函數(shù)如式(3)所示:
生成器使用交叉熵?fù)p失不會(huì)進(jìn)一步優(yōu)化遠(yuǎn)離決策邊界但被判別器鑒別為真的生成圖像,這樣會(huì)降低生成網(wǎng)絡(luò)生成圖像質(zhì)量。對(duì)比交叉熵?fù)p失函數(shù),本文選用的最小二乘損失函數(shù)會(huì)在判別器判決為真的前提下,把遠(yuǎn)離決策邊界的生成圖像重新置于決策邊界附近,降低飽和梯度。通過(guò)使距決策邊界不同的距離度量構(gòu)建出一個(gè)收斂快、魯棒性高的對(duì)抗網(wǎng)絡(luò)。
式中,Ai~pdata(Ai)是樣本A空間的服從的概率分布,Bi~pdata(Bi) 是樣本B空間的服從的概率分布,和表示各自樣本中的期望值。由式(4)可以得生成網(wǎng)絡(luò)與判別器的損失函數(shù)目標(biāo)如式(5)所示:
為了使生成器的生成圖像盡可能接近目標(biāo)圖像,本文采用最小化重構(gòu)誤差LRec。其中重構(gòu)誤差LRe c定義為合成圖像與目標(biāo)圖像的L1范數(shù),計(jì)算生成圖像與目標(biāo)圖像之間的距離。本文使用L1范數(shù)能夠有效避免訓(xùn)練中多張人臉圖像用一個(gè)單峰的高斯分布進(jìn)行擬合,防止生成圖像過(guò)于平滑;而且L1范數(shù)魯棒性較好,能夠更好處理數(shù)據(jù)中的異常值,忽略生成圖像與目標(biāo)圖像之間微小誤差,而去處理過(guò)大的誤差。網(wǎng)絡(luò)使用L1范數(shù)損失使其不會(huì)因?qū)我粯颖菊`差值,而影響其他正常的樣本,在一定程度上提升訓(xùn)練網(wǎng)絡(luò)的穩(wěn)定性。LRec在兩個(gè)分辨率級(jí)別上都被最小化,其函數(shù)定義如式(7)所示:
1.2.2 對(duì)偶聯(lián)合損失
從理論上講,使用生成對(duì)抗損失可以學(xué)習(xí)到輸入域和目標(biāo)域的映射關(guān)系,但是由于網(wǎng)絡(luò)容量大,訓(xùn)練中單獨(dú)依靠對(duì)抗損失可能會(huì)出現(xiàn)多余映射的問(wèn)題,導(dǎo)致生成器任意隨機(jī)排列輸入域到目標(biāo)域的集合映射,圖像轉(zhuǎn)換過(guò)程中有效特征信息無(wú)法準(zhǔn)確映射。因此,本文網(wǎng)絡(luò)通過(guò)在不同分辨率階段使用對(duì)偶聯(lián)合損失對(duì)前后一致性進(jìn)行了正則化約束,從而減少輸入域到目標(biāo)域可能存在的映射路徑;并能夠促使網(wǎng)絡(luò)增加采用更簡(jiǎn)路徑的趨勢(shì)做映射以保持圖像輪廓結(jié)構(gòu),一定程度提升網(wǎng)絡(luò)映射性能,有效避免交叉映射。其函數(shù)定義式如式(8)所示:
綜上所述,完整的損失函數(shù)為生成對(duì)抗損失、重構(gòu)誤差和對(duì)偶聯(lián)合損失之和,如式(9)所示:
其中αi,βi參數(shù)用于調(diào)整重構(gòu)誤差損失和對(duì)偶聯(lián)合損失的權(quán)重。
在本章進(jìn)行模型簡(jiǎn)化實(shí)驗(yàn)(Ablation Studies),以驗(yàn)證所提出的方法的有效性。并給出了本文方法與現(xiàn)有方法在CUHK(The Chinese University of Hong Kong)[3]和AR(Aleix Martinez and Robert Benavente)[18]兩個(gè)常用數(shù)據(jù)集上的定性和定量結(jié)果比較。
(1)數(shù)據(jù)集:本文方法選用香港中文大學(xué)人臉?biāo)孛鑾?kù)(CUHK)中的188 張學(xué)生人臉進(jìn)行實(shí)驗(yàn),其中每一張光學(xué)人臉圖像都有對(duì)應(yīng)的素描人臉圖像,由藝術(shù)家根據(jù)一張?jiān)谡9庹諚l件下正面拍攝的中性表情照片繪制出。其中選擇100 對(duì)光學(xué)人臉圖像-素描人臉圖像用作訓(xùn)練集,28 對(duì)用作驗(yàn)證集,60 對(duì)用作測(cè)試集。AR 人臉數(shù)據(jù)庫(kù)由阿聯(lián)酋計(jì)算機(jī)視覺(jué)中心工作人員創(chuàng)建,其中包括123 人超過(guò)4 000 張彩色圖像,每個(gè)人都挑選一張富有表情的正面光學(xué)人臉圖像和一張藝術(shù)家觀看照片時(shí)繪制的形態(tài)夸張的素描人臉圖像。AR數(shù)據(jù)集中光學(xué)圖像是在不同光照下拍攝,沒(méi)有限制人物的穿著、化妝品、發(fā)型等,而且與光學(xué)圖像相比素描樣本形態(tài)夸張,更接近刑偵場(chǎng)景,訓(xùn)練時(shí)將123對(duì)光學(xué)人臉圖像-素描人臉圖像中100對(duì)用作訓(xùn)練集,23對(duì)用作測(cè)試集。這兩個(gè)數(shù)據(jù)庫(kù)都包含面部特征點(diǎn)坐標(biāo),應(yīng)用最新的人臉對(duì)齊算法進(jìn)行對(duì)齊。
(2)實(shí)驗(yàn)過(guò)程:在訓(xùn)練模型過(guò)程中,網(wǎng)絡(luò)輸入圖像的大小為256×256,前100 個(gè)周期生成網(wǎng)絡(luò)與判別網(wǎng)絡(luò)初始學(xué)習(xí)率η為0.000 2,后100個(gè)周期學(xué)習(xí)率線性衰減為0。其中αi=1,βi=0.7,采用動(dòng)量為0.5 的Adam 優(yōu)化器進(jìn)行訓(xùn)練,利用梯度一階矩估計(jì)(First Moment Estimation)和二階矩估計(jì)(Second Moment Estimation)動(dòng)態(tài)調(diào)整每個(gè)參數(shù)的學(xué)習(xí)率在確定范圍內(nèi),在經(jīng)過(guò)修正一階矩估計(jì)和二階矩估計(jì)的偏差后,經(jīng)過(guò)多次迭代訓(xùn)練使網(wǎng)絡(luò)模型逐漸收斂,并保存網(wǎng)絡(luò)參數(shù),網(wǎng)絡(luò)中批處理大?。˙atch-size)為1。本文中所有模型均在PyTorch中實(shí)現(xiàn),GPU 為英偉達(dá)公司NVIDIA Titan X(Pascal),其中CUHK 人臉數(shù)據(jù)集和AR 人臉數(shù)據(jù)集分別迭代200 次,均用時(shí)4 h,且本文改進(jìn)網(wǎng)絡(luò)參數(shù)規(guī)模為30.68×106。其中圖像大小為256×256,測(cè)試階段合成單張圖片平均耗時(shí)約0.140 s,滿足實(shí)時(shí)性要求。
2.2.1 模型有效性實(shí)驗(yàn)
本文在CycleGAN的基礎(chǔ)上,利用生成器子網(wǎng)絡(luò)中隱藏在不同級(jí)別分辨率的特征圖映射關(guān)系,提出多判別器循環(huán)生成對(duì)抗網(wǎng)絡(luò)的素描人臉合成方法。該方法在生成對(duì)抗損失中使用最小二乘損失替換原始網(wǎng)絡(luò)中的交叉熵?fù)p失,使用L1范數(shù)描述重構(gòu)誤差損失和對(duì)偶聯(lián)合損失損失。
為了驗(yàn)證本文提出的多判別器網(wǎng)絡(luò)結(jié)構(gòu)在素描人臉合成的有效性,將本文方法與CycleGAN在CUHK人臉數(shù)據(jù)庫(kù)進(jìn)行驗(yàn)證。CycleGAN與本文方法保持完全相同的數(shù)據(jù)集和參數(shù)進(jìn)行訓(xùn)練。在CUHK 學(xué)生人臉數(shù)據(jù)庫(kù)中的生成圖像的效果如圖4 所示。其中第一行至第四行分別為輸入圖像、真實(shí)圖像,以及CycleGAN、本文方法生成的素描人臉圖像。
圖4 改進(jìn)方法對(duì)比
通過(guò)圖4所示可以看到,與原始CycleGAN相比,本文方法生成的素描面部圖像具有更清晰的輪廓,細(xì)節(jié)更完整。在面部特征上與原圖更相近,尤其是對(duì)五官的表現(xiàn)更加準(zhǔn)確與銳利;在風(fēng)格方面,本文方法生成的樣本更具有素描風(fēng)格。表1比較了CycleGAN與本文方法在CUHK 數(shù)據(jù)集上的結(jié)構(gòu)相似度(Structural Similarity Index,SSIM)[19]和特征相似度(Feature Similarity Index,F(xiàn)SIM)[20]數(shù)值,其中度量標(biāo)準(zhǔn)SSIM 和FSIM 的值越大,代表生成的素描圖像與輸入的真實(shí)樣本結(jié)構(gòu)越相似,質(zhì)量越高。由表1可見(jiàn),本文方法計(jì)算出的生成圖像與真實(shí)圖像的SSIM 和FSIM 結(jié)果均優(yōu)于CycleGAN 計(jì)算結(jié)果,驗(yàn)證本文方法網(wǎng)絡(luò)結(jié)構(gòu)的有效性。
表1 模型對(duì)比實(shí)驗(yàn)在CUHK數(shù)據(jù)庫(kù)中SSIM值與FSIM值
為了進(jìn)一步驗(yàn)證本文損失函數(shù)在訓(xùn)練模型中的有效性,在實(shí)驗(yàn)中分別設(shè)計(jì)了四組實(shí)驗(yàn),并在CUHK 數(shù)據(jù)集進(jìn)行驗(yàn)證,其中基礎(chǔ)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)與本文方法相同,損失函數(shù)中包含生成對(duì)抗損失和對(duì)偶聯(lián)合損失,其中使用交叉熵?fù)p失函數(shù)描述生成對(duì)抗損失。對(duì)不同損失函數(shù)的生成素描圖像的效果如圖5 所示。其中第一行至第六行分別為輸入圖像、真實(shí)圖像、基礎(chǔ)網(wǎng)絡(luò)、基礎(chǔ)網(wǎng)絡(luò)+LLSGAN(基礎(chǔ)網(wǎng)絡(luò)中最小二乘損失替換交叉熵的損失),基礎(chǔ)網(wǎng)絡(luò)+LRec(基礎(chǔ)網(wǎng)絡(luò)中增加重構(gòu)誤差)、基礎(chǔ)網(wǎng)絡(luò)+LLSGAN+LRec(網(wǎng)絡(luò)只采用生成對(duì)抗損失和重構(gòu)誤差),以及本文方法生成的素描人臉圖像,在CUHK 數(shù)據(jù)庫(kù)中SSIM 值與FSIM 值的損失對(duì)比實(shí)驗(yàn)如表2所示。
圖5 損失函數(shù)對(duì)比
表2 損失對(duì)比實(shí)驗(yàn)在CUHK數(shù)據(jù)庫(kù)中SSIM值與FSIM值
由圖5 中可以看出基礎(chǔ)網(wǎng)絡(luò)使用交叉熵?fù)p失函數(shù)時(shí)生成的素描圖像的面部細(xì)節(jié)相對(duì)較差,第三行中人物的五官,如嘴唇等,都出現(xiàn)了明顯的模糊效果;而第四行使用最小二乘函數(shù)作為生成對(duì)抗損失后,生成的素描面部圖像細(xì)節(jié)更加清晰,克服了模糊效應(yīng)。但是由于重構(gòu)誤差的缺失,導(dǎo)致部分發(fā)型特征缺失(紅色標(biāo)記);第五行使用重構(gòu)誤差的生成圖像中面部特征未出現(xiàn)較大誤差,面部清晰度較低;第六行網(wǎng)絡(luò)損失函數(shù)中不包含對(duì)偶聯(lián)合損失,生成的素描圖像中第一張樣本人物發(fā)型輪廓模糊,第二張面部五官輪廓模糊,第三張圖像與真實(shí)圖像形態(tài)差異較大(紅色標(biāo)記);本文方法中的素描圖像均未出現(xiàn)面部失真、特征缺失等問(wèn)題。通過(guò)對(duì)比不同改進(jìn)方法的生成圖像來(lái)看,本文方法的生成圖像特征完整,細(xì)節(jié)清晰,更具素描風(fēng)格,并由表2 可見(jiàn),本文方法的SSIM 和FSIM 值均優(yōu)于其余損失對(duì)比組,驗(yàn)證本文方法損失函數(shù)的有效性。
2.2.2 方法對(duì)比實(shí)驗(yàn)
本文方法與現(xiàn)有不同類型的素描人臉合成方法進(jìn)行了對(duì)比實(shí)驗(yàn),并且和有效性實(shí)驗(yàn)一樣,使用結(jié)構(gòu)相似度(SSIM)和特征相似度(FSIM)進(jìn)行量化對(duì)比,度量結(jié)果如表3所示。在CUHK的合成效果如圖6所示。其中第一行為輸入光學(xué)圖像,第二行為真實(shí)素描圖像,第三行至第七行分別為馬爾可夫權(quán)重場(chǎng)(Markov Weight Field,MWF)[21]、Pix2Pix[13]、CycleGAN、DiscoGAN[22]、本文方法生成的素描人臉圖像。
表3 CUHK數(shù)據(jù)庫(kù)中SSIM值與FSIM值
圖6 不同合成方法在CUHK上的對(duì)比
由圖6 可以看出,傳統(tǒng)方法中MWF 的合成效果比較模糊,而CycleGAN、DiscoGAN、Pix2Pix 等方法由于在生成高分辨率圖像時(shí)網(wǎng)絡(luò)的不穩(wěn)定性,往往會(huì)在生成圖像中產(chǎn)生小塊的偽影。相比之下,本文方法(MDCMAN)能夠?qū)﹄[藏層進(jìn)行監(jiān)督,最大程度保留圖像高頻特征,最小化素描圖像的偽影,并且本文方法的生成樣本更接近素描風(fēng)格。此外,由于在訓(xùn)練模型時(shí)可能出現(xiàn)參數(shù)丟失,使得DiscoGAN 的合成樣本出現(xiàn)顏色失真,缺乏素描風(fēng)格。因此,本文使用目標(biāo)和合成圖像之間的重構(gòu)誤差約束網(wǎng)絡(luò),增強(qiáng)網(wǎng)絡(luò)穩(wěn)定性。由表3 可見(jiàn),本文方法在CUHK數(shù)據(jù)集下SSIM值和FSIM值分別優(yōu)于其他方法的計(jì)算值,說(shuō)明MDC-GAN生成的素描圖像質(zhì)量更高,與原圖結(jié)構(gòu)更相似。
為了進(jìn)一步驗(yàn)證本文方法的合成效果,與現(xiàn)有不同類型的素描人臉合成方法在AR人臉數(shù)據(jù)庫(kù)的對(duì)比驗(yàn)證如圖7所示。其中第一行為輸入光學(xué)圖像,第二行為真實(shí)素描圖像,第三行至第七行分別為L(zhǎng)LE[23]、MWF、Pix2Pix、DiscoGAN、本文方法生成的素描人臉圖像,同時(shí)也對(duì)生成圖像進(jìn)行了定量值比較,如表4所示。
使用AR人臉數(shù)據(jù)庫(kù)進(jìn)行素描人臉合成更具有挑戰(zhàn)性,因?yàn)樵紙D像中人物面部細(xì)節(jié)更多,并加入了人物飾物。從圖7可以看出,傳統(tǒng)方法合成的素描人臉圖像中,由于LLE方法可能在尋找最優(yōu)圖像塊集合過(guò)程中丟失較多高頻信息,導(dǎo)致生成的圖像出現(xiàn)了部分偽影(第三行紅色標(biāo)記),并且出現(xiàn)圖像輪廓模糊;MWF 方法生成的圖像面部失真嚴(yán)重;Pix2Pix、DiscoGAN 方法生成的圖像偽影較傳統(tǒng)方法減少,但仍然存在(第三、四行紅色標(biāo)記)。并且DiscoGAN 訓(xùn)練階段采用S 形交叉熵作為對(duì)抗損失,很難使生成模型達(dá)到最優(yōu),導(dǎo)致面部清晰度較低。而本文方法的合成效果明顯優(yōu)于其他方法,并且面部輪廓清晰,同時(shí)保留高頻細(xì)節(jié)和最小化偽影。并且在眼睛、胡須、發(fā)型等面部特征方面,即使在拍攝時(shí)人物環(huán)境出現(xiàn)干擾因素,例如眼鏡出現(xiàn)反光等,仍具有較好魯棒性。所以本文方法生成的圖像質(zhì)量較現(xiàn)有方法相比取得了更好的結(jié)果,與真實(shí)素描圖像重合度更高。并且由表4 定量分析可以看出,面對(duì)復(fù)雜的AR 人臉數(shù)據(jù)庫(kù),本文方法較其他方法仍表現(xiàn)出優(yōu)異性。
圖7 不同合成方法在AR上的對(duì)比
表4 AR數(shù)據(jù)庫(kù)中SSIM值與FSIM值
通過(guò)模型簡(jiǎn)化實(shí)驗(yàn),與現(xiàn)有方法比較,并且對(duì)生成的素描圖像進(jìn)行定性與定量的實(shí)驗(yàn)分析表明,本文提出的多判別器循環(huán)生成對(duì)抗網(wǎng)絡(luò)(MDC-GAN)的素描人臉合成方法,能夠生成更真實(shí)的素描圖像,并且在多種質(zhì)量標(biāo)準(zhǔn)(SSIM和FSIM)比較方面,本文方法均能取得顯著的改進(jìn),輸出高質(zhì)量圖像。
本文提出了一種基于多判別器循環(huán)生成對(duì)抗網(wǎng)絡(luò)的素描人臉合成方法。該方法提出對(duì)判別器子網(wǎng)絡(luò)隱藏層進(jìn)行對(duì)抗性監(jiān)督的網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)多判別網(wǎng)絡(luò)對(duì)生成網(wǎng)絡(luò)的反饋傳遞優(yōu)化完善生成圖像中高頻特征細(xì)節(jié),并且使用最小二乘損失描述生成對(duì)抗損失,結(jié)合重構(gòu)誤差損失和對(duì)偶聯(lián)合損失,生成高質(zhì)量圖像。實(shí)驗(yàn)結(jié)果表明,本文方法較其他方法在主觀視覺(jué)和客觀量化等方面都取得了更好的評(píng)價(jià),能夠獲得細(xì)節(jié)完整、輪廓清晰的高質(zhì)量素描面部圖像,能夠充分應(yīng)對(duì)復(fù)雜情況下的生成素描圖像任務(wù)并具有良好的魯棒性。