陳金龍,劉雄飛,詹 曙
(合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,安徽 合肥 231009)
近十年來,隨著顯卡的升級和卷積神經(jīng)網(wǎng)絡(luò)的迅速崛起,人臉?biāo)孛鑸D像與真實(shí)人臉圖像的轉(zhuǎn)換與識別在執(zhí)法機(jī)構(gòu)和數(shù)字娛樂行業(yè)中起著至關(guān)重要的作用[1]。在執(zhí)法和刑事案件中,嫌疑人的照片并不總是有效,因?yàn)閷?shí)時(shí)監(jiān)控?cái)z像頭在遠(yuǎn)處捕捉到的面部圖像分辨率很低。另一種辦法是在目擊者的幫助下,由藝術(shù)家畫出面部素描。這是逮捕罪犯的2個(gè)重要證據(jù),后一種方法成功地幫助公安部門逮捕了一些罪犯。然而,由于人臉?biāo)孛枧c人臉圖像在紋理、形狀等方面存在顯著差異,使得使用嫌疑人素描進(jìn)行人臉識別的識別率較低,但是可以通過將人臉?biāo)孛柁D(zhuǎn)換成與真實(shí)人臉圖像相同的模態(tài)來提高對嫌疑犯的識別率。
一些相關(guān)工作的成果已經(jīng)被應(yīng)用到了公安系統(tǒng)、身份認(rèn)證、視頻監(jiān)控等公共安全領(lǐng)域和圖片編輯、銀行安保、計(jì)算機(jī)藝術(shù)、數(shù)字娛樂等領(lǐng)域中,并得到了相當(dāng)不錯的反饋。然而到目前為止,異質(zhì)人臉圖像轉(zhuǎn)換合成過程中網(wǎng)絡(luò)訓(xùn)練階段缺乏配對的圖像數(shù)據(jù),并且想要獲得配對數(shù)據(jù)往往要付出大量的精力和成本,再加上人臉?biāo)孛鑸D像與真實(shí)人臉圖像之間存在著明顯的模態(tài)差異,現(xiàn)有的方法仍然存在不可解決的局限性。本文提出了一個(gè)新的框架以解決上述問題。本文提出的人臉?biāo)孛鑸D像到真實(shí)人臉圖像的轉(zhuǎn)換合成模型總體思路如下:首先,為了解決缺乏配對的圖像數(shù)據(jù)問題,所提出的框架結(jié)合無監(jiān)督學(xué)習(xí)將人臉?biāo)孛鑸D像轉(zhuǎn)換為真實(shí)的人臉圖像,這樣在測試和應(yīng)用中可以不使用配對的數(shù)據(jù)。再與目前的無監(jiān)督方式下的圖像到圖像的轉(zhuǎn)換模型相比,本文模型采用了額外的語義一致性損失函數(shù),這樣可以使輸入圖像的語義信息保持在最終的生成圖像中。為了得到高質(zhì)量的生成圖像,模型還將像素級的循環(huán)一致性損失函數(shù)替換為感知損失函數(shù)來生成更清晰的圖像。由于在生成對抗網(wǎng)絡(luò)的訓(xùn)練過程中容易發(fā)生模式崩塌等問題,使得網(wǎng)絡(luò)訓(xùn)練變得非常耗時(shí)且極其不穩(wěn)定,因此本文采PGGAN(Progressive Growing of GANs for improved quality, stability, and variation)[2]生成器的架構(gòu),然后將它作為鏡像對稱,也就原來框架的2個(gè)生成器合并成本文框架,并將它與生成對抗網(wǎng)絡(luò)的目標(biāo)損失函數(shù)一起訓(xùn)練從而得到更加真實(shí)的輸出圖像, 同時(shí),循環(huán)一致性損失函數(shù)驅(qū)動相同域的輸入圖像和輸出圖像保持一致。最后在香港中文大學(xué)人臉?biāo)孛钄?shù)據(jù)集CUFS[3]和CUFSF[3,4]2個(gè)流行的基準(zhǔn)數(shù)據(jù)集上與其他4種相關(guān)模型的大量對比實(shí)驗(yàn)表明,本文提出的模型在定量和定性上都取得了顯著的改善。
21世紀(jì)以來,隨著圖像數(shù)據(jù)的逐漸增加和計(jì)算機(jī)計(jì)算能力的顯著提升,人臉圖像的合成技術(shù)越來越完善,人臉圖像合成的質(zhì)量也越來越好。目前異質(zhì)人臉圖像合成的方法主要分為以下2大類:
(1)基于特征表達(dá)的傳統(tǒng)合成方法。特征表達(dá)就是將圖像表達(dá)為許多特征塊的過程,其逆過程即將特征在特定情況下進(jìn)行合并得到圖像的過程就是圖像合成。主成分分析方法[5]可以將人臉圖像表達(dá)為特征矩陣與特征向量,反過來,可以間接地利用特征向量合成各種各樣的目標(biāo)人臉圖像。同主成分分析相似的原理,稀疏表達(dá)[6]也是圖像表達(dá)的重要手段之一,人們可以從稀疏表示中合成人臉圖像。利用提取的不同局部特征進(jìn)行異質(zhì)人臉合成可以解決異質(zhì)人臉圖像與數(shù)據(jù)集中真實(shí)人臉圖像之間的結(jié)構(gòu)形態(tài)差異問題。以往的研究多采用成對的素描數(shù)據(jù)集和受控條件下拍攝的照片來解決基于素描的圖像合成問題。Liu等人[7]在2007年提出了一種統(tǒng)計(jì)推理方法,即貝葉斯張量推理法,用于研究人臉圖像與素描圖像之間的風(fēng)格轉(zhuǎn)換。Tang等人[8 - 10]在2002~2009年對異質(zhì)人臉的轉(zhuǎn)換和識別進(jìn)行了廣泛且深入的研究,提出了一種基于多尺度馬爾可夫隨機(jī)域模型的人臉圖像合成與識別方法。為了合成人臉?biāo)孛?照片圖像,將人臉區(qū)域分割成重疊的小塊進(jìn)行學(xué)習(xí),利用多尺度模型在多個(gè)尺度上學(xué)習(xí)聯(lián)合圖像模型,通過將人臉圖像轉(zhuǎn)化為素描(或?qū)⑺孛柁D(zhuǎn)化為圖像),大大減小了圖像與素描之間的差異,從而使兩者在人臉?biāo)孛枳R別中進(jìn)行有效匹配。
Figure 1 Network based on PGGAN generator and shared-latent space assumption圖1 基于PGGAN生成器和共享潛空間假設(shè)的網(wǎng)絡(luò)框架
(2)基于卷積神經(jīng)網(wǎng)絡(luò)的合成方法。近年來,由于計(jì)算能力的巨大提升,深度學(xué)習(xí)又再度成為各大科研領(lǐng)域的研究熱點(diǎn),一些研究成功地利用了卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)端到端的學(xué)習(xí)機(jī)制來解決不同的圖像到圖像的轉(zhuǎn)換問題。Zhang等人[10]在2015年提出了一種新穎的神經(jīng)網(wǎng)絡(luò)框架,利用6層卷積神經(jīng)網(wǎng)絡(luò)(CNN)自動轉(zhuǎn)換圖像,保留了素描圖像的細(xì)節(jié), 與傳統(tǒng)的基于范例字典綜合素描的模型不同,其開發(fā)了一個(gè)全卷積網(wǎng)絡(luò)來學(xué)習(xí)端到端的素描的映射,將整幅人臉圖像作為輸入,通過有效的推理和學(xué)習(xí)直接生成相應(yīng)的素描圖像。Gatys等人[11]提出了一種藝術(shù)風(fēng)格的神經(jīng)算法,使用來自卷積神經(jīng)網(wǎng)絡(luò)的圖像表示來優(yōu)化目標(biāo)識別,使高層次的圖像信息顯式化。該算法可以對自然圖像的內(nèi)容和風(fēng)格進(jìn)行分離和重組,利用GRAMMA矩陣將任意一幅圖像的內(nèi)容與眾多著名藝術(shù)品的外觀結(jié)合起來生成高感知質(zhì)量的新圖像。然而,該框架從開始逐步優(yōu)化到最佳的結(jié)果是一個(gè)緩慢迭代的過程, 這限制了其實(shí)際應(yīng)用,并且這樣的框架通常只能處理一組固定的圖像樣式,不能適應(yīng)任意的新樣式。為此,Huang等人[12]提出了一種簡單而有效的方法,首次實(shí)現(xiàn)了任意樣式的實(shí)時(shí)轉(zhuǎn)換。此方法的核心是一個(gè)新的自適應(yīng)實(shí)例標(biāo)準(zhǔn)化(AdaIN)層,它將內(nèi)容特征的均值和方差與風(fēng)格特征的均值和方差對齊,可以獲得與當(dāng)時(shí)最快的方法相當(dāng)?shù)乃俣龋⑶也皇茴A(yù)定義樣式集的限制。在圖像生成任務(wù)中,歐氏距離常被定義為卷積神經(jīng)網(wǎng)絡(luò)的主要目標(biāo)函數(shù),但是生成的圖像通常都很模糊。近年來,生成對抗網(wǎng)絡(luò)(GANs)[13]和變分自動編碼器[14]等生成模型因其強(qiáng)大的生成能力在圖像到圖像的轉(zhuǎn)換應(yīng)用中取得了巨大的成功。特別是GANs和cGANs在圖像編輯、圖像修復(fù)、妝容遷移、圖像超分辨率重建、圖像生成等方面取得了令人印象深刻的成果,包括人臉?biāo)孛鑸D像到真實(shí)照片轉(zhuǎn)換的任務(wù)[15,16]。
盡管上述方法在圖像生成任務(wù)中取得了成功,但它們在訓(xùn)練網(wǎng)絡(luò)時(shí),往往需要來自源域和目標(biāo)域的對應(yīng)圖像對進(jìn)行監(jiān)督學(xué)習(xí)。
監(jiān)督學(xué)習(xí)是最常見的一種機(jī)器學(xué)習(xí),其學(xué)習(xí)模型會嘗試學(xué)習(xí)之前給定的有標(biāo)簽的樣本,訓(xùn)練目標(biāo)是將測試數(shù)據(jù)標(biāo)為正確的標(biāo)簽。深度學(xué)習(xí)再度崛起的前期,一些基于監(jiān)督學(xué)習(xí)進(jìn)行異質(zhì)圖像轉(zhuǎn)換的算法取得了不錯的效果。Isola等人[19]提出了被稱為“Pix2Pix”的集成框架,該框架使用成對的樣本來完成多個(gè)圖像到圖像的轉(zhuǎn)換任務(wù),實(shí)現(xiàn)了語義標(biāo)簽到街景圖像、自然照片到其素描的轉(zhuǎn)換以及圖像的編輯和修復(fù)?!癙ix2Pix”的集成框架還采用了U-Net結(jié)構(gòu)[20],它在編碼器和解碼器棧中的鏡像層之間增加跳連接(Skip Connection),幫助輸出結(jié)果保留大量的圖像結(jié)構(gòu)信息。
無監(jiān)督學(xué)習(xí)通常用于數(shù)據(jù)挖掘,其學(xué)習(xí)模型會嘗試直接從給定的樣本中發(fā)現(xiàn)某種特征或聯(lián)系,與監(jiān)督學(xué)習(xí)相比其訓(xùn)練數(shù)據(jù)是無標(biāo)簽的,訓(xùn)練目標(biāo)是希望能對觀察值進(jìn)行分類或者區(qū)分。由于配對的數(shù)據(jù)集通常很難得到,往往需要花費(fèi)大量的成本和精力去獲取,所以無監(jiān)督學(xué)習(xí)在異質(zhì)人臉圖像的轉(zhuǎn)換任務(wù)中發(fā)揮著越來越重要的作用。DTN[15]首次在無監(jiān)督設(shè)置下完成帶標(biāo)記數(shù)據(jù)的域轉(zhuǎn)換任務(wù),并解決了將源域中的樣本轉(zhuǎn)換成目標(biāo)域中保留了其特征標(biāo)簽的模擬樣本的問題。CycleGAN[16]應(yīng)用了循環(huán)一致性約束假設(shè):如果將源域中的樣本x映射到目標(biāo)域中的樣本y,則可以將其映射回源域中的原始樣本。即x→G(x)→F(G(x))≈x和y→F(y)→G(F(x))≈y,G和F表示的映射函數(shù)分別為:x→y和y→x。Wang等人[21]提出了一個(gè)真實(shí)照片到人臉?biāo)孛鑸D像轉(zhuǎn)換合成的框架,通過多個(gè)對抗網(wǎng)絡(luò)將輸入的素描圖像轉(zhuǎn)換成高質(zhì)量的真實(shí)照片,反之亦然。在并行工作中,Kazemi等人[17]利用一種新的感知鑒別器來學(xué)習(xí)素描幾何圖形和相應(yīng)的真實(shí)感圖像之間的魯棒映射,并提出了一個(gè)基于條件CycleGAN的網(wǎng)絡(luò),它可以選取幾個(gè)主觀想要的面部特征合成在目標(biāo)照片上。
基于無監(jiān)督學(xué)習(xí)的圖像到圖像轉(zhuǎn)換的目的是利用圖像在各個(gè)區(qū)域的邊緣分布學(xué)習(xí)圖像在不同區(qū)域的聯(lián)合分布,但如果沒有額外的假設(shè),將無法從邊緣分布中推斷出聯(lián)合分布。為了解決這一問題,UNIT[21]提出了共享潛空間的假設(shè),使得2個(gè)不同域中對應(yīng)的圖像可以映射到共同的隱碼(Latent Code),而所謂的隱空間(Latent Space)即輸入噪聲z(也稱為隱變量z)的一個(gè)特征空間,也可以理解為一種有效的信息表示。隱空間將循環(huán)一致性約束與UNIT的框架相結(jié)合,進(jìn)一步地規(guī)范了病態(tài)的無監(jiān)督下圖像到圖像的轉(zhuǎn)換問題。
很多相關(guān)研究[23,24]都是基于這一假設(shè)來執(zhí)行不同的圖像跨域轉(zhuǎn)換合成任務(wù)。然而,這一假設(shè)并不總是適用于所有數(shù)據(jù)集,特別是對于2個(gè)域的圖像在外觀上有顯著差異的數(shù)據(jù)集,因此將其強(qiáng)加于系統(tǒng)可能會導(dǎo)致模型崩潰或者輸出圖像中存在大量偽影。
由于在圖像之間的轉(zhuǎn)換合成任務(wù)中,下采樣過程可能會導(dǎo)致丟失一些空間信息和特征細(xì)節(jié),所以本文采用了前人提出的U-net結(jié)構(gòu)[15,25],通過跳連接的操作來保留一些重要的圖像信息,比如面部的結(jié)構(gòu)信息。U-net網(wǎng)絡(luò)其實(shí)是一個(gè)基于全連接卷積神經(jīng)網(wǎng)絡(luò)的圖像分割網(wǎng)絡(luò),最早主要用于醫(yī)學(xué)圖像的分割,因?yàn)樵趫D像的特征提取方面有著出色的表現(xiàn),被越來越多地應(yīng)用在圖像處理的其他方向上,并且取得了很好的成效。
在生成對抗網(wǎng)絡(luò)出現(xiàn)的早期,許多圖像處理工作中生成圖像的分辨率通常都比較低,而且主觀上看起來非常不真實(shí)。PGGAN[2]首次提出了一種從低分辨率逐級訓(xùn)練提升到高分辨率的圖像合成訓(xùn)練方法,最終合成圖像的分辨率可以達(dá)到1024×1024。因此,為了更好地實(shí)現(xiàn)高分辨率的人臉?biāo)孛鑸D像到真實(shí)人臉圖像的圖像轉(zhuǎn)換,本文將PGGAN生成器的鏡像結(jié)構(gòu)作為網(wǎng)絡(luò)的編碼器,該結(jié)構(gòu)使生成器和判別器逐步優(yōu)化,并使優(yōu)化階段和增強(qiáng)階段交替進(jìn)行,即先生成4×4分辨率的圖像;然后利用生成網(wǎng)絡(luò)G進(jìn)行一次上采樣操作,再利用判別網(wǎng)絡(luò)D進(jìn)行一次下采樣操作,這樣生成分辨率為8×8的圖像;循環(huán)執(zhí)行上采樣和下采樣操作,這樣每次輸出圖像的分辨率就可以提高一倍,最終輸出分辨率為256×256的圖像。PGGAN的逐層優(yōu)化策略雖然使生成圖像的分辨率得到了一定的提升,但是往往是以訓(xùn)練時(shí)間為代價(jià)的。而在本文提出的編碼器-解碼器結(jié)構(gòu)中,輸入圖像在編碼器中逐步向下采樣,在解碼器中逐步向上采樣,跳連接操作則將下采樣之前的編碼器層與上采樣之后的生成器層連接在一起。此外,在人臉?biāo)孛鑸D像和真實(shí)人臉圖像之間共享編碼器和生成器的主要目的是使神經(jīng)網(wǎng)絡(luò)能夠識別到,盡管人臉?biāo)孛鑸D像和真實(shí)人臉圖像在外觀模態(tài)上有顯著的差異,但它們都描繪了相同的圖像結(jié)構(gòu)信息。這對于本節(jié)的任務(wù)至關(guān)重要,而批再歸一化(Batch Renormalization)[24]的參數(shù)決定了是輸出人臉?biāo)孛鑸D像還是輸出真實(shí)人臉圖像。
權(quán)值共享其實(shí)就是對圖像用同樣的卷積核進(jìn)行卷積操作,這樣就能檢測到圖像不同位置的同一類型特征,參數(shù)共享還可以減少不同神經(jīng)元之間需要求解的參數(shù),加快訓(xùn)練速度。UNIT[22]中提出的權(quán)值共享策略隱含了循環(huán)一致性約束,該約束假設(shè)2個(gè)不同域中的任何匹配的圖像對都可以映射到共享潛空間中的相同潛在表示(Latent Presentation)。然而,僅使用權(quán)值共享約束并不能保證2個(gè)域中對應(yīng)的圖像具有相同的隱碼,更不用說未配對的樣本了。具體來說,本文工作采用了權(quán)值共享策略,共享編碼器E1和編碼器E2的最后幾層的權(quán)值,它們負(fù)責(zé)在這2個(gè)域中提取輸入圖像的高級特征。反之亦然,同時(shí)還共享了生成器G1和生成器G2的前幾層的權(quán)重,G1和G2負(fù)責(zé)解碼用于重建輸入圖像的高級特征。
在生成模型中使用不同的歸一化參數(shù)集可以在相同的輸入條件下輸出多種不同風(fēng)格的圖像。在文獻(xiàn)[24]中,單個(gè)風(fēng)格遷移網(wǎng)絡(luò)甚至可以通過使用條件下實(shí)例正則化同時(shí)捕獲32種風(fēng)格。大量實(shí)驗(yàn)表明,當(dāng)mini-batch很小時(shí),在推理過程中使用批再歸一化能比使用批歸一化BN(Batch Norma- lization)取得更好的性能,因此本文通過2組批再歸一化[23]的參數(shù)來捕獲源域X1和目標(biāo)域X2之間的風(fēng)格差異。編碼器E1和編碼器E2的目的則是用不同的風(fēng)格對相同的語義信息進(jìn)行編碼,通過共享除了批再歸一化層之外的所有卷積層的權(quán)值,鼓勵編碼器E1和E2使用相同的隱碼來表示這2個(gè)視覺上不同的域。因此,與以往的工作[17,24,26]只在較高層共享權(quán)值參數(shù)不同,本文傾向于共享除批再歸一化層之外的所有卷積層的參數(shù),網(wǎng)絡(luò)中的2個(gè)生成器G1和G2也使用這種權(quán)值共享策略。這是本文提出的網(wǎng)絡(luò)框架的關(guān)鍵,它使網(wǎng)絡(luò)框架能夠捕獲共享的高級語義特征,并使用更少的參數(shù)來訓(xùn)練網(wǎng)絡(luò),可以加強(qiáng)網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性,并在一定程度上加速了訓(xùn)練速度。
(1)對抗損失函數(shù)。
給定輸入域Xi∈{X1,X2}和輸出域Xo∈{X1,X2},則人臉?biāo)孛鑸D像轉(zhuǎn)換合成真實(shí)人臉圖像的原始GAN的目標(biāo)函數(shù)可以表示為:
Lvanilla_GAN=Εxo~Pdata(Xo)[logDo(xo)]+
Εxi~Pdata(Xi)[log(1-Do(Go(Ei(xi))))]
(1)
其中,xo~Pdata(Xo)是指xo的分布,xi~Pdata(Xi)是指xi的分布。
DRAGAN[25]是對生成對抗網(wǎng)絡(luò)模型的一種改進(jìn),由于在判別函數(shù)擬合的圖像中的真實(shí)數(shù)據(jù)周圍局部平衡總是會表現(xiàn)出尖銳的梯度,會使多個(gè)矢量映射到單個(gè)輸出,從而造成博弈的退化平衡(即多組輸入變量都會產(chǎn)生一樣的結(jié)果),為了減少這種現(xiàn)象,DRAGAN對判別器添加懲罰項(xiàng)以避免局部平衡。因此,本文將目標(biāo)函數(shù)加入到對抗性損失中,以提高生成對抗網(wǎng)絡(luò)模型的穩(wěn)定性。DRAGAN中添加的判別器懲罰項(xiàng)如式(2)所示:
LDRA=λDRAΕxo~Pdata,δ~Nd(o,cI)‖ΔxDo(x+δ)‖-k
(2)
其中,δ~Nd(o,cI)是指δ服從正態(tài)分布,δ表示偏移量,k是指懲罰項(xiàng)。
對抗損失函數(shù)的整體目標(biāo)函數(shù)定義如下:
(3)
(2)跨域語義一致性損失函數(shù)。
為保證生成圖像與輸入圖像具有相同的高級語義信息,編碼器應(yīng)該分別在2個(gè)不同域的輸入和輸出圖像中提取出相同的高級特征。由于循環(huán)一致性已經(jīng)體現(xiàn)了相同域中輸入和輸出的語義一致性,本文將重點(diǎn)討論跨不同域的語義一致性。與XGAN[26]相似,定義語義一致性損失函數(shù)如式(4)所示:
Lsem(E,G)=
Εx1~Pdata(X1)[‖E2(G2(E1(x1)))-E1(x1)‖1]+
Εx2~Pdata(X2)[‖E1(G1(E2(x2)))-E2(x2)‖1]
(4)
其中,x1~Pdata(X1)和x2~Pdata(X2)表示數(shù)據(jù)分布。事實(shí)上,大多數(shù)工作[23,24]都證明了2個(gè)域之間沒有嚴(yán)格的一對一映射,這種強(qiáng)制在像素級上的2個(gè)域之間的一對一映射可能會導(dǎo)致輸出模糊化或者不匹配的情況。因此,本文決定將語義一致性損失函數(shù)僅應(yīng)用于嵌入層,從而對跨域共享的語義信息進(jìn)行編碼。
(3)循環(huán)一致性損失函數(shù)。
在處理不同模式的圖像時(shí),像素級的約束可能會降低網(wǎng)絡(luò)的靈活性,甚至使其無法收斂[27]。因此,本文使用感知缺失[28]作為循環(huán)一致性的替代定義,從而更好地學(xué)習(xí)復(fù)雜的跨域之間的關(guān)系。將高級特征空間上的歐氏距離定義為循環(huán)一致性,即感知損失,利用VGG-16網(wǎng)絡(luò)Ф來度量圖像之間高級特征的差異。圖像x和y之間的jth層感知損失函數(shù)定義如式(5)所示:
(5)
其中,Φj(x)表示VGG網(wǎng)絡(luò)中輸入圖像x的jth層的特征映射,Nj表示jth層中感知器的數(shù)量。
本文中循環(huán)一致性損失函數(shù)定義如式(6)所示:
(6)
綜上所述,整體目標(biāo)函數(shù)定義如下:
Ltotal=λGANLGAN+λsemLsem+λcycLcyc
(7)
其中,超參數(shù)λGAN、λsem和λcyc是控制3個(gè)損失函數(shù)相關(guān)重要性的權(quán)重因子。
本節(jié)在2個(gè)最常用的開源數(shù)據(jù)集CUFS[3]和CUFSF[3,4]上展示本文提出的模型在人臉?biāo)孛鑸D像到真實(shí)人臉圖像轉(zhuǎn)換合成任務(wù)中的定性和定量的結(jié)果,并將可視化和定量結(jié)果與其他4種模型進(jìn)行比較,即Pix2Pix[19]、CycleGAN[16]、UNIT[22]和基于合成輔助生成對抗網(wǎng)絡(luò)來重建真實(shí)人臉圖像的CA-GAN模型[29]。
Figure 2 Comparison of sketch to photo synthesis results on the CUHK database圖2 CUHK數(shù)據(jù)集上的對比結(jié)果
香港中文大學(xué)人臉?biāo)孛钄?shù)據(jù)集(CUFS)[3],其子集CUHK數(shù)據(jù)集中包含188對香港中文大學(xué)不同學(xué)生的真實(shí)人臉圖像和對應(yīng)的人臉?biāo)孛鑸D像(遵循先前的工作[21],本文將此數(shù)據(jù)集劃分為60對學(xué)生人臉圖像的訓(xùn)練集、22對學(xué)生人臉圖像的驗(yàn)證集和100對學(xué)生人臉圖像的測試集);數(shù)據(jù)集中的圖像都是在正常的光線條件下采集的,由藝術(shù)家根據(jù)每一張正面人臉照片畫出其中性表情的人臉?biāo)孛鑸D像。
為了進(jìn)行更全面的評估,本文還使用了CUFSF數(shù)據(jù)庫[3,4],其中包括來自FERET數(shù)據(jù)庫[30]的1 194對灰色真實(shí)人臉圖像和對應(yīng)的人臉?biāo)孛鑸D像。本文將其中190對灰色真實(shí)人臉圖像和對應(yīng)的人臉?biāo)孛鑸D像用于訓(xùn)練,60對灰色真實(shí)人臉圖像和對應(yīng)的人臉?biāo)孛鑸D像用于驗(yàn)證,944對灰色真實(shí)人臉圖像和對應(yīng)的人臉?biāo)孛鑸D像用于測試。由于此數(shù)據(jù)集中的人臉?biāo)孛鑸D像具有更為夸張的表情,而且很多真實(shí)人臉圖像都是在不同的照明條件下拍攝采集的,因此這個(gè)數(shù)據(jù)集特別具有挑戰(zhàn)性,但同時(shí)更接近現(xiàn)實(shí)情況中的法醫(yī)場景。
實(shí)驗(yàn)設(shè)備配有2塊NVIDIA 1080Ti圖像處理器,操作系統(tǒng)為Linux下Ubuntu16.04版本,實(shí)驗(yàn)工具平臺為TensorFlow 1.8。在模型訓(xùn)練過程中,首先將每個(gè)輸入圖像的尺寸調(diào)整為256×256。與CycleGAN中的網(wǎng)絡(luò)初始化設(shè)置類似,從零開始訓(xùn)練網(wǎng)絡(luò),并將前100次迭代的學(xué)習(xí)率設(shè)置為0.000 2,然后在接下來的100次迭代中將學(xué)習(xí)率線性衰減為0。對于超參數(shù),設(shè)置λGAN=1,λsem=0.1和λcyc=1。遵循之前的工作[2],使用Adam算法[31]進(jìn)行優(yōu)化,將α設(shè)置為0.001,β1設(shè)置為0.5,β2設(shè)置為0.99,將ε設(shè)置為10-8。最后,將轉(zhuǎn)換合成的輸出圖像的尺寸裁剪為200×250。
4.3.1 定性評估
圖2所示為在香港中文大學(xué)數(shù)據(jù)集(CUFS)[3]上的定性比較結(jié)果。從左到右依次為原始輸入的人臉?biāo)孛鑸D像、真實(shí)人臉圖像(Ground Truth)、CycleGAN的輸出結(jié)果、Pix2Pix的輸出結(jié)果、UNIT的輸出結(jié)果、CA-GAN的輸出結(jié)果和本文模型的結(jié)果。從圖2中可以看出,UNIT的輸出圖像是模糊的,甚至缺少了很多面部結(jié)構(gòu)信息并且存在大量的偽影。而生成模型Pix2Pix和CycleGAN通過對抗損失避免了模糊效果。然而,在生成高分辨率的圖像時(shí),由于訓(xùn)練階段不穩(wěn)定,容易產(chǎn)生不期望得到的偽影。通過比較發(fā)現(xiàn),本文提出的模型可以減少這些偽影,同時(shí)保留了高級的細(xì)節(jié)。此外,CycleGAN生成的圖像可以媲美人工著色的圖像,但同時(shí)也生成了不真實(shí)的紋理。CA-GAN生成的圖像相比于前3種模型得到了更平滑的邊緣結(jié)構(gòu),偽影也大大減少,相比本文模型則在灰度顯示上更接近Ground Truth的,但是在一些面部細(xì)節(jié)結(jié)構(gòu)(比如嘴巴、眼睛)上,本文模型更接近Ground Truth。本文模型使用感知缺失代替了像素級的循環(huán)一致性,從而可以生成更真實(shí)、更清晰的紋理,這使得網(wǎng)絡(luò)能夠通過釋放一直保持的像素級信息的約束,在輸出圖像中生成更高質(zhì)量的紋理。
Figure 3 Comparison of sketch to photo synthesis results on CUFSF database圖3 CUFSF數(shù)據(jù)集上的對比結(jié)果
圖3展示了5種模型分別在CUFSF數(shù)據(jù)集[3,4]上的示例照片上的合成結(jié)果。從左到右依次為原始輸入的人臉?biāo)孛鑸D像、真實(shí)灰色人臉圖像(Ground Truth)、CycleGAN的輸出結(jié)果、Pix2Pix的輸出結(jié)果、UNIT的輸出結(jié)果、CA-GAN的輸出結(jié)果和本文模型的結(jié)果。因?yàn)榕c真實(shí)人臉圖像相比,CUFSF數(shù)據(jù)集中的素描人臉圖像的特征被過分夸大了,非常接近現(xiàn)實(shí),所以對于很多在此數(shù)據(jù)庫上進(jìn)行的工作都特別具有挑戰(zhàn)性。從圖3中可以看出,前3種基準(zhǔn)生成模型(CycleGAN、Pix2Pix和UNIT)產(chǎn)生了不良的偽影,尤其是在面部特征上。對比CA-GAN在發(fā)型、眼睛的面部結(jié)構(gòu)生成結(jié)果上,Pix2Pix、UNIT和本文模型的生成結(jié)果都更加接近Ground Truth的,但CA-GAN的生成結(jié)果在灰度顯示上的還原度最高。綜上所述,與其他4種模型相比,本文模型能夠在生成更加真實(shí)的人臉圖像的同時(shí)最小化偽影。
4.3.2 定量評估
表1分別列出了5種模型生成的輸出圖像和相應(yīng)的原始真實(shí)圖像(Ground Truth)之間的平均結(jié)構(gòu)相似度指數(shù)SSIM[32]。本文計(jì)算了香港中文大學(xué)的數(shù)據(jù)集CUHK[3]中100個(gè)樣本的平均SSIM,結(jié)果表明,在保證輸入圖像保真度的前提下,本文模型可以大大提高轉(zhuǎn)換合成的真實(shí)人臉圖像與人臉?biāo)孛鑸D像的匹配精度。
Table 1 SSIM and PSNR comparison of our framework with four baseline models on CUHK and CUFSF 表1 5種模型在CUHK和CHFSF數(shù)據(jù)集上的性能比較
由表1可知,本文模型比前3種模型在人臉生成圖像的質(zhì)量上有所提升。相比CA-GAN,本文模型在CUSFS數(shù)據(jù)集上的客觀指標(biāo)更高,在CUHK數(shù)據(jù)集上的2項(xiàng)指標(biāo)則相差不多。
由于本文的最終目標(biāo)是將由人臉?biāo)孛鑸D像生成的真實(shí)人臉圖像分發(fā)給公安機(jī)關(guān)進(jìn)行嫌疑犯的驗(yàn)證,在之前工作[17]的基礎(chǔ)上,本文進(jìn)行了另外2個(gè)實(shí)驗(yàn),一個(gè)是基于人類主觀判斷的視覺真實(shí)感,另一個(gè)是使用預(yù)先訓(xùn)練好的人臉驗(yàn)證器對本文模型的輸出結(jié)果進(jìn)行人臉識別準(zhǔn)確性的驗(yàn)證。但是,與文獻(xiàn)[17]不同,對于前者,在基于香港中文大學(xué)數(shù)據(jù)集[3]中的100個(gè)樣本的測試集上,對于每一個(gè)樣本,以隨機(jī)的順序向受試者展示由5種不同模型生成的圖像和一幅原始的真實(shí)圖像,并給每位受試者一秒鐘的時(shí)間來判斷哪一幅圖像最接近原始的真實(shí)圖像。然后計(jì)算出5種模型的平均“愚弄”率并將其展示在表2中。對于后者,本文使用一個(gè)預(yù)先訓(xùn)練好的VGG16人臉驗(yàn)證器來評估本文模型對人臉驗(yàn)證準(zhǔn)確性的影響。對于每張輸入的素描,得到分別使用4種不同模型生成的輸出圖像,再將生成得到的圖像與總測試庫進(jìn)行人臉驗(yàn)證,表2中顯示了每個(gè)模型的驗(yàn)證精度??梢钥闯?,本文模型的驗(yàn)證精度明顯優(yōu)于前3種的,與CA-GAN模型分別在2個(gè)數(shù)據(jù)集上交替領(lǐng)先。在定量和定性評價(jià)上,CA-GAN模型在數(shù)據(jù)集CUSFS上的效果不如本文模型的,在CUHK數(shù)據(jù)集上則占有些許優(yōu)勢。綜上所述,本文模型在偽影移除和識別性能改進(jìn)方面具有一定的優(yōu)越性。
Table 2 Fooling rate and verification accuracy of our model with four baseline models on CUHK and CUFSF 表2 5種模型在CUHK和CHFSF數(shù)據(jù)集上的“愚弄”率與驗(yàn)證精度比較
本文提出了一種基于人臉?biāo)孛鑸D像到真實(shí)人臉圖像轉(zhuǎn)換合成任務(wù)的無監(jiān)督學(xué)習(xí)模型,并對框架結(jié)構(gòu)的相關(guān)理論基礎(chǔ)進(jìn)行了詳細(xì)說明。基于PGGAN生成器結(jié)構(gòu)和UNIT的共享潛空間假設(shè)設(shè)計(jì)了一個(gè)具有跳連接的生成對抗網(wǎng)絡(luò),成功地將素描人臉圖像轉(zhuǎn)換成真實(shí)的人臉圖像,并取得了更好的效果。與目前相關(guān)的無監(jiān)督方法相比,本文利用了額外的語義一致性損失,將輸入的語義信息保留在輸出中,并將像素級的循環(huán)一致性損失替換為感知損失,生成了更清晰的圖像。使用PGGAN生成器的鏡像架構(gòu)來生成高分辨率的圖像。在2個(gè)流行的開源數(shù)據(jù)集CUFS和CUFSF上的實(shí)驗(yàn)表明,本文模型在圖像生成質(zhì)量和主觀指標(biāo)上都取得了顯著的提高。在未來的工作中,將繼續(xù)重點(diǎn)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),以期更高效地生成高質(zhì)量的圖像,并將繼續(xù)探索本文模型在其他圖像轉(zhuǎn)換合成任務(wù)中的應(yīng)用。