殷 歆,張戰(zhàn)成
(蘇州科技大學(xué) 電子與信息工程學(xué)院,江蘇 蘇州 215009)
人物圖像生成在圖像編輯、圖像重建、動(dòng)畫制作、短視頻虛擬特效等領(lǐng)域[1]得到廣泛應(yīng)用。姿勢(shì)遷移的目標(biāo)是以目標(biāo)姿勢(shì)引導(dǎo)模型生成出具有相同姿勢(shì)的真實(shí)人物圖像,其為人物圖像生成領(lǐng)域一個(gè)具有挑戰(zhàn)性的任務(wù),尤其是不同視角下人物不同姿勢(shì)圖像在外觀上存在較大差異時(shí),要求生成器能夠捕獲圖像分布所具有的較大變化。
早期的人物圖像生成方法直接對(duì)整個(gè)源人物圖像進(jìn)行編碼,然后解碼生成圖像,這種整體編碼在面對(duì)具有復(fù)雜多樣衣服的多種人物圖像時(shí),難以針對(duì)詳細(xì)的紋理對(duì)整個(gè)人物進(jìn)行正確編碼,細(xì)節(jié)失真較為嚴(yán)重。屬性分解的生成對(duì)抗網(wǎng)絡(luò)(Attribute-Decomposed Generative Adversarial Network,ADGAN)[2]提出一種將源人物圖像分解為多個(gè)部件并分別編碼再重組構(gòu)建完整樣式碼的編碼方式DCE(Decomposed Component Encoding),其只針對(duì)人物一個(gè)組成部分的特征進(jìn)行編碼,使編碼難度降低,同時(shí)也加快了模型的收斂速度,所生成圖像的細(xì)節(jié)更為逼真,但是,這種單純的先分解人物組件編碼再拼接的編碼方式相對(duì)于整體編碼方式遺漏了人體各部分之間的關(guān)聯(lián)性,當(dāng)源人物的姿勢(shì)和衣服紋理過于復(fù)雜時(shí),該編碼方式容易出現(xiàn)紋理和顏色編碼混亂,進(jìn)而導(dǎo)致所生成的人物丟失源人物的紋理特征。
針對(duì)上述問題,本文提出一種姿勢(shì)引導(dǎo)分解組件編碼器P-DCE(Pose Guided Decomposed Component Encoding),為每一個(gè)分解的源人物組件增加源人物完整的人體姿勢(shì)關(guān)鍵點(diǎn)信息,確保在任何復(fù)雜人物圖像的編碼中都不會(huì)丟失人物各個(gè)部件之間的關(guān)聯(lián)性。同時(shí),在網(wǎng)絡(luò)中加入循環(huán)一致性約束,用來約束生成圖像與源圖像之間的紋理編碼和人物姿勢(shì)的一致性,從而保證生成圖像與源人物圖像的整體外觀相一致。
生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[3]在圖像生成領(lǐng)域發(fā)揮了重要作用,但是其難以控制生成器的輸出,生成內(nèi)容極其依賴訓(xùn)練數(shù)據(jù)集的分布。為了使GAN 的輸出變得可控,文獻(xiàn)[4]提出條件生成對(duì)抗網(wǎng)絡(luò)(Conditional Generative Adversarial Network,CGAN),在生成器輸入端增加一個(gè)標(biāo)簽輸入,在鑒別器的輸入端也加入相同標(biāo)簽,從而控制生成器輸出與標(biāo)簽相關(guān)的內(nèi)容,CGAN 的出現(xiàn)推動(dòng)了圖像風(fēng)格遷移的發(fā)展。文獻(xiàn)[5]結(jié)合CGAN 的思想同時(shí)在網(wǎng)絡(luò)中加入多鑒別器用于生成人物衣服的搭配圖像,文獻(xiàn)[6]在CGAN 的基礎(chǔ)上加入U(xiǎn)Net 結(jié)構(gòu)[7],提出一種新的鑒別器Patch GAN,稱為pix2pix,其實(shí)現(xiàn)了圖像到圖像的翻譯和圖像的風(fēng)格遷移,擴(kuò)展了CGAN 的應(yīng)用范圍。隨后,文獻(xiàn)[8]提高了pix2pix 的圖像生成質(zhì)量,生成的圖像達(dá)到了高分辨率的水平,但是pix2pix 系列方法依賴于訓(xùn)練標(biāo)簽間一一對(duì)應(yīng)的關(guān)系,導(dǎo)致數(shù)據(jù)集的獲取比較困難。為了解決上述問題,使圖像風(fēng)格遷移更易訓(xùn)練,文獻(xiàn)[9]提出一種無監(jiān)督的圖像風(fēng)格遷移方法CycleGAN,該方法引入循環(huán)一致性約束,使用2 個(gè)包含未標(biāo)注圖像的圖像域訓(xùn)練生成圖像。文獻(xiàn)[10]使用CycleGAN 的循環(huán)約束結(jié)構(gòu)設(shè)計(jì)用于雨天圖像中雨水去除的DerainCycleGAN 算法。文獻(xiàn)[11]提出一種結(jié)合變分自動(dòng)編碼器(VAE)和生成對(duì)抗網(wǎng)絡(luò)的聯(lián)合生成模型,以生成高質(zhì)量的不可見特征,有效解決了訓(xùn)練數(shù)據(jù)集獲取困難或不可用的問題。文獻(xiàn)[12-13]基于pix2pixHD 對(duì)生成人物視頻進(jìn)行研究,但是pix2pix 的特性使得生成人物圖像不具多樣性。
針對(duì)人物圖像生成問題,已經(jīng)有許多基于生成對(duì)抗網(wǎng)絡(luò)合成任意姿勢(shì)的人體圖像生成算法被提出。文獻(xiàn)[14]提出一種雙階段的生成器結(jié)構(gòu)以合成人物圖像,其中,第一階段對(duì)具有目標(biāo)姿勢(shì)的人物進(jìn)行粗略合成,隨后在第二階段對(duì)其進(jìn)行細(xì)化,在生成過程中較好地分離了人物的姿勢(shì)和外觀。文獻(xiàn)[15]提出一種全新的生成器架構(gòu),通過自適應(yīng)實(shí)例規(guī)范化AdaIN[16]控制生成器,合成比較逼真的人臉圖像,AdaIN 可實(shí)現(xiàn)任意風(fēng)格遷移,其中也包括人物姿勢(shì)和紋理的遷移,被廣泛應(yīng)用于許多人物圖像生成任務(wù)中。文獻(xiàn)[17]將級(jí)聯(lián)式姿勢(shì)注意模塊加入到生成器中,以逐步引導(dǎo)可變性傳遞過程,利用雙向策略在無監(jiān)督的情況下合成人物圖像,但是該方法只將源人物的姿勢(shì)傳遞給目標(biāo)人物,忽略了人物的外觀、衣服紋理、背景等信息,對(duì)于復(fù)雜紋理的生成效果不佳。文獻(xiàn)[2]提出的ADGAN 在PATN 級(jí)聯(lián)式模型的基礎(chǔ)上進(jìn)行優(yōu)化,采用級(jí)聯(lián)式姿勢(shì)注意力模塊完成姿勢(shì)引導(dǎo),同時(shí)使用AdaIN 模塊將人物組件屬性(如頭部、上衣、褲子等)編碼注入到姿勢(shì)編碼中,可以生成紋理一致和姿勢(shì)一致的人物圖像,但是ADGAN缺少對(duì)姿態(tài)控制的引導(dǎo)條件,導(dǎo)致人物姿態(tài)失真。為了更精確地進(jìn)行人體紋理解耦,文獻(xiàn)[18]提出聯(lián)合人物圖像的全局和局部逐區(qū)域編碼和標(biāo)準(zhǔn)化的方式來預(yù)測(cè)不可見區(qū)域的服裝的合理風(fēng)格,使生成圖像的人物紋理更加精確。
本文在ADGAN[2]的基礎(chǔ)上增加姿勢(shì)引導(dǎo)紋理生成模塊,并設(shè)計(jì)一種新的融合模塊,加入循環(huán)一致性約束,在人體分解紋理編碼部分對(duì)每一個(gè)分解后的模塊(如頭部、上衣、褲子、肢體等)都在通道維上拼接人體姿勢(shì)信息,每個(gè)通道代表一個(gè)人體部位的關(guān)鍵點(diǎn)。
本文所提姿勢(shì)引導(dǎo)和屬性分解的生成對(duì)抗網(wǎng)絡(luò)的生成器結(jié)構(gòu)是由姿勢(shì)路徑和紋理路徑這2 條路徑所組成的雙流結(jié)構(gòu),如圖1 所示。生成器需要3 個(gè)輸入,即需要生成的目標(biāo)人物姿勢(shì)Pt∈R18×H×W、源(條件)人物圖像Is∈R3×H×W、源人物姿勢(shì)Ps∈R18×H×W,輸出為生成的圖像Ig∈R3×H×W,即源人物Is在目標(biāo)姿勢(shì)Pt下的圖像。紋理編碼器的輸出通過若干個(gè)級(jí)聯(lián)模塊與解碼器連接,紋理路徑輸出的樣式碼被注入到級(jí)聯(lián)模塊中與姿勢(shì)編碼相結(jié)合,通過解碼器重構(gòu)出目標(biāo)人物圖像Ig。對(duì)于生成圖像Ig,添加了姿勢(shì)回歸和紋理回歸模塊。
圖1 雙流生成器結(jié)構(gòu)Fig.1 Double stream generator structure
紋理路徑的全稱為姿勢(shì)引導(dǎo)的人物紋理屬性分解編碼器,源人物圖像Is和源人物姿勢(shì)Ps通過該模塊被嵌入到隱空間中,編碼為樣式碼Cstyle。如圖1 所示,源人物圖像Is輸入到預(yù)訓(xùn)練的語義分割算法Look into Person[19]中提取人物的語義映射,并按照不同的人物屬性(如頭部、衣服、四肢等)轉(zhuǎn)換為8 個(gè)通道的語義映射M∈R8×H×W,將每一個(gè)通道Mi∈RH×W(i∈[1,2,…,8])作為掩碼,與源人物圖像相乘得到當(dāng)前人物屬性的分解人物組件掩碼。為了加強(qiáng)人體姿勢(shì)關(guān)鍵點(diǎn)與人體分解組件之間的位置對(duì)應(yīng)關(guān)系,將計(jì)算出的3 通道的分解人物圖像與18 通道的源人物姿勢(shì)Ps在通道維堆疊成21 通道的矩陣,輸入到紋理編碼器Tgrain中,計(jì)算出每個(gè)分支i對(duì)應(yīng)的樣式碼,最終將所有的分解樣式碼堆疊起來組成完整的人物樣式碼Cstyle,如下:
其中:⊙代表每個(gè)通道都逐元素相乘;?表示將2 個(gè)矩陣沿通道維堆疊;Tgrain為紋理編碼器。
紋理編碼器(Tgrain)是由一個(gè)固定權(quán)重編碼器和一個(gè)可學(xué)習(xí)權(quán)重的編碼器組合而成的全局編碼器。固定權(quán)重編碼器是在圖片風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò)AdaIN 上使用COCO 數(shù)據(jù)集[20]預(yù)訓(xùn)練的VGG 網(wǎng)絡(luò)[21],該編碼器參數(shù)固定,由于預(yù)訓(xùn)練的VGG 網(wǎng)絡(luò)在COCO 數(shù)據(jù)集中具有由各種紋理圖像訓(xùn)練的權(quán)重,對(duì)復(fù)雜的紋理都具有強(qiáng)大的泛化能力,大幅提高了模型性能,但是,固定權(quán)重的編碼器針對(duì)的是任意圖像的風(fēng)格轉(zhuǎn)換,為使編碼器可以更好地適應(yīng)人物風(fēng)格轉(zhuǎn)換,在每一個(gè)VGG 層的位置疊加一個(gè)輸出維度相同的可學(xué)習(xí)權(quán)重的卷積層,最終編碼器輸出的編碼為由可學(xué)習(xí)權(quán)重編碼器和固定權(quán)重編碼器的輸出所疊加的編碼,經(jīng)過平均池化層得到組件樣式碼,如圖2所示。
圖2 紋理編碼器結(jié)構(gòu)Fig.2 Texture encoder structure
姿勢(shì)路徑的目的是將紋理路徑輸出的樣式碼Cstyle表示的源人物紋理特征注入到目標(biāo)姿勢(shì)Pt的特征中,由一個(gè)融合模塊將姿勢(shì)特征與樣式碼特征連接。姿勢(shì)路徑由姿勢(shì)編碼器、解碼器和t(t=8)個(gè)級(jí)聯(lián)式模塊組成,每個(gè)級(jí)聯(lián)式模塊由一個(gè)融合模塊、卷積層和AdaIN 模塊組成。
本文模型共采用8 個(gè)級(jí)聯(lián)式模塊,其中第一塊沒有前置塊輸入,其直接使用最初的目標(biāo)人物姿勢(shì)Pt通過姿勢(shì)編碼器編碼后的輸出作為輸入,后續(xù)的每一個(gè)級(jí)聯(lián)式模塊的輸出都由當(dāng)前模塊Ft的輸出與前一個(gè)級(jí)聯(lián)式模塊Ft-1的輸出相加所得,如圖1 所示。
輸入的參數(shù)通過融合模塊(Fusion Module,F(xiàn)M)從樣式碼Cstyle中提取,不同于ADGAN 中的融合模塊結(jié)構(gòu),本文模型中樣式碼Cstyle每一個(gè)組件的樣式碼都帶有人體關(guān)鍵點(diǎn)信息,最終構(gòu)成的樣式碼帶有人體各部位的原始關(guān)聯(lián)性,不需要使用全連接層進(jìn)行線性重組,融合模塊被設(shè)計(jì)成4 個(gè)下采樣卷積層進(jìn)一步提取樣式碼的特征,最后一層使用全連接層將特征轉(zhuǎn)換為所需要的維度。在此基礎(chǔ)上,將最后一個(gè)級(jí)聯(lián)式模塊Ft的輸出輸入到由8 個(gè)反卷積層組成的解碼器中,得到最終的生成圖像Ig。
本文模型使用單個(gè)鑒別器,用于確保生成圖像Ig的外觀與源人物相似,鑒別器的輸入為生成圖像Ig。鑒別器結(jié)構(gòu)設(shè)計(jì)時(shí)參考PatchGAN[4]的全卷積設(shè)計(jì),原始的GAN 鑒別器僅針對(duì)整幅圖像輸出一個(gè)評(píng)價(jià)值,PatchGAN 輸出一個(gè)N×N大小的矩陣,矩陣中每一個(gè)元素對(duì)應(yīng)圖像中的一個(gè)小區(qū)域的評(píng)價(jià)值,這種鑒別器相比普通鑒別器對(duì)整個(gè)圖像的關(guān)注更全面,得出的評(píng)價(jià)均值更準(zhǔn)確,在一些圖像風(fēng)格遷移任務(wù)[4,6,14]中取得了更好的效果。
模型生成圖像的隱空間信息應(yīng)該與條件(源)圖像的隱空間信息保持一致[22]。針對(duì)本文模型的2 條路徑,網(wǎng)絡(luò)中添加2 種隱空間回歸、姿勢(shì)回歸和紋理回歸。
姿勢(shì)回歸使生成圖像Ig的姿勢(shì)關(guān)鍵點(diǎn)Pg與目標(biāo)姿勢(shì)關(guān)鍵點(diǎn)Pt對(duì)齊,即Pg≈Pt,Pg由生成圖像Ig通過預(yù)訓(xùn)練的人體姿勢(shì)關(guān)鍵點(diǎn)網(wǎng)絡(luò)(OpenPose)[23]計(jì)算得到。由于人體姿勢(shì)關(guān)鍵點(diǎn)信息容易計(jì)算與表示,無需為此設(shè)計(jì)專門的姿勢(shì)鑒別器,因此可使用式(3)直接計(jì)算Pg與Pt之間的L1 距離:
模型的整體損失函數(shù)Lfull包含GAN 對(duì)抗損失Ladv、循環(huán)一致性損失Lp_cyc和Le_cyc、重建損失Lrec、感知L1 損失LpreL1,計(jì)算公式如下:
其中:λ1、λ2、λ3、λ4是損失函數(shù)對(duì)應(yīng)的權(quán)重,實(shí)驗(yàn)中λ1、λ2取3,λ3、λ4取2。
對(duì)抗損失來自模型中的生成器G 和鑒別器D,目的是幫助生成器生成具有與源人物圖像視覺外觀相似的目標(biāo)人物圖像,如下:
重建損失用于引導(dǎo)生成圖像的外觀與目標(biāo)圖像的外觀相似,從而避免人物顏色和紋理的失真,可達(dá)到加快收斂和提高生成精度的效果,重建損失為生成圖像與目標(biāo)圖像之間的L1 距離。
感知L1 損失用于減少生成人物姿勢(shì)的扭曲和失真,且可以使生成圖像看起來更自然,該損失在一些超分辨率重建[24]、風(fēng)格轉(zhuǎn)換[25]、姿勢(shì)遷移[26]任務(wù)中具有有效性。
本文模型基于PyTorch 框架編寫,GPU 卡為NVIDIA Tesla-V100。超參數(shù)的設(shè)置使用動(dòng)量為0.5的Adam 優(yōu)化器對(duì)模型進(jìn)行800 個(gè)epoch 的訓(xùn)練,每一個(gè)epoch 進(jìn)行17 000 次迭代,采用每隔80 個(gè)epoch將學(xué)習(xí)率下降20%的線性衰減學(xué)習(xí)率調(diào)整策略。
3.1.1 數(shù)據(jù)集
本文實(shí)驗(yàn)在DeepFashion 數(shù)據(jù)集[27]上進(jìn)行訓(xùn)練和測(cè)試,該數(shù)據(jù)集包含52 712 張分辨率為256×256像素的高清且具有多人物、多姿勢(shì)和不同外觀的人物圖像,其中人物數(shù)量以及每個(gè)人物的姿勢(shì)和外觀豐富,使得該數(shù)據(jù)集被廣泛應(yīng)用于人體姿勢(shì)遷移算法的訓(xùn)練和測(cè)試中。為了盡量簡(jiǎn)化輸入圖片的信息,在預(yù)處理階段把每張圖片切割為176×256 像素的分辨率,去除多余的背景,使用人體姿態(tài)估計(jì)算法OpenPose 獲取每張圖像的人體關(guān)鍵點(diǎn)數(shù)據(jù)。利用在數(shù)據(jù)集中隨機(jī)抽取的方法配對(duì)相同人物在不同姿勢(shì)下的101 967 個(gè)圖像對(duì)用于訓(xùn)練,8 571 個(gè)圖像對(duì)用于測(cè)試,經(jīng)預(yù)處理后的部分圖像如圖3 所示。
圖3 DeepFashion 數(shù)據(jù)集示例Fig.3 Example of DeepFashion dataset
3.1.2 評(píng)價(jià)指標(biāo)
本文使用感知評(píng)分(IS)、結(jié)構(gòu)相似性(SSIM)和峰值信噪比(PSNR)來評(píng)價(jià)生成模型的性能和模型生成圖像的質(zhì)量。
IS 是用來評(píng)價(jià)GAN 生成圖像的質(zhì)量和多樣性的常用指標(biāo),其無需跟真實(shí)圖像比較,只需生成多張圖像即可計(jì)算。IS 在ImageNet 中被提出,計(jì)算時(shí)需使用預(yù)訓(xùn)練的Inception Net V3 生成圖像信息,IS 值越大,說明GAN 網(wǎng)絡(luò)生成圖像的質(zhì)量和多樣性越好。SSIM 是一種用于衡量2 張圖像相似度的常用指標(biāo),用于計(jì)算的2 張圖像分別為真實(shí)圖像和生成圖像,該指標(biāo)衡量2 個(gè)樣本間的亮度、對(duì)比度和結(jié)構(gòu),計(jì)算時(shí)每次從圖像上取一個(gè)分辨率為N×N的窗口單獨(dú)計(jì)算,然后滑動(dòng)窗口依次計(jì)算,最后取平均值作為全局SSIM 值,SSIM 值越高,說明生成圖像與源圖像差異越小。PSNR 是使用最為廣泛的圖像畫質(zhì)評(píng)價(jià)指標(biāo),其提供了衡量圖像失真或噪聲水平的客觀標(biāo)準(zhǔn),PSNR 值越高,說明生成圖像的失真程度越低。為了比較各方法之間的差異性,本文對(duì)所有生成圖像的SSIM 和PSNR 指標(biāo)進(jìn)行成對(duì)t 檢驗(yàn)(Paired ttest),該指標(biāo)用于檢驗(yàn)2 個(gè)樣本平均數(shù)與其各自所代表的總體的差異是否顯著,成對(duì)t 檢驗(yàn)的p 值小于0.05,表示2 個(gè)樣本差異顯著,反之,則表示2 個(gè)樣本差異不明顯。IS 指標(biāo)對(duì)多張圖像進(jìn)行度量,無法進(jìn)行成對(duì)t 檢驗(yàn),實(shí)驗(yàn)僅報(bào)告全體測(cè)試樣本上的度量。
對(duì)比本文模型和ADGAN 在訓(xùn)練時(shí)總損失Lfull的變化曲線,結(jié)果如圖4 所示,從中可以看出,本文模型增加的姿勢(shì)信息和循環(huán)一致性約束可以有效加快模型的收斂速度。
圖4 損失曲線比較Fig.4 Comparison of loss curves
為了測(cè)試網(wǎng)絡(luò)中加入的2 個(gè)隱空間回歸的有效性,設(shè)計(jì)2 組消融實(shí)驗(yàn),分別使用基礎(chǔ)網(wǎng)絡(luò)加姿勢(shì)回歸以及基礎(chǔ)網(wǎng)絡(luò)加紋理回歸,在DeepFashion 測(cè)試集中進(jìn)行定性和定量測(cè)試,定性測(cè)試結(jié)果如圖5 所示,定量測(cè)試結(jié)果如表1 所示,最優(yōu)結(jié)果加粗表示。
圖5 循環(huán)一致性約束對(duì)網(wǎng)絡(luò)影響的定性結(jié)果Fig.5 Qualitative results of the impact of cycle consistency constraints on networks
表1 循環(huán)一致性約束對(duì)網(wǎng)絡(luò)影響的定量結(jié)果Table 1 Quantitative results of the impact of cycle consistency constraints on networks
從圖5 和表1 可以看出:當(dāng)刪除姿勢(shì)回歸之后,生成圖像質(zhì)量稍有下降,人物的一些細(xì)節(jié)有一定的失真,IS、PSNR、SSIM 指標(biāo)略微下降,但是差異顯著;當(dāng)刪除紋理回歸之后,生成人物無法保持真實(shí)性,僅能看出姿勢(shì)略有一致,人物紋理外觀完全沒有保持,IS、PSNR、SSIM 指標(biāo)均有較為明顯的下降,并且差異顯著,造成該現(xiàn)象的原因可能是人物紋理隱空間比較復(fù)雜,在網(wǎng)絡(luò)缺乏相應(yīng)約束時(shí),生成圖像的人物紋理想要保持與條件人物紋理一致將變得非常困難。該實(shí)驗(yàn)結(jié)果表明,模型中加入紋理回歸和姿勢(shì)回歸具有有效性。
給定一些從測(cè)試集中選取的源人物圖像和期望生成的目標(biāo)姿勢(shì),本文模型可以生成符合目標(biāo)姿勢(shì)的自然且真實(shí)的結(jié)果,部分實(shí)驗(yàn)結(jié)果如圖6 所示。
圖6 部分實(shí)驗(yàn)結(jié)果示例Fig.6 Some examples of experimental results
為了評(píng)估本文模型在人體姿勢(shì)遷移圖像生成任務(wù)中的有效性,將其與ADGAN 和PATN 這2 個(gè)被廣泛使用的人體姿勢(shì)遷移模型進(jìn)行對(duì)比實(shí)驗(yàn),分為定性比較和定量比較。ADGAN 和PATN 均使用原文作者發(fā)布的在DeepFashion 數(shù)據(jù)集上訓(xùn)練出的預(yù)訓(xùn)練權(quán)重進(jìn)行測(cè)試,測(cè)試集使用預(yù)先從數(shù)據(jù)集中劃分出的8 571 個(gè)測(cè)試圖像對(duì),3 個(gè)模型的輸入輸出圖像分辨率均設(shè)置為176×256 像素。
定性比較結(jié)果如圖7 所示,可以看出,在相同源人物下進(jìn)行較為復(fù)雜的姿勢(shì)遷移時(shí),本文模型生成圖像的效果在視覺上優(yōu)于PATN,略優(yōu)于ADGAN,在人體紋理(如衣服、發(fā)型等)方面本文模型更準(zhǔn)確。定量比較結(jié)果如表2 所示,表中展示3 種指標(biāo)在3 個(gè)模型上的表現(xiàn),以及本文模型與其他2 個(gè)模型的SSIM 和PSNR指標(biāo)t-test的p 值,從中可以看出,本文模型具有最高的IS 值,說明生成圖像服飾多樣性較好,在SSIM 值上與ADGAN 相當(dāng),從成對(duì)t 檢驗(yàn)指標(biāo)上可以看出差異不顯著,在PSNR 指標(biāo)上本文模型最高,并且與其他模型相比差異顯著,說明本文模型生成的圖像效果失真度最小,能夠保證生成圖像的質(zhì)量。
圖7 3 種模型的生成圖像比較Fig.7 Comparison of images generated by three models
表2 3 種模型的性能比較結(jié)果Table 2 Performance comparison results of three models
PATN 模型由于沒有在網(wǎng)絡(luò)中加入人體語義分割信息,僅對(duì)人體姿勢(shì)信息使用級(jí)聯(lián)式結(jié)構(gòu)進(jìn)行編碼,在訓(xùn)練過程中損失了過多人體紋理信息,導(dǎo)致生成的人物圖像紋理失真比較嚴(yán)重,僅能較好地保證生成圖像人物姿勢(shì)的一致性。本文模型和ADGAN模型都加入了人體語義分割信息,并且采用分解組件編碼結(jié)構(gòu),在編碼時(shí)加強(qiáng)了人物紋理信息,最終生成圖像的質(zhì)量都優(yōu)于PATN。本文模型在分解組件編碼的基礎(chǔ)上又增加了源人物姿勢(shì)信息,在編碼后的特征中保留了人物紋理與源人物姿勢(shì)之間的對(duì)應(yīng)關(guān)系,進(jìn)一步提高了對(duì)人物紋理的編碼能力。此外,本文模型還添加了循環(huán)一致性約束,使生成人物圖像的紋理、姿勢(shì)信息與源人物圖像的紋理、姿勢(shì)信息更容易保持一致,對(duì)于具有復(fù)雜紋理的人物圖像依然可以保證紋理穩(wěn)定性以及準(zhǔn)確性。
本文提出一種姿勢(shì)引導(dǎo)分解組件編碼的姿勢(shì)遷移人物圖像生成對(duì)抗網(wǎng)絡(luò)。在生成人物分解樣式編碼時(shí)引入人體姿勢(shì)關(guān)鍵點(diǎn)的條件信息,將AdaIN 輸入處全連接結(jié)構(gòu)的融合模塊替換為多層卷積結(jié)構(gòu),進(jìn)一步提取人物姿勢(shì)分解組件的特征,從而加強(qiáng)模型中人物姿勢(shì)和紋理的關(guān)聯(lián)度。此外,對(duì)生成圖像和紋理編碼加入循環(huán)一致性約束,提高網(wǎng)絡(luò)生成圖像中人物紋理的精度和姿勢(shì)的一致性。DeepFashion數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,條件分解組件編碼較直接分解編碼具有更快的收斂速度,在IS、SSIM、PSNR 指標(biāo)上本文模型較對(duì)比模型有明顯優(yōu)勢(shì),人物生成圖像質(zhì)量有一定提升。
本文在訓(xùn)練生成對(duì)抗網(wǎng)絡(luò)時(shí)提供更多的條件信息并增加更多的約束條件,使得網(wǎng)絡(luò)的生成圖像效果得到增強(qiáng),但是,本文模型依然存在一些局限性,在生成具有復(fù)雜姿勢(shì)的人物時(shí)會(huì)有失真,這是由于DeepFashion 數(shù)據(jù)集中人物姿勢(shì)較為單一,具有復(fù)雜姿勢(shì)的人物訓(xùn)練數(shù)據(jù)偏少,在模型中缺乏對(duì)生成人物姿勢(shì)的有效約束條件。下一步將擴(kuò)充訓(xùn)練集中的復(fù)雜姿勢(shì)人物圖像,在模型中增加針對(duì)生成人物姿勢(shì)的有效約束,從而解決上述問題。