亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于姿勢(shì)引導(dǎo)與屬性分解的人物圖像生成

2023-01-09 14:29:00張戰(zhàn)成

計(jì)算機(jī)工程 2022年11期

殷歆，張戰(zhàn)成

（蘇州科技大學(xué) 電子與信息工程學(xué)院，江蘇蘇州 215009）

0 概述

人物圖像生成在圖像編輯、圖像重建、動(dòng)畫制作、短視頻虛擬特效等領(lǐng)域［1］得到廣泛應(yīng)用。姿勢(shì)遷移的目標(biāo)是以目標(biāo)姿勢(shì)引導(dǎo)模型生成出具有相同姿勢(shì)的真實(shí)人物圖像，其為人物圖像生成領(lǐng)域一個(gè)具有挑戰(zhàn)性的任務(wù)，尤其是不同視角下人物不同姿勢(shì)圖像在外觀上存在較大差異時(shí)，要求生成器能夠捕獲圖像分布所具有的較大變化。

早期的人物圖像生成方法直接對(duì)整個(gè)源人物圖像進(jìn)行編碼，然后解碼生成圖像，這種整體編碼在面對(duì)具有復(fù)雜多樣衣服的多種人物圖像時(shí)，難以針對(duì)詳細(xì)的紋理對(duì)整個(gè)人物進(jìn)行正確編碼，細(xì)節(jié)失真較為嚴(yán)重。屬性分解的生成對(duì)抗網(wǎng)絡(luò)（Attribute-Decomposed Generative Adversarial Network，ADGAN）［2］提出一種將源人物圖像分解為多個(gè)部件并分別編碼再重組構(gòu)建完整樣式碼的編碼方式DCE（Decomposed Component Encoding），其只針對(duì)人物一個(gè)組成部分的特征進(jìn)行編碼，使編碼難度降低，同時(shí)也加快了模型的收斂速度，所生成圖像的細(xì)節(jié)更為逼真，但是，這種單純的先分解人物組件編碼再拼接的編碼方式相對(duì)于整體編碼方式遺漏了人體各部分之間的關(guān)聯(lián)性，當(dāng)源人物的姿勢(shì)和衣服紋理過于復(fù)雜時(shí)，該編碼方式容易出現(xiàn)紋理和顏色編碼混亂，進(jìn)而導(dǎo)致所生成的人物丟失源人物的紋理特征。

針對(duì)上述問題，本文提出一種姿勢(shì)引導(dǎo)分解組件編碼器P-DCE（Pose Guided Decomposed Component Encoding），為每一個(gè)分解的源人物組件增加源人物完整的人體姿勢(shì)關(guān)鍵點(diǎn)信息，確保在任何復(fù)雜人物圖像的編碼中都不會(huì)丟失人物各個(gè)部件之間的關(guān)聯(lián)性。同時(shí)，在網(wǎng)絡(luò)中加入循環(huán)一致性約束，用來約束生成圖像與源圖像之間的紋理編碼和人物姿勢(shì)的一致性，從而保證生成圖像與源人物圖像的整體外觀相一致。

1 相關(guān)工作

生成對(duì)抗網(wǎng)絡(luò)（Generative Adversarial Network，GAN）［3］在圖像生成領(lǐng)域發(fā)揮了重要作用，但是其難以控制生成器的輸出，生成內(nèi)容極其依賴訓(xùn)練數(shù)據(jù)集的分布。為了使GAN 的輸出變得可控，文獻(xiàn)［4］提出條件生成對(duì)抗網(wǎng)絡(luò)（Conditional Generative Adversarial Network，CGAN），在生成器輸入端增加一個(gè)標(biāo)簽輸入，在鑒別器的輸入端也加入相同標(biāo)簽，從而控制生成器輸出與標(biāo)簽相關(guān)的內(nèi)容，CGAN 的出現(xiàn)推動(dòng)了圖像風(fēng)格遷移的發(fā)展。文獻(xiàn)［5］結(jié)合CGAN 的思想同時(shí)在網(wǎng)絡(luò)中加入多鑒別器用于生成人物衣服的搭配圖像，文獻(xiàn)［6］在CGAN 的基礎(chǔ)上加入U(xiǎn)Net 結(jié)構(gòu)［7］，提出一種新的鑒別器Patch GAN，稱為pix2pix，其實(shí)現(xiàn)了圖像到圖像的翻譯和圖像的風(fēng)格遷移，擴(kuò)展了CGAN 的應(yīng)用范圍。隨后，文獻(xiàn)［8］提高了pix2pix 的圖像生成質(zhì)量，生成的圖像達(dá)到了高分辨率的水平，但是pix2pix 系列方法依賴于訓(xùn)練標(biāo)簽間一一對(duì)應(yīng)的關(guān)系，導(dǎo)致數(shù)據(jù)集的獲取比較困難。為了解決上述問題，使圖像風(fēng)格遷移更易訓(xùn)練，文獻(xiàn)［9］提出一種無監(jiān)督的圖像風(fēng)格遷移方法CycleGAN，該方法引入循環(huán)一致性約束，使用2 個(gè)包含未標(biāo)注圖像的圖像域訓(xùn)練生成圖像。文獻(xiàn)［10］使用CycleGAN 的循環(huán)約束結(jié)構(gòu)設(shè)計(jì)用于雨天圖像中雨水去除的DerainCycleGAN 算法。文獻(xiàn)［11］提出一種結(jié)合變分自動(dòng)編碼器（VAE）和生成對(duì)抗網(wǎng)絡(luò)的聯(lián)合生成模型，以生成高質(zhì)量的不可見特征，有效解決了訓(xùn)練數(shù)據(jù)集獲取困難或不可用的問題。文獻(xiàn)［12-13］基于pix2pixHD 對(duì)生成人物視頻進(jìn)行研究，但是pix2pix 的特性使得生成人物圖像不具多樣性。

針對(duì)人物圖像生成問題，已經(jīng)有許多基于生成對(duì)抗網(wǎng)絡(luò)合成任意姿勢(shì)的人體圖像生成算法被提出。文獻(xiàn)［14］提出一種雙階段的生成器結(jié)構(gòu)以合成人物圖像，其中，第一階段對(duì)具有目標(biāo)姿勢(shì)的人物進(jìn)行粗略合成，隨后在第二階段對(duì)其進(jìn)行細(xì)化，在生成過程中較好地分離了人物的姿勢(shì)和外觀。文獻(xiàn)［15］提出一種全新的生成器架構(gòu)，通過自適應(yīng)實(shí)例規(guī)范化AdaIN［16］控制生成器，合成比較逼真的人臉圖像，AdaIN 可實(shí)現(xiàn)任意風(fēng)格遷移，其中也包括人物姿勢(shì)和紋理的遷移，被廣泛應(yīng)用于許多人物圖像生成任務(wù)中。文獻(xiàn)［17］將級(jí)聯(lián)式姿勢(shì)注意模塊加入到生成器中，以逐步引導(dǎo)可變性傳遞過程，利用雙向策略在無監(jiān)督的情況下合成人物圖像，但是該方法只將源人物的姿勢(shì)傳遞給目標(biāo)人物，忽略了人物的外觀、衣服紋理、背景等信息，對(duì)于復(fù)雜紋理的生成效果不佳。文獻(xiàn)［2］提出的ADGAN 在PATN 級(jí)聯(lián)式模型的基礎(chǔ)上進(jìn)行優(yōu)化，采用級(jí)聯(lián)式姿勢(shì)注意力模塊完成姿勢(shì)引導(dǎo)，同時(shí)使用AdaIN 模塊將人物組件屬性（如頭部、上衣、褲子等）編碼注入到姿勢(shì)編碼中，可以生成紋理一致和姿勢(shì)一致的人物圖像，但是ADGAN缺少對(duì)姿態(tài)控制的引導(dǎo)條件，導(dǎo)致人物姿態(tài)失真。為了更精確地進(jìn)行人體紋理解耦，文獻(xiàn)［18］提出聯(lián)合人物圖像的全局和局部逐區(qū)域編碼和標(biāo)準(zhǔn)化的方式來預(yù)測(cè)不可見區(qū)域的服裝的合理風(fēng)格，使生成圖像的人物紋理更加精確。

2 姿勢(shì)引導(dǎo)和屬性分解的生成對(duì)抗網(wǎng)絡(luò)

本文在ADGAN［2］的基礎(chǔ)上增加姿勢(shì)引導(dǎo)紋理生成模塊，并設(shè)計(jì)一種新的融合模塊，加入循環(huán)一致性約束，在人體分解紋理編碼部分對(duì)每一個(gè)分解后的模塊（如頭部、上衣、褲子、肢體等）都在通道維上拼接人體姿勢(shì)信息，每個(gè)通道代表一個(gè)人體部位的關(guān)鍵點(diǎn)。

本文所提姿勢(shì)引導(dǎo)和屬性分解的生成對(duì)抗網(wǎng)絡(luò)的生成器結(jié)構(gòu)是由姿勢(shì)路徑和紋理路徑這2 條路徑所組成的雙流結(jié)構(gòu)，如圖1 所示。生成器需要3 個(gè)輸入，即需要生成的目標(biāo)人物姿勢(shì)Pt∈R18×H×W、源（條件）人物圖像Is∈R3×H×W、源人物姿勢(shì)Ps∈R18×H×W，輸出為生成的圖像Ig∈R3×H×W，即源人物Is在目標(biāo)姿勢(shì)Pt下的圖像。紋理編碼器的輸出通過若干個(gè)級(jí)聯(lián)模塊與解碼器連接，紋理路徑輸出的樣式碼被注入到級(jí)聯(lián)模塊中與姿勢(shì)編碼相結(jié)合，通過解碼器重構(gòu)出目標(biāo)人物圖像Ig。對(duì)于生成圖像Ig，添加了姿勢(shì)回歸和紋理回歸模塊。

圖1 雙流生成器結(jié)構(gòu)Fig.1 Double stream generator structure

2.1 紋理路徑

紋理路徑的全稱為姿勢(shì)引導(dǎo)的人物紋理屬性分解編碼器，源人物圖像Is和源人物姿勢(shì)Ps通過該模塊被嵌入到隱空間中，編碼為樣式碼Cstyle。如圖1 所示，源人物圖像Is輸入到預(yù)訓(xùn)練的語義分割算法Look into Person［19］中提取人物的語義映射，并按照不同的人物屬性（如頭部、衣服、四肢等）轉(zhuǎn)換為8 個(gè)通道的語義映射M∈R8×H×W，將每一個(gè)通道Mi∈RH×W(i∈[1，2，…，8])作為掩碼，與源人物圖像相乘得到當(dāng)前人物屬性的分解人物組件掩碼。為了加強(qiáng)人體姿勢(shì)關(guān)鍵點(diǎn)與人體分解組件之間的位置對(duì)應(yīng)關(guān)系，將計(jì)算出的3 通道的分解人物圖像與18 通道的源人物姿勢(shì)Ps在通道維堆疊成21 通道的矩陣，輸入到紋理編碼器Tgrain中，計(jì)算出每個(gè)分支i對(duì)應(yīng)的樣式碼，最終將所有的分解樣式碼堆疊起來組成完整的人物樣式碼Cstyle，如下：

其中：⊙代表每個(gè)通道都逐元素相乘；?表示將2 個(gè)矩陣沿通道維堆疊；Tgrain為紋理編碼器。

紋理編碼器（Tgrain）是由一個(gè)固定權(quán)重編碼器和一個(gè)可學(xué)習(xí)權(quán)重的編碼器組合而成的全局編碼器。固定權(quán)重編碼器是在圖片風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò)AdaIN 上使用COCO 數(shù)據(jù)集［20］預(yù)訓(xùn)練的VGG 網(wǎng)絡(luò)［21］，該編碼器參數(shù)固定，由于預(yù)訓(xùn)練的VGG 網(wǎng)絡(luò)在COCO 數(shù)據(jù)集中具有由各種紋理圖像訓(xùn)練的權(quán)重，對(duì)復(fù)雜的紋理都具有強(qiáng)大的泛化能力，大幅提高了模型性能，但是，固定權(quán)重的編碼器針對(duì)的是任意圖像的風(fēng)格轉(zhuǎn)換，為使編碼器可以更好地適應(yīng)人物風(fēng)格轉(zhuǎn)換，在每一個(gè)VGG 層的位置疊加一個(gè)輸出維度相同的可學(xué)習(xí)權(quán)重的卷積層，最終編碼器輸出的編碼為由可學(xué)習(xí)權(quán)重編碼器和固定權(quán)重編碼器的輸出所疊加的編碼，經(jīng)過平均池化層得到組件樣式碼，如圖2所示。

圖2 紋理編碼器結(jié)構(gòu)Fig.2 Texture encoder structure

2.2 姿勢(shì)路徑

姿勢(shì)路徑的目的是將紋理路徑輸出的樣式碼Cstyle表示的源人物紋理特征注入到目標(biāo)姿勢(shì)Pt的特征中，由一個(gè)融合模塊將姿勢(shì)特征與樣式碼特征連接。姿勢(shì)路徑由姿勢(shì)編碼器、解碼器和t(t=8)個(gè)級(jí)聯(lián)式模塊組成，每個(gè)級(jí)聯(lián)式模塊由一個(gè)融合模塊、卷積層和AdaIN 模塊組成。

本文模型共采用8 個(gè)級(jí)聯(lián)式模塊，其中第一塊沒有前置塊輸入，其直接使用最初的目標(biāo)人物姿勢(shì)Pt通過姿勢(shì)編碼器編碼后的輸出作為輸入，后續(xù)的每一個(gè)級(jí)聯(lián)式模塊的輸出都由當(dāng)前模塊Ft的輸出與前一個(gè)級(jí)聯(lián)式模塊Ft-1的輸出相加所得，如圖1 所示。

輸入的參數(shù)通過融合模塊（Fusion Module，F(xiàn)M）從樣式碼Cstyle中提取，不同于ADGAN 中的融合模塊結(jié)構(gòu)，本文模型中樣式碼Cstyle每一個(gè)組件的樣式碼都帶有人體關(guān)鍵點(diǎn)信息，最終構(gòu)成的樣式碼帶有人體各部位的原始關(guān)聯(lián)性，不需要使用全連接層進(jìn)行線性重組，融合模塊被設(shè)計(jì)成4 個(gè)下采樣卷積層進(jìn)一步提取樣式碼的特征，最后一層使用全連接層將特征轉(zhuǎn)換為所需要的維度。在此基礎(chǔ)上，將最后一個(gè)級(jí)聯(lián)式模塊Ft的輸出輸入到由8 個(gè)反卷積層組成的解碼器中，得到最終的生成圖像Ig。

2.3 鑒別器

本文模型使用單個(gè)鑒別器，用于確保生成圖像Ig的外觀與源人物相似，鑒別器的輸入為生成圖像Ig。鑒別器結(jié)構(gòu)設(shè)計(jì)時(shí)參考PatchGAN［4］的全卷積設(shè)計(jì)，原始的GAN 鑒別器僅針對(duì)整幅圖像輸出一個(gè)評(píng)價(jià)值，PatchGAN 輸出一個(gè)N×N大小的矩陣，矩陣中每一個(gè)元素對(duì)應(yīng)圖像中的一個(gè)小區(qū)域的評(píng)價(jià)值，這種鑒別器相比普通鑒別器對(duì)整個(gè)圖像的關(guān)注更全面，得出的評(píng)價(jià)均值更準(zhǔn)確，在一些圖像風(fēng)格遷移任務(wù)［4，6，14］中取得了更好的效果。

2.4 循環(huán)一致性約束

模型生成圖像的隱空間信息應(yīng)該與條件（源）圖像的隱空間信息保持一致［22］。針對(duì)本文模型的2 條路徑，網(wǎng)絡(luò)中添加2 種隱空間回歸、姿勢(shì)回歸和紋理回歸。

姿勢(shì)回歸使生成圖像Ig的姿勢(shì)關(guān)鍵點(diǎn)Pg與目標(biāo)姿勢(shì)關(guān)鍵點(diǎn)Pt對(duì)齊，即Pg≈Pt，Pg由生成圖像Ig通過預(yù)訓(xùn)練的人體姿勢(shì)關(guān)鍵點(diǎn)網(wǎng)絡(luò)（OpenPose）［23］計(jì)算得到。由于人體姿勢(shì)關(guān)鍵點(diǎn)信息容易計(jì)算與表示，無需為此設(shè)計(jì)專門的姿勢(shì)鑒別器，因此可使用式（3）直接計(jì)算Pg與Pt之間的L1 距離：

2.5 損失函數(shù)

模型的整體損失函數(shù)Lfull包含GAN 對(duì)抗損失Ladv、循環(huán)一致性損失Lp_cyc和Le_cyc、重建損失Lrec、感知L1 損失LpreL1，計(jì)算公式如下：

其中：λ1、λ2、λ3、λ4是損失函數(shù)對(duì)應(yīng)的權(quán)重，實(shí)驗(yàn)中λ1、λ2取3，λ3、λ4取2。

對(duì)抗損失來自模型中的生成器G 和鑒別器D，目的是幫助生成器生成具有與源人物圖像視覺外觀相似的目標(biāo)人物圖像，如下：

重建損失用于引導(dǎo)生成圖像的外觀與目標(biāo)圖像的外觀相似，從而避免人物顏色和紋理的失真，可達(dá)到加快收斂和提高生成精度的效果，重建損失為生成圖像與目標(biāo)圖像之間的L1 距離。

感知L1 損失用于減少生成人物姿勢(shì)的扭曲和失真，且可以使生成圖像看起來更自然，該損失在一些超分辨率重建［24］、風(fēng)格轉(zhuǎn)換［25］、姿勢(shì)遷移［26］任務(wù)中具有有效性。

3 實(shí)驗(yàn)結(jié)果與分析

本文模型基于PyTorch 框架編寫，GPU 卡為NVIDIA Tesla-V100。超參數(shù)的設(shè)置使用動(dòng)量為0.5的Adam 優(yōu)化器對(duì)模型進(jìn)行800 個(gè)epoch 的訓(xùn)練，每一個(gè)epoch 進(jìn)行17 000 次迭代，采用每隔80 個(gè)epoch將學(xué)習(xí)率下降20%的線性衰減學(xué)習(xí)率調(diào)整策略。

3.1 實(shí)驗(yàn)設(shè)計(jì)

3.1.1 數(shù)據(jù)集

本文實(shí)驗(yàn)在DeepFashion 數(shù)據(jù)集［27］上進(jìn)行訓(xùn)練和測(cè)試，該數(shù)據(jù)集包含52 712 張分辨率為256×256像素的高清且具有多人物、多姿勢(shì)和不同外觀的人物圖像，其中人物數(shù)量以及每個(gè)人物的姿勢(shì)和外觀豐富，使得該數(shù)據(jù)集被廣泛應(yīng)用于人體姿勢(shì)遷移算法的訓(xùn)練和測(cè)試中。為了盡量簡(jiǎn)化輸入圖片的信息，在預(yù)處理階段把每張圖片切割為176×256 像素的分辨率，去除多余的背景，使用人體姿態(tài)估計(jì)算法OpenPose 獲取每張圖像的人體關(guān)鍵點(diǎn)數(shù)據(jù)。利用在數(shù)據(jù)集中隨機(jī)抽取的方法配對(duì)相同人物在不同姿勢(shì)下的101 967 個(gè)圖像對(duì)用于訓(xùn)練，8 571 個(gè)圖像對(duì)用于測(cè)試，經(jīng)預(yù)處理后的部分圖像如圖3 所示。

圖3 DeepFashion 數(shù)據(jù)集示例Fig.3 Example of DeepFashion dataset

3.1.2 評(píng)價(jià)指標(biāo)

本文使用感知評(píng)分（IS）、結(jié)構(gòu)相似性（SSIM）和峰值信噪比（PSNR）來評(píng)價(jià)生成模型的性能和模型生成圖像的質(zhì)量。

IS 是用來評(píng)價(jià)GAN 生成圖像的質(zhì)量和多樣性的常用指標(biāo)，其無需跟真實(shí)圖像比較，只需生成多張圖像即可計(jì)算。IS 在ImageNet 中被提出，計(jì)算時(shí)需使用預(yù)訓(xùn)練的Inception Net V3 生成圖像信息，IS 值越大，說明GAN 網(wǎng)絡(luò)生成圖像的質(zhì)量和多樣性越好。SSIM 是一種用于衡量2 張圖像相似度的常用指標(biāo)，用于計(jì)算的2 張圖像分別為真實(shí)圖像和生成圖像，該指標(biāo)衡量2 個(gè)樣本間的亮度、對(duì)比度和結(jié)構(gòu)，計(jì)算時(shí)每次從圖像上取一個(gè)分辨率為N×N的窗口單獨(dú)計(jì)算，然后滑動(dòng)窗口依次計(jì)算，最后取平均值作為全局SSIM 值，SSIM 值越高，說明生成圖像與源圖像差異越小。PSNR 是使用最為廣泛的圖像畫質(zhì)評(píng)價(jià)指標(biāo)，其提供了衡量圖像失真或噪聲水平的客觀標(biāo)準(zhǔn)，PSNR 值越高，說明生成圖像的失真程度越低。為了比較各方法之間的差異性，本文對(duì)所有生成圖像的SSIM 和PSNR 指標(biāo)進(jìn)行成對(duì)t 檢驗(yàn)（Paired ttest），該指標(biāo)用于檢驗(yàn)2 個(gè)樣本平均數(shù)與其各自所代表的總體的差異是否顯著，成對(duì)t 檢驗(yàn)的p 值小于0.05，表示2 個(gè)樣本差異顯著，反之，則表示2 個(gè)樣本差異不明顯。IS 指標(biāo)對(duì)多張圖像進(jìn)行度量，無法進(jìn)行成對(duì)t 檢驗(yàn)，實(shí)驗(yàn)僅報(bào)告全體測(cè)試樣本上的度量。

3.2 損失曲線

對(duì)比本文模型和ADGAN 在訓(xùn)練時(shí)總損失Lfull的變化曲線，結(jié)果如圖4 所示，從中可以看出，本文模型增加的姿勢(shì)信息和循環(huán)一致性約束可以有效加快模型的收斂速度。

圖4 損失曲線比較Fig.4 Comparison of loss curves

3.3 消融實(shí)驗(yàn)

為了測(cè)試網(wǎng)絡(luò)中加入的2 個(gè)隱空間回歸的有效性，設(shè)計(jì)2 組消融實(shí)驗(yàn)，分別使用基礎(chǔ)網(wǎng)絡(luò)加姿勢(shì)回歸以及基礎(chǔ)網(wǎng)絡(luò)加紋理回歸，在DeepFashion 測(cè)試集中進(jìn)行定性和定量測(cè)試，定性測(cè)試結(jié)果如圖5 所示，定量測(cè)試結(jié)果如表1 所示，最優(yōu)結(jié)果加粗表示。

圖5 循環(huán)一致性約束對(duì)網(wǎng)絡(luò)影響的定性結(jié)果Fig.5 Qualitative results of the impact of cycle consistency constraints on networks

表1 循環(huán)一致性約束對(duì)網(wǎng)絡(luò)影響的定量結(jié)果Table 1 Quantitative results of the impact of cycle consistency constraints on networks

從圖5 和表1 可以看出：當(dāng)刪除姿勢(shì)回歸之后，生成圖像質(zhì)量稍有下降，人物的一些細(xì)節(jié)有一定的失真，IS、PSNR、SSIM 指標(biāo)略微下降，但是差異顯著；當(dāng)刪除紋理回歸之后，生成人物無法保持真實(shí)性，僅能看出姿勢(shì)略有一致，人物紋理外觀完全沒有保持，IS、PSNR、SSIM 指標(biāo)均有較為明顯的下降，并且差異顯著，造成該現(xiàn)象的原因可能是人物紋理隱空間比較復(fù)雜，在網(wǎng)絡(luò)缺乏相應(yīng)約束時(shí)，生成圖像的人物紋理想要保持與條件人物紋理一致將變得非常困難。該實(shí)驗(yàn)結(jié)果表明，模型中加入紋理回歸和姿勢(shì)回歸具有有效性。

3.4 與其他模型的比較

給定一些從測(cè)試集中選取的源人物圖像和期望生成的目標(biāo)姿勢(shì)，本文模型可以生成符合目標(biāo)姿勢(shì)的自然且真實(shí)的結(jié)果，部分實(shí)驗(yàn)結(jié)果如圖6 所示。

圖6 部分實(shí)驗(yàn)結(jié)果示例Fig.6 Some examples of experimental results

為了評(píng)估本文模型在人體姿勢(shì)遷移圖像生成任務(wù)中的有效性，將其與ADGAN 和PATN 這2 個(gè)被廣泛使用的人體姿勢(shì)遷移模型進(jìn)行對(duì)比實(shí)驗(yàn)，分為定性比較和定量比較。ADGAN 和PATN 均使用原文作者發(fā)布的在DeepFashion 數(shù)據(jù)集上訓(xùn)練出的預(yù)訓(xùn)練權(quán)重進(jìn)行測(cè)試，測(cè)試集使用預(yù)先從數(shù)據(jù)集中劃分出的8 571 個(gè)測(cè)試圖像對(duì)，3 個(gè)模型的輸入輸出圖像分辨率均設(shè)置為176×256 像素。

定性比較結(jié)果如圖7 所示，可以看出，在相同源人物下進(jìn)行較為復(fù)雜的姿勢(shì)遷移時(shí)，本文模型生成圖像的效果在視覺上優(yōu)于PATN，略優(yōu)于ADGAN，在人體紋理（如衣服、發(fā)型等）方面本文模型更準(zhǔn)確。定量比較結(jié)果如表2 所示，表中展示3 種指標(biāo)在3 個(gè)模型上的表現(xiàn)，以及本文模型與其他2 個(gè)模型的SSIM 和PSNR指標(biāo)t-test的p 值，從中可以看出，本文模型具有最高的IS 值，說明生成圖像服飾多樣性較好，在SSIM 值上與ADGAN 相當(dāng)，從成對(duì)t 檢驗(yàn)指標(biāo)上可以看出差異不顯著，在PSNR 指標(biāo)上本文模型最高，并且與其他模型相比差異顯著，說明本文模型生成的圖像效果失真度最小，能夠保證生成圖像的質(zhì)量。

圖7 3 種模型的生成圖像比較Fig.7 Comparison of images generated by three models

表2 3 種模型的性能比較結(jié)果Table 2 Performance comparison results of three models

PATN 模型由于沒有在網(wǎng)絡(luò)中加入人體語義分割信息，僅對(duì)人體姿勢(shì)信息使用級(jí)聯(lián)式結(jié)構(gòu)進(jìn)行編碼，在訓(xùn)練過程中損失了過多人體紋理信息，導(dǎo)致生成的人物圖像紋理失真比較嚴(yán)重，僅能較好地保證生成圖像人物姿勢(shì)的一致性。本文模型和ADGAN模型都加入了人體語義分割信息，并且采用分解組件編碼結(jié)構(gòu)，在編碼時(shí)加強(qiáng)了人物紋理信息，最終生成圖像的質(zhì)量都優(yōu)于PATN。本文模型在分解組件編碼的基礎(chǔ)上又增加了源人物姿勢(shì)信息，在編碼后的特征中保留了人物紋理與源人物姿勢(shì)之間的對(duì)應(yīng)關(guān)系，進(jìn)一步提高了對(duì)人物紋理的編碼能力。此外，本文模型還添加了循環(huán)一致性約束，使生成人物圖像的紋理、姿勢(shì)信息與源人物圖像的紋理、姿勢(shì)信息更容易保持一致，對(duì)于具有復(fù)雜紋理的人物圖像依然可以保證紋理穩(wěn)定性以及準(zhǔn)確性。

4 結(jié)束語

本文提出一種姿勢(shì)引導(dǎo)分解組件編碼的姿勢(shì)遷移人物圖像生成對(duì)抗網(wǎng)絡(luò)。在生成人物分解樣式編碼時(shí)引入人體姿勢(shì)關(guān)鍵點(diǎn)的條件信息，將AdaIN 輸入處全連接結(jié)構(gòu)的融合模塊替換為多層卷積結(jié)構(gòu)，進(jìn)一步提取人物姿勢(shì)分解組件的特征，從而加強(qiáng)模型中人物姿勢(shì)和紋理的關(guān)聯(lián)度。此外，對(duì)生成圖像和紋理編碼加入循環(huán)一致性約束，提高網(wǎng)絡(luò)生成圖像中人物紋理的精度和姿勢(shì)的一致性。DeepFashion數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，條件分解組件編碼較直接分解編碼具有更快的收斂速度，在IS、SSIM、PSNR 指標(biāo)上本文模型較對(duì)比模型有明顯優(yōu)勢(shì)，人物生成圖像質(zhì)量有一定提升。

本文在訓(xùn)練生成對(duì)抗網(wǎng)絡(luò)時(shí)提供更多的條件信息并增加更多的約束條件，使得網(wǎng)絡(luò)的生成圖像效果得到增強(qiáng)，但是，本文模型依然存在一些局限性，在生成具有復(fù)雜姿勢(shì)的人物時(shí)會(huì)有失真，這是由于DeepFashion 數(shù)據(jù)集中人物姿勢(shì)較為單一，具有復(fù)雜姿勢(shì)的人物訓(xùn)練數(shù)據(jù)偏少，在模型中缺乏對(duì)生成人物姿勢(shì)的有效約束條件。下一步將擴(kuò)充訓(xùn)練集中的復(fù)雜姿勢(shì)人物圖像，在模型中增加針對(duì)生成人物姿勢(shì)的有效約束，從而解決上述問題。