陳寶玉,張 怡,于冰冰,劉秀平
兩階段可調節(jié)感知蒸餾網絡的虛擬試衣方法
陳寶玉,張 怡,于冰冰,劉秀平
(大連理工大學數學科學學院,遼寧 大連 116024)
基于圖像的虛擬試衣能將目標服裝圖像合成到人物圖像上,此任務近年來因其在電子商務和時裝圖像編輯上廣泛應用而備受關注。針對該任務的特點和已有方法的缺陷,提出一種兩階段可調節(jié)感知蒸餾方法(TS-APD)。該方法包括3個步驟:①分別對服裝圖像和人物圖像預訓練2個語義分割網絡,生成更準確的服裝前景分割和上衣分割;②利用這2個語義分割和其他解析信息訓練基于解析器的“導師”網絡;③以“導師”網絡生成的假圖像作為輸入,以原始真實人物圖像作為監(jiān)督,采用一種TS-APD方案訓練無解析器的“學生”網絡。最終經過蒸餾的“學生”網絡能在不需要人體解析的情況下,生成高質量的試衣圖像。在VITON數據集上的實驗結果表明,該算法在FID、1和PCKh的評分分別可達9.10,0.015 3,0.985 6,均優(yōu)于現有方法。用戶研究結果也表明,與已有方法相比,所提方法生成的圖像更加逼真,所有偏好得分均達77%以上。
虛擬試衣;知識蒸餾;圖像分割;圖像生成;可調節(jié)因子
隨著越來越多的消費者在網上購買服裝和配飾,購物方式為消費者提供互動體驗,使在線商務變得尤為重要。虛擬試衣是時裝產品在個性化背景下的可視化,提供了智能、直觀的在線體驗,能夠幫助用戶判斷喜好和購買意向,為此得到了廣泛的關注。現有的虛擬試衣分為基于三維人體建模[1-5]和基于二維圖像2類方法[6-13]。基于三維模型的方法往往依賴于三維測量或表示,需要昂貴的三維掃描設備和大量的計算資源,不適合在線用戶。相比之下,基于圖像的生成模型提供了一種更經濟、計算效率更高的解決方案。
近年來,基于圖像的虛擬試衣在圖像合成領域快速發(fā)展的推動下取得了相當大的進展。大部分最先進的虛擬試衣方法[6-11]依賴于人體解析信息,例如上衣、褲子、手臂、人臉和頭發(fā)等,其信息能指導虛擬試衣網絡關注特定的服裝區(qū)域且有針對性地進行內容的保留和生成。但是通常需要基于解析器來獲取高質量的人體解析,當解析結果不準確時,該方法將生成明顯失真的試衣圖像。
文獻[12]提出了無解析器“教師-學生”網絡(warping U-net for a virtual try-on,WUTON),但是設計上的缺陷導致“學生”網絡的圖像質量受基于解析器模型的限制。文獻[13]提出了無解析器的外觀流網絡(parser free appearance flow network,PF-AFN),不直接利用基于解析器模型生成的假圖像,而是采用了自監(jiān)督學習的方式訓練“學生”模仿原始的真實圖像,其在一定程度上彌補了WUTON的不足。但是PF-AFN采用的知識蒸餾[14]只體現在扭曲模塊的外觀流蒸餾,忽略了試衣模塊的重要性,導致試衣結果仍然存在紋理模糊和像素溢出等問題。
本文提出一種兩階段可調節(jié)感知蒸餾方法(two-stage adjustable perceptual distillation,TS-APD),有針對性地設計了2個可調節(jié)因子,分別對扭曲和試衣模塊進行自調節(jié)感知蒸餾。本文方法改進了PF-AFN方法單一模塊知識蒸餾的不足,大大改善了生成圖像的感知質量。另外,現有方法在服裝扭曲階段使用的目標服裝前景和上衣分割往往存在大量的噪聲,嚴重影響服裝扭曲效果。本文提出2個語義分割網絡,進行精準的服裝前景和上衣分割,實驗結果表明,在新的語義分割下服裝扭曲效果大大改善,試衣圖像真實感得到明顯提升。
PF-AFN方法流程如圖1所示,采用一種新穎的“教師-導師-學生”知識蒸餾方案?;诮馕銎髂P蜕傻募賵D像不直接作為“學生”網絡(無解析器模型)的監(jiān)督,而是作為“學生”網絡的輸入(導師知識),在真實圖像(教師知識)的監(jiān)督下,使學生模仿原始真實圖像。為了進一步提高生成質量,當“導師”生成的圖像質量好于“學生”模型時(可調節(jié)因子為1),對扭曲模塊進行外觀流蒸餾。PF-AFN的外觀流蒸餾使“學生”網絡在扭曲模塊學習了有用的知識,但卻忽略了試衣模塊,在試衣過程中沒有“導師”網絡的語義信息參與指導,使試衣結果仍然存在小范圍偽影和邊界模糊等問題。此外,PF-AFN的服裝分割未去除衣領等背景區(qū)域,上衣分割存在大量噪聲,這些均影響了扭曲服裝的真實感,進而降低了最終的試衣質量。
圖1 PF-AFN方法流程圖
針對以上問題,本文提出了TS-APD方法,如圖2所示。首先,通過2個預訓練的語義分割網絡生成準確的服裝前景和上衣分割;然后,將服裝前景和上衣分割連同其他解析信息作為輸入,訓練基于解析器的導師網絡;最后,利用本文方法,在真實圖像的監(jiān)督下,訓練無解析器的學生網絡。
虛擬試衣的目標是將服裝圖像合成到人物圖像上,通過提取服裝圖像的服裝區(qū)域,再經過服裝扭曲后匹配到人物圖像的上衣區(qū)域來實現?,F有方法對于服裝圖像和上衣的分割均存在大量的噪聲,易導致訓練的不穩(wěn)定和扭曲服裝的不可信。為此,本文預訓練2個語義分割網絡,即服裝前景和上衣分割,其均采用傳統(tǒng)的10層U-net結構[15]。如圖2(b)所示,服裝前景分割去除了衣領等服裝背景區(qū)域,避免了服裝背景對試衣結果造成的失真;上衣分割精準且完整地保留了人物圖像的上衣區(qū)域,為扭曲網絡提供了可靠的上衣真值。
圖2 本文方法的網絡結構和訓練流程((a)兩階段可調節(jié)感知蒸餾網絡;(b) 2個預訓練的語義分割網絡)
如圖2(a)所示,本文方法包含一個導師和一個學生網絡。首先用配對的服裝和人物圖像(I,)訓練導師網絡,具體流程如下:
(2) 將2個金字塔特征送入外觀流估計網絡,預測*和I之間的外觀流T,用其扭曲I得到扭曲服裝T;
(3) 串聯扭曲服裝T和扭曲服裝掩膜、人物圖像保留區(qū)域和手臂皮膚的密集姿勢作為試衣網絡的輸入,在真值監(jiān)督下合成試衣圖像。
扭曲模塊由金字塔特征提取網絡(pyramid feature extraction network,PFEN)和外觀流估計網絡(appearance flow estimation network,AFEN)組成,用于預測服裝與人物之間的像素級對應關系。
扭曲模塊的目標函數L包括扭曲服裝與上衣真值之間的像素級1損失、感知損失L、總變分損失L和二階平滑損失L,即
試衣模塊采用Res-UNet[23],也是一個10層U-net結構,只是在每個卷積后添加了2個殘差塊,其設計使試衣網絡能夠保留更多的扭曲服裝和人物細節(jié)。試衣模塊采用端到端訓練,在試衣模塊訓練的同時對扭曲模塊進行微調,使扭曲模塊的扭曲效果更利于合成真實感的試衣圖像。試衣模塊的目標函數L包括試衣圖像與真實圖像之間的像素級1和感知損失L,即
對于學生網絡的試衣模塊,本文還引入了額外的皮膚生成損失,即
綜上所述,試衣模塊端到端訓練的總損失為扭曲損失L和試衣損失L的加權和,即
由于導師網絡的輸入包含人體語義分割、密集姿勢和姿勢熱圖等解析信息,而學生網絡的輸入僅是人物圖像和服裝圖像。因此,在一般情況下,導師網絡提取的特征通常包含更豐富的語義信息,估計的外觀流和輸出的感知代碼也更準確,其均可用于指導學生網絡的訓練。但是,如前文所述,當解析結果不準確時,導師網絡可能提供錯誤的指導。為此,本文設計了可調節(jié)扭曲蒸餾損失L和試衣蒸餾損失L。L還包括金字塔特征蒸餾損失L和外觀流特征蒸餾損失L,即
在學生網絡中,扭曲模塊的訓練使用L,試衣模塊的端到端訓練使用L和L。2種蒸餾損失均以提升扭曲服裝和試衣圖像的感知質量為目的,因此稱之為TS-APD。所謂可調節(jié)蒸餾,是當導師網絡的輸出質量高于學生網絡時(即T與I之間的1損失小于S與I之間的1損失,T與之間的1損失小于S與之間的1損失),才對導師網絡進行知識蒸餾。這種蒸餾方式使學生網絡不僅能準確學習導師網絡的先進知識,且能避免導師網絡的錯誤指導。
3.1.1 數據集
在常用的VITON數據集上對最新方法(CP- VTON[9],CP-VTON+[10],ACGPN[11]和PF-AFN[13])及本文算法的不同版本進行了實驗。VITON包含14 221個圖像對的訓練集和2 032個測試集,每個圖像對包含一張人物圖像和一張服裝圖像,分辨率為256×192。此外,數據集中還包含密集姿勢、人體語義標簽、姿勢關鍵點等解析信息,用于基于解析器方法的訓練和測試。
3.1.2 訓練參數
本文方法包括4個訓練階段網絡:導師扭曲、導師試衣、學生扭曲和學生試衣。其訓練周期分別為100,100,200,100,初始學習率為10-5,在分別訓練50,50,100,50個周期后逐步衰減到0。損失函數的權重分別設置為:=0.5,=0.2,2=6=8=0.2,1=5=1,3=0.01,4=7=6,=0.04,=1。
3.1.3 評價指標
本文采用FID (Fréchet inception distance)[24]作為評價指標,捕捉試衣圖像與參考人物的相似性距離,FID評分越低,表明生成質量越高。此外,本文引入了試衣圖像的姿勢關鍵點正確率PCKh指標[25],通過計算試衣圖像的姿勢關鍵點與參考人物的姿勢關鍵點匹配程度,間接反映試衣圖像的生成質量,其評分越高則質量越好。
為了評價試衣圖像對原人物細節(jié)的保留能力,本文還提出了試衣保留區(qū)域的1指標。首先,使用預訓練網絡對參考人物和試衣圖像進行上衣分割;然后,對試衣圖像和參考人物進行掩膜,得到試衣和原圖像保留區(qū)域進行2個上衣分割,其保留區(qū)域完全去除了試衣前后的上衣區(qū)域;最后,將2個保留區(qū)域的1誤差作為試衣圖像保留能力的評價指標,其評分越低誤差效果則越清晰。
盡管上述指標在一定程度上反映了圖像生成質量,但是不能反映目標服裝是否進行了自然的扭曲,因此本文進一步進行了用戶研究。首先,從VITON測試集中隨機選取300對圖像,由CP-VTON,CP-VTON+,ACGPN,PF-AFN和本文方法各生成300張圖像;然后,將這些圖像組合成4組,每組包含各300張本文和另一種方法生成的圖像,再加上對應的目標服裝和參考人物;最后,邀請30位專業(yè)的計算機視覺研究者,通過在線問卷的方式進行調研,給定參考人物和目標服裝,要求用戶選擇視覺質量更好的試衣圖像。
本文方法與其他方法在VITON數據集上的定性結果如圖3所示。當服裝形狀差異較大時,基于解析器的方法(CP-VTON,CP-VTON+,ACGPN)往往傾向于生成原服裝形狀的試衣結果,如圖3(a)第1排和圖3(b)第3排,試衣圖像的服裝邊緣與原服裝形狀相似,造成圖像失真。這種對解析信息的依賴性也影響身體區(qū)域的合成和底層服裝的保留,如手臂的缺失和裙子上的偽影。由于PF-AFN方法只對扭曲模塊的外觀流進行知識蒸餾,忽略了試衣模塊,其試衣結果也出現像素溢出和紋理模糊,一些小的服裝圖案難以合成。本文方法采用更加精準的語義分割,能夠有效避免上述問題,生成高度逼真的試衣圖像。即使遇到復雜的服裝形狀,面對衣領、紐扣或斑點紋理等小目標,本文方法也能夠做到有效地生成。
圖4顯示了本文和PF-AFN方法的更多視覺比較。與PF-AFN方法相比,本文方法具有以下優(yōu)勢:①準確合理的服裝分割去除了衣領和下擺的服裝背景,避免了淺色服裝的分割噪聲,是生成真實感試衣圖像的前期保障;②精確細致的上衣分割為服裝扭曲提供了高質量監(jiān)督,防止原服裝殘留和像素溢出,也提高了模型對復雜服裝形狀的合成能力;③彌補了單一模塊知識蒸餾的不足,使模型有能力生成更好感知質量和豐富的細節(jié)試衣圖像(如皮膚和手指)。
不同算法的定量結果和用戶評價結果見表1。與其他方法相比,本文方法具有明顯的優(yōu)勢,且獲得了FID,1和PCKh最高評分。即使對比最先進的PF-AFN方法,也有77.02%的用戶認為本文生成圖像質量更好,這充分證明了本文方法的優(yōu)越性。
圖3 本文與其他方法的定性比較((a)本文方法;(b)其他方法)
圖4 本文與PF-AFN方法的更多視覺比較((a)本文方法;(b) PF-AFN方法)
為了評價本文方法各部分的有效性,本文設計了一組消融實驗:去除服裝分割(采用原服裝分割)、去除上衣分割(采用原上衣分割)、去除蒸餾和使用固定蒸餾。圖5展示了消融研究的定性結果。將服裝前景分割替換為原服裝分割時,生成的圖像保留服裝背景信息,造成失真。替換上衣分割為原上衣標簽時,出現服裝邊界模糊問題。去除蒸餾或使用固定蒸餾都會影響圖像的感知質量,造成局部紋理模糊或部分皮膚像素溢出。
圖5 本文方法消融研究的定性結果比較((a)本文方法;(b)消融方法)
在不同的定量指標上,各個消融版本均出現不同程度的分數下降,說明本文方法的每個設計均起著重要作用,即使是評分略低的消融版本也好于目前最先進的PF-AFN方法(表2)。
表1 本文方法消融研究的定量結果比較
表2 不同方法的定量結果比較和人類評價百分比(%)
本文方法在不需要人體解析的情況下能生成高度逼真的試衣圖像。首先預訓練服裝前景和上衣2個語義分割網絡;然后用生成的服裝和上衣分割訓練基于解析器的“導師”網絡;最后將“導師”網絡輸出的假圖像作為“學生”網絡的輸入,在真實圖像的監(jiān)督下,本文方法訓練無解析器的“學生”網絡。在VITON上的大量實驗結果表明,本文方法在定量指標、視覺質量和用戶研究方面均顯著優(yōu)于其他方法。
[1] GUAN P, REISS L, HIRSHBERG D A, et al. Drape[J]. ACM Transactions on Graphics, 2012, 31(4): 1-10.
[2] CHEN W Z, WANG H, LI Y Y, et al. Synthesizing training images for boosting human 3D pose estimation[C]//2016 Fourth International Conference on 3D Vision. New York: IEEE Press, 2016: 479-488.
[3] YANG S, AMBERT T, PAN Z R, et al. Detailed garment recovery from a single-view image[EB/OL]. [2021-07-30]. https://arxiv.org/abs/1608.01250.abs/1608.01250.
[4] PONS-MOLL G, PUJADES S, HU S, et al. ClothCap[J]. ACM Transactions on Graphics, 2017, 36(4): 1-15.
[5] 石敏, 魏育坤, 王俊錚, 等. 面向不同體型特征的服裝款式遷移方法[J]. 圖學學報, 2019, 40(5): 866-871.
SHI M, WEI Y K, WANG J Z, et al. Transfer method of body shape-oriented garment style[J]. Journal of Graphics, 2019, 40(5): 866-871 (in Chinese).
[6] JETCHEV N, BERGMANN U. The conditional analogy GAN: swapping fashion articles on people images[C]//2017 IEEE International Conference on Computer Vision Workshops. New York: IEEE Press, 2017: 2287-2292.
[7] HAN X T, WU Z X, WU Z, et al. VITON: an image-based virtual try-on network[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 7543-7552.
[8] HAN X T, HUANG W L, HU X J, et al. ClothFlow: a flow-based model for clothed person generation[C]//2019 IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2019: 10470-10479.
[9] WANG B C, ZHENG H B, LIANG X D, et al. Toward characteristic-preserving image-based virtual try-on network[C]//Computer Vision - ECCV 2018. Heidelberg: Springer, 2018: 607-623.
[10] MINAR M R, TUAN T T, AHN H, et al. CP-VTON+: clothing shape and texture preserving image-based virtual try-on[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshop. New York: IEEE Press, 2020: 1-4.
[11] YANG H, ZHANG R M, GUO X B, et al. Towards photo-realistic virtual try-on by adaptively generating- preserving image content[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 7847-7856.
[12] ISSENHUTH T, MARY J, CALAUZèNES C. Do not mask what you do not need to mask: a parser-free virtual try-on[C]// 2020 European Conference on Computer Vision. Heidelberg: Springer, 2020: 619-635.
[13] GE Y Y, SONG Y B, ZHANG R M, et al. Parser-free virtual try-on via distilling appearance flows[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2021: 8481-8489.
[14] HINTON G, VINYALS O, DEAN J. Distilling the knowledge in a neural network[EB/OL]. [2021-07-30]. https://arxiv.org/ abs/1503.02531.
[15] RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation[C]// Medical image computing and computer-assisted intervention. Heidelberg: Springer, 2015: 234-241.
[16] GüLER R A, NEVEROVA N, KOKKINOS I. DensePose: dense human pose estimation in the wild[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 7297-7306.
[17] CAO Z, SIMON T, WEI S H, et al. Realtime multi-person 2D pose estimation using part affinity fields[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 1302-1310.
[18] LIN T Y, DOLLáR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 936-944.
[19] DOSOVITSKIY A, FISCHER P, ILG E, et al. FlowNet: learning optical flow with convolutional networks[C]//2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 2758-2766.
[20] DENG J, DONG W, SOCHER R, et al. ImageNet: a large-scale hierarchical image database[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2009: 248-255.
[21] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2021-07-30]. https://arxiv.org/abs/1409.1556.
[22] SUN D Q, ROTH S, BLACK M J. A quantitative analysis of current practices in optical flow estimation and the principles behind them[J]. International Journal of Computer Vision, 2014, 106(2): 115-137.
[23] DIAKOGIANNIS F I, WALDNER F, CACCETTA P, et al. ResUNet-a: a deep learning framework for semantic segmentation of remotely sensed data[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 162: 94-114.
[24] HEUSEL M, RAMSAUER H, UNTERTHINER T, et al. GANs trained by a two time-scale update rule converge to a local Nash equilibrium[C]//NIPS’17: The 31th International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2017: 6629-6640.
[25] ZHU Z, HUANG T T, SHI B G, et al. Progressive pose attention transfer for person image generation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 2342-2351.
Two-stage adjustable perceptual distillation network for virtual try-on
CHEN Bao-yu, ZHANG Yi, YU Bing-bing, LIU Xiu-ping
(School of Mathematical Sciences, Dalian University of Technology, Dalian Liaoning 116024, China)
It is known that image-based virtual try-on can fit a target garment image to a person image, and that this task has gained much attention in recent years for its wide applications in e-commerce and fashion image editing. In response to the characteristics of the task and the shortcomings of existing approaches, a method of two-stage adjustable perceptual distillation (TS-APD) was proposed in this paper. This method consisted of 3 steps. Firstly, two semantic segmentation networks were pre-trained on garment image and person image respectively, thus generating more accurate garment foreground segmentation and upper garment segmentation. Then, these two semantic segmentations and other parsing information were employed to train a parser-based “tutor” network. Finally, a parser-free “student” network was trained through a two-stage adjustable perceptual distillation scheme, taking the fake image generated by the “tutor” network as input and the original real person images as supervision. It can be perceived that the “student” model with distillation is able to produce high-quality try-on images without human parsing. The experimental results on VITON datasets show that this algorithm can achieve 9.10 FID score, 0.015 31score, and 0.985 6 PCKh score, outperforming the existing methods. The user survey also shows that compared with other methods, the images generated by the proposed method are more photo-realistic, with all the preference scores reaching more than 77%.
virtual try-on; knowledge distillation; image segmentation; image generation; adjustable factor
TP 391
10.11996/JG.j.2095-302X.2022020316
A
2095-302X(2022)02-0316-08
2021-08-31;
2021-09-17
國家自然科學基金項目(61976040)
陳寶玉(1992–),男,博士研究生。主要研究方向為人類姿勢轉移和虛擬試衣。E-mail:chenby047@mail.dlut.edu.cn
劉秀平(1964–),女,教授,博士。主要研究方向為計算機圖形學、計算機視覺等。E-mail:xpliu@dlut.edu.cn
31 August,2021;
17 September,2021
National Natural Science Foundation of China (61976040)
CHEN Bao-yu (1992–), PhD candidate. His main research interests cover human pose transfer and virtually try-on. E-mail:chenby047@mail.dlut.edu.cn
LIU Xiu-ping (1964–), professor, Ph.D. Her main research interests cover computer graphics, computer vision, etc. E-mail:xpliu@dlut.edu.cn