中圖分類(lèi)號(hào):TS942.8 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1009-265X(2025)05-0096-10
隨著電子商務(wù)的迅速發(fā)展和網(wǎng)上服裝購(gòu)物的普及,越來(lái)越多的消費(fèi)者希望通過(guò)虛擬試穿技術(shù)獲得更好的購(gòu)物體驗(yàn)。服裝設(shè)計(jì)師可以利用虛擬試穿技術(shù)在不同體型與膚色的模特身上試穿不同款式的服裝,以驗(yàn)證自身設(shè)計(jì)并從中獲取更多設(shè)計(jì)靈感。受到這些需求的推動(dòng),國(guó)內(nèi)外研究者提出了眾多服裝虛擬試穿方法,主要分為基于三維模型和基于二維圖像兩大類(lèi)。由于三維人體模型獲取較為復(fù)雜,且三維服裝模擬計(jì)算代價(jià)較大,三維虛擬試穿在日常使用中受到較大的局限。相比之下,基于二維圖像的虛擬試穿技術(shù)因其操作簡(jiǎn)便且成本較低而更為普及,尤其適用于電子商務(wù)和服裝設(shè)計(jì)領(lǐng)域
為達(dá)到高質(zhì)量的虛擬試穿效果,要試穿的服裝和模特合成的圖像需滿(mǎn)足以下4個(gè)標(biāo)準(zhǔn):1)保留模特的姿勢(shì)、身體形狀和身份;2)反映模特姿勢(shì)和身體形狀的服裝變形;3)保持服裝細(xì)節(jié)的完整性;4)適當(dāng)渲染模特圖像中原衣服遮擋的身體部位。為滿(mǎn)足這些標(biāo)準(zhǔn),目前多數(shù)虛擬試穿方法通常先對(duì)服裝進(jìn)行變形,然后再進(jìn)行圖像合成[1]。然而,基于生成對(duì)抗網(wǎng)絡(luò)(GAN)的顯性變形方法難以處理模特復(fù)雜姿勢(shì)的變形場(chǎng)景,導(dǎo)致最終合成圖像出現(xiàn)難以消除的偽影。隨著技術(shù)的發(fā)展,基于擴(kuò)散網(wǎng)絡(luò)的圖像合成取得了巨大的成功,其合成的圖像不僅細(xì)節(jié)豐富、視覺(jué)逼真,且不會(huì)引入難以消除的偽影。當(dāng)擴(kuò)散網(wǎng)絡(luò)應(yīng)用于虛擬試穿時(shí),仍存在明顯的局限性,即用于學(xué)習(xí)語(yǔ)義對(duì)應(yīng)關(guān)系的空間信息不足,且在實(shí)現(xiàn)服裝變形的同時(shí),沒(méi)有充分利用擴(kuò)散網(wǎng)絡(luò)來(lái)保留服裝細(xì)節(jié)[2]。為了應(yīng)對(duì)這2個(gè)問(wèn)題,以往基于擴(kuò)散網(wǎng)絡(luò)的虛擬試穿模型采用了先變形后擴(kuò)散的方法。但是,它們未能合理利用擴(kuò)散網(wǎng)絡(luò)所學(xué)知識(shí),在擴(kuò)散修復(fù)過(guò)程中依賴(lài)于變形網(wǎng)絡(luò),一旦變形網(wǎng)絡(luò)出現(xiàn)誤差,擴(kuò)散合成的試穿結(jié)果也將受到影響。為了解決這個(gè)問(wèn)題, Kim 等提出了StableVITON模型,這是首個(gè)在預(yù)訓(xùn)練擴(kuò)散網(wǎng)絡(luò)上進(jìn)行端到端的虛擬試穿方法,其預(yù)訓(xùn)練了擴(kuò)散網(wǎng)絡(luò)的潛在空間,以學(xué)習(xí)服裝與人體之間的語(yǔ)義對(duì)應(yīng)關(guān)系,同時(shí)為了進(jìn)一步優(yōu)化服裝特征的編碼,在U-Net解碼器中引入了零交叉注意力機(jī)制調(diào)節(jié),從而在一定程度上解決了擴(kuò)散網(wǎng)絡(luò)在語(yǔ)義空間信息不足與無(wú)法保留服裝細(xì)節(jié)的問(wèn)題。然而,零交叉注意力中的多頭注意力機(jī)制使得每個(gè)注意力分支獨(dú)立學(xué)習(xí)服裝特征,這可能導(dǎo)致最終合成圖像丟失服裝特征與細(xì)節(jié)
為解決虛擬試穿網(wǎng)絡(luò)所面臨的服裝特征與細(xì)節(jié)丟失的問(wèn)題,本文提出交互式多頭注意力機(jī)制的虛擬試穿網(wǎng)絡(luò),通過(guò)密集的交互機(jī)制學(xué)習(xí)豐富的服裝特征相關(guān)性,促進(jìn)不同頭之間的交互,從而增強(qiáng)注意力性能,保留更多的服裝特征細(xì)節(jié)。此外,為降低計(jì)算的復(fù)雜度,本文擬對(duì)鍵值和查詢(xún)進(jìn)行降維,并通過(guò)降維后的鍵值和查詢(xún)將注意力矩陣分解為無(wú)鍵值和無(wú)查詢(xún)注意力矩陣,在降低計(jì)算復(fù)雜度的同時(shí),保持注意力矩陣的整體維度信息,為虛擬試穿過(guò)程的高效運(yùn)行奠定了堅(jiān)實(shí)基礎(chǔ)。本文方法不僅可為解決虛擬試穿中的技術(shù)難題提供新的視角和解決方案,更在推動(dòng)個(gè)性化、高效化虛擬試衣體驗(yàn)的發(fā)展上具有重要意義。
虛擬試穿研究現(xiàn)狀
基于圖像的虛擬試穿方法是一類(lèi)重要的AIGC技術(shù)。當(dāng)前所流行的虛擬試穿方法主要分為基于GAN和擴(kuò)散網(wǎng)絡(luò)2種。2022年以前,主要采用基于GAN網(wǎng)絡(luò)的虛擬試穿方法[4-5]。隨著近幾年擴(kuò)散網(wǎng)絡(luò)的快速發(fā)展,基于擴(kuò)散網(wǎng)絡(luò)的虛擬試穿方法也逐漸流行起來(lái)[6] 。
1.1基于GAN網(wǎng)絡(luò)的虛擬試穿方法
基于GAN網(wǎng)絡(luò)的方法通常將提取的人物特征與變形后的服裝進(jìn)行合成。VITON為該類(lèi)方法的開(kāi)山之作,其引入了薄板樣條(TPS)技術(shù),并基于GAN網(wǎng)絡(luò)將試穿服裝和人物圖像直接融合產(chǎn)生粗略的試穿結(jié)果,再用細(xì)化網(wǎng)絡(luò)優(yōu)化圖像細(xì)節(jié),最終成功生成試穿圖像,但圖像合成結(jié)果無(wú)法保持服裝細(xì)節(jié)的完整性[7]。CP-VITON在VITON 的基礎(chǔ)上,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)TPS的變形參數(shù),從而實(shí)現(xiàn)服裝與模特的精確對(duì)齊,有效地提高了試穿質(zhì)量,但在復(fù)雜情景下(如復(fù)雜服裝、復(fù)雜姿勢(shì))仍會(huì)丟失部分細(xì)節(jié)[8-9]。VITON-HD 通過(guò)對(duì)齊感知生成器在多尺度上細(xì)化與保留服裝細(xì)節(jié),將試穿圖像的分辨率從256×192 像素提升至 1024×768 像素,使得試穿效果在視覺(jué)上實(shí)現(xiàn)了質(zhì)的提升[10]。然而,變形的服裝和人體分割圖之間存在未對(duì)準(zhǔn)區(qū)域,在高分辨率下該區(qū)產(chǎn)生的偽影會(huì)更加明顯。HR-VITON通過(guò)同時(shí)預(yù)測(cè)流場(chǎng)和分割圖并進(jìn)行信息交換[\"],更好地實(shí)現(xiàn)了服裝與模特之間的對(duì)齊,這在一定程度上解決了未對(duì)準(zhǔn)的問(wèn)題,但在復(fù)雜姿勢(shì)下仍會(huì)出現(xiàn)偽影。SD-VITON通過(guò)TV目標(biāo)主導(dǎo)層和任務(wù)共存層分別在粗略變形階段和細(xì)節(jié)調(diào)整階段對(duì)服裝外觀流進(jìn)行預(yù)測(cè)[12],有效解決袖子和腰部之間的紋理擠壓?jiǎn)栴},從而緩解了偽影問(wèn)題,但在處理復(fù)雜紋理方面仍存在問(wèn)題。盡管這些方法取得了顯著進(jìn)步,但服裝變形時(shí)仍會(huì)由于復(fù)雜人體姿勢(shì)受到薄板樣條變形和顯式流場(chǎng)估計(jì)不準(zhǔn)確的影響,且基于GAN網(wǎng)絡(luò)合成的圖像通常會(huì)產(chǎn)生難以解決的偽影。
1. 2 基于擴(kuò)散網(wǎng)絡(luò)的虛擬試穿方法
擴(kuò)散網(wǎng)絡(luò)中傳統(tǒng)的UNet架構(gòu)與通道級(jí)聯(lián)方法在超分辨率增強(qiáng)、圖像修復(fù)與著色等圖像到圖像的轉(zhuǎn)換任務(wù)中展現(xiàn)出了卓越的性能,然而,其在處理高度非線(xiàn)性變形的復(fù)雜任務(wù)時(shí),如虛擬試穿,擴(kuò)散網(wǎng)絡(luò)難以滿(mǎn)足精準(zhǔn)映射與變換的需求[13]。為運(yùn)用擴(kuò)散網(wǎng)絡(luò)完成虛擬試穿任務(wù),TryOnDiffusion引入了Parallel-UNet架構(gòu),并通過(guò)交叉注意力實(shí)現(xiàn)服裝的隱式變形[14],盡管這種方法能生成高保真的試穿圖像,但其需要龐大的訓(xùn)練資源,包括400萬(wàn)個(gè)配對(duì)數(shù)據(jù)樣本和數(shù)千小時(shí)的GPU訓(xùn)練時(shí)間。為了平衡計(jì)算效率與任務(wù)復(fù)雜性,WarpDiffusion[15]、ACDG-VITON[16]和DCI-VITON[這3種模型采取了先變形后擴(kuò)散的策略來(lái)實(shí)現(xiàn)虛擬試穿。WarpDiffusion通過(guò)自動(dòng)蒙版模塊直接將變形后的服裝細(xì)節(jié)輸入到擴(kuò)散網(wǎng)絡(luò)中,從而減少所需資源;ACDG-VITON模型首先對(duì)服裝進(jìn)行變形,然后將噪聲、變形后的服裝和人體關(guān)節(jié)圖像輸入到降噪器中,以提高擴(kuò)散效率并生成更真實(shí)的模特圖像;DCI-VITON通過(guò)預(yù)處理,將服裝圖像扭曲至和模特大致對(duì)齊,再結(jié)合掩膜( Mask[18] )技術(shù),將變形后的服裝信息傳遞給擴(kuò)散網(wǎng)絡(luò),以生成最終的試穿效果。盡管這些方法在減少計(jì)算量方面取得了進(jìn)展,但它們未能充分利用擴(kuò)散網(wǎng)絡(luò)的在預(yù)訓(xùn)練階段累計(jì)的知識(shí),且高度依賴(lài)于變形網(wǎng)絡(luò)的預(yù)處理,這可能會(huì)限制模型在復(fù)雜場(chǎng)景下的泛化能力和合成圖像的自然度。為了提高效率并合成真實(shí)的試穿圖像,StableVITON模型實(shí)現(xiàn)了端到端的服裝變形,然而該方法忽略了特征之間的相關(guān)性。為此,本文嘗試在零交叉注意力塊上引入交互式多頭注意力機(jī)制,通過(guò)多頭交互學(xué)習(xí)特征的相關(guān)性,使生成圖像在細(xì)節(jié)保留和語(yǔ)義對(duì)應(yīng)上表現(xiàn)得更好。
2穩(wěn)定擴(kuò)散
近年來(lái),擴(kuò)散網(wǎng)絡(luò)領(lǐng)域取得了顯著進(jìn)展。去噪擴(kuò)散概率模型(DDPM[19])首次提出將圖像生成建模為擴(kuò)散過(guò)程,隨后DDIM[2]通過(guò)隱式去噪過(guò)程減少生成步驟,PNDM[2]通過(guò)偽數(shù)值方法提升了生成精度和速度;近期Rombach等提出的穩(wěn)定擴(kuò)散網(wǎng)絡(luò)(StableDiffusion)在預(yù)訓(xùn)練的變分編碼器( VAE[22] )的潛在空間執(zhí)行擴(kuò)散過(guò)程,實(shí)現(xiàn)高效率、高質(zhì)量的圖像處理。穩(wěn)定擴(kuò)散網(wǎng)絡(luò)由3個(gè)核心組件構(gòu)成:首先,是帶有編碼器E和解碼器D的變分自動(dòng)編碼器,其中E負(fù)責(zé)將輸人的人物圖像 I 從原始的高維空間R3×H×W 壓縮至低維潛在空間 R4×h×w ,其中 h=H/8 和w=W/8 , W,H,w,h 分別為原圖像和低維空間圖像的寬高,解碼器D執(zhí)行逆操作,將潛在變量從低維空間解碼回原像素空間;其次,是處理文本或圖像輸入 y 的CLIP文本編碼器 τθ ,其將 y 編碼后作為限制條件來(lái)控制擴(kuò)散過(guò)程,確保生成的圖像與文本描述或圖像相符;最后,是基于文本時(shí)間條件的U-Net去噪模型 ?θ 。該模型在擴(kuò)散過(guò)程中,結(jié)合給定的輸入 y 和當(dāng)前的時(shí)間步 t(t=1,…,T) ,預(yù)測(cè)在每個(gè) χt 中添加的噪聲,逐步將噪聲 ? 變成一個(gè)各向同性的高斯噪聲 Zt 。穩(wěn)定擴(kuò)散網(wǎng)絡(luò)使用了潛在擴(kuò)散網(wǎng)絡(luò)(LDM)的簡(jiǎn)化目標(biāo)函數(shù)( LLDM )作為其訓(xùn)練損失,形式為:
式中:去噪網(wǎng)絡(luò) ?θ 采用UNet架構(gòu)實(shí)現(xiàn),而 τθ 是用于根據(jù)文本或圖像提示 y 進(jìn)行調(diào)節(jié)的CLIP文本編碼器。對(duì)于圖像修復(fù)任務(wù), ?θ 還接收了2個(gè)輸入,即需要修復(fù)的掩膜 m 和修復(fù)背景 x ,公式為:
StableVITON模型正是基于穩(wěn)定擴(kuò)散網(wǎng)絡(luò)上開(kāi)發(fā)的虛擬試穿系統(tǒng),其不僅繼承了穩(wěn)定擴(kuò)散網(wǎng)絡(luò)強(qiáng)大的圖像生成能力,還針對(duì)虛擬試穿的特殊需求進(jìn)行了優(yōu)化和改進(jìn)
3 虛擬試穿方法
為了解決StableVITON模型在多頭注意力獲取服裝特征時(shí)丟失服裝特征相關(guān)性的問(wèn)題,本文在StableVITON模型的基礎(chǔ)上,提出了基于交互式多頭注意力機(jī)制的虛擬試穿網(wǎng)絡(luò),將多頭注意力機(jī)制修改為交互式多頭注意力,增強(qiáng)服裝特征相關(guān)性,生成與原服裝風(fēng)格一致且保留服裝細(xì)節(jié)的試穿圖像。
本文提出的基于交互式多頭注意力機(jī)制的虛擬試穿網(wǎng)絡(luò)保留了穩(wěn)定擴(kuò)散網(wǎng)絡(luò)的自動(dòng)編碼器、去噪U(xiǎn)-Net網(wǎng)絡(luò)以及圖像編碼器CLIP。在此基礎(chǔ)上,本文實(shí)現(xiàn)了端到端的虛擬試穿網(wǎng)絡(luò)。為了更直觀地展示本文提出的虛擬試穿網(wǎng)絡(luò)的優(yōu)勢(shì),我們將其與現(xiàn)有的兩種主流虛擬試穿機(jī)制進(jìn)行了對(duì)比,具體如圖1所示。
(a)基于擴(kuò)散網(wǎng)絡(luò)的端到端虛擬試穿機(jī)制(b)基于擴(kuò)散網(wǎng)絡(luò)的圖像修復(fù)虛擬試穿機(jī)制(c)基于GAN網(wǎng)絡(luò)的虛擬試穿機(jī)制其中圖1(a)為本文基于擴(kuò)散網(wǎng)絡(luò)的端到端試穿機(jī)制;圖1(b)為基于擴(kuò)散網(wǎng)絡(luò)的圖像修復(fù)虛擬試穿機(jī)制,即先對(duì)服裝進(jìn)行粗略地變形再通過(guò)擴(kuò)散合成修復(fù)試穿圖像;圖1(c)為基于GAN網(wǎng)絡(luò)的虛擬試穿機(jī)制,即先對(duì)服裝變形再通過(guò)GAN網(wǎng)絡(luò)合成試穿圖像。從圖1中可以觀察到,本文網(wǎng)絡(luò)的服裝的變形處理直接在擴(kuò)散網(wǎng)絡(luò)內(nèi)部完成,實(shí)現(xiàn)了端到端的學(xué)習(xí)過(guò)程,即在預(yù)訓(xùn)練的擴(kuò)散網(wǎng)絡(luò)潛在空間內(nèi),學(xué)習(xí)服裝與人體之間的精細(xì)語(yǔ)義對(duì)齊關(guān)系,在保證不消耗巨大的資源的同時(shí)合成真實(shí)的試穿圖像。
3.1 網(wǎng)絡(luò)架構(gòu)
本文提出的改進(jìn)后的虛擬試穿網(wǎng)絡(luò)架構(gòu)如圖2所示,其輸人包括人物圖像 I∈R3×H×W 和服裝圖像(204號(hào) 。在合成虛擬試穿圖像的過(guò)程中,首先,從人物圖像 I 中提取與原服裝無(wú)關(guān)的人物表征
R3×H×W 、人體姿態(tài)信息 P ,以確保最終合成圖像中不包含任何原始服裝信息。隨后,將基于擴(kuò)散網(wǎng)絡(luò)的虛擬試穿任務(wù)視作圖像修復(fù)問(wèn)題,使用 c 來(lái)填補(bǔ) I?m 中的空白區(qū)域。同時(shí),將 C 輸入到圖像編碼器(CLIP)中,作為條件生成過(guò)程的指導(dǎo)。具體步驟如下:首先,將
和 c 分別通過(guò)編碼器E轉(zhuǎn)換為潛在空間編碼;隨后,潛在空間編碼與噪聲 Z 以及根據(jù) I?m 調(diào)整的潛在空間掩模
合并;最后,將合并后的編碼輸入到增強(qiáng)去噪U(xiǎn)-Net網(wǎng)絡(luò)中并完成擴(kuò)散過(guò)程。該網(wǎng)絡(luò)引入了一個(gè)空間編碼器,其復(fù)制了訓(xùn)練后的U-Net權(quán)重,并通過(guò)引入的零交叉交互式注意力塊將編碼器的中間特征圖調(diào)節(jié)至擴(kuò)散網(wǎng)絡(luò)U-Net的解碼層,其中多頭注意力的交互可以更精細(xì)地捕獲服裝特征,有效保留服裝的特征以及服裝的高頻細(xì)節(jié)。通過(guò)上述的擴(kuò)散過(guò)程,本文網(wǎng)絡(luò)在保留人物特征的同時(shí),還能更精確地呈現(xiàn)服裝的特征與細(xì)節(jié)。
3.2 零交叉交互式注意力模塊
本文提出的零交叉交互式注意力模塊,其具體流程如圖3所示,旨在改進(jìn)StableVITON的零交叉注意力塊導(dǎo)致的服裝特征丟失問(wèn)題。首先,將解碼器的空間特征輸入到交互式多頭自注意力模塊,其中 Q,K,V 均源自上層解碼器,確保信息連貫。自注意力處理后,特征圖通過(guò)歸一化后進(jìn)入交叉注意力模塊, Q 是自注意力層,而 K 和 V 來(lái)自空間編碼器,實(shí)現(xiàn)跨層次特征融合。最后,特征圖經(jīng)前饋網(wǎng)絡(luò)后引入到零權(quán)重初始化的線(xiàn)性層,過(guò)濾有害噪聲。通過(guò)這樣的密集交互機(jī)制學(xué)習(xí)服裝特征相關(guān)性,從而增強(qiáng)注意力性能,以保留更多的服裝整體特征與局部細(xì)節(jié)。
為了使變形的服裝和模特對(duì)齊且保留服裝的細(xì)節(jié),StableVITON引入了一種空間編碼器,將其編碼后的潛在空間特征作為輸人,空間編碼器復(fù)制訓(xùn)練后U-Net的權(quán)重,并通過(guò)零交叉注意力塊將編碼器的中間特征圖調(diào)節(jié)至擴(kuò)散網(wǎng)絡(luò)U-Net的解碼層。這種方法在一定程度上增強(qiáng)了服裝特征,但多頭注意力機(jī)制保留特征時(shí),可能忽略特征的相關(guān)性,導(dǎo)致服裝中的某些高頻細(xì)節(jié)丟失。為了改善這一點(diǎn),一個(gè)可能的解決方案是讓多頭之間進(jìn)行交互[23]。然而,為了表示數(shù)據(jù)序列長(zhǎng)度 N 中每一個(gè)數(shù)與其他數(shù)之間的關(guān)系,每個(gè)注意力矩陣的維度可能高達(dá) RN2 其中 R 表示任意實(shí)數(shù)。這樣的跨頭交互層會(huì)顯著增加計(jì)算復(fù)雜度,降低網(wǎng)絡(luò)的運(yùn)行效率。為解決這個(gè)問(wèn)題,本文通過(guò)分解策略將自注意力矩陣分為無(wú)鍵(key-less)和無(wú)查詢(xún)(query-less)的組件。無(wú)鍵值q 和無(wú)查詢(xún) w 是對(duì)原始查詢(xún)和鍵值平均池化得到:
式中: 和
分別表示卷積核的高度和寬度;
和
分別為鍵值和查詢(xún); i 和 j 為隨機(jī)變量。將查詢(xún)和鍵值的高頻細(xì)節(jié)進(jìn)行下采樣,保留主要特征信息,同時(shí)降低計(jì)算復(fù)雜度。為計(jì)算分解后的注意力矩陣,將注意力矩陣操作分為2個(gè)部分,即查詢(xún)注意力矩陣和鍵值注意力矩陣:
A=AQAK=softmax(QkT)softmax(qKT) (4)式中: 是查詢(xún)注意力矩陣; Aκ 是鍵值注意力矩陣;A是注意力矩陣;
是查詢(xún);
是鍵值;
是降維后的鍵值;
是降維后的查詢(xún)。通過(guò)這種方式,可以分別計(jì)算查詢(xún)和鍵值的相似度,并將其組合起來(lái),形成完整的注意力矩陣。為了保證查詢(xún)和鍵的整體維度信息,本文使用線(xiàn)性層和Softmax操作進(jìn)行跨頭交互,實(shí)現(xiàn)注意力矩陣的高效計(jì)算:
式中: 和
是查詢(xún)方向上的全連接矩陣;
和
是鍵方向上的全連接矩陣; d 是向量的維度。下采樣后注意力矩陣的尺寸得以縮減,同時(shí)保留整體維度中的關(guān)鍵特征。
在實(shí)際計(jì)算中,重新排列矩陣乘法以避免直接計(jì)算 ,先計(jì)算值 V 與 A?KT 的積,得到最終的注意力輸出 o :
通過(guò)這種重新排列,可以高效地計(jì)算輸出令牌,同時(shí)保證信息完整
圖4展示了交互式多頭注意力機(jī)制架構(gòu),圖4(a)為交互式多頭注意力,通過(guò)下采樣將注意力矩陣分解為無(wú)鍵和無(wú)查詢(xún)的組件,隨后進(jìn)行多頭交互。圖4(b)為多頭交互,其中 n 是多頭數(shù)量, N 是令牌數(shù)(數(shù)據(jù)序列長(zhǎng)度), L 是標(biāo)志點(diǎn)數(shù)量(下采樣后的維度),在交互過(guò)程中通過(guò)線(xiàn)性層連接,并使用Softmax處理。這種分解與交互策略,可以較低計(jì)算復(fù)雜度,同時(shí)實(shí)現(xiàn)跨頭交互,從而保持網(wǎng)絡(luò)性能并提高網(wǎng)絡(luò)的效率和穩(wěn)定性。
4 測(cè)試與分析
4.1 試驗(yàn)環(huán)境與數(shù)據(jù)集
本文在Python環(huán)境下基于PyTorch深度學(xué)習(xí)框架實(shí)施虛擬試穿網(wǎng)絡(luò)的開(kāi)發(fā),實(shí)驗(yàn)配置包括 3GHz 處理器、64GBRAM和NVIDIARTX4090 GPU的計(jì)算機(jī)。在網(wǎng)絡(luò)訓(xùn)練階段,本文選擇了AdamW作為優(yōu)化器,設(shè)置固定的學(xué)習(xí)率為 1×10-4 ,批量大小定為32。
本文網(wǎng)絡(luò)在VITON-HD數(shù)據(jù)集上進(jìn)行了全面的訓(xùn)練和測(cè)試。其包括14221個(gè)訓(xùn)練樣本和2032個(gè)測(cè)試樣本,專(zhuān)為提高虛擬試穿技術(shù)的效果而設(shè)計(jì)。VITON-HD數(shù)據(jù)集不僅提供高分辨率的圖像,而且包含了衣物的分割信息、密集姿勢(shì)和姿勢(shì)關(guān)鍵點(diǎn),這些數(shù)據(jù)為虛擬試穿的后續(xù)工作提供了保障。同時(shí)圖像樣本涵蓋了從簡(jiǎn)單到復(fù)雜的各種服裝類(lèi)型和人體姿勢(shì),確保實(shí)驗(yàn)的多樣性和復(fù)雜性。
4.2 評(píng)價(jià)方法與指標(biāo)
本文使用 SSIM(Structural Similarity Index)[24]LPIPS(Learned Perceptual Image Patch Similarity)[25]FID(Fréchet Distance)[26] 和 KID(Kernel InceptionDistance)[27]4個(gè)指標(biāo)評(píng)估虛擬試穿網(wǎng)絡(luò)的性能。SSIM指標(biāo)反映網(wǎng)絡(luò)在保持圖像結(jié)構(gòu)方面的能力,高SSIM值表明生成的圖像與真實(shí)圖像結(jié)構(gòu)類(lèi)似;LPIPS評(píng)估圖像的感知質(zhì)量,低LPIPS值表明網(wǎng)絡(luò)在生成視覺(jué)上貼近真實(shí);FID和KID用于測(cè)量生成圖像與真實(shí)圖像集在特征空間中的距離,較低的FID和KID值顯示了網(wǎng)絡(luò)在保持圖像真實(shí)性方面的優(yōu)勢(shì)。
4.3 定性比較
為了更全面細(xì)致地評(píng)估網(wǎng)絡(luò)的表現(xiàn),本文將定性比較進(jìn)一步分為特征定性比較和細(xì)節(jié)定性比較。特征定性比較側(cè)重于評(píng)估模型在處理服裝整體特征(如服裝的形狀、整體風(fēng)格)方面的表現(xiàn),細(xì)節(jié)定性比較則更關(guān)注模型在處理微小細(xì)節(jié)(如紋理、邊緣)上的能力。在基線(xiàn)評(píng)估時(shí),選擇在較低分辨率( 512× 384像素)下訓(xùn)練網(wǎng)絡(luò),以確保評(píng)估的公平性。圖5和圖6的定性比較中,從左到右分別是模特圖、目標(biāo)服裝圖、本文模型以及對(duì)比模型StableVITON、SD-VITON、HR-VITON、VITON-HD。
如圖5所示,在與主流模型的服裝特征定性比較中,本文方法在合成服裝整體特征時(shí)展示出一定的優(yōu)勢(shì)。第一款服裝中,其他模型將抹胸款服裝錯(cuò)誤的合成為短袖、吊帶樣式;第二款服裝中,StableVITON模型將吊帶款式錯(cuò)誤的合成為長(zhǎng)袖,而其他3個(gè)模型生成的服裝不僅未能貼合人體,且圖像中出現(xiàn)偽影;第三款服裝中,其他模型將一字領(lǐng)服裝變成了短袖,或在領(lǐng)口處丟失服裝特征;第四款服裝中,其他模型都沒(méi)有正確合成出服裝腰部的紋理,有的模型甚至將服裝領(lǐng)口的形狀錯(cuò)誤地變形為V領(lǐng)(本文網(wǎng)絡(luò)在還原該款服裝下擺款式時(shí)與其他模型一樣存在不足,這將是本文研究的另一個(gè)方向)。其他模型要么改變了服裝的款式,要么改變了服裝的紋理,這主要是由于在服裝變形的時(shí)候忽略了服裝特征之間的相關(guān)性。而本文網(wǎng)絡(luò)通過(guò)交互式多頭注意力,將每個(gè)多頭注意力關(guān)聯(lián)起來(lái),捕捉了服裝之間更細(xì)膩的交互關(guān)系,在特征保留上表現(xiàn)得更加出色。
如圖6所示,在與主流模型的服裝特征定性比較中,本文網(wǎng)絡(luò)在保留服裝細(xì)節(jié)時(shí)展示出了一定的優(yōu)勢(shì)。在第一款服裝中,其他模型在白色和藍(lán)色交接之處引入了偽影,而StableVITON合成的圖像將白色和藍(lán)色交界線(xiàn)錯(cuò)誤地變成了曲線(xiàn);第二款服裝中,其他模型未能完整保留袖口位置的橫線(xiàn)紋理,甚至胸口部位的圖案也有所丟失。第三款服裝中,StableVITON合成的圖像徹底改變了服裝的顏色,而其他模型丟失了服裝關(guān)鍵的紋理特征,使得藍(lán)色與黑色條紋交接處的紋理變得模糊。第四款服裝中,StableVITON合成的圖像丟失了服裝白色領(lǐng)口,而其他模型袖口、胸口出現(xiàn)了紋理錯(cuò)亂問(wèn)題。相比之下,本文網(wǎng)絡(luò)合成的試穿圖像能完整保留服裝細(xì)節(jié),這得益于交互式多頭注意力能夠更準(zhǔn)確地匹配合成圖像中的局部特征,避免了傳統(tǒng)模型中常見(jiàn)的服裝細(xì)節(jié)丟失問(wèn)題。
4.4 定量比較
本文模型與主流模型的定量比較見(jiàn)表1,本文提出的虛擬試穿網(wǎng)絡(luò)在SSIM、LPIPS、FID和KID四個(gè)關(guān)鍵性能指標(biāo)上表現(xiàn)良好。尤其在FID和KID這2個(gè)指標(biāo)上,與VITON-HD、HR-VITON和SD-VITON相比,本文網(wǎng)絡(luò)表現(xiàn)出一定的優(yōu)勢(shì),這反映了在服裝特征表達(dá)和圖像質(zhì)量上的顯著提升,而相較于StableVITON,SSIM提高了 1.53% ,LPIPS減小了 0.71% ,F(xiàn)ID 減小了 0.15% ,KID 減小了 1.14% 。此外,本文在U-Net解碼器中引入交互式多頭注意力機(jī)制,通過(guò)提升特征提取與表示能力,加強(qiáng)局部和全局信息的結(jié)合,減少信息丟失,這提升了網(wǎng)絡(luò)學(xué)習(xí)效率和穩(wěn)定訓(xùn)練過(guò)程,從而顯著加快SSIM指數(shù)的收斂速度。SSIM指數(shù)收斂速度快不僅有助于加快網(wǎng)絡(luò)驗(yàn)證和優(yōu)化過(guò)程,還能節(jié)省計(jì)算資源,提高網(wǎng)絡(luò)穩(wěn)定性。
不同虛擬試穿模型的SSIM收斂性,如圖7所示,本文網(wǎng)絡(luò)在迭代6000次時(shí),上升趨勢(shì)已經(jīng)很弱,SSIM指數(shù)開(kāi)始趨于穩(wěn)定,而其他主流模型在迭代8000次時(shí)才逐漸趨于穩(wěn)定。
4.5 用戶(hù)調(diào)研
為了驗(yàn)證實(shí)驗(yàn)結(jié)果的有效性,筆者進(jìn)行了用戶(hù)調(diào)研,通過(guò)用戶(hù)偏好和用戶(hù)分?jǐn)?shù)兩個(gè)指標(biāo)來(lái)衡量與主流模型之間的優(yōu)勢(shì)。為此我們邀請(qǐng)了50名學(xué)生對(duì)VITON-HD、HR-VITON、SD-VITON、StableVITON以及本文網(wǎng)絡(luò)訓(xùn)練出的結(jié)果分別隨機(jī)選出100對(duì)虛擬試穿結(jié)果,要求他們對(duì)服裝特征保留、服裝紋理細(xì)節(jié)完整度進(jìn)行排序,將用戶(hù)排名第一的頻率設(shè)置為用戶(hù)偏好,排名順序的加權(quán)和為用戶(hù)得分,具體計(jì)算公式為:
式中:S為用戶(hù)得分; F 為不同排名的頻次; W 為排名的倒數(shù)乘以比較方法的總數(shù); N 為總?cè)藬?shù)
本文網(wǎng)絡(luò)在用戶(hù)偏好中表現(xiàn)最佳,其中服裝特征為 56.8% ,服裝細(xì)節(jié)為 62.4% ;在用戶(hù)評(píng)分中也獲得了最高分?jǐn)?shù),其中服裝特征為 3.45/5.00 ,服裝細(xì)節(jié)為 3.65/5.00 。這表明本文方法在用戶(hù)中展現(xiàn)了較強(qiáng)的競(jìng)爭(zhēng)力,更受用戶(hù)喜愛(ài),能夠更好地滿(mǎn)足用戶(hù)對(duì)虛擬試穿效果的期待。
5 結(jié)論
本文研究了基于穩(wěn)定擴(kuò)散的虛擬試穿方法,構(gòu)建了端到端的虛擬試穿機(jī)制,擺脫了傳統(tǒng)服裝變形網(wǎng)絡(luò)的依賴(lài),顯著降低了資源消耗。同時(shí),本文網(wǎng)絡(luò)引入了交互式多頭注意力機(jī)制,通過(guò)密集的交互機(jī)制學(xué)習(xí)特征的相關(guān)性,在保證服裝風(fēng)格一致的同時(shí),有效保留了服裝紋理和細(xì)節(jié)?;赩ITON-HD數(shù)據(jù)集的定性與定量評(píng)估均表明,本文方法在視覺(jué)感知質(zhì)量和技術(shù)指標(biāo)上均取得了顯著進(jìn)步。最后,用戶(hù)調(diào)研結(jié)果進(jìn)一步驗(yàn)證了該方法在提升用戶(hù)體驗(yàn)方面的優(yōu)勢(shì),未來(lái)能為消費(fèi)者帶來(lái)更好的購(gòu)物體驗(yàn),并廣泛用于虛擬試穿等數(shù)字時(shí)尚應(yīng)用場(chǎng)景,
為了更有效地降低計(jì)算資源的消耗,未來(lái)進(jìn)一步優(yōu)化模型在復(fù)雜場(chǎng)景下人物特征丟失的問(wèn)題,探索更加高效的交互式多頭注意力計(jì)算方法,使得其能夠在更廣泛的場(chǎng)景中得到有效應(yīng)用。
參考文獻(xiàn):
[1]薛蕭昱,何佳臻,王敏.三維虛擬試衣技術(shù)在服裝設(shè)計(jì)與性能評(píng)價(jià)中的應(yīng)用進(jìn)展[J].現(xiàn)代紡織技術(shù),2023,31(2):12-22.XUE Xiaoyu,HE Jiazhen,WANG Min. Application progress of 3Dvirtual fittingtechnologyin fashiondesignand performance evaluation[J].Advanced Textile Techno-logy,2023,31(2):12-22.
[2]劉玉葉,王萍.基于紋理特征學(xué)習(xí)的高精度虛擬試穿智能算法[J].紡織學(xué)報(bào),2023,44(5):177-183. LIU Yuye,WANG Ping.High-precision inteligent algorithm for virtual fiting based on texture feature learning[J]. Journal of Textile Research,2023,44(5):177-183.
[3]KIM J,GU G,PARK M,et al. StableVITON: Learning semantic correspondence with latent diffusion model for virtual try-on,2023 : 8176-8185.
[4]蔣高明,劉海桑.服裝三維虛擬展示的現(xiàn)狀與發(fā)展趨勢(shì)[J].服 裝學(xué)報(bào),2021,6(4):349-356. JIANG Gaoming,LIU Haisang.Current situation and development trend of 3Dvirtual garment display[J].Jourmal of Clothing Research,2021,6(4):349-356.
[5]施倩,羅戎蕾.基于生成對(duì)抗網(wǎng)絡(luò)的服裝圖像生成研究進(jìn)展 [J].現(xiàn)代紡織技術(shù),2023,31(2):36-46. SHI Qian,LUO Ronglei.Research progress of clothing image generation based on Generative Adversarial Networks[J].Advanced Textile Technology,2023,31(2):36-46.
[6]郭宇軒,孫林.基于擴(kuò)散模型的ControlNet網(wǎng)絡(luò)虛擬試衣研究 [J].現(xiàn)代紡織技術(shù),2024,32(3):118-128. GUO Yuxuan,SUN Lin.Virtual fitting research based on the diffusion model and ControlNet network[J].Advanced Textile Technology,2024,32(3):118-128.
[7]HAN X,WU Z, WU Z, et al. VITON: An image-based virtual tryon network[J].2017.
[8]WANG B,ZHENG H,LIANG X,et al. Toward CharacteristicPreserving Image-Based Virtual Try-On Network [M]//Lecture Notes in Computer Science.Cham: Springer International Publishing, 2018: 607-623.
[9]祖雅妮,張毅.基于大規(guī)模預(yù)訓(xùn)練文本圖像模型的虛擬試穿方法 [J].絲綢,2023,60(8):99-106. ZU Yani, ZHANG Yi. A virtual try-on method based on the largescale pre-training text-image model[J]. Journal of Silk,2023,60 (8) : 99-106.
[10] CHOI S,PARK S,LEE M,et al. VITON-HD:High-resolution virtual try-on via misalignment-aware normali-zation[C]//2021 IEEE/CVF Conference on ComputerVisionandPattern Recognition(CVPR).June 20-25,2021,Nashville,TN,USA. IEEE,2021:14126-14135.
[11]LEE S,GU G,PARK S,et al. High-resolution Virtual Try-On With Misalignment and Occlusion-Handled Con-ditions [M]// Lecture Notes in Computer Science. Cham: Springer Nature Switzerland, 2022:204-219.
[12] SHIM S H, CHUNG J, HEO JP. Towards squezing-averse virtual try-on via sequential deformation[J]. Proceedings of the AAAI Conference on Artificial Intelli-gence,2024,38(5): 4856-4863.
[13]朱欣娟,徐晨激.基于風(fēng)格遷移的虛擬試穿研究[J].紡織高 校基礎(chǔ)科學(xué)學(xué)報(bào),2023,36(1):65-71. ZHU Xinjuan, XU Chenwei. Research on virtual try-on based on style transfer[J]. Basic Sciences Journal of Textile Universities, 2023,36(1) : 65-71.
[14] ZHU L, YANG D, ZHU T,et al. TryOnDifusion: A tale of two UNets[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June 17-24,2023,Vancouver, BC,Canada.IEEE,2023:4606-4615.
[15] ZHANG X,LI X,KAMPFFMEYER M,et al. WarpDifusion: Effcient diffusion model for high-fidelity virtual try-on[EB/OL]. 2023:2312. 03667. htps://arxiv. org/abs/2312. 03667v1.
[16] ZHANG J, LI K,CHANG S Y,et al. ACDG-VTON:Accurate and contained difusion generation for virtual try-on[EB/OL]. 2024: 2403.13951. htps://arxiv. org/abs/2403.13951v1.
[17]GOU J,SUN S,ZHANG J,et al. Taming the power of diffusion models for high-quality virtual try-on with appe-arance flow[ C]// Proceedings of the 31st ACM Interna-tional Conferenceon Multimedia. Ottawa ON Canada.ACM,2023:7599-7607.
[18]BOYKOV Y Y,JOLLY M P. Interactive graph cuts for optimal boundary amp; region segmentation of objects in N-D images[C]// Proceedings Eighth IEEE International Conference on Computer Vision.ICCV.Vancouver,BC,Canada.IEEE,2001:105-112.
[19]HO J,JAIN A,ABBEEL P.Denoising diffusion probabilistic models[J].Advances in neural information processing systems, 2020,33:6840-6851.
[20] SONG J,MENG C,ERMON S.Denoising diffsion implicit models[EB/0L].2020:2010.02502.htps://arxiv.org/ abs/2010. 02502v4.
[21]LIUL,REN Y,LIN Z,et al.Pseudo numerical methods for diffusion models on manifolds[EB/OL]. 2022:2202.09778. https://arxiv.org/abs/2202.09778v2.
[22]KANG H,YANG M H,RYU J. Interactive multi-head selfattention with linear complexity[EB/OL].2024:2402.17507. https://arxiv.org/abs/2402. 17507v1.
[23]KINGMA D P,WELLING M. Auto-encoding variational Bayes [EB/OL]. 2013:1312. 6114. htps://arxiv. org/abs/1312. 6114v11.
[24] WANG Z,BOVIK A C, SHEIKH H R, et al. Image quality assessment:from error visibility to structural similarity[J].IEEE Transactions on Image Processing,2004,13(4): 600-612.
[25] ZHANG R,ISOLA P,EFROS A A,et al.The unreasonable effectiveness of deep features as a perceptual metric[C]//2018 IEEE/CVF Conference on Computer Vision and Pattrn Recognition. Salt Lake City,UT,USA.IEEE,2018:586-595.
[26]HEUSEL M,RAMSAUER H, UNTERTHINER T,et al. GANs trained by a two time-scale update rule converge to a local Nash equilibrium[EB/OL].2017:1706.08500.htps://arxiv.org/ abs/1706. 08500v6.
[27] BINKOWSKI M,SUTHERLAND D J,ARBEL M,et al. DemystifyingMMD GANs[EB/OL]. 2018:1801.01401. https://arxiv.org/abs/1801.01401v5.
Virtual try-on networks based on interactive multiple attention mechanisms
HUANG Lili1,ZHENG Junhong', JIN Yao1,2,HE Lili1,2 (1.School of Computer Science and Technology, Zhejiang Sci-Tech University,Hangzhou , China; 2. Zhejiang Provincial Innovation Center of Advanced Textile Technology,Shaoxing 31OO2O,China)
Abstract:With the booming development of e-commerce and the popularity of online clothing shopping,virtual tryon technology has been significantly promoted.At present,virtual try-on technology is mainly divided into two categories:3Dand 2D images,among which 2D image virtual try-on is widely used due to its easy operation and low cost.This technology is further subdivided into methods based on Generative Adversarial Networks (GANs)and difusion networks. In recent years,virtual try-on based on diffusion networks has received widespread attention due to its superior performance inrealism,stability,and detail processing compared to GAN networks.StableVITON is an important benchmark model in this field andhasachieved significant results insynthesizing try-on images by relying on the powerful generation abilityof difusion networks.However,there are still shortcomings in capturing and preserving clothing featuresand details,such as the inability to accurately identifyclothing'slong and short sleeves, colors, as well as details such as cuffs and necklines.
To address the problem of clothing feature and detail loss in the StableVITON,this paper proposed a virtual try-on network based onan interactive multi-head attention mechanism.Specifically,this article introduced an interactive multi-headatention mechanismin the clothing encoding block of the StableVITON to facilitate the interaction between diferent headsand learnrich featurecorrelations,soas to enhance the network attention performance and retain more clothing features and details.This article adopted various strategies to achieve this goal.Firstly,the latent space of the diffusion network was pre-trained to learn semantic correspondences between clothing and the human body.Secondly,zero-cross-attntion mechanism was introduced into the U-Net decoder. Lastly,the multi-head attention was adjusted toan interactive version which learns rich feature corelations through dense interaction mechanisms to enhance the combination of local and global information,reduce information loss, and improve the learning efficiency and stability of the model.
To verify the efectiveness of the proposed method,qualitative and quantitative experiments were conducted on the VITON-HD dataset.Resultsshow that this virtual try-on network generates more realistic overall clothing features and local details compared to other mainstream models.Compared to StableVITON,it improves the average Structural Similarity Index (SSIM) by 1.53% ,reduces the average Learned Perceptual Image Patch Similarity (LPIPS) by 0.71% ,lowers Fréchet Inception Distance (FID)by 0.15% ,and decreases Kernel Inception Distance (KID) by 1.14% . This network effectively preserves clothing feature details and significantly enhances image fidelity and its synthesized try-on images can provide consumers with a better shopping experience and can be widely used in digital fashion applications such as virtual try-on.
Keywords: interactive; multi-head attention; StableVITON; virtual try-on; stable diffusion