王偉珍 張功
摘 要:為解決復(fù)雜背景下服裝圖像的風(fēng)格遷移形式單一和局部細(xì)節(jié)失真問(wèn)題,提出一種基于CycleGAN的服裝圖像混搭風(fēng)格遷移的方法,用于實(shí)現(xiàn)服裝款式和圖案的多風(fēng)格遷移。通過(guò)加入分割掩碼,一方面,對(duì)特定區(qū)域的風(fēng)格化形成空間約束,在判別器中加入譜歸一化和引入背景優(yōu)化損失保留了局部細(xì)節(jié)的真實(shí)度,實(shí)現(xiàn)服裝風(fēng)格款式的風(fēng)格遷移;另一方面,提出圖像融合的方式,將圖案融入判別器輸出的服裝圖像中,實(shí)現(xiàn)多風(fēng)格遷移。最后,通過(guò)與CycleGAN和InstaGAN比較,依據(jù)生成圖像的效果進(jìn)行主觀分析,使用圖像質(zhì)量評(píng)估指標(biāo)IS和SSIM進(jìn)行客觀評(píng)估以驗(yàn)證該方法的有效性。
關(guān)鍵詞:混搭風(fēng)格遷移;生成對(duì)抗網(wǎng)絡(luò);服裝款式;服裝圖案;智能設(shè)計(jì);服裝設(shè)計(jì)
中圖分類號(hào):TS941.26
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1009-265X(2023)04-0250-09
收稿日期:2022-11-11
網(wǎng)絡(luò)出版日期:2023-02-21
基金項(xiàng)目:教育部社科規(guī)劃基金項(xiàng)目(21YJAZH088);遼寧省教育廳高?;究蒲兄攸c(diǎn)攻關(guān)項(xiàng)目(LJKZZ20220069);教育部產(chǎn)學(xué)協(xié)同育人項(xiàng)目(220404211305120); 遼寧省教育廳項(xiàng)目(1010152); 中國(guó)紡織工業(yè)聯(lián)合會(huì)項(xiàng)目(2021BKJGLX321)
作者簡(jiǎn)介:張功(1995—),男,山東滕州人,碩士研究生,主要從事服裝圖像處理方面的研究。
通信作者:王偉珍,E-mail:wz-wang@foxmail.com
應(yīng)用計(jì)算機(jī)程序輔助服裝設(shè)計(jì)師進(jìn)行創(chuàng)作,已成為服裝設(shè)計(jì)過(guò)程中不可或缺的技術(shù)手段。隨著消費(fèi)者對(duì)個(gè)性化需求的提高,服裝設(shè)計(jì)師需要更短的時(shí)間設(shè)計(jì)出更加新穎的作品。此外由于深度學(xué)習(xí)[1]的興起,人工智能與服裝設(shè)計(jì)的融合變得尤為迫切。盡管人工智能相關(guān)技術(shù)在時(shí)尚領(lǐng)域研究的應(yīng)用逐步深入,如服裝分類、服裝檢測(cè)、服裝推薦以及虛擬試穿等[2],但是針對(duì)當(dāng)前服裝輔助智能設(shè)計(jì)的研究,服裝圖像的風(fēng)格遷移仍然困囿于諸多技術(shù)問(wèn)題。例如,服裝圖像只能完成單一形式(圖案或者款式)的風(fēng)格遷移,導(dǎo)致生成服裝圖像的多樣性不足,設(shè)計(jì)師仍需要耗時(shí)耗力地對(duì)比不同款式和圖案的搭配效果;生成的服裝圖像存在著邊界偽影問(wèn)題,降低了服裝圖像的質(zhì)量[3-5]。因此,如何利用現(xiàn)有技術(shù)在短時(shí)間內(nèi)對(duì)服裝圖像添加多種風(fēng)格,生成風(fēng)格多樣、效果真實(shí)的服裝圖像,給予設(shè)計(jì)師更多設(shè)計(jì)靈感,正是其中技術(shù)痛點(diǎn)之一。
目前,風(fēng)格遷移已成為解決上述技術(shù)痛點(diǎn)的著力點(diǎn)之一。服裝風(fēng)格遷移是將一張圖像A的風(fēng)格和另一張服裝圖像B的內(nèi)容結(jié)合,生成同時(shí)具有圖像A風(fēng)格和圖像B內(nèi)容的服裝圖像C。一種比較前沿的SC-FashionG模型于2021年被提出,該模型將多種樣式混合于給定的服裝圖像中,并把這種組合稱為混搭風(fēng)格(Mix and match style)[6]。在以往的研究中,人們提出許多方法[7-9]實(shí)現(xiàn)風(fēng)格遷移并將其應(yīng)用于服裝圖像的生成,主要集中于基于圖像迭代的神經(jīng)風(fēng)格遷移算法和基于模型迭代的生成對(duì)抗網(wǎng)絡(luò)(Generative adversarial networks,GAN)模型。
為解決不同風(fēng)格對(duì)圖像語(yǔ)義內(nèi)容渲染困難的問(wèn)題,Gatys等[10]提出了一種基于VGG(Visual geometry group)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),創(chuàng)新地將一種內(nèi)容圖像和風(fēng)格圖像結(jié)合在一起。此后,有學(xué)者使用該方法并結(jié)合圖像分割實(shí)現(xiàn)服裝局部風(fēng)格遷移[11],但是服裝邊界容易產(chǎn)生偽影,使生成的圖像顯得不自然。Li等[12]提出一種基于WCT(Whitening and coloring transform)的方法。通過(guò)白化原有風(fēng)格并彩化新風(fēng)格,有效的提高了圖像生成的質(zhì)量和藝術(shù)效果,并嘗試了多風(fēng)格遷移,但是應(yīng)用于服裝中只能改變圖案紋理風(fēng)格,無(wú)法改變款式。
為了使生成數(shù)據(jù)分布盡可能的逼近真實(shí)數(shù)據(jù)分布,Goodfellow等[13]提出GAN模型。由于在生成圖像和應(yīng)用在服裝設(shè)計(jì)過(guò)程中展現(xiàn)出良好的效率和質(zhì)量,很多研究者將注意力轉(zhuǎn)移至GAN模型來(lái)實(shí)現(xiàn)服裝風(fēng)格遷移。Isola等[14]通過(guò)向GAN引入約束條件,提出pix2pix來(lái)進(jìn)行圖像轉(zhuǎn)換,該方法雖然生成圖像的效果自然,但是需要成對(duì)的數(shù)據(jù)集訓(xùn)練。為了解決對(duì)數(shù)據(jù)集依賴的問(wèn)題,Zhu等[15]提出CycleGAN在無(wú)配對(duì)數(shù)據(jù)集情況下實(shí)現(xiàn)了兩域之間互相轉(zhuǎn)換,但是生成的圖像缺乏多樣性,很難改變服裝的形狀,并且會(huì)改變內(nèi)容域中的背景。為克服無(wú)監(jiān)督學(xué)習(xí)中形狀轉(zhuǎn)換難以完成的風(fēng)格遷移問(wèn)題,Mo等[16]結(jié)合實(shí)例信息,引入了上下文保留損失,提出InstaGAN實(shí)現(xiàn)了服裝款式的轉(zhuǎn)換,但是在生成圖像中局部細(xì)節(jié)會(huì)出現(xiàn)失真,如腿部皮膚顯得不自然。Jiang等[6]提出將多種風(fēng)格混搭在一個(gè)服裝圖像中,通過(guò)分割掩碼改變服裝中圖案的結(jié)構(gòu),生成的服裝圖像頗為新穎,但是該方法也僅改變服裝中圖案并且沒(méi)有人物背景作為參考。
上述方法主要局限包括:?jiǎn)我伙L(fēng)格遷移的研究(僅對(duì)圖案或者服裝款式進(jìn)行風(fēng)格遷移),極大地限制了生成服裝圖像的多樣性;在帶有背景的服裝圖像中,容易產(chǎn)生圖像局部細(xì)節(jié)失真的問(wèn)題。為了克服上述兩大缺陷,降低自動(dòng)生成多風(fēng)格服裝圖像的難度,本文基于CycleGAN的結(jié)構(gòu)提出一種服裝圖像的混搭風(fēng)格遷移方法。與以往生成單一風(fēng)格形式的模型相比,有三點(diǎn)不同:首先本文提出混搭風(fēng)格遷移,即關(guān)注于服裝款式和服裝圖案的多風(fēng)格遷移;其次,改進(jìn)了CycleGAN網(wǎng)絡(luò)結(jié)構(gòu)用于多風(fēng)格圖像的生成;最后,加入了背景優(yōu)化損失,結(jié)合引入的服裝圖像二值圖,提升生成圖像的質(zhì)量。另外,通過(guò)使用圖像評(píng)估指標(biāo)IS(Iception Score)[17]和SSIM(Structural similarity)[18]對(duì)CycleGAN和InstaGAN進(jìn)行比較,并結(jié)合生成的圖像效果進(jìn)行主客觀分析,以驗(yàn)證本文方法的有效性。
1 相關(guān)理論
GAN和CycleGAN都是通過(guò)生成器和判別器互相博弈來(lái)生成圖像,即通過(guò)建立生成器G和判別器D互相博弈來(lái)使雙方進(jìn)化。其兩者關(guān)系如式(1):
minGmaxDLGAN(G,D)=Ex~Pdata(x)logD(x)+
Ez~Pdata(z)log(1-D(G(z)))(1)
式中:z為生成器產(chǎn)生的噪聲數(shù)據(jù),服從Pdata(z)的先驗(yàn)分布;x代表真實(shí)數(shù)據(jù),x服從真實(shí)樣本分布Pdata(x)。當(dāng)D(x)越大,判別器越能夠準(zhǔn)確識(shí)別出真實(shí)樣本;當(dāng)D(G(z))越小,則1-D(G(z))越大,判別器也能增強(qiáng)判別能力,若固定判別器,增強(qiáng)生成器生成能力,判別器會(huì)將假數(shù)據(jù)判別為真,即D(G(z))增大,所以有minGmaxDLGAN(G,D)。
這種方法雖然能夠生成較為逼真的圖像,但是難以保證在風(fēng)格遷移中生成圖像的有效性,即無(wú)法限定生成圖像的范圍,保證圖像的內(nèi)容不發(fā)生變化。相較GAN模型,CycleGAN有兩大優(yōu)勢(shì),一方面,CycleGAN包含兩個(gè)生成器(G和F)和兩個(gè)判別器(Dx和Dy),通過(guò)對(duì)偶學(xué)習(xí)[19]方法建立不同域之間的聯(lián)系,因此CycleGAN的訓(xùn)練數(shù)據(jù)集不需要成對(duì);另一方面,建立了循環(huán)一致性損失,如式(2):
Lcyc(G,F(xiàn))=Ex~Pdata(x)F(G(x))-x)1+
Ey~Pdata(y)G(F(y))-y1(2)
式中:F(G(x))為生成的重構(gòu)圖像,與x相似,下標(biāo)1為L(zhǎng)1范數(shù)。F(G(x))重構(gòu)了源域的圖像減少與源域圖像的差距,來(lái)彌補(bǔ)了使用GAN風(fēng)格遷移過(guò)程中內(nèi)容發(fā)生變化的缺陷。加入L1范數(shù)防止過(guò)擬合出現(xiàn)。
因此,CycleGAN的總損失函數(shù)為對(duì)抗性損失和循環(huán)一致性損失之和,如式(3):
LossGAN=LGAN(G,Dx)+LGAN(F,Dy)+ωLcyc(G,F(xiàn))(3)
式中:ω為權(quán)值,用于調(diào)節(jié)該損失的重要性。
2 本文方法
為實(shí)現(xiàn)服裝圖像的混搭風(fēng)格遷移,利用CycleGAN不需要成對(duì)訓(xùn)練數(shù)據(jù)集和風(fēng)格遷移效果好的優(yōu)勢(shì),本研究通過(guò)結(jié)合分割掩碼改進(jìn)CycleGAN網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù),完成服裝圖像中下裝的幾何變換。同時(shí),為了將圖案更好地融入服裝局部,提出圖案融合的方法,增強(qiáng)圖像真實(shí)感而非藝術(shù)效果,對(duì)服裝圖像分割后獲得的分割掩碼與圖案按照一定權(quán)值融合。
2.1 網(wǎng)絡(luò)結(jié)構(gòu)
本文的模型框架如圖1所示,He等[20]提出的Resnet和林泓等[21]使用的PatchGAN分別作為生成器和判別器。其中,生成器和判別器各有兩個(gè),分別用GA2B、GB2A、DA和DB表示。GA2B是將內(nèi)容域A(長(zhǎng)褲)中的風(fēng)格生成具有風(fēng)格域A中的風(fēng)格(裙子)的服裝圖像,并使用DB判斷GA2B生成圖像的真假,若為真,則輸出具有風(fēng)格域A風(fēng)格以及具有內(nèi)容域A內(nèi)容的圖像(生成圖像B)。同理,GB2A是將風(fēng)格域A(裙子)中的風(fēng)格轉(zhuǎn)換為內(nèi)容域A(長(zhǎng)褲)中的風(fēng)格,并使用DA判斷GB2A生成圖像的真假,若為真,則輸出具有內(nèi)容域A的風(fēng)格以及具有風(fēng)格域A內(nèi)容的服裝圖像(生成圖像A)。同時(shí),輸入圖像與重構(gòu)圖像通過(guò)訓(xùn)練會(huì)盡可能相似,體現(xiàn)CycleGAN中循環(huán)一致性。
本文的Resnet生成器由下采樣塊、殘差塊和上采樣塊組成,如圖2所示。在下采樣塊中,使用實(shí)例歸一化(IN)在一個(gè)通道內(nèi)作歸一化,計(jì)算圖像的H*W的均值,保持了圖像實(shí)例的獨(dú)立性,加快了模型的收斂。ReLU作為激活函數(shù),降低計(jì)算的復(fù)雜度,加快計(jì)算速度。同時(shí),為了達(dá)到更好的訓(xùn)練效果,Resnet殘差塊設(shè)置了9層,保留了卷積層、實(shí)例歸一化和激活層。此后,通過(guò)上采樣塊中逆卷積層減少通道數(shù)來(lái)擴(kuò)大圖像尺寸,用于生成目標(biāo)(如裙裝)圖像。為了得到更好地生成效果,模型的PatchGAN判別器由5層卷積層組成,如圖3所示。與CycleGAN不同的是,為了規(guī)范判別器參數(shù),讓其滿足利普茨連續(xù)(1-Lipschitz continuity),卷積層本文在首尾卷積層中采用了譜歸一化(SpectralNorm)[22]。此外,使用前3層卷積層提取特征后,后2層卷積層再進(jìn)行分類,獲得了較好的生成效果。
2.2 損失函數(shù)的設(shè)計(jì)
上述的損失函數(shù)雖然能夠?qū)崿F(xiàn)跨類別的圖像翻譯,尤其是紋理的風(fēng)格遷移,但在幾何變換和細(xì)節(jié)處理方面表現(xiàn)不佳。本研究更加關(guān)注圖像轉(zhuǎn)換過(guò)程中的上下文銜接,服裝款式(即形狀)的風(fēng)格遷移效果和生成圖像中人物背景的肢體的真實(shí)感。為此,加入了背景優(yōu)化損失Lback,如式(4):
Lback=ω2 f(a,b′)⊙(x-y′)1+
ω3N∑Nn=1∑3c=1(G(x)-x)-(y-F(y))1(4)
式中:
x代表內(nèi)容域圖像,a代表內(nèi)容域掩碼選中區(qū)域,
y′代表內(nèi)容域圖像轉(zhuǎn)換后的圖像,
b′代表內(nèi)容域被轉(zhuǎn)換后的掩碼迭中區(qū)域,ω2和ω3分別作為調(diào)整內(nèi)容保留和膚色顯示的權(quán)重,N代表轉(zhuǎn)換區(qū)域內(nèi)的像素?cái)?shù),c為通道數(shù)。設(shè)實(shí)例為0,背景為1時(shí),則f=a∪b為可轉(zhuǎn)換狀態(tài),實(shí)現(xiàn)了實(shí)例的轉(zhuǎn)換和背景的保留。由于邊緣區(qū)域的細(xì)節(jié)要比中心區(qū)域復(fù)雜,ω2的權(quán)重值由中心向邊緣逐漸增加。此外,為了彌補(bǔ)轉(zhuǎn)換過(guò)程中轉(zhuǎn)換區(qū)域形狀紋理會(huì)發(fā)生的差異性變化,如長(zhǎng)褲轉(zhuǎn)換為短褲后,腿部存在仍然保留著部分長(zhǎng)褲紋理的問(wèn)題。本研究將生成器G生成的圖像(如短褲風(fēng)格圖像)和內(nèi)容域x(如長(zhǎng)褲風(fēng)格圖像)的差異值與風(fēng)格域(如短褲風(fēng)格圖像)和生成器F(如生成的長(zhǎng)褲風(fēng)格圖像)的差異值作差,通過(guò)訓(xùn)練不斷縮小差距,使人物腿部細(xì)節(jié)更加真實(shí)。其中,ω3為超參數(shù)。
因此,本文所提方法的總損失為式(5):
Ltotal=γ1LLSGAN+γ2Lcyc+γ3Lback(5)
式中:γi(i=1~3)為超參數(shù)。
盡管在風(fēng)格遷移中,尤其是藝術(shù)領(lǐng)域,大部分使用神經(jīng)網(wǎng)絡(luò)來(lái)完成,并獲得了較好的藝術(shù)風(fēng)格圖像。但是對(duì)于服裝的圖案紋理遷移,使用神經(jīng)網(wǎng)絡(luò)來(lái)完成并不理想或者說(shuō)過(guò)于藝術(shù),缺乏真實(shí)感。然而,本文提出一種圖案融合方式,通過(guò)mask將服裝與處理后的圖案按一定比例進(jìn)行融合,使圖案紋理能夠較好的在服裝中展示,獲得了較為新穎的服裝圖像,如式(6):
Imer=(Iori-t1*Iseg)+t2*Ipat*Imask(6)
式中:Iori為原始的服裝圖像,Iseg為分割后所要融合的服裝局部,Ipat為所要融合的圖案,Imask為所要融合的服裝局部的掩碼,t1為保留原始服裝局部紋理的比例,t2為融合圖案紋理的比例,且t1+t2≈1。
3 結(jié)果與分析
3.1 數(shù)據(jù)集與實(shí)驗(yàn)細(xì)節(jié)
本文所使用的數(shù)據(jù)集包含兩部分:服裝協(xié)同數(shù)據(jù)集[23](Clothing co-parsing dataset,CCP)和自建數(shù)據(jù)集。CCP共有2098張高分辨率時(shí)尚街頭圖像,所有圖像帶有圖像級(jí)注釋,里面有各種款式、配飾、服裝和姿勢(shì),共有59個(gè)標(biāo)簽。自建數(shù)據(jù)集共有3000張圖像。其中,長(zhǎng)褲圖像1000張,短褲圖像1000張以及短裙圖像1000張。增加自建數(shù)據(jù)集是對(duì)CCP的補(bǔ)充,增加訓(xùn)練數(shù)據(jù)為了更有針對(duì)性地完成服裝款式的轉(zhuǎn)換,獲得更好的風(fēng)格遷移效果。
實(shí)驗(yàn)環(huán)境與模型訓(xùn)練:CUDA 11.3,cuDNN 8,Ubuntu 18.04系統(tǒng),Pytorch 1.10深度學(xué)習(xí)框架,Python 3.8程序語(yǔ)言,NVIDIA GeForce RTX 3090顯存24 GB的顯卡。共訓(xùn)練了500輪,訓(xùn)練過(guò)程中損失的變化如圖4所示。由于在訓(xùn)練200輪次后損失下降幅度減小甚至難以繼續(xù)下降,因此,選擇了200輪次的預(yù)訓(xùn)練模型進(jìn)行測(cè)試。
3.2 實(shí)驗(yàn)細(xì)節(jié)
本文主要針對(duì)服裝圖像進(jìn)行款式和圖案紋理的風(fēng)格遷移。在實(shí)驗(yàn)中,一方面將風(fēng)格域A中的服裝樣式(短褲或者裙子)遷移至內(nèi)容域的下裝,并將風(fēng)格域B的圖案紋理遷移至內(nèi)容域的上裝;另一方面通過(guò)選擇有人物背景的作為內(nèi)容域,在風(fēng)格遷移后,通過(guò)人物背景作為參考,可以更加直觀展示風(fēng)格遷移效果,如不同圖案款式對(duì)不同人群搭配的適應(yīng)性。
如圖5(a)所示,前兩行展示的是將內(nèi)容域中長(zhǎng)褲的形狀轉(zhuǎn)換為與風(fēng)格域A中短褲相似的樣式。同理,后面兩行圖像是將長(zhǎng)褲轉(zhuǎn)換為裙子,并將風(fēng)格域中的圖案紋理分別融合在上裝和下裝中。不管是樣式形狀遷移還是圖案紋理遷移,都獲得了較好的生成效果。值得注意的是,轉(zhuǎn)換所生成的裙子的色彩與風(fēng)格域A無(wú)關(guān),與輸入的內(nèi)容域有關(guān),如內(nèi)容域中服裝色彩較深的往往轉(zhuǎn)換為顏色較深的服裝款式。風(fēng)格域A所展示的圖像僅僅只是一種樣式(如裙子的樣式)的代表,并非單個(gè)樣式形狀遷移。此外,在完成款式風(fēng)格遷移后還可將對(duì)上裝和下裝同時(shí)進(jìn)行圖案的風(fēng)格遷移,由圖5(b)可見(jiàn),將風(fēng)格A、風(fēng)格B和風(fēng)格C的3種風(fēng)格混搭在同一張服裝圖像中,生成了效果真實(shí)、新穎獨(dú)特的服裝圖像。當(dāng)然,這還需要根據(jù)不同圖案來(lái)設(shè)置好式(6)中的參數(shù)。
3.3 多模型效果比較與評(píng)估
為了驗(yàn)證本文方法在款式風(fēng)格遷移的有效性,將本文基于CycleGAN所提的方法與CycleGAN和InstaGAN進(jìn)行主客觀的比較與分析,包括在相同數(shù)據(jù)集上不同方法生成的圖像效果、圖像生成指標(biāo)IS和圖像質(zhì)量評(píng)估指標(biāo)SSIM。
a)主觀比較與分析
由圖6所示,從測(cè)試效果角度來(lái)講,CycleGAN并沒(méi)有改變服裝的形狀,而是對(duì)服裝的色彩略有影響,InstaGAN明顯改變了服裝的形狀,但是處理其他服裝圖像尤其是淺色服裝時(shí),生成的圖像中服裝
并不清晰,并且生成的人物肢體顯得不自然(如第一行中生成人物的腿部皮膚不夠接近膚色,第三行人物與背景擬合較差)。相比較之下,本文的模型生成的服裝效果更好,更加自然。
b)客觀評(píng)價(jià)指標(biāo)分析
衡量風(fēng)格遷移過(guò)程中不同模型生成的質(zhì)量是困難的,缺乏客觀統(tǒng)一標(biāo)準(zhǔn)的評(píng)估[24],尤其是設(shè)計(jì)美學(xué)方面,往往帶有主觀性。為了檢驗(yàn)生成圖像的質(zhì)量和圖像中的多樣性,本文參考了圖像生成的評(píng)價(jià)指標(biāo)和其他計(jì)算機(jī)視覺(jué)方面的評(píng)價(jià)指標(biāo),選擇了IS和SSIM分別對(duì)CycleGAN、InstaGAN和本文方法進(jìn)行評(píng)估和對(duì)比。
IS是對(duì)生成圖像的清晰度和多樣性衡量,如式(7):
IS(G)=exp(Ex~PgDKL(p(y|x)p(y)))(7)
式中:對(duì)于p(y|x)log(p(y|x)),熵值越小表明數(shù)據(jù)分布越集中,則圖像具有較好的清晰度;對(duì)于p(y)log(y),熵值越大,表明圖像種類越多,則生成的圖像具有很好的多樣性。因此,IS分?jǐn)?shù)為邊緣分布p(y)和條件分布p(y|x)的KL散度的期望,即給定一個(gè)生成圖像x,類別信息y的不確定性的減少程度。IS雖然一定程度能夠衡量生成圖像的清晰度和多樣性,但是沒(méi)有側(cè)重點(diǎn)。
為了評(píng)估的客觀性,本文引入一種衡量?jī)煞鶊D像相似度的SSIM指標(biāo)[25],通過(guò)感知的模型,評(píng)價(jià)圖像質(zhì)量上更加貼近于人類視覺(jué)特性。如式(8):
SSIM(x,y)=(2uxuy+c1)(2σxy+c2)(u2x+u2y+c1)(σ2x+σ2y+c2)(8)
式中:x代表風(fēng)格圖像,y代表生成圖像。ux是x的平均值,σ2x是x的方差,uy是y的平均值,σ2y是y的方差,σxy是x和y的協(xié)方差,c1和c2是兩個(gè)用于維持穩(wěn)定的常數(shù),避免出現(xiàn)除零的情況。因此,SSIM越接近1,表明風(fēng)格圖像與生成圖像越相近[26]。
為了進(jìn)行更為直觀的對(duì)比分析,對(duì)IS和SSIM數(shù)據(jù)進(jìn)行了歸一化。如表1所示,本文模型的IS值和SSIM值都高于其他模型,表明了生成服裝圖像的真實(shí)感和多樣性要優(yōu)于其他模型。針對(duì)長(zhǎng)褲向短褲的款式風(fēng)格遷移,由IS值可知,CycleGAN雖然難以改變服裝款式,但是在生成圖像清晰度上要比InstaGAN要好,而代表多樣性的SSIM值偏低;針對(duì)長(zhǎng)褲向短裙的款式風(fēng)格遷移,雖然SSIM值遠(yuǎn)大于CycleGAN和InstaGAN,但是IS值卻與CycleGAN相近,表明本文模型在生成圖像多樣性方面占優(yōu),在轉(zhuǎn)換為裙子款式風(fēng)格遷移后生成的圖像清晰度還需要提高。
綜上數(shù)據(jù)和視覺(jué)效果比較,與前文所述經(jīng)典模型CycleGAN和InstaGAN不同的是,本文模型將服裝款式和圖案共同作用于服裝圖像中,克服服裝圖像風(fēng)格遷移的單調(diào)性,形成了不同服裝款式和圖案的混搭。此外,本研究受比較前沿的混搭風(fēng)格模型SC-FashionG啟發(fā),也通過(guò)加入分割掩碼形成對(duì)服裝局部的空間約束,并將多種風(fēng)格作用于同一服裝圖像中,但又與該模型有顯著差異:SC-FashionG模型使用了無(wú)背景的服裝圖像,而本研究使用的服裝圖像帶有人物背景;SC-FashionG模型使用分割掩碼對(duì)服裝內(nèi)部紋理進(jìn)行改變以實(shí)現(xiàn)服裝圖案的多樣性,而本研究使用分割掩碼作用于服裝外部邊緣來(lái)改變服裝的款式和圖案以增加生成圖像的多樣性。
4 結(jié) 語(yǔ)
本文提出一種混搭風(fēng)格遷移的方法,解決了生成服裝圖像風(fēng)格形式單一以及背景細(xì)節(jié)失真的問(wèn)題,通過(guò)主觀比較和客觀評(píng)估分析,表明本文方法在多風(fēng)格遷移任務(wù)中的有效性。其中,多風(fēng)格主要包括了服裝下裝的款式風(fēng)格和圖案風(fēng)格。一方面,針對(duì)服裝款式的風(fēng)格遷移,使用了圖像分割掩碼,引導(dǎo)和約束風(fēng)格遷移對(duì)特定區(qū)域風(fēng)格化,引入背景優(yōu)化損失,用于保留背景和建立腿部膚色相似性,在判別器中加入譜歸一化SN用于特性提取和分類任務(wù)中,優(yōu)化背景細(xì)節(jié)紋理;另一方面,提出風(fēng)格融合方式,按照權(quán)值使圖案在服裝中展示出來(lái)。最后,通過(guò)與CycleGAN和InstaGAN比較分析,本文采用的方法得到了較高的評(píng)價(jià)。
在此次輔助智能設(shè)計(jì)的實(shí)踐中,雖然獲得了有效的結(jié)果,但也存在著一些不足。如對(duì)輸入的內(nèi)容圖像分辨率要求較高,將長(zhǎng)褲轉(zhuǎn)換為裙子的成功率相對(duì)偏低,后期將繼續(xù)提升模型的泛化能力,并注重生成過(guò)程中服裝圖像的情感元素[27],以推進(jìn)計(jì)算思維與設(shè)計(jì)思維的融合。
參考文獻(xiàn):
[1]LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.
[2]CHENG W H, SONG S J, CHEN C Y, et al. Fashion meets computer vision: A survey[J]. ACM Computing Surveys, 2022, 54(4): 1-41.
[3]施倩,羅戎蕾.基于生成對(duì)抗網(wǎng)絡(luò)的服裝圖像生成研究進(jìn)展[J].現(xiàn)代紡織技術(shù),2022,31(2):36-46.
SHI Qian, LUO Ronglei. Research progress of clothing image generation based on generative adversarial networks[J]. Advanced Textile Technology, 2022,31(2):36-46.
[4]CHEN H, LEI S, ZHANG S G, et al. Man-algorithm cooperation intelligent design of clothing products in multi links[J]. Fibres and Textiles in Eastern Europe, 2022,30(1): 59-66.
[5]趙夢(mèng)如.人工智能在服裝款式設(shè)計(jì)領(lǐng)域的應(yīng)用進(jìn)展[J].紡織導(dǎo)報(bào),2021(12):74-77.
ZHAO Mengru. Application progress of artificial intelligence in clothing style design[J]. China Textile Leader, 2021(12): 74-77.
[6]JIANG S, LI J, FU Y. Deep learning for fashion style generation[J]. IEEE Transactions on Neural Networks and Learning Systems, 2022, 33(9): 4538-4550.
[7]唐稔為,劉啟和,譚浩.神經(jīng)風(fēng)格遷移模型綜述[J].計(jì)算機(jī)工程與應(yīng)用,2021,57(19):32-43.
TANG Renwei, LIU Qihe, TAN Hao. Review of neural style transfer models[J]. Computer Engineering and Applications, 2021, 57(19): 32-44.
[8]JING Y C, YANG Y Z, FENG Z L, et al. Neural style transfer: A review[J]. IEEE Transactions on Visualization and Computer Graphics, 2020, 26(11): 3365-3385.
[9]MO D, ZOU X, WONG W K. Neural stylist: Towards online styling service[J]. Expert Systems with Applications, 2022, 203: 117333.
[10]GATYS L, ECKER A, BETHGE M. A neural algorithm of artistic style[J]. Journal of Vision, 2016, 16(12): 356.
[11]WANG H Y, XIONG H T, CAI Y Y. Image localized style transfer to design clothes based on CNN and interactive segmentation[J]. Computational Intelligence and Neuroscience, 2020, 2020: 8894309.
[12]LI Y J, FANG C, YANG J M, et al. Universal style transfer via feature transforms[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, California, USA. New York: ACM, 2017: 385-395.
[13]GOODFELLOW I, POUGET-ABADIE J, MIRZA M B, et al.Generative adversarial nets[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems:Volume 2. Montreal, Canada. New York: ACM, 2014: 2672-2680.
[14]ISOLA P, ZHU J Y, ZHOU T, et al. Image-to-image translation with conditional adversarial networks[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA. IEEE, 2017: 5967-5976.
[15]ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//IEEE International Conference on Computer Vision (ICCV). Venice, Italy. IEEE, 2017: 2242-2251.
[16]MO S, CHO M, SHIN J. InstaGAN: Instance-aware Image-to-Image Translation[J]. ArXiv, 2018: 1812.10889. https://arxiv.org/abs/1812.10889.
[17]SALIMANS T, GOODFELLOW I, ZAREMBA W, et al. Improved techniques for training GANs[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain. New York: ACM, 2016: 2234-2242.
[18]WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: from error visibility to structural similarity[J]. IEEE Transactions on Image Processing: a Publication of the IEEE Signal Processing Society, 2004, 13(4): 600-612.
[19]YI Z, ZHANG H, TAN P, et al.DualGAN: Unsupervised dual learning for image-to-image translation[C]//Proceedings of the IEEE International Conference on Computer Vision(ICCV). Venice, Italy. IEEE, 2017: 2868-2876.
[20]HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Las Vegas, NV, USA. IEEE, 2016: 770-778.
[21]林泓,任碩,楊益,等.融合自注意力機(jī)制和相對(duì)鑒別的無(wú)監(jiān)督圖像翻譯[J].自動(dòng)化學(xué)報(bào),2021,47(9):2226-2237.
LIN Hong, REN Shuo, YANG Yi, et al. Unsupervised image-to-image translation with self-attention and relativistic discriminator adversarial networks[J]. ACTA Automatica Sinica, 2021, 47(9): 2226-2237.
[22]GULRAJANI I, AHMED F, ARJOVSKY M, et al. Improved training of wasserstein gans[J]. ArXiv, 2017:1704. 00028. https://arxiv.org/abs/1704.00028.
[23]LIANG X D, LIN L, YANG W, et al. Clothes Co-parsing via joint image segmentation and labeling with application to clothing retrieval[J]. IEEE Transactions on Multimedia, 2016, 18(6): 1175-1186.
[24]陳淮源,張廣馳,陳高,等.基于深度學(xué)習(xí)的圖像風(fēng)格遷移研究進(jìn)展[J].計(jì)算機(jī)工程與應(yīng)用,2021,57(11):37-45.
CHEN Huaiyuan, ZHANG Guangchi, CHEN Gao, et al. Research progress of image style transfer based on depth learning[J]. Computer Engineering and Applications, 2021, 57(11): 37-45.
[25]李敏,劉冰清,彭慶龍,等.基于CycleGAN算法的迷彩服裝圖案設(shè)計(jì)方法研究[J].絲綢,2022,59(8):100-106.
LI Min, LIU Bingqing, PENG Qinglong, et al. A camouflage suit pattern design based on the CycleGAN algorithm[J]. Journal of Silk, 2022, 59(8): 100-106.
[26]曾憲華,陸宇喆,童世玥,等.結(jié)合馬爾科夫場(chǎng)和格拉姆矩陣特征的寫實(shí)類圖像風(fēng)格遷移[J].南京大學(xué)學(xué)報(bào)(自然科學(xué)),2021,57(1):1-9.
ZENG Xianhua, LU Yuzhe, TONG Shiyue, et al. Photorealism style transfer combining MRFs-based and gram-based features[J]. Journal of Nanjing University (Natural Science), 2021, 57(1): 1-9.
[27]QUINON P. Engineered emotions[J]. Science, 2017, 358(6364): 729.
Mix and match style transfer for the images of clothes with CycleGAN
WANG Weizhena,b, ZHANG Gonga
(a.School of Fashion; b. Clothing Human Factors and Intelligent Design Research Center, Dalian Polytechnic University, Dalian 116034, China)
Abstract:
With the continuous integration of artificial intelligence (AI) technology and the fashion field, the use of style transfer technology to generate new images has become one of the research hotspots of aided intelligent clothing design. However, the use of current style transfer technology in the process of aided intelligent design still has great limitations. Only completing the transfer of a single style limits the diversity of generated clothing images, and the detail distortion of the clothing image with the character background reduces the authenticity of the generated clothing images.
Aiming at solving the problems of the undiversified transfer form and local detail distortion of clothing image styles in complicated conditions, a method of clothing image mixing and matching style transfer was proposed to realize the multi-style transfer of clothing styles and patterns. During the experiment, we took CycleGAN as the baseline model, with the advantage of improving the effect of style transfer without requiring pairwise training and cyclic consistency loss, used Resnet generator and PatchGAN discriminator for training, and introduced the segmentation mask. On the one hand, spatial constraints were formed for the stylization of specific areas, instance normalization was added to the discriminator to maintain the independence of image instances, spectral normalization was added to the first and last layers of the convolution layer to enhance the classification ability of the network, and background optimization loss was added to optimize the local details of the generated images, especially the boundary artifacts, which jointly promoted the generation effect and realized the style transfer of clothing styles. On the other hand, the method of image fusion was proposed. According to the pattern fusion mapping relationship, the pattern was integrated into the clothing image output by the discriminator to realize the multi-style transfer of clothing styles and patterns. In order to verify the effectiveness of the above method in the multi-style transfer of clothing images, the clothing image design sketches generated in the experiment were compared with the design sketches generated by CycleGAN and InstaGAN models. By subjectively analyzing the style diversity and detail differences of the design sketches, the IS and SSIM were used for quantitative analysis, and the subjective visual effect and objective numerical comparison both showed the advantages of this experimental method in the diversity and the authenticity of image details.
The multi-style transfer of clothing styles and patterns can provide designers with creative inspiration and shorten the time period required for effect presentation, making AI more suitable for assisting clothing design behavior. In subsequent experiments, we will explore the transfer of more types of clothing styles, so as to achieve a diversified and controllable style transfer method. In addition, emotional elements needed for perceptual design should be added in the process of image style transfer, so as to promote the integration of computational thinking and design thinking of future-oriented design paradigm.
Keywords:
mix and match style transfer; generative adversarial network; clothing style; clothing pattern; intelligent design; clothing design