孟義智,楊大偉,毛 琳
(大連民族大學(xué) 機(jī)電工程學(xué)院,遼寧 大連 116650)
虛擬試穿包含服飾試穿和人物姿態(tài)合成兩個(gè)方面的功能。主要工作是在模特人物更換試穿衣服的過(guò)程中,將待更換的服飾和人體部件從圖片中分割出來(lái)經(jīng)編碼,融合到目標(biāo)模特的指定姿態(tài)上,形成試穿效果。
在虛擬試穿研究中,引入注意力的目的是提高服裝的分割精度和服飾遷移后的呈現(xiàn)效果,進(jìn)一步提高虛擬試穿的可視化主觀評(píng)價(jià)感受。
現(xiàn)有基于深度學(xué)習(xí)的注意力網(wǎng)絡(luò),對(duì)于通道注意力來(lái)說(shuō)典型模型為SENet(Squeeze-and-Excitation Networks)[1],通過(guò)壓縮-激勵(lì)過(guò)程,對(duì)通道角度下的特征進(jìn)行權(quán)重賦值,實(shí)現(xiàn)去除通道中冗余信息的目的;空間注意力代表為STN(Spatial Transformer Networks)[2],將源域圖像特征經(jīng)過(guò)隨機(jī)變換映射到另一個(gè)中間域,而后返回到當(dāng)前域空間,在轉(zhuǎn)換過(guò)程中,實(shí)現(xiàn)空間特征的仿射不變性獲取;還有一種注意力網(wǎng)絡(luò)就是混合注意力網(wǎng)絡(luò),其代表模型是CBAM(Convolutional Block Attention Module)[3],融合了通道和空間兩種注意力機(jī)制,來(lái)進(jìn)一步提高特征的有效利用。
虛擬試穿研究與這些注意力網(wǎng)絡(luò)結(jié)合來(lái)提高服飾生成和遷移的可視化效果。王琴[4]等人,以苗族服裝數(shù)據(jù)集為研究對(duì)象,將CBAM混合注意力網(wǎng)絡(luò),嵌入到全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Networks,FCN)中,實(shí)現(xiàn)了局部特征和全局特征的交互共享;覃琴[5]等人在密集連接網(wǎng)絡(luò)上對(duì)服裝數(shù)據(jù)集進(jìn)行了空間多尺度特征的融合,能夠?qū)崿F(xiàn)自動(dòng)地分割苗族衣服上的服裝信息;趙海英[6]等為了解決傳統(tǒng)服裝上的細(xì)小花紋邊緣提取不清晰的問(wèn)題,在特征提取階段引入卷積注意力特征(Convolution Attention Feature,CAF)網(wǎng)絡(luò),提高系統(tǒng)對(duì)花紋樣式等紋理的關(guān)注程度。以傳統(tǒng)非機(jī)器學(xué)習(xí)方法,利用空間上的能量法來(lái)對(duì)視覺(jué)目標(biāo)的顯著能量進(jìn)行快速有效地獲取,有效地解決目標(biāo)的預(yù)分割處理問(wèn)題[7]。
本文針對(duì)服飾試穿領(lǐng)域中,將分割作為生成器編碼的需求,為深度學(xué)習(xí)的分割網(wǎng)絡(luò)提供更好的預(yù)處理空間注意力。提出一種適用于虛擬試穿應(yīng)用場(chǎng)景的能量法空間注意力網(wǎng)絡(luò)(Spatial Attention Feature extraction algorithm based on Energy approach for visual try-on,SAFE),利用空間各軸向上的像素位置統(tǒng)計(jì)信息,實(shí)現(xiàn)分割掩模模板的位置精準(zhǔn)匹配問(wèn)題,從而提高分割輸出的編碼質(zhì)量。
在虛擬試穿分割特征編碼部分,以文獻(xiàn)[8]中提及的Dior(Dressing in order network)網(wǎng)絡(luò)為例。Dior網(wǎng)絡(luò)采用輕量級(jí)分割特征編碼結(jié)構(gòu),采用一個(gè)精減的2層VGG卷積網(wǎng)絡(luò)作為主干,對(duì)服裝輸入S經(jīng)重采樣變換,分別得到特征紋理T和分割M兩路輸出,為后續(xù)模特試穿生成提供編碼基礎(chǔ)。Dior網(wǎng)絡(luò)中,分割編碼模塊的具體結(jié)構(gòu)示意圖如圖1。其中,分割支路與紋理支路內(nèi)容特征的輸入,均來(lái)自于重采樣后的輸出結(jié)果,且分割處理模塊為3個(gè)3×3卷積。
圖1 Dior分割編碼結(jié)構(gòu)示意圖
在這種輕量級(jí)分割特征編碼網(wǎng)絡(luò)里,屬于淺層信息處理范疇。特別是在分割M支路中,分割模塊原本是對(duì)全部輸入特征進(jìn)行分割處理,如果能夠加入注意力機(jī)制,則可以有針對(duì)性地對(duì)特定區(qū)域著重分割,從而提高分割輸出的精度。
為提高分割編碼質(zhì)量,SAFE采用預(yù)分割處理方式來(lái)提高空間位置上的特征表達(dá)能力,以傳統(tǒng)非機(jī)器學(xué)習(xí)的能量法顯著目標(biāo)區(qū)域檢測(cè)思路[7]。
獲取顯著目標(biāo)區(qū)域位置信息的原理如圖2。假設(shè)給定一幅圖片,其高度和寬度尺寸為(m,n)像素,則X軸和Y軸的能量就是按列或行的方向,對(duì)像素值大小的累加和結(jié)果。X=[x1,x2,……,xn]∈R,Y=[y1,y2,……,yn]∈R,且滿(mǎn)足如下條件:
圖2 能量法顯著目標(biāo)區(qū)域檢測(cè)原理示意圖(各軸上能量區(qū)域重疊的部分,即為顯著區(qū)域)
(1)
(2)
其中,P(xi,yj)為圖片像素幅值大小,在計(jì)算任意軸某元素能量時(shí),圖像應(yīng)經(jīng)歸一化處理,使像素幅值大小的范圍在[0,1]之間。
從圖2中可得,顯著區(qū)域?qū)嶋H是由軸和軸的能量重疊區(qū)域所構(gòu)成。該顯著區(qū)域[9][(visual saliency)將可作為后續(xù)分割的預(yù)處理過(guò)程,提高分割的位置敏感性需求。為配合深度學(xué)習(xí)網(wǎng)絡(luò)的設(shè)計(jì),本文借鑒位置注意力深度學(xué)習(xí)網(wǎng)絡(luò)CA(Coordinate Attention)[10]的設(shè)計(jì)思想,為虛擬試穿的分割模塊,提供顯著目標(biāo)的位置注意力機(jī)制。能量法顯著目標(biāo)注意力結(jié)構(gòu)如圖3。
圖3 能量法顯著目標(biāo)注意力結(jié)構(gòu)(r = 16)
圖4 整體網(wǎng)絡(luò)結(jié)構(gòu)
圖3中,輸入I為輸入圖像或輸入特征圖,其中,C為通道,H為特征圖高度,對(duì)應(yīng)于能量法顯著目標(biāo)區(qū)域檢測(cè)的Y軸方向能量計(jì)算,W為特征圖寬度,對(duì)應(yīng)于X軸方向能量。遵循能量法顯著目標(biāo)區(qū)域檢測(cè)思路,設(shè)定如下步驟來(lái)構(gòu)建深度學(xué)習(xí)網(wǎng)絡(luò),從而實(shí)現(xiàn)一個(gè)神經(jīng)網(wǎng)絡(luò)下的能量法顯著目標(biāo)空間注意力機(jī)制。
步驟1:能量計(jì)算。各軸上的能量,為輸入特征圖I的歸一化后單個(gè)像素點(diǎn)(或特征空間點(diǎn))的幅值大小累加和,為保證深度學(xué)習(xí)后續(xù)的梯度等計(jì)算要求,對(duì)累加和做求平均操作。即,能量計(jì)算從公式(1)和公式(2)變?yōu)榍笃骄僮鳌?/p>
(3)
(4)
步驟2:通道縮減。通道縮減是去除多個(gè)通道中的冗余信息,而通道縮減操作在注意力機(jī)制中,相當(dāng)于要解決給定深度學(xué)習(xí)網(wǎng)絡(luò)要關(guān)注何種特征信息。設(shè)定通道縮減的衰減系數(shù)為常數(shù)值r。該操作由圖3中的卷積1操作完成。
步驟3:通道恢復(fù)。經(jīng)圖3中的卷積2和卷積3來(lái)實(shí)現(xiàn)通道恢復(fù),并完成各個(gè)軸方向上的能量計(jì)算。
步驟4:權(quán)重重組。圖3中的權(quán)重重組操作,是對(duì)輸入特征圖I的注意力操作。
K=I×(W′×H′) 。
(5)
式中:I為特征圖;W'為X軸的能量計(jì)算結(jié)果;H'為Y軸的能量計(jì)算結(jié)果。K為能量法顯著目標(biāo)區(qū)域?qū)斎胩卣鲌DI的注意力結(jié)果。
將本文所提的SAFE算法植入Dior網(wǎng)絡(luò)[8],置于特征圖分割支路,輸入來(lái)自于VGG主干網(wǎng)絡(luò)[11]經(jīng)重采樣的輸出結(jié)果,輸出送至分割、Sigmoid激活網(wǎng)絡(luò),形成分割結(jié)果M。
SAFE算法網(wǎng)絡(luò)采用流行的服飾數(shù)據(jù)集DeepFashion[12],訓(xùn)練集與測(cè)試集分開(kāi)。其中,圖片尺寸均為,這里256為圖片高度,176為圖片寬度。訓(xùn)練集有48 674張照片,大約占用9 GB存儲(chǔ)容量。測(cè)試集有4 038張照片,大約占用700 MB存儲(chǔ)容量。
整個(gè)網(wǎng)絡(luò)迭代30萬(wàn)次,優(yōu)化器采用Adam梯度下降算法,初始的學(xué)習(xí)率為,一般來(lái)說(shuō),學(xué)習(xí)率最終會(huì)下降到。
仿真環(huán)境,采用Ubuntu 18.04操作系統(tǒng),單張NVIDIA 1070Ti顯卡(8G顯存),BatchSize=2。
依照虛擬試穿網(wǎng)絡(luò)魔性的主流評(píng)測(cè)手段,本文SAFE算法從結(jié)構(gòu)相似度SSIM[13]、分布相似度FID[14]以及感知相似度LPIPS[15]等三個(gè)角度去衡量生成結(jié)果與真實(shí)參考圖片之間的關(guān)聯(lián)性。
SSIM評(píng)價(jià)公式為
(6)
式中:x和y分別表示真實(shí)圖片和生成圖片;μ為圖片像素值的平均值;σ為圖片像素值的標(biāo)準(zhǔn)差;C1、C2為常數(shù)。
FID評(píng)價(jià)指標(biāo)公式為
(7)
式中:x和y分別表示真實(shí)圖片和生成圖片;Tr為矩陣的跡;μ表示均值;σ表示方差。
LPIPS評(píng)價(jià)公式為
(8)
式中:x和x0分別為真實(shí)圖片和生成圖片的局部分塊;l是當(dāng)前卷積層的序號(hào);y和y0對(duì)應(yīng)于x和x0經(jīng)過(guò)l層卷積后的結(jié)果;H和W是當(dāng)前第l層特征圖的高度和寬度;ωl是通道激活系數(shù);⊙表示按通道方向的相乘。
SAFE算法的設(shè)計(jì)是基于能量法的空間注意力,對(duì)分割處理關(guān)注空間信息的深度學(xué)習(xí)處理模塊來(lái)說(shuō),具有良好的處理作用。為檢驗(yàn)空間注意力對(duì)系統(tǒng)各模塊的影響,設(shè)計(jì)4組消融實(shí)驗(yàn)來(lái)提供佐證見(jiàn)表1。表1中的序號(hào)表示SAFE要加入網(wǎng)絡(luò)的位置,這里規(guī)定,每次只有1個(gè)位置插入SAFE算法模塊,保證對(duì)比實(shí)驗(yàn)的結(jié)果具有可分析性。其中,位置1對(duì)應(yīng)于分割支路,位置2對(duì)應(yīng)于分割和紋理支路同時(shí)應(yīng)用SAFE算法,位置3是僅對(duì)紋理支路進(jìn)行空間注意力計(jì)算,位置4則是在主干網(wǎng)絡(luò)VGG之后。SAFE消融實(shí)驗(yàn)設(shè)計(jì)示意圖如圖5。4個(gè)不同位置加入SAFE算法的消融實(shí)驗(yàn)對(duì)比圖如圖6。
表1 SAFE消融實(shí)驗(yàn)設(shè)計(jì)一覽表
圖5 SAFE消融實(shí)驗(yàn)設(shè)計(jì)示意圖
圖6 4個(gè)不同位置加入SAFE算法的消融實(shí)驗(yàn)對(duì)比
圖6中,輸入為模特圖片,根據(jù)由OpenPose[8, 12]生成的18點(diǎn)姿態(tài)參考骨架點(diǎn)為參考,合成出新的人物姿態(tài)試穿效果圖片。根據(jù)消融實(shí)驗(yàn)對(duì)比發(fā)現(xiàn),從圖片1和圖片3可以看出,在圖2的位置1加入SAFE算法,相比于其他三個(gè)位置來(lái)說(shuō),模特姿態(tài)及服飾變形的還原程度最好。從圖片4和圖片2中可以看出,位置1的模特人物面部表情相對(duì)較好,與原始輸入圖片的外觀樣貌更加相近。
四個(gè)位置的消融實(shí)驗(yàn)對(duì)結(jié)果的影響見(jiàn)表2。顯而易見(jiàn),SAFE-1的位置1上的效果相對(duì)更好。也同時(shí)跟原有算法比較得到了一定的提高,其中SSIM提高1.08%,FID提高0.5%,LPIPS提高0.2%。
表2 不同位置的消融實(shí)驗(yàn)對(duì)比結(jié)果
SAFE算法虛擬試穿的效果圖如圖7。從圖中看出來(lái)兩組實(shí)驗(yàn)仿真結(jié)果,任務(wù)模特的變換效果雖然整體遷移較為成功,但是,人物臉部和衣服局部細(xì)節(jié)仍舊存在變形問(wèn)題。這也是后續(xù)科研課題中要解決的主要問(wèn)題之一。
圖7 SAFE算法虛擬試穿效果
采用深度學(xué)習(xí)的方式,還原了一種非學(xué)習(xí)的能量法空間位置注意力機(jī)制—SAFE算法網(wǎng)絡(luò)。將其應(yīng)用在主流虛擬試穿網(wǎng)絡(luò)的分割編碼前端,為分割模塊提供有效的空間注意力信息。其結(jié)果不僅從參數(shù)的數(shù)值精度上有所提高,更從可視化角度上明顯感受到空間注意力對(duì)分割編碼的影響。這樣的嘗試,更為今后在服飾生成網(wǎng)絡(luò)的應(yīng)用中,提供研究基礎(chǔ)。分割編碼需要更加精細(xì)的空間注意力,補(bǔ)償模特人物前后姿態(tài)變化和服飾變化的空間變形缺損,進(jìn)一步加強(qiáng)分割的實(shí)現(xiàn)效果,提高整體的虛擬試穿指標(biāo)精度。