摘? 要:針對虛擬試衣中特征提取不足、人物肢體被衣服遮擋的問題,在基于圖像特征保留的虛擬試衣方法基礎上,提出基于并行卷積核的Attention U-Net虛擬試衣方法。該方法采用并行卷積核代替原有的3×3卷積核來提取特征,并在U-Net網(wǎng)絡中融入注意力機制形成新的Attention U-Net圖像合成器,通過不斷調整網(wǎng)絡學習參數(shù),將模型放在數(shù)據(jù)集VITON Dataset上進行虛擬試衣實驗。實驗結果表明,與原方法相比,該方法能提取出更多的細節(jié)紋理,在結構相似性上提升了15.6%,虛擬試衣效果更好。
關鍵詞:虛擬試衣;特征提取;并行卷積核;注意力機制;結構相似性
中圖分類號:TP391.41? ? ?文獻標識碼:A
Research on Attention U-Net Virtual Try-On Method
based on Parallel Convolution Kernel
SHU Xingzhe
Abstract: Virtual try-on has problem of insufficient feature extraction in and people's limbs being covered by clothes. On the basis of the virtual try-on method with image feature retention, this paper proposes an Attention U-Net virtual try-on
method based on parallel convolution kernel. In this method, parallel convolution kernel is used to replace the original 3×3 convolution kernel to extract features, and the attention mechanism is integrated into the u-net network to form a new Attention U-Net image synthesizer. By constantly adjusting the network learning parameters, the model is placed on the data set VITON (Virtual Try-On Network) Dataset for virtual fitting experiment. Experimental results show that compared with the original method, the proposed method can extract more detailed textures, improve the structural similarity by 15.6%, and the virtual fitting effect is better.
Keywords: virtual try-on; feature extraction; parallel convolution kernel; attention mechanism; structural similarity
1? ?引言(Introduction)
隨著網(wǎng)絡的快速發(fā)展,虛擬試衣被應用于越來越多的領域。虛擬試衣的目標是用一件服裝來代替模特身上原有的服裝,合成新的虛擬試衣圖像[1]。目前已有的虛擬試衣技術,如基于圖像特征保留的虛擬試衣網(wǎng)絡(Toward Characteristic-Preserving Image-based Virtual Try-On Network, CP-VTON)的測試結果中存在衣服不夠清晰、人體肢體被衣服遮擋的問題。通過改進,可以使虛擬試衣結果更接近現(xiàn)實,給用戶帶來更真實的虛擬試衣體驗[2]。
一項成熟的虛擬試衣技術需使模特換衣后的身體姿勢[3]及服裝關鍵特征得到良好保留。本文基于CP-VTON虛擬試衣方法,在特征提取階段引入并行卷積核,同時融入注意力機制,生成Attention U-Net圖像合成器用于將變形后的衣服圖像和模特圖像進行融合,生成虛擬試衣結果。實驗結果表明,本文改進后的網(wǎng)絡結構不僅可以改善肢體被衣服遮擋的問題,同時也能得到更逼真、細節(jié)更豐富的虛擬試衣效果[4]。
2? ?相關工作(Related work)
在CP-VTON虛擬試衣實驗中,由于使用的人物數(shù)據(jù)集LIP不夠干凈,存在視覺不佳、有噪聲的人物圖片,導致第一步中服裝基于人體變形模塊的訓練效果不是很理想[5],存在人體肢體被衣服遮擋的情況。為了改進這一缺陷,本文基于端到端的訓練方式進行了改善。一個理想的虛擬試衣結果中,不僅要把指定服裝形狀轉換成模特的體態(tài)形狀,而且要保留衣服的關鍵特征。CP-VTON虛擬試衣方法通過形狀上下文匹配算法處理空間變形,但由于CP-VTON虛擬試衣方法采用了由粗到細的策略,無法良好地保留服裝細節(jié),并且人物肢體會被衣服遮擋,這會對虛擬試衣效果產生一定的影響。本文研究的關鍵問題是:其一,如何在虛擬試衣結果中保留更多的特征細節(jié),并且使得人物肢體被遮擋的情況得到改善;其二,U-Net網(wǎng)絡編解碼器結構偏于簡單,參數(shù)較少,網(wǎng)絡模型深度不足,所以在U-Net網(wǎng)絡結構中融入有效的網(wǎng)絡模型,形成新的編解碼器對于提高網(wǎng)絡模型分割精度十分關鍵。
2.1? ?并行卷積核
本文基于CP-VTON虛擬試衣方法進行改進,目的是在虛擬試衣圖像中良好的保留衣服特征細節(jié)以及模特形態(tài)。本文首先訓練CP-VTON網(wǎng)絡并進行測試,得到第一次虛擬試衣實驗結果。在融入并行卷積核后重新訓練,測試后得到第二次實驗結果。最后在U-Net網(wǎng)絡中融入注意力機制形成Attention U-Net圖像生成器,再次訓練網(wǎng)絡,測試后得到第三次實驗結果。最終將三次實驗結果進行對比。
本文在特征提取階段用一維非對稱卷積核替代了CP-VTON網(wǎng)絡中的3×3方形卷積核,構造出的非對稱卷積網(wǎng)絡可以獲得更高的訓練精度[6]。由于卷積操作的可疊加性,依靠并行卷積核來提高卷積神經(jīng)網(wǎng)絡的性能是可行的。并行卷積核分支在輸出后的求和公式如下:
(1)
式(1)中,作為輸入圖傳進網(wǎng)絡,和是具有兼容尺寸的卷積核,代表在卷積過程的對應位置進行求和操作。式(1)左邊首先將通過卷積核進行卷積操作,然后將再次通過卷積核進行卷積操作,兩者結果進行相加。式(1)右邊和卷積核逐點相加后,再將進行卷積操作,等式兩邊結果是一致的。從式(1)中可知,并行卷積核在卷積神經(jīng)網(wǎng)絡中的使用并不會增加額外的計算量。
大量的實驗已證明,并行卷積核網(wǎng)絡的特征提取能力更強[7],并且在融入卷積神經(jīng)網(wǎng)絡結構后能有效提高網(wǎng)絡模型的性能,這依賴于橫向卷積和縱向卷積可以提升網(wǎng)絡對圖像翻轉的魯棒性。使用并行卷積核提取特征的過程如圖1所示。
CP-VTON原有網(wǎng)絡在特征提取階段使用了3×3卷積核,本文將3×3卷積核拆分成三個并行的3×3、1×3、3×1卷積核進行訓練,最終將這三個卷積層的計算結果進行融合作為卷積層的輸出。
2.2? ?Attention U-Net結構
注意力機制是在計算資源一定的情況下,把有限的計算資源更多地調整分配給相對重要的任務,使得計算機能合理規(guī)劃并且處理大量信息的一種模型。U-Net網(wǎng)絡提取的低層特征中存在較多的冗余信息,注意力機制的融入可以抑制網(wǎng)絡模型學習無關任務,達到抑制冗余信息被激活的目的,同時提高模型學習重要特征的能力。
在虛擬試衣領域,衣服和人物是全局最需要重點關注的區(qū)域,本文引入了注意力機制,可以對衣服和人物部分投入更多的注意力資源,聚焦于更多的細節(jié)信息,降低了對其他信息的關注,使得人物和衣服的特征更清晰地展示出來,提高了虛擬試衣任務的效率和準確性。
本文引入注意力機制的具體操作為加入注意力塊。注意力塊是一種可以自動學習的模型,它可以區(qū)分目標的外形和尺寸,并且可以有效地被整合進標準的卷積神經(jīng)網(wǎng)絡模型中[8]。注意力塊融入卷積神經(jīng)網(wǎng)絡模型后的原理為:注意力權重與特征圖相乘,讓不相關的區(qū)域值變小,從而抑制不相關元素,而相應目標區(qū)域的值會變大。本文采用的注意力塊結構連接在U-Net網(wǎng)絡模型每個跳躍連接階段的末端,使其形成Attention U-Net網(wǎng)絡結構。Attention U-Net整體網(wǎng)絡結構如圖2所示。
在本文提出的Attention U-Net圖形合成器中,輸入圖片的尺寸為256×192,在經(jīng)過一次卷積和最大池化處理后,圖片大小減半為128×96。經(jīng)過三次卷積塊和最大池化的組合后,在網(wǎng)絡最底部得到大小為32×24的特征圖,隨后解碼器通過上采樣將特征圖的大小恢復為256×192。
本文g定義是U-Net網(wǎng)絡中解碼部分的矩陣,xl是編碼部分的矩陣,則本文注意力塊的執(zhí)行步驟為:
步驟一:對g進行1×1卷積操作后,尺寸變?yōu)?×254×64×64;
步驟二:對xl進行1×1卷積操作后,尺寸變?yōu)?×255×64×64;
步驟三:將步驟一和步驟二的結果相加,突出特征;
步驟四:對步驟三的結果進行ReLU激活函數(shù)處理;
步驟五:對步驟四的結果進行卷積操作,從256通道降為1通道,尺寸變?yōu)?×1×64×64;
步驟六:對步驟五的結果進行Sigmoid激活函數(shù)處理,得到注意力權重值;
步驟七:將步驟六的結果與xl相乘,把注意力權重賦到高階特征中。
注意力塊執(zhí)行步驟整體公式如下:
(2)
(3)
式(2)和式(3)中,表示ReLU激活函數(shù),表示Sigmoid激活函數(shù),、、表示卷積操作,、表示對應卷積操作的偏置項。
3? ?實驗(Experiment)
3.1? ?實驗數(shù)據(jù)
本文實驗采用CP-VTON虛擬試衣方法所帶的數(shù)據(jù)集VITON Dataset。該數(shù)據(jù)集包含19,000 個圖像對,每個圖像對都包含一張女性模特圖像和一張該模特身上的服裝圖像。為保證人體圖像的多樣性,該數(shù)據(jù)集中的人物圖像包括模特正面照、側身照和背身照。在移除視覺不佳、存在明顯噪聲的圖像對之后,還剩下16,253 對干凈的圖像,這些圖像被進一步分成14,221 對訓練集和2,032 對驗證集,再將驗證集中的圖像重新排列為不成對的圖像對作為測試集。所有輸入圖像的像素都被調整到256×192,輸出圖像具有相同的分辨率。
3.2? ?實驗網(wǎng)絡結構
本文參考CP-VTON網(wǎng)絡結構,使用深度可分離卷積以及注意力機制模塊搭建構造卷積神經(jīng)網(wǎng)絡,網(wǎng)絡的第一層使用并行卷積核提取選定衣服和人物的特征。實驗整體的網(wǎng)絡結構由兩個模塊組成:
(1)幾何匹配模塊:結合人體特征和衣服圖片,將衣服根據(jù)人體形態(tài)進行TPS薄板樣條變換,生成變形后的衣服圖片。
(2)試穿模塊:綜合人體特征和變形后的衣服圖片,用圖片生成器進行圖片融合,生成虛擬試衣最終效果圖。
人物表示作為網(wǎng)絡的輸入之一,需要包含盡可能多的人物關鍵信息。包含三個部分:(1)多通道的姿態(tài)熱度圖,各通道分別代表人體姿勢及形態(tài)的關鍵點;(2)單通道二值掩碼特征圖,用以表示身體形狀,白色表示人體除臉和頭部外的身體區(qū)域,黑色表示其他區(qū)域;(3)人體頭部區(qū)域的RGB圖像。
本文網(wǎng)絡中的幾何匹配模塊參考CP-VTON網(wǎng)絡進行改進,由四部分組成:
(1)特征提取網(wǎng)絡:它是融入并行卷積核后的特征提取網(wǎng)絡。將CP-VTON網(wǎng)絡中卷積核為3×3的卷積層替換成三個3×3、1×3、3×1的卷積層,三個卷積層的stride都為2,輸出被融合后作為原有卷積層的輸出,在訓練階段強化了網(wǎng)絡的特征提取能力。
(2)匹配層:將和的兩個高維特征組合成單個張量,作為回歸網(wǎng)絡的輸入。
(3)回歸網(wǎng)絡:根據(jù)匹配層輸出來預測空間變換參數(shù)。該部分包含兩個stride為2的卷積層、兩個stride為1的卷積層、一個全連接的輸出層。
(4)TPS薄板樣條變換模塊:根據(jù)第三部分所預測的轉換參數(shù),進行TPS薄板樣條變換,生成變形后的衣服。
幾何匹配模塊使用L1范數(shù)損失函數(shù)進行訓練,其網(wǎng)絡流程圖如圖3所示。
幾何匹配模塊的輸入是人物表示和選定衣服圖片。網(wǎng)絡提取完和的高級特征后,在匹配層將它們組合到一起。幾何匹配模塊的輸出是選定衣服根據(jù)人體形態(tài)變形后的衣服。
本文網(wǎng)絡中的試穿模塊參考CP-VTON網(wǎng)絡進行改進,輸入是給定的人物表示與幾何匹配模塊的結果,輸出是最終的虛擬試衣結果,試穿模塊的網(wǎng)絡流程圖如圖4所示。
在試穿模塊中,人物表示與變形后的衣服作為輸入傳到Attention U-Net圖像合成器中,經(jīng)過編碼和解碼操作得到粗糙的合成圖像,并得到衣服的合成掩膜,然后使用將和融合在一起,得到最終的虛擬試衣結果,具體實現(xiàn)方法參考以下公式:
(4)
式中,為element-wise矩陣乘法,表示相對應的元素逐個相乘。
4? ?實驗結果(Experimental results)
4.1? ?直觀對比
本文實驗采用CP-VTON虛擬試衣方法所帶的數(shù)據(jù)集VITON Dataset。本文將虛擬試衣結果與CP-VTON虛擬試衣結果進行視覺直觀對比,其中Result 1為CP-VTON虛擬試衣結果,Result 2為本文實驗得到的最終虛擬試衣結果,對比結果如圖5所示。
圖5中,第一列為所選模特,第二列為選定衣服。從虛擬試衣對比圖中可以看出,本文方法相較于CP-VTON虛擬試衣方法,細節(jié)還原度更精細,面料感官更逼真,對人體肢體被衣服遮擋的情況也有了一定的改善。
4.2? ?SSIM結構相似性
除了在視覺效果上進行比較,還需要用有效的實驗數(shù)據(jù)對比來評價實驗的好壞。為了使虛擬試衣結果與模特原服裝一致,從而進一步進行結構相似性的定量比較,本文使用模特身上的衣服作為選定換衣圖片重新進行實驗。本文采用了SSIM指標來衡量虛擬試衣效果的好壞。SSIM(Structural Similarity)即結構相似性,它從亮度、對比度、結構三個方面作為兩幅圖像的度量指標,其最大值為1,最小值為0,數(shù)值越高表明兩幅圖像在相似度上越接近[9]。本文實驗中的SSIM值越高,表明虛擬試衣結果質量越好。虛擬試衣結果對比圖如圖6所示。
圖6中,圖片下方的數(shù)字為虛擬試衣結果與原圖的SSIM值,其中第一列為所選模特,第二列為選定衣服,CP-VTON Results為CP-VTON網(wǎng)絡模型訓練后得到的測試結果,Stage 1 Results為在CP-VTON網(wǎng)絡中融入并行卷積核后訓練得到的測試結果,Stage 2 Results為進一步融入Attention注意力機制形成Attention U-Net圖像合成器后訓練得到的測試結果,三次實驗的訓練集以及測試集保持一致。從圖6中最右側選取的放大細節(jié)可以看出,本文方法在人物和衣服的特征提取上有了一定提升。同一數(shù)據(jù)集下,2,032 張測試圖與原圖的SSIM平均值結果如表1所示。
從表1中可以計算出,在SSIM數(shù)據(jù)上,Stage 1相較于CP-VTON虛擬試衣方法提升了12.6%,而Stage 2相較于Stage 1進一步提升了2.7%。實驗結果對比表明,本文方法的效果相比于CP-VTON有了明顯提升,并且融入兩個點后的虛擬試衣效果也好于一個點。
綜上,本文方法在保留衣服的關鍵特征和身體部位信息方面表現(xiàn)得更好,同時在量化指標上體現(xiàn)了在虛擬試衣技術上的進步。
5? ?結論(Conclusion)
本文提出了一種使用并行卷積核提取特征,以及在U-Net網(wǎng)絡中融入注意力機制,用新的圖像合成器合成虛擬試衣圖像的方法。用并行卷積核代替原有的卷積核,可以使衣服和人像的特征提取網(wǎng)絡訓練到更高的精度,形成更逼真、細節(jié)更豐富的虛擬試衣圖像。在網(wǎng)絡模型中融入注意力機制,可以在衣服和人像中提取出更多的細節(jié)信息,提升虛擬試衣效果。實驗結果表明,相比于CP-VTON虛擬試衣方法,本文方法在視覺質量、定量分析方面有了一定的提升,較好地解決了虛擬試衣服裝細節(jié)保留不夠、肢體被衣服遮擋的問題。
后續(xù)工作中,我們將繼續(xù)優(yōu)化虛擬試衣網(wǎng)絡模型,擴大虛擬試衣圖像樣本庫,尋求進一步提升虛擬試衣效果的方法。
參考文獻(References)
[1] 張淑芳,王沁宇.基于生成對抗網(wǎng)絡的虛擬試穿方法[J].天津大學學報(自然科學與工程技術版),2021,54(9):925-933.
[2] LEE W. Development of a virtual fit analysis method for an ergonomic design of pilot oxygen mask[J]. Applied Sciences, 2021, 11(12):5332.
[3] 陳華麗,吳世剛.基于虛擬現(xiàn)實技術的中國近代旗袍變遷的研究[J].遼寧絲綢,2021(2):35-36.
[4] 徐俊,普園媛,徐丹,等.基于款式變換和局部渲染相結合的虛擬試衣研究[J].太原理工大學學報,2021,52(1):98-104.
[5] 王成偉.形狀可調的三次三角樣條插值曲線及其在服裝造型中的應用[J].北京服裝學院學報(自然科學版),2020,40(4):
30-34.
[6] 袁帥,王康,單義,等.基于多分支并行空洞卷積的多尺度目標檢測算法[J].計算機輔助設計與圖形學學報,2021,33(6):
864-872.
[7] 歐陽羲同.橫向反卷積在超聲檢測中的應用[J].東南大學學報,1989,19(2):89-94.
[8] 梁斌,劉全,徐進,等.基于多注意力卷積神經(jīng)網(wǎng)絡的特定目標情感分析[J].計算機研究與發(fā)展,2017,54(8):1724-1735.
[9] 楊達,狄嵐,趙樹志,等.基于結構相似性與模板校正的織物瑕疵檢測方法[J].智能系統(tǒng)學報,2020,15(3):475-483.
作者簡介:
舒幸哲(1997-),男,碩士生.研究領域:圖像處理.