夏明桂 田入君 姜會(huì)鈺 董敏
摘 要:傳統(tǒng)的服裝圖像風(fēng)格識(shí)別方法主要依賴于成功提取有效特征,這些方法在處理圖像時(shí)不僅會(huì)消耗大 量的時(shí)間和精力,識(shí)別精度也較低。為了提高服裝圖像風(fēng)格識(shí)別的性能,提出了一種基于改進(jìn)的ResNet152 網(wǎng)絡(luò)和遷移學(xué)習(xí)的服裝圖像風(fēng)格識(shí)別方法。首先將ResNet152網(wǎng)絡(luò)首層結(jié)構(gòu)中的7×7卷積核替換成3個(gè)3 ×3卷積核組合層,其次把原始?xì)埐顔卧械摹熬矸e層(Conv)+批歸一化層(BN)+非線性激活函數(shù)層(Relu)”的組合方式換成“批歸一化層(BN)+非線性激活函數(shù)層(Relu)+卷積層(Conv)”的組合方式。這兩個(gè)改進(jìn)方 法有效地提升了網(wǎng)絡(luò)性能,使其能夠更好地捕捉不同尺度的服裝風(fēng)格特征。然后把在ImageNet數(shù)據(jù)集上訓(xùn) 練好的ResNet152網(wǎng)絡(luò)模型參數(shù)遷移到改進(jìn)的網(wǎng)絡(luò)中,在此基礎(chǔ)上,將女童服裝數(shù)據(jù)集輸入到網(wǎng)絡(luò)中進(jìn)行訓(xùn) 練驗(yàn)證以及微調(diào)網(wǎng)絡(luò)參數(shù)。結(jié)果表明,所提出的方法風(fēng)格識(shí)別準(zhǔn)確率達(dá)到了94.2%,訓(xùn)練效果好,識(shí)別精度、收斂速度等均優(yōu)于其他風(fēng)格識(shí)別網(wǎng)絡(luò),可以更好的完成女童服裝風(fēng)格識(shí)別任務(wù)。
關(guān)鍵詞:ResNet網(wǎng)絡(luò);遷移學(xué)習(xí);服裝圖像;服裝風(fēng)格識(shí)別;識(shí)別準(zhǔn)確率
中圖分類號(hào):TS195.644? 文獻(xiàn)標(biāo)志碼:A? 文章編號(hào):2097-2911-(2024)01-0012-09
Research on Clothing image Style Recognition Based on Improved ResNet Network and Transfer Learning
XIA Minggui a, TIAN Rujun a, JIANG Huiyu a, DONG Min b*
(a.College of Chemistry and Chemical Engineering; b.College of Mathematical Sciences, Wuhan Textile University,Wuhan 430200,China)
Abstract:Traditional clothing image style recognition methods mainly rely on the successful extraction of ef- fective features, and these methods not only consume a lot of time and energy when processing images, but also have low recognition accuracy. In order to improve the performance of clothing imagestyle recognition, this pa- per proposes a clothing image style recognition method based on the improved ResNet152 network and transfer learning. Firstly, the 7×7 convolutional kernel in the first layer structure of ResNet152 network is replaced by three 3×3 convolutional kernel combination layers, and secondly, the combination of "convolutional layer (Conv)+ batch normalization layer (BN)+ nonlinear activation function layer (Relu)" in the original residual unit is replaced by "batch normalization layer (BN)+ nonlinear activation function layer (Relu)+ convolutional layer (Conv)". These two improved methods effectively enhance the network performance and enable it to better capture clothing style features at different scales. The parameters of the ResNet152 network model trained on the ImageNet dataset are then migrated to the improved network, based on which the girl's clothing dataset is in- put to the network for training and validation as well as fine-tuning the network parameters. The results show that the proposed method in this paper has good training effect, and the recognition accuracy and convergence speed are better than other type recognition networks, which can better accomplish the task of girls' clothing style recognition.
Keywords:resNet network;transfer learning;clothing images;clothing style recognition;recognition accuracy
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展和服裝類電子商務(wù)的日趨成熟,通過(guò)網(wǎng)絡(luò)在各大電商平臺(tái)購(gòu)買服裝的用戶越來(lái)越多,人們對(duì)服裝圖像識(shí)別技術(shù)的進(jìn)步寄予了更高的期望。然而,服裝圖像風(fēng)格識(shí)別技術(shù)面臨著多種挑戰(zhàn),其中包括服裝圖像的細(xì)粒度識(shí)別分類復(fù)雜性[1]、服裝個(gè)性化的風(fēng)格評(píng)判標(biāo)準(zhǔn)以及迅速演化的時(shí)尚風(fēng)格特征[2]等,這些因素共同使得服裝圖像風(fēng)格識(shí)別問(wèn)題愈發(fā)復(fù)雜化。因此,如何高效地實(shí)現(xiàn)服裝圖像風(fēng)格識(shí)別成為當(dāng)前服裝數(shù)字化研究的熱點(diǎn)。
傳統(tǒng)的服裝圖像風(fēng)格識(shí)別方法主要依賴于有效特征的提取,如 CHAO等[3]將服裝圖像的風(fēng)格使用方向梯度直方圖和局部二值模式等特征來(lái)描述,然后通過(guò)測(cè)量這些特征之間的相似性來(lái)實(shí)現(xiàn)服裝風(fēng)格的推薦。莊立鋒等[4]提出采用改進(jìn)后的Canny算法來(lái)進(jìn)行服裝款式結(jié)構(gòu)特征的識(shí)別和分類,能夠很好地識(shí)別服裝結(jié)構(gòu)款式。高妍等[5]使用改進(jìn)框架HSR-FCN將R-FCN中的區(qū)域建議網(wǎng)絡(luò)和HyperNet網(wǎng)絡(luò)相融合,改變圖片特征學(xué)習(xí)方式,在模型中引入空間轉(zhuǎn)換網(wǎng)絡(luò),對(duì)輸入圖像和特征圖進(jìn)行空間變換及對(duì)齊,加強(qiáng)了對(duì)多角度服裝和形變服裝的特征學(xué)習(xí),能夠有效地解決形變服裝圖像的識(shí)別問(wèn)題。然而,這些傳統(tǒng)服裝圖像風(fēng)格識(shí)別方法在準(zhǔn)確性和處理效率方面都存在不足,而且對(duì)于小樣本數(shù)據(jù)集來(lái)說(shuō)并不適用。
近年來(lái),許多學(xué)者開始利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像識(shí)別[6]。深度神經(jīng)網(wǎng)絡(luò)能夠自動(dòng)學(xué)習(xí)和提取圖像中的特征,并且無(wú)需手動(dòng)設(shè)計(jì)特征描述子,這使其成為許多圖像識(shí)別任務(wù)的首選方法。KO- ZIARSKI等[7]提出了用深度神經(jīng)網(wǎng)絡(luò)來(lái)解釋各種類型噪聲的存在對(duì)圖像識(shí)別任務(wù)的影響,在網(wǎng)絡(luò)中引入噪聲的類型以及嚴(yán)重程度這兩種方法都比不考慮噪聲的情況下圖像識(shí)別性能好。SHU- BATHRA等[8]提出了用MLP、CNN、ELM這三種方法通過(guò)提取多種特征來(lái)識(shí)別服裝圖像,相對(duì)于其他兩種方法,ELM方法識(shí)別的性能最優(yōu),服裝圖像識(shí)別時(shí)間短且準(zhǔn)確率高。在此基礎(chǔ)上,結(jié)合深度神經(jīng)網(wǎng)絡(luò)和遷移學(xué)習(xí)在圖像識(shí)別領(lǐng)域的應(yīng)用也取得了較好的效果。王軍敏等[9]提出一種基于深度卷積神經(jīng)網(wǎng)絡(luò)和遷移學(xué)習(xí)的紋理圖像識(shí)別方法,使用全局平均池化層替代深度卷積神經(jīng)網(wǎng)絡(luò)模型頂部的部分全連接層,用逐級(jí)微調(diào)的方法來(lái)處理遷移學(xué)習(xí)模型,確定最佳的凍結(jié)層以及可調(diào)整層的組合,以達(dá)到最佳的紋理服裝圖像識(shí)別精度。ELLEUCH等[10]使用Inception-v3網(wǎng)絡(luò)在大型數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,把得到的預(yù)訓(xùn)練模型參數(shù)遷移到所設(shè)計(jì)的網(wǎng)絡(luò)中,用創(chuàng)建的13種風(fēng)格類別的80000張圖像數(shù)據(jù)集在所設(shè)計(jì)的網(wǎng)絡(luò)上進(jìn)行訓(xùn)練驗(yàn)證,其訓(xùn)練速度加快且圖像識(shí)別準(zhǔn)確率進(jìn)一步提高,證明了此方法對(duì)服裝圖像識(shí)別的有效性。
現(xiàn)有的研究主要集中在從服裝圖像中提取基礎(chǔ)特征,這些特征用于對(duì)服裝進(jìn)行粗略的識(shí)別分類,但識(shí)別服裝風(fēng)格的細(xì)微差異需要更加具體和詳細(xì)的特征,提取的基礎(chǔ)特征達(dá)不到風(fēng)格識(shí)別的要求。LIN等[11]提出了雙線性CNN模型,此模型使用兩個(gè)并行的網(wǎng)絡(luò)通路來(lái)提取圖像特征,然后采用雙線性池化方法來(lái)計(jì)算這兩個(gè)并行特征之間的相關(guān)性,這個(gè)過(guò)程用于篩選細(xì)粒度子類的特征,使其充分挖掘細(xì)粒度特征。但雙線性 CNN模型采用了兩個(gè)并行的網(wǎng)絡(luò)路徑來(lái)提取特征,導(dǎo)致了參數(shù)量和計(jì)算量的成倍增加,訓(xùn)練時(shí)間和計(jì)算資源的消耗相應(yīng)增加。
基于上述存在的問(wèn)題,本文提出了一種基于改進(jìn)的ResNet152網(wǎng)絡(luò)和遷移學(xué)習(xí)的服裝圖像風(fēng)格識(shí)別方法。對(duì)在ImageNet數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的 ResNet 152網(wǎng)絡(luò),采用共享模型參數(shù)的遷移學(xué)習(xí)方法,把預(yù)訓(xùn)練模型參數(shù)遷移到所改進(jìn)的ResNet152網(wǎng)絡(luò)中,在此基礎(chǔ)上,將收集的女童服裝數(shù)據(jù)集輸入到網(wǎng)絡(luò)中進(jìn)行訓(xùn)練和驗(yàn)證,得到新的網(wǎng)絡(luò)模型,達(dá)到提升女童服裝圖像風(fēng)格識(shí)別準(zhǔn)確率的目的。
1 改進(jìn) ResNet152網(wǎng)絡(luò)的服裝風(fēng)格識(shí)別模型
1.1 ResNet152網(wǎng)絡(luò)
服裝圖像風(fēng)格識(shí)別不僅需要考慮服裝本身的顏色、紋理等基礎(chǔ)特征信息,還需要考慮服裝款式等細(xì)粒度特征信息。豐富的服裝風(fēng)格特征信息可以顯著的提高識(shí)別準(zhǔn)確率。為了獲得豐富的特征信息,可以通過(guò)加深網(wǎng)絡(luò)來(lái)解決。相比于 AlexNet、VGG、GoogleNet 等網(wǎng)絡(luò),ResNet 網(wǎng)絡(luò)由于引入了殘差塊,允許網(wǎng)絡(luò)學(xué)習(xí)殘差,使其可以更有效地學(xué)習(xí)到特征信息,同時(shí)殘差塊結(jié)構(gòu)通過(guò)跳躍連接將輸入直接添加到層輸出上,梯度可以輕松地傳播回較淺層,減輕了梯度消失問(wèn)題,也有助于防止網(wǎng)絡(luò)的退化。因此ResNet可以更輕松地訓(xùn)練非常深的神經(jīng)網(wǎng)絡(luò),而不會(huì)出現(xiàn)梯度消失、退化等問(wèn)題。殘差塊結(jié)構(gòu)如圖1所示。
由于網(wǎng)絡(luò)層數(shù)的不同,ResNet 網(wǎng)絡(luò)包括 ResNet18、 ResNet34、 ResNet50、 ResNet101、ResNet152等,ResNet18和 ResNet34采用了 Ba-sicBlock 結(jié)構(gòu),ResNet50、ResNet101 以及 ResNet152采用了Bottleneck結(jié)構(gòu)。為了處理復(fù)雜的服裝圖像風(fēng)格識(shí)別任務(wù),提取到更深層次的風(fēng)格特征,本文選用ResNet152網(wǎng)絡(luò)搭建模型,其結(jié)構(gòu)如圖2所示,總層數(shù)是152層,包括1個(gè)7×7的卷積層、階段1至階段4的Bottleneck結(jié)構(gòu)、具有平均池化和softmax函數(shù)的全連接層。其中階段1至階段4中的階段1有3個(gè)殘差塊,階段2有8個(gè)殘差塊,階段3有36個(gè)殘差塊,階段4有3個(gè)殘差塊,每個(gè)殘差塊包含3個(gè)卷積層。
1.2 改進(jìn)的ResNet152網(wǎng)絡(luò)
1.2.1 改進(jìn)網(wǎng)絡(luò)首層結(jié)構(gòu)
提高服裝圖像風(fēng)格識(shí)別準(zhǔn)確率,需要網(wǎng)絡(luò)提取出更加細(xì)粒度的風(fēng)格特征。為了實(shí)現(xiàn)這一目標(biāo),本文提出了一種將網(wǎng)絡(luò)首層結(jié)構(gòu)進(jìn)行改進(jìn)的方法。即在輸入服裝圖像上提取風(fēng)格特征的7×7卷積核用3個(gè)3×3的卷積核組合層來(lái)替代,保持卷積操作中的步幅(stride)和填充(padding)設(shè)置相同。網(wǎng)絡(luò)首層結(jié)構(gòu)改進(jìn)前后如圖3所示。
使用3個(gè)3×3的卷積核組合層來(lái)替代1個(gè)7×7卷積核可以保持網(wǎng)絡(luò)中感受野和輸出特征圖大小不變。感受野是神經(jīng)網(wǎng)絡(luò)中某一層輸出的特征圖上的一個(gè)單元對(duì)輸入的影響區(qū)域。其計(jì)算公式如(1)所示:
F(i)=(F(i +1)-1)× Stride + Ksize (1)
式中,F(xiàn)(i +1)表示第 i +1層的感受野,F(xiàn)(i)表示第 i 層的感受野,Stride 表示步長(zhǎng),Ksize 表示卷積核的大小。實(shí)驗(yàn)中設(shè)置 F(i +1)初始值為2,Stride 初始值為1。網(wǎng)絡(luò)的第1層經(jīng)過(guò)7×7卷積核,根據(jù)公式(1)可知: F(1)=(2-1)×1+7=8;
網(wǎng)絡(luò)的第1層經(jīng)過(guò)3個(gè)3×3的卷積核組合層,根據(jù)公式(1)可知:
F(1)=(2-1)×1+3=4
F(2)=(4-1)×1+3=6
F(3)=(6-1)×1+3=8
因此可知,使用3個(gè)3×3的卷積核組合層來(lái)替代1個(gè)7×7卷積核可以保持感受野大小不變,并且3個(gè)3×3卷積核的層次結(jié)構(gòu)可以增加網(wǎng)絡(luò)的深度,捕捉到多種尺度的風(fēng)格特征,引入更多的非線性,減少過(guò)擬合,提升了網(wǎng)絡(luò)的性能。
1.2.2 改進(jìn)殘差單元
ResNet殘差網(wǎng)絡(luò)由多個(gè)殘差學(xué)習(xí)單元疊加而成。當(dāng)輸入的服裝圖像數(shù)據(jù)進(jìn)入ResNet殘差網(wǎng)絡(luò)時(shí),需要經(jīng)過(guò)一系列處理。首先卷積層(Conv)對(duì)輸入服裝圖像進(jìn)行特征提取,接著通過(guò)非線性激活函數(shù)層(Relu)增強(qiáng)網(wǎng)絡(luò)的非線性擬合能力,并經(jīng)過(guò)批歸一化層(BN)對(duì)數(shù)據(jù)進(jìn)行歸一化處理。然后,處理的結(jié)果被送入多個(gè)殘差單元,這些單元通過(guò)批歸一化層(BN)和多個(gè)全連接層進(jìn)一步處理數(shù)據(jù),最后得到輸出的服裝圖像。
在深層網(wǎng)絡(luò)中,原始?xì)埐顔卧赡軙?huì)遇到梯度消失或梯度爆炸的問(wèn)題。為了解決潛在的問(wèn)題,本文提出了將殘差單元的組合方式進(jìn)行變化的方法。即“卷積層(Conv)+批歸一化層(BN)+非線性激活函數(shù)層(Relu)”的組合方式換成“批歸一化層(BN)+非線性激活函數(shù)層(Relu)+卷積層(Conv)”的組合方式。組合方式的變化引入了預(yù)激活(pre-activation)結(jié)構(gòu),它通過(guò)將BN層放在非線性支路的開始,有助于規(guī)范化激活值,使它們?cè)诤侠矸秶鷥?nèi)減少了梯度消失問(wèn)題,使網(wǎng)絡(luò)更容易訓(xùn)練。殘差單元改進(jìn)前后如圖4所示。
1.2.3 不同網(wǎng)絡(luò)改進(jìn)方法的服裝風(fēng)格識(shí)別效果對(duì)比
為了證明ResNet152不同網(wǎng)絡(luò)改進(jìn)方法對(duì)服裝風(fēng)格識(shí)別效果的影響,把在ImageNet數(shù)據(jù)集上訓(xùn)練好的ResNet152網(wǎng)絡(luò)模型參數(shù)遷移至改進(jìn)的網(wǎng)絡(luò)中,將本文收集的女童服裝數(shù)據(jù)集分別輸入到不同的改進(jìn)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,得到不同網(wǎng)絡(luò)改進(jìn)方法的風(fēng)格識(shí)別準(zhǔn)確率如表1所示。
從表1可知,將改進(jìn)網(wǎng)絡(luò)首層結(jié)構(gòu)方法和改進(jìn)殘差單元方法相結(jié)合,這時(shí)網(wǎng)絡(luò)對(duì)女童服裝數(shù)據(jù)集的風(fēng)格識(shí)別準(zhǔn)確率達(dá)到最高,為94.2%。因此,本文采用兩種改進(jìn)方法相結(jié)合的網(wǎng)絡(luò)進(jìn)行服裝風(fēng)格識(shí)別。
2 實(shí)驗(yàn)
2.1 實(shí)驗(yàn)前處理
2.1.1 遷移學(xué)習(xí)
遷移學(xué)習(xí)是指將模型在某些任務(wù)或領(lǐng)域中學(xué)習(xí)到的知識(shí)通過(guò)源域?qū)W習(xí)的遷移運(yùn)用到目標(biāo)任務(wù)或目標(biāo)領(lǐng)域中[12-16],它可以有效地解決由于數(shù)據(jù)集稀缺而導(dǎo)致模型出現(xiàn)過(guò)擬合的問(wèn)題。遷移學(xué)習(xí)方法可以分為多種類型,包括基于共享模型參數(shù)的遷移、基于特征的遷移、基于樣本數(shù)據(jù)的遷移等。這些遷移學(xué)習(xí)方法允許在不同任務(wù)之間有效地利用已有的知識(shí)和技能,提高網(wǎng)絡(luò)的性能和泛化能力。其中,基于共享模型參數(shù)的遷移學(xué)習(xí)方法的工作原理是結(jié)合遷移學(xué)習(xí)和深度學(xué)習(xí),在 ImageNet 數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的 ResNet 網(wǎng)絡(luò),采用共享模型參數(shù)的遷移學(xué)習(xí)方法,把預(yù)訓(xùn)練模型參數(shù)遷移到所改進(jìn)的網(wǎng)絡(luò)中,進(jìn)一步優(yōu)化網(wǎng)絡(luò)參數(shù)。在此基礎(chǔ)上,使用女童服裝數(shù)據(jù)集在網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,完成女童服裝圖像風(fēng)格識(shí)別的任務(wù)。因此,本文選用基于共享模型參數(shù)的遷移學(xué)習(xí)方法。
2.1.2 數(shù)據(jù)集
本文所使用的女童服裝圖像數(shù)據(jù)集來(lái)自各大電商平臺(tái),由于女童服裝風(fēng)格的多樣性,通過(guò)專家建議和查詢相關(guān)資料,本文選用4個(gè)最具代表性的女童服裝風(fēng)格類型,分別為可愛(ài)風(fēng)格、運(yùn)動(dòng)風(fēng)格、學(xué)院風(fēng)格、民族風(fēng)格,每種風(fēng)格包含300張圖片,共1200張女童服裝圖片。其中80%圖片作為訓(xùn)練集,用于訓(xùn)練網(wǎng)絡(luò)模型和調(diào)整模型參數(shù);20%圖片作為驗(yàn)證集,用于驗(yàn)證網(wǎng)絡(luò)模型的訓(xùn)練效果以及微調(diào)模型參數(shù)。在數(shù)據(jù)集標(biāo)注的過(guò)程中,只需要將女童服裝圖像放到相應(yīng)風(fēng)格分類的文件夾里,不需要進(jìn)行額外標(biāo)注。數(shù)據(jù)集部分圖像如圖5所示,數(shù)據(jù)集中呈現(xiàn)了女童服裝風(fēng)格的多樣化。同時(shí),由于數(shù)據(jù)集中服裝的拍攝角度、光照、褶皺、背景等因素的干擾,在一定程度上增加了女童服裝圖像風(fēng)格識(shí)別的難度。
2.1.3 數(shù)據(jù)預(yù)處理與增強(qiáng)
數(shù)據(jù)集中服裝拍攝角度、光照等方面的變化會(huì)引入噪聲和差異,從而增加了網(wǎng)絡(luò)對(duì)女童服裝圖像風(fēng)格識(shí)別任務(wù)的復(fù)雜度。為了應(yīng)對(duì)這一挑戰(zhàn),可以采用數(shù)據(jù)預(yù)處理與增強(qiáng)技術(shù)來(lái)規(guī)范數(shù)據(jù)集,以降低這一因素的影響。
數(shù)據(jù)預(yù)處理[17-18]是指對(duì)原始數(shù)據(jù)進(jìn)行一系列的操作和轉(zhuǎn)換,以確保數(shù)據(jù)適用于模型的訓(xùn)練、驗(yàn)證。本文所使用的數(shù)據(jù)預(yù)處理方法是標(biāo)準(zhǔn)化(Normalize)和 ToTensor 。其中標(biāo)準(zhǔn)化是將數(shù)據(jù)調(diào)整為均值為0,標(biāo)準(zhǔn)差為1的分布,從而使數(shù)據(jù)在訓(xùn)練過(guò)程中更具穩(wěn)定性。ToTensor 是將服裝圖像JPG格式轉(zhuǎn)換為張量(tensor)格式的操作,以供后續(xù)的網(wǎng)絡(luò)模型訓(xùn)練使用。
數(shù)據(jù)增強(qiáng)[19-20]是指在深度學(xué)習(xí)中使用一系列技術(shù)手段來(lái)增加數(shù)據(jù)集的大小和多樣性,以改善模型的泛化能力。本文所使用的數(shù)據(jù)增強(qiáng)方法是隨機(jī)縮放裁剪(RandomResizedCrop)和隨機(jī)水平翻轉(zhuǎn)(RandomHorizontalFlip)。其中隨機(jī)縮放裁剪是在原始圖像中隨機(jī)選擇區(qū)域,將該區(qū)域裁剪成指定的大小,將裁剪后的圖像縮放到模型的輸入尺寸。隨機(jī)水平翻轉(zhuǎn)是將圖像以一定的概率水平翻轉(zhuǎn),從而生成新的訓(xùn)練樣本。這兩種操作增加了數(shù)據(jù)的多樣性,提高了模型的泛化能力。
2.2 實(shí)驗(yàn)和方法
2.2.1 實(shí)驗(yàn)環(huán)境
本文采用的實(shí)驗(yàn)環(huán)境為Windows 11操作系統(tǒng),AMD R76800H 處理器,16GB 內(nèi)存,512GB 固態(tài)硬盤,采用Pytorch深度學(xué)習(xí)框架進(jìn)行訓(xùn)練,訓(xùn)練后得到的識(shí)別準(zhǔn)確率和損失函數(shù),通過(guò)采用 Python的Matplotlib庫(kù)可視化得到。
2.2.2 實(shí)驗(yàn)設(shè)置
本文設(shè)置一個(gè)對(duì)比實(shí)驗(yàn),使用女童服裝訓(xùn)練集分別對(duì)未使用遷移學(xué)習(xí)的ResNet152網(wǎng)絡(luò)、未使用遷移學(xué)習(xí)的改進(jìn)ResNet152網(wǎng)絡(luò)、使用遷移學(xué)習(xí)的 ResNet152網(wǎng)絡(luò)、使用遷移學(xué)習(xí)的改進(jìn)ResNet152網(wǎng)絡(luò)進(jìn)行訓(xùn)練。訓(xùn)練完成后,為了驗(yàn)證遷移學(xué)習(xí)方法和改進(jìn)網(wǎng)絡(luò)對(duì)女童服裝圖像風(fēng)格識(shí)別的影響,每迭代5次記錄一次使用遷移學(xué)習(xí)和未使用遷移學(xué)習(xí)的 ResNet152和改進(jìn)ResNet152識(shí)別準(zhǔn)確率(val)和損失函數(shù)(loss)。設(shè)置網(wǎng)絡(luò)模型學(xué)習(xí)率(lr)為0.0001、批大小(batch_size)為16,迭代總次數(shù)(epoch)為80次,預(yù)訓(xùn)練模型版本為resnet152-394f9c45.pth。
2.2.3 基于改進(jìn)網(wǎng)絡(luò)和遷移學(xué)習(xí)的服裝圖像風(fēng)格識(shí)別
本文提出了一種基于改進(jìn)ResNet152網(wǎng)絡(luò)和遷移學(xué)習(xí)的服裝圖像風(fēng)格識(shí)別方法,把ImageNet 圖像數(shù)據(jù)集上輸入至初始ResNet152網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,得到預(yù)訓(xùn)練模型。在此基礎(chǔ)上,采用共享模型參數(shù)的遷移方法,把預(yù)訓(xùn)練模型參數(shù)遷移到本文所改進(jìn)的ResNet152網(wǎng)絡(luò)模型中,進(jìn)一步優(yōu)化網(wǎng)絡(luò)參數(shù)。在女童服裝圖像數(shù)據(jù)集輸入網(wǎng)絡(luò)之前,由于數(shù)據(jù)集中服裝拍攝角度、光照等因素的干擾,本文采用了數(shù)據(jù)預(yù)處理與增強(qiáng)技術(shù)來(lái)規(guī)范數(shù)據(jù)集,最后把數(shù)據(jù)集輸入網(wǎng)絡(luò)進(jìn)行訓(xùn)練以及驗(yàn)證,完成女童服裝圖像風(fēng)格識(shí)別的任務(wù)。上述過(guò)程如圖6所示。
3 結(jié)果與分析
女童服裝圖像訓(xùn)練集分別輸入至未使用遷移學(xué)習(xí)的ResNet152網(wǎng)絡(luò)、未使用遷移學(xué)習(xí)的改進(jìn) ResNet152網(wǎng)絡(luò)、使用遷移學(xué)習(xí)的 ResNet152網(wǎng)絡(luò)以及本文所提出的使用遷移學(xué)習(xí)的改進(jìn) ResNet152網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,得到相應(yīng)的損失函數(shù)(loss)。訓(xùn)練完成后,將其驗(yàn)證集分別輸入至上述四種網(wǎng)絡(luò)中進(jìn)行風(fēng)格識(shí)別,得到相應(yīng)的風(fēng)格識(shí)別準(zhǔn)確率(val)。
圖7(a)、(b)、(c)、(d)分別展示了四種網(wǎng)絡(luò)在同一女童服裝數(shù)據(jù)集上得到的風(fēng)格識(shí)別準(zhǔn)確率(val)和損失函數(shù)(loss)。
圖7(a)展示了未使用遷移學(xué)習(xí)的ResNet152網(wǎng)絡(luò)在女童服裝數(shù)據(jù)集上訓(xùn)練得到的損失函數(shù)和識(shí)別準(zhǔn)確率,從曲線圖看出此網(wǎng)絡(luò)在小樣本數(shù)據(jù)集上訓(xùn)練時(shí),服裝風(fēng)格識(shí)別準(zhǔn)確率低和損失函數(shù)高,網(wǎng)絡(luò)模型共迭代80次,其中迭代至第68次時(shí)準(zhǔn)確率最高,只達(dá)到65.0%,相應(yīng)的損失函數(shù)為0.927。在此基礎(chǔ)上可知初始ResNet152網(wǎng)絡(luò)訓(xùn)練效果差,損失函數(shù)和識(shí)別準(zhǔn)確率波動(dòng)較大,模型可能發(fā)生了過(guò)擬合。
圖7(b)展示了未使用遷移學(xué)習(xí)的改進(jìn) ResNet152網(wǎng)絡(luò)在女童服裝數(shù)據(jù)集上訓(xùn)練得到的損失函數(shù)和識(shí)別準(zhǔn)確率,從曲線圖看出此網(wǎng)絡(luò)在小樣本數(shù)據(jù)集上訓(xùn)練時(shí),迭代至第40次時(shí)準(zhǔn)確率最高,達(dá)到了85.9%,相應(yīng)的損失函數(shù)為0.258。對(duì)比未使用遷移學(xué)習(xí)的 ResNet152網(wǎng)絡(luò),識(shí)別準(zhǔn)確率提升了20.9%。通過(guò)改進(jìn)網(wǎng)絡(luò)首層的卷積核大小和調(diào)整殘差單元中“卷積層(Conv)+批歸一化層(BN)+非線性激活函數(shù)層(Relu)”排列順序來(lái)改進(jìn)網(wǎng)絡(luò),使得其風(fēng)格識(shí)別準(zhǔn)確率大幅度提高,網(wǎng)絡(luò)性能得到了提升。
圖7(c)展示了使用遷移學(xué)習(xí)的ResNet152網(wǎng)絡(luò)在女童服裝數(shù)據(jù)集上訓(xùn)練得到的損失函數(shù)和識(shí)別準(zhǔn)確率,從曲線圖看出此網(wǎng)絡(luò)在小樣本數(shù)據(jù)集上訓(xùn)練時(shí),迭代至第68次時(shí)準(zhǔn)確率最高,達(dá)到了92.9%,相應(yīng)的損失函數(shù)為0.134。對(duì)比未使用遷移學(xué)習(xí)的ResNet152網(wǎng)絡(luò),識(shí)別準(zhǔn)確率提升了27.9%。將在 ImageNet圖像數(shù)據(jù)集訓(xùn)練好的模型,通過(guò)遷移其模型參數(shù)至ResNet152網(wǎng)絡(luò)中,使得網(wǎng)絡(luò)減少了計(jì)算資源的消耗,還大幅提高了風(fēng)格識(shí)別準(zhǔn)確率。
圖7(d)展示了使用遷移學(xué)習(xí)的改進(jìn) ResNet152網(wǎng)絡(luò)在女童服裝數(shù)據(jù)集上訓(xùn)練得到的損失函數(shù)和識(shí)別準(zhǔn)確率,從曲線圖看出此網(wǎng)絡(luò)在小樣本數(shù)據(jù)集上訓(xùn)練時(shí),迭代至第66次時(shí)準(zhǔn)確率最高,達(dá)到了94.2%,相應(yīng)的損失函數(shù)為0.093。與未使用遷移學(xué)習(xí)的 ResNet152網(wǎng)絡(luò)、未使用遷移學(xué)習(xí)的改進(jìn) ResNet152網(wǎng)絡(luò)以及使用遷移學(xué)習(xí)的 ResNet152網(wǎng)絡(luò)識(shí)別準(zhǔn)確率相比,使用遷移學(xué)習(xí)的改進(jìn) ResNet152網(wǎng)絡(luò)在女童服裝數(shù)據(jù)集中風(fēng)格識(shí)別效果最好,識(shí)別準(zhǔn)確率分別提高了29.2%,8.3%,1.3%。這表明本文所提出的方法在女童服裝風(fēng)格識(shí)別任務(wù)中的高效性。
4 結(jié)論
本文提出了一種基于改進(jìn)的ResNet152網(wǎng)絡(luò)和遷移學(xué)習(xí)的服裝圖像風(fēng)格識(shí)別方法。對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了改進(jìn),首先用3個(gè)3×3的卷積核組合層來(lái)代替首層結(jié)構(gòu)的7×7卷積核,在此基礎(chǔ)上,把網(wǎng)絡(luò)殘差單元中的卷積層、批歸一化層、非線性激活函數(shù)層的排列順序進(jìn)行改變。這兩種改進(jìn)方法能捕捉到多種尺度的風(fēng)格特征。然后用共享參數(shù)的遷移方法把在ImageNet圖像數(shù)據(jù)集上訓(xùn)練的 ResNet152網(wǎng)絡(luò)模型參數(shù)遷移至改進(jìn)的網(wǎng)絡(luò)中。女童服裝數(shù)據(jù)集在進(jìn)行網(wǎng)絡(luò)訓(xùn)練前,采用數(shù)據(jù)預(yù)處理與增強(qiáng)技術(shù)來(lái)規(guī)范數(shù)據(jù)集,之后把數(shù)據(jù)集輸入至網(wǎng)絡(luò)進(jìn)行訓(xùn)練驗(yàn)證以及微調(diào)網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果表明,與未使用遷移學(xué)習(xí)及未改進(jìn)ResNet152網(wǎng)絡(luò)方法相比,本文基于改進(jìn)的ResNet152網(wǎng)絡(luò)和遷移學(xué)習(xí)的服裝圖像風(fēng)格識(shí)別方法收斂速度快,泛化能力和魯棒性強(qiáng),識(shí)別準(zhǔn)確率高。因此,本文提出的女童服裝圖像風(fēng)格識(shí)別方法對(duì)當(dāng)前服裝數(shù)字化研究具有一定的參考意義。
雖然本文提出的方法在收集的女童服裝數(shù)據(jù)集取得良好的風(fēng)格識(shí)別效果,但是仍存在著一些不足之處,例如:選擇的女童服裝風(fēng)格類型較少、女童服裝數(shù)據(jù)集樣本較少等。在今后的工作中,增加女童服裝風(fēng)格類型以及相應(yīng)的樣本數(shù)量,把女童服裝數(shù)據(jù)集輸入至網(wǎng)絡(luò)進(jìn)行訓(xùn)練以及驗(yàn)證,完成女童服裝圖像風(fēng)格識(shí)別的任務(wù)。
參考文獻(xiàn):
[1]趙浩如,張永,劉國(guó)柱.基于RPN與B-CNN的細(xì)粒度圖像分類算法研究[J].計(jì)算機(jī)應(yīng)用與軟件, 2019, 36(3):210-213.
ZHAO Haoru, ZHANG Yong, LIU Guozhu. Re- search on fine-grained image classification algo- rithm based on RPN and B-CNN[J]. Computer Applications and Software, 2019, 36(3):210-213.
[2]鐘曉東.基于認(rèn)知特征的服裝風(fēng)格自主分類的研究與實(shí)現(xiàn)[D].上海:東華大學(xué), 2012.
ZHONG Xiaodong. Research and implementa- tion of autonomous classification of clothing styles based on cognitive features[D].Shanghai: Donghua University,2012.
[3]CHAO X, HUISKES M J, GRITTI T, et al. A framework for robust feature selection for real- time fashion style recommendation[C]//Proceed- ings of the 1st International Workshop on Inter- active Multimedia for Consumer Electronics.2009:35-42.
[4]莊立鋒, 林俊文.基于改進(jìn) Canny 算法的服裝款式結(jié)構(gòu)特征識(shí)別與分類[J].實(shí)驗(yàn)室研究與探索, 2020,39(5):264-268.
ZHUANG Lifeng, LIN Junwen. Recognition and classification of structural features of cloth- ing styles based on improved Canny algorithm [J]. Laboratory Research and Exploration, 2020,39(5):264-268.
[5]高妍,王寶珠,郭志濤,等.改進(jìn)HSR-FCN的服裝圖像識(shí)別分類算法研究[J].計(jì)算機(jī)工程與應(yīng)用,2019,55(16):144-149.
GAO Yan, WANG Baozhu, GUO Zhitao, et al. Research on the classification algorithm for ap- parel image recognition with improved HSR- FCN[J]. Computer Engineering and Applica- tions, 2019,55(16):144-149.
[6]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition.2016:770-778.
[7]KOZIARSK M, CYGANEK B. Image recogni- tion with deep neural networks in presence of noise-dealing with and taking advantage of dis- tortions[J]. Integrated Computer- Aided Engi- neering, 2017, 24(4):337-349.
[8]SHUBATHRA S, KALAIVAANI P C D, SAN- THOSHKUMAR S. Clothing image recogni- tion based on multiple features using deep neu- ral networks[C]//2020 International Conference on Electronics and Sustainable CommunicationSystems (ICESC). IEEE, 2020:166-172.
[9]王軍敏,樊養(yǎng)余,李祖賀.基于深度卷積神經(jīng)網(wǎng)絡(luò)和遷移學(xué)習(xí)的紋理圖像識(shí)別[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2022,34(5):701-710.
WANG Junmin, FAN Yangyu, LI Zuhe. Texture image recognition based on deep convolutional neural networks and migration learning[J]. Jour- nal of Computer- Aided Design and Graphics, 2022,34(5):701-710.
[10]ELLEUCH M, MEZGHANI A, KHEMAK- HEM M, et al. Clothing classification using deep CNN architecture based on transfer learn- ing[C]//Hybrid Intelligent Systems:19th Inter- national Conference on Hybrid Intelligent Sys- tems (HIS 2019) held in Bhopal, India, Decem- ber 10-12, 2019 19. Springer InternationalPublishing, 2021:240-248.
[11]LIN T Y, ROYCHOWDHURY A, MAJI S. Bi- linear CNN models for fine-grained visual rec-ognition[C]//Proceedings of the IEEE Interna- tional Conference on Computer vision, 2015:1449-1457.
[12]HAND, LIU Q, FAN W. A new imageclassifi- cation method using CNN transfer learning and web data augmentation[J]. Expert Systemswith Applications, 2018, 95:43-56.
[13]WEISS K, KHOSHGOFTAAR T M, WANGD D. A survey of transfer learning[J]. Journal of Big data, 2016, 3(1):1-40.
[14]PAN S J, YANG Q. A survey on transfer learn- ing[J]. IEEE Transactions on Knowledge and Data Engineering, 2009, 22(10):1345-1359.
[15]BENGIO Y. Deep learning of representations for unsupervised and transfer learning[C]//Pro- ceedings of ICML Workshop on Unsupervised and Transfer learning. JMLR Workshop andConference Proceedings, 2012:17-36.
[16]TAN C, SUN F, KONG T, et al. A survey on deep transfer learning[C]//Artificial Neural Networks and Machine Learning – ICANN 2018:27th International Conference on Artifi-cial Neural Networks, Rhodes: Springer Inter-national Publishing, 2018:270-279.
[17]BHATTACHARYYA S. A brief survey of col-or image preprocessing and segmentation tech- niques[J]. Journal of Pattern Recognition Re- search, 2011, 1(1):120-129.
[18]MISHRA P, BIANCOLILLO A, ROGER J M, et al. New data preprocessing trends based on ensemble of multiple preprocessing techniques [J]. Trends in Analytical Chemistry, 2020, 132:116045.
[19]SHORTEN C, KHOSHGOFTAAR T M. A sur- vey on image data augmentation for deep learning[J]. Journal of Big Data, 2019, 6(1):1-48.
[20]SCHLETT T, RATHGEB C, BUSCH C. Deep learning- based single image face depth data enhancement[J]. Computer Vision and Image Understanding, 2021, 210(3):103247.
(責(zé)任編輯:周莉)