摘 要: 為了解決人工標(biāo)注服裝圖像屬性效率低下的問題,提出了一種融合注意力機(jī)制與改進(jìn)ResNet50的服裝圖像屬性預(yù)測方法。首先對傳統(tǒng)多標(biāo)簽分類方法中的模型進(jìn)行了改進(jìn),改進(jìn)后的方法能更充分利用任務(wù)之間的相關(guān)性,并減少數(shù)據(jù)稀缺問題帶來的影響;接著引入CBAM注意力機(jī)制,用于捕捉服裝屬性上的細(xì)節(jié)特征。結(jié)果表明:在未引入注意力機(jī)制的情況下,基于改進(jìn)ResNet50的方法在多項評價指標(biāo)上均優(yōu)于傳統(tǒng)多標(biāo)簽分類方法,準(zhǔn)確率提高了25.96%;與ResNet34、EfficientNet_V2、VGG16模型相比,ResNet50模型在服裝圖像屬性預(yù)測方面整體表現(xiàn)更佳;引入CBAM注意力機(jī)制后,基于改進(jìn)ResNet50的方法的準(zhǔn)確率再提高了1.72%。所提的融合注意力機(jī)制與改進(jìn)ResNet50的服裝圖像屬性預(yù)測方法,能夠有效預(yù)測服裝圖像屬性,為實(shí)現(xiàn)服裝圖像屬性的自動化標(biāo)注提供了新的思路。
關(guān)鍵詞: 服裝圖像;屬性預(yù)測;注意力機(jī)制;ResNet50;深度學(xué)習(xí)
中圖分類號:" TP391.41;TS102.3""" 文獻(xiàn)標(biāo)志碼:" A""" 文章編號: 1009-265X(2025)01-0058-07
近年來, 隨著在線購物的普及,互聯(lián)網(wǎng)上涌現(xiàn)了大量的服裝圖像。如何從這些海量的服裝圖像中自動提取關(guān)鍵信息成為當(dāng)前研究的熱點(diǎn)[1]。通過分析和識別這些服裝圖像的相關(guān)屬性,并結(jié)合價格、銷量、用戶評論等信息,可以進(jìn)一步實(shí)現(xiàn)智能推薦和趨勢預(yù)測。這不僅可以幫助商家提前把握市場需求,制定更精準(zhǔn)的營銷策略和商業(yè)決策,還可為設(shè)計師提供了寶貴的創(chuàng)意靈感[2]。然而,對大量服裝圖像進(jìn)行屬性標(biāo)注,對在線服裝銷售商而言是一項繁瑣且成本高昂的任務(wù)。因此,開展服裝圖像屬性的分類預(yù)測研究具有重要的實(shí)際意義和應(yīng)用價值。
服裝圖像屬性預(yù)測本質(zhì)上屬于計算機(jī)視覺領(lǐng)域的圖像分類問題。在早期的研究中,服裝圖像屬性分類主要依賴人工提取特征[3-4]。然而,這些方法在處理細(xì)粒度的服裝圖像時存在局限性,其分類結(jié)果受光照、扭曲等因素的影響較大。隨著人工智能技術(shù)的廣泛應(yīng)用,尤其是深度學(xué)習(xí)技術(shù)的快速進(jìn)步,越來越多研究表明,基于深度學(xué)習(xí)分類算法能夠顯著提高服裝屬性預(yù)測的準(zhǔn)確性。孫秀秀[5]和劉和娟[6]對現(xiàn)有的深度學(xué)習(xí)模型進(jìn)行改進(jìn),采用Sigmoid激活函數(shù)和二元交叉熵?fù)p失函數(shù),實(shí)現(xiàn)服裝屬性的多標(biāo)簽分類。然而,這些方法在進(jìn)行多標(biāo)簽分類時,未能解決服裝屬性標(biāo)簽之間的強(qiáng)相關(guān)性問題[7],這限制了預(yù)測性能的提升。雷冬冬等[8]在DFA算法基礎(chǔ)上引入了循環(huán)十字交叉注意力和高效通道注意力,從而實(shí)現(xiàn)服裝關(guān)鍵點(diǎn)定位及屬性預(yù)測算法。然而,由于評價指標(biāo)中未考慮top-1的分類準(zhǔn)確率和召回率,因此預(yù)測效果難以確定。Ferreira等[9]基于深度學(xué)習(xí)模型, 研究了服裝目錄及屬性的多任務(wù)分類方法。該方法測試結(jié)果顯示平均準(zhǔn)確率為59.41%, 表明其分類精度仍有待提升。Shajini等[10]提出了結(jié)合知識共享和基于深度學(xué)習(xí)的T-S對模型的方法, 該方法屬于一種半監(jiān)督多任務(wù)學(xué)習(xí)方法,其top-3" 平均準(zhǔn)確率可達(dá)91.99%,但在屬性預(yù)測方面的top-3 平均準(zhǔn)確率只有51.89%。綜上所述,服裝圖像屬性預(yù)測的研究需進(jìn)一步深入探討和改進(jìn)。
為提升服裝圖像屬性預(yù)測精度,并解決人工標(biāo)記服裝圖像屬性效率低的問題,本文提出一種融合注意力機(jī)制與改進(jìn)ResNet50的服裝圖像屬性預(yù)測方法。該方法對ResNet50模型的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn),以適應(yīng)服裝多屬性預(yù)測任務(wù),同時在改進(jìn)后的ResNet50模型中引入注意力機(jī)制,用于捕捉服裝屬性上的細(xì)節(jié)特征,以期提高預(yù)測精度。
1 研究方法
1.1 實(shí)驗(yàn)數(shù)據(jù)集
DeepFashion數(shù)據(jù)集已被廣泛用于計算機(jī)視覺研究,包括目錄與屬性預(yù)測、店內(nèi)服裝檢索、消費(fèi)者到商店的服裝檢索和關(guān)鍵點(diǎn)檢測共4項任務(wù)。該數(shù)據(jù)集包含大量時尚圖像及相關(guān)標(biāo)注信息,可用于模型的訓(xùn)練、驗(yàn)證和測試。本文選取了“目錄與屬性預(yù)測”任務(wù)中的高質(zhì)量圖像和標(biāo)注數(shù)據(jù),共計2萬張圖像,其中包括14000張訓(xùn)練數(shù)據(jù),2000張驗(yàn)證數(shù)據(jù)和4000張測試數(shù)據(jù)。數(shù)據(jù)集中的部分圖像如圖1所示。從圖1中可以看出,圖像來源廣泛,包括專業(yè)拍攝的模特圖像和野外拍攝的生活圖像,這些圖像構(gòu)成了一個跨域圖像集合。
此外, 本文數(shù)據(jù)集包含服裝對應(yīng)的6個屬性類別,分別是圖案、袖型、款式、領(lǐng)型、布料和松緊度。表1中列出了數(shù)據(jù)集各屬性類別及其相應(yīng)的取值。
1.2 傳統(tǒng)基于ResNet50的多標(biāo)簽分類方法
ResNet50是一種深度卷積神經(jīng)網(wǎng)絡(luò),被廣泛應(yīng)用于各種計算機(jī)視覺任務(wù),特別是在圖像分類、目標(biāo)檢測和語義分割等領(lǐng)域表現(xiàn)出色。ResNet50模型主要由多個殘差塊組成,每個殘差塊內(nèi)部包含多個卷積層。與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)不同,ResNet50在每個殘差塊中引入了跳躍連接,即將輸入直接添加到輸出,從而構(gòu)成了殘差學(xué)習(xí)的結(jié)構(gòu)。這種結(jié)構(gòu)有助于緩解深層網(wǎng)絡(luò)訓(xùn)練過程中的梯度消失和梯度爆炸問題[11],使其適用于訓(xùn)練更深的網(wǎng)絡(luò)。
服裝屬性預(yù)測通常被視為多標(biāo)簽分類任務(wù)。為了實(shí)現(xiàn)對服裝多個屬性的預(yù)測,一種常見的方法是將ResNet50模型最后一層的Softmax激活函數(shù)替換為Sigmoid激活函數(shù)[5-6]。這種替換使得每個屬性的輸出為0到1之間的單個概率值,每個屬性的值都對應(yīng)一個獨(dú)立的概率值。然后,從每組屬性輸出值中選擇最大的概率值作為屬性預(yù)測的結(jié)果。例如,對于松緊度屬性,若輸出值為{0.6,0.5,0.4},分別對應(yīng)緊、松和常規(guī),那么松緊度的預(yù)測結(jié)果就是“緊”。具體的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
1.3 CBAM注意力機(jī)制
CBAM注意力機(jī)制是一種用于增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)性能的機(jī)制,通過通道和空間注意力模塊來提取和利用重要的特征信息。其結(jié)構(gòu)如圖3所示,其中通道注意力模塊關(guān)注每個通道的重要性,而空間注意力模塊則關(guān)注不同位置的重要性,從而使網(wǎng)絡(luò)能夠有選擇地增強(qiáng)或抑制不同通道和位置的特征響應(yīng)。CBAM模塊可以嵌入到常見的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)中,能夠顯著提升網(wǎng)絡(luò)性能[12]。
1.4"" 融合CBAM注意力機(jī)制與改進(jìn)ResNet50 的分類方法
圖像多任務(wù)分類是將圖像分類任務(wù)視為一個多任務(wù)學(xué)習(xí)問題,同時預(yù)測圖像的多個相關(guān)但不同的屬性或類別。其優(yōu)點(diǎn)是可利用任務(wù)之間的相關(guān)性來提高模型的泛化能力,同時可以減少數(shù)據(jù)稀缺問題,"從而提高模型的訓(xùn)練效率[13]。為了解決服裝圖像屬性預(yù)測的多標(biāo)簽多任務(wù)分類問題,本文提出了一種融合CBAM注意力機(jī)制與改進(jìn)ResNet50的分類"" 方法。圖4展示了該方法的網(wǎng)絡(luò)結(jié)構(gòu)。由圖4可知,該方法共享了特征提取部分網(wǎng)絡(luò)和參數(shù),同時各任務(wù)擁有獨(dú)立的分類層,屬于一種多任務(wù)學(xué)習(xí)方法。具體改進(jìn)之處主要包括:
a)特征提取部分:在圖2網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,在最后一個卷積層后面引入了CBAM注意力機(jī)制。
b)輸出部分:在圖2網(wǎng)絡(luò)結(jié)構(gòu)中,只有一個單一的全連接輸出,激活函數(shù)采用采用Sigmoid;而本文方法采用多個獨(dú)立的全連接層輸出,每個類別標(biāo)簽對應(yīng)一個分類部分,激活函數(shù)采用Softmax。
2 實(shí)驗(yàn)和結(jié)果分析
2.1 實(shí)驗(yàn)環(huán)境
后續(xù)實(shí)驗(yàn)的軟硬環(huán)境包括:
a)硬件環(huán)境:CPU為Intel(R) Core(TM) i7-9700 CPU@3.00 GHz 3.00 GHz、內(nèi)存16 GB、固態(tài)硬盤,未使用GPU。
b) 軟件環(huán)境:Python 3.10.1語言、PyTorch 2.0.0 框架、VS Code 1.70.0編輯器。
2.2 評價指標(biāo)
由于本文方法用于解決多標(biāo)簽問題,涉及多個屬性的預(yù)測,因此評價方法不僅要考慮模型整體性能的評估,還需對每個類別進(jìn)行評估。為了評估模型整體性能以及每個類別的表現(xiàn),本文采用了準(zhǔn)確率、精確度、召回率和F1分?jǐn)?shù)這4個指標(biāo)。各指標(biāo)說明如下:
準(zhǔn)確率:表示模型正確分類的樣本數(shù)量與總樣本數(shù)量之比。計算公式為:
VAcc= VTP+VTN VTP+VFN+VFP+VTN" (1)
式中:VTP表示真正為正類別且被模型預(yù)測為正類別的樣本數(shù)量,VFP表示實(shí)際為負(fù)類別但被模型錯誤預(yù)測為正類別的樣本數(shù)量,VFN表示實(shí)際為正類別但被模型錯誤預(yù)測為負(fù)類別的樣本數(shù)量,VTN表示實(shí)際為負(fù)類別且但被模型正確預(yù)測為負(fù)類別的樣本數(shù)量。
在本文中,每張測試圖像都包含6個屬性類別,而每個類別又是一個樣本,因此,總樣本數(shù)為測試圖像數(shù)量的6倍。
精確度:又被稱為查準(zhǔn)率,表示模型預(yù)測為正類別且真正為正類別的樣本數(shù)量與所有預(yù)測為正類別的樣本數(shù)量之比。計算公式為:
VP= VTP VTP+VFP" (2)
召回率:也被稱為查全率,表示模型預(yù)測為正類別且真正為正類別的樣本數(shù)量與所有真正為正類別的樣本數(shù)量之比。計算公式為:
VR= VTP VTP+VFN" (3)
F1分?jǐn)?shù)(F1-score):綜合考慮模型的準(zhǔn)確性和召回率。計算公式為:
VF1-score=(1+β2) (VP×VR) β2×VP+VR" (4)
式中:β的取值為1。
2.3 訓(xùn)練過程及結(jié)果分析
為了驗(yàn)證方法的有效性,本文對3種模型分別進(jìn)行訓(xùn)練:a) 模型1對應(yīng)于前文1.2中所使用的傳統(tǒng)多標(biāo)簽分類方法的模型;b) 模型2對應(yīng)于前文1.3中本文提出的方法的模型;c) 模型3則是在模型2的基礎(chǔ)上去除了CBAM注意機(jī)制的模型。
在模型訓(xùn)練前,訓(xùn)練程序設(shè)置了如下的訓(xùn)練參數(shù):學(xué)習(xí)率為0.0005、批次大小為16、線程數(shù)量為8、總的迭代次數(shù)為50次。此外,還選擇交叉熵?fù)p失函數(shù)來計算損失值,并采用Adam優(yōu)化器函數(shù)來優(yōu)化模型的參數(shù)。
訓(xùn)練過程中,程序交替進(jìn)行訓(xùn)練和驗(yàn)證。在訓(xùn)練階段,程序循環(huán)處理每個批次,包括梯度清零、前向傳播、損失計算以及反向傳播和參數(shù)優(yōu)化等步驟。而在驗(yàn)證階段,程序?qū)⒛P驮O(shè)置為評估模式,執(zhí)行前向傳播并計算損失。在每完成一個批次后,程序都會檢查準(zhǔn)確率是否達(dá)到最佳水平。若是,則保存當(dāng)前模型參數(shù),并將其視為最優(yōu)模型;否則,不做任何操作。
訓(xùn)練完成后,得到了如圖5所示的各模型對應(yīng)的準(zhǔn)確率及損失率變化情況。由圖5可知,模型2和模型3在訓(xùn)練過程中的準(zhǔn)確率和損失率明顯優(yōu)于模型1,這表明改進(jìn)后的ResNet50模型訓(xùn)練效果更好。此外,引入CBAM注意機(jī)制后,模型訓(xùn)練過程中的準(zhǔn)確率得到了進(jìn)一步的提高,而損失率無明顯變化。
2.4 模型測試結(jié)果與分析
為了評估本文方法模型的整體性能,設(shè)計了3種測試方案:
方案1:將前文1.2中的傳統(tǒng)基于ResNet50的多標(biāo)簽分類方法與同樣未引入注意力機(jī)制的改進(jìn)ResNet50方法進(jìn)行測試,并比較它們的性能。
方案2:在不引入不同注意力機(jī)制的情況下,針對本文提出的方法,在不同深度學(xué)習(xí)模型上繼續(xù)訓(xùn)練,并評價各模型的屬性預(yù)測效果。除了使用ResNet50模型,本文還選擇了ResNet34、EfficientNet_V2[14]、 VGG16[15]這3個模型。
方案3:引入不同的注意力機(jī)制方法,對方法進(jìn)行對比測試。本文選取的注意力機(jī)制方法包括CBAM、SE[16]、BAM[17]及ECA[18]4種。
2.4.1 方案1測試結(jié)果與分析
為了驗(yàn)證改進(jìn)模型在服裝圖像屬性預(yù)測上的有效性,方案1對前文1.2中的傳統(tǒng)多標(biāo)簽分類方法和前文1.3中的本文方法進(jìn)行了對比測試。由于 傳統(tǒng)方法未引入注意力機(jī)制,因此這里的基于改進(jìn)的ResNet50的方法也未引入注意力機(jī)制,且模型均選擇ResNet50模型。測試的結(jié)果見表2。由表2可知,未引入注意力機(jī)制的基于改進(jìn)的ResNet50模型的方法在準(zhǔn)確率、精確度以及召回率等各項指標(biāo)均優(yōu)于傳統(tǒng)多標(biāo)簽分類方法,其中準(zhǔn)確率提高了25.96%。
2.4.2 方案2測試結(jié)果與分析
除了方案1中使用的ResNet50模型外,方案2還與ResNet34、EfficientNet_V2和VGG16多種深度學(xué)習(xí)模型進(jìn)行了對比。需要注意的是,方案2同樣未引入注意力機(jī)制,具體的測試結(jié)果見表3。由表3可知,ResNet50模型在準(zhǔn)確率、精確度、召回率以及F1分?jǐn)?shù)指標(biāo)上均表現(xiàn)更佳。
2.4.3 方案3測試結(jié)果與分析
注意力機(jī)制方法眾多,本文選用了幾種常見的注意力機(jī)制方法,具體包括CBAM、SE、BAM、ECA方法。通過分別引入不同的注意力機(jī)制,完成對本文方法的測試,其結(jié)果見表4。由表4可知,CBAM方法在準(zhǔn)確率、精確度、召回率以及F1分?jǐn)?shù)各項指標(biāo)上整體表現(xiàn)更佳。與表3中未引入CBAM注意力機(jī)制的本文方法相比,引入了CBAM注意力機(jī)制的基于改進(jìn)ResNet50的方法在準(zhǔn)確率上提高了1.72%。
2.5 服裝類別測試結(jié)果與分析
采用本文提出方法對服裝圖像的每個類別進(jìn)行測試,測試結(jié)果見表5。由表5可知,對袖型進(jìn)行預(yù)測的準(zhǔn)確率最高,達(dá)到了0.854,而布料預(yù)測的準(zhǔn)確率最低,僅為0.684。需要注意的是,盡管布料和松緊度在精確度上表現(xiàn)較好,分別是0.947和0.934,但召回率只有0.167和0.333。產(chǎn)生精確度高、召回率低的主要原因是屬性類別之間的數(shù)量極度不平衡導(dǎo)致的。例如,松緊度3種屬性值(緊、松、常規(guī))所對應(yīng)的樣本數(shù)分別為2001、758和11241。這種不平衡導(dǎo)致模型無法有效捕捉到少數(shù)類別樣本的特征。針對上述問題,可采用生成部分合成樣本、類別加權(quán)或者集成學(xué)習(xí)等方法,以提高布料和松緊度的預(yù)測精度。
2.6 方法可視化設(shè)計
為了讓用戶可以直觀地了解本文方法在服裝屬性預(yù)測方面的表現(xiàn),本文采用flask框架開發(fā)了一套基于Web的服裝屬性預(yù)測應(yīng)用程序。該應(yīng)用程序能夠接收用戶上傳的服裝圖像,并對測試集中圖像的服裝屬性進(jìn)行預(yù)測。軟件的運(yùn)行界面如圖6所示。用戶上傳圖像后,點(diǎn)擊“開始預(yù)測”按鈕,應(yīng)用程序會自動調(diào)用前面訓(xùn)練好的模型進(jìn)行屬性預(yù)測,并將真實(shí)結(jié)果和預(yù)測結(jié)果展示在界面上。根據(jù)圖6中的預(yù)測結(jié)果,用戶可以清楚地看到圖像中服裝的各種屬性,包括圖案、袖型、款式、領(lǐng)型、布料和松緊度。其中,圖6(a)中的6個屬性全部預(yù)測正確;圖6(b)中圖案和領(lǐng)型預(yù)測錯誤,標(biāo)記的圖案為花卉,預(yù)測為純色,實(shí)際上是上身為純色、褲子為花卉,說明數(shù)據(jù)集標(biāo)定并不十分準(zhǔn)確,此外,衣領(lǐng)也預(yù)測錯誤,將無領(lǐng)預(yù)測成為圓領(lǐng);圖6(c)中領(lǐng)型和布料預(yù)測錯誤,褲子標(biāo)記為白色牛仔褲,但由于這類牛仔褲在樣本集中偏少,導(dǎo)致模型對該類別訓(xùn)練不足,從而出現(xiàn)識別錯誤。同樣,這里的領(lǐng)型預(yù)測也出現(xiàn)了錯誤。
3 結(jié)論
本文提出了一種融合注意力機(jī)制與改進(jìn)ResNet50 的服裝圖像屬性預(yù)測方法。該方法首先通過對傳統(tǒng)多標(biāo)簽分類方法中的模型進(jìn)行改進(jìn),充分利用了任務(wù)之間的相關(guān)性來提高模型的泛化能力,同時解決了部分樣本數(shù)據(jù)稀缺問題;其次,引入CBAM注意力機(jī)制,增強(qiáng)了模型的表征能力,進(jìn)而提升了模型的預(yù)測性能。主要得出以下結(jié)論:
a)在未引入注意力機(jī)制的情況下,基于改進(jìn)ResNet50的方法在準(zhǔn)確率、精確度、召回率以及 F1 分?jǐn)?shù)等各項指標(biāo)均優(yōu)于傳統(tǒng)的多標(biāo)簽分類方法,其中準(zhǔn)確率提高了25.96%。
b)在未引入注意力機(jī)制的情況下,相較于ResNet34、EfficientNet_V2、VGG16模型,ResNet50模型在準(zhǔn)確率、精確度、召回率以及F1分?jǐn)?shù)各項指標(biāo)上表現(xiàn)均更佳。
c)與未引入CBAM注意力機(jī)制的方法相比,引入CBAM注意力機(jī)制的基于改進(jìn)ResNet50的方法在準(zhǔn)確率上提高了1.72%。
d)在對各個屬性類別的預(yù)測中,圖案、袖型和款式表現(xiàn)較好,而領(lǐng)型的準(zhǔn)確率僅為0.684,表現(xiàn)不佳。此外,布料和松緊度出現(xiàn)了精確度高而召回率低的情況。
綜上所示,融合了注意力機(jī)制與改進(jìn)ResNet50的服裝圖像屬性預(yù)測方法能夠有效提升服裝圖像屬性預(yù)測精度,為實(shí)現(xiàn)服裝圖像屬性的自動化標(biāo)注提供了新的思路。在未來的研究中,可以構(gòu)建更高質(zhì)量的數(shù)據(jù)集進(jìn)行訓(xùn)練,也可以選擇對某些服裝屬性類別進(jìn)行單獨(dú)研究,以提高模型的預(yù)測精度。
參考文獻(xiàn):
[1] 李圓,于淼.基于深度學(xué)習(xí)圖像處理的服裝推薦研究進(jìn)展[J].毛紡科技,2023,51(12):119-126.
LI Yuan, YU Miao. Research progress of clothing recommendation based on deep learning image processing[J]. Wool Textile Journal, 2023, 51(12):119-126.
[2] 王靜,王小藝,蘭翠芹, 等.服裝個性化定制中信息技術(shù)的應(yīng)用與展望[J].絲綢,2024, 61(1):96-108.
WANG Jing, WANG Xiaoyi, LAN Cuiqin, et al.Application and prospect of information technology in personalized clothing customization[J]. Journal of Silk, 2024, 61(1): 96-108.
[3] 劉聰,丁貴廣.基于視覺的服裝屬性分類算法[J].微電子學(xué)與計算機(jī),2016,33(1):28-33.
LIU Cong, DING Guiguang.Visual-based clothing attribute classification algorithm[J]. Microelectronics amp; Computer,2016, 33(1):28-33.
[4] CHEN H, GALLAGHER A, GIROD B. Describing Clothing by Semantic Attributes[C]//European Conference on Computer Vision. Berlin, Heidelberg: Springer, 2012: 609-623.
[5] 孫秀秀. 基于深度學(xué)習(xí)的多標(biāo)簽服裝圖像分類研究[D]. 北京: 華北電力大學(xué), 2020: 24-26.
SUN Xiuxiu. Research on Multi-Label Clothing Image Classification Based on Deep Learning[D]. Beijing: North China Electric Power University, 2020: 24-26.
[6] 劉和娟. 基于深度學(xué)習(xí)的姐妹裝圖像檢索技術(shù)研究[D]. 昆明: 云南大學(xué),2019:23-34.
LIU Hejuan. Research on Sister Outfit Image Retrieval Technology Based on Deep Learning[D]. Kunming: Yunnan University,2019:23-34.
[7] 楊小童,陳月明,楊坤.融合多標(biāo)簽特征在心電異常事件分類上的應(yīng)用[J].計算機(jī)仿真,2022,39(8):508-513.
YANG Xiaotong, CHEN Yueming, YANG Kun. Applica-tion of multi-label features fusion in ECG anomaly classifi-cation[J]. Computer Simulation, 2022, 39(8): 508-513.
[8] 雷冬冬,王俊英,董方敏, 等.基于混合域注意力機(jī)制的服裝關(guān)鍵點(diǎn)定位及屬性預(yù)測算法[J]. 東華大學(xué)學(xué)報(自然科學(xué)版),2022,48(4):28-35.
LEI Dongdong, WANG Junying, DONG Fangmin,et al. Clothing key points location and attribute prediction algorithm based on mixed domain attention mechanism[J]. Journal of Donghua University(Natural Science),2022,48(4):28-35.
[9] FERREIRA B Q, BAA L, FARIA J, et al. A unified model with structured output for fashion images classifi-cation[EB/OL]. 2018: 1806.09445.http://arxiv.org/abs/1806.09445v1.
[10] SHAJINI M, RAMANAN A. A knowledge-sharing semi-supervised approach for fashion clothes classification and attribute prediction[J]. The Visual Computer, 2022, 38(11): 3551-3561.
[11] 曹涵穎,妥吉英.基于改進(jìn)YOLOv5和ResNet50的女裝袖型識別方法[J].現(xiàn)代紡織技術(shù),2024,32(1): 45-53.
CAO Hanying, TUO Jiying. A method for identifying" women '" s sleeves based on improved YOLOv5 and ResNet50 [J]. Advanced Textile Technology,2024,32(1): 45-53.
[12] WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional Block Attention Module[C]//European Conference on Computer Vision. Cham: Springer, 2018: 3-19.
[13] 張鈺,劉建偉,左信.多任務(wù)學(xué)習(xí)[J].計算機(jī)學(xué)報,2020,43(7):1340-1378.
ZHANG Yu, LIU Jianwei, ZUO Xin. Survey of multi-task learning[J]. Chinese Journal of Computers, 2020, 43(7): 1340-1378.
[14] TAN M, LE Q V. EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks[C]// 36th Interna-tional Con-ference on Machine Learning (ICML). Los Angeles: Proceedings of Machine Learning Research, 2019:6105-6114.
[15] SIMONYAN K, ZISSERMAN A.Very deep convolutional networks for large-scale image recognition[J]. 3rd Inter-national Conference on Learning Representations, ICLR 2015-Conference Track Proceedings, 2015:1-14.
[16] HU J, SHEN L, ALBANIE S, et al. Squeeze-and-excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(8): 2011-2023.
[17] PARK J, WOO S, LEE J Y, et al. BAM:bottleneck attention module[EB/OL]. (2018-07-18)[2024-04-30]. https://arxiv.org/pdf/1807.06514.
[18] WANG Q, WU B, ZHU P, et al. ECA-Net: Efficient Channel Attention for Deep Convolutional" Neural Networks[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA, USA. IEEE, 2020: 11531-11539.
A clothing image attribute prediction method integrating attention mechanism and improved ResNet50
YOU" Xiaorong1a,2," LI" Shufang1b," SHAO" Hongyan1a,2
(1a.School of Intelligent Manufacturing; 1b. School of Intelligent Textiles and Materials, Changzhou VocationalInstitute of Textile and Garment, Changzhou 213164, China; 2.Jiangsu Research Center of Intelligent Manufacturing Technology for Carbon Fiber and Advanced Material, Changzhou 213164, China)
Abstract:
In recent years, with the popularity of online shopping, a large number of clothing images have emerged on the Internet. How to automatically extract key information from these massive clothing images has become a hot topic in current research. Through analyzing and identifying the relevant attributes of these clothing images and combining them with information such as price, sales volume and user comments, intelligent recommendations and trend predictions can be further achieved. This not only helps merchants grasp market demand in advance and formulate more accurate marketing strategies and business decisions but also provides designers with valuable creative inspiration. However, labeling the attributes of a large number of clothing images is also a tedious and costly task for online clothing sellers. Therefore, researching the classification and prediction of clothing image attributes has important practical significance and application value.
To improve the prediction accuracy of clothing image attributes and to address the inefficiency of manual labeling of clothing image attributes, this paper proposes a clothing image attribute prediction method integrating the attention mechanism and improved ResNet50. This method improves the network structure of the ResNet50 model to adapt to the clothing multi-attribute prediction task and introduces the attention mechanism into the improved ResNet50 model to capture the detailed features of clothing attributes to improve the prediction accuracy. The method not only applies the improved deep learning algorithm to clothing attribute prediction, but also verifies the effectiveness of the method in clothing attribute prediction. It can effectively improve the accuracy of clothing image attribute prediction and identify attribute categories with superior prediction outcomes, providing new ideas for realizing the automatic labeling of clothing image attributes. The experimental results show that in the absence of the attention mechanism, the method based on the improved ResNet50 outperforms the traditional multi-label classification method in terms of accuracy, precision, recall, and F1 score, with the accuracy increasing by 25.96%. On the whole, the ResNet50 model performs better than the ResNet34, EfficientNet_V2, and VGG16 models in terms of accuracy, precision, recall, and F1 score. Compared with the method without the introduction of the CBAM attention mechanism, the ResNet50 method enhanced with CBAM improves the accuracy by 1.72%. In the prediction of each attribute category, the pattern, sleeve type, and style performed well, while the accuracy of the collar type is only 0.684, which is not good. In addition, the fabric and tightness show high accuracy but low recall. In future research, higher quality datasets can be built for training, and certain clothing attribute categories can also be studied separately to improve the prediction accuracy of the model.
Keywords:
clothing images; attribute prediction; attention mechanism; ResNet50; deep learning
基金項目: 常州紡織服裝職業(yè)技術(shù)學(xué)院2023年院學(xué)術(shù)科研基金項目(應(yīng)用技術(shù)類)(CFK202316)
作者簡介: 游小榮(1981— ),男,江西臨川人,副教授,碩士,主要從事紡織服裝智能化和人工智能應(yīng)用方面的研究