覃琴 顏靖柯 王鑫 王慧嬌 王琴
摘要: 針對基于深度學(xué)習(xí)的苗族服飾圖像語義分割模型存在提取過程中服飾掩碼擬合質(zhì)量不高的問題,文章提出一種基于漸進(jìn)式注意力學(xué)習(xí)的多尺度深度學(xué)習(xí)金字塔模型(Multi-scale Deep learning pyramidal network of progressive attentional learning,MultiDeepPPL)分割苗族服飾。首先,設(shè)計了一種密集跨級連接網(wǎng)絡(luò),充分利用多尺度方式提取特征的特性,融合不同尺度特征;然后,嵌入了一種漸進(jìn)式注意力學(xué)習(xí)金字塔結(jié)構(gòu),從不同的特征圖中遷移相似性與跨尺度相似性,并采用空域注意力和3D卷積對前述特征進(jìn)行融合。實驗結(jié)果表明,所提模型在苗族服飾數(shù)據(jù)集上平均交并比(Mean Intersection over Union,MIoU)達(dá)到0.873,類別平均像素準(zhǔn)確率(Pixel Accuracy,MPA)達(dá)到0.943,Dice相似系數(shù)達(dá)到0.912,召回率(Recall)達(dá)到0.895 1。上述評估指標(biāo)結(jié)果表明,文章所提方法明顯優(yōu)于當(dāng)前其他語義分割算法,為少數(shù)民族文化的研究提供了一種有效可行的方法。
關(guān)鍵詞: 苗族服飾;語義分割;空域注意力;3D卷積;多尺度
中圖分類號: TS941.19;J523.6 ? ?文獻(xiàn)標(biāo)志碼: A ? ?文章編號: 1001-7003(2022)01-0078-10
引用頁碼: 011112DOI: 10.3969/j.issn.1001-7003.2022.01.012
少數(shù)民族將自己的宗教文化、圖騰文化體現(xiàn)在服飾的紋樣和建筑的裝飾上,這樣不僅起到美化自身的作用,還能夠傳達(dá)特殊的文化意義[1]。中國少數(shù)民族種類繁多,民族服飾多姿多彩,如何正確、高效地分割少數(shù)民族服飾的圖案,對于輔助研究人員研究少數(shù)民族文化具有重要的意義。雖然已經(jīng)有學(xué)者對民族服飾圖像進(jìn)行了研究,但在民族服飾圖像分割的自動優(yōu)化[2]、提取、分類[3]、識別等方面的研究還很少,這影響了研究者從大量民族服飾圖像中快速檢索和識別。
在服飾分割的研究領(lǐng)域中,近期的研究側(cè)重于采用深度神經(jīng)網(wǎng)絡(luò)對時尚服飾圖像進(jìn)行分割。Liang等[4]基于主動模版回歸(ATR)模型,利用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)每個語義區(qū)域的位置和可見性,生成掩碼模版系數(shù)和服飾分割形狀的參數(shù),得到很好的分割結(jié)果。Khurana等[5]基于SegNet模型[6],提出了一種用于時尚服飾圖像分割的雙階段深度神經(jīng)網(wǎng)絡(luò)架構(gòu)。該架構(gòu)第一階段使用全卷積網(wǎng)絡(luò)分割出了服飾圖像,第二階段利用Gabor提取服飾紋樣特征,確定服飾類型。Guo等[7]利用CPN網(wǎng)絡(luò)、MFN網(wǎng)絡(luò)、CRN網(wǎng)絡(luò)從粗到細(xì)分割服飾。Liu等[8]基于K最鄰近(k-nearest neighbor,kNN)的方法,提出了具有參數(shù)匹配的卷積神經(jīng)網(wǎng)絡(luò)(M-CNN)來預(yù)測圖像中特定語義的最佳匹配區(qū)域置信度和位置信息。雖然目前基于神經(jīng)網(wǎng)絡(luò)的語義分割模型的研究在時尚服飾數(shù)據(jù)集上取得了一定的成功,但是少數(shù)民族服飾區(qū)別于時尚服飾,具有以下特點:1) 服飾圖案結(jié)構(gòu)復(fù)雜;2) 服飾飾品繁多,同時存在很多小飾品;3) 同一款式服飾飾品之間顏色細(xì)節(jié)屬性差異不大。從而使得少數(shù)民族服飾分割仍然存在以下問題:1) 由于少數(shù)民族服飾的結(jié)構(gòu)復(fù)雜,現(xiàn)有的分割模型難以描述少數(shù)民族服飾的局部細(xì)節(jié);2) 少數(shù)民族服飾色彩鮮明、紋理圖案多樣、款式種類繁多、飾品豐富,如何解決分割模型提取高層視覺語義屬性與低層特征語義屬性之間的鴻溝,成為提高分割準(zhǔn)確率的關(guān)鍵。
針對上述問題,以苗族服飾圖案研究為例,提出了一種基于MultiDeepPPL的苗族服飾分割模型。在這項工作中,不僅設(shè)計了一個簡單又強(qiáng)大的密集跨級連接網(wǎng)絡(luò),使模型能夠更好地描述少數(shù)民族服飾局部細(xì)節(jié),而且設(shè)計了一種漸進(jìn)式注意力金字塔結(jié)構(gòu),該結(jié)構(gòu)能夠遷移和融合少數(shù)民族服飾之間自相似性與跨尺度相似性的特征,從而提升模型分割民族服飾的準(zhǔn)確度。
1 基于MultiDeepPPL的苗族服飾分割模型
首先,從整體上描述MultiDeepPPL模型,并詳細(xì)介紹密集跨級連接網(wǎng)絡(luò)中不同尺度的特征密集連接;然后,介紹漸進(jìn)式注意力學(xué)習(xí)金字塔結(jié)構(gòu);最后,闡明設(shè)計的輔助分支結(jié)構(gòu)。
1.1 網(wǎng)絡(luò)結(jié)構(gòu)
本文模型設(shè)計的具體結(jié)構(gòu)如圖1所示。模型主體采用了編碼-解碼的架構(gòu),并設(shè)計了密集跨級連接網(wǎng)絡(luò)和漸進(jìn)式注意力學(xué)習(xí)金字塔結(jié)構(gòu),提高了模型的分割精度。編碼器模塊,模型首先將輸入的服飾圖片經(jīng)過卷積的3次下采樣操作,每次下采樣操作特征圖的長和寬縮小2倍,通道數(shù)擴(kuò)大2倍,然后將卷積輸出的特征圖逐層傳入不同尺度的特征層進(jìn)行特征融合。解碼器模塊,先將編碼器和解碼器的特征層進(jìn)行密集跨級連接,使模型提取服飾多尺度特征信息,接著采用金字塔結(jié)構(gòu)融合特征局部與全局信息,最后解碼器進(jìn)行3次反卷積逐步恢復(fù)高分辨率圖像,得到語義分割結(jié)果。解碼器結(jié)構(gòu)與編碼器結(jié)構(gòu)對稱,解碼器每次利用反卷積操作,將特征圖尺寸擴(kuò)大2倍,通道數(shù)縮小2倍。為了進(jìn)一步提升小物體的分割效果,以及加強(qiáng)對網(wǎng)絡(luò)梯度消失的監(jiān)督,本文提出了輔助分支結(jié)構(gòu),該結(jié)構(gòu)在解碼過程中分別提取三次反卷積的輸出特征,如圖1(c)所示。利用1×1卷積層中將特征通道減少為7,并將卷積的結(jié)果進(jìn)行融合,最后利用SoftMax對特征圖進(jìn)行分類,解碼器和編碼器實現(xiàn)了“端到端”的輸出。
另外,該模型使用了Mosaic數(shù)據(jù)增強(qiáng)[9]的方法,將四張圖像合成一張圖像,不僅豐富了檢測物體的背景,使得模型能夠在復(fù)雜環(huán)境下進(jìn)行識別,而且能使模型提取四張圖像特征信息。模型還引入了Label Smoothing[10]對真實樣本標(biāo)簽添加懲罰因子,懲罰標(biāo)簽置信度分布,形成新樣本分布。通過對真實樣本平滑處理,軟化真實標(biāo)簽與其他類別的相對距離。在激活函數(shù)的選擇上,模型使用了ACON激活函數(shù)[11]代替Relu激活函數(shù),它可以自適應(yīng)選擇激活的單元數(shù),避免模型無法精準(zhǔn)描述浮點數(shù)造成的模型預(yù)測精度損失。
本文模型創(chuàng)新性地設(shè)計了密集跨級連接網(wǎng)絡(luò)、漸進(jìn)式注意力學(xué)習(xí)金字塔結(jié)構(gòu)(PPL)、輔助分支結(jié)構(gòu)。密集跨級連接網(wǎng)絡(luò)是將編碼器和解碼器的網(wǎng)絡(luò)層中不同尺度的特征進(jìn)行合并連接,使每一層網(wǎng)絡(luò)層包含高視覺語義特征和淺語義特征,得到豐富的特征表示。漸進(jìn)式注意力學(xué)習(xí)金字塔結(jié)構(gòu)是將反卷積和卷積操作得到的特征進(jìn)行物體相似外觀和相近位置的特征提取,該方式能有效地融合全局和局部的特征信息,提高對圖像全局特征的利用率。輔助分支結(jié)構(gòu)能夠?qū)W習(xí)中層和淺層的潛語義特征,學(xué)習(xí)到更多鑒別信息,有利于小目標(biāo)的分割。
1.2 密集跨級連接網(wǎng)絡(luò)
在苗族服飾分割的實驗過程中,發(fā)現(xiàn)了很多小飾品的輪廓沒有被很好地分割、外觀相似的物體也存在分類錯誤等問題,這些問題與模型不同尺度下獲得的感受野語境和整體信息都有關(guān),因此,具有合適尺度的模型可以極大增強(qiáng)模型復(fù)雜場景下的分割能力。為了對多模態(tài)特征進(jìn)行特征提取的增強(qiáng),使模型更加有效地捕獲上下文信息,進(jìn)一步避免丟失不同表征之間關(guān)系的語義信息。本文在編碼器和解碼器的路徑上考慮多尺度特征信息,并設(shè)計了密集跨級連接網(wǎng)絡(luò)來融合不同尺度的特征圖。密集跨級連接網(wǎng)絡(luò)能夠通過使用密集跨連接策略達(dá)到控制模型對不同尺度特征學(xué)習(xí)能力的目的。MultiDeepPPL中密集跨級連接網(wǎng)絡(luò)采用了兩級結(jié)構(gòu),在第一級結(jié)構(gòu)中編碼器會將低尺度和中等尺度的特征圖進(jìn)行融合,在第二級結(jié)構(gòu)中將融合后的結(jié)果作為整體再與高尺度特征圖進(jìn)行融合。該網(wǎng)絡(luò)增加了對全局特征的關(guān)注,保留了更多的細(xì)節(jié)特征。密集跨級連接網(wǎng)絡(luò)具體實現(xiàn)如下:首先,在編碼器路徑上將下采樣的輸入與前特征層輸出連接,經(jīng)過兩次卷積運算,并行高語義特征在編碼器上;然后,在解碼器路徑上將編碼器路徑和解碼器路徑的特征連接在一起,通過漸進(jìn)式注意力學(xué)習(xí)金字塔結(jié)構(gòu)提取自相似性特征,并聚合相似物體外觀、位置特征。值得注意的是,對于連接不同尺寸和通道數(shù)的特征,采用了最大池化(3×3、5×5、9×9)和卷積(3×3),確保分辨率相同和通道數(shù)一致。
1.3 漸進(jìn)式注意力學(xué)習(xí)金字塔結(jié)構(gòu)
上文利用密集跨尺度連接網(wǎng)絡(luò)已經(jīng)對不同尺度的特征進(jìn)行了充分融合,然而苗族服飾圖片背景復(fù)雜度高、拍攝光照不均勻、物體類別之間存在難分類和錯誤分類的情況,會導(dǎo)致語義分割模型精度低。因此,本文設(shè)計了漸進(jìn)式注意力學(xué)習(xí)金字塔結(jié)構(gòu),如圖2所示。該結(jié)構(gòu)能對場景中受光照和背景影響大的物體的深度信息區(qū)域進(jìn)行互補(bǔ),提取到相似外觀和相近位置物體特征,降低物體的分割錯誤率。MultiDeepPPL模型中共設(shè)置了5個漸進(jìn)式注意力學(xué)習(xí)金字塔結(jié)構(gòu),每個漸進(jìn)式注意力學(xué)習(xí)金字塔結(jié)構(gòu)輸入包括了一對相同大小的跨尺度特征層。漸進(jìn)式注意力學(xué)習(xí)金字塔結(jié)構(gòu)主要利用了金字塔結(jié)構(gòu)漸進(jìn)式學(xué)習(xí)自相似性與跨尺度特征信息,在完成特征信息提取后賦予特征像素級權(quán)重,并通過3D卷積[12]聚合所有特征信息。MultiDeepPPL模型中采用不斷卷積和反卷積的方法,有效地使得每一級下采樣操作的特征圖都通過漸進(jìn)式注意力學(xué)習(xí)金字塔結(jié)構(gòu)進(jìn)行遷移學(xué)習(xí),達(dá)到提取跨尺度相似性的目的。
在漸進(jìn)式注意力學(xué)習(xí)金字塔結(jié)構(gòu)中,首先采用了可變形卷積[13],可變形卷積可以學(xué)習(xí)到更多不規(guī)則的自相似性特征,計算方式如下式所示:
(FD2)m=FDconv(Fm1,(Fi2,EAP))(1)
式中:FDconv表示可變形卷積運算,F(xiàn)m1表示當(dāng)前第m層輸入的特征圖,F(xiàn)i2,EAP表示前i層漸進(jìn)式注意力學(xué)習(xí)金字塔結(jié)構(gòu)輸出的特征圖。
可變形卷積學(xué)習(xí)的偏移offset,會根據(jù)輸入的Fm1和Fi2,EAP進(jìn)行計算,計算方式如下式所示:
(ΔP)m=FC(Fm1(Fi2,EAP))(2)
式中:ΔP表示m層的可變卷積偏移, ?表示通道連接,F(xiàn)C表示卷積運算。
然后,漸進(jìn)式注意力學(xué)習(xí)金字塔結(jié)構(gòu)通過Softmax生成Mask特征級掩碼,Mask用于漸進(jìn)式注意力學(xué)習(xí)金字塔結(jié)構(gòu)聚集學(xué)習(xí)最相關(guān)的特征,計算方式如下式所示:
(Mask)m=Softmax(FC(Fm1)-FC((Fi2,EAP)m))(3)
利用式(3)所計算的注意力掩碼Mask進(jìn)一步與可變形卷積的輸出相乘焦聚更多的相關(guān)特征。在完成卷積后,生成的特征被視作殘差信息,會映射到Fm1特征圖,得到輸出結(jié)果,輸出特征的計算方式如下式所示:
Fm=Fm1+FC(Fm1(Mask)m(FD2)m)(4)
式中:表示矩陣元素乘法運算,計算自相似性特征和跨尺度相似性特征;在執(zhí)行完可變形卷積,模型完成了自相似性和跨尺度相似性特征提取,完成自相似性和跨尺度的特征為Fm。
最后,本文對提取到的特征采用像素級運算集成權(quán)重和3D卷積計算融合提取的特征。對于像素級運算集成權(quán)重,采用了空域注意力機(jī)制計算權(quán)重,計算方式如下式所示:
(Θ)m=Sigmoid(FC(Fm1)T⊙FC(Fm))(5)
式中:⊙表示矩陣元素點積運算,T表示矩陣的轉(zhuǎn)置,F(xiàn)m表示上述提取的自相似性和跨尺度相似性提取的特征。
空域注意力機(jī)制計算的權(quán)重會將輸入的特征進(jìn)行加權(quán)融合,并采用額外融合卷積層來聚合注意力調(diào)制的特征,計算方式下式所示:
=Θm(Fm)(6)
Ffusion=FC([1,2])(7)
另外,漸進(jìn)式注意力金字塔結(jié)構(gòu)中還加入3D卷積將計算融合特征F3D,并將F3D和Ffusion特征相加進(jìn)行最后調(diào)制,計算方式如下式所示:
Fmsa=F3D+Ffusion(8)
漸進(jìn)式注意力學(xué)習(xí)金字塔結(jié)構(gòu)利用由粗到細(xì)的方式提高了信息聚合的有效性。
1.4 輔助分支結(jié)構(gòu)
MultiDeepPPL模型的深層卷積感受也大,特征映射具有較強(qiáng)的語義特征信息,有利于分割識別大目標(biāo),但是隨著網(wǎng)絡(luò)的加深,深層卷積映射的特征中小目標(biāo)特征信息容易丟失。苗族服飾分割任務(wù)中輸入的圖片通常包含大小不同的目標(biāo)。在這種情況下,只使用深層的特征映射進(jìn)行預(yù)測,很可能導(dǎo)致較小的目標(biāo)分割精度不高,而中層和淺層的特征映射包含更多的特性信息,能讓模型學(xué)習(xí)到更多鑒別信息,有利于小目標(biāo)的分割。受此啟發(fā),本文基于淺層、中層和深層的特征信息的融合作為分割結(jié)果,提出了輔助分支結(jié)構(gòu),如圖3所示。該結(jié)構(gòu)加深了對小目標(biāo)特征的提取,能夠?qū)敵鼋Y(jié)果分割效果的提升起到一定的作用。輔助分支結(jié)構(gòu)定義編碼器中Layer 6、Layer 7、Layer 8作為輔助分支結(jié)構(gòu)的輸出,其中Layer 6和Layer 7對應(yīng)淺和中層網(wǎng)絡(luò),雖然它們只包含較淺的語義信息,但是包含了更多的小目標(biāo)特征信息;而Layer 8對應(yīng)深層網(wǎng)絡(luò),包含了更多的高語義特征信息,能夠?qū)?fù)雜背景的大物體進(jìn)行分割。首先,解碼器根據(jù)不同層次的深度卷積層Layer 6、Layer 7、Layer 8劃分不同的階段,獲得不同語義的特征信息,每個階段通過反卷積得到相同大小的特征圖,并經(jīng)過卷積得到不同階段的不同類別置信系數(shù);然后,將不同置信系數(shù)的通道進(jìn)行連接,同時將它們的特征信息交叉輸入到漸進(jìn)式注意力學(xué)習(xí)金字塔結(jié)構(gòu)(PPL),使網(wǎng)絡(luò)能夠合理利用不同階段學(xué)習(xí)的特征,專注有效特征提取,丟棄冗余特征;最后,將漸進(jìn)式注意力學(xué)習(xí)金字塔結(jié)構(gòu)聚合的多層特征輸入到SoftMax分類器實現(xiàn)最終的輸出。輔助分支中采用漸進(jìn)式注意力學(xué)習(xí)金字塔結(jié)構(gòu),可以漸進(jìn)式遷移學(xué)習(xí)不同分支獲得的結(jié)果的重要權(quán)重,降低了網(wǎng)絡(luò)深度選擇特征的難度,緩解深層網(wǎng)絡(luò)造成的網(wǎng)絡(luò)退化。
2 實驗及結(jié)果分析
首先,采集實驗數(shù)據(jù);然后,搭建實驗操作平臺,并設(shè)置神經(jīng)網(wǎng)絡(luò)的超參數(shù)并設(shè)置實驗評價指標(biāo);最后,對改進(jìn)的語義分割模型進(jìn)行實驗對比。
2.1 苗族服飾數(shù)據(jù)集
目前沒有專門用于少數(shù)民族服飾圖案分割公開數(shù)據(jù)集,大多數(shù)研究者是在少數(shù)民族部落實地拍攝來進(jìn)行相關(guān)研究。本文選取了苗族服飾作為研究對象,苗族服飾資源豐富,它是所有少數(shù)民族服飾中相對較華麗的服飾。Zhang等[14]將苗族服飾圖案分為三類:幾何紋、動物紋、植物紋。幾何紋蘊(yùn)含著苗族人民對美好生活的追求,對和平的向往;動物紋表達(dá)了他們希望和動物和平相處;植物紋表達(dá)了他們對大自然生活的喜愛。
本文數(shù)據(jù)集依托于貴州西江千戶苗寨拍攝獲得,包含了幾何紋、動物紋、植物紋采集整理(圖4),該數(shù)據(jù)集分別從不同的角度進(jìn)行圖像拍攝,構(gòu)建苗族服飾圖像庫共計12 500條樣本,取10 000張圖像作為訓(xùn)練樣本,2 500張圖像作為測試樣本,樣本分布如表1所示。
2.2 設(shè) 置
本文在GPU1060Ti,Ubuntu18.04,基于Python3.6、TensorFlow1.13、Keras2.3.1環(huán)境上完成。模型訓(xùn)練數(shù)據(jù)都采用了苗族服飾數(shù)據(jù)集,訓(xùn)練策略采用了Mosaic數(shù)據(jù)增強(qiáng)、Label Smoothing、ACON激活函數(shù),并使用交叉熵(CE)損失函數(shù)來訓(xùn)練網(wǎng)絡(luò)。CE損失函數(shù)定義如下:
LCE(p,)=1wh∑w-1x=0∑h-1y=0(p(x,y)log((x,y)))+(1-p(x,y))log(1-(x,y))(9)
式中:w和h是圖像的尺寸,p(x,y)對應(yīng)于圖像的像素的標(biāo)簽,(x,y)表示模型輸出的預(yù)測概率。
實驗?zāi)P驮O(shè)置了批尺寸為14的Adam梯度下降和1e-3的學(xué)習(xí)率進(jìn)行訓(xùn)練網(wǎng)絡(luò)。該模型訓(xùn)練的迭代次數(shù)設(shè)置為200。另外,本文采用MIoU、MPA、Dice相似系數(shù)、Recall、所提出模型的參數(shù)數(shù)量和推理時間(分割圖案花費的時間)作為分割效果的評價指標(biāo),MIoU、MPA、Dice相似系數(shù)、Recall的值越大表示網(wǎng)絡(luò)預(yù)測效果越好,參數(shù)量和推理時間越少,模型效率越高。
對于基線模型比較,本文模型與Berg等[15]、Yamaguchi等[16]、SegNet[6]、Khurana等[5]、SCN-152[17]、ACNet[18]、CTNet[19]、AttentionUnet[20]、SGNet[21]進(jìn)行了比較。另外,對于本文模型的所有貢獻(xiàn)進(jìn)行了消融實驗驗證。
2.3 不同金字塔結(jié)構(gòu)可視化
熱力圖可視化可以清晰顯示金字塔結(jié)構(gòu)對圖片中不同特征信息的提取效果,因此對測試集上的苗族服飾特征應(yīng)用熱力圖可視化的方法可以直觀地證明所設(shè)計的漸進(jìn)式注意力學(xué)習(xí)金字塔結(jié)構(gòu)的優(yōu)勢。為了獲得合適的熱力特征圖,本文可視化了模型最后一層卷積操作的輸出特征,如圖5所示。漸進(jìn)式注意力學(xué)習(xí)金字塔結(jié)構(gòu)(PPL)能抑制更多的無關(guān)背景干擾和保留更多細(xì)節(jié)特征,有助于獲得更好的分割性能。即它能以金字塔結(jié)構(gòu)遷移學(xué)習(xí)自相似性與跨尺度特征信息并進(jìn)行特征聚合,相比SPP模塊[22]、ASPP模塊[23]、RFB模塊[24]更關(guān)注目標(biāo)區(qū)域,確保了更好的性能。
2.4 消融實驗
本文在苗族服飾數(shù)據(jù)集上評估了MultiDeepPPL模型的各結(jié)構(gòu)性能,將其實驗結(jié)果進(jìn)行對比(表2)。由表2可見,在基礎(chǔ)網(wǎng)絡(luò)(Base)中添加密集跨級連接網(wǎng)絡(luò)(DFCN)提高了Dice相似系數(shù)和MIoU、MPA、Recell的性能;添加輔助分支(MS)能略微提高網(wǎng)絡(luò)的性能。與沒有添加漸進(jìn)式注意力學(xué)習(xí)金字塔結(jié)構(gòu)(PPL)的相比,具有漸進(jìn)式注意力學(xué)習(xí)金字塔結(jié)構(gòu)的模型顯著提高了評價指標(biāo),這也進(jìn)一步證明了漸進(jìn)式注意力學(xué)習(xí)金字塔結(jié)構(gòu)可以保留足夠的信息。綜合運用以上方法,明顯提高了模型的性能,表明了它們的協(xié)同作用。最后,本文比較了改進(jìn)后的模型參數(shù)和推理時間,從結(jié)果上顯示雖然參數(shù)有所增加,但推理時間并沒有明顯增加,說明改進(jìn)后的模型是可以接受的。
圖6為MultiDeepPPL模型中損失函數(shù)在測試集和訓(xùn)練集的部分迭代變化,共迭代200次。由于苗族民族服飾圖片訓(xùn)練的背景復(fù)雜,曲線呈現(xiàn)明顯振蕩,但最終趨于擬合。
另外,本文展示了3種不同風(fēng)格的苗族服飾分割結(jié)果實例,如圖7所示。由圖7(c)可見,基礎(chǔ)網(wǎng)絡(luò)(Base)對苗族服飾圖像粗略分割結(jié)果,所選的實例存在分割不準(zhǔn)確的現(xiàn)象;由圖7的上面和下面可見,由于苗族服飾中存在袖子、上衣、褲子等的紋理顏色過于相近,小尺寸飾包的特征不豐富,導(dǎo)致模型分割結(jié)果出現(xiàn)錯誤。為了解決上述問題,本文在Base基礎(chǔ)上添加了密集跨級連接網(wǎng)絡(luò)(DFCN),模型獲得更加準(zhǔn)確的分割結(jié)果。由圖7中間可以看出,由于苗族服飾的飾品銀項圈背景復(fù)雜度高,導(dǎo)致模型分割精度不高,本文在Base+DFCN添加漸進(jìn)式注意力學(xué)習(xí)金字塔結(jié)構(gòu)(PPL)能夠遷移學(xué)習(xí)銀項圈的自相似性和跨尺度特征,更好提取復(fù)雜服飾特征。由圖7上面可以看出,在Base+DFCN+PPL中加入輔助分支結(jié)構(gòu)(MS),輔助分支結(jié)構(gòu)可以在一定程度上加強(qiáng)小物體飾包的分割精度。
2.5 其他模型比較
在苗族服飾數(shù)據(jù)集上,為了驗證所提出模型的可行性和效率,將MultiDeepPPL模型與Berg等[15]、Yamaguchi等[16]、Khurana等[5]、SegNet[6]4種傳統(tǒng)方法進(jìn)行了性能的比較(表3)。由表3可見,本文所使用的MultiDeepPPL模型的MPA較之前的傳統(tǒng)方法有明顯的提升,說明密集跨級連接網(wǎng)絡(luò)和漸進(jìn)式注意力學(xué)習(xí)金字塔結(jié)構(gòu)能夠使所在的模型有明顯的改善。
在苗族服飾款式上,本文比較了Yamaguchi的模型和本文模型的F1分?jǐn)?shù),如圖8所示。本文模型不僅對簡單的大標(biāo)簽袖子、上衣、裙子、護(hù)腿、褲子分割效果提升明顯,而且模型對復(fù)雜的小標(biāo)簽飾包、銀項圈、銀冠、銀角、腰帶等分割效果也有較大的提升。
另外,本文與其他6個先進(jìn)的深度學(xué)習(xí)模型進(jìn)行了比較,如表4所示。本文模型在Dice相似系數(shù)、MIoU、MPA、Recell四種指標(biāo)均優(yōu)于現(xiàn)有比較的模型,它的具體數(shù)值為0.912、0873、0.943、0.895。將MultiDeepPPL與其他多尺度編碼-解碼架構(gòu)的模型相比,如與AttentionUnet模型相比,本文模型在Dice相似系數(shù)、MIoU、MPA、Recell分別高了10.06%、6.2%、8.9%、7.58%,這得益于編碼器和解碼器中加入密集跨連接網(wǎng)絡(luò)和漸進(jìn)式注意力學(xué)習(xí)金字塔結(jié)構(gòu),使得模型對多尺度特征融合取得了更佳的效果。另一方面,本文模型相比于SGNet、AttentionUnet、CTNet參數(shù)量和預(yù)測時間均有減少,如與SGNet模型相比,MultiDeepPPL模型在參數(shù)量上減少了68.76 M,預(yù)測時間減少了0.04 s,說明本文的模型效率上也優(yōu)于當(dāng)前大部分模型。
2.6 可視化結(jié)果
圖9為不同模型在苗族服飾數(shù)據(jù)集上的可視化結(jié)果,其中(a)為真實少數(shù)民族服飾圖片,(b)為語義標(biāo)簽圖,(c)為SGNet的語義分割結(jié)果,(d)為AttentionUnet的語義分割結(jié)果,(e)為本文MultiDeepPPL模型的語義分割結(jié)果。雖然AttentionUnet和SGNet對易分辨的大物體分割效果好,如上衣、裙子等,但是對小飾品和顏色相近的服飾圖案分割效果不理想。而本文模型不僅在大物體分割能達(dá)到上述模型的分割效果,同時對小尺度的服飾,以及顏色相近的服飾圖案能提取出明顯的分割特征,如紅色框的飾包、黃色框的腰帶、紫色框的護(hù)腿、綠色框的項鏈。說明了本文模型的密集跨級連接網(wǎng)絡(luò)和漸進(jìn)式注意力學(xué)習(xí)金字塔結(jié)構(gòu)能有效利用苗族服飾的多尺度特征,進(jìn)行相似性、跨尺度相似性和互補(bǔ)性特征提取,并融合全局信息提高分割效果。
3 結(jié) 論
針對目前深度學(xué)習(xí)模型分割苗族服飾精度差、分割難等問題,本文提出了基于MultiDeepPPL的苗族服飾圖案分割模型。首先,設(shè)計了密集跨級連接網(wǎng)絡(luò),該網(wǎng)絡(luò)充分提取了苗族服飾中不同尺度的特征信息,加強(qiáng)了模型提取特征能力;然后,嵌入了漸進(jìn)式注意力學(xué)習(xí)金字塔結(jié)構(gòu),不僅遷移學(xué)習(xí)自相似性和跨尺度相似性,而且能對特征進(jìn)行聚合;最后,通過對比實驗,本文模型取得了良好的分割效果,證明了MultiDeepPPL模型可以幫助少數(shù)民族文化研究者進(jìn)行自動和準(zhǔn)確地分割苗族服飾圖案飾。但是其他少數(shù)民族數(shù)據(jù)集(如壯族服飾、白族服飾等)數(shù)據(jù)量有限,導(dǎo)致模型訓(xùn)練擬合程度不高,分割精度較差,下一步的研究準(zhǔn)備基于無監(jiān)督的物體分割,憑借少量的數(shù)據(jù)訓(xùn)練擬合程度更高的模型。
《絲綢》官網(wǎng)下載
中國知網(wǎng)下載
參考文獻(xiàn):
[1]張云婕. 侗族傳統(tǒng)服裝藝術(shù)研究[D]. 長沙: 湖南師范大學(xué), 2019.
ZHANG Yunjie. Research on the Traditional Costume Art of Dong Nationality[D]. Changsha: Hunan National University, 2019.
[2]HUO P, WANG Y, LIU Q. A part-based and feature fusion method for clothing classification[C]//Pacific Rim Conference on Multimedia. New Delhi: Springer, 2016: 231-241.
[3]SUN Y, LIU Q. Attribute recognition from clothing using a Faster R-CNN based multitask network[J]. International Journal of Wavelets, Multiresolution and Information Processing, 2018, 16(2): 1-13.
[4]LIANG X, LIU S, SHEN X, et al. Deep human parsing with active template regression[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2015, 37(12): 2402-2414.
[5]KHURANA T, MAHAJAN K, ARORA C, et al. Exploiting texture cues for clothing parsing in fashion images[C]//25th IEEE International Conference on Image Processing (ICIP). New York: IEEE, 2018: 2102-2106.
[6]BADRINARAYANAN V, KENDALL A, CIPOLLA R. Segnet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(12): 2481-2495.
[7]GUO J, SU Z, LUO X, et al. Conditional feature coupling network for multi-persons clothing parsing[C]//Pacific Rim Conference on Multimedia. New Delhi: Springer, 2018: 189-200.
[8]LIU S, LIANG X, LIU L, et al. Matching-cnn meets knn: Quasi-parametric human parsing[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 1419-1427.
[9]ALY G H, MAREY M A E R, EL-SAYED A S, et al. YOLO V3 and YOLO V4 for masses detection in mammograms with resnet and inception for masses classification[C]//International Conference on Advanced Machine Learning Technologies and Applications. Cham: Springer, 2021: 145-153.
[10]SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 2818-2826.
[11]MA N, ZHANG X, LIU M, et al. Activate or not: Learning customized activation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Online: IEEE, 2021: 8032-8042.
[12]LIU G, MITRA D, JONES E F, et al. Mask-guided convolutional neural network for breast tumor prognostic outcome prediction on 3D DCE-MR images[J]. Journal of Digital Imaging, 2021, 34(3): 630-636.
[13]DAI J, QI H, XIONG Y, et al. Deformable convolutional networks[C]//Proceedings of the IEEE International Conference on Computer Vision. Honolulu: IEEE, 2017: 764-773.
[14]ZHANG C, WU S, CHEN J. Identification of miao embroidery in southeast guizhou province of china based on convolution neural network[J]. Autex Research Journal, 2021, 21(2): 198-206.
[15]YAMAGUCHI K, KIAPOUR M H, ORTIZ L E, et al. Parsing clothing in fashion photographs[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Providence: IEEE, 2012: 3570-3577.
[16]YAMAGUCHI K, HADI K M, BERG T L. Paper doll parsing: Retrieving similar styles to parse clothing items[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Portland: IEEE, 2013: 3519-3526.
[17]LIN D, ZHANG R, JI Y, et al. SCN: Switchable context network for semantic segmentation of RGBD images[J]. IEEE Transactions on Cybernetics, 2018, 50(3): 1120-1131.
[18]HU X, YANG K, FEI L, et al. Acnet: Attention based network to exploit complementary features for RGBD semantic segmentation[C]//2019 IEEE International Conference on Image Processing (ICIP). New York: IEEE, 2019: 1440-1444.
[19]XING Y, WANG J, CHEN X, et al. Coupling two-stream RGBD semantic segmentation network by idempotent mappings[C]//2019 IEEE International Conference on Image Processing (ICIP). New York: IEEE, 2019: 1850-1854.
[20]LI C, TAN Y, CHEN W, et al. ANU-Net: Attention-based nested U-Net to exploit full resolution features for medical image segmentation[J]. Computers & Graphics, 2020, 90: 11-20.
[21]CHEN L Z, LIN Z, WANG Z, et al. Spatial information guided convolution for real-time RGBD semantic segmentation[J]. IEEE Transactions on Image Processing, 2021, 30: 2313-2324.
[22]HE K, ZHANG X, REN S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2015, 37(9): 1904-1916.
[23]AHMAD P, JIN H, QAMAR S, et al. RD 2 A: Densely connected residual networks using ASPP for brain tumor segmentation[J]. Multimedia Tools and Applications, 2021: 1-26.
[24]LIU S, HUANG D. Receptive field block net for accurate and fast object detection[C]//Proceedings of the European Conference on Computer Vision (ECCV). Munich: Springer, 2018: 385-400.
Abstract: There are a wide variety of costume patterns in China, which are the carriers of national culture. Ethnic minorities reflect their religious culture and totem culture in costume patterns and architectural decoration, not only for self-beatification but also for conveying special cultural significance. Ethnic minorities have experienced regional migration and cultural integration in the process of evolution, resulting in great changes and differences in costume patterns in different periods and regions, as well as complex structures and various categories of the same-style ethnic costumes with different details and attributes. Miao costumes, characterized by complex structure, bright colors, diverse textures and patterns, various styles and rich ornaments, were selected as the example to conduct further studies. Since it is difficult to segment the local details of Miao costumes and distinguish the high-level visual semantic attributes from low-level feature semantic attributes using current semantic segmentation models based on deep learning, a new model MultiDeepPPL was proposed in this paper to improve the above-mentioned shortcomings of deep learning, enhance the efficiency of Miao costume pattern segmentation and provide a new perspective for minority culture research and dissemination.
To address the problem of low quality of clothing mask fitting in the extraction process of semantic segmentation model of Miao costumes based on deep learning, a new multi-scale deep learning pyramidal network of progressive attentional learning (MultiDeepPPL) was proposed for the segmentation of Miao costumes. Firstly, a dense cross-level connection network was designed adopting a two-level structure. In the first-level structure, the low-scale and medium-scale feature images were fused in the encoder; in the second-level structure, the fused results were fused as a whole with high-scale feature images. Then, a pyramid structure of progressive attentional learning was embedded, which could input a pair of cross-scale feature layers of the same size into the pyramid structure to progressively learn self-similarity and cross-scale feature information. After the feature information was extracted, the features were assigned with pixel-level weight, and all the feature information was aggregated by 3D convolution. The model can fully extract the feature information of Miao costumes of different scales, strengthen its feature extraction ability, learn self-similarity and cross-scale similarity, and aggregate the features. The experimental results have shown that the Mean Intersection over Union (MIoU) and Mean Pixel Accuracy (MPA) of the proposed model reached 0.873 and 0.943 on the Miao costumes data set, respectively. Dicesimilarity coefficient reached 0.912, and Recall reached 0.895 1. The results of the above evaluation indicators show that the proposed method is obviously superior to other existing semantic segmentation algorithms, and it provides an effective and feasible method for the study of ethnic culture.
The MultiDeepPPL model proposed in this paper has achieved good segmentation effects in the segmentation of Miao costumes, indicating that this model can help researchers automatically and accurately segment Miao costumes patterns. However, other ethnic minority datasets (such as Zhuang costumes and Bai costumes, etc.) are relatively insufficient, resulting in low model training fitting degree and poor segmentation accuracy. It is planned to train an efficient model based on unsupervised object segmentation with a small amount of data in the subsequent research.
Key words: Miao costumes; semantic segmentation;spatial attention; 3D convolution; multiscale