亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種融合注意力機制的苗族服飾圖案分割方法

2023-01-15 08:38:28萬林江黃成泉張博源周麗華

毛紡科技 2022年12期

萬林江，黃成泉，張博源，王琴，周麗華

(1.貴州民族大學(xué) 數(shù)據(jù)科學(xué)與信息工程學(xué)院，貴州貴陽 550025；2.貴州民族大學(xué) 工程技術(shù)人才實踐訓(xùn)練中心，貴州貴陽 550025)

民族服飾文化是各族人民的勞動成果、色彩喜好、風(fēng)俗特點和宗教信仰等各種文化交融的體現(xiàn)，是中國傳統(tǒng)文化必不可少的一部分。苗族服飾文化是其中最具代表性的文化之一。苗族服飾圖案豐富多彩，有著較高的藝術(shù)審美價值，且蘊含著一代又一代人對美好事物的期望。苗族服飾圖案在不同的歷史時期、不同的區(qū)域都有著區(qū)別與變化，不管是圖案樣式，還是制作手法，都有著獨屬于自己民族和地方的風(fēng)格特點。

分割出精準(zhǔn)的苗族服飾圖案，能有效地將苗族服飾圖案進(jìn)行數(shù)字化保存，對苗族服飾文化的分析和解讀等研究具有重要意義。圖像分割的主流定義就是將圖像進(jìn)行切割，將圖像采用某種標(biāo)準(zhǔn)進(jìn)行區(qū)域劃分(這些區(qū)域相互之間都不交叉)，并從中提取出感興趣的目標(biāo)。目前的圖像分割技術(shù)已經(jīng)被廣泛地應(yīng)用在生活中，如人臉識別[1]、醫(yī)學(xué)影像[2]、無人駕駛[3]等。在現(xiàn)有的服飾圖案研究中，大部分是從人文的角度通過綜述的形式對苗族服飾的重要性進(jìn)行闡述；或者通過基于模糊C均值聚類[4]和主動輪廓[5]等傳統(tǒng)方法對苗族服飾圖案進(jìn)行分割研究。在以往研究中，主要根據(jù)圖案的色彩、紋樣等的相似性進(jìn)行分割，其在分割效率和精度上，與深度學(xué)習(xí)還有一定的差距。也有少部分人利用深度學(xué)習(xí)的方法對服裝等圖案進(jìn)行分割，例如：徐瑩珩等[6]和游小榮等[6]運用神經(jīng)網(wǎng)絡(luò)的方法在復(fù)雜背景下對服裝圖案進(jìn)行有效的分割。但是運用深度學(xué)習(xí)對苗族服飾圖案進(jìn)行分割的方法少之又少，苗族服飾圖案具有多元化的特點，其包含著獨特的紋樣、圖騰、紋理等重要的元素特征。運用深度學(xué)習(xí)有效且準(zhǔn)確地對苗族服飾圖案進(jìn)行分割具有極大的挑戰(zhàn)性。

針對上述問題，本文提出一種SegNet模型與注意力機制相結(jié)合的苗族服飾分割算法(稱為SE-SegNet)。嘗試用該算法加強模型對圖像前景區(qū)域的關(guān)注，以增強對特征信息的保留和融合，進(jìn)而提高苗族服飾圖案的分割精度。本文為少數(shù)民族服飾圖案的分割研究提供了一種有效可行的方法。

1 相關(guān)工作

深度學(xué)習(xí)模型在計算機領(lǐng)域的成功應(yīng)用，吸引了大量的科研人員來研究運用深度學(xué)習(xí)的方法進(jìn)行圖像分割，圖像分割技術(shù)因此誕生了許多開創(chuàng)性成果。Long等[8]提出了一種全卷積網(wǎng)絡(luò)(FCN)，其實現(xiàn)過程是基于端到端實現(xiàn)，奠定了語義分割在深度學(xué)習(xí)中的重要地位。FCN是基于VGG-16[9]網(wǎng)絡(luò)的進(jìn)一步研究，引入了Skip layer，實現(xiàn)了像素級別的分類。但FCN的計算效率低，不能有效地獲取到圖像的全部特征信息。Badrinarayanan等[10]在FCN的基礎(chǔ)上提出了SegNet模型，它的核心是由1個編碼器網(wǎng)絡(luò)(VGG-16網(wǎng)絡(luò)的13個卷積層，去掉了全連接層)和1個與之對應(yīng)的解碼器網(wǎng)絡(luò)構(gòu)成。SegNet通過最大池化來增加感受野，記錄并保存相應(yīng)位置的最大池化索引，在解碼器中使用儲存的索引，可在一定程度上提高分辨率。Ronneberger等[11]提出了一種U型網(wǎng)絡(luò)結(jié)構(gòu)(U-Net)，上采樣過程與下采樣過程對應(yīng)，并融合了特征信息，對每一張圖像進(jìn)行了逐像素的預(yù)測，在圖像分割方面獲得了良好的表現(xiàn)。

隨著深度學(xué)習(xí)的快速發(fā)展，各種網(wǎng)絡(luò)模型在圖像分割方面展現(xiàn)出優(yōu)異的性能。Zhao等[12]提出的PSPNet，融合特征圖的上下文信息，能夠獲得較好的全局特征。Chen等[13-15]提出的DeepLabv系列網(wǎng)絡(luò)模型，在圖像處理過程中引入空洞卷積[16]并進(jìn)行改進(jìn)，融合了更多的特征信息。Hu等[17]在SENet模型中提出了SE模塊，通過特征通道的信息，壓縮和激勵每個通道的權(quán)重，并將權(quán)重應(yīng)用到對應(yīng)的通道中，增強了模型對特征信息的提取。Oktay等[2]在UNet的結(jié)構(gòu)上融入了注意力機制(Attention UNet)，通過注意力加強對目標(biāo)區(qū)域的關(guān)注，抑制背景區(qū)域，分割性能顯著提升。Fu等[18]提出了雙注意力融合網(wǎng)絡(luò)(DANet)，融合了位置注意力模塊和通道注意力模塊，通過2個模塊在特征圖中的相互聯(lián)系進(jìn)行加權(quán)，將其輸出進(jìn)行融合，使得分割效果得到極大的改善。

2 本文算法

2.1 SE注意力模塊

SE注意力模塊主要由Squeeze和Excitation部分組成。Squeeze部分在特征圖進(jìn)行卷積操作后再進(jìn)行全局平均池化(GAP)；Excitation部分將通道權(quán)重放入Sigmoid函數(shù)中，在區(qū)間內(nèi)進(jìn)行映射，也就是歸一化處理過程。SE模塊是從特征圖的通道入手，根據(jù)每個通道的影響程度進(jìn)行劃分，加強影響程度較大的特征通道的關(guān)注，抑制影響程度較小的特征通道的關(guān)注。

SE注意力模塊如圖1所示。X表示輸入圖像；U表示輸出圖像；C、W、H分別表示圖像的通道數(shù)、寬度和高度；C′、W′、H′分別表示卷積操作Ftr之前的C、W；Fsq(·)表示對U進(jìn)行GPA操作(Squeeze部分)；Fex(·,W)表示用2次全連接對Squeeze得到的1×1×C數(shù)據(jù)進(jìn)行映射變換(Excitation部分)；Fscale(·,·)表示將Excitation輸出的歸一化權(quán)重與U對應(yīng)的每個特征通道進(jìn)行加權(quán)。

圖1 SE(Squeeze-and-Excitation)注意力模塊Fig.1 SE (Squeeze-and-Congestion) attention module

2.2 SegNet模型

SegNet模型的編碼器部分包括卷積層、批標(biāo)準(zhǔn)化(Batch Normalisation)、激活函數(shù)、池化層。卷積層可獲得圖像的特征圖，有助于提取輪廓等特征信息；Batch Normalisation有助于特征圖數(shù)據(jù)信息的穩(wěn)定和權(quán)重的學(xué)習(xí)；池化層用于存儲索引、降低維度和增加模型的魯棒性。解碼器部分包括上采樣、卷積層、批標(biāo)準(zhǔn)化、激活函數(shù)。將存儲的索引和相應(yīng)的特征圖通過池化層進(jìn)行上采樣，把低分辨率特征圖轉(zhuǎn)換為高分辨率特征圖。SegNet模型的解碼器與編碼器可分為相對應(yīng)的5個部分：第1、2部分分別包含2個卷積層，第3、4、5部分分別包含3個卷積層，共13個卷積層相對應(yīng)。本文算法在SegNet模型的基礎(chǔ)上進(jìn)行改進(jìn)，去除了第3、4部分相對應(yīng)的1個卷積層以及第5部分相對應(yīng)的3個卷積層。本文算法的網(wǎng)絡(luò)結(jié)構(gòu)的編碼器與解碼器分別有8個卷積層一一對應(yīng)，每個卷積層均有Batch Normalisation，線性整流函數(shù)(ReLU)作為激活函數(shù)，卷積核大小為3×3。編碼器的卷積層分為4部分，每部分含有最大池化層；解碼器通過編碼器的Pooling儲存的索引進(jìn)行上采樣，模型最后一個卷積層接一個非線性函數(shù)Sigmoid作為激活函數(shù)，優(yōu)化器為隨機梯度下降法(SGD)。經(jīng)過實驗，減少卷積層后的SegNet模型用于苗族服飾圖案分割，在一定程度減少了內(nèi)存消耗，其交并比(IoU)值為0.821 5，Dice系數(shù)為0.902 0，分割效果高于SegNet模型。本文在改進(jìn)的SegNet模型中的編碼器與解碼器之間融入了SE注意力模塊。如圖2所示，解碼器部分的輸出作為注意力模塊的輸入，該模塊根據(jù)通道之間的相關(guān)性，加強了對特征信息的關(guān)注，減少了重要信息的損失。

圖2 改進(jìn)的SegNet模型結(jié)構(gòu)Fig.2 Improved SegNet model structure

2.3 交叉熵?fù)p失函數(shù)

交叉熵?fù)p失函數(shù)在權(quán)重更新方面表現(xiàn)出優(yōu)異的性能，權(quán)重更新根據(jù)誤差的變化而變化。誤差大時；更新快，誤差小時，更新慢。交叉熵?fù)p失函數(shù)可用在不同的分類問題中，數(shù)學(xué)表達(dá)式一般分為2類。二分類問題中的loss函數(shù)為

(1)

多分類問題中的loss函數(shù)為

(2)

式中：x表示樣本；y表示樣本x的標(biāo)簽；a表示樣本預(yù)測的輸出；n表示樣本總數(shù)量。

3 實驗結(jié)果與分析

3.1 數(shù)據(jù)集

實驗數(shù)據(jù)集為苗族服飾數(shù)據(jù)集，數(shù)據(jù)集包含訓(xùn)練集和測試集2部分，圖像大小均為512×512。實驗數(shù)據(jù)集來源于北京服裝學(xué)院民族服飾博物館，通過數(shù)據(jù)增強進(jìn)行擴充，最終得到實驗數(shù)據(jù)集共506張，其中，訓(xùn)練數(shù)據(jù)集占80%，共405張；測試數(shù)據(jù)集占20%，共101張。實驗數(shù)據(jù)集標(biāo)簽來源于文獻(xiàn)[5]。

3.2 環(huán)境及參數(shù)設(shè)置

實驗環(huán)境為Ubuntu 14.04、CUDA 10.1、Python 3.6、Pytorch 1.7.1，CPU頻率為4.2 GHz，GPU顯卡為GeForce GTX 1080 Ti，顯存為8 GB。模型訓(xùn)練Epochs設(shè)為35，Batch Size設(shè)為4，學(xué)習(xí)率為1e-2，隨機梯度下降法作為模型的優(yōu)化器，損失函數(shù)為交叉熵?fù)p失函數(shù)。

3.3 實驗評價指標(biāo)

為了對本文算法性能進(jìn)行一個評判，便于與其他分割模型進(jìn)行對比，使用5個指標(biāo)作為實驗的評估標(biāo)準(zhǔn):①像素準(zhǔn)確率(PA)；②交并比(IoU)；③相似系數(shù)(Dice)；④敏感度(Sensitivity)；⑤精確率(Precision)。計算方法見式(3)～(7)：

(3)

(4)

(5)

(6)

(7)

式中：TP表示預(yù)測為真，實際為真；TN表示預(yù)測為假，實際為假；FP表示預(yù)測為真，實際為假；FN表示預(yù)測為假，實際為真。

3.4 結(jié)果與分析

當(dāng)模型訓(xùn)練Epochs為35輪時，改進(jìn)后的SegNet網(wǎng)絡(luò)模型效果達(dá)到最優(yōu)(還未融入注意力機制，PA為0.912 7，IoU為0.821 5，Dice為0.902 0)。為了測試不同注意力機制在本文改進(jìn)的SegNet模型中的分割效果，將6個不同的注意力模塊融入改進(jìn)后的SegNet網(wǎng)絡(luò)并進(jìn)行對比。表1示出不同注意力模塊的分割結(jié)果?？梢姡篊A[19]和ECA[20]注意力模塊在改進(jìn)模型中的效果較差，降低了模型的分割精度；當(dāng)融入CBAM[21]、GCT[22]和FCA[23]注意力模塊時，模型的分割精度變化不大，無明顯的提升效果；當(dāng)融入SE[17]注意力模塊時，與改進(jìn)的SegNet模型相比，IoU提高了3.80%，Dice提高了2.05%，模型的分割效果提升顯著。實驗結(jié)果表明，SE注意力模塊能有效提高本文模型的分割性能。

在同等實驗條件下，根據(jù)3.3節(jié)所述5個評價指標(biāo)，將本文模型SE-SegNet與SegNet[10]、U-Net[11]、ENet[24]、LinkNet[25]、ESPNet[26]、EDANet[27]和DABNet[28]7個網(wǎng)絡(luò)模型進(jìn)行比較，結(jié)果如表2所示，從PA、IoU和Dice這3個重要評價指標(biāo)來看，本文提出的SE-SegNet網(wǎng)絡(luò)模型的分割結(jié)果優(yōu)于其他7個網(wǎng)絡(luò)模型，敏感度及精確率高于大部分網(wǎng)絡(luò)。SE-SegNet的分割結(jié)果與其他網(wǎng)絡(luò)相比，PA至少提高了2.04%，IoU至少提高了5.14%，Dice至少提高了2.78%。實驗表明，提出的SE-SegNet模型適用于苗族服飾數(shù)據(jù)集的分割，且有著優(yōu)異的分割性能。本文是基于SeNet模型進(jìn)行改進(jìn)的，與SegNet模型相比，SE-SegNet模型的PA提高了2.86%，IoU提高了6.72%，Dice提高了3.62%，敏感度提高了7.70%，精確率的值略低于SegNet模型。

表1 不同注意力模塊的分割結(jié)果Tab.1 Segmentation results of different attention modules

表2 苗族服飾數(shù)據(jù)集在不同網(wǎng)絡(luò)模型中的分割結(jié)果Tab.2 Segmentation results of Miao clothing data set in different network models

本文將SE-SegNet與實驗對比網(wǎng)絡(luò)(PA值為0.88以上的網(wǎng)絡(luò))的分割圖片進(jìn)行可視化，如圖3所示，分別選取了7張具有代表性的圖片，第1行和第2行分別是苗族服飾圖案的原圖和標(biāo)簽，第3～6行是本文模型和對比模型的分割結(jié)果，可以看出改進(jìn)后的模型分割結(jié)果優(yōu)于其他網(wǎng)絡(luò)，其在細(xì)節(jié)方面分割取得了良好的成績，但在苗族服飾圖案內(nèi)容比較復(fù)雜(如第5列原圖對比度低；第6、7列原圖顏色差異大，且顏色種類多)時，分割效果略差于U-Net模型，但是U-Net模型在細(xì)節(jié)方面的分割略差于本文改進(jìn)后的SegNet模型。

圖3 不同網(wǎng)絡(luò)模型的分割結(jié)果視覺對比圖Tab.3 Visual comparison of segmentation results of different network models

4 結(jié)束語

本文提出了一種基于改進(jìn)SegNet模型的苗族服飾圖案分割方法SE-SegNet，通過對骨干網(wǎng)絡(luò)SegNet進(jìn)行改進(jìn)，減少內(nèi)存消耗，提高分割效率；并在模型的上采樣開始時融入了一個SE注意力模塊，利用特征通道之間的相關(guān)性，根據(jù)不同通道的權(quán)重大小，獲取到不同通道的重要程度，提高了模型對細(xì)節(jié)信息的處理能力；為了加強苗族服飾圖案細(xì)小紋理的分割，采用了二分類交叉熵?fù)p失函數(shù)，極大地減少了細(xì)節(jié)信息的丟失。實驗證明，改進(jìn)后的模型分割效果優(yōu)于U-Net、SegNet和ESPNet等7個模型。雖然本文算法對苗族服飾圖案的分割精度有一定的提高，但是對圖案色彩差異大且顏色種類多的圖像分割效果不理想，因此下一步的研究重點將是如何提高色彩差異大且顏色種類多的苗族服飾圖像的分割精度。