顧梅花, 劉 杰, 李立瑤, 崔 琳
(西安工程大學 電子信息學院, 陜西 西安 710048)
電子商務飛速發(fā)展的時代,網(wǎng)店商家與買家群體越來越多,人們更傾向于在線上選購心儀服裝。網(wǎng)購服裝逐漸成為一種主流消費趨勢,各大購物平臺推出了“以圖搜圖”的服裝檢索功能[1-3],服裝圖像分割作為服裝檢索的前期工作,其分割精度在很大程度上影響著檢索結果的準確性[4-6]。然而,實際應用中服裝圖像大多來源于網(wǎng)絡、廣告片段、影視截圖、實景拍攝等,服裝的款式與風格繁多,背景復雜,對服裝圖像分割的干擾較為明顯,且因拍攝的距離、角度與著裝人體姿態(tài)的不同,容易產生衣物小尺寸、皺褶以及遮擋等問題,會使得服裝圖像分割準確率較低,針對這些問題,國內外學者從不同角度展開了研究工作。
文獻[7]采用形態(tài)學預處理方法結合Canny算子對服裝圖像進行輪廓提取,但由于服裝本身內容細節(jié)復雜,提取的服裝輪廓信息準確率較低。文獻[8]提出一種Fashion-16模型,采用卷積神經(jīng)網(wǎng)絡提取服裝特征,依據(jù)softmax函數(shù)處理劃分服裝類別,結合局部敏感哈希思想實現(xiàn)同類別檢索,提取目標服裝的區(qū)域特征與類別屬性;文獻[9]提出了一種融合自適應局部特征與改進模糊C均值(FCM)的服裝圖像分割算法,通過減少內部區(qū)域噪聲提高了服裝圖像的分割精度,但這2種方法只考慮了簡單背景下的服裝圖像分割,無法保證復雜背景下的服裝圖像分割效果。文獻[10]提出一種基于先驗知識融合顏色和紋理特征的無監(jiān)督分割算法,對服裝圖像進行分塊處理,提升圖像分割的準確性,但該方法未解決遮擋對圖像分割造成的影響問題。文獻[11]提出一種結合標簽優(yōu)化和語義分割的服裝圖像檢索方法,通過構建視覺風格分析概率模型進行標簽優(yōu)化,提升了對少數(shù)民族服裝圖像分割性能,但并不適合于一般服裝目標的分割。文獻[12]提出一種基于超像素融合和姿態(tài)估計相結合的服裝圖像分割方法,采用一種層次超像素融合策略,提升了服裝的分割性能,但未考慮服裝發(fā)生形變對分割準確度的影響。
為解決上述問題,文獻[13]采用Mask R-CNN[14]模型訓練DeepFashion2數(shù)據(jù)集,經(jīng)ResNet網(wǎng)絡獲取圖像中的服裝信息,結合區(qū)域建議網(wǎng)絡(RPN)與感興趣區(qū)域對齊(RoIAlign)處理將特征輸入不同的預測分支,可實現(xiàn)不同場景下服裝圖像的檢測、分割與檢索,但未對小尺寸服裝與遮擋服裝的分割問題給出解決方案。本文在文獻[13]的研究基礎上,通過對Mask R-CNN模型的網(wǎng)絡結構進行優(yōu)化,改善復雜背景下小尺寸服裝與遮擋服裝圖像分割準確率低的問題。首先采用增強特征金字塔網(wǎng)絡優(yōu)化Mask R-CNN模型對圖像中多尺度服裝特征的學習能力,提升對小尺寸服裝的分割準確度;其次在類別分支、邊界框回歸分支與掩膜預測分支分別引入通道注意力模塊以及空間注意力模塊,結合圖像的上下文特征與空間信息,強化各分支對圖像中服裝區(qū)域特征的關注度,提升遮擋服裝的分割準確度。
Mask R-CNN[14]通過在Faster R-CNN模型[15]的網(wǎng)絡頭部添加一個用于預測目標掩膜(Mask)的分支,與邊界框回歸和類別預測并行處理,完成對圖像中目標區(qū)域的實例分割任務。Mask R-CNN模型主要包括ResNet+FPN主干網(wǎng)絡、RPN、RoIAlign處理、網(wǎng)絡頭部(Head)共4個部分,將其應用于服裝圖像分割任務中,整體網(wǎng)絡結構如圖1所示。
圖1 Mask R-CNN服裝圖像分割模型結構示意圖Fig.1 Model structure image of Mask R-CNN garment segmentation
由圖1可知,Mask R-CNN將特征金字塔網(wǎng)絡FPN[16]與ResNet50結合,主干網(wǎng)絡提取輸入服裝圖像特征,融合多層特征信息后,經(jīng)RPN獲得感興趣的區(qū)域,通過RoIAlign處理將所有感興趣區(qū)域(RoI)都池化成相同大小的特征圖,最后進行分類、回歸和掩膜預測,實現(xiàn)對服裝圖像的實例分割,圖2示出Mask R-CNN模型對服裝圖像的分割效果。
從圖2可看出,Mask R-CNN能夠檢測出不同場景下的服裝圖像,并生成對應掩膜覆蓋服裝區(qū)域,提取出圖像中感興趣的服裝目標,但仍然存在以下問題:1)圖2(a)中短袖的右上部受非目標物遮擋無法有效分割,且長褲區(qū)域對應掩膜的邊緣擬合性不是很好;2)圖2(b)中吊帶連衣裙的框選未能將連衣裙整體納入預測區(qū)域,丟失部分服裝信息;3)圖2(c)中左側背心裙因拍攝角度造成服裝區(qū)域的不規(guī)則形變,影響模型的分割效果。
圖2 Mask R-CNN服裝圖像分割效果Fig.2 Clothing image segmentation of Mask R-CNN. (a) Occlusion target segmentation;(b) Small target segmentation;(c) Multi-objective segmentation
通過分析,Mask R-CNN在特征學習過程中存在3個缺陷:1)融合過程未考慮多層特征之間的語義差異,導致服裝特征表達能力較低;2)頂層高級特征降維后造成服裝特征信息的丟失;3)根據(jù)目標大小啟發(fā)式選擇不同層級生成對應的RoI特征,忽略了不同層級特征對于同一RoI的描述。另外,Mask R-CNN直接通過全連接層將輸入的特征信息用于目標預測任務,忽略了服裝圖像的空間相關性,在多目標檢測與分割任務中,對存在相互遮擋的目標處理效果略有欠缺。
針對上述問題,本文提出一種結合改進多尺度特征學習策略與雙重注意力機制的服裝圖像分割方法,提取豐富的多尺度服裝特征信息,并加強對重要服裝區(qū)域的關注度,可明顯改善小尺寸與遮擋對服裝圖像分割精度的影響,且能較為準確地提取圖像中的服裝區(qū)域。
本文采用增強特征金字塔網(wǎng)絡(AugFPN)[17]優(yōu)化Mask R-CNN模型對服裝圖像多尺度特征的學習能力,通過一致監(jiān)督策略縮小特征融合前不同尺度服裝特征的語義差距;在融合過程中通過增強殘差特征,提取比例不變的上下文信息,減少最高層級服裝特征在映射過程中出現(xiàn)的信息缺失;最后采用軟RoI選擇,使模型在特征融合后能夠自適應地獲取更優(yōu)的RoI特征,通過自適應空間融合改善服裝目標區(qū)域邊界特征的擬合問題,優(yōu)化模型對不同尺寸服裝圖像的識別與分割效果。AugFPN模塊的整體網(wǎng)絡結構如圖3所示。
圖3 AguFPN模塊網(wǎng)絡結構Fig.3 Module network structure of AugFPN
特征融合前,AugFPN通過對多尺度服裝特征執(zhí)行同一規(guī)則進行監(jiān)督,縮小不同層級間語義特征的差異。{C2,C3,C4,C5}表示用于構建特征金字塔的特征,首先,輸入服裝圖像經(jīng)主干網(wǎng)絡處理,生成多尺度特征{M2,M3,M4,M5};然后在特征金字塔{P2,P3,P4,P5}上使用RPN生成RoIs,并采用RoIAlign方法獲取各RoI在不同層級上的特征映射;再對特征結果進行分類、回歸和掩膜預測處理,獲取對應的輔助損失;最后通過共享不同層級的預測參數(shù),促使特征映射過程在相同監(jiān)督下學習相似的語義信息。損失函數(shù)計算公式如下:
式中:LRCNN為Mask R-CNN的損失,Lcls,M、Lbox,M與Lmask,M分別為特征圖{M2,M3,M4,M5}經(jīng)分類、回歸與掩膜預測處理的輔助損失;Lcls,P、Lbox,P與Lmask,P為對應于金字塔特征層{P2,P3,P4,P5}的輔助損失;pM、dM和qM分別表示特征圖上的預測結果;pP、dP和qP為對應于金字塔特征的預測結果;t*、b*和e*分別表示目標分類、邊界框回歸和掩膜的真實標注;引入的λ用于平衡輔助損失與原始損失之間的權重,β和γ分別用于平衡邊界框回歸、掩膜預測與分類之間的權重;其中,對[t*>0]的定義如下:
輔助分支僅存在于模型的測試階段,預測過程僅采用特征金字塔上的分支進行預測,這種訓練方式可避免額外參數(shù)的引入,使計算量的增加僅存在于推理階段。
對于原FPN存在的因高層特征降維造成信息丟失的問題,AugFPN引入殘差特征增強(RFE)模塊,結合服裝圖像的空間上下文信息優(yōu)化最高層級的特征表示,從而減少特征融合過程中對高層特征的信息損失,殘差特征增強原理如圖4所示。
圖4 殘差特征增強原理Fig.4 Principle of residual feature enhancement
圖4中,RFE模塊直接采用C5層作為輸入,避免了因特征降維造成的信息損失,C5的尺度為S=h×w,首先對輸入的C5層特征進行比率不變的自適應池化處理,生成不同規(guī)模的上下文特征圖{a0S,a1S,…,an-1S};然后采用1×1卷積保持通道數(shù)為256,再經(jīng)過上采樣處理恢復至原尺寸;最后融合上下文特征生成新的特征層M6,其中自適應空間融合模塊對每個特征生成對應的空間權重,依據(jù)模型在訓練過程中學習到的權重信息相加;將M6與M5求和更新M5;最后將更新后的M5繼續(xù)與其他低層信息融合,構建新的特征金字塔。
原FPN中RoI對應的特征根據(jù)RoI的尺度選擇對應提取的層,小尺寸服裝目標對應在低層級特征圖上獲取特征,而大尺寸服裝目標在高層級特征圖上獲取特征,這種單一的映射關系會導致2個尺寸非常接近的服裝目標被映射到不同的特征層級上。AugFPN采用軟RoI選擇在特征融合后自適應地學習更好的RoI特征,首先對建議對應的所有層級上的特征進行池化,然后對池化之后的特征進行自適應特征融合,即對于任意RoI,在不同層級上選擇性捕獲對應的RoI特征,通過訓練調整空間權重,并依據(jù)權重信息融合同一RoI的多尺度特征作為最優(yōu)特征。該方法補償了從單層金字塔中獲取RoI特征產生的信息損失,改善了Mask R-CNN對不同尺寸服裝圖像分割的邊緣擬合效果。
本文在Mask R-CNN的預測分支中引入注意力機制,增強各分支對圖像中服裝區(qū)域特征的關注度,其中,類別分支加入通道注意力模塊,加強特征圖之間的相關性,邊界回歸框與掩膜預測分支分別引入空間注意力機制,提升關鍵區(qū)域的特征表達能力,從而增強模型對服裝區(qū)域的特征提取能力。
在Mask R-CNN模型的類別預測分支添加通道注意力模塊[18],結合通道權重調整分支對服裝目標的關注度,確定特征圖上需要重點關注的內容,強化預測過程中對特征信息的理解能力,以及模型對服裝目標的關注度,從而提高模型對不同服裝類別的辨識能力。改進后的類別預測分支流程如圖5所示,首先將輸入特征X通過通道注意力模塊加強服裝目標的關注度;然后將得到的輸出特征與輸入特征X進行結合,融合為表征服裝圖像的特征;最后通過全連接層與softmax函數(shù)對服裝類別進行預測。
圖5 結合通道注意力的類別預測分支流程圖Fig.5 Flow chart of category prediction branch combined with channel attention
在Mask R-CNN模型的邊界框回歸與掩膜預測分支分別引入空間注意力模塊[19],依據(jù)服裝目標的存在感知度生成與特征層同等大小的掩膜信息,其中每個元素分別對應于原特征中各個像素上的權重,通過不斷學習調整模型對服裝目標區(qū)域的關注度,確定需要重點關注的位置,強化模型分支的特征理解能力,改善因服裝間的遮擋問題所產生的目標區(qū)域不規(guī)則形變對服裝檢測與分割精度造成的影響。處理流程分別如圖6、7所示。
圖6首先將輸入的特征X通過空間注意力模塊強化特征信息,然后將得到的輸出特征與輸入特征X進行相乘獲得表征服裝邊界框的最終特征,最后經(jīng)過全連接層將特征映射到樣本標記空間,通過邊界框的回歸對邊界框進行預測。圖7將所獲得的特征向量Y首先通過空間注意力模塊使得低分辨率的服裝圖像輸入特征轉換為高分辨率的特征對,然后經(jīng)過上采樣輸入到全連接網(wǎng)絡中,最后對服裝圖像的掩模進行預測。
圖6 結合空間注意力的邊界框回歸分支流程圖Fig.6 Flow chart of bounding box regression branch combined with spatial attention
圖7 結合空間注意力的掩膜預測分支流程圖Fig.7 Flow chart of mask prediction branch combined with spatial attention
4.1.1 數(shù)據(jù)集
本文選用DeepFashion2[13]數(shù)據(jù)集,其中包含49.1萬張圖片與80.1萬個服裝實例,劃分為13種服裝類型,樣本分布情況如表1所示。DeepFashion2通過改變服裝圖像的尺寸、遮擋、縮放和視角變量,豐富數(shù)據(jù)集中服裝圖像標注信息,可支持服裝識別、分割與檢索、關鍵點標記、姿態(tài)估計等任務。
表1 DeepFashion2數(shù)據(jù)集樣本分布情況Tab.1 The sample distribution of DeepFashion2 dataset
4.1.2 實驗環(huán)境與設置
實驗在Intel(R) Core(TM) CPU 2.90GHz、Nvidia GeForece RTX 2070 Super顯卡,RAM為16 G的硬件環(huán)境下進行,編譯環(huán)境為Python3.7,實驗工具為Microsoft Visual Studio 2018。選用Pytorch框架搭建Mask R-CNN模型,訓練過程采用遷移學習的方法,將Mask R-CNN在COCO數(shù)據(jù)集下得到的權重應用于服裝圖像分割的初始訓練。以8:2的比例從DeepFashion2數(shù)據(jù)集中選取訓練集與測試集,訓練集包含39.2萬張圖片,測試集包含9.8萬張圖片。
針對訓練過程中存在數(shù)據(jù)格式不匹配的問題,即DeepFashion2數(shù)據(jù)集的json文件不能直接用于Mask R-CNN模型,通過數(shù)據(jù)類型轉換的方法將json文件轉換為COCO格式。設置初始學習率為0.000 01,每經(jīng)過2 000次迭代附加0.1倍,繼續(xù)學習調整權重參數(shù),獲取適用于提取圖像中服裝區(qū)域的分割模型。
為了驗證本文算法在服裝圖像分割任務中的有效性,采用Mask R-CNN[13]、FCIS[20]作為對比算法,從定性、定量2個方面對所提算法進行評估。
(二)現(xiàn)實中出現(xiàn)的一系列問題也使得全額撥款事業(yè)單位進行資產管理成為一項必然的活動。中國地緣遼闊,政府機構龐雜,事業(yè)單位在數(shù)量上較之別的國家要多很多。如果不能從資金的角度對事業(yè)單位活動進行提前管理,出現(xiàn)問題以后再追責,那么就已經(jīng)造成了對社會的傷害。而且隨著改革的深入,資產管理過程中出現(xiàn)了一系列的問題,包括:資金使用不規(guī)范,資金去向不明,國有資產大量流失,這些問題迫使加強全額撥款事業(yè)單位的資產管理成為一項必然的活動。
4.2.1 定性分析
圖8示出各種分割算法對小尺寸、多目標、仰角服裝圖像的實例分割效果比較以及本文算法對應的服裝區(qū)域提取結果。其中,Mask R-CNN+表示在Mask R-CNN中采用AugFPN優(yōu)化后的模型,本文算法表示在Mask R-CNN+中引入注意力機制后的模型。
由圖8可知,4種模型均能提取出圖像中的服裝目標區(qū)域。如圖8小尺寸圖像所示,F(xiàn)CIS算法僅保留了圖中吊帶裙的中心區(qū)域;Mask R-CNN的分割效果優(yōu)于FCIS,但丟失了吊帶部分,易產生類別混淆問題;與之相比,Mask R-CNN+檢測到更多吊帶裙的上半身區(qū)域,整體效果略優(yōu)于原Mask R-CNN,同樣未包含吊帶部分;本文算法引入注意力機制優(yōu)化Mask R-CNN+,保留了吊帶裙的上半身特征,包含吊帶部分,在小尺寸服裝圖像分割任務中能獲得較為豐富的服裝實例區(qū)域。
圖8中多目標圖像分割結果中,F(xiàn)CIS與Mask R-CNN都能檢測到多個目標的存在,但對于左側的背心連衣裙分割效果不佳,未能保留短袖上衣的左邊袖口部分;Mask R-CNN+與本文算法彌補了上述缺陷,補償了短袖皺褶袖口與領口部分的信息;本文算法在模特手臂的影響下依然能提取到較為完整的皺褶袖口區(qū)域,實現(xiàn)了多目標服裝實例分割任務。
圖8仰角圖像展示了仰角服裝圖像的分割結果,F(xiàn)CIS算法對在圖像中面積占比較大的服裝區(qū)域保留較好,但短褲折邊處未能得到有效檢測;Mask R-CNN的分割效果略好于FCIS,且在短袖上衣領口與左肩處的分割效果較好,但受拍攝角度影響,右肩部分未能入鏡,使得模型在處理過程中出現(xiàn)錯誤分割;Mask R-CNN+與本文算法在領口與右肩部分的上衣保留了較多的區(qū)域信息;此外,本文算法對短褲區(qū)域的處理效果較好,能夠識別到短褲的折邊區(qū)域,雖然在左側腰部出現(xiàn)部分未能分割的服裝區(qū)域,但根據(jù)圖8中第5列對應的實例分割提取結果,能夠直觀判斷服裝類別。
圖8 各算法對小尺寸、多目標以及仰角服裝圖像的分割效果比較Fig.8 Comparison of segmentation effect for clothing image with small size (a), multi-target (b) and elevation angle (c) using different algorithms
圖9示出了不同算法對非目標遮擋、多目標間相互遮擋、多人互相遮擋情況下的服裝圖像分割效果比較以及本文算法對應的服裝區(qū)域提取結果。
考慮到不同服裝間存在的遮擋問題,觀察圖9的多目標間相互遮擋子圖,可知Mask R-CNN對衣領與短褲的分割效果略優(yōu)于FCIS,但兩者均丟失了部分衣領區(qū)域;Mask R-CNN+與本文算法在分割結果中保留了服裝的衣領部分,在上衣左上角受人體遮擋的區(qū)域,左側衣袖的分割效果得到了明顯改善;本文算法能夠檢測并分割出短褲的折邊部分,對互相遮擋的服裝圖像有較好的分割效果。
圖9多人相互遮擋情況圖所示的多人服裝圖像分割結果中,F(xiàn)CIS算法與Mask R-CNN受圖中左側人物頭發(fā)的影響,未能將左袖納入預測的服裝區(qū)域中,而Mask R-CNN+能夠避免人物發(fā)型的干擾,提取到上衣左袖的部分區(qū)域,本文算法在Mask R-CNN+基礎上引入注意力機制,進一步降低了遮擋問題對服裝圖像分割準確性的影響,提取到信息更加豐富的服裝實例分割結果。
圖9 各算法對遮擋服裝圖像的分割效果比較Fig.9 Comparison of segmentation effect for occlusion clothing image using different algorithms. (a) NON target occlusion; (b) Multi target occlusion; (c) People target occlusion
4.2.2 定量分析
為進一步評估本文算法的性能,采用掩膜交并比Iou、平均精度AP以及平均精度均值MAP3個常用的圖像分割評價指標分析算法精度。
將本文算法的服裝圖像分割精度與Mask R-CNN[13]、FCIS[20],Mask R-CNN+進行對比,結果如表2所示。評價指標AP50和AP75分別表示Iou值取50%和75%所對應的AP值。
表2 各算法分割精度對比Tab.2 Comparison of each model segmentation precision
由表2可知,由于多尺度特征的引入,Mask R-CNN通過解耦實現(xiàn)對服裝分類、邊界框和Mask的同步預測,與經(jīng)典分割模型FCIS相比優(yōu)勢較為明顯;結合AugFPN強化模型對多尺度服裝特征的學習能力后,Mask R-CNN+的各項指標均獲得進一步提升,MAP提升了約2.3%;引入注意力機制后,本文算法在Iou等于50%與75%的情況下的AP值均明顯優(yōu)于原模型,平均精度MAP比Mask R-CNN+提高了1.5%,比Mask R-CNN提高了3.8%。
綜上所述,本文算法能夠有效實現(xiàn)多尺寸服裝圖像與遮擋服裝圖像的分割任務,改善了Mask R-CNN模型在小尺寸服裝圖像分割方面存在的漏檢、漏分割現(xiàn)象;在遮擋情況下能夠預測出豐富的特征信息,提取到效果較好的服裝區(qū)域,有效提升了不同場景下服裝圖像分割的準確度。
本文提出了一種基于改進特征學習與注意力機制的服裝圖像分割方法。該方法采用增強特征金字塔網(wǎng)絡優(yōu)化Mask R-CNN模型對多尺度服裝圖像特征的學習能力,通過統(tǒng)一監(jiān)督策略縮小特征融合前不同尺度特征之間的語義差距,在融合過程中通過增強殘差特征,提取比例不變的上下文信息,減少金字塔最高層級特征在映射過程中的信息缺失,通過軟RoI選擇,使模型在特征融合后能夠自適應地獲取更優(yōu)的RoI特征,有效提升了模型對不同尺寸服裝圖像的識別與分割效果;另外,通過引入雙重注意力機制,增強各預測分支對圖像中服裝區(qū)域特征的關注度,有效改善了遮擋對分割效果的不利影響,實現(xiàn)了多尺寸服裝圖像與遮擋服裝圖像更精確的實例分割。