余俊輝,毛 琳,楊大偉
(大連民族大學(xué) 機電工程學(xué)院,遼寧 大連 116605)
現(xiàn)有語義分割算法對顏色、形狀等特征提取利用不足,導(dǎo)致在目標(biāo)分割中會出現(xiàn)目標(biāo)輪廓分割缺失以及過分割等問題,針對以上問題,大多語義分割算法通過改進特征提取方式進而提高分割精度,對特征之間的聯(lián)系研究較少,因此如何有效利用不同特征提升語義分割精度成為研究的熱點問題。
目前,在圖像語義分割領(lǐng)域[1],可以分為傳統(tǒng)語義分割和基于深度學(xué)習(xí)的語義分割兩類算法[2]。傳統(tǒng)語義分割算法主要利用邊緣法[3]、閾值法[4]、圖劃分[5]、像素聚類法[6]等獲取圖像的特征信息,從而實現(xiàn)圖像精確分割的目的,而基于深度學(xué)習(xí)的語義分割算法主要對圖像進行像素級的特征處理,獲得更全面的特征信息,該方法與傳統(tǒng)語義分割方法相比,分割精度得到提升。
Long等[7]在2014年提出全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN),將網(wǎng)絡(luò)中的全連接層用卷積層替換,利用上采樣完成特征圖的分類,在分割速度和精度上都有提升,但從分割結(jié)果看,缺乏空間上的一致性。為解決空間一致性問題,Olaf等[8]提出編解碼語義分割模型U-Net,使用對稱的生成模型,利用下采樣進行特征提取,獲得更好的上下文信息。同年,Vijay等[9]提出了具有編解碼結(jié)構(gòu)的SegNet,使用最大池化層中的池化索引功能進行非線性上采樣,得到緊密的細節(jié)信息,提升了分割精度,但其單一特征提取并未獲得層與層之間更好的聯(lián)系性。2016年,谷歌提出DeeplabV1網(wǎng)絡(luò)[10],利用端到端對圖像處理的不變性,增強對特征分層抽取的能力。2017年,空洞空間卷積池化金字塔(Atrous Spatial Pyramid Pooling,ASPP)模塊[11]的提出,有效地擴大了特征的感受野,獲取多個尺度的特征,增加了特征的多樣性。同年Zhao等[12]提出金字塔場景解析網(wǎng)絡(luò)(Pyramid Scene Parsing Network,PSPNet),利用空間金字塔模塊,用不同大小的感受野提取全局特征,融合上下文特征后進行上采樣得到預(yù)測結(jié)果,但仍存在對顏色、邊緣、形狀等特征提取利用不足,出現(xiàn)邊界粗糙和類別誤判的問題。
基于上述問題,本文提出一種粗細特征增強語義分割算法,通過加入粗特征提取支路和細特征提取支路,構(gòu)造出粗特征與細特征相融合的網(wǎng)絡(luò)結(jié)構(gòu),獲得上下文相關(guān)性更加密切、表達更全面的特征信息,改善現(xiàn)有語義分割網(wǎng)絡(luò)對目標(biāo)的顏色和形狀等特征提取不足的問題,提高語義分割精度。在Pascal VOC2012[13]數(shù)據(jù)集上的實驗結(jié)果表明,提出的粗細特征增強語義分割算法優(yōu)于現(xiàn)有同類算法,與基準(zhǔn)網(wǎng)絡(luò)DeepLabv3+[14]相比較,平均精度(mIoU)提高了0.66%。
語義分割是從粗特征提取到細特征提取的過程,在這個過程中往往存在丟失粗細特征信息、粗細特征融合差等問題,由此,將顏色和形狀定義為粗特征,將邊緣和角點定義為細特征。利用粗細特征的提取與融合可以解決分割中顏色提取不足、邊緣分割不完整和形狀分割缺失等問題,從而提高分割精度,使分割后的結(jié)果較少出現(xiàn)不完整區(qū)域或區(qū)域重疊等問題。為增強粗細特征對分割能力的優(yōu)化作用,利用粗細特征提取模塊提取來自骨干網(wǎng)絡(luò)中大小不同的特征,以獲得上下文聯(lián)系更加密切的粗細特征,增強語義分割網(wǎng)絡(luò)的整體精度。
本文提出的粗細特征增強網(wǎng)絡(luò)可以有效解決上述問題,通過利用粗細特征提取模塊提取更密集的特征圖,以獲得上下文聯(lián)系更加密切的粗細特征,防止對象邊界相關(guān)詳細信息的丟失。粗特征和細特征的交互有助于在多個尺度上捕獲上下文信息。在特征圖中提取豐富的語義信息,其中細特征提取往往采用多尺度輸入,擴大感受野的同時可以獲取更加緊密的特征,而粗特征提取則彌補了細特征中的遺漏信息。粗特征和細特征的融合能有效增加特征之間的優(yōu)化作用,提高特征信息之間的利用率,進而提升語義分割精度。
粗細特征增強網(wǎng)絡(luò)的核心單元由骨干特征提取層(Xception)[15]、細特征提取模塊、粗特征提取模塊和特征融合模塊組成,該網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1。輸入圖片經(jīng)骨干特征提取層后,分別將得到的特征輸入到粗特征和細特征提取兩條支路,然后將兩條支路的輸出特征通過特征融合,經(jīng)特征調(diào)整后得到與原圖相同大小的分割輸出結(jié)果。
圖1 粗細特征增強網(wǎng)絡(luò)算法
細特征提取模塊主要由空洞空間卷積池化金字塔和1×1卷積兩個部分組成,其結(jié)構(gòu)圖如圖2。來自骨干提取網(wǎng)絡(luò)的1/16特征量經(jīng)空間空洞卷積池化金字塔和1×1卷積處理后得到輸出結(jié)果yn。
圖2 細特征提取模塊
該模塊的數(shù)學(xué)描述如下:
(1)
(2)
細特征提取模塊將輸入的1/16特征圖利用采樣率不同的空洞卷積完成相應(yīng)的卷積過程,實現(xiàn)多尺度獲取圖像信息中的上下文細特征信息,并經(jīng)過1×1卷積調(diào)整通道后得到輸出結(jié)果yn。
粗特征提取模塊作為粗特征與細特征融合的主要部分,主要由粗特征提取和激活函數(shù)兩部分組成,其結(jié)構(gòu)圖如圖3。來自骨干提取網(wǎng)絡(luò)的1/4特征量經(jīng)粗特征提取和激活函數(shù)兩個模塊后得到該條支路的輸出結(jié)果ym。
圖3 粗特征提取模塊
該模塊的數(shù)學(xué)描述如下:
(3)
ReLU6=min{6,max(0,x)};
(4)
(5)
粗特征與細特征可視化結(jié)果如圖4,其中圖4a為原圖;圖4b和圖4c分別是代表形狀和顏色特征的粗特征;圖4d和圖4e分別代表邊緣和角點特征的細特征。
圖4 粗特征和細特征可視化
粗特征與細特征融合之后的特征既具備細特征信息,又具備整體的粗特征信息,可以提升特征表達能力,進而提升語義分割性能,該部分主要由細特征提取、粗特征提取和特征融合三個模塊組成,其結(jié)構(gòu)圖如圖5。
圖5 粗特征與細特征提取融合模塊
該融合模塊的數(shù)學(xué)描述如下:
y=yn+ym。
(6)
式中:yn是經(jīng)細特征提取后得到的結(jié)果;y是ym與yn經(jīng)特征融合后得到的輸出結(jié)果。圖5中x1/16是提取后的1/16細特征量。
特征融合主要是將骨干網(wǎng)絡(luò)提取到的1/16和1/4特征分別經(jīng)細特征提取模塊和粗特征提取模塊得到y(tǒng)n和ym進行串行組合相加得到輸出結(jié)果y。融合后的y不僅可以從融合中涉及的多個原始特征集中獲得最具差異性的豐富特征信息,增加粗特征與細特征之間的相關(guān)性,還消除了因不同特征之間的相關(guān)性而產(chǎn)生的冗余信息,為后續(xù)精準(zhǔn)分割奠定基礎(chǔ)。
本文將粗特征提取模塊和細特征提取模塊相融合構(gòu)成新的網(wǎng)絡(luò),構(gòu)建出完整的粗特征與細特征提取相結(jié)合的結(jié)構(gòu),由于粗特征對細特征的指導(dǎo)作用加強,使得粗細特征之間的協(xié)同作用達到最大化,分割精度得到提高,提升了整體的分割能力,整體網(wǎng)絡(luò)結(jié)構(gòu)如圖6。
圖6 粗特征提取整體網(wǎng)絡(luò)圖
第1步:將尺寸大小為513×513的原始圖像輸入骨干網(wǎng)絡(luò)提取初始特征;
第2步:將提取后的1/16細特征輸入到空洞空間卷積池化金字塔模塊,獲取多尺度特征后進行拼接融合,經(jīng)1×1卷積和上采樣后調(diào)整通道數(shù);
第3步:將提取得到的1/4粗特征送入粗特征提取模塊,經(jīng)粗特征提取和激活函數(shù)的深入處理后,與上一步處理得到的細特征進行融合;
第4步:將融合后的特征經(jīng)過3×3卷積和上采樣,得到與原始圖像分辨率相等的特征圖,恢復(fù)圖像空間信息,輸出并得到圖像的分割結(jié)果。
本文提出的算法在DeepLabv3+網(wǎng)絡(luò)算法的基礎(chǔ)上,基于Tensorflow深度學(xué)習(xí)框架使用Python語言編程實現(xiàn),在Ubuntu16.04系統(tǒng)中使用1張NVIDIA 1080Ti顯卡訓(xùn)練語義分割網(wǎng)絡(luò)模型。該訓(xùn)練網(wǎng)絡(luò)模型相關(guān)參數(shù)設(shè)置見表1。本次訓(xùn)練所采用的數(shù)據(jù)集為Pascal VOC2012,此數(shù)據(jù)集包含目標(biāo)檢測和圖像語義分割數(shù)據(jù)集,本文使用的是語義分割數(shù)據(jù)集,該數(shù)據(jù)集共包含2 913張含有語義標(biāo)注的圖像,1 464張作為訓(xùn)練集,其余1 499張作為驗證集用來測試模型的分割精度。
表1 粗特征提取網(wǎng)絡(luò)訓(xùn)練網(wǎng)絡(luò)模型相關(guān)參數(shù)設(shè)置
語義分割往往從特征提取開始,將來自骨干網(wǎng)絡(luò)提取得到的特征圖大小分為1/2、1/4和1/8原圖。為得到更為有效的粗特征提取支路,分別對骨干網(wǎng)絡(luò)提取到的大小不同的特征圖排列組合進行對比,其組合類型如圖7,圖中字母表示不同的組合形式。
圖7 特征排列組合形式
其中,A表示來自骨干網(wǎng)絡(luò)提取的原圖1/8特征圖;B表示1/4特征圖;C表示1/2特征圖;D表示1/4和1/2特征圖的組合;E表示1/4和1/8特征圖的組合;F表示1/2、1/4和1/8三者特征圖的組合;G表示1/8和1/2特征圖的組合。這七種組合在迭代次數(shù)為相同的190次時,得到的平均交并比見表2。
表2 特征排列組合對比實驗
由表1可以看出組合B的效果最好,其mIoU達到了82.22%,測試一張圖片的速度為0.87 s,總體來看,速度并未降低;另外由于組合B不僅提取到了豐富的粗特征,還和細特征形成了關(guān)聯(lián),因此加入1/4的粗特征提取支路會對使整個網(wǎng)絡(luò)的分割準(zhǔn)確率得到較好提升。
在圖像語義分割中,常用平均交并比(Mean Intersection over Union,mIoU)評價語義分割的質(zhì)量,mIoU值越高,代表分割質(zhì)量越好,算法性能越優(yōu),mIoU的具體定義與表達式如下:
(7)
式中:i表示真實值;j表示預(yù)測值;pij表示將i預(yù)測為j;k表示圖像像素的總數(shù)。其在PascalVOC2012數(shù)據(jù)集上的仿真結(jié)果對比見表3。
表3 Pascal VOC2012數(shù)據(jù)集仿真結(jié)果 %
仿真結(jié)果表明改進型粗特征提取網(wǎng)絡(luò)的平均交并比為84.22%,高于DeepLabv3+的83.58%,精度提升了0.66%。粗特征提取網(wǎng)絡(luò)與DeepLabv3+分割結(jié)果對比如圖8。
圖8 分割結(jié)果對比圖
圖8中,如行(1)、行(2)可見,在多物體復(fù)雜場景中,粗特征提取網(wǎng)絡(luò)的分割相較于DeepLabv3+更為準(zhǔn)確。行(1)中左側(cè)人被遮擋部分完全被DeepLabv3+識別出來,而粗特征提取網(wǎng)絡(luò)能夠?qū)ζ溥M行與真值圖相比更準(zhǔn)確地識別并將其分割出來;在行(2)中,粗特征提取網(wǎng)絡(luò)對圖中除人像以外的其他物體并未進行分割,分割效果明顯優(yōu)于DeepLabv3+;如行(3)可見,在僅有兩個物體并存的場景中,DeepLabv3+分割出了綠色盆栽邊緣;如行(4)可見,在對于單個人像的分割中,DeepLabv3+分割出人像周圍多余的紅色信息,而粗特征提取網(wǎng)絡(luò)則沒有分割出冗余信息。綜上,粗特征提取網(wǎng)絡(luò)的分割結(jié)果與對應(yīng)真值的匹配度更高,即算法的精確度和魯棒性更優(yōu),故本文提出的方法在圖像語義分割驗證集上有更好的效果。
本文針對現(xiàn)有語義分割算法對粗細特征提取利用不足而導(dǎo)致分割效果不佳的情況,將骨干提取的特征分為粗特征和細特征,提出粗細特征增強語義分割算法,通過提取粗細特征,加強粗特征與細特征之間的融合,增強語義分割精度,進一步提高分割性能。與DeepLabv3+算法相比,粗細特征增強語義分割算法增加了特征信息之間的聯(lián)系性,同時該算法也為無人車目標(biāo)感知提供了一種新的思路,使語義分割算法更好地應(yīng)用于無人車自主駕駛等場景。后續(xù)工作中,希望通過進一步探究粗特征與細特征之間的不同融合方式,增強特征之間的聯(lián)系性,進而提高語義分割精度。