摘 要: "針對(duì)現(xiàn)階段語義分割網(wǎng)絡(luò)存在的空間和通道特征不匹配、小目標(biāo)物體像素丟失等問題,設(shè)計(jì)了一種基于空間特征提取和注意力機(jī)制的雙路徑語義分割算法??臻g信息路徑利用四倍下采樣來保留高分辨率特征,并引入空間特征提取模塊融合多尺度空間信息,加強(qiáng)網(wǎng)絡(luò)對(duì)小目標(biāo)物體的識(shí)別能力;采用一條結(jié)合雙階通道注意力的語義上下文路徑提取判別特征,使深層特征能夠指導(dǎo)淺層特征捕捉更精確的語義信息,從而降低精度損失。在CamVid和Aeroscapes數(shù)據(jù)集上驗(yàn)證該算法,平均交并比分別可達(dá)70.5%和51.8%,相比于當(dāng)前主流的雙路徑語義分割模型有所提升,結(jié)果驗(yàn)證了所提算法的有效性。
關(guān)鍵詞: "雙路徑語義分割; 非對(duì)稱卷積; 注意力機(jī)制; 深度監(jiān)督
中圖分類號(hào): "TP391.41 """文獻(xiàn)標(biāo)志碼: A
文章編號(hào): "1001-3695(2022)02-051-0613-05
doi:10.19734/j.issn.1001-3695.2021.05.0259
Dual-path semantic segmentation based on spatial feature "extraction and attention mechanism
Zheng Pengying, Chen Wei, Yin Zhong
(School of Optical-Electrical amp; Computer Engineering, University of Shanghai for Science amp; Technology, Shanghai 200093, China)
Abstract: "Aiming at the problems of the current semantic segmentation network’s spatial and channel feature mismatch,as well as the pixel loss of small target objects,this paper designed a dual-path semantic segmentation algorithm based on spatial feature extraction and attention mechanism.The spatial information path used four times downsampling to retain high-resolution features,and introduced a spatial feature extraction module to fuse multi-scale spatial information,thereby strengthening the network’s ability to recognize small target objects.In addition,it used a semantic context path combined with two-stage channel attention to extract discriminative features,so that deep features could guide shallow features to capture more accurate semantic information,thereby reducing accuracy loss.This paper verified the algorithm on the CamVid dataset and Aeroscapes dataset,the mean intersection over union can reach 70.5% and 51.8% respectively.Compared with the current mainstream dual-path semantic segmentation model,the results verify the effectiveness of the proposed algorithm.
Key words: "dual-path semantic segmentation; asymmetric convolution; attention mechanism; in-depth supervision
0 引言
圖像語義分割一直以來都是計(jì)算機(jī)視覺方向的基本課題之一,區(qū)別于目標(biāo)檢測(cè)以及圖像分類,它是對(duì)輸入圖像進(jìn)行像素級(jí)別處理,每個(gè)像素都對(duì)應(yīng)分配標(biāo)簽[1]。語義分割是各種場(chǎng)景理解的關(guān)鍵技術(shù),在地理信息以及自動(dòng)駕駛系統(tǒng)中自動(dòng)識(shí)別出道路、河流、莊稼、建筑物、障礙物、行人等,并對(duì)圖像中每個(gè)像素進(jìn)行標(biāo)注[2];在醫(yī)學(xué)領(lǐng)域,可用于腫瘤圖像與肺癌圖像分割以及齲齒診斷等;在面部分割領(lǐng)域,可根據(jù)面部特征判斷出表情、性別、年齡和種族等信息。
隨著深度學(xué)習(xí)的不斷發(fā)展,Long等人[3]提出全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN)開啟了語義分割的新篇章,F(xiàn)CN通過將VGG16(visual geometry group 16-layer net)[4]的全連接層替換為上采樣卷積層,實(shí)現(xiàn)了將深層網(wǎng)絡(luò)信息與淺層網(wǎng)絡(luò)信息融合,并且可以接受任意尺寸大小的輸入圖片,但直接進(jìn)行大倍數(shù)上采樣得到的特征圖信息是稀疏的,不利于復(fù)雜圖像的分割。2015年Ronneberger等人[5]提出U-Net采用U型對(duì)稱結(jié)構(gòu),用上采樣替代池化層,將編碼得到的特征圖與對(duì)應(yīng)解碼得到的特征圖進(jìn)行通道拼接,實(shí)現(xiàn)編碼階段的特征復(fù)用,從而進(jìn)一步提升整體分割效果;Yu等人[6]提出Dilation8,首次提出膨脹卷積的概念,可有效增大感受野且不丟失分辨率。2017年Badrinarayanan等人[7]提出SegNet,通過記錄編碼器的最大值池化操作中得出的池化索引并將它返回同級(jí)解碼器進(jìn)行上采樣,相比于FCN,它考慮到了空間位置信息的分割,但只保存了最大值位置特征,所以仍有很多特征信息被丟失;Zhao等人[8]提出PspNet,采用的基礎(chǔ)網(wǎng)絡(luò)為ResNet[9],引入金字塔池化模塊打破了分類任務(wù)中固定大小特征的約束,可以多尺度融合上下文信息;Peng等人[10]提出全局卷積網(wǎng)絡(luò)GCN,采用對(duì)稱可分離的大卷積核來對(duì)局部信息進(jìn)行分批處理,緩解了分類與定位任務(wù)之間的矛盾;Jégou等人[11]提出FC-DenseNet103,采用特征圖共享和跳躍連接的方式保持精度的同時(shí)顯著減小模型參數(shù)量。2018年Zhao等人[12]提出ICNet用于實(shí)時(shí)語義分割,利用漸變的特征融合與級(jí)聯(lián)引導(dǎo)網(wǎng)絡(luò)作出合理預(yù)測(cè),同時(shí)引入輔助損失函數(shù)加快模型收斂速度;Chen等人[13]提出DeepLab v3+,將標(biāo)準(zhǔn)卷積替換為深度可分離卷積與膨脹卷積的結(jié)合對(duì)特征進(jìn)行多尺度復(fù)用,減少參數(shù)量的同時(shí)提高了圖像整體分割效果;Yu等人[14]提出雙路徑分割算法BiSeNet,引入語義上下文路徑和空間路徑,雙路徑的結(jié)合用來解決感受野變小和空間信息丟失的問題。2019年Fu等人[15]提出了雙重注意力網(wǎng)絡(luò)(dual attention network,DANet),空間注意力和通道注意力的結(jié)合使全局特征依賴關(guān)系的捕獲變得更為容易且有效;在此基礎(chǔ)上, Huang等人[16]提出了縱橫交叉網(wǎng)絡(luò)(criss-cross network,CCNet),引入交叉注意力模塊,僅在空間位置上進(jìn)行建模,通過像素間遠(yuǎn)距離依賴關(guān)系來獲取上下文信息。2020年Li等人[17]提出SFNet,通過學(xué)習(xí)不同級(jí)別特征圖之間的語義流進(jìn)行特征對(duì)齊,從而獲取豐富的語義特征。
為解決空間和通道的特征不匹配問題,大量學(xué)者往往從引入通道和空間注意力機(jī)制的角度對(duì)不同特征加以區(qū)分,忽略了全局空間信息應(yīng)在較高分辨率特征圖上的進(jìn)一步提取。而BiSeNet[14]雖也引入了雙路徑,但也只是對(duì)特征圖進(jìn)行簡(jiǎn)單的融合且空間路徑對(duì)特征的提取過于粗糙。淺層高分辨率特征中可以獲得豐富的空間與邊緣信息,但語義信息并不完全準(zhǔn)確[18],所以將不同層的特征直接進(jìn)行融合會(huì)降低模型的魯棒性,影響分割精度[19,20]?;诖?,本文主要工作和創(chuàng)新點(diǎn)如下:a)提出雙階通道注意力機(jī)制來融合不同階段語義信息,為淺層高分辨率特征分配權(quán)重從而限制錯(cuò)誤語義信息輸出;b)空間特征提取模塊借助金字塔池化[8]思想,將池化后的特征用分層殘差的方式相互連接,減少空間信息的丟失,提升對(duì)小目標(biāo)物體的分割精度,同時(shí)空間信息路徑的引入可以彌補(bǔ)通道注意力機(jī)制對(duì)圖像位置信息獲取能力不足的缺陷;c)將膨脹卷積與非對(duì)稱卷積進(jìn)行融合,非對(duì)稱卷積采用深度可分離技術(shù)降低參數(shù)量、擴(kuò)大感受域,提取更廣泛的信息進(jìn)行聚合,訓(xùn)練時(shí)引入輔助損失函數(shù)進(jìn)行監(jiān)督[21],使網(wǎng)絡(luò)更平穩(wěn)快速收斂,同時(shí)加強(qiáng)對(duì)語義邊界的識(shí)別以進(jìn)一步提升算法精度。
1 網(wǎng)絡(luò)模塊設(shè)計(jì)
1.1 總體結(jié)構(gòu)
本文提出的基于空間特征提取和注意力機(jī)制的雙路徑語義分割模型的整體架構(gòu)如圖1所示。空間信息路徑采用4倍下采樣以盡量保持圖像分辨率,獲得更多的空間信息;通過空間特征提取模塊對(duì)不同區(qū)域多尺度特征進(jìn)行通道拼接, 尺寸多樣性和參數(shù)逐層傳遞共享可減少信息丟失;語義上下文路徑使用ResNet作為基礎(chǔ)網(wǎng)絡(luò)來提取特征,從而提供足夠的感受野;由于深層特征圖具有更詳細(xì)的語義信息,這正是淺層特征圖所需要的,加入雙階通道注意力(TCA)機(jī)制來關(guān)注不同階段的辨別特征,重新分配注意力權(quán)重;聚合模塊(AM)由膨脹卷積和非對(duì)稱卷積組成,增大感受野的同時(shí)對(duì)信息進(jìn)一步提取與融合。最后將高階段輸出的特征圖逐級(jí)上采樣并與低階段特征圖進(jìn)行融合,融合后通過4倍上采樣輸出原始分辨率的特征圖。
1.2 空間特征提取模塊
為了保留更多的空間信息,本文基于4倍下采樣對(duì)空間特征進(jìn)行提取,生成不同分辨率的空間特征圖以獲得多尺度信息。本文提出的空間特征提取模塊如圖1所示,共包含四個(gè)分支,池化核大小分別為5、9、17,最后一個(gè)分支通過全局平均池化使特征圖通道數(shù)保持不變,尺寸變?yōu)?×1大小,即對(duì)各個(gè)通道不同位置的特征進(jìn)行提取,從而得到每個(gè)通道的特征權(quán)重。全局平均池化可由式(1)表示。
A(i,j)= 1 K ∑ K m=1 T m(i,j) ""(1)
其中: K 為通道數(shù)量; T m(i,j) 表示第 m 個(gè)通道的特征圖在位置坐標(biāo)為 (i,j) 處的特征值; A(i,j) 為經(jīng)過全局平均池化后的特征圖。
由于小物體像素信息少、不易分割完整,本文對(duì)提取到的多尺度特征進(jìn)行融合,實(shí)現(xiàn)空間信息傳遞共享的同時(shí)將小目標(biāo)物體的像素信息進(jìn)行整合,從而減少信息的丟失,提高對(duì)小目標(biāo)物體的分割精度。首先對(duì)四支經(jīng)過特征提取后的特征圖分別進(jìn)行一次上采樣;然后以分層殘差的方式通過3×3卷積進(jìn)行信息傳遞,將相鄰兩層的空間特征進(jìn)行融合,通過級(jí)聯(lián)達(dá)到參數(shù)共享的效果,每一分支具體輸出如式(2)所示,其中卷積按照conv、BN、ReLU操作進(jìn)行,可以加快網(wǎng)絡(luò)收斂速度,并且可以有效預(yù)防過擬合現(xiàn)象;最后將得到的特征圖進(jìn)行通道拼接。本模塊以一種巧妙的方式將不同分辨率的空間特征圖進(jìn)行有效的融合,減少了不同區(qū)域之間信息的丟失,從而加強(qiáng)了對(duì)小目標(biāo)物體的識(shí)別。
y i= "C 1×1(x) i=1
C 3×3(U(C 1×1(P 2i+1,2i-1(x)))+y i-1) 1lt;ilt;5
C 3×3(U(C 1×1(P global(x)))+y i-1) i=5 """(2)
其中: x代表輸入特征圖;C 1×1代表1×1卷積;C 3×3代表3×3卷積;P m,n代表過濾器大小和步長(zhǎng)分別為m、n的平均值池化;U代表上采樣;P global代表全局平均值池化;1×1 卷積主要用來壓縮特征圖,不改變特征圖尺寸大小。
1.3 雙階通道注意力模塊
持續(xù)的下采樣卷積操作會(huì)導(dǎo)致特征圖分辨率大幅度變小,并且不同通道的信息簡(jiǎn)單進(jìn)行融合會(huì)造成分割精度下降[22]。因?yàn)椴煌耐ǖ来碇煌膱D像特征,如形狀、條紋、空間關(guān)系等,不同特征對(duì)圖像分割所做貢獻(xiàn)也大不相同,所以要為不同特征分配不同的權(quán)重。為此,本文提出雙階通道注意力(two-stage channel attention,TCA)為特征賦予權(quán)重,使得網(wǎng)絡(luò)更加關(guān)注重要特征。
本文提出的TCA模塊如圖2所示,其中,low stage表示低階段高分辨率特征圖;high stage表示高階段低分辨率特征圖;concat為通道拼接。a)利用通道拼接將兩階段得到的特征圖連接在一起;b)采用3×3卷積進(jìn)一步提取融合特征,以便得到更好的融合效果;c)引入sigmoid函數(shù)得到最終注意力權(quán)重,以避免權(quán)重超出[0,1];d)將得到的注意力權(quán)重與低階特征圖相乘,使高階段的語義信息指導(dǎo)低階段進(jìn)行預(yù)測(cè)。
如果不加雙階通道注意力模塊,那么網(wǎng)絡(luò)的輸出值可表示為
y k(i,j)=F(x;w)=w i,jx i,j i,j∈D ""(3)
其中: x 是網(wǎng)絡(luò)的輸出特征; w 代表卷積核權(quán)重; w 由卷積神經(jīng)網(wǎng)絡(luò)反向傳播時(shí)計(jì)算得出; k∈{1,2,…,K},其中K 代表所有通道數(shù)的個(gè)數(shù); D 是像素點(diǎn)的集合。那么最終輸出的預(yù)測(cè)概率為
δ i(y k)= softmax (x i)= "exp (y k) ∑ K j=1 "exp (y j) """(4)
其中: δ 是預(yù)測(cè)概率; y 是網(wǎng)絡(luò)的輸出特征。
如式(3)(4)所示,所有通道中概率最高的即為最終預(yù)測(cè)的類別。式(3)默認(rèn)為不同通道分配相同權(quán)重系數(shù),但顯然不同階段的特征對(duì)預(yù)測(cè)結(jié)果的貢獻(xiàn)度是有差別的。為了獲得準(zhǔn)確的預(yù)測(cè),需要提取判別特征,抑制背景特征(非判別特征)。假設(shè)預(yù)測(cè)某個(gè)像素點(diǎn)類別為 y 0 ,但它的真實(shí)標(biāo)簽為 y 1 ,可以引入?yún)?shù) α 應(yīng)用于特征圖 x 表示進(jìn)行注意力特征選擇;通過引入TCA模塊可以使網(wǎng)絡(luò)分階段獲得精細(xì)的判別特征,從而使預(yù)測(cè)值 y 0 向真實(shí)值 y 1 的方向趨近,如式(5)所示。
=αy= "α 1
α k "· "y 1" "y k "= "α 1w 1" "α kw k "· "x 1" "x k """"(5)
α =sigmoid (x;w)= 1 1+ e -x """"(6)
其中: x 為輸入; ""為重新賦予權(quán)重后網(wǎng)絡(luò)的新預(yù)測(cè)概率;式(5)中的 α 由式(6)給出。
1.4 聚合模塊
要想準(zhǔn)確獲得上下文信息,需要組合不同層次的信息來推斷語義之間的相關(guān)性[23],非對(duì)稱卷積對(duì)信息的聚合是行之有效的,上下兩條卷積路徑可緩解分類與定位的矛盾[10],但其感受域具有局限性。為此,本文將可擴(kuò)大感受域的膨脹卷積引入到非對(duì)稱卷積中對(duì)局部信息進(jìn)行聚合,最后改變輸出的通道數(shù),便于不同階段的特征圖進(jìn)行融合。提出的聚合模塊(aggregation module,AM)共兩個(gè)分支,第一分支采用卷積核為1×3和3×1深度卷積來替換3×3卷積,與標(biāo)準(zhǔn)卷積相比,在降低模型復(fù)雜度的前提下可使精度保持不變甚至更高;第二分支將膨脹卷積施加于深度非對(duì)稱卷積,在不降低特征圖分辨率的前提下增大了感受域,從而捕獲更多信息。在末端添加卷積核為1×1的逐點(diǎn)卷積用來恢復(fù)通道數(shù)量并融合所有通道信息,最后與輸入進(jìn)行相加。本文所提出的聚合模塊如圖3所示。其中,DWConv為深度卷積(depthwise convolution),PWConv為逐點(diǎn)卷積(pointwise convolution),下方分支路徑中的 D 代表膨脹卷積比率。
1.5 深度監(jiān)督訓(xùn)練
分割任務(wù)需要識(shí)別出語義邊界,而高層特征的語義信息比較豐富,本文采用分辨率為原圖1/16和1/32大小的特征圖作為輔助損失函數(shù)的輸入來監(jiān)督網(wǎng)絡(luò)的訓(xùn)練,從而上采樣恢復(fù)到原圖尺寸大小時(shí),像素點(diǎn)的語義信息與標(biāo)簽中類別信息保持一致。引入Focal[24]主損失函數(shù)來平衡難分類與易分類的像素信息,同時(shí)采用交叉熵輔助損失函數(shù)監(jiān)督網(wǎng)絡(luò)訓(xùn)練,平衡邊界信息,F(xiàn)ocal損失函數(shù)由式(7)計(jì)算。
L 1(p t)=-α(1-p t)γ log (p t) ""(7)
p t= "p "if "y=1
1-p "otherwise """(8)
其中: p 為預(yù)測(cè)概率; y 為真實(shí)標(biāo)簽; p t 為類別 t 的估計(jì)概率; α 為平衡權(quán)重因子,用于調(diào)節(jié)樣本的不均衡問題; γ 為聚焦參數(shù)并且 γ≥0 ; (1-p t)γ 為調(diào)變因子,可以有效降低易分類樣本權(quán)重而增加難分類的樣本權(quán)重。本文中 α 設(shè)為0.5, γ 設(shè)為2。
總損失可由式(9)表示。
L=λ 1L 1(p t)+λ 2L 2+λ 3L 3 ""(9)
其中: L 為總損失函數(shù); L 1 為Focal主損失函數(shù); L 2 和 L 3 分別為16倍和32倍下采樣所對(duì)應(yīng)的交叉熵輔助損失函數(shù)。
2 實(shí)驗(yàn)與分析
2.1 評(píng)價(jià)指標(biāo)
本文實(shí)驗(yàn)采用平均交并比(mean intersection over union,mIoU)作為評(píng)價(jià)指標(biāo)來反映分割精度,mIoU為真實(shí)標(biāo)簽值和預(yù)測(cè)值的交集比上并集。具體計(jì)算如式(10)所示。
mIoU= 1 N (∑ N i=1 "n ii T i+∑ N j=1 (n ji-n ii) ) ""(10)
其中: "N 代表圖像含有的標(biāo)簽類別數(shù)量; T i 代表類別為 i 的像素總數(shù); n ii 代表真實(shí)類別為 i 、預(yù)測(cè)類別也為 i 的像素總數(shù); n ji 則代表真實(shí)類別為 i 但預(yù)測(cè)類別為 j 的像素總數(shù); n ij 則正相反。
采用準(zhǔn)確率 A 作為評(píng)價(jià)指標(biāo)來刻畫本文算法在CamVid驗(yàn)證集上的準(zhǔn)確率變化曲線,如圖4所示。具體計(jì)算如式(11)所示。
A= P M """(11)
其中: P 為正確標(biāo)記的像素個(gè)數(shù); M 為總像素?cái)?shù)。
2.2 CamVid實(shí)驗(yàn)結(jié)果
在CamVid公共數(shù)據(jù)集上對(duì)本文所提方法的有效性進(jìn)行對(duì)比驗(yàn)證。CamVid數(shù)據(jù)集大小適中,標(biāo)注精度高是從五個(gè)視頻序列中提取出來的城市道路場(chǎng)景分割數(shù)據(jù)集,并在駕駛場(chǎng)景增加了觀察對(duì)象的數(shù)量,具有多樣性。它共包含701幅圖片,其中367幅圖像用于訓(xùn)練、101幅圖像用于驗(yàn)證、233幅圖像用于測(cè)試。上述所有圖像分辨率均為360 × 480,共包含11個(gè)道路場(chǎng)景語義類別。
實(shí)驗(yàn)采用的深度學(xué)習(xí)開源框架為PyTorch,使用NVIDIA Tesla P100圖形處理器進(jìn)行運(yùn)算。模型的基本網(wǎng)絡(luò)采用ResNet50,且使用在ImageNet數(shù)據(jù)集上的預(yù)訓(xùn)練權(quán)重。本文采用Adam[25]優(yōu)化器來對(duì)網(wǎng)絡(luò)模型參數(shù)進(jìn)行優(yōu)化,并使用poly學(xué)習(xí)策略對(duì)網(wǎng)絡(luò)學(xué)習(xí)率進(jìn)行調(diào)整,其具體定義如下:
lr=base_lr×( epoch max_epoch )power ""(12)
其中: base_lr 為初始學(xué)習(xí)率,設(shè)為0.000 1; epoch 為當(dāng)前迭代的次數(shù); max_epoch 為總迭代次數(shù),設(shè)為100; power 控制學(xué)習(xí)率調(diào)整的方向,設(shè)為0.9。為加強(qiáng)模型泛化性,在訓(xùn)練時(shí)對(duì)輸入的圖像作數(shù)據(jù)增強(qiáng)處理,以概率 p =0.1對(duì)圖像進(jìn)行水平翻轉(zhuǎn),圖像亮度在0.75~1.25隨機(jī)變化,輸入圖像均裁剪為352×480。
本文算法在CamVid驗(yàn)證集上的準(zhǔn)確率以及不同的損失值隨迭代次數(shù)的變化如圖4所示。由圖4(a)可得,網(wǎng)絡(luò)訓(xùn)練迭代20個(gè)epoch即接近最大準(zhǔn)確率,表明網(wǎng)絡(luò)的收斂速度較快,且準(zhǔn)確率可穩(wěn)定在92%左右,可以看出本文算法的穩(wěn)定性和快速性;由圖4(b)可得,引入深度監(jiān)督后的損失值下降更平穩(wěn),相比于未引入深度監(jiān)督,提前約15個(gè)epoch即接近收斂,突出了深度監(jiān)督輔助訓(xùn)練的有效性。
為證明本文方法的有效性,將逐一對(duì)各模塊進(jìn)行組合實(shí)驗(yàn),結(jié)果如表1所示。由表1可得,本文提出的搭配空間特征提取的空間信息路徑效果突出,可以將平均交并比提升2%左右,并由圖5可以看出,空間路徑的引入加強(qiáng)了對(duì)小目標(biāo)物體的識(shí)別。雙階通道注意力模塊的貢獻(xiàn)度最大,mIoU提升2.91%,深淺層特征融合時(shí),重新分配權(quán)重可以提取出有效的判別特征,深層特征圖的精確語義信息可以更好地指導(dǎo)淺層特征圖學(xué)習(xí),從而避免誤分類。將聚合模塊引入到網(wǎng)絡(luò)中,mIoU提升1.3%。引入膨脹卷積對(duì)局部信息進(jìn)行兩個(gè)尺度的提取,可以避免特征的單一化,非對(duì)稱卷積進(jìn)行信息聚合時(shí)也可以強(qiáng)化一致性特征的識(shí)別。
此外,聚合模塊中選取不同比率的膨脹卷積進(jìn)行實(shí)驗(yàn)的結(jié)果如表2所示, d 1、d 2、d 3 分別為由深層到淺層的聚合模塊的膨脹卷積比率。由于深層特征圖分辨率較低,所以膨脹率取值不宜過大,可以獲取更大感受域的同時(shí)避免重要信息的丟失。當(dāng)膨脹卷積比率分別為2、4、8時(shí)可以得到最優(yōu)結(jié)果。
為了找到最優(yōu)損失函數(shù)的超參數(shù) λ 1、λ 2、λ 3 ,進(jìn)行多次實(shí)驗(yàn),結(jié)果如表3所示??梢缘贸?,F(xiàn)ocal主損失函數(shù)超參數(shù)為0.9、交叉熵輔助損失函數(shù)的超參數(shù)均為0.1時(shí)可以在獲取上下文信息和捕捉語義邊界信息之間取得平衡。
為驗(yàn)證空間信息路徑中下采樣倍數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響,分別選擇了2、4、8、16倍下采樣進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果如表4所示。實(shí)驗(yàn)在4倍下采樣結(jié)果最優(yōu),說明基于4倍下采樣對(duì)空間信息的提取更精準(zhǔn),但隨著下采樣倍數(shù)的增大,得到的全局空間信息越來越模糊,mIoU也隨之下降。
將本文方法與其他分割方法在CamVid數(shù)據(jù)集進(jìn)行對(duì)比,結(jié)果如表5所示。本文提出的方法取得了更具競(jìng)爭(zhēng)性的結(jié)果,相比于BiSeNet[14]和SFNet[17],平均交并比分別提升了1.8%和0.1%。
圖5為本文方法在CamVid數(shù)據(jù)集上的可視化結(jié)果,baseline為在基礎(chǔ)網(wǎng)絡(luò)ResNet50的基礎(chǔ)上將深層和淺層特征直接進(jìn)行融合構(gòu)建的網(wǎng)絡(luò)。從圖中可以看出,連續(xù)下采樣后進(jìn)行簡(jiǎn)單融合導(dǎo)致空間和通道的特征不匹配,得到的分割圖較為粗糙。BiSeNet作為雙路徑語義分割的典型代表,對(duì)輸入圖像分割的整體效果相對(duì)不錯(cuò),但其空間分支路徑對(duì)特征提取過于簡(jiǎn)單,造成了小目標(biāo)物體的信息丟失。圖5中單路徑(本文)算法僅使用語義上下文路徑,相比于雙路徑(本文),對(duì)電線桿、行人等小目標(biāo)物體的分割以及對(duì)整體空間信息的把握略有不足,說明本文空間特征提取模塊的引入是有效的。相比于BiSeNet,由于引入注意力機(jī)制對(duì)不同層次信息進(jìn)行融合,產(chǎn)生的誤分類數(shù)相對(duì)較少。從圖中第2行第4列和第6列中對(duì)行人的分割結(jié)果可以算出,本文對(duì)邊界的分割效果較為明顯。
PspNet[8]為了聚合全局上下文信息,引入金字塔池化對(duì)8倍下采樣后的特征圖進(jìn)行多尺度拼接。本文為保留分辨率,以獲得較全面的空間信息,直接對(duì)4倍下采樣后的特征圖進(jìn)行池化操作,并對(duì)池化后的特征進(jìn)行參數(shù)逐級(jí)傳遞共享,加強(qiáng)對(duì)小目標(biāo)物體的識(shí)別。DANet[15]引入空間注意力機(jī)制,在低分辨率特征圖上學(xué)習(xí)局部特征的空間相互依賴關(guān)系,而本文在較高分辨率的基礎(chǔ)上提取全局空間信息;其引入的通道注意力機(jī)制只在單一階段提取特征,而本文利用高低階段特征之間的聯(lián)系對(duì)上下文進(jìn)行解析,以減少誤分類。
2.3 Aeroscapes實(shí)驗(yàn)結(jié)果
為了評(píng)估模型的泛化性能、分割更多樣化的駕駛視覺圖像,在Aeroscapes航空數(shù)據(jù)集上也進(jìn)行了測(cè)試。Aeroscapes數(shù)據(jù)集包含141個(gè)由距地面5~50 m 高度的無人機(jī)拍攝的視頻序列,這些視頻序列被分成了2 621幅訓(xùn)練圖像、648幅測(cè)試圖像,圖像分辨率均為720×1280;共11個(gè)語義類別,分別為人、汽車、自行車、障礙物、天空、道路、建筑物、無人機(jī)、船、動(dòng)物以及植被,訓(xùn)練策略同CamVid數(shù)據(jù)集一致。本文算法與其他方法對(duì)比結(jié)果如表6所示,其中Ensemble-Winer算法整合在不同數(shù)據(jù)集訓(xùn)練的優(yōu)點(diǎn),然后在Aeroscapes數(shù)據(jù)集訓(xùn)練才能得到所示精度,而本文算法沒有進(jìn)行額外整合的步驟,仍取得了較好的性能。
3 結(jié)束語
本文利用雙向分階段機(jī)制捕獲特征圖的空間特征和語義上下文特征,空間路徑基于4倍下采樣對(duì)提取的多尺度信息加以逐級(jí)傳遞,從而提升全局空間信息和小目標(biāo)物體的分割效果;語義上下文路徑提出雙階通道注意力機(jī)制將不同階段特征進(jìn)行融合,使得權(quán)重的分配更加合理;聚合模塊對(duì)融合后的局部特征進(jìn)行凝聚提取并擴(kuò)大感受野,減少分類與定位之間的矛盾同時(shí)獲取更廣泛的上下文特征。深度監(jiān)督訓(xùn)練的引入使得在恢復(fù)深層特征圖分辨率時(shí)邊界信息的分割精度得到提高,并加速了網(wǎng)絡(luò)的收斂;深度語義監(jiān)督訓(xùn)練和雙路徑機(jī)制的結(jié)合可同時(shí)兼顧邊界信息、語義信息、空間信息的提取,從而取得更有競(jìng)爭(zhēng)性的結(jié)果。
因街景圖像大多是連續(xù)的視頻序列,需要達(dá)到實(shí)時(shí)性的要求,本文提出的模型還存在優(yōu)化空間,未來可考慮使用優(yōu)化后的輕量級(jí)網(wǎng)絡(luò)作為基礎(chǔ)架構(gòu),達(dá)到同時(shí)兼顧網(wǎng)絡(luò)精度和實(shí)時(shí)性的要求。
參考文獻(xiàn):
[1] "青晨,禹晶,肖創(chuàng)柏,等.深度卷積神經(jīng)網(wǎng)絡(luò)圖像語義分割研究進(jìn)展[J].中國(guó)圖象圖形學(xué)報(bào),2020, 25 (6):1069-1090. (Qing Chen,Yu Jing,Xiao Chuangbai, et al .Deep convolutional neural network for semantic image segmentation[J]. Journal of Image and Graphics ,2020, 25 (6):1069-1090.)
[2] 田啟川,孟穎.卷積神經(jīng)網(wǎng)絡(luò)圖像語義分割技術(shù)[J].小型微型計(jì)算機(jī)系統(tǒng),2020, 41 (6):1302-1313. (Tian Qichuan,Meng Ying.Image semantic segmentation based on convolutional neural network[J]. Journal of Chinese Computer Systems ,2020, 41 (6):1302-1313.)
[3] Long J,Shelhamer E,Darrell T.Fully convolutional networks for semantic segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2015:3431-3440.
[4] Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition[EB/OL]. (2014-12-19).https://arxiv.org/pdf/1409.1556v4.pdf.
[5] Ronneberger O,F(xiàn)ischer P,Brox T.U-Net:convolutional networks for biomedical image segmentation[C]//Proc of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention.Cham:Springer,2015:234-241.
[6] Yu F,Koltun V.Multi-scale context aggregation by dilated convolutions[EB/OL]. (2016-04-30).https://arxiv.org/pdf/1511.07122v1.pdf.
[7] Badrinarayanan V,Kendall A,Cipolla R.SegNet:a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Trans on Pattern Analysis and Machine Intelligence ,2017, 39 (12):2481-2495.
[8] Zhao Hengshuang,Shi Jianping,Qi Xiaojuan, "et al .Pyramid scene parsing network[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:2881-2890.
[9] He Kaiming,Zhang Xiangyu,Ren Saoqing, et al .Deep residual lear-ning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2016:770-778.
[10] Peng Chao,Zhang Xiangyu,Yu Gang, et al .Large kernel matters:improve semantic segmentation by global convolutional network[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:4353-4361.
[11] Jégou S,Drozdzal M,Vazquez D, et al .The one hundred layers tiramisu:fully convolutional densenets for semantic segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:11-19.
[12] Zhao Hengshuang,Qi Xiaojuan,Shen Xiaoyong, et al .ICNet for real-time semantic segmentation on high-resolution images[C]//Proc of the 15th European Conference on Computer Vision.Cham:Springer,2018:405-420.
[13] "Chen L C,Zhu Yukun,Papandreou G, et al .Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//Proc of the 15th European Conference on Computer Vision.Cham:Springer,2018:833-851.
[14] Yu Changqian,Wang Jingbo,Peng Chao, et al. BiSeNet:bilateral segmentation network for real-time semantic segmentation[C]//Proc of European Conference on Computer Vision.Cham:Springer,2018:334-349.
[15] "Fu Jun,Liu Jing,Tian Haijie, et al .Dual attention network for scene segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:3146-3154.
[16] Huang Zilong,Wang Xinggang,Huang Lichao, et al .CCNet:criss-cross attention for semantic segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:603-612.
[17] Li Xiangtai,You Ansheng,Zhu Zhen, et al .Semantic flow for fast and accurate scene parsing[C]//Proc of the 16th European Conference on Computer Vision.Cham:Springer,2020:775-793.
[18] Ghiasi G,F(xiàn)owlkes C C.Laplacian pyramid reconstruction and refinement for semantic segmentation[C]//Proc of the 14th European Conference on Computer Vision.Cham:Springer,2016:519-534.
[19] Zhang Zhenli,Zhang Xiangyu,Peng Chao, et al .ExFuse:enhancing feature fusion for semantic segmentation[C]//Proc of the 15th European Conference on Computer Vision.Cham:Springer,2018:273-288.
[20] Peng Chengli,Tian Tian,Chen Chen, et al .Bilateral attention deco-der:a lightweight decoder for real-time semantic segmentation[J]. Neural Networks ,2021, 137 (5):188-199.
[21] Yu Changqian,Wang Jingbo,Peng Chao, et al .Learning a discriminative feature network for semantic segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2018:1857-1866.
[22] Li Gen,Yun I,Kim J, et al .DABNet:depth-wise asymmetric bottleneck for real-time semantic segmentation[EB/OL]. (2019-10-01).https://arxiv.org/pdf/1907.11357.pdf.
[23] Huang Yunjia,Xu Haixia.Fully convolutional network with attention modules for semantic segmentation[J]. Signal,Image and Video Processing, 2021, 15 (1):1031-1039.
[24] Lin T Y,Goyal P,Girshick R, et al .Focal loss for dense object detection[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2020, 42 (2):318- 327.
[25] Kingma D P,Ba J L.Adam:a method for stochastic optimization[EB/OL]. (2017-01-30).https://arxiv.org/pdf/1412.6980.pdf.
[26] Kundu A,Vineet V,Koltun V.Feature space optimization for semantic video segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2016:3168-3175.
[27] Nigam I,Huang Chen,Ramanan D.Ensemble knowledge transfer for semantic segmentation[C]//Proc of IEEE Winter Conference on Applications of Computer Vision.Washington DC:IEEE Computer Society,2018:1499-1508.