何雪東,宣士斌,2*,王款,陳夢(mèng)楠
(1.廣西民族大學(xué) 人工智能學(xué)院,南寧 530006;2.廣西混雜計(jì)算與集成電路設(shè)計(jì)分析重點(diǎn)實(shí)驗(yàn)室(廣西民族大學(xué)),南寧 530006)
語(yǔ)義分割是計(jì)算機(jī)視覺(jué)中最重要的密集預(yù)測(cè)任務(wù)之一[1]。它將圖像或視頻幀劃分為多個(gè)片段和對(duì)象,并在醫(yī)學(xué)圖像分析(如腫瘤邊界提取和組織體積測(cè)量)、自動(dòng)駕駛汽車(chē)(如可導(dǎo)航的表面和行人檢測(cè))、視頻監(jiān)控、增強(qiáng)現(xiàn)實(shí)等領(lǐng)域[2-5]中應(yīng)用廣泛。
近些年來(lái),全卷積網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)[6]使語(yǔ)義分割技術(shù)快速發(fā)展,大量語(yǔ)義分割模型相繼被提出。分析近些年著名的語(yǔ)義分割模型后發(fā)現(xiàn),大部分工作集中在整合豐富的上下文信息以及對(duì)注意力機(jī)制的使用[1,5,7-15]。尤其是對(duì)通道注意力的使用,引起了廣泛的關(guān)注。其中最具代表性的是SENet[10],它通過(guò)SE(Squeeze-and-Excitation)模塊建立通道特征之間的依賴(lài)關(guān)系以提高網(wǎng)絡(luò)模型精度,之后的一些研究大多通過(guò)更復(fù)雜的通道依賴(lài)改進(jìn)SE 模塊。CBAM(Convolutional Block Attention Module)[16]和ECA-Net(Efficient Channel Attention for deep convolutional neural Network)[15]又相繼提出加入最大值池化的通道注意力和更輕量的通道注意力。但是這些通道注意力模塊仍然需要少量參數(shù)進(jìn)行訓(xùn)練,增加了網(wǎng)絡(luò)的訓(xùn)練負(fù)擔(dān)。文獻(xiàn)[17]中提出將自適應(yīng)注意力機(jī)制加入主干網(wǎng)絡(luò),以增強(qiáng)主干網(wǎng)絡(luò)提取特征的能力,但忽略了高分辨率的低級(jí)特征。
DeepLab 系列網(wǎng)絡(luò)[11-14]是整合上下文信息的代表模型,并且目前仍是最流行的語(yǔ)義分割網(wǎng)絡(luò)模型之一。DeepLabV1[11]將空洞卷積引入主干網(wǎng)絡(luò),以減少一系列卷積操作導(dǎo)致有效信息丟失的問(wèn)題。因?yàn)榛趦?yōu)化卷積結(jié)構(gòu)的空洞卷積可以在不損失分辨率的前提下擴(kuò)大卷積核的感受野[18],DeeplabV2 引入空洞空間金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)聚合不同空洞率的空洞卷積生成的多尺度特征,以增強(qiáng)網(wǎng)絡(luò)對(duì)不同尺度目標(biāo)的預(yù)測(cè)能力[12]。DeepLabV3+[14]擁有簡(jiǎn)單有效的解碼模塊以及聚合多尺度特征的ASPP 模塊,因此在DeepLab 系列中更有效,并且多次被應(yīng)用于實(shí)際應(yīng)用。
經(jīng)過(guò)多次實(shí)驗(yàn)發(fā)現(xiàn),DeepLabV3+在解碼階段只使用了主干網(wǎng)絡(luò)多階段淺層特征中的一個(gè)用作解碼模塊的融合,因此會(huì)造成部分信息丟失、分割不連續(xù)以及大尺度物體錯(cuò)誤分割等問(wèn)題。而直接將高級(jí)特征與主干網(wǎng)絡(luò)中的低級(jí)特征進(jìn)行拼接融合,顯然會(huì)忽略不對(duì)齊的高低級(jí)特征向特征圖中引入噪聲的問(wèn)題[19],影響語(yǔ)義分割的精度。
因此,本文提出累積分布通道注意力DeepLabV3+(Cumulative Distribution Channel Attention DeepLabV3+,CDCA-DLV3+)模型以提高DeepLabV3+的語(yǔ)義分割效果。本文的主要工作為:1)在高低特征跨層融合前加入一種注意力機(jī)制,即本文提出的累積分布通道注意力(Cumulative Distribution Channel Attention,CDCA)模塊,在減少噪聲干擾的同時(shí)對(duì)特征通道進(jìn)行加權(quán),抑制通道信息冗余,整合更加豐富的上下文信息;2)在解碼階段進(jìn)行多次高低級(jí)特征融合,充分利用特征提取階段中的淺層特征,阻止圖像還原時(shí)圖像邊緣和紋理信息丟失,以提高模型細(xì)節(jié)的表征能力。本文提出的改進(jìn)策略能有效強(qiáng)化重要特征學(xué)習(xí),增強(qiáng)網(wǎng)絡(luò)學(xué)習(xí)能力,且只少量增加模型參數(shù)。
作為DeepLabV3 的改進(jìn)網(wǎng)絡(luò),DeepLabV3+在解碼階段增加一個(gè)簡(jiǎn)單的解碼器模塊來(lái)提取分割結(jié)果,該模塊通過(guò)逐步恢復(fù)空間信息以捕獲更清晰的目標(biāo)邊界[14]。實(shí)際上,對(duì)于邊界特征的提取可以通過(guò)注意力機(jī)制提高表征能力,像人類(lèi)一樣關(guān)注視野中的重要部分,忽略不重要的干擾物[16]。
DeepLabV3+網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,主要分為用于特征提取、還原的編碼層與解碼層,R為空洞率。
編碼層,即下采樣編碼部分,用于提取輸入圖像的高級(jí)語(yǔ)義信息。目前主流的主干網(wǎng)絡(luò)有ResNet(Residual Network)[20]、MobileNet[21-23]、Xception[24]、VGG(Visual Geometry Group)[25]等。又因?yàn)榭斩淳矸e[18,26]可以在與普通卷積具有相同參數(shù)量的情況下獲得更大的感受野并且不損失特征圖的分辨率,所以DeepLabV3+對(duì)ResNet-101 進(jìn)行改進(jìn),即在特征提取的最后的位置使用了空洞率分別為2、4、8的空洞卷積以提高特征提取的效果。主干網(wǎng)絡(luò)下采樣完成之后,經(jīng)過(guò)ASPP 模塊處理后得到編碼層最終輸出的特征圖。
解碼層,即DeepLabV3+網(wǎng)絡(luò)的解碼部分,首先對(duì)編碼層最終的輸出特征圖直接進(jìn)行4 倍上采樣并與ResNet-101 下采樣操作所產(chǎn)生的1/4 大小的特征圖經(jīng)過(guò)一次1×1 的卷積(Conv)后在通道維度進(jìn)行拼接(Concat),然后對(duì)所得特征圖進(jìn)行兩次3×3 的卷積,最后經(jīng)過(guò)一次4 倍上采樣所得到特征圖即該網(wǎng)絡(luò)的最終預(yù)測(cè)結(jié)果。
本文使用全新的通道注意力以獲得更加有效的低級(jí)特征,并且采用特征金字塔網(wǎng)絡(luò)(Future Pyramid Network,F(xiàn)PN)逐步還原特征圖,以避免多次大倍數(shù)上采樣造成的特征缺失,最終得到更加精準(zhǔn)的分割效果。
注意力機(jī)制可以看作一種根據(jù)特征圖的重要性重新分配資源的機(jī)制[7],并且效果顯著,因此注意力機(jī)制近幾年被大量應(yīng)用于深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Network,DCNN)。在SENet 中首次使用通道注意力(Channel Attention,CA)[10],它利用了通道之間的關(guān)系生成通道注意圖。隨后,許多研究將它應(yīng)用于視覺(jué)任務(wù)。Wang等[15]基于SENet 在ECA-Net 提出一種高效通道注意力(Efficient Channel Attention,ECA)模塊,使用一維卷積來(lái)規(guī)避SENet 中的降維操作,實(shí)驗(yàn)結(jié)果表明不僅提升了模型的性能,并且降低了復(fù)雜度。SENet 只使用平均池化獲取通道中的空間聚合信息,但最大池化也可以收集獨(dú)特的物體特征,因此在CBAM 中提出了同時(shí)使用最大池化和平均池化的通道注意力結(jié)構(gòu)[16]。但這些模塊仍然存在一定量的參數(shù)需要進(jìn)行訓(xùn)練。為解決這一問(wèn)題,本文基于上述通道注意力機(jī)制提出了一種不需要任何參數(shù)的通道注意力。
空洞空間金字塔池化[12]模塊基于空間金字塔池化(Spatial Pyramid Pooling,SPP)[27]思想,采用不同大小、空洞率的空洞卷積獲得圖像的精確特征,之后通過(guò)1×1 卷積將通道數(shù)降低到合理范圍。ASPP 模塊對(duì)語(yǔ)義分割網(wǎng)絡(luò)的特征提取部分尤為重要。文獻(xiàn)[28]中提出一種采用不同空洞率組合的ASPP 模塊,并在實(shí)驗(yàn)中取得了明顯的改進(jìn)效果。本文在改進(jìn)的模型中分別采用上述兩種ASPP 模塊進(jìn)行對(duì)比實(shí)驗(yàn)。
原始DeepLabV3+只是通過(guò)簡(jiǎn)單的卷積與拼接進(jìn)行空間信息恢復(fù)以及邊界特征提取。而文獻(xiàn)[28]中改進(jìn)的DeepLabV3+雖然結(jié)合了1/8 和1/16 大小的特征圖并將它融入解碼模塊中,但由于只是通過(guò)簡(jiǎn)單的金字塔結(jié)構(gòu)拼接且沒(méi)有對(duì)編碼階段的特征圖作特征選擇,編碼階段的噪聲也融入了解碼模塊。在實(shí)驗(yàn)中發(fā)現(xiàn)這些模型存在許多錯(cuò)誤分割以及漏分割部分,為此本文在原始DeepLabV3+的解碼部分加入基于通道注意力機(jī)制和累積分布函數(shù)的CDCA 模塊,并將模型命名為CDCA-DLV3+。
CDCA-DLV3+網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示,依舊分為編碼層與解碼層。在編碼層的特征提取部分的主干網(wǎng)絡(luò)與原網(wǎng)絡(luò)相同均采用ResNet-101。受CBAM 和ECA-Net[15]以及累積分布函數(shù)在圖像增強(qiáng)方面應(yīng)用的啟發(fā),提出了CDCA,該模塊的優(yōu)點(diǎn)在于提升網(wǎng)絡(luò)性能的同時(shí)不增加網(wǎng)絡(luò)的復(fù)雜度。在編碼部分下采樣的每個(gè)階段都會(huì)產(chǎn)生不同尺度的特征圖,最終輸出的特征圖分辨率為原圖1/16 大小。首先將1/16 大小的特征圖送入ASPP 模塊中進(jìn)行處理,然后將ASPP 中所得到的所有特征圖經(jīng)過(guò)Concat 進(jìn)行融合,最后對(duì)融合后的特征圖使用1×1 卷積操作進(jìn)行降維,至此編碼部分完成。
圖2 CDCA-DLV3+網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 CDCA-DLV3+network structure
原始DeepLabV3+網(wǎng)絡(luò)在解碼部分沒(méi)有充分結(jié)合高分辨率特征,并且經(jīng)過(guò)兩次4 倍上采樣得到最終預(yù)測(cè)的這種較大倍數(shù)的上采樣會(huì)丟失一些重要像素,從而使網(wǎng)絡(luò)最終的輸出結(jié)果不準(zhǔn)確。而文獻(xiàn)[28]雖然在解碼模塊中結(jié)合高分辨率特征,但會(huì)將噪聲融入解碼模塊,導(dǎo)致精度下降。因此本文提出一個(gè)更有效且靈活的解碼模塊,并且提出全新的CDCA。因?yàn)樵W(wǎng)絡(luò)只應(yīng)用了下采樣階段1/4 的特征圖,但是在編碼層下采樣操作時(shí)所產(chǎn)生的每一個(gè)特征圖都會(huì)對(duì)網(wǎng)絡(luò)的分割結(jié)果有影響,所以CDCA-DLV3+網(wǎng)絡(luò)利用特征金字塔思想在應(yīng)用1/4 大小的特征圖的同時(shí)又加入1/8 和1/16 大小的特征圖,即將1/8 以及1/16 的特征圖先后與ASPP 模塊輸出的特征圖進(jìn)行拼接作為解碼部分特征融合的重要部分,具體操作如圖3 所示。其中:A、B為編碼層下采樣時(shí)產(chǎn)生的特征圖,大小分別為1/8、1/16,通道數(shù)分別為512、1 024;C為ASPP 模塊輸出的特征圖進(jìn)行1×1 卷積降維后得到的1/16 大小的特征圖。將B輸入CDCA 模塊得到特征圖B各個(gè)通道的權(quán)重,并與B相乘,再與C拼接得到大小為1/16 的特征圖D。對(duì)D使用1×1 卷積進(jìn)行降維,然后通過(guò)2 倍上采樣得到分辨率為原圖1/8 的特征圖E。特征圖A與A經(jīng)過(guò)CDCA 的輸出值進(jìn)行相乘,再與E拼接得到新的特征圖,對(duì)它使用1×1 卷積降維,再使用2 倍上采樣,得到分辨率為原圖1/4 的特征圖F。最后,對(duì)圖1 中下采樣過(guò)程中1/4 大小的特征圖進(jìn)行一次1×1 卷積后與特征圖F拼接,所得結(jié)果再經(jīng)過(guò)兩個(gè)3×3 卷積和一個(gè)4 倍上采樣得到的輸出即網(wǎng)絡(luò)預(yù)測(cè)結(jié)果。
圖3 CDCA-DLV3+網(wǎng)絡(luò)結(jié)構(gòu)細(xì)節(jié)Fig.3 CDCA-DLV3+network structure details
相較于文獻(xiàn)[28]中直接將1/8 和1/16 大小特征圖通過(guò)特征金字塔網(wǎng)絡(luò)(FPN)[29]融合后與編碼層的輸出特征圖拼接的操作,本文的解碼模塊更加靈活,可以只對(duì)1/8 或1/16 大小的特征圖進(jìn)行處理;并且相較于文獻(xiàn)[28]提出的改進(jìn)模型,本文的改進(jìn)策略擁有更少的參數(shù)以及浮點(diǎn)運(yùn)算量,且精度更高,具體對(duì)比將會(huì)在實(shí)驗(yàn)部分列出。
在ECA 模型中,只使用了平均池化以聚合空間信息,卻忽略了最大池化這一重要線索。因?yàn)樽畲蟪鼗梢允占瘜?duì)象不同的重要特征[16],以此推斷出更加精確的通道注意力。并且文獻(xiàn)[16]通過(guò)實(shí)驗(yàn)證實(shí),同時(shí)利用這兩種特征可以極大地提高網(wǎng)絡(luò)的表示能力,所以為了獲得更豐富特征信息,在提出的CDCA 模塊中使用平均池化和最大池化來(lái)獲得更加精細(xì)的通道注意力。由于通道注意力最終輸出的數(shù)值為每個(gè)特征圖的權(quán)重,目的是強(qiáng)調(diào)某些特征圖的重要性。而累積分布函數(shù)可以增加圖像的對(duì)比度,為了增強(qiáng)通道注意力中參數(shù)的作用,即令重要特征圖的權(quán)重更大且減小不重要特征圖的權(quán)重,最終決定使用累積分布函數(shù)分別重新計(jì)算平均池化和最大池化后的數(shù)據(jù),實(shí)驗(yàn)結(jié)果表明CDCA 能有效提升模型精度。CDCA 模塊的結(jié)構(gòu)如圖4 所示。
圖4 累積分布通道注意力模塊結(jié)構(gòu)Fig.4 Structure of CDCA module
CDCA的輸入特征圖Fin∈RH×W×C,通過(guò)通道維度的最大池化 和平均 池化可 以分別得到Fmp∈R1×1×C和Fap∈R1×1×C:
其中:Squeeze(·)代表降維操作;P表示降維后的張量;F表示最大池化和平局池化后1× 1×C的張量;pj表示張量P在j位置的數(shù)值;rj表示pj映射為[0,255]的數(shù)值;nk表示灰度值小于等于rk的像素?cái)?shù);n表示張量中數(shù)據(jù)的總數(shù);L表示張量中可能的灰度級(jí);pr(rk)為灰度值小于等于rk的像素在該張量中的概率;Rep(·)為替換操作,即將張量P中像素值為rk的所有像素替換為pr(rk)的數(shù)值;Unsqueeze(·)為升維操作。
CDCA 模塊使用累積分布函數(shù),每使用一個(gè)CDCA 只增加少量參數(shù)。但是CDCA 本身并不存在參數(shù),增加的參數(shù)為處理特征圖通道數(shù)的卷積操作,因此CDCA 是一個(gè)輕量級(jí)的模塊,可以通過(guò)只增加少量參數(shù)就提升網(wǎng)絡(luò)的分割精度。累積分布函數(shù)對(duì)平均池化和最大池化后的數(shù)據(jù)重新賦值,所以每一個(gè)通道的權(quán)重會(huì)發(fā)生改變。使用累積分布函數(shù)不會(huì)使下采樣后得到特征圖信息缺失,也可以抑制噪聲對(duì)輸出結(jié)果的影響,同時(shí)會(huì)提高權(quán)重較大的通道的重要性,并且整個(gè)操作過(guò)程運(yùn)算量很小,對(duì)于整個(gè)網(wǎng)絡(luò)模型速度的影響并不大。
FPN 如圖5 所示,可以融合不同分辨率的特征圖(主要為主干網(wǎng)絡(luò)中的特征圖與ASPP 模塊輸出的特征圖)。圖5左側(cè)是4 個(gè)由下向上分辨率由大變小的特征圖,虛線部分為FPN 進(jìn)行融合操作的具體過(guò)程,使用對(duì)應(yīng)通道相加的方式進(jìn)行融合。不同的是,本文模型均在通道維度采用Concat 操作完成特征融合。因?yàn)樵嫉腇PN 使用對(duì)應(yīng)通道相加的方式進(jìn)行特征圖融合,有可能導(dǎo)致重要特征缺失,然而使用Concat 操作會(huì)保留所有特征圖,因此特征更加豐富且不會(huì)造成信息缺失。本文將編碼層下采樣階段中的特征圖B,即大小和通道數(shù)分別為1/16、1 024 的特征圖通過(guò)CDCA 與ASPP的輸出進(jìn)行拼接正是使用這一思想。雖然這兩部分都是1/16 大小,但因?yàn)橹鞲删W(wǎng)絡(luò)中特征圖經(jīng)過(guò)更少的卷積和下采樣,所以會(huì)留存一些更精細(xì)的語(yǔ)義信息。通過(guò)圖2 網(wǎng)絡(luò)中的兩次橫向連接,自底向上的語(yǔ)義信息得到了增強(qiáng)。
圖5 特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Feature pyramid network structure
本文實(shí)驗(yàn)使用Pascal VOC(Pascal Visual Object Classes)2012 標(biāo)準(zhǔn)數(shù)據(jù)集和SBD(Semantic Boundaries Dataset)組合成的Pacal 加強(qiáng)數(shù)據(jù)集[30]以及Cityscapes[31]數(shù)據(jù)集。其中Pacal加強(qiáng)數(shù)據(jù)集的標(biāo)準(zhǔn)數(shù)據(jù)集中訓(xùn)練、驗(yàn)證、測(cè)試的圖像數(shù)分別為1 464、1 449、1 456;SBD 中訓(xùn)練和驗(yàn)證所用圖像數(shù)分別為8 498 和2 857,將合并后的數(shù)據(jù)集用于訓(xùn)練、驗(yàn)證、測(cè)試圖像數(shù)分別為10 582、1 449、1 456。所有圖像的分語(yǔ)義分類(lèi)有21個(gè),其中有20 個(gè)前景分類(lèi)以及1 個(gè)背景分類(lèi)。Cityscapes 數(shù)據(jù)集包含5 000 幅高質(zhì)量像素級(jí)注釋的圖像(訓(xùn)練集、驗(yàn)證集和測(cè)試集數(shù)量分別為2 975、500 和1 525)和2× 104張粗注釋圖像,共分30 個(gè)類(lèi)別。
本文中所涉及程序均使用Python+Pytorch 框架實(shí)現(xiàn)。表1 為運(yùn)行環(huán)境的配置。
表1 機(jī)器軟硬件配置Tab.1 Machine software and hardware configuration
對(duì)學(xué)習(xí)率采用一種“poly”的學(xué)習(xí)策略,如式(7)所示:
式(7)中各參數(shù)在程序中的初始值分別為:base_lr=0.001 4;iter為當(dāng)前程序運(yùn)行的次數(shù);max_iter為程序最大可運(yùn)行次數(shù);power=0.9。原始圖像分辨率會(huì)被預(yù)處理為513×513 再送入神經(jīng)網(wǎng)絡(luò),主干網(wǎng)絡(luò)為ResNet-101,優(yōu)化器為隨機(jī)梯度下降法,batch size 以及Epochs 分別為16、100。平均交并比(mean Intersection over Union,mIoU)為語(yǔ)義分割領(lǐng)域最重要的指標(biāo)評(píng)價(jià)方法,它表示真實(shí)值和預(yù)測(cè)值的重合度,因此本文使用mIoU 進(jìn)行評(píng)估,計(jì)算方法如下:
其中:N為數(shù)據(jù)集的類(lèi)別數(shù)量;Ti為圖像中像素為i類(lèi)像素的總數(shù);Xii為像素為i類(lèi)像素并且預(yù)測(cè)結(jié)果也是i類(lèi)像素的總數(shù);Xji為像素為i類(lèi)像素但預(yù)測(cè)結(jié)果為j類(lèi)像素的總數(shù)。
3.3.1 CDCA模塊以及ASPP空洞率對(duì)網(wǎng)絡(luò)的影響
CDCA 模塊可以只增加少量參數(shù),在下采樣編碼階段提取有效的信息特征,而選擇合適的高分辨率特征圖以及在多個(gè)高分辨率特征圖中選擇出合適的細(xì)節(jié)特征尤為重要。
表2 為CDCA-DLV3+對(duì)不同尺度的高分辨率特征圖使用CDCA 模塊的測(cè)試結(jié)果對(duì)比,√表示CDCA 模塊對(duì)編碼時(shí)所產(chǎn)生的對(duì)應(yīng)尺度特征圖進(jìn)行處理。對(duì)ASPP 采用兩種不同的空洞率,其中:(6,12,18)空洞率組合為原DeepLabV3+提出;(4,8,12,16)空洞率組合為文獻(xiàn)[28]中提出的改進(jìn)ASPP 的空洞率組合。由于DeepLabV3+沒(méi)有對(duì)1/8 以及1/16 的特征圖作任何處理,所以將它加入對(duì)比實(shí)驗(yàn)。在ASPP 模塊使用(6,12,18)空洞率組合,對(duì)1/8 大小的特征圖使用CDCA 模塊并與ASPP 模塊的輸出特征圖進(jìn)行通道維度的拼接,相較于原模型,mIoU 提高了0.45 個(gè)百分點(diǎn),參數(shù)量與浮點(diǎn)運(yùn)算量增長(zhǎng)很?。粚?duì)1/16 大小的特征圖作同樣處理,mIoU 提高了0.17個(gè)百分點(diǎn);同時(shí)使用這兩個(gè)階段的特征圖,因此參數(shù)量以及浮點(diǎn)運(yùn)算量有明顯提高,相較于原模型,mIoU 提高了0.71 個(gè)百分點(diǎn)。在ASPP 模塊使用(4,8,12,16)空洞率組合,使用CDCA 模塊對(duì)1/8 大小的特征圖進(jìn)行融合,mIoU 值提高了0.95 個(gè)百分點(diǎn);對(duì)1/16 大小的特征圖作同樣處理,mIoU 提高了0.15 個(gè)百分點(diǎn);使用CDCA 模塊同時(shí)融合兩個(gè)階段的特征圖,mIoU 提高了0.66 個(gè)百分點(diǎn)。綜上所述,當(dāng)ASPP 使用(6,12,18)空洞率組合時(shí),對(duì)1/8 和1/16 大小的特征圖同時(shí)使用CDCA 模塊進(jìn)行融合可以取得最好結(jié)果。當(dāng)ASPP 使用(4,8,12,16)空洞率組合時(shí),只對(duì)1/8 大小的特征圖使用CDCA模塊進(jìn)行融合可以取得最好結(jié)果,優(yōu)于上述所有結(jié)果。
表2 CDCA模塊以及ASPP空洞率對(duì)網(wǎng)絡(luò)的影響Tab.2 Influence of CDCA module and ASPP atrous rate on network
3.3.2 不同模型對(duì)比
如表3 所示,模型1 為CDCA-DLV3+采用(6,12,18)空洞率組合的ASPP 模塊+融合1/8 特征圖的CDCA 模塊,只增加了少量參數(shù)和浮點(diǎn)運(yùn)算量得到了比DeepLabV3+更優(yōu)秀的性能。模型2 為CDCA-DLV3+使用文獻(xiàn)[28]中所提出的ASPP空洞率組合+融合1/8 特征圖的CDCA 模塊,mIoU 優(yōu)于所有模型。相較于DeepLabV3+,模型2 的mIoU 提高了1.24 個(gè)百分點(diǎn)。由于模型1、2 相較于DeepLabV3+增加了額外的計(jì)算量,因此模型訓(xùn)練時(shí)間會(huì)隨浮點(diǎn)運(yùn)算量增加而增加。
表3 不同模型的對(duì)比結(jié)果Tab.3 Comparison results of different models
3.3.3 預(yù)測(cè)圖對(duì)比
如圖6 所示為模型2 與DeepLabV3+輸出預(yù)測(cè)圖的對(duì)比。語(yǔ)義分割的目的是準(zhǔn)確分割出圖像中存在的目標(biāo),因此網(wǎng)絡(luò)最終預(yù)測(cè)的結(jié)果的精細(xì)程度與mIoU 正相關(guān)。網(wǎng)絡(luò)預(yù)測(cè)結(jié)果與標(biāo)簽越接近,mIoU 越高,最終預(yù)測(cè)結(jié)果的邊緣越清晰。
圖6 PACAL數(shù)據(jù)集上模型2與DeepLabV3+網(wǎng)絡(luò)預(yù)測(cè)圖對(duì)比Fig.6 Prediction graph comparison between Model 2 and DeepLabV3+network on PASCAL dataset
可以看出,在圖像1 中,DeepLabV3+對(duì)圖像中的牛存在錯(cuò)誤預(yù)測(cè),且輪廓的預(yù)測(cè)不夠精細(xì);采用模型2 預(yù)測(cè)則減少了錯(cuò)誤預(yù)測(cè)的像素,尤其是牛的右側(cè),錯(cuò)誤預(yù)測(cè)完全消除,且牛的輪廓更加清晰。在圖像2 中,DeepLabV3+分割出來(lái)的沙發(fā)上存在大塊錯(cuò)誤識(shí)別像素,右側(cè)也存在錯(cuò)誤識(shí)別部分;模型2 的輸出結(jié)果更優(yōu),沙發(fā)上的錯(cuò)誤識(shí)別部分更小,右側(cè)錯(cuò)誤像素基本消除。在圖像3 中,DeepLabV3+預(yù)測(cè)出的電視機(jī)基本準(zhǔn)確,但是右側(cè)存在大塊的錯(cuò)誤分類(lèi)部分;模型2 正確預(yù)測(cè)出電視機(jī),并且右側(cè)錯(cuò)誤分類(lèi)像素大幅減少。圖像4中,模型2 成功預(yù)測(cè)出飛機(jī),并且沒(méi)有錯(cuò)誤預(yù)測(cè)的像素,飛機(jī)更加完整;而DeepLabV3+中的飛機(jī)尾部預(yù)測(cè)缺失嚴(yán)重。圖像5、6 中,DeepLabV3+存在將人物左上方和汽車(chē)的上方背景錯(cuò)誤分割為人的問(wèn)題,模型2 則完全避免了這些問(wèn)題。圖像7 中,DeepLabV3+預(yù)測(cè)出的電視機(jī)輪廓模糊且存在大量錯(cuò)誤分割,模型2 的預(yù)測(cè)圖像錯(cuò)誤分割部分大幅減少且輪廓更加清晰。圖像8 中,DeepLabV3+對(duì)于大尺度物體內(nèi)部存在像素預(yù)測(cè)錯(cuò)誤,模型2 則完全解決了這一問(wèn)題。綜上所述,CDCA-DLV3+模型的mIoU 值更高,預(yù)測(cè)結(jié)果更加準(zhǔn)確,邊緣更加清晰、更具魯棒性。
表4 為模型1、2 與DeepLabV3+在Cityscapes 數(shù)據(jù)集上的mIoU 對(duì)比。其中DeepLabV3+的mIoU 結(jié)果來(lái)源于文獻(xiàn)[32],輸入模型的圖像大小為512×1 024,batch size 為8,epoches 為108,主干網(wǎng)絡(luò)依舊使用ResNet-101。采用相同的配置,模型1、2 的mIoU 相較于DeepLabV3+提高了0.59、1.02 個(gè)百分點(diǎn)。進(jìn)一步說(shuō)明了本文模型的有效性。
表4 在Cityscapes數(shù)據(jù)集上的mIoU對(duì)比 單位:%Tab.4 mIoU comparison on Cityscapes dataset unit:%
本文提出一種累積分布函數(shù)的通道注意力(CDCA)并結(jié)合FPN 加入DeepLabV3+網(wǎng)絡(luò),以利用編碼層下采樣階段產(chǎn)生的有效的低級(jí)特征。實(shí)驗(yàn)結(jié)果表明通過(guò)CDCA 模塊提取低級(jí)特征存在的有效信息時(shí),網(wǎng)絡(luò)的參數(shù)量增加很少,當(dāng)只融合1/8 特征圖時(shí)運(yùn)算速度也較低。通過(guò)兩次2 倍上采樣的操作緩解了大倍數(shù)上采樣所造成的圖像中大量有效信息丟失的問(wèn)題,使最終預(yù)測(cè)結(jié)果更加精確。經(jīng)過(guò)大量實(shí)驗(yàn)結(jié)果表明,CDCA-DLV3+優(yōu)于DeepLabV3+。
在本文中所使用的DeepLabV3+網(wǎng)絡(luò)參數(shù)較多,不利于終端設(shè)備上部署,未來(lái)可以考慮對(duì)SegFormer[33]網(wǎng)絡(luò)使用ASPP 模塊以及其他注意力機(jī)制進(jìn)行改進(jìn),在終端設(shè)備上獲得更好的精度和預(yù)測(cè)結(jié)果。