李 鑫,張紅英,劉漢玉
1.西南科技大學(xué) 信息工程學(xué)院,四川 綿陽 621010
2.西南科技大學(xué) 特殊環(huán)境機(jī)器人技術(shù)四川省重點(diǎn)實(shí)驗(yàn)室,四川 綿陽 621010
圖像語義分割作為計(jì)算機(jī)視覺任務(wù)中不同于目標(biāo)檢測和圖像分類的基石性技術(shù),為圖像中每一像素分配一個(gè)預(yù)先定義好的表示其語義類別的標(biāo)簽達(dá)到像素級(jí)分類任務(wù)[1]。具體來說,圖像語義分割是指從像素級(jí)別分辨出圖像中的目標(biāo)對(duì)象具體是什么以及目標(biāo)對(duì)象在哪個(gè)位置,即先把圖片中的目標(biāo)檢測出來,然后描繪出每個(gè)個(gè)體和場景之間的輪廓,最后將它們分類并對(duì)屬于同一類的事物賦予一個(gè)顏色進(jìn)行表示[2]。近年來,隨著計(jì)算機(jī)視覺中深度學(xué)習(xí)技術(shù)的發(fā)展,圖像語義分割在自動(dòng)駕駛、智能醫(yī)療等方面都得到廣泛應(yīng)用。DCNN的內(nèi)在不變性可以學(xué)習(xí)到密集抽象的特征,比傳統(tǒng)根據(jù)樣本特征設(shè)計(jì)的系統(tǒng)性能要好很多。但現(xiàn)有語義分割算法依然存在類內(nèi)語義誤識(shí)別、小尺度物體丟失、分割邊界模糊等問題。因此,捕獲更多特征信息和針對(duì)目標(biāo)邊界優(yōu)化是提升分割準(zhǔn)確率的重要研究內(nèi)容。
2006 年Hinton 等人提出深度學(xué)習(xí)概念[3],卷積神經(jīng)網(wǎng)絡(luò)在表征學(xué)習(xí)方面得到認(rèn)可。得益于計(jì)算機(jī)顯卡算力的全面發(fā)展。2015 年,Long 等人在文獻(xiàn)[4]提出全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional network,F(xiàn)CN),將VGG-16 網(wǎng)絡(luò)[5]中全連接層替換為卷積層,在上采樣特征圖中進(jìn)行像素分類。相較傳統(tǒng)方法,在分割速度和準(zhǔn)確率上獲得全面提升,但分割結(jié)果不夠精細(xì),缺乏空間一致性。同年,文獻(xiàn)[6]提出用于醫(yī)學(xué)圖像的編解碼語義分割模型U-Net,使用編碼器下采樣獲得空間信息和圖像語義,解碼器則通過上采樣恢復(fù)特征圖分辨率,通過特征圖跨層融合方式提取圖像細(xì)節(jié)信息,在醫(yī)學(xué)領(lǐng)域具有良好表現(xiàn)但不適用與室內(nèi)外場景語義預(yù)測。2016年,文獻(xiàn)[7]在Deeplab V1 網(wǎng)絡(luò)[8]的基礎(chǔ)上提出Deeplab V2 模型,使用膨脹卷積代替部分池化操作進(jìn)行下采樣濾波器進(jìn)行特征提取,使用空間金字塔池化(atrous spatial pyramid pooling,ASPP)模塊[9]進(jìn)行多尺度特征提取,獲得更豐富的語義信息,使用全連接條件隨機(jī)場(conditional random field,CRF)進(jìn)行類別細(xì)節(jié)優(yōu)化。2017年,Deeplab V3[10]在V2網(wǎng)絡(luò)的基礎(chǔ)上對(duì)ASPP模塊進(jìn)行改進(jìn),構(gòu)成一個(gè)端對(duì)端的網(wǎng)絡(luò)結(jié)構(gòu),取消CRF邊界優(yōu)化模塊。2018 年提出的Deeplab V3+[11]將V3 網(wǎng)絡(luò)作為編碼器,通過增加結(jié)構(gòu)簡單的解碼器構(gòu)建一個(gè)帶膨脹卷積和空間金字塔池化的編-解碼器網(wǎng)絡(luò)模型,取得更好的分割結(jié)果,但仍然存在類內(nèi)誤識(shí)別和邊界預(yù)測粗糙問題。2019 年,微軟亞太實(shí)驗(yàn)室提出高分辨率網(wǎng)絡(luò)(high resolution network,HRNet)[12]通過與眾不同的并聯(lián)結(jié)構(gòu)保持高分辨率表征,已經(jīng)在人體姿態(tài)估計(jì)和語義分割等方面驗(yàn)證有效性,但并行網(wǎng)絡(luò)在提升深度網(wǎng)絡(luò)擬合力的同時(shí)大大增加了模型復(fù)雜度。
在語義分割領(lǐng)域,網(wǎng)絡(luò)結(jié)構(gòu)通常采用編-解碼器結(jié)構(gòu);以上提到的算法除Deeplab V3+外,其他網(wǎng)絡(luò)幾乎都沒有考慮有效地使用解碼器模塊,或僅使用結(jié)構(gòu)單一的編解碼對(duì)稱結(jié)構(gòu),在上采樣過程中,未能將高級(jí)語義信息和低級(jí)空間信息進(jìn)行有效地跨層融合,丟失特征圖重要像素信息,造成語義分割預(yù)測結(jié)果粗糙。因此,針對(duì)上述問題,本文提出一種以Deeplab V3+為基礎(chǔ)的階梯型網(wǎng)絡(luò)模型,該方法首先對(duì)編碼器中ASPP 模塊進(jìn)行優(yōu)化,使用視覺激活函數(shù)FReLU[13]替換基線網(wǎng)絡(luò)中非線性激活函數(shù)ReLU,提升空間像素關(guān)聯(lián)性;其次針對(duì)先前廣泛使用的馬爾科夫隨機(jī)場和CRF 算法在Deeplab V3+網(wǎng)絡(luò)中優(yōu)化結(jié)果效果較差問題,選取HRNet為骨干網(wǎng)絡(luò)的優(yōu)化算法獲取更精細(xì)預(yù)測結(jié)果;最后通過實(shí)驗(yàn)驗(yàn)證了改進(jìn)后網(wǎng)絡(luò)具有更好的語義分割效果。
Deeplab V3+網(wǎng)絡(luò)結(jié)構(gòu)是谷歌實(shí)驗(yàn)室提出Deeplab系列中最新一代語義分割網(wǎng)絡(luò)框架,在多個(gè)數(shù)據(jù)集表現(xiàn)優(yōu)越,以先前提出的V3網(wǎng)絡(luò)框架為基礎(chǔ),延續(xù)使用膨脹卷積減少網(wǎng)絡(luò)計(jì)算量,空間金字塔池化(ASPP)進(jìn)行多尺度特征提取,使用預(yù)訓(xùn)練的ResNet-101[14]或Xception作為骨干網(wǎng)絡(luò),使用數(shù)據(jù)歸一化(BN)層防止訓(xùn)練過擬合,并添加解碼器網(wǎng)絡(luò)部分,構(gòu)建端對(duì)端的編--解碼器網(wǎng)絡(luò)模型。
DeeplabV3+網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。將輸入的圖像通過帶有膨脹卷積的神經(jīng)網(wǎng)絡(luò),在保證較大感受野的同時(shí)減少下采樣次數(shù),分別提取高級(jí)語義信息和低級(jí)空間信息,將高級(jí)語義信息通過膨脹率為6、12、18的卷積層和一個(gè)最大池化層構(gòu)成的ASPP 模塊提取上下文信息,得到原始圖像1/16分辨率的特征圖,并使用卷積運(yùn)算調(diào)整通道數(shù),雙線性插值四倍上采樣與調(diào)整好的通道數(shù)一致的低級(jí)空間信息跨層融合,四倍上采樣恢復(fù)原始圖像分辨率并恢復(fù)空間細(xì)節(jié)信息,輸出圖像分割結(jié)果。
相較Deeplab V3+網(wǎng)絡(luò)中圖像大尺度目標(biāo)精細(xì)預(yù)測,更容易造成小尺度目標(biāo)缺失和類別邊界粗糙問題,針對(duì)DeeplabV3+網(wǎng)絡(luò)的不足,提升其空間建模能力來捕獲更豐富上下文信息,并針對(duì)邊界問題進(jìn)行優(yōu)化。改進(jìn)后的階梯型Deeplab V3+網(wǎng)絡(luò)如圖2 所示,該網(wǎng)絡(luò)以ResNet-101 為骨干網(wǎng)絡(luò),包含編碼器、解碼器和優(yōu)化器三部分,其主要的改進(jìn)內(nèi)容包括以下幾點(diǎn):
(1)在編碼器方面,DeeplabV3+網(wǎng)絡(luò)將V3模型作為編碼器,延續(xù)使用V3 模型ASPP 模塊原有膨脹率為6、12、18的膨脹卷積,而隨著卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像特征信息的不斷提取,特征圖分辨率不斷降低。考慮到在提取低分辨率特征時(shí),相較于膨脹率為6的膨脹卷積使用膨脹率為4、8 的膨脹卷積能夠更好地捕獲圖像中小尺度目標(biāo)細(xì)節(jié)信息;同時(shí)在分割大尺度目標(biāo)時(shí),需要獲取較大感受野,相較于膨脹率為18的膨脹卷積,24的膨脹卷積具有更大感受野,在分割大尺度目標(biāo)時(shí)更有利。將本文提出的ASPP 參數(shù)與V3+模型提供的ASPP 模塊(6、12、18)進(jìn)行實(shí)驗(yàn)對(duì)比,本文提出參數(shù)效果優(yōu)于原有參數(shù),因此本文使用4、8、12、24 替換原有ASPP 模塊中膨脹卷積膨脹率。
(2)在解碼器方面,原有的Deeplab V3+模型只設(shè)計(jì)一個(gè)簡單的解碼器,解碼器主要處理高低層特征圖融合操作;在進(jìn)行特征圖跨層融合時(shí),考慮到ResNet101網(wǎng)絡(luò)1/4 倍下采樣特征圖包含豐富的低級(jí)空間信息,而編碼器ASPP 模塊生成的1/16 特征圖包含豐富的高級(jí)語義信息,因此在特征圖融合時(shí),因此需要將ASPP模塊生成的高級(jí)特征圖大小調(diào)整至骨干網(wǎng)絡(luò)生成的低級(jí)特征圖大小,故而需要將編碼器ASPP 模塊生成的1/16特征圖進(jìn)行4 倍上采樣,再與骨干網(wǎng)絡(luò)生成的1/4 特征圖進(jìn)行融合。再進(jìn)行卷積和上采樣操作生成預(yù)測結(jié)果圖;在原有的編解碼網(wǎng)絡(luò)中使用ReLU 激活函數(shù)進(jìn)行非線性激活,ReLU 激活函數(shù)的可靠性在深度學(xué)習(xí)領(lǐng)域已經(jīng)得到認(rèn)可,但在計(jì)算機(jī)視覺任務(wù)中缺乏像素級(jí)建模能力,因此本文使用二維視覺激活函數(shù)FReLU 替換編解碼器中的ReLU激活函數(shù)獲取精度補(bǔ)償。
(3)在優(yōu)化分支方面,考慮到原有網(wǎng)絡(luò)未使用模型算法對(duì)生成的結(jié)果圖進(jìn)行優(yōu)化。改進(jìn)后的Deeplab V3+網(wǎng)絡(luò)增加了一個(gè)針對(duì)分割結(jié)果的優(yōu)化分支,在優(yōu)化分支中,通過邊界圖和方向圖生成包含每個(gè)像素偏移量的邊界偏移圖,對(duì)生成的粗略預(yù)測圖進(jìn)行坐標(biāo)映射調(diào)整,細(xì)化后的預(yù)測結(jié)果圖目標(biāo)輪廓連貫、邊界清晰,預(yù)測準(zhǔn)確率更高。
1.2.1 編碼器優(yōu)化
膨脹卷積和空間金字塔池化模塊(ASPP)作為編碼器中的重要組成部分,最早由Deeplab V2網(wǎng)絡(luò)提出,由于其在多尺度特征提取時(shí)的卓越表現(xiàn),在圖像語義分割領(lǐng)域沿用至今。ASPP模塊將輸入特征圖并行通過不同膨脹率的膨脹卷積和全局平均池化層,較小的膨脹率能夠更有效的分割小尺度目標(biāo);較大的膨脹率在分割大目標(biāo)時(shí)更有效。對(duì)編碼器中ASPP 模塊進(jìn)行改進(jìn),如圖3所示,將骨干網(wǎng)絡(luò)產(chǎn)生的1/16 特征圖并行進(jìn)入1×1 卷積、膨脹率為4、8、12、24 的膨脹卷積和全局平均池化層,生成6個(gè)通道數(shù)為256的1/16大小的特征圖,在通道維度上對(duì)6個(gè)特征圖進(jìn)行拼接,生成ASPP模塊特征圖,更好地提取多尺度圖像特征,提升網(wǎng)絡(luò)對(duì)不同尺度物體的分割能力。
1.2.2 編-解碼器建模能力優(yōu)化
在深度學(xué)習(xí)中,卷積神經(jīng)網(wǎng)絡(luò)在處理視覺任務(wù)方面,具有良好的性能優(yōu)越性。非線性激活函數(shù)是卷積神經(jīng)網(wǎng)絡(luò)中提供良好非線性建模能力的必要組成部分?,F(xiàn)在常見的激活函數(shù)主要有ReLU 及其演變而來的PReLU。
其中,ai為學(xué)習(xí)值。
ReLU作為最常用的激活函數(shù),當(dāng)輸入大于零時(shí),為函數(shù)的線性部分。但當(dāng)輸入小于零時(shí),采用人為設(shè)置零值的方式,對(duì)函數(shù)進(jìn)行調(diào)整。故而存在激活死區(qū),導(dǎo)致在訓(xùn)練時(shí),激活函數(shù)魯棒性差,在面對(duì)大梯度輸入時(shí),極容易出現(xiàn)神經(jīng)元“壞死”問題,在后續(xù)網(wǎng)絡(luò)算法中,已“壞死”神經(jīng)元無法再次激活,導(dǎo)致參數(shù)無法獲得更新,梯度值為零。
PReLU 通過引入隨著數(shù)據(jù)計(jì)算而改變的隨機(jī)參數(shù)ai為輸入小于零部分添加線性激活部分。以上激活函數(shù)在深度學(xué)習(xí)中被應(yīng)用于各個(gè)領(lǐng)域,可靠性得到認(rèn)可。但在計(jì)算機(jī)視覺領(lǐng)域,這些激活函數(shù)無法提取更精細(xì)的像素級(jí)空間建模能力,因此使用2020 年香港科技大學(xué)和曠視科技提出的視覺任務(wù)激活函數(shù)Funnel ReLU(FReLU)語義分割網(wǎng)絡(luò)進(jìn)行精度補(bǔ)償,獲取更豐富的空間上下文語義信息。
FReLU 是一種專門為計(jì)算機(jī)視覺任務(wù)提出的二維漏斗狀激活函數(shù),通過向一維的ReLU激活函數(shù)中添加漏斗條件T(X)將其擴(kuò)充至二維空間(如圖4 所示),只引入少量的計(jì)算量和過擬合風(fēng)險(xiǎn),以激活網(wǎng)絡(luò)中的空間不敏感信息改善視覺任務(wù),表達(dá)式為:
其漏斗條件為預(yù)設(shè)參數(shù)的正方形滑動(dòng)窗口,通過深度可分離卷積和數(shù)據(jù)歸一化(BN)實(shí)現(xiàn),能夠提升像素與像素之間的空間依賴性,激活空間不敏感信息從而獲取豐富空間上下文信息,提升像素級(jí)空間建模能力,漏斗條件像素級(jí)建模能力圖形描述如圖5所示;只引入少量的參數(shù),引入極少的復(fù)雜度。考慮到自然物體中,除垂直與水平方向外,斜線和圓弧同樣常見,通過不同激活層提取的像素空間信息,使用不同大小的正方形表示,通過極限近似思維構(gòu)成斜線和圓弧激活域,避免只使用平常的水平、垂直激活域造成的建模能力不足。
在曠世科技發(fā)表的論文中已經(jīng)說明FReLU激活函數(shù)在計(jì)算機(jī)視覺任務(wù)表現(xiàn)優(yōu)于當(dāng)前存在的所有激活函數(shù),通過大量實(shí)驗(yàn)驗(yàn)證FReLU 函數(shù)的泛化性和與深度網(wǎng)絡(luò)的匹配適應(yīng)度都強(qiáng)于ReLU函數(shù)。例如在ImageNet 2012 中對(duì)ResNets 骨干網(wǎng)絡(luò)與其他有效激活函數(shù)的比較,在保證其他參數(shù)不變的先決條件下,對(duì)ResNet-50中FReLU激活函數(shù)TOP-1錯(cuò)誤率僅為22.4%。較ReLU準(zhǔn)確率提升1.6%,較PReLU準(zhǔn)確率提升1.3%。在ResNet-101中FReLU表現(xiàn)同樣優(yōu)于ReLU激活函數(shù)。
隨著網(wǎng)絡(luò)層數(shù)的不斷加深,下采樣和金字塔空間池化操作會(huì)導(dǎo)致輸入特征圖分辨率逐漸變低,考慮到FReLU激活函數(shù)只引入少量的函數(shù)復(fù)雜度,提高少量的非線性激活成本,因此在網(wǎng)絡(luò)框架的深層部分將原有的ReLU激活函數(shù)使用FReLU激活函數(shù)替換,實(shí)現(xiàn)更高的測試準(zhǔn)確率,雖然會(huì)造成少量的運(yùn)算延時(shí),但可以彌補(bǔ)只使用ReLU 激活函數(shù)缺乏空間不敏感信息造成的潛在精度損失。
1.2.3 邊界優(yōu)化分支
現(xiàn)有語義分割網(wǎng)絡(luò)中,相較于類內(nèi)混淆錯(cuò)誤,邊界分割錯(cuò)誤率更高,但先前研究中廣泛使用的全連接條件隨機(jī)場(CRF)對(duì)Deeplab V3+網(wǎng)絡(luò)預(yù)測結(jié)果圖改善收效甚微,無法再作為Deeplab V3+的網(wǎng)絡(luò)邊界優(yōu)化算法??紤]到在圖像分割結(jié)果中,類內(nèi)像素分割比邊界分割更為可靠,2020年英偉達(dá)公司提出Segfix[15]網(wǎng)絡(luò)將準(zhǔn)確類內(nèi)像素預(yù)測應(yīng)用到圖像邊界像素預(yù)測,通過對(duì)圖像邊界進(jìn)行提取,對(duì)邊界方面進(jìn)行預(yù)測,將提取出的圖像邊界通過方向預(yù)測產(chǎn)生的偏移圖轉(zhuǎn)換為類內(nèi)像素預(yù)測,每個(gè)邊界像素都分別對(duì)應(yīng)一個(gè)類內(nèi)像素,將高準(zhǔn)確率的類內(nèi)像素預(yù)測應(yīng)用到低準(zhǔn)確率的邊界部分,通過減少圖像分割的邊界錯(cuò)誤來提升圖像的整體預(yù)測準(zhǔn)確率??紤]到Deeplab V3+網(wǎng)絡(luò)在多個(gè)數(shù)據(jù)集上具有良好的類內(nèi)分割準(zhǔn)確率,因此將錯(cuò)誤率較高的邊界像素映射到類內(nèi)像素進(jìn)行結(jié)果預(yù)測對(duì)Deeplab V3+網(wǎng)絡(luò)是可行有效的。
考慮到HRNet 并行網(wǎng)絡(luò)能夠時(shí)刻保持高分辨率特征表現(xiàn),故選取其作為優(yōu)化分支特征圖提取網(wǎng)絡(luò);如圖6所示邊界優(yōu)化模塊中,將獲得的特征圖分別送入邊界分支和方向分支中,在邊界分支中分別使用1×1卷積、BN歸一化和ReLU 激活函數(shù)生成通道數(shù)為256 特征圖,再使用1×1卷積構(gòu)成的線性分類器進(jìn)行上采樣預(yù)測,使用預(yù)設(shè)閾值進(jìn)行邊界劃分,小于閾值的劃分為目標(biāo)邊界,反之則為內(nèi)部像素。生成包含每個(gè)像素屬于邊界像素概率的邊界圖,使用二元交叉熵函數(shù)作為邊界分支損失函數(shù)。生成的二進(jìn)制邊界圖中,邊界像素用1 表示,內(nèi)部像素用0表示。在對(duì)邊界較厚物體進(jìn)行預(yù)測時(shí),僅使用閾值劃分容易造成內(nèi)部像素虛假預(yù)測。為解決此問題,通過人為設(shè)置縮放因子對(duì)所有偏移量重新縮放,減少虛假像素造成的預(yù)測錯(cuò)誤。
在方向分支中,同樣使用1×1 卷積、BN 歸一化和ReLU激活函數(shù)生成通道數(shù)為256特征圖,再使用1×1卷積構(gòu)成的線性分類器進(jìn)行上采樣預(yù)測,考慮到離散分區(qū)相較于常規(guī)的連續(xù)方向圖表現(xiàn)更好,因此將地面真實(shí)場景圖的整個(gè)方向均勻的分為8 個(gè)離散分區(qū)。并使用標(biāo)準(zhǔn)類別交叉熵?fù)p失函數(shù)監(jiān)督離散方向圖的損失值。生成的離散方向圖包含每個(gè)邊界像素與之同類像素的方向信息,再將0、1組成的二進(jìn)制邊界圖與生成的離散方向圖進(jìn)行全局相乘,1值代表的邊界像素方向被處理保持不變,而0值代表的內(nèi)部像素區(qū)域被屏蔽不在計(jì)算之中。保留邊界圖中0值內(nèi)部像素并提取1值邊界像素對(duì)應(yīng)方向圖中方向向量,將邊界圖與方向圖融合為一張具有各個(gè)邊界像素不同方向偏移量信息的偏移圖,通過優(yōu)化公式:
對(duì)邊界像素進(jìn)行調(diào)整,其中L~ 是細(xì)化后標(biāo)簽地圖,pi代表邊界像素i的位置,Δqi代表生成的內(nèi)部像素的偏移向量;pi+Δqi代表被識(shí)別的內(nèi)部像素的位置;將每個(gè)邊界像素的粗略預(yù)測調(diào)整為優(yōu)化后的最終預(yù)測。
本文使用Ubuntu18.04操作系統(tǒng),硬件環(huán)境為Intel?Core?i7-9700 CPU@4.7 GHz處理器,32 GB內(nèi)存,GPU為NVIDIA GTX2080 Ti11 GB;使用pytorch 深度學(xué)習(xí)框架。
2.1.1 數(shù)據(jù)集
本文在公開數(shù)據(jù)集Cityscapes[16]和PASCAL VOC 2012增強(qiáng)版數(shù)據(jù)集[17]上驗(yàn)證膨脹率調(diào)整后的ASPP模塊性能,在PASCAL VOC 2012 增強(qiáng)版數(shù)據(jù)集上驗(yàn)證FReLU 激活函數(shù)的有效性,最后在Cityscapes 數(shù)據(jù)集上驗(yàn)證改進(jìn)后算法性能指標(biāo)。
Cityscapes由三家德國公司聯(lián)合提供的大規(guī)模城市街景數(shù)據(jù)集,包含50 個(gè)城市不同天氣、季節(jié)的5 000 張環(huán)境駕駛精細(xì)標(biāo)注圖像,(其中,2 975張圖像用于訓(xùn)練,500張圖像用于驗(yàn)證,1 525張圖像用于測試),共提供19個(gè)類別標(biāo)注,每張圖像分辨率為2 048×1 024,圖像中道路場景信息復(fù)雜,分割類別尺度不一。
PASCAL VOC 2012 增強(qiáng)版數(shù)據(jù)集由國際計(jì)算機(jī)視覺挑戰(zhàn)賽中發(fā)布的用于目標(biāo)視覺任務(wù)所使用的PASCAL VOC 2012[18]和SBD數(shù)據(jù)集合并而成,包括人、動(dòng)物、交通工具和生活用品等20類物體對(duì)象和1類背景標(biāo)簽,使用10 582 張額外標(biāo)注圖像作為訓(xùn)練集進(jìn)行訓(xùn)練,驗(yàn)證集1 449張,測試集1 456張。
2.1.2 評(píng)價(jià)指標(biāo)
平均交并比(mean intersection over union,MIoU)由于簡潔、代表性強(qiáng)而成為語義分割標(biāo)準(zhǔn)度量指標(biāo)?;陬愡M(jìn)行計(jì)算的交并比(IoU)通過計(jì)算真實(shí)值集合和預(yù)測值集合的交集和并集之比,計(jì)算圖像真值與預(yù)測結(jié)果的重合程度。利用混淆矩陣表示IoU 包含真正例true positive,TP),即實(shí)際是目標(biāo),預(yù)測也是目標(biāo);假正例(false positive,F(xiàn)P),即實(shí)際不是目標(biāo),但預(yù)測成目標(biāo);假負(fù)例(false negative,F(xiàn)N),即實(shí)際不是目標(biāo),預(yù)測也不是目標(biāo)。IoU計(jì)算公式為:
平均交并比(MIoU)將每一類的IoU 計(jì)算之后累加,再進(jìn)行平均,得到圖像全局評(píng)價(jià)。
其中,k表示標(biāo)簽標(biāo)記的類別,k+1 表示包含空類或背景的總類別,pii表示實(shí)際為i類預(yù)測為i類的像素?cái)?shù)量,pij表示實(shí)際為i類但預(yù)測為j類的像素?cái)?shù)量,pji表示實(shí)際為j類但預(yù)測為i類的像素?cái)?shù)量。MIoU的取值范圍為[0,1],MIoU 的值越大,說明預(yù)測的分割圖越準(zhǔn)確。
2.1.3 超參數(shù)設(shè)置
在實(shí)驗(yàn)過程中,選擇ResNet-101 作為骨干網(wǎng)絡(luò),其他超參數(shù)固定如表1 所示。批處理大?。╞atch)設(shè)置為8,并使用數(shù)據(jù)擴(kuò)充,在PASCAL VOC 2012增強(qiáng)版數(shù)據(jù)集中將輸入圖像分辨率調(diào)整為400×400,并在[0.5,2]范圍內(nèi)進(jìn)行隨機(jī)縮放,再將圖像隨機(jī)裁剪為380×380 大小進(jìn)行訓(xùn)練;在Cityscapes 數(shù)據(jù)集中將輸入圖像分辨率調(diào)整為768×768并在[0.5,2]范圍內(nèi)進(jìn)行隨機(jī)縮放,再將圖像隨機(jī)裁剪為512×512 大小進(jìn)行訓(xùn)練,經(jīng)過處理后的樣本更具隨機(jī)性,能更有效地防止訓(xùn)練過程中過擬合問題。
表1 超參數(shù)設(shè)置Table 1 Super parameter setting
2.2.1 ASPP模塊不同膨脹率效果對(duì)比
膨脹卷積是ASPP 模塊的重要組成部分,在不增加參數(shù)復(fù)雜度的同時(shí)能夠獲得更大的感受野,因此在進(jìn)行多尺度特征提取時(shí),選擇合適的膨脹率能夠更有效地獲取圖像特征信息。本文使用4、8、12、24的膨脹卷替換原有ASPP 模塊中膨脹率為6、12、18 的膨脹卷積,改進(jìn)后的ASPP 模塊在PASCAL VOC 2012 增強(qiáng)版數(shù)據(jù)集和Cityscapes 數(shù)據(jù)集上MIoU 值分別提升0.004 和0.003。預(yù)測結(jié)果如表2 所示,證明改進(jìn)后的ASPP 模塊預(yù)測效果更好。
表2 改進(jìn)前后ASPP模塊預(yù)測結(jié)果Table 2 Prediction results of ASPP modulebefore and after improvement
2.2.2 使用FReLU精度補(bǔ)償前后的效果對(duì)比
使用ResNet-101作為預(yù)訓(xùn)練模型和改進(jìn)后的ASPP模塊的Deeplabv3+網(wǎng)絡(luò)作為基線,將網(wǎng)絡(luò)中原有非線性激活函數(shù)ReLU替換為視覺激活函數(shù)FReLU,改進(jìn)前后在PASCAL VOC 2012 增強(qiáng)數(shù)據(jù)集對(duì)比結(jié)果如表3 所示,相較原始的Deeplab V3+網(wǎng)絡(luò)改進(jìn)后的網(wǎng)絡(luò)全局平均MIoU值提升0.009,絕大多數(shù)物體分割準(zhǔn)確率獲得提升,證明FReLU 激活函數(shù)對(duì)網(wǎng)絡(luò)優(yōu)化的有效性??梢暬瘜?duì)比圖如圖7 所示,從預(yù)測結(jié)果可以看出,Deeplab V3+網(wǎng)絡(luò)在第一行測試圖像中,對(duì)大尺度目標(biāo)(飛機(jī))分割相當(dāng)清晰,但對(duì)存在遮擋的小尺度目標(biāo)分割有明顯的缺失,通過對(duì)比可以看出使用FReLU 激活函數(shù)進(jìn)行精度補(bǔ)償后的Deeplab V3+網(wǎng)絡(luò)整體對(duì)小尺度目標(biāo)具有更好的語義捕捉能力。在第二行測試圖像中,Deeplab V3+網(wǎng)絡(luò)預(yù)測結(jié)果存在分割目標(biāo)邊界模糊和目標(biāo)類內(nèi)誤識(shí)別問題,通過對(duì)比可以看出使用FReLU 激活函數(shù)進(jìn)行精度補(bǔ)償后的Deeplab V3+網(wǎng)絡(luò)預(yù)測結(jié)果邊界準(zhǔn)確率更高,能夠有效地減少類內(nèi)誤識(shí)別問題。
表3 VOC 2012數(shù)據(jù)集IoU值結(jié)果Table 3 Results of IOU values in VOC 2012 dataset
2.2.3 Cityscapes數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
將本文階梯型網(wǎng)絡(luò)與基線網(wǎng)絡(luò)設(shè)置相同參數(shù),在Cityscapes數(shù)據(jù)集進(jìn)行測試,改進(jìn)前后各類別MIoU值如表4 所示,通過對(duì)比可知相較于原始的Deeplab V3+網(wǎng)絡(luò)模型改進(jìn)后的網(wǎng)絡(luò)整體MIoU值提升0.013,且對(duì)各類別MIoU值均有不同程度提升。
表4 Cityscapes數(shù)據(jù)集IoU值實(shí)驗(yàn)對(duì)比Table 4 Experimental comparison of IOU values in Cityscapes dataset experiments
改進(jìn)后的算法在Cityscapes數(shù)據(jù)集上的可視化效果如圖8 所示,對(duì)比紅色標(biāo)注區(qū)域,從第一行預(yù)測結(jié)果可以看出,Deeplab V3+網(wǎng)絡(luò)對(duì)圖像中小尺度黃色交通標(biāo)志預(yù)測準(zhǔn)確率較低,同時(shí)對(duì)汽車的邊界預(yù)測較為粗糙并且存在較大錯(cuò)誤預(yù)測,而本文提出的算法通過提取更豐富的空間上下文信息,對(duì)圖像中小尺度黃色交通標(biāo)志預(yù)測能力更強(qiáng),并對(duì)物體邊界進(jìn)行優(yōu)化,優(yōu)化后的汽車邊界預(yù)測更為精細(xì),與真實(shí)標(biāo)簽圖相似度更高;從第二行預(yù)測結(jié)果中可以看出,Deeplab V3+網(wǎng)絡(luò)由于天空?qǐng)鼍昂蛪w部分交叉出現(xiàn),將圖像中大量天空?qǐng)鼍板e(cuò)誤的識(shí)別為墻體部分,而本文使用的算法通過對(duì)各個(gè)類別進(jìn)行精確邊界劃分,能夠更準(zhǔn)確地識(shí)別天空和墻體的邊界輪廓,避免相鄰類別之間的分類混淆問題。從第三行預(yù)測結(jié)果可以看出,Deeplab V3+網(wǎng)絡(luò)未能預(yù)測出左側(cè)地形類別,將卡車類別誤識(shí)別為汽車類別,并將右側(cè)的地形區(qū)域誤識(shí)別為人行道,而本文提出的算法,糾正了卡車和右側(cè)地形誤識(shí)別問題,并有效預(yù)測Deeplab V3+未識(shí)別地形,使預(yù)測結(jié)果更加精細(xì)。通過上述實(shí)驗(yàn)結(jié)果驗(yàn)證了本文算法對(duì)原有Deeplab V3+網(wǎng)絡(luò)在小尺度預(yù)測、類內(nèi)誤識(shí)別和邊界模糊方面的提升。
同時(shí),在相同實(shí)驗(yàn)設(shè)備和超參數(shù)設(shè)置下,在Cityscapes數(shù)據(jù)集上,將本文算法與經(jīng)典算法(UNet、SegNet、PspNet)和最新相關(guān)研究算法(UperNet、HRNet)進(jìn)行對(duì)比,對(duì)比實(shí)驗(yàn)結(jié)果如表5 所示,可以看出,本文算法在building、wall等11個(gè)不同類別中具有更好的分割結(jié)果。
本文在Deeplab V3+網(wǎng)絡(luò)的基礎(chǔ)下構(gòu)建階梯型網(wǎng)絡(luò)框架,保留原有網(wǎng)絡(luò)中膨脹卷積和編-解碼器結(jié)構(gòu),通過對(duì)空間池化金字塔模塊進(jìn)行改進(jìn),將原有非線性激活函數(shù)ReLU替換為效果更好的視覺激活函數(shù)FReLU,以獲得精度補(bǔ)償,在解碼器后新增優(yōu)化分支對(duì)生成的粗略預(yù)測圖進(jìn)行細(xì)化。在Cityscapes公開數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,經(jīng)過改進(jìn)后的算法各類別平均交并比均獲得不同程度提升,能夠更好地捕獲小尺度目標(biāo)和分割物體邊界區(qū)域。