田啟川,孟 穎
1.北京建筑大學(xué) 電氣與信息工程學(xué)院,北京100044
2.北京建筑大學(xué) 建筑大數(shù)據(jù)智能處理方法研究北京市重點(diǎn)實(shí)驗(yàn)室,北京100044
圖像語義分割技術(shù)的目標(biāo)是對(duì)圖像中每個(gè)像素進(jìn)行語義信息標(biāo)注,從而將圖像分割為若干個(gè)屬性、類別不同的區(qū)域,是計(jì)算機(jī)視覺領(lǐng)域一項(xiàng)基礎(chǔ)的研究內(nèi)容。圖像語義分割技術(shù)可以應(yīng)用于醫(yī)療影像、地理遙感等眾多領(lǐng)域,為醫(yī)療輔助診斷、遙感圖像解譯等智能化升級(jí)提供有力保障。但是,目前的語義分割技術(shù)依舊面臨著小尺度目標(biāo)丟失、分割不連續(xù)、誤分割等問題,因此如何增強(qiáng)空間細(xì)節(jié)信息的表征能力是提高分割精度的重點(diǎn)研究內(nèi)容。
目前主流的圖像語義分割算法主要通過特征提取、復(fù)原、融合、優(yōu)化四個(gè)過程獲取待分割圖像中感興趣的目標(biāo)區(qū)域。
在特征提取階段,大量的下采樣和池化操作導(dǎo)致空間和細(xì)節(jié)信息丟失,如全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)[1],因此后續(xù)提出了空洞卷積和空間金字塔池化模塊以增強(qiáng)全局語義信息。如DeeplabV1[2]、DRN[3]等網(wǎng)絡(luò)模型通過串行的空洞卷積增加感受野,獲取更豐富的空間特征,但是這類方法存在計(jì)算量較大的問題。DeepLabV2[4]、DenseASPP[5]、PSPNet[6]等網(wǎng)絡(luò)模型利用空間金字塔池化模塊提取全局語義信息,實(shí)現(xiàn)了更密集的多尺度特征提取,但是上述方法會(huì)引發(fā)棋盤效應(yīng),導(dǎo)致局部信息丟失和語義信息不連續(xù)的問題。
特征復(fù)原通過對(duì)特征圖上采樣,恢復(fù)特征圖的分辨率,用于模型的分類預(yù)測(cè)。雙線性插值、反卷積等方法在恢復(fù)特征圖分辨率時(shí)存在一定的局限性,文獻(xiàn)[7]提出的密集上采樣模塊使網(wǎng)絡(luò)在上采樣的過程中放大低分辨率特征,捕獲丟失的細(xì)節(jié)信息。文獻(xiàn)[8]提出的上下文解卷積網(wǎng)絡(luò)可以對(duì)空間依賴關(guān)系進(jìn)行建模,使像素在某些局部區(qū)域上更具表現(xiàn)力。上述方法雖然增強(qiáng)了特征的表達(dá),但是小尺度目標(biāo)的分割能力仍有待提升。
特征融合通過特征圖的相加融合、拼接融合、跨層融合等方式獲取更豐富的語義信息,提高分割精度。相加或拼接往往用于融合多尺度特征,在眾多的網(wǎng)絡(luò)模型中都有廣泛的應(yīng)用。FCN、U-Net[9]、RefineNet[10]、DeeplabV3+[11]等網(wǎng)絡(luò)模型采用跨層融合的思想,將淺層細(xì)節(jié)特征與深層抽象特征相結(jié)合,增強(qiáng)了高分辨率細(xì)節(jié)信息的表征能力,為語義分割的研究開辟了新的思路。
特征優(yōu)化通常采用條件隨機(jī)場(chǎng)或馬爾科夫隨機(jī)場(chǎng)對(duì)語義分割的預(yù)測(cè)結(jié)果進(jìn)行優(yōu)化,將低層圖像信息和逐像素分類結(jié)果相結(jié)合,提高模型捕獲細(xì)粒度的能力,但是這類方法會(huì)占用大量計(jì)算機(jī)內(nèi)存,模型的實(shí)時(shí)性較差。
針對(duì)小目標(biāo)分割和識(shí)別的問題,考慮到DeeplabV3+網(wǎng)絡(luò)模型在多個(gè)公開數(shù)據(jù)上的優(yōu)異性能,計(jì)劃在DeeplabV3+網(wǎng)絡(luò)模型的基礎(chǔ)上,采用多尺度融合增強(qiáng)網(wǎng)絡(luò)的語義分割算法提高小尺度目標(biāo)的分割精度。該算法受高分辨率網(wǎng)絡(luò)(High Resolution Network,HRNet)[12]的啟發(fā),在DeeplabV3+編碼端增加一個(gè)多輸入多輸出的特征融合增強(qiáng)網(wǎng)絡(luò),使網(wǎng)絡(luò)在特征提取的過程中保持高分辨率細(xì)節(jié)信息;在解碼端采用跨層連接的思想,拼接多尺度融合增強(qiáng)網(wǎng)絡(luò)和原始網(wǎng)絡(luò)提取的特征圖,充分利用淺層細(xì)節(jié)信息優(yōu)化模型的輸出特征。在Cityscapes[13]和PASCAL VOC 2012[14]數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了本文算法的有效性和通用性。
DeeplabV3+是由谷歌開發(fā)的網(wǎng)絡(luò)模型,在圖像語義分割領(lǐng)域多個(gè)公開數(shù)據(jù)集上展現(xiàn)了領(lǐng)先的優(yōu)勢(shì)。DeeplabV3+在DeeplabV3[15]的基礎(chǔ)上,構(gòu)建了經(jīng)典的編解碼結(jié)構(gòu),并采用端到端的方式對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。其中,編碼器主要用于特征提取,可分為三個(gè)階段:第一階段DeeplabV3+創(chuàng)新性地將輕量級(jí)網(wǎng)絡(luò)模型Xception 和深度可分離卷積整合作為深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Networks,DCNN)提取初始特征,極大地減少了模型的參數(shù)量;第二階段將初始特征傳遞至ASPP 模塊[4],通過多擴(kuò)張率的空洞卷積獲取更豐富的上下文語義信息,提取多尺度特征;第三階段將多尺度的特征圖調(diào)整分辨率后拼接融合,并利用1×1卷積將輸出通道數(shù)調(diào)整為256,此時(shí)編碼器輸出特征圖的分辨率是原始圖像的十六分之一。
在解碼端,首先將編碼器輸出特征圖以雙線性插值的方式進(jìn)行四倍上采樣,然后與Xception網(wǎng)絡(luò)模型對(duì)應(yīng)層級(jí)的特征圖拼接,通過跨層連接豐富圖像的語義信息。接著再進(jìn)行四倍上采樣,得到與原始圖像分辨率相等的特征圖,恢復(fù)圖像空間細(xì)節(jié)信息。最后調(diào)整解碼端輸出特征的通道數(shù)并激活,即可獲取最終的預(yù)測(cè)結(jié)果。DeeplabV3+網(wǎng)絡(luò)模型如圖1所示。
圖1 DeeplabV3+網(wǎng)絡(luò)模型
DeeplabV3+網(wǎng)絡(luò)模型通過大量的空洞卷積和ASPP模塊增大空間感受野,提取更豐富的上下文特征,有助于大尺度目標(biāo)的分割識(shí)別,但是空洞卷積和ASPP 模塊會(huì)造成小目標(biāo)丟失,影響小目標(biāo)的分割精度。
HRNet 是由微軟亞洲研究院針對(duì)人體姿態(tài)估計(jì)領(lǐng)域提出的網(wǎng)絡(luò)結(jié)構(gòu),在像素級(jí)分類領(lǐng)域表現(xiàn)了良好的性能。大多數(shù)現(xiàn)有的特征提取方式都是采用將高分辨率特征逐級(jí)下采樣,獲取低分辨率的抽象特征后再上采樣回原圖像大小,最后進(jìn)行分類預(yù)測(cè)。上述方法在特征提取和特征復(fù)原的過程中損失了大量的空間和細(xì)節(jié)信息,導(dǎo)致小尺度目標(biāo)丟失和分割不連續(xù)。HRNet 網(wǎng)絡(luò)通過并行連接多個(gè)分辨率子網(wǎng),同時(shí)反復(fù)融合多分辨率特征,實(shí)現(xiàn)在整個(gè)特征提取過程中保持高分辨率細(xì)節(jié)信息,從而提高了分割的準(zhǔn)確率。具體操作為:
(1)第一階段包含一條特征提取分支,將高分辨率特征圖(其分辨率和特征通道數(shù)為(H,W,C))輸入4 個(gè)重復(fù)的Bottleneck模塊后,分別進(jìn)行步長為1和2的下采樣操作,得到兩張新的特征圖A(分辨率和特征通道數(shù)為(H,W,C))和B(分辨率和特征通道數(shù)為(H/2,W/2,2C))。
(2)第二階段包含兩條特征提取分支,第一個(gè)分支的輸入為特征圖A,第二個(gè)分支的輸入為特征圖B,分別輸入4個(gè)重復(fù)的Bottleneck模塊后,進(jìn)行步長為1和2的下采樣操作,得到特征圖A′(H,W,C)、B′(H/2,W/2,2C)、D(H/2,W/2,2C)、E(H/4,W/4,4C)。同時(shí)信息融合層先將第二個(gè)分支特征圖B′的分辨率和通道數(shù)調(diào)整至和A′ 相同,得到特征圖B′ ,再將A′ 和B′ 相加融合得到特征圖F;將特征圖D 和B′相加融合得到特征圖G。經(jīng)過信息融合層后得到第二階段最終輸出的三張?zhí)卣鲌DE、F、G。
(3)第三階段包含三條特征提取分支,三個(gè)分支的輸入對(duì)應(yīng)為E、F、G。這一階段具體操作過程和(2)相似,不同在于第三個(gè)分支不再進(jìn)行下采樣操作,且最后的信息融合層通過反復(fù)融合三個(gè)分支的特征,得到特征圖H、I、J 。將H 作為HRNet提取的特征輸出,進(jìn)行最終的預(yù)測(cè)和分類。HRNet結(jié)構(gòu)如圖2所示。
圖2 HRNet網(wǎng)絡(luò)模型
HRNet 通過并行連接多分辨率子網(wǎng)和信息的反復(fù)融合,使淺層低分辨率特征中保存了大量的細(xì)節(jié)特征,有助于提升小尺度目標(biāo)的分割精度。
Bottleneck是HRNet網(wǎng)絡(luò)模型中用于特征提取的基本殘差結(jié)構(gòu),包括殘差學(xué)習(xí)單元和直連單元兩部分。殘差學(xué)習(xí)單元首先通過1×1卷積對(duì)輸入特征圖進(jìn)行降維,減少模型參數(shù)量;接著利用3×3 卷積提取特征,且不改變特征的分辨率和維度;最后利用1×1卷積調(diào)整輸出特征的通道數(shù)至第一次降維時(shí)的4 倍。當(dāng)輸入特征和輸出特征維度相同時(shí),將輸入特征與殘差學(xué)習(xí)單元的輸出特征圖相加融合即可獲得Bottleneck 最終提取的特征;當(dāng)輸入特征與輸出特征維度不同時(shí),需要通過1×1卷積調(diào)整輸入特征的維度,再與殘差學(xué)習(xí)單元的輸出特征相加融合,從而獲得最后的特征圖。Bottleneck 中的殘差學(xué)習(xí)單元在訓(xùn)練的過程中不斷向前傳播,在避免梯度爆炸的情況下,不斷加深網(wǎng)絡(luò)層次,提取更加豐富的特征。Bottleneck 殘差結(jié)構(gòu)示意圖如圖3 所示,圖中的結(jié)構(gòu)為輸入特征與輸出特征維度不同的情況。
圖3 Bottleneck與Xception Module殘差結(jié)構(gòu)
Xception Module是DeeplabV3+網(wǎng)絡(luò)模型中用于特征提取的基本殘差結(jié)構(gòu),包括Xception Module A 和Xception Module B兩種形式。二者的殘差學(xué)習(xí)單元都是通過3 次3×3 的深度可分離卷積提取特征,其中,Xception Module A表示當(dāng)輸入特征與輸出特征維度不同時(shí),需要通過1×1 卷積調(diào)整輸入特征的維度,再與殘差學(xué)習(xí)單元的輸出特征相加融合,從而獲得最后的特征圖。Xception Module B表示當(dāng)輸入特征和輸出特征維度相同時(shí),將輸入特征與殘差學(xué)習(xí)單元的輸出特征圖相加融合即可獲得最終提取的特征。Xception Module結(jié)合深度可分離卷積和Bottleneck 殘差結(jié)構(gòu)的思想,利用深度可分離卷積將標(biāo)準(zhǔn)卷積拆分成通道卷積和空間卷積以減少模型訓(xùn)練的參數(shù);利用殘差結(jié)構(gòu)消除隨著網(wǎng)絡(luò)層次加深引發(fā)的梯度爆炸問題。Xception Module的示意圖如圖3所示。
基于DeeplabV3+網(wǎng)絡(luò)模型在多個(gè)數(shù)據(jù)集上展現(xiàn)的先進(jìn)性和HRNet網(wǎng)絡(luò)模型保持高分辨率表征的特點(diǎn),本文提出一種多尺度融合增強(qiáng)的圖像語義分割算法。在DeeplabV3+的基礎(chǔ)上,該算法在編碼端構(gòu)建一條并行的特征提取分支,用于提取并保存淺層細(xì)節(jié)信息;在解碼端將該分支的特征與原始網(wǎng)絡(luò)提取的特征相融合,豐富特征圖的空間表示,提高小目標(biāo)分割的準(zhǔn)確率。
DeeplabV3+網(wǎng)絡(luò)模型在特征提取時(shí)采用ASPP 模塊豐富上下文的語義信息,但是多個(gè)擴(kuò)張率的空洞卷積易引發(fā)棋盤效應(yīng),導(dǎo)致小尺度目標(biāo)丟失和分割不連續(xù)的問題。HRNet網(wǎng)絡(luò)模型以其獨(dú)特的設(shè)計(jì)思想,在提取的特征圖中融合了更多的細(xì)節(jié)信息,有助于小目標(biāo)分割,但是網(wǎng)絡(luò)模型存在結(jié)構(gòu)較復(fù)雜、參數(shù)量較大的問題。
因此本文提出多尺度融合增強(qiáng)的網(wǎng)絡(luò)結(jié)構(gòu),將該結(jié)構(gòu)作為單獨(dú)的路徑獨(dú)立于ASPP 模塊之外,在提取特征的過程中充分保存高分辨率信息,提高模型對(duì)細(xì)節(jié)特征的學(xué)習(xí)能力,同時(shí)簡化網(wǎng)絡(luò)模型的結(jié)構(gòu),提高運(yùn)算效率。相較于HRNet網(wǎng)絡(luò)模型做出了以下幾點(diǎn)改進(jìn):
(1)利用DeeplabV3+中的Xception Module 替換HRNet 網(wǎng)絡(luò)模型中的Bottleneck。Xception Module 借鑒Bottleneck 的設(shè)計(jì)思想,通過殘差學(xué)習(xí)單元不斷加深網(wǎng)絡(luò)模型,提取了豐富的語義特征,同時(shí)利用深度可分離卷積替換Bottleneck 中的標(biāo)準(zhǔn)卷積,在保證精度的情況下可以減少模型的參數(shù),降低運(yùn)算成本。
(2)將重復(fù)殘差結(jié)構(gòu)的數(shù)量由4調(diào)整為2。Bottleneck和Xception Module的殘差學(xué)習(xí)單元雖然都包含三個(gè)卷積層,但是Bottleneck 的第一和第三個(gè)卷積層的目的是通過1×1卷積調(diào)整輸出特征的維度,并沒有進(jìn)行有效特征的提取,而Xception Module 的三個(gè)卷積層都進(jìn)行了特征的提取,其提取的有效特征遠(yuǎn)遠(yuǎn)多于Bottleneck。為了避免Xception Module提取特征冗余或是引發(fā)模型過擬合,考慮降低重復(fù)殘差結(jié)構(gòu)的數(shù)量,并通過對(duì)比實(shí)驗(yàn)最終確定重復(fù)殘差結(jié)構(gòu)的個(gè)數(shù)為2。
(3)構(gòu)建特征提取與交換單元,去除HRNet 模型下采樣生成獨(dú)立分支的過程,并將HRNet 單輸入、單輸出的網(wǎng)絡(luò)結(jié)構(gòu)轉(zhuǎn)換為三輸入、三輸出的網(wǎng)絡(luò)結(jié)構(gòu)。特征提取與交換單元在同一分辨率分支上利用Xception Module進(jìn)行重復(fù)特征提取,提取到特征后對(duì)三個(gè)分支輸出的特征圖進(jìn)行多尺度融合增強(qiáng),從而實(shí)現(xiàn)特征的反復(fù)提取與交換,獲得更加豐富的上下文信息。HRNet在特征提取的過程中需要不斷下采樣生成低分辨率特征提取分支,由于DeeplabV3+中DCNN 已經(jīng)通過下采樣提取了特征,可直接將DCNN提取的3個(gè)中間層特征作為多尺度融合增強(qiáng)網(wǎng)絡(luò)的輸入,去除高分辨率分支不斷下采樣生成低分辨率分支的過程,避免特征的重復(fù)提取,減少模型的參數(shù)量。同時(shí),HRNet網(wǎng)絡(luò)最終只輸出了最高分辨率分支的特征圖,沒有充分利用兩個(gè)低分辨率分支的有效信息,因此考慮在多尺度融合增強(qiáng)網(wǎng)絡(luò)中同時(shí)輸出三個(gè)分支的特征圖,并在后續(xù)過程中將三張?zhí)卣鲌D拼接融合,保留更豐富的語義信息。
本文設(shè)計(jì)的多尺度融合增強(qiáng)網(wǎng)絡(luò)如圖4所示。
圖4 多尺度融合增強(qiáng)網(wǎng)絡(luò)
多尺度融合增強(qiáng)網(wǎng)絡(luò)包含2 個(gè)相同的特征提取與交換單元。每一個(gè)單元包含3 個(gè)獨(dú)立的分支。每個(gè)分支采用不同尺度的輸入,從而可以提取不同尺度的特征。其中,第二個(gè)分支的分辨率是第一個(gè)分支的一半,特征圖的通道數(shù)是第一個(gè)分支的2倍;第三個(gè)分支的分辨率是第二個(gè)分支的一半,特征圖的通道數(shù)是第二個(gè)分支的2倍。算法步驟如下:
(1)將不同分辨率的特征圖輸入多尺度融合增強(qiáng)網(wǎng)絡(luò)。
(2)在第一個(gè)特征提取與交換單元(Unit1),每一個(gè)分支都通過2 個(gè)Xception Module 進(jìn)行獨(dú)立的特征提取,隨后通過特征融合實(shí)現(xiàn)不同特征圖的信息交換。在信息融合的過程中,第一個(gè)分支的特征圖通過步長為1或2的下采樣得到特征圖A11、A12,A12再通過步長為2的下采樣得到特征圖A13,第二、第三個(gè)分支的特征圖通過雙線性插值上采樣得到特征圖A21和A31,將A21和A31調(diào)整通道數(shù)后與A11相加融合,即可得到Unit1第一個(gè)分支的輸出特征圖。第二、第三分支的輸出特征圖同理。因此,通過Unit1 可以獲取三張不同分辨率的特征圖,并作為Unit2的輸入。
(3)Unit2的計(jì)算過程和Unit1相同,Unit2中三個(gè)分支的輸出是多尺度融合增強(qiáng)網(wǎng)絡(luò)最終輸出的特征,每一個(gè)分支的特征圖中都包含了高分辨率的細(xì)節(jié)信息,有助于提升分割的準(zhǔn)確率。
為了使網(wǎng)絡(luò)模型在特征提取的過程中擁有更大的感受野,增強(qiáng)上下文語義信息的同時(shí)保持高分辨率特征,提高小尺度目標(biāo)分割精度,本文在DeeplabV3+網(wǎng)絡(luò)模型的基礎(chǔ)上嵌入多尺度融合增強(qiáng)網(wǎng)絡(luò),構(gòu)建了一個(gè)具備小尺度目標(biāo)分割能力的深度學(xué)習(xí)模型。網(wǎng)絡(luò)模型的結(jié)構(gòu)如圖5 所示,包括編碼器和解碼器兩部分,編碼器包括DCNN、ASPP、多尺度融合增強(qiáng)網(wǎng)絡(luò)三部分,用于特征提??;解碼器包括特征的跨層融合和上采樣,用于恢復(fù)圖像的空間分辨率。
算法步驟如下:
(1)將原始圖像輸入DCNN提取初始特征。
(2)將DCNN 輸出的初始特征輸入ASPP 模塊,獲取多尺度特征圖后拼接融合,并調(diào)整通道數(shù)為256。
(3)提取DCNN中間三個(gè)卷積層的輸出特征作為多尺度融合增強(qiáng)網(wǎng)絡(luò)的輸入,得到三個(gè)分支的輸出特征圖后進(jìn)行拼接融合,并調(diào)整通道數(shù)為128。
(4)將多尺度融合增強(qiáng)網(wǎng)絡(luò)和ASPP 模塊的輸出四倍上采樣后與DCNN中對(duì)應(yīng)層級(jí)的淺層特征拼接融合,其中淺層特征的輸出通道數(shù)為48。
(5)將融合后的特征四倍上采樣,得到與原始圖像分辨率相等的特征圖,恢復(fù)圖像空間細(xì)節(jié)信息。
(6)最后經(jīng)過一次卷積后,調(diào)整輸出特征的通道數(shù)為待分割的類別數(shù),通過Softmax 函數(shù)激活后即可得到預(yù)測(cè)的分割圖像。
圖5 多尺度融合增強(qiáng)的語義分割算法
本文基于HRNet網(wǎng)絡(luò)模型的設(shè)計(jì)思想,在DeeplabV3+的基礎(chǔ)上構(gòu)建多尺度融合增強(qiáng)網(wǎng)絡(luò),對(duì)DCNN提取的淺層特征進(jìn)行多尺度特征提取與反復(fù)的信息融合,其中多尺度特征提取可使模型獲取不同尺度上更全面的信息,不同尺度特征圖上相同的關(guān)鍵點(diǎn)有助于模型對(duì)不同的語義含義進(jìn)行更精準(zhǔn)的預(yù)測(cè),而反復(fù)的信息融合有助于模型獲取高分辨率的細(xì)節(jié)特征。多尺度融合增強(qiáng)網(wǎng)絡(luò)增強(qiáng)了不同尺度特征上的關(guān)鍵特征和高分辨率的細(xì)節(jié)特征,使模型充分利用多尺度信息和淺層信息提高語義分割的準(zhǔn)確率。在解碼端將多尺度融合增強(qiáng)網(wǎng)絡(luò)輸出的特征與DeeplabV3+中ASPP 模塊輸出的特征拼接融合,利用淺層特征恢復(fù)上采樣過程中的空間細(xì)節(jié)信息,提高了模型對(duì)小尺度目標(biāo)的分割能力。目前大多語義分割算法都通過對(duì)高分辨率特征不斷下采樣來提取深層抽象特征,會(huì)造成大量的細(xì)節(jié)信息丟失,而本文提出的多尺度融合增強(qiáng)網(wǎng)絡(luò)與上述方法相反,它通過高分辨率信息與低分辨率信息的反復(fù)融合增強(qiáng),使網(wǎng)絡(luò)在訓(xùn)練的過程中時(shí)刻保持有效的多尺度特征和細(xì)節(jié)特征,提高了分割精度。本文在DeeplabV3+的基礎(chǔ)上構(gòu)建一條獨(dú)立分支,在一定程度上增加了參數(shù)量,但由于采用了輕量化的殘差結(jié)構(gòu),改進(jìn)前后模型大小相差不多,對(duì)網(wǎng)絡(luò)的實(shí)時(shí)性影響不大,且更有助于小目標(biāo)識(shí)別。
針對(duì)本文提出的算法進(jìn)行實(shí)驗(yàn)研究,實(shí)驗(yàn)環(huán)境配置如表1所示。
表1 實(shí)驗(yàn)環(huán)境配置
3.1.1 數(shù)據(jù)集
本文采用公開數(shù)據(jù)集Cityscapes 和PASCAL VOC 2012驗(yàn)證算法的有效性與泛化性。
Cityscapes 是大規(guī)模城市街景語義理解數(shù)據(jù)集,包含50個(gè)城市不同場(chǎng)景、不同季節(jié)的5 000張精細(xì)標(biāo)注圖像,提供19 個(gè)類別標(biāo)注。每張圖像的分辨率為2 048×1 024,圖像中街道背景信息復(fù)雜且待分割目標(biāo)尺度不一。訓(xùn)練集、驗(yàn)證集和測(cè)試集分別包含2 975、500、1 525張圖像。
PASCAL VOC 2012 是由國際計(jì)算機(jī)視覺挑戰(zhàn)賽發(fā)布的用于圖像分類、檢測(cè)或語義分割的數(shù)據(jù)集,提供了20個(gè)物體對(duì)象和1個(gè)背景的類別標(biāo)簽,包括人、動(dòng)物、室內(nèi)生活用品等。數(shù)據(jù)集中每張圖像的尺寸不固定,每張圖片包含不同數(shù)量的物體。訓(xùn)練集、驗(yàn)證集和測(cè)試集分別包含1 464、1 449、1 456張圖像。
3.1.2 評(píng)價(jià)標(biāo)準(zhǔn)
圖像語義分割技術(shù)一般將平均交并比(mean Intersection over Union,mIoU)作為算法性能的評(píng)價(jià)標(biāo)準(zhǔn)。mIoU 用來計(jì)算真實(shí)值和預(yù)測(cè)值兩個(gè)集合的交集和并集,即計(jì)算預(yù)測(cè)結(jié)果與原始圖像中真值的重合程度。
其中,k 表示標(biāo)簽標(biāo)記的類別,k+1 表示包含空類或背景的總類別,pii表示實(shí)際為i 類預(yù)測(cè)為i 類的像素?cái)?shù)量,pij表示實(shí)際為i 類但預(yù)測(cè)為j 類的像素?cái)?shù)量,pji表示實(shí)際為j 類但預(yù)測(cè)為i 類的像素?cái)?shù)量。mIoU 的取值范圍為[0,1],mIoU 的值越大,說明預(yù)測(cè)的分割圖越準(zhǔn)確。
3.1.3 訓(xùn)練策略
通過對(duì)Cityscapes和PASCAL VOC 2012數(shù)據(jù)集上預(yù)訓(xùn)練的模型進(jìn)行微調(diào),以遷移學(xué)習(xí)的方式初始化權(quán)重,加快訓(xùn)練速度。采用帶動(dòng)量的隨機(jī)梯度下降法進(jìn)行訓(xùn)練,設(shè)置初始化學(xué)習(xí)率為0.000 1,動(dòng)量為0.9,迭代步數(shù)為50 000 次。實(shí)驗(yàn)中將圖像剪裁至321×321 大小進(jìn)行訓(xùn)練。
為了驗(yàn)證改進(jìn)算法的有效性,對(duì)比在Cityscapes 數(shù)據(jù)集上DeeplabV3+與本文算法的分割結(jié)果,改進(jìn)前后在Cityscapes數(shù)據(jù)集上mIoU 值對(duì)比結(jié)果如表2所示。
通過表2 可以看出,改進(jìn)后算法的全局平均mIoU值相較于原始的DeeplabV3+網(wǎng)絡(luò)模型提升了0.24,且大多數(shù)物體識(shí)別準(zhǔn)確率有所提升,說明多尺度融合增強(qiáng)網(wǎng)絡(luò)有助于提高網(wǎng)絡(luò)模型的分割能力。
表2 算法在Cityscapes數(shù)據(jù)集上的mIoU 值對(duì)比結(jié)果
改進(jìn)前后算法在Cityscapes數(shù)據(jù)集上的預(yù)測(cè)結(jié)果如圖6所示。從第一列可以看出,本文算法有效地分割出了DeeplabV3+中丟失的行人,提高了小尺度目標(biāo)的分割能力。第二列分割結(jié)果中,DeeplabV3+將公交車后視鏡錯(cuò)誤地識(shí)別為行人,而改進(jìn)后的算法避免了小目標(biāo)的分割錯(cuò)誤。第三列的分割結(jié)果同樣證明了改進(jìn)后算法相較于DeeplabV3+更善于對(duì)小尺度目標(biāo)的分割和預(yù)測(cè)。
圖6 算法在Cityscapes數(shù)據(jù)集上的預(yù)測(cè)結(jié)果
前面的實(shí)驗(yàn)表明本文算法對(duì)小目標(biāo)分割的準(zhǔn)確率普遍得到提高,根據(jù)分析,多尺度融合增強(qiáng)網(wǎng)絡(luò)的殘差結(jié)構(gòu)和殘差結(jié)構(gòu)個(gè)數(shù)、輸出特征拼接通道數(shù)等參數(shù)對(duì)模型的性能影響較大,因此對(duì)模型的結(jié)構(gòu)和參數(shù)進(jìn)行優(yōu)化。
3.3.1 殘差結(jié)構(gòu)對(duì)比實(shí)驗(yàn)
Bottleneck 和Xception Module 分 別 是HRNet 和DeeplabV3+中的殘差結(jié)構(gòu),用于在網(wǎng)絡(luò)加深的過程中避免梯度消失問題,提取更豐富的語義信息。為了驗(yàn)證更適用于本文算法的殘差結(jié)構(gòu),通過對(duì)比Bottleneck 和Xception Module分別進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示。
表3 殘差結(jié)構(gòu)對(duì)比結(jié)果
通過實(shí)驗(yàn)結(jié)果可以看出,兩種殘差結(jié)構(gòu)的平均mIoU 值相差不多,但Xception Module 在多個(gè)小目標(biāo)上的分割精度更高,且Xception Module為輕量級(jí)網(wǎng)絡(luò),因此采用Xception Module作為多尺度融合增強(qiáng)網(wǎng)絡(luò)的殘差結(jié)構(gòu)。
3.3.2 Xception Module個(gè)數(shù)對(duì)比實(shí)驗(yàn)
HRNet每個(gè)分支采用4個(gè)Bottleneck模塊反復(fù)提取特征后再進(jìn)行特征拼接融合。提取的特征過多會(huì)造成信息的冗余,提取特征過少則會(huì)降低分割精度,因此為了提取有效信息,避免信息缺失或冗余,設(shè)置Xception Module個(gè)數(shù)為1、2、3、4,實(shí)驗(yàn)結(jié)果如表4所示。
表4 Xception Module個(gè)數(shù)對(duì)比結(jié)果
通過實(shí)驗(yàn)結(jié)果可以看出,Xception Module 個(gè)數(shù)設(shè)置為2時(shí),在行人和自行車兩個(gè)小尺度目標(biāo)上獲取了更好的分割效果,且平均mIoU 值最高,更有利于提高目標(biāo)分割的準(zhǔn)確率,因此設(shè)置Xception Module個(gè)數(shù)為2。
3.3.3 特征拼接通道數(shù)對(duì)比實(shí)驗(yàn)
在網(wǎng)絡(luò)訓(xùn)練的過程中,需要將多尺度融合增強(qiáng)網(wǎng)絡(luò)三個(gè)分支的輸出特征圖進(jìn)行拼接融合,并調(diào)整輸出通道數(shù)。為了獲取分割準(zhǔn)確率更高的通道數(shù),實(shí)驗(yàn)中分別設(shè)置輸出通道數(shù)為64、128和256,實(shí)驗(yàn)結(jié)果如表5所示。
表5 輸出特征拼接通道數(shù)對(duì)比結(jié)果
通過實(shí)驗(yàn)結(jié)果可以看出,輸出特征拼接通道數(shù)為128 和256 時(shí)在小目標(biāo)數(shù)據(jù)集上取得的效果較好,當(dāng)通道數(shù)設(shè)置為128時(shí)取得的平均mIoU 值較高,還有助于減少網(wǎng)絡(luò)模型的參數(shù)量,因此本文將輸出特征拼接通道數(shù)設(shè)置為128。
3.3.4 特征提取與交換單元個(gè)數(shù)對(duì)比實(shí)驗(yàn)
重復(fù)的特征提取與交換單元可提取更豐富的語義信息。為了驗(yàn)證有效的個(gè)數(shù),實(shí)驗(yàn)中分別將其設(shè)置為1、2、3、4進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表6所示。
表6 特征提取與融合單元個(gè)數(shù)對(duì)比結(jié)果
實(shí)驗(yàn)結(jié)果表示,當(dāng)個(gè)數(shù)為1 時(shí),網(wǎng)絡(luò)模型對(duì)電線桿的分割能力較好,個(gè)數(shù)為2 時(shí),模型對(duì)摩托車的分割效果更好;個(gè)數(shù)為3 時(shí),對(duì)行人的分割效果更好;個(gè)數(shù)為4時(shí),對(duì)交通信號(hào)燈的分割效果更好。但是個(gè)數(shù)為2時(shí)的全局平均mIoU 值最高,為0.756,因此本文采用2 個(gè)特征提取與融合單元。
算法在PASCAL VOC 2012 數(shù)據(jù)集上的可視化結(jié)果如圖7所示。
圖7 算法在PASCAL VOC 2012數(shù)據(jù)集上的預(yù)測(cè)結(jié)果
通過圖7 的第一列可以看出,本文算法識(shí)別出了DeeplabV3+網(wǎng)絡(luò)分割過程中丟失的像素點(diǎn),預(yù)測(cè)的結(jié)果更加精確。第二列分割的結(jié)果中,DeeplabV3+網(wǎng)絡(luò)模型錯(cuò)誤地將椅子識(shí)別為其他的物體,改進(jìn)后的算法避免了誤分類錯(cuò)誤。第三列結(jié)果表明,DeeplabV3+網(wǎng)絡(luò)模型在分割自行車時(shí)存在明顯的分割不連續(xù)問題,本文算法分割的結(jié)果連續(xù)性更強(qiáng)。綜上,改進(jìn)后網(wǎng)絡(luò)模型相較于DeeplabV3+網(wǎng)絡(luò)模型可以提升小尺度目標(biāo)的分割精度,并具有更強(qiáng)的分類識(shí)別能力。
表7 PASCAL VOC 2012數(shù)據(jù)集上mIoU 值的測(cè)試結(jié)果
同時(shí),本文算法與其他經(jīng)典算法在PASCAL VOC 2012數(shù)據(jù)集上的測(cè)試結(jié)果進(jìn)行了對(duì)比,如表7所示??梢钥闯觯瑢?duì)鳥、船、瓶子等12個(gè)不同種類物體,本文算法都取得了更佳的分割結(jié)果,說明本文算法具有較好的泛化能力。
為了提高小尺度目標(biāo)的分割能力,本文深入研究了DeeplabV3+和HRNet 網(wǎng)絡(luò)模型,在二者的基礎(chǔ)上提出一種多尺度融合增強(qiáng)的圖像語義分割算法。在編碼端構(gòu)建一條多尺度融合增強(qiáng)分支保持網(wǎng)絡(luò)的高分辨率信息,增強(qiáng)細(xì)節(jié)特征的表達(dá)能力;在解碼端融合高分辨率特征和原始網(wǎng)絡(luò)提取的特征,獲取高質(zhì)量的上下文語義信息,從而構(gòu)建了一個(gè)適用于小尺度目標(biāo)分割的網(wǎng)絡(luò)模型。本文算法在兩個(gè)公開數(shù)據(jù)集上進(jìn)行了大量對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,本文算法不僅具備小目標(biāo)分割的能力,還可以解決目標(biāo)分割不連續(xù)的問題,有助于小目標(biāo)的識(shí)別。