任莎莎,劉 瓊
(華南理工大學(xué)校軟件學(xué)院,廣東廣州 511436)
在場(chǎng)景解析中準(zhǔn)確感知與理解圖像內(nèi)容,對(duì)于人工智能領(lǐng)域的計(jì)算機(jī)視覺(jué)至關(guān)重要[1].近年來(lái),深度卷積神經(jīng)網(wǎng)絡(luò),特別是VGG[2]、GoogleNet[3]、ResNet[4]等在目標(biāo)識(shí)別方面取得了較大的成功,但對(duì)于神經(jīng)網(wǎng)絡(luò)的圖像分割算法,其大多都由圖像分類(lèi)領(lǐng)域遷移而來(lái),未能滿足密集圖像分類(lèi)或分割等任務(wù)對(duì)網(wǎng)絡(luò)特征表征能力強(qiáng)度的要求.對(duì)邊緣、小目標(biāo)等細(xì)節(jié)其語(yǔ)義類(lèi)別關(guān)注較少.分類(lèi)網(wǎng)絡(luò)中頻繁的池化操作與卷積步長(zhǎng)的設(shè)置降低了空間分辨率[5,6],導(dǎo)致諸如交通信號(hào)等很多小目標(biāo)被丟失.由于空間細(xì)節(jié)的丟失,又導(dǎo)致分割性能降低.
本文在交通場(chǎng)景中研究類(lèi)別像素?cái)?shù)相對(duì)占比小于百分之一的小目標(biāo)時(shí)發(fā)現(xiàn),在復(fù)雜的現(xiàn)實(shí)世界中隨著智能系統(tǒng)的應(yīng)用與普及,這類(lèi)小目標(biāo)識(shí)別和分割需要重視.例如,在自動(dòng)駕駛的高分辨街景圖像中其小目標(biāo)很難被準(zhǔn)確分割.這嚴(yán)重影響了自動(dòng)駕駛?cè)蝿?wù)的安全行駛.小目標(biāo)分割難度在于目標(biāo)小、亮度和邊緣等特征淺、語(yǔ)義信息少、小目標(biāo)和背景之間尺寸不均衡等;用較小的感受野關(guān)注其特征,很難提取全局語(yǔ)義信息;用較大感受野關(guān)注背景信息,小目標(biāo)的特征會(huì)丟失.在圖像分割領(lǐng)域中人們做了大量工作.雖取得了較好的成績(jī),但還不能滿足對(duì)分割性能的需要.
早期為了提高小目標(biāo)分割精度,采用一些基于上下文的后處理矯正方法.比如Chen 與Krahenbuhl 等人[7,8]在FCN 網(wǎng)絡(luò)之后構(gòu)建基于MRF(Markov Random Field)與CRF(Conditional Random Field)的上下文關(guān)系來(lái)矯正分割結(jié)果,提高小目標(biāo)分割精度.然而這些后處理方法無(wú)法參與訓(xùn)練過(guò)程,且網(wǎng)絡(luò)不能根據(jù)預(yù)測(cè)結(jié)果調(diào)整權(quán)重.為了保持圖像分辨率,Pohlen 等人[9]提出全分辨率殘差網(wǎng)絡(luò),在常用的網(wǎng)絡(luò)旁并行設(shè)計(jì)一條不帶有池化和步長(zhǎng)大于1的分支,兩條網(wǎng)絡(luò)在前向傳播過(guò)程中交互融合,保持小目標(biāo)和邊緣特征分辨率的同時(shí)獲取語(yǔ)義信息,但是高分辨特征會(huì)帶來(lái)宏大的計(jì)算開(kāi)銷(xiāo).Guo 等人[10]提出在分割網(wǎng)絡(luò)后設(shè)計(jì)新的損失函數(shù)增大網(wǎng)絡(luò)對(duì)小目標(biāo)的關(guān)注,該損失函數(shù)通過(guò)增加一個(gè)基于類(lèi)間邊界共享的ISBMetric 指標(biāo),該指標(biāo)通過(guò)測(cè)量目標(biāo)類(lèi)別間的空間相鄰性,來(lái)緩解尺度帶來(lái)的損失偏差,改善小目標(biāo)分割.由于他們定義的小目標(biāo)類(lèi)別有限,雖然設(shè)計(jì)的損失函數(shù)能提高網(wǎng)絡(luò)對(duì)一些小目標(biāo)類(lèi)別的關(guān)注度,提高整體分割性能.但均未能解決所有小目標(biāo)訓(xùn)練樣本不均衡問(wèn)題.Yang 等人提出用合成圖像來(lái)實(shí)現(xiàn)小目標(biāo)數(shù)據(jù)增強(qiáng)方法,提高小目標(biāo)分割精度[11].該方法主要通過(guò)建立合成的小目標(biāo)數(shù)據(jù)與分割數(shù)據(jù)集共同參與訓(xùn)練.增強(qiáng)了模型對(duì)小目標(biāo)的訓(xùn)練,提高了模型對(duì)小目標(biāo)的表征能力.由于合成的小目標(biāo)類(lèi)別有限(取決于人為定義),仍未能解決未定義小目標(biāo)分割問(wèn)題.因此,我們對(duì)網(wǎng)絡(luò)高層特征首先進(jìn)行空洞卷積池化金字塔ASPP(Atrous Spatial Pyramid Pooling)處理,用得到的全局語(yǔ)義信息指導(dǎo)淺層的高分辨圖像特征進(jìn)行訓(xùn)練.在少量增加計(jì)算開(kāi)銷(xiāo)的情況下,保持了淺層特征的分辨率與語(yǔ)義信息.再通過(guò)建模提取所有小目標(biāo)特征,最后訓(xùn)練學(xué)習(xí)矯正小目標(biāo)類(lèi)別,來(lái)提高小目標(biāo)分割精度并取得了更好地效果.
對(duì)邊緣分割的處理是場(chǎng)景分割任務(wù)中的關(guān)鍵技術(shù)之一.由于網(wǎng)絡(luò)自身問(wèn)題(步長(zhǎng)與池化)導(dǎo)致許多信息被丟失,特別是目標(biāo)輪廓存在不連續(xù)、易混淆模糊、邊緣信息甚至被丟失等現(xiàn)象.先前一些工作[12,13]提出用CRF 之類(lèi)的結(jié)構(gòu)來(lái)改善分割性能,尤其是圍繞目標(biāo)邊界.Zhao等人[14~16]提出構(gòu)建特征金字塔池化結(jié)構(gòu),該結(jié)構(gòu)通過(guò)聚合多個(gè)尺度的特征來(lái)獲得多尺度上下文,以?xún)?yōu)化目標(biāo)邊界細(xì)節(jié)信息.Bertasius和Cheng 等人[17,18]提出同時(shí)學(xué)習(xí)分割與邊界特征的檢測(cè)網(wǎng)絡(luò),恢復(fù)池化層丟失的高分辨率特征.而在工作[19,20]中提出通過(guò)學(xué)習(xí)邊界特征作為中間表征來(lái)輔助分割.Takikawa[21]在已有分割網(wǎng)絡(luò)中通過(guò)增加一個(gè)由門(mén)控網(wǎng)絡(luò)構(gòu)成的邊緣形狀學(xué)習(xí)分支網(wǎng)絡(luò)來(lái)捕獲圖像中的邊緣特征,在網(wǎng)絡(luò)中引進(jìn)多任務(wù)的損失函數(shù)來(lái)監(jiān)督網(wǎng)絡(luò)的訓(xùn)練過(guò)程,同時(shí)引入多任務(wù)的正則化項(xiàng)來(lái)防止過(guò)擬合.由于該網(wǎng)絡(luò)良好的邊界特征學(xué)習(xí)能力,在小目標(biāo)的分割精度上有大幅度提高.不同于在網(wǎng)絡(luò)中通過(guò)增強(qiáng)邊緣特征來(lái)優(yōu)化目標(biāo)邊界的方法,Ding 等人[22]提出了一種邊界感知的特征傳播網(wǎng)絡(luò),該網(wǎng)絡(luò)把邊緣設(shè)定為一種附加類(lèi),學(xué)習(xí)圖像中的邊緣得分,根據(jù)其得分在邊緣像素點(diǎn)內(nèi)進(jìn)行特征信息的傳播等.以上工作取得了較好的成果但存在兩個(gè)不足,一是雖然增強(qiáng)了網(wǎng)絡(luò)特征中已有的邊緣特征,但較小的目標(biāo)細(xì)節(jié)沒(méi)有得到恢復(fù).二是未區(qū)分目標(biāo)大小,對(duì)所有大小目標(biāo)使用相同的邊緣增強(qiáng)準(zhǔn)則.為此,我們?cè)O(shè)計(jì)了一個(gè)強(qiáng)化外輪廓、弱化內(nèi)輪廓的帶有矯正的邊緣增強(qiáng)模塊,通過(guò)建模提取所有邊緣特征,最后訓(xùn)練學(xué)習(xí)矯正邊緣類(lèi)別,來(lái)獲得目標(biāo)邊界信息.提高邊緣分割精度較明顯.
在本文中,我們旨在保證其他類(lèi)別分割精度的基礎(chǔ)上,提高了小目標(biāo)和邊緣等目標(biāo)分割精度.本文的貢獻(xiàn)主要包含以下幾個(gè)方面.(1)設(shè)計(jì)了一種像素空間注意力模塊(PAM),可以獲得具有較強(qiáng)語(yǔ)義的像素空間.(2)設(shè)計(jì)了一種新的小目標(biāo)特征提取方法(Tiny Target Extraction module,TTE),并且獲取的小目標(biāo)特征含有語(yǔ)義類(lèi)別信息.(3)設(shè)計(jì)了一種目標(biāo)邊緣特征的提取方法(Edge Extraction Module,EEM),該方法獲取的邊緣特征含有語(yǔ)義類(lèi)別信息.(4)設(shè)計(jì)了一種新的損失函數(shù),在監(jiān)督圖像,小目標(biāo),邊緣三者訓(xùn)練任務(wù)的同時(shí),矯正了邊緣與小目標(biāo)類(lèi)別,也達(dá)到了增強(qiáng)邊緣與小目標(biāo)特征的任務(wù).最后實(shí)驗(yàn)結(jié)果表明我們的方法顯著提高了細(xì)小目標(biāo)的分割精度,總體分割精度(mIoU)與先進(jìn)算法比較,提高了2個(gè)百分點(diǎn).
將多尺度特征納入深度卷積神經(jīng)網(wǎng)絡(luò)DCNNs(Deep Convolutional Neural Networks)是使語(yǔ)義分割達(dá)到最優(yōu)性能的關(guān)鍵因素之一.Chen 等人[7,16]提出了一種多尺度特征提取方案,通過(guò)ASPP 來(lái)擴(kuò)展空間接收?qǐng)?ASPP 結(jié)構(gòu)一般由不同膨脹率的空洞卷積并行組成.空洞卷積是一種常見(jiàn)的信號(hào)優(yōu)化算法,由Holschneider 等人在文獻(xiàn)[23,24]中為實(shí)現(xiàn)非抽樣小波變換的高性能和高效計(jì)算而提出.設(shè)二維圖像信號(hào)經(jīng)過(guò)主干網(wǎng)絡(luò)后,每一個(gè)位置i上的輸入特征x,經(jīng)過(guò)卷積濾波器w得到對(duì)應(yīng)的輸出特征y,對(duì)特征圖x上進(jìn)行空洞卷積的具體過(guò)程為:
其中r為空洞卷積的膨脹率,它表示對(duì)輸入信號(hào)采樣的步幅大小.當(dāng)r=1 時(shí)為標(biāo)準(zhǔn)常規(guī)卷積.通過(guò)修改r的值來(lái)獲得適合不同尺度的目標(biāo)感受野.主干網(wǎng)絡(luò)輸出的特征,經(jīng)過(guò)帶不同膨脹率卷積的ASPP 模塊處理,增強(qiáng)了網(wǎng)絡(luò)的感知能力,輸出具有較高的上下文語(yǔ)義信息.再與淺層特征融合,不僅能增加部分細(xì)節(jié)信息,獲得滿足不同尺度目標(biāo)的語(yǔ)義信息,還在一定程度上緩解了膨脹卷積帶來(lái)的柵格效應(yīng).
在目前的圖像語(yǔ)義分割模型中,由DCNNs 輸出高層圖像特征具有較高的語(yǔ)義信息,但缺少細(xì)節(jié)信息,而淺層的圖像特征細(xì)節(jié)信息豐富但缺少語(yǔ)義信息,高層特征與低層特征簡(jiǎn)單融合很難使分割精度提高.為此Deeplabv3[16]和PSPNet[14]使用多尺度特征提取方案來(lái)擴(kuò)展空間接受場(chǎng).這些方案只關(guān)注局部特征關(guān)系,產(chǎn)生的上下文語(yǔ)義信息有限.近期,CCNet[25]和EMANet[26]采用空間稀疏注意力機(jī)制得到上下文信息,在不降低網(wǎng)絡(luò)性能的前提下,降低了模型的計(jì)算復(fù)雜度,也提高了空間上下文語(yǔ)義信息.Zhong等人[27]提出一個(gè)高效的壓縮注意力網(wǎng)絡(luò)結(jié)構(gòu)(SANet),通過(guò)增強(qiáng)網(wǎng)絡(luò)表征能力,使網(wǎng)絡(luò)關(guān)注更多的細(xì)節(jié).然而,他們也沒(méi)有考慮到像素和類(lèi)別之間的關(guān)系來(lái)直接構(gòu)建空間上下文信息.而這些關(guān)系不僅有助于降低上下文中的噪聲信息,還能使空間上下文更具解釋性.因此,這些基于空間上下文的方法在表征學(xué)習(xí)中如果未考慮有效通道信息,就不能獲得較好語(yǔ)義信息.為了得到像素空間具有較強(qiáng)的語(yǔ)義信息,我們?cè)O(shè)計(jì)了一種把空間注意力和通道注意力有機(jī)結(jié)合的像素空間注意力模塊.
本文算法結(jié)構(gòu)如圖1 所示.在主干網(wǎng)絡(luò)ResNet101輸出到ASPP 模塊,采取不同膨脹率的卷積來(lái)獲得不同尺度的特征圖.很明顯ASPP輸出雖然可以得到較好的語(yǔ)義信息,但是最后一層網(wǎng)絡(luò)特征圖無(wú)法恢復(fù)丟失的所有信息.所以我們把它輸入到我們?cè)O(shè)計(jì)的一種像素空間注意力模塊PAM,可以得到適應(yīng)不同尺度下的特征映射和具有較強(qiáng)的語(yǔ)義關(guān)系的像素空間特征.使其輸出到邊緣特征提取模塊EEM 得到具有類(lèi)別信息的邊緣特征yedge,并用邊緣實(shí)況圖對(duì)此特征進(jìn)行監(jiān)督學(xué)習(xí).同時(shí)輸出另一路到小目標(biāo)提取模塊TTE 得到具有類(lèi)別信息的小目標(biāo)特征ytiny,并用小目標(biāo)實(shí)況圖對(duì)此特征進(jìn)行監(jiān)督學(xué)習(xí).并設(shè)計(jì)專(zhuān)門(mén)的損失函數(shù).最后,將得到地小目標(biāo)特征ytiny、邊緣特征yedge、ASPP 特征輸出yASPP與主干網(wǎng)絡(luò)淺層特征yres1融合輸出,經(jīng)過(guò)反復(fù)的監(jiān)督學(xué)習(xí)和訓(xùn)練修正,我們可以在不降低其他類(lèi)別性能的前提下,提高邊緣和小目標(biāo)的分割性能.具體公式如下:
圖1 本文算法整體流程圖
對(duì)特征yres1、yASPP、yedge、ytiny都使用了1×1 的卷積進(jìn)行降維,使所有特征維度與低層特征yres1輸出維度一致.與此同時(shí),對(duì)所有特征進(jìn)行上采樣,恢復(fù)到統(tǒng)一分辨率,再進(jìn)行像素級(jí)疊加.
在目前的增強(qiáng)特征表征能力與優(yōu)化空間細(xì)節(jié)的語(yǔ)義分割算法中,由于邊緣和小目標(biāo)特征的丟失,導(dǎo)致小目標(biāo)和邊緣很難被準(zhǔn)確分割.為此,我們?cè)O(shè)計(jì)了一種把空間注意力和通道注意力有機(jī)結(jié)合在一起的像素空間注意力模塊(PAM).來(lái)獲得具有較強(qiáng)語(yǔ)義信息的圖像特征.即通過(guò)把高層輸出具有較強(qiáng)的語(yǔ)義信息的特征反饋至淺層,在PAM 中高層特征指導(dǎo)淺層特征訓(xùn)練,使得淺層特征即具有更多的細(xì)節(jié)信息,又具有更多語(yǔ)義信息.最終得到像素空間具有更多的語(yǔ)義信息,它在一定程度上解決了在模型中淺層圖像特征不具有像素空間語(yǔ)義信息的問(wèn)題.具體原理如下.
在圖2中將經(jīng)過(guò)ASPP模塊處理后的高層特征經(jīng)過(guò)全局池化得到全局上下文信息作為淺層特征的指導(dǎo)信息,再經(jīng)過(guò)并行avg&max 輕量級(jí)池化,來(lái)加強(qiáng)全局類(lèi)別的空間細(xì)節(jié)的注意力.具體地說(shuō),從ASPP 模塊處理后的高層次特征依次經(jīng)過(guò)全局池化、批量歸一化(Batch Normalization,BN)和非線性變換、1×1 卷積等操作生成具有全局上下文信息的特征,然后再與低層次特征相乘,獲得圖像的通道語(yǔ)義關(guān)系.再采用avg&max 并行輕量級(jí)池化加強(qiáng)空間注意力.最后與高層次特征及帶有全局上下文信息的通道特征融合輸出.不同于文獻(xiàn)[28,29]中的工作,我們?cè)O(shè)計(jì)的PAM 模塊不僅可以處理不同大小的特征映射,還可以引導(dǎo)低層的特征學(xué)習(xí)更多語(yǔ)義信息,它輸出的特征中像素空間具有較強(qiáng)的語(yǔ)義關(guān)系.
圖2 像素空間注意力模塊(PAM)
不同膨脹率ASPP 輸出的yASPP∈RW×H×C和主干網(wǎng)絡(luò)的yres1∈RW×H×C作為輸入,C表示通道維數(shù),W×H表示空間分辨率,并使輸入yASPP與yres1特征分辨率一致.yASPP每個(gè)通道經(jīng)過(guò)全局平均池化(average pooling)和最大池化(max-pooling),然后經(jīng)過(guò)兩個(gè)全連接層以及多層感知結(jié)構(gòu)(Multi-Layer Perception,MLP)產(chǎn)生通道注意力映射圖.為了減少網(wǎng)絡(luò)參數(shù),隱含層激活函數(shù)尺度設(shè)置為.r為通道降低率,然后通過(guò)元素求和,最后合并兩個(gè)輸出為:
?為外積運(yùn)算.為了獲得特征圖的空間注意力信息,對(duì)YC再進(jìn)行全局池化(avg&max)操作,得到2 個(gè)維度的特征,分別為,然后經(jīng)過(guò)合并,輸入到單層感知網(wǎng)絡(luò)(single Layer Perception,LP).具體過(guò)程如下:
其中,符號(hào)||表示卷積拼接操作.最后對(duì)yASPP、YC和YS進(jìn)行特征融合,融合特征經(jīng)過(guò)歸一化BN輸出.
這里,符號(hào)+表示像素級(jí)相加.
為了增強(qiáng)網(wǎng)絡(luò)中邊緣特征和邊緣語(yǔ)義信息,我們利用argmax 對(duì)PAM 模塊輸出的特征圖yp∈RW×H×K進(jìn)行優(yōu)化,優(yōu)化后的特征輸出為[M1,M2,…,Mk],然后利用梯度變換操作對(duì)優(yōu)化后的特征進(jìn)行處理,得到K個(gè)邊緣掩膜版[?M1,?M2,…,?Mk],經(jīng)歸一化和正則化處理后,與特征yp相乘,輸出K個(gè)類(lèi)別的邊緣特征圖yedge∈RW×H×K,如圖3 所示.由于PAM 模塊輸出的特征具有語(yǔ)義關(guān)系,故得到的邊緣像素含有類(lèi)別信息.由于使用了sigmoid 函數(shù)對(duì)得到的邊緣進(jìn)行處理,本文在一定程度上緩解工作[30,31]中存在的分割邊緣粗糙和稀疏的問(wèn)題.
圖3 邊緣增強(qiáng)特征提取模塊
其中δ為sigmoid函數(shù).同理,可以得到邊緣實(shí)況圖.
如圖4 所示,在PAM 模塊經(jīng)argmax 優(yōu)化后輸出的特征M中,對(duì)每一個(gè)目標(biāo)像素?cái)?shù)numk進(jìn)行統(tǒng)計(jì)分析并進(jìn)行排序,定義tv 為目標(biāo)像素?cái)?shù)numk與最大目標(biāo)像素?cái)?shù)nummax的比值,本文設(shè)置tv 小于等于0.01 時(shí)(可調(diào))為特征圖的小目標(biāo).然后得到小目標(biāo)掩膜版,輸出的小目標(biāo)掩膜版與K個(gè)通道的特征圖相乘,可以得到小目標(biāo)特征圖ytiny.由于PAM 模塊輸出的特征中像素具有較強(qiáng)的語(yǔ)義關(guān)系,因此獲得的小目標(biāo)特征含有類(lèi)別信息.同理,可以得到小目標(biāo)實(shí)況圖.
圖4 小目標(biāo)提取模塊(TTM)
我們不僅對(duì)主干網(wǎng)絡(luò)最后的分割特征圖進(jìn)行損失函數(shù)監(jiān)督計(jì)算,且對(duì)提取的邊緣和小目標(biāo)特征輸出進(jìn)行監(jiān)督計(jì)算.為此,我們?cè)黾恿诉吘墦p失函數(shù)和小目標(biāo)損失函數(shù)來(lái)監(jiān)督語(yǔ)義邊緣和語(yǔ)義小目標(biāo)學(xué)習(xí)過(guò)程.考慮到邊緣與小目標(biāo)位置像素也具有語(yǔ)義類(lèi)別信息,為了更好地對(duì)他們進(jìn)行監(jiān)督,我們選擇使用交叉熵?fù)p失函數(shù)對(duì)其進(jìn)行監(jiān)督,定義如下:
其中Cφ(xj|z)為像素j處預(yù)測(cè)標(biāo)簽xj的概率分布,yj為GT標(biāo)簽.網(wǎng)絡(luò)建模中的總損失表示為:
其中?1,?2,?3為網(wǎng)絡(luò)超參數(shù).分別為分割損失、小目標(biāo)損失、邊緣損失的權(quán)重系數(shù).
首先,我們敘述了實(shí)驗(yàn)環(huán)境與評(píng)價(jià)標(biāo)準(zhǔn),然后我們比較了本文算法和當(dāng)前最先進(jìn)的方法在Cityscapes 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果并進(jìn)行了一系列消融實(shí)驗(yàn),對(duì)結(jié)果進(jìn)行了分析.最后,又在PASCAL VOC、ADE20K和Camvid 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)結(jié)果對(duì)比分析.四個(gè)數(shù)據(jù)集上實(shí)驗(yàn)表明我們的算法不低于其他算法.
本實(shí)驗(yàn)硬件環(huán)境CPU為因特爾E5-2650V4,GPU為微星NVIDIA GeForce RTX 2080Ti.Cityscapes 數(shù)據(jù)集來(lái)源于50個(gè)不同城市的街道場(chǎng)景,總共5 000張精細(xì)標(biāo)注(精標(biāo)),2 975 張訓(xùn)練圖,500 張驗(yàn)證圖和1 525 張測(cè)試圖.在標(biāo)注像素類(lèi)別中有8 個(gè)大類(lèi),每個(gè)大類(lèi)中包含若干子類(lèi),共為30個(gè)小類(lèi),除去一些出現(xiàn)像素頻率較小的類(lèi)別,用19 個(gè)類(lèi)作為評(píng)估.使用mIoU(mean Intersection over Union)來(lái)評(píng)估預(yù)測(cè)分割精度[32~34],其計(jì)算公式為:
pji為真值為j,預(yù)測(cè)結(jié)果為i的像素?cái)?shù),K+1 是類(lèi)別個(gè)數(shù)(包含背景類(lèi)).pjj是真實(shí)值.pji為j,被預(yù)測(cè)為i的像素?cái)?shù),即假正.pij則表示真實(shí)值為i,被預(yù)測(cè)為j的數(shù)量,即假負(fù).
損失函數(shù)設(shè)置:我們分別使用了多類(lèi)交差熵OHEM(Online Hard Example Mining)與二進(jìn)制交差熵?fù)p失函數(shù)分別對(duì)訓(xùn)練過(guò)程進(jìn)行監(jiān)督,邊緣分支與小目標(biāo)分支損失系數(shù)分別設(shè)置為1.
Cityscapes 訓(xùn)練策略設(shè)置:為了進(jìn)一步排除實(shí)驗(yàn)的偶然性,在訓(xùn)練過(guò)程中對(duì)所有網(wǎng)絡(luò)進(jìn)行相同設(shè)置.優(yōu)化器:為了保證訓(xùn)練過(guò)程中參數(shù)更新的準(zhǔn)確率和運(yùn)行時(shí)間的開(kāi)銷(xiāo),我們選擇使用SGD(Stochastic Gradient Descent)[35]作為網(wǎng)絡(luò)訓(xùn)練的優(yōu)化器,初始網(wǎng)絡(luò)學(xué)習(xí)率為0.01,并采用ploy衰減策略.訓(xùn)練過(guò)程中,使用4塊顯卡(GPU),每個(gè)GPU 批尺寸設(shè)置2.數(shù)據(jù)增強(qiáng)使用隨機(jī)翻轉(zhuǎn),隨機(jī)調(diào)整大小,隨機(jī)裁剪等手段,其中隨機(jī)調(diào)整大小的范圍為(0.5,2.0),隨機(jī)裁剪尺度為512×1 024.此外,驗(yàn)證時(shí)我們使用尺度為0.5、1.0和2.0的多尺度方案且在訓(xùn)練過(guò)程中未使用粗標(biāo)注數(shù)據(jù)集.
PASCAL VOC、ADE20K 與Camvid 數(shù)據(jù)集訓(xùn)練策略設(shè)置:我們的訓(xùn)練協(xié)議參考文獻(xiàn)[36].在訓(xùn)練過(guò)程中,我們采用多項(xiàng)式衰減策略,初始學(xué)習(xí)率為0.01,并使用裁剪采樣作為預(yù)處理,裁剪大小512×512,批標(biāo)準(zhǔn)化參數(shù)在訓(xùn)練過(guò)程中進(jìn)行了微調(diào),迭代次數(shù)16萬(wàn).
為了進(jìn)一步證明本文提出方法的有效性,在Cityscapes數(shù)據(jù)上我們與以下最新算法進(jìn)行實(shí)驗(yàn)對(duì)比分析:FCN[37]、PSPNet[14]、Deeplabv3+[16]、GSCNN[21]、DSNet[38]、EAMNet[26]、PSANet[39]、DANet[40]、Maskformer[41].其實(shí)驗(yàn)結(jié)果如表1 所示.從這些分割結(jié)果可以看出,我們提出的方法在一些比較復(fù)雜的場(chǎng)景中能得到更好的分割效果.
從表1中可以看出,在Cityscapes 驗(yàn)證集上,我們對(duì)Cityscape 上的每一類(lèi)的IoU 進(jìn)行了測(cè)試,每一個(gè)類(lèi)別的分割性能,我們的方法幾乎都略?xún)?yōu)于其他方法.與Deeplabv3+分割結(jié)果相比,在柱子、交通燈、騎車(chē)的人、摩托車(chē)以及自行車(chē)等分割性能我們的方法分別提高2.0%、2.1%、3.9%、3.3%、1.8%.與GSCNN 比,本文算法可以在不降低其他類(lèi)別(樹(shù)干,摩托車(chē)等)的分割性能下,提升柱子,交通信號(hào)燈,騎車(chē)的人等小目標(biāo)分割精度.對(duì)圖像中公共汽車(chē)等大目標(biāo),其精度相對(duì)FCN也有提高.在Deeplabv3+中路面邊緣我們的方法精度提升0.3%.當(dāng)我們的方法與DSNet在基線模型為Deeplabv3+,主干網(wǎng)絡(luò)為ResNet50 時(shí),我們又進(jìn)行了對(duì)比實(shí)驗(yàn),DSNet 分割性能只有81.5%mIoU,我們的方法是82.8%mIoU,如表1.我們的算法著重于加強(qiáng)小目標(biāo)與邊緣的特征,而DSNet 著重增強(qiáng)主體與邊緣的特征,因此在柱子,交通燈,騎車(chē)的人,摩托車(chē)以及自行車(chē)等類(lèi)別分割性能我們的方法分別提高1.3%、3.1%、2.1%、2.4%、1.7%.在文獻(xiàn)[40]中DSNet 用8 張32 GB 的v-100 GPU 上訓(xùn)練并以Wide-ResNet[42]作為主干網(wǎng)絡(luò)可以達(dá)到83.7%的分割性能,雖然使用更深和更寬的網(wǎng)絡(luò)可以提高分割性能,但是需要較大的計(jì)算開(kāi)銷(xiāo).
表1 在Cityscapes驗(yàn)證集上的各個(gè)類(lèi)別分割結(jié)果
可視化分析:從圖5的特征圖的可視化結(jié)果可以看出,與FCN 相比,我們平滑了大目標(biāo)內(nèi)部紋理,所以對(duì)公交車(chē)和汽車(chē)等大型物體的分割性能有很大改進(jìn).與Deeplabv3+相比,我們主要改進(jìn)了對(duì)場(chǎng)景中遠(yuǎn)處的行人等小目標(biāo)的分割效果.因?yàn)锳SPP模塊可以很好地對(duì)上下文聚合,從而緩解內(nèi)部不一致現(xiàn)象.但是ASPP 模塊是在網(wǎng)絡(luò)輸出端得到的語(yǔ)義信息來(lái)聚合上下文,它的小目標(biāo)及邊緣等細(xì)節(jié)信息已經(jīng)殘缺,所以我們添加了帶有矯正的邊緣增強(qiáng)模塊,一方面緩解邊緣噪聲,另一方面提高對(duì)部分小目標(biāo)物體的分割效果.但是小目標(biāo)與邊緣所占整體像素的比例很小,所以即使提高了這些細(xì)節(jié)分割效果,但是整體分割性能也不會(huì)有太大提高.這和我們上面實(shí)驗(yàn)結(jié)果一致.從上面圖6和圖7 可視化結(jié)果中,我們方法能很好處理FCN 方法中的大目標(biāo)上下存在不一致的地方,如圖6中的黃色框標(biāo)注的地方,我們的方法緩解了大尺寸公交車(chē)內(nèi)部紋理不一致.與此同時(shí),如圖7 中紅色框標(biāo)注的地方,我們的算法矯正了交通信號(hào)燈以及路面邊緣像素類(lèi)別,抑制了非邊緣位置像素類(lèi)別,很好地處理了Deeplabv3+中的小目標(biāo)并緩解了邊緣噪聲.
圖5 FCN、Deeplabv3+與本文分割算法可視化結(jié)果
圖6 FCN與本文分割算法邊緣可視化結(jié)果
圖7 Deeplabv3+與本文分割算法邊緣可視化結(jié)果
各分支可視化結(jié)果展示;為了更直觀的對(duì)我們提出的模塊效果進(jìn)行分析,我們可視化了本文算法中各個(gè)模塊輸出特征,如圖8中(a)為原圖,(b)到(d)分別對(duì)應(yīng)PAM,EEM,TTE 各個(gè)模塊特征圖可視化結(jié)果.可以看出,圖(b)中包含了大量的空間結(jié)構(gòu)信息,圖(c)中含有物體輪廓信息,可以很好的增強(qiáng)物體邊緣特征,圖(d)中含交通信號(hào)燈以及遠(yuǎn)處的行人等小目標(biāo)信息.最后圖(e)為融合輸出特征,物體輪廓明顯增強(qiáng),遠(yuǎn)處物體特征也比較明顯.
圖8 本文算法網(wǎng)絡(luò)中各個(gè)模塊可視化結(jié)果
為了更直觀的對(duì)我們提出的PAM 模塊進(jìn)行分析,我們對(duì)PAM 中高層次特征、通道特征、空間特征和最后融合輸出特征進(jìn)行了可視化,分別對(duì)應(yīng)圖9 中(b)到(e),圖9(a)為輸入圖像.我們可以看到(b)中包含了大量抽象的高層語(yǔ)義信息.圖(c)為高層通道相關(guān)性加到低層特征的可視化結(jié)果圖,包含大量空間細(xì)節(jié)的同時(shí)又有豐富的語(yǔ)義信息.圖(d)中包含了大量空間結(jié)構(gòu)信息.圖(d)為最后融合輸出特征可視化結(jié)果.
圖9 PAM中各個(gè)特征可視化結(jié)果
主干網(wǎng)絡(luò)上的提升:我們選擇應(yīng)用全卷積FCN 主干網(wǎng)絡(luò)分別使用ResNet50和ResNet101作為主干網(wǎng)絡(luò),設(shè)計(jì)了消融實(shí)驗(yàn).如表2 所示,當(dāng)使用ResNet50,作為骨干網(wǎng)絡(luò)時(shí),原FCN 的mIoU 為71.4%,帶有ASPP 模塊的FCN 精度為76.6%,當(dāng)嵌入我們的模型時(shí),分割精度分別提升3.5%.當(dāng)以ResNet101 為我們的骨干網(wǎng)時(shí),分割精度分別提升3.3%.基于ResNet50 的模型比ResNet101的模型僅高出了0.7%,說(shuō)明網(wǎng)絡(luò)達(dá)到一定層數(shù)時(shí),其性能的提升和網(wǎng)絡(luò)層的深度未成正比.
表2 以FCN作為基線Cityscape驗(yàn)證集上的消融實(shí)驗(yàn)
與相近方法比較:表3為我們的方法與當(dāng)前最相近方法的性能比較.我們選取了在近期工作中與我們方法最相近的四個(gè)方法包括:DCN[43]、GSCNN[23]、DSNet[38]、STLNet[44].上述實(shí)驗(yàn)結(jié)果表明,與以上前三種最相近方法相比,本文方法的增益分別為2.6%、3.0%、0.7%,我們的模塊性能最優(yōu).即使與國(guó)際最新工作STLNet相比,本文的算法性能也具有可比性.
表3 與最相近方法的消融實(shí)驗(yàn)
監(jiān)督消融實(shí)驗(yàn):在表4中對(duì)本文方法的損失函數(shù)進(jìn)行了消融實(shí)驗(yàn).如果僅用邊緣損失函數(shù)對(duì)基線網(wǎng)絡(luò)進(jìn)行監(jiān)督,分割性能提升0.2%,邊緣增強(qiáng)可以去除目標(biāo)邊緣噪聲,但是目標(biāo)邊緣像素占目標(biāo)比例極少,所以?xún)H對(duì)邊界進(jìn)行監(jiān)督其分割性能提升極小.但是對(duì)邊緣和分割主體同時(shí)進(jìn)行監(jiān)督,分別用二進(jìn)制損失函數(shù)和OHEM,分割精度提升1.0%,3.5%.說(shuō)明綜合損失函數(shù)能更好的挖掘基于邊界形狀位置的像素類(lèi)別信息,且邊緣與主體部分存在正交性.
表4 以FCN為基線關(guān)于損失函數(shù)監(jiān)督消融實(shí)驗(yàn)
各部分消融實(shí)驗(yàn):表5 為各個(gè)模塊的消融實(shí)驗(yàn).為了驗(yàn)證我們提出的算法對(duì)網(wǎng)絡(luò)性能的影響,分別去掉TTE和EEM模塊.如果不使用我們提出的TTE模塊,引入EEM,mIoU 提高到79.0%.同時(shí),使用TTE和EEM 后,我們的mIoU分別從77.5%提高到80.8%.
表5 以FCN為基線我們方法各部分的消融實(shí)驗(yàn)
為了進(jìn)一步驗(yàn)證我們提出算法的通用性,我們還在VOC2012、ADE20K和Camvid 其他場(chǎng)景分割數(shù)據(jù)上進(jìn)行了本算法實(shí)驗(yàn)驗(yàn)證.VOC 的訓(xùn)練集有2 913張圖片共6 929 個(gè)物體,20 個(gè)類(lèi)(不含背景)用來(lái)作為評(píng)估標(biāo)準(zhǔn).本文分別以ResNet50和ResNet101 為骨干網(wǎng),分割性能提高了1.2%和1.9%左右.ADE20K 數(shù)據(jù)集中,訓(xùn)練集包含20 210 張圖像,測(cè)試集3 489 張圖像,驗(yàn)證集2 000張圖像,其中我們用150個(gè)類(lèi)別作為評(píng)估.Camvid也是城市街景數(shù)據(jù),在該數(shù)據(jù)集中包含802張精標(biāo)圖像,其中選擇32 個(gè)語(yǔ)義類(lèi)別作為評(píng)估.從表6、表7和表8中可以看出,在其它幾個(gè)分割數(shù)據(jù)上,本算法都有性能提升.
表6 VOC 2012數(shù)據(jù)集實(shí)驗(yàn)結(jié)果(輸入圖片大小512×512)
表7 ADE20K數(shù)據(jù)集實(shí)驗(yàn)結(jié)果(輸入圖片大小512×512)
表8 Camvid數(shù)據(jù)集實(shí)驗(yàn)結(jié)果(輸入圖片大小512×512)
從以上實(shí)驗(yàn)結(jié)果來(lái)看,與Deeplabv3+等方法對(duì)比,本文方法在一定程度上提高了對(duì)小目標(biāo)圖像的分割精度.比如,從圖5和圖8的可視化結(jié)果來(lái)看,遠(yuǎn)處的行人細(xì)節(jié)信息有明顯增加,網(wǎng)絡(luò)輸出特征中包含了大量空間細(xì)節(jié)和豐富的語(yǔ)義信息.與相近方法[21,22]相比,由于本文提取地邊緣及小目標(biāo)具有語(yǔ)義類(lèi)別信息,且對(duì)邊緣及小目標(biāo)像素類(lèi)別又進(jìn)行了訓(xùn)練校正,所以它們能與主網(wǎng)絡(luò)圖像特征更好地交互融合.這不僅提高了小目標(biāo)的分辨率,改善了對(duì)邊緣的分割效果,同時(shí)也使大目標(biāo)輪廓更加清晰,緩解了邊緣附近的毛躁與混淆現(xiàn)象,提高了大目標(biāo)分割精度.
本文算法與以往方法的不同之處主要存在以下三個(gè)方面.首先,我們?cè)O(shè)計(jì)了一個(gè)新的輕量級(jí)注意力模塊PAM,該模塊使帶有豐富細(xì)節(jié)的低層獲得了高層語(yǔ)義信息;然后分別對(duì)該模塊輸出特征進(jìn)行邊緣與小目標(biāo)建模,提取小目標(biāo)及邊緣特征.最后對(duì)建模提取結(jié)果分別設(shè)置相應(yīng)的損失函數(shù)進(jìn)行監(jiān)督訓(xùn)練.由于是在網(wǎng)絡(luò)底層PAM 模塊中提取得小目標(biāo)及邊緣特征,因此其具有豐富細(xì)節(jié)和語(yǔ)義類(lèi)別信息.訓(xùn)練后的特征與ASPP輸出的特征、主干網(wǎng)絡(luò)第一層特征融合,使得小目標(biāo)特征、邊緣特征、主網(wǎng)絡(luò)圖像特征三者之間進(jìn)行交互.在增強(qiáng)了小目標(biāo)與邊緣特征的同時(shí),也矯正了圖像像素的類(lèi)別標(biāo)簽,提高了圖像的分割精度.