摘 要:針對目前實時語義分割方法存在大目標(biāo)分割不準(zhǔn)確、小目標(biāo)信息丟失的問題,提出一種基于多分支網(wǎng)絡(luò)的實時語義分割算法。首先,對雙邊分割網(wǎng)絡(luò)進(jìn)行優(yōu)化,設(shè)計了金字塔分支擴(kuò)大感受野,以覆蓋視野內(nèi)的大目標(biāo),充分地將上下文信息結(jié)合起來;其次,設(shè)計雙邊指導(dǎo)融合模塊,為深層和淺層的特征映射提供指導(dǎo)信息,彌補(bǔ)小目標(biāo)信息的損失。最后在Cityscapes數(shù)據(jù)集上進(jìn)行驗證,實驗結(jié)果表明所提模型以
51.3 fps的推理速度使平均交并比達(dá)到77.8%,與基準(zhǔn)相比,精度提高了2.5個百分點(diǎn)。所提方法采用金字塔分支,在擴(kuò)大感受野的同時,獲取不同尺度的語義邊緣區(qū)域特性,增強(qiáng)對語義邊界的建模能力,且提出的雙邊指導(dǎo)融合模塊可以更有效地融合不同層次的特征,彌補(bǔ)下采樣造成的信息丟失,能夠更好地指導(dǎo)模型學(xué)習(xí)。
關(guān)鍵詞:實時語義分割;輕量級;多分支網(wǎng)絡(luò);特征融合
中圖分類號:TP391.41文獻(xiàn)標(biāo)志碼:A
文章編號:1001-3695(2023)08-045-2526-05
doi:10.19734/j.issn.1001-3695.2022.11.0644
Research on real-time semantic segmentation of road scene
based on multi-branch network
Liao Wensen Xu Cheng Liu Hongzhe Li Xuewei
(a.Beijing Key Laboratory of Information Service Engineering,b.Institute for Brain amp; Cognitive Sciences,Beijing Union University,Beijing 100101,China)
Abstract:Aiming at the problems of inaccurate large target segmentation and loss of small target information in current real-time semantic segmentation methods,this paper proposed a real-time semantic segmentation algorithm based on multi-branch networks.First of all,this paper optimized the bilateral segmentation network,and designed pyramid branches to expand the receptive field to cover large objects in the field of view and fully combine context information.Secondly,it designed a bilateral guidance fusion module to map deep and shallow features and provided guidance information to make up for the loss of small target information.Finally,this paper verified the proposed method on the Cityscapes dataset.The experimental results show that the proposed model achieves an average intersection ratio of 77.8% at an inference speed of 51.3 fps,and the accuracy is increased by 2.5 percentage points compared with the baseline.The proposed method adopts the pyramid branch to obtain the characteristics of semantic edge regions at different scales while expanding the receptive field,and enhances the modeling ability of semantic boundaries,and the proposed bilateral guidance fusion module can more effectively integrate features of different levels,compensating for the information loss caused by downsampling can better guide model learning.
Key words:real-time semantic segmentation;lightweight;multi-path network;feature fusion
0 引言
語義分割是計算機(jī)視覺的一項基本任務(wù),是醫(yī)學(xué)圖像分割和自動駕駛等應(yīng)用的基礎(chǔ)工作[1]。在深度學(xué)習(xí)技術(shù)發(fā)展迅速的今天,卷積神經(jīng)網(wǎng)絡(luò)在圖像分割中的應(yīng)用越來越廣泛,它比傳統(tǒng)人工特征提取算法表現(xiàn)出更好的效果,為后來的研究者們提供了一種新的研究角度[2,3]。同時,由于語義分割是一種密集的預(yù)測任務(wù),神經(jīng)網(wǎng)絡(luò)需要輸出高分辨率的特征、大感受野的特征圖,以產(chǎn)生令人滿意的結(jié)果。
為了使高分辨率的特性得到更精確的恢復(fù),文獻(xiàn)[4,5]采用編碼器獲取深層特征的上下文語義信息,并采用解碼器實現(xiàn)對圖像的淺層次和深層次特征的融合,從而逐漸恢復(fù)圖像的空間和細(xì)節(jié)。此外,文獻(xiàn)[6,7]采用空洞卷積(又稱擴(kuò)展卷積)代替了深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)卷積層的一部分,擴(kuò)大網(wǎng)絡(luò)整體的感受野,并且不改變特征圖的分辨率,從而在獲得豐富的上下文信息的同時保留更多的空間和細(xì)節(jié)信息。高分辨率的特征映射對于自動駕駛的場景解析尤為關(guān)鍵,因為自動駕駛需要在非常大的圖像上執(zhí)行,以覆蓋廣闊的視野。上述方法在推理階段非常耗時,無法直接部署到實際的自主車輛上。
由于對移動設(shè)備的部署要求日益提高,實時分割技術(shù)成為當(dāng)前研究的熱點(diǎn)。與編碼器—解碼器范式不同,文獻(xiàn)[8~10]使用由細(xì)節(jié)分支和語義分支組成的雙邊分割網(wǎng)絡(luò)。細(xì)節(jié)分支利用相對較寬的卷積層來捕獲空間細(xì)節(jié),語義分支采用輕量化的網(wǎng)絡(luò)模型作主干提取上下文信息。細(xì)節(jié)分支生成保留了更多空間細(xì)節(jié)信息的低級特征,而語義分支生成提取了更多上下文信息的高級特征,最后將兩者融合輸出預(yù)測。這種雙邊結(jié)構(gòu)比當(dāng)時的編碼器結(jié)構(gòu)實現(xiàn)了更高的推理速度。但是,雙邊分割網(wǎng)絡(luò)采用輕量化的網(wǎng)絡(luò)模型做主干(如ResNet18),導(dǎo)致網(wǎng)絡(luò)整體的感受野不夠大,不足以覆蓋比較大的對象,如公交車和柵欄等,速度上去了但精度也下降了。另外,低層次的特征具有豐富的空間信息,但是缺少語義信息,而高層次的特征卻恰恰相反。單純的結(jié)合很容易忽視這兩者之間的多樣性,不利于恢復(fù)小目標(biāo)在網(wǎng)絡(luò)降采樣過程中丟失的特征信息,如電桿和交通指示牌等,從而導(dǎo)致模型性能降低。由于其低層次特征噪聲較大,不能提供高解析度的語義信息。同樣,在較高層次的特征中,其空間信息較少,無法充分發(fā)揮其低層次特征的作用。
基于以上觀察,本文提出一種基于多分支的實時語義分割網(wǎng)絡(luò)。網(wǎng)絡(luò)的創(chuàng)新設(shè)計主要包括:a)設(shè)計高效的獨(dú)特金字塔分支,通過利用分層融合與金字塔結(jié)構(gòu)的組合,獲得豐富的上下文信息,以覆蓋廣闊的視野,在低分辨率的特征映射中,該模塊的執(zhí)行不會明顯增加網(wǎng)絡(luò)的推理時間;b)設(shè)計雙邊指導(dǎo)融合模塊,通過在低級特征中引入語義信息,在高級特征中引入高分辨率細(xì)節(jié),將會有助于后續(xù)的特征融合,該模塊可以彌補(bǔ)低級和高級特征之間的隔閡,并顯著提高整體分割質(zhì)量。
1 相關(guān)工作
1.1 高精度的語義分割
近年來,隨著卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,一系列語義分割方法不斷提升了最先進(jìn)的性能。這些方法的高精度主要基于兩種方法:a)基于空洞卷積的方法[6,7],刪除部分下采樣操作,采用空洞卷積擴(kuò)大感受野且不縮減分辨率來提取高分辨率的特征映射,以獲取高性能;b)基于編碼器—解碼器結(jié)構(gòu)的方法[4,5],采用ResNet-101為主干網(wǎng)絡(luò)作編碼器獲取密集的特征映射,利用反卷積或線性插值作解碼器并結(jié)合跳躍連接恢復(fù)高分辨率特征表示。但是,這兩種架構(gòu)都是針對高精度的語義分割,沒有對運(yùn)算速度和計算成本進(jìn)行充分考慮。在基于空洞卷積的方法中,空洞卷積去掉了一部分的降采樣操作,得到分辨率較大的特征圖會占用更多的內(nèi)存。而編碼器—解碼器體系的方法中,編碼器大多采樣較深的網(wǎng)絡(luò)作為主干來獲取密集的特征映射(如ResNet-101),這也就帶來了巨大的計算量。然而,實時語義分割應(yīng)用需要高效的推理速度。
1.2 實時的語義分割
面對這一需求,現(xiàn)有實時分割的方法主要采用兩種方法來加速模型:a)基于雙邊結(jié)構(gòu)的方法[8~10],細(xì)節(jié)分支捕獲空間細(xì)節(jié)生成高分辨率表示,語義分支捕獲高級語義生成低分辨率表示,最后融合低級特征和高級特征并輸出預(yù)測;b)基于分解卷積的方法[11~13],采用深度可分離卷積通過將規(guī)則卷積一分為二來降低計算復(fù)雜度,提高推理速度,或分組卷積通過將信息流封裝在更小的特征映射組中,降低了浮點(diǎn)數(shù)和參數(shù)數(shù)量。盡管兩種算法都可以在一定程度上提升算法的運(yùn)算效率,但是由于其對數(shù)據(jù)處理過程中的細(xì)節(jié)和存儲能力的降低,使得算法的精確性大大降低。所以,要在保證高精度和高效率的前提下,設(shè)計一個基于語義的實時分割體系結(jié)構(gòu),是一項非常有意義的工作。
2 本文方法
2.1 網(wǎng)絡(luò)結(jié)構(gòu)
本文提出了用于實時語義分割的多分支網(wǎng)絡(luò)(multi-branch network,MBNet),圖1顯示了MBNet的設(shè)計細(xì)節(jié)。
細(xì)節(jié)分支(detail branch,DB)僅對圖像下采樣三次以保持較大的分辨率,保留更多的空間細(xì)節(jié),有利于對行人/交通信號燈等小目標(biāo)的精確分割;語義分支(semantic branch,SB)采用事先經(jīng)過訓(xùn)練的輕量化模型(ResNet-18)快速下采樣提取上下文語義,輸入到金字塔分支,并使用注意力細(xì)化模塊[8](attention refinement module,ARM)細(xì)化最后兩個階段的輸出特征,用于后續(xù)的融合;金字塔分支(pyramid branch,PB)從語義分支中提取三個不同尺度的深層特征進(jìn)行融合提供更大的感受野,有利于覆蓋視野內(nèi)的公交車/建筑等大目標(biāo)。細(xì)節(jié)分支保留大量的空間信息,語義分支則提取豐富的語義信息,而金字塔分支提供更大的感知范圍和更高層次的特征。它們互相配合,提高了性能。最后,在此基礎(chǔ)上,對各個分支的輸出特性進(jìn)行逐步融合,以進(jìn)行最后的預(yù)測。該方法既能實時又能保證高準(zhǔn)確度。盡管細(xì)節(jié)分支的特征圖分辨率較大,但是僅有4個卷積層,所以并不需要大量的計算。對于語義分支,本文使用一個輕量級模型(ResNet-18)來快速向下采樣。此外,雖然金字塔分支比細(xì)節(jié)分支包含更多卷積層和更復(fù)雜的融合策略,但由于輸入分辨率僅為圖像分辨率的1/32,所以幾乎不影響推理速度。
2.2 金字塔分支
2.3 雙邊指導(dǎo)融合模塊
一方面,由于卷積運(yùn)算主要是為了增加感知域,即在空間上進(jìn)行更多的特征融合。另一方面,簡單的融合低級和高級特征帶來的收益并不高,因為語義層級和空間層級之間有著隔閡,雖然低層特征含有豐富的空間細(xì)節(jié),有利于深層特征恢復(fù)小目標(biāo)的細(xì)節(jié)信息,但其同樣具有大量的噪聲,容易干擾深層特征中的語義信息。因此,本文設(shè)計了雙邊指導(dǎo)融合模塊(bilateral guidance fusion module,BGFM),注重信道間的聯(lián)系,使模型能夠自主地學(xué)習(xí)各通道特征的重要性,并用于指導(dǎo)融合有判別力的信息,如圖3所示。這不僅能夠更有效地適應(yīng)不同層次的特征映射,還能以簡單的方式為各層次的特征映射提供指導(dǎo)信息,能夠有針對性地利用DB中的低級特征恢復(fù)在SB和PB連續(xù)地下采樣中所丟失的細(xì)節(jié)特征,利用SB和PB中的高級特征減少DB中的噪聲,有利于低級特征和高級特征的融合,加強(qiáng)模型對小目標(biāo)的識別能力。
BGFM由兩個指導(dǎo)融合模塊(guidance fusion module,GFM)組成,在保留完整上下文信息的同時,對低級特征的空間細(xì)節(jié)有選擇地融合特征點(diǎn);反之,在保留完整空間信息的同時,對高級特征的上下文語義有選擇地融合特征點(diǎn)。圖4顯示了GFM的設(shè)計細(xì)節(jié)。
2.4 深度監(jiān)督訓(xùn)練
3 實驗與分析
本章首先介紹實驗設(shè)置;其次,將MBNet與其他實時分割算法相比,得到在不同基準(zhǔn)上的最終精度和速度結(jié)果;最后,研究MBNet的每個組成部分對Cityscapes驗證數(shù)據(jù)集的影響。
3.1 實驗設(shè)置
3.2 實驗結(jié)果分析
MBNet采用ResNet-18作為骨干網(wǎng)絡(luò),在雙邊結(jié)構(gòu)基礎(chǔ)上加入了PB,增加了網(wǎng)絡(luò)整體的感受野,并且高層次特征圖的分辨率較小,因此額外的分支并不會帶來太多的計算負(fù)擔(dān);在網(wǎng)絡(luò)的特征融合部分加入了BGFM,能夠更有效地利用來自不同分支的語義信息和細(xì)節(jié)邊界特征,提高了網(wǎng)絡(luò)對于中小尺度目標(biāo)的分割效果。從表1中可看出,對比其他輕量級圖像語義分割算法,MBNet在保證高精度的前提下仍達(dá)到了實時的效果,實現(xiàn)了分割精度和模型參數(shù)量之間最優(yōu)平衡。此外,為更直觀地展現(xiàn)MBNet的優(yōu)勢,本文選擇了部分原圖的分割結(jié)果,并進(jìn)行了可視化的分析,同時與BiSeNetV1進(jìn)行可視化對比,結(jié)果如圖5所示。從圖5中可以看出,MBNet對于公交車和柵欄之類的大目標(biāo)可進(jìn)行更有效的分割,而BiSeNetV1出現(xiàn)了類內(nèi)不一致情況,將公交車和柵欄的一部分錯誤地分割成汽車和建筑。另外,MBNet在細(xì)桿和交通信號牌之類的小目標(biāo)上同樣可取得更好的分割效果,而BiSeNetV1出現(xiàn)了類間無差別的情況。可見,本文方法能獲得更好的局部分割效果,能更好地處理細(xì)微目標(biāo),且總體上很少出現(xiàn)類內(nèi)不一致和類間無差別情況。
3.3 消融實驗
在本節(jié)中,本文將驗證MBNet中每個組件的有效性。在后續(xù)的實驗中,本文使用BiSeNetV1作為基礎(chǔ)網(wǎng)絡(luò),在Cityscapes驗證數(shù)據(jù)集上比較PB和BGFM對整個網(wǎng)絡(luò)帶來的影響。
如表3所示,加入BGFM和PB后,平均精度值有了明顯的提升,部分可視化結(jié)果如圖6所示。其中,采用BGFM時有 1.4個百分點(diǎn)的提升,使用PB時有1.8個百分點(diǎn)的提升。通過引入BGFM,可以對圖像進(jìn)行逐步的恢復(fù)和優(yōu)化,并能較好地提取出較高層次和較低層次特征的位置和信道信息,確保更有價值的通道和位置特征在特征圖中占據(jù)較大比例,更好地恢復(fù)小目標(biāo)的信息特征。從圖6中的第一行可以看出,加了BGFM的baseline能更有效地捕獲到摩托車和交通信號牌這類的小目標(biāo)。通過加入PB可以增大網(wǎng)絡(luò)整體的感受野以覆蓋廣闊的視野,并通過單向融合策略并聯(lián)不同尺度邊界信息來獲得每個卷積層的特征圖信息,能夠有效利用不同尺度的信息,提高不同特征圖的信息利用率,增強(qiáng)網(wǎng)絡(luò)對大目標(biāo)的識別能力。從圖6中第二行可以看出,加了PB的baseline對之前分割不太好的建筑和公交車基本都分割準(zhǔn)確。最后的實驗結(jié)果顯示,在使用兩種模塊的情況下,網(wǎng)絡(luò)的性能得到了2.5個百分點(diǎn)的提升,從而使圖像實時的分割精度得到了進(jìn)一步的提高。
4 結(jié)束語
本文針對目前的實時語義分割算法存在的缺陷,提出了一種基于多分支網(wǎng)絡(luò)的實時語義分割網(wǎng)絡(luò)(MBNet)。首先,通過金字塔分支來獲取不同尺度的語義邊緣區(qū)域特性,從而提高了對復(fù)雜的語義邊界進(jìn)行建模的能力,加強(qiáng)對大目標(biāo)的識別能力。其次,引入新的融合模塊,為各層次的特征映射提供指導(dǎo)信息,對來自細(xì)節(jié)分支和語義分支的不同級別特征圖進(jìn)行了高效的融合,提高對小目標(biāo)細(xì)節(jié)信息的恢復(fù)能力。最后,在Cityscapes上的結(jié)果顯示出,本文設(shè)計的網(wǎng)絡(luò)在速度略微下降的情況下,極大地提高了道路場景實時語義分割的準(zhǔn)確率,即使與參數(shù)量更大、輸入圖像更大的網(wǎng)絡(luò)相比,準(zhǔn)確率依然有顯著提升。在語義分割任務(wù)上,高精度的網(wǎng)絡(luò)模型并不缺乏,但如何能夠在保持原有精度的情況下進(jìn)一步提高速度是未來研究的重點(diǎn)。
參考文獻(xiàn):
[1]袁浩賓,趙濤,鐘羽中.融合深層差異特征的RGB-T巢式語義分割網(wǎng)絡(luò)[J].計算機(jī)應(yīng)用研究,2022,39(9):2850-2853,2860.(Yuan Haobin,Zhao Tao,Zhong Yuzhong.Nested semantic segmentation network fusing deep difference features[J].Application Research of Computers,2022,39(9):2850-2853,2860.)
[2]宋鑫,張榮芬,劉宇紅.集成RGB-D語義分割網(wǎng)絡(luò)的室內(nèi)語義地圖構(gòu)建[J].計算機(jī)應(yīng)用研究,2022,39(11):3481-3486.(Song Xin,Zhang Rongfen,Liu Yuhong.Indoor semantic map construction integrated with RGB-D semantic segmentation network[J].Application Research of Computers,2022,39(11):3481-3486.)
[3]劉騰,劉宏哲,李學(xué)偉,等.基于無錨框分割網(wǎng)絡(luò)改進(jìn)的實例分割方法[J].計算機(jī)工程,2022,48(9):239-247,253.(Liu Teng,Liu Hongzhe,Li Xuewei,et al.Improved instance segmentation method based on anchor-free segmentation network[J].Computer Enginee-ring,2022,48(9):239-247,253.)
[4]Badrinarayanan V,Kendall A,Cipolla R.SegNet:a deep convolutional encoder-decoder architecture for image segmentation[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2017,39(12):2481-2495.
[5]Liu Jianbo,He Junjun,Zhang Jiawei,et al.EfficientFCN:holistically-guided decoding for semantic segmentation[C]//Proc of European Conference on Computer Vision.Cham:Springer,2020:1-17.
[6]Chen L C,Papandreou G,Kokkinos I,et al.DeepLab:semantic image segmentation with deep convolutional nets,atrous convolution,and fully connected CRFs[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2018,40(4):834-848.
[7]Takahashi N,Mitsufuji Y.Densely connected multi-dilated convolutio-nal networks for dense prediction tasks[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.2021:993-1002.
[8]Yu Changqian,Wang Jingbo,Peng Chao,et al.BiSeNet:bilateral segmentation network for real-time semantic segmentation[C]//Proc of European Conference on Computer Vision.Berlin:Springer, 2018:334-349.
[9]Yu Changqian,Wang Jingbo,Peng Chao,et al.BiSeNet v2:bilateral network with guided aggregation for real-time semantic segmentation[J].International Journal of Computer Vision,2021,129(11):3051-3068.
[10]Wang Fang,Luo Xiaoyan,Wang Qixiong,et al.Aerial-BiSeNet:a real-time semantic segmentation network for high resolution aerial imagery[J].Chinese Journal of Aeronautics,2021,34(9):47-59.
[11]Romera E,Alvarez J M,Bergasa L M,et al.ERFNet:efficient residual factorized convnet for real-time semantic segmentation[J].IEEE Trans on Intelligent Transportation Systems,2017,19(1):263-272.
[12]Zhao Hengshuang,Qi Xiaojuan,Shen Xiaoyong,et al.ICNet for real-time semantic segmentation on high-resolution images[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:418-434.
[13]Mehta S,Rastegari M,Caspi A,et al.ESPNet:efficient spatial pyramid of dilated convolutions for semantic segmentation[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:561-580.
[14]Cordts M,Omran M,Ramos S,et al.The cityscapes dataset for semantic urban scene understanding[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:3213-3223.
[15]Fan Mingyuan,Lai Shenqi,Huang Junshi,et al.Rethinking BiSeNet for real-time semantic segmentation[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:9711-9720.
[16]Orsic M,Kreso I,Bevandic P,et al.In defense of pre-trained ImageNet architectures for real-time semantic segmentation of road-driving images[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:12599-12608.
[17]Hu Ping,Caba F,Wang O,et al.Temporally distributed networks for fast video semantic segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:8815-8824.
[18]Nirkin Y,Wolf L,Hassner T.HyperSeg:patch-wise hypernetwork for real-time semantic segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:4060-4069.
[19]Kumaar S,Lyu Y,Nex F,et al.CABiNet:efficient context aggregation network for low-latency semantic segmentation[C]//Proc of IEEE International Conference on Robotics and Automation.Piscataway,NJ:IEEE Press,2021:13517-13524.