張 娣,陸建峰
(南京理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,南京 210094)
圖像語(yǔ)義分割[1]是計(jì)算機(jī)視覺(jué)領(lǐng)域的熱點(diǎn)問(wèn)題之一,其任務(wù)是為圖像中每個(gè)像素分配類(lèi)別標(biāo)簽。語(yǔ)義分割技術(shù)對(duì)機(jī)器人和無(wú)人駕駛系統(tǒng)[2]的場(chǎng)景理解至關(guān)重要,如分割出道路與障礙物的位置等,為其安全行駛提供指導(dǎo)。
圖形處理器(Graphics Processing Unit,GPU)具有強(qiáng)大的并行計(jì)算能力,在大規(guī)模像素級(jí)標(biāo)注數(shù)據(jù)集出現(xiàn)后,基于深度學(xué)習(xí)的圖像語(yǔ)義分割技術(shù)[1]得到進(jìn)一步發(fā)展。2014年SHELHAMER等人[3]提出的全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,FCN)首次將深度學(xué)習(xí)應(yīng)用于語(yǔ)義分割。FCN開(kāi)創(chuàng)性地將目標(biāo)分類(lèi)網(wǎng)絡(luò)中的全連接層替換為卷積層,并引入反卷積概念,實(shí)現(xiàn)了對(duì)任意尺寸圖像的像素級(jí)語(yǔ)義分割。與傳統(tǒng)非深度學(xué)習(xí)方法相比,FCN的分割準(zhǔn)確率更高且運(yùn)行時(shí)間更短。但是從本質(zhì)上來(lái)看,FCN通過(guò)池化層逐漸縮小圖像尺寸、擴(kuò)大感受野,并利用卷積層提取不同層次的特征,然后采用反卷積將縮小后的特征圖恢復(fù)至原始尺寸,圖像在由大變小再變大的過(guò)程中,會(huì)丟失很多細(xì)節(jié)信息。因此,研究人員提出多種方法來(lái)提升語(yǔ)義分割對(duì)圖像細(xì)節(jié)區(qū)域的處理能力。
文獻(xiàn)[4]提出空洞卷積在不縮減特征圖大小的情況下擴(kuò)大感受野。部分研究者試圖將不同尺度的特征進(jìn)行融合。文獻(xiàn)[5]設(shè)計(jì)了一種適合醫(yī)學(xué)圖像的U形對(duì)稱(chēng)網(wǎng)絡(luò)(U-Net),采用跳躍連接的方法在通道維度上將不同特征圖進(jìn)行串聯(lián)。文獻(xiàn)[6]提出空間金字塔結(jié)構(gòu),通過(guò)聚合多尺度上下文特征獲取全局信息。文獻(xiàn)[7-9]將空洞卷積與空間金字塔相結(jié)合提出多孔金字塔池化,同時(shí)采用多個(gè)不同采樣率的并行空洞卷積獲取多尺度信息。文獻(xiàn)[10]指出各尺度特征關(guān)注的信息層次不同,并采用多種方法加強(qiáng)高低層次特征之間的融合。由于透視成像過(guò)程丟失了深度信息[11],且單目圖像缺乏足夠的三維結(jié)構(gòu)信息,因此大部分單目語(yǔ)義分割網(wǎng)絡(luò)對(duì)三維結(jié)構(gòu)特征顯著的區(qū)域處理效果較差。
在RGB-D相機(jī)誕生后,研究者們利用額外的深度信息提升語(yǔ)義分割效果。早期的方法[12]是簡(jiǎn)單地將深度信息串聯(lián)到RGB圖像上,形成1個(gè)四通道數(shù)據(jù)并將其輸入到神經(jīng)網(wǎng)絡(luò)中。文獻(xiàn)[13]使用2個(gè)編碼器分支分別提取RGB特征和深度特征,然后在特定節(jié)點(diǎn)將深度特征嵌入到RGB分支中,改變了原有特征提取網(wǎng)絡(luò)的結(jié)構(gòu)。此外,由于RGB-D相機(jī)測(cè)量范圍太小,易受日光干擾,因此其僅適用于室內(nèi)環(huán)境。為在更廣泛的環(huán)境下利用深度信息,研究人員試圖直接從成對(duì)的雙目圖像中提取深度信息。文獻(xiàn)[14]提出的3SP-Net利用已有視差估計(jì)網(wǎng)絡(luò)預(yù)測(cè)出深度信息,再將其與不同尺度的RGB特征融合。由于從雙目圖像得到深度信息計(jì)算量很大,這使整個(gè)網(wǎng)絡(luò)不僅龐雜而且無(wú)法端到端地訓(xùn)練網(wǎng)絡(luò)。文獻(xiàn)[15]對(duì)已有的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行微調(diào),利用L1距離[16]匹配其左、右特征圖之間的對(duì)應(yīng)點(diǎn),從而間接挖掘深度特征。該方法具有一定啟發(fā)性,但是由于其在深度信息和二維圖像信息融合上大量使用串聯(lián)操作,因此結(jié)構(gòu)不太合理且特征融合效率較低。
本文受文獻(xiàn)[15]啟發(fā),利用已有的單目孿生網(wǎng)絡(luò)提取雙目圖像二維信息,采用雙目圖像特征點(diǎn)在不同視差等級(jí)下的相似度間接表征深度信息,在不改變網(wǎng)絡(luò)結(jié)構(gòu)的前提下,通過(guò)少量計(jì)算提取雙目圖像的深度信息,以實(shí)現(xiàn)對(duì)環(huán)境三維特征的準(zhǔn)確描述。
本文方法的網(wǎng)絡(luò)結(jié)構(gòu)包括編碼器和解碼器,如圖1所示。其中:編碼器的基礎(chǔ)網(wǎng)絡(luò)通過(guò)堆疊卷積層(Conv)和殘差層(Res)構(gòu)造2個(gè)完全相同的ResNet50[17],以同步提取其左、右輸入圖像的二維信息。色彩深度融合模塊(Color Depth Fusion Module,CDFM)用來(lái)提取不同尺度的深度特征,并將其與二維圖像特征進(jìn)行融合。解碼器最頂層的融合特征應(yīng)用注意力機(jī)制(Attention)[18-19]進(jìn)行特征篩選以專(zhuān)注于更有用的信息,跨級(jí)特征注意力模塊(Cross-level Feature Attention Module,CFAM)在高層語(yǔ)義信息的指導(dǎo)下,可獲取更準(zhǔn)確的低層邊緣信息。將反卷積(Deconv)后的特征圖與CFAM跨級(jí)融合后的特征圖元素相加,并通過(guò)1×1卷積調(diào)整通道數(shù)可得到最終的分割圖。
圖1 網(wǎng)絡(luò)整體框架Fig.1 Overall network framework
為從二維圖像特征中恢復(fù)深度特征,本文引入立體視覺(jué)的塊匹配概念[20]來(lái)計(jì)算不同視差等級(jí)下對(duì)應(yīng)點(diǎn)之間的相似度,并使用該間接相關(guān)的相似度表示深度特征。受ParallelNet[15]啟發(fā),本文設(shè)計(jì)立體相似塊(Stereo Similarity Block,SSB)提取更準(zhǔn)確的深度信息。
具體地,令Fl、Fr分別為雙目視角下獲得的左、右特征圖,其維度均為h×w×c,其中,h為高度,w為寬度,c為通道數(shù)。以Fl為例,該特征圖可表示為:
(1)
l(x,y)=[l(x,y)1,l(x,y)2,…,l(x,y)i,…,
l(x,y)c]1×c
(2)
其中,l(x,y)為雙目左特征圖在(x,y)位置處的特征向量,其維度為1×1×c,d為視差偏移值。Fr的表達(dá)式與Fl類(lèi)似,其中,r(x,y)為雙目右特征圖在(x,y)位置處的特征向量,其維度為1×1×c。
SSB的計(jì)算過(guò)程具體如下:
1)水平右移
(3)
2)相似度計(jì)算
(4)
距離L2越小表明特征之間的差異性越小,特征相關(guān)性越高,所有特征對(duì)之間的相似性構(gòu)成相似度圖。相較于ParallelNet[15]的距離L1,距離L2能更客觀準(zhǔn)確地描述2個(gè)特征向量之間的相似度。
3)串聯(lián)
將dm個(gè)相似度圖串聯(lián)可得到最終的深度特征。與ParallelNet[15]中設(shè)置固定dm值不同的是,本文實(shí)驗(yàn)為了保證網(wǎng)絡(luò)能夠在給定的搜索范圍內(nèi)正確地找到匹配點(diǎn),將dmax設(shè)置足夠大,使其等于當(dāng)前特征圖的寬度。
值得注意的是,SSB模塊提取的是不同視差等級(jí)下左、右特征圖之間的相似度,而深度信息實(shí)際上只與具有最高相似度的視差值有關(guān)。如果在實(shí)驗(yàn)中利用argmin操作[16]手動(dòng)選擇可能性最大的視差值(即差異性最小時(shí)對(duì)應(yīng)的視差值),實(shí)驗(yàn)結(jié)果(見(jiàn)2.2.2節(jié))顯示該操作無(wú)效果,推測(cè)這是因?yàn)閍rgmin操作壓縮過(guò)多維度,導(dǎo)致較多有用信息丟失。
色彩深度融合模塊結(jié)構(gòu)如圖2所示。輸入1對(duì)左、右特征圖,先通過(guò)SSB模塊獲取深度特征,再對(duì)深度特征執(zhí)行1×1卷積,使其通道數(shù)與二維圖像特征通道數(shù)相等,然后分別對(duì)左特征圖和深度特征圖執(zhí)行卷積、批量歸一化(Batch Norm)和ReLU非線性化操作,然后將元素D與其相加以獲得融合的RGB-D特征。
圖2 色彩深度融合模塊結(jié)構(gòu)Fig.2 Color depth fusion module structure
語(yǔ)義分割網(wǎng)絡(luò)通常由編碼器和解碼器組成。編碼器直接使用ResNet[17]、VGGNet[21]等已有的卷積神經(jīng)網(wǎng)絡(luò)來(lái)獲取分辨率逐漸降低、語(yǔ)義性逐漸增強(qiáng)的不同級(jí)別特征,解碼器利用這些特征恢復(fù)不同類(lèi)別像素的位置,從而預(yù)測(cè)出圖像分割結(jié)果。
圖像的高層特征和低層特征本質(zhì)上是互補(bǔ)的。其中:高層特征用來(lái)指示圖像中的語(yǔ)義信息,如道路、行人、汽車(chē)等類(lèi)別信息;低層特征用來(lái)表征圖像中的邊緣、紋理、位置等信息。基于此,本文提出跨級(jí)特征注意力模塊,以在高層語(yǔ)義信息指導(dǎo)下更準(zhǔn)確地恢復(fù)低層的類(lèi)別邊界信息。
跨級(jí)特征注意力模塊結(jié)構(gòu)如圖3所示。先對(duì)高層特征圖執(zhí)行窗口大小為(H2,W2)的全局池化(Global Pooling)操作以獲得全局語(yǔ)義信息,再對(duì)全局語(yǔ)義特征執(zhí)行1×1卷積、批量歸一化和ReLU非線性化操作,使其通道數(shù)與低層特征圖的通道數(shù)相等。同樣對(duì)低層特征執(zhí)行3×3卷積、批量歸一化和ReLU非線性化操作,以獲取更具表達(dá)力的低層特征。最后利用壓縮后的全局語(yǔ)義信息指導(dǎo)低層特征在通道維度上的加權(quán)選擇。該模塊能夠以高層特征為引導(dǎo),選擇性地保留低層特征中的有用信息,有助于融合跨級(jí)特征及提高語(yǔ)義邊界定位準(zhǔn)確率。
圖3 跨級(jí)特征注意力模塊結(jié)構(gòu)Fig.3 Cross-level feature attention module structure
本文實(shí)驗(yàn)所用系統(tǒng)環(huán)境為ubuntu 16.04、python 3.6.8和tensorflow 1.5.0[22],顯卡為NVIDIA TITAN Xp 12 GB,CPU為Intel?E5-2620 2.10 GHz。使用Cityscapes數(shù)據(jù)集[23],該數(shù)據(jù)集為目前少有的提供雙目圖像及語(yǔ)義標(biāo)注的大型數(shù)據(jù)集。Cityscapes數(shù)據(jù)集包含5 000 張精確標(biāo)注的圖像和20 000 張粗略標(biāo)注的圖像,這些圖像是在不同季節(jié)和不同天氣下從50個(gè)城市采集的街道場(chǎng)景。由于只有精確標(biāo)注的圖像提供了雙目數(shù)據(jù),因此本文使用5 000張精確標(biāo)注的圖像,并將這些圖像分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,數(shù)量分別為2 975 張、500 張和1 525 張。將平均交并比(mean Intersection over Union,mIoU)和像素精度(Pixel Accuracy,PA)作為語(yǔ)義分割的評(píng)價(jià)指標(biāo),計(jì)算公式如下:
(5)
(6)
其中,k為類(lèi)別數(shù)量,pij為本屬于類(lèi)i但被預(yù)測(cè)為類(lèi)j的像素?cái)?shù)量。
本文對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行增強(qiáng),通過(guò)圖像歸一化隨機(jī)做高斯濾波使圖像模糊。為保證正確學(xué)習(xí)雙目特征點(diǎn)之間的匹配規(guī)則,未應(yīng)用旋轉(zhuǎn)、縮放、翻折等操作改變像素位置。圖像隨機(jī)裁剪為512×512大小。編碼器部分的基礎(chǔ)網(wǎng)絡(luò)為ResNet50[17],并加載在ImageNet[24]上預(yù)訓(xùn)練的參數(shù)。為更好地適配ReLU激活函數(shù),網(wǎng)絡(luò)中其他參數(shù)使用He初始化[25]方法,并使用focal loss[26]來(lái)減輕由于待測(cè)目標(biāo)類(lèi)別不平衡引起的分類(lèi)困難問(wèn)題。實(shí)驗(yàn)優(yōu)化器為Adam,使用多項(xiàng)式衰減的學(xué)習(xí)率策略,其中,基礎(chǔ)學(xué)習(xí)率設(shè)置為0.000 1,冪數(shù)為0.9。受顯卡容量限制,batch size取3,最大迭代次數(shù)設(shè)為50 000。此外,采用早停策略以防止過(guò)擬合,每60次迭代后就在驗(yàn)證集上評(píng)估當(dāng)前訓(xùn)練網(wǎng)絡(luò)的性能,如果準(zhǔn)確率在連續(xù)100次的驗(yàn)證過(guò)程中沒(méi)有得到提高,則提前結(jié)束訓(xùn)練。
2.2.1 深度信息有效性評(píng)估
為評(píng)估深度信息的影響,在單目FCN[3]結(jié)構(gòu)的基礎(chǔ)上,將CDFM作用于原始特征圖,并對(duì)融合深度后的特征圖進(jìn)行反卷積等操作以獲取分割圖。該網(wǎng)絡(luò)稱(chēng)為FCN+Depth,其具體結(jié)構(gòu)和添加深度信息后不同方法的評(píng)價(jià)指標(biāo)結(jié)果分別如圖4與表1所示。由表1可知,添加深度信息后,語(yǔ)義分割性能得到明顯提升。與基準(zhǔn)模型FCN相比,采用本文提出的FCN+Depth方法得到的mIoU和PA分別提高2.06和2.60個(gè)百分點(diǎn)。
圖4 FCN+Depth網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 FCN+Depth network structure
2.2.2 特征篩選評(píng)估
由于SSB模塊提取的是不同視差等級(jí)下左、右特征圖之間的相似度,而深度信息只與具有最高相似度的視差值有關(guān),因此本文實(shí)驗(yàn)嘗試對(duì)CDFM模塊采用不同方法進(jìn)行RGB-D特征篩選并消除冗余信息,結(jié)果如表2所示。
表2 不同特征篩選方法的評(píng)價(jià)指標(biāo)結(jié)果Table 2 Evaluation index results of different feature screening methods %
具體操作過(guò)程如下:
1)采用FCN+Depth+argmin方法,直接對(duì)SSB提取的深度特征實(shí)施argmin操作以選取可能性最大的視差值。由表2可知,采用argmin操作后評(píng)價(jià)指標(biāo)均降低,這是因?yàn)樵诠庹铡⒁暯?、噪聲等干擾因素下,匹配點(diǎn)之間的相似度不一定最高,而argmin操作將深度信息壓縮至僅1個(gè)通道,所以會(huì)丟失很多有用信息。
2)采用FCN+Depth+SE+RGB方法,應(yīng)用SENet[18]提出的SE Attention機(jī)制學(xué)習(xí)自動(dòng)獲取每個(gè)特征通道的重要程度,以實(shí)現(xiàn)深度特征的重標(biāo)定,并將其與二維圖像特征進(jìn)行融合。由表2可知,該方法并未改善分割效果。
3)采用FCN+Depth+RGB+SE方法,先融合RGB-D特征,再對(duì)融合后的特征應(yīng)用SE Attention[18]。由表2可知,與未應(yīng)用特征篩選的FCN+Depth方法相比,采用該方法得到的mIoU和PA分別提高1.41和1.27個(gè)百分點(diǎn)。
4)采用FCN+Depth+RGB+CBAM方法,將SE Attention替換為在通道和空間2個(gè)維度上基于注意力機(jī)制的卷積塊注意力模塊(Convolutional Block Attention Module,CBAM)[19]。由表2可知,SE Attention較CBAM分割效果更好。
2.2.3 跨級(jí)特征模塊評(píng)估
為進(jìn)一步評(píng)估跨級(jí)特征注意力模塊CFAM的效果,先對(duì)最高層的RGB-D融合特征應(yīng)用SE Attention,再應(yīng)用CFAM實(shí)現(xiàn)高層語(yǔ)義信息對(duì)低層邊界信息的引導(dǎo),網(wǎng)絡(luò)框架如圖1所示。將應(yīng)用和未應(yīng)用CFAM的方法分別記為FCN+RGBD+SE+CFAM和FCN+RGBD+SE,得到的評(píng)價(jià)指標(biāo)結(jié)果如表3所示。可以看出,引入CFAM后,mIoU和PA分別提高0.80和0.58個(gè)百分點(diǎn),有效提高了分割效果。
表3 2種方法的評(píng)價(jià)指標(biāo)結(jié)果Table 3 Evaluation index results of the two methods %
本文選取單目語(yǔ)義分割網(wǎng)絡(luò)FCN[3]和雙目語(yǔ)義分割網(wǎng)絡(luò)ParallelNet[15]作為基準(zhǔn)方法,在ResNet50[17]的基礎(chǔ)上重新搭建FCN和ParallelNet,并在Cityscapes數(shù)據(jù)集[22]上將這2種基準(zhǔn)方法與本文所提方法進(jìn)行對(duì)比。
2.3.1 準(zhǔn)確性評(píng)估
語(yǔ)義分割模型性能優(yōu)劣主要通過(guò)其分割準(zhǔn)確性來(lái)體現(xiàn)。優(yōu)秀的分割模型對(duì)不同類(lèi)別圖像的辨識(shí)度更強(qiáng),對(duì)語(yǔ)義邊界刻畫(huà)更細(xì)致。表4為采用FCN方法、ParallelNet方法和本文方法得到的評(píng)價(jià)指標(biāo)結(jié)果??梢钥闯?由于本文方法引入了間接深度信息,采用的雙目語(yǔ)義分割網(wǎng)絡(luò)比單目語(yǔ)義分割網(wǎng)絡(luò)FCN效果更好。此外,由于本文方法考慮了特征篩選和跨級(jí)特征融合,與ParallelNet[15]相比,mIoU和PA分別提高3.67和3.32個(gè)百分點(diǎn)。表5為3種語(yǔ)義分割方法對(duì)不同類(lèi)別的像素精度對(duì)比,可以看出本文方法在交通標(biāo)志、柵欄、行人、自行車(chē)上的分割準(zhǔn)確率明顯更高。
表4 3種語(yǔ)義分割方法的評(píng)價(jià)指標(biāo)結(jié)果Table 4 Evaluation index results of three semantic segmentation methods %
表5 3種語(yǔ)義分割方法對(duì)不同類(lèi)別的PA對(duì)比Table 5 Comparison of PA of three semantic segmentation methods for different categories %
圖5是Cityscapes數(shù)據(jù)集原始圖與不同方法在該數(shù)據(jù)集上的分割效果圖,其中第1列、第2列分別為原始圖與真值圖,第3列~第5列分別為FCN方法、ParallelNet方法和本文方法在Cityscapes數(shù)據(jù)集上的分割效果圖??梢钥闯?FCN方法對(duì)于相似類(lèi)別圖像的分辨力較差,如第2行示例場(chǎng)景中,其將屬于交通標(biāo)志類(lèi)別的物體分類(lèi)為柵欄;和FCN方法相比,ParallelNet方法改善了深度特征與周?chē)顒e明顯的部分區(qū)域分割效果,如樹(shù)干、欄桿等邊緣分割得更精細(xì);本文方法由于采用深度信息和跨級(jí)特征融合的方式,對(duì)圖像細(xì)節(jié)及邊緣的處理更準(zhǔn)確細(xì)致。
圖5 不同方法得到的分割效果圖Fig.5 Segmentation effect images obtained by different methods
2.3.2 魯棒性評(píng)估
為了評(píng)估模型的魯棒性[27],本文對(duì)驗(yàn)證集中圖像加入不同程度干擾項(xiàng),觀測(cè)并評(píng)估模型的分割效果。加入不同干擾項(xiàng)后,FCN方法、ParallelNet方法和本文方法在驗(yàn)證集上分割結(jié)果的mIoU如表6所示。
表6 不同干擾項(xiàng)對(duì)mIoU的影響Table 6 Influence of different interference terms on mIoU %
首先對(duì)輸入圖像加入椒鹽噪聲[28],噪點(diǎn)數(shù)量占整幅圖像像素點(diǎn)的0.5%。加入椒鹽噪聲后,FCN方法、ParallelNet方法和本文方法的mIoU與未加干擾項(xiàng)相比,分別降低6.28、6.16和3.81個(gè)百分點(diǎn)。然后通過(guò)伽馬變換[29]調(diào)節(jié)輸入圖像亮度以模擬場(chǎng)景的照度變化:將驗(yàn)證集圖像調(diào)亮后,FCN方法、ParallelNet方法和本文方法的mIoU與未加干擾項(xiàng)相比,分別降低5.92、5.97和3.01個(gè)百分點(diǎn);將驗(yàn)證集圖像調(diào)暗后,FCN方法、ParallelNet方法和本文方法的mIoU與未加干擾項(xiàng)相比,分別降低5.35、5.27和2.31個(gè)百分點(diǎn)。由以上分析可知,對(duì)輸入圖像的數(shù)據(jù)加入干擾項(xiàng)后,模型性能在不同程度上均有所下降,但是本文方法較其他2種方法性能下降幅度更小,抗干擾能力更強(qiáng)。
%
圖6為加入不同干擾項(xiàng)后不同方法在驗(yàn)證集部分場(chǎng)景下的分割結(jié)果魯棒性對(duì)比情況。圖6(a)~圖6(c)分別表示加入椒鹽噪聲、圖像調(diào)亮和圖像調(diào)暗3種干擾情況,從上至下分別為加入干擾的輸入左圖像、手工標(biāo)注圖、FCN方法分割結(jié)果、ParallelNet方法分割結(jié)果以及本文方法分割結(jié)果。由圖6(a)可以看出,當(dāng)輸入圖像中存在大量隨機(jī)出現(xiàn)的噪點(diǎn)時(shí),由于FCN方法依賴(lài)局部區(qū)域內(nèi)的顏色特征,因此其分割結(jié)果中會(huì)出現(xiàn)塊狀誤判區(qū)域,而ParallelNet方法和本文方法由于考慮了雙目圖像的深度信息,因此均未出現(xiàn)明顯的誤判區(qū)域。在椒鹽噪聲干擾下,ParallelNet方法在不同語(yǔ)義類(lèi)別的邊界處呈現(xiàn)毛躁的鋸齒形態(tài),而本文方法在語(yǔ)義邊界區(qū)域分割更流暢。由圖6(b)可以看出,將輸入圖像調(diào)亮后,由于場(chǎng)景中欄桿與天空顏色接近,因此FCN方法未識(shí)別出欄桿,ParallelNet方法分割出部分低矮的欄桿,而本文方法分割出大部分欄桿。由圖6(c)可以看出,將輸入圖像調(diào)暗后,FCN方法將建筑物部分區(qū)域誤判為天空,本文方法的分割結(jié)果更準(zhǔn)確。3種方法對(duì)右下角光線較暗騎行者的分割結(jié)果均不太理想,對(duì)行人和騎行者2種類(lèi)別的分辨力有待加強(qiáng)。光線太暗也弱化了騎行者與自行車(chē)不同部位之間的辨識(shí)度,這也是可見(jiàn)光傳感器在夜間性能較差的原因。
圖6 加入不同干擾項(xiàng)后不同方法的魯棒性對(duì)比Fig.6 Robustness comparison of different methods after adding different interference terms
總體而言,由于FCN方法過(guò)分依賴(lài)圖像的顏色特征,在加入干擾項(xiàng)后,會(huì)出現(xiàn)部分塊狀的誤判區(qū)域。ParallelNet方法考慮了深度信息,對(duì)圖像顏色的依賴(lài)程度降低,但是對(duì)不同類(lèi)別物體的邊界識(shí)別不精細(xì)。本文方法由于不僅考慮了深度信息,還加強(qiáng)了對(duì)邊界的關(guān)注,因此分割準(zhǔn)確性更高且魯棒性更強(qiáng)。
本文提出一種結(jié)合雙目圖像深度信息與跨級(jí)特征的語(yǔ)義分割模型。設(shè)計(jì)使用色彩深度融合模塊計(jì)算雙目特征向量對(duì)的不同視差等級(jí)相似度以間接表征圖像深度信息,并與原始特征圖通過(guò)元素相加獲得融合的深度特征。同時(shí),通過(guò)跨級(jí)特征注意力模塊利用富含語(yǔ)義信息的高層特征對(duì)低層特征進(jìn)行加權(quán)選擇,以更準(zhǔn)確地恢復(fù)語(yǔ)義邊緣。實(shí)驗(yàn)結(jié)果表明,該模型能更細(xì)致準(zhǔn)確地分割圖像邊緣以及深度特征明顯的區(qū)域。下一步將構(gòu)建更多任務(wù)模型進(jìn)行深度估計(jì)和語(yǔ)義分割,為三維場(chǎng)景建模提供更全面的信息。