吳佳麗,畢春躍,王 劍,趙 涵
(浙江萬(wàn)里學(xué)院 大數(shù)據(jù)與軟件工程學(xué)院,浙江 寧波 315000)
近年來(lái),隨著社會(huì)生活水平的提高,汽車(chē)的數(shù)量呈現(xiàn)不斷增長(zhǎng)的趨勢(shì),極大地方便了人們的出行,但是也間接導(dǎo)致了大量交通事故的發(fā)生。為了保障車(chē)輛駕駛?cè)藛T的安全和減少交通事故的發(fā)生,許多研究人員對(duì)自動(dòng)駕駛技術(shù)展開(kāi)了研究。自動(dòng)駕駛技術(shù)主要包括三個(gè)部分:環(huán)境感知、決策、控制,其中環(huán)境感知的結(jié)果直接影響到后續(xù)模塊,所以環(huán)境感知是整個(gè)自動(dòng)駕駛技術(shù)的核心模塊[1]。自動(dòng)駕駛的環(huán)境感知一般在不斷變化的道路場(chǎng)景下進(jìn)行,為了保障自動(dòng)駕駛的安全,要求盡可能地獲取精準(zhǔn)的環(huán)境信息。圖像語(yǔ)義分割通過(guò)對(duì)道路場(chǎng)景的分割獲取車(chē)輛前方道路、車(chē)輛等信息,是提高自動(dòng)駕駛安全性的重要技術(shù)手段[2-3]。
傳統(tǒng)的圖像語(yǔ)義分割過(guò)程繁瑣,很難適應(yīng)多目標(biāo)的分割任務(wù)[4-7];隨著深度技術(shù)的發(fā)展,基于深度學(xué)習(xí)的圖像語(yǔ)義分割開(kāi)始出現(xiàn),F(xiàn)CN使用端到端的圖像分割[8],卷積神經(jīng)網(wǎng)絡(luò)在圖像分割任務(wù)中的優(yōu)勢(shì)開(kāi)始顯現(xiàn);SegNet池化層能保留記錄信息空間位置[9],進(jìn)一步提高分割的精度;U-Net在網(wǎng)絡(luò)中使用跳躍連接優(yōu)化了圖像上采樣的信息補(bǔ)充[10]。隨后,一些基于卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn)圖像語(yǔ)義分割方法不斷涌現(xiàn)[11-14]。DeepLab是由谷歌提出的較成熟的圖像語(yǔ)義分割系列[15-18],DeepLab V1通過(guò)結(jié)合空洞卷積增加網(wǎng)絡(luò)的感受野[15],但分割目標(biāo)邊界模糊;DeepLab V2引入了空洞卷積金字塔模塊(Atrous Spatial Pyramid Pooling, ASPP)實(shí)現(xiàn)了多尺度的特征提取[16];DeepLab V3提出了串行卷積和并行兩種卷積的網(wǎng)絡(luò)結(jié)構(gòu)[17];DeepLab V3+采用了編碼-解碼的網(wǎng)絡(luò)結(jié)構(gòu)[18],其語(yǔ)義分割效果更優(yōu)于DeepLab V3。但是直接將DeepLab V3+用于道路場(chǎng)景識(shí)別仍存在因細(xì)節(jié)信息丟失而導(dǎo)致分割目標(biāo)區(qū)域模糊的問(wèn)題。
本文以DeepLab V3+為基本結(jié)構(gòu)網(wǎng)絡(luò),通過(guò)在編碼器中進(jìn)一步優(yōu)化注意力機(jī)制,加強(qiáng)底層特征圖與高層特征圖的融合,彌補(bǔ)解碼器模塊大幅上采樣帶來(lái)的細(xì)節(jié)信息缺失,增強(qiáng)網(wǎng)絡(luò)對(duì)目標(biāo)區(qū)域邊緣的提取能力,實(shí)現(xiàn)網(wǎng)絡(luò)對(duì)道路場(chǎng)景識(shí)別的精細(xì)化分割。
本文基于DeepLab V3+構(gòu)建了面向道路場(chǎng)景識(shí)別的改進(jìn)網(wǎng)絡(luò),改進(jìn)網(wǎng)絡(luò)由編碼器模塊和解碼器模塊兩部分組成,網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)
改進(jìn)網(wǎng)絡(luò)編碼器模塊的主體為Xception骨干特征提取網(wǎng)絡(luò)和ASPP兩部分。Xception網(wǎng)絡(luò)是Inception和深度可分離卷積融合后的演化網(wǎng)絡(luò),它先對(duì)輸入圖像做特征提取工作,特征提取包括四個(gè)步長(zhǎng)為2的卷積模塊和一個(gè)步長(zhǎng)為1的模塊,改進(jìn)網(wǎng)絡(luò)保留對(duì)Xception的前兩個(gè)卷積Conv1、Conv2提取后的特征圖,并作為解碼器端的底層特征圖;隨后將Xception的輸出作為ASPP模塊的輸入,ASPP模塊并行了一個(gè)1×1的卷積、三個(gè)空洞速率分別為6、12、18的空洞卷積和一個(gè)圖像池化模塊,圖像經(jīng)過(guò)并行特征提取后相加融合,使用1×1卷積減少通道數(shù)后輸出。
改進(jìn)網(wǎng)絡(luò)解碼器模塊的作用是將特征圖逐步恢復(fù)成原輸入圖像大小,將編碼器的輸出經(jīng)過(guò)四倍上采樣操作與Conv2輸出的底層特征圖融合,隨后經(jīng)過(guò)兩倍上采樣后再與Conv1輸出的底層特征圖融合,經(jīng)過(guò)3×3卷積后使用兩倍上采樣恢復(fù)到網(wǎng)絡(luò)輸入圖尺寸,得到最后的圖像語(yǔ)義分割圖。
實(shí)驗(yàn)使用的數(shù)據(jù)是Cityscapes道路場(chǎng)景數(shù)據(jù)集,數(shù)據(jù)集一共設(shè)定了八個(gè)大類(lèi)別標(biāo)簽:天空、車(chē)輛、行人、馬路面、自然、建筑、物體和其他。Cityscapes數(shù)據(jù)集是道路場(chǎng)景中較為權(quán)威的數(shù)據(jù),標(biāo)注圖像的范圍廣泛,有利于研究算法網(wǎng)絡(luò)的泛化能力。
實(shí)驗(yàn)采用TensorFlow1.14深度學(xué)習(xí)框架和Python語(yǔ)言作為開(kāi)發(fā)環(huán)境,處理器為E5-2683,顯卡為NVIDIA Tesla P-100,RAM為128 GB,初始學(xué)習(xí)率設(shè)置為0.000 5,batch size為32,訓(xùn)練步數(shù)為10 000次。
將Cityscapes數(shù)據(jù)集輸入原網(wǎng)絡(luò)和改進(jìn)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,訓(xùn)練完成后得到模型,將測(cè)試集圖片輸入訓(xùn)練好的模型得到道路場(chǎng)景語(yǔ)義分割圖片。為了驗(yàn)證改進(jìn)網(wǎng)絡(luò)的有效性,實(shí)驗(yàn)評(píng)價(jià)指標(biāo)采用平均交并比(Mean Intersection Over Union,MIOU),計(jì)算公式如下:
表1 實(shí)驗(yàn)結(jié)果評(píng)價(jià)數(shù)據(jù)
實(shí)驗(yàn)結(jié)果對(duì)比如圖2所示。由圖可知,在道路場(chǎng)景提取時(shí)原網(wǎng)絡(luò)的目標(biāo)區(qū)域邊緣粗糙;而在加強(qiáng)了底層特征和高層特征融合之后,使用改進(jìn)算法改善了目標(biāo)區(qū)域的提取邊緣粗糙的問(wèn)題,網(wǎng)絡(luò)的道路場(chǎng)景語(yǔ)義分割性能得到了進(jìn)一步提升。
圖2 實(shí)驗(yàn)結(jié)果對(duì)比
考慮到DeepLab網(wǎng)絡(luò)的解碼器模塊使用了大幅上采樣,造成了特征圖的細(xì)節(jié)缺失,本文提出了一種加強(qiáng)底層特征圖和高層特征融合的改進(jìn)網(wǎng)絡(luò),使得網(wǎng)絡(luò)可以保留圖像的更多細(xì)節(jié)特征信息,從而改善了道路場(chǎng)景語(yǔ)義分割的邊緣粗糙問(wèn)題,進(jìn)一步提高了網(wǎng)絡(luò)的分割性能。