鄭斌軍,孔玲君
圖文信息技術(shù)
基于DeepLabv3+的圖像語義分割優(yōu)化方法
鄭斌軍1,孔玲君2
(1.上海理工大學(xué),上海 200093;2.上海出版印刷高等??茖W(xué)校,上海 200093)
為了實(shí)現(xiàn)良好的圖像語義分割精度,同時(shí)盡可能降低網(wǎng)絡(luò)的參數(shù)量,加快網(wǎng)絡(luò)訓(xùn)練速度,提出基于DeepLabv3+的圖像語義分割優(yōu)化方法。編碼器主干網(wǎng)絡(luò)增加注意力機(jī)制模塊,并采用更密集的特征池化模塊有效聚合多尺度特征,同時(shí)使用深度可分離卷積降低網(wǎng)絡(luò)計(jì)算復(fù)雜度?;贑amVid數(shù)據(jù)集的對(duì)比實(shí)驗(yàn)顯示,優(yōu)化后網(wǎng)絡(luò)的MIoU分?jǐn)?shù)達(dá)到了71.03%,在像素精度、平均像素精度等其他方面的評(píng)價(jià)指標(biāo)上較原網(wǎng)絡(luò)有小幅提升,并且網(wǎng)絡(luò)參數(shù)量降低了12%。在Cityscapes的測(cè)試數(shù)據(jù)集上的MIoU分?jǐn)?shù)為75.1%。實(shí)驗(yàn)結(jié)果表明,優(yōu)化后的網(wǎng)絡(luò)能夠有效提取圖像特征信息,提高語義分割精度,同時(shí)降低模型復(fù)雜度。文中網(wǎng)絡(luò)使用城市道路場(chǎng)景數(shù)據(jù)集進(jìn)行測(cè)試,可以為今后的無人駕駛技術(shù)的應(yīng)用提供參考,具有一定的實(shí)際意義。
語義分割;注意力機(jī)制;深度可分離卷積;編碼器-解碼器
圖像分割是計(jì)算機(jī)視覺領(lǐng)域的重要研究任務(wù)之一。傳統(tǒng)的圖像分割方法多數(shù)是基于圖像本身的特征如顏色、紋理、形狀等進(jìn)行區(qū)域的生成,通過合并分類區(qū)域來得到圖像分割結(jié)果[1],過程較為煩瑣,且分割精度也有很大的提升空間。深度學(xué)習(xí)技術(shù)由于其強(qiáng)大的計(jì)算能力與高效的非線性處理能力,現(xiàn)已被廣泛應(yīng)用在諸如圖像分割、目標(biāo)檢測(cè)、模式識(shí)別在內(nèi)的計(jì)算機(jī)視覺領(lǐng)域。語義分割是圖像分割的一個(gè)類別,其任務(wù)是為圖像中每個(gè)像素都匹配對(duì)應(yīng)的語義標(biāo)簽。語義分割在多個(gè)領(lǐng)域發(fā)揮著重要的作用例如:醫(yī)學(xué)圖像診斷[2],自動(dòng)駕駛[3],衛(wèi)星圖像處理[4],環(huán)境分析[5],語義分割結(jié)果的精度直接決定了后續(xù)的圖像分類及處理結(jié)果的好壞,因此具有十分重要的研究意義和應(yīng)用價(jià)值。
現(xiàn)今,大多數(shù)語義分割網(wǎng)絡(luò)基于完全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolution Network, FCN)[6],它第1次提出用卷積層來替代普通分類網(wǎng)絡(luò)中的全連接層,讓網(wǎng)絡(luò)擁有能夠處理任意而非固定圖像尺寸的能力,得到了像素級(jí)的預(yù)測(cè)結(jié)果。此后,多位研究人員提出了多種方法對(duì)該基本網(wǎng)絡(luò)進(jìn)行優(yōu)化。Ronneberger O等[7]提出了一種基于收縮路徑與擴(kuò)張路徑的網(wǎng)絡(luò)架構(gòu)U-net,收縮路徑是為了提取圖像的深層次特征語義信息,擴(kuò)張路徑則利用跳躍連接的方式,融合不同分辨率的特征圖來產(chǎn)生較好的分割效果。Yoo D等[8]利用空間金字塔結(jié)構(gòu)從不同大小的感受野獲取信息。Chen L C等[9—11]發(fā)布了一系列的DeepLab網(wǎng)絡(luò),先后使用諸如全連接條件隨機(jī)場(chǎng),空洞卷積,空洞空間金字塔池化在內(nèi)的方式,充分利用了特征圖的多尺度信息,提高了獲取高級(jí)語義信息的感受野大小。段立娟等[12]提出一種跨模態(tài)注意力機(jī)制來提取更精確的語義特征,提高分割精度。周勇[13]、趙寶齊[14]等也關(guān)注到注意力機(jī)制對(duì)于提高神經(jīng)網(wǎng)絡(luò)語義信息獲取的有效性。
基于上述研究,文中設(shè)計(jì)一個(gè)新的網(wǎng)絡(luò)架構(gòu)用于圖像語義分割。整體框架設(shè)計(jì)采用精度較高的DeepLabv3+的網(wǎng)絡(luò)結(jié)構(gòu),在主干網(wǎng)絡(luò)進(jìn)行特征提取的過程中增加基于通道和空間信息的注意力機(jī)制模塊[15],引入密集空洞空間金字塔池化(Dense Atrous Spatial Pyramid Pooling, DASPP)[16],該模塊能充分利用不同卷積率得到特征圖的語義信息,獲得更大的密集特征以及感受野,使得圖像分割更加精細(xì)和平滑。使用深度可分離卷積[17]替換原始的普通卷積,在減少計(jì)算量的同時(shí)加快了訓(xùn)練網(wǎng)絡(luò)的收斂速度。文中提出的網(wǎng)絡(luò)在城市街道場(chǎng)景數(shù)據(jù)CamVid上進(jìn)行驗(yàn)證,通過與其他幾個(gè)網(wǎng)絡(luò)的比較,以及對(duì)圖像分割類別精度的提升,驗(yàn)證該網(wǎng)絡(luò)的有效性。
DeepLabv3+網(wǎng)絡(luò)基于編碼解碼器架構(gòu),見圖1。編碼器部分,輸入圖像會(huì)經(jīng)過骨干網(wǎng)絡(luò)的下采樣而生成高級(jí)語義特征圖,此后特征圖像進(jìn)入ASPP模塊。ASPP模塊由3個(gè)空洞率分別為6,12,18的空洞卷積、1個(gè)1×1的卷積和1個(gè)全局平均池化層構(gòu)成。然后將獲得的5個(gè)特征圖在通道上直接進(jìn)行級(jí)聯(lián)完成多尺度的采樣過程,并經(jīng)過1個(gè)1×1的卷積實(shí)現(xiàn)通道數(shù)的降維。解碼器部分將骨干網(wǎng)絡(luò)中4倍下采樣獲得的低級(jí)語義特征圖進(jìn)行1×1卷積處理完成通道數(shù)的降維,之后與編碼器通過4倍上采樣得到的特征圖像進(jìn)行連接,完成圖像低級(jí)語義信息與高級(jí)語義信息之間的融合,增強(qiáng)網(wǎng)絡(luò)分割圖像的能力。再用3×3的卷積提取融合圖的特征,最后再次進(jìn)行4倍上采樣,輸出預(yù)測(cè)的分割圖像。
圖1 DeepLabv3+網(wǎng)絡(luò)架構(gòu)
文中提出的網(wǎng)絡(luò)見圖2。在骨干網(wǎng)絡(luò)的下采樣模塊之間添加注意力機(jī)制模塊,該模塊能夠充分利用特征圖的通道信息和空間信息,增強(qiáng)要關(guān)注的特征,抑制不必要的特征,有效地幫助特征信息在網(wǎng)絡(luò)中的流動(dòng),提高網(wǎng)絡(luò)捕獲信息的能力。其次,引入DASPP模塊來替代圖1中的ASPP模塊,DASPP以級(jí)聯(lián)的方式連接1組空洞卷積層,從而生成多尺度特征,覆蓋尺度范圍不僅更大而且更加密集,同時(shí)不會(huì)顯著增加網(wǎng)絡(luò)大小。最后,使用深度可分離卷積替換普通卷積,即原有的1×1卷積替換為1×1深度可分離卷積,3×3卷積換為3×3深度可分離卷積,并且對(duì)引入的DASPP模塊的空洞卷積也進(jìn)行替換。相較于標(biāo)準(zhǔn)卷積方式,深度可分離卷積可以明顯減少訓(xùn)練過程中的參數(shù)量,能夠在對(duì)分割精度影響較小的情況下,加快網(wǎng)絡(luò)擬合速度。
眾所周知,在人類的感知系統(tǒng)中,注意力有著十分重要的作用。由于視覺特性的影響,人眼不會(huì)同時(shí)處理整個(gè)場(chǎng)景中的信息而是先選擇性地聚焦顯著的部分,從而獲得更佳的視覺感受,受此啟發(fā),引入注意力機(jī)制模塊(見圖3)來提高網(wǎng)絡(luò)分割圖像的性能。
首先對(duì)輸入的特征圖分別進(jìn)行基于高度與寬度方向上的全局平均池化和全局最大池化,之后再分別通過多層感知器(Multi-Layer Perceptron, MLP)將獲得的輸出特征進(jìn)行基于元素的對(duì)位相加處理。接下來使用sigmoid函數(shù)激活,生成通道注意力特征(生成方式見式(1))。然后將輸入的特征圖與該通道注意力特征作點(diǎn)乘處理,從而獲得空間注意力模塊所需的輸入特征。
c()=Sigmoid(MLP(AvgPool()+MLP(MaxPool())))(1)
將通道注意力模塊輸出的特征圖用作空間注意力模塊的輸入特征圖,隨后分別進(jìn)行全局最大池化和全局平均池化處理,獲得上述的2個(gè)結(jié)果后根據(jù)通道信息做連接。之后使用一個(gè)7×7的卷積將連接的結(jié)果降成1個(gè)通道。再使用sigmoid函數(shù)激活得到空間注意力特征,生成方式見式(2),最后將輸入的特征圖與該空間注意力特征作點(diǎn)乘,獲得最終的空間注意力特征。
s()=Sigmoid(([AvgPool(); MaxPool()]))(2)
充分地利用多尺度信息可以有效提高對(duì)不同目標(biāo)的分割能力。如圖4所示,DASPP通過密集連接的方式將每個(gè)空洞卷積層的輸出結(jié)果傳遞到在此之后的所有未被訪問過的空洞卷積層,每個(gè)空洞卷積層只使用有合理膨脹率(≤24)的空洞濾波器。通過一系列的空洞卷積組合,處于結(jié)構(gòu)較后層的神經(jīng)元會(huì)得到越來越大的感受野,同時(shí)不會(huì)出現(xiàn)卷積核退化的問題。經(jīng)過前面的特征組合,每個(gè)提取特征的神經(jīng)元都能獲得多個(gè)尺度的信息,不同的神經(jīng)元編碼來自不同尺度范圍的多尺度信息,于是DASPP輸出的最終特征圖以非常密集的方式覆蓋了大規(guī)模范圍內(nèi)的語義信息。
可分離卷積的結(jié)構(gòu)見圖5,標(biāo)準(zhǔn)卷積濾波器見圖5a,圖5b和圖5c共同組成深度可分離卷積。在標(biāo)準(zhǔn)卷積層中,計(jì)算復(fù)雜度取決于大小為D×D的輸入/輸出特征映射(為簡(jiǎn)單起見,假設(shè)為平方特征映射),輸入通道數(shù),輸出通道數(shù),以及卷積核D的空間尺寸(常見卷積核尺寸為3×3和5×5),整體計(jì)算需要D2×D2××次乘法。在深度可分離卷積中,大小為D2×D2××的濾波計(jì)算被分成2部分。首先,每個(gè)通道進(jìn)行同一個(gè)濾波器的深度卷積,即所有個(gè)輸入通道的大小為D×D,這里所需要的卷積計(jì)算消耗為D2×D2×。
圖2 文中優(yōu)化的DeepLabv3+網(wǎng)絡(luò)架構(gòu)
圖3 注意力機(jī)制模塊
圖4 Dense-ASPP模塊
圖5 卷積濾波器
相比于標(biāo)準(zhǔn)卷積,深度卷積十分高效,但是深度卷積只是對(duì)輸入通道進(jìn)行了處理,并沒有利用通道信息來生成新的特征,因此,這里增加一個(gè)額外的層來獲得新的特征,該層使用1×1(點(diǎn)方向)卷積濾波器來獲得深度卷積的輸出并對(duì)其進(jìn)行組合,卷積計(jì)算消耗為D2××。深度可分離卷積由深度方向卷積和1×1(點(diǎn)方向)卷積組合而成。計(jì)算總的消耗為D2×2×+D2××。
當(dāng)網(wǎng)絡(luò)中卷積核尺寸增加或者網(wǎng)絡(luò)深度加深的時(shí)候,通過將標(biāo)準(zhǔn)卷積分解為深度方向和點(diǎn)方向的卷積,可以有效地減少計(jì)算量,減少計(jì)算量的方式見式(3)。
(3)
實(shí)驗(yàn)運(yùn)行環(huán)境為Win10專業(yè)版操作系統(tǒng),處理器為Intel Core i9-9900k,內(nèi)存32 GB,圖形處理卡為一張Nvidia GeForce GTX1080 Ti(11 GB),Cuda版本為10.2,數(shù)據(jù)處理使用Python3.6和Matlab 2020a。網(wǎng)絡(luò)訓(xùn)練過程中采用的優(yōu)化算法為帶動(dòng)量的隨機(jī)梯度下降法(Stochastic Gradient Descent Momentum,SGDM),學(xué)習(xí)率衰減策略采用分段常數(shù)衰減。動(dòng)量設(shè)置為0.9,學(xué)習(xí)率每10輪降低0.2,讓網(wǎng)絡(luò)以較高的初始學(xué)習(xí)率進(jìn)行快速地學(xué)習(xí),并且在網(wǎng)絡(luò)優(yōu)化迭代的后期階段逐步降低學(xué)習(xí)率,這會(huì)幫助網(wǎng)絡(luò)更快收斂,更容易接近最優(yōu)解。在每輪的迭代過程中都使用驗(yàn)證數(shù)據(jù)集對(duì)網(wǎng)絡(luò)進(jìn)行校正,在驗(yàn)證的準(zhǔn)確度收斂時(shí)提前結(jié)束網(wǎng)絡(luò)訓(xùn)練,這樣可以預(yù)防網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)集出現(xiàn)過擬合的現(xiàn)象。受圖形計(jì)算卡的內(nèi)存大小限制,設(shè)置大小為6的小批量來減少訓(xùn)練時(shí)的內(nèi)存使用量。
語義分割有3個(gè)業(yè)界常用的評(píng)價(jià)指標(biāo),分別為像素精度(Pixel Accuracy, PA)、平均像素精度(Mean Pixel Accuracy, MPA)、平均交并比(Mean Intersection over Union, MIoU)。假定語義分割結(jié)果有+1類(包括個(gè)目標(biāo)類和1個(gè)背景類,背景類不計(jì)入計(jì)算),表示真正(True Postives, TP)的像素?cái)?shù)量,表示假正(False Positives, FP)的像素?cái)?shù)量,表示假負(fù)(False Negatives, FN)的像素?cái)?shù)量。式中(4—6)中∈[1,…,]。
(4)
(5)
(6)
2.3.1 CamVid數(shù)據(jù)集測(cè)試
CamVid(Cambridge driving Labeled Video)是一個(gè)城市場(chǎng)景數(shù)據(jù)集,擁有以每秒30幀的速度以960×720像素捕獲的4個(gè)高清視頻序列,所有視頻的總時(shí)長(zhǎng)約22 min,40 K幀。并且挑選出了701張主要的城市道路場(chǎng)景圖片。數(shù)據(jù)是從駕駛汽車的角度拍攝獲取的,因?yàn)轳{駛場(chǎng)景更加符合日常交通生活的情況,同時(shí)也增加了觀察對(duì)象的數(shù)量和異質(zhì)性。每張帶注釋的圖片都由第2個(gè)人檢查并確認(rèn)其準(zhǔn)確性。在實(shí)驗(yàn)中,對(duì)CamVid數(shù)據(jù)集里的60%圖像用以訓(xùn)練網(wǎng)絡(luò),其余的圖像平均分為20%和20%用作驗(yàn)證集和測(cè)試集。由于數(shù)據(jù)集的樣本數(shù)量有限,因此使用隨機(jī)地左/右翻轉(zhuǎn)和隨機(jī)地/平移±20個(gè)像素來進(jìn)行數(shù)據(jù)增強(qiáng),從而向網(wǎng)絡(luò)發(fā)送更多的訓(xùn)練樣本,以此提高網(wǎng)絡(luò)的準(zhǔn)確度。
文中主要以DeepLabv3+網(wǎng)絡(luò)和經(jīng)典的輕量級(jí)網(wǎng)絡(luò)Mobilenetv2作為對(duì)比實(shí)驗(yàn)。同時(shí)加入3個(gè)有相關(guān)性的神經(jīng)網(wǎng)絡(luò)模型作為參照,結(jié)果見表1,可明顯看出文中方法在前3個(gè)評(píng)價(jià)指標(biāo)上都優(yōu)于參照網(wǎng)絡(luò),MIOU指標(biāo)在DeepLabv3+網(wǎng)絡(luò)的基線上提升了將近2個(gè)百分點(diǎn),PA和MPA指標(biāo)也有小幅的提高。這要得益于通道注意力機(jī)制模塊和空間注意力機(jī)制模塊在骨干網(wǎng)絡(luò)中的應(yīng)用,以及DASPP模塊的多尺度信息采樣,文中的網(wǎng)絡(luò)能夠在編碼器結(jié)構(gòu)中高效地提取輸入圖像的特征信息,進(jìn)而提高網(wǎng)絡(luò)分割圖像的精度。在網(wǎng)絡(luò)參數(shù)量的比較上,文中的網(wǎng)絡(luò)為22.4 M相較于DeepLabv3+網(wǎng)絡(luò)的25.6 M減少了12%,基于深度可分離卷積的Mobilenetv2網(wǎng)絡(luò)參數(shù)量?jī)H為3.6 M,在占用極小空間的基礎(chǔ)上實(shí)現(xiàn)了較好的分割效率,這體現(xiàn)出深度可分離卷積在降低網(wǎng)絡(luò)復(fù)雜度,減少計(jì)算的冗余量,加快網(wǎng)絡(luò)訓(xùn)練時(shí)間方面的有效性。綜合權(quán)衡網(wǎng)絡(luò)分割精度和網(wǎng)絡(luò)的參數(shù)量,相較于DeepLabv3+網(wǎng)絡(luò),文中提出的網(wǎng)絡(luò)能夠提高分割精度的同時(shí)降低網(wǎng)絡(luò)的參數(shù)大小。
語義分割的目的是把圖像中不同類別的目標(biāo)分割出來,因此除了上述的比較外,文中還對(duì)不同目標(biāo)類別的分割精度做了羅列(表2)可以看出這3種網(wǎng)絡(luò)的共同點(diǎn)在于對(duì)于天空、道路、建筑、行人等語義目標(biāo)的分割精度較高。主要的原因是這幾類目標(biāo)在圖像中所占像素的比例較高,因此能夠取得良好的分割效果,而像道路桿、標(biāo)志符號(hào)和圍墻這類目標(biāo),由于本身像素較少,且語義特征不明顯,因而分割的精度較低。文中的網(wǎng)絡(luò)相較于Mobilenetv2和DeepLabv3+網(wǎng)絡(luò),效果均有一定程度的提升。
Mobilenetv2,DeepLabv3+和文中網(wǎng)絡(luò)在CamVid數(shù)據(jù)集上部分圖片的分割可視化結(jié)果見圖6。
評(píng)價(jià)語義分割網(wǎng)絡(luò)的好壞直接取決于網(wǎng)絡(luò)得到的分割圖像與其對(duì)應(yīng)標(biāo)簽圖像的重合程度。在可視化的結(jié)果中,相較于Mobilenetv2和DeepLabv3+,文中的網(wǎng)絡(luò)對(duì)于大部分類具有更好的分割效果。在第1張圖中,3個(gè)網(wǎng)絡(luò)對(duì)于近視角的路燈都有較不錯(cuò)的分割能力,但是在遠(yuǎn)處與樹木混合的第2個(gè)路燈只有文中的網(wǎng)絡(luò)較好地捕獲到了這一信息并分割出來,而前兩者的網(wǎng)絡(luò)把這個(gè)路燈歸到了樹木的類別中。在第2和第4張圖中,前2個(gè)網(wǎng)絡(luò)對(duì)于行人這一類的分割效果不理想,行人的輪廓相較于標(biāo)簽圖像被擴(kuò)大了很多,也就是說網(wǎng)絡(luò)判定為行人的像素?cái)?shù)量大大多于標(biāo)簽標(biāo)記的像素?cái)?shù)量。與此同時(shí),文中的網(wǎng)絡(luò)對(duì)于行人類目標(biāo)的分割情況與標(biāo)簽圖像更加匹配,輪廓擴(kuò)張不明顯。還有車輛類目標(biāo)的分割效果對(duì)比中,文中網(wǎng)絡(luò)相較于前2個(gè),對(duì)于車輛外形輪廓的分割擁有更好的連續(xù)性和準(zhǔn)確性。
2.3.2 Cityscapes數(shù)據(jù)集測(cè)試
Cityscapes是高分辨率城市場(chǎng)景的數(shù)據(jù)集,包含2048像素×1024像素的街景圖像和對(duì)應(yīng)標(biāo)簽。其任務(wù)是在汽車攝像頭拍攝的視頻中分割物體。該大型數(shù)據(jù)具有來自不同城市街道場(chǎng)景中記錄獲得的多種立體視頻片段,除20 000張弱注釋幀以外,還包括5000幀高質(zhì)量像素級(jí)注釋。在實(shí)驗(yàn)中使用了精細(xì)注釋的數(shù)據(jù)集,其中有2975張訓(xùn)練圖像和500張測(cè)試圖像。
表1 CamVid數(shù)據(jù)集上不同評(píng)價(jià)指標(biāo)的結(jié)果
表2 CamVid數(shù)據(jù)集上11個(gè)主要類別的分割結(jié)果
圖6 CamVid數(shù)據(jù)集上的部分可視化分割結(jié)果
在Cityscapes數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果見表3??梢钥闯?,文中網(wǎng)絡(luò)性能在Miou這個(gè)主要評(píng)價(jià)指標(biāo)上依然優(yōu)于其他的幾個(gè)網(wǎng)絡(luò),對(duì)處理高分辨率圖像也取得了較好的分?jǐn)?shù),這也說明文中網(wǎng)絡(luò)具有比較強(qiáng)的泛化性。文中模型在測(cè)試集上實(shí)現(xiàn)了較好的準(zhǔn)確性,以及準(zhǔn)確性與參數(shù)量之間的權(quán)衡。
Cityscapes數(shù)據(jù)集上的部分可視化分割結(jié)果見圖7。4張分割結(jié)果圖都顯示在車頭部分出現(xiàn)了較明顯的錯(cuò)誤,這主要是由于標(biāo)簽圖像將其定義為無意義像素區(qū)域,但在實(shí)際分割結(jié)果輸出中依然會(huì)對(duì)該區(qū)域進(jìn)行分割,且車輛行進(jìn)過程中車前蓋會(huì)鏡面倒映出不同的街道場(chǎng)景,故產(chǎn)生了這個(gè)現(xiàn)象。此外,對(duì)于大目標(biāo)像素區(qū)域如天空、道路、車輛,文中網(wǎng)絡(luò)展現(xiàn)出了良好的分割效果。對(duì)于小目標(biāo)像素區(qū)域如交通標(biāo)志,分割效果就出現(xiàn)了參差。
表3 Cityscapes數(shù)據(jù)集上的結(jié)果
圖7 Cityscapes數(shù)據(jù)集上的部分可視化分割結(jié)果
綜上所述,文中優(yōu)化后的DeepLabv3+網(wǎng)絡(luò)擁有更加好的分割精度,對(duì)于不同目標(biāo)類別邊緣分割更加平滑,同時(shí)得益于卷積方式的優(yōu)化,文中網(wǎng)絡(luò)能夠在實(shí)現(xiàn)更好分割效果,并且降低了參數(shù)量。
文中提出了一種優(yōu)化DeepLabv3+網(wǎng)絡(luò)的圖像語義分割算法,通過加入通道注意力和空間注意力機(jī)制模塊,讓網(wǎng)絡(luò)學(xué)習(xí)特征圖的重要信息及其位置,有效提高了骨干網(wǎng)絡(luò)提取特征信息的能力;引入DASPP模塊,相較于原網(wǎng)絡(luò)模塊,能更加有效地利用特征圖中的多尺度語義信息,獲得更大的密集特征以及感受野;將原始卷積模塊替換為深度可分離卷積,有效地降低了網(wǎng)絡(luò)訓(xùn)練的運(yùn)算量,提高了網(wǎng)絡(luò)的訓(xùn)練速度。實(shí)驗(yàn)結(jié)果證明,在CamVid和Cityscapes數(shù)據(jù)集上文中網(wǎng)絡(luò)能夠一定程度上提升分割的精度,同時(shí)優(yōu)化了網(wǎng)絡(luò)的計(jì)算消耗,減少了網(wǎng)絡(luò)的體量。后續(xù)進(jìn)一步研究提升網(wǎng)絡(luò)對(duì)小目標(biāo)類別的分割精度,加強(qiáng)不同類別邊緣的分割精細(xì)程度。
[1] 陳鴻翔. 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像語義分割[D]. 杭州: 浙江大學(xué), 2016: 7-10.
CHEN Hong-xiang. Semantic Segmentation Based on Convolutional Neural Networks[D]. Hangzhou: Zhejiang University, 2016: 7-10.
[2] JHA D, RIEGLER M A, JOHANSEN D, et al. Doubleu-net: A Deep Convolutional Neural Network for Medical Image Segmentation[C]// 2020 IEEE 33rd International Symposium on Computer Based Medical Systems (CBMS), 2020: 558-564.
[3] SUN L, YANG K, HU X, et al. Real-Time Fusion Network For RGB-D Semantic Segmentation Incorporating Unexpected Obstacle Detection for Road-driving Images[J]. IEEE Robotics and Automation Letters, 2020, 5(4): 5558-5565.
[4] WURM M, Stark T, Zhu X X, et al. Semantic Segmentation of Slums in Satellite Images Using Transfer Learning on Fully Convolutional Neural Networks[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2019, 150: 59-69.
[5] KING A, Bhandarkar S M, Hopkinson B M. A Comparison of Deep Learning Methods for Semantic Segmentation of Coral Reef Survey Images[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2018: 1394-1402.
[6] LONG J, Shelhamer E, Darrell T. Fully Convolutional Networks for Semantic Segmentation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 3431-3440.
[7] RONNEBERGER O, Fischer P, Brox T. U-net: Convolutional Networks for Biomedical Image Segmentation[C]// International Conference on Medical Image Computing and Computer-Assisted Intervention, Springer, Cham, 2015: 234-241.
[8] Yoo D, Park S, Lee J Y, et al. Multi-Scale Pyramid Pooling for Deep Convolutional Representation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2015: 71-80.
[9] Chen L C, Papandreou G, Kokkinos I, et al. Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs[C]// Proceedings of the 3rd International Conference on Learning Representations, San Diego, CA, USA, 2014: 357-361.
[10] Chen L C, Papandreou G, Kokkinos I, et al. DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(4): 834-848.
[11] Chen L C, Zhu Y, Papandreou G, et al. Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation[C]// Proceedings of the European Conference on Computer Vision (ECCV), 2018: 801-818.
[12] 段立娟, 孫啟超, 喬元華, 等. 基于注意力感知和語義感知的RGB-D室內(nèi)圖像語義分割算法[J]. 計(jì)算機(jī)學(xué)報(bào), 2021, 44(2): 275-291.
DUAN Li-juan, SUN Qi-chao, QIAO Yuan-hua, et al. Attention-Aware and Semantic-Aware Network for RGB-D Indoor Semantic Segmentation[J]. Chinese Journal of Computers, 2021, 44(2): 275-291.
[13] 周勇, 陳思霖, 趙佳琦, 等. 基于弱語義注意力的遙感圖像可解釋目標(biāo)檢測(cè)[J]. 電子學(xué)報(bào), 2021, 49(4): 679-689.
ZHOU Yong, CHEN Si-lin, ZHAO Jia-qi, et al. Weakly Semantic Based Attention Network for Interpretable Object Detection in Remote Sensing Imagery[J]. Acta Electronica Sinica, 2021, 49(4): 679-689.
[14] 趙寶奇, 尉飛, 孫軍梅, 等. 結(jié)合密集連接塊和自注意力機(jī)制的腺體細(xì)胞分割方法[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2021, 33(7): 991-999.
ZHAO Bao-qi, YU Fei, SUN Jun-mei, et al. Glandular Cell Segmentation Method Combined with Dense Connective Blocks and Self-Attention Mechanism[J]. Journal of Computer-Aided Design and Computer Graphics, 2021, 33(7): 991-999.
[15] Woo S, Park J, Lee J Y, et al. CBAM: Convolutional Block Attention Module[C]// Proceedings of the European Conference on Computer Vision (ECCV), 2018: 3-19.
[16] Yang M, Yu K, Zhang C, et al. DenseASPP for Semantic Segmentation in Street Scenes[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 3684-3692.
[17] SANDLER M, HOWARD A, ZHU M, et al. Mobilenetv2: Inverted Residuals and Linear Bottlenecks[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 4510-4520.
[18] ZHAO H, QI X, SHEN X, et al. Icnet for Real-time Semantic Segmentation on High-resolution Images[C]// Proceedings of the European Conference on Computer Vision (ECCV), 2018: 405-420.
[19] YU C, WANG J, PENG C, et al. Bisenet: Bilateral Segmentation Network for Real-time Semantic Segmentation[C]// Proceedings of the European Conference on Computer Vision (ECCV), 2018: 325-341.
[20] LI H, XIONG P, FAN H, et al. Dfanet: Deep Feature Aggregation for Real-Time Semantic Segmentation[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019: 9522-9531.
Image Semantic Segmentation Based on Enhanced DeepLabv3+Network
ZHENG Bin-jun1, KONG Ling-jun2
(1.University of Shanghai for Science and Technology, Shanghai 200093, China; 2.Shanghai Publishing and Printing College, Shanghai 200093, China)
The work aims to propose an image semantic segmentation optimization method based on DeepLabv3+network, so as to achieve good image semantic segmentation accuracy, reduce the amount of network parameters as much as possible and speed up network training. The backbone network of encoder was added with attention module and more intensive feature pooling module was used to effectively aggregate multi-scale features. The depthwise separable convolution was applied to reduce the computational complexity of the network. According to the comparison test based on CamVid data set, MIoU score of the enhanced network reached 71.03%, and pixel accuracy and other evaluation indexes such as average pixel accuracy slightly improved compared with the original network. Furthermore, parameters of network were reduced by 12%. The Miou score on the test data set of cityscapes was 75.1%. According to the experimental results, the improved network can effectively extract the feature information of image, improve the semantic segmentation accuracy, and reduce the complexity of the model. The proposed network is tested by the urban street scenes, which can provide reference for the future application of driverless technology, and has certain practical significance.
semantic segmentation; attention module; depthwise separable convolution; encoder-decoder
TP391
A
1001-3563(2022)01-0187-08
10.19554/j.cnki.1001-3563.2022.01.024
2021-08-20
一流??聘叩嚷殬I(yè)教育專業(yè)建設(shè)項(xiàng)目(2020ylxm-1)
鄭斌軍(1997—),男,上海理工大學(xué)碩士生,主攻數(shù)字圖像處理、計(jì)算機(jī)視覺和深度學(xué)習(xí)。
孔玲君(1972—),女,博士,上海出版印刷高等專科學(xué)校教授、碩導(dǎo),主要研究方向?yàn)閳D文信息處理與色彩再現(xiàn),數(shù)字印刷及質(zhì)量評(píng)價(jià)等。