摘要:深度學(xué)習(xí)在圖像語義分割方面有著廣泛的應(yīng)用,能夠提高計(jì)算機(jī)對(duì)圖像的理解和識(shí)別能力,同時(shí)在自動(dòng)駕駛、醫(yī)學(xué)影像等領(lǐng)域具有重要作用。然而,其現(xiàn)有算法還存在一些缺陷,如預(yù)測結(jié)果不連續(xù)、精度不高等。因此,文章基于深度學(xué)習(xí)技術(shù)以DccpLab V3+框架為研究對(duì)象,探究其基本原理和核心架構(gòu).并基于Xccption提出一種改進(jìn)型DccpLab V3+框架,以解決預(yù)測結(jié)果不連續(xù)、下采樣導(dǎo)致特征圖信息丟失等問題,從而提高分割的精度。該研究使用Cityscapcs數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證.并將改進(jìn)的框架與初始的DccpLab V3+框架進(jìn)行了比較。實(shí)驗(yàn)結(jié)果表明,該方法在平均交并比方面表現(xiàn)更優(yōu),提高了2.82%的分割精度。
關(guān)鍵詞:DccpLab;Xccption;語義分割;Cityscapcs
中圖法分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A
1 概述
隨著海量圖像數(shù)據(jù)的不斷涌現(xiàn),計(jì)算機(jī)視覺成為當(dāng)前計(jì)算機(jī)專業(yè)研究的熱門方向。目前,計(jì)算機(jī)視覺研究的主要研究領(lǐng)域包括圖像分類[1] 、目標(biāo)檢測與識(shí)別[2] 以及語義分割[3] 等。其中,語義分割是指對(duì)原圖像中每個(gè)像素點(diǎn)所屬的類別概率進(jìn)行預(yù)測,并將不同類別的像素點(diǎn)用不同顏色進(jìn)行標(biāo)識(shí)。語義分割在自動(dòng)駕駛領(lǐng)域中可以實(shí)現(xiàn)對(duì)道路場景的自動(dòng)識(shí)別,在醫(yī)學(xué)影像中可以輔助醫(yī)生的決策和診斷,在農(nóng)機(jī)自動(dòng)化中能夠?qū)崿F(xiàn)農(nóng)業(yè)設(shè)備的路徑識(shí)別導(dǎo)航等。
2014 年,谷歌團(tuán)隊(duì)提出了DeepLab 系列模型,在此之前,深度卷積神經(jīng)網(wǎng)絡(luò)已被廣泛應(yīng)用于目標(biāo)檢測和圖像分類等研究領(lǐng)域。但是,深度卷積神經(jīng)網(wǎng)絡(luò)在圖像語義分割領(lǐng)域有著難以克服的缺陷。比如,卷積神經(jīng)網(wǎng)絡(luò)中的池化層在進(jìn)行下采樣時(shí)會(huì)導(dǎo)致圖像的分辨率降低、使圖像中的空間位置信息偏差較大等。
為解決這些問題,本文研究了基于DeepLab V3+框架的圖像語義分割算法并提出了改進(jìn)型框架。首先,本文探究了DeepLab V3+框架的基本原理和模型結(jié)構(gòu),然后,將Xception 作為DeepLab V3+框架的圖像特征提取網(wǎng)絡(luò),最后使用Cityscapes 街景數(shù)據(jù)集進(jìn)行了模型驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的DeepLab V3+框架比原算法在分割精度MIoU 方面提高了2.82%。
2 基于DeepLab 模型的圖像語義分割方法
2.1 DeepLabV3+模型結(jié)構(gòu)
DeepLab V3+模型是在DeepLab V3 模型的基礎(chǔ)上進(jìn)行優(yōu)化而來的,該模型結(jié)合了編碼?解碼型算法多方面的優(yōu)勢。DeepLab V3+模型中的編碼器和解碼器2 個(gè)模塊使它能夠更好地平衡精度和時(shí)間。
DeepLab V3+模型架構(gòu)如圖1 所示。
在編碼器中,圖像首先通過主干網(wǎng)絡(luò)進(jìn)行特征提取,提取的結(jié)果包括淺層特征和經(jīng)過整個(gè)骨干網(wǎng)絡(luò)訓(xùn)練后得出的特征圖。這些特征圖通過金字塔型的池化層提取特征,再由不同倍率的空洞卷積進(jìn)行融合。
這些操作使經(jīng)過處理得到的特征圖融合了深層次特征。在解碼過程中,將編碼過程中產(chǎn)生的淺層特征與深層次特征進(jìn)行融合,并進(jìn)行一次3×3 卷積。最后,模型進(jìn)行一次上采樣并得出模型結(jié)果,使輸出結(jié)果與原始圖像大小相同。DeepLab V3+模型的層次主要包括卷積層、池化層和激活函數(shù)。在基于深度學(xué)習(xí)的圖像語義分割方法中,卷積神經(jīng)網(wǎng)絡(luò)是最普遍的算法。
經(jīng)過卷積和池化操作,輸出特征圖用于圖像語義分割。為降低模型參數(shù)量和防止過擬合,通常在卷積層后添加池化層,以降低圖像特征的大小。激活函數(shù)是神經(jīng)網(wǎng)絡(luò)中的關(guān)鍵組成部分,DeepLab V3+模型采用的是ReLU 激活函數(shù),具有計(jì)算速度快、收斂速度快等優(yōu)點(diǎn),表達(dá)式為:ReLu =max(0,x) (1)
2.2基于改進(jìn)型DeepLab V3 +模型的圖像分割
研究表明,DeepLab V3+模型存在未充分利用不同層次特征信息等問題,會(huì)導(dǎo)致所分割的目標(biāo)邊界不清晰、細(xì)節(jié)不明顯,影響后續(xù)圖像解釋。針對(duì)這些問題,本文對(duì)該方法提出了進(jìn)一步的優(yōu)化。改進(jìn)型框架在利用傳統(tǒng)DeepLab V3+的編碼-解碼架構(gòu)的基礎(chǔ)上,將具有65 層卷積操作的Xception65 引入編碼器,并將其作為主干網(wǎng)絡(luò)來提取特征。這種網(wǎng)絡(luò)結(jié)構(gòu)能夠充分利用低層次特征中的空間位置信息,有助于還原分割后圖像的細(xì)節(jié)構(gòu)造。改進(jìn)的DeepLab V3+框架仍使用編碼-解碼總體架構(gòu),如圖2 所示。
輸入圖像經(jīng)過Xception 特征提取網(wǎng)絡(luò)的65 層卷積和深度可分離卷積操作后,被分開輸出到下一級(jí)。
第一個(gè)數(shù)據(jù)流通過帶空洞卷積的池化層得到5 種特征圖,經(jīng)過融合后再進(jìn)行1×1 卷積。另一個(gè)數(shù)據(jù)流通過1×1 卷積降低通道數(shù)后,與空間金字塔型池化層得到的特征圖進(jìn)行融合,得到編碼器處理的高層次特征圖。高層次特征圖經(jīng)過4 倍上采樣后輸送到解碼階段。解碼器接收了編碼處理后的數(shù)據(jù),包括經(jīng)過池化層處理的深層次特征圖和通過空間注意力機(jī)制進(jìn)行加權(quán)處理的特征圖,以及將特征提取網(wǎng)絡(luò)中不同層級(jí)的低層次特征作為輸入并與空間注意力機(jī)制進(jìn)行特征融合得到的特征圖。在解碼階段,編碼階段上采樣后的高層次特征圖與解碼階段前期的特征圖進(jìn)行融合,并通過3×3 卷積進(jìn)行特征圖的最后一次細(xì)化處理,最后通過4 倍上采樣來恢復(fù)特征圖大小完成圖像語義分割。
3 實(shí)驗(yàn)設(shè)計(jì)
3.1 數(shù)據(jù)集
本研究將Cityscapes 數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù),該數(shù)據(jù)集包含50 余個(gè)城市的街景圖像,涵蓋汽車、行人、地面等19 個(gè)物體類別,在無人駕駛和道路場景語義分割的研究中得到廣泛應(yīng)用。
3.2 實(shí)驗(yàn)配置
本實(shí)驗(yàn)平臺(tái)搭建在Windows 11 的計(jì)算機(jī)上,具體實(shí)驗(yàn)環(huán)境配置詳見表1。
3.3 實(shí)驗(yàn)結(jié)果
本研究在Cityscapes 數(shù)據(jù)集上進(jìn)行了圖像語義分割的實(shí)驗(yàn),對(duì)輸入圖像進(jìn)行了裁剪處理,使其大小統(tǒng)一為513×513×3。實(shí)驗(yàn)中選取了5 000 張精細(xì)標(biāo)注的圖像信息,其中包括3 000 張訓(xùn)練集圖像、1 000 張驗(yàn)證集圖像和1 000 張測試集圖像,涵蓋19 個(gè)類別的物體,如樹、車、馬路、路燈、人等。本文采用了DeepLabV3+算法和提出的改進(jìn)算法對(duì)Cityscapes 數(shù)據(jù)集進(jìn)行了圖像分割操作。對(duì)比實(shí)驗(yàn)結(jié)果顯示,相較于傳統(tǒng)DeepLab V3+算法,本文提出的改進(jìn)算法能比較清晰地分割出建筑、汽車等,圖3(c)相較于圖3(b)就更加清晰地分割出黃色圓圈中的路燈、汽車等物體,通過與圖3(a)相比可以明顯看出,改進(jìn)型DeepLab V3+算法更加接近物體在原始圖像中的空間位置特征,減少了圖像信息損失。多次實(shí)驗(yàn)結(jié)果表明,改進(jìn)算法在MIoU 值和MPA 值上分別提高了2.82%和1.37%,顯著提高了圖像分割性能。其中,一幅圖像的分割效果對(duì)比如圖3 所示。改進(jìn)型Deep Lab V3+與原算法的對(duì)比效果如表2 所列。
4 結(jié)束語
本文旨在探究基于深度學(xué)習(xí)的圖像語義分割技術(shù),著重關(guān)注DeepLab V3+框架的算法改進(jìn)和應(yīng)用。
語義分割是計(jì)算機(jī)視覺中的一項(xiàng)重要任務(wù),它可以將圖像中的每個(gè)像素分配到其所屬的語義類別,為計(jì)算機(jī)智能視覺領(lǐng)域提供了強(qiáng)有力的支持。因此,研究基于深度學(xué)習(xí)的圖像語義分割技術(shù)具有重要的意義。
為驗(yàn)證所提出的改進(jìn)算法的有效性和適用性,本研究在Cityscapes 數(shù)據(jù)集上進(jìn)行了一系列實(shí)驗(yàn)。實(shí)驗(yàn)中,使用平均交并比等指標(biāo)來評(píng)估所提出的圖像語義分割方法的性能。通過對(duì)實(shí)驗(yàn)結(jié)果的分析發(fā)現(xiàn),本文所優(yōu)化的DeepLab V3+框架在MIoU 分割精度方面提高了2.82%,達(dá)到了較好的效果。
未來,我們將繼續(xù)探索實(shí)時(shí)語義分割的效率和提高弱監(jiān)督圖像語義分割精度等方面的研究。在實(shí)時(shí)語義分割方面,我們將探究更加高效的網(wǎng)絡(luò)結(jié)構(gòu)和算法,以提高分割速度。在弱監(jiān)督圖像語義分割方面,我們將探究更加有效的監(jiān)督策略和數(shù)據(jù)增強(qiáng)方法,以提高分割精度。我們相信,以上工作將會(huì)進(jìn)一步提高圖像語義分割技術(shù)的性能,并為實(shí)際應(yīng)用提供更加可靠的支持。
參考文獻(xiàn):
[1] 羅建豪,吳建鑫.基于深度卷積特征的細(xì)粒度圖像分類研究綜述[J].自動(dòng)化學(xué)報(bào),2017,43(8):1306?1318.
[2] 王彥情,馬雷,田原.光學(xué)遙感圖像艦船目標(biāo)檢測與識(shí)別綜述[J].自動(dòng)化學(xué)報(bào),2011,37(9):1029?1039.
[3] 田萱,王亮,丁琪.基于深度學(xué)習(xí)的圖像語義分割方法綜述[J].軟件學(xué)報(bào),2019,30(2):440?468.
作者簡介:鄭永奇(1984—),碩士,講師,研究方向:信息安全、信息管理。