亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于DeepLab V3模型的圖像語(yǔ)義分割速度優(yōu)化研究

2020-12-26 02:56:56司海飛胡興柳楊春萍

計(jì)算機(jī)工程與應(yīng)用 2020年24期

關(guān)鍵詞：模型

司海飛，史震，胡興柳，楊春萍

1.金陵科技學(xué)院智能科學(xué)與控制工程學(xué)院，南京211169

2.哈爾濱工程大學(xué) 智能科學(xué)與工程學(xué)院，哈爾濱150001

1 引言

在移動(dòng)機(jī)器人等移動(dòng)端系統(tǒng)中，快速精準(zhǔn)的環(huán)境感知是研究重點(diǎn)。為了實(shí)現(xiàn)快速準(zhǔn)確地理解外界環(huán)境，讓移動(dòng)端有效精準(zhǔn)地實(shí)現(xiàn)人機(jī)及場(chǎng)景交互，傳統(tǒng)方法是給移動(dòng)端搭配超聲波、視覺(jué)傳感器或者激光雷達(dá)等多種傳感器獲取四周的場(chǎng)景信息[1-3]，即基于人工特征提取的圖像語(yǔ)義分割。近年來(lái)，為了節(jié)省成本且不丟失任何場(chǎng)景相對(duì)的位置信息，大量學(xué)者致力于利用神經(jīng)網(wǎng)絡(luò)算法實(shí)現(xiàn)圖像語(yǔ)義分割技術(shù)，為移動(dòng)端的信息決策提供參考，達(dá)到準(zhǔn)確理解環(huán)境信息[4-7]。

在2006年深度學(xué)習(xí)理論被提出后[8]，卷積神經(jīng)網(wǎng)絡(luò)的表征學(xué)習(xí)能力得到了關(guān)注，并隨著數(shù)值計(jì)算設(shè)備的更新得到發(fā)展[9]。美國(guó)加州大學(xué)的Long等[10]在全球首次提出了全卷積神經(jīng)網(wǎng)絡(luò)算法（Fully Convolutional Network，F(xiàn)CN）。此算法基于VGG-16 網(wǎng)絡(luò)結(jié)構(gòu)[11]，舍棄了VGG的最后全連接層fc6和fc7，這種方法在精度和速度方面都大大超過(guò)了傳統(tǒng)的分割方法，但對(duì)微小的物體分割還是有局限性。SegNet網(wǎng)絡(luò)也是一種和FCN原理類(lèi)似的方法，由Badrinarayanan等[12]提出，SegNet模型具有較少的參數(shù)，更容易進(jìn)行端到端的訓(xùn)練，分割精度比FCN稍好一些，總體效率也比FCN略高。Noh等[13]基于SegNet公布了反置卷積（DeconvNet）模型，在特征映射方面取得優(yōu)勢(shì)，分割效果要比FCN-8S愈加精密和細(xì)致，但精度較差，模型的綜合性能并不強(qiáng)。

DeepLab 網(wǎng)絡(luò)是由Chen 等人與google 團(tuán)隊(duì)[14]于2014年提出的，是一個(gè)專(zhuān)門(mén)用來(lái)處理語(yǔ)義分割的模型。目前推出了4 個(gè)版本[15]：DeepLab V1、DeepLab V2、DeepLab V3、DeepLab V3+，它們是目前語(yǔ)義分割領(lǐng)域中最新穎優(yōu)秀的一個(gè)系列分割算法。對(duì)于語(yǔ)義分割任務(wù)來(lái)說(shuō)，DeepLab V3+算法已經(jīng)能夠滿(mǎn)足高精度輸出結(jié)果的要求，然而對(duì)于移動(dòng)端的實(shí)時(shí)分割還遠(yuǎn)遠(yuǎn)不能達(dá)到要求。本文旨在保證精度的同時(shí)尋求更快的分割速度便于移動(dòng)端設(shè)備的應(yīng)用，基于DeepLab V3 算法進(jìn)行改進(jìn)和調(diào)優(yōu)，設(shè)計(jì)出新的輕量化網(wǎng)絡(luò)結(jié)構(gòu)，在運(yùn)行速度方面顯著提升，能夠使卷積神經(jīng)網(wǎng)絡(luò)更好地服務(wù)于移動(dòng)端。

圖2 DeepLab V3模型結(jié)構(gòu)

2 DeepLab V3系列網(wǎng)絡(luò)

2.1 DeepLab V3網(wǎng)絡(luò)

V3 加入圖像級(jí)別（image-level）的帶膨脹卷積的空間金字塔池化（Atrous Spatial Pyramid Pooling，ASPP）[16]。ASPP 是一種能夠獲取多尺度上下文的架構(gòu)，能夠讓任意大小的特征圖利用多尺度特征提取都有確定大小的特征向量來(lái)表示。獲取上下文信息的ASPP手段方式如圖1所示。

圖1 ASPP模塊

DeepLab V3編碼部分采用預(yù)訓(xùn)練的ResNet-50/101來(lái)提取特征，DeepLab V3 模型結(jié)構(gòu)如圖2 所示。修改了第4 個(gè)殘差塊，采用膨脹卷積（模塊內(nèi)的三個(gè)卷積采用不同的膨脹率）方法，并且把批量歸一化（BN層）加入ASPP模塊進(jìn)行優(yōu)化。

2.2 DeepLab V3+網(wǎng)絡(luò)

DeepLab V3+是把V3 作為編碼部分的結(jié)構(gòu)，添加了解碼部分[17]，構(gòu)建了一個(gè)帶空洞的空間金字塔池化編碼-解碼結(jié)構(gòu)，如圖3所示。先對(duì)輸入的空間分辨率進(jìn)行降采樣，得到較低的分辨率特征圖，經(jīng)訓(xùn)練可快速地區(qū)分類(lèi)別的特征圖，然后進(jìn)行上采樣過(guò)程，再將特征表示為完整分辨率的語(yǔ)義輸出圖。

圖3 DeepLab V3+編碼-解碼結(jié)構(gòu)

DeepLab V3+特別注重目標(biāo)邊緣的分割，優(yōu)化細(xì)分結(jié)果。而且，利用這種編碼-解碼的構(gòu)造，可使準(zhǔn)確率和運(yùn)算時(shí)間綜合性能最優(yōu)，可以通過(guò)選擇空洞大小更便捷地確定要提取的編碼部分輸出特征分辨率的大小。

DeepLab V3+總體模型結(jié)構(gòu)如圖4所示。DeepLab V3+采用將帶空洞的卷積塊并連在一起，作為編碼部分，接著連接的是編碼結(jié)構(gòu)的ASPP模塊，DeepLab V3+將深度可分離結(jié)構(gòu)的Xception卷積改進(jìn)應(yīng)用其中，并且解碼器模塊同樣應(yīng)用到，使這種編碼-解碼結(jié)構(gòu)的模型與V3 相比分割速度更快，分割性能更強(qiáng)。編碼部分主干網(wǎng)絡(luò)Xception 由Entey flow、大量的Middle flow 和Exit flow組成，且編碼部分空洞rate大小采取6、12、18、24四個(gè)分支與一個(gè)池化層（最大化法）來(lái)控制特征圖的輸出率。因考慮到高采樣比率提取的特征圖信息較少，所以去掉最后一個(gè)分支，并且最大池化部分均采用stride=2 的深度卷積替換，每次深度卷積3×3卷積之后都引入了BN和ReLU。其次，在引入底層特征進(jìn)行多尺度融合時(shí)全部首先采取1×1卷積對(duì)輸出通道做降維操作。

圖4 DeepLab V3+的整體編碼-解碼模型結(jié)構(gòu)

圖5 改進(jìn)的DeepLab V3網(wǎng)絡(luò)結(jié)構(gòu)圖

3 改進(jìn)的DeepLab V3網(wǎng)絡(luò)

3.1 DeepLab V3網(wǎng)絡(luò)的輕量化設(shè)計(jì)

對(duì)于語(yǔ)義分割任務(wù)來(lái)說(shuō)，DeepLab V3+算法已經(jīng)能夠滿(mǎn)足高精度輸出結(jié)果的要求，然而對(duì)于移動(dòng)端的實(shí)時(shí)分割還遠(yuǎn)遠(yuǎn)不能達(dá)到要求。本文為保證精度的同時(shí)尋求更快的分割速度便于移動(dòng)端設(shè)備的應(yīng)用，通過(guò)引入并改進(jìn)了2017年由谷歌團(tuán)隊(duì)創(chuàng)作的一種適用于可移動(dòng)設(shè)備的輕量化網(wǎng)絡(luò)MobileNet[16]，替換掉DeepLab V3模型編碼部分的ResNet結(jié)構(gòu)，沒(méi)有解碼模塊，從而使DeepLab V3 網(wǎng)絡(luò)變得輕量化，該網(wǎng)絡(luò)可以大大減小計(jì)算量從而使運(yùn)行速度方面效果顯著提升，能夠?qū)⒕矸e神經(jīng)網(wǎng)絡(luò)更好地服務(wù)于移動(dòng)端。本文主要使用2018 年更新的V2版本。在面向以移動(dòng)端為基礎(chǔ)上進(jìn)行的語(yǔ)義分割領(lǐng)域，MobileNet V2 無(wú)疑會(huì)是一個(gè)高效模型的首選。改進(jìn)的整體網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。

MobileNet V2 在深度卷積前面增添了逐點(diǎn)卷積的改進(jìn)，之所以這么做，由于DW 卷積的輸出通道數(shù)只由輸入通道數(shù)決定，自身無(wú)法更改通道數(shù)。這面臨的一個(gè)問(wèn)題就是假如上層輸出的輸入通道數(shù)過(guò)少，則深度卷積僅僅可以對(duì)空間中維度較低的特征進(jìn)行提取并且激活函數(shù)不可以有效地發(fā)揮在高維空間進(jìn)行非線(xiàn)性變換提取多樣特征，輸出效果必然不會(huì)令人滿(mǎn)意。所以為了處理這個(gè)現(xiàn)象，MobileNet V2先構(gòu)建一個(gè)升維系數(shù)是6的PW特意用來(lái)期望提升通道維度在高維提取特征，后面再結(jié)合一個(gè)DW卷積。經(jīng)歷了這樣的階段，無(wú)論輸入通道數(shù)多大，深度卷積都可以通過(guò)逐點(diǎn)卷積在更高的維度工作來(lái)提取特征。

3.2 基于Swish非線(xiàn)性激活函數(shù)的精度補(bǔ)償

由于利用輕量化結(jié)構(gòu)MobileNet V2替換了特征提取器，使改進(jìn)后的DeepLab V3 模型的分割速度大幅增加，然而精度不可避免地會(huì)下降。因此考慮到防止精度下降過(guò)于嚴(yán)重，為使模型的綜合性能達(dá)到最佳，更好地平衡模型的分割精度和速度，在MobileNet V2 中又引入了一種新的非線(xiàn)性激活函數(shù)Swish，Swish 函數(shù)在2017年10月份由谷歌提出。Swish的定義如下：

非線(xiàn)性激活函數(shù)對(duì)于深層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練能否成功起著關(guān)鍵的作用。常見(jiàn)的激活函數(shù)一般有下面幾種。

Sigmoid函數(shù)：

公式（2）中，σ(x)是Sigmoid函數(shù)，β是一個(gè)常量或者變量。若β為0，則Swish為一個(gè)線(xiàn)性函數(shù)；若β趨于無(wú)窮大，Sigmoid函數(shù)則接近于0-1函數(shù)，Swish則變成了ReLU非線(xiàn)性激活函數(shù)。Swish曲線(xiàn)圖如圖6所示。

圖6 不同β 值的Swish激活函數(shù)

Swish 激活函數(shù)和ReLU 激活函數(shù)相同的是，曲線(xiàn)上方不受限制，下方受到限制。而不同的是，Swish 和ReLU 相比的特點(diǎn)是曲線(xiàn)非單調(diào)性且曲線(xiàn)光滑不飽和。實(shí)踐證明，當(dāng)β等于1 時(shí)，使模型性能最好[17]。β值不同時(shí)在ResNet網(wǎng)絡(luò)上的預(yù)測(cè)性能結(jié)果如圖7所示。

圖7 中，橫坐標(biāo)代表β值的選取，縱坐標(biāo)代表模型預(yù)測(cè)的性能?？梢园l(fā)現(xiàn)令β為1，普遍模型效果最佳。因此本文選取Swish激活函數(shù)的定義中β取值為1。

谷歌在公布的論文中已經(jīng)說(shuō)明Swish 激活函數(shù)的性能要優(yōu)于當(dāng)前的所有激活函數(shù)，谷歌團(tuán)隊(duì)在大量實(shí)驗(yàn)中經(jīng)證實(shí)Swish 函數(shù)對(duì)于深度卷積神經(jīng)網(wǎng)絡(luò)的匹配度和效果要?jiǎng)龠^(guò)ReLU 很多，只是相對(duì)會(huì)造成一些延遲。例如，在ImageNet 網(wǎng)絡(luò)競(jìng)賽上，將ReLU 用非線(xiàn)性激活函數(shù)Swish 的替換，使Inception-ResNetV2 的準(zhǔn)確性可以提高大約1%，移動(dòng)端的NASNet-A 在top-1 上分類(lèi)的準(zhǔn)確性可增加1.3%。

由于網(wǎng)絡(luò)層數(shù)越來(lái)越深，會(huì)使輸入特征圖的分辨率逐漸減小，考慮到要減弱應(yīng)用非線(xiàn)性激活函數(shù)的成本，因此在MobileNet V2 網(wǎng)絡(luò)的深層部分將ReLU 激活函數(shù)用Swish 替換。谷歌經(jīng)過(guò)改變帶有Swish 和ReLU 激活函數(shù)的全連接層級(jí)數(shù)，測(cè)試其在MNIST 數(shù)據(jù)集上的性能變化（取三次運(yùn)行的中位數(shù)），如圖8 所示，如果全連接網(wǎng)絡(luò)的層級(jí)在40 層以?xún)?nèi)，那么不同激活函數(shù)所表現(xiàn)出的性能沒(méi)有顯著性區(qū)別。而從40 層增加到50 層中，Swish要比ReLU表現(xiàn)得更加優(yōu)秀，因?yàn)殡S著層級(jí)的增加，優(yōu)化將變得更加困難。在非常深的網(wǎng)絡(luò)中，Swish相對(duì)于ReLU 能實(shí)現(xiàn)更高的測(cè)試準(zhǔn)確度。因此本文把MobileNet V2 的最后一行序列的激活函數(shù)進(jìn)行替換。Swish 在網(wǎng)絡(luò)深層部分表現(xiàn)比較明顯，雖然會(huì)帶來(lái)一點(diǎn)延遲，但可以彌補(bǔ)只用ReLU激活函數(shù)的MobileNet V2產(chǎn)生的潛在精度損失。

圖7 在ResNet-32上的不同β 值的預(yù)測(cè)性能

圖8 Swish和ReLU激活函數(shù)的層級(jí)數(shù)與性能關(guān)系圖

4 實(shí)驗(yàn)結(jié)果與分析

4.1 DeepLab V3網(wǎng)絡(luò)模型訓(xùn)練

本文模型訓(xùn)練主要基于Tensorflow 框架工具和OPenCV視覺(jué)庫(kù)實(shí)現(xiàn)。在2015年11月份，Tensorflow被谷歌團(tuán)隊(duì)開(kāi)源用于實(shí)現(xiàn)CNN算法的一種非常優(yōu)秀的計(jì)算框架。Tensorflow 相比于其他框架的模型可以實(shí)現(xiàn)分布式計(jì)算、易用性高、計(jì)算速度快、靈活性強(qiáng)和兼容性強(qiáng)，算法更多并且系統(tǒng)也更穩(wěn)定。Tensorflow 是通過(guò)計(jì)算圖上每一個(gè)節(jié)點(diǎn)來(lái)進(jìn)行模式表達(dá)和運(yùn)算的編程體系[18]，通過(guò)會(huì)話(huà)（Session）機(jī)制建立運(yùn)行模型，此外它還可通過(guò)Tensorboard 機(jī)制提供清晰的可視化界面，更方便參數(shù)調(diào)節(jié)。

需要注意的是在應(yīng)用Tensorflow工具時(shí)，需要將輸入數(shù)據(jù)的格式規(guī)范地轉(zhuǎn)化為T(mén)FRecord 形式，這樣有兩處便利，其一是方便將一個(gè)樣本不同的數(shù)據(jù)類(lèi)型所有信息統(tǒng)一起來(lái)以二進(jìn)制數(shù)據(jù)形式進(jìn)行存儲(chǔ)；其二是可以利用文件隊(duì)列的多線(xiàn)程操作，使得數(shù)據(jù)的讀取和批量處理更加方便快捷[19]。

OpenCV 因?yàn)锳PI 豐富、性能優(yōu)異，屬性友好，目前是最受歡迎的計(jì)算機(jī)視覺(jué)庫(kù)。OpenCV 目前有OpenCV2 和OpenCV3 兩大版本，考慮到版本兼容性和上手裝置困難程度，本論文研究應(yīng)用OpenCV2 版本。依照功能與需求的差異，OpenCV2有許多差別的API接口，例如core核心模塊，imgproc圖片處置模塊，highGUI具備管理者界面和文件讀寫(xiě)的API 接口函數(shù)等一系列非常有用的函數(shù)接口。

本文實(shí)驗(yàn)的具體軟硬件環(huán)境配置見(jiàn)表1。

表1 實(shí)驗(yàn)軟硬件環(huán)境配置

如圖9所示，為軟件運(yùn)行界面及實(shí)時(shí)分割效果圖。

圖9 軟件運(yùn)行界面及實(shí)時(shí)分割效果圖

在實(shí)驗(yàn)的過(guò)程中，最終模型訓(xùn)練需要的其他固定參數(shù)見(jiàn)表2。

本文所有訓(xùn)練的實(shí)驗(yàn)在把訓(xùn)練集輸入到網(wǎng)絡(luò)之前，先規(guī)定batch尺寸為8，即將訓(xùn)練集的隨機(jī)8張圖片構(gòu)成一個(gè)批次，接著隨機(jī)random為每張圖片在[0.5，1.5]范圍之間選擇任意一種尺度比例進(jìn)行縮放處理；然后再按照0.5 的概率大小對(duì)全部圖片做左右變換的翻轉(zhuǎn)處理；最后一步是將訓(xùn)練圖片的大小都統(tǒng)一裁剪成513×513。這樣使訓(xùn)練樣本的圖像尺寸和形狀更豐富，更具有隨機(jī)性，從而避免模型造成過(guò)擬合的效果。

模型的訓(xùn)練流程如圖10所示。

表2 超參數(shù)設(shè)置

圖10 網(wǎng)絡(luò)訓(xùn)練流程圖

實(shí)驗(yàn)采用基于Imagenet數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練的模型，基于預(yù)訓(xùn)練模型checkpoint 在VOC2012 和Cityscapes基礎(chǔ)上分別進(jìn)行了30 000 次迭代訓(xùn)練得到最終各自的DeepLab V3+模型。

本文中，基于ImageNet 數(shù)據(jù)集上獲取了三個(gè)不同通道的期望值與方差，對(duì)應(yīng)三通道的期望值分別為0.475、0.466、0.416，標(biāo)準(zhǔn)差分別為0.239、0.234、0.235，最終讓訓(xùn)練數(shù)據(jù)的全部通道均滿(mǎn)足期望值和方差分別是0和1的正態(tài)分布。

4.2 實(shí)驗(yàn)結(jié)果及對(duì)比

DeepLab V3+和改進(jìn)之后的DeepLab V3參數(shù)設(shè)置相同，然后選擇訓(xùn)練好的DeepLab V3+模型和改進(jìn)的DeepLab V3模型分別在VOC2012和Cityscapes上進(jìn)行測(cè)試，基于VOC2012 數(shù)據(jù)集的測(cè)試對(duì)比可視化結(jié)果如圖11所示。

從圖11測(cè)試結(jié)果中可以明顯看出，DeepLab V3+算法將第一張測(cè)試圖片中的小男孩和馬分割得特別清楚，與標(biāo)簽圖片幾乎重合，然而本文設(shè)計(jì)的算法還存在標(biāo)記分割顏色重疊的問(wèn)題，在小男孩（淺粉色）的身上出現(xiàn)了一點(diǎn)馬（深粉色）的標(biāo)記顏色，此外，對(duì)馬分割的邊緣相比DeepLab V3+不夠平滑。第二張測(cè)試圖片中的自行車(chē)，DeepLab V3+算法與標(biāo)簽還算貼近，然而由于車(chē)體零件比較復(fù)雜，對(duì)于車(chē)鏈、腳蹬顏色不明顯的物體并沒(méi)有分割出來(lái)，本文算法也存在同樣的問(wèn)題，另外還存在對(duì)于車(chē)輪（綠色）分割不完整的問(wèn)題。但是本文算法與DeepLab V3+對(duì)比對(duì)于物體的整體輪廓分割并沒(méi)有相差太多，改進(jìn)之后的模型依然可以分割出物體的邊界，清晰識(shí)別出物體的種類(lèi)。

基于Cityscapes數(shù)據(jù)集的測(cè)試對(duì)比可視化結(jié)果分別如圖12所示。從圖12測(cè)試的可視化結(jié)果中，可明顯看到DeepLab V3+算法分割精度相對(duì)較好，其中路燈（白色）、行人（紅色）、車(chē)輛（藍(lán)色），標(biāo)志（黃色）、樹(shù)木（綠色）和房屋建筑物（灰色）都分割得較清晰，與標(biāo)簽十分貼近。甚至遠(yuǎn)距離微小物體都可以分割清楚，但是由于路燈顏色較淺與背景建筑物顏色十分相近，對(duì)于路燈（白色）和不明物體（黑色），DeepLab V3+算法也沒(méi)有全部分割清楚。本文算法也同樣沒(méi)有解決這個(gè)分割問(wèn)題，對(duì)于遠(yuǎn)距離的人（紅色），本文分割出大概輪廓，從兩張測(cè)試圖片中還可以看到，對(duì)于右邊車(chē)輛（藍(lán)色）和樹(shù)木（綠色）的分割染上了指示牌的顏色（黃色），但物體的總體輪廓都能分割清楚，圖片也相對(duì)清晰。

本文算法的分割效果與DeepLab V3+算法有略微差距，大致輪廓的分割效果相同。然而在具體訓(xùn)練模型的過(guò)程中，本文設(shè)計(jì)的新的輕量化網(wǎng)絡(luò)具備能夠非?？焖俚赝瓿煞指钊蝿?wù)的特點(diǎn)顯而易見(jiàn)。具體對(duì)比測(cè)試結(jié)果見(jiàn)表3，其中運(yùn)行時(shí)間代表的是計(jì)算機(jī)處理一批（batch=8張）圖片所需要的時(shí)間。

從表3可以看出，VOC數(shù)據(jù)集因?yàn)槊繌垐D片內(nèi)容簡(jiǎn)單因此訓(xùn)練都要比Cityscapes 快得多，并且以Xception結(jié)構(gòu)為編碼部分骨干的DeepLab V3+的分割精度較好，但模型占內(nèi)存最大，運(yùn)行時(shí)間最久。相比較而言，改進(jìn)后的DeepLab V3 模型縮小了很多，因此運(yùn)算速度明顯提升。利用改進(jìn)后的DeepLab V3 模型比DeepLab V3+的模型精度保持基本不變的情況下，計(jì)算參數(shù)量下降了約96%，Cityscapes 數(shù)據(jù)集上運(yùn)行時(shí)間為0.8 s，VOC2012數(shù)據(jù)集上可達(dá)0.1 s，滿(mǎn)足實(shí)時(shí)性要求，模型的綜合性能達(dá)到最優(yōu)。本文算法在VOC2012和Cityscapes數(shù)據(jù)集上的可視化收斂曲線(xiàn)，分別如圖13和圖14所示，其中，橫坐標(biāo)為迭代次數(shù)，縱坐標(biāo)為損失值，初始學(xué)習(xí)速率α=0.045。

圖11 基于VOC2012兩種算法對(duì)比分割結(jié)果

圖12 基于Cityscapes兩種算法對(duì)比分割結(jié)果

表3 兩種算法對(duì)比測(cè)試結(jié)果

圖13 基于VOC2012改進(jìn)的DeepLab V3收斂曲線(xiàn)

圖14 基于Cityscapes改進(jìn)的DeepLab V3收斂曲線(xiàn)

5 結(jié)束語(yǔ)

本文在研究DeepLab V3系統(tǒng)網(wǎng)絡(luò)的空洞卷積和編碼-解碼結(jié)構(gòu)的基礎(chǔ)上，將MobileNet V2 網(wǎng)絡(luò)結(jié)構(gòu)部分進(jìn)行改進(jìn)，將原有的非線(xiàn)性激活函數(shù)部分替換成新的Swish 激活函數(shù)進(jìn)行精度補(bǔ)償。采用改進(jìn)后的輕量化MobileNet V2 結(jié)構(gòu)替代DeepLab V3 原有的特征提取器，在Cityscapes和VOC2012標(biāo)準(zhǔn)數(shù)據(jù)集上分別驗(yàn)證了改進(jìn)的DeepLab V3 和DeepLab V3+算法的效果。測(cè)試結(jié)果顯示，在Cityscapes 標(biāo)準(zhǔn)數(shù)據(jù)集上，模型大小從439 MB下降到15 MB，運(yùn)行時(shí)間從5 s縮短至0.8 s。在VOC2012標(biāo)準(zhǔn)數(shù)據(jù)集上，模型大小同樣從439 MB下降到15M，運(yùn)行時(shí)間從0.9 s縮短至0.1 s。并且，頻權(quán)交并比和平均交并比變化都不大。因而，改進(jìn)的DeepLab V3 網(wǎng)絡(luò)模型能在維持一定精度的前提下，參數(shù)量和計(jì)算復(fù)雜度大大減小，計(jì)算速度有了明顯提升。經(jīng)對(duì)比測(cè)試實(shí)驗(yàn)，可以得出改進(jìn)的DeepLab V3 算法在模型精度和占用內(nèi)存上可以達(dá)到綜合最優(yōu)，滿(mǎn)足應(yīng)用移動(dòng)端設(shè)備實(shí)時(shí)分割的要求。該算法在精度方面的優(yōu)化提高是今后進(jìn)一步深入研究的主要方向。