亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的輕量級(jí)道路圖像語(yǔ)義分割算法

        2021-07-02 00:35:44馮子亮
        計(jì)算機(jī)應(yīng)用 2021年5期
        關(guān)鍵詞:注意力語(yǔ)義卷積

        胡 嵽,馮子亮

        (四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)

        (*通信作者電子郵箱1626429788@qq.com)

        0 引言

        圖像語(yǔ)義分割[1-3]是計(jì)算機(jī)視覺(jué)中的基礎(chǔ)性技術(shù)之一,主要針對(duì)圖像中的每個(gè)像素點(diǎn)的語(yǔ)義信息來(lái)進(jìn)行分類(lèi)分割,在自動(dòng)駕駛、機(jī)器人視覺(jué)以及智能場(chǎng)景理解領(lǐng)域具有非常重要的應(yīng)用價(jià)值。道路圖像語(yǔ)義分割作為自動(dòng)駕駛領(lǐng)域不可或缺的重要一環(huán),協(xié)助車(chē)道線(xiàn)檢測(cè)以及行人檢測(cè)與識(shí)別等任務(wù)[2]?,F(xiàn)存的圖像語(yǔ)義分割網(wǎng)絡(luò)模型存在模型參數(shù)量巨大、計(jì)算復(fù)雜等缺點(diǎn),未能達(dá)到移動(dòng)端進(jìn)行快速實(shí)時(shí)語(yǔ)義分割的要求。因此,本文使用深度可分離卷積設(shè)計(jì)出了一種輕量級(jí)對(duì)稱(chēng)式U 型編碼器-解碼器結(jié)構(gòu)的網(wǎng)絡(luò)模型MUNet,融合不同層級(jí)特征來(lái)填充丟失細(xì)節(jié)。在下采樣中丟失的空間信息其實(shí)不能簡(jiǎn)單地通過(guò)融合就能被完整恢復(fù),所以本文在MUNet 中加入稀疏短連接,加強(qiáng)相鄰網(wǎng)絡(luò)層間的信息互通,捕捉邊緣上下文信息并進(jìn)行特征復(fù)用。由于現(xiàn)階段的分割網(wǎng)絡(luò)較難分割較小目標(biāo),比如道路場(chǎng)景下的電線(xiàn)桿,以及具有相似外觀的不同目標(biāo)或者是具有不同外觀的同一目標(biāo)[3]。為了解決這些問(wèn)題,本文在網(wǎng)絡(luò)中融合了注意力機(jī)制,更好地捕捉全局上下文信息,減少類(lèi)間粘連以及類(lèi)內(nèi)分隔的發(fā)生,在極大地減少參數(shù)量降低計(jì)算復(fù)雜度的同時(shí)得到更精細(xì)的分割結(jié)果。在實(shí)際訓(xùn)練中由于語(yǔ)義分割這類(lèi)像素級(jí)密集預(yù)測(cè)任務(wù)的特殊性以及硬件限制,通常會(huì)設(shè)置很小的batch size,在這樣的情況下使用批歸一化(Batch Normalization,BN)[4]并不能得到很好的結(jié)果,因此本文選擇使用組歸一化(Group Normalization,GN)[5]來(lái)替代BN進(jìn)行更有效的歸一化。

        本文的主要工作如下:

        1)使用深度可分離卷積設(shè)計(jì)出一種輕量級(jí)對(duì)稱(chēng)式U 型編碼-解碼結(jié)構(gòu)網(wǎng)絡(luò)模型,聯(lián)合不同層級(jí)特征,在極大地減小參數(shù)量以及計(jì)算量的同時(shí)也保證了網(wǎng)絡(luò)分割精度;

        2)在編碼端以及解碼端不同網(wǎng)絡(luò)層次之間加入稀疏短連接,進(jìn)一步補(bǔ)充下采樣過(guò)程中丟失的空間細(xì)節(jié);

        3)在網(wǎng)絡(luò)中融入注意力機(jī)制,這樣的注意力機(jī)制融合了長(zhǎng)距離依賴(lài)以及通道注意力依賴(lài),能更好地利用全局上下文信息;

        4)使用GN 來(lái)替代BN,在batch size 很小的情況,也能得到很好的分割結(jié)果。

        1 相關(guān)工作

        1.1 圖像語(yǔ)義分割

        在圖像語(yǔ)義分割任務(wù)中,為了獲得更豐富的特征圖,網(wǎng)絡(luò)通常會(huì)融合多尺度信息、直接增大感受野或者使用注意力機(jī)制等方法。其中融合多尺度信息的方法可分為編碼器-解碼器結(jié)構(gòu)以及金字塔結(jié)構(gòu)等。使用類(lèi)似編碼器-解碼器結(jié)構(gòu)的圖像語(yǔ)義分割網(wǎng)絡(luò)有全卷積神經(jīng)網(wǎng)絡(luò)(Fully Concolutional neural Network,F(xiàn)CN)[6]、U-Net[7]、SegNet[8]、深層特征聚合網(wǎng)絡(luò)(Deep Feature Aggregation Network,DFANet)[9]等,將編碼端獲取到的信息映射到解碼端,便于解碼端很好地恢復(fù)分割目標(biāo)細(xì)節(jié)信息。而金字塔場(chǎng)景分析網(wǎng)絡(luò)(Pyramid Scene Parsing Network,PSPNet)[10]等網(wǎng)絡(luò)則通過(guò)金字塔結(jié)構(gòu)融合多尺度信息,聚合不同區(qū)域的同類(lèi)目標(biāo)上下文信息。DeepLabv3+[11]將編碼器-解碼器結(jié)構(gòu)和金字塔結(jié)構(gòu)相結(jié)合,聯(lián)合兩種結(jié)構(gòu)的優(yōu)勢(shì),提高模型分割效率。

        為了獲得大感受野從而促使網(wǎng)絡(luò)分割性能得到提升,語(yǔ)義分割網(wǎng)絡(luò)選擇大卷積核或者空洞卷積。通過(guò)使用大卷積核來(lái)獲得足夠大的感受野的操作往往會(huì)耗費(fèi)大量的計(jì)算資源,因此一些網(wǎng)絡(luò),比如全局卷積網(wǎng)絡(luò)(Global Convolutional Network,GCN)[12]通過(guò)堆疊小卷積來(lái)替代大卷積核,在降低參數(shù)量和計(jì)算量的同時(shí)獲得和大卷積核類(lèi)似的感受野。空洞卷積在語(yǔ)義分割中是一個(gè)強(qiáng)有力的工具來(lái)有效地調(diào)整卷積感受野[13],DeepLabv3+中也使用了空洞卷積,組成了空間金字塔結(jié)構(gòu)融合多尺度語(yǔ)義信息,但使用空洞卷積會(huì)大量消耗內(nèi)存。

        注意力機(jī)制作為圖像語(yǔ)義分割網(wǎng)絡(luò)中獲取全局上下文信息有力的工具之一,在近年來(lái)的分割網(wǎng)絡(luò)中被廣泛使用,比如判別特征網(wǎng)絡(luò)(Discriminative Feature Network,DFNet)[14]利用卷積塊注意力模塊(Convolutional Block Attention Module,CBAM)[15]選擇更具判別力的特征,解決分割目標(biāo)類(lèi)內(nèi)不一致問(wèn)題。

        1.2 注意力機(jī)制

        計(jì)算機(jī)視覺(jué)中的注意力機(jī)制主要通過(guò)一層新的權(quán)重將圖片中關(guān)鍵的特征標(biāo)識(shí)出來(lái),讓深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到每一張圖片中需要關(guān)注的區(qū)域,加強(qiáng)卷積空間特征表達(dá),得到更多的全局上下文信息。目前在圖像語(yǔ)義分割中使用的注意力機(jī)制主要是軟注意力機(jī)制,包含空間注意力以及通道注意力機(jī)制,單獨(dú)加入通道注意力或者將空間注意力以及通道注意力進(jìn)行融合[15-21]。軟注意力機(jī)制中還有自注意力機(jī)制,這是軟注意力機(jī)制的另一種特殊形式,主要代表是非局部注意力網(wǎng)絡(luò)(Non-Local neural Network,NLNet)[22],提出了一種Non-local操作獲取圖像中位置長(zhǎng)距離依賴(lài)。為了更好地獲得更多的全局上下文信息,全局上下文網(wǎng)絡(luò)(Global Context Network,GCNet)[23]還將NLNet中的Non-local操作以及文獻(xiàn)[21]中的通道注意力機(jī)制相結(jié)合,得到結(jié)合兩者優(yōu)點(diǎn)的注意力機(jī)制,簡(jiǎn)單有效地對(duì)全局上下文進(jìn)行建模,更好地補(bǔ)充網(wǎng)絡(luò)中的語(yǔ)義信息,增加提取特征的多樣性。

        1.3 輕量級(jí)神經(jīng)網(wǎng)絡(luò)

        為了降低常規(guī)卷積帶來(lái)爆炸式增長(zhǎng)的計(jì)算量,很多方法選擇構(gòu)建參數(shù)量以及計(jì)算量較少但有效的神經(jīng)網(wǎng)絡(luò)。構(gòu)建這樣簡(jiǎn)單有效的神經(jīng)網(wǎng)絡(luò)的方式主要有兩種:一種是選擇使用深度可分離卷積或者組卷積組成輕量級(jí)神經(jīng)網(wǎng)絡(luò)[24-31];另一種就是進(jìn)行模型裁剪[32-34]。由于模型裁剪可能會(huì)帶來(lái)不可恢復(fù)的細(xì)節(jié)丟失,同時(shí)如何進(jìn)行相對(duì)有效的裁剪工作仍需進(jìn)一步的理論支撐,現(xiàn)階段主要是選擇前一種方式來(lái)獲得輕量級(jí)神經(jīng)網(wǎng)絡(luò)快速有效地分割目標(biāo)。

        2 模型設(shè)計(jì)

        2.1 網(wǎng)絡(luò)架構(gòu)

        本文主要使用文獻(xiàn)[24]提出的深度可分離卷積設(shè)計(jì)出一種輕量級(jí)對(duì)稱(chēng)式U型編碼器-解碼器結(jié)構(gòu)網(wǎng)絡(luò)模型MUNet,極大地減小參數(shù)量以及計(jì)算量。文獻(xiàn)[24]中的深度可分離卷積由一系列的深度卷積(depthwise convolution)以及1×1 點(diǎn)卷積(pointwise convolution)組成,其與標(biāo)準(zhǔn)卷積的對(duì)比如圖1 所示,圖1中Dk表示卷積核的尺寸,M表示輸入通道的大小,而N表示輸出通道的大小。

        MUNet 基礎(chǔ)卷積塊借鑒文獻(xiàn)[30]提出的MobileNetv2 網(wǎng)絡(luò)中的倒置殘差卷積塊結(jié)構(gòu),具體結(jié)構(gòu)如圖2所示。

        圖2 倒置殘差卷積塊Fig.2 Inverted residual convolutional block

        在MUNet 中也引入了在文獻(xiàn)[30]以及[31]中出現(xiàn)的relu6 以及h-swish 激活函數(shù)。relu6 函數(shù)主要是為了避免低精度浮點(diǎn)數(shù)無(wú)法精確描述數(shù)值而帶來(lái)的精度損失,可表示為:

        h-swish 函數(shù)計(jì)算成本低,因此在本文中MUNet 的設(shè)計(jì)也采用了這樣的激活函數(shù)盡可能地減少計(jì)算量,可表示為:

        最終設(shè)計(jì)得到的輕量級(jí)對(duì)稱(chēng)式U 型編碼器-解碼器架構(gòu)的網(wǎng)絡(luò)模型MUNet的具體結(jié)構(gòu)如圖3所示。圖中虛線(xiàn)框內(nèi)表示MUNet 的基礎(chǔ)卷積塊,網(wǎng)絡(luò)的左端作為編碼端使用步長(zhǎng)為2 的深度可分離卷積進(jìn)行下采樣,網(wǎng)絡(luò)的右端作為解碼端使用雙線(xiàn)性插值進(jìn)行上采樣還原下采樣過(guò)程縮減的圖像尺寸,以獲得更高分辨率的分割特征圖。編碼端和解碼端對(duì)應(yīng)大小的特征進(jìn)行通道級(jí)別的特征融合,通過(guò)融合不同層級(jí)特征來(lái)彌補(bǔ)圖像經(jīng)過(guò)下采樣操作丟失的細(xì)節(jié)。網(wǎng)絡(luò)中的稀疏短距離連接主要為相隔一層的兩個(gè)卷積塊之間進(jìn)行通道級(jí)融合,在基礎(chǔ)卷積塊中加入注意力機(jī)制,目的是來(lái)提取更充沛的全局上下文信息。

        圖3 MUNet網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network structure of MUNet

        2.2 稀疏短距離連接

        MUNet在網(wǎng)絡(luò)編碼端以及解碼端中設(shè)計(jì)了前面層和后面層的稀疏短距離連接,將相鄰網(wǎng)絡(luò)層卷積得到的高層語(yǔ)義特征以及底層細(xì)節(jié)特征進(jìn)行通道級(jí)別的融合,實(shí)現(xiàn)特征復(fù)用從而得到更好的分割結(jié)果。與文獻(xiàn)[35]和文獻(xiàn)[36]中的前后層密集連接不同,為了實(shí)現(xiàn)模型參數(shù)量和性能表現(xiàn)之間更好的折中,本文實(shí)現(xiàn)的是稀疏短距離連接,即每層網(wǎng)絡(luò)并不作為相鄰層的直接輸入,而是作為相鄰層的下一層的額外輸入。

        使用公式表示網(wǎng)絡(luò)在第i層的輸出為:

        Fi(·)為非線(xiàn)性轉(zhuǎn)化函數(shù),由一系列深度可分離卷積等操作組成,這里的第i層在本文中實(shí)際上表示由多個(gè)卷積層組成的第i個(gè)卷積塊層。編碼端以及解碼端的稀疏短連接結(jié)構(gòu)類(lèi)似,在編碼端的稀疏短連接具體結(jié)構(gòu)如圖4所示。

        圖4 MUNet稀疏短連接結(jié)構(gòu)Fig.4 MUNet sparse short connection structure

        2.3 注意力機(jī)制

        MUNet使用編碼器-解碼器結(jié)構(gòu)來(lái)融合多尺度信息,但是這類(lèi)方法捕獲的是同類(lèi)上下文,而忽略了不同類(lèi)別的上下文關(guān)系。為了能有效聚合不同類(lèi)別上下文信息,在物體邊緣處獲得更精確的預(yù)測(cè),本文在MUNet 中融入了類(lèi)似文獻(xiàn)[23]中的混合注意力機(jī)制GC 模塊,該注意力機(jī)制將Non-local 模塊以及Squeeze-and-Excitate(SE)[21]模塊進(jìn)行有效融合,進(jìn)一步提升網(wǎng)絡(luò)分割性能。

        SE 模塊對(duì)不同通道進(jìn)行權(quán)值重標(biāo)定,由于其主要捕捉通道依賴(lài),缺乏對(duì)空間信息的全局上下文建模。而Non-local 模塊主要捕捉長(zhǎng)距離依賴(lài),旨在從其他位置聚集信息來(lái)增強(qiáng)當(dāng)前位置的特征,這樣的操作計(jì)算量巨大。因此,SE 模塊和Non-local 模塊的融合能夠達(dá)到取長(zhǎng)補(bǔ)短的效果,對(duì)整個(gè)特征進(jìn)行全局上下文建模,增加特征提取的多樣性。

        在本文中使用的GC模塊用公式可表示為:

        在式(4)中將輸入的特征圖定義為x=,z為模塊的輸出,Np表示特征圖的位置數(shù)量,Wk、Wv1以及Wv2為線(xiàn)性轉(zhuǎn)換矩陣,表示1×1卷積。

        具體模塊細(xì)節(jié)如圖5所示。

        圖5 MUNet中使用的GC模塊結(jié)構(gòu)Fig.5 GC block structure used in MUNet

        GC 模塊主要分為三部分:第一部分使用1×1 卷積以及Softmax 函數(shù)來(lái)進(jìn)行全局上下文建模;第二部分使用類(lèi)似SE模塊的設(shè)計(jì)來(lái)捕捉通道依賴(lài);第三部分是將第二部分得到的結(jié)果與模塊原始輸入進(jìn)行通道級(jí)融合,聚合全局上下文信息到具體特征中。

        2.4 組歸一化

        針對(duì)BN 在batch size 較小時(shí)其結(jié)果反而不是很好的問(wèn)題,本文選擇使用GN 來(lái)有效替代BN。GN 按組劃分輸入通道,對(duì)每組計(jì)算均值以及方差來(lái)進(jìn)行歸一化,其計(jì)算獨(dú)立于batch size,因此和BN 相比,更適合于batch size 較小的歸一化情況。GN歸一化方式和BN之間的對(duì)比如圖6所示,圖中的C表示通道維度,N表示batch size,陰影部分的像素表示通過(guò)這部分像素值聚合得到的均值以及方差來(lái)進(jìn)行歸一化。

        圖6 歸一化方式比較Fig.6 Comparison of normalization modes

        3 實(shí)驗(yàn)結(jié)果

        3.1 實(shí)驗(yàn)設(shè)置

        實(shí)驗(yàn)在一臺(tái)CPU 為Intel Core i7、GPU 為GTX 1080、內(nèi)存大小為64 GB 的計(jì)算機(jī)上運(yùn)行,實(shí)驗(yàn)環(huán)境具體采用操作系統(tǒng)Ubuntu 16.04,編程語(yǔ)言python3.7.6,深度學(xué)習(xí)框架tensorflow-gpu1.14.0,GPU加速工具CUDA10.0以及cuDNN 7.6.4。

        實(shí)驗(yàn)用的數(shù)據(jù)集是劍橋駕駛場(chǎng)景標(biāo)注視頻數(shù)據(jù)集(Cambridge-driving Labeled Video Database,CamVid)[37],是第1 個(gè)從駕駛汽車(chē)的角度拍攝,具有目標(biāo)類(lèi)別語(yǔ)義標(biāo)簽的道路場(chǎng)景視頻圖像集合。主要提供32 個(gè)精細(xì)標(biāo)注語(yǔ)義標(biāo)簽,實(shí)際上訓(xùn)練集圖像只有421 張,測(cè)試集圖像168 張,原始訓(xùn)練圖像大小都為960×720。為了使網(wǎng)絡(luò)能夠正常訓(xùn)練這些數(shù)據(jù),在訓(xùn)練時(shí)將圖像裁剪成512×512 大小,同時(shí)進(jìn)行水平翻轉(zhuǎn)以及垂直翻轉(zhuǎn)來(lái)進(jìn)行數(shù)據(jù)增強(qiáng)。

        MUNet 網(wǎng)絡(luò)訓(xùn)練時(shí)batch size 由于硬件限制設(shè)置為1,優(yōu)化算法使用均方根傳遞(Root Mean Square prop,RMSProp)算法,初始學(xué)習(xí)率(learning rate)設(shè)置為0.000 1,使用交叉熵函數(shù)作為損失函數(shù),relu、relu6以及h-swish交替作為激活函數(shù)。

        實(shí)驗(yàn)采用的評(píng)估指標(biāo)是平均交并比(Mean Intersection over Union,MIoU)、總的模型參數(shù)量以及模型計(jì)算量(FLoating Point Operations,F(xiàn)LOPs)。MIoU 主要是用來(lái)評(píng)估模型分割結(jié)果,計(jì)算預(yù)測(cè)值和真實(shí)值重疊的比例。參數(shù)量計(jì)算模型總的可訓(xùn)練參數(shù)量,主要評(píng)估模型的空間復(fù)雜度;FLOPs指的是浮點(diǎn)運(yùn)算數(shù),可以用來(lái)評(píng)估模型的時(shí)間復(fù)雜度。

        3.2 對(duì)比實(shí)驗(yàn)

        為了驗(yàn)證稀疏短距離連接、注意力機(jī)制GC模塊以及組歸一化GN 方法的有效性,本文在CamVid 數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn),測(cè)試圖像也同樣裁剪成了512×512 大小。具體實(shí)驗(yàn)設(shè)計(jì)以及結(jié)果如表1所示。

        表1 MUNet在CamVid數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果Tab.1 Comparison of experimental results of MUNet on CamVid dataset

        在表1 中,只使用深度可分離卷積構(gòu)建的U 型編碼器-解碼器網(wǎng)絡(luò)原始模型得到的MIoU 為55.67%。與原始的MUNet相比,僅加入稀疏短連接后的模型分割結(jié)果MIoU 增加了2.60 個(gè)百分點(diǎn);僅加入GC 注意力機(jī)制后的模型分割結(jié)果MIoU 增加了1.06 個(gè)百分點(diǎn);加入稀疏短連接以及GC 后的MUNet 模型分割結(jié)果MIoU 增加了3.04 個(gè)百分點(diǎn);在上面的網(wǎng)絡(luò)中將GN 替代BN 對(duì)網(wǎng)絡(luò)層進(jìn)行有效的歸一化,最后得到的分割結(jié)果MIoU增加了3.91個(gè)百分點(diǎn)。

        為了對(duì)比其他注意力機(jī)制對(duì)MUNet 的影響,本文還設(shè)計(jì)了在原始MUNet 中融合另外兩種不同注意力機(jī)制SE block[21]以及CBAM[15]的對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示。

        表2 不同注意力機(jī)制對(duì)比實(shí)驗(yàn)結(jié)果Tab.2 Comparison of experimental results of different attention mechanisms

        分別增加了GC 注意力機(jī)制和SE注意力機(jī)制的網(wǎng)絡(luò)和原網(wǎng)絡(luò)相比,參數(shù)量和FLOPs 的增加都非常小。在表2 中參數(shù)量和計(jì)算量按照科學(xué)計(jì)數(shù)法表示,相應(yīng)結(jié)果乘以106,折算下來(lái)兩種注意力機(jī)制在參數(shù)量和計(jì)算量上的差別微乎其微,但使用GC block的網(wǎng)絡(luò)MIoU會(huì)更高。CBAM注意力機(jī)制較為復(fù)雜,所以在MUNet中增加少量的CBAM 模塊得到的MIoU比未加之前更差,同時(shí)CBAM所增加的參數(shù)量和計(jì)算量也是這三種注意力機(jī)制中最多的,這樣的CBAM并不適合在設(shè)計(jì)輕量級(jí)網(wǎng)絡(luò)的情況下使用。對(duì)比其他兩種注意力機(jī)制,使用GC注意力模塊后的模型分割結(jié)果是最好的,增加的參數(shù)量以及計(jì)算量相對(duì)較少,在模型分割結(jié)果和復(fù)雜度之間是最好的折中。

        3.3 結(jié)果與分析

        在1 000 輪訓(xùn)練下,當(dāng)測(cè)試圖像都裁剪為512×512 大小時(shí),MUNet和其他現(xiàn)存的圖像語(yǔ)義分割模型在CamVid數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果如表3所示。

        表3 圖像語(yǔ)義分割模型實(shí)驗(yàn)結(jié)果Tab.3 Experimental results of image semantic segmentation models

        在表3 中,本文提出的MUNet 模型在參數(shù)量和計(jì)算量都很少的情況下,分割結(jié)果MIoU 高于使用ResNet101[38]作為基準(zhǔn)網(wǎng)絡(luò)來(lái)提取特征的PSPNet、DeepLabv3+、GCN、RefineNet[39]圖像語(yǔ)義分割網(wǎng)絡(luò)。而MUNet 和其他輕量級(jí)語(yǔ)義分割模型在CamVid數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果如表4所示。

        表4 輕量級(jí)語(yǔ)義分割模型實(shí)驗(yàn)結(jié)果Tab.4 Experimental results of light-weighted semantic segmentation models

        和屬于輕量級(jí)網(wǎng)絡(luò)的快速語(yǔ)義分割模型(Fast Semantic Segmentation Network,F(xiàn)SSNet)[2]以及高效神經(jīng)網(wǎng)絡(luò)(Efficient neural Network,ENet)[40]比較,MUNet 的參數(shù)量會(huì)多一些,但分割效果更好,其MIoU 比FSSNet 網(wǎng)絡(luò)的MIoU 高約1 個(gè)百分點(diǎn)左右,比ENet網(wǎng)絡(luò)的MIoU高8.28個(gè)百分點(diǎn),是模型參數(shù)量以及計(jì)算量和模型分割精度之間相對(duì)較好的折中。FSSNet原文沒(méi)有給出計(jì)算量指標(biāo),因此兩者在計(jì)算量維度上無(wú)法進(jìn)行比較。

        由于硬件限制,對(duì)于分辨率為960×780 大小的原始輸入圖像,將其裁剪為512×512 大小進(jìn)行訓(xùn)練。測(cè)試的時(shí)候,對(duì)于不同分辨率大小的測(cè)試圖像,模型分割結(jié)果是不一樣的,如表5所示。

        表5 MUNet對(duì)不同分辨率圖像的分割結(jié)果Tab.5 Segmentation results of MUNet for different resolution images

        模型針對(duì)分辨率稍大一些的測(cè)試圖像,能獲得更多的細(xì)節(jié)信息,分割結(jié)果也相應(yīng)地會(huì)更好。在表5 中當(dāng)測(cè)試圖像分辨率為720×720 時(shí),MUNet 模型分割結(jié)果是最好的,其MIoU達(dá)到了61.92%。模型具體分割結(jié)果對(duì)比如圖7所示。在圖7中,主要選取了CamVid 數(shù)據(jù)集中比較典型的4 種道路場(chǎng)景,涵蓋了行人、車(chē)輛、路燈、車(chē)道線(xiàn)以及小動(dòng)物等不同類(lèi)別,這些類(lèi)別在道路場(chǎng)景中大小不一。為了更好地展示網(wǎng)絡(luò)分割效果,圖7中的所有圖都被裁剪為512×512,由于篇幅的限制,在結(jié)果圖顯示中只選取了具有代表性的PSPNet 以及RefineNet和MUNet模型分割結(jié)果圖進(jìn)行比較。

        圖7 測(cè)試圖像、精細(xì)標(biāo)注以及分割結(jié)果Fig.7 Test images,accurate labeling and segmentation results

        場(chǎng)景1 中,道路上視野遠(yuǎn)處車(chē)輛少而行人較多,難點(diǎn)在于視線(xiàn)正前方遠(yuǎn)處這塊人流聚集區(qū)域的識(shí)別與分割;而場(chǎng)景2和場(chǎng)景3 屬于在城市道路場(chǎng)景中人車(chē)交匯比較復(fù)雜的場(chǎng)景,虛線(xiàn)框處的騎著自行車(chē)的行人和視線(xiàn)遠(yuǎn)處緊挨著大型公交車(chē)的行人在車(chē)流中不容易被識(shí)別出來(lái),但是這些類(lèi)別卻是真實(shí)駕駛場(chǎng)景中最應(yīng)該注意分割的類(lèi)別;場(chǎng)景4 中如圖中虛線(xiàn)框所示,視線(xiàn)遠(yuǎn)處的車(chē)輛行人和紅綠燈下的狗都是需要特別注意的分割重點(diǎn),因此在分割中應(yīng)該要能把這些類(lèi)別都清晰地分割出來(lái)。綜合比較三種網(wǎng)絡(luò)在這四種場(chǎng)景下的分割結(jié)果圖,MUNet 是最能將上述四種場(chǎng)景中的難重點(diǎn)完整分割出來(lái)的網(wǎng)絡(luò),其他兩種網(wǎng)絡(luò)的分割結(jié)果都存在著不同程度的變形。

        實(shí)驗(yàn)結(jié)果表明,本文提出的MUNet 模型能夠較好地適應(yīng)不同的道路場(chǎng)景,對(duì)于簡(jiǎn)單一點(diǎn)的場(chǎng)景,不管地面交通標(biāo)記還是正在行駛中的車(chē)輛行人,模型的分割結(jié)果和精細(xì)標(biāo)注非常接近。然而對(duì)于復(fù)雜情況,由于復(fù)雜道路場(chǎng)景中細(xì)節(jié)過(guò)多,模型無(wú)法很好地對(duì)遠(yuǎn)處微小物體以及多種目標(biāo)混合區(qū)域進(jìn)行完美的分割,比如在圖7 最后一個(gè)場(chǎng)景中,對(duì)于視野遠(yuǎn)處的道路柵欄和車(chē)道線(xiàn),容易出現(xiàn)分割不完整或者是沒(méi)有分割到的情況。

        4 結(jié)語(yǔ)

        本文基于深度可分離卷積,設(shè)計(jì)出一種對(duì)稱(chēng)U型編碼器-解碼器式輕量級(jí)圖像語(yǔ)義分割網(wǎng)絡(luò)MUNet,并在其中加入稀疏短連接設(shè)計(jì)、注意力機(jī)制以及組歸一化方法,在極大地減少網(wǎng)絡(luò)模型參數(shù)量以及計(jì)算量的同時(shí),較好地提升網(wǎng)絡(luò)分割性能。和其他輕量級(jí)網(wǎng)絡(luò)相比,文章提出的MUNet 雖然在分割性能上表現(xiàn)較好,但在參數(shù)量和計(jì)算量方面仍需繼續(xù)改進(jìn)。

        本文實(shí)驗(yàn)過(guò)程中設(shè)計(jì)了不同分辨率測(cè)試圖像的對(duì)比實(shí)驗(yàn),而這也給之后的工作帶來(lái)一些啟發(fā),嘗試加入多尺度輸入圖像去獲得更精細(xì)的分割結(jié)果。由于硬件限制,本文實(shí)驗(yàn)僅使用小數(shù)據(jù)集訓(xùn)練1 000輪得到接近收斂的模型,在硬件設(shè)施允許的情況下,其實(shí)可以使用大數(shù)據(jù)集得到更優(yōu)的分割結(jié)果。

        猜你喜歡
        注意力語(yǔ)義卷積
        讓注意力“飛”回來(lái)
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        語(yǔ)言與語(yǔ)義
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語(yǔ)義模糊
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
        国产女人的高潮国语对白| 亚洲av第二区国产精品| 国产毛片精品av一区二区| 午夜久久久久久禁播电影| 无码精品久久久久久人妻中字| 国产美女白浆| 开心五月婷婷综合网站| 日本乱熟人妻中文字幕乱码69| 国产综合色在线视频区| 色噜噜狠狠色综合成人网| 国产国拍亚洲精品福利| 青青草视频视频在线观看| 亚洲人精品午夜射精日韩| 中出内射颜射骚妇| 亚洲中文字幕久爱亚洲伊人| 人妻被公上司喝醉在线中文字幕| 精品精品国产高清a毛片| 成av人片一区二区三区久久| 国产精品系列亚洲第一| 国产亚洲av夜间福利在线观看| 少妇伦子伦情品无吗| 国产嫖妓一区二区三区无码| 亚洲精品AⅤ无码精品丝袜无码| 天堂久久一区二区三区| 一本色道久久综合狠狠躁篇| 亚洲熟女少妇一区二区| 色婷婷亚洲十月十月色天| 涩涩鲁精品亚洲一区二区| 国产喷水1区2区3区咪咪爱av| 日韩AVAV天堂AV在线| 玩弄极品少妇被弄到高潮| 亚洲一区二区三区乱码在线中国| 国产免费av片无码永久免费| 国产在线美女| 国产午夜精品av一区二区三| 中文字幕一区二区三区四区五区| 亚洲日韩欧洲无码av夜夜摸| 亚洲免费视频网站在线| 中文字幕有码在线亚洲| 日韩精品极品视频在线观看免费| 99热成人精品热久久66|