亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多級特征圖聯(lián)合上采樣的實時語義分割

        2022-03-16 03:36:42王小瑀
        計算機技術(shù)與發(fā)展 2022年2期
        關(guān)鍵詞:跨步空洞無人駕駛

        宋 宇,王小瑀,梁 超,程 超

        (長春工業(yè)大學(xué) 計算機科學(xué)與工程學(xué)院,吉林 長春 130012)

        1 概 述

        近年來,對于無人駕駛視覺感知系統(tǒng),大多使用語義分割技術(shù)來處理感知到的物體。因此語義分割在無人駕駛領(lǐng)域有著極其重要的作用。由于無人駕駛的特殊性,使其不僅對語義分割網(wǎng)絡(luò)的準確度有要求,對實時性的需求也非常迫切。

        Long等人提出了最原始的語義分割網(wǎng)絡(luò)FCN。繼FCN之后應(yīng)用于無人駕駛的語義分割算法總體來說可以分為兩大類:第一類是基于編碼器-解碼器結(jié)構(gòu)的網(wǎng)絡(luò),例如Ronneberger等人提出的Unet網(wǎng)絡(luò),在進行少類別分割任務(wù)時速度快、精確高。但是當分割類別增多,網(wǎng)絡(luò)分割速度將大幅度降低;劍橋大學(xué)提出的SegNet,網(wǎng)絡(luò)中采用最大池化索引指導(dǎo)上采樣存在特征圖稀疏問題,進而導(dǎo)致算法雖然達到了實時分割速度,但分割精度低;Paszke等人提出的Enet網(wǎng)絡(luò)通過減少神經(jīng)元權(quán)重數(shù)量以及網(wǎng)絡(luò)體積使得網(wǎng)絡(luò)可以達到實時分割的要求,但是算法的擬合能力弱導(dǎo)致分割精度較低。第二類是基于上下文信息的網(wǎng)絡(luò),例如Zhao H等人提出的PSPNet網(wǎng)絡(luò),通過引入更多上下文信息提高了網(wǎng)絡(luò)的場景解析能力,但是由于多次下采樣操作導(dǎo)致特征圖丟失大部分空間信息。針對這個問題,Zhang H等人提出了EncNet,但是由于采用Resnet101網(wǎng)絡(luò)作為主干,參數(shù)量龐大,網(wǎng)絡(luò)實時性較差;Chen等人提出的DeepLab網(wǎng)絡(luò),引入了空洞卷積來保持感受野不變。并且后續(xù)又提出了DeepLab v2以及DeepLab v3+網(wǎng)絡(luò),其中DeepLab v3+結(jié)合了兩大類網(wǎng)絡(luò)的優(yōu)點,使用DeepLab v3作為編碼器并且在最終特征圖的頂部采用了空洞金字塔池化模塊(atrous convolution spatial pyramid pooling,ASPP),在避免下采樣操作的同時獲取了多感受野信息。但是網(wǎng)絡(luò)在分割速度方面存在不足,主要是因為引入空洞卷積帶來了大量的計算復(fù)雜度和內(nèi)存占用。以Restnet-101為例,空洞卷積的引用使得其中23個殘差模塊,需要占用4倍的計算資源和內(nèi)存,最后3個殘差模塊需要占用16倍以上的資源。

        針對以上各種網(wǎng)絡(luò)無法同時兼顧準確度以及實時性的問題,該文提出了一種實時語義分割網(wǎng)絡(luò),采用參數(shù)量較少的輕量卷積網(wǎng)絡(luò)FCN8s代替DeepLab v3+中的ResNet101作為網(wǎng)絡(luò)的主干。文中算法主干與DeepLab v3+的區(qū)別在于最后兩個卷積階段。以第四個卷積階段(Conv4)為例。在DeepLab v3+中首先對輸入圖片進行卷積處理,然后再進行一系列的空洞卷積處理。不同的是,文中方法首先使用跨步卷積來處理輸入的特征圖,然后使用幾個常規(guī)卷積來生成輸出特征圖。并且使用多級特征圖聯(lián)合上采樣模塊(multi-scale feature map joint pyramid upsamping,MJPU)來代替DeepLab v3+中耗時、耗內(nèi)存的空洞卷積,大大減少了整個分割框架的計算時間和內(nèi)存占用。最重要的是,MJPU在大幅度減少運算量的同時,不會造成性能上的損失,讓算法應(yīng)用在無人駕駛實時語義分割場景中變得可行。

        2 文中算法

        為了獲得高分辨率的最終特征圖,DeepLab網(wǎng)絡(luò)中的方法是將FCN最后兩個下采樣操作刪除,這兩個操作由于擴大了特征圖的感受野而帶來了大量的計算復(fù)雜度以及內(nèi)存占用量。該文的目標是尋找一種替代方法來近似最終的特征圖。

        為了實現(xiàn)這一目標,首先將所有被DeepLab v3+刪除的跨步卷積全部復(fù)原,之后用普通的卷積層替換掉空洞卷積。如圖1所示,文中方法主干與原始的FCN相同,其中五個特征圖(Conv1-Conv5)的空間分辨率逐漸降低2倍。

        圖1 網(wǎng)絡(luò)執(zhí)行流程

        為了得到與DeepLab v3+相似的特征圖,提出了一個新的模塊,叫做多級特征圖聯(lián)合上采樣模塊(MJPU),它以編碼器最后三個特征圖(Conv3-Conv5)為輸入,然后使用一個改進的多尺度上下文模塊(ASPP)來產(chǎn)生最終的預(yù)測結(jié)果。在算法執(zhí)行過程中,輸入圖片的格式為

        H

        ×

        W

        ×3,經(jīng)過文中設(shè)計的編碼器網(wǎng)絡(luò),編碼器網(wǎng)絡(luò)由輕量級網(wǎng)絡(luò)構(gòu)成,可以減少算法在編碼階段的計算時間;其次使用MJPU模塊來生成一個特征圖,該特征圖的作用類似于Deeplab v3+主干網(wǎng)絡(luò)中最后一個特征圖的激活作用。MJPU的使用避免了DeepLab v3+中參數(shù)量龐大的空洞金字塔池化網(wǎng)絡(luò)與高分辨率的最終特征圖做卷積運算而大幅度降低了分割速度。MJPU模塊是該文可以大幅度增加實時性的重要因素。最后網(wǎng)絡(luò)經(jīng)過ASPP獲取不同大小的感受野信息,增加網(wǎng)絡(luò)對不同尺度物體的分割能力,提升算法的分割精度。下面將詳細介紹替換空洞卷積的方法以及多級特征圖聯(lián)合上采樣模塊的結(jié)構(gòu)。

        2.1 空洞卷積的替代

        跨步卷積被用來將輸入特征轉(zhuǎn)化為空間分辨率更低的輸出特征,這相當于圖2(b)所示的兩個步驟;(1)對輸入特征

        f

        做普通卷積,得到中間特征

        f

        ;(2)刪除索引為奇數(shù)的元素,得到

        f

        。

        圖2 一維空洞卷積與跨步卷積示意圖

        形式上,給定輸入特征圖的

        x

        ,DeepLab v3+網(wǎng)絡(luò)中得到輸出特征圖的

        y

        如下:

        (1)

        而在文中方法中,生成的輸出特征圖

        y

        如下:

        (2)

        其中,

        C

        代表普通卷積,

        C

        代表空洞卷積,

        C

        代表跨步卷積。

        S

        、

        M

        R

        分別代表圖2中的分離、合并、刪除操作。相鄰的

        S

        M

        操作是可以相互抵消的。為了簡單起見,上述兩個方程中的卷積是一維的,對于二維卷積可以得到類似的結(jié)果。

        2.2 多級特征圖聯(lián)合上采樣模塊

        (3)

        其中,

        H

        是所有可能的變換函數(shù)集合,‖.‖是一個給定的距離度量。

        (4)

        根據(jù)上述分析,設(shè)計了如圖3所示的MJPU模塊。

        圖3 MJPU模塊

        圖4 深度可分率卷積作用示意圖

        3 實驗與分析

        3.1 評價指標

        實驗主要是在準確率以及速度兩方面對網(wǎng)絡(luò)進行了評價。在準確率方面使用的是像素精度(PixAcc)以及平均交并比(mIoU)作為評價指標。在速度方面則使用的是每秒處理幀數(shù)(FPS)作為評價指標。

        PixAcc是語義分割中正確分割像素占全部像素的比值,而mIoU指的是真實分割與預(yù)測分割之間重合的比例,其計算公式如下:

        (5)

        式中,

        k

        表示類別數(shù)量,文中為34類。

        TP

        表示正類判斷為正類的數(shù)量,

        FP

        表示負類判斷為正類的數(shù)量,

        FN

        表示正類判斷為負類的數(shù)量。

        FPS作為常見的測量網(wǎng)絡(luò)速度的評價指標,計算公式如下:

        (6)

        其中,

        N

        表示處理圖像數(shù)量,

        T

        表示處理第

        j

        張圖像所用的時間。

        3.2 實驗環(huán)境

        語義分割模型使用TensorFlow2.0深度學(xué)習(xí)網(wǎng)絡(luò)框架搭建,在訓(xùn)練和測試階段的服務(wù)器配置均具有英特爾 Core i9-9900K 5.0 GHz的CPU、32 G DDR4 2 666 MHz的內(nèi)存和RTX-2080TI(具有11 GB顯存)的GPU,并且基于Window10的操作系統(tǒng),在CUDA10.0架構(gòu)平臺上進行并行計算,并調(diào)用CuDNN7.6.5進行加速運算。

        在訓(xùn)練過程中網(wǎng)絡(luò)采用Adam優(yōu)化器,初始學(xué)習(xí)率是0.001,學(xué)習(xí)率策略為逆時間衰減策略,權(quán)重衰減使用L2正則化。其中decay_steps=74 300、decay_rate=0.5,代表每過100個epoch,學(xué)習(xí)率衰減為原來的三分之二。圖5是網(wǎng)絡(luò)應(yīng)用此種學(xué)習(xí)策略的loss值衰減曲線??梢郧宄闯瞿鏁r間衰減策略可以使模型在較少的epoch次數(shù)內(nèi)達到全局最優(yōu)。

        圖5 網(wǎng)絡(luò)訓(xùn)練過程中l(wèi)oss值展示

        3.3 數(shù)據(jù)集

        文中選擇的無人駕駛數(shù)據(jù)集為國際公開的由奔馳公司推動發(fā)布的數(shù)據(jù)集Cityscapes。Cityscapes是在無人駕駛環(huán)境語義分割中使用最廣泛的一個數(shù)據(jù)集。它包含了50個城市的不同場景、背景、季節(jié)的街景圖片,具有5 000張精細標注的圖像、20 000張粗標注的圖像。在實驗過程中,文中只使用了5 000張精細標注的圖像,將其劃分為訓(xùn)練集、驗證集和測試集。分別2 975張、500張、1 525張圖像,并且使用了全部34類物體作為分割對象。由于原有圖像分辨率為2 048×1 024,分辨率過高導(dǎo)致硬件無法進行大批量訓(xùn)練,因此對圖像進行縮放并裁剪成512×512大小。

        3.4 實驗結(jié)果分析

        為了驗證該網(wǎng)絡(luò)的分割性能,選取了六種網(wǎng)絡(luò)與文中算法做對比,選取的網(wǎng)絡(luò)分別為Unet、SegNet、ENet、PSPNet、EncNet、DeepLab v3+。算法性能對比見表1。

        表1 各算法在Cityscapes數(shù)據(jù)集(val)上的不同評估指標對比

        首先與表1中的前三種輕量級網(wǎng)絡(luò)進行對比,文中網(wǎng)絡(luò)的mIoU分別高出6.72%、10.03%和13.32%,PixAcc也有平均5%以上的提升。在網(wǎng)絡(luò)實時性方面雖然略低于Enet,但這是由于Enet通過減少神經(jīng)元權(quán)重數(shù)量的結(jié)果,雖然Enet的實時性較好但是算法嚴重非線性,網(wǎng)絡(luò)分割精度較低。而對比以分割精度為主要指標的PSPNet、EnecNet和DeepLab v3+,由于文中主干網(wǎng)絡(luò)采用的是輕量級網(wǎng)絡(luò),導(dǎo)致網(wǎng)絡(luò)精確度略微落后,但是在分割速度方面最多高出200%。

        圖6展示了不同算法的分割結(jié)果。從圖6中可以看出,文中算法對樓房、道路、樹、汽車、天空等都具有較好的分割效果,對于這些大物體該網(wǎng)絡(luò)均未產(chǎn)生分類錯誤區(qū)域;從圖中還可以看出該網(wǎng)絡(luò)對路燈等桿狀物體以及遠處車輛等小目標分割效果良好,這主要受益于所提出的MJPU模塊結(jié)合了多層特征圖的語義信息。

        圖6 不同算法在Cityscapes數(shù)據(jù)集上語義分割效果

        3.5 網(wǎng)絡(luò)結(jié)構(gòu)分析

        為了進一步驗證MJPU的有效性,該文將其與經(jīng)典的雙線性插值上采樣和特征金字塔網(wǎng)絡(luò)(FPN)進行了對比實驗。使用FPS作為評價指標,在GPU上以512×512圖像作為輸入進行測量。結(jié)果如表2和表3所示。對于ResNet-50,文中方法的測試速度大約是Encoding結(jié)構(gòu)(EncNet)的兩倍。當主干更改為ResNet101時,文中方法的檢測速度比Encoding結(jié)構(gòu)的快三倍以上。并且可以由圖看出文中方法的檢測速度可以和FPN相媲美。但是對于FPN來講,MJPU模塊可以獲得更好的性能。因此對于DeepLabv3+(ASPP)和PSP,文中提出的模塊可以在提高性能的同時,對網(wǎng)絡(luò)進行一定程度的加速。

        表2 Resnet-50中不同上采樣方式計算復(fù)雜度對比

        表3 Resnet-101中不同上采樣方式計算復(fù)雜度對比

        4 結(jié)束語

        為了使語義分割網(wǎng)絡(luò)更加滿足無人駕駛實時分割任務(wù)的需求,提出了一種新的實時語義分割網(wǎng)絡(luò)。首先,采用了一種輕量級的卷積神經(jīng)網(wǎng)絡(luò)作為編碼器。并且分析了空洞卷積和跨步卷積的區(qū)別和聯(lián)系,使用跨步卷積和普通卷積的組合代替了耗時、耗內(nèi)存的空洞卷積。在此基礎(chǔ)上,將高分辨率特征圖的提取問題轉(zhuǎn)化為一種聯(lián)合上采樣問題,提出了一種新的多級特征圖聯(lián)合上采樣模塊,通過該模塊可以在獲得近似與DeepLab v3+相似的特征圖的前提下,將網(wǎng)絡(luò)計算復(fù)雜度最多降低三倍以上。通過在Cityscapes數(shù)據(jù)集上的實驗表明(mIou=43.78%,F(xiàn)PS=32.3),所提出的實時分割算法在大幅度降低計算復(fù)雜度的同時,取得了較好的分割效果。從而使該網(wǎng)絡(luò)更加適合應(yīng)用于無人駕駛場景當中。

        猜你喜歡
        跨步空洞無人駕駛
        和爸爸一起鍛煉
        我們村的無人駕駛公交
        無人駕駛車輛
        科學(xué)(2020年3期)2020-11-26 08:18:28
        無人駕駛公園
        順應(yīng)網(wǎng)絡(luò)時代發(fā)展 向化解網(wǎng)購糾紛跨步
        空洞的眼神
        籃球運動員行進間投籃跨步起跳能力的測量與分析
        青年時代(2016年32期)2017-01-20 00:23:33
        用事實說話勝過空洞的說教——以教育類報道為例
        新聞傳播(2015年20期)2015-07-18 11:06:46
        跨步跳在訓(xùn)練中的作用及練習(xí)方法
        臭氧層空洞也是幫兇
        成人欧美一区二区三区a片| 亚洲av乱码二区三区涩涩屋 | 无码人妻少妇久久中文字幕蜜桃| 国产在线一区二区视频免费观看 | 久久水蜜桃亚洲av无码精品麻豆| 国产精品高潮无码毛片| 久久精品成人一区二区三区蜜臀| 亚洲一二三区免费视频| 日本高清视频xxxxx| 美女视频一区| 亚洲精品国产av一区二区| 人妻少妇69久久中文字幕| 中文字幕人妻熟在线影院| 在线亚洲综合| 亚洲精品在线观看一区二区| 媚药丝袜美女高清一二区| 国产在线观看无码免费视频 | 国产高清视频在线不卡一区| 97久久综合区小说区图片区| 暖暖免费 高清 日本社区在线观看 | 中文字幕一区乱码在线观看| 国产私人尤物无码不卡| 亚洲熟妇无码av另类vr影视| 亚洲精品国产不卡在线观看| 日韩av一区二区不卡在线| 欧美69久成人做爰视频| 久久国产成人午夜av影院| 国产av91在线播放| 日本人妻免费一区二区三区| 精品久久欧美熟妇www| 9久久精品视香蕉蕉| 亚洲产国偷v产偷v自拍色戒| 乱码一二三入区口| 熟妇与小伙子露脸对白| 日本超级老熟女影音播放| 成人性生交大片免费| av一区无码不卡毛片| 白白在线免费观看视频| 中国妇女做爰视频| 国产一在线精品一区在线观看 | 99久久免费精品高清特色大片|