亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于卷積神經(jīng)網(wǎng)絡(luò)的多尺度圖像語義分割*

        2023-05-12 02:26:46王欽玉段先華
        計算機與數(shù)字工程 2023年1期
        關(guān)鍵詞:空洞編碼器語義

        王欽玉 段先華

        (江蘇科技大學(xué)計算機學(xué)院 鎮(zhèn)江 212000)

        1 引言

        對于計算機視覺任務(wù)而言,場景理解的重要性在現(xiàn)實應(yīng)用中逐漸突出,越來越多的應(yīng)用場景需要從圖像中推理出相關(guān)語義,包括圖像編輯,自動駕駛[1]、圖像搜索引擎[2]、無人機應(yīng)用、虛擬現(xiàn)實等。語義分割是基于像素級別的、具有高精度的圖像分割,對圖像中的每個像素點進行密集預(yù)測,使每個像素點均被標(biāo)注上對應(yīng)物體或區(qū)域的類別。

        在深度學(xué)習(xí)時代到來前,語義分割工作多是根據(jù)圖像像素自身的低階視覺信息來進行圖像分割,如N-Cut,Grab cut 等。該類算法計算復(fù)雜度不高,但在較困難的分割任務(wù)上分割效果并不能令人滿意。深度學(xué)習(xí)讓相關(guān)領(lǐng)域都發(fā)生了翻天覆地的變化,包括語義分割在內(nèi),許多計算機視覺問題都開始使用深度學(xué)習(xí)架構(gòu)解決,其效率和準(zhǔn)確率都遠遠超過傳統(tǒng)方法。

        以全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Net?works,F(xiàn)CN[3])為代表的一系列基于卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的語義分割方法相繼提出,不斷刷新圖像語義分割精度。出自Berkeley 實驗室的全卷積神經(jīng)網(wǎng)絡(luò)FCN 是深度學(xué)習(xí)在圖像語義分割任務(wù)上的突破性算法,它基于主流的深度卷積神經(jīng)網(wǎng)絡(luò)模型(CNN),直接進行像素級端到端的語義分割。但是它固有的空間不變性這一特點,沒有考慮到圖像的全局上下文信息,并且其效率在高分辨率場景下還遠達不到實時應(yīng)用的要求。為了克服這些缺點,Chen 等[4]在FCN 網(wǎng)絡(luò)后引入了一個條件隨機場作為后處理過程來調(diào)優(yōu)結(jié)果;Yu 等[5]提出空洞卷積(dilated convolutions),將網(wǎng)絡(luò)中會造成全局信息損失的池化層去掉,通過擴大感受野的方式保留空間信息。除FCN外,編碼器-解碼器(Encode-Decode)架構(gòu)通過編碼器提取特征并壓縮特征圖的尺寸,解碼器逐步恢復(fù)特征圖尺寸達到與輸入圖像相同的分辨率,獲得上下文信息,如SegNet[6]、U-Net[7]、Re?fineNet[8]等。Deeplabv3+[10]通過引入空洞空間金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)[9]模塊,捕獲多尺度空間特征,同時加入簡單高效的De?code模塊,是目前最成熟的語義分割網(wǎng)絡(luò)之一。它在提取局部特征和利用較小感受野進行預(yù)測方面效果較好,但其不能很好地分割精細地物和相似地物,也不能對事物輪廓作出很好識別。

        為此,本文基于DeeplabV3+,提出一種改進算法,對多尺度特征融合展開研究,通過多尺度特征融合,將圖像的低層特征信息與經(jīng)過多次采樣后的高層特征融合,從而減輕了信息損失,提高了分割準(zhǔn)確度。

        2 相關(guān)介紹

        2.1 DeeplabV3+網(wǎng)絡(luò)結(jié)構(gòu)

        DeeplabV3+是在DeeplabV3[11]的基礎(chǔ)上,使用其編碼器模塊,并添加解碼模塊實現(xiàn)端到端的語義分割。它的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。編碼器結(jié)構(gòu)采用深度卷積神經(jīng)網(wǎng)絡(luò)提取低層細節(jié)信息,通過空洞卷積來控制輸出特征圖的分辨率;接著將初始特征傳遞至ASPP 模塊,由不同擴張率的空洞卷積獲取到更豐富的語義信息;使用1×1 的卷積將輸出通道調(diào)整為256。由于編碼器輸出的特征圖尺寸為原圖的十六分之一,直接16 倍上采樣會損失信息,因此解碼器先將輸出特征圖使用雙線性插值法進行四倍上采樣,然后與深度卷積神經(jīng)網(wǎng)絡(luò)中對應(yīng)分辨率的特征圖進行拼接,再進行四倍上采樣使特征圖與原始圖像尺寸相同,從而逐步獲得清晰的分割物體邊界。

        圖1 DeepLabV3+網(wǎng)絡(luò)結(jié)構(gòu)

        2.2 空洞空間金字塔池化

        空洞空間金字塔池化(Atrous Spatial Pyramid Pooling)對給定的輸入以不同采樣率的空洞卷積進行采樣,用于獲取不同尺度的特征信息,增大感受野的同時,不會降低空間維度。它的結(jié)構(gòu)如圖2 所示。

        圖2 ASPP結(jié)構(gòu)

        空洞卷積就是在標(biāo)準(zhǔn)卷積中注入空洞,通過不同的空洞率獲取不同的感受野,捕捉一些因普通池化導(dǎo)致的信息損失。感受野是卷積神經(jīng)網(wǎng)絡(luò)中每一層輸出的特征圖上每個像素點在原始圖像上映射的區(qū)域大小,神經(jīng)元感受野的值越大代表其能接觸到的原始圖像的范圍就越大,進而得到語義層次更高更全局的特征。

        經(jīng)過卷積后的特征圖尺寸M 的計算公式如式(1):

        其中ksize為普通卷積核尺寸,W 為輸入圖像尺寸,S為卷積步長,P為補零層數(shù)。

        空洞卷積核的實際大小計算公式為式(2):

        感受野的大小計算公式為式(3):

        其中ksize 為普通卷積核尺寸,rate 為卷積核擴張率??斩淳矸e即在普通卷積的基礎(chǔ)上,相鄰權(quán)重之間的間隔為rate-1,其中普通卷積的rate 默認(rèn)為1;不同擴張率的空洞卷積和對應(yīng)感受野如圖3所示。

        圖3 不同擴張率的空洞卷積

        3 本文方法

        本文算法在DeeplabV3+的基礎(chǔ)上進行改進,提出了基于卷積神經(jīng)網(wǎng)絡(luò)的多尺度圖像語義分割方法,具體的流程如圖4 所示,網(wǎng)絡(luò)包括編碼器和解碼器兩個模塊。首先編碼器模塊采用修改后的ResNet 網(wǎng)絡(luò),設(shè)置block4 卷積的空洞率,以彌補隨著分辨率降低感受野的縮小。然后接入ASPP模塊獲取多尺度信息,并通過全局平均池化獲得全局信息。其次,加入兩個3×3 卷積網(wǎng)絡(luò)對輸入原分辨率圖像進行特征提取以獲得高層次語義特征,將其與之前解碼模塊獲得的特征圖融合。最后使用一個1×1卷積調(diào)整通道數(shù),以便于分割。

        圖4 多尺度特征的語義分割算法

        常見的多層融合方法分為Addition 融合和Concatenate 融合,在ResNet 中采用Add 融合方式,在通道數(shù)不變的情況下特征圖相加;在ASPP 模塊和解碼器模塊采用Concat融合方式,通過通道數(shù)合并的方法融合特征圖。

        3.1 編碼器模塊

        在編碼器模塊使用修改的ResNet_101 網(wǎng)絡(luò)[12]和空洞空間金字塔池化結(jié)構(gòu)提取多尺度特征。傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)或全連接層在訓(xùn)練過程中,隨著網(wǎng)絡(luò)層次的加深,信息丟失過多,準(zhǔn)確率下降。而ResNet 利用殘差學(xué)習(xí)的思想,解決了這一損耗問題。ResNet_101 中使用由1×1,3×3,1×1 共三個卷積構(gòu)成的“building block”作為一個殘差模塊,通過1×1 卷積改變維度從而減少參數(shù)數(shù)目,降低計算量,當(dāng)特征圖尺寸縮小一半,通道數(shù)將增加一倍。本文算法的編碼器網(wǎng)絡(luò)基于ResNet_101 進行了修改,去掉了其后面的全連接層,在block4 使用了空洞率為4 卷積,以保證在分辨率不降低的情況下擴大感受野,并在最后接入了ASPP模塊。

        為了更好地提取不同尺度的特征,本文算法的ASPP 模塊選擇了擴張率分別為6,12,18 的卷積核(其感受野分別是23×23、47×47、71×71);為了更好地獲取圖像全局信息,增加了全局平均池化(Glob?al Average Pooling,GAP)[13]來增加圖像級特征。

        3.2 解碼器模塊

        標(biāo)準(zhǔn)的DeepLabv3+設(shè)計在原圖的四分之一分辨率處與編碼器生成的特征圖拼接,代價就是最終模型的精確度降低。精細分割往往要求以數(shù)據(jù)集的原始分辨率進行操作,因此我們對解碼器部分進行修改,在四倍上采樣后,結(jié)合淺層特征圖,通過融合圖像高分辨率特征信息,獲得擁有更多上下文細節(jié)信息的特征圖。最后在經(jīng)過一個1×1 卷積調(diào)整輸出通道為待分割類別數(shù),通過Softmax 函數(shù)分類得到最終分割結(jié)果。相比傳統(tǒng)語義分割網(wǎng)絡(luò)只在最后一個解碼塊的輸出中使用Softmax 分類,本方法通過拼接淺層特征獲取到其他解碼塊輸出的細節(jié)和位置信息,使最終結(jié)果更精確,邊界也更清晰。

        4 實驗研究

        4.1 實驗環(huán)境配置

        本文實驗所需要的設(shè)備環(huán)境為Ubutu16.04 系統(tǒng),CPU 為Inter Core i9-6700,GPU 為NVIDIA Ge?Force GTX 2080,顯存為12G 等,使用TensorFlow 深度學(xué)習(xí)框架來訓(xùn)練并測試本文的語義分割模型。在PASCAL VOC2012的訓(xùn)練過程中,編碼網(wǎng)絡(luò)的參數(shù)初始化使用在ImageNet[14]上預(yù)訓(xùn)練過的ResNet_101預(yù)訓(xùn)練參數(shù),迭代步數(shù)設(shè)定為30000步,采用交叉熵作為損失函數(shù),學(xué)習(xí)率設(shè)為0.001,動量參數(shù)為0.9,權(quán)重衰減為0.0005。

        4.2 數(shù)據(jù)集

        PASCAL VOC 2012[15]為圖像分割提供了一套優(yōu)秀的數(shù)據(jù)集,包括人、動物、交通工具、室內(nèi)物體等20個對象類和1個背景類,不同類別的物體用不同顏色表示。其中訓(xùn)練圖片、驗證圖片、測試圖片的數(shù)量分別為1464 張、1449 張、1456 張,數(shù)據(jù)集每張圖的尺寸大小不固定。在此基礎(chǔ)上,額外采用標(biāo)注生成的增強數(shù)據(jù)集[16],包括10582 張訓(xùn)練圖片。本文在前述數(shù)據(jù)集的訓(xùn)練集上訓(xùn)練網(wǎng)絡(luò),在驗證集上進行評價指標(biāo)計算,利用測試集上比較語義分割結(jié)果。

        4.3 評估標(biāo)準(zhǔn)與分析

        實驗結(jié)果的評價采用平均交并比(mean Inter?section over Union,mIoU)作為算法性能評價標(biāo)準(zhǔn)。在圖像分割領(lǐng)域mIoU 是評價圖像分割精度的重要指標(biāo),IoU 表示預(yù)測結(jié)果與真實值(Ground Truth,GT)的交并比,mIoU 即表示在每個類別上計算IoU后的平均值。計算公式為式(4):

        其中k 表示標(biāo)記的類別數(shù),k+1 表示包含背景或空類在內(nèi)的總類別數(shù),pii表示預(yù)測正確的像素數(shù)量,pij表示實際屬于i類被預(yù)測為j類的像素數(shù)量,pji表示實際屬于j類被預(yù)測為i類的像素數(shù)量。mIoU的值越大,說明預(yù)測的效果更準(zhǔn)確。

        本文將提出的算法和其他現(xiàn)有的一些語義分割算法進行比較,都是基于PASAL VOC 2012 數(shù)據(jù)集,結(jié)果如表1所示。由表1可知,本文算法分割優(yōu)于其他語義分割算法,本文在物體細節(jié)處理方面做出了改進,對細節(jié)部分有著更好的分割性能,mIoU值為82.1%,性能得到了有效提高。

        表1 在PASCAL VOC 2012數(shù)據(jù)集上的mIoU對比結(jié)果

        4.4 實驗結(jié)果

        為了進一步驗證所提方法的有效性,本文算法采用公開數(shù)據(jù)集PASCAL VOC 2012 進行實驗驗證??梢暬指罱Y(jié)果的對比圖如圖5 所示,其中第一列為原始圖像,第二列為DeepLabV3+的語義分割結(jié)果,第三列為本文方法的語義分割結(jié)果圖像,第四列為Ground Truth。由圖5 比較的結(jié)果可知,本文算法結(jié)合了多尺度特征信息,分割表現(xiàn)優(yōu)于DeepLabV3+算法,結(jié)果更接近于真實值,對物體類別的細節(jié)分割都較為完整,在物體邊緣處理準(zhǔn)確性方面有著一定的提升。

        圖5 在PASCAL VOC 2012上的實驗結(jié)果對比圖

        5 結(jié)語

        本文基于DeepLabV3+對全卷機神經(jīng)網(wǎng)絡(luò)進行了改進。采用編碼器解碼器結(jié)構(gòu),編碼端使用殘差網(wǎng)絡(luò)和ASPP 結(jié)構(gòu)提取不同尺度的信息,保證了細節(jié)特征的表達;利用雙線性插值法上采樣以恢復(fù)圖像分辨率;解碼端結(jié)合了多個輸出,融合圖片高分辨率特征信息,最終得到擁有更多上下文細節(jié)的特征圖。通過實驗結(jié)果表明本文的優(yōu)化方法擁有不錯的語義分割能力,能得到較好的結(jié)果。

        猜你喜歡
        空洞編碼器語義
        語言與語義
        基于FPGA的同步機軸角編碼器
        空洞的眼神
        基于PRBS檢測的8B/IOB編碼器設(shè)計
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        JESD204B接口協(xié)議中的8B10B編碼器設(shè)計
        電子器件(2015年5期)2015-12-29 08:42:24
        用事實說話勝過空洞的說教——以教育類報道為例
        新聞傳播(2015年20期)2015-07-18 11:06:46
        認(rèn)知范疇模糊與語義模糊
        多總線式光電編碼器的設(shè)計與應(yīng)用
        臭氧層空洞也是幫兇
        欧洲女人性开放免费网站| 一区二区三区亚洲视频| 精品国产yw在线观看| 少妇愉情理伦片丰满丰满午夜| 伊人久久综在合线亚洲不卡| 国产亚洲亚洲精品视频| av色一区二区三区精品 | 老妇女性较大毛片| 国产欧美久久久另类精品| 亚洲天堂一区二区精品| 久久天堂精品一区二区三区四区| 人妻av鲁丝一区二区三区| 国产精品日韩欧美一区二区区| 国产精品毛片大尺度激情| 亚洲精品中文字幕一区二区| 久久精品国产精品国产精品污| 亚洲AⅤ无码国精品中文字慕| 91亚洲夫妻视频网站| 国产成人精品无码片区在线观看| 无码人妻丰满熟妇区五十路百度| 精品亚洲少妇一区二区三区| 青青操视频手机在线免费观看| 97人伦影院a级毛片| 无码aⅴ在线观看| 国产男女猛烈无遮挡免费视频网址| 夜晚黄色福利国产精品| 亚洲第一页综合图片自拍| 亚洲不卡无码高清视频| 色婷婷久久综合中文久久一本| 久久婷婷五月综合色丁香| 丰满五十六十老熟女hd| 国产精品亚洲av网站| 白白发在线视频免费观看2| 国产亚洲午夜高清国产拍精品 | 免费中文熟妇在线影片| 91亚洲人成手机在线观看| 看国产亚洲美女黄色一级片| 精品国产这么小也不放过| 91日韩高清在线观看播放| 日本人妻系列一区二区| 亚洲色大成网站www永久|