亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于稠密擴(kuò)張卷積的圖像語義分割模型①

        2022-05-10 12:11:28張富財(cái)許建龍包曉安
        關(guān)鍵詞:語義特征實(shí)驗(yàn)

        張富財(cái),許建龍,包曉安

        (浙江理工大學(xué) 信息學(xué)院,杭州 310018)

        圖像語義分割是為圖像中的每一個(gè)像素分配一個(gè)具體的類別標(biāo)簽,達(dá)到像素級(jí)別的分類,是計(jì)算機(jī)視覺中的一項(xiàng)基礎(chǔ)性工作.圖像語義分割具有廣泛的實(shí)際應(yīng)用場(chǎng)景,如自動(dòng)駕駛、城市遙感地圖測(cè)繪、醫(yī)學(xué)影像分析等.在這些實(shí)際應(yīng)用中,高精度的分割結(jié)果至關(guān)重要.

        隨著卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,基于深度學(xué)習(xí)的圖像語義分割模型的精度得到空前的提高.Shelhamer 等提出的FCN 模型[1],奠定使用深度學(xué)習(xí)處理圖像語義分割任務(wù)的一般性過程,即先使用主干網(wǎng)絡(luò)對(duì)圖像做特征編碼降低分辨率,然后使用特定的解碼器解碼,還原圖像分辨率,最終產(chǎn)生密集型的像素類別預(yù)測(cè)結(jié)果.基于FCN 編解碼架構(gòu),圖像語義分割模型得到廣泛的發(fā)展.編碼器主要使用高精度的圖像分類網(wǎng)絡(luò),如VGGNet[2]、GoogleNet[3]、ResNet[4]、DenseNet[5]、PeleeNet[6]等,這些主干網(wǎng)絡(luò)具有很高的圖像分類精度,將最后的全連接分類層更換為卷積層便可以直接遷移到語義分割模型中使用.在解碼器方面,主要關(guān)注特征圖的語義信息和分割對(duì)象的空間位置信息,出現(xiàn)許多處理全局特征的技術(shù),本質(zhì)都是擴(kuò)大感受野,使模型感知全局信息,如Yu 等的DilationConv[7]提出擴(kuò)張卷積的概念,在不降低圖像空間分辨率的基礎(chǔ)上聚合圖像中不同尺寸的上下文信息并且擴(kuò)大感受野的范圍,精確定位分割對(duì)象;Chen 等的DeepLab[8]提出擴(kuò)張空間卷積金字塔池化(atrous spatial pyramid pooling,ASPP)模塊,采用多個(gè)不同擴(kuò)張率卷積的平行架構(gòu),關(guān)注不同感受野下的對(duì)象分割;Zhao 等的PSPNet[9]提出金字塔池化模塊(pyramid pooling module,PPM),使用平行的自適應(yīng)池化操作獲取不同感受野的分割對(duì)象.

        除了通過擴(kuò)大模型的感受野提高模型性能,視覺注意力機(jī)制同樣被引入圖像分割任務(wù)中,如Fu 等提出DANet[10],同時(shí)使用位置注意力和通道注意力提高解碼器的分割性能,使模型有重點(diǎn)的關(guān)注分割對(duì)象,但是注意力機(jī)制會(huì)耗費(fèi)相當(dāng)大的算力.后來,為了兼顧模型分割精度與推理速度,許多模型使用輕量級(jí)的編碼器和簡(jiǎn)易的解碼器構(gòu)建模型,如Paszke 等提出ENet[11]和Zhao 等提出ICNet[12],雖然推理速度達(dá)到了實(shí)時(shí)要求,但是精度還有待提高.本文對(duì)前述技術(shù)進(jìn)行綜合考慮,認(rèn)為分割精度是語義分割模型首要考慮的因素.本文對(duì)上述模型進(jìn)行復(fù)現(xiàn)實(shí)驗(yàn),發(fā)現(xiàn)PSPNet、DeepLab等模型僅使用主干網(wǎng)絡(luò)提取到的語義信息最豐富的最后一層特征圖,因?yàn)闇\層的高分辨特征圖依然富含大量的空間位置特征和語義特征[13],所以通過合理的結(jié)合多級(jí)特征圖依然可以提升模型性能.因?yàn)樯鲜瞿P蜎]有充分利用淺層低級(jí)特征圖的空間位置特征,導(dǎo)致他們的模型雖然可以捕獲豐富的高級(jí)語義特征,但是缺乏分割對(duì)象的空間位置信息,鑒于此,本文提出基于編解碼結(jié)構(gòu)的高精度圖像語義分割模型.

        本文使用已有工作的主干網(wǎng)絡(luò)ResNet[4]提取圖像特征,獲得4 級(jí)不同分辨率的特征圖(De1,De2,De3和De4),在此基礎(chǔ)上提出編解碼架構(gòu)的高精度語義分割模型:雙分支多層級(jí)語義分割網(wǎng)絡(luò)(double branch multi-stage network,DBMSNet),使用雙分支同時(shí)處理分割對(duì)象的空間位置特征和高級(jí)語義特征.

        本文主要工作為:(1)提出特征精煉模塊(feature refine,FR),通過融合高級(jí)語義特征與淺層的空間位置特征,使模型捕獲豐富的空間位置信息及全局上下文信息,強(qiáng)化模型的空間位置感知能力;(2)提出混合擴(kuò)張卷積模塊(mixed dilation module,MDM),使用已有的深度可分離卷積[14]搭建稠密型連接模塊(輕量級(jí)模塊),充分混合不同擴(kuò)張率的擴(kuò)張卷積,獲取不同尺度的感受野,強(qiáng)化模型對(duì)不同尺度對(duì)象的感知能力,增強(qiáng)空間位置特征的解碼能力,使模型獲取全局上下文信息;(3)提出雙分支的解碼器,第1 個(gè)分支使用FR和MDM 解碼淺層特征的空間位置特征,第2 個(gè)分支使用已有的PPM 模塊解碼高級(jí)語義特征;(4)與對(duì)比方法相比,本文提出的雙分支多層級(jí)語義分割網(wǎng)絡(luò)在公開數(shù)據(jù)集上達(dá)到更高的精度.

        1 雙分支多層級(jí)語義分割網(wǎng)絡(luò)

        1.1 模型總覽

        在這個(gè)小節(jié),介紹雙分支多層級(jí)語義分割網(wǎng)絡(luò)的整體結(jié)構(gòu).DBMSNet 由特征精煉模塊、混合擴(kuò)張卷積模塊及金字塔池化模塊構(gòu)成.目的是充分利用多層次特征,通過學(xué)習(xí)豐富的空間位置特征和全局上下文特征完成高精度的圖像分割任務(wù).如圖1所示.

        圖1 DBMSNet 網(wǎng)絡(luò)的整體結(jié)構(gòu)

        輸入3 通道圖像經(jīng)過Backbone 產(chǎn)生4 級(jí)特征圖,分別為不同的分辨率(De1、De2、De3、De4的分辨率為輸入圖像的1/4、1/8、1/16、1/16).然后使用雙分支進(jìn)行處理,第1 個(gè)分支為空間位置特征處理分支,首先將De1和De3 經(jīng)過FR 模塊,產(chǎn)生與De1 分辨率一致的特征圖,然后經(jīng)過MDM 模塊處理產(chǎn)生第1 個(gè)分支的輸出.第2 個(gè)分支為語義特征處理分支,使用PPM模塊處理De4 特征圖產(chǎn)生第2 個(gè)分支的輸出.最終,將兩個(gè)分支產(chǎn)生的輸出進(jìn)行加權(quán)合并操作,使用雙線性插值算法將合并的輸出上采樣至輸入圖片的原始分辨率作為最終輸出,完成端到端的模型搭建,既捕獲抽象的高級(jí)語義特征,又級(jí)聯(lián)淺層的空間位置特征.

        1.2 特征精煉模塊

        當(dāng)輸入圖像的分辨率為512×512×3 時(shí),OS=16 時(shí)(OS表示output stride),主干網(wǎng)絡(luò)提取到的各級(jí)特征圖分辨率如表1所示.特征精煉模塊細(xì)節(jié)如圖2.

        表1 主干網(wǎng)絡(luò)的各級(jí)特征圖分辨率

        圖2 特征精煉模塊細(xì)節(jié)

        特征精煉模塊如式(1):

        其中,Up(·)為雙線性插值上采樣函數(shù),C(·,·)為特征圖通道級(jí)聯(lián)函數(shù).

        1.3 混合擴(kuò)張卷積

        1.3.1 稠密型擴(kuò)張卷積

        稠密型擴(kuò)張卷積(dense dilation convolution,DDC)是混合擴(kuò)張卷積模塊的基本組成部分,并且深度可分離卷積[14]和分組卷積[15]與標(biāo)準(zhǔn)卷積的性能相似,但是效率更高.因此,使用深度可分離卷積來構(gòu)建輕量級(jí)DDC 模塊,如圖3所示的DDC 模塊細(xì)節(jié)圖.

        圖3 稠密擴(kuò)張卷積模塊的細(xì)節(jié)圖

        首先,給定一個(gè)輸入圖片IH×W×C0,H為高,W為寬,C0為通道數(shù).使用通道降維(channel reduce,CR)層進(jìn)行通道降維,該層使用1×1 分組卷積使通道數(shù)降低為C0×α,α為通道降低率,得到特征圖I′H×W×(C0×α);其次輸入到4 個(gè)平行的深度可分離卷積層,其中卷積操作后都進(jìn)行BatchNorm和ReLU 操作,以加速模型的收斂速度、提高穩(wěn)定性及解決梯度消失問題,分別生成4 個(gè)使用不同擴(kuò)張率卷積處理的特征圖,如式(2)所示.

        其中,i為正整數(shù),ri為不同的擴(kuò)張率,li為各分支的特征圖.使用不同擴(kuò)張率卷積的平行架構(gòu)可以捕獲不同尺度感受野對(duì)象,在多個(gè)尺度上合并上下文信息.雖然上述4 個(gè)平行分支可以捕獲多尺度局部語義特征,但是缺少全局感知信息.為了克服這個(gè)缺點(diǎn),設(shè)計(jì)自適應(yīng)平均池化分支捕獲全局上下文信息,通過I′H×W×(C0×α)產(chǎn)生G1×1×(C0×α)(G為池化分支的輸出).全局平均池化是通過計(jì)算輸入的高度H和寬度W的平均值來進(jìn)行下采樣操作,然后,同樣使用1×1 深度可分離卷積降低通道數(shù),接著使用雙線性插值算法恢復(fù)分辨率,以便與4 個(gè)平行分支產(chǎn)生的特征圖進(jìn)行通道合并.最下面一個(gè)數(shù)據(jù)流表示殘差連接.

        另外,直接將上述5 個(gè)分支的特征圖通道合并會(huì)削弱特征表達(dá),所以設(shè)計(jì)通道隨機(jī)打亂操作(channel shuffle,CS),使特征的泛化表達(dá)性更高.整個(gè)DDC 模塊的操作如式(3)所示.

        其中,S(·)為通道隨機(jī)混合函數(shù),C(·,·)為通道合并函數(shù),L為4 個(gè)不同擴(kuò)張率卷積分支產(chǎn)生的特征圖,G′為自適應(yīng)平均池化分支上采樣產(chǎn)生的特征圖,⊕為元素級(jí)相加,H為特征圖的高,W為特征圖的寬,C0為特征圖通道數(shù),α為通道縮減率,n為特征圖數(shù)量1,2,3,4.

        DDC 模塊的詳細(xì)參數(shù)如表2所示,設(shè)輸入為H×W×C0,通道縮減率為α.其中,k為卷積核的大小,ri(i=1,2,3,4)為不同的擴(kuò)張率,BN為BatchNorm,H,W,C0為特征圖的高、寬和通道數(shù).

        表2 稠密擴(kuò)張卷積模塊參數(shù)

        1.3.2 混合擴(kuò)張卷積模塊

        混合擴(kuò)張卷積模塊由上述DDC 模塊組成,細(xì)節(jié)展示如圖4所示.MDM 模塊分為兩部分,分別為DDC組成的稠密連接分支以及全局池化分支,用來捕獲多尺度對(duì)象語義特征以及空間位置特征.稠密連接分支使用3 個(gè)DDC 模塊的堆疊方式而不是平行架構(gòu),即外部為稠密連接方式,內(nèi)部為多級(jí)平行架構(gòu).這樣充分利用不同尺度的感受野,通過對(duì)特征圖的最大化利用從而達(dá)到最好的效果且有更少的參數(shù).

        圖4 混合擴(kuò)張卷積模塊細(xì)節(jié)圖

        每個(gè)DDC 模塊擁有明確的對(duì)象捕獲尺度,第1個(gè)DDC 模塊使用的擴(kuò)張率組合為Ds={1,3,5,7},主要捕獲小尺度對(duì)象;以Ds的輸出作為輸入,第2 個(gè)DDC模塊的擴(kuò)張率組合為Dm={5,7,11,13},主要捕獲中等尺寸對(duì)象;最后一個(gè)DDC 模塊的擴(kuò)張率組合為Dl={13,15,17,19},主要捕獲大尺度對(duì)象.因?yàn)樵谳斎氲臅r(shí)候進(jìn)行通道降維操作,并且特征圖的分辨率較小,所以設(shè)置較大的擴(kuò)張率不會(huì)增加太多的計(jì)算開銷.最后,將每一個(gè)DDC 模塊產(chǎn)生的輸出進(jìn)行元素級(jí)別的求和操作,共同編碼多層次語義.MDM 模塊的輸出如式(4)所示.

        其中,C(·,·)為特征圖通道合并操作,F1為稠密型連接分支的輸出,F2為全局平均池化上采樣后的輸出.感受野的計(jì)算如式(5)所示,其中,A為感受野尺寸,K為卷積核尺寸,D為擴(kuò)張率.

        最終,堆疊三級(jí)DDC 模塊可以在理論上獲得最大的感受野,如式(6)所示.

        表3 混合擴(kuò)張卷積模塊參數(shù)

        1.4 金字塔池化模塊

        借鑒PSPNet 中的PPM,使用自適應(yīng)平均池化操作,處理第2 個(gè)分支,自適應(yīng)即為將特征圖分別池化為(1,1)、(2,2)、(3,3)、(6,6)的尺寸,增強(qiáng)局部與全局特征的表達(dá)能力,最后與輸入圖進(jìn)行通道合并,融合全局先驗(yàn)知識(shí),如圖5所示.

        圖5 金字塔模塊的細(xì)節(jié)圖

        模型的所有配置參數(shù)如表4所示,以輸入為(512,512,3)的圖像為例.表中:conv為卷積操作,[k×k,conv,Number]表示卷積核大小為k,卷積核的數(shù)量為Number,[k×k,dwconv,r={1,2,3,5}]表示深度可分離卷積操作,卷積核尺寸為k,r為擴(kuò)張率,global_pooling為全局池化操作,num_classes為分割的類別數(shù).

        表4 DBMSNet 參數(shù)

        2 實(shí)驗(yàn)細(xì)節(jié)

        DBMSNet 模型的優(yōu)勢(shì)在于對(duì)分割對(duì)象空間位置特征的捕獲和高級(jí)語義特征的融合,為了驗(yàn)證提出的DBMSNet的有效性,在公開數(shù)據(jù)集中進(jìn)行廣泛的實(shí)驗(yàn).

        2.1 數(shù)據(jù)集

        (1)Cityscapes 城市場(chǎng)景數(shù)據(jù)集[16].這是一個(gè)流行的用于城市場(chǎng)景對(duì)象解析的數(shù)據(jù)集,它包含25 000 張分辨率為2048×1024的標(biāo)注圖片.其中精細(xì)化標(biāo)注的圖片數(shù)量為5 000 張并且包含19 個(gè)類別,如行人、汽車、天空、建筑物等.實(shí)驗(yàn)時(shí)使用2 975 張圖片作為訓(xùn)練集,500 張圖片作為驗(yàn)證集,1 525 張圖片作為測(cè)試集.由于硬件設(shè)備的限制,訓(xùn)練時(shí)將圖片裁剪為1024×512的尺寸.

        (2)CelebAMask-HQ 人臉分割數(shù)據(jù)集[17].該數(shù)據(jù)集包含30 000 張高分辨率的人臉圖片,每一張圖片擁有詳細(xì)的標(biāo)注信息.該數(shù)據(jù)集的標(biāo)注圖的尺寸為512×512 并且分為19 個(gè)類別,分別為面部皮膚、鼻子、眼鏡、左右眼、左右眉毛、左右耳朵、牙齒、上下嘴唇、頭發(fā)、帽子、耳環(huán)、項(xiàng)鏈、脖子和衣服.提取了一部分?jǐn)?shù)據(jù)進(jìn)行DBMSNet的實(shí)驗(yàn),其中訓(xùn)練集24 184張,驗(yàn)證集300 張,測(cè)試集2 824 張.為了驗(yàn)證模型的泛化能力,繼續(xù)在城市場(chǎng)景解析數(shù)據(jù)集中進(jìn)行了廣泛的實(shí)驗(yàn).

        2.2 評(píng)價(jià)指標(biāo)

        (1)語義精度.mIoU平均交并比是一個(gè)廣泛用于圖像分割領(lǐng)域的評(píng)價(jià)分割精度的指標(biāo).假設(shè)b代表語義分割的類別數(shù),則mIoU如式(7)所示.

        其中,pvz為真實(shí)值為z,被預(yù)測(cè)為v的數(shù)量,b+1為類別個(gè)數(shù)(包含背景忽略類).pzz為正確的數(shù)量.pzv、pvz分別為假正和假負(fù).

        (2)像素精度(pixel accuracy,PA).預(yù)測(cè)正確的像素?cái)?shù)占總像素?cái)?shù)的比例,如式(8)所示.

        其中,pzv為像素總數(shù),pzz為預(yù)測(cè)正確的像素?cái)?shù),b為類別數(shù).

        2.3 消融實(shí)驗(yàn)

        實(shí)驗(yàn)中使用開源深度學(xué)習(xí)框架PaddlePaddle[18]搭建DBMSNet 模型,實(shí)驗(yàn)設(shè)備為Tesla V100 單卡32 GB顯存,操作系統(tǒng)為Ubuntu 16.04.在訓(xùn)練之前,進(jìn)行數(shù)據(jù)預(yù)處理操作:① 使用步長(zhǎng)為0.25,范圍為0.75 到1.5的隨機(jī)尺寸縮放;② 設(shè)置隨機(jī)水平翻轉(zhuǎn)與隨機(jī)垂直翻轉(zhuǎn)概率為0.5;③ 設(shè)置隨機(jī)旋轉(zhuǎn)角度為(-10,10);④ 設(shè)置隨機(jī)對(duì)比度變化范圍0.4,隨機(jī)亮度變化范圍0.4,隨機(jī)色彩飽和度變化范圍0.4;⑤ 像素歸一化處理.

        在訓(xùn)練時(shí)使用“Poly”學(xué)習(xí)率衰減策略,power為0.9,終止學(xué)習(xí)率為0,如式(9)所示.

        其中,lr為學(xué)習(xí)率,iter為迭代次數(shù),max_iter為最大迭代次數(shù),使用隨機(jī)梯度下降(stochastic gradient descent,SGD)優(yōu)化算法,動(dòng)量為0.9,權(quán)重衰減為4e-5.對(duì)于兩個(gè)分支的輸出,第1 個(gè)分支的權(quán)重為0.4,第2 個(gè)分支的權(quán)重為1.最后使用像素級(jí)的交叉熵?fù)p失為損失函數(shù).本文在Cityscapes 數(shù)據(jù)集中進(jìn)行廣泛的消融實(shí)驗(yàn),設(shè)置Batch_Size=6,iters=40000.

        2.3.1 雙分支的有效性消融實(shí)驗(yàn)

        為驗(yàn)證本文提出的雙分支模型的有效性,首先構(gòu)造只使用De4 特征圖,并使用PPM 解碼的單分支模型作為Baseline.實(shí)驗(yàn)結(jié)果如表5所示.

        表5 雙分支有效性實(shí)驗(yàn)

        表5中,De4(PPM) 表示只使用De4 特征圖,用PPM 處理;De3(Two)表示De3 使用TwoDecoder 處理,TwoDecoder 表示本文提出的FR和MDM 組合的解碼器;De32 表示FR 模塊的輸入為De3和De2;Params表示模型的參數(shù)量;FLOPs 表示模型的浮點(diǎn)運(yùn)算總量(輸入為360×640 估算).例如De4(PPM)+De321(Two)表示:De4 分支使用PPM 處理,De321為第1 個(gè)分支的輸入,使用TwoDecoder 處理.

        實(shí)驗(yàn)結(jié)果表明,在單獨(dú)使用De4(PPM) 分支的Baseline的基礎(chǔ)上,添加第1 個(gè)分支會(huì)對(duì)模型性能產(chǎn)生影響.其中,添加De3 或De32為第1 個(gè)分支的輸入時(shí)會(huì)對(duì)Baseline 產(chǎn)生負(fù)面影響,精度分別降低0.22和0.23;添加De31 或De321為第1 個(gè)分支的輸入時(shí)會(huì)對(duì)Baseline 產(chǎn)生正面影響,精度分別提高0.51和0.29;并且,添加De31 作為第1 個(gè)分支的輸入取得最好性能75.78,相比Baseline 精度提升0.51,證明本文提出的雙分支解碼器是有效的.

        2.3.2 PP_Out 參數(shù)的消融實(shí)驗(yàn)

        為相對(duì)減少模型參數(shù),分別設(shè)置PP_Out=1024、512、256和128 進(jìn)行對(duì)比實(shí)驗(yàn),PP_Out 表示PPM 模塊的輸出通道數(shù),選擇的基準(zhǔn)模型為實(shí)驗(yàn)1 中的最佳配置:De4(PPM)+De31(Two),結(jié)果如表6所示.

        表6 PP_Out 參數(shù)影響

        實(shí)驗(yàn)結(jié)果表明,在基準(zhǔn)模型一致的前提下,設(shè)置不同的PP_Out 會(huì)對(duì)模型產(chǎn)生不同的影響.設(shè)置PP_Out=128的參數(shù)量為PP_Out=1024的50%,FLOPs為PP_Out=1024的61%,證明PP_Out 設(shè)置為128 可以取得更好的結(jié)果,且擁有更少的Params和FLOPs.

        2.3.3 TwoDecoder的消融實(shí)驗(yàn)

        TwoDecoder 表示第1 個(gè)分支的解碼器(由FR和MDM 組成).在實(shí)驗(yàn)1 證明De4(PPM) 基礎(chǔ)上添加De31(Two)取得最佳性能后,充分調(diào)試TwoDecoder的最佳配置,實(shí)驗(yàn)中設(shè)置PP_Out=128,結(jié)果如表7所示.

        表7中,設(shè)置第1 個(gè)分支為De31,依次驗(yàn)證TwoDecoder的配置,Small 表示MDM 模塊中DDC 小擴(kuò)張率r=[1,3,5,7],Middle 表示MDM 模塊DDC 中擴(kuò)張率r=[5,7,11,13],Large 表示MDM 模塊中DDC 大擴(kuò)張率r=[13,16,18,20],Global_Pooling 表示MDM 中的全局池化層,Attention 表示MDM 中的注意力層,在實(shí)驗(yàn)中增加注意力機(jī)制進(jìn)行實(shí)驗(yàn)效果的探索;第2 個(gè)分支De4(PPM) 保持不變.如De31+Small+Middle 表示:第2 個(gè)分支保持De4(PPM)不變,第1 個(gè)分支使用De31為輸入,MDM 模塊包含Small和Middle 兩個(gè)擴(kuò)張率組合.

        表7 TwoDecoder 最佳配置

        實(shí)驗(yàn)結(jié)果表明,通過改變不同TwoDecoder 配置,在De4(PPM)和De31 兩個(gè)分支保持不變的前提下,第1 個(gè)分支TwoDecoder 配置為Small+Middle+Large+Global_Pooling 時(shí)精度最高為76.37,相反,添加Attention層后的精度下降0.39.

        2.3.4 單分支的消融實(shí)驗(yàn)

        在實(shí)驗(yàn)1、2 得出PP_Out=128,第1 個(gè)分支輸入為De31 時(shí),模型得到最高精度后,繼續(xù)驗(yàn)證單分支的性能,Two的配置為實(shí)驗(yàn)3 中的最佳配置,實(shí)驗(yàn)結(jié)果如表8所示.

        表8 單分支消融性實(shí)驗(yàn)

        表8中,De4(PPM)表示只使用De4 分支,PPM 解碼;De31(Two)表示只使用第1 個(gè)分支,De31 作為輸入,使用TwoDecoder 解碼;設(shè)置PP_Out=128.實(shí)驗(yàn)結(jié)果表明,單獨(dú)使用De4 分支比單獨(dú)使用De31 分支的精度高0.65,結(jié)合兩個(gè)分支取得最佳精度76.37,均高于單獨(dú)使用一個(gè)分支的精度,證明兩個(gè)分支結(jié)合的有效性.

        2.3.5OS的消融實(shí)驗(yàn)

        OS為主干網(wǎng)絡(luò)的輸出步長(zhǎng),表示提取特征圖的縮放比例.在基準(zhǔn)模型為De4(PPM)+De31(Two)的前提下,測(cè)試不同OS對(duì)模型精度的影響.PP_Out 設(shè)置為128,實(shí)驗(yàn)結(jié)果如表9所示.

        表9 OS 消融性實(shí)驗(yàn)

        實(shí)驗(yàn)結(jié)果表明,在基準(zhǔn)模型相同的情況下,OS=16 取得最佳精度76.37%,比OS=8 高0.35,實(shí)驗(yàn)數(shù)據(jù)表明OS的改變不會(huì)影響模型的參數(shù)量,但是會(huì)影響浮點(diǎn)運(yùn)算總量,OS=16的浮點(diǎn)運(yùn)算總量?jī)H為OS=8的40%,且精度更高,所以設(shè)置模型OS=16.

        2.3.6 主干網(wǎng)絡(luò)消融實(shí)驗(yàn)

        通過改變不同的Backbone 網(wǎng)絡(luò),驗(yàn)證本文模型可以得到的最佳精度.結(jié)果如表10所示.

        表10 主干網(wǎng)絡(luò)的影響

        該實(shí)驗(yàn)使用上述實(shí)驗(yàn)得出的最佳模型配置:De4(PPM)+De31(Two),Two為Small+Middle+Large+Glo-bal_Pooling.實(shí)驗(yàn)結(jié)果表明,使用主干網(wǎng)絡(luò)ResNet101取得最佳精度78.29%,比ResNet50 高1.32,比ResNet152高0.14.

        2.4 對(duì)比實(shí)驗(yàn)結(jié)果

        (1)與當(dāng)前主流的高精度圖像語義分割模型對(duì)比性能,Cityscapes 實(shí)驗(yàn)結(jié)果如表11所示,其他模型的數(shù)據(jù)均來自公開論文中的數(shù)據(jù).實(shí)驗(yàn)結(jié)果表明,本文提出的模型精度均高于對(duì)比模型.Cityscapes 數(shù)據(jù)集可視化結(jié)果如圖6所示.

        圖6 Cityscapes 可視化結(jié)果

        表11 其他模型性能對(duì)比數(shù)據(jù)

        (2)模型參數(shù)量對(duì)比.為體現(xiàn)本文提出的模型的先進(jìn)性,繼續(xù)對(duì)比模型的參數(shù)量與浮點(diǎn)運(yùn)算總量,對(duì)比結(jié)果如表12所示.

        表12 模型參數(shù)對(duì)比

        實(shí)驗(yàn)結(jié)果表明,本文提出的模型取得最高的精度78.29,擁有最少的參數(shù)量33.4 M和浮點(diǎn)運(yùn)算數(shù)421.8 G,充分證明本文提出模型的先進(jìn)性.

        (3)CelebAMask-HQ 實(shí)驗(yàn)結(jié)果.

        CelebAMask-HQ 數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果如表13所示.首先在自己的實(shí)驗(yàn)環(huán)境中復(fù)現(xiàn)了表中所有的對(duì)比模型,并且使用相同的訓(xùn)練準(zhǔn)則進(jìn)行模型訓(xùn)練.通過實(shí)驗(yàn)數(shù)據(jù)可以清晰地觀察到,DBMSNet 模型在捕獲左眼和右眼、左眉毛和右眉毛、左耳和右耳的類別IoU 方面取得了絕對(duì)的領(lǐng)先,這歸功于提出的特征精煉(FR)模塊以及混合空洞卷積(MDM)模塊,不但可以提取多尺度的高級(jí)抽象語義信息,而且可以完美地獲取解析對(duì)象的空間位置信息,在其他的類別預(yù)測(cè)精度相差無幾的情況下,精確的空間位置信息可以完美地反應(yīng)人臉中對(duì)稱的對(duì)象,如左右眉毛、左右眼睛等,這些對(duì)象具有絕對(duì)相似的外觀,但是空間位置不同,DBMSNet模型完美地解決了這個(gè)難題.與PSPNet 相比精度提升了0.76%,像素精度提升了0.02%,達(dá)到了最高的分?jǐn)?shù).

        表13 CelebAMask-HQ 實(shí)驗(yàn)結(jié)果 (%)

        可視化結(jié)果比較如圖7所示.通過可視化的比較結(jié)果,可以清晰地看到,UNet、DeepLab v3+等模型由于特征表達(dá)能力不夠,會(huì)出現(xiàn)類別混淆、對(duì)象空間位置混淆、對(duì)象類別錯(cuò)分的現(xiàn)象,并且對(duì)于大多數(shù)對(duì)象的空間位置預(yù)測(cè)出錯(cuò).而PSPNet 雖然也達(dá)到了很高的分割精度,但是在空間位置準(zhǔn)確度預(yù)測(cè)方面依然不如本文的模型.

        圖7 CelebAMask-HQ 可視化結(jié)果

        使用作者本人的圖片進(jìn)行模型測(cè)試,結(jié)果如圖8所示.可以看到,UNet、DeepLab v3+等模型無法做到語義類別的準(zhǔn)確預(yù)測(cè),無法清晰的辨別對(duì)象空間位置信息;FCN、PSPNet 由于未充分使用主干網(wǎng)絡(luò)的特征圖,對(duì)于空間位置的解析不夠精確;DBMSNet 達(dá)到了最佳的預(yù)測(cè)結(jié)果,兼具語義類別的準(zhǔn)確性與空間位置的精確性.

        圖8 真人輸入可視化結(jié)果

        3 結(jié)論

        本文提出一種高精度語義分割網(wǎng)絡(luò)稱為雙分支多層級(jí)語義分割網(wǎng)絡(luò)(DBMSNet).首先使用殘差網(wǎng)絡(luò)提取到4 級(jí)分辨率由大到小的特征圖(De1,De2,De3和De4);其次將De1和De3 通過本文提出的FR 模塊與MDM 模塊,充分混合空間位置特征的同時(shí)編碼上下文信息及多尺度感受野,此輸出為第一分支;然后將De4通過PPM 模塊,目的是提取高級(jí)語義信息,此輸出為第二分支;最后將兩個(gè)分支進(jìn)行融合輸出,達(dá)到空間位置特征與高級(jí)語義信息融合的目的,完成高精度的圖像分割任務(wù).文中多組消融實(shí)驗(yàn)充分表明了本文所提模塊的有效性.最終實(shí)驗(yàn)結(jié)果表明,本文所提模型在相同數(shù)據(jù)集的精度明顯優(yōu)于文中列出的現(xiàn)有模型,在人臉解析數(shù)據(jù)集CelebAMask-HQ 取得最高精度74.64%,在Cityscapes 數(shù)據(jù)集取得78.29%的精度.所提模型兼顧分割對(duì)象的空間位置特征與高級(jí)語義特征,具有較好的性能.

        4 結(jié)語

        在后續(xù)的研究中,繼續(xù)兩方面的內(nèi)容:(1)加快模型的推理速度,同時(shí)需保持高的解析精度,本文認(rèn)為分割精度是語義分割工作的核心要義.(2)提升分割對(duì)象的邊界準(zhǔn)確率,邊界問題仍然存在于本文提出的模型中,需要進(jìn)一步改進(jìn).

        猜你喜歡
        語義特征實(shí)驗(yàn)
        記一次有趣的實(shí)驗(yàn)
        語言與語義
        如何表達(dá)“特征”
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語義模糊
        国产系列丝袜熟女精品视频| 人妻丰满熟妇岳av无码区hd | 亚洲精品字幕| 最新亚洲人AV日韩一区二区| 用力草我小逼视频在线播放| 精品女同一区二区三区免费战| 一区二区日本免费观看| 中文字幕无码乱人伦| 伊人久久大香线蕉av一区| 国内久久婷婷精品人双人| 国产毛片精品一区二区色| 亚洲av无码国产精品色午夜软件| 欧美极品色午夜在线视频| 97人妻视频妓女网| 国内精品女同一区二区三区| 国产大屁股喷水视频在线观看| 亚洲精华国产精华液的福利| 成人无码视频在线观看网站| 国产一区二区三区白浆肉丝| 国产乡下妇女做爰| 中文无码制服丝袜人妻av| yw193.can尤物国产在线网页| 久久精品国产熟女亚洲av麻豆| 国产伦人人人人人人性| 精品国产福利一区二区在线| 国产一区二区高清不卡在线| 国产精品女主播福利在线| av一区二区三区人妻少妇| 国内视频偷拍一区,二区,三区| 亚洲中文乱码在线视频| 精品视频一区二区三区在线观看| 国产性猛交╳xxx乱大交| 国产99精品精品久久免费| 中文有码人妻字幕在线| 和外国人做人爱视频| 午夜国产一区二区三区精品不卡| 亚洲a级视频在线播放| 国产美女做爰免费视频| 伊人99re| 加勒比特在线视频播放| 亚洲国产精品成人久久|