亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度感知特征提取的室內(nèi)場景理解

        2021-06-18 07:32:12陳蘇婷張良臣
        計算機(jī)工程 2021年6期
        關(guān)鍵詞:類別語義深度

        陳蘇婷,張良臣

        (南京信息工程大學(xué) 江蘇省氣象探測與信息處理重點實驗室,南京 210044)

        0 概述

        由于深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Network,DCNN)[1-3]的快速發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的場景理解算法取得了巨大進(jìn)步。室內(nèi)場景理解視覺任務(wù)以室內(nèi)場景語義分割為主,為圖像中每個像素預(yù)測類別標(biāo)簽,是一個基本但具有挑戰(zhàn)性的計算機(jī)視覺任務(wù)。取得準(zhǔn)確的室內(nèi)場景語義分割結(jié)果有利于機(jī)器人視覺、視覺即時定位與地圖構(gòu)建(Simultaneous Localization And Mapping,SLAM)及虛擬現(xiàn)實等應(yīng)用的發(fā)展。與基于RGB 圖像的室內(nèi)場景語義分割方法相比,基于RGB-D 圖像的室內(nèi)場景語義分割方法可同時使用場景的2D RGB 信息與3D 幾何信息,有效解決類別間由于相似特征而導(dǎo)致的分類錯誤問題,而場景語義分割方法[4-6]通過結(jié)合深度信息獲得了模型的性能提升。這些方法主要分為兩種特征表示形式,即利用人工設(shè)置的特征與使用基于CNN 學(xué)習(xí)的特征。早期的工作主要使用SIFT 與HOG 等人工設(shè)定的特征描述子表示RGB 圖像特征,然后利用表面法線特征[7]或深度梯度特征[8]輔助場景語義分割。對于CNN 特征提取方法,全卷積網(wǎng)絡(luò)[9]可通過學(xué)習(xí)具有高度表達(dá)力的特征大幅度地提高場景語義分割能力。一般而言,基于CNN 的RGB-D 場景語義分割方法使用兩個全卷積網(wǎng)絡(luò)分別從RGB 與深度通道提取特征,然后簡單融合這兩種特征作為最終輸出特征,為每個像素預(yù)測語義標(biāo)簽。上述方法均要求關(guān)聯(lián)深度標(biāo)簽與RGB 圖像,然而相比RGB 圖像,從場景中采集深度圖更加困難,而且深度圖與RGB 圖像的對準(zhǔn)本身就是一個極具挑戰(zhàn)性的問題。

        文獻(xiàn)[10]提出利用多任務(wù)網(wǎng)絡(luò)預(yù)測深度信息并通過簡單的特征融合提高模型的場景理解能力,然而未進(jìn)一步挖掘并利用預(yù)測的深度特征。本文通過聯(lián)合網(wǎng)絡(luò)模型學(xué)習(xí)深度特征表示,并提取深度特征中的幾何信息以指導(dǎo)深度特征與語義特征的融合,再將融合后的特征與共享網(wǎng)絡(luò)中的多尺度空間上下文信息與紋理細(xì)節(jié)信息相結(jié)合,產(chǎn)生更魯棒的語義特征。

        1 深度信息感知特征提取

        本節(jié)詳細(xì)描述了利用深度信息感知特征提高室內(nèi)場景語義分割性能的CNN 框架,并且整個CNN模型由聯(lián)合目標(biāo)函數(shù)進(jìn)行端到端訓(xùn)練。

        1.1 深度信息感知特征學(xué)習(xí)

        本文使用不帶有顯性深度圖標(biāo)簽的深度信息感知特征輔助場景語義分割任務(wù)。直觀的方法是首先從輸入的RGB 圖像中預(yù)測深度圖,然后將深度信息整合到傳統(tǒng)的RGB-D 分割網(wǎng)絡(luò)中[5,11]。該方法將整個場景語義分割任務(wù)分為兩個階段,提高了模型的復(fù)雜度且不能實現(xiàn)端到端訓(xùn)練。因此,本文利用聯(lián)合的網(wǎng)絡(luò)框架,從RGB 圖像中同時提取深度特征與語義特征,并通過結(jié)合這兩類特征提高場景語義分割性能。在此將深度感知特征定義為在語義層上同時編碼深度信息與語義信息的特征表示。

        具體地,給定一張RGB 圖像I,I中的像素表示為Ip?R3,深度信息感知特征通過一個可學(xué)習(xí)的映射方程將RGB 像素編碼為高維空間中的高語義特征。這些特征的學(xué)習(xí)過程可被建模為一個優(yōu)化問題:

        其中:N為I的像素總數(shù);D(h(Ip);)為學(xué)習(xí)RGB 圖像中的深度信息,h(Ip)為深度特征映射項,為編碼RGB 圖像深度特征的樣本標(biāo)簽;S(h'(Ip);)為語義信息編碼項,且h'(˙)與h(˙)共享部分參數(shù)。為了獲得更具辨別力的映射特征h,使用深度卷積神經(jīng)網(wǎng)絡(luò)參數(shù)化式(1),并通過反向傳播優(yōu)化參數(shù)。因此,定義h為fθ,其中f表示由參數(shù)θ構(gòu)成的DCNN。那么,深度感知特征學(xué)習(xí)的優(yōu)化方程可重新表示為:

        其中,fθ(˙)與(˙)使用相同的DCNN 模型進(jìn)行參數(shù)化。

        1.2 基于幾何信息的深度特征傳輸

        在學(xué)習(xí)到深度特征后,利用這些特征提高室內(nèi)場景語義分割模型的性能。基于像素類同方法提取深度特征中的幾何信息,并利用其指導(dǎo)深度特征傳輸?shù)秸Z義特征中。給定深度感知特征空間中特征點位置i與其鄰近特征點位置j?N(i),對于預(yù)測語義標(biāo)簽的得分圖中對應(yīng)位置j的特征點mj,在位置i上經(jīng)過深度特征傳輸后的輸出特征ni可表示為:

        其中,fθ(Ip)為學(xué)習(xí)到的深度特征表示且wij來源于fθ(Ip)中的幾何指導(dǎo)信息的傳輸權(quán)重。因為wij表示深度特征空間中的幾何信息類同,所以wij由深度特征向量間的內(nèi)積運算定義為:

        其中,?(˙)與ψ(˙)表示將原先學(xué)習(xí)到的深度特征通過兩個不同的映射方程解耦到兩個子特征空間中。為了解決深度信息傳播過程中特征圖維度的變化,通過另一個映射方程φ(˙)將語義特征mj映射到與?((Ip))和ψ((Ip))相同維度的特征空間φ(mj)中。在具體的室內(nèi)場景語義分割模型架構(gòu)中,深度特征的映射由可通過反向傳播自動學(xué)習(xí)的小卷積網(wǎng)絡(luò)實現(xiàn)。特別地,原語義特征也被重新融合到傳輸后的特征圖中以避免整個深度特征傳輸過程中語義特征信息的中斷。綜上所述,將最終的幾何信息指導(dǎo)的深度特征傳輸模塊定義為:

        1.3 室內(nèi)場景語義分割網(wǎng)絡(luò)框架

        1.3.1 總體網(wǎng)絡(luò)模型

        本節(jié)詳細(xì)描述了用于室內(nèi)場景語義分割的DCNN 框架。如圖1 所示,DCNN 框架主要包含5 個部分:1)共享的DCNN 基本框架;2)深度特征提取網(wǎng)絡(luò)分支;3)語義特征提取網(wǎng)絡(luò)分支;4)幾何信息指導(dǎo)的深度特征傳輸(GIGT)模塊;5)金字塔特征融合(PFF)模塊。整個室內(nèi)場景語義分割網(wǎng)絡(luò)框架為帶有多任務(wù)預(yù)測端的編碼網(wǎng)絡(luò)-解碼網(wǎng)絡(luò)結(jié)構(gòu)。編碼網(wǎng)絡(luò)部分的卷積層提取一般性的場景特征。對于解碼網(wǎng)絡(luò)部分,在圖1 中上方解碼網(wǎng)絡(luò)分支提取RGB圖像的語義特征,而下方解碼網(wǎng)絡(luò)分支提取RGB 圖像對應(yīng)的深度特征。深度圖預(yù)測網(wǎng)絡(luò)分支的特征信息以逐元素相加的形式,傳輸給對應(yīng)的語義分割網(wǎng)絡(luò)分支的特征,以提供多尺度深度信息。GIGT 模塊被運用于語義特征提取網(wǎng)絡(luò)分支的最終輸出特征圖上,利用學(xué)習(xí)到的深度特征中的幾何信息作為指導(dǎo)提高語義特征表示能力。為了進(jìn)一步精調(diào)語義特征,將結(jié)合幾何信息指導(dǎo)的深度特征的特征圖通過金字塔特征融合模塊與共享的DCNN 網(wǎng)絡(luò)的多尺度特征圖相結(jié)合。PFF 模塊最下方的得分圖(在圖1 中PFF4的輸出)被用于最終的逐像素的語義類別預(yù)測。在語義特征提取網(wǎng)絡(luò)分支的輸出端與PFF 模塊每層的輸出端實施對語義特征學(xué)習(xí)的監(jiān)督,同時使用深度圖標(biāo)簽監(jiān)督網(wǎng)絡(luò)學(xué)習(xí)RGB 圖像中的深度特征。整個場景理解網(wǎng)絡(luò)由一個聯(lián)合損失函數(shù)進(jìn)行端到端訓(xùn)練。

        圖1 室內(nèi)場景語義分割網(wǎng)絡(luò)框架Fig.1 Network framework of indoor scene semantic segmentation

        1.3.2 GIGT 模塊

        在本文提出的室內(nèi)場景語義分割網(wǎng)絡(luò)框架中,圖像深度特征的傳輸均由帶有批量歸一化操作的逐元素相乘的卷積層實現(xiàn)。圖2 給出了幾何信息指導(dǎo)的深度特征傳輸模塊的結(jié)構(gòu)。首先,將深度特征輸入到兩個特征映射卷積單元精調(diào)特征;接著,計算深度特征向量間的類同以獲得幾何信息;然后,將計算得到的深度特征類同結(jié)果作為指導(dǎo)以融合深度特征與語義特征;最后,結(jié)合原語義特征與融合后的特征作為語義特征提取網(wǎng)絡(luò)分支的最終輸出特征。整個深度特征傳輸過程中生成的特征圖維持與輸入的語義特征圖相同的維度。

        圖2 GIGT 模塊結(jié)構(gòu)Fig.2 Structure of GIGT module

        1.3.3 PFF 模塊

        由于DCNN 在提取特征時會丟失圖像中的細(xì)節(jié)信息,導(dǎo)致特征的表達(dá)能力降低,因此本文提出金字塔特征融合模塊修復(fù)并豐富語義特征圖中的細(xì)節(jié)信息。因為編碼網(wǎng)絡(luò)最終輸出高語義但其中只含有極少細(xì)節(jié)信息的低分辨率特征圖,所以基于高語義特征圖的解碼模塊生成的特征圖中仍然極少地包含有效的細(xì)節(jié)信息。受到目標(biāo)檢測任務(wù)中特征金字塔網(wǎng)絡(luò)[12]的啟發(fā),本文將編碼網(wǎng)絡(luò)輸出的多級特征圖與GIGT 模塊輸出的特征圖相融合提高語義特征的表達(dá)能力。PFF 模塊的結(jié)構(gòu)如圖3 所示。第一個PFF 模塊(PFF1)以融合深度信息的語義特征圖作為輸入,該特征圖經(jīng)過一個1×1 卷積核修正和尺度調(diào)整后與編碼網(wǎng)絡(luò)的特征圖并置,再通過一個3×3卷積核調(diào)整后將特征圖傳輸給下一個PFF模塊,同時在每個PFF 模塊的輸出端逐像素地預(yù)測語義類別標(biāo)簽并利用側(cè)邊監(jiān)督調(diào)整網(wǎng)絡(luò)權(quán)重。

        圖3 PFF 模塊結(jié)構(gòu)Fig.3 Structure of PFF module

        1.4 損失函數(shù)

        多數(shù)室內(nèi)場景語義分割方法使用交叉熵度量樣本預(yù)測值與樣本標(biāo)簽間的距離。然而,對于NYU-Dv2[7]與SUN RGBD[13]等場景理解數(shù)據(jù)集,語義類別標(biāo)簽的分布極端不平衡,即少數(shù)語義類別標(biāo)簽主導(dǎo)整個數(shù)據(jù)集,例如,wall、floor 和chair 等類別擁有比tv、toilet 和bag 等類別更多的樣本。這將使場景語義分割網(wǎng)絡(luò)模型偏向于學(xué)習(xí)這些主導(dǎo)的語義類別,導(dǎo)致模型在具有少數(shù)樣本的語義類別上產(chǎn)生過擬合現(xiàn)象。為了緩解訓(xùn)練樣本數(shù)據(jù)不平衡的問題,基于Focal Loss[14]提出如下的語義分割損失函數(shù):

        其中,p為訓(xùn)練圖像中的像素索引,c為訓(xùn)練集圖像場景中的物體類別,sp,c為像素p預(yù)測為類別c的概率且為其樣本標(biāo)簽。通過該損失函數(shù)可提高難訓(xùn)練樣本的損失貢獻(xiàn)度而壓制易訓(xùn)練樣本的損失貢獻(xiàn)度,例如:如果一個像素被預(yù)測正確且置信度為0.9,那么該像素?fù)p失值的權(quán)重為(1-sp,c)2=0.01;如果一個像素被預(yù)測錯誤且置信度為0.1,那么該像素?fù)p失值的權(quán)重為0.81。此時,式(1)中語義特征優(yōu)化數(shù)據(jù)項可表示為Lseg。

        除了語義特征學(xué)習(xí)的監(jiān)督項外,學(xué)習(xí)深度感知特征需要受到深度領(lǐng)域的監(jiān)督。本文借鑒深度估計算法[15]的思想,使用berHu 損失函數(shù)作為深度監(jiān)督項,定義為:

        其 中,dp為由深度特征fθ(Ip)預(yù)測的深度圖,ε=為深度圖樣本標(biāo)簽。此時,式(1)中的S(h′(Ip);)深度特征優(yōu)化數(shù)據(jù)項可表示為Ldep。

        本文結(jié)合金字塔特征融合模塊與多個特征層上輸出的語義類別標(biāo)簽預(yù)測的損失函數(shù)(稱為側(cè)邊監(jiān)督),提出的室內(nèi)場景語義分割網(wǎng)絡(luò)框架的最終聯(lián)合損失函數(shù)表示為:

        2 實驗與結(jié)果分析

        2.1 實驗數(shù)據(jù)集與評價標(biāo)準(zhǔn)

        實驗使用NYU-Dv2 數(shù)據(jù)集[7]與大規(guī)模的SUN RGBD 數(shù)據(jù)集[13]評估本文方法。NYU-Dv2 數(shù)據(jù)集樣本是由Microsoft Kinect 從464 個不同場景捕獲而來,共包括1 449 張同時含有語義標(biāo)簽與深度信息的訓(xùn)練圖像樣本,其中,來自249 個不同場景的795 張圖像用于訓(xùn)練,來自215 個不同場景的654 張圖像用于測試。NYU-Dv2 數(shù)據(jù)集涵蓋近900 個不同的語義類別,實驗選用40 個類別標(biāo)簽[16]。SUN RGBD 數(shù)據(jù)集包含10 335 張RGB-D 圖像,其中每張圖像同樣具有逐像素的語義標(biāo)簽,在實驗中利用含有5 285 張訓(xùn)練圖像的訓(xùn)練集訓(xùn)練模型以及含有5 050 張測試圖像的測試集評估模型?;赟UN RGBD 數(shù)據(jù)集的實驗共涵蓋37 個語義類別標(biāo)簽。為了全面地評價本文方法,使用像素準(zhǔn)確度(Pixel Accuracy,PixAcc)、平均準(zhǔn)確度(mean Accuracy,mAcc)與平均交并比(mean IoU,mIoU)作為評價指標(biāo)。

        2.2 實驗過程與參數(shù)設(shè)置

        基于深度感知特征提取的室內(nèi)場景語義分割網(wǎng)絡(luò)模型以預(yù)訓(xùn)練的ResNet-50[3]作為參數(shù)共享的編碼網(wǎng)絡(luò),并由4 個反卷積層構(gòu)成解碼網(wǎng)絡(luò)分支。設(shè)置解碼網(wǎng)絡(luò)部分所有特征圖的卷積通道數(shù)為256。整個分割模型的參數(shù)量為1.43×106,計算能力為5.3×109FLOPS。除了預(yù)訓(xùn)練的ResNet-50 外,所有卷積核參數(shù)使用文獻(xiàn)[17]方法進(jìn)行初始化。整個網(wǎng)絡(luò)模型由β1為0.9、β2為0.999 的Adam 優(yōu)化算法[18]進(jìn)行優(yōu)化。對于NYU-Dv2 訓(xùn)練集,設(shè)置總迭代次數(shù)為6×104,初始學(xué)習(xí)率為10-2,30 次迭代后學(xué)習(xí)率降至10-3,4.5×104次迭代后降至10-4。對于SUN RGBD 訓(xùn)練集,設(shè)置總迭代次數(shù)為1.2×105,初始學(xué)習(xí)率為10-2,60 次迭代后降至10-3,1.0×105次迭代后降至10-4。本文提出的場景理解方法使用PyTorch v1.4 搭建模型框架,并在配置有4 塊12 GB 存儲容量的NVIDIA Titan X GPU 的工作站上訓(xùn)練,且設(shè)置輸入的訓(xùn)練圖像的batch size 為4,整個訓(xùn)練過程持續(xù)22 h。此外,圖像色彩增強與隨機(jī)水平翻轉(zhuǎn)的特征增強方法被用于豐富訓(xùn)練圖像的特征。

        2.3 與傳統(tǒng)方法的性能比較

        2.3.1 在NYU-Dv2 數(shù)據(jù)集上的性能比較

        表1 給出了本文方法與文獻(xiàn)[4-5,10-11,15]方法、FCN[9]、RefineNet[19]、3DGNN[20]、D-CNN[21]、RDFNet[22]和ZZNet[23]在NYU-Dv2 數(shù)據(jù)集上的性能比較結(jié)果,其中,“—”表示對應(yīng)方法無此評價指標(biāo)值。可以看出,本文算法獲得85.2%的PixAcc、69.5%的mAcc與60.7%的mIoU,相比其他方法取得了顯著的性能提升。值得注意的是,在NYU-Dv2 數(shù)據(jù)集上訓(xùn)練的大部分方法都是基于RGB-D 的方法,意味著這些方法在測試時也將深度圖標(biāo)簽作為輸入輔助模型預(yù)測。盡管本文方法僅輸入RGB 圖像評估算法,但相比基于RGB-D 的方法仍表現(xiàn)更好。與本文方法類似,RefineNet[19]與RDFNet[22]也利用了多尺度的特征圖信息,但僅結(jié)合了編碼網(wǎng)絡(luò)部分的特征并且不帶有側(cè)邊監(jiān)督。由表1 結(jié)果可知,利用GIGT 模塊與帶有側(cè)邊監(jiān)督的PFF 模塊可顯著提升模型性能。

        表1 12種分割方法在NYU-Dv2數(shù)據(jù)集上的性能比較結(jié)果Table 1 Performance comparison results of twelve segmentation methods on the NYU-Dv2 dataset %

        為了評估類別樣本數(shù)據(jù)分布不均衡情況下的模型表現(xiàn),表2 針對不同語義類別給出了IoU 比較結(jié)果??梢钥闯?,相比文獻(xiàn)[4-5]方法、FCN[9]、RefineNe[t19]和RDFNet[22],本文方法在大部分語義類別上表現(xiàn)出更好的預(yù)測結(jié)果,尤其對于clothes、books、box 與bag等一些難以預(yù)測準(zhǔn)確的類別,仍可取得更高的IoU值。本文設(shè)計的GIGT 模塊、與其緊密連接的PFF模塊和新引入的損失函數(shù)使得模型幾乎在所有類別上均表現(xiàn)出較強的魯棒性。然而,本文方法對person、wall 與floor 等類別的預(yù)測性能不佳,這是因為不同場景的深度圖可能與其對應(yīng)的2D 外觀存在較大差異。

        表2 6 種分割方法在各語義類別上的IoU 比較結(jié)果Table 2 IoU comparison results of six segmentation methods in each semantic category %

        2.3.2 在SUN RGBD 數(shù)據(jù)集上的性能比較

        表3 給出了在大規(guī)模的SUN RGBD 數(shù)據(jù)集上本文方法與文獻(xiàn)[4,23]方法、FCN[9]、RefineNe[t19]、3DGNN[20]、D-CNN[21]、RDFNet[22]和Bayesian-SegNet[24]的性能比較結(jié)果??梢钥闯?,本文方法取得86.3%的PixAcc、68.4%的mAcc 與52.7%的mIoU,在所有評價指標(biāo)上均優(yōu)于傳統(tǒng)方法,驗證了基于深度感知特征提取的室內(nèi)場景理解方法的有效性。值得注意的是,SUN RGBD數(shù)據(jù)集內(nèi)包含許多由場景捕獲設(shè)備得到的低質(zhì)量深度圖,可能會影響GIGT 模塊的有效性。然而,從實驗結(jié)果可看出,即使在未去除這些含有較多噪聲樣本的情況下,本文方法仍然可獲得最佳的預(yù)測效果,這表明深度特征提取網(wǎng)絡(luò)學(xué)習(xí)到的深度感知特征可有效地表達(dá)3D 幾何信息。

        表3 9 種方法在SUN RGBD 數(shù)據(jù)集上的性能比較結(jié)果Table 3 Performance comparison results of nine methods on the SUN RGBD dataset %

        2.4 各模塊的有效性驗證

        本節(jié)在NYU-Dv2 數(shù)據(jù)集上研究本文模型中的各模塊對模型性能的影響。實驗使用單獨的語義特征提取網(wǎng)絡(luò)作為基本框架(由seg 表示),seg+GIGT表示在單獨的語義特征提取網(wǎng)絡(luò)基礎(chǔ)上加入GIGT模塊進(jìn)行實驗,seg+Lseg+HHA 表示在單獨的語義特征提取網(wǎng)絡(luò)基礎(chǔ)上加入Lseg損失和HHA 模塊,seg+Lseg+多尺度深度特征表示結(jié)合語義特征提取網(wǎng)絡(luò)、Lseg損失和多尺度深度特征表示,seg+Lseg+多尺度深度特征+GIGT+PFF 表示結(jié)合語義特征提取網(wǎng)絡(luò)、Lseg損失、GIGT 模塊和PFF 模塊,實驗結(jié)果如表4 所示。將損失函數(shù)Lseg用于訓(xùn)練網(wǎng)絡(luò)模型可增加4.2 個百分點的mIoU,這主要是因為損失函數(shù)使網(wǎng)絡(luò)偏向于學(xué)習(xí)僅含有少量樣本且難訓(xùn)練的語義類別。盡管使用深度圖標(biāo)簽作為輸入的模型測試方法(由HHA[16]編碼)驗證了利用深度信息的有效性,但本文通過簡單結(jié)合多尺度深度特征的方法得到高于其2.3 個百分點的mIoU。在結(jié)合多尺度深度特征方法的基礎(chǔ)上引入GIGT 模塊可使模型提升10.3 個百分點的mIoU。最終通過增加PFF 模塊以整合GIGT 模塊的輸出信息與編碼網(wǎng)絡(luò)的多尺度空間上下文信息及紋理細(xì)節(jié)信息能使模型再次獲得明顯的性能提升。

        表4 本文分割模型中各模塊的有效性分析結(jié)果Table 4 The effectiveness analysis results of each module in the proposed segmentation model %

        2.5 深度信息監(jiān)督方法分析

        盡管本文模型在測試時無需輸入任何深度信息,但深度信息監(jiān)督對于網(wǎng)絡(luò)訓(xùn)練而言仍然是十分必要的。本節(jié)分析模型基于部分深度信息實施半監(jiān)督訓(xùn)練的結(jié)果,實驗基于NYU-Dv2 數(shù)據(jù)集,構(gòu)建4 個訓(xùn)練樣本集,分別包含訓(xùn)練數(shù)據(jù)中20%、40%、60%與80%的深度圖樣本。所有深度圖子集中的元素都是通過隨機(jī)采樣原數(shù)據(jù)集中的樣本得到。對于使用不同深度圖子集的訓(xùn)練樣本中可能不存在深度信息標(biāo)簽的情況[25],在此固定深度特征提取網(wǎng)絡(luò)的參數(shù)且模型的其他部分仍然使用與上述實驗相同的訓(xùn)練策略。實驗結(jié)果如表5 所示,在不使用深度信息訓(xùn)練模型的情況下,本文方法僅取得41.5% 的mIoU,相比使用全部深度圖樣本訓(xùn)練的模型降低了19.2 個百分點。值得注意的是,即使僅利用20%的深度信息作為監(jiān)督,本文模型也可獲得比未使用深度信息作為監(jiān)督的情況下更好的模型性能,該結(jié)果表明深度信息對提高室內(nèi)場景語義分割模型性能具有重要意義。

        表5 深度信息監(jiān)督方法的分析結(jié)果Table 5 The analysis results of supervision method with depth information %

        2.6 可視化結(jié)果分析

        圖4 在NYU-Dv2 驗證集上給出了本文方法的可視化輸出結(jié)果,為進(jìn)行詳細(xì)對比,也給出了聯(lián)合學(xué)習(xí)網(wǎng)絡(luò)模型在移除GIGT 模塊或PFF 模塊后的室內(nèi)場景語義分割可視圖,如圖4(c)和圖4(d)所示??梢钥闯觯ㄟ^學(xué)習(xí)深度感知特征可成功地提取RGB 圖像中的3D幾何信息。例如,圖4(a)的第4 行對應(yīng)的RGB 圖像中的pillow 類別與bed 類別非常相似,很難直接通過2D外觀區(qū)別這兩類物體(圖4(c)的第4 行對應(yīng)的分割圖存在該問題),然而將語義特征與深度特征融合后,可以很好地區(qū)分這兩個類別(圖4(d)與圖4(e)的第4 行分割圖驗證了該方法的有效性),并且圖4(a)的第3 行對應(yīng)的RGB 圖像中的desk 類別和cabinet 類別也為類似的情形。此外,PFF 模塊融合了編碼網(wǎng)絡(luò)框架中不同深度的RGB 圖像特征,有利于挖掘多尺度空間上下文信息和物體細(xì)節(jié)信息用于輔助模型學(xué)習(xí)。例如,圖4(a)的第4 行對應(yīng)的RGB 圖像中的picture 類別與wall類別在空間和語義上通常是強相關(guān)的,并且圖4(a)的第5行對應(yīng)的RGB 圖像中的desk 類別與books 類別也是強相關(guān)的。

        圖4 室內(nèi)場景語義分割可視化結(jié)果Fig.4 The visualization results of indoor scene semantic segmentation

        3 結(jié)束語

        本文提出一種新的室內(nèi)場景理解網(wǎng)絡(luò)框架,建立結(jié)合語義特征提取網(wǎng)絡(luò)與深度特征提取網(wǎng)絡(luò)的聯(lián)合學(xué)習(xí)網(wǎng)絡(luò)模型,通過RGB 圖像學(xué)習(xí)更具表達(dá)力的深度信息感知特征,使其能夠有效地指導(dǎo)與輔助場景語義分割任務(wù)的實施。聯(lián)合學(xué)習(xí)網(wǎng)絡(luò)模型主要包括幾何信息指導(dǎo)的深度特征傳輸模塊、金字塔特征融合模塊與針對訓(xùn)練樣本數(shù)據(jù)不平衡問題的損失函數(shù)。深度特征傳輸模塊應(yīng)用學(xué)習(xí)到的深度特征中的幾何信息指導(dǎo)深度特征與語義特征的融合,金字塔特征融合模塊充分挖掘編碼網(wǎng)絡(luò)中的多尺度空間上下文信息與紋理細(xì)節(jié)信息,并將這些信息與深度特征傳輸模塊的輸出特征相結(jié)合生成更魯棒的語義特征。實驗結(jié)果表明,該模型在輸入單張RGB 圖像的情況下可同時捕獲圖像的2D外觀與3D 幾何信息,并且在NYU-Dv2 與SUN RGBD數(shù)據(jù)集上相比傳統(tǒng)分割方法具有更好的室內(nèi)場景語義分割性能。下一步嘗試將注意力機(jī)制引入室內(nèi)理解網(wǎng)絡(luò)框架中提高聯(lián)合學(xué)習(xí)網(wǎng)絡(luò)模型的學(xué)習(xí)效率,同時通過網(wǎng)絡(luò)輕量化設(shè)計加快模型運行速度。

        猜你喜歡
        類別語義深度
        深度理解一元一次方程
        語言與語義
        深度觀察
        深度觀察
        深度觀察
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        服務(wù)類別
        新校長(2016年8期)2016-01-10 06:43:59
        認(rèn)知范疇模糊與語義模糊
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        成人av综合资源在线| 国产自产精品露脸刺激91在线| 韩国日本亚洲精品视频| 少妇呻吟一区二区三区| 偷拍偷窥女厕一区二区视频| 爽爽精品dvd蜜桃成熟时电影院 | 亚洲国产一区二区三区最新| 色综合久久人妻精品日韩| 四虎永久在线精品免费网址| 怡红院a∨人人爰人人爽| 精品一精品国产一级毛片| 中文字幕中文字幕人妻黑丝| 色婷婷精品久久二区二区蜜桃| 欧美性猛交xxxx富婆| 五月中文字幕| 国产精品美女自在线观看| 久久综合噜噜激激的五月天| 国产精品爽黄69天堂a| 久久国产成人亚洲精品影院老金| 人妻露脸国语对白字幕| 欧美白人战黑吊| 理论片午午伦夜理片影院| 国产国拍亚洲精品永久69| 人妻中文久久人妻蜜桃| 国产激情综合在线观看| 久久中文字幕乱码免费| 亚洲性码不卡视频在线| 国偷自拍av一区二区三区| 男女啪啪无遮挡免费网站| 亚洲AV无码久久精品国产老人| 精品日韩在线观看视频| 亚洲人成电影网站色| 97免费人妻在线视频| 国产一区二区内射最近人| 久草视频在线手机免费看| 人妻少妇精品无码专区二区| 国产在线视频国产永久视频| 美腿丝袜视频在线观看| 男人的天堂免费a级毛片无码| 一区二区国产在线观看| 综合图区亚洲偷自拍熟女|