亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        全監(jiān)督學(xué)習(xí)的圖像語(yǔ)義分割方法研究進(jìn)展

        2021-02-22 11:59:52袁銘陽(yáng)黃宏博周長(zhǎng)勝
        關(guān)鍵詞:語(yǔ)義特征方法

        袁銘陽(yáng),黃宏博 ,2,周長(zhǎng)勝,2

        1.北京信息科技大學(xué) 計(jì)算機(jī)學(xué)院,北京 100101

        2.北京信息科技大學(xué) 計(jì)算智能研究所,北京 100192

        圖像語(yǔ)義分割在計(jì)算機(jī)視覺(jué)領(lǐng)域中是一個(gè)重要的研究方向,可以從像素級(jí)別對(duì)圖像中的各個(gè)事物進(jìn)行圖像識(shí)別和目標(biāo)檢測(cè)。具體來(lái)說(shuō),圖像語(yǔ)義分割是指從像素級(jí)別分辨出圖像中的目標(biāo)對(duì)象具體是什么以及目標(biāo)對(duì)象在哪個(gè)位置,即先把圖片中的目標(biāo)檢測(cè)出來(lái),然后描繪出每個(gè)個(gè)體和場(chǎng)景之間的輪廓,最后將它們分類(lèi)并對(duì)屬于同一類(lèi)的事物賦予一個(gè)顏色進(jìn)行表示。而圖像語(yǔ)義分割存在一些難點(diǎn),例如不同種類(lèi)的物體有著相似的外觀或形狀,此時(shí)很難將物體種類(lèi)區(qū)分開(kāi)來(lái)。而且當(dāng)物體尺寸過(guò)小時(shí),不僅易丟失物體的細(xì)節(jié),而且難以識(shí)別出物體的具體輪廓。為了解決這些難點(diǎn),最初大多圖像語(yǔ)義分割技術(shù)都是基于傳統(tǒng)方法,主要包括基于閾值、邊緣檢測(cè)以及區(qū)域的分割方法。隨著深度學(xué)習(xí)的出現(xiàn),基于深度學(xué)習(xí)的圖像語(yǔ)義分割方法逐漸取代了傳統(tǒng)方法,其準(zhǔn)確率和速度等各種性能指標(biāo)都有著很大程度的提高?,F(xiàn)如今,基于深度學(xué)習(xí)的圖像語(yǔ)義分割在自動(dòng)駕駛、面部分割、服裝解析、遙感圖像以及醫(yī)學(xué)圖像等領(lǐng)域都有著廣泛的應(yīng)用前景,具有很好的研究?jī)r(jià)值。

        目前,已經(jīng)存在不少綜述性文章對(duì)各種圖像語(yǔ)義分割方法進(jìn)行分析和點(diǎn)評(píng)。文獻(xiàn)[1-2]主要是對(duì)常見(jiàn)的語(yǔ)義分割方法進(jìn)行全面解析;文獻(xiàn)[3-4]對(duì)多種語(yǔ)義分割方法進(jìn)行了合理的分類(lèi),并對(duì)數(shù)據(jù)集進(jìn)行了詳細(xì)的說(shuō)明;文獻(xiàn)[5-7]詳細(xì)描述了多種語(yǔ)義分割方法并對(duì)各方法的優(yōu)勢(shì)之處進(jìn)行合理的分析對(duì)比,同時(shí)對(duì)各種方法進(jìn)行明確的分類(lèi)。本文在已有綜述的基礎(chǔ)上,補(bǔ)充了許多最新的圖像語(yǔ)義分割方法,并對(duì)目前主流方法的描述說(shuō)明進(jìn)行了進(jìn)一步完善。

        近年來(lái),隨著深度學(xué)習(xí)的不斷發(fā)展,圖像語(yǔ)義分割技術(shù)也取得了重大進(jìn)步,越來(lái)越多的基于深度學(xué)習(xí)的前沿圖像語(yǔ)義分割方法相繼出現(xiàn),均不同程度對(duì)網(wǎng)絡(luò)模型進(jìn)行了改進(jìn)。由于在前沿的深度學(xué)習(xí)語(yǔ)義分割方法中,全監(jiān)督學(xué)習(xí)的圖像語(yǔ)義分割方法的效果要明顯優(yōu)于弱監(jiān)督以及半監(jiān)督學(xué)習(xí)的圖像語(yǔ)義分割方法,本文旨在對(duì)全監(jiān)督學(xué)習(xí)的圖像語(yǔ)義分割方法的研究進(jìn)展進(jìn)行全面分析。全卷積網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)[8]的出現(xiàn),標(biāo)志著深度學(xué)習(xí)正式進(jìn)入視頻圖像語(yǔ)義分割領(lǐng)域。本文將從FCN 開(kāi)始,按照分類(lèi)依次介紹各種語(yǔ)義分割方法。接著對(duì)各種圖像語(yǔ)義分割方法進(jìn)行性能對(duì)比,介紹圖像語(yǔ)義分割的評(píng)估指標(biāo)和數(shù)據(jù)集。最后對(duì)所有圖像語(yǔ)義分割方法從多個(gè)方面進(jìn)行總結(jié),并對(duì)語(yǔ)義分割的未來(lái)進(jìn)行展望。

        1 全監(jiān)督學(xué)習(xí)的圖像語(yǔ)義分割方法

        由于經(jīng)過(guò)像素級(jí)標(biāo)注的圖像可以包含較多的細(xì)節(jié)信息,有利于通過(guò)網(wǎng)絡(luò)訓(xùn)練提取到更加豐富的語(yǔ)義信息,因此目前取得較好分割效果的方法大多屬于全監(jiān)督學(xué)習(xí)類(lèi)型。由于早期計(jì)算效率低下,早期語(yǔ)義分割方法大多采用全卷積的方式來(lái)直觀地獲得分割結(jié)果,為了使網(wǎng)絡(luò)模型形成一種對(duì)稱(chēng)的美感,編碼器解碼器結(jié)構(gòu)也逐漸變得流行起來(lái)。隨著計(jì)算力的增加,新方法開(kāi)始將注意力機(jī)制引入到語(yǔ)義分割模型中來(lái)提升性能,也有些方法嘗試著設(shè)計(jì)出特殊模塊添加進(jìn)已知模型中來(lái)提升分割精度。后來(lái),由于單一網(wǎng)絡(luò)難以滿足對(duì)所有數(shù)據(jù)集中圖像都有較好的分割效果,進(jìn)而開(kāi)始出現(xiàn)非靜態(tài)網(wǎng)絡(luò)用于圖像語(yǔ)義分割。根據(jù)這些方法的不同特點(diǎn),將全監(jiān)督學(xué)習(xí)的圖像語(yǔ)義分割方法共分為5大類(lèi):基于全卷積的圖像語(yǔ)義分割方法、基于編碼器解碼器結(jié)構(gòu)的圖像語(yǔ)義分割方法、基于注意力機(jī)制的圖像語(yǔ)義分割方法、基于添加特殊模塊的圖像語(yǔ)義分割方法以及基于非靜態(tài)網(wǎng)絡(luò)的圖像語(yǔ)義分割方法。

        1.1 基于全卷積的圖像語(yǔ)義分割方法

        全卷積網(wǎng)絡(luò)(FCN)是將深度學(xué)習(xí)運(yùn)用到圖像語(yǔ)義分割領(lǐng)域的開(kāi)山之作。FCN的主要思想是把AlexNet[9]、VGG16[10]以及GoogleNet[11]等常見(jiàn)的網(wǎng)絡(luò)結(jié)構(gòu)中的全連接層轉(zhuǎn)化為卷積層,并在最后使用反卷積,用來(lái)將經(jīng)過(guò)下采樣壓縮后的特征圖通過(guò)上采樣恢復(fù)到原來(lái)的尺寸,具體的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。FCN 可以把圖像中的每一個(gè)像素作為訓(xùn)練樣本,保留每個(gè)像素在原圖片中的位置信息,在網(wǎng)絡(luò)訓(xùn)練時(shí)對(duì)各個(gè)像素進(jìn)行預(yù)測(cè)并輸出一個(gè)相對(duì)應(yīng)的判斷標(biāo)注,最終計(jì)算出各個(gè)像素最大可能屬于哪一類(lèi)別。

        圖1 FCN網(wǎng)絡(luò)結(jié)構(gòu)圖

        FCN最先在圖像語(yǔ)義分割領(lǐng)域引入了一種端到端、像素到像素的全卷積網(wǎng)絡(luò)。文獻(xiàn)[12]是對(duì)FCN 的一種改進(jìn),引入了表觀適配網(wǎng)絡(luò)學(xué)習(xí)視覺(jué)的相似性,獲取特征圖的低級(jí)像素信息,并通過(guò)表征適配網(wǎng)絡(luò)獲取表征信息,能一定程度提升分割效果。文獻(xiàn)[13]以DenseNet[14]網(wǎng)絡(luò)結(jié)構(gòu)作為骨干,并對(duì)Dense塊后的特征圖使用上采樣恢復(fù)圖像分辨率,使得網(wǎng)絡(luò)模型的精度更加準(zhǔn)確且更加易于訓(xùn)練。

        DeepLab系列網(wǎng)絡(luò)專(zhuān)門(mén)用于圖像語(yǔ)義分割,該系列通過(guò)不斷改進(jìn)網(wǎng)絡(luò)模型來(lái)優(yōu)化圖像語(yǔ)義分割效果,最先問(wèn)世的是 DeepLabV1[15]。DeepLabV1 首先將 VGG16 中的全連接層轉(zhuǎn)化為卷積層,接著將網(wǎng)絡(luò)中最后兩個(gè)池化層之后的卷積層替換為空洞卷積(Dilation Convolution)[16]。空洞卷積優(yōu)勢(shì)之處在于可以增加感受野,不僅可以很好地解決由于池化計(jì)算導(dǎo)致的圖像分辨率降低的問(wèn)題,還能大幅提升網(wǎng)絡(luò)對(duì)圖像中大物體的分割效果。DeepLabV1在網(wǎng)絡(luò)的最后一層添加了全連接條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)[17],可以小幅提升圖像語(yǔ)義分割的精確率。由于空洞卷積會(huì)增加計(jì)算復(fù)雜度,文獻(xiàn)[18]使用聯(lián)合金字塔上采樣來(lái)代替空洞卷積,通過(guò)將多個(gè)并行的不同擴(kuò)張率的空洞卷積恢復(fù)到相同分辨率,在提高模型精度的同時(shí)還能加快計(jì)算速度。

        DeepLabV2[19]在DeepLabV1 的基礎(chǔ)上做出了改進(jìn),以殘差網(wǎng)絡(luò)ResNet[20]代替VGG16作為網(wǎng)絡(luò)模型,ResNet直接將輸入信息繞道傳到輸出端,一定程度上解決了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程中或多或少丟失部分信息的問(wèn)題。為了解決空洞卷積難以識(shí)別小物體的問(wèn)題,DeepLabV2使用了空洞空間金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)對(duì)原圖提取多尺度特征。ASPP的思想與空間金字塔池化[21]類(lèi)似,可以更有利于獲取同一事物在不同尺度下的特征。由于ASPP的加入,雖然使得DeepLabV2相較于DeepLabV1有了更多的參數(shù)量,但是卻帶來(lái)了很大程度上的精度提升。文獻(xiàn)[22]對(duì)DeepLabV2 的分割速度做出了優(yōu)化,采用Xception 網(wǎng)絡(luò)作為編碼器,增加FPN解碼特征的過(guò)程,并減少了ASSP的參數(shù)數(shù)量,使分割速度提高了近一倍。

        DeepLabV3[23]在DeepLabV2 的基礎(chǔ)上做出了改進(jìn),依舊以殘差網(wǎng)絡(luò)ResNet 作為網(wǎng)絡(luò)模型。DeepLabV3 提供了兩種思路,第一種是在結(jié)構(gòu)上利用空洞卷積能夠增加感受野的優(yōu)勢(shì),采用空洞卷積來(lái)加深網(wǎng)絡(luò)的層數(shù),這樣做的優(yōu)勢(shì)在于不用擔(dān)心因?yàn)榫W(wǎng)絡(luò)層數(shù)的增加而降低圖像分辨率,之后將這些串行連接的空洞卷積與ASSP相結(jié)合。DeepLabV3 的第二種思路是在ASSP 模塊中做出了改進(jìn),在模塊中添加了一個(gè)1×1 的卷積層和BN(Batch Normalization),并在模型最后添加了全局平均池化[24],可以獲得更加全面的圖片語(yǔ)義信息。最后,由于CRF 學(xué)習(xí)速度過(guò)慢,且在DeepLabV1 和DeepLabV2中提升的精度較少,因此在DeepLabV3中被舍棄。最終實(shí)驗(yàn)結(jié)果證明,DeepLabV3即使是在去除了CRF的條件下也能獲得比DeepLabV2 更高的精確度。文獻(xiàn)[25]在DeepLabV3 的基礎(chǔ)上,使用輕量化MobileNet 作為特征提取器,并采用Swish 激活函數(shù)進(jìn)行精度補(bǔ)償,使得在相同精度的條件下,模型大小和運(yùn)行時(shí)間大幅降低。

        RefineNet[26]是一種用于高分辨率語(yǔ)義分割的多路徑優(yōu)化網(wǎng)絡(luò),該網(wǎng)絡(luò)可以完美利用降采樣過(guò)程中的所有可用信息,以實(shí)現(xiàn)使用遠(yuǎn)程殘差連接的高分辨率預(yù)測(cè)。RefineNet 網(wǎng)絡(luò)一共包含三部分:第一部分是殘差卷積單元,用來(lái)接收多個(gè)任意分辨率的特征圖并獲得這些特征圖的底層信息;第二部分是多分辨率融合,將多個(gè)分辨率的圖像通過(guò)上采樣恢復(fù)到相同的分辨率并進(jìn)行融合;第三部分是鏈?zhǔn)綒埐畛鼗?,?gòu)建由多個(gè)塊組成的鏈,每個(gè)塊由一個(gè)最大池化層和一個(gè)卷積層組成,可以從較大的圖像區(qū)域捕獲背景上下文信息并提取高級(jí)語(yǔ)義特征。RefineNet的主要貢獻(xiàn)在于提供了一個(gè)結(jié)合高級(jí)語(yǔ)義特征和低級(jí)特征生成高分辨率分割圖的網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)適用于多類(lèi)語(yǔ)義分割任務(wù),在語(yǔ)義分割主流的7個(gè)數(shù)據(jù)集中超過(guò)了所有同期的其他網(wǎng)絡(luò)。

        1.2 基于編碼器解碼器結(jié)構(gòu)的圖像語(yǔ)義分割方法

        編碼器解碼器結(jié)構(gòu)是語(yǔ)義分割領(lǐng)域中一種流行的網(wǎng)絡(luò)結(jié)構(gòu)。其中編碼器通過(guò)卷積池化操作獲得像素的位置信息,而解碼器通過(guò)反卷積操作還原像素的位置信息,進(jìn)而形成一種對(duì)稱(chēng)的網(wǎng)絡(luò)結(jié)構(gòu)。

        SegNet[27]是最經(jīng)典的編碼器解碼器結(jié)構(gòu)的圖像語(yǔ)義分割網(wǎng)絡(luò),具體網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2所示。SegNet中編碼器以VGG16網(wǎng)絡(luò)結(jié)構(gòu)為原型,保留了VGG16中的前13個(gè)網(wǎng)絡(luò)層,完全刪除了全連接層,用來(lái)提取輸入圖的特征。而解碼器與編碼器相對(duì)應(yīng),對(duì)編碼器生成的特征圖進(jìn)行上采樣,保證最后的分割圖與原圖分辨率一樣。值得注意的是,SegNet中的每一個(gè)池化都添加了一個(gè)索引功能,作用是保留經(jīng)過(guò)最大池化后剩余元素的初始位置。添加索引使編碼器在網(wǎng)絡(luò)訓(xùn)練過(guò)程中不再需要把完整的生成圖傳遞給解碼器,可以大幅減少網(wǎng)絡(luò)訓(xùn)練時(shí)的內(nèi)存占用。文獻(xiàn)[28]也使用了編碼器解碼器結(jié)構(gòu),并提出了雙通道,用來(lái)分別處理像素標(biāo)注目標(biāo)圖像和所有源圖像,不僅一定程度上解決了圖像標(biāo)注問(wèn)題,還提升了精度。

        U-Net[29]是對(duì)生物醫(yī)學(xué)圖像和遙感圖像[30]進(jìn)行語(yǔ)義分割的編碼器解碼器結(jié)構(gòu)的網(wǎng)絡(luò)。編碼器通過(guò)卷積和池化提取輸入圖特征,之后將這些特征圖傳遞給解碼器進(jìn)行上采樣。U-Net用到了網(wǎng)絡(luò)層之間通道的拼接,這種網(wǎng)絡(luò)層之間的拼接方法可以實(shí)現(xiàn)多層次融合,也就是說(shuō)把網(wǎng)絡(luò)中的每一層信息融合在了一起。拼接的優(yōu)勢(shì)在于通過(guò)實(shí)現(xiàn)多層次融合,使得網(wǎng)絡(luò)在訓(xùn)練過(guò)程中可以很大程度減少因?yàn)槌鼗瘜拥挠?jì)算而丟失的信息。而由于U-Net多次使用復(fù)制和裁剪,最終雖然會(huì)導(dǎo)致語(yǔ)義分割圖即使通過(guò)解碼器進(jìn)行上采樣也不能夠恢復(fù)到與輸入圖相同的尺寸,但是在同期卻因?yàn)樵诰W(wǎng)絡(luò)結(jié)構(gòu)中保留了更多的原圖信息而取得了較高的精度。文獻(xiàn)[31]對(duì)U-Net進(jìn)行了改進(jìn),采用了DenseNet的思想,將U-Net中的前四層全部連接起來(lái),可以更好地獲取多個(gè)層次的特征,專(zhuān)門(mén)用來(lái)處理生物醫(yī)學(xué)圖像。

        圖2 SegNet網(wǎng)絡(luò)結(jié)構(gòu)圖

        圖3 DeepLabV3+網(wǎng)絡(luò)結(jié)構(gòu)圖

        DeepLabV3+[32]在DeepLabV3的基礎(chǔ)上做出了改進(jìn),采用了編碼器解碼器結(jié)構(gòu)進(jìn)行圖像語(yǔ)義分割。DeepLabV3+將DeepLabV3網(wǎng)絡(luò)結(jié)構(gòu)作為編碼器,并添加一個(gè)簡(jiǎn)單高效的解碼器用于獲取空間信息,具體的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。DeepLabV3+使用了Xception[33]結(jié)構(gòu)進(jìn)行圖像語(yǔ)義分割,可以大幅提升網(wǎng)絡(luò)的運(yùn)行速度。在編碼器中,利用空洞卷積獲取并調(diào)整編碼器特征的分辨率,來(lái)平衡運(yùn)行時(shí)間和精確度之間的關(guān)系。在編碼器中的ASPP以及解碼器中,添加了深度分離卷積,可以大幅降低網(wǎng)絡(luò)的參數(shù)量,使得整個(gè)網(wǎng)絡(luò)模型可以快速計(jì)算并保持較好的學(xué)習(xí)能力。最后,將由空洞卷積獲得的低級(jí)紋理特征和由ASSP 獲得的高級(jí)語(yǔ)義特征拼接起來(lái),經(jīng)過(guò)3×3 卷積層再上采樣獲得預(yù)測(cè)結(jié)果。DeepLabV3+取得了較DeepLabV3更高的精度,達(dá)到了當(dāng)時(shí)的最高水準(zhǔn)。

        1.3 基于注意力機(jī)制的圖像語(yǔ)義分割方法

        近年來(lái),隨著注意力(Attention)機(jī)制在自然語(yǔ)言處理(Natural Language Processing,NLP)領(lǐng)域取得主導(dǎo)地位,人們把Attention機(jī)制也同樣用在了圖像語(yǔ)義分割上。將注意力機(jī)制引入語(yǔ)義分割網(wǎng)絡(luò),可以更好地從大量語(yǔ)義信息中提取出最關(guān)鍵的部分,使得網(wǎng)絡(luò)的訓(xùn)練過(guò)程更加高效,分割效果也會(huì)顯著提升。但基于通道注意力機(jī)制的模型SENet[34]很難達(dá)到像素級(jí)別的分割效果,因此大多基于注意力機(jī)制的圖像語(yǔ)義分割方法使用自注意力機(jī)制模型來(lái)提高圖像語(yǔ)義分割精度。

        DANet[35]就是基于自注意力機(jī)制的圖像語(yǔ)義分割網(wǎng)絡(luò),采用帶有空洞卷積的ResNet 作為主干網(wǎng)絡(luò)。將經(jīng)過(guò)主干網(wǎng)絡(luò)后的生成圖通過(guò)兩個(gè)并行的自注意力機(jī)制模塊,即位置注意力模塊和通道注意力模塊。位置注意力模塊通過(guò)加權(quán)求和的方式來(lái)更新位置特征,用來(lái)獲得生成圖的任意兩個(gè)位置之間的空間依賴(lài)關(guān)系。通道注意力模塊同樣通過(guò)加權(quán)求和的方式來(lái)更新每個(gè)通道,用來(lái)獲得生成圖任意兩個(gè)通道之間的通道依賴(lài)關(guān)系。最后對(duì)經(jīng)過(guò)兩個(gè)自注意力機(jī)制模塊的輸出圖進(jìn)行元素求和實(shí)現(xiàn)融合,最終通過(guò)一次卷積獲得語(yǔ)義分割圖。

        大多數(shù)的語(yǔ)義分割任務(wù)都通過(guò)多個(gè)卷積層來(lái)增大感受野,但隨著卷積層的不斷堆疊,不僅造成計(jì)算量的增加,而且使得能保留的原圖信息越來(lái)越少。為了解決這些問(wèn)題,設(shè)計(jì)出non-local[36],一種可以用于圖像語(yǔ)義分割的自注意力機(jī)制模塊,該模塊的示意圖如圖4 所示。non-local 模塊可以通過(guò)直接計(jì)算出任意兩點(diǎn)的關(guān)系來(lái)高效獲得長(zhǎng)范圍依賴(lài),且能保證輸入圖和輸出圖尺度不變,便于應(yīng)用到各種網(wǎng)絡(luò)模型中。文獻(xiàn)[37]以ResNet為網(wǎng)絡(luò)結(jié)構(gòu)并利用non-local模塊,在該模塊中加入金字塔池化進(jìn)行下采樣,使得non-local模塊從計(jì)算任意兩點(diǎn)的關(guān)系轉(zhuǎn)變?yōu)橛?jì)算任意一點(diǎn)和圖像塊之間的關(guān)系,大幅提升了計(jì)算效率。文獻(xiàn)[38]使用了兩個(gè)注意力機(jī)制模塊,第一個(gè)模塊通過(guò)雙線性池化[39]獲得圖像的全部特征,并將其放在一個(gè)集合中,第二個(gè)模塊將這些特征自適應(yīng)地分配到每個(gè)位置,與non-local 有類(lèi)似之處。CCNet[40]是一種基于十字交叉模塊的網(wǎng)絡(luò),十字交叉模塊是對(duì)nonlocal 模塊的一種改進(jìn)。使用了串行連接的兩個(gè)十字交叉模塊,使得每個(gè)像素點(diǎn)在第一個(gè)模塊中先計(jì)算出該點(diǎn)與其十字型結(jié)構(gòu)的其他像素點(diǎn)的關(guān)系,接著在第二個(gè)模塊遍歷所有的像素點(diǎn),這樣可以在提升精度的同時(shí)降低內(nèi)存。

        圖4 non-local示意圖

        雖然non-local 在圖像語(yǔ)義分割任務(wù)中表現(xiàn)十分突出,但由于每個(gè)像素點(diǎn)都要和全圖所有其他的像素點(diǎn)進(jìn)行計(jì)算,時(shí)間復(fù)雜度和空間復(fù)雜度過(guò)大。EMANet[41]是一種期望最大化注意力機(jī)制網(wǎng)絡(luò)。EMANet 的核心之處在于EMA單元,該單元通過(guò)EM算法中的E步更新注意力圖,M步更新一組基,之后E步M步交替執(zhí)行,最后迭代出一組緊湊的基。由于僅在這組緊湊的基上運(yùn)行注意力機(jī)制,相較于non-local大幅降低了復(fù)雜度。EMANet隨著EM算法迭代次數(shù)的增加,其性能相較non-local有了明顯的提升。

        HANet[42]是一個(gè)添加了通用附加注意力機(jī)制模塊的網(wǎng)絡(luò),名為高度驅(qū)動(dòng)注意力網(wǎng)絡(luò),專(zhuān)門(mén)用來(lái)對(duì)城市場(chǎng)景圖像進(jìn)行語(yǔ)義分割。通過(guò)對(duì)城市場(chǎng)景圖像的觀察,發(fā)現(xiàn)圖像水平分割部分的像素存在著明顯的差異,因而可以根據(jù)像素的垂直位置有選擇地調(diào)整信息特征并對(duì)像素進(jìn)行分類(lèi)。就類(lèi)別分布而言,城市場(chǎng)景圖像中每行像素都包含不同的上下文信息,HANet模塊的主要目的就是提取這些信息并計(jì)算每行像素的注意權(quán)重,用來(lái)表示每行的重要性。HANet 模塊將原圖通過(guò)寬度池化壓縮空間維度,再經(jīng)過(guò)三層卷積獲得注意力圖,并將正旋位置編碼添加到HANet模塊中,用于提取高度方向的上下文信息,最后將注意力圖與特征圖進(jìn)行元素乘積獲得分割圖。HANet模塊可以添加進(jìn)如DeeplabV3+的現(xiàn)有模型中,可在城市場(chǎng)景數(shù)據(jù)集中取得最高性能。

        1.4 基于添加特殊模塊的圖像語(yǔ)義分割方法

        目前,許多圖像語(yǔ)義分割方法通過(guò)構(gòu)建特殊模塊,并將特殊模塊添加到常見(jiàn)網(wǎng)絡(luò)結(jié)構(gòu)中達(dá)到提升圖像語(yǔ)義分割性能的目的。E-Net[43]屬于實(shí)時(shí)圖像語(yǔ)義分割的網(wǎng)絡(luò),和大多數(shù)的語(yǔ)義分割網(wǎng)絡(luò)不一樣,該網(wǎng)絡(luò)的側(cè)重點(diǎn)主要放在確保一定精度時(shí)網(wǎng)絡(luò)的速度上。E-Net設(shè)計(jì)出一種初始模塊來(lái)達(dá)到目的,初始模塊將池化層和卷積層采用并行的方式計(jì)算,代替?zhèn)鹘y(tǒng)CNN 中池化層在卷積層之后的設(shè)定。之后再對(duì)并行運(yùn)行的結(jié)果進(jìn)行拼接作為輸出,可以減少網(wǎng)絡(luò)的深度并降低計(jì)算量。另外將下采樣放置在網(wǎng)絡(luò)結(jié)構(gòu)的前端,可以有效地對(duì)特征圖的尺寸進(jìn)行壓縮并減少網(wǎng)絡(luò)參數(shù),從而進(jìn)一步提升速度。單從速度指標(biāo)來(lái)看,E-Net的速度是SegNet的20多倍。

        PSPNet[44]是一種用于復(fù)雜場(chǎng)景的金字塔場(chǎng)景解析網(wǎng)絡(luò),用來(lái)將復(fù)雜場(chǎng)景上下文特征嵌入基于FCN 的像素預(yù)測(cè)框架中,通過(guò)金字塔池化模塊聚合了基于不同區(qū)域的上下文信息,具體的網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。PSPNet的核心之處在于金字塔池化模塊,首先讓經(jīng)過(guò)卷積層的特征圖進(jìn)入金字塔池化模塊。該模塊通過(guò)四種不同尺度的池化得到不同大小的輸出特征圖,之后將多個(gè)輸出特征圖通過(guò)卷積層再進(jìn)行上采樣,可以將多個(gè)不同大小輸出特征圖恢復(fù)到和原特征圖相同的尺寸,最后對(duì)所有的輸出特征圖和原特征圖進(jìn)行拼接卷積得到最終圖像語(yǔ)義分割圖。PSPNet通過(guò)金字塔池化模塊可以很好地解決由于大多數(shù)基于FCN網(wǎng)絡(luò)沒(méi)有捕獲到足夠的上下文信息而導(dǎo)致錯(cuò)誤分割的問(wèn)題,因此可以提升對(duì)具有相似外觀的不同物體的語(yǔ)義分割精度。

        PointRend[45]是基于點(diǎn)的渲染的神經(jīng)網(wǎng)絡(luò)模塊,該模塊的設(shè)計(jì)理念是將對(duì)圖像分割問(wèn)題視為圖像渲染問(wèn)題進(jìn)行處理。所謂渲染,即把3D實(shí)體在2D平面上繪制出來(lái),難點(diǎn)在于對(duì)實(shí)體的邊緣進(jìn)行分割。PointRend 模塊共由三部分組成:第一部分是點(diǎn)的選擇策略,僅選擇處于物體邊緣位置的點(diǎn);第二部分是點(diǎn)的特征表示,通過(guò)雙線性插值計(jì)算出被選擇的點(diǎn)的特征;第三部分則是對(duì)這些點(diǎn)的特征進(jìn)行預(yù)測(cè)。其中重點(diǎn)在于點(diǎn)的選擇策略,通過(guò)計(jì)算該點(diǎn)與其近鄰點(diǎn)是否顯著不同的方式可以自適應(yīng)地正確選擇出少量物體邊緣位置的點(diǎn),不僅能避免對(duì)所有像素進(jìn)行過(guò)多無(wú)用的計(jì)算,還能直接影響最終的分割效果。PointRend 模塊可以理解成上采樣功能模塊,用雙線性插值法進(jìn)行上采樣,并對(duì)模糊的點(diǎn)進(jìn)行預(yù)測(cè),直到達(dá)到所需的分辨率。該模塊可以添加到實(shí)例分割網(wǎng)絡(luò)Mask R-CNN[46]和語(yǔ)義分割網(wǎng)絡(luò)DeepLab 中,進(jìn)一步提升分割精度。

        圖5 PSPNet網(wǎng)絡(luò)結(jié)構(gòu)圖

        SPNet[47]是由條紋池化模塊(Strip Pooling Module,SPM)和混合池化[48]模塊(Mixed Pooling Module,MPM)構(gòu)建而成的圖像語(yǔ)義分割網(wǎng)絡(luò),該網(wǎng)絡(luò)的核心在于條紋池化(Strip Pooling)。條紋池化是一種新的池化方法,其計(jì)算方式和平均池化一樣,但池化核變?yōu)?×n或n×1(n為特征圖的長(zhǎng)或?qū)挘?。這種長(zhǎng)方形池化核相較于大多數(shù)正方形池化核可以更好地捕獲圖像中長(zhǎng)條型結(jié)構(gòu)的目標(biāo)對(duì)象。SPM 將輸入圖通過(guò)并行的水平條紋池化和豎直條紋池化得到兩張?zhí)卣鲌D,再將兩張?zhí)卣鲌D進(jìn)行擴(kuò)張求和后得到融合特征圖,最后將融合特征圖進(jìn)行卷積處理后與原輸入圖進(jìn)行像素相乘獲得輸出圖。MPM 是對(duì)SPM 的改進(jìn),區(qū)別在于添加了金字塔池化,與條形池化構(gòu)成混合池化,用來(lái)解決SPM 不能較好地捕獲圖像中的非長(zhǎng)方形目標(biāo)的問(wèn)題。SPNet 通過(guò)SPM和MPM 對(duì)各類(lèi)形狀的物體都有較好的分割效果,其精度達(dá)到了SOTA。

        SFNet[49]是用于場(chǎng)景解析的特征金字塔對(duì)齊網(wǎng)絡(luò),通過(guò)將光流對(duì)齊模塊(Flow Alignment Module,F(xiàn)AM)插入特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)[50]框架構(gòu)建而成。SFNet的核心部分在于FAM,F(xiàn)AM將變換后的高分辨率特征映射與低分辨率特征映射相結(jié)合,生成語(yǔ)義流場(chǎng),用于將低分辨率的粗略特征轉(zhuǎn)化為高分辨率的精細(xì)特征。FAM在形式上類(lèi)似于通過(guò)光流對(duì)齊兩個(gè)視頻幀,用于學(xué)習(xí)相鄰層特征映射之間的語(yǔ)義流,并將高級(jí)語(yǔ)義特征有效地傳播到高分辨率特征并進(jìn)行對(duì)齊,進(jìn)而獲得具有高分辨率的高級(jí)語(yǔ)義特征。由于FAM 可以高效地將語(yǔ)義信息從深層傳遞到淺層,可以更加豐富地表示低級(jí)特征的語(yǔ)義。SFNet 通過(guò)丟棄部分相對(duì)無(wú)關(guān)的卷積來(lái)減少計(jì)算開(kāi)銷(xiāo),再配合使用FAM提升精度,使得網(wǎng)絡(luò)在分割精度和速度之間實(shí)現(xiàn)最佳的平衡。最終不僅在速度上達(dá)到了實(shí)時(shí)的效果,還顯著提高了準(zhǔn)確性,在多個(gè)數(shù)據(jù)集中均表現(xiàn)出了極佳的性能。

        1.5 基于非靜態(tài)網(wǎng)絡(luò)的圖像語(yǔ)義分割方法

        直到現(xiàn)在,大多圖像語(yǔ)義分割網(wǎng)絡(luò)都屬于單一靜態(tài)網(wǎng)絡(luò),雖然靜態(tài)網(wǎng)絡(luò)也能對(duì)各種不同類(lèi)型的圖像有著較高精度,但是靜態(tài)網(wǎng)絡(luò)卻不能保證最適用于所有類(lèi)型的圖像。因此設(shè)計(jì)出一種可以對(duì)不同類(lèi)型的圖像進(jìn)行合理網(wǎng)絡(luò)構(gòu)建的非靜態(tài)網(wǎng)絡(luò),不僅會(huì)適用于所有圖像,還能較靜態(tài)網(wǎng)絡(luò)取得更高精度。

        Auto-DeepLab[51]是一種自動(dòng)搜索圖像語(yǔ)義分割架構(gòu)的方法,該方法首次將神經(jīng)架構(gòu)搜索(Neural Architecture Search,NAS)[52]用在圖像語(yǔ)義分割中。Auto-DeepLab提出了一種網(wǎng)絡(luò)級(jí)架構(gòu)搜索空間,這種搜索空間可以增強(qiáng)單元級(jí)搜索空間,從而形成分層架構(gòu)搜索空間,通過(guò)這種分層架構(gòu)搜索空間可以搜索到最優(yōu)的單元架構(gòu)和網(wǎng)絡(luò)架構(gòu)。為了保證搜索最優(yōu)架構(gòu)的高效性,Auto-DeepLab 設(shè)計(jì)出了一種與分層架構(gòu)搜索空間相匹配的連續(xù)松弛的離散架構(gòu),可以通過(guò)梯度下降的方法進(jìn)行優(yōu)化,進(jìn)而明顯提升搜索效率。由于搜索的高效性,Auto-DeepLab 在未預(yù)訓(xùn)練的條件下性能超過(guò)了當(dāng)時(shí)大多數(shù)預(yù)訓(xùn)練模型。

        Dynamic Routing[53]是最新的語(yǔ)義分割表示方法,提出了一個(gè)動(dòng)態(tài)路由的新概念。動(dòng)態(tài)路由會(huì)根據(jù)輸入圖像中不同尺度目標(biāo)的分布情況進(jìn)行推理,并在推理過(guò)程中自適應(yīng)地生成不同的網(wǎng)絡(luò)結(jié)構(gòu)。利用動(dòng)態(tài)路由,可以將圖像中各類(lèi)物體根據(jù)尺寸的大小自適應(yīng)地分配到相對(duì)應(yīng)分辨率的網(wǎng)絡(luò)層上,從而針對(duì)性地實(shí)現(xiàn)特征變換。在路由空間方面,可以包含多個(gè)獨(dú)立的節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)都包含上采樣、尺度不變和下采樣三種尺度變換通路。與Auto-DeepLab 中的節(jié)點(diǎn)只能選擇一條路徑不同,動(dòng)態(tài)路由中的每個(gè)節(jié)點(diǎn)都支持多通路選擇和跳躍連接,因而可以模擬出很多經(jīng)典的語(yǔ)義分割網(wǎng)絡(luò)架構(gòu)。在路由選擇方面,由于對(duì)每個(gè)節(jié)點(diǎn)都設(shè)置了一個(gè)計(jì)算單元并設(shè)置了一種軟條件門(mén)控,使得該節(jié)點(diǎn)選擇的每一條路徑的概率都由門(mén)控函數(shù)計(jì)算,因而可以動(dòng)態(tài)地選擇路徑。此外,通過(guò)給門(mén)控函數(shù)設(shè)計(jì)預(yù)算約束,可以盡可能舍棄無(wú)意義的計(jì)算,進(jìn)而降低計(jì)算成本。實(shí)驗(yàn)結(jié)果顯示,Dynamic Routing 網(wǎng)絡(luò)較大多數(shù)靜態(tài)網(wǎng)絡(luò)有著更優(yōu)越的性能。

        2 語(yǔ)義分割的性能對(duì)比

        2.1 圖像語(yǔ)義分割性能評(píng)估指標(biāo)

        為了對(duì)各種圖像語(yǔ)義分割方法的性能進(jìn)行公平的對(duì)比,需要使用一種統(tǒng)一的、在語(yǔ)義分割領(lǐng)域公認(rèn)的評(píng)估指標(biāo)。目前,語(yǔ)義分割領(lǐng)域中常用的三種評(píng)價(jià)指標(biāo)包括精度、執(zhí)行時(shí)間以及內(nèi)存占用。就精度這一評(píng)價(jià)指標(biāo)而言,最常見(jiàn)的性能評(píng)估指標(biāo)包括像素精度(PA)、平均像素精度(MPA)、平均精度(AP)、平均召回率(AR)、平均精度均值(mAP)、交并比(IoU)以及平均交并比(MIoU)。在評(píng)估結(jié)果時(shí),一般會(huì)選擇PA、MPA 以及MIoU這三項(xiàng)指標(biāo)進(jìn)行綜合對(duì)比分析。

        (1)精度

        精度是當(dāng)前語(yǔ)義分割任務(wù)中最重要的一項(xiàng)指標(biāo)。PA表示語(yǔ)義分割圖像中分割正確的像素?cái)?shù)量與總像素?cái)?shù)量的比值,具體的計(jì)算方法如式(1)所示:

        MPA表示每個(gè)類(lèi)別中正確的像素?cái)?shù)量與該類(lèi)別所有像素?cái)?shù)量的比值的均值,具體的計(jì)算方法如式(2)所示:

        MIoU 從字面上理解,表示各類(lèi)像素的觀測(cè)區(qū)域和真實(shí)區(qū)域的交集與并集之間的比值的平均值,從而可以反映出分割結(jié)果和真實(shí)圖像的重合程度。MIoU是圖像語(yǔ)義分割中使用頻率最高的一項(xiàng)指標(biāo),具體的計(jì)算方法如式(3)所示:

        式中,n表示像素的類(lèi)別;pij表示實(shí)際類(lèi)型為i,預(yù)測(cè)類(lèi)型為j的像素的數(shù)量;pii表示實(shí)際類(lèi)型為i,預(yù)測(cè)類(lèi)型也為i的像素的數(shù)量,即正確的像素?cái)?shù)量。

        (2)執(zhí)行時(shí)間

        對(duì)于實(shí)時(shí)語(yǔ)義分割任務(wù),執(zhí)行時(shí)間是比精度還重要的一個(gè)指標(biāo)。這項(xiàng)指標(biāo)可以反映運(yùn)行速度的快慢,進(jìn)而決定是否能投入到實(shí)際應(yīng)用中。

        (3)內(nèi)存占用

        當(dāng)滿足精度和執(zhí)行時(shí)間指標(biāo)時(shí),由于可能在某些應(yīng)用場(chǎng)景中存在內(nèi)存配置固定的情況,此時(shí)需要考慮內(nèi)存占用問(wèn)題。

        2.2 圖像語(yǔ)義分割數(shù)據(jù)集

        不同的圖像語(yǔ)義分割方法在處理相同類(lèi)型的圖像時(shí)的效果參差不齊,而且不同的圖像語(yǔ)義分割方法擅長(zhǎng)處理的圖像類(lèi)型也各不一樣。為了對(duì)各種圖像語(yǔ)義分割方法的優(yōu)劣性進(jìn)行公平的比較,需要一個(gè)包含各種圖像類(lèi)型且極具代表性的圖像語(yǔ)義分割數(shù)據(jù)集來(lái)測(cè)試并得到性能評(píng)估指標(biāo)。下面將依次介紹圖像語(yǔ)義分割領(lǐng)域中常用的數(shù)據(jù)集,所有常用數(shù)據(jù)集的數(shù)據(jù)對(duì)比如表1所示。

        PASCOL VOC 系列數(shù)據(jù)集在 2005 年至 2012 年每年都會(huì)用于圖像識(shí)別挑戰(zhàn),為圖像語(yǔ)義分割提供的一套優(yōu)秀的數(shù)據(jù)集。其中最常用的PASCOL VOC 2012[54]數(shù)據(jù)集包括場(chǎng)景在內(nèi)共有21種類(lèi)別,主要包含人類(lèi)、動(dòng)物、交通工具和室內(nèi)家具等。該數(shù)據(jù)集共包含10 000多張圖像,而適用于語(yǔ)義分割的圖像有2 913張,其中1 464張作為訓(xùn)練圖像,另外1 449 張作為驗(yàn)證圖像。之后該數(shù)據(jù)集的增強(qiáng)版PASCOL VOC 2012+又標(biāo)注了8 000多張圖像用于語(yǔ)義分割,這些適用于語(yǔ)義分割的圖片尺寸不同,且不同物體之間存在遮擋現(xiàn)象。

        PASCOL Context[55]數(shù)據(jù)集是由PASCOL VOC 2010數(shù)據(jù)集改進(jìn)而來(lái),添加了大量的物體標(biāo)注和場(chǎng)景信息,一共有540個(gè)標(biāo)注類(lèi)別。但在算法評(píng)估時(shí),一般選擇出現(xiàn)頻率最高的59 個(gè)類(lèi)別作為語(yǔ)義標(biāo)簽,剩余類(lèi)別充當(dāng)背景。

        PASCOL Part[56]數(shù)據(jù)集也是由PASCOL VOC 2010數(shù)據(jù)集改進(jìn)而來(lái),圖像數(shù)量保持不變,但對(duì)數(shù)據(jù)集中的訓(xùn)練集、驗(yàn)證集和測(cè)試集三部分中的圖像添加了像素級(jí)別的標(biāo)注。對(duì)于原數(shù)據(jù)集中的部分類(lèi)別也進(jìn)行了切分,使得物體的各個(gè)部位都有像素標(biāo)注,可以提供豐富的細(xì)節(jié)信息。

        MS COCO[57]數(shù)據(jù)集是一種由微軟團(tuán)隊(duì)提供的可用于語(yǔ)義分割的大型數(shù)據(jù)集。MS COCO 數(shù)據(jù)集提供了包括背景共 81 種類(lèi)別、328 000 張圖像、2 500 000 個(gè)物體實(shí)例以及100 000個(gè)人體關(guān)鍵部位標(biāo)注。數(shù)據(jù)集中的圖片來(lái)源于室內(nèi)室外的日常場(chǎng)景,圖片中每個(gè)物體都有精確的位置標(biāo)注,適用于對(duì)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練。

        Cityscapes[58]數(shù)據(jù)集是一種無(wú)人駕駛視角下的城市景觀數(shù)據(jù)集。Cityscapes 數(shù)據(jù)集記錄了50 個(gè)不同城市的街道場(chǎng)景,包含了5 000 張精細(xì)標(biāo)注還有20 000 張粗略標(biāo)注的城市環(huán)境中無(wú)人駕駛的場(chǎng)景圖像。這5 000張精細(xì)標(biāo)注圖像共分為2 975張訓(xùn)練圖像,1 525張測(cè)試圖像以及500 張驗(yàn)證圖像,總共提供了包括行人、車(chē)輛和道路等30種類(lèi)別標(biāo)注。

        KITTI[59]數(shù)據(jù)集是一種用于自動(dòng)駕駛場(chǎng)景的算法評(píng)估數(shù)據(jù)集。KITTI數(shù)據(jù)集中包含了城市、鄉(xiāng)村以及高速公路等多種真實(shí)場(chǎng)景圖像,最初用于評(píng)估目標(biāo)檢測(cè)等技術(shù),是自動(dòng)駕駛領(lǐng)域最受歡迎的數(shù)據(jù)集之一。但是該數(shù)據(jù)集創(chuàng)立時(shí)卻缺乏語(yǔ)義標(biāo)注,后來(lái)通過(guò)三人添加手工標(biāo)注的方式使得該數(shù)據(jù)集可用于語(yǔ)義分割。

        ADE20K[60-61]數(shù)據(jù)集是一種由MIT發(fā)布并維護(hù)的用于場(chǎng)景解析的大型數(shù)據(jù)集。ADE20K 數(shù)據(jù)集擁有超過(guò)25 000 張場(chǎng)景圖像,其中訓(xùn)練集有20 210 張圖像,驗(yàn)證集有3 000張圖像,測(cè)試集有3 352張圖像。數(shù)據(jù)集中的圖像包含了150種類(lèi)別,圖像中的物體大多為室內(nèi)和室外的常見(jiàn)物體。

        表1 語(yǔ)義分割常見(jiàn)數(shù)據(jù)集對(duì)比

        SUN-RGBD[62]數(shù)據(jù)集是通過(guò)4 個(gè)RGBD 傳感器捕獲的圖像集合而成的數(shù)據(jù)集。SUN-RGBD數(shù)據(jù)集均為密集標(biāo)注,圖像尺寸與PASCOL VOC一致,包含10 000多張RGBD圖像和37種類(lèi)別,另外還包含了146 617個(gè)多邊形標(biāo)注和58 657個(gè)邊界框標(biāo)注。

        NYUDv2[63]數(shù)據(jù)集是由微軟Kinect設(shè)備獲得的室內(nèi)場(chǎng)景組成的數(shù)據(jù)集。NYUDv2 數(shù)據(jù)集由一系列的視頻序列組成,包含1 449 張具有40 個(gè)類(lèi)別的RGBD 圖像。數(shù)據(jù)集中共包含464 種室內(nèi)場(chǎng)景,26 種場(chǎng)景類(lèi)型,適用于家庭機(jī)器人的圖像分割任務(wù)。

        Sift Flow[64]數(shù)據(jù)集是以室外場(chǎng)景為主的數(shù)據(jù)集。Sift Flow 數(shù)據(jù)集共有2 688 張連同場(chǎng)景在內(nèi)的34 種類(lèi)別的訓(xùn)練集圖像,包含例如沙漠、河流以及山川等8 種戶外類(lèi)型場(chǎng)景,每張圖像都帶有像素級(jí)標(biāo)簽,專(zhuān)門(mén)用于基于室外場(chǎng)景的任務(wù)。

        SBD[65]數(shù)據(jù)集是對(duì)PASCOL VOC數(shù)據(jù)集的一個(gè)擴(kuò)展,為PASCOL VOC數(shù)據(jù)集中圖像提供了正確的標(biāo)簽,這些標(biāo)簽提供了各個(gè)物體的邊界信息。SBD 數(shù)據(jù)集包含11 335張具有21個(gè)類(lèi)別的圖像,其中8 498張圖像作為訓(xùn)練集,2 857張圖像作為驗(yàn)證集。

        CamVid[66]數(shù)據(jù)集是最早用于自動(dòng)駕駛的數(shù)據(jù)集。CamVid數(shù)據(jù)集是由車(chē)載攝像頭從駕駛員的角度拍攝的5 個(gè)視頻序列組建而成的,包含了在不同時(shí)段的701 張圖像和具有32個(gè)類(lèi)別的語(yǔ)義標(biāo)簽。

        2.3 實(shí)驗(yàn)結(jié)果分析與對(duì)比

        各種圖像語(yǔ)義分割方法的網(wǎng)絡(luò)結(jié)構(gòu)和所使用的數(shù)據(jù)集各不相同,無(wú)法對(duì)所有指標(biāo)進(jìn)行比較。為了對(duì)各種方法進(jìn)行公平且直觀的對(duì)比,表2 選擇MIoU 作為對(duì)比上述圖像語(yǔ)義分割方法的指標(biāo),并列舉各種圖像語(yǔ)義分割方法的關(guān)鍵技術(shù)。

        3 總結(jié)與展望

        目前,自從深度學(xué)習(xí)進(jìn)入圖像語(yǔ)義分割領(lǐng)域,越來(lái)越多的全監(jiān)督學(xué)習(xí)語(yǔ)義分割方法相繼提出,伴隨著計(jì)算機(jī)性能的提升和網(wǎng)絡(luò)模型的優(yōu)化,其分割精度不斷提升。本文主要對(duì)當(dāng)前主流的全監(jiān)督圖像語(yǔ)義分割方法進(jìn)行了分類(lèi),依次對(duì)每種類(lèi)別中極具代表性的方法進(jìn)行了綜合性的評(píng)估,詳細(xì)介紹了各方法的網(wǎng)絡(luò)模型和具體流程,并對(duì)各方法的實(shí)驗(yàn)效果進(jìn)行了對(duì)比。在語(yǔ)義分割領(lǐng)域現(xiàn)有研究的基礎(chǔ)上,對(duì)該領(lǐng)域的未來(lái)研究重點(diǎn)進(jìn)行展望。

        表2 圖像語(yǔ)義分割方法對(duì)比

        表2 (續(xù))

        (1)注意力機(jī)制

        自從注意力機(jī)制引入到圖像語(yǔ)義分割領(lǐng)域,出現(xiàn)了多種基于注意力機(jī)制的語(yǔ)義分割方法。由于注意力機(jī)制可以簡(jiǎn)化特征提取方式,使得引入注意力機(jī)制的方法性能超過(guò)了大多全卷積語(yǔ)義分割方法。語(yǔ)義分割領(lǐng)域僅僅在引入注意力機(jī)制的三年內(nèi),已經(jīng)出現(xiàn)少量通過(guò)引用注意力機(jī)制使其性能達(dá)到了SOTA 的語(yǔ)義分割網(wǎng)絡(luò)模型,證明了引入注意力機(jī)制的有效性。到目前為止,許多注意力機(jī)制模塊都是以non-local 為基準(zhǔn)進(jìn)行結(jié)構(gòu)或者算法上的改進(jìn),嵌入到網(wǎng)絡(luò)模型中能提升分割精度。也有少量注意力機(jī)制模塊專(zhuān)門(mén)針對(duì)某一數(shù)據(jù)集圖片的共同特點(diǎn)來(lái)設(shè)計(jì),僅在該數(shù)據(jù)集中能取得最好效果。從當(dāng)前發(fā)展趨勢(shì)來(lái)看,語(yǔ)義分割網(wǎng)絡(luò)模型中如何引入更合適的注意力機(jī)制模塊來(lái)提高性能將會(huì)是未來(lái)研究的重點(diǎn)。

        (2)實(shí)時(shí)圖像語(yǔ)義分割技術(shù)

        目前,主流圖像語(yǔ)義分割方法把重點(diǎn)都放在分割精度方面,缺乏對(duì)實(shí)時(shí)性的關(guān)注。任何網(wǎng)絡(luò)模型在追求精度的同時(shí),勢(shì)必會(huì)增加網(wǎng)絡(luò)層數(shù)和網(wǎng)絡(luò)參數(shù)量,這都對(duì)網(wǎng)絡(luò)的實(shí)時(shí)性產(chǎn)生影響。而在實(shí)際應(yīng)用場(chǎng)景中,無(wú)論是無(wú)人駕駛還是智能機(jī)器人,為了保障人身安全,需要對(duì)網(wǎng)絡(luò)的實(shí)時(shí)性進(jìn)行嚴(yán)格的把控?,F(xiàn)在,部分網(wǎng)絡(luò)通過(guò)采用輕量化的主干網(wǎng)絡(luò)、改變網(wǎng)絡(luò)模型通道數(shù)或?qū)D像進(jìn)行壓縮的方法來(lái)確保實(shí)時(shí)性,但都會(huì)不同程度地導(dǎo)致分割精度的下降。值得一提的是,為了速度指標(biāo)而大幅降低分割精度同樣不能滿足應(yīng)用需求。因此如何在保證分割精度的前提下提升語(yǔ)義分割網(wǎng)絡(luò)模型的速度,也會(huì)成為語(yǔ)義分割領(lǐng)域中一個(gè)研究熱點(diǎn)。

        (3)數(shù)據(jù)集的自動(dòng)標(biāo)注

        目前大多數(shù)主流的圖像語(yǔ)義分割領(lǐng)域所使用的數(shù)據(jù)集都是依賴(lài)人工標(biāo)注的方式構(gòu)建的,這并不能滿足圖像語(yǔ)義分割的需求。人工進(jìn)行圖像像素級(jí)標(biāo)注所需的時(shí)間成本和人力成本過(guò)大,且產(chǎn)生的精細(xì)標(biāo)注的圖片數(shù)量也較少。而自動(dòng)標(biāo)注的難點(diǎn)在于其容易忽略圖像的深層語(yǔ)義,且沒(méi)有一個(gè)固定的質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn),導(dǎo)致最終結(jié)果和人工標(biāo)注圖像差距較大。隨著深度學(xué)習(xí)技術(shù)的深入,許多基于深度學(xué)習(xí)的數(shù)據(jù)集自動(dòng)標(biāo)注方法相繼出現(xiàn)。最初主要是基于多模態(tài)空間的方法以及基于多區(qū)域的方法。之后出現(xiàn)利用基于GAN 的方法,使自動(dòng)標(biāo)注圖像可以通過(guò)網(wǎng)絡(luò)訓(xùn)練盡可能縮小與人工標(biāo)注圖像的差距,取得了更好的效果。為了能在實(shí)際應(yīng)用中有效地解決標(biāo)注成本問(wèn)題,設(shè)計(jì)出更好的GAN 模型對(duì)圖像數(shù)據(jù)集自動(dòng)標(biāo)注或?qū)⒊蔀榱硪粋€(gè)研究熱點(diǎn)。

        猜你喜歡
        語(yǔ)義特征方法
        語(yǔ)言與語(yǔ)義
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        可能是方法不對(duì)
        “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚(yú)
        認(rèn)知范疇模糊與語(yǔ)義模糊
        少妇三级欧美久久| 国产国语亲子伦亲子| 东北女人毛多水多牲交视频| 国产美女网站视频| 视频一区视频二区亚洲免费观看 | 精品人妻av中文字幕乱| 色与欲影视天天看综合网| 丰满少妇被猛烈进入| 色欧美与xxxxx| 国产另类av一区二区三区| 亚洲精品乱码久久久久久不卡| 国产乱人伦在线播放| 亚洲一区二区三区久久蜜桃| 有码视频一区二区三区| 日日躁夜夜躁狠狠躁| 亚洲av成人综合网| 日本一本草久国产欧美日韩| 日韩女同在线免费观看| 国产在线精品一区二区中文| 亚洲欧美日韩高清专区一区| 国产成人福利av一区二区三区| 美丽的小蜜桃在线观看| 女人被男人躁得好爽免费视频| 亚洲AV一二三四区四色婷婷| 日本一区中文字幕在线播放| av天堂午夜精品一区| 无码久久精品国产亚洲av影片| 在线看亚洲十八禁网站| 精品久久中文字幕系列| 伊人久久大香线蕉综合影院首页| 热久久久久久久| 亚洲三区av在线播放| 女人下边被添全过视频| 大地资源中文在线观看官网第二页| 久久久9色精品国产一区二区三区 国产三级黄色片子看曰逼大片 | 天天躁日日操狠狠操欧美老妇| 国产在线视频一区二区三| 亚洲av无码乱码在线观看富二代| 男女超爽视频免费播放| 久久综合激激的五月天| 日本无遮挡真人祼交视频|