亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度神經(jīng)網(wǎng)絡(luò)的圖像語義分割研究綜述

        2020-10-15 08:32:18景莊偉管海燕彭代峰于永濤
        計算機工程 2020年10期
        關(guān)鍵詞:語義監(jiān)督信息

        景莊偉,管海燕,彭代峰,于永濤

        (1.南京信息工程大學 a.地理科學學院; b.遙感與測繪工程學院,南京 210044;2.淮陰工學院 計算機與軟件工程學院,江蘇 淮安 223003)

        0 概述

        近年來,計算機視覺、模式識別、測繪與遙感以及地理信息科學等領(lǐng)域取得了較多研究成果,語義分割作為上述領(lǐng)域的研究重點,引起了學者們的廣泛關(guān)注,具有廣闊的應用前景。語義分割是一種典型的計算機視覺問題,其將一些原始數(shù)據(jù),如平面圖像和三維點云等作為輸入,并通過一系列技術(shù)操作將像素或點按照原始數(shù)據(jù)表達語義的不同進行分組[1]。其中,圖像語義分割是將圖像中不同類型的對象進行語義信息標注分割,其目標是將場景圖像分割解析為與語義類別相關(guān)的不同圖像區(qū)域,包括背景(如道路、草地、天空等)和離散對象(如人、建筑、汽車等)。語義分割任務需要在復雜多變的背景中正確地識別不同的離散對象并標記出語義信息,然而,物體對象常受到遮擋、割裂和照明等環(huán)境的影響,使得語義分割的難度增大。

        傳統(tǒng)的圖像分割方法根據(jù)圖像的顏色、空間結(jié)構(gòu)和紋理信息等特征進行處理分析,如基于像素級的聚類分割法[2]、基于像素級的閾值分割法[3]、基于像素級的決策樹分類法[4]以及基于“圖割”的圖像分割法[5]等。由于計算機能力有限以及沒有數(shù)據(jù)訓練階段,這一時期的方法只能處理一些灰度圖,通過提取圖像的低級特征進行分割,無法達到語義分割[6]。隨著GPU的飛速發(fā)展,深度學習(Deep Learning,DL)技術(shù)廣泛應用于圖像處理、計算機視覺、醫(yī)學成像、機器人控制等領(lǐng)域,為語義分割技術(shù)的發(fā)展提供了有效支撐。研究人員使用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)從帶有大量標注的數(shù)據(jù)中提取出語義信息和圖像特征,再依據(jù)這些信息學習推理出原始圖像中像素的標簽,通過端到端訓練的方式挖掘出每個像素的高階語義并實現(xiàn)圖像對象的分類。與梯度方向直方圖(Histogram of Oriented Gradient,HOG)、尺度不變特征變換(Scale Invariant Feature Transform,SIFT)、局部二值模式(Local Binary Patterns,LBP)等傳統(tǒng)手工設(shè)計的特征相比,DNN學習的特征更加豐富、表達能力更強,其成為圖像語義分割領(lǐng)域的主流方法。

        目前,已有一些綜述性論文[7-9]對基于深度學習的圖像語義分割研究進行了總結(jié)和分析。然而,文獻[7]主要對基于監(jiān)督學習的圖像語義分割的網(wǎng)絡(luò)架構(gòu)進行總結(jié),僅列舉部分算法,文獻[8]雖然列舉了100多種分割算法,但部分算法僅歸類為其他類別,并未對他們的優(yōu)勢和貢獻進行對比分析,文獻[9]所做的綜述工作由于涉及的范圍較為廣泛,對于每一類方法并不能做到詳細的描述。本文在上述研究成果的基礎(chǔ)上進行補充完善。在算法規(guī)模方面,添加最近提出的新算法,總結(jié)80余種語義分割算法,根據(jù)標注類型和學習方式的不同,將他們分為全監(jiān)督學習的圖像語義分割方法和弱監(jiān)督學習的圖像語義分割方法兩類。全監(jiān)督學習的圖像語義分割方法使用人工高精度加工的像素級標注作為訓練樣本,弱監(jiān)督學習的圖像語義分割方法則使用弱標注數(shù)據(jù)作為訓練樣本,這兩類方法按照研究內(nèi)容和改進特點的不同又可分為若干類子方法,本文對其進行具體的闡述和分析。在數(shù)據(jù)集內(nèi)容方面,本文在新增最新公共數(shù)據(jù)集的同時增加常用的圖像語義分割遙感數(shù)據(jù)集,以進行較全面的圖像語義分割研究。

        1 全監(jiān)督學習的圖像語義分割方法

        人工標注的樣本能夠提供大量細節(jié)信息和局部特征,有利于提高網(wǎng)絡(luò)訓練效率和分割精確度。因此,目前主流的語義分割網(wǎng)絡(luò)模型大多是全監(jiān)督學習類型。針對傳統(tǒng)分類神經(jīng)網(wǎng)絡(luò)有固定尺寸的輸入、產(chǎn)生非空間輸出以及全連接層有固定維度等問題,文獻[10]提出一種可以接受任意尺寸圖像輸入的全卷積網(wǎng)絡(luò)(Fully Convolutional Network,FCN),如圖1所示,FCN將CNN模型中的全連接層替換為全卷積層以進行像素級的稠密估計,利用增大數(shù)據(jù)尺寸的反卷積層對特征圖進行上采樣,對每個像素都產(chǎn)生一個預測,并保留原始輸入圖像中的空間信息,將粗糙的分割結(jié)果轉(zhuǎn)換為精細的分割結(jié)果,在此基礎(chǔ)上,采用結(jié)合不同深度層的跳躍結(jié)構(gòu),融合深層粗糙特征(全局語義信息)和淺層精細特征(局部位置信息),從而將圖像分類網(wǎng)絡(luò)轉(zhuǎn)變?yōu)閳D像分割網(wǎng)絡(luò)。

        圖1 FCN網(wǎng)絡(luò)框架Fig.1 Network framework of FCN

        FCN解決了傳統(tǒng)分割網(wǎng)絡(luò)由于使用像素塊而帶來的重復存儲和計算卷積問題,從而推動了圖像語義分割的快速發(fā)展。但其仍存在一些缺陷:1)反卷積過程粗糙,對圖像細節(jié)不敏感;2)沒有考慮像素之間的聯(lián)系,缺乏空間一致性;3)未有效考慮圖像上下文特征信息,無法充分利用空間位置信息,導致局部特征和全局特征的利用率失衡;4)訓練復雜,計算量大,不能實現(xiàn)實時分割;5)固定網(wǎng)絡(luò)的感受野不能自適應物體尺寸。因此,研究人員在FCN的基礎(chǔ)上,提出一系列圖像語義分割方法。如圖2所示,本文根據(jù)改進思路的不同,又將其分成8個小類:DeepLab系列方法,基于編解碼器方法,基于注意力機制方法,基于概率圖模型方法,基于圖像金字塔方法,基于生成對抗網(wǎng)絡(luò)方法,基于優(yōu)化卷積方法,基于循環(huán)神經(jīng)網(wǎng)絡(luò)方法。

        圖2 基于全監(jiān)督學習的圖像語義分割方法Fig.2 Image semantic segmentation methods based on fully supervised learning

        1.1 DeepLab系列方法

        針對FCN未考慮全局信息、缺乏空間一致性而導致分割結(jié)果不夠精細的問題,文獻[11]提出了DeepLab網(wǎng)絡(luò),如圖3所示,該網(wǎng)絡(luò)結(jié)合深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)進行粗分割,利用全連接條件隨機場(Fully Connected Conditional Random Field,FCCRF)優(yōu)化粗分割圖像提高深度網(wǎng)絡(luò)的定位準確性,最終實現(xiàn)圖像語義分割。CHEN等人[12]在DeepLab模型的基礎(chǔ)上提出DeepLab V2網(wǎng)絡(luò)。DeepLab V2在以下2個方面進行了改進:1)擴張卷積解決了DCNN下采樣導致特征分辨率降低的問題;2)空洞空間金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)方法整合了多尺度特征。隨后,CHEN等人[13]借鑒了文獻[14-15]的思想提出了Deeplab V3網(wǎng)絡(luò),該網(wǎng)絡(luò)改進了DeepLab V2網(wǎng)絡(luò)的擴張卷積和ASPP模塊,去除了FCCRF模塊并在ASPP中使用批量歸一化(Batch Normalization,BN)層。針對DeepLab V3池化和帶步長卷積造成一些物體邊界細節(jié)信息丟失且擴張卷積計算代價過高的問題,該團隊又提出了DeepLab V3+網(wǎng)絡(luò)[16],其將DeepLab V3作為網(wǎng)絡(luò)的編碼器,并在此基礎(chǔ)上增加了解碼器模塊用于恢復目標邊界細節(jié)信息。同時,將深度可分離卷積添加到ASPP和解碼器模塊中,提高編碼器-解碼器網(wǎng)絡(luò)的運行速率和魯棒性,實現(xiàn)了圖像語義分割精度和速度的均衡。

        圖3 DeepLab的基本框架Fig.3 General framework of DeepLab

        DeepLab系列方法對FCN進行優(yōu)化改進,增大了感受野,提取到稠密的圖像特征。其次使用條件隨機場進行結(jié)構(gòu)預測,并通過擴張卷積、多孔空間金字塔池化、深度可分離卷積等技術(shù)獲得多尺度圖像信息,對空間變換具有較高的不變性,從而提高了分割結(jié)果的空間精度。

        1.2 基于編解碼器方法

        由于池化操作降低了特征圖分辨率,因此,RONNEBERGER等人[17]提出了一種編碼-解碼結(jié)構(gòu)的網(wǎng)絡(luò)模型U-Net。U-Net由收縮路徑和擴展路徑2個部分組成。收縮路徑是一個編碼器,利用下采樣操作捕捉圖片中的上下文信息,逐層提取影像特征。擴展路徑是一個解碼器,利用上采樣操作還原影像的位置信息,逐步恢復物體細節(jié)和圖像分辨率。U-Net解決了圖像語義分割對大量樣本和計算資源的需求問題,適用于樣本較少的影像分割任務。隨后,改進的UNet++[18]模型通過短連接填充、疊加不同層次特征等操作,既提升了分割精度又大幅縮減了參數(shù)數(shù)量。

        BADRINARAYANAN等人[19]針對自動駕駛汽車存在的語義分割問題,提出了SegNet網(wǎng)絡(luò),如圖4所示(彩色效果見《計算機工程》官網(wǎng)HTML版)。SegNet網(wǎng)絡(luò)基于先驗概率計算每個像素點的分類,是一種編碼器-解碼器的深層體系結(jié)構(gòu)網(wǎng)絡(luò),編碼器由全卷積網(wǎng)絡(luò)構(gòu)成并通過卷積池化等操作進行下采樣,解碼器由反卷積構(gòu)成并根據(jù)編碼器的傳輸索引對其輸入進行上采樣。隨后,文獻[20]在SegNet網(wǎng)絡(luò)的基礎(chǔ)上提出了Bayesian SegNet網(wǎng)絡(luò),其引入貝葉斯網(wǎng)絡(luò)和高斯過程,解決了先驗概率無法給出分類結(jié)果置信度的問題,提升了網(wǎng)絡(luò)的學習能力。NOH等人[21]基于FCN提出了一個完全對稱的DeconvNet網(wǎng)絡(luò),該網(wǎng)絡(luò)利用FCN與反卷積網(wǎng)絡(luò)進行互補,使用FCN提取總體形狀,利用反卷積網(wǎng)絡(luò)提取精細邊界,既能應對不同尺度大小的物體,又能更好地識別物體的細節(jié),提高了分割效率。

        圖4 SegNet網(wǎng)絡(luò)框架Fig.4 Network framework of SegNet

        針對編碼-解碼結(jié)構(gòu),有學者從以下方面對模型進行了改進:1)提高模型語義分割速度,比如ENet[22]、深度特征聚合網(wǎng)絡(luò)DFANet[23]、LEDNet[24]等實時語義分割網(wǎng)絡(luò)模型;2)融合不同分辨率特征,比如可學習的“上采樣”模塊——UpsamPling[25];3)增大感受野,提高定位精度,比如全局卷積網(wǎng)絡(luò)(Global Convolutional Network,GCN)[26];4)捕獲多尺度上下文信息,保證目標位置信息的精細恢復,如層疊反卷積網(wǎng)絡(luò)(Stacked Deconvolutional Network,SDN)[27]。

        基于編解碼器的方法通過上池化或反卷積等操作組成的解碼器對低分辨率特征圖進行上采樣處理,避免了池化操作后特征圖分辨率降低的問題,還原了圖像的空間維度和像素的位置信息。

        1.3 基于注意力機制方法

        注意力機制的基本思想是在運算過程中忽略無關(guān)信息而關(guān)注重點信息。注意力機制通過神經(jīng)網(wǎng)絡(luò)計算出梯度并通過前向傳播和后向反饋來學習獲得注意力權(quán)重?;贔CN的語義分割框架的固定卷積核結(jié)構(gòu)只能接受短距離的上下文信息,為了捕獲長距離依賴信息,學者們提出了擴張卷積、空間金字塔等方法,然而這些方法并不能生成密集的上下文信息。為此,ZHAO等人[28]將注意機制引入到語義分割任務中,提出了PSANet網(wǎng)絡(luò),通過預測注意力圖來學習聚合每個位置的上下文信息。但是,這些基于注意力機制的方法需要生成巨大的注意力圖來計算每個像素之間的關(guān)系,具有高計算復雜度并占據(jù)大量的GPU內(nèi)存。為了提高語義分割效率,一系列網(wǎng)絡(luò)結(jié)構(gòu)相繼被提出,如十字交叉注意力(Criss-Cross attention Network,CCNet)模塊[29]、BiSeNet網(wǎng)絡(luò)[30]、ACNet網(wǎng)絡(luò)[31]、HMANet網(wǎng)絡(luò)[32]等。CCNet模塊可以插入任意完全卷積的神經(jīng)網(wǎng)絡(luò),實現(xiàn)端到端的高效分割;BiSeNet網(wǎng)絡(luò)無需任何上采樣操作即可整合全局語境信息,大幅降低了運算時的計算成本,提高了分割速度;ACNet網(wǎng)絡(luò)利用集成注意力機制的三平行分支架構(gòu)和注意力輔助模塊平衡了RGB-D圖像中RGB圖像特征和深度圖像特征;HMANet是一個用于航空圖像語義分割的混合多注意力網(wǎng)絡(luò)。

        近年來,自注意力機制[33]在圖像語義分割任務中取得了顯著效果[34-36]。WANG等人[34]較早將自注意力機制引入到語義分割任務中,通過非局部操作算子減少堆疊層,保持輸入和輸出尺度不變,從而將自注意力機制嵌入到分割網(wǎng)絡(luò)架構(gòu)中。隨后,雙重注意網(wǎng)絡(luò)(Dual Attention Network,DANet)[35]、期望最大化注意力機制網(wǎng)絡(luò)(Expectation-Maximization Attention mechanism networks,EMA)[36]等方法相繼被提出,降低了空間復雜度和時間復雜度。

        將注意力機制引入語義分割任務中,通過注意力機制模塊學習上下文信息,并對注意力機制進行優(yōu)化得到十字交叉注意力模塊或自注意力機制模塊,通過捕獲全局的信息來獲得更大的感受野,可以減少對外部信息的依賴,從而更容易捕獲數(shù)據(jù)或特征的內(nèi)部相關(guān)性。

        1.4 基于概率圖模型方法

        概率圖模型(PGM)在CNN的基礎(chǔ)上,以像素點為節(jié)點、像素點之間的概率相關(guān)關(guān)系為邊,有效捕獲像素點之間的依賴關(guān)系,獲取圖像全局信息和像素級語義信息,進而為語義分割過程提供豐富的圖像上下文內(nèi)容。常用的PGM包括條件隨機場(Conditional Random Field,CRF)、馬爾可夫隨機場(Markov Random Field,MRF)、貝葉斯網(wǎng)絡(luò)(Bayesian Network)等。

        CRF模型是最常納入到深度學習框架的概率圖模型之一。LIN等人[37]綜合利用CRF與CNN進行結(jié)構(gòu)化預測,在信息的傳遞推理過程中預測信息,避免了額外的學習或信息評估的計算,從而提升了速度并減少了運算量,在大數(shù)據(jù)量的圖像語義分割情況下更具有拓展性。盡管上述方法取得了較豐富的上下文信息,但它們僅將圖像輸入到CRF一元項和成對項中進行結(jié)構(gòu)化預測,而忽略了對CRF中高階勢能項(Higher Order Potential,HOP)進行充分利用,導致圖像語義分割的效果粗糙。于是,ARNAB等人[38]提出將2種類型的HOP嵌入到CNN中進行端到端訓練,提高了分割性能。隨后,VEMULAPALLI等人[39]嘗試使用高斯條件隨機場(Gaussian Conditional Random Field,GCRF)代替CRF對分割結(jié)果進行優(yōu)化。另外,部分學者提出了FCN與CRF相結(jié)合的模型SegModel[40]和DFCN-DCRF[41]。SegModel模型利用FCN的識別特征與CRF的結(jié)構(gòu)化預測能力,將細分特征、高階上下文和邊界指導相結(jié)合,實現(xiàn)語義分割。DFCN-DCRF模型結(jié)合RGB-D全卷積神經(jīng)網(wǎng)絡(luò)(DFCN)與深度敏感的全連接條件隨機場(DCRF),將深度信息添加至DFCN和DCRF中,以提高語義分割的準確率。

        MFR模型能夠提供先驗知識與不確定性描述間相聯(lián)系的紐帶。對于圖像邊緣的幾何特征、圖像表面的局部內(nèi)在特征及灰度變化率等信息,使用MRF模型描述待分割圖像的先驗分布效果較好。因此,一些學者將標簽上下文信息和高階關(guān)系融合到MRF中,并利用平均場(MF)算法在圖形處理單元進行并行加速處理,從而減少了計算量,提高了分割效率[42]。另外,還有學者利用MRF來加強網(wǎng)絡(luò)中空間標記的連續(xù)性[43]。

        概率圖模型以結(jié)構(gòu)化預測的方式優(yōu)化粗分割物體邊界,捕獲上下文信息,并充分利用不同位置的局部特征來逐步提高分割精度。

        1.5 基于圖像金字塔方法

        使用概率圖模型擴展CNN架構(gòu),雖然能有效捕獲圖像的上下文特征,但是概率圖模型在網(wǎng)絡(luò)學習過程中增加了計算量和計算時間,分割速度較慢。因此,有些學者基于多尺度、多層級的金字塔結(jié)構(gòu),通過融合不同尺度、不同層次的特征來捕獲圖像中隱含的上下文信息,從而避免過多損耗,提高了語義分割的速率與性能。

        金字塔結(jié)構(gòu)中產(chǎn)生的特征的每一層(包括高分辨率的低層)都是語義信息加強的,LIN等人[44]提出特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,FPN),該網(wǎng)絡(luò)將低分辨率、高語義信息的高層特征和高分辨率、低語義信息的低層特征進行自上而下的側(cè)邊連接,使得所有尺度下的特征都有豐富的語義信息。DeepLab V2[12]提出空洞空間金字塔池化(ASPP)來增加多尺度的感受域。YANG等人[45]結(jié)合DeepLab的ASPP方法和DenseNet的密集連接,構(gòu)成了DenseASPP網(wǎng)絡(luò)。該網(wǎng)絡(luò)以更密集的方式連接一組擴張卷積,獲得更大的接收野和更密集的采樣點,完成街景分類任務。HE等人[46]認為ASPP雖然能在一定程度上處理尺度變化問題,但很難在擴張率和尺度變化范圍之間取得平衡,因此,其提出動態(tài)多尺度網(wǎng)絡(luò)(Dynamic Multi-scale Network,DMNet),通過動態(tài)卷積模塊中的上下文感知過濾器估計特定規(guī)模的語義表示。如圖5所示,ZHAO等人[15]提出的金字塔場景解析網(wǎng)絡(luò)(Pyramid Scene Parsing Network,PSPNet),通過對不同區(qū)域的上下文進行聚合,提升了整體網(wǎng)絡(luò)運用全局上下文信息的能力。隨后ZHAO等人[47]從壓縮PSPNet的角度出發(fā),提出了實時分割的圖像級聯(lián)網(wǎng)絡(luò)(Image Cascade Network,ICNet)。HE等人[48]發(fā)現(xiàn)全局導向的局部親和力(Global-guided Local Affinity,GLA)在構(gòu)建有效的語境特征中起著至關(guān)重要的作用,并在此基礎(chǔ)上提出了自適應金字塔上下文網(wǎng)絡(luò)(APCNet),使用多個自適應上下文模塊(Adaptive Context Modules,ACM)自適應地構(gòu)建多尺度上下文表示。WU等人[49]提出了聯(lián)合金字塔上采樣(Joint Pyramid Upsampling,JPU)模塊代替擴張卷積,對低分辨率特征映射上采樣生成高分辨率特征映射,該方法在不損失精度的情況下可大幅降低計算復雜度和內(nèi)存占用。

        圖5 PSPNet網(wǎng)絡(luò)框架Fig.5 Network framework of PSPNet

        1.6 基于生成對抗網(wǎng)絡(luò)方法

        除金字塔結(jié)構(gòu)外,生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)也可代替CRF捕獲圖像上下文信息,在不增加模型訓練時間和復雜度的情況下增加長距離空間標簽的連續(xù)性,具有較強的空間一致性。

        LUC等人[50]首次將GAN引入語義分割領(lǐng)域,使用判別器識別真實標簽與分割圖像,縮小標簽與分割圖像之間的高階不一致性。HOFFMAN等人[51]結(jié)合GAN與領(lǐng)域適應性,使源域與目標域共享標記空間,并通過最優(yōu)化目標損失函數(shù)來減少特定偏移和全局偏移的影響,提出用于語義分割的領(lǐng)域適應性框架。在醫(yī)學圖像分割領(lǐng)域,XUE等人[52]針對U-Net[17]網(wǎng)絡(luò)無法有效解決圖像中像素類別不平衡的問題,基于GAN思想提出了一種具有多尺度L1損失函數(shù)的對抗網(wǎng)絡(luò),使用判別器和分割器學習分割對象的全局特征和局部特征,以捕獲像素之間的長距離和短距離的空間關(guān)系。

        GAN模型擁有不斷生成數(shù)據(jù)和辨別數(shù)據(jù)真假的能力,考慮到特征學習的相關(guān)性,將對抗學習應用到半監(jiān)督或弱監(jiān)督的學習任務中成為解決小樣本特征學習問題的關(guān)鍵。目前已有較多基于GAN的方法應用于弱監(jiān)督標注數(shù)據(jù)以進行圖像的語義分割,如基于GAN的細胞圖像分割[53]、堆疊生成對抗網(wǎng)絡(luò)方法[54]以及文獻[55]所提方法。但是,GAN模型的優(yōu)化過程不穩(wěn)定,在處理大規(guī)模圖像數(shù)據(jù)時,其可延展性和解釋性仍有待提高。

        1.7 基于優(yōu)化卷積方法

        由于FCN采取了反卷積方式對圖像上采樣輸出預測結(jié)果,從而造成特征圖分辨率降低、部分像素的空間位置信息丟失等問題。因此,研究人員對普通卷積操作采取了各種優(yōu)化方法。YU等人[56]利用擴張卷積聚合多尺度上下文信息,可以在不損失分辨率、不改變參數(shù)數(shù)量的情況下增加感受野,在獲得圖像多尺度局部特征的同時保留大部分像素的空間位置信息,從而提升分割準確率。但是,擴張卷積操作易造成局部信息丟失等問題,WANG等人[57]利用混合擴張卷積(Hybrid Dilated Convolution,HDC)框架優(yōu)化擴張卷積,擴大感受野聚合全局信息。同時,針對解碼過程中使用雙線性插值方法帶來的細節(jié)信息丟失問題,WANG等人[57]設(shè)計密集上采樣卷積(Dense Upsampling Convolution,DUC)用來捕獲在雙線性上采樣過程中丟失的細節(jié)信息。另外,MEHTA等人[58]提出了ESPNet方法,將標準卷積分解為減少計算量的逐點卷積和擴大感受野的空間金字塔型擴張卷積2個步驟,解決了資源或者樣本數(shù)據(jù)受限的問題。針對卷積層的固定卷積對建模不同空間分布視覺元素低效的問題,HU等人[59]提出一種常規(guī)卷積替代層——局部關(guān)系層,自適應地確定聚合權(quán)重,有效組合視覺元素為高級別特征,從而有助于語義分割。TAKIKAWA等人[60]認為直接將數(shù)據(jù)集的所有信息輸入至網(wǎng)絡(luò)并不能獲得最佳結(jié)果,因此,提出一種雙流CNN架構(gòu)(形狀流和經(jīng)典流),形狀流處理邊界相關(guān)的信息,與經(jīng)典流并行地處理信息,同時利用一個新型門控制兩路信息交互。該模型在較小和較薄物體上的性能表現(xiàn)較好,在Cityscapes數(shù)據(jù)集上表現(xiàn)優(yōu)于DeepLab V3+。

        優(yōu)化神經(jīng)網(wǎng)絡(luò)中的卷積結(jié)構(gòu),進行不同方面的優(yōu)化或者移除傳統(tǒng)的卷積、池化等操作,可以增大感受野,獲取像素的空間位置信息,有效減緩特征圖分辨率下降的問題,并降低計算復雜度和內(nèi)存占用。

        1.8 基于循環(huán)神經(jīng)網(wǎng)絡(luò)方法

        循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)是目前深度學習中的另一種主流模型,其不僅可以學習當前時刻的信息,還可以依賴先前的序列信息,有利于建模全局內(nèi)容和保留歷史信息,促進圖像上下文信息的利用。

        借鑒RNN的思想,VISIN等人[61]利用CNN提取的局部特征和RNN檢索的全局空間的依賴關(guān)系,基于圖像分割模型ReNet提出了ReSeg網(wǎng)絡(luò)。同樣受ReNet的啟發(fā),LI等人[62]提出了LSTM-CF(Long Short-Term Memorized Context Fusion)網(wǎng)絡(luò),可同時輸入光度和深度圖像。LSTM-CF模型利用基于長短時間記憶(LSTM)的融合層整合豎直方向上的光度和深度通道的上下文信息,完成網(wǎng)絡(luò)端到端的訓練和測試。但是,僅利用LSTM進行圖像處理時需要將圖像切成固定大小的塊,靈活性差。為解決該問題,LIANG等人[63]提出Graph-LSTM網(wǎng)絡(luò),將每個任意形狀的超像素作為節(jié)點,并自適應地為圖像構(gòu)造無向圖,通過建立基于距離的超像素圖并應用LSTM傳播鄰域信息來模擬長期依賴關(guān)系和空間連接。隨后,該團隊從編碼分層信息的角度對Graph-LSTM進行改進[64]。針對文獻[13-14]僅單純地將FCCRF加在FCN的末梢分別訓練FCN和FCCRF造成它們之間的交互聯(lián)系缺乏的問題,ZHENG等人[65]提出CRFasRNN網(wǎng)絡(luò),其將CRF的學習、推理和求解過程迭代建模為RNN的相關(guān)運算過程,通過迭代平均場算法將該過程嵌入CNN模型中。

        RNN具有保留先前信息的能力,可遞歸處理歷史信息和建模歷史記憶,易于提取圖像中的像素序列信息,并且可以通過對圖像的長期語義依賴關(guān)系進行建模來捕獲上下文信息。另外,可以通過將RNN與卷積層相結(jié)合嵌入到深度神經(jīng)網(wǎng)絡(luò)中,一方面可利用卷積層提取局部空間特征,另一方面可利用RNN層提取像素序列特征。

        2 弱監(jiān)督學習的圖像語義分割方法

        基于深度神經(jīng)網(wǎng)絡(luò)進行全監(jiān)督學習的分割模型已成為圖像語義分割的主流方法,在分割效果上不斷取得突破。然而這些方法需要大量人工標簽數(shù)據(jù)進行訓練,不僅耗時耗力,且很難大批量獲取標簽數(shù)據(jù)。因此,研究人員將目標轉(zhuǎn)向輕量級標注數(shù)據(jù),提出一系列弱監(jiān)督學習的圖像語義分割方法,進一步提高語義分割性能。本文根據(jù)不同類型的弱監(jiān)督標注數(shù)據(jù),將弱監(jiān)督學習的圖像語義分割方法分為6類:基于邊界框標注方法,基于涂鴉級標注方法,基于點級標注方法,基于圖像級標注方法,基于混合標注方法,基于附加數(shù)據(jù)源方法。圖6所示為弱監(jiān)督學習的圖像語義分割方法的時間發(fā)展軸。

        圖6 基于弱監(jiān)督學習的圖像語義分割方法Fig.6 Image semantic segmentation methods based on weakly supervised learning

        2.1 基于邊界框標注方法

        基于邊界框標注方法利用包括整個物體的矩形區(qū)域作為訓練樣本,提供標注信息。邊界框標注數(shù)據(jù)不僅包含了豐富的監(jiān)督信息和物體位置,同時還減少了標簽工作,并且可以利用大量可用的邊界框注釋來改善掩碼監(jiān)督的結(jié)果。

        DAI等人[66]基于FCN,利用候選區(qū)域方法提出BoxSup網(wǎng)絡(luò)。以邊界框標注的圖像作為訓練樣本,運用MCG(Multiscale Combinatorial Grouping)算法得到初步的候選區(qū)域,將其作為監(jiān)督信息輸入到FCN中進行優(yōu)化和更新;然后,利用訓練網(wǎng)絡(luò)對候選區(qū)域進行預測,FCN再對網(wǎng)絡(luò)實現(xiàn)優(yōu)化更新,如此重復迭代直到準確率收斂到給定閾值。DeepCut[67]將分類問題視為在稠密連接的條件隨機場下的能量最小化問題,并通過不斷迭代地更新訓練目標以實現(xiàn)分割,逐步提高圖像的分割精度。

        早期多數(shù)弱監(jiān)督學習方法由于使用簡單迭代來訓練模型,得到的結(jié)果和真實標簽存在明顯差距。SONG等人[68]利用邊界框驅(qū)動分類區(qū)域掩蔽模型(Box-driven Class-wise masking Model,BCM)刪除每個類的不相關(guān)區(qū)域,建立邊界框監(jiān)督生成的像素級細分建議和每個類別的填充率,再利用填充率引導的自適應損失(Filling Rate guided adaptive loss,FR-loss)幫助模型忽略提案中錯誤標記的像素。該方法從邊界框標注數(shù)據(jù)中獲取全局統(tǒng)計信息以調(diào)整模型學習,減少了錯誤標簽像素引起的負面影響。

        2.2 基于涂鴉級標注方法

        涂鴉(scribble)在交互式圖像分割中有著廣泛的應用,其被認為是最方便用戶的交互方式之一。涂鴉級標注是通過對圖像進行涂寫得到任意形式的線段,可用于標注沒有明確形狀的物體,提供其位置和范圍信息。

        LIN等人[69]提出ScribbleSup模型的涂鴉圖像標注方式。該模型的自動標注階段是將語義標簽從涂鴉線條傳播給其他像素,用GraphCut算法自動完成對所有訓練圖像的標記。然后將通過涂鴉方式進行標記的圖像輸入FCN模型進行圖像訓練,獲得圖像語義分割結(jié)果。TANG等人[70]將標記像素的部分交叉熵和未標記像素的歸一化切割相結(jié)合,提出并評估一種在涂鴉級數(shù)據(jù)標注下歸一化切割損失的方法,其顯著提高了弱監(jiān)督訓練質(zhì)量。文獻[71]提出的門控全連接條件隨機場損失(Gated CRF Loss)方法,關(guān)注涂鴉級標注數(shù)據(jù),在訓練過程中對有標注像素點使用交叉熵損失函數(shù),對于無標注像素點使用門控CRF損失函數(shù),無需額外預處理或后處理,能夠?qū)崿F(xiàn)端到端的訓練。

        2.3 基于點級標注方法

        實例點是一種簡單提供物體位置信息的稀疏弱標注方式,能夠粗略標注物體的中間位置。在相同注釋預算的情況下,點級監(jiān)督可以更有效地利用注釋時間,生成更有效的模型。

        BEARMAN等人[72]將點級監(jiān)督信息與CNN模型中的損失函數(shù)相結(jié)合,在可忽略的額外時間內(nèi)加強對語義分割的監(jiān)督,取得了較好的分割效果。MANINIS等人[73]根據(jù)分割對象的4個極端點(最左側(cè)、最右側(cè)、頂部、底部像素),提出一種半自動分割的CNN架構(gòu)Deep Extreme Cut(DEXTR)。首先創(chuàng)建熱圖并在極值點區(qū)域激活,連接熱圖和輸入圖像的RGB 3個通道形成4個通道數(shù)據(jù)輸入至CNN中,實現(xiàn)圖像或者視頻的對象分割。該方法在5個不同數(shù)據(jù)集上分別進行語義、實例、視頻和交互式分割實驗,均獲得了較好的分割結(jié)果。

        2.4 基于圖像級標注方法

        與其他類型的標注相比,圖像級標注無需進行像素標注,使用類別標簽作為訓練標注,制作簡單,工作量小,因而成為弱監(jiān)督學習圖像語義分割的主流方法。部分圖像級標注方法將DNN中的卷積層輸出視為像素級標簽的潛在置信度分數(shù),全局池化操作融合所有像素的輸出概率得分以生成圖像級的類別得分,作為已標注訓練數(shù)據(jù)來訓練分割網(wǎng)絡(luò)。在此框架內(nèi),PINHEIRO等人[74]采用多實例學習機制構(gòu)建圖像標簽與像素語義之間的關(guān)聯(lián),使用超像素和MCG算法等平滑每個像素級的類標簽。PAPANDREOU等人[75]采用期望最大化遞歸預測潛在的像素級標簽,并作為新的訓練數(shù)據(jù)來更新模型,以實現(xiàn)期望最大化。DURAND等人[76]將FCN提取的特征圖分解為多通道特征,每個通道對應一個顯著局部特征,聚合池化后的多通道特征圖,最后使用圖像級真實標簽信息進行學習。

        圖像級標注的監(jiān)督信息相較于像素級標注過于粗糙,在圖像語義分割任務中難以獲得令人滿意的分割效果。通過融合的新思想,擴展目標對象區(qū)域,深度挖掘監(jiān)督信息,能有效地提高圖像級標注的分割精度。KOLESNIKOV等人[77]融合多種復合損失函數(shù),提出SEC(Seed,Expand,and Constrain)算法。受SEC算法的啟發(fā),HUANG等人[78]利用經(jīng)典種子區(qū)域增長(classical Seeded Region Growing,SRG)方法逐步增加種子區(qū)域的像素級監(jiān)督,最終生成準確、完整的像素級標簽。WEI等人[79]研究空洞卷積并提出MDC(Multi-Dilated Convolutional)模塊,將已標注區(qū)域的知識推廣到相鄰、不確定區(qū)域生成密集目標定位預測結(jié)果。AHN等人[80]利用AffinityNet網(wǎng)絡(luò)生成分割標簽,在無需外部數(shù)據(jù)或額外的監(jiān)督信息的情況下,來補償物體形狀的缺失信息。ZHOU等人[81]使用圖像級的類別標注監(jiān)督信息,通過探索類別響應峰值使分類網(wǎng)絡(luò)能夠很好地提取實例分割掩膜。該方法不僅計算成本小,并且僅用分類標注就能完成有效的分割任務,從而提高了弱監(jiān)督的逐點定位結(jié)果以及語義分割的性能。

        WEI等人[82]將顯著性作為圖像額外先驗知識進行信息提取,提出一種STC方法,通過自下而上地檢測圖像顯著性區(qū)域,利用顯著性區(qū)域圖和圖片標簽信息構(gòu)建像素間的語義關(guān)系,并結(jié)合圖像級注釋推斷出復雜圖像的像素級分割掩碼作為監(jiān)督信息進行學習,從而逐漸提升分割性能。

        2.5 基于混合標注方法

        雖然上述4種標注方法可以有效減少標注成本和標注時間,降低對大量訓練數(shù)據(jù)的需求,但是由于弱標注圖像數(shù)據(jù)的局限性,僅使用某一種弱標注數(shù)據(jù)的訓練效果并不理想。如果混合多種標注數(shù)據(jù),取長補短,則可能取得較好的分割結(jié)果。XU等人[83]構(gòu)建了一個統(tǒng)一的標注框架,該框架結(jié)合像素級標注、圖像級標注、邊界框標注和其他部分標注(如涂鴉級標注)等各種不同類型的標注,生成像素級標注數(shù)據(jù)。

        基于半監(jiān)督學習的圖像語義分割方法大多綜合使用少量像素級標注圖像和大量弱標注圖像。例如,PAPANDREOU等人[75]提出的隨機梯度下降(Stochastic Gradient Descent,SGD)將少量像素級注釋圖像與大量弱注釋圖像組合在一起時獲得了優(yōu)異的性能,幾乎達到全監(jiān)督學習圖像語義分割方法的效果。HONG等人[84]提出基于解耦深層編碼器-解碼器的DecoupledNet半監(jiān)督分割架構(gòu),將分割與分類任務分離,分類網(wǎng)絡(luò)使用豐富的圖像級注釋數(shù)據(jù)進行模型學習,然后,少量帶有強注釋的訓練示例共同優(yōu)化連接層和分割網(wǎng)絡(luò)。該方法沒有循環(huán)迭代步驟,所以具有較好的擴展性。

        HUNG等人[55]基于GAN基本框架,將分割網(wǎng)絡(luò)作為生成器,采用全卷積方式的鑒別器。全卷積鑒別器不僅提供像素級的鑒別,還可以為無標簽數(shù)據(jù)生成置信圖,從而提供額外的監(jiān)督信號,以實現(xiàn)半監(jiān)督學習。IBRAHIM等人[85]使用一組完全監(jiān)督的圖像和一組邊界框標注的圖像作為訓練樣本,通過輔助模型和自校正模塊來訓練主分割模型,訓練性能接近全監(jiān)督學習模型,但其標注工作大幅減少。

        2.6 基于附加數(shù)據(jù)源方法

        上述點級標注和涂鴉級標注等標注數(shù)據(jù)難以直接獲得,需要一定的人工交互操作。盡管這些類型的標注數(shù)據(jù)比像素級標注數(shù)據(jù)更容易獲得,但是弱監(jiān)督學習的主要目標是減少所需的人工交互操作。因此,一些研究人員使用附加數(shù)據(jù)源,在沒有額外人工標注的情況下加入更強的監(jiān)督信息[86]。

        相比于單張圖像,視頻數(shù)據(jù)更易獲取,且視頻也逐漸成為信息傳播的主要媒介。文獻[87]將視頻作為附加數(shù)據(jù)源進行語義分割,為了從網(wǎng)絡(luò)存儲庫(例如YouTube)中自動收集相關(guān)的視頻剪輯,HONG等人[87]利用全自動視頻檢索算法,使用類標簽作為搜索關(guān)鍵詞從Web存儲庫爬取視頻,并利用由弱標簽學習的DCNN分類器從視頻中選擇相關(guān)區(qū)間來優(yōu)化搜索結(jié)果。另外,HONG等人[88]使用基于注意力模型的新型編解碼器架構(gòu),將不相關(guān)類別的分割知識遷移到弱監(jiān)督的語義分割任務中。同樣,文獻[89]提出了一種通用半監(jiān)督語義分割方法,利用每個領(lǐng)域的少數(shù)標注樣本和大量未標注數(shù)據(jù)來訓練聯(lián)合模型。

        3 語義分割實驗對比與分析

        本章首先梳理常用公開圖像數(shù)據(jù)集和遙感圖像數(shù)據(jù)集,然后對當前語義分割算法的實驗性能評估指標進行歸納,在此基礎(chǔ)上,對現(xiàn)有語義分割算法的性能進行綜合對比和分析。

        3.1 數(shù)據(jù)集

        自語義分割發(fā)展以來,圖像一直是該領(lǐng)域的關(guān)注重點,因此,二維圖像數(shù)據(jù)集的數(shù)據(jù)量豐富,涉及范圍廣。本節(jié)列舉語義分割領(lǐng)域中常見的公共圖像數(shù)據(jù)集和遙感圖像數(shù)據(jù)集,分別如表1、表2所示,其中,“—”表示該方法未提供相應的結(jié)果。

        表1 常用的圖像語義分割公共數(shù)據(jù)集Table 1 Common image semantic segmentation public datasets

        表2 常用的圖像語義分割遙感數(shù)據(jù)集Table 2 Common image semantic segmentation remote sensing datasets

        3.2 結(jié)果分析

        本節(jié)將按照圖1和圖2所示語義分割模型的實驗結(jié)果分別進行分析與對比。隨著語義分割技術(shù)的發(fā)展和數(shù)據(jù)處理能力的提高,該技術(shù)的應用范圍更加廣泛,除了運用復雜的網(wǎng)絡(luò)提高算法的分割準確率外,現(xiàn)實中的應用程序(如自動駕駛、行人檢測等)更需要實時高效的分割網(wǎng)絡(luò)。因此,本節(jié)在對比分割準確率的同時,從參數(shù)數(shù)量和運行速率2個方面分析部分輕量級網(wǎng)絡(luò)的實時性。

        目前已經(jīng)提出許多用于評估語義分割準確率的評價指標,語義分割算法的性能評價標準主要分為精確度、時間復雜度和內(nèi)存損耗3個方面。其中,精確度是最關(guān)鍵的指標,雖然現(xiàn)有的文獻對語義分割成果采用了許多不同的精度衡量方法,如平均準確率(Mean Accuracy,MA)、總體準確率(Overall Accuracy,OA)、平均交并比(mean Intersection over Union,mIoU)和帶權(quán)交并比(Frequency Weighted Intersection over Union,FWIoU),但本質(zhì)上他們都是準確率及交并比(IoU)的變體。在精確度結(jié)果評價時,一般選擇OA和mIoU這2種評價指標進行綜合分析。其中,mIoU表示數(shù)據(jù)分割的預測值與真實值之間的交集和并集之比,是目前語義分割領(lǐng)域使用頻率最高和最常見的標準評價指標,具體計算方法如式(1)所示。其中,假設(shè)共有k+1個類別(包括一個背景類),Pij是將i類預測為j類的點數(shù),Pii表示真實值為i、預測值為i的點數(shù),Pij表示真實值為i、預測值為j的點數(shù),Pji表示真實值為j、預測值為i的點數(shù)。

        (1)

        表3所示為全監(jiān)督學習的圖像語義分割方法的mIoU實驗結(jié)果對比,主要的比較因素有基礎(chǔ)網(wǎng)絡(luò)、是否使用PGM方法以及5類二維公共數(shù)據(jù)集的評價指標結(jié)果,“×”表示未使用PGM方法。

        表3 基于全監(jiān)督學習的圖像語義分割方法mIoU結(jié)果對比Table 3 Comparison of mIoU results of image semantic segmentation method based on fully supervised learning %

        從表3可以看出,目前對靜態(tài)圖像進行語義分割時,大部分算法選用PASCAL VOC 2012 作為測試數(shù)據(jù)集,當對動態(tài)場景進行解析或?qū)崟r圖像語義分割時,很多算法選用CityScapes作為測試數(shù)據(jù)集。

        基于PASCAL VOC 2012測試數(shù)據(jù)集,DeepLab V3、DeepLab V3+、DUC+HDC、GCN+、Upsampling、PSPNet、PSANet、DANet和EMANet等算法的mIoU值都超過了80%,對圖像數(shù)據(jù)中不同尺度物體有較好的識別率,目標分割結(jié)果的邊界比較接近真實分割邊界。這些算法均是在2017年以后提出,說明基于深度學習的圖像語義分割方法正穩(wěn)步發(fā)展。其中,DeepLab V3+分割效果最好,主要是由于該算法吸取DeepLab系列方法的優(yōu)點,并結(jié)合深度可分離卷積來簡化模型和提高分割效率,從而實現(xiàn)圖像語義分割精度和速度的均衡。

        基于CityScapes數(shù)據(jù)集,DeepLab V3+、DenseASPP、DUC+HDC、GSCNN、PSPNet、PSANet、CCNet和DANet等算法的mIoU值均超過了80%,分割精度基本滿足街道場景圖像語義分割的要求,然而這些算法的實時性存在不足。ENet、ESPNet、ICNet和BiSeNet這4種算法雖然分割準確率不如上述算法,但這些算法模型尺寸小,計算成本低,能夠?qū)崟r響應。

        針對算法參數(shù)數(shù)量和運行速率2個方面,本文從全監(jiān)督學習的圖像語義分割方法中選擇代表性較強、實時性較高的算法進行分析對比。實驗均在CityScapes測試數(shù)據(jù)集中進行,速度分析結(jié)果如表4所示,主要的比較參數(shù)有參數(shù)數(shù)量、運行時間和每秒幀數(shù),其中,運行時間代表分割一張圖像所消耗的時間,每秒幀數(shù)代表每秒能夠分割的圖像總數(shù)量。

        表4 CityScapes測試數(shù)據(jù)集中的算法速度對比Table 4 Comparison of algorithms speed in CityScapes test dataset

        從表4可以看出,各類算法的分割速度有較大差異,其中,Enet、ICNet、BiSeNet和DFANet這4種分割算法速度較快,實時性較強,適用于實時圖像語義分割。ENet算法的思路啟發(fā)來自于文獻[119],其集成了幾個加速因子,包括多分支模塊、下采樣、較小的解碼器、濾波器張量分解等。ICNet網(wǎng)絡(luò)利用其處理低分辨率圖像時的效率和處理高分辨率圖像時的高推理質(zhì)量的優(yōu)勢,在提高分割精確度的同時加快了分割速率。BiSeNet提出了用于高分辨率圖像的淺層網(wǎng)絡(luò)過程和快速下采樣的深度網(wǎng)絡(luò),以在分類能力和感受野之間取得平衡,其為目前在分割效率和準確性之間取得均衡效果最優(yōu)的算法之一。

        表5列舉了在最具代表性的數(shù)據(jù)集上基于深度學習的弱監(jiān)督學習圖像語義分割方法的實驗結(jié)果,主要的比較因素有基礎(chǔ)網(wǎng)絡(luò)、是否使用PGM方法、監(jiān)督信息、實驗數(shù)據(jù)集和評價指標。從表5可以看出,基于邊框標注和基于涂鴉標注算法在PASCAL VOC 2012數(shù)據(jù)集上的mIoU均超過了70%,分割準確率較高。在其他的弱監(jiān)督網(wǎng)絡(luò)算法中,一些網(wǎng)絡(luò)直接利用這些標注作為輸入,也有一些網(wǎng)絡(luò)是在這些標注的基礎(chǔ)上生成部分像素點標注數(shù)據(jù),再進行全監(jiān)督訓練,其分割效果不明顯,分割邊界粗糙且不連續(xù),mIoU均普遍較低,分割性能與全監(jiān)督的語義分割算法相差較大。

        表5 基于弱監(jiān)督學習的圖像語義分割方法mIoU結(jié)果對比Table 5 Comparison of mIoU results of image semantic segmentation methods based on weakly supervised learning

        4 未來研究方向

        近年來,隨著自動駕駛、安防監(jiān)控等應用的不斷發(fā)展,用戶對模型尺寸、計算成本、分割精度等方面提出了更高的要求。因此,研究人員通過限制輸入圖像大小或修剪網(wǎng)絡(luò)中冗余通道等方法來提高推理和預測速度,從而降低計算復雜度。盡管這些方法在一定程度上提升了語義分割的效果,但它們?nèi)菀讈G失目標邊界和小物體周圍鄰域的空間細節(jié),并且淺層網(wǎng)絡(luò)易降低特征辨別能力。大型深度學習網(wǎng)絡(luò)模型在參數(shù)優(yōu)化過程中會消耗大量資源,為減小內(nèi)存需求,避免維度災難問題,學者們常采取主成分分析、池化、下采樣等操作減小計算量、降低維度,但這些操作容易漏檢含有重要語義信息的小尺度區(qū)域。另一方面,模型泛化能力弱是目前語義分割領(lǐng)域急需解決的問題,大部分深度神經(jīng)網(wǎng)絡(luò)模型只對特定數(shù)據(jù)集具有較高的分割效果。深度神經(jīng)網(wǎng)絡(luò)模型在模型遷移學習時,算法不能獲得令人滿意的語義分割效果,從而限制了其應用范圍。本章在上述深度神經(jīng)網(wǎng)絡(luò)語義分割技術(shù)評述分析的基礎(chǔ)上,對語義分割領(lǐng)域未來的研究方向進行展望。

        1)三維點云數(shù)據(jù)的語義分割

        深度神經(jīng)網(wǎng)絡(luò)框架已廣泛應用于圖像處理領(lǐng)域,并取得了較好的性能表現(xiàn)。因此,很多學者將一些深度學習算法拓展到三維點云領(lǐng)域。然而,三維點云自身存在的無序性、密度不一致性、非結(jié)構(gòu)性、信息的不完整性等為點云語義分割帶來了難度。另外,三維點云語義分割過于依賴大量數(shù)據(jù)集,如何大規(guī)模地獲取三維數(shù)據(jù)并建立相關(guān)公共數(shù)據(jù)集也是需要解決的問題。在二維圖像中,無/弱監(jiān)督方法可減少標注成本和標注時間,如果將其應用到三維點云語義分割中,不僅能解決大數(shù)據(jù)量的需求問題,而且可在提高網(wǎng)絡(luò)模型精度的同時提升分割速率,因此,三維點云語義分割技術(shù)在未來具有很大的應用前景。

        2)訓練數(shù)據(jù)庫和應用場景

        基于深度學習的語義分割方法需要海量數(shù)據(jù)庫作為支撐,目前已有的數(shù)據(jù)集并不能滿足語義分割發(fā)展的需求,構(gòu)建豐富、有效且全面的數(shù)據(jù)集是目前進行語義分割的首要條件。另外,像素級標注等工作都需要消耗大量的人力、財力以及時間,標注成本高。因此,如何快速、高精度地實現(xiàn)自動標注也是未來的一個研究熱點。

        3)視頻序列數(shù)據(jù)集

        目前可用的視頻序列數(shù)據(jù)集較少,導致針對視頻數(shù)據(jù)的語義分割方法研究進展緩慢。帶有時間序列的視頻數(shù)據(jù)在語義分割過程中可利用其時空序列信息提供高階特征,從而提高分割準確性和效率。如何獲取更多高質(zhì)量的視頻數(shù)據(jù),并充分利用視頻中豐富的時空序列特征進行分析,將是語義分割領(lǐng)域的重要研究方向之一。

        4)全景圖像分割技術(shù)

        全景圖像分割技術(shù)對目標區(qū)域(前景對象)和背景區(qū)域分別利用不同的模型實現(xiàn)語義分割[120]。2019年,KIRILLOV等人[121]結(jié)合語義分割FCN和實例分割R-CNN模型,設(shè)計Panoptic FPN模型,提高了語義分割的穩(wěn)健性和準確性。鑒于全景圖像分割技術(shù)的語義分割有效性和概念的簡單性,該方法的前景有待進一步挖掘與探索。

        5)網(wǎng)絡(luò)架構(gòu)輕量化

        隨著自動駕駛、行人檢測和環(huán)境感知等應用領(lǐng)域的發(fā)展,人們對語義分割實時性的要求也越來越高。目前,基于網(wǎng)絡(luò)輕量化的實時分割研究方向主要分為2類:網(wǎng)絡(luò)壓縮和卷積操作分解。第1類通過不同的壓縮技術(shù)(如參數(shù)剪枝[18]、散列法[122]、量化[123]等)減小網(wǎng)絡(luò)的訓練預測規(guī)模,從而減少推斷所需的計算資源;第2類根據(jù)卷積分解原理(Convolution Factorization Principle,CFP)構(gòu)建實時運行的模型架構(gòu),如Enet[24]采用ResNet、ICNet[47]的級聯(lián)網(wǎng)絡(luò)等。輕量化的網(wǎng)絡(luò)架構(gòu)在保持高精度語義分割的同時可降低模型復雜度,縮短響應時間,實現(xiàn)實時分割,是未來的重要研究方向之一。

        5 結(jié)束語

        本文從語義分割的應用和深度學習的發(fā)展角度出發(fā),在算法特點以及模型結(jié)構(gòu)方面分析歸納一些性能較為突出的圖像語義分割方法,并進行分類、梳理和評估,對比其在常用數(shù)據(jù)集上的分割效果。分析結(jié)果表明,全監(jiān)督學習圖像語義分割方法的分割效果普遍優(yōu)于弱監(jiān)督學習圖像語義分割方法,但前者分割速率較低,后續(xù)研究將在保持全監(jiān)督學習方法高分割精度的同時縮短其分割時長或有效提升弱監(jiān)督學習方法的分割效果。面對未來應用需求更加豐富、性能要求更加嚴苛的形勢,語義分割技術(shù)的發(fā)展也將面臨更多的挑戰(zhàn)。因此,下一步將對基于深度神經(jīng)網(wǎng)絡(luò)的圖像語義分割進行深入探索和研究。

        猜你喜歡
        語義監(jiān)督信息
        突出“四個注重” 預算監(jiān)督顯實效
        語言與語義
        監(jiān)督見成效 舊貌換新顏
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        夯實監(jiān)督之基
        “上”與“下”語義的不對稱性及其認知闡釋
        認知范疇模糊與語義模糊
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        監(jiān)督宜“補”不宜“比”
        浙江人大(2014年4期)2014-03-20 16:20:16
        語義分析與漢俄副名組合
        外語學刊(2011年1期)2011-01-22 03:38:33
        国产区一区二区三区性色| 久久久久久久久久久熟女AV| 日本a在线免费观看| 免费人妻精品区一区二区三| 国产精品一区二区黄色| 亚洲综合色婷婷七月丁香| 韩国19禁主播深夜福利视频| 国产人禽杂交18禁网站| 国产在线精品观看一区二区三区| 无套内内射视频网站| 亚洲av无码不卡| 春色成人在线一区av| 国产在线一区二区三区不卡| 亚洲中文字幕人妻诱惑| 国产精品毛片极品久久| 国产做爰又粗又大又爽动漫| 国内少妇偷人精品视频免费| 日本一区二区三区啪啪| 三级日韩视频在线观看| 人妻少妇中文字幕乱码| 中文字幕福利视频| 亚洲精品区二区三区蜜桃| 久久精品国产av麻豆五月丁| 天堂√在线中文官网在线| 日韩免费一区二区三区在线| 日本在线视频二区一区| 五月开心婷婷六月综合| 国产伦精品一区二区三区| 国产自产c区| 蜜桃国产精品视频网站| 18禁裸男晨勃露j毛网站| 偷窥村妇洗澡毛毛多| 精品粉嫩国产一区二区三区| 少妇无套裸按摩呻吟无呜| 99香蕉国产精品偷在线观看| 国产成人cao在线| 一区二区高清视频免费在线观看| 97日日碰曰曰摸日日澡| 亚洲欧美另类自拍| 国产99视频一区二区三区| 国精产品一区一区二区三区mba|