徐 輝,祝玉華,3+,甄 彤,李智慧
1.糧食信息處理與控制教育部重點實驗室(河南工業(yè)大學),鄭州450001
2.河南工業(yè)大學信息科學與工程學院,鄭州450001
3.黃河水利職業(yè)技術學院,河南開封475000
圖像分割是計算機視覺研究的關鍵,亦是理解圖像內容的基石技術,其發(fā)展歷程從基于邊緣檢測、基于閾值、基于區(qū)域等方法的傳統(tǒng)圖像分割,逐漸發(fā)展到當今主流的基于深度神經網絡的圖像語義分割,在技術水平上取得了巨大的進步。傳統(tǒng)的圖像分割受計算機算力的限制,只能提取圖像的紋理信息、顏色、形狀等低層特征對圖像進行分割,且需要人工設計特征,因而分割準度不高。而隨著計算機軟硬件的更新?lián)Q代、深度學習技術的日益強大,語義分割也進入新的發(fā)展時期。許多研究學者將深度學習引入圖像語義分割領域,利用深度神經網絡從輸入數(shù)據(jù)中自動學習特征,能夠提取圖像的低層、中層和高層特征,實現(xiàn)對圖像目標端到端的像素級分類,極大地提高了語義分割的精度和效率。
圖像語義分割是像素級別的圖像識別和理解,即依據(jù)圖像所含語義信息對每個像素進行分類標注,將圖像分割為語義含義相同的若干區(qū)域,并使用不同的顏色標記不同區(qū)域,以此將每個區(qū)域的類別標注結果可視化。目前語義分割技術已經發(fā)展得較為成熟,在自動駕駛、醫(yī)學圖像分析、增強現(xiàn)實等實際場景中應用廣泛。
現(xiàn)有的一些相關綜述文章[1-3]已經對圖像語義分割的發(fā)展歷史、技術革新進行了較為完善的總結,但如文獻[2-3]對所列舉的語義分割方法的設計思路、優(yōu)缺點等論述不足,文獻[1]則缺乏對語義分割最新研究成果和算法的解讀。針對這些問題,本文踵事增華,梳理和總結了現(xiàn)有基于深度神經網絡的代表性語義分割方法的基本思路與關鍵技術,按照實現(xiàn)技術的不同將所述方法進行分類,并分析每類方法的優(yōu)缺點。此外,還歸納了近兩年計算機視覺領域頂級會議/期刊上部分優(yōu)秀語義分割算法。最后基于權威的數(shù)據(jù)集和評價指標對這些算法的性能進行對比,并對語義分割技術未來的熱門發(fā)展方向進行了展望。
卷積神經網絡(convolutional neural network,CNN)[4]是基于傳統(tǒng)神經網絡改進的層級網絡,通常由卷積層、池化層、全連接層構成,結構如圖1 所示。卷積層:通過卷積運算進行圖像降維以及提取圖像的局部特征。池化(也稱下采樣)層:將卷積操作提取的特征劃分為大小相同的n個區(qū)域,然后取其平均值或最大值特征(通過平均池化或最大值池化操作)表示區(qū)域的特征,以降低特征維度,防止過擬合。全連接層:將所有局部特征整合得到完整的特征圖,最后利用softmax 函數(shù)進行圖像分類。經典網絡模型有AlexNet[5]、VGGNet[6]、ResNet[7]和GoogLeNet[8]等。
循環(huán)神經網絡(recurrent neural networks,RNN)[9]適用于處理序列數(shù)據(jù),按時間展開的標準結構如圖2所示。其中xt是t時刻輸入層的值,ht是t時刻隱藏層的值,從結構圖中可以看出ht的值不僅取決于當前時刻的輸入xt,還依賴先前時刻隱藏層的值ht-1。同樣的,t時刻隱藏層的值ht除了傳輸?shù)疆斍皶r刻的輸出層ot,也用于下一時刻隱藏層的學習。因而,RNN 網絡具有歷史記憶能力,可以遞歸處理歷史信息和建模序列數(shù)據(jù)。
Fig.1 Network architecture of CNN圖1 CNN 網絡架構
Fig.2 Network expansion diagram of RNN圖2 RNN 時間線展開圖
生成對抗網絡(generative adversarial networks,GAN)[10]是近兩年最火爆的深度網絡架構,采用無監(jiān)督學習進行訓練,由生成器和判別器兩部分組成,如圖3 所示。隨機噪聲經生成器處理生成預測圖,然后將其作為偽樣本和真值標注圖像組成的真實樣本一起送入到判別器中。判別器的功能是對輸入的真實樣本、偽樣本進行學習和真假判斷,并把判斷結果反饋給生成器,指導生成器進行參數(shù)的優(yōu)化、更新。生成器和判別器之間進行迭代對抗訓練,逐漸提升網絡的分割精度。
2015年Long等人[11]提出了全卷積網絡(fully convolutional networks,F(xiàn)CN),架構如圖4 所示。FCN 將圖像級的分類網絡拓展為像素級分類網絡,并且實現(xiàn)了端到端的網絡訓練,是將深度神經網絡應用于圖像語義分割的開山之作。
FCN 網絡極大地推動語義分割的發(fā)展,但仍然存在許多不足,后續(xù)許多文獻提出了改進的方法。本文綜述了其中的代表性方法,依據(jù)技術理念的區(qū)別將其分為六類:基于空洞卷積的方法、基于編解碼的方法、基于特征融合的方法、基于RNN 的方法、基于注意力機制的方法、基于GAN 的方法。然后分析和總結了每類方法的優(yōu)缺點以及其中典型算法的技術特點,如表1 所示。
FCN 網絡在下采樣時造成特征圖感受野變小,圖像的部分空間信息丟失,此外還缺乏對圖像上下文信息的利用。針對這些問題,Chen 等人[12]提出DeepLab V1 網絡,結構如圖5 所示。其創(chuàng)新性地將深度卷積神經網絡(deep convolutional neural network,DCNN)的部分卷積層替換為空洞卷積(atrous/dilated convolution,也稱擴張卷積)[13],在不增加參數(shù)的同時增大了感受野,從而獲得更多的特征信息。此外,在DCNN 的最后一層添加全連接條件隨機場(fully connected conditional random field,F(xiàn)CCRF)來增強捕獲圖像細節(jié)信息的能力,實現(xiàn)目標的精確定位。后續(xù),Chen 等人對DeepLab V1 進行擴展提出了DeepLab V2[14],其將空洞卷積和空間金字塔池化模型結合,提出了帶孔空間金字塔池化(atrous spatial pyramid pooling,ASPP)模塊。ASPP 模塊使用多個不同采樣率的空洞卷積來獲取不同尺度的特征,并將特征進行融合以獲取上下文信息,實現(xiàn)多尺度目標的處理。最后使用FCCRF 優(yōu)化邊界分割效果。
Fig.3 Network architecture of GAN圖3 GAN 網絡架構
Fig.4 Network architecture of FCN圖4 FCN 網絡架構
Table 1 Analysis and summary of image semantic segmentation methods表1 圖像語義分割方法的分析與總結
Fig.5 Workflow of DeepLab V1圖5 DeepLab V1 網絡處理流程
2017 年,Chen 等人在DeepLab V1、V2 的基礎上提出了DeepLab V3[15],其在ASPP 模塊中增加了批正則化(batch normalization)層,改進了ASPP 模塊。同時將串行/并行連接的空洞卷積與改進的ASPP 模塊以串行連接的方式結合,以更有效地提取特征和捕獲全局上下文信息,增強處理多尺度物體的能力。DeepLab V3 相比DeepLabV1、V2 去除了FCCRF,但性能進一步提高。針對DeepLab V3 生成的預測圖稀疏、空洞卷積造成的邊界信息丟失等問題,Chen 等人提出了DeepLab V3+[16]。其基于DeepLab V3 設計編碼網絡,來編碼全局上下文信息,引入解碼網絡來恢復目標的邊界細節(jié)信息。此外,在ASPP 模塊和解碼網絡中添加可分離深度卷積層,提高了網絡的運行速率和魯棒性,并大幅提升了分割準度。
解決池化操作導致的圖像分辨率降低、像素空間信息丟失問題的另一個方法是引入編碼器-解碼器結構。編碼器通常由多個卷積層和池化層組成,作用是從原圖中獲取含有位置信息和語義信息的特征圖。而解碼器通常由反卷積層和反池化層構成,作用是恢復特征圖中丟失的空間維度和位置信息,生成稠密的預測圖。
FCN 在上采樣時使用反卷積和跳躍連接解決位置信息丟失問題,但是最終分割結果依然較粗糙。文獻[17]基于FCN 提出了SegNet,采用對稱的編碼器-解碼器結構,如圖6 所示。編碼器基于VGG-16 網絡但移除了全連接層,降低了模型復雜度。其中池化層還存儲特征圖最大池化的位置信息。解碼器由上采樣層和反卷積層組成,依據(jù)相應編碼器層存儲的最大池化索引對輸入特征進行上采樣,有效減少圖像位置信息的丟失,從而生成密集的特征圖。最后將特征圖送入Softmax 分類器中進行像素分類。SegNet 減少了內存占用和參數(shù)量,提高了語義分割的準度,但對小尺寸目標進行上采樣時,仍會丟失部分邊界信息。
U-Net[18]網絡結構與SegNet 相似,采用的是“U型”的編碼器-解碼器結構,主要應用于醫(yī)學圖像分析領域。獨特之處在于將編碼器中低分辨率特征圖通過跳躍連接直接拼接到對應解碼器上采樣生成的特征圖,從而有效融合了低層的細節(jié)信息和高層的像素分類信息,實現(xiàn)更精確的分割。
傳統(tǒng)的編解碼器結構復雜、參數(shù)數(shù)量多,因此后續(xù)許多研究學者對編解碼器的結構進行優(yōu)化。如ENet[19]網絡采用大的編碼器和較小的解碼器,簡化了解碼器結構。同時,通過低階近似運算分解卷積操作,以減少參數(shù)量,提高語義分割的實時性。此外,Wang 等人[20]提出輕量化網絡LEDNet,也采用非對稱的編解碼器結構。該網絡中編碼器基于ReNet,但改進了殘差模塊,從而增強了特征表達能力,減小了網絡規(guī)模。解碼器中引入注意力機制預測每個像素的語義標簽,進一步減少了網絡的計算量。實驗結果表明,該網絡實現(xiàn)了分割速度與準度的良好平衡。
FCN 網絡通常提取圖像的局部特征進行像素分類,缺乏對圖像全局特征、上下文信息的利用,因而導致分割結果較為粗糙?;谔卣魅诤系姆椒ㄍㄟ^融合不同尺度、不同層次的特征,提高獲取圖像上下文信息的能力。此外,能夠將圖像的局部特征和全局特征連接來優(yōu)化分割結果。
ParseNet[21]網絡首先通過全局平均池化來獲取圖像的全局特征,然后將全局特征與局部特征進行融合,并用于分類器的學習,從而有效利用了全局上下文信息,提高了語義分割的準度。
Fig.6 Network architecture of SegNet圖6 SegNet網絡架構
為了解決空間信息丟失問題,Lin 等人[22]提出了多路徑細化網絡(簡稱RefineNet),能夠將多尺度的特征融合得到精細的分割結果。該網絡首先把原始圖像輸入CNN 網絡中生成4 個不同尺度、不同分辨率的特征圖,再把4 個特征圖分別送入對應的4 個精細化模塊(RefineNet block)中。RefineNet block 由基于殘差連接設計的多個組件構成,可以將粗糙的高層特征和細粒度的低層特征進行連接,并有效融合了下采樣過程丟失的特征信息,從而良好保留像素的空間信息,生成高分辨的分割圖。
針對FCN 在場景分割時存在的上下文關系推斷能力不足問題,Zhao 等人[23]提出了金字塔場景解析網絡(簡稱PSPNet),結構如圖7 所示。該網絡首先使用添加了擴張卷積的ResNet網絡提取特征,之后將特征輸入到金字塔池化模塊(pyramid pooling module)中。金字塔池化模塊通過對輸入特征進行4 種不同尺度的池化,得到4 個不同層級的特征圖;然后對不同層級的特征圖進行上采樣恢復到池化前的大小,并與池化前的特征進行拼接;最后通過卷積操作生成最終的預測圖。PSPNet 網絡通過融合不同尺度的特征,有效利用了局部和全局上下文信息。此外,在基礎網絡訓練過程中添加輔助損失函數(shù),降低優(yōu)化的難度,從而實現(xiàn)了高質量的像素級場景解析。
解決FCN 網絡忽略像素間的關聯(lián)性,對全局上下文信息利用不足問題的另一個方法是利用RNN 網絡進行語義分割。RNN 網絡具有記憶歷史信息的特性,可以利用先前時刻的信息指導下一時刻的輸出,充分考慮了圖像中像素之間的相關性,有利于提取像素的序列信息和建模語義依賴關系,促進對全局上下文信息的利用。
受RNN 網絡啟發(fā),文獻[24]基于由RNN 改進的圖像分類模型ReNet[25]提出了ReSeg 網絡,結構如圖8所示。該網絡先將原始圖像輸入預訓練的VGG-16網絡進行特征提?。蝗缓蟀烟卣魉腿氲蕉鄠€ReNet 層中。ReNet 層由4 個RNN 組成,通過在水平和垂直兩個方向掃描圖像,有效獲取圖像的全局特征和上下文信息;最后使用若干由反卷積網絡構成的上采樣層恢復特征圖的分辨率。ReSeg 網絡處理分割任務時十分高效、靈活,但計算量較大,對部分類別的像素的分割效果不佳。
Fig.7 Workflow of PSPNet圖7 PSPNet網絡處理流程
Fig.8 Network architecture of ReSeg圖8 ReSeg 網絡架構
傳統(tǒng)RNN網絡無法學習遠距離節(jié)點的信息,存在長期依賴問題。針對這一情況,后續(xù)在RNN的基礎上衍生出長短期記憶(long short-term memory,LSTM)[26]網絡和門控循環(huán)單元(gated recurrent unit,GRU)[27]。Byeon 等人[28]提出了二維長短期記憶循環(huán)神經網絡(2D LSTM)。該網絡將輸入圖像分成若干個非折疊窗口,然后送入4 個獨立的LSTM 記憶單元,利用LSTM 的遠程記憶特性來捕獲圖像的局部、全局上下文信息,以較低的計算復雜度實現(xiàn)了先進的性能。普通的LSTM 網絡處理時需要將圖像固定且均勻地劃分為塊,會造成圖像屬性利用不充分。因此,Liang等人[29]提出Graph-LSTM,將傳統(tǒng)LSTM 從序列數(shù)據(jù)拓展到圖結構數(shù)據(jù),將超像素作為圖的節(jié)點,基于超像素及其空間連接自適應地構造一個無向圖拓撲結構。Graph-LSTM 利用圖拓撲結構可以高效地將圖像的上下文信息傳輸?shù)綀D中所有超像素節(jié)點,降低冗余計算量的同時良好保留了目標的邊界信息,從而增強了特征表示。
RNN 網絡在三維場景解析中亦有應用。Xiang等人[30]提出了數(shù)據(jù)關聯(lián)循環(huán)神經網絡(data associated recurrent neural networks,DA-RNN),在RNN 網絡中引入一個新的數(shù)據(jù)關聯(lián)遞歸單元(data associated recurrent unit,DA-RU),用于融合先前視頻幀和當前視頻幀的特征,以對RGB-D 視頻的每一幀進行語義標注,之后把網絡的輸出與KinectFusion 技術結合,將語義標簽融入到三維空間中,實現(xiàn)三維場景重建。
注意力機制[31]的基本原理是為特征圖中不同的區(qū)域分配不同的權重,即提取特征圖中關注對象的有用信息,同時抑制無用信息,從而實現(xiàn)高效的特征提取,并降低了網絡訓練難度。其次,注意力機制有助于獲取全局上下文信息,促進語義分割準度的提升。
金字塔注意網絡(pyramid attention network,PAN)[32]將注意力機制和空間金字塔結合來獲取密集的特征和語義信息,其創(chuàng)新工作在于:(1)提出特征金字塔注意模塊(feature pyramid attention,F(xiàn)PA),利用金字塔模型融合不同尺度的上下文信息,同時將像素級注意力應用于高層特征,以增強像素分類的一致性。(2)提出全局注意上采樣模塊(global attention upsample,GAU),利用全局平均池化來提取高層特征的上下文信息,用于指導低層特征恢復像素的細節(jié)信息,從而促進分割精度的提升。
針對傳統(tǒng)的FCN 網絡提取的特征導致的目標錯誤分類問題,F(xiàn)u 等人[33]提出雙注意網絡(dual attention network,DANet)。該網絡先基于ResNet 模型提取特征圖,然后將特征圖輸入到并行連接的位置注意力模塊和通道注意力模塊。其中位置注意力模塊利用自注意力機制捕獲特征圖中任意兩個位置間的空間依賴關系,通道注意力模塊利用自注意力機制捕獲通道特征圖之間的依賴關系。最后使用卷積操作將兩個模塊的輸出進行聚合,使網絡可以在局部特征上建模全局上下文依賴關系,并進一步增強了特征表示。
DANet 網絡雖然提升了分割的準度,但模型計算量較大。文獻[34]提出縱橫交叉網絡(criss-cross network,CCNet),設計了縱橫交叉注意力(criss-cross attention,CCA)模塊,通過特征加權求和來建模像素間的遠距離依賴關系,以在水平和垂直方向上捕獲圖像的全局上下文信息。該網絡使用較少的GPU 內存和計算成本,達到了先進的分割效果。
傳統(tǒng)的基于FCN 的語義分割方法常使用CRF(conditional random field)、金字塔模型來提升算法的分割準度,但是存在模型結構復雜、計算成本高等問題。而基于GAN 網絡的語義分割方法通過對抗訓練優(yōu)化模型性能,在不增加網絡復雜度的情況下,增強了像素預測結果的一致性,進而促進語義分割準度的提高。
經生成對抗網絡的啟發(fā),Luc 等人[35]首次將生成對抗網絡應用于圖像語義分割。首先利用分割網絡生成預測圖,然后將預測圖和真實標簽圖輸入到判別網絡中判斷真假。兩個網絡之間進行迭代訓練,提高了預測圖與真實標簽圖之間的高階一致性。
全監(jiān)督語義分割是對每個像素進行語義標注,時間成本高且難度大。為了減少標注時間和代價,文獻[36]將GAN 應用于半監(jiān)督學習,利用少量的標注數(shù)據(jù)和大量的未標注數(shù)據(jù)進行語義分割,并利用條件生成對抗網絡[37]生成高質量的樣本,以提升像素分類的一致性。無獨有偶,文獻[38]也利用GAN 進行半監(jiān)督語義分割,以有效減少人工標注的工作量。不同點在于利用未標注的數(shù)據(jù)訓練分割網絡時,將判別網絡的輸出作為自學習信號,用于補償圖像語義標注的缺失和優(yōu)化分割網絡。
隨著語義分割技術的發(fā)展,越來越多的分割算法被提出,繼而需要對這些算法的性能進行標準化、系統(tǒng)化的評估。而評估不同算法的性能需要建立在大型的數(shù)據(jù)集和統(tǒng)一的評價指標上。因此,本章對圖像語義分割實驗中常用的公共數(shù)據(jù)集和性能評估指標進行了歸納,并以此為標準對本文所述算法的性能進行對比。
本節(jié)整理了常用的大型公共數(shù)據(jù)集,并對各個數(shù)據(jù)集的基本信息、主要應用場景進行了匯總,如表2所示。
Stanford background[39]:斯坦福大學發(fā)布的一個室外場景數(shù)據(jù)集,數(shù)據(jù)主要來自LabelMe、MSRC、PASCAL VOC 等公共數(shù)據(jù)集,包含715 張圖像,像素約為320×240。數(shù)據(jù)集有8 個類別,包括道路、樹木、草、水、建筑物、山脈、天空和前景物體。
SiftFlow[40]:該數(shù)據(jù)集是LabelMe 數(shù)據(jù)集的子集,包含33 個語義類別,共有2 688 張標注的圖像,大部分圖像取自8 種不同的戶外場景(山脈、海灘、街道、城市等),每張圖像的像素值為256×256。
KITTI[41]:自動駕駛場景最常用數(shù)據(jù)集,包含從德國鄉(xiāng)村、城市和高速公路采集的圖像,適用于道路檢測、視覺測距、三維物體檢測和跟蹤等挑戰(zhàn)。原始數(shù)據(jù)集沒有提供真實的語義標注,后來Alvarez 等人[42]、Zhang 等人[43]和Ros 等人[44]為其中部分類的圖像添加了語義標注。
SBD(semantic boundaries dataset)[45]:SBD 數(shù)據(jù)集對PASCAL VOC 數(shù)據(jù)集進行了拓展,并繼承PASCAL VOC 中的11 355 張語義標注圖像。數(shù)據(jù)集分為訓練集(8 498 張圖像)和驗證集(2 857 張圖像),實際應用中已逐漸替代PASCAL VOC 數(shù)據(jù)集。
PASCAL VOC(PASCAL visual object classes)[46]:最初是為目標檢測任務創(chuàng)立的國際競賽,從2005 年一直發(fā)展到2012 年,產生了一系列高質量的數(shù)據(jù),目前PASCAL VOC 2012 是最常用的。數(shù)據(jù)集中共有21 個類別(含背景),包括人、動物、交通工具、室內物品等。
PASCAL Context[47]:在PASCAL VOC 數(shù)據(jù)集的基礎上進行了擴展,總共有540 個類,包含10 103 張語義標注的圖像。該數(shù)據(jù)集類別繁多,但其中許多類比較稀疏,因此在評估語義分割算法性能時,通常使用出現(xiàn)頻率最高的59 個類作為語義標簽。
Table 2 Common datasets for semantic segmentation表2 語義分割常用公共數(shù)據(jù)集
MS COCO(Microsoft common objects in context)[48]:由微軟公司發(fā)布,數(shù)據(jù)集中圖像種類豐富,其包含的圖像大多選取自復雜的室內和室外場景,常用于圖像識別、語義分割任務。數(shù)據(jù)集含有80 個類別,328 000幅圖像、2 500 000 個對象實例。
ADE20K[49]:MIT 推出的用于場景解析、分割、目標識別、語義理解的數(shù)據(jù)集,該數(shù)據(jù)集中共擁有超過25 000 張圖像、150 個語義類別,并對圖像中的目標進行了密集的像素標注。其中訓練集有20 210 張圖像,驗證集有2 000 張圖像。
Cityscapes[50]:主要用于城市街道場景解析的大型數(shù)據(jù)集,包含了從50 個城市獲取的不同時間段、不同背景和場景布局下的高分辨率圖像,數(shù)據(jù)集為部分圖像提供了語義、實例標注,其中精細標注的圖像約5 000 張,粗略標注的圖像20 000 張。
SUNRGB-D[51]:主要應用于場景解析任務,數(shù)據(jù)集由4 款RGB-D 傳感器采集的圖像和NYU depthv2、SUN3D 等數(shù)據(jù)集組成。共包括10 335 張室內場景圖像、146 617 個二維多邊形標注、58 657 個三維邊界框標注以及不同場景的布局信息、類別信息。
目前學術界通常從運行時間、內存占用、準確度三方面衡量語義分割算法的性能,因準確度最具客觀性和公正性,所以本節(jié)著重介紹圖像語義分割準確度的評價指標。主要包括像素準確率(pixel accuracy,PA)[52]、交并比(intersection over union,IoU)[52]、平均交并比(mean intersection over union,mIoU)[52]等。其中mIoU 簡潔且代表性強,是圖像語義分割實驗評測中最常用的指標。PA、IoU、mIoU 三個評價指標的定義、計算公式的詳細闡述如下。
(1)PA:表示圖像中正確分類的像素數(shù)目與像素總數(shù)的比率。
(2)IoU:預測圖集合和真實標注圖集合的交集與這兩個集合的并集的比率,圖像語義分割中常表示分割圖與原始圖像真值之間的重合程度。
(3)mIoU:圖像像素每個類的IoU 值累加后的平均值。
式中,k表示像素的類別數(shù);pii表示實際類別為i、預測的類別也為i的像素的數(shù)目;ti表示類別為i的像素的總數(shù);pji表示實際類別為i、預測的類別為j的像素的數(shù)目。
本文中所述語義分割算法的關鍵技術以及在PASCAL VOC 2012、CityScapes 等常用數(shù)據(jù)集上的mIoU 實驗測試結果對比,如表3 所示。
本文簡述了語義分割中常用的幾種深度神經網絡,將基于深度神經網絡的語義分割方法依據(jù)所用技術的區(qū)別劃分為基于空洞卷積的方法、基于編解碼的方法等六類方法,并對這六類方法中的主流算法進行細致的研究和總結。在對語義分割技術深入研究后,發(fā)現(xiàn)語義分割技術依然存在許多挑戰(zhàn)和可行的研究方向。
(1)實時語義分割
目前許多語義分割算法已經實現(xiàn)了良好的分割準度,但運行速度卻無法達到實時性的要求,實現(xiàn)實時語義分割的難點在于要在保證分割準度的前提下提升分割速度。目前的主流解決方法:一是采用高效且輕量化的主干網絡;二是采用多分支網絡結構;三是裁剪輸入圖像的尺寸。如RGPNet[54]網絡采用非對稱編解碼結構,使網絡模型輕量化,提高了分割準度并減少了計算成本。曠視公司提出的DFANet[53]網絡通過充分利用深度聚合的高層特征以及輕量化的編碼器結構,實現(xiàn)了實時分割。目前越來越多的實際應用場景要求在更短的響應時間達到精確的分割結果(如無人駕駛、安防監(jiān)控),因此未來的語義分割將在保持高準度的同時,探索如何進一步提高分割速度。
(2)三維點云數(shù)據(jù)的語義分割
基于深度學習的語義分割已經在一維、二維數(shù)據(jù)的處理上取得了很大的成功,而針對點云等三維數(shù)據(jù)的語義分割近幾年卻發(fā)展緩慢。2017 年文獻[55]提出的PointNet 網絡首次實現(xiàn)在非規(guī)則點云數(shù)據(jù)上進行圖像分割,2020 年文獻[56]提出RandLA-Net 網絡,通過逐漸增加每個點的感受野來更好地學習點云的幾何結構,實現(xiàn)了大規(guī)模三維點云的處理。雖說近兩年三維點云數(shù)據(jù)的語義分割研究火熱,但依然存在許多挑戰(zhàn)。如現(xiàn)有的三維數(shù)據(jù)集規(guī)模都較小,而點云語義分割是建立在大規(guī)模三維數(shù)據(jù)的基礎上,因此如何建立完善的大型三維數(shù)據(jù)集是一個不小的難點。此外,如何將稀疏的、無序的、非結構化的點云數(shù)據(jù)結構化、離散化,以促進點云數(shù)據(jù)分割準度的提升也是未來研究的熱點方向。
Table 3 Comparison of experimental results of image semantic segmentation methods表3 圖像語義分割方法的實驗結果對比
(3)基于圖卷積網絡的語義分割
卷積神經網絡在規(guī)則的歐式數(shù)據(jù)(如圖像、文本等)處理中取得了卓越的成就,但無法處理非歐式數(shù)據(jù)(如圖數(shù)據(jù))。圖卷積網絡將卷積神經網絡從歐式數(shù)據(jù)拓展到圖結構數(shù)據(jù),實現(xiàn)端到端地學習圖節(jié)點的特征信息和結構信息,并有效增強了特征表示能力,是圖數(shù)據(jù)處理的最佳手段。文獻[57]將圖像網格數(shù)據(jù)拓展為圖結構數(shù)據(jù),利用圖卷積網絡解決圖節(jié)點的分類問題,減少了局部位置信息的丟失,取得了良好的分割結果。目前,許多真實場景都是以圖數(shù)據(jù)的形式存在的,且圖數(shù)據(jù)建模在視覺任務中的重要性日益凸顯(如三維點云數(shù)據(jù)分割)。因此,基于圖卷積網絡進行語義分割是一個極具潛力的研究方向。