梁新宇,羅 晨,權(quán)冀川,肖鎧鴻,高偉嘉
1.陸軍工程大學 指揮控制工程學院,南京210007
2.陸軍工程大學 通信工程學院,南京210007
3.中國人民解放軍68023部隊
圖像分割(image segmentation)技術(shù)已經(jīng)成為計算機視覺領(lǐng)域的重要研究方向,是圖像語義理解的重要環(huán)節(jié),也是實現(xiàn)完全場景理解的重要方式之一。圖像分割技術(shù)通常用于定位圖像中目標和邊界(線、曲面)的位置,為圖像中的每一個像素打上標簽,擁有相同標簽的像素具有相同的特征,為進一步對圖像進行分類、檢測和內(nèi)容理解打下良好的基礎(chǔ)。
圖像語義分割是對圖像中的每個像素都劃分出對應(yīng)的類別,即實現(xiàn)圖像在像素級別上的分類。如圖1所示,根據(jù)需求劃分的類別標簽,將圖中的“瓶子”“杯子”“立方體”實現(xiàn)像素級別的分類。
圖1 圖像語義分割
不同于圖像分類和目標檢測技術(shù),在開始圖像分割處理之前,必須明確語義分割的任務(wù)要求,即理解語義分割的輸入和輸出。語義分割的重要性在于越來越多的應(yīng)用需要利用圖像進行理解推斷,包括人機交互[1-2]、自動駕駛[3-5]、醫(yī)學影像[6-11]、計算攝影[12-13]、虛擬現(xiàn)實[14-16]、增強現(xiàn)實[17-18]等領(lǐng)域。
近年來,隨著深度學習技術(shù)的逐步深入,圖像語義分割技術(shù)有了突飛猛進的發(fā)展,相繼涌現(xiàn)出了一批經(jīng)典的語義分割模型和算法。本文從圖像語義分割的技術(shù)發(fā)展視角,將其劃分為傳統(tǒng)圖像語義分割技術(shù)與基于深度學習的圖像語義分割技術(shù)兩大類。重點對基于深度學習的典型語義分割網(wǎng)絡(luò)架構(gòu)進行了梳理總結(jié),對于最近兩年內(nèi)提出的新型網(wǎng)絡(luò)架構(gòu)進行了綜合分析。同時,從圖像語義分割的性能評價需求出發(fā),研究了常用的測試數(shù)據(jù)集和性能評價方法,對于主流的語義分割網(wǎng)絡(luò)架構(gòu)進行了性能對比分析,可為相關(guān)領(lǐng)域的理論研究和應(yīng)用實踐提供有價值的參考。
(1)基于閾值的圖像分割技術(shù)
基于閾值的圖像分割技術(shù)的基本思想是基于圖像的灰度特征來計算一個或多個灰度閾值,并將圖像中每個像素的灰度值與閾值進行比較,最后再根據(jù)像素比較的結(jié)果劃分到合適的類別中。
閾值分割的優(yōu)點是計算簡單、運算效率較高且速度快。全局閾值對于灰度相差很大的不同目標和背景能進行有效的分割;局部閾值或動態(tài)閾值對于閾值差異不大的目標更為合適。雖然基于閾值的分割技術(shù)簡單高效,但也有一定的局限性。這種方法只考慮像素本身的灰度值,一般不考慮空間特征,因而對噪聲很敏感。在實際應(yīng)用中,閾值法通常要與其他方法結(jié)合使用。
(2)基于邊緣的圖像分割技術(shù)
所謂邊緣是指圖像中兩個不同區(qū)域的邊界線上連續(xù)的像素點的集合,是圖像局部特征不連續(xù)性的反映,體現(xiàn)了灰度、顏色、紋理等圖像特性的突變?;谶吘壍姆指罴夹g(shù)是根據(jù)灰度值進行邊緣檢測,將圖像分割成不同的部分。它是建立在邊緣灰度值會呈現(xiàn)出階躍型或屋頂型變化這一觀測基礎(chǔ)上的方法。
基于邊緣的分割方法的重點在于邊緣檢測對抗噪性和檢測精度之間的權(quán)衡。若提高檢測精度,則噪聲產(chǎn)生的偽邊緣會導致不合理的輪廓;若提高抗噪性,則會產(chǎn)生輪廓漏檢和位置偏差。為此,人們提出各種多尺度邊緣檢測方法,根據(jù)實際問題設(shè)計多尺度邊緣信息的結(jié)合方案,以較好地兼顧抗噪性和檢測精度。該方法的不足之處在于,在劃分復雜圖像時邊緣的連續(xù)性和完整性難以保證。
(3)基于區(qū)域的圖像分割技術(shù)
基于區(qū)域的圖像分割技術(shù)按照相似性準則將圖像分成不同的區(qū)域。其主要利用了圖像的局部空間信息,能夠較好地避免其他算法帶來的分割空間小的缺陷。
然而,這種分割技術(shù)在進行大區(qū)域分割時速度較慢,抗噪性差,往往會分割出無意義的區(qū)域或者造成圖像的過度分割等。一般情況下,會與其他方法結(jié)合使用,發(fā)揮各自的優(yōu)勢以獲得更好的分割效果。
(4)基于特定理論的圖像分割技術(shù)
基于特定理論、方法的圖像分割技術(shù)包括聚類分析、模糊集理論、圖論等,這些理論為圖像分割技術(shù)的難點突破和研究拓展了新的方向。
傳統(tǒng)的圖像分割技術(shù)在分割精度和分割效率上難以達到實際應(yīng)用的要求,尤其是在實時場景理解和圖像信息處理方面。而且,語義分割時,單獨使用一種傳統(tǒng)的圖像分割算法,難以獲得良好的分割效果。正確的思路是,不斷將各種新理論和新方法引入圖像分割領(lǐng)域。近年來,基于深度學習的圖像分割技術(shù)很好地解決了上述問題。
深度學習(Deep Learning)[19]是機器學習的一個分支,也是近十年機器學習領(lǐng)域的研究熱點。深度學習是利用多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),將隱含在高層中的信息進行建模的方法。
基于深度學習的圖像語義分割技術(shù)(簡稱深度圖像語義分割)的主要思路是,不需要人為設(shè)計特征,直接向深層網(wǎng)絡(luò)輸入大量原始圖像數(shù)據(jù),根據(jù)設(shè)計好的深度網(wǎng)絡(luò)算法,對圖像數(shù)據(jù)進行復雜處理,得到高層次的抽象特征;輸出的不再是簡單的分類類別或者目標定位,而是帶有像素類別標簽的與輸入圖像同分辨率的分割圖像。
許多語義分割問題可以使用深度學習網(wǎng)絡(luò)架構(gòu)解決,這類網(wǎng)絡(luò)架構(gòu)在準確率和處理效率上都明顯超越了傳統(tǒng)的方法。本節(jié)闡述了圖像語義分割處理的經(jīng)典網(wǎng)絡(luò)架構(gòu)及其實際用例,并對這些架構(gòu)的特性進行總結(jié)和分析。
(1)全卷積網(wǎng)絡(luò)
2014年,全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)[20]問世,其網(wǎng)絡(luò)架構(gòu)如圖2所示。它是傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)[21]的擴展,主要思想是利用全卷積網(wǎng)絡(luò)取代原有架構(gòu)的全連接層部分,以達到可以輸入任意分辨率圖像的目的。由于傳統(tǒng)CNN的全連接層是針對固定長度的特征向量進行分類的,所以只能接受特定大小的輸入圖像。為了改變這種局限性,F(xiàn)CN 采用卷積和池化層,可以接受任意分辨率的輸入圖像。再利用反卷積層對最后一個卷積層的特征圖進行上采樣,使輸出結(jié)果恢復到與輸入圖像相同的尺寸。FCN可對圖像的每個像素產(chǎn)生一個預(yù)測,同時保留了原始輸入圖像中的空間信息,并在上采樣的特征圖上逐個像素進行分類和計算分類損失,相當于每個像素對應(yīng)一個訓練樣本。所以,F(xiàn)CN通過對圖像進行像素級的分類來解決語義級別的圖像分割問題。
圖2 FCN架構(gòu)
FCN為語義分割引入了端到端的全卷積網(wǎng)絡(luò),同時重新利用預(yù)訓練網(wǎng)絡(luò),結(jié)合反卷積層進行上采樣,并引入跳躍連接改善上采樣粗糙的像素定位。
FCN在處理室內(nèi)場景分割任務(wù)中,較好地實現(xiàn)了視覺假體輔助盲人識別的應(yīng)用[22]。除此之外,F(xiàn)CN在典型紅外目標分割[23]以及輸電線路航拍[24]等工程實踐中取得了良好表現(xiàn)。
(2)SegNet
FCN 和SegNet[25]都是最先出現(xiàn)的編碼-解碼結(jié)構(gòu)。FCN網(wǎng)絡(luò)使用了反卷積層和少量跳躍連接,但是產(chǎn)生的分割圖較為粗略。為了提升效果,SegNet引入了更多的跳躍連接。另一方面,SegNet 并沒有復制FCN 中的編碼器特征,而是復制了最大池化指數(shù),這使得在內(nèi)存使用上SegNet 比FCN 更為高效。因此,SegNet 比FCN 更節(jié)省內(nèi)存。
在農(nóng)業(yè)信息領(lǐng)域,SegNet在高分辨率遙感影像的農(nóng)村建設(shè)用地信息提取任務(wù)中,總體的分類分割精度達到96.61%[26],效果明顯。SegNet在工件表面缺陷檢測[27]等工業(yè)工程領(lǐng)域中得以應(yīng)用,并取得不錯的效果。
(3)DeepLab v1
基于CNN模型架構(gòu)的圖像分割技術(shù)是根據(jù)分類這種高層語義改進的,但CNN 具有的不變性特點會導致丟失位置信息,無法對像素點精確定位語義。如圖3所示,DeepLab v1[28]是CNN 和概率圖模型(Probabilistic Graphical Model,PGM)[29]的結(jié)合,利用空洞卷積(Atrous Convolution)增加卷積操作過程的感受野,保持分辨率。同時,對CNN最后一層增加全連接條件隨機場(Conditional Random Filed,CRF)[28],使分割結(jié)果更精確。
圖3 DeepLab v1架構(gòu)
(4)DeepLab v2
DeepLab v2[30]在DeepLabv1的基礎(chǔ)上進行了改進,引入了空間金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)結(jié)構(gòu),以融合不同級別的語義信息,改進Deep-Labv1未融合不同層信息的不足。具體的處理方法是,選擇不同擴張率的空洞卷積處理特征圖,由于感受野不同,得到信息的層級也不同。ASPP 層把這些不同層級的特征圖連接到一起,進行信息融合,如圖4。
圖4 ASPP結(jié)構(gòu)
作為DeepLab系列中的經(jīng)典網(wǎng)絡(luò)架構(gòu),DeepLab v1和DeepLab v2已經(jīng)在遙感影像處理[31]、城市街景解析[32]以及室內(nèi)場景分析等實際場景中應(yīng)用。
(5)RefineNet
在前述的幾種語義分割架構(gòu)中,為了提取更復雜的特征、構(gòu)建更深的神經(jīng)網(wǎng)絡(luò),許多算法往往會以犧牲空間分辨率的方式,在盡量少地增加計算量的前提下,換取特征通道數(shù)的增加。雖然這種方式有諸多優(yōu)點,但是空間分辨率的下降是其明顯的缺陷。
為了解決這一問題,同時更好地優(yōu)化語義分割結(jié)果,RefineNet[33]提供了一個能夠良好融合高分辨率語義特征和低分辨率語義特征的模塊來生成高分辨率的分割圖。RefineNet模型的整體架構(gòu)如圖5所示,RefineNet包括三大模塊:殘差卷積模塊(Residual Convolution Unit,RCU)、多分辨率融合模塊(Multi-Resolution Fusion)鏈式殘差池化模塊(Chained Residual Pooling)。
圖5 RefineNet模型架構(gòu)
殘差卷積模塊從不同尺度的圖像中抽取底層特征;多分辨率融合模塊,抽取中間層特征對多尺度的特征進行融合,以解決因為下采樣導致的信息丟失問題;鏈式殘差池化模塊,抽取高層特征,不同池化相當于不同大小的窗口,在整合不同尺度特征后通過卷積加權(quán)在一起,從而捕獲背景上下文信息。
(6)PSPNet
語義分割過程中,對圖像語義場景的解析或理解極為關(guān)鍵。然而,早期的多數(shù)架構(gòu)都是基于FCN的,沒有引入足夠的上下文信息及不同感受野下的全局信息,容易導致錯誤的分割結(jié)果。PSPNet[34]提出了一個具有層次全局優(yōu)先級、包含不同子區(qū)域之間不同尺度信息的模塊,稱為金字塔池化模塊(Pyramid Pooling Module),如圖6 所示。它充分利用全局特征層次的先驗知識對不同場景進行理解,聚合不同區(qū)域的上下文信息以獲取全局上下文的內(nèi)容。同時,PSPNet 還提出了一個適度監(jiān)督損失的優(yōu)化策略,在多個數(shù)據(jù)集上表現(xiàn)優(yōu)異。與全局金字塔池化不同的是,可以通過PSPNet 對不同區(qū)域信息的融合來實現(xiàn)全局上下文信息的融合。
總之,PSPNet 為像素級場景解析提供了有效的全局上下文先驗,金字塔池化模塊可以收集具有層級的信息,比全局池化更有代表性。并且,PSPNet和帶空洞卷積的FCN 相比,并沒有增加多少計算量。在端到端的學習中,全局金字塔池化模塊和局部FCN 功能可以同時訓練和優(yōu)化??梢哉f,PSPNet 同時利用局部和全局信息,更好地提取全局上下文信息,使得場景識別更加可靠。
RefineNet 和PSPNet 已經(jīng)應(yīng)用在醫(yī)療影像[8]、農(nóng)業(yè)信息[35-36]、遙感圖像[37]等領(lǐng)域,通過特征融合的思想,對圖像上下文語義進行捕獲,實現(xiàn)不同尺度信息整合,獲得了良好的性能表現(xiàn)。
2017 年以來,在技術(shù)的推動下,經(jīng)典網(wǎng)絡(luò)架構(gòu)有新的突破;同時,新的設(shè)計思想和觀點又催生出新的網(wǎng)絡(luò)架構(gòu)。這些網(wǎng)絡(luò)架構(gòu)代表了語義分割的前沿方向。
(1)DeepLab v3
如圖7 所示,DeepLab v3[38]在DeepLabv2 模型的基礎(chǔ)上,作了以下改進:①放棄了CRF 操作;②改進了ASPP 模塊,加入了批規(guī)范化(Batch Norm,BN)操作;③為了防止空洞卷積感受野的擴張率過大導致的“權(quán)值退化”現(xiàn)象,增加了全局平均池化結(jié)構(gòu),利用全局信息,以強調(diào)和加強全局特征。
圖6 PSPNet模型架構(gòu)
圖7 DeepLab v3模型架構(gòu)
DeepLab v3 通過編碼多尺度信息,增強圖像級的特征,獲得了比DeppLab v1、DeppLab v2 更加良好的實驗效果,并取得了與其他先進模型相當?shù)男阅堋?/p>
(2)DeepLab v3+
DeepLabv3+[39]提出了一個全新的編碼-解碼結(jié)構(gòu),如圖8 所示。該模型使用DeepLab v3 作為編碼器模塊,并增加了一個簡單卻有效的解碼模塊,逐漸恢復空間信息以捕捉清晰的目標邊界;并且在解碼過程中對不同層級特征進行融合,進行多尺度上下文信息的探索。此外,對編碼模塊進行了優(yōu)化處理,加入了Xception[40]結(jié)構(gòu)以減少參數(shù)量,提高運行速度。
DeepLab v3+在提出的編碼-解碼架構(gòu)中,通過空洞卷積直接控制提取編碼特征的分辨率,在精度和運行時間之間尋找平衡點。將Xception結(jié)構(gòu)應(yīng)用于分割任務(wù),在編碼模塊中的ASPP部分和解碼模塊分別加入深度可分卷積,在減少計算消耗和參數(shù)量的同時維持了相似的性能表現(xiàn),得到了強大又快速的模型。
(3)Auto-DeepLab
Auto-DeepLab[41]是近期由李飛飛帶領(lǐng)的團隊提出的自動搜索圖像語義分割架構(gòu)的算法。該架構(gòu)首次將神經(jīng)架構(gòu)搜索(Neural Architecture Search,NAS)引入到語義分割領(lǐng)域,自動搜索網(wǎng)絡(luò)架構(gòu)。利用研究提出的分層神經(jīng)架構(gòu)搜索方法確定最優(yōu)網(wǎng)絡(luò)架構(gòu)和單元架構(gòu),完成圖像語義分割任務(wù),性能超越了很多業(yè)內(nèi)主流的模型,甚至可以在未經(jīng)過預(yù)訓練的情況下達到預(yù)訓練模型的水平。Auto-DeepLab 開發(fā)出與分層架構(gòu)搜索空間完全匹配的離散架構(gòu)的連續(xù)松弛結(jié)構(gòu),顯著提高架構(gòu)搜索的效率,降低計算需求。
(4)DANet
DANet[42]是一種新型的場景語義分割網(wǎng)絡(luò),利用“自注意力機制”捕獲豐富的語義信息。如圖9 所示,DANet在帶有空洞卷積的ResNet[43]架構(gòu)的尾部添加兩個并行的注意力模塊:位置注意力模塊(Position Attention Module)和通道注意力模塊(Channel Attention Module)。在位置注意力模塊中,任一位置的特征更新是通過圖像所有位置特征的加權(quán)聚合實現(xiàn)的,權(quán)重是由兩個位置上特征的相似性決定的,即無論兩個位置的距離多遠,只要特征相似就能得到更高的權(quán)重。
在通道注意力模塊中,也應(yīng)用了類似的自注意力機制來學習任意兩個通道映射之間的關(guān)系,同樣通過所有通道的加權(quán)和來更新某一個通道。
圖8 DeepLab v3+架構(gòu)
圖9 DANet模型架構(gòu)
為了更好地利用兩個注意力模塊的全局語義信息,將模塊的輸出經(jīng)過一個卷積層后進行逐元素的加和實現(xiàn)特征融合,最后通過一個卷積層得到最終的預(yù)測結(jié)果。
DANet在PASCAL Context[44]、MS COCO[45]和Cityscapes[46]數(shù)據(jù)集上取得的顯著效果說明,該架構(gòu)在處理圖像語義的復雜場景方面更加高效靈活。該架構(gòu)選擇性地聚合了顯著和不顯著對象的相似語義特征,并從全局視角自適應(yīng)地集成各種尺度的相似空間關(guān)系,將通道關(guān)系和空間關(guān)系有效結(jié)合,進一步增強了特征表示能力。
語義分割的網(wǎng)絡(luò)架構(gòu)從FCN 開始,不斷融入CRF、ASSP等行之有效的技術(shù),在語義分割速度、準確度等方面不斷提升?,F(xiàn)階段,語義分割的架構(gòu)旨在優(yōu)化分割結(jié)果的精確度和提高分割效率,以便在圖像語義實時處理領(lǐng)域進行應(yīng)用。對上述網(wǎng)絡(luò)架構(gòu)進行了綜合分析,并從主要思想、優(yōu)缺點、關(guān)鍵技術(shù)和主要功能等幾個方面進行了對比總結(jié),如表1所示。
在深度圖像語義分割領(lǐng)域的實踐中,收集并創(chuàng)建一個足夠大且具有代表性的應(yīng)用場景數(shù)據(jù)集,對于任何基于深度學習的語義分割架構(gòu)都是極為重要的。這需要大量的時間、專業(yè)領(lǐng)域的知識,同時也需要相關(guān)的軟硬件設(shè)施使得架構(gòu)可以正確理解與學習捕捉到的數(shù)據(jù)。而且,使用一個現(xiàn)有的、有足夠代表性的標準數(shù)據(jù)集可以保證架構(gòu)之間的性能對比更加公平[47]。
下面介紹圖像分割領(lǐng)域目前最受歡迎的大規(guī)模數(shù)據(jù)集,表2從數(shù)據(jù)集的應(yīng)用場景、類別數(shù)目、發(fā)布時間以及訓練集、驗證集、測試集等方面進行了劃分整理。
(1)Cambridge- driving Labeled Video Database(CamVid)[48-49]。是由Brostow 等人在2009 年建立的道路、駕駛場景理解數(shù)據(jù)集,從車載攝相機拍攝的5 個視頻流中采樣出了701 幅圖像,共32 類物體,如建筑、墻、樹、植被等。
(2)Semantic Boundaries Dataset(SBD)[50]。是PASCAL數(shù)據(jù)集的擴展,包含21類,共11 355張標注圖像。數(shù)據(jù)集所提供的標注中除了有每個物體的邊界信息外,還有種類級別及實例級別的信息。
(3)PASCAL VOC 2012[51]。是為圖像分類和語義分割等任務(wù)發(fā)布的一套數(shù)據(jù)集。其中的圖像主要是常見生活物體,共劃分為21類,包括人、動物、植物和交通工具等。2014年,Mottaghi R等人在此基礎(chǔ)上重新標注了約10 000 幅圖像,將訓練圖像的數(shù)量提升到10 582個,稱為PASCAL VOC 2012+[52]。
(4)NYU Depth Dataset v2(NYUDv2)[53]。是由微軟Kinect 設(shè)備采集的室內(nèi)的RGB-D 圖像,由一系列表示各種室內(nèi)場景的視頻序列組成,共包含40 個類別的1 449張像素級標注的圖像數(shù)據(jù)。但該數(shù)據(jù)集相對于其他數(shù)據(jù)集規(guī)模偏小,限制了其在深度網(wǎng)絡(luò)中的應(yīng)用。
(5)PASCAL Context[44]。由PASCAL VOC 2010數(shù)據(jù)集改進和擴展而來,數(shù)據(jù)集中增加了更多物體像素級別的標注和場景信息,共包含540個語義類別。雖然種類繁多,但是在算法評估時,一般選取前59類作為分割評判標準,其他類別標記為背景。
(6)PASCAL Part[54]。是PASCAL-VOC 2010 識別競賽的擴展,在原有數(shù)據(jù)集基礎(chǔ)上對圖像中每個物體的部分提供了一個像素級別的分割標注,能夠提供豐富的細節(jié)信息,可為物體解析和圖像分割任務(wù)提供詳細標注的樣本。
(7)Microsoft Common Objects in Context(MS COCO)[45]。最初來自于微軟圖像測試的一個大型數(shù)據(jù)庫,數(shù)據(jù)集規(guī)模巨大,內(nèi)容豐富,共包含81種類別(包括背景)、328 000張圖像、2 500 000個物體實例和100 000個人體關(guān)鍵部位標注,圖像從復雜的日常場景中獲取,圖像中的物體具有精確的位置標注。
(8)Cityscapes[46]。是一個城市街道場景解析的大規(guī)模數(shù)據(jù)集,主要提供無人駕駛環(huán)境下的圖像分割數(shù)據(jù),用于評估算法在城區(qū)場景語義理解方面的性能。該數(shù)據(jù)集提供約5 000張精細標注的圖片和20 000張粗略標注的圖片,涵蓋了30種語義、實例以及密集像素標注的類別,包括平坦表面、人、車輛、建筑等。數(shù)據(jù)是從50個
城市中持續(xù)數(shù)月采集而來,涵蓋不同環(huán)境、不同背景、不同季節(jié)的街道場景,具有動態(tài)信息豐富、場景布局多樣和街道背景復雜等特點。
表1 語義分割典型網(wǎng)絡(luò)架構(gòu)的對比總結(jié)
表2 深度圖像分割常用數(shù)據(jù)集
(9)Karlsruhe Institute of Technology and Toyota Technological Institute(KITTI)[55]。包含市區(qū)、鄉(xiāng)村和高速公路等真實場景圖像,是近幾年在智能機器人和無人駕駛領(lǐng)域廣受歡迎的數(shù)據(jù)集之一。研究者使用高分辨率RGB、灰度立體攝像機和三維激光掃描儀等多種類型傳感器采集交通場景數(shù)據(jù),用于評測車載環(huán)境下路面分割、目標檢測、目標跟蹤等技術(shù)。該數(shù)據(jù)集并沒有提供完整的語義標注,先后由Alvarez 等人[56-57]、Zhang 等人[58]、Ros 等人[59]為該數(shù)據(jù)集的部分數(shù)據(jù)手工添加語義標注以滿足其問題的需求。
(10)SUN-RGBD[60]。圖像由四個RGB-D 傳感器得來,尺寸與PASCAL VOC一致,整個數(shù)據(jù)集均為密集標注,包括多邊形、帶方向的邊界框以及三維空間,共包含10 000張RGB-D圖像、146 617個多邊形標注、58 657個邊界框標注以及大量的空間布局信息和種類信息,適合于場景理解任務(wù)。
(11)ADE20K[61]。是一個場景理解的新的數(shù)據(jù)集,由151個類別(包括背景)、20 210張場景圖片組成,包括各種物體(如人、汽車等)、場景(天空、路面等)。
(12)UESTC All-Day Scenery(UADS)[62]。旨在提供全天候道路圖片以及對應(yīng)的二值標簽用以標識圖像中的可行區(qū)域與不可行區(qū)域。整個數(shù)據(jù)集包含四種天候(黃昏天候,夜間天候,下雨天候和艷陽天候)共計6 380張圖像。
為使分割架構(gòu)能夠在特定領(lǐng)域發(fā)揮實際作用并產(chǎn)生重大貢獻,必須對其性能進行嚴格評估。同時,為了對架構(gòu)性能進行公平比較,必須使用標準的、被所屬領(lǐng)域認可的指標進行評估[63]。評估的維度必須多樣化,以證明架構(gòu)的有效性和有用性。在實際應(yīng)用中會根據(jù)需求或目的對相關(guān)指標進行取舍,如在實時應(yīng)用場景中,更加關(guān)注處理速度,在一定程度上需要犧牲精度。然而,為了保證科學的嚴謹性,需要為架構(gòu)方法提供所有可能的評價指標。下文從執(zhí)行時間、內(nèi)存占用和準確性三個方面對分割架構(gòu)的性能指標進行闡述。
(1)運行時間
運行時間或處理速度是一個非常有價值的度量標準,因為絕大多數(shù)方法架構(gòu)必須滿足處理數(shù)據(jù)過程中花費時間的嚴格要求。但是,該評價指標非常依賴于硬件和后端實現(xiàn),在某些情況下,為這些方法架構(gòu)提供精確的時間的比較是毫無意義的[20]。
大多數(shù)情況下,運行時間可以用于評估架構(gòu)對實際應(yīng)用是否有用,并在相同條件下進行公平比較,以檢查哪種方法最快。
(2)內(nèi)存占用
內(nèi)存占用是評估分割方法架構(gòu)的另一個重要指標。盡管在條件允許的情況下可以通過擴展內(nèi)存容量的方式使內(nèi)存占用不像運行時間那樣受限,但在某些特定情況下它也可能成為一個限制因素。實際應(yīng)用場景中,內(nèi)存配置是固定的,一般不會因為算法要求而動態(tài)調(diào)整,而且即使是普通的用于加速深度網(wǎng)絡(luò)的高端圖形處理單元(GPU)也不會搭載大容量內(nèi)存。因此,詳細記錄方法架構(gòu)在實驗中占用的最大及平均存儲空間是非常有用的。
(3)準確度
在語義分割領(lǐng)域中,有幾項經(jīng)典的用于評估方法架構(gòu)準確度的標準。評估語義分割結(jié)果時,一般來說選取像素準確度(Pixel Accuracy,PA)[20]、平均準確度(Mean Accuracy,MA)[20]、交并比(Intersection over Union,IoU)[20]以及平均交并比(mean Intersection over Union,mIoU)[20]等幾項評價指標進行綜合分析。為方便理解,對以下公式中的相關(guān)符號做如下說明:K 表示圖像像素的類別的數(shù)量;ti表示第i 類的像素的總數(shù);nii表示實際類型為i、預(yù)測類型為i 的像素總數(shù);nji表示實際類型為i、預(yù)測類型為j 的像素總數(shù)[63]。
像素準確度PA表示正確分割圖像的像素數(shù)量與像素總數(shù)之間的比率:
交并比IoU 表示分割結(jié)果與原始圖像真值的重合程度,在目標檢測中可以理解為系統(tǒng)預(yù)測的檢測框與原圖片中標記檢測框的重合程度,取值范圍在[0,1]區(qū)間:
平均交并比mIoU表示圖像像素的IoU在所有類別上的平均值:
其中,mIoU指標的代表性和簡單性非常突出,是目前圖像語義分割領(lǐng)域使用頻率最高和最常見的準確度評價指標,大多數(shù)研究人員都利用這個指標來評判他們的語義分割結(jié)果。
由于各個架構(gòu)在功能側(cè)重、改進技術(shù)和應(yīng)用場景等方面都不相同,無法利用運行時間和內(nèi)存占用指標進行統(tǒng)一衡量,但可以采用準確度評價指標橫向?qū)Ρ炔煌軜?gòu)的性能。下文以提升架構(gòu)的分割準確度為研究重點,利用mIoU 評價指標,對上述語義分割典型網(wǎng)絡(luò)架構(gòu)在相應(yīng)數(shù)據(jù)集上進行了測試實驗和性能對比。
表3 是對各主流語義分割典型架構(gòu)在PASCAL CONTEXT、MS COCO、Cityscapes 等數(shù)據(jù)集上的實驗結(jié)果數(shù)據(jù)。
表3 深度圖像語義分割網(wǎng)絡(luò)架構(gòu)的實驗結(jié)果
從表3 可以看到,在數(shù)據(jù)集方面,不同的語義分割架構(gòu)根據(jù)應(yīng)用場景和分割特點的不同,選用的數(shù)據(jù)集也不同。PASCAL VOC 2012 作為靜態(tài)圖像進行語義分割的測試數(shù)據(jù)集,相較于其他數(shù)據(jù)集,語義分割架構(gòu)在該數(shù)據(jù)集上的實驗結(jié)果表現(xiàn)最佳;當進行實時圖像語義理解或動態(tài)場景解析時,大多選用CityScapes作為測試數(shù)據(jù)集;多數(shù)分割架構(gòu)在MS COCO數(shù)據(jù)集上的表現(xiàn)并不理想,一方面因為該數(shù)據(jù)集中圖片的背景更復雜,每張圖片上的實例目標個數(shù)多,小目標更多;另一方面,MS COCO評估標準比其他數(shù)據(jù)集更加嚴格。
在語義分割架構(gòu)方面,PASCAL VOC 2012數(shù)據(jù)集上有相當一部分架構(gòu)的mIoU 指標都超過了80%,如DeepLab v3+、RefineNet 等,這些架構(gòu)對圖像中不同尺度的物體有較好的識別效果,實驗所得分割結(jié)果的邊界比較接近真實分割邊界,是最具代表性的圖像語義分割架構(gòu)。其中,DeepLab v2 由于性能穩(wěn)定和分割準確率較高等優(yōu)點,被廣泛用于分割靜態(tài)圖像;DeepLab v3+架構(gòu)因為集成了FCN、DeepLab v2等眾多網(wǎng)絡(luò)的優(yōu)點,其mIoU 指標目前排名最高;PSPNet 與RefineNet 通過多尺度、多路徑的技術(shù)對圖像進行高效特征提取和融合,有效捕捉圖像中豐富的上下文信息,分割效果良好,mIoU 指標得分也十分靠前。作為最新研究的架構(gòu),DANet 在Pascal Context 數(shù)據(jù)集上獲得的mIoU 指標得分超過50%,這是之前的架構(gòu)所達不到的;Auto-DeepLab作為語義分割架構(gòu)的搜索架構(gòu),在PASCAL VOC 2012和CityScapes 數(shù)據(jù)集的上實驗表現(xiàn)相當出色,mIoU 指標均達到了80%以上,效果甚至超越許多成熟架構(gòu),這也為語義分割架構(gòu)的研究提供了新的思路。
隨著計算機性能的提升和語義分割算法架構(gòu)的不斷優(yōu)化,基于深度學習的圖像語義分割技術(shù)在計算機視覺領(lǐng)域?qū)l(fā)揮越來越大的作用,同時也面臨著諸多挑戰(zhàn):
(1)輕量化的網(wǎng)絡(luò)架構(gòu)。隨著移動端、嵌入式設(shè)備對語義分割技術(shù)的需求不斷擴展,如何在簡化架構(gòu)、壓縮和復用計算需求上生成更加輕量化的網(wǎng)絡(luò)架構(gòu)同時又能保證準確率,將是今后深度圖像語義分割技術(shù)的重要發(fā)展方向。
(2)小數(shù)據(jù)集下的架構(gòu)設(shè)計。在實際工程應(yīng)用尤其是專有領(lǐng)域中,如醫(yī)療影像等,絕大多數(shù)情況下會面臨目標數(shù)據(jù)來源少、規(guī)模小的情況。在沒有大規(guī)模訓練數(shù)據(jù)集的前提下,設(shè)計合理的網(wǎng)絡(luò)架構(gòu)以適應(yīng)小規(guī)模數(shù)據(jù)集的現(xiàn)實情況尤為重要,這是技術(shù)與實際場景結(jié)合的重要環(huán)節(jié)。
(3)提升小目標圖像分割的效率。目前,針對小目標圖像語義分割的算法架構(gòu)還不能完全滿足實際場景應(yīng)用的要求,依舊存在漏檢測、分割邊界模糊等問題。如何對小目標圖像進行精確、高效分割是目前深度圖像語義分割領(lǐng)域的重要研究方向。
(4)實現(xiàn)超大尺寸圖像的分割[64]。隨著圖像采集技術(shù)的發(fā)展,圖像分辨率將大幅提升,今后4K圖像將成為主流。但目前的大部分深度圖像語義分割框架還不能滿足這一實際需要,在超大尺寸圖像的處理方法與處理效率方面還存在很大的挑戰(zhàn)。從技術(shù)的發(fā)展趨勢來看,針對超大尺寸圖像的分割也是深度圖像語義分割領(lǐng)域未來的發(fā)展方向。
圖像語義分割作為計算機視覺領(lǐng)域的重要技術(shù),面對未來應(yīng)用場景更加豐富、需求更加嚴苛的形勢,也將面臨更多的挑戰(zhàn)。因此,對基于深度學習的圖像語義分割技術(shù)的研究和探索任重道遠。