畢陽陽,鄭遠帆,史彩娟+,張 昆,劉 健
1.華北理工大學 人工智能學院,河北 唐山 063210
2.河北省工業(yè)智能感知重點實驗室,河北 唐山 063210
圖像內容按照是否有固定形狀可以分為兩個類別,即背景(stuff)和前景(things)[1]。背景是指沒有固定形狀的不可數語義類,例如天空、沙灘和地面等;而前景則是包括有固定形狀的可數實例類,例如汽車、建筑物和動物等。近年,隨著深度學習的迅猛發(fā)展,基于深度學習的圖像分割[2]技術,特別是語義分割(semantic segmentation)[3]、實例分割(instance segmentation)[4]和全景分割(panoptic segmentation)[5]得到了廣泛研究,成為當前計算機視覺領域的一個重要研究熱點。如圖1所示,圖像語義分割主要是對圖像中每一個像素點進行類別預測,實現圖像的像素級別分割。圖像實例分割是在目標檢測[6]的基礎上融合了語義分割,實現對實例對象進行像素級別的分割,它在對像素點進行分類的同時賦予每個像素點相對應的實例ID。一般來說,語義分割關注的是圖像背景的分割,而實例分割則關注的是圖像前景的分割。為了統一語義分割與實例分割的工作,2018 年FAIR(Facebook Artificial Intelligence Research)與德國海德堡大學聯合提出了一項新的分割任務——全景分割[5]。全景分割融合了語義分割與實例分割,其主要任務是對場景圖像中每一個像素點進行語義類別預測,并為屬于實例目標的像素賦予實例識別號,以實現更為全面的場景理解。此外,全景分割允許不同場景組件的良好可視化,并且可以作為一種全局技術呈現,包括檢測、定位以及各種場景部分的分類。
圖1 圖像分割Fig.1 Image segmentation
目前已有相關文獻對圖像語義分割和圖像實例分割進行了系統的介紹和總結,但對于圖像全景分割方法的系統介紹還很少。因此,本文將近幾年出現的不同的圖像全景分割方法進行綜述介紹,首先介紹圖像全景分割的研究現狀,然后對圖像全景分割的方法進行分類闡述,接著介紹了圖像全景分割中常用的數據集及評價準則,并對代表性的方法進行了性能比較,列舉了圖像全景分割的現實應用,最后進行了總結及未來趨勢的展望。
全景分割的雛形最早出現在2017年,Dvornik等人[7]提出了BlitzNet,是一種將目標檢測和語義分割任務聯合執(zhí)行的網絡模型。為了滿足場景理解任務同時關注場景語義信息和個體實例的需求,2018年,Kirillov 等人[5]提出了全景分割的概念,并在2019 年的CVPR 中設計出一個簡單有效的全景分割網絡Panoptic FPN[8]。Panoptic FPN 網絡在框架層面上將FPN[9]與Mask R-CNN[10]結合起來,通過融合FPN 的語義分割結果與Mask R-CNN 的實例分割結果來形成場景圖像的全景分割結果。這種利用語義分割和實例分割兩個子網絡獨立分割,再對分割結果進行融合的方法成了近幾年來全景分割研究的主流。目前,已有大量的全景分割網絡模型被提出,主要有弱監(jiān)督模型[11]、JSIS-Net[12]、TASCNet[13]、AUNet[14]、Panoptic FPN[8]、UPSNet[15]、DeeperLab[16]、OANet[17]、FPSNet[18]、SOGNet[19]、Panoptic-DeepLab[20]、BBFNet[21]、Axial-DeepLab[22]、BANet[23]、EfficientPS[24]、BGRNet[25]、LPSNet[26]、Panoptic FCN[27]、MaX-DeepLab[28]、SPINet[29]、CABB[30]、Ada-Segment[31]、CVRN[32]、PPS[33]、Panoptic SegFormer[34]、CMT-DeepLab[35]、PanopticDepth[36]、Panoptic-PartFormer[37]和kMaX-DeepLab[38]等。圖2給出了近年來圖像全景分割的代表性方法。
圖2 代表性的圖像全景分割算法Fig.2 Representative image panoptic segmentation algorithms
全景分割重點在于為每個像素分配一個語義標簽和實例ID,處理流程如圖3 所示,主要包括特征提取[39-41]、子任務分割、子任務融合三個步驟。對于輸入一幅圖像,首先進行特征提?。蝗缓髮⑻崛〉奶卣鞣謩e輸入語義分割與實例分割兩個子任務分支進行處理,分別產生語義分割與實例分割兩個子任務輸出;最后將語義分割與實例分割兩個子任務結果進行融合,產生最終的全景分割預測。
圖3 圖像全景分割流程示意圖Fig.3 Schematic diagram of image panoptic segmentation process
本章對基于深度學習的圖像全景分割方法進行了分類闡述。根據對全景分割三個步驟優(yōu)化情況的不同,現有的圖像全景分割可以分為基于特征提取優(yōu)化的圖像全景分割、基于子任務分割優(yōu)化的圖像全景分割、基于子任務融合優(yōu)化的圖像全景分割。另外,還有其他一些圖像全景分割方法。
表1 給出了基于不同優(yōu)化機制的圖像全景分割的典型方法,以及它們的優(yōu)勢與局限性。
表1 不同類型圖像全景分割方法分析比較Table 1 Analysis and comparison of different types of image panoptic segmentation methods
圖像全景分割的核心步驟之一為特征提取,為后續(xù)步驟提供有用的特征信息,從而提升全景分割的性能。因此,將對特征提取網絡進行有效優(yōu)化的全景分割方法稱為基于特征提取優(yōu)化的圖像全景分割。在全景分割特征提取優(yōu)化的分類中,可以分為自上而下和自下而上兩種方法。
2.1.1 自上而下的圖像全景分割方法
大多數最先進的圖像全景分割方法一般采用自上而下(top-down)或基于候選區(qū)域(box-based)策略。具體來說,通常遵循先檢測后分割的原則,部署Mask R-CNN來提取重疊的實例,然后通過一些處理方法解決掩碼重疊問題,最后用輕量級的背景分割分支填充剩余區(qū)域。
Kirillov 等人[8]通過賦予Mask R-CNN 一個使用特征金字塔網絡(feature pyramid network,FPN)[9]主干的語義分割分支,在架構層面將這兩種方法結合成一個單一網絡來同時完成實例分割和語義分割的任務,提出了Panoptic FPN模型。FPN作為全景分割的特征來源,能夠提供豐富的多尺度特征。
對語義分割來說,帶空洞卷積的全卷積神經網絡(fully convolutional networks,FCN)是最優(yōu)的;對實例分割來說,具有FPN結構的Mask R-CNN在競賽中被廣泛采用,這兩個方法在架構上存在差異,如果單純地進行組合,可能會在語義分割或者實例分割上犧牲準確性。Panoptic FPN模型克服了這個缺點,采用統一的FPN提取特征分別實現實例分割與語義分割,該模型成為全景分割的一個基線方法,是基于候選區(qū)域的代表性方法。但是,Panoptic FPN模型的輸出模塊仍采用啟發(fā)式方法,該方法依賴于實例分割分支的預測結果,會產生速度較慢、計算復雜等問題。
自上而下的方法需要為每個實例對象生成一個邊界框,對于實例檢測來說非常有效。但是,以這種方式預測實例掩碼會消耗大量的計算資源并且自上而下的方法高度依賴于邊界框的性能。
2.1.2 自下而上的圖像全景分割方法
自下而上(bottom-up)或無候選區(qū)域(box-free)的圖像全景分割方法,通常通過將“前景”像素分組到集群中在檢測實例之前獲得語義分割預測。
Yang 等人[16]通過使用一種簡單的全卷積網絡方法對整個圖像進行解析來生成像素語義和實例預測,提出了一種單次、自下而上的DeeperLab模型,用來同時處理語義分割和實例分割的任務。模型采用邊界框角以及對象中心進行與類無關的實例分割,再加上DeepLab[42]語義分割,在Mapillary Vistas 數據集上獲得了良好的全景分割結果。該模型是最具代表性的自下而上的全景分割方法,但該模型存在著處理高度可變形的物體比較困難的問題,在此基礎上進行優(yōu)化,其他自下而上的全景分割方法不斷被提出[20,22,28,35,38]。
自下而上的方法通常從語義分割預測開始,然后通過分組和聚類等操作生成實例掩碼。這種方法生成的輸出預測簡單而快速,消除了生成邊界框的步驟,獲得較好的實時性。但是,相對于自上而下的方法,全景質量卻有所下降。
圖像全景分割的核心步驟之二為子任務分割。骨干網絡提取的特征需要被語義分割和實例分割任務共享,進行后續(xù)子任務分割處理。為了提升全景分割的性能,對子任務分割模塊進行有效優(yōu)化,該類方法稱為基于子任務分割優(yōu)化的圖像全景分割。根據語義分割與實例分割兩個子任務在優(yōu)化過程中的串并關系不同,基于子任務分割優(yōu)化的圖像全景分割可以分為兩種方式:語義分割與實例分割并行運行的子網絡分割方法和語義分割與實例分割串行運行的子網絡分割方法。下面對兩種分割方法進行詳細介紹。
2.2.1 子網絡并行分割方法
語義分割子任務與實例分割子任務分別從特征提取網絡中獲取特征,然后兩個子任務并行分割,之間不存在先后關系,一個子任務的輸出不作為另一個子任務的輸入。
為了獲取兩個子任務之間的互補信息,Li等人[14]在PanopticFPN的基礎上對語義分支和實例分支之間進行優(yōu)化,提出了一種注意力[43]引導的統一網絡AUNet。在背景分支中添加了兩個注意源,即區(qū)域候選網絡(region proposal network,RPN)[44]和前景分割掩碼,分別提供對象級別和像素級別的注意。模型中還設計了建議注意模塊(proposal attention module,PAM)和掩碼注意模塊(mask attention module,MAM)兩個注意力機制,試圖互補前景的信息和背景的信息,這種方法被推廣到不同的主干上,在前景和背景分割中具有一致的準確度增益,并且在MS-COCO和Cityscapes數據集上獲得了良好的分割結果。
為了使語義分割子任務的輸出與實例分割子任務的輸出保持一致,Li 等人[13]在PanopticFPN 的基礎上提出了一種端到端的全景分割模型TASCNet,背景頭使用完全卷積層來密集預測所有的背景類別和一個額外的前景掩碼,前景頭使用基于區(qū)域的卷積神經網絡(convolutional neural networks,CNN)層進行實例檢測與分割,在這兩個預測頭之間,加入了TASC(things and stuff consistency)模塊,用于在訓練過程中保持語義分割和實例分割這兩個子任務的輸出分布之間對齊,以確保預測之間的一致性。但是模型當中采用大量上采樣操作破壞目標邊緣的特性,出現分割失效。
在全景分割中,希望可數和不可數實例能夠被統一表示,但是統一表示面臨前景和背景的屬性沖突,并且前景和背景中也有不同的類別。一個好的網絡應該是對不同的類別有良好的區(qū)分性,使其類間差異較大,類內差異較小。因此,Li 等人[27]提出了一個完全卷積的統一表示框架,稱為Panoptic FCN。Panoptic FCN 使用統一的完整卷積通道來預測前景和背景。該模型由核生成器、核融合器和特征編碼器三部分組成。內核生成器將每個對象實例或背景類別編碼為特定的內核權重。核融合器對不同階段生成的核權值進行融合,保證了前景的實例感知和背景的語義一致性。通過將融合的核權值與編碼后的特征值進行卷積,網絡直接輸出全景圖像分割結果。Panoptic FCN采用簡單、高效、實用的框架,實現了高效率。但模型本身存在前景實例對象的分割準確率與圖像中遠距離小目標的分割效果不是很理想的問題。
子網絡并行分割方法在兩個子任務之間通過添加注意力、對齊模塊和核權重等方式,提高了圖像全景分割的精度。但模型需要對兩個子任務的結果進行融合,融合過程就會產生語義分支與實例分支之間的沖突以及實例分支內部的沖突。
2.2.2 子網絡串行分割方法
兩個子任務之間存在先后關系,一個子任務的輸出作為另一個子任務的輸入。
Li等人[11]提出了一個弱監(jiān)督[45]全景分割模型,該模型首先采用語義分割子網絡獲得語義分割結果,同時設計了一個目標檢測器獲取圖像中的目標信息,然后將二者輸入到實例分割子網絡,完成最終的全景分割。該模型在圖像中實例數量難以預測,不適用于具有多個背景類的圖像。
Cheng 等人[20]在DeepLab 的基礎上,通過采用特定于語義和實例分割的雙空洞空間卷積池化金字塔(atrous spatial pyramid pooling,ASPP)[42]和雙解碼器結構,提出一種基于自下而上的全景分割模型Panoptic-DeepLab。模型先進行語義分割,再根據分割的結果去獲取實例。模型預測語義分割、實例中心預測和實例中心回歸三個輸出。通過將預測的前景像素分組到最接近的預測實例中心獲得與類別無關的實例分割,然后通過多數投票規(guī)則與語義分割相融合,以生成最終的全景分割。
Wang等人[22]在Panoptic-DeepLab 的基礎上提出了一種新的子網絡串行分割方法,即軸向注意力模型Axial-DeepLab。該模型引入位置敏感的自注意力機制,將二維注意力依次分解為沿高度軸和寬度軸方向的兩個一維注意力,不僅可以進行高效的計算,而且可以恢復模型中較大的感受野。但是該模型也存在處理可變形或者中心點重合的物體比較困難的問題。為了克服由于全景分割模型依賴于候選區(qū)域,導致預測的實例掩碼往往是低分辨率的問題,Sun 等人擴展了Panoptic-Deeplab 的體系架構提出了全景優(yōu)化網絡PRN(panoptic refinement network)[46],通過引入包括前景掩碼、坐標卷積和預測每個像素上的包圍盒偏移的新元素來實現的。從基本的全景分割模型中提取掩碼,并對其進行聯合優(yōu)化來產生一致的結果。
子網絡串行分割方法中兩個子任務減少了融合的過程,避免融合沖突的產生,但后一個子任務總是依賴于前一個子任務的結果,導致分割性能整體偏低。
全景分割的核心步驟之三為子任務融合。子任務融合是將語義分割和實例分割兩個子任務分割產生的具有差異的分割結果進行有效融合,生成最終的全景分割圖。一些方法采用不同的融合策略,設計不同的子任務融合方法來提升全景分割的性能,該類方法稱為基于子任務融合優(yōu)化的圖像全景分割?,F有方法中子任務融合一般采用啟發(fā)式融合方法或全景頭融合方法。
2.3.1 啟發(fā)式融合方法
啟發(fā)式算法是基于最優(yōu)化方法提出的,指在有限的時間和空間內,找到解決問題的一個可行方案。實際上就是在有限時間里給出相對不錯的答案。常用的算法有遺傳算法、模擬退火算法和粒子群算法[47-48]等。啟發(fā)式融合方法最早由何愷明于Panoptic Segmentation[5]中基于啟發(fā)式算法提出,該方法依賴于實例分割分支的預測結果,即先將實例分支預測的前景對象分類掩碼覆蓋到原始圖像作為基礎,之后將語義分割分支背景類的預測結果覆蓋到相應位置,最終形成全景分割預測。
De Geus等人[12]通過使用啟發(fā)式融合方法結合了來自聯合訓練的語義和實例分割網絡的預測,提出了一種單一網絡模型JSIS-Net(joint semantic and instance segmentation network)進行全景分割。該模型使用ResNet50[40]網絡結構進行特征提取,通過采用金字塔池化模塊(pyramid pooling module,PPM)[49]完成語義分割,采用Mask R-CNN 完成實例分割,最后通過啟發(fā)式融合方法來合并語義分割和實例分割的結果,得到全景分割。然而,在融合過程中,如果沒有足夠的上下文信息,對象實例之間的重疊關系很難被確定。為了解決這個問題,Liu 等人[17]在子任務融合方法中引入了一種新的空間排名模塊來處理預測實例之間的遮擋,提出了一種新型用于全景分割的端到端遮擋感知網絡OANet(occlusion aware network)。該模型使用FPN網絡為背景分支和實例分支提供特征圖,兩個分支生成中間結果,傳遞給空間排名模塊,空間排名模塊學習每個實例的排名分數作為最終的合并證據。
啟發(fā)式融合方法簡單易行且占用的計算資源不是很高。但隨著研究的深入,啟發(fā)式融合方法的缺陷也逐漸暴露出來,首先是對圖像中的小目標不太敏感,其次是前景與背景對象交界處像素類別分配出現沖突,影響全景分割預測輸出。
2.3.2 全景頭融合方法
全景頭(panoptic head)融合方法是指將語義分割的結果和實例分割的結果進行融合。其中語義分割輸出的Stuff 類作為全景分割的輸出,實例分割輸出的Thing 類作為索引選擇,經濾除堆疊處理后,作為全景分割Thing類的最終輸出。
Xiong等人[15]在子任務融合階段設計了獨特的無參數全景頭模塊對獲得的背景和前景對象信息進行融合,提出了一個統一的全景分割網絡UPSNet。該模型將語義分支的預測結果分為前景與背景兩類,背景類對象的掩碼作為最終的全景預測背景輸出,前景類對象結合實例分支輸出,從通道維度利用softmax 函數計算像素的落點通道從而確定其歸屬區(qū)域,若在背景對象通道內則該像素屬于背景對象,否則屬于前景對象,最后結合背景類掩碼形成全景分割輸出。此外,無參數全景頭非常輕巧,可以與各種主干網絡一起使用,促進了端到端的訓練。
De Geus 等人[18]通過引入全景頭模塊(panoptic head)提出了一個用于快速全景分割的端到端網絡FPSNet(fast panoptic segmentation network),該模型能夠實現實時的分割任務,不需要計算成本極高的實例掩碼預測或啟發(fā)式融合方法,而是通過將全景分割任務轉換為自定義的像素級密集分類任務來實現,該任務將類別標簽或實例ID 分配給每個像素。這是一種端到端的網絡架構,能夠學習解決類與實例之間的沖突。
全景頭融合方法是當前采用較多的沖突處理策略,通過對通道維度的像素進行計算確定類別來生成最后的融合結果,雖然分割效果較好但花費時間,影響網絡推理速度。
除了針對上述三個核心步驟的全景分割方法以外,還有其他一些方法,如多任務優(yōu)化的全景分割方法和基于Transformer的全景分割方法等。
2.4.1 多任務優(yōu)化方法
圖像全景分割的核心步驟有三個,在設計過程中可以對其中兩個步驟或者三個步驟同時進行優(yōu)化,該類方法稱為多任務優(yōu)化方法。該方法可以克服計算開銷大,且每個網絡的預測存在差異不易結合的缺點,從而進一步提升計算效率和精度。
Mohan等人[24]通過同時對特征提取網絡和子任務融合模塊進行有效優(yōu)化,提出了一種高效的全景分割網絡模型EfficientPS(efficient panoptic segmentation)。設計了一個雙路特征金字塔網絡(2-way feature pyramid network),實現信息的雙路流動,在運行時間上保持變化不大的同時,大幅提高了前景類的全景分割質量;同時設計了一種全新的全景融合模塊,可根據語義頭和實例頭的掩碼的置信度自適應地動態(tài)調整融合,以產生更好的全景分割輸出。
Hong等人[26]提出了一種輕量級的全景分割網絡LPSNet(lightweight panoptic segmentation network),該模型同時優(yōu)化了特征提取和子任務融合部分。通過添加金字塔池化模塊來增加FPN 的經驗感受野,并使用二步卷積將典型FPN 的金字塔擴展兩個級別,增強了特征提取。同時,模型中設計了一個無參數的頭,更好地融合語義分割與實例分割子任務,提升全景分割性能。
為了減少計算開銷,Hu 等人[50]提出了一個實時全景分割框架YOSO(you only segment once),設計了一個高效的特征金字塔聚合器和一個輕量級的可分離動態(tài)解碼器,分別用于特征提取和子任務融合部分。特征金字塔聚合器以卷積優(yōu)先的方式重新參數化插值優(yōu)先模塊,解碼器通過可分離的動態(tài)卷積執(zhí)行多頭交叉注意,提高了解碼器的速度和精度。
為了解決在邊界附近的不規(guī)則掩膜預測問題,Chang等人[51]提出了基于輪廓的增強特征的全景分割網絡SE-PSNet(Silhouette-based enhancement feature for panoptic segmentation network)。該模型能夠預測實例邊界上的高質量掩碼,有助于區(qū)分不同的實例,并且使用新提出的置信度來解決遮擋問題,使網絡采用更高質量的掩膜作為預測結果。
2.4.2 基于Transformer的方法
為了獲得更豐富的全局信息,自注意力機制得到了廣泛研究,并被應用于圖像全景分割。Wang 等人[22]引入位置敏感的自注意力機制,將二維注意力依次分解為沿高度軸和寬度軸方向的兩個一維注意力,通過增大感受野來獲取更多的全局信息,很好地提升了圖像全景分割的性能。作為Transformer[52]網絡的基本結構,自注意力機制使得Transformer 能夠獲取比卷積神經網絡更多的全局信息,使其不僅能夠提升自然語言處理(natural language processing,NLP)[53]的性能,也被越來越多地應用于圖像全景分割[28,34-35,38],以及圖像分類[54]、目標檢測[55]、圖像分割[56]等計算機視覺(computer vision,CV)領域[57-59]。
為了解決Axial-DeepLab不能很好地處理高度變形物體的問題,受Transformer 和DETR(detection transformer)的啟發(fā),Wang 等人[28]提出了一種使用掩碼Transformer預測類別標記的掩碼,并通過二分匹配以全景質量啟發(fā)損失進行訓練的模型Max-DeepLab。掩碼Transformer 采用像素路徑(由視覺Transformer組成)提取像素特征,內存路徑(由Transformer解碼器模塊組成)提取內存特征,以及雙路徑Transformer用于像素特征和內存之間的交互特征。MaX-DeepLab是第一個將Transformer 用于全景分割的端到端模型,但原本為自然語言任務設計的交叉注意力模塊應用于圖像領域具有局限性。在MaX-DeepLab 的基礎上,Yu 等人[35]提出CMT-DeepLab(clustering mask transformers for panoptic segmentation),采用像素聚類方法來執(zhí)行交叉注意力機制,從而產生更密集和合理的注意力機制圖。隨后Yu等人[38]又提出kMaXDeepLab,進一步重新設計了交叉注意力機制,使其更像K-means聚類算法[60],對激活函數進行簡單的更改。
為了統一前景和背景的掩碼預測流程,在DETR的基礎上,Li等人[34]提出了一個基于Transformer的端到端全景分割的通用框架Panoptic SegFormer??蚣苡扇齻€關鍵模塊組成:Transformer編碼器、位置解碼器和Mask解碼器。其中利用Transformer編碼器對主干提取的多尺度特征圖進行細化;利用位置解碼器捕捉物體的位置線索;Mask解碼器用于最終的分類和分割。
2023年,一種由OpenAI開發(fā)的自然語言處理技術ChatGPT[61-62]被提出,該方法是基于大量數據的有監(jiān)督學習算法,可以根據輸入的信息預測下一個合適的文本。ChatGPT 算法中的Transformer 模型是一種新型的序列建模技術,采用編碼器-解碼器結構以及注意力機制,可以一次性處理整個語言模型。隨后ChatGPT被引入到CV領域,Wang等人[63]提出了一個通用的分割模型SegGPT,該模型將各種分割任務統一到一個通用的上下文學習框架中,該框架通過將不同類型的分割數據轉換為相同的圖像格式來適應不同類型的分割數據。雖然在圖像全景分割的性能上不太良好,但開辟了一種新的分割方式。
視覺Transformer網絡作為一種新的視覺特征學習網絡,其遠距離建模能力和動態(tài)的響應特質使之具備了更為強大的特征學習能力,從而提升了全景分割的精度。但是,由于Transformer 嚴重依賴數據和算力資源,導致基于Transformer 的圖像全景分割方法不具有很好的實時性。
在圖像全景分割領域,為了驗證算法的有效性,常常將算法在MS COCO數據集[64]、PASCAL VOC數據集[65]、Cityscapes 數據集[66]、ADE20K 數據集[67]和Mapillary Vistas 數據集[68]上進行驗證。每個數據集的主要信息見表2所示。
表2 圖像全景分割數據集Table 2 Image panoptic segmentation datasets
MS COCO 數據集[64]:微軟團隊提供的大型數據集。目前被廣泛應用于圖像分類、目標檢測、圖像分割等視覺任務。本數據集包含了91種物體類型的圖像,數據集有32.8萬張圖片,包含有250萬個標注實例。
PASCAL VOC 數據集[65]:廣泛應用于圖像分類、目標檢測、圖像分割等任務。數據集最初有4類,最后穩(wěn)定在21 類,對于分割任務,這些類別有汽車、房屋、動物、飛機、自行車、船、公共汽車、小汽車、摩托車、火車等,測試圖像從早期的1 578 幅最后穩(wěn)定在11 540幅。
Cityscapes 數據集[66]:數據集是在50 個不同城市不同季節(jié)收集的城市街道場景,被稱為城市景觀數據集。數據集有5 000 張圖片(2 975 張訓練集,500張驗證集,1 525 張測試集)是高質量像素級的標記,20 000 張圖片是進行粗糙標記以適應方法對于較弱標記的數據。它有19 個類的密集像素注釋(97%覆蓋率),其中8類具有實例級掩碼。
ADE20K數據集[67]:是麻省理工大學提供的一個數據集,主要應用于場景感知、圖像分割、多物體識別等多種任務。擁有超過25 000張圖像(20 000張訓練集,2 000 張驗證集,3 000 張測試集),這些圖像用開放字典標簽集密集注釋。包含150種物體類別,分別是100種前景和50種背景。
Mapillary Vistas 數據集[68]:一個新建立的、全球最大的和最多樣化的街景圖像數據集,以幫助全球范圍內的無人駕駛和自主運輸技術,包括25 000 張高分辨率的彩色圖像(18 000張訓練集,2 000張驗證集,5 000 張測試集),分成66 個類,其中有37 個類別是特定的附加于實例的標簽。包含28 個背景和37個前景類。圖像場景對無人駕駛、場景理解等技術的發(fā)展有著重要意義。
為了驗證算法的有效性,圖像全景分割結果一般采用全景質量(panoptic quality,PQ)和解析覆蓋(parsing covering,PC)兩個度量標準。
PQ[5]:為了衡量不同全景分割模型的性能,提出了評價指標全景質量。對于每個類別,唯一匹配將預測結果和真實標注分割分為三組:真陽性(true positives,TP)、假陽性(false positives,FP)和假陰性(false negatives,FN),分別代表匹配的分割段、不匹配的預測分段和不匹配的真實注釋。
更進一步地,PQ還可以拆分為分割質量(segmentation quality,SQ)和識別質量(recognition quality,RQ)的乘積。SQ 表示所有匹配的平均IoU,RQ 表示在檢測設置中廣泛用于質量評估的熟悉的F1 分數。為區(qū)分對前景和背景的分割能力的不同,提出PQTh和PQSt評價指標,其中PQTh表示系統分割Thing類物體的能力,PQSt表示系統分割Stuff類物體的能力。
PC[16]:在某些應用場景中,人們更加關注大物體的分割結果,例如肖像分割中大圖的人像分割或自動駕駛中近距離的物體等。通過擴展現有的覆蓋指標來評估圖像解析結果的質量,該指標考慮了實例大小。
其中,Si、Si?分別表示對應類別的預測部分與真實部分,|R|表示對應類別的實例在真實標注中像素點數量,Ni表示類別為i的真實標注像素點總和。通過對大的實例物體賦予更大的權重,使評價指標能夠更明顯地反映大物體的分割指標。
本章對上述模型分類中的典型圖像全景分割方法在多個數據集上進行了性能比較,分別采用PQ(全景質量)、PQTh(前景全景質量)和PQSt(背景全景質量)作為評價指標,比較結果見表3~表5。表中列出了每個模型的backbone,其中數據均為各個模型在其文獻中給出的數據。
表4 主流模型在不同數據集上的性能比較(PQTh)Table 4 Performance comparison of mainstream models on different datasets(PQTh) 單位:%
表5 主流模型在不同數據集上的性能比較(PQSt)Table 5 Performance comparison of mainstream models on different datasets(PQSt) 單位:%
從表3~表5 可以看出:(1)同一模型對于有固定形狀的前景圖像的分割性能要高于沒有固定形狀的背景圖像的分割性能。(2)Transformer的出現極大地促進了圖像全景分割模型性能的提升。(3)針對不同的數據集,各個模型在優(yōu)化任務不同的分類中,都有明顯的性能提升,其中多任務優(yōu)化的方法性能提升得最多。
圖像全景分割作為計算機視覺領域的新興任務,很好地融合了語義分割與實例分割的特點,因此,在醫(yī)學圖像、自動駕駛、無人機遙感等領域獲得了廣泛的應用。
醫(yī)學圖像:圖像全景分割在醫(yī)學領域得到了深入研究,并應用于病理圖像分析[69]、前列腺癌檢測[70]、全景X 射線圖像中的牙齒分割[71]和腎臟組織形態(tài)測定[72]等。醫(yī)學影像中對癌細胞的無定形區(qū)域進行全景分割可以幫助醫(yī)生檢測和診斷疾病以及腫瘤的定位。Zhang 等人[69]在2018 年醫(yī)學圖像計算和計算機輔助干預國際會議中提出了一種端到端的細胞R-CNN(Cell R-CNN)[73]框架來完成細胞的全景分割。與現有的細胞分割方法不同,所提出的網絡將檢測、定位對象和像素級類別信息分配給具有大重疊區(qū)域的區(qū)域統一起來,從而幫助醫(yī)生更好地診斷腫瘤細胞。
汽車自動駕駛:汽車自動駕駛是圖像全景分割的一個重要應用場景。圖像全景分割能夠幫助自動駕駛系統更好地完成細粒度場景理解和場景感知,但是如何滿足自動駕駛的實時性需求,成為基于全景分割的自動駕駛面臨的巨大挑戰(zhàn)。Petrovai等人[74]在2020 年IEEE 智能汽車研討會中提出用于自動駕駛原型掩碼的實時全景分割,一種用于全景分割的快速全卷積神經網絡,它可以在2D空間中提供環(huán)境的準確語義和實例級表示。將全景分割作為密集分類問題來處理,并為背景類以及前景類的每個實例生成掩碼。該解決方案在82 ms 內實時運行高分辨率圖像,使其適用于自動駕駛。
無人機遙感:圖像全景分割是無人機遙感平臺必不可少的方法,可以實現路況監(jiān)測和城市規(guī)劃。Chen等人[75]在2020年第十二屆圖形和圖像處理國際會議中提出一種針對無人機應用場景的全景分割算法框架,使用可變形卷積網絡掩碼評分對無人機圖像進行全景分割。由于無人機目標場景大、目標小,導致分割結果中缺少前景目標,分割掩碼質量較差。為了解決這些問題,該框架在特征提取網絡中引入了可變形卷積[76],以提高網絡特征提取的能力。此外,在實例分割分支中引入了MaskIoU模塊,以提高前景目標掩碼的整體質量。
其他應用:圖像全景分割還可應用于其他領域,如農業(yè)[77]、畜牧業(yè)[78]和軍事[79]等領域。全景分割可以用于豬、牛的行為研究,在不影響動物正常行為的情況下對其養(yǎng)殖狀態(tài)進行評估。動物檢測中通常采用的物體和關鍵點檢測器不能獲得動物的輪廓,導致大量信息丟失。全景分割采用不同的網絡頭和處理方法,能夠有效地分割個體豬,從而克服信息丟失問題。全景分割還可以用于戰(zhàn)場上軍事目標檢測及場景理解,由兩個獨立的子任務網絡組成:一個是基于YOLACT(you only look at coefficients)[80]的高效實時全景分割網絡,用于發(fā)現隱藏的軍事目標以及從士兵的角度理解場景;另一個是由全景分割網絡引導的圖像補全網絡,用于重建目標的遮擋部分。
圖像全景分割綜合了語義分割與實例分割兩個任務,實現了全面的場景解析,在醫(yī)學成像、自動駕駛、無人機遙感等領域有著廣泛的應用前景。因此,近年圖像全景分割得到了廣泛研究。本文闡述了圖像全景分割算法發(fā)展歷程,并對圖像全景分割主流算法進行分類總結,同時也簡單介紹了常用數據集和評價準則,并對代表性的方法進行了性能比較。此外,還列舉了圖像全景分割在現實中的一些典型應用。
盡管圖像全景分割研究及應用取得了極大進展,但是仍存在著諸多問題與挑戰(zhàn)。主要包括:
(1)沖突。全景分割與語義分割和實例分割不同,全景分割既需要考慮到前景,又需要考慮到背景。在全景分割任務當中,利用語義分割和實例分割兩個子網絡獨立分割,再對分割結果進行融合的方法,就會存在語義分支與實例分支之間的沖突以及實例分支內部的沖突。雖然現有的模型當中提出了額外的后處理和融合操作來緩解這兩個分支之間的沖突,但這會引起效率低、內存消耗大和執(zhí)行復雜等問題。
(2)實時性。目前全景分割的研究大多集中在提高模型精度上,整個網絡模型的推理速度非常慢,不適合實時應用。近期有一小部分研究朝著更快的全景分割算法方向發(fā)展,但在準確性方面付出了巨大的代價。因此,在保證分割精度的同時兼顧實時性,滿足實際應用需要,是圖像全景分割面臨的巨大挑戰(zhàn)。
(3)復雜場景應用。目前圖像全景分割模型驗證均是在良好條件下采集的數據集中完成,還沒有充分考慮夜間、事故場景等復雜場景下的全景分割數據集,極大限制了復雜場景下圖像全景分割模型的研究和驗證。另外,現有的圖像全景分割模型適合良好條件下的圖像全景分割,當其面對夜間、事故場景等復雜場景等不利條件時,分割性能將會大幅下降。
針對以上存在的問題和挑戰(zhàn),對圖像全景分割的未來研究方向做出如下展望。主要包括:
(1)基于簡單統一框架的圖像全景分割研究。設計簡單統一的全景分割網絡,統一語義分支與實例分支,將前景和背景進行統一預測,省去復雜后處理和信息融合的操作。消除語義分支與實例分支之間的沖突,以及實例分支內部的沖突,從而解決圖像全景分割模型效率低、內存消耗大和執(zhí)行復雜等問題。
(2)實時的高質量圖像全景分割研究。采用輕量化的骨干結構,設計結構簡潔、參數少、計算復雜度低的輕量化網絡模型作為全景分割的基礎框架,進一步提升全景分割效率。在不影響分割質量的前提下,簡化設計,進一步提高分割效率和速度。因此,在實時約束條件下實現高質量的全景分割是未來的一個熱點研究方向。
(3)復雜應用場景下圖像全景分割的研究。構建復雜場景下圖像全景分割數據集,從而更好地驗證所提模型的有效性??梢圆捎肎AN(generative adversarial network)網絡等對圖像數據進行轉換,將訓練集中含有分割標簽的部分白天圖像轉換為夜間圖像,從而緩解模型從白天到夜晚準確率急劇下降的問題。