亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的實例分割研究進(jìn)展

        2021-05-14 06:28:10李曉筱胡曉光王梓強杜卓群
        計算機工程與應(yīng)用 2021年9期
        關(guān)鍵詞:掩碼分支實例

        李曉筱,胡曉光,王梓強,杜卓群

        1.中國人民公安大學(xué) 信息網(wǎng)絡(luò)安全學(xué)院,北京100038

        2.中國人民公安大學(xué) 偵查學(xué)院,北京100038

        深度學(xué)習(xí)誕生前,實現(xiàn)圖像中目標(biāo)檢測任務(wù)主要依賴于人工設(shè)計局部特征描述子,概括性強、抽象表達(dá)概括全局信息從而區(qū)分圖像的不同區(qū)域,經(jīng)典算法有HOG[1](Histogram of Oriented Gradient)、SIFT[2](Scale-Invariant Feature Transform)及LBP[3](Local Binary Patterns)等,但局部特征描述符的設(shè)計需要極強的領(lǐng)域?qū)I(yè)知識且耗費人力。在深度學(xué)習(xí)的發(fā)展之下,借用深層次卷積神經(jīng)網(wǎng)絡(luò)可以從圖像中學(xué)習(xí)具有不同層次的特征表示方法,如何設(shè)計具有更好局部特征描述子的問題轉(zhuǎn)化為如何設(shè)計輕量網(wǎng)絡(luò)結(jié)構(gòu)和簡化訓(xùn)練過程,以實現(xiàn)精細(xì)任務(wù)。在計算機視覺的飛速發(fā)展之下,細(xì)化分類的計算機視覺技術(shù)可以分為分類、目標(biāo)檢測、語義分割、實例分割多個類別[4]。分類指的是預(yù)測目標(biāo)圖像中對象類別,目標(biāo)檢測在由粗至細(xì)的過程中不僅確定圖像中目標(biāo)的類別,同時以邊界框或者圖中心的形式標(biāo)明目標(biāo)所在圖像中具體位置。語義分割在此基礎(chǔ)上對目標(biāo)每個像素點標(biāo)簽預(yù)測,使每個像素按照其所在區(qū)域或?qū)ο蠓诸悩?biāo)記,得到更精細(xì)分割結(jié)果。實例分割的概念最早由Hariharan等人[5]提出,旨在對同類對象組不同個體提供不同標(biāo)簽,整個過程中相同含義像素被賦予相同標(biāo)簽,在實現(xiàn)目標(biāo)檢測任務(wù)時解決語義分割問題。

        隨著深度學(xué)習(xí)[6]及卷積神經(jīng)網(wǎng)絡(luò)[7]的出現(xiàn),許多實例分割框架被提出。實例分割廣泛應(yīng)用于無人駕駛、醫(yī)學(xué)影像分析、安全防控、工業(yè)分揀等領(lǐng)域,可靠、迅速提取圖像關(guān)鍵信息,準(zhǔn)確、精細(xì)分割的結(jié)果為后續(xù)視覺處理提供便利。分割精度體現(xiàn)在精確定位及識別框架,在內(nèi)外條件變化的實際場景中保持較高魯棒性;保持較高精度的同時降低算法計算量是實例分割的開發(fā)思想。目標(biāo)分割根據(jù)階段分類可分為基于候選區(qū)域的雙階段檢測及基于一體化卷積網(wǎng)絡(luò)的單階段檢測器,前者的準(zhǔn)確率高、檢測精度高,但后者檢測運行速度快。受單雙階段目標(biāo)檢測啟發(fā),實例分割也存在單階段實例分割及雙階段實例分割。兩類實例分割方法適用于不同的場景,近期實例分割取得很大進(jìn)展,基于Faster R-CNN發(fā)展而來的Mask R-CNN實例分割網(wǎng)絡(luò)使用掩碼分割、包圍框回歸、對象分類三支線并行,是一種直接有效的實例分割方法,以其網(wǎng)絡(luò)的高精度和穩(wěn)定性成為雙階段實例分割網(wǎng)絡(luò)的標(biāo)桿;單階段實例分割網(wǎng)絡(luò)YOLACT 的出現(xiàn)標(biāo)志實時性實例分割的開端,以較小的精度損失獲取高效的處理能力。但目前而言實例分割方法缺乏相關(guān)綜述性文章。本文將以近兩年計算機視覺會議為主,闡述主流實例分割網(wǎng)絡(luò)結(jié)構(gòu)及應(yīng)用,并介紹常用評價指標(biāo)及數(shù)據(jù)庫,對未來可能發(fā)展進(jìn)行展望。

        圖1 FCIS網(wǎng)絡(luò)結(jié)構(gòu)

        1 雙階段實例分割網(wǎng)絡(luò)

        1.1 FCIS

        傳統(tǒng)語義分割網(wǎng)絡(luò)使用采用交叉熵并結(jié)合標(biāo)簽進(jìn)行端到端訓(xùn)練,無法實現(xiàn)同一像素在不同區(qū)域具有不同語義的實例分割任務(wù)。FCIS[8]提出一種端到端完全卷積的實例分割方法,它沿用了實例感知全卷積網(wǎng)絡(luò)[9](Instance-sensitive fully convolutional networks)中位置感知特征圖(Position-sensitive Score Map)概念,在輸入圖片中卷積生成k×k組位置感知特征圖;特征感知特征圖表示像素在不同感興趣區(qū)域(Regions of Interest,RoI)的位置特征表示,綜合像素在每個感興趣區(qū)域的得分衡量像素屬于對象實例的可能性。

        為了增加分割、檢測子任務(wù)的聯(lián)系性,F(xiàn)CIS在位置感知特征圖基礎(chǔ)上提出內(nèi)部分?jǐn)?shù)和外部分?jǐn)?shù)。在分割任務(wù)中,直接使用Softmax 判別函數(shù)對像素分類,感興趣區(qū)域?qū)γ總€像素分?jǐn)?shù)集合;在檢測任務(wù)中,先對每類位置特征感知特征圖逐像素使用Max 函數(shù)分類,匯集所有像素可能性后使用Softmax 判別函數(shù)獲得整個區(qū)域預(yù)測分?jǐn)?shù)。兩類位置特征感知圖的提出將分割和檢測的子任務(wù)緊密結(jié)合,使用較簡潔、直觀的網(wǎng)絡(luò)結(jié)構(gòu)實現(xiàn)任務(wù)。

        對于整個FCIS框架(如圖1),圖像輸入只保留卷積層的ResNet 進(jìn)行卷積操作獲得初步特征,特征經(jīng)過區(qū)域建議網(wǎng)絡(luò)得到感興趣區(qū)域同時經(jīng)過卷積層生成特征圖。結(jié)合位置特征感受的過程實現(xiàn)分割和檢測的子任務(wù)。FCIS 建立了一個完全拋棄全連接層的輕量級網(wǎng)絡(luò),設(shè)計的位置特征感知圖架構(gòu)使圖像分割和圖像分類可以共享特征圖,整個網(wǎng)絡(luò)計算量小、更加輕量。

        FCIS 作為實例分割早期模型,提供了一種實例分割任務(wù)的解決方案,但就結(jié)果來看,在重疊的實例上FCIS 出現(xiàn)系統(tǒng)性的檢測錯誤,并產(chǎn)生了虛假邊緣[10],如圖2所示。

        圖2 實例重疊時FCIS檢測產(chǎn)生虛假邊緣

        1.2 Mask R-CNN

        Mask R-CNN[10]是目標(biāo)檢測網(wǎng)絡(luò)Fast R-CNN[11]、Faster R-CNN[12]發(fā)展而來的實例分割網(wǎng)絡(luò),通過在邊界框識別分支的基礎(chǔ)上增加預(yù)測目標(biāo)掩碼的分支,有效檢測目標(biāo)對象的同時,對每個實例生成高質(zhì)量的分割掩模。

        傳統(tǒng)特征提取操作中,系列卷積獲得的特征圖經(jīng)過上采樣尺寸過大,無法實現(xiàn)對小目標(biāo)的檢測。主干網(wǎng)絡(luò)部分,Mask R-CNN 采用特征金字塔網(wǎng)絡(luò)[13](Feature Pyramid Networks,F(xiàn)PN)和ResNet101 網(wǎng)絡(luò)結(jié)合,在原始特征金字塔網(wǎng)絡(luò)自上而下特征中加入3×3 卷積進(jìn)一步提取特征。抽象但語義更強的特征圖上采樣并橫向連接至分辨率更高的底層特征圖,保證空間尺寸相同的情況下,融合后特征圖更好的定位,主干網(wǎng)絡(luò)的選擇實現(xiàn)信息豐富、特征加強。

        Mask R-CNN 使用輕量的區(qū)域建議網(wǎng)絡(luò)(Region Proposal Network,RPN)獲取感興趣區(qū)域,對每塊掃描獲得的瞄(anchor-box)輸出前景或背景的類別,并同時評估輸出精細(xì)調(diào)整前景瞄框與目標(biāo)中心位置關(guān)系;在多個瞄框重疊的情況下使用非極大值抑制(Non-Maximum Suppression,NMS)選擇前景分?jǐn)?shù)最高瞄框,最終輸出圖片內(nèi)最佳的區(qū)域建議。

        Mask R-CNN提出RoIAlign操作,使用雙線性插值的方法計算每個感興趣區(qū)域采樣點輸入特征值,避免邊界量化的同屬保證提取特征與輸入對齊。訓(xùn)練中Mask R-CNN提出多任務(wù)損失函數(shù)L:

        式(1)中Lbox衡量目標(biāo)分類損失值,Lcls衡量目標(biāo)檢測損失,Lmask衡量實例分割損失。

        由于Mask R-CNN 具有較強的分割精度,Zimmermann 等[14]受人工設(shè)計分割算子的啟發(fā),提出在原有Mask R-CNN 基礎(chǔ)上增加邊緣分支以增強網(wǎng)絡(luò)對邊緣檢測的精度,在速度基本不變的情況下網(wǎng)絡(luò)精度提升1.8%;Huang[15]等將金字塔注意力網(wǎng)絡(luò)(PAN)作為Mask R-CNN 的骨干網(wǎng)絡(luò),以統(tǒng)一的方式從自然場景圖像中檢測出多方向和彎曲的文本,該方法能有效地抑制文本類背景引起的誤報警,在多項文本檢測基準(zhǔn)任務(wù)上取得了優(yōu)異的性能。

        1.3 Mask Scoring R-CNN

        Mask R-CNN中,掩碼分支最終輸出由分類分支最高置信度決定,但分類分支置信度與掩碼的相關(guān)度很低,依據(jù)分類分支確定的掩碼并不是最佳選擇,導(dǎo)致衡量算法掩碼部分分值降低。針對此問題,Mask Scoring R-CNN[16]設(shè)計一種掩碼評價策略Mask IoU衡量真實掩碼與預(yù)測掩碼差異,同時引入網(wǎng)絡(luò)分支Mask IoU Head對評價進(jìn)行訓(xùn)練。掩碼評價策略用Smask表示:

        其中,Scls表示目標(biāo)分類分?jǐn)?shù),SIoU表示交并比分?jǐn)?shù)。Mask Scoring R-CNN提出的掩碼評價策略相比之前的評價對目標(biāo)分類及掩碼分割更敏感,從而校準(zhǔn)了掩碼質(zhì)量和掩碼得分之間的偏差,提升分割性能;且網(wǎng)絡(luò)穩(wěn)定性能高,為后續(xù)實例分割評價工作的進(jìn)一步發(fā)展提供可能方向。

        1.4 BlendMask

        較高級別的特征對應(yīng)于較大的感受野,并且可以更好地捕捉關(guān)于姿勢等實例的整體信息,而較低級別的特征保存更好的位置信息,并且可以提供更精細(xì)的細(xì)節(jié)。BlendMask[17]提出一種基于提議的實例掩碼預(yù)測的方法,稱為blender,它結(jié)合了豐富的實例級信息和精確的密集像素特征,在與目標(biāo)檢測框架結(jié)合的過程中,以較小的計算提高檢測準(zhǔn)確性。

        網(wǎng)絡(luò)結(jié)構(gòu)方面,BlendMask由一個檢測器網(wǎng)絡(luò)和一個掩碼分支組成。掩碼分支有三個部分,其中底部模塊用于預(yù)測評分圖,模塊的輸入可以是語義分割網(wǎng)絡(luò)的主干特征,或特征金字塔;頂層模塊attention map 獲取粗略的實例信息,包括對象形狀及位置;Blender module模塊用于合并評分和關(guān)注度,它根據(jù)關(guān)注度結(jié)合位置感知生成最終預(yù)測。與典型分辨率為28×28 的掩碼版相比,混合掩碼具有靈活性,提供了詳細(xì)的實例級信息,獲取位置感知信息并抑制外部區(qū)域。在輸出高分辨率掩膜的同時可以適用于實時性任務(wù)。

        2 單階段實例分割

        2.1 YOLACT

        在YOLACT[18]誕生前,精度較高的實例分割網(wǎng)絡(luò)是基于雙階段目標(biāo)檢測提出的,但雙階段方式掩碼的生成依賴于目標(biāo)定位,例如Mask R-CNN使用RoIAlign從邊界框中獲取特征,并將局部化特征輸入到掩碼生成模塊,這樣依序處理的方式使得雙階段實例分割方式雖然精度高,但處理速度慢。受單階段目標(biāo)檢測算法SSD[19]、YOLO[20]等實時性強的啟發(fā),YOLACT將實例分割分解為兩個并行的任務(wù):生成整個輸入圖像的掩碼組合、預(yù)測每個實例掩碼系數(shù)并將相應(yīng)預(yù)測系數(shù)與全圖組合;在不需要依序處理(repooling)的情況下,YOLACT網(wǎng)絡(luò)速度達(dá)到30 frame/s(每秒幀數(shù))以上,產(chǎn)生高精度掩碼的同時可以實現(xiàn)實時性的實例分割。

        主干網(wǎng)絡(luò)部分,YOLACT 沿用單階段目標(biāo)檢測網(wǎng)絡(luò)RetinaNet 結(jié)構(gòu),使用RestNet101 與特征金字塔網(wǎng)絡(luò)結(jié)合,其中,特征金字塔網(wǎng)絡(luò)部分由P3至P7構(gòu)成,P3至P5層由ResNet對應(yīng)C3至C5層計算獲取。P3層保留更深層次圖像特征輸入全圖掩碼分支(Protonet),通過全卷積神經(jīng)網(wǎng)絡(luò)將最后一層保留k個通道,處理后變?yōu)樵瓐D1/4 大小,獲取全圖預(yù)測的k個掩碼組合。全圖掩碼分支監(jiān)督來自最終掩碼損失,在獲得高質(zhì)量掩碼的情況下對小目標(biāo)分割體現(xiàn)更好的分割效果,如圖3。

        掩碼系數(shù)部分,YOLACT在基于錨點(anchor)目標(biāo)檢測基礎(chǔ)上,對應(yīng)全局掩碼分支增加第三個分支預(yù)測k個掩碼系數(shù);共包含預(yù)測分類置信度分支、預(yù)測邊框分支、掩碼系數(shù)預(yù)測分支,對每個瞄點產(chǎn)生4+c+k個系數(shù)。全圖掩碼和掩碼系數(shù)采用線性組合的方式:

        其中,P表示全圖掩碼矩陣h×w×k,C表示經(jīng)非極大值抑制和得分閾值篩選后的掩碼系數(shù)矩陣n×k。

        在提升網(wǎng)絡(luò)速度方面,YOLACT 提出一種快速非極大值抑制方法(Fast NMS)。傳統(tǒng)目標(biāo)檢測網(wǎng)絡(luò)中,在為每個錨點產(chǎn)生邊界回歸和類別置信度后使用非極大值抑制降低重復(fù)檢測,但按順序執(zhí)行的方法受速度限制,快速非極大值抑制方法并行排序矩陣計算,并保留確定剔除的檢測框?qū)ζ渌虻挠绊憽T贛ask R-CNN中僅替換非極大值抑制方法,就提速15.0 ms,且性能損失僅為0.3 mAP,快速非極大值抑制方法在網(wǎng)絡(luò)性能損失較小的情況下,實現(xiàn)了網(wǎng)絡(luò)提速的飛躍。

        YOLACT 雖然在測試過程中也存在目標(biāo)場景復(fù)雜時無法準(zhǔn)確定位、相距較遠(yuǎn)兩個實例間掩碼重疊的問題,但輕量且精度較高的網(wǎng)絡(luò)為實時實例分割網(wǎng)絡(luò)提供了參考。改進(jìn)方面,Lee 等[21]提出了一種將混合精度量化技術(shù)應(yīng)用于YOLACT 網(wǎng)絡(luò)的方法,根據(jù)YOLACT 中的參數(shù)大小和對模塊精度的影響自適應(yīng)量化,在盡可能保持精度的同時顯著地減小網(wǎng)絡(luò)規(guī)模,在精度損失小于0.1%的情況下整個網(wǎng)絡(luò)的參數(shù)尺寸減小75.4%;Liu等[22]提出一種實時實例分割YolactEdge。對基于圖像的實時方法YOLACT 進(jìn)行了兩個改進(jìn):(1)TensorRT 優(yōu)化,同時考慮了速度和精度;(2)提出新的特征扭曲模塊。實驗表明,YolactEdge 在保證掩碼精度同時,速度提升3~5倍。

        圖3 YOLACT網(wǎng)絡(luò)結(jié)構(gòu)

        2.2 YOLACT++

        針對YOLACT 實時性強但精度稍差的問題,YOLACT++[23]被提出;它沿用YOLACT 生成整個輸入圖像的掩碼組合、預(yù)測每個實例掩碼系數(shù)并將相應(yīng)預(yù)測系數(shù)與全圖組合的設(shè)計,保持原有網(wǎng)絡(luò)架構(gòu)的大部分結(jié)構(gòu),從主干網(wǎng)絡(luò)、瞄框選擇、掩碼評估改進(jìn)等方面對原有結(jié)構(gòu)進(jìn)行優(yōu)化。主干網(wǎng)絡(luò)方面,YOLACT++加入可變性空間卷積(Deformable Convolution with Intervals),提升對長寬比、尺度、角度不同目標(biāo)的處理能力,衡量精度和處理速度的可變性空間卷積使網(wǎng)絡(luò)耗時增加2.8 ms的情況下,mAP 提升1.6。瞄框選擇方面,YOLACT++嘗試兩種變形方法:保持尺度不變增加長寬比以及保持長寬比不變增加每層尺寸的比例;掩碼評估方面,YOLACT++參考Mask Scoring R-CNN的評價思想,加入快速掩碼重評分分支(Fast Mask Re-Scoring Network),截取全局掩碼預(yù)測結(jié)果輸入卷積層提取特征,并將全局池化輸出的交并比與目標(biāo)分類分?jǐn)?shù)相乘作為最終評分??焖傺诖a重評分分支校準(zhǔn)了掩碼質(zhì)量和掩碼得分之間的偏差,且保持了網(wǎng)絡(luò)速度,如圖4。

        圖4 快速掩碼重評分分支

        2.3 PolarMask

        PolarMask[24]是一種全卷積、無錨框的單階段實例分割算法,它將實例分割問題轉(zhuǎn)化為極坐標(biāo)下選取實例中心并進(jìn)行分類及密集回歸預(yù)測目標(biāo)實例輪廓的問題:輸入整幅圖像后,PolarMask 通過預(yù)測每個角度上采樣的正位置確定目標(biāo)實例中心,并預(yù)測目標(biāo)實例中心到實例輪廓的距離,組裝后輸出掩碼。圖5表示了不同掩碼表示方法,(b)表示了像素到像素預(yù)測網(wǎng)絡(luò)的掩碼表示方法,例如Mask R-CNN,雖然精確度高但耗時較長;(c)表示笛卡爾坐標(biāo)系的掩碼表示方法,坐標(biāo)原點表示目標(biāo)實例中心,輪廓線由距離和角度決定;(d)表示極坐標(biāo)系下掩碼表示方法,在兼?zhèn)涞芽栕鴺?biāo)系以目標(biāo)中心為原點、距離角度確定輪廓線的基礎(chǔ)上,角度具有很強方向性,對于確定外輪廓來說較為方便。

        圖5 不同掩碼表示方法

        為了獲得更簡潔的網(wǎng)絡(luò)結(jié)構(gòu),PolarMask 嵌入單階段目標(biāo)檢測方法FCOS[25]。主干網(wǎng)絡(luò)部分,PolarMask保持了與FCOS一樣的主干+特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)用于提取不同層次豐富特征;分支部分,PolarMask引入掩碼回歸分支替代FCOS中檢測框分支,以圖片輸入網(wǎng)絡(luò)確定的實例中心為原點,間隔△θ角度均勻發(fā)射n條射線,輪廓與中心的距離決定射線長短,其中△θ為10°,n為36;由于角度預(yù)設(shè)定,只需預(yù)測射線長度。

        在實例中心選擇上,PolarMask以目標(biāo)質(zhì)心為基礎(chǔ),將質(zhì)心周圍9~16 個像素作為實例候選中心的正樣本,引入極軸中心度(Polar Centerness)分支選擇目標(biāo)極坐標(biāo)中心,降低正負(fù)樣本的不平衡性。定義每個實例中n條射線長度分別為{d1,d2,…,dn} ,則有:

        極軸中心度分支與分類分支并行,在對極軸中心加權(quán)過程中,依據(jù)式(4),射線長度均衡的中心會被賦予更高權(quán)重。

        在交并比損失方面,PolarMask 引入極坐標(biāo)下交并比損失計算方法(Polar IoU Loss),預(yù)測掩模與真實值之間的交互面積與加和面積之比。交并比公式定義為式(5),其中d表示回歸目標(biāo)射線長度,d*表示預(yù)測射線長度,夾角為θ;式(5)經(jīng)離散化和簡化操作,最終定義交并比損失函數(shù)為式(6):

        PolarMask提出一種將掩碼表示轉(zhuǎn)化為掩碼輪廓表示的方法,使用極坐標(biāo)和射線的方式模擬輪廓,雖然最終精度稍差于主流實例分割算法,但對于掩碼輪廓的設(shè)計提供了全新的思路。改進(jìn)方面,對于PolarMask掩膜分割邊緣模糊的問題,張緒義等[26]通過對輪廓點角度的偏置及距離預(yù)測,并加入語義分割子網(wǎng)絡(luò)精細(xì)邊緣,測試分割結(jié)果比原方法提升2.1%。

        2.4 CenterMask

        CenterMask[27]是一種單階段無瞄框?qū)嵗指罘椒?,在單階段目標(biāo)檢測方法FCOS的基礎(chǔ)上,提出新的空間注意力引導(dǎo)掩碼分支(SAG-Mask)。SAG-Mask 分支從FCOS 檢測中獲取目標(biāo)預(yù)測框,以預(yù)測每個感興趣區(qū)域上的分割掩碼;同時空間注意力模塊(SAM)有助于分支聚焦于有意義的像素并抑制無意義的像素。

        針對Mask R-CNN 中RoIAlign 不考慮輸入尺度比例的缺陷,CenterMask 引入尺度自適應(yīng)區(qū)域分配函數(shù)(Scale-adaptive RoI assignment function),在為掩碼預(yù)測提取感興趣區(qū)域的特征時,考慮感興趣區(qū)域比例。

        主干網(wǎng)絡(luò)方面,CenterMask 在VoVNet[28]的基礎(chǔ)上改進(jìn),提出高效的主干網(wǎng)絡(luò)VoVNetV2,以進(jìn)一步提高中心掩碼的性能。由于單次聚合(OSA)模塊有效捕捉不同的感受野的特性,原有的VoVNet 網(wǎng)絡(luò)可以有效進(jìn)行多樣化特征表示;但在網(wǎng)絡(luò)深度增加的情況下,由于conv 等變換函數(shù)的增加,堆疊OSA 模塊使得梯度的反向傳播逐漸困難。因此CenterMask在VoVNet中增加了殘差連接和eSE 模塊。殘差連接中,輸入路徑連接到OSA 模塊的末端,OSA 模塊能夠以端到端的方式在每個級上反向傳播模塊梯度,擴大主干網(wǎng)絡(luò)深度;針對SE模塊降維導(dǎo)致的信道信息丟失問題,eSE使用一個具有C 通道的全連接層(fully-connected layer)保持信道信息,從而提高了性能。

        3 對比分析

        3.1 實例分割數(shù)據(jù)集

        實例分割解決不同實例個體像素分割的問題,為了提高網(wǎng)絡(luò)對復(fù)雜場景的理解能力,需要高清晰度、數(shù)量規(guī)模龐大的數(shù)據(jù)庫作為支撐。在實例分割網(wǎng)絡(luò)飛速發(fā)展的同時,一些為網(wǎng)絡(luò)性能提供訓(xùn)練驗證的公開數(shù)據(jù)集出現(xiàn),為網(wǎng)絡(luò)模型的測試結(jié)果提供基準(zhǔn)。

        Cityscapes[29]數(shù)據(jù)集著重于對城市街道場景的理解,主要包含城市街道場景圖像,按照與城市場景相關(guān)性(車輛、天空、地面等)將30 個目標(biāo)類別分為8 類數(shù)據(jù)集。數(shù)據(jù)集包含約5 000 張帶有精細(xì)注釋的圖像和20 000 張帶有粗略注釋的圖像,提供語義、實例注釋。Cityscapes 在天氣情況穩(wěn)定良好的時間內(nèi)采集了50 個城市圖像;但由于視頻記錄的形式,在使用數(shù)據(jù)集前需要人工選擇視頻幀數(shù),獲取所需不同場景下具有較多目標(biāo)類別的標(biāo)注圖像。

        MS COCO[30](Microsoft Common Objects in Context)數(shù)據(jù)集是微軟公司于2014 年公布的數(shù)據(jù)集,主要包含日常復(fù)雜生活場景照片,超過328 000 張照片中包括91 種常見物體類型(80 個可分類別)及250 萬個標(biāo)注實例,其中82種每種有超過5 000個標(biāo)注實例?;邶嫶蟆⒖煽康臄?shù)據(jù)量,以COCO 數(shù)據(jù)集為基準(zhǔn)的檢測挑戰(zhàn)賽是目前目標(biāo)檢測、實例分割領(lǐng)域的標(biāo)桿。檢測挑戰(zhàn)賽包含超過80 個可分通用場景物體,訓(xùn)練圖像及測試圖像超過80 000張、驗證圖像超過40 000張。測試圖像包括用于驗證及調(diào)試的測試圖像集test-dev、用于不同比賽和最新技術(shù)的測試圖像集test-standard、提交服務(wù)器的測試挑戰(zhàn)圖像集test-challenge 及避免過擬合的預(yù)留測試圖像集test-reserve。

        Mapillary Vistas[31]數(shù)據(jù)集著重于大規(guī)模街道圖像,主要針對語義分割和實例分割任務(wù)。數(shù)據(jù)集包含25 000 幅高分辨率圖像和66 個目標(biāo)類別,其中37 個類別使用多邊形細(xì)致標(biāo)注單個實例,細(xì)致標(biāo)注總量是Cityscapes 的5 倍,可用于實例分割。圖像由不同經(jīng)驗的攝影師使用多種成像設(shè)備(手機、平板電腦、動作相機、專業(yè)拍攝平臺)拍攝,拍攝場景來自多變天氣、季節(jié)的世界各地,保證了數(shù)據(jù)集圖像細(xì)節(jié)和地理范圍的多樣性,豐富數(shù)據(jù)集為視覺道路場景理解提供了發(fā)展基礎(chǔ)。LVIS[32](Large Vocabulary Instance Segmentation)是Facebook AI research于2019年公布的數(shù)據(jù)集。目前實例分割訓(xùn)練建立在目標(biāo)類別少、單類樣本充分的數(shù)據(jù)集中,但實際應(yīng)用場景下存在大量單類樣本不足的目標(biāo)類別,針對小樣本訓(xùn)練,LVIS 收集164 000 張圖像,對1 000 多個對象類別標(biāo)注獲得220 萬個高質(zhì)量的實例分割掩碼,構(gòu)建大型詞匯實例分割數(shù)據(jù)集。相比于COCO數(shù)據(jù)集,LVIS 人工標(biāo)注掩碼具有更大的重疊面積和更好的邊界連續(xù)性,更加精確的掩碼保證有較長的分類尾的情況下依然保持很好的訓(xùn)練效果。

        3.2 常用評價指標(biāo)

        公開大型數(shù)據(jù)集的產(chǎn)生為實例分割提供了網(wǎng)絡(luò)性能評價的標(biāo)準(zhǔn),依賴于網(wǎng)絡(luò)適用場景的不同,指標(biāo)常從網(wǎng)絡(luò)執(zhí)行時間、運行內(nèi)存占用、算法精度等多個方面考慮。其中執(zhí)行時間的提出針對于近年來發(fā)展迅速的實時性網(wǎng)絡(luò),算法精度因為客觀性和準(zhǔn)確性依然是實例分割主流的評價指標(biāo)。目前算法精度評價指標(biāo)主要有PA[33](Pixel Accuracy)、mPA[33](Mean Pixel Accuracy)、IoU[33](Intersection over Union)及mIoU[33](Mean Intersection over Union)。其中,PA表示總像素與預(yù)測正確像素之比,mPA表示每類預(yù)測正確的像素總數(shù)與每類別總數(shù)之比求和的均值,IoU表示預(yù)測圖像掩碼和真實掩碼交集與兩部分和的比率,mIoU 表示每個類別IoU 求和的均值。

        在實例分割過程中總計k+1 個分類,表示為{L0,L1,…,LK},且包含背景類別1。則評價指標(biāo)公式如下:

        Pii表示實際類別與像素預(yù)測類別都為i的數(shù)目,Pij表示實際類別為i的像素預(yù)測類別為j的數(shù)目,Pji表示實際類別為j預(yù)測類別為i的數(shù)目。

        3.3 分析

        本文所述主要實例分割網(wǎng)絡(luò)在MS COCO 數(shù)據(jù)集上測試性能如表1 所示,其中FPS 指每秒幀數(shù)(frames per second)。

        表1 網(wǎng)絡(luò)性能比較

        由表1 可知,在現(xiàn)有的龐大數(shù)據(jù)集支撐下,為增加精度,以Mask R-CNN為代表的雙階段網(wǎng)絡(luò)增加全卷積分支、使用特征金字塔網(wǎng)絡(luò)增加主干網(wǎng)絡(luò)不同層次信息融合,利用不同卷積層特性增加網(wǎng)絡(luò)分辨率加強小目標(biāo)檢測效果;以Mask Scoring R-CNN 為代表的網(wǎng)絡(luò)增加掩碼質(zhì)量評價分支,通過對掩碼質(zhì)量和分類結(jié)果的綜合評價實現(xiàn)精度提升;以BlendMask為代表的網(wǎng)絡(luò)結(jié)合了豐富實例信息和密集像素特征,以較小的計算保證實時性的同時提高檢測準(zhǔn)確性。

        以YOLACT為代表的單階段網(wǎng)絡(luò)參考單階段目標(biāo)檢測網(wǎng)絡(luò),使用主干網(wǎng)絡(luò)構(gòu)建特征金字塔網(wǎng)絡(luò)獲取不同卷積層網(wǎng)絡(luò)信息,融合全局掩碼與掩碼系數(shù)分支并改進(jìn)非極大值抑制方法,實現(xiàn)網(wǎng)絡(luò)實時性;以YOLACT++為代表的單階段網(wǎng)絡(luò)加入可變性空間卷積以適應(yīng)不同尺度物體分割檢測任務(wù),并加入掩碼評分分支校準(zhǔn)掩碼得分實現(xiàn)網(wǎng)絡(luò)精度的提升;以PolarMask 為代表的單階段網(wǎng)絡(luò)將實例分割問題轉(zhuǎn)化為極坐標(biāo)下選取實例中心并進(jìn)行分類及密集回歸預(yù)測目標(biāo)實例輪廓的問題,為掩碼表示方法提供新的思路。

        基于以上分析可知,單雙階段實例分割網(wǎng)絡(luò)選用輕量高效網(wǎng)絡(luò)并追求特征表達(dá)穩(wěn)定,但同時又具有不同的特性。雙階段實例分割網(wǎng)絡(luò)比單階段實例分割網(wǎng)絡(luò)具有更高的精度,主流的雙階段網(wǎng)絡(luò)框架靈活,在小目標(biāo)檢測效果上體現(xiàn)出優(yōu)勢;但同時由于分類和分割任務(wù)的時序性,雙階段網(wǎng)絡(luò)在實時任務(wù)上表現(xiàn)稍差。單階段實例分割網(wǎng)絡(luò)較少使用全卷積網(wǎng)絡(luò)分支,且去掉基于區(qū)域的時序步驟,整個網(wǎng)絡(luò)呈現(xiàn)輕量化的狀態(tài),網(wǎng)絡(luò)實時性強可用于實時場景實例分割檢測任務(wù);但同時對于小目標(biāo)的檢測效果稍差。目前實例分割網(wǎng)絡(luò)改進(jìn)主要從以下幾方面展開:(1)主干網(wǎng)絡(luò)的選擇更換。主干網(wǎng)絡(luò)實現(xiàn)圖像特征提取,是實例分割網(wǎng)絡(luò)的重要組成部分;以ResNet 為代表的網(wǎng)絡(luò)解決了網(wǎng)絡(luò)深度增加帶來的梯度爆炸問題,目前ResNet V2[34]、ResNeXt[35]等也可以應(yīng)用到實例分割主干網(wǎng)絡(luò)部分,實現(xiàn)較小計算量下的網(wǎng)絡(luò)特征提取。(2)目標(biāo)特征穩(wěn)定表達(dá)。實例分割網(wǎng)絡(luò)引入特征金字塔網(wǎng)絡(luò)結(jié)構(gòu),將不同卷積層信息融合,解決同張圖像中不同尺寸目標(biāo)處理問題,獲取不同分辨率以提高小目標(biāo)的處理能力;加入可變性空間卷積解決角度變換、圖像長寬比變換的問題。(3)掩碼評分分支引入。在網(wǎng)絡(luò)結(jié)構(gòu)中增加掩碼評價分支,校準(zhǔn)預(yù)測掩碼質(zhì)量和得分偏差,提升網(wǎng)絡(luò)精度。

        4 總結(jié)與展望

        基于深度學(xué)習(xí)的實例分割是計算機視覺領(lǐng)域的重要發(fā)展方向,快速處理數(shù)據(jù)并主動學(xué)習(xí)使得不斷更新的網(wǎng)絡(luò)朝著輕量、實時、精度高的方向邁進(jìn),在保持精度和運行速度的同時付出最小訓(xùn)練代價、實現(xiàn)端到端處理并落地于實際應(yīng)用。在目標(biāo)檢測和語義分割發(fā)展促進(jìn)下,實例分割作為計算機視覺領(lǐng)域的新任務(wù)取得一定成果,但仍然存在許多挑戰(zhàn):

        (1)小樣本任務(wù)。日常生活場景中存在大量單類樣本不足的目標(biāo),在樣本量不足的情況下難以獲得較好的訓(xùn)練效果;小樣本學(xué)習(xí)旨在樣本不足的情況下對新樣本進(jìn)行有效分割。最早的距離度量學(xué)習(xí)模型是孿生網(wǎng)絡(luò),直接匹配學(xué)習(xí)樣本相似;更新的方法指利用元學(xué)習(xí)思路,學(xué)習(xí)結(jié)束的元分類器在新任務(wù)上僅微調(diào)參數(shù)即可實現(xiàn)分類任務(wù)。但目前小樣本目標(biāo)檢測存在樣本類增多識別精度迅速下降等問題,實例分割領(lǐng)域的小樣本任務(wù)仍然存在空白。

        (2)實時性場景任務(wù)。在無人駕駛、生物識別等實用場景下,保證實時性的同時要求網(wǎng)絡(luò)達(dá)到良好精度。YOLACT及YOLACT++標(biāo)志著實時實例分割任務(wù)成為可能,多分支網(wǎng)絡(luò)及輕量化的網(wǎng)絡(luò)結(jié)構(gòu)提升網(wǎng)絡(luò)速度,但相對于其他主流實例分割網(wǎng)絡(luò)精度有所下降。

        (3)三維實例分割。相比于二維圖像實例分割,三維實例分割是解決端到端的分割問題,直接將點云作為輸入。PointNet[36]保持輸入點排列不變性,實現(xiàn)對三維點云的直接處理,為對象分類、部分分割到場景語義解析的應(yīng)用提供了統(tǒng)一的體系結(jié)構(gòu)。

        猜你喜歡
        掩碼分支實例
        巧分支與枝
        低面積復(fù)雜度AES低熵掩碼方案的研究
        一類擬齊次多項式中心的極限環(huán)分支
        基于布爾異或掩碼轉(zhuǎn)算術(shù)加法掩碼的安全設(shè)計*
        基于掩碼的區(qū)域增長相位解纏方法
        基于掩碼的AES算法抗二階DPA攻擊方法研究
        完形填空Ⅱ
        完形填空Ⅰ
        生成分支q-矩陣的零流出性
        碩果累累
        高清不卡一区二区三区| 99精产国品一二三产品香蕉| 男女一区视频在线观看| 精品一区二区三区无码视频| 日本高清不卡一区二区三区 | 丝袜美腿福利视频在线| 亚洲成人色区| 最新永久免费AV网站| 中文字幕无线码| 69搡老女人老妇女老熟妇| 处破痛哭a√18成年片免费| 青青草视频网站免费看| 99久久久无码国产精品9| 免费在线黄色电影| 亚洲免费av第一区第二区| 亚洲成aⅴ人片久青草影院| 日韩人妻免费一区二区三区| 亚洲免费不卡| 丰满少妇被猛烈进入高清播放| 国产成人av综合亚洲色欲| 粉嫩被粗大进进出出视频| 在线观看午夜视频国产| 欧美片欧美日韩国产综合片| 特级a欧美做爰片第一次| 91精品国产综合久久精品密臀| av一区二区三区亚洲| 国产精品无码久久久久久| 亚洲一区第二区三区四区| 伊人久久网国产伊人| 亚洲色图三级在线观看| 一本色道久久综合中文字幕| 无码毛片aaa在线| 久久国产精品亚洲我射av大全| 中文字幕日本最新乱码视频| 精品无码无人网站免费视频| 精品一区二区三区在线视频| 亚洲激情综合中文字幕| 国产自拍成人在线免费视频| 日本成人在线不卡一区二区三区| 国产人妖在线免费观看| 国产品精品久久久久中文|