孫勁光,王 雪
(遼寧工程技術(shù)大學(xué) 電子與信息工程學(xué)院,遼寧 葫蘆島 125105)
實(shí)例分割是計(jì)算機(jī)視覺(jué)領(lǐng)域中的一個(gè)經(jīng)典任務(wù),是目標(biāo)檢測(cè)和語(yǔ)義分割兩項(xiàng)任務(wù)的組合任務(wù),通過(guò)目標(biāo)檢測(cè)定位圖像中每個(gè)單獨(dú)實(shí)例的位置,并對(duì)每個(gè)單獨(dú)實(shí)例標(biāo)記類(lèi)別信息,區(qū)分同一類(lèi)別的實(shí)例。隨著深度學(xué)習(xí)的不斷發(fā)展,許多實(shí)例分割框架被提出,并推陳出新,目前廣泛應(yīng)用于病灶檢測(cè)、無(wú)人駕駛、虛擬現(xiàn)實(shí)、安防監(jiān)控等領(lǐng)域,因此對(duì)實(shí)例分割精度和速度的要求也越來(lái)越高。
實(shí)例分割最早是Hariharan[1]等人受到RCNN 目標(biāo)檢測(cè)的啟發(fā),于2014 年提出了SDS 模型,可以同時(shí)完成檢測(cè)與分割任務(wù)。2017 年,Li等人提出FCIS[2],是首個(gè)實(shí)現(xiàn)端到端訓(xùn)練的圖像實(shí)例分割算法。隨著深度學(xué)習(xí)的不斷發(fā)展,2017 年,He 等人提出了Mask R-CNN[3]模型,在Faster RCNN[4]的基礎(chǔ)上添加了掩碼分支來(lái)預(yù)測(cè)分割掩膜,并設(shè)計(jì)RoIAlign 層,消除RoI Pooling 的量化誤差,采用雙線(xiàn)性插值的方法計(jì)算每個(gè)感興趣區(qū)域采樣點(diǎn)輸入特征值,保證提取特征與輸入對(duì)齊,得到了驚人的分割效果,為后續(xù)的圖像分割工作奠定了好的基礎(chǔ)。2019 年,Huang 等人針對(duì)Mask R-CNN 模型中以分類(lèi)分支置信度作為掩膜質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)的問(wèn)題,提出了Mask Scoring R-CNN[5]模型,采用預(yù)測(cè)掩膜與標(biāo)注掩膜的交并比MaskIoU 來(lái)描述掩膜的分割質(zhì)量,并引入新的分支MaskIoU Head,將MaksIoU 與分類(lèi)的分?jǐn)?shù)相乘計(jì)算掩膜分?jǐn)?shù),這樣的計(jì)算方式校準(zhǔn)了掩碼質(zhì)量和掩碼得分之間的偏差,提升了分割性能。對(duì)于Mask R-CNN 的改進(jìn),Liu 等人還提出PANnet[6],引入了一種自適應(yīng)特征池化,并設(shè)計(jì)了一種可以將不同層級(jí)特征融合的信息融合路徑。以上的工作在基于檢測(cè)框的實(shí)例分割領(lǐng)域取得了十分優(yōu)秀的效果,但同時(shí)也存在兩個(gè)問(wèn)題:一是對(duì)于檢測(cè)框檢測(cè)不準(zhǔn)確的物體,很難在后續(xù)得到精準(zhǔn)的分割結(jié)果;二是基于檢測(cè)框進(jìn)行分割時(shí),要對(duì)物體進(jìn)行逐像素計(jì)算,將導(dǎo)致計(jì)算量大、速度慢的問(wèn)題。
不同于基于檢測(cè)框的實(shí)例分割方法,無(wú)錨框的實(shí)例分割方法是沿著物體的外圍輪廓進(jìn)行劃分,解決了物體檢測(cè)框局限性的問(wèn)題。2018 年,Liu 等人提出GMIS[7]模型,這是一種自底向上像素聚類(lèi)的方法,用獨(dú)立的兩個(gè)子網(wǎng)絡(luò)分別產(chǎn)生語(yǔ)義分割結(jié)合和像素親和性信息,并利用語(yǔ)義分割的先驗(yàn)信息,得到每一類(lèi)別所有個(gè)體的像素區(qū)域。2020 年,Wang 等人提出CenterMask[8]模型,不依賴(lài)預(yù)先設(shè)定的感興趣區(qū)域(ROI)進(jìn)行掩碼預(yù)測(cè),將分割分成兩個(gè)子任務(wù):局部形狀預(yù)測(cè),從每個(gè)對(duì)象的中心點(diǎn)表示預(yù)測(cè)的粗略的形狀,以約束每個(gè)對(duì)象的局部區(qū)域;全局顯著性映射,預(yù)測(cè)整個(gè)圖像的顯著性圖,以實(shí)現(xiàn)精確分割,將兩分支的輸出相乘計(jì)算構(gòu)造出每個(gè)實(shí)例的掩碼。對(duì)于構(gòu)建物體輪廓的實(shí)例分割方法,Liu 等人于2017 年提出SGN[9]模型,構(gòu)建了序列組合網(wǎng)絡(luò),采用由點(diǎn)到線(xiàn)再到區(qū)域的聚合方式,把像素聚合為線(xiàn)段,再對(duì)相鄰的線(xiàn)段進(jìn)行判斷,進(jìn)而得到一個(gè)連通區(qū)域,連通區(qū)域的組合結(jié)果即為實(shí)例分割的掩 膜。2020 年,Xie 等 人 提 出PolarMask[10]模 型,一種全卷積、無(wú)錨框的實(shí)例分割方法,以FCOS[11]目標(biāo)檢測(cè)網(wǎng)絡(luò)為基礎(chǔ),從4 根射線(xiàn)擴(kuò)成36 根射線(xiàn),以極坐標(biāo)的方式對(duì)物體輪廓進(jìn)行建模,不需要檢測(cè)框,把實(shí)例分割問(wèn)題轉(zhuǎn)化為實(shí)例中心點(diǎn)分類(lèi)問(wèn)題和密集距離回歸問(wèn)題,雖然在精度和速度上優(yōu)勢(shì)并不大,但對(duì)基于無(wú)錨框?qū)嵗指罘椒ǖ难芯坑兄艽蟮囊饬x。2020 年,Peng 等人提出Deep Snake[12]模型,以主動(dòng)輪廓模型Snake[13-15]為基礎(chǔ),采用深度學(xué)習(xí)的方式替代人為能量函數(shù),獲得更加逼近目標(biāo)物體的輪廓,從而達(dá)到高精度的實(shí)例分割,且加快了計(jì)算速度。但是現(xiàn)有方法仍然存在小物體分割精度低,分割邊緣不平滑的問(wèn)題。
針對(duì)現(xiàn)有方法的不足,本文提出了基于目標(biāo)輪廓的實(shí)例分割網(wǎng)絡(luò),采取漸進(jìn)式的分割模型,內(nèi)部設(shè)計(jì)多尺度融合模塊進(jìn)行特征融合,以迭代的方式多次將分割模塊輸出的偏移量進(jìn)行計(jì)算,得到新的目標(biāo)物體輪廓并作為輸入,以求得到最優(yōu)的分割結(jié)果,并配以一定的標(biāo)準(zhǔn)化方法減少目標(biāo)物體對(duì)輪廓變形的影響。本文方法相較于Deep Snake 方法以及其他優(yōu)秀工作,在Cityscapes 數(shù)據(jù)集和KINS 數(shù)據(jù)集上,分割精度都有所提升。
1987 年Michael Kass 等 人 提 出 了Snake 算法,可以用于圖像實(shí)例分割。Snake 是一種主動(dòng)輪廓模型,即預(yù)先給定一個(gè)初始輪廓,以初始輪廓為基礎(chǔ)進(jìn)行逐步迭代,將得到的結(jié)果多次作為輸入,得到更加貼合圖像邊緣的輪廓,從而完成實(shí)例分割任務(wù)。Snake 算法將分割問(wèn)題轉(zhuǎn)化為能量函數(shù)最小化的數(shù)學(xué)問(wèn)題,利用首尾相連的閉合曲線(xiàn)的函數(shù)規(guī)律,設(shè)計(jì)能量函數(shù)控制曲線(xiàn)的形變,最終目標(biāo)是得到最小化能量函數(shù)使閉合曲線(xiàn)充分貼合分割目標(biāo)的邊緣,以此達(dá)到精確的物體分割結(jié)果。其中定義的能量函數(shù)包括輪廓能量和圖像能量,具體公式如公式(1)所示:
其中:Eint(v(s))是輪廓能量,即輪廓本身的能量也稱(chēng)為內(nèi)部能量;Eimage(v(s))為圖像能量,即圖像上輪廓對(duì)應(yīng)點(diǎn)的能量,也稱(chēng)為外部能量;Econ(v(s))是方差相關(guān)項(xiàng)。
Snake 算法已經(jīng)被應(yīng)用在很多模型設(shè)計(jì)中,但這種人為設(shè)計(jì)的函數(shù)很容易得到局部最優(yōu)解,對(duì)于邊緣不平整的目標(biāo),想要輪廓和目標(biāo)物體達(dá)到理想的貼合度是不可能的,從而很難得到理想的分割效果。
目標(biāo)檢測(cè)的主要任務(wù)是定位出圖像中實(shí)例個(gè)體的位置,是實(shí)例分割必不可少的一部分。CenterNet[16]是 在CornerNet[17]的 基 礎(chǔ) 上 進(jìn) 行 改進(jìn),提出的一種無(wú)錨框的目標(biāo)檢測(cè)方法。該方法只需將圖像輸入全卷積網(wǎng)絡(luò),得到一個(gè)熱力圖,熱力圖峰值即目標(biāo)物體的中心點(diǎn),且通過(guò)峰值點(diǎn)預(yù)測(cè)目標(biāo)物體的寬和高。CenterNet 提出了3 種backbone 的網(wǎng)絡(luò)結(jié)構(gòu),分別是Resnet-50、DLA-34和Hourglass-104。
本文采用基于DLA-34 的Centernet 目標(biāo)檢測(cè)網(wǎng)絡(luò),該網(wǎng)絡(luò)無(wú)錨框的檢測(cè)方式更適用于針對(duì)物體輪廓的實(shí)例分割方法。其中DLA-34 網(wǎng)絡(luò)是通過(guò)多級(jí)的跳躍連接,迭代地將網(wǎng)絡(luò)結(jié)構(gòu)的特征信息融合起來(lái),讓模型有更高的精度和更少的參數(shù),可以加快網(wǎng)絡(luò)速度。
圓形卷積是一維卷積的一種特殊卷積形式,多數(shù)應(yīng)用于離散信號(hào)。本文方法針對(duì)目標(biāo)物體輪廓上的特征點(diǎn)進(jìn)行特征提取,由于組成物體輪廓的點(diǎn)之間的關(guān)系是離散的,相較于圖像處理中常用的二維卷積,圓形卷積更加適合這種離散關(guān)系的特征計(jì)算。
圓形卷積的計(jì)算方式如圖1 所示,其中在下面圓形輪廓上的結(jié)點(diǎn)為輪廓上的輸入特征,內(nèi)部相連的結(jié)點(diǎn)為內(nèi)核函數(shù),在上面圓形輪廓上的結(jié)點(diǎn)是通過(guò)卷積后輸出的特征。圖中表示了輸出特征由輸入特征和內(nèi)核函數(shù)計(jì)算所得的過(guò)程,計(jì)算與標(biāo)準(zhǔn)卷積類(lèi)似,圓形卷積輸出特征與輸入特征長(zhǎng)度相同。
圖1 圓形卷積Fig.1 Circle convolution
將輪廓頂點(diǎn)視為一個(gè)離散的一維信號(hào),f∶Z→RD,將它拓展為一組周期信號(hào),輪廓特征的定義如公式(2)所示:
采用圓形卷積計(jì)算的周期特征,具體計(jì)算如公式(3)所示:
針對(duì)小物體分割不準(zhǔn)確,邊緣不清晰問(wèn)題,本文提出了基于目標(biāo)輪廓的實(shí)例分割網(wǎng)絡(luò)(Instance segmentation network based on target contour points,TCPN),具體流程如圖2 所示,主要由目標(biāo)檢測(cè)、構(gòu)建初始輪廓、計(jì)算偏移量3 個(gè)任務(wù)完成整個(gè)分割工作,通過(guò)3 次迭代的輪廓變形得到最終分割結(jié)果。在Deep Snake 的基礎(chǔ)上構(gòu)建漸進(jìn)式分割網(wǎng)絡(luò),對(duì)目標(biāo)物體的邊緣分割得到更加準(zhǔn)確的效果。構(gòu)建多尺度特征融合模塊,對(duì)漸進(jìn)式分割網(wǎng)絡(luò)中經(jīng)過(guò)粗割模塊得到的特征經(jīng)過(guò)不同的空洞卷積,融合多個(gè)尺度的特征,減少淺層特征的丟失。
圖2 基于目標(biāo)輪廓的實(shí)例分割網(wǎng)絡(luò)流程圖Fig.2 Flow chart of instance segmentation network based on target contour
Deep Snake 方法是采用深度學(xué)習(xí)的方式實(shí)現(xiàn)傳統(tǒng)Snake 算法,以構(gòu)建網(wǎng)絡(luò)模型的方式代替能量函數(shù)。通過(guò)對(duì)Deep Snake 實(shí)驗(yàn)結(jié)果的觀(guān)察,發(fā)現(xiàn)對(duì)于自行車(chē)、行人這類(lèi)邊緣不平滑的物體,分割結(jié)果很難逼近物體邊緣,從而降低了分割精度。針對(duì)這個(gè)問(wèn)題,本文方法對(duì)Deep Snake 算法做了優(yōu)化改進(jìn),構(gòu)建了漸進(jìn)式分割網(wǎng)絡(luò),如圖3 所示。通過(guò)兩階段的分割模塊,由淺入深,以此使分割結(jié)果更好地逼近物體輪廓。通過(guò)漸進(jìn)式分割網(wǎng)絡(luò)對(duì)輪廓上結(jié)點(diǎn)的特征進(jìn)行學(xué)習(xí),得到指向目標(biāo)物體輪廓的偏移量,通過(guò)得到的偏移量變形輸入的輪廓,經(jīng)過(guò)多次迭代,得到最終的分割結(jié)果。
圖3 漸進(jìn)式分割網(wǎng)絡(luò)Fig.3 Progressive segmentation network
漸進(jìn)式分割網(wǎng)絡(luò)包括粗割模塊、多尺度融合模塊(Multi-scale-fusion module)、精割模塊和預(yù)測(cè)模塊。粗割模塊和精割模塊內(nèi)部都是由相同的Circonv-BN-Relu 層組成,包括圓形卷積、批量標(biāo)準(zhǔn)化和激活函數(shù),但數(shù)量和連接方式不一樣,由此達(dá)到一種漸進(jìn)的效果。因?yàn)槭菍?duì)物體輪廓上的特征進(jìn)行計(jì)算,而輪廓上的結(jié)點(diǎn)首尾相連,度為2,更類(lèi)似于離散的信號(hào),所以采用圓形卷積進(jìn)行計(jì)算。粗割模塊內(nèi)部采用殘差[18-20]的連接方式,連接5 個(gè)Circonv-BN-Relu 層。精割模塊內(nèi)部采用類(lèi)似于DenseNet[21-22]的連接方式,連接8 個(gè)Circonv-BN-Relu 層,通過(guò)這種連接方式可以更好地保留淺層特征,相較于粗割模型可以更好地提取輪廓上的特征值。
通過(guò)粗割模型對(duì)輪廓特征進(jìn)行特征提取并將所有層的特征連接,通過(guò)1*1 卷積層和最大池化層將融合的特征和每個(gè)頂點(diǎn)的特征連接,以此得到一個(gè)初步輪廓特征,并保留與下一步的精割結(jié)果連接。將結(jié)果通過(guò)多尺度融合模塊后,輸入精割模塊,計(jì)算過(guò)程與粗割模型相同,加深了網(wǎng)絡(luò)并更大程度地保留了淺層信息。最后將粗割結(jié)果和精割結(jié)果連接并輸入預(yù)測(cè)模塊,對(duì)輪廓特征應(yīng)用了3 個(gè)1*1 卷積層,得到最終的偏移。通過(guò)對(duì)偏移量和初始輪廓的坐標(biāo)位置進(jìn)行計(jì)算,得到目標(biāo)物體輪廓,以此作為初始輪廓輸入分割模塊,完成迭代過(guò)程。
多尺度融合模塊如圖4 所示,由多個(gè)圓形卷積組成,為了得到多尺度的上下文信息,本文方法中采用的是卷積率為1、3、5 的空洞卷積分別提取特征,擴(kuò)大感受野,防止經(jīng)過(guò)粗割模塊后大物體的特征丟失,將得到的不同感受野的特征進(jìn)行拼接,通過(guò)1*1 卷積進(jìn)行融合,再通過(guò)1*1 卷積輸出作為精割模塊的輸入。將多尺度融合模塊的設(shè)計(jì)加入漸進(jìn)式分割網(wǎng)絡(luò),作為粗割模塊后的特征融合和精割模塊前的特征處理,是出于實(shí)驗(yàn)數(shù)據(jù)考慮,將在實(shí)驗(yàn)部分具體介紹。
圖4 多尺度融合模塊Fig.4 Multi-scale fusion module
如圖5 所示,基于目標(biāo)輪廓的實(shí)例分割過(guò)程通過(guò)CenterNet 目標(biāo)檢測(cè)網(wǎng)絡(luò),得到目標(biāo)物體的中心點(diǎn)以及寬和高,從而得到檢測(cè)框。取矩形檢 測(cè) 框4 個(gè)邊的中心點(diǎn),記為{P|i=1,2,3,4},將這4 個(gè)點(diǎn)連接成菱形,作為初始輪廓,輸入漸進(jìn)式分割網(wǎng)絡(luò),得到4 個(gè)偏移量,使P逼近P。
圖5 分割過(guò)程Fig.5 Segmentation process
通過(guò)上一步得到的P定義一個(gè)新的邊界框,以P點(diǎn)沿著邊界框延伸方向向兩側(cè)畫(huà)一條線(xiàn)段,長(zhǎng)度為一條邊的1/4,連接4 個(gè)線(xiàn)段的端點(diǎn)形成八邊形。以這個(gè)八邊形為輸入,從P開(kāi)始沿著八邊形輪廓均勻采樣N個(gè)點(diǎn),記為{Pi|i=1,2,...N,N=128},且沿著目標(biāo)物體輪廓均勻采樣N個(gè)點(diǎn),通過(guò)漸進(jìn)式分割網(wǎng)絡(luò)的計(jì)算,輸出N個(gè)偏移值,使初始輪廓向目標(biāo)物體輪廓偏移。采用三次迭代的方式,使得圖像中目標(biāo)物體無(wú)論遠(yuǎn)近,都可以得到很好的分割結(jié)果。
在Deep Snake 算法中,為了使輪廓變形不受圖像中輪廓平移的影響,取輪廓上所有頂點(diǎn)的值減去最小的頂點(diǎn)值。本文為了更大程度地減少這種影響,在迭代過(guò)程中采用極差標(biāo)準(zhǔn)化,具體計(jì)算如下。
使輸入漸進(jìn)式分割網(wǎng)絡(luò)的初始輪廓在[0,1]的有界范圍內(nèi),相應(yīng)地可以使用激活函數(shù)tanh 使偏移量也縮小到固定范圍,輸出再對(duì)應(yīng)寬高比例放大,這樣可以最大程度地減少對(duì)輪廓變形的影響。
針對(duì)漸進(jìn)式分割方法采用Smooth L1方法設(shè)置兩個(gè)損失函數(shù)約束輪廓偏移,一個(gè)是取極值點(diǎn)Piep 時(shí)的損失函數(shù),記為
損失函數(shù)對(duì)應(yīng)輪廓變形時(shí)的極差標(biāo)準(zhǔn)化操作,對(duì)物體坐標(biāo)做等比例變換處理,這里p代表輪廓上標(biāo)注的真實(shí)值。
針對(duì)Cityscapes 數(shù)據(jù)集中被遮擋而分為多部分的物體,由于數(shù)據(jù)集標(biāo)注時(shí)是分別對(duì)多部分物體進(jìn)行標(biāo)注,若采用本文方法直接對(duì)整個(gè)物體進(jìn)行實(shí)例分割,則會(huì)降低精度,因此采用二次檢測(cè)的方式對(duì)檢測(cè)框內(nèi)被分為多部分的物體進(jìn)行再次檢測(cè),這也是Deep Snake 中所采取的處理方式,具體方式如圖6 所示。
圖6 二次檢測(cè)網(wǎng)絡(luò)Fig.6 Secondary detection network
針 對(duì) 檢 測(cè) 框,使 用RoIAlign[2]方 法 來(lái) 提 取 特征圖,并在特征圖上添加一個(gè)檢測(cè)器分支對(duì)被遮擋的目標(biāo)物體生成各部件的檢測(cè)框;對(duì)于檢測(cè)到的各部件,我們使用漸進(jìn)式分割方法分別對(duì)它們進(jìn)行分割,通過(guò)合并的方式得到最終的分割結(jié)果。
實(shí)例分割旨在解決不同實(shí)例個(gè)體像素分割的問(wèn)題,為了提高網(wǎng)絡(luò)對(duì)復(fù)雜場(chǎng)景的理解能力,需要高清晰度、數(shù)量規(guī)模龐大的數(shù)據(jù)庫(kù)作為支撐。本文采取了以下兩個(gè)公開(kāi)的大型數(shù)據(jù)集。
Cityscapes 數(shù) 據(jù) 集[23]:Cityscapes 數(shù) 據(jù) 集 是關(guān)于城市街道場(chǎng)景的語(yǔ)義理解圖片數(shù)據(jù)集。它主要包含來(lái)自50 個(gè)不同城市的街道場(chǎng)景,擁有5 000 張?jiān)诔鞘协h(huán)境中駕駛場(chǎng)景的高質(zhì)量像素級(jí)注釋圖像;此外,它有20 000 張粗糙標(biāo)注的圖像。該數(shù)據(jù)集按照與城市場(chǎng)景的相關(guān)性,將30 個(gè)目標(biāo)類(lèi)別分為8 類(lèi)數(shù)據(jù)集,最終的評(píng)價(jià)標(biāo)準(zhǔn)是根據(jù)數(shù)據(jù)集中8 個(gè)語(yǔ)義類(lèi)的平均精度來(lái)評(píng)估。
KITTI 數(shù)據(jù)集是目前國(guó)際上最大的自動(dòng)駕駛場(chǎng)景下的計(jì)算機(jī)視覺(jué)算法評(píng)測(cè)數(shù)據(jù)集,包含市區(qū)、鄉(xiāng)村和高速公路等場(chǎng)景采集的真實(shí)圖像數(shù)據(jù)集,每張圖像中最多達(dá)15 輛車(chē)和30 個(gè)行人,還有各種程度的遮擋和截?cái)唷INS 數(shù)據(jù)集[24]是對(duì)KITTI 數(shù)據(jù)集進(jìn)行實(shí)例級(jí)語(yǔ)義標(biāo)注得到的一組數(shù)據(jù)。該數(shù)據(jù)集目的是在遮擋下恢復(fù)完整的實(shí)例形狀,包括7 474 張訓(xùn)練圖像和7 517 張測(cè)試圖像。根據(jù)它的設(shè)置,最終的評(píng)價(jià)標(biāo)準(zhǔn)是根據(jù)數(shù)據(jù)集中7 個(gè)對(duì)象類(lèi)別的平均精度來(lái)評(píng)估的。
為了驗(yàn)證本文所提出的基于目標(biāo)輪廓的實(shí)例分割網(wǎng)絡(luò)在實(shí)例分割任務(wù)中的有效性,采用平均精度(Average Precision,AP)作為評(píng)價(jià)指標(biāo)。平均精度是在圖像分割情況下,將每個(gè)結(jié)果與正確標(biāo)注結(jié)果計(jì)算IoU,且IoU 從0.5~0.95 之間以0.05 為標(biāo)準(zhǔn)進(jìn)行十等分,計(jì)算這10 個(gè)不同IoU 闕值下交并比的平均值,AP50是指IoU 闕值取0.5時(shí)的計(jì)算結(jié)果。
本文的實(shí)驗(yàn)環(huán)境是Python3.7.0,操作系統(tǒng)為Ubuntu 18.04,主要基于開(kāi)源的機(jī)器學(xué)習(xí)框架Pytorch1.3.1-gpu、CUDA 和CuDNN 來(lái) 實(shí) 現(xiàn)GPU 加速。本文使用Cityscapes 數(shù)據(jù)集和KINS數(shù)據(jù)集進(jìn)行訓(xùn)練,在Cityscapes 數(shù)據(jù)集上設(shè)計(jì)消融實(shí)驗(yàn)和對(duì)比實(shí)驗(yàn),消融實(shí)驗(yàn)通過(guò)測(cè)試多種擴(kuò)張率的擴(kuò)張卷積,驗(yàn)證多尺度融合模塊的有效性,并得到效果最佳的一組擴(kuò)張率;對(duì)比實(shí)驗(yàn)通過(guò)和目前優(yōu)秀的實(shí)例分割工作進(jìn)行對(duì)比,驗(yàn)證本文方法的有效性;且通過(guò)KINS 數(shù)據(jù)集測(cè)試迭代次數(shù)對(duì)實(shí)例分割結(jié)果的影響,并驗(yàn)證本文方法對(duì)存在遮擋部分的圖像進(jìn)行分割的有效性。由于兩種實(shí)驗(yàn)數(shù)據(jù)集的標(biāo)注情況不同,所要實(shí)現(xiàn)的實(shí)驗(yàn)結(jié)果不同,所以采取不同的模型文件進(jìn)行訓(xùn)練、驗(yàn)證和測(cè)試。
在實(shí)驗(yàn)過(guò)程中,對(duì)于八邊形作為初始輪廓時(shí)的采樣點(diǎn)個(gè)數(shù),本文設(shè)置N=128。實(shí)驗(yàn)中也嘗試選取過(guò)N=256,不僅會(huì)降低分割精度,且大幅增加了運(yùn)行時(shí)間。
4.4.1 迭代次數(shù)測(cè)試
在KINS 數(shù)據(jù)集下進(jìn)行多次測(cè)試,確定最終TCPN 網(wǎng)絡(luò)模型中漸進(jìn)式分割網(wǎng)絡(luò)的迭代次數(shù),圖7 顯示不同迭代次數(shù)下的實(shí)驗(yàn)效果,經(jīng)過(guò)3 次迭代時(shí)實(shí)驗(yàn)效果最佳。通過(guò)表1 的測(cè)試數(shù)據(jù)也不難看出,迭代次數(shù)為3 時(shí)實(shí)例分割精度最高。
圖7 不同迭代次數(shù)的實(shí)驗(yàn)效果對(duì)比。(a)自行車(chē)和行人;(b)轎車(chē);(c)轎車(chē)和較遠(yuǎn)物體。Fig.7 Comparison of experimental effects with different iterations.(a)Bicycle and person;(b)Cars;(c)Cars and distance objects.
表1 不同迭代次數(shù)下的實(shí)驗(yàn)效果Tab.1 Experimental results of different iterations
4.4.2 二次檢測(cè)模塊的表現(xiàn)
由于本文方法是通過(guò)閉合曲線(xiàn)進(jìn)行實(shí)例分割,在Cityscapes 中進(jìn)行實(shí)驗(yàn)時(shí),對(duì)于被遮擋而一分為多的數(shù)據(jù)情況,只能針對(duì)其中一部分。通過(guò)對(duì)物體進(jìn)行二次檢測(cè),識(shí)別其中的多部分,從而對(duì)每部分物體分別進(jìn)行實(shí)例分割,得到最終結(jié)果,效果如圖8 所示。
圖8 二次檢測(cè)效果圖Fig.8 Experimental rendering of secondary detection
4.4.3 多尺度融合模塊的對(duì)比實(shí)驗(yàn)
多尺度融合模塊的設(shè)計(jì)可以在粗割模塊和精割模塊中起到銜接作用,增強(qiáng)上下文語(yǔ)義信息,擴(kuò)大感受野,從而得到更加精確的分割結(jié)果。對(duì)于多尺度融合模塊的有效性,本文做了對(duì)比實(shí)驗(yàn),表2 的實(shí)驗(yàn)結(jié)果分別是不加多尺度融合模塊,和加不同擴(kuò)張率的多尺度融合模塊的最終平均分割精度,表中-Multi-scale fusion module 代表不加多尺度融合模塊的實(shí)驗(yàn)結(jié)果,+Multi-scale fusion module_1 代表加擴(kuò)張率為2、4、8 的多尺度融合模塊的實(shí)驗(yàn)結(jié)果,+Multi-scale fusion module_2 代表加擴(kuò)張率為1、3、5 的多尺度融合模塊的實(shí)驗(yàn)結(jié)果。通過(guò)表2 中的數(shù)據(jù)可以發(fā)現(xiàn),添加多尺度融合模塊有助于提升分割精度,尤其是對(duì)圖像中大物體的分割精度,減少了精度損失,且擴(kuò)張率為1、3、5時(shí)分割精度最高。
表2 多尺度融合模塊實(shí)驗(yàn)結(jié)果Tab.2 Experimental results of multi-scale fusion module
4.4.4 在Cityscapes 數(shù)據(jù)集上的表現(xiàn)
在Cityscapes 數(shù)據(jù)集上采用分段式訓(xùn)練方式,先對(duì)檢測(cè)網(wǎng)絡(luò)CenterNet 進(jìn)行訓(xùn)練,再將訓(xùn)練好的結(jié)果與漸進(jìn)式分割網(wǎng)絡(luò)共同訓(xùn)練。實(shí)驗(yàn)中設(shè)置學(xué)習(xí)率lr=9le-5,batch-size=4,經(jīng)過(guò)訓(xùn)練,最終的測(cè)試結(jié)果如圖9 所示。從圖9 中的實(shí)驗(yàn)效果可以看出,基于目標(biāo)輪廓的實(shí)例分割網(wǎng)絡(luò)可以很好地對(duì)圖片中的物體進(jìn)行實(shí)例分割,如圖中的小汽車(chē)分割出的物體輪廓很好地貼合了物體邊緣,對(duì)于較遠(yuǎn)、較小的物體也都很好地給出了物體輪廓。通過(guò)表3 和表4 中的實(shí)驗(yàn)數(shù)據(jù)也不難發(fā)現(xiàn),本文方法相較于Mask R-CNN 經(jīng)典的基于檢測(cè)框的實(shí)例分割方法,無(wú)論在整體實(shí)例分割精度還是部分物體實(shí)例分割精度都有明顯優(yōu)勢(shì);相較于PANet 自底向上“雙塔戰(zhàn)術(shù)”的方法,在平均精度以及部分實(shí)例物體的分割精度都有所提升;對(duì)比Deep Snake 方法,平均精度也提升了0.7%AP 和1.5%AP50。
表3 Cityscapes 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果(AP)Tab.3 Results from the Cityscapes dataset(AP)
表4 Cityscapes 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果(AP50)Tab.4 Results from the Cityscapes dataset(AP50)
圖9 Cityscapes 數(shù)據(jù)集實(shí)驗(yàn)效果Fig.9 Experimental effect of Cityscpes dataset
4.4.5 在KINS 數(shù)據(jù)集上的表現(xiàn)
將檢測(cè)網(wǎng)絡(luò)CenterNet 與漸進(jìn)式分割網(wǎng)絡(luò)共同訓(xùn)練。實(shí)驗(yàn)中設(shè)置學(xué)習(xí)率lr=le-4,batchsize=4,經(jīng)過(guò)訓(xùn)練后,得到最終的測(cè)試結(jié)果如圖10 所示。從圖10 中的實(shí)驗(yàn)效果可以看出,圖像中即使部分物體被遮擋,也可以很好地滿(mǎn)足數(shù)據(jù)集要求得到正確的分割結(jié)果,且對(duì)于圖中小汽車(chē)、自行車(chē)和行人的分割輪廓貼合目標(biāo)物體,光滑無(wú)突出棱角。通過(guò)表5 中的實(shí)驗(yàn)結(jié)果可以看出,在KINS 數(shù)據(jù)集中,本文方法較目前其他優(yōu)秀工作在平均分割精度上有所提高,對(duì)比Deep Snake 方法提升了0.7%AP。
表5 KINS 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果Tab.5 Results from the KINS dataset
圖10 KINS 數(shù)據(jù)集實(shí)驗(yàn)效果Fig.10 Experimental effect of KINS dataset
本文針對(duì)實(shí)例分割中存在小物體分割慢、分割精度低、分割邊緣不平滑等,提出了基本目標(biāo)輪廓的實(shí)例分割方法。通過(guò)提取物體輪廓上的結(jié)點(diǎn),可加快分割速度;通過(guò)漸進(jìn)式分割網(wǎng)絡(luò),多層次提取輪廓特征,再進(jìn)行多尺度融合,利用擴(kuò)張的圓形卷積增大感覺(jué)野,豐富了特征細(xì)節(jié);通過(guò)極差標(biāo)準(zhǔn)化降低輪廓對(duì)輪廓回歸變形的影響。算法在實(shí)驗(yàn)數(shù)據(jù)集Cityscapes 和KINS 中的分割精度達(dá)到了32.4%和32.0%,分割邊緣的平滑程度與貼合程度更佳,實(shí)驗(yàn)結(jié)果驗(yàn)證了算法的有效性和正確性。