毛 琳,任鳳至,楊大偉,張汝波
(大連民族大學(xué) 機電工程學(xué)院,遼寧 大連116600)
全景分割任務(wù)的失效問題在于對目標(biāo)邊界像素分類判別的準(zhǔn)確程度低。特別是對全景環(huán)境中實例目標(biāo)來說,由于其數(shù)量大、多為小目標(biāo)且存在遮擋等現(xiàn)象,目標(biāo)邊緣易與背景信息發(fā)生混淆,輪廓特征不明顯,導(dǎo)致分割準(zhǔn)確率大大下降。因此對實例目標(biāo)邊緣特征的準(zhǔn)確把握成為影響全景分割精度的重要問題。
目前,Mask RCNN(Region-based Convolutional Neural Networks)[1]是 全 景 分 割 算 法 中 實例分割結(jié)構(gòu)的主流框架。它以殘差網(wǎng)絡(luò)[2]結(jié)合特征 金字塔(Panoptic Feature Pyramid Network,PFPN)[3]作為網(wǎng)絡(luò)主干,而后承接掩模結(jié)構(gòu)用于生成實例掩模,實現(xiàn)分割功能。 由于Mask RCNN 結(jié)構(gòu)與語義分割[4-7]配合、融合關(guān)系的不同導(dǎo)致全景分割算法的差異。
在利用Mask RCNN 和語義分割融合處理方面 ,UPSNet(Unified Panoptic Segmentation Network)[8]提出一種全景融合機制來合并兩結(jié)構(gòu)分割結(jié)果,通過對分割結(jié)果進行拆分等處理生成一個待定區(qū)來避免錯誤的分類預(yù)測。該算法采用Mask RCNN 分割網(wǎng)絡(luò),其分割結(jié)構(gòu)僅由一支串聯(lián)卷積層組構(gòu)成,特征在層級傳遞過程中不斷精簡,容易出現(xiàn)特征損失,破壞目標(biāo)特征原始信息;卷積結(jié)構(gòu)萃取深度有限,導(dǎo)致目標(biāo)邊緣特征提取不足,實例分割結(jié)構(gòu)的局限性使得全景融合結(jié)構(gòu)有 效 性 大 大 降 低 。 同 樣 地 ,OANet(Occlusion Aware Network)[9]提 出 一 種 空 間 排 序 模 塊 來 用于融合實例和語義分割結(jié)果。該模塊將不同類別實例分割掩膜映射到其對應(yīng)通道,使用卷積結(jié)構(gòu)進行特征提取得到空間排序得分圖,解決實例間存在遮擋的問題。該算法對實例分割結(jié)果中目標(biāo)進行了空間上的排序,由于Mask RCNN 結(jié)構(gòu)上的缺陷導(dǎo)致識別目標(biāo)數(shù)量有限,使得排序模塊實用性不高。在Mask RCNN 和語義分割結(jié)構(gòu)的配合關(guān)系上,TASCNet(Things and Stuff Consistency Network)[10]和AUNet(Attention-guided Unified Network)[11]分別提出目標(biāo)一致性和注意力機制兩種模塊來建立實例和語義兩分割結(jié)構(gòu)之間的聯(lián)系。TASCNet 注重兩種分割任務(wù)結(jié)果的一致性研究,通過全局二值化掩模來調(diào)整跨任務(wù)一致性,減弱全景分割模型中實例分割和語義分割兩任務(wù)的差異性;AUNet 把重點放在對前、后景信息的交互利用上。通過注意力機制模塊,該算法實現(xiàn)了實例和語義兩種分割結(jié)果與對方網(wǎng)絡(luò)的雙向傳遞,將分割結(jié)果互為參考,共同作用提高分割精度。 TASCNet 和AUNet 兩個網(wǎng)絡(luò)為保持兩種分割結(jié)果尺寸的一致性,將Mask RCNN 掩模分支得到的數(shù)據(jù)信息進行了大量上采樣操作。 除Mask RCNN 結(jié)構(gòu)本身問題之外,上采樣處理非常容易破壞目標(biāo)邊緣特性,導(dǎo)致實例目標(biāo)輪廓特征不明顯,出現(xiàn)分割失效情況。
一般來說,神經(jīng)網(wǎng)絡(luò)獲得圖像特征的豐富程度與網(wǎng)絡(luò)結(jié)構(gòu)深度有直接關(guān)系[12]。想要增強目標(biāo)特征,獲取更多更詳細的特征信息,加深網(wǎng)絡(luò)結(jié)構(gòu)是一個可取的選擇[13],但是特征萃取越深,其原始信息越容易丟失,如何在保證原始特征信息的同時,加深網(wǎng)絡(luò)結(jié)構(gòu)、增強目標(biāo)邊緣特征成為一個關(guān)鍵問題。
基于上述問題,本文提出實例特征深度鏈?zhǔn)綄W(xué)習(xí)全景分割網(wǎng)絡(luò)(Deep Instance Feature Chain Learning Network for Panoptic Segmentation,INFNet),網(wǎng)絡(luò)通過一種創(chuàng)新的單元結(jié)構(gòu)——鏈?zhǔn)絾卧亩询B不斷加深萃取深度,獲取豐富的目標(biāo)輪廓信息,增強實例目標(biāo)邊緣特征。同時,為保留特征原始信息,網(wǎng)絡(luò)采用捷徑連接[2,14]結(jié)構(gòu),保證特征在傳遞過程中原始信息的完整性,避免因網(wǎng)絡(luò)結(jié)構(gòu)加深導(dǎo)致信息損失的風(fēng)險。網(wǎng)絡(luò)深度和信息完整保持,使特征質(zhì)量得到保障,提升實例對象邊緣特征顯著性,有效提高目標(biāo)邊界區(qū)域分類準(zhǔn)確性。
鏈?zhǔn)絾卧菍嵗卣魃疃孺準(zhǔn)綄W(xué)習(xí)網(wǎng)絡(luò)的基本組成單位,它由主副兩條鏈路組成,學(xué)習(xí)函數(shù)F 所在鏈路為主鏈路,捷徑連接的鏈路為副鏈路。鏈?zhǔn)絾卧Y(jié)構(gòu)如圖1 所示。
圖1 鏈?zhǔn)絾卧狥ig. 1 Chain unit
鏈?zhǔn)絾卧獢?shù)學(xué)描述如下:
其 中 :x1和x2是 鏈 式 單 元 輸 入 向 量 ,y1和y2是 單元輸出向量。函數(shù)F(x1,W) 為輸入向量x1的學(xué)習(xí)函數(shù),學(xué)習(xí)函數(shù)由三層卷積層構(gòu)成,進一步可表 達 為F=W3σ(W2σ(W1(x1))),其 中σ表 示 激活函數(shù)ReLU[15]。
主鏈路是鏈?zhǔn)絾卧饕男畔⑻幚礞溌?,通過學(xué)習(xí)函數(shù)F對輸入向量進行特征學(xué)習(xí),F(xiàn)的學(xué)習(xí)函數(shù)F(x1) 可看作是輸入向量x1的特征表達。主鏈路通過學(xué)習(xí)函數(shù)獲取豐富的特征信息,其輸出結(jié)果為鏈?zhǔn)絾卧敵鰕1;副鏈路通過捷徑連接保持原始特征,將輸入向量向后一級跨越式傳遞,副鏈路和主鏈路的融合結(jié)果為鏈?zhǔn)絾卧敵鰕2。
鏈?zhǔn)絾卧脑O(shè)計受到殘差網(wǎng)絡(luò)的啟發(fā),但鏈?zhǔn)絾卧蜌埐罹W(wǎng)絡(luò)單元結(jié)構(gòu)的差別在于,殘差單元只有一個輸入端和一個輸出端,而鏈?zhǔn)絾卧哂须p端輸入和雙端輸出,這種結(jié)構(gòu)特點,一方面為鏈?zhǔn)絾卧撵`活組合提供了條件,相比殘差網(wǎng)絡(luò)單一結(jié)構(gòu)復(fù)制的構(gòu)成原理,鏈?zhǔn)絾卧碾p端設(shè)計給整體網(wǎng)絡(luò)的搭建創(chuàng)造了更多的可能性;另一方面,基于特征層面分析,雙端輸入、輸出的結(jié)構(gòu)使得不同層次的圖像特征能夠得以保留,或傳遞給下一個鏈?zhǔn)絾卧?,有助于?gòu)造網(wǎng)絡(luò)特征的層次體系。
總體上看,鏈?zhǔn)絾卧汕跋蛏窠?jīng)網(wǎng)絡(luò)(主鏈路)和捷徑連接(副鏈路)構(gòu)成實現(xiàn)。主鏈路執(zhí)行網(wǎng)絡(luò)功能操作完成信息萃取過程;副鏈路通過恒等映射保留原始數(shù)據(jù),保證下一級結(jié)構(gòu)所得信息的完整性。
實例特征深度鏈?zhǔn)綄W(xué)習(xí)網(wǎng)絡(luò)由兩種功能不同的鏈?zhǔn)絾卧M合構(gòu)成,根據(jù)單元對特征的不同處理操作,將鏈?zhǔn)絾卧譃樘卣鞅3宙満吞卣髟鰪婃渻煞N形式。
2.2.1 特征保持鏈
鏈?zhǔn)綄W(xué)習(xí)網(wǎng)絡(luò)的第一個鏈?zhǔn)絾卧ㄓ址Q第一環(huán))直接接收原始輸入信息并執(zhí)行學(xué)習(xí)函數(shù)功能操作,而后連接下一單元。作為原始輸入數(shù)據(jù)和下一級特征提取結(jié)構(gòu)的中間環(huán)節(jié),第一環(huán)能否在實現(xiàn)自身學(xué)習(xí)功能基礎(chǔ)上為后續(xù)結(jié)構(gòu)提供完整數(shù)據(jù)成為決定網(wǎng)絡(luò)性能的重要問題。
為滿足輸入信息的完整傳遞,本文提出在Mask RCNN 分割網(wǎng)絡(luò)卷積結(jié)構(gòu)基礎(chǔ)之上,增加一條捷徑連接線對輸入特征執(zhí)行恒等映射操作,并將此作為鏈?zhǔn)絾卧辨溌?,直接傳遞原始信息。以恒等映射的方式來構(gòu)建網(wǎng)絡(luò),可以保證輸入信息的完整性、不會產(chǎn)生額外參數(shù)、造成網(wǎng)絡(luò)計算量的增加,提高網(wǎng)絡(luò)性能。
同時,為增強圖像特征、保證鏈?zhǔn)絾卧撵`活輸性,將第一環(huán)的主、副鏈路同時接入一個輸入向量x,獲取圖像特征信息,這相當(dāng)于鏈?zhǔn)絾卧獌蓚€輸入相同時的特例形式。特征保持鏈如圖2所示。
圖2 特征保持鏈Fig. 2 Feature holding chain
將兩條鏈路傳遞結(jié)果進行融合,設(shè)Δx=F(x),表示輸入信號經(jīng)過學(xué)習(xí)函數(shù)操作后的增強特征,則公式(2)可以等效為:
可以看出,輸出y2相當(dāng)于輸入信息x與自身增強特征Δx的融合結(jié)果。對x來說,鏈?zhǔn)骄W(wǎng)絡(luò)第一環(huán)在完成卷積函數(shù)增強操作的同時,繼承了殘差網(wǎng)絡(luò)捷徑連接的優(yōu)點,實現(xiàn)了原始特征完整保留,為下一單元的工作提供了全面的信息資料。在網(wǎng)絡(luò)結(jié)構(gòu)具有一定深度的前提下,對輸入數(shù)據(jù)的完整保持是該單元特色所在,故將該單元稱為特征保持鏈。
2.2.2 特征增強鏈
基于特征保持鏈特點,鏈?zhǔn)綄W(xué)習(xí)網(wǎng)絡(luò)第二環(huán)能夠獲得完整的輸入特征,作為鏈?zhǔn)綄W(xué)習(xí)網(wǎng)絡(luò)特征學(xué)習(xí)的主要結(jié)構(gòu),該單元對原始特征提取利用的程度是衡量鏈?zhǔn)骄W(wǎng)絡(luò)有效性的重要標(biāo)準(zhǔn)。
為保證特征信息有效傳遞,將第二環(huán)主鏈路、副鏈路分別連接第一環(huán)的副鏈路和主鏈路,相當(dāng)于將第二環(huán)鏈?zhǔn)絾卧椒D(zhuǎn)后重新接入。特征增強鏈結(jié)構(gòu)圖如圖3 所示。
圖3 特征增強鏈Fig. 3 Feature enhancement chain
第二環(huán)主鏈路承接第一環(huán)副鏈路的融合輸出y2并對輸出特征實施學(xué)習(xí)函數(shù)操作。第二環(huán)副鏈路連接第一環(huán)主鏈路并通過捷徑連接將對主鏈路輸出執(zhí)行恒等映射,得到y(tǒng)1。主副兩條鏈路結(jié)果的融合構(gòu)成了單元的融合輸出y3,其計算公式如下:
其中,學(xué)習(xí)函數(shù)F(y2) 的操作實現(xiàn)了對y2的融合成分F(x) 的再次提取,得到了更深層提取結(jié)果F(F(x))。y1表現(xiàn)為上一環(huán)特征提取結(jié)果F(x)。為具體說明該單元對特征的利用程度,從特征提取角度出發(fā),公式(4)可等效為:
同理,設(shè)Δ(F(x)) =F(F(x)),表示F(x) 經(jīng)過學(xué)習(xí)函數(shù)處理后的增強特征,則公式(5)進一步有:
顯然,鏈?zhǔn)骄W(wǎng)絡(luò)第二環(huán)輸出結(jié)果y3相當(dāng)于F(x) 與自身增強特征Δ(F(x)) 的融合結(jié)果。第二環(huán)接收了第一環(huán)中的特征F(x),基于捷徑連接結(jié)構(gòu),在網(wǎng)絡(luò)傳遞過程中,該特征得以完整保持,且借助學(xué)習(xí)函數(shù),特征可實現(xiàn)進一步的加強深化過程,得到其增強特征Δ(F(x))。
對輸入信息x來說,鏈?zhǔn)骄W(wǎng)絡(luò)第二環(huán)實現(xiàn)了其局部特征F(x) 的保持過程和增強過程。由于局部特征本身也是x的一種增強表達方式,于是該單元的本質(zhì)就是對輸入特征的融合增強功能,故將該單元稱為特征增強鏈。
假定隨著網(wǎng)絡(luò)深度增加,系統(tǒng)性能可以繼續(xù)提升,那么將特征增強鏈進行連續(xù)堆疊則可以實現(xiàn)特征的持續(xù)增強,深層挖掘目標(biāo)邊緣特征信息,提高特征表達能力。特征增強鏈的組合如圖4 所示。
圖4 特征增強鏈的組合Fig. 4 Combination of feature enhancement chains
實例特征深度鏈?zhǔn)綄W(xué)習(xí)網(wǎng)絡(luò)由1 個特征保持鏈和多個特征增強鏈構(gòu)成。下面給出包含n個鏈?zhǔn)絾卧ㄆ渲泻? 個特征保持鏈和(n-1)個特征增強鏈)的實例特征深度鏈?zhǔn)綄W(xué)習(xí)網(wǎng)絡(luò)的數(shù)學(xué)表達:
其中:當(dāng)n= 1 時,y2n代表特征保持鏈輸出F(x) +x,是鏈?zhǔn)絾卧奶乩?/p>
公式(7)網(wǎng)絡(luò)輸出結(jié)果中F···(F(F(x))) 等效為信息深度萃取過程,表示特征增強成分;y2n-3,F(xiàn)(y2n-2) 等效為信息保持過程,表示特征原始成分。 由此可見,鏈?zhǔn)綄W(xué)習(xí)網(wǎng)絡(luò)中每個單元都能在保證原始信息基礎(chǔ)上進行特征的深層提取。
雙環(huán)實例特征鏈?zhǔn)綄W(xué)習(xí)網(wǎng)絡(luò)由兩個鏈?zhǔn)絾卧獦?gòu)成,第一環(huán)為特征保持鏈,第二環(huán)為特征增強鏈。網(wǎng)絡(luò)結(jié)構(gòu)如圖5 所示。
根據(jù)公式(7)推導(dǎo),當(dāng)n=2 時,雙環(huán)鏈?zhǔn)骄W(wǎng)絡(luò)計算公式為:
由公式(8)可見,通過鏈?zhǔn)骄W(wǎng)絡(luò),輸入圖像特征x經(jīng)過了兩個單元的特征融合和增強過程。第一環(huán)保持原始特征傳遞和進行信息初步提取,第二環(huán)保留第一環(huán)數(shù)據(jù)信息,并加入了單元本身的特征抽象結(jié)果,最后進行特征融合完成數(shù)據(jù)增強過程。
圖5 雙環(huán)實例特征鏈?zhǔn)綄W(xué)習(xí)網(wǎng)絡(luò)Fig. 5 Dual ring instance feature chain learning network
本文將雙環(huán)鏈?zhǔn)骄W(wǎng)絡(luò)所提取特征圖和Mask RCNN 中分割結(jié)構(gòu)提取到的特征圖進行了可視化對比,對鏈?zhǔn)綄W(xué)習(xí)網(wǎng)絡(luò)特征增強效果進行說明。特征可視化對比如圖6 所示。
如圖6 所示,在圖6(a)簡單場景下,鏈?zhǔn)骄W(wǎng)絡(luò)獲得特征更豐富、詳細。 鏈?zhǔn)骄W(wǎng)絡(luò)能對空中飛機和橋梁等目標(biāo)都提取到更多的特征信息,目標(biāo)輪廓更加清晰、顯著;在相對較為復(fù)雜的場景下,如圖6(b)室內(nèi)環(huán)境、圖6(c)多實例場景和圖6(d)道路交通場景中,鏈?zhǔn)骄W(wǎng)絡(luò)對實例目標(biāo)的邊緣特征更為敏感,對窗戶、人物和樓房等實例的邊緣刻畫更加細致,獲得的特征質(zhì)量更高。
圖6 Mask RCNN 和鏈?zhǔn)骄W(wǎng)絡(luò)特征圖對比Fig. 6 Comparison between Mask RCNN and chain network feature maps
基于鏈?zhǔn)綄W(xué)習(xí)網(wǎng)絡(luò)在實例目標(biāo)分割上的優(yōu)勢,將其與標(biāo)準(zhǔn)語義分割網(wǎng)絡(luò)搭配,構(gòu)建全景分割網(wǎng)絡(luò),以提高前景目標(biāo)的分割精度,從而提升全景分割的整體質(zhì)量。 網(wǎng)絡(luò)結(jié)構(gòu)圖如圖7所示。
圖7 全景分割實例特征深度鏈?zhǔn)綄W(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig. 7 INFNet in panoptic segmentation
算法流程如下:
第一步,輸入數(shù)據(jù)集圖像,通過上、下采樣等手段對輸入圖像進行整體地特征粗提取過程;
第二步,將提取到的圖像特征傳遞到鏈?zhǔn)綄W(xué)習(xí)網(wǎng)絡(luò),進行實例特征增強,強化實例目標(biāo)的邊緣特征,生成實例掩模;
第三步,將提取到的圖像特征傳遞到語義分割分支網(wǎng)絡(luò)生成語義分割結(jié)果;
第四步,將實例掩模和語義分割結(jié)果送入全景融合機制,生成全景分割結(jié)果。
實 驗 采 用MS COCO2018[16]和Cityscapes[17]兩個數(shù)據(jù)集來進行訓(xùn)練和測試過程。COCO 是用于視覺場景理解的公開數(shù)據(jù)集,圖像大多從日常場景中提取。COCO 2018 包含了80 種實例目標(biāo)和53 種背景填充物,大約120 000 個訓(xùn)練樣本;Cityscapes 是用于城市道路交通場景分析的數(shù)據(jù)集,圖像大多從交通場景中提取,其中包含8 種實例目標(biāo)和11 種背景填充物,大約5 000 張圖片。
本文在pytorch 的實驗平臺之上,使用4 塊GPU 訓(xùn)練全景分割網(wǎng)絡(luò)模型。 訓(xùn)練網(wǎng)絡(luò)模型時,將批尺寸設(shè)定為1,學(xué)習(xí)率設(shè)置為0. 05,權(quán)重衰減設(shè)置為0. 000 1。對COCO 數(shù)據(jù)集,訓(xùn)練迭代次數(shù)為400 000 次,在迭代次數(shù)為240 000 和320 000 時降低了學(xué)習(xí)率;Cityscapes 數(shù)據(jù)集訓(xùn)練了48 000 次,在迭代次數(shù)為36 000 次時降低了學(xué)習(xí)率。鏈?zhǔn)綄W(xué)習(xí)網(wǎng)絡(luò)中每個卷積核大小設(shè)定為3×3,通道數(shù)256,鏈?zhǔn)絾卧诤锨笆褂谜齽t化手段分別處理主鏈路和副鏈路的特征。語義分割和全景融合網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計基于文獻[8]實現(xiàn)。
為評估算法表現(xiàn),體現(xiàn)全景分割算法對實例目標(biāo)的分割效果,采用實例掩模預(yù)測的AP(Average Precision)[18-19]值作為衡量標(biāo)準(zhǔn)檢驗實例分割的分割精度,AP 值是所有樣本檢測精度平均值,其值越高,對實例目標(biāo)的識別越準(zhǔn)確;針對全景分割模型中語義分割的評價,采用mIoU(Mean of Intersection over Union)[4]作 為 衡 量 標(biāo)準(zhǔn)檢驗分割精度。mIoU 通過計算分割預(yù)測圖和分割真實圖的交集占二者并集的比例來表示分割準(zhǔn)確率,mIoU 值越大,預(yù)測分割圖越準(zhǔn)確。其計算公式為:
其中:nc表示圖像包含的類別總數(shù),ngp表示實際類別為g 而被預(yù)測為類別p 的像素點數(shù)。
針對全景分割效果評價,本文采用全景分割質(zhì)量評價指標(biāo)PQ(Panoptic Quality),SQ(Segmentation Quality)和RQ(Recognition Quality)[20]對實驗結(jié)果進行評估并和其他算法進行比較。
其中:T(True),F(xiàn)(False),N(Negative)分別代表正確匹配的分割圖、錯誤匹配的分割預(yù)測圖和錯誤匹配的分割真值圖[20]。匹配閾值設(shè)定為0. 5,當(dāng)兩個預(yù)測區(qū)域的IoU≥0. 5 時,判定這兩個區(qū)域正確匹配,反之亦然。
PQ 用于計算匹配分割圖的平均IoU,同時懲罰不匹配分割圖;SQ 用來計算匹配分割圖的平均IoU;RQ 計算正確匹配分割圖在所有匹配情況中所占比率。為區(qū)分說明不同目標(biāo)種類分割結(jié)果,提出用PQTh和PQSt分別代表實例目標(biāo)和背景填充物的全景質(zhì)量評價指標(biāo)。
將式(10)、式(11)和式(12)進一步整理可得到PQ 和SQ、RQ 三者的關(guān)系:
由式(13)可見,PQ 和SQ,RQ 的乘積成正比關(guān)系,SQ 和RQ 值越高,說明分割預(yù)測圖和分割真值圖匹配程度越大,PQ 值也越高。PQ 值越高,目標(biāo)分割越準(zhǔn)確,全景分割精度越高。
本文在MS COCO 數(shù)據(jù)集和Cityscapes 數(shù)據(jù)集上進行了大量的實驗仿真測試,為比對說明,記錄和統(tǒng)計了在COCO 數(shù)據(jù)集和Cityscapes 數(shù)據(jù)集上的其他全景分割算法的實驗結(jié)果,分割結(jié)果對比如表1~表2 所示。
從表1~表2 中實驗數(shù)據(jù)可以看出,對比現(xiàn)有全景分割算法,本文提出的INFNet 的實驗結(jié)果在PQ,SQ 和RQ 三個全景分割評價指標(biāo)上均有提升。其中,在COCO 數(shù)據(jù)集,INFNet 的PQ 值相較于UPSNet 提高了0. 94%;在Cityscapes,INFNet 提 高 了0. 34%。 另 外 在AP 和mIoU 這兩個指標(biāo)上,INFNet 的表現(xiàn)也十分優(yōu)秀。
為更詳細地說明,本文將INFNet 的全景分割結(jié)果和全景分割算法UPSNet 的分割結(jié)果進行了比較。其中,UPSNet 模型實例分割網(wǎng)絡(luò)采用Mask RCNN 結(jié)構(gòu),INFNet 模型實例分割架構(gòu)采用鏈?zhǔn)綄W(xué)習(xí)網(wǎng)絡(luò)。INFNet 和UPSNet 的分割結(jié)果對比如圖8 所示。
表1 MS COCO 數(shù)據(jù)集全景分割結(jié)果對比Tab. 1 Segmentation result comparisons on the MS COCO dataset
表2 Cityscapes 數(shù)據(jù)集全景分割結(jié)果對比Tab. 2 Segmentation result comparisons on the Cityscapes dataset
圖8 INFNet 和UPSNet 分割結(jié)果對比Fig. 8 Comparison of segmentation results between INFNet and UPSNet
圖8 中(a)~(c)3 組圖片來自COCO 數(shù)據(jù)集;圖8 中(d)和(e)兩組圖片來自Cityscapes 數(shù)據(jù)集。在多實例場景下,INFNet 對實例目標(biāo)邊緣輪廓的刻畫十分準(zhǔn)確。如圖8(a),INFNet 能夠完整識別圖中所有橘子,并且分割輪廓平滑美觀;在小目標(biāo)較多的室內(nèi)場景中,如圖8(b),INFNet 對躺椅、壁爐和圓形茶桌等小目標(biāo)的分割效果比UPSNet 更好,分割輪廓更加規(guī)范。圖8(c)中,在前背景顏色相近的室外場景中,INFNet 對大象等實例目標(biāo)的分割幾乎沒有受到干擾,實例邊緣清晰顯著。在道路交通環(huán)境中,由于場景復(fù)雜度高導(dǎo)致分割難度加大,但INFNet 對實例目標(biāo)的識別仍然具有優(yōu)勢。如圖8(d),INFNet 對人行步道的識別相比UPSNet 更加具有輪廓感;圖8(e)中INFNet 能夠準(zhǔn)確識別出UPSNet 漏檢的垃圾桶等實例。
為驗證本文方法的實時性對算法運行時間進行了比較。實驗設(shè)置與上文實驗一致,運行時間對比結(jié)果如表3 所示。在分割質(zhì)量有效提高的情況下,INFNet 的運行時間與UPSNet 基本上處于相同的水平,這說明INFNet 在準(zhǔn)確性和實時性的平衡上表現(xiàn)得更加優(yōu)秀。
表3 運行時間對比Tab. 3 Run time comparison
針對全景分割網(wǎng)絡(luò)對實例目標(biāo)邊界分類不準(zhǔn)確導(dǎo)致分割失效的問題,本文提出了實例特征深度鏈?zhǔn)綄W(xué)習(xí)網(wǎng)絡(luò)。首先,設(shè)計了構(gòu)成鏈?zhǔn)骄W(wǎng)絡(luò)的基本結(jié)構(gòu)——鏈?zhǔn)絾卧?,通過捷徑連接和卷積層組兩種結(jié)構(gòu)完成特征提取操作。根據(jù)功能不同將單元分為特征保持鏈和特征增強鏈分別實現(xiàn)對特征信息的保持和增強。進而,通過兩種鏈?zhǔn)絾卧慕M合構(gòu)成鏈?zhǔn)綄W(xué)習(xí)網(wǎng)絡(luò),繼承鏈?zhǔn)絾卧攸c,實現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)的深化和特征的持續(xù)增強,完成邊緣特征深度提取,提高邊界像素分類準(zhǔn)確性,有效地解決了分類不清致使的分割失效問題。實驗證明,本文提出的INFNet 在分割精度優(yōu)于經(jīng)典全景分割方法UPSNet,在PQ 指標(biāo)上提高了0. 94%。在后續(xù)工作中,將對鏈?zhǔn)骄W(wǎng)絡(luò)的深度拓展進行進一步研究。