汪丹丹,張旭東,范之國,孫 銳
基于RGB-D的反向融合實(shí)例分割算法
汪丹丹,張旭東,范之國,孫 銳
(合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,安徽 合肥 230009)
RGB-D圖像在提供場景RGB信息的基礎(chǔ)上添加了Depth信息,可以有效地描述場景的色彩及三維幾何信息。結(jié)合RGB圖像及Depth圖像的特點(diǎn),提出一種將高層次的語義特征反向融合到低層次的邊緣細(xì)節(jié)特征的反向融合實(shí)例分割算法。該方法通過采用不同深度的特征金字塔網(wǎng)絡(luò)(FPN)分別提取RGB與Depth圖像特征,將高層特征經(jīng)上采樣后達(dá)到與最底層特征同等尺寸,再采用反向融合將高層特征融合到低層,同時在掩碼分支引入掩碼優(yōu)化結(jié)構(gòu),從而實(shí)現(xiàn)RGB-D的反向融合實(shí)例分割。實(shí)驗(yàn)結(jié)果表明,反向融合特征模型能夠在RGB-D實(shí)例分割的研究中獲得更加優(yōu)異的成績,有效地融合了Depth圖像與彩色圖像2種不同特征圖像特征,在使用ResNet-101作為骨干網(wǎng)絡(luò)的基礎(chǔ)上,與不加入深度信息的Mask R-CNN相比平均精度提高10.6%,比直接正向融合2種特征平均精度提高4.5%。
Depth圖像;實(shí)例分割;特征融合;反向融合;掩碼優(yōu)化
實(shí)例分割[1]是對圖片中的各個實(shí)例進(jìn)行區(qū)分,是一個像素級識別對象的任務(wù),隨著人工智能的不斷發(fā)展,實(shí)例分割在計(jì)算機(jī)視覺領(lǐng)域的需求也逐漸提高,其需要正確識別圖像中的不同個體信息,并對圖像中的每一個像素進(jìn)行逐個標(biāo)記,還需要對同一類別的像素進(jìn)行分類[2-5],最終實(shí)現(xiàn)分割。
目前,針對實(shí)例分割的研究主要采用RGB圖像,全卷積實(shí)例語義分割(fully convolutional instance- aware segmentation,F(xiàn)CIS)[6]算法是首個全卷積、端到端的實(shí)例分割算法,通過引入位置感知的內(nèi)/外分?jǐn)?shù)映射,使圖像分割與分類可共享特征圖,實(shí)現(xiàn)分類與分割2個子任務(wù)并聯(lián)。Mask R-CNN[7]算法在Faster R-CNN[8]基礎(chǔ)上將RoIPooling層修改為RoIAlign過程,降低池化層取整過程所帶來的損失,并引入由全卷積網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN)[9]構(gòu)成的語義分割分支,將Mask與Class 2個問題分開處理,避免類間競爭問題。PANet[10]網(wǎng)絡(luò)在Mask R-CNN網(wǎng)絡(luò)的特征提取階段引入自上而下的路徑增強(qiáng)結(jié)構(gòu),利用低層特征準(zhǔn)確地定位信息增強(qiáng)整個特征層次,從而縮短了底層與頂層特征之間的信息傳遞路徑。CHEN等[11]結(jié)合Mask R-CNN網(wǎng)絡(luò)和Cascade R-CNN[12]網(wǎng)絡(luò)設(shè)計(jì)一種多任務(wù)多階段的混合級聯(lián)結(jié)構(gòu)來改善信息流,并融合一個語義分割網(wǎng)絡(luò)來增強(qiáng)空間上下文信息。
對于RGB圖像實(shí)例分割的研究已經(jīng)獲取了一定的成果,但僅采用RGB圖像作為輸入,對圖像的空間、邊緣信息考慮并不充分,Depth圖像作為一種特殊類型的圖像,每一個像素點(diǎn)都包含著物體表面對應(yīng)點(diǎn)的深度信息,將Depth圖像信息與彩色圖像信息融合能夠豐富分割任務(wù)的輸入特征信息,可以有效提高分割精度。XIANG等[13]提出局部感知的反卷積神經(jīng)網(wǎng)絡(luò)來提取特征信息,引入門式融合層來有效融合2個層次的特征信息,使得RGB與深度數(shù)據(jù)在每個像素上融合權(quán)值,從而實(shí)現(xiàn)圖像的語義分割。DENG等[14]針對RGB與Depth圖像之間的相互依賴性,提出殘差融合塊網(wǎng)絡(luò)有效融合2個編碼特征,在融合特征時不直接融合RGB與Depth特征,增加一個路徑聚合原始特征和交互特征,減少特征信息的丟失提高語義分割效果。文獻(xiàn)[15]通過實(shí)驗(yàn)表明,在數(shù)據(jù)層融合深度信息可有效提高最終的實(shí)例分割效果,在Mask R-CNN框架下融入深度信息,通過構(gòu)建2種不同復(fù)雜度的特征金字塔網(wǎng)絡(luò)(feature pyramid network,F(xiàn)PN)融合網(wǎng)絡(luò)模型實(shí)現(xiàn)RGB-D實(shí)例分割。SHAO等[16]提出了ClusterNet網(wǎng)絡(luò),將RGB圖像與從攝像機(jī)內(nèi)經(jīng)過特征轉(zhuǎn)換的Depth圖像XYZ經(jīng)CNN層連接后,再將原始Depth圖作為輔助特征連接,最終通過矩空間聚類實(shí)現(xiàn)實(shí)例分割。XIANG等[17]直接將RGB與Depth圖像由FCN網(wǎng)絡(luò)融合,再利用度量學(xué)習(xí)損失函數(shù)生成像素級特征嵌入,利用學(xué)習(xí)到的特征嵌入信息,使用均值漂移聚類算法來發(fā)現(xiàn)和分割不可見的目標(biāo),采用2階段聚類算法實(shí)現(xiàn)不可見物體實(shí)例分割。
綜上,RGB與Depth圖像融合可有效地提取特征信息,然而在融合過程中忽略了低層特征高效地定位能力,針對這些問題,結(jié)合自底向上與自頂向下的特征提取融合方式融合2種不同特征信息。自頂向下的反向融合方式可以為物體提供一些先驗(yàn)知識,從而引導(dǎo)物體的識別。
本文算法利用自底向上與自頂向下2種方式提取并融合特征,在Mask R-CNN網(wǎng)絡(luò)框架下加入深度信息,采用不同深度FPN對RGB與Depth圖像自底向上進(jìn)行特征提取,采用自頂向下方式反向融合2種特征。FPN提取特征過程中隨著層級升高,所包含的語義信息更加豐富,為了有效利用不同層級的特征信息,引入反向融合過程,利用高層的語義特征作為先驗(yàn)特征信息,結(jié)合低層優(yōu)異的特征定位能力獲取更加充分的特征信息來準(zhǔn)確識別物體,將該信息再輸入到RPN (region proposal network)網(wǎng)絡(luò)中進(jìn)行RoI (region of interest)區(qū)域選定能夠獲取更優(yōu)異的效果。
本文采用自底向上特征提取與自頂向下反向特征融合方式實(shí)現(xiàn)RGB-D實(shí)例分割。本文在Mask R-CNN網(wǎng)絡(luò)框架下加入Depth圖像特征,改變網(wǎng)絡(luò)輸入特征,采用RGB圖像與HHA[18]編碼Depth圖像融合特征作為輸入獲得更加完善的分割效果,算法采用FPN結(jié)構(gòu)進(jìn)行自底向上特征提取,在融合Depth圖像的特征信息時,低層特征含有豐富的紋理、顏色等信息,具有精確的物體定位能力,高層特征含有豐富的語義特征,為了充分利用不同層級特征,提出一種自頂向下反向融合的方式來將圖像底層特征融入網(wǎng)絡(luò)。本文算法在反向傳遞過程中,首先對高層次不同尺寸的圖像采用上采樣過程重構(gòu)為底層特征同等尺寸,再經(jīng)過反向融合過程來恢復(fù)自底向上提取特征時損失的本地化信息,而針對RGB圖像與Depth圖像使用不同深度的FPN結(jié)構(gòu)進(jìn)行特征提取,降低Depth圖像在特征提取時的過擬合問題。具體網(wǎng)絡(luò)模型如圖1所示。Mask R-CNN算法的掩碼提取網(wǎng)絡(luò)采用FCN網(wǎng)絡(luò)作為語義分割分支,盡管算法流程簡單,但是在掩碼的提取精度上有所欠缺,造成掩碼邊緣信息的損失,本文在掩碼分支中加入一個邊緣優(yōu)化網(wǎng)絡(luò)來提高掩碼的質(zhì)量,具體實(shí)現(xiàn)過程見1.2節(jié)。
圖1 RGB-D反向融合網(wǎng)絡(luò)示意圖
本文提出將RGB圖像與Depth圖像2種不同特征信息進(jìn)行反向融合,因?yàn)樵谑褂肍PN進(jìn)行多尺度特征提取時,提取的低層特征分辨率高,具有更多的位置、細(xì)節(jié)信息,但語義信息低、噪聲多,而高層特征分辨率低,包含豐富的語義特征,但細(xì)節(jié)的感知能力差,進(jìn)行反向融合能夠充分利用低層特征的邊緣細(xì)節(jié)信息。圖2為RGB與Depth圖像不同層級輸出特征可視化圖像,其中,第2行為HHA編碼的Depth圖像,第3行為原始Depth圖像。HHA編碼的Depth圖像為原始Depth圖像進(jìn)行重新編碼后獲取的圖像,其將原始Depth圖像信息轉(zhuǎn)化為水平差異,對地高度以及表面法向量的角度3種不同通道輸入,相比較普通的Depth圖像包含有更加豐富的特征信息,強(qiáng)調(diào)3個不同通道信息之間可互補(bǔ)。第1行表示RGB圖像FPN1到5的特征輸出;第2行表示HHA編碼Depth圖像FPN_1到_5的特征輸出;第3行表示原始Depth圖像FPN_1到_5的特征輸出。由第2列可以看出1,_1和_1邊緣細(xì)節(jié)信息突出,有利于獲取實(shí)例的邊緣信息,將高層級的語義特征信息反向融合到低層級的邊緣細(xì)節(jié)信息中,充分利用低層特征的精準(zhǔn)定位能力。由第4列RGB圖像與HHA編碼圖像的輸出可以看出由于多通道之間的信息互補(bǔ)還可識別出物體邊緣,而原始Depth圖像因其單一通道使特征信息分散。本文采用自頂向下的反向特征融合方式,以高層特征作為先驗(yàn)知識的過程中,HHA編碼的Depth圖像不同通道之間提供互補(bǔ)信息,使得傳遞到低層特征補(bǔ)充更加完善,從而獲取更加豐富的特征信息。
圖2 不同層級輸出特征
特征反向融合結(jié)構(gòu)如圖1橙色虛線框所示,對于RGB與HHA編碼的Depth圖像采用不同深度特征金字塔結(jié)構(gòu)提取不同尺度特征,RGB圖像的每層級輸出為2,3,4,5,Depth圖像的每層級輸出為2,3,4,5,每個層級輸出特征大小分別為128×128,64×64,32×32,16×16,最后層級的6,6為5,5經(jīng)由max Polling獲取的特征輸出,其輸出大小為8×8,F(xiàn)PN網(wǎng)絡(luò)進(jìn)行特征提取時1,1表示的是特征最底層特征,其輸出的大小為256×256,在采用自頂向下反向融合特征時,將除1,1層以外的其他輸出層上采樣為256×256,對上采樣后的同層特征按元素相加,再將頂層特征逐級按元素相加到下一層,7,8,9,10,11分別表示自頂向下融合過程中每層的輸出特征,0表示最底層特征1,1的融合結(jié)果,特征融合方式均采用簡便的按元素相加方式,降低融合時特征損失,即
其中,CP為彩色圖像的不同層次信息;DP為Depth圖像的不同層次信息;u,v分別為2個特征相比較其第一層縮小的比例;為反向相加的過程。
在RGB與Depth圖像采用FPN進(jìn)行自底向上特征提取時,Depth圖像本身包含的特征信息并沒有彩色圖像豐富,Depth圖像含有豐富的邊緣信息,同一深度的圖像信息十分平滑,將Depth圖像經(jīng)過深層卷積神經(jīng)網(wǎng)絡(luò),在提取Depth圖像特征信息過程中會造成其邊緣信息損失。針對此問題,本文提出降低對Depth圖像的特征提取深度,不改變殘差網(wǎng)絡(luò)的卷積核,使用1×1,3×3,1×1等3種卷積核共同作用,其中第1和第2個1×1卷積核分別對殘差網(wǎng)絡(luò)起到削減維度和恢復(fù)維度作用。采用殘差網(wǎng)絡(luò)作為主干網(wǎng)絡(luò)保證特征提取時降低特征信息損失,跳躍連接使得特征處理中信息匹配完善,對Depth圖像減少網(wǎng)絡(luò)層數(shù),降低特征提取過程中的過擬合問題。以ResNet101[19]為例,殘差塊結(jié)構(gòu)如圖3所示,對于RGB圖像而言,主干網(wǎng)絡(luò)采用完整的ResNet101,其con2_x,con3_x,con4_x,con5_x層數(shù)為3,4,23,3,而針對Depth圖像而言,不改變每個殘差塊,降低con2_x,con3_x,con4_x,con5_x的卷積層數(shù),每個卷積塊層數(shù)都降低為一層,降低Depth圖像特征過度提取。
Mask R-CNN算法對于掩碼輸出網(wǎng)絡(luò)采用FCN結(jié)構(gòu),可以快速地實(shí)現(xiàn)掩碼分割,但是掩碼提取的精度并未有很高,為了提高掩碼精度,本文在掩碼分支加入一個邊緣優(yōu)化結(jié)構(gòu)[20],實(shí)現(xiàn)結(jié)構(gòu)如圖4中虛線框出位置,本文使用的邊緣優(yōu)化網(wǎng)絡(luò)具體結(jié)構(gòu)如圖4黃色框,多層卷積結(jié)構(gòu)在提取信息時會造成一些本地化信息的缺失,在增加卷積層數(shù)同時加入跳躍連接恢復(fù)損失信息,從而獲得更加完善的掩碼信息,降低掩碼損失。Mask R-CNN中Mask分支采用全卷積網(wǎng)絡(luò),對于RPN輸出的RoI經(jīng)過5層卷積結(jié)構(gòu),最終輸出28×28×80的Mask掩碼。本文的掩碼優(yōu)化網(wǎng)絡(luò)將5個卷積層中第二和四層用新的優(yōu)化結(jié)構(gòu)代替,且卷積內(nèi)核采用3×3,利用殘差結(jié)構(gòu)連接確保特征充分提取也不造成過多損失,2個優(yōu)化結(jié)構(gòu)的輸入與輸出都為14×14×256,第二層優(yōu)化結(jié)構(gòu)的輸出再經(jīng)過最后一層卷積層最終輸出更加完善掩碼信息。
圖3 ResNet101網(wǎng)絡(luò)與修改網(wǎng)絡(luò)
圖4 掩碼優(yōu)化網(wǎng)絡(luò)框架
本文實(shí)驗(yàn)分別采用COCO 2014[21]日常RGB場景數(shù)據(jù)集和NYUD2[22]室內(nèi)RGB-D數(shù)據(jù)集。由于NYUD2數(shù)據(jù)集包含的圖像數(shù)量有限,若訓(xùn)練的數(shù)據(jù)量太小則會造成訓(xùn)練模型產(chǎn)生過擬合、異常值無法避免以及難以進(jìn)行優(yōu)化等問題,因此對NYUD2數(shù)據(jù)集的單一圖像均進(jìn)行旋轉(zhuǎn)、縮放比例、翻轉(zhuǎn)和剪裁等方式增加數(shù)據(jù)量,再將擴(kuò)充后的數(shù)據(jù)集進(jìn)行劃分為訓(xùn)練集、確認(rèn)集和測試集。實(shí)驗(yàn)借助COCO數(shù)據(jù)集訓(xùn)練的權(quán)重作為輔助,在對獲取NYUD2數(shù)據(jù)集訓(xùn)練權(quán)重時降低了時間的消耗。本文實(shí)驗(yàn)在NVIDIA TitanGPU上運(yùn)行,平臺系統(tǒng)為Ubuntu 16.04,使用PyTorch深度學(xué)習(xí)框架進(jìn)行模型代碼編程,實(shí)驗(yàn)所用的評價標(biāo)準(zhǔn)為檢測精度AP值,其表示精準(zhǔn)率與召回率之間的關(guān)系,即
其中,為預(yù)測與實(shí)際標(biāo)簽相同的正樣本數(shù)量;為預(yù)測與實(shí)際標(biāo)簽不同的負(fù)樣本數(shù)量;為以實(shí)際為背景但預(yù)測為標(biāo)簽的負(fù)樣本數(shù)量??紤]到不同的IoU (intersection over union)對實(shí)驗(yàn)結(jié)果的影響,選用0.5,0.75不同的IoU閾值進(jìn)行比較。
為了驗(yàn)證掩碼優(yōu)化網(wǎng)絡(luò)的效果,首先在COCO數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),獲得的最終實(shí)驗(yàn)數(shù)據(jù)見表1,其中本文的分割結(jié)果提升了1%~2%。圖5為加入與未加入掩碼優(yōu)化網(wǎng)絡(luò)分割結(jié)果的定性分析,第1行為未加入結(jié)果,第2行為加入結(jié)果,由前兩列分割結(jié)果可以明顯對比出本文提出的掩碼優(yōu)化網(wǎng)絡(luò)對于小目標(biāo)的分割有優(yōu)勢,由后兩列分割結(jié)果可以看出掩碼優(yōu)化網(wǎng)絡(luò)能夠分辨出人群后的樹、地面上的地毯等不易區(qū)分的物體。
表1 優(yōu)化網(wǎng)絡(luò)在不同主干網(wǎng)絡(luò)下的訓(xùn)練數(shù)據(jù)
圖5 COCO數(shù)據(jù)集下掩碼優(yōu)化網(wǎng)絡(luò)的分割結(jié)果
從基于RGB圖像實(shí)驗(yàn)結(jié)果可知,掩碼優(yōu)化網(wǎng)絡(luò)可以獲取更加優(yōu)異的分割效果,本節(jié)采用NYUD2三維數(shù)據(jù)集驗(yàn)證本文提出的反向融合網(wǎng)絡(luò)對于分割結(jié)果的優(yōu)化作用。訓(xùn)練實(shí)驗(yàn)時采用隨機(jī)梯度下降(stochastic gradient descent)對最終實(shí)驗(yàn)結(jié)果進(jìn)行優(yōu)化,學(xué)習(xí)率參數(shù)設(shè)置為0.002,在不同訓(xùn)練階段采用不同的學(xué)習(xí)率,訓(xùn)練HHA的頭網(wǎng)絡(luò)學(xué)習(xí)率為初始學(xué)習(xí)率的十分之一,訓(xùn)練RGB的頭網(wǎng)絡(luò)采用原始的學(xué)習(xí)率,采用不同的學(xué)習(xí)率保證目標(biāo)函數(shù)在合適的時間收斂到局部最小值。實(shí)驗(yàn)動量設(shè)置為0.9,權(quán)重衰減系數(shù)設(shè)置為0.000 1,在經(jīng)過NMS結(jié)構(gòu)之后保留1 000個RoI,選擇前景分割過程中得分最高的100個實(shí)例進(jìn)行分割。
針對不同的特征信息,分別進(jìn)行了RGB,RGB+Depth,RGB+HHA+正向融合和RGB+HHA+反向融合幾種情況下的對比試驗(yàn),正向融合相較與本文反向融合,是將底層特征逐級融合到高層且融合RGB與Depth圖像特征信息。表2為在NYUD2數(shù)據(jù)集下定量分析結(jié)果,同時比較采用不同的主干網(wǎng)絡(luò)對實(shí)驗(yàn)數(shù)據(jù)的影響,從表中可知,只采用RGB圖像作為特征輸入獲得的AP值很?。患尤隓epth圖像信息即采用RGB+Depth+F圖像,其不同特征在多層次的融合過程為前向融合,實(shí)驗(yàn)結(jié)果在主干網(wǎng)絡(luò)為ResNet-101下達(dá)到了3.9%的提升;在RGB+ HHA+F中,將HHA編碼的Depth圖像信息與RGB圖像結(jié)合,并以正向融合的方式使實(shí)驗(yàn)結(jié)果在ResNet-101網(wǎng)絡(luò)中提升了6.1%;在RGB+HHA+R中,HHA編碼采用本文的反向融合方式,將Depth圖像信息與RGB圖像由高層次向低層次中融合,充分利用語義特征信息與邊緣細(xì)節(jié)信息,本文方法將主干網(wǎng)絡(luò)ResNet-101提升了10.6%,效果顯著,同時在Depth圖像的多層次特征提取過程中,降低提取深度特征信息網(wǎng)絡(luò)的深度,減少了深度特征信息損失同時降低了時間的消耗。
不同場景下的分割效果如圖6所示,每一列表示不同的分割場景,第1行為圖像的標(biāo)簽,第2行以RGB圖像作為輸入圖像后的分割效果,第3行為加入HHA編碼的Depth圖像信息,RGB與Depth圖像特征融合方式為正向融合,主要考慮的是提取高層次語義特征信息,第4行為加入HHA編碼的Depth圖像信息,RGB與Depth圖像特征融合方式為反向融合,將高層次的語義特征信息融合到低層次的空間邊緣信息,即本文方法。第3行較第2行能夠分割出更多不易發(fā)現(xiàn)的物體,由于NYUD2數(shù)據(jù)集為室內(nèi)采集的圖像,場景3和4相較于場景1,2,5,6,其光線更加暗,對于顏色相對比較深的圖像信息不容易識別。以場景4為例,采用正向融合HHA編碼的Depth圖像信息的方式無法分割出窗戶的信息,而采用加入HHA Depth圖像信息的方式,能夠分割出窗戶的信息。場景7光線較充分,場景前的桌子與椅子等目標(biāo)明顯的物體容易識別,但對于目標(biāo)小的屋頂?shù)臒魺o法識別,采用本文方法細(xì)節(jié)信息考慮相對充分,在反向融合過程中不會忽略邊緣細(xì)節(jié)信息,從而獲得了更加完善的分割效果。針對場景1,2,5,6的明亮場景下,分割效果優(yōu)勢明顯。
表2 NYUD2數(shù)據(jù)集下分割效果的定量分析(%)
通過實(shí)驗(yàn)證明了本文方法在RGB-D實(shí)例分割任務(wù)中的有效性。為了進(jìn)一步驗(yàn)證本文方法在實(shí)例分割中的優(yōu)越性,在SHAO等[23]的合成數(shù)據(jù)集上進(jìn)行了對比實(shí)驗(yàn),該數(shù)據(jù)集包含有大量剛性物體的RGB-D圖像,表3為本文方法與現(xiàn)有RGB-D的實(shí)例分割方式結(jié)果,從表中可以看出本文方法相比較其他模型在RGB-D實(shí)例分割方向上的準(zhǔn)確率更高。
圖6 NYUD2數(shù)據(jù)集下不同場景分割效果
表3 與現(xiàn)有方法在合成數(shù)據(jù)集下分割效果的定量分析(%)
本文結(jié)合RGB-D三維圖像數(shù)據(jù)集,設(shè)計(jì)一種反向融合特征網(wǎng)絡(luò),在網(wǎng)絡(luò)中將RGB圖像與HHA編碼的Depth圖像信息結(jié)合,使用深度不同的FPN進(jìn)行自底向上的特征提取過程。采用不同的網(wǎng)絡(luò)深度能夠有效降低特征提取過程中過擬合問題,再結(jié)合由頂向下的反向融合方式更好地體現(xiàn)底層的定位信息,同時在掩碼分支引入掩碼優(yōu)化網(wǎng)絡(luò)提高實(shí)例分割效果。實(shí)驗(yàn)結(jié)果表明,本文算法能夠更好地識別小目標(biāo)以及難以分辨的物體。目前所使用的分割數(shù)據(jù)集均具有像素級標(biāo)簽,下一步研究弱監(jiān)督實(shí)例分割算法,針對圖像級別的標(biāo)簽數(shù)據(jù)集進(jìn)行處理。
[1] ROMERA-PAREDES B, TORR P H S. Recurrent instance segmentation[C]//European Conference on Computer Vision. Heidelberg: Springer, 2016: 312-329.
[2] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.
[3] RASTEGARI M, ORDONEZ V, REDMON J, et al. XNOR-net: imageNet classification using binary convolutional neural networks[C]//ECCV -Lecture Notes in Computer Science 2016.Heidelberg: Springer, 2016: 525-542.
[4] SMIRNOV E A, TIMOSHENKO D M, ANDRIANOV S N. Comparison of regularization methods for ImageNet classification with deep convolutional neural networks[J]. AASRI Procedia, 2014, 6: 89-94.
[5] YAO L, MILLER J. Tiny imagenet classification with convolutional neural networks[J]. CS231N, 2015, 2(5): 1-8.
[6] LI Y, QI H Z, DAI J F, et al. Fully convolutional instance-aware semantic segmentation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 4438-4446.
[7] HE K M, GKIOXARI G, DOLLAR P, et al. Mask R-CNN[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 386-397.
[8] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[9] SHELHAMER E, LONG J, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 640-651.
[10] LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 8759-8768.
[11] CHEN K, PANG J M, WANG J Q, et al. Hybrid task cascade for instance segmentation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 4969-4978.
[12] CAI Z W, VASCONCELOS N. Cascade R-CNN: delving into high quality object detection[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 6154-6162.
[13] XIANG Y, XIE C, MOUSAVIAN A, et al. Learning RGB-D feature embeddings for unseen object instance segmentation[EB/OL]. [2021-01-20]. https://xueshu.baidu. com/usercenter/paper/show?paperid=135w0am0tu5a0r80pr280ar0gg365359&site=xueshu_se.
[14] DENG L Y, YANG M, LI T Y, et al. RFBNet: deep multimodal networks with residual fusion blocks for RGB-D semantic segmentation[EB/OL]. [2021-01-20]. https://xueshu.baidu. com/usercenter/paper/show?paperid=1m7804p0nw500j606u3r0jp0dq782639&site=xueshu_se&hitarticle=1.
[15] 張旭東, 王玉婷, 范之國, 等. 基于雙金字塔特征融合網(wǎng)絡(luò)的RGB-D多類實(shí)例分割[J]. 控制與決策, 2020, 35(7): 1561-1568.
ZHANG X D, WANG Y T, FAN Z G, et al. RGB-D multi-class instance segmentation based on double pyramid feature fusion model[J]. Control and Decision, 2020, 35(7): 1561-1568 (in Chinese).
[16] SHAO L, TIAN Y, BOHG J. ClusterNet: 3D instance segmentation in RGB-D images[EB/OL]. [2021-01-20]. https://xueshu.baidu.com/usercenter/paper/show?paperid=49eb75109143bb1df266ad9fda02ae0f&site=xueshu_se.
[17] XIANG Y, XIE C, MOUSAVIAN A, et al. Learning RGB-D feature embeddings for unseen object instance segmentation[EB/OL]. [2021-01-20]. https://xueshu.baidu. com/usercenter/paper/show?paperid=135w0am0tu5a0r80pr280ar0gg365359&site=xueshu_se.
[18] GUPTA S, GIRSHICK R, ARBELáEZ P, et al. Learning rich features from RGB-D images for object detection and segmentation[C]//European Conference on Computer Vision. Heidelberg: Springer, 2014: 345-360.
[19] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 770-778.
[20] PENG C, ZHANG X Y, YU G, et al. Large kernel matters—improve semantic segmentation by global convolutional network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 1743-1751.
[21] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context[C]//European Conference on Computer Vision. Heidelberg: Springer, 2014: 740-755.
[22] SILBERMAN N, HOIEM D, KOHLI P, et al. Indoor segmentation and support inference from RGBD images[C]//European Conference on Computer Vision. Heidelberg: Springer, 2012: 746-760.
[23] SHAO L, SHAH P, DWARACHERLA V, et al. Motion-based object segmentation based on dense RGB-D scene flow[J]. IEEE Robotics and Automation Letters, 2018, 3(4): 3797-3804.
A reverse fusion instance segmentation algorithm based on RGB-D
WANG Dan-dan, ZHANG Xu-dong, FAN Zhi-guo, SUN Rui
(School of Computer and Information, Hefei University of Technology, Hefei Anhui 230009, China)
The RGB-D images add the Depth information with the given RGB information of the scene, which can effectively describe the color and three-dimensional geometric information of the scene. With the integration of the characteristics of RGB image and Depth image, this paper proposed a reverse fusion instance segmentation algorithm that reversely merged high-level semantic features to low-level edge detail features. In order to achieve RGB-D reverse fusion instance segmentation, this method extracted RGB and depth image features separately using feature pyramid networks (FPN) of different depths, upsampling high-level features to the same size as the bottom-level features. Then reverse fusion was utilized to fuse the high-level features to the low-level, and at the same time mask optimization structurewas introduced to mask branch.The experimental results show that the proposed reverse fusion feature model can produce more excellent results in the research on RGB-D instance segmentation, effectively fusing two different feature image features of Depth image and color image. On the basis of ResNet-101 serving as the backbone network, compared with mask R-CNN without depth information, the average accuracy was increased by 10.6%, and that of the two features was increased by 4.5% with the direct forward fusion.
Depth images; instance segmentation; feature fusion; reverse fusion; mask refinement
TP 391
10.11996/JG.j.2095-302X.2021050767
A
2095-302X(2021)05-0767-08
2021-01-15;
2021-03-08
15 January,2021;
8March,2021
國家自然科學(xué)基金項(xiàng)目(61876057,61971177)
National Natural Science Foundation of China (61876057, 61971177)
汪丹丹(1996-),女,安徽安慶人,碩士研究生。主要研究方向?yàn)橹悄軋D像處理、人工智能。E-mail:2018170868@mail.hfut.edu.cn
WANG Dan-dan (1996-), female, master student. Her main research interests cover intelligent image processing and artificial intelligence.E-mail:2018170868@mail.hfut.edu.cn
張旭東(1966-),男,安徽合肥人,教授,博士。主要研究方向?yàn)橹悄苄畔⑻幚?、機(jī)器視覺。E-mail:xudong@hfut.edu.cn
ZHANG Xu-dong (1966-), male, professor, Ph.D. His main research interests cover intelligent image processing and machine vision.E-mail:xudong@hfut.edu.cn