亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種面向散亂點(diǎn)云語義分割的深度殘差-特征金字塔網(wǎng)絡(luò)框架

2022-01-13 13:34:22彭秀平仝其勝林洪彬

自動(dòng)化學(xué)報(bào) 2021年12期

彭秀平仝其勝林洪彬馮超鄭武

三維點(diǎn)云數(shù)據(jù)理解在計(jì)算機(jī)視覺和模式識(shí)別領(lǐng)域是一項(xiàng)非常重要的任務(wù),該任務(wù)包括物體分類,目標(biāo)檢測和語義分割等.其中,語義分割任務(wù)最具有挑戰(zhàn)性,傳統(tǒng)的方法大多是在對(duì)點(diǎn)云數(shù)據(jù)進(jìn)行必要特征提取的基礎(chǔ)上,應(yīng)用支持向量機(jī)(Support vector machine,SVM)一類的分類算法,通過訓(xùn)練一組特征分類器來完成散亂點(diǎn)云數(shù)據(jù)的語義分割任務(wù)[1].顯然,這類方法的性能很大程度上依賴點(diǎn)云特征的設(shè)計(jì)、特征提取的精度以及特征分類器的性能.雖然國內(nèi)外學(xué)者提出了幾十種點(diǎn)云特征和大量的分類算法,但是依然沒有一種或幾種特征能完全適用于所有語義分割場景,算法適用性、精度和可靠性都得不到保障.

近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,涌現(xiàn)出許多端對(duì)端的學(xué)習(xí)算法,這種端對(duì)端的學(xué)習(xí)方式不依賴于手工設(shè)計(jì)的特征,只需給定輸入數(shù)據(jù)和對(duì)應(yīng)的數(shù)據(jù)標(biāo)簽,將其輸入神經(jīng)網(wǎng)絡(luò),即可通過反向傳播算法自動(dòng)學(xué)習(xí)一組可以抽象高級(jí)特征的權(quán)重矩陣,最后再由全連接層(Fully connected layer,FC)對(duì)高級(jí)特征進(jìn)行分類,從而完成分割任務(wù).現(xiàn)有的基于深度學(xué)習(xí)的點(diǎn)云分割研究方法大體可分為如下兩類:

一類是基于散亂點(diǎn)云數(shù)據(jù)結(jié)構(gòu)規(guī)則化的深度學(xué)習(xí)方法,這類方法通常是先通過體素化處理或八叉樹、KD 樹等樹形結(jié)構(gòu),將無序和不規(guī)則的散亂點(diǎn)云處理成規(guī)則的結(jié)構(gòu)化數(shù)據(jù),再將結(jié)構(gòu)化數(shù)據(jù)輸入三維卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)進(jìn)行訓(xùn)練.基于體素化方法[2-3]的提出首次將深度學(xué)習(xí)技術(shù)應(yīng)用于三維點(diǎn)云數(shù)據(jù)理解任務(wù),通過將三維點(diǎn)云體素化為規(guī)則的結(jié)構(gòu)化數(shù)據(jù),解決了其無序性和不規(guī)則性問題.但是,使用體素占用表示三維點(diǎn)云帶來了量化誤差問題,為了減小這種誤差必須使用更高的體素分辨率表示,高分辨率的體素表示又會(huì)在訓(xùn)練神經(jīng)網(wǎng)絡(luò)過程中帶來大內(nèi)存占用問題.因此,受限于目前計(jì)算機(jī)硬件的發(fā)展水平,基于體素化的散亂點(diǎn)云深度學(xué)習(xí)方法往往難以完成諸如大規(guī)模室內(nèi)三維場景一類的復(fù)雜、需要細(xì)粒度的三維場景的語義分割和場景理解任務(wù).基于八叉樹[4-5]和KD樹[6]結(jié)構(gòu)方法的提出解決了直接體素化點(diǎn)云所帶來的大內(nèi)存占用問題,但是這種樹形結(jié)構(gòu)對(duì)三維點(diǎn)云旋轉(zhuǎn)和噪聲敏感,從而導(dǎo)致卷積內(nèi)核的可訓(xùn)練權(quán)重矩陣學(xué)習(xí)困難,算法的魯棒性往往不夠理想.

另一類是基于參數(shù)化卷積設(shè)計(jì)的深度學(xué)習(xí)方法,這類方法以原始三維點(diǎn)云作為輸入,通過設(shè)計(jì)一種能夠有效抽象高層次特征的參數(shù)化卷積,再使用堆疊卷積架構(gòu)來完成點(diǎn)云分割任務(wù).PointNet[7]是這類方法的代表,其首先使用共享參數(shù)的多層感知機(jī)(Multi-layer perception,MLP)將三維點(diǎn)云坐標(biāo)映射到高維空間,再通過全局最大池化(Global max pooling,GMP)得到點(diǎn)云全局特征,解決了點(diǎn)云的無序性問題;此外,文獻(xiàn)[7]還提出了一種Tnet 網(wǎng)絡(luò),通過學(xué)習(xí)采樣點(diǎn)變換矩陣和特征變換矩陣解決了散亂點(diǎn)云的旋轉(zhuǎn)一致性問題,但是由于缺乏點(diǎn)云局部特征信息局限了其在點(diǎn)云分割任務(wù)中的性能.隨后PointNet++[8]提出一種分層網(wǎng)絡(luò),通過在每一圖層遞歸使用采樣、分組、PointNet 網(wǎng)絡(luò)來抽象低層次特征和高層次特征,再經(jīng)過特征反向傳播得到融合特征,最終使用全連接層預(yù)測點(diǎn)語義標(biāo)簽,解決了文獻(xiàn)[7]方法對(duì)點(diǎn)云局部特征信息提取不足的問題.RSNet[9]通過將無序點(diǎn)云特征映射為有序點(diǎn)云特征,再結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)來提取更豐富的語義信息,從而進(jìn)行語義標(biāo)簽預(yù)測.PointCNN[10]則定義了一種卷積,通過學(xué)習(xí)特征變換矩陣將無序點(diǎn)云特征變換成潛在的有序特征,再使用堆疊卷積架構(gòu)來完成點(diǎn)云分割任務(wù).

總體而言,基于參數(shù)化卷積設(shè)計(jì)的深度學(xué)習(xí)為散亂三維點(diǎn)云場景的理解提供了具有廣闊前景的新方案.然而,目前該領(lǐng)域的研究尚處于萌芽階段,許多切實(shí)問題尚待解決,如:由于卷積方式的局限性,用于二維圖像處理的主流深度神經(jīng)網(wǎng)絡(luò)構(gòu)架(如:UNet[11],ResNet[12],Inception V2/V3[13],DenseNet[14]

等)無法直接用于三維散亂點(diǎn)云數(shù)據(jù)的處理;由于針對(duì)點(diǎn)云特征提取設(shè)計(jì)的參數(shù)化卷積的局限性,現(xiàn)有的方法普遍存在特征抽象能力不足、無法將用于二維圖像處理的一些主流神經(jīng)網(wǎng)絡(luò)框架適用于三維點(diǎn)云分割任務(wù)等問題.

基于此,本文設(shè)計(jì)了一種立方體卷積運(yùn)算,不僅可以通過二維卷積實(shí)現(xiàn)三維表示點(diǎn)的高層特征的抽取,還可以解決當(dāng)前參數(shù)化卷積設(shè)計(jì)通用性差的問題;其次,將定義的立方體卷積計(jì)算和殘差網(wǎng)絡(luò)相結(jié)合,構(gòu)建面向散亂點(diǎn)云語義分割的深度殘差特征學(xué)習(xí)網(wǎng)絡(luò)框架;進(jìn)一步,將深度殘差網(wǎng)絡(luò)與特征金字塔網(wǎng)絡(luò)相結(jié)合,以實(shí)現(xiàn)三維表示點(diǎn)高層特征多尺度學(xué)習(xí)和語義分割.

1 提出的方法

本文方法以原始三維點(diǎn)云作為輸入,首先,將定義的立方體卷積運(yùn)算和殘差網(wǎng)絡(luò)(ResNet)相結(jié)合,構(gòu)建面向散亂點(diǎn)云語義分割的深度殘差特征學(xué)習(xí)網(wǎng)絡(luò)框架;其次,將深度殘差網(wǎng)絡(luò)與特征金字塔網(wǎng)絡(luò)(Feature pyramid network,FPN)[15]相結(jié)合,以實(shí)現(xiàn)三維表示點(diǎn)高層特征多尺度學(xué)習(xí);最后,通過全連接層對(duì)融合特征進(jìn)行分類得到語義標(biāo)簽輸出,整體分割網(wǎng)絡(luò)框架如圖1 所示.

圖1 深度殘差-特征金字塔網(wǎng)絡(luò)框架Fig.1 Depth residual-feature pyramid network framework

1.1 立方體卷積

殘差網(wǎng)絡(luò)自2015 年提出以來,一經(jīng)出世,便在ImageNet 競賽中斬獲圖像分類、檢測、定位三項(xiàng)的冠軍.隨后許多基于殘差網(wǎng)絡(luò)的研究在圖像分割領(lǐng)域也取得了巨大的成功[16-20].然而,殘差網(wǎng)絡(luò)是專門為二維圖像類的規(guī)則化數(shù)據(jù)設(shè)計(jì)的深度網(wǎng)格結(jié)構(gòu),在處理類似散亂三維點(diǎn)云等非規(guī)則、無序化散亂數(shù)據(jù)時(shí)遇到困難;另一方面,現(xiàn)有的基于深度學(xué)習(xí)的用于點(diǎn)云特征提取的參數(shù)化卷積設(shè)計(jì)普遍存在卷積計(jì)算通用性差、無法拓展至現(xiàn)有二維圖像處理的深度學(xué)習(xí)框架的問題.為此,本文在深入研究現(xiàn)有二維圖像卷積計(jì)算的基礎(chǔ)上,基于局部點(diǎn)云結(jié)構(gòu)規(guī)則化思想,提出一種新的適用于散亂三維點(diǎn)云的立方體卷積計(jì)算模型,旨在通過二維卷積運(yùn)算實(shí)現(xiàn)散亂三維點(diǎn)云數(shù)據(jù)高層次特征的抽象;同時(shí),該立方體卷積計(jì)算模型具有良好網(wǎng)絡(luò)框架適用能力,使現(xiàn)有大多數(shù)二維圖像處理深度神經(jīng)網(wǎng)絡(luò)可用于散亂三維點(diǎn)云分割中.

本文提出的立方體卷積計(jì)算模型設(shè)計(jì)思路如下:

考慮一幅二維圖像,集合表示為S={sx,y∈R3|x=0,1,2,···,h;y=0,1,2,···,w}.對(duì)于任意像素點(diǎn)sx,y(1≤x ≤h-1;1≤y ≤w-1),當(dāng)大小為3×3的卷積核作用于該點(diǎn)時(shí),將其局部感受野表示為集合Nx,y={sa,b∈R3|a=x-1,x,x+1;b=y-1,y,y+1},將學(xué)習(xí)權(quán)重矩陣表示為

其中,w∈R3.在二維圖像分割任務(wù)中,卷積神經(jīng)網(wǎng)絡(luò)可通過端對(duì)端的方式學(xué)習(xí)得到權(quán)重矩陣W,實(shí)現(xiàn)圖像高層次特征抽取,其最重要的原因之一在于:在固定視角下,感受野所包圍的像素點(diǎn)是關(guān)于給定表示像素點(diǎn)的歐氏距離鄰近點(diǎn),且權(quán)重值和像素點(diǎn)具有位置對(duì)應(yīng)關(guān)系,如圖2 所示.然而,由于散亂三維點(diǎn)云具有無序性和不規(guī)則性,同一點(diǎn)云模型可用多種不同的集合表示,當(dāng)直接把二維卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到三維點(diǎn)云上時(shí),并不能保證感受野所包含的點(diǎn)與表示點(diǎn)是這種歐氏距離鄰近關(guān)系,也無法保證權(quán)重值和點(diǎn)是位置對(duì)應(yīng)的.

圖2 二維卷積Fig.2 The 2D convolution

為此,基于局部點(diǎn)云結(jié)構(gòu)規(guī)則化的思想,本文提出一種適用于三維點(diǎn)云特征提取的立方體卷積運(yùn)算,具體過程描述如下:設(shè)三維點(diǎn)云表示為集合P={pi∈R3|i=0,1,2,···,n-1},n為點(diǎn)的個(gè)數(shù),其對(duì)應(yīng)的特征集合為F={fi∈Rc|i=0,1,2,···,n-1},c為點(diǎn)的特征維度.對(duì)于表示點(diǎn)pi,定義一個(gè)邊長為s的立方體.以pi中心,將立方體按網(wǎng)格劃分為27 個(gè)子立方體,每個(gè)子立方體以固定順序進(jìn)行索引,如圖3 所示.

圖3 立方體卷積Fig.3 The cube convolution

首先,定義點(diǎn)云局部特征集合V={vi∈R27×c|i=0,1,2,···,n-1},其中,vi={vi,j∈Rc|j=0,1,2,···,26}.對(duì)于第j個(gè)子立方體,選取離子立方體中心歐氏距離最近的一個(gè)點(diǎn)作為表示點(diǎn)pi的一個(gè)鄰近點(diǎn),vi,j設(shè)置為該鄰近點(diǎn)的特征.當(dāng)集合F等于P(即輸入點(diǎn)云的特征為其三維坐標(biāo))時(shí),vi,j設(shè)置為該鄰近點(diǎn)相對(duì)表示點(diǎn)的相對(duì)坐標(biāo)值,如果子立方體內(nèi)沒有點(diǎn),則設(shè)置為 0.遍歷所有表示點(diǎn)得到特征集合V,然后,再通過二維卷積對(duì)特征集合V進(jìn)行卷積來抽象輸入三維點(diǎn)云的高層特征.那么卷積輸出即可表示為:F′=Conv(V,1×27,c′),其中V為卷積輸入,1×27 為卷積核和移動(dòng)步長大小,c′為輸出特征通道數(shù).對(duì)于表示點(diǎn)的鄰近點(diǎn)選取,另一可行方案是:首先計(jì)算子立方體內(nèi)包圍點(diǎn)到其中心的距離,再對(duì)包圍點(diǎn)的特征進(jìn)行反距離加權(quán)平均得到的值,但是隨著網(wǎng)絡(luò)層數(shù)的加深以及特征維度的升高將會(huì)帶來計(jì)算量的大幅增加.因此,為平衡性能本文選取距離子立方體中心最近的一個(gè)點(diǎn)作為表示點(diǎn)的一個(gè)鄰近點(diǎn)這一近似方案.

本文提出的立方體卷積運(yùn)算主要有兩個(gè)關(guān)鍵點(diǎn):立方體網(wǎng)格劃分和子立方體固定索引排序.我們給出分析如下:在二維圖像理解領(lǐng)域中,許多主流網(wǎng)絡(luò)框架(如U-Net[11]、ResNet[12]、Inception V2/V3[13]和DenseNet[14]等)都是采用大小為3×3的卷積核來提取特征.文獻(xiàn) [13] 中指出大卷積核可以通過小卷積核的疊加獲得相同大小的感受野,并且小卷積核的疊加引入了二次非線性,其實(shí)驗(yàn)結(jié)果證明了精確率會(huì)得到提升.其次,相比大卷積核,小卷積核具有更小的參數(shù)量.鑒于此,本文采用將空間劃分為網(wǎng)格的方式來感知表示點(diǎn)的局部三維空間結(jié)構(gòu),從而可以以較小的參數(shù)量獲得較高的精確率;另外,由于三維點(diǎn)云具有無序性,直接使用二維卷積進(jìn)行卷積運(yùn)算會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中無法學(xué)習(xí)到有效的權(quán)重矩陣來抽象高層特征.因此,本文也是基于常用于二維圖像理解任務(wù)中的二維卷積特點(diǎn),通過將子立方體以固定索引進(jìn)行排序的方式來保證在固定坐標(biāo)系下二維卷積核的可學(xué)習(xí)權(quán)重矩陣和無序點(diǎn)云有一一對(duì)應(yīng)的關(guān)系,以此通過二維卷積有效地抽象三維點(diǎn)云的高層特征,使得用于二維圖像處理的主流神經(jīng)網(wǎng)絡(luò)框架可以適用于三維點(diǎn)云理解任務(wù)中.

1.2 立方體最大池化

在二維圖像中,最大池化是對(duì)鄰域內(nèi)特征點(diǎn)取最大值運(yùn)算,可以學(xué)習(xí)某種不變性(旋轉(zhuǎn)、平移、尺度縮放等).為了使殘差網(wǎng)絡(luò)完全適用于三維點(diǎn)云分割任務(wù)從而可以學(xué)習(xí)三維點(diǎn)云的旋轉(zhuǎn)、平移、尺度縮放不變等特性,本文提出一種基于局部點(diǎn)云結(jié)構(gòu)規(guī)則化思想的立方體最大池化方法,具體過程描述如下:

給定三維點(diǎn)云集合P={pi∈R3|i=0,1,2,···,n-1},n為點(diǎn)的個(gè)數(shù),以及對(duì)應(yīng)的特征集合F={fi∈Rc|i=0,1,2,···,n-1},c為點(diǎn)的特征維度.首先用文獻(xiàn)[7]中迭代最遠(yuǎn)點(diǎn)采樣算法得到采樣點(diǎn)集合P′=R3| l=0,1,2,···,m-1},m為采樣點(diǎn)的個(gè)數(shù),定義點(diǎn)云局部特征集合V={vl∈R27×c|l=0,1,2,···,m-1},其中vl={vl,j∈Rc|j=0,1,2,···,26}.對(duì)于采樣點(diǎn),使用本文提出的立方體卷積運(yùn)算中鄰近點(diǎn)搜索方法在P中搜索其鄰近點(diǎn),得到鄰近點(diǎn)特征集合vl.遍歷所有采樣點(diǎn)得到特征集合V.然后,再通過二維最大池化對(duì)特征V進(jìn)行最大池化處理.最大池化輸出即可表示為F′=max(V,1×27),其中,V為最大池化輸入,1×27為卷積核和移動(dòng)步長大小.

與本文提出的立方體卷積運(yùn)算相似,立方體最大池化的關(guān)鍵點(diǎn)也在于 3×3×3 網(wǎng)格劃分,所獲取的鄰近點(diǎn)對(duì)表示點(diǎn)的局部點(diǎn)云幾何結(jié)構(gòu)表示完整性將直接影響最大池化的輸出.因此,我們同樣基于局部點(diǎn)云結(jié)構(gòu)規(guī)則化的思想,通過將局部空間劃分為網(wǎng)格來獲取表示點(diǎn)更加合理的鄰近點(diǎn),以此再通過常用于二維圖像處理的最大池化操作對(duì)輸入特征進(jìn)行最大池化處理.

1.3 三維點(diǎn)云特征殘差學(xué)習(xí)結(jié)構(gòu)

殘差網(wǎng)絡(luò)由文獻(xiàn)[12]提出,其核心思想是一種特殊的殘差結(jié)構(gòu).這種結(jié)構(gòu)通過將神經(jīng)網(wǎng)絡(luò)中特征映射近似問題轉(zhuǎn)化為殘差學(xué)習(xí)問題,不僅解決了隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的加深出現(xiàn)的梯度退化問題,而且能夠以更少的模型參數(shù)實(shí)現(xiàn)更高的準(zhǔn)確率.為了將這種結(jié)構(gòu)適用于三維點(diǎn)云分割任務(wù),本文提出一種三維點(diǎn)云特征殘差學(xué)習(xí)結(jié)構(gòu),如圖4 所示.

圖4 三維點(diǎn)云特征殘差學(xué)習(xí)結(jié)構(gòu)Fig.4 The residual learning structure for 3D point cloud feature

本文提出的三維點(diǎn)云特征殘差學(xué)習(xí)結(jié)構(gòu)和文獻(xiàn)[12]提出的殘差結(jié)構(gòu)都由三層卷積和一次跳躍連接組成,第1 層和第3 層同為卷積核大小為1×1的二維卷積.不同之處在于:對(duì)于二維圖像,當(dāng)輸入輸出維度不匹配時(shí),文獻(xiàn)[12]通過第1 層卷積核大小為 1×1、移動(dòng)步長為 2×2 的卷積層進(jìn)行下采樣.針對(duì)三維點(diǎn)云,我們則先使用文獻(xiàn)[7]中迭代最遠(yuǎn)點(diǎn)采樣算法進(jìn)行下采樣,再通過卷積核大小為1×1、移動(dòng)步長為 1×1 的卷積層進(jìn)行卷積;另外,在文獻(xiàn)[12]中第2 層為卷積核大小為 3×3、移動(dòng)步長為 1×1 的卷積層,我們將其替換為本文提出的立方體卷積運(yùn)算層.

1.4 三維點(diǎn)云特征金字塔網(wǎng)絡(luò)

在文獻(xiàn)[19]中,特征金字塔網(wǎng)絡(luò)的組成結(jié)構(gòu)是首先使用最鄰近上采樣法把高層特征做2 倍上采樣,然后與對(duì)應(yīng)的前一層特征相加融合.考慮到特征金字塔網(wǎng)絡(luò)是為具有規(guī)則像素網(wǎng)格結(jié)構(gòu)排列的二維圖像設(shè)計(jì)的,而三維點(diǎn)云數(shù)據(jù)具有不規(guī)則性,當(dāng)表示點(diǎn)的局部點(diǎn)云分布密度不均時(shí),最鄰近點(diǎn)的特征并不能夠準(zhǔn)確近似表示點(diǎn)的特征.因此,我們采用文獻(xiàn)[8]中的基于K 鄰近的反距離加權(quán)插值法進(jìn)行特征上采樣,如圖5 所示.反距離加權(quán)插值可表示為

圖5 三維點(diǎn)云特征金字塔網(wǎng)絡(luò)Fig.5 The feature pyramid network for 3D point cloud

2 實(shí)驗(yàn)結(jié)果與分析

本文實(shí)驗(yàn)環(huán)境為Intel(R)Core(TM)i7-7800X CPU @ 3.50 GHz,16 GB×4 內(nèi)存,NVIDIA GTX 1080Ti×2 GPU,系統(tǒng)為Ubuntu 16.04.

2.1 實(shí)驗(yàn)數(shù)據(jù)集

實(shí)驗(yàn)數(shù)據(jù)集為S3DIS 數(shù)據(jù)集[21]和ScanNet 數(shù)據(jù)集[22].

S3DIS 數(shù)據(jù)集總共包含271 個(gè)由Matterport 掃描儀從真實(shí)室內(nèi)場景掃描得到的場景數(shù)據(jù),包含在6 個(gè)文件夾中.本文采用與S3DIS 官方相同的K 折交叉驗(yàn)證策略進(jìn)行數(shù)據(jù)集劃分.采用與文獻(xiàn)[10]相同的訓(xùn)練方法,將原始場景沿著x軸和y軸分成大小為1.5 m×1.5 m 的小塊,使用點(diǎn)的位置和顏色信息用于訓(xùn)練和測試,并在訓(xùn)練期間將塊點(diǎn)云沿Z軸隨機(jī)旋轉(zhuǎn)一定角度進(jìn)行數(shù)據(jù)增強(qiáng)處理.

ScanNet 數(shù)據(jù)集總共包含1 513 個(gè)從真實(shí)室內(nèi)環(huán)境掃描并重建得到的場景數(shù)據(jù).本文按照Scan-Net 官方劃分標(biāo)準(zhǔn)將數(shù)據(jù)集分為訓(xùn)練集和測試集兩部分.采用和S3DIS 數(shù)據(jù)集相同的訓(xùn)練方法.另外,由于其他方法沒有使用顏色信息用于訓(xùn)練,因此,為了公平比較,本文也不使用顏色信息.

2.2 參數(shù)設(shè)計(jì)

為了驗(yàn)證本文提出的立方體卷積運(yùn)算的有效性和本文方法的可行性,我們基于文獻(xiàn)[19]提出的用于二維圖像分割的殘差網(wǎng)絡(luò)-特征金字塔網(wǎng)絡(luò)結(jié)合本文提出的立方體卷積運(yùn)算構(gòu)建一種面向散亂點(diǎn)云語義分割的殘差網(wǎng)絡(luò)-特征金字塔網(wǎng)絡(luò)框架(下文中以ResNet-FPN_C 表示),網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)設(shè)計(jì)如表1 所示.所有程序由開源框架TensorFlow 及其Python 接口實(shí)現(xiàn),采用ADAM (Adaptive moment estimation)方法進(jìn)行訓(xùn)練.

表1 參數(shù)設(shè)計(jì)Table 1 The parameter design

2.3 評(píng)價(jià)指標(biāo)

本文采用總體精確率(oAcc)、類別平均精確率(mAcc)和類別平均交并比(mIoU)評(píng)價(jià)指標(biāo)對(duì)試驗(yàn)結(jié)果進(jìn)行評(píng)估,并與其他方法進(jìn)行對(duì)比.假設(shè)共有k個(gè)類別,定義pii表示類別i的預(yù)測標(biāo)簽等于真實(shí)標(biāo)簽的個(gè)數(shù),pij表示類別i的標(biāo)簽預(yù)測為類別j的個(gè)數(shù).則oAcc可表示為

mAcc表示為

mIoU表示為

另外,由于ScanNet[22]提供的全卷積神經(jīng)網(wǎng)絡(luò)基線方法以體素化數(shù)據(jù)作為輸入,其預(yù)測標(biāo)簽是基于體素統(tǒng)計(jì)的,因此我們采用與文獻(xiàn)[8]相同的方法將點(diǎn)預(yù)測標(biāo)簽轉(zhuǎn)化為體素預(yù)測標(biāo)簽來統(tǒng)計(jì)預(yù)測結(jié)果的oAcc、mAcc和mIoU指標(biāo).

2.4 實(shí)驗(yàn)結(jié)果分析

為驗(yàn)證本文方法的有效性,我們?cè)赟3DIS 數(shù)據(jù)集和ScanNet 數(shù)據(jù)集上進(jìn)行了測試.同時(shí),為進(jìn)一步證明本文提出的立方體卷積運(yùn)算的通用性,我們基于文獻(xiàn)[11]提出的用于醫(yī)學(xué)圖像分割的U-Net網(wǎng)絡(luò)搭建了適用于三維點(diǎn)云語義分割的U-Net網(wǎng)絡(luò)框架(下文中以U-Net_C 表示).

我們統(tǒng)計(jì)了在S3DIS 數(shù)據(jù)集上的6 折交叉驗(yàn)證結(jié)果,如表2 所示,本文ResNet-FPN_C 方法和U-Net_C 方法在oAcc、mAcc和mIoU評(píng)價(jià)指標(biāo)上均優(yōu)于其他方法.各類別IoU統(tǒng)計(jì)結(jié)果如表3所示,其中,本文ResNet-FPN_C 方法有7 個(gè)優(yōu)于其他方法,U-Net_C 方法有8 個(gè)優(yōu)于其他方法.

表2 S3DIS 數(shù)據(jù)集分割結(jié)果比較 (%)Table 2 Segmentation result comparisons on the S3DIS dataset (%)

表3 S3DIS 數(shù)據(jù)集各類別IoU分割結(jié)果比較 (%)Table 3 Comparison ofIoUfor all categories on the S3DIS dataset (%)

另外,我們?cè)赟canNet 數(shù)據(jù)集上也進(jìn)行了測試,結(jié)果如表4 所示,從中可以看出,本文ResNet-FPN_C 方法和U-Net_C 方法在oAcc、mAcc和mIoU評(píng)價(jià)指標(biāo)上均優(yōu)于其他方法.各類別的IoU統(tǒng)計(jì)結(jié)果如表5 所示,其中,本文ResNet-FPN_C方法有8 個(gè)優(yōu)于其他方法,U-Net_C 方法有10 個(gè)優(yōu)于其他方法.

表4 ScanNet 數(shù)據(jù)集分割結(jié)果比較 (%)Table 4 Segmentation result comparisons on the ScanNet dataset (%)

表5 ScanNet 數(shù)據(jù)集各類別IoU分割結(jié)果比較 (%)Table 5 Comparison ofIoUfor all categories on the ScanNet dataset (%)

由于ScanNet 數(shù)據(jù)集是由便攜設(shè)備從真實(shí)室內(nèi)場景掃描重建得到的,其重建場景中存在大量缺失、未標(biāo)注、雜亂信息,且相比S3DIS 數(shù)據(jù)集包含更多標(biāo)注類別,因此其語義分割任務(wù)更具挑戰(zhàn)性.從S3DIS 數(shù)據(jù)集和ScanNet 數(shù)據(jù)集測試結(jié)果可以看出,本文方法相比其他方法在難以識(shí)別的小物體(如picture)和復(fù)雜結(jié)構(gòu)物體(如chair、sofa)類別上具有更好的分割性能.值得注意的是door 和window 這兩種類別,它們?cè)诳臻g位置和幾何結(jié)構(gòu)上和wall 很相近,相比于其他類別這兩種類別的分割難度更大,而本文方法較其他方法有較大的分割精度提升.我們分析如下:PointCNN 方法采用的是基于KNN (K-nearest neighbor)的鄰近點(diǎn)搜索算法,由于這種算法對(duì)點(diǎn)云分布密度比較敏感,當(dāng)點(diǎn)云分布密度不均時(shí),所獲取的鄰近點(diǎn)可能全部來自表示點(diǎn)的同一個(gè)方向,此時(shí)鄰近點(diǎn)不能準(zhǔn)確反映表示點(diǎn)的局部特征,且由于其卷積設(shè)計(jì)的局限性對(duì)局部空間幾何結(jié)構(gòu)的微小變化也不夠敏感;Point-Net++提出的MSG (Muti-scale grouping)和MRG (Muti-resolution grouping)方法雖然能夠更加合理地獲取鄰近點(diǎn),但是由于采用的是Point-Net 中共享參數(shù)的多層感知機(jī)結(jié)合全局最大池化的特征提取方法,而全局最大池化會(huì)丟失信息.因此,同樣不能準(zhǔn)確抽象表示點(diǎn)的高層特征;RSNet 則是先將點(diǎn)云數(shù)據(jù)分別沿著x,y,z方向進(jìn)行切片,再將切片后的點(diǎn)云所對(duì)應(yīng)的特征輸入循環(huán)神經(jīng)網(wǎng)絡(luò)提取特征.其試驗(yàn)結(jié)果表明這種方法對(duì)平面結(jié)構(gòu)物體(如wall、floor、desk 等)有較高的分割精度,但是將點(diǎn)云切片會(huì)嚴(yán)重丟失點(diǎn)的空間鄰域關(guān)系,從而導(dǎo)致循環(huán)神經(jīng)網(wǎng)絡(luò)很難學(xué)習(xí)非平面復(fù)雜結(jié)構(gòu)物體的特征.而本文提出的立方體卷積運(yùn)算通過將局部空間劃分為 3×3×3 網(wǎng)格來獲取表示點(diǎn)的鄰近點(diǎn),能對(duì)點(diǎn)云分布密度不均具有更好的魯棒性,且能感知空間幾何結(jié)構(gòu)的微小變化.另外,通過對(duì)所獲取的鄰近點(diǎn)進(jìn)行排序可以使得二維卷積能夠感知視角信息,從而準(zhǔn)確地抽象表示點(diǎn)的高層特征.因此,相比其他方法本文方法具有更好分割性能.

同時(shí)我們也做了耗時(shí)統(tǒng)計(jì)實(shí)驗(yàn),所有方法均在相同實(shí)驗(yàn)環(huán)境下以在1080Ti 單GPU 上所發(fā)揮的最大性能統(tǒng)計(jì).如表6 所示,當(dāng)輸入點(diǎn)云個(gè)數(shù)為8 192時(shí),本文ResNet-FPN_C 方法單batch 平均訓(xùn)練時(shí)間和前向傳播時(shí)間分別為0.060 s 和0.042 s,略慢于其他方法.雖然U-Net_C 方法在mIoU 指標(biāo)上可以取得更好的結(jié)果,但是其速度也明顯降低.因此,本文提出的ResNet-FPN 網(wǎng)絡(luò)具有更為平衡的運(yùn)行效率和分割精度.由于本文提出的立方體卷積運(yùn)算具有簡單、通用性強(qiáng)等特點(diǎn),可以將用于二維圖像處理的一些主流神經(jīng)網(wǎng)絡(luò)適用于三維點(diǎn)云分割任務(wù),因此后續(xù)我們將嘗試更多主流的神經(jīng)網(wǎng)絡(luò)框架或針對(duì)三維點(diǎn)云分割任務(wù)對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)來提高精確率和減少耗時(shí).另外值得一提的是,由于PointCNN 方法中參數(shù)化卷積設(shè)計(jì)的局限性,限制了其輸入點(diǎn)的個(gè)數(shù),而本文方法當(dāng)輸入點(diǎn)個(gè)數(shù)4倍于PointCNN方法時(shí),在訓(xùn)練時(shí)間和前向傳播時(shí)間方面依然取得了不錯(cuò)的表現(xiàn).驗(yàn)證了本文方法的有效性和可行性.

表6 耗時(shí)比較Table 6 Comparison of running time

3 結(jié)語

本文分析了二維卷積的特點(diǎn)和現(xiàn)有參數(shù)化卷積設(shè)計(jì)的局限性,提出了一種通用立方體卷積運(yùn)算,以通過二維卷積實(shí)現(xiàn)三維表示點(diǎn)的高層特征的抽取;基于此,提出了一種面向散亂點(diǎn)云語義分割的深度殘差-特征金字塔網(wǎng)絡(luò),將用于二維圖像處理的神經(jīng)網(wǎng)絡(luò)框架適用到了三維點(diǎn)云分割任務(wù)中.實(shí)驗(yàn)結(jié)果表明,本文提出的立方體卷積運(yùn)算具有良好的適用性,且本文提出的深度殘差-特征金字塔網(wǎng)絡(luò)框架在分割精度方面優(yōu)于現(xiàn)存同類方法.在后續(xù)工作中,作者將結(jié)合特征可視化分析,進(jìn)一步發(fā)現(xiàn)本文方法的不足并做出改進(jìn).此外,結(jié)合本文提出的立方體卷積運(yùn)算,將更多主流的二維卷積神經(jīng)網(wǎng)絡(luò)框架用于三維點(diǎn)云分割任務(wù)也是我們下一步的工作.