亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        3D-BSNet:雙邊特征和相似度量的點云實例分割網(wǎng)絡(luò)

        2023-12-31 00:00:00田楓徐昕劉芳劉宗堡
        計算機應(yīng)用研究 2023年8期

        摘 要:針對現(xiàn)有的三維分割方法在挖掘點云特征時,會忽略幾何特征有效利用的問題,提出雙邊特征和相似度量的點云實例分割網(wǎng)絡(luò)3D-BSNet(3D-bilateral feature and similarity measure network)。該網(wǎng)絡(luò)主要由雙邊特征學(xué)習(xí)和輕量級相似度量兩部分組成。首先提出一種包含基于子流形稀疏卷積的3D-UNet和多層感知機的雙邊特征提取模塊,用于提取經(jīng)過體素化處理的點云數(shù)據(jù)的語義特征和幾何特征;然后設(shè)計一種結(jié)合通道維度和空間維度的雙邊注意力機制,用于減少雙邊特征聚合過程中產(chǎn)生的信息損失;最后開發(fā)一種輕量級相似度量模塊,獲取高維嵌入特征空間中鄰近點云之間的相似性,并生成細粒度實例分割結(jié)果。實驗表明,3D-BSNet在S3DIS和Scannet(v2)數(shù)據(jù)集上的多指標綜合表現(xiàn)優(yōu)越,其中在Scannet(v2)上的平均精確率比 SSTNet 提高了3.3%,有效提高了室內(nèi)場景三維實例分割的精度。

        關(guān)鍵詞:點云實例分割;雙邊特征學(xué)習(xí);雙邊注意力機制;輕量級相似度量

        中圖分類號:TP391文獻標志碼:A

        文章編號:1001-3695(2023)08-043-2514-06

        doi:10.19734/j.issn.1001-3695.2022.11.0777

        3D-BSNet:bilateral features-similarity measure network for

        3D instance segmentation

        Tian Feng Xu Xina,Liu Fang Liu Zongbao

        (a.College of Computer amp; Information Technology,b.College of Geoscience,Northeast Petroleum University,Daqing Heilongjiang 163318,China)

        Abstract:In order to solve the problem that the current three-dimensional segmentation methods ignored the effective use of geometric features when mining point cloud features,this paper proposed the point cloud instance segmentation network 3D-BSNet with bilateral features and similarity measure.The network mainly consisted of two parts,such as bilateral feature learning and lightweight similarity measurement.Firstly,this paper proposed the bilateral feature extraction module with 3D-UNet based on submanifold sparse convolution and multi-layer perceptron.This module could extract semantic and geometric features of point cloud data after voxelization.Secondly,this paper designed the bilateral attention mechanism combining channel dimension and spatial dimension.This module could reduce the information loss in the process of bilateral feature aggregation.Finally,this paper developed the lightweight similarity measurement module.This module could obtain the similarity between neighboring point clouds in the high-dimensional embedded feature space and even generate the segmentation results of fine-grained instances.Experiments show that 3D-BSNet performs well on S3DIS and Scannet(v2) dataset,and the average accuracy rate on Scannet(v2) is 3.3% higher than that of SSTNet,which effectively improves the precision of 3D instance segmentation.

        Key words:3D instance segmentation;bilateral feature learning;bilateral attention mechanism;lightweight similarity measure

        0 引言

        近年來,隨著深度傳感器的快速發(fā)展,點云數(shù)據(jù)量逐漸增大,也逐漸滲透到自動駕駛[1,2]、輔助醫(yī)療診斷[3]、遙感測繪、虛擬現(xiàn)實等計算機視覺領(lǐng)域。點云實例分割作為三維場景語義理解和分析的基礎(chǔ)技術(shù),具有廣泛的應(yīng)用場景[4~6]。點云實例分割是一項以點云數(shù)據(jù)為輸入,實現(xiàn)實例分割的高級視覺任務(wù)。由于實例分割任務(wù)本身具有一定的識別難度,且點云數(shù)據(jù)在高維空間中具有無序性、密度不一致性及非拓撲性等特點,給點云實例分割的研究工作帶來了不小的難度。傳統(tǒng)的點云實例分割思路是:首先選取點云的位置、曲率及法向量等特征構(gòu)建人工特征,再通過不同的聚類方式完成實例分割任務(wù),傳統(tǒng)的方法處理速度較快但難以處理真實場景下大規(guī)模的點云數(shù)據(jù),識別準確率也難以保證。隨著深度學(xué)習(xí)在計算機視覺任務(wù)上取得巨大突破,關(guān)于點云實例分割的探索性工作也嶄露頭角?;谏疃葘W(xué)習(xí)的點云實例分割方法有基于proposal的方法和基于proposal-free的方法?;趐roposal的方法是在檢測框的基礎(chǔ)上獲取每個點云的實例標簽,將點云實例分割任務(wù)劃分為目標檢測和實例標簽預(yù)測兩個階段。Li等人[7]提出了 GSPN 模型,通過重建場景中噪聲觀測的形狀生成候選框,再引入PointNet優(yōu)化候選框并生成實例分割掩碼。該模型大大減少了無意義的盲框,但對實例分割對象的細化需要代價昂貴的后處理操作。Hou等人[8]提出了 3D-SIS 模型,該模型首先將帶有顏色信息的二維圖像映射成體素表示,再與帶有幾何信息的體素進行融合,之后再預(yù)測場景中候選框的位置、類標簽及實例對象標簽。該方法雖然取得了較高的實例分割精度,但候選框檢測網(wǎng)絡(luò)和實例分割網(wǎng)絡(luò)之間沒有共享權(quán)重,且數(shù)據(jù)轉(zhuǎn)換過程復(fù)雜,無法適用于大規(guī)模場景。Yang等人[9]提出了 3D-BoNet 模型,該模型首先提取全局特征和點的特征,由全局特征直接生成所有潛在實例對應(yīng)的粗糙候選框,并通過多準則判別損失函數(shù)來修正候選框;再根據(jù)點的特征和候選框預(yù)測分數(shù)對框內(nèi)點進行二分類,從而生成實例分割標簽。該方法能夠返回較精確的候選框,具有高目標性,但兩階段的訓(xùn)練過程使模型的運算負擔較重?;?proposal 的方法具有較直觀的效果,生成的結(jié)果也具備客觀性,但是這類方法對錯誤識別的目標框容忍度較低,需要通過多階段的訓(xùn)練去掉錯誤邊界框,因此在預(yù)測時通常會產(chǎn)生巨額參數(shù)量,硬件要求相對較高。

        proposal-free的方法[10]是在每個點云的類別基礎(chǔ)上,具體區(qū)分出不同實例,將點云實例任務(wù)劃分為語義分割和實例標簽預(yù)測兩個階段。大多數(shù)該類方法主要集中于判別特征學(xué)習(xí)和點的分組等創(chuàng)新操作的探索,是點云實例分割的主流方法。Wang等人[11]提出了SGPN模型,是第一個直接提取點云特征的實例分割模型。該模型首先由 PointNet[12]提取點云特征,并通過帶有雙鉸損失函數(shù)的神經(jīng)網(wǎng)絡(luò)生成相似度矩陣,最后再由非最大抑制操作抑制噪聲和對重疊剪枝,以生成實例分割預(yù)測結(jié)果。該方法能夠處理冗余信息并減少噪聲點,但相似矩陣的構(gòu)造需要大量的內(nèi)存消耗,難以擴展到大規(guī)模數(shù)據(jù)。針對SGPN存在由相似矩陣引起的內(nèi)存空間問題,文獻[13]提出了MASC模型,該模型通過U-Net和子流形稀疏卷積對每個體素化的點云進行語義分割級的類別預(yù)測,然后對相鄰體素進行語義關(guān)聯(lián)性預(yù)測。相比起來,該方法更高效,但由于該方法沒有挖掘空間幾何信息,使得網(wǎng)絡(luò)性能提升空間有限。Lahoud等人[13]提出了MTML模型,該模型使用改進的SSCNet處理輸入的體素化點云,將具有相同實例標簽的體素緊密聚合,將具有不同實例標簽的體素疏散遠離。由于該方法主要針對體素的方向特征將進行學(xué)習(xí),容易丟失有效的幾何信息。Jiang等人[14]提出PointGroup模型,該模型利用雙分支網(wǎng)絡(luò)將基于輸入點坐標與偏移量的點坐標聚類,實現(xiàn)實例對象分離,最后由ScoreNet來篩選與評估候選實例,優(yōu)化分割結(jié)果。該方法通過探索對象實例間的空隙對點進行分組與聚類,但優(yōu)化結(jié)果的過程中引入非極大值抑制的做法不利于有效數(shù)據(jù)的保留。為了有效地融合語義分割和實例分割兩個任務(wù)中的互利特征,Wang等人[15]提出了ASIS和JSNet模型。Zhao等人[16]構(gòu)建了一種由共享編碼器和兩個平行編碼器組成的基準網(wǎng)絡(luò),通過聯(lián)合模塊將語義特征轉(zhuǎn)入實例嵌入空間中,再將轉(zhuǎn)換后的特征與實例特征融合以提升實例分割精度。該方法能夠同時處理語義分割和實例分割兩個任務(wù),但特征融合結(jié)構(gòu)復(fù)雜、成本高昂,且對上下文及空間幾何信息獲取不充分。相比基于proposal的實例分割方法,proposal-free的方法無須預(yù)先生成proposal,計算量小,但由于該方法未明確實例對象邊界,容易丟失有用信息,導(dǎo)致在復(fù)雜形狀對象邊界分割上的效果欠佳。

        目前點云實例分割的主要研究工作在于挖掘語義信息并設(shè)計出合適的點分組方法,存在的挑戰(zhàn)有計算成本及空間幾何特征的有效利用問題。

        1 3D-BSNet模型

        針對現(xiàn)有網(wǎng)絡(luò)捕捉局部細節(jié)能力有限和點云數(shù)據(jù)計算成本的問題,從特征學(xué)習(xí)和相似度量兩個角度構(gòu)建屬于proposal-free類別的點云實例分割網(wǎng)絡(luò)3D-BSNet。本文的主要貢獻包括:a)提出一種雙邊特征學(xué)習(xí)模塊,可以有效提取并融合語義和幾何信息;b)設(shè)計了雙邊注意力機制,從通道和空間兩個維度重新標定特征圖,引入少量的計算量,但可以有效增強雙邊特征;c)引入輕量級相似度量模塊,以概率的形式處理數(shù)據(jù),進一步提升了模型對同類別實例的區(qū)分能力。圖1為3D-BSNet整體框架,包括基于子流形稀疏卷積的3D-UNet、雙邊注意力機制和相似度量函數(shù)三個核心部分。原始點云數(shù)據(jù)經(jīng)過體素化處理后,通過多層感知機和3D-UNet 分別提取幾何特征和語義特征,再將提取到的特征進行融合。為了彌補特征融合中產(chǎn)生的信息丟失,通過雙邊注意力機制重新標定點云數(shù)據(jù)的雙邊特征。相似度量模塊利用多元高斯分布函數(shù)處理帶有特征的點云數(shù)據(jù),再使用相似度量函數(shù)計算點之間和點與實例之間的相似度,最后經(jīng)過logDice損失函數(shù)給每個點分配類別標簽和實例 ID,從而完成點云數(shù)據(jù)的細粒度實例分割任務(wù)。

        1.1 雙邊特征模塊

        1.1.1 基于子流形稀疏卷積的3D-UNet

        為了避免常規(guī)三維稀疏卷積會產(chǎn)生巨額參數(shù)量和稀釋語義特征的問題,本文采用基于子流形稀疏卷積的 3D-UNet進行語義信息的提取。子流形稀疏卷積是指只有當三維卷積核的中心覆蓋非空體素時才進行卷積計算,相較于常規(guī)稀疏卷積的全計算方式,子流形稀疏卷積的計算方式大大減少了參數(shù)量,又能夠很好地適應(yīng)點云數(shù)據(jù)的稀疏性。子流形稀疏卷積[17]定義為 SSC(m,n,f,s),m表示輸入特征通道數(shù),n表示輸出特征通道數(shù),f表示卷積核尺寸,s表示卷積步長。本文采用卷積核尺寸和卷積步長均為2的子流形稀疏卷積操作,記為conv-s2。如圖2所示,基于子流形稀疏卷積的3D-UNet其整體框架采用 U型結(jié)構(gòu),包含編碼和解碼部分。編碼路徑是圖中向下走的部分,向下箭頭表示步長為2的最大池化操作。在編碼路徑中每層包含一個由橙色標注的conv-s2,每個卷積操作后均引入BN批歸一化層和ReLU激活函數(shù)。每一層返回的特征再通過跳躍連接,將編碼階段產(chǎn)生的語義特征圖與解碼階段同分辨率的特征融合在一起,使淺層次的細節(jié)特征和深層次的語義特征相結(jié)合。解碼路徑是圖中向上走的部分,向上箭頭表示步長為2的上卷積操作。在解碼路徑中使用反卷積操作來放大特征圖,如圖中綠色標注的dconv-s2,最后生成與原始輸入數(shù)據(jù)相同大小的特征圖(見電子版)。U型結(jié)構(gòu)通過編/解碼流程能夠?qū)崿F(xiàn)低維特征在高分辨率的層中進行傳播、捕捉多尺度的細節(jié)特征、彌補漸進式提取特征細粒度特征不足的缺陷,并豐富語義特征的完備性,從而使網(wǎng)絡(luò)在細粒度實例分割精度上有很大的提升。

        1.1.2 雙邊注意力機制

        體素化輸入點云的方法具有規(guī)則的數(shù)據(jù)結(jié)構(gòu),可以擬合各種卷積操作[18]。雖然子流形三維稀疏卷積可以大大地減少計算開銷,但仍無法避免由運算量導(dǎo)致分辨率較低的問題,進而會損失三維空間細節(jié)信息。注意力機制[19~22]能夠以較高的權(quán)重聚焦重要信息,以較低的權(quán)重忽略冗余信息,使得網(wǎng)絡(luò)能夠克服缺乏特征強化的局限,并且增強了網(wǎng)絡(luò)捕獲遠程依賴信息的能力。受此啟發(fā),提出雙邊注意力機制模塊,該模塊通過對提取的特征信息在通道和空間分別進行加權(quán)運算來抑制無效的語義特征信息。雙邊注意力機制由并行的通道和空間兩大分支組成,結(jié)構(gòu)如圖3所示。

        虛線部分為通道注意力分支,由于三維場景中對象實例的邊緣可能會產(chǎn)生最大特征值,而全局最大池化操作可以很好地保留點云數(shù)據(jù)的邊緣特征,所以在通道維度的注意力機制中引入全局最大池化層;又因為全局平均池化是對整體特征進行下采樣,可以較好地保留背景語義信息,所以并行使用這兩個計算可以充分保留點云數(shù)據(jù)的語義信息。相比于通過復(fù)雜計算求特征圖在通道維度的權(quán)重數(shù)據(jù),這種方式在提高模型性能方面的作用明顯。

        實線部分為空間注意力分支,主要捕獲空間位置上的全局依賴,這樣對于三維場景中某個空間位置,若包含的空間幾何信息比較重要,就會乘以一個較大的值從而被關(guān)注,反之會被抑制。具體實現(xiàn)過程如下:首先,通過使用三維卷積壓縮特征圖的尺寸得到兩個特征圖,利用轉(zhuǎn)置再乘積的運算并經(jīng)過softmax函數(shù)來計算特征圖的權(quán)重;空間注意力模塊將生成一個空間注意力矩陣,將注意力矩陣饋送到三維卷積層中以獲取新的特征圖,再與原始壓縮特征圖做乘法,輸出空間維度重新標定的特征;最后分別沿通道和空間重新校準雙邊特征圖合并輸出。

        雙邊注意力機制同時關(guān)注空間特征和語義特征,通過學(xué)習(xí)每個維度的重要程度重新標定特征圖,每個點的特征信息都會被賦予空間及語義信息,這樣就可以最大程度地利用點云之間的復(fù)雜關(guān)系,增強點云實例分割的細粒程度。

        1.2 相似度量模塊

        2 實驗驗證

        2.1 數(shù)據(jù)集描述

        為了驗證3D-BSNet 的實例分割性能,本文在三維實例級室內(nèi)基準數(shù)據(jù)集 Scannet(v2)[23]和S3DIS[24]上進行了實驗。Scannet(v2)數(shù)據(jù)集是由美國普林斯頓大學(xué)和斯坦福大學(xué)在2017年聯(lián)合開發(fā)的 RGB-D 數(shù)據(jù)集,該數(shù)據(jù)集包含1 613個場景,其中1 201個訓(xùn)練場景、312個驗證場景和 100 個測試場景。在實例分割任務(wù)中,該數(shù)據(jù)集被標注為 18 類帶注釋的體素化對象,數(shù)據(jù)量達2.42億。S3DIS 數(shù)據(jù)集是由斯坦福大學(xué)在2016年開發(fā)的數(shù)據(jù)集,包含三座建筑內(nèi)的六個室內(nèi)區(qū)域,每個區(qū)域包含50 個不同的房間,共計271個場景。在實例分割任務(wù)中,該數(shù)據(jù)集被標注為13類帶注釋的逐點對象,數(shù)據(jù)量達7億。

        2.2 實驗平臺

        3D-BSNet的訓(xùn)練和測試均是在服務(wù)器工作站環(huán)境下完成。采用2個GTX TITAN X顯卡,32 GB顯存,Ubuntu 20.04操作系統(tǒng)。網(wǎng)絡(luò)訓(xùn)練300輪,使用Adam優(yōu)化算法來最小化損失函數(shù)。學(xué)習(xí)率初始值設(shè)為0.001,每10輪后以0.5的速度進行衰減,批處理大小設(shè)為16。

        2.3 評價指標

        2.4 實驗結(jié)果分析

        2.4.1 S3DIS數(shù)據(jù)集

        在S3DIS數(shù)據(jù)集中的Area5場景上進行點云實例分割的測試,以IoU閾值為0.5時的精確率(AP@50)、平均精確率(mAP)、平均查準率(mPrec)和平均召回率(mRec)作為評價指標。由表2可知,在S3DIS數(shù)據(jù)集上3D-BSNet在精確率和查準率方面取得了更優(yōu)的性能表現(xiàn)。相比于同樣使用相似度量策略但計算量非常大的SGPN,3D-BSNet 構(gòu)建的輕量級相似度量模塊具有更優(yōu)的分割性能。對比網(wǎng)絡(luò)中,PointGroup通過學(xué)習(xí)原始點云和位移坐標在幾何空間中的空隙距離,對點云進行聚類。然而由于對象實例之間的距離差距很難確定且網(wǎng)絡(luò)缺乏對語義信息的學(xué)習(xí),導(dǎo)致實例分割細粒度程度不夠。而3D-BSNet 通過雙邊特征提取和雙邊維度的注意力機制進行特征增強,顯著地提升了實例分割精度。相比于 HAIS采用分層聚合和實例內(nèi)預(yù)測的策略時, 由于模型主體是學(xué)習(xí)由點到集合再到完整實例的過程,淡化了對實例邊界的學(xué)習(xí),導(dǎo)致該模型的邊界感知能力較弱。3D-BSNet 通過相似度量模塊可以有效地捕獲到鄰近點云之間的拓撲關(guān)系,所以能夠更好地分離不同實例。在三個維度上本文方法都有很大的優(yōu)勢,特別是mPrec值和mRec值在測試集上分別高達75.1%、74.9%,說明了雙邊特征學(xué)習(xí)和相似度量策略的有效性。

        2.4.2 Scannet數(shù)據(jù)集

        在Scannet(v2)數(shù)據(jù)集中的測試場景上進行點云實例分割,以IoU閾值為0.25時的平均精確率(mAP@0.25)、IoU閾值為0.5時的平均精確率(mAP@0.5)、平均精確率(mAP)和平均運行時間作為評價指標??梢钥闯霰疚乃?D-BSNet相較于主流的proposal-free方法OccuSeg提高了9.6%mAP,相較于proposal方法的3D-SIS和3D-Bonet分別提高了37.8%mAP和28.6%mAP,測試集的運行效率也明顯高于其他模型,Scannet(v2)數(shù)據(jù)集共設(shè)置312個測試場景,3D-BSNet只需要115 s就可以完成這些場景的實例分割預(yù)測,平均單個場景的運行時間達369 ms。雙邊特征提取、特征聚合和相似度量分別需要125 ms、109 ms、135 ms。對比網(wǎng)絡(luò)中,3D-SIS以三維幾何圖形和多視圖二維彩色圖像為輸入,通過投影結(jié)合二維和三維特征來預(yù)測邊界框和實例掩碼,數(shù)據(jù)轉(zhuǎn)換占據(jù)大量的工作,平均運行時間比3D-BSNet多124 s。3D-Bonet通過匹配真實框和預(yù)測框回歸邊界預(yù)測框,但滑動窗口預(yù)測邊界框復(fù)雜性高,耗費大量的額外計算,運行效率低且難以返回細粒度實例分割結(jié)果。OccuSeg以三維幾何特征為輸入,設(shè)置空間感知信號提取每個實例占用體素空—間的大小,缺乏對語義特征的約束,計算量大且運行效率不高。相比于對比網(wǎng)絡(luò),3D-BSNet借助于雙邊特征學(xué)習(xí)模塊可以有效地挖掘局部細粒度特征,又借助于輕量級相似度量模塊可以高效地完成實例分割預(yù)測。

        圖4為Scannet(v2)數(shù)據(jù)集中五個房間的實例分割可視化效果對比。圖4(a)為真實標簽,也是網(wǎng)絡(luò)訓(xùn)練和測試的參考標準,圖4(b)為SSTNet的實例分割預(yù)測結(jié)果,圖4(c)為3D-BSNet的預(yù)測結(jié)果。

        由五組場景圖可以看出,相比于SSTNet,3D-BSNet能夠輸出更加細粒度的實例分割結(jié)果。從第1個和第2個場景中可以看出,墻上的窗戶與背景墻具有相近的空間位置關(guān)系,SSTNet將窗戶劃分為背景,而3D-BSNet通過雙邊特征傳遞可以有效地區(qū)分背景墻和窗戶,不同窗戶實例也可以精確分割。第3個場景相對雜亂,SSTNet對背景墻及桌邊的分割效果并不好。第4個場景中浴缸和水槽上有較多雜物,雜物本就包含多種幾何屬性特征,SSTNet雖然可以精確分割出浴缸主體邊界,但浴缸頭部處包含一些并未進行標注的實例對象(如洗漱用品),SSTNet模型將其識別為某一實例。類似這種情況也出現(xiàn)在這一場景中的水槽周圍,本文方法也有這一問題,但相較于SSTNet程度更輕,對未標注的實例對象誤差率較低。對于第5個場景的相鄰椅子實例,采用分層聚合方式的SSTNet未識別出屬于不同實例,分割效果不好,但3D-BSNet對其精度有明顯的提升,可以精確地分割出相鄰椅子屬于不同實例。原因在于3D-BSNet在特征提取過程中更好地挖掘了點云數(shù)據(jù)局部區(qū)域的細粒度信息,并通過雙邊注意力機制有效地增強了點云特征,從而提高了網(wǎng)絡(luò)識別復(fù)雜形狀物體的能力。

        由圖5可視化分割結(jié)果可以看出,3D-BSNet具有提取局部信息的能力,在室內(nèi)場景下密度不均勻的點云數(shù)據(jù)中依然有著較好的實例分割結(jié)果。第1個相對簡單場景中的預(yù)測結(jié)果與真實標簽幾乎無差別,對第2個場景中的門邊界和第3個場景的水槽分割存在些許誤差。可視化結(jié)果的呈現(xiàn)借助于解析文件工具及Open3D,是個動態(tài)立體的結(jié)果,從其他角度看場景3的分割誤差時發(fā)現(xiàn),水槽邊界能夠顯式分割,但水槽上方的雜物分割結(jié)果存在少許誤差,網(wǎng)絡(luò)將雜物的一部分預(yù)測為背景用黑色點標注并返回。這說明本文方法對干擾信息的容忍度不夠,魯棒性有待提高。第4個場景相對復(fù)雜,椅子實例較多且擺放不整齊,加大了網(wǎng)絡(luò)提取特征的難度,本文方法對該場景的分割效果大體上幾乎相同,僅存在略微的誤差。第5個場景的單側(cè)門框邊未識別出,可能由于數(shù)據(jù)集在標注時未對門框邊進行統(tǒng)一,有些場景門框未進行標注,導(dǎo)致網(wǎng)絡(luò)對這一類別的特征學(xué)習(xí)不足。另外,3D-BSNet屬于proposal-free類別的實例分割方法,沒有明確實例對象的邊界,面對多目標的雜亂場景容易產(chǎn)生邊界定位錯誤,對此下一步的研究可考慮借鑒邊界感知[30]機制來區(qū)分邊界處點的實例標簽。邊界感知的本質(zhì)是通過引入輸入點云的邊界語義信息,提高網(wǎng)絡(luò)的邊界感知能力。在特征學(xué)習(xí)過程中添加邊界感知學(xué)習(xí)模塊,有利于利用細節(jié)邊界信息來增強實例分割的細粒度。

        2.5 消融實驗

        2.5.1 雙邊特征提取

        表3展示了在Scannet(v2)數(shù)據(jù)集上疊加不同特征的消融實驗結(jié)果,以說明雙邊特征提取的有效性。其中第三組實驗為3D-BSNet的完整結(jié)構(gòu),第二組實驗是在所構(gòu)建網(wǎng)絡(luò)的基礎(chǔ)上移除了幾何特征提取支路,第一組實驗移除了語義特征提取支路。評估指標采用IoU閾值為0.5的平均精確度mAP@0.5。

        從表中結(jié)果可以看出,在單獨使用幾何特征提取或語義特征提取時,精確度的結(jié)果不如將兩者相結(jié)合得到的結(jié)果。方法3使用多層感知機和3D SSC-UNet并行提取點云的幾何特征和語義特征,相比方法1只輸入單邊幾何特征和方法2只輸入語義特征有明顯的提升,mAP分別提升了3.2%、1.8%,結(jié)果表明點云數(shù)據(jù)的幾何特征和語義特征能夠相互補充,為精細化實例分割提供有利的基礎(chǔ),同時也證明了雙邊特征提取的有效性。

        2.5.2 雙邊注意力機制

        表4展示了在Scannet(v2)數(shù)據(jù)集上疊加不同注意力機制的消融實驗結(jié)果,以說明雙邊注意力機制的有效性。其中第三組實驗為3D-BSNet的完整結(jié)構(gòu),第二組實驗是在所構(gòu)建網(wǎng)絡(luò)的基礎(chǔ)上移除了空間注意力分支,第一組實驗移除了通道注意力分支。評估指標采用IoU閾值為0.5的平均精確度mAP@0.5。

        從表中結(jié)果可以看出,方法3在Scannet(v2)數(shù)據(jù)集上的mAP比方法1高出2.3個百分點,驗證了空間注意力分支的有效性。原因在于空間注意力分支能夠在局部鄰域內(nèi)學(xué)習(xí)到任意兩個特征相似的點的深層次語義信息,從而使得每個點的特征都得到一定程度的增強。方法3在Scannet(v2)數(shù)據(jù)集上的mAP比方法2高出1.8個百分點,因為在加入通道注意力分支后,能夠通過最大池化和平均池化操作來聚合局部鄰域特征,從而增強有用通道的權(quán)重,但由于池化操作的局限性使得通道注意力分支對點云實例分割的提升效果不如空間注意力分支。

        3 結(jié)束語

        針對三維場景的實例分割,本文從點云數(shù)據(jù)的高維特征學(xué)習(xí)和相似度量兩個方面入手,提出了一種新的網(wǎng)絡(luò)結(jié)構(gòu),構(gòu)建了雙邊特征和相似度量模塊,并引入雙邊維度的注意力機制,充分捕獲并增強點云數(shù)據(jù)的語義特征和幾何特征。利用高維特征嵌入空間中點與點之間的關(guān)聯(lián)關(guān)系,直接返回實例分割預(yù)測結(jié)果。實驗結(jié)果表明,本文所提的3D-BSNet客觀指標優(yōu)于多個對比方法,能夠?qū)崿F(xiàn)細粒度實例分割效果。同時本文所訓(xùn)練的模型可以應(yīng)用于機器人自主導(dǎo)航領(lǐng)域,將激光雷達安裝在機器人平臺上,通過實時采集的三維數(shù)據(jù)判斷環(huán)境中的可行區(qū)域和障礙物,從而實現(xiàn)機器人在室內(nèi)場景下的自主導(dǎo)航和避障;也可應(yīng)用于自動駕駛領(lǐng)域,為車輛提供用于理解周圍環(huán)境的高層次語義信息,從而實現(xiàn)車輛的高質(zhì)量視覺定位,提高場景感知能力。

        參考文獻:

        [1]張碩,葉勤,史婧,等.改進RangeNet+損失函數(shù)的車載點云小目標語義分割方法[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報,2021,33(5):704-711.(Zhang Shuo,Ye Qin,Shi Jing,et al.A semantic segmentation method of in-vehicle small targets point cloud based on improved RangeNet+ loss function[J].Journal of Computer-Aided Design amp; Computer Graphics,2021,33(5):704-711.)

        [2]Li Ying,Ma Lingfei,Zhong Zilong,et al.Deep learning for LiDAR point clouds in autonomous driving:a review[J].IEEE Trans on Neural Networks and Learning Systems,2020,32(8):3412-3432.

        [3]何康輝,肖志勇.LR UNet:輕量級腦腫瘤快速語義分割網(wǎng)絡(luò)[J].中國圖象圖形學(xué)報,2021,26(9):2233-2242.(He Kanghui,Xiao Zhiyong.LRUNet:lightweight brain tumor fast semantic segmentation network[J].Chinese Journal of Image and Graphics,2021,26(9):2233-2242.)

        [4]Qi C R,Liu Wei,Wu Chenxia,et al.Frustum PointNets for 3D object detection from RGB-D data[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2018:918-927.

        [5]Guo Yulan,Wang Hanyun,Hu Qingyong,et al.Deep learning for 3D point clouds:a survey[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2020,43(12):4338-4364.

        [6]李海生,武玉娟,鄭艷萍,等.基于深度學(xué)習(xí)的三維數(shù)據(jù)分析理解方法研究綜述[J].計算機學(xué)報,2020,43(1):41-63.(Li Hai-sheng,Wu Yujuan,Zheng Yanping,et al.A review on the understan-ding method of 3D data analysis based on deep learning[J].Chinese Journal of Computers,2020,43(1):41-63.)

        [7]Li Yi,Wang Zhao,He Wang,et al.GSPN:generative shape proposal network for 3D instance segmentation in point cloud[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Wa-shington DC:IEEE Computer Society,2019:3947-3956.

        [8]Hou Ji,Dai A,Niener M.3D-SIS:3D semantic instance segmentation of RGB-D scans[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2019:4421-4430.

        [9]Yang Bo,Wang Jianan,Clark R,et al.Learning object bounding boxes for 3D instance segmentation on point clouds[C]// Advances in Neural Information Processing Systems.Cambridge,MA:MIT Press,2019:6740-6749.

        [10]Pham Q H,Nguyen T,Hua B S,et al.JSIS3D:joint semantic-instance segmentation of 3D point clouds with multi-task pointwise networks and multi-value conditional random fields[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2019:8827-8836.

        [11]Wang Weiyue,Yu R,Huang Q,et al.SGPN:similarity group proposal network for 3D point cloud instance segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2018:2569-2578.

        [12]Qi C R,Su H,Mo K,et al.PointNet:deep learning on point sets for 3D classification and segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:652-660.

        [13]Lahoud J,Ghanem B,Pollefeys M,et al.3D instance segmentation via multi-task metric learning[C]//Proc of IEEE International Confe-rence on Computer Vision.Washington DC:IEEE Computer Society,2019:9256-9266.

        [14]Jiang Li,Zhao Hengshuang,Shi Shaoshuai,et al.PointGroup:dual-set point grouping for 3D instance segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2020:4867-4876.

        [15]Wang Xinlong,Liu Shu,Shen Xiaoyong,et al.Associatively segmenting instances and semantics in point clouds[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2019:4096-4105.

        [16]Zhao Lin,Tao Wenbing.JSNet:joint instance and semantic segmentation of 3D point clouds[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2020:12951-12958.

        [17]Graham B,Engelcke M,Maaten L V.3D semantic segmentation with submanifold sparse convolutional networks[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2018:1152-1090.

        [18]Shelhamer E,Long J,Darrell T.Fully convolutional networks for semantic segmentation[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2015,39(4):640-651.

        [19]吳軍,崔玥,趙雪梅,等.SSA-PointNet+:空間自注意力機制下的3D點云語義分割網(wǎng)絡(luò)[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報,2022,34(3):437-448.(Wu Jun,Cui Yue,Zhao Xuemei,et al.SSA-PointNet+:a space self-attention CNN for the semantic segmentation of 3D point cloud[J].Journal of Computer-Aided Design amp; Computer Graphics,2022,34(3):437-448.)

        [20]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Cambridge,MA:MIT Press,2017:6000-6010.

        [21]Tan Zhixing,Wang Mingxuan,Xie Jun,et al.Deep semantic role labeling with self-attention[C]//Proc of National Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2017:4929-4936.

        [22]Wang Yude,Zhang Jie,Kan Meina,et al.Self-supervised equivariant attention mechanism for weakly supervised semantic segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2020:12275-12284.

        [23]Dai A,Chang A X,Savva M,et al.ScanNet:richly-annotated 3D reconstructions of indoor scenes[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:5828-5839.

        [24]Armeni I,Sener O,Zamir A R,et al.3D semantic parsing of large-scale indoor spaces[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2016:1534-1543.

        [25]Engelmann F,Bokeloh M,F(xiàn)athi A,et al.3D-MPA:multi proposal aggregation for 3D semantic instance segmentation[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2020:9028-9037.

        [26]Chen Shaoyu,F(xiàn)ang Jiemin,Zhang Qian,et al.Hierarchical aggregation for 3D instance segmentation[C]//Proc of IEEE/CVF International Conference on Computer Vision.Washington DC:IEEE Computer Society,2021:1074-1080.

        [27]Liang Zhihao,Li Zhihao,Xu Songcen,et al.Instance segmentation in 3D scenes using semantic superpoint tree networks[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2021:1520-1860.

        [28]Han Lei,Zheng Tian,Xu Lan,et al.OccuSeg:occupancy-aware 3D instance segmentation[C]//Proc of IEEE/CVF Conference on Compu-ter Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2020:2940-2949.

        [29]關(guān)柏良,周凡,林淑金,等.面向三維模型分割的邊界感知點云神經(jīng)網(wǎng)絡(luò)[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報,2020,32(1):147-155.(Guan Boliang,Zhou Fan,Lin Shujin,et al.Boundary-aware point based deep neural network for shape segmentation[J].Journal of Computer-Aided Design amp; Computer Graphics,2020,32(1):147-155.

        [30]Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Wa-shington DC:IEEE Computer Society,2014:1580-1598.

        午夜福利电影| 色大全全免费网站久久| 国产精品久久久久久久| 亚洲最大av资源站无码av网址| 久久久精品456亚洲影院| 亚洲人妻精品一区二区三区| 天天躁夜夜躁狠狠躁婷婷| 国产亚洲精品aaaa片小说| 无码日韩人妻AV一区免费| 中文字幕亚洲欧美日韩在线不卡| 国产三级精品美女三级| 中文字幕一区乱码在线观看| 亚洲日韩在线中文字幕综合| 长腿校花无力呻吟娇喘的视频| 久久露脸国产精品WWW| 日本免费影片一区二区| 国产成人精品亚洲日本在线观看 | 西西午夜无码大胆啪啪国模| 久久久久亚洲精品天堂| 99久久精品久久久| 国语对白精品在线观看| 欧美精品亚洲精品日韩专区 | 内射交换多p国产| 日本一区二区三区小视频| 日韩一级黄色片一区二区三区| 天堂8在线天堂资源bt| 99精品成人片免费毛片无码| 日韩精品一区二区在线视| 大陆国产乱人伦| 久久精品久久久久观看99水蜜桃| 午夜av内射一区二区三区红桃视 | 免费无码av片在线观看| 激情综合五月天开心久久| 国产精品一区二区黄色| 欧美bbw极品另类| 亚洲熟妇大图综合色区| 国产护士一区二区三区| 波多野结衣的av一区二区三区| 草莓视频一区二区精品| 精品奇米国产一区二区三区| 波多野结衣av一区二区全免费观看|