亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多尺度注意力機(jī)制的實(shí)時激光雷達(dá)點(diǎn)云語義的分割

        2024-01-01 00:00:00張晨劉暢趙津王廣瑋許慶
        關(guān)鍵詞:移動機(jī)器人語義方法

        摘 要:為既能提高分割精度,又能克服車載計(jì)算資源局限,提出一種面向移動機(jī)器人平臺的車載實(shí)時點(diǎn)云語義分割方法,并進(jìn)行了綜合實(shí)驗(yàn)。該方法采用基于投影的激光雷達(dá)語義分割方法,將三維點(diǎn)云投影到球面圖像,并結(jié)合二維卷積進(jìn)行分割。引入多頭注意力機(jī)制(MHSA),實(shí)現(xiàn)輕量級語義分割模型,以一種全新的方式,將一種深度學(xué)習(xí)模型架構(gòu)Transformer映射到卷積。將Transformer的MHSA遷移至卷積,以形成多尺度自注意力機(jī)制(MSSA)。結(jié)果表明:與當(dāng)前主流方法CENet、FIDNet 、PolarNet相比,本方法在NVIDIA JETSON AGX Xavier計(jì)算平臺上保持了較高的分割精度(平均交并比為63.9%)及較高的檢測速率(41 幀/s),從而證明了其對移動機(jī)器人平臺的適用性。

        關(guān)鍵詞: 移 動機(jī)器人平臺;激光雷達(dá)(LiDAR); 點(diǎn)云;多尺度注意力機(jī)制(MSSA);語義分割方法TRANSFORMER;卷積神經(jīng)網(wǎng)絡(luò)

        中圖分類號: TP 181 文獻(xiàn)標(biāo)識碼: A DOI: 10.3969/j.issn.1674-8484.2024.04.016

        Semantic segmentation of real-time LiDAR point clouds based"on multi-scale self-attention

        ZHANG Chen1, LIU Chang1, ZHAO Jin1, WANG Guangwei*1, 2, XU Qing2

        (1. School of Mechanical Engineering, Guizhou University, Guiyang 550025, China; 2. School of Vehicle and Mobility, Tsinghua University, Beijing 100084, China)

        Abstract: A real-time point cloud semantic segmentation method was proposed for mobile robot platforms through digital experiments, to enhance segmentation accuracy within the constraints of in-vehicle computing resources. The approach used a projection-based LiDAR technique, projecting the 3-D point cloud onto a spherical image and applying 2-D convolution. The approach integrated the multi-head self-attention (MHSA) mechanism, adapting the Transformer, a software semantic segmentation, architecture into convolution operations to build a multi-scale self-attention (MSSA) framework. The results show that on the NVIDIA JETSON AGX Xavier computing platform, the proposed method achieves a high segmentation accuracy with the mean ratio of Intersection to Union (mIoU) being 63.9%, and a fast detection speed of 41 frame/s, compared to state-of-the-art methods like the CENet, the FIDNet, and the PolarNet, therefore, demonstrating the effectiveness of the mobile robot platforms.

        Key words: mobile robot platforms; light detection and ranging (LiDAR); point cloud; multi-scale self-attention"(MSSA); semantic segmentation TRANSFORMER; convolutional neural networks

        隨著傳感器技術(shù)的發(fā)展,移動機(jī)器人從環(huán)境中采集點(diǎn)云已經(jīng)變得越來越方便[1]。例如,移動機(jī)器人可以通過激光雷達(dá)(LiDAR)設(shè)備收集三維(3-D)點(diǎn)云信息;水下機(jī)器人可以使用聲納設(shè)備獲取海洋環(huán)境的二維(2-D)點(diǎn)云[2]。因此,無論是從學(xué)術(shù)還是工業(yè)的角度來看,基于點(diǎn)云信息的場景感知都受到了極大的關(guān)注[3]。三維點(diǎn)云不僅提供了豐富的物理輪廓,還能準(zhǔn)確的描述物體之間的相對距離,能夠?yàn)榉墙Y(jié)構(gòu)環(huán)境下移動機(jī)器人理解環(huán)境、躲避障礙物提供極大助力[4]。但由于環(huán)境三維點(diǎn)云通常數(shù)據(jù)量龐大,如何能夠?qū)崟r、高效的處理點(diǎn)云信息,對于配備激光雷達(dá)的移動機(jī)器人執(zhí)行復(fù)雜任務(wù)至關(guān)重要。

        盡管點(diǎn)云語義分割方法具有巨大的應(yīng)用潛力,但目前主流研究方法在現(xiàn)實(shí)世界應(yīng)用,仍面臨著重大挑戰(zhàn)[5]。其中,一方面是處理和分析大量點(diǎn)云數(shù)據(jù)所需的高計(jì)算成本[6];另一方面,由于工作場景的復(fù)雜性,對來自環(huán)境數(shù)據(jù)的點(diǎn)云語義分割的精確性要求較高。因此,上述困難使得在資源受限的設(shè)備上難以實(shí)現(xiàn)實(shí)時、高精度的點(diǎn)云分割應(yīng)用,特別是對于裝載嵌入式設(shè)備的移動機(jī)器人平臺[7]。

        目前采用卷積神經(jīng)網(wǎng)絡(luò)的點(diǎn)云語義分割方法可分為3類:基于投影的方法、基于點(diǎn)的方法和基于體素的方法。基于投影的方法雖然計(jì)算效率很高,但在將 3-D 結(jié)構(gòu)投影到 2-D 時可能會導(dǎo)致信息丟失和分割精度降低?;邳c(diǎn)的方法采用原始且未過濾的輸入點(diǎn)云并將其轉(zhuǎn)換為稀疏表示,對內(nèi)存資源的需求相對較高?;隗w素的方法將三維點(diǎn)云投射到預(yù)定義的網(wǎng)格,使用三維卷積神經(jīng)網(wǎng)絡(luò)提取點(diǎn)云特征[8],雖然具備較高的分割精度,但推理速度甚至低于激光雷達(dá)的工作頻率(10 Hz)。

        針對高精度分割結(jié)果與車載計(jì)算資源局限之間的矛盾問題,本文有效結(jié)合一種深度學(xué)習(xí)模型架構(gòu)—Transformer和球面圖像的點(diǎn)云實(shí)時語義分割,提出一種應(yīng)用于移動機(jī)器人服務(wù)平臺的點(diǎn)云實(shí)時語義分割方法(RangeFormer-Net),既利用了卷積的平移不變特性、高效性以及自注意力機(jī)制對長距離關(guān)系的建模能力等優(yōu)點(diǎn),又將Transformer的多頭自注意力(multi-head self-attention,MHSA)機(jī)制映射為卷積的多尺度自注意力(multi-scale self-attention,MSSA)機(jī)制,實(shí)現(xiàn)了輕量級的分割模型,該研究結(jié)果對于室外移動機(jī)器人的實(shí)時感知具有參考價值。

        1 點(diǎn)云語義分割相關(guān)工作

        1.1 基于投影的激光雷達(dá)語義分割方法

        圖像語義分割的進(jìn)步得益于二維卷積的快速發(fā)展,這類方法將三維點(diǎn)云投影成不同視角下的圖像,如球面投影[9]和鳥瞰投影[10]。與前者相比,基于投影的方法在分割精度和計(jì)算復(fù)雜度上取得了較好的平衡且應(yīng)用廣泛,使其適用于嵌入式移動設(shè)備。SqueezeSeg [11]系列采用輕量級模型并使用SqueezeNet作為主干網(wǎng)絡(luò),雖然速度和參數(shù)優(yōu)于其他方法,但分割精度不夠[12]。

        鑒于此,RangeNet++ [13]將Darknet整合到SqueezeSeg中。SalsaNext系列[14]采用多尺度殘差模塊的編碼器-解碼器架構(gòu),可以獲取更多的全局信息。SqueezeSeg V3根據(jù)輸入的位置采用空間自適應(yīng)卷積(spatially-adaptive convolution,SAC),將圖像技術(shù)整合至點(diǎn)云分割中[15]。

        1.2 基于點(diǎn)的激光雷達(dá)語義分割方法

        與像素類似,基于點(diǎn)的語義分割方法是從點(diǎn)云數(shù)據(jù)提取特征并直接處理原始點(diǎn)云。經(jīng)典的方法如PointNet [16]使用多層感知器(shared MLPs)提取特征并用于分類和分割任務(wù)。受此啟發(fā),許多研究人員從原始點(diǎn)云的角度實(shí)現(xiàn)分割,例如RandLA-Net [17]采用隨機(jī)點(diǎn)云采樣策略提升算法效率,同時使用局部特征聚合減少信息損失。KPConv [18]采用可變形卷積學(xué)習(xí)局部特征,但由于常用的基于點(diǎn)采樣的方法計(jì)算成本高,大尺度點(diǎn)云下很難捕捉到完整、精細(xì)的結(jié)構(gòu),因此該方法的應(yīng)用受限于小尺度點(diǎn)云數(shù)據(jù)。

        1.3 基于體素的激光雷達(dá)語義分割方法

        基于體素的方法將三維點(diǎn)云投影到立方體網(wǎng)格中并使用三維卷積解決點(diǎn)云分布不均勻問題。SEGCloud [19]作為早期使用體素網(wǎng)格進(jìn)行點(diǎn)云語義分割的方法,需要高昂的計(jì)算資源。為了降低對計(jì)算資源的依賴,SPVNAS [20]采用稀疏卷積降低計(jì)算復(fù)雜性。Cylinder3D將輸入轉(zhuǎn)化為特定的體素網(wǎng)格,采取不對稱三維卷積解決密度和稀疏度的關(guān)系以提升推理速度,但在移動機(jī)器人平臺上使用仍具有挑戰(zhàn)性。

        1.4 基于 Transformer的激光雷達(dá)語義分割方法

        與卷積神經(jīng)網(wǎng)絡(luò)相比,深度學(xué)習(xí)模型架構(gòu)Transformer在三維點(diǎn)云上的應(yīng)用仍然較少。PCT (point cloud transformer) [21]在處理點(diǎn)云時具有置換不變性,使其更適合三維點(diǎn)云學(xué)習(xí)。FPT (fast point transformer) [22]是一種新穎的局部自注意力機(jī)制,采用基于體素的網(wǎng)絡(luò)架構(gòu)進(jìn)行模型推理。但是,多數(shù)使用Transformer的深度學(xué)習(xí)模型架構(gòu)是基于原始點(diǎn)云,雖然精度有所提高但處理速度較慢。

        綜上所述,將Transformer應(yīng)用于基于投影的激光雷達(dá)語義分割方法具有創(chuàng)新意義。同時為了避免自注意力機(jī)制的效率較低,本文采用卷積神經(jīng)網(wǎng)絡(luò)建模Transformer,建立RangerFormer-Net語義分割方法,在保留全局特性的同時使其有更快的推理速度,且具有更少的計(jì)算參數(shù),為移動機(jī)器人平臺下的實(shí)時激光雷達(dá)語義分割提供了新的解決思路。

        2 RangerFormer-Net網(wǎng)絡(luò)介紹

        2.1 三維點(diǎn)云的輸入表示

        將Transformer中的多頭自注意力機(jī)制(MHSA)建模為多尺度自注意力機(jī)制(MSSA),需重點(diǎn)關(guān)注2個方面: 1) 如何在多層金字塔網(wǎng)絡(luò)中結(jié)合卷積和Transformer; 2) MHSA和MSSA是否等價以及如何結(jié)合。

        本研究首先對輸入的點(diǎn)云數(shù)據(jù)進(jìn)行預(yù)處理,即使用球面投影生成二維深度圖像,將離散的三維點(diǎn)云數(shù)據(jù)轉(zhuǎn)換為圖像網(wǎng)格狀的密集形式,以便高效執(zhí)行二維卷積操作。其中三維坐標(biāo)為 (x, y, z),二維圖像坐標(biāo)為(u, v):

        其中:(u, v)為二維圖像坐標(biāo);(H, W)為二維圖像的高和寬; f = fup + fdown為激光雷達(dá)的垂直視場角; r = x2 2 2+y+z為每個有效激光點(diǎn)云的深度值。因此,二維圖像張量的尺寸為(H, W, 5),其中第三維表示(x, y, z, i, r),i表示激光點(diǎn)云的強(qiáng)度值。

        2.2 RangerFormer-Net網(wǎng)絡(luò)架構(gòu)及特性

        RangerFormer-Net網(wǎng)絡(luò)架構(gòu)與U-net類似,均使用標(biāo)準(zhǔn)的編碼器 -解碼器架構(gòu),其中放縮比率為16,如圖1所示。

        編碼器部分包含金字塔下采樣,而解碼器部分采用上采樣操作。每層編碼器均采用MSSA而非常規(guī)卷積。對于卷積神經(jīng)網(wǎng)絡(luò),本文重點(diǎn)關(guān)注二維圖像語義分割中不同擴(kuò)張比率(1×1/3×3/2×2)的卷積核,然后將不同尺度的特征圖進(jìn)行串聯(lián)堆疊。所提出的RangeFormer-Net的創(chuàng)新設(shè)計(jì)在于多尺度放縮,類似于Transformer中的FFN (feed forward network)操作,既能保證殘差連接的有效性,又能保持具有相同維數(shù)的特征融合。因此本文重點(diǎn)整合傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)和Transformer架構(gòu)兩者的優(yōu)勢。

        2.3 多尺度注意力機(jī)制

        Transformer中的多頭注意力機(jī)制如圖2b、2c所示,全局注意力Attention和全局輸出Y可表示為:

        其中:dk為歸一化尺度因子; V、Q、K分別對應(yīng)將投影后形成的相同尺寸的Value(值)、Query(查詢)和Key(鍵)矩陣。

        對于每個特征圖X的每個像素位置(i, j),可以通過卷積操作來計(jì)算其多尺度注意力權(quán)重α(i, j),具體計(jì)算公式如下:

        其中: Wα和ba分別表示注意力權(quán)重計(jì)算的卷積核和偏置項(xiàng); α表示權(quán)重系數(shù)。

        令E為編碼器輸出特征圖,G為解碼特征圖,進(jìn)一步將特征圖E和特征圖G進(jìn)行加權(quán)求和,得到F如下:

        傳統(tǒng)Transformer框架用于處理自然語言領(lǐng)域的詞向量,其與圖像主要區(qū)別在于詞向量通常是一維向量,而圖像是二維矩陣。同時,MHSA在處理一維詞向量時會關(guān)聯(lián)語句上下文信息。在該思想下ViT(vision transformer)將圖像切成不重疊的圖像塊,然后將每個塊作為向量送入MHSA提取特征。然而該方法的局限性在于:

        1) 較大的塊帶來更多全局信息,但局部細(xì)節(jié)會丟失。相反較小的塊會保留細(xì)節(jié)信息,但計(jì)算量會大幅增加;

        2) Transformer需考慮圖像大小帶來的高計(jì)算代價,會給小尺寸高維圖像帶來依賴性;

        3) 在硬件加速方面,Transformer遠(yuǎn)低于卷積神經(jīng)網(wǎng)絡(luò)。

        本文針對上述方法中的局限性,進(jìn)行了3點(diǎn)改進(jìn):

        1) 為了保證網(wǎng)絡(luò)高效性,本文基于卷積方法的平移不變性,使用卷積替代圖像切分方式,從而避免位置編碼的不確定因素;

        2) 通過在卷積中建立多尺度自注意力機(jī)制,保持對所有特征圖的依賴關(guān)系;

        3) 本文創(chuàng)新的將多尺度卷積與自注意力機(jī)制結(jié)合用于解決激光雷達(dá)深度圖像問題,雖然不如Transformer能掌握全局,但卻擴(kuò)展局部感受野并建立了更廣的全局關(guān)系,有效平衡了細(xì)節(jié)不足和高計(jì)算代價二者之間的矛盾關(guān)系。

        卷積神經(jīng)網(wǎng)絡(luò)中的多尺度自注意力機(jī)制,如圖2a所示,MSSA將輸入作為Query,然后通過卷積建模Value,對應(yīng)于傳統(tǒng)Transformer中的線性投影。與后者區(qū)別在于Key矩陣,本文用 (n×n:3×3/2×2) 表示卷積核大小,對應(yīng)于二維圖像的語義分割。本文中MSSA與公式2一致,通過計(jì)算具有卷積特性和概率分布的Attention分?jǐn)?shù)表示Value矩陣的分布。其中,卷積可以有效構(gòu)建多頭注意力機(jī)制并允許在任意維度上對多頭注意力機(jī)制進(jìn)行連續(xù)建模。

        2.4 RangerFormer-Net網(wǎng)絡(luò)細(xì)節(jié)

        RangeFormer-Net網(wǎng)絡(luò)架構(gòu)由4個模塊組成,分別為MSSA全局特征提取塊、MSSA編碼器、MSSA解碼器和語義分割頭。為了進(jìn)一步結(jié)合不同尺度間的信息,本文在編碼器和解碼器之間引入堆疊跳躍連接,以用于執(zhí)行特征融合。

        MSSA全局特征提取塊:2-D圖像和3-D點(diǎn)云中的一個重要步驟是如何提取上下文信息。在本模塊中,為了融合不同感受野下的上下文信息,依次堆疊不同卷積核的輸出,主要通過堆疊1×1、3×3和3×3卷積(擴(kuò)展比率為1/2)實(shí)現(xiàn),最后通過跳躍連接來執(zhí)行融合。其中通道數(shù)量變化為(5, 32)到(32, 32)到 (32, 32)。MSSA網(wǎng)絡(luò)細(xì)節(jié)如圖3所示,編碼計(jì)算流程表示為:

        其中:Conv2d表示卷積操作;K、P、R分別對應(yīng)卷積核大小、填充、擴(kuò)張率;MSSAinput為MSSA的輸入,MSSAoutput為MSSA的輸出。

        MSSA編碼器:該模塊主要用于提取不同尺度的特征。我們將常規(guī)卷積替換為MSSA模塊,并添加不同的擴(kuò)張比。同時使用全局平均池進(jìn)行最終下采樣,以避免卷積帶來的額外開銷,消融實(shí)驗(yàn)驗(yàn)證了該步驟幾乎不會降低平均交并比(mean ratio of intersection to union, mIoU),其中通道數(shù)(從32到64到128到256),縮放比為16,從(64, 2048)到(4, 128)逐階段降低。

        MSSA解碼器:與上采樣和轉(zhuǎn)置卷積操作相比,本文在解碼器中使用“MSSA +上采樣”的設(shè)置。上采樣忽略了“參數(shù)”學(xué)習(xí)因素,這可能會降低精度,卻具有無參學(xué)習(xí)和速度快的優(yōu)點(diǎn);轉(zhuǎn)置卷積包括學(xué)習(xí)參數(shù),但難以保證與編碼器信息對齊,因此本文用MSSA模塊代替轉(zhuǎn)置卷積。語義分割頭:針對每個激光深度圖像的像素點(diǎn)設(shè)計(jì),通過1×1卷積實(shí)現(xiàn)。

        2.5 損失函數(shù)設(shè)計(jì)

        從實(shí)際場景和數(shù)據(jù)集分析可知,損失函數(shù)的設(shè)計(jì)目標(biāo)是提高神經(jīng)網(wǎng)絡(luò)的泛化能力并對融合后的特征進(jìn)行優(yōu)化。其中需要進(jìn)一步處理的問題包括:1) 圖像物體邊界分割模糊;2) 如何緩解場景中類別失衡問題;3) 如何優(yōu)化平均交并比mIoU。對于上述問題,使用損失函數(shù)的組合來監(jiān)督模型訓(xùn)練,主要包括交叉熵?fù)p失Lwce、Lova’sa-Softmax損失Lls以及邊界損失Lbd。

        在語義分割任務(wù)中,二維圖像主要存在物體邊界分割模糊的問題,類似的三維點(diǎn)云投影至二維圖像時也存在此問題,因此定義邊界損失為

        其中: C表示類別的集合; PC、RC分別表示預(yù)測邊界特征圖ypd相對于C中真實(shí)標(biāo)簽ygt的精確度和召回率。由此,邊界可定義為:

        其中,pool函數(shù)是一種邊緣檢測操作,用于提取圖像的邊緣特征。為了解決類別標(biāo)簽數(shù)量不平衡問題,將類別出現(xiàn)頻率開方的倒數(shù)來定義交叉熵?fù)p失函數(shù):

        其中: yi、?ι表示類別標(biāo)簽的真實(shí)值和預(yù)測值; αi表示平衡類別不平衡的權(quán)重系數(shù)。同時使用Lova’sa-Softmax損失函數(shù)來最大化交并比:

        其中: |C |表示類別標(biāo)簽的數(shù)量值,c表示類別標(biāo)簽中的一個具體類別;VJc表示類別c的 Jacobi矩陣索引的擴(kuò)展項(xiàng); xi(c)∈[0, 1], yi(c)∈{-1, 1}:表示類別c的第i個像素的真實(shí)標(biāo)簽概率和預(yù)測標(biāo)簽概率。損失函數(shù)的組合為:

        其中: a、b、k表示不同損失函數(shù)的權(quán)重,這些參數(shù)的設(shè)置過程將在消融實(shí)驗(yàn)部分進(jìn)行描述。

        類似的,在獲取球面圖像語義分割結(jié)果之后,由于從編碼器到解碼器的推理過程中會產(chǎn)生邊緣二義性,可能導(dǎo)致邊界模糊問題,此類現(xiàn)象同樣會發(fā)生在二維圖像語義分割研究中。例如,SqueezeSeg [11]中表明在分割后對預(yù)測結(jié)果采用條件隨機(jī)場能進(jìn)一步消除語義邊界出現(xiàn)的疊加、模糊等問題。盡管此類研究在應(yīng)對二維圖像語義分割時相對有效,但并非能完全解決逆投影至三維點(diǎn)云后的邊界問題。一旦球面圖像被投影至三維點(diǎn)云時,存儲在相同位置的像素中會產(chǎn)生多類重疊語義標(biāo)簽,進(jìn)而導(dǎo)致不同邊界產(chǎn)生混淆問題。

        因此,本文采用K近鄰算法(K-nearest neighbors, KNN)分類方法消除逆投影至三維點(diǎn)云過程中產(chǎn)生的邊界混淆問題。該方法基于“鄰居投票”的思想,即對每一個待分類樣本采用投票來確定其所屬類別,一定程度上降低邊界混淆引發(fā)a的問題,使RangerFormer-Net模型能有效應(yīng)對局部信息,提高分割準(zhǔn)確性。

        3 實(shí)驗(yàn)分析

        3.1 實(shí)驗(yàn)設(shè)置

        為了有效驗(yàn)證RangerFormer-Net網(wǎng)絡(luò)在移動機(jī)器人平臺上進(jìn)行實(shí)時語義分割的性能,本部分將分別在SemanticKITTI [23]和SemanticPOSS [24] 2個主流基準(zhǔn)數(shù)據(jù)集上進(jìn)行評估。測試場景包括車流交織的城鎮(zhèn)公路交叉路口以及行人眾多、交通情況錯綜復(fù)雜的市區(qū)公路路段。

        SemanticKITTI是一個大規(guī)模數(shù)據(jù)集,包含來自22個序列的43551個激光雷達(dá)(LiDAR)掃描幀。SemanticPOSS是一個小規(guī)模基準(zhǔn)書籍,由2 988個LiDAR場景組成,共分為6個部分,本文使用2個部分作為測試,其他作為訓(xùn)練集。RangerFormer-Net網(wǎng)絡(luò)評判的評價指標(biāo)是分割時的浮點(diǎn)運(yùn)算量(FLOPs)和平均交并比(mIoU)。FLOPs數(shù)值越低,而對應(yīng)mIoU數(shù)值及傳輸速率(frames per second, FPS)越高,則更加滿足機(jī)器人平臺使用需求。

        對于正則化和優(yōu)化器的設(shè)置,本文采用隨機(jī)梯度下降模式,初始學(xué)習(xí)率為0.01,在一輪迭代后衰減0.01。此外,根據(jù)Cortinhal [25]等人提出的具有0.000 1和0.900 0動量的L2范數(shù),本文同時在單個NVIDIA RTX 3090、4個RTX 2080Ti GPU上進(jìn)行訓(xùn)練并部署到移動機(jī)器人常用計(jì)算平臺(NVIDIA JETSON AGX Xavier)上進(jìn)行實(shí)驗(yàn)。訓(xùn)練過程中采用隨機(jī)旋轉(zhuǎn)、平移、繞y軸翻轉(zhuǎn)、點(diǎn)丟失和向三維坐標(biāo)值添加噪聲來增強(qiáng)數(shù)據(jù)。對于SemanticKITTI和SemanticPOSS數(shù)據(jù)集,本文分別訓(xùn)練了180個周期和90個周期。

        3.2 實(shí)驗(yàn)結(jié)果

        本文所提出的方法與當(dāng)前主流分割算法在SemanticKITTI數(shù)據(jù)集上進(jìn)行了定量分析,結(jié)果如表1所示。與當(dāng)前主流方法相比,RangerFormer-Net實(shí)現(xiàn)了較高精度(mIoU = 63.9% )。值得注意的是,本文方法在精度優(yōu)于多數(shù)基于投影的方法的同時,保持較高的傳輸速率(41 幀/s),這點(diǎn)對于在計(jì)算資源受限的移動機(jī)器人上有效運(yùn)用至關(guān)重要。除在語義分割精度與速度方面的性能提升外,與其他現(xiàn)有模型相比,其在分割車輛、人、路面、自行車手、人行道等9類物體方面表現(xiàn)出了顯著的優(yōu)勢。例如:該模型可以識別車輛、道路、植物等路面信息,有效避免了汽車與植物的混淆,可清晰識別汽車、人行道、建筑物等物體的輪廓信息。

        更重要的是,與基于點(diǎn)的方法PolarNet相比,RangerFormer-Net在mIoU指標(biāo)上提高了9.6%。與基于投影的方法FIDNet相比mIoU指標(biāo)提高了5.3%。CENet [26]在基于投影的方法中雖具有較高的mIoU(64.7%),然而其插值上采樣部分達(dá)到480 GFlops,使其難以在NVIDIA JETSON AGX Xavier上實(shí)施運(yùn)行。相比之下,在嵌入式設(shè)備上部署模型時本文方法參數(shù)量和Flops更低,更容易在移動機(jī)器人平臺部署使用。

        本文所提出方法與當(dāng)前主流分割算法同樣在SemanticPOSS數(shù)據(jù)集上進(jìn)行了定量分析,結(jié)果如表2所示??梢钥闯鲇捎邳c(diǎn)云的稀疏結(jié)構(gòu)許多基于投影的

        方法表現(xiàn)較差。然而本文方法與CENet仍實(shí)現(xiàn)了較高的mIoU值(49.9%),可能原因是SemanticPOSS具有更少的類和更稀疏的點(diǎn)云。該結(jié)果證明與其他主流方法相比,在因點(diǎn)云的稀疏性而給點(diǎn)云的實(shí)時語義分割造成干擾時,RangerFormer-Net網(wǎng)絡(luò)依然具有良好的分割精度。

        此外,本文使用RangerFormer-Net在SemanticKITTI數(shù)據(jù)集(序列08)上進(jìn)行語義分割預(yù)測,其城鎮(zhèn)公路交叉路口場景可視化結(jié)果如圖4所示。從圖中可以看出使用本文方法能夠廣泛地識別預(yù)測目標(biāo),尤其在大規(guī)模物體邊界識別方面表現(xiàn)優(yōu)異,有效識別出了交叉路口路面與柵欄、人行道、植物等目標(biāo)的邊界信息,其分割結(jié)果較為精確。

        市區(qū)公路場景語義分割可視化結(jié)果如圖5所示。

        RangerFormer-Net同樣實(shí)現(xiàn)了較為精確的識別預(yù)測,能夠準(zhǔn)確辨別出每類物體的輪廓信息以及大尺度物體的邊界信息。例如,場景(a)中有效識別出了街邊建筑物、行人、交通標(biāo)志且建筑沒有與人行道發(fā)生混淆;場景(b)中有效識別出了T字形路口處人行道在地形中的位置,且圍墻、人行道、其他路面三者邊界l分割較為精確;場景(c)(e)中有效識別出了路面汽車及其他車輛的輪廓信息且沒有與路面、植物發(fā)生混淆;場景(d)(f)中有效識別出了植物、圍墻以及道路等大規(guī)模物體且邊界分割清晰。為了更直觀地展示RangerFormer-Net網(wǎng)絡(luò)的實(shí)時分割性能,本文基于rangenet_lib和TensorRT構(gòu)建了實(shí)時的移動語義激光地圖。建圖框架采用了LIO-SAM [27],本文方法作為場景語義信息提取部分,如圖6所示。圖中顯示了構(gòu)建序列05場景的俯瞰語義圖,在構(gòu)建語義圖的過程中,本文對序列05的數(shù)據(jù)進(jìn)行了刪減, 并通過每連續(xù)三幀取一幀的方式更新了語義標(biāo)簽。

        3.3 消融實(shí)驗(yàn)

        為了測試不同模塊對方法的影響,本文進(jìn)行了一系列消融實(shí)驗(yàn)進(jìn)行對比,包括模型參數(shù)、FLOPs(浮點(diǎn)運(yùn)算)、激活函數(shù)、MSSA塊、損失函數(shù)的分配比和解碼器選擇,同時選擇了不同的消融模式進(jìn)行比較,使用從最基本模型到當(dāng)前模型逐漸縮放的增量消融方法。基本模塊有CNN編碼器和雙線性插值解碼器SalsaNext (mIoU = 59.5%)、CENet (mIoU = 64.7%)作為基準(zhǔn)對比。

        模型堆疊:我們的模型符合傳統(tǒng)的下采樣比例從(64 2048)到(4 128),其中包含5個堆疊階段。為了分析模型一致性,本文將SalsaNext和CENet的解碼器調(diào)整為雙線性插值。由于CENet是4層的編碼器,我們額外增加一層用于公平比較,模型配比為:5C+BI。相反,RangerFormer-Net網(wǎng)絡(luò)使用4C + M + BI、3C + 2M + BI,2C + 3M + BI、C + 4M + BI和5M + BI(C為ConvNet下采樣數(shù)量(或數(shù)目),為雙線性插值數(shù)量,M為MSSA編碼器數(shù)量),結(jié)果如表3所示。與SalsaNext方法相比,方法的mIoU提升了4.5%。原始框架解碼器的結(jié)果對比,見表4。

        由表3和表4可知:CENet在FLOPs上遠(yuǎn)遠(yuǎn)超過SalsaNext和本文方法,其FLOPs值約為本文方法的4~8倍。雖然在基于投影的方法中有更高的mIoU,但我們選擇該方法的原因之一是希望能保持實(shí)時性,這也是CENet在遷移至NVIDIA JETSON AGX Xavier時效果較差、無法有效運(yùn)用到移動機(jī)器人平臺的原因。與SalsaNext相比本文方法具有更少的參數(shù)和FLOPs,并且mIoU提升了3.6%。因此本文的基本模型在此階段從4×C + M + BI到5×M + BI再到5×M + Decoders(Decoders為解碼器)。

        模型組件的影響:表5展示了不同組件下的結(jié)果影響。由于本文采用了類似Transformer的結(jié)構(gòu),因此測試了LeakyReLU和GELU兩組激活函數(shù)并發(fā)現(xiàn)后者降低了mIoU。

        實(shí)驗(yàn)表明,本文方法并不完全為Transformer結(jié)構(gòu),更多體現(xiàn)了卷積映射Transformer屬性的方法,因此LeakyReLU+BatchNorm仍是最佳配置,有效證明了RangerFormer-Net網(wǎng)絡(luò)具有更少的參數(shù)和更快推斷速度,同時也展示出精度幾乎無差異。損失函數(shù)的系數(shù)L aL bL比例:本文采用的是 = ls +"kLwce +"bd損失函數(shù)組合,因此比例組成也是一個關(guān)鍵部分。起初我們只使用Lbd和Lwce,但是經(jīng)過大量實(shí)驗(yàn)我們發(fā)現(xiàn)邊界在基于投影的方法中的占據(jù)一定比重。引入邊界函數(shù)后mIoU與比值分配如表6所示。

        4 討 論

        本研究中點(diǎn)云數(shù)據(jù)的處理過程包括:三維點(diǎn)云預(yù)處理、深度圖像上下文特征融合、全局特征提取與編碼、全局特征解碼以及特征融合。從效率的角度來看,本文方法可高效處理點(diǎn)云,并以41幀/s的速率輸出語義分割結(jié)果,進(jìn)一步優(yōu)化了RangerFormer-Net對于移動機(jī)器人環(huán)境感知時的實(shí)時性能。RangerFormer-Net通過融合卷積神經(jīng)網(wǎng)絡(luò)和Transformer模型,與基于投影的方法CE-Net相比,RangeFormer-Net的編碼器能進(jìn)一步提取有效特征并降低浮點(diǎn)運(yùn)算量(降低64.2%);相較于SalsaNext以及CE-Net的原始解碼器,RangeFormer-Net的解碼器可以有效降低浮點(diǎn)運(yùn)算量(分別降低5.4%和86.4%)。從性能的角度來看,與基于點(diǎn)的PolarNet方法相比,本文方法在 mIoU 指標(biāo)上提高了9.6%;與基于體素的輕量級SPVCNN-lite方法相比,本文方法的mIoU 指標(biāo)提高了5.4%;與基于投影的輕量級SalsaNext方法相比 mIoU 指標(biāo)提高了4.5%。

        從系統(tǒng)的角度來看,盡管像Semantic SLAM [28]這樣的先進(jìn)語義分割系統(tǒng)也采用將三維點(diǎn)云投影至二維深度圖像的策略以減輕點(diǎn)云密度變化的影響,但該系統(tǒng)依賴于 RangeNet++方法進(jìn)行語義分割,在資源有限的車載設(shè)備下可能會面臨資源消耗較大等現(xiàn)象,進(jìn)而導(dǎo)致模型推理速度降低。相比之下,本文所提出的RangerFormer-Net不僅實(shí)現(xiàn)了輕量級的分割模型,還提高了實(shí)時系統(tǒng)語義分割的準(zhǔn)確性。

        在未來的工作中,我們將繼續(xù)探討如何更好地結(jié)合卷積的局部感受野優(yōu)勢與Transformer的全局感知優(yōu)勢,以建立更高效的輕量級的混合模型。同時,考慮到點(diǎn)云標(biāo)注的高人工成本,我們還將探索該混合方法在無監(jiān)督學(xué)習(xí)場景下細(xì)粒度激光雷達(dá)點(diǎn)云語義分割的能力,以便更好的服務(wù)于移動機(jī)器人的環(huán)境感知。

        5 結(jié) 論

        針對計(jì)算資源有限的移動機(jī)器人平臺,本文提出一種基于球面投影的激光雷達(dá)點(diǎn)云實(shí)時語義分割方法(RangerFormer-Net)。該方法通過整合傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)和Transformer架構(gòu)兩者的優(yōu)勢,利用卷積局部優(yōu)勢以及Transformer全局優(yōu)勢提出了一種輕量級混合模型,并通過借鑒Transformer的多頭注意力機(jī)制,創(chuàng)新的以卷積實(shí)現(xiàn)了等效的多尺度自注意力機(jī)制,使所提出模型在保證感知精度的同時,具備更少的參數(shù)和更快推斷速度。在SemanticKITTI和SemanticPOSS數(shù)據(jù)集上開展了一系列點(diǎn)云語義分割的綜合性能實(shí)驗(yàn)。

        結(jié)果表明:與當(dāng)前主流方法CENet、FIDNet、PolarNet相比,RangerFormer-Net在移動機(jī)器人常見平臺NVIDIA JETSON AGX Xavier上實(shí)現(xiàn)了較高的分割精度(mIoU = 63.9% )和更低的每s浮點(diǎn)運(yùn)算次數(shù)(Flops)值,并保持了較高的傳輸速率(41 幀/s),在實(shí)時應(yīng)用中更好地平衡了語義分割的精度和效率,這證明了該方法在計(jì)算資源有限的移動機(jī)器人平臺上的使用能力。

        參考文獻(xiàn)(References)

        [1] 曹行健, 張志濤, 孫彥贊, 等. 面向智慧交通的圖像處理與邊緣計(jì)算[J]. 中國圖象圖形學(xué)報, 2022, 27(6): 1743-1767. CAO Xingjian, ZHANG Zhitao, SUN Yanzan, et al. Image Processing and Edge Computing for Intelligent Transportation [J]. J Imag Graph, 2022, 27(6): 1743-1767. (in Chinese)

        [2] 胡遠(yuǎn)志, 劉俊生, 何佳, 等. 基于激光雷達(dá)點(diǎn)云與圖像融合的車輛目標(biāo)檢測方法[J]. 汽車安全與節(jié)能學(xué)報, 2019, 10(4): 451-458. HU Yuanzhi, LIU Junsheng, HE Jia, et al. Vehicle target detection method based on lidar point cloud and image fusion [J]. J Auto Safety Energy, 2019, 10(4): 451-458. (in Chinese)

        [3] DONG Huixu, YU Haoyong, GUO Chuangqiang, et al. Real-time avoidance strategy of dynamic obstacles via half model-free detection and tracking with 2d lidar for mobile robots [J]. IEEE/ASME Transa Mech, 2020, 26(4): 2215-2225.

        [4] 劉暢,趙津,劉子豪,等. 基于歐氏聚類的改進(jìn)激光雷達(dá)障礙物檢測方法[J]. 激光與光電子學(xué)進(jìn)展,2020,57(20):1-7.LIU Chang, ZHAO Jin, LIU Zihao, et al. Improved LiDAR obstacle detection method based on euclidean clustering [J]. Laser Optoelectr Progr, 2020, 57(20): 1-7. (in Chinese)

        [5] 李茂月, 呂虹毓, 河香梅, 等. 自動駕駛中周圍車輛識別與信息地圖構(gòu)建技術(shù)[J]. 汽車安全與節(jié)能學(xué)報, 2022, 13(1): 131-141. LI Maoyue, Lü Hongyu, HE Xiangmei, et al. Surrounding vehicle recognition and information map construction technology in autonomous driving [J]. J Auto Safety Energy, 2022, 13(1): 131-141. (in Chinese)

        [6] YANG Hui, CHEN Yaya, LIU Junxiao, et al. A 3D Lidar SLAM system based on semantic segmentation for rubber-tapping robot [J]. Forests, 2023, 14(9): 1856-1602

        [7] WANG Fei, YANG Yujie, ZHOU Jingchun, et al. An onboard point cloud semantic segmentation system for robotic platforms [J]. Machines, 2023, 11(5): 571-584

        [8] ZHU Xinge, ZHOU Hui, WANG Tai, et al. Cylindrical and asymmetrical 3d convolution networks for lidar segmentation [C]// Proc IEEE/CVF Conf Compu Vision Patt Recogn, 2021: 9939-9948.

        [9] Jhaldiyal A, Chaudhary N. Semantic segmentation of 3D LiDAR data using deep learning: a review of projection-based methods [J]. Applied Intelligence, 2023, 53(6): 6844-6855.

        [10] ZHANG Yang, ZHOU Zixiang David P, et al. Polarnet: An improved grid representation for online lidar point clouds semantic segmentation [C]// Proc IEEE/CVF Conf Compu Vision Patt Recogn, 2020: 9601-9610.

        [11] WU Bichen, ZHOU Xuanyu, ZHAO Sicheng, et al. Squeezesegv2: Improved model structure and unsupervised domain adaptation for road-object segmentation from a lidar point cloud [C]// 2019 Int’l Conf Robot Autom (ICRA), IEEE, 2019: 4376-4382.

        [12] WU Bichen, WAN Alvin, YUE Xiangyu, et al. Squeezeseg: Convolutional neural nets with recurrent crf for real-time road-object segmentation from 3d lidar point cloud [C]// 2018 IEEE Int’l Conf’Robot’Automation (ICRA). IEEE, 2018: 1887-1893.

        [13] Milioto A, Vizzo I, Behley J, et al. Rangenet++: Fast and accurate lidar semantic segmentation [C]// 2019 IEEE/RSJ Int’l Conf Intell Robot Syst (IROS). IEEE, 2019: 4213-4220.

        [14] Aksoy E E, Baci S, Cavdar S. Salsanet: Fast road and vehicle segmentation in lidar point clouds for autonomous driving [C]// 2020 IEEE Intell Vehi Symp (IV). IEEE, 2020: 926-932.

        [15] Cortinhal T, Tzelepis G, Erdal Aksoy E. Salsanext: Fast, uncertainty-aware semantic segmentation of lidar point clouds [C]// Adva Visual Comput 15th Int’l Symp, ISVC 2020, 2020: 207-222.

        [16] Charles R. Qi, SU Hao, Mo Kaichun, et al. Pointnet: Deep learning on point sets for 3d classi?cation and segmentation [C]// Proc IEEE Conf Compu Vision Patt Recogn, 2017: 652-660.

        [17] HU Qingyong, YANG Bo, XIE Linhai, et al. Randla-net: Ef?cient semantic segmentation of large-scale point clouds [C]// Proc IEEE Conf Compu Vision Patt Recogn, 2020: 11108-11117.

        [18] Thomas H, Qi C R, Deschaud J E, et al. Kpconv: Flexible and deformable convolution for point clouds [C]// Proc of the IEEE/CVF Int’l Conf Compu Vision, 2019: 6411-6420.

        [19] Tchapmi L, Choy C, Armeni I, et al. Segcloud: Semantic segmentation of 3d point clouds [C]// 2017 Int’l Conf 3D Vision (3DV), IEEE, 2017: 537-547.

        [20] TANG Haotian, LIU Zhijian, ZHAO Shengyu, et al. Searching ef?cient 3d architectures with sparse point-voxel convolution [C]// Eur Conf Comput Vision. Cham: Springer Int’l Publ, 2020: 685-702.

        [21] GUO MengHao, CAI JunXiong, LIU ZhengNing, et al. Pct: Point cloud transformer [J]. Computational Visual Media, 2021, 7(2): 187-199.

        [22] Park C, Jeong Y, Cho M, et al. Fast point transformer [C]// Proc IEEE/CVF Int’l Conf Compu Vision, 2022: 16949-16958.

        [23] Behley J, Garbade M, Milioto A, et al. Semantickitti: A dataset for semantic scene understanding of lidar sequences [C]// Proc IEEE/CVF Int’l Conf Compu Vision, 2019: 9297-9307.

        [24] PAN Yancheng, GAO Biao, MEI Jilin, et al. Semanticposs: A point cloud dataset with large quantity of dynamic instances [C]// 2020 IEEE Intell Vehicles Symp (IV), IEEE, 2020: 687-693.

        [25] Cortinhal T, Kurnaz F, Aksoy E E. Semantics-aware multi-modal domain translation: From LiDAR point clouds to panoramic color images [C]// Proc IEEE/CVF Int’l Conf Compu Vision, 2021: 3032-3048.

        [26] HENG Huixian, HAN Xianfeng, XIAO Guoqiang. CENet: Toward concise and ef?cient LiDAR semantic segmentation for autonomous driving [C]// 2020 IEEE Int’l Conf’ Multimedia Expo (ICME), IEEE, 2022: 01-06.

        [27] SHAN Tixiao, Englot B, Meyers D, et al. Lio-sam: Tightly-coupled lidar inertial odometry via smoothing and mapping [C]// 2020 IEEE/RSJ Int’l Conf Intell Robot Syst, IEEE, 2020: 5135-5142.

        [28] CHEN Xieyuanli, Milioto A, Palazzolo E, et al. Suma++: Ef?cient lidar-based semantic slam [C]// 2020 IEEE/RSJ Int’l Conf Intell Robot Syst, IEEE, 2019: 4530-4537.

        猜你喜歡
        移動機(jī)器人語義方法
        移動機(jī)器人自主動態(tài)避障方法
        語言與語義
        基于Twincat的移動機(jī)器人制孔系統(tǒng)
        可能是方法不對
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        認(rèn)知范疇模糊與語義模糊
        極坐標(biāo)系下移動機(jī)器人的點(diǎn)鎮(zhèn)定
        孩交精品xxxx视频视频| 女人18毛片aa毛片免费| 成人欧美一区二区三区黑人| 亚洲成av人片在线观看ww| 91福利国产在线观看一区二区| 搡老女人老妇女老熟妇69| 中文字幕av永久免费在线| 日本高清视频永久网站www| а中文在线天堂| 国产三级国产精品三级在专区 | 少妇免费av一区二区三区久久| 最近2019年好看中文字幕视频| 热99re久久精品这里都是免费| 亚洲精品尤物av在线网站| 亚洲午夜精品一区二区麻豆av| 中文人妻熟妇乱又伦精品| 一本大道香蕉最新在线视频| 日韩人妻有码中文字幕| 日本二一三区免费在线| 少妇下蹲露大唇无遮挡| 九色91精品国产网站| 国产av一区二区制服丝袜美腿| 国产精品久久精品第一页| 久久久久麻豆v国产精华液好用吗| 亚洲AV秘 无套一区二区三区| 三级日本理论在线观看| 影音先锋中文字幕无码资源站| 久久成年片色大黄全免费网站| 国产黄色看三级三级三级| 人禽杂交18禁网站免费| 人妻少妇精品视频一区二区三区| 777久久| 国产一区二区三区最新地址| 欧美又大又色又爽aaaa片| 欧美在线成人午夜网站| 国产精品成年人毛片毛片| 艳妇臀荡乳欲伦交换h在线观看| 在线观看国产精品日韩av| 亚洲一区二区三区中文视频| 所有视频在线观看免费| 真人无码作爱免费视频禁hnn|