亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于原始點(diǎn)云網(wǎng)格自注意力機(jī)制的三維目標(biāo)檢測(cè)方法

        2023-11-19 06:52:58魯斌孫洋楊振宇
        通信學(xué)報(bào) 2023年10期
        關(guān)鍵詞:特征檢測(cè)方法

        魯斌,孫洋,楊振宇

        (1.華北電力大學(xué)計(jì)算機(jī)系,河北 保定 071003;2.復(fù)雜能源系統(tǒng)智能計(jì)算教育部工程研究中心,河北 保定 071003)

        0 引言

        近年來,三維目標(biāo)檢測(cè)技術(shù)作為機(jī)器人和自動(dòng)駕駛感知系統(tǒng)的關(guān)鍵技術(shù)之一,已經(jīng)取得了顯著的進(jìn)步。該技術(shù)利用由激光雷達(dá)捕獲的點(diǎn)云數(shù)據(jù)來描繪物體的三維結(jié)構(gòu),估計(jì)其姿態(tài),并感知空間距離。因此,激光雷達(dá)成為三維目標(biāo)檢測(cè)的首選傳感器。基于原始點(diǎn)云的三維目標(biāo)檢測(cè)旨在利用這些點(diǎn)云數(shù)據(jù)來識(shí)別環(huán)境中物體的類別、位置、大小和方向,為深入理解場(chǎng)景提供基礎(chǔ)。然而,與圖像不同,點(diǎn)云數(shù)據(jù)是無序且不均勻的,這使無法直接使用卷積神經(jīng)網(wǎng)絡(luò)(CNN,convolutional neural network)來學(xué)習(xí)特征,從而增加了基于點(diǎn)云的三維目標(biāo)檢測(cè)技術(shù)的挑戰(zhàn)性。

        目前,大多數(shù)檢測(cè)方法采用兩階段范式,以獲得更好的檢測(cè)效果。例如,PV-RCNN[1]使用SECOND(sparsely embedded convolutional detection)[2]和PointNet++[3]作為其基礎(chǔ)網(wǎng)絡(luò),以分別提取點(diǎn)和體素的特征,并在第二階段通過采用最大池化方法對(duì)點(diǎn)特征進(jìn)行聚合。Voxel R-CNN[4]則省略了PV-RCNN 中的點(diǎn)采樣步驟,并在第二階段同樣基于最大池化方法聚合多尺度的體素特征,來學(xué)習(xí)點(diǎn)云的局部特征。目前,現(xiàn)有算法大都基于PointNet[5]及其變種[3]對(duì)點(diǎn)云進(jìn)行特征提取和基于置換不變特性的最大池化法聚合局部點(diǎn)云特征,沒有充分考慮點(diǎn)云之間的幾何關(guān)系。當(dāng)遇到點(diǎn)云稀疏情況,例如距離較遠(yuǎn)時(shí),僅依靠局部特征聚合難以學(xué)習(xí)到更魯棒的目標(biāo)特征。為了進(jìn)一步提高特征的表達(dá)能力以改善檢測(cè)效果,需要對(duì)點(diǎn)和點(diǎn)之間的關(guān)系進(jìn)行建模。

        Transformer[6]架構(gòu)在自然語言處理領(lǐng)域取得了顯著成功,其將輸入的文本序列切分成多個(gè)單獨(dú)的詞或字符,然后通過自注意力機(jī)制來學(xué)習(xí)每個(gè)詞或字符之間的關(guān)系。其置換不變的特性適于對(duì)無序的點(diǎn)云數(shù)據(jù)進(jìn)行編碼。PCT(point cloud transformer)[7]和Point transformer[8]將Transformer 應(yīng)用于點(diǎn)云的分類和分割任務(wù),取得了較好的效果。本文將Transformer 引入點(diǎn)云目標(biāo)檢測(cè)領(lǐng)域,以更好地處理點(diǎn)云數(shù)據(jù)的無序性和點(diǎn)之間的關(guān)聯(lián)信息,學(xué)習(xí)更魯棒的點(diǎn)云特征。

        另一方面,在實(shí)際復(fù)雜環(huán)境中,檢測(cè)效果往往受到多種因素的影響,例如遮擋和噪聲等,這些因素可能導(dǎo)致點(diǎn)云數(shù)據(jù)的質(zhì)量不穩(wěn)定,而提升性能的關(guān)鍵在于從稀疏點(diǎn)云中提取更魯棒的特征。此外,點(diǎn)云的稀疏性導(dǎo)致在人工標(biāo)注數(shù)據(jù)時(shí)易受到環(huán)境因素影響,從而使數(shù)據(jù)標(biāo)簽含有模糊信息,并對(duì)學(xué)習(xí)目標(biāo)點(diǎn)云的魯棒特征造成影響。傳統(tǒng)方法[9]通常把回歸目標(biāo)當(dāng)作一個(gè)固定值,而忽略了標(biāo)簽不確定性可能造成的影響,限制了檢測(cè)性能的進(jìn)一步提升。同時(shí),如果目標(biāo)包含的點(diǎn)較少,那么圍繞目標(biāo)的候選框位置的不確定性就會(huì)增加,如圖1 所示。對(duì)于尺寸相同的目標(biāo),由于其包含的點(diǎn)云的稀疏性,可能會(huì)產(chǎn)生不同的回歸目標(biāo),從而對(duì)檢測(cè)性能產(chǎn)生不利影響。為解決標(biāo)簽不確定性問題,本文引入了一種基于概率分布的軟回歸損失。通過檢測(cè)模塊預(yù)測(cè)候選框位置的不確定性,并將其作為回歸損失的一部分,在訓(xùn)練過程中重新量化預(yù)測(cè)框與其對(duì)應(yīng)標(biāo)簽的相似度,從而提升模型的檢測(cè)性能。

        綜上所述,本文提出了一種基于原始點(diǎn)云網(wǎng)格自注意力機(jī)制的二階段三維目標(biāo)檢測(cè)方法GT3D。該方法在第二階段采用基于Transformer 的自注意力機(jī)制來對(duì)第一階段得到的感興趣區(qū)域(RoI)內(nèi)部的點(diǎn)云進(jìn)行上下文編碼,能夠更有效地學(xué)習(xí)點(diǎn)云之間的依賴關(guān)系,提取更魯棒的目標(biāo)特征。同時(shí),考慮到數(shù)據(jù)標(biāo)注過程中的不確定性對(duì)回歸任務(wù)的影響,使用基于概率分布的回歸損失重新度量預(yù)測(cè)框和真實(shí)標(biāo)簽的相似性,降低由數(shù)據(jù)標(biāo)注過程帶來的標(biāo)簽歧義問題。在公開的三維目標(biāo)檢測(cè)數(shù)據(jù)集KITTI[10]上對(duì)本文所提方法進(jìn)行評(píng)估,結(jié)果顯示,本文所提方法比現(xiàn)有目標(biāo)檢測(cè)方法具有競(jìng)爭(zhēng)力的性能優(yōu)勢(shì)。此外,本文將KITTI 測(cè)試集檢測(cè)結(jié)果提交至KITTI 官網(wǎng)進(jìn)行驗(yàn)證,并公開實(shí)驗(yàn)結(jié)果。

        1 相關(guān)工作

        按照從非結(jié)構(gòu)化點(diǎn)云中提取特征的方式劃分,現(xiàn)有的三維目標(biāo)檢測(cè)方法主要分為三類:基于體素的方法、基于點(diǎn)的方法以及點(diǎn)和體素融合的方法。

        基于體素的方法通過將點(diǎn)云劃分成規(guī)則網(wǎng)格,并利用三維卷積技術(shù)來提取特征。例如,Zhou 等[9]提出VoxelNet,首先將點(diǎn)云進(jìn)行體素化,然后對(duì)這些體素進(jìn)行特征編碼,并應(yīng)用三維卷積來提取特征,最后將這些特征壓縮到鳥瞰視角(BEV,bird’s eye view)以生成候選框。Yan 等[2]提出SECOND,通過設(shè)計(jì)專門針對(duì)點(diǎn)云特征提取的三維稀疏卷積模塊,有效地提升了三維卷積的處理效率。為了進(jìn)一步提高三維目標(biāo)檢測(cè)的效率,Lang 等[11]提出PointPillars,該方法直接將特征壓縮至BEV 中來生成候選框,從而避免了三維卷積的過程。然而,基于體素的方法在進(jìn)行體素特征編碼的過程中可能會(huì)丟失點(diǎn)云的精確位置信息,限制了方法性能的提升。

        基于點(diǎn)的方法使用原始點(diǎn)云進(jìn)行檢測(cè),并且由于點(diǎn)的數(shù)量眾多,它們通常采用多層次的采樣和特征聚合。PointNet[5]和PointNet++[3]通常被用作這類方法的基礎(chǔ)網(wǎng)絡(luò)。PointRCNN[12]將點(diǎn)云分為前景點(diǎn)和背景點(diǎn),并在前景點(diǎn)上生成高質(zhì)量的候選框。3DSSD[13]利用歐氏距離和特征距離進(jìn)行分層點(diǎn)采樣,以獲取更多的前景點(diǎn),并去除了效率較低的上采樣和細(xì)化步驟,從而在準(zhǔn)確性和效率之間取得了良好的平衡。BADet[14]通過將每個(gè)候選區(qū)域視為一個(gè)節(jié)點(diǎn)來構(gòu)建局部圖,從而顯式地利用邊界間的相關(guān)性來優(yōu)化候選框。CIA-SSD[15]引入了一個(gè)置信度修正模塊,以解決目標(biāo)定位精度與類別置信度之間的不一致問題,從而獲得更加精確的邊界框和類別置信度預(yù)測(cè)。PDV(point density-aware voxel)[16]則為點(diǎn)云引入密度信息,并使用Transformer 對(duì)點(diǎn)進(jìn)行編碼。基于點(diǎn)的方法需要在原始點(diǎn)云中進(jìn)行分層采樣,這通常會(huì)導(dǎo)致較低的處理效率。

        有很多研究嘗試融合點(diǎn)和體素各自的優(yōu)勢(shì)來進(jìn)行檢測(cè)。例如,CT3D[17]在使用三維體素特征生成區(qū)域建議的同時(shí),利用逐通道的Transformer 從原始點(diǎn)中提取特征。同樣,PV-RCNN 引入了體素集抽象模塊,使用三維體素特征生成建議后,利用點(diǎn)特征進(jìn)行特征精細(xì)化。后續(xù)的工作嘗試通過引入新的特征提取方法來改進(jìn)第二階段,例如RefinerNet[18]和VectorPool[19]。然而,將點(diǎn)和體素的特征相融合在加強(qiáng)檢測(cè)性能的同時(shí),不可避免地增加了內(nèi)存的占用,并對(duì)檢測(cè)效率產(chǎn)生影響。在這種將點(diǎn)和體素相結(jié)合的主干網(wǎng)絡(luò)中,特征的整合通常取決于具體的特征轉(zhuǎn)換機(jī)制,這可能會(huì)導(dǎo)致額外的計(jì)算負(fù)擔(dān)。需要注意的是,這類方法雖然在檢測(cè)精度上往往超過純粹基于體素的方法,但通常以增加推理過程的時(shí)間開銷為代價(jià)。

        Transformer 架構(gòu)在自然語言處理領(lǐng)域已取得顯著成功,其核心模塊自注意力機(jī)制能夠?qū)斎胄蛄虚g的相關(guān)性進(jìn)行建模。DETR[20]將Transformer 應(yīng)用到圖像目標(biāo)檢測(cè)領(lǐng)域,并把目標(biāo)檢測(cè)當(dāng)作集合預(yù)測(cè)問題來處理,為使用Transformer 進(jìn)行目標(biāo)檢測(cè)建立了新的范式。接著,DETR 的一個(gè)變種——Deformable DETR[21],引入了可變形注意力模塊,以提升DETR的訓(xùn)練效率。文獻(xiàn)[7-8]則將Transformer 應(yīng)用于點(diǎn)云的特征提取。但是,由于點(diǎn)的數(shù)量較多,直接將Transformer 應(yīng)用到點(diǎn)云中可能會(huì)導(dǎo)致計(jì)算復(fù)雜度過高、檢測(cè)效率難以提高的問題。

        2 本文模型

        GT3D 是一個(gè)兩階段的三維目標(biāo)檢測(cè)模型,第一階段用于生成RoI,第二階段則利用原始點(diǎn)云來精細(xì)化特征,以充分保留點(diǎn)云的空間信息。圖2 展示了GT3D 的框架,輸入為原始點(diǎn)云。首先,通過三維主干網(wǎng)絡(luò)生成包含目標(biāo)的RoI。然后,對(duì)每個(gè)RoI 進(jìn)行網(wǎng)格化,并對(duì)RoI 內(nèi)部的原始點(diǎn)云進(jìn)行采樣。接著,對(duì)采樣點(diǎn)的空間信息進(jìn)行建模,并輸入多頭Transformer 中進(jìn)行上下文編碼。最后,將編碼后的RoI 特征輸入檢測(cè)頭中,以進(jìn)行候選框的分類和回歸。

        圖2 GT3D 的框架

        2.1 基于體素法的三維主干網(wǎng)絡(luò)

        雖然體素化會(huì)帶來點(diǎn)云空間信息的損失,但是檢測(cè)方法在第一階段主要關(guān)注如何快速找到包含目標(biāo)的RoI??紤]到體素法具有較高的處理效率,本文使用基于體素法的SECOND 作為第一階段的主干網(wǎng)絡(luò),并基于多尺度體素特征生成RoI。具體來說,輸入原始點(diǎn)云pi={xi,yi,zi,ri},i∈[1,n],其中xi、yi、zi為點(diǎn)云的三維空間坐標(biāo),ri為反射率,n為點(diǎn)的數(shù)量。然后將點(diǎn)云進(jìn)行體素化處理,對(duì)點(diǎn)云空間進(jìn)行等間距劃分。對(duì)于每個(gè)體素所包含的點(diǎn),使用PointNet對(duì)其進(jìn)行升維處理,記作fi={a(i,1),a(i,2),…,a(i,m)},i∈[1,n],m∈[1,k],其中k為點(diǎn)映射到高維空間后的維度。接著,通過最大池化函數(shù)對(duì)每個(gè)體素內(nèi)的點(diǎn)進(jìn)行特征聚合。最后,使用多層子流形卷積和稀疏卷積[2]對(duì)體素進(jìn)行特征提取,如圖3 所示,并將提取到的特征fv沿z軸壓縮到BEV,輸入?yún)^(qū)域建議網(wǎng)絡(luò)(RPN,region proposal network)中生成RoI,其中,k為卷積核尺寸,pad 為填充操作,s為步長。

        圖3 三維主干網(wǎng)絡(luò)結(jié)構(gòu)

        2.2 網(wǎng)格特征編碼

        為了更準(zhǔn)確地提取點(diǎn)云的局部特征,本文采用兩步策略對(duì)點(diǎn)云進(jìn)行有效編碼。第一步,采用最遠(yuǎn)點(diǎn)采樣對(duì)RoI 內(nèi)的點(diǎn)進(jìn)行采樣,并對(duì)RoI 進(jìn)行網(wǎng)格化處理。計(jì)算采樣點(diǎn)到每個(gè)網(wǎng)格中心的距離,以增強(qiáng)采樣點(diǎn)的空間信息。第二步,對(duì)網(wǎng)格中心點(diǎn)的局部特征進(jìn)行聚合。通過使用PointNet++來聚合網(wǎng)格中心點(diǎn)附近的多尺度局部特征,能夠進(jìn)一步增強(qiáng)中心點(diǎn)的特征表達(dá)能力。

        2.2.1 網(wǎng)格中心點(diǎn)位置編碼

        本文對(duì)每個(gè)RoI 應(yīng)用最遠(yuǎn)點(diǎn)采樣策略。值得注意的是,目標(biāo)的真實(shí)框與RoI 之間可能在角度和位置上有差異。在特定情況下,例如當(dāng)目標(biāo)位于樹木下或緊鄰?fù)怀龅慕ㄖ飼r(shí),如果不限制采樣空間的高度,可能會(huì)導(dǎo)致目標(biāo)的采樣點(diǎn)數(shù)量減少,從而對(duì)檢測(cè)結(jié)果產(chǎn)生不利影響。為了在最大程度上采樣到真實(shí)框內(nèi)的點(diǎn),同時(shí)減少對(duì)檢測(cè)效果不利的背景點(diǎn)的采樣,本文采用圓柱體空間結(jié)構(gòu)來對(duì)RoI 進(jìn)行采樣,如圖4 所示。

        圖4 RoI 點(diǎn)采樣

        圖4 中,圓形點(diǎn)表示采樣區(qū)點(diǎn),方形點(diǎn)表示非采樣區(qū)點(diǎn) 。圓柱體的底部半徑為,高度為h=βhr,其中,wr、lr、hr分別表示RoI 的寬、長和高,α和β表示柱體的擴(kuò)張比例參數(shù)。在這個(gè)區(qū)域內(nèi)對(duì)點(diǎn)云進(jìn)行采樣,本文設(shè)定采樣點(diǎn)的數(shù)量為256。如果RoI 內(nèi)的點(diǎn)數(shù)少于256,則重復(fù)進(jìn)行隨機(jī)采樣,直到達(dá)到256 個(gè)點(diǎn)。本文將α設(shè)置為1.1,β設(shè)置為1。

        定義P={p1,p2,p3,…,pn}?Rn,其中pi(i∈[1,n])表示點(diǎn)云中的點(diǎn)坐標(biāo),Rn表示通過RPN 生成的RoI。那么,該區(qū)域內(nèi)點(diǎn)pi到任意點(diǎn)pj的距離為

        首先,從點(diǎn)云中隨機(jī)選取一個(gè)點(diǎn)p0作為起始點(diǎn),然后利用式(1)計(jì)算其他n-1個(gè)點(diǎn)與p0的距離d1,d2,…,d(n-1),并將距離p0最遠(yuǎn)的點(diǎn)pm放入采樣點(diǎn)集合S中。然后,計(jì)算剩余點(diǎn)與采樣點(diǎn)集合S中所有點(diǎn)的距離,選擇到所有采樣點(diǎn)的距離最遠(yuǎn)的點(diǎn)加入采樣點(diǎn)集合S中。重復(fù)這個(gè)過程,直到采樣點(diǎn)的數(shù)量達(dá)到預(yù)定值。

        通過實(shí)驗(yàn)發(fā)現(xiàn),對(duì)空間點(diǎn)的幾何特征進(jìn)行建??梢栽鰪?qiáng)點(diǎn)的特征表達(dá)能力?;诖?,本文提出一種新的坐標(biāo)位置編碼方法,用于精細(xì)化點(diǎn)的空間位置信息,如圖5 所示。首先,將RoI 劃分為均勻網(wǎng)格,網(wǎng)格數(shù)量設(shè)置為6×6×6(長、寬、高3 個(gè)方向),則每個(gè)RoI 包含216 個(gè)網(wǎng)格。然后,定義每個(gè)網(wǎng)格的中心點(diǎn)為gm(m表示RoI 內(nèi)的網(wǎng)格索引),并計(jì)算每個(gè)網(wǎng)格中心點(diǎn)到采樣點(diǎn)的相對(duì)距離Δdi=gm-pi,m∈[1,216],i=[1,256]。使用Δdi對(duì)網(wǎng)格點(diǎn)的空間位置進(jìn)行建模并統(tǒng)一位置編碼的坐標(biāo)尺度,最終得到gm的位置特征fd。具體計(jì)算方式為

        圖5 網(wǎng)格中心點(diǎn)坐標(biāo)編碼

        其中,g(·) 表示特征變換函數(shù)(這里使用前饋神經(jīng)網(wǎng)絡(luò)(FFN,feed forward network)將距離特征映射到高維特征空間),Δxi,m、Δyi,m和Δzi,m分別表示點(diǎn)pi到每個(gè)網(wǎng)格中心點(diǎn)的歐氏距離的3 個(gè)分量,Δfi,m表示點(diǎn)的額外特征,包括反射率等。

        與PointPillars 所采用的柱體特征編碼(PFE,pillar feature encoding)方法不同,本文通過將采樣區(qū)域網(wǎng)格化,并計(jì)算采樣點(diǎn)到每個(gè)網(wǎng)格中心點(diǎn)的相對(duì)距離,以實(shí)現(xiàn)對(duì)點(diǎn)的空間位置信息更精細(xì)的表達(dá),而PFE 則是通過計(jì)算點(diǎn)與每個(gè)柱體的中心點(diǎn)的相對(duì)距離來強(qiáng)化點(diǎn)坐標(biāo)的空間位置信息,精細(xì)程度有所欠缺。

        2.2.2 網(wǎng)格中心點(diǎn)多尺度局部特征編碼

        考慮到原始點(diǎn)云包含更準(zhǔn)確的空間信息,本文利用原始點(diǎn)云對(duì)網(wǎng)格點(diǎn)進(jìn)行多尺度局部信息編碼。具體而言,對(duì)于每個(gè)網(wǎng)格的中心點(diǎn)gm,查詢其周圍半徑為r的球形區(qū)域內(nèi)的點(diǎn),并使用PointNet 對(duì)這些點(diǎn)進(jìn)行升維處理,以獲得該網(wǎng)格中心點(diǎn)在指定半徑內(nèi)的所有點(diǎn)的特征集合,其中k表示該半徑范圍內(nèi)的點(diǎn)的數(shù)量,如圖6 所示。為了滿足置換不變性要求,本文使用最大池化函數(shù)對(duì)特征進(jìn)行聚合,從而得到該中心點(diǎn)在特定半徑下的特征。

        圖6 網(wǎng)格中心點(diǎn)多尺度局部特征編碼

        其中,G(·) 表示聚合函數(shù),這里采用向量拼接來進(jìn)行處理。然后,通過調(diào)整球查詢半徑大小,獲得中心點(diǎn)在不同尺度下的特征表達(dá)。最后,將多尺度特征進(jìn)行拼接處理,得到最終的中心點(diǎn)局部特征

        多尺度局部特征編碼模塊如圖7 所示。本文設(shè)定了多個(gè)不同尺寸的半徑來對(duì)點(diǎn)進(jìn)行聚合。由于不同半徑內(nèi)的點(diǎn)數(shù)量可能不同,本文對(duì)每個(gè)半徑內(nèi)的點(diǎn)的數(shù)量進(jìn)行統(tǒng)一限制:如果點(diǎn)的數(shù)量超過規(guī)定值,則進(jìn)行隨機(jī)選??;如果點(diǎn)的數(shù)量低于規(guī)定值,則使用點(diǎn)坐標(biāo)的平均值進(jìn)行填充;如果該半徑內(nèi)沒有點(diǎn),則使用0 進(jìn)行填充。然后,通過三層FFN 對(duì)聚合后的坐標(biāo)進(jìn)行升維,并利用最大池化函數(shù)對(duì)各個(gè)尺度的特征進(jìn)行聚合。最終,通過FFN 調(diào)整fg的維度,并將位置編碼特征與多尺度局部特征進(jìn)行相加,得到網(wǎng)格中心點(diǎn)特征

        圖7 多尺度局部特征編碼模塊

        其中,fgrid表示RoI 的空間幾何特征和點(diǎn)云多尺度局部特征。

        2.2.3 空間上下文編碼

        雖然每個(gè)網(wǎng)格編碼了目標(biāo)的空間特征和多尺度局部特征,但仍然缺乏對(duì)網(wǎng)格點(diǎn)之間相互依賴關(guān)系的建模。為解決此問題,本文引入自注意力機(jī)制來捕捉網(wǎng)格點(diǎn)間的遠(yuǎn)程依賴關(guān)系,為網(wǎng)格點(diǎn)的特征賦予不同的權(quán)重。這使算法能夠捕捉到網(wǎng)格點(diǎn)特征與RoI 之間更加復(fù)雜的關(guān)系。圖8 展示了通過自注意力機(jī)制加權(quán)后的網(wǎng)格點(diǎn)特征對(duì)RoI 特征的貢獻(xiàn)度,其中亮度較高的區(qū)域表示對(duì)RoI 特征的貢獻(xiàn)權(quán)重較大。

        圖8 自注意力機(jī)制對(duì)網(wǎng)格點(diǎn)特征加權(quán)

        Transformer 在處理點(diǎn)云數(shù)據(jù)方面展現(xiàn)出顯著的效果,但由于包含大量線性運(yùn)算,常常伴隨較高的計(jì)算成本和內(nèi)存消耗。針對(duì)這個(gè)問題,本文選擇不對(duì)RoI 內(nèi)的原始點(diǎn)云直接進(jìn)行注意力編碼,而是采納局部注意力策略,即通過在網(wǎng)格中心點(diǎn)聚合點(diǎn)云的空間和局部特征以降低輸入特征的維度。此外,這種策略也使本文提出的兩階段細(xì)化方法能夠適于不同密度的點(diǎn)云數(shù)據(jù)。

        在Transformer 的編碼階段,本文對(duì)網(wǎng)格點(diǎn)的特征進(jìn)行注意力編碼計(jì)算。假設(shè)輸入特征為。沒有特征的空網(wǎng)格則不參與注意力編碼,僅保留其位置編碼。本文采用網(wǎng)格中心點(diǎn)的原始坐標(biāo)作為位置編碼

        接著,使用標(biāo)準(zhǔn)Transformer 編碼器計(jì)算特征注意力矩陣

        其中,Wk、Wq和Wv分別為線性映射函數(shù),dq為矩陣Qi的特征維度,⊙為點(diǎn)乘運(yùn)算。本文采用多頭自注意力機(jī)制來處理Ki、Qi和Vi,以捕獲RoI更豐富的特征。多頭注意力的計(jì)算式為

        其中,concat(·) 用來將多頭注意力特征進(jìn)行拼接,F(xiàn)FN 用來對(duì)特征進(jìn)行維度變換。

        接著,在網(wǎng)格空間位置編碼與注意力編碼之間構(gòu)建類似于殘差連接的結(jié)構(gòu),將點(diǎn)的空間位置編碼和注意力特征進(jìn)行拼接,以增強(qiáng)特征的表達(dá)能力。經(jīng)過FFN 處理后,得到最終的RoI 特征

        最后,將fi輸入檢測(cè)頭進(jìn)行候選框的分類和回歸。

        2.3 軟回歸損失

        本文提出的軟回歸損失函數(shù)可用于量化預(yù)測(cè)候選框與其對(duì)應(yīng)的標(biāo)簽之間的相似度,以減輕點(diǎn)云數(shù)據(jù)標(biāo)注過程中的不確定性。首先,用高斯分布來表示預(yù)測(cè)框的位置,并將其所對(duì)應(yīng)的標(biāo)簽視為該分布中的概率,計(jì)算式為

        其中,G={gx,gy,gz,gl,gw,gh,gθ}表示候選框所對(duì)應(yīng)的真實(shí)標(biāo)簽值;p為概率密度;N(·) 為二維高斯分布,可表示為

        其中,μ和σ表示高斯分布中的均值和方差。本文將檢測(cè)頭對(duì)候選框位置的預(yù)測(cè){μx,μy,μz,μl,μw,μh,μθ}作為μ,并在檢測(cè)頭部增加一個(gè)額外的分支來預(yù)測(cè)不確定性得分,可表示為{σx,σy,σz,σl,σw,σh,σθ},分別對(duì)應(yīng)μ中每個(gè)位置的不確定分?jǐn)?shù)。在計(jì)算出真實(shí)標(biāo)簽在預(yù)測(cè)框分布中的概率后,使用softmax 函數(shù)對(duì)這些概率進(jìn)行歸一化處理

        最后,使用ps對(duì)回歸目標(biāo)進(jìn)行加權(quán)。值得一提的是,本文所提出的軟回歸損失僅在訓(xùn)練階段使用,以輔助訓(xùn)練檢測(cè)頭的回歸分支,而不會(huì)在推理階段增加額外的計(jì)算成本。

        2.4 檢測(cè)頭與損失

        算法的損失分為RPN損失Lrpn和細(xì)化階段損失Lrcnn兩部分,其中Lrpn包括框的置信度損失Lcls和位置回歸損失Lreg。框的編碼格式為 (x,y,z,w,l,h,θ),其中,x、y、z表示框的中心點(diǎn)坐標(biāo),w、l、h、θ分別表示框的寬、長、高、朝向角度。真實(shí)框與

        對(duì)于Lrpn,使用交叉熵函數(shù)來計(jì)算置信度損失,以平衡正、負(fù)樣本對(duì)損失的貢獻(xiàn)程度

        其中,為預(yù)測(cè)置信度,cb為真實(shí)標(biāo)簽值。

        框位置回歸使用smooth-L1 損失函數(shù)

        其中,表示邊界框的預(yù)測(cè)殘差值,γb表示預(yù)測(cè)框距離真實(shí)框位置的殘差值,i表示正樣本的數(shù)量。

        最后得到總的Lrpn損失為

        其中,β1和β2為損失的權(quán)重系數(shù),用于平衡分類和回歸對(duì)Lrpn的貢獻(xiàn)程度。

        Lrcnn的計(jì)算方式和Lrpn類似,最后得到算法總損失為

        3 實(shí)驗(yàn)結(jié)果與分析

        為驗(yàn)證本文所提方法的有效性,使用公開的自動(dòng)駕駛數(shù)據(jù)集KITTI 對(duì)其進(jìn)行驗(yàn)證,并進(jìn)行充分的消融實(shí)驗(yàn),以分析GT3D 各模塊的有效性。KITTI數(shù)據(jù)集包含7 481 個(gè)訓(xùn)練樣本和7 518 個(gè)測(cè)試樣本。與Chen 等[22]的工作保持一致,將訓(xùn)練樣本劃分為3 712 個(gè)訓(xùn)練樣本集和3 769 個(gè)驗(yàn)證樣本集。本文分別在驗(yàn)證集和測(cè)試集中對(duì)簡(jiǎn)單、中等和困難3 個(gè)難度等級(jí)的目標(biāo)進(jìn)行實(shí)驗(yàn),使用平均準(zhǔn)確率(AP,average accuracy)衡量所提方法性能。

        3.1 實(shí)驗(yàn)硬件環(huán)境

        表1 為實(shí)驗(yàn)所需的軟硬件環(huán)境及其參數(shù)配置。

        表1 實(shí)驗(yàn)所需的軟硬件環(huán)境及其參數(shù)配置

        3.2 實(shí)驗(yàn)細(xì)節(jié)

        對(duì)于KITTI 數(shù)據(jù)集,其x軸檢測(cè)范圍為[0,70.4]m,y軸為[-4 0.0,40.0]m,z軸為[-3 .0,1.0]m,每個(gè)體素塊在x、y、z這3 個(gè)方向上的大小設(shè)置為(0.05,0.05,0.1) m。每個(gè)體素在3 個(gè)方向上的大小均為0.05 m,體素?cái)?shù)量在訓(xùn)練階段設(shè)置為16 000,推理階段設(shè)置為40 000。為避免目標(biāo)包含點(diǎn)云數(shù)量太少以至于難以提取到特征,對(duì)點(diǎn)數(shù)少于20 的目標(biāo)進(jìn)行過濾[2]。本文采用與SECOND 相同的數(shù)據(jù)增強(qiáng)方法,具體包括:1) 增加場(chǎng)景中待檢測(cè)目標(biāo)的數(shù)量;2) 對(duì)點(diǎn)云場(chǎng)景中的點(diǎn)按照范圍在[0.95,1.05]內(nèi)的隨機(jī)倍數(shù)進(jìn)行縮放,范圍在內(nèi)的隨機(jī)角度進(jìn)行旋轉(zhuǎn);3) 對(duì)所有真實(shí)框在范圍內(nèi)進(jìn)行隨機(jī)角度旋轉(zhuǎn)來模擬目標(biāo)轉(zhuǎn)向;4) 將點(diǎn)云沿x軸進(jìn)行隨機(jī)翻轉(zhuǎn)。

        RoI 網(wǎng)格數(shù)量設(shè)置為6×6×6,網(wǎng)格點(diǎn)的球形查詢半徑r=[0.2,0.4,0.6]m,以此來聚合多尺度的局部特征,每個(gè)半徑內(nèi)采樣點(diǎn)數(shù)量為[32,32,64],分別被編碼為[32,32,64]維向量,最后每個(gè)網(wǎng)格中心點(diǎn)的局部特征編碼共128 維。Transformer 的頭部數(shù)量為4,dropout 設(shè)置為0.1,隱含層數(shù)量為3。

        在訓(xùn)練階段,使用8 個(gè)NVIDIA A40 GPU 對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行端對(duì)端訓(xùn)練,對(duì)于KITTI 數(shù)據(jù)集,batch size設(shè)置為6,使用Adam_onecycle優(yōu)化器訓(xùn)練80 個(gè)epoch,學(xué)習(xí)率最大值為0.001,使用one-cycle 策略和余弦退火策略[23]對(duì)學(xué)習(xí)率進(jìn)行更新。在訓(xùn)練階段,RoI 數(shù)量設(shè)置為128,測(cè)試階段設(shè)置為100。

        算法的損失由基于Focal Loss[24]的分類損失和基于smooth-L1 的回歸損失組成。其中,分類損失和回歸損失的權(quán)重比例設(shè)置為1:1。在后處理階段,使用非極大值抑制算法來去除冗余框,交并比(IoU,intersection over union)閾值設(shè)置為0.1,置信度閾值為0.3。其他網(wǎng)絡(luò)參數(shù)選擇OpenPCDet 工具箱中提供的默認(rèn)值。

        訓(xùn)練損失曲線如圖9 所示,其中,rpn_loss 表示第一階段損失,rcnn_loss 表示第二階段損失。第一階段、第二階段以及總訓(xùn)練損失的曲線在訓(xùn)練初期下降較快,但隨著迭代次數(shù)的增加,損失的下降速度逐漸變慢,最后趨于平穩(wěn),這表示模型已經(jīng)收斂。

        圖9 訓(xùn)練損失曲線

        3.3 與其他算法對(duì)比

        本文在KITTI 驗(yàn)證集和測(cè)試集上將GT3D 方法與其他先進(jìn)的三維目標(biāo)檢測(cè)方法進(jìn)行了比較和分析。對(duì)于汽車類別,設(shè)定IoU 閾值為0.7,本文分別給出了所提方法在11 個(gè)和40 個(gè)召回位置上的平均準(zhǔn)確率。此外,將GT3D 的測(cè)試結(jié)果提交至KITTI在線測(cè)試服務(wù)器,并將結(jié)果公開,如表2 所示,所有實(shí)驗(yàn)結(jié)果均來自KITTI 官方基線。

        表2 不同方法在KITTI 測(cè)試集上對(duì)汽車的檢測(cè)性能對(duì)比

        為保證公平,本文基于40 個(gè)召回位置來計(jì)算測(cè)試集的平均準(zhǔn)確率。在KITTI 測(cè)試集上,GT3D 在 3 種不同難度等級(jí)上分別達(dá)到了91.45%、82.76%和79.74%的檢測(cè)準(zhǔn)確率,特別是在簡(jiǎn)單和困難等級(jí)汽車檢測(cè)上顯示出優(yōu)勢(shì)。這說明本文所提方法在檢測(cè)準(zhǔn)確性和泛化能力上表現(xiàn)良好。在評(píng)估方法的推理速度時(shí),本文采用每秒幀數(shù)(FPS,frame per second)作為評(píng)價(jià)標(biāo)準(zhǔn),本文所提方法達(dá)到了每秒15 幀的檢測(cè)速度,這顯示GT3D 在檢測(cè)準(zhǔn)確率和推理效率之間實(shí)現(xiàn)了良好的平衡(表2 中,‘-’表示該方法未公開代碼和推理速度)。

        表3 展示了不同方法在KITTI 驗(yàn)證集上對(duì)汽車的檢測(cè)性能對(duì)比,其中檢測(cè)結(jié)果基于11 個(gè)召回位置計(jì)算,IoU 閾值為0.7。實(shí)驗(yàn)結(jié)果表明,GT3D 在3 種不同難度汽車類別檢測(cè)中分別達(dá)到了89.78%、86.31%和79.22%的準(zhǔn)確率,相比其他先進(jìn)方法表現(xiàn)出顯著的提升,進(jìn)一步驗(yàn)證了GT3D 的有效性。這是因?yàn)門ransformer 在特征提取方面具有強(qiáng)大的能力,使模型能夠有效地學(xué)習(xí)不同點(diǎn)云稀疏度下目標(biāo)的特征。

        表3 不同方法在KITTI 驗(yàn)證集上對(duì)汽車的檢測(cè)性能對(duì)比

        為了進(jìn)一步評(píng)估GT3D 的性能,表4 展示了不同方法在KITTI 驗(yàn)證集上對(duì)自行車的檢測(cè)性能對(duì)比,其中準(zhǔn)確率基于40 個(gè)召回位置計(jì)算。實(shí)驗(yàn)結(jié)果表明,本文所提方法在檢測(cè)效果上具有較強(qiáng)的競(jìng)爭(zhēng)力,展示出良好的性能。

        表4 不同方法在KITTI 驗(yàn)證集上對(duì)自行車的檢測(cè)性能對(duì)比

        表5 展示了不同方法在參數(shù)量方面的對(duì)比,并提供了不同模型在KITTI 測(cè)試集上對(duì)汽車的檢測(cè)平均準(zhǔn)確率,其中,mAP 為KITTI 測(cè)試集上對(duì)汽車的檢測(cè)平均準(zhǔn)確率。從表5 可以看出,盡管GT3D 的參數(shù)量在兩階段方法中處于中等水平,但其平均準(zhǔn)確率明顯優(yōu)于其他方法。這表明GT3D 在有效提升檢測(cè)效果的同時(shí),沒有顯著增加參數(shù)規(guī)模。

        表5 不同方法在參數(shù)量方面的對(duì)比

        3.4 可視化分析

        本文對(duì)GT3D 方法的檢測(cè)效果進(jìn)行了可視化分析,如圖10 所示。通過比較方法輸出的預(yù)測(cè)框(虛線)與真實(shí)框(實(shí)線)的位置來驗(yàn)證模型的檢測(cè)效果。為了清晰展示,在3 個(gè)場(chǎng)景中分別展示了相機(jī)和點(diǎn)云的視角。第一行展示場(chǎng)景的相機(jī)視角,第二行展示場(chǎng)景的點(diǎn)云視角和檢測(cè)結(jié)果,第三行展示將檢測(cè)到的目標(biāo)框映射回相機(jī)視角的效果。

        圖10 GT3D 可視化結(jié)果

        由可視化結(jié)果可知,GT3D 在汽車類別上的檢測(cè)準(zhǔn)確率較高,如場(chǎng)景①所示,所有汽車都被成功檢測(cè)到。在場(chǎng)景②中,盡管距離較遠(yuǎn)的汽車包含的點(diǎn)云數(shù)量較少,但仍然能被準(zhǔn)確地檢測(cè)到,甚至檢測(cè)到了數(shù)據(jù)集中沒有標(biāo)注的汽車。對(duì)于場(chǎng)景③,該場(chǎng)景較復(fù)雜,包含的背景點(diǎn)較多,然而,GT3D 依然能夠正確識(shí)別被遮擋的遠(yuǎn)處汽車。這表明本文通過使用均勻網(wǎng)格點(diǎn)來描述點(diǎn)云的空間特征,以及利用多尺度局部特征,對(duì)遮擋區(qū)域進(jìn)行了有效的特征增強(qiáng)。

        圖11 展示了模型檢測(cè)到的汽車點(diǎn)云。其中,x軸、y軸和z軸表示以激光雷達(dá)傳感器為原點(diǎn)的坐標(biāo)系,坐標(biāo)軸上的數(shù)值表示點(diǎn)云場(chǎng)景中的全局坐標(biāo)。從圖11 可以看出,左上角、右上角和左下角的汽車的點(diǎn)云較密集,而右下角的汽車包含的點(diǎn)云較少。盡管如此,GT3D 仍然能夠準(zhǔn)確地進(jìn)行檢測(cè)。這說明GT3D 在檢測(cè)點(diǎn)云數(shù)量較少的目標(biāo)時(shí)具有較強(qiáng)的魯棒性。

        圖11 模型檢測(cè)到的汽車點(diǎn)云

        為了進(jìn)一步驗(yàn)證GT3D 的性能,本文將GT3D與當(dāng)前經(jīng)典方法Voxel R-CNN 和PDV 進(jìn)行比較,實(shí)驗(yàn)結(jié)果如圖12 所示。從圖12 中可以看出,Voxel R-CNN 和PDV 在一些情況下出現(xiàn)誤檢,例如,在BEV 視角下,由于左側(cè)墻壁的點(diǎn)云較復(fù)雜,使Voxel R-CNN 和PDV 將其誤檢為汽車,而GT3D 展示了較強(qiáng)的魯棒性,對(duì)于復(fù)雜場(chǎng)景中的目標(biāo)誤識(shí)別率較低,取得了較好的檢測(cè)效果。

        3.5 消融實(shí)驗(yàn)

        為了進(jìn)一步驗(yàn)證GT3D 中模塊的有效性,本文針對(duì)網(wǎng)格中心點(diǎn)位置編碼模塊、多尺度特征聚合模塊和軟回歸損失進(jìn)行了消融實(shí)驗(yàn),對(duì)每個(gè)模塊訓(xùn)練80 個(gè)epoch。使用40 個(gè)召回位置進(jìn)行評(píng)估,IoU 閾值設(shè)置為0.7,實(shí)驗(yàn)結(jié)果如表6 所示。其中,A.L.F.表示多尺度特征聚合模塊,P.E.表示網(wǎng)格點(diǎn)位置編碼模塊,T.R.表示Transformer 模塊,S.L.R.表示軟回歸損失。

        表6 GT3D 消融實(shí)驗(yàn)

        方法1 不包含兩階段檢測(cè)頭,而是僅依靠BEV下的RoI 特征來進(jìn)行檢測(cè),其平均準(zhǔn)確率較低,這突顯了單階段方法的局限性。

        方法2 在方法1 的基礎(chǔ)上加入了網(wǎng)格點(diǎn)的多尺度特征聚合模塊,并采用Transformer 對(duì)網(wǎng)格點(diǎn)進(jìn)行注意力編碼。與方法1 相比,方法2 在簡(jiǎn)單、中等和困難3 個(gè)難度級(jí)別車輛檢測(cè)中,準(zhǔn)確率分別高約1.16%、0.84%和1.20%,這表明通過聚合多尺度的局部特征可以提高檢測(cè)準(zhǔn)確率,并且進(jìn)一步證明了兩階段細(xì)化在提升模型性能上的重要性。

        方法3 在方法1 的基礎(chǔ)上加入了網(wǎng)格點(diǎn)位置編碼模塊,并同樣采用Transformer 對(duì)網(wǎng)格點(diǎn)進(jìn)行注意力編碼。與方法1 相比,方法3 在簡(jiǎn)單、中等和困難3 個(gè)難度級(jí)別車輛檢測(cè)中,準(zhǔn)確率分別高約2.15%、3.94%和4.56%。這表明,通過顯式地對(duì)點(diǎn)的空間位置進(jìn)行編碼可以有效提升模型的性能。

        方法4 在方法1 的基礎(chǔ)上,同時(shí)加入了多尺度特征聚合模塊和網(wǎng)格點(diǎn)位置編碼模塊。與方法1 相比,方法4在簡(jiǎn)單、中等和困難3個(gè)難度級(jí)別車輛檢測(cè)中,準(zhǔn)確率分別高約2.39%、4.50%和5.47%,這表明兩者的結(jié)合使用可以進(jìn)一步提升模型的性能。

        方法5 在方法1 的基礎(chǔ)上加入了多尺度特征聚合模塊、網(wǎng)格點(diǎn)位置編碼模塊和軟回歸損失。與方法1 相比,方法5 在簡(jiǎn)單、中等和困難3 個(gè)難度級(jí)別車輛檢測(cè)中,準(zhǔn)確率分別高約2.51%、4.64%和5.49%。實(shí)驗(yàn)結(jié)果表明,加入軟回歸損失后,模型性能得到有效提升,證明軟回歸損失在消除數(shù)據(jù)標(biāo)注過程中引入的模糊性方面具有顯著效果。

        4 結(jié)束語

        目前,基于原始點(diǎn)云的三維目標(biāo)檢測(cè)技術(shù)正在迅速發(fā)展,本文研究了兩階段檢測(cè)方法在性能提升方面的關(guān)鍵技術(shù),其中包括空間坐標(biāo)的顯式建模、多尺度局部特征聚合以及基于自注意力機(jī)制的特征編碼。為此,本文提出了一種兩階段基于自注意力機(jī)制的三維目標(biāo)檢測(cè)方法GT3D。該方法將RPN生成的RoI 在空間上劃分為均勻網(wǎng)格點(diǎn),并對(duì)這些點(diǎn)進(jìn)行多尺度局部特征聚合和空間位置編碼。然后,采用自注意力機(jī)制對(duì)網(wǎng)格點(diǎn)特征進(jìn)行編碼,以獲取更加有效的RoI 特征。最后,通過軟回歸損失來消除數(shù)據(jù)標(biāo)注過程引入的模糊性,從而進(jìn)一步提升檢測(cè)性能。接下來,本文將繼續(xù)研究聚合多尺度信息的兩階段檢測(cè)方法,進(jìn)一步提高基于體素的三維目標(biāo)檢測(cè)方法準(zhǔn)確率,擬考慮引入額外輔助網(wǎng)絡(luò)對(duì)模型進(jìn)行監(jiān)督,以借助自注意力機(jī)制進(jìn)一步提高目標(biāo)檢測(cè)的準(zhǔn)確性。

        猜你喜歡
        特征檢測(cè)方法
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        可能是方法不對(duì)
        小波變換在PCB缺陷檢測(cè)中的應(yīng)用
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        456亚洲人成在线播放网站| 少妇夜夜春夜夜爽试看视频 | av网站一区二区三区| 中文字幕亚洲熟女av| 免费人成视频xvideos入口| 中文字幕久久久精品无码| 一区二区在线视频大片| 中文字幕av人妻少妇一区二区 | 日韩精品一区二区亚洲专区| 久久99精品久久久久久琪琪| 久久99精品国产99久久6尤物| 日韩中文字幕一区二区高清| 白色白色白色在线观看视频| 亚洲一区二区三区小说| 最新国产乱人伦偷精品免费网站| 国产av专区一区二区三区| 日本久久大片中文字幕| 无套中出丰满人妻无码| 免费人成年小说在线观看| 国产成人一区二区三区影院免费| 精品少妇人妻av一区二区蜜桃 | 丝袜美腿在线观看视频| 全黄性性激高免费视频| 中文字幕影片免费在线观看| 国产优质女主播在线观看| 手机av在线中文字幕| 亚洲av最新在线网址| 香蕉视频免费在线| 熟女少妇av一区二区三区| 国产成人精品999视频| 精品丝袜人妻久久久久久| 亚洲一区二区不卡日韩| 香蕉成人伊视频在线观看| 亚洲av无码日韩精品影片| 亚洲国产日韩在线精品频道| 日本精品免费看99久久| 亚洲日韩一区二区三区| 精品国偷自产在线不卡短视频| 国内偷拍精品一区二区| 亚洲综合色婷婷七月丁香| 亚洲精品国产字幕久久vr|