迭代偽點(diǎn)云生成的3D目標(biāo)檢測

2025-08-03 00:00:00孫立輝王楚遙

計(jì)算機(jī)應(yīng)用研究 2025年6期

3D object detection based on iterative pseudo point cloud generation

Sun Lihui?，Wang Chuyao （SchoolofManagementScienceamp;IforationEnginering，HebeiUniersityfconomicsamp;Businss，ijzangO5OChina）

Abstract：3Dobject detection iscrucial forautonomous driving.However，incomplex scenarios，LiDAR oftenstruggles to capture complete point-clouddatadue todistance andocclusion，afectingdetection accuracy.To addressthis，the paperpro poseda3Dobject detectionmethodbasedoniterativepseudo-point-cloudgeneration（IG-RCNN）.Firstly，itintroduceda channel sparsepartialconvolution（CSPConv）module inthe3Dvoxel backbone toreduce channel redundancyand fuse semanticinformationfrom diferentreceptivefields，enhancing feature fusion.Secondly，iterativerefinementgeneratedhighqualitypseudo-pointclouds，providing efectiveguidanceforthesuggestionboxandimprovingdetectionacuracy.Experiments on the KITTI dataset show that the algorithm outperforms PV-RCNN，with a 3.89% and 2. 73% accuracy improvement for pedestrians andcyclists，respectively，under harddificulty.Thisdemonstrates thealgorithm’ssuperiorityinprocesingsparse point clouddata，especiallyindetectingsmallojects likepedestrians and cyists，shows strongerrobustnessandaccuracy

Key words：autonomous driving；driver asistance system；3D object detection；pseudo-point cloud generation

0 引言

近年來隨著自動駕駛技術(shù)的快速發(fā)展，人們對車輛感知和理解周圍環(huán)境的要求不斷提高，3D目標(biāo)檢測技術(shù)受到了極大的關(guān)注。

使用激光雷達(dá)點(diǎn)云進(jìn)行3D目標(biāo)檢測的算法按照對輸入點(diǎn)云處理方式的不同，通常分為基于點(diǎn)的算法和基于體素網(wǎng)格的算法?；邳c(diǎn)的算法直接將原始3D點(diǎn)云作為神經(jīng)網(wǎng)絡(luò)的輸入，通過一系列的處理后為場景中的前景物體生成邊界框預(yù)測[1＼～4]。這類算法能夠直接利用點(diǎn)云的原始幾何信息，但是計(jì)算成本高、效率較低?；隗w素網(wǎng)格的算法首先對輸人點(diǎn)云進(jìn)行預(yù)處理，將點(diǎn)云量化為3D網(wǎng)格結(jié)構(gòu)，然后采用與2D目標(biāo)檢測類似的操作來生成邊界框預(yù)測[5-7]。這類算法速度快，但是由于點(diǎn)云的體素化會導(dǎo)致大量信息的丟失，普遍精度較低。

此外，根據(jù)算法框架的不同，3D目標(biāo)檢測算法還可以進(jìn)一步分為單階段和兩階段方法。單階段方法直接從輸入點(diǎn)云預(yù)測邊界框，這種方法效率高但是精度較低。兩階段方法首先使用區(qū)域建議網(wǎng)絡(luò)生成候選框，然后對這些候選框進(jìn)行分類和回歸，以處理不同尺度的物體。這種方法通常能夠?qū)崿F(xiàn)較高的檢測精度。為了進(jìn)一步提高檢測精度，研究人員已經(jīng)探索了多種方法來提取感興趣區(qū)域（RoI）的特征，以便對候選框進(jìn)行更可靠的細(xì)化來提高檢測精度[8.9]。

最近，一些基于體素的兩階段檢測器開始嘗試在細(xì)化階段重新利用感興趣區(qū)域內(nèi)點(diǎn)的原始特征來提高檢測精度[10＼～-12]這些方案使用點(diǎn)云和體素相結(jié)合的方法，在區(qū)域建議框的生成階段使用體素表示來提高效率，在建議框的細(xì)化階段轉(zhuǎn)換回基于點(diǎn)的處理方式，使用原始點(diǎn)云的幾何細(xì)節(jié)，提高精度。這類混合方案顯著地提高了檢測精度。

然而，由于激光雷達(dá)點(diǎn)云固有的稀疏性和極易被遮擋的特點(diǎn)，某些建議框內(nèi)的原始點(diǎn)云數(shù)量可能較為稀少或者出現(xiàn)截?cái)?，這些建議框內(nèi)的原始點(diǎn)云無法提取出有效的特征來為后續(xù)的細(xì)化階段提供有效的參考。為了解決這個問題，研究人員提出了不同的方法來豐富點(diǎn)云特征，包括使用多幀點(diǎn)云[13.14]、引入多模態(tài)數(shù)據(jù)[15.16]等。但是這些方法需要進(jìn)行數(shù)據(jù)的時序?qū)R或者多傳感器之間的視圖對齊，應(yīng)用難度較大。最近，研究者開始嘗試通過點(diǎn)云補(bǔ)全的方法來豐富感興趣區(qū)域中點(diǎn)云信息，輔助建議框的細(xì)化。這些方法包括預(yù)訓(xùn)練一個點(diǎn)云補(bǔ)全網(wǎng)絡(luò)來增加點(diǎn)云數(shù)量[17.18]，在網(wǎng)絡(luò)中集成一個點(diǎn)生成模塊來豐富點(diǎn)云信息[19等。然而這些方法較難保證生成點(diǎn)云的質(zhì)量，生成的點(diǎn)云信息可能難以為后續(xù)建議框的細(xì)化提供有效的指導(dǎo)。

在生成式模型領(lǐng)域的研究表明，采用多次迭代生成的方式，每次只保留高可信度的數(shù)據(jù)，屏蔽低可信度的數(shù)據(jù)，并在下一次迭代中重新預(yù)測，直到通過多次迭代細(xì)化完成所有數(shù)據(jù)的生成，這種方法可以有效提升生成數(shù)據(jù)的質(zhì)量[20.21]。受此啟發(fā)，提出基于迭代偽點(diǎn)云生成的3D目標(biāo)檢測網(wǎng)絡(luò)（IG-RCNN），一種端到端的兩階段3D目標(biāo)檢測方法。

本文還發(fā)現(xiàn)，傳統(tǒng)的3D卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)往往通過在特征提取階段大量增加通道數(shù)的方式來提高網(wǎng)絡(luò)的擬合能力。但是最近研究表明，這種運(yùn)算方式極易造成通道的冗余，增加了大量的計(jì)算量，提升效果卻非常有限[22]。基于此，在區(qū)域建議階段，本文優(yōu)化了傳統(tǒng)的3D區(qū)域提議網(wǎng)絡(luò)主干，設(shè)計(jì)了一個CSPConv模塊，以此來構(gòu)建新的3D骨干網(wǎng)絡(luò)，并且在網(wǎng)絡(luò)中大量應(yīng)用殘差連接機(jī)制。新設(shè)計(jì)的骨干網(wǎng)絡(luò)擁有更強(qiáng)的特征抽取能力，能夠提高整體的3D目標(biāo)檢測準(zhǔn)確度。在候選框細(xì)化階段，本文利用多尺度特征圖，通過多次迭代生成具有高可信度的偽點(diǎn)云信息，為候選框的細(xì)化提供有效的指導(dǎo)，提高3D目標(biāo)檢測的精度。

本文的貢獻(xiàn)可以總結(jié)如下：a）提出了一種新的3D目標(biāo)檢測方法，利用多尺度特征圖，多次迭代生成偽點(diǎn)云信息，并且引入動態(tài)損失權(quán)重機(jī)制，確保生成的偽點(diǎn)云信息的質(zhì)量隨著迭代的進(jìn)行逐步提高，使其能夠有效指導(dǎo)候選框的細(xì)化，提高3D目標(biāo)檢測的精度。b）在3D體素主干網(wǎng)絡(luò)中采用了一種新的卷積模塊CSPConv。該模塊在減少通道冗余的同時，能夠融合不同感受野的語義信息，增強(qiáng)模型的特征抽取能力。c）通過實(shí)驗(yàn)論證了所提方法的有效性，KITTI數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，本文方法對比其他只使用點(diǎn)云的方法取得了較大改進(jìn)，特別是對那些小目標(biāo)、遠(yuǎn)距離目標(biāo)和遮擋嚴(yán)重的目標(biāo)，能夠取得良好的檢測效果。

1方法

在基于點(diǎn)云的兩階段3D目標(biāo)檢測方法中，現(xiàn)有研究對建議框細(xì)化的改進(jìn)主要集中在優(yōu)化3D體素骨干網(wǎng)絡(luò)中卷積層提取的多尺度特征。然而，當(dāng)目標(biāo)距離較遠(yuǎn)或存在遮擋時，傳統(tǒng)算法雖然能夠從多尺度特征中獲取到目標(biāo)的部分幾何信息，卻難以捕捉到精確的幾何細(xì)節(jié)。因此，這類目標(biāo)的建議框細(xì)化效果往往不佳，特別是在行人和騎行者的檢測任務(wù)中，這一問題尤為顯著，導(dǎo)致當(dāng)前算法在這些目標(biāo)檢測任務(wù)中的精度普遍偏低。

針對這一問題，本文提出了一種基于迭代偽點(diǎn)云生成的3D目標(biāo)檢測方法，其核心在于設(shè)計(jì)一個專注于偽點(diǎn)云生成的模塊，通過多輪迭代生成高質(zhì)量的偽點(diǎn)云，增加目標(biāo)區(qū)域內(nèi)的點(diǎn)云密度，彌補(bǔ)因稀疏或截?cái)鄬?dǎo)致的點(diǎn)云信息缺失，提高建議框的細(xì)化精度。此外，本文還設(shè)計(jì)了CSPConv模塊來減少3D骨干網(wǎng)絡(luò)中的通道冗余，進(jìn)一步提升特征提取效率。

圖1展示了生成的偽點(diǎn)云和原始點(diǎn)云的對比，可以看到，本文方法可以為點(diǎn)云稀疏的目標(biāo)和點(diǎn)云被截?cái)嗟哪繕?biāo)生成高質(zhì)量的偽點(diǎn)云特征。

圖1原始點(diǎn)云與生成的密集偽點(diǎn)云對比 Fig.1Comparison betweenthe original point cloud and the generated dense pseudo point cloud

本文的整體網(wǎng)絡(luò)設(shè)計(jì)如圖2所示，與大多數(shù)兩階段3D目標(biāo)檢測網(wǎng)絡(luò)架構(gòu)一樣，分為區(qū)域提議和建議框細(xì)化兩個階段。在區(qū)域提議階段，將原始點(diǎn)云輸人轉(zhuǎn)換為固定大小的體素單元，隨后使用體素網(wǎng)絡(luò)主干提取特征，并生成初步的區(qū)域提議。在建議框細(xì)化階段，回歸到點(diǎn)云，使用3D主干網(wǎng)絡(luò)的多尺度特征生成偽點(diǎn)云，并通過多次迭代的方式更精確地捕捉目標(biāo)的幾何和語義信息，提高偽點(diǎn)云的質(zhì)量。最后，將這些高質(zhì)量的偽點(diǎn)云輸入檢測頭得到細(xì)化后的最終檢測結(jié)果。

1.1 區(qū)域提議網(wǎng)絡(luò)

本文使用帶有CSPConv的網(wǎng)絡(luò)主干作為區(qū)域提議網(wǎng)絡(luò)來產(chǎn)生建議框和多尺度特征圖，其架構(gòu)如圖3所示。

首先，將輸入的原始點(diǎn)云數(shù)據(jù)劃分為均勻分布的體素單元，然后將這些體素單元通過一系列具有CSPConv模塊的3D主干網(wǎng)絡(luò)進(jìn)行處理，獲得多尺度的特征圖。CSPConv模塊架構(gòu)如圖4所示。對于輸人大小為 H×W×C 的原始特征圖，沿通道維度將其拆分成大小為 H×W×C/2 的兩個子特征圖，分別使用3×3 和 5×5 的卷積核對兩個子特征圖進(jìn)行特征提取，獲取不同感受野的信息。然后，將這兩份子特征圖沿通道維度拼接后進(jìn)行 1×1 卷積操作，并與輸入進(jìn)行殘差連接。與傳統(tǒng)卷積相比，CSPConv能夠從通道維度提取和融合高階特征圖和低階征圖的不同語義信息，在減少通道冗余的同時提高模型的特征提取能力。

圖2整體網(wǎng)絡(luò)結(jié)構(gòu)Fig.2Network structure"

在得到3D主干網(wǎng)絡(luò)輸出的多尺度特征圖后，將其沿著 z 軸投影轉(zhuǎn)換成鳥瞰圖（BEV）。在建議階段，利用分類預(yù)測分支和回歸預(yù)測分支對BEV特征圖進(jìn)行密集預(yù)測，為后續(xù)的細(xì)化階段生成初步的檢測結(jié)果。

1.2偽點(diǎn)云生成及檢測

在第二階段，根據(jù)區(qū)域提議網(wǎng)絡(luò)產(chǎn)生的建議框，從多尺度特征圖中匯聚信息進(jìn)行高質(zhì)量的偽點(diǎn)云生成，并將生成的偽點(diǎn)云輸入檢測頭產(chǎn)生邊界框預(yù)測。

首先，根據(jù)區(qū)域提議階段產(chǎn)生的建議框從鳥瞰圖中切取相應(yīng)的多尺度特征圖，并以建議框?yàn)閱挝粚⑵渲械亩喑叨忍卣骶鶆騽澐譃轶w積更小的亞體素。然后，把每個亞體素的中心點(diǎn)作為該體素單元的代表點(diǎn)，將每個代表點(diǎn)所在體素單元的特征信息匯聚到該代表點(diǎn)上。最后，使用 PointNet++ 網(wǎng)絡(luò)匯聚該點(diǎn)鄰域內(nèi)距離最近 N 個點(diǎn)的特征形成新的合成特征。

F_Cj=PointNet++（C_j，{f_Ck∣C_k∈neighborhood（C_j，N）}）

其中： C_j?C_k 表示亞體素的中心點(diǎn) σ;f_ck 表示以 K 為中心點(diǎn)的亞體素特征; F_Cj 表示使用 PointNet++ 網(wǎng)絡(luò)匯聚后 C_j 點(diǎn)的合成特征。此時的合成特征已經(jīng)具有了其一定鄰域范圍的局部信息，還需要進(jìn)一步融合其所在建議框全局信息以增強(qiáng)合成特征的全局表達(dá)能力。多種研究證明，Transformer網(wǎng)絡(luò)架構(gòu)具有極強(qiáng)的捕捉全局信息的能力。因此，對每個建議框中的合成特征，采用Transformer編碼器進(jìn)行建議框全局信息的融合。

在經(jīng)過Transformer進(jìn)行建議框級別的融合后，合成特征已經(jīng)具有足夠的信息進(jìn)行偽點(diǎn)云生成。具體來說，對于每一個建議框，利用該建議框內(nèi)的每一體素單元的合成特征生成一個偽點(diǎn)云信息，該點(diǎn)云信息包含了其相對于所在體素單元中心點(diǎn)的偏移以及一些高維度特征。

其中： p_k 表示以 C_k 為中心的亞體素單元生成的偽點(diǎn)云； d_k 表示生成偽點(diǎn)云相對于亞體素單元 C_k 的坐標(biāo)偏移 Ω₃f_pk 表示生成偽點(diǎn)云的高維度特征。點(diǎn)云生成模塊產(chǎn)生的所有偽點(diǎn)云信息構(gòu)成了一個生成點(diǎn)云集合。此時的生成點(diǎn)云集合中包含了可靠點(diǎn)云信息以及不可靠點(diǎn)云信息，其中的不可靠點(diǎn)云信息會對后續(xù)的建議框細(xì)化產(chǎn)生負(fù)面影響，因此需要對生成結(jié)果進(jìn)行多次迭代，以產(chǎn)生高質(zhì)量的點(diǎn)云信息。

為了從生成點(diǎn)云集合中篩選出不可靠點(diǎn)云信息，在點(diǎn)云生成模塊之后，使用評分模塊對所有生成點(diǎn)云信息進(jìn)行可信度評分，根據(jù)評分結(jié)果將評分低于閾值的點(diǎn)云信息進(jìn)行掩蓋。點(diǎn)云的生成和掩蓋操作過程難免會丟失大量特征的信息，需要對丟失的特征信息進(jìn)行補(bǔ)充。因此，在每次進(jìn)行迭代生成前，將每個體素單元經(jīng)過Transformer融合后的合成特征與生成的點(diǎn)云信息進(jìn)行融合，然后重新通過點(diǎn)云生成模塊產(chǎn)生新的偽點(diǎn)云，一共進(jìn)行 K 輪迭代，并在迭代過程中逐步下調(diào)可信度閾值。點(diǎn)云的掩蓋遵循以下規(guī)則：

τ_m=τ₀-m?Δτ

其中： τ_m"是第 ?_m"輪的評分閾值； τ₀"是初始評分閾值； Δτ 是每輪迭代閾值的遞減量;sm是第m輪生成偽點(diǎn)云Pm的得分;Pmask是第 m 輪經(jīng)過掩蓋后的偽點(diǎn)云集合。對于最后一輪迭代生成的偽點(diǎn)云信息，本文不進(jìn)行掩蓋，直接將最后生成的點(diǎn)云結(jié)果以及該輪結(jié)果的評分一起輸入 PointNet++ 檢測頭，得到最終細(xì)化后的輸出。

為了更加清晰地描述本模塊的具體實(shí)現(xiàn)方式，算法1以偽代碼的形式展示了迭代偽點(diǎn)云生成的流程。

算法1偽點(diǎn)云迭代生成輸入：來自Transformer的融合特征 F 。

輸出：經(jīng)過迭代生成的偽點(diǎn)云及其評分PseudoPointList，scoreList}。a）PseudoPointList，scoreList =[] ，［］//初始化結(jié)果列表b）GenerateFeatures Ψ=Ψ_F .for m inrange do Ω/μ 為總迭代次數(shù)PseudoPoint Σ=Σ PGM（GenerateFeatures）;//生成偽點(diǎn)云PseudoPointList.apped（PseudoPoint）;score=MLP （PseudoPoint）;//對生成的偽點(diǎn)云進(jìn)行評分scoreList.apped（score）;confidence =t-m*d;/*t 為初始置信度閾值，，d 為每次迭代的置信度遞減量 * /PseudoPoint[score 返回每次迭代生成的偽點(diǎn)云及其分?jǐn)?shù)，用于損失計(jì)算 /

2損失函數(shù)

本文的損失函數(shù)由點(diǎn)生成損失 L_POINT 、建議框損失 L_RPN 和檢測損失 L_DET 三部分組成。

L=L_POINT+L_RPN+L_DET

本文采用3D目標(biāo)檢測領(lǐng)域常見的做法來計(jì)算建議框損失。首先，根據(jù)區(qū)域建議網(wǎng)絡(luò)輸出的候選框與地面真實(shí)值之間的交并比（IoU）為候選框分配目標(biāo)邊界框。在完成前景目標(biāo)的分配后，采用焦點(diǎn)損失（FocalLoss）來計(jì)算區(qū)域建議網(wǎng)絡(luò)分類預(yù)測分支的置信度損失，使用平滑 L₁ 損失（smooth ?L₁ loss）來計(jì)算回歸預(yù)測分支的回歸損失。總體公式如下：

L_RPN=L_cls+L_reg

L_cls=-（1-p_t）^γlog（p_t）

對于檢測損失，采用交叉熵?fù)p失（cross-entropyloss）來計(jì)算其置信度損失，其余的做法與建議框損失一致。

本文參考 PG-RCNN 和 BtcDet^[23] 的思想來構(gòu)建點(diǎn)生成損

失 L_PoINT ，其公式如下：

其中： K 為迭代輪次，隨著迭代輪次的增加，生成的點(diǎn)云信息應(yīng)該具有更高的準(zhǔn)確度。因此，引人了一個動態(tài)損失權(quán)重機(jī)制，為每一輪迭代中的點(diǎn)生成損失分配了一個遞增的權(quán)重，確保隨著迭代的進(jìn)行，生成點(diǎn)云信息的質(zhì)量能夠逐步提升。

L_scoREⁱ 為第 i 輪生成偽點(diǎn)云的評分損失。為了鼓勵模型生成位于真實(shí)邊界框內(nèi)的前景點(diǎn)云，本文按照是否存在于真實(shí)邊界框中為每一個生成的點(diǎn)云信息分配標(biāo)簽，然后對其應(yīng)用焦點(diǎn)損失，其公式如下：

其中： _;N 為點(diǎn)云總數(shù)； s_j 為當(dāng)前輪次第 j 個點(diǎn)的評分。

L_0FFSETⁱ 為生成點(diǎn)云的形狀監(jiān)督損失。為了使生成點(diǎn)云的形狀盡可能與原始物體的形狀相似，需要原始對象的完整點(diǎn)云來監(jiān)督點(diǎn)云的生成。然而，對于遠(yuǎn)距離的物體以及被遮擋的物體，其點(diǎn)云數(shù)目稀少、點(diǎn)云形狀殘缺，無法從KITTI數(shù)據(jù)集獲取這類對象實(shí)例的完整點(diǎn)云信息用于形狀監(jiān)督。

為了解決這個問題，本文首先從KITTI中搜索點(diǎn)云密集的對象實(shí)例，按照旋轉(zhuǎn)角度和類別進(jìn)行分組，構(gòu)建一個對象數(shù)據(jù)庫。在訓(xùn)練時，從對象數(shù)據(jù)庫中隨機(jī)抽取兩個與當(dāng)前實(shí)例最為相似的對象點(diǎn)集與當(dāng)前實(shí)例的原始點(diǎn)集相結(jié)合，借此生成稠密的點(diǎn)云集合。對于汽車和騎行者這兩種類別，還沿著軸對稱方向鏡像點(diǎn)云來豐富點(diǎn)云信息。

本文用產(chǎn)生的稠密點(diǎn)云來進(jìn)行生成點(diǎn)云形狀損失的計(jì)算，對所有前景候選框中生成的點(diǎn)云采用Chamfer距離來計(jì)算L_0FFSETⁱ ，其公式如下：

其中：N_fp 是前景候選框中的生成點(diǎn)云數(shù)目； P_r 是生成點(diǎn)云點(diǎn)集； P_r^* 是構(gòu)建出的稠密點(diǎn)云點(diǎn)集。

3 實(shí)驗(yàn)結(jié)果與分析

3.1數(shù)據(jù)集

為了確認(rèn)算法的有效性，采用3D自標(biāo)檢測中常用的大型公開數(shù)據(jù)集KITTI對算法進(jìn)行驗(yàn)證。KITTI數(shù)據(jù)集共包含7481幀具有注釋的訓(xùn)練數(shù)據(jù)樣本和7518幀測試數(shù)據(jù)樣本。在進(jìn)行網(wǎng)絡(luò)訓(xùn)練時，將原始的訓(xùn)練數(shù)據(jù)樣本劃分為3712個樣本的訓(xùn)練集和包含3769個樣本的驗(yàn)證集進(jìn)行訓(xùn)練和驗(yàn)證。

本文對數(shù)據(jù)集中的汽車、行人以及騎行者三個類別進(jìn)行檢測。根據(jù)目標(biāo)截?cái)嗪驼趽醭潭鹊牟煌?，每個類別均包含簡單、中等、困難三個級別。

3.2 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)基于PyTorch深度學(xué)習(xí)框架和OpenPCDet目標(biāo)檢測工具箱，采用的硬件環(huán)境為雙路 Intel^BXeon^B Silver 4210R處理器，RTX2080TiGPU，軟件環(huán)境為Ubuntu22.04LTS、Python3.9，CUDA11.8，PyTorch2.0.1。

本實(shí)驗(yàn)采用Adma作為優(yōu)化器更新模型參數(shù)，初始學(xué)習(xí)率為0.01，動量為0.9，學(xué)習(xí)率衰減為0.1，最大迭代次數(shù)為 80 對于KITTI數(shù)據(jù)集，只檢測 x 軸在 [0，70.4]m，y 軸在[-40，40]m，z軸在[-3，1] m 的目標(biāo)，對于輸入的原始點(diǎn)云，沿各軸按（0.05，0.05，0.1） m 將其劃分為初始體素。

對于區(qū)域建議網(wǎng)絡(luò)給出的每一個初始建議框，將其均勻劃分為216個相同大小的亞體素單元。在IoU設(shè)置方面，為汽車設(shè)置0.7的IoU閾值，為行人和騎行者均設(shè)置0.5的IoU值，評估結(jié)果分為簡單、中等、困難三個難度級別。

在數(shù)據(jù)增強(qiáng)方面，采用基于點(diǎn)云的3D目標(biāo)檢測算法中常用的數(shù)據(jù)增強(qiáng)策略，包括沿 x 軸進(jìn)行隨機(jī)翻轉(zhuǎn)、采用隨機(jī)的縮放因子進(jìn)行全局縮放、圍繞 z 軸進(jìn)行全局的隨機(jī)旋轉(zhuǎn)等。在進(jìn)行偽點(diǎn)云信息的迭代生成時，設(shè)置初始可信度閾值為0.58，進(jìn)行8輪迭代，在迭代中逐步下調(diào)可信度閾值至0.32。

3.3算法性能

模型的訓(xùn)練在訓(xùn)練集上進(jìn)行，并根據(jù)驗(yàn)證集的結(jié)果調(diào)整超參數(shù)。為了驗(yàn)證算法的有效性，在3D視角下與先進(jìn)算法在驗(yàn)證集上的評估結(jié)果進(jìn)行對比，采用AP11作為評價(jià)標(biāo)準(zhǔn)，為所有算法采用相同的IoU閾值。表1展示了本文算法與其他多個網(wǎng)絡(luò)模型在汽車、行人、騎行三種類別，在簡單、中等、困難三種難度下的對比結(jié)果，最優(yōu)結(jié)果使用加粗表示。

從表1可以看到：本文算法整體檢測效果優(yōu)于其他算法，尤其在行人和騎行者這兩個類別上取得了較大的優(yōu)勢。相較于基線算法PV-RCNN，在簡單難度下，行人類別和騎行者類別的檢測精度提升幅度達(dá) 2.60% 和 6.27% ；中等難度下行人類別的檢測精度提升幅度達(dá) 5.43% ；困難難度下，行人類別和騎行者類別的檢測精度提升幅度達(dá) 3.89% 和 2.73% 。本文算法對汽車類別的檢測精度低于RoIFusion，這是由于該算法融合了激光雷達(dá)點(diǎn)云和攝像頭信息，攝像頭信息能夠?yàn)槠囘@類大目標(biāo)物體提供豐富的特征，一定程度上補(bǔ)足了原始點(diǎn)云特征的缺失。但是，在行人和騎行者這類攝像頭信息不足以補(bǔ)全點(diǎn)云特征的小目標(biāo)上，本文算法檢測精度明顯優(yōu)于RoIFusion，這進(jìn)一步驗(yàn)證了算法的有效性。

表1KITTI測試集上與先進(jìn)算法的檢測精度對比Tab.1 Comparison ofdetection accuracyontheKITTI test datasetwithadvanced algorithms

圖5為本文算法在KITTI數(shù)據(jù)集上目標(biāo)檢測結(jié)果的可視化展示。圖中是激光雷達(dá)視角下的點(diǎn)云示意圖，藍(lán)色代表檢測框的地面真相，綠色為預(yù)測出的檢測框結(jié)果（見電子版）。圖中結(jié)果表明，相較于其他算法，本文算法對于行人和騎行者目標(biāo)體現(xiàn)出較好的檢測效果，預(yù)測結(jié)果的幾何位置以及方向角較為精準(zhǔn)，對于距離較遠(yuǎn)、遮擋較為嚴(yán)重的目標(biāo)也能體現(xiàn)出較為良好的檢測效果，有效降低了漏檢概率。

本文算法不僅有出色的檢測精度，還有較快的檢測速度，在進(jìn)行8輪迭代的情況下，它可以在單個NVIDIARTX2080Ti上以18.9frame/s進(jìn)行推理，超越了大多數(shù)的兩階段算法。此外，在進(jìn)行偽點(diǎn)云生成時，每輪迭代使用的是同一個點(diǎn)云生成模塊，在減少網(wǎng)絡(luò)參數(shù)的同時完成了對訓(xùn)練和推理的分離。一旦完成了對模型的訓(xùn)練，可以在推理中隨意改變迭代的步數(shù)。

圖5可視化檢測結(jié)果對比 Fig.5 Comparison of visual detection results

如圖6所示，在推理過程中使用更多的偽點(diǎn)云迭代細(xì)化步驟可以獲得更好的精度，但是會增加推理所需要的時間。在實(shí)際應(yīng)用中，本文可以在終端設(shè)備動態(tài)調(diào)整迭代次數(shù)，在速度與精度之間取得平衡。當(dāng)自動駕駛汽車行駛在高速公路這類路況簡單、但是車速較快的場景時，可以減少迭代次數(shù)來提高推理速度，作出快速決策；而在市區(qū)道路這類路況復(fù)雜、但是車速較慢的場景時，可以增加迭代次數(shù)來作出精準(zhǔn)決策。這一切的實(shí)施都不需要重新設(shè)計(jì)網(wǎng)絡(luò)，也不需要重新訓(xùn)練網(wǎng)絡(luò)參數(shù)。

3.4消融實(shí)驗(yàn)

為驗(yàn)證本文算法的有效性，在KITTI驗(yàn)證集上進(jìn)行了廣泛的消融實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果如表2所示。實(shí)驗(yàn)結(jié)果表明，偽點(diǎn)云迭代生成模塊、可信度閾值過濾模塊、CSPConv模塊均對結(jié)果的改進(jìn)起到了作用。

一共進(jìn)行了三組消融實(shí)驗(yàn)。在第一組實(shí)驗(yàn)中，去除了偽點(diǎn)云迭代生成模塊，對于區(qū)域建議網(wǎng)絡(luò)的輸出，只對其進(jìn)行一次偽點(diǎn)云生成就將其輸入檢測頭進(jìn)行預(yù)測；在第二組實(shí)驗(yàn)中，使用傳統(tǒng)的SECOND體素網(wǎng)絡(luò)主干替換掉了具有CSPConv的體素網(wǎng)絡(luò)主干；在第三組實(shí)驗(yàn)中，去除掉了偽點(diǎn)云的迭代生成時低可信度信息的閾值過濾步驟，直接使用上一輪的輸出進(jìn)行偽點(diǎn)云的迭代生成。

表2KITTI驗(yàn)證集上的消融實(shí)驗(yàn)結(jié)果Tab.2Ablation studyresults on the KITTI validation dataset

通過實(shí)驗(yàn)結(jié)果可以得知：對生成的偽點(diǎn)云進(jìn)行迭代優(yōu)化，能夠提高偽點(diǎn)云信息的質(zhì)量，有助于提高檢測頭的檢測精度，在中等難度下將騎行者的精度提高 5.54% ，行人的精度提高8.20% ；具有CSPConv的體素網(wǎng)絡(luò)主干相較于傳統(tǒng)的SECOND體素網(wǎng)絡(luò)主干能夠在提高網(wǎng)絡(luò)速度的同時更有效地聚合不同特征圖的語義信息，在中等難度下將汽車的精度提高 1.43% ，行人的精度提高 3.34% ；在進(jìn)行偽點(diǎn)云的迭代生成時屏蔽掉低可信度的信息，可以提高生成的偽點(diǎn)云信息的質(zhì)量，在中等難度下將騎行者的精度提高 1.39% ，行人的精度提高 1.43% 。

圖6中等難度下行人的精度、檢測速度與迭代輪次變化 Fig.6Relationshipbetweenaccuracy，detectionspeed，and iteration rounds of pedestriansunder medium difficulty

4結(jié)束語

為了解決復(fù)雜場景下由點(diǎn)云的稀疏和截?cái)鄬?dǎo)致的檢測精度低下，本文提出基于迭代偽點(diǎn)云生成的三維目標(biāo)檢測方法。

首先，提出了CSPConv模塊并將其應(yīng)用在3D骨干網(wǎng)絡(luò)之中，在減少通道冗雜的同時，提高了模型的特征融合能力。其次，利用三維體素骨干網(wǎng)絡(luò)的多尺度特征圖，多次迭代細(xì)化生成高質(zhì)量的偽點(diǎn)云信息，完成對初始建議框的有效細(xì)化。但是對于汽車這類大目標(biāo)，單純利用點(diǎn)云信息難以獲得有效的精度提升，如今的汽車大多都配備了一個及以上的攝像頭。基于此，后期研究將進(jìn)一步考慮優(yōu)化算法，探索圖像與點(diǎn)云的相互關(guān)系，結(jié)合使用圖像信息進(jìn)一步提高目標(biāo)檢測能力。

參考文獻(xiàn)：

[1]CharlesRQ，Hao Su，MoKaichun，etal.PointNet：deep learning on point setsfor 3D classification and segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway，NJ：IEEE Press，2017：77-85.

[2]QiCR，YiLi，Su Hao，et al.PointNet++：deep hierarchical feature learningon point sets ina metric space[EB/OL].（2017-06-07）. https：//arxiv.org/abs/1706.02413.

[3]Pan Xuran，Xia Zhuofan，SongShiji，et al.3Dobject detection with pointformer[C]// Proc of IEEE/CVF Conference on Computer Visionand Pattern Recognition.Piscataway，NJ：IEEEPress，2021： 7459-7468.

[4]：ShiWeijing，RajkumarR.Point-GNN：graph neural network for 3D objectdetectionina pointcloud[C]//Proc ofIEEE/CVFConferenceon ComputerVision andPatternRecognition.Piscataway，NJ： IEEEPress，2020：1708-1716.

[5]Mao Jiageng，Xue Yujing，Niu Minzhe，et al.Voxel Transformer for 3Dobjectdetection[C]//Proc ofIEEE/CVFInternational Conference on Computer Vision.Piscataway，NJ：IEEE Press，2021： 3144-3153.

[6]YanYan，Mao Yuxing，Li Bo.SECOND：sparsely embedded convolutionaldetection[J].Sensors，2018，18（10）：3337.

[7]Zhou Yin，Tuzel O. VoxelNet：end-to-end learning for point cloud based3Dobjectdetection[C]//Proc of IEEE/CVFConferenceon Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2018：4490-4499.

[8]Deng Jiajun，Shi Shaoshuai，Li Peiwei，et al.Voxel R-CNN： towards highperformance voxel-based 3D object detection [C]/1 Procof AAAIConferenceon Artificial Intelligence.Palo Alto，CA：AAAI Press，2021：1201-1209.

[9]Shenga Hualian，Cai Sijia，Liu Yuan，etal. Improving 3Dobject detectionwithchannel-wise Transformer[C]//Proc of IEEE/CVFInternational Conference on Computer Vision.Piscataway，NJ：IEEE Press，2021：2723-2732.

[10]Shi Shaoshuai，Guo Chaoxu，Jiang Li，et al.PV-RCNN：point-voxel feature setabstraction for3Dobjectdetection[C]//Proc of IEEE/ CVFConference onComputerVisionand PatternRecognition.Piscataway，NJ：IEEE Press，2020：10526-10535.

[11]Shi Shaoshuai，JiangLi，DengJiajun，etal.PV-RCNN ⁺⁺ ：pointvoxel feature set abstraction with local vector representation for 3Dobject detection[J]. International Journal of Computer Vision， 2023，131（2）：531-551.

[12]HuJSK，Kuai Tianshu，Waslander SL.Point density-awarevoxels forLiDAR3Dobjectdetection[C]//Proc ofIEEE/CVFConference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2022：8459-8468.

[13] Chen Xuesong，Shi Shaoshuai， Zhu Benjin，et al. MPPNet：multiframe feature intertwining with proxy points for 3D temporal object detection [C]//Proc of European Conference on Computer Vision. Cham：Springer，2022：680-697.

[14］王理嘉，于歡，劉守?。畡討B(tài)環(huán)境中多幀點(diǎn)云融合算法及三維目標(biāo)檢測算法研究[J]．計(jì)算機(jī)應(yīng)用研究，2023，40（3）：909-913. （WangLijia，Yu Huan，Liu Shouyin.Research onmulti-frame point cloudfusionalgorithmand 3Dobject detectionalgorithmindynamic environment[J].ApplicationResearchofComputers，2023，40 （3）：909-913.）

[15] Chen Can，F(xiàn)ragonara L Z，Tsourdos A.RolFusion：3D object detection from LiDAR and vision[J]. IEEE Access，2021，9：51710-51721.

[16]RongYao，Wei Xiangyu，Lin Tianwei，etal.DynStatF：an efficient featurefusionstrategyforLiDAR3Dobjectdetection[C]//Procof IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops.Piscataway，NJ：IEEE Press，2023：3238-3247.

[17]Li Ziyu，Yao Yuncong，Quan Zhibin，et al. Spatial information enhancement network for 3D object detection frompoint cloud[J]. Pattern Recognition，2022，128：108684.

[18]Zhang Yanan，Huang Di，Wang Yunhong.PC-RGNN： point cloud completion and graph neural network for 3D object detection [C]// ProcofAAAIConferenceon Artificial Intelligence.Palo Alto，CA： AAAIPress，2021：3430-3437.

[19]Koo I，LeeI，Kim SH，et al.PG-RCNN：semantic surface point generation for 3D object detection [C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway，NJ：IEEE Press， 2023：18096-18105.

[20]Chang Huiwen，Zhang Han，Jiang Lu，et al.MaskGIT：masked generative image Transformer[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2022：11305-11315.

[21]Chang Huiwen，Zhang Han，Barber J，et al．Muse：text-to-image generation via masked generative Transformers[EB/OL]. （2023-01- 02）.https：//arxiv.org/abs/2301.00704.

[22]ChenJierun，Kao SH，He Hao，et al.Run，don’t walk：chasing higher FLOPS for faster neural networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattrn Recognition. Piscataway， NJ：IEEEPress，2023：12021-12031.

[23]Xu Qiangeng，Zhong Yiqi，Neumann U.Behind the curtain：learning occluded shapes for 3Dobject detection[C]//Proc of AAAI Conference on Artificial Inteligence.Palo Alto，CA：AAAI Press，2022： 2893-2901.

[24]LangAH，VoraS，Caesar _H，et al.PointPillars：fast encoders for object detection frompoint clouds[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ： IEEE Press，2019：12689-12697.

[25]Shi Shaoshuai，Wang Zhe，Shi Jianping，et al.From points to parts ： 3D object detection from point cloud with part-aware and part-aggregationnetwork[J]. IEEETransonPatternAnalysisandMachine Intelligence，2021，43（8）：2647-2664.

[26] Zhang Yifan，Hu Qingyong，Xu Guoquan，et al．Not all points are equal：learning highly efficient point-based detectors for 3D LiDAR point clouds[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2022： 18931-18940.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

迭代偽點(diǎn)云生成的3D目標(biāo)檢測