亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于激光雷達點云的3D目標檢測技術綜述

2022-03-09 08:49:44劉明宇葛萬成

電視技術 2022年1期

劉明宇，嚴俊，葛萬成

（同濟大學，上海 200092）

0 引言

對于自動駕駛場景而言，自動駕駛車輛能夠快速、精確地感知周圍實時變化的環(huán)境是非常重要的。對于這一要求，相較于2D圖像而言，3D數(shù)據(jù)能夠提供更加豐富的場景信息，更加有利于三維環(huán)境感知任務。因此，許多不同類型的傳感器被應用在自動駕駛車輛上，來獲取三維場景信息，比如LiDAR、RGB-D cameras、RADAR等。其中，由于激光雷達獲取的點云能夠保留豐富的物體原有的幾何信息，在自動駕駛場景中獲得了很多關注。但是因為激光雷達點云是一種稀疏的和非結構化的數(shù)據(jù)，相較于圖像而言，處理點云數(shù)據(jù)需要更多的計算機算力，這些都制約了利用激光雷達點云進行三維目標檢測。因此，如何利用更少的計算機資源，利用獲取的點云數(shù)據(jù)獲取更加高效精確的目標檢測性能，成為利用點云進行目標檢測的研究方向。特別是自2018年以來，出現(xiàn)了許多數(shù)據(jù)量龐大的點云數(shù)據(jù)集，如KITTI[1]、nuScences[2]以及Waymo Open Dataset[3]，有了這些數(shù)據(jù)集的支持，越來越多來自學術界或工業(yè)界的學者開始關注和研究自動駕駛場景下基于點云的3D目標檢測相關問題的解決。本文收集和梳理了近年來經(jīng)典和性能較好的模型，便于國內研究者能夠更好地進行相關方面的研究。本文的貢獻如下：

（1）本文總結了近年來自動駕駛領域基于激光雷達點云目標檢測方法，將對現(xiàn)有的相關方法進行分類和簡述；

（2）本文涵蓋相關領域最新的文章，讀者可以通過本文了解最新的、性能最好的模型；

（3）本文對于基于點云的3D目標檢測之后的發(fā)展趨勢做出了展望。

本文結構如下：第二部分將介紹現(xiàn)有的常用于自動駕駛領域的3D目標檢測的數(shù)據(jù)集，第三部分將介紹現(xiàn)有的3D目標檢測方法，第四部分是關于未來基于點云的3D目標檢測技術的展望。

1 數(shù)據(jù)集

如引言所說，現(xiàn)在常見的用于自動駕駛場景的激光雷達3D目標檢測數(shù)據(jù)集有KITTI[1]、nuScences[2]和Waymo Open Dataset[3]。這三個數(shù)據(jù)集的基本情況比較如表1所示。

表1 自動駕駛領域3D目標檢測常用數(shù)據(jù)集數(shù)據(jù)比較

1.1 KITTI

KITTI數(shù)據(jù)集由德國卡爾斯魯厄大學和豐田美國技術研究院在2012年聯(lián)合創(chuàng)辦，是目前為止使用最廣泛的自動駕駛領域的目標檢測數(shù)據(jù)集。它包括7 481個訓練樣本以及7 581個測試樣本。該數(shù)據(jù)集包含3個類別的檢測目標，分別是行人（Pedestrian）、自行車（Cyclist）以及車輛（Car）。

1.2 nuScenes

nuScences數(shù)據(jù)集能夠提供不同城市場景下360°的全景信息。它包含1 000個在波士頓和新加坡不同天氣下采樣的場景數(shù)據(jù)，每一個場景的時間為20 s。不同于KITTI數(shù)據(jù)集，nuScenes數(shù)據(jù)集還提供不同場景下時續(xù)連續(xù)的樣本。

1.3 Waymo Open Dataset

Waymo Open Dataset（WOD）包含1 000個場景，其中798個場景作為訓練集（包括大約160×103的樣本），202個場景作為驗證集（包括大約40×103的樣本）。

1.4 評價標準

通常，目標檢測領域主要使用準確率（Precision）、召回率（Recall）、平均精確率（Average Precision，AP）、平均精確率均值(mean Average Precision，mAP)以及檢測速度來評價算法的性能。其中，準確率表示全部已識別樣本中正樣本被正確識別為正樣本的比率，召回率表示正樣本中被正確識別為正樣本的比率。分別以召回率和準確率作為橫、縱坐標，可以獲得準確率-召回率曲線(Precision-Recall，P-R)，P-R曲線下的面積就是平均精確率（AP），所有檢測類的平均AP值就是平均精確率均值（mAP）。檢測速度以每秒幀率(Frame Per Second，F(xiàn)PS)來評價，單位為幀/秒，表示每秒處理圖片的數(shù)量，F(xiàn)PS越高，說明模型的檢測速度越快。

1.5 小結

KITTI數(shù)據(jù)集因為提出時間早，在自動駕駛目標檢測領域是非常經(jīng)典和使用最為廣泛的數(shù)據(jù)集。但是該數(shù)據(jù)集也存在沒有時序信息、數(shù)據(jù)量難以滿足要求更高模型等問題。

nuScenes和WOD數(shù)據(jù)集包含了大量不同場景下的點云數(shù)據(jù)，并且包含了時序信息。近年來越來越多的模型采用了這兩個數(shù)據(jù)集。

2 基于點云的3D目標檢測方法

基于點云的3D目標檢測模型通常由點云表示模塊、點云特征提取模塊以及區(qū)域提案模塊三個模塊組成。根據(jù)模型完成檢測所需的步驟，可以分為單階段檢測算法和兩階段檢測算法[4]。對于單階段方法和兩階段方法，又可以根據(jù)在對點云進行處理時所采用的不同策略進行進一步的劃分，接下來將對這些方法進行詳細的討論。

2.1 單階段檢測算法

單階段目標檢測方法就是使用單階段的網(wǎng)絡結構，從原始的點云中獲取特征后，使用這些特征直接進行目標預測并生成3D邊界框。單階段檢測算法通常具有非常高的運行速度，但是在精度上可能并不理想。單階段檢測方法會對原始的點云進行一定的預處理，使得非結構性的原始點云變得更加規(guī)則，便于后續(xù)的骨干網(wǎng)絡提取點云特征。根據(jù)不同的點云預處理方法，可以將單階段檢測方法分為基于體素的方法、基于點的方法、基于圖的方法以及其他方法。

2.1.1 基于體素的檢測算法

基于體素的檢測算法的基本思想是，將原始的點云通過變換后通過體素進行表示，之后通過骨干網(wǎng)絡對體素進行特征提取。例如，在VoxelNet[5]網(wǎng)絡中，原始的點云數(shù)據(jù)首先根據(jù)點云的(X,Y,Z)坐標被劃分為若干體素，對劃分后的點云進行特征編碼，然后生成對應的特征圖，通過在骨干網(wǎng)絡中使用3D卷積對特征圖進行特征提取，最后3D檢測頭將根據(jù)獲得到的特征進行目標預測并生成相應的邊界框。由于點云的稀疏性，為了提高檢測效率，SECOND[6]在VoxelNet[5]網(wǎng)絡的基礎上，在骨干網(wǎng)絡中使用了文獻[7]提出的Sparse Convolution Layer進行特征提取。PointPillars[8]則是在點云表示階段僅根據(jù)點云的(X,Y)坐標進行劃分，將原始的點云劃分為若干點柱，然后使用PointNet[9]網(wǎng)絡來獲取的點柱特征投影到(X,Y)平面，生成偽圖，然后使用2D 卷積神經(jīng)網(wǎng)絡（Convolutional Neural Networks，CNN）對偽圖進行卷積。通過使用2D CNN，該方法在檢測速度上獲得了巨大的提升。TANet[10]網(wǎng)絡將單幀點云以體素表示，并在特征編碼階段加入了注意力機制，獲取了檢測性能的提高。而3D-MAN[11]算法則在PointPillars[8]的基礎上，在多幀點云中加入注意力機制，來提高模型的性能。AFDet[12]算法在PointPillars中加入了無錨框檢測頭，類似地，AFDetV2[13]算法在VoxelNet[5]網(wǎng)絡的基礎上提出了無錨框的檢測方法。VoTr[14]提出了一種體素transformer的方法。MVF[15]對點云采用動態(tài)體素劃分方法，將鳥瞰圖視角（BEV）和透視圖視角（Perspective view）下獲取的點云特征相融合，來豐富點云的特征。

2.1.2 基于點的檢測算法

顧名思義，基于點的檢測算法將直接使用原始的點云作為網(wǎng)絡的輸入并提取出點特征，用于目標檢測。3DSSD[16]提出了一種融合采樣方法，通過Distance-FPS和Feature-FPS代替了傳統(tǒng)的特征傳播層（Feature Propagation layers）從而提高模型的運行效率。之后獲得的特征將作為候選生成層（Candidate Generation layer）的輸入，最后使用無錨框檢測頭生成預測結果。

2.1.3 基于圖的檢測方法

Point-GNN[17]網(wǎng)絡使用圖來表示點云，首先使用體素對點云進行下采樣，利用下采樣后的點云特征作為節(jié)點，通過多層感知機（Multilayer Perceptron，MLP）來提取邊特征并迭代更新節(jié)點的特征，最后利用迭代后獲取的點云特征作為檢測頭的輸入來生成檢測結果。SVGA-Net[18]網(wǎng)絡通過將原始點云劃分為球形體素，然后在體素內部點云和球形體素間分別構建局部和全局圖，并融入注意力機制，來獲取更加豐富的特征表達，從而提升模型的目標檢測性能。

2.1.4 其他方法

因為PointPillars[8]的高效性，3DVID[19]算法在nuScences[2]數(shù)據(jù)集上，對單幀點云獲取點柱特征，然后將每個點柱特征作為圖的節(jié)點構建圖，利用Pillar Message Passing網(wǎng)絡迭代點柱信息，之后將更新的點柱特征送入AST-GRU網(wǎng)絡（空間-時間注意力GRU），使得獲取的點云特征包含了時序信息，從而提高了目標檢測的性能。也有許多文章探索了如何融合不同表示方法的點云特征，來提升模型的檢測性能。如PVGNet[20]方法首先將原始點云劃分為若干體素，之后使用體素特征提取網(wǎng)絡獲取體素特征，之后通過骨干網(wǎng)絡和上采樣網(wǎng)絡將體素特征轉換為BEV特征，同時對于每個非空體素中的點使用MLP來獲取點特征，然后將這三種特征進行融合，融合特征將作為檢測頭的輸入來進行目標檢測。HVPR[21]方法也采用了將點特征和體素特征融合的方法來提高模型目標檢測的性能。因為點云在遠距離物體比近距離物體上更加稀疏，并且大的目標比小的目標包含更多的點云，SRDAN方法[22]針對上述問題提出了一種基于尺度和范圍感知的網(wǎng)絡。LiDAR-Aug算法[23]探討了點云增強算法對于目標檢測模型性能提升的影響。SA-SSD算法[24]針對一階段檢測精度不高的問題，首先將點云數(shù)據(jù)輸入骨干網(wǎng)中并提取出多階段特征，同時在網(wǎng)絡中加入點級監(jiān)督的輔助網(wǎng)絡，使得網(wǎng)絡可以獲取點云結構特征，從而提高檢測精度。

2.2 兩階段檢測算法

兩階段檢測方法是使用第二階段的網(wǎng)絡從第一階段生成的區(qū)域提案中進行更精確的檢測[4]，因此兩階段檢測算法也被稱為基于區(qū)域提案的方法。兩階段檢測方法在運行速度上較慢，但是卻可以獲得相較單階段檢測算法更好的檢測性能。

PointVoxel-RCNN[25]（PV-RCNN）算法首先將點云劃分為若干球形體素，之后使用3D稀疏卷積網(wǎng)絡以及基于PointNet[9]的網(wǎng)絡來提取點云特征。具體來說，體素化的點云將通過3D稀疏卷積網(wǎng)絡生成多尺度的語義信息，并生成3D目標提議。除此之外，通過體素集抽象模塊將把學習到的體素特征編碼為一組關鍵點。最后關鍵點特征將作為keypoint-to-grid ROI abstraction模塊的輸入，來獲得更加豐富的信息。這些信息將被用于優(yōu)化之前生成的3D目標提議，提升檢測的精確度。Centerpoint[26]受到2D目標檢測方法CenterNet[27]的啟發(fā)，對VoxelNet[5]和PointPillars[8]進行了改進，提出了Center heatmap head，該方法取得了很好的檢測性能。Part-A*2[28]由部分感知階段和部分聚合階段組成。部分感知階段使用了帶有稀疏卷積和稀疏反卷積的U-Net[29]網(wǎng)絡來學習點特征，通過點特征來進行預測并生成粗略的內部對象位置。在部分聚合階段將通過RoI(Region of Interest)感知池化對預測階段生成的位置信息進行聚合，從而優(yōu)化3D檢測框。Fast Point R-CNN[30]是一種使用點和體素處理點云的二階段檢測方法。具體來說，原始點云將被體素化，之后使用3D骨干網(wǎng)絡來生成初始的檢測結果；之后使用第一階段生成的檢測框內部的點的特征對檢測框的精度進行提升。Voxel R-CNN[31]首先將點云進行體素化，使用3D卷積對體素進行采樣，之后將3D點云特征轉換為鳥瞰圖，使用2D卷積提取特征并生成一階段的檢測結果。在第二階段時，使用體素RoI池化從3D點云特征中提取RoI特征，最后利用RoI特征來優(yōu)化一階段的檢測結果。STD[32]是一種基于PointNet[9]和PointNet++[33]的方法，首先在提案生成模塊生成球形錨框，在第二階段使用每個點的語義分數(shù)去除冗余的錨框，從而獲得更好的檢測結果。3D IOU-Net[34]使用PointNet++[33]獲取點云特征并生成一階段的提案，在二階段通過IoU對齊操作優(yōu)化一階段的檢測結果。文獻[35]提出了一種實例感知的IoU池化模塊，用于對一階段生成的檢測結果進行優(yōu)化。文獻[36]提出了一種新的局部優(yōu)化網(wǎng)絡，在二階段生成優(yōu)化的預測結果。RSN[37]提出范圍稀疏網(wǎng)絡，首先使用2D卷積從范圍圖（range image）中提取特征，之后使用稀疏卷積從范圍圖的前景點中進一步提取點特征，最后使用稀疏CenterNet[27]來生成3D檢測框。LiDAR R-CNN[38]也提出了一種新的二階段檢測方法。CT3D[39]提出了一種通道級的transformer網(wǎng)絡用于二階段的優(yōu)化。

模型在KITTI測試數(shù)據(jù)集、Waymo Open Dataset驗證數(shù)據(jù)集LEVEL 2和nuScenes測試數(shù)據(jù)集上的目標檢測結果分別如表2、表3、表4所示。

表3 Waymo Open Dataset 驗證數(shù)據(jù)集LEVEL 2目標檢測結果比較

表4 nuScenes測試數(shù)據(jù)集目標檢測結果比較

表2所列數(shù)據(jù)為各方法以運行速度（FPS）以及不同難度下各檢測類的平均精確率（AP）（單位：%）為評價標準，在KITTI測試集上的3D目標檢測結果。

表2 KITTI測試數(shù)據(jù)集上3D目標檢測結果比較

表3中，LEVEL 2表示目標類型為困難或者bbox內的點數(shù)小于5的目標，mAPH在mAP的基礎上增加了角度檢測評價。表中所列數(shù)據(jù)為各方法以mAP和mAPH為評價指標在LEVEL 2驗證集上的檢測結果，單位為%。

表4中，NDS（NuScenes Detection Score）是nuScenes官方給出的評價標準，計算參數(shù)較多，不在本文的討論之中，具體可參見nuScenes官方網(wǎng)站。表中所列數(shù)據(jù)為各方法以mAP和NDS為評價標準，在測試集上的目標檢測結果，單位為%。

2.3 小結

單階段的檢測方法在運行速度上普遍優(yōu)于兩階段的方法，但兩階段的方法在檢測精度上好于單階段方法。

對于現(xiàn)有的3D目標檢測方法而言，在保證運行效率的同時，如何充分利用點云的信息，這仍然是一個亟待解決的問題。

在點云特征提取時，通過引入注意力機制、融合多幀時序特征等方法，能有效地提升3D目標檢測模型的性能。

3 展望

對于基于點云的3D目標檢測任務而言，依靠單一的點云表示方法獲取的點云特征來進行目標檢測的模型，在檢測精度上已經(jīng)難以令人滿意。因此，如何將原始點云使用不同視角、不同表示方法進行采樣，并獲取相應的融合的點云特征，以此來增強模型的檢測性能，是目前如文獻[20]和文獻[21]所采用的思路。另外一種思路如文獻[19]是使用時序信息，將連續(xù)點云幀之間的點云特征相關聯(lián)，在單幀點云的空間特征中融入時序特征，使得點云特征包含豐富的相鄰幀之間的信息，從而提升目標檢測能力。同時這種方法也可以用于跟蹤任務。

因為點云數(shù)據(jù)量有限，人工標注點云數(shù)據(jù)是一項繁重的工作，因此，最近自監(jiān)督和無監(jiān)督的點云目標檢測算法受到了越來越多的關注。如在自監(jiān)督領域，文獻[40]和文獻[41]使用自監(jiān)督方法，在室內目標檢測中取得了較好的效果。而以文獻[42]為代表，探索了自動駕駛場景下，基于自監(jiān)督框架的模型預測幀間點云運動的性能。對于無監(jiān)督算法，文獻[43]和文獻[44]驗證了無監(jiān)督算法對于自動駕駛領域3D目標檢測的有效性，為以后的無監(jiān)督算法提供了思路。

4 結語

3D目標檢測是自動駕駛領域非常重要的研究課題，具有廣泛的應用前景。本文詳細闡述了近年來基于激光雷達點云的3D目標檢測相關的數(shù)據(jù)集、檢測模型等，并對相關領域的發(fā)展方向做出了展望。