余杭
(重慶交通大學(xué)機(jī)電與車輛工程學(xué)院, 重慶 400074)
隨著自動(dòng)駕駛技術(shù)的發(fā)展,2D物體檢測(cè)方法的性能已經(jīng)大幅提高,在KITTI物體檢測(cè)數(shù)據(jù)集[1]上實(shí)現(xiàn)了90%以上的平均精度。2D 方法用于檢測(cè)圖像平面上的對(duì)象,而3D 方法在2D 方法的基礎(chǔ)上,將第三維的深度信息引入到定位和回歸任務(wù)中。然而,在自動(dòng)駕駛車輛的背景下,2D 目標(biāo)檢測(cè)和3D 目標(biāo)檢測(cè)方法之間的性能差距仍然巨大[2]。因此需要進(jìn)一步研究3D目標(biāo)檢測(cè)算法來提升檢測(cè)精度和效率。
近幾年來,各大自動(dòng)駕駛公司開源大型自動(dòng)駕駛數(shù)據(jù)集,推動(dòng)了深度學(xué)習(xí)在3D 場(chǎng)景下的應(yīng)用。深度學(xué)習(xí)模型可以通過卷積神經(jīng)網(wǎng)絡(luò)提取學(xué)習(xí)道路目標(biāo)特征,提升檢測(cè)能力。研究人員通常將點(diǎn)云處理方法分為將點(diǎn)云投影到二維平面和直接進(jìn)行點(diǎn)云處理。投影方法是指將三維空間下的點(diǎn)云特征通過坐標(biāo)變換將其投影到二維平面中,這種方法是當(dāng)前自動(dòng)駕駛車輛3D 目標(biāo)檢測(cè)中最常用的方法,可運(yùn)用成熟的2D目標(biāo)檢測(cè)網(wǎng)絡(luò)進(jìn)行特征提取,最后再將結(jié)果重新映射到三維空間中。投影法因其使用2D 檢測(cè)網(wǎng)絡(luò),具有較高的檢測(cè)效率,但其壓縮了空間信息,在檢測(cè)精度上具有一定的局限性。直接點(diǎn)云處理方法是Qi 等[3]在2017 年首次提出的,直接將點(diǎn)云作為深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的輸入,在大型三維場(chǎng)景下的驗(yàn)證此方法具有較好的表現(xiàn),因此逐漸受到了研究人員的青睞。本文根據(jù)激光雷達(dá)點(diǎn)云處理方式的不同將3D 目標(biāo)檢測(cè)算法分為4大類別:基于體素的方法、基于點(diǎn)的方法、基于體素-點(diǎn)的方法和基于圖像與點(diǎn)云融合的方法。圖1依照時(shí)間順序,梳理近幾年經(jīng)典的3D目標(biāo)檢測(cè)算法,并將其分為單階段檢測(cè)和兩階段檢測(cè)。
基于以上分析,本文對(duì)當(dāng)前已開源的自動(dòng)駕駛數(shù)據(jù)集、3D目標(biāo)檢測(cè)算法以及各類評(píng)價(jià)指標(biāo)進(jìn)行綜述總結(jié)。
為了更加全面地理解感知系統(tǒng)傳感器數(shù)據(jù)采集及其處理原理,本節(jié)主要對(duì)比不同車載傳感器的優(yōu)、劣勢(shì)。
自動(dòng)駕駛車輛通過車載傳感器感知車輛周圍行駛環(huán)境,這些傳感器主要包括相機(jī)、激光雷達(dá)及毫米波雷達(dá)。不同傳感器的數(shù)據(jù)采集功能和優(yōu)缺點(diǎn)如表1所示。
表1 各傳感器功能及優(yōu)缺點(diǎn)對(duì)比
相機(jī)作為自動(dòng)駕駛車輛中成本低且最常見的傳感器,已經(jīng)被各大自動(dòng)駕駛企業(yè)部署在車輛上。相機(jī)具有較高的分辨率,能夠識(shí)別所見物體的顏色、形狀和紋理等,利用采集的信息,通過算法處理可以使自動(dòng)駕駛車輛識(shí)別道路上的障礙物,旨在了解行駛環(huán)境。由于相機(jī)出色的識(shí)別性能,它能夠?qū)Φ缆飞系募t綠燈和交通標(biāo)志進(jìn)行精確地識(shí)別,因此在自動(dòng)駕駛車輛中應(yīng)用廣泛。目前在自動(dòng)駕駛車輛上使用較多的相機(jī)組合形式有以下2種。
(1)單目相機(jī)通過將三維空間下的物體轉(zhuǎn)變到二維平面,利用二維視圖展示物體的形狀和紋理等信息,研究人員利用這類信息完成目標(biāo)檢測(cè)、分類等任務(wù)。但是,單目相機(jī)不能提供深度信息,測(cè)距性能較差。
(2)多目相機(jī)擁有單目相機(jī)的所有功能,在測(cè)距和三維物體檢測(cè)定位上,由于多目相機(jī)具有多個(gè)攝像頭,可以通過匹配算法對(duì)攝像頭進(jìn)行融合并得到稠密的深度圖,這彌補(bǔ)了單目相機(jī)測(cè)距性能差的缺點(diǎn),但是其計(jì)算量大,實(shí)時(shí)性較低。
雷達(dá)通過發(fā)射無線電波去檢測(cè)目標(biāo)并對(duì)其進(jìn)行定位。雷達(dá)可分為激光雷達(dá)、毫米波雷達(dá)等,是自動(dòng)駕駛車輛主要的3D檢測(cè)傳感器。
1.2.1 激光雷達(dá)
激光雷達(dá)(LiDAR)作為自動(dòng)駕駛汽車主要的傳感器之一,主要用于物體的定位感知,根據(jù)掃描形式可分為機(jī)械式激光雷達(dá)、固態(tài)激光雷達(dá)和混合式激光雷達(dá)3大類。
(1)機(jī)械式激光雷達(dá)
在垂直方向上,發(fā)射器能夠以一定頻率發(fā)射多組激光光束,這些光束在接觸到物體后,經(jīng)過漫反射返回到接收器,并且通過發(fā)射器不停地旋轉(zhuǎn)可以實(shí)時(shí)掃描周圍360°的環(huán)境信息。因此,機(jī)械式激光雷達(dá)具有信息掃描快和視野范圍廣的優(yōu)點(diǎn)。但是,其復(fù)雜的機(jī)械式旋轉(zhuǎn)結(jié)構(gòu)長(zhǎng)時(shí)間工作會(huì)導(dǎo)致其精度降低,并且存在價(jià)格昂貴和體積大等缺點(diǎn)。
(2)混合式固態(tài)激光雷達(dá)
機(jī)械式激光雷達(dá)利用發(fā)射器旋轉(zhuǎn)的方式來實(shí)現(xiàn)360°掃描,而混合式固態(tài)激光雷達(dá)則是利用驅(qū)動(dòng)轉(zhuǎn)鏡或棱鏡進(jìn)行掃描。如MEMS掃描鏡,它是由半導(dǎo)體器件組成,在硅基芯片上集成了體積十分微小的微振鏡,其內(nèi)部主要結(jié)構(gòu)是尺寸微小的懸臂梁,反射鏡懸掛在扭桿之間以一個(gè)固定的諧波頻率振蕩,通過微振器的旋轉(zhuǎn)來反射激光的光束,掃描周圍環(huán)境。硅基MEMS微振鏡可控性好,可實(shí)現(xiàn)快速掃描,可媲美高線束雷達(dá)。因此,在相同的點(diǎn)云密度下,混合式固態(tài)激光雷達(dá)與傳統(tǒng)機(jī)械式激光雷達(dá)相比所需激光發(fā)射器更少、體積更小、可靠性更好。
(3)固態(tài)激光雷達(dá)
與機(jī)械式激光雷達(dá)相比,固態(tài)激光雷達(dá)沒有機(jī)械式激光雷達(dá)的內(nèi)部旋轉(zhuǎn)件,外形尺寸大幅減小,成本相對(duì)較低。使用壽命和可靠性較高,符合當(dāng)前自動(dòng)駕駛車輛對(duì)于雷達(dá)的需求。固態(tài)激光雷達(dá)主要有2種技術(shù)路線,分別為光學(xué)相控陣(Optical Parametric Amplification, OPA)和快閃(Flash)。OPA 激光雷達(dá)通過光學(xué)相控陣技術(shù),用多個(gè)光源組成激光束的發(fā)射陣列,通過調(diào)節(jié)發(fā)射陣列中每個(gè)發(fā)射單元的相位差,來控制輸出激光束的方向以達(dá)到對(duì)不同方向的掃描,具有效率高、體積小和易控制等優(yōu)點(diǎn)。但是,其存在制造難度高和探測(cè)距離短的缺點(diǎn)。Flash 固態(tài)激光雷達(dá)采用類似相機(jī)的工作原理,瞬時(shí)發(fā)射一片覆蓋整個(gè)區(qū)域的激光,通過高靈敏接收器記錄場(chǎng)景信息,具有集成度高、掃描速度快和生產(chǎn)量大等優(yōu)點(diǎn)。但是,其探測(cè)距離短、抗干擾能力差、分辨率低。
1.2.2 毫米波雷達(dá)
毫米波雷達(dá)是指以1~10 mm為波段,30~300 GHz為工作頻率的毫米波探測(cè)雷達(dá),通過發(fā)射和接收毫米波來采集物體距離和速度信息,常見的毫米波雷達(dá)有以下3種[32]。
(1)短距毫米波雷達(dá),主要以24 GHz為工作頻率,感知距離小于30 m,但是其探測(cè)角度廣、成本低,可以實(shí)現(xiàn)車身全覆蓋,是當(dāng)前使用最多的毫米波雷達(dá)。
(2)中距毫米波雷達(dá),主要是以77 GHz 為工作頻率,感知距離1~100 m,相比于短距毫米波雷達(dá)可以實(shí)現(xiàn)更高的精度,探測(cè)距離更遠(yuǎn),但是成本也更高,視角較小。適用于自車與前車的測(cè)速和測(cè)距等功能。
(3)長(zhǎng)距毫米波雷達(dá),主要是以77 GHz 為工作頻率,感知距離大于200 m,針對(duì)高速行駛的車輛,長(zhǎng)距毫米波雷達(dá)能夠很快地檢測(cè)前車信息,做到提前預(yù)警,為自動(dòng)駕駛車輛或駕駛員預(yù)留足夠的時(shí)間制動(dòng)或避讓。
自動(dòng)駕駛車輛作為一個(gè)復(fù)雜的系統(tǒng),選擇合適的傳感器組合能夠有效提高環(huán)境感知能力。目前有以下2種主流的傳感器組合方式:基于純視覺和基于激光雷達(dá)、毫米波雷達(dá)以及視覺融合的方案。
(1)特斯拉自動(dòng)駕駛采用純視覺方案,通過多相機(jī)融合的方式來實(shí)現(xiàn)自動(dòng)駕駛車輛的定位感知功能,它在一定程度上規(guī)避了激光雷達(dá)硬件成本高、計(jì)算量大的缺點(diǎn),但是其純視覺的環(huán)境感知系統(tǒng),易受到環(huán)境變化的影響,在強(qiáng)光和昏暗條件下,會(huì)損失感知系統(tǒng)的魯棒性。
(2)谷歌的Waymo與百度的Apollo等公司采用激光雷達(dá)、毫米波雷達(dá)與視覺融合的方案,利用不同傳感器的優(yōu)勢(shì)可以降低環(huán)境變化帶來的影響,具有較高的環(huán)境感知能力,但是其硬件成本也隨之提高,對(duì)于計(jì)算量的需求增大。
基于點(diǎn)云的三維目標(biāo)檢測(cè)技術(shù)可分為基于體素的方法(Voxel-base)、基于點(diǎn)的方法(Point-base)和基于體素-點(diǎn)的方法(Voxel-point base)。
2.1.1 基于體素的方法
采用體素化思想處理點(diǎn)云數(shù)據(jù)是常用的點(diǎn)云數(shù)據(jù)處理方法,是通過輸入的點(diǎn)云數(shù)據(jù)創(chuàng)建一個(gè)三維體素柵格,每個(gè)體素內(nèi)用體素中所有點(diǎn)的重心來近似顯示體素中其他點(diǎn),這樣該體素內(nèi)所有點(diǎn)都用一個(gè)中心點(diǎn)最終表示,減少了原始點(diǎn)云的數(shù)據(jù)量。
基于體素的方法可以利用深度學(xué)習(xí)中卷積神經(jīng)網(wǎng)絡(luò)有效進(jìn)行特征提取并進(jìn)行3D 檢測(cè),具有很高的計(jì)算效率,但其離散化點(diǎn)云的過程使得部分?jǐn)?shù)據(jù)丟失,這導(dǎo)致了部分情況下檢測(cè)精度降低。
Engelcke 等[4]提出了Vote3Deep 算法,首先通過構(gòu)建一種有效的卷積層,采用中心對(duì)稱的投票機(jī)制去處理輸入點(diǎn)云中存在的稀疏問題,然后經(jīng)過修正的線性單元和L1正則去解決CNN堆疊過程中的中間層特征稀疏的問題。由于其在特征提取過程中采用了手工特征的方法使得局部信息不能夠有效的提取。因此,Yin等[5]在2018 年引入了VoxelNet 改善這種情況,如圖2 所示。所提出的模型是一個(gè)通用的3D檢測(cè)網(wǎng)絡(luò),它將特征提取和邊界盒預(yù)測(cè)結(jié)合到一個(gè)單級(jí)、端到端可訓(xùn)練的深度網(wǎng)絡(luò)中,以增強(qiáng)高稀疏點(diǎn)結(jié)構(gòu)的狀態(tài)。為了提取逐點(diǎn)特征以將數(shù)據(jù)區(qū)域劃分為相等的體素,使用了具有體素特征編碼(Voxel Feature Encoding,VFE)層的特征學(xué)習(xí)網(wǎng)絡(luò),但是其使用3D卷積使得計(jì)算復(fù)雜度提高。
圖2 VoxelNet網(wǎng)絡(luò)結(jié)構(gòu)[5]
Yan 等[6]在2018 年提出了second 目標(biāo)檢測(cè)網(wǎng)絡(luò),通過利用3D稀疏卷積來解決VoxelNet[5]中計(jì)算復(fù)雜度高的缺點(diǎn),極大地提高了計(jì)算效率。Deng 等[7]提出了Voxel-RCNN 利用兩階段檢測(cè)思想,通過進(jìn)一步提取Proposal 中的特征進(jìn)行Proposal 的refinement,解決了體素化過程中信息丟失的問題,提高了檢測(cè)精度,但是其檢測(cè)速度較低。Alex等[8]提出了Pointpillar,它利用PointNet[3]來學(xué)習(xí)按垂直列柱組織的點(diǎn)云。然后利用2D 卷積網(wǎng)絡(luò)進(jìn)行特征提取,具有極高的運(yùn)行速度。針對(duì)于體素大小的不同會(huì)導(dǎo)致信息丟失的問題,Xiang等[9]提出了SAPN 網(wǎng)絡(luò),從點(diǎn)云中提取多分辨率支柱級(jí)特征,使檢測(cè)方法更具尺度意識(shí)。其次,使用空間注意力機(jī)制來突出特征圖中的對(duì)象激活。Mao等[10-11]提出的VoTr 是一種基于體素的Transformer 網(wǎng)絡(luò),利用稀疏體素模塊和子流形體素模塊,可以有效地對(duì)空體素和非空體素位置進(jìn)行操作,解決了傳統(tǒng)體素3D檢測(cè)器無法捕獲上下文信息與感受野不足的問題。
2.1.2 基于點(diǎn)的方法
點(diǎn)云格式的數(shù)據(jù)通常是不規(guī)則的,研究人員通常將其轉(zhuǎn)換為規(guī)則的3D體素或者二維圖像。這仍然需要對(duì)數(shù)據(jù)進(jìn)行分類,導(dǎo)致數(shù)據(jù)過于龐大,并導(dǎo)致部分點(diǎn)云信息消失。
為了直接從未處理的點(diǎn)云中的點(diǎn)特征中學(xué)習(xí),Qi等[3]首先提出了PointNet 模型,由2 個(gè)網(wǎng)絡(luò)組成:一個(gè)分類網(wǎng)絡(luò),通過仿射變換矩陣的輸入和特征變換來處理數(shù)據(jù),并將該變換直接應(yīng)用于點(diǎn)的坐標(biāo),然后通過最大池化層進(jìn)行聚合,獲得全局特征。一個(gè)分割網(wǎng)絡(luò),將全局特征與局部特征進(jìn)行拼接,得到點(diǎn)分割并得到評(píng)分結(jié)果。PointNet++[12]基于PointNet 因采樣點(diǎn)不均勻而缺失局部特征問題,通過添加擴(kuò)展結(jié)構(gòu)對(duì)模型進(jìn)行了改進(jìn),它結(jié)合了不同規(guī)模區(qū)域的特征,以響應(yīng)輸入樣本密度的變化。Wu等[13]提出的PointConv具有與PointNet++相似的結(jié)構(gòu),但用PointConv 層取代了PointNet中的結(jié)構(gòu),它使用多層感知機(jī)(Multilayer Perception,MLP)為每個(gè)卷積濾波器近似一個(gè)權(quán)重函數(shù),然后使用密度尺度重新加權(quán)學(xué)習(xí)的權(quán)重函數(shù)。Shi等人提出了兩階段3D目標(biāo)檢測(cè)網(wǎng)絡(luò)PointRCNN[14](見圖3),第一階段將點(diǎn)云分割為前景點(diǎn)和背景,第二階段結(jié)合第一階段每個(gè)點(diǎn)的語義特征,實(shí)現(xiàn)了精確的預(yù)測(cè),但是其實(shí)時(shí)性相對(duì)較差。Yang等[15]提出了3DSSD網(wǎng)絡(luò),它移除了Point-base方法中必須的FP層和細(xì)化模塊,提出了一種新的基于特征距離的融合采樣策略F-FPS,用來保留各類前景實(shí)例中的內(nèi)部點(diǎn),以此來實(shí)現(xiàn)分類和回歸任務(wù)信息的豐富性,并且相比于最先進(jìn)的基于點(diǎn)的方法快了2倍。
圖3 PointRCNN網(wǎng)絡(luò)結(jié)構(gòu)[14]
2.1.3 基于體素-點(diǎn)的方法
通常,基于體素的方法在計(jì)算方面具有很高的效率,但是體素劃分過程中物體劃分不全使得局部信息丟失,導(dǎo)致檢測(cè)精度降低。基于點(diǎn)的方法計(jì)算更為復(fù)雜,但是其能獲得更大的感受野,檢測(cè)精度相對(duì)較高。有學(xué)者結(jié)合二者的優(yōu)點(diǎn)提出了基于體素-點(diǎn)的方法。
Chen等[16]提出的Fast Point R-CNN是一個(gè)兩階段檢測(cè)模型(如圖4)。第一階段通采用了體素化思想使用VFE網(wǎng)絡(luò)將點(diǎn)云進(jìn)行編碼并作為輸入完成3D目標(biāo)預(yù)測(cè)。第二階段,將與原始點(diǎn)云和上下文特征提取合并,并融入注意力機(jī)制以獲取更好的定位信息。Yang等[17]提出了STD 兩階段檢測(cè)模型,它使用原始點(diǎn)云作為輸入,計(jì)算每一個(gè)點(diǎn)并使用球形錨框來生成精確的候選框,與基于體素化思想的候選框柵格特征提取方法相比,它使用較少的計(jì)算量實(shí)現(xiàn)了更高的精度。在第二階段使用并行交叉IoU分支,使得定位精度提高,從而進(jìn)一步提升性能。
圖4 Fast Point R-CNN網(wǎng)絡(luò)結(jié)構(gòu)[16]
Shi 等人提出了PV-RCNN[18]網(wǎng)絡(luò),利用體素到關(guān)鍵點(diǎn)場(chǎng)景編碼與點(diǎn)到網(wǎng)格RoI 特征提取,利用Voxelbased 操作進(jìn)行有效的多尺度信息編碼,生成高質(zhì)量的3D候選框;同時(shí)利用改進(jìn)的SA模塊操作保留精確的位置信息和靈活的感受野。He等[19]提出了SA-SSD網(wǎng)絡(luò),通過預(yù)處理對(duì)點(diǎn)云進(jìn)行體素化,基于backbone學(xué)習(xí)體素特征,并在主干網(wǎng)絡(luò)外通過點(diǎn)監(jiān)督網(wǎng)絡(luò)將各體素特征轉(zhuǎn)換為點(diǎn)特征,通過增加2個(gè)點(diǎn)級(jí)的任務(wù)讓學(xué)習(xí)來的特征能更好地感知位置信息。Miao 等[20]提出了一個(gè)基于點(diǎn)云、體素以及網(wǎng)格特征融合的單階段3D目標(biāo)網(wǎng)絡(luò)PVGNet。該網(wǎng)絡(luò)使用一個(gè)網(wǎng)絡(luò)來對(duì)提取點(diǎn)云、體素和網(wǎng)絡(luò)特征,通過融合不同層的特征可以更好的挖掘點(diǎn)云信息。
基于圖像與點(diǎn)云融合的檢測(cè)方法融合了圖像檢測(cè)中豐富的紋理信息與點(diǎn)云檢測(cè)中的深度信息,紋理信息對(duì)于識(shí)別和分類起著至關(guān)重要的作用,而深度信息可以準(zhǔn)確地定位物體的大小以及位置關(guān)系。通過兩者檢測(cè)信息互補(bǔ),理論上可以達(dá)到更好的檢測(cè)效果。基于融合的方法主要分為順序融合與并行融合2類。
2.2.1 順序融合
這種方法是以順序的方式對(duì)圖像和點(diǎn)云進(jìn)行融合,首先提取圖像特征,然后將圖像特征投影或映射到點(diǎn)云上,最后通過檢測(cè)網(wǎng)絡(luò)輸出檢測(cè)結(jié)果,流程如圖5所示。
圖5 順序融合原理
Qi等[21]提出了F-PointNet網(wǎng)絡(luò)(見圖6),該網(wǎng)絡(luò)利用2D CNN 對(duì)象檢測(cè)器來提出2D 區(qū)域并對(duì)其內(nèi)容進(jìn)行分類。然后將2D 區(qū)域提升到3D,從而成為平截頭體方案。最后,框估計(jì)網(wǎng)絡(luò)估計(jì)對(duì)象的amodal 3D 邊界框,這在一定程度上提升了檢測(cè)精度,但3D對(duì)象檢測(cè)預(yù)測(cè)結(jié)果容易受到從2D圖像獲得的外部依賴性的影響。針對(duì)這一問題,Pei等[21]提出了混合多種特征金字塔網(wǎng)絡(luò)(Mutiple Feature Pyramid Network,MFPN),通過2D 目標(biāo)檢測(cè)網(wǎng)絡(luò)識(shí)別目標(biāo)在RGB 圖像中的位置,然后利用視錐圖將圖像映射到點(diǎn)云中,通過改變視椎體(Frustum)的建議框,將結(jié)果與BEV物體檢測(cè)進(jìn)行比較,并懲罰由于條件造成的漏點(diǎn)以提高準(zhǔn)確性。
圖6 F-PointNet網(wǎng)絡(luò)結(jié)構(gòu)[23]
Anshul 等[23]基于F-PointNet 的思想提出了FPointPillars 網(wǎng)絡(luò),首先將二維檢測(cè)映射到三維邊界截錐體中,并去除截錐體外的點(diǎn)。其次對(duì)于每個(gè)2D 檢測(cè),使用高斯函數(shù)創(chuàng)建一個(gè)掩碼,表示像素屬于對(duì)象的可能性??赡苄灾当煌队暗近c(diǎn)云上,并將整個(gè)3D空間離散化為一個(gè)2D 網(wǎng)格,形成一組支柱。在每個(gè)非空支柱內(nèi)使用PointNet 提取支柱特征,然后將這些特征散回到一個(gè)2D偽圖像中。使用一組卷積和反卷積提取多個(gè)分辨率下的空間特征。最后采用邊界框回歸進(jìn)行檢測(cè)。Vora 等人提出了一種通用的順序融合檢測(cè)方法PointPainting[24],該網(wǎng)絡(luò)通過對(duì)圖像進(jìn)行語義分割得到各類別障礙物分割分?jǐn)?shù),然后將點(diǎn)云投影到分割圖像上融合分割結(jié)果以達(dá)到語義增強(qiáng)的效果,該網(wǎng)絡(luò)對(duì)于小目標(biāo)檢測(cè)有較大的提升。Sindagi 等人提出了MVX-Net[25]融合網(wǎng)絡(luò),使用2D 檢測(cè)網(wǎng)絡(luò)提取圖像語義編碼特征,分別融入到體素點(diǎn)特征上和進(jìn)過VFE 編碼后的體素特征上最后得出3D 檢測(cè)結(jié)果。
2.2.2 并行融合
并行融合是通過對(duì)圖像和點(diǎn)云分別進(jìn)行特征提取,然后對(duì)圖像特征和點(diǎn)云特征進(jìn)行融合,主要有特征融合和目標(biāo)融合2種,如圖7所示。
圖7 并行融合原理
Chen 等[26]提出了MV3D 網(wǎng)絡(luò)(見圖8),通過點(diǎn)云的鳥瞰圖生成3D候選框,再將候選框投影到鳥瞰圖、點(diǎn)云前視圖和圖像上以獲取區(qū)域特征,再將不同的模態(tài)信息進(jìn)行融合得到融合特征,最后用于分類和邊界框回歸,由于其使用了下采樣導(dǎo)致小目標(biāo)信息丟失,使得小目標(biāo)檢測(cè)精度低。針對(duì)這一問題,Ku等[28]提出了AVOD 算法,利用FPN[28]網(wǎng)絡(luò)對(duì)特征進(jìn)行提取得到圖像和BEV 視角下全尺寸特征圖,然后利用1×1 卷積和crop&resize 操作處理并融合特征圖,這在一定程度上改善了小目標(biāo)檢測(cè)的效果,但是其裁剪操作可能使得特征之間存在不對(duì)應(yīng)關(guān)系。針對(duì)這一問題,Liang等[29]提出了MMF 網(wǎng)絡(luò)有2 個(gè)支流,一個(gè)是通過ResNet18[30]提取圖像特征并融合多尺度圖像特征,另一個(gè)支流是通過連續(xù)融合層將多尺度圖像特征融入點(diǎn)云鳥瞰(Bird's Eye View,BEV)特征提取網(wǎng)絡(luò),實(shí)現(xiàn)了多尺度的傳感器融合,最終在BEV空間下生成檢測(cè)結(jié)果。Pang 等人提出了一種高效的低復(fù)雜度融合模型CLOCs[31],該模型首先利用2D 和3D 目標(biāo)檢測(cè)網(wǎng)絡(luò)分別提出各自的候選框,然后通過編碼網(wǎng)絡(luò)將各自的候選框編碼為稀疏張量,最后利用2D 卷積對(duì)非空元素進(jìn)行特征融合并輸出檢測(cè)結(jié)果[32]。
圖8 IoU 計(jì)算原理
圖8 MV3D網(wǎng)絡(luò)結(jié)構(gòu)[26]
在自動(dòng)駕駛中安全性是最重要的要求,所以對(duì)環(huán)境感知算法的研究需要考慮各種各樣的道路環(huán)境,并且在深度學(xué)習(xí)中無論是模型訓(xùn)練還是試驗(yàn)驗(yàn)證都離不開數(shù)據(jù)集,基于這一問題部分科研機(jī)構(gòu)開源了大型自動(dòng)駕駛數(shù)據(jù)集,常用的自動(dòng)駕駛數(shù)據(jù)集如表2所示。
表2 開源數(shù)據(jù)集對(duì)比
(1)KITTI數(shù)據(jù)集
KITTI數(shù)據(jù)集是由德國卡爾斯魯厄理工學(xué)院和豐田美國技術(shù)研究院聯(lián)合創(chuàng)立。它是最早開源的自動(dòng)駕駛數(shù)據(jù)集,使用64線激光雷達(dá)、2個(gè)灰度相機(jī)和2個(gè)彩色相機(jī)采集道路信息,可用于2D/3D檢測(cè)。該數(shù)據(jù)集主要包括城市、鄉(xiāng)村和高速等場(chǎng)景信息。由7481幀標(biāo)注圖片組成訓(xùn)練集和驗(yàn)證集,7518 張圖片組成測(cè)試集,共計(jì)有超過20 萬個(gè)3D 標(biāo)注對(duì)象。主要標(biāo)注物體為人、汽車和騎行者,然后依據(jù)遮擋、遠(yuǎn)近等因素分為簡(jiǎn)單、中等、困難3個(gè)不同等級(jí)供研究人員驗(yàn)證自己的網(wǎng)絡(luò)。
該數(shù)據(jù)集是使用最廣泛的數(shù)據(jù)集,但是數(shù)據(jù)集存在局限性,其標(biāo)注信息依照相機(jī)視角只標(biāo)注了正向90°區(qū)域的目標(biāo),并且全是在視野良好的白天工況,其中大多數(shù)標(biāo)注對(duì)象為汽車,其標(biāo)注信息缺乏多樣性。
(2)Waymo數(shù)據(jù)集
Waymo 數(shù)據(jù)集[33]是谷歌自動(dòng)駕駛公司公布的開源數(shù)據(jù)集,它由5個(gè)雷達(dá)和5個(gè)相機(jī)采集而成,整個(gè)數(shù)據(jù)集分為1000個(gè)訓(xùn)練集和150個(gè)測(cè)試集,每個(gè)場(chǎng)景有20 s標(biāo)注數(shù)據(jù),總計(jì)有超過1200萬個(gè)標(biāo)注信息,其中包含了行人、車輛和路標(biāo)等目標(biāo),并且在每幀之間使用一致的標(biāo)識(shí)符,可以為跟蹤任務(wù)提供基線。
該數(shù)據(jù)集限制激光雷達(dá)數(shù)據(jù)的范圍,并為每個(gè)激光脈沖的前2次返回提供數(shù)據(jù)。相機(jī)圖像是通過滾動(dòng)快門掃描拍攝的,精確的掃描模式可能會(huì)因場(chǎng)景而異。所有相機(jī)圖像都被下采樣并從原始圖像中裁剪,這樣可以獲得更加精確的環(huán)境信息。
(3)NuScenes數(shù)據(jù)集
NuScenes[34]是由Motional 團(tuán)隊(duì)公布的開源數(shù)據(jù)集。由6個(gè)相機(jī)、1個(gè)激光雷達(dá)采集而成,它包括了新加坡和波士頓2個(gè)城市中1000個(gè)不同的駕駛場(chǎng)景,整個(gè)數(shù)據(jù)集分為850 個(gè)訓(xùn)練集和150 個(gè)測(cè)試集,每個(gè)場(chǎng)景有20 s 標(biāo)注數(shù)據(jù),包括不同天氣情況以及道路條件。該數(shù)據(jù)集的標(biāo)注信息包括了汽車、行人、卡車、公交以及交通標(biāo)注等23 種標(biāo)注類別總計(jì)超過140 萬個(gè)標(biāo)注對(duì)象。
相比于KITTI數(shù)據(jù)集,NuScenes的數(shù)據(jù)規(guī)模更大,實(shí)現(xiàn)了360°標(biāo)注,包括不同的天氣和光照等場(chǎng)景,其標(biāo)注信息更具多樣性,并且還提供了人類注釋語義地圖。但是其主要針對(duì)3D目標(biāo)檢測(cè)任務(wù),缺少2D包圍框的標(biāo)注。
(4)ApolloScape數(shù)據(jù)集
ApolloScape 數(shù)據(jù)集[35]是由百度公司開源的大型數(shù)據(jù)集。為了刻畫高細(xì)粒度的靜態(tài)3D 世界,ApolloScape使用Reigl移動(dòng)三維激光掃描儀收集點(diǎn)云。這種方法生成的三維點(diǎn)云要比Velodyne 激光雷達(dá)生成的點(diǎn)云更精確、更稠密。在采集車車頂上安裝有標(biāo)定好的高分辨率相機(jī),以30 幀/s的速率同步記錄采集車周圍的場(chǎng)景。該數(shù)據(jù)集是目前行業(yè)內(nèi)環(huán)境最復(fù)雜、標(biāo)注最精準(zhǔn)、數(shù)據(jù)量最大的自動(dòng)駕駛公開數(shù)據(jù)集。ApolloScape 的標(biāo)注精細(xì)度超過同類型的KITTI、Cityscapes數(shù)據(jù)集。并且Apollo Scape 還使用仿真環(huán)境來標(biāo)注數(shù)據(jù)集,通過模擬虛擬駕駛場(chǎng)景來實(shí)現(xiàn)對(duì)真實(shí)道路的還原,并記錄相關(guān)環(huán)境信息。
該數(shù)據(jù)集是由圖像和稠密點(diǎn)云組成,包含了超過14萬張高清圖像。該數(shù)據(jù)集標(biāo)注了25種類別,包括汽車、行人和交通標(biāo)注等,相比于傳統(tǒng)標(biāo)注信息,該數(shù)據(jù)集標(biāo)注了不同類型的車道線,做到對(duì)場(chǎng)景的全面分析。
(5)Lyft數(shù)據(jù)集
Lyft[36]是由美國自動(dòng)駕駛車隊(duì)公布的開源數(shù)據(jù)集,由20輛搭載了7個(gè)攝像頭和5個(gè)激光雷達(dá)的自動(dòng)駕駛汽車組成的車隊(duì)在加利福尼亞州帕洛阿爾托的一條固定路線上收集的。該數(shù)據(jù)集由170000個(gè)場(chǎng)景組成,每個(gè)場(chǎng)景長(zhǎng)25 s,總計(jì)超過1000 h,捕捉自動(dòng)駕駛系統(tǒng)的感知輸出,該系統(tǒng)對(duì)附近車輛、騎車者和行人隨時(shí)間變化的精確位置和運(yùn)動(dòng)進(jìn)行編碼。除此之外,數(shù)據(jù)集還包含一張高清語義圖,其中包含15242個(gè)標(biāo)記元素和該地區(qū)的高清鳥瞰圖。該數(shù)據(jù)集是可用于訓(xùn)練預(yù)測(cè)和規(guī)劃解決方案的最大、最詳細(xì)的數(shù)據(jù)集。它比目前的最佳替代方案大3倍,而且更具描述性。這種差異會(huì)顯著提高軌跡預(yù)測(cè)和運(yùn)動(dòng)規(guī)劃任務(wù)的性能。
為了對(duì)一個(gè)模型檢測(cè)性能進(jìn)行判斷,常用的評(píng)估方法有模型檢測(cè)速度、目標(biāo)定位精度、目標(biāo)檢測(cè)精度、平均方向相似性4種。
(1)模型檢測(cè)速度,通常采用每秒檢測(cè)幀數(shù)來評(píng)估,通常每秒處理的幀數(shù)越多,模型檢測(cè)的實(shí)時(shí)性能越高。
(2)目標(biāo)定位精度,當(dāng)前常用的方法是通過交并比(IoU)數(shù)值的大小來評(píng)估定位精度,即通過模型檢測(cè)生成的預(yù)測(cè)框與真實(shí)框之間重合度的比值大小,如圖8所示。IoU變化范圍為[0,1],越接近1定位精度越高,計(jì)算公式如式(1)。
式中,D(r)表示在召回率r下所有預(yù)測(cè)為正樣本的集合,表示檢出物體i的預(yù)測(cè)角度與真實(shí)值的差。為
式中,A為預(yù)測(cè)框大?。籅為真實(shí)框大小。
(3)目標(biāo)檢測(cè)精度,通常采用查準(zhǔn)率(precision)與查全率(recall)來評(píng)估檢測(cè)精度,計(jì)算如式(2)、式(3)。
式中,TP為被正確識(shí)別的正樣本;FP為負(fù)樣本但被識(shí)別為正樣本;FN為正樣本但被識(shí)別為負(fù)樣本。
(4)針對(duì)3D目標(biāo)檢測(cè)任務(wù)KITTI數(shù)據(jù)集定義了平均方向相似性(Average Orientation Similarity,AOS)指標(biāo),用于評(píng)價(jià)目標(biāo)航向角的預(yù)測(cè)結(jié)果,定義如式(4)。
式中,r代表物體檢測(cè)的召回率recall。
在因變量r下,方向相似性s∈[0,1]被定義為所有預(yù)測(cè)樣本與ground truth余弦距離的歸一化,如式(5)。了懲罰多個(gè)檢出匹配到同一個(gè)真實(shí)值,如果檢出i已經(jīng)匹配到真實(shí)值(IoU≥50%)設(shè)置δi=1,否則δi=0。
本節(jié)主要分析了主流的自動(dòng)駕駛開源數(shù)據(jù)集。其中KITTI 數(shù)據(jù)集作為開源最早的自動(dòng)駕駛數(shù)據(jù)集,為2D和3D環(huán)境感知技術(shù)的研究提供了巨大的幫助,但是存在標(biāo)注信息的局限性。NuScenes 數(shù)據(jù)集作為3D目標(biāo)檢測(cè)主要的數(shù)據(jù)集具有標(biāo)注多樣性,場(chǎng)景豐富等優(yōu)點(diǎn),可用于復(fù)雜環(huán)境的模擬,但是2D標(biāo)注信息較少,不適用于二維檢測(cè)任務(wù)。Waymo數(shù)據(jù)集是目前最大的自動(dòng)駕駛開源數(shù)據(jù)集,它包含了豐富的2D 和3D標(biāo)注信息,適用于多數(shù)自動(dòng)駕駛場(chǎng)景。ApolloScape是目前為止紋理信息最為精確的數(shù)據(jù)集,并且標(biāo)注了車道線信息,可以適用于全方面的檢測(cè)任務(wù)。Lyft 包含了語義級(jí)別的高清地圖,可以更好地進(jìn)行軌跡跟蹤與預(yù)測(cè)。本節(jié)還分析了模型評(píng)估方法,利用檢測(cè)幀數(shù)分析模型檢測(cè)速度,利用交并比IoU分析模型定位精度,利用查準(zhǔn)率和查全率分析模型檢測(cè)精度以及利用AOS分析模型的航向角預(yù)測(cè)結(jié)果。
三維物體檢測(cè)是自動(dòng)駕駛汽車領(lǐng)域的一項(xiàng)重要任務(wù),本文首先介紹了車載傳感器相關(guān)知識(shí)及應(yīng)用場(chǎng)景,其次綜述了以雷達(dá)信息為主要輸入的三維目標(biāo)識(shí)別技術(shù)和模型,包括基于點(diǎn)云的方法和基于圖像與點(diǎn)云融合的方法?;邳c(diǎn)云方法是一個(gè)具有最佳效果的潛在應(yīng)用領(lǐng)域,但面臨的挑戰(zhàn)是最大限度地降低計(jì)算資源和實(shí)時(shí)應(yīng)用的成本?;谌诤系姆椒ㄔ趯?shí)際應(yīng)用的實(shí)施資源和時(shí)間上都有很大的改進(jìn)潛力,但對(duì)該方法的研究仍然有限。最后針對(duì)自動(dòng)駕駛領(lǐng)域開源的大型數(shù)據(jù)集做了相應(yīng)的總結(jié)分析及3D目標(biāo)檢測(cè)評(píng)價(jià)指標(biāo)的分析,為后續(xù)研究人員提供幫助。
近幾年來,隨著自動(dòng)駕駛技術(shù)的發(fā)展,對(duì)于環(huán)境感知的能力也隨之提高,3D目標(biāo)檢測(cè)作為自動(dòng)駕駛技術(shù)中的關(guān)鍵任務(wù),仍然面臨著許多難題和挑戰(zhàn)。結(jié)合本文綜述內(nèi)容,對(duì)未來可能的研究趨勢(shì)進(jìn)行了分析。
(1)2D視圖法
目前,將雷達(dá)點(diǎn)云處理為2D 鳥瞰圖(BEV)的方法是3D目標(biāo)檢測(cè)領(lǐng)域研究熱點(diǎn)。其主要是通過壓縮空間特征,將3D 目標(biāo)檢測(cè)任務(wù)轉(zhuǎn)換為2D 目標(biāo)檢測(cè),使得檢測(cè)任務(wù)更加簡(jiǎn)單、快速。例如PointPillar[8]基于柱狀的思想將點(diǎn)云壓縮到二維平面,然后利用2D 卷積進(jìn)行運(yùn)算,從而提高處理效率。Complexer-YOLO[37]直接將原始點(diǎn)云壓縮成為2D鳥瞰圖,然后基于2D卷積進(jìn)行運(yùn)算,極大地提高了計(jì)算效率。
(2)多模態(tài)融合法
目前,多模態(tài)融合檢測(cè)是自動(dòng)駕駛車輛上運(yùn)用最為廣泛的方法。其主要是通過對(duì)雷達(dá)與圖像數(shù)據(jù)進(jìn)行對(duì)齊投影,構(gòu)建跨數(shù)據(jù)特征融合,從而獲取更好的檢測(cè)效果。例如BEVFusion[38]分別將圖像特征和雷達(dá)特征進(jìn)行編碼,然后通過共享網(wǎng)絡(luò)進(jìn)行融合,這很大程度上提高了檢測(cè)效率與精度。
在未來的一段時(shí)間內(nèi),自動(dòng)駕駛技術(shù)會(huì)逐漸地趨于成熟,無論是基于視圖的3D 目標(biāo)檢測(cè)還是基于多模態(tài)的3D 目標(biāo)檢測(cè)算法,都能為自動(dòng)駕駛技術(shù)帶來無限的可能性,促進(jìn)自動(dòng)駕駛行業(yè)的發(fā)展。