雷嘉銘,俞 輝,夏 羽,郭杰龍,魏 憲
(1.福州大學(xué) 先進(jìn)制造學(xué)院,福建 泉州 362000;2.中國科學(xué)院海西研究院 泉州裝備制造研究中心,福建 泉州 362000;3.中國科學(xué)院福建物質(zhì)結(jié)構(gòu)研究所,福州 350108;4.上海宇航系統(tǒng)工程研究所,上海 200000)
三維目標(biāo)檢測作為環(huán)境感知的重要手段,在自動駕駛系統(tǒng)中具有重要意義[1-3]。激光雷達(dá)由于具有精度高、分辨率高、抗干擾能力強(qiáng)以及測距范圍廣等特點[4-5],因此在目前大部分的室外三維目標(biāo)檢測方法中作為主要傳感器使用[6]。在自動駕駛應(yīng)用中,為了滿足實時性的要求,大部分方法首先將點云劃分為 規(guī)則的網(wǎng)格,如體素(voxel)[7-8]或點云 柱(pillar)[9],這一過程不僅對龐大的點云數(shù)據(jù)進(jìn)行了降采樣,而且還將不規(guī)則的數(shù)據(jù)轉(zhuǎn)變成規(guī)則的數(shù)據(jù),從而節(jié)省了更多的內(nèi)存和時間[10]。文獻(xiàn)[11-12]提出了PointNet 方法,通過神經(jīng)網(wǎng)絡(luò)直接處理點云,增強(qiáng)了對點云的特征表示能力,為將離散稀疏點云轉(zhuǎn)換為規(guī)則張量形式奠定了基礎(chǔ)。
VoxelNet[7]首先將點云劃分為固定大小的體素,并通過體素特征編碼(Voxel Feature Encoding,VFE)將多個點的信息聚合成一個體素的特征,從而將數(shù)據(jù)從不規(guī)則的形式轉(zhuǎn)變成規(guī)則的張量形式,最后利用三維卷積進(jìn)行特征提取。SECOND[8]同樣將點云變成體素,針對點云體素化后的稀疏問題提出了稀疏卷積,有效改善了三維卷積代價高昂的問題,并在KITTI 數(shù)據(jù)集[13-14]上取得了良好的實時性。不同于上述工作,PointPillars[9]選擇將點云表示成點云柱,并通過映射將點云柱轉(zhuǎn)變?yōu)閭螆D像(pseudo image),回避了耗時的三維卷積而采用速度更快的二維卷積進(jìn)行特征提取,極大地縮短了網(wǎng)絡(luò)檢測時間。基于上述兩種體素化方法,有很多學(xué)者提出了改進(jìn)方案來提升檢測性能。如文獻(xiàn)[15]提出了CenterPoint,與以往基于框的檢測器不同,CenterPoint 中設(shè)計了一個基于中心點的檢測器,同時使用基于點特征的細(xì)化模塊作為網(wǎng)絡(luò)的第二階段,在nuScenes[16]和Waymo[17]數(shù)據(jù)集上取得了良好的結(jié)果。為了探索點云的形狀信息,文獻(xiàn)[18]提出了一種新穎的形狀簽名(shape signature)用于顯式捕捉點云的三維形狀信息,并基于此構(gòu)建了SSN(Shape Signature Network)。
在真實復(fù)雜的駕駛場景中,目標(biāo)的朝向復(fù)雜多樣。例如,將nuScenes 數(shù)據(jù)集的標(biāo)注目標(biāo)按朝向角θ?[-π,π]均勻分成10 個小區(qū)間進(jìn)行數(shù)量統(tǒng)計,每個區(qū)間均有大量的目標(biāo),而且現(xiàn)有的三維目標(biāo)檢測方法在位置估計及朝向預(yù)測上的表現(xiàn)仍有不足。為了提升智能駕駛系統(tǒng)的可靠性和安全性,作為系統(tǒng)環(huán)境感知的重要方式,三維目標(biāo)檢測方法不僅需要準(zhǔn)確識別目標(biāo)位置,還需要具有良好的朝向預(yù)測能力。
為了提高目標(biāo)位置識別和朝向預(yù)測的準(zhǔn)確率,較常用的方法是數(shù)據(jù)增強(qiáng),即在訓(xùn)練時對場景點云進(jìn)行隨機(jī)縮放、旋轉(zhuǎn)等,從而豐富樣本,在一定程度上增強(qiáng)了檢測網(wǎng)絡(luò)的泛化性并提高了其檢測準(zhǔn)確率。然而,數(shù)據(jù)增強(qiáng)的本質(zhì)是增加訓(xùn)練樣本的豐富度以增強(qiáng)網(wǎng)絡(luò)的泛化性能[19],并沒有真正提高檢測網(wǎng)絡(luò)的特征表達(dá)能力及對潛在目標(biāo)的檢測能力。
針對現(xiàn)有三維目標(biāo)檢測方法目標(biāo)位置識別精度不足、朝向預(yù)測偏差較大的問題,本文提出一種基于多方向特征融合的三維目標(biāo)檢測方法。在網(wǎng)絡(luò)初期,該方法建模了點與點之間的距離、夾角等信息,為后續(xù)特征提取與回歸預(yù)測提供豐富的信息。其次,利用新穎的多方向特征融合骨干網(wǎng)絡(luò)進(jìn)行多方向特征提取,融合潛在目標(biāo)多個方向上的特征。最后,在KITTI 和nuScenes 數(shù)據(jù)集上進(jìn)行實驗以驗證本文所提方法的有效性。
本文所提三維目標(biāo)檢測方法整體框架如圖1 所示。該方法以多幀聚合后的激光雷達(dá)點云作為輸入,最終輸出若干個三維預(yù)測框[20],包含物體的位置、尺寸、朝向、速度、類別等信息。其主要結(jié)構(gòu)包括:點間距離、夾角建模的點云數(shù)據(jù)編碼;多方向特征融合骨干網(wǎng)絡(luò),用于對編碼后的點云偽圖像進(jìn)行多方向特征提取;檢測器,基于提取到的特征進(jìn)行回歸與預(yù)測,輸出預(yù)測框。
圖1 三維目標(biāo)檢測方法整體框架Fig.1 Overall framework of 3D object detection method
本文方法的第一部分是對大規(guī)模場景點云進(jìn)行點間距離及夾角建模的點云數(shù)據(jù)編碼,如圖2所示。
圖2 點間距離、夾角建模的點云數(shù)據(jù)編碼Fig.2 Point cloud data encoding for modeling distance and angle between points
該數(shù)據(jù)編碼基于PointPillars 所提的點云柱編碼[9]進(jìn)行修改,并考慮對點與點之間的距離以及夾角信息進(jìn)行建模。激光雷達(dá)能夠提供較精確的全局位置信息(xj,yj,zj),但是缺乏點云規(guī)則化后點間的局部關(guān)系。為了隱式表示點云物體的幾何形狀,對點間距離進(jìn)行建模,將點與點集中心的距離作為補(bǔ)充特征,即,其中表示點云柱內(nèi)點集的平均坐標(biāo)。此外,為了提高網(wǎng)絡(luò)對目標(biāo)朝向的表征能力,對點間夾角進(jìn)行建模,如式(1)所示:
經(jīng)過距離及夾角建模后,mini-PointNet 接收的每個點的輸入如式(2)所示:
其中:[xi,yi,zi,I]為點pi的原始坐標(biāo)和反射強(qiáng)度;[xpi,ypi]為點pi到點云柱中心的距離的含義如上所述。經(jīng)過mini-PointNet,輸入由[N,M,10]變成[N,64],其中,N表示點云柱的最大數(shù)量,M表示每個點云柱內(nèi)點的最大數(shù)量。最后經(jīng)過坐標(biāo)映射得到偽圖像D=[C,H,W],其中,[H,W]表示偽圖像的長寬,與輸入點云范圍以及點云柱的預(yù)設(shè)尺寸有關(guān)。
在數(shù)據(jù)編碼后,稀疏不規(guī)則的點云數(shù)據(jù)轉(zhuǎn)變成規(guī)則的偽圖像?,F(xiàn)有方法大部分利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)對偽圖像進(jìn)行特征提取。然而普通的CNN 在特征提取過程中卷積核保持不變,只能提取到一個方向上的特征,這在面對復(fù)雜的駕駛場景時難以提取豐富的特征信息。因此,為了增強(qiáng)網(wǎng)絡(luò)的特征提取能力,改善三維目標(biāo)檢測方法目標(biāo)位置識別精度不足、朝向預(yù)測偏差較大的問題,本文提出一種多方向特征融合的骨干網(wǎng)絡(luò),該網(wǎng)絡(luò)主要包括2 個結(jié)構(gòu),分別是空間提升層以及多方向卷積層。
1)空間提升層。
空間提升層作為多方向特征融合骨干網(wǎng)絡(luò)的第一部分,對輸入進(jìn)行維度擴(kuò)展,將偽圖像D?X轉(zhuǎn)換到高維空間Y中。定義卷積核Ψ?X,空間提升卷積Ψ?D定義為:
其中:D(p)表示偽圖像D中的某一個像素點p的值;(t,r)表示P4群的元素,即對點p?Z2先進(jìn)行r?C4的旋轉(zhuǎn)然后進(jìn)行t平移。空間提升層如圖3 所示,該層只有一組卷積核,但是在卷積過程中會對卷積核進(jìn)行4 次90°的旋轉(zhuǎn),從而得到4 組特征圖。連接在該層后面的是修改的歸一化層以及ReLU 層,對輸出進(jìn)行歸一化[21]以及ReLU 操作。4 組特征圖構(gòu)成了額外的維度,即偽圖像輸入,經(jīng)過空間提升層后所得輸出為
圖3 空間提升層Fig.3 Space lifting layer
圖4 多方向卷積層Fig.4 Multi-direction convolution layer
為了簡潔表示,令g=(t,r)?C4,可以證明空間提升層滿足旋轉(zhuǎn)等變性[22-23],如式(4)所示:
其中:R 表示旋轉(zhuǎn)變換。
2)多方向卷積層。
經(jīng)過空間提升層后,特征圖y處于高維空間Y中。在空間Y中,P4群中的自然操作滿足式(5):
其中:(p,s)為P4群的元素索引;s={0,1,2,3}表示逆時針旋轉(zhuǎn)s次90°;(t,r)表示對特征圖的平移t和旋轉(zhuǎn)r操作。根據(jù)群理論并結(jié)合上述方程構(gòu)建空間Y上的多方向卷積,如式(6)所示:
相比于普通卷積,多方向卷積層的卷積核權(quán)值能夠在4 個群元素之間共享,提取4 個方向上的特征信息,并且在最后進(jìn)行拼接融合。相比于傳統(tǒng)的卷積操作,其具備更強(qiáng)的特征捕獲和表達(dá)能力。同時,其輸入與輸出維度一致,因此,可以疊加該層獲得深度網(wǎng)絡(luò),以更好地提取特征。
空間提升層和多方向卷積層與普通卷積層的對比如表1 所示。
表1 空間提升層和多方向卷積層與普通卷積層的對比Table 1 Comparison of spatial enhancement layer and multi-direction convolutional layer with ordinary convolutional layer
基于上述2 個結(jié)構(gòu),構(gòu)建一個多方向特征融合骨干網(wǎng)絡(luò),結(jié)構(gòu)如圖5 所示(彩色效果見《計算機(jī)工程》官網(wǎng)HTML 版)。該骨干網(wǎng)絡(luò)首先通過空間提升層將輸入特征圖變換到空間Y中,然后通過疊加多方向卷積層(或多方向反卷積層)進(jìn)行多方向特征提取與融合。
圖5 多方向特征融合骨干網(wǎng)絡(luò)Fig.5 Backbone network for multi-direction features fusion
為了更好地檢測多尺度目標(biāo),本文的骨干網(wǎng)絡(luò)采用了特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)[24]的結(jié)構(gòu),接收x?RC×H×W的偽圖像輸入,經(jīng)過空間提升模塊擴(kuò)展維度x'?R4×C×H×W,然后經(jīng)過連續(xù)多方向卷積模塊分別得到維度(4,C/4,H/2,W/2)、(4,C/2,H/4,W/4)和(4,C,H/8,W/8),各自經(jīng)過上(或下)采樣得到3 個維度為(4,C/2,H/4,W/4)的特征,最終拼接融合得到(6C,H/4,W/4)的特征。
后續(xù)實驗結(jié)果證明了該骨干網(wǎng)絡(luò)能夠明顯提高檢測網(wǎng)絡(luò)對目標(biāo)朝向的預(yù)測準(zhǔn)確率,同時改善位置預(yù)測精度不足的問題。
由于三維場景中目標(biāo)的朝向多種多樣,而且存在較多目標(biāo)朝向與坐標(biāo)軸不是對齊平行的情況,因此,為了更好地表示場景中的目標(biāo)以及配合本文設(shè)計的點云數(shù)據(jù)編碼和多方向特征融合骨干網(wǎng)絡(luò),更準(zhǔn)確地預(yù)測目標(biāo)的朝向,本文算法采用Center-based的檢測頭,即以關(guān)鍵點來表示物體的中心,并預(yù)測朝向、尺寸、速度等屬性。
本文在KITTI 和nuScenes 這2 個公開數(shù)據(jù)集上對所提方法進(jìn)行實驗。
1)KITTI數(shù)據(jù)集包括7 481 個訓(xùn)練樣本和7 518 個測試樣本。本文主要關(guān)注各方法在KITTI 3D 和俯瞰視角(Bird-Eye’s View,BEV)檢測基準(zhǔn)上的平均精度均值(mean Average Precision,mAP)以及平均朝向相似度(Average Orientation Similarity,AOS)。在KITTI 數(shù)據(jù)集中,待檢測的目標(biāo)一共分為汽車、行人和騎行者這3 個類別。
2)nuScenes 數(shù)據(jù)集相比于KITTI 數(shù)據(jù)集在數(shù)據(jù)量以及樣本多樣性上都具有更大的提升,該數(shù)據(jù)集在波士頓和新加坡一共采集了40 000 個關(guān)鍵幀,包含28 130 個訓(xùn)練樣本和6 019 個測試樣本,標(biāo)注的目標(biāo)共有23 類,包括汽車、行人、騎行者、公交車等。在三維目標(biāo)檢測任務(wù)中需要檢測的目標(biāo)為10 類。
對于三維目標(biāo)檢測任務(wù),最常用的評價指標(biāo)是mAP,該指標(biāo)主要考察在BEV 下預(yù)測框與真實框的中心距離。除了評估準(zhǔn)確率外,nuScenes 還會評估檢測網(wǎng)絡(luò)的一系列真陽性指標(biāo)(Ture Positive metrics,TP metrics),包括平均偏移誤差(mATE)、平均尺度誤差(mASE)、平均朝向誤差(mAOE)、平均速度誤差(mAVE)和平均屬性誤差(mAAE),分別評估預(yù)測目標(biāo)與真實目標(biāo)的距離偏差、尺寸偏差、朝向偏差、速度偏差以及分類偏差。上述的TP 指標(biāo)都是在距離閾值d=2 m 下計算得到的。此外,為了綜合考慮平均精度均值和真陽性指標(biāo),nuScenes 提出了NDS(nuScenes Detection Score)指標(biāo),綜合考量網(wǎng)絡(luò)的性能,其計算公式如式(7)所示:
本文在KITTI 和nuScenes 這2 個數(shù)據(jù)集上訓(xùn)練本文所提檢測方法,實驗配置如表2 所示。
表2 實驗配置Table 2 Experimental configuration
2.3.1 位置準(zhǔn)確率分析
對比現(xiàn)有先進(jìn)方法與本文方法在KITTI 和nuScenes 數(shù)據(jù)集中三維目標(biāo)檢測任務(wù)的性能表現(xiàn)。
首先,表3 和表4 分別顯示了3D 視角和BEV 下在KITTI 測試集中對比方法的檢測精度,包括3 類目標(biāo)在中等難度下的AP 以及mAP,最優(yōu)結(jié)果加粗標(biāo)注。從中可以看出,本文方法在3D 視角和俯瞰視角下均取得了最好的精度表現(xiàn),方法整體mAP 分別為64.28%和70.05%。在3D 視角下,Car 類 的mAP 為81.35%,比次優(yōu)的Point-GNN 高出1.25 個百分點。更進(jìn)一步,表5 顯示了各方法在KITTI 驗證集中3D視角和BEV 下的Car 類檢測結(jié)果。從中可以看出,本文方法在3DR11和BEVR11下分別取得了81.40%和88.55%的mAP。在困難難度下,本文方法精度均稍低于Point-GNN,這是因為在困難難度下,目標(biāo)的遮擋和截斷水平較高,Point-GNN 能夠通過Graph 更好地蘊含物體的幾何形狀從而彌補(bǔ)缺失部分形狀,而本文方法依賴于CNN,缺乏一定的幾何特征捕獲能力。而在簡單和中等難度下,由于目標(biāo)相對完整,利用多方向特征融合骨干網(wǎng)絡(luò)能夠更好地提取目標(biāo)位置特征,因此本文方法能夠獲得最好的AP。
表3 KITTI 測試集3D 視角下各方法的AP 對比Table 3 Comparison of AP for various methods from the 3D perspective in the KITTI test set %
表4 KITTI 測試集BEV 下各方法的AP 對比Table 4 Comparison of AP for various methods from the BEV in the KITTI test set %
表5 KITTI 驗證集3D 視角和BEV 下各方法對Car 類的AP(IoU 為0.70)Table 5 The AP of each method on the Car class under the 3D perspective and BEVin the KITTI validation set(IoU is 0.70)%
其次,在nuScenes 數(shù)據(jù)集上進(jìn)行實驗,在表6 中對mAP 和NDS 這2 個衡量方法性能的重要指標(biāo)進(jìn)行分析。表6 共對比了10 類目標(biāo)的AP,依次為汽車、行人、柵欄、交通錐、卡車、公交車、拖車、工程車、摩托車以及騎行者。通過與現(xiàn)有5 種較先進(jìn)的三維目標(biāo)檢測方法對比可以發(fā)現(xiàn),本文所提方法在汽車、行人等8 個類別中均取得了最好的AP 表現(xiàn),這得益于多方向特征融合骨干網(wǎng)絡(luò)能夠提取并融合4 個方向上的特征,比以往的骨干網(wǎng)絡(luò)更具有特征捕獲和表達(dá)能力,從而提高了對潛在目標(biāo)的識別精度。此外,本文方法取得了50.2%的mAP 以及60.3 的NDS,均比現(xiàn)有方法更高。結(jié)果充分表明了本文方法的有效性,該方法不僅能更精確地預(yù)測目標(biāo)位置,而且在各項TP 指標(biāo)中都有明顯提升。
表6 nuScenes 驗證集中各類別的AP 以及各方法的mAP 和NDSTable 6 The AP of each category and mAP and NDS of each method in the nuScenes validation set
2.3.2 朝向準(zhǔn)確率分析
為了驗證本文所提方法在目標(biāo)朝向預(yù)測方面的性能,同樣在KITTI驗證集和nuScenes驗證集上進(jìn)行實驗。
KITTI 驗證集上3 類目標(biāo)的平均朝向相似度(AOS)如表7 所示。從表7 可以看出,本文方法在Car和Pedestrian 類中取得了最好的結(jié)果,其中Pedestrian類的平均AOS 比SECOND 高出3.05 個百分點。良好的AOS 結(jié)果得益于本文方法中的數(shù)據(jù)編碼以及多方向特征融合骨干網(wǎng)絡(luò),點間距離、夾角建模的數(shù)據(jù)編碼能夠提取局部區(qū)域點云的幾何信息,為朝向預(yù)測提供有效信息,而多方向特征融合骨干網(wǎng)絡(luò)利用多方向卷積能夠充分提取相對大區(qū)域的綜合特征。
表7 KITTI 驗證集中各類別的AOSTable 7 AOS of each category in the KITTI validation set %
表8 進(jìn)一步在nuScenes驗證集中對比具有朝向?qū)傩缘? 個類別目標(biāo)的AOE 以及整體指標(biāo)mAOE。由表8 可知,與現(xiàn)有方法相比,在大部分類別目標(biāo)中本文方法都取得了最好的AOE結(jié)果,其中汽車、卡車及工程車類中下降較為明顯,由于這些類別目標(biāo)的尺寸較大,本文方法通過多方向特征融合骨干網(wǎng)絡(luò)能夠從4 個方向上對潛在目標(biāo)的特征進(jìn)行提取,豐富位置、朝向等信息,從而獲得更低的朝向誤差。此外,本文方法的mAOE 指標(biāo)相比次優(yōu)的CenterPoint 降低了7%,該結(jié)果表明本文方法在目標(biāo)朝向預(yù)測方面具有明顯優(yōu)勢,多方向特征融合骨干網(wǎng)絡(luò)能夠充分捕獲目標(biāo)朝向信息,增強(qiáng)網(wǎng)絡(luò)對朝向的預(yù)測性能,進(jìn)而提升方法的應(yīng)用表現(xiàn)。
表8 nuScenes 驗證集中各類別的AOE 以及各方法的mAOETable 8 The AOE of each category and mAOE of each method in the nuScenes validation set
2.3.3 消融實驗
為了探究點間距離、夾角建模的數(shù)據(jù)編碼(DAM-Encoding)與多方向特征融合骨干網(wǎng)絡(luò)(MFF-Backbone)對本文所提檢測方法性能的影響,在nuScenes 驗證集上進(jìn)行相關(guān)的消融實驗,結(jié)果如表9 所示。
表9 DAM-Encoding 和MFF-Backbone 對本文方法的性能影響Table 9 The performance impact of DAM-Encoding and MFF-Backbone on the method proposed in this paper
由表9 可以看出,不論是距離、夾角建模的數(shù)據(jù)編碼還是多方向特征融合骨干網(wǎng)絡(luò),對于NDS、mAP 以及mAOE 指標(biāo)均有幫助。對比實驗組2 和3可以看出,相比于DAM-Encoding,MFF-Backbone能更明顯地降低平均朝向誤差(mAOE 由0.403 3 下降到0.369 5),這證明了多方向卷積在預(yù)測物體朝向上的有效性。此外,由實驗組4 的結(jié)果可以看到,基于DAM-Encoding 和MFF-Backbone 的本文方法取得了最好的性能表現(xiàn),原因主要有:DAMEncoding 不僅建模了點間的距離信息,而且提供了角度信息,為潛在目標(biāo)的位置和朝向預(yù)測提供了豐富信息;MFF-Backbone 能夠提取并融合多方向特征信息,更加豐富了潛在目標(biāo)的信息。這2 個模塊都不同程度地增強(qiáng)了網(wǎng)絡(luò)的特征表達(dá)能力,從而提升了整體性能。
2.3.4 泛化性分析
為了探究DAM-Encoding 和MFF-Backbone 這2 個模塊的泛化性,在nuScenes 驗證集上進(jìn)一步進(jìn)行泛化性對比實驗。實驗基于目前比較常見的三維目標(biāo)檢測方法,在保持骨干網(wǎng)絡(luò)輸入和輸出尺寸、通道數(shù)一致的條件下,比較原方法與替換DAM-Encoding和MFF-Backbone 后的方法的性能,對比NDS、mAP以及mAOE 指標(biāo),實驗結(jié)果如表10 所示。泛化性實驗對比 了PointPillars、SSN、Free-anchor3d 以 及CenterPoint 這4 種方法。由表10 可以看出,替換DAM-Encoding 和MFF-Backbone 后各方法的3 項 指標(biāo)均得到了明顯優(yōu)化,這充分表明了所提模塊的泛化性,能夠提升檢測方法的性能。
表10 泛化性實驗結(jié)果Table 10 The results of generality experiment
表11 檢測方法的推理速度和參數(shù)量對比Table 11 Comparison of inference speed and parameter quantity of detection methods
2.3.5 實時性和參數(shù)量分析
如 表 11 所 示,在 nuScenes 驗證集上對PointPillars、SSN、Free-anchor3d 和CenterPoint 方 法替換MFF-Backbone 前后的推理速度和參數(shù)量進(jìn)行對比分析(保持骨干網(wǎng)絡(luò)的輸入和輸出尺寸、通道數(shù)相同)??梢钥吹?,替換后推理速度均有稍微下降(平均降低0.9 sample/s),但是參數(shù)量明顯降低,平均減少64%。結(jié)合表10 可知,盡管網(wǎng)絡(luò)的參數(shù)量大幅降低,但是其性能卻得到了提升。
2.3.6 可視化分析
對本文所提方法以及對比方法的檢測結(jié)果在nuScenes 數(shù)據(jù)集上進(jìn)行俯視視角的可視化分析,可視化限定x軸和y軸范圍均為[-40 m,40 m],可視化結(jié)果如圖6 所示,每個場景中左邊是本文方法結(jié)果,右邊為對比方法結(jié)果,圖中藍(lán)色框表示真實框(待檢測目標(biāo)),綠色框則為方法的預(yù)測輸出框,框內(nèi)的直線表示目標(biāo)的前進(jìn)方向(彩色效果見《計算機(jī)工程》官網(wǎng)HTML 版)。從圖6(a)和圖6(b)可以看出,本文所提方法的預(yù)測框更加接近真實框,不僅位置偏差更小,而且朝向也更準(zhǔn)確,這得益于點云數(shù)據(jù)編碼所彌補(bǔ)的距離、角度信息,以及多方向特征融合骨干網(wǎng)絡(luò)在特征提取方面強(qiáng)大的能力,能夠為回歸預(yù)測提供豐富的信息。同時,從圖6 也可以看出,本文方法能夠有效改善漏檢和誤檢的情況。
圖6 可視化結(jié)果Fig.6 Visualization results
在自動駕駛的環(huán)境感知系統(tǒng)中,三維目標(biāo)檢測方法需要準(zhǔn)確估計潛在目標(biāo)的位置和朝向,這對于其在真實駕駛場景中的應(yīng)用十分重要。但是,現(xiàn)有方法通常存在對目標(biāo)位置估計精度不足、朝向預(yù)測偏差較大的問題。為此,本文提出一種基于多方向特征融合的三維目標(biāo)檢測方法,該方法的核心包含點間距離、夾角建模的點云數(shù)據(jù)編碼和多方向特征融合骨干網(wǎng)絡(luò)。點間距離、夾角建??梢詮浹a(bǔ)位置、朝向等信息。多方向特征融合骨干網(wǎng)絡(luò)基于多方向卷積,能夠在4 個方向上進(jìn)行特征提取,具備更強(qiáng)的特征表達(dá)能力。實驗結(jié)果表明,相較對比方法,該方法在KITTI 和nuScenes 數(shù)據(jù)集上不僅取得了最好的mAP,而且在朝向預(yù)測方面也獲得了最好的AOS 以及mAOE 結(jié)果,充分驗證了這2 個核心模塊的有效性,不僅可以提升位置識別精度,而且可以提高朝向預(yù)測準(zhǔn)確度。
本文所提多方向特征融合骨干網(wǎng)絡(luò)滿足旋轉(zhuǎn)等變性,能夠提取豐富特征,但是數(shù)據(jù)編碼部分不滿足旋轉(zhuǎn)等變性。因此,下一步將基于網(wǎng)絡(luò)等變性設(shè)計數(shù)據(jù)編碼模塊,結(jié)合多方向特征融合骨干網(wǎng)絡(luò),設(shè)計一種針對室外三維點云目標(biāo)檢測的雙等變網(wǎng)絡(luò),進(jìn)一步提高定位精度和方法的應(yīng)用性能。