亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多方向特征融合的室外三維目標(biāo)檢測方法

2023-11-18 03:32:54雷嘉銘郭杰龍

計算機(jī)工程 2023年11期

雷嘉銘，俞輝，夏羽，郭杰龍，魏憲

（1.福州大學(xué) 先進(jìn)制造學(xué)院，福建泉州 362000；2.中國科學(xué)院海西研究院泉州裝備制造研究中心，福建泉州 362000；3.中國科學(xué)院福建物質(zhì)結(jié)構(gòu)研究所，福州 350108；4.上海宇航系統(tǒng)工程研究所，上海 200000）

0 概述

三維目標(biāo)檢測作為環(huán)境感知的重要手段，在自動駕駛系統(tǒng)中具有重要意義［1-3］。激光雷達(dá)由于具有精度高、分辨率高、抗干擾能力強(qiáng)以及測距范圍廣等特點［4-5］，因此在目前大部分的室外三維目標(biāo)檢測方法中作為主要傳感器使用［6］。在自動駕駛應(yīng)用中，為了滿足實時性的要求，大部分方法首先將點云劃分為規(guī)則的網(wǎng)格，如體素（voxel）［7-8］或點云柱（pillar）［9］，這一過程不僅對龐大的點云數(shù)據(jù)進(jìn)行了降采樣，而且還將不規(guī)則的數(shù)據(jù)轉(zhuǎn)變成規(guī)則的數(shù)據(jù)，從而節(jié)省了更多的內(nèi)存和時間［10］。文獻(xiàn)［11-12］提出了PointNet 方法，通過神經(jīng)網(wǎng)絡(luò)直接處理點云，增強(qiáng)了對點云的特征表示能力，為將離散稀疏點云轉(zhuǎn)換為規(guī)則張量形式奠定了基礎(chǔ)。

VoxelNet［7］首先將點云劃分為固定大小的體素，并通過體素特征編碼（Voxel Feature Encoding，VFE）將多個點的信息聚合成一個體素的特征，從而將數(shù)據(jù)從不規(guī)則的形式轉(zhuǎn)變成規(guī)則的張量形式，最后利用三維卷積進(jìn)行特征提取。SECOND［8］同樣將點云變成體素，針對點云體素化后的稀疏問題提出了稀疏卷積，有效改善了三維卷積代價高昂的問題，并在KITTI 數(shù)據(jù)集［13-14］上取得了良好的實時性。不同于上述工作，PointPillars［9］選擇將點云表示成點云柱，并通過映射將點云柱轉(zhuǎn)變?yōu)閭螆D像（pseudo image），回避了耗時的三維卷積而采用速度更快的二維卷積進(jìn)行特征提取，極大地縮短了網(wǎng)絡(luò)檢測時間。基于上述兩種體素化方法，有很多學(xué)者提出了改進(jìn)方案來提升檢測性能。如文獻(xiàn)［15］提出了CenterPoint，與以往基于框的檢測器不同，CenterPoint 中設(shè)計了一個基于中心點的檢測器，同時使用基于點特征的細(xì)化模塊作為網(wǎng)絡(luò)的第二階段，在nuScenes［16］和Waymo［17］數(shù)據(jù)集上取得了良好的結(jié)果。為了探索點云的形狀信息，文獻(xiàn)［18］提出了一種新穎的形狀簽名（shape signature）用于顯式捕捉點云的三維形狀信息，并基于此構(gòu)建了SSN（Shape Signature Network）。

在真實復(fù)雜的駕駛場景中，目標(biāo)的朝向復(fù)雜多樣。例如，將nuScenes 數(shù)據(jù)集的標(biāo)注目標(biāo)按朝向角θ?[-π,π]均勻分成10 個小區(qū)間進(jìn)行數(shù)量統(tǒng)計，每個區(qū)間均有大量的目標(biāo)，而且現(xiàn)有的三維目標(biāo)檢測方法在位置估計及朝向預(yù)測上的表現(xiàn)仍有不足。為了提升智能駕駛系統(tǒng)的可靠性和安全性，作為系統(tǒng)環(huán)境感知的重要方式，三維目標(biāo)檢測方法不僅需要準(zhǔn)確識別目標(biāo)位置，還需要具有良好的朝向預(yù)測能力。

為了提高目標(biāo)位置識別和朝向預(yù)測的準(zhǔn)確率，較常用的方法是數(shù)據(jù)增強(qiáng)，即在訓(xùn)練時對場景點云進(jìn)行隨機(jī)縮放、旋轉(zhuǎn)等，從而豐富樣本，在一定程度上增強(qiáng)了檢測網(wǎng)絡(luò)的泛化性并提高了其檢測準(zhǔn)確率。然而，數(shù)據(jù)增強(qiáng)的本質(zhì)是增加訓(xùn)練樣本的豐富度以增強(qiáng)網(wǎng)絡(luò)的泛化性能［19］，并沒有真正提高檢測網(wǎng)絡(luò)的特征表達(dá)能力及對潛在目標(biāo)的檢測能力。

針對現(xiàn)有三維目標(biāo)檢測方法目標(biāo)位置識別精度不足、朝向預(yù)測偏差較大的問題，本文提出一種基于多方向特征融合的三維目標(biāo)檢測方法。在網(wǎng)絡(luò)初期，該方法建模了點與點之間的距離、夾角等信息，為后續(xù)特征提取與回歸預(yù)測提供豐富的信息。其次，利用新穎的多方向特征融合骨干網(wǎng)絡(luò)進(jìn)行多方向特征提取，融合潛在目標(biāo)多個方向上的特征。最后，在KITTI 和nuScenes 數(shù)據(jù)集上進(jìn)行實驗以驗證本文所提方法的有效性。

1 基于多方向特征融合的三維目標(biāo)檢測方法

本文所提三維目標(biāo)檢測方法整體框架如圖1 所示。該方法以多幀聚合后的激光雷達(dá)點云作為輸入，最終輸出若干個三維預(yù)測框［20］，包含物體的位置、尺寸、朝向、速度、類別等信息。其主要結(jié)構(gòu)包括：點間距離、夾角建模的點云數(shù)據(jù)編碼；多方向特征融合骨干網(wǎng)絡(luò)，用于對編碼后的點云偽圖像進(jìn)行多方向特征提取；檢測器，基于提取到的特征進(jìn)行回歸與預(yù)測，輸出預(yù)測框。

圖1 三維目標(biāo)檢測方法整體框架Fig.1 Overall framework of 3D object detection method

1.1 點間距離、夾角建模的點云數(shù)據(jù)編碼

本文方法的第一部分是對大規(guī)模場景點云進(jìn)行點間距離及夾角建模的點云數(shù)據(jù)編碼，如圖2所示。

圖2 點間距離、夾角建模的點云數(shù)據(jù)編碼Fig.2 Point cloud data encoding for modeling distance and angle between points

該數(shù)據(jù)編碼基于PointPillars 所提的點云柱編碼［9］進(jìn)行修改，并考慮對點與點之間的距離以及夾角信息進(jìn)行建模。激光雷達(dá)能夠提供較精確的全局位置信息(xj,yj,zj)，但是缺乏點云規(guī)則化后點間的局部關(guān)系。為了隱式表示點云物體的幾何形狀，對點間距離進(jìn)行建模，將點與點集中心的距離作為補(bǔ)充特征，即，其中表示點云柱內(nèi)點集的平均坐標(biāo)。此外，為了提高網(wǎng)絡(luò)對目標(biāo)朝向的表征能力，對點間夾角進(jìn)行建模，如式（1）所示：

經(jīng)過距離及夾角建模后，mini-PointNet 接收的每個點的輸入如式（2）所示：

其中：[xi,yi,zi,I]為點pi的原始坐標(biāo)和反射強(qiáng)度；[xpi,ypi]為點pi到點云柱中心的距離的含義如上所述。經(jīng)過mini-PointNet，輸入由[N,M,10]變成[N,64]，其中，N表示點云柱的最大數(shù)量，M表示每個點云柱內(nèi)點的最大數(shù)量。最后經(jīng)過坐標(biāo)映射得到偽圖像D=[C,H,W]，其中，[H,W]表示偽圖像的長寬，與輸入點云范圍以及點云柱的預(yù)設(shè)尺寸有關(guān)。

1.2 多方向特征融合骨干網(wǎng)絡(luò)

在數(shù)據(jù)編碼后，稀疏不規(guī)則的點云數(shù)據(jù)轉(zhuǎn)變成規(guī)則的偽圖像?，F(xiàn)有方法大部分利用卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）對偽圖像進(jìn)行特征提取。然而普通的CNN 在特征提取過程中卷積核保持不變，只能提取到一個方向上的特征，這在面對復(fù)雜的駕駛場景時難以提取豐富的特征信息。因此，為了增強(qiáng)網(wǎng)絡(luò)的特征提取能力，改善三維目標(biāo)檢測方法目標(biāo)位置識別精度不足、朝向預(yù)測偏差較大的問題，本文提出一種多方向特征融合的骨干網(wǎng)絡(luò)，該網(wǎng)絡(luò)主要包括2 個結(jié)構(gòu)，分別是空間提升層以及多方向卷積層。

1）空間提升層。

空間提升層作為多方向特征融合骨干網(wǎng)絡(luò)的第一部分，對輸入進(jìn)行維度擴(kuò)展，將偽圖像D?X轉(zhuǎn)換到高維空間Y中。定義卷積核Ψ?X，空間提升卷積Ψ?D定義為：

其中：D(p)表示偽圖像D中的某一個像素點p的值；(t,r)表示P4群的元素，即對點p?Z2先進(jìn)行r?C4的旋轉(zhuǎn)然后進(jìn)行t平移。空間提升層如圖3 所示，該層只有一組卷積核，但是在卷積過程中會對卷積核進(jìn)行4 次90°的旋轉(zhuǎn)，從而得到4 組特征圖。連接在該層后面的是修改的歸一化層以及ReLU 層，對輸出進(jìn)行歸一化［21］以及ReLU 操作。4 組特征圖構(gòu)成了額外的維度，即偽圖像輸入，經(jīng)過空間提升層后所得輸出為

圖3 空間提升層Fig.3 Space lifting layer

圖4 多方向卷積層Fig.4 Multi-direction convolution layer

為了簡潔表示，令g=(t,r)?C4，可以證明空間提升層滿足旋轉(zhuǎn)等變性［22-23］，如式（4）所示：

其中：R 表示旋轉(zhuǎn)變換。

2）多方向卷積層。

經(jīng)過空間提升層后，特征圖y處于高維空間Y中。在空間Y中，P4群中的自然操作滿足式（5）：

其中：(p,s)為P4群的元素索引；s={0,1,2,3}表示逆時針旋轉(zhuǎn)s次90°；(t,r)表示對特征圖的平移t和旋轉(zhuǎn)r操作。根據(jù)群理論并結(jié)合上述方程構(gòu)建空間Y上的多方向卷積，如式（6）所示：

相比于普通卷積，多方向卷積層的卷積核權(quán)值能夠在4 個群元素之間共享，提取4 個方向上的特征信息，并且在最后進(jìn)行拼接融合。相比于傳統(tǒng)的卷積操作，其具備更強(qiáng)的特征捕獲和表達(dá)能力。同時，其輸入與輸出維度一致，因此，可以疊加該層獲得深度網(wǎng)絡(luò)，以更好地提取特征。

空間提升層和多方向卷積層與普通卷積層的對比如表1 所示。

表1 空間提升層和多方向卷積層與普通卷積層的對比Table 1 Comparison of spatial enhancement layer and multi-direction convolutional layer with ordinary convolutional layer

基于上述2 個結(jié)構(gòu)，構(gòu)建一個多方向特征融合骨干網(wǎng)絡(luò)，結(jié)構(gòu)如圖5 所示（彩色效果見《計算機(jī)工程》官網(wǎng)HTML 版）。該骨干網(wǎng)絡(luò)首先通過空間提升層將輸入特征圖變換到空間Y中，然后通過疊加多方向卷積層（或多方向反卷積層）進(jìn)行多方向特征提取與融合。

圖5 多方向特征融合骨干網(wǎng)絡(luò)Fig.5 Backbone network for multi-direction features fusion

為了更好地檢測多尺度目標(biāo)，本文的骨干網(wǎng)絡(luò)采用了特征金字塔網(wǎng)絡(luò)（Feature Pyramid Network，F(xiàn)PN）［24］的結(jié)構(gòu)，接收x?RC×H×W的偽圖像輸入，經(jīng)過空間提升模塊擴(kuò)展維度x'?R4×C×H×W，然后經(jīng)過連續(xù)多方向卷積模塊分別得到維度（4，C/4，H/2，W/2）、（4，C/2，H/4，W/4）和（4，C，H/8，W/8），各自經(jīng)過上（或下）采樣得到3 個維度為（4，C/2，H/4，W/4）的特征，最終拼接融合得到（6C，H/4，W/4）的特征。

后續(xù)實驗結(jié)果證明了該骨干網(wǎng)絡(luò)能夠明顯提高檢測網(wǎng)絡(luò)對目標(biāo)朝向的預(yù)測準(zhǔn)確率，同時改善位置預(yù)測精度不足的問題。

1.3 Center-based 檢測器

由于三維場景中目標(biāo)的朝向多種多樣，而且存在較多目標(biāo)朝向與坐標(biāo)軸不是對齊平行的情況，因此，為了更好地表示場景中的目標(biāo)以及配合本文設(shè)計的點云數(shù)據(jù)編碼和多方向特征融合骨干網(wǎng)絡(luò)，更準(zhǔn)確地預(yù)測目標(biāo)的朝向，本文算法采用Center-based的檢測頭，即以關(guān)鍵點來表示物體的中心，并預(yù)測朝向、尺寸、速度等屬性。

2 實驗及分析

2.1 數(shù)據(jù)集以及評價指標(biāo)

本文在KITTI 和nuScenes 這2 個公開數(shù)據(jù)集上對所提方法進(jìn)行實驗。

1）KITTI數(shù)據(jù)集包括7 481 個訓(xùn)練樣本和7 518 個測試樣本。本文主要關(guān)注各方法在KITTI 3D 和俯瞰視角（Bird-Eye’s View，BEV）檢測基準(zhǔn)上的平均精度均值（mean Average Precision，mAP）以及平均朝向相似度（Average Orientation Similarity，AOS）。在KITTI 數(shù)據(jù)集中，待檢測的目標(biāo)一共分為汽車、行人和騎行者這3 個類別。

2）nuScenes 數(shù)據(jù)集相比于KITTI 數(shù)據(jù)集在數(shù)據(jù)量以及樣本多樣性上都具有更大的提升，該數(shù)據(jù)集在波士頓和新加坡一共采集了40 000 個關(guān)鍵幀，包含28 130 個訓(xùn)練樣本和6 019 個測試樣本，標(biāo)注的目標(biāo)共有23 類，包括汽車、行人、騎行者、公交車等。在三維目標(biāo)檢測任務(wù)中需要檢測的目標(biāo)為10 類。

對于三維目標(biāo)檢測任務(wù)，最常用的評價指標(biāo)是mAP，該指標(biāo)主要考察在BEV 下預(yù)測框與真實框的中心距離。除了評估準(zhǔn)確率外，nuScenes 還會評估檢測網(wǎng)絡(luò)的一系列真陽性指標(biāo)（Ture Positive metrics，TP metrics），包括平均偏移誤差（mATE）、平均尺度誤差（mASE）、平均朝向誤差（mAOE）、平均速度誤差（mAVE）和平均屬性誤差（mAAE），分別評估預(yù)測目標(biāo)與真實目標(biāo)的距離偏差、尺寸偏差、朝向偏差、速度偏差以及分類偏差。上述的TP 指標(biāo)都是在距離閾值d=2 m 下計算得到的。此外，為了綜合考慮平均精度均值和真陽性指標(biāo)，nuScenes 提出了NDS（nuScenes Detection Score）指標(biāo)，綜合考量網(wǎng)絡(luò)的性能，其計算公式如式（7）所示：

2.2 實驗配置

本文在KITTI 和nuScenes 這2 個數(shù)據(jù)集上訓(xùn)練本文所提檢測方法，實驗配置如表2 所示。

表2 實驗配置Table 2 Experimental configuration

2.3 實驗結(jié)果

2.3.1 位置準(zhǔn)確率分析

對比現(xiàn)有先進(jìn)方法與本文方法在KITTI 和nuScenes 數(shù)據(jù)集中三維目標(biāo)檢測任務(wù)的性能表現(xiàn)。

首先，表3 和表4 分別顯示了3D 視角和BEV 下在KITTI 測試集中對比方法的檢測精度，包括3 類目標(biāo)在中等難度下的AP 以及mAP，最優(yōu)結(jié)果加粗標(biāo)注。從中可以看出，本文方法在3D 視角和俯瞰視角下均取得了最好的精度表現(xiàn)，方法整體mAP 分別為64.28%和70.05%。在3D 視角下，Car 類的mAP 為81.35%，比次優(yōu)的Point-GNN 高出1.25 個百分點。更進(jìn)一步，表5 顯示了各方法在KITTI 驗證集中3D視角和BEV 下的Car 類檢測結(jié)果。從中可以看出，本文方法在3DR11和BEVR11下分別取得了81.40%和88.55%的mAP。在困難難度下，本文方法精度均稍低于Point-GNN，這是因為在困難難度下，目標(biāo)的遮擋和截斷水平較高，Point-GNN 能夠通過Graph 更好地蘊含物體的幾何形狀從而彌補(bǔ)缺失部分形狀，而本文方法依賴于CNN，缺乏一定的幾何特征捕獲能力。而在簡單和中等難度下，由于目標(biāo)相對完整，利用多方向特征融合骨干網(wǎng)絡(luò)能夠更好地提取目標(biāo)位置特征，因此本文方法能夠獲得最好的AP。

表3 KITTI 測試集3D 視角下各方法的AP 對比Table 3 Comparison of AP for various methods from the 3D perspective in the KITTI test set %

表4 KITTI 測試集BEV 下各方法的AP 對比Table 4 Comparison of AP for various methods from the BEV in the KITTI test set %

表5 KITTI 驗證集3D 視角和BEV 下各方法對Car 類的AP（IoU 為0.70）Table 5 The AP of each method on the Car class under the 3D perspective and BEVin the KITTI validation set（IoU is 0.70）%

其次，在nuScenes 數(shù)據(jù)集上進(jìn)行實驗，在表6 中對mAP 和NDS 這2 個衡量方法性能的重要指標(biāo)進(jìn)行分析。表6 共對比了10 類目標(biāo)的AP，依次為汽車、行人、柵欄、交通錐、卡車、公交車、拖車、工程車、摩托車以及騎行者。通過與現(xiàn)有5 種較先進(jìn)的三維目標(biāo)檢測方法對比可以發(fā)現(xiàn)，本文所提方法在汽車、行人等8 個類別中均取得了最好的AP 表現(xiàn)，這得益于多方向特征融合骨干網(wǎng)絡(luò)能夠提取并融合4 個方向上的特征，比以往的骨干網(wǎng)絡(luò)更具有特征捕獲和表達(dá)能力，從而提高了對潛在目標(biāo)的識別精度。此外，本文方法取得了50.2%的mAP 以及60.3 的NDS，均比現(xiàn)有方法更高。結(jié)果充分表明了本文方法的有效性，該方法不僅能更精確地預(yù)測目標(biāo)位置，而且在各項TP 指標(biāo)中都有明顯提升。

表6 nuScenes 驗證集中各類別的AP 以及各方法的mAP 和NDSTable 6 The AP of each category and mAP and NDS of each method in the nuScenes validation set

2.3.2 朝向準(zhǔn)確率分析

為了驗證本文所提方法在目標(biāo)朝向預(yù)測方面的性能，同樣在KITTI驗證集和nuScenes驗證集上進(jìn)行實驗。

KITTI 驗證集上3 類目標(biāo)的平均朝向相似度（AOS）如表7 所示。從表7 可以看出，本文方法在Car和Pedestrian 類中取得了最好的結(jié)果，其中Pedestrian類的平均AOS 比SECOND 高出3.05 個百分點。良好的AOS 結(jié)果得益于本文方法中的數(shù)據(jù)編碼以及多方向特征融合骨干網(wǎng)絡(luò)，點間距離、夾角建模的數(shù)據(jù)編碼能夠提取局部區(qū)域點云的幾何信息，為朝向預(yù)測提供有效信息，而多方向特征融合骨干網(wǎng)絡(luò)利用多方向卷積能夠充分提取相對大區(qū)域的綜合特征。

表7 KITTI 驗證集中各類別的AOSTable 7 AOS of each category in the KITTI validation set %

表8 進(jìn)一步在nuScenes驗證集中對比具有朝向?qū)傩缘? 個類別目標(biāo)的AOE 以及整體指標(biāo)mAOE。由表8 可知，與現(xiàn)有方法相比，在大部分類別目標(biāo)中本文方法都取得了最好的AOE結(jié)果，其中汽車、卡車及工程車類中下降較為明顯，由于這些類別目標(biāo)的尺寸較大，本文方法通過多方向特征融合骨干網(wǎng)絡(luò)能夠從4 個方向上對潛在目標(biāo)的特征進(jìn)行提取，豐富位置、朝向等信息，從而獲得更低的朝向誤差。此外，本文方法的mAOE 指標(biāo)相比次優(yōu)的CenterPoint 降低了7%，該結(jié)果表明本文方法在目標(biāo)朝向預(yù)測方面具有明顯優(yōu)勢，多方向特征融合骨干網(wǎng)絡(luò)能夠充分捕獲目標(biāo)朝向信息，增強(qiáng)網(wǎng)絡(luò)對朝向的預(yù)測性能，進(jìn)而提升方法的應(yīng)用表現(xiàn)。

表8 nuScenes 驗證集中各類別的AOE 以及各方法的mAOETable 8 The AOE of each category and mAOE of each method in the nuScenes validation set

2.3.3 消融實驗

為了探究點間距離、夾角建模的數(shù)據(jù)編碼（DAM-Encoding）與多方向特征融合骨干網(wǎng)絡(luò)（MFF-Backbone）對本文所提檢測方法性能的影響，在nuScenes 驗證集上進(jìn)行相關(guān)的消融實驗，結(jié)果如表9 所示。

表9 DAM-Encoding 和MFF-Backbone 對本文方法的性能影響Table 9 The performance impact of DAM-Encoding and MFF-Backbone on the method proposed in this paper

由表9 可以看出，不論是距離、夾角建模的數(shù)據(jù)編碼還是多方向特征融合骨干網(wǎng)絡(luò)，對于NDS、mAP 以及mAOE 指標(biāo)均有幫助。對比實驗組2 和3可以看出，相比于DAM-Encoding，MFF-Backbone能更明顯地降低平均朝向誤差（mAOE 由0.403 3 下降到0.369 5），這證明了多方向卷積在預(yù)測物體朝向上的有效性。此外，由實驗組4 的結(jié)果可以看到，基于DAM-Encoding 和MFF-Backbone 的本文方法取得了最好的性能表現(xiàn)，原因主要有：DAMEncoding 不僅建模了點間的距離信息，而且提供了角度信息，為潛在目標(biāo)的位置和朝向預(yù)測提供了豐富信息；MFF-Backbone 能夠提取并融合多方向特征信息，更加豐富了潛在目標(biāo)的信息。這2 個模塊都不同程度地增強(qiáng)了網(wǎng)絡(luò)的特征表達(dá)能力，從而提升了整體性能。

2.3.4 泛化性分析

為了探究DAM-Encoding 和MFF-Backbone 這2 個模塊的泛化性，在nuScenes 驗證集上進(jìn)一步進(jìn)行泛化性對比實驗。實驗基于目前比較常見的三維目標(biāo)檢測方法，在保持骨干網(wǎng)絡(luò)輸入和輸出尺寸、通道數(shù)一致的條件下，比較原方法與替換DAM-Encoding和MFF-Backbone 后的方法的性能，對比NDS、mAP以及mAOE 指標(biāo)，實驗結(jié)果如表10 所示。泛化性實驗對比了PointPillars、SSN、Free-anchor3d 以及CenterPoint 這4 種方法。由表10 可以看出，替換DAM-Encoding 和MFF-Backbone 后各方法的3 項指標(biāo)均得到了明顯優(yōu)化，這充分表明了所提模塊的泛化性，能夠提升檢測方法的性能。

表10 泛化性實驗結(jié)果Table 10 The results of generality experiment

表11 檢測方法的推理速度和參數(shù)量對比Table 11 Comparison of inference speed and parameter quantity of detection methods

2.3.5 實時性和參數(shù)量分析

如表 11 所示，在 nuScenes 驗證集上對PointPillars、SSN、Free-anchor3d 和CenterPoint 方法替換MFF-Backbone 前后的推理速度和參數(shù)量進(jìn)行對比分析（保持骨干網(wǎng)絡(luò)的輸入和輸出尺寸、通道數(shù)相同）?？梢钥吹?，替換后推理速度均有稍微下降（平均降低0.9 sample/s），但是參數(shù)量明顯降低，平均減少64%。結(jié)合表10 可知，盡管網(wǎng)絡(luò)的參數(shù)量大幅降低，但是其性能卻得到了提升。

2.3.6 可視化分析

對本文所提方法以及對比方法的檢測結(jié)果在nuScenes 數(shù)據(jù)集上進(jìn)行俯視視角的可視化分析，可視化限定x軸和y軸范圍均為[-40 m,40 m]，可視化結(jié)果如圖6 所示，每個場景中左邊是本文方法結(jié)果，右邊為對比方法結(jié)果，圖中藍(lán)色框表示真實框（待檢測目標(biāo)），綠色框則為方法的預(yù)測輸出框，框內(nèi)的直線表示目標(biāo)的前進(jìn)方向（彩色效果見《計算機(jī)工程》官網(wǎng)HTML 版）。從圖6（a）和圖6（b）可以看出，本文所提方法的預(yù)測框更加接近真實框，不僅位置偏差更小，而且朝向也更準(zhǔn)確，這得益于點云數(shù)據(jù)編碼所彌補(bǔ)的距離、角度信息，以及多方向特征融合骨干網(wǎng)絡(luò)在特征提取方面強(qiáng)大的能力，能夠為回歸預(yù)測提供豐富的信息。同時，從圖6 也可以看出，本文方法能夠有效改善漏檢和誤檢的情況。

圖6 可視化結(jié)果Fig.6 Visualization results

3 結(jié)束語

在自動駕駛的環(huán)境感知系統(tǒng)中，三維目標(biāo)檢測方法需要準(zhǔn)確估計潛在目標(biāo)的位置和朝向，這對于其在真實駕駛場景中的應(yīng)用十分重要。但是，現(xiàn)有方法通常存在對目標(biāo)位置估計精度不足、朝向預(yù)測偏差較大的問題。為此，本文提出一種基于多方向特征融合的三維目標(biāo)檢測方法，該方法的核心包含點間距離、夾角建模的點云數(shù)據(jù)編碼和多方向特征融合骨干網(wǎng)絡(luò)。點間距離、夾角建?？梢詮浹a(bǔ)位置、朝向等信息。多方向特征融合骨干網(wǎng)絡(luò)基于多方向卷積，能夠在4 個方向上進(jìn)行特征提取，具備更強(qiáng)的特征表達(dá)能力。實驗結(jié)果表明，相較對比方法，該方法在KITTI 和nuScenes 數(shù)據(jù)集上不僅取得了最好的mAP，而且在朝向預(yù)測方面也獲得了最好的AOS 以及mAOE 結(jié)果，充分驗證了這2 個核心模塊的有效性，不僅可以提升位置識別精度，而且可以提高朝向預(yù)測準(zhǔn)確度。

本文所提多方向特征融合骨干網(wǎng)絡(luò)滿足旋轉(zhuǎn)等變性，能夠提取豐富特征，但是數(shù)據(jù)編碼部分不滿足旋轉(zhuǎn)等變性。因此，下一步將基于網(wǎng)絡(luò)等變性設(shè)計數(shù)據(jù)編碼模塊，結(jié)合多方向特征融合骨干網(wǎng)絡(luò)，設(shè)計一種針對室外三維點云目標(biāo)檢測的雙等變網(wǎng)絡(luò)，進(jìn)一步提高定位精度和方法的應(yīng)用性能。