亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于CNN 的點云圖像融合目標(biāo)檢測

2021-06-07 01:44:28張介嵩黃影平

光電工程 2021年5期

張介嵩，黃影平，張瑞

上海理工大學(xué)光電信息與計算機工程學(xué)院，上海 200093

1 引言

無人駕駛汽車主要采用相機、激光雷達(dá)實現(xiàn)車輛、行人、騎行者等目標(biāo)的探測。這兩類傳感器的數(shù)據(jù)模態(tài)不同，有著各自的優(yōu)勢和缺陷：激光雷達(dá)不受季節(jié)、光照條件的影響，探測距離長并且能夠提供準(zhǔn)確的三維位置信息，但雷達(dá)的點云數(shù)據(jù)是稀疏的，難以獲得細(xì)節(jié)豐富的場景信息。相機能夠提供稠密的紋理與色彩信息，但是被動傳感器的特性使其容易受環(huán)境光照變化的影響。單一傳感器難以提供滿意的解決方案，兩種傳感器的融合可以利用多源數(shù)據(jù)的互補優(yōu)勢，彌補各自的缺陷，降低環(huán)境光照條件的影響，提高目標(biāo)探測的魯棒性和準(zhǔn)確性，而且可以提供準(zhǔn)確的目標(biāo)位置信息。近年來，以卷積神經(jīng)網(wǎng)絡(luò)(CNN)為代表的深度學(xué)習(xí)技術(shù)在基于圖像的目標(biāo)檢測方面取得巨大成功，也為多模態(tài)數(shù)據(jù)融合提供了一個非常有效的工具。

本文采用卷積神經(jīng)網(wǎng)絡(luò)，研究融合點云與圖像數(shù)據(jù)的實時交通場景目標(biāo)檢測方法，有如下貢獻(xiàn)：1) 提出了基于CNN 的特征級點云與圖像融合框架，設(shè)計了基于融合特征的目標(biāo)檢測網(wǎng)絡(luò)，提高了不同光照條件下檢測的魯棒性；2) 采用滑動窗處理控制網(wǎng)絡(luò)輸入，平衡檢測與數(shù)據(jù)采集時間，有效提升小目標(biāo)的檢測精度；3) 實現(xiàn)了對目標(biāo)的精確檢測及獲取目標(biāo)深度信息的多任務(wù)網(wǎng)絡(luò)；4) 使用KITTI 數(shù)據(jù)集進(jìn)行實驗評估，與多種檢測算法的對比分析表明，本文方法具有檢測精度和檢測速度的綜合優(yōu)勢。

2 相關(guān)工作

基于CNN 的目標(biāo)檢測方法可以分為基于圖像、激光雷達(dá)以及數(shù)據(jù)融合的方法。

2.1 基于圖像的目標(biāo)檢測

Girshick 等人[1]借鑒滑動窗的思想提出了基于區(qū)域建議的卷積神經(jīng)網(wǎng)絡(luò)(RCNN)，成功地將神經(jīng)網(wǎng)絡(luò)由圖像分類遷移到了目標(biāo)檢測中，大大提高了檢測精度。然而這種需要在特征圖上選擇性搜索數(shù)千個候選框的方式也使得其檢測速度較慢。在此框架下，SPP-Net[2]、Fast R-CNN[3]和Faster R-CNN[4]等通過使用效率更佳的特征提取網(wǎng)絡(luò)，優(yōu)化模型結(jié)構(gòu)，改進(jìn)后處理方法等方式，力圖提高基于候選區(qū)域的目標(biāo)檢測速度。Redmon 等人通過將目標(biāo)檢測視為回歸問題，提出了一種單次檢測網(wǎng)絡(luò)YOLO[5]，直接從圖像中預(yù)測目標(biāo)框和類別概率，大大提高了檢測速度。然而檢測時固定劃分網(wǎng)格方式，降低了對小目標(biāo)、彼此靠近目標(biāo)等情況下的檢測精度。隨著CNN 網(wǎng)絡(luò)的不斷發(fā)展，特征提取的性能也越來越強大，隨后的YOLO9000[6]、SSD[7]和YOLOv3[8]等方法通過使用更優(yōu)的特征提取網(wǎng)絡(luò)以及引入殘差網(wǎng)絡(luò)的思想不斷提高檢測精度?？傊诤蜻x區(qū)域和單次檢測網(wǎng)絡(luò)在檢測精度和速度上各有優(yōu)勢，難點在于同時取得精度和速度的最優(yōu)。

2.2 基于激光雷達(dá)的目標(biāo)檢測

由于相機對光線和陰影較為敏感，不能提供準(zhǔn)確和足夠的位置信息，往往會影響系統(tǒng)的可靠性。相比之下，激光雷達(dá)可以探測目標(biāo)的距離和三維信息。因此將激光雷達(dá)和深度學(xué)習(xí)相互結(jié)合的方法也獲得了很大的發(fā)展。Qi 等人將原始的激光雷達(dá)產(chǎn)生的點云信息直接作為輸入，提出了端到端的點云處理網(wǎng)絡(luò)PointNet[9]。但是由于對點云特征全部最大池化為一個特征，因此忽略了局部特征的表達(dá)導(dǎo)致精度欠佳。隨后，PointNet++[10]提出了集合抽象模塊和特征傳播模塊，改善了對局部特征的獲取能力。不同于直接對無序的數(shù)據(jù)做處理，Zhou 等人[11]將激光雷達(dá)點云轉(zhuǎn)換為具備一定規(guī)則分布的體素(Voxel)，在點云上建立三維網(wǎng)格來處理LiDAR 點云。然而，這需要大量的計算來進(jìn)行后續(xù)處理，無法達(dá)到實時性的需求。為了提升對點云的處理速度，Complex-YOLO[12]，BirdNet[13]和LMNet[14]等提出多視圖的投影方法將三維激光雷達(dá)點云數(shù)據(jù)投影到一個或多個二維平面上，以此視為二維圖像。從轉(zhuǎn)換視圖的角度與前視圖相比，鳥瞰圖(BEV)上的每個對象都有較低的遮擋率，因此被廣泛采用。Li 等人提出的VeloFCN[15]將點云數(shù)據(jù)投影到圖像平面坐標(biāo)系，利用完全卷積神經(jīng)網(wǎng)絡(luò)(FCN)從深度數(shù)據(jù)中檢測車輛，成為當(dāng)時最快的基于點云的檢測方法，但缺乏足夠的紋理和色彩信息，檢測精度較差。

2.3 基于融合方法的目標(biāo)檢測

點云數(shù)據(jù)具有精確的幾何信息，但是數(shù)據(jù)非常稀疏。圖像作為高分辨率的數(shù)據(jù)，具有豐富的紋理特征，可以逐個區(qū)分物體。最近越來越多的研究工作利用深度學(xué)習(xí)將點云和圖像進(jìn)行融合，主要分為目標(biāo)級融合和特征級融合。1) 目標(biāo)級融合采用2D 候選區(qū)域與點云的檢測方法相結(jié)合，比如F-PointNet[16]提出了一種兩階段的三維物體檢測框架，采用基于圖像的2D 檢測方法提取候選區(qū)域并以PointNet 處理點云。與之相似的，F(xiàn)PC-CNN[17]采用PC-CNN[18]檢測2D 包圍框，將點云數(shù)據(jù)投影到圖像平面上，并對2D 包圍框中的點云投影數(shù)據(jù)進(jìn)行后續(xù)處理。這種方法由于傳感器安裝高度和遮擋不同，基于圖像的候選區(qū)域往往會由于遺漏導(dǎo)致檢測精度降低。2) 特征級融合將3D 點云數(shù)據(jù)提取的深度特征與相應(yīng)圖像區(qū)域相互結(jié)合。例如，MV3D[19]從BEV 生成3D 候選區(qū)域，將其投影到激光雷達(dá)前視圖和RGB 圖像上來獲取三個視圖上的區(qū)域特征，以此將所有視圖的特征融合。AVOD[20]將3D錨框分別投影到BEV 和RGB 圖像上獲得對應(yīng)候選區(qū)域的特征圖，將特征圖融合后進(jìn)行目標(biāo)檢測。

3 本文方法

本文方法由兩部分組成，數(shù)據(jù)預(yù)處理和融合檢測網(wǎng)絡(luò)，方法整體框架如圖1 所示。

圖1 方法框圖Fig.1 Framework of the proposed method

首先，將激光雷達(dá)點云投影至圖像平面得到稀疏的深度圖，然后通過深度補全得到密集的深度圖，與相機得到的RGB 圖像共同作為網(wǎng)絡(luò)輸入。將RGB 圖像與密集深度圖進(jìn)行滑動窗處理，得到近似為方形的數(shù)據(jù)切片送入融合目標(biāo)檢測網(wǎng)絡(luò)。融合檢測網(wǎng)絡(luò)以EfficientNet[21]作為特征融合網(wǎng)絡(luò)，先分別對圖像和點云深度圖進(jìn)行特征提取，然后將兩組特征圖進(jìn)行級聯(lián)融合，網(wǎng)絡(luò)檢測部分對融合產(chǎn)生的特征圖進(jìn)行塔式多尺度[22]處理，構(gòu)建殘差網(wǎng)絡(luò)對多尺度特征進(jìn)行目標(biāo)預(yù)測，并通過非極大值抑制(NMS)優(yōu)化提煉，最后輸出包含目標(biāo)類別、位置、置信度和距離的檢測結(jié)果。

3.1 融合檢測網(wǎng)絡(luò)

融合檢測網(wǎng)絡(luò)基于EfficientNet-B2 構(gòu)建，網(wǎng)絡(luò)架構(gòu)如圖2 所示。

圖2 EfficientNet-B2 架構(gòu)圖Fig.2 EfficientNet-B2 architecture diagram

EfficientNet[21]是由Google 的研究人員于2019 年提出的一組深度、寬度和分辨率可變的復(fù)合卷積神經(jīng)網(wǎng)絡(luò)集合。通常卷積神經(jīng)網(wǎng)絡(luò)想提高檢測精度，通過增加網(wǎng)絡(luò)的深度(depth)、寬度(width)和輸入分辨率(resolution)實現(xiàn)。但與此同時，網(wǎng)絡(luò)占用的資源和計算量也會呈非線性的增長。Google 通過對深度、寬度和分辨率三個維度的研究，通過模塊化的思想設(shè)計網(wǎng)絡(luò)主體，選取合適的復(fù)合系數(shù)構(gòu)建了B0～B7 八種不同參數(shù)量的高效卷積神經(jīng)網(wǎng)絡(luò)，相比于ResNet[23]、DenseNet[24]、Inception[25]、GPipe[26]等經(jīng)典的主干網(wǎng)絡(luò)，無論在分類精度和運算效率上都有顯著提升。本文選取EfficientNet-B2 作為基礎(chǔ)網(wǎng)絡(luò)，其具有9.2 M 參數(shù)量，1.0 B 浮點計算操作，相比于DarkNet-53，參數(shù)量減少77.56%，浮點計算量減少79.59%。其基本組成單元由5 種Module 構(gòu)成，其中Module1 和Module2 實現(xiàn)基本的卷積操作和池化功能；Module3 用于跳躍連接不同的Module；Module4 和Module5 用于實現(xiàn)特征圖的連接，與Module3 共同構(gòu)建殘差網(wǎng)絡(luò)。不同模塊的組合構(gòu)成3 種不同的子模塊，通過級聯(lián)成為最終的網(wǎng)絡(luò)主體。

融合網(wǎng)絡(luò)利用EfficientNet 的Block1 和Block2 作為特征提取器，分別對輸入的RGB 圖像和密集深度圖進(jìn)行卷積和下采樣，得到深度和尺度一致的特征圖。通過圖3 所示的融合層進(jìn)行特征圖合并，使用1×1 的卷積核，保持特征圖尺度不變的前提下大幅增加特征的非線性特性，降低特征圖維度實現(xiàn)跨通道信息交互，充分融合兩種模態(tài)的數(shù)據(jù)特征。將融合后的特征圖送入網(wǎng)絡(luò)后續(xù)的Block 中，對特征進(jìn)行進(jìn)一步提取和下采樣，最終輸出13×13 的特征圖。網(wǎng)絡(luò)的參數(shù)設(shè)定如表1 所示。

圖3 特征融合層Fig.3 Feature fusion layer

表1 特征提取網(wǎng)絡(luò)參數(shù)Table 1 The parameters of the feature extraction network

檢測器部分采用特征金字塔網(wǎng)絡(luò)(FPN)結(jié)構(gòu)，在32 倍降采樣、16 倍降采樣、8 倍降采樣的三個特征圖上進(jìn)行多尺度目標(biāo)預(yù)測，讓網(wǎng)絡(luò)同時學(xué)習(xí)淺層和深層特征，獲得更好的表達(dá)效果，檢測器結(jié)構(gòu)如圖4 所示。

圖4 目標(biāo)檢測器結(jié)構(gòu)Fig.4 Structure of the object detector

檢測器通過神經(jīng)網(wǎng)絡(luò)的回歸實現(xiàn)目標(biāo)位置、類別和置信度的預(yù)測。因此，檢測器的損失函數(shù)主要有三個部分構(gòu)成：目標(biāo)定位偏移量損失 Lloc(l,g)，目標(biāo)分類損失 Lcla(O ,C)以及目標(biāo)置信度損失 Lconf(o,c)：

其中：定位偏移量損失采用平方差損失函數(shù)(MSE loss)，分類損失采用多分類交叉熵?fù)p失函數(shù)(cross entropy loss)；置信度損失采用二值交叉熵?fù)p失函數(shù)(binary cross entropy loss)；l 為預(yù)測矩形框的坐標(biāo)，g為真實值的坐標(biāo)，O 為預(yù)測框中是否存在目標(biāo)的概率；C∈{0,1}，0 表示不存在，1 表示存在；oij為第i 個目標(biāo)框中存在第j 類目標(biāo)的概率，cij∈{0,1}，0 表示不存在，1 表示存在；λ1，λ2，λ3為平衡系數(shù)。

3.2 數(shù)據(jù)預(yù)處理

3.2.1 點云深度圖的產(chǎn)生與稠密化

坐標(biāo)系標(biāo)定是多傳感器信息融合的首要條件，不同傳感器有著不同的采集頻率和獨立的坐標(biāo)系，必須統(tǒng)一數(shù)據(jù)采集頻率進(jìn)行時間配準(zhǔn)才能把不同坐標(biāo)系的數(shù)據(jù)轉(zhuǎn)換到同一坐標(biāo)系，實現(xiàn)數(shù)據(jù)的融合。激光雷達(dá)數(shù)據(jù)投影到像素坐標(biāo)系的變換流程如圖5 所示。

根據(jù)常昕等人[27]的研究，由激光雷達(dá)坐標(biāo)系到像素坐標(biāo)系的轉(zhuǎn)換關(guān)系為

其中：(u,v)為像素坐標(biāo)，(XC,YC,ZC)為相機坐標(biāo)，(XL,YL,ZL)為激光雷達(dá)坐標(biāo)，RL-C表示從激光雷達(dá)坐標(biāo)系到相機坐標(biāo)系的旋轉(zhuǎn)矩陣，TL-C表示從激光雷達(dá)坐標(biāo)系到世界坐標(biāo)系的三維平移向量，u0，v0是相機的內(nèi)參，f 為相機焦距。本文相機內(nèi)參及投影矩陣由實驗使用的KITTI 數(shù)據(jù)集提供，根據(jù)式(2)可計算出激光點云在圖像平面的坐標(biāo)(u,v)，投影結(jié)果如圖6 所示。

激光雷達(dá)到圖像的投影得到的深度圖是稀疏的深度圖，大量的空像素不足以描述物體的特征甚至干擾網(wǎng)絡(luò)的計算，深度補全任務(wù)的目的是從稀疏的深度圖生成密集的深度預(yù)測。

該問題可以被表述如下：

其中：I 為圖像，Dsparse為稀疏深度圖，Ddense為密集深度圖。

相比于基于深度學(xué)習(xí)的方法，傳統(tǒng)的圖像處理算法在深度補全上具有更快的處理速度，同時不需要大量數(shù)據(jù)的訓(xùn)練也能保證較好的效果。

由于KITTI數(shù)據(jù)集中點云數(shù)據(jù)的深度范圍在0～80 m 之間，沒有點云的像素區(qū)域深度值為零。若直接采用膨脹操作會導(dǎo)致大值覆蓋小值，丟失目標(biāo)邊緣信息。因此在形態(tài)學(xué)處理之前將深度值反轉(zhuǎn)：

其中：Dinverted為反轉(zhuǎn)后的深度值，Dinput為輸入的深度值。通過在有效值和空值之間建立了20 m 的緩沖區(qū)，保證膨脹操作時更好地保留對象的邊緣。本文所使用的深度補全算法流程圖如圖7 所示。

圖5 坐標(biāo)系變換Fig.5 Transformation of coordinates

圖6 點云投影至圖像平面Fig.6 Projection of LiDAR point cloud on the image plane

圖7 深度補全算法流程Fig.7 The formation of the dense depth map

3.2.2 滑動窗處理

在將數(shù)據(jù)輸入網(wǎng)絡(luò)之前，需要保證輸入圖像的分辨率與網(wǎng)絡(luò)設(shè)定的參數(shù)一致。然而，目標(biāo)檢測不同于圖像分類等其他神經(jīng)網(wǎng)絡(luò)，待檢測對象的紋理、色彩、尺寸都是特征之一。因此不能通過拉伸原圖進(jìn)行分辨率的匹配。通常，網(wǎng)絡(luò)在加載數(shù)據(jù)時都是以輸入圖像長邊為標(biāo)準(zhǔn)進(jìn)行縮放，對空余部分進(jìn)行補零，如圖8(a)所示。

這種因長寬比例過大導(dǎo)致在加載數(shù)據(jù)時的信息丟失，在交通場景數(shù)據(jù)集中尤為明顯。鑒于此，本文考慮使用長寬比例接近1 的滑動窗口對原始圖像進(jìn)行掃描，采用保留重疊的方式對輸入數(shù)據(jù)進(jìn)行切分，將切分后的滑動窗口進(jìn)行填充后再傳入網(wǎng)絡(luò)，同時把所有的滑動窗口的結(jié)果重新映射到原始圖像對應(yīng)的坐標(biāo)，經(jīng)過非極大值抑制(NMS)獲得最終檢測結(jié)果。

4 實驗及結(jié)果分析

實驗在Intel Xeon(R) Silver 4110 CPU@ 2.10 GHz處理器，32 G 內(nèi)存，11 GB NVIDIA GeForce 1080Ti GPU，Ubuntu 20.04 操作系統(tǒng)的計算機上運行，融合檢測網(wǎng)絡(luò)基于Pytorch 網(wǎng)絡(luò)框架搭建。

實驗數(shù)據(jù)來自KITTI 的Object Detection Evaluation 2012 數(shù)據(jù)集，包含訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)兩部分。本文選取其中雙目相機的彩色左視圖，激光雷達(dá)點云，激光雷達(dá)與相機的標(biāo)定數(shù)據(jù)和訓(xùn)練標(biāo)簽進(jìn)行實驗分析。訓(xùn)練集中包含7481 張訓(xùn)練圖像和51865 個帶有標(biāo)簽的目標(biāo)，標(biāo)簽中目標(biāo)被分為9 類，包括一個DonCare類。本文將Pedestrian 和Person_sitting 歸為一類Pedestrian；將Car、Truck 和Van 歸為一類Car；Cyclist獨立作為一類，另外Misc 和Tram 因為數(shù)據(jù)太少被舍棄。

KITTI 圖像序列包含三種場景：Easy、Moderate、Hard。Easy 為最小邊框高度大于40 pixels，無遮擋，截斷不到15%的目標(biāo)障礙物；Moderate 為最小邊框高度大于25 pixels，部分遮擋，截斷不到30%的目標(biāo)障礙物；Hard 為最小邊框高度大于25 pixels，多遮擋，截斷不到50%的目標(biāo)障礙物。

實驗結(jié)果采用KITTI 的評價方法，如果目標(biāo)的檢測框與標(biāo)簽的邊框的重疊度(IoU)達(dá)到50%以上，則將該對象視為已正確檢測到。選取準(zhǔn)確率(Precission)、召回率(Recall)和平均準(zhǔn)確度(Average precision，AP)作為性能評價指標(biāo)。

圖8 數(shù)據(jù)加載方式。(a) 縮放與填充；(b) 滑動窗處理Fig.8 Methods of data loading.(a) Resizing and padding;(b) Sliding windows

其中：PT 為真正例(true positive)，PF 為假正例(false positive)，NF 為假負(fù)例(false negative)，P (R) 為不同召回率所對應(yīng)的準(zhǔn)確率。

實驗主要分為三個部分：第一，通過對比使用滑動窗前后的實驗結(jié)果，驗證滑動窗對小目標(biāo)檢測效果的改善。第二，通過實驗結(jié)果評估本文方法在復(fù)雜光照條件下對障礙物的檢測能力，驗證本文方法的魯棒性。第三，通過實驗結(jié)果比較本文方法和多種目標(biāo)檢測方法對交通場景中障礙物的檢測效果，驗證多模態(tài)數(shù)據(jù)融合方法對目標(biāo)檢測性能的提升。

4.1 輸入數(shù)據(jù)的構(gòu)建結(jié)果

網(wǎng)絡(luò)輸入數(shù)據(jù)為相機采集的RGB 圖像和激光雷達(dá)得到的3D 點云，在數(shù)據(jù)預(yù)處理中，實現(xiàn)對激光雷達(dá)點云的圖像平面投影、深度補全、滑動窗數(shù)據(jù)拆分工作。

利用KITTI 數(shù)據(jù)集提供的點云和圖像數(shù)據(jù)，通過式(2)將雷達(dá)點云投影至圖像平面，得到稀疏的深度圖，結(jié)果如圖9(a)所示。稀疏的深度圖中存在大量的零值，以空洞的形式表現(xiàn)在圖像中。在送入網(wǎng)絡(luò)之前需要進(jìn)行深度補全。深度補全使用基于OpenCV 的形態(tài)學(xué)操作，實現(xiàn)膨脹、閉運算、空值填充、模糊處理，補全結(jié)果如圖9(b)所示，整個運算過程不依賴于神經(jīng)網(wǎng)絡(luò)和RGB 數(shù)據(jù)的引導(dǎo)，在CPU 上運算耗時11 ms。

圖9 深度補全前后對比。(a) 稀疏的深度圖；(b) 密集的深度圖Fig.9 Comparison of depth maps.(a) Sparse depth map;(b) Dense depth map

KITTI 數(shù)據(jù)集的圖像分辨率為1242×375，通過對Car、Pedestrian、Cyclist 三種類別的標(biāo)簽統(tǒng)計，Car的平均目標(biāo)尺寸為111×66，Pedestrian 的平均目標(biāo)尺寸為43×103，Cyclist 的平均目標(biāo)尺寸為55×76，本文方法單幀數(shù)據(jù)處理時間為0.017 s，激光雷達(dá)采樣間隔為0.1 s。為匹配網(wǎng)絡(luò)輸入選擇方形滑動窗，保證重疊區(qū)域大于最大平均目標(biāo)寬度，總處理時間小于采樣間隔。因此，實驗采用375×375 的滑動窗，滑動窗口次數(shù)為4，步長為217，相鄰窗口保留158 個像素寬度的重疊區(qū)域，減少因滑動窗的截斷導(dǎo)致的漏檢。

4.2 特征提取結(jié)果

采用EfficientNet-B2 的Block1 和Block2 作為特征提取器對RGB 圖像和點云深度圖提取特征，其結(jié)果與DarkNet-53 的特征提取結(jié)果對比如圖10 所示。

其中圖10(a)、圖10(c)、圖10(e)分別為場景一、二、三的EfficientNet 融合網(wǎng)絡(luò)特征提取結(jié)果；圖10(b)、圖10(d)、圖10(f)分別為場景一、二、三的DarkNet特征提取結(jié)果。采用Grad-CAM++[28]對于網(wǎng)絡(luò)特征提取的結(jié)果可視化，通過將特征提取網(wǎng)絡(luò)的最后一個卷積層的特征圖加權(quán)映射到原始圖像平面，以熱圖的形式表征特征提取的效果。結(jié)果表明，相比于單模態(tài)特征提取方法，融合網(wǎng)絡(luò)對復(fù)雜光線場景中目標(biāo)所在區(qū)域有更準(zhǔn)確的響應(yīng)，如圖10(a)，10(e)所示；同時，引入深度信息的融合網(wǎng)絡(luò)對平面廣告牌上的假目標(biāo)沒有錯誤響應(yīng)，如圖10(c)所示。

圖10 EfficientNet-B2 與DarkNet-53 特征提取效果對比Fig.10 The feature extraction comparison of EfficientNet-B2 and DarkNet-53

4.3 檢測結(jié)果及分析

4.3.1 定性分析

檢測結(jié)果如圖11 所示，其中第一行是網(wǎng)絡(luò)輸入的RGB 圖像，第二行是網(wǎng)絡(luò)輸入的密集深度圖，第三行為進(jìn)行對比的YOLOv3 網(wǎng)絡(luò)檢測結(jié)果(輸入僅為RGB圖像)，第四行為未采用滑動窗的融合方法，第五行為采用滑動窗的融合方法，圖11(a)～圖11(d)為四個不同場景。

對比僅采用RGB 圖像數(shù)據(jù)的YOLOv3 算法，本文方法采用多模態(tài)數(shù)據(jù)作為輸入，對圖像和點云數(shù)據(jù)進(jìn)行特征級的融合，綜合利用圖像數(shù)據(jù)的密集紋理信息和點云數(shù)據(jù)的深度信息，有效降低了目標(biāo)檢測的誤檢率和漏檢率，同時獲取目標(biāo)的距離信息；引入滑動窗口的處理方式，顯著提升了小目標(biāo)的檢測效果。如圖11 所示，在明暗反差劇烈的場景(a)中，本文方法準(zhǔn)確地識別出了遠(yuǎn)近的三輛汽車，以及汽車前陰影中的人，而在YOLOv3 的檢測結(jié)果中，僅僅檢測到了一輛汽車；在隧道場景(b)中，包含了深度信息的本文方法準(zhǔn)確檢測出了陰影中的車輛和遠(yuǎn)處過曝的車輛，圖像的方法僅檢測到了紋理清晰的目標(biāo)；在曝光不足的場景(c)中，陰影中的行人在圖像中難以區(qū)分，在深度圖中清晰可辨；在存在虛假目標(biāo)的場景(d)中，圖像的方法將廣告牌中的車輛誤認(rèn)為目標(biāo)車輛，在深度圖中僅真實車輛與背景之間存在深度差異，廣告牌為平面，本文方法沒有發(fā)生誤檢。

圖11 不同場景下的檢測結(jié)果Fig.11 Detection results in different scenarios

4.3.2 定量評估

將本文方法與Faster-RCNN、YOLOv3、VoxelNet、MV3D、F-PointNet 以及AVOD 進(jìn)行比較，這些方法分別對應(yīng)的輸入數(shù)據(jù)為RGB 圖像、雷達(dá)點云和融合數(shù)據(jù)。各種方法在Easy、Moderate、Hard 三種場景中分別對Car、Pedestrian 和Cyclist 三類目標(biāo)檢測性能見表2，表中的mAP 是在Easy、Moderate、Hard 三種場景中對所有目標(biāo)統(tǒng)計的平均檢測精度。

表2 與其他方法在KITTI 數(shù)據(jù)集上的性能對比Table 2 Performance comparison of different algorithms on the KITTI dataset

由表中數(shù)據(jù)可以看出，與YOLOv3、VoxelNet、MV3D 以及AVOD 相比較，融合深度圖特征和滑動窗口處理的本文方法(最后一行)在精度上有全面提升。在取得與Faster-RCNN 接近的檢測精度的同時，檢測速度大幅提升。與多模態(tài)目標(biāo)級融合方法F-PointNet比較，檢測精度上稍遜，但檢測速度有較大提升。綜上所述，本文方法取得了檢測精度與檢測速度的平衡。

通過計算可知，本文方法在Easy、Moderate、Hard場景中對Car、Pedestrian 和Cyclist 的平均檢測精度分別是82.55%、70.73%和57.09%，單幀計算耗時0.087 s，基本滿足實時性要求。對比速度最快的單次目標(biāo)檢測方法YOLOv3，在三種場景中對于Car、Pedestrian 和Cyclist 的平均檢測精度分別提升13.6%、17.15%和9.37%；對比基于候選區(qū)域的Faster-RCNN，檢測精度分別提升3.32%、1.46%和-5.17%；對比基于激光點云的目標(biāo)檢測方法VoxelNet，檢測精度分別提升23.15%、21.68%和12.56%；對比多模態(tài)數(shù)據(jù)融合的檢測方法AVOD，檢測精度分別提升11.70%、10.10%和2.12%。

表中后兩行分別為不使用滑動窗預(yù)處理的檢測結(jié)果和使用滑動窗預(yù)處理的檢測結(jié)果，相較于前者，附加滑動窗處理的方法對小目標(biāo)的檢測精度提升明顯，但單幀計算時間有所增加。

通過對比本文方法與YOLOv3 對汽車、騎行者、行人三類障礙物P-R 曲線下的包圍面積可見，本文方法對小目標(biāo)檢測效果提升顯著，如圖12 所示。

圖12 本文方法與YOLOv3 在KITTI 上的P-R 曲線對比。(a) 本文方法的結(jié)果；(b) YOLOv3 的結(jié)果Fig.12 Comparison of the P-R curve between our method and YOLOv3.(a) Our method;(b) YOLOv3

5 結(jié) 論

本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的融合激光雷達(dá)點云與相機圖像的目標(biāo)檢測方法，設(shè)計實現(xiàn)了一種點云與圖像特征級融合的網(wǎng)絡(luò)框架，并針對輸入圖像長寬比過大導(dǎo)致的信息損失提出了一種滑動掃描窗口的數(shù)據(jù)處理方法。采用KIITI 數(shù)據(jù)集進(jìn)行實驗驗證，對比其他多種檢測方法，本文方法具有檢測精度與檢測速度上的綜合優(yōu)勢，并能同時獲取目標(biāo)的距離信息。這些結(jié)果表明，本文方法借助多模態(tài)數(shù)據(jù)的優(yōu)勢互補提高了在不同光照場景的檢測魯棒性和準(zhǔn)確性，附加滑動窗處理改善了對小目標(biāo)的檢測效果。