亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的3D目標(biāo)檢測(cè)算法研究

        2022-06-21 01:14:24康晴,湯超,李婧萱,崔振
        計(jì)算機(jī)時(shí)代 2022年6期
        關(guān)鍵詞:騎車人體素主干

        康晴,湯超,李婧萱,崔振

        摘 要: 雖然Voxel R-CNN對(duì)于3D點(diǎn)云目標(biāo)檢測(cè)具有快速性以及對(duì)車輛目標(biāo)檢測(cè)有較高精度,但對(duì)行人以及騎車人目標(biāo)存在檢測(cè)精度低的問(wèn)題。介紹了一種多尺度改進(jìn)的體素ROI池化方法,并在BEV特征提取網(wǎng)絡(luò)中引入通道注意力機(jī)制,進(jìn)一步提高算法對(duì)于小目標(biāo)檢測(cè)的精度。實(shí)驗(yàn)結(jié)果表明,提出的算法不僅保持了對(duì)于車輛檢測(cè)的較高精度,并且在行人以及騎車人目標(biāo)檢測(cè)場(chǎng)景中擁有更高的檢測(cè)精度。

        關(guān)鍵詞: 3D點(diǎn)云目標(biāo)檢測(cè); 通道注意力; 多尺度; Voxel R-CNN

        中圖分類號(hào):TP391? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2022)06-44-05

        Research on 3D object detection algorithm based on deep learning

        Kang Qing1, Tang Chao2, Li Jingxuan1, Cui Zhen2

        (1. School of Automation, Nanjing University of Science and Technology, Nanjing, Jiangsu 210094, China;

        2. School of Computer Science and Engineering,Nanjing University of Science and Technology)

        Abstract: Although Voxel R-CNN has high speed for 3D point cloud object detection and high precision for vehicle detection, it still has the problem of low accuracy in pedestrian and cyclist detection. In this paper, a multi-scale improved voxel ROI pooling method is presented, and channel attention mechanism is introduced to the BEV feature extraction network to promote the accuracy for small object detection. Experiments show that the proposed algorithm not only maintains the high accuracy of vehicle detection, but also has higher accuracy in pedestrian and cyclist detection.

        Key words: 3D point cloud object detection; channel attention; multi-scale; Voxel R-CNN

        0 引言

        隨著自動(dòng)駕駛,機(jī)器人視覺(jué),虛擬現(xiàn)實(shí)增強(qiáng)技術(shù)等領(lǐng)域研究的發(fā)展,3D點(diǎn)云目標(biāo)檢測(cè)作為其中的關(guān)鍵技術(shù)而受到廣泛的關(guān)注,應(yīng)用前景十分廣闊。3D點(diǎn)云目標(biāo)檢測(cè)作為自動(dòng)駕駛的關(guān)鍵技術(shù)已經(jīng)取得了長(zhǎng)足的進(jìn)步,然而由于點(diǎn)云的稀疏性、無(wú)序性等特點(diǎn),3D點(diǎn)云目標(biāo)檢測(cè)還存在著諸多難點(diǎn),目前利用點(diǎn)云進(jìn)行深度學(xué)習(xí)的方法主要基于體素、基于點(diǎn)、基于視圖三種。

        基于體素的方法將不規(guī)則的點(diǎn)云輸入劃分為規(guī)則網(wǎng)格,便于應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取。VoxelNet[1]通過(guò)體素特征編碼(Voxel Feature Encoding,VFE)層,將點(diǎn)狀特征與局部聚集的特征相結(jié)合,提高了基于體素的目標(biāo)檢測(cè)精度?;邳c(diǎn)云的稀疏性,SECOND[2](Sparsely embedded convolutional detection)通過(guò)引入新的角度損失回歸方法來(lái)提高定位精度,并通過(guò)稀疏卷積使處理速度得以提升。PointPillars[3]通過(guò)2D卷積網(wǎng)絡(luò)對(duì)點(diǎn)云生成的偽圖像進(jìn)行處理,從而大大提高了處理速度。基于點(diǎn)的方法使用原始點(diǎn)云數(shù)據(jù)作為輸入,PointRCNN[4]基于原始的點(diǎn)云數(shù)據(jù),以自下而上的方案生成三維區(qū)域候選框。PV-RCNN[5]通過(guò)點(diǎn)與體素方法的結(jié)合,實(shí)現(xiàn)高效且感受野靈活的三維目標(biāo)檢測(cè)。基于視圖的方法則通過(guò)點(diǎn)云在多角度的投影形成二維圖像,借助成熟的二維圖像處理技術(shù)來(lái)解決直接輸入原始點(diǎn)云難以進(jìn)行處理的問(wèn)題。

        目前對(duì)于原始點(diǎn)云的處理方法中,基于點(diǎn)的方法往往能夠獲得較高的檢測(cè)精度,但是速度相對(duì)較慢?;隗w素的方法能夠獲得更快的檢測(cè)速度,但是在精度上有所下降。為解決點(diǎn)云無(wú)序性處理問(wèn)題的同時(shí)獲得較高的檢測(cè)速度的同時(shí)滿足較高精度的要求,我們采用基于體素的Voxel R-CNN算法[6]進(jìn)行3D目標(biāo)檢測(cè)。并且為更好地提升Voxel R-CNN在小目標(biāo)尤其是行人和騎車人目標(biāo)的檢測(cè)精度,本文基于原有模型進(jìn)行改進(jìn),提高了模型性能,并取得了較好的檢測(cè)結(jié)果。

        1 構(gòu)建Voxel R-CNN模型

        本文采用Voxel R-CNN模型,直接對(duì)原始點(diǎn)云進(jìn)行基于體素的處理并實(shí)現(xiàn)3D點(diǎn)云的目標(biāo)檢測(cè)。Voxel R-CNN模型基本框架如圖1所示。

        模型總共由四個(gè)部分組成:3D特征主干網(wǎng)絡(luò)、2D主干網(wǎng)絡(luò)及RPN模塊、體素ROI池化、檢測(cè)頭。該模型基于體素處理點(diǎn)云的方法,通過(guò)稀疏卷積進(jìn)行3D特征的提取,通過(guò)投影的BEV特征圖進(jìn)行2D特征提取以及產(chǎn)生3D候選區(qū)域。并由體素ROI池化生成3D ROI特征進(jìn)行3D候選框的回歸,從而估計(jì)目標(biāo)點(diǎn)云的3D檢測(cè)框。

        1.1 3D主干網(wǎng)絡(luò)

        由于3D點(diǎn)云數(shù)據(jù)的稀疏性和離散性,因此Voxel R-CNN使用體素網(wǎng)格劃分的方法進(jìn)行點(diǎn)云數(shù)據(jù)的處理,并對(duì)體素網(wǎng)格進(jìn)行平均體素特征編碼MeanVFE(Mean Voxel Feature Encoding),如圖2所示。

        由于點(diǎn)云數(shù)據(jù)的稀疏性,大部分體素網(wǎng)格為空網(wǎng)格。因此在3D主干網(wǎng)絡(luò)中Voxel R-CNN算法通過(guò)輸入體素特征及體素坐標(biāo)形成稀疏張量,并使用子流形卷積與稀疏卷積進(jìn)行特征的提取,大大減少計(jì)算量并提高了卷積效率。

        1.2 2D特征提取及RPN模塊

        3D主干網(wǎng)絡(luò)逐漸將體素化的輸入轉(zhuǎn)換成特征體,輸出張量沿Z軸堆疊產(chǎn)生BEV特征圖。2D主干網(wǎng)絡(luò)由自頂向下的特征提取子網(wǎng)絡(luò)、多尺度特征融合子網(wǎng)絡(luò)兩部分組成,如圖3所示。

        多尺度特征融合子網(wǎng)絡(luò)對(duì)自上而下的特征進(jìn)行上采樣和連接,2D主干網(wǎng)絡(luò)的輸出通過(guò)RPN生成3D候選區(qū)域。

        1.3 體素ROI池化

        由于3D特征體積結(jié)構(gòu)的稀疏性(非空體素所占空間小于3%),Voxel R-CNN將3D候選區(qū)域劃分為子體素,并將相鄰體素的特征整合到網(wǎng)格點(diǎn)中進(jìn)行特征提取。Voxel R-CNN利用體素ROI池化從3D主干網(wǎng)絡(luò)的后兩階段提取體素特征,同時(shí)對(duì)于每個(gè)階段設(shè)置曼哈頓距離閾值對(duì)多個(gè)尺度的體素進(jìn)行分組,然后將不同階段尺度匯集的特征進(jìn)行拼接得到3D ROI特征。

        1.4 檢測(cè)頭

        檢測(cè)頭部分以3DROI特征作為輸入進(jìn)行預(yù)測(cè)框的細(xì)化,共享的兩層MLP(Multi-Layer Perceptron)將3D ROI特征轉(zhuǎn)換成特征向量,將特征用于3D預(yù)測(cè)框回歸與置信度預(yù)測(cè)中,最終得到3D預(yù)測(cè)框的質(zhì)心坐標(biāo)[cx,cy,cz],長(zhǎng)寬高[h,w,l],航向角[θ]等參數(shù)。

        2 Voxel R-CNN模型改進(jìn)

        2.1 基于注意力機(jī)制改進(jìn)的2D主干網(wǎng)絡(luò)

        在VoxelR-CNN模型中,2D主干網(wǎng)絡(luò)應(yīng)用于在BEV特征圖中提取特征,并且通過(guò)RPN產(chǎn)生3D候選區(qū)域。在原始的2D主干網(wǎng)絡(luò)中,不同層級(jí)的多個(gè)大小尺度[Ci],在經(jīng)過(guò)橫向連接轉(zhuǎn)換通道數(shù)后與2倍上采樣后的特征[Ci+1]進(jìn)行拼接作為2D主干網(wǎng)絡(luò)的融合特征,從而輸出最終的特征圖[Mi],其計(jì)算過(guò)程可以表示為

        [Mi=h(fCi,D2(Ci+1))]

        其中,[f]代表1x1卷積層,用于轉(zhuǎn)換特征圖的通道數(shù);[D2]表示2倍上卷積操作;[h]表示通道的拼接。

        為避免BEV特征圖中多變的背景信息對(duì)于特征提取過(guò)程的干擾,我們采用基于通道的注意力機(jī)制作為2D主干網(wǎng)絡(luò)中對(duì)于特征的約束模塊,以增強(qiáng)對(duì)于模型對(duì)于特征圖中前景特征的提取能力。增強(qiáng)后的結(jié)果通過(guò)殘差塊并使用多尺度方法與2倍上采樣的上層特征進(jìn)行特征融合,計(jì)算過(guò)程可以表示為:

        [Mi=h(fCi+S(Ci),D2(Ci+1))]

        其中,[S]代表基于通道的注意力機(jī)制模塊,用于強(qiáng)化對(duì)特征的選擇約束。

        我們采用SENet[7](Squeeze-and-Excitation Networks)實(shí)現(xiàn)對(duì)于通道級(jí)別的注意力機(jī)制。SENet將[H×W×C]的輸入經(jīng)過(guò)全局平均池化壓縮為[1×1×C],通過(guò)兩層全連接層將其轉(zhuǎn)化為對(duì)應(yīng)通道的權(quán)重,權(quán)重值經(jīng)過(guò)Sigmod激活乘到原輸入特征上,其結(jié)構(gòu)如圖5所示。本文將第一層全連接層的通道壓縮比設(shè)置為16,即[r=16]。

        改進(jìn)后的2D主干網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。通過(guò)通道注意力機(jī)制的特征約束,使2D主干網(wǎng)絡(luò)能夠更好地提取前景點(diǎn)特征,減小背景點(diǎn)對(duì)于特征提取的影響。

        2.2 基于多尺度改進(jìn)的體素ROI池化層

        Voxel R-CNN的3D主干網(wǎng)絡(luò)中,輸入點(diǎn)云數(shù)據(jù)被劃分成子體素,其中非空體素的特征通過(guò)平均體素特征編碼計(jì)算內(nèi)部所有點(diǎn)的特征向量均值,經(jīng)3D稀疏卷積提取語(yǔ)義信息,并在這一過(guò)程中將體素化點(diǎn)云特征逐漸轉(zhuǎn)換成不同尺度的特征體。

        VoxelR-CNN將2D主干網(wǎng)絡(luò)及RPN模塊所產(chǎn)生的3D候選區(qū)域劃分為子體素,并將相鄰體素的特征整合到網(wǎng)格點(diǎn)中進(jìn)行特征提取,從而避免三維特征體的稀疏性對(duì)池化的影響。VoxelR-CNN算法從3D主干網(wǎng)絡(luò)的最后兩階段提取體素特征進(jìn)行分組和特征拼接,如圖7(a)所示??紤]低層網(wǎng)絡(luò)感受野小,幾何細(xì)節(jié)信息表征能力強(qiáng)的特點(diǎn),在這一階段,我們從3D主干網(wǎng)絡(luò)的后四層進(jìn)行體素特征的提取并進(jìn)行多尺度特征融合,從而使改進(jìn)后的點(diǎn)云目標(biāo)檢測(cè)算法更適用于行人以及騎車人目標(biāo)等小目標(biāo)的檢測(cè)場(chǎng)景,改進(jìn)后的結(jié)構(gòu)如圖7(b)所示。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)環(huán)境

        實(shí)驗(yàn)平臺(tái)為Intel Xeon E5-2620 v4、NVIDIA GeForce RTX 2080 Ti、32GB內(nèi)存,在Ubuntu 18.04.3和Python3.8下搭建CUDA 10.1、CUDNN 8.0.1、Pytorch 1.5.1深度學(xué)習(xí)環(huán)境。實(shí)驗(yàn)采用目前公開(kāi)規(guī)模最大的交通場(chǎng)景數(shù)據(jù)集KITTI,自動(dòng)駕駛KITTI數(shù)據(jù)集包含鄉(xiāng)村、市區(qū)和高速公路場(chǎng)景的真實(shí)場(chǎng)景和點(diǎn)云數(shù)據(jù),每個(gè)場(chǎng)景中根據(jù)遮擋和截?cái)嗟某潭龋瑒澐譃楹?jiǎn)單(Esay)、中等(Moderate)、簡(jiǎn)單(Hard)三個(gè)等級(jí)。該數(shù)據(jù)集共有7481個(gè)場(chǎng)景對(duì)應(yīng)相應(yīng)點(diǎn)云數(shù)據(jù)與圖像,本次實(shí)驗(yàn)按照Voxel R-CNN的數(shù)據(jù)集劃分結(jié)構(gòu)將其劃分為3712份訓(xùn)練集與3769份驗(yàn)證集。

        3.2 3D目標(biāo)檢測(cè)精度對(duì)比

        采用改進(jìn)后的2D主干網(wǎng)絡(luò)與體素ROI池化層與原VoxelR-CNN算法進(jìn)行車輛、行人以及騎車人的目標(biāo)檢測(cè)精度結(jié)果對(duì)比。實(shí)驗(yàn)使用兩塊NVIDIA GeForce RTX 2080 Ti進(jìn)行,每塊顯卡設(shè)置batch_size為2,并對(duì)于所有樣本訓(xùn)練迭代80次,在11個(gè)召回點(diǎn)的條件下對(duì)車輛、行人以及騎車人目標(biāo)3D預(yù)測(cè)框的平均精度([AP3D(%)])作為評(píng)估指標(biāo),共進(jìn)行3次實(shí)驗(yàn),并對(duì)實(shí)驗(yàn)結(jié)果取平均值作為最終指標(biāo)。將改進(jìn)后的模型與現(xiàn)有的3D點(diǎn)云目標(biāo)檢測(cè)模型在KITTI評(píng)估集上的檢測(cè)結(jié)果對(duì)比,結(jié)果分別如表1、表2和表3所示。

        其中VoxelNet是基于體素的方法,PointRCNN是基于點(diǎn)的方法,F(xiàn)rustum ConvNet[8]是基于視錐特征融合的方法。從表1可知,改進(jìn)后的Voxel R-CNN算法與先前算法相比獲得了最高的車輛目標(biāo)檢測(cè)精度,從表2、表3可知,與原算法相比在行人中等目標(biāo)的識(shí)別精度提高了1.38%,在騎車人中等目標(biāo)的識(shí)別精度提高了1.19%,在行人以及騎車人的平均檢測(cè)精度分別上升0.97%和0.83%,并在四種算法中獲得了對(duì)于行人及其騎車人目標(biāo)的最高平均檢測(cè)精度。

        3.3 3D目標(biāo)檢測(cè)可視化與分析

        對(duì)于VoxelR-CNN輸出得到的質(zhì)心坐標(biāo)[cx,cy,cz],長(zhǎng)寬高[h,w,l],航向角[θ]行人目標(biāo)的檢測(cè)結(jié)果進(jìn)行可視化分析,如圖8所示。由可視化結(jié)果可以看出,場(chǎng)景中的行人目標(biāo)均可被準(zhǔn)確識(shí)別。在距激光雷達(dá)采樣距離較遠(yuǎn)的行人目標(biāo),即使點(diǎn)云較為稀疏也仍可進(jìn)行識(shí)別。

        4 結(jié)束語(yǔ)

        針對(duì)VoxelR-CNN中對(duì)于行人以及騎車人3D目標(biāo)檢測(cè)定位不準(zhǔn)確、精度不高的問(wèn)題,本文通過(guò)構(gòu)建VoxelR-CNN模型實(shí)現(xiàn)對(duì)于點(diǎn)云的3D目標(biāo)檢測(cè),并在原有模型中進(jìn)行相應(yīng)的改進(jìn)。在2D主干網(wǎng)絡(luò)中,利用注意力機(jī)制實(shí)現(xiàn)特征約束,并在體素ROI池化層改進(jìn)多尺度采樣方式提高對(duì)于較小目標(biāo)的3D檢測(cè)精度。相比原VoxelR-CNN算法,改進(jìn)后的算法對(duì)行人目標(biāo)的檢測(cè)精度平均提高了0.97%,對(duì)騎車人目標(biāo)的檢測(cè)精度平均提高了0.83%。然而由于VoxelR-CNN是由BEV特征圖生成3D候選區(qū)域,所以原始點(diǎn)云數(shù)據(jù)的Z軸信息有所損失。同樣距離較遠(yuǎn)的點(diǎn)云數(shù)據(jù)由于非常稀疏,所以難以預(yù)測(cè)其準(zhǔn)確位置及其航向角。在后續(xù)研究中將繼續(xù)對(duì)模型進(jìn)行完善,逐步改善并解決相應(yīng)的問(wèn)題。

        參考文獻(xiàn)(References):

        [1] Zhou, Yin, Tuzel, et al. Voxelnet: End-to-end learning for point cloud based 3d object detection[J]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2018:4490-4499

        [2] Yan Y, Mao Y, Li B. SECOND: Sparsely Embedded Convolutional Detection[J]//Sensors,2018,18(10):3337

        [3] Lang, A. H., Vora, et al. PointPillars: Fast Encoders for Object Detection From Point Clouds[J].//IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),2019:12697-12705

        [4] Shi, S., Wang, et al. PointRCNN: 3D Object Proposal Generation and Detection From Point Cloud.[J]// IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),2019:770-779

        [5] Shi, S., Guo, et al. PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection[J].//IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),2020:10529-10538

        [6] Deng, J., Shi, et al. Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection[J]//AAAI Conference on Artificial Intelligence,2021,35(2):1201-1209

        [7] Jie H, Li S, Gang S, et al. Squeeze-and-Excitation Networks[J]. //IEEE Transactions on Pattern Analysis and Machine Intelligence,2017(99)

        [8] Wang Z, Jia K. Frustum ConvNet: Sliding Frustums to Aggregate Local Point-Wise Features for Amodal[C]// 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE,2019

        猜你喜歡
        騎車人體素主干
        基于超體素聚合的流式細(xì)胞術(shù)自動(dòng)門控方法
        全球首條1.2T超高速下一代互聯(lián)網(wǎng)主干通路
        軍事文摘(2024年2期)2024-01-10 01:58:34
        基于多級(jí)細(xì)分的彩色模型表面體素化算法
        抓主干,簡(jiǎn)化簡(jiǎn)單句
        二代支架時(shí)代數(shù)據(jù)中糖尿病對(duì)無(wú)保護(hù)左主干患者不同血運(yùn)重建術(shù)預(yù)后的影響
        運(yùn)用邊界狀態(tài)約束的表面體素加密細(xì)分算法
        高齡無(wú)保護(hù)左主干病變患者血運(yùn)重建術(shù)的長(zhǎng)期預(yù)后
        基于體素格尺度不變特征變換的快速點(diǎn)云配準(zhǔn)方法
        “熱心市民”載民警去抓人結(jié)果自己被抓了
        新傳奇(2019年51期)2019-05-13 14:30:43
        91久久精品国产性色tv | 无码人妻少妇久久中文字幕蜜桃 | 手机在线国产福利av| 草草影院发布页| 欧美另类高清zo欧美| 国产精品美女白浆喷水| 亚洲av永久综合网站美女| 日本人妻免费一区二区三区| 亚洲人成网站色www| 国产乱人视频在线看| 一区二区三区中文字幕有码| 亚洲国产精品久久无人区| 久久久亚洲精品无码| 欧美自拍区| 精品国产97av一区二区三区| 国产肥熟女免费一区二区| 波多野42部无码喷潮| 国产福利酱国产一区二区| 国产网红一区二区三区| 中文无码av一区二区三区| 大肉大捧一进一出视频出来呀| 亚洲VA中文字幕欧美VA丝袜| 国成成人av一区二区三区| 亚洲国产精品成人久久| 狼色精品人妻在线视频| 亚洲欧洲美洲无码精品va| 亚洲自拍偷拍一区二区三区| 中文天堂国产最新| 国产一级大片免费看| 一本色道亚州综合久久精品| 国产极品美女高潮无套| 亚洲人成色777777老人头| 精品久久久久88久久久| 在线人妻va中文字幕| 久久综合丝袜日本网| 成人动漫久久| 日本午夜伦理享色视频| 亚洲理论电影在线观看| 狠狠久久亚洲欧美专区| 日本一区二区三区在线观看免费 | 成人午夜性a级毛片免费|