亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于雙向特征金字塔的數(shù)據(jù)融合目標(biāo)檢測(cè)網(wǎng)絡(luò)

        2023-07-01 06:36:42張浩鈞郭建峰張錦忠柴博松侯詩(shī)夢(mèng)張學(xué)成
        關(guān)鍵詞:特征提取卷積維度

        張浩鈞,郭建峰,張錦忠,柴博松,侯詩(shī)夢(mèng),張學(xué)成

        (1.上海無線電設(shè)備研究所,上海 201109;2.西安郵電大學(xué) 經(jīng)濟(jì)與管理學(xué)院,陜西 西安 710061;3.西北工業(yè)大學(xué) 軟件學(xué)院,陜西 西安 710072;4.陸軍裝備部駐上海地區(qū)第三軍事代表室,上海 200032)

        自動(dòng)駕駛技術(shù)依靠環(huán)境感知、人工智能、視覺計(jì)算、雷達(dá)監(jiān)控等相關(guān)設(shè)備自動(dòng)駕駛車輛。目前,自動(dòng)駕駛的感知技術(shù)利用多傳感器,如相機(jī)、激光雷達(dá)和紅外雷達(dá)等獲取環(huán)境信息。在檢測(cè)任務(wù)中,傳感器所獲取的信息也被稱為模態(tài)數(shù)據(jù),不同的模態(tài)數(shù)據(jù)具備不同的特性。如何準(zhǔn)確檢測(cè)立體場(chǎng)景中的三維目標(biāo)逐漸成為目標(biāo)檢測(cè)任務(wù)的研究熱點(diǎn)。隨著激光雷達(dá)的廣泛應(yīng)用,點(diǎn)云數(shù)據(jù)能夠包含檢測(cè)對(duì)象的三維信息,可以得到更為準(zhǔn)確的物體空間信息,并且點(diǎn)云數(shù)據(jù)不受光照影響,立體目標(biāo)檢測(cè)任務(wù)可以使用激光雷達(dá)的點(diǎn)云數(shù)據(jù)進(jìn)行檢測(cè)。

        在自動(dòng)駕駛領(lǐng)域,進(jìn)行目標(biāo)檢測(cè)的算法主要有以下3種思路。

        第一,利用圖像數(shù)據(jù)進(jìn)行檢測(cè)。例如,采用快速的基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(Fast Region-based Convolutional Network,Fast RCNN)、更快速的基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(Faster Region-based Convolutional Network,Faster RCNN)、統(tǒng)一實(shí)時(shí)目標(biāo)檢測(cè)(You Only Look Once,YOLO)、單次多邊框檢測(cè)(Single Shot MultiBox Detector,SSD)等目標(biāo)檢測(cè)算法[1-4]對(duì)圖像數(shù)據(jù)進(jìn)行檢測(cè)。目前,該類方法目標(biāo)檢測(cè)的精度和速度均不斷提高,但是,由于相機(jī)圖像數(shù)據(jù)為二維數(shù)據(jù),當(dāng)應(yīng)用于自動(dòng)駕駛領(lǐng)域的檢測(cè)時(shí),難以獲得三維目標(biāo)的空間定位。一種解決辦法是在3D單目(Monocular 3D,Mono3D)[5]網(wǎng)絡(luò)中依賴圖像數(shù)據(jù)生成深度信息,以補(bǔ)足二維圖像數(shù)據(jù)缺乏的維度信息,然后,憑借補(bǔ)足后的圖像數(shù)據(jù)和深度信息完成檢測(cè)任務(wù)。

        第二,利用激光雷達(dá)數(shù)據(jù)進(jìn)行檢測(cè)。由于激光雷達(dá)數(shù)據(jù)具有豐富的三維信息,可以根據(jù)這點(diǎn)來進(jìn)行三維目標(biāo)檢測(cè)。端到端的點(diǎn)云目標(biāo)檢測(cè)網(wǎng)絡(luò)VoxelNe網(wǎng)絡(luò)[6]的提出將點(diǎn)云數(shù)據(jù)進(jìn)行體素化,根據(jù)體素中是否包含目標(biāo),將每個(gè)體素賦值為1或0,然后,將三維卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于體素網(wǎng)格。應(yīng)用于3D分類和分割的點(diǎn)集深度學(xué)習(xí)(Deep Learning on Point Sets for 3D Classification and Segmentation,PointNet)網(wǎng)絡(luò)、度量空間中點(diǎn)集的深度分層特征學(xué)習(xí)(Deep Hierarchical Feature Learning on Point Sets in a Metric Space,PointNet++)網(wǎng)絡(luò)、點(diǎn)云的3D目標(biāo)生成與檢測(cè)(3D Object Proposal Generation and Detection from Point Cloud, Point RCNN)網(wǎng)絡(luò)[7-9]等算法直接對(duì)點(diǎn)云進(jìn)行處理,并進(jìn)行點(diǎn)云分類。但是,這種方法更多適用于室內(nèi)環(huán)境等小場(chǎng)景,當(dāng)應(yīng)用于自動(dòng)駕駛的復(fù)雜場(chǎng)景中時(shí),檢測(cè)效果不夠理想?;诩す饫走_(dá)點(diǎn)云的端到端實(shí)時(shí)三維物體邊界檢測(cè)YOLO 3D模型[10]借鑒二維目標(biāo)檢測(cè)思想,將激光雷達(dá)數(shù)據(jù)投影為點(diǎn)云俯視圖(Bird’s Eyes View,BEV),在俯視圖上進(jìn)行特征提取,然后,通過三維檢測(cè)框的方式進(jìn)行目標(biāo)分類和位置回歸,這種方法較VoxelNet檢測(cè)速度較快,但是,存在數(shù)據(jù)利用不充分的缺點(diǎn)。

        第三,利用激光雷達(dá)數(shù)據(jù)和圖像數(shù)據(jù)進(jìn)行融合檢測(cè)。自動(dòng)駕駛多模態(tài)的3D目標(biāo)檢測(cè)(Multi-view 3D Object Detection Network for Autonomous Driving,MV3D)網(wǎng)絡(luò)[11]首先將激光雷達(dá)數(shù)據(jù)投影為俯視圖與前視圖;其次,在BEV上生成候選區(qū)域,再將候選區(qū)域分別映射為3通道紅綠藍(lán)(Red Green Blue,RGB) 彩色圖像以及BEV與前視圖上,進(jìn)行感興趣區(qū)域的特征提取和特征融合;最后,利用檢測(cè)網(wǎng)絡(luò)進(jìn)行位置回歸和目標(biāo)分類?;谝晥D聚合的三維建議聯(lián)合生成和對(duì)象檢測(cè)(Joint 3D Proposal Generation and Object Detection from View Aggregation,AVOD)網(wǎng)絡(luò)[12]首先利用深度卷積網(wǎng)絡(luò)分別對(duì)三維點(diǎn)云數(shù)據(jù)的俯視圖與二維圖像進(jìn)行特征提取,然后,進(jìn)行目標(biāo)分類和位置回歸。在多傳感器三維目標(biāo)檢測(cè)的深度連續(xù)融合(Deep Continuous Fusion for Multi-Sensor 3D Object Detection,ContFuse)網(wǎng)絡(luò)[13]中,將三維點(diǎn)云數(shù)據(jù)的BEV與圖像數(shù)據(jù)通過連續(xù)卷積方式進(jìn)行融合,形成密集的鳥瞰圖數(shù)據(jù)。相較于MV3D方法,俯視圖包含更多信息,然后,針對(duì)密集俯視圖進(jìn)行位置回歸和目標(biāo)分類。文獻(xiàn)[14]提出點(diǎn)云網(wǎng)絡(luò)(Frustum Pointnets Network,F-PointNet),采用決策層融合進(jìn)行檢測(cè)。F-PointNet網(wǎng)絡(luò)利用二維目標(biāo)檢測(cè)算法對(duì)圖像數(shù)據(jù)進(jìn)行檢測(cè),并根據(jù)圖像的二維檢測(cè)結(jié)果來確定視錐,進(jìn)而確定目標(biāo)在點(diǎn)云中的空間位置,回歸計(jì)算出目標(biāo)的位置及尺寸。

        PointNet算法與PointNet++算法均對(duì)原始點(diǎn)云數(shù)據(jù)進(jìn)行檢測(cè)任務(wù),需要占用龐大的硬件計(jì)算資源和存儲(chǔ)資源,整體網(wǎng)絡(luò)的計(jì)算速度較慢。VoxelNet網(wǎng)絡(luò)對(duì)點(diǎn)云數(shù)據(jù)進(jìn)行體素編碼處理,檢測(cè)速度明顯優(yōu)于PointNet算法,然而,在計(jì)算過程中需要對(duì)空體素塊推算,計(jì)算速度相對(duì)YOLO3D算法較慢。

        該文針對(duì)單點(diǎn)云數(shù)據(jù)的三維目標(biāo)檢測(cè)算法存在的特征缺失,當(dāng)存在遮擋目標(biāo)時(shí),容易出現(xiàn)漏檢或誤檢的情況,以及多尺度目標(biāo)環(huán)境下小目標(biāo)檢測(cè)精度低等問題展開研究,擬提出一種基于多源數(shù)據(jù)融合的多尺度目標(biāo)檢測(cè)算法,對(duì)YOLO3D的主干網(wǎng)絡(luò)進(jìn)行改進(jìn),引入壓縮-解壓網(wǎng)絡(luò)(Squeeze-and-Excitation Networks,SeNet)方法[15],對(duì)圖像和BEV特征進(jìn)行提取并融合,構(gòu)建雙向特征金字塔處理(Feature Pyramid Network,FPN)融合帶來偏差的問題,從而達(dá)到對(duì)立體場(chǎng)景中的車輛等物體進(jìn)行有效檢測(cè)的目標(biāo)。

        1 YOLO 3D目標(biāo)檢測(cè)網(wǎng)絡(luò)

        作為三維目標(biāo)檢測(cè)網(wǎng)絡(luò),YOLO 3D網(wǎng)絡(luò)學(xué)習(xí)二維目標(biāo)檢測(cè)YOLOv2網(wǎng)絡(luò),利用二維點(diǎn)云俯視圖進(jìn)行三維目標(biāo)檢測(cè)。由于點(diǎn)云數(shù)據(jù)在空間中不會(huì)受到景深的影響,因此,YOLO 3D網(wǎng)絡(luò)將點(diǎn)云數(shù)據(jù)投影映射為俯視圖,并根據(jù)YOLOv2算法的特征提取網(wǎng)絡(luò)結(jié)構(gòu),對(duì)俯視圖特征進(jìn)行提取,然后,根據(jù)三維立體檢測(cè)框?qū)Ω┮晥D特征進(jìn)行類別確定及位置回歸計(jì)算。BEV三維特征圖及合成圖示意如圖1所示。

        圖1 BEV三維特征圖及合成圖示意

        YOLO 3D網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖2所示,從左至右依次為數(shù)據(jù)輸入單元模塊、特征提取網(wǎng)絡(luò)模塊、檢測(cè)向量模塊和目標(biāo)回歸計(jì)算模塊。在特征提取網(wǎng)絡(luò)模塊中,包含特征提取單元卷積層、批量正則化和激活函數(shù)(Conv,Batch Normalization,Leaky Relu,CBL)結(jié)構(gòu)塊由卷積層Conv,標(biāo)準(zhǔn)化層(Batch Normalization,BN)和激活函數(shù)層(Rectified Linear Unit,ReLU)組成。YOLO 3D網(wǎng)絡(luò)首先計(jì)算出點(diǎn)云俯視圖的高度特征與密度特征,形成608×608×2的特征圖,并將特征圖輸入DarkNet特征提取網(wǎng)絡(luò)中,然后,將經(jīng)特征提取之后的參數(shù)轉(zhuǎn)換為38×38×33的檢測(cè)向量,最后在計(jì)算檢測(cè)向量的過程中,分別求取不同類別目標(biāo)的檢測(cè)框及概率。

        圖2 3D目標(biāo)檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)示意圖

        2 改進(jìn)的數(shù)據(jù)融合目標(biāo)檢測(cè)網(wǎng)絡(luò)

        由于雷達(dá)點(diǎn)云數(shù)據(jù)對(duì)目標(biāo)的紋理判斷不準(zhǔn)確,在遇到遮擋目標(biāo)時(shí)不能夠準(zhǔn)確檢測(cè)目標(biāo)。針對(duì)此問題,對(duì)于YOLO 3D的單點(diǎn)云檢測(cè)算法進(jìn)行改進(jìn),構(gòu)建出一種基于激光點(diǎn)云與圖像數(shù)據(jù)融合,具有注意力殘差結(jié)構(gòu)的目標(biāo)檢測(cè)網(wǎng)絡(luò)(ContFuse-SE-ResNet-YOLO 3D,CFSR-YOLO 3D)。

        CFSR-YOLO 3D網(wǎng)絡(luò)利用殘差網(wǎng)絡(luò)結(jié)構(gòu)ResNet[16],使得神經(jīng)網(wǎng)絡(luò)在進(jìn)行特征提取的過程中能夠逼近于特征提取前的參數(shù),以避免由于多層次卷積結(jié)構(gòu)所導(dǎo)致的數(shù)據(jù)丟失和過多參數(shù)導(dǎo)致的過擬合情況。采用的ResNet的網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖3所示。對(duì)于輸入的x,經(jīng)過兩層卷積層處理之后所得到的輸出結(jié)果為F(x),通過殘差結(jié)構(gòu)之后的輸出結(jié)果為F(x)+x。經(jīng)過殘差短接之后,下層的殘差網(wǎng)絡(luò)結(jié)構(gòu)輸入受上層的影響,能夠接收原始數(shù)據(jù)的增益,整體網(wǎng)絡(luò)在最終計(jì)算時(shí),能夠綜合前向的數(shù)據(jù)傳遞,不會(huì)因?yàn)榻?jīng)激活函數(shù)之后的參數(shù)過量造成過擬合情況的發(fā)生,導(dǎo)致出現(xiàn)無法收斂的情況。

        圖3 ResNet網(wǎng)絡(luò)結(jié)構(gòu)示意圖

        使用殘差網(wǎng)絡(luò)結(jié)構(gòu)對(duì)原數(shù)據(jù)進(jìn)行提取,能夠得到特征處理前的參數(shù)回饋,從而改善網(wǎng)絡(luò)中對(duì)于數(shù)據(jù)的處理變換所造成丟失的情況,使得在神經(jīng)網(wǎng)絡(luò)在進(jìn)行特征提取的過程中,更加貼切所需要提取的數(shù)據(jù),以避免多層次的特征提取之后,喪失了對(duì)于原數(shù)據(jù)的特征表達(dá)。

        2.1 通道注意力殘差網(wǎng)絡(luò)

        在YOLO網(wǎng)絡(luò)中,采用卷積神經(jīng)網(wǎng)絡(luò)來進(jìn)行特征提取,在YOLOv2中采用DarkNet19來進(jìn)行檢測(cè)。在VGG16[17]、ResNet101和ResNet152方法中,多采用堆疊網(wǎng)絡(luò)深度來提高檢測(cè)效果,在YOLOv3中同樣采用了增加網(wǎng)絡(luò)深度的方式來提高檢測(cè)。為了提高檢測(cè)效果,同時(shí),避免帶來龐大的計(jì)算資源消耗,采用SeNet網(wǎng)絡(luò)來替代YOLO 3D中卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取。SeNet是一種具有注意力機(jī)制的網(wǎng)絡(luò)。SeNet網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖4所示。圖中,x表示輸入,c表示網(wǎng)絡(luò)的通道數(shù),h表示網(wǎng)絡(luò)的高度,w表示網(wǎng)絡(luò)的寬度。對(duì)于輸入x,首先通過池化層(pooling);其次,經(jīng)過兩層全連接層(Full Connection);再次,通過一個(gè)S型(Sigmoid)激活函數(shù)獲得0~1之間的歸一化權(quán)重;最后,通過Scale操作將歸一化后的權(quán)重加權(quán)到每個(gè)通道的特征上。

        圖4 SeNet網(wǎng)絡(luò)結(jié)構(gòu)示意圖

        對(duì)于卷積神經(jīng)網(wǎng)絡(luò),卷積操作的計(jì)算核心為卷積算子,是利用卷積核從輸入特征圖中學(xué)習(xí)新特征圖的過程。從本質(zhì)上講,卷積是對(duì)一個(gè)局部區(qū)域進(jìn)行特征融合,包括從空間上(高度維度h和寬度維度w)以及通道上(通道數(shù)c維度)的特征融合。在網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)過程中,若未針對(duì)性地對(duì)特征進(jìn)行檢測(cè),將會(huì)花費(fèi)大量無效的時(shí)間。在訓(xùn)練學(xué)習(xí),采用注意力機(jī)制能夠提高計(jì)算中對(duì)于相關(guān)資源的傾向性[18]。使用空間注意力機(jī)制和通道注意力機(jī)制[19-20],能夠提高神經(jīng)網(wǎng)絡(luò)對(duì)于有效特征的提取。

        空間注意力機(jī)制典型網(wǎng)絡(luò)以空間變形器網(wǎng)絡(luò)(Spatial Transformer Networks,STN)[21]和動(dòng)態(tài)容量網(wǎng)絡(luò)(Dynamic Capacity Networks,DCN)[22]代表。以STN為例,在經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)中,顯式學(xué)習(xí)空間中的平移具有不變性,但是,對(duì)于大尺度圖像而言,并不具備空間平移不變性。而在STN網(wǎng)絡(luò)中,通過給圖片特征施加仿射變換等方式,使得圖像特征能夠建立起平移不變性、旋轉(zhuǎn)不變性及縮放不變性。在SeNet網(wǎng)絡(luò)中,通過分配給每個(gè)卷積通道之間不同的資源,能夠提高有效資源的獲取效率。SeNet網(wǎng)絡(luò)顯式地建模特征通道之間的相互依賴關(guān)系,通過訓(xùn)練學(xué)習(xí)的方式來自動(dòng)獲取每個(gè)特征通道的重要程度,然后,依照重要程度去增強(qiáng)有用的特征并抑制對(duì)當(dāng)前任務(wù)用處不大的特征,從而能夠減少整體網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)的錯(cuò)誤率,并且提高檢測(cè)的準(zhǔn)確性。

        2.2 激活函數(shù)的優(yōu)化

        由于ReLU函數(shù)的簡(jiǎn)單性和直接性,目前的卷積神經(jīng)網(wǎng)絡(luò)中多采用ReLU函數(shù)作為激活函數(shù)來使用。當(dāng)堆疊深層網(wǎng)絡(luò)時(shí),神經(jīng)元需要傳遞的參數(shù)較多,ReLU的門限函數(shù)使得當(dāng)前神經(jīng)元的值為負(fù)數(shù)時(shí),梯度不再進(jìn)行傳遞,出現(xiàn)神經(jīng)元“死亡”的情況。而Swish函數(shù)具有無上界、有下界、平滑、非單調(diào)的特性,并且在深層次的網(wǎng)絡(luò)中不會(huì)出現(xiàn)ReLU函數(shù)的神經(jīng)元“死亡”情況。

        針對(duì)ReLU激活函數(shù)在神經(jīng)網(wǎng)絡(luò)中易導(dǎo)致神經(jīng)元“死亡”的問題,使用Swish激活函數(shù)對(duì)通道注意力殘差網(wǎng)絡(luò)SE-ResNet中的ReLU函數(shù)進(jìn)行替換。盡管會(huì)因此加深網(wǎng)絡(luò)結(jié)構(gòu)深度,但是,在深層神經(jīng)網(wǎng)絡(luò)中使用Swish激活函數(shù)并不會(huì)發(fā)生神經(jīng)元“死亡”的情況。Swish函數(shù)中的超參數(shù)β可以通過網(wǎng)絡(luò)訓(xùn)練進(jìn)行自適應(yīng)學(xué)習(xí),能夠更加泛化地模擬神經(jīng)網(wǎng)絡(luò)的非線性情況,以提高網(wǎng)絡(luò)魯棒性。改進(jìn)激活函數(shù)后的通道注意力殘差網(wǎng)絡(luò)Swish-SE-ResNet網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖5所示。對(duì)于輸入的x經(jīng)過卷積操作(Conv)和標(biāo)準(zhǔn)化處理(Batch Normalization,BN)后分層處理,然后把處理后的結(jié)果進(jìn)行融合操作。

        圖5 Swish-SE-ResNet網(wǎng)絡(luò)結(jié)構(gòu)示意圖

        3 基于數(shù)據(jù)融合的目標(biāo)檢測(cè)網(wǎng)絡(luò)

        為了適應(yīng)在三維目標(biāo)檢測(cè)任務(wù)中多樣化的場(chǎng)景和多尺度目標(biāo),進(jìn)一步對(duì)改進(jìn)的YOLO 3D端到端目標(biāo)檢測(cè)網(wǎng)絡(luò)進(jìn)行調(diào)整,搭建CFSR-Bi-YOLO 3D多尺度數(shù)據(jù)融合目標(biāo)檢測(cè)網(wǎng)絡(luò)。根據(jù)不同大小和尺度目標(biāo)的檢測(cè)要求,將多源數(shù)據(jù)的融合過程進(jìn)行多層次增強(qiáng),并調(diào)整對(duì)不同尺度目標(biāo)的檢測(cè)框,通過分層檢測(cè)的方式檢測(cè)不同大小的目標(biāo)。

        3.1 構(gòu)建雙向特征金字塔

        根據(jù)FPN的分層理念,檢測(cè)網(wǎng)絡(luò)對(duì)不同的目標(biāo)采用不同尺度的檢測(cè),并綜合高維度與低維度的特征,將高維度的特征經(jīng)過上采樣之后融入低維度特征中,讓低維度特征在進(jìn)行檢測(cè)的同時(shí)接收到高緯度的語義信息,最終完成檢測(cè)任務(wù)。但是,FPN結(jié)構(gòu)僅采用了一次高維度向低維度的擴(kuò)張,并且在進(jìn)行不同維度特征間融合時(shí),使用均值的方式進(jìn)行融合,這對(duì)不同特征而言,融合之后會(huì)帶來一定的偏差。

        圖6 BiFPN網(wǎng)絡(luò)結(jié)構(gòu)示意圖

        為應(yīng)對(duì)FPN的均值融合存在的問題,將不同維度特征在融合過程中施加不同的偏置,從而使得融合之后特征能夠根據(jù)檢測(cè)任務(wù)的重點(diǎn),學(xué)習(xí)對(duì)不同融合特征的傾向,以實(shí)現(xiàn)更高級(jí)的特征融合。以第5層特征圖為例,第5層特征金字塔中的特征融合結(jié)果和輸出特征圖的計(jì)算表示式分別為

        (1)

        (2)

        (3)

        (4)

        3.2 數(shù)據(jù)預(yù)處理

        提出的目標(biāo)檢測(cè)網(wǎng)絡(luò)所使用數(shù)據(jù)集為KITTI數(shù)據(jù)集[23-24]。該點(diǎn)云數(shù)據(jù)集通過激光照射到物體表面獲取對(duì)目標(biāo)的距離信息的坐標(biāo)以及反射強(qiáng)度值。對(duì)于數(shù)據(jù)進(jìn)行如下處理。

        首先,將投影點(diǎn)云離散成一個(gè)分辨率為0.1 m/pixel的網(wǎng)格。對(duì)于每個(gè)單元格而言,高度特征被計(jì)算為該單元格點(diǎn)的最大高度,強(qiáng)度特征為每個(gè)單元中具有最大高度的點(diǎn)的反射率值,密度特征為每個(gè)單元中點(diǎn)的數(shù)量。然后,將高度特征、強(qiáng)度特征與密度特征合成為BEV圖像,高度特征、強(qiáng)度特征與密度特征分別為BEV圖像的不同通道,處理后的圖像示意圖如圖1所示。其中,高度特征為每個(gè)單元格中點(diǎn)云的最大高度值;強(qiáng)度特征是在每個(gè)單元格位置取得點(diǎn)云反射強(qiáng)度的最大值,并歸一化到0~255之間。

        對(duì)密度特征而言,由于點(diǎn)云分布特點(diǎn)是近多遠(yuǎn)少,導(dǎo)致在近處單元格中點(diǎn)云數(shù)量分布較多,遠(yuǎn)處的單元格點(diǎn)云數(shù)量分布較少,需要采用歸一化處理,歸一化后的密度值為

        (5)

        式中,N為單元格中點(diǎn)云的數(shù)量。

        3.3 多源數(shù)據(jù)多層次融合

        在原YOLO 3D三維目標(biāo)檢測(cè)方法中,將點(diǎn)云數(shù)據(jù)投影為俯視圖。該處理方法對(duì)于數(shù)據(jù)的利用不夠充分,為了使得激光雷達(dá)數(shù)據(jù)與圖像數(shù)據(jù)有效融合,采用連續(xù)卷積融合方案,輸出信息數(shù)據(jù)更加豐富的俯視圖特征。

        多源數(shù)據(jù)融合根據(jù)融合過程發(fā)生在不同的階段可分為特征層融合、決策層融合和混和階段融合等3種情況。由于激光雷達(dá)數(shù)據(jù)與圖像數(shù)據(jù)具有一定相關(guān)性,文中采用的融合策略為特征層融合。根據(jù)連續(xù)卷積融合方案,首先,構(gòu)建兩個(gè)學(xué)習(xí)流,采用SeNet網(wǎng)絡(luò)分別從圖像和BEV中提取特征;其次,通過深度參數(shù)連續(xù)卷積[25]將不同分辨率的圖像和BEV特征圖進(jìn)行融合;最后,利用改進(jìn)之后的YOLO網(wǎng)絡(luò)對(duì)融合后的特征進(jìn)行三維目標(biāo)檢測(cè)。整體網(wǎng)絡(luò)結(jié)構(gòu)及處理示意圖如圖7所示。

        圖7 整體網(wǎng)絡(luò)結(jié)構(gòu)及處理示意圖

        參數(shù)連續(xù)卷積是一種可以處理非網(wǎng)格結(jié)構(gòu)數(shù)據(jù)的深度學(xué)習(xí)網(wǎng)絡(luò)。參數(shù)連續(xù)卷積將標(biāo)準(zhǔn)的網(wǎng)格結(jié)構(gòu)的卷積擴(kuò)展到非網(wǎng)格結(jié)構(gòu)的數(shù)據(jù),同時(shí)保持高容量和低復(fù)雜度。其關(guān)鍵思想是利用多層感知器(Multi-Layer Perception,MPL)作為參數(shù)化核函數(shù)進(jìn)行連續(xù)卷積。該參數(shù)化核函數(shù)跨越了整個(gè)連續(xù)域。此外,利用有限數(shù)量的相鄰點(diǎn)上的加權(quán)求和來近似原本計(jì)算上禁止的連續(xù)卷積。

        每個(gè)鄰居根據(jù)其關(guān)于目標(biāo)點(diǎn)的相對(duì)幾何偏移量進(jìn)行不同的加權(quán)。具體而言,假設(shè)點(diǎn)j在點(diǎn)i的鄰居上建立索引,則點(diǎn)i處的連續(xù)卷積特征可以表示為

        (6)

        式中:MPL(·)表示多層感知器操作,其計(jì)算點(diǎn)i每個(gè)鄰點(diǎn)處的卷積權(quán)值,對(duì)每個(gè)鄰點(diǎn)處的卷積權(quán)值進(jìn)行求和;xi表示點(diǎn)i的坐標(biāo)信息;xj表示點(diǎn)i相關(guān)聯(lián)的的鄰居點(diǎn)j的連續(xù)坐標(biāo)信息;fj表示點(diǎn)j的輸入圖像特征。

        參數(shù)連續(xù)卷積的優(yōu)點(diǎn)是,利用標(biāo)準(zhǔn)卷積的概念從鄰近觀測(cè)中捕獲局部信息,而不需要可能導(dǎo)致幾何信息丟失的柵格化階段。對(duì)每個(gè)點(diǎn)云的點(diǎn)而言,MLP的輸入包含兩部分:一部分是通過將源激光雷達(dá)點(diǎn)投影到圖像平面上,提取出相應(yīng)的圖像特征,然后利用雙線性插值法得到了連續(xù)坐標(biāo)下的圖像特征;另一部分是激光雷達(dá)點(diǎn)和目標(biāo)像素之間的三維相鄰偏移??傮w而言,對(duì)于每個(gè)目標(biāo)像素,MLP操作通過對(duì)其所有相鄰像素的MLP操作的輸出進(jìn)行求加來輸出一個(gè)多維輸出特征。MLP的輸出特征通過元素方面的總和與前一層的BEV特征相結(jié)合,以融合多傳感器信息??梢詫Ⅻc(diǎn)i處的多維輸出特征可以表示為

        (7)

        式中,xi-xj為點(diǎn)j與目標(biāo)點(diǎn)i的三維偏移。

        參數(shù)連續(xù)卷積融合計(jì)算過程示意圖如圖8所示。

        圖8 參數(shù)連續(xù)卷積融合計(jì)算過程示意圖

        圖8中,參數(shù)連續(xù)卷積融合計(jì)算的計(jì)算步驟如下。

        步驟1針對(duì)BEV圖像的目標(biāo)像素,提取K個(gè)最近的雷達(dá)點(diǎn)。

        步驟2將BEV圖像的目標(biāo)像素和K個(gè)近鄰點(diǎn)映射在三維空間中。

        步驟3將三維空間的BEV圖像目標(biāo)像素與K個(gè)緊鄰點(diǎn),投影在圖像坐標(biāo)系下。

        步驟4找到BEV圖像的目標(biāo)像素對(duì)應(yīng)的圖像特征及三維偏移。

        步驟5將圖像特征與連續(xù)幾何偏移輸入MPL中,生成目標(biāo)像素特征。生成稀疏俯視圖和密集俯視圖對(duì)比如圖9所示??梢钥闯?密集俯視圖提取到更多細(xì)節(jié)目標(biāo)信息,目標(biāo)特征更加明顯。

        圖9 稀疏俯視圖和密集俯視圖對(duì)比

        利用通道注意力殘差提取單元SeNet對(duì)圖像特征和點(diǎn)云俯視圖特征進(jìn)行分流特征提取,提取后的特征向量為76×76×256維度、38×38×512維度和19×19×1 024維度等3種維度。將多源數(shù)據(jù)特征進(jìn)行多層次融合的步驟如下。

        步驟1讀取KITTI數(shù)據(jù)集所提供的配準(zhǔn)文件中的坐標(biāo)系轉(zhuǎn)換矩陣與偏移矩陣。

        步驟2計(jì)算投影矩陣。投影矩陣計(jì)算公式為

        Pvelo_to_im g=Prect_02Rrect_00(R|T)velo_to cam

        (8)

        式中:Prect 02為3×4矩陣,表示投影矩陣,從矯正后的0號(hào)相機(jī)坐標(biāo)系投影到2號(hào)坐標(biāo)系的圖像平面;Rrect 00為3×3矩陣,表示矯正0號(hào)相機(jī)的偏移矩陣;(R|T)velo to cam為3×3矩陣,表示從雷達(dá)點(diǎn)云坐標(biāo)系向0號(hào)相機(jī)坐標(biāo)系的轉(zhuǎn)化矩陣。

        (9)

        式中,Pvelo_to_img表示3×3的點(diǎn)云投影圖像矩陣。

        (10)

        式中:n表示特征層層級(jí)數(shù);MLP操作表示多層感知器操作,即連續(xù)卷積網(wǎng)絡(luò)中的全連接的核函數(shù)計(jì)算過程,MLP操作將空間點(diǎn)所對(duì)應(yīng)圖像的特征相結(jié)合。

        4 實(shí)驗(yàn)與分析

        4.1 實(shí)驗(yàn)對(duì)象與條件

        實(shí)驗(yàn)對(duì)為KITTI目標(biāo)檢測(cè)數(shù)據(jù)集。KITTI數(shù)據(jù)為激光雷達(dá)點(diǎn)云數(shù)據(jù)和圖像數(shù)據(jù),其中,點(diǎn)云數(shù)據(jù)集是由Velodyne 64線激光雷達(dá)獲取的點(diǎn)云數(shù)據(jù)集,共包含7 481個(gè)訓(xùn)練集數(shù)據(jù)和7 518個(gè)測(cè)試集數(shù)據(jù)。訓(xùn)練集中用作訓(xùn)練及評(píng)估的比例為80∶20,其中的20%用作訓(xùn)練過程中的評(píng)估驗(yàn)證。根據(jù)KITTI數(shù)據(jù)集中對(duì)于交并比(Intersection over Union,IoU)的規(guī)范,設(shè)定所屬目標(biāo)中汽車的IoU為0.7,行人和騎行者IoU為0.5。點(diǎn)云文件被裁減到以激光雷達(dá)為原點(diǎn),橫縱坐標(biāo)分別為[-40,-40]×[0,70] m的范圍內(nèi)。在三維目標(biāo)檢測(cè)任務(wù)中,KITTI數(shù)據(jù)集為每個(gè)場(chǎng)景中的每個(gè)可識(shí)別目標(biāo)提供了三維目標(biāo)檢測(cè)框的標(biāo)注。

        實(shí)驗(yàn)使用Ubuntu 16.04系統(tǒng),采用Pytorch 1.3.0 深度學(xué)習(xí)框架,CPU為 Intel(R) Xeon(R) Silver 4110,GPU為Quadro P5000,開發(fā)工具為Pycharm+Anaconda,Python版本為3.6。訓(xùn)練階段初始學(xué)習(xí)率調(diào)整為0.01,訓(xùn)練迭代次數(shù)epoch設(shè)定為200次。

        同場(chǎng)景下二維、三維及點(diǎn)云目標(biāo)檢測(cè)示意圖如圖10所示。其中,圖10(a)為檢測(cè)目標(biāo)在圖像中的二維檢測(cè)框位置;圖10(b)為檢測(cè)目標(biāo)在圖像中三維檢測(cè)框的位置;圖10(c)為檢測(cè)目標(biāo)在點(diǎn)云數(shù)據(jù)下的三維檢測(cè)框信息,圖10(c)中方框?yàn)楦鶕?jù)標(biāo)注信息所繪制。可以看出,點(diǎn)云目標(biāo)的空間信息更為準(zhǔn)確,且不易受透視遮擋的影響。

        圖10 同場(chǎng)景下二維、三維及點(diǎn)云目標(biāo)檢測(cè)示意圖

        4.2 評(píng)價(jià)指標(biāo)

        目標(biāo)檢測(cè)的評(píng)價(jià)指標(biāo)為目標(biāo)三維檢測(cè)精度和目標(biāo)俯視圖檢測(cè)精度。評(píng)估檢測(cè)結(jié)果的指標(biāo)為平均精度(Average Precision,AP),AP值的計(jì)算方式為檢測(cè)網(wǎng)絡(luò)輸出的檢測(cè)準(zhǔn)確率與召回率曲線(Precision Recall,P-R)曲線與坐標(biāo)軸所構(gòu)成的積分值。準(zhǔn)確率的計(jì)算與樣本中所有檢測(cè)準(zhǔn)確的數(shù)量有關(guān)。召回率Recall與所有真實(shí)檢測(cè)物體的數(shù)量有關(guān)。準(zhǔn)確率PA和召回率PC的計(jì)算公式分別為

        (11)

        (12)

        式中:PT表示檢測(cè)為正確,真實(shí)為正確的案例;PF表示檢測(cè)為正確,真實(shí)為錯(cuò)誤的案例;NF表示檢測(cè)為錯(cuò)誤,真實(shí)為正確的案例;NT表示檢測(cè)為錯(cuò)誤,真實(shí)為錯(cuò)誤的案例。

        4.3 消融實(shí)驗(yàn)

        在將端到端的目標(biāo)檢測(cè)網(wǎng)絡(luò)延伸至三維目標(biāo)中,針對(duì)三維目標(biāo)檢測(cè)中不同尺度間目標(biāo)維度差別過大,小目標(biāo)難以檢測(cè)的問題,在網(wǎng)絡(luò)結(jié)構(gòu)中利用殘差網(wǎng)絡(luò)結(jié)構(gòu)與雙向特征金字塔結(jié)構(gòu)。將經(jīng)典的特征金字塔結(jié)構(gòu)網(wǎng)絡(luò)的單向數(shù)據(jù)流動(dòng)方式改為雙向數(shù)據(jù)流動(dòng)方式,構(gòu)建了CFSR-Bi-YOLO 3D網(wǎng)絡(luò)。為了驗(yàn)證所提網(wǎng)絡(luò)CFSR-Bi-YOLO 3D數(shù)據(jù)融合目標(biāo)檢測(cè)網(wǎng)絡(luò)中每個(gè)模塊的有效性,分別進(jìn)行消融實(shí)驗(yàn)對(duì)比,通過消融實(shí)驗(yàn)驗(yàn)證每一個(gè)模塊對(duì)于所提方法的貢獻(xiàn)。

        記錄檢測(cè)網(wǎng)絡(luò)對(duì)汽車(Car)、騎行者(Cyclists) 和行人 (Pedestrians)等3類目標(biāo)不同模塊的3D平均精度和俯視圖平均檢測(cè)精度(不同模塊的三維目標(biāo)和俯視圖目標(biāo)的檢測(cè)平均精度,是指各類別精度的平均值),并統(tǒng)計(jì)檢測(cè)速率。不同模塊三維目標(biāo)檢測(cè)平均精度對(duì)比結(jié)果及不同模塊俯視圖目標(biāo)檢測(cè)平均精度對(duì)比結(jié)果分別如表1與表2所示。其中:“+Res”表示引入殘差結(jié)構(gòu);“+SE”表示引入通道注意力;“+BiFPN”表示引入BiFPN結(jié)構(gòu);“+Swish”表示引入Swish激活函數(shù);FPS表示每秒內(nèi)算法所能夠檢測(cè)幀的數(shù)量。

        表1 不同模塊三維目標(biāo)檢測(cè)平均精度對(duì)比結(jié)果

        表2 不同模塊俯視圖目標(biāo)檢測(cè)平均精度對(duì)比結(jié)果

        從表1和表2可以看出,使用殘差結(jié)構(gòu)與BiFPN結(jié)構(gòu)可以提高三維目標(biāo)檢測(cè)網(wǎng)絡(luò)中小目標(biāo)檢測(cè)準(zhǔn)確率,三維目標(biāo)檢測(cè)的小目標(biāo)準(zhǔn)確率提升2%,俯視圖目標(biāo)檢測(cè)的小目標(biāo)準(zhǔn)確率提升1%。這是因?yàn)?采用該方法可以將圖像特征與點(diǎn)云特征進(jìn)行分流提取和分層融合,利用雙向特征金字塔結(jié)構(gòu)增強(qiáng)融合不同維度特征,并劃分不同單元對(duì)多尺度目標(biāo)進(jìn)行檢測(cè)。BiFPN結(jié)構(gòu)在不同維度下的特征相互傳遞過程中,將高維度特征的語義信息通過上采樣向低維度特征傳遞,將低維度的定位信息利用下采樣的方式傳遞給高維度特征,能夠在原單一維度特征基礎(chǔ)上,綜合來自不同維度的特征,讓圖像不同維度特征獲得更加豐富的表達(dá)。

        4.4 不同檢測(cè)方法對(duì)比

        在消融實(shí)驗(yàn)之后,采用不同方法對(duì)數(shù)據(jù)集中的二維目標(biāo)、三維目標(biāo)及點(diǎn)云目標(biāo)等3類目標(biāo)的立體檢測(cè)精度和俯視圖中目標(biāo)的檢測(cè)精度分別進(jìn)行試驗(yàn)對(duì)比。不同模塊的三維目標(biāo)和俯視圖目標(biāo)對(duì)比實(shí)驗(yàn)結(jié)果分別如表3和表4所示。

        表3 不同方法三維目標(biāo)檢測(cè)平均精度對(duì)比結(jié)果

        表4 不同方法俯視圖目標(biāo)檢測(cè)平均精度對(duì)比結(jié)果

        由表3和表4可以看出,所構(gòu)建的CFSR-Bi-YOLO 3D數(shù)據(jù)融合目標(biāo)檢測(cè)網(wǎng)絡(luò),較YOLO 3D網(wǎng)絡(luò)的三維目標(biāo)檢測(cè)所有類別平均精度提升1.46%,俯視圖目標(biāo)檢測(cè)所有類別平均精度提升1.01%;較單圖像源Pseudo-LiDar檢測(cè)算法的三維目標(biāo)檢測(cè)所有類別平均精度提升13.9%,俯視圖目標(biāo)檢測(cè)所有類別平均精度提升18.29%。有效地改善了YOLO 3D網(wǎng)絡(luò)對(duì)遮擋目標(biāo)檢測(cè)困難的問題,這是因?yàn)?多源數(shù)據(jù)較單一源數(shù)據(jù)對(duì)目標(biāo)的表征更加豐富且準(zhǔn)確。

        另外,采用MV3D、AVOD、VoxelNet、YOLO 3D和所提出的CFSR-Bi-YOLO 3D等5種不同方法對(duì)密集遮擋場(chǎng)景中的小目標(biāo)場(chǎng)景進(jìn)行檢測(cè),其中,MV3D算法將點(diǎn)云數(shù)據(jù)與圖像數(shù)據(jù)進(jìn)行區(qū)域融合;AVOD算法對(duì)點(diǎn)云數(shù)據(jù)與圖像數(shù)據(jù)所形成不同特征流下的特征結(jié)果進(jìn)行融合;VoxelNet算法采用點(diǎn)云體素化端到端的檢測(cè)方式。不同方法對(duì)密集場(chǎng)景目標(biāo)檢測(cè)結(jié)果如圖11所示。

        圖11 不同方法對(duì)密集場(chǎng)景目標(biāo)檢測(cè)結(jié)果

        在圖11(a)、圖11(b)、圖11(c)、圖11(d)和圖11(e)中,左圖為點(diǎn)云場(chǎng)景的檢測(cè)結(jié)果,右圖為對(duì)應(yīng)的真實(shí)場(chǎng)景。圖11中的左圖矩形框表示根據(jù)目標(biāo)特征或分類信息,自動(dòng)判斷該區(qū)域存在目標(biāo)。由圖11可以看出,所提出的CFSR-Bi-YOLO 3D算法可以檢測(cè)到更密集的目標(biāo),能夠準(zhǔn)確檢測(cè)出密集小目標(biāo)。與融合算法AVOD網(wǎng)絡(luò)及點(diǎn)云檢測(cè)網(wǎng)絡(luò)VoxelNet算法相比,設(shè)計(jì)的融合檢測(cè)算法,能夠更加準(zhǔn)確地檢測(cè)出密集小目標(biāo);與經(jīng)典YOLO3D網(wǎng)絡(luò)相比,所提方法利用多源信息融合多尺度實(shí)施檢測(cè)。能夠更好地檢測(cè)受遮擋小目標(biāo)。

        5 結(jié)語

        提出一種CFSR-Bi-YOLO 3D數(shù)據(jù)融合目標(biāo)檢測(cè)網(wǎng)絡(luò)方法。該方法通過將激光雷達(dá)點(diǎn)云與圖像相結(jié)合,以減少單一數(shù)據(jù)源對(duì)目標(biāo)檢測(cè)準(zhǔn)確率造成的影響。在對(duì)不同尺度目標(biāo)檢測(cè)中,將圖像特征與點(diǎn)云特征進(jìn)行分流特征提取,形成多層次融合結(jié)構(gòu),以提高系統(tǒng)的可靠性。通過引入通道注意力,以及SeNet殘差網(wǎng)絡(luò),以提高網(wǎng)絡(luò)的特征提取能力。另外,通過設(shè)計(jì)了一種基于雙向金字塔結(jié)構(gòu)的多尺度的數(shù)據(jù)融合方式,根據(jù)分層結(jié)構(gòu)調(diào)整網(wǎng)絡(luò)的先驗(yàn)框,以滿足不同尺度目標(biāo)的檢測(cè)要求,相比于FPN結(jié)構(gòu)僅采用了一次高維度向低維度擴(kuò)張的方式,減少了不同特征融合之后帶的偏差。

        實(shí)驗(yàn)結(jié)果表明,所提出多尺度目標(biāo)檢測(cè)算法,與MV3D算法、AVOD算法、VoxelNet,以及單點(diǎn)云檢測(cè)網(wǎng)絡(luò)YOLO 3D等檢測(cè)方法相比,對(duì)于三維目標(biāo)和俯視圖目標(biāo)的平均檢測(cè)準(zhǔn)確率均有所提高,說明提出的基于雙向特征金字塔的多尺度數(shù)據(jù)融合目標(biāo)檢測(cè)網(wǎng)絡(luò)能夠有效提升中小目標(biāo)的檢測(cè)準(zhǔn)確率。研究的結(jié)果可以為自動(dòng)駕駛的目標(biāo)檢測(cè)任務(wù)提供借鑒。

        但是,隨著卷積層數(shù)的增加,所提方法的計(jì)算量變大,導(dǎo)致模型的速度降低,不利于自動(dòng)駕駛過程中對(duì)道路目標(biāo)的實(shí)時(shí)檢測(cè)。為此,在后續(xù)的過程中,還需要進(jìn)一步加強(qiáng)對(duì)更輕量級(jí)網(wǎng)絡(luò)的研究,以滿足自動(dòng)駕駛目標(biāo)檢測(cè)對(duì)于準(zhǔn)確性和實(shí)時(shí)性的要求。

        猜你喜歡
        特征提取卷積維度
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        淺論詩(shī)中“史”識(shí)的四個(gè)維度
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        Bagging RCSP腦電特征提取算法
        光的維度
        燈與照明(2016年4期)2016-06-05 09:01:45
        “五個(gè)維度”解有機(jī)化學(xué)推斷題
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
        日韩一区二区不卡av| 品色堂永远免费| 精品国模一区二区三区| 囯产精品无码va一区二区| 综合久久青青草免费观看视频| 经典三级免费看片天堂| 麻豆精品久久久久久中文字幕无码| 国产欧美日韩视频一区二区三区| 欧美亚洲国产精品久久久久| av天堂免费在线播放| 成人做受黄大片| 大地资源网更新免费播放视频| 国产免费三级三级三级| 麻豆人妻性色av专区0000| 免费黄色影片| 免费网站国产| 国内精品熟女一区二区| 人妻av有码中文字幕| 中文字幕精品久久久久人妻红杏ⅰ| 欧美国产日本精品一区二区三区 | 美女福利视频在线观看网址| 人妻丰满熟妇aⅴ无码| 麻豆一区二区99久久久久| 亚洲av高清在线观看三区| 日本韩国三级在线观看| 久久久久久久久毛片精品| 久久久久无码国产精品不卡| 亚洲24小时在线免费视频网站| 亚洲熟女少妇精品综合| 帮老师解开蕾丝奶罩吸乳视频 | 国产一区二区三区视频大全| 亚洲精品第一页在线观看| 正在播放东北夫妻内射| 亚洲人成人99网站| 色婷婷亚洲一区二区三区在线| 亚洲高清乱码午夜电影网| 欧美做受视频播放| 精品国产一区二区三区男人吃奶| 成人免费自拍视频在线观看| 国产婷婷一区二区三区| 青青青国产免A在线观看|