亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于雙向特征金字塔的數(shù)據(jù)融合目標(biāo)檢測網(wǎng)絡(luò)

        2023-07-01 06:36:42張浩鈞郭建峰張錦忠柴博松侯詩夢張學(xué)成
        西安郵電大學(xué)學(xué)報 2023年1期
        關(guān)鍵詞:特征提取卷積維度

        張浩鈞,郭建峰,張錦忠,柴博松,侯詩夢,張學(xué)成

        (1.上海無線電設(shè)備研究所,上海 201109;2.西安郵電大學(xué) 經(jīng)濟(jì)與管理學(xué)院,陜西 西安 710061;3.西北工業(yè)大學(xué) 軟件學(xué)院,陜西 西安 710072;4.陸軍裝備部駐上海地區(qū)第三軍事代表室,上海 200032)

        自動駕駛技術(shù)依靠環(huán)境感知、人工智能、視覺計算、雷達(dá)監(jiān)控等相關(guān)設(shè)備自動駕駛車輛。目前,自動駕駛的感知技術(shù)利用多傳感器,如相機(jī)、激光雷達(dá)和紅外雷達(dá)等獲取環(huán)境信息。在檢測任務(wù)中,傳感器所獲取的信息也被稱為模態(tài)數(shù)據(jù),不同的模態(tài)數(shù)據(jù)具備不同的特性。如何準(zhǔn)確檢測立體場景中的三維目標(biāo)逐漸成為目標(biāo)檢測任務(wù)的研究熱點。隨著激光雷達(dá)的廣泛應(yīng)用,點云數(shù)據(jù)能夠包含檢測對象的三維信息,可以得到更為準(zhǔn)確的物體空間信息,并且點云數(shù)據(jù)不受光照影響,立體目標(biāo)檢測任務(wù)可以使用激光雷達(dá)的點云數(shù)據(jù)進(jìn)行檢測。

        在自動駕駛領(lǐng)域,進(jìn)行目標(biāo)檢測的算法主要有以下3種思路。

        第一,利用圖像數(shù)據(jù)進(jìn)行檢測。例如,采用快速的基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(Fast Region-based Convolutional Network,Fast RCNN)、更快速的基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(Faster Region-based Convolutional Network,Faster RCNN)、統(tǒng)一實時目標(biāo)檢測(You Only Look Once,YOLO)、單次多邊框檢測(Single Shot MultiBox Detector,SSD)等目標(biāo)檢測算法[1-4]對圖像數(shù)據(jù)進(jìn)行檢測。目前,該類方法目標(biāo)檢測的精度和速度均不斷提高,但是,由于相機(jī)圖像數(shù)據(jù)為二維數(shù)據(jù),當(dāng)應(yīng)用于自動駕駛領(lǐng)域的檢測時,難以獲得三維目標(biāo)的空間定位。一種解決辦法是在3D單目(Monocular 3D,Mono3D)[5]網(wǎng)絡(luò)中依賴圖像數(shù)據(jù)生成深度信息,以補(bǔ)足二維圖像數(shù)據(jù)缺乏的維度信息,然后,憑借補(bǔ)足后的圖像數(shù)據(jù)和深度信息完成檢測任務(wù)。

        第二,利用激光雷達(dá)數(shù)據(jù)進(jìn)行檢測。由于激光雷達(dá)數(shù)據(jù)具有豐富的三維信息,可以根據(jù)這點來進(jìn)行三維目標(biāo)檢測。端到端的點云目標(biāo)檢測網(wǎng)絡(luò)VoxelNe網(wǎng)絡(luò)[6]的提出將點云數(shù)據(jù)進(jìn)行體素化,根據(jù)體素中是否包含目標(biāo),將每個體素賦值為1或0,然后,將三維卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于體素網(wǎng)格。應(yīng)用于3D分類和分割的點集深度學(xué)習(xí)(Deep Learning on Point Sets for 3D Classification and Segmentation,PointNet)網(wǎng)絡(luò)、度量空間中點集的深度分層特征學(xué)習(xí)(Deep Hierarchical Feature Learning on Point Sets in a Metric Space,PointNet++)網(wǎng)絡(luò)、點云的3D目標(biāo)生成與檢測(3D Object Proposal Generation and Detection from Point Cloud, Point RCNN)網(wǎng)絡(luò)[7-9]等算法直接對點云進(jìn)行處理,并進(jìn)行點云分類。但是,這種方法更多適用于室內(nèi)環(huán)境等小場景,當(dāng)應(yīng)用于自動駕駛的復(fù)雜場景中時,檢測效果不夠理想?;诩す饫走_(dá)點云的端到端實時三維物體邊界檢測YOLO 3D模型[10]借鑒二維目標(biāo)檢測思想,將激光雷達(dá)數(shù)據(jù)投影為點云俯視圖(Bird’s Eyes View,BEV),在俯視圖上進(jìn)行特征提取,然后,通過三維檢測框的方式進(jìn)行目標(biāo)分類和位置回歸,這種方法較VoxelNet檢測速度較快,但是,存在數(shù)據(jù)利用不充分的缺點。

        第三,利用激光雷達(dá)數(shù)據(jù)和圖像數(shù)據(jù)進(jìn)行融合檢測。自動駕駛多模態(tài)的3D目標(biāo)檢測(Multi-view 3D Object Detection Network for Autonomous Driving,MV3D)網(wǎng)絡(luò)[11]首先將激光雷達(dá)數(shù)據(jù)投影為俯視圖與前視圖;其次,在BEV上生成候選區(qū)域,再將候選區(qū)域分別映射為3通道紅綠藍(lán)(Red Green Blue,RGB) 彩色圖像以及BEV與前視圖上,進(jìn)行感興趣區(qū)域的特征提取和特征融合;最后,利用檢測網(wǎng)絡(luò)進(jìn)行位置回歸和目標(biāo)分類?;谝晥D聚合的三維建議聯(lián)合生成和對象檢測(Joint 3D Proposal Generation and Object Detection from View Aggregation,AVOD)網(wǎng)絡(luò)[12]首先利用深度卷積網(wǎng)絡(luò)分別對三維點云數(shù)據(jù)的俯視圖與二維圖像進(jìn)行特征提取,然后,進(jìn)行目標(biāo)分類和位置回歸。在多傳感器三維目標(biāo)檢測的深度連續(xù)融合(Deep Continuous Fusion for Multi-Sensor 3D Object Detection,ContFuse)網(wǎng)絡(luò)[13]中,將三維點云數(shù)據(jù)的BEV與圖像數(shù)據(jù)通過連續(xù)卷積方式進(jìn)行融合,形成密集的鳥瞰圖數(shù)據(jù)。相較于MV3D方法,俯視圖包含更多信息,然后,針對密集俯視圖進(jìn)行位置回歸和目標(biāo)分類。文獻(xiàn)[14]提出點云網(wǎng)絡(luò)(Frustum Pointnets Network,F-PointNet),采用決策層融合進(jìn)行檢測。F-PointNet網(wǎng)絡(luò)利用二維目標(biāo)檢測算法對圖像數(shù)據(jù)進(jìn)行檢測,并根據(jù)圖像的二維檢測結(jié)果來確定視錐,進(jìn)而確定目標(biāo)在點云中的空間位置,回歸計算出目標(biāo)的位置及尺寸。

        PointNet算法與PointNet++算法均對原始點云數(shù)據(jù)進(jìn)行檢測任務(wù),需要占用龐大的硬件計算資源和存儲資源,整體網(wǎng)絡(luò)的計算速度較慢。VoxelNet網(wǎng)絡(luò)對點云數(shù)據(jù)進(jìn)行體素編碼處理,檢測速度明顯優(yōu)于PointNet算法,然而,在計算過程中需要對空體素塊推算,計算速度相對YOLO3D算法較慢。

        該文針對單點云數(shù)據(jù)的三維目標(biāo)檢測算法存在的特征缺失,當(dāng)存在遮擋目標(biāo)時,容易出現(xiàn)漏檢或誤檢的情況,以及多尺度目標(biāo)環(huán)境下小目標(biāo)檢測精度低等問題展開研究,擬提出一種基于多源數(shù)據(jù)融合的多尺度目標(biāo)檢測算法,對YOLO3D的主干網(wǎng)絡(luò)進(jìn)行改進(jìn),引入壓縮-解壓網(wǎng)絡(luò)(Squeeze-and-Excitation Networks,SeNet)方法[15],對圖像和BEV特征進(jìn)行提取并融合,構(gòu)建雙向特征金字塔處理(Feature Pyramid Network,FPN)融合帶來偏差的問題,從而達(dá)到對立體場景中的車輛等物體進(jìn)行有效檢測的目標(biāo)。

        1 YOLO 3D目標(biāo)檢測網(wǎng)絡(luò)

        作為三維目標(biāo)檢測網(wǎng)絡(luò),YOLO 3D網(wǎng)絡(luò)學(xué)習(xí)二維目標(biāo)檢測YOLOv2網(wǎng)絡(luò),利用二維點云俯視圖進(jìn)行三維目標(biāo)檢測。由于點云數(shù)據(jù)在空間中不會受到景深的影響,因此,YOLO 3D網(wǎng)絡(luò)將點云數(shù)據(jù)投影映射為俯視圖,并根據(jù)YOLOv2算法的特征提取網(wǎng)絡(luò)結(jié)構(gòu),對俯視圖特征進(jìn)行提取,然后,根據(jù)三維立體檢測框?qū)Ω┮晥D特征進(jìn)行類別確定及位置回歸計算。BEV三維特征圖及合成圖示意如圖1所示。

        圖1 BEV三維特征圖及合成圖示意

        YOLO 3D網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖2所示,從左至右依次為數(shù)據(jù)輸入單元模塊、特征提取網(wǎng)絡(luò)模塊、檢測向量模塊和目標(biāo)回歸計算模塊。在特征提取網(wǎng)絡(luò)模塊中,包含特征提取單元卷積層、批量正則化和激活函數(shù)(Conv,Batch Normalization,Leaky Relu,CBL)結(jié)構(gòu)塊由卷積層Conv,標(biāo)準(zhǔn)化層(Batch Normalization,BN)和激活函數(shù)層(Rectified Linear Unit,ReLU)組成。YOLO 3D網(wǎng)絡(luò)首先計算出點云俯視圖的高度特征與密度特征,形成608×608×2的特征圖,并將特征圖輸入DarkNet特征提取網(wǎng)絡(luò)中,然后,將經(jīng)特征提取之后的參數(shù)轉(zhuǎn)換為38×38×33的檢測向量,最后在計算檢測向量的過程中,分別求取不同類別目標(biāo)的檢測框及概率。

        圖2 3D目標(biāo)檢測網(wǎng)絡(luò)結(jié)構(gòu)示意圖

        2 改進(jìn)的數(shù)據(jù)融合目標(biāo)檢測網(wǎng)絡(luò)

        由于雷達(dá)點云數(shù)據(jù)對目標(biāo)的紋理判斷不準(zhǔn)確,在遇到遮擋目標(biāo)時不能夠準(zhǔn)確檢測目標(biāo)。針對此問題,對于YOLO 3D的單點云檢測算法進(jìn)行改進(jìn),構(gòu)建出一種基于激光點云與圖像數(shù)據(jù)融合,具有注意力殘差結(jié)構(gòu)的目標(biāo)檢測網(wǎng)絡(luò)(ContFuse-SE-ResNet-YOLO 3D,CFSR-YOLO 3D)。

        CFSR-YOLO 3D網(wǎng)絡(luò)利用殘差網(wǎng)絡(luò)結(jié)構(gòu)ResNet[16],使得神經(jīng)網(wǎng)絡(luò)在進(jìn)行特征提取的過程中能夠逼近于特征提取前的參數(shù),以避免由于多層次卷積結(jié)構(gòu)所導(dǎo)致的數(shù)據(jù)丟失和過多參數(shù)導(dǎo)致的過擬合情況。采用的ResNet的網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖3所示。對于輸入的x,經(jīng)過兩層卷積層處理之后所得到的輸出結(jié)果為F(x),通過殘差結(jié)構(gòu)之后的輸出結(jié)果為F(x)+x。經(jīng)過殘差短接之后,下層的殘差網(wǎng)絡(luò)結(jié)構(gòu)輸入受上層的影響,能夠接收原始數(shù)據(jù)的增益,整體網(wǎng)絡(luò)在最終計算時,能夠綜合前向的數(shù)據(jù)傳遞,不會因為經(jīng)激活函數(shù)之后的參數(shù)過量造成過擬合情況的發(fā)生,導(dǎo)致出現(xiàn)無法收斂的情況。

        圖3 ResNet網(wǎng)絡(luò)結(jié)構(gòu)示意圖

        使用殘差網(wǎng)絡(luò)結(jié)構(gòu)對原數(shù)據(jù)進(jìn)行提取,能夠得到特征處理前的參數(shù)回饋,從而改善網(wǎng)絡(luò)中對于數(shù)據(jù)的處理變換所造成丟失的情況,使得在神經(jīng)網(wǎng)絡(luò)在進(jìn)行特征提取的過程中,更加貼切所需要提取的數(shù)據(jù),以避免多層次的特征提取之后,喪失了對于原數(shù)據(jù)的特征表達(dá)。

        2.1 通道注意力殘差網(wǎng)絡(luò)

        在YOLO網(wǎng)絡(luò)中,采用卷積神經(jīng)網(wǎng)絡(luò)來進(jìn)行特征提取,在YOLOv2中采用DarkNet19來進(jìn)行檢測。在VGG16[17]、ResNet101和ResNet152方法中,多采用堆疊網(wǎng)絡(luò)深度來提高檢測效果,在YOLOv3中同樣采用了增加網(wǎng)絡(luò)深度的方式來提高檢測。為了提高檢測效果,同時,避免帶來龐大的計算資源消耗,采用SeNet網(wǎng)絡(luò)來替代YOLO 3D中卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取。SeNet是一種具有注意力機(jī)制的網(wǎng)絡(luò)。SeNet網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖4所示。圖中,x表示輸入,c表示網(wǎng)絡(luò)的通道數(shù),h表示網(wǎng)絡(luò)的高度,w表示網(wǎng)絡(luò)的寬度。對于輸入x,首先通過池化層(pooling);其次,經(jīng)過兩層全連接層(Full Connection);再次,通過一個S型(Sigmoid)激活函數(shù)獲得0~1之間的歸一化權(quán)重;最后,通過Scale操作將歸一化后的權(quán)重加權(quán)到每個通道的特征上。

        圖4 SeNet網(wǎng)絡(luò)結(jié)構(gòu)示意圖

        對于卷積神經(jīng)網(wǎng)絡(luò),卷積操作的計算核心為卷積算子,是利用卷積核從輸入特征圖中學(xué)習(xí)新特征圖的過程。從本質(zhì)上講,卷積是對一個局部區(qū)域進(jìn)行特征融合,包括從空間上(高度維度h和寬度維度w)以及通道上(通道數(shù)c維度)的特征融合。在網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)過程中,若未針對性地對特征進(jìn)行檢測,將會花費(fèi)大量無效的時間。在訓(xùn)練學(xué)習(xí),采用注意力機(jī)制能夠提高計算中對于相關(guān)資源的傾向性[18]。使用空間注意力機(jī)制和通道注意力機(jī)制[19-20],能夠提高神經(jīng)網(wǎng)絡(luò)對于有效特征的提取。

        空間注意力機(jī)制典型網(wǎng)絡(luò)以空間變形器網(wǎng)絡(luò)(Spatial Transformer Networks,STN)[21]和動態(tài)容量網(wǎng)絡(luò)(Dynamic Capacity Networks,DCN)[22]代表。以STN為例,在經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)中,顯式學(xué)習(xí)空間中的平移具有不變性,但是,對于大尺度圖像而言,并不具備空間平移不變性。而在STN網(wǎng)絡(luò)中,通過給圖片特征施加仿射變換等方式,使得圖像特征能夠建立起平移不變性、旋轉(zhuǎn)不變性及縮放不變性。在SeNet網(wǎng)絡(luò)中,通過分配給每個卷積通道之間不同的資源,能夠提高有效資源的獲取效率。SeNet網(wǎng)絡(luò)顯式地建模特征通道之間的相互依賴關(guān)系,通過訓(xùn)練學(xué)習(xí)的方式來自動獲取每個特征通道的重要程度,然后,依照重要程度去增強(qiáng)有用的特征并抑制對當(dāng)前任務(wù)用處不大的特征,從而能夠減少整體網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)的錯誤率,并且提高檢測的準(zhǔn)確性。

        2.2 激活函數(shù)的優(yōu)化

        由于ReLU函數(shù)的簡單性和直接性,目前的卷積神經(jīng)網(wǎng)絡(luò)中多采用ReLU函數(shù)作為激活函數(shù)來使用。當(dāng)堆疊深層網(wǎng)絡(luò)時,神經(jīng)元需要傳遞的參數(shù)較多,ReLU的門限函數(shù)使得當(dāng)前神經(jīng)元的值為負(fù)數(shù)時,梯度不再進(jìn)行傳遞,出現(xiàn)神經(jīng)元“死亡”的情況。而Swish函數(shù)具有無上界、有下界、平滑、非單調(diào)的特性,并且在深層次的網(wǎng)絡(luò)中不會出現(xiàn)ReLU函數(shù)的神經(jīng)元“死亡”情況。

        針對ReLU激活函數(shù)在神經(jīng)網(wǎng)絡(luò)中易導(dǎo)致神經(jīng)元“死亡”的問題,使用Swish激活函數(shù)對通道注意力殘差網(wǎng)絡(luò)SE-ResNet中的ReLU函數(shù)進(jìn)行替換。盡管會因此加深網(wǎng)絡(luò)結(jié)構(gòu)深度,但是,在深層神經(jīng)網(wǎng)絡(luò)中使用Swish激活函數(shù)并不會發(fā)生神經(jīng)元“死亡”的情況。Swish函數(shù)中的超參數(shù)β可以通過網(wǎng)絡(luò)訓(xùn)練進(jìn)行自適應(yīng)學(xué)習(xí),能夠更加泛化地模擬神經(jīng)網(wǎng)絡(luò)的非線性情況,以提高網(wǎng)絡(luò)魯棒性。改進(jìn)激活函數(shù)后的通道注意力殘差網(wǎng)絡(luò)Swish-SE-ResNet網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖5所示。對于輸入的x經(jīng)過卷積操作(Conv)和標(biāo)準(zhǔn)化處理(Batch Normalization,BN)后分層處理,然后把處理后的結(jié)果進(jìn)行融合操作。

        圖5 Swish-SE-ResNet網(wǎng)絡(luò)結(jié)構(gòu)示意圖

        3 基于數(shù)據(jù)融合的目標(biāo)檢測網(wǎng)絡(luò)

        為了適應(yīng)在三維目標(biāo)檢測任務(wù)中多樣化的場景和多尺度目標(biāo),進(jìn)一步對改進(jìn)的YOLO 3D端到端目標(biāo)檢測網(wǎng)絡(luò)進(jìn)行調(diào)整,搭建CFSR-Bi-YOLO 3D多尺度數(shù)據(jù)融合目標(biāo)檢測網(wǎng)絡(luò)。根據(jù)不同大小和尺度目標(biāo)的檢測要求,將多源數(shù)據(jù)的融合過程進(jìn)行多層次增強(qiáng),并調(diào)整對不同尺度目標(biāo)的檢測框,通過分層檢測的方式檢測不同大小的目標(biāo)。

        3.1 構(gòu)建雙向特征金字塔

        根據(jù)FPN的分層理念,檢測網(wǎng)絡(luò)對不同的目標(biāo)采用不同尺度的檢測,并綜合高維度與低維度的特征,將高維度的特征經(jīng)過上采樣之后融入低維度特征中,讓低維度特征在進(jìn)行檢測的同時接收到高緯度的語義信息,最終完成檢測任務(wù)。但是,FPN結(jié)構(gòu)僅采用了一次高維度向低維度的擴(kuò)張,并且在進(jìn)行不同維度特征間融合時,使用均值的方式進(jìn)行融合,這對不同特征而言,融合之后會帶來一定的偏差。

        圖6 BiFPN網(wǎng)絡(luò)結(jié)構(gòu)示意圖

        為應(yīng)對FPN的均值融合存在的問題,將不同維度特征在融合過程中施加不同的偏置,從而使得融合之后特征能夠根據(jù)檢測任務(wù)的重點,學(xué)習(xí)對不同融合特征的傾向,以實現(xiàn)更高級的特征融合。以第5層特征圖為例,第5層特征金字塔中的特征融合結(jié)果和輸出特征圖的計算表示式分別為

        (1)

        (2)

        (3)

        (4)

        3.2 數(shù)據(jù)預(yù)處理

        提出的目標(biāo)檢測網(wǎng)絡(luò)所使用數(shù)據(jù)集為KITTI數(shù)據(jù)集[23-24]。該點云數(shù)據(jù)集通過激光照射到物體表面獲取對目標(biāo)的距離信息的坐標(biāo)以及反射強(qiáng)度值。對于數(shù)據(jù)進(jìn)行如下處理。

        首先,將投影點云離散成一個分辨率為0.1 m/pixel的網(wǎng)格。對于每個單元格而言,高度特征被計算為該單元格點的最大高度,強(qiáng)度特征為每個單元中具有最大高度的點的反射率值,密度特征為每個單元中點的數(shù)量。然后,將高度特征、強(qiáng)度特征與密度特征合成為BEV圖像,高度特征、強(qiáng)度特征與密度特征分別為BEV圖像的不同通道,處理后的圖像示意圖如圖1所示。其中,高度特征為每個單元格中點云的最大高度值;強(qiáng)度特征是在每個單元格位置取得點云反射強(qiáng)度的最大值,并歸一化到0~255之間。

        對密度特征而言,由于點云分布特點是近多遠(yuǎn)少,導(dǎo)致在近處單元格中點云數(shù)量分布較多,遠(yuǎn)處的單元格點云數(shù)量分布較少,需要采用歸一化處理,歸一化后的密度值為

        (5)

        式中,N為單元格中點云的數(shù)量。

        3.3 多源數(shù)據(jù)多層次融合

        在原YOLO 3D三維目標(biāo)檢測方法中,將點云數(shù)據(jù)投影為俯視圖。該處理方法對于數(shù)據(jù)的利用不夠充分,為了使得激光雷達(dá)數(shù)據(jù)與圖像數(shù)據(jù)有效融合,采用連續(xù)卷積融合方案,輸出信息數(shù)據(jù)更加豐富的俯視圖特征。

        多源數(shù)據(jù)融合根據(jù)融合過程發(fā)生在不同的階段可分為特征層融合、決策層融合和混和階段融合等3種情況。由于激光雷達(dá)數(shù)據(jù)與圖像數(shù)據(jù)具有一定相關(guān)性,文中采用的融合策略為特征層融合。根據(jù)連續(xù)卷積融合方案,首先,構(gòu)建兩個學(xué)習(xí)流,采用SeNet網(wǎng)絡(luò)分別從圖像和BEV中提取特征;其次,通過深度參數(shù)連續(xù)卷積[25]將不同分辨率的圖像和BEV特征圖進(jìn)行融合;最后,利用改進(jìn)之后的YOLO網(wǎng)絡(luò)對融合后的特征進(jìn)行三維目標(biāo)檢測。整體網(wǎng)絡(luò)結(jié)構(gòu)及處理示意圖如圖7所示。

        圖7 整體網(wǎng)絡(luò)結(jié)構(gòu)及處理示意圖

        參數(shù)連續(xù)卷積是一種可以處理非網(wǎng)格結(jié)構(gòu)數(shù)據(jù)的深度學(xué)習(xí)網(wǎng)絡(luò)。參數(shù)連續(xù)卷積將標(biāo)準(zhǔn)的網(wǎng)格結(jié)構(gòu)的卷積擴(kuò)展到非網(wǎng)格結(jié)構(gòu)的數(shù)據(jù),同時保持高容量和低復(fù)雜度。其關(guān)鍵思想是利用多層感知器(Multi-Layer Perception,MPL)作為參數(shù)化核函數(shù)進(jìn)行連續(xù)卷積。該參數(shù)化核函數(shù)跨越了整個連續(xù)域。此外,利用有限數(shù)量的相鄰點上的加權(quán)求和來近似原本計算上禁止的連續(xù)卷積。

        每個鄰居根據(jù)其關(guān)于目標(biāo)點的相對幾何偏移量進(jìn)行不同的加權(quán)。具體而言,假設(shè)點j在點i的鄰居上建立索引,則點i處的連續(xù)卷積特征可以表示為

        (6)

        式中:MPL(·)表示多層感知器操作,其計算點i每個鄰點處的卷積權(quán)值,對每個鄰點處的卷積權(quán)值進(jìn)行求和;xi表示點i的坐標(biāo)信息;xj表示點i相關(guān)聯(lián)的的鄰居點j的連續(xù)坐標(biāo)信息;fj表示點j的輸入圖像特征。

        參數(shù)連續(xù)卷積的優(yōu)點是,利用標(biāo)準(zhǔn)卷積的概念從鄰近觀測中捕獲局部信息,而不需要可能導(dǎo)致幾何信息丟失的柵格化階段。對每個點云的點而言,MLP的輸入包含兩部分:一部分是通過將源激光雷達(dá)點投影到圖像平面上,提取出相應(yīng)的圖像特征,然后利用雙線性插值法得到了連續(xù)坐標(biāo)下的圖像特征;另一部分是激光雷達(dá)點和目標(biāo)像素之間的三維相鄰偏移。總體而言,對于每個目標(biāo)像素,MLP操作通過對其所有相鄰像素的MLP操作的輸出進(jìn)行求加來輸出一個多維輸出特征。MLP的輸出特征通過元素方面的總和與前一層的BEV特征相結(jié)合,以融合多傳感器信息。可以將點i處的多維輸出特征可以表示為

        (7)

        式中,xi-xj為點j與目標(biāo)點i的三維偏移。

        參數(shù)連續(xù)卷積融合計算過程示意圖如圖8所示。

        圖8 參數(shù)連續(xù)卷積融合計算過程示意圖

        圖8中,參數(shù)連續(xù)卷積融合計算的計算步驟如下。

        步驟1針對BEV圖像的目標(biāo)像素,提取K個最近的雷達(dá)點。

        步驟2將BEV圖像的目標(biāo)像素和K個近鄰點映射在三維空間中。

        步驟3將三維空間的BEV圖像目標(biāo)像素與K個緊鄰點,投影在圖像坐標(biāo)系下。

        步驟4找到BEV圖像的目標(biāo)像素對應(yīng)的圖像特征及三維偏移。

        步驟5將圖像特征與連續(xù)幾何偏移輸入MPL中,生成目標(biāo)像素特征。生成稀疏俯視圖和密集俯視圖對比如圖9所示。可以看出,密集俯視圖提取到更多細(xì)節(jié)目標(biāo)信息,目標(biāo)特征更加明顯。

        圖9 稀疏俯視圖和密集俯視圖對比

        利用通道注意力殘差提取單元SeNet對圖像特征和點云俯視圖特征進(jìn)行分流特征提取,提取后的特征向量為76×76×256維度、38×38×512維度和19×19×1 024維度等3種維度。將多源數(shù)據(jù)特征進(jìn)行多層次融合的步驟如下。

        步驟1讀取KITTI數(shù)據(jù)集所提供的配準(zhǔn)文件中的坐標(biāo)系轉(zhuǎn)換矩陣與偏移矩陣。

        步驟2計算投影矩陣。投影矩陣計算公式為

        Pvelo_to_im g=Prect_02Rrect_00(R|T)velo_to cam

        (8)

        式中:Prect 02為3×4矩陣,表示投影矩陣,從矯正后的0號相機(jī)坐標(biāo)系投影到2號坐標(biāo)系的圖像平面;Rrect 00為3×3矩陣,表示矯正0號相機(jī)的偏移矩陣;(R|T)velo to cam為3×3矩陣,表示從雷達(dá)點云坐標(biāo)系向0號相機(jī)坐標(biāo)系的轉(zhuǎn)化矩陣。

        (9)

        式中,Pvelo_to_img表示3×3的點云投影圖像矩陣。

        (10)

        式中:n表示特征層層級數(shù);MLP操作表示多層感知器操作,即連續(xù)卷積網(wǎng)絡(luò)中的全連接的核函數(shù)計算過程,MLP操作將空間點所對應(yīng)圖像的特征相結(jié)合。

        4 實驗與分析

        4.1 實驗對象與條件

        實驗對為KITTI目標(biāo)檢測數(shù)據(jù)集。KITTI數(shù)據(jù)為激光雷達(dá)點云數(shù)據(jù)和圖像數(shù)據(jù),其中,點云數(shù)據(jù)集是由Velodyne 64線激光雷達(dá)獲取的點云數(shù)據(jù)集,共包含7 481個訓(xùn)練集數(shù)據(jù)和7 518個測試集數(shù)據(jù)。訓(xùn)練集中用作訓(xùn)練及評估的比例為80∶20,其中的20%用作訓(xùn)練過程中的評估驗證。根據(jù)KITTI數(shù)據(jù)集中對于交并比(Intersection over Union,IoU)的規(guī)范,設(shè)定所屬目標(biāo)中汽車的IoU為0.7,行人和騎行者IoU為0.5。點云文件被裁減到以激光雷達(dá)為原點,橫縱坐標(biāo)分別為[-40,-40]×[0,70] m的范圍內(nèi)。在三維目標(biāo)檢測任務(wù)中,KITTI數(shù)據(jù)集為每個場景中的每個可識別目標(biāo)提供了三維目標(biāo)檢測框的標(biāo)注。

        實驗使用Ubuntu 16.04系統(tǒng),采用Pytorch 1.3.0 深度學(xué)習(xí)框架,CPU為 Intel(R) Xeon(R) Silver 4110,GPU為Quadro P5000,開發(fā)工具為Pycharm+Anaconda,Python版本為3.6。訓(xùn)練階段初始學(xué)習(xí)率調(diào)整為0.01,訓(xùn)練迭代次數(shù)epoch設(shè)定為200次。

        同場景下二維、三維及點云目標(biāo)檢測示意圖如圖10所示。其中,圖10(a)為檢測目標(biāo)在圖像中的二維檢測框位置;圖10(b)為檢測目標(biāo)在圖像中三維檢測框的位置;圖10(c)為檢測目標(biāo)在點云數(shù)據(jù)下的三維檢測框信息,圖10(c)中方框為根據(jù)標(biāo)注信息所繪制??梢钥闯?點云目標(biāo)的空間信息更為準(zhǔn)確,且不易受透視遮擋的影響。

        圖10 同場景下二維、三維及點云目標(biāo)檢測示意圖

        4.2 評價指標(biāo)

        目標(biāo)檢測的評價指標(biāo)為目標(biāo)三維檢測精度和目標(biāo)俯視圖檢測精度。評估檢測結(jié)果的指標(biāo)為平均精度(Average Precision,AP),AP值的計算方式為檢測網(wǎng)絡(luò)輸出的檢測準(zhǔn)確率與召回率曲線(Precision Recall,P-R)曲線與坐標(biāo)軸所構(gòu)成的積分值。準(zhǔn)確率的計算與樣本中所有檢測準(zhǔn)確的數(shù)量有關(guān)。召回率Recall與所有真實檢測物體的數(shù)量有關(guān)。準(zhǔn)確率PA和召回率PC的計算公式分別為

        (11)

        (12)

        式中:PT表示檢測為正確,真實為正確的案例;PF表示檢測為正確,真實為錯誤的案例;NF表示檢測為錯誤,真實為正確的案例;NT表示檢測為錯誤,真實為錯誤的案例。

        4.3 消融實驗

        在將端到端的目標(biāo)檢測網(wǎng)絡(luò)延伸至三維目標(biāo)中,針對三維目標(biāo)檢測中不同尺度間目標(biāo)維度差別過大,小目標(biāo)難以檢測的問題,在網(wǎng)絡(luò)結(jié)構(gòu)中利用殘差網(wǎng)絡(luò)結(jié)構(gòu)與雙向特征金字塔結(jié)構(gòu)。將經(jīng)典的特征金字塔結(jié)構(gòu)網(wǎng)絡(luò)的單向數(shù)據(jù)流動方式改為雙向數(shù)據(jù)流動方式,構(gòu)建了CFSR-Bi-YOLO 3D網(wǎng)絡(luò)。為了驗證所提網(wǎng)絡(luò)CFSR-Bi-YOLO 3D數(shù)據(jù)融合目標(biāo)檢測網(wǎng)絡(luò)中每個模塊的有效性,分別進(jìn)行消融實驗對比,通過消融實驗驗證每一個模塊對于所提方法的貢獻(xiàn)。

        記錄檢測網(wǎng)絡(luò)對汽車(Car)、騎行者(Cyclists) 和行人 (Pedestrians)等3類目標(biāo)不同模塊的3D平均精度和俯視圖平均檢測精度(不同模塊的三維目標(biāo)和俯視圖目標(biāo)的檢測平均精度,是指各類別精度的平均值),并統(tǒng)計檢測速率。不同模塊三維目標(biāo)檢測平均精度對比結(jié)果及不同模塊俯視圖目標(biāo)檢測平均精度對比結(jié)果分別如表1與表2所示。其中:“+Res”表示引入殘差結(jié)構(gòu);“+SE”表示引入通道注意力;“+BiFPN”表示引入BiFPN結(jié)構(gòu);“+Swish”表示引入Swish激活函數(shù);FPS表示每秒內(nèi)算法所能夠檢測幀的數(shù)量。

        表1 不同模塊三維目標(biāo)檢測平均精度對比結(jié)果

        表2 不同模塊俯視圖目標(biāo)檢測平均精度對比結(jié)果

        從表1和表2可以看出,使用殘差結(jié)構(gòu)與BiFPN結(jié)構(gòu)可以提高三維目標(biāo)檢測網(wǎng)絡(luò)中小目標(biāo)檢測準(zhǔn)確率,三維目標(biāo)檢測的小目標(biāo)準(zhǔn)確率提升2%,俯視圖目標(biāo)檢測的小目標(biāo)準(zhǔn)確率提升1%。這是因為,采用該方法可以將圖像特征與點云特征進(jìn)行分流提取和分層融合,利用雙向特征金字塔結(jié)構(gòu)增強(qiáng)融合不同維度特征,并劃分不同單元對多尺度目標(biāo)進(jìn)行檢測。BiFPN結(jié)構(gòu)在不同維度下的特征相互傳遞過程中,將高維度特征的語義信息通過上采樣向低維度特征傳遞,將低維度的定位信息利用下采樣的方式傳遞給高維度特征,能夠在原單一維度特征基礎(chǔ)上,綜合來自不同維度的特征,讓圖像不同維度特征獲得更加豐富的表達(dá)。

        4.4 不同檢測方法對比

        在消融實驗之后,采用不同方法對數(shù)據(jù)集中的二維目標(biāo)、三維目標(biāo)及點云目標(biāo)等3類目標(biāo)的立體檢測精度和俯視圖中目標(biāo)的檢測精度分別進(jìn)行試驗對比。不同模塊的三維目標(biāo)和俯視圖目標(biāo)對比實驗結(jié)果分別如表3和表4所示。

        表3 不同方法三維目標(biāo)檢測平均精度對比結(jié)果

        表4 不同方法俯視圖目標(biāo)檢測平均精度對比結(jié)果

        由表3和表4可以看出,所構(gòu)建的CFSR-Bi-YOLO 3D數(shù)據(jù)融合目標(biāo)檢測網(wǎng)絡(luò),較YOLO 3D網(wǎng)絡(luò)的三維目標(biāo)檢測所有類別平均精度提升1.46%,俯視圖目標(biāo)檢測所有類別平均精度提升1.01%;較單圖像源Pseudo-LiDar檢測算法的三維目標(biāo)檢測所有類別平均精度提升13.9%,俯視圖目標(biāo)檢測所有類別平均精度提升18.29%。有效地改善了YOLO 3D網(wǎng)絡(luò)對遮擋目標(biāo)檢測困難的問題,這是因為,多源數(shù)據(jù)較單一源數(shù)據(jù)對目標(biāo)的表征更加豐富且準(zhǔn)確。

        另外,采用MV3D、AVOD、VoxelNet、YOLO 3D和所提出的CFSR-Bi-YOLO 3D等5種不同方法對密集遮擋場景中的小目標(biāo)場景進(jìn)行檢測,其中,MV3D算法將點云數(shù)據(jù)與圖像數(shù)據(jù)進(jìn)行區(qū)域融合;AVOD算法對點云數(shù)據(jù)與圖像數(shù)據(jù)所形成不同特征流下的特征結(jié)果進(jìn)行融合;VoxelNet算法采用點云體素化端到端的檢測方式。不同方法對密集場景目標(biāo)檢測結(jié)果如圖11所示。

        圖11 不同方法對密集場景目標(biāo)檢測結(jié)果

        在圖11(a)、圖11(b)、圖11(c)、圖11(d)和圖11(e)中,左圖為點云場景的檢測結(jié)果,右圖為對應(yīng)的真實場景。圖11中的左圖矩形框表示根據(jù)目標(biāo)特征或分類信息,自動判斷該區(qū)域存在目標(biāo)。由圖11可以看出,所提出的CFSR-Bi-YOLO 3D算法可以檢測到更密集的目標(biāo),能夠準(zhǔn)確檢測出密集小目標(biāo)。與融合算法AVOD網(wǎng)絡(luò)及點云檢測網(wǎng)絡(luò)VoxelNet算法相比,設(shè)計的融合檢測算法,能夠更加準(zhǔn)確地檢測出密集小目標(biāo);與經(jīng)典YOLO3D網(wǎng)絡(luò)相比,所提方法利用多源信息融合多尺度實施檢測。能夠更好地檢測受遮擋小目標(biāo)。

        5 結(jié)語

        提出一種CFSR-Bi-YOLO 3D數(shù)據(jù)融合目標(biāo)檢測網(wǎng)絡(luò)方法。該方法通過將激光雷達(dá)點云與圖像相結(jié)合,以減少單一數(shù)據(jù)源對目標(biāo)檢測準(zhǔn)確率造成的影響。在對不同尺度目標(biāo)檢測中,將圖像特征與點云特征進(jìn)行分流特征提取,形成多層次融合結(jié)構(gòu),以提高系統(tǒng)的可靠性。通過引入通道注意力,以及SeNet殘差網(wǎng)絡(luò),以提高網(wǎng)絡(luò)的特征提取能力。另外,通過設(shè)計了一種基于雙向金字塔結(jié)構(gòu)的多尺度的數(shù)據(jù)融合方式,根據(jù)分層結(jié)構(gòu)調(diào)整網(wǎng)絡(luò)的先驗框,以滿足不同尺度目標(biāo)的檢測要求,相比于FPN結(jié)構(gòu)僅采用了一次高維度向低維度擴(kuò)張的方式,減少了不同特征融合之后帶的偏差。

        實驗結(jié)果表明,所提出多尺度目標(biāo)檢測算法,與MV3D算法、AVOD算法、VoxelNet,以及單點云檢測網(wǎng)絡(luò)YOLO 3D等檢測方法相比,對于三維目標(biāo)和俯視圖目標(biāo)的平均檢測準(zhǔn)確率均有所提高,說明提出的基于雙向特征金字塔的多尺度數(shù)據(jù)融合目標(biāo)檢測網(wǎng)絡(luò)能夠有效提升中小目標(biāo)的檢測準(zhǔn)確率。研究的結(jié)果可以為自動駕駛的目標(biāo)檢測任務(wù)提供借鑒。

        但是,隨著卷積層數(shù)的增加,所提方法的計算量變大,導(dǎo)致模型的速度降低,不利于自動駕駛過程中對道路目標(biāo)的實時檢測。為此,在后續(xù)的過程中,還需要進(jìn)一步加強(qiáng)對更輕量級網(wǎng)絡(luò)的研究,以滿足自動駕駛目標(biāo)檢測對于準(zhǔn)確性和實時性的要求。

        猜你喜歡
        特征提取卷積維度
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        淺論詩中“史”識的四個維度
        中華詩詞(2019年7期)2019-11-25 01:43:00
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        Bagging RCSP腦電特征提取算法
        光的維度
        燈與照明(2016年4期)2016-06-05 09:01:45
        “五個維度”解有機(jī)化學(xué)推斷題
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
        最新精品国偷自产在线婷婷| 蜜臀亚洲av无码精品国产午夜.| 国产婷婷色综合av蜜臀av| 猫咪www免费人成网最新网站 | 最近最好的中文字幕2019免费| 国产精品18久久久久久不卡中国| 伊人久久大香线蕉综合av| 国产精品久久免费中文字幕| 小蜜被两老头吸奶头在线观看| 精品手机在线视频| 国产精品久久国产精品久久| 99久久精品在线视频| 痉挛高潮喷水av无码免费| 日韩欧美中文字幕公布| 色视频日本一区二区三区| 日韩中文字幕版区一区二区三区| 99在线精品免费视频九九视| 国产日韩A∨无码免费播放| 精品av一区二区在线| 色欲色香天天天综合网www| 欧美aaaaaa级午夜福利视频| 亚洲人妻无缓冲av不卡| 国产成人高清视频在线观看免费 | 婷婷色国产精品视频二区| 西西大胆午夜人体视频| 小12箩利洗澡无码视频网站| 久久国产精品免费久久久| 亚洲av无码一区二区三区天堂| 丁香五香天堂网| 国产亚洲日本人在线观看| 亚洲av日韩专区在线观看| 成人aaa片一区国产精品| 久久av无码精品一区二区三区| 亚洲免费av第一区第二区| 亚洲av永久无码精品网站| 国产乱人伦精品一区二区| 中文字幕成人精品久久不卡| 久草手机视频在线观看| 亚洲日本va中文字幕| 国产亚洲精品福利在线| 一区二区三区观看视频在线|