亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征融合的改進(jìn)型PointPillar 點(diǎn)云目標(biāo)檢測

        2023-11-01 01:52:20石志廣
        光學(xué)精密工程 2023年19期
        關(guān)鍵詞:卷積特征模塊

        張 勇, 石志廣, 沈 奇, 張 焱, 張 宇

        (國防科技大學(xué) 電子科學(xué)學(xué)院 ATR 重點(diǎn)實(shí)驗(yàn)室,湖南 長沙 410073)

        1 引 言

        近年來,隨著深度學(xué)習(xí)的發(fā)展,點(diǎn)云處理技術(shù)取得了重大突破[1]。點(diǎn)云目標(biāo)檢測是點(diǎn)云處理的基本任務(wù)之一[2],當(dāng)前可以分為基于原始點(diǎn)云的檢測、基于體素的檢測、基于數(shù)據(jù)降維的檢測、基于點(diǎn)云和體素的混合檢測4 大類?;谠键c(diǎn)云的檢測通過在原始點(diǎn)上進(jìn)行數(shù)據(jù)處理、分析,從而判斷目標(biāo)類別并回歸目標(biāo)邊界框。此類方法的優(yōu)點(diǎn)是充分利用點(diǎn)云信息,提取的點(diǎn)特征能夠有效表征目標(biāo),檢測效果好,但內(nèi)存占用高、計(jì)算量大[3-5]?;隗w素的檢測將點(diǎn)云在三維空間中劃分為大小一致、規(guī)則的體素,再通過提取體素特征進(jìn)行目標(biāo)檢測。此類方法的三維空間特征表征能力有限,相對于基于原始點(diǎn)云的方法計(jì)算成本更小,但三維卷積仍需耗費(fèi)大量顯存和算力[6-7]?;跀?shù)據(jù)降維的檢測將點(diǎn)云轉(zhuǎn)換為二維圖像,利用成熟的圖像目標(biāo)檢測算法進(jìn)行檢測。該類方法相對于上述三類方法計(jì)算成本小、易部署,但數(shù)據(jù)降維過程中信息會丟失,檢測效果相對較差[8-10]。基于點(diǎn)云和體素混合的檢測同時(shí)利用點(diǎn)云與體素進(jìn)行檢測,綜合了基于原始點(diǎn)云和基于體素兩種方法的優(yōu)點(diǎn)。該類方法在充分保留三維空間結(jié)構(gòu)的前提下減少了計(jì)算量,但仍保留了三維卷積,因此其計(jì)算成本仍高于基于數(shù)據(jù)降維的檢測[11-12]。

        PointPillar 是從數(shù)據(jù)降維的角度提出的一種點(diǎn)云目標(biāo)檢測網(wǎng)絡(luò),具備良好的工程實(shí)用性:第一,它將三維數(shù)據(jù)轉(zhuǎn)換為二維數(shù)據(jù)來處理,減少了數(shù)據(jù)量;第二,它利用二維卷積代替三維卷積這類顯存占用率高、計(jì)算量大且難以部署的算子來提取特征,減少了計(jì)算量,提升了算法的可部署性。但該網(wǎng)絡(luò)的檢測精度低于同級別的其他類別的檢測方法,其主要原因有三點(diǎn):第一,該網(wǎng)絡(luò)的檢測性能受柱體尺寸的影響,柱體尺寸越大,生成的偽圖像分辨率越小,運(yùn)行速度高,但檢測效果差;柱體尺寸越小,生成的偽圖像分辨率越大,運(yùn)行速度低,但檢測效果好;第二,偽圖像通過特征編碼網(wǎng)絡(luò)生成,生成的圖像質(zhì)量直接影響檢測結(jié)果;第三,用于檢測的特征包含大量冗余信息且缺少小目標(biāo)特征。

        本文針對PointPillar 對小目標(biāo)檢測效果差的問題,設(shè)計(jì)了一個(gè)點(diǎn)云目標(biāo)檢測網(wǎng)絡(luò)。具體地,設(shè)計(jì)了一個(gè)以殘差結(jié)構(gòu)為基礎(chǔ)模塊的主干網(wǎng)絡(luò),用來提升對偽圖像的特征提取能力;設(shè)計(jì)了一個(gè)基于多層特征融合策略的檢測頭,用來提升小目標(biāo)的檢測性能;設(shè)計(jì)了一個(gè)卷積注意力模塊,用于抑制特征圖中的冗余信息。最后,在KITTI 和DAIR-V2X-I數(shù)據(jù)集上驗(yàn)證了提出算法的有效性。

        2 PointPillar 網(wǎng)絡(luò)

        PointPillar 的思想是將點(diǎn)云轉(zhuǎn)換為二維偽圖像,在圖像上提取特征并完成目標(biāo)分類和邊界框回歸,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,主要分為三部分:特征編碼網(wǎng)絡(luò)(Feature Encode Network, FEN)、主 干 網(wǎng) 絡(luò)(Backbone Network, BN)和 檢 測 頭(Detection Head, DH)。PointPillar 首先將點(diǎn)云編碼為柱體,利用FEN 提取柱特征,為減少三維數(shù)據(jù)帶來的計(jì)算量,將柱特征轉(zhuǎn)化為二維偽圖像,再利用二維卷積BN 提取圖像特征,最后經(jīng)過DH 獲取檢測結(jié)果。FEN 由兩個(gè)多層感知機(jī)(Multilayer Perceptron,MLP)構(gòu)成,首先將點(diǎn)云在[X-Y]平面劃分柱體,隨后將柱體饋入MLP 提取 柱 特 征,輸 入 為[N,4]的 柱 向 量,輸 出 為[N,64]的柱向量,為避免三維信息帶來的計(jì)算量,將柱特征在俯視圖視角下轉(zhuǎn)換為二維偽圖像。二維卷積主干網(wǎng)絡(luò)由16 層卷積直接堆疊構(gòu)成,用于提取偽圖像特征。其輸入是尺寸為[C,H,W]的偽圖像,輸出是尺寸分別為[C,H/2,W/2],[2C,H/4,W/4],[4C,H/8,W/8]3 組不同的特征圖F1,F(xiàn)2,F(xiàn)3。檢測頭由三個(gè)反卷積和兩個(gè)1×1 卷積構(gòu)成,用于在偽圖像上檢測目標(biāo)。PointPillar 的 檢 測 頭 與SSD 檢 測 頭 結(jié) 構(gòu)[13]類似,同樣利用了多尺度特征圖。3 個(gè)反卷積的輸入分別為F1,F(xiàn)2和F3,輸出均為尺寸為[2C,H/2,W/ 2]的特征圖。3 個(gè)反卷積的輸出特征經(jīng)級聯(lián)后生成尺寸為[6C,H/2,W /2]的特征圖,將級聯(lián)后的特征圖輸入兩個(gè)1×1 卷積分別用于邊界框的回歸和分類,最后得到檢測結(jié)果。

        圖1 PointPillar 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of PointPillar network

        PointPillar 通過將三維點(diǎn)云轉(zhuǎn)換為二維偽圖像,大大減少了后續(xù)需要處理的數(shù)據(jù)量;在偽圖像上利用基于圖像的目標(biāo)檢測算法檢測目標(biāo),避免使用3D 卷積,使得算法輕量、高效且易部署。但它對小目標(biāo)的檢測效果差,主要原因有兩點(diǎn):首先,主干網(wǎng)絡(luò)輸出的特征圖均為高層特征,不利于小目標(biāo)檢測;其次,檢測頭將主干網(wǎng)絡(luò)輸出的特征圖直接進(jìn)行反卷積和級聯(lián)操作,導(dǎo)致特征圖中包含大量噪聲且語義信息和空間信息利用不充分。針對上述問題,本文提出了一種基于特征融合策略的點(diǎn)云目標(biāo)檢測算法Pillar-FFNet。

        3 Pillar-FFNet 結(jié)構(gòu)

        為了提高對小目標(biāo)的檢測效果,本文將PointPillar 作為基礎(chǔ)網(wǎng)絡(luò),提出了一種點(diǎn)云目標(biāo)檢測網(wǎng)絡(luò)Pillar-FFNet,其結(jié)構(gòu)如圖2 所示。Pillar-FFNet 由特征編碼網(wǎng)絡(luò)、主干網(wǎng)絡(luò)和檢測頭組成,特征編碼網(wǎng)絡(luò)與PointPillar 中的一致。設(shè)計(jì)了一個(gè)基于殘差的主干網(wǎng)絡(luò),輸出四組不同尺寸的包含豐富語義信息和空間信息的特征圖;設(shè)計(jì)了一個(gè)基于多尺度特征融合策略的檢測頭,通過有效融合主干網(wǎng)絡(luò)輸出特征圖中的信息來提升小目標(biāo)的檢測效果;設(shè)計(jì)了一個(gè)卷積注意力模塊,通過有效增強(qiáng)特征圖中的有效信息來提升檢測效果。Pillar-FFNet 的檢測流程為:首先,將點(diǎn)云饋入特征編碼網(wǎng)絡(luò)提取點(diǎn)特征,根據(jù)點(diǎn)特征生成偽圖像;然后,將偽圖像饋入殘差主干網(wǎng)絡(luò),生成4 組不同尺度的特征圖;最后,將主干網(wǎng)絡(luò)生成的特征圖饋入檢測頭,完成點(diǎn)云目標(biāo)檢測。

        圖2 Pillar-FFNet 結(jié)構(gòu)Fig.2 Structure of pillar-FFNet

        3.1 主干網(wǎng)絡(luò)

        通過直接堆疊卷積來增加網(wǎng)絡(luò)深度會加劇反向傳播過程中梯度消失的現(xiàn)象,導(dǎo)致網(wǎng)絡(luò)性能退化[14]。解決這一問題的常用方法是利用殘差結(jié)構(gòu)來構(gòu)建深層網(wǎng)絡(luò)。基于此,本文將殘差結(jié)構(gòu)作為基礎(chǔ)模塊構(gòu)建了一個(gè)基于卷積殘差塊(Convolution Residual Block,CR)的主干網(wǎng)絡(luò),其結(jié)構(gòu)圖如圖3 所示。一個(gè)CR 塊共包含兩個(gè)分支,分別由1×1 卷積和3×3 卷積構(gòu)成,每個(gè)卷積后都包含一個(gè)批量歸一化層BN 和一個(gè)激活函數(shù)ReLU。對于一個(gè)CR 塊,假設(shè)輸入特征圖為F∈RC×H×W、輸出特征圖為Fout。CR 塊的第一個(gè)分 支 由1 個(gè)3×3 卷 積 和2 個(gè)1×1 卷 積 構(gòu) 成,F(xiàn)經(jīng)過1 個(gè)1×1 卷積將數(shù)據(jù)降維為F1'∈R(C2)×H×W,F(xiàn)1'經(jīng) 過1 個(gè) 步 長 為S的3×3 卷 積 輸 出 特 征F1''∈R(C2)×(HS)×(WS),F(xiàn)1''經(jīng) 過1 個(gè)1×1 卷 積 將 數(shù)據(jù)增維為F1'''∈RC×(HS)×(WS);CR 塊的第二個(gè)分支由1 個(gè) 步 長 為S的3×3 卷 積 構(gòu) 成,F(xiàn)經(jīng) 過3×3 卷積輸出特征F2'∈RC×(HS)×(WS);將第一個(gè)分支的輸出F1'''和第二個(gè)分支的輸出F2'級聯(lián)得到F3∈R2C×(HS)×(WS),再將F3經(jīng)過一個(gè)1×1 卷積輸出Fout∈RC×(HS)×(WS)。

        圖3 CR 塊結(jié)構(gòu)Fig.3 Structure of CR block

        本文以CR 塊作為基礎(chǔ)塊設(shè)計(jì)了一個(gè)殘差主干網(wǎng)絡(luò)(Residual BackBone Net,RBNet)。如圖4所 示,RBNet 由14 個(gè) 步 長S為1 的CR 塊 和3 個(gè) 步長S為2 的CR 塊堆疊而成,輸出4 個(gè)不同尺寸的特征圖Rout1,Rout2,Rout3,Rout4。RBNet 的特征提取過程為:點(diǎn)云首先經(jīng)特征編碼網(wǎng)絡(luò)生成偽圖像M∈R64×496×432,M為RBNet 的 輸入;M經(jīng)過2 個(gè)步長為1 的CR 塊,生成特征圖Rout1∈R64×496×432;Rout1經(jīng)過1 個(gè)步長為2 的CR 塊和2 個(gè)步長為1 的CR 塊,生成特征圖Rout2∈R64×248×216;Rout2經(jīng)過1個(gè)步長 為2 的CR 塊和5 個(gè)步長為1 的CR 塊,生成特征圖Rout3∈R128×124×108;Rout3經(jīng)過1 個(gè)步長為2 的CR 塊和5 個(gè)步長為1 的CR 塊,生 成特征圖Rout4∈R256×62×54。

        圖4 RBNet 結(jié)構(gòu)Fig.4 Structure of RBNet

        3.2 基于多尺度特征融合策略的檢測頭

        卷積神經(jīng)網(wǎng)絡(luò)中,低層特征圖的分辨率大,空間信息豐富;高層特征圖的分辨率低,語義信息豐富[15]。為了將不同層級特征圖中的高層語義信息和低層空間信息有效融合,本文提出了一個(gè)基于多尺度特征融合策略的檢測頭,命名為MFHead。MFHead 通過有效融合不同層級的語義信息和空間信息來提升點(diǎn)云中小目標(biāo)的檢測效果。

        MFHead 結(jié)構(gòu)如圖2 中紅色虛線框內(nèi)的檢測頭部分所示(彩圖見期刊電子版),輸入為RBNet輸出的4 組不同尺寸的特征圖Rout1,Rout2,Rout3和Rout4,輸出為檢測框位置、目標(biāo)尺寸、目標(biāo)偏轉(zhuǎn)角和目標(biāo)類別。首先,Rout4經(jīng)過4 個(gè)反卷積生成4組特征圖,其尺寸分別為256×62×54,128×124×108,64×248×216 和64×496×432,將Rout1,Rout2,Rout3和Rout4經(jīng)過卷積注意力模塊后分別與其進(jìn)行級聯(lián)融合生成4 組特征圖S1,S2,S3和S4,將S1,S2,S3進(jìn)行 級 聯(lián) 融 合 生 成 特征圖I1,將S2,S3,S4進(jìn)行 級 聯(lián) 融 合 生 成 特征圖I2。然 后將I1,I2分別經(jīng)過卷積注意力模塊后進(jìn)行級聯(lián)融合生成最終的特征圖I,將I饋入兩個(gè)1×1 卷積分別進(jìn)行目標(biāo)分類和邊界框回歸。

        3.3 卷積注意力模塊

        卷積神經(jīng)網(wǎng)絡(luò)提取的特征圖中包含豐富的細(xì)節(jié)信息,但特征圖中信息的重要性不一樣,某些信息對目標(biāo)的檢測識別更重要。因此,為了能充分利用網(wǎng)絡(luò)中與任務(wù)相關(guān)的有效信息,抑制網(wǎng)絡(luò)中與任務(wù)無關(guān)的冗余信息,本文設(shè)計(jì)了一個(gè)卷積注意力模塊(CAMA),其結(jié)構(gòu)如圖5 所示。首先將特征圖F∈RC×H×W按通道拆分為兩組特征圖F1∈R(C2)×H×W,F(xiàn)2∈R(C2)×H×W,然后將F1饋入平均池池化層得到F1'∈R(C2)×1×1,F(xiàn)1'經(jīng)過一個(gè)1×1 卷積和sigmoid 函數(shù),輸出每個(gè)特征圖的權(quán) 重值β,將F1與β相乘得到F1'',將F1''與F1相加得到F1out;再將F2饋入最大池化層得到F2'∈R(C2)×1×1,F(xiàn)2'經(jīng)過一個(gè)1×1 卷積和sigmoid函數(shù),輸出每個(gè)特征圖的權(quán)重值α,將F2與α相乘得 到F2'',將F2''與F2相 加 得 到F2out;最 后,將和F2out相加后饋入1×1卷積得到被賦予權(quán)重的特征圖Fout。本文的卷積注意力模塊可以表示為:

        圖5 CAMA 模塊Fig. 5 CAMA module

        式中:S( ·)表示sigmoid 函數(shù),f1( ·)表示1×1 卷積,Avgpool( ·)表示平均池化,Maxpool( ·)表示最大池化。

        3.4 損失函數(shù)

        本文沿用文獻(xiàn)[7]中的損失函數(shù)。損失函數(shù)分為回歸損失和分類損失?;貧w損失采用Smooth L1 函數(shù),分類損失采用Focal Loss。假設(shè)目標(biāo)的三維先驗(yàn)框?yàn)?x,y,z,w,l,h,θ),真實(shí)邊界框表示為(xgt,ygt,zgt,wgt,lgt,hgt,θgt),預(yù)測邊界框表示為(x',y',z',w',l',h',θ'),則邊界框回歸損失函數(shù)Lloc表示為:

        式中d=x,y,z為中心坐標(biāo),w,l,h分別為寬,長,高,θ為目標(biāo)偏轉(zhuǎn)角。

        對于偏轉(zhuǎn)角回歸,使用Ldir進(jìn)一步在離散方向?qū)W習(xí)邊界框回歸方向,由于sin 函數(shù)特性無法區(qū)分θ為0°和180°,因此利用softmax 函數(shù)對角度進(jìn)行分類。softmax 的輸出值大于0 時(shí),角度為正,反之為負(fù)。

        分類損失函數(shù)Lcls表示為:

        其 中:pa是 anchor 的 類 別 概 率,設(shè) 置α=0.25,γ=2。

        總損失函數(shù)L表示為:

        式 中:Npos表示正錨框的數(shù)量,βloc=2,βcls=2,βdir=2。

        4 實(shí) 驗(yàn)

        本文的實(shí)驗(yàn)環(huán)境為:Intel? Core? i9-9820X CPU @ 3.30GHz×20 CPU NVIDIA GeForce RTX 2080 GPU,64 G 內(nèi)存,Ubuntu18.04 系統(tǒng)。采用Python 語言在Pytorch,OpenPCDet 點(diǎn)云目標(biāo)檢測框架下進(jìn)行實(shí)驗(yàn)驗(yàn)證。

        4.1 數(shù)據(jù)集

        本文在公開數(shù)據(jù)集KITTI[16]和DAIR-V2X-I[17]上進(jìn)行實(shí)驗(yàn)驗(yàn)證。KITTI 含有帶標(biāo)簽的訓(xùn)練樣本為7 481 幀。將7 481 幀樣本劃分為訓(xùn)練集和驗(yàn)證集,訓(xùn)練集包含3 712 幀樣本,驗(yàn)證集包含3 769 幀樣本,對汽車(Car)、行人(Pedestrian)和騎行者(Cyclist)三類目標(biāo)進(jìn)行檢測。DAIR-V2X-I包含10 084 幀樣本,其中公開的帶標(biāo)簽樣本共7 058 幀。將7 058 幀樣本劃分為訓(xùn)練集和驗(yàn)證集,訓(xùn)練集包含5 042 幀樣本,驗(yàn)證集包含2 016幀樣本,對汽車,行人和騎行者三類目標(biāo)進(jìn)行檢測。

        4.2 實(shí)驗(yàn)設(shè)置

        本文按照OpenPCDet 的設(shè)定來設(shè)置網(wǎng)絡(luò)的學(xué)習(xí)策略和超參數(shù),按照文獻(xiàn)[8]中的設(shè)定來設(shè)置數(shù)據(jù)集中點(diǎn)云的柱體尺寸、每個(gè)柱體中的最大點(diǎn)數(shù)、點(diǎn)云數(shù)據(jù)范圍內(nèi)所含最大柱體數(shù)、錨框尺寸、正 負(fù) 樣 本 交 并 比(Intersection Over Union,IoU)匹配閾值。由于KITTI 和DAIR-V2X-I 數(shù)據(jù)集中的有效范圍不一樣,因此設(shè)置的點(diǎn)云范圍不同。 KITTI 數(shù)據(jù)集的點(diǎn)云范圍設(shè)置為x∈[0,69.12],y∈[-39.68,39.68],z∈[-3,1];DAIR-V2X-I 數(shù)據(jù)集的點(diǎn)云范圍設(shè)置為x∈[0,99.84],y∈[-39.68,39.68],z∈[-3,1]。

        4.3 評價(jià)指標(biāo)

        本文采用精確率-召回率(Precision-Recall,PR)曲線、平均精度(Average Precision,AP)和每秒幀數(shù)(Frame Per Second,F(xiàn)PS)來衡量算法的性能。

        PR 曲線是一種評價(jià)模型性能的指標(biāo),以召回率(R)為橫坐標(biāo),精確率(P)為縱坐標(biāo)。其定義如下:

        式中:TP表示預(yù)測為正且實(shí)際為正的樣本數(shù)量,F(xiàn)N表示預(yù)測為負(fù)但實(shí)際為正的樣本數(shù)量,F(xiàn)P表示預(yù)測為正但實(shí)際為負(fù)的樣本數(shù)量。AP 是一種評價(jià)目標(biāo)檢測模型檢測效果的指標(biāo),這里采用文獻(xiàn)[16]中AP 的定義。對于汽車,設(shè)置當(dāng)IoU ≥0.7 時(shí)檢測正確;對于行人和騎行者,設(shè)置當(dāng)IoU ≥0.5 時(shí)檢測正確。按照KITTI 設(shè)定,根據(jù)目標(biāo)大小、遮擋和截?cái)嗲闆r將3 類目標(biāo)的檢測難度分為簡單(easy)、中等(middle)和困難(hard)3種。本文在這3 種不同檢測難度下評估算法性能。FPS 是一種用來衡量模型推理效率的指標(biāo),表示1 秒內(nèi)處理樣本的數(shù)量。在batch size 為1 時(shí)統(tǒng)計(jì)驗(yàn)證集上的指標(biāo)。一般地,PR 曲線包含的面積越大,模型性能越好;AP 值越大,模型性能越好;FPS 越大,模型推理速度越快。

        4.4 實(shí)驗(yàn)結(jié)果及分析

        本文對KITTI 和DAIR-V2X-I 數(shù)據(jù)集中的汽車、行人和騎行者進(jìn)行三維檢測,為公平比較,本文所用算法采用同樣的損失函數(shù)、相同的超參數(shù)在臺式工作站上進(jìn)行訓(xùn)練。

        4.4.1 定量分析

        在三維目標(biāo)檢測上采用AP,PR 曲線和FPS進(jìn)行定量分析,將Pillar-FFNet 與3 種主流點(diǎn)云目標(biāo)檢測算法對比,實(shí)驗(yàn)結(jié)果如表1、表2 和圖6所示,加粗字體表示最佳指標(biāo)。表1 和表2 分別為KITTI 驗(yàn)證集和DAIR-V2X-I 驗(yàn)證集上4 種算法的三維檢測AP 值和FPS;圖6 為4 種算法在KITTI 驗(yàn)證集簡單檢測難度下的PR 曲線。由表1 和 表2 可 知:Pillar-FFNet 對 三 類 目 標(biāo) 的 總 體 檢測和小目標(biāo)的效果均優(yōu)于其他3 種算法,但推理速度低于其他算法。在KITTI 驗(yàn)證集上,與PointPillar 相 比,F(xiàn)PS 降 低 了26.49 frame/s,汽車、行人和騎行者的AP 在easy 檢測難度下分別提高了0.84%,1.81%,4.02%,在middle 檢測難度下分別提高了0.62%,2.13%,2.39%,在hard檢測難度下分別提高了0.8%,1.16%,1.58%;在DAIR-V2X-I 驗(yàn)證集上,與PointPillar 相比,F(xiàn)PS 降低了6.95 frame/s,汽車,行人和騎行者的AP 在easy 檢測難度下分別提高了0.33%,2.09%,4.71%,在middle 檢測難度下分別提高了0.17%,0.17%,1.84%,在hard 檢測難度下分別提高了0.17%,0.17%,1.82%。由圖6 可知,Pillar-FFNet 在行人和騎行者類別上的PR 曲線明顯優(yōu)于其他3 個(gè)算法,在汽車類別上的PR 曲線與其他算法性能相當(dāng)。

        表1 KITTI 驗(yàn)證集上的三維檢測結(jié)果Tab.1 Result for 3D detection on KITTI validation dateset

        表2 DAIR-V2X-I 驗(yàn)證集上的三維檢測結(jié)果Tab.2 Result for 3D detection on the DAIR-V2X-I validation dateset

        圖6 四種對比算法在KITTI 驗(yàn)證集上的PR 曲線Fig.6 PR curves for four comparison algorithms on KITTI validation dataset

        在點(diǎn)云數(shù)據(jù)中,由于點(diǎn)云自身的稀疏性,用于表征小目標(biāo)的的點(diǎn)數(shù)少,因此對點(diǎn)云小目標(biāo)的檢測更加困難。與PointPillar 相比,Pillar-FFNet可以在不影響汽車檢測的前提下有效提高行人和騎行者這類小目標(biāo)檢測的性能。其主要原因有:首先,本文設(shè)計(jì)的RBNet 生成的4 個(gè)不同尺寸的特征圖中包含不同尺寸目標(biāo)的信息,有利于后續(xù)檢測頭中的特征提取與檢測分類;其次,MFHead 檢測頭將低層特征中的空間信息和高層特征中的語義信息進(jìn)行有效融合,使得饋入檢測頭的特征圖中含有各類目標(biāo)的豐富信息;最后,CAMA 模塊通過計(jì)算特征圖中對應(yīng)像素的權(quán)重,有效抑制了主干網(wǎng)絡(luò)輸出特征圖和融合后特征圖中的冗余信息,增強(qiáng)了特征圖中的有效信息。但由于本文設(shè)計(jì)的檢測頭采用多尺度特征融合策略,增加了需要處理的特征信息,且包含多個(gè)反卷積和卷積注意力模塊,計(jì)算量增加,降低了網(wǎng)絡(luò)推理速度。由于DAIR-V2X-I 數(shù)據(jù)集中的點(diǎn)云范圍更大、更加稠密,因此算法對DAIR-V2X-I 的處理效率更低。

        4.4.2 定性分析

        這里對Pillar-FFNet 和PointPillar 的檢測結(jié)果進(jìn)行了可視化分析,算法的部分檢測結(jié)果如圖7 所示。圖7 中,對應(yīng)位置表示同一幀點(diǎn)云經(jīng)過兩種不同算法的檢測結(jié)果,紅色框表示目標(biāo)真實(shí)框,綠色框、藍(lán)色框和黃色框分別表示網(wǎng)絡(luò)預(yù)測的汽車、行人和騎行者的位置。

        圖7 可視化檢測結(jié)果Fig.7 Visualisation of detection results

        由圖7 可知,Pillar-FFNet 對行人和騎行者的檢測效果有顯著提升,同時(shí)不會降低汽車的檢測效果。與PointPillar 相比,Pillar-FFNet 在小目標(biāo)檢測上整體更加準(zhǔn)確,但對于遠(yuǎn)距離的目標(biāo)和較密集場景中的目標(biāo)仍然存在較大的漏檢和誤檢。首先,對于遠(yuǎn)距離目標(biāo)的漏檢和誤檢問題,遠(yuǎn)距離的目標(biāo)點(diǎn)云數(shù)據(jù)中包含的有效點(diǎn)太少,導(dǎo)致從點(diǎn)中難以提取到能夠有效表征其目標(biāo)特性的特征,這是產(chǎn)生漏檢的主要原因;遠(yuǎn)距離的一些目標(biāo)在掃描成點(diǎn)云后在空間結(jié)構(gòu)上與汽車、行人和騎行者的部分高度相似,這是產(chǎn)生誤檢的主要原因。其次,密集場景中目標(biāo)之間的遮擋和自身遮擋等問題嚴(yán)重,導(dǎo)致采集的點(diǎn)云數(shù)據(jù)不全面,也會導(dǎo)致漏檢和誤檢。最后,由于本文算法是從偽圖像中提取目標(biāo)特征,點(diǎn)云中的目標(biāo)點(diǎn)過于稀疏,導(dǎo)致其在圖像上對應(yīng)的像素點(diǎn)太少,從而影響檢測。

        4.4.3 消融實(shí)驗(yàn)

        為驗(yàn)證CAMA 模塊和MFHead 檢測頭對三維檢測的影響,在KITTI 上進(jìn)行了消融實(shí)驗(yàn)。實(shí)驗(yàn)采用4.3 節(jié)的評價(jià)指標(biāo)來評估算法性能,實(shí)驗(yàn)結(jié)果如表3~表5 所示,其中加粗字體表示最佳指標(biāo)。

        表3 Pillar-FFNet 檢測頭不同融合方式對檢測的影響Tab.3 Effect of different fusion methods on detection of Pillar-FFNet detection heads

        首先,設(shè)計(jì)4 組消融實(shí)驗(yàn)來驗(yàn)證檢測頭中不同的特征融合方式對檢測性能的影響:實(shí)驗(yàn)1 將PointPillar 中的檢測頭替代Pillar-FFNet 中的MFHead;實(shí)驗(yàn)2 將MFHead 中的S1和S2融合,S3和S4融 合;實(shí) 驗(yàn)3 將MFHead 中 的S1,S3,S4融合,S2,S3,S4融 合;實(shí) 驗(yàn)4 將MFHead 替 換 為FPN[18]結(jié)構(gòu),實(shí)驗(yàn)結(jié)果如表3 所示。然后,設(shè)計(jì)4組實(shí)驗(yàn)來驗(yàn)證注意力對檢測性能的影響:實(shí)驗(yàn)5將CAMA 模塊用SE 模塊[19]代 替;實(shí)驗(yàn)6 將CAMA 模塊用CBAM 模塊[20]代替;實(shí)驗(yàn)7 將CAMA模 塊 用ECA 模 塊[21]代 替;實(shí) 驗(yàn)8 將CAMA 模 塊用3×3 卷積代替,實(shí)驗(yàn)結(jié)果如表4 所示。最后,設(shè)計(jì)3 組實(shí)驗(yàn)驗(yàn)證MFHead 檢測頭和CAMA 模塊對檢測性能的影響:第一組實(shí)驗(yàn)同時(shí)采用MFHead 和CAMA 模塊;第二組實(shí)驗(yàn)僅采用CAMA模塊;第三組實(shí)驗(yàn)僅采用MFHead 檢測頭,實(shí)驗(yàn)結(jié)果如表5 所示。

        表4 Pillar-FFNet 不同注意力模塊對檢測的影響Tab.4 Effect of different attention modules of Pillar-FFNet on detection

        表5 本文設(shè)計(jì)的模塊對檢測的影響Tab.5 Effect of modules designed in paper on detection

        根據(jù)表3~表5 可知,不同的檢測頭特征融合方式和注意力模塊下,檢測性能的差異較大。由表3 可知,MFHead 檢測頭相對于SSD 檢測頭和FPN 結(jié)構(gòu)具有更好的檢測效果;由表4 可知,CAMA 模塊相對于SE,CBAM 和ECA 注意力機(jī)制能夠進(jìn)一步提升三維檢測的性能。由表5 可知,同時(shí)采用CAMA 和MFHead 的模塊綜合檢測性能最好。

        5 結(jié) 論

        針對點(diǎn)云稀疏小目標(biāo)檢測困難的問題,本文結(jié)合多尺度特征融合策略和卷積注意力設(shè)計(jì)了一種點(diǎn)云目標(biāo)檢測網(wǎng)絡(luò)。在公開數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,結(jié)果表明,與基準(zhǔn)算法相比,本文算法在KITTI 和DAIR-V2X-I 數(shù)據(jù)集上對行人和騎行者這兩類小目標(biāo)的3D 檢測精度最大分別提高了2.13%和4.71%。但由于點(diǎn)云自身特性的限制,點(diǎn)云中表征小目標(biāo)的點(diǎn)數(shù)量少,算法提取到的小目標(biāo)特征少,導(dǎo)致小目標(biāo)準(zhǔn)確檢測困難。因此,后續(xù)的研究重點(diǎn)是對點(diǎn)云中的小目標(biāo)進(jìn)行有效補(bǔ)全,以提升小目標(biāo)檢測的準(zhǔn)確性。

        猜你喜歡
        卷積特征模塊
        28通道收發(fā)處理模塊設(shè)計(jì)
        “選修3—3”模塊的復(fù)習(xí)備考
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        如何表達(dá)“特征”
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        不忠誠的四個(gè)特征
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        抓住特征巧觀察
        選修6 第三模塊 International Relationships
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
        777国产偷窥盗摄精品品在线| 国产成人综合久久精品推| 亚洲免费av电影一区二区三区| 精品人伦一区二区三区蜜桃麻豆| 亚洲AV无码一区二区水蜜桃| 国产成人av区一区二区三| 少妇被按摩出高潮了一区二区| 99在线精品视频在线观看| 99久久国产综合精品麻豆| 亚洲成精品动漫久久精久| 精品国产免费一区二区久久 | 亚洲最大中文字幕在线| 亚洲av日韩av在线观看| 人人爽人人爽人人爽| 国产成人精品麻豆| 丝袜美腿亚洲综合一区| 亚洲综合偷自成人网第页色| 粗大猛烈进出白浆视频| 日本VA欧美VA精品发布| 国产精品福利久久香蕉中文| 男女午夜视频一区二区三区| 日本一级片一区二区三区| 国产无夜激无码av毛片| 亚洲精品久久久久高潮| 中文字幕日本人妻一区| 成人自拍三级在线观看| 精品国产偷窥一区二区| 国精产品一品二品国在线| 加勒比精品久久一区二区三区| 亚洲国产色图在线视频| 中文字幕乱码一区在线观看 | 俺去俺来也在线www色官网| 亚洲欧美日韩精品中文乱码| 喷潮出白浆视频在线观看| 美女被男人插得高潮的网站| 久久久久夜夜夜精品国产| 久久亚洲av永久无码精品| 久久综合给合久久狠狠狠9| av新型国产在线资源| 无码av专区丝袜专区| 国产色a在线观看|