黃 俊,劉家森
(重慶郵電大學(xué) 通信與信息工程學(xué)院,重慶 400065)
隨著自動(dòng)駕駛技術(shù)的不斷發(fā)展和普及,3D目標(biāo)檢測(cè)作為自動(dòng)駕駛中關(guān)鍵的環(huán)境感知模塊,正日益成為引領(lǐng)自動(dòng)駕駛技術(shù)發(fā)展的重要領(lǐng)域[1]。3D目標(biāo)檢測(cè)是感知模塊的核心,可為自動(dòng)駕駛的路徑規(guī)劃、運(yùn)動(dòng)預(yù)測(cè)、決策控制等提供精確、豐富的空間信息[2]。
現(xiàn)有的3D目標(biāo)檢測(cè)可以分為3種,分別是基于圖像、點(diǎn)云和多傳感器融合的方法[3]。在基于圖像的方法中,文獻(xiàn)[4]首先使用卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)出初步的3D預(yù)測(cè)框,再將其投影到2D圖像上提取目標(biāo)的可視表面,利用可視表面的特征對(duì)初步的3D預(yù)測(cè)框進(jìn)行調(diào)整得到最終結(jié)果。文獻(xiàn)[5]使用被測(cè)車輛一些特征點(diǎn)的位置信息來表示整個(gè)車輛的3D預(yù)測(cè)框信息。根據(jù)車輛本身具有的形狀,從自建數(shù)據(jù)集中進(jìn)行車輛模型匹配,得到最終3D預(yù)測(cè)框信息。上述基于圖像的3D目標(biāo)檢測(cè)算法雖然步驟簡(jiǎn)單,但是圖片缺少目標(biāo)深度信息,不能準(zhǔn)確還原目標(biāo)3D信息。
在基于點(diǎn)云的方法中,文獻(xiàn)[6]將空間劃分為逐個(gè)的體素,體素中對(duì)雷達(dá)點(diǎn)云進(jìn)行抽樣,然后對(duì)每個(gè)體素進(jìn)行編碼,得到輸入特征集合,然后進(jìn)行3D卷積,得到結(jié)果。文獻(xiàn)[7]將雷達(dá)點(diǎn)云數(shù)據(jù)自身進(jìn)行柱狀擴(kuò)張,再將其轉(zhuǎn)換為虛擬特征圖像,然后從3D卷積換為2D卷積來得到結(jié)果。上述基于點(diǎn)云目標(biāo)檢測(cè)方法中,都缺少目標(biāo)的紋理特征信息,并且由于大部分點(diǎn)云是3D卷積,運(yùn)算量過大、實(shí)時(shí)性很差。
在基于融合的方法中,文獻(xiàn)[8]將圖像信息做語(yǔ)義分割,分割出需要檢測(cè)的目標(biāo);然后將生成的語(yǔ)義信息和點(diǎn)云相融合后傳入檢測(cè)網(wǎng)絡(luò);最后得到檢測(cè)結(jié)果。這樣的缺點(diǎn)在于融合方式過于簡(jiǎn)單,容易把干擾雷達(dá)的信息融合從而導(dǎo)致準(zhǔn)確率下降。文獻(xiàn)[9]提出了一種多攝像頭鳥瞰視角下的三維物體檢測(cè)算法。該算法使用卷積神經(jīng)網(wǎng)絡(luò)將不同攝像頭收集的車輛圖像映射到一個(gè)共同的鳥瞰圖平面上,然后進(jìn)行物體檢測(cè)和分類。但是,該算法對(duì)于不同車型和不同尺寸的車輛在檢測(cè)方面可能存在一定的局限性。其次,該算法在計(jì)算鳥瞰圖時(shí)需要對(duì)圖像進(jìn)行投影變換,會(huì)引入一定的誤差。文獻(xiàn)[10]對(duì)RGB圖像先提取出準(zhǔn)確的2D邊框信息以及初步預(yù)測(cè)的3D邊框信息,再對(duì)毫米波雷達(dá)點(diǎn)云進(jìn)行柱狀擴(kuò)張,然后通過視錐關(guān)聯(lián)網(wǎng)絡(luò)的方式選取一個(gè)雷達(dá)點(diǎn)云作為特征信息補(bǔ)充,并且把2D信息和補(bǔ)充的雷達(dá)點(diǎn)云進(jìn)行信息融合后再通過特征網(wǎng)絡(luò)得到最終預(yù)測(cè)的3D信息,最終解碼器通過初步預(yù)測(cè)的3D信息和最終預(yù)測(cè)的3D信息得到準(zhǔn)確的3D邊框信息。
綜上所述,本文針對(duì)自動(dòng)駕駛中相機(jī)信息特征不充分而導(dǎo)致目標(biāo)漏檢的問題,設(shè)計(jì)了多通道特征數(shù)據(jù)輸入方式,通過雷達(dá)特征彌補(bǔ)相機(jī)特征以增強(qiáng)目標(biāo)檢測(cè)網(wǎng)絡(luò)在遠(yuǎn)距離情況下的魯棒性來解決漏檢問題,并改進(jìn)了損失函數(shù)來提高目標(biāo)檢測(cè)網(wǎng)絡(luò)的準(zhǔn)確率。此外,為了得到更加準(zhǔn)確的3D目標(biāo)檢測(cè)結(jié)果,設(shè)計(jì)了改進(jìn)注意力機(jī)制對(duì)毫米波雷達(dá)和視覺信息進(jìn)行特征融合,解決復(fù)雜環(huán)境下的目標(biāo)誤檢問題。本文在大型公開數(shù)據(jù)集Nuscenes上進(jìn)行算法驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,本文所提出的改進(jìn)Centerfsuion模型在遠(yuǎn)距離以及復(fù)雜環(huán)境下,相較于傳統(tǒng)Centerfusion模型具有更好的準(zhǔn)確率。
攝像頭和雷達(dá)特征進(jìn)行融合時(shí),很難將雷達(dá)和視覺特征相關(guān)聯(lián),Centerfusion是一種利用視錐來關(guān)聯(lián)攝像頭和雷達(dá)特征的檢測(cè)網(wǎng)絡(luò),其網(wǎng)絡(luò)架構(gòu)如圖1所示。
圖1 Centerfusion網(wǎng)絡(luò)架構(gòu)Fig.1 Centerfusion network architecture
該網(wǎng)絡(luò)結(jié)構(gòu)分為3個(gè)主要部分,分別為目標(biāo)檢測(cè)網(wǎng)絡(luò)、視錐關(guān)聯(lián)網(wǎng)絡(luò)和二級(jí)回歸特征融合網(wǎng)絡(luò)。目標(biāo)檢測(cè)網(wǎng)絡(luò)的輸入為單一的RGB圖像,采用Centernet[11]作為目標(biāo)檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu),并將深度層聚合(Deep Layer Aggregation, DLA)作為檢測(cè)網(wǎng)絡(luò)的骨干網(wǎng)絡(luò)。其輸出結(jié)果為準(zhǔn)確的2D邊框信息和初步預(yù)測(cè)的3D邊框信息。
視錐關(guān)聯(lián)網(wǎng)絡(luò)通過對(duì)毫米波雷達(dá)點(diǎn)云進(jìn)行柱狀擴(kuò)充,并根據(jù)準(zhǔn)確的2D邊框的4個(gè)頂點(diǎn)進(jìn)行投影,形成視錐。視錐關(guān)聯(lián)網(wǎng)絡(luò)將初步預(yù)測(cè)的3D邊框與投影曲線相切,從而確定視錐的形狀。對(duì)于落在3D邊框內(nèi)部的雷達(dá)點(diǎn)云柱體,視錐關(guān)聯(lián)網(wǎng)絡(luò)認(rèn)為其與視錐相關(guān)聯(lián)。
二級(jí)回歸特征融合網(wǎng)絡(luò)在視錐關(guān)聯(lián)模塊中選擇與目標(biāo)檢測(cè)網(wǎng)絡(luò)輸出的中心點(diǎn)最近的雷達(dá)點(diǎn)云,并將其作為補(bǔ)充的雷達(dá)特征信息。該雷達(dá)點(diǎn)云與目標(biāo)檢測(cè)網(wǎng)絡(luò)中的特征信息按通道拼接構(gòu)成新的輸入特征,用于預(yù)測(cè)目標(biāo)準(zhǔn)確的3D邊框信息。通過3D邊框解碼器將目標(biāo)檢測(cè)網(wǎng)絡(luò)輸出的初步3D邊框信息與二級(jí)回歸特征融合網(wǎng)絡(luò)得到的3D邊框信息相結(jié)合,得到更準(zhǔn)確的3D邊框結(jié)果。
在Centerfusion的初步檢測(cè)階段,僅使用相機(jī)信息作為輸入特征。然而,在遠(yuǎn)距離和復(fù)雜環(huán)境下,由于目標(biāo)像素特征占比過低,僅依靠相機(jī)信息進(jìn)行初步檢測(cè)可能導(dǎo)致魯棒性不足的問題。與相機(jī)相比,雷達(dá)在極端環(huán)境條件下能夠提供更多豐富而有用的目標(biāo)信息。因此,為了解決這一問題,在Centerfusion的初步檢測(cè)階段,可以同時(shí)利用相機(jī)和毫米波雷達(dá)的特征進(jìn)行初步檢測(cè)。這種融合相機(jī)和毫米波雷達(dá)特征的方法能夠充分利用二者之間的信息互補(bǔ)能力。
基于文獻(xiàn)[12],本文加入了多通道特征輸入,其中包括毫米波雷達(dá)的深度d、速度v、反射截面r和相機(jī)信息。首先,將毫米波雷達(dá)點(diǎn)云投影到垂直平面,并將投影在平面方向上進(jìn)行拉伸以彌補(bǔ)高度信息。為了解決雷達(dá)數(shù)據(jù)稀疏問題,參考了文獻(xiàn)[12]中的將13個(gè)毫米波雷達(dá)掃描幀進(jìn)行聚合。垂直投影線的高度為參考的3 m,像素寬度為1。垂直投影線從3D空間中的地面開始,雷達(dá)點(diǎn)云離攝像機(jī)原點(diǎn)越近,線的高度越大。圖2顯示了點(diǎn)云投影到圖像上拉伸的效果。
圖2 雷達(dá)點(diǎn)云高度拉伸圖Fig.2 Stretching diagram of radar point cloud height
將雷達(dá)回波特征作為像素值存儲(chǔ)在特征圖像中。對(duì)于沒有雷達(dá)回波的圖像像素位置,將對(duì)應(yīng)的雷達(dá)投影通道值設(shè)置為0。這些雷達(dá)通道特征與RGB輸入圖像連接,共同構(gòu)成多通道特征輸入,作為Centerfusion目標(biāo)檢測(cè)網(wǎng)絡(luò)的輸入特征。圖3展示了多通道特征輸入的信息示意,其中包括攝像機(jī)圖像通道特征和額外的雷達(dá)特征通道信息。
圖3 多通道特征輸入Fig.3 Multi-channel feature input
在視錐關(guān)聯(lián)模塊中選擇距離中心點(diǎn)最近的雷達(dá)點(diǎn)云作為融合的雷達(dá)特征信息,視錐關(guān)聯(lián)模塊如圖4所示。
圖4 視錐關(guān)聯(lián)模塊Fig.4 Visual cone correlation module
圖4(左)為鳥瞰圖視角下的視錐關(guān)聯(lián)圖,其中紅色矩形為真實(shí)框,綠色點(diǎn)為毫米波雷達(dá)點(diǎn)云,d為訓(xùn)練階段的真實(shí)深度值,δ為調(diào)節(jié)視錐大小的參數(shù)。圖4(右)為基于3D邊框生成視錐感興趣區(qū)域,綠色形成的框架為初步預(yù)測(cè)的3D框,中間棕色的3D框?yàn)榕袛嗬走_(dá)是否關(guān)聯(lián)的矩形區(qū)域,如果雷達(dá)存在該區(qū)域則視為關(guān)聯(lián),否則視為不關(guān)聯(lián)。
通過視錐關(guān)聯(lián)模塊得到的補(bǔ)充雷達(dá)特征信息為包含深度d和2個(gè)方向速度vx、vy的3通道特征信息。該特征信息作為融合網(wǎng)絡(luò)的一部分輸入。
同時(shí),目標(biāo)檢測(cè)網(wǎng)絡(luò)通過輸入多通道特征獲得的特征熱圖也作為融合網(wǎng)絡(luò)的另一部分輸入,特征熱圖如圖5所示。
圖5 目標(biāo)檢測(cè)網(wǎng)絡(luò)特征熱圖Fig.5 Feature heatmap of target detection network
為了更好地將2種特征熱圖信息進(jìn)行融合。并考慮到CBAM[13]中為了避免特征維度縮減和增加通道間信息交互,在降低復(fù)雜度的同時(shí)保持性能。本文在文獻(xiàn)[14]的基礎(chǔ)上,設(shè)計(jì)了改進(jìn)的高效卷積注意力模塊(Efficient Convolutional Block AttentionModule,ECBAM)來促進(jìn)2種特征信息更好地融合。把該補(bǔ)充雷達(dá)特征熱圖和目標(biāo)檢測(cè)網(wǎng)絡(luò)得到的特征熱圖先分別經(jīng)過改進(jìn)的ECBAM,然后按通道拼接融合構(gòu)成新的融合特征 。
改進(jìn)的ECBAM構(gòu)架如圖6所示。在注意力通道模塊中,輸入特征F先經(jīng)過去全局平均池化(Global Average Pooling,GAP)后得到F1,然后通過一個(gè)自適應(yīng)卷積核大小為K的1D卷積且通過Sigmoid激活層得到的F2,F2和輸入特征F相乘得到輸出結(jié)果M1。M1同時(shí)作為空間注意力模塊的輸入特征信息,在通道方向上進(jìn)行最大池化和平均池化,并將二者按通道堆疊得到M2,然后M2再通過一個(gè)7×7 大小卷積核的卷積層得到M3,M3通過 Sigmoid 激活層得到M4,最后將輸入特征M1與該權(quán)重參數(shù)M4進(jìn)行相乘,得到最終輸出特征M。
圖6 ECBAM架構(gòu)Fig.6 ECBAM architecture
自適應(yīng)卷積核尺寸K的計(jì)算如式(1)所示,其中,C表示輸入層的通道數(shù)或特征圖的通道數(shù),γ=2,b=1,odd表示K只能能取奇數(shù)。
(1)
綜上所述,在加入了多通道特征輸入以及ECBAM融合方式之后,最終本文模型的整體網(wǎng)絡(luò)架構(gòu)如圖7所示。
圖7 整體網(wǎng)絡(luò)架構(gòu)Fig.7 Overall network architecture
Centerfusion目標(biāo)檢測(cè)網(wǎng)絡(luò)采用Centernet,Centernet的損失函數(shù)計(jì)算如式(2)所示,由熱力圖損失Lk,目標(biāo)大小損失Lsize和中心偏移量損失Loff組成。
Ldet=LkλsizeLsize+λoffLoff,
(2)
式中:調(diào)節(jié)因子λsize=0.1,λoff=1。
(3)
(4)
(5)
為了解決邊界框不重合以及邊界框?qū)捀弑葘?dǎo)致的回歸精度不高的問題,本文對(duì)損失函數(shù)進(jìn)行改進(jìn),計(jì)算如式(6)所示:
(6)
式中:IoU[15]表示預(yù)測(cè)框和真實(shí)框的交并比,p表示為預(yù)測(cè)框和真實(shí)框中心點(diǎn)的距離,c表示預(yù)測(cè)框和真實(shí)框的最小box的對(duì)角線長(zhǎng),α表示權(quán)重系數(shù),v表示衡量2個(gè)矩形框相對(duì)比例的一致性,其原理如圖8所示。
圖8 CIoU原理Fig.8 CIoU schematic
IoU計(jì)算如下:
(7)
式中:A表示真實(shí)框,B表示預(yù)測(cè)框。
α和v計(jì)算如下:
式中:wgt和hgt表示真實(shí)框的寬和高,w和h表示預(yù)測(cè)框的寬和高。
因此改進(jìn)后的總損失函數(shù)如下:
Lloss=LK+LCIoU。
(10)
改進(jìn)后的損失函數(shù)可以緩解Centernet預(yù)測(cè)時(shí)只有一個(gè)中心點(diǎn)而導(dǎo)致的準(zhǔn)確度不高的問題,提升了目標(biāo)檢測(cè)網(wǎng)絡(luò)的檢測(cè)精度。
本文使用的實(shí)驗(yàn)平臺(tái)為 Ubuntu 20.04,開發(fā)語(yǔ)言為Python 3.7,深度學(xué)習(xí)框架為PyTorch 1.7,CUDA 版本為 11.1,CPU為至強(qiáng)Platinum 8350, 主頻 2.60 GHz,內(nèi)存43 GB,硬盤600 GB,顯卡為RTX3090,24 GB顯存。
目前3D目標(biāo)檢測(cè)主流數(shù)據(jù)集包括Nuscenes[16]、Kitti[17]和Waymo[18]。本文采用Nuscenes數(shù)據(jù)集進(jìn)行算法驗(yàn)證。它是目前主流的3D目標(biāo)檢測(cè)數(shù)據(jù)集之一,擁有6個(gè)攝像頭、5個(gè)毫米波雷達(dá)、1個(gè)激光雷達(dá)進(jìn)行數(shù)據(jù)采集。該數(shù)據(jù)集包括1 000個(gè)不同城市場(chǎng)景,每個(gè)場(chǎng)景時(shí)長(zhǎng)20 s,包含40個(gè)關(guān)鍵幀。擁有140萬張圖片、130萬個(gè)毫米波雷達(dá)掃描幀、39萬個(gè)激光雷達(dá)掃描幀、140萬個(gè)對(duì)象邊界框、23個(gè)類別注釋。在本文中舍棄了激光雷達(dá)數(shù)據(jù),且數(shù)據(jù)分為10種類別:Car、Truck、Bus、Trailer、Const、Pedest、Motor、Bicycle、Traff、Barrier。
Nuscenes數(shù)據(jù)集的檢測(cè)任務(wù)評(píng)價(jià)主要指標(biāo)包括:平均精度均值(mean Average Precision, mAP),Nuscenes檢測(cè)分?jǐn)?shù)(Nucenes Detection Scores,NDS)。其中計(jì)算mAP需要計(jì)算精確度P和召回率R,其計(jì)算公式如下:
式中:TP為真實(shí)樣本而預(yù)測(cè)為真實(shí)樣本,FP為錯(cuò)誤樣本而預(yù)測(cè)為真實(shí)樣本,FN為真實(shí)樣本而預(yù)測(cè)為錯(cuò)誤樣本。某一種類別的平均精度(AP)計(jì)算如下:
(13)
mAP是所有類別的AP之和,計(jì)算如下:
(14)
式中:n為10種類別。
NDS根據(jù)mAP以及平均度量mTP[19]計(jì)算得到,其中mTP指標(biāo)包括5小類,分別是:平均平移誤差(Average Translation Error,ATE)、平均尺度誤差(Average Scale Error,ASE)、平均角度誤差(Average Orientation Error,AOE)、平均速度誤差(Average Velocity Error,AVE)和平均屬性誤差(Average Attribute Error,AAE)。NDS計(jì)算如下:
本文對(duì)遠(yuǎn)距離小目標(biāo)以及復(fù)雜背景環(huán)境下2組情況進(jìn)行測(cè)試,檢測(cè)結(jié)果如圖9所示。
圖9 對(duì)比檢測(cè)結(jié)果Fig.9 Comparison test results
在圖9中,從左至右分別為原圖、基于Centerfusion的基模型檢測(cè)結(jié)果以及本文模型的檢測(cè)結(jié)果。其中,從最上方的3張圖片可以看出,對(duì)于遠(yuǎn)距離小目標(biāo)情況,公路上2個(gè)白色小車之間的黑車,以及公路右側(cè)遠(yuǎn)處的一個(gè)行人沒有被基模型Centerfusion檢測(cè)出來,而本文模型能夠在較遠(yuǎn)距離下正確地將目標(biāo)識(shí)別出來。
第二組實(shí)驗(yàn)針對(duì)復(fù)雜背景下存在許多背景物體的情況進(jìn)行了測(cè)試。從圖9可以看出,基模型未能檢測(cè)出遠(yuǎn)處草叢中的人和右方黑暗門口中的另一個(gè)人。此外,盡管基模型檢測(cè)到了大樹下的白色汽車,但是可以看出其3D邊框存在較大的偏移誤差,相比之下,本文模型因?yàn)橐肓死走_(dá)特征信息,所以在相機(jī)模糊區(qū)域依然可以有效識(shí)別目標(biāo)。此外,本文模型還采用了基于改進(jìn)注意力機(jī)制的融合網(wǎng)絡(luò),使得大樹下的白色汽車3D信息更加準(zhǔn)確,因此相較于基模型,本文模型取得了更好的檢測(cè)效果。
為了進(jìn)一步驗(yàn)證本文所提出模型的有效性,在相同環(huán)境情況下,分別先后測(cè)試了Centernet、Centerfusion。算法性能對(duì)比如表1所示。
表1 算法性能對(duì)比Tab.1 Comparison of algorithm performance
從表1可以看出,本文模型相比于基模型Centerfusion在NDS指標(biāo)上提升了1.2%,同時(shí)也在mAP指標(biāo)上提升了 1.3%。此外,在mTP的各項(xiàng)誤差指標(biāo)中也獲得了顯著下降。綜合各項(xiàng)指標(biāo)來看,本文模型在目標(biāo)檢測(cè)性能上優(yōu)于其他2種模型。此外,本文模型和其他2種模型各類檢測(cè)目標(biāo)的精度對(duì)比如表2所示。
表2 算法精度對(duì)比Tab.2 Comparison of algorithm accuracy
從表2可以看出,本文模型在各個(gè)目標(biāo)類別的檢測(cè)精度上都有顯著提升,特別是針對(duì)小目標(biāo)如Pedest、Motor和Bicycle等,相較于基模型Centerfusion分別提升了7.4%、9.3%和5.9%。而針對(duì)較大目標(biāo)類別如Car、Truck、Bus和Trailer分別提高了1.8%、1.6%、2.6%和1.7%。這是因?yàn)楸疚哪P歪槍?duì)小目標(biāo)在相機(jī)信息中像素特征占比不足的問題進(jìn)行了改進(jìn),引入了多通道特征進(jìn)行補(bǔ)充,從而增強(qiáng)了目標(biāo)檢測(cè)的魯棒性。此外,通過引入基于改進(jìn)注意力機(jī)制的特征融合方案,結(jié)合毫米波雷達(dá)和相機(jī)特征,進(jìn)一步提高了目標(biāo)檢測(cè)的準(zhǔn)確性。
為進(jìn)一步驗(yàn)證本文各個(gè)模塊的有效性,分別對(duì)多通道特征、融合方式以及損失函數(shù)進(jìn)行消融實(shí)驗(yàn),結(jié)果如表3所示。
表3 融合實(shí)驗(yàn)對(duì)比Tab.3 Comparison of fusion experiment
從表3第2組實(shí)驗(yàn)結(jié)果可以看出,僅僅加入了多通道特征之后,模型的mAP得到了顯著提升,這是因?yàn)槎嗤ǖ捞卣骺梢越鉀Q相機(jī)特征不足的問題,改善了漏檢現(xiàn)象。但是,在mATE上有所增加,這是因?yàn)槎嗤ǖ捞卣麟m然可以補(bǔ)充額外信息,但也可能引入了一些錯(cuò)誤信息,導(dǎo)致中心點(diǎn)定位不準(zhǔn)確。
為了緩解該誤差并更加準(zhǔn)確地確定目標(biāo)的中心點(diǎn)位置,第3組實(shí)驗(yàn)加入了改進(jìn)的損失函數(shù),從而提高了中心點(diǎn)的準(zhǔn)確性,進(jìn)而改善了mATE。
第4組實(shí)驗(yàn)相較于第1組實(shí)驗(yàn),加入了基于改進(jìn)注意力機(jī)制的融合方式,在NDS、mAP指標(biāo)上相對(duì)于基模型和第1組實(shí)驗(yàn)都得到了提高,此外,在mASE、mAOE、mAVE和mAAE方面的改善較為明顯,這是因?yàn)樾碌娜诤戏绞侥軌蚋玫仄ヅ湎鄼C(jī)信息和雷達(dá)信息,從而更準(zhǔn)確地還原物體的3D信息。
在第5組實(shí)驗(yàn)中,相較于第4組實(shí)驗(yàn),引入了改進(jìn)的損失函數(shù),模型各方面參數(shù)均得到提升和改善。綜合來看,通過這5組實(shí)驗(yàn)結(jié)果可以得出結(jié)論,本文模型在改進(jìn)的方向上具有有效性,通過引入多通道特征、改進(jìn)的損失函數(shù)和基于注意力機(jī)制的融合方式,顯著提升了目標(biāo)檢測(cè)的性能。這些結(jié)果表明本文模型在多模態(tài)目標(biāo)檢測(cè)任務(wù)中的潛力和優(yōu)越性。
針對(duì)當(dāng)前3D目標(biāo)檢測(cè)中遠(yuǎn)距離小目標(biāo)漏檢以及復(fù)雜環(huán)境下對(duì)目標(biāo)3D信息誤檢的問題,本文提出了一種基于毫米波雷達(dá)和視覺信息融合的3D目標(biāo)檢測(cè)方法,并在Nuscenes數(shù)據(jù)集上進(jìn)行了模型驗(yàn)證與對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,本文提出的多通道特征輸入方式和新的融合方式相較于傳統(tǒng)的單一相機(jī)通道特征以及簡(jiǎn)單融合方式具有更好的抗干擾能力和檢測(cè)精度。由于條件限制,本文算法在速度上仍然存在缺陷,且沒有在實(shí)車上進(jìn)行測(cè)試。因此,未來將針對(duì)時(shí)效性和實(shí)用性進(jìn)行驗(yàn)證并改善。