亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        AF-CenterNet:基于交叉注意力機(jī)制的毫米波雷達(dá)和相機(jī)融合的目標(biāo)檢測

        2024-04-29 00:00:00車?yán)?/span>呂連輝蔣留兵

        摘 要:對于自動駕駛領(lǐng)域而言,確保在各種天氣和光照條件下精確檢測其他車輛目標(biāo)是至關(guān)重要的。針對單個(gè)傳感器獲取信息的局限性,提出一種基于cross-attention注意力機(jī)制的融合方法(AF),用于在特征層面上融合毫米波雷達(dá)和相機(jī)信息。首先,將毫米波雷達(dá)和相機(jī)進(jìn)行空間對齊,并將對齊后的點(diǎn)云信息投影成點(diǎn)云圖像。然后,將點(diǎn)云圖像在高度和寬度方向上進(jìn)行擴(kuò)展,以提高相機(jī)圖像和點(diǎn)云圖像之間的匹配度。最后,將點(diǎn)云圖像和相機(jī)圖像送入包含AF結(jié)構(gòu)的CenterNet目標(biāo)檢測網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,并生成一個(gè)空間注意力權(quán)重,以增強(qiáng)相機(jī)中的關(guān)鍵特征。實(shí)驗(yàn)結(jié)果表明,AF結(jié)構(gòu)可以提高原網(wǎng)絡(luò)檢測各種大小目標(biāo)的性能,特別是對小目標(biāo)的檢測提升更為明顯,且對系統(tǒng)的實(shí)時(shí)性影響不大,是提高車輛在多種場景下檢測精度的理想選擇。

        關(guān)鍵詞: 自動駕駛;目標(biāo)檢測;毫米波雷達(dá);交叉注意力融合

        中圖分類號: TP391文獻(xiàn)標(biāo)志碼:A 文章編號: 1001-3695(2024)04-044-1258-06

        doi: 10.19734/j.issn.1001-3695.2023.07.0343

        AF-CenterNet: object detection with fusion of millimeter-wave radar and camera using cross-attention mechanism

        Che Li Lyu Lianhui Jiang Liubinga,b

        Abstract:For the field of autonomous driving, it is crucial to ensure accurate detection of other vehicle targets under various weather and lighting conditions. To address the limitations of the information acquired by a single sensor, this paper proposed a fusion method (AF) based on the cross-attention mechanism for fusing millimeter-wave radar and camera information at the feature level. It first spatially aligned the millimeter-wave radar and camer projecting the aligned point cloud information into a point cloud image. Then, it expanded the point cloud image in the height and width directions to improve the match between the camera image and the point cloud image. Finally, it sent the point cloud image and the camera image into a CenterNet target detection network containing the AF structure for training and generated a spatial attention weight to enhance key features in the camera. The experimental results show that the AF structure can improve the performance of the original network in detecting targets of various sizes, especially for small targets, and has little impact on the real-time performance of the system, which makes it an ideal choice for improving the detection accuracy of vehicles in a variety of scenarios. Key words:autonomous driving; object detection; millimeter-wave radar; cross-attention fusion

        0 引言

        隨著各類傳感器技術(shù)和計(jì)算機(jī)視覺技術(shù)的發(fā)展,自動駕駛的實(shí)現(xiàn)成為了可能。單一傳感器獲取到的信息難以滿足自動駕駛的需要。因此, 多傳感器融合技術(shù)是實(shí)現(xiàn)自動駕駛的核心技術(shù),通過多傳感器融合技術(shù),可以協(xié)同多個(gè)同類或異類傳感器,共同采集車輛周圍環(huán)境的數(shù)據(jù)信息,經(jīng)過多傳感器融合結(jié)構(gòu)或算法的處理分析,使車輛能全面地感知周圍環(huán)境,幫助車輛完成自動駕駛等智能決策[1]。

        根據(jù)傳感器融合信息所在的層次,將傳感器融合技術(shù)分為數(shù)據(jù)層融合、特征層融合和決策層融合。特征層融合在融合前對信息進(jìn)行了一定的特征提取處理,在保持目標(biāo)重要特征的基礎(chǔ)上,對提取的特征進(jìn)行融合。其相較于數(shù)據(jù)層融合提高了系統(tǒng)的實(shí)時(shí)性,同時(shí)比決策層融合保留了更多的細(xì)節(jié)信息[2]。在自動駕駛領(lǐng)域中,常使用到的傳感器有毫米波雷達(dá)、激光雷達(dá)和相機(jī)。相機(jī)能夠在光照條件良好的場景下獲取豐富的環(huán)境信息如物體的色彩、紋理和形狀等, 而毫米波雷達(dá)能夠探測目標(biāo)的距離、速度信息,且不受光照條件的影響,同時(shí)在雨天、雪天和多霧的天氣條件下也具備一定的抗干擾性,但不能直接反映目標(biāo)形狀、色彩等信息。激光雷達(dá)雖然比毫米波雷達(dá)的探測精度更高,但激光雷達(dá)在雨雪霧等天氣環(huán)境下會受到較大的影響??紤]到自動駕駛需要在全天候場景下保持穩(wěn)定、精確的探測性能,只有各個(gè)傳感器互相配合使用,形成優(yōu)勢互補(bǔ),再加上信息融合算法的優(yōu)化處理,才能更好地采集處理車輛周圍的數(shù)據(jù),并給出更加準(zhǔn)確、魯棒的決策[3]。因此,本文使用毫米波雷達(dá)和相機(jī)進(jìn)行傳感器融合來實(shí)現(xiàn)優(yōu)勢互補(bǔ)。因?yàn)楹撩撞ɡ走_(dá)點(diǎn)云數(shù)據(jù)的稀疏性,使其不能像激光雷達(dá)一樣生成密集的點(diǎn)云數(shù)據(jù)與相機(jī)圖像進(jìn)行密切的匹配,所以雷達(dá)與相機(jī)的融合研究相較于激光雷達(dá)和相機(jī)融合的發(fā)展較為緩慢。在毫米波雷達(dá)與相機(jī)融合的初期,融合層次一般停留在決策層融合[4~6],總的來說,首先使用雷達(dá)來提取出相機(jī)圖像中的感興趣區(qū)域,再對雷達(dá)提取到的感興趣區(qū)域單獨(dú)進(jìn)行相機(jī)圖像的目標(biāo)檢測。雖然,感興趣區(qū)域的設(shè)計(jì)加快了目標(biāo)檢測網(wǎng)絡(luò)對圖像的處理速度,但最后檢測的精度還是基于相機(jī)圖像的檢測結(jié)果,并沒有很好地結(jié)合毫米波雷達(dá)信息和相機(jī)信息的優(yōu)勢。對于特征層融合,文獻(xiàn)[7]使用毫米波雷達(dá)點(diǎn)云中的距離和速度信息生成點(diǎn)云圖像,再在ResNet18主干特征提取網(wǎng)絡(luò)中加入點(diǎn)云圖像特征提取分支,將提取到的相機(jī)和點(diǎn)云的特征圖堆疊進(jìn)行特征融合,最后使用SSD網(wǎng)絡(luò)作為目標(biāo)檢測框架進(jìn)行目標(biāo)識別。同樣地,RVNet[8]也是將點(diǎn)云信息中的速度和距離信息轉(zhuǎn)換為點(diǎn)云圖像送入到卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行特征提取和特征堆疊,不同的是設(shè)計(jì)了不同的輸出分支用于不同大小的目標(biāo)檢測。之后,毫米波雷達(dá)和相機(jī)的特征層融合網(wǎng)絡(luò)的研究也向著多方面展開。Nobis等人[9]在2019年提出CRF-Net融合框架,CRF-Net也是在特征層中融合相機(jī)數(shù)據(jù)和投影稀疏雷達(dá)數(shù)據(jù)。CRF-Net為了降低因?yàn)楹撩撞ɡ走_(dá)不能提供物體的高度信息所帶來的融合難度,將毫米波雷達(dá)點(diǎn)云擴(kuò)展為具有高度信息的線狀圖。為了綜合不同深度網(wǎng)絡(luò)中的雷達(dá)和相機(jī)的特征,CRF-Net將這不同層次的雷達(dá)和相機(jī)特征圖按通道維堆疊起來,送入到網(wǎng)絡(luò)中讓網(wǎng)絡(luò)自行學(xué)習(xí)不同層次的權(quán)重來達(dá)到最好的效果。近年來,注意力機(jī)制[10,11]的發(fā)現(xiàn)使得神經(jīng)網(wǎng)絡(luò)的性能得到進(jìn)一步的提高。Chang等人[12]指出目前傳感器融合的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)沒有很好地考慮到毫米波雷達(dá)對周圍環(huán)境的狀態(tài)感知信息。于是提出了SAF-FCOS網(wǎng)絡(luò)融合結(jié)構(gòu),對同一層次的雷達(dá)特征層進(jìn)行不同卷積核大小的卷積操作,來得到不同感受野大小的空間注意力矩陣,通過空間注意力機(jī)制來實(shí)現(xiàn)融合雷達(dá)與相機(jī)信息。Danapal等人[13]提出一個(gè)基于Tiny YOLOv4[14]的主干特征提取網(wǎng)絡(luò)和帶有通道注意力模塊的融合網(wǎng)絡(luò)架構(gòu)在特征級上實(shí)現(xiàn)相機(jī)和毫米波雷達(dá)的融合。MS-YOLO[15]網(wǎng)絡(luò)使用YOLOv5作為主干特征提取網(wǎng)絡(luò),然后使用 FPN[16]和PAN[17]結(jié)構(gòu)接收主干網(wǎng)絡(luò)提取的不同感受野大小的相機(jī)和雷達(dá)點(diǎn)云特征圖,通過通道堆疊的方式將相機(jī)和雷達(dá)點(diǎn)云特征圖進(jìn)行全方位的融合。但是,上述特征層融合的研究對點(diǎn)云信息的利用并不充分或者點(diǎn)云圖像的表現(xiàn)形式較為單一,且在融合毫米波雷達(dá)和相機(jī)特征的方法上較為簡單。雖然SAF-FCOS和Danapal等人改進(jìn)的Tiny YOLOv4融合網(wǎng)絡(luò)和在融合機(jī)制上使用了注意力機(jī)制,但只是使用了雷達(dá)特征來獲得不同感受野大小的空間注意力權(quán)重或相機(jī)和毫米波雷達(dá)點(diǎn)云通道注意力權(quán)重,并沒有充分利用相機(jī)特征和相機(jī)與毫米波雷達(dá)特征間的聯(lián)系。為了提高雷達(dá)信息和相機(jī)信息間的關(guān)聯(lián)性,本文提出了一種點(diǎn)云擴(kuò)展方法和cross-attention注意力機(jī)制[18]來融合毫米波雷達(dá)和相機(jī)模態(tài)內(nèi)和模態(tài)間的特征,實(shí)現(xiàn)毫米波雷達(dá)和相機(jī)的優(yōu)勢互補(bǔ),提高對全尺寸目標(biāo)的檢測精度。

        1 雷達(dá)數(shù)據(jù)處理

        1.1 雷達(dá)相機(jī)空間對齊

        本文使用nuScenes數(shù)據(jù)集[19]來制作訓(xùn)練集和驗(yàn)證集。nuScenes數(shù)據(jù)集是在自動駕駛領(lǐng)域中使用非常廣泛的數(shù)據(jù)集,它使用了毫米波雷達(dá)、激光雷達(dá)和彩色相機(jī)等常見的傳感器采集了約15個(gè)小時(shí)在真實(shí)街道上的駕駛數(shù)據(jù)。數(shù)據(jù)采集的場景包含城市和郊區(qū)等各個(gè)不同路況和光照條件下的場景。nuScenes數(shù)據(jù)集中所使用的傳感器的安裝示意圖如圖1所示。

        因?yàn)楹撩撞ɡ走_(dá)和相機(jī)是不同類傳感器,相機(jī)采集到的是RGB格式的圖片文件,而毫米波雷達(dá)采集到的是包含目標(biāo)的速度、距離和雷達(dá)散射截面積等信息的點(diǎn)云文件。為了使卷積神經(jīng)網(wǎng)絡(luò)能夠提取雷達(dá)點(diǎn)云的特征信息,需要將毫米波雷達(dá)的點(diǎn)云信息轉(zhuǎn)換成圖片中的像素信息。在采集過程中,毫米波雷達(dá)和相機(jī)的采樣頻率不一致,使用線程同步方法來同步采集相機(jī)圖像和毫米波雷達(dá)點(diǎn)云數(shù)據(jù),從而實(shí)現(xiàn)時(shí)間對齊。從圖1中可以看到,相機(jī)和毫米波雷達(dá)所處的空間位置不同,所以需要對毫米波雷達(dá)和相機(jī)的坐標(biāo)系進(jìn)行轉(zhuǎn)換,使得兩者處于同一坐標(biāo)系下來實(shí)現(xiàn)空間對齊。一般來說,毫米波雷達(dá)和相機(jī)的空間對齊所涉及到的坐標(biāo)系有雷達(dá)坐標(biāo)系、世界坐標(biāo)系、相機(jī)坐標(biāo)系、成像平面坐標(biāo)系和像素坐標(biāo)系。通過坐標(biāo)系間的轉(zhuǎn)換關(guān)系,可以得到像素坐標(biāo)系到世界坐標(biāo)系的轉(zhuǎn)換公式:

        其中:(xu,yu)是目標(biāo)在像素坐標(biāo)系下的坐標(biāo);(XW,YW,ZW)是目標(biāo)在世界坐標(biāo)系下的坐標(biāo); fx=f/dx, fy=f/dy,f是相機(jī)的焦距dx和dy表示在像素坐標(biāo)系下單位像素在x軸和y軸方向下的物理尺寸;(uAO,vAO)表示成像平面中心點(diǎn)在像素坐標(biāo)系下的坐標(biāo); R W和 T W是世界坐標(biāo)系到相機(jī)坐標(biāo)系的旋轉(zhuǎn)和平移矩陣。通過相機(jī)的標(biāo)定可以得到相機(jī)的內(nèi)參矩陣fx/0/uAO/00/fy/vAO/00/0/1/0和外參矩陣 R W/ T WOT/ 再由式(1)可以將一個(gè)目標(biāo)在世界坐標(biāo)系下的坐標(biāo)轉(zhuǎn)換到對應(yīng)像素坐標(biāo)下的坐標(biāo)。

        為了將毫米波雷達(dá)坐標(biāo)系投影到和相機(jī)同一的像素坐標(biāo)系,還需要將毫米波雷達(dá)坐標(biāo)系投影到世界坐標(biāo)系,再使用式(1)投影到像素坐標(biāo)系。雷達(dá)坐標(biāo)系是以雷達(dá)為坐標(biāo)原點(diǎn)Or,以汽車中軸線,行駛方向?yàn)檎较蚪軸,Y軸則垂直汽車向上,X軸垂直于YOZ平面,如圖2所示。雷達(dá)和相機(jī)的空間對齊所涉及到的坐標(biāo)系轉(zhuǎn)換如圖3所示。

        假設(shè)目標(biāo)被雷達(dá)探測到的目標(biāo)點(diǎn)P的位置信息為(r,θ),那么該目標(biāo)在世界坐標(biāo)系中對應(yīng)坐標(biāo)如式(2)所示。

        世界坐標(biāo)系的位置可以自由設(shè)置,通過測量雷達(dá)與世界坐標(biāo)系的偏差,可以得到偏移向量 e =[ex,ey,ez],則目標(biāo)在世界坐標(biāo)系中的坐標(biāo)(xW,yW,zW)為

        通過上面的坐標(biāo)變換,毫米波雷達(dá)和相機(jī)采集到的數(shù)據(jù)就可以轉(zhuǎn)換到同一像素坐標(biāo)系下,毫米波雷達(dá)點(diǎn)云投影到圖像上的效果如圖4所示。圖4中毫米波雷達(dá)點(diǎn)云的顏色深淺代表目標(biāo)到雷達(dá)的距離近遠(yuǎn)。

        1.2 雷達(dá)點(diǎn)云圖像處理為了更好地使用雷達(dá)采集到的信息,本文將雷達(dá)采集到的距離、速度和雷達(dá)散射截面積信息分別轉(zhuǎn)換為點(diǎn)云圖像中RGB三通道中的像素值。同時(shí)為了降低由于毫米波雷達(dá)點(diǎn)云的稀疏性給相機(jī)圖像和點(diǎn)云圖像融合帶來的困難,本文使用距離和雷達(dá)散射截面積信息來對點(diǎn)云的長寬進(jìn)行擴(kuò)展。這使得卷積神經(jīng)網(wǎng)絡(luò)更容易將點(diǎn)云圖像和相機(jī)圖像的特征聯(lián)系起來。

        1.2.1 投影雷達(dá)點(diǎn)云圖像

        在將毫米波雷達(dá)點(diǎn)云信息投影生成點(diǎn)云圖像之前需要根據(jù)實(shí)際條件和傳感器性能的差異對點(diǎn)云進(jìn)行過濾。nuScenes數(shù)據(jù)集中所使用毫米波雷達(dá)的最大探測距離depth為250 m,而道路中車輛行駛的速度v一般不超過33 m/s,車輛的雷達(dá)散射截面積rcs一般在3~30 dBsm,在投影點(diǎn)云圖像前需要將超出這三個(gè)限制范圍的點(diǎn)云數(shù)據(jù)濾除。又因?yàn)楹撩撞ɡ走_(dá)和相機(jī)的探測角度不同,為了方便后續(xù)卷積神經(jīng)網(wǎng)絡(luò)的處理,需要保持相機(jī)圖像和點(diǎn)云圖像的尺寸一致,將點(diǎn)云圖像的尺寸也限制到和相機(jī)圖像一樣的1600×900大小。

        根據(jù)上面的分析設(shè)計(jì)式(4),將符合要求的點(diǎn)云信息轉(zhuǎn)換為RGB三通道中的像素值。

        其中:depth、v和rcs 分別代表點(diǎn)云中的距離、速度和雷達(dá)散射截面積信息。通過式(4),可以將點(diǎn)云信息轉(zhuǎn)換得到的像素值限定在0~255像素,其中為了使轉(zhuǎn)換得到的點(diǎn)云圖像的顏色較為明顯,將RGB三通道中的像素值限定在顏色較為明亮的128像素值以上。

        1.2.2 雷達(dá)點(diǎn)云圖像柱狀擴(kuò)展

        考慮到毫米波雷達(dá)的點(diǎn)云沒有反映物體的高度信息,這給融合本就稀疏的雷達(dá)點(diǎn)云更增加了難度。為了讓雷達(dá)點(diǎn)云能夠在一定程度上反映檢測目標(biāo)的高度信息,以此來提高相機(jī)和點(diǎn)云圖像的匹配度。本文根據(jù)雷達(dá)點(diǎn)云中包含的距離和雷達(dá)散射截面積信息來擴(kuò)展點(diǎn)云的高度和寬度;同時(shí)考慮到“遠(yuǎn)大近小”效應(yīng),使得距離遠(yuǎn)的點(diǎn)云的高度小,距離近的點(diǎn)云高度大。經(jīng)過多次實(shí)驗(yàn),通過式(5),將點(diǎn)云的高度和寬度擴(kuò)展到一個(gè)較為合理的尺度。

        點(diǎn)云圖像的轉(zhuǎn)換流程如圖5所示。

        2 特征融合網(wǎng)絡(luò)架構(gòu)

        本章將會詳細(xì)介紹使用注意力機(jī)制在單階段目標(biāo)檢測網(wǎng)絡(luò)CenterNet[20]中實(shí)現(xiàn)毫米波雷達(dá)和相機(jī)特征級融合的AF-CenterNet網(wǎng)絡(luò)結(jié)構(gòu),并在后續(xù)做了大量的實(shí)驗(yàn)驗(yàn)證所提出的融合結(jié)構(gòu)對于提升小目標(biāo)物體檢測精度的有效性。整個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)如圖6所示。整個(gè)網(wǎng)絡(luò)框架大致可以分為雷達(dá)和相機(jī)特征提取結(jié)構(gòu)和cross-attention特征融合結(jié)構(gòu)。

        2.1 雷達(dá)和相機(jī)特征提取結(jié)構(gòu)本文使用ResNet50作為主干特征提取網(wǎng)絡(luò),ResNet50包含5層結(jié)構(gòu),網(wǎng)絡(luò)結(jié)構(gòu)逐層加深,而實(shí)現(xiàn)特征融合首先需要考慮在哪一層進(jìn)行融合。雖然深層次的卷積神經(jīng)網(wǎng)絡(luò)中提取到一些更抽象和更語義化的特征信息,使網(wǎng)絡(luò)能夠更好地?cái)M合特征,但由于獲得的是對圖像的整體性信息,會損失較多的細(xì)節(jié)信息,這對小目標(biāo)的物體檢測是不利的。而在自動駕駛領(lǐng)域中,對目標(biāo)檢測系統(tǒng)的實(shí)時(shí)性要求較高,深層次的網(wǎng)絡(luò)結(jié)構(gòu)的特征融合,意味著需要在主干特征提取網(wǎng)絡(luò)中加入一個(gè)能夠提取到同樣深層次特征信息的雷達(dá)分支網(wǎng)絡(luò),這無疑會大大增加網(wǎng)絡(luò)的參數(shù)量,導(dǎo)致網(wǎng)絡(luò)運(yùn)行速度減慢。因此,本文選擇在ResNet第一層后實(shí)現(xiàn)特征融合,即圖6中ImgP0層后加入特征融合結(jié)構(gòu)。

        雷達(dá)點(diǎn)云圖像和相機(jī)圖像的初始尺寸都是512×512×3。對于相機(jī)特征提取分支,相機(jī)圖像在經(jīng)過ResNet網(wǎng)絡(luò)第一層的卷積、標(biāo)準(zhǔn)化、激活函數(shù)和最大池化操作后,得到大小為128×128,通道數(shù)擴(kuò)張為64的相機(jī)特征層。對于雷達(dá)特征提取分支,因?yàn)槔走_(dá)點(diǎn)云在一定程度上反映了周圍環(huán)境的物理狀態(tài),所以在相機(jī)特征提取分支的基礎(chǔ)上加入了3×3和5×5兩個(gè)不同卷積核大小的深度可分離卷積[2 22],來提取點(diǎn)云圖像中不同感受野大小的特征信息,同時(shí)深度可分離卷積的使用有利于降低點(diǎn)云圖像特征提取網(wǎng)絡(luò)的參數(shù)量,以提高網(wǎng)絡(luò)的檢測速度,然后將得到的兩個(gè)特征層按通道維進(jìn)行堆疊,得到128×128大小,通道數(shù)128的特征層,如圖6中藍(lán)色框中區(qū)域所示(參見電子版)。

        2.2 相機(jī)和雷達(dá)點(diǎn)云特征融合結(jié)構(gòu)

        注意力機(jī)制的本質(zhì)是由網(wǎng)絡(luò)根據(jù)輸入數(shù)據(jù)對輸出數(shù)據(jù)影響自動調(diào)整輸入數(shù)據(jù)中不同元素的權(quán)重,實(shí)現(xiàn)對輸入數(shù)據(jù)加權(quán)分配的過程。在特征融合結(jié)構(gòu)的設(shè)計(jì)中,本文使用cross-attention來融合相機(jī)和點(diǎn)云的特征信息。融合結(jié)構(gòu)的示意圖如圖6中黃色框中區(qū)域所示(參見電子版)。首先,為了減少融合過程中網(wǎng)絡(luò)的參數(shù)量,通過兩個(gè)1×1的卷積,將相機(jī)和雷達(dá)點(diǎn)云的特征層的通道維調(diào)整為 大小不變。再通過對調(diào)整后的相機(jī)和雷達(dá)點(diǎn)云的特征層作線性變換,得到相機(jī)的 Q I、 K I、 V I特征向量和雷達(dá)點(diǎn)云的 Q R與 K R特征向量。如圖6中的紅色和綠色框圖所示。

        其中:d是縮放因子,表示輸入信息的維度;maxpool操作是對 K I、K R和 V I特征向量進(jìn)行卷積核大小為2×2,步長為4的最大池化處理,返回每個(gè)卷積核內(nèi)的最大值,該操作可以將原始特征圖的尺寸縮小到1/4,并保留主要特征,從而降低網(wǎng)絡(luò)計(jì)算量和內(nèi)存消耗,提高網(wǎng)絡(luò)的性能和泛化能力。

        如果不考慮softmax函數(shù)和縮放因子,cross_attention( Q IR, K IR, V II)可以表示為 Q IR K TIR V II, Q IR K TIR V II不僅能得到雷達(dá)點(diǎn)云特征和相機(jī)特征各自的依賴關(guān)系,還能得到雷達(dá)點(diǎn)云特征和相機(jī)間的依賴關(guān)系。推導(dǎo)過程如式(8)。

        從式(8)可以看出,cross-attention的輸出中融合了雷達(dá)點(diǎn)云和相機(jī)模態(tài)內(nèi)與模態(tài)間的特征,再使用卷積核為3×3,分組大小為2的分組卷積[24]和sigmoid函數(shù)來分別提取輸出特征層中兩個(gè)通道的空間注意力分?jǐn)?shù)矩陣,然后使用最大池化來保留兩個(gè)通道中最大的空間注意力分?jǐn)?shù)。為了解決訓(xùn)練退化的問題,在原始相機(jī)特征層imgP0和融合后的特征層之間使用殘差網(wǎng)絡(luò)中的short-cut機(jī)制,并定義一個(gè)可學(xué)習(xí)的參數(shù)gamma來縮放融合特征。最后的融合特征output可以表示為

        其中:max操作表示提取經(jīng)過特征融合后兩個(gè)通道特征層中最大的空間注意力分?jǐn)?shù)。原始相機(jī)特征層imgP0和融合后的特征層output的部分通道的可視化結(jié)果如圖7所示。

        3 實(shí)驗(yàn)分析

        本章使用nuScenes數(shù)據(jù)集中的雷達(dá)和相機(jī)數(shù)據(jù)來驗(yàn)證基于cross-attention注意力機(jī)制進(jìn)行雷達(dá)和相機(jī)特征融合的優(yōu)越性。實(shí)驗(yàn)數(shù)據(jù)包括了作為訓(xùn)練集的6 000對雷達(dá)點(diǎn)云和相機(jī)圖像和作為驗(yàn)證集的400對點(diǎn)云圖像和相機(jī)圖像,選取的訓(xùn)練集和驗(yàn)證集包含了晴天、雨天、白天和夜晚等不同天氣條件和場景下的圖片。網(wǎng)絡(luò)模型的性能指標(biāo)采用了標(biāo)準(zhǔn)的MS COCO評價(jià)指標(biāo)。

        3.1 實(shí)驗(yàn)細(xì)節(jié)

        本文在PyTorch深度學(xué)習(xí)平臺上搭建了CenterNet目標(biāo)檢測框架,使用8 GB顯存的NVIDIA RTX 3070 GPU訓(xùn)練模型,包含6 000和400張相機(jī)和毫米波雷達(dá)點(diǎn)云圖像對,分別作為訓(xùn)練集和驗(yàn)證集。輸入到網(wǎng)絡(luò)中的圖像會被調(diào)整到512×512大小,使用Adam優(yōu)化器訓(xùn)練CenterNet,初始學(xué)習(xí)率為1.25×10-4,batch_size 設(shè)置為4,訓(xùn)練總輪次為200epoch。

        3.2 cross-attention消融實(shí)驗(yàn)

        為了驗(yàn)證融合點(diǎn)云和相機(jī)特征的cross-attention結(jié)構(gòu)對提升網(wǎng)絡(luò)性能的有效性,將加入cross-attention融合結(jié)構(gòu)的CenterNet(下面簡稱AF-CenterNet)與僅使用相機(jī)圖像訓(xùn)練的CenterNet進(jìn)行對比,在實(shí)驗(yàn)前設(shè)置相同超參數(shù)進(jìn)行訓(xùn)練。定性評價(jià)結(jié)果如圖8所示。實(shí)驗(yàn)結(jié)果表明,AF-CenterNet在多種環(huán)境下對小目標(biāo)的檢測效果要優(yōu)于CenterNet。

        再使用MS COCO數(shù)據(jù)集的評定標(biāo)準(zhǔn)對實(shí)驗(yàn)結(jié)果進(jìn)行定量評定,實(shí)驗(yàn)結(jié)果準(zhǔn)確率(AP)和召回率(AR)如表1和2所示。表中AP表示網(wǎng)絡(luò)預(yù)測框和真實(shí)框的交并比IoU從0.5到0.95的平均準(zhǔn)確率,如AP0.5和AP0.75表示IoU在0.5和0.75時(shí)的準(zhǔn)確率。AR(1)、AR(10)和AR(100)表示每張圖片在檢測1、10和100個(gè)目標(biāo)時(shí)得到的召回率。APs、APm和APl表示檢測小、中和大目標(biāo)時(shí)的準(zhǔn)確率,召回率AR中也是如此表示,具體的定義如表3所示。

        通過表1和2的消融實(shí)驗(yàn)結(jié)果,驗(yàn)證了本文方法與只使用相機(jī)圖像進(jìn)行目標(biāo)檢測的網(wǎng)絡(luò)相比,在檢測全尺寸目標(biāo)的準(zhǔn)確率和召回率上都得到了提升,尤其對小目標(biāo)物體檢測的提升明顯:在準(zhǔn)確率上提升了34.93%,在召回率上提升了26.53%。

        3.3 cross-attention特征融合對比實(shí)驗(yàn)

        目前常見的特征融合方法有特征相乘(mul)、特征相加(add)、特征堆疊(concat)和較新的SAF(spatial attention fusion)[9]。SAF融合方法使用空間注意力機(jī)制來提取不同感受野大小毫米波雷達(dá)點(diǎn)云空間注意力矩陣,來實(shí)現(xiàn)毫米波雷達(dá)和相機(jī)信息的特征級融合。為了驗(yàn)證cross-attention特征融合方法與其他特征融合方法相對在提升目標(biāo)檢測準(zhǔn)確率和召回率上更具有優(yōu)越性,進(jìn)行表4和5的實(shí)驗(yàn)。

        如表4和5所示,本文方法相較于其他特征融合方法在檢測各類目標(biāo)時(shí)都具有更好的性能。

        3.4 AF-CenterNet實(shí)時(shí)性分析實(shí)驗(yàn)

        在自動駕駛領(lǐng)域中,對于目標(biāo)檢測網(wǎng)絡(luò)的實(shí)時(shí)性要求較高,而AF-CenterNet中使用的主干目標(biāo)檢測網(wǎng)絡(luò)是CenterNet,下面將通過比較AF-CenterNet和CenterNet模型在預(yù)測同一幀場景下所有車輛目標(biāo)所需的總時(shí)間(Tot)、數(shù)據(jù)加載時(shí)間(Load)、數(shù)據(jù)預(yù)處理時(shí)間(Pre)、模型前向推理時(shí)間(Net)、模型后處理時(shí)間(Dec)和處理模型輸出時(shí)間(Post),來分析融合了毫米波雷達(dá)信息的AF-CenterNet在預(yù)測目標(biāo)時(shí)與原網(wǎng)絡(luò)相比,在實(shí)時(shí)性上的變化。從表6可以得到在同一幀場景下, 僅使用相機(jī)圖片作為輸入數(shù)據(jù)的原CenterNet完成對目標(biāo)預(yù)測所需要的總時(shí)間為0.1 s, 而使用毫米波雷達(dá)點(diǎn)云圖像和相機(jī)圖像作為輸入數(shù)據(jù)的AF-CenterNet所需的總時(shí)間為0.135 s??梢钥吹?,增加的0.035 s時(shí)間中對額外的毫米波雷達(dá)點(diǎn)云數(shù)據(jù)的加載和數(shù)據(jù)預(yù)處理占到了0.017 s,而網(wǎng)絡(luò)的前向推理和后續(xù)處理僅占到0.018 s。這說明AF-CenterNet中提出的融合方法和毫米波雷達(dá)點(diǎn)云圖像特征提取的分支網(wǎng)絡(luò)對于網(wǎng)絡(luò)模型預(yù)測目標(biāo)的實(shí)時(shí)性影響較小。

        為了進(jìn)一步研究加入cross-attention融合結(jié)構(gòu)的AF-CenterNet在模型參數(shù)量上與原CenterNet的變化,將通道數(shù)為3,寬高為512×512的圖片和毫米波雷達(dá)點(diǎn)云數(shù)據(jù)分別輸入到僅使用相機(jī)圖片數(shù)據(jù)的原CenterNet和使用相機(jī)圖片和點(diǎn)云圖像的AF-CenterNet中,比較模型的總參數(shù)量和最后訓(xùn)練完成的模型大小。最后的結(jié)果如表7所示。

        如表7所示,最后訓(xùn)練完成的AF-CenterNet模型相較于原CenterNet模型在模型的總參數(shù)量和模型大小上變化不大,這表明AF-CenterNet模型在預(yù)測速度上與原網(wǎng)絡(luò)相差不大。綜合表6和7的實(shí)驗(yàn)結(jié)果,表明了本文方法所產(chǎn)生的額外參數(shù)量較小,對于網(wǎng)絡(luò)預(yù)測過程中實(shí)時(shí)性的影響也較小。

        3.5 點(diǎn)云擴(kuò)展的消融實(shí)驗(yàn)為了驗(yàn)證本文方法對融合效果的影響,將未經(jīng)過點(diǎn)云擴(kuò)展處理的點(diǎn)云圖像,制作成數(shù)據(jù)集送入到網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,通過最后的實(shí)驗(yàn)結(jié)果對比來驗(yàn)證點(diǎn)云擴(kuò)展處理的有效性。圖9是點(diǎn)云擴(kuò)展前(左)和點(diǎn)云擴(kuò)展后(右)的點(diǎn)云圖像。在訓(xùn)練過程中發(fā)現(xiàn),使用未擴(kuò)展的點(diǎn)云圖像相較于擴(kuò)展后的點(diǎn)云圖像,容易出現(xiàn)梯度爆炸和訓(xùn)練損失下降慢的問題。推測是未擴(kuò)展點(diǎn)云圖像的稀疏性使得網(wǎng)絡(luò)難以將相機(jī)特征和點(diǎn)云特征聯(lián)系起來,導(dǎo)致訓(xùn)練更新緩慢。

        從表8和9可以得出,使用毫米波雷達(dá)點(diǎn)云信息中距離和雷達(dá)散射截面積信息來擴(kuò)展點(diǎn)云的長度和寬度得到的點(diǎn)云圖像,與未擴(kuò)展的點(diǎn)云圖像相比,其在提升融合效果上更具有優(yōu)勢,驗(yàn)證了本文方法對于提升融合效果的有效性。

        4 結(jié)束語本文提出一種基于cross-attention注意力機(jī)制的特征融合方法,實(shí)現(xiàn)了相機(jī)圖像和毫米波雷達(dá)點(diǎn)云圖像的特征層融合。因?yàn)槭菍⒑撩撞ɡ走_(dá)的點(diǎn)云信息轉(zhuǎn)換為卷積神經(jīng)網(wǎng)絡(luò)可以處理的圖像形式,且沒有改變原來的網(wǎng)絡(luò)結(jié)構(gòu),所以本文提出的cross-attention特征融合結(jié)構(gòu)是一種在卷積神經(jīng)網(wǎng)絡(luò)中通用的特征融合結(jié)構(gòu),可以在一些為移動端設(shè)計(jì)的輕量化網(wǎng)絡(luò)如MobileNet[22]等網(wǎng)絡(luò)中表現(xiàn)出更好的實(shí)時(shí)性。在實(shí)驗(yàn)驗(yàn)證環(huán)節(jié),通過消融實(shí)驗(yàn)驗(yàn)證了cross-attention特征融合結(jié)構(gòu)對于提升網(wǎng)絡(luò)檢測性能的有效性,大量的對比實(shí)驗(yàn)也驗(yàn)證了cross-attention特征融合結(jié)構(gòu)的優(yōu)越性。同時(shí),在對點(diǎn)云圖像的處理中,提出使用毫米波雷達(dá)點(diǎn)云信息中目標(biāo)的距離和雷達(dá)散射截面積信息來擴(kuò)展點(diǎn)云圖像的方法,使點(diǎn)云圖像能夠更好地匹配相機(jī)圖像,有利于雷達(dá)特征和相機(jī)特征的融合,也通過后續(xù)的消融實(shí)驗(yàn)驗(yàn)證了該方法的有效性。證明了毫米波雷達(dá)作為一種全天候的傳感器受天氣和光照條件的影響較低,在一定程度上能夠彌補(bǔ)相機(jī)受光照條件和天氣因素影響大的缺點(diǎn),對檢測遠(yuǎn)處和光照條件不好場景下的小目標(biāo)效果提升明顯。

        參考文獻(xiàn):

        [1]施曉東,楊世坤.多傳感器信息融合研究綜述[J].通信與信息技術(shù),2022(6):34-41.(Shi Xiaodong, Yang Shikun. A review of multi-sensor information fusion research[J].Communications and Information Technology , 2022 (6): 34-41.)

        [2]李洋,趙鳴,徐夢瑤,等. 多源信息融合技術(shù)研究綜述[J]. 智能計(jì)算機(jī)與應(yīng)用,2019(5):186-189.(Li Yang,Zhao Ming,Xu Mengyao,et al. A review of multi-source information fusion technology research[J].Intelligent Computer and Applications ,2019(5):186-189.)

        [3]周文鵬,路林,王建明. 多傳感器信息融合在無人駕駛中的研究綜述[J]. 汽車文摘,2022(1): 45-51.(Zhou Wenpeng,Lu Lin,Wang Jianming.A review of multi-sensor information fusion in autono- mous driving[J].Automotive Abstracts ,2022(1): 45-51.)

        [4]Ji Zhengping,Prokhorov D. Radar-vision fusion for object classification[C]//Proc of the 11th International Conference on Information Fusion. Piscataway,NJ:IEEE Press,2008: 1-7.

        [5]Koci c'J,Jovi i c'N,Drndarevi c'V. Sensors and sensor fusion in auto-nomous vehicles[C]//Proc of the 26th Telecommunications Forum. Piscataway,NJ:IEEE Press,2018: 420-425.

        [6]Han Siyang,Wang Xiao,Xu Linhai,et al. Frontal object perception for intelligent vehicles based on radar and camera fusion[C]//Proc of the 35th Chinese Control Conference. Piscataway,NJ:IEEE Press,2016: 4003-4008.

        [7]Chadwick S,Maddern W,Newman P. Distant vehicle detection using radar and vision [C]//Proc of International Conference on Robotics and Automation. Piscataway,NJ:IEEE Press,2019: 8311-8317.

        [8]John V,Mita S. RVNet: Deep sensor fusion of monocular camera and radar for image-based obstacle detection in challenging environments [C]//Proc of the 9th Pacific-Rim Symposium on Image and Video Technology. Berlin:Springer International Publishing,2019: 351-364.

        [9]Nobis F,Geisslinger M,Weber M,et al. A deep learning-based radar and camera sensor fusion architecture for object detection[C]//Proc of Sensor Data Fusion: Trends,Solutions,Applications. Piscataway,NJ:IEEE Press,2019: 1-7.

        [10]Xu K,Ba J,Kiros R,et al. Show,attend and tell: neural image caption generation with visual attention [C]//Proc of International Conference on Machine Learning. 2015: 2048-2057.

        [11]Woo S,Park J,Lee J Y,et al. CBAM: convolutional block attention module [C]//Proc of European Conference on Computer Vision. 2018: 3-19.

        [12]Chang Shuo,Zhang Yifan,Zhang Fan,et al. Spatial attention fusion for obstacle detection using mmWave radar and vision sensor[J].Sensors ,2020, 20 (4): 956.

        [13]Danapal G,Mayr C,Kariminezhad A,et al. Attention empowered feature-level radar-camera fusion for object detection[C]//Proc of Sensor Data Fusion: Trends,Solutions,Applications. Piscataway,NJ:IEEE Press,2022: 1-6.

        [14]Bochkovskiy A,Wang C Y,Liao H Y M. YOLOv4: optimal speed and accuracy of object detection[EB/OL]. (2020). https://arxiv.org/abs/2004.10934.

        [15]Song Yunyun,Xie Zhengyu,Wang Xinwei,et al. MS-YOLO: object detection based on YOLOv5 optimized fusion millimeter-wave radar and machine vision[J].IEEE Sensors Journal ,2022, 22 (15): 15435-15447.

        [16]Lin T Y,Dollár P,Girshick R,et al. Feature pyramid networks for object detection[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2017: 2117-2125.

        [17]Liu Shu,Qi Lu,Qin Haifang,et al. Path aggregation network for instance segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2018: 8759-8768.

        [18]Chen C F R,F(xiàn)an Quanfu,Panda R. CrossViT: cross-attention multi-scale vision Transformer for image classification[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ:IEEE Press,2021: 357-366.

        [19]Caesar H,Bankiti V,Lang A H,et al. nuScenes: a multimodal dataset for autonomous driving[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2020: 11621-11631.

        [20]Zhou Xingyi,Wang Dequan,Krhenbühl P. Objects as points[EB/OL]. (2019).https://arxiv.org/abs/1904.07850.

        [21]Chollet F. Xception: deep learning with depthwise separable convolutions[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2017: 1251-1258.

        [22]Howard A G,Zhu Menglong,Chen Bo,et al. MobileNets: efficient convolutional neural networks for mobile vision applications[EB/OL]. (2017).https://arxiv.org/abs/1704.04861.

        [23]Vaswani A,Shazeer N,Parmar N,et al. Attention is all you need[C]// Advances in Neural Information Processing Systems. 2017.

        [24]Ioannou Y,Robertson D,Cipolla R,et al. Deep roots: improving CNN efficiency with hierarchical filter groups[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2017: 1231-1240.

        收稿日期:2023-07-12;修回日期:2023-09-07 基金項(xiàng)目:國家自然科學(xué)基金資助項(xiàng)目(61561010);廣西創(chuàng)新驅(qū)動發(fā)展專項(xiàng)資助項(xiàng)目(桂科AA21077008);廣西無線寬帶通信與信號處理重點(diǎn)實(shí)驗(yàn)室2022年主任基金資助項(xiàng)目(GXKL06220102,GXKL06220108);八桂學(xué)者專項(xiàng)經(jīng)費(fèi)資助項(xiàng)目(2019A51);桂林電子科技大學(xué)研究生教育創(chuàng)新計(jì)劃資助項(xiàng)目(2022YXW07,2022YCXS080);2022年廣西高等教育本科教學(xué)改革工程項(xiàng)目(2022JGB196);桂林電子科技大學(xué)學(xué)位與研究生教改項(xiàng)目(2022YXW07,2023YXW02);廣西研究生教育創(chuàng)新計(jì)劃資助項(xiàng)目(YCSW2022271)

        作者簡介:車?yán)?977—),女,廣東茂名人,高級實(shí)驗(yàn)師,碩導(dǎo),碩士,主要研究方向?yàn)槔走_(dá)信號處理;呂連輝(1999—),男,安徽滁州人,碩士研究生,主要研究方向?yàn)閭鞲衅魅诤希?232043967@qq.com);蔣留兵(1973—),男,江蘇泰興人,研究員,博導(dǎo),碩士,主要研究方向?yàn)閷拵盘柵c信息處理.

        免费看美女被靠的网站| 成年美女黄网站色大免费视频| 国产一区二区三区免费在线视频 | 国产成人av在线影院无毒| 中年熟妇的大黑p| 亚洲国产果冻传媒av在线观看| 国产亚洲精品综合在线网站| 欧美在线成人午夜网站| 久久精品麻豆日日躁夜夜躁| 色欲色香天天天综合网www| 国产精品人成在线观看不卡| 日韩亚洲国产av自拍| 亚洲成色在线综合网站| 先锋中文字幕在线资源| 日本一区二区不卡在线| av毛片在线播放网址| 欧美成人三级一区二区在线观看| a级毛片无码久久精品免费| 狠狠色狠狠色综合网| 男女动态91白浆视频| 国产精品视频免费一区二区三区 | 亚洲无线码一区二区三区| 在线观看视频日本一区二区| 最近中文字幕一区二区三区| 丰满人妻无套中出中文字幕| 宝贝把腿张开我要添你下边动态图| 99久久超碰中文字幕伊人| 最近免费中文字幕中文高清6| 免费观看日本一区二区三区| 一区二区三区午夜视频在线观看| 国产成人九九精品二区三区| 国精产品一品二品国在线| 天堂资源中文最新版在线一区| 私人vps一夜爽毛片免费| 日本高级黄色一区二区三区| 久久精品国产精品亚洲婷婷| 国产乱人伦AⅤ在线麻豆A| 91久久国产精品视频| 粗一硬一长一进一爽一a级| 国产精品_国产精品_k频道| 熟女少妇精品一区二区|