李 朝,蘭 海,魏 憲
(1.中國科學(xué)院海西研究院泉州裝備制造研究所,福建泉州 362216;2.中北大學(xué)電氣與控制工程學(xué)院,太原 036005)
車輛自動駕駛的安全性依賴于對周圍環(huán)境的準(zhǔn)確感知。目前車輛采用的主要感知器有激光雷達(dá)、攝像頭和毫米波雷達(dá)。其中:激光雷達(dá)精度高,探測距離較遠(yuǎn),受天氣影響小,但數(shù)據(jù)較稀疏;攝像頭圖像則具有豐富的顏色信息,但受天氣和光照影響較大;毫米波雷達(dá)精度較低,但探測距離遠(yuǎn),受天氣影響極小,也存在數(shù)據(jù)稀疏的特點。目前有基于單個傳感器或多個傳感器融合的目標(biāo)檢測,其中不同傳感器數(shù)據(jù)進(jìn)行融合能提高無人駕駛系統(tǒng)的魯棒性和冗余性。
在光照條件不友好的環(huán)境下,攝像頭難以發(fā)揮作用,激光雷達(dá)和毫米波雷達(dá)是車輛感知環(huán)境的主要手段。激光雷達(dá)與毫米波雷達(dá)所產(chǎn)生的傳感數(shù)據(jù)均以三維點云數(shù)據(jù)為主,兩者在數(shù)據(jù)形式上有著很高的相似性?;诩す饫走_(dá)點云數(shù)據(jù)的目標(biāo)檢測基本上還是解決數(shù)據(jù)的無序性和稀疏性問題。文獻(xiàn)[1]中提出的PointNet 是具有開創(chuàng)性的工作,真正地實現(xiàn)了無序點云的端到端學(xué)習(xí)。PointNet 通過池化操作解決點的無序性問題,通過數(shù)據(jù)對齊操作保證旋轉(zhuǎn)不變性。除了直接將無序點云輸送進(jìn)網(wǎng)絡(luò),還可以通過將點云數(shù)據(jù)先離散化處理再輸入檢測網(wǎng)絡(luò),例如文獻(xiàn)[2-3]中通過將無序的點云劃分到有序的空間體素的方法解決點云數(shù)據(jù)的無序性問題,之后再通過3D 卷積提取特征,但3D 卷積計算量太大。AVOD 網(wǎng)絡(luò)[4]、MV3D 網(wǎng)絡(luò)[5]使用2D 卷積對點云鳥瞰圖進(jìn)行特征提取,提高了檢測速度。
毫米波雷達(dá)數(shù)據(jù)比激光雷達(dá)數(shù)據(jù)更稀疏,但信息比較豐富。文獻(xiàn)[6]中基于調(diào)頻連續(xù)波(Frequency Modulated Continuous Wave,F(xiàn)MCW)算法利用毫米波雷達(dá)檢測目標(biāo)的方位角、速度、距離,但是誤差較大,且無法檢測出目標(biāo)的屬性。文獻(xiàn)[7]中提出對毫米波雷達(dá)數(shù)據(jù)利用隨機森林分類器和長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)對目標(biāo)進(jìn)行分類。文獻(xiàn)[8]中則將整個原始雷達(dá)數(shù)據(jù)作為輸入,采用PointNet++[9]的基礎(chǔ)架構(gòu),得到了每一次毫米波雷達(dá)反射的各個類概率,不需要進(jìn)行聚類和人為地選擇特征。文獻(xiàn)[10]中認(rèn)為雖然毫米波雷達(dá)數(shù)據(jù)比激光雷達(dá)數(shù)據(jù)更稀疏,但與激光雷達(dá)單一坐標(biāo)和強度數(shù)據(jù)相比,還擁有多普勒速度和雷達(dá)截面積數(shù)據(jù),能檢測到激光檢測不到的弱目標(biāo)或遮擋目標(biāo),因此開創(chuàng)性地使用雷達(dá)數(shù)據(jù)的位置、速度和雷達(dá)截面積信息在PointNet框架上實現(xiàn)了車輛2D邊界框的檢測。
無論是基于激光雷達(dá)還是毫米波雷達(dá)的目標(biāo)檢測方法,單一傳感器的感知能力都是有限的,因此傳感器融合已經(jīng)成為目標(biāo)檢測的主要方法。傳感器融合主要分為數(shù)據(jù)級融合、特征級融合和目標(biāo)級融合。文獻(xiàn)[11-13]中結(jié)合激光雷達(dá)精度高、毫米波雷達(dá)能夠檢測車輛速度的優(yōu)點進(jìn)行車輛的檢測和跟蹤,提高了檢測范圍和跟蹤精度。文獻(xiàn)[14]中提出的RRPN(Radar Region Proposal Network)利用投影到圖像坐標(biāo)系中的毫米波雷達(dá)點生成預(yù)設(shè)置大小的錨框作為目標(biāo)感興趣區(qū)域,再通過檢測網(wǎng)絡(luò)進(jìn)行檢測,減少了90%的錨框數(shù)量,提高了運算速度。文獻(xiàn)[15]中將毫米波雷達(dá)投影到圖像坐標(biāo)系后變成二維圖像,使用卷積神經(jīng)網(wǎng)絡(luò)提取毫米波雷達(dá)和攝像頭圖像特征圖,并對特征圖對應(yīng)元素進(jìn)行相加融合,再對融合后的特征圖使用SSD(Single Shot multibox Detector)[16]框架進(jìn)行目標(biāo)檢測。與采取投影方法不同,文獻(xiàn)[17]中將毫米波雷達(dá)的距離、橫向速度和縱向速度分別轉(zhuǎn)換為圖像R、G、B 通道的真實像素值,再將轉(zhuǎn)換后的毫米波雷達(dá)和圖像相乘融合。文獻(xiàn)[18]中則提出了毫米波雷達(dá)和圖像融合網(wǎng)絡(luò)RVNet,該網(wǎng)絡(luò)是基于YOLO[19]檢測框架的特征圖拼接融合網(wǎng)絡(luò),并且為大目標(biāo)和小目標(biāo)分別設(shè)有兩個輸入分支和輸出分支以提高檢測精度。文獻(xiàn)[20]中提出了毫米波雷達(dá)和圖像融合的CRF-Net,在各個卷積網(wǎng)絡(luò)層進(jìn)行特征圖拼接融合,以學(xué)習(xí)在哪個層的融合目標(biāo)檢測效果更優(yōu),并提出了一種叫作BlackIn的訓(xùn)練策略以確保融合網(wǎng)絡(luò)收斂。
除了傳感器融合方法以外,注意力機制也被應(yīng)用到圖像領(lǐng)域并取得了巨大的進(jìn)展。注意力機制最早從人類的視覺原理中獲取靈感,并在自然語言處理中取得了很好的效果[21-22]。注意力機制通過捕捉數(shù)據(jù)點之間的相互影響,獲取數(shù)據(jù)間的上下文信息并以此作為權(quán)重輸出結(jié)果,是對深度學(xué)習(xí)模型的有力補充。文獻(xiàn)[23]中提出的兩級注意力模型應(yīng)用物體級和部位級兩種注意力,使用卷積網(wǎng)絡(luò)得到物體級信息,再使用聚類的方法得到重點局部區(qū)域,從而能更精確地利用多層次信息。文獻(xiàn)[24]中提出了通道注意力機制,認(rèn)為特征圖的不同通道的重要程度不同,網(wǎng)絡(luò)通過全局平均池化獲取特征圖每個通道的數(shù)值分布情況,增大有效特征圖通道的權(quán)重,利用激勵操作來獲取通道之間的依賴性,并以此作為權(quán)重輸出結(jié)果。除了利用通道注意力機制判斷不同通道之間的權(quán)重關(guān)系,另外就是像素點之間的注意力機制。文獻(xiàn)[25]中認(rèn)為卷積神經(jīng)網(wǎng)絡(luò)神經(jīng)只能關(guān)注卷積核感受野內(nèi)的像素點信息,無法學(xué)習(xí)全局信息對當(dāng)前區(qū)域的影響,因此通過特征圖之間矩陣相乘的方法確定每個像素和其他像素間的關(guān)系。
本文針對激光雷達(dá)進(jìn)行目標(biāo)檢測時對遮擋目標(biāo)、遠(yuǎn)距離目標(biāo)和復(fù)雜天氣場景中的目標(biāo)檢測能力弱的問題,提出基于注意力機制的毫米波-激光雷達(dá)數(shù)據(jù)融合的目標(biāo)檢測方法。原因如下:1)毫米波雷達(dá)不受天氣光照影響,并且對車輛等金屬敏感,能夠穿透樹木草叢檢測出車輛,彌補激光雷達(dá)受到的干擾[10];2)激光雷達(dá)對遠(yuǎn)處的物體探測結(jié)果較為稀疏,難以實現(xiàn)遠(yuǎn)處物體的類別檢測,而毫米波雷達(dá)探測距離遠(yuǎn),原理上探測距離的四次方與雷達(dá)散射面積成正比,兼具多普勒效應(yīng),能夠檢測速度,極大地增強了遠(yuǎn)處物體的檢測精度;3)注意力機制能夠有效提取數(shù)據(jù)間的上下文信息,利用數(shù)據(jù)點之間的權(quán)重關(guān)系輸出結(jié)果,十分適合毫米波-激光點云數(shù)據(jù)之間的融合,能夠充分發(fā)揮毫米波雷達(dá)和激光雷達(dá)各自的優(yōu)點。本文通過點云柱快速編碼網(wǎng)絡(luò)PointPillar[26]提取經(jīng)過空間對齊的激光雷達(dá)和毫米波雷達(dá)特征,然后將毫米波-激光雷達(dá)特征圖進(jìn)行融合,彌補單一雷達(dá)傳感器檢測上存在的不足,提高了算法模型對物體目標(biāo)的檢測精度,亦提高了惡劣天氣下算法表現(xiàn)的魯棒性。本文代碼公開在https://github.com/MVPRGroup/radar-lidar-fusion。
本章主要介紹激光雷達(dá)和毫米波雷達(dá)融合的方法,通過利用不同傳感器各自的優(yōu)勢,彌補激光雷達(dá)存在的缺陷,提高網(wǎng)絡(luò)性能。文獻(xiàn)[10]的研究發(fā)現(xiàn),激光雷達(dá)在探測目標(biāo)時,目標(biāo)距離越遠(yuǎn),返回的激光雷達(dá)點越少,強度越弱,易受雨霧、樹木遮擋;其次,毫米波雷達(dá)發(fā)送信號所使用波長遠(yuǎn)大于激光雷達(dá),能夠穿透塑料、墻板和衣服等特定的材料,并且不受雨、霧、灰塵和雪等環(huán)境條件的干擾;另外毫米波雷達(dá)數(shù)據(jù)相對于激光雷達(dá)數(shù)據(jù)更稀疏,但毫米波雷達(dá)數(shù)據(jù)在目標(biāo)速度和雷達(dá)截面積(Radar Cross-Section,RCS)信息上具有很強的特征。例如,移動的車輛具有較高的相對速度以及車身能夠產(chǎn)生高RCS值。所有這些特征對于目標(biāo)檢測都非常有用。本文設(shè)計了基于注意力機制的毫米波-激光雷達(dá)數(shù)據(jù)融合目標(biāo)檢測網(wǎng)絡(luò),如圖1 所示。該網(wǎng)絡(luò)包含四個模塊:點云柱快速編碼模塊、卷積特征提取模塊、注意力融合模塊和SSD檢測模塊。
圖1 傳感器注意力機制融合網(wǎng)絡(luò)框架Fig.1 Sensor attention mechanism fusion network framework
激光雷達(dá)和毫米波雷達(dá)都是無序的稀疏點云數(shù)據(jù)。為了使激光雷達(dá)和毫米波雷達(dá)能夠良好地融合,本文對激光雷達(dá)和毫米波雷達(dá)采取了點云柱快速編碼[26]方法。如圖2 所示,點云柱快速編碼方法首先以自身為中心,在100 m×100 m 的地平面范圍中均勻生成400×400 個立方柱體,即每個柱體的底面大小為0.25 m×0.25 m,高度限制為10 m;每個點云柱中的點數(shù)約束為N,多則采樣,少則補0,并對每個點進(jìn)行維度擴展。將激光雷達(dá)點云原始數(shù)據(jù)的三維坐標(biāo).xl,yl,zl)和強度I加入.xc,yc,zc,xp,yp)5個額外維度。其中,.xc,yc,zc)為該點云柱中所有點的坐標(biāo)平均值,即所有點的聚類中心;(xp,yp)為各點到點云柱中心的x-y坐標(biāo)偏移量,此時點云柱中的每個點有9 個維度。考慮到點云數(shù)據(jù)的稀疏性,因此在單次訓(xùn)練樣本中的非空點云柱數(shù)目約束為P,并根據(jù)實際數(shù)量隨機采樣或補0。整個點云數(shù)據(jù)被編碼為形狀(D,P,N)的張量,D是點云柱特征維度,P是非空點云柱數(shù)量,N為單個點云柱中數(shù)據(jù)點的個數(shù)。(D,P,N)利用1×1 卷積操作進(jìn)行線性變換后得到張量(C,P,N),對每個點云柱中的所有點進(jìn)行最大池化操作得到特征矩陣(C,P)。最后將P個非空點云柱內(nèi)的點映射回檢測范圍內(nèi)的原始位置得到大小為(C,W,H)的二維點云偽圖像。
圖2 點云柱快速編碼Fig.2 Fast encode for PointPillar
毫米波雷達(dá)點云數(shù)據(jù)共有18 維(具體見3.1 章),與激光雷達(dá)只利用位置信息和強度信息不同,為了彌補激光雷達(dá)數(shù)據(jù)的不足,毫米波雷達(dá)保留其中的坐標(biāo).xrl,yrl,zrl)、補償速度.Vx_comp,Vy_comp)及目標(biāo)雷達(dá)截面積(IRCS)共6 個維度。相比激光雷達(dá)點的位置信息,毫米波雷達(dá)點的位置信息正樣本比例高,受距離因素、天氣因素影響小;相比激光雷達(dá)的反射強度信息,毫米波雷達(dá)RCS信息能夠直接反映出目標(biāo)的體積大小,尤其卡車、汽車和行人RCS特征差別明顯,起到了信息互補作用。除此之外毫米波雷達(dá)還能檢測出目標(biāo)的矢量速度信息來輔助檢測任務(wù)。
為更好地提取毫米波雷達(dá)的特征,本文對點云柱快速編碼方法做了改進(jìn)。由于所有毫米波雷達(dá)點云數(shù)據(jù)中的zr都為0,在對毫米波雷達(dá)雷達(dá)特征點云柱快速編碼過程中,去除了激光點云數(shù)據(jù).xc,yc,zc)中的zc項及(xp,yp)兩項。改進(jìn)后的毫米波雷達(dá)點云柱快速編碼網(wǎng)絡(luò)提取8 個特征(xrl,yrl,zrl,Vx_comp,Vy_comp,xc,yc,IRCS)。編碼后的毫米波雷達(dá)為形狀.Dr,P,N)的張量,之后根據(jù)柱體坐標(biāo)映射得到與激光雷達(dá)相同維度的二維點云偽圖像。
本文提出的基于注意力機制的毫米波-激光雷達(dá)數(shù)據(jù)融合方法如圖3 所示:首先采用注意力機制對卷積特征提取模塊輸出的毫米波與激光雷達(dá)特征圖進(jìn)行融合,如式(1)所示,其中:Xl∈RC×N表示激光雷達(dá)特征圖,Xr∈RC×N表示毫米波雷達(dá)特征圖,O表示注意力融合后的激光雷達(dá)特征圖。
圖3 激光雷達(dá)和毫米波雷達(dá)注意力融合Fig.3 Attention fusion of lidar and millimeter wave radar
注意力融合過程中,定義式(2):
如圖3 所示:激光雷達(dá)特征圖經(jīng)過1×1 卷積層和BatchNorm 層、RELU 激活層后得到Q和V;毫米波雷達(dá)特征圖經(jīng)過1×1 卷積層和BatchNorm 層、整流線性單位函數(shù)(Rectified Linear Unit,ReLU)激活層后得到K。使用點乘作為Q與K的內(nèi)積形式,并將結(jié)果利用Softmax 進(jìn)行歸一化,可計算出激光雷達(dá)特征圖所對應(yīng)的Q與毫米波雷達(dá)特征圖所對應(yīng)的K之間的關(guān)系權(quán)重矩陣A,A中各項aij計算如式(3)所示。
在得到毫米波-激光雷達(dá)點云數(shù)據(jù)間的關(guān)系權(quán)重矩陣A后,如式(4)所示,將優(yōu)化后的權(quán)重矩陣和激光雷達(dá)特征圖所對應(yīng)的V相乘,即得到融合結(jié)果O。
另外,借鑒殘差模塊的概念[27],如式(5)所示,將融合結(jié)果O乘上比例系數(shù)λ并加上激光雷達(dá)特征圖Xl,得到最終輸出結(jié)果y。λ初始值設(shè)為0,通過訓(xùn)練學(xué)習(xí)增大該權(quán)重系數(shù)。其物理含義可視為一開始注意力機制的影響為0,隨著訓(xùn)練的進(jìn)行逐漸增大注意力在輸出中的影響。
除了傳感器注意力融合方法,本文還與拼接融合、相乘融合和相加融合進(jìn)行了對比,各個方法在網(wǎng)絡(luò)中的融合位置相同。文獻(xiàn)[20]中進(jìn)行了傳感器特征圖拼接融合實驗。本文對激光雷達(dá)和毫米波雷達(dá)特征圖通道維度進(jìn)行疊加,得到維度(2C×W×H)融合特征圖。融合后的特征圖通過1×1 卷積降維到原來的維度。
文獻(xiàn)[15]中進(jìn)行了特征圖相加融合實驗。本文對激光雷達(dá)特征圖和毫米波雷達(dá)特征圖對應(yīng)元素相加融合。
文獻(xiàn)[17]中采用了特征圖相乘的融合方式。由于毫米波雷達(dá)的稀疏性毫米波雷達(dá)特征圖Xr比激光雷達(dá)特征圖Xl有更多的元素為0,因此對毫米波雷達(dá)特征圖為0的元素進(jìn)行加1 操作,如式(6)所示,得到毫米波特征圖;將毫米波-激光雷達(dá)特征圖相乘,如式(7)所示。加1 操作保證相乘融合時不會丟失激光雷達(dá)特征圖中包含的信息,但又能通過毫米波雷達(dá)強化相同位置激光雷達(dá)特征圖信息流。
本文使用PointPillar 點云快速編碼網(wǎng)絡(luò)框架作為基礎(chǔ)網(wǎng)絡(luò),并在此網(wǎng)絡(luò)模型上加入融合模塊進(jìn)行改進(jìn)。PointPillar 采用類似文獻(xiàn)[2]的主干網(wǎng)絡(luò)結(jié)構(gòu)。輸入數(shù)據(jù)在經(jīng)過點云柱快速編碼之后,生成點云偽圖像后進(jìn)入主干網(wǎng)絡(luò),主干網(wǎng)采用空間金字塔池化結(jié)構(gòu),包含兩個子網(wǎng)絡(luò):一個是自上向下的下采樣卷積網(wǎng)絡(luò)產(chǎn)生空間分辨率越來越小的特征;另一個卷積網(wǎng)絡(luò)分支將前面3 個卷積塊的輸出卷積成相同大小的特征圖,如圖4所示。提取出毫米波-激光雷達(dá)點云數(shù)據(jù)的特征之后,將兩者送入融合模塊,最終將融合結(jié)果送入檢測模塊,輸出結(jié)果。
圖4 卷積特征提取主干網(wǎng)絡(luò)Fig.4 Convolutional feature extraction backbone network
在激光雷達(dá)和毫米波雷達(dá)的點云柱快速編碼模塊中,每個點云柱中包含點數(shù)量N設(shè)置為60,非空點云柱數(shù)量P設(shè)置為30 000。編碼后得到維度為(C,W,H)的偽圖像,其中W和H等于400,C等于64。
通過點云柱編碼得到維度(C,W,H)的偽圖像后,為了檢測不同尺寸的目標(biāo),在卷積特征提取層設(shè)置了兩個子網(wǎng)絡(luò),它們的連接方式如圖4 所示。前子網(wǎng)絡(luò)的每個卷積塊第一層下采樣步長為2,每個卷積后面都接一個BacthNorm 層和ReLU層。前子網(wǎng)絡(luò)卷積塊輸出作為同子網(wǎng)絡(luò)卷積塊和后子網(wǎng)絡(luò)卷積塊的輸入。每個卷積后的特征圖經(jīng)過1-1、2-1、3-1 子網(wǎng)絡(luò)卷積塊得到相同的維度為的特征圖,三個模塊拼接成維度的特征圖。
分別提取了激光雷達(dá)和毫米波雷達(dá)特征圖后,本文嘗試了注意力融合方法和另外三種融合方法:拼接融合、相加融合和相乘融合。通過上述的點云柱快速編碼模塊和卷積特征提取模塊后,激光雷達(dá)和毫米波雷達(dá)從無序的點云轉(zhuǎn)化為有序的偽圖像。兩者在空間上具有良好的對應(yīng)性,這對傳感器融合十分重要。nuScenes[28]數(shù)據(jù)集標(biāo)簽注釋的各類目標(biāo)物框內(nèi)的激光雷達(dá)點數(shù)量是毫米波雷達(dá)的4~10倍,這就意味著一個目標(biāo)物上有很少的毫米波雷達(dá)點。例如,一輛車的長大約4.5 m,寬2 m,使用(0.25,0.25)的點云柱的條件下,車輛所占的激光雷達(dá)點云柱約有100 個,而毫米波雷達(dá)只有幾個。如圖1 所示,通過將融合模塊放置在卷積特征提取層后,利用卷積特征提取操作來擴大毫米波雷達(dá)感受野,增強網(wǎng)絡(luò)整體性能。將擴大了感受野的毫米波雷達(dá)特征圖使用上述介紹的注意力融合方法進(jìn)行實驗,并在相同位置進(jìn)行另外三種融合方法對比。
經(jīng)過傳感器注意力后的特征圖使用SSD 檢測器進(jìn)行3D檢測。通過匹配設(shè)置的先驗框和真實框的2D 平面重疊度交并比(Intersection over Union,IoU)進(jìn)行篩選??虻母叨群途嚯x地面的高度作為額外的回歸目標(biāo)。
本文通過3個1×1的卷積層實現(xiàn)分類、位置回歸和方向回歸。根據(jù)先驗知識設(shè)置9 種大小的3D 框,每個類都設(shè)置不同的匹配和非匹配IoU 閾值。每個框有7 個維度(x,y,z,w,h,l,θ),分別代表著框的長、寬、高、中心坐標(biāo)和方向。使用文獻(xiàn)[26]的損失函數(shù)計算損失。真實框和生成框之間的位置回歸殘差定義為式(8),尺寸回歸殘差定義為式(9),方向回歸定義為式(10)。
其中:上標(biāo)gt 表示真實值,上標(biāo)為a 表示預(yù)測值。總位置損失函數(shù)的定義為式(11):
其中SmoothL1定義如下:
由于文獻(xiàn)[2]中定義的方向損失函數(shù)不能區(qū)分0°和180°旋轉(zhuǎn)的框,本文使用文獻(xiàn)[26]中的方向損失函數(shù),定義如式(13):
分類函數(shù)Lcls使用的是Focal loss[29]損失函數(shù),如式(14)所示。其中pa代表框的分類概率,α=0.25,γ=2。
總的損失函數(shù)定義為:
其中:Npos代表正樣本框的數(shù)量,即大于設(shè)定IoU 閾值的框的數(shù)量;設(shè)置λ1=2,λ2=1,λ3=0.2。
本文采用的是nuScenes 數(shù)據(jù)集,該數(shù)據(jù)集包含1 個32 線激光雷達(dá)、5 個毫米波雷達(dá)、5 個攝像頭的所有傳感數(shù)據(jù)。數(shù)據(jù)集提供的毫米波雷達(dá)數(shù)據(jù)是經(jīng)過聚類處理的雷達(dá)點,每個雷達(dá)點有18 個維度,包含坐標(biāo)、速度、雷達(dá)散射面積、雷達(dá)動態(tài)特性、多普勒迷糊解狀態(tài)、有效性狀態(tài)等,如表1 提供的部分信息所示??梢酝ㄟ^雷達(dá)狀態(tài)通道對雷達(dá)點進(jìn)行篩選的方法來濾除不相關(guān)雷達(dá)點。本文實驗中對毫米波雷達(dá)濾波設(shè)置是保留多普勒模糊解:3 表示清楚的,以及點有效性狀態(tài):0 表示有效的和所有雷達(dá)動態(tài)特性下的毫米波雷達(dá)點。濾波前和濾波后的毫米波圖像如圖5 所示,圖右上角為安裝在車頭處毫米波雷達(dá)數(shù)據(jù),雷達(dá)點上的線條表示速度方向和大小。
圖5 毫米波雷達(dá)點濾波前后圖像對比Fig.5 Image comparison of millimeter wave radar points before and after filtering
表1 毫米波雷達(dá)數(shù)據(jù)各個通道及其說明Tab.1 Channels and channel descriptions of radar data
在本文中使用的是激光雷達(dá)的坐標(biāo)和強度信息,毫米波雷達(dá)的坐標(biāo)、RCS 和速度信息。激光雷達(dá)和毫米波雷達(dá)安裝在車輛的不同位置并使用不同坐標(biāo)系。以車輛的慣性測量單元(Inertial Measurement Unit,IMU)作為參考點;激光雷達(dá)平移矩陣Tl,旋轉(zhuǎn)矩陣Rl,毫米波雷達(dá)雷達(dá)平移矩陣Tr,旋轉(zhuǎn)矩陣Rr,其中毫米波雷達(dá)轉(zhuǎn)換到激光雷達(dá)坐標(biāo)系的旋轉(zhuǎn)矩陣R=Rl·Rr,轉(zhuǎn)換到激光雷達(dá)安裝位置的平移矩陣T=Tl-Tr。通過式(16)可將毫米波雷達(dá)點云數(shù)據(jù)中的坐標(biāo)轉(zhuǎn)換到激光雷達(dá)空間,轉(zhuǎn)換后的毫米波雷達(dá)坐標(biāo)記為.xrl,yrl,zrl)。如圖6 所示,毫米波雷達(dá)的速度方向并不能反映物體的絕對速度V,而是表示與自身車輛的相對徑向速度Vr。該速度在x-y方向上的分量為(Vx,Vy)=.Vr· cosα,Vr· sinα),車輛自身速度(Vex,Vey),補償速度.Vx_comp,Vy_comp)=(Vx,Vy)-(Vex,Vey),利用式(17)將毫米波雷達(dá)坐標(biāo)系下的速度轉(zhuǎn)化為激光雷達(dá)坐標(biāo)系的速度.Vx_comp_1,Vy_comp_l)。
圖6 毫米波雷達(dá)點速度示意圖Fig.6 Schematic diagram of radar point velocity
雖然毫米波雷達(dá)數(shù)據(jù)缺乏相對切向速度,不能完全反映出物體的真實運動速度,但是通過結(jié)合其他信息對物體的運動狀態(tài)進(jìn)行粗略判斷也能夠在對障礙物檢測中發(fā)揮積極作用。
nuScenes 數(shù)據(jù)集包含了28 130 個訓(xùn)練樣本和6 019 個測試樣本。數(shù)據(jù)集的激光雷達(dá)掃描頻率是20 幀/秒(Frame Per Second,F(xiàn)PS),32線束,探測距離100 m,精度±0.02 m,每幀大約3 萬個點。毫米波雷達(dá)是77 Hz 的調(diào)頻連續(xù)波(Frequency Modulated Continuous Wave,F(xiàn)MCW)雷達(dá),掃描頻率13 FPS,探測距離250 m,近距離精度±0.1 m,遠(yuǎn)距離精度±0.4 m,每幀掃描聚類后的點數(shù)最多125 個。因為標(biāo)注樣本所占的比例是每秒2 幀,所以將全部掃描幀中連續(xù)10 幀激光雷達(dá)和連續(xù)5 幀毫米波雷達(dá)聚合到樣本幀進(jìn)行數(shù)據(jù)增強。本文中目標(biāo)檢測包含9 個目標(biāo)分類:汽車、卡車、客車、拖車、工程車輛、行人、摩托車、交通錐和柵欄。各個類在整個數(shù)據(jù)集所占比例如圖7 所示,以下實驗均使用單個GPU 完成,由于數(shù)據(jù)集較大,訓(xùn)練完整數(shù)據(jù)集進(jìn)行耗時較長,所以使用1/2數(shù)據(jù)集即14 065個訓(xùn)練樣本進(jìn)行訓(xùn)練,測試樣本6 019個。
圖7 數(shù)據(jù)集各類實例所占百分比Fig.7 Percentages of various classes of instances in dataset
與訓(xùn)練一個網(wǎng)絡(luò)僅識別一類目標(biāo)不同,訓(xùn)練一個網(wǎng)絡(luò)同時進(jìn)行9類目標(biāo)的檢測。訓(xùn)練時批量大小設(shè)置為3,測試時為1,訓(xùn)練次數(shù)為30 個epoch(140 000 次迭代)。本文總共設(shè)置2 500個錨點,每個點上18個3D框,即每個點上每個類兩個框方向分別設(shè)置為0°和90°。
在實驗過程中進(jìn)行了多組對比實驗。在毫米波-激光雷達(dá)融合方法上使用了注意力融合、拼接融合、相加融合和相乘融合,并和激光雷達(dá)單一傳感器的自注意力[25]進(jìn)行對比。實驗平臺的操作系統(tǒng)為Centos7,并帶有型號為NVIDIA RTX Titan XP 的GPU和Intel Xeon Silver 4210的CPU。
首先,使用PointPillar點云快速編碼網(wǎng)絡(luò)框架作為基礎(chǔ)網(wǎng)絡(luò),并在基礎(chǔ)網(wǎng)絡(luò)上加入基于注意力機制的毫米波-激光雷達(dá)點云數(shù)據(jù)融合模塊進(jìn)行實驗比對,為證明實驗結(jié)果的提升并非因為網(wǎng)絡(luò)參數(shù)的增加而導(dǎo)致,額外加入了擁有相同參數(shù)量的激光雷達(dá)點云數(shù)據(jù)的自注意力模塊作為參考。實驗結(jié)果如表2所示,基于注意力機制的毫米波-激光雷達(dá)點云數(shù)據(jù)融合方法的目標(biāo)檢測準(zhǔn)確率與基礎(chǔ)網(wǎng)絡(luò)以及激光雷達(dá)的自注意力方法相比,取得了一定提升,基于注意力機制的數(shù)據(jù)融合方法的平均精度均值(mean Average Precision,mAP)高出基礎(chǔ)網(wǎng)絡(luò)0.62個百分點,證明了本文中所提算法的有效性。
表2 基準(zhǔn)網(wǎng)絡(luò)、自注意網(wǎng)絡(luò)和注意力融合方法的AP與mAP對 單位:%Tab.2 AP and mAP comparison of baseline network,self-attention network and attention fusion method unit:%
另外,從實驗中可以看出,激光雷達(dá)自注意方法實驗準(zhǔn)確率比基礎(chǔ)網(wǎng)絡(luò)性能要低,初步推測是由于在點云柱快速編碼過程中,其中的最大池化操作將點云柱內(nèi)大量高相關(guān)性數(shù)據(jù)進(jìn)行了簡化,之后的注意力機制僅能夠捕捉到點云柱間的上下文信息,因此,對于體積較大的目標(biāo),其所占點云柱數(shù)目較多,注意力機制能夠?qū)ζ錂z測性能加以提升,而體積較小的物體,所占點云柱數(shù)目較小,注意力機制無法捕捉該目標(biāo)的上下文信息從而影響了該類目標(biāo)的檢測結(jié)果。在未來的工作中,將考慮這一因素對點云柱的快速編碼模塊進(jìn)行優(yōu)化。
本節(jié)將基于注意力機制的融合方法與拼接、相加、相乘三種常見融合方法進(jìn)行相比,實驗結(jié)果如圖8 所示,可見基于注意力機制的融合方法的性能明顯優(yōu)于其他方法。
圖8 注意力融合和拼接融合、相乘融合、相加融合的平均準(zhǔn)確率對比Fig.8 Average accuracy comparison of attention fusion,concatenation fusion,multiply fusion and add fusion
根據(jù)實驗結(jié)果,基于注意力融合的目標(biāo)檢測方法性能優(yōu)于拼接、加和、相乘融合目標(biāo)檢測方法。通過分析可知:一方面聚類后的毫米波雷達(dá)點位置誤差較大,Nusence數(shù)據(jù)集中使用的ARS408型號毫米波雷達(dá)數(shù)據(jù)30 m 外誤差為0.4 m,因此部分與目標(biāo)關(guān)聯(lián)的毫米波雷達(dá)點并不在該目標(biāo)上,而可能在目標(biāo)周圍;另一方面一個目標(biāo)可能與多個毫米波雷達(dá)點相關(guān)聯(lián),使用拼接、加和、相乘融合只能融合對應(yīng)的局部位置信息,而注意力融合能夠通過全圖的來學(xué)習(xí)毫米波雷達(dá)目標(biāo)和激光雷達(dá)目標(biāo)之間的關(guān)聯(lián)。
本文對基礎(chǔ)網(wǎng)絡(luò)模型和注意力融合網(wǎng)絡(luò)模型的檢測效果進(jìn)行鳥瞰圖可視化,可視化范圍為前后左右各50 m 的x-y平面。如圖9 所示,圖中框表示檢測的目標(biāo)物,框的閉合方向表示目標(biāo)的方向。通過對比第一行第三列左上角,第二行第三列左上角,第三行第三列圖片右下角可以發(fā)現(xiàn),基礎(chǔ)網(wǎng)絡(luò)遺漏了部分的遠(yuǎn)處目標(biāo),而融合了毫米波雷達(dá)數(shù)據(jù)的網(wǎng)絡(luò)模型能夠很好地將其檢測出來,說明融合網(wǎng)絡(luò)成功地將毫米波對遠(yuǎn)處目標(biāo)的感知優(yōu)勢融入激光雷達(dá)特征圖中,彌補了激光雷達(dá)對遠(yuǎn)處目標(biāo)檢測點數(shù)稀疏而造成的漏檢。另外,在對比第一行和第二行圖片右下角可以發(fā)現(xiàn),當(dāng)目標(biāo)被樹木遮擋后基礎(chǔ)網(wǎng)絡(luò)的檢測效果不佳,出現(xiàn)漏檢及方向檢測錯誤,而本文所提出的融合網(wǎng)絡(luò)能夠正確檢測被樹木遮擋的車輛,這是由于毫米波信號對樹木草叢等的穿透性增強了融合網(wǎng)絡(luò)對這類遮擋目標(biāo)檢測的性能。如第四行圖片所示,基礎(chǔ)網(wǎng)絡(luò)在雨霧天氣下由于空氣水滴反射干擾更容易出現(xiàn)錯檢和漏檢,而由于毫米波雷達(dá)對極端天氣的魯棒性更強,融合網(wǎng)絡(luò)在雨霧天氣下比基礎(chǔ)網(wǎng)絡(luò)也更為穩(wěn)定。通過實驗結(jié)果圖對比可以發(fā)現(xiàn),傳感器注意力融合方法充分發(fā)揮了毫米波雷達(dá)可以穿透樹木草叢、不受天氣影響和探測距離遠(yuǎn)等特點,能有效提高網(wǎng)絡(luò)檢測性能。
圖9 基礎(chǔ)網(wǎng)絡(luò)與毫米波-激光雷達(dá)注意力融合檢測結(jié)果對比Fig.9 Detection result comparison of basic network and millimeter wave radar-lidar attention fusion
本文在完整數(shù)據(jù)集下進(jìn)行訓(xùn)練后對大型車輛的檢測結(jié)果和目前數(shù)據(jù)集上公開的現(xiàn)有最先進(jìn)算法SARPNET[30]、MonoDIS[31]進(jìn)行比較。其中SARPNET 是基于激光雷達(dá)的目標(biāo)檢測,MonoDIS 是基于攝像頭的目標(biāo)檢測。通過實驗結(jié)果表3 可以發(fā)現(xiàn),本文融合方法對車輛的檢測準(zhǔn)確率高于其他兩種方法,在nuScenes數(shù)據(jù)集上取得了優(yōu)異的表現(xiàn)。
表3 nuScenes數(shù)據(jù)集上本文融合方法和SARPNET、MonoDIS的mAP對 單位:%Tab.3 mAP comparison of the proposed fusion method,SARPNET and MonoDIS on nuScenes dataset unit:%
本文在點云快速編碼網(wǎng)絡(luò)PointPillar的基礎(chǔ)上,提出了一種基于注意力機制的毫米波-激光雷達(dá)數(shù)據(jù)融合的目標(biāo)檢測方法,充分利用了毫米波雷達(dá)探測距離遠(yuǎn)、不受天氣影響、可穿透樹木和具有徑向速度探測等特點,彌補了激光雷達(dá)的不足。本文的實驗結(jié)果驗證了所提方法的有效性,而且該方法也優(yōu)于其他融合方法和自注意力方法。
考慮到本文使用的nuScenes數(shù)據(jù)集目標(biāo)類的分布極不均勻,使得在一些類的檢測結(jié)果準(zhǔn)確率很低;另外本文毫米波雷達(dá)進(jìn)行濾波只根據(jù)單通道數(shù)值進(jìn)行過濾,而在毫米波雷達(dá)特征提取方法上借鑒的激光雷達(dá)特征提取方法,未充分考慮到毫米波雷達(dá)的稀疏性問題;以及點云柱快速編碼過程中造成的小體積目標(biāo)上下文信息丟失等問題,在未來的工作中將考慮利用數(shù)據(jù)增強及半監(jiān)督學(xué)習(xí)等方法解決類數(shù)量不平衡問題,重新設(shè)計端對端的點云數(shù)據(jù)編碼-特征提取-檢測網(wǎng)絡(luò),從而進(jìn)一步提升算法性能。