楊 猛,沈 韜,曾 凱
(昆明理工大學(xué),云南 昆明 650500)
毫米波雷達(dá)與視覺(jué)傳感器融合是一種準(zhǔn)確感知車輛周圍環(huán)境的低成本方式。按照融合層次分類,主要有數(shù)據(jù)層、特征層和決策層3種融合方法,這3種融合方法各有優(yōu)勢(shì)和不足。
數(shù)據(jù)層融合通常是在空間上的融合,主要分為兩步:先是利用毫米波雷達(dá)點(diǎn)云產(chǎn)生感興趣區(qū)域(Region of Interest,ROI);視覺(jué)傳感器再對(duì)ROI進(jìn)行檢測(cè),驗(yàn)證是否存在障礙物[1-3]。這種融合方法只檢測(cè)有毫米波雷達(dá)信息的區(qū)域,可以明顯地縮小視覺(jué)傳感器檢測(cè)區(qū)域,提高視覺(jué)檢測(cè)效率。但由于毫米波雷達(dá)分辨率較低,難以檢測(cè)橫截面積較小的物體,會(huì)漏檢行人、自行車等小物體。
決策層融合通常是分別將毫米波雷達(dá)與視覺(jué)預(yù)測(cè)的結(jié)果進(jìn)行融合,產(chǎn)生最終的預(yù)測(cè)結(jié)果[4-6]。但是這種融合方法需要分別計(jì)算各個(gè)傳感器的檢測(cè)結(jié)果,計(jì)算成本太高,并且很難建立兩種檢測(cè)結(jié)果的概率分布模型。
特征層融合是目前研究較多的方法,主要是將雷達(dá)的一些信息作為通道特征,附加在圖像特征通道上,利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)點(diǎn)云與視覺(jué)圖像之間的關(guān)系,提取兩者的特征進(jìn)行融合[7-10],然而這種融合方法存在特征權(quán)重難以分配的問(wèn)題。
通過(guò)分析毫米波雷達(dá)與視覺(jué)融合存在的問(wèn)題。本文從空間和通道兩個(gè)維度考慮,提出一種基于空間軟注意力(Spatial Soft Attention,SA)的數(shù)據(jù)層融合和基于通道注意力權(quán)重學(xué)習(xí)(Channel Attention Weight Learning,CAL)的特征層融合的混合融合方法,用于毫米波雷達(dá)與視覺(jué)融合檢測(cè)障礙物,并將該方法命名為“RVF-SCA”。首先,采用文獻(xiàn)[7]的投影方法和文獻(xiàn)[10]雷達(dá)空間信息增強(qiáng)方法,把雷達(dá)點(diǎn)云投影到與視覺(jué)圖像一致的垂直平面上,再把平面點(diǎn)云延伸為垂直直線,增強(qiáng)毫米波雷達(dá)點(diǎn)云的空間信息。其次,在數(shù)據(jù)層利用毫米波雷達(dá)空間信息為視覺(jué)傳感器確定重點(diǎn)檢測(cè)區(qū)域并突出重點(diǎn)檢測(cè)區(qū)域特征,形成空間上的軟注意力,解決了因毫米波雷達(dá)特性引起的小物體檢測(cè)效果不佳的問(wèn)題。最后,在特征層利用通道注意力權(quán)重學(xué)習(xí)方法,對(duì)毫米波雷達(dá)與視覺(jué)特征的權(quán)重進(jìn)行合理分配,解決兩者權(quán)重難以分配的問(wèn)題。RVF-SCA融合方法能夠充分利用毫米波雷達(dá)和視覺(jué)傳感器,提升在各光照?qǐng)鼍跋聶z測(cè)障礙物的效果。
本章介紹基于空間軟注意力的數(shù)據(jù)層融合和通道注意力權(quán)重學(xué)習(xí)的特征層融合的網(wǎng)絡(luò)結(jié)構(gòu)。本文提出的網(wǎng)絡(luò)融合結(jié)構(gòu)是建立在RetinaNet[11]框架上,并用改進(jìn)的VGG16[12]進(jìn)行特征提取。如圖1所示,該結(jié)構(gòu)包含基于空間軟注意力的數(shù)據(jù)層融合模塊,基于通道注意力權(quán)重學(xué)習(xí)的特征層模塊和RetinaNet模塊。
在數(shù)據(jù)層,先增強(qiáng)毫米波雷達(dá)圖像,再分別用R-Block0和V-Block0提取毫米波雷達(dá)空間信息和視覺(jué)信息。然后通過(guò)SA的融合方法,在早期為視覺(jué)傳感器在空間上確定重點(diǎn)檢測(cè)區(qū)域并突出重點(diǎn)檢測(cè)區(qū)域的特征。
在特征層,先通過(guò)V-Block1提取確定過(guò)重點(diǎn)檢測(cè)區(qū)域的視覺(jué)圖像的特征,后與R-Block1提取的雷達(dá)特征進(jìn)行級(jí)聯(lián)。
在特征通道上用CAL方法分配毫米波雷達(dá)與視覺(jué)的特征權(quán)重。最后利用RetinaNet進(jìn)行融合特征的提取和分類,并且損失函數(shù)和RetinaNet中的一致。
空間軟注意力的具體實(shí)現(xiàn)方法如圖2所示,首先在R-Block0使用3×3和5×5的卷積核,初步提取毫米波雷達(dá)的多尺度空間信息;其次把提取的毫米波雷達(dá)空間信息映射到視覺(jué)圖像的所有通道上,與經(jīng)過(guò)V-Block0處理之后的視覺(jué)圖像相乘,得到空間特征矩陣,確定重點(diǎn)檢測(cè)空間(這一步做法類似于傳統(tǒng)數(shù)據(jù)級(jí)融合的確定ROI);最后空間特征矩陣與V-Block0提取的視覺(jué)信息進(jìn)行像素級(jí)相加,增強(qiáng)視覺(jué)重點(diǎn)檢測(cè)空間特征。這種基于SA的數(shù)據(jù)層融合方法能夠有效地利用毫米波雷達(dá)不受天氣影響的特性,提供障礙物準(zhǔn)確的空間信息,增強(qiáng)目標(biāo)特征,同時(shí)又利用視覺(jué)傳感器提高了行人、自行車等小物體的檢測(cè)效果。本文通過(guò)與基線模型和傳統(tǒng)的數(shù)據(jù)級(jí)融合進(jìn)行對(duì)比實(shí)驗(yàn)驗(yàn)證了提出的SA融合方式,在行人等小物體的檢測(cè)精度和召回率都有明顯的優(yōu)勢(shì)。
可以把空間軟注意力實(shí)現(xiàn)的步驟總結(jié)如下:
(1)計(jì)毫米波雷達(dá)圖像二維矩陣為N,圖像矩陣為C;
(2)將毫米波雷達(dá)的雷達(dá)圖像二維矩陣N與圖像矩陣C進(jìn)行點(diǎn)乘,得到矩陣H:
(3)將矩陣H與圖像矩陣C進(jìn)行元素級(jí)相加得到M:
為了充分利用毫米波雷達(dá)信息,本文在特征層提取了毫米波雷達(dá)的特征,并與視覺(jué)特征進(jìn)行級(jí)聯(lián)。同時(shí)為了合理地分配毫米波雷達(dá)與視覺(jué)傳感器在全局信息的權(quán)重,本文提出以通道的方式對(duì)兩者的權(quán)重進(jìn)行分配,在特征層中加入了擠壓、激勵(lì)(Squeeze and Excitation,SE)[13]通道注意力權(quán)重學(xué)習(xí)的方式學(xué)習(xí)各通道權(quán)重。
如圖3所示,雷達(dá)數(shù)據(jù)在R-Block1經(jīng)過(guò)3×3和5×5的卷積核,以及MaxPooling,提取多尺度特征,再與V-Block1提取的空間融合特征進(jìn)行級(jí)聯(lián)融合。在級(jí)聯(lián)后用SE通道注意力權(quán)重學(xué)習(xí)的方法來(lái)學(xué)習(xí)各通道權(quán)重。通過(guò)擠壓、激勵(lì)操作,對(duì)多模態(tài)融合特征的各通道的依賴性進(jìn)行建模,以通道權(quán)重的形式學(xué)習(xí)毫米波雷達(dá)與視覺(jué)圖像在融合特征的權(quán)重。通過(guò)消融實(shí)驗(yàn)證明了CAL的有效性。
輸入的多模態(tài)融合特征經(jīng)過(guò)特征提取Ftr后得到維度為H×W×C的特征圖U,其中H為特征圖高度,W為特征圖寬度,C為通道數(shù)。通道注意力機(jī)制通過(guò)通道特征權(quán)重提取、通道權(quán)重更新和權(quán)重映射3個(gè)步驟實(shí)現(xiàn)。
(1)通道特征權(quán)重提取。對(duì)H×W×C的特征圖,在每個(gè)通道上對(duì)特征圖的空間維度進(jìn)行壓縮,轉(zhuǎn)換成維度為1×1×C的特征圖,通道數(shù)保持不變。
式中:uc為輸入特征的第c個(gè)通道特征;(i, j)對(duì)應(yīng)融合特征每個(gè)像素點(diǎn)的位置,對(duì)輸入的融合特征進(jìn)行平均池化,得到輸出特征zc。
(2)通道權(quán)重更新。融合特征經(jīng)全連接層(Fully Connected,F(xiàn)C)進(jìn)行通道信息融合,通過(guò)訓(xùn)練學(xué)習(xí)獲得歸一化權(quán)重,該權(quán)重表是對(duì)各個(gè)通道特征的依賴程度。
(3)權(quán)重映射。將上述歸一化后的輸出權(quán)重值與原輸入特征圖進(jìn)行逐通道加權(quán),得到經(jīng)權(quán)重映射后的通道特征。
本章通過(guò)實(shí)驗(yàn)驗(yàn)證RVF-SCA網(wǎng)絡(luò)的可行性。本文采用CRF-Net的訓(xùn)練策略,從nuScenes[14]多模態(tài)數(shù)據(jù)集中按6∶2∶2的比例取出晴天、雨天和夜間的混合場(chǎng)景進(jìn)行訓(xùn)練,總共是20 480個(gè)雷達(dá)-視覺(jué)對(duì)。在tensorflow框架實(shí)現(xiàn)本文提出的RVFSCA網(wǎng)絡(luò)模型,并在具有16 GB顯存的Telsa V100上訓(xùn)練模型。訓(xùn)練時(shí)輸入圖片的大小為360×640,設(shè)置學(xué)習(xí)率為0.000 1,訓(xùn)練20個(gè)Epoch。分別測(cè)試晴天、雨天和夜間的檢測(cè)效果。
實(shí)驗(yàn)采用的評(píng)估指標(biāo)與主流目標(biāo)檢測(cè)評(píng)估一致。本文使用平均精度均值(Mean Average Precision,mAP)、平均召回率均值(Mean Average Recall,AR)、平均召回率(Average Recall,AR)和平均精度(Average Precision,AP)作為評(píng)價(jià)指標(biāo)。
為了測(cè)試增強(qiáng)雷達(dá)空間信息在不同光照條件下對(duì)檢測(cè)效果的影響,以及尋找最佳的雷達(dá)直線高度(Radar Linear Height,RH),本文在不同光照條件下做了不同高度的雷達(dá)直線的對(duì)比實(shí)驗(yàn),如表1所示。
在現(xiàn)實(shí)場(chǎng)景中,公路上常見物體高度普遍在1~3 m之間。本文為了對(duì)比在不同光照環(huán)境下,不同RH對(duì)檢測(cè)效果的影響,在0~3.5 m的高度范圍內(nèi),每間隔0.5 m做了一組對(duì)比實(shí)驗(yàn)。從表1中可以看出:在1.5~3.0 m的RH范圍內(nèi),各種光照條件下的檢測(cè)效果達(dá)到最佳,在3.5 m的RH下檢測(cè)效果已經(jīng)開始下降,這與公路上常見的物體高度保持一致。在RH為1.5~3.0 m范圍內(nèi),本文提出的RVF-SCA方法相比于基線模型在晴天的場(chǎng)景下能夠提高2.0%~2.6%的mAP和12.1%~13.3%的mAR;在雨天場(chǎng)景下能夠提高1.7%~2.2%的mAP和1.8%~3.7%的mAR;在夜間條件下提高了0.5%~2.3%的mAP和1.7%~3.7%的mAR。總體上提高了檢測(cè)精度和召回率,減少了漏檢。
表1 在不同RH和不同光照條件下RVF-SCA融合網(wǎng)絡(luò)檢測(cè)障礙物的mAP和mAR
不同種類物體的高度不同,本文研究了不同RH對(duì)不同種類物體在不同光照條件下檢測(cè)效果的影響。在一些場(chǎng)景下一些種類的物體出現(xiàn)次數(shù)過(guò)少,而不能表示實(shí)際的檢測(cè)效果。因此本文只統(tǒng)計(jì)了出現(xiàn)次數(shù)較多的物體作為研究對(duì)象。晴天場(chǎng)景下,選擇了行人、自行車、大巴、汽車、摩托和卡車作為研究對(duì)象;雨天場(chǎng)景下選擇了行人、大巴、汽車、拖車和卡車作為研究對(duì)象;夜間場(chǎng)景下,選擇行人、大巴、汽車、摩托和卡車作為研究對(duì)象。通過(guò)實(shí)驗(yàn)結(jié)果表2、表3可以總結(jié)出:在光線條件較好的情況下,不同高度物體的檢測(cè)效果與不同RH有一定的相關(guān)性,RH越接近物體的高度,檢測(cè)的精度和召回率越高。
表2 晴天場(chǎng)景下,RVF-SCA在不同RH下檢測(cè)各類障礙物的AP
表3 晴天場(chǎng)景下,RVF-SCA在不同RH下檢測(cè)各類障礙物的AR
在光照強(qiáng)度較低的雨天情況下,雨滴在一定程度上會(huì)遮擋視覺(jué)傳感器,擋風(fēng)玻璃上的雨滴和雨痕也會(huì)因反光、折射等改變障礙物的局部或整體特征,造成圖像失真。雨天整體光照條件與光照條件良好的場(chǎng)景有一定的相似性,視覺(jué)傳感器在大部分情況下基本能夠檢測(cè)到障礙物的整體輪廓。但訓(xùn)練測(cè)試時(shí)雷達(dá)直線高度受一些失真圖像影響,造成最佳RH與真實(shí)物體高度有一些差距。
從表4、表5中可以看出,在雨天場(chǎng)景下,各類物體的AP和AR比與晴天場(chǎng)景下低。雷達(dá)空間信息增強(qiáng)條件下RVF-SCA方法能夠有效地提高不同物體的檢測(cè)精度和召回率,但受雨滴和圖像失真的影響,最佳的RH與物體真實(shí)高度有一定的差距。
表4 雨天場(chǎng)景下,RVF-SCA在不同RH下檢測(cè)各類障礙物的AP
表5 雨天場(chǎng)景下,RVF-SCA在不同RH下檢測(cè)各類障礙物的AR
在夜間場(chǎng)景下,光照條件只有車燈和路燈,與白天完全不同。同一物體的全局特征與光照條件較好的晴天場(chǎng)景下的全局特征有一定的差異,尤其對(duì)于車輛等本身具有亮度且能夠反射光照的物體。受光照變化的影響,車燈和后視鏡等局部特征會(huì)更加明顯,在訓(xùn)練測(cè)試時(shí)這些局部特征的權(quán)重會(huì)增加。
從實(shí)驗(yàn)結(jié)果表6、表7中可以看出:適當(dāng)?shù)卦鰪?qiáng)毫米波雷達(dá)空間信息能夠增強(qiáng)夜間的檢測(cè)效果,但對(duì)于車輛的最佳檢測(cè)效果的RH更加接近車燈和后視鏡等局部特征的高度,而不是車輛的高度。當(dāng)RH接近物體高度時(shí),不是最佳的檢測(cè)效果,但與最佳檢測(cè)效果相差很小。因此對(duì)于夜間物體的檢測(cè),最佳RH與物體的局部特征相關(guān)性更高(如表4所示)。
表6 夜間場(chǎng)景下,RVF-SCA在不同RH下檢測(cè)各類障礙物的AP
表7 夜間場(chǎng)景下,RVF-SCA在不同RH下檢測(cè)各類障礙物的AR
為了驗(yàn)證本文提出RVF-SCA方法的有效性,分別測(cè)試了在不同光照條件下RH為0 m和雷達(dá)直線2.5 m高度下的SA和通CAL對(duì)檢測(cè)效果的影響。
在RH為0 m和2.5 m的情況下測(cè)試了SA與CAL對(duì)檢測(cè)結(jié)果的影響。實(shí)驗(yàn)結(jié)果表明,在2.5 m的RH下,RVF-SCA的檢測(cè)效果比基線模型有了明顯提升,尤其是召回率。晴天場(chǎng)景下分別提高了2.6%的mAP和13.2%的mAR;雨天場(chǎng)景下mAP和mAR分別提高了2.1%和3.7%;夜間場(chǎng)景下mAP和mAR分別提高了0.6%的和3.7%,如表8、表9所示。檢測(cè)效果如圖4所示。同時(shí)從實(shí)驗(yàn)結(jié)果可以看出SA大幅度提高檢測(cè)效果,CAL學(xué)習(xí)能夠提高0.1%~1.5%的mAP。在同樣的模型下,增強(qiáng)雷達(dá)空間位置信息的檢測(cè)效果比不增強(qiáng)的檢測(cè)效果更好。
表8 在RH為0 m和2.5 m的不同光照條件下,基線模型分別加入SA和CAL檢測(cè)各類障礙物的mAP
表9 在RH為0 m和2.5 m的不同光照條件下,基線模型分別加入SA和CAL檢測(cè)各類障礙物mAR
本文提出了一種基于空間軟注意力與通道注意力權(quán)重學(xué)習(xí)融合(RVF-SCA)檢測(cè)障礙物的方法。與其他融合方法相比,本文從空間和通道兩個(gè)維度進(jìn)行融合。首先采用雷達(dá)空間信息增強(qiáng)的方法,增強(qiáng)了毫米波雷達(dá)空間信息;其次在空間上,利用毫米波雷達(dá)的空間信息與視覺(jué)圖像進(jìn)行空間信息融合,在不忽略其他檢測(cè)空間的同時(shí)突出了視覺(jué)重點(diǎn)檢測(cè)區(qū)域,解決了因毫米波雷達(dá)特性導(dǎo)致的小物體檢測(cè)效果不佳;最后在通道上,將提取的雷達(dá)特征和空間融合特征進(jìn)行級(jí)聯(lián),利用通道注意力學(xué)習(xí)在融合的通道上進(jìn)行建模,對(duì)兩種傳感器特征的權(quán)重進(jìn)行合理地分配,進(jìn)一步增強(qiáng)檢測(cè)效果。通過(guò)消融實(shí)驗(yàn),證明本文提出的RVF-SCA方法能夠有效地提高在晴天、雨天和夜間等場(chǎng)景下的檢測(cè)效果。