王 鴿,楊睿華,惠 維,趙季中
(西安交通大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,陜西 西安 710049)
智慧交通指利用先進(jìn)的信息技術(shù)、物聯(lián)網(wǎng)技術(shù)、人工智能以及計(jì)算機(jī)視覺等技術(shù)手段,實(shí)現(xiàn)交通系統(tǒng)的高效和智能化管理,以提升道路通行能力,減少交通擁堵,降低能源消耗,保障道路交通安全和改善出行體驗(yàn),對城市的可持續(xù)發(fā)展具有重要意義。
現(xiàn)有的智慧城市交通系統(tǒng)采用圖像感知方法來檢測目標(biāo),以滿足車輛行駛情況估計(jì)和交通流量檢測等實(shí)際需求。然而,圖像感知方案難以估計(jì)車輛三維距離,給探測引入一定誤差。為解決該問題,針對圖像的深度補(bǔ)全技術(shù)得到了廣泛重視。使用深度補(bǔ)全技術(shù)可填補(bǔ)深度圖像中的缺失部分或不準(zhǔn)確部分,從而提高路面深度估計(jì)的準(zhǔn)確性。但基于圖像的深度補(bǔ)全仍存在一定挑戰(zhàn):1)深度圖可能受到天氣、光照、遮擋和反射等多種干擾和影響,攝像機(jī)和毫米波雷達(dá)獲取的深度圖可能包含缺失或不準(zhǔn)確部分,無法保證深度圖的質(zhì)量和完整性;2)路面上存在的障礙物使深度估計(jì)可能受到一定干擾。為解決以上問題,基于多源異構(gòu)數(shù)據(jù)融合和深度學(xué)習(xí)的深度補(bǔ)全等技術(shù)應(yīng)運(yùn)而生。
深度補(bǔ)全是計(jì)算機(jī)視覺領(lǐng)域的重要研究方向之一,目的是利用稀疏的深度數(shù)據(jù)(例如毫米波雷達(dá)采集的數(shù)據(jù))來生成高質(zhì)量和高分辨率的深度圖。深度補(bǔ)全不僅需處理深度圖中的噪聲、遮擋和反射等干擾因素,還需解決不同傳感器之間的數(shù)據(jù)對齊問題。因此,單一數(shù)據(jù)源難以滿足深度補(bǔ)全的需求,需要結(jié)合多種數(shù)據(jù)源來提高深度補(bǔ)全的準(zhǔn)確性。多源異構(gòu)數(shù)據(jù)融合在深度補(bǔ)全任務(wù)中具有重要作用,可充分利用多種數(shù)據(jù)源的信息來提高深度補(bǔ)全的精度和效率。同時,不同數(shù)據(jù)源之間的關(guān)聯(lián)性和規(guī)律性不僅可以提高數(shù)據(jù)的知識含量和價(jià)值,還可以通過降低單一數(shù)據(jù)源的噪聲和偏差來提高數(shù)據(jù)的穩(wěn)定性和可操作性。
目前,室外場景的深度補(bǔ)全由激光雷達(dá)、立體相機(jī)和單目相機(jī)技術(shù)主導(dǎo)。視頻和激光雷達(dá)數(shù)據(jù)的融合可使密集深度圖的預(yù)測越來越精準(zhǔn)。與此同時,毫米波雷達(dá)已降級到用于車輛高級駕駛輔助系統(tǒng)的目標(biāo)檢測任務(wù)。然而,相控陣汽車?yán)走_(dá)技術(shù)在精度和鑒別方面一直在進(jìn)步。本文調(diào)查了在不使用激光雷達(dá)的情況下,使用毫米波雷達(dá)進(jìn)行密集深度補(bǔ)全任務(wù)的可行性。與激光雷達(dá)相比,毫米波雷達(dá)已普遍安裝于自動駕駛車輛上,用于碰撞檢測以及其他類似任務(wù)。若能成功地使用圖像和毫米波雷達(dá)進(jìn)行三維場景建模和感知任務(wù),將有效降低成本。但毫米波雷達(dá)同樣具有點(diǎn)云稀疏、分辨率低等缺點(diǎn),將給深度補(bǔ)全引入誤差。
為解決上述問題,本文提出了一種基于多源數(shù)據(jù)關(guān)聯(lián)融合的深度補(bǔ)全技術(shù),利用多源異構(gòu)數(shù)據(jù)融合算法和深度學(xué)習(xí)方法對不完整或缺失的深度信息進(jìn)行恢復(fù),從而生成質(zhì)量更高的深度圖。該技術(shù)通過融合毫米波雷達(dá)數(shù)據(jù)和圖像數(shù)據(jù)進(jìn)行深度補(bǔ)全,在不使用激光雷達(dá)數(shù)據(jù)(成本高昂且易受環(huán)境干擾)的情況下,實(shí)現(xiàn)低成本、高普適性以及高性能的深度補(bǔ)全技術(shù)。首先,將圖像與毫米波雷達(dá)點(diǎn)云數(shù)據(jù)進(jìn)行逐點(diǎn)關(guān)聯(lián),生成多通道置信度增強(qiáng)深度圖。再將處理后的深度圖輸入基于數(shù)據(jù)層逐點(diǎn)關(guān)聯(lián)網(wǎng)絡(luò)中進(jìn)行深度補(bǔ)全,從而生成高質(zhì)量深度圖。
本文在公開的nuScenes[1]數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果驗(yàn)證了本文所提方法的有效性,并與其他相關(guān)方法進(jìn)行了對比分析,展示了本文所提方法的優(yōu)勢之處。相較于KITTI[2]、Waymo[3]和ArgoVerse[4]等數(shù)據(jù)集,nuScenes數(shù)據(jù)集是一個包含毫米波雷達(dá)數(shù)據(jù)、圖像、激光雷達(dá)數(shù)據(jù)以及每個場景的標(biāo)注信息的數(shù)據(jù)集,適用范圍較廣。本文結(jié)合多源異構(gòu)數(shù)據(jù)融合算法和深度神經(jīng)網(wǎng)絡(luò)模型,實(shí)現(xiàn)低成本、高普適性以及高性能的深度補(bǔ)全技術(shù),為多源異構(gòu)數(shù)據(jù)融合以及深度補(bǔ)全技術(shù)的研究提供了新的思路和方法。
在智慧交通系統(tǒng)中,自動駕駛汽車的毫米波雷達(dá)一般通過天線單行掃描發(fā)射調(diào)頻連續(xù)波信號(Chirp)。該毫米波雷達(dá)點(diǎn)投影模型可以建立在一個平行于地面的水平面上[5]。雖然調(diào)頻連續(xù)波雷達(dá)點(diǎn)云在深度測量方面比較準(zhǔn)確,但當(dāng)投影到相機(jī)坐標(biāo)系中時,得到的深度值不正確。這是因?yàn)榧词购撩撞ɡ走_(dá)點(diǎn)投影到了被測目標(biāo)的周圍區(qū)域,但在圖像上的位置與實(shí)際位置也有可能完全不符。另外,在建立毫米波雷達(dá)點(diǎn)和相機(jī)投影模型之前,毫米波雷達(dá)點(diǎn)云相較激光雷達(dá)的點(diǎn)云稀疏較多。通常毫米波雷達(dá)掃描結(jié)果只有1行回波,而激光雷達(dá)最多可以達(dá)到128行回波,毫米波雷達(dá)的稀疏性增加了深度補(bǔ)全任務(wù)的難度。對此,本文提出將在一定時間間隔內(nèi)將毫米波雷達(dá)點(diǎn)云進(jìn)行累積,并使用汽車自身運(yùn)動和徑向速度來對應(yīng)其空間位置。然而,這種累積會額外引入像素關(guān)聯(lián)錯誤和更多的投影點(diǎn)遮擋誤差。
將毫米波雷達(dá)點(diǎn)進(jìn)行多幀累積時,距離雷達(dá)較近的目標(biāo)可能會遮擋一些投影點(diǎn),因此生成的深度圖會有較嚴(yán)重誤差。由于nuScenes數(shù)據(jù)集中沒有可用的立體圖像來過濾掉被遮擋的點(diǎn),本文根據(jù)光學(xué)場景流一致性檢測來移除被遮擋的毫米波雷達(dá)點(diǎn)。
毫米波雷達(dá)點(diǎn)的場景流被稱為毫米波雷達(dá)流。在移動物體上,點(diǎn)的位置隨物體的運(yùn)動進(jìn)行變化。在靜態(tài)可見物體上,毫米波雷達(dá)流等于圖像光流,而在被遮擋的物體表面上,其通常與同一像素處的光流不同。因此,本文首先計(jì)算毫米波雷達(dá)流和圖像光流之間的L2范數(shù),然后比較它們之間的差值是否大于一定閾值(該閾值為實(shí)驗(yàn)選定值),若大于該閾值,則該點(diǎn)視為被遮擋點(diǎn),進(jìn)行濾除,否則將該點(diǎn)保留下來。本文計(jì)算光流圖的方法基于RAFT(Recurrent All-Pairs Field Transforms)模型[6]。
在兩種特殊情況下,基于光流一致性的被遮擋點(diǎn)濾除可能會失效。第1種情況是被測目標(biāo)距離毫米波雷達(dá)和相機(jī)較遠(yuǎn)或與測量者的運(yùn)動方向一致時,測得的兩幀之間會由于視差較小,導(dǎo)致圖像光流和毫米波雷達(dá)流都會偏小,它們的差異不可測量。第2種情況是移動物體上的毫米波雷達(dá)流與其背后被遮擋的毫米波雷達(dá)流相同。在這兩種情況下,光流一致性不足以從最終的深度補(bǔ)全中濾除被遮擋的點(diǎn)。為解決該問題,本文結(jié)合使用3D邊界框和語義分割技術(shù)來移除出現(xiàn)在被測目標(biāo)頂部的雷達(dá)遮擋點(diǎn)。首先將被測目標(biāo)的準(zhǔn)確像素區(qū)域由3D邊界框投影和語義分割的交集確定。邊界框4個角的最大深度用于決定落在被測目標(biāo)上的毫米波雷達(dá)點(diǎn)是落在物體上還是在物體后面。落在3D邊界框投影和語義分割交集內(nèi)的點(diǎn)以及比最大深度更近的點(diǎn)會被保留下來,而其他點(diǎn)作為被遮擋的點(diǎn)將被濾除。本文使用在CityScape數(shù)據(jù)集[7]上進(jìn)行過訓(xùn)練的語義分割模型Panoptic-DeepLab[8]來分割被測目標(biāo)以及濾除遮擋點(diǎn)。
在將毫米波雷達(dá)投影點(diǎn)與圖像像素進(jìn)行數(shù)據(jù)層逐點(diǎn)關(guān)聯(lián)時,確定投影到相機(jī)坐標(biāo)系下的毫米波雷達(dá)點(diǎn)在圖像中對應(yīng)的像素點(diǎn)是一個需要解決的問題,這也是進(jìn)行數(shù)據(jù)層關(guān)聯(lián)時普遍面臨的一個難題。
對于該難題,本文提出一種數(shù)據(jù)層的逐點(diǎn)關(guān)聯(lián)方法,可將上述難題轉(zhuǎn)換為投影到相機(jī)坐標(biāo)系下的毫米波雷達(dá)點(diǎn)附近具有與該雷達(dá)點(diǎn)相同深度值的點(diǎn)。數(shù)據(jù)層逐點(diǎn)關(guān)聯(lián)方法的目的是找到毫米波雷達(dá)投影點(diǎn)與圖像像素之間的對應(yīng)關(guān)系,即哪些像素與雷達(dá)像素有相同的深度。這樣能夠解決毫米波雷達(dá)投影到相機(jī)平面時的不確定性和遮擋問題,也可增加毫米波雷達(dá)深度圖的密度,從而提高深度補(bǔ)全的準(zhǔn)確性。該方法的基本思想是對每個毫米波雷達(dá)投影點(diǎn),學(xué)習(xí)一個概率分布,表示其鄰域內(nèi)的像素與其有相同深度的可能性。這個概率分布稱為關(guān)聯(lián)置信度,用深度神經(jīng)網(wǎng)絡(luò)來預(yù)測。
圖1為毫米波雷達(dá)點(diǎn)云和圖像的目標(biāo)檢測模型。圖1表明毫米波雷達(dá)點(diǎn)的投影建模在平行于地面的水平面上(如圖1中虛線所示),毫米波雷達(dá)的真實(shí)回波(角標(biāo)為“真實(shí)”的標(biāo)注點(diǎn))可能落在該平面之外。圖2展示了將平面內(nèi)的毫米波雷達(dá)點(diǎn)投影到相機(jī)坐標(biāo)系上。在相機(jī)視角平面中,毫米波雷達(dá)點(diǎn)的投影為角標(biāo)為“投影”的標(biāo)注點(diǎn)。圖2展示了圖1中每一個毫米波雷達(dá)投影點(diǎn)的鄰域內(nèi)與圖像像素逐點(diǎn)關(guān)聯(lián)的情況。其中α投影和β投影可見,γ投影被廣告牌支柱擋住,不可見。
圖1 毫米波雷達(dá)和相機(jī)目標(biāo)檢測模型Figure 1. Millimeter wave radar and camera target detection model
圖2 毫米波雷達(dá)和相機(jī)目標(biāo)關(guān)聯(lián)模型Figure 2. Millimeter wave radar and camera target association model
數(shù)據(jù)層逐點(diǎn)關(guān)聯(lián)置信度給出了測得的毫米波雷達(dá)投影點(diǎn)與其N-鄰域內(nèi)像素具有相同深度的概率,然后可將預(yù)測的置信度轉(zhuǎn)換為一種增強(qiáng)的毫米波雷達(dá)深度表示,即生成多通道置信度增強(qiáng)深度圖。該深度圖將每個關(guān)聯(lián)置信度矩陣中高于置信度閾值的像素賦予雷達(dá)投影點(diǎn)深度值,從而得到一個增強(qiáng)的深度圖像。多通道置信度增強(qiáng)深度圖可以與圖像和毫米波雷達(dá)稀疏深度圖一起作為數(shù)據(jù)關(guān)聯(lián)引導(dǎo)的深度補(bǔ)全網(wǎng)絡(luò)的輸入,以生成密集的深度圖。
圖3為多個毫米波雷達(dá)投影點(diǎn)的樣例。其中,圖3(a)表示相機(jī)坐標(biāo)系下的毫米波雷達(dá)投影點(diǎn),圖3(b)表示對于每一個毫米波雷達(dá)投影點(diǎn)。計(jì)算N-鄰域內(nèi)像素的逐點(diǎn)關(guān)聯(lián)置信度,用陰影輪廓表示,不同顏色代表不同閾值下的深度值。圖3(c)表示毫米波雷達(dá)投影點(diǎn)深度擴(kuò)展到鄰域內(nèi)像素以此創(chuàng)建多通道置信度增強(qiáng)深度圖。在每一種情況下,與毫米波雷達(dá)投影點(diǎn)具有相似深度的鄰域圖像像素可被賦予高置信度的毫米波雷達(dá)深度值,而其余鄰域像素被賦予低置信度,并且它們的深度值在多通道置信度增強(qiáng)深度圖的通道上單獨(dú)指定。優(yōu)點(diǎn)是高置信度通道可以提供最好的預(yù)測信息,但低置信度通道也可能提供有用數(shù)據(jù),使網(wǎng)絡(luò)可以學(xué)習(xí)到每個通道的特征,繼而進(jìn)行高質(zhì)量的深度補(bǔ)全任務(wù)。
圖3 多通道置信度增強(qiáng)深度圖(a)毫米波雷達(dá)投影點(diǎn) (b)投影點(diǎn)對應(yīng)鄰域 (c)增強(qiáng)深度圖Figure 3. Multichannel confidence enhanced depth map(a)Projection points of mm wave (b)Neighborhood of projected points (c)Enhanced depth map
為實(shí)現(xiàn)彩色圖像、語義圖像、毫米波雷達(dá)深度特征和多通道置信度增強(qiáng)深度圖之間的自適應(yīng)融合,本文提出了一種在級聯(lián)沙漏網(wǎng)絡(luò)模型中對彩色圖像、語義圖像、毫米波雷達(dá)深度特征和多通道置信度增強(qiáng)深度圖應(yīng)用基于注意力的融合模型[9],如圖4所示。該模型幫助網(wǎng)絡(luò)捕捉顯著的特征圖,同時抑制不必要的特征圖,可進(jìn)一步細(xì)化不同模態(tài)特征圖之間的連接。
圖4 數(shù)據(jù)關(guān)聯(lián)引導(dǎo)的深度補(bǔ)全網(wǎng)絡(luò)Figure 4. Deep completion network guided by data association
在3種不同設(shè)置中應(yīng)用注意力融合模型。首先將其應(yīng)用于融合彩色圖像和語義引導(dǎo)模塊的中間特征圖;然后對于毫米波雷達(dá)深度圖引導(dǎo)模塊,將前面兩個分支的特征圖以及雷達(dá)稀疏深度圖進(jìn)行融合;最后對于多通道置信度增強(qiáng)深度圖引導(dǎo)模塊,將前面所有的中間特征圖進(jìn)行融合。
圖像編碼器是一個單一的收縮網(wǎng)絡(luò),包含多層下采樣卷積層,用于編碼彩色圖像的多尺度特征,然后與不同尺度的深度特征進(jìn)行協(xié)調(diào)。其可以有效處理彩色圖像中的細(xì)節(jié)和語義信息,不需要手動地對圖像進(jìn)行下采樣。圖像編碼器網(wǎng)絡(luò)是由4個不同尺度的卷積塊和ReLU激活函數(shù)組成的。輸入原始圖像,輸出4種不同尺度的特征圖像,對應(yīng)的分辨率分別為320×180、160×90、80×45以及40×22。
深度補(bǔ)全網(wǎng)絡(luò)中的每一個模塊包含4個不同尺度的編-解碼器,分別接收1/8、1/4、1/2和全分辨率的稀疏深度圖作為輸入。圖像編碼器的輸出Feature1、Feature2、Feature3和Feature4先分別與深度網(wǎng)絡(luò)的編碼器Encoder1、Encoder2、Encoder3和Encoder4進(jìn)行相加操作,然后再與深度網(wǎng)絡(luò)的解碼器Decoder1、Decoder2、Decoder3和Decoder4進(jìn)行結(jié)合,以融合多尺度圖像和深度特征。不同F(xiàn)eature和Encoder輸出結(jié)果的不同之處在于:1)Feature包含了彩色圖像中的細(xì)節(jié)和語義信息;2)而Encoder輸出結(jié)果中包含了稀疏深度圖中的結(jié)構(gòu)和語義信息。Feature可幫助深度網(wǎng)絡(luò)處理一些難以從深度圖中推斷的場景,例如光滑、明亮、透明和遠(yuǎn)處的表面,而Encoder輸出結(jié)果可以幫助深度網(wǎng)絡(luò)保持稀疏深度圖中的觀測值和約束。Feature特征和Encoder輸出結(jié)果相加可以壓縮特征通道的長度,減少計(jì)算復(fù)雜度以及提高深度補(bǔ)全的質(zhì)量和穩(wěn)定性。
彩色圖像輸入模塊的目的是學(xué)習(xí)對密集深度補(bǔ)全任務(wù)有用的顏色特征。它將彩色圖像和對齊的稀疏深度圖進(jìn)行連接,輸入到網(wǎng)絡(luò)第1個模塊中,并輸出一個深度圖和置信度矩陣。其中,將對齊的稀疏深度圖與彩色圖像連接起來,有助于預(yù)測密集深度[10]。彩色圖像輸入模塊仍是編碼器和解碼器網(wǎng)絡(luò)結(jié)構(gòu),具有跳躍連接。
語義分割模塊不僅有助于去除遮擋點(diǎn),還可幫助網(wǎng)絡(luò)理解圖像場景。僅靠彩色圖像的引導(dǎo)還不足以學(xué)習(xí)到語義特征,因此本文在深度補(bǔ)全網(wǎng)絡(luò)中提出加入語義分割圖像模塊來學(xué)習(xí)有效的語義特征。語義分割圖像模塊的輸入為彩色圖像模塊生成的深度圖、語義分割圖像和毫米波雷達(dá)稀疏深度圖的連接,并輸出一個包含顏色和語義線索的稀疏深度圖和置信度矩陣。nuScenes數(shù)據(jù)集未提供圖像的語義分割圖,因此本文利用預(yù)訓(xùn)練的Panoptic-DeepLab模型[8]在nuScenes數(shù)據(jù)集上進(jìn)行圖像的語義分割。本文將彩色圖像模塊的解碼器特征融合到語義分割圖像模塊的相應(yīng)編碼器特征中。
毫米波雷達(dá)深度圖模塊的目的是學(xué)習(xí)深度值主導(dǎo)的特征,有助于生成準(zhǔn)確的稀疏深度圖。它將彩色圖像模塊的輸出、語義分割圖像模塊的輸出和毫米波雷達(dá)深度圖的連接作為輸入,并輸出一個準(zhǔn)確的稀疏深度圖和置信度矩陣。與彩色圖像和語義分割圖像模塊的特征融合方法類似,該模塊將前兩個模塊的解碼器特征融合到毫米波雷達(dá)深度圖模塊的相應(yīng)編碼器特征中,融合起來的特征圖包含了來自前兩個模塊的有用信息,指導(dǎo)毫米波雷達(dá)深度圖模塊學(xué)習(xí)有效的深度特征表示。
多通道置信度增強(qiáng)深度圖融合模塊將置信度預(yù)測網(wǎng)絡(luò)輸出的置信度分為多個維度,作為多個通道輸入到網(wǎng)絡(luò)中。對于置信度屬于區(qū)間(0.50、0.60、0.70、0.80、0.90、0.95)的毫米波雷達(dá)深度增強(qiáng)圖,組成一個6通道的深度圖,然后輸入到多通道置信度增強(qiáng)深度圖融合模塊中。該操作的目的是利用多個預(yù)測深度值的不同置信度信息來主導(dǎo)深度的訓(xùn)練,從而在訓(xùn)練過程中提高網(wǎng)絡(luò)對于高置信度預(yù)測的關(guān)注度,將置信度信息與預(yù)測的深度值相結(jié)合,為每個像素生成一個加權(quán)的深度值,可通過對預(yù)測深度值和置信度信息進(jìn)行逐元素相乘來實(shí)現(xiàn),以此來改善網(wǎng)絡(luò)在深度補(bǔ)全任務(wù)中的性能表現(xiàn)。與前面模塊類似,將毫米波雷達(dá)深度的輸出和毫米波雷達(dá)深度的連接進(jìn)行融合,并得到最終的密集深度圖。為防止過擬合,在損失函數(shù)的計(jì)算過程中進(jìn)行正則化。在整個訓(xùn)練中同時加入權(quán)重的衰減因子(L2正則化),有助于網(wǎng)絡(luò)在測試數(shù)據(jù)上實(shí)現(xiàn)更好的泛化性能。
因?yàn)楸疚木W(wǎng)絡(luò)的各個模塊的輸入不同,所以需要對每個模塊單獨(dú)計(jì)算損失,最后再計(jì)算各個模塊損失的加權(quán)和,以優(yōu)化網(wǎng)絡(luò)訓(xùn)練。損失函數(shù)采用Focal Loss,該函數(shù)最初是為解決目標(biāo)檢測任務(wù)中的類別不平衡問題。在本文所使用的場景中,由于需要進(jìn)行深度檢測的類別并不均衡,所以該函數(shù)也可以被用于深度補(bǔ)全任務(wù),對于復(fù)雜模型來說,其效果顯著,衡量了模型預(yù)測值和實(shí)際值之間的均方誤差。為了將Focal Loss整合到深度補(bǔ)全任務(wù)中,可以按照如下步驟進(jìn)行:
步驟1定義一個基本的回歸損失函數(shù),本文計(jì)算真實(shí)值與預(yù)測值的均方誤差(Mean Squared Error,MSE)L(D真實(shí)-D預(yù)測)。然后,將損失函數(shù)轉(zhuǎn)換為一個概率分布,即將MSE損失歸一化到[0,1]范圍內(nèi)
(1)
式中,L最大表示損失的最大值。
步驟2將歸一化的損失值Pt帶入Focal Loss計(jì)算式中,同時引入調(diào)節(jié)參數(shù)γ和權(quán)重系數(shù)α,使用得到的Focal Loss作為網(wǎng)絡(luò)中每個模塊的損失函數(shù)進(jìn)行訓(xùn)練
Focal Loss(Pt)=-α×(1-Pt)γ×log(Pt)
(2)
式中,α是平滑不同深度值區(qū)間的損失權(quán)重,解決不平衡問題;γ是一個可調(diào)節(jié)參數(shù),用于控制損失函數(shù)對簡單樣本和困難樣本的關(guān)注程度。
彩色圖像模塊Loss顏色的計(jì)算使用Focal Loss,計(jì)算式為
(3)
式中,顏色代表彩色圖像模塊預(yù)測深度;真實(shí)代表激光雷達(dá)真實(shí)深度。
語義分割圖像模塊的損失函數(shù)Loss語義、毫米波雷達(dá)深度圖模塊的損失函數(shù)Loss雷達(dá)以及多通道置信度增強(qiáng)深度圖融合模塊的損失函數(shù)Loss融合計(jì)算以相同的方式計(jì)算Focal Loss。網(wǎng)絡(luò)的訓(xùn)練Loss整體是由彩色圖像模塊、語義分割圖像模塊、毫米波雷達(dá)深度圖模塊和多通道置信度增強(qiáng)深度圖模塊訓(xùn)練損失函數(shù)的加權(quán)總和,計(jì)算式為
Loss整體=
μ×Loss顏色+?×Loss語義+φ×Loss雷達(dá)+Loss融合
(4)
式中,μ、?和φ分別是彩色圖像模塊、語義分割圖像模塊和毫米波雷達(dá)深度圖模塊的權(quán)重系數(shù)。該系數(shù)為超參數(shù),通過觀察多次實(shí)驗(yàn)結(jié)果選取,若采用其他數(shù)據(jù)集,則需要進(jìn)行重新選取。
本文使用nuScenes公開數(shù)據(jù)集,在進(jìn)行數(shù)據(jù)集劃分時,將其劃分為訓(xùn)練集、驗(yàn)證集和測試集,占比分別為70%、15%和15%。為便于進(jìn)行光流圖計(jì)算,提取晴天下所有移動場景的樣本(不保存頭兩幀、最后兩幀和當(dāng)前關(guān)鍵幀4鄰域內(nèi)位移過小的幀)。訓(xùn)練集和測試集的最大深度閾值設(shè)置為60 m。本文使用32射線激光雷達(dá),并累積前后共26幀的激光雷達(dá)點(diǎn)云數(shù)據(jù)作為深度值真實(shí)標(biāo)簽,毫米波雷達(dá)幀融合前后總共9幀的點(diǎn)云數(shù)據(jù)。本文的硬件包括Intel Core i7-11700k CPU,RTX 3060 12G顯卡,內(nèi)存為128 GB。
方法設(shè)計(jì)部分的毫米波雷達(dá)投影點(diǎn)鄰域N的選取是150個像素點(diǎn),其中高度h為30,寬度w為5?;A(chǔ)的實(shí)驗(yàn)配置見前文所述。本文網(wǎng)絡(luò)訓(xùn)練使用PyTorch框架,優(yōu)化器使用Adam,其中和權(quán)重衰減10-6,batch為4,初始學(xué)習(xí)率5×10-5。此外對于訓(xùn)練中損失函數(shù)的系數(shù)初始分別設(shè)置為0.2、0.3和0.4。
本文在訓(xùn)練過程中采取多階段方案。首先將4個模塊訓(xùn)練20個epoch。然后,將前3個模塊的損失權(quán)重系數(shù)都降到0.1,再訓(xùn)練20個epoch。最后將前3個模塊的損失權(quán)重系數(shù)都降到0,只訓(xùn)練最后一個子模塊,訓(xùn)練20個epoch??墒姑總€子模塊都能充分地學(xué)習(xí)到對應(yīng)尺度的特征和深度補(bǔ)全圖。
對于本文所提方法,評估性能主要使用深度補(bǔ)全任務(wù)主流文獻(xiàn)[11~14]所使用的指標(biāo)進(jìn)行評估,包括平均絕對誤差(Mean Absolute Error,MAE)和均方根誤差(Root Mean Squared Error,RMSE)。其中,MAE主要衡量預(yù)測誤差的平均大小,數(shù)值越小,預(yù)測結(jié)果越準(zhǔn)確;RMSE對較大誤差的懲罰更嚴(yán)重,因此其更關(guān)注較大的誤差。
3.4.1 網(wǎng)絡(luò)整體性能
將本文提出的注意力引導(dǎo)的多尺度級聯(lián)深度補(bǔ)全網(wǎng)絡(luò)的性能與文獻(xiàn)[15]和文獻(xiàn)[16]中的結(jié)果進(jìn)行了對比。不同分辨率會對評估指標(biāo)有影響,本文所用分辨率為320×180,故在進(jìn)行定性比較時,將文獻(xiàn)[15]和文獻(xiàn)[16]網(wǎng)絡(luò)模型更改為與本文所提方法的圖像相匹配的分辨率,評估指標(biāo)得到的結(jié)果與原文獻(xiàn)等價(jià)。結(jié)果表明,本文的網(wǎng)絡(luò)模型在性能上優(yōu)于先前的工作。如表1所示,在nuScenes數(shù)據(jù)集上,本文所提方法與其他先進(jìn)方法相比,RMSE低0.345 m,MAE低0.330 m,為現(xiàn)有最優(yōu)結(jié)果。
表1 前期工作對比結(jié)果Table 1. Comparison with prior works
從圖5來看,本文提出的基于注意力的多尺度級聯(lián)深度補(bǔ)全網(wǎng)絡(luò)生成的密集深度圖不僅能看出物體的具體深度狀況,還具有更明顯的邊界。由圖5第2行可看出,不同車輛的深度值不同,可明顯地看出有3輛車,主要得益于多通道置信度增強(qiáng)深度圖的特征提取。由圖5第3行能看出來卡車的車身和車頭的深度值明顯不同,主要得益于彩色圖像的特征提取,將顏色信息帶入到網(wǎng)絡(luò)訓(xùn)練中。由圖5第4行能看出來路標(biāo)牌的深度值明顯不同于墻壁的深度值,主要得益于語義分割圖像的特征提取[17-18]。
圖5 網(wǎng)絡(luò)輸出定性結(jié)果(a)彩色圖像 (b)雷達(dá)投影點(diǎn) (c)深度誤差 (d)本文結(jié)果Figure 5. Qualitative result(a)RGB image (b)Projection points of radar (c)Depth errors (d)Results of this study
3.4.2 不同級聯(lián)沙漏網(wǎng)絡(luò)結(jié)構(gòu)實(shí)驗(yàn)
表2展示了不同級聯(lián)沙漏網(wǎng)絡(luò)結(jié)構(gòu)的性能比較。通過結(jié)果可知,替換當(dāng)前網(wǎng)絡(luò)模塊的任何部分都會造成網(wǎng)絡(luò)性能下降,證明本文設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)能夠有效地提取不同模態(tài)中的特征,生成高質(zhì)量的密集深度圖,并且降低了計(jì)算復(fù)雜度。
表2 不同級聯(lián)沙漏網(wǎng)絡(luò)結(jié)構(gòu)性能比較Table 2. Comparison of different cascading modules
3.5.1 多模態(tài)模塊消融實(shí)驗(yàn)
消融實(shí)驗(yàn)設(shè)計(jì)的目的是通過增刪每一個模塊來測試網(wǎng)絡(luò)性能的變化。如表3所示,語義分割圖像模塊的刪除對網(wǎng)絡(luò)性能影響最大,其次是多通道置信度增強(qiáng)深度圖模塊的刪除。因?yàn)榇嬖趫D像編碼器模塊,所以彩色圖像的輸入對網(wǎng)絡(luò)性能的影響較小。同時,因?yàn)榫W(wǎng)絡(luò)模型級聯(lián)的輸出直接輸入到下一個模塊中,所以毫米波雷達(dá)稀疏深度圖的輸入對網(wǎng)絡(luò)的影響最小。結(jié)果證明,本文提出的基于注意力的多尺度級聯(lián)深度補(bǔ)全網(wǎng)絡(luò)的性能最好,RMSE達(dá)到了2.834 m,MAE達(dá)到了1.142 m。
表3 不同模塊對網(wǎng)絡(luò)性能的影響Table 3. Comparison with different modules
3.5.2 注意力融合模塊消融實(shí)驗(yàn)
對于本文提出的注意力融合模型,需進(jìn)行消融實(shí)驗(yàn)驗(yàn)證其有效性。表4列出了本文注意力融合方法的性能比較??煽闯鲈谑褂米⒁饬θ诤夏P偷木W(wǎng)絡(luò)中,RMSE顯著提高了0.16 m,因此注意力融合方法優(yōu)于樸素的融合方法是一種更好的融合策略。
表4 不同融合方法比較Table 4. Comparison with different fusion method
本文針對交通圖像,本文提出了基于多源數(shù)據(jù)融合的深度補(bǔ)全網(wǎng)絡(luò)。該網(wǎng)絡(luò)綜合了注意力機(jī)制、多尺度信息、多模態(tài)特征引導(dǎo)策略和級聯(lián)結(jié)構(gòu),以提高深度補(bǔ)全任務(wù)的質(zhì)量。通過多尺度級聯(lián)沙漏結(jié)構(gòu),捕捉到多個模態(tài)的特征信息,逐步優(yōu)化和細(xì)化深度預(yù)測結(jié)果。實(shí)驗(yàn)結(jié)果表明,本文提出的注意力引導(dǎo)的多尺度級聯(lián)深度補(bǔ)全網(wǎng)絡(luò)在公開數(shù)據(jù)集上進(jìn)行的深度補(bǔ)全測試驗(yàn)證中達(dá)到了高于基準(zhǔn)線的性能。