尚 昊,孫立博,秦文虎
(東南大學(xué)儀器科學(xué)與工程學(xué)院,江蘇 南京 210096)
駕駛環(huán)境感知系統(tǒng)作為無人駕駛體系最基本組成部分,直接決定無人車自主駕駛的能力和智能化水平,感知系統(tǒng)一般以視覺相機為主搭配不同類別的傳感器,因此研究基于傳感器融合的感知技術(shù)至關(guān)重要。近年來,利用可見光相機和毫米波雷達融合的環(huán)境感知方案得到了越來越多的研究,文獻[1]利用方向梯度直方圖(Histogram of Oriented Gradient,HOG)和支持向量機(Support Vector Machine,SVM)獲取行人特征,與毫米波雷達檢測結(jié)果進行特征融合,對不同工況行人具有較高識別率。文獻[2]使用立體攝像機和毫米波雷達進行信息融合,利用視覺獲取近橫向物體運動信息,利用毫米波雷達獲取遠(yuǎn)縱向物體運動信息,檢測結(jié)果投影至感興趣區(qū)域(Region of Interest,ROI),再結(jié)合自身車輛運動狀態(tài)進行危險環(huán)境感知。文獻[3]在圖像行人檢測中加入主成分分析(Principal Component Analysis,PCA)降維,利用加入深度信息的目標(biāo)匹配方法實現(xiàn)毫米波雷達與機器視覺融合的行人檢測,在光線良好、視野清晰的天氣條件下具有較好的檢測效果。但對于夜晚黑暗無光的場景,可見光相機檢測效果會受到很大影響。2018年3月22日,美國一輛Uber無人車撞上一名過馬路的行人,致其死亡,這是無人車首起致人死亡事件,警方公布的視頻顯示,受害人從黑暗處突然出現(xiàn)在車輛前方,車輛閃躲不及導(dǎo)致事故發(fā)生。因此需要研究一種行人檢測方法提升目前環(huán)境感知系統(tǒng)在夜間場景的信息獲取能力。由于紅外相機獲取的是場景中的紅外輻射信息,不受光照條件影響,可在夜間場景對行人清晰成像,因此,可以使用紅外相機代替可見光相機進行夜間環(huán)境感知。
文獻[4]對車載紅外夜視技術(shù)的發(fā)展進行了研究,紅外視覺被越來越多地應(yīng)用在車輛輔助駕駛系統(tǒng)以提升行車安全性,并分析了車載紅外夜視輔助系統(tǒng)需要能夠進行全天候工作,應(yīng)對紅外行人尺度、外觀變化大以及存在遮擋等問題的挑戰(zhàn)。因此需要更好的目標(biāo)檢測算法來解決紅外行人檢測存在的問題。隨著深度學(xué)習(xí)的發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)進行目標(biāo)檢測的模型展現(xiàn)出了良好的效果,文獻[5-6]使用兩階段(two-stage)目標(biāo)檢測算法,在候選區(qū)域運行目標(biāo)分類器進行檢測,文獻[7-9]YOLO(you only look once)系列一階段(one-stage)目標(biāo)檢測算法,將目標(biāo)檢測問題轉(zhuǎn)換成回歸問題,不斷改進網(wǎng)絡(luò)模型結(jié)構(gòu)和細(xì)節(jié),提升了檢測速度、信息覆蓋度和泛化能力。文獻[10]將YOLO算法應(yīng)用于紅外圖像行人檢測,改進模型輸入分辨率取得較好效果,文獻[11]為YOLO的第四個版本在網(wǎng)絡(luò)結(jié)構(gòu)和多尺度檢測上做了進一步改進,符合紅外圖像行人尺度變化大的特征,可以用來進行紅外圖像行人目標(biāo)檢測的研究。在紅外圖像中檢測到行人目標(biāo)之后,還需要獲得行人的距離速度等信息,文獻[12]利用紅外圖像進行測距研究,10 m~70 m內(nèi)的測距絕對誤差在3米之內(nèi),70 m~110 m絕對誤差遠(yuǎn)大于3 m,而毫米波雷達在中距離絕對誤差在0.25 m之內(nèi),長距離在0.5 m之內(nèi),具有更好的測距精度,同時文獻[13]分析指出毫米波雷達以其波長短、穿透能力強、大氣衰減小、不受塵埃及惡劣天氣影響的特點具備全天候障礙物距離和速度測量的能力,因此毫米波雷達滿足與紅外相機在夜間環(huán)境進行行人檢測的條件,同時紅外圖像行人檢測結(jié)果可以彌補毫米波雷達在場景語義信息獲取能力的不足,研究兩傳感器融合感知可以實現(xiàn)優(yōu)勢互補。在視覺與毫米波雷達融合策略選擇上,文獻[14]利用卡爾曼濾波處理Mobileye和毫米波雷達匹配的目標(biāo),文獻[15]利用毫米波雷達產(chǎn)生ROI并在其中運行圖像檢測算法。由于紅外圖像測距精度不高,毫米波雷達對行人目標(biāo)進行檢測時產(chǎn)生的回波不穩(wěn)定,本文不使用這兩種融合策略。
本文提出的基于紅外相機和毫米波雷達融合的夜間行人檢測,對兩傳感器數(shù)據(jù)分別進行處理,紅外圖像處理采用改進的YOLOv4算法,毫米波雷達數(shù)據(jù)處理采用卡爾曼濾波和生命周期算法,利用紅外圖像的語義信息和雷達數(shù)據(jù)的運動狀態(tài)信息進行基于特征的融合,實現(xiàn)行人檢測;在此基礎(chǔ)上發(fā)揮毫米波雷達的運動跟蹤優(yōu)勢,提升紅外圖像對運動過程中存在遮擋的行人的檢測能力。最后通過實驗證明融合算法的有效性。
基于紅外相機和毫米波雷達融合的夜間行人檢測融合算法如圖1所示,首先進行兩傳感器原始數(shù)據(jù)的采集,并進行數(shù)據(jù)的時間配準(zhǔn),確保采集到同一時刻的場景信息,再分別處理兩傳感器數(shù)據(jù):對紅外圖像利用改進YOLO網(wǎng)絡(luò)進行行人檢測,通過檢測算法輸出的檢測框獲取行人類別信息;對場景中的毫米波雷達數(shù)據(jù)先進行基于潛在危險的目標(biāo)預(yù)處理以降低模型復(fù)雜度,再將上一個算法處理周期的雷達有效目標(biāo)與本周期數(shù)據(jù)預(yù)處理之后的目標(biāo)進行一致性匹配,匹配成功的目標(biāo)進行卡爾曼狀態(tài)估計,對于未匹配的目標(biāo),可能是場景中新出現(xiàn)的目標(biāo)也可能是已經(jīng)不在當(dāng)前場景的舊目標(biāo),對于新目標(biāo)執(zhí)行目標(biāo)生成算法來避免虛假檢測,對于仍處在生命周期內(nèi)的舊目標(biāo)進行狀態(tài)預(yù)測來避免雷達漏檢,最終獲得檢測目標(biāo)的距離和速度信息。數(shù)據(jù)處理完成之后,對兩傳感器檢測目標(biāo)進行空間匹配,將雷達坐標(biāo)系中的點投影到圖像的像素坐標(biāo)系下,基于圖像檢測框執(zhí)行目標(biāo)匹配算法,使得雷達檢測目標(biāo)帶有的距離和速度特征與檢測框中的行人類別特征進行融合,最終實現(xiàn)行人檢測。
圖1 傳感器融合算法圖
在行人運動過程中,由于紅外圖像對比度低或可能被路邊障礙物部分遮擋,圖像檢測算法可能存在漏檢導(dǎo)致沒有檢測框輸出,此時目標(biāo)匹配失敗,導(dǎo)致融合沒有結(jié)果輸出。對于這種情況,如果此時毫米波雷達檢測到行人,可以利用已經(jīng)進行過類別特征融合的毫米波檢測目標(biāo)點彌補基于圖像檢測的不足。因此在行人后續(xù)運動過程中,對圖1中的融合算法進行改進,改進模型如圖2所示。
圖2 行人運動過程算法改進模型圖
改進模型從目標(biāo)匹配開始描述,依然將檢測框中目標(biāo)與毫米波雷達目標(biāo)進行匹配,若匹配成功,進行行人類別特征和距離、速度特征融合,然后判斷當(dāng)前毫米波雷達目標(biāo)是否第一次與圖像框進行匹配,是第一次則將類別信息反饋給毫米波目標(biāo)檢測結(jié)果,毫米波檢測目標(biāo)增加一個標(biāo)志位記錄當(dāng)前目標(biāo)的類別;不是第一次匹配,則進行結(jié)果輸出。
目標(biāo)匹配成功之后,如果已經(jīng)記錄了類別信息的毫米波雷達目標(biāo)點并沒有與紅外圖像框成功匹配,則表明后續(xù)行人運動過程中存在紅外圖像漏檢,這種情況下直接用毫米波檢測的信息進行輸出,彌補紅外圖像行人檢測算法中的漏檢,這類目標(biāo)稱為雷達成功跟蹤目標(biāo)。
對融合算法中檢測目標(biāo)不同特征的選取方法進行總結(jié),如表1所示。
表1 融合特征及選取方法
本文基于YOLO網(wǎng)絡(luò)進行紅外圖像行人檢測。YOLO網(wǎng)絡(luò)的檢測策略是將輸入圖像分為7×7的網(wǎng)格,每個網(wǎng)格均進行2個檢測框的預(yù)測,且每個網(wǎng)格只預(yù)測一個類,輸出檢測框是檢測目標(biāo)的置信度以及多目標(biāo)預(yù)測概率。對于檢測目標(biāo)而言,目標(biāo)中心所在的網(wǎng)格單元負(fù)責(zé)該目標(biāo)的檢測,輸出邊界框(bounding box)并用置信度分?jǐn)?shù)(confidence)來表征邊界框是否包含目標(biāo)以及目標(biāo)位置是否正確,計算如式(1)。
式中,Pr(object)為邊界框中存在物體的概率,表示交并比(Intersection Over Union,IOU),計算如式(2)。
式中,area為圖像區(qū)域面積,PB(Prediction Box)表示預(yù)測框,GT(Ground Truth)表示真實區(qū)域。YOLO最終預(yù)測結(jié)果即為7×7×2個檢測框,再使用閾值篩選和非極大值抑制去除冗余窗口。
YOLOv3使用骨干網(wǎng)絡(luò)darknet53并加入特征金字塔網(wǎng)絡(luò)(Feature Pyramid Networks,F(xiàn)PN)結(jié)構(gòu)[16],以其良好的性能和具有普適性的網(wǎng)絡(luò)得到較為廣泛的應(yīng)用,后續(xù)基于YOLO的算法均在YOLOv3的網(wǎng)絡(luò)基礎(chǔ)上進行性能的提高。
YOLOv4將一階段目標(biāo)檢測算法分為對原始圖像進行操作的輸入層(Input),特征提取的骨干網(wǎng)絡(luò)(Backbone);負(fù)責(zé)最后的預(yù)測的頭部(head),連接Backbone和head的頸部(neck),并對各個部分在YOLOv3的基礎(chǔ)上進行改進。
YOLOv4保留了darknet53架構(gòu)并使用跨階段局部(Cross Stage Partial,CSP)[17]網(wǎng)絡(luò)結(jié)構(gòu)對骨干網(wǎng)絡(luò)進行改進。CSP網(wǎng)絡(luò)的特點是將輸入特征圖按照通道切割,只將其中一部分經(jīng)過網(wǎng)絡(luò)前向傳播,而另一部分則與前一部分經(jīng)過網(wǎng)絡(luò)的輸出結(jié)果直接進行張量拼接,因為只有一部分進入網(wǎng)絡(luò),因此參與計算的輸入量減少,模型計算量大大減少,減少了梯度信息的重復(fù)利用,也減少了內(nèi)存的消耗使得網(wǎng)絡(luò)輕量化的同時保持準(zhǔn)確性。在neck部分加入空間金字塔池化(Spatial Pyramid Pooling,SPP)[18]模塊,增加了不同尺度特征圖的特征獲取能力,同時在FPN結(jié)構(gòu)中加入路徑聚合網(wǎng)絡(luò)(Path Aggregation Network,PAN)[19]即在上采樣形成的特征金字塔之后加入一個自底向上的特征金字塔,融合了不同特征層的特征信息交給檢測層進行輸出,最大程度豐富特征信息。
YOLOv4作者公開了YOLOv4、YOLOv4-csp和YOLOv4-custom三種網(wǎng)絡(luò)配置,本文在YOLOv4網(wǎng)絡(luò)的基礎(chǔ)上進行模型訓(xùn)練并進行部分細(xì)節(jié)改進。
激活函數(shù)的選擇對卷積神經(jīng)網(wǎng)絡(luò)非常重要,為了使網(wǎng)絡(luò)梯度變化更為平滑從而得到更精確的檢測效果,本文使用Swish函數(shù)[20]代替YOLOv4骨干網(wǎng)絡(luò)中的激活函數(shù)Mish,Swish函數(shù)具有零時的單側(cè)有界性,平滑性和非單調(diào)性,表達式如式(3)。
而Mish函數(shù)允許一部分負(fù)梯度流入,使得神經(jīng)網(wǎng)絡(luò)接收更多的信息,在骨干網(wǎng)絡(luò)之外,本文使用Mish代替Leaky ReLU,Mish函數(shù)如式(4)
YOLOv4網(wǎng)絡(luò)處理檢測結(jié)果中存在的多余或者錯誤的目標(biāo)候選框時采用greedy_nms進行非極大值抑制算法,算法使用式(2)計算IOU,這種計算方法對于兩個檢測框重疊的不同情況無法進行區(qū)分,為了解決這個問題,本文的非極大值抑制算法采用DIOU[21]計算檢測框的交并比,DIOU既考慮了檢測框的重疊面積又考慮了尺寸和中心點的距離,計算如式(5)
式中,ρ(b,bmax)表示當(dāng)前檢測框(b)與最大概率檢測框(bmax)中心的歐氏距離,c表示兩個檢測框最小外接矩形的對角線長度。
由于改變了backbone中的激活函數(shù),本文將改進后的YOLOv4網(wǎng)絡(luò)稱為YOLOv4_Swish,結(jié)構(gòu)如圖3所示。圖中DBM(Darknet,Batch normalization,Mish)部分在原YOLOv4網(wǎng)絡(luò)中為DBL(Darknet,Batch normalization,Leaky ReLU),DBL對應(yīng)卷積,批量歸一化以及Leaky ReLU激活函數(shù),DBM則對應(yīng)卷積,批量歸一化以及Mish激活函數(shù)。網(wǎng)絡(luò)結(jié)構(gòu)中DBS(Darknet,Batch normalization,Swish)與CSPx即為backbone部分,CSPx代表CSP模塊,內(nèi)部有x個殘差單元,DBS對應(yīng)卷積,批量歸一化以及Swish激活函數(shù)。YOLOv4的backbone中最小單元均為DBM,而在YOLOv4_Swish中替換為DBS。
圖3 YOLOv4_Swish網(wǎng)絡(luò)結(jié)構(gòu)
毫米波雷達能夠?qū)鼍爸械拈L距離和中距離各種類型障礙物進行檢測,對于駕駛車輛來說,存在潛在危險的障礙物主要為距離較近和運動的物體,因此為了降低數(shù)據(jù)處理的復(fù)雜度,在避免碰撞潛在危險障礙物的基礎(chǔ)上進行雷達數(shù)據(jù)的預(yù)處理。在雷達檢測的角度范圍內(nèi),從檢測邊緣開始,每一個小角度θ之內(nèi)選取距離最近的障礙物,從雷達原始檢測目標(biāo)中過濾掉與該障礙物距離超過閾值dθ的靜止障礙物,運動物體保留,如圖4所示。
圖4 雷達數(shù)據(jù)預(yù)處理示意圖
由于雷達測量存在著誤差,為獲取更準(zhǔn)確的行人運動信息需要對雷達數(shù)據(jù)進行濾波處理,本文建立了三階卡爾曼濾波模型對行人運動的x和y方向的運動狀態(tài)進行處理,取x方向進行說明。
首先對行人運動這一連續(xù)過程建立系統(tǒng)的連續(xù)狀態(tài)方程,如式(6)。
式中,X=[x(t),v(t),a(t)]T表示連續(xù)時間域狀態(tài)向量,A為狀態(tài)矩陣,B為噪聲驅(qū)動矩陣,u表示系統(tǒng)噪聲。
對該連續(xù)時間域運動過程按照毫米波雷達采樣間隔進行離散化處理,取檢測障礙物x方向的相對距離、x方向相對速度和x方向的相對加速度作為系統(tǒng)狀態(tài)向量Xk=[xk,vk,ak]T,取x方向的測量距離作為觀測向量Zk=[x′k]T。
建立系統(tǒng)從第k次探測周期向第k+1周期變化的系統(tǒng)狀態(tài)方程如式(7)。
根據(jù)精確離散方法,式中:Φ為狀態(tài)轉(zhuǎn)移矩陣,G為系統(tǒng)的噪聲驅(qū)動矩陣,ωk為采樣周期k的過程噪聲。
建立系統(tǒng)觀測方程如式(8)。
本文取x方向距離為觀測值,H為量測矩陣,Vk+1代表距離的測量噪聲。
對該過程使用卡爾曼濾波算法處理方法如下:
再計算先驗誤差的協(xié)方差矩陣并進行更新。
式中,QK表示系統(tǒng)過程噪聲的方差,然后進行卡爾曼增益的計算,更新卡爾曼增益。
式中,Rk+1表示測量噪聲的方差,利用以上參數(shù)進行第k+1采樣周期障礙物運動狀態(tài)的最優(yōu)估計。
計算新的最優(yōu)估計的誤差的協(xié)方差矩陣并進行更新。
更新最優(yōu)狀態(tài),并重復(fù)上述過程進行新一周期的狀態(tài)最優(yōu)估計。算法初次運行時以觀測值作為初始值。
為了確定相鄰兩個檢測周期中雷達目標(biāo)的對應(yīng)關(guān)系,需要進行目標(biāo)一致性匹配[22],利用當(dāng)前狀態(tài)信息依據(jù)式(9)進行下一周期目標(biāo)狀態(tài)的預(yù)測,比較預(yù)測值與測量值之間的差距,選擇滿足縱向距離變化dy,橫向距離變化dx,速度變化dv在閾值范圍內(nèi)的目標(biāo)為同一障礙物,如式(14)。
利用目標(biāo)一致性匹配規(guī)則進行雷達檢測目標(biāo)匹配,對不同匹配結(jié)果依據(jù)生命周期算法[23]進行處理,對于能匹配的檢測目標(biāo),將當(dāng)前幀雷達觀測值與前一幀的算法估計值輸入卡爾曼濾波器進行狀態(tài)估計。對于不能匹配的檢測目標(biāo),若為新出現(xiàn)的目標(biāo),進行目標(biāo)生成過程,連續(xù)三次采樣均出現(xiàn)的目標(biāo)才認(rèn)為是真實的新目標(biāo);若為當(dāng)前幀未檢測出的上一場景舊目標(biāo),如果連續(xù)檢測丟失次數(shù)在閾值之內(nèi),則利用式(9)進行預(yù)測并輸出結(jié)果,并更新生命周期值,否則認(rèn)為目標(biāo)已經(jīng)消失。最終完成毫米波雷達對當(dāng)前場景障礙物目標(biāo)的檢測輸出。
進行傳感器數(shù)據(jù)融合的基礎(chǔ)是能將同一場景時刻的毫米波雷達的檢測數(shù)據(jù)點投影在紅外圖像上,然后結(jié)合紅外圖像的檢測結(jié)果進行分析,因此需要對傳感器檢測結(jié)果進行時空匹配。
由于傳感器的采樣頻率不同,采用雷達進行采樣后觸發(fā)相機采樣的方法完成時間配準(zhǔn),保存該時刻的傳感器信息進行數(shù)據(jù)處理。
為實現(xiàn)空間匹配,需將毫米波雷達坐標(biāo)系下的障礙物檢測結(jié)果先轉(zhuǎn)換至紅外相機坐標(biāo)系,這一步可以利用相機外參矩陣進行平移和旋轉(zhuǎn)操作,再利用相機成像模型最終轉(zhuǎn)移至像素坐標(biāo)系。以相機成像平面為xy平面,垂直于該平面為z方向,則坐標(biāo)轉(zhuǎn)換可表示為式(15):
式中,(u,v)表示圖像中的像素坐標(biāo)值,Zc為障礙物點在相機坐標(biāo)系下的Z坐標(biāo),R為3×3的旋轉(zhuǎn)矩陣、T為3×1的平移矩陣,(Xm,Ym,Zm)為毫米波雷達坐標(biāo)系下障礙物坐標(biāo),fx,fy,u0,v0均為相機內(nèi)參。根據(jù)實際安裝情況進行外參測量,實現(xiàn)雷達坐標(biāo)系到像素坐標(biāo)系的轉(zhuǎn)換。
由于兩傳感器安裝的相對位置(如圖5所示),毫米波雷達檢測行人的檢測點投影到圖像上一般處于行人障礙物的中間部位,因此目標(biāo)匹配算法從檢測框的中心點出發(fā)尋找與之匹配的毫米波雷達檢測點,由于行人障礙物細(xì)長的形狀特點,以檢測框?qū)挾葹橐罁?jù)進行匹配,匹配距離限制在閾值dlimit之內(nèi),閾值計算方法如式(16)。
式中,γ為閾值系數(shù),使用閾值系數(shù)考慮了距離遠(yuǎn)近帶來的尺度變化問題[24],測試時γ取值為1.4,Wbox為檢測框的寬度的一半,匹配時選取與檢測框中心歐式距離最近的雷達點與圖像目標(biāo)進行匹配。
如果兩傳感器目標(biāo)匹配成功,則依據(jù)表1對檢測目標(biāo)特征進行選取,輸出融合結(jié)果;如果圖像成功檢測目標(biāo),但是雷達無檢測目標(biāo)結(jié)果,則以圖像目標(biāo)檢測框的中心點作為行人位置的表征點,將該點依據(jù)式(15)轉(zhuǎn)換至雷達坐標(biāo)系,即可得到該像素點對應(yīng)雷達坐標(biāo)系中的物理坐標(biāo),從而得到目標(biāo)的位置信息,同時借助連續(xù)視頻幀計算行人運動速度信息,以圖像檢測結(jié)果為最終輸出結(jié)果;如果雷達實現(xiàn)了目標(biāo)跟蹤,紅外圖像檢測框并未輸出,則以雷達檢測結(jié)果作為融合結(jié)果輸出,雷達模塊依據(jù)圖2所示方法流程記錄類別信息,彌補紅外漏檢。
場景信息系統(tǒng)借助百度Apollo智能移動平臺搭建,如圖5所示。紅外相機選用XCore LA3110非制冷紅外機芯組件,毫米波雷達為Delphi ESR雷達,車載電源統(tǒng)一為設(shè)備供電;車載計算機使用ROS操作系統(tǒng)接收紅外相機數(shù)據(jù)和雷達檢測數(shù)據(jù)并執(zhí)行本文所述算法。
圖5 采集系統(tǒng)設(shè)備圖
在道路場景中利用紅外相機進行夜晚行人數(shù)據(jù)采集,采集1 698張高質(zhì)量紅外圖像并進行標(biāo)注制作數(shù)據(jù)集,其中1 197張為訓(xùn)練集,501張為測試集對網(wǎng)絡(luò)模型進行訓(xùn)練和評價,實驗環(huán)境如表2所示。
表2 紅外圖像行人檢測實驗環(huán)境介紹
在目標(biāo)檢測領(lǐng)域使用平均準(zhǔn)確率(Average Precision,AP)對模型進行評價。利用式(2)計算檢測值與真實值之間的比值IOU,以IOU為評價標(biāo)準(zhǔn)將檢測結(jié)果分為真正例(true positives,TP)、假正例(false positives,F(xiàn)P)和假反例(false negatives,F(xiàn)N),TP表示IOU≥閾值的檢測結(jié)果的數(shù)量,F(xiàn)P表示IOU<閾值的檢測結(jié)果的數(shù)量,F(xiàn)N表示IOU為0的檢測結(jié)果的數(shù)量。據(jù)此計算模型的精度(Precision)和召回率(Recall),如式(17)、(18)所示。
平均準(zhǔn)確率綜合考慮精度和召回率,調(diào)整閾值從0%~100%,計算不同閾值時對應(yīng)的Precision和Recall值,并以此繪制Precision-Recall曲線,計算曲線與x軸之間的面積,如式(19)。
使用不同算法應(yīng)用于本文的數(shù)據(jù)集,分別計算平均準(zhǔn)確率,如表3所示。
表3 不同模型方法平均準(zhǔn)確率對比
可以看出本文使用的改進方法YOLOv4_Swish相比YOLOv4算法可以更準(zhǔn)確檢測出行人目標(biāo),相比使用傳統(tǒng)機器學(xué)習(xí)的方法在圖像行人特征提取上具有更好的效果,適用于本文融合算法中紅外圖像數(shù)據(jù)處理部分。
在校園環(huán)境下利用可見光相機和紅外相機進行夜間視頻的同步采集并運行目標(biāo)檢測網(wǎng)絡(luò),通過對比可以明顯看出紅外相機在夜間環(huán)境具有明顯優(yōu)勢,圖6(a)為可見光相機拍攝視頻中截取的一幀,圖6(b)為紅外相機拍攝視頻中截取的相似時刻的一幀圖像。
圖6 夜間環(huán)境檢測效果對比
圖6中可見光圖像行人檢測采用YOLOv4模型公開的權(quán)重和網(wǎng)絡(luò)配置,紅外圖像行人檢測采用本文YOLOv4_Swish網(wǎng)絡(luò)及訓(xùn)練的模型權(quán)重,驗證了夜間場景紅外圖像行人檢測具有良好的效果。
為了說明毫米波雷達對運動行人的檢測能力,統(tǒng)計單個行人在信息采集系統(tǒng)的左前方從縱向距離3米行走至縱向距離83 m運動過程的雷達檢測數(shù)據(jù)(原始數(shù)據(jù)沒有檢測到目標(biāo)時以0表示檢測結(jié)果),并使用1.3節(jié)的方法對雷達原始數(shù)據(jù)進行處理,結(jié)果如圖7所示。
圖7 濾波算法處理前后雷達目標(biāo)距離數(shù)據(jù)
圖7中的橫坐標(biāo)為雷達采樣的周期數(shù),縱坐標(biāo)為距離,單位為米。圖7(a)為原始數(shù)據(jù),圖7(b)為處理之后的數(shù)據(jù)。原始數(shù)據(jù)中有很多檢測距離為0的點,這是由于雷達檢測行人的回波不穩(wěn)定出現(xiàn)目標(biāo)漏檢,1 098個原始數(shù)據(jù)點中出現(xiàn)613次漏檢,如果以原始數(shù)據(jù)作為雷達模塊檢測結(jié)果,雷達目標(biāo)檢測成功率低,導(dǎo)致融合結(jié)果中缺失雷達數(shù)據(jù),無法從雷達數(shù)據(jù)結(jié)果中獲取目標(biāo)的運動信息,只能以紅外圖像檢測結(jié)果作為融合結(jié)果;同時,如果雷達檢測結(jié)果中存在較多漏檢,則在紅外圖像漏檢時,雷達無法起到補充作用,對已融合目標(biāo)難以進行跟蹤,導(dǎo)致融合算法檢測成功率降低。
采用雷達數(shù)據(jù)處理算法時,設(shè)置生命周期算法中允許最大連續(xù)檢測丟失次數(shù)為15(15個雷達采樣周期,0.75 s),這考慮到了系統(tǒng)的實時性要求。由處理結(jié)果圖表明,雷達數(shù)據(jù)處理算法能夠?qū)βz目標(biāo)進行較好的預(yù)測,應(yīng)用數(shù)據(jù)處理算法后,只存在129組漏檢數(shù)據(jù),對于縱向距離在50 m以內(nèi)的行人目標(biāo)能夠進行較為準(zhǔn)確的連續(xù)檢測,50 m以上實現(xiàn)部分連續(xù)檢測,預(yù)測距離數(shù)據(jù)能夠與目標(biāo)運動趨勢相符合。
行人檢測融合算法的重點是將毫米波雷達的檢測目標(biāo)點與紅外圖像中的行人進行目標(biāo)匹配,典型匹配結(jié)果如圖8所示,圖中的行人檢測框為YOLOv4_Swish算法檢測,圓點為雷達檢測目標(biāo)點。
圖8 目標(biāo)匹配結(jié)果圖
從匹配結(jié)果可以看出,對于稀疏行人,雷達檢測目標(biāo)具備匹配點,對于并排行走的密集行人只有一個目標(biāo)匹配點,這是受到Delphi ESR雷達在中距離多目標(biāo)辨別能力限制(多目標(biāo)辨別距離1.3 m)。因此進行目標(biāo)匹配實驗時,綜合考慮雷達的檢測范圍和多目標(biāo)辨別能力,在雷達可檢測的角度范圍內(nèi),選取稀疏行人場景計算兩傳感器檢測目標(biāo)的匹配準(zhǔn)確率。
在校園道路進行目標(biāo)匹配算法重復(fù)實驗,以紅外圖像中成功檢測的行人為基礎(chǔ),統(tǒng)計與之成功匹配的毫米波雷達目標(biāo)點。表4中實驗組1為中距離單人行走場景,實驗組2包含較多遠(yuǎn)距離行人目標(biāo),實驗組3、4為稀疏多行人場景,選取雷達檢測效果較好的檢測范圍內(nèi)的目標(biāo)進行統(tǒng)計,以紅外圖像檢測框為基準(zhǔn),計算有多少個雷達點與紅外圖像框能夠匹配成功,并計算匹配成功率。
表4 行人特征融合目標(biāo)匹配準(zhǔn)確率
實驗結(jié)果如表4所示,總體目標(biāo)匹配成功率為89.1%,達到了良好的效果,具備了后續(xù)行人運動過程改進融合算法的實驗基礎(chǔ)。
分析之前的夜間紅外圖像行人檢測實驗,紅外圖像漏檢的行人主要特點為行人與背景環(huán)境對比度低或者行人存在遮擋,因此在具備這樣特點的場景下進行改進融合算法的實驗,證明毫米波雷達對紅外圖像行人檢測總體檢測率的提升。
圖9(a)、9(b)為夜間行人與背景環(huán)境對比度低導(dǎo)致行人檢測不穩(wěn)定的場景示意圖;圖9(c)、9(d)為行人運動過程存在部分遮擋示意圖,圖9(c)的行人在運動至圖9(d)的時刻被路邊障礙物遮擋,紅外圖像檢測算法并沒有檢測出目標(biāo)。因此在圖9(b)和圖9(d)的場景中,雷達檢測結(jié)果作為行人檢測的最終輸出結(jié)果,提升了紅外視覺檢測能力。
圖9 運動過程行人融合檢測
在校園道路進行夜間駕駛環(huán)境行人檢測重復(fù)實驗,實驗中包括上述紅外視覺檢測不穩(wěn)定的場景,也包括多人并排行走的場景,分別使用視覺、雷達和融合的方法對場景中的行人進行檢測,檢測結(jié)果如表5所示。
表5 不同方法檢測結(jié)果
從表5可以看出,傳感器融合方案能夠在一定程度克服傳感器弊端,提升單傳感器檢測成功率,傳感器融合的方案總體上具備較好的夜間環(huán)境行人檢測能力。
如表6所示,從不同傳感器方案角度出發(fā)分析紅外相機和毫米波雷達融合的夜間行人檢測效果。相對可見光相機和毫米波雷達融合的方案,紅外相機在夜間行人檢測表現(xiàn)出了更好的性能;相比紅外相機和毫米波雷達單獨檢測方案,傳感器融合方案解決了毫米波雷達語義信息缺失和紅外相機測距測速不準(zhǔn)確的問題。
表6 不同傳感器方案檢測對比
從目標(biāo)特征檢測方法進行分析,與文獻[1]相比,本文使用YOLOv4_Swish進行特征提取,相比HOG+SVM特征提取效果更好;與文獻[3]相比,本文在特征融合的基礎(chǔ)上做了進一步改進,達到利用毫米波雷達提升紅外圖像檢測成功率的效果。與文獻[12]相比本文不使用紅外測距,使用測距測速精度高的毫米波雷達檢測行人運動信息;與文獻[15]相比,由于毫米波雷達對行人檢測不如汽車穩(wěn)定,本文不適合使用毫米波雷達生成ROI再運行圖像處理的算法,而是采用兩傳感器分別處理再進行基于特征的融合方法。
本文采用的基于紅外相機和毫米波雷達融合算法,既發(fā)揮了視覺傳感器在目標(biāo)類別特征獲取的優(yōu)勢,又發(fā)揮了毫米波雷達在目標(biāo)運動狀態(tài)特征獲取的優(yōu)勢。采用YOLOv4_Swish處理紅外圖像提升了模型的平均準(zhǔn)確率,相比傳統(tǒng)方法得到更為精確的行人檢測結(jié)果,再利用毫米波雷達提升紅外圖像在行人存在遮擋等場景下的檢測成功率。實驗結(jié)果表明,應(yīng)用本文的行人檢測方案能夠提升駕駛員和行人夜間出行的安全性。相比目前自動駕駛環(huán)境感知方案的主流傳感器可見光相機和激光雷達,紅外相機和毫米波雷達在煙塵等惡劣天氣具有更強的抗干擾能力,如何利用本文傳感器方案克服目前主流傳感器的弊端也是后續(xù)重要的研究內(nèi)容。