張炳力,詹葉輝,潘大巍,程 進,宋偉杰,劉文濤
(1. 合肥工業(yè)大學汽車與交通工程學院,合肥 230041;2. 安徽省智能汽車工程實驗室,合肥 230009;3. 合肥長安汽車有限公司,合肥 230031)
環(huán)境感知作為關鍵技術之一,主要是通過雷達、攝像頭等傳感器獲取車輛周圍的環(huán)境信息,是實現(xiàn)智能駕駛的前提和基礎。在環(huán)境感知系統(tǒng)中,前向車輛識別是關鍵,準確可靠的前向車輛識別結果對智能汽車的安全行駛意義重大[1]。
目前廣泛使用的道路環(huán)境感知設備主要有攝像頭、毫米波雷達和激光雷達等。但由于單一傳感器不能全面、精確地對車輛周圍所有環(huán)境信息進行采集,因此往往采用兩種以上感知設備進行信息融合。多傳感器信息融合技術可以實現(xiàn)各傳感器優(yōu)勢互補,最大程度采集環(huán)境信息,提升環(huán)境感知系統(tǒng)的可靠性、實時性和抗干擾能力。綜合各傳感器的優(yōu)劣,本文中選擇攝像頭和毫米波雷達進行數(shù)據(jù)融合,完成前向車輛識別。
Zhang 等[2]使用毫米波雷達檢測障礙物的位置和速度,圖像處理模塊通過深度學習,使用邊框回歸算法精確定位和識別障礙物。Kim 等[3]提出了一種基于目標運動狀態(tài)及形狀特征的車輛識別方法,通過毫米波雷達和攝像頭分別采集目標的運動狀態(tài)和形狀特征,從而識別前向車輛,并應用于自動緊急制動系統(tǒng)。Chang 等[4]提出了一種利用毫米波雷達和視覺傳感器進行障礙物檢測的空間注意融合(SAF)方法,考慮了雷達點的稀疏性,并可以嵌入特征提取階段,有效地利用了毫米波雷達和視覺傳感器的特性。孫青[5]針對目標跟蹤中系統(tǒng)噪聲的統(tǒng)計特性未知或時變的問題,結合傳統(tǒng)的Sage?Husa自適應濾波算法和平方根濾波思想,提出改進的線性自適應平方根卡爾曼濾波算法實現(xiàn)目標狀態(tài)預估。王戰(zhàn)古等[6]使用深度置信網(wǎng)絡對車輛進行初步識別,并根據(jù)車型寬度和高度統(tǒng)計數(shù)據(jù)驗證識別結果,在多種惡劣道路環(huán)境下取得了良好的識別效果。
綜上所述,目前大多數(shù)方法只是根據(jù)毫米波雷達檢測結果在圖像中生成假設目標區(qū)域,再利用視覺方法對假設目標區(qū)域進行檢測,這類方法在一定程度上降低了雷達的誤檢率和視覺檢測的運算量,但并未考慮雷達漏檢等情況,在輸出檢測結果時,也沒有對兩種傳感器進行更深一步的信息互補,融合的效果一般。
鑒于此,本文中提出了一種基于毫米波雷達和機器視覺融合的車輛識別方法。該方法首先利用毫米波雷達和攝像頭分別獲取初步識別結果,然后搭建數(shù)據(jù)融合模型實現(xiàn)兩傳感器檢測目標匹配,利用擴展的卡爾曼濾波算法進行多目標跟蹤,提高識別穩(wěn)定性。最后通過試驗驗證車輛識別算法的有效性,并對其穩(wěn)定性和環(huán)境適應性進行驗證。
目前主要有3 類傳感器融合方法:數(shù)據(jù)級、目標級和決策級融合。其中,目標級融合的主要思路是:首先單傳感器獲得各自的檢測目標,然后融合算法綜合分析檢測目標,最終得到符合融合策略的目標。目標級融合能夠充分利用單傳感器的優(yōu)勢,提升系統(tǒng)魯棒性,因此,本文中采取目標級傳感信息融合方法。
融合算法架構如圖1 所示,主要由雷達處理模塊、視覺處理模塊和融合模塊3部分組成。雷達處理模塊從毫米波雷達獲得的原始數(shù)據(jù)中篩選出潛在的車輛目標,視覺處理模塊從攝像頭拍攝的圖像中獲取視覺檢測信息,融合模塊根據(jù)檢測框交并比和全局最近鄰數(shù)據(jù)關聯(lián)(GNN)算法[7]等綜合雷達、視覺方法的檢測結果,完成目標級的傳感器信息融合。
圖1 融合算法整體架構
毫米波雷達原始數(shù)據(jù)中包含大量靜止目標,這些目標通常不會對自車行駛造成危險,而所需識別的車輛目標一般為動態(tài),據(jù)此可以設置處理策略,完成車輛目標的篩選。雷達處理模塊中采用分層聚類算法[8]來過濾無效目標,算法的具體流程如圖2 所示,其中λ為雷達自身測速誤差。
圖2 分層聚類算法
通過該算法可以把原始數(shù)據(jù)分成n個子簇。其中靜止目標由于速度都為0,皆被歸為同一個子簇,把它刪除,即可獲得n- 1個動態(tài)目標。由于采用的是相對速度進行判斷,在自車速度未知的條件下,該算法仍可有效完成靜態(tài)目標的過濾,提取出所需的動態(tài)目標,具有較好的穩(wěn)定性。圖3(a)為原始雷達數(shù)據(jù),圖3(b)為經(jīng)過算法處理后的雷達數(shù)據(jù)??梢钥闯?,分層聚類算法有效去除了靜止目標,提升了雷達模塊輸出結果的可信度。
圖3 原始雷達數(shù)據(jù)和處理后的數(shù)據(jù)
視覺處理模塊基于YOLO v2[9]算法改進而來,YOLO[10]系列算法是Redmon 等人在2016 年提出的一種端到端(end to end)的視覺卷積神經(jīng)網(wǎng)絡方法,其在視覺檢測方面具備較好的實時性和準確性。
后續(xù)版本的YOLO算法是在最開始的v1版本上改進而來,因此這里以最初的YOLO v1 為例介紹YOLO算法的工作原理。
YOLO v1將待檢測的圖像分成大小相同的S×S的單元格(grid cell),每一個單元格將負責檢測中心落在其區(qū)域內的目標。假設網(wǎng)絡需要對C類目標進行檢測,每個單元預測出B個目標包圍框(bounding box)及其置信度(x,y,w,h,c),網(wǎng)絡的輸出為S×S×(5×B+C)大小的向量。其中,(x,y)表示目標包圍框的中心點位置;(w,h)表示目標包圍框的寬和高;c代表預測的目標包圍框中包含物體的置信度(confidence)。
每個單元格預測目標類別的條件概率為Pr(Classi|Object),i= 1,2,…,C,位于同一個單元格中的B個目標包圍框共享該條件概率。在測試時,將網(wǎng)格預測的條件概率分別和該網(wǎng)格中目標包圍框預測的置信度相乘,即可獲得每個目標包圍框中存在物體的類別置信度。設置閾值過濾掉置信度較低的目標包圍框,對剩余的目標包圍框進行非極大值抑制(non?maximum suppressio,NMS)處理,即可得到最終的檢測結果。
YOLO v2 在v1 版本的基礎上進行了部分改進,提升了算法的識別速度和精度,但直接用于車輛檢測仍有以下不足:YOLO v2 采用13×13 的特征圖進行預測,在車輛目標較小時,無法穩(wěn)定識別目標;YOLO v2 的高實時性需要配置較高的硬件設備,目前車載設備性能有限,直接采用YOLO v2網(wǎng)絡,無法達到車輛識別的高實時性。
針對上述問題,對YOLO v2做了如下改進。
(1)刪減卷積層:YOLO v2 使用Darknet-19 卷積網(wǎng)絡進行目標特征提取,該網(wǎng)絡對于單一類別的目標識別略顯復雜,本文主要檢測前方車輛,因此在保證識別精度的前提下,對Darknet-19進行修改,刪減部分卷積層,降低網(wǎng)絡復雜度,提高車輛的識別速度。
(2)使用多尺度檢測:在卷積神經(jīng)網(wǎng)絡中,網(wǎng)絡較低的層次其感受野尺寸較小,所表征的特征語義信息較少,特征圖分辨率高,幾何細節(jié)表征能力強,適用于檢測小目標。網(wǎng)絡較高的層次則有較大的感受野,特征語義信息豐富,但是特征圖分辨率較低,對幾何細節(jié)的表征能力較差,適用于大目標提取,并在有陰影或目標遮擋時,也能識別目標,具有較強的魯棒性。因此,使用多尺度目標檢測,可以同時獲取幾何細節(jié)和大目標語義信息,實現(xiàn)對不同距離、不同狀態(tài)的前方車輛識別。
基于上述策略對YOLO v2進行優(yōu)化后獲得了改進的YOLO v2 網(wǎng)絡,網(wǎng)絡輸入為416×416×3 的圖片,具體結構如表1所示。
改進的YOLO v2網(wǎng)絡將用于特征提取的卷積層縮減為8 層,使整個網(wǎng)絡的復雜度和運算量顯著減少;并在11 層和17 層中分別使用13×13 和26×26 兩種尺度的特征圖進行目標檢測,增加了對遠處小目標車輛的檢測能力。
表1 改進YOLO v2網(wǎng)絡結構
在對多傳感器進行融合時,首先需要進行傳感器空間同步,即將不同傳感器坐標系的測量值轉換到同一個坐標系中。毫米波雷達與攝像頭的空間坐標系轉換公式為
式中:Zc表示點在攝像頭坐標系下的縱坐標;(u,v)表示在像素坐標系下投影點的坐標;dx、dy表示像素點在圖像坐標系下x軸和y軸上的單位長度;(u0,v0)表示攝像頭主點偏移量;f為焦距;R、t分別表示旋轉矩陣和平移向量;M為投影矩陣。
利用上述公式可以將雷達檢測目標投影到圖像上,從而獲得雷達檢測的目標包圍框。同時,經(jīng)過標定獲得傳感器內外參數(shù)后,可以將圖像投影到雷達掃描平面,從而計算出像素在該平面的坐標,最終獲得攝像頭檢測目標的位置信息。由于攝像頭的檢測結果為矩形框,而雷達坐標系下的檢測結果為點,為準確表示出視覺有效目標在雷達坐標系中的坐標,從而獲得攝像頭檢測到的目標位置,本文選取視覺檢測框的底邊中點作為目標的位置點。
獲得雷達目標和視覺目標之后,首先為每個雷達目標以檢測點為中心,建立寬2.6 m、高2 m 的矩形包圍框,將所有包圍框基于距離和相似原理投影到圖像上。設雷達和攝像頭對某一目標的矩形檢測框分別為Rradar、Rcamera,Rradar與Rcamera所包圍的總面積為Sunion,重合區(qū)域的面積為Sintersection,則交并比IOURC為Sintersection與Sunion的比值,IOURC的計算公式為
參考相關文獻[11],并經(jīng)測試與分析,當IOURC∈[0.6,1]時,雷達和攝像頭都可識別同一目標車輛,且識別結果基本匹配,具有較好可靠性。由于在此種狀態(tài)下,攝像頭獲取的目標位置信息較為精準,故將攝像獲取的目標橫向位置與雷達檢測的目標其他狀態(tài)參數(shù)綜合并輸出。
當IOURC的值不在上述范圍時,無法判斷識別的準確性,由于通過“幀差法”可以獲得攝像頭對目標速度的檢測結果,在忽略目標的加速度等信息,僅考慮目標位置和速度的前提下,利用數(shù)據(jù)關聯(lián)的方法對剩下無法匹配的雷達和攝像頭檢測數(shù)據(jù)進行處理,將兩者的檢測數(shù)據(jù)視為雷達在連續(xù)兩個采樣周期下獲得的兩幀數(shù)據(jù),即看作單一傳感器的數(shù)據(jù)關聯(lián)問題。
本文中采用全局最近鄰(GNN)數(shù)據(jù)關聯(lián)算法,該算法在綜合考慮整體的關聯(lián)代價后,選取總代價最低的關聯(lián)方案,較為符合實際工況,且計算量較小。
設雷達和攝像頭剩余有效目標個數(shù)分別為m和n,目標到坐標原點的距離為dkr、dkc,將其按距離大小排序并存入對應的有效目標矩陣R、C,將雷達檢測值作為航跡,攝像頭檢測值作為量測。設vij(k)為k時刻航跡i與量測j的殘差,其計算公式為
式中H表示狀態(tài)轉移矩陣。
航跡i與量測j的歸一化距離d2ij表示為
式中:S-1ij(k)表示vij(k)的協(xié)方差矩陣。設Gi表示航跡i的門限值,當滿足d2ij≤Gi時,認為量測j落入航跡i的門限內,可以進行匹配,同時航跡和量測的匹配需滿足以下約束條件:
即每個航跡最多匹配一個量測,每個量測對應一個航跡。
GNN算法中的代價函數(shù)定義為
式中cij表示代價,計算公式為
通過上述公式可得出GNN 算法的代價函數(shù),即可完成剩余雷達和攝像頭目標的匹配,從而實現(xiàn)雷達和攝像頭的信息融合。目標匹配成功后,對雷達和攝像頭檢測到的目標位置進行加權處理,將加權后的目標位置和雷達檢測的其他信息綜合后輸出,加權策略為
式中δcx、δcy、δrx、δry分別表示攝像頭和雷達檢測的目標位置在x、y方向的平均誤差。
傳感器信息融合完成后,需要對融合目標進行存在性判斷,采用擴展卡爾曼濾波(EKF)算法跟蹤融合目標,根據(jù)跟蹤結果得到最終的輸出目標。
融合目標的狀態(tài)向量為
式中x、y、vx、vy分別表示目標的縱向坐標、橫向坐標、縱向速度和橫向速度。
EKF的狀態(tài)方程和觀測方程為
式中:X(k)、X(k- 1)分別表示目標在k、k- 1 時刻的狀態(tài)向量;Z(k)表示目標在k時刻的觀測向量;f、h表示狀態(tài)轉移矩陣;V(k)、W(k)表示高斯白噪聲。
基于k- 1時刻的目標狀態(tài),可以預測出目標在k時刻的狀態(tài)為
最終更新得到目標的狀態(tài)信息為
圖4 目標決策方法
本文中使用的車輛數(shù)據(jù)集為自主采集并標注獲得,數(shù)據(jù)集共有5 861 張圖片,并按照8∶1∶1 的比例劃分為訓練集、驗證集和測試集,網(wǎng)絡的訓練和測試在如表2所示配置的工作站上進行。
表2 工作站配置
為驗證改進YOLO v2的性能,利用自制測試集,分別使用YOLO v2和改進的YOLO v2兩種網(wǎng)絡進行檢測試驗,并統(tǒng)計網(wǎng)絡檢測的準確率、漏檢率和檢測速度,試驗結果如表3所示。
表3 網(wǎng)絡檢測結果對比
從表3 可以看出,在相同配置下,本文設計的改進YOLO v2在車輛檢測準確率上與YOLO v2大致相同,但漏檢率降低,在檢測速度上也得到顯著提升。
本文中采用的傳感器為德國大陸公司生產的ARS 408?21 毫米波雷達和大恒MER?230?168U3M/C CMOS工業(yè)相機,試驗車輛與傳感器如圖5所示。
圖5 試驗車與傳感器
為綜合分析融合算法的性能,在晴天、陰天、傍晚和雨天等多種道路條件下進行了實車試驗,部分檢測結果如圖6 所示。圖中紅色框為雷達檢測框,紫色框為視覺檢測框。
圖6 部分檢測結果
如圖7(a)所示,12 號目標的雷達和視覺檢測框出現(xiàn)較大偏移,基于檢測框交并比無法完成融合,將視覺檢測的該目標投影至雷達平面,如圖7(b)所示,圖中紅色點和紫色點分別表示雷達、視覺檢測到的該目標在雷達坐標系中的位置,基于GNN 算法成功完成了雷達和視覺檢測結果的融合。
圖7 基于GNN算法的融合
圖8 雨天環(huán)境融合效果
圖8 展示了雨天環(huán)境下的融合結果。攝像頭在雨滴的干擾下未檢測出15 號目標,雷達由于自身較強的環(huán)境適應性,未受到下雨的影響,成功檢測出視野內的所有車輛,在最終的融合結果中,并沒有因視覺漏檢而遺漏車輛目標。
為對比融合算法與單傳感器之間檢測效果的差距,選取了500 組經(jīng)過時間同步后的圖像和雷達數(shù)據(jù),分別采用雷達算法、視覺算法和融合策略進行處理。表4為3種方法的處理結果。
表4 傳感器檢測結果對比
從表4 可以看出,相比于單一傳感器檢測方法,融合策略綜合了毫米波雷達和視覺的各自優(yōu)勢,在提升準確率的同時降低了漏檢率,實現(xiàn)了更好的檢測效果。
提出一種基于毫米波雷達和機器視覺融合的車輛檢測方法,利用分層聚類算法完成車輛目標的初篩,通過改進YOLO v2算法降低了漏檢率,并實現(xiàn)了更高的檢測速度,在確保傳感器空間同步下,基于目標檢測交并比和GNN 數(shù)據(jù)關聯(lián)建立融合策略,最后利用擴展卡爾曼濾波算法實現(xiàn)融合目標跟蹤。
試驗結果表明:該方法有效地實現(xiàn)了雷達和視覺檢測結果的信息融合,可在多種天氣條件下完成對車輛目標的檢測,且檢測效果優(yōu)于單傳感器算法,但在隧道和車輛密集的路口等復雜場景下仍會出現(xiàn)一定程度的誤檢和漏檢情況。在后續(xù)研究中需要針對相應場景,進一步開展實車試驗,分析誤檢和漏檢發(fā)生原因,優(yōu)化傳感器融合策略,提升融合策略的場景適應性。