韓 勇,林旭潔,黃紅武,蔡鴻瑜,羅金镕,李燕婷
(1. 廈門理工學院機械與汽車工程學院,廈門 361024; 2. 福建省新能源汽車與安全技術研究院,廈門 361024)
據(jù)WHO 的報告顯示,全球每年有135 萬人死于交通事故[1]?,F(xiàn)代智能交通安全輔助駕駛系統(tǒng)(safety driving assist system, SDAS)采用計算機視覺原理對感知范圍內(nèi)的行人進行檢測和分析,有效提高行車安全[2]。在行人檢測方面,基于機器學習的方法有Dalal 等[3]提出的HOG+SVM 算法,但該算法計算速度較慢,Zhu 等[4]使用AdaBoost 算法,提高行人檢測速度和計算速度。考慮到交通監(jiān)控攝像頭以及視頻質量不高導致的局部特征不明顯問題,崔華等[5]通過改進AdaBoost,更準確地檢測出行人。孫煒等[6]提出了基于支持向量機的行人檢測跟蹤方法,可以在遮擋變化的情況下自動識別和跟蹤目標?;谏疃葘W習的YOLO 系列模型[7]的比較結果如表1所示。由于YOLOv5在靈活性和速度上占有優(yōu)勢,并可較快地進行模型部署[8],本文中選用YOLOv5作為檢測模型。
表1 YOLO系列模型比較[9]
在傳統(tǒng)的跟蹤算法方面,主要有最近鄰算法[10]、多假設跟蹤[11]和聯(lián)合數(shù)據(jù)關聯(lián)[12-13]。由于場景中目標較多,傳統(tǒng)算法存在跟蹤不可持續(xù)的缺陷,因此Wojke 等[14]基于前人開發(fā)的SORT 算法[15]設計了Deep-Sort 算法,可減少數(shù)據(jù)冗余,達到跟蹤可持續(xù)的目的。同時,Qiu 等[16]提出了一種基于YOLOv5 和Deep-Sort 的行人計數(shù)方法,可對行人進行實時檢測和跟蹤,具有較高的精度和魯棒性。
在預測算法方面,有社會力(Social-Force)模型[17]、卡爾曼濾波器模型[18]、動態(tài)貝葉斯網(wǎng)絡[19]等。但這些方法很難適用于行人運動的不確定性,因此Alahi 等[20]提出了社會長短時記憶神經(jīng)網(wǎng)絡(sociallong short-term memory, Social-LSTM),解決了多個行人之間信息交互,提高了預測精度。Yagi 等[21]提出了第一視角的行人流軌跡預測方法,將行人行走姿勢應用于其未來位置的預測中。國內(nèi)有基于卡爾曼濾波[22]、行人姿態(tài)[23]、多融合的行人意圖[24]、基于社會注意力機制的GAN 模型[25]的行人軌跡預測方法。李克強等[26]根據(jù)弱勢道路使用者的運動特征,提出面向弱勢道路使用者的多目標運動軌跡預測方法。
綜上,國內(nèi)外學者針對行人軌跡預測已進行大量研究,提出了多種預測算法,但建立的行人運動軌跡預測模型大多基于圖像像素坐標系,較難應用于車輛避撞策略的開發(fā)。針對上述問題,本文構建了一種新型的軌跡預測模型,該模型通過YOLOv5-Deep-Sort 對行人歷史軌跡進行檢測跟蹤,采用Social-LSTM 對其未來運動軌跡進行預測,得到軌跡坐標,選擇較為典型的行人橫穿斑馬線的事故場景對預測模型進行驗證,進一步預測出人車碰撞點位置。本研究可為汽車避撞行人的決策和主動安全技術的開發(fā)提供參考。
圖1 所示為研究技術路線圖。首先通過YOLOv5算法對COCO 數(shù)據(jù)集[27]進行訓練和驗證,利用精度和召回率等指標評估行人檢測效果。COCO數(shù)據(jù)集是微軟構建的一個數(shù)據(jù)集,可以用于圖像檢測、語義分割等。結合Deep-Sort算法對檢測到的行人進行跟蹤,并實時記錄行人坐標信息;其次,以記錄的坐標信息為輸入條件,采用Social-LSTM 算法對行人未來運動軌跡進行預測,并基于ETH/UCY 數(shù)據(jù)集[28]評估預測模型的有效性。該數(shù)據(jù)集源于Computer Vision Laboratory,且均為鳥瞰視角,符合本文中的典型交通事故監(jiān)控視角。最后,采用透視變換與直接線性變換理論將行人預測軌跡像素坐標轉換為與之相對應的世界坐標。
圖1 行人軌跡預測技術路線圖
圖2 為用于行人檢測的YOLOv5 算法模型結構圖。主要由輸入端、骨干網(wǎng)絡層、頸部網(wǎng)格層和輸出端4 部分組成。輸入層選用Mosaic 數(shù)據(jù)增強方法,自適應錨定框計算和自適應圖片縮放;骨干網(wǎng)絡層包括Focus結構和CSP(跨階段局部網(wǎng)絡)結構;頸部網(wǎng)絡層利用FPN+PAN結構以實現(xiàn)高維度與低維度之間的雙向語義信息傳遞;最終的輸出端通過GIOULoss計算檢測框的損失。損失由邊界框回歸損失、目標置信度預測損失和類別預測損失3部分構成[29]。
圖2 YOLOv5算法模型結構
圖3 為Deep-Sort 目標跟蹤算法模型結構,主要包括卡爾曼濾波先驗預測和卡爾曼濾波后驗預測。卡爾曼濾波器對軌跡進行預測,在先驗預測中通過匈牙利算法進行預測軌跡數(shù)據(jù)和真實軌跡數(shù)據(jù)的級聯(lián)匹配和IOU 匹配;后驗預測對濾波器的參數(shù)進行更新??梢暬Y果如結構圖中的事故圖片所示[30]。
圖3 Deep-Sort算法模型結構
為有效解決循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network, RNN)因遞度消失而長期依賴不足及長短期記憶網(wǎng)絡(long short-term memory, LSTM)無法獲取同一場景中不同行人之間的交互信息等問題,采用Social-LSTM 對行人未來軌跡進行實時預測。該算法通過為每一個相鄰空間上的LSTM 增加Pooling池化層,實現(xiàn)視頻場景中不同行人之間的信息共享[31],結構如圖4所示。
圖4 Social-LSTM 結構[31]
LSTM 有3 種類型的門構成,分別是遺忘門ft、輸入門it、輸出門ot。對應的表達式為
式中:w表示權重;ht-1是上一時刻的輸入值;xt是當前時刻的輸入值;b表示偏差項。
Pooling層的主要任務是通過空間信息收集鄰近目標的隱藏狀態(tài)信息,表達式為
為實現(xiàn)行人未來位置信息與車輛避撞系統(tǒng)中感知位置信息實時匹配,須將其映射到與之相對應的世界坐標系中,映射過程主要包括透視變換和直接線性變換兩部分,透視變換主要利用透視中心、像點、目標點3 點共線的條件,將圖片由一個平面透視到另一個新的平面[32]。直接線性變換是建立像點坐標和相應點物方空間坐標之間直接線性關系的算法[33-34]。映射模型如圖5所示。
圖5 坐標映射模型流程
行人軌跡預測的圖像多通過道路監(jiān)控攝像頭采集所得,由于監(jiān)控攝像頭的高度與角度問題,拍攝的場景存在較大畸變。如距離攝像頭較近位置的斑馬線在視覺上會比距離攝像頭較遠位置的斑馬線更寬、更長。為解決監(jiān)控攝像頭視角下的圖像畸變問題,須通過透視變換將其轉換成俯視圖視角。
透視變換模型由如下透視變換矩陣A構成:
式中:u、v是原始圖像的像素坐標;x'、y'是透視變換后的像素坐標。
得到俯視圖視角下行人未來運動軌跡預測像素坐標后,采用直接線性變換理論實現(xiàn)像素坐標與世界坐標之間的轉換。首先分析像素坐標系與世界坐標系之間的關系,根據(jù)式(9)線性變換表達式和選取的控制點坐標得到變換矩陣,通過變換矩陣完成從像素坐標到世界坐標系的轉換。
U、V是像素坐標,對應世界坐標(X,Y),L為變換矩陣,式(11)為像素坐標與世界坐標之間的直接線性變換模型:
其中變換矩陣L為
結合式(9)與式(10)可得以下方程:
圖6 為基于COCO 數(shù)據(jù)集訓練并驗證的YOLOv5 算法結果。其中圖6(a)和圖6(b)分別為訓練損失和驗證損失隨訓練步長(次數(shù))的增加而變化的趨勢。經(jīng)過300次的步長訓練,損失總體呈下降趨勢,最終的邊界框回歸損失為0.026,目標置信度預測損失為0.031,類別預測損失為0.004,訓練集和驗證集的損失指標保持較低的狀態(tài)且逐漸趨于平穩(wěn)。
圖6 YOLOv5損失指標變化
圖7 所示為不同精確指標隨學習步長的增加而變化的趨勢。在模型訓練過程中,整體指標呈遞增趨勢,模型整體準確率、召回率、平均精度值分別為93.889%、 91.858%、 96.753%。表明該模型檢測效果較好。
圖7 精確指標變化
進一步采用YOLOv5-Deep-Sort 模型對VRUTRAVI(VRU-Traffic accident videos)[35]中兩起典型事故的過街行人進行檢測跟蹤(見圖8(a))。事故1中,身著黑色衣服的行人奔跑在斑馬線上,由于白色的SUV 擋住了事故車的左側視線,導致事故車駕駛員未及時發(fā)現(xiàn)行人,并未明顯減速,導致撞倒行人后停車。事故2 中,身著粉紅色連衣裙的行人走在人行橫道上。當行人過馬路時,沒有看到左邊開過來的黑色SUV,黑色SUV 的駕駛員也沒有看到行人。駕駛員直到撞倒行人后才減速或制動停車。
圖8 檢測跟蹤事故視頻對標
圖8(b)為臨撞前行人檢測及運動軌跡實時跟蹤結果。通過與原視頻進行對標可知,整個碰撞前的過程中,均可實現(xiàn)行人實時檢測及跟蹤,跟蹤的軌跡與行人的真實軌跡基本一致,表明YOLOv5-Deep-Sort模型對事故視頻中行人檢測跟蹤效果良好。
采用ETH/UCY 行人軌跡數(shù)據(jù)集[31],涵蓋了具有挑戰(zhàn)性的運動模式,如一起行走和避免碰撞。這兩個數(shù)據(jù)集中總共有5 個子集,包含數(shù)百個注釋的行人軌跡。這些子集是eth、ucy、hotel、zara1 和zara2,Social-LSTM 軌跡預測算法有效性驗證結果如圖9所示。經(jīng)過20 次步長的訓練,整體損失呈下降趨勢且趨于收斂,其中eth 的損失下降到0.008,ucy 為0.011,hotel 為0.001,zara1 為0.007,zara2 為0.008。訓練集和驗證集的損失逐漸趨于平穩(wěn)。
圖9 數(shù)據(jù)集訓練驗證結果
如表2 所示,通過評價指標平均位移誤差和最終位移誤差對預測模型進行評估,可得平均位移誤差為0.087,最終位移誤差為0.092,均低于原始預測模型,其中平均位移誤差降低了18.3%,最終位移誤差降低了51.9%。因此采用YOLOv5和Deep-Sort對行人進行檢測跟蹤,結合行人歷史軌跡,可以降低預測模型的誤差。
表2 預測模型評估指標對比
基于Social-LSTM 對兩起事故視頻中的行人碰撞前軌跡進行預測,結果如表3 和圖10 所示。表3為事故1 與事故2 的行人碰撞前5 幀的預測坐標與實際坐標對比,隨著跟蹤時長的增加,預測也隨之準確,整體的預測坐標誤差在(±0.1,±0.1)??梢暬Y果如圖10 所示。其中黃色為行人的真實軌跡,藍色為行人的預測軌跡,黃線與藍線的軌跡基本一致,表明該預測模型能較好預測行人未來軌跡。
圖10 碰撞前預測軌跡
表3 行人碰撞前預測坐標
利用不同監(jiān)控視角,隨機采集2 例廈門某路段斑馬線上的行人過街視頻,分別對其位置進行透視變換,得到如圖11 所示的效果。經(jīng)過變換后,斑馬線的畸形程度均降低,且逐漸接近攝像第一俯視角度,驗證了透視變換的有效性,便于后續(xù)對其建立二維世界坐標系。
圖11 不同監(jiān)控視角的透視變換對比
圖12 (a)和圖12(b)分別為真實行人事故中碰撞前圖像透視變換前后行人軌跡預測對比結果。由圖12(b)可知,視頻圖像透視變換后的斑馬線整體長度和寬度畸變程度明顯降低,表明透視變換效果較好,采用透視變換后的行人預測軌跡像素坐標可直接與世界坐標轉換。
圖12 透視變換結果對比
進一步基于透視變換的結果建立二維世界坐標系,依次選取A、B、C、D 4 個點為控制點,如圖13 所示。根據(jù)《城市道路交通標志和標線設置規(guī)范》[36],設 A點世界坐標為(0,0),可得出B、C、D 3個點對應世界坐標依次為(3.15,0)、(3.15,6)、(0,6)。
圖13 坐標系參照
分別讀取事故1 中A、B、C、D 4 個控制點的像素坐標,依次為(412,355)、(686,350)、(766,165)和(540,170),事故2 中4 個控制點的像素坐標為(91,116)、(133,26)、(298,25)和(273,112),根據(jù)直接線性變化方程,可得像素坐標與世界坐標間的變換矩陣L1與L2為
進一步讀取已預測的未來10 幀行人軌跡像素坐標,通過式(9)變換矩陣和式(11),可得到行人未來軌跡世界坐標。表4 所示分別為事故1 與事故2的行人擬合世界坐標與實際坐標的對比。從表中可以看出,擬合結果與實際值基本一致,誤差平均不超過±0.2。圖14 為世界坐標系下行人預測軌跡與車輛運動軌跡擬合結果。由圖14 可知,基于直接線性變換可實現(xiàn)行人預測軌跡像素坐標與世界坐標之間的轉換?;谑澜缱鴺讼迪碌男腥塑壽E及車輛軌跡可進一步對車輛-行人碰撞點進行預測,并與實際車輛碰撞行人的事故對比可得,預測得到的行人和車輛運動軌跡及碰撞點與真實事故發(fā)生的碰撞點位置一致。表明行人預測軌跡坐標映射模型有效。
圖14 行人與車輛軌跡擬合圖
表4 行人碰撞前世界坐標
基于真實汽車碰撞行人事故案例視頻,采用YOLOv5 和Deep-Sort 算法對行人實時檢測與跟蹤,同時基于Social-LSTM 算法對行人未來軌跡像素坐標進行預測。通過透視變換與直接線性變換將行人預測軌跡像素坐標轉換為世界坐標,主要結論如下。
(1)基于YOLOv5、Deep-Sort 和Social-LSTM 的深度學習算法可實現(xiàn)對事故視頻中的行人進行實時檢測、跟蹤以及軌跡預測,目標檢測精度高達93.889%,且預測誤差比現(xiàn)有Social-LSTM 有明顯降低,其中平均位移誤差降低了18.30%,最終位移誤差降低了51.90%,與真實事故視頻中行人軌跡一致。
(2)基于透視變換與直接線性變換理論可減小視頻畸變對行人預測軌跡的影響,實現(xiàn)行人預測軌跡像素坐標與世界坐標之間的轉換,將行人與車輛的世界坐標進行擬合,可精確預測車輛碰撞行人碰撞點位置,便于車輛避撞策略的開發(fā),為智能車輛避撞感知和決策融合提供參考依據(jù)。
本文研究目前局限于行人橫穿道路的線性運動,后續(xù)將結合行人的不規(guī)則隨機運動軌跡進行預測;在坐標映射模型的量化分析中,將進一步增加典型事故案例樣品數(shù)量。