朱小平 張麗英 劉靜 向健龍
摘 要:自動駕駛汽車風(fēng)險具有復(fù)雜性和隱蔽性,不易被人為地發(fā)現(xiàn)和預(yù)防。為了更好地預(yù)測這些風(fēng)險,利用美國加州自動駕駛事故數(shù)據(jù)集,從時間、地點、人員參與、天氣等多維度提取數(shù)據(jù),數(shù)據(jù)經(jīng)過預(yù)處理從而構(gòu)建自動駕駛事故數(shù)據(jù)庫。然后,將XGBOOST算法與數(shù)據(jù)相結(jié)合,建立自動駕駛汽車事故風(fēng)險預(yù)測分類模型。將XGBOOST算法與多種算法進(jìn)行比較分析,結(jié)果表明,XGBOOST算法為較優(yōu),其訓(xùn)練和測試預(yù)測精度分別超過 92.27%和97.06%,能夠有效地識別出高風(fēng)險和低風(fēng)險的自動駕駛汽車事故情況。
關(guān)鍵詞:自動駕駛汽車 XGBoost算法 風(fēng)險預(yù)測
1 引言
自動駕駛有很多優(yōu)點,比如可以提高交通效率、減少人為錯誤、節(jié)省能源等。但是,自動駕駛也存在一些風(fēng)險,如政策風(fēng)險、事故風(fēng)險、系統(tǒng)風(fēng)險等等。因此,對自動駕駛風(fēng)險進(jìn)行預(yù)測分析是非常必要的。預(yù)測分析可以幫助我們了解自動駕駛的潛在風(fēng)險,評估風(fēng)險的可能性和嚴(yán)重程度,制定風(fēng)險的應(yīng)對措施和預(yù)案。
王浩旭[1]利用Carsim仿真軟件驗證信控交叉口自動駕駛汽車風(fēng)險控制措施的有效性及合理性。薛松[2]提出了一種基于自動駕駛場景的預(yù)期功能安全危害分析評估方法。王明[3]根據(jù)周邊車輛信息,提出一種融合風(fēng)險的自動駕駛汽車規(guī)劃方法。Subasish[4]對美國加州的2014-2019年的數(shù)據(jù)應(yīng)用貝葉斯?jié)擃惸P蛠碜R別碰撞模式。Siying[5]通過成本敏感分類和回歸(CART)模型開發(fā)了一個包含可能影響因素的自動駕駛汽車碰撞嚴(yán)重程度分類樹,該模型可以處理自動駕駛汽車碰撞數(shù)據(jù)集中引發(fā)的類不平衡問題。自動駕駛汽車風(fēng)險多數(shù)采用仿真方法,較少以定量的方法進(jìn)行研究,且定量風(fēng)險評估需考慮多個維度因素。本文綜合考慮人-車-路-環(huán)境因素基于XGBoost算法對數(shù)據(jù)進(jìn)行全面綜合評估。
2 數(shù)據(jù)源介紹
2.1 數(shù)據(jù)源梗概
DMV[6]是Department of Motor Vehicles(機動車輛管理局)的縮寫,它是負(fù)責(zé)管理公共道路上的機動車輛和駕駛員的政府機構(gòu)。DMV的數(shù)據(jù)包括以下幾個方面:機動車輛登記、駕駛員許可、自動駕駛測試。
2.2 數(shù)據(jù)預(yù)處理和實驗數(shù)據(jù)
本文采用的是自動駕駛測試中的碰撞報告,包括事故的時間、地點、原因、結(jié)果、參與者、車輛、傷害、損失等。
通過在DMV官網(wǎng)上搜集2014-2023年7月的數(shù)據(jù),數(shù)據(jù)集變量是數(shù)據(jù)原始的變量定義,中文變量名稱是本文自定義解釋,變量解釋是本文對變量進(jìn)行批次分類的再定義。
3 預(yù)測方法
XGBoost[7]在處理大數(shù)據(jù)時,精度高且可避免過擬合,有效處理缺失值。具體模型[8]如下:
其中,為獨立樹結(jié)構(gòu);F為樹空間。
其中,為目標(biāo)函數(shù);l為損失函數(shù);為模型懲罰項,且:
其中,G為葉的數(shù)量;為第i片葉的分?jǐn)?shù);為節(jié)點切分的難度;為正則化系數(shù)。
求解式(1)~(3),得到:
4 實驗結(jié)果
利用pycharm軟件使用XGBoost機器學(xué)習(xí)算法對DMV數(shù)據(jù)進(jìn)行訓(xùn)練和測試,對自動駕駛事故數(shù)據(jù)集進(jìn)行等級分類預(yù)測,得到以下結(jié)果:
由于截止到2023年7月,DMV事故數(shù)據(jù)集只有620條數(shù)據(jù),為了保持?jǐn)?shù)據(jù)的有效性,采用數(shù)據(jù)交叉驗證的方式,如圖1,橫坐標(biāo)為交叉驗證的折次數(shù),縱坐標(biāo)為預(yù)測精度,由圖可知,當(dāng)交叉驗證折數(shù)為9時,訓(xùn)練預(yù)測精度為92.27%,此時測試預(yù)測精度為97.06%。
5 有效性分析
在機器學(xué)習(xí)分類模型中,Gradient Boosting和LightGBM[9]、CatBoost[10]、Stochastic Gradient Descent[11]、Passive Aggressive Classifier[12]、Perceptron Classifier[13]以及SVM[14]都是備受青睞的算法。
首先,XGBoost算法展現(xiàn)了在特定交叉驗證折疊下的魯棒性和高度的預(yù)測精度。它在許多情況下表現(xiàn)出良好的性能,尤其是在數(shù)據(jù)模式復(fù)雜或特征維度高的情況下。然而,與其他算法相比,其表現(xiàn)可能略顯中庸。
相較之下,LightGBM以其基于梯度提升框架的高效性和低內(nèi)存占用而著稱,在處理大規(guī)模數(shù)據(jù)時表現(xiàn)出色。CatBoost則專注于處理類別型特征和自動處理缺失值,這使得它在某些數(shù)據(jù)集上表現(xiàn)突出。Stochastic Gradient Descent和Passive Aggressive Classifier則適用于在線學(xué)習(xí)和大規(guī)模數(shù)據(jù)流,其快速的更新速度使其在這些場景下具備優(yōu)勢。Perceptron Classifier和SVM則在處理線性可分?jǐn)?shù)據(jù)和復(fù)雜核函數(shù)映射時表現(xiàn)出色。
綜上所述,每種算法都有其獨特的優(yōu)勢和適用領(lǐng)域。XGBoost在穩(wěn)定性和普適性上表現(xiàn)良好,而其他算法則在特定場景下可能更具優(yōu)勢。因此,在選擇適用于特定問題的機器學(xué)習(xí)模型時,需要根據(jù)數(shù)據(jù)特征、規(guī)模和問題本身的要求來進(jìn)行綜合考量,并結(jié)合交叉驗證等方法來充分評估模型的性能和適用性。它們各自具有獨特的特點和適用場景,因此在比較它們與XGBoost在預(yù)測精度上的表現(xiàn)時,通過使用交叉驗證來訓(xùn)練和測試模型,得到了如下結(jié)果:
圖2展示了訓(xùn)練結(jié)果的概貌,橫坐標(biāo)為交叉驗證折數(shù),縱坐標(biāo)則反映了訓(xùn)練精度。盡管XGBoost算法在該圖中處于中間水平,但是從下圖3中的觀察可以發(fā)現(xiàn),在第三折到第十折之間,XGBoost算法表現(xiàn)出了相當(dāng)穩(wěn)定的趨勢。實際上,在這段時間內(nèi),絕大部分情況下XGBoost算法都展現(xiàn)出最高水平的預(yù)測精度。尤其值得注意的是,第9折所達(dá)到的精度最為顯著,其訓(xùn)練和測試的精度分別達(dá)到了92.27%和97.06%。
這種模式可能反映了XGBoost在特定數(shù)據(jù)折疊下的優(yōu)勢,尤其是在這種交叉驗證的框架下。這樣的結(jié)果可能表明XGBoost算法在特定折疊中能更好地捕捉數(shù)據(jù)的模式,并在模型的學(xué)習(xí)過程中更準(zhǔn)確地推廣到新數(shù)據(jù)上。這也突顯了算法的魯棒性和有效性,尤其是在處理這個特定數(shù)據(jù)集時。
除了圖2和圖3中呈現(xiàn)的訓(xùn)練結(jié)果外,還值得注意的是XGBoost算法在訓(xùn)練和測試階段之間的差距。這種差距可能暗示著一些潛在的過擬合或者模型在新數(shù)據(jù)上泛化能力的限制,需要進(jìn)一步的探索和分析。
總的來說,盡管XGBoost算法在圖2中的表現(xiàn)未必最為突出,但是深入研究后我們發(fā)現(xiàn)其在特定交叉驗證折疊中的穩(wěn)定性和高精度表現(xiàn)。這種發(fā)現(xiàn)為我們對該算法的性能和優(yōu)勢提供了更深入的認(rèn)識,并為未來進(jìn)一步優(yōu)化模型或探索其他算法提供了有益的參考。
6 結(jié)論
自動駕駛風(fēng)險預(yù)測是一個極具復(fù)雜性的領(lǐng)域,需要全面考慮事故發(fā)生的多種影響因素和指標(biāo)。這項研究利用了美國加州DMV自動駕駛事故集中的數(shù)據(jù),并通過定義和分析對其進(jìn)行了深入研究。同時,多種分類模型在該數(shù)據(jù)集上進(jìn)行了比較和分析,以確定最契合的模型和分類預(yù)測精度。最終,選擇了XGBoost算法,并通過交叉驗證的方式對數(shù)據(jù)集進(jìn)行訓(xùn)練和預(yù)測。結(jié)果顯示,XGBoost算法表現(xiàn)出色,其預(yù)測結(jié)果優(yōu)異,訓(xùn)練和預(yù)測的分類精度分別高達(dá)92.27%和97.06%。
未來,這項研究可能有助于改進(jìn)自動駕駛系統(tǒng)的安全性。通過深入理解事故發(fā)生的因素,并使用高精度的預(yù)測模型,我們有望進(jìn)一步提高自動駕駛車輛的安全性能。此外,該研究還為未來開展更多實證研究提供了有價值的數(shù)據(jù)和方法,以持續(xù)改進(jìn)自動駕駛技術(shù),并推動其在道路安全方面的進(jìn)步。
項目基金:桂林電子科技大學(xué)研究生教育創(chuàng)新計劃項目(2023YCXS192)。
參考文獻(xiàn):
[1]王浩旭.基于信控路口先驗事故的自動駕駛汽車安全風(fēng)險分析及仿真測試[D].重慶:重慶交通大學(xué),2022.DOI:10.27671/d.cnki.gcjtc.2022.000844.
[2]薛松.基于自動駕駛場景的預(yù)期功能安全危害分析評估方法設(shè)計與實現(xiàn)[D].上海:華東師范大學(xué),2022.DOI:10.27149/d.cnki.ghdsu.2022.001538.
[3]王明,唐小林,楊凱,等.考慮預(yù)測風(fēng)險的自動駕駛車輛運動規(guī)劃方法[J].汽車工程,2023,45(08):1362-1372+1407.DOI:10.19562/j.chinasae.qcgc.2023.08.007.
[4]Das S ,Dutta A ,Tsapakis I .Automated vehicle collisions in California: Applying Bayesian latent class model[J].IATSS Research,2020,44(4):300-308.
[5]Siying Z ,Qiang M .What can we learn from autonomous vehicle collision data on crash severity? A cost-sensitive CART approach[J].Accident Analysis and Prevention,2022,174106769-106769.
[6]劉通.2021加州DMV自動駕駛榜,中企班行秀出[J].汽車縱橫,2022,(03):80-82.
[7]張利斌,吳宗文.基于XGBoost機器學(xué)習(xí)模型的信用評分卡與基于邏輯回歸模型的對比[J].中南民族大學(xué)學(xué)報(自然科學(xué)版),2023,42(06):846-852.DOI:10.20056/j.cnki.ZNMDZK.20230616.
[8]胡江,蘇薈.水工結(jié)構(gòu)變形預(yù)測模型構(gòu)建與解釋[J/OL].水利水運工程學(xué)報,1-12[2023-11-10]http://kns.cnki.net/kcms/detail/32.1613.TV.20231107.1706.014.html.
[9]梁曉霞,謝東海,韓宗甫,等.基于梯度提升算法的近地面臭氧濃度估算比較[J].中國環(huán)境科學(xué),2023,43(08):3886-3899.DOI:10.19674/j.cnki.issn1000-6923.2023.0128.
[10]李寧,楊鎮(zhèn)華,馬偉中,等.基于CatBoost算法的SAP混凝土抗壓強度預(yù)測[J].內(nèi)蒙古公路與運輸,2023,(05):1-6.DOI:10.19332/j.cnki.1005-0574.2023.05.001.
[11]王福勝,甄娜,李曉桐.R-線性收斂的重要樣本抽樣隨機梯度下降算法[J].工程數(shù)學(xué)學(xué)報,2023,40(05):833-842.
[12]周林寰.一類支持向量機在線算法及其應(yīng)用[D].大連:大連理工大學(xué),2021.DOI:10.26991/d.cnki.gdllu.2021.001233.
[13]王新偉,張漓黎,莫德科,等.基于信息量和多層感知機分類器模型耦合的平果市斜坡類地質(zhì)災(zāi)害易發(fā)性評價[J].中國巖溶,2023,42(02):370-381.
[14]林明松,楊曉梅,楊志霞.結(jié)構(gòu)化最大間隔雙支持向量機在股票預(yù)測中的應(yīng)用[J/OL].計算機工程與應(yīng)用,1-11[2023-11-10]http://kns.cnki.net/kcms/detail/11.2127.TP.20231109.1443.008.html.