馬彬濤,郝帥潔,廖星星
(長安大學 汽車學院,陜西 西安 710064)
隨著我國經(jīng)濟發(fā)展,機動車保有量不斷增多,道路交通量快速增長,各類安全風險交織疊加,交通事故預防任務艱巨繁重[1]。
在大數(shù)據(jù)時代,事故數(shù)據(jù)的合理挖掘分析對于事故的管理預防有著非常重要的意義。國內(nèi)外學者在利用交通事故數(shù)據(jù)來分析事故方面做了很多研究,事故預測是一個非常重要的方面。本文重點概述主要事故預測模型,對這些模型優(yōu)缺點進行比較評價,并進行了案例分析。
用車輛事故數(shù)據(jù)預測交通事故的流程可分為三步[2]。
(1)確定預測的目標:根據(jù)現(xiàn)有事故數(shù)據(jù)的情況及預測目標選擇適合的方法。
(2)建立事故風險預測模型:根據(jù)數(shù)據(jù)建立不同的預測模型,并進行精度比較,選擇最合適的預測模型合理評價預測結(jié)果。
(3)對預測結(jié)果進行跟蹤:為了確保預測模型的適用性,需要對模型預測的結(jié)果不斷跟蹤,并在此過程中不斷完善模型。道路交通事故預測流程如圖1所示。
圖1 道路交通事故預測流程
國內(nèi)外學者對于交通事故的預測使用了不同的預測模型。對于不同的事故數(shù)據(jù)類型,選擇合適的模型進行風險評估非常重要。建立預測模型采用的主要方法有回歸分析、灰色分析、貝葉斯網(wǎng)絡、BP神經(jīng)網(wǎng)絡、集成學習等。
回歸分析法主要利用數(shù)據(jù)統(tǒng)計的原理,對事故數(shù)據(jù)進行數(shù)學處理,從而確定因變量與某些自變量之間的相關(guān)關(guān)系,建立回歸模型預測因變量的變化情況。
FRANCESCA等人[3]采用Logistic 回歸分析來研究駕駛員特征與事故嚴重程度之間的關(guān)系;YAU等人[4]利用Logistic 回歸模型分析道路交通安全與其影響因素之間的關(guān)系;CHANG[5]采用多元自適應樣條回歸模型研究道路因素與環(huán)境因素對交通事故發(fā)生的影響。趙小強等人[6]使用多元回歸分析和決策樹這兩種模型預測北京城市快速路上的交通事故。
灰色預測通過鑒別系統(tǒng)因素之間發(fā)展趨勢的相異程度,進行關(guān)聯(lián)分析,并對反映預測對象特征的數(shù)值進行處理,最后建立微分方程模型來預測事故發(fā)展趨勢。
陳玉飛等人[7]使用特征灰色關(guān)聯(lián)矩陣研究,最終提出了死亡人數(shù)的交通事故的預測模型。HSU等人[8]利用灰色系統(tǒng)理論預測了德國2025 年前道路交通事故的發(fā)展趨勢。DU等人[9]利用道路交通事故建立了灰色 Verhulst 預測模型。LI等人[10]同時使用灰色理論和馬爾可夫鏈理論,最終擬合出來道路交通時序數(shù)據(jù)的總體趨勢。交通事故灰色理論與馬爾可夫組合預測模型能夠十分有效地挖掘道路交通事故數(shù)據(jù)中有價值的信息,大幅度提高模型預測精度。
貝葉斯網(wǎng)絡模型可以彌補回歸分析模型、離散選擇模型、事故樹分析法等方法的孤立性、表象片面性等問題,引導事故致因因素向多維性和關(guān)聯(lián)性的方向發(fā)展。
吳迪[11]使用貝葉斯網(wǎng)絡建立了危險貨物道路運輸事故預測模型。YANG 等人[12]運用貝葉斯動態(tài)邏輯回歸的方法提出了實時碰撞風險評估模型。童璐璐[13]使用貝葉斯網(wǎng)絡將事故影響因素與嚴重程度結(jié)合,得出了高速公路交通事故嚴重程度的預測模型。宋賀[14]利用危險貨物運輸罐車駕駛試驗數(shù)據(jù),使用貝葉斯網(wǎng)絡結(jié)構(gòu)學習方法構(gòu)建了危險貨物道路運輸事故預測模型。GRANDE等人[15]利用貝葉斯網(wǎng)絡模型從地形、環(huán)形交叉口、限制速度等因素預測了道路交通事故嚴重程度的影響。
BP神經(jīng)網(wǎng)絡在回歸預測和分類預測的研究中都很適用,大量研究表明神經(jīng)網(wǎng)絡的預測精度很好。鄧曉慶等人[16]通過構(gòu)建 BP 神經(jīng)網(wǎng)絡對高速公路上的交通事故進行了分析和預測。陳海龍、彭偉[17]提出了改進BP神經(jīng)網(wǎng)絡在交通事故預測中的應用研究。交通事故數(shù)據(jù);輸出層輸出最終預測的結(jié)果;隱藏層處在輸入和輸出單元之間,通過算法對數(shù)據(jù)進行分析。神經(jīng)元間的連接強度大小由權(quán)值等參數(shù)來決定。
BP神經(jīng)網(wǎng)絡模型如圖2所示,輸入層是輸入
圖2 BP神經(jīng)網(wǎng)絡模型圖
集成學習是為了獲得更加顯著的預測效果,將多個基礎(chǔ)模型組合起來使用,完成事故預測工作。集成學習方法有“串行”以及“并行”兩種方式。Boosting采用“串行”的方式,Bagging采用“并行”的方式。兩者比較如表1所示。
表1 Boosting和Bagging對比
BASSO等人[18]利用隨機森林、支持向量機和邏輯回歸的校正模塊為智利圣地亞哥的高速公路開發(fā)了事故預測模型。張蔚[19]結(jié)合多目標優(yōu)化和集成學習的模型也能夠運用于我國交通事故的分析和預測,上官[20]等人通過自然駕駛數(shù)據(jù),使用RF、XGBoost、SVM和MLP 4種建模方法對實時駕駛風險狀態(tài)進行預測。
對于各種預測模型進行了分析,各模型優(yōu)缺點比較情況如表2所示。
表2 各預測模型優(yōu)缺點比較
對數(shù)據(jù)預測事故介紹了五種現(xiàn)有模型,基于現(xiàn)有的某地2014—2020年事故發(fā)生的次數(shù),發(fā)現(xiàn)事故樣本適用于灰色預測模型,因此,采用灰色分析進行事故案例分析。具體數(shù)據(jù)如表3所示。
表3 某地2014—2020年事故統(tǒng)計數(shù)量
1.建立事故數(shù)據(jù)時間序列
2.級比λ(k)計算及判斷
所有λ都落在(0.7788,1.2840)內(nèi),則數(shù)列x(0)可以作為模型GM(1,1)進行灰色預測。
3.GM(1,1)建模
對原始數(shù)據(jù)x(0)做一次累加,得到:
4.構(gòu)造數(shù)據(jù)矩陣B及數(shù)據(jù)向量Y
5.計算μ
得到(a,b)T=(0.007 2,799.490 6)T
6.建立模型
7.求數(shù)列值x(1)(k+1)及各個年份的預測的事故數(shù)x(0)(k+1)
將k=0,1,2,3,4,5,6代入得到
8.模型評價
為了評價預測模型的準確度及其適用性,需要對模型性能進行評價。
對于模型性能的評價主要有兩個方面:一是比較預測結(jié)果的偏離程度:誤差率(E);二是衡量預測模型的擬合能力:均方根誤差(RMSE)[21]
具體計算公式如下:
其中,n為樣本數(shù),X0為原始值,XP為預測值。
可以看出總的誤差率非常小,預測結(jié)果準確;RMSE相對于事故原始均值777來說很小,因此,擬合程度很好。
整個預測結(jié)果如表4所示。
表4 某地2014—2020事故預測結(jié)果
9.2020年后事故數(shù)預測
由式(7)計算得,2021年事故數(shù)為758起。之后年份的事故數(shù)可以類似進行預測,這分析可以用于此地改善某方面的安全措施,通過預測事故數(shù)和實際發(fā)生的事故數(shù)相比可以一定程度上評價實施安全措施后的效果。
本文從交通事故的預測流程、預測模型、模型比較及案例分析三個方面介紹了基于車輛事故數(shù)據(jù)的交通事故預測分析。為研究事故預測提供了思路。
數(shù)據(jù)的獲取仍是事故數(shù)據(jù)分析的關(guān)鍵前提,未來應提高事故數(shù)據(jù)的使用程度,通過對更全面事故數(shù)據(jù)訓練,實現(xiàn)實時的事故發(fā)生感知預測,對司機進行實時預警,從而提高道路的安全程度。