王羽塵,陸 濤,馬健霄,劉宇航,白瑩佳
WANG Yuchen, LU Tao, MA Jianxiao, LIU Yuhang, BAI Yingjia
(南京林業(yè)大學(xué) 汽車與交通工程學(xué)院,江蘇 南京 210037)
(College of Automobile and Traffic Engineering, Nanjing Forestry University, Nanjing 210037, China)
高速公路由于其同向性、便捷性以及舒適性等優(yōu)勢[1],在國家公路網(wǎng)中起著至關(guān)重要的作用。據(jù)統(tǒng)計,2018 年我國高速公路里程達到14.26 萬公里,每年有近5%左右的增幅[2]。由于高速公路的行駛要求、復(fù)雜的路況環(huán)境等因素,一旦發(fā)生事故,易造成交通擁堵,產(chǎn)生次生事故,帶來更大的傷亡和損失。通過研究不同因素對事故形態(tài)的影響程度[3],可以從不同角度分析事故成因,對于減少輕微交通事故和降低重大事故的人員傷亡、財產(chǎn)損失具有重要的意義。
由于交通事故數(shù)據(jù)大多具有離散度不足(低擴散)、低密度(數(shù)據(jù)的樣本均值較低) 等特征[4],國內(nèi)外學(xué)者利用數(shù)學(xué)模型圍繞事故發(fā)生的道路、環(huán)境及車輛等因素與交通事故形態(tài)的關(guān)系進行系統(tǒng)研究,通過分析數(shù)據(jù)分布特征并選用與之匹配的模型,可以降低參數(shù)估計的誤差,精確刻畫不同因素對事故形態(tài)的影響。通過整理不同文獻,得到不同模型以及其適用條件和不足,歸納總結(jié)如下:
(1) 當數(shù)據(jù)特征為非負整數(shù)時,常采用泊松分布模型和負二項/泊松-γ 分布模型,此類模型易于估計,且后者可以應(yīng)用于過度離散的情況,但無法描述離散度不足、低密度、樣本量少的情況。Xie 利用貝葉斯Logit 模型研究駕駛?cè)颂卣?、碰撞車輛以及道路條件對事故形態(tài)及嚴重程度的影響[5]。馬聰從事故發(fā)生地點、道路條件、車輛類型3 個方面改進非線性負二項預(yù)測模型[6]。
(2) 當數(shù)據(jù)特征為大量零值時,常采用零膨脹泊松和零膨脹負二項,后者可以處理0,1 的數(shù)據(jù)集,但無法應(yīng)用低密度、小樣本的情況。李蕊選取道路、環(huán)境、駕駛員及車輛等因素,將零膨脹模型應(yīng)用于高速公路交通事故嚴重程度分析[7]。
(3) 當數(shù)據(jù)特征為多組因變量時,常采用二元模型和多元模型,后者因變量范圍更廣,估算過程復(fù)雜。
(4) 任何數(shù)據(jù)類型都可以使用機器學(xué)習(xí)進行分析,但估算過程復(fù)雜,沒有可解釋的參數(shù),無法轉(zhuǎn)移其他數(shù)據(jù)集。Li 選擇事故發(fā)生地點、車輛類型、道路條件作為影響因素,比較SVM 和多元模型的適用性[8]。
綜上所述,國內(nèi)外學(xué)者大多集中于不同數(shù)據(jù)及模型的適用性,但是對因素本身的關(guān)注不夠,未考慮影響因素作為模型的自變量,在周期內(nèi)的潛在變化可能導(dǎo)致重要信息的丟失。因此,本研究收集了連續(xù)4 年的高速公路事故數(shù)據(jù),選取道路、環(huán)境及車輛指標,通過分析數(shù)據(jù)的分布類型,選取合適的模型,探究影響因素的年時變特征。
本文所用高速公路事故數(shù)據(jù)來自滬蓉高速(G42 江蘇段),樁號為k36+000-k192+000,每起事故均包含事故發(fā)生的時間、地點、事故形態(tài)、道路線形及車輛等信息,剔除信息記錄不完整的事故,最終用于本研究的事故總數(shù)為2 098 起。根據(jù)事故記錄數(shù)據(jù),從高速公路道路條件、環(huán)境、車輛信息3 個等方面選擇了4 個自變量,具體說明如表1 所示。
根據(jù)4 年內(nèi)的統(tǒng)計數(shù)據(jù),選取事故形態(tài)作為因變量。將碰撞、刮擦、翻車作為主要事故形態(tài),碾壓、墜落、爆炸和失火作為其他事故形態(tài)進行研究,如圖1 所示。
表1 自變量統(tǒng)計及符號
圖1 事故形態(tài)頻率分布柱形圖
由于數(shù)據(jù)中零值居多,相比于傳統(tǒng)的數(shù)學(xué)計算模型,零膨脹模型可以更加準確地描述此類數(shù)據(jù)。陳穎雪、曾平將零膨脹模型分別應(yīng)用于軌道觸網(wǎng)故障頻次[9]、心肌缺血節(jié)段數(shù)的研究中[10]。因此,本文采用零膨脹模型中運用最廣泛的零膨脹泊松(ZIP)和零膨脹負二項(ZINB) 模型分析不同事故形態(tài)的主要影響因素,選用似然比(LR) 檢驗比較兩個模型的擬合程度。
零膨脹模型是由伯努利分布和普通計數(shù)分布按照一定比例組成的混合分布[11],當零膨脹模型應(yīng)用于事故形態(tài)研究時,可以理解為發(fā)生n起交通事故中,若第i種事故形態(tài)事故發(fā)生的次數(shù)Yi服從結(jié)構(gòu)零權(quán)重為φi的零膨脹模型,其概率分布函數(shù)為:
式中:Ki為基本計數(shù)分布,φi為第i起事故中出現(xiàn)過多0 所占的比例,其取值為0<φi<1。
式中:νi=(νi1,νi2,…,νiq)為q×1 協(xié)變量向量,表示第i起事故中q個影響因素的取值,α=(α1,α2,…,αq)為q×1 參數(shù)向量,q為協(xié)變量個數(shù)。
對零膨脹模型中結(jié)構(gòu)零權(quán)重φi作回歸,得到式(3):
式中:φi,νi,α 意義同上。
2.1.1 零膨脹泊松模型
當Ki服從Poisson 分布,選取影響因素作為分布均值λi的自變量[12],即:
其對數(shù)似然函數(shù)為:
分別對 α=(α1,α2,…,αq),β=(β1,β2,…,βp)求偏導(dǎo),并令其等于零可求得參數(shù)估計值
2.1.2 零膨脹負二項模型
當Ki服從負二項分布,選取主要影響因素作為分布均值μi的自變量,即:
其對數(shù)似然函數(shù)為:
分別對 α=(α1,α2,…,αq),β=(β1,β2,…,βp),θ 求偏導(dǎo),并令其等于零可得到參數(shù)估計值
若兩個模型的全部自由參數(shù)都是相同的,并且其中一個模型可通過限定部分參數(shù)為固定值而得到另一個模型,則稱其中一個模型嵌套另一個模型[13]。當零膨脹負二項模型中的離散參數(shù)θ=0 時,模型即退化為零膨脹泊松模型。
因此,可以使用似然比檢驗的方法對模型進行選擇,先假設(shè)零膨脹泊松模型嵌套零膨脹負二項模型,對應(yīng)的似然比統(tǒng)計量為:
式中:LR服從自由度為ν 的卡方分布,L1為零膨脹泊松模型,L2為零膨脹負二項模型ν=df1-df2為受限參數(shù)的個數(shù),在這里為1。若則可表明零膨脹負二項優(yōu)于零膨脹泊松模型[14]。
將不同事故形態(tài)作為因變量,影響因素作為自變量,建立零膨脹泊松模型和零膨脹負二項回歸模型。根據(jù)LR指標來判斷模型擬合的優(yōu)劣,采用Python 編程得出各影響因素的估計系數(shù)和顯著度指標P值,如表2~5 所示。
3.2.1 顯著度分析
根據(jù)顯著度指標p值是否小于0.05 可以得出不同因素對事故形態(tài)的影響,若小于0.05,則說明該因素對模型影響顯著,當p值越接近零,說明檢驗程度越好。因此,得出以下結(jié)論:
以2016 年的事故數(shù)據(jù)為例,事故發(fā)生時段對碰撞和翻車這兩類事故形態(tài)影響顯著,臨近出入口和年平均日交通量對所有事故形態(tài)影響顯著,當交通量發(fā)生變化時,交通流狀態(tài)和車輛間的相互影響也隨之改變,導(dǎo)致交通沖突和事故的發(fā)生。相比于責(zé)任車輛為小型車輛,貨車等大型車輛對碰撞、刮擦、翻車這3 類事故形態(tài)影響更為顯著。
3.2.2 時變特征分析
通過模型結(jié)果得到各影響因素系數(shù)隨時間變化趨勢圖,如圖2 所示。
對比圖2(a) 可以看出:事故發(fā)生時段對翻車和其他事故起著反向作用,潛在原因是:工作日期間,駕駛?cè)司栊蕴岣?,車輛減速行駛;假期期間,交通量激增,交通流達到穩(wěn)定反而降低了事故的嚴重程度。
臨近出入口對碰撞和翻車和其他事故起到反向作用,如圖2(b) 所示??赡茉蚴撬淼赖忍厥饴范未嬖谥暰嗖蛔?、平面線形指標較差等原因,導(dǎo)致安全事故發(fā)生。近年來對路段的出入口段進行排查和整治,降低了車輛相互碰撞、撞擊隧道洞口和翻車的概率。但是,該研究結(jié)果尚需進一步驗證和研究。
從圖2(c) 可以看出,隨著年平均日交通量的遞增,碰撞、刮擦、翻車這3 類事故形態(tài)的系數(shù)也在整體增長。特別的是,刮擦事故自2013 年系數(shù)遞減之后,在2015 年開始遞增。這是由于交通流達到穩(wěn)定前,較小交通事故或行車障礙的影響容易消除,而突破穩(wěn)定流范圍下限之后,交通流稍有增加就會導(dǎo)致服務(wù)水平顯著降低。
表2 2013 年零膨脹模型分析結(jié)果
表3 2014 年零膨脹模型分析結(jié)果
責(zé)任車輛為大型車時,各類事故呈現(xiàn)上升趨勢,如圖2(d) 所示。潛在原因是大型車受到動力和車輛性能的影響,其初始運行速度未能短時間內(nèi)達到設(shè)計速度,小型車因其功率和重量的比值較大,能夠短時間內(nèi)達到道路的設(shè)計速度,兩種車型之間存在速度差,從而造成不同類型的交通事故頻發(fā)。
表4 2013 年零膨脹模型分析結(jié)果
表5 2016 年零膨脹模型分析結(jié)果
圖2 影響因素的時間變化
(1) 基于2013~2016 年滬蓉高速(G42 江蘇段) 的事故數(shù)據(jù)得到影響事故形態(tài)的各因素,建立零膨脹模型,并用似然比驗證零膨脹泊松和零膨脹負二項模型的擬合程度。從顯著度和時間變化趨勢兩個角度分析不同因素對事故形態(tài)的影響。結(jié)果表明,零膨脹負二項模型擬合度更好。
(2) 研究結(jié)果可以為相關(guān)管理人員降低不同事故形態(tài)風(fēng)險提供理論依據(jù),由于數(shù)據(jù)來源有限且存在部分數(shù)據(jù)缺失的情況,本研究僅考慮4 個因素對事故形態(tài)的影響,后續(xù)可針對不同路段研究其他因素對發(fā)生事故形態(tài)的影響。