呂 路,李 杰,郭忠印,閻 瑩,高 超
(1.同濟(jì)大學(xué) 道路與交通工程教育部重點實驗室,上海 201804; 2.山東高速信息集團(tuán)有限公司,山東 濟(jì)南 250100;3.長安大學(xué) 運輸工程學(xué)院,陜西 西安 710064;4.陜西匯德通市政工程有限公司,陜西 西安 710086)
交通事故是指車輛在道路上因過錯或者意外造成人身傷亡或者財產(chǎn)損失的事件[1]。交通事故持續(xù)時間計算結(jié)果是劃分事故等級,制定事故下的交通誘導(dǎo)、分流管控方案的重要依據(jù)。目前對交通事故持續(xù)時間的研究主要集中在事故影響因素分析[2]、事故持續(xù)時間計算方法[3]、降低交通事故損失[4]等方面,然而現(xiàn)有研究主要針對城市道路交通事故,對高速公路交通事故持續(xù)時間計算方法的研究不足。
不同于城市道路,高速公路交通感知、管控設(shè)施較少,交通流密度低、流速大,事故形態(tài)相對單一,由此導(dǎo)致城市道路交通事故與高速公路交通事故持續(xù)時間的影響因素存在差異[5],城市道路交通事故持續(xù)時間相關(guān)研究成果不適用于高速公路交通事故管理。除上述原因外,目前交通事故持續(xù)時間計算方法還存在計算復(fù)雜、模型穩(wěn)定性差等問題[6]。
根據(jù)交通事故發(fā)生和處理過程,通常將交通事故持續(xù)時間劃分為事件檢測、事件響應(yīng)、事件清除3個階段,其大小由事故類型和當(dāng)?shù)亟还懿块T的應(yīng)急服務(wù)水平?jīng)Q定[7]。在建立交通事故持續(xù)時間計算模型時,將交通事故持續(xù)時間影響因素劃分為交通事故特征、交通環(huán)境特征、交通狀況特征以及道路特征[8]4個部分,各個特征又包含不同變量。重要性較大的變量組合能夠顯著提高模型計算精度[9]。隨機(jī)森林和隨機(jī)生存森林[10]、貝葉斯網(wǎng)絡(luò)[11]、參數(shù)加速失效模型[12]等方法均可用于特征變量選擇。
交通事故持續(xù)時間計算方法的適用性決定了模型計算結(jié)果的準(zhǔn)確性。按照統(tǒng)計方法,交通事故持續(xù)時間計算模型可分為概率模型和非概率模型。決策樹[13]、邏輯加速時間度量模型[14]、離散選擇模型[15]是概率模型。線性回歸模型[16]、時間序列模型[17]以及神經(jīng)網(wǎng)絡(luò)[18]是非概率模型。模糊Logistic回歸模型[19]既可看作是概率模型,又可看作是非概率模型。受事故類型和交通環(huán)境差異影響,交通事故持續(xù)時間計算結(jié)果為一定誤差范圍內(nèi)的估計值,對事故持續(xù)時間概率計算模型的應(yīng)用研究越來越多。
本研究首先對貴州省高速公路交通事件持續(xù)時間分布進(jìn)行了統(tǒng)計;其次,根據(jù)高速公路交通事故檔案信息建立事故持續(xù)時間初始變量集,基于XGBoost方法對事故持續(xù)時間特征變量進(jìn)行選擇,建立了高速公路交通事故持續(xù)時間計算模型,并對各特征變量的敏感性進(jìn)行了分析;最后,對模型性能和穩(wěn)定性進(jìn)行檢驗,建立了交通事故持續(xù)時間快速計算方法。
統(tǒng)計貴州省路網(wǎng)中心2020年8月1日至2021年7月31日記錄的6 582條高速公路交通事件信息。每條數(shù)據(jù)包含事件初報和終報時間、事件地點、事件概況、事件類型、傷亡情況等要素。為了提高模型計算精度,對交通事件信息進(jìn)行預(yù)處理。從描述性的事件概況中提取事件發(fā)生時間、事件發(fā)生位置以及車輛類型,消除事件發(fā)生和清除時間不明、事件類型等關(guān)鍵信息缺失的異常數(shù)據(jù),刪除發(fā)生在高速公路服務(wù)區(qū)、收費站站前廣場等路外數(shù)據(jù)。為了避免異常值對計算結(jié)果產(chǎn)生影響,刪除事件持續(xù)時間大于10 h的數(shù)據(jù),最終得到6 332條有效數(shù)據(jù)。以50 min為間隔,繪制事件持續(xù)時間頻數(shù)分布直方圖,如圖1所示。
圖1 事件持續(xù)時間頻數(shù)分布直方圖
圖1顯示,隨著事件持續(xù)時間的增加,事件頻數(shù)迅速下降。事件持續(xù)時間主要集中在100 min以內(nèi),其中頻數(shù)最大值出現(xiàn)在50 min以內(nèi)。按照事件類型和事件發(fā)生的主要原因,將交通事件劃分為道路交通事故、地質(zhì)災(zāi)害、氣象災(zāi)害、交通設(shè)施安全事件。處理后的各事件信息均包括事件發(fā)生時間、事件清除時間、事件類別、事件類型、事件地點、傷亡情況、涉及車輛類型、事件發(fā)生位置、事件阻塞車道數(shù)等信息。
不同事件類別持續(xù)時間分布特征統(tǒng)計結(jié)果,如表1所示。表1顯示,道路交通事故是平均持續(xù)時間最短的一類事件,地質(zhì)災(zāi)害事件和交通設(shè)施安全事件平均持續(xù)時間較長。除交通事故外,其他事件占交通事件總數(shù)的12.93%,表明交通事故是最常發(fā)生的一類事件。以下主要對交通事故持續(xù)時間計算方法進(jìn)行研究。
表1 事件持續(xù)時間分布統(tǒng)計
由處理后的貴州省高速公路交通事件數(shù)據(jù)篩選得到交通事故數(shù)據(jù)集,按照交通事故特征、環(huán)境特征、交通狀況特征以及道路特征構(gòu)建事故持續(xù)時間的初始變量集。事故特征構(gòu)成要素有事故類型、事故發(fā)生時段、受傷人數(shù)、死亡人數(shù)、涉及車輛類型、事故發(fā)生位置、剩余車道數(shù);環(huán)境特征要素有能見度、氣溫、雨量、路面濕滑程度;交通狀況特征要素有分車道流量、車型構(gòu)成比例;道路特征要素包括道路類型、道路幾何特征。
根據(jù)事件信息記錄表,對各影響因素進(jìn)行細(xì)分,建立交通事故持續(xù)時間初始變量集,其中環(huán)境特征和交通狀況特征數(shù)據(jù)來源于高速公路沿線氣象觀測站和交通調(diào)查系統(tǒng),道路特征數(shù)據(jù)來源于公路工程設(shè)計文件,結(jié)果見表2。
表2 交通事故持續(xù)時間初始變量集
極限梯度提升樹(XGBoost)是梯度提升決策樹(GBDT)的一個變種,屬于順序化的集成學(xué)習(xí)構(gòu)建方法。同GBDT相比,最大的區(qū)別是XGBoost通過對目標(biāo)函數(shù)中的結(jié)構(gòu)損失函數(shù)做二階泰勒展開,大大提高了模型的可擴(kuò)展性、收斂速度和計算精度。
基于XGBoost的交通事故持續(xù)時間計算方法,主要包括特征變量選擇和模型構(gòu)建與參數(shù)調(diào)優(yōu)兩個步驟。以處理后的初始交通事故數(shù)據(jù)構(gòu)建樣本庫,隨機(jī)抽取50%的樣本數(shù)據(jù)用于模型訓(xùn)練,另一半數(shù)據(jù)用于模型測試。算法流程為:
(1)對原始事故信息進(jìn)行預(yù)處理,構(gòu)建初始變量訓(xùn)練集;基于XGBoost進(jìn)行特征變量重要程度排序及選擇。
XGBoost通過計算各特征變量給分裂節(jié)點帶來信息增益的加權(quán)平均值,得到每個特征變量的重要性得分。特征變量重要性分?jǐn)?shù)越高,其在模型構(gòu)建中的價值越大。在特征變量按重要程度降序排列的基礎(chǔ)上,依次計算由1個最重要特征變量至所有特征變量構(gòu)建模型時的計算結(jié)果準(zhǔn)確率,選擇模型計算準(zhǔn)確率最大時的特征變量作為變量篩選結(jié)果。
所得特征變量重要程度降序排列為:1,7,12,3,4,6,5,2,15,13,14,8,11,10,9,表明事故特征對事故持續(xù)時間的影響最大。圖2為模型計算準(zhǔn)確率Rk隨變量個數(shù)N的變化曲線,當(dāng)變量個數(shù)由15減至7時,刪除不重要變量能夠減小冗余信息對算法帶來的影響,模型計算準(zhǔn)確率增加;當(dāng)變量個數(shù)由7減至1時,隨著重要特征變量被刪除,模型計算準(zhǔn)確率下降;當(dāng)變量個數(shù)為7時,曲線有最大值。因此,事故類型、剩余車道數(shù)、服務(wù)水平、死亡人數(shù)、受傷人數(shù)、涉及車輛類型、事故發(fā)生位置即為篩選得到的交通事故持續(xù)時間特征變量。
圖2 模型計算準(zhǔn)確率與變量個數(shù)之間的關(guān)系
(2)使用篩選得到的7個特征變量構(gòu)建訓(xùn)練集來訓(xùn)練XGBoost,通過粒子群算法(PSO)優(yōu)化模型參數(shù)。
在給定的包含n個樣本和m個特征變量的數(shù)據(jù)集D={(xi,yi)}(|D|=n,xi∈Rm,yi∈R)中,集成樹模型通過K步得到模型的計算值,如式(1)所示。
(1)
(2)
(3)
通過枚舉決策樹每個葉節(jié)點中所有特征的可能分割方案,計算分裂前后目標(biāo)函數(shù)的收益,以收益最大的特征作為分裂特征,用該特征的最佳分裂點作為結(jié)點的分裂位置,生成回歸樹模型。使用平均絕對百分誤差(MAPE)評估模型計算準(zhǔn)確率,MAPE值越小,模型計算準(zhǔn)確率越高。
采用PSO算法優(yōu)化模型參數(shù),訓(xùn)練得到的模型計算誤差率隨迭代次數(shù)的變化關(guān)系,如圖3所示。當(dāng)?shù)螖?shù)為56時,模型計算誤差率取得最小值29.5%,此時模型參數(shù)達(dá)到最優(yōu)。
圖3 計算誤差率曲線
通過XGBoost算法,可得到事故持續(xù)時間特征變量的重要程度序列。對篩選得到的交通事故持續(xù)時間特征變量進(jìn)行敏感性分析,計算PSO算法優(yōu)化后的各變量系數(shù)的指數(shù)值,得到不同特征變量對事故持續(xù)時間的影響程度,即當(dāng)特征變量的取值改變1個單元時,事故持續(xù)時間變化的百分比,并使用指數(shù)系數(shù)進(jìn)行表示,用于表征事故持續(xù)時間對特征變量的乘法效應(yīng)估計。特征變量敏感性分析結(jié)果如表3所示。
表3 特征變量敏感性分析
表3顯示,剩余車道數(shù)的增加、因涉及車型變化可能導(dǎo)致事故產(chǎn)生的人員傷亡和財產(chǎn)損失的減少,可降低交通事故持續(xù)時間,其余變量的變化將增加事故持續(xù)時間。死亡人數(shù)增加1人,引起的事故持續(xù)時間指數(shù)系數(shù)值為+e0.097,即事故持續(xù)時間將增加10.2%。同時,剩余車道數(shù)的變化引起的事故持續(xù)時間指數(shù)系數(shù)值為e-0.154,即85.7%,意味著剩余車道數(shù)每增加1條,事故持續(xù)時間將減少14.3%。
統(tǒng)計交通事故持續(xù)時間計算模型在一定誤差范圍內(nèi)的平均絕對百分誤差(MAPE)。劃分10,20,30,40,50 min共5個誤差區(qū)間,按照事故持續(xù)時間小于50,50~120,120~300,300~600 min將交通事故劃分為不同等級。基于XGBoost的交通事故持續(xù)時間計算結(jié)果誤差率,如表4所示。
當(dāng)MAPE小于等于20%時,可認(rèn)為模型計算性能較好;當(dāng)MAPE位于21%~50%之間時,可認(rèn)為模型計算結(jié)果合理[22]。由表4可知,當(dāng)交通事故持續(xù)時間小于120 min時,此結(jié)果是可接受的,計算結(jié)論可作為制訂事故發(fā)生后交通分流與管控方案的決策依據(jù)。但當(dāng)交通事故持續(xù)時間大于120 min時,模型計算結(jié)果的MAPE大于50%,這主要是由于持續(xù)時間大于120 min的交通事故樣本量小,特征變量構(gòu)成復(fù)雜等原因造成的。
表4 交通事故持續(xù)時間計算結(jié)果誤差率
為了驗證XGBoost交通事故持續(xù)時間計算方法的性能,采用鄰近算法(KNN)和隨機(jī)森林(RF)作為對比算法。不同模型在不同事故持續(xù)時間及誤差范圍內(nèi)的計算準(zhǔn)確率,結(jié)果如圖4所示。在不同事故持續(xù)時間和誤差范圍下,XGBoost模型的計算準(zhǔn)確率高于KNN和RF。當(dāng)交通事故持續(xù)時間大于120 min 時,模型計算準(zhǔn)確率在各誤差范圍內(nèi)均下降至較低值。通過擴(kuò)大樣本量,對事故特征進(jìn)行更加精細(xì)化的劃分,可提高此類事故持續(xù)時間的計算準(zhǔn)確率。
圖4 不同模型事故持續(xù)時間計算結(jié)果對比
受不同地區(qū)、不同時期交通運行環(huán)境差異影響,交通事故持續(xù)時間計算模型的變量系數(shù)可能不同,因此需要對模型時空穩(wěn)定性進(jìn)行檢驗。兩個地區(qū)相同時期模型空間穩(wěn)定性檢驗的對數(shù)似然比公式,如式(4)所示。
LRD=-2[LL(βD)-LL(βa)-LL(βb)],
(4)
式中,LL(βa)和LL(βb)分別為使用a地區(qū)和b地區(qū)的交通事故數(shù)據(jù)估計模型收斂時的對數(shù)似然;LL(βD)為兩個地區(qū)所有的事故數(shù)據(jù)估計模型收斂時的對數(shù)似然。LR近似服從χ2(k)分布,其自由度k與篩選得到的事故持續(xù)時間特征變量個數(shù)相同。當(dāng)顯著性水平α取0.05時,查表可得模型區(qū)域穩(wěn)定性對數(shù)似然比檢驗的臨界值。
a地區(qū)數(shù)據(jù)為上述研究使用的貴州省2020年8月1日—2021年7月31日記錄的5 513條高速公路交通事故信息,b地區(qū)數(shù)據(jù)為山東省2020年8月1日—2021年7月31日記錄的3 423條高速公路交通事故信息。不同地區(qū)模型系數(shù)χ2(k)的檢驗結(jié)果,如表5所示。
表5 算法空間穩(wěn)定性檢驗
同一地區(qū)不同時期模型時間穩(wěn)定性檢驗的對數(shù)似然比公式,如式(5)所示。
LRt=-2[LL(βT)-LL(βa)-LL(βc)],
(5)
式中,LL(βa)同式(4),LL(βc)為貴州省2017年10月1日—2018年9月30日記錄的6 867條高速公路事故數(shù)據(jù)估計模型收斂時的對數(shù)似然;LL(βT)為兩個時間段內(nèi)所有事故數(shù)據(jù)估計模型收斂時的對數(shù)似然。不同時期模型系數(shù)χ2(k)的檢驗結(jié)果,如表6所示。
表6 算法時間穩(wěn)定性檢驗
同一時期不同地區(qū)的模型系數(shù)隨地區(qū)轉(zhuǎn)移不具有穩(wěn)定性,但同一地區(qū)不同時期的模型系數(shù)隨時間轉(zhuǎn)移具有穩(wěn)定性。在模型空間穩(wěn)定性檢驗時,貴州交通事故數(shù)據(jù)檢驗山東模型系數(shù)的P值大于山東數(shù)據(jù)檢驗貴州模型系數(shù)的P值。這可能是因為貴州位于我國西南部,其地形、氣候、交通環(huán)境更加多樣,交通事故數(shù)據(jù)包含的信息更加全面,事故持續(xù)時間計算模型的適應(yīng)性更好。
交通事故持續(xù)時間是指從交通事故發(fā)生至事故清除的時間,這一概念符合生存分析對生存時間的定義[23]。采用log-logistic函數(shù)對事故持續(xù)時間進(jìn)行計算,事故持續(xù)時間風(fēng)險函數(shù)的log-logistic模型表達(dá)式,如式(6)所示。
(6)
式中,ψ=exp(-β′X),X為特征變量組成的列向量;β為參數(shù);γ為示形參數(shù),當(dāng)γ<1時,h(t)先增大后減小,當(dāng)γ≥1時,h(t)單調(diào)遞減。
單方事故、事故車輛停駛在硬路肩、路段服務(wù)水平為1級、死亡人數(shù)0人、受傷人數(shù)0人、涉及車型為小客車,事發(fā)位置為基本路段的交通事故是最常見的一類事故,可將此類事故看作基準(zhǔn)事故。風(fēng)險函數(shù)h(t)是風(fēng)險的一種度量,在時刻t1和時刻t2之間,h(t)越大,則事故清除(失效)發(fā)生的風(fēng)險也越大?;鶞?zhǔn)事故持續(xù)時間的失效風(fēng)險如圖5所示,估算模型的拐點為29 min。意味著當(dāng)事故持續(xù)時間超過29 min時將被很快清除,所以可認(rèn)為基準(zhǔn)事故的持續(xù)時間為29 min。
圖5 基準(zhǔn)事故持續(xù)時間的失效風(fēng)險
事故持續(xù)時間的風(fēng)險率隨時間先增加后減小,表明示形參數(shù)γ小于1。根據(jù)交通事故持續(xù)時間特征變量敏感性分析結(jié)果,類比基準(zhǔn)事故特征變量以及基準(zhǔn)事故持續(xù)時間,建立交通事故持續(xù)時間計算模型,如式(7)所示。
t=29×(1+0.240(a1-1)-0.143(a2-3)+
0.141(a3-1)+0.102(a4-1)+0.058(a5-1)-
0.033(a6-4)+0.025(a7-2)),
(7)
式中,a1~a7的含義同表3,取值方法見表2。當(dāng)交通事故發(fā)生時,高速公路管理人員可根據(jù)所發(fā)生的交通事故特征變量,快速進(jìn)行事故持續(xù)時間計算。例如,事故類型為兩車追尾、事發(fā)路段剩余1條通行車道、路段服務(wù)水平為3級、死亡人數(shù)0人、受傷人數(shù)2人、涉及車型為貨車、事發(fā)位置為基本路段的事故持續(xù)時間計算方法,如式(8)所示。
t=29×(1+0.24×(2-1)-0.143×(2-3)+
0.141×(2-1)+0.102×(1-1)+0.058×
(3-1)-0.033×(3-4)+0.025×(2-2))=49 min。
(8)
本研究對高速公路交通事故持續(xù)時間計算方法進(jìn)行了分析。利用貴州和山東省高速公路交通事件檔案,交通和氣象觀測站統(tǒng)計數(shù)據(jù)以及高速公路設(shè)計文件,構(gòu)建了包含4類15項事故持續(xù)時間影響因素的初始變量集。通過統(tǒng)計學(xué)習(xí)方法進(jìn)行變量選擇,建立了包含事故類型、剩余車道數(shù)、服務(wù)水平、死亡人數(shù)、受傷人數(shù)、涉及車輛類型、事故發(fā)生位置等7個變量在內(nèi)的極限梯度提升樹交通事故持續(xù)時間計算模型,并對模型性能進(jìn)行了檢驗。得到的基本結(jié)論有:
(1)將交通事件劃分為道路交通事故、氣象災(zāi)害、地質(zhì)災(zāi)害、公路設(shè)施安全事件,交通事件發(fā)生頻數(shù)和事件持續(xù)時間統(tǒng)計結(jié)果表明,交通事故是平均持續(xù)時間最短、發(fā)生頻次最高的一類事件。
(2)特征變量篩選結(jié)果表明,交通事故特征和交通狀況特征對事故持續(xù)時間的影響程度高于道路特征和環(huán)境特征;根據(jù)所發(fā)生的交通事故特征,由變量敏感性分析結(jié)果、基準(zhǔn)事故持續(xù)時間,可快速進(jìn)行事故持續(xù)時間計算。
(3)由于不同省份不同時期交通事故持續(xù)時間影響因素存在差異,所建交通事故持續(xù)時間計算模型具有時間穩(wěn)定性,但不具備空間穩(wěn)定性。