靳文舟,裴曉航,湯左淦,2,姚尹杰
1)華南理工大學土木與交通學院,廣東廣州 510640;2)深圳市城市交通規(guī)劃設計研究中心,廣東深圳 518057
交通事故會造成巨大的人員傷亡和財產損失,因此,交通傷害程度的影響因素分析非常重要[1].已有研究主要從人、車、路和環(huán)境要素出發(fā),探討各因素對交通事故傷害程度的影響.如馬柱等[2]分析了天氣、能見度等環(huán)境因素和道路條件、道路橫斷面等道路特征與城市事故傷害程度的關系.馮忠祥等[3]分析了環(huán)境因素對繞城高速公路事故傷害程度的影響.溫惠英等[4]以翻車事故為研究對象,分析人、車、路、環(huán)境及事故特征對事故傷害程度的影響.HOSSEINPOUR等[5]建立對象碰撞事故傷害程度模型,發(fā)現道路特征及事故周邊環(huán)境與事故傷害程度顯著相關.以上研究僅分析單一因素對事故傷害程度的影響,較少考慮因素間的交互作用.
目前,交通事故傷害程度的建模方法主要為logit/probit模型及其拓展形式,包括二元logit模型[3]、巢式logit模型[6]、有序logit模型[7-9]、隨機參數logit模型[10]及潛類別logit模型.也有研究采用機器學習方法對交通傷害程度進行分類預測,如SVM[12]與決策樹模型[13]等.鮮有機器學習方法和logit模型相結合分析交通事故傷害程度的研究.
在雙車事故中,駕駛員的傷害程度不僅取決于駕駛員自身特征與所駕駛車輛的特征,還取決于對方駕駛員與對方車輛的特征,因此,分析碰撞角色對厘清雙車事故中駕駛員傷害程度的影響因素具有重要意義.一般將事故形態(tài)劃分為正面碰撞、直角碰撞、側面碰撞及追尾碰撞,不同事故形態(tài)對駕駛員事故傷害程度具有不同影響.然而,由于碰撞角色不同,即使同一種事故形態(tài)下,不同車輛中的駕駛員受損傷的特征也不盡相同,如發(fā)生追尾碰撞時,后車(主動撞擊)駕駛員很有可能因為撞擊沖力被向后推至座椅上,易導致頸部受傷.由于此類事故的生物力學特性,后車駕駛員容易遭受更嚴重的事故傷害[14].涉事車型與碰撞角色的關系也非常密切,如當普通小汽車追尾大貨車時,由于車輛高度差異,普通小汽車極有可能碰撞至貨車尾部,使小車被削頂從而導致駕駛員受傷或死亡,而由于離碰撞點位較遠,大貨車駕駛員較不容易受傷[15].
本研究基于中國深圳市的交通事故數據,結合隨機森林(random forest,RF)算法和logit模型的優(yōu)勢,建立考慮碰撞角色交互項效應的雙車事故駕駛員傷害程度模型,著重考慮碰撞角色與事故形態(tài)、車型的交互效應,分析其對駕駛員傷害程度的影響.
隨機森林法也稱為隨機決策森林法,是一種可以同時研究分類和回歸問題的集成學習方法,常被應用于交通事故傷害研究中,用于篩選重要因素[16-17].為避免logit模型出現過擬合情況,本研究采用隨機森林模型,根據因素的重要度選取候選自變量.
隨機森林法通過自助重采樣技術,從原有樣本集N中,有放回地重復隨機抽取T個樣本,以生成新的訓練集(Nt).隨后由T個新的訓練集,生成T個對應的決策樹,最終組成隨機森林模型.算法流程可掃描論文末頁右下角二維碼查看圖S1,具體步驟如下.
步驟1對于一個由X1,X2,…,Xk組成給定樣本集N,通過T次隨機可重復釆樣,構建隨機向量集N1,N2,…,NT.
步驟2基于每一個隨機向量Nt,構建一棵決策樹.
步驟3重復步驟1和步驟2,最終可以得到T棵決策樹.
步驟4運用得到的T棵決策樹分別對輸入變量Xk進行投票.
步驟5通過計算所有投票數,找出所有預測結果中票數最高的值作為輸入變量Xk的分類標簽.
在生成每一顆決策樹時,計算袋外錯誤率,記為EOOB1,同時在為特征Xk加入隨機噪聲后,再次計算該值,記為EOOB2,則特征Xk的重要度為
重復式(1),則可計算出所有特征的重要度,并進行排序.
采用logit模型對駕駛員傷害程度進行建模.首先定義線性潛變量s*為
其中,X為自變量,如事故形態(tài)、使用安全帶及駕駛員年齡等;β為自變量的估計參數集合矩陣;ε是誤差項并服從logistic分布.通過搭建分段函數,建立s*與第i個駕駛員的傷害程度yi的關系為
根據式(2)和式(3)可以推導出yi=1的概率為
其中,?(·)為logistic分布的累積概率分布函數.進一步將式(4)代入logistic分布的概率密度函數,則可得logit模型的一般形式為通過構建式(5)的最大似然函數,并求其極大值即可估計出logit模型的模型參數.
在構建好logit模型后,需要對其擬合優(yōu)度進行檢驗,第1種檢驗方法為計算模型的R2指標,即其中,l為模型的對數似然收斂值;l0為對數似然初值;R2∈[0,1],一般認為當R2≥0.2時,所建立模型的擬合優(yōu)度較高.
第2種檢驗法為似然比檢驗,常用于比較不同模型間的優(yōu)劣,其檢驗公式為
其中,χ2為似然比檢驗統計量.
選取深圳市2018—2020年的一般程序事故為研究樣本.由于研究對象為雙車事故中的駕駛員傷害程度,故需對事故數據進行預處理,步驟如下.
首先,考慮到本研究的雙車事故僅為涉及2輛4輪及以上機動車的一般程序事故,因此,將交通方式涉及摩托車、電動車、行人、三輪電動車、三輪汽車及拖拉機的事故樣本全部刪除,同時刪除單個車輛和涉及多個車輛的事故.
其次,交通事故系統中包含的字段數超過200個,故在正式分析前需要刪除無關字段.同時,剔除相關字段存在缺失數據的樣本,最終剩下2 642個樣本.本研究的因變量為駕駛員傷害程度,分為未受傷、輕傷、重傷和死亡,各類別占比分別為97.74%、3.10%、0.38%和1.78%.輕傷及以上的樣本僅占5.26%,為提高參數估計的準確性,將輕傷、重傷和死亡類別合并為“受傷害”類別,故最終因變量包含兩類,分別為未受傷和受傷害.
本研究選取中央隔離設施、主要違法行為、次要違法行為、事故形態(tài)、事故責任、交通控制方式、交通方式、人員類型、號牌種類、在碰撞中角色、天氣、安全保護裝置使用情況、性別、年齡、文化程度、是否超載、橫斷面位置、照明條件、能見度、血液酒精含量、行政區(qū)劃分、路側防護設施類型、路表情況、路面狀況、車輛使用性質、車輛間事故碰撞形態(tài)、道路類型、道路線形及駕齡共29個因素作為隨機森林模型的特征輸入.
進行隨機森林模型訓練前,將所有自變量轉化為離散變量.對于二分類自變量,如是否超載,在模型擬合時可直接納入模型;而對于m類自變量,則需進行啞元轉換,只能納入m-1個虛擬變量,見表1.考慮到本研究中大部分自變量包含多個類別,若直接將全部虛擬變量納入模型,會使模型過于龐大,導致模型過擬合.因此,建模前先利用隨機森林模型計算每個虛擬變量的重要度,根據排序確定最終納入模型擬合的自變量.
表1 啞元變量事故責任轉換賦值Table1 Assignment transform of dummy variable crash duty
利用Python中的sklearn包構建隨機森林模型,由于模型主要目的是通過計算特征變量的重要度來篩選候選自變量,故不報告隨機森林模型結果.選取重要度閾值為0.02,最終選取前24個重要度較高的虛擬變量作為候選自變量,結果可掃描論文末頁右下角二維碼查表S1.
首先,將候選自變量全部納入logit模型中擬合,分別選取90%、95%和99%為置信水平,并利用最大似然法進行模型參數估計,結果見表2中的模型1.結果顯示,部分責任、全部責任、被撞、貨車、追尾碰撞、3~10 a駕齡、能見度≤100 m、碰撞運動車輛、高中及以上學歷、高快速路、使用安全帶、側面碰撞、路側無防護、無路燈照明與駕駛員傷害程度顯著相關.
表2 模型參數估計結果1)Table2 Model estimation results
為研究碰撞角色與車型和事故形態(tài)對雙車事故駕駛員傷害程度的交互影響,分別建立僅包含碰撞角色與車型交互項的模型2、僅包含碰撞角色與事故形態(tài)的模型3和包含兩個交互項的模型4.結果顯示,碰撞角色與車型的交互項和碰撞角色與事故形態(tài)的交互項均在99%的置信水平上顯著.
模型1是基礎模型,目的在于估計各解釋變量對因變量的凈效應;模型2和模型3均為交互效應模型,分別估計碰撞角色與其他主要解釋變量(車型和事故形態(tài))的交互效應,從而檢驗碰撞角色對駕駛員傷害程度的影響是否在不同車型與事故形態(tài)下存在顯著的差異性.模型4是包含所有解釋變量和交互項的最終模型.根據模型1至模型4的相關統計量結果(見表3),隨著交互項的增加,擬合優(yōu)度增加較明顯,從模型1的0.292增至模型4的0.322.為驗證模型4優(yōu)于模型1,本研究還進行了似然比檢驗,結果見表4.可見,加入交互項的模型4在100%的置信水平上優(yōu)于模型1,且赤池信息量(Akaike information criterion,AIC)和貝葉斯信息量(Bayesian information criterion,BIC)低于模型1,表明考慮交互項模型的擬合優(yōu)度更高.似然比檢驗結果:χ(2)=65.6(P=0.000 0)
表3 相關模型統計量Table3 Summary of model statistics
表4 似然比檢驗結果Table 4 LR test results
1)碰撞角色.當不包含交互項時,“被撞”的參數估計為-0.984,符號為負,表明相比于主動碰撞的駕駛員,被撞車輛中的駕駛員受傷害的概率將降低62.6%,這主要是因為被撞車輛的后備箱和后排座位具有緩沖作用,而碰撞車輛中駕駛員離碰撞點位更近,故被撞車輛的駕駛員更不易受傷.
當加入交互項后,該效應同樣存在.“被撞與貨車交互項”的系數為-0.758,且在99%的置信水平上顯著,表明當被撞車輛為貨車時,貨車中的駕駛員遭受傷害的概率更低,這主要是因為貨車的質量大且更穩(wěn)定,撞擊發(fā)生時貨車駕駛員受到的沖擊力更小.當發(fā)生追尾碰撞時,該效應更明顯.前車駕駛員遭受傷害的概率將降低89.3%.
2)事故責任.部分責任和全部責任均顯著影響駕駛員傷害程度,但兩者的符號相反.負全部責任的駕駛員遭受傷害的概率更低,更容易導致另一方受傷害,這與前人研究結果一致[18].當駕駛員負部分責任時,駕駛員遭受傷害的概率更高.
3)車型.在僅考慮車型條件下,貨車駕駛員更容易遭受傷害,這主要是由于貨車自身的質量大和幾何結構復雜而具備更高的攻擊性所導致.
4)事故形態(tài).相比側面碰撞和直角碰撞,涉及追尾碰撞的駕駛員更容易遭受傷害,這是由于追尾碰撞的原因大多為速度較快,未控制好車距所致[7].
5)駕齡.“3~10 a駕齡”的系數為正,且在90%的置信水平上顯著,表明相比于10 a以上駕齡,3~10 a駕齡的駕駛員更容易發(fā)生嚴重事故.
6)能見度.“能見度<100 m”的系數為-0.718,表明低能見度下駕駛員遭受傷害的概率更低,這是因為低能見度條件下,駕駛員出于謹慎會降低車速行駛,故發(fā)生碰撞時的后果不嚴重.
7)車輛間碰撞形態(tài).相比于運動車輛碰撞靜止車輛,運動車輛間碰撞會導致駕駛員遭受傷害的可能性提高71.6%.
8)學歷.高中及以上學歷的參數估計為0.474,且在90%的置信水平上顯著,表明高中學歷人群遭受傷害的概率更高.
9)道路等級.當雙車事故發(fā)生在高快速路時,駕駛員遭受傷害的概率將是其他道路等級的2.49倍.這是因為高快速路為封閉型道路,車輛行駛速度較高,高速運動車輛間的碰撞后果往往更嚴重.
10)安全保護裝置使用.使用安全帶會顯著降低駕駛員的受傷害程度.事故樣本中有81.42%的駕駛員使用了安全帶,這主要得益于深圳市的嚴格道路執(zhí)法.
11)路側防護設施類型.當事故發(fā)生在無防護的道路上時,駕駛員遭受傷害的概率更低.這主要由于無防護道路多為低等級道路,如支路或內部道路,低等級道路的機動車間碰撞事故嚴重性較低.
12)照明條件.相比于良好的光線條件(白天和夜間有路燈照明)下,夜間無路燈照明條件下駕駛員遭受傷害的概率將會增加153.2%.
本研究基于深圳市2018—2020的雙車事故碰撞數據,利用隨機森林模型計算特征變量的重要度并進行排序,據此初步篩選24個特征變量作為候選自變量.考慮碰撞角色的交互效應,建立駕駛員傷害程度的logit模型,結果表明,建立的logit模型具有較好的擬合優(yōu)度,且優(yōu)于不含交互項的模型.模型估計結果顯示碰撞角色、事故責任、車型、事故形態(tài)、駕齡、能見度、車輛間碰撞形態(tài)、學歷、道路等級、安全保護裝置使用情況、路側防護設施類型及照明條件與雙車事故駕駛員傷害程度顯著相關.碰撞角色與車型和事故形態(tài)的交互項均顯著,且均與駕駛員傷害程度呈負相關.
本研究僅考慮“碰撞角色”與事故形態(tài)、車型的交互作用對駕駛員傷害程度的影響,接下來可通過引入其他交互項進行分析,以便更深入分析其他交互項對雙車駕駛員傷害程度的影響機理.