韓天園,呂凱光,許江超,李 旋,喬 潔
(長(zhǎng)安大學(xué) 汽車(chē)學(xué)院,陜西 西安 710064)
近年來(lái),隨著我國(guó)道路交通基礎(chǔ)設(shè)施和安全法規(guī)的不斷完善,交通安全形勢(shì)整體有所改善,但事故平均傷害程度卻保持了平緩的增長(zhǎng)[1],與發(fā)達(dá)國(guó)家相比,我國(guó)交通事故死亡率相對(duì)較高[2]。大量傷亡事故不僅直接危害交通參與者的生命財(cái)產(chǎn)安全,還影響正常的社會(huì)生產(chǎn)和生活[3]。此外,我國(guó)人口、道路里程、機(jī)動(dòng)車(chē)保有量等方面尚有較大的增長(zhǎng)空間,交通事故傷亡人數(shù)存在上升的潛在威脅[4]。探究事故規(guī)律有利于排查安全隱患和保障交通安全。
目前,計(jì)算機(jī)仿真、駕駛評(píng)價(jià)和事故大數(shù)據(jù)挖掘是交通事故預(yù)防和預(yù)測(cè)的3種理論依據(jù)。趙樹(shù)恩等[5]提出基于人車(chē)路協(xié)同的車(chē)輛彎道安全車(chē)速模型,并基于Trucksim驗(yàn)證模型的可行性;Battiato等[6]通過(guò)車(chē)載監(jiān)控錄像評(píng)價(jià)行駛安全,計(jì)算車(chē)輛道路運(yùn)行的交通事故風(fēng)險(xiǎn);Kaur等[7]通過(guò)分析事故數(shù)據(jù)的時(shí)空分布,進(jìn)而預(yù)測(cè)和預(yù)防事故發(fā)生。仿真和主客觀評(píng)價(jià)雖然能夠先于事故發(fā)現(xiàn)部分隱患,但過(guò)于簡(jiǎn)化的模型并不能解釋某些事故特征間的相關(guān)性。事故數(shù)據(jù)是道路交通安全的直接反映,挖掘事故數(shù)據(jù)有利于揭示事故特征的實(shí)際關(guān)系與潛在聯(lián)系[8]。
針對(duì)事故因素的相關(guān)關(guān)系與因果關(guān)系的挖掘被廣泛應(yīng)用于事故描述、解釋、預(yù)測(cè)和預(yù)防[9]。如基于聚類(lèi)算法、關(guān)聯(lián)規(guī)則、自然語(yǔ)言處理等算法的事故生成規(guī)則探究[10],基于樸素貝葉斯、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)等算法的事故幾率和嚴(yán)重程度預(yù)測(cè)[11]。多種機(jī)器學(xué)習(xí)方法的組合能有效克服單一算法的缺陷,增強(qiáng)算法的適用性,進(jìn)而提高事故分析和預(yù)測(cè)的可靠性[12]。Rusli等[13]基于邏輯回歸與決策樹(shù)探究發(fā)現(xiàn)長(zhǎng)大下坡及彎坡路段的坡長(zhǎng)與事故傷害呈正比,且正面碰撞傷害高于追尾碰撞;Xu等[14]運(yùn)用卡方檢驗(yàn)、聚類(lèi)和關(guān)聯(lián)規(guī)則分析事故駕駛員、車(chē)輛、道路等數(shù)據(jù)關(guān)系,從人、車(chē)、路3方面提出事故預(yù)防的具體措施;AlKheder等[15]基于決策樹(shù)發(fā)現(xiàn)行人、老年司機(jī)和前排乘客更容易受到嚴(yán)重或致命的傷害,貝葉斯網(wǎng)絡(luò)比支持向量機(jī)預(yù)測(cè)事故傷害更準(zhǔn)確。
本文以2 467條涉及人員傷亡的道路交通事故數(shù)據(jù)為數(shù)據(jù)集,運(yùn)用Apriori關(guān)聯(lián)規(guī)則分析和社會(huì)網(wǎng)絡(luò)分析探究受傷事故和死亡事故的生成規(guī)則及其網(wǎng)絡(luò)關(guān)系,并基于樹(shù)型貝葉斯網(wǎng)絡(luò)預(yù)測(cè)事故傷害程度,為事故預(yù)防和預(yù)測(cè)提供理論依據(jù)。
從長(zhǎng)安大學(xué)機(jī)動(dòng)車(chē)事故鑒定中心收集2 654條涉及人員傷亡的道路交通事故數(shù)據(jù),通過(guò)數(shù)據(jù)清洗剔除無(wú)效和冗余數(shù)據(jù),共篩選出包含17個(gè)特征維度的2 467起事故數(shù)據(jù)。
為探究事故傷害程度與道路條件、交通環(huán)境、時(shí)間規(guī)律等因素的相關(guān)性,選擇16個(gè)特征因素(A~P)為自變量,見(jiàn)表1。以交通事故傷害嚴(yán)重程度為因變量,《道路交通事故信息調(diào)查》(GA/T 1082—2021)將事故分為財(cái)產(chǎn)損失事故、受傷事故和死亡事故3個(gè)等級(jí),由于缺少財(cái)產(chǎn)損失事故數(shù)據(jù),因此因變量分為受傷事故Y1和死亡事故Y2。
表1 事故因素的數(shù)據(jù)詳情
從時(shí)間分布分析,5月交通事故發(fā)生最多,1月的死亡事故率最高,7月的死亡事故率最低,月份-事故分布如圖1所示;在工作日的事故頻數(shù)明顯高于非工作日,星期-事故分布如圖2所示;11時(shí)與17時(shí)左右是事故發(fā)生的2個(gè)高峰期,凌晨死亡事故率更高,2時(shí)的死亡事故率高達(dá)56%,時(shí)間-事故分布如圖3所示。
圖1 月份-事故分布
圖2 星期-事故分布
圖3 時(shí)間-事故分布
從空間分布分析,城市公路事故量占比最大,高速公路死亡事故率明顯更高,道路分類(lèi)-事故分布如圖4所示;道路最高限速越大,死亡事故率越高,最高限速等級(jí)-事故分布如圖5所示;交叉路段和丁字路口是事故發(fā)生的主要場(chǎng)景,坡道路段死亡事故率顯著,且上坡路段死亡事故率高于下坡路段,道路特征-事故分布如圖6所示;水泥路面死亡事故率最低,未鋪砌路面死亡事故率最高,道路兩側(cè)路面情況-事故分布如圖7所示。
圖4 道路分類(lèi)-事故分布
圖5 最高限速等級(jí)-事故分布
圖6 道路特征-事故分布
圖7 兩側(cè)路面情況-事故分布
從交通環(huán)境分布分析,干路面死亡事故率只有結(jié)冰(霜)路面的1/3,路面情況-事故分布如圖8所示;車(chē)流量小(個(gè)別車(chē)輛)時(shí)事故占比最大,而交通堵塞時(shí)死亡事故率最高,達(dá)到44%,車(chē)流量-事故分布如圖9所示;雪天的死亡事故率明顯高于其他天氣,天氣-事故分布如圖10所示。
圖8 路面情況-事故分布
圖9 車(chē)流量-事故分布
圖10 天氣-事故分布
此外,人行橫道事故的死亡事故率明顯更高,事故類(lèi)型-事故分布如圖11所示;同向刮擦事故數(shù)量最多,而碰撞固定物的死亡事故率最高,事故形態(tài)-事故分布如圖12所示;違規(guī)停車(chē)、其他司機(jī)錯(cuò)誤、違反道路優(yōu)先權(quán)和安全距離不足是事故主要原因,但超速和酒駕的死亡事故率遠(yuǎn)高于其他原因,事故原因-事故分布如圖13所示。
圖11 事故類(lèi)型-事故分布
圖12 事故形態(tài)-事故分布
圖13 事故原因-事故分布
Apriori算法用以掃描數(shù)據(jù)集中滿足最小支持度minSup的頻繁項(xiàng)集和提取頻繁項(xiàng)集中滿足最小置信度minCon的關(guān)聯(lián)規(guī)則。相較于P-Growth,Eclat算法,Apriori可獨(dú)立挖掘數(shù)據(jù)集中的關(guān)聯(lián)規(guī)則,適用于小數(shù)據(jù)集的關(guān)聯(lián)規(guī)則分析。
關(guān)聯(lián)規(guī)則的支持度Support為項(xiàng)集中所有項(xiàng)同時(shí)發(fā)生的概率,如式(1)所示:
Support(A→B)=Support(AB)=P(A∪B)
(1)
式中:A為前項(xiàng);B為后項(xiàng)。
置信度Confidence是A項(xiàng)發(fā)生后B項(xiàng)發(fā)生的條件概率,如式(2)所示:
(2)
提升度Lift用以分析存在前項(xiàng)A時(shí)是否更傾向發(fā)生后項(xiàng)B,如式(3)所示:
(3)
若Lift>1,表明A和B正相關(guān),AB關(guān)聯(lián)規(guī)則有效。
設(shè)置minCon=0.9,以保證挖掘的關(guān)聯(lián)規(guī)則的可靠性。鑒于數(shù)據(jù)死亡事故Y2占比較小,為提高數(shù)據(jù)的利用率和保證關(guān)聯(lián)規(guī)則挖掘的全面性,需要設(shè)置較低的支持度閾值以平衡死亡事故Y2的頻繁項(xiàng)集支持度。
當(dāng)minSup=0.01時(shí),共篩選出26條死亡事故Y2的強(qiáng)關(guān)聯(lián)規(guī)則,其中包括3個(gè)3-項(xiàng)集、9個(gè)4-項(xiàng)集和10個(gè)5-項(xiàng)集和4個(gè)6項(xiàng)集,見(jiàn)表2。關(guān)聯(lián)規(guī)則提升度全部大于5,表明前后項(xiàng)的高相關(guān)性。
表2 死亡事故的關(guān)聯(lián)規(guī)則
當(dāng)最小支持度minSup=0.01時(shí),共挖掘到3 213條受傷事故Y1的關(guān)聯(lián)規(guī)則,因此將Y1的最小支持度提高至0.1,最終提取出33條滿足提升度的強(qiáng)關(guān)聯(lián)規(guī)則,其中包括2個(gè)2-項(xiàng)集、14個(gè)3-項(xiàng)集、13個(gè)4-項(xiàng)集和4個(gè)5-項(xiàng)集,見(jiàn)表3。
表3 受傷事故的關(guān)聯(lián)規(guī)則
社會(huì)網(wǎng)絡(luò)分析及其可視化能夠?qū)δ骋簧鐣?huì)現(xiàn)象的結(jié)構(gòu)與關(guān)系進(jìn)行準(zhǔn)確地量化表征與分析,基于UCINET軟件完成事故傷害關(guān)聯(lián)規(guī)則網(wǎng)絡(luò)的核心-邊緣分析和可視化。通過(guò)計(jì)算網(wǎng)絡(luò)密度分布以區(qū)分網(wǎng)絡(luò)核心和網(wǎng)絡(luò)邊緣,顯示關(guān)聯(lián)規(guī)則中各項(xiàng)的分布與聯(lián)系。社會(huì)網(wǎng)絡(luò)節(jié)點(diǎn)越大,表明關(guān)聯(lián)規(guī)則網(wǎng)絡(luò)中該項(xiàng)的網(wǎng)絡(luò)中心性越高,即在關(guān)聯(lián)規(guī)則的出現(xiàn)頻率越高;節(jié)點(diǎn)連線越粗,表明對(duì)應(yīng)節(jié)點(diǎn)在關(guān)聯(lián)規(guī)則的共現(xiàn)頻率越高。
受傷事故Y1有同向刮擦M5、市區(qū)L1、工作日K1、城市道路B5、匯入/換道事故H3等14個(gè)強(qiáng)關(guān)聯(lián)規(guī)則項(xiàng),共有42條節(jié)點(diǎn)連線,其中M5-L1,M5-K1和M5-B5的共現(xiàn)頻數(shù)大于10,受傷事故的關(guān)聯(lián)規(guī)則網(wǎng)絡(luò)如圖14所示。核心-邊緣分析結(jié)果顯示,Y1,M5和L1是網(wǎng)絡(luò)核心區(qū)域,區(qū)域密度為7.5。
圖14 受傷事故的關(guān)聯(lián)規(guī)則網(wǎng)絡(luò)
死亡事故Y2有碰撞固定物M6、人行橫道事故H4、高速公路B1、高速道路P4、非市區(qū)L2等10個(gè)強(qiáng)關(guān)聯(lián)規(guī)則項(xiàng),29條節(jié)點(diǎn)連線,其中H4-B1,M6-B1,M6-P4,H4-L2和B1-L2共現(xiàn)頻數(shù)大于10,死亡事故的關(guān)聯(lián)規(guī)則網(wǎng)絡(luò)如圖15所示。酒駕N1和超速N12為單獨(dú)的1組關(guān)聯(lián)規(guī)則。核心-邊緣分析結(jié)果顯示,Y2,M6,H4和B1是網(wǎng)絡(luò)核心區(qū)域,區(qū)域密度為7.0。
圖15 死亡事故的關(guān)聯(lián)規(guī)則網(wǎng)絡(luò)
對(duì)比可知,市區(qū)和城市道路易發(fā)生受傷事故,非市區(qū)和高速公路易發(fā)生死亡事故。碰撞固定物和碰撞行人(人行橫道)的傷害程度高于車(chē)輛同向刮擦。超速駕駛提高了事故傷害,而酒駕強(qiáng)關(guān)聯(lián)于超速。由核心-分析可知,相較于受傷事故,死亡事故的網(wǎng)絡(luò)更加簡(jiǎn)單,且網(wǎng)絡(luò)特征更加突出。事故傷害關(guān)聯(lián)規(guī)則分析結(jié)果與事故數(shù)據(jù)預(yù)分析結(jié)果相吻合,表明了APRIORI算法的有效性。
樹(shù)型貝葉斯網(wǎng)絡(luò)(Tree Augmented Naive Bays,TAN)是1種適用于離散數(shù)據(jù)的預(yù)測(cè)模型。TAN中各個(gè)屬性變量既依賴(lài)于類(lèi)屬性,還至多依賴(lài)于1個(gè)非類(lèi)屬性節(jié)點(diǎn),降低了樸素貝葉斯非類(lèi)屬性間的強(qiáng)條件獨(dú)立性假設(shè)要求,如式(4)所示:
(4)
式中:Y為類(lèi)屬性;y為類(lèi)變量值;Ai為非類(lèi)屬性某一類(lèi)別;Bj為Ai依賴(lài)的非類(lèi)屬性的某一類(lèi)別。
樹(shù)型貝葉斯網(wǎng)絡(luò)構(gòu)建主要分為以下4個(gè)步驟:
步驟1:計(jì)算每1組非類(lèi)屬性在給定類(lèi)屬性的條件互信息I(A;B|Y),如式(5)所示:
(5)
步驟2:根據(jù)非類(lèi)屬性間條件互信息值降序排列,依次取出其中的節(jié)點(diǎn)對(duì),基于不產(chǎn)生環(huán)路的原則,構(gòu)建最大權(quán)重生成樹(shù)。
步驟3:選擇任一非類(lèi)屬性作為根節(jié)點(diǎn),將無(wú)向樹(shù)轉(zhuǎn)換為有向樹(shù)。
步驟4:增加類(lèi)屬性節(jié)點(diǎn)和每個(gè)非類(lèi)屬性節(jié)點(diǎn)的有向連接弧,構(gòu)造TAN的網(wǎng)絡(luò)結(jié)構(gòu)。
在樹(shù)型貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)中,如果節(jié)點(diǎn)A依賴(lài)于節(jié)點(diǎn)B,則連接弧由B指向A。
采用SPSS Modeler軟件構(gòu)建事故傷害預(yù)測(cè)的樹(shù)型貝葉斯網(wǎng)絡(luò)模型,如圖16所示。由樹(shù)結(jié)構(gòu)分析可知,事故區(qū)域L與車(chē)流量A,道路分類(lèi)B與事故形態(tài)M、事故季節(jié)J與路面情況G等相連節(jié)點(diǎn)之間存在較強(qiáng)的相關(guān)性。
圖16 事故傷害預(yù)測(cè)的樹(shù)型貝葉斯網(wǎng)絡(luò)模型
由構(gòu)建的樹(shù)型貝葉斯網(wǎng)路預(yù)測(cè)事故的傷害嚴(yán)重程度,是根據(jù)樹(shù)節(jié)點(diǎn)的條件概率逆向計(jì)算傷害程度的分類(lèi)概率。
最終分類(lèi)器的預(yù)測(cè)正確率達(dá)87.56%,表明樹(shù)型貝葉斯網(wǎng)絡(luò)對(duì)事故傷害程度的預(yù)測(cè)效果良好。各事故因素的預(yù)測(cè)重要性如圖17所示。由于道路分類(lèi)B與其他因素的條件互信息值較大,導(dǎo)致信息冗余度較高,因此預(yù)測(cè)重要性降低。
圖17 各事故因素的預(yù)測(cè)重要性
1)對(duì)事故數(shù)據(jù)的可視化分析表明,在時(shí)間分布上,1月份和凌晨0~5時(shí)的事故傷害程度最嚴(yán)重,7月事故傷害程度最低;在道路環(huán)境分布上,道路最高限速與事故傷害程度呈正比,結(jié)冰(霜)路面和坡道路段事故傷害更嚴(yán)重,雪天事故傷害顯著。此外,違規(guī)停車(chē)、其他司機(jī)錯(cuò)誤、違反道路優(yōu)先權(quán)和安全距離不足是事故主要原因,但超速和酒駕的事故傷害明顯更高。
2)對(duì)事故傷害的關(guān)聯(lián)規(guī)則分析表明,受傷事故共有同向刮擦、市區(qū)等14個(gè)強(qiáng)關(guān)聯(lián)規(guī)則項(xiàng),死亡事故共有碰撞固定物、人行橫道事故、高速公路等10個(gè)強(qiáng)關(guān)聯(lián)規(guī)則項(xiàng),但死亡事故的關(guān)聯(lián)規(guī)則的相關(guān)性更高。
3)社會(huì)網(wǎng)絡(luò)分析不僅能夠反映關(guān)聯(lián)規(guī)則的各類(lèi)數(shù)量信息,還能形象表達(dá)規(guī)則項(xiàng)之間的作用關(guān)系。樹(shù)型貝葉斯網(wǎng)絡(luò)考慮了事故因素間相關(guān)性,模型不僅有較高的預(yù)測(cè)準(zhǔn)確性,同時(shí)能夠反映各事故因素的預(yù)測(cè)重要性。
中國(guó)安全生產(chǎn)科學(xué)技術(shù)2021年8期