支 野,王大珊,叢浩哲,饒眾博
(公安部道路交通安全研究中心,北京100062)
中國正處于機動車、駕駛人及道路里程高速增長期,道路交通事故甚至重特大交通事故時有發(fā)生。以2015年道路交通事故統(tǒng)計數據為例,中國道路交通事故數約18.7萬起,死亡人數約5.8萬人,萬車死亡率為2.08,遠高于美國(1.25)、日本(0.53)、德國(0.62)等發(fā)達國家,中國道路交通安全形勢十分嚴峻[1]。開展道路交通事故統(tǒng)計分析工作是預防道路交通事故的有效手段之一。中國每年由公安部交通管理局組織開展道路交通事故統(tǒng)計分析工作,主要是針對交通事故的宏觀形勢進行統(tǒng)計分析[2]。
伴隨著信息技術步入大數據時代,道路交通事故數據也逐漸呈現出數據量龐大、更新速度快、價值豐富等大數據特征[3],傳統(tǒng)以四項指數(事故起數、死亡人數、受傷人數、直接財產損失)為統(tǒng)計內容、以描述性統(tǒng)計為主要方法的分析手段已難以滿足大數據時代道路交通事故統(tǒng)計分析需要。具體表現在:1)數據項缺失。在實際獲取道路交通事故數據過程中,由于多種原因導致數據采集項信息不完整、不準確,致使后續(xù)統(tǒng)計分析結果可信度降低。2)方法單一。事故統(tǒng)計方法以描述性統(tǒng)計為主,難以挖掘事故背后深層次的原因和機理,不能定量化地甄別事故特征因子及建立事故風險預警評價機制。3)結果不實用。事故數據的挖掘分析多注重方法理論研究,但受數據采集限制,無法獲取全項事故數據,因此研究結果一般實用性較單一,沒有針對性,也不利于指導基層開展道路交通事故預防工作。
美國、日本、德國等發(fā)達國家普遍重視交通事故調查與統(tǒng)計分析工作,設有專門的交通安全研究機構,例如美國國家公路交通安全管理局(National Highway Traffic Safety Administration,NHTSA)、日本交通事故研究分析中心(Traffic Accident Research and Analysis Center,TARAC)、德國聯邦公路研究院(Federal Highway Research Institute,BAST)等。這些研究機構普遍建立了道路交通事故分析、預防和評估預警技術體系,統(tǒng)計數據采集全面翔實,較早地將大數據挖掘技術引入事故數據統(tǒng)計分析中,除四項指數等基本統(tǒng)計項外,更加注重挖掘道路交通事故背后潛在的規(guī)律和誘因特征[4-5]。
如何將大數據挖掘技術應用于中國道路交通事故數據分析研判中,為預防事故和降低事故傷亡率提供科學指導,成為新時期公安交管部門面臨的巨大挑戰(zhàn)。本文以深圳市2014—2016年交通事故數據為研究對象,采用Apriori關聯分析算法、貝葉斯理論及模糊聚類等大數據挖掘方法[6],探索性地提出道路交通數據缺失數據項填補、事故傷亡特征因子甄別以及事故危險性評價方法。
本文獲取深圳市2014—2016年交通事故相關數據包括:1)事故描述數據(含事故發(fā)生地點信息,見圖1);2)事故涉事人員信息數據;3)路網地圖數據;4)以日為單位的天氣數據。
經統(tǒng)計,深圳市交通事故信息數據表共有屬性項68項,人員信息數據表共有屬性項88項。為了更好地開展事故數據深度挖掘,主要進行以下預處理工作:1)數據融合。以事故編碼和時空信息為主鍵,將事故記錄信息、涉事人員信息、路網shp數據以及天氣數據進行關聯融合,建立事故信息多維度矩陣。2)數據清洗。刪除缺失率為100%的屬性項,如運載危險品事故后果、是否逃逸等;同時刪除對事故誘因深度挖掘關聯不大的字段,如調解人、文書狀態(tài)等字段,最終選取30個字段(見表1)。若發(fā)現字段中的屬性值不屬于《道路交通管理信息代碼》(GA/T 16.1—2012)(以下簡稱《代碼》)中所規(guī)定的范圍,則置為空。3)數據編碼。對屬性項、分類型屬性值進行編碼化操作,參照規(guī)范建立數據字典表。
在實際道路交通事故數據中,由于各種原因導致出現不同程度的數據缺失,其中非傷亡事故比傷亡事故數據缺失率高,直接降低了數據的可用性,不利于數據深度挖掘分析。本文將缺失的事故數據按照是否具有關聯性分為兩類:一類為隨機型缺失數據,表征事故數據中的獨立信息,與其他屬性項不存在明顯的相關性,例如姓名、民族、車牌號碼等。該類缺失數據理論上無法通過后期分析進行彌補。另一類為關聯型缺失數據,與其他屬性值之間存在潛在的關聯關系,例如事故形態(tài)、交叉口及路段類型、照明條件等,該類缺失數據具有取值范圍固定且取值空間相對狹小等特征,可通過大數據挖掘方法進行一定程度的填補,進而提高道路交通事故數據的完整性。
常見的數據填補方法包括:均值填充、熱卡填充、聚類填充、多重插補等[7]??紤]到事故關聯性缺失數據以分類數據為主,本文采用關聯規(guī)則挖掘進行數據填補。關聯規(guī)則挖掘是數據挖掘的一個重要研究問題,反映一個事物與其他事物之間的相互依賴性或相互關聯性。關聯規(guī)則挖掘大量數據項集之間有趣的關聯或相關聯系,側重于確定數據中不同領域之間的聯系,找出滿足給定支持度和置信度閾值的多個域之間的依賴關系。挖掘關聯規(guī)則是指在數據庫中挖掘具有特定形式的規(guī)則:由于某些事件(要素)的發(fā)生而引起另外一些事件(結果)的發(fā)生。關聯規(guī)則在決策支持系統(tǒng)、專家系統(tǒng)和智能信息系統(tǒng)等方面有著重要的應用價值。
關聯規(guī)則挖掘過程主要包括三個階段:第一階段從數據集中找出所有的頻繁項集,均滿足支持度s≥min_sup,min_sup為支持度閾值;第二階段由這些頻繁項集產生關聯規(guī)則,計算這些關聯規(guī)則的置信度c,然后保留那些滿足c≥min_conf的關聯規(guī)則,min_conf為置信度閾值;第三階段計算關聯規(guī)劃的提升度l,并選取提升度l>1的規(guī)則??紤]到計算效率,本文選用Apriori關聯方法進行事故數據潛在關聯規(guī)則挖掘。具體過程為:1)設定支持度>3%,通過Apriori算法從事故數據挖掘出頻繁項集;2)設定置信度>60%、提升度>1為篩選依據,從頻繁項集中形成事故數據關聯規(guī)則集;3)按照最大事故信息量原則與最小數據缺失項原則,將具體的事故信息與關聯規(guī)則集進行類比,獲得各項缺失數據的最可能值,對缺失的事故數據進行彌補,進而提高道路交通事故數據的完整性。
以填補傷亡事故中的缺失字段屬性值為例,經過Apriori關聯分析得出強關聯且有意義的規(guī)則(見表2)。例如,對于某起傷亡事故,若路表情況字段空缺時,若天氣字段為雨天,則可以用規(guī)則1進行數據填補;若駕齡字段為“小于5年”,則可以用規(guī)則3對數據進行填補,以此類推。經過這種方法處理后,可使事故數據庫中的數據進一步豐富,提高數據完整性。
圖1 深圳市2014—2016年事故點分布Fig.1 Distribution of accident locations in Shenzhen from 2014 to 2016
表1 事故數據屬性項字典表Tab.1 Dictionary of accident attribute data
降低傷亡事故發(fā)生頻率是公安交管工作的重中之重,目前大多使用數理統(tǒng)計方法對道路交通事故傷亡特征因子進行分析,統(tǒng)計傷亡事故發(fā)生概率、分析傷亡事故發(fā)生原因,以此為基礎建立數學模型,來評估道路和交通管理安全性和有效性[8]。但是這種造成傷亡交通事故的違法行為可能多數情況下導致非傷亡事故的概率更高。例如對深圳市傷亡事故中違法行為統(tǒng)計發(fā)現“駕車時有其他妨礙安全行車行為的”約占60%,由此推斷只要有這一違法行為就很可能發(fā)生傷亡事故是不合適的。因為在非傷亡事故中,這一違法行為也大量出現,其與傷亡事故的比值約為143:1,即發(fā)生144次交通事故違法行為為“駕車時有其他妨礙安全行車行為的”時,可能只有一次是傷亡事故。由此可以得出該違法行為作為道路交通事故傷亡特征因子不合適。本文提出基于樸素貝葉斯的事故傷亡特征因子甄別方法:
經挖掘分析,得出事故發(fā)生后造成傷亡率超過80%的前20種傷亡特征因子(見表3),主要涉及違法行為(5種)、人的因素(2種)、車的因素(5種)、路的因素(6種)和環(huán)境因素(2種)。道路交通事故傷亡特征因子能定量化地挖掘事故誘因與事故傷亡情況之間的關聯關系,為基層民警開展事故預防預警提供了抓手。
表2 傷亡事故數據填補規(guī)則(部分)Tab.2 Casualty data filling rules(partial)
表3 基于貝葉斯的道路交通事故傷亡特征因子甄別Tab.3 Bayesian theory-based characteristic factor selecting of road accident casual
道路交通事故起因復雜多樣,每起事故均有其獨特的特點,但是在多個事故中可能存在相同的特征,本文稱之為共性特征。掌握交通事故的共性特征、發(fā)現交通事故危險程度的規(guī)律性結論,有助于在警力資源有限的情況下,有針對性地采取預防措施,減少交通事故的發(fā)生。本文基于K-means聚類算法,以事故認定主要違法行為為對象,以事故數、傷亡率(基于表3中結果)、受傷人數、死亡人數作為危險度分析指標,對事故數據進行聚類。算法過程為:1)建立事故認定主要違法行為的分析矩陣,主要違法行為為行,4個危險度指標為列;2)采用SVD算法對矩陣進行降維分解,選定前n個分量作為特征分量(本文選取前2個,見圖2a);3)選取k個初始聚類中心;4)確定相似性距離度量函數。采用歐式距離作為計算兩兩違法行為前n個特征分量的相似性距離。5)開始迭代更新運算。計算每個樣本數據與每個聚類中心的相似性距離,將樣本歸到距離最短的類中。6)更新聚類中心位置。利用均值方法,更新每類的中心點位置。重復5)運算,直至每個聚類中心值保持不變。
本文基于深圳市事故數據進行聚類分析后,得到3個具有明顯特征的類簇(見圖2)。類別1主要是事故頻次高、傷亡率較低的事故記錄,包括變更車道時影響正常行駛、不按規(guī)定倒車、不讓右行等發(fā)生在城區(qū)的交通事故。類別2主要是事故頻次較高、傷亡率較高的事故記錄,包括不按規(guī)定會車、轉彎機動車未讓直行車輛、行人先行,駕車時有其他妨礙安全行車行為等涉及機動車的事故。類別3主要是事故頻次較低、傷亡率高的事故記錄,包括未按規(guī)定戴安全頭盔、駕駛電動自行車超速行駛、肇事逃逸構成犯罪等以摩托車、電動車、非機動車為主的事故。
道路交通事故危險度分析結果具有重要的應用價值:一方面,可以對特定道路、交通、環(huán)境條件下各類交通事故的危害性進行量化,便于相互之間比較;另一方面,事故危險性可作為該類事故的權重納入道路交通安全評價中,提升評價結果的合理性。
圖2 基于事故危險性特征的聚類結果Fig.2 Clustering results based on accident risk characteristics
本文針對現有道路交通事故統(tǒng)計工作中存在的數據項缺失、方法單一、實戰(zhàn)應用性弱等問題,借助大數據挖掘技術,探索性地提出道路交通數據缺失數據項填補、事故傷亡特征因子甄別,以及事故風險等級分類評價方法,挖掘出的結果可輔助公安交管部門開展道路交通事故預防和交通安全管理工作。本文研究成果仍存在一定的局限性,例如時段僅劃分了早晚高峰和平峰,未考慮白天和夜間的區(qū)別,天氣未考慮雨量和風力。另外,考慮到深圳城市發(fā)展與交通管理政策,并未對深圳特區(qū)內外分別進行研究。未來,將進一步對道路交通事故數據開展多角度、精細化深入挖掘,同時將研究道路交通事故數據挖掘的自動化和智能化,研發(fā)相關決策支持系統(tǒng)。
:
[1]公安部交通管理局.中華人民共和國道路交通事故統(tǒng)計年報(2015年度)[R].北京:公安部交通管理科學研究所,2016.
[2]許卉瑩,包勇強,江海龍,等.道路交通事故數據分析挖掘技術研究[J].中國人民公安大學學報(自然科學版),2008,14(4):69-73.
[3]李翔敏,戴帥.基于大數據的道路交通管理反思:小即是美[J].城市交通,2015,13(3):71-75.Li Xiangmin,Dai Shuai.Retrospection on Big Data-Based Road Traffic Management:Smaller Can be Better as Well[J].Urban Transport of China,2015,13(3):71-75.
[4]焦萬磊.面向道路交通事故成因分析的數據庫與挖掘方法研究[D].長春:吉林大學,2009.Jiao Wanlei.Research on the Database and Data Mining Method for the Cause of Traffic Accident[D].Changchun:Jilin University,2009.
[5]王曉燕,鄒堅敏,裘晨露,等.基于數據挖掘的交通事故信息綜合分析研判系統(tǒng)構建研究[J].中國公共安全(學術版),2016(4):57-62.Wang Xiaoyan,Zou Jianmin,Qiu Chenlu.Comprehensive Statistics and Analysis System of Traffic Accident Information System Implementation Based on Data Mining[J].China Public Security(Academy Edition),2016(4):57-62.
[6]Peter Harrington.機器學習實戰(zhàn)[M].李銳,李鵬,曲亞東,等,譯.北京:人民郵電出版社,2013.Peter Harrington.Machine Learning in Action[M].Li Rui,Li Peng,Qu Yadong,et al,translated.Beijing:Posts and Telecom Press,2013.
[7]曄沙.數據缺失及其處理方法綜述[J].電子測試,2017(18):65-67+60.Ye Sha.Data Deletion and Summary of Its Processing Methods[J].Electronic Test,2017(18):65-67+60.
[8]韓靜文,劉志強,龔標,等.基于貝葉斯網的城市道路交通事故機理分析[J].科技創(chuàng)新與應用,2017(8):23-24.Han Jingwen,Liu Zhiqiang,Gong Biao,et al.Traffic Accident Mechanism Analysis Based on Bayesian Network[J].Technology Innovation andApplication,2017(8):23-24.