惠寶鋒 馮桂蓮 王詠寧
摘 要:本文通過數(shù)據(jù)挖掘相關基礎進行數(shù)據(jù)庫搭建,選取2002—2016年數(shù)據(jù)進行OLAP分析,通過數(shù)據(jù)切片及數(shù)據(jù)向下鉆取,將二維數(shù)據(jù)轉(zhuǎn)換成三維數(shù)據(jù)進行深度剖析,結果顯示全國道路交通事故影響因素主要集中在機動車超速行駛及逆向行駛中,其中駕駛人行為尤為突出。在Eviews軟件中對數(shù)據(jù)進行預測分析發(fā)現(xiàn)道路交通事故存在非線性關系,并且預測了未來三年的道路交通事故數(shù)量及傷亡數(shù)量,數(shù)據(jù)顯示出道路交通事故呈逐年下降趨勢。
關鍵詞:數(shù)據(jù)挖掘;聯(lián)機分析處理;交通事故;預測分析
中圖分類號:TP319 文獻標識碼:A
文章編號:2096-1472(2018)-07-21-03
1 引言(Introduction)
隨著社會的發(fā)展與進步,汽車已經(jīng)成為人們生活中必不可少的交通工具,目前汽車總量已經(jīng)達到2017年中國大概有2.45億輛,隨著汽車與交通運輸給我?guī)Я吮憬莸耐瑫r,也帶來了事故頻發(fā)的交通事故。早在1994年瑞典推出了交通“零傷亡愿景”計劃,力爭在2020年前實現(xiàn)道路交通事故零死亡和零重傷率[1]。國外的許多學者運用線性回歸、Logistic回歸、神經(jīng)網(wǎng)絡等手段分析交通事故嚴重程度與人的特性、車輛速度、道路條件和交通環(huán)境之間的關聯(lián)性[2]。
本文通過數(shù)據(jù)挖掘基本理論[3],建立道路交通事故數(shù)據(jù)庫[4,5],通過OLAP(OnLine Analytical Processing,聯(lián)機分析處理)及經(jīng)濟計量視圖軟件Eviews,對2002—2016年交通事故數(shù)據(jù)進行抽取分析,切塊與切片等數(shù)據(jù)處理,試圖通過交通事故數(shù)量及類型分析[6],來揭示對道路交通事故影響的主要因素,通過制定相關法律、法規(guī)等政策,最終進行道路交通事故預測及分析[7,8],試圖從數(shù)據(jù)挖掘的角度來預測交通事故未來的走向。
2 道路交通事故分析系統(tǒng)構建(System construction)
通過《中國統(tǒng)計年鑒》中的“交通事故”相關內(nèi)容分別對全國各要省及直轄市從2002—2016年道路交通事故數(shù)據(jù)進行收集與整理,并建立了交通事故基本數(shù)據(jù)庫(Traffic Accident),其內(nèi)容主要涉及內(nèi)容包含地區(qū)表及交通事故分類表,地區(qū)表包含32個省及直轄市的交通事故總發(fā)生數(shù)、總死亡人數(shù)、總直接財產(chǎn)損失,如圖1所示。類表是全國數(shù)據(jù)匯總數(shù)據(jù)包括事故總數(shù)、特大事故、重大事故、機動車、非機動車,以及行人等導致的交通事故總和,如圖2所示。
本文根據(jù)Traffic Accident數(shù)據(jù)庫所建立的基本數(shù)據(jù)模型,分別建立表之間的關系試圖,將全國各地區(qū)所發(fā)生的道路交通事故數(shù)據(jù)進行對比和分析,將其中交通事故較高的地區(qū)的具體數(shù)據(jù)引入SPSS統(tǒng)計軟件進行線性分析,如圖3所示。
從圖3結果中可以看出大部分地區(qū)的道路交通事故發(fā)生頻率在逐漸減少,只有個別地區(qū)故數(shù)量在上下波動,但大致呈現(xiàn)出遞減趨勢,且經(jīng)濟發(fā)達地區(qū)高于不發(fā)達地區(qū),死亡人數(shù)也更多,北京地區(qū)受到嚴格的交通法規(guī)及政策的影響,交通事故發(fā)生率相對較低。
3 道路交通事故數(shù)據(jù)分析(Analysis of road traffic accident data)
我們通過OLAP對所獲得、加工后的數(shù)據(jù)進行切片和鉆取,對交通事故的各個影響因素進行分析和構建,從中得到影響交通且造成交通事故的影響因素主要包括:行人和乘客的因素、環(huán)境因素、駕駛人及車輛因素等。其中主要是駕駛人的因素最為直接。通過對駕駛人因素進行切塊與切片分析,影響原因包含了超速、酒后駕駛、違法變道、不安規(guī)定路線行駛、違反交通信號燈、違法占道、占用公交專用道、無證駕駛、毒駕等多種因素,我們將選取一些典型的因素進行三維數(shù)組分析。如圖4所示。
在進行分析處理上我們首先對駕駛人數(shù)據(jù)進行了二位數(shù)組的采集,在建立的二位表的基礎上向下進行鉆取數(shù)據(jù),通過在多層數(shù)據(jù)中來進行更詳細的數(shù)據(jù)分析,最終得到以車類型(機動車與非機動車)、時間(2014—2016)、事故具體因素為三維數(shù)組圖。如圖5所示,從圖中可以看出超速行駛與違法逆行造成的交通事故較多,監(jiān)管部門應當加強監(jiān)管。
在行人及乘客因素中通過切片可以看出行人主要是由于違反交通信號和其他影響安全的行為所導致的交通事故,環(huán)境因素中導致交通事故的主要因素是道路總體路況,氣候環(huán)境及行人為按信號燈過馬路和道路信號燈故障等。
4 道路交通事故預測分析(Prediction analysis)
由于道路交通事故數(shù)量隨時間變化是非線性相關的,我們將數(shù)據(jù)引入Eviews中,對給定區(qū)間的交通事故數(shù)據(jù)進行非線性測量,預測2018—2020年道路交通事故結果如表1和表2所示。
根據(jù)表1和表2預測數(shù)據(jù)在Eviews進行校驗,在具體應用中我們利用所獲得的數(shù)據(jù)對數(shù)據(jù)進行分析,再此基礎上利用間接代換方法對對數(shù)函數(shù)進行非線性模型預測,分別得出預測期內(nèi)的道路交通事故數(shù)量分布圖、全國道路交通事故受傷人數(shù)數(shù)量分布圖、全國道路交通事故死亡人數(shù)數(shù)量分布圖及預測數(shù)據(jù)圖。如圖6—圖9所示。
從以往數(shù)據(jù)及進行OLAP分析圖中我們明顯看出,隨著社會發(fā)展與道路交通規(guī)則及相應的法律約束,及其宣傳等工作,交通道路事故的總體事故發(fā)生率、交通事故死亡認識、其受傷人數(shù)及財產(chǎn)損失都有明顯下降趨勢,在進行預測的基礎上對分析結果進行了間接替換法進行模型校驗,表明符合非線性相關關系,證明所用分析方法可以進行道路交通事故數(shù)據(jù)的預測分析。
5 結論(Conclusion)
本文利用數(shù)據(jù)挖掘基礎進行聯(lián)機數(shù)據(jù)處理,建立相關數(shù)據(jù)庫,并全國各個主要省份交通事故進行統(tǒng)計,在此基礎上通過OLAP進行系統(tǒng)分析,取得影響交通安全的主要影響因素,通過對數(shù)據(jù)的切塊及切片處理,向下鉆取了三維數(shù)據(jù)表,顯示出影響交通安全的因素主要來自機動車,在機動車分類中駕駛人成為主要因素,而且形成交通事故因素為超速駕駛和逆向行駛,在最后我們利用經(jīng)濟計量視圖軟件Eviews對全國交通事故進行了三年的預測分析,通過間接代換方法進行預測,結論符合非線性對數(shù)函數(shù)模型,符合預測分析要求。預測發(fā)現(xiàn)在未來三年隨著時間的推移,交通事故發(fā)生數(shù)量在逐漸縮短,同時傷亡和死亡數(shù)量也呈下降趨勢。
參考文獻(References)
[1] GUO Hongling,QIAO Ting,SONG Xiaojiao,et al.The Application of Inductively Coupled Plasma Mass Spectrometry in Trace Evidence Examination[J/OL].刑事技術,2016(06):470-475.
[2] 《中國公路學報》編輯部.中國交通工程學術研究綜述2016[J].中國公路學報,2016,29(06):159-161.
[3] PEI Yu-long,MA Ji.Countermeasures for traffic accidents due to road conditions in China[J].Journal of Harbin Institute of Technology,2005,12(4):358-364.
[4] 惠寶鋒,管慶春.物聯(lián)網(wǎng)分布式數(shù)據(jù)庫系統(tǒng)優(yōu)化研究[J].無線互聯(lián)科技,2016(06):14-15.
[5] 許劭慶,馬彪,安海英.基于數(shù)據(jù)挖掘的網(wǎng)管告警處理方法研究[J].軟件工程,2016,19(12):17-19;9.
[6] 章胤,趙文慧,包恒玥,等.基于k-means和關聯(lián)度分析的網(wǎng)絡招聘信息數(shù)據(jù)挖掘[J].軟件工程,2017,20(05):10-14.
[7] 王元卓,賈巖濤,劉大偉,等.基于開放網(wǎng)絡知識的信息檢索與數(shù)據(jù)挖掘[J].計算機研究與發(fā)展,2015,52(02):456-474.
[8] 張亞軍,劉宗田,周文.基于深度信念網(wǎng)絡的事件識別[J].電子學報,2017,45(06):1415-1423.
作者簡介:
惠寶鋒(1977-),男,碩士,講師.研究領域:信息管理與信息系統(tǒng),大數(shù)據(jù)基礎應用.
馮桂蓮(1979-),女,碩士,副教授.研究領域:軟件工程,圖像處理.
王詠寧(1971-),男,碩士,副教授.研究領域:虛擬儀器技術及應用.