創(chuàng)新者:楊 琭 閻光偉
基于最優(yōu)加權(quán)組合模型的道路交通事故預測
創(chuàng)新者:楊 琭 閻光偉
當前我國交通事故狀況嚴峻,對其進行有效預測十分必要。本文鑒于單一模型的局限性,建立了一種基于多種單一模型的最優(yōu)加權(quán)組合模型。針對事故死亡人數(shù)的季節(jié)周期性、單調(diào)性和趨于平穩(wěn)性,選取季節(jié)模型SARIMA、灰色模型GM(1,1)和Verhulst模型建模以及最優(yōu)加權(quán)組合模型。結(jié)果表明,SARIMA、GM(1,1)、Verhulst模型預測相對平均誤差分別為5.43%、11.92%、10.16%,而SGV(SARIMA、GM(1,1)、Verhulst)加權(quán)組合模型的平均誤差僅為1.19%,因而最優(yōu)加權(quán)組合模型克服了單一模型的不足,具有良好的精度,可以利用該模型對我國未來交通事故死亡人數(shù)進行預測。
隨著我國經(jīng)濟的快速發(fā)展,全國汽車保有量急劇增長,在為人民生活帶來極大方便的同時,出現(xiàn)了大量交通事故。2013年全年,共發(fā)生交通事故198394起,事故死亡人數(shù)58539人,居世界第一,造成直接經(jīng)濟損失103897萬元。與歐美發(fā)達國家相比,交通事故總量大、死亡率高、惡性事故多。按照發(fā)達國家交通事故的治理經(jīng)驗,在提高駕駛?cè)税踩庾R、執(zhí)法必嚴的基礎上,對交通事故進行預測、制定合理的政策法規(guī),是緩解交通事故狀況嚴峻的有效措施。
當前對于交通事故的預測方法主要有時間序列法、灰色模型預、貝葉斯網(wǎng)絡方法、BP神經(jīng)網(wǎng)絡方法等,這些單一模型受自身建模的局限性,對交通事故的預測能力都有限。近年來,也出現(xiàn)組合模型對交通事故的預測研究。這些組合模型相對單一模型,其預測能力和精度都有了不同程度的提高,但誤差仍較大。本文對交通事故歷史死亡人數(shù)統(tǒng)計數(shù)據(jù)分析發(fā)現(xiàn),數(shù)據(jù)存在明顯的季節(jié)周期性、單調(diào)減少趨平穩(wěn)的特點。針對數(shù)據(jù)的季節(jié)周期性、單調(diào)性和趨向平穩(wěn)性,本文選取時間序列SARIMA模型、灰色GM(1,1)和Verhulst單個模型,基于MATLAB和Eviews軟件對我國2003-2013年交通事故進行預測,在此基礎上,建立優(yōu)化加權(quán)組合模型,并以相關指標對各模型進行評價。
SARIMA模型
SARIMA模型(Seasonal Autoregressive Integrated Moving Average),即季節(jié)性差分自回歸滑動平均模型,是在ARIMA模型基礎上,與隨機季節(jié)模型組合而成。當研究的數(shù)據(jù)具有明顯季節(jié)趨勢,如月度、季度、年度等周期性的變化時,單純用ARIMA模型預測偏差大,因而將ARIMA模型改進成SARIMA模型,預測精度大大提高,對周期性變化序列具有很好適用性。SARIMA建模先對原始序列進行平穩(wěn)性檢驗,對非平穩(wěn)序列平穩(wěn)化,進行模型的診斷、參數(shù)識別,確立模型并檢驗,檢驗通過后利用所建立的模型進行預測。
灰色GM(1,1)與Verhulst模型
灰色理論是針對“部分信息已知,部分信息未知”的不確定系統(tǒng),通過對已知信息的深層次挖掘來認識系統(tǒng)的特征規(guī)律。道路交通系統(tǒng)就是一個灰色系統(tǒng),既有信息確定的汽車行駛速度、道路寬度、駕駛?cè)藛T,也有信息不確定的駕駛?cè)诵睦餇顟B(tài)、某時刻確定地段的交通流量等元素。GM(1,1)模型與Verhulst模型均是灰色系統(tǒng)預測模型的一種,其中GM(1,1)是灰色模型中最經(jīng)典的模型,具有廣泛的應用性,對具有單調(diào)變化且呈指數(shù)特征的數(shù)據(jù)具有精確的預測能力。灰色Verhulst模型是德國生物學家Verhulst在研究微生物繁殖時提出的,主要針對具有S形飽和狀態(tài)的序列,具體建模過程見文獻。GM(1,1)與Verhulst模型建模過程相似,都是通過對原始序列進行累加預測再還原思想建模,GM(1,1)具體建模過程見文獻。
最優(yōu)加權(quán)組合模型
最優(yōu)加權(quán)組合模型是對單一模型預測結(jié)果組合,以誤差平方和最小為準則構(gòu)造目標函數(shù),求得權(quán)重系數(shù)而形成一個新的模型,來大大提高對原始數(shù)據(jù)預測能力的一種方法。
該模型對單一模型所得預測數(shù)據(jù),通過計算得到擬合誤差矩陣,以最小二乘原理構(gòu)造誤差目標函數(shù),通過求解目標函數(shù)誤差平方和最小得到和各模型的權(quán)值分布,從而反映了各個單一模型的優(yōu)點,具體建模過程見文獻。
原始數(shù)據(jù)分析
本文數(shù)據(jù)來源于《中華人民共和國交通事故統(tǒng)計年報》,具體數(shù)據(jù)見表1。圖1與圖2分別是以年份與月份所得原始數(shù)據(jù)趨勢圖。由圖知數(shù)據(jù)存在明顯的季節(jié)周期性,事故死亡人數(shù)自2004年呈現(xiàn)單調(diào)遞減趨勢且數(shù)據(jù)不斷平穩(wěn),因而選取具有時間序列特征的SARIMA模型、適用于單調(diào)指數(shù)變化的GM(1,1)模型、適用于飽和S形態(tài)的Verhulst模型進行建模。
表1 交通事故死亡人數(shù)分月統(tǒng)計
單一模型建模
SARIMA模型
SARIMA模型建模使用Eviews 6.0軟件,SARIMA建模須經(jīng)數(shù)據(jù)平穩(wěn)性檢驗、模型識別與參數(shù)估計及模型檢驗,建模過程如下。
圖1 歷年道路交通事故死亡人數(shù)
圖2 原始數(shù)據(jù)Y趨勢圖
(1)數(shù)據(jù)平穩(wěn)性檢驗:將2003-2011年原始數(shù)據(jù)記為Y序列,圖2是其序列圖,圖示序列有明顯的年度周期性和長期下降趨勢,數(shù)據(jù)不平穩(wěn),并且由圖3一階差分偏相關圖知,偏自相關系數(shù)在12倍數(shù)的滯后期顯著不為零,序列DY存在顯著季節(jié)性,需做季節(jié)差分。對序列DY做一階步長為12的季節(jié)差分,得序列D12Y。數(shù)據(jù)平穩(wěn)性的ADF檢驗結(jié)果如表2所示,由檢驗結(jié)果知經(jīng)過一階差分與季節(jié)查分,序列平穩(wěn)。
圖3 一階差分序列DY偏自相關圖
圖4 季節(jié)差分序列D12Y偏自相關圖
(2)模型的識別與參數(shù)估計:對該SARIMA模型(p,d,q)×(P,D,Q)s,由ADF檢驗過程,原始序列經(jīng)一階差分和步長為12的季節(jié)差分后,序列平穩(wěn),故d=D=1,s=12。圖4是D12Y序列的偏自相關圖,自相關圖顯示為一階截尾,取q=1,偏相關圖為拖尾,取p=1、2、3,偏自相關系數(shù)在K=12時均顯著不為零,但SARIMA模型中P、Q難以識別,因此對P=1、2,Q=1、2分別組合,最后根據(jù)AIC和SIC最小準則,在兼顧可決系數(shù)R2最大和MAPE最小的準則下,對不同的(p,d,q)×(P,D,Q)s分別進行反復試驗發(fā)現(xiàn),(3,1,1)×(1,1,1)12模型最優(yōu)。
(3)模型的檢驗與預測:對所建立的(3,1,1)×(1,1,1)12模型檢驗其適應性,判斷是否是白噪聲序列,根據(jù)殘差序列的偏自相關圖,殘差序列的自相關系數(shù)和偏自相關系數(shù)全部落入隨機區(qū)間,可知殘差序列是白噪聲序列,檢驗通過。利用該(3,1,1)×(1,1,1)12 SARIMA模型對2003年—2013年數(shù)據(jù)進行靜態(tài)滾動預測,將所預測得到的各月數(shù)據(jù)求和得到歷年交通事故死亡人數(shù),其值見表3。
灰色GM(1,1)與Verhulst模型
此部分運用MATLAB7.0實現(xiàn),具體計算如下所示。以2003-2011年原始數(shù)據(jù)建立GM(1,1)與Verhulst模型,根據(jù)文獻,得參數(shù)值
模型時間響應序列為:
Verhulst模型記原始數(shù)據(jù)為序列X(1),累減生成序列X(0),由X(1)鄰權(quán)等值生成序列Z(1),構(gòu)造矩陣
最優(yōu)加權(quán)組合模型的建立
利用上述SARIMA、GM(1,1)與Verhulst單一模型對近年我國交通事故死亡人數(shù)進行了預測,由于SARIMA建模過程中的季節(jié)差分,只得到了2006-2013年的交通事故死亡人數(shù),因而SGV加權(quán)組合模型以2006-2011年數(shù)據(jù)為基礎建模,并以2012與2013年數(shù)據(jù)進行樣本外驗證。
模型評價與結(jié)果分析
將上述模型預測結(jié)果列于表3,各模型相對誤差均在7%以下,說明本文中采用季節(jié)周期模型建模是很恰當?shù)?。以各誤差指標對各模型進行評價,結(jié)果列于表4。結(jié)果顯示組合模型預測誤差最小,SARIMA模型與Verhulst模型次之,GM(1,1)預測誤差最大,且組合模型各誤差指標遠遠小于其他模型,平均相對誤差低至1.19%??梢?,將單一模型加權(quán)組合后,得到的組合模型預測精度大大提高,克服了單一模型的局限性。這是由于SARIMA模型只是體現(xiàn)了數(shù)據(jù)的周期性,而GM(1,1)模型體現(xiàn)了數(shù)據(jù)的單調(diào)性,Verhulst模型體現(xiàn)了數(shù)據(jù)近年趨于平穩(wěn)性,但都只體現(xiàn)了數(shù)據(jù)的部分特點,而將各個模型最優(yōu)加權(quán)平均得到組合模型后,則囊括了各個單一模型的優(yōu)點,預測能力大大提升。各模型預測值與實際值對比趨勢如圖5所示。
另外本文誤差數(shù)據(jù)與同類研究結(jié)果相比,誤差大大降低,表明以季節(jié)模型SARIMA建模由于表征了原始數(shù)據(jù)強烈的周期性,而使SGV加權(quán)組合模型預測精度得到很大提高。故上述建模方法,即先以單一模型SARIMA、GM(1,1)、Verhulst建模,在單一模型預測值基礎上,建立SGV加權(quán)最優(yōu)加權(quán)組合模型,預測結(jié)果誤差小、精度高,預測數(shù)據(jù)可以為相關部門制定有效政策提供依據(jù)參考,對交通事故的預防與減少是有利的。
表3 各模型對2006-2011年(樣本內(nèi))數(shù)據(jù)預測結(jié)果與相對誤差
表4 各模型對2012-2013年(樣本外)數(shù)據(jù)的預測及性能比較
圖5 各模型預測值與實際值對比趨勢圖
我國目前道路交通事故多發(fā),每年交通事故死亡人數(shù)高居世界第一,交通事故的有效預測對當前嚴峻狀況的改變具有重要意義。本文以2003-2011年我國道路交通事故死亡人數(shù)做樣本內(nèi)數(shù)據(jù),根據(jù)數(shù)據(jù)的季節(jié)周期性、單調(diào)遞減性和趨于平穩(wěn)性,分別采用SARIMA、GM(1,1)、Verhulst模型對交通事故死亡人數(shù)進行預測,在得到單一模型預測數(shù)據(jù)的基礎上,建立最優(yōu)加權(quán)組合模型并以2012年與2013年數(shù)據(jù)作樣本外數(shù)據(jù),將預測值與實際值對比驗證組合模型的有效性。結(jié)果顯示,SARIMA、GM(1,1)、Verhulst模型預測到的平均相對誤差分別為5.43%、11.92%,10.16%,而SGV最優(yōu)加權(quán)組合模型該數(shù)值僅為1.19%,組合模型預測誤差大大降低,其精度高于同類研究,可見將多個單一模型進行科學組合,可以有效降低單一模型的預測誤差??衫帽疚奶岢龅腟GV組合模型對我國未來交通事故死亡人數(shù)進行有效預測,從而為交通部門進行科學管理提供依據(jù)。
10.3969/j.issn.1001-8972.2015.23.015