錢 超,許宏科*,徐 娜,代 亮,程鴻亮
(1.長安大學電子與控制工程學院,西安710064;2.西安公路研究院,西安710054)
基于OLAM的高速公路交通量多維預測研究
錢 超1,許宏科*1,徐 娜2,代 亮1,程鴻亮1
(1.長安大學電子與控制工程學院,西安710064;2.西安公路研究院,西安710054)
OLAM是聯(lián)機分析處理與數(shù)據(jù)挖掘的有機結合,本文以高速公路收費數(shù)據(jù)為基礎,提出一種基于OLAM實現(xiàn)高速公路交通量多維預測的方法.該方法構建了多維數(shù)據(jù)雪花模型,建立起收費數(shù)據(jù)的數(shù)據(jù)倉庫并得到交通量多維統(tǒng)計結果;在構建季節(jié)ARIMA預測模型過程中,檢測出因節(jié)假日、惡劣天氣導致的交通量異常值并對模型進行修正;最后利用修正后的模型實現(xiàn)了交通量的預測.與一般季節(jié)ARIMA模型相比,修正后模型的白噪聲方差和AIC值顯著降低,數(shù)據(jù)擬合程度明顯提高.實驗結果表明,該方法具有較高的預測精度,其中MAE和MAPE分別為50.43和1.59%,能夠滿足高速公路管理部門利用收費數(shù)據(jù)分析、預測交通量時空變化趨勢的要求,從而為制定各項政策提供理論依據(jù)和決策參考.
公路運輸;多維預測;OLAM;收費數(shù)據(jù);交通量;季節(jié)ARIMA模型;數(shù)據(jù)挖掘
交通量預測是利用模型與算法,對采集的數(shù)據(jù)進行分析研究,及時準確地預測未來一段時間內(nèi)的交通狀態(tài).交通量預測是交通運輸規(guī)劃與管理領域中的核心問題之一,也是正確制定交通控制與誘導措施的重要前提.由于人—車—路所構成的交通系統(tǒng)中存在的大量不確定影響因素造成交通量具有高度復雜的非線性特征,使得準確實現(xiàn)預測并不容易.高速公路收費系統(tǒng)包含海量數(shù)據(jù)資源,是交通量信息的客觀真實記錄,蘊藏著豐富的內(nèi)在關系和隱含信息[1].本文的目標是研究利用高速公路收費數(shù)據(jù)實現(xiàn)多維統(tǒng)計分析,為多維交通量構建預測模型,從而實現(xiàn)交通量的多維預測.
交通量預測的主要模型有多元線性回歸模型、歷史趨勢模型、神經(jīng)網(wǎng)絡模型、時間序列模型、卡爾曼濾波模型等.時間序列模型自20世紀70年代由美國統(tǒng)計學家Box和英國統(tǒng)計學家Jenkins在文獻[2]中正式提出以來,在金融經(jīng)濟、氣象水文、信號處理等眾多領域被廣泛應用.自回歸滑動平均求和模型(簡稱ARIMA模型)是一種常用的時間序列模型,其又被稱為Box-Jenkins模型.近年來國內(nèi)外一些學者開展了利用ARIMA模型對高速公路短時交通量進行預測的工作,其中文獻[3]實現(xiàn)了模型的識別、建立、選擇與預測過程,結果表明季節(jié)ARIMA模型預測精度較高;文獻[4]在考慮高速公路月度交通量季節(jié)性周期特點的基礎上,構建季節(jié)ARIMA模型并應用于高速公路月度交通量預測.由于研究大都是基于單路段的統(tǒng)計數(shù)據(jù),因此預測模型在推廣和擴展應用上往往存在許多局限性.高速公路收費數(shù)據(jù)中包含大量記錄著車輛通行的原始信息,具備為其他智能交通應用子系統(tǒng)提供統(tǒng)計數(shù)據(jù)及信息服務的功能[5].如何利用這些數(shù)據(jù)中蘊含的時間、空間等維度信息,準確預測路網(wǎng)內(nèi)多維度交通量,成為高速公路管理部門的迫切需求.
傳統(tǒng)交通量統(tǒng)計的方法一般利用收費系統(tǒng)集成的報表工具,通過結構化查詢語言(Structured Query Language,SQL)對收費原始數(shù)據(jù)庫進行查詢實現(xiàn);而對交通量預測一般根據(jù)統(tǒng)計時間間隔選取不同的算法對交通量進行建模預測.對于存儲海量收費數(shù)據(jù)的數(shù)據(jù)倉庫,采用傳統(tǒng)統(tǒng)計方法需要大規(guī)模并行計算網(wǎng)絡的支持,巨大的存儲、連接、傳輸及聚集歸并等代價使得采用SQL引擎查詢算法的執(zhí)行效率和響應速度無法滿足實際需要;而對于多維度(時間、空間、車型等)交通量統(tǒng)計結果,傳統(tǒng)預測方法也無法實現(xiàn)在不同粒度下靈活、快速預測的要求.
聯(lián)機分析挖掘(Online Analytical Mining, OLAM)是聯(lián)機分析處理 (OnlineAnalytical Processing,OLAP)與數(shù)據(jù)挖掘(Date Mining,DM)的有機結合,一方面利用OLAP的多維數(shù)據(jù)模型,根據(jù)實際需要選取維度指標對交通量預計算聚合,提高了查詢響應速度及復雜計算能力;另一方面在OLAM中可以根據(jù)實際挖掘需要靈活選擇或添加挖掘算法及可視化工具,為用戶動態(tài)更新不同挖掘任務提供了靈活性.
本文在相關研究的基礎上提出一種基于OLAM技術利用收費數(shù)據(jù)實現(xiàn)交通量多維預測的方法,首先選取合適的時間、空間等維度對收費原始數(shù)據(jù)建立多維數(shù)據(jù)模型,實現(xiàn)交通量的多維統(tǒng)計;然后根據(jù)預測需要選取多維統(tǒng)計結果作為序列數(shù)據(jù)樣本,通過對數(shù)據(jù)樣本分別進行平穩(wěn)化、模型識別、異常值檢驗、參數(shù)估計、模型診斷等步驟,建立經(jīng)異常值修正的最優(yōu)季節(jié)ARIMA(p,d,q)(P, D,Q)s模型;最后利用建立的預測模型實現(xiàn)交通量多維預測.
2.1 數(shù)據(jù)倉庫
根據(jù)數(shù)據(jù)倉庫創(chuàng)始人William H.Inmon的定義,數(shù)據(jù)倉庫是一個面向主題的、集成的、隨時間而變化的、不容易丟失數(shù)據(jù)的數(shù)據(jù)集合,支持管理部門的決策過程[6].數(shù)據(jù)倉庫是多維數(shù)據(jù)模型的物理實現(xiàn),為數(shù)據(jù)挖掘和數(shù)據(jù)分析提供高質量的數(shù)據(jù)源,能夠更好地支持管理決策.
2.2 多維數(shù)據(jù)模型
多維模式中的一些屬性作為對數(shù)據(jù)對象性質的觀察角度,稱為維(Dimension),維決定著數(shù)據(jù)對象的屬性,反映數(shù)據(jù)對象特性的屬性稱為度量(Measure),一般為可以累計的數(shù)值.常見的多維數(shù)據(jù)模型主要有星型模型和雪花模型(分別如圖1和圖2所示).雪花模型是星型模型的變形,是對星型模型的維度規(guī)范化表示.
2.3 聯(lián)機分析處理
OLAP是由關系數(shù)據(jù)庫之父E.F.Codd于1993年提出,能夠對海量數(shù)據(jù)按維度分類和按度量聚合,形成多維數(shù)據(jù)模型.對多維數(shù)據(jù)模型中的數(shù)據(jù)按照不同維度和度量的組合進行分析,能夠了解歷史數(shù)據(jù)及其潛在規(guī)律.OLAP具有多維性、響應快速性、數(shù)據(jù)海量性等優(yōu)勢,滿足高速公路收費系統(tǒng)不斷增長的業(yè)務數(shù)據(jù)量及頻繁變化的統(tǒng)計需求.
圖1 星型模型Fig.1 Star schema
圖2 雪花模型Fig.2 Snowflake schema
2.4 聯(lián)機分析挖掘
OLAM由Jiawei Han于1997年首次提出[7],它將OLAP與DM結合起來,通過OLAP對多維數(shù)據(jù)立方體進行在線分析后提交給數(shù)據(jù)挖掘模型進行預測,從而發(fā)現(xiàn)潛在的規(guī)律.OLAM的挖掘預測是建立在數(shù)據(jù)倉庫系統(tǒng)的數(shù)據(jù)立方體基礎之上的, OLAM為用戶的在線挖掘預測提供數(shù)據(jù)接口,運用預測模型與算法,將預測結果以可視化的形式展示.OLAM的體系結構如圖3所示.
3.1 ARIMA模型
ARIMA模型的基本思想是:將預測對象隨時間推移而形成的數(shù)據(jù)序列視為一個隨機序列,用一定的數(shù)學模型來近似描述這個序列.這個模型一旦被識別后就可以根據(jù)時間序列的過去值及現(xiàn)在值來預測未來值.
設{Yt,t=0,±1,±2,…}是一隨機變量序列,延遲算子(Backshift operator)記為B,即BYt=Yt-1.對MA(q)模型,Yt=θ(B)et;對AR(p)模型,φ(B)Yt=et.合并這兩個模型,一般ARMA(p, q)模型可以表示為φ(B)Yt=θ(B)et,et為白噪聲序列,其中
記?=1-B,稱?為差分算子,此時?Yt= (1-B)Yt,一般有?dYt=(1-B)dYt,如果存在非負整數(shù)d使得式(3)成立,則稱{Yt}為自回歸滑動平均求和模型,記為ARIMA(p,d,q),其中d為差分階數(shù),p為自回歸系數(shù),q為滑動平均系數(shù).
圖3 OLAM體系結構Fig.3 Architecture of OLAM
3.2 季節(jié)ARIMA模型
如果研究的時間序列中含有周期性特征,則可以對ARIMA模型進行季節(jié)差分,設時間序列{Yt}的周期為s,季節(jié)差分算子?s=1-Bs,則有
對于D階季節(jié)差分,則有
如果存在非負整數(shù)d和D使得{Yt}滿足差分方程式
其中則稱{Yt}為季節(jié)周期為s,非季節(jié)階數(shù)為p,d, q,季節(jié)階數(shù)為P,D,Q的季節(jié)ARIMA模型,記為ARIMA(p,d,q)(P,D,Q)s.
3.3 多維季節(jié)ARIMA模型建模流程
結合OLAM體系結構,將多維季節(jié)ARIMA模型建模過程分解為以下幾個階段.
(1)時間序列生成.
根據(jù)預測需要在多維數(shù)據(jù)模型中選取時間、空間等相關維度,對收費原始數(shù)據(jù)進行快速匯總分析,生成交通量統(tǒng)計的時間序列.
(2)序列平穩(wěn)化.
對非平穩(wěn)時間序列進行變換,直到滿足ADF單位根測試,確定季節(jié)ARIMA模型的d、D和s值.
(3)模型識別.
利用ACF和PACF估計出模型階數(shù)p,q,P和Q的可能取值,通過赤池信息準則(AIC, Akaike's Information Criterion)選取最佳的模型階數(shù).
(4)異常值檢驗.
檢驗時間序列中由于受到干擾而存在的異常值并對模型進行修正,進一步優(yōu)化模型.
(5)參數(shù)估計.
用極大似然估計得到季節(jié)ARIMA模型中所有參數(shù)的估計值.
(6)模型診斷.
檢驗模型擬合效果是否充分即殘差序列是否為白噪聲序列.
(7)模型預測.
利用上述步驟得到的多維交通量預測最優(yōu)季節(jié)ARIMA模型,對交通量未來趨勢進行預測,同時根據(jù)精度指標檢驗預測效果.
具體建模流程如圖4所示.
圖4 季節(jié)ARIMA模型建模流程Fig.4 Modeling process of seasonal ARIMA model
4.1 交通量多維模型
本文選取深圳區(qū)域高速公路收費原始數(shù)據(jù)構建數(shù)據(jù)倉庫,根據(jù)交通量預測的實際需要,選取時間、空間、車型、車種等維度建立多維模型,采用雪花模型的交通量數(shù)據(jù)倉庫結構如圖5所示.
交通量數(shù)據(jù)倉庫的雪花模型圍繞收費數(shù)據(jù)組織,收費數(shù)據(jù)中包含相關維表的鍵及度量值,通過建立的時間、空間、車型、車種等維度可以對收費數(shù)據(jù)立方體進行不同模式操作(如上卷、下鉆、切片、切塊和旋轉等),實現(xiàn)多維交通量的統(tǒng)計分析.
為研究高速公路交通量季節(jié)性變化規(guī)律,本文選取粵東區(qū)域鹽壩高速所有車型ETC日交通量作為維度和度量查詢依據(jù),查詢得到的時間序列結果如圖6所示.為對比OLAM下多維交通量統(tǒng)計的高效性與靈活性,編寫SQL腳本完成相同查詢,兩類方法對比如表1所示,表1也進一步說明了OLAM在處理數(shù)據(jù)海量時具備多維性、響應快速性等優(yōu)勢.
圖5 交通量數(shù)據(jù)倉庫的雪花模型Fig.5 Snowflake schema of data warehouse of traffic volume
表1 兩類查詢方法對比Table 1 Comparison of two query method
4.2 序列平穩(wěn)化
利用查詢生成的時間序列數(shù)據(jù)具體說明季節(jié)ARIMA模型的建模過程,選取最近17周共計119日統(tǒng)計結果作為序列樣本(記作{Xt}),其變化趨勢如圖7所示.
由圖7可見,交通量時間序列{Xt}存在季節(jié)性且非平穩(wěn),需要對其進行變換處理.根據(jù)文獻[8]提出的變換方法,對{Xt}進行對數(shù)和季節(jié)差分變換,其中季節(jié)周期s=7.
變換后的交通量時間序列記作{Yt}(如圖8所示),此時季節(jié)性消失.為驗證{Yt}的平穩(wěn)性,對{Yt}進行ADF測試,結果如表2所示.
圖6 多維交通量查詢結果Fig.6 Query results of multidimensional traffic volume
圖7 交通量時序樣本{Xt}趨勢圖Fig.7 Trend of traffic volume time series sample{Xt}
圖8 樣本{Xt}經(jīng)對數(shù)和季節(jié)差分后的時間序列圖Fig.8 Time series plot of logged and seasonal differences of sample{Xt}
表2 ADF單位根測試結果Table 2 Results of ADF unit root test
根據(jù)表2可知,ADF檢驗t的統(tǒng)計量小于置信水平下的臨界值,拒絕單位根假設,即變換后的時間序列{Yt}是平穩(wěn)的過程.
4.3 模型識別
時間序列{Yt}自相關函數(shù)圖和偏自相關函數(shù)圖如圖9和圖10所示,根據(jù)自相關函數(shù)圖建議q= 1或q=2,由偏自相關函數(shù)圖建議p=1或p=2.
圖9 樣本{Yt}的自相關函數(shù)圖Fig.9 ACF of sample{Yt}
圖10 樣本{Yt}的偏自相關函數(shù)圖Fig.10 PACF of sample{Yt}
對所有符合ARIMA(p,1,q)(P,1,Q)7模型要求的階數(shù)進行組合,根據(jù)赤池信息準則[9]AIC計算各模型AIC值,根據(jù)計算結果模型ARIMA(2, 1,1)(0,1,1)7的AIC值最小,因此模型最優(yōu).
4.4 異常值檢驗
對于時間序列而言,可識別的異常值有兩種,即加性異常值(Additive Outlier,AO)與信息異常值(Innovation Outlier,IO),分別表征基礎過程在某時間受到可疊加性的擾動與某時間誤差受到的擾動.通過檢驗交通量時間序列{Xt}在t=27、t= 49和t=107存在IO,分析序列數(shù)據(jù)可知,上述三個時間序列的日交通量與同期相比存在銳減變化,進一步分析可知,上述三個時間點分別為端午節(jié)和兩次強臺風登陸日,由此可見節(jié)假日與惡劣天氣對交通量影響顯著.
4.5 參數(shù)估計
對檢驗出的異常值,文獻[10]提出一種將異常值納入模型,然后反復修正模型進行異常值檢驗的方法,直至不再發(fā)現(xiàn)新的異常值為止,本文采用這種方法對模型進行修正.
采用極大似然估計,分別對未經(jīng)異常值處理的季節(jié)ARIMA模型和將異常值納入模型并反復修正后的季節(jié)ARIMA模型進行參數(shù)估計,結果分別如表3、表4所示.
表3 ARIMA(2,1,1)(0,1,1)7模型的參數(shù)估計Table 3 Parameter estimation of ARIMA(2,1,1)(0,1,1)7model
表4 修正后的ARIMA(2,1,1)(0,1,1)7模型的參數(shù)估計Table 4 Parameter estimation of corrected ARIMA(2,1,1)(0,1,1)7model
由表 3與表 4對比可知,修正后的季節(jié)ARIMA模型白噪聲方差σ2估計值與AIC值顯著降低,根據(jù)赤池信息準則,修正后的季節(jié)ARIMA模型顯著優(yōu)于未經(jīng)異常值處理的一般季節(jié)ARIMA模型.
4.6 模型診斷
采用標準殘差時間序列圖、殘差的樣本ACF和Ljung-Box檢驗統(tǒng)計量的p值對模型進行診斷.誤差指標分析結果來看,修正后模型比未修正模型分別降低40.71和1.34%,說明經(jīng)異常值修正的季節(jié)ARIMA模型降低了由節(jié)假日及惡劣天氣等導致的交通量異常值干擾,具有更高的預測精度.
圖11 模型診斷結果Fig.11 Results of model diagnostics
表5 交通量預測結果及指標Table 5 Prediction results and index of traffic volume
式中 yt是t時刻真實交通量;^yt是模型預測的交通量;N是預測時期.
為驗證模型預測效果,分別利用未經(jīng)異常值修正和經(jīng)過異常值修正的季節(jié)ARIMA模型對鹽壩高速ETC車輛未來一周的日交通量進行預測,對比結果如表5所示.由表5可知,兩種模型均能較好地擬合周內(nèi)交通量變化趨勢,但從MAE與MAPE
利用高速公路收費數(shù)據(jù)中記錄的車輛通行信息進行交通量統(tǒng)計、預測可以極大節(jié)約進行交通量調(diào)查的投入,具有低成本、高精度的優(yōu)勢.本文提出一種基于OLAM的高速公路交通量多維預測方法,該方法將多維查詢分析與交通量預測結合起來,一方面在時間、空間、車型、車種等維度條件下快速匯總交通量統(tǒng)計結果,能夠為交通量調(diào)查提供準確統(tǒng)計資料;另一方面對多維交通量在不同粒度下統(tǒng)計結果可以選用不同的挖掘算法進行建模預測,能夠提高多維交通量的預測精度和系統(tǒng)的適用性.
本文運用OLAM的雪花模型對高速公路收費數(shù)據(jù)快速匯總交通量多維統(tǒng)計結果,由于選取的數(shù)據(jù)樣本是帶有周期特征的日交通量數(shù)據(jù),故選用季節(jié)ARIMA模型進行建模預測.通過驗證可知,經(jīng)過異常值修正的季節(jié)ARIMA模型能夠有效提高預測精度;而對隨機波動較大的短時交通量,可以考慮采用人工神經(jīng)網(wǎng)絡、支持向量回歸機等非線性方法以提高模型預測精度,具體建模分析方法還有待進一步研究.
值得注意的是,收費系統(tǒng)的業(yè)務需求導致收費數(shù)據(jù)僅能統(tǒng)計部分斷面(高速公路出、入口)交通量,對于路網(wǎng)中的交通量調(diào)查及預測還應結合專用交通量調(diào)查設備采集的數(shù)據(jù)進行.交通量受多因素影響,尤其是重大節(jié)假日和惡劣天氣對交通量影響顯著.對于重大節(jié)假日交通量高峰的預測可以考慮在數(shù)據(jù)倉庫多維數(shù)據(jù)模型中增加節(jié)假日維度,根據(jù)預測需求匯總統(tǒng)計歷次節(jié)假日交通量多維時間序列,然后通過為序列構建獨立的ARIMA模型預測未來節(jié)假日交通量趨勢.
[1]Han J W,Micheline K.Data mining:Concepts and techniques[M].Second Edition,San Francisco: Elsevier Inc,2006.
[2]Box G E P,Jenkins G M.Time series analysis:Forecasting and control[M].San Francisco:Holden-Day,1976.
[3]童明榮,薛恒新,林琳.基于季節(jié)ARIMA模型的公路交通量預測[J].公路交通科技,2008,25(1): 124-128.[TONG M R,XUE H X,LIN L.Highway traffic volume forecasting based on seasonal ARIMA model[J].Journal of Highway and Transportation Research and Development,2008,25(1):124-128.]
[4]芮少權,匡安樂.高速公路月度交通量ARIMA預測模型[J].長安大學學報(自然科學版),2010,30 (4):82-85.[RUI S Q,KUANG A L.ARIMA model of expressway traffic volume monthly forecasting[J]. Journal of Chang'an University(Natural Science Edition),2010,30(4):82-85.]
[5]翁劍成,劉力力,杜博.基于ETC電子收費數(shù)據(jù)的信息提取技術研究[J].交通運輸系統(tǒng)工程與信息,2010,10(2):57-63.[WENG J C,LIU L L,DU B. ETC data based traffic information mining techniques[J].Journal of Transportation Systems Engineering and Information Technology,2010,10 (2):57-63.]
[6]Inmon W H.Building the data warehouse[M].San Francisco:Wiley,2005.
[7]Han J W.OLAP mining:An integration of OLAP with data mining[C]//Proceedings of the 7th IFIP 2.6 Working Conference on Database Semantics,Leysin: Switzerland,1997,1-9.
[8]Box G E P,Cox D R.An analysis of transformations [J].Journal of the Royal Statistical Society.Series B (Methodological),1964(26):211-252.
[9]Brockwell P J.Time series:Theory and methods[M]. New York:Springer-Verlag,2009.
[10]商安娜.基于異常值檢測的電梯交通流預測方法[J].計算機工程,2009,35(12):172-174.[SHANG A N.Forecast method for elevator traffic flow based on outlier dectction[J].Computer Engineering,2009, 35(12):172-174.]
OLAM-Based Multi-dimensional Prediction of Expressway Traffic Volume
QIAN Chao1,XU Hong-ke1,XU Na2,DAI Liang1,CHENG Hong-liang1
(1.School of Electronic and Control Engineering,Chang'an University,Xi'an 710064,China; 2.Xi'an Highway Institute,Xi'an 710054,China)
The online analytical mining(OLAM)is the organic combination of online analytical processing and data mining.On the basis of expressway tolling data,this paper proposes a method of multi-dimensional prediction of expressway traffic volume based on the OLAM.The method formulates the snowflake schema of multi-dimensional data.It also establishes the data warehouse of tolling data and gets multi-dimensional statistics of traffic volume.In the seasonal ARIMA predicting model,traffic outliers caused by holidays and severe weather are detected and the predicting model is modified.Finally,the prediction of traffic volume is realized by the improved predicting model.Compared with the general seasonal ARIMA model,the white noise variance and AIC value of the model is significantly reduced and the fitting degree of data is obviously improved.The experimental results show that the proposed method provides high prediction accuracy and theMAE and MAPE are calculated to be 50.43 and 1.59%,respectively.This not only assists the expressway administrations to analyze and predict the space-time changing trend of traffic but provides theoretical foundation and decision support for the work of making policies.
highway transportation;multi-dimensional prediction;online analytical mining(OLAM); tolling data;traffic volume;seasonal ARIMA model;data mining
U491
A
U491
A
1009-6744(2013)02-0048-09
2012-09-25
2013-02-04錄用日期:2013-02-27
國家自然科學基金項目(60804049);教育部創(chuàng)新團隊發(fā)展計劃資助項目(IRT1050);中央高?;究蒲袠I(yè)務費專項資金資助項目(CHD2012JC056).
錢超(1984-),男,江蘇新沂人,博士生.
*通訊作者:xuhongke@chd.edu.cn