楊東龍
(天津大學,天津 300072)
隨著機動車數量呈指數形式增長,尤其是在上下班高峰期及節(jié)假日時期,城市道路堵塞嚴重,增加了居民的出行成本,使道路交通面臨著巨大的壓力[1]。運用智能交通系統(tǒng)是緩解目前問題的有效措施,而精準的實時車流量預測是發(fā)展智能交通的重要環(huán)節(jié)[2]。
根據時間維度的不同可以將車流量的預測劃分為長時(年)車流量預測、中時(月/日)車流量預測和短時(時/分)車流量預測[3-5]。長時及中時車流量數據的周期性較強、隨機干擾較弱,而短時車流量的數據具有高度不確定性,預測較為困難且精度不高[6]。目前,用于短時車流量預測的模型[7-8]大概分為兩類:一類是通過多影響因子進行車流量曲線的擬合,包括XGboost、GBDT、隨機森林等,該類模型依賴于影響因子的選取,在現實中難以完全獲取相應數據;另一類是基于內生變量本身進行預測,包括ARIMA、LSTM、KNN 等,該類模型數據獲取成本低,易于實現[9]。
文中基于ARIMA 算法[10-12]提出了一種改進型的短時車流量預測模型。ARIMA 算法只在下一個周期有較好的預測表現,該改進模型根據需要預測的時間周期個數,將短時車流量數據劃分為對應的數據集組,每個數據集組預測下一個時間周期的車流量,從而實現多個時間周期的準確預測。仿真實驗證明了該改進算法的普適性和準確性。
短時車流量預測屬于時間序列預測[13-14],這一類預測建模相對一般的回歸模型更加復雜,因為時間序列的數值是按照時間先后順序進行排列的,預測值依賴于時間次序。自回歸移動平均(ARIMA)算法是一種典型的時間序列預測算法。ARIMA 的基本原理是在時間序列平穩(wěn)化的過程中,對因變量的滯后值、產生隨機誤差的滯后值及當前值進行預測。ARIMA 的五大核心概念為平穩(wěn)性、自回歸、移動平均、自回歸移動平均、差分。
1)平穩(wěn)性:指時間序列yt在n階以下的所有矩取值均與時間無關,ARIMA只適用于平穩(wěn)的時間序列。
2)自回歸(Autoregressive,AR):指利用自生變量的歷史時間數據對未來時間數據進行預測。p階自回歸公式如下:
式中,μ表示常數項;εt表示誤差項;λi表示自相關系數。
3)移動平均(Moving Average,MA):指通過自回歸模型中誤差項的累加實現預測中隨機波動的有效消除。q階移動平均的計算公式如下:
式中,μ表示常數項;εt表示誤差項;θi表示誤差項系數。
4)自回歸移動平均:即AR 與MA 的結合,表示為ARMA(p,q),公式如下:
5)差分(Integrate,I):指時間序列的當前值減去滯后值,d階差分公式表示如下:
ARIMA 的建模流程如圖1 所示。其要求時間序列數據是平穩(wěn)的,若數據不平穩(wěn),則需要進行差分。在確定了合適的d值以后,算法就轉化為求解平穩(wěn)時間序列Δdyt的問題,然后再將Δdyt構建為ARMA(p,q),加上差分次數即可表示為ARIMA(p,d,q)。其中,p表示自回歸階數;d表示差分次數;q表示移動平均階數。本質上,ARIMA 先對擬合值進行線性相加,再通過自身變量進行預測。
圖書館服務理念要突破傳統(tǒng)圖書館在空間、時間、人員等方面的限制,為高校師生的教學科研服務、為師生的專業(yè)拓展服務。2015年7月,由美國新媒體聯盟編寫的,北京開放大學翻譯的《新媒體聯盟地平線報告(2015高等教育版)》指出:未來的幾年內,正式學習和非正式學習融合,更多的移動學習和在線學習在高校廣泛應用?,F在已經有很多人通過互聯網聽到、看到、感受到在線教育的便捷。它因為具有名校名師效應、免費、高質量的優(yōu)勢,成為當下流行的課程選擇。筆者認為,在線教育不僅僅是一種課程形式,它在本質上是互聯網+知識的共享形態(tài)。圖書館在互聯網+時代的服務應該與網絡資源結合,更好地為師生利用網絡提供高效、便捷的服務。
圖1 ARIMA算法流程圖
圖2 為區(qū)間道路3 天的車流量數據圖,數據時間間隔為15 min,該區(qū)間3 天總車流量共59 513 輛,平均每天19 838 輛。從圖中可以看出,每天6:00 之前區(qū)間道路車輛數量較少,每天8:00 和18:00 左右有1~2 小時的早晚高峰,且車流量較大。因此,選取第一天6:00 到第三天18:00 時間段的數據作為訓練集,來預測下一個小時內每隔15 min 的車流量。
圖2 短時車流量數據圖
ARIMA算法只適用于平穩(wěn)的非白噪聲時間序列,因此需要對訓練集進行平穩(wěn)性和非白噪聲檢驗[15-16]。
文中采用ADF 進行平穩(wěn)性檢驗(單位根檢驗)。當判斷序列是否平穩(wěn)時,首先觀察第二部分顯著性p_value。若p_value 小于0.05,則證明單位根有解,即表示時間序列平穩(wěn);若p_value 比0.05 大,則證明非平穩(wěn);若p_value 接近于0.05,則要通過τ值與臨界值進行綜合判斷[17]。
穩(wěn)定性檢驗后再進行非白噪聲檢驗,并返回白噪聲檢驗結果標志參數P值。若P值小于0.05,則表示在95%的置信水平區(qū)間拒絕原假設,證明時間序列為非白噪聲序列;否則,時間序列為純隨機序列,無法進行預測。
為了確定ARIMA(p,d,q)模型中的p、q值,研究中采用自相關函數(ACF)和偏自相關函數(PACF)判斷模型階數法。求取訓練集差分后平穩(wěn)序列的ACF 和PACF,如圖3 所示。
圖3 自相關和偏自相關圖
根據自相關和偏自相關圖,結合表1 確定訓練集的ARIMA 模型p、q值分別為1、0。確定 后進行ARIMA 模型擬合預測,即可得到未來1 個小時內每15 min 的預測值。
表1 ARIMA模型選擇方法表
圖4 改進模型訓練集組1~4
構建適合短時車流量預測模型,實質上需要對不同模型的預測值和真實值通過量化的指標進行評價,即評估不同模型預測值的準確程度[19]。研究中選取了MAPE 與MAE 作為評價指標。
MAPE,即平均絕對百分比誤差,其公式為:
式中,yi為真實值,為預測值,n為樣本量。MAPE的取值范圍為[0,+∞),通常MAPE=0%表示完美模型,MAPE>10%表示劣質模型。
MAE 為平均絕對誤差,評估的是真實值和預測值的偏離程度,即預測誤差的實際大小。MAE 的值越小說明模型越優(yōu),預測越準確,表達式為:
采用經典ARIMA 模型和基于ARIMA 的改進模型分別對短時車流量數據集進行訓練,并對未來1個小時內每15 min 的車流量進行預測。預測結果如圖5 所示。由圖5 可知,改進模型的預測效果明顯優(yōu)于經典模型,改進模型的擬合程度更高。
圖5 不同模型預測結果
分別計算不同模型的MAPE 及MAE 值,如表2所示。經典模型的MAPE 值為12.176 5%,MAE 值為73.212 6,屬于劣質模型,對短時車流量的預測值不具有參考價值。改進模型的MAPE 值為4.019 6%,MAE 值為22.468 1,說明基于ARIMA 的改進模型在一定程度上對經典模型進行了優(yōu)化。
表2 不同模型MAPE、MAE值
文中基于經典的ARIMA 算法,針對其只在下一周期有良好預測表現的特點,通過劃分數據集組的方式,使短時車流量曲線更加平滑,實現未來1 個小時內每15 min 車流量的預測。仿真驗證了該改進模型的正確性與適用性,預測準確率能夠達到95%以上,且改進模型無需依賴外部因子,調參方式簡單,可適用于任何場景的車流量預測。后期將對改進模型進行優(yōu)化,利用LSTM、Prophet 等時間序列預測算法的優(yōu)點與改進模型進行融合,進一步降低MAPE、MAE 值,提高預測的準確率。