劉嘉輝 杜金
文章編號:1003?6180(2023) 03?0028?07
摘? 要:提出一種基于數(shù)據(jù)分解和深度強化學(xué)習(xí)(DRL)的交通流預(yù)測框架.為了減輕不規(guī)則波動的影響,利用局部加權(quán)回歸時間序列分解方法將數(shù)據(jù)分解為趨勢分量、季節(jié)分量和剩余分量.趨勢分量由門控循環(huán)單元(GRU)訓(xùn)練,季節(jié)分量和剩余分量作為環(huán)境狀態(tài)采用策略梯度算法和強化學(xué)習(xí)模型學(xué)習(xí),根據(jù)門控循環(huán)單元網(wǎng)絡(luò)的趨勢預(yù)測結(jié)果,環(huán)境狀態(tài)對預(yù)測結(jié)果進(jìn)行及時調(diào)整.實驗結(jié)果表明,本文提出的方法優(yōu)于其他模型.
關(guān)鍵詞:交通流預(yù)測;強化學(xué)習(xí);時間序列;策略梯度
[? ?中圖分類號? ? ]TP391[? ? 文獻(xiàn)標(biāo)志碼? ?]? A
Traffic Flow Prediction Method Based on Data Decomposition
and Deep Reinforcement Learning
LIU Jiahui, DU Jin
( School of Computer Science and Technology, Harbin University of Science and Technology,
Harbin 150080,China)
Abstract:A traffic flow prediction framework based on data decomposition and deep reinforcement learning (DRL) is proposed. In order to mitigate the impact of irregular fluctuations, the time series decomposition method of local weighted regression is applied to decompose data into trend component, seasonal component and residual component.The trend component is trained by gated recurrent unit (GRU), while the seasonal and residual component are trained as environmental states by the strategy gradient algorithm and reinforcement learning model, and the prediction results are timely adjusted according to the gated recurrent unit networks trend prediction results and environmental state.The experimental results show that the proposed method is superior to other models.
Key words: traffic flow prediction; reinforcement learning; time series; strategy gradient
隨著經(jīng)濟(jì)發(fā)展,機(jī)動車輛數(shù)量迅速增加,導(dǎo)致交通擁擠、交通事故、環(huán)境污染等問題.準(zhǔn)確預(yù)測未來交通流量的變化趨勢是緩解交通問題的基礎(chǔ),交通流預(yù)測是智能交通系統(tǒng)的重要指標(biāo).
基于深度學(xué)習(xí)的模型廣泛用于交通流預(yù)測,然而對交通流數(shù)據(jù)的非平穩(wěn)波動難以及時預(yù)測.隨著強化學(xué)習(xí)(RL)在機(jī)器人控制領(lǐng)域的深入應(yīng)用,一些人將強化學(xué)習(xí)引入到預(yù)測過程中.其中一種基于半監(jiān)督深度強化學(xué)習(xí)(DRL)的網(wǎng)絡(luò)異常流量檢測模型可以提高預(yù)測性能.此外,根據(jù)RL可以預(yù)測加密貨幣價格的變化.將網(wǎng)絡(luò)流量預(yù)測問題建模為馬爾可夫決策過程,通過蒙特卡羅Q學(xué)習(xí)預(yù)測網(wǎng)絡(luò)流量,以滿足所提出機(jī)制的實時要求.邊緣云故障預(yù)測的自動概念漂移處理框架,利用RL選擇最合適的漂移適應(yīng)方法以及適應(yīng)所需的數(shù)據(jù)量.對于數(shù)據(jù)集相對較小的領(lǐng)域,可以利用DRL技術(shù)構(gòu)建一個基于時間的鏈接預(yù)測模型,使用相對較小的真實數(shù)據(jù)集進(jìn)行訓(xùn)練.基于強化學(xué)習(xí)非線性時間序列智能預(yù)測模型可以將強化學(xué)習(xí)與隱馬爾可夫模型相結(jié)合,強化學(xué)習(xí)運用統(tǒng)計方法,采用歷史觀測數(shù)據(jù)作為回報,優(yōu)化模型參數(shù),提高預(yù)測精度.由于網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性和大量的網(wǎng)絡(luò)參數(shù),深度網(wǎng)絡(luò)訓(xùn)練非常耗時,因此,DRL的學(xué)習(xí)效率有限.從近似策略迭代強化學(xué)習(xí)算法誤差分析的角度,一種新的基于近似策略的加速算法被提出,以提高DRL的效率.DQN算法分析這三種神經(jīng)網(wǎng)絡(luò)的適應(yīng)性,是可以獲得能夠更好預(yù)測結(jié)果的集成模型.代理人的日間行車燈決策過程通常不透明,一個自我監(jiān)督的可解釋框架可以發(fā)現(xiàn)可解釋的特征,從而使非專家也能輕松理解RL代理.
本文提出一種基于數(shù)據(jù)分解和深度強化學(xué)習(xí)的框架(簡稱D-DRL).D-DRL的基本思想是利用對交通流數(shù)據(jù)的分解,提取季節(jié)因子以減輕季節(jié)波動的影響,利用DRL模型對分解后的交通流數(shù)據(jù)作預(yù)測.
1 相關(guān)工作
交通流數(shù)據(jù)容易受天氣影響,如果出現(xiàn)極端天氣,交通流量將急劇下降.為了減輕不規(guī)則波動的影響,提高交通流預(yù)測的性能,使用STL算法對交通流進(jìn)行分解,對不規(guī)則波動信息進(jìn)行分離.與其他分解過程相比,STL對數(shù)據(jù)中的異常值具有很強的魯棒性,可生成健壯的分量子序列.分量序列的魯棒性可以提高應(yīng)用子序列預(yù)測的精度.STL算法是一個過濾過程,用于將時間序列分解為三個組成部分:趨勢、季節(jié)和剩余分量.趨勢分量代表長期低頻變化,季節(jié)成分代表時間序列中周期頻率的變化,殘差部分表示原始時間序列減去趨勢和季節(jié)的剩余結(jié)果.時間序列、趨勢分量、季節(jié)分量和剩余分量分別用Yt,Tt,St和Rt表示.
Yt=Tt+St+Rt, t=1,2,… N.? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (1)
STL由兩個遞歸過程組成:嵌套在外部循環(huán)中的內(nèi)部循環(huán),每次傳遞都包含一個更新季節(jié)成分的季節(jié)平滑,然后是更新趨勢成分的趨勢平滑.每一次外循環(huán)都由內(nèi)循環(huán)組成.魯棒性權(quán)重將在下一次內(nèi)循環(huán)運行中使用,以減少瞬態(tài)、異常行為對趨勢和季節(jié)成分的影響.假設(shè)進(jìn)行內(nèi)部循環(huán)的初始運行,獲得殘差、趨勢和季節(jié)成分的估計值.表示為:? ? ? ? ? ? ? ? ? ? ? ? ?Rt=Yt - Tt - St .? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (2)
時間點t的魯棒性權(quán)重表示為:? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?Pt=B(|Rt|/h).? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (3)
式(3)中,B是雙平方權(quán)重函數(shù),h= 6 median (|Rt|).
GRU網(wǎng)絡(luò)是專門為時間序列信號設(shè)計的,該網(wǎng)絡(luò)是基于長短期記憶(LSTM)的改進(jìn)網(wǎng)絡(luò)模型.與LSTM相比,GRU有可以自動學(xué)習(xí)的特征,可有效對遠(yuǎn)距離相關(guān)信息建模,減少選通單元的數(shù)量,從而減少處理時間,保持準(zhǔn)確性.它的可伸縮性有利于構(gòu)建更大的模型.GRU將LSTM模型的門控制信號減少為兩個門,即更新門和重置門.圖1顯示了GRU模型的總體結(jié)構(gòu).
圖1中x1,x2和xt是輸入值,h0,h1和ht是存儲在每個GRU網(wǎng)絡(luò)中的狀態(tài),y1,y2和yt是GRU網(wǎng)絡(luò)的輸出.GRU神經(jīng)網(wǎng)絡(luò)是由多個神經(jīng)單元模塊組成的鏈模型.
Deep Q-Network(DQN)可以訓(xùn)練AI代理使用未經(jīng)處理的像素進(jìn)行比人類玩家更好的Atari視頻游戲.然而,雖然DQN解決了高維觀測空間的問題,但它只能處理離散和低維的動作空間,對于交通流預(yù)測任務(wù),有連續(xù)的動作空間,不能直接應(yīng)用.無模型方法Deep DPG(DDPG)將DQN與確定性策略梯度(DPG)算法相結(jié)合,可以在學(xué)習(xí)策略的同時處理連續(xù)的動作空間,再次保持超參數(shù)和網(wǎng)絡(luò)結(jié)構(gòu)不變.
DDPG通常由一個代理以離散的時間步長與動態(tài)環(huán)境交互組成.在每個時間點t,代理都會收到一個狀態(tài)st,采取一個動作at并收到一個獎勵rt,DDPG的目標(biāo)是學(xué)習(xí)一項策略,該策略的目的是最大化未來折扣獎勵的總和Rt.
式(4)中,γ表示范圍從0到1的折扣因子,用來度量當(dāng)前獎勵對未來獎勵的重要性.動作價值函數(shù)描述了在狀態(tài)st下執(zhí)行動作at后以及隨后遵循策略后的預(yù)期回報.
2 基于數(shù)據(jù)分解和深度強化學(xué)習(xí)的交通流預(yù)測框架
本文提出的基于數(shù)據(jù)分解和深度強化學(xué)習(xí)的交通流預(yù)測框架(D-DRL)見圖2.
利用STL算法將交通流數(shù)據(jù)分解為趨勢分量、季節(jié)分量和剩余分量,以減輕不規(guī)則波動的影響.用GRU網(wǎng)絡(luò)訓(xùn)練分解后的趨勢分量,用GRU-DDPG網(wǎng)絡(luò)訓(xùn)練季節(jié)分量和剩余分量.在GRU-DDPG網(wǎng)絡(luò)中,交通流數(shù)據(jù)、GRU網(wǎng)絡(luò)和DDPG網(wǎng)絡(luò)輸出用于計算GRU-DDPG模型的獎勵值.訓(xùn)練后將兩個分支合并為一個輸出,實現(xiàn)交通流預(yù)測.
使用在Critic網(wǎng)絡(luò)結(jié)合GRU網(wǎng)絡(luò)的DDPG-GRU神經(jīng)網(wǎng)絡(luò)模型,通過在強化學(xué)習(xí),使用深度確定性策略梯度方法與環(huán)境交互,構(gòu)建強化學(xué)習(xí)中的代理模型,并將GRU網(wǎng)絡(luò)添加到關(guān)鍵網(wǎng)絡(luò)中進(jìn)行改進(jìn).GRU-DDPG模型通過Actor網(wǎng)絡(luò)根據(jù)環(huán)境狀態(tài)輸出動作,Critic網(wǎng)絡(luò)通過參與者網(wǎng)絡(luò)輸出的動作和環(huán)境狀態(tài)估計當(dāng)前策略的價值,使用GRU網(wǎng)絡(luò)了解關(guān)鍵網(wǎng)絡(luò)中的狀態(tài),以增強對時序信息的感知.此外,Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)都有一個目標(biāo)網(wǎng)絡(luò)和一個在線網(wǎng)絡(luò).目標(biāo)網(wǎng)絡(luò)通過緩慢跟蹤在線網(wǎng)絡(luò)進(jìn)行更新,以確保目標(biāo)網(wǎng)絡(luò)的穩(wěn)定變化.在GRU-DDPG模型與環(huán)境的交互過程中,DDPG-GRU模型根據(jù)環(huán)境提供的狀態(tài)選擇動作輸出,從環(huán)境中獲取獎勵和下一時刻的狀態(tài)st+1和獎勵rt,動作和行動信息下一時刻的狀態(tài)存儲在內(nèi)存緩沖區(qū)中.通過從緩沖區(qū)中選擇最小批量數(shù)據(jù)學(xué)習(xí)和更新參數(shù).
環(huán)境狀態(tài)構(gòu)建.利用STL算法對交通流時間序列Yt進(jìn)行分解,得到交通流序列的趨勢分量Tt、周期分量St和剩余分量Rt.GRU網(wǎng)絡(luò)用于預(yù)測分解得到的趨勢序列Tt.由于代理在強化學(xué)習(xí)中所做的行動選擇受到不斷變化環(huán)境的影響,因此,代理被用來預(yù)測剩余的波動.強化學(xué)習(xí)的狀態(tài)包括交通流時間序列的剩余波動序列,即State=St+Rt.
代理輸出的動作不是直接的下次交通流,而是根據(jù)GRU網(wǎng)絡(luò)對分解的趨勢序列Tt趨勢預(yù)測tt之后的加減運算,即交通流時間序列的波動值.因此,agent動作定義為動作空間中的連續(xù)動作,動作空間是歸一化后的波動范圍,具體獎勵函數(shù)為:
rt =-|at+tt-lt| .? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(5)
式(5)中,rt表示在時間上獲得的獎勵值,at是代理在時間t上的動作值,tt是時間t上的趨勢預(yù)測值,lt是與時間t相對應(yīng)的交通流量值.為了讓代理獲得足夠的經(jīng)驗來學(xué)習(xí),在前k個回合給代理動作添加噪聲,然后去除噪聲,以便代理能夠更加專注地提高預(yù)測準(zhǔn)確性.
由于交通流時間序列數(shù)據(jù)是一組連續(xù)的數(shù)據(jù),因此,狀態(tài)以時間順序開始和結(jié)束.為了學(xué)習(xí)更多經(jīng)驗,根據(jù)以下公式選擇環(huán)境狀態(tài)的開始和結(jié)束:
statestart= random(state0, statemax) .? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(6)
stateend = min((statestart+stepmax), statemax) .? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(7)
式(6)和式(7)中,statestart表示開始狀態(tài),random是一個隨機(jī)函數(shù),state0是交通流時間序列的初始序列,statemax是交通流量時間序列的最后一個序列,stepmax是一個代理在單個回合時間內(nèi)探索的最大步數(shù).
本文提出的D-DRL框架使用GRU-DDPG模型作為代理具體學(xué)習(xí)過程,如GRU-DDPG-DRL算法所示,每個訓(xùn)練過程包括五個步驟:
Step1:初始化關(guān)鍵網(wǎng)絡(luò)、參與者網(wǎng)絡(luò)和緩沖區(qū)R和參數(shù)k.
Step2:循環(huán)并隨機(jī)選擇開始位置開始探索.
Step3:根據(jù)是否小于選擇動作.
Step4:計算獎勵并存儲轉(zhuǎn)換信息.
Step5:從緩沖區(qū)和更新網(wǎng)絡(luò)中選擇最小批量數(shù)據(jù).
算法1-GRU-DDPG-DRL算法描述如下:
1: Initialize the Actor,critic,R and k
2: for epoch to MAX_EPOCH do
3: Receive initial observation state
4: for step to do
5: if epoch< k:
Select action by selector with exploration noise
else:
Select action only GRU-DDPG
6: Receive from the environment
7: Store transitions(st, at, rt, st+1) from R
8: Select min batch data from buffer
9: Set y and update critic by minimizing the loss
10: Update the actor networks using the policy gradient
11: Soft update process of the target networks
12: end for, end for
3 實驗結(jié)果與分析
3.1 數(shù)據(jù)集描述
實驗數(shù)據(jù)選自英國高速公路的交通數(shù)據(jù)集.采樣間隔為15分鐘,不考慮平日和周末的交通流量數(shù)據(jù).經(jīng)過歸一化預(yù)處理后,將訓(xùn)練集和測試集按照4:1的比例進(jìn)行劃分.由于實驗數(shù)據(jù)太多,因此,選取部分交通流數(shù)據(jù)繪制交通流數(shù)據(jù)曲線,以便直觀地顯示交通流的變化.圖3顯示了數(shù)據(jù)集的詳細(xì)信息.可以看到交通流數(shù)據(jù)的最大值為500左右,最小值為0左右.整體具有周期性,但波峰與波谷處較為不平穩(wěn).
3.2 評價指標(biāo)
使用四個評估指標(biāo),即平均絕對誤差(MAE)、均方根誤差(RMSE)、平均絕對百分比誤差(MAPE)和決定系數(shù)(DF)來評估該模型的預(yù)測精度.MAE使用絕對誤差描述實際值和預(yù)測值之間的平均偏差.RMSE是實際值和預(yù)計值之間殘余誤差的標(biāo)準(zhǔn)偏差,MAPE以平均絕對百分比衡量誤差,MAE,RMSE和MAPE是與量表相關(guān)的指標(biāo).DF 的取值范圍為0~1,用于衡量實際值與預(yù)測值之間的擬合優(yōu)度.
3.3 數(shù)據(jù)集重構(gòu)分析
STL算法可以分解周期大于2的任何時間序列、季節(jié)數(shù)據(jù).時間序列可以通過較小周期的分解來平滑和過濾.為了測試分解周期對D-DRL算法的影響,繪制以分解頻率為橫坐標(biāo)的MAE值的箱型圖(圖4).可以看到,隨著分解周期的增加,MAE值隨之增加.分解頻率在從3到4的過程中增加最為明顯.
分解后的STL分解后的數(shù)據(jù)曲線如圖5所示.觀察到的是數(shù)據(jù)的原始曲線,趨勢、季節(jié)和殘差是STL分解的趨勢項曲線、季節(jié)項曲線和殘差項曲線.趨勢曲線與原始曲線的趨勢基本相同,在25,75個時間點附近達(dá)到峰值,在30,100個時間點處達(dá)到低谷.曲線比原始曲線更平滑.剩余項在波峰附近劇烈波動,在波谷處平緩波動.
從圖6中可以看到,強化學(xué)習(xí)中狀態(tài)數(shù)據(jù)的acf值在0和1處的變化很大,然后在0左右上下波動.可以看出狀態(tài)數(shù)據(jù)不具有明顯的趨勢,大部分?jǐn)?shù)據(jù)集中在0附近,其余數(shù)據(jù)呈現(xiàn)以0為中心并隨著距離越遠(yuǎn)數(shù)據(jù)分布逐漸減少.
3.4 預(yù)測結(jié)果分析
為了評價基于D-DRL的交通流預(yù)測模型的有效性,選擇RDPG,BI-LSTM,Transformer以及STL-SVR進(jìn)行對比.以RMSE,MAE,MAPE和DF作為實驗的測量指標(biāo).
表1顯示了交通流預(yù)測比較方法的結(jié)果.與未使用STL時間序列分解的RDPG,BILSTM,Transformer等模型相比,STL-SVR,STL-GRU,D-DRL等模型的RMSE,MAE,MAPE均小于單一模型,DF均大于單一模型,表明其預(yù)測均具有較高的準(zhǔn)確性.STL算法可以有效降低交通流數(shù)據(jù)中波動對預(yù)測結(jié)果的影響,其中D-DRL的RMSE,MAE,MAPE,DF值分別為5.766,4.130,0.031,0.998,表明通過結(jié)合深度學(xué)習(xí)與強化學(xué)習(xí)的方法,進(jìn)一步提高了預(yù)測的準(zhǔn)確性.總體而言,D-DRL的預(yù)測效果優(yōu)RDPG,BI-LISTM,Transformer,STL-SVR和STL-GRU,表明D-DRL具有更好的預(yù)測性能.
4 結(jié)論
本文提出了D-DRL法,用于交通流預(yù)測.首先,為了減輕不規(guī)則波動的影響,使用STL算法將數(shù)據(jù)分解為趨勢分量、季節(jié)分量和殘差分量.趨勢分量由GRU訓(xùn)練,季節(jié)分量和殘差分量由GRU-DDPG模型添加、組合和訓(xùn)練.在GRU-DDPG網(wǎng)絡(luò)中,將GRU網(wǎng)絡(luò)添加到DDPG模型的關(guān)鍵網(wǎng)絡(luò)中,可以使GRU-DDPG模型以矩陣的形式處理交通流的時間特征信息,從而提高對時間狀態(tài)的感知.將GRU-DDPG模型的GRU輸出與預(yù)測趨勢的GRU輸入相結(jié)合,并將其與實際值進(jìn)行比較,GRU-DDPG模型可以在原始數(shù)據(jù)和交通流之間創(chuàng)建直接的非線性或線性映射,而不會高度依賴提取特征的質(zhì)量.實驗結(jié)果表明,該方法在準(zhǔn)確性和穩(wěn)定性方面優(yōu)于傳統(tǒng)方法.
未來,我們將把實驗擴(kuò)展到更多的交通數(shù)據(jù)集,以測試D-DRL方法的泛化能力.交通網(wǎng)絡(luò)中不同位置的道路交通流相互影響,通過多智能體的協(xié)調(diào)可以提高預(yù)測的及時性和準(zhǔn)確性.
參考文獻(xiàn)
[1]宋大華,宋大全,章慧鳴.Logistic方程混沌周期點與精度研究[J].牡丹江師范學(xué)院學(xué)報:自然科學(xué)版,2020(01):22-26.
[2]彭輝,周瑩青,李瑜琪.人工智能在數(shù)字出版行業(yè)的應(yīng)用研究[J].牡丹江師范學(xué)院學(xué)報:社會科學(xué)版,2020(02):1-10.
[3]谷嘉煒,韋慧.XGBoost-ESN組合模型股價預(yù)測方法[J].牡丹江師范學(xué)院學(xué)報:自然科學(xué)版,2022(01):1-5.
編輯:琳莉