邵 維,張吉光,劉改紅
(1.貴陽職業(yè)技術學院軌道交通分院,貴州貴陽 550000;2.玉屏縣公路管理所,貴州銅仁 554000)
基于綠燈時間等飽和度的TD學習配時優(yōu)化模型*
邵 維1,張吉光2,劉改紅1
(1.貴陽職業(yè)技術學院軌道交通分院,貴州貴陽 550000;2.玉屏縣公路管理所,貴州銅仁 554000)
首先對傳統(tǒng)的綠燈時間等飽和度概念進行了擴展,提出了分級綠燈時間等飽和度.在此基礎上,針對分級綠燈時間等飽和度目標,構造了獎賞函數(shù),采用了模糊方法解決流量狀態(tài)空間維數(shù)爆炸問題,建立了定周期和變周期兩種模式下的四種離線TD學習配時優(yōu)化模型.通過Matlab編程,開發(fā)了這四種模型的計算程序,相對于在線TD學習模型,離線TD學習模型更適合交叉口信號配時優(yōu)化.以一個兩相位控制的單交叉口配時優(yōu)化作為算例,對比分析了四種模型的性能.總體上變周期模式的離線TD學習模型可以獲得解的結構、最優(yōu)解的分布,這是傳統(tǒng)配時理論不具備的.定周期條件下,獎賞分級的效果不明顯;變周期條件下,獎賞分級效果明顯,交通性能更優(yōu).
配時優(yōu)化;綠燈時間等飽和度;TD方法;狀態(tài)模糊;變周期
目前,交通問題已成為影響社會經濟發(fā)展、人民生活水平提高的一個制約因素,交通問題已越來越受到人們的重視.然而交叉口信號燈控制的方法是交通控制要解決的核心問題.平面交叉口的通行能力不足是造成大城市交通擁堵的主要原因之一,因此,如何優(yōu)化交通信號控制系統(tǒng)是交通管理中關鍵的工作.現(xiàn)代交通信號控制的類型五花八門,但單個交叉口的交通信號控制是交通控制網中最基本的節(jié)點,它的信號控制優(yōu)化是解決城市交通擁堵的基礎.繼定時控制和感應控制這兩種控制方法之后,自適應控制系統(tǒng)[1]在交通信號控制中的應用取得了更為滿意的結果.本文立足于研究單個交叉口的信號燈控制問題,采用強化學習[2]中的TD(Temporal Difference)學習算法[3],對單交叉口信號燈控制方法進行研究,試圖研究和開發(fā)解決交叉口信號燈控制的新方法和新思路.
強化學習是一種不同于監(jiān)督學習的一種學習方法,將學習視為一種試錯交互的過程[4].其原理是:學習系統(tǒng)通過感知環(huán)境的變化,根據(jù)自身目前所處的狀態(tài),采取一個行為作用于環(huán)境,環(huán)境由于受到其行為的影響而產生變化,同時給予學習系統(tǒng)一個強烈的信號(獎勵或懲罰),學習系統(tǒng)再根據(jù)當前環(huán)境的變化以及反饋回來的信號,調整自身的行為,調整的原則是尋找自己獲得最大獎賞值的行為.選取的行為不僅影響當前的行為還會影響到下一時刻的狀態(tài)及最終的學習效果.
瞬時差分(TD)算法是強化學習算法中的中心算法,它結合了動態(tài)規(guī)劃和蒙特卡羅方法,是一種增量式的學習算法,很大程度上能表示強化學習的核心思想和新意.瞬時差分算法能直接從交互經驗中學習,在學習過程中逐步進行修改,而不需要基于環(huán)境的動態(tài)信息模型,也不需要在最終輸出結果產生之后再修改以往學到的經驗.TD、動態(tài)規(guī)劃和蒙特卡羅三者之間的關系是強化學習理論反復出現(xiàn)的理論[5]. Q-學習控制算法是強化學習發(fā)展中最重要的一個突破,它是的一個離線的TD控制方法.
SCATS系統(tǒng)提出了綠燈時間飽和度的概念,即被車流有效利用的綠燈時間與綠燈顯示時間之比.SACTS系統(tǒng)綠信比優(yōu)化的大致過程[6]如下:在每一信號周期內,都要對四種綠信比方案進行對比,對它們的“入選”進行“投票”.若在連續(xù)的三個周期內某一方案兩次“中選”,則該方案即被選擇作為下一周期的執(zhí)行方案.綠信比方案的選擇與信號周期的調整交錯進行,兩者結合起來,是對各相位的綠燈時間不斷調整的結果,使各相位飽和度維持大致相等的水平,即“綠燈時間等飽和度”原則.SCATS控制系統(tǒng)的應用效果證明了綠燈時間等飽和度原則的有效性,但是該系統(tǒng)利用“投票”對綠信比進行小步距優(yōu)化的方式是在四個解空間中進行優(yōu)化,雖然保證了配時方案的連續(xù)性、小波動,但是難以保證解的最優(yōu)化.本文突破了傳統(tǒng)的綠信比優(yōu)化受周期固定限制的不足,分別對定周期、變周期兩種模式下的配時模型進行了研究.
2.1 建模方法
2.1.1 算法的模式選擇
對于交通信號配時優(yōu)化問題,若采用在線學習模式,學習算法會對未知的交通狀態(tài)進行探索,將會產生一些性能不好的配時方案,那么可能會導致交叉口交通的擁堵,甚至交通中斷.因此,將在線學習算法用于交通信號控制問題不理想.離線學習模式更加適合交通信號控制,具體地,先建立交通控制問題的模型,再利用離線學習算法對各種交通狀態(tài)及配時方案進行學習,從而得到不同交通狀態(tài)下的最優(yōu)配時方案,最后將最優(yōu)配時方案應用到實際交叉口的交通信號控制中.為加快離線學習模式的學習速度,在每個時間步隨機等概率選擇狀態(tài)和行為[7].
2.1.2 模型建立的關鍵因素
狀態(tài)、行為、獎賞是強化學習方法的三個要素,建模的重點是如何處理這三個要素.模型通過迭代計算達到收斂.
TD控制中Q學習算法步驟為:
(1)設定學習速率、折扣因子和獎勵函數(shù);
(2)初始化Q矩陣;
(3)利用策略選擇行為后,作用于環(huán)境,狀態(tài)轉移到下一個狀態(tài),并獲得當前獎賞值;
(4)Q值更新函數(shù)為
(5)設置下一狀態(tài)為當前狀態(tài);
(6)重復(3)-(5)步直至達到目標狀態(tài).
因此,利用TD控制的Q學習算法對單交叉口的信號進行調節(jié),需要確定以下參數(shù):
①選取學習的狀態(tài)集;
②選取學習的行為集;
③確定狀態(tài)轉換之后的獎勵函數(shù)r(s,a);
④確定學習系統(tǒng)的行為選擇策略.
⑤設定算法的學習速率α和折扣因子γ.
本文中狀態(tài)選取交通流量,行為選取相位綠燈時間,獎賞建模為綠燈時間等飽和度.交叉口的飽和度管理是交通管理的重要組成部分,通過飽和度管理可以將交通壓力在路網中合理分擔,如將交通壓力較大的上游路口飽和度適當提高,可以減輕本交叉口的交通壓力.本文將傳統(tǒng)的Scats系統(tǒng)中的綠燈時間飽和度概念進行了擴展,提出分級的綠燈時間飽和度概念,即將0至1之間的飽和度值進行分級,處于不同的飽和度時給予的獎勵不同.設定學習速率α=0.1,折扣因子6002=0.8,初始化Q矩陣為零矩陣.
2.1.3 狀態(tài)模糊函數(shù)的選取
為便于對模型結果進行分析,說明模型的正確性和有效性,以兩相位控制的單交叉口為例進行研究.交叉口進口道的飽和流量為1600pcu/h,本章中到達流量的區(qū)間設為0至600puc/h,在兩相位的情況下共有6002個狀態(tài),屬于維數(shù)災難問題,難以對整個狀態(tài)集進行學習.首先采用離散化思想對狀態(tài)和行為進行了離散,將每個相位的流量進行離散分為4個狀態(tài),離散間隔分別為[0,150]、[150,300]、[300,450]、[450,600],用1,2,3,4來表示流量所處的區(qū)間.流量區(qū)間為150,由于交通流的隨機性離散區(qū)間過大會影響的準確性,為了解決這一問題本章將到達的流量進行模糊.
交通流的論域為[0,600](單位:輛/h),模糊的集合語言值為“很?。╒erysmall,VS)”、“小(Small,S)”、“中等(Medium,M)”、“大(Big,B)”.隸屬度函數(shù)[8]為三角形分布.由此可以得到交通流的隸屬度函數(shù)曲線如圖1所示.
圖1 隸屬度函數(shù)曲線
我們用1,2,3,4來表示流量所處的集合,對于兩相位的交叉口每個相位的流量狀態(tài)選擇關鍵進口道的流量,用(i,j)表示兩個相位的關鍵流量所處的狀態(tài)區(qū)間,由此可得該算法中任然有16個流量對,即16個狀態(tài),分別為(1,1)、(1,2)、(1,3)、(1,4)、(2,1)、(2,2)、(2,3)、(2,4)、(3,1)、(3,2)、(3,3)、(3,4)、(4,1)、(4,2)、(4,3)、(4,4).因此,對于同一個流量對它們所處的狀態(tài)可能是不同的,例如對于流量對(100,100)所處的狀態(tài)就有可能是(1,1)、(1,2)、(2,1)、(2,2)這四種狀態(tài),它們的概率由隸屬度函數(shù)劃分,且概率之和等于1.
選取綠燈時間對為行為,相位的最短綠燈時間為10s,最長綠燈時間為50s;且取2s的時間間隔,則可知每個相位的行為有21個,可以選擇表示為g={10,12,14…48,50},相應地對行為進行編號A∈{1,2,3…20,21}.采用60s的固定周期時共有21個行為,采用[30s,110s]的變周期共有441個行為.為了減小隨機性帶來的Q值波動,本文采用200個程序同時運行,相當于200個相同交叉口同時運行,然后對這200個同時運行的程序的Q值取平均值來判定是否已經收斂.
2.2 定周期獎賞不分級的狀態(tài)模糊TD學習優(yōu)化模型
周期固定為60s,相位的關鍵進口道流量為0~600pcu/h,狀態(tài)和行為建模如2.1.3所述.提出了如下的獎勵函數(shù):
式中r為獎勵值,DSX、DSY分別表示兩個相位的綠燈飽和度.
優(yōu)化結果如圖2所示,橫坐標表示的是行為,縱坐標表示的是狀態(tài),每個小方格內的顏色表示Q值,對于每個狀態(tài)(即每一行)顏色最深的行為是該狀態(tài)的最優(yōu)行為.對于狀態(tài)(1,1)、(2,2)、(3,3)、(4,4)四個狀態(tài)的兩相位的關鍵進口道流量處于相同的流量區(qū)間,如圖所示取得的最優(yōu)行為是11號行為,即信號配時方案為(30s,30s),說明該模型是正確的.對于這個模型,16個狀態(tài)下最優(yōu)解是唯一的.
圖2 定周期獎賞不分級的狀態(tài)模糊TD學習優(yōu)化模型
2.3 定周期獎賞分級的狀態(tài)模糊TD學習優(yōu)化模型
周期固定為60s,相位的關鍵進口道流量為0~600pcu/h.狀態(tài)和行為建模如前所述.提出了如公式(3)所示的獎勵函數(shù),其物理意義是控制交叉口在近飽和狀態(tài)下運行.本例中對飽和度處于0.85至0.95之間給予最大獎勵,隨著飽和度減小,獎勵值減小,過飽和時獎勵為0,即為懲罰.這個公式可以根據(jù)管理者期望的飽和度值進行修改.
式(3)中r為獎勵值,DSX、DSY分別表示兩個相位的綠燈飽和度;f(ds)如(4)所示,式(4)中ds表示兩相位飽和度的均值,即ds=(DSY+DSY)/2.
優(yōu)化結果如圖3所示,與2.2部分的優(yōu)化結果類似,這是由于受到周期固定的約束,導致獎賞分級和獎賞不分級的結果類似.
2.4 變周期獎賞不分級的狀態(tài)模糊TD學習優(yōu)化模型
本部分研究周期可變、獎賞不分級的情況下解的結構.周期變化范圍是30至110秒,相位的關鍵進口道流量為0~1200pcu/h.本文提出的獎勵函數(shù)如下:
式(5)中r為獎勵值,DSX、DSY分別表示兩個相位的綠燈時間飽和度.
優(yōu)化結果如圖4所示,給出了16種狀態(tài)下的最優(yōu)解,最優(yōu)解是不唯一的.圖中的每個小圖表示一個狀態(tài)的優(yōu)化結果,小圖的橫縱坐標表示的是兩個相位采取的行為即綠燈時間,Q值大小用顏色表示,顏色越深的位置表示該行為越優(yōu).從該圖可知,在變周期條件下最優(yōu)解是不唯一的,呈帶狀.
圖3 定周期獎賞分級的狀態(tài)模糊TD學習優(yōu)化模型
2.5 變周期獎賞分級的狀態(tài)模糊TD學習優(yōu)化模型
本部分研究周期可變、獎賞分級的情況下解的結構.周期變化范圍是30至110秒,相位的關鍵進口道流量為0~600pcu/h.當流量一定時,飽和度隨著周期的增大而減小.但是當周期較小時導致飽和度的變化量較大;隨著周期不斷增大,飽和度的變化量減小,趨近于一條直線,導致在較大周期的時候無法分別行為的性能優(yōu)劣.因此,構造的獎勵函數(shù)是當交叉口飽和度小于0.9時,隨著周期的增大,獎勵逐漸減小.提出的獎勵函數(shù)如下:
式(6)中:r為獎勵值;DSX、DSY分別表示兩個相位的綠燈時間飽和度;C表示周期.
優(yōu)化結果如圖5所示,給出了16種狀態(tài)下的最優(yōu)解,最優(yōu)解是不唯一的,呈帶狀.圖中的每個小圖表示一個狀態(tài)的優(yōu)化結果,小圖的橫縱坐標表示的是兩個相位采取的行為即綠燈時間,Q值大小用顏色表示,顏色越深的位置表示該行為越優(yōu).狀態(tài)(1,1)、(2,2)、(3,3)、(4,4)的最優(yōu)解處于對角線上.對于每一列,即第二相位的流量區(qū)間相同時,隨著第一相位流量的增大,行為的選擇向右下方偏移,即選擇第一相位的綠燈時間增加,第二相位的綠燈時間減少的行為集.對于每一行,即第一相位的流量區(qū)間相同時,隨著第二相位流量的增大,行為的選擇向左上方偏移,即選擇第二相位的綠燈時間增大,第一相位的綠燈時間減小的行為集.
與變周期獎賞不分級的優(yōu)化結果圖4比較,最優(yōu)解更加集中,對獎勵進行分級有利于選擇等飽和度值更大的行為對.
圖4 變周期獎賞不分級的狀態(tài)模糊TD學習優(yōu)化模型
圖5 變周期獎賞分級的狀態(tài)模糊TD學習優(yōu)化模型
模型對狀態(tài)集進行了模糊,它的優(yōu)點在于同一個流量它可能處于不同的狀態(tài),這樣將狀態(tài)集的邊緣模糊化有利于選取更優(yōu)的行為.例如:流量?。?60,470),它可能的狀態(tài)為(2,3)、(2,4)、(3,3,)和(3,4)這四種狀態(tài).提高了交通量處于同一狀態(tài)區(qū)間最優(yōu)配時方案的選擇.
(1)本文建立了單交叉口配時優(yōu)化的離線TD學習模型.相對于在線TD學習模型,離線TD學習模型能夠歷遍整個解空間,弄清楚解的結構,事先知道性能較優(yōu)的解的分布、性能較差的解的分布、最優(yōu)解,這是傳統(tǒng)配時理論不具備的.
(2)針對綠燈時間等飽和度的優(yōu)化目標,本文建立了定周期和變周期兩種模式下的離線TD學習模型,算例結果表明定周期模式下最優(yōu)解是唯一的,變周期模式下最優(yōu)解是不唯一的,呈帶狀.對于最優(yōu)解不唯一的解結構,可以將這些解作為一個最優(yōu)解的方案庫,當檢測器檢測到交通流量時,從方案庫中進行選擇.這時可以考慮與上一個配時方案周期接近、與相鄰交叉口周期接近等因素,提高配時方案與其他因素的兼容性、魯棒性,這是傳統(tǒng)配時理論不具備的.
(3)相比傳統(tǒng)的Scats系統(tǒng)的小步距調整方式,離線TD學習模型能夠實現(xiàn)流量變化小的時候,方案變化不大;流量變化大時,又能很快地調整方案,具有更強的適應性.
(4)對狀態(tài)離散區(qū)間的模糊,增加了狀態(tài)尋優(yōu)的區(qū)間,有利于不同的交通量選取更優(yōu)的配時方案.
[1]Stevanovic A.Adaptive Traffic Control Systems:Domestic and Foreign State of Practice[M].Washington D C:Transportation Research Board,2010.
[2]Sutton R S,Barto A G.Reinforcement Learning-An Introduction[M].Cambridge:The MIT Press,1998.
[3]Kaelbling L P,Littman M L,Moore AW.Reinforcement learning:a survey[J].Journal of Artificial Intelligence Research,1996,(2):237-285.
[4]馬壽峰,李英,劉豹.一種基于Agent的單路口交通信號學習控制方法[J].系統(tǒng)工程學報,2002,(6):526-530.
[5]劉越偉,張海波.基于SCOOT交通控制系統(tǒng)的信號燈倒計時研究及應用[J].交通標準化,2012,(1):145-147.
[6]全永燊.城市交通控制[M].北京:人民交通出版社,1989.
[7]盧守峰,邵維,韋欽平.基于綠燈時間等飽和度的離線Q學習配時優(yōu)化模型[J].系統(tǒng)工程,2012,(5):117-122.
[8]謝季堅,劉承平.模糊數(shù)學方法及其應用[M].武漢:華中科技大學出版社,2006.
(責任編校:晴川)
The Optim ization M odel of TD Learning Tim ing Based on the Green Time Equi-saturation
SHAOWei1,ZHANG Jiguang2,LIU Gaihong1
(1.Track Transportation Branch of Guiyang Vocational and Technical College,Guiyang Guizhou 550000,China;2.Highway Management Office of Yuping,Tongren Guizhou 554000,China)
We propose themulti-level green time saturation.On this basis,for the classification of green time saturation target,the study constructs a reward function,uses the fuzzymethod to solve the traffic state space dimension explosion problem,and establishes four optimization models of offline TD learning under fixed period and variable cycle twomodes.Using a two-phase control of a single intersection as an example,the study comparatively analyzes the performance of fourmodels.Generally speaking,offline TD learning model of variable cyclemode can obtain the structure of solutions and the optimal solutions distribution,which does not belong to the traditional timing theory.Under the fixed period condition,reward grading effect is not obvious,while under the variable cycle condition,reward grading effect is obvious and the traffic has better performance.
timing optimization;green time equi-saturation;TD control;state fuzzy;variable cycle
U491
A
1008-4681(2014)05-0070-05
2014-06-09
邵維(1988-),女,湖南岳陽人,貴陽職業(yè)技術學院軌道交通分院教師,碩士.研究方向:軌道交通運營管理、交通運輸規(guī)劃與管理.