亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        單交叉口多相位在線Q學(xué)習(xí)交通控制模型

        2014-05-09 12:03:40盧守峰劉喜敏
        交通科學(xué)與工程 2014年1期
        關(guān)鍵詞:綠燈排隊關(guān)鍵

        盧守峰,張 術(shù),劉喜敏

        隨著車輛保有量的增加,中國大中城市交通擁擠的時段和范圍逐漸增大。對于城市的中心區(qū),不僅是早晚高峰出現(xiàn)交通擁擠,而是多個時段出現(xiàn)交通擁擠。交通壓力增大的直接體現(xiàn)是排隊長度增加,過飽和交叉口在一個周期內(nèi)不能夠?qū)⑴抨犌蹇?。以長沙市SCATS控制系統(tǒng)為例,其控制原理是綠燈時間飽和度,即被車輛通行占用的綠燈時間與總綠燈時間的比值。對于過飽和交叉口,由于要通行的交通需求較大,總綠燈時間扣除車間時距幾乎均被占用。這種情況下,SCATS控制系統(tǒng)的配時方案等同于定周期配時,綠燈期間排隊車輛被放行一部分,后面的排隊車輛向前挪動一部分,工作效率較低。隨著交通檢測器技術(shù)的發(fā)展,視頻檢測技術(shù)在數(shù)據(jù)采集方面已得到發(fā)展,如:全景視頻技術(shù)[1]能夠提供整個交叉口范圍內(nèi)的交通參數(shù)。排隊長度較長是過飽和交叉口的主要特征,如何平衡交叉口不同相位的排隊長度、綜合優(yōu)化整個交叉口的時間與空間資源是本研究的重點。

        交通系統(tǒng)的運行效率由供、需兩個方面決定,這兩個方面都具有不確定性和動態(tài)性的特點,再加之駕駛員行為的不確定性,經(jīng)過同一個交叉口的不同駕駛員具有不同的駕駛行為,即使同一個駕駛員在不同時間也會表現(xiàn)出不同的駕駛行為。這決定了狀態(tài)集的數(shù)量很大,難以事先枚舉出所有狀態(tài),為每種狀態(tài)都存儲一個最優(yōu)方案很困難。提高交通控制系統(tǒng)的智能性是當(dāng)前研究的一個趨勢。對于交通控制系統(tǒng)而言,智能最重要的體現(xiàn)是具有學(xué)習(xí)能力。如果交通控制模型具有了學(xué)習(xí)能力,那么就可以記住經(jīng)驗、對未經(jīng)歷的狀態(tài)采取經(jīng)驗復(fù)用。利用強化學(xué)習(xí)理論,建立具有學(xué)習(xí)能力的交通控制模型最具代表性。該方法能夠?qū)W習(xí)控制行為與其對環(huán)境作用效果之間的關(guān)系,近些年來被應(yīng)用于交通控制系統(tǒng)研究。Oliveira[2-3]等人采用基于環(huán)境檢測的強化學(xué)習(xí)方法,對噪音環(huán)境下的配時優(yōu)化進行了研究,通過檢測環(huán)境的改變來學(xué)習(xí)動態(tài)的流量模式,自動對流量模式進行識別,執(zhí)行對應(yīng)的策略,跟蹤環(huán)境轉(zhuǎn)換的預(yù)估誤差和獎勵。Chen[4]等人研究了一種基于近似動態(tài)規(guī)劃的自適應(yīng)交通信號實時控制算法,利用線性近似函數(shù)代替動態(tài)規(guī)劃中的值函數(shù),其中線性近似函數(shù)的參數(shù)由時間差分強化學(xué)習(xí)和擾動強化學(xué)習(xí)兩種方法在線學(xué)習(xí),極大地提高了模型的計算效率,而且模型優(yōu)化的時間步長越小,其性能越優(yōu)。Wiering[5]等人研究了基于“車輛投票”的強化學(xué)習(xí)優(yōu)化模型,通過估計每個車輛的等待時間,決定配時方案,該模型優(yōu)于固定信號配時模型。Abdulhai[6]等人建立了基于Q學(xué)習(xí)模型的配時優(yōu)化模型,需要對所有連續(xù)狀態(tài)進行整合加以描述,計算時間隨著車道數(shù)量和交叉口數(shù)量指數(shù)增加,限制了該模型只能用于小型路網(wǎng)。隨后,Prashanth[7]等人基于函數(shù)近似的強化學(xué)習(xí)算法對信號配時優(yōu)化進行了研究,提出了基于特征的狀態(tài)描述方法,將狀態(tài)離散為低、中和高3個區(qū)間,解決了狀態(tài)—行為對的維數(shù)災(zāi)難問題。Bingham[8]使用神經(jīng)網(wǎng)絡(luò)調(diào)整模糊交通信號控制器的成員函數(shù),使用強化學(xué)習(xí)評估神經(jīng)網(wǎng)絡(luò)采用的行為效用,改進了模糊控制的效果。馬壽峰[9]等人將Agent與經(jīng)驗知識和Q學(xué)習(xí)算法相結(jié)合,研究單個路口的動態(tài)配時問題。承向軍[10]等人采用Q學(xué)習(xí)方法以減少延誤為目標(biāo)對單路口進行信號配時的優(yōu)化,并應(yīng)用模糊控制規(guī)則改善信號控制,該方法優(yōu)于定時控制和感應(yīng)式控制。趙曉華[11-12]等人將Q學(xué)習(xí)及BP神經(jīng)元網(wǎng)絡(luò)應(yīng)用于切換式的信號控制優(yōu)化,該模型能夠感知交通流變化,并能夠自適應(yīng)控制,與定時控制相比,具有明顯的優(yōu)勢。盧守峰[13-14]等人在周期和綠信比等概念的基礎(chǔ)上,分別以等飽和度、延誤最小為優(yōu)化目標(biāo)建立了單交叉口離線 Q學(xué)習(xí)模型。Simon[15-16]等人將具有人工干預(yù)的監(jiān)督學(xué)習(xí)和時間差分強化學(xué)習(xí)應(yīng)用于信號配時優(yōu)化。

        作者以總關(guān)鍵排隊長度差最小為優(yōu)化目標(biāo),擬研究交通控制的在線學(xué)習(xí)模型。傳統(tǒng)的Q學(xué)習(xí)模型在應(yīng)用時強調(diào)構(gòu)造狀態(tài)與行為的并重,狀態(tài)分為連續(xù)型狀態(tài)和離散型狀態(tài),因此,原有模型的狀態(tài)-行為組合龐大,遍歷時易造成維數(shù)災(zāi)難。本研究擬對Q學(xué)習(xí)模型構(gòu)建新的目標(biāo)函數(shù)和新的離散化的獎勵函數(shù),對Q學(xué)習(xí)公式進行簡化,弱化對狀態(tài)的構(gòu)造,使得排隊長度小于某一長度時為一個狀態(tài),當(dāng)它大于某一長度時為另一狀態(tài),將這個長度取無窮大則狀態(tài)不變。使?fàn)顟B(tài)-行為組合簡化為行為組合,以減少重復(fù),加快學(xué)習(xí)速度。

        1 Q學(xué)習(xí)模型

        1.1 Q學(xué)習(xí)公式的簡化及參數(shù)的取值

        強化學(xué)習(xí)模型通過與動態(tài)環(huán)境交互進行決策學(xué)習(xí),是一種試錯型的學(xué)習(xí)模型,其基本原理是學(xué)習(xí)模型在某個環(huán)境狀態(tài)下選擇并執(zhí)行某個行為,作用于環(huán)境狀態(tài)并得到相應(yīng)的獎勵。該獎勵用于強化這個環(huán)境狀態(tài)與最佳行為之間的映射關(guān)系,反復(fù)執(zhí)行這個過程,學(xué)習(xí)模型即可獲得在任意環(huán)境狀態(tài)下選擇最佳行為的能力。學(xué)者們提出了多種強化學(xué)習(xí)算法[17],比較成功的算法有:蒙特卡羅算法、瞬時差分(Temporal Difference,簡稱為TD)算法、Sarsa學(xué)習(xí)算法、Q學(xué)習(xí)算法、Dyna學(xué)習(xí)算法及R學(xué)習(xí)算法等。其中,應(yīng)用最為廣泛的是Q學(xué)習(xí)算法,被公認為強化學(xué)習(xí)算法發(fā)展過程中的一個里程碑,由 Watkins[2]于1989年提出。Q學(xué)習(xí)算法中,模型通過反復(fù)映射、迭代優(yōu)化Q值函數(shù)來提高學(xué)習(xí)能力,Q函數(shù)的初始值可任意給定,Q 學(xué)習(xí)的公式[17]為:

        式中:α∈[0,1]為學(xué)習(xí)率;γ∈[0,1]為折扣因子;A 為行為的集合;Q(s,a)是當(dāng)前狀態(tài)s、行為a對應(yīng)的Q 值;Q(s′,a′)是下一狀態(tài)s′、行為a′對應(yīng)的Q值;r是當(dāng)前獎勵。

        當(dāng)狀態(tài)不改變,即s等于s′時式(1)可簡化為:

        經(jīng)過多次的仿真測試,對于信號配時優(yōu)化問題,當(dāng)α取0.1~0.2、γ取0.7~0.9時,效果最好。參數(shù)取此范圍之外時,易出現(xiàn)兩種狀況:①無論學(xué)習(xí)多久,Q學(xué)習(xí)也不會收斂,即所有行為所對應(yīng)的Q值都在不斷增加,沒有任何一個行為的Q值會連續(xù)下降;②當(dāng)Q學(xué)習(xí)已收斂于某一行為時,由于Vissim中車流量服從泊松分布,可能某個時間突然到達較大的車流量,造成獎勵r突然增大,造成Q值劇烈增加,從而使得Q學(xué)習(xí)模型容易跳出當(dāng)前收斂狀態(tài),即干擾量對模型收斂影響很大,模型不夠穩(wěn)定。通過多次測試,選擇參數(shù)合適的范圍,使得Q學(xué)習(xí)既能收斂到最優(yōu)行為又能保持足夠的穩(wěn)定性。

        1.2 建立狀態(tài)、行為、獎勵的模型

        建立狀態(tài)、行為、獎勵的模型是決定強化學(xué)習(xí)模型性能的關(guān)鍵。以交叉口進口的流量為狀態(tài)。選取各相位綠燈時間的排列組合作為行為。定義同一相位內(nèi)排隊長度最大的流向為關(guān)鍵車流。定義關(guān)鍵車流的排隊長度為關(guān)鍵排隊長度。各相位關(guān)鍵排隊長度之差的絕對值的總和為總關(guān)鍵排隊長度之差。多個周期的總關(guān)鍵排隊長度之差的平均值為平均總關(guān)鍵排隊長度之差。優(yōu)化的目標(biāo)函數(shù)定義為4個相位的總關(guān)鍵排隊長度之差最小。以4個相位的總關(guān)鍵排隊長度之差最小作為目標(biāo)函數(shù)是為了使4個相位的排隊長度盡量相等。根據(jù)各相位排隊長度實時動態(tài)分配綠燈時間,增加排隊長度過長的相位的綠燈時間,使其排隊不再增加或消散,減少排隊長度過短的相位的綠燈時間,保證綠燈時間得到充分利用。研究中發(fā)現(xiàn):這個目標(biāo)函數(shù)對于相近的配時方案的取值相差不大,即不敏感。為此,利用這個目標(biāo)函數(shù)重新構(gòu)造了獎勵。例如:l為總關(guān)鍵排隊長度之差的當(dāng)前值,l′i為各相位關(guān)鍵排隊長度之差,l 為總關(guān)鍵排隊長度之差的歷史平均值,r為當(dāng)前獎勵,k為正數(shù)。以l離散為5個部分為例,說明獎勵函數(shù)的構(gòu)建,k取10。

        如果0≤l≤0.5l,則r=0.5k;如果0.5l≤l≤l,則r=k;如果l≤l≤1.5l,則r=1.5k;如果1.5l≤l≤2l,則r=3k;如果l≥2l,則r=5k。

        離散的目的是拉大獎勵的差距,從而強化學(xué)習(xí)模型能夠區(qū)分行為之間的優(yōu)劣。由于每個獎勵對應(yīng)關(guān)鍵排隊長度差的一個區(qū)間,因此離散方法能夠減少交通流隨機性帶來的不穩(wěn)定性,提高魯棒性。行為得到的獎勵越少,說明行為越好。

        對于交叉口控制,行為是各相位綠燈時間,涉及定周期和變周期兩種情況。對于定周期情況,各相位綠燈時間之和等于周期減去總損失時間,行為取值受到周期的約束。對于變周期情況,行為取值不受到周期的約束,在取值范圍內(nèi),分別選取各相位綠燈時間,各相位綠燈時間之和加上總損失時間即為周期。變周期模式的行為數(shù)量比定周期模式的行為數(shù)量大得多,定義域的增大為得到更優(yōu)的結(jié)果提供了可能。

        1.3 行為選擇函數(shù)

        根據(jù)Pursuit函數(shù)[17],更新行為,選擇概率。在第t+1個周期,選擇最優(yōu)行為a*t+1的概率為:

        選擇其他a≠a*t+1行為的概率為:

        式中:πt(a)表示在周期為t時選擇行為a的概率;a*t+1表示最優(yōu)行為,在本研究中最優(yōu)行為指當(dāng)前狀態(tài)下最小Q值所對應(yīng)的行為,當(dāng)有多個最優(yōu)行為時隨機選擇一個;β的取值為0<β<1。

        初始化行為選擇概率矩陣時,每個初始行為概率都相等且概率總和為1。通過調(diào)整β,Pursuit函數(shù)既能確保以較大的概率選擇最優(yōu)行為,又能探索沒被選中過的行為,使行為的探索與利用保持平衡。

        2 在線學(xué)習(xí)流程

        用Excel VBA、Vissim及Matlab集成仿真平臺的方法[18]進行了研究。Excel VBA與 Matlab的集成通過Excel link擴展接口實現(xiàn),Excel VBA與Vissim之間通過COM接口集成?;谶@個集成仿真平臺,可以實現(xiàn)在線和離線兩種學(xué)習(xí)方法。對于離線學(xué)習(xí)方法,Matlab存儲已收斂的強化學(xué)習(xí)矩陣,Excel VBA基于這個矩陣和Vissim檢測到的排隊長度選擇信號配時方案。對于在線學(xué)習(xí)方法,Matlab存儲的強化學(xué)習(xí)矩陣在每個周期都被更新一次,Excel VBA基于強化學(xué)習(xí)矩陣的當(dāng)前值和Vissim檢測的排隊長度選擇信號配時方案。隨著程序的運行,通過不斷地對強化學(xué)習(xí)矩陣進行更新,使得該矩陣逐漸收斂。因此離線方法和在線方法的主要區(qū)別在于強化學(xué)習(xí)矩陣。對于離線學(xué)習(xí)方法,使用收斂的強化學(xué)習(xí)矩陣,適用于波動小的交通模式;對于在線學(xué)習(xí)方法,程序邊運行邊更新強化學(xué)習(xí)矩陣,適用于波動大的交通模式。作者采用在線學(xué)習(xí)方法的流程可描述為:

        1)啟動Excel VBA、Vissim及 Matlab集成仿真平臺,在VBA中,初始化行為選擇概率矩陣、Q值矩陣。

        2)在Matlab中,更新行為選擇概率,并選取當(dāng)前行為。

        3)將當(dāng)前行為對應(yīng)的綠燈時間傳回Vissim,單步運行一個周期后,提取排隊長度,傳回 Matlab。

        4)Matlab處理數(shù)據(jù),得到總關(guān)鍵排隊之差及獎勵。

        6)判斷是否滿足終止條件。若不滿足,則轉(zhuǎn)向2);否則,終止。

        3 到達流量均值固定情況的模型性能對比分析

        將定周期Q學(xué)習(xí)模型、不定周期Q學(xué)習(xí)模型與Transyt配時模型進行性能對比分析。算例設(shè)置:對于一個十字型交叉口,采用4相位控制,各進口方向直行2個車道、左轉(zhuǎn)1個車道,右轉(zhuǎn)不受控制。相位設(shè)置:東西直行為相位1,東西左轉(zhuǎn)為相位2,南北直行為相位3,南北左轉(zhuǎn)為相位4。流量設(shè)置:東西直行流量為1 168 892veh/h,東西左轉(zhuǎn)流量為416 344veh/h,南北直行流量為132 272veh/h,南北左轉(zhuǎn)流量為420 152veh/h。

        3.1 Transyt配時方案

        采用Transyt 14版本進行計算,黃燈時間均為3s,全燈時間在相位2,3之間和相位4,1之間設(shè)置,設(shè)為2s,即總綠燈損失時間為16s。相位和相序如圖1所示。利用Transyt的周期優(yōu)化功能,優(yōu)化得到最佳周期為70s。然后,將此周期時間輸入Transyt中,優(yōu)化出各相位綠燈時間,按相序分別為 [15,13,13,13]。在 Vissim 中 畫 出 與Transyt同數(shù)量同寬度的車道,并輸入相對應(yīng)的流量,設(shè)置相同的相位時間間隔及相序,將Transyt中的流量及信號配時輸入Vissim中進行仿真,提取數(shù)據(jù)的時間步長與周期相同,即每隔70s提取一次各流向關(guān)鍵車流的最大排隊長度,仿真總步長設(shè)為2 000步。

        圖1 相位及相序Fig.1 Phase and phase sequence

        3.2 定周期Q學(xué)習(xí)配時方案

        作為對比,定周期Q學(xué)習(xí)配時方案周期采用Transyt最優(yōu)周期,即70s。各相位的最小綠燈時間設(shè)為10s,最大綠燈時間為24s。以2s為間隔取值,一個相位綠燈時間可選范圍為[10,12,14,16,18,20,22,24]。當(dāng)4個相位選擇的綠燈時間總和等于70~16s時,為一個行為(總共有120個行為)。獎勵為總關(guān)鍵排隊長度之差l。 在線對Vissim進行仿真,仿真總步長設(shè)為2 000步,每步70s。各狀態(tài)-行為對的初始Q值均設(shè)為47,行為的初始概率均設(shè)為1/120。單步運行,每一仿真步內(nèi)用排隊長度計數(shù)器采集各相位關(guān)鍵車流的排隊長度,通過Q學(xué)習(xí)得到新的配時方案,并寫入Vissim中。其仿真結(jié)果分別如圖2~4所示。

        圖2 行為變化Fig.2 Behavior change

        圖3 前1 000步Q值變化Fig.3 The Qvalue changes before the first 1 000steps

        圖4 后1 000步Q值變化Fig.4 The Qvalue changes after the last 1 000steps

        行為編號76對應(yīng)各相位綠燈時間分別為[14,14,10,16]。由圖2可知,運行2 000步以后,行為選擇收斂于編號76。在Q學(xué)習(xí)過程中,一個時間步內(nèi)只選擇一次行為,被選中的行為Q值得到更新,其他行為的Q值則保持不變。收斂即意味著同一行為被連續(xù)選中,該行為對應(yīng)的Q值不斷地被更新,但始終比其他行為所對應(yīng)的Q值小,其對應(yīng)的圖像是一塊底部呈鋸齒狀的薄片,矩形薄片表示未被連續(xù)選中的其他行為。由圖3,4可知,由于Q學(xué)習(xí)具有全局探索學(xué)習(xí)的能力,即使在局部收斂于行為編號77(對應(yīng)的各相位綠燈時間[14,14,12,14])后也能繼續(xù)探索新行為直至學(xué)習(xí)到最優(yōu)行為76(對應(yīng)的各相位綠燈時間[14,14,10,16])。

        3.3 不定周期Q學(xué)習(xí)配時方案

        雖然定周期Q學(xué)習(xí)配時模型具有很好的性能,但其缺陷在于:其配時方案的優(yōu)化要事先確定周期時間,即要先優(yōu)化出周期,然后才能優(yōu)化出各相位綠燈時間。與Transyt相同,對不同的流量要優(yōu)化出不同的周期時間及配時方案,對于現(xiàn)實生活復(fù)雜的交通流來說,顯得十分的繁瑣。而不定周期Q學(xué)習(xí)配時模型則具有同時優(yōu)化周期及綠燈時間的功能,能有效解決這些問題。不定周期仿真中Vissim的各種設(shè)置與定周期Vissim的一致,各相位的最小綠燈時間設(shè)為10s。為避免維數(shù)災(zāi)難以及考慮到定周期配時和Transyt配時最大綠燈時間均不超過18s,最大綠燈時間設(shè)為18s,以2s為間隔取值,一個相位綠燈時間可選范圍為[10,12,14,16,18],4個相位共有625種組合,即625個行為。周期時間為4個相位綠燈時間之和加上16s的綠燈損失時間。在線進行仿真,各狀態(tài)-行為對的初始Q值均設(shè)為47,行為的初始概率均設(shè)為1/625。仿真總步長設(shè)為5 500步,每步步長等于當(dāng)前周期時間,單步運行,每一仿真步內(nèi)用排隊長度計數(shù)器從Vissim中采集各相位關(guān)鍵車流的排隊長度,通過學(xué)習(xí),得到不定周期新的配時方案后,寫入Vissim中,繼續(xù)仿真。其仿真結(jié)果分別如圖5,6所示。

        從圖5,6中可以看出,不定周期Q學(xué)習(xí)的最優(yōu)行為是編號為354(對應(yīng)的相位綠燈時間[14,18,10,16])的行為,其對應(yīng)的最優(yōu)周期時間是74s。

        3.4 3種方案的對比

        Transyt配時方案、定周期Q學(xué)習(xí)配時方案及不定周期Q學(xué)習(xí)配時方案的性能對比見表1和如圖7所示。

        圖5 行為與相對應(yīng)的周期變化Fig.5 Behavior and the corresponding periodic change

        圖6 最后1 000步Q值變化Fig.6 The Qvalue changes in the last 1 000steps

        表1 相同流量下不同的配時方案Table 1 The different timing plans under the same flow

        圖7 行為收斂后總關(guān)鍵排隊長度之差的對比Fig.7 The contrast among the differences of total critical queue length after behavior convergence

        從表1中可以看出,定周期Q學(xué)習(xí)配時、不定周期Q學(xué)習(xí)配時與Transyt配時結(jié)果非常接近。從開始仿真到選擇最優(yōu)行為,定周期Q學(xué)習(xí)配時所用步數(shù)1 100步遠小于不定周期Q學(xué)習(xí)配時4 500步。這說明在以周期優(yōu)化為前提的情況下,定周期Q學(xué)習(xí)有更高的學(xué)習(xí)效率。從圖7中可以看出,不定周期Q學(xué)習(xí)和定周期Q學(xué)習(xí)行為收斂后的配時所造成的總關(guān)鍵排隊長度之差在平均值及波動幅度上都要比Transyt配時的要小一些。這說明Q學(xué)習(xí)模型的配時性能是較優(yōu)的,且不定周期Q學(xué)習(xí)具有更好的效果。3種方案對比說明:①定周期Q學(xué)習(xí)模型的學(xué)習(xí)速度更快,在周期確定的情況下可優(yōu)先考慮;不定周期Q學(xué)習(xí)模型的整體性更好,周期及各相位配時都能同時優(yōu)化,且性能更好。②兩種Q學(xué)習(xí)模型都具有探索全局最優(yōu)行為的性能,不會陷入局部最優(yōu)。

        4 到達流量均值變化情況下的不定周期Q學(xué)習(xí)配時方案

        由于不定周期Q學(xué)習(xí)模型具有較好的性能,因此,通過改變到達流量均值,能檢驗不定周期Q學(xué)習(xí)模型在流量變化狀況下的學(xué)習(xí)性能。本研究中的算例計算都是以Vissim軟件為平臺的,在該軟件中,到達流量服從輸入流量的泊松分布,流量設(shè)置見表2,計算結(jié)果分別如圖8~10所示。

        表2 流量設(shè)置Table 2 The input flow rate

        圖8 流量改變后,行為與相對應(yīng)的周期變化Fig.8 Behavior and the corresponding cycle

        圖9 流量改變后,前1 000步Q值變化Fig.9 The Qvalue changes for the first 1 000steps

        從圖8中可以看出,流量改變后,經(jīng)過短暫探索局部收斂于行為編號609(對應(yīng)的相位綠燈時間[18,18,12,16]),對應(yīng)周期為 80s,經(jīng)過大約2 000步的探索收斂于全局最優(yōu)行為479(對應(yīng)的相位綠燈時間[16,18,10,16]),對應(yīng)周期為76s。第一次收斂需要4 500步,流量變化后,第二次收斂需要2 000步??梢钥闯?,第二次收斂步數(shù)明顯減少。這說明:①對于流量改變情況,不定周期Q學(xué)習(xí)模型能給出相對應(yīng)的配時方案;②Q學(xué)習(xí)模型能夠利用流量改變前的學(xué)習(xí)經(jīng)驗應(yīng)對新環(huán)境,加快了收斂速度。

        圖10 流量改變后,最后1 000步Q值變化Fig.10 The Qvalue changes for the last 1 000steps

        5 結(jié)論

        本研究構(gòu)建了新的目標(biāo)函數(shù)和新的離散化的獎勵函數(shù),對Q學(xué)習(xí)公式進行了簡化。通過Excel VBA、Vissim及Matlab集成仿真平臺進行了研究。仿真結(jié)果表明:建立的以總關(guān)鍵排隊長度之差最小為優(yōu)化目標(biāo)的單交叉口多相位在線Q學(xué)習(xí)模型能夠探索全局最優(yōu)行為,不會陷入局部最優(yōu),其最優(yōu)配時方案比Transyt配時方案具有更好的效果。定周期Q學(xué)習(xí)模型的學(xué)習(xí)速度更快,在周期確定的情況下可優(yōu)先考慮。不定周期Q學(xué)習(xí)模型的整體性更好,周期及各相位配時都能同時優(yōu)化,且準確性更好。在流量改變情況下,不定周期Q學(xué)習(xí)模型能夠及時適應(yīng)環(huán)境的變化,較快地尋找到相應(yīng)的最優(yōu)配時,并且利用學(xué)習(xí)經(jīng)驗,加快了學(xué)習(xí)速度。

        本研究建立的Q學(xué)習(xí)模型能對多相位單交叉口的周期時間及各相位綠燈時間進行動態(tài)優(yōu)化,具有一定的實用價值。模型中采用的是固定的相位及相序,Q值更新公式參數(shù)是通過反復(fù)測試確定的經(jīng)驗值,對參數(shù)進行敏感性分析及相位和相序的優(yōu)化是下一步的研究方向。

        ):

        [1] 鄭嘉利,覃團發(fā).基于仿射運動估計的旅游景觀全景視頻系統(tǒng)[J].廣西大學(xué)學(xué)報:自然科學(xué)版,2010,35(5):817-820.(ZHENG Jia-li,QIN Tuan-fa.Panoramic video system based on affine motion estimation for tourist landscape showing[J].Journal of Guangxi University:Natural Science Edition,2010,35(5):817-820.(in Chinese))

        [2] Oliveira D,Bazzan A L C,Silva B C,et al.Reinforcement learning based control of traffic lights in nonstationary environments:A case study in a microscopic simulator[A].Proceedings of the 4th European Workshop on Multi-Agent Systems[C].Lisbon,Portugal:[s.n.],2006:31-42.

        [3] Ilva B C,Oliveira D,Bazzan A L C,et al.Adaptive traffic control with reinforcement learning[A].Proceedings of the 4th Workshop on Agents in Traffic and Transportation[C].Hakodate,Janpan:[s.n.],2006:80-86.

        [4] Chen C,Chi K W,Benjamin G H.Adaptive traffic signal control using approximate dynamic programming[J].Transportation Research Part C,2009,17(5):456-474.

        [5] Wiering M,Veenen J V,Vreeken J,et al.Intelligent traffic light control,institute of information and computing sciences[R].Dutch:Utrecht University,2004.

        [6] Abdulhai B,Pringle R,Karakoulas G J.Reinforcement learning for true adaptive traffic signal control[J].Journal of Transportation Engineering,2003,129(3):278-285.

        [7] Prashanth L A,Shalabh B.Reinforcement learning with function approximation for traffic signal control[J].IEEE Transactions on Intelligent Transportation Systems,2011,12(2):412-421.

        [8] Bingham E.Reinforcement learning in neurofuzzy traffic signal control[J].European Journal of Operational Research,2001,131(2):232-241.

        [9] 馬壽峰,李英,劉豹.一種基于Agent的單路口交通信號學(xué)習(xí)控制方法[J].系統(tǒng)工程學(xué)報,2002,17(6):526-530.(MA Shou-feng,LI Ying,LIU Bao.Agentbased learning control method for urban traffic signal of single intersection[J].Journal of Systems Engineering,2002,17(6):526-530.(in Chinese))

        [10] 承向軍,常歆識,楊肇夏.基于Q學(xué)習(xí)的交通信號控制方法[J].系統(tǒng)工程理論與實踐,2006,26(8):136-140.(CHENG Xiang-jun,CHANG Xin-shi,YANG Zhao-xia.A traffic signal control method based on Q-learning[J].System Engineering Theory and Practice,2006,26(8):136-140.(in Chinese))

        [11] 趙曉華,石建軍,李振龍,等.基于 Q-learning和BP神經(jīng)元網(wǎng)絡(luò)的交叉口信號燈控制[J].公路交通科技,2007,24(7):99-102.(ZHAO Xiao-h(huán)ua,SHI Jian-jun,LI Zhen-long,et al.Traffic signal control based on Q-learning and BP neural network[J].Journal of Highway and Transportation Research and Development,2007,24(7):99-102.(in Chinese))

        [12] 趙曉華,李振龍,陳陽舟,等.基于混雜系統(tǒng)Q學(xué)習(xí)最優(yōu)控制的信號燈控制方法[J].高技術(shù)通訊,2007,5(17):498-502.(ZHAO Xiao-h(huán)ua,LI Zhen-long,CHEN Yang-zhou,et al.An optimal control method for hybrid systems based on Q-learning for an intersection traffic signal control[J].High Technology Communication,2007,5(17):498-502.(in Chinese))

        [13] 盧守峰,邵維,韋欽平,等.基于綠燈時間等飽和度的離線Q學(xué)習(xí)配時優(yōu)化模型[J].系統(tǒng)工程,2012,30(7):117-122.(LU Shou-feng,SHAO Wei,WEI Qin-ping,et al.Optimization model of the of f-line Q learning timing based on green time equi-saturation[J].Systems Engineering,2012,30(7):117-122.(in Chinese))

        [14] 盧守峰,韋欽平,劉喜敏.單交叉口信號配時的離線Q學(xué)習(xí)模型研究[J].控制工程,2012,19(6):987-992.(LU Shou-feng,WEI Qin-ping,LIU Xi-min.The study on off-line Q-learning model for single intersection signal signal timing[J].Control Engineering of China,2012,19(6):987-992.(in Chinese))

        [15] Simon B,Ben W.An automated signalized junction controller that learns strategies from a human expert[J].Engineering Applications of Artificial Intelligence,2012,25:107-118.

        [16] Simon B,Ben W.An automated signalized junction controller that learns strategies by temporal difference reinforcement learning[J].Engineering Applications of Artificial Intelligence,2013,26:652-659.

        [17] Sutton R S,Barto A G.Reinforcement learning:An introduction[M].Cambridge,Massachusetts:MIT Press,1998.

        [18] 盧守峰,韋欽平,沈文,等.集成 Vissim、Excel VBA、Matlab的仿真平臺研究[J].交通運輸系統(tǒng)工程與信息,2012,12(4):43-48.(LU Shou-feng,WEI Qin-ping,SHEN Wen,et al.Integrated simulation platform of Vissim,Excel VBA,Matlab[J].Journal of Transportation Systems Engineering and Information Technology,2012,12(4):43-48.(in Chinese))

        猜你喜歡
        綠燈排隊關(guān)鍵
        高考考好是關(guān)鍵
        怎樣排隊
        為什么紅燈停,綠燈行
        巧排隊列
        三角龍排隊
        紅燈停,綠燈行
        獲勝關(guān)鍵
        NBA特刊(2014年7期)2014-04-29 00:44:03
        生意無大小,關(guān)鍵是怎么做?
        中國商人(2013年1期)2013-12-04 08:52:52
        一路綠燈 一路關(guān)愛
        中國火炬(2010年5期)2010-07-25 07:48:00
        紅燈與綠燈
        亚洲av综合色区久久精品天堂| 国产一区亚洲二区三区| 91偷拍与自偷拍亚洲精品86| 亚洲日本精品国产一区二区三区| 熟妇人妻无乱码中文字幕av| 妺妺窝人体色777777| 国产aⅴ无码专区亚洲av| 国产香港明星裸体xxxx视频| 久久久久人妻精品一区三寸| 精品伊人久久大香线蕉综合| 米奇777四色精品人人爽| 中文字幕一区二区三区精彩视频 | 亚洲熟女www一区二区三区| 国产一区二区女内射| 久久精品国产www456c0m| 亚洲另类精品无码专区 | AV中文码一区二区三区| 日本成人三级视频网站| 在线亚洲妇色中文色综合| 黄色国产精品福利刺激午夜片| 一区二区三区视频在线观看免费 | 少妇中文字幕乱码亚洲影视| 看黄a大片日本真人视频直播| 欧美亚洲日本国产综合在线| 无码人妻丰满熟妇精品区| 国产精品av在线一区二区三区 | 加勒比东京热一区二区| 蜜桃传媒免费在线播放| 加勒比一本heyzo高清视频| 亚洲va中文字幕无码毛片| 久久无码人妻精品一区二区三区| 国产成人+亚洲欧洲+综合| 亚洲中文欧美日韩在线| 九九日本黄色精品视频| 亚洲人妻御姐中文字幕| 玖玖资源站亚洲最大的网站| 二区三区三区视频在线观看| 五月av综合av国产av| 色偷偷噜噜噜亚洲男人| 国产成人无码av在线播放dvd| 国产桃色在线成免费视频|