趙 純,董小明
(安慶師范大學(xué) 計(jì)算機(jī)與信息學(xué)院,安徽 安慶 246000)
隨著機(jī)動(dòng)車數(shù)量的不斷增長(zhǎng),道路交叉口的擁堵問(wèn)題迫在眉睫,想要更好地處理交通擁堵問(wèn)題,就必須從根源出發(fā)。傳統(tǒng)的交通信號(hào)控制時(shí)間固定,導(dǎo)致綠燈階段的不必要等待,造成了極大的資源浪費(fèi),而且也需要大量的人力物力資源[1]。因此通過(guò)交通信號(hào)控制,能夠很好地緩解擁堵壓力,減少交通事故的發(fā)生,使系統(tǒng)更加效率化和合理化。
交叉口路網(wǎng)系統(tǒng)具有一定的不確定性和實(shí)時(shí)性,因此需要設(shè)計(jì)一個(gè)能夠感知狀態(tài)變化、選擇最優(yōu)時(shí)間的控制器。由于近年來(lái)交通控制系統(tǒng)的目標(biāo)是通過(guò)預(yù)測(cè)未來(lái)的交通狀態(tài)提前制定適當(dāng)?shù)目刂品桨竅2],這一方案突出了智能交通的重要性和艱巨性。但是隨著強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)的不斷發(fā)展進(jìn)步,有許多學(xué)者把深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合為深度強(qiáng)化學(xué)習(xí)應(yīng)用到交通控制上[3]。機(jī)器學(xué)習(xí)是目前快速發(fā)展的理論方向,包含了眾多的研究方向,而強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)領(lǐng)域,使得強(qiáng)化學(xué)習(xí)成為時(shí)下研究的熱點(diǎn)問(wèn)題之一[4-5]。
強(qiáng)化學(xué)習(xí)是一種自適應(yīng)生成控制策略,其中一個(gè)或多個(gè)Agent學(xué)習(xí)如何利用Agent和環(huán)境本身之間的交互產(chǎn)生的經(jīng)驗(yàn)來(lái)解決環(huán)境中的任務(wù)。早期階段的交通信號(hào)強(qiáng)化學(xué)習(xí)控制對(duì)手動(dòng)特征提取有著很大的依賴性,需要極大的人力資源,而且狀態(tài)非常不穩(wěn)定,很容易就丟失最主要的狀態(tài)信息。強(qiáng)化學(xué)習(xí)由于近年來(lái)AlphaGo[6]等的成功而越來(lái)越吸引人們的關(guān)注和研究興趣。
文中提出的方法主要優(yōu)勢(shì)在于:
(1)通過(guò)采用密集采樣策略和改進(jìn)后的獎(jiǎng)勵(lì)函數(shù)相結(jié)合的方式對(duì)Agent模型進(jìn)行修改,這種方式在一定程度上提高了控制的性能。
(2)所有的仿真實(shí)驗(yàn)都是使用現(xiàn)在國(guó)際主流的交通模擬軟件(simulation of urban mobility,SUMO)來(lái)完成的,大大提高了實(shí)驗(yàn)的可靠性和穩(wěn)定性。
(3)參數(shù)設(shè)置合理,通過(guò)多次實(shí)驗(yàn)減少偶然性,提高了控制系統(tǒng)的穩(wěn)定性。
文中的Agent通過(guò)與環(huán)境進(jìn)行交互學(xué)習(xí)如何制定一個(gè)最優(yōu)策略[7]。交互由微型交通模擬器進(jìn)行處理,模擬器能夠讓智能體體驗(yàn)多種情況,并在模擬過(guò)程中學(xué)習(xí)哪些因素影響并激活了錯(cuò)誤的信號(hào)燈相位。在強(qiáng)化學(xué)習(xí)框架[8]中,Agent被定義為三個(gè)基本屬性:狀態(tài)表示、一組可能的行為和獎(jiǎng)勵(lì)函數(shù)。
近年來(lái)有關(guān)交通信號(hào)燈控制器的研究工作提出了信息豐富的狀態(tài),但在現(xiàn)實(shí)中,由于這種表示中所使用的信息很難收集,所以很難實(shí)現(xiàn)。而Agent感知到某一時(shí)刻t的環(huán)境狀態(tài),這里使用一種簡(jiǎn)單并且易于應(yīng)用的狀態(tài)表示方法來(lái)增加獲得良好結(jié)果的可能性。在交叉口的每一條臂上,進(jìn)入的車輛在單元中被離散化,這些單元可以識(shí)別其中是否有車輛。環(huán)境狀況被表現(xiàn)為路面的離散化,目的是告知Agent車輛在特定時(shí)間內(nèi)的位置。
動(dòng)作集確定了Agent可用的交互方式,它被定義為一個(gè)交通燈的配置,執(zhí)行一個(gè)操作就意味著在一組車道上將一些交通燈變綠,并保持固定的時(shí)間。以下表示Agent可以采取的所有可能的操作:
·東西向前進(jìn):綠色階段適用于位于東西向且想要直行或右轉(zhuǎn)的車輛。
·東西向左轉(zhuǎn):綠色階段適用于處于東西向并希望左轉(zhuǎn)的車輛。
·南北前進(jìn):綠色階段適用于位于南北向并希望直行或右轉(zhuǎn)的車輛。
·南北向左轉(zhuǎn):綠色階段適用于位于南北向并希望左轉(zhuǎn)的車輛。
根據(jù)Agent選擇的動(dòng)作行為,從環(huán)境中產(chǎn)生反饋給Agent,以評(píng)估其選擇的行動(dòng)。Agent通過(guò)收到的獎(jiǎng)勵(lì)來(lái)改進(jìn)其將來(lái)的行為選擇策略,積極的獎(jiǎng)勵(lì)是好的行動(dòng)的反饋結(jié)果,而消極的獎(jiǎng)勵(lì)是在選擇壞的行動(dòng)之后得到的。在此實(shí)驗(yàn)中,目標(biāo)是最大化通過(guò)交叉口的交通流量。為了達(dá)到這個(gè)目標(biāo),獎(jiǎng)勵(lì)應(yīng)該從一些績(jī)效指標(biāo)中獲得確信的流量效率,因此Agent能夠理解是否采取了合理的行動(dòng)來(lái)提高或降低交叉口效率。
Q-Learning是無(wú)模型強(qiáng)化學(xué)習(xí)的一種形式,它包括為從特定狀態(tài)執(zhí)行的操作并分配一個(gè)稱為Q-value的值。Q-value的目的是量化一個(gè)行動(dòng)的優(yōu)缺點(diǎn),使用即時(shí)獎(jiǎng)勵(lì)和最大預(yù)期未來(lái)回報(bào)相結(jié)合,這樣Agent就知道哪些行動(dòng)將導(dǎo)致最佳的總體策略[9]。然后,該狀態(tài)與該狀態(tài)的動(dòng)作值之間的映射被一個(gè)深層神經(jīng)網(wǎng)絡(luò)逼近。
傳統(tǒng)的Q學(xué)習(xí)算法[10-11]更新式如下:
Q(st,at)=Q(st,at)+α(rt+1+γ.maxAQ(st+1,at+1)-Q(st,at))
(1)
該方程使用學(xué)習(xí)率α來(lái)更新當(dāng)前的Q值。rt+1表示與在狀態(tài)st處采取行動(dòng)相關(guān)的獎(jiǎng)勵(lì),Q(st+1,at)表示近期未來(lái)的Q值,st+1是環(huán)境在狀態(tài)st選擇動(dòng)作后演化的下一個(gè)狀態(tài),γ是假設(shè)值介于0和1之間的折扣因子,通過(guò)這個(gè)折扣因子可以降低未來(lái)獎(jiǎng)勵(lì)的重要性。
文中使用了改進(jìn)后的公式,如下:
Q(st,at)=rt+1+γ.maxAQ'(st+1,at+1)
(2)
獎(jiǎng)勵(lì)rt+1是在st采取行動(dòng)之后才收到的獎(jiǎng)勵(lì),Q(st,at)是st+1采取相關(guān)行動(dòng)后有關(guān)的Q值,也就是采取行動(dòng)后的下一個(gè)狀態(tài),折扣因子γ表示和即時(shí)獎(jiǎng)勵(lì)相比,未來(lái)獎(jiǎng)勵(lì)的懲罰相對(duì)較小。這個(gè)公式是通過(guò)即時(shí)獎(jiǎng)勵(lì)和未來(lái)動(dòng)作的折扣Q值來(lái)更新?tīng)顟B(tài)st中當(dāng)前行動(dòng)Q值的規(guī)則。所以,表示未來(lái)動(dòng)作隱含價(jià)值的Q'(st+1,at+1)是持有st+1之后的最大折扣回報(bào),即Q''(st+2,at+2)。同樣,它也擁有下一個(gè)狀態(tài)的最大折扣回報(bào),即Q'''(st+3,at+3)。這就說(shuō)明不管Agent如何選擇動(dòng)作,不僅僅基于即時(shí)獎(jiǎng)勵(lì),而且也基于未來(lái)預(yù)期折扣獎(jiǎng)勵(lì)。在模擬過(guò)程中,Agent迭代地獲得關(guān)于動(dòng)作序列值的知識(shí)。最后,希望它能夠選擇動(dòng)作序列,從而獲得更高的累積回報(bào)以獲得最佳性能。
文中涉及的獎(jiǎng)勵(lì)函數(shù):
文獻(xiàn)獎(jiǎng)勵(lì)函數(shù):當(dāng)Agent選擇一個(gè)錯(cuò)誤的動(dòng)作時(shí),就給它返回一個(gè)負(fù)值,當(dāng)它選擇一個(gè)好的動(dòng)作時(shí),就給它返回一個(gè)正值。不良行為可以表示為在當(dāng)前時(shí)間步驟t中,與前一時(shí)間步驟t-1中的情況相比,在隊(duì)列中添加更多車輛的操作,導(dǎo)致與上一時(shí)間步驟相比等待時(shí)間更長(zhǎng)。
文獻(xiàn)獎(jiǎng)勵(lì)函數(shù)的等式如下:
rt=Swt-1-Swt
(3)
其中,rt表示在時(shí)間步驟t的獎(jiǎng)勵(lì),Swt-1和Swt是在時(shí)刻t-1和t時(shí)所有車輛的總等待時(shí)間。
將上面這個(gè)等式進(jìn)行了改進(jìn),表示如下:
rt=0.8·Swt-1-Swt
(4)
等式符號(hào)與式(3)基本相同,唯一的不同就在于系數(shù)為0.8,修改這個(gè)系數(shù)的主要原因是增加所獲得獎(jiǎng)勵(lì)的幅度。這種變化的效果是,Agent對(duì)行動(dòng)的后果有更強(qiáng)的代表性,訓(xùn)練的有效性得到了提高。
文中使用了深度Q-Learning算法,將觀察到的環(huán)境狀態(tài)st映射到與動(dòng)作相關(guān)的Q值,并搭建一個(gè)深度神經(jīng)網(wǎng)絡(luò)[12]。它的輸入是時(shí)間步長(zhǎng)為t時(shí)的IDR(環(huán)境狀態(tài)向量),深度神經(jīng)網(wǎng)絡(luò)的輸出是來(lái)自狀態(tài)st的作用Q值。
一般地,神經(jīng)網(wǎng)絡(luò)的輸入nin被定義為:
(5)
(6)
神經(jīng)網(wǎng)絡(luò)是基于感知機(jī)的擴(kuò)展,而深度神經(jīng)網(wǎng)絡(luò)(DNN)可以理解為有很多隱藏層的神經(jīng)網(wǎng)絡(luò)。多層神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)DNN其實(shí)也是指的一個(gè)東西,DNN有時(shí)也叫做多層感知機(jī),它是一種具有校正線性單位激活函數(shù)和完全連接的深層神經(jīng)網(wǎng)絡(luò)。圖1清楚地展示了神經(jīng)網(wǎng)絡(luò)的層與層之間的聯(lián)系。
圖1 神經(jīng)網(wǎng)絡(luò)訓(xùn)練機(jī)制
從圖1可以看出,作為深度神經(jīng)網(wǎng)絡(luò)的輸入,輸入了n個(gè)IDR向量,并傳輸給神經(jīng)網(wǎng)絡(luò)層進(jìn)行訓(xùn)練,訓(xùn)練結(jié)束后輸出與時(shí)間步t相關(guān)的Q-Value值。
本實(shí)驗(yàn)所使用的實(shí)驗(yàn)環(huán)境是國(guó)際通用的交通模擬軟件SUMO[13](simulation of urban mobility),它是一種開(kāi)源,微觀,多模態(tài)的交通模擬,具體到道路上每一輛車的運(yùn)行路線都可以單獨(dú)規(guī)劃,允許模擬由單個(gè)車輛組成的給定交通需求。如何在給定的道路網(wǎng)絡(luò)中移動(dòng),示意圖如圖2所示。使用可視化編輯器NetEdit設(shè)計(jì)交叉口的靜態(tài)元素,環(huán)境由一個(gè)4方向的交叉口來(lái)表示,每個(gè)臂有4條駛?cè)氲能嚨篮?條駛出的車道,每條臂長(zhǎng)700米,車輛接近交叉口的時(shí)候,有三個(gè)方向的車道可以選擇,真實(shí)地還原了十字交叉口的車輛情況。通過(guò)這個(gè)軟件,用戶可以隨心所欲地設(shè)計(jì)道路基礎(chǔ)設(shè)施的每一個(gè)元素,包括道路特性、交叉口的車道連接等,實(shí)現(xiàn)交通流的微觀控制。環(huán)境中的交通燈系統(tǒng)由每個(gè)入口車道的停車線上的顏色表示,該顏色表示車道在精確時(shí)間步長(zhǎng)上的交通燈狀態(tài)。環(huán)境中的每個(gè)紅綠燈都是按照以下規(guī)則工作的:
圖2 交通路網(wǎng)
(1)顏色的相位變化總是這樣的:紅綠黃紅。
(2)每個(gè)紅綠燈相位的持續(xù)時(shí)間是固定的。綠色時(shí)間始終為10秒,黃色時(shí)間始終為4秒。因此,紅色相位的持續(xù)時(shí)間被定義為自上次相位變化以來(lái)的時(shí)間量。
(3)對(duì)于每個(gè)時(shí)間步,至少有一個(gè)紅綠燈處于黃色或綠色相位。
(4)不可能所有的紅綠燈同時(shí)處于紅燈狀態(tài)。
為了比較Agent的性能差異,引入了靜態(tài)交通系統(tǒng)[14]作為比較的基線。靜態(tài)交通系統(tǒng)具有相同的紅綠燈相位集,以相同的順序遍歷每個(gè)紅綠燈相位,并且具有固定的預(yù)定義持續(xù)時(shí)間。
在交通量特別少的情況下,交通燈固定循環(huán)不是一個(gè)好的策略,因?yàn)樵S多車輛都會(huì)等待大量的時(shí)間,并且會(huì)亮起空車道的相位燈。但是在交通量大的情況下,來(lái)自四面八方的車輛很多,因此靜態(tài)交通燈的政策可以說(shuō)是最有效的。在南北向交通和東西向交通場(chǎng)景中,需要更多綠燈時(shí)間的車道但沒(méi)有優(yōu)先次序,因?yàn)橛幸粋€(gè)固定的周期,這將使得排隊(duì)時(shí)間較長(zhǎng)的車輛等待的時(shí)間超過(guò)必要時(shí)間,從而導(dǎo)致系統(tǒng)的性能平庸。靜態(tài)交通燈的評(píng)價(jià)結(jié)果如表1所示,此數(shù)據(jù)將作為對(duì)比Agent性能的重要指標(biāo)之一。
表1 靜態(tài)交通燈評(píng)價(jià)結(jié)果
Traci(traffic control interface)是SUMO給出的連接到交通仿真的一個(gè)接口,使得人們可以獲取仿真中的參數(shù)還有實(shí)時(shí)控制仿真。Traci使用基于TCP的客戶端/服務(wù)器體系結(jié)構(gòu),將SUMO作為服務(wù)器,可以將車輛的特性、類型和外觀進(jìn)行定義,還可以與運(yùn)行中的模擬進(jìn)行交互操作,在每個(gè)時(shí)間步長(zhǎng)里檢索交叉口的實(shí)時(shí)狀態(tài)。模擬訓(xùn)練過(guò)程如圖3所示,用戶通過(guò)SUMO-GUI工具觀看圖形化模擬過(guò)程,可用于檢查Agent的性能。
圖3 訓(xùn)練過(guò)程
模型實(shí)驗(yàn)使用了以下的超參數(shù)進(jìn)行模擬訓(xùn)練:
神經(jīng)網(wǎng)絡(luò):5層,每層包含400個(gè)神經(jīng)元。
γ值:0.25。
獎(jiǎng)勵(lì)函數(shù):文獻(xiàn)獎(jiǎng)勵(lì)。
采樣策略:通過(guò)這種方式,代理將嘗試更多地考慮其對(duì)環(huán)境演化的預(yù)測(cè),從而選擇當(dāng)前的操作,使接下來(lái)的幾個(gè)操作的預(yù)期回報(bào)最大化。這種方式有很長(zhǎng)的前瞻性,并且每一步都試圖尋找最佳的策略來(lái)獲得最佳績(jī)效,但是缺乏一定的穩(wěn)定性,具體表現(xiàn)通過(guò)下面的實(shí)驗(yàn)結(jié)果體現(xiàn)。
文中對(duì)實(shí)驗(yàn)的策略進(jìn)行了改進(jìn),通過(guò)結(jié)合密集采樣策略和改進(jìn)后的獎(jiǎng)勵(lì)函數(shù)對(duì)Ag ent模型進(jìn)行訓(xùn)練,超參數(shù)如下:
神經(jīng)網(wǎng)絡(luò):5層,每層包含400個(gè)神經(jīng)元。
γ值:0.75。
獎(jiǎng)勵(lì)函數(shù):改進(jìn)后的獎(jiǎng)勵(lì)函數(shù)。
采樣策略:密集采樣策略。通過(guò)強(qiáng)化該模型的實(shí)施和測(cè)試,從而提高γ值較高的時(shí)候Agent在訓(xùn)練階段的性能,這種新的獎(jiǎng)勵(lì)函數(shù)和抽樣策略的結(jié)合有利于解決Q值不穩(wěn)定的問(wèn)題,減少了未來(lái)最佳行為誤導(dǎo)的可能性。Agent的培訓(xùn)階段包括在給定的環(huán)境狀態(tài)下找到最有價(jià)值的行動(dòng)。盡管如此,在訓(xùn)練的早期階段,并不知道哪些動(dòng)作是最有價(jià)值的。為了克服這一問(wèn)題,在培訓(xùn)開(kāi)始時(shí),Agent應(yīng)發(fā)現(xiàn)行動(dòng)的后果,而不必?fù)?dān)心其性能表現(xiàn)。因此,在任務(wù)中發(fā)現(xiàn)最有價(jià)值的行為和行為的頻率應(yīng)該增加。
經(jīng)驗(yàn)回放機(jī)制:
文中實(shí)驗(yàn)所使用的經(jīng)驗(yàn)回放機(jī)制[15]是在訓(xùn)練階段為提高Agent的性能和學(xué)習(xí)效率而采用的一種技術(shù)。它包括以稱為批處理的隨機(jī)樣本組的形式向Agent提交學(xué)習(xí)所需的信息,而不是立即提交Agent在模擬過(guò)程中收集的信息(通常稱為在線學(xué)習(xí))。批處理來(lái)自一個(gè)直觀地稱為內(nèi)存的數(shù)據(jù)結(jié)構(gòu),它存儲(chǔ)在訓(xùn)練階段收集的每個(gè)樣本。樣本m定義為四種元素。m={st,at,rt+1,st+1},其中rt+1是在從狀態(tài)st采取動(dòng)作之后得到的獎(jiǎng)勵(lì),它將環(huán)境演變成下一個(gè)狀態(tài)st+1。
訓(xùn)練實(shí)例包括從記憶中收集一組樣本,并使用上述樣本進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練。圖4顯示了與內(nèi)存交互的表示。如前所述,經(jīng)驗(yàn)回放技術(shù)需要一個(gè)內(nèi)存,其特征是內(nèi)存大小和批處理大小。內(nèi)存大小表示內(nèi)存可以存儲(chǔ)多少個(gè)樣本,并設(shè)置為40 000個(gè)樣本,批大小定義為在一個(gè)訓(xùn)練實(shí)例中從內(nèi)存中檢索的樣本數(shù)。如果在某個(gè)時(shí)間步進(jìn)記憶填充時(shí),將移除最舊的樣本,以便為新樣本留出空間。因此,如果在每個(gè)時(shí)間步將一個(gè)樣本插入存儲(chǔ)器,則單個(gè)樣本在其消除之前仍存儲(chǔ)在存儲(chǔ)器中的片段數(shù)約為150,為訓(xùn)練實(shí)例收集樣本的次數(shù)取決于批大小和訓(xùn)練實(shí)例的頻率。
圖4 內(nèi)存交互示意圖
使用經(jīng)驗(yàn)回放,培訓(xùn)階段有兩個(gè)主要優(yōu)勢(shì):
(1)消除了觀察序列中的相關(guān)性。
(2)刷新Agent的體驗(yàn)。
在這種環(huán)境中,兩個(gè)連續(xù)的狀態(tài)是自然相關(guān)的,因?yàn)榄h(huán)境st+1的狀態(tài)是狀態(tài)st的直接演化。狀態(tài)st+1中包含的大多數(shù)信息不是由于Agent的行為而派生的,但是,作為當(dāng)前情況的自發(fā)轉(zhuǎn)變,因此已經(jīng)實(shí)現(xiàn)了經(jīng)驗(yàn)回放,以避免在智能體的神經(jīng)網(wǎng)絡(luò)中引入誤導(dǎo)性關(guān)聯(lián)。其次,在訓(xùn)練過(guò)程中,神經(jīng)網(wǎng)絡(luò)有可能會(huì)忘記在訓(xùn)練的早期階段所獲得的關(guān)于某個(gè)情境的知識(shí)。通過(guò)使用經(jīng)驗(yàn)回放,代理偶爾會(huì)收到以前在舊狀態(tài)下所學(xué)內(nèi)容的“刷新”。
在此次的實(shí)驗(yàn)中,將γ設(shè)置為較高的0.75,設(shè)置這么高的γ值意味著使Agent的預(yù)期累積回報(bào)能夠達(dá)到最大化,保持真實(shí)性的同時(shí)提高效率。因?yàn)槲磥?lái)幾次行動(dòng)的預(yù)期回報(bào)會(huì)顯著影響在某一步選擇的行動(dòng)的價(jià)值。這種方法與環(huán)境的性質(zhì)卻恰恰相反:在一個(gè)確定的環(huán)境中,每次Agent從狀態(tài)st采取動(dòng)作時(shí),環(huán)境總是在特定的狀態(tài)st+1中演化。圖5是在訓(xùn)練結(jié)束后獲得的累積獎(jiǎng)勵(lì)值,從圖中可以很清楚地看到,快要結(jié)束的時(shí)候,Agent表現(xiàn)很不穩(wěn)定,嚴(yán)重影響了代理的穩(wěn)定性,從而導(dǎo)致性能的下降。因?yàn)樵谟?xùn)練快要結(jié)束的時(shí)候,基本上不可能采取隨機(jī)行動(dòng),大多數(shù)的還是選擇剝削行為,最終導(dǎo)致其中車輛的高等待排隊(duì)時(shí)間。
圖5 改進(jìn)前的累計(jì)獎(jiǎng)勵(lì)值
再來(lái)看看結(jié)合了密集采樣策略和新獎(jiǎng)勵(lì)函數(shù)的這種方式,如圖6所示。在訓(xùn)練快要結(jié)束的時(shí)候,累積獎(jiǎng)勵(lì)值的穩(wěn)定性有著顯著的提升,這是對(duì)于好的行動(dòng)選擇策略的極好信號(hào)。通過(guò)這種新的結(jié)合方式能夠很好地解決Q值不穩(wěn)定的問(wèn)題,因?yàn)樾陋?jiǎng)勵(lì)函數(shù)增強(qiáng)了對(duì)錯(cuò)誤行為選擇的懲罰,并且大大減少了對(duì)未來(lái)最佳行為誤導(dǎo)的可能性。
圖6 改進(jìn)后的累計(jì)獎(jiǎng)勵(lì)值
這種密集采樣策略實(shí)際上大大增加了Agent訓(xùn)練的數(shù)據(jù)集,使得動(dòng)作值更加穩(wěn)定和漸進(jìn)。圖5的采樣方法收集了大約250萬(wàn)個(gè)樣本,用于1 600次的訓(xùn)練。但是在這種密集采樣策略下,減少到只有300次迭代,但是采集的樣本總數(shù)高達(dá)6 000萬(wàn)多個(gè),由此可見(jiàn)數(shù)據(jù)集采樣呈現(xiàn)一個(gè)質(zhì)的提升。
將訓(xùn)練好的兩種網(wǎng)絡(luò)模型進(jìn)行測(cè)試,從圖7可以明顯看出,改進(jìn)后的平均排隊(duì)長(zhǎng)度顯著提高,說(shuō)明這種新的結(jié)合策略使Agent性能得到了顯著的提升,并提高了系統(tǒng)的穩(wěn)定性。
圖7 算法測(cè)試結(jié)果對(duì)比
下面將具體的實(shí)驗(yàn)數(shù)據(jù)列了一張表格進(jìn)行對(duì)比,如表2所示。改進(jìn)后的平均累積負(fù)獎(jiǎng)勵(lì)值相比于靜態(tài)交通燈系統(tǒng)非常低,獎(jiǎng)勵(lì)值提高了將近42%以上,車輛的平均排隊(duì)長(zhǎng)度也大大地減少了。性能也優(yōu)于使用傳統(tǒng)策略的深度強(qiáng)化學(xué)習(xí)算法,總體效率提升了29%左右。
表2 三種算法測(cè)試結(jié)果反饋
實(shí)驗(yàn)結(jié)果表明,文中所提出的新獎(jiǎng)勵(lì)函數(shù)和密集采樣策略的結(jié)合對(duì)解決交通擁堵問(wèn)題起到了很好的改善作用,說(shuō)明這種方法是可取的。
交通智能化、數(shù)據(jù)化、復(fù)雜化已經(jīng)是現(xiàn)在社會(huì)的一種潮流和趨勢(shì)。文中將深度強(qiáng)化學(xué)習(xí)應(yīng)用到交通燈信號(hào)配時(shí)當(dāng)中,顯著地減少了交叉口的擁堵?tīng)顩r,大大地節(jié)約了能源的消耗,在效率和性能的提升上起到了很大的作用。在現(xiàn)實(shí)世界中,駕駛員還可以利用本系統(tǒng)提供的策略模式,在交叉口進(jìn)行不同的駕駛行為,最終達(dá)到提高交叉口效率的目的。文中提出一種采用密集采樣策略和改進(jìn)后的新獎(jiǎng)勵(lì)函數(shù)相結(jié)合的新控制方法,在一定程度上提高了控制的性能。
在未來(lái)的工作中,筆者將對(duì)更加復(fù)雜的路口進(jìn)行研究,為交通系統(tǒng)開(kāi)辟更多高效率的算法,應(yīng)該更多地從單個(gè)車輛的角度分析和優(yōu)化Agent策略的公平性,而不是僅僅通過(guò)最小化延誤或最大化吞吐量來(lái)提高交叉口的整體性能。在過(guò)去的幾年中,交通信號(hào)控制的強(qiáng)化學(xué)習(xí)技術(shù)已經(jīng)明顯成熟,特別是隨著深度學(xué)習(xí)的普及。對(duì)于實(shí)際設(shè)備,強(qiáng)化學(xué)習(xí)交通信號(hào)控制器的假設(shè)部署應(yīng)接受在線和離線數(shù)據(jù)方面的培訓(xùn),以便在學(xué)習(xí)標(biāo)準(zhǔn)交通效率政策后能夠適應(yīng)特定場(chǎng)景。由于該文只是仿真實(shí)驗(yàn),未來(lái)還將應(yīng)用到實(shí)際的場(chǎng)景中,使交通行業(yè)迎來(lái)更加智能化的時(shí)代。