亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度Q-Learning的信號(hào)燈配時(shí)優(yōu)化研究

        2021-08-27 06:42:40董小明
        關(guān)鍵詞:策略

        趙 純,董小明

        (安慶師范大學(xué) 計(jì)算機(jī)與信息學(xué)院,安徽 安慶 246000)

        0 引 言

        隨著機(jī)動(dòng)車數(shù)量的不斷增長(zhǎng),道路交叉口的擁堵問(wèn)題迫在眉睫,想要更好地處理交通擁堵問(wèn)題,就必須從根源出發(fā)。傳統(tǒng)的交通信號(hào)控制時(shí)間固定,導(dǎo)致綠燈階段的不必要等待,造成了極大的資源浪費(fèi),而且也需要大量的人力物力資源[1]。因此通過(guò)交通信號(hào)控制,能夠很好地緩解擁堵壓力,減少交通事故的發(fā)生,使系統(tǒng)更加效率化和合理化。

        交叉口路網(wǎng)系統(tǒng)具有一定的不確定性和實(shí)時(shí)性,因此需要設(shè)計(jì)一個(gè)能夠感知狀態(tài)變化、選擇最優(yōu)時(shí)間的控制器。由于近年來(lái)交通控制系統(tǒng)的目標(biāo)是通過(guò)預(yù)測(cè)未來(lái)的交通狀態(tài)提前制定適當(dāng)?shù)目刂品桨竅2],這一方案突出了智能交通的重要性和艱巨性。但是隨著強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)的不斷發(fā)展進(jìn)步,有許多學(xué)者把深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合為深度強(qiáng)化學(xué)習(xí)應(yīng)用到交通控制上[3]。機(jī)器學(xué)習(xí)是目前快速發(fā)展的理論方向,包含了眾多的研究方向,而強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)領(lǐng)域,使得強(qiáng)化學(xué)習(xí)成為時(shí)下研究的熱點(diǎn)問(wèn)題之一[4-5]。

        強(qiáng)化學(xué)習(xí)是一種自適應(yīng)生成控制策略,其中一個(gè)或多個(gè)Agent學(xué)習(xí)如何利用Agent和環(huán)境本身之間的交互產(chǎn)生的經(jīng)驗(yàn)來(lái)解決環(huán)境中的任務(wù)。早期階段的交通信號(hào)強(qiáng)化學(xué)習(xí)控制對(duì)手動(dòng)特征提取有著很大的依賴性,需要極大的人力資源,而且狀態(tài)非常不穩(wěn)定,很容易就丟失最主要的狀態(tài)信息。強(qiáng)化學(xué)習(xí)由于近年來(lái)AlphaGo[6]等的成功而越來(lái)越吸引人們的關(guān)注和研究興趣。

        文中提出的方法主要優(yōu)勢(shì)在于:

        (1)通過(guò)采用密集采樣策略和改進(jìn)后的獎(jiǎng)勵(lì)函數(shù)相結(jié)合的方式對(duì)Agent模型進(jìn)行修改,這種方式在一定程度上提高了控制的性能。

        (2)所有的仿真實(shí)驗(yàn)都是使用現(xiàn)在國(guó)際主流的交通模擬軟件(simulation of urban mobility,SUMO)來(lái)完成的,大大提高了實(shí)驗(yàn)的可靠性和穩(wěn)定性。

        (3)參數(shù)設(shè)置合理,通過(guò)多次實(shí)驗(yàn)減少偶然性,提高了控制系統(tǒng)的穩(wěn)定性。

        1 交通信號(hào)配時(shí)的深度Q-Learning算法

        文中的Agent通過(guò)與環(huán)境進(jìn)行交互學(xué)習(xí)如何制定一個(gè)最優(yōu)策略[7]。交互由微型交通模擬器進(jìn)行處理,模擬器能夠讓智能體體驗(yàn)多種情況,并在模擬過(guò)程中學(xué)習(xí)哪些因素影響并激活了錯(cuò)誤的信號(hào)燈相位。在強(qiáng)化學(xué)習(xí)框架[8]中,Agent被定義為三個(gè)基本屬性:狀態(tài)表示、一組可能的行為和獎(jiǎng)勵(lì)函數(shù)。

        1.1 狀態(tài)表示

        近年來(lái)有關(guān)交通信號(hào)燈控制器的研究工作提出了信息豐富的狀態(tài),但在現(xiàn)實(shí)中,由于這種表示中所使用的信息很難收集,所以很難實(shí)現(xiàn)。而Agent感知到某一時(shí)刻t的環(huán)境狀態(tài),這里使用一種簡(jiǎn)單并且易于應(yīng)用的狀態(tài)表示方法來(lái)增加獲得良好結(jié)果的可能性。在交叉口的每一條臂上,進(jìn)入的車輛在單元中被離散化,這些單元可以識(shí)別其中是否有車輛。環(huán)境狀況被表現(xiàn)為路面的離散化,目的是告知Agent車輛在特定時(shí)間內(nèi)的位置。

        1.2 動(dòng)作行為

        動(dòng)作集確定了Agent可用的交互方式,它被定義為一個(gè)交通燈的配置,執(zhí)行一個(gè)操作就意味著在一組車道上將一些交通燈變綠,并保持固定的時(shí)間。以下表示Agent可以采取的所有可能的操作:

        ·東西向前進(jìn):綠色階段適用于位于東西向且想要直行或右轉(zhuǎn)的車輛。

        ·東西向左轉(zhuǎn):綠色階段適用于處于東西向并希望左轉(zhuǎn)的車輛。

        ·南北前進(jìn):綠色階段適用于位于南北向并希望直行或右轉(zhuǎn)的車輛。

        ·南北向左轉(zhuǎn):綠色階段適用于位于南北向并希望左轉(zhuǎn)的車輛。

        1.3 獎(jiǎng) 勵(lì)

        根據(jù)Agent選擇的動(dòng)作行為,從環(huán)境中產(chǎn)生反饋給Agent,以評(píng)估其選擇的行動(dòng)。Agent通過(guò)收到的獎(jiǎng)勵(lì)來(lái)改進(jìn)其將來(lái)的行為選擇策略,積極的獎(jiǎng)勵(lì)是好的行動(dòng)的反饋結(jié)果,而消極的獎(jiǎng)勵(lì)是在選擇壞的行動(dòng)之后得到的。在此實(shí)驗(yàn)中,目標(biāo)是最大化通過(guò)交叉口的交通流量。為了達(dá)到這個(gè)目標(biāo),獎(jiǎng)勵(lì)應(yīng)該從一些績(jī)效指標(biāo)中獲得確信的流量效率,因此Agent能夠理解是否采取了合理的行動(dòng)來(lái)提高或降低交叉口效率。

        1.4 傳統(tǒng)的Q學(xué)習(xí)

        Q-Learning是無(wú)模型強(qiáng)化學(xué)習(xí)的一種形式,它包括為從特定狀態(tài)執(zhí)行的操作并分配一個(gè)稱為Q-value的值。Q-value的目的是量化一個(gè)行動(dòng)的優(yōu)缺點(diǎn),使用即時(shí)獎(jiǎng)勵(lì)和最大預(yù)期未來(lái)回報(bào)相結(jié)合,這樣Agent就知道哪些行動(dòng)將導(dǎo)致最佳的總體策略[9]。然后,該狀態(tài)與該狀態(tài)的動(dòng)作值之間的映射被一個(gè)深層神經(jīng)網(wǎng)絡(luò)逼近。

        傳統(tǒng)的Q學(xué)習(xí)算法[10-11]更新式如下:

        Q(st,at)=Q(st,at)+α(rt+1+γ.maxAQ(st+1,at+1)-Q(st,at))

        (1)

        該方程使用學(xué)習(xí)率α來(lái)更新當(dāng)前的Q值。rt+1表示與在狀態(tài)st處采取行動(dòng)相關(guān)的獎(jiǎng)勵(lì),Q(st+1,at)表示近期未來(lái)的Q值,st+1是環(huán)境在狀態(tài)st選擇動(dòng)作后演化的下一個(gè)狀態(tài),γ是假設(shè)值介于0和1之間的折扣因子,通過(guò)這個(gè)折扣因子可以降低未來(lái)獎(jiǎng)勵(lì)的重要性。

        1.5 Q-Learning更新公式

        文中使用了改進(jìn)后的公式,如下:

        Q(st,at)=rt+1+γ.maxAQ'(st+1,at+1)

        (2)

        獎(jiǎng)勵(lì)rt+1是在st采取行動(dòng)之后才收到的獎(jiǎng)勵(lì),Q(st,at)是st+1采取相關(guān)行動(dòng)后有關(guān)的Q值,也就是采取行動(dòng)后的下一個(gè)狀態(tài),折扣因子γ表示和即時(shí)獎(jiǎng)勵(lì)相比,未來(lái)獎(jiǎng)勵(lì)的懲罰相對(duì)較小。這個(gè)公式是通過(guò)即時(shí)獎(jiǎng)勵(lì)和未來(lái)動(dòng)作的折扣Q值來(lái)更新?tīng)顟B(tài)st中當(dāng)前行動(dòng)Q值的規(guī)則。所以,表示未來(lái)動(dòng)作隱含價(jià)值的Q'(st+1,at+1)是持有st+1之后的最大折扣回報(bào),即Q''(st+2,at+2)。同樣,它也擁有下一個(gè)狀態(tài)的最大折扣回報(bào),即Q'''(st+3,at+3)。這就說(shuō)明不管Agent如何選擇動(dòng)作,不僅僅基于即時(shí)獎(jiǎng)勵(lì),而且也基于未來(lái)預(yù)期折扣獎(jiǎng)勵(lì)。在模擬過(guò)程中,Agent迭代地獲得關(guān)于動(dòng)作序列值的知識(shí)。最后,希望它能夠選擇動(dòng)作序列,從而獲得更高的累積回報(bào)以獲得最佳性能。

        1.6 獎(jiǎng)勵(lì)函數(shù)

        文中涉及的獎(jiǎng)勵(lì)函數(shù):

        文獻(xiàn)獎(jiǎng)勵(lì)函數(shù):當(dāng)Agent選擇一個(gè)錯(cuò)誤的動(dòng)作時(shí),就給它返回一個(gè)負(fù)值,當(dāng)它選擇一個(gè)好的動(dòng)作時(shí),就給它返回一個(gè)正值。不良行為可以表示為在當(dāng)前時(shí)間步驟t中,與前一時(shí)間步驟t-1中的情況相比,在隊(duì)列中添加更多車輛的操作,導(dǎo)致與上一時(shí)間步驟相比等待時(shí)間更長(zhǎng)。

        文獻(xiàn)獎(jiǎng)勵(lì)函數(shù)的等式如下:

        rt=Swt-1-Swt

        (3)

        其中,rt表示在時(shí)間步驟t的獎(jiǎng)勵(lì),Swt-1和Swt是在時(shí)刻t-1和t時(shí)所有車輛的總等待時(shí)間。

        將上面這個(gè)等式進(jìn)行了改進(jìn),表示如下:

        rt=0.8·Swt-1-Swt

        (4)

        等式符號(hào)與式(3)基本相同,唯一的不同就在于系數(shù)為0.8,修改這個(gè)系數(shù)的主要原因是增加所獲得獎(jiǎng)勵(lì)的幅度。這種變化的效果是,Agent對(duì)行動(dòng)的后果有更強(qiáng)的代表性,訓(xùn)練的有效性得到了提高。

        1.7 深度神經(jīng)網(wǎng)絡(luò)

        文中使用了深度Q-Learning算法,將觀察到的環(huán)境狀態(tài)st映射到與動(dòng)作相關(guān)的Q值,并搭建一個(gè)深度神經(jīng)網(wǎng)絡(luò)[12]。它的輸入是時(shí)間步長(zhǎng)為t時(shí)的IDR(環(huán)境狀態(tài)向量),深度神經(jīng)網(wǎng)絡(luò)的輸出是來(lái)自狀態(tài)st的作用Q值。

        一般地,神經(jīng)網(wǎng)絡(luò)的輸入nin被定義為:

        (5)

        (6)

        神經(jīng)網(wǎng)絡(luò)是基于感知機(jī)的擴(kuò)展,而深度神經(jīng)網(wǎng)絡(luò)(DNN)可以理解為有很多隱藏層的神經(jīng)網(wǎng)絡(luò)。多層神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)DNN其實(shí)也是指的一個(gè)東西,DNN有時(shí)也叫做多層感知機(jī),它是一種具有校正線性單位激活函數(shù)和完全連接的深層神經(jīng)網(wǎng)絡(luò)。圖1清楚地展示了神經(jīng)網(wǎng)絡(luò)的層與層之間的聯(lián)系。

        圖1 神經(jīng)網(wǎng)絡(luò)訓(xùn)練機(jī)制

        從圖1可以看出,作為深度神經(jīng)網(wǎng)絡(luò)的輸入,輸入了n個(gè)IDR向量,并傳輸給神經(jīng)網(wǎng)絡(luò)層進(jìn)行訓(xùn)練,訓(xùn)練結(jié)束后輸出與時(shí)間步t相關(guān)的Q-Value值。

        2 仿真實(shí)驗(yàn)

        本實(shí)驗(yàn)所使用的實(shí)驗(yàn)環(huán)境是國(guó)際通用的交通模擬軟件SUMO[13](simulation of urban mobility),它是一種開(kāi)源,微觀,多模態(tài)的交通模擬,具體到道路上每一輛車的運(yùn)行路線都可以單獨(dú)規(guī)劃,允許模擬由單個(gè)車輛組成的給定交通需求。如何在給定的道路網(wǎng)絡(luò)中移動(dòng),示意圖如圖2所示。使用可視化編輯器NetEdit設(shè)計(jì)交叉口的靜態(tài)元素,環(huán)境由一個(gè)4方向的交叉口來(lái)表示,每個(gè)臂有4條駛?cè)氲能嚨篮?條駛出的車道,每條臂長(zhǎng)700米,車輛接近交叉口的時(shí)候,有三個(gè)方向的車道可以選擇,真實(shí)地還原了十字交叉口的車輛情況。通過(guò)這個(gè)軟件,用戶可以隨心所欲地設(shè)計(jì)道路基礎(chǔ)設(shè)施的每一個(gè)元素,包括道路特性、交叉口的車道連接等,實(shí)現(xiàn)交通流的微觀控制。環(huán)境中的交通燈系統(tǒng)由每個(gè)入口車道的停車線上的顏色表示,該顏色表示車道在精確時(shí)間步長(zhǎng)上的交通燈狀態(tài)。環(huán)境中的每個(gè)紅綠燈都是按照以下規(guī)則工作的:

        圖2 交通路網(wǎng)

        (1)顏色的相位變化總是這樣的:紅綠黃紅。

        (2)每個(gè)紅綠燈相位的持續(xù)時(shí)間是固定的。綠色時(shí)間始終為10秒,黃色時(shí)間始終為4秒。因此,紅色相位的持續(xù)時(shí)間被定義為自上次相位變化以來(lái)的時(shí)間量。

        (3)對(duì)于每個(gè)時(shí)間步,至少有一個(gè)紅綠燈處于黃色或綠色相位。

        (4)不可能所有的紅綠燈同時(shí)處于紅燈狀態(tài)。

        為了比較Agent的性能差異,引入了靜態(tài)交通系統(tǒng)[14]作為比較的基線。靜態(tài)交通系統(tǒng)具有相同的紅綠燈相位集,以相同的順序遍歷每個(gè)紅綠燈相位,并且具有固定的預(yù)定義持續(xù)時(shí)間。

        在交通量特別少的情況下,交通燈固定循環(huán)不是一個(gè)好的策略,因?yàn)樵S多車輛都會(huì)等待大量的時(shí)間,并且會(huì)亮起空車道的相位燈。但是在交通量大的情況下,來(lái)自四面八方的車輛很多,因此靜態(tài)交通燈的政策可以說(shuō)是最有效的。在南北向交通和東西向交通場(chǎng)景中,需要更多綠燈時(shí)間的車道但沒(méi)有優(yōu)先次序,因?yàn)橛幸粋€(gè)固定的周期,這將使得排隊(duì)時(shí)間較長(zhǎng)的車輛等待的時(shí)間超過(guò)必要時(shí)間,從而導(dǎo)致系統(tǒng)的性能平庸。靜態(tài)交通燈的評(píng)價(jià)結(jié)果如表1所示,此數(shù)據(jù)將作為對(duì)比Agent性能的重要指標(biāo)之一。

        表1 靜態(tài)交通燈評(píng)價(jià)結(jié)果

        Traci(traffic control interface)是SUMO給出的連接到交通仿真的一個(gè)接口,使得人們可以獲取仿真中的參數(shù)還有實(shí)時(shí)控制仿真。Traci使用基于TCP的客戶端/服務(wù)器體系結(jié)構(gòu),將SUMO作為服務(wù)器,可以將車輛的特性、類型和外觀進(jìn)行定義,還可以與運(yùn)行中的模擬進(jìn)行交互操作,在每個(gè)時(shí)間步長(zhǎng)里檢索交叉口的實(shí)時(shí)狀態(tài)。模擬訓(xùn)練過(guò)程如圖3所示,用戶通過(guò)SUMO-GUI工具觀看圖形化模擬過(guò)程,可用于檢查Agent的性能。

        圖3 訓(xùn)練過(guò)程

        模型實(shí)驗(yàn)使用了以下的超參數(shù)進(jìn)行模擬訓(xùn)練:

        神經(jīng)網(wǎng)絡(luò):5層,每層包含400個(gè)神經(jīng)元。

        γ值:0.25。

        獎(jiǎng)勵(lì)函數(shù):文獻(xiàn)獎(jiǎng)勵(lì)。

        采樣策略:通過(guò)這種方式,代理將嘗試更多地考慮其對(duì)環(huán)境演化的預(yù)測(cè),從而選擇當(dāng)前的操作,使接下來(lái)的幾個(gè)操作的預(yù)期回報(bào)最大化。這種方式有很長(zhǎng)的前瞻性,并且每一步都試圖尋找最佳的策略來(lái)獲得最佳績(jī)效,但是缺乏一定的穩(wěn)定性,具體表現(xiàn)通過(guò)下面的實(shí)驗(yàn)結(jié)果體現(xiàn)。

        文中對(duì)實(shí)驗(yàn)的策略進(jìn)行了改進(jìn),通過(guò)結(jié)合密集采樣策略和改進(jìn)后的獎(jiǎng)勵(lì)函數(shù)對(duì)Ag ent模型進(jìn)行訓(xùn)練,超參數(shù)如下:

        神經(jīng)網(wǎng)絡(luò):5層,每層包含400個(gè)神經(jīng)元。

        γ值:0.75。

        獎(jiǎng)勵(lì)函數(shù):改進(jìn)后的獎(jiǎng)勵(lì)函數(shù)。

        采樣策略:密集采樣策略。通過(guò)強(qiáng)化該模型的實(shí)施和測(cè)試,從而提高γ值較高的時(shí)候Agent在訓(xùn)練階段的性能,這種新的獎(jiǎng)勵(lì)函數(shù)和抽樣策略的結(jié)合有利于解決Q值不穩(wěn)定的問(wèn)題,減少了未來(lái)最佳行為誤導(dǎo)的可能性。Agent的培訓(xùn)階段包括在給定的環(huán)境狀態(tài)下找到最有價(jià)值的行動(dòng)。盡管如此,在訓(xùn)練的早期階段,并不知道哪些動(dòng)作是最有價(jià)值的。為了克服這一問(wèn)題,在培訓(xùn)開(kāi)始時(shí),Agent應(yīng)發(fā)現(xiàn)行動(dòng)的后果,而不必?fù)?dān)心其性能表現(xiàn)。因此,在任務(wù)中發(fā)現(xiàn)最有價(jià)值的行為和行為的頻率應(yīng)該增加。

        經(jīng)驗(yàn)回放機(jī)制:

        文中實(shí)驗(yàn)所使用的經(jīng)驗(yàn)回放機(jī)制[15]是在訓(xùn)練階段為提高Agent的性能和學(xué)習(xí)效率而采用的一種技術(shù)。它包括以稱為批處理的隨機(jī)樣本組的形式向Agent提交學(xué)習(xí)所需的信息,而不是立即提交Agent在模擬過(guò)程中收集的信息(通常稱為在線學(xué)習(xí))。批處理來(lái)自一個(gè)直觀地稱為內(nèi)存的數(shù)據(jù)結(jié)構(gòu),它存儲(chǔ)在訓(xùn)練階段收集的每個(gè)樣本。樣本m定義為四種元素。m={st,at,rt+1,st+1},其中rt+1是在從狀態(tài)st采取動(dòng)作之后得到的獎(jiǎng)勵(lì),它將環(huán)境演變成下一個(gè)狀態(tài)st+1。

        訓(xùn)練實(shí)例包括從記憶中收集一組樣本,并使用上述樣本進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練。圖4顯示了與內(nèi)存交互的表示。如前所述,經(jīng)驗(yàn)回放技術(shù)需要一個(gè)內(nèi)存,其特征是內(nèi)存大小和批處理大小。內(nèi)存大小表示內(nèi)存可以存儲(chǔ)多少個(gè)樣本,并設(shè)置為40 000個(gè)樣本,批大小定義為在一個(gè)訓(xùn)練實(shí)例中從內(nèi)存中檢索的樣本數(shù)。如果在某個(gè)時(shí)間步進(jìn)記憶填充時(shí),將移除最舊的樣本,以便為新樣本留出空間。因此,如果在每個(gè)時(shí)間步將一個(gè)樣本插入存儲(chǔ)器,則單個(gè)樣本在其消除之前仍存儲(chǔ)在存儲(chǔ)器中的片段數(shù)約為150,為訓(xùn)練實(shí)例收集樣本的次數(shù)取決于批大小和訓(xùn)練實(shí)例的頻率。

        圖4 內(nèi)存交互示意圖

        使用經(jīng)驗(yàn)回放,培訓(xùn)階段有兩個(gè)主要優(yōu)勢(shì):

        (1)消除了觀察序列中的相關(guān)性。

        (2)刷新Agent的體驗(yàn)。

        在這種環(huán)境中,兩個(gè)連續(xù)的狀態(tài)是自然相關(guān)的,因?yàn)榄h(huán)境st+1的狀態(tài)是狀態(tài)st的直接演化。狀態(tài)st+1中包含的大多數(shù)信息不是由于Agent的行為而派生的,但是,作為當(dāng)前情況的自發(fā)轉(zhuǎn)變,因此已經(jīng)實(shí)現(xiàn)了經(jīng)驗(yàn)回放,以避免在智能體的神經(jīng)網(wǎng)絡(luò)中引入誤導(dǎo)性關(guān)聯(lián)。其次,在訓(xùn)練過(guò)程中,神經(jīng)網(wǎng)絡(luò)有可能會(huì)忘記在訓(xùn)練的早期階段所獲得的關(guān)于某個(gè)情境的知識(shí)。通過(guò)使用經(jīng)驗(yàn)回放,代理偶爾會(huì)收到以前在舊狀態(tài)下所學(xué)內(nèi)容的“刷新”。

        3 實(shí)驗(yàn)結(jié)果分析

        在此次的實(shí)驗(yàn)中,將γ設(shè)置為較高的0.75,設(shè)置這么高的γ值意味著使Agent的預(yù)期累積回報(bào)能夠達(dá)到最大化,保持真實(shí)性的同時(shí)提高效率。因?yàn)槲磥?lái)幾次行動(dòng)的預(yù)期回報(bào)會(huì)顯著影響在某一步選擇的行動(dòng)的價(jià)值。這種方法與環(huán)境的性質(zhì)卻恰恰相反:在一個(gè)確定的環(huán)境中,每次Agent從狀態(tài)st采取動(dòng)作時(shí),環(huán)境總是在特定的狀態(tài)st+1中演化。圖5是在訓(xùn)練結(jié)束后獲得的累積獎(jiǎng)勵(lì)值,從圖中可以很清楚地看到,快要結(jié)束的時(shí)候,Agent表現(xiàn)很不穩(wěn)定,嚴(yán)重影響了代理的穩(wěn)定性,從而導(dǎo)致性能的下降。因?yàn)樵谟?xùn)練快要結(jié)束的時(shí)候,基本上不可能采取隨機(jī)行動(dòng),大多數(shù)的還是選擇剝削行為,最終導(dǎo)致其中車輛的高等待排隊(duì)時(shí)間。

        圖5 改進(jìn)前的累計(jì)獎(jiǎng)勵(lì)值

        再來(lái)看看結(jié)合了密集采樣策略和新獎(jiǎng)勵(lì)函數(shù)的這種方式,如圖6所示。在訓(xùn)練快要結(jié)束的時(shí)候,累積獎(jiǎng)勵(lì)值的穩(wěn)定性有著顯著的提升,這是對(duì)于好的行動(dòng)選擇策略的極好信號(hào)。通過(guò)這種新的結(jié)合方式能夠很好地解決Q值不穩(wěn)定的問(wèn)題,因?yàn)樾陋?jiǎng)勵(lì)函數(shù)增強(qiáng)了對(duì)錯(cuò)誤行為選擇的懲罰,并且大大減少了對(duì)未來(lái)最佳行為誤導(dǎo)的可能性。

        圖6 改進(jìn)后的累計(jì)獎(jiǎng)勵(lì)值

        這種密集采樣策略實(shí)際上大大增加了Agent訓(xùn)練的數(shù)據(jù)集,使得動(dòng)作值更加穩(wěn)定和漸進(jìn)。圖5的采樣方法收集了大約250萬(wàn)個(gè)樣本,用于1 600次的訓(xùn)練。但是在這種密集采樣策略下,減少到只有300次迭代,但是采集的樣本總數(shù)高達(dá)6 000萬(wàn)多個(gè),由此可見(jiàn)數(shù)據(jù)集采樣呈現(xiàn)一個(gè)質(zhì)的提升。

        將訓(xùn)練好的兩種網(wǎng)絡(luò)模型進(jìn)行測(cè)試,從圖7可以明顯看出,改進(jìn)后的平均排隊(duì)長(zhǎng)度顯著提高,說(shuō)明這種新的結(jié)合策略使Agent性能得到了顯著的提升,并提高了系統(tǒng)的穩(wěn)定性。

        圖7 算法測(cè)試結(jié)果對(duì)比

        下面將具體的實(shí)驗(yàn)數(shù)據(jù)列了一張表格進(jìn)行對(duì)比,如表2所示。改進(jìn)后的平均累積負(fù)獎(jiǎng)勵(lì)值相比于靜態(tài)交通燈系統(tǒng)非常低,獎(jiǎng)勵(lì)值提高了將近42%以上,車輛的平均排隊(duì)長(zhǎng)度也大大地減少了。性能也優(yōu)于使用傳統(tǒng)策略的深度強(qiáng)化學(xué)習(xí)算法,總體效率提升了29%左右。

        表2 三種算法測(cè)試結(jié)果反饋

        實(shí)驗(yàn)結(jié)果表明,文中所提出的新獎(jiǎng)勵(lì)函數(shù)和密集采樣策略的結(jié)合對(duì)解決交通擁堵問(wèn)題起到了很好的改善作用,說(shuō)明這種方法是可取的。

        4 結(jié)束語(yǔ)

        交通智能化、數(shù)據(jù)化、復(fù)雜化已經(jīng)是現(xiàn)在社會(huì)的一種潮流和趨勢(shì)。文中將深度強(qiáng)化學(xué)習(xí)應(yīng)用到交通燈信號(hào)配時(shí)當(dāng)中,顯著地減少了交叉口的擁堵?tīng)顩r,大大地節(jié)約了能源的消耗,在效率和性能的提升上起到了很大的作用。在現(xiàn)實(shí)世界中,駕駛員還可以利用本系統(tǒng)提供的策略模式,在交叉口進(jìn)行不同的駕駛行為,最終達(dá)到提高交叉口效率的目的。文中提出一種采用密集采樣策略和改進(jìn)后的新獎(jiǎng)勵(lì)函數(shù)相結(jié)合的新控制方法,在一定程度上提高了控制的性能。

        在未來(lái)的工作中,筆者將對(duì)更加復(fù)雜的路口進(jìn)行研究,為交通系統(tǒng)開(kāi)辟更多高效率的算法,應(yīng)該更多地從單個(gè)車輛的角度分析和優(yōu)化Agent策略的公平性,而不是僅僅通過(guò)最小化延誤或最大化吞吐量來(lái)提高交叉口的整體性能。在過(guò)去的幾年中,交通信號(hào)控制的強(qiáng)化學(xué)習(xí)技術(shù)已經(jīng)明顯成熟,特別是隨著深度學(xué)習(xí)的普及。對(duì)于實(shí)際設(shè)備,強(qiáng)化學(xué)習(xí)交通信號(hào)控制器的假設(shè)部署應(yīng)接受在線和離線數(shù)據(jù)方面的培訓(xùn),以便在學(xué)習(xí)標(biāo)準(zhǔn)交通效率政策后能夠適應(yīng)特定場(chǎng)景。由于該文只是仿真實(shí)驗(yàn),未來(lái)還將應(yīng)用到實(shí)際的場(chǎng)景中,使交通行業(yè)迎來(lái)更加智能化的時(shí)代。

        猜你喜歡
        策略
        基于“選—練—評(píng)”一體化的二輪復(fù)習(xí)策略
        幾何創(chuàng)新題的處理策略
        求初相φ的常見(jiàn)策略
        例談未知角三角函數(shù)值的求解策略
        我說(shuō)你做講策略
        “我說(shuō)你做”講策略
        數(shù)據(jù)分析中的避錯(cuò)策略
        高中數(shù)學(xué)復(fù)習(xí)的具體策略
        “唱反調(diào)”的策略
        幸福(2017年18期)2018-01-03 06:34:53
        價(jià)格調(diào)整 講策略求互動(dòng)
        按摩少妇高潮在线一区| 国产精品第1页在线观看| 国产精品av在线一区二区三区| 精品一区二区亚洲一二三区| 99久久免费看精品国产一| 高潮潮喷奶水飞溅视频无码| 永久免费观看的毛片手机视频| 亚洲三区二区一区视频| 中文字幕乱码在线婷婷| 又硬又粗进去好爽免费| 国产精品夜间视频香蕉| 亚洲精品国产一二三无码AV| 国语对白三级在线观看| 亚洲成人av一二三四区| 蜜臀av性久久久久蜜臀aⅴ| 91精品视品在线播放| 亚洲中文字幕高清视频| 神马影院日本一区二区| 无码国产福利av私拍| 日韩在线看片| 免费看男女啪啪的视频网站| 精品一区三区视频在线观看| 成人免费看片又大又黄| 国产系列丝袜熟女精品视频| 白白在线免费观看视频| 国产精品乱码人妻一区二区三区| 精品久久人人爽天天玩人人妻| 免费无码又爽又刺激又高潮的视频| 中文字幕一区乱码在线观看| 强开少妇嫩苞又嫩又紧九色| 一个人看的www免费视频中文| 国产精品一区二区三区不卡| 日本av一级片免费看| 久久久国产精品免费a片3d| 亚洲精品中国国产嫩草影院美女 | 我的美艳丝袜美腿情缘| 国产精品久久久久久| 无码国产精品一区二区vr老人| 国产成人AV乱码免费观看| 色久悠悠婷婷综合在线| 亚洲av日韩av无码污污网站|