亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于不確定需求的無人駕駛出租車優(yōu)化調(diào)度

        2022-12-05 11:38:52周曉婷吳祿彬姜善成
        計算機集成制造系統(tǒng) 2022年11期
        關(guān)鍵詞:無人駕駛出租車乘客

        周曉婷,吳祿彬,章 宇,姜善成+

        (1.中山大學(xué) 智能工程學(xué)院,廣東 深圳 518107;2.西南財經(jīng)大學(xué) 工商管理學(xué)院,四川 成都 611130)

        0 引言

        傳統(tǒng)出租車在高峰時期總會出現(xiàn)乘客“打車難”與車輛空載這兩種難以平衡的問題[1]。而且由于運營平臺、司機、乘客的博弈,全局最優(yōu)的調(diào)度策略往往不能被貫徹執(zhí)行。隨著物聯(lián)網(wǎng)、通信技術(shù)、人工智能技術(shù)等發(fā)展,自動駕駛技術(shù)在不斷成熟[2]。目前我國不少一線城市已經(jīng)開展各類無人駕駛汽車的前期測試與探索活動,相信在不久的未來,共享出租車公司,如哈啰、百度等很可能搭建自動駕駛出租車隊用于搭載乘客,以緩解當(dāng)下出租車平臺在高峰期所面臨的各類問題。面對城市交通中乘客出行需求的不確定性,如何有效利用無人駕駛出租車可集中調(diào)度的特點來調(diào)度空閑的無人駕駛出租車,從而滿足未來的出行需求,對提高無人駕駛出租車服務(wù)水平具有重要意義。

        車輛調(diào)度問題是車輛路徑規(guī)劃問題的一個子問題[3],針對不同應(yīng)用場景,國內(nèi)外學(xué)者一直嘗試運用現(xiàn)代運籌優(yōu)化理論獲取對應(yīng)場景下的全局最優(yōu)解[4-5]。目前從服務(wù)提供者角度來說,大多數(shù)運營商采用定價激勵的策略進行車輛調(diào)度[6]。例如采用顧客加價、司機調(diào)度獎勵、峰時定價等策略來引導(dǎo)司機去需求量高的地方[7]。但也有學(xué)者對此類實時動態(tài)定價的有效性提出質(zhì)疑,KOOTI等[8]根據(jù)優(yōu)步收集的真實數(shù)據(jù)分析出,峰時定價策略并沒有給車輛調(diào)度帶來較大的積極影響。

        研究者研究了大量基于模型的車輛調(diào)度算法。ZHANG等[9]根據(jù)排隊理論搭建了按需系統(tǒng)(Mobility on Demand, MOD)以調(diào)度出租車,他們通過求解線性規(guī)劃模型找出一種最優(yōu)的調(diào)度策略,并應(yīng)用到紐約的出租車案例中。實驗證明,該算法在滿足需求的情況下有效減少了出租車隊規(guī)模。KIM等[10]為了最小化出租車調(diào)度成本,將多目標(biāo)的出租車調(diào)度問題轉(zhuǎn)化為一個網(wǎng)絡(luò)流問題,通過最小費用最大流算法求解。用韓國首爾地區(qū)的真實出租車數(shù)據(jù)進行模擬研究,證明了算法的有效性。BOYACI等[11]提出一種允許決策者權(quán)衡運營商和用戶利益的多目標(biāo)混合整數(shù)規(guī)劃模型來解決共享汽車調(diào)度問題。MA等[12]則研究了一種無人駕駛出租車系統(tǒng),該系統(tǒng)通過提前獲取乘客需求來搭建系統(tǒng)的時空網(wǎng)絡(luò),通過線性規(guī)劃讓系統(tǒng)在最低成本和最小計算量上作出最優(yōu)的調(diào)度決策,通過案例表明,該系統(tǒng)可以有效降低汽車擁有率。上述方法都是基于嚴(yán)格的數(shù)學(xué)模型,當(dāng)涉及變量過多或者維度過高時,這些數(shù)學(xué)模型不能很好地適應(yīng),且面對大規(guī)模問題,求解效率不佳。啟發(fā)式優(yōu)化算法能夠全面有效地搜尋最優(yōu)解,而且面對大規(guī)模問題能夠保證效率,因此受到很多研究者的青睞。謝榕等[13]采用人工魚群算法對出租車進行基于全局角度的智能調(diào)度,從而實現(xiàn)對出租車的合理調(diào)度。何勝學(xué)等[14]將蟻群算法與遺傳算法結(jié)合,來求解出租車調(diào)度策略,并通過實驗證明了算法的有效性。上述方法都是在乘客的需求是靜態(tài)的假設(shè)下建模的,然而在現(xiàn)實場景中,若是僅根據(jù)當(dāng)前的乘客需求進行調(diào)度,則不能很好地應(yīng)對未來可能出現(xiàn)的供需不平衡的情況。

        本文提出基于不確定需求的無模型強化學(xué)習(xí)方法來解決無人駕駛出租車調(diào)度問題。通過在強化學(xué)習(xí)訓(xùn)練中引入不確定需求,從而使訓(xùn)練出來的模型能更好地適應(yīng)城市交通中乘客的不確定需求。在強化學(xué)習(xí)的無模型算法中,其學(xué)習(xí)代理并不依賴于模型的任何先驗信息,無需用參數(shù)估計模型,而是直接與訓(xùn)練環(huán)境交互來更新控制策略。在實際使用中,直接調(diào)用訓(xùn)練好的模型就可以得到調(diào)度策略。因此,強化學(xué)習(xí)算法即使面對大規(guī)模問題也能高效地做出性能穩(wěn)定的調(diào)度方案[15]。近年來,采用強化學(xué)習(xí)算法解決調(diào)度問題的研究有很多[16],如陳勇等[17]、張景玲等[18]、黎聲益等[19]、MAO等[20]。其中MAO等[20]與本文研究最為接近,該文獻將車輛調(diào)度算法與強化學(xué)習(xí)結(jié)合,運用深度強化學(xué)習(xí)方法actor-critic算法[21]來優(yōu)化車輛調(diào)度,并通過實驗證明該算法收斂于理論上界。然而,actor-critic算法已被證實會過高估計動作值,即對動作價值函數(shù)的估計會有誤差,這種誤差累積的偏差會導(dǎo)致任意的壞狀態(tài)被估計為高值,從而導(dǎo)致次優(yōu)的策略更新,以致于策略網(wǎng)絡(luò)無法收斂。

        由于該問題的狀態(tài)空間是連續(xù)的,本文采用一種基于狀態(tài)空間連續(xù)的算法——雙延遲深度確定性策略梯度算法(Twin Delayed Deep Deterministic policy gradient algorithm,TD3)[22]。該算法可以有效解決高估動作值的問題,從而得到最優(yōu)的調(diào)度策略。為了更有效應(yīng)對城市交通中乘客的不確定出行需求,本文將不確定需求與強化學(xué)習(xí)結(jié)合,在不確定需求環(huán)境下訓(xùn)練模型。通過神經(jīng)網(wǎng)絡(luò)捕捉到需求的隨機性,模型能更好地應(yīng)對需求變化的情況。最后,使用紐約市真實的出租車數(shù)據(jù)來模擬乘客需求,并將數(shù)據(jù)集劃分為訓(xùn)練集和測試集來驗證算法的合理性。實驗證明,在需求不確定的情況下訓(xùn)練的模型在驗證集和需求突變的情況下均表現(xiàn)較好,更具魯棒性。

        1 無人駕駛出租車調(diào)度問題的強化學(xué)習(xí)建模

        根據(jù)馬爾可夫決策對無人駕駛出租車調(diào)度問題建立模型。

        首先定義無人駕駛出租車調(diào)度問題的服務(wù)區(qū)域和時間。假設(shè)無人駕駛出租車在特定一段時間內(nèi)服務(wù)特定的區(qū)域。首先,假定服務(wù)N個離散區(qū)域,其中集合[N]={1,2,...,N}代表區(qū)域索引從1到N。然后假設(shè)服務(wù)時間是由離散的時間間隔 Δt表示。因此,時間集合可以表示為[T]=[1,2,…,T]。為了簡化無人駕駛出租車調(diào)度問題,假設(shè) Δt足夠小,所有無人駕駛出租車的調(diào)度動作都發(fā)生在時間間隔的初始處。比如對無人駕駛出租車搭載乘客來說,若在t時刻初始處,沒有無人駕駛出租車搭載該乘客,則無人駕駛出租車最快能在t+1 時刻初始時搭載該乘客,而不會在t時刻和t+1 時刻之間搭載該乘客。進一步假設(shè),乘客等待時間超過一定閾值后會取消訂單并對運營商有取消訂單的懲罰。所有無人駕駛出租車搭載乘客到指定地點后,無人駕駛出租車變?yōu)殚e置車輛可以重新調(diào)度使用。

        然后定義調(diào)度無人駕駛出租車的動作、顧客的需求、區(qū)域內(nèi)無人駕駛出租車數(shù)量。xijt表示在t時刻,從區(qū)域i∈[N]被調(diào)度到區(qū)域j∈[N]的無人駕駛出租車數(shù)量,其中區(qū)域i可以等于區(qū)域j,代表無人駕駛出租車停留在原地;pijt表示在t時刻,想從區(qū)域i到區(qū)域j的顧客需求數(shù)量;vit表示在t時刻,區(qū)域i的閑置無人駕駛出租車數(shù)量。一旦調(diào)度的無人駕駛出租車xijt確認后,就能進一步確定在t時刻無人駕駛出租車服務(wù)的從區(qū)域i到區(qū)域j的顧客數(shù)量,定義為yijt=min(xijt,pijt)。若xijt

        根據(jù)以上假設(shè)和強化學(xué)習(xí)的要求,進一步搭建狀態(tài)空間、動作空間和獎勵函數(shù)。

        (1)狀態(tài)空間

        狀態(tài)空間的定義如式(1)所示,每個狀態(tài)可以被定義為st由當(dāng)前時刻t;等待著的顧客需求Pt={pijt:i∈[N],j∈[N]};可用車輛Vt={vit:i∈[N]}三部分組成。

        (1)

        (2)動作空間

        動作空間的定義如式(2)所示。動作at是xijt組成,其中i,j∈[N]。xijt代表在t時刻從區(qū)域i調(diào)度到區(qū)域j的無人駕駛出租車,其中調(diào)度動作需要滿足約束——從i區(qū)域調(diào)度到任意區(qū)域的無人駕駛出租車數(shù)量應(yīng)該等于當(dāng)前時刻i區(qū)域的空閑無人駕駛出租車數(shù)量。區(qū)域i可以等于區(qū)域j,代表無人駕駛出租車沒有被調(diào)度。

        (2)

        (3)獎勵函數(shù)

        獎勵函數(shù)設(shè)置為成本的負數(shù),如式(3),由顧客的等待成本、車輛的調(diào)度成本和顧客的取消成本組成。因此,調(diào)度系統(tǒng)的目標(biāo)是作出令總成本最小的車輛調(diào)度策略,即作出令總收益最大的策略。πθ(at|st)代表策略網(wǎng)絡(luò),θ代表策略網(wǎng)絡(luò)的參數(shù),策略網(wǎng)絡(luò)輸入狀態(tài)st,輸出動作at??梢愿鶕?jù)式(4)更新策略網(wǎng)絡(luò)。

        (pijt-yijt)wijt+nijtdijt],

        (3)

        (4)

        總的來說,為避免維度詛咒,本文設(shè)置狀態(tài)向量和動作向量都為連續(xù)變量。由于狀態(tài)空間和動作空間都是連續(xù)的,采用更適用于連續(xù)動作空間的方法——雙延遲深度確定性策略梯度算法CTD3算法。

        2 無人駕駛出租車調(diào)度問題算法介紹

        2.1 用于無人駕駛出租車調(diào)度的雙延遲深度確定性策略梯度算法

        TD3算法是由深度確定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG)[23]進一步優(yōu)化而來。DDPG算法在處理連續(xù)動作空間的問題上有很好的表現(xiàn)效果,但是它通常對于超參數(shù)十分敏感,且會在訓(xùn)練時出現(xiàn)高估狀態(tài)動作價值的問題。而TD3算法引入了兩個目標(biāo)動作價值網(wǎng)絡(luò)來緩解高估的問題。

        πθ(at|st)表示策略網(wǎng)絡(luò),輸入狀態(tài)就可以輸出動作策略,其中θ表示策略網(wǎng)絡(luò)的參數(shù)。Qφ(st,at)表示動作動作價值網(wǎng)絡(luò),通過輸入狀態(tài)和動作,就可以輸出評判該狀態(tài)動作好壞的一個評價值,其中φ表示動作價值網(wǎng)絡(luò)的參數(shù)。Qφ(st,at)的含義是在當(dāng)前狀態(tài)采取動作at,并一直使用動作at的策略到整個回合結(jié)束時獎勵值之和的評估。TD3算法通過動作價值網(wǎng)絡(luò)來更新策略網(wǎng)絡(luò),動作價值網(wǎng)絡(luò)越準(zhǔn)確,策略網(wǎng)絡(luò)采取的動作就越好。本文通過參考相關(guān)文獻與多次實驗設(shè)置了網(wǎng)絡(luò)訓(xùn)練的超參數(shù),超參數(shù)配置如表1所示。算法流程如圖1所示。

        表1 算法參數(shù)設(shè)置

        算法 1TD3算法。

        1. 用隨機網(wǎng)絡(luò)參數(shù)φ1、φ2、θ來初始化動作價值網(wǎng)絡(luò)Qφ1、Qφ2和策略網(wǎng)絡(luò)πθ

        3. 初始化經(jīng)驗回放器β

        4. fori= 1 toc:

        8. ifimodd:

        9. 通過確定性策略梯度更新策略網(wǎng)絡(luò)參數(shù)θ:

        10. 軟更新目標(biāo)網(wǎng)絡(luò):

        11. end if

        12. end for

        本研究采用前饋密集神經(jīng)網(wǎng)絡(luò)來構(gòu)造策略網(wǎng)絡(luò)和動作價值網(wǎng)絡(luò)。因為在該問題的建模中,動作(調(diào)度的車輛)應(yīng)該是非負的整數(shù),且從區(qū)域i調(diào)度到任何區(qū)域的車輛總和應(yīng)該等于區(qū)域i的空車數(shù)量。因此本文在策略網(wǎng)絡(luò)中使用一個變換函數(shù)來完成約束,如圖2與式(5)所示。通過式(5),將策略網(wǎng)絡(luò)的輸出aij轉(zhuǎn)化為xij,從而滿足約束。其中aij代表從i區(qū)域到j(luò)區(qū)域的策略網(wǎng)絡(luò)輸出值,vi代表i區(qū)域的閑置無人駕駛出租車。首先由于策略網(wǎng)絡(luò)的激活函數(shù)是tanh激活函數(shù),輸出數(shù)據(jù)范圍是[-1,1],因此對輸出的動作aij首先歸一化到[0,1]之間,然后計算歸一化后的aij與歸一化后的所有從i區(qū)域調(diào)度到任何區(qū)域的策略網(wǎng)絡(luò)輸出值的比值,再乘上該區(qū)域的閑置車輛。最終得到滿足約束條件的調(diào)度動作xij。

        (5)

        2.2 用于驗證TD3算法的混合整數(shù)規(guī)劃模型描述

        假設(shè)乘客需求和系統(tǒng)動力學(xué)的信息都是已知且確定的,以此為前提搭建混合整數(shù)規(guī)劃模型求得無人駕駛出租車調(diào)度問題的獎勵值理論上界。本文將整個調(diào)度問題視為求解靜態(tài)的混合整數(shù)規(guī)劃問題,該混合整數(shù)規(guī)劃模型目標(biāo)設(shè)置為成本最低來求解最優(yōu)的調(diào)度策略。在后續(xù)實驗中,將混合整數(shù)規(guī)劃求得的理論上界與強化學(xué)習(xí)的結(jié)果進行比較,進而分析TD3網(wǎng)絡(luò)訓(xùn)練過程的收斂效果。整數(shù)規(guī)劃的定義如表2所示。

        表2 整數(shù)規(guī)劃參數(shù)及其含義

        混合整數(shù)規(guī)劃模型:

        (xijt-yijt)cijt+nijt×dijt。

        s.t.

        yijt=min(xijt,pijt);

        (1)

        pijt+1=pijt-yijt-nijt+λijt;

        (2)

        (3)

        vi0=ei;

        (4)

        (5)

        pij0=λij0;

        (6)

        xijt∈+,?i,j∈N,t∈T。

        (7)

        目標(biāo)函數(shù)由乘客的等待成本、調(diào)度成本和顧客的取消成本組成,目標(biāo)是最小化成本。約束條件式(1)規(guī)定,在任何時刻搭載的乘客數(shù)量要不等于等待的顧客數(shù)量(此時有足夠多的車,供應(yīng)大于等于需求),要不等于調(diào)度的車輛(此時沒有足夠多的車,部分乘客需求無法滿足,供應(yīng)小于需求)。約束式(2)規(guī)定,下一時刻正在等待的乘客由上一時刻剩余的等待乘客和下一時刻新的乘客需求組成。約束式(3)規(guī)定,調(diào)度的車輛總和應(yīng)該等于該區(qū)域的空閑車輛,當(dāng)i=j時,相當(dāng)于車輛沒有被調(diào)度。約束式(4)和式(6)代表每個區(qū)域的初始車輛和初始乘客都是已知的。約束式(5)表示,該區(qū)域的空閑車輛由在該時刻到達該區(qū)域的車輛組成,即在t時刻i區(qū)域的閑置車輛數(shù)量等于在t′時刻從j區(qū)域出發(fā),經(jīng)過τjit ′時間行駛,在t時刻到達i區(qū)域的調(diào)度車輛動作的和。約束式(7)確保了調(diào)度車輛(決策變量)是非負的整數(shù)。

        3 量化實驗

        3.1 實驗設(shè)置

        在模型訓(xùn)練之前,本文搭建了一個環(huán)境模擬器來模擬無人駕駛出租車的運營及調(diào)度過程。其中用戶出行需求信息提取于真實的紐約市曼哈頓區(qū)域黃色出租車訂單數(shù)據(jù)。假設(shè)所有出租車都是自動駕駛車輛,可以集中調(diào)度。因此,本文目標(biāo)是利用強化學(xué)習(xí)TD3算法和該模擬器,來找出最優(yōu)的無人駕駛出租車調(diào)度策略。

        首先從NYC TLC(taxi & limousine commission)獲得了關(guān)于紐約市曼哈頓的地理坐標(biāo)。該地圖將紐約市曼哈頓區(qū)分為64個區(qū)域。然后從NYC TLC 中獲得了2016年7月黃色出租車在曼哈頓市的訂單數(shù)據(jù)集。該數(shù)據(jù)集記錄了乘客上車和下車的地點和時間、行駛距離、費用、費率類型、支付類型和司機報告的乘客數(shù)量等信息。

        為減少模型驗證的計算量同時不失其真實性,作了3種簡化:①將無人駕駛出租車行駛區(qū)域劃分為8個服務(wù)區(qū),即把區(qū)域聚集成更大的區(qū)域,從而形成一個小的網(wǎng)絡(luò),如圖3所示;②由于高峰時間段,供應(yīng)與需求有著較大的差距。選取早高峰的6點~10點的數(shù)據(jù),時間間隔設(shè)定為15分鐘;③假設(shè)每天每個區(qū)域的初始車輛分布是一樣的。這3個簡化有助于減少計算時間和計算量來驗證所提方法。若有足夠的計算能力,本文方法也可以推廣到任何規(guī)模的網(wǎng)絡(luò)和時間間隔。為了不失合理性,在仿真器中,結(jié)合當(dāng)?shù)氐沫h(huán)境及相關(guān)政策,本文手動設(shè)置了其他參數(shù),如旅行時間、等待成本、調(diào)度成本等,模擬無人駕駛出租車運營場景。

        3.2 乘客需求確定仿真環(huán)境下的TD3架構(gòu)部署與表現(xiàn)

        本文的策略網(wǎng)絡(luò)是由三層線性網(wǎng)絡(luò)(大小為256)和三層激活層(前兩層為relu激活函數(shù),最后一層為tanh激活函數(shù))組成。動作價值網(wǎng)絡(luò)由三層線性網(wǎng)絡(luò)(大小為256)和兩層激活層(都為relu激活函數(shù))組成。其次,為了與混合整數(shù)規(guī)劃算法作對比,設(shè)定每天模擬器的乘客需求都是確定的,即每天每個時刻每個區(qū)域到另一個區(qū)域的需求都是確定的。因此,這種情況下,混合整數(shù)規(guī)劃的目標(biāo)函數(shù)值即為獎勵函數(shù)值的理論上界。強化學(xué)習(xí)的訓(xùn)練過程是令獎勵越大越好,此處設(shè)置的獎勵值為成本的負數(shù),即訓(xùn)練過程中成本會越來越小。在實驗中,將TD3算法與強化學(xué)習(xí)的另一種算法深度確定性策略梯度算法(DDPG)進行比較。

        實驗總共訓(xùn)練了300萬次,每1 000次進行驗證,結(jié)果如圖4所示。TD3算法實驗最終收斂在-7.051×104,DDPG算法最終收斂在-7.403×104。利用Gurobi優(yōu)化器求得混合整數(shù)規(guī)劃的最優(yōu)解為-6.805×104。通過對比得知,TD3算法與DDPG算法都收斂于整數(shù)規(guī)劃理論最優(yōu)值,但TD3算法比DDPG算法波動性更小、收斂更快且更接近于混合整數(shù)規(guī)劃求得的理論上界。這是因為TD3算法在DDPG算法基礎(chǔ)上有3個改進,首先采用兩個動作價值網(wǎng)絡(luò)更新學(xué)習(xí)的方式,可以有效抑制動作價值網(wǎng)絡(luò)高估的問題;第二采用策略網(wǎng)絡(luò)延遲更新的方法,使策略網(wǎng)絡(luò)訓(xùn)練更加穩(wěn)定;第三采用了目標(biāo)網(wǎng)絡(luò)平滑化的方法,通過計算目標(biāo)動作價值網(wǎng)絡(luò)值時動作添加噪聲,從而讓目標(biāo)動作價值網(wǎng)絡(luò)更新更準(zhǔn)確和魯棒。

        3.3 乘客需求不確定仿真環(huán)境下的TD3架構(gòu)部署與表現(xiàn)

        為了進一步測試TD3算法的實驗表現(xiàn),進一步允許乘客需求的隨機性。用一個月的每個時刻每個區(qū)域的平均值作為乘客需求確定的情況,設(shè)為D0,即3.2節(jié)中乘客需求確定下的仿真環(huán)境設(shè)置。接下來進一步為需求添加不確定性,將需求變?yōu)楦咚狗植?,均值為一個月每個區(qū)域的需求均值,標(biāo)準(zhǔn)差設(shè)為25%均值和50%均值兩種情況,表示為D25和D50的情況。通過這樣的設(shè)置,得到3種需求環(huán)境:D0、D25、D50。

        3種情況下的訓(xùn)練驗證曲線圖如圖4~圖6所示。通過實驗可以看出,TD3算法在D25、D50兩種不確定需求的情況下均可達到收斂。盡管需求隨機性為D50的時候,獎勵值波動較大,但仍然在150萬輪之后趨于平穩(wěn)。對比在D0、D25、D50三種環(huán)境的訓(xùn)練曲線,可以發(fā)現(xiàn)顧客需求不確定性越大,獎勵值波動越大。這是符合規(guī)律的,因為顧客需求是式(3)獎勵值其中的一個因變量。當(dāng)顧客需求不確定性越大,獎勵值波動也越大。但更關(guān)鍵的是,可以看到,在3種情況下訓(xùn)練的算法都可以達到收斂。因此可以得出結(jié)論:TD3算法可以有效應(yīng)對需求不確定環(huán)境下的無人駕駛出租車調(diào)度。圖7給出了不同需求環(huán)境下訓(xùn)練出來的最優(yōu)模型(即通過上述不同仿真環(huán)境訓(xùn)練得到的D0-TD3、D25-TD3、D50-TD3模型)分別在不同需求環(huán)境下的測試獎勵值。對于D25與D50不確定需求環(huán)境的測試,隨機采樣符合D25與D50環(huán)境要求的100 000個需求樣本,模型多次根據(jù)不同需求樣本作出調(diào)度動作,最終統(tǒng)計出關(guān)于模型獎勵值的箱型圖,如圖7所示。可以看到,在特定環(huán)境中訓(xùn)練出來的模型在該環(huán)境中測試結(jié)果最好。比如,D0-TD3模型在D0環(huán)境中的測試結(jié)果比D25-TD3模型和D50-TD3模型更好。這是因為模型的訓(xùn)練環(huán)境和測試環(huán)境是一致的。但更值得留意的是,通過對比不同測試環(huán)境下模型的表現(xiàn),發(fā)現(xiàn)在不確定需求環(huán)境中訓(xùn)練出來的模型(D25-TD3、D50-TD3)表現(xiàn)比確定環(huán)境中(D0-TD3)訓(xùn)練出來的模型魯棒性更好。因此,實驗可以證明,在訓(xùn)練中加入一定不確定性的需求,能使訓(xùn)練出來的模型面對不確定需求時表現(xiàn)得更魯棒。為了進一步驗證算法的魯棒性,如圖8所示,將不同環(huán)境下訓(xùn)練的模型在2016年8月真實數(shù)據(jù)上進行測試,可以看到不確定需求訓(xùn)練出來的模型在真實數(shù)據(jù)上測試結(jié)果更好,而且相對來說,D25-TD3模型在2016年8月真實數(shù)據(jù)上的表現(xiàn)會比D0-TD3與D50-TD3模型表現(xiàn)更好。因此,在不確定需求D25環(huán)境訓(xùn)練出來的模型D25-TD3在真實場景中表現(xiàn)更好。

        3.4 出行需求突變情況下的模型表現(xiàn)

        在現(xiàn)實情況中,經(jīng)常會遇到大型演出結(jié)束、景區(qū)閉園等乘客需求突然變化的情況,在這種情況下特別考驗?zāi)P偷哪芰?。因此,進一步考慮實際需求與預(yù)期需求出現(xiàn)較大偏差的情況下模型的表現(xiàn)。如圖9~圖11所示,將第6個時刻的乘客需求增加或者減少, 虛線系列的線代表顧客需求曲線,實線系列的線代表的是調(diào)度的動作。圖9代表在確定需求D0環(huán)境中訓(xùn)練出來的模型表現(xiàn),可以看到,D0-TD3模型應(yīng)對需求特征的突然變化的情況下,模型的調(diào)度動作基本上沒有改變,因此D0-TD3模型面對需求突變的情況無法很好適應(yīng)。而如圖10和圖11所示,D25-TD3與D50-TD3模型對需求突然變化的情況都作出了相應(yīng)的調(diào)度變化。該實驗進一步反映了在隨機需求訓(xùn)練出來的模型,應(yīng)對需求突然變化的情況表現(xiàn)得更魯棒。這是因為深度強化學(xué)習(xí)算法的底層神經(jīng)網(wǎng)絡(luò)捕獲了復(fù)雜的狀態(tài)決策交互過程和相關(guān)的隨機性,從而可以應(yīng)對當(dāng)前需求變化做出相應(yīng)的調(diào)度控制。

        4 結(jié)束語

        本文提出一種用深度強化學(xué)習(xí)方法解決自動駕駛出租車調(diào)度問題。該方法基于雙延遲深度確定性策略梯度算法(TD3)框架,該框架由兩個深度神經(jīng)網(wǎng)絡(luò)搭建。在實驗中,首先對紐約市曼哈頓區(qū)域黃色出租車數(shù)據(jù)進行整理分析,然后假設(shè)系統(tǒng)動力學(xué)都是已知且確定的,因此可以通過混合整數(shù)規(guī)劃得到獎勵(總成本的負數(shù))的理論上界。將雙延遲深度確定性策略梯度算法應(yīng)用在紐約市曼哈頓區(qū)域的黃色出租車的交通網(wǎng)絡(luò)中。通過實驗對比,在測試集上證實了TD3算法在需求不確定的情況下訓(xùn)練出來的模型的收斂性及有效性。同時,通過不確定交通需求和需求突變的情況來測試算法的魯棒性,實驗證明TD3算法能夠有效應(yīng)對需求不確定的情況。

        本文還留下了很多有意思的值得拓展的研究。首先,本文實驗建立在一個簡化的交通網(wǎng)絡(luò)上進行。由于不斷增長的動作空間和狀態(tài)空間,進行大規(guī)模的集中策略調(diào)度一直是一個挑戰(zhàn)。未來可以嘗試采用多智能體強化學(xué)習(xí)的方法,如BOYALI[24]將每個司機作為一個智能體,多個司機協(xié)同調(diào)度,從而可以有效提高調(diào)度系統(tǒng)運行的效率,SEOW[25]采用多智能體模型,分布式調(diào)度出租車。其次本文實驗中只考慮了單一模式的車輛,而在未來運營商可能由人類駕駛的車輛和無人駕駛出租車結(jié)合的車隊組成[26],算法可以進一步結(jié)合兩者的特點。除此之外,還可以進一步考慮拼車對調(diào)度策略的影響[27]。目前筆者的研究中沒有考慮拼車系統(tǒng),若能進一步考慮拼車系統(tǒng),運營商就可以用更少的車輛滿足更多的需求,進一步提高效率,節(jié)約能源,緩解交通擁堵。最后,目前只結(jié)合顧客的需求與現(xiàn)有的車輛進行調(diào)度,但可以參考更多的信息如交通情況等來參與決策,從而能利用更多的信息來進行優(yōu)化調(diào)度。

        猜你喜歡
        無人駕駛出租車乘客
        我們村的無人駕駛公交
        嫦娥五號帶回的“乘客”
        無人駕駛車輛
        科學(xué)(2020年3期)2020-11-26 08:18:28
        乘坐出租車
        無人駕駛公園
        最牛乘客
        憑什么
        車上的乘客
        高鐵丟票乘客索退款被駁回
        公民與法治(2016年2期)2016-05-17 04:08:24
        開往春天的深夜出租車
        山東青年(2016年1期)2016-02-28 14:25:29
        亚洲gv白嫩小受在线观看| 亚洲av色av成人噜噜噜| 亚洲乱码中文字幕在线| 精品国产中文久久久免费| 丝袜美腿在线观看视频| 两人前一后地插着她丰满| 级毛片内射视频| 大学生粉嫩无套流白浆| 久久9精品区-无套内射无码| 亚洲熟女乱色综合亚洲图片| 破了亲妺妺的处免费视频国产| 真正免费一级毛片在线播放 | 精品亚洲欧美高清不卡高清| 久久久久久岛国免费网站| 国产自拍三级黄片视频| 久久精品国产亚洲av无码偷窥| 狠狠躁夜夜躁人人爽天天古典| 伊人久久综合影院首页| 在线观看无码一区二区台湾| 亚洲最稳定资源在线观看| 中文字幕国内一区二区| 91国产熟女自拍视频| 夜夜夜夜曰天天天天拍国产| 越南女子杂交内射bbwbbw| 免费人成黄页在线观看视频国产| 国产高清国内精品福利99久久| 成年毛片18成年毛片| 亚州中文字幕乱码中文字幕 | 日本一区二三区在线中文| 青青草免费手机直播视频| 一个色综合中文字幕人妻激情视频| 人妻少妇精品视频无码专区 | 精品无码久久久久久久久粉色| 最全精品自拍视频在线| 亚洲最大在线视频一区二区| 黑森林福利视频导航| 亚洲国产美女在线观看| av网站影片在线观看| 开心五月天第四色婷婷| 青娱乐极品视觉盛宴国产视频 | 91国产超碰在线观看|