李紅雨,袁韻美,胡俊豪 (南京鐵道職業(yè)技術(shù)學(xué)院,江蘇 南京 210031)
近年來,我國高速鐵路網(wǎng)建設(shè)日趨完善,高鐵快運(yùn)逐步進(jìn)入大眾視野,為廣大群眾提供了更為便捷、快速的快運(yùn)服務(wù)[1]。目前高鐵快運(yùn)業(yè)務(wù)主要以載客動(dòng)車組為載體,通過高鐵確認(rèn)車、高鐵行李柜、高鐵扣票車廂等多種形式組織干線運(yùn)輸,聯(lián)合EMS、順豐、京東等物流企業(yè)完成兩端集貨配送[2]。隨著高鐵快運(yùn)站點(diǎn)布局逐步完善、貨運(yùn)動(dòng)車組上線以及未來日趨旺盛的“當(dāng)日達(dá)”“次晨達(dá)”等快運(yùn)需求,未來我國高鐵快運(yùn)業(yè)務(wù)將迎來井噴式發(fā)展。
目前,在高鐵站內(nèi)高鐵站臺(tái)與中鐵快運(yùn)營業(yè)部間的貨物運(yùn)輸仍以人力推車為主,存在人工調(diào)度繁瑣、勞動(dòng)強(qiáng)度大、準(zhǔn)時(shí)性差、綜合效率低等問題,難以適應(yīng)未來高鐵快運(yùn)業(yè)務(wù)量激增的情況,更難以適應(yīng)未來可能出現(xiàn)的臨時(shí)性快運(yùn)需求、動(dòng)態(tài)化調(diào)度調(diào)整及站內(nèi)貨物中轉(zhuǎn)等作業(yè)模式[3]。
在此背景下,本文提出了構(gòu)建高鐵快運(yùn)站內(nèi)無人車輛運(yùn)輸系統(tǒng)的設(shè)想,并應(yīng)用深度強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn)復(fù)雜動(dòng)態(tài)需求下高鐵快運(yùn)站無人運(yùn)輸調(diào)度作業(yè)。
高鐵快運(yùn)站內(nèi)的無人車輛運(yùn)輸系統(tǒng)主要由運(yùn)輸網(wǎng)絡(luò)、無人車輛、運(yùn)輸需求、具備充電設(shè)施設(shè)備的物流基地或節(jié)點(diǎn)組成。
運(yùn)輸網(wǎng)絡(luò):在離散時(shí)間視圖下構(gòu)建一個(gè)有向的物流網(wǎng)絡(luò)圖G(V,V),圖中的每個(gè)頂點(diǎn)i∈V由運(yùn)輸網(wǎng)絡(luò)中的交叉口、升降電梯、貨物運(yùn)輸起訖點(diǎn)、具備充電設(shè)施設(shè)備的物流基地或節(jié)點(diǎn)組成,(i,j)∈V表示以上節(jié)點(diǎn)間的通道,其中通道的長度表示為Dij,通道的行駛時(shí)間表示為Tij。在圖G中,將每個(gè)節(jié)點(diǎn)根據(jù)高鐵站內(nèi)的實(shí)際情況賦予坐標(biāo)位置并根據(jù)設(shè)置之間的通道聯(lián)通關(guān)系。
無人車輛:用V表示所有無人駕駛的運(yùn)輸車輛,車輛屬性主要包括續(xù)航里程、物流需求等。在規(guī)劃過程中,運(yùn)輸能力為Ck的無人車輛k∈V在節(jié)點(diǎn)∈V收到運(yùn)輸需求Qk并開始運(yùn)輸,最終停止在∈V。每輛無人配送車配備有容量為的電池,無人車輛的初始電池電量為,在通道(i,j)內(nèi)消耗電量,此外,充電設(shè)施的充電速率為Rk。
運(yùn)輸需求:Q表示系統(tǒng)中沒有任何車輛接收到運(yùn)輸請(qǐng)求。對(duì)于系統(tǒng)中的任意運(yùn)輸需求q,和分別表示運(yùn)輸需求的起點(diǎn)和終點(diǎn),Tq和Cq則分別表示運(yùn)輸需求的運(yùn)輸時(shí)間與運(yùn)輸能力。
充電基地/補(bǔ)電節(jié)點(diǎn):系統(tǒng)中設(shè)置兩類充電設(shè)施,分別為位于物流基地的高效充電基地Vd和位于運(yùn)輸過程中途經(jīng)的補(bǔ)電節(jié)點(diǎn)Vg,其中每個(gè)補(bǔ)電節(jié)點(diǎn)可為每輛無人車輛在最長t時(shí)間限制內(nèi)補(bǔ)充電量Ωg,t。可見,充電基地Vd雖然充電效率高,但車輛需要多次往返,運(yùn)輸效率低,而途中補(bǔ)電節(jié)點(diǎn)Vg雖然充電效率低且充電量有限,但較為方便,因此系統(tǒng)中如何兼顧運(yùn)輸需求和充電策略是路徑優(yōu)化的關(guān)鍵。
基于上述分析,在高鐵快運(yùn)場站運(yùn)輸系統(tǒng)內(nèi)制定在線路徑規(guī)劃策略,旨在當(dāng)系統(tǒng)中運(yùn)輸需求、車輛性質(zhì)、交通擁堵等因素發(fā)生實(shí)時(shí)變化時(shí)制定新的運(yùn)輸路徑,以最大規(guī)模滿足運(yùn)輸需求、最小化車輛行駛距離為目標(biāo)設(shè)置目標(biāo)函數(shù)如下:
其中,C為一個(gè)較大的常數(shù),,均為0-1指標(biāo),前者表示運(yùn)輸需求q是否由無人車輛k完成,后者表示無人車輛是否會(huì)通過路徑(i,j)。對(duì)所有車輛作出可行的路徑規(guī)劃,必須符合系統(tǒng)約束,約束條件如下。
規(guī)劃的路線必須是連通的;交通需要得到滿足;物流任務(wù)必須在動(dòng)車組列車到達(dá)前規(guī)定時(shí)間內(nèi)完成;每輛車的載重不得超過其物流能力;車輛在充電過程中不存在電量耗盡或過充的情況;需要觀察充電裝置的充電極限。
為了將目標(biāo)問題建模為有約束的閉式表達(dá)式,需要使用0-1變量和連續(xù)變量,這樣就使該問題變成了在面對(duì)規(guī)模實(shí)例時(shí),無法用精確算法求解,僅能尋求有效近似算法的NPH問題。而NPH問題只能在給定的靜態(tài)系統(tǒng)條件下做出離線路徑規(guī)劃,無法滿足在高鐵快運(yùn)站調(diào)度中產(chǎn)生的具有不確定性的臨時(shí)物流運(yùn)輸調(diào)度問題。
隨著深度強(qiáng)化學(xué)習(xí)技術(shù)的發(fā)展,不斷有新的研究被用于解決組合優(yōu)化問題。該技術(shù)可以通過深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)參數(shù)的調(diào)整取代數(shù)學(xué)規(guī)劃中求解的龐大計(jì)算量與計(jì)算時(shí)間,以達(dá)到更快地適應(yīng)高鐵快運(yùn)中場站調(diào)度系統(tǒng)動(dòng)態(tài)變化的目的[4]。但應(yīng)用深度強(qiáng)化學(xué)習(xí)技術(shù)的求解效果非常依賴于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與模式參數(shù)的訓(xùn)練過程。因此本文采用深度強(qiáng)化學(xué)習(xí)嘗試設(shè)計(jì)一種適用于不確定性高鐵快運(yùn)站運(yùn)輸?shù)奈锪飨到y(tǒng)調(diào)度策略。
不確定的物流運(yùn)輸調(diào)度問題就是在給定的運(yùn)輸網(wǎng)絡(luò)G內(nèi),面對(duì)不確定性運(yùn)輸需求,在約束條件下,求解車輛行程序列。本文應(yīng)用深度強(qiáng)化學(xué)習(xí)算法進(jìn)行決策優(yōu)化,主要通過基于神經(jīng)網(wǎng)絡(luò)技術(shù)構(gòu)建的信息中心負(fù)責(zé)管理系統(tǒng)狀態(tài)和相關(guān)信息。初始狀態(tài)下,系統(tǒng)將當(dāng)前動(dòng)態(tài)信息發(fā)送給各無人車輛,無人車輛根據(jù)當(dāng)前系統(tǒng)狀態(tài)繪制路徑,并將此結(jié)果傳遞至深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò),以進(jìn)行下一步的行程規(guī)劃。最后,信息中心收集所有無人車輛的行程信息,無人車輛根據(jù)路線圖完成物流任務(wù)。
每輛車在了解系統(tǒng)當(dāng)前運(yùn)行狀態(tài)后,首先會(huì)創(chuàng)建一個(gè)漫游地圖并輸入到深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)中。當(dāng)該物流網(wǎng)絡(luò)的節(jié)點(diǎn)大于100時(shí),解的質(zhì)量會(huì)有所下降,但同時(shí)車輛對(duì)下一目標(biāo)是否選擇提貨、發(fā)貨、充電的判斷將更加敏感和準(zhǔn)確。在此基礎(chǔ)上,可以基于無人車輛可能??康奈恢煤屯緩竭B接點(diǎn)將交通網(wǎng)絡(luò)簡化為每輛車更小的行程圖,并通過最短路徑算法計(jì)算路徑距離、能量消耗和預(yù)估旅行時(shí)長。
本文的主要目標(biāo)是將系統(tǒng)狀態(tài)和車輛行駛路徑圖作為輸入條件,規(guī)劃出最小的總行駛距離。為此,本文通過構(gòu)建嵌入式指針網(wǎng)絡(luò)模型,為系統(tǒng)中的無人車輛設(shè)計(jì)最優(yōu)的路徑規(guī)劃。
在指針網(wǎng)絡(luò)模型中編碼器網(wǎng)絡(luò)輸入系統(tǒng)信息、系統(tǒng)狀態(tài)、規(guī)劃路徑,在編碼器進(jìn)行初始化嵌入后,通過公式(2)更新嵌入值;節(jié)點(diǎn)特征可以傳播到其他相鄰節(jié)點(diǎn),公式(3)為線性傳播函數(shù);輸入數(shù)據(jù)如公式(4)所示;解碼過程如公式(5)、(6)所示;條件概率計(jì)算如公式(7)、(8)所示。
本文引入深度強(qiáng)化學(xué)習(xí)算法的目的是減輕在復(fù)雜多變的運(yùn)輸網(wǎng)絡(luò)中龐大的計(jì)算負(fù)擔(dān)。針對(duì)NP-hard車輛路徑規(guī)劃問題,利用一個(gè)精確的求解器來進(jìn)行大量的數(shù)據(jù)訓(xùn)練耗時(shí)過長,因此,本文采用無模型策略的強(qiáng)制學(xué)習(xí)技術(shù)來確定模型參數(shù)。
首先,為單個(gè)無人車輛設(shè)計(jì)激勵(lì)函數(shù),將路徑優(yōu)化問題的訓(xùn)練目標(biāo)作為獎(jiǎng)勵(lì)函數(shù)的主要考慮因素,對(duì)違反約束的行為進(jìn)行懲罰,整體訓(xùn)練目標(biāo)包括從分布中進(jìn)行蒙特卡羅采樣,通過參數(shù)調(diào)整,使獎(jiǎng)勵(lì)最大化,如公式(9)所示。
目標(biāo)獎(jiǎng)勵(lì)函數(shù)和約束懲罰函數(shù)如公式(10)、(11)、(12)所示。
其中,
策略梯度通過梯度上升來更新策略函數(shù),使策略函數(shù)能夠最大化累積,梯度函數(shù)可以用蒙特卡羅抽樣方法近似表示。策略梯度通過梯度上升來更新策略函數(shù),使策略函數(shù)能夠最大化累積,梯度函數(shù)可以用蒙特卡羅抽樣方法近似表示。
通過異步訓(xùn)練更新模型參數(shù),在每次迭代過程中,首先采用新的路徑并進(jìn)行規(guī)劃,然后生成獎(jiǎng)勵(lì)值,同時(shí)進(jìn)行梯度計(jì)算,最后進(jìn)行小范圍調(diào)整,以更新模型參數(shù)。當(dāng)參數(shù)收斂或達(dá)到預(yù)計(jì)的最大迭代次數(shù)時(shí),算法停止。
本文根據(jù)長三角地區(qū)某具有中鐵快運(yùn)業(yè)務(wù)的高鐵站實(shí)際布局,模擬未來高鐵快運(yùn)量激增情況。需求以隨機(jī)生成的方式設(shè)定;取貨、送貨地點(diǎn)以中鐵快運(yùn)站點(diǎn)、高鐵站臺(tái)貨運(yùn)車廂點(diǎn)為主,以出租車??奎c(diǎn)、旅客候車服務(wù)點(diǎn)、長途汽車停靠點(diǎn)等為輔進(jìn)行隨機(jī)設(shè)置,取送地點(diǎn)為高鐵站臺(tái)貨運(yùn)車廂點(diǎn)時(shí)提高送貨期限限制;每個(gè)需求從5~20個(gè)單位隨機(jī)值間設(shè)置;每輛車初始充電狀態(tài)在0.2~0.9之間隨機(jī)設(shè)置,充電效率在0.8~0.9之間隨機(jī)設(shè)置,每輛車的物流裝載能力在20~50單位間隨機(jī)設(shè)置。
本文對(duì)比了在車輛路徑優(yōu)化問題上的3類主要方法,如表1所示。通過精準(zhǔn)算法求出最優(yōu)解,但總體計(jì)算時(shí)間較長,不適用于隨機(jī)產(chǎn)生物流需求的運(yùn)輸系統(tǒng);在1分鐘計(jì)算時(shí)長限制下,啟發(fā)式算法中遺傳學(xué)算法更適用于全局性搜索[5],而禁忌搜索算法更適合局部搜索,但計(jì)算的總行駛距離均不理想;與啟發(fā)式算法相比,本文采用的深度強(qiáng)化學(xué)習(xí)算法在1分鐘計(jì)算時(shí)限下求解效率明顯提升。
本文構(gòu)建了高鐵快運(yùn)場站內(nèi)無人車輛運(yùn)輸系統(tǒng),并應(yīng)用深度強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn)了復(fù)雜動(dòng)態(tài)需求下高鐵快運(yùn)站無人運(yùn)輸調(diào)度作業(yè),以解決未來高鐵快運(yùn)站內(nèi)運(yùn)輸過程中大規(guī)模運(yùn)量、動(dòng)態(tài)化需求問題。通過模型構(gòu)建與實(shí)例驗(yàn)證,能夠發(fā)現(xiàn)深度強(qiáng)化學(xué)習(xí)算法可高效解決封閉系統(tǒng)內(nèi)不確定物流運(yùn)輸調(diào)度問題。