亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

深度強(qiáng)化學(xué)習(xí)算法在高鐵快運(yùn)站內(nèi)無人運(yùn)輸系統(tǒng)中的應(yīng)用

2023-09-07 13:39:36李紅雨袁韻美胡俊豪南京鐵道職業(yè)技術(shù)學(xué)院江蘇南京210031

物流科技 2023年16期

李紅雨，袁韻美，胡俊豪（南京鐵道職業(yè)技術(shù)學(xué)院，江蘇南京 210031）

1 背景介紹

近年來，我國高速鐵路網(wǎng)建設(shè)日趨完善，高鐵快運(yùn)逐步進(jìn)入大眾視野，為廣大群眾提供了更為便捷、快速的快運(yùn)服務(wù)[1]。目前高鐵快運(yùn)業(yè)務(wù)主要以載客動(dòng)車組為載體，通過高鐵確認(rèn)車、高鐵行李柜、高鐵扣票車廂等多種形式組織干線運(yùn)輸，聯(lián)合EMS、順豐、京東等物流企業(yè)完成兩端集貨配送[2]。隨著高鐵快運(yùn)站點(diǎn)布局逐步完善、貨運(yùn)動(dòng)車組上線以及未來日趨旺盛的“當(dāng)日達(dá)”“次晨達(dá)”等快運(yùn)需求，未來我國高鐵快運(yùn)業(yè)務(wù)將迎來井噴式發(fā)展。

目前，在高鐵站內(nèi)高鐵站臺(tái)與中鐵快運(yùn)營業(yè)部間的貨物運(yùn)輸仍以人力推車為主，存在人工調(diào)度繁瑣、勞動(dòng)強(qiáng)度大、準(zhǔn)時(shí)性差、綜合效率低等問題，難以適應(yīng)未來高鐵快運(yùn)業(yè)務(wù)量激增的情況，更難以適應(yīng)未來可能出現(xiàn)的臨時(shí)性快運(yùn)需求、動(dòng)態(tài)化調(diào)度調(diào)整及站內(nèi)貨物中轉(zhuǎn)等作業(yè)模式[3]。

在此背景下，本文提出了構(gòu)建高鐵快運(yùn)站內(nèi)無人車輛運(yùn)輸系統(tǒng)的設(shè)想，并應(yīng)用深度強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn)復(fù)雜動(dòng)態(tài)需求下高鐵快運(yùn)站無人運(yùn)輸調(diào)度作業(yè)。

2 模型構(gòu)建

高鐵快運(yùn)站內(nèi)的無人車輛運(yùn)輸系統(tǒng)主要由運(yùn)輸網(wǎng)絡(luò)、無人車輛、運(yùn)輸需求、具備充電設(shè)施設(shè)備的物流基地或節(jié)點(diǎn)組成。

運(yùn)輸網(wǎng)絡(luò)：在離散時(shí)間視圖下構(gòu)建一個(gè)有向的物流網(wǎng)絡(luò)圖G（V，V），圖中的每個(gè)頂點(diǎn)i∈V由運(yùn)輸網(wǎng)絡(luò)中的交叉口、升降電梯、貨物運(yùn)輸起訖點(diǎn)、具備充電設(shè)施設(shè)備的物流基地或節(jié)點(diǎn)組成，（i，j）∈V表示以上節(jié)點(diǎn)間的通道，其中通道的長度表示為Dij，通道的行駛時(shí)間表示為Tij。在圖G中，將每個(gè)節(jié)點(diǎn)根據(jù)高鐵站內(nèi)的實(shí)際情況賦予坐標(biāo)位置并根據(jù)設(shè)置之間的通道聯(lián)通關(guān)系。

無人車輛：用V表示所有無人駕駛的運(yùn)輸車輛，車輛屬性主要包括續(xù)航里程、物流需求等。在規(guī)劃過程中，運(yùn)輸能力為Ck的無人車輛k∈V在節(jié)點(diǎn)∈V收到運(yùn)輸需求Qk并開始運(yùn)輸，最終停止在∈V。每輛無人配送車配備有容量為的電池，無人車輛的初始電池電量為，在通道（i，j）內(nèi)消耗電量，此外，充電設(shè)施的充電速率為Rk。

運(yùn)輸需求：Q表示系統(tǒng)中沒有任何車輛接收到運(yùn)輸請(qǐng)求。對(duì)于系統(tǒng)中的任意運(yùn)輸需求q，和分別表示運(yùn)輸需求的起點(diǎn)和終點(diǎn)，Tq和Cq則分別表示運(yùn)輸需求的運(yùn)輸時(shí)間與運(yùn)輸能力。

充電基地/補(bǔ)電節(jié)點(diǎn)：系統(tǒng)中設(shè)置兩類充電設(shè)施，分別為位于物流基地的高效充電基地Vd和位于運(yùn)輸過程中途經(jīng)的補(bǔ)電節(jié)點(diǎn)Vg，其中每個(gè)補(bǔ)電節(jié)點(diǎn)可為每輛無人車輛在最長t時(shí)間限制內(nèi)補(bǔ)充電量Ωg，t。可見，充電基地Vd雖然充電效率高，但車輛需要多次往返，運(yùn)輸效率低，而途中補(bǔ)電節(jié)點(diǎn)Vg雖然充電效率低且充電量有限，但較為方便，因此系統(tǒng)中如何兼顧運(yùn)輸需求和充電策略是路徑優(yōu)化的關(guān)鍵。

3 在線選路策略

基于上述分析，在高鐵快運(yùn)場站運(yùn)輸系統(tǒng)內(nèi)制定在線路徑規(guī)劃策略，旨在當(dāng)系統(tǒng)中運(yùn)輸需求、車輛性質(zhì)、交通擁堵等因素發(fā)生實(shí)時(shí)變化時(shí)制定新的運(yùn)輸路徑，以最大規(guī)模滿足運(yùn)輸需求、最小化車輛行駛距離為目標(biāo)設(shè)置目標(biāo)函數(shù)如下：

其中，C為一個(gè)較大的常數(shù)，，均為0-1指標(biāo)，前者表示運(yùn)輸需求q是否由無人車輛k完成，后者表示無人車輛是否會(huì)通過路徑（i，j）。對(duì)所有車輛作出可行的路徑規(guī)劃，必須符合系統(tǒng)約束，約束條件如下。

規(guī)劃的路線必須是連通的；交通需要得到滿足；物流任務(wù)必須在動(dòng)車組列車到達(dá)前規(guī)定時(shí)間內(nèi)完成；每輛車的載重不得超過其物流能力；車輛在充電過程中不存在電量耗盡或過充的情況；需要觀察充電裝置的充電極限。

為了將目標(biāo)問題建模為有約束的閉式表達(dá)式，需要使用0-1變量和連續(xù)變量，這樣就使該問題變成了在面對(duì)規(guī)模實(shí)例時(shí)，無法用精確算法求解，僅能尋求有效近似算法的NPH問題。而NPH問題只能在給定的靜態(tài)系統(tǒng)條件下做出離線路徑規(guī)劃，無法滿足在高鐵快運(yùn)站調(diào)度中產(chǎn)生的具有不確定性的臨時(shí)物流運(yùn)輸調(diào)度問題。

隨著深度強(qiáng)化學(xué)習(xí)技術(shù)的發(fā)展，不斷有新的研究被用于解決組合優(yōu)化問題。該技術(shù)可以通過深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)參數(shù)的調(diào)整取代數(shù)學(xué)規(guī)劃中求解的龐大計(jì)算量與計(jì)算時(shí)間，以達(dá)到更快地適應(yīng)高鐵快運(yùn)中場站調(diào)度系統(tǒng)動(dòng)態(tài)變化的目的[4]。但應(yīng)用深度強(qiáng)化學(xué)習(xí)技術(shù)的求解效果非常依賴于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與模式參數(shù)的訓(xùn)練過程。因此本文采用深度強(qiáng)化學(xué)習(xí)嘗試設(shè)計(jì)一種適用于不確定性高鐵快運(yùn)站運(yùn)輸?shù)奈锪飨到y(tǒng)調(diào)度策略。

4 優(yōu)化策略

不確定的物流運(yùn)輸調(diào)度問題就是在給定的運(yùn)輸網(wǎng)絡(luò)G內(nèi)，面對(duì)不確定性運(yùn)輸需求，在約束條件下，求解車輛行程序列。本文應(yīng)用深度強(qiáng)化學(xué)習(xí)算法進(jìn)行決策優(yōu)化，主要通過基于神經(jīng)網(wǎng)絡(luò)技術(shù)構(gòu)建的信息中心負(fù)責(zé)管理系統(tǒng)狀態(tài)和相關(guān)信息。初始狀態(tài)下，系統(tǒng)將當(dāng)前動(dòng)態(tài)信息發(fā)送給各無人車輛，無人車輛根據(jù)當(dāng)前系統(tǒng)狀態(tài)繪制路徑，并將此結(jié)果傳遞至深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)，以進(jìn)行下一步的行程規(guī)劃。最后，信息中心收集所有無人車輛的行程信息，無人車輛根據(jù)路線圖完成物流任務(wù)。

每輛車在了解系統(tǒng)當(dāng)前運(yùn)行狀態(tài)后，首先會(huì)創(chuàng)建一個(gè)漫游地圖并輸入到深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)中。當(dāng)該物流網(wǎng)絡(luò)的節(jié)點(diǎn)大于100時(shí)，解的質(zhì)量會(huì)有所下降，但同時(shí)車輛對(duì)下一目標(biāo)是否選擇提貨、發(fā)貨、充電的判斷將更加敏感和準(zhǔn)確。在此基礎(chǔ)上，可以基于無人車輛可能?？康奈恢煤屯緩竭B接點(diǎn)將交通網(wǎng)絡(luò)簡化為每輛車更小的行程圖，并通過最短路徑算法計(jì)算路徑距離、能量消耗和預(yù)估旅行時(shí)長。

本文的主要目標(biāo)是將系統(tǒng)狀態(tài)和車輛行駛路徑圖作為輸入條件，規(guī)劃出最小的總行駛距離。為此，本文通過構(gòu)建嵌入式指針網(wǎng)絡(luò)模型，為系統(tǒng)中的無人車輛設(shè)計(jì)最優(yōu)的路徑規(guī)劃。

在指針網(wǎng)絡(luò)模型中編碼器網(wǎng)絡(luò)輸入系統(tǒng)信息、系統(tǒng)狀態(tài)、規(guī)劃路徑，在編碼器進(jìn)行初始化嵌入后，通過公式（2）更新嵌入值；節(jié)點(diǎn)特征可以傳播到其他相鄰節(jié)點(diǎn)，公式（3）為線性傳播函數(shù)；輸入數(shù)據(jù)如公式（4）所示；解碼過程如公式（5）、（6）所示；條件概率計(jì)算如公式（7）、（8）所示。

5 模型求解

本文引入深度強(qiáng)化學(xué)習(xí)算法的目的是減輕在復(fù)雜多變的運(yùn)輸網(wǎng)絡(luò)中龐大的計(jì)算負(fù)擔(dān)。針對(duì)NP-hard車輛路徑規(guī)劃問題，利用一個(gè)精確的求解器來進(jìn)行大量的數(shù)據(jù)訓(xùn)練耗時(shí)過長，因此，本文采用無模型策略的強(qiáng)制學(xué)習(xí)技術(shù)來確定模型參數(shù)。

首先，為單個(gè)無人車輛設(shè)計(jì)激勵(lì)函數(shù)，將路徑優(yōu)化問題的訓(xùn)練目標(biāo)作為獎(jiǎng)勵(lì)函數(shù)的主要考慮因素，對(duì)違反約束的行為進(jìn)行懲罰，整體訓(xùn)練目標(biāo)包括從分布中進(jìn)行蒙特卡羅采樣，通過參數(shù)調(diào)整，使獎(jiǎng)勵(lì)最大化，如公式（9）所示。

目標(biāo)獎(jiǎng)勵(lì)函數(shù)和約束懲罰函數(shù)如公式（10）、（11）、（12）所示。

其中，

策略梯度通過梯度上升來更新策略函數(shù)，使策略函數(shù)能夠最大化累積，梯度函數(shù)可以用蒙特卡羅抽樣方法近似表示。策略梯度通過梯度上升來更新策略函數(shù)，使策略函數(shù)能夠最大化累積，梯度函數(shù)可以用蒙特卡羅抽樣方法近似表示。

通過異步訓(xùn)練更新模型參數(shù)，在每次迭代過程中，首先采用新的路徑并進(jìn)行規(guī)劃，然后生成獎(jiǎng)勵(lì)值，同時(shí)進(jìn)行梯度計(jì)算，最后進(jìn)行小范圍調(diào)整，以更新模型參數(shù)。當(dāng)參數(shù)收斂或達(dá)到預(yù)計(jì)的最大迭代次數(shù)時(shí)，算法停止。

6 求解分析

本文根據(jù)長三角地區(qū)某具有中鐵快運(yùn)業(yè)務(wù)的高鐵站實(shí)際布局，模擬未來高鐵快運(yùn)量激增情況。需求以隨機(jī)生成的方式設(shè)定；取貨、送貨地點(diǎn)以中鐵快運(yùn)站點(diǎn)、高鐵站臺(tái)貨運(yùn)車廂點(diǎn)為主，以出租車?？奎c(diǎn)、旅客候車服務(wù)點(diǎn)、長途汽車停靠點(diǎn)等為輔進(jìn)行隨機(jī)設(shè)置，取送地點(diǎn)為高鐵站臺(tái)貨運(yùn)車廂點(diǎn)時(shí)提高送貨期限限制；每個(gè)需求從5～20個(gè)單位隨機(jī)值間設(shè)置；每輛車初始充電狀態(tài)在0.2～0.9之間隨機(jī)設(shè)置，充電效率在0.8～0.9之間隨機(jī)設(shè)置，每輛車的物流裝載能力在20～50單位間隨機(jī)設(shè)置。

本文對(duì)比了在車輛路徑優(yōu)化問題上的3類主要方法，如表1所示。通過精準(zhǔn)算法求出最優(yōu)解，但總體計(jì)算時(shí)間較長，不適用于隨機(jī)產(chǎn)生物流需求的運(yùn)輸系統(tǒng)；在1分鐘計(jì)算時(shí)長限制下，啟發(fā)式算法中遺傳學(xué)算法更適用于全局性搜索[5]，而禁忌搜索算法更適合局部搜索，但計(jì)算的總行駛距離均不理想；與啟發(fā)式算法相比，本文采用的深度強(qiáng)化學(xué)習(xí)算法在1分鐘計(jì)算時(shí)限下求解效率明顯提升。

7 結(jié) 論

本文構(gòu)建了高鐵快運(yùn)場站內(nèi)無人車輛運(yùn)輸系統(tǒng)，并應(yīng)用深度強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn)了復(fù)雜動(dòng)態(tài)需求下高鐵快運(yùn)站無人運(yùn)輸調(diào)度作業(yè)，以解決未來高鐵快運(yùn)站內(nèi)運(yùn)輸過程中大規(guī)模運(yùn)量、動(dòng)態(tài)化需求問題。通過模型構(gòu)建與實(shí)例驗(yàn)證，能夠發(fā)現(xiàn)深度強(qiáng)化學(xué)習(xí)算法可高效解決封閉系統(tǒng)內(nèi)不確定物流運(yùn)輸調(diào)度問題。