亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于DBSDER-QL算法的應(yīng)急物資分配策略

        2025-08-18 00:00:00楊皓張池軍張辛未
        關(guān)鍵詞:分配動(dòng)作成本

        ,12,3(1.,;2., ;3.大學(xué) 學(xué)生工作部, )

        關(guān)鍵詞:物資分配;強(qiáng)化學(xué)習(xí); Q -learning算法;動(dòng)態(tài)探索率;動(dòng)態(tài)Boltzmann Softmax中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1671-5489(2025)04-1105-12

        Emergency Resource Allocation Strategy Based on DBSDER-QL Algorithm

        YANG Haol,ZHANG Chijun 1,2 ,ZHANG Xinwei3 1.SchoolofComputerScienceand Technology,Changchun UniersityofScienceand Technology,Changchun13022,China; 2. International Business School, Guangdong University of Finance Economics, Guangzhou ,China; 3. Student Affairs Office, Changchun University ,Changchun ,China)

        Abstract: Aiming at the problem of emergency resource alocation for natural disasters,we proposed a Q -learning algorithm based on dynamic Boltzmann Softmax (DBS) and dynamic exploration rate (DER)(DBSDER-QL). Firstly,the DBS strategy was used to dynamically adjust the weights of action values, promoting stable convergence of the algorithm and solving the problem of excessive of the maximum operator. Secondly,the DER strategy was used to improve convergency and stability of the algorithm, solving the problem of the fixed exploration rate Q -learning algorithm not fully converging to the optimal strategy in the later stage of training. Finally,the efectiveness of the DBS and DER strategies was verified by ablation experiments. Compared with dynamic programming,the greedy algorithm,and traditional Q -learning algorithm,the experimental results show that DBSDERQL algorithm is significantly better than traditional methods in terms of total cost and computational efficiency,showing higher applicability and effectiveness.

        Keywords: resource allocation; reinforcement learning; Q -learning algorithm; dynamic exploration rate;dynamic Boltzmann Softmax

        在自然災(zāi)害應(yīng)急救援中,應(yīng)急物資的快速、有效且公平的分配對(duì)減輕災(zāi)害影響、保障人民生命財(cái)產(chǎn)安全至關(guān)重要[1-3].目前,應(yīng)急物資分配的研究主要采用精確算法、啟發(fā)式算法和強(qiáng)化學(xué)習(xí)算法解決問題. Yu 等[4]提出了一種近似動(dòng)態(tài)規(guī)劃算法,解決了應(yīng)急物流中資源分配的問題,在計(jì)算復(fù)雜性可控條件下實(shí)現(xiàn)了近似最優(yōu)解.Zhang 等[5]借助Gurobi求解器,解決了公共衛(wèi)生應(yīng)急中的有限醫(yī)療儲(chǔ)備分配問題,為應(yīng)急資源的優(yōu)化分配提供了計(jì)算支持.Liu等[6]利用基因編程超啟發(fā)式算法,對(duì)不確定容量路徑問題進(jìn)行求解,有效優(yōu)化了應(yīng)急物資分配中的路徑失敗和補(bǔ)救成本.Jain等7采用粒子群優(yōu)化算法等元啟發(fā)式算法,求解災(zāi)后應(yīng)急資源分配問題.精確算法理論上可以求解全局最優(yōu)解,但在大規(guī)模物資分配問題中,由于計(jì)算復(fù)雜度過高,導(dǎo)致難以求解;啟發(fā)式算法能在短時(shí)間內(nèi)求解局部最優(yōu)解,但會(huì)導(dǎo)致資源分配不均衡或浪費(fèi)的問題.

        隨著應(yīng)急物資分配問題復(fù)雜度的逐漸增加,強(qiáng)化學(xué)習(xí)算法的應(yīng)用成為解決動(dòng)態(tài)和不確定性問題的一種有效方法[8-11]. Yu 等[12]提出了一種基于強(qiáng)化學(xué)習(xí) Q -learning算法的應(yīng)急物資分配方法,效果較好.Liang 等[13]提出了一種基于強(qiáng)化學(xué)習(xí)中多臂賭博機(jī)算法的緊急物流網(wǎng)絡(luò)優(yōu)化方法,解決了在自然災(zāi)害不確定性條件下的救援物資分配和位置規(guī)劃問題.Aslan 等[14]應(yīng)用強(qiáng)化學(xué)習(xí)中的 Q -learning算法,解決了災(zāi)區(qū)無人機(jī)路徑規(guī)劃問題.但隨著受災(zāi)區(qū)域的擴(kuò)大和可分配物資規(guī)模的增長(zhǎng), Q -learning算法的局限性逐漸凸顯,將無法求解全局最優(yōu)解.

        Q -learning算法在實(shí)際應(yīng)用中存在如下兩個(gè)問題:

        1)固定探索率導(dǎo)致探索與利用之間的不平衡問題.探索率用于控制利用與探索之間的平衡,決定智能體在每個(gè)訓(xùn)練步驟中是選擇當(dāng)前價(jià)值最大的動(dòng)作(利用)還是隨機(jī)選擇其他動(dòng)作(探索).固定探索率使智能體在整個(gè)訓(xùn)練過程中始終以相同概率進(jìn)行探索,難以在訓(xùn)練后期收斂到最優(yōu)解.

        2)Boltzmann最優(yōu)公式中的最大運(yùn)算符導(dǎo)致過度貪婪問題.在訓(xùn)練初期,動(dòng)作價(jià)值估計(jì)通常不準(zhǔn)確,最大運(yùn)算符的硬選擇方式會(huì)使智能體過度依賴當(dāng)前的動(dòng)作價(jià)值估計(jì),忽略了對(duì)其他潛在有價(jià)值動(dòng)作的探索,特別在隨機(jī)性或噪聲環(huán)境中,該問題會(huì)阻礙算法的穩(wěn)定收斂[15-17].

        為解決上述問題,本文提出一種基于動(dòng)態(tài) Boltzmann Softmax(DBS)和動(dòng)態(tài)探索率(DER)的Q -learning(dynamic Boltzmann Softmax and dynamic exploration rate based- Q -learning,DBSDER-QL) 算法,主要貢獻(xiàn)如下:

        1)本文在文獻(xiàn)[5]的基礎(chǔ)上,利用模擬方法研究物資短缺情形下的分配策略,將原有研究中最多5個(gè)需求點(diǎn)的設(shè)定拓展至8個(gè)需求點(diǎn),發(fā)現(xiàn)了原 Q -learning算法的不足,并在不同物資分配量和需求點(diǎn)數(shù)量的情形下,考察每個(gè)分配周期分配1,2和3個(gè)單位物資的分配問題.

        2)使用動(dòng)態(tài)探索率策略解決固定探索率導(dǎo)致的分配不平衡問題,動(dòng)態(tài)探索率e隨訓(xùn)練次數(shù)逐漸減小,在訓(xùn)練初期保持較高的探索概率,可充分探索可能的動(dòng)作,隨著訓(xùn)練的深人,探索率逐步降低,更多地利用當(dāng)前已知的最優(yōu)策略,從而提高算法的收斂性和穩(wěn)定性.

        3)采用動(dòng)態(tài) Boltzmann Softmax 策略,替代 Boltzmann最優(yōu)公式中最大值,解決Boltzmann 最優(yōu)公式中最大值導(dǎo)致的過度貪婪問題.在 Boltzmann 最優(yōu)公式更新中,DBS 對(duì)所有可能的動(dòng)作價(jià)值進(jìn)行指數(shù)加權(quán)求和,用加權(quán)和替代最大值.隨著訓(xùn)練的深人,DBS中的指數(shù)權(quán)重動(dòng)態(tài)調(diào)整,使動(dòng)作價(jià)值估計(jì)更精確.

        4)使用DBSDER-QL算法解決自然災(zāi)害發(fā)生后關(guān)鍵 72h 內(nèi)的多周期應(yīng)急物資分配問題,并與動(dòng)態(tài)規(guī)劃算法、貪心算法和 Q -learning算法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明,DBSDER-QL算法在總成本和計(jì)算效率方面均明顯優(yōu)于傳統(tǒng)方法,展現(xiàn)出更高的適用性和有效性.

        問題描述及數(shù)學(xué)模型

        物資通常由集中分配點(diǎn)統(tǒng)一調(diào)配,本文研究構(gòu)建包含一個(gè)分配點(diǎn)和多個(gè)需求點(diǎn)的物資分配網(wǎng)絡(luò).

        其中需求點(diǎn)為各地區(qū)的物資需求區(qū)域,分配點(diǎn)通過運(yùn)輸工具將物資運(yùn)輸?shù)礁餍枨簏c(diǎn).由于自然災(zāi)害的不可預(yù)測(cè)性和迅速爆發(fā),導(dǎo)致物資需求激增且供應(yīng)短缺,很難一次性滿足所有地區(qū)的需求,因此需采用多周期分配方案.自然災(zāi)害發(fā)生后 72h 是救援行動(dòng)的關(guān)鍵期,本文主要考慮在災(zāi)后關(guān)鍵 72h 內(nèi)的應(yīng)急物資分配問題,將這一時(shí)間段劃分為多個(gè)等長(zhǎng)的分配周期.

        1. 1 問題描述

        1)有一個(gè)物資分配點(diǎn);

        2)有多個(gè)物資需求點(diǎn);

        3)在物資短缺情形下;

        4)分配物資分多個(gè)周期進(jìn)行;

        5)需求是將物資分配至各需求點(diǎn);

        6)最終實(shí)現(xiàn)最小化3個(gè)目標(biāo)總成本,包括可達(dá)性成本、剝奪成本和懲罰成本.

        因此,本文設(shè)計(jì)了如圖1所示的多周期應(yīng)急物資分配框架.

        圖1多周期應(yīng)急物資分配框架

        Fig.1 Framework of multi-period emergency resource allocation

        1. 2 模型假設(shè)

        針對(duì)本文研究的問題,提出以下假設(shè):

        1)在每個(gè)分配周期中,分配點(diǎn)可分配的物資數(shù)量相同且已知;

        2)在每個(gè)分配周期中,每個(gè)需求點(diǎn)的物資需求量相同且已知;

        3)單位物資運(yùn)輸成本已知;

        4)不考慮應(yīng)急物資的裝卸和配送時(shí)間.

        1.3 數(shù)學(xué)模型

        大規(guī)模自然災(zāi)害通常會(huì)導(dǎo)致關(guān)鍵資源嚴(yán)重短缺,因此衡量物資分配的有效性尤為重要.設(shè) N 表示所有需求點(diǎn) i 的集合, i∈N ; T 表示應(yīng)急物資分配周期 ΨtΨΨ 的集合, t∈T ; C 表示分配點(diǎn)擁有物資的數(shù)量; a 和 b 表示剝奪成本函數(shù)的剝奪參數(shù); ξ1 表示目標(biāo)函數(shù)中可達(dá)性成本的權(quán)重; ξ2 表示目標(biāo)函數(shù)中剝奪成本的權(quán)重; ξ3 表示目標(biāo)函數(shù)中懲罰成本的權(quán)重; ci 表示從分配點(diǎn)到需求點(diǎn) i 交付每單位物資的運(yùn)輸成本; Yi,t 表示在分配周期 Ψt 對(duì)需求點(diǎn) i 的物資分配量; Di,t 表示需求點(diǎn) i 在分配周期 t 的物資需求量; Si,t 表示在分配周期 t 開始時(shí)需求點(diǎn) i 的物資缺少量; Si,T+1 表示在分配周期 T 結(jié)束時(shí)需求點(diǎn) i 的物資缺少量.

        評(píng)估應(yīng)急物資分配有3個(gè)關(guān)鍵指標(biāo):快速、有效和公平[12.18].具體目標(biāo)函數(shù)如下:

        Yi,t∈{0,1,2,?,C},?i=1,2,?,N,t=1,2,?,T,

        Si,t+1=Si,t-Yi,t+Di,t,?i=1,2,?,N,t=1,2,?,T,

        式(1)表示最小化總成本,包括三部分:可達(dá)性成本、剝奪成本和懲罰成本.根據(jù)文獻(xiàn)[19]可知, ξ1,ξ2 和 ξ3 是3個(gè)權(quán)重,用于平衡目標(biāo)函數(shù)中3種成本的影響,權(quán)重設(shè)置為 (ξ1,ξ2,ξ3)=(1/3,1/3,1/3) 式(2)表示可達(dá)性成本,作為快速指標(biāo),即應(yīng)急物資的物流運(yùn)輸成本, ci 表示每單位物資的運(yùn)輸成本,Yi,t 表示在分配周期 Ψt 對(duì)需求點(diǎn) i 的物資分配量,運(yùn)輸成本為二者相乘.式(3)表示剝奪成本,作為有效指標(biāo),剝奪成本用于衡量因物資短缺給幸存者帶來的痛苦,其中 Si,t 表示在分配周期 Ψt 開始時(shí)需求點(diǎn) i 的物資缺少量, L 表示單個(gè)周期的時(shí)間長(zhǎng)度, a 和 b 為剝奪參數(shù).式(4)表示懲罰成本,作為公平指標(biāo),懲罰成本用于確保每位幸存者獲得平等程度的援助,避免幸存者在規(guī)劃期內(nèi)出現(xiàn)嚴(yán)重不平衡.懲罰成本的計(jì)算與式(3)采用相同的函數(shù),其中 Si,T+1 表示在分配周期 T 結(jié)束時(shí)需求點(diǎn) i 的物資缺少量

        約束條件(5)為容量約束,在每個(gè)分配周期內(nèi),所有需求點(diǎn)獲得的物資總量應(yīng)小于或等于分配點(diǎn)的物資容量 C .約束條件(6)規(guī)定每個(gè)分配量 Yi,t 必須為整數(shù),且最大值不得超過物資容量 C ,約束條件(7)為狀態(tài)轉(zhuǎn)移約束,如果需求點(diǎn) i 獲得了 Yi,t 個(gè)單位的物資,則其狀態(tài)將減少 Yi,t-Di,t ,如果該需求點(diǎn)未獲得物資,即 Yi,t=0 ,則其狀態(tài)將增加 Di,t .約束條件(8)為在分配周期開始時(shí)所有需求點(diǎn)的狀態(tài)均為0.

        2算法設(shè)計(jì)

        首先,定義 Q -learning算法的核心元素,包括智能體、環(huán)境、狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì).其次,分析Q -learning 算法的局限性,并引人兩個(gè)改進(jìn)策略:動(dòng)態(tài) Boltzmann Softmax 和動(dòng)態(tài)探索率,得到DBSDER-QL算法.最后,介紹DBSDER-QL算法的訓(xùn)練過程.

        2.1 -learning算法元素定義

        Q -learning算法是一種典型的強(qiáng)化學(xué)習(xí)方法,其通過智能體與環(huán)境的交互,學(xué)習(xí)在不同狀態(tài)下選擇最優(yōu)動(dòng)作以最大化長(zhǎng)期回報(bào).在應(yīng)急物資分配問題中, Q -learning算法通過定義狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)函數(shù)描述智能體與環(huán)境的交互,逐步學(xué)習(xí)到最優(yōu)的物資分配策略.圖2為應(yīng)急物資分配方法的整體框架,可直觀理解這些元素及其在應(yīng)急物資分配中的作用[20-25]

        Q -learning算法中的關(guān)鍵元素定義如下.

        1)智能體:表示分配點(diǎn),相當(dāng)于執(zhí)行算法的實(shí)體,目的是學(xué)習(xí)如何最有效地分配應(yīng)急物資.

        2)環(huán)境:表示需求點(diǎn),與智能體(分配點(diǎn))進(jìn)行互動(dòng).

        圖2應(yīng)急物資分配方法的整體框架Fig. 2 Overall framework of emergencyresourceallocationmethod

        3)狀態(tài):狀態(tài) sι 表示所有需求點(diǎn)在分配周期 χt 的物資缺乏情況,可用狀態(tài)向量形式化表示為St=(S1,t,S2,t,?,SN,t) ,每個(gè)狀態(tài) Si,t 反映了在分配周期 t 內(nèi)需求點(diǎn)i的物資缺少量.

        4)動(dòng)作:動(dòng)作 表示分配點(diǎn)在分配周期 t 對(duì)所有需求點(diǎn)的物資分配數(shù)量,動(dòng)作向量可形式化表示為 Yt=(Y1,t,Y2,t,?,YN,t) ,其中每個(gè)元素 Yi,t 表示在分配周期 Ψt 內(nèi)分配給需求點(diǎn) i 的物資數(shù)量.

        5)獎(jiǎng)勵(lì)函數(shù):本文的研究目標(biāo)是最小化總成本,而強(qiáng)化學(xué)習(xí)的目標(biāo)是最大化獎(jiǎng)勵(lì)總和.為在強(qiáng)化學(xué)習(xí)框架下實(shí)現(xiàn)研究目標(biāo),將總成本的負(fù)值定義為獎(jiǎng)勵(lì)函數(shù).同時(shí),為更好地描述物資分配問題,將規(guī)劃周期內(nèi)的狀態(tài)劃分為初始狀態(tài)、中間狀態(tài)和最終狀態(tài)[5].

        首先,物資分配周期 t=1 的狀態(tài)稱為初始狀態(tài),其獎(jiǎng)勵(lì)函數(shù)與 t=1 與即將轉(zhuǎn)移到的 t=2 的狀態(tài)有關(guān).獎(jiǎng)勵(lì)函數(shù)對(duì)應(yīng)可達(dá)性成本和剝奪成本為

        其次,分配周期 t=2~T-1 的狀態(tài)為中間狀態(tài),獎(jiǎng)勵(lì)函數(shù)對(duì)應(yīng)可達(dá)性成本和剝奪成本為

        最后,分配周期 t=T 的狀態(tài)為最終狀態(tài),獎(jiǎng)勵(lì)對(duì)應(yīng)可達(dá)性成本和懲罰成本為

        2.2 動(dòng)態(tài)探索率策略

        為解決固定探索率導(dǎo)致的探索與利用不平衡問題,本文采用動(dòng)態(tài)探索率策略調(diào)整探索率 ε .在強(qiáng)化學(xué)習(xí)中, ε 是用于平衡探索與利用的參數(shù),利用是指在已知某個(gè)動(dòng)作價(jià)值最大時(shí),優(yōu)先選擇該動(dòng)作以獲取更多回報(bào);而探索則是在當(dāng)前信息不足時(shí)嘗試其他動(dòng)作,以發(fā)現(xiàn)潛在的更高價(jià)值動(dòng)作.訓(xùn)練初期,e值較高,以增加探索概率,幫助智能體充分探索可能的動(dòng)作;隨著訓(xùn)練的進(jìn)行, ε 逐漸減小,更多地利用當(dāng)前最優(yōu)策略.這種動(dòng)態(tài)調(diào)整確保了智能體在初期廣泛探索環(huán)境,在后期專注于最優(yōu)動(dòng)作,從而提高了算法的收斂性和穩(wěn)定性[26],用公式可表示為

        其中 k 表示當(dāng)前訓(xùn)練的次數(shù), Ne 表示訓(xùn)練的總次數(shù).

        探索率 ε 值的動(dòng)態(tài)變化反映了探索與利用之間的平衡調(diào)整,如圖3所示.由圖3可見,隨著訓(xùn)練次數(shù)的增加,探索率逐漸減小,智能體在后期逐步減少探索,以增強(qiáng)利用現(xiàn)有知識(shí)的能力.

        2.3 動(dòng)態(tài)Boltzmann Softmax策略

        在強(qiáng)化學(xué)習(xí)算法中,動(dòng)作價(jià)值函數(shù)( Q 函數(shù))的更新基于Boltzmann最優(yōu)公式:

        Q(s,a)Q(s,a)+α?[r+γ?maxaQ(s,a)-Q(s,a)],

        其中: Q(s,a) 表示當(dāng)前狀態(tài) s 下采取動(dòng)作 a 的價(jià)值; α 為學(xué)習(xí)率; r 為即時(shí)獎(jiǎng)勵(lì);γ為折扣因子,用于衡量未來獎(jiǎng)勵(lì)的重要性; maxa'Q(s',a') 表示在下一狀態(tài) s 中所有可能動(dòng)作的最大價(jià)值.Boltzmann公式通過最大運(yùn)算符max直接選擇當(dāng)前狀態(tài)下最優(yōu)動(dòng)作的價(jià)值,從而實(shí)現(xiàn)對(duì)策略的優(yōu)化.然而,由于 Q 值的估計(jì)在訓(xùn)練初期可能存在較大的噪聲和偏差,因此直接使用最大值運(yùn)算符將導(dǎo)致算法過于依賴當(dāng)前Q 值的估計(jì),忽略其他潛在動(dòng)作的探索,使算法收斂速度減慢,甚至可能無法收斂到全局最優(yōu)解.

        為解決上述問題,本文提出采用動(dòng)態(tài)Boltzmann Softmax策略替代Boltzmann最優(yōu)公式中的最大運(yùn)算符.DBS在Boltzmann最優(yōu)公式更新中,通過對(duì)所有可能動(dòng)作的價(jià)值進(jìn)行指數(shù)加權(quán)求和,使用動(dòng)態(tài)溫度參數(shù) βk 調(diào)整動(dòng)作價(jià)值的估計(jì)[27].在訓(xùn)練初期,由于對(duì)環(huán)境的了解不足,溫度參數(shù) βk 較小,使動(dòng)作價(jià)值的估計(jì)更平滑,避免因初期估計(jì)偏差導(dǎo)致的收斂速度緩慢,甚至無法收斂.隨著訓(xùn)練的進(jìn)行, βk 逐漸增大,使對(duì)較優(yōu)動(dòng)作的價(jià)值估計(jì)更突出,從而更好地利用已學(xué)得的策略.這種基于動(dòng)態(tài)溫度參數(shù)的調(diào)整機(jī)制,使動(dòng)作價(jià)值估計(jì)更精確,促進(jìn)了算法的有效收斂.

        溫度參數(shù) βk 通常采用冪函數(shù)形式計(jì)算:

        圖3動(dòng)態(tài)探索率變化曲線

        Fig.3Change curve of dynamic exploration rates

        βk=k?,

        其中: k 表示當(dāng)前的訓(xùn)練次數(shù),與式(12)中的 k 為同一個(gè)參數(shù); p 為階數(shù),通常取 p=2[27-28]

        動(dòng)態(tài)BoltzmannSoftmax算子的數(shù)學(xué)表達(dá)式為

        其展示了溫度參數(shù) βk 在值函數(shù)更新中的應(yīng)用.將DBS策略引人Boltzmann最優(yōu)公式以進(jìn)行 Q 值更新,更新規(guī)則如下:

        2.4 DBSDER-QL算法訓(xùn)練流程

        整個(gè)訓(xùn)練過程從初始化步驟開始,包括初始化 Q 表、可達(dá)性成本 F1 、剝奪成本 F2 和懲罰成本F3 .訓(xùn)練過程以循環(huán)迭代方式進(jìn)行,分多個(gè)訓(xùn)練輪次.在每輪訓(xùn)練中,模型先將訓(xùn)練次數(shù) k 初始化為1,設(shè)置初始狀態(tài) s ,并將分配周期 Ψt 初始化為1.

        在每個(gè)周期內(nèi),模型基于動(dòng)態(tài)探索率策略選擇動(dòng)作 ,并結(jié)合當(dāng)前周期的可達(dá)性成本 F1 、剝奪成本 F2 和懲罰成本 F3 計(jì)算獎(jiǎng)勵(lì)函數(shù)值 Rt .通過所選動(dòng)作和當(dāng)前狀態(tài)計(jì)算下一時(shí)刻狀態(tài) St+1 ,并基于下一狀態(tài)的值函數(shù) V(St+1) ,用Boltzmann公式更新 Q 表數(shù)值.當(dāng)分配周期 Ψt 未超過最大分配周期 T 時(shí),循環(huán)繼續(xù),直至完成當(dāng)前次數(shù)的所有周期訓(xùn)練.在每輪訓(xùn)練結(jié)束后,模型更新訓(xùn)練次數(shù) k ,進(jìn)入下一輪訓(xùn)練,直至訓(xùn)練次數(shù)達(dá)到最大值 Ne .通過反復(fù)迭代優(yōu)化,模型逐步調(diào)整并收斂 Q 值,從而為物資分配問題提供優(yōu)化策略.圖4為DBSDER-QL算法的完整訓(xùn)練流程.

        圖4DBSDER-QL算法流程 Fig.4FlowchartofDBSDER-QLalgorithm

        3 實(shí)驗(yàn)與分析

        3.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)

        本文實(shí)驗(yàn)中,所有程序均基于Python 3.8,并在一臺(tái)配備RTX4090顯卡和22核AMD EPYC 處理器的云服務(wù)器上運(yùn)行.實(shí)驗(yàn)所用數(shù)據(jù)如下[26].

        1)需求點(diǎn)初始狀態(tài):所有需求點(diǎn)的初始狀態(tài)均為0,表示為 S0=(S1,0,S2,0,?,SN,0)=(0,0,?,0) :2)需求點(diǎn)需求量:每個(gè)需求點(diǎn)在每個(gè)周期的需求量為1個(gè)單位,即 Dt=(D1,t,D2,t,?,DN,t)= (1,1,?,1) ;3)可達(dá)性成本:各需求點(diǎn)與分配點(diǎn)之間的可達(dá)性成本 ci 取值于集合 C={200,250,300,350 ,400,?} ,例如,分配點(diǎn)到需求點(diǎn)2的可達(dá)性代價(jià)為 c2=250

        3.2 靈敏度分析

        在強(qiáng)化學(xué)習(xí)中,學(xué)習(xí)率 α 和折扣因子γ是關(guān)鍵參數(shù).學(xué)習(xí)率 α 調(diào)節(jié)智能體適應(yīng)新環(huán)境的速度,較高的學(xué)習(xí)率可以使智能體更快地適應(yīng)新環(huán)境,但可能導(dǎo)致結(jié)果波動(dòng)較大;折扣因子γ決定智能體對(duì)未來獎(jiǎng)勵(lì)的重視程度,較高的折扣因子鼓勵(lì)智能體進(jìn)行長(zhǎng)遠(yuǎn)規(guī)劃,而較低的折扣因子則使其更傾向于追求即時(shí)回報(bào).

        圖5為DBSDER-QL算法在不同學(xué)習(xí)率 α 和折扣因子γ組合下的加權(quán)成本,其中顏色深淺表示加權(quán)成本的高低,顏色越深表示成本越高.實(shí)驗(yàn)選取2個(gè)單位的應(yīng)急物資,對(duì)3個(gè)需求點(diǎn)進(jìn)行6個(gè)周期的物資分配,針對(duì)每種學(xué)習(xí)率 α 和折扣因子 γ 的組合,進(jìn)行1000次訓(xùn)練,再計(jì)算每組參數(shù)下的加權(quán)總成本,生成熱力圖,通過分析熱力圖中的淺色區(qū)域,可識(shí)別出較優(yōu)的參數(shù)組合.最終,通過該實(shí)驗(yàn)選擇學(xué)習(xí)率 α=0.7 、折扣因子 γ=0.8 的組合.

        1290 01277.531290.591285.141278.761266.431283.111241.841274.151265.701268.231270.42 0.1 -1 233.131223.72 1230.971232.19 1220.251227.51 1232.29 1212.33 1207.91 1205.53 1270.48 1260 0.2-1229.85 1 238.26 1 224.171 232.98 1222.571226.241217.021204.64 1202.94 1205.191201.98 0.3-1232.59 1232.301236.28 1231.49 1231.021231.491213.951205.861200.54:1200.791199.86 1230 0.4-1241.02 1231.81 1232.04 1245.411222.91 1234.381218.56 1201.23 1200.131199.85 1197.32 80.5-1-245.06 1235.41 1224.871239.05 1232.781229.161215.90:1201.251195.42 1195.04 1195.84 1200 0.6 -1235.74 1226.80 1231.861226.111241.091226.54 1216.951200.981194.65 1194.651194.65 1196 0.7-1 239.56 1229.21 1236.911234.381228.07 1223.69 1218.531203.871194.65 1194.651194.65 0.8-1238.62 1 233.12 1 239.531 228.67 1232.09 1 227.31 1213.01 1202.111195.061194.65 1194.65 1195 0.9-1235.051239.381236.161234.631227.691226.431217.021198.951194.661194.651194.65 1.0-1235.151235.251231.81 1241.231223.111217.591216.091200.771194.65 1194.651194.65 1194 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 2

        3.3 消融實(shí)驗(yàn)

        為考察兩種增強(qiáng)策略對(duì)模型效果的影響,在DBSDER-QL算法的基礎(chǔ)上刪除不同的增強(qiáng)策略以產(chǎn)生兩種算法,如DBS-QL算法和DER-QL算法,通過比較不同算法的性能評(píng)估不同策略的作用.消融實(shí)驗(yàn)中不同算法的設(shè)置列于表1,其中:“√\"表示包含該策略;‘ ?× ”表示不包含該策略.

        表1消融實(shí)驗(yàn)結(jié)果

        Table 1 Resultsofablationexperiments

        設(shè)計(jì)一組實(shí)驗(yàn),采用2個(gè)單位的應(yīng)急物資,對(duì)3個(gè)需求點(diǎn)進(jìn)行6個(gè)周期的物資分配,共進(jìn)行1 000 次訓(xùn)練.實(shí)驗(yàn)中,DBS-QL算法采用固定探索率 ε=0.1 ,并與 DER-QL 和 DBSDER-QL 算法采用式(12)動(dòng)態(tài)調(diào)整探索率的情況進(jìn)行對(duì)比.圖6為不同算法在訓(xùn)練中的對(duì)比結(jié)果.由圖6可見,DER-QL和DBS-QL算法的曲線在整個(gè)訓(xùn)練過程中波動(dòng)較大,未表現(xiàn)出明顯的收斂趨勢(shì).而DBSDER-QL算法在動(dòng)態(tài)探索率下表現(xiàn)最優(yōu)異,能較快收斂,效果明顯優(yōu)于前兩種算法.

        3.4 算法測(cè)試

        圖6消融實(shí)驗(yàn)各算法性能對(duì)比 Fig.6Performance comparison of various algorithmsinablationexperiments

        為驗(yàn)證DBSDER-QL算法的泛化能力,實(shí)驗(yàn)設(shè)置1個(gè)單位的應(yīng)急物資,針對(duì) 3~8 個(gè)需求點(diǎn)進(jìn)行6個(gè)周期的物資分配.如圖7所示,通過加權(quán)總成本評(píng)估算法性能,并對(duì)其收斂性進(jìn)行展示,不同需求點(diǎn)數(shù)量下的算法訓(xùn)練過程清晰地呈現(xiàn)了其表現(xiàn).圖7中的 {N,C,T} 表示實(shí)驗(yàn)參數(shù),其中 N 為需求點(diǎn)數(shù)量, C 為物資單位數(shù)量, T 為物資分配的周期數(shù)量.由圖7可見,隨著需求點(diǎn)數(shù)量的增加,物資分配方案的復(fù)雜度隨之提高,導(dǎo)致算法所需的訓(xùn)練次數(shù)有所增加.DBSDER-QL算法始終能找到最低成本的分配策略,驗(yàn)證了其在解決物資分配問題上的有效性.

        圖7DBSDER-QL算法在多需求點(diǎn)下的收斂性驗(yàn)證 Fig.7Convergence validation of DBSDER-QL algorithm under multiple demand points

        3.5 算法對(duì)比分析

        下面對(duì)DBSDER-QL算法與動(dòng)態(tài)規(guī)劃算法、貪心算法和 Q -learning算法進(jìn)行對(duì)比,從加權(quán)總成本和計(jì)算時(shí)間兩方面綜合評(píng)估各算法的性能.為進(jìn)一步揭示各算法在不同情形下的適用性,研究通過設(shè)置不同數(shù)量的物資(1,2,3個(gè)單位)以及不同數(shù)量的需求點(diǎn)( 3~8 個(gè))對(duì)各算法進(jìn)行全面對(duì)比分析,用{N,C,T} 表示實(shí)驗(yàn)參數(shù),其中 N 為需求點(diǎn)數(shù)量, C 為物資單位數(shù)量, T 為物資分配的周期數(shù)量.例如, {3,1,6} 表示3個(gè)需求點(diǎn)、1個(gè)單位物資和6個(gè)分配周期.表2列出了各算法的成本和計(jì)算時(shí)間對(duì)比結(jié)果,表3列出了 Q -leaning算法和DBSDER-QL算法的訓(xùn)練次數(shù) Ne 對(duì)比結(jié)果.由表2和表3可見,DBSDER-QL算法在不同規(guī)模問題中均具有優(yōu)勢(shì).

        Table2Comparison results of cost and computation time for each algorithm

        表3Q-learning算法和DBSDER-QL算法的訓(xùn)練次數(shù) Ne 對(duì)比結(jié)果

        表2各算法的成本和計(jì)算時(shí)間對(duì)比結(jié)果

        Table 3 Comparison results of training time Ne between -learning algorithm and DBSDER-QL algorithm

        3.5.11個(gè)單位物資的對(duì)比分析

        圖8為在不同需求點(diǎn)數(shù)量( (3~8 個(gè))下,分配1個(gè)單位物資實(shí)驗(yàn)中,DBSDER-QL算法與動(dòng)態(tài)規(guī)劃算法、貪心算法和 Q -learning算法的求解情況.由圖8可見,DBSDER-QL算法和 Q -learning算法在加權(quán)總成本方面與動(dòng)態(tài)規(guī)劃算法一致,均達(dá)到了最優(yōu)解.動(dòng)態(tài)規(guī)劃算法作為精確算法,通過遍歷所有可能情況找到全局最優(yōu)解,從而保證最低的加權(quán)總成本,證明了DBSDER-QL和 Q -learning算法在該任務(wù)中的有效性.在計(jì)算時(shí)間方面,貪心算法雖然計(jì)算速度最快,但由于它在每個(gè)分配周期中僅選擇當(dāng)前周期最低成本的方案并累加,因此其加權(quán)總成本最高.而動(dòng)態(tài)規(guī)劃算法通過全局搜索確保最優(yōu)解,但計(jì)算時(shí)間較長(zhǎng).強(qiáng)化學(xué)習(xí)算法通過試錯(cuò)過程逐步優(yōu)化策略找到最優(yōu)解,DBSDER-QL算法比Q -learning算法能在更少的訓(xùn)練次數(shù)下更快收斂,因此計(jì)算時(shí)間較短.

        圖81個(gè)單位物資分配時(shí)各算法的加權(quán)總成本和計(jì)算時(shí)間對(duì)比結(jié)果

        Fig.8Comparisonresultsof weighted totalcost andcomputation timeforvarious algorithms with1unitofresourceallocation

        3.5.22個(gè)單位物資的對(duì)比分析

        圖9為在不同需求點(diǎn)數(shù)量( 3~8 個(gè))下,分配2個(gè)單位物資實(shí)驗(yàn)中不同算法的求解表現(xiàn).由圖9可見,在加權(quán)總成本方面,DBSDER-QL、 Q -learning、動(dòng)態(tài)規(guī)劃和貪心算法的表現(xiàn)與1個(gè)單位物資分配實(shí)驗(yàn)相同;在計(jì)算時(shí)間方面,隨著需求點(diǎn)數(shù)量的增加,DBSDER-QL算法的計(jì)算時(shí)間優(yōu)勢(shì)逐漸凸顯,略快于動(dòng)態(tài)規(guī)劃算法,明顯快于 Q -learning算法.

        圖92個(gè)單位物資分配時(shí)各算法的加權(quán)總成本和計(jì)算時(shí)間對(duì)比結(jié)果

        Fig.9Comparisonresultsof weighted totalcostandcomputation timeforvarious algorithms with2unitsofresource allocati

        3.5.33個(gè)單位物資的對(duì)比分析

        圖10為在不同需求點(diǎn)數(shù)量 (3~8 個(gè))下,分配3個(gè)單位物資實(shí)驗(yàn)中不同算法的求解表現(xiàn).由圖10可見,隨著物資分配數(shù)量的增加,分配方案的數(shù)量也隨之增加,算法的計(jì)算難度變大.在加權(quán)總成本方面,當(dāng)需求點(diǎn)較少( 3~6 個(gè))時(shí),DBSDER-QL算法性能優(yōu)于 Q -learning算法,成本接近于動(dòng)態(tài)規(guī)劃算法.隨著需求點(diǎn)數(shù)量的增加, Q -learning算法在7個(gè)和8個(gè)需求點(diǎn)時(shí)無法求解,動(dòng)態(tài)規(guī)劃算法在8個(gè)需求點(diǎn)時(shí)也無法求解,而DBSDER-QL算法仍能成功求解,顯示了其在不同規(guī)模問題中的魯棒性.在計(jì)算時(shí)間方面,DBSDER-QL算法隨著需求點(diǎn)數(shù)量的增加,明顯優(yōu)于動(dòng)態(tài)規(guī)劃和Q-learning算法.

        綜上所述,針對(duì) Q -learning算法在實(shí)際應(yīng)用中存在固定探索率導(dǎo)致探索與利用不平衡的問題和Boltzmann 最優(yōu)公式中最大運(yùn)算符導(dǎo)致過度貪婪的問題,本文提出了一種 DBSDER-QL算法.首先,引人動(dòng)態(tài) Boltzmann Softmax 策略替代 Boltzmann 最優(yōu)公式中的最大值,有效解決了過度貪婪問題.其次,通過動(dòng)態(tài)探索率策略提高了算法的收斂速度和穩(wěn)定性.在不同物資分配量和需求點(diǎn)數(shù)量實(shí)驗(yàn)中,考察了不同情形下算法之間的性能差異,驗(yàn)證了DBSDER-QL算法的有效性和適用性.實(shí)驗(yàn)結(jié)果表明,在大規(guī)模場(chǎng)景下,DBSDER-QL算法在加權(quán)總成本和計(jì)算效率方面優(yōu)于動(dòng)態(tài)規(guī)劃算法、貪心算

        法和 Q -learning算法.

        圖103個(gè)單位物資分配時(shí)各算法的加權(quán)總成本和計(jì)算時(shí)間對(duì)比結(jié)果

        Fig.10Comparisonresultsof weighted totalcostandcomputation timeforvarious algorithmswith3unitsofresourceallocation

        參考文獻(xiàn)

        [1]龍海波,楊家其,尹靚,等.基于魯棒優(yōu)化的不確定需求下應(yīng)急物資配送多目標(biāo)決策模型[J].吉林大學(xué)學(xué)報(bào)(工 學(xué)版),2023,53(4):1078-1084. (LONG H B,YANG JQ,YIN L,et al. Multi-objective Decision-Making on Emergency Material Distribution under Uncertain Demand Based on Robust Optimization [J]. Journal of Jilin University(Engineering and Technology Edition),2023,53(4):1078-1084.) [2]劉建輝,王瓊.基于多目標(biāo)蟻群算法的多配送中心應(yīng)急物資配送車輛調(diào)度優(yōu)化方法[J].吉林大學(xué)學(xué)報(bào)(工學(xué) 版),2025,55(2): 631-638.(LIU JH,WANG Q. Optimization Method for Emergency Material Delivery Vehicle Scheduling in Multiple Distribution Centers Based on Multi-objective Ant Colony Algorithm[J]. Journal of Jilin University (Engineering and Technology Edition),2025,55(2): 631-638.) [3]張國富,管燕妮,蘇兆品,等.多階段應(yīng)急物資多目標(biāo)連續(xù)分配問題建模與求解[J].計(jì)算機(jī)工程,2024,

        50(12):329-345. (ZHANG G F,GUAN Y N,SU Z P,et al. Modeling and Solving of the Multi-objective Continuous Distribution Problem for Multi-stage Emergency Supplies [J]. Computer Enginering,2O24,50(12):

        329-345.)

        [4]YU L N,YANG H S,MIAO L X,et al. Rollout Algorithms for Resource Alocation in Humanitarian Logistics [J].IISE Transactions,2019,51(8):887-909.

        [5]ZHANG YW,LI Z P,JIAO P B,et al. Two-Stage Stochastic Programming Approach for Limited Medical Reserves Allocation under Uncertainties [J]. Complex Intelligent Systems,2021,7(6): 3003-3013.

        [6]LIU Y X,WANG S X,LI X H. A New Coperative Recourse Strategy for Emergency Material Allocation in Uncertain Environments [J]. Frontiers in Physics,2022,10: 835412-1-835412-10.

        [7]JAIN S, BHARTI K K. A Combinatorial Optimization Model for Post-Disaster Emergency Resource Alocation Using Meta-Heuristics [J]. Soft Computing,2023,27(18):13595-13611.

        [8]白天,呂璐瑤,李儲(chǔ),等.基于深度強(qiáng)化學(xué)習(xí)的游戲智能引導(dǎo)算法[J].吉林大學(xué)學(xué)報(bào)(理學(xué)版),2025,63(1):

        91-98.(BAI T,LU L Y,LI C,et al. Game Inteligence Guidance Algorithm Based on Deep Reinforcement Learning[J]. Journal of Jilin University(Science Edition),2025,63(1):91-98.)

        [9]郝嘉寧,姚永偉,葉育鑫.本體指導(dǎo)下的安全強(qiáng)化學(xué)習(xí)最優(yōu)化策略[J].吉林大學(xué)學(xué)報(bào)(理學(xué)版),2025,63(1):

        83-90.(HAO J N, YAO Y W,YE Y X. Optimization Strategy for Safety Reinforcement Learning Guided by Ontolog[J]. Journal of Jilin University(Science Edition),2025,63(1):83-90.)

        [10]張一博,高丙朋.基于深度強(qiáng)化學(xué)習(xí)的AUV路徑規(guī)劃研究[J].東北師大學(xué)報(bào)(自然科學(xué)版),2025,57(1):

        53-62.(ZHANG Y B,GAO B P. AUV Path Planning Research Based on Deep Reinforcement Learning [J]. Journal of Northeast Normal University (Natural Science Edition),2025,57(1) : 53-62.) [11]董小剛,韓元元,秦喜文.基于深度確定性策略梯度算法的股票投資組合策略研究[J].東北師大學(xué)報(bào)(自然科 學(xué)版),2025,57(1): 29-34. (DONG XG,HAN Y Y, QIN X W. Research on Stock Portfolio Strategy Based on Deep Deterministic Policy Gradient Algorithm [J]. Journal of Northeast Normal University(Natural Science

        [12]YU L,ZHANG C R,JIANG J Y,et al. Reinforcement Learning Approach for Resource Allcation in Humanitarian Logistics [J]. Expert Systems with Applications, 2021,173:114663-1-114663-14.

        [13]LIANG J, ZHANG Z J,ZHI Y P. Multi-armed Bandit Approaches for Location Planning with Dynamic Relief Supplies Allocation under Disaster Uncertainty [J]. Smart Cities,2025,8(1): 5-1-5-29.

        [14]ASLAN S,DEMIRCI S. An Immune Plasma Algorithm with Q Learning Based Pandemic Management for Path Planning of Unmanned Aerial Vehicles [J]. Egyptian Informatics Journal,2024,26:100468-1-100468-19.

        [15]VAN HASSELT H. Double Q-Learning [J]. Advances in Neural Information Processng Systems,2010,2: 2613-2621.

        [16]VAN HASSELT H. Estimating the Maximum Expected Value: An Analysis of(Nested) Cross Validation and the Maximum Sample Average [EB/OL]. (2013-02-28)[2025-01-01]. https://arxiv.org/abs/1302.7175.

        [17]FOX R,PAKMAN A, TISHBY N. Taming the Noise in Reinforcement Learning via Soft Updates [EB/OL]. (2015-12-28)[2025-01-01]. https://arxiv.org/abs/1512.08562.

        [18]YU L N, ZHANG CR,YANG H S,et al. Novel Methods for Resource Allcation in Humanitarian Logistics Considering Human Suffering [J]. Computers Industrial Engineering,2018,119:1-20.

        [19]HUANG K,JIANG Y P,YUAN Y F,et al. Modeling Multiple Humanitarian Objectives in Emergency Response to Large-Scale Disasters [J]. Transportation Research Part E:Logistics and Transportation Review,2015,75: 1-17.

        [20]FAN JQ,WANG Z R,XIE Y C,et al. A Theoretical Analysis of Deep Q Learning [C]//Proceedings of the 2nd Conference on Learning for Dynamics and Control. [S.1.]: PMLR,202O: 486-489.

        [21] JIN C,ALLEN-ZHU Z,BUBECK S, et al. Is Q -Learning Provably Eficient? [EB/OL]. (2018-07-10) [2024-12-10]. https://arxiv.org/abs/1807.03765.

        [22] JANG B,KIM M,HARERIMANA G,et al. Q Learning Algorithms:A Comprehensive Classification and Applications [J]. IEEE Access,2019,7:133653-133667.

        [23]CLIFTON J,LABER E. Q Learning: Theory and Applications [J]. Annual Review of Statistics and Its Application,2020,7:279-301.

        [24]WATKINS C JC H, DAYAN P. Q-Learning [J]. Machine Learning,1992,8: 279-292.

        [25]李石磊,葉清,袁志民,等.在線深度強(qiáng)化學(xué)習(xí)探索策略生成方法綜述[J].機(jī)器人,2024,46(6):753-768. (LI S L,YE Q,YUAN Z M,et al. A Survey on Online Deep Reinforcement Learning Exploration Strategy Generation Methods[J].Robot,2024,46(6):753-768.)

        [26]SEMROV D,MARSETIC R, ZURA M,et al. Reinforcement Learning Approach for Train Rescheduling on a Single-Rrack Railway [J]. Transportation Research Part B: Methodological, 2O16,86: 250-267.

        [27]PAN L,CAI QP,MENG Q,et al. Reinforcement Learning with Dynamic Boltzmann Softmax Updates [C]// Proceedings of the Twenty-Ninth International Joint Conference on Artificial Inteligence.New York:ACM, 2020:1992-1998.

        [28]HAARNOJA T,TANG H,ABBEEL P,et al. Reinforcement Learning with Dep Energy-Based Policies [C]// International Conference on Machine Learning. [S.1.]: PMLR,2Ol7:1352-1361.

        (責(zé)任編輯:韓嘯)

        猜你喜歡
        分配動(dòng)作成本
        2021年最新酒駕成本清單
        河南電力(2021年5期)2021-05-29 02:10:00
        應(yīng)答器THR和TFFR分配及SIL等級(jí)探討
        遺產(chǎn)的分配
        一種分配十分不均的財(cái)富
        溫子仁,你還是適合拍小成本
        電影(2018年12期)2018-12-23 02:18:48
        績(jī)效考核分配的實(shí)踐與思考
        動(dòng)作描寫要具體
        畫動(dòng)作
        動(dòng)作描寫不可少
        非同一般的吃飯動(dòng)作
        久久夜色精品国产噜噜麻豆| 日韩有码在线一区二区三区合集| 亚洲中文字幕久久精品品| 亚洲精品久久一区二区三区777| 亚洲精品国精品久久99热一| 色综合色综合久久综合频道| 亚洲一区二区岛国高清| 亚无码乱人伦一区二区| 伊人久久大香线蕉av一区| 欧美成人www免费全部网站| 小草手机视频在线观看| 亚洲最新国产av网站| 男女后进式猛烈xx00动态图片| 久久永久免费视频| 一区二区三区熟妇人妻18| 华人免费网站在线观看| 中文乱码字慕人妻熟女人妻| 一区二区无码中出| 亚洲AV日韩AV永久无码电影| 久久久久久一本大道无码| 日本不卡视频一区二区| 伊人色综合久久天天五月婷| 免费国产交换配乱淫| 国产亚洲午夜高清国产拍精品不卡 | 亚洲av日韩av卡二| 边啃奶头边躁狠狠躁| 国产精品网站夜色| 日韩精品午夜视频在线| 日本熟妇美熟bbw| 国产96在线 | 亚洲| 日本肥老熟妇在线观看| 国产在线一区二区三区四区不卡| 欧洲熟妇色xxxx欧美老妇多毛| 91天堂素人精品系列全集亚洲| 国产高清自产拍av在线| 色与欲影视天天看综合网| 欧美成a人片在线观看久| 无码伊人久久大蕉中文无码 | 五月天国产成人av免费观看| 巨大欧美黑人xxxxbbbb| 丰满少妇一区二区三区专区 |