Research on the Optimization of Humanitarian Emergency Material Allocation Based on Reinforcement Learning
ZHANGJianjunYANGYundan ZHOU Yizhuo
(School of Economics and Management, Tongji University, Shanghai 2Ooo92,China)
Abstract: The efcient allocation of limited humanitarian aid supplies following major emergencies is a critical research topic,aiming to meet the material needs of affected areas while reducing the sufering of disaster victims. This paper addresses this issue by modeling a Mixed Integer Nonlinear Programming (MINLP) problem,which involves solving multi-period dynamic optimization allocation strategies.Reinforcement Learning (RL),as one of the two mainstream methods for current strategy exploration,is particularly suitable for dynamic resource allocation scenarios due to its strong scalability and adaptability to external dynamics through interaction with the environment and feedback signals. We employ the Dueling DQN algorithm to solve for the optimal policy,overcoming the overestimation of Q-values that has been a drawback in previous RL applications to humanitarian aid distribution. This approach more accurately estimates the action-value function for affcted regions. Additionally,the paper introduces a novel stochastic demand assumption,enhancing the model's realism and validity by better reflecting the actual conditions of disaster scenarios. The effectiveness of the proposed method is demonstrated using a numerical example based on the Ya'an earthquake,making this the first study to substantiate the optimization of emergency resource allocation using real data sources with RL. Comparative analysis shows that the Dueling DQN algorithm reduces the total cost by approximately 5% compared to traditional DQN methods, indicating a more effective reduction in the sufering of affected populations. This aligns with the“people-oriented”rescue principle of China and holds significant theoretical and practical implications for humanitarian-based emergencyresponses.
Key words: deep reinforcement learning; humanitarian; emergency supplies distribution
0 引言
在重大突發(fā)事件發(fā)生后,拯救生命、減輕受災民眾痛苦是災害救援的首要目標。災害爆發(fā)之后,受災民眾所遭受的痛苦往往由于醫(yī)療物資、水、食物等供應短缺而加劇,因此應急物資的迅速調集與分配是災害救援過程中的一個關鍵所在[。本文主要探討在供需失衡的情況下,如何將有限的物資高效、有效、公平地分配給最需要的受災地。
針對這一問題,國內外許多學者已經(jīng)進行了較多研究:Yu等人考慮了物資分配的效率、效益和公平性,構建多目標動態(tài)調配模型,以實現(xiàn)災后應急物資的有效調配和路徑優(yōu)化選擇方案。萬芳3從應急物資的公平分配角度入手,以最小化部署成本和最壞情況下的剝奪成本為目標函數(shù),構建物資分配的三階段魯棒優(yōu)化模型,從而優(yōu)化物資分配計劃。在這一過程中,隨著大數(shù)據(jù)技術的發(fā)展,應急物資分配研究開始利用多源數(shù)據(jù)進行決策支持。例如,F(xiàn)eng等人4利用地理信息系統(tǒng)(GIS)和遙感技術,結合社交媒體數(shù)據(jù),分析了災害發(fā)生后的物資需求分布,為物資分配提供了科學依據(jù)。同時,人工智能和機器學習技術在應急物資分配中的應用也日益增多。例如,Hasteer等人5開發(fā)了一種基于深度學習的物資需求預測模型,該模型能夠根據(jù)歷史數(shù)據(jù)和實時信息預測未來的物資需求,從而優(yōu)化物資分配計劃。
在本研究領域,應急物資分配優(yōu)化模型的求解是一個重要的研究熱點。學界提出了多種優(yōu)化求解方法,包括精確方法、啟發(fā)式方法、深度強化學習方法等。
精確方法雖能提供較優(yōu)解決方案,但存在著明顯缺點:計算過程通常耗時較長,難以滿足應急情景中的緊急性要求,并且效率低下、編程實現(xiàn)繁瑣[6-7]。目前,相關研究較多采用啟發(fā)式算法求解人道主義下應急物資分配問題8-10]。另一方面,雖然啟發(fā)式算法的速度有所提高,但是當外部環(huán)境狀態(tài)稍微變化時難以擴展到其他問題的應用中,需要重新設計或調整啟發(fā)式策略以適應新的情況,對動態(tài)資源分配問題的求解效果較差。
相比之下,深度強化學習算法十分適用于動態(tài)應急物資分配問題,既能實現(xiàn)長期回報最大化,又能在短期內求出最優(yōu)方案:智能體通過與環(huán)境的不斷交互和試錯,接收反饋信息來進行優(yōu)化決策。目前深度強化學習已應用在路徑優(yōu)化、庫存管理、裝箱配載等經(jīng)典運籌學問題[10]。
當前將重大突發(fā)事件下應急物資分配與強化學習相結合在一起的研究較少。Yu以配送成本、剝奪成本、公平懲罰成本加權和最小化為目標構建了人道主義下應急物資分配模型,開創(chuàng)性地提出用Q一Learning強化學習解決該問題,并通過與精確的動態(tài)規(guī)劃算法和貪心啟發(fā)式算法進行比較,驗證了Q一Learning算法的有效性和高效性。Fan[2在此基礎上提出用DQN深度強化學習算法求解Yu等人提出的人道主義應急物資分配問題,并通過與Q一Learming、貪心啟發(fā)式算法進行比較,驗證了DQN算法的有效性與高效性,進一步探索了強化學習求解人道主義下應急物資分配領域研究。
本文將在前人研究基礎上進行三類拓展:第一,多周期人道主義受災區(qū)域各時段需求隨機化,而非恒等的需求量,更加符合現(xiàn)實邏輯;第二,應用DuelingDQN深度強化學習算法對各時段的動作價值進行更精準建模求解,規(guī)避DQN算法、Q一Learning算法存在的Q值過高估計缺點;第三,代人真實重大突發(fā)事件案例,而非簡單假設數(shù)值,增強實驗結果的真實性、合理性。
1 問題描述與建模
1.1 問題描述
人道主義機構在展開救援工作時,重點關注如何在短時間內將最需要的救援資源分配給最需要的受災區(qū)域,這將涉及以下三個基本要素:
(1)時間要素:重大突發(fā)事件下的應急物資分配是一個多時期的問題,應急響應中心(簡稱ERC)應盡快制定多個時間段的資源分配計劃。根據(jù)“三天關鍵救援期”概念,本文將災后72小時劃分為6個等長的分配時間段,考慮一個應急響應中心ERC如何負責在6個時間段內將一定數(shù)額的救災物資分配給N個受災區(qū)域(簡稱IAs)。
(2)分配能力要素:這取決于應急響應中心ERC的物資儲備容量以及分配決策。由于災后條件較差,ERC的應急物資最大供應額限定為有限數(shù)量 C 個單位。ERC的決策集合
是指第t個時間段內各個受災區(qū)域IA的應急物資分配方案。
(3)人的要素(最關鍵):人道主義救援的目標是拯救生命,減輕受災地區(qū)所有幸存者的人類痛苦。通常,學界以效率(Efficiency)有效性(Effectiveness)和公平性(Equity)來評估人道主義物流的績效[13]。效率衡量的是人道主義救援在緊急應變過程中對于重要急救物資的快速響應能力,以可達交付成本進行量化;有效性強調人道主義救援結果,衡量救援行動對災民的幫助程度,剝奪成本可以評估災民因缺乏供給而遭受的痛苦;公平性指標則鼓勵在計劃周期結束時所有災民享有平等的服務,可以引人公平懲罰成本來表示不公平的結果。本文使用可達性而不是距離來衡量交付成本。這是因為在災難發(fā)生后,充當應急響應中心與受災區(qū)域之間的橋梁道路會受到一定程度的破壞,故配送成本已經(jīng)不能直接用距離來衡量。度量有效性、公平性的剝奪成本函數(shù)、公平懲罰成本函數(shù)的計算方法會使得模型變?yōu)榉蔷€性,這令模型求解增添了難度。
1.2 假設
(1)ERC在各個分配時段的物資容量是恒定不變的:當前分配時段所消耗掉的物資數(shù)量會在該時段結束時由ERC的自動補充機制進行瞬間填充。
(2)對于任意一個IA而言:在災害發(fā)生下的72小時內總需求 為已知常數(shù),但各個時段物資需求
是變化未知的,故將每個IA在6個時段的應急物資需求隨機化。這是本文的創(chuàng)新點之一,摒棄了以往學者將某受災區(qū)域各個時間段的需求恒等不變的做法,更加符合現(xiàn)實邏輯。
(3ERC分配給每個IA的應急物資將在一段時間內到達:在某個時間段開始時分配一定數(shù)量的物資給IAs,則供應品將在該時間段結束時交付。
(4)在最初時刻,每個IA的狀態(tài)均為0:代表即無多余物資存儲,也無物資需求。
1.3 應急物資分配模型構建
式(1)表示人道主義下應急物資分配的優(yōu)化目標,即最小化救援總成本。其中的 表示三種成本的權重,為簡便起見,本文設
。式(1)第一部分是基于可達性的交付成本,可以等效為應急物資的物流成本
,其中
為ERC在第 t 個時間段發(fā)送給第 i 個IA的應急物資數(shù)量,
為從ERC運輸物資到第 i 個IA的單位交付成本。式(1)的第二部分是基于起始狀態(tài)的剝奪成本(簡稱S2DC),評估緊急供應分配決策過程的有效性,通常采取式(2)進行量化,記為 ${\cal T}({\cal S}_{i,t})_{\mathfrak{c}}$ 其中,
表示第 i 個IA在第 t 個時間段內的期初狀態(tài),數(shù)值意義上表現(xiàn)為該時間段內期初凈需求:
0代表IA當前正處于物資缺乏的惡劣情況; $\boldsymbol{S}_{i,t}\leqslant0$ 意味著IA當前時間段物資較為豐富,災民不存在因缺乏供給而遭受的痛苦。式(2)中的L為單個時間段的長度,a和b均為剝奪參數(shù)。式(1)的第三部分是基于終端的公平懲罰成本(簡稱FPC),評估應急規(guī)劃期結束后某個IA里的災民是否會處于不利的、不合理條件的公平性,防止災民在最后一個救援時間段結束時受到不公平待遇,本文以
表示FPC,見式(3),采用的與式(2)計算相同的原理。
本文物資分配模型以下三個約束條件:式(4)是容量約束,在第 t 個時間段內,分配給各個IA物資的數(shù)量之和小于等于ERC的物資存儲容量。式(5)是狀態(tài)轉換約束,第 i 個IA在第 t 個時間段內狀態(tài)為 ,需求為
,接收
個物資,其狀態(tài)會減少
個單位以構成下一階段的狀態(tài)
式(6)是決策變量
的值域約束,需要取非負整數(shù)。
2 深度強化學習算法設計
針對上述混合整數(shù)非線性規(guī)劃MINLP的多期物資分配順序決策問題,本文引入深度強化學習DRL方法來求解。DRL在求解隨機動態(tài)多階段序貫決策問題方面具備一定優(yōu)勢,可以將復雜的序貫決策問題建模為馬爾科夫決策過程,適用多周期的災后人道主義物資分配研究。
2.1馬爾科夫過程(MDP)建立
馬爾科夫決策過程MDP通常用于解釋強化學習任務,即定義狀態(tài)、動作、狀態(tài)轉移函數(shù)、獎勵機制。
單智能體:選定的應急響應中心ERC,必須做出分配決策(動作)來拯救IAs(環(huán)境)。
·環(huán)境:所有受災區(qū)域IAs共同組成環(huán)境,包含IA1區(qū)域、IA2區(qū)域、…、IAn區(qū)域。
·狀態(tài):反映第 t(t=1,2,?s,6) 個時刻受災區(qū)域IAs應急物資供應短缺程度。物資短缺程度越高,狀態(tài)數(shù)值越大。狀態(tài)表示為 ,由N維向量構成,第
維元素
表示第 i 個受災區(qū)域IA在該時刻的狀態(tài),數(shù)值上等于凈需求。本文假設在時間范圍開始時,所有受災區(qū)域IA還未經(jīng)歷物資短缺苦難,即在第一個時刻,所有受影響的地區(qū)的狀態(tài)設為0,即
。
·動作:代表智能體(即應急響應中心ERC)在第 t 個時刻做出的分配決策。動作
,同樣也是由|N維向量構成,
代表ERC在該時刻分配給第 i 個受災區(qū)域IA的應急物資數(shù)量。
·狀態(tài)轉移函數(shù):本文構建運籌模型時已清晰定義,參考公式(5)即可。
?獎勵: 代表智能體在狀態(tài)
下選擇動作
所獲得的回報。上文可知,本文提出的人道主義應急物資分配問題以最小化總成本為優(yōu)化目標,包括基于可達性的交付成本AC[即
基于起始狀態(tài)的剝奪成本SSDC[即
、基于終端的公平懲罰成本FPC[即 $\phi(S_{7})\]_{\circ}$ 然而,獎勵值卻不是簡單地等于AC + SSDC + FPC:第一,三種成本并非全都貫穿于整個應急物資響應時間段,故需要分時間段討論具體獎勵形式;第二,強化學習以最大化獎勵為訓練目標,故將成本調整為其負數(shù),使得本文優(yōu)化目標與獎勵一致,均希望總成本的負值最大化。
首先在 t=1 的時刻,獎勵函數(shù)需要考慮交付成本AC、當前階段的S2DC以及下一階段的S2DC;其次在 的時刻,獎勵函數(shù)只需要考慮交付成本AC、當前階段的S2DC即可;最后在 t=6 的時刻,獎勵函數(shù)需要考慮FPC而不是S2DC(此階段是應急物資分配規(guī)劃期的終端),并且還需要考慮AC(應急物資運輸存在于所有階段)。詳情見公式(7)-(9):
綜上,智能體在每個時刻 t=1,2,3,4,5,6 均與環(huán)境產(chǎn)生交互,從而得到完整的序列或軌跡trajectory :
下圖展示了智能體一環(huán)境的具體交互過程:
2.2 DuelingDQN算法原理
2.2.1 (204號 Q -Learning算法
動作價值函數(shù) 表示在狀態(tài)
執(zhí)行動作
并在后續(xù)執(zhí)行策略 π 所得到的累計折扣獎勵,記為 Q 值,公式如下,其中
代表即時獎勵,
為折扣率:
Q一Learning算法在于用動作價值函數(shù)來定義強化學習RL的目標,即每個狀態(tài)下采取使得其價值最大的行動,則 為當下獎勵與帶有折扣的最大未來獎勵之和:
Q-Learming算法需要在每個時間步更新 Q 值,公式如下,其中 代表學習率:
2.2.2DQN深度強化學習算法
Q -Learning算法只適合處于小樣本容量任務,缺乏泛化能力。面對大型多維離散空間的復雜環(huán)境,往往利用值函數(shù)近似原理 $Q\left(s_{t},a_{t};\theta\right)\approx Q^{*}\left(s_{t}$ ,引入深度神經(jīng)網(wǎng)絡以解決這一問題,這便是DQN算法(Deep $\mathrm{\DeltaQ}$ -Networks):神經(jīng)網(wǎng)絡DNN將狀態(tài)作為輸入,輸出每個動作對應的 Q 值,并為智能體選擇 Q 值最大的動作;在每次迭代中,通過Adam優(yōu)化器更新參數(shù)。DQN算法的 Q 值更新過程如下,其中 θ 代表神經(jīng)網(wǎng)絡的參數(shù):
損失函數(shù)定義為 Q 的預測值與實際值之間的MSE誤差,以下為計算公式:
2.2.3DuelingDQN深度強化學習算法
本文的創(chuàng)新點之一在于,提出DuelingDQN深度強化學習算法求解多期應急物資分配方案,能夠克服以往學者采取DQN、Q一Learning算法導致的過高估計 Q 值這一缺點,更加精確地對分配動作進行建模求解。
DQN算法存在致命缺點:對狀態(tài)動作價值的過高估計,這是因為其使用下一時刻的最優(yōu)動作價值來計算,通常會給出一個狀態(tài)動作的估計上限。如果訓練發(fā)散程度較高,對上限的估計會存在一定偏差,需要對 Q 值進行精細求解。
神經(jīng)網(wǎng)絡輸出的 代表狀態(tài)一動作對價值,既和狀態(tài)state有關,又和action有關,但這兩種“有關\"的程度、影響力不一樣,競爭Q網(wǎng)絡DuelingDQN算法可以反映出這兩方面差異,從而更加準確地評估動作價值,屬于DQN的改進算法。
DuelingDQN算法從網(wǎng)絡結構上改進了DQN,神經(jīng)網(wǎng)絡不再直接輸出動作價值函數(shù),而是直接生成狀態(tài)價值函數(shù)、優(yōu)勢函數(shù),二者之和才為動作價值函數(shù),即:
其中, θ 為狀態(tài)價值函數(shù)和優(yōu)勢函數(shù)共享的網(wǎng)絡參數(shù),一般用在用于提取特征的前幾層神經(jīng)網(wǎng)絡中,而 α 和 β 分別為狀態(tài)價值函數(shù)和優(yōu)勢函數(shù)的參數(shù); 為狀態(tài)價值函數(shù),
為該狀態(tài)下采取不同動作的優(yōu)勢函數(shù),表示采取不同動作的差異性;再這樣的算法模型下,神經(jīng)網(wǎng)絡不再直接輸出 Q 值,而是訓練神經(jīng)網(wǎng)絡的最后兩個分支,分別輸出狀態(tài)價值函數(shù)、優(yōu)勢函數(shù),再求和得到 Q 值。下圖是其網(wǎng)絡結構示意圖:
式(15)存在對于v值和A值建模不唯一性的問題。例如:對于同樣的 Q 值,如果將 值加上任意大小的常數(shù) C ,再將所有 A 值減去 C ,則得到的 Q 值依舊不變,這就導致訓練的不穩(wěn)定性。為了解決這一問題,DuelingDQN強制最佳動作的優(yōu)勢函數(shù)實際輸出為0,即:
實際代碼中,通常采取這一聚合方法:用平均化消除max算子,即:
其中 代表該狀態(tài)下可選動作的數(shù)量。
綜上,相對于DQN算法,DuelingDQN對動作價值函數(shù)進行了更合理、更精準求解:將狀態(tài)動作值函數(shù)分解后,每一部分的結果都具有實際的意義,可以從中挖掘出更多有價值的信息,有助于科學評估在某個狀態(tài)下采取各個動作時產(chǎn)生的價值,從而選出最佳動作。這也是本文為何選擇DuelingDQN算法的最主要原因,也是本文區(qū)別于其他用強化學習求解應急物資分配方案的文章的特點之一。
與此同時,本文提出隨著軌跡數(shù)量變化而變化的動態(tài)o一greedy思想,在最優(yōu)化利用與多元性探索之間進行平衡:隨著軌跡數(shù)量的增加,探索率 逐漸下降,這會使得智能體可以由早期的多元探索變?yōu)楹笃诘淖顑?yōu)利用。
定義如下:
其中,k代表當前軌跡數(shù)量, 代表總的軌跡數(shù)量。
2.3 DuelingDQN算法設計
詳情流程見表1。
3 算例實驗與分析
3.1 數(shù)據(jù)說明
本文以2013年的4.20雅安地震為背景構造算例進行基于DuelingDQN算法的應急物資分配方案求解。選取康定市的物資儲備庫作為應急響應中心ERC,具體信息見表2;選取寶興縣、雅安市等八個受災區(qū)域IAs,具體信息見表3:
注:儲備量、需求量數(shù)據(jù)來自論文《震后考慮道路損毀的應急物資分配一運輸模型》。
針對帳篷這類數(shù)量大、重量輕的應急物資,實際救援情況中通常以捆裝形式進行分配[14,故本文將1000頂帳篷視為一捆應急供應品,從這一角度討論ERC有多少捆應急物資、各個IA需要多少捆應急物資:
根據(jù)關鍵假設1可知,ERC在每個救援時間段的物資容量均為 c=10 ;各個受災區(qū)域IA1、IA2、….IA8在\"三天救援關鍵期\"的總需求值分別為
,按照關鍵假設2本文將隨機化8個受災區(qū)域在6個時間段的物資需求,這是本文的創(chuàng)新點之一,見下表:
本文參考Pérez一Rodriguez學者的做法[15],假設運輸成本為50元每小時,重大突發(fā)災害事件發(fā)生后的ERC到各個受災區(qū)域IA的運輸時間是平常運輸時間(見表5)的兩倍,故各個受災區(qū)域的單位交付成本分別為
3.2 參數(shù)設置
本文基于Python3.1O語言,通過Pytorch搭建所提出的DuelingDQN算法的網(wǎng)絡結構并進行訓練,訓練所使用的CPU硬件為 3.1GHz ,顯卡內存為16GB。
參考Mutlu等學者[16],本文將剝奪參數(shù) a,b 分別設為 2.04,0.24 。DuelingDQN深度強化學習算法的其余參數(shù)配置見下表:
3.2.1 探索因子
本文采取式(15)生成隨著軌跡變化而逐漸減小的探索因子 ,這可以使得智能體在最優(yōu)化利用與多元性探索之間達到平衡。另外,也有不少研究將
設為一個恒定值0.5,這也是一種
-greedy策略。對此,本文就這兩種策略進行比較,結果如圖3所示:
從圖3可以看出,采取式(15)策略在獎勵收斂到最優(yōu)值方面優(yōu)于 的策略:(a)圖不僅收斂到最優(yōu)并且可以保持穩(wěn)定,(b)圖的獎勵值是不穩(wěn)定的,波動幅度較大。因此本文采取(a圖所對應的
greedy策略。
3.2.2學習率 α
α 代表智能體利用信息的效率,取值越大代表智能體在下一步更新 Q 值的幅度大,故深度強化學習中 α 取值一般不超過0.1,以防止過大的取值所帶來的額外干擾噪聲。為確定最佳學習率 α 的取值,本文將 α 的值從0逐漸增大到1;為減少隨機性的影響,對每個 α 值進行五組實驗,如表7所示;此外,繪制圖4以可視化回合獎勵值變化,更清晰地呈現(xiàn)實驗平均表現(xiàn)。
如表7所示,當 時,DuelingDQN算法收斂到最優(yōu)回合獎勵值。由圖4可知, α 值越大,算法越容易達到最優(yōu)值。然而,較大的 α 意味著更新的幅度較大,容易產(chǎn)生對損失函數(shù)產(chǎn)生震蕩。因此,本文將學習率 α 設為 0.01 。
3.2.3 獎勵衰減率γ
獎勵衰減率γ代表未來獎勵的現(xiàn)值:當γ接近于1時,代表算法更加注重考慮未來獎勵;當γ接近于0時,代表算法不太關注未來獎勵。通常情況下,獎勵衰減率γ取值在0.90到1之間。與上小節(jié)類似,本文對各個γ值進行五組實驗,其中 0.90,0.95,0.98},結果如表8所示,每組結果取平均值,如表8最后一列所示。同樣的,為了更清晰地呈現(xiàn)隨著γ變動下的最終回合獎勵平均值變化,本文繪制了圖5:
如表8所示,當 時,Dueling DQN算法收斂到最優(yōu)回合獎勵值。由圖5可知,γ值越大,算法越容易達到最優(yōu)值。為了平衡未來獎勵與即時獎勵,本文將γ設為0.95。
3.3 實驗結果
在上節(jié)所探索出的最優(yōu)超參數(shù)配置下,本文將對實驗組DuelingDQN算法與對照組DQN算法進行比較,分別使用兩種算法在同一仿真環(huán)境中進行20000回合的應急物資分配方案求解實驗,相關結果如下所示。
強化學習算法在于通過智能體不斷地從環(huán)境中獲得獎勵(本文將總成本的負數(shù)設為獎勵),以訓練行為策略。從圖6、圖7可知,DuelingDQN算法下的回合獎勵值收斂到一8604.06,DQN算法下的回合獎勵值收斂到—9090.13,即DuelingDQN算法所獲得的累計獎勵更高,應急物資分配方案的總成本更低,證明了該改進DQN算法優(yōu)于傳統(tǒng)的DQN算法。
綜上,72小時內最優(yōu)應急物資分配總成本為8604.06元人民幣,分配方案明細為:在第一個供給階段 t=1 時,分配給受災區(qū)域IA1的物資量 為1,分配給受災區(qū)域IA2的物資量
為3,同理
、
、
;同理在 t=2 時,
;在 t=3 時,
(204號
;在 t=4 時,
、(204號
;在 t=5 時,
;在 t=6 時,
0
4結語
本文針對重大突發(fā)事件后的人道主義援助物資分配問題,構建了一個多周期的混合非整數(shù)線性規(guī)劃(MINLP)模型,研究重點在于如何高效、公平且有效地分配物資,以最小化總成本并減輕災民的痛苦。首先引入需求隨機化的概念,使得模型更加貼合實際受災情況,這是第一個創(chuàng)新點;其次采用基于Q學習的DuelingDQN強化學習算法來求解最優(yōu)分配策略,該算法通過改進網(wǎng)絡結構,增加了分支以量化不同動作的優(yōu)勢值,有效規(guī)避了 Q 值的過高估計,提高了求解動作價值函數(shù)的精確度,這是第二個創(chuàng)新點。實驗部分以雅安地震為背景,通過真實數(shù)據(jù)驗證了DuelingDQN算法的效能,結果顯示該算法相比傳統(tǒng)DQN方法能降低總成本約5% ,顯著提升了物資分配的效率和效果。
本文仍存在一些局限性:模型假設所有受災區(qū)域的需求都是隨機且獨立的,這在實際情況中可能并不總是成立,未來的研究可以考慮引入更復雜的依賴關系模型,以進一步提高模型的準確性和適用性。此外,雖然DuelingDQN算法在實驗中表現(xiàn)出色,但其在不同類型災害和不同規(guī)模物資分配中的泛化能力仍需進一步驗證,期望未來通過更多的實證研究和算法優(yōu)化,能夠為應急物資分配提供更加科學、高效的解決方案,以更好地服務于人道主義救援工作。
參考文獻
[1]YANEZ-SANDIVARI L,CORTeS C E,REY P A.Humanitarian logistics and emergenciesmanagement:Newper proach management[J]. International Jourmal of Disaster Risk Reduction,2021(52):101952.
[2]YU L, ZHANG C,YANG H, et al. Novel methods for resource allocation in humanitarian logistics considering human suffering[J]. Computers amp;. industrial engineering,2Ol8(119): 1-20.
[3] 萬芳.需求和捐贈不確定條件下W地區(qū)應急物資的分配問 題研究[D].濟南:山東大學,2023.
[4] FENG J-R,GAIW-M,LIJ-Y,etal.Location selection of emergency supplies repositories for emergency logistics management:A variable weighted algorithm[J].Journal of Loss Prevention in the ProcessIndustries,2020(63):104032.
[5]HASTEER N, SINDHWANI R, BEHL A, et al. Exploring theinhibitors for competitive AI software development through cloud driven transformation[J].Annals of Operations Research,2023:1-43.
[6] NOYANN,BALCIKB,ATAKANSJTS.A stochastic optimization model for designing last mile relief networks[J]. Transportation Science,2016,50(3):1092-113.
[7] YUL,YANG H,MIAO L,et al.Rollout algorithms for resource allocation in humanitarian logistics[J]. Iise Transac tions,2019,51(8): 887-909.
[8] 黃舒.突發(fā)事件下應急物資多階段分配問題研究[D].重慶: 重慶交通大學,2023.
[9] 楊丹寧.基于受災點應急需求分析的地震初期應急物資分配 問題研究[D].北京:北京交通大學,2023.
[10] 李茹楊,彭慧民,李仁剛,等.強化學習算法與應用綜述[J]. 計算機系統(tǒng)應用,2020,29(12):13-25.
[11] YUL,ZHANG C, JIANG J,et al. Reinforcement learming approach for resource allocation in humanitarian logistics[J]. Expert Systems with Applications,2021(173):114663.
[12] FANJ,CHANG X,MISIC J,et al.DHL: Deep reinforcement learning-based approach for emergency supply distribution in humanitarian logistics[J]. Peer-to-Peer Networking and Applications,2022,15(5): 2376-89.
[13] RABBANI M, OLADZAD-ABBASABADY N, AKBARIANSARAVI N J JO I,etal. Ambulance routing in disaster re sponse considering variable patient condition:NSGA-II and MOPSO algorithms[J]. Journal of Industrial amp; Management Optimization,2022,18(2).
[14] 董迪.人道主義應急救援物資供應與傷員醫(yī)療救援建模研 究[D].濟南:濟南大學,2022.
[15] PéREZ-RODRiGUEZ N, HOLGUiN-VERAS J J T S. Inventory-allocation distribution models for postdisaster humanitarian logistics with explicit consideration of deprivation costs [J]. Transportation Science,2016, 50(4): 1261-85.
[16] PRADHANANGA R, MUTLU F, POKHAREL S, et al. An integrated resource allocation and distribution model for pre-disaster planning[J]. Computersamp;Industrial Engineering, 2016(91): 229-38