摘 要:針對(duì)消防設(shè)施選址問(wèn)題,構(gòu)建考慮時(shí)效性、市民等待救援的焦急心理和建設(shè)成本的三目標(biāo)消防設(shè)施選址模型,以實(shí)現(xiàn)更科學(xué)的消防設(shè)施布局。鑒于該問(wèn)題的NP難特性,提出基于算子學(xué)習(xí)的多目標(biāo)深度強(qiáng)化學(xué)習(xí)模型(multi-objective deep reinforcement learning,MDRL)。設(shè)計(jì)多種優(yōu)化算子作為強(qiáng)化學(xué)習(xí)的動(dòng)作空間,訓(xùn)練策略網(wǎng)絡(luò)以選擇最佳優(yōu)化算子來(lái)改進(jìn)解決方案。針對(duì)多目標(biāo)問(wèn)題,設(shè)計(jì)基于優(yōu)勢(shì)差異的方法(MDRL-AD)和基于支配性評(píng)估的方法(MDRL-DE)。采用四種規(guī)模的測(cè)試算例及實(shí)際案例進(jìn)行數(shù)值實(shí)驗(yàn),將MDRL和改進(jìn)的NSGA-Ⅱ、MOPSO、L2I算法進(jìn)行比較,并利用Hypervolume指標(biāo)、Spacing指標(biāo)、Ω指標(biāo)、IGD指標(biāo)對(duì)算法性能進(jìn)行評(píng)估。實(shí)驗(yàn)結(jié)果表明,MDRL-AD方法更適用于求解小規(guī)模算例,MDRL-DE方法則在求解大規(guī)模和超大規(guī)模算例時(shí)相比其他算法優(yōu)勢(shì)明顯。MDRL在非劣解集的收斂性和均勻性方面明顯優(yōu)于其他對(duì)比算法,為消防設(shè)施布局規(guī)劃提供了一種有競(jìng)爭(zhēng)力的解決方案。
關(guān)鍵詞: 深度強(qiáng)化學(xué)習(xí); 算子學(xué)習(xí); 優(yōu)化算子; 多目標(biāo)優(yōu)化; 消防設(shè)施選址問(wèn)題
中圖分類(lèi)號(hào): TP183 文獻(xiàn)標(biāo)志碼: A 文章編號(hào): 1001-3695(2025)02-021-0477-09
doi: 10.19734/j.issn.1001-3695.2024.06.0276
Multi-objective deep reinforcement learning model based on operator
learning for solving fire facility location problems
Liu Yong’, Liu Yuxuan, Ma Liang
( Business School, University of Shanghai for Science amp; Technology, Shanghai 200093, China)
Abstract:To address the fire station location problem considering timeliness, citizens’ anxiety during rescue waits, and construction costs, it developed a three-objective model to achieve a more scientific layout of firefighting facilities. Given the NP-hard nature of this problem, it introduced operator learning to expand the action space. It trained policy networks to select the optimal operators, using two methods: MDRL-AD and MDRL-DE, tailored for different objectives. Through numerical experiments on various scales and real-world cases, it compared MDRL with the improved NSGA-Ⅱ, MOPSO, and L2I algorithms. It evaluated the algorithm performance using Hypervolume, Spacing, Ω-dominance, and IGD metrics. The results demonstrate that MDRL-DE performs notably well in large and very large-scale scenarios, offering competitive solutions in the convergence and uniformity of non-dominated solution sets for fire facility layout planning.
Key words:deep reinforcement learning; operator learning; optimization operators; multi-objective optimization; fire facility siting problem
0 引言
火災(zāi)作為一種常見(jiàn)的突發(fā)性災(zāi)害,救援不及時(shí)可能會(huì)造成巨大的人員傷亡和財(cái)產(chǎn)損失,特別是在人口密集區(qū)域和商業(yè)中心,加強(qiáng)對(duì)火災(zāi)的應(yīng)急響應(yīng)能力十分重要。截至2024年上半年,全國(guó)共接報(bào)火災(zāi)45萬(wàn)起、亡947人、傷989人、直接財(cái)產(chǎn)損失26.8億元。因此,城市建設(shè)中需要重點(diǎn)考慮消防設(shè)施的布局,確保其能夠覆蓋到可能發(fā)生火災(zāi)的各個(gè)地區(qū),并且能夠在火災(zāi)發(fā)生時(shí)迅速響應(yīng)并展開(kāi)救援行動(dòng),保障城市居民的生命和財(cái)產(chǎn)安全。目前,國(guó)內(nèi)外對(duì)于消防設(shè)施選址問(wèn)題進(jìn)行了大量研究。許秋艷等人[1]使用陰陽(yáng)平衡啟發(fā)式算法求解了考慮時(shí)效性和成本的雙目標(biāo)消防救援站選址模型。賀元驊等人[2]建立了基于熵權(quán)直覺(jué)模糊拓展的機(jī)場(chǎng)消防站選址模型。王寧等人[3]同時(shí)考慮消防站均衡性和消防效益建立了多目標(biāo)消防站選址模型。叢亦天[4]以微型消防站選址問(wèn)題為研究對(duì)象,建立了需求點(diǎn)到微型消防站最大距離最小的選址模型。Jing等人[5]考慮了服務(wù)覆蓋率和可訪(fǎng)問(wèn)性,以及現(xiàn)有站點(diǎn)的影響,提出了一種融合覆蓋率和中位數(shù)目標(biāo)的雙目標(biāo)優(yōu)化模型。Yang等人[6]充分考慮來(lái)自不同火災(zāi)風(fēng)險(xiǎn)類(lèi)別地區(qū)的設(shè)施需求,建立了最小化建設(shè)成本和最小化火災(zāi)損失模型。Erden等人[7]結(jié)合需求匹配度模型制定了新增消防站優(yōu)化布局方案, 減少了應(yīng)急救援的響應(yīng)時(shí)間。
消防設(shè)施選址問(wèn)題屬于經(jīng)典的組合優(yōu)化問(wèn)題,且為NP難問(wèn)題[3]。求解NP難問(wèn)題的傳統(tǒng)方法主要分為精確方法和啟發(fā)式算法。隨著問(wèn)題規(guī)模的增大,精確算法的計(jì)算時(shí)間復(fù)雜度急劇增加,因此更多采用啟發(fā)式算法求解大規(guī)模問(wèn)題以獲得近似最優(yōu)解。然而當(dāng)前的啟發(fā)式優(yōu)化算法仍存在一些局限性,例如搜索過(guò)程可能陷入局部最優(yōu)解,導(dǎo)致算法求解精度下降;在高維場(chǎng)景下,算法搜索空間的擴(kuò)展困難,導(dǎo)致算法的收斂速度緩慢,計(jì)算時(shí)間過(guò)長(zhǎng)。
近年出現(xiàn)了許多通過(guò)深度強(qiáng)化學(xué)習(xí)來(lái)對(duì)NP難問(wèn)題進(jìn)行求解的方法[8]。相較于傳統(tǒng)方法,深度強(qiáng)化學(xué)習(xí)具有快速求解、支持問(wèn)題規(guī)模更大、模型的泛化能力強(qiáng)的優(yōu)點(diǎn)。在最近的研究成果中,Costa等人[9]提出了基于深度強(qiáng)化學(xué)習(xí)改進(jìn)啟發(fā)式算法,通過(guò)Transformer網(wǎng)絡(luò)訓(xùn)練2-opt的優(yōu)化方式并應(yīng)用于求解TSP。Kool等人[10]提出了基于注意力機(jī)制以及指針網(wǎng)絡(luò)的模型,并利用帶有基準(zhǔn)的策略梯度算法訓(xùn)練網(wǎng)絡(luò),實(shí)驗(yàn)中利用該模型有效地求解了包括VRP在內(nèi)的多個(gè)組合優(yōu)化問(wèn)題,該網(wǎng)絡(luò)結(jié)構(gòu)也是目前求解組合優(yōu)化較為高效的深度強(qiáng)化學(xué)習(xí)方法。在此基礎(chǔ)上,許多學(xué)者開(kāi)始使用深度強(qiáng)化學(xué)習(xí)端到端的方法求解選址問(wèn)題。王中等人[11]提出了基于改進(jìn)圖注意力網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)模型來(lái)求解公共設(shè)施服務(wù)選址問(wèn)題。梁浩健[12]通過(guò)將貪婪方法和圖卷積網(wǎng)絡(luò)模型結(jié)合,提出了一種端到端的方法用于直接求解p-中心選址問(wèn)題。Drori等人[13]利用神經(jīng)網(wǎng)絡(luò)求解多種圖組合優(yōu)化問(wèn)題,并且提出的模型具有從隨機(jī)點(diǎn)訓(xùn)練泛化到真實(shí)城市位置中的能力。Li等人[14]利用深度強(qiáng)化學(xué)習(xí)的端到端方法求解了最小頂點(diǎn)覆蓋選址問(wèn)題,該模型能直接輸出所有選擇節(jié)點(diǎn)的概率,取代了以往深度強(qiáng)化模型逐步構(gòu)造解的方式。
深度強(qiáng)化學(xué)習(xí)改進(jìn)的局部搜索方法是近年來(lái)興起的另外一類(lèi)方法,該方法利用深度強(qiáng)化學(xué)習(xí)算法對(duì)搜索規(guī)則進(jìn)行學(xué)習(xí),其優(yōu)化效果可以超越傳統(tǒng)的優(yōu)化算法。Lu等人[15]提出了一種learning to improve(L2I)基于算子的改進(jìn)方法,該算法總體流程采用局部搜索算法,算法選擇算子對(duì)當(dāng)前解改進(jìn)或者擾動(dòng)。盛佳浩等人[16]利用帶有禁忌搜索的深度強(qiáng)化學(xué)習(xí)算法,通過(guò)局部搜索的方式求解的多維背包問(wèn)題,驗(yàn)證了深度強(qiáng)化學(xué)習(xí)求解0-1問(wèn)題的可行性和有效性。伍康等人[17]使用圖神經(jīng)網(wǎng)絡(luò),通過(guò)鄰域搜索的方式,有效求解了CVRP。
上述研究為消防設(shè)施選址問(wèn)題提供了很多解決方案,但是在問(wèn)題建模中,很少有研究考慮到市民等待救援的心理因素,求解多目標(biāo)選址問(wèn)題的文獻(xiàn)相對(duì)較少,并且缺少綜合考慮時(shí)效性、市民等待救援的焦急心理和建設(shè)成本的研究。因此,本文考慮市民心理因素, 建立綜合考慮時(shí)效性、市民等待救援的焦急心理和建設(shè)成本的多目標(biāo)選址模型。對(duì)于求解算法,目前大多數(shù)研究都是使用傳統(tǒng)的啟發(fā)式算法求解消防站選址問(wèn)題,而且多數(shù)研究都集中在中小規(guī)模,小規(guī)模問(wèn)題并不能很好地應(yīng)用到實(shí)際問(wèn)題當(dāng)中。另外通過(guò)上述文獻(xiàn)可知,深度強(qiáng)化學(xué)習(xí)算法可以有效求解0-1編碼的組合優(yōu)化問(wèn)題,但是目前深度強(qiáng)化學(xué)習(xí)求解選址問(wèn)題的文獻(xiàn)都集中在端到端方法,基于局部搜索方法求解選址問(wèn)題的研究很少,并且大多數(shù)深度強(qiáng)化學(xué)習(xí)研究都集中在求解單目標(biāo)問(wèn)題,對(duì)于求解大規(guī)模多目標(biāo)問(wèn)題缺少比較有效且快速的方法。針對(duì)該問(wèn)題,提出一種算子自適應(yīng)選擇的多目標(biāo)深度強(qiáng)化學(xué)習(xí)模型(MDRL),通過(guò)對(duì)不同規(guī)模的算例和實(shí)際案例進(jìn)行求解,并與其他算法進(jìn)行對(duì)比實(shí)驗(yàn)。
1 多目標(biāo)消防設(shè)施選址模型
1.1 問(wèn)題描述
消防設(shè)施選址問(wèn)題的首要考慮是救援的到達(dá)時(shí)間。在火災(zāi)發(fā)生的緊急情況下,每一秒都至關(guān)重要,合理的消防設(shè)施布局可以縮短救援時(shí)間,提高救援效率。其次,長(zhǎng)時(shí)間等待救援會(huì)增加市民心理壓力,可能會(huì)引發(fā)恐慌和秩序混亂,甚至導(dǎo)致踩踏等事故發(fā)生。因此,將市民焦急心理程度作為模型目標(biāo),用sigmoid函數(shù)模擬,市民等待時(shí)間越長(zhǎng),焦急心理程度越高,通過(guò)優(yōu)化消防設(shè)施布局使市民焦急心理程度最小化,有助于維護(hù)秩序和社會(huì)的穩(wěn)定,增強(qiáng)公眾對(duì)政府和消防部門(mén)的信任度。另外,消防設(shè)施建設(shè)過(guò)多不僅會(huì)占用大量空間,而且會(huì)花費(fèi)大量成本造成資源浪費(fèi),所以將消防設(shè)施建設(shè)總成本最小化作為模型的第三個(gè)目標(biāo)。本文將當(dāng)前已建設(shè)的消防設(shè)施加入模型進(jìn)行考慮,已有消防站本身就能滿(mǎn)足一部分應(yīng)急需求。考慮到一些新城區(qū)基礎(chǔ)設(shè)施建設(shè)剛剛起步,消防設(shè)施不足以滿(mǎn)足全部需求,所以需要新增消防設(shè)施。新增消防設(shè)施分為消防站和微型消防站兩類(lèi)。消防站覆蓋范圍廣響應(yīng)速度快,但是建設(shè)成本高,占地面積大;微型消防站部署更加靈活,成本低占地小,但是覆蓋范圍小,響應(yīng)速度慢。所以要根據(jù)兩種消防設(shè)施的特點(diǎn)選擇合適的進(jìn)行建設(shè)。
根據(jù)以上問(wèn)題描述,考慮已有消防設(shè)施的救援能力和兩種不同類(lèi)型消防設(shè)施的特點(diǎn),建立綜合時(shí)效性、心理因素、經(jīng)濟(jì)性的多目標(biāo)消防設(shè)施選址模型。
1.2 模型構(gòu)建
構(gòu)建的選址模型所需的參數(shù)和決策變量及其相應(yīng)的符號(hào)解釋?zhuān)绫?和2所示。
根據(jù)以上符號(hào)定義,構(gòu)建的綜合考慮時(shí)效性、市民心理和成本的三目標(biāo)消防設(shè)施選址模型為
其中:目標(biāo)式(1)表示最長(zhǎng)應(yīng)急到達(dá)時(shí)間最小化;目標(biāo)式(2)表示市民焦慮心理總和最小化;目標(biāo)式(3)表示消防設(shè)施總建設(shè)成本最小化;式(4)表示應(yīng)急需求點(diǎn)需要的消防設(shè)施數(shù)量約束;式(5)表示應(yīng)急需求點(diǎn)能接受的最長(zhǎng)救援時(shí)間約束;式(6)表示新增消防設(shè)施的總數(shù)量約束;式(7)表示建站后才能進(jìn)行救援分配;式(8)(9)為需求點(diǎn)i分配的救援時(shí)間;式(10)為焦急心理函數(shù),外層為sigmoid函數(shù),通過(guò)tan函數(shù)和調(diào)節(jié)系數(shù)對(duì)變量范圍進(jìn)行縮放調(diào)整;式(11)(12)為消防設(shè)施點(diǎn)到達(dá)需求點(diǎn)的時(shí)間計(jì)算公式;式(13)為救援分配變量;式(14)為決策變量;式(15)為已有消防設(shè)施的救援分配變量。針對(duì)該多目標(biāo)模型NP難問(wèn)題特性,本文在深度強(qiáng)化學(xué)習(xí)理論基礎(chǔ)上,設(shè)計(jì)基于算子學(xué)習(xí)多目標(biāo)深度強(qiáng)化學(xué)習(xí)模型來(lái)求解該問(wèn)題。
2 基于算子學(xué)習(xí)的多目標(biāo)深度強(qiáng)化學(xué)習(xí)模型
基于算子學(xué)習(xí)是一種強(qiáng)化學(xué)習(xí)方法,智能體的動(dòng)作空間是一組優(yōu)化算子。本文將消防站設(shè)施選址問(wèn)題抽象為馬爾可夫決策過(guò)程,通過(guò)訓(xùn)練策略網(wǎng)絡(luò),讓策略網(wǎng)絡(luò)根據(jù)當(dāng)前的狀態(tài)輸出選擇每個(gè)算子的概率,根據(jù)概率選擇最合適的優(yōu)化算子不斷改進(jìn)問(wèn)題解,以找到更優(yōu)的選址方案。決策過(guò)程由狀態(tài)、動(dòng)作、策略網(wǎng)絡(luò)、獎(jiǎng)勵(lì)、回報(bào)函數(shù)五個(gè)要素構(gòu)成。具體表示如下:
a)狀態(tài):S={sg,sl}是輸入到策略網(wǎng)絡(luò)的信息,包含當(dāng)前實(shí)例的全局信息sg和局部信息sl。其中sg為靜態(tài)信息,由問(wèn)題實(shí)例本身決定,不會(huì)隨著智能體做出的動(dòng)作而改變。sl是動(dòng)態(tài)信息,會(huì)隨著智能體做出動(dòng)作后不斷發(fā)生變化。
b)策略網(wǎng)絡(luò): 深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型,通過(guò)訓(xùn)練后能夠根據(jù)當(dāng)前狀態(tài)做出決策,選擇最合適的動(dòng)作,本文中策略網(wǎng)絡(luò)輸出的是選擇每個(gè)算子的概率。
c)動(dòng)作:A={A1,A2,A3,…,An}是強(qiáng)化學(xué)習(xí)中的動(dòng)作空間,是智能體可選擇的所有可能行動(dòng)的集合。本文中動(dòng)作空間是一組優(yōu)化算子,每一種動(dòng)作對(duì)應(yīng)一種優(yōu)化算子,n為優(yōu)化算子的種類(lèi)個(gè)數(shù)。由策略網(wǎng)絡(luò)根據(jù)當(dāng)前狀態(tài)來(lái)決策,選擇最合適的優(yōu)化算子來(lái)改進(jìn)當(dāng)前解。
d)獎(jiǎng)勵(lì):rt是環(huán)境根據(jù)策略網(wǎng)絡(luò)t時(shí)刻選擇的算子和狀態(tài)的組合而確定的反饋信號(hào),用于評(píng)估策略網(wǎng)絡(luò)選擇優(yōu)化算子的好壞。
e)回報(bào)函數(shù):回報(bào)是獎(jiǎng)勵(lì)累積的總和。算法的目標(biāo)為最大化回報(bào)。對(duì)于多目標(biāo)深度強(qiáng)化學(xué)習(xí)模型而言,更優(yōu)質(zhì)的非劣解將帶來(lái)更高的回報(bào),這也意味著在制定消防站選址方案時(shí),該選址方案的多目標(biāo)綜合效益將更好。
2.1 模型框架
基于算子學(xué)習(xí)的多目標(biāo)深度強(qiáng)化學(xué)習(xí)模型(MDRL)的框架如圖1所示。首先初始化問(wèn)題實(shí)例,生成初始解,并存入舊解庫(kù),同時(shí)初始化環(huán)境。接下來(lái),控制器將初始解狀態(tài)信息輸入策略網(wǎng)絡(luò),輸出選擇算子的概率。根據(jù)概率隨機(jī)采樣選擇優(yōu)化算子,更新舊解生成新解。將新解和舊解輸入多目標(biāo)解比較器,確定支配關(guān)系,并反饋給控制器。最后,控制器更新環(huán)境,環(huán)境反饋獎(jiǎng)勵(lì),策略網(wǎng)絡(luò)通過(guò)反向傳播更新參數(shù)??刂破鲗⑿碌慕鉅顟B(tài)信息傳輸給策略網(wǎng)絡(luò),進(jìn)行下一輪學(xué)習(xí)。
2.2 狀態(tài)
控制器輸入到策略網(wǎng)絡(luò)的狀態(tài)分為靜態(tài)狀態(tài)信息和動(dòng)態(tài)狀態(tài)信息兩類(lèi)。對(duì)于同一實(shí)例,靜態(tài)狀態(tài)信息是保持不變的,不會(huì)隨策略網(wǎng)絡(luò)做出動(dòng)作而發(fā)生改變。而動(dòng)態(tài)狀態(tài)信息會(huì)隨著動(dòng)作和環(huán)境的變化發(fā)生改變。靜態(tài)狀態(tài)信息的詳細(xì)內(nèi)容如表3所示,靜態(tài)狀態(tài)信息類(lèi)型分為備選點(diǎn)和需求點(diǎn)信息。對(duì)于備選點(diǎn)j,記錄了其位置、建站成本以及服務(wù)范圍內(nèi)的需求點(diǎn)數(shù)量信息。而對(duì)于需求點(diǎn)i,則包括了其位置、人口密度、最大救援時(shí)間約束以及最小服務(wù)數(shù)量約束。特別地,對(duì)于消防站選址模型中的已有消防站k的信息,將其與備選點(diǎn)信息合并輸入到策略網(wǎng)絡(luò)中。已有消防站k的信息包括位置、服務(wù)范圍內(nèi)需求點(diǎn)的數(shù)量。為了保持備選點(diǎn)j和已有消防站k嵌入信息維度的一致性,將已有消防站k的信息加入建站成本ck并將成本全部設(shè)置為0。
動(dòng)態(tài)狀態(tài)信息的詳細(xì)內(nèi)容如表4所示,動(dòng)態(tài)狀態(tài)信息類(lèi)型包括當(dāng)前解、備選點(diǎn)信息、歷史選擇、歷史選擇的影響、掩碼信息。當(dāng)前解的編碼信息如圖2所示,由備選點(diǎn)編碼與已有消防站編碼拼接而成。備選點(diǎn)位置j的編碼solj對(duì)應(yīng)備選點(diǎn)j的建站方案(1為建站,0為不建站),已有消防站的解編碼設(shè)置為1。
歷史選擇與獎(jiǎng)勵(lì)需要經(jīng)過(guò)處理變成歷史特征才能嵌入到策略網(wǎng)絡(luò)中。t時(shí)刻的歷史特征信息hist.ft的計(jì)算公式為
其中:et-h(huán)為歷史影響,會(huì)隨著時(shí)間推移淡化影響;ρ為遺忘因子,ρ∈(0,1)。假設(shè)記錄歷史步驟三次,三次選擇的算子序號(hào)分別為{2、5、1},三次歷史獎(jiǎng)勵(lì)分別為{2、-1、1},算子個(gè)數(shù)為6個(gè),ρ=0.9。歷史特征信息的詳細(xì)計(jì)算過(guò)程如圖3所示。
在算子產(chǎn)生新解后,掩碼機(jī)制會(huì)根據(jù)控制器傳入的新解與舊解之間的支配關(guān)系進(jìn)行判斷。如果t時(shí)刻選擇的算子改變舊解后沒(méi)有產(chǎn)生非劣解,那么在t+1時(shí)刻,掩碼信息將會(huì)把上次選擇的算子給掩蓋掉,引導(dǎo)策略網(wǎng)絡(luò)在t+1時(shí)刻選擇其他算子。掩碼采用文獻(xiàn)[16]哈希表的設(shè)計(jì)方法。
2.3 策略網(wǎng)絡(luò)
2.3.1 策略網(wǎng)絡(luò)模型結(jié)構(gòu)
本文使用的策略網(wǎng)絡(luò)模型結(jié)構(gòu)如圖4所示,網(wǎng)絡(luò)整體結(jié)構(gòu)由編碼器和解碼器兩大部分組成。編碼器的輸入數(shù)據(jù)有當(dāng)前解、備選點(diǎn)信息、需求點(diǎn)信息。當(dāng)前解和備選點(diǎn)信息拼接后,通過(guò)嵌入層1,映射維度為64。需求點(diǎn)信息通過(guò)嵌入層2,映射維度同樣為64,與備選點(diǎn)信息拼接一同放入到編碼器中。
編碼器含有N個(gè)相同的復(fù)合結(jié)構(gòu),復(fù)合結(jié)構(gòu)內(nèi)部依次為多頭注意力層、第一個(gè)BatchNorm層、前饋神經(jīng)網(wǎng)絡(luò)、第二個(gè)BatchNorm層,并且通過(guò)兩個(gè)殘差連接結(jié)構(gòu)減輕梯度消失問(wèn)題,并防止網(wǎng)絡(luò)過(guò)擬合。多頭注意力層頭數(shù)為8個(gè),輸出的向量長(zhǎng)度為64。前饋神經(jīng)網(wǎng)絡(luò)使用ReLU激活函數(shù),中間層的維度設(shè)置為512×4。通過(guò)N層編碼器復(fù)合結(jié)構(gòu)后,數(shù)據(jù)特征被輸入到解碼器的嵌入層3中。解碼器的輸入包括歷史特征信息和掩碼信息。編碼器的輸出通過(guò)第三個(gè)嵌入層后與歷史特征拼接,一同輸入到多層感知器(MLP)中。最后,掩碼信息覆蓋到MLP輸出的數(shù)據(jù),為解決梯度消失問(wèn)題,使用按維度縮放[18]的softmax函數(shù)計(jì)算選擇算子的概率向量。
2.3.2 策略網(wǎng)絡(luò)訓(xùn)練方法
本文策略網(wǎng)絡(luò)采用帶基線(xiàn)的REINFORCE策略梯度算法[19]訓(xùn)練策略網(wǎng)絡(luò)。
ΔθJ(θ|S)=Eπ~pθ(.|s)[(Lπ|S-b(s))Δθlog(pθ(π|S))](18)
策略梯度算法的目標(biāo)是最大化回報(bào),t時(shí)刻回報(bào)的計(jì)算公式為
Rt=∑hγt-1+h·rt+h(19)
其中:rt+h為t+h時(shí)刻的獎(jiǎng)勵(lì);γ為折扣回報(bào)率,本文使用與文獻(xiàn)[15]相同的折扣回報(bào)率,γ=1。給定一個(gè)實(shí)例狀態(tài)S,J(θ∣s)表示在狀態(tài)S下執(zhí)行策略π的期望回報(bào)。策略網(wǎng)絡(luò)根據(jù)狀態(tài)S輸出的選擇算子概率向量為 pπθ(Ats)。At為選擇的算子,At~π(.|st)。策略網(wǎng)絡(luò)多次動(dòng)作π積累的回報(bào)量為Rπ,基線(xiàn)Rπbl用于減小訓(xùn)練時(shí)的方差,使訓(xùn)練過(guò)程更加穩(wěn)定。θ為網(wǎng)絡(luò)參數(shù)。則帶有基線(xiàn)的策略梯度的計(jì)算如式(20)所示。通過(guò)訓(xùn)練網(wǎng)絡(luò),采用梯度上升的方式來(lái)更新參數(shù)θ,使策略網(wǎng)絡(luò)能在給定實(shí)例狀態(tài)S時(shí)選擇最優(yōu)的算子使回報(bào)最大化。
ΔθJ(θ|S)=Eπ~pθ(.|s)[(Rπ-Rπbl)Δθlog(pπθ(Ats))](20)
2.4 優(yōu)化算子
本文設(shè)計(jì)了兩組優(yōu)化算子,分別為問(wèn)題實(shí)例導(dǎo)向的優(yōu)化算子(problem instance-oriented optimization operators,PIOO)和編碼規(guī)模導(dǎo)向的優(yōu)化算子(decoding scale-oriented optimization ope-rators, DSOO)。PIOO算子組從問(wèn)題實(shí)例的背景出發(fā),與實(shí)例的動(dòng)態(tài)信息結(jié)合,算子的優(yōu)化方向更加細(xì)化,與問(wèn)題的多個(gè)目標(biāo)關(guān)聯(lián),對(duì)具體的問(wèn)題模型更具有針對(duì)性。DSOO算子組從解的編碼角度出發(fā),該算子的擾動(dòng)幅度會(huì)根據(jù)編碼規(guī)模的變化來(lái)自適應(yīng)調(diào)整。DSOO具有更廣泛的適用性,可以應(yīng)用到更多0-1編碼問(wèn)題當(dāng)中。本文在實(shí)驗(yàn)過(guò)程中將使用這兩組算子作為動(dòng)作空間訓(xùn)練網(wǎng)絡(luò),并進(jìn)行數(shù)據(jù)測(cè)試對(duì)比。
PIOO算子組詳細(xì)內(nèi)容如表5所示。PIOO分為交換算子、翻轉(zhuǎn)算子和破壞算子三大類(lèi)。其中,交換算子有兩種,操作是將解編碼的兩個(gè)或三個(gè)隨機(jī)位置進(jìn)行交換;翻轉(zhuǎn)算子需要結(jié)合實(shí)例信息進(jìn)行優(yōu)化,需要根據(jù)實(shí)際建站情況選擇性地進(jìn)行翻轉(zhuǎn)操作;破壞算子根據(jù)問(wèn)題實(shí)例的目標(biāo)函數(shù)設(shè)計(jì),分別從最小化時(shí)間和最小化成本兩個(gè)目標(biāo)維度對(duì)解進(jìn)行擾動(dòng)。
DSOO算子組的詳細(xì)內(nèi)容如表6所示。DSOO分為交換算子與翻轉(zhuǎn)算子兩大類(lèi)。交換算子新增一種自適應(yīng)交換算子Swap(n),會(huì)根據(jù)解的編碼長(zhǎng)度(decode_length)自主調(diào)整擾動(dòng)幅度大小,n=α·decode_length。其中,α為Swap(n)的規(guī)模敏感系數(shù),α∈(0,1);DSOO的翻轉(zhuǎn)算子更加泛化,不再關(guān)聯(lián)具體的實(shí)例信息,適用于更廣泛的場(chǎng)景。新增的自適應(yīng)翻轉(zhuǎn)算子Flip(m)與Swap(n)類(lèi)似,m=β·decode_length。其中,β為Flip(m)的規(guī)模敏感系數(shù)。
2.5 獎(jiǎng)勵(lì)函數(shù)
針對(duì)多目標(biāo)問(wèn)題,本文設(shè)計(jì)了兩種獎(jiǎng)勵(lì)函數(shù)r,分別為優(yōu)勢(shì)差異驅(qū)動(dòng)的獎(jiǎng)勵(lì)函數(shù)(advantage disparity-driven reward,ADR)、支配性評(píng)估獎(jiǎng)勵(lì)函數(shù)(dominance-evaluation reward,DER)。本文在實(shí)驗(yàn)過(guò)程中也采取上述兩種獎(jiǎng)勵(lì)的計(jì)算方式訓(xùn)練相應(yīng)的模型進(jìn)行對(duì)比測(cè)試。ADR方法將問(wèn)題的每個(gè)目標(biāo)視為一個(gè)子問(wèn)題,通過(guò)權(quán)重系數(shù)把每個(gè)子問(wèn)題的目標(biāo)值進(jìn)行加權(quán)得到當(dāng)前解的優(yōu)勢(shì)值。在選擇算子之前,計(jì)算當(dāng)前解的優(yōu)勢(shì)值并將其作為t時(shí)刻的基準(zhǔn)baselinet。將t+1時(shí)刻新解的優(yōu)勢(shì)值與baselinet的差值作為獎(jiǎng)勵(lì)。t+1時(shí)刻的獎(jiǎng)勵(lì)值為r=advantage-baselinet。ADR方法獎(jiǎng)勵(lì)的詳細(xì)計(jì)算過(guò)程如下:首先對(duì)同一批次n個(gè)數(shù)據(jù)的每個(gè)目標(biāo)值進(jìn)行L2范數(shù)歸一化,避免不同目標(biāo)函數(shù)值尺度不一致對(duì)結(jié)果產(chǎn)生影響。再將三個(gè)目標(biāo)值乘以目標(biāo)對(duì)應(yīng)的權(quán)重來(lái)計(jì)算當(dāng)前解的優(yōu)勢(shì)值,解的優(yōu)勢(shì)advantage如式(21)所示。其中, fi為目標(biāo)i的函數(shù)值,μj為目標(biāo)j的權(quán)重系數(shù),μj∈(0,1]。
advantage=∑3i=1μifif2i1+f2i2+…+f2in(21)
DER方法基于控制器傳入的支配信息來(lái)計(jì)算當(dāng)前獎(jiǎng)勵(lì),根據(jù)支配關(guān)系調(diào)節(jié)獎(jiǎng)勵(lì)系數(shù)。支配關(guān)系分為以下三種情況:a)如果算子產(chǎn)生的新解支配舊解,獎(jiǎng)勵(lì)系數(shù)τ1=2;b)如果新解與舊解互為非劣解,τ2=1;c)如果新解被舊解支配或與舊解完全一樣,τ3=-1。文獻(xiàn)[15]通過(guò)遍歷算子作用位置的方法,計(jì)算當(dāng)前算子的獎(jiǎng)勵(lì)值,模型訓(xùn)練時(shí)間復(fù)雜度過(guò)高。本文使用蒙特卡羅方法隨機(jī)選擇算子作用位置,模擬評(píng)估使用算子后獎(jiǎng)勵(lì)的期望,降低了模型訓(xùn)練的時(shí)間復(fù)雜度。DER方法獎(jiǎng)勵(lì)函數(shù)計(jì)算公式為
r=δ·tanh(∑3i=1τiE(pi)σhi)(22)
σi=1
i=3
σigt;1others(23)
其中:i對(duì)應(yīng)新解和舊解三種支配關(guān)系情況;E(pi)表示情況i出現(xiàn)的概率在蒙特卡羅模擬中的期望值;σi為激勵(lì)因子;h為使用算子的次數(shù)。
隨著解不斷改進(jìn),產(chǎn)生新的非劣解的概率大幅降低,如圖5所示,可能會(huì)出現(xiàn)獎(jiǎng)勵(lì)值一直為負(fù)的情況,無(wú)法反映算子對(duì)解作用的真實(shí)情況,影響網(wǎng)絡(luò)參數(shù)更新,導(dǎo)致訓(xùn)練效果不穩(wěn)定。因此,本文引入了激勵(lì)因子σ來(lái)改善該問(wèn)題。如圖5所示,激勵(lì)因子會(huì)隨著動(dòng)作次數(shù)的增加逐步提高產(chǎn)生非劣解時(shí)反饋給策略網(wǎng)絡(luò)的獎(jiǎng)勵(lì)值,確保即使在解改進(jìn)變得困難的情況下,仍能夠?yàn)榫W(wǎng)絡(luò)提供正向反饋。通過(guò)引入激勵(lì)因子,有效地解決了獎(jiǎng)勵(lì)值持續(xù)為負(fù)的問(wèn)題,進(jìn)而改善了網(wǎng)絡(luò)訓(xùn)練效果。
激勵(lì)因子需要設(shè)置合適的值才能更好地發(fā)揮作用。如圖6所示,激勵(lì)因子值設(shè)置過(guò)大,造成獎(jiǎng)勵(lì)值始終為正值,當(dāng)策略網(wǎng)絡(luò)選擇不合適的算子時(shí)也能得到正向反饋,導(dǎo)致訓(xùn)練效果不佳;激勵(lì)因子設(shè)置值過(guò)小,改善效果不明顯;本文通過(guò)測(cè)試發(fā)現(xiàn)激勵(lì)因子設(shè)置在[1.028,1.032]內(nèi)效果較好,激勵(lì)因子值與獎(jiǎng)勵(lì)的平均值對(duì)應(yīng)關(guān)系如圖7所示。
圖7 激勵(lì)因子值與獎(jiǎng)勵(lì)平均值對(duì)應(yīng)關(guān)系Fig.7 Relationship between incentive factor values and average reward
另外,DER方法計(jì)算獎(jiǎng)勵(lì)時(shí)使用雙曲正切函數(shù)tanh限制獎(jiǎng)勵(lì)值的范圍,讓訓(xùn)練過(guò)程更穩(wěn)定。δ為獎(jiǎng)勵(lì)尺度,將獎(jiǎng)勵(lì)限制在(-δ,δ)內(nèi)。
3 數(shù)值實(shí)驗(yàn)
3.1 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置
本文實(shí)驗(yàn)基于Python 3.8的代碼實(shí)現(xiàn),利用PyTorch框架構(gòu)建模型。在GPU(A40-PCIE,顯存48 GB)上進(jìn)行網(wǎng)絡(luò)模型訓(xùn)練,服務(wù)器環(huán)境為搭載Intel? Xeon? Gold 6348 CPU @ 2.6 GHz 的Windows操作系統(tǒng)。實(shí)驗(yàn)過(guò)程中一些重要參數(shù)設(shè)置如表7所示。
本文采用四種規(guī)模隨機(jī)生成的問(wèn)題算例作為數(shù)據(jù)集,四種規(guī)模分別對(duì)應(yīng)小、中、大、超大規(guī)模。其中,小規(guī)模算例備選點(diǎn)50個(gè),需求點(diǎn)20個(gè),已有消防站個(gè)數(shù)1個(gè),建站數(shù)量約束為[1,12],速度參數(shù)設(shè)為1.2;中等規(guī)模備選點(diǎn)100個(gè),需求點(diǎn)個(gè)數(shù)30個(gè),建站數(shù)量約束為[1,15],已有消防站個(gè)數(shù)2個(gè),速度參數(shù)設(shè)為1; 大規(guī)模算例備選點(diǎn)200個(gè),需求點(diǎn)個(gè)數(shù)為50個(gè),已有消防站個(gè)數(shù)3個(gè),建站數(shù)量約束為[1,25],速度參數(shù)設(shè)為0.8;超大規(guī)模算例備選點(diǎn)個(gè)數(shù)為500個(gè),需求點(diǎn)100個(gè),建站數(shù)量約束為[1,35],速度參數(shù)設(shè)為0.7,已有消防站個(gè)數(shù)4個(gè)。需求點(diǎn)服務(wù)數(shù)量約束隨機(jī)生成范圍設(shè)置為[1,3],需求點(diǎn)時(shí)間約束隨機(jī)生成范圍設(shè)為[0,2,0.55],需求點(diǎn)人口密度隨機(jī)生成范圍為[0.1,0.9]。備選點(diǎn)建站成本隨機(jī)生成范圍為[0.1,0.8],需求點(diǎn)與備選點(diǎn)坐標(biāo)隨機(jī)生成范圍為[0,1]。
本文使用小規(guī)模和中規(guī)模的數(shù)據(jù)集訓(xùn)練網(wǎng)絡(luò),訓(xùn)練集實(shí)例共28 800個(gè),訓(xùn)練集隨機(jī)生成的種子設(shè)置為123。使用四種規(guī)模隨機(jī)生成的測(cè)試集解實(shí)例共1 000個(gè),測(cè)試集隨機(jī)生成的種子設(shè)置為456。其中700個(gè)用于不同規(guī)模的算法對(duì)比,另外300個(gè)用于兩個(gè)算子組比較。
3.2 策略網(wǎng)絡(luò)訓(xùn)練過(guò)程
本文共訓(xùn)練了四組策略網(wǎng)絡(luò),分別為基于PIOO算子組的ADR和DER方法的策略網(wǎng)絡(luò)、基于DSOO算子組的ADR和DER方法的策略網(wǎng)絡(luò)。通過(guò)大量實(shí)驗(yàn)發(fā)現(xiàn)PIOO算子和DER方法求解能力相對(duì)較好(具體在3.3.1和3.3.2節(jié)詳細(xì)說(shuō)明),所以選取基于PIOO算子組的DER方法和L2I[15]算法進(jìn)行對(duì)比。
訓(xùn)練過(guò)程使用相同的訓(xùn)練集和相同的初始解,由于原始的L2I算法只能解決單目標(biāo)整數(shù)編碼問(wèn)題,所以后續(xù)實(shí)驗(yàn)中L2I算法使用文獻(xiàn)[16]中針對(duì)0-1問(wèn)題設(shè)計(jì)的提升算子組,并且獎(jiǎng)勵(lì)函數(shù)使用本文相同的DER方法與MDRL進(jìn)行對(duì)比。L2I的策略網(wǎng)絡(luò)的嵌入層根據(jù)問(wèn)題重新設(shè)計(jì),其余網(wǎng)絡(luò)結(jié)構(gòu)保持不變。在訓(xùn)練過(guò)程中,MDRL與L2I算法的策略網(wǎng)絡(luò)得到的回報(bào)如圖8所示。為方便觀(guān)察,每10個(gè)訓(xùn)練epoch記錄一次回報(bào)值。根據(jù)訓(xùn)練結(jié)果可見(jiàn),搭配PIOO算子組的MDRL模型,策略網(wǎng)絡(luò)在訓(xùn)練過(guò)程獲得的回報(bào)顯著高于L2I算法,MDRL模型的網(wǎng)絡(luò)訓(xùn)練過(guò)程更加平穩(wěn),更適合求解多目標(biāo)選址問(wèn)題。
初始解作為策略網(wǎng)絡(luò)訓(xùn)練時(shí)輸入數(shù)據(jù)的一部分,其質(zhì)量直接影響了算法的收斂速度和最終結(jié)果的優(yōu)劣,并且初始解的多樣性也影響策略網(wǎng)絡(luò)的訓(xùn)練效果和泛化能力。所以本文采用了三種方式來(lái)批量生成初始解,初始解生成的算法偽代碼如算法1所示。首先通過(guò)隨機(jī)生成初始解來(lái)保證多樣性,剔除不滿(mǎn)足約束的解后,使用貪心添加的策略從兩種途徑生成質(zhì)量較高的解,隨機(jī)將最小時(shí)間和最大化性?xún)r(jià)比的備選點(diǎn)添加到建站點(diǎn)中,在滿(mǎn)足解多樣性的同時(shí)保證解的質(zhì)量。
算法1 初始解的批量生成算法
輸入:兩種貪心添加的策略分配比例rate。
輸出:初始解init_s。
a)init_s ← rand_spawn_solution() //嘗試隨機(jī)生成初始解
b)if !obey_constrant:select=rand.random(),轉(zhuǎn)步驟c);else:轉(zhuǎn)步驟a) //如果隨機(jī)解不滿(mǎn)足約束,按比例選擇兩種貪心策略
c)if select gt; rate:轉(zhuǎn)步驟d);else:轉(zhuǎn)步驟f)
d)if obey_constrant: 轉(zhuǎn)步驟h);else:轉(zhuǎn)步驟e)
e)j ←min(tij), init_s[iter][j] ← 1,執(zhí)行后轉(zhuǎn)步驟d) /*最小時(shí)間貪心添加策略*/
f)if obey_constrant: 轉(zhuǎn)步驟h);else:轉(zhuǎn)步驟g)
g)j ← max(numj/cj), init_s[iter][j] ←1,執(zhí)行后轉(zhuǎn)步驟f) /*最大化性?xún)r(jià)比的貪心添加策略*/
h)return init_s
3.3 小規(guī)模算例驗(yàn)證
為驗(yàn)證選址模型的規(guī)范性和MDRL算法的有效性,使用cplex求解器對(duì)10個(gè)小規(guī)模算例進(jìn)行求解。由于cplex求解器無(wú)法給出多個(gè)目標(biāo)的非劣解,所以采用三個(gè)目標(biāo)加權(quán)求和的方式尋找模型最優(yōu)解,求解結(jié)果如表8所示。經(jīng)驗(yàn)證clpex成功求解出選址模型的最優(yōu)解,MDRL算法在求解出最優(yōu)解的同時(shí)還求解多個(gè)非劣解,在10個(gè)算例中,MDLR算法求解出的非劣解集中均包含cplex的最優(yōu)解,結(jié)果驗(yàn)證了選址模型的規(guī)范性和MDRL算法的有效性。
3.4 算法測(cè)試
本文采用Hypervolume指標(biāo)[20]、Spacing指標(biāo)[21]、Ω支配性指標(biāo)[22]、IGD指標(biāo)[23]四個(gè)具有代表性的多目標(biāo)評(píng)價(jià)指標(biāo)對(duì)算法優(yōu)化性能進(jìn)行評(píng)估。Hypervolume指標(biāo)用于評(píng)估算法非劣解集收斂性,依照參考點(diǎn)設(shè)置,該指標(biāo)值越大,說(shuō)明算法非劣解集收斂性越好。Spacing指標(biāo)用于評(píng)估非劣解集的多樣性與分布均勻性,該指標(biāo)值越小,算法非劣解集的多樣性越好,分布更加均勻。Ω支配性指標(biāo)用于評(píng)估算法獲得帕累托前沿所占比例,該指標(biāo)越大,說(shuō)明算法得到非劣解數(shù)量越多,算法效果也好。IGD指標(biāo)同時(shí)評(píng)價(jià)算法收斂性和多樣性,該指標(biāo)越小,算法性能越好。
3.4.1 不同算子組優(yōu)化效果對(duì)比
將兩組算子在小、中、大規(guī)模分別使用100個(gè)測(cè)試實(shí)例進(jìn)行對(duì)比。由表9結(jié)果可見(jiàn),DSOO和PIOO在小規(guī)模算例中優(yōu)化效果接近,計(jì)算結(jié)果在三個(gè)多目標(biāo)評(píng)價(jià)指標(biāo)中各有優(yōu)劣。小規(guī)模算例中,DSOO算子組在Hypervolume和Spacing指標(biāo)上優(yōu)化效果略好于PIOO,但劣于PIOO的Ω指標(biāo)。隨著算例的規(guī)模擴(kuò)大,在中等規(guī)模和大規(guī)模實(shí)例中,PIOO相對(duì)于DSOO的優(yōu)勢(shì)逐漸明顯,在大規(guī)模實(shí)例中,PIOO全部指標(biāo)都優(yōu)于DSOO。
本文使用算子相對(duì)提升率φ來(lái)衡量算子的優(yōu)化效率,φ值越大表示算子更容易改進(jìn)當(dāng)前解,產(chǎn)生非劣解的概率更高。算子相對(duì)提升率φ的計(jì)算如式(24)所示,其中ns為產(chǎn)生非劣解的個(gè)數(shù),step為算子相對(duì)優(yōu)化次數(shù)。兩種算子組合在不同規(guī)模算例的相對(duì)提升率如圖9所示。兩組算子在小規(guī)模算例優(yōu)化效果非常接近。但隨著問(wèn)題規(guī)模擴(kuò)大,DSOO的φ值快速下降,PIOO的φ值相對(duì)平穩(wěn),PIOO在大規(guī)模算例性能明顯優(yōu)于DSOO。
φ=nsstep×100%(24)
綜合考慮表9和圖9中四個(gè)指標(biāo)的結(jié)果,PIOO算子組更加適合本文問(wèn)題的求解。因此本文在后續(xù)的實(shí)驗(yàn)對(duì)比過(guò)程中,均采用PIOO算子組進(jìn)行對(duì)比實(shí)驗(yàn)。
3.4.2 不同算法的求解性能比較
本文選取了改進(jìn)的快速非支配排序遺傳算法(NSGA-Ⅱ)[24,25]、改進(jìn)的多目標(biāo)粒子群算法(MOPSO)[26,27]、L2I深度強(qiáng)化學(xué)習(xí)算法[15],與本文基于ADR方法的MDRL算法(MDRL-AD)和基于DER方法的MDRL算法(MDRL-DE)進(jìn)行比較。改進(jìn)的NSGA-Ⅱ使用與文獻(xiàn)[25]相同的交叉策略,并引入與文獻(xiàn)相同的鄰域搜索策略,加入insert和swap算子[25],變異和交叉概率分別設(shè)置為0.1和0.8,與文獻(xiàn)保持一致。改進(jìn)的MOPSO使用與文獻(xiàn)[27]相同的變異操作,加入動(dòng)態(tài)變異機(jī)制提高算法搜索能力。
實(shí)驗(yàn)測(cè)試算例700個(gè),其中小中大規(guī)模各200個(gè)算例,超大規(guī)模100個(gè)算例。不同算法均在相同算例和相同的初始解進(jìn)行測(cè)試,迭代次數(shù)都設(shè)置為100次。不同算法在四種規(guī)模的測(cè)試集求解結(jié)果如表10所示。為了更直觀(guān)體現(xiàn)優(yōu)化過(guò)程,選取一個(gè)中等規(guī)模算例,不同算法隨著迭代次數(shù)的Hypervolume指標(biāo)值變化如圖10所示,可見(jiàn)本文MDRL算法在中等算例中求解質(zhì)量和優(yōu)化速度均優(yōu)于其他算法。
由表10結(jié)果可知,總體上,本文提出的兩種算法在四種規(guī)模測(cè)試集的求解結(jié)果均好于對(duì)比的三種算法。在絕大多數(shù)算例下,MDRL算法求解結(jié)果的 Hypervolume、Spacing、Ω、IGD指標(biāo)的平均值和標(biāo)準(zhǔn)差均好于其他三種算法。結(jié)果表明,MDRL算法求解質(zhì)量和穩(wěn)定性均超過(guò)其他三種算法,并且在超大規(guī)模算例中,MDRL依然有良好的泛化性和求解性能。
根據(jù)實(shí)驗(yàn)結(jié)果可知,在小規(guī)模實(shí)驗(yàn)中,DER三個(gè)評(píng)價(jià)指標(biāo)均優(yōu)于ADR方法。中等規(guī)模算例實(shí)驗(yàn)下,ADR和DER方法求解性能十分接近,DER略好于ADR。隨著算例規(guī)模變大,DER方法的優(yōu)勢(shì)更加明顯,在大規(guī)模和超大規(guī)模實(shí)驗(yàn)中,DER方法的三個(gè)評(píng)價(jià)指標(biāo)均優(yōu)于ADR方法。此結(jié)果可歸因于基于支配關(guān)系的DER獎(jiǎng)勵(lì)計(jì)算方式能夠更準(zhǔn)確地反映出在大規(guī)模多目標(biāo)問(wèn)題中解之間的非劣關(guān)系。相比之下,基于子問(wèn)題權(quán)重合并的ADR獎(jiǎng)勵(lì)計(jì)算方式難以捕捉到大規(guī)模多目標(biāo)問(wèn)題解的特征。因此ADR方法更加適合求解小規(guī)模算例,而DER方法更適合求解大規(guī)模算例。
4 案例分析
為進(jìn)一步測(cè)試MDRL算法求解實(shí)際問(wèn)題的性能和泛化能力,選取上海市奉賢新城部分區(qū)域作為實(shí)際案例背景進(jìn)行分析求解。本文考慮實(shí)際情況,根據(jù)人流量數(shù)據(jù)估計(jì)人口密度,奉賢新城區(qū)人流量數(shù)據(jù)如圖11所示,陰影區(qū)域?yàn)槿肆髁棵芗瘏^(qū)域。基于人流量數(shù)據(jù)選取商場(chǎng)、居民區(qū)、學(xué)校等人口密集區(qū)域作為救援需求點(diǎn),選取空地較大且交通方便的位置作為消防站備選點(diǎn),選取部分建筑密集空地狹小的區(qū)域作為微型消防站備選點(diǎn)。其中普通消防站備選點(diǎn)也可當(dāng)作微型消防站備選點(diǎn)。人口密度、救援速度、時(shí)間約束等根據(jù)實(shí)際數(shù)據(jù)情況進(jìn)行設(shè)定。
目前該區(qū)域中現(xiàn)有消防站共5個(gè),普通消防站4個(gè),微型消防站1個(gè)。案例選取的消防設(shè)施備選點(diǎn)共83個(gè),其中消防站候選點(diǎn)23個(gè),微型消防站備選點(diǎn)60個(gè)。應(yīng)急救援需求點(diǎn)36個(gè)。相關(guān)設(shè)施點(diǎn)的實(shí)際位置如圖11所示。根據(jù)點(diǎn)實(shí)際位置的經(jīng)緯度使用式(25)球面距離公式計(jì)算出備選點(diǎn)與需求點(diǎn)實(shí)際的距離。
dij=re·arccossin(Lati)sin(Latj)+
cos(Lati)cos(Latj)·cos(|Loni-Lonj|)(25)
其中:re為地球半徑,取6 371 km;lat為緯度;lon為經(jīng)度。其他數(shù)據(jù)信息根據(jù)實(shí)際情況按照一定范圍進(jìn)行設(shè)置,新增消防站總數(shù)量約束設(shè)置為[1,8],普通消防站建設(shè)成本為800~1 500萬(wàn),普通消防站救援速度在50~80 km/h。微型消防站建設(shè)成本為50~200萬(wàn),速度為15~20 km/h。需求點(diǎn)設(shè)置人口密度為0.2~8,需要的消防設(shè)施數(shù)量為1~3個(gè)。需求點(diǎn)的最大救援到達(dá)時(shí)間約束根據(jù)國(guó)家救援標(biāo)準(zhǔn)設(shè)置在5 min以?xún)?nèi),根據(jù)已有的消防站設(shè)施救援能力計(jì)算,該案例中36個(gè)需求點(diǎn)中有8個(gè)需求點(diǎn)沒(méi)有達(dá)到該救援標(biāo)準(zhǔn),有13個(gè)需求點(diǎn)沒(méi)有滿(mǎn)足模型的救援設(shè)施數(shù)量約束,所以需要新增消防設(shè)施來(lái)優(yōu)化消防布局。
算法求解實(shí)際案例的最優(yōu)建站方案和相對(duì)應(yīng)的目標(biāo)值結(jié)果如表11所示,建站方案為要建站的消防設(shè)施序號(hào)。其中范圍0到22為普通消防站的選址序號(hào)、23到82為微型消防站的選址序號(hào)。每個(gè)建站方案對(duì)應(yīng)的三個(gè)目標(biāo)值,其中最大救援時(shí)間的單位為秒,成本單位為106元。最優(yōu)方案共計(jì)44個(gè),均為三個(gè)目標(biāo)的非劣解,選取15個(gè)具有代表性的方案如表11所示。
由表11中數(shù)據(jù)分析可得,最大救援時(shí)間反映單個(gè)需求點(diǎn)的極端救援情況,焦急心理值反映區(qū)域整體的救援情況,二者沒(méi)有明顯正相關(guān)性;增加建設(shè)成本能顯著降低市民焦急心理程度,但是未必能顯著減少最大救援時(shí)間。綜合考慮上述結(jié)果,優(yōu)先以最大救援時(shí)間最短和焦急心理程度最小挑選一個(gè)非劣解作為建站方案,該方案最大響應(yīng)時(shí)間在所有方案中最短。該方案新建3個(gè)普通消防站,和4個(gè)微型消防站。建站序號(hào)為[2, 7, 19, 36, 47, 49,50],其中2、7、19為新增消防站序號(hào),36、47、49、50為新增微型消防站序號(hào)。該方案對(duì)應(yīng)三個(gè)目標(biāo)的值:最大救援響應(yīng)時(shí)間為277.2 s,市民焦急心理程度為26.2,總建設(shè)成本為3 240萬(wàn)元。
不同算法對(duì)于該實(shí)際案例的求解結(jié)果如表12所示。所有算法都使用相同的初始解,種群數(shù)量都設(shè)置為100,迭代次數(shù)都設(shè)置為100次。Hypervolume參考點(diǎn)設(shè)置為[300,30,100],分別對(duì)應(yīng)最大救援時(shí)間、心理目標(biāo)和建站成本。
結(jié)果表明,對(duì)于實(shí)際案例,MDRL算法的Hypervolume指標(biāo)、Spacing指標(biāo)、Ω指標(biāo)、IGD指標(biāo)均明顯優(yōu)于其他對(duì)比算法。為了更直觀(guān)體現(xiàn)優(yōu)化過(guò)程,不同算法隨著迭代次數(shù)的Hypervolume指標(biāo)值變化如圖12所示??梢?jiàn),MDRL算法在實(shí)際案例中求解質(zhì)量和優(yōu)化速度明顯均優(yōu)于其他對(duì)比算法。并且,MDRL-DE方法的求解性能略好于MDRL-AD方法,與測(cè)試集中等規(guī)模算例結(jié)果基本一致,表明輸入數(shù)據(jù)尺度變化對(duì)策略網(wǎng)絡(luò)的影響較小,進(jìn)而驗(yàn)證了MDRL算法優(yōu)異的泛化能力。
圖12 不同算法在實(shí)際案例的求解性能對(duì)比Fig.12 Comparison of results of different algorithms in practical cases
不同算法計(jì)算出的非劣解集如圖13所示,由圖可見(jiàn),MDRL算法非劣解數(shù)量明顯多于其他算法。將5種算法計(jì)算出的非劣解集進(jìn)行合并,并對(duì)合并后的非劣解集做非支配排序,最終得到的帕累托前沿如圖14所示。帕累托前沿共44個(gè)不重復(fù)的非劣解。MDRL-DE方法計(jì)算出32個(gè)非劣解,MDRL-AD 方法為21個(gè);L2I方法非劣解為6個(gè);MOPSO為3個(gè);NSGA-Ⅱ?yàn)?個(gè)。由此可見(jiàn)本文的MDRL算法求解實(shí)際案例的性能明顯優(yōu)于其他對(duì)比算法。
5 結(jié)束語(yǔ)
本文引入心理函數(shù)衡量火災(zāi)時(shí)市民焦急心理,建立了考慮市民救援時(shí)間、焦急心理、成本的三目標(biāo)消防設(shè)施選址模型。針對(duì)多目標(biāo)選址問(wèn)題,本文提出了基于算子學(xué)習(xí)的多目標(biāo)深度強(qiáng)化學(xué)習(xí)模型MDRL。設(shè)計(jì)了多種算子組合和獎(jiǎng)勵(lì)函數(shù),并通過(guò)多組實(shí)驗(yàn)對(duì)比得出,問(wèn)題實(shí)例導(dǎo)向的優(yōu)化算子更加有效。通過(guò)四種不同規(guī)模的算例進(jìn)行測(cè)試,并與改進(jìn)的NSGA-Ⅱ、多目MOPSO、L2I深度強(qiáng)化學(xué)習(xí)算法進(jìn)行對(duì)比。結(jié)果表明MDRL在四種規(guī)模算例都具有更好的優(yōu)化性能,并且在200個(gè)備選點(diǎn)的大規(guī)模算例和500個(gè)備選點(diǎn)的超大規(guī)模算例,相比其他對(duì)比算法優(yōu)勢(shì)更加明顯。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),基于優(yōu)勢(shì)差異的獎(jiǎng)勵(lì)方法MDRL-AD更加適合小規(guī)模多目標(biāo)問(wèn)題,基于支配性評(píng)估的獎(jiǎng)勵(lì)方法MDRL-DE更適合求解大規(guī)模多目標(biāo)問(wèn)題。最后本文采用上海奉賢新城作為實(shí)際案例進(jìn)行求解,在實(shí)際案例求解中MDRL依然求解性能良好,對(duì)于不同類(lèi)型數(shù)據(jù)表現(xiàn)出優(yōu)異的泛化能力,最后為消防設(shè)施選址問(wèn)題的實(shí)際案例給出了一個(gè)滿(mǎn)意的可行選址方案。在消防設(shè)施選址的基礎(chǔ)上,后續(xù)研究工作將著重探究消防車(chē)輛的動(dòng)態(tài)調(diào)度問(wèn)題,并設(shè)計(jì)基于深度強(qiáng)化學(xué)習(xí)的選址加調(diào)度問(wèn)題算法。
參考文獻(xiàn):
[1]許秋艷, 馬良, 劉勇. 雙目標(biāo)消防救援站選址模型的元胞陰陽(yáng)平衡優(yōu)化算法 [J]. 運(yùn)籌與管理, 2022, 31(12): 31-37. (Xu Qiu-Yan, Ma Liang, Liu Yong. Cellular Yin-Yang pair optimization algorithm for bi-objective fire rescue facility location model [J]. Operations Research and Management Science, 2022, 31(12): 31-37.)
[2]賀元驊, 黃一覽, 熊升華. 基于熵權(quán)直覺(jué)模糊拓展MULTIMOORA的機(jī)場(chǎng)消防站選址評(píng)價(jià)模型 [J]. 控制與決策, 2023, 38(1): 265-273. (He Yuanhua, Huang Yilan, Xiong Shenghua. An evaluation model of airport fire stations selection based on entropy weighting informationistic fuzzy extended MULTIMOORA [J]. Control and Decision, 2023, 38(1): 265-273.)
[3]王寧, 許益, 張磊, 等. 考慮消防聯(lián)動(dòng)與效益的消防站多目標(biāo)選址方法 [J]. 系統(tǒng)工程理論與實(shí)踐, 2020, 40(3): 664-678. (Wang Ning, Xu Yi, Zhang Lei, et al. Consideration of fire station multi-target location method for fire stations considering fire-fighting collaboration and efficiency [J]. Systems Engineering Theory and Practice, 2020, 40(3): 664-678.)
[4]叢亦天. 基于遺傳算法的微型消防站選址模型 [D]. 哈爾濱:哈爾濱理工大學(xué), 2023. (Cong Yitian. A micro fire station location model based on genetic algorithm [D]. Harbin: Harbin University of Science and Technology, 2023.)
[5]Jing Yao, Zhang Xiaoxiang, Murray A T. Location optimization of urban fire stations: access and service coverage [J]. Computers, Environment and Urban Systems, 2019, 73: 184-190.
[6]Yang Lili, Jones B F, Yang S H. A fuzzy multi-objective programming for optimization of fire station locations through genetic algorithms [J]. European Journal of Operational Research, 2007, 181(2): 903-915.
[7]Erden T, Cokun M Z. Multi-criteria site selection for fire services: the interaction with analytic hierarchy process and geographic information systems [EB/OL]. (2010)[2024-05-03]. https://nhess.copernicus.org/articles/10/2127/2010/.
[8]李凱文, 張濤, 王銳, 等. 基于深度強(qiáng)化學(xué)習(xí)的組合優(yōu)化研究進(jìn)展 [J]. 自動(dòng)化學(xué)報(bào), 2021, 47(11): 2521-2537. (Li Kaiwen, Zhang Tao, Wang Rui, et al. Research reviews of combinatorial optimization methods based on deep reinforcement learning [J]. Acta Automatica Sinica, 2021, 47(11): 2521-2537.)
[9]Costa P, Rhuggenaath J, Zhang Yingqian, et al. Learning 2-optheuristics for the traveling salesman problem via deep reinforcement lear-ning [C]// Proc of the 12th Asian Conference on Machine Learning. New York: PMLR, 2020: 465-480.
[10]Kool W, Hoof H V, Welling M. Attention, learn to solve routing problems! [EB/OL]. (2019). https://arxiv.org/pdf/1803.0847.
[11]王中, 曹凱. 耦合改進(jìn)圖注意力網(wǎng)絡(luò)與深度強(qiáng)化學(xué)習(xí)的公共服務(wù)設(shè)施智能化選址方法 [J]. 地球信息科學(xué)學(xué)報(bào),2024,26(11):2452-2464. (Wang Zhong, Cao Kai. An intelligent site selection approach for public service facilities coupled with improved graph attention network and deep reinforcement learning [J]. Journal of Earth Information Science, 2024,26(11):2452-2464.)
[12]梁浩健. 基于深度學(xué)習(xí)的地理空間優(yōu)化問(wèn)題算法研究 [D]. 長(zhǎng)春:吉林大學(xué), 2024. (Liang Haojian. Research on algorithms for geospatial optimization problems based on deep learning [D]. Changchun:Jilin University, 2024.)
[13]Drori I, Kharkar A, Sickinger W R, et al. Learning to solve combinatorial optimization problems on real-world graphs in linear time [C]// Proc of the 19th IEEE International Conference on Machine Learning and Applications. Piscataway,NJ:IEEE Press, 2020: 19-24.
[14]Li Zhuwen, Chen Qifeng, Koltun V. Combinatorial optimization with graph convolutional networks and guided tree search [C]// Proc of the 32nd International Conference on Neural Information Processing Systems. New York:ACM Press, 2018: 537-546.
[15]Lu Hao, Zhang Xingwen, Yang Shuang. A learning-based iterative method for solving vehicle routing problems [EB/OL]. (2020). https://arxiv. org/pdf/2006. 09100v1.
[16]盛佳浩, 馬良, 劉勇. 自記憶的深度強(qiáng)化學(xué)習(xí)模型求解多維背包問(wèn)題 [J/OL]. 小型微型計(jì)算機(jī)系統(tǒng). [2024-06-19]. http://kns. cnki. net/kcms/detail/21. 1106. TP. 20230707. 1332. 004. html. (Sheng Jiahao, Ma Liang, Liu Yong. Based self memorized deep reinforcement learning model for solving multidimensional knapsack problem [J/OL]. Journal of Chinese Computer Systems. [2024-06-19]. http://kns. cnki. net/kcms/detail/21. 1106. TP. 20230707. 1332. 004. html.)
[17]伍康, 夏維, 王子源. 一種基于圖神經(jīng)網(wǎng)絡(luò)的改進(jìn)鄰域搜索算法 [J]. 計(jì)算機(jī)應(yīng)用研究, 2024, 41(5): 1402-1408. (Wu kang, Xia Wei, Wang Ziyuan. Improved neighborhood search algorithmbased on graph neural network [J]. Application Research of Computers, 2024, 41(5): 1402-1408.)
[18]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [EB/OL]. (2017). https://arxiv.org/abs/1706. 03762.
[19]Williams R J. Simple statistical gradient-following algorithms for connectionist reinforcement learning [J]. Machine Learning, 1992, 8(3-4): 229-256.
[20]鄭金華, 鄒娟. 多目標(biāo)進(jìn)化優(yōu)化 [M]. 北京: 科學(xué)出版社, 2018. (Zheng Jinhua, Zou Juan. Multi-objective evolutionary optimization [M]. Beijing: Science Press, 2018.)
[21]Ngambusabongsopa R. A novel diversity guided particle swarm multi-objective optimization algorithm [D]. Changsha:Hunan University, 2011.
[22]姚遠(yuǎn)遠(yuǎn), 葉春明, 楊楓. 雙目標(biāo)可重入混合流水車(chē)間調(diào)度問(wèn)題的離散灰狼優(yōu)化算法 [J]. 運(yùn)籌與管理, 2019, 28(8): 190-199. (Yao Yuanyuan, Ye Chunming, Yang Feng. Discrete grey wolf optimization algorithm for bi-objective reentrant hybrid flow shop scheduling problem [J]. Operations Research and Management Science, 2019, 28(8): 190-199.)
[23]么雙雙, 董志明, 王顯鵬. 基于分解的多目標(biāo)多因子進(jìn)化算法 [J]. 控制與決策, 2021, 36(3): 637-644. (Mo Shuangshuang, Dong Zhiming, Wang Xianpeng. Decomposition-based multi-objective multi-factor evolutionary algorithm [J]. Control and Decision, 2021, 36(3): 637-644.)
[24]Reyes-Sierra M, Coello C C A. Multi-objective particle swarm optimizers: a survey of the state-of-the-art [J]. International Journal of Computational Intelligence Research, 2006, 2(3): 287-308.
[25]王付宇, 王欣蕊, 賀昕, 等. 考慮需求緊迫度和綜合滿(mǎn)意度的應(yīng)急物資選址-調(diào)度問(wèn)題 [J]. 系統(tǒng)工程, 2024, 42(1): 37-50. (Wang Fuyu, Wang Xinrui, He Xin, et al. Emergency supplies location-scheduling problem considering urgency of demand and comprehensive satisfaction[J]. Systems Engineering, 2024, 42(1): 37-50.)
[26]Deb K, Agrawal S, Pratap A, et al. A fast and elitist multiobjective genetic algorithm: NSGA-Ⅱ [J]. IEEE Trans on Evolutionary Computation, 2002, 6(2): 182-197.
[27]趙海茹, 陳玲. 改進(jìn)MOPSO在物流節(jié)點(diǎn)選址模型中的應(yīng)用 [J]. 計(jì)算機(jī)工程與應(yīng)用, 2016, 52(12): 239-244. (Zhao Hairu, Chen Ling. Application of improved MOPSO in logistics node location mo-del[J]. Computer Engineering and Applications, 2016, 52(12): 239-244.)