劉冠男,曲金銘,李小琳,吳俊杰
(1. 北京航空航天大學(xué)經(jīng)濟(jì)管理學(xué)院,北京 100191;2. 南京大學(xué)商學(xué)院,南京 210093)
救護(hù)車作為一種重要的醫(yī)療資源,守護(hù)著患者的生命線,提前1min的應(yīng)急響應(yīng)就可能挽救更多生命.然而,囿于我國醫(yī)療資源的稀缺性,無論是在地理和資源相對匱乏的偏遠(yuǎn)地區(qū),還是在供不應(yīng)求的城市樞紐地區(qū),都面臨著不同程度的急救響應(yīng)不及時、救護(hù)車響應(yīng)范圍受限等問題.事實上,發(fā)達(dá)國家一般要求市內(nèi)的救護(hù)車響應(yīng)時間低于10min,但我國目前的救護(hù)車響應(yīng)時間遠(yuǎn)高于此標(biāo)準(zhǔn),例如福建省2015年日平均響應(yīng)時間為28.32min/次[1].而提高院前急救的響應(yīng)速度,除了增添應(yīng)急救護(hù)資源如新建急救網(wǎng)點(diǎn)、購進(jìn)救護(hù)車等長期基礎(chǔ)建設(shè)的方法之外,高效率地使用已有應(yīng)急資源是更加節(jié)約有效的選擇.因此,在限定已有應(yīng)急資源的約束條件下,如何進(jìn)行救護(hù)車資源的調(diào)配整合,成為一個重要的研究問題.
基于我國地域廣、行政范圍跨度大的特點(diǎn),國內(nèi)普遍的院前急救的調(diào)度方式是以行政范圍設(shè)立一個或多個集中調(diào)度急救中心.以南京市為例,南京市內(nèi)目前急救中心網(wǎng)絡(luò)內(nèi)設(shè)有60個急救站點(diǎn)(其中7個自管站、35個分站),形成了以“急救中心為基礎(chǔ)、分站為骨干”的“獨(dú)立院前急救型”模式.它依靠醫(yī)院建立多個分站,構(gòu)建輻射范圍足夠的急救網(wǎng)絡(luò),以實現(xiàn)統(tǒng)一調(diào)度、分散救治,但同時也限制了救護(hù)車在結(jié)束應(yīng)答之后必須返回原站點(diǎn).目前實際應(yīng)用的調(diào)度策略主要采取的是“就近原則”,即利用離呼叫發(fā)出地點(diǎn)最近站點(diǎn)派送救護(hù)車進(jìn)行響應(yīng).然而,呼叫需求的產(chǎn)生是分散且不確定的,因此僅依靠就近原則的響應(yīng)方式,往往只能響應(yīng)有限的需求;而當(dāng)產(chǎn)生新的用車需求時,只能從更遠(yuǎn)的站點(diǎn)派車,這就大大地增加了響應(yīng)時間.特別地,站點(diǎn)之間通常供需不均衡,這也導(dǎo)致了各站點(diǎn)間的響應(yīng)水平差異較大,影響到整體的應(yīng)急響應(yīng)時間和效率.由此可見,現(xiàn)行的救護(hù)車調(diào)度響應(yīng)往往缺乏全局、動態(tài)的視角,因而仍存在大量可優(yōu)化空間.近年來,研究領(lǐng)域也開始探索動態(tài)情境下的救護(hù)車調(diào)度策略,提出了一系列實時優(yōu)化的方法來設(shè)計派車、站點(diǎn)之間的車輛調(diào)配等問題[2-6].
從我國醫(yī)療救護(hù)的現(xiàn)實情況來看,醫(yī)院站點(diǎn)之間進(jìn)行救護(hù)車的動態(tài)重定位(redeployment)是一種現(xiàn)實可行的、操作相對簡單且預(yù)期能帶來顯著效果的急救調(diào)度方式.因此,本研究試圖針對站點(diǎn)之間供需不均衡的問題,在有限救護(hù)車數(shù)量、限定調(diào)度范圍、限定時序優(yōu)先順序的約束條件下,設(shè)計救護(hù)車站點(diǎn)之間的調(diào)度策略以提升救護(hù)車整體的響應(yīng)效率.考慮到救護(hù)車調(diào)度中動態(tài)時變的環(huán)境以及面向動態(tài)狀態(tài)下的調(diào)度尋優(yōu)目標(biāo),該問題可以被形式化為一種強(qiáng)化學(xué)習(xí)(reinforcement learning)結(jié)構(gòu),即在動態(tài)環(huán)境(environment)與動作(action)的交互過程獲取獎勵(reward),并以最優(yōu)化全局獎勵為目標(biāo)學(xué)習(xí)產(chǎn)生動作策略.然而,針對現(xiàn)實場景中的救護(hù)車重定位調(diào)度問題,其狀態(tài)空間及對應(yīng)的動作空間組合較大,會面臨較高的時空復(fù)雜度的嚴(yán)峻挑戰(zhàn).而在面向全局的實時動態(tài)調(diào)度需求時,要實現(xiàn)優(yōu)化目標(biāo)則更加困難.為解決這種高維度狀態(tài)空間下的獎勵值函數(shù)估計問題,深度強(qiáng)化學(xué)習(xí)在近年來得到了巨大的發(fā)展,并被應(yīng)用到了各類實際的動態(tài)決策問題中.其基本的思路是利用深度神經(jīng)網(wǎng)絡(luò)來估計強(qiáng)化學(xué)習(xí)中的獎勵值函數(shù),從而建立狀態(tài)、動作與獎勵值之間的映射關(guān)系.
本文基于Deep Q-Network(DQN)的深度強(qiáng)化學(xué)習(xí)方法,以最小化救護(hù)車平均響應(yīng)時間為目標(biāo),根據(jù)各時刻的環(huán)境狀態(tài)進(jìn)行站點(diǎn)之間救護(hù)車的動態(tài)重定位調(diào)度.為規(guī)避低效甚至無效的調(diào)度,本文擴(kuò)展了傳統(tǒng)的DQN算法,提出了一種考慮調(diào)度交互因子的算法RedCon-DQN,以在決策過程中考慮一些外部環(huán)境對調(diào)度智能體之間信息交互等影響.此外,應(yīng)注意不同站點(diǎn)承載的應(yīng)急能力有所不同;特別是由于各站點(diǎn)之間的供需不均衡,會導(dǎo)致某些站點(diǎn)成為救護(hù)車全局響應(yīng)時間優(yōu)化的瓶頸.然而,目前相關(guān)文獻(xiàn)中尚缺乏對站點(diǎn)響應(yīng)能力的評價測度.為此,基于交通彈性網(wǎng)絡(luò)理論[7-11],本文提出了急救網(wǎng)絡(luò)彈性測度,以評價各救護(hù)站點(diǎn)的響應(yīng)能力,從而幫助識別全局救護(hù)響應(yīng)的瓶頸,為應(yīng)急響應(yīng)資源的調(diào)配等問題提供決策依據(jù).在此基礎(chǔ)上,本文利用南京市2016年~2017年救護(hù)呼叫及響應(yīng)數(shù)據(jù)構(gòu)造了環(huán)境交互模擬器,并通過大規(guī)模實驗驗證了提出的調(diào)度算法的有效性,并分析了其在不同時間段的表現(xiàn).同時,對各救護(hù)站點(diǎn)的急救網(wǎng)絡(luò)彈性進(jìn)行度量,分析了典型的瓶頸站點(diǎn),為未來的站點(diǎn)選址、資源分配等管理問題提供了決策依據(jù).
救護(hù)車調(diào)度問題是一個重要的研究問題,研究者在該領(lǐng)域進(jìn)行了大量的探索.其中一種典型的調(diào)度策略是靜態(tài)視角下的救護(hù)車站點(diǎn)分配,將有限的救護(hù)車輛固定分配到各個站點(diǎn)上,從而盡可能覆蓋更多的救護(hù)需求,即MEXCLP問題[12],一般而言可利用Lookup tables進(jìn)行求解[13];Lee[14]從復(fù)雜網(wǎng)絡(luò)研究的中心性原則出發(fā),提出了一種適用于各種苛刻的緊急狀況(例如災(zāi)難等)的救護(hù)車調(diào)度策略,王付宇等[15]以帶三角函數(shù)變異的離散型螢火蟲優(yōu)化算法解決震后傷員救援車輛兩階段優(yōu)化問題.但顯然,這種靜態(tài)策略無法適應(yīng)環(huán)境和需求的動態(tài)變化.因而近年來研究也開始著重關(guān)注救護(hù)車的動態(tài)調(diào)度策略問題.在動態(tài)環(huán)境下,救護(hù)車并不固定依附于某個特定站點(diǎn),而采用重定位(redeployment)、重定向(relocation)等策略進(jìn)行救護(hù)車的調(diào)度[2-4].Zhang等[2]將該問題視為馬爾科夫決策,在模擬系統(tǒng)隨機(jī)性的前提下進(jìn)行動態(tài)調(diào)度,Jagtenberg等[3]利用啟發(fā)式算法進(jìn)行了動態(tài)救護(hù)車重定位問題的研究,Barneveld基于改進(jìn)的MEXPREP,并使用Compliance table方法來進(jìn)行救護(hù)車重定向問題的研究[4];Maxwell等[5]和Schmid[6]等針對實時調(diào)度問題的復(fù)雜性,提出利用Approximate Decision Process(ADP)來優(yōu)化調(diào)度策略;Gendreau等提出了一個動態(tài)模型用以解決實時重定向問題[16],還提出了整數(shù)線性規(guī)劃模型來解決MEXCLP重定位問題[17].此外,學(xué)者考慮傷情優(yōu)先級的角度來進(jìn)行救援路徑的優(yōu)化[18-20],并且考慮急救站的緊急程度來進(jìn)行數(shù)據(jù)驅(qū)動的動態(tài)調(diào)度[21],還有學(xué)者針對不同的優(yōu)化目標(biāo),如最大化在一定時間閾值內(nèi)進(jìn)行救援的比例[5]、最大化期望覆蓋面積[17]等進(jìn)行了研究.總體而言,現(xiàn)有的救護(hù)車調(diào)度研究中,主要采用的是基于單一目標(biāo)的優(yōu)化方法.針對動態(tài)規(guī)劃下動作空間維度較高的特點(diǎn),有學(xué)者提出了以近似動態(tài)規(guī)劃法、利用靜態(tài)規(guī)劃和計算邊界進(jìn)行動態(tài)部署等方法來解決計算復(fù)雜度問題[22-23],但總體計算效率仍然較低.因此,這類方法對于高維復(fù)雜狀態(tài)空間的動態(tài)調(diào)度問題存在一定的局限,未能根據(jù)動作與環(huán)境交互的結(jié)果進(jìn)行調(diào)度策略的學(xué)習(xí);同時,由于動作空間的高維特征,對于優(yōu)化目標(biāo)的估計也面臨較大的挑戰(zhàn).
強(qiáng)化學(xué)習(xí)是一種無監(jiān)督學(xué)習(xí)方法,能夠通過和環(huán)境的交互來自我學(xué)習(xí)和更新,也即一種不斷試錯學(xué)習(xí)、通過得到的評價性信息來不斷修正自己的行為的機(jī)器學(xué)習(xí)算法.而深度強(qiáng)化學(xué)習(xí)方法是將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)方法進(jìn)行結(jié)合的算法,通過神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的引入,可以實現(xiàn)動作的直接輸出.2013年DeepMind公司的Mnih等[24]開創(chuàng)性地提出了DQN(Deep Q-Network )之后,深度強(qiáng)化學(xué)習(xí)迅速成為了研究熱點(diǎn).DQN通過引入經(jīng)驗回放機(jī)制,直接接收高維輸入值并進(jìn)行學(xué)習(xí),使得算法能夠在各種視頻游戲的表現(xiàn)上超過人類.緊隨其后,研究者提出了大量基于DQN的改進(jìn)算法,包括了基于策略的算法(DPPO[25]、DDPG[26]),基于獎勵值和策略的算法(A2C、A3C[27])等.與此同時,關(guān)于強(qiáng)化學(xué)習(xí)的研究也從單智能體向多智能體擴(kuò)展,即多智能體系統(tǒng)(multi-agent system,MAS) .多智能體改變了以往由單個智能行為對象與環(huán)境交互改變狀態(tài)信息的情況,演變?yōu)槎鄠€智能行為體對象共同與環(huán)境交互,并且互相影響的系統(tǒng)[28],而同時多智能體之間的協(xié)調(diào)也成為一種學(xué)習(xí)問題[29].實際上,已有研究在考慮多智能體協(xié)同時基于了監(jiān)督學(xué)習(xí)的方式,提出了宏觀策略上的通信方式[30].在這種方式下,可以將監(jiān)督學(xué)習(xí)下的其他智能體的標(biāo)簽作為目標(biāo)智能體的特征輸入,但這一方法不適用于無監(jiān)督學(xué)習(xí)環(huán)境下的無標(biāo)簽協(xié)同問題.
隨著深度強(qiáng)化學(xué)習(xí)的廣泛應(yīng)用,也有研究者將強(qiáng)化學(xué)習(xí)應(yīng)用于調(diào)度等管理問題中.例如,Lin等[31]以收益最大化為目標(biāo),考慮實時動態(tài)的城市出行用車需求,基于DQN設(shè)計了對共享出租車平臺(如滴滴出行)的車輛重定位策略.Wang等[32]提出將深度強(qiáng)化學(xué)習(xí)于有監(jiān)督學(xué)習(xí)方法相結(jié)合,并利用深度循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)來進(jìn)行診療方案的動態(tài)推薦.Wei等[33]利用深度強(qiáng)化學(xué)習(xí)來訓(xùn)練交通信號燈的控制策略,以期降低排隊和擁堵,并提供策略的解釋性.Ardi等[34]進(jìn)行了多智能體和深度強(qiáng)化學(xué)習(xí)的結(jié)合使用,用于模擬游戲中不同智能體對同一物體的共同操作.這種基于多智能體強(qiáng)化學(xué)習(xí)結(jié)構(gòu)適用于考慮協(xié)同合作的調(diào)度問題,而其中的挑戰(zhàn)和焦點(diǎn)則在于如何高效地建立多智能體之間的信息溝通,從而更高效的實現(xiàn)調(diào)度優(yōu)化目標(biāo).特別是面向?qū)嶋H的救護(hù)調(diào)度的限制條件和環(huán)境約束,更加需要設(shè)計特定的結(jié)合環(huán)境因素的智能體間的狀態(tài)交互,以實現(xiàn)高效的調(diào)度.
如前所述,制約救護(hù)車資源使用不均衡的原因之一在于目前的調(diào)度策略往往沒有提前進(jìn)行動態(tài)的負(fù)載平衡,也就是沒有根據(jù)實際的動態(tài)需求在各站點(diǎn)進(jìn)行合理有效的車輛調(diào)度,以實現(xiàn)總體響應(yīng)時間的優(yōu)化.換言之,如果能將救護(hù)車輛資源提前調(diào)配至需求旺盛區(qū)域,可以能更好地響應(yīng)呼叫需求,即將閑置救護(hù)車在不同站點(diǎn)之間進(jìn)行重定位(redeployment).這種調(diào)度方式的優(yōu)點(diǎn)在于,系統(tǒng)可以根據(jù)當(dāng)前的環(huán)境需求狀態(tài),在各站點(diǎn)之間進(jìn)行閑置救護(hù)車的重新部署,將救護(hù)車從潛在的低需求站點(diǎn)向高需求站點(diǎn),從而保證高需求站點(diǎn)附近的呼叫需求能被快速響應(yīng),實現(xiàn)總體響應(yīng)時間的降低.這種調(diào)度策略是在事前發(fā)生的,一旦完成調(diào)度就能迅速和最近的呼叫需求進(jìn)行匹配,從而降低響應(yīng)時間.
因此,有必要根據(jù)動態(tài)的環(huán)境狀態(tài)來進(jìn)行調(diào)度策略的尋優(yōu),例如根據(jù)當(dāng)前站點(diǎn)的救護(hù)車輛數(shù),以及近期周邊的呼叫需求量,來綜合決定是否需要向該站點(diǎn)增派車輛,以及從哪個站點(diǎn)進(jìn)行車輛的重定位調(diào)度.然而,需求總是處于動態(tài)變化之中,難以準(zhǔn)確預(yù)測特定地區(qū)的急救需求,這使得基于實際需求狀態(tài)進(jìn)行調(diào)度也更加困難.為此,本文將救護(hù)車重新部署調(diào)度問題形式化為一個強(qiáng)化學(xué)習(xí)問題.具體而言,救護(hù)車的重定位調(diào)度的強(qiáng)化學(xué)習(xí)可以被定義為:給定集中調(diào)度中心的信息平臺上的呼叫信息、車輛狀態(tài)、所屬站點(diǎn)等信息,通過救護(hù)車實時的重新部署調(diào)度,實現(xiàn)地區(qū)救護(hù)車平均響應(yīng)時間的最優(yōu)化.其中,反映響應(yīng)時間全局最優(yōu)化的通常包括三個指標(biāo):呼叫響應(yīng)率、全局平均響應(yīng)時間和黃金時間比例.具體而言,本文研究的重定位調(diào)度策略即為:在時刻t,從站點(diǎn)X向站點(diǎn)Y調(diào)配救護(hù)車.
為了簡化起見,本研究以一天為周期,將10min作為調(diào)度周期,從而可以將全天24h劃分為T=144個時間區(qū)間.在每個時間區(qū)間內(nèi),調(diào)度中心會根據(jù)各站點(diǎn)實時的狀態(tài)信息和呼叫信息,來對車輛進(jìn)行調(diào)度動作,調(diào)度動作會在各站點(diǎn)之間的救護(hù)車進(jìn)行重新部署和調(diào)動.與此同時,按照近鄰原則和先到先響應(yīng)的原則,對車輛和呼叫訂單之間進(jìn)行匹配,而實際的急救響應(yīng)時間則為救護(hù)車出發(fā)至急救點(diǎn),最后回到站點(diǎn)的所有時間.問題的本質(zhì)即是決定在當(dāng)前時間點(diǎn)每個醫(yī)院分站應(yīng)當(dāng)有多少輛救護(hù)車,能夠最大限度的第一時間響應(yīng)呼叫,將呼叫響應(yīng)的時間最小化.
本文涉及到的呼叫響應(yīng)及救護(hù)車輛調(diào)度時間線如圖1所示.值得注意的是,本文所研究的重定位的調(diào)度動作并不是由一個特定的急救事件觸發(fā)的,而是根據(jù)系統(tǒng)當(dāng)前各個站點(diǎn)的救護(hù)車數(shù)量和需求情況實時進(jìn)行的;換言之,系統(tǒng)按照一定的調(diào)度周期來進(jìn)行調(diào)度動作,而不是依賴于某一特定的急救事件.在本模型中,救護(hù)的響應(yīng)時間是指救護(hù)車從站點(diǎn)出發(fā)到急救地點(diǎn),最后回到站點(diǎn)從而完成整個救護(hù)過程的時間,不包含120應(yīng)答與車輛分配的時間.此外,由于救護(hù)車性質(zhì)的特殊性,結(jié)合現(xiàn)實情況,本文假定救護(hù)車在完成所在急救站點(diǎn)的呼叫應(yīng)答后,通常會返回原站點(diǎn).因此不考慮車到人不走、車到其他醫(yī)院等特殊情況,同時忽略救護(hù)車損壞等隨機(jī)情況.
圖1 呼叫響應(yīng)及車輛調(diào)度時間線
如上所述,本文使用N個智能體參與的馬爾科夫決策過程G(N,S,A,R,P,γ)來描述救護(hù)車調(diào)度問題,其中的參數(shù)N為救護(hù)車數(shù)量,S為狀態(tài)空間,A為策略空間,R為執(zhí)行動作后的獎勵函數(shù)值,P為狀態(tài)轉(zhuǎn)移概率,γ表示遠(yuǎn)期獎勵值在當(dāng)期的折扣率.具體來說,問題G中的主要元素的定義如下.
1)智能體(agent)
醫(yī)院急救站點(diǎn)中的可用救護(hù)車,即一個在線的、不在應(yīng)答呼叫過程中的救護(hù)車是本文認(rèn)為的可調(diào)度的智能體,其中在應(yīng)答過程中的救護(hù)車無法響應(yīng)急救中心的調(diào)度.對一個站點(diǎn)在選擇響應(yīng)急救呼叫的救護(hù)車的方式具有隨機(jī)性,因此假設(shè)同一個時間節(jié)點(diǎn)在同一個醫(yī)院站點(diǎn)的救護(hù)車完全同質(zhì),對同質(zhì)救護(hù)車的調(diào)度均可被認(rèn)為是相同的調(diào)度策略.在該問題中總智能體數(shù)量恒定為N,但是可被調(diào)度的數(shù)量Nt是隨著時間t不斷變化的.
2)狀態(tài)空間(state)
各時刻t均具有一個全局狀態(tài)st∈S,對單個救護(hù)車智能體而言,其狀態(tài)信息包含了所處醫(yī)院站點(diǎn)gj,所在站點(diǎn)在該時刻的呼叫數(shù)量mjt,及所在站點(diǎn)可用救護(hù)車數(shù)量njt.值得注意的是,相同站點(diǎn)下具有同質(zhì)性的智能體具有相同的局部狀態(tài)信息,而每條狀態(tài)信息中的離散特征如時間、醫(yī)院站點(diǎn)編號等均采取獨(dú)熱編碼(one-hot encoding)進(jìn)行轉(zhuǎn)換.
3)動作空間(action)
本研究針對救護(hù)車所采取的調(diào)度動作包括:救護(hù)車保留在原站點(diǎn)或重定位到K個近鄰站點(diǎn).因此對于一輛可調(diào)度的救護(hù)車來說,其狀態(tài)空間大小為K+1.在t時刻,針對各站點(diǎn)的救護(hù)車,可采取的動作為at∈A=A1∪A2∪…∪ANt.為簡化起見,假設(shè)調(diào)度動作在t時間點(diǎn)上立刻發(fā)生,不考慮重定位調(diào)度動作的時間成本,但考慮非時間成本c;因此,重定位的目標(biāo)站點(diǎn)選取需考慮到站點(diǎn)之間的距離因素,本研究取K=4,針對每個救護(hù)車的動作空間大小都為5,數(shù)值范圍在0-4之間.其中at=0代表救護(hù)車留在當(dāng)前醫(yī)院站點(diǎn),后四個數(shù)值分別代表調(diào)度到最近鄰的四個醫(yī)院,例如at=3代表轉(zhuǎn)移到所在醫(yī)院站點(diǎn)的第三近鄰醫(yī)院站點(diǎn).
4)獎勵(reward)
基于以上關(guān)于救護(hù)車重定位問題的強(qiáng)化學(xué)習(xí)的結(jié)構(gòu)定義,該問題可以被認(rèn)為是一輛救護(hù)車智能體在動態(tài)變化的呼叫需求環(huán)境中,在獲得環(huán)境狀態(tài)信息后,執(zhí)行了某種動作與環(huán)境交互,環(huán)境受到動作影響并返回對智能體的獎勵和下一個環(huán)境信息,從而構(gòu)成一個完整的單步迭代強(qiáng)化學(xué)習(xí),如圖2所示.
圖2 單步迭代過程
Fig. 2 The iterative process in single step
Q-learning是一種基于時序差分學(xué)習(xí)的強(qiáng)化學(xué)習(xí)算法[37],其基本思想是根據(jù)當(dāng)前環(huán)境狀態(tài)執(zhí)行ε-貪心策略,執(zhí)行動作得到新的狀態(tài)獎勵函數(shù)值,進(jìn)而利用動態(tài)規(guī)劃思想,通過后繼狀態(tài)來更新Q函數(shù)值.
在動作數(shù)量和狀態(tài)數(shù)量都比較低維的情況下,Q值列表的計算和更新都是比較容易的.但是當(dāng)兩者之一的維度空間較高時,計算的時間與空間需求都會迅速增長,導(dǎo)致Q值的更新的復(fù)雜度較高.對于救護(hù)車重定位調(diào)度問題,每個站點(diǎn)的救護(hù)車數(shù)目都處于動態(tài)變化中,狀態(tài)空間極大;用傳統(tǒng)的Q值表難以維護(hù)狀態(tài)和對應(yīng)的動作.有鑒于此,本文采用Deep Q-network (DQN)算法來進(jìn)行策略學(xué)習(xí).DQN是一種將Q-learning算法和深度神經(jīng)網(wǎng)絡(luò)有效結(jié)合起來的一種強(qiáng)化學(xué)習(xí)算法,同樣基于時序差分學(xué)習(xí)的思路,并利用深度神經(jīng)網(wǎng)絡(luò)來建立狀態(tài)動作與獎勵,即Q函數(shù)值(Q-value)之間的映射函數(shù)關(guān)系.一般而言,Q-network第一層輸入網(wǎng)絡(luò)輸入節(jié)點(diǎn)代表的是狀態(tài)值向量,中間層節(jié)點(diǎn)代表神經(jīng)網(wǎng)絡(luò)的隱藏層,輸出節(jié)點(diǎn)代表對應(yīng)的Q值.在訓(xùn)練DQN時,通過執(zhí)行動作與環(huán)境交互得到獎勵函數(shù)Q值作為標(biāo)簽,并記錄在經(jīng)驗回放池(experience replay)中;利用抽樣產(chǎn)生批量的訓(xùn)練樣本進(jìn)行Q網(wǎng)絡(luò)的參數(shù)估計.具體對于單個救護(hù)車智能體來說,其優(yōu)化的目標(biāo)損失函數(shù)如下
(1)
其中θ和θ′分別代表實際Q網(wǎng)絡(luò)和目標(biāo)Q網(wǎng)絡(luò)(target Q-network)的參數(shù).在本文的問題當(dāng)中,每個救護(hù)車智能體也可以按照上述思想進(jìn)行獨(dú)立調(diào)度,但調(diào)度的預(yù)期獎勵往往會和實際得到獎勵產(chǎn)生差距,這是因為全局狀態(tài)會受到所有救護(hù)車的聯(lián)合調(diào)度動作影響,獎勵會與針對單個救護(hù)車進(jìn)行重定位動作的期望獎勵值有所不同.
基于第2節(jié)中提到的救護(hù)車同質(zhì)性的條件和概念,將同質(zhì)的概念遷移到Q值獎勵函數(shù)上
(2)
式(2)是在說明同時間點(diǎn)、同醫(yī)院站點(diǎn)的Q值是相同的,這背后呈現(xiàn)了同質(zhì)救護(hù)車和同質(zhì)獎勵的理念.這也解釋了在基于Q值選擇動作的本算法中,為什么同質(zhì)救護(hù)車的動作選擇相同.因此,式(1)可以調(diào)整為
(3)
其中Ner(gd)表示站點(diǎn)gd附近的近鄰站點(diǎn)集合.通過這樣的設(shè)計,動作和狀態(tài)的組合空間大小得到降低,只需要考慮按照醫(yī)院站點(diǎn)數(shù)來計算即可.但是,對于救護(hù)車重定位調(diào)度的優(yōu)化目標(biāo)來說,考慮到調(diào)度過程中站點(diǎn)之間調(diào)度的距離,救護(hù)車的可用性,以及多輛救護(hù)車之間的協(xié)調(diào)等實際因素,還需要進(jìn)一步補(bǔ)充相關(guān)的約束條件,避免低效、冗余的調(diào)度策略.為此,需要對傳統(tǒng)的DQN算法進(jìn)行擴(kuò)展,在獎勵函數(shù)中融合考慮如下因子.
1)地理交互因子
有效的重定向調(diào)度是指可以在有限的時間內(nèi)將救護(hù)車在不同的急救站點(diǎn)之間進(jìn)行重定位.因此認(rèn)為,在設(shè)定的最近鄰站點(diǎn)中超出一定距離的站點(diǎn)應(yīng)被視作無效站點(diǎn),無法進(jìn)行調(diào)度動作.這是由于調(diào)度時間過長,會與降低全局平均應(yīng)答時間的最終目標(biāo)相悖.根據(jù)實際情況設(shè)定距離閾值為10km.基于此提出了地理交互因子Ggj,其定義如下
(4)
其中g(shù)d是位于gj中的救護(hù)車采取第k個動作所轉(zhuǎn)移到的醫(yī)院站點(diǎn),該因子是可以預(yù)先加載和記錄的.顯然,對于留在本地的動作不需要考慮距離的問題,對應(yīng)的交互因子恒為1;而其余調(diào)度動作的地理交互因子是需要根據(jù)站點(diǎn)之間的距離進(jìn)行計算.
2)動作交互因子
對于動作空間上的動作來說,調(diào)度對于任何救護(hù)車都應(yīng)該是可行的,但是救護(hù)車應(yīng)答呼叫的時間往往要長于時間區(qū)間(10min),所以對于正在應(yīng)答呼叫的救護(hù)車而言,在它們的應(yīng)答行為完成之前,它們的目的地都是原醫(yī)院站點(diǎn),所以應(yīng)當(dāng)取消它們在當(dāng)前時間的調(diào)度資格.由此引入動作交互因子Oi,其定義如下
(5)
該動作因子是針對救護(hù)車的實時更新的是否能夠進(jìn)行調(diào)度的信號,當(dāng)救護(hù)車在線不處于應(yīng)答狀態(tài)的時候,對車輛進(jìn)行調(diào)度,否則將拒絕進(jìn)行調(diào)度,默認(rèn)動作為留在原有醫(yī)院站點(diǎn).
3)信息交互因子
對于調(diào)度的目標(biāo)來說有正面效果的動作才是有效動作,因為涉及到多輛救護(hù)車的動作調(diào)度,因此需要設(shè)計多智能體信息交互的渠道,來保證調(diào)度行為的有效性.為此,引入了信息交互因子Ct,gj,其定義如下
(6)
其中g(shù)i是位于gi中的救護(hù)車采取第k個動作所轉(zhuǎn)移到的醫(yī)院站點(diǎn).信息交互因子的作用在于取消兩個醫(yī)院站點(diǎn)之間互相調(diào)度的行為,比如H01醫(yī)院站點(diǎn)的089號救護(hù)車調(diào)度到H02,同時H02的090號救護(hù)車調(diào)度到H01,這樣的調(diào)度行為是被信息交互因子所限制的,因為從全局優(yōu)化的角度上來看,對于醫(yī)院可用車輛數(shù)量沒有改變,所以它是無效的調(diào)度.該因子能夠讓它限制雙邊調(diào)度,而要求調(diào)度策略體現(xiàn)全局一致性,即單向調(diào)度.在信息交互因子的限制下,同一站點(diǎn)的可調(diào)度救護(hù)車會產(chǎn)生一致動作,即向使得Q值最優(yōu)的臨近站點(diǎn)進(jìn)行調(diào)度;同時,不同調(diào)度路程會引起調(diào)度時間成本的不同,因此本文對調(diào)度距離進(jìn)行了限制,即僅在范圍10km的距離限制進(jìn)行車輛的調(diào)度,因此可以認(rèn)為,從不同距離的兩個臨近醫(yī)院點(diǎn)向同一站點(diǎn)的調(diào)度行為是等價的.
算法1 RedCon-DQN算法
綜合以上三類交互因子,調(diào)度策略優(yōu)化的有效獎勵值可以重新被定義為
(7)
基于以上更新后的Q值進(jìn)行的動作選擇能夠保證在全局視角下,同質(zhì)的救護(hù)車采取的行為是嚴(yán)格一致、單調(diào)的.這在單智能體的DQN算法里是難以達(dá)成的.也是DQN算法適用性改進(jìn)以用于救護(hù)車集中調(diào)度的關(guān)鍵所在,即智能體信息交互的關(guān)鍵通道,算法1展示了考慮重定位調(diào)度因子的DQN (Redeployment Contextual DQN, RedCon-DQN)算法.
(8)
其中AT(HK)是站點(diǎn)HK的平均響應(yīng)時間.
本文基于南京市2016年6月~2017年5月的真實急救呼叫及救護(hù)車響應(yīng)數(shù)據(jù)進(jìn)行環(huán)境交互模擬器的構(gòu)建.數(shù)據(jù)主要包括了實時呼叫訂單流水號、救護(hù)車標(biāo)號、實時位置經(jīng)緯度、實時方向、實時速度等信息.本文只考慮南京市范圍內(nèi)的應(yīng)答信息,不考慮有出入境的特殊情況;只考慮正常情況下的應(yīng)答情況,不考慮超長時長和超長距離的呼叫信息.
通過將南京市三級及以上醫(yī)院和急救中心信息(1)數(shù)據(jù)來源:南京市2017年衛(wèi)生統(tǒng)計年鑒.與真實急救呼叫數(shù)據(jù)中的醫(yī)院站點(diǎn)進(jìn)行比對,并經(jīng)人工校對,確定了37所醫(yī)院為實際的急救站點(diǎn).同時,由實際急救數(shù)據(jù)可知,南京市2016年~2017年實際運(yùn)營的救護(hù)車數(shù)量為108輛.圖3展示了南京市急救中心站點(diǎn)的分布情況.而總體來說,全年的呼叫平均響應(yīng)時間為28.02min.
圖3 南京市急救中心官方分站點(diǎn)分布圖
如圖4所示,以1天為周期,10min為一個時間窗口,可以得到在T=144的時間劃分中的呼叫數(shù)量分布.可以發(fā)現(xiàn),從T=0到T=20(0:00~3:20)的時間區(qū)間內(nèi),呼叫數(shù)量一直處于下降趨勢,一直到T=30(5:00)左右降到最低點(diǎn);隨后開始回升在T=60(10:00)處達(dá)到峰值,在T=60到T=80(10:00~13:00)之間呈現(xiàn)驟降,在T=80 到T=144之間呈現(xiàn)緩慢而穩(wěn)定的下降趨勢.南京市內(nèi)救護(hù)車日均出車次數(shù)379次/天,也就是最終要控制日均訂單生成數(shù)量近似于379次/天.
圖4 南京市呼叫數(shù)量的時間分布圖
在實際呼叫場景中,呼叫的時間、地點(diǎn)不受外界調(diào)度因素影響,因此在構(gòu)造模擬器之前,本文首先根據(jù)歷史呼叫訂單數(shù)據(jù)從呼叫的時間分布、距離、車輛速度等方面進(jìn)行擬合,從而得到符合現(xiàn)實調(diào)度場景的數(shù)據(jù)環(huán)境,擬合結(jié)果如圖5所示.
4.2.1 呼叫距離擬合
基于實際呼叫信息,以及與響應(yīng)站點(diǎn)的距離、響應(yīng)時間等信息,所有呼叫距離分布如圖5(a) 所示,可以發(fā)現(xiàn)呼叫訂單主要分布在20km以下的區(qū)間范圍內(nèi),整體可以用一個指數(shù)分布進(jìn)行擬合.
4.2.2 呼叫時間分布擬合
考慮到各個醫(yī)院的實際日平均訂單數(shù)量根據(jù)醫(yī)院級別和地域有很大區(qū)別,在進(jìn)行各醫(yī)院站點(diǎn)的呼叫數(shù)量擬合時采取分醫(yī)院擬合的方式,每個醫(yī)院享有自己的分布參數(shù).在使用混合高斯模型對呼叫數(shù)量的擬合過程中,本文發(fā)現(xiàn),當(dāng)采用由6個高斯分布擬合的效果較好,擬合效果如圖5(b)所示.
4.2.3 車輛平均行駛速度的分布計算
考慮急救呼叫的響應(yīng)時間與距離之間的關(guān)系強(qiáng)烈依賴于車輛行駛速度的結(jié)論,對單位天時間分布上的車輛行駛平均速度進(jìn)行計算,獲得的車輛行駛平均速度的分布如圖5(c)所示,并通過捕獲不同時間段的平均速度來擬合不同時段的真實的急救應(yīng)答時間.從計算結(jié)果可以看出在呼叫訂單的數(shù)量高峰時段T=40到T=60、T=80到T=120之間,行駛速度產(chǎn)生了明顯的下降,這與人們的認(rèn)知相符合.基于此,本文提出了“距離-速度”架構(gòu)來對真實的呼叫和響應(yīng)進(jìn)行擬合.
(a) 呼叫距離擬合(a) Emergency distance fitting
(b) 呼叫時間擬合
(b) Emergency time fitting
(c) 救護(hù)車行駛速度
(c) Speed of ambulances
圖5 呼叫數(shù)據(jù)擬合
Fig. 5 The fitting of emergnecy data
4.2.4 擬合結(jié)果
在“距離-速度”的擬合框架下,用生成的訂單的路徑距離除以所在時間段的車輛行駛平均速度,以獲得訂單基礎(chǔ)時間估計,再用擬合的全部訂單數(shù)量時序數(shù)據(jù)和全部訂單時間時序數(shù)據(jù)來對呼叫應(yīng)答時間進(jìn)行修正,從而獲得更加精準(zhǔn)的環(huán)境模擬器.最終的擬合效果對比如圖6和圖7所示.研究對環(huán)境交互模擬器的訂單生成情況進(jìn)行實際統(tǒng)計檢驗,呼叫數(shù)量分布擬合的R2= 0.905 551,Pearson相關(guān)系數(shù)為0.951 605;呼叫訂單響應(yīng)時間分布擬合R2= 0.830 052,Pearson相關(guān)系數(shù)為 0.911 082,可以認(rèn)為呼叫數(shù)據(jù)的擬合情況比較符合實際,貼近現(xiàn)實中南京市急救呼叫訂單的分布和響應(yīng)狀況.
圖6 呼叫訂單數(shù)量分布擬合
圖7 呼叫響應(yīng)時間分布擬合
表1 實驗參數(shù)表
根據(jù)上述呼叫數(shù)量與時間、距離分布的擬合結(jié)果,可以生成呼叫訂單,并基于此進(jìn)行救護(hù)車站點(diǎn)之間的重定位調(diào)度與狀態(tài)更新、呼叫訂單的分配以及獎勵值計算.
救護(hù)車調(diào)度與狀態(tài)更新:每一個時刻,模擬器生成呼叫數(shù)據(jù)(時間、位置等),并基于狀態(tài)信息(各站點(diǎn)救護(hù)車可用數(shù)量、是否在途等)進(jìn)行車輛調(diào)度,進(jìn)而更新救護(hù)車所屬站點(diǎn)及各站點(diǎn)救護(hù)車數(shù)量等狀態(tài)信息.同時返回交互因子的計算信息,以獲取聯(lián)合動作.
呼叫訂單分配:當(dāng)調(diào)度工作完成后,立刻開始呼叫訂單和救護(hù)車的匹配應(yīng)答工作.同站點(diǎn)的所有救護(hù)車隨機(jī)匹配訂單,如果呼叫訂單沒有剩余,則結(jié)束匹配,返回獎勵值,即醫(yī)院站點(diǎn)的平均響應(yīng)時間;如果呼叫訂單有剩余但最近站點(diǎn)無可用救護(hù)車,進(jìn)入并按遠(yuǎn)近順序遍歷近鄰醫(yī)院進(jìn)行應(yīng)答匹配;當(dāng)遍歷完成,仍未應(yīng)答的訂單會歸入未響應(yīng)隊列,此時呼叫訂單消除,被認(rèn)為是無法響應(yīng)的訂單.
獎勵值計算:在狀態(tài)更新時進(jìn)行獎勵值計算,即局部平均響應(yīng)時間計算,當(dāng)訂單分配到近鄰醫(yī)院站點(diǎn)時,環(huán)境模擬器會更新訂單時長,產(chǎn)生一個等待時間,用以懲罰訂單承接不及時,這一部分的獎勵會算在訂單產(chǎn)生的醫(yī)院節(jié)點(diǎn)當(dāng)中,提高該地區(qū)的平均響應(yīng)時間,用以激勵救護(hù)車向本醫(yī)院站點(diǎn)進(jìn)行調(diào)度.同時向全局更新每一步的全局時間,用以計算最終的評價指標(biāo),同時統(tǒng)計完成訂單的情況.
在實驗中,通過環(huán)境交互模擬器生成呼叫的時間、距離等數(shù)據(jù),具體包括每個時刻上的呼叫訂單信息,包括呼叫數(shù)量、每個訂單到醫(yī)院的距離、時長、所屬醫(yī)院.每天的模擬訂單數(shù)量平均為384次/天,接近真實數(shù)據(jù)值.實驗用2 000天的調(diào)度數(shù)據(jù)做平均響應(yīng)時間和初次應(yīng)答響應(yīng)率的調(diào)度效果檢驗,保證數(shù)據(jù)和結(jié)果的穩(wěn)定性與魯棒性.
5.2.1 對比算法
在實驗中將RedCon-DQN所得到調(diào)度策略同如下方法進(jìn)行比較.
隨機(jī)分配(Random):每個救護(hù)車采取隨機(jī)動作分配到近鄰醫(yī)院站點(diǎn),不與其他救護(hù)車進(jìn)行任何交互.
基于規(guī)則的調(diào)度(Rule-based):各時刻對救護(hù)車所在站點(diǎn)以及近鄰站點(diǎn)的響應(yīng)率進(jìn)行排序,將救護(hù)車調(diào)度到可調(diào)度范圍內(nèi)長期(即5個時間步長)響應(yīng)率低下的醫(yī)院站點(diǎn).該方法即為現(xiàn)行南京市調(diào)度策略
Q-learning算法[35]:基礎(chǔ)的Q-learning算法使用ε-貪心策略,當(dāng)取消智能體的信息交互時,智能體獲得的信息將被減少到時間節(jié)點(diǎn)和所在位置.
Sarsa算法[36,37]:基礎(chǔ)的基于值迭代的Sarsa算法,其他設(shè)置與Q-learning算法相同.
DQN算法[24]:各智能體之間沒有信息溝通,相當(dāng)于分散獨(dú)立的自我調(diào)度方式,采取的參數(shù)設(shè)置與表1相同.
5.2.2 評價指標(biāo)
1)全局平均響應(yīng)時間:全局呼叫的總響應(yīng)時間除以全部應(yīng)答數(shù)量,越低反映響應(yīng)效率越高.
2)初次應(yīng)答響應(yīng)率:全局急救呼叫中由距離呼叫地最近的醫(yī)院站點(diǎn)響應(yīng)的比率.
3)黃金時間比例:完成的所有急救呼叫訂單中,時長處于急救黃金時間閾值20min以下的訂單數(shù)量占全部訂單數(shù)量的比例.
利用各算法策略在模擬環(huán)境中進(jìn)行救護(hù)車的重定位調(diào)度,得到的響應(yīng)結(jié)果如表2所示.可以發(fā)現(xiàn),本文所提出的RedCon-DQN算法表現(xiàn)最好,相比次優(yōu)的Sarsa算法在平均響應(yīng)時間上減少了約2 min.
表2 調(diào)度策略實驗結(jié)果對比
RedCon-DQN算法相比傳統(tǒng)DQN算法而言在平均響應(yīng)時間和初次響應(yīng)率上均有明顯的提升,說明考慮信息的交互可以有效規(guī)避掉低效的調(diào)度,提升響應(yīng)水平.同時還可以發(fā)現(xiàn),利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行獎勵值函數(shù)估計的DQN算法相比Q-learning接近并且也有一定的提升,說明引入的神經(jīng)網(wǎng)絡(luò)能準(zhǔn)確估計獎勵值函數(shù),并且實現(xiàn)目標(biāo)優(yōu)化.
為了進(jìn)一步分析RedCon-DQN調(diào)度策略的特點(diǎn),在調(diào)度實驗中分時段計算在不同調(diào)度策略下的全局平均響應(yīng)時間.如圖8所示,RedCon-DQN算法的調(diào)度優(yōu)良性主要體現(xiàn)在5:00~16:00的時間段內(nèi),說明了RedCon-DQN調(diào)度算法的優(yōu)勢集中體現(xiàn)為能夠較好地應(yīng)對高峰值的沖擊,能夠在救護(hù)需求旺盛時較好地實現(xiàn)不同救護(hù)站點(diǎn)之間的負(fù)載平衡.表現(xiàn)次佳的Sarsa算法在時間線上的表現(xiàn)相對于RedCon-DQN來說比較不穩(wěn)定,起伏波動比較大.而隨機(jī)動作算法、基于規(guī)則的算法、Q-learning算法等沒有體現(xiàn)出明顯的時段特征,表現(xiàn)出了相對的不穩(wěn)定性.相對的不穩(wěn)定性是由于策略選擇的隨機(jī)性以及智能體信息的不完備性所帶來的波動性.
圖8 各調(diào)度算法下一天內(nèi)的平均響應(yīng)時間
類似地,對于全天周期內(nèi)的初次響應(yīng)率而言,如圖9所示,RedCon-DQN除了在凌晨時段受到無訂單分布的零響應(yīng)率的影響造成的初次響應(yīng)率的下跌之外,在全天內(nèi)RedCon-DQN的表現(xiàn)都比較平穩(wěn).但是與圖8對比發(fā)現(xiàn),在某些時間段初次響應(yīng)率在一天內(nèi)的變化趨勢與平均響應(yīng)時間的變化趨勢正好相反.這主要是由于算法的優(yōu)化目標(biāo)是全局的平均響應(yīng)時間,因此當(dāng)初次響應(yīng)率下降時不會及時做出策略調(diào)整,但當(dāng)對全局平均響應(yīng)時間造成了負(fù)面影響時,算法才會進(jìn)行策略的變化以改善平均響應(yīng)時間,但同時可能又會對特定站點(diǎn)的初次響應(yīng)率帶來負(fù)面影響.對于不穩(wěn)定的其他算法而言,這種不平衡的狀況始終在反復(fù)振動,沒有達(dá)到均衡狀態(tài)的表現(xiàn).Sarsa算法在初次響應(yīng)率上的表現(xiàn)接近于RedCon-DQN,遠(yuǎn)優(yōu)于其他算法.而其他算法波動幅度較大,說明調(diào)度策略無法保持一個穩(wěn)定的狀態(tài).
圖9 各調(diào)度算法下的一天周期內(nèi)初次響應(yīng)率
此外,從圖10上來看,RedCon-DQN在黃金時間比例上的表現(xiàn)要明顯優(yōu)于其他算法,并且從波動性的角度上看,RedCon-DQN比較平滑,因此得到RedCon-DQN在黃金時間比例這一評價指標(biāo)上依然表現(xiàn)良好的結(jié)論.
圖10 各調(diào)度算法下的一天周期內(nèi)黃金時間比例
由調(diào)度實驗結(jié)果可見,RedCon-DQN在需求高峰時間段能夠具有較好的響應(yīng)表現(xiàn).為了能解釋調(diào)度策略并理解重定位動作的實際意義,隨機(jī)抽取一個救護(hù)車在3個關(guān)鍵時間段內(nèi)的調(diào)度路徑并繪制在地圖上,如圖11所示;而對應(yīng)地,在圖12中,用不同顏色來表示各站點(diǎn)在對應(yīng)時間段調(diào)度后的救護(hù)車數(shù)量.從圖12(a)中可以看到,在呼叫數(shù)量較少的時間段3:00~6:00(T=20~40),車輛的調(diào)度范圍更大,需求分散;而對應(yīng)的救護(hù)車數(shù)量分布集中于有呼叫的站點(diǎn),調(diào)動策略會使得車輛隨時有可能向有呼叫需求的醫(yī)院站點(diǎn)調(diào)度.而在需求較高的時間段6:00~10:00(T=40~60),救護(hù)車的調(diào)動次數(shù)較多,但調(diào)動的地理范圍有限;而由圖12(b)可知,救護(hù)車此時的分布在地理上也較為均勻,這主要是因為在該時間段需求相對集中,算法傾向于在小范圍內(nèi)進(jìn)行救護(hù)車輛頻繁調(diào)度來及時響應(yīng)需求.而在夜晚T=120~140(20:00~23:00),救護(hù)車的調(diào)度越傾向于穩(wěn)定和重復(fù),而救護(hù)車分布較為分散.
(a) 3:00~6:00
(b) 6:00~10:00
(c) 20:00~23:00
圖11 某救護(hù)車輛在RedCon-DQN算法下在典型時間段的調(diào)度路徑
(a) 3:00~6:00
(b) 6:00~10:00
(c) 20:00~23:00
根據(jù)3.3節(jié)中的式(8),在用RedCon-DQN進(jìn)行調(diào)度之后可以計算各救護(hù)站點(diǎn)的急救網(wǎng)絡(luò)彈性,其中彈性值最大的五個節(jié)點(diǎn)以及它們的測度(平均響應(yīng)延遲時間)如表3所示.這五個醫(yī)院節(jié)點(diǎn)分別是溧水區(qū)人民醫(yī)院、南京市江寧醫(yī)院、南京同仁醫(yī)院、南京高淳區(qū)人民醫(yī)院、南京棲霞區(qū)醫(yī)院.這五所醫(yī)院的共同點(diǎn)在于都位于非市中心區(qū)域,但周邊急救需求量很高.這類醫(yī)院地處偏遠(yuǎn),缺乏足夠近的近鄰醫(yī)院來及時完成救護(hù)車的動態(tài)調(diào)度.因此,當(dāng)這些站點(diǎn)附近產(chǎn)生較高的救護(hù)需求時,容易產(chǎn)生供不應(yīng)求的狀況,只能由距離較遠(yuǎn)的站點(diǎn)派車響應(yīng),導(dǎo)致響應(yīng)時間加長,對全局平均響應(yīng)時間仍然是負(fù)面影響.所以從救護(hù)車調(diào)度中心的角度來看,應(yīng)對此類站點(diǎn)的運(yùn)營情況加以關(guān)注,通過建立更加密集的輔助站點(diǎn),及時增派車輛,加強(qiáng)急救網(wǎng)絡(luò)的健壯性.
表3 急救網(wǎng)絡(luò)彈性值最大的五個醫(yī)院站點(diǎn)(min)
為了探究彈性不同的各醫(yī)院的特征表現(xiàn),本文選取了彈性值最大和最小的站點(diǎn)進(jìn)行比對,結(jié)果如圖13所示.結(jié)果顯示彈性測度大的醫(yī)院站點(diǎn)的救護(hù)車數(shù)量極差比較小,分布穩(wěn)定;彈性測度小的醫(yī)院站點(diǎn)的救護(hù)車數(shù)量極差大,且允許站點(diǎn)救護(hù)車實時數(shù)量為0,這是彈性測度小的醫(yī)院站點(diǎn)可以依賴近鄰站點(diǎn)的原因.結(jié)果與本文的定義以及認(rèn)知比較符合.
圖13 不同彈性的站點(diǎn)救護(hù)車數(shù)量浮動對比
急救需求具有動態(tài)時變的特點(diǎn),動態(tài)的救護(hù)車調(diào)度策略可以在有限的救護(hù)資源水平下實現(xiàn)應(yīng)急響應(yīng)水平的優(yōu)化. 為此,本文研究了在動態(tài)需求環(huán)境下,對救護(hù)車在不同急救站點(diǎn)之間進(jìn)行重定位,以最優(yōu)化全局平均響應(yīng)時間的問題,并提出了一種基于強(qiáng)化學(xué)習(xí)的結(jié)構(gòu).在考慮多種實時調(diào)度交互因子的基礎(chǔ)上,提出了一種改進(jìn)的深度強(qiáng)化學(xué)習(xí)算法RedCon-DQN.借鑒交通網(wǎng)絡(luò)彈性的概念,設(shè)計了一個考慮站點(diǎn)響應(yīng)時延的急救網(wǎng)絡(luò)彈性指標(biāo),度量急救站點(diǎn)對全局響應(yīng)水平的影響.
基于南京市2016年~2017年全年急救響應(yīng)數(shù)據(jù),構(gòu)造了能準(zhǔn)確擬合呼叫數(shù)量、地點(diǎn)分布的交互環(huán)境模擬器.在模擬器生成的數(shù)據(jù)中利用不同的調(diào)度策略進(jìn)行救護(hù)車重定位,提出的算法在全局平均響應(yīng)時間和初次響應(yīng)率的指標(biāo)上均優(yōu)于已有算法;同時,本文提出的算法在需求高峰期有更明顯的優(yōu)勢.此外,通過急救網(wǎng)絡(luò)彈性分析得到的瓶頸站點(diǎn)對于醫(yī)療資源配置有重要的借鑒意義.未來的研究中可以將模型擴(kuò)展,將救護(hù)車調(diào)度中更加現(xiàn)實的因素,如故障處理、二次調(diào)度、救護(hù)車的異構(gòu)性、急救站點(diǎn)的容量限制等考慮到調(diào)度策略中來.