于振宇,韓傳峰,孟令鵬
(同濟(jì)大學(xué)經(jīng)濟(jì)與管理學(xué)院,上海200092)
?
基于馬氏決策過程的突發(fā)傳染病防控決策模型
于振宇,韓傳峰,孟令鵬
(同濟(jì)大學(xué)經(jīng)濟(jì)與管理學(xué)院,上海200092)
研究防控突發(fā)傳染病在人群接觸網(wǎng)絡(luò)上傳播的動態(tài)決策問題,在時間維度擴(kuò)展傳染病接觸網(wǎng)絡(luò)模型,真實(shí)描述疾病的時空傳播規(guī)律.綜合考慮免疫與隔離措施,基于馬爾可夫決策過程構(gòu)建突發(fā)傳染病防控動態(tài)決策模型,動態(tài)生成防控方案,最優(yōu)化決策周期內(nèi)的整體決策效果.以典型情景為例建模并仿真求解,驗(yàn)證了模型的可行性和有效性;求解模型得到的動態(tài)決策方案可有效抑制疫情規(guī)模,為突發(fā)傳染病防控提供決策支持.
突發(fā)傳染?。唤佑|網(wǎng)絡(luò);馬爾可夫決策過程;動態(tài)決策;免疫;隔離
突發(fā)傳染病是指在無明顯征兆或季節(jié),地區(qū)規(guī)律的情況下,由病原體引發(fā)且在人群中快速傳播的疾病,其極易大規(guī)模爆發(fā),對經(jīng)濟(jì)社會造成嚴(yán)重危害.根據(jù)突發(fā)傳染病發(fā)展過程而進(jìn)行動態(tài)決策,有利于及時采取相應(yīng)的防控措施,有效抑制疫情蔓延,減少感染人數(shù),降低社會危害,因此成為應(yīng)急管理的重要研究問題.
突發(fā)傳染病防控的前提是描述疾病傳播規(guī)律.人際接觸是突發(fā)傳染病的主要傳播途徑[1],因此接觸網(wǎng)絡(luò)對疾病傳播具有重要影響[2].接觸網(wǎng)絡(luò)模型[3,4]顯式建模個體及其接觸關(guān)系,表征了疾病傳播過程中個體的差異性,比經(jīng)典的倉室模型(假設(shè)人群均勻混合)能夠更精確地描述疾病傳播規(guī)律,是目前研究疾病傳播動力學(xué)的主要方法[57].
基于接觸網(wǎng)絡(luò)的突發(fā)傳染病防控決策體現(xiàn)為限制疾病在網(wǎng)絡(luò)上的傳播以最小化感染個體的數(shù)量,可分為靜態(tài)防控和動態(tài)防控兩類,常用措施可以概括為預(yù)防性措施(免疫)和控制性措施(隔離).靜態(tài)防控基于靜態(tài)的網(wǎng)絡(luò)結(jié)構(gòu),運(yùn)用網(wǎng)絡(luò)分析方法識別部分高危險性節(jié)點(diǎn)并對其免疫,保護(hù)其免于疾病過程中的感染,從而阻斷疾病傳播路徑[810].該方法多考慮預(yù)防性措施,可給出網(wǎng)絡(luò)的整體免疫策略,但只能在疾病爆發(fā)前針對預(yù)測的疾病最終狀態(tài)制定決策方案[11],無法在疾病傳播過程中對方案進(jìn)行實(shí)時調(diào)整[12],這顯然不符合疾病發(fā)展及防控的現(xiàn)實(shí).因此動態(tài)防控的研究日益受到重視.
國家自然科學(xué)基金委管理學(xué)部于2009年啟動了“非常規(guī)突發(fā)事件應(yīng)急管理研究”重大研究計(jì)劃,將面向非常規(guī)突發(fā)事件應(yīng)急管理的動態(tài)模擬仿真系統(tǒng)與計(jì)算實(shí)驗(yàn)方法研究作為關(guān)鍵目標(biāo)之一[13],凸顯“情景-應(yīng)對”型應(yīng)急管理模式對動態(tài)決策的需求.在突發(fā)傳染病防控領(lǐng)域,已有學(xué)者采用元胞自動機(jī)[14]、演化博弈[15]等方法進(jìn)行研究,但均未考慮人群的接觸網(wǎng)絡(luò)結(jié)構(gòu),不適用于接觸網(wǎng)絡(luò)上的防控策略生成.
基于接觸網(wǎng)絡(luò)的突發(fā)傳染病動態(tài)防控,考慮了接觸網(wǎng)絡(luò)結(jié)構(gòu)在疾病過程中隨時間變化的事實(shí)[16],將接觸網(wǎng)絡(luò)模型與控制論相結(jié)合[17,18],根據(jù)疾病的發(fā)展?fàn)顟B(tài),采用消除感染者與易感者接觸關(guān)系的控制措施,最終通過改變?nèi)巳旱慕佑|網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)阻斷疾病傳播的控制目的[19].但是,一方面該方法對系統(tǒng)的控制策略反映在控制變量上[18],其理論指導(dǎo)性較強(qiáng)而在實(shí)踐中卻不易解釋,可操作性不強(qiáng);另一方面該方法也忽視了對接觸網(wǎng)絡(luò)上的個體采取預(yù)防性措施[20],采用單一控制措施難以保證決策效果在人群上的整體最優(yōu).
本文基于接觸網(wǎng)絡(luò)模型構(gòu)建突發(fā)傳染病防控動態(tài)決策模型.與目前采用控制論的動態(tài)防控模型不同,本文采用馬爾可夫決策過程(Markov decision processes,MDP),從微觀個體角度建模疾病在時間進(jìn)程上的動態(tài)演化特征,求解模型實(shí)時動態(tài)地生成針對個體的防控策略,實(shí)現(xiàn)最大限度降低感染人數(shù)的應(yīng)急管理目標(biāo),彌補(bǔ)了目前動態(tài)防控模型可操作性方面的不足.同時,將靜態(tài)防控中常用的預(yù)防性措施納入防控措施集合,統(tǒng)籌考慮預(yù)防性與控制性兩類措施,從全局最優(yōu)的角度出發(fā)求解防控決策方案,有利于提高決策效果.
突發(fā)傳染病通常具有一段不表現(xiàn)癥狀的潛伏期,而患者痊愈后往往能夠獲得持久的免疫力,因此可以采用傳染病領(lǐng)域的SEIR模型[21]將個體的狀態(tài)描述為易感者S,潛伏者E,感染者I和治愈者R.疾病是否爆發(fā)則由基本再生數(shù)(R0)決定[22],若R0<1,疾病逐漸消亡,若R0≥1,疾病則可能爆發(fā).
構(gòu)建突發(fā)傳染病防控動態(tài)決策模型的基礎(chǔ),是對傳染病在時間和空間上的傳播規(guī)律進(jìn)行精確的描述.接觸網(wǎng)絡(luò)傳染病模型可以較好地從空間維度對疾病的傳播進(jìn)行描述,卻忽略了其在時間進(jìn)程上的演化.因此,需要對該模型在時間維度上進(jìn)行恰當(dāng)?shù)臄U(kuò)展,以實(shí)現(xiàn)對傳染病傳播隨時間變化而呈現(xiàn)出動態(tài)發(fā)展特征的描述.
2.1接觸網(wǎng)絡(luò)模型時間維度擴(kuò)展
2002年,Newman[3]基于滲透過程分析了傳染病在人群接觸網(wǎng)絡(luò)上的傳播過程,提出傳染病接觸網(wǎng)絡(luò)模型.突發(fā)傳染病經(jīng)人際接觸傳播,個體及其接觸關(guān)系可以抽象為一個接觸網(wǎng)絡(luò),將其記為G={V,B},其中V={1,2,...,N}為節(jié)點(diǎn)集合,表示人群中的個體,B={bij|i,j∈V,i/=j}為邊集,表示個體的接觸關(guān)系,bij=1表示節(jié)點(diǎn)i和j之間存在連接.基于 SEIR模型對個體狀態(tài)的描述,可知節(jié)點(diǎn)狀態(tài)的取值范圍為{S,E,I,R}.I節(jié)點(diǎn)具有傳染能力,能夠感染鄰接的S節(jié)點(diǎn).記個體的平均傳染能力為T,表示感染期內(nèi)傳染相鄰個體的概率,那么T與R0的對應(yīng)關(guān)系為
其中〈k〉,〈k2〉分別表示網(wǎng)絡(luò)的平均度與均方度.T決定了疾病在網(wǎng)絡(luò)上大規(guī)模爆發(fā)的概率,將其記為ρ,有
其中pk表示網(wǎng)絡(luò)上度為k的節(jié)點(diǎn)密度,u表示與感染節(jié)點(diǎn)相鄰的易感節(jié)點(diǎn)未感染的概率.u可通過求解式(3)得到[3].
上述接觸網(wǎng)絡(luò)模型能夠精確預(yù)測疾病在網(wǎng)絡(luò)上的最終狀態(tài),但忽略了疾病傳播的時間進(jìn)程.針對這一問題,本文對接觸網(wǎng)絡(luò)模型在時間維度上進(jìn)行擴(kuò)展.將個體j在整個發(fā)病期間的平均傳染能力T按照感染期長度進(jìn)行分解,記為傳染向量,其中L表示感染期的長度,由突發(fā)傳染病的流行病學(xué)特征決定(例如,H1N1流感的感染期平均長度為6d[23])表示個體j在發(fā)病期第l時刻的傳染能力.Vj與T的對應(yīng)關(guān)系為
通常情況下,個體所接觸的發(fā)病人數(shù)越多,其染病概率越大.因此,可以假設(shè)t時刻節(jié)點(diǎn)j感染的概率是相鄰節(jié)點(diǎn)的傳染能力之和,
2.2動態(tài)決策模型構(gòu)建
MDP是不確定性系統(tǒng)動態(tài)控制的主要方法,廣泛應(yīng)用于隨機(jī)優(yōu)化控制、智能決策等領(lǐng)域[24],可以為傳染病防控動態(tài)決策提供量化模型.采用MDP建模突發(fā)傳染病在人群接觸網(wǎng)絡(luò)上的演化過程及防控措施,通過合理設(shè)定收益函數(shù),可以實(shí)現(xiàn)突發(fā)傳染病防控全過程最小化感染人數(shù)的決策目標(biāo).鑒于突發(fā)傳染病的防控決策通常在有限時間內(nèi)完成,可以采用有限周期MDP進(jìn)行建模,其定義為六元組〈S,A,T,R,h,γ〉[24].其中S表示狀態(tài)集合,抽象描述現(xiàn)實(shí)世界狀態(tài);A表示行動集合,行動可以被決策主體執(zhí)行以改變系統(tǒng)狀態(tài);T表示狀態(tài)轉(zhuǎn)移函數(shù),是系統(tǒng)在執(zhí)行任意a∈A的行動后轉(zhuǎn)移到其它狀態(tài)s∈S的特定概率分布;R表示收益函數(shù),反映決策目標(biāo);h表示決策周期長度;γ表示折現(xiàn)因子.
以基于MDP的動態(tài)決策模型框架為指導(dǎo),本文通過從個體角度描述系統(tǒng)狀態(tài),行動及狀態(tài)轉(zhuǎn)移,建模整個突發(fā)傳染病防控動態(tài)決策系統(tǒng),從而使動態(tài)決策模型既能夠與上述從時間維度進(jìn)行擴(kuò)展的接觸網(wǎng)絡(luò)模型相匹配,又能夠壓縮問題的描述空間以適用于較大規(guī)?,F(xiàn)實(shí)問題的描述.具體步驟如下:
步驟1抽象系統(tǒng)狀態(tài).標(biāo)識個體為{P1,P2,...,PN},個體存在的接觸關(guān)系為B(Pi,Pj)=1.個體Pi的狀態(tài)記為s(Pi),取值為{S,E1,E2,...,ELE,I1,I2,...,ILI,R},其中LE,LI分別表示潛伏期和感染期長度;
步驟2定義行動集合,并界定其前提條件與執(zhí)行效果.行動集合由免疫與隔離兩類防控措施構(gòu)成,分別作用于易感者和感染者(潛伏者雖已感染卻無表現(xiàn)癥狀,而治愈者已具備持久免疫能力,因此不考慮對這兩者采取措施).對易感者進(jìn)行免疫,可以降低易感者受感染的威脅,執(zhí)行效果體現(xiàn)為易感者狀態(tài)由S變?yōu)镽.然而免疫措施并非100%有效,某些突發(fā)傳染病可能缺乏有效性較高的免疫措施,因此需要在決策中考慮免疫效果的不確定性.記免疫措施為Imm(Pi),其前提條件為s(Pi)=S,執(zhí)行Imm(Pi)的效果為s(Pi)將以p概率由S→R,以1-p概率保持S.通過隔離感染者,可以消除傳染源,降低傳染率,執(zhí)行效果體現(xiàn)為感染者狀態(tài)處于I,被隔離直至其痊愈變?yōu)镽.通常,隔離比免疫具有更高的有效性,但隔離影響正常生產(chǎn)生活秩序,需要考慮到其成本較高的現(xiàn)實(shí)狀況.記隔離措施為Qua(Pi),其前提條件為(s(Pi)∈{I1,I2,...ILI}),即只有當(dāng)個體發(fā)病表現(xiàn)癥狀后才能采取隔離措施,故個體發(fā)病與采取隔離措施之間至少存在1個決策時刻的延遲,在此期間可能造成傳染.執(zhí)行Qua(Pi)的效果為s(Pi)以1概率由It→R,t=1,2,...,LI;
步驟3描述系統(tǒng)的狀態(tài)轉(zhuǎn)移規(guī)律.系統(tǒng)狀態(tài)轉(zhuǎn)移包括傳染病自發(fā)演化與防控措施干預(yù)兩種情況下引起的系統(tǒng)狀態(tài)改變.在傳染病自發(fā)演化情況下,個體未感染時狀態(tài)保持S不變,個體感染概率由式(6)確定,一旦感染,個體將會按照E1→E2→···→ELE→I1→I2→···→ILI→R的順序發(fā)生狀態(tài)轉(zhuǎn)移.在防控措施干預(yù)情況下,系統(tǒng)狀態(tài)轉(zhuǎn)移概率參見步驟2中定義的行動執(zhí)行效果.
其中RImm,CImm,RQua,CQua分別表示免疫收益,免疫成本,隔離收益,以及隔離成本,1(·)為示性函數(shù),即
步驟5確定決策周期長度.考慮到 SEIR型傳染病會因?yàn)橐赘姓吆谋M或全部感染者消除而結(jié)束,因此可根據(jù)傳染病在人群中持續(xù)時間來確定決策周期長度;
步驟6設(shè)定折現(xiàn)因子.折現(xiàn)因子的取值范圍為0<γ≤1.γ<1保證累積期望收益是有界的;當(dāng)決策周期有限,如果假設(shè)個體在人群中地位相等,且任意時刻對其采取行動所得收益無差別,則可以取γ=1.
2.3動態(tài)決策模型求解
MDP問題的解稱為策略,是狀態(tài)到行動的映射,記為π(s)→a.求解動態(tài)決策模型的目標(biāo)就是得到防控策略,以指導(dǎo)在每一時刻的狀態(tài)下行動(防控措施)的選擇.價值迭代是求解最優(yōu)策略的經(jīng)典方法,其基本思想是動態(tài)規(guī)劃.
其中R(s,a)表示狀態(tài)s下執(zhí)行a的即刻收益,T(s,a,s′)表示狀態(tài)s下執(zhí)行a后狀態(tài)轉(zhuǎn)移到s′的概率.
為方便迭代表示,還可以將上式拆分為
其中關(guān)于〈s,a〉的Q函數(shù),表示在狀態(tài)s下采取行動a所能獲得的最大收益.
UCT算法屬于在線式算法,能夠在任意時刻輸出解,解的質(zhì)量由求解時長決定,當(dāng)給定足夠時間,算法可以逼近最優(yōu)解[25].因此本文采用基于UCT算法的PROST[26]求解器求解模型.
在此以一個簡單示例說明動態(tài)決策及其求解過程.假設(shè)人群接觸網(wǎng)絡(luò)共3個節(jié)點(diǎn),P1與P2接觸,P2與P3接觸,但P1不直接與P3接觸,即呈現(xiàn)P1-P2-P3的鏈?zhǔn)浇Y(jié)構(gòu).其中P1處于感染期的第一時刻,傳染概率為0.1,P2和P3處于易感狀態(tài).假設(shè)免疫與隔離的有效性均為100%,傳染概率可由式(6)計(jì)算得到.當(dāng)收益函數(shù)僅考慮Cunit=1,CQua=1,CImm=1時,那么該突發(fā)傳染病防控動態(tài)決策及求解過程可見表1.
表1 動態(tài)決策及求解示例Table 1 Illustration of dynamic decision and solution
其中Noop指不采取措施,任由系統(tǒng)狀態(tài)自發(fā)演化.當(dāng)t=3時,人群中已不存在傳染者,決策至此結(jié)束.
3.1情景描述
流感是具備典型突發(fā)傳染病特征的一類傳染病,對人類健康威脅非常嚴(yán)重.以流感為例研究其防控動態(tài)決策模型,既能夠驗(yàn)證上文所構(gòu)建模型的有效性,又能夠?yàn)樵擃惣膊〉姆揽靥峁┛刹僮鞯臎Q策支持.因此,下文以一場假設(shè)的流感疫情作為決策的典型情景進(jìn)行算例分析.
為凸顯突發(fā)傳染病特征,對算例情景做如下假設(shè):
1)突發(fā)傳染病情景,假設(shè)流感病毒的潛伏期為2 d,在此期間不具有傳染性;感染期為5 d,具有傳染性,每天的傳染能力無差異;個體痊愈后具有免疫力并不再感染.基于流感疫情的R0多介于1.2~1.6之間[27,28],因此不妨假設(shè)該疫情的R0=1.5;
2)人群接觸網(wǎng)絡(luò)情景,假設(shè)受影響人群共50人,其接觸網(wǎng)絡(luò)以ER隨機(jī)網(wǎng)絡(luò)[29]表示,以平均度分布為6隨機(jī)生成.初始感染者為一輸入性病例(2號節(jié)點(diǎn)),其余為易感者;
3)防控措施情景,假設(shè)免疫措施具有95%有效性,隔離措施100%有效.免疫與隔離的成本之比為1∶5,不考慮防控措施收益;
4)決策目標(biāo)為疾病防控全過程成本最優(yōu)的情況下感染人數(shù)最少,假設(shè)病人感染后單位時刻患病成本為1,免疫成本相當(dāng)于其2倍.則該典型情景可以表示為圖1.
圖1 典型情景的接觸網(wǎng)絡(luò)Fig.1 Contact network of an assumed emerging epidemic
3.2情景建模
按照上一節(jié)中的建模步驟,構(gòu)建突發(fā)傳染病防控動態(tài)決策模型.
狀態(tài)集合個體集合為{P1,P2,...,P50},個體的接觸關(guān)系如圖1所示,以B(Pi,Pj)形式枚舉,不再贅述.初始時刻系統(tǒng)狀態(tài)為{s(P2)=E1,s(Pi)=S,i/=2}.
行動集合行動集合由滿足行動前提條件的節(jié)點(diǎn)所能采取的行動構(gòu)成,在不同時刻會隨疫情動態(tài)演化而不盡相同.初始時刻行動集合為{Imm(P1),Qua(P2),Imm(P3),...,Imm(P50)}.
狀態(tài)轉(zhuǎn)移函數(shù)基于算例情景假設(shè)R0=1.5,個體的平均傳染能力可由式(1)得出T=0.226.由于每天傳染能力相同,可基于式(4)得到傳染向量v=(0.06,0.06,0.06,0.06,0.06).傳染概率可由式(6)計(jì)算得到.若對個體i采取免疫行動Imm(Pi),則對應(yīng)節(jié)點(diǎn)狀態(tài)s(Pi)以0.95的概率變?yōu)镽,以0.05的概率保持S.若對i采取隔離行動Qua(Pi),則以1的概率轉(zhuǎn)移到s(Pi)=R.
收益函數(shù)根據(jù)算例情景假設(shè),有Cunit=1,CImm=2,CQua=10,RImm=0,RQua=0,收益函數(shù)為
決策周期經(jīng)測試,絕大多數(shù)仿真疫情均在100時刻內(nèi)結(jié)束,因此令h=100.
折現(xiàn)因子由于決策周期有限,可令γ=1.
3.3情景仿真
由于突發(fā)傳染病傳播具有不確定性,所以本文依據(jù)疾病傳染概率對其傳播過程進(jìn)行仿真,并依據(jù)防控措施的有效性對防控行動效果進(jìn)行仿真.仿真分析具體設(shè)置為針對同一初始狀態(tài)以不同隨機(jī)數(shù)進(jìn)行共計(jì)100次的實(shí)驗(yàn),仿真時長為100,對仿真結(jié)果取均值,并將最終感染人數(shù)作為決策效果的評價標(biāo)準(zhǔn).
為驗(yàn)證模型的決策效果,將動態(tài)防控策略分別與無措施策略和不計(jì)代價策略進(jìn)行對比.動態(tài)防控策略按照式(9)定義的收益函數(shù),采用求解動態(tài)決策模型所得到的防控策略來控制疫情;無措施策略全程不采取措施,相當(dāng)于單純的疾病仿真,提供了感染人數(shù)的上界;不計(jì)代價策略,基于動態(tài)決策模型得到的策略進(jìn)行防控,但不考慮行動成本,得到感染人數(shù)下界.定義20人以上感染(超過總?cè)藬?shù)的40%)為疾病爆發(fā),仿真結(jié)果見表2.
表2 3種防控策略仿真結(jié)果Table 2 Simulation results of three control policies
可以發(fā)現(xiàn),無措施策略下疾病爆發(fā)率(61/100=0.61)符合接觸網(wǎng)絡(luò)模型的預(yù)測結(jié)果(根據(jù)式(2)得ρ= 0.62),說明本文提出的在時間維度上進(jìn)行了擴(kuò)展的接觸網(wǎng)絡(luò)模型能夠較好地模擬突發(fā)傳染病在網(wǎng)絡(luò)上的傳播.動態(tài)防控策略下疾病爆發(fā)率(12/100=0.12),根據(jù)式(2)相當(dāng)于將個體的平均傳染能力從0.06降至0.04(R0從1.5降至1.05),感染人數(shù)減少了59%,說明動態(tài)決策模型可根據(jù)收益函數(shù)的定義而相應(yīng)地實(shí)現(xiàn)良好的防控效果.不計(jì)代價策略幾乎完全阻止了疾病的爆發(fā),理論上說明動態(tài)決策模型具有近乎完善的防控效果.
3.4模型敏感性分析
在突發(fā)傳染病流行病學(xué)特征(疾病參數(shù))不變的前提下,影響模型決策效果的參數(shù)包括接觸網(wǎng)絡(luò)結(jié)構(gòu),收益函數(shù)及行動的有效性.由于決策過程的動態(tài)性和復(fù)雜性,難以采用分析的方式討論模型的敏感性,因此下文將以算例中所假設(shè)的典型情景下動態(tài)決策模型為例,以仿真的方式分析這些參數(shù)變化對決策效果的影響.
3.4.1接觸網(wǎng)絡(luò)結(jié)構(gòu)
根據(jù)式(1)和式(4)可知,接觸網(wǎng)絡(luò)結(jié)構(gòu)影響著單一個體造成的感染人數(shù)和疾病的爆發(fā)概率.為了探究網(wǎng)絡(luò)結(jié)構(gòu)對決策的影響,選擇典型的小世界網(wǎng)絡(luò)[30](WS網(wǎng)絡(luò))和無標(biāo)度網(wǎng)絡(luò)[31](BA網(wǎng)絡(luò)),與ER網(wǎng)絡(luò)進(jìn)行對比研究.其中WS網(wǎng)絡(luò)的生成規(guī)則為每個節(jié)點(diǎn)具有6個相鄰節(jié)點(diǎn),隨機(jī)重連的概率為0.2.BA網(wǎng)絡(luò)的生成規(guī)則為從初始節(jié)點(diǎn)開始,每次加入一個節(jié)點(diǎn),新節(jié)點(diǎn)連接現(xiàn)有節(jié)點(diǎn)的概率為,其中α=1,c=5,控制每次新加節(jié)點(diǎn)的連接數(shù),以1為初始節(jié)點(diǎn),令加入的前2~16號節(jié)點(diǎn)連接數(shù)為2,17~32號節(jié)點(diǎn)連接數(shù)為3,33~50號節(jié)點(diǎn)連接數(shù)為4.基于上述規(guī)則隨機(jī)生成的WS,BA網(wǎng)絡(luò)度分布可見圖2.
初始發(fā)病節(jié)點(diǎn)均選擇最接近網(wǎng)絡(luò)平均度的節(jié)點(diǎn),除接觸網(wǎng)絡(luò)結(jié)構(gòu)不同外其余模型參數(shù)與典型情景盡可能相等或保持不變,見表3.
基于此對WS,BA網(wǎng)絡(luò)各仿真100輪,每輪仿真時長t為100,通過圖3展示出在不同接觸網(wǎng)絡(luò)上無措施策略和動態(tài)防控策略下的感染人數(shù).
圖2 隨機(jī)生成的WS,BA網(wǎng)絡(luò)度分布Fig.2 Degree distribution of WS,BA contact networks
表3 ER,WS,BA接觸網(wǎng)絡(luò)參數(shù)Table 3 Parameters of ER,WS,BA contact networks
圖3中淺色線表示每輪仿真的日患病人數(shù)的變化,黑色粗線表示100次仿真的均值.在無措施策略下ER,WS,BA網(wǎng)絡(luò)的平均感染人數(shù)分別為20.38,19.25,19.85,疾病爆發(fā)次數(shù)分別為61,54,56;在動態(tài)防控策略下,平均感染人數(shù)分別為8.35,8.09,8.62,疾病爆發(fā)次數(shù)分別為12,5,9.可見網(wǎng)絡(luò)結(jié)構(gòu)雖然影響發(fā)病人數(shù)高峰的到來和疾病持續(xù)的時間,但并未顯著影響感染人數(shù)和決策效果.
圖3 ER,WS,BA接觸網(wǎng)絡(luò)的感染人數(shù)Fig.3 Number of infected individuals on ER,WS,BA contact networks
由于接觸網(wǎng)絡(luò)上決定疾病傳播的參數(shù)〈k2〉,〈k〉和T非常接近,導(dǎo)致不采取防控措施情況下疾病最終狀態(tài)非常接近,而基于動態(tài)防控策略對疾病進(jìn)行防控的效果也較為接近.深入分析3個網(wǎng)絡(luò)上所采取行動次數(shù)的分布,發(fā)現(xiàn)ER,WS,BA網(wǎng)絡(luò)平均免疫次數(shù)分別為14.7,15.53,14.88,隔離次數(shù)分別為0.39,0.31,0.56,隔離行動占比分別為2.6%,2%,3.8%.可見WS網(wǎng)絡(luò)上更傾向采取免疫措施,隔離措施占比低,主要因?yàn)樵摼W(wǎng)絡(luò)上節(jié)點(diǎn)度的分布更均勻(見圖2),不存在傳染力極強(qiáng)的節(jié)點(diǎn),在圖3中表現(xiàn)為該網(wǎng)絡(luò)上疫情發(fā)展稍慢,發(fā)病人數(shù)峰值更低,疾病持續(xù)時間更長;BA網(wǎng)絡(luò)隔離行動占比最高,主要因?yàn)樵摼W(wǎng)絡(luò)上某些節(jié)點(diǎn)度較大,容易感染且威脅與其相鄰的節(jié)點(diǎn),致使在決策中優(yōu)先隔離該類節(jié)點(diǎn).
3.4.2收益函數(shù)
在3.3節(jié)情景仿真中,不計(jì)代價策略與動態(tài)防控策略感染人數(shù)體現(xiàn)出極大差別,可見決策效果受到收益函數(shù)構(gòu)成要素的影響.若將個體單位時刻患病成本作為單位1,防控措施的成本與收益總能夠以此為單位相應(yīng)表示.為與算例情景一致,暫不考慮防控措施收益,只研究成本變化對決策效果的影響.因此收益函數(shù)由3部分構(gòu)成:患病成本Cunit,免疫成本CImm和隔離成本CQua.根據(jù)三者的大小關(guān)系可分為六種組合:
這些組合代表了不同的決策情景.組合1)與4)類似,代表某類措施相對于個體患病及另一類措施成本優(yōu)勢較為明顯的情景;組合2),3)代表患病成本較低的傳染病情景(如季節(jié)性流感);組合5),6)代表防控措施成本低于患病成本,對應(yīng)嚴(yán)重傳染病情景(如SARS或埃博拉).
如果固定隔離成本CQua=10且其它參數(shù)保持不變,而令免疫成本從4逐漸增至12,每組成本仿真100輪,其決策效果仿真結(jié)果見圖4.
圖4 隔離成本固定,免疫成本變化的仿真結(jié)果Fig.4 Simulation results with fixed Qua cost and varied Imm cost
可以看出,隨著免疫成本的上升免疫措施在決策中所采用的次數(shù)逐漸減少,而隔離則相應(yīng)增多.同時免疫成本與感染人數(shù)之間也存在一定的關(guān)聯(lián).當(dāng)免疫成本低于患病成本時(即組合1))感染人數(shù)基本穩(wěn)定.當(dāng)免疫成本高于患病成本但低于隔離成本時(即組合2))感染人數(shù)增多.這是由于當(dāng)免疫成本過高時在某些狀態(tài)下會選擇放棄對患者采取任何措施.當(dāng)免疫成本超過隔離成本時(即組合3)),免疫次數(shù)低于隔離次數(shù)且染病人數(shù)有了明顯的下降,甚至出現(xiàn)優(yōu)于組合1)的決策效果.這是因?yàn)槭找婧瘮?shù)反映的目標(biāo)是全過程成本最優(yōu)下減少感染人數(shù).而免疫只能保護(hù)單一易感個體,當(dāng)不能阻止相鄰節(jié)點(diǎn)從其它路徑感染時期望收益并不顯著;隔離則是將發(fā)病者從人群中移除,在消除疾病方面遠(yuǎn)優(yōu)于免疫.所以突發(fā)傳染病早期及時采取隔離措施可減小疾病規(guī)模,但也會導(dǎo)致疾病防控總成本增大.
如果固定免疫成本CImm=4且其它參數(shù)保持不變,而令隔離成本從2逐漸增至10,每組成本仿真100輪,其決策效果仿真結(jié)果見圖5.
可以發(fā)現(xiàn)圖5中存在一個明顯轉(zhuǎn)折,即當(dāng)成本高于4時隔離在決策中所采用次數(shù)隨著成本的上升逐漸減少,而染病人數(shù)基本保持穩(wěn)定.其中當(dāng)隔離成本介于4~7時(即對應(yīng)組合6)),即使兩類措施的成本均小于患病成本,動態(tài)決策策略依然偏好免疫.當(dāng)隔離成本低于免疫成本時(即組合5))感染人數(shù)大量減少,這是因?yàn)榈透綦x成本鼓勵早期更多地采取隔離措施,從而阻止了疾病爆發(fā).
圖5 免疫成本固定,隔離成本變化的仿真結(jié)果Fig.5 Simulation results with fixed Imm cost and varied Qua cost
對各種防控措施成本組合的分析可以為突發(fā)傳染病防控提供有益的啟示:當(dāng)決策者更多地采取免疫時早期可以在一定程度上阻止疾病傳播,但一旦疫情失控則會迅速蔓延爆發(fā);當(dāng)決策者更多地采取隔離措施,在疫情初期迅速處置消除傳染源,可以極大地減小疫情爆發(fā)的概率,減少感染人數(shù).
3.4.3行動有效性
通常,隔離行動具有極高有效性,而免疫行動有效性可能因疾病不同而呈現(xiàn)變化,因此只研究免疫有效性變化對決策效果的影響.假設(shè)其余參數(shù)不變而令免疫有效性從10%以每10%的幅度提升至100%,每組有效性仿真100輪,仿真結(jié)果見圖6.
圖6 免疫行動有效性不確定的仿真結(jié)果Fig.6 Simulation results of various successful rates of Imm actions
可以看出隨著免疫有效性的提高,隔離次數(shù)總體呈下降趨勢,感染人數(shù)亦呈下降趨勢.當(dāng)免疫有效性在60%~80%區(qū)間內(nèi)時感染人數(shù)出現(xiàn)略微上升,這是因?yàn)殡S著免疫有效性的提高,免疫度較大節(jié)點(diǎn)的期望收益高于隔離當(dāng)前發(fā)病節(jié)點(diǎn),從而傾向采取預(yù)防而非控制策略,這就可能導(dǎo)致疾病的擴(kuò)散.總體而言提高免疫有效性可以改善決策效果,而當(dāng)有效性在一定區(qū)間內(nèi)時可適當(dāng)增加隔離措施的采用以降低染病人數(shù).基于該判斷,決策者可以通過政策措施降低隔離行動成本,以較小的額外投入實(shí)現(xiàn)更優(yōu)的決策效果.
本文將傳染病領(lǐng)域描述疾病傳播規(guī)律最主流的接觸網(wǎng)絡(luò)模型與運(yùn)籌學(xué)中解決隨機(jī)動態(tài)優(yōu)化問題的馬爾可夫決策過程相結(jié)合,構(gòu)建了突發(fā)傳染病防控動態(tài)決策模型.該模型可以針對傳染病在人群中隨時間不斷演化的過程動態(tài)決策,在不同時刻生成相應(yīng)的作用于微觀個體的防控方案,為突發(fā)傳染病動態(tài)防控提供了理論依據(jù).模型還具有較強(qiáng)的可擴(kuò)展性,應(yīng)用前景廣泛:通過添加行動集合元素可以對新的防控措施予以采用;通過調(diào)整收益函數(shù)可以實(shí)現(xiàn)不同的決策目標(biāo),適應(yīng)各類決策情景.此外,模型基于情景仿真并求解的方法,可以為“情景-應(yīng)對”型應(yīng)急管理模式及“基于平行應(yīng)急管理的非常規(guī)突發(fā)事件動態(tài)仿真與計(jì)算實(shí)驗(yàn)集成升華平臺”等相關(guān)集成升華平臺提供決策方法支持.
本研究還存在一定的局限性,針對突發(fā)傳染病中典型的SEIR類型傳染病動態(tài)決策問題的研究中未關(guān)注其它少見類型的突發(fā)傳染病;構(gòu)建模型需要真實(shí)的突發(fā)傳染病參數(shù),但由于目前獲取完整疾病案例記錄較為困難,導(dǎo)致推斷得到的疾病參數(shù)不夠精確,一定程度上影響了模型的決策效果;求解模型對計(jì)算能力要求較高,在普通計(jì)算機(jī)上只能對1 000以內(nèi)規(guī)模人群的防控策略進(jìn)行求解.
[1]盧洪洲,翁心華.從H7N9禽流行性感冒談新發(fā)傳染病防控的重要性.中華傳染病雜志,2013,31(4):193-196. Lu H Z,Wen X H.The importance of prevention and control of influenza by H7N9 avian influenza.Chinese Journal of Infectious Diseases,2013,31(4):193-196.(in Chinese)
[2]周濤,汪秉宏,韓筱璞,等.社會網(wǎng)絡(luò)分析及其在輿情和疫情防控中的應(yīng)用.系統(tǒng)工程學(xué)報,2010,25(6):742-754. Zhou T,Wang B H,Han X P,et al.Social network analysis and its application in the prevention and control of propagation for public opinion and the epidemic.Journal of Systems Engineering,2010,25(6):742-754.(in Chinese)
[3]Newman M E J.Spread of epidemic disease on networks.Physical Review E,2002,66(1):16128.
[4]Meyers L A.Contact network epidemiology:Bond percolation applied to infectious disease prediction and control.Bulletin of the American Mathematical Society,2007,44(1):63-86.
[5]Keeling M J,Eames K T D.Networks and epidemic models.Journal of the Royal Society Interface,2005,2(4):295-307.
[6]Bansal S,Grenfell B T,Meyers L A.When individual behaviour matters:Homogeneous and network models in epidemiology. Journal of the Royal Society Interface,2007,4(16):879-891.
[7]House T,Keeling M J.Insights from unifying modern approximations to infections on networks.Journal of the Royal Society Interface,2010,8(54):1-7.
[8]Cohen R,Havlin S,Ben-Avraham D.Efficient immunization strategies for computer networks and populations.Physical Review Letters,2003,91(24):247901.
[9]Liljeros F,Argyrakis P,Bunde A,et al.Improving immunization strategies.Physical Review E,2007,75(4):45104.
[10]Rushmore J,Caillaud D,Hall R J,et al.Network-based vaccination improves prospects for disease control in wild chimpanzees. Journal of the Royal Society Interface,2014,11(97):1-9.
[11]Pastor-Satorras R,Vespignani A.Immunization of complex networks.Physical Review E,2002,65(3):36104.
[12]Meyers L A,Babak P,Newman M E J,et al.Networktheory and SARS:Predicting outbreak diversity.Journal of Theoretical Biology,2005,232:71-81.
[13]邱曉剛,張鵬,陳彬,等.面向非常規(guī)突發(fā)事件應(yīng)急管理的人工社會計(jì)算實(shí)驗(yàn)平臺研究.中國應(yīng)急管理,2014(2):7-14. Qiu X G,Zhang P,Chen B,et al.Research on the platform of artificial society computing toward unconventional emergency events management.China Emergency Management,2014(2):7-14.(in Chinese)
[14]楊青,楊帆.基于元胞自動機(jī)的突發(fā)傳染病事件演化模型.系統(tǒng)工程學(xué)報,2012,27(6):727-738. YangQ,YangF.Emergencyepidemicsspreadmodelusingcellularautomata.JournalofSystemsEngineering,2012,27(6):727-738. (in Chinese)
[15]劉德海,王維國,孫康.基于演化博弈的重大突發(fā)公共衛(wèi)生事件情景預(yù)測模型與防控措施.系統(tǒng)工程理論與實(shí)踐,2012,32(5):937-946. Liu D H,Wang W G,Sun K.Scenario forecasting model and prevention-control measurements of important public health event based evolutionary game.Systems Engineering:Theory&Practice,2012,32(5):937-946.(in Chinese)
[16]Starnini M,Machens A,Cattuto C,et al.Immunization strategies for epidemic processes in time-varying contact networks.Journal of Theoretical Biology,2013,337:89-100.
[17]SélleyF,Besenyeiá,KissI,etal.Dynamiccontrolofmodern,network-basedepidemicmodels.SIAMJournalonAppliedDynamical Systems,2015,14(1):168-187.
[18]Kandhway K,Kuri J.How to run a campaign:Optimal control of SIS and SIR information epidemics.Applied Mathematics and Computation,2014,231:79-92.
[19]Enns E A,Brandeau M L.Link removal for the control of stochastically evolving epidemics over networks:A comparison of approaches.Journal of Theoretical Biology,2015,371:154-165.
[20]Hadjichrysanthou C,Sharkey K J.Epidemic control analysis:Designing targeted intervention strategies against epidemics propagated on contact networks.Journal of Theoretical Biology,2015,365:84-95.
[21]Longini I M,Halloran M E,Nizam A,et al.Containing pandemic influenza with antiviral agents.American Journal of Epidemiology,2004,159(7):623-633.
[22]Hethcote H.The mathematics of infectious diseases.SIAM Review,2000,42(4):599-653.
[23]Cao B,Li X,Mao Y,et al.Clinical features of the initial cases of 2009 pandemic influenza A(H1N1)virus infection in China.New England Journal of Medicine,2009,361(26):2507-2517.
[24]Puterman M L.Markov Decision Processes:Discrete Stochastic Dynamic Programming.New York:Wiley,1994.
[25]Kocsis L,Szepesvári C.Bandit based Monte-Carlo planning//The 17th European Conference on Machine Learning.Berlin:Springer-Verlag,2006:282-293.
[26]Keller T,Eyerich P.PROST:Probabilistic planning based on UCT//Proceedings of the Twenty-Second International Conference on Automated Planning and Scheduling.Sao Paulo:AAAI,2012:119-127.
[27]Tuite A R,Greer A L,Whelan M,et al.Estimated epidemiologic parameters and morbidity associated with pandemic H1N1 influenza.Canadian Medical Association Journal,2010,182(2):131-136.
[28]Pourbohloul B,Ahued A,Davoudi B,et al.Initial human transmission dynamics of the pandemic(H1N1)2009 virus in North America.Influenza and Other Respiratory Viruses,2009,3(5):215-222.
[29]Erdos P,Renyi A.On random graphs.Publicationes Mathematicae,1959,6(1):290-297.
[30]Watts D J,Strogatz S H.Collective dynamics of‘small-world’networks.Nature,1998,393(6684):440-442.
[31]Barabási A,Albert R.Emergence of scaling in random networks.Science,1999,286(5439):509-512.
Decision making model of emerging epidemics control based on Markov decision processes
Yu Zhenyu,Han Chuanfeng,Meng Lingpeng
(School of Economics and Management,Tongji University,Shanghai 200092,China)
Making dynamic decisions according to the spread of emerging epidemics on the contact network is an effective way of epidemics confinement.A contact network model of epidemics is expanded with time dimension,and considers the spread law of epidemics both in time and space in reality.Considering the immunity and quarantine measures,the dynamic decision making model of epidemics is formulated based on Markov decision processes.The model generates control policies dynamically and optimizes total utility over the decision horizon.The feasibility and effectiveness of the model are verified through a typical scenario modeling and simulation,and the results show that the dynamic control policies generated by the model have good performance in containing epidemics spread and can be used as decision support tools for responding emerging epidemics.
emerging epidemics;contact network;Markov decision processes;dynamic decision making;immunity;quarantine
TP273
A
1000-5781(2016)03-0338-12
10.13383/j.cnki.jse.2016.03.006
于振宇(1986-),男,山東濟(jì)南人,博士生,研究方向:應(yīng)急管理,決策理論,Email:freshyu2002@163.com;
韓傳峰(1962-),男,山東壽光人,博士,教授,博士生導(dǎo)師,研究方向:管理系統(tǒng)工程,區(qū)域發(fā)展與社會治理,應(yīng)急管理,Email:juanfeng12@163.com;
孟令鵬(1984-),男,山東昌樂人,博士后,研究方向:應(yīng)急管理,社會治理,Email:lmeng@#edu.cn.
2014-11-26;
2015-12-03.
國家自然科學(xué)基金資助項(xiàng)目(91024023;91224003);中國博士后科學(xué)基金資助項(xiàng)目(2014M551459).