□張 倩 李天皓 白春光
[電子科技大學(xué) 成都 611731]
決策是指決策主體選擇其行為的過(guò)程,決策過(guò)程的任一環(huán)節(jié)出現(xiàn)偏差都有可能導(dǎo)致失誤,決策輔助支持系統(tǒng)對(duì)提高決策科學(xué)性和正確性具有重要作用[1~2]。隨著機(jī)器學(xué)習(xí)(Machine Learning, ML)、深度學(xué)習(xí)(Deep Learning, DL)和大數(shù)據(jù)等技術(shù)的發(fā)展和成熟,人工智能技術(shù)在輔助決策方面也表現(xiàn)出良好的應(yīng)用前景,可通過(guò)挖掘在線醫(yī)療評(píng)論等為醫(yī)療決策提供參考,為政府智能決策提供優(yōu)化方案等[3~4]。
傳統(tǒng)的決策優(yōu)化方法主要建立數(shù)值模型求最優(yōu)解[5~6],方法的計(jì)算成本高,且模型泛化能力較差,尤其在長(zhǎng)周期連續(xù)決策問(wèn)題中往往效果不佳。作為一種智能決策框架,強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)以馬爾可夫決策過(guò)程(Markov Decision Process, MDP)為理論基礎(chǔ),采用“試錯(cuò)”的方式進(jìn)行學(xué)習(xí),在連續(xù)決策過(guò)程中尋找解決問(wèn)題的最佳策略。智能體通過(guò)與環(huán)境的交互學(xué)習(xí)經(jīng)驗(yàn),并利用過(guò)去的經(jīng)驗(yàn)來(lái)改善未來(lái)行動(dòng)的預(yù)期結(jié)果,在探索與利用的平衡之間實(shí)現(xiàn)獎(jiǎng)勵(lì)的最大化,是一種適應(yīng)性的學(xué)習(xí)過(guò)程。利用強(qiáng)化學(xué)習(xí)優(yōu)化決策問(wèn)題的研究在圍棋、電子游戲、醫(yī)療決策、軍事戰(zhàn)略等領(lǐng)域都取得了顯著優(yōu)于人類決策的效果[7~12]。
強(qiáng)化學(xué)習(xí)被證實(shí)在優(yōu)化重癥監(jiān)護(hù)臨床決策、電力系統(tǒng)決策控制、職業(yè)道路選擇推薦等方面發(fā)揮出巨大的作用[13~15]。針對(duì)自動(dòng)駕駛汽車在交通中的決策問(wèn)題,強(qiáng)化學(xué)習(xí)可以根據(jù)道路情況自主決定駕駛行為,進(jìn)行車道變更的決策[16~17]。在農(nóng)業(yè)方面,強(qiáng)化學(xué)習(xí)借助天氣預(yù)報(bào)優(yōu)化水稻灌溉決策,為農(nóng)作物疾病的最佳治療方案提供決策支持[18~19]。在商業(yè)領(lǐng)域,智能決策支持系統(tǒng)采用強(qiáng)化學(xué)習(xí)預(yù)測(cè)物流網(wǎng)絡(luò)的變化,也可以為金融市場(chǎng)的股票交易策略提供支持[20~21]。在教育方面,強(qiáng)化學(xué)習(xí)可基于學(xué)習(xí)者的個(gè)人信息和社交資料推薦最佳的學(xué)習(xí)方式和適合的學(xué)習(xí)課程[22],以提高學(xué)習(xí)質(zhì)量。在醫(yī)療領(lǐng)域,強(qiáng)化學(xué)習(xí)在支持臨床疾病診斷輔助[23]和個(gè)性化用藥治療[24]方面展現(xiàn)出明顯的優(yōu)勢(shì),可為智慧醫(yī)療建設(shè)發(fā)揮作用。可見(jiàn),強(qiáng)化學(xué)習(xí)已經(jīng)被應(yīng)用于社會(huì)活動(dòng)的各個(gè)方面,在為決策優(yōu)化提供輔助和支持方面顯示出較強(qiáng)的應(yīng)用潛力。
在社會(huì)決策過(guò)程中,決策的結(jié)果往往由多個(gè)參與者共同決定,強(qiáng)化學(xué)習(xí)使用多智能體建模多主體決策行為[11]。決策者可以應(yīng)用多智能體強(qiáng)化學(xué)習(xí)(Multi-Agent Reinforcement Learning, MARL)算法輔助決策,智能體之間通過(guò)競(jìng)爭(zhēng)與合作方式以最大化團(tuán)隊(duì)行動(dòng)的價(jià)值,從而改善決策結(jié)果[25]。由于現(xiàn)實(shí)中多數(shù)決策過(guò)程的參與者之間存在明顯的等級(jí)關(guān)系,本文應(yīng)用具有層級(jí)關(guān)系的多智能體進(jìn)行建模,即多智能體分層強(qiáng)化學(xué)習(xí)(Hierarchical Reinforcement Learning, HRL)[26]。作為多智能體合作強(qiáng)化學(xué)習(xí)的一種特殊結(jié)構(gòu),分層強(qiáng)化學(xué)習(xí)采用層次結(jié)構(gòu)克服多智能體強(qiáng)化學(xué)習(xí)環(huán)境的不穩(wěn)定性,具有解決稀疏獎(jiǎng)勵(lì)和延遲獎(jiǎng)勵(lì)問(wèn)題的能力[27]。隨著多智能體分層強(qiáng)化學(xué)習(xí)技術(shù)的日益成熟,HRL應(yīng)用于MOOCs課程推薦、自動(dòng)駕駛輔助決策、機(jī)器人控制等多方面都取得了良好的效果[16,28~30]。
本文基于多智能體強(qiáng)化學(xué)習(xí)提出了分層深度Q網(wǎng)絡(luò)(Hierarchical Deep Q-network, HDQ)模型,該模型引入兩個(gè)智能體相互合作進(jìn)行學(xué)習(xí),在分層模型的基礎(chǔ)上,引入目標(biāo)分解的思想,并結(jié)合DL模型,通過(guò)神經(jīng)網(wǎng)絡(luò)對(duì)智能體進(jìn)行建模,讓上層智能體學(xué)習(xí)最佳的目標(biāo)分解策略,并將分解的最佳目標(biāo)傳遞給下層智能體,指導(dǎo)下層智能體采取行動(dòng),通過(guò)智能體之間的相互合作,實(shí)現(xiàn)團(tuán)隊(duì)整體的最終決策目標(biāo)。
強(qiáng)化學(xué)習(xí)是以馬爾可夫決策過(guò)程為基礎(chǔ)的理論框架,闡述了在解決動(dòng)態(tài)決策問(wèn)題中智能體與環(huán)境的交互過(guò)程。強(qiáng)化學(xué)習(xí)可通過(guò)其5個(gè)主要要素表示成為5元組 < S,A,P,R,γ>,其中S表示狀態(tài)集合,A定義智能體可采取的動(dòng)作集合,P為狀態(tài)轉(zhuǎn)移矩陣,刻畫(huà)環(huán)境狀態(tài)的動(dòng)態(tài)變化方式,R是智能體采取動(dòng)作后獲得的獎(jiǎng)勵(lì)集合, γ (0≤γ≤1)表示未來(lái)獎(jiǎng)勵(lì)對(duì)當(dāng)前累計(jì)獎(jiǎng)勵(lì)的折扣率。強(qiáng)化學(xué)習(xí)將決策主體建模成能與環(huán)境進(jìn)行動(dòng)態(tài)交互和學(xué)習(xí)的智能體。在時(shí)刻 t =1,2,···,T 時(shí),當(dāng)智能體采取動(dòng)作 at∈A,環(huán)境會(huì)以概率 p (st+1|st,at)∈P 從當(dāng)前狀態(tài) st∈S轉(zhuǎn)移到下一個(gè)狀態(tài) st+1∈S ,此時(shí)智能體獲得獎(jiǎng)勵(lì) rt∈R。RL將決策問(wèn)題形式化為尋找使預(yù)期累計(jì)獎(jiǎng)勵(lì)最大化的最優(yōu)策略[31],其中預(yù)期累計(jì)獎(jiǎng)勵(lì)可計(jì)算如下:
由于傳統(tǒng)的RL模型在處理高維數(shù)據(jù)中具有局限性,DL可以與RL相結(jié)合實(shí)現(xiàn)更好的決策效果。深度Q網(wǎng)絡(luò)(Deep Q Network, DQN)利用神經(jīng)網(wǎng)絡(luò)在高維空間學(xué)習(xí)中的優(yōu)勢(shì),引入神經(jīng)網(wǎng)絡(luò)作為值函數(shù)逼近器,計(jì)算最大化累計(jì)獎(jiǎng)勵(lì)的最優(yōu)解。DQN采用帶參數(shù)的神經(jīng)網(wǎng)絡(luò)估計(jì)動(dòng)作價(jià)值 Q (s,a),并基于經(jīng)驗(yàn)回放機(jī)制進(jìn)行學(xué)習(xí),通過(guò)最小化誤差損失不斷逼近最優(yōu)解:
但是傳統(tǒng)的DQN模型存在高估Q值的問(wèn)題,容易跳過(guò)最優(yōu)解學(xué)習(xí)到次優(yōu)解,導(dǎo)致模型效果不佳。為了緩解這一問(wèn)題,Dueling DQN[32]在DQN的基礎(chǔ)上引入優(yōu)勢(shì)函數(shù)衡量動(dòng)作的相對(duì)價(jià)值,優(yōu)勢(shì)函數(shù)計(jì)算如下:
從而將智能體的目標(biāo)轉(zhuǎn)化為最大化:
強(qiáng)化學(xué)習(xí)因其特有的馬爾可夫特性而在順序決策中具有較大優(yōu)勢(shì),但在應(yīng)用于長(zhǎng)周期決策優(yōu)化問(wèn)題中,短期內(nèi)無(wú)法衡量動(dòng)作對(duì)最終目標(biāo)G的影響,智能體在多數(shù)時(shí)間步內(nèi)的獎(jiǎng)勵(lì)為0,從而造成獎(jiǎng)勵(lì)的稀疏性,且沒(méi)有獎(jiǎng)勵(lì)引導(dǎo)容易使智能體陷入困境,影響智能體的學(xué)習(xí)效率。分層強(qiáng)化學(xué)習(xí)應(yīng)用具有層級(jí)結(jié)構(gòu)的智能體能夠解決稀疏獎(jiǎng)勵(lì)問(wèn)題,智能體通過(guò)決策引導(dǎo)其他智能體采取動(dòng)作。
在復(fù)雜任務(wù)的解決過(guò)程中,決策周期T通常很長(zhǎng),需要在多個(gè)決策時(shí)間步 (t =0,1,2,···,T)依次決策,且決策的有效性和準(zhǔn)確性在短期內(nèi)無(wú)法得到驗(yàn)證。本文的做法是采用分解的思想對(duì)目標(biāo)進(jìn)行細(xì)分,化繁為簡(jiǎn),分而治之,通過(guò)小目標(biāo)的實(shí)現(xiàn)逐步達(dá)成最終目標(biāo)。分解的思想也被用于解決復(fù)雜數(shù)據(jù)集下的機(jī)器學(xué)習(xí)和數(shù)據(jù)分析問(wèn)題[33],表現(xiàn)出優(yōu)于基線方法的良好效果。如圖1所示,智能體的任務(wù)是在決策周期T內(nèi)實(shí)現(xiàn)目標(biāo)G,在目標(biāo)分解方法下,智能體學(xué)習(xí)如何將整體目標(biāo)G分解為各個(gè)子目標(biāo)gt(t=0,1,2,···,T),并通過(guò)計(jì)算狀態(tài)st(t=0,1,2,···,T)與子目標(biāo)之間的距離 d is(gt,st)判斷子目標(biāo)是否完成,此時(shí),智能體的動(dòng)作定義為在不同的狀態(tài)下選擇子目標(biāo),即at:=gt。
圖1 目標(biāo)分解過(guò)程
圖2 模型結(jié)構(gòu)
其中 αi(i=1,2)為梯度下降的步長(zhǎng),即神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率,智能體和智能體交替迭代進(jìn)行學(xué)習(xí)和參數(shù)更新,直至整體策略收斂。
膿毒癥是由感染引起的危及生命的器官功能障礙,是導(dǎo)致危重患者死亡的主要原因[34]。不同膿毒癥患者對(duì)治療措施的個(gè)體反應(yīng)不同[35],反復(fù)住院率高[36]。膿毒癥患者的治療過(guò)程是一個(gè)長(zhǎng)期的、動(dòng)態(tài)的、連續(xù)的臨床決策過(guò)程,對(duì)決策質(zhì)量的要求高,傳統(tǒng)的技術(shù)方法難以對(duì)其進(jìn)行優(yōu)化。本文提出的方法一方面可以克服強(qiáng)化學(xué)習(xí)延遲的獎(jiǎng)勵(lì)和復(fù)雜的狀態(tài)空間容易導(dǎo)致策略的次優(yōu)性,通過(guò)將任務(wù)分解為子目標(biāo),可以減少探索空間。另一方面,本文方法可以模擬不同等級(jí)的醫(yī)生之間層級(jí)指導(dǎo)和合作行為,協(xié)同做出治療決策。我們將結(jié)合目前廣泛用于研究的醫(yī)學(xué)數(shù)據(jù)集的MIMIC-IV提取膿毒癥患者序列和特征,對(duì)患者的治療決策過(guò)程進(jìn)行優(yōu)化。
1. 數(shù)據(jù)提取
本文的實(shí)驗(yàn)對(duì)象為MIMIC-IV數(shù)據(jù)庫(kù)中符合Sepsis-3條件[37]的4 800名膿毒癥患者。表1顯示了原始數(shù)據(jù)集的匯總,包括存活和死亡患者的比例、平均年齡、男性比例、再入院情況和SOFA評(píng)分,其中SOFA評(píng)分是膿毒癥的順序器官衰竭評(píng)分,根據(jù)患者的呼吸系統(tǒng)、血液系統(tǒng)、肝臟系統(tǒng)、心血管系統(tǒng)、神經(jīng)系統(tǒng)和腎臟系統(tǒng)等六大人體系統(tǒng)相關(guān)指標(biāo)計(jì)算而得的分?jǐn)?shù)[37],是判斷膿毒癥嚴(yán)重程度的關(guān)鍵指標(biāo),與患者死亡有著密切關(guān)系[38]。
表1 患者信息表
隨后,本文提取了患者住院前4小時(shí)到住院后72小時(shí)的特征,如性別、年齡、體重、SOFA評(píng)分、心率、血壓、呼吸頻率、血氧飽和度、體溫、血紅蛋白、鉀含量、鈉含量、凝血酶原時(shí)間和血小板數(shù)量等在內(nèi)的45個(gè)特征。然后,對(duì)每個(gè)特征進(jìn)行一次4小時(shí)窗口匯總,使用均值插值方法處理其中的缺失值。其次,使用最大最小歸一化方法消除特征之間的量綱,以確保數(shù)值在[0,1]區(qū)間內(nèi)。最后,得到了包括45個(gè)特征的91 200條可用數(shù)據(jù)記錄,每個(gè)患者對(duì)應(yīng)19個(gè)歷史治療軌跡。
2. 實(shí)驗(yàn)變量與參數(shù)選擇
(1)狀態(tài)
狀態(tài)空間由動(dòng)態(tài)變量和靜態(tài)變量組成[11]。靜態(tài)變量包括性別、年齡、體重等信息,動(dòng)態(tài)變量包括患者的生命體征、實(shí)驗(yàn)室檢查指標(biāo)和尿液量等數(shù)據(jù)。由于變量過(guò)多容易造成模型的過(guò)擬合,影響模型的效果。同時(shí),過(guò)多的狀態(tài)變量容易導(dǎo)致強(qiáng)化學(xué)習(xí)中的轉(zhuǎn)移矩陣過(guò)于稀疏,導(dǎo)致?tīng)顟B(tài)轉(zhuǎn)移困難。因此,為了降低數(shù)據(jù)特征的維數(shù),本文采用了K-means算法對(duì)狀態(tài)進(jìn)行聚類,以達(dá)到降維的目的,避免轉(zhuǎn)移矩陣的稀疏性。經(jīng)過(guò)聚類處理后,得到了700個(gè)不同的狀態(tài)類別來(lái)表示患者的身體狀態(tài)[39]。
(2)子目標(biāo)
SOFA評(píng)分是衡量膿毒癥患者的關(guān)鍵指標(biāo),與患者的死亡率密切相關(guān),對(duì)于治療決策的結(jié)果有著較大影響。上層智能體學(xué)習(xí)子目標(biāo)的分解策略,其動(dòng)作空間定義為患者的SOFA評(píng)分。因此,本文根據(jù)數(shù)據(jù)集中患者的SOFA評(píng)分的取值范圍對(duì)上層智能體的動(dòng)作進(jìn)行離散化處理,將其動(dòng)作空間定義為一維向量,元素取值為[0,18]區(qū)間內(nèi)的整數(shù)。因此,在每一個(gè)決策的時(shí)間步中,上層智能體根據(jù)患者狀態(tài)選擇最佳的目標(biāo)SOFA評(píng)分,并將其傳遞給下層智能體作為子目標(biāo)。
(3)動(dòng)作
臨床實(shí)踐中,醫(yī)生普遍采用血管升壓藥和靜脈輸液治療膿毒癥患者。下層智能體在不同的時(shí)間步根據(jù)狀態(tài)和子目標(biāo)選擇最優(yōu)的動(dòng)作,以學(xué)習(xí)實(shí)現(xiàn)目標(biāo)的用藥策略。動(dòng)作空間定義為兩種藥物組成的二維矩陣,分別由血管升壓藥的最大劑量和靜脈注射的總劑量組成,其中血管升壓藥包括血管升壓素、多巴胺、腎上腺素和去甲腎上腺素,靜脈注射液包含晶體、膠體和血液制品以及靜脈注射抗生素等。藥物劑量通過(guò)四分位數(shù)進(jìn)行離散化,沒(méi)有使用藥物的患者對(duì)應(yīng)劑量為0。
(4)獎(jiǎng)勵(lì)
實(shí)驗(yàn)環(huán)境基于Python 3.6和TensorFlow 1.15,兩個(gè)智能體均由神經(jīng)網(wǎng)絡(luò)進(jìn)行建模,網(wǎng)絡(luò)的學(xué)習(xí)率α設(shè)置為0.01。算法基于強(qiáng)化學(xué)習(xí)建模,強(qiáng)化學(xué)習(xí)模型的獎(jiǎng)勵(lì)衰減折扣γ設(shè)置為0.9,下層智能體的目標(biāo)閾值η設(shè)置為2,模型基于以上參數(shù)進(jìn)行訓(xùn)練。
根據(jù)實(shí)驗(yàn)設(shè)計(jì),本文對(duì)照臨床醫(yī)生的用藥決策、無(wú)層次結(jié)構(gòu)的單智能體Dueling DQN以及DQN作為基準(zhǔn)模型,基準(zhǔn)模型的所有參數(shù)設(shè)置和訓(xùn)練迭代次數(shù)均相同。通過(guò)與基準(zhǔn)模型進(jìn)行對(duì)比,評(píng)估HDQ模型在決策優(yōu)化問(wèn)題中的效果。
在強(qiáng)化學(xué)習(xí)中,Q值的大小用于衡量模型所選動(dòng)作的價(jià)值高低,圖3顯示了本文的HDQ模型與Dueling DQN和DQN兩個(gè)基準(zhǔn)模型在訓(xùn)練過(guò)程中的Q值比較情況,其中橫軸表示模型訓(xùn)練的迭代次數(shù),縱軸表示模型的Q值大小。在模型迭代訓(xùn)練10 000輪后,三個(gè)模型的都達(dá)到了收斂,學(xué)習(xí)到了有效的穩(wěn)定策略。根據(jù)圖3可見(jiàn),在訓(xùn)練前期,模型都傾向于選擇具有較高Q值的動(dòng)作。隨著訓(xùn)練過(guò)程的進(jìn)行,模型學(xué)習(xí)調(diào)整動(dòng)作的選擇,導(dǎo)致Q值不斷減小并最終收斂。同時(shí),根據(jù)Q值比較結(jié)果也可以發(fā)現(xiàn),Dueling DQN模型的效果優(yōu)于傳統(tǒng)的DQN算法,但與本文的HDQ模型相比還有一定的差距。與基準(zhǔn)模型相比,本文的HDQ模型在動(dòng)作的選擇上具有明顯優(yōu)勢(shì),在收斂條件下,Q值顯著高于基準(zhǔn)模型。
圖3 不同模型Q值比較
死亡率是衡量醫(yī)療用藥決策策略有效性的重要指標(biāo),對(duì)患者的治療結(jié)果有著決定性作用,表2列出了不同策略下患者住院死亡率的比較。整體而言,臨床醫(yī)師治療策略下的患者死亡率是最高的,高達(dá)23.5%。對(duì)于無(wú)分層結(jié)構(gòu)的模型來(lái)說(shuō),不論是Dueling DQN還是DQN算法,都能夠在臨床醫(yī)師的基礎(chǔ)上通過(guò)優(yōu)化決策策略,達(dá)到降低患者死亡率的目標(biāo),但改進(jìn)后的Dueling DQN算法在策略優(yōu)化方面的效果會(huì)比DQN更加顯著。
表2 模型死亡率
顯然,本文提出的HDQ模型在降低患者死亡率方面比臨床醫(yī)師和無(wú)分層結(jié)構(gòu)的模型更有優(yōu)勢(shì)。雖然其他算法也可以通過(guò)推薦藥物劑量達(dá)到降低患者死亡率的目的,但通過(guò)HDQ模型學(xué)習(xí)的用藥策略的死亡率是最低的,比DQN算法低4.5%,比沒(méi)有層次結(jié)構(gòu)的Dueling DQN結(jié)構(gòu)低3.4%,相比于臨床醫(yī)生的死亡率降低了10.3%。
由此可見(jiàn),HDQ模型在臨床決策優(yōu)化方面具有顯著的優(yōu)勢(shì),這也證明臨床醫(yī)師的決策還有較大的優(yōu)化空間,無(wú)論是本文的分層模型,還是現(xiàn)有的非分層模型,都能實(shí)現(xiàn)臨床醫(yī)師策略的優(yōu)化。
針對(duì)社會(huì)中面臨的長(zhǎng)期決策優(yōu)化問(wèn)題,本文提出了一種基于多智能體強(qiáng)化學(xué)習(xí)的分層決策優(yōu)化(HDQ)算法,以目標(biāo)分解和層級(jí)合作的方式實(shí)現(xiàn)長(zhǎng)周期順序決策優(yōu)化。在所提的HDQ算法模型中,具有層級(jí)關(guān)系的多智能體基于強(qiáng)化學(xué)習(xí)理論相互合作,上層智能體學(xué)習(xí)最佳的目標(biāo)分解,下層智能體學(xué)習(xí)在子目標(biāo)指導(dǎo)與約束下完成目標(biāo)的行動(dòng)策略,從而共同構(gòu)建團(tuán)隊(duì)任務(wù)的最佳策略、實(shí)現(xiàn)決策優(yōu)化。為了檢驗(yàn)該模型的決策效率,本文提取MIMIC-IV數(shù)據(jù)集對(duì)膿毒癥患者的臨床診療決策問(wèn)題進(jìn)行了分析驗(yàn)證,發(fā)現(xiàn)該算法既能避免強(qiáng)化學(xué)習(xí)延遲獎(jiǎng)勵(lì)和復(fù)雜狀態(tài)空間導(dǎo)致的策略次優(yōu)性,還能模擬出不同等級(jí)醫(yī)生之間的層級(jí)指導(dǎo)和合作行為,進(jìn)而協(xié)同做出優(yōu)于人類臨床醫(yī)師的治療決策。
與傳統(tǒng)的智能決策算法相比,HDQ算法具有明顯的優(yōu)越性,彌補(bǔ)了傳統(tǒng)決策方法模型泛化能力較差、長(zhǎng)周期連續(xù)決策效率低下的不足,適用于具有連續(xù)決策過(guò)程的策略優(yōu)化問(wèn)題。盡管如此,本文的決策方法在實(shí)際運(yùn)用過(guò)程中仍可能存在一定局限性;這是由于該方法作為一種獨(dú)立學(xué)習(xí)的方式,采用兩個(gè)智能體交替學(xué)習(xí)和更新,下層智能體完成目標(biāo)的行動(dòng)策略將高度依賴于上層智能體對(duì)子目標(biāo)分解的合理性。因此,未來(lái)可進(jìn)一步探索消除上層智能體學(xué)習(xí)訓(xùn)練結(jié)果對(duì)模型性能產(chǎn)生負(fù)面影響的方法,并針對(duì)模糊環(huán)境下多層次、多目標(biāo)的決策問(wèn)題開(kāi)展研究。