亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        組合動(dòng)作空間深度強(qiáng)化學(xué)習(xí)的人群疏散引導(dǎo)方法

        2021-08-11 01:03:32薛怡然劉家鋒
        關(guān)鍵詞:標(biāo)志人群動(dòng)態(tài)

        薛怡然,吳 銳,劉家鋒

        (模式識(shí)別與智能系統(tǒng)研究中心(哈爾濱工業(yè)大學(xué)),哈爾濱 150001)

        大型商場(chǎng)、寫(xiě)字樓等多功能建筑在滿(mǎn)足人們多種需求的同時(shí),建筑復(fù)雜程度逐漸提高。在發(fā)生地震、火災(zāi)等災(zāi)害時(shí),建筑內(nèi)復(fù)雜的結(jié)構(gòu)對(duì)人群疏散逃生形成阻礙,對(duì)生命安全形成新的威脅。災(zāi)害發(fā)生時(shí),人群由于對(duì)建筑物環(huán)境不了解、視野受限、心理恐慌等因素,難以準(zhǔn)確找到最優(yōu)逃生路線[1]。在從眾心理的影響下,逃生者容易形成擁堵甚至踩踏,造成更大損失[2]。如何引導(dǎo)人群以最有效的路徑疏散,對(duì)災(zāi)害中保護(hù)生命安全,減少人員財(cái)產(chǎn)損失具有重要意義。

        為了在災(zāi)害發(fā)生時(shí)引導(dǎo)人群有效疏散,研究者開(kāi)發(fā)了多種基于動(dòng)態(tài)引導(dǎo)標(biāo)志的人群疏散引導(dǎo)系統(tǒng)[3-6]。此類(lèi)系統(tǒng)可以對(duì)建筑場(chǎng)景建模,收集災(zāi)害位置和人群分布等實(shí)時(shí)信息,用路徑規(guī)劃算法找出最優(yōu)逃生路徑,通過(guò)動(dòng)態(tài)引導(dǎo)標(biāo)志誘導(dǎo)人群的運(yùn)動(dòng)狀態(tài),有效地提高了緊急情況下人群逃生效率。但是,現(xiàn)有的人群疏散引導(dǎo)系統(tǒng)都離不開(kāi)人工設(shè)計(jì)基于拓?fù)鋱D或者網(wǎng)格形式的場(chǎng)景模型、根據(jù)場(chǎng)景特征手動(dòng)輸入模型參數(shù)等工作,人工工作量較大并且容易引入人為因素造成的誤差,對(duì)后續(xù)路徑規(guī)劃等計(jì)算步驟造成干擾。

        針對(duì)此問(wèn)題,本文提出了基于深度強(qiáng)化學(xué)習(xí)算法的端對(duì)端的人群疏散引導(dǎo)方法。即訓(xùn)練一種僅以建筑平面圖為輸入,在與環(huán)境的交互和反饋中自動(dòng)探索學(xué)習(xí)場(chǎng)景模型和路徑規(guī)劃方法,發(fā)現(xiàn)最優(yōu)動(dòng)作策略,直接輸出動(dòng)態(tài)引導(dǎo)標(biāo)志信息的疏散引導(dǎo)智能體。為實(shí)現(xiàn)此方法,設(shè)計(jì)了基于社會(huì)力模型人群動(dòng)力學(xué)仿真的強(qiáng)化學(xué)習(xí)智能體仿真交互環(huán)境,并針對(duì)深度強(qiáng)化學(xué)習(xí)中典型深度Q網(wǎng)絡(luò)(DQN)[7]方法應(yīng)用于人群疏散引導(dǎo)時(shí)出現(xiàn)的“維度災(zāi)難”問(wèn)題,提出了組合動(dòng)作空間的DQN方法,降低了網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜度,提高了算法在復(fù)雜建筑場(chǎng)景中的實(shí)用性。

        1 相關(guān)工作

        1.1 人群仿真與疏散引導(dǎo)

        人群運(yùn)動(dòng)仿真是人群疏散研究中分析人群行為特征、自組織等現(xiàn)象的重要基礎(chǔ)。人群仿真研究可分為宏觀模型與微觀模型。宏觀模型主要考察人群整體的運(yùn)動(dòng)狀態(tài),一般采用元胞自動(dòng)機(jī)等柵格模型[8]。例如用流體力學(xué)方法計(jì)算速度場(chǎng),再作用于個(gè)體的高密度人群仿真方法[9],和基于格子玻爾茲曼模型的人群異常檢測(cè)方法等[10]。微觀模型用動(dòng)力學(xué)方法仿真每個(gè)個(gè)體的運(yùn)動(dòng)特征,典型方法有引入人的主觀因素的社會(huì)力模型[11-12]。

        在仿真研究中,研究者希望提高疏散效率,使人群運(yùn)動(dòng)更貼近現(xiàn)實(shí),因此人群疏散中的路徑規(guī)劃問(wèn)題受到研究者的關(guān)注。有研究者分別利用群體智能的布谷鳥(niǎo)算法[13]和結(jié)合心理因素的A*算法[14]改進(jìn)路徑搜索方法。也有研究者結(jié)合多種傳感器信息,例如構(gòu)建威脅態(tài)勢(shì)信息場(chǎng)的路徑優(yōu)化方法[15]、感知災(zāi)害位置的路徑選擇方法[16]、根據(jù)路徑和出口容量?jī)?yōu)化的路徑選擇模型[17]等。仿真環(huán)境的路徑規(guī)劃方法可以綜合環(huán)境信息,計(jì)算使全局疏散效率最高的逃生路徑。在實(shí)際場(chǎng)景中,逃生者由于視野和經(jīng)驗(yàn)受限,只能掌握自身周邊信息,建筑物監(jiān)測(cè)系統(tǒng)即使可以掌握優(yōu)化的逃生路徑,也需要專(zhuān)門(mén)途徑告知逃生者。

        為了指示逃生路線,大型建筑內(nèi)一般設(shè)置有應(yīng)急逃生標(biāo)志。應(yīng)急標(biāo)志可分為靜態(tài)引導(dǎo)標(biāo)志和動(dòng)態(tài)引導(dǎo)標(biāo)志兩類(lèi)[18]。在真實(shí)場(chǎng)景實(shí)驗(yàn)[19]和基于社會(huì)力模型的仿真實(shí)驗(yàn)[20]中,靜態(tài)引導(dǎo)標(biāo)志都對(duì)疏散效率起到了重要的正面作用。不同于靜態(tài)引導(dǎo)標(biāo)志僅能指示一種預(yù)設(shè)的疏散路線,動(dòng)態(tài)引導(dǎo)標(biāo)志可根據(jù)災(zāi)害場(chǎng)景中人群分布等實(shí)時(shí)條件顯示不同的引導(dǎo)信息。研究表明在某個(gè)出口不可用時(shí),動(dòng)態(tài)引導(dǎo)標(biāo)志可以有效誘導(dǎo)人群從其他出口疏散[21],在路徑中發(fā)生危險(xiǎn)時(shí),動(dòng)態(tài)標(biāo)志也能引導(dǎo)人群避開(kāi)不安全的路線[22]。

        將上述人群仿真環(huán)境、路徑規(guī)劃算法和動(dòng)態(tài)引導(dǎo)標(biāo)志相結(jié)合,研究者開(kāi)發(fā)出了多種人群疏散引導(dǎo)系統(tǒng)。此類(lèi)系統(tǒng)以建筑物環(huán)境模型為基礎(chǔ),實(shí)現(xiàn)了從場(chǎng)景信息感知、疏散路徑規(guī)劃到人群運(yùn)動(dòng)誘導(dǎo)的閉環(huán)反饋,具備一定的實(shí)用價(jià)值[3]。例如在拓?fù)鋱D模型上基于網(wǎng)絡(luò)流路徑規(guī)劃的動(dòng)態(tài)引導(dǎo)方法[4]、使用仿真攝像機(jī)采集人群密度信息,應(yīng)用實(shí)時(shí)最短路算法的動(dòng)態(tài)疏散系統(tǒng)[5]。還有研究與現(xiàn)實(shí)建筑系統(tǒng)相結(jié)合,建立平行應(yīng)急疏散系統(tǒng)框架,取得了更大現(xiàn)實(shí)意義[6]。

        此類(lèi)系統(tǒng)基本流程包含輸入場(chǎng)景平面圖、人工構(gòu)建拓?fù)鋱D或網(wǎng)格模型、根據(jù)通道容量等因素輸入模型參數(shù)、應(yīng)用路徑規(guī)劃算法和設(shè)置動(dòng)態(tài)引導(dǎo)標(biāo)志信息等幾個(gè)步驟。其中構(gòu)建模型和填寫(xiě)參數(shù)幾個(gè)步驟的人工參與度高,工作量大,容易由于人為失誤造成誤差并在后續(xù)步驟中放大,使系統(tǒng)疏散效率受到影響。針對(duì)此問(wèn)題,本文利用深度強(qiáng)化學(xué)習(xí)方法,提出端到端的動(dòng)態(tài)人群疏散引導(dǎo)系統(tǒng)。

        近年來(lái),強(qiáng)化學(xué)習(xí)方法在人群疏散研究中得到了一些應(yīng)用。研究者開(kāi)發(fā)了數(shù)據(jù)驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)人群仿真方法,用智能體模擬和預(yù)測(cè)個(gè)體的運(yùn)動(dòng)[23]。在路徑選擇問(wèn)題上,有研究利用逆向強(qiáng)化學(xué)習(xí)方法使機(jī)器人模仿人類(lèi)行動(dòng)軌跡[24]。這些仿真研究目標(biāo)是接近真實(shí)場(chǎng)景,而非優(yōu)化疏散效率。對(duì)于疏散引導(dǎo)問(wèn)題,一些研究者開(kāi)發(fā)出多種使用強(qiáng)化學(xué)習(xí)智能體輸出機(jī)器人運(yùn)動(dòng)方向,控制機(jī)器人在人群中運(yùn)動(dòng),從而干涉人群運(yùn)動(dòng)狀態(tài),提高疏散效率的方法[25-27]。此類(lèi)方法在單個(gè)路口的仿真實(shí)驗(yàn)中取得了一定效果,但在實(shí)際應(yīng)用中存在加劇人群擁擠、引發(fā)踩踏事故等隱患。現(xiàn)有基于強(qiáng)化學(xué)習(xí)的研究將逃生者個(gè)體或機(jī)器人個(gè)體定義為智能體。與此不同的是,本文將疏散引導(dǎo)系統(tǒng)定義為強(qiáng)化學(xué)習(xí)智能體,其以場(chǎng)景圖像為觀測(cè)輸入,輸出遍布場(chǎng)景的多組動(dòng)態(tài)引導(dǎo)標(biāo)志信號(hào),從而誘導(dǎo)人群運(yùn)動(dòng),提高疏散效率。

        1.2 深度強(qiáng)化學(xué)習(xí)

        強(qiáng)化學(xué)習(xí)[28]是人工智能領(lǐng)域的重要組成部分之一,是一種通過(guò)與環(huán)境的交互和試錯(cuò),學(xué)習(xí)從環(huán)境狀態(tài)到動(dòng)作的映射,發(fā)現(xiàn)最優(yōu)行為策略,以使從環(huán)境獲得的積累獎(jiǎng)賞最大的學(xué)習(xí)方法。結(jié)合深度神經(jīng)網(wǎng)絡(luò),深度強(qiáng)化學(xué)習(xí)智能體能直接以圖像作為輸入,將特征提取和值函數(shù)估計(jì)等過(guò)程內(nèi)化在網(wǎng)絡(luò)結(jié)構(gòu)中,顯著拓展了智能體的感知和決策能力。深度強(qiáng)化學(xué)習(xí)的標(biāo)志性成果包括在Atari視頻游戲中超越人類(lèi)玩家水平的DQN方法[7]、在圍棋中戰(zhàn)勝人類(lèi)頂級(jí)選手的AlphaGo[29]和在星際爭(zhēng)霸2游戲在線對(duì)戰(zhàn)中打入大師級(jí)排行的AlphaStar[30]等。

        強(qiáng)化學(xué)習(xí)模型[28]基于馬爾可夫決策過(guò)程(MDP),可描述為四元組(S,A,Pa,Ra),其中S為所有狀態(tài)的集合,即狀態(tài)空間,A為動(dòng)作空間,狀態(tài)轉(zhuǎn)移函數(shù)Pa(s,s′)=P(st+1=s′|st=s,at=a)表示在狀態(tài)s時(shí)智能體執(zhí)行動(dòng)作a,環(huán)境進(jìn)入狀態(tài)s′的概率,獎(jiǎng)勵(lì)函數(shù)Ra(s,s′)表示在狀態(tài)s執(zhí)行動(dòng)作a進(jìn)入狀態(tài)s′時(shí)所獲得的即時(shí)獎(jiǎng)勵(lì)。智能體在每個(gè)離散的時(shí)間步t,觀測(cè)環(huán)境狀態(tài)st,根據(jù)策略π∶S→A選擇動(dòng)作at=π(st)作用于環(huán)境,環(huán)境反饋給智能體獎(jiǎng)勵(lì)rt,并轉(zhuǎn)移到下一個(gè)狀態(tài)st+1。智能體與環(huán)境的交互過(guò)程見(jiàn)圖1。

        圖1 強(qiáng)化學(xué)習(xí)模型示意Fig.1 Schematic of reinforcement learning model

        在強(qiáng)化學(xué)習(xí)的MDP模型基礎(chǔ)上,定義狀態(tài)-動(dòng)作值函數(shù),也可稱(chēng)作動(dòng)作值函數(shù)

        Qπ(st,at)=Eπ[rt+γrt+1+γ2rt+2+…]

        (1)

        表示按策略π,在狀態(tài)st時(shí)執(zhí)行動(dòng)作at之后獲得的期望累積獎(jiǎng)勵(lì),其中γ為獎(jiǎng)勵(lì)衰減系數(shù)。谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的DQN方法[7]用深度神經(jīng)網(wǎng)絡(luò)表示動(dòng)作值函數(shù),且分為參數(shù)為θ的當(dāng)前Q網(wǎng)絡(luò)和參數(shù)為θ-的目標(biāo)Q網(wǎng)絡(luò),每隔一定時(shí)間將當(dāng)前Q網(wǎng)絡(luò)參數(shù)復(fù)制到目標(biāo)Q網(wǎng)絡(luò)中。DQN的策略π為貪婪策略,總是選擇當(dāng)前狀態(tài)下Q值最大的動(dòng)作,訓(xùn)練時(shí)加入一定概率選擇隨機(jī)動(dòng)作作為探索過(guò)程。DQN使用經(jīng)驗(yàn)池存儲(chǔ)和管理樣本,對(duì)于一個(gè)時(shí)間步的樣本et=(st,at,rt,st+1),計(jì)算時(shí)序差分(temporal difference,TD)誤差

        (2)

        DQN在以圖像為輸入的Atari視頻游戲等任務(wù)上取得突破。研究者在DQN的基礎(chǔ)上,提出了用當(dāng)前Q網(wǎng)絡(luò)進(jìn)行目標(biāo)動(dòng)作選取的Double DQN(DDQN)方法[31]、用TD誤差區(qū)分經(jīng)驗(yàn)池中樣本優(yōu)先級(jí)的優(yōu)先經(jīng)驗(yàn)回放[32]等改進(jìn)方法。

        然而,DQN輸出的動(dòng)作空間是離散的,并且對(duì)每一種可能的動(dòng)作組合使用一個(gè)輸出層節(jié)點(diǎn)進(jìn)行評(píng)價(jià),因此當(dāng)動(dòng)作維數(shù)增加時(shí),網(wǎng)絡(luò)復(fù)雜度將以指數(shù)方式增長(zhǎng)。在人群疏散引導(dǎo)問(wèn)題中,智能體以動(dòng)態(tài)引導(dǎo)標(biāo)志的顯示狀態(tài)作為輸出動(dòng)作,每個(gè)標(biāo)志的離散動(dòng)作形成獨(dú)立的動(dòng)作維度。在復(fù)雜建筑場(chǎng)景中動(dòng)態(tài)引導(dǎo)標(biāo)志數(shù)目較多時(shí),DQN的輸出層規(guī)模將變得過(guò)于龐大而使算法無(wú)法實(shí)現(xiàn)。

        2 基于組合動(dòng)作空間DQN的疏散引導(dǎo)

        2.1 人群疏散引導(dǎo)的強(qiáng)化學(xué)習(xí)模型

        人群疏散引導(dǎo)問(wèn)題涉及3類(lèi)對(duì)象,包括建筑場(chǎng)景、逃生者和智能疏散引導(dǎo)系統(tǒng)?,F(xiàn)有研究常將每個(gè)逃生者個(gè)體定義為一個(gè)智能體,研究個(gè)體的行動(dòng)策略和運(yùn)動(dòng)狀態(tài),或添加可動(dòng)機(jī)器人個(gè)體作為智能體。與此不同的是,本文將疏散引導(dǎo)系統(tǒng)看作一個(gè)智能體,如圖2所示,則智能體所處的環(huán)境包括實(shí)際建筑場(chǎng)景和其中運(yùn)動(dòng)的人群。建筑場(chǎng)景由平面圖表示,攝像機(jī)等多種傳感器收集人群運(yùn)動(dòng)狀態(tài),繪制進(jìn)場(chǎng)景平面圖,此圖像即包含了當(dāng)前環(huán)境中所需的信息,連續(xù)多幀圖像的灰度位圖組合成(width×height×depth)三維張量,定義為MDP的環(huán)境狀態(tài)st∈S。對(duì)于多層建筑,可以將不同樓層平面圖拼接成整體場(chǎng)景圖像輸入系統(tǒng),從而實(shí)現(xiàn)多層建筑中的疏散引導(dǎo)。疏散引導(dǎo)系統(tǒng)通過(guò)動(dòng)態(tài)引導(dǎo)標(biāo)志顯示信號(hào),誘導(dǎo)、干涉人群運(yùn)動(dòng),因此智能體動(dòng)作at∈A對(duì)應(yīng)引導(dǎo)標(biāo)志信號(hào),at是離散向量,每個(gè)維度對(duì)應(yīng)一個(gè)引導(dǎo)標(biāo)志,取值為此標(biāo)志顯示狀態(tài)(向左、向右等)之一。由于環(huán)境和人群運(yùn)動(dòng)較為復(fù)雜,狀態(tài)轉(zhuǎn)移函數(shù)Pa(s,s′)是未知的,需要智能體在交互過(guò)程中學(xué)習(xí)和適應(yīng)。獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)決定了智能體的優(yōu)化方向和學(xué)習(xí)目的,在人群疏散問(wèn)題中,應(yīng)根據(jù)成功撤離的人數(shù)或疏散所用時(shí)間等因素設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)。本文定義Ra(s,s′)=-1,即每個(gè)時(shí)間步固定給予懲罰,智能體的學(xué)習(xí)目標(biāo)是使累積懲罰最小,即全體人群疏散時(shí)間最短。

        圖2 人群疏散引導(dǎo)的強(qiáng)化學(xué)習(xí)模型Fig.2 Reinforcement learning model for evacuation guidance

        強(qiáng)化學(xué)習(xí)智能體的訓(xùn)練過(guò)程需要與環(huán)境不斷交互,在探索和試錯(cuò)中學(xué)習(xí)。其所需的交互規(guī)模十分龐大,一般在數(shù)萬(wàn)個(gè)周期、百萬(wàn)個(gè)時(shí)間步以上。并且訓(xùn)練初期智能體知識(shí)不足,可能造成更多潛在危險(xiǎn)。

        因此用于智能疏散引導(dǎo)系統(tǒng)的強(qiáng)化學(xué)習(xí)智能體必須在仿真環(huán)境中進(jìn)行訓(xùn)練,訓(xùn)練完成后再部署到實(shí)際建筑內(nèi)。

        疏散引導(dǎo)系統(tǒng)智能體通過(guò)與仿真環(huán)境的大量交互進(jìn)行探索與學(xué)習(xí),最終得到神經(jīng)網(wǎng)絡(luò)形式的優(yōu)化策略π(s)。學(xué)習(xí)過(guò)程中不需要人工設(shè)計(jì)建筑通道拓?fù)鋱D或網(wǎng)格模型,智能體能自主發(fā)現(xiàn)和優(yōu)化引導(dǎo)策略,不需要另外設(shè)計(jì)路徑規(guī)劃等中間算法。實(shí)際應(yīng)用中,每個(gè)時(shí)刻t傳感器收集人群運(yùn)動(dòng)信息,將人群位置分布、當(dāng)前引導(dǎo)標(biāo)志顯示狀態(tài)等信息繪制進(jìn)場(chǎng)景平面圖。利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像的感知能力,多幀場(chǎng)景灰度位圖組成三維張量傳入神經(jīng)網(wǎng)絡(luò),作為智能體輸入的觀測(cè)狀態(tài)st,智能體根據(jù)訓(xùn)練完成后包含優(yōu)化策略的神經(jīng)網(wǎng)絡(luò)計(jì)算動(dòng)作向量at=π(st),由動(dòng)態(tài)引導(dǎo)標(biāo)志顯示對(duì)應(yīng)信號(hào),實(shí)現(xiàn)對(duì)人群疏散的有效引導(dǎo)。

        2.2 組合動(dòng)作空間DQN

        在網(wǎng)絡(luò)結(jié)構(gòu)上,DQN采用多層卷積神經(jīng)網(wǎng)絡(luò)處理圖像輸入,然后連接多層全連接神經(jīng)網(wǎng)絡(luò),輸出層每一個(gè)神經(jīng)元對(duì)應(yīng)一種可能的離散動(dòng)作組合。對(duì)于動(dòng)作中相互獨(dú)立的成分,總的動(dòng)作空間是各個(gè)獨(dú)立動(dòng)作空間的笛卡爾積。當(dāng)動(dòng)作空間有n個(gè)相互獨(dú)立的維度,每個(gè)維度有m個(gè)離散動(dòng)作時(shí),DQN網(wǎng)絡(luò)需要mn個(gè)輸出層節(jié)點(diǎn),以對(duì)應(yīng)輸入狀態(tài)s時(shí)不同動(dòng)作Q(s,a)的值。因此,隨著獨(dú)立動(dòng)作數(shù)目的增長(zhǎng),DQN的網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜度以指數(shù)速度增長(zhǎng),從而使算法不可實(shí)現(xiàn)。同時(shí)輸出層過(guò)多也會(huì)導(dǎo)致樣本利用率降低和網(wǎng)絡(luò)參數(shù)更新困難。這個(gè)現(xiàn)象被稱(chēng)為DQN的“維度災(zāi)難”問(wèn)題。

        在人群疏散引導(dǎo)的應(yīng)用當(dāng)中,智能體動(dòng)作定義為引導(dǎo)標(biāo)志的顯示狀態(tài)。即使每個(gè)引導(dǎo)標(biāo)志只有向左和向右兩個(gè)狀態(tài),對(duì)于n個(gè)引導(dǎo)標(biāo)志,總的動(dòng)作空間容量也會(huì)達(dá)到2n之多,引發(fā)“維度災(zāi)難”。本文針對(duì)此問(wèn)題,提出組合動(dòng)作空間的DQN方法(CA-DQN)。如圖3所示,對(duì)于相互獨(dú)立的動(dòng)作維度,每個(gè)維度對(duì)應(yīng)Q函數(shù)網(wǎng)絡(luò)輸出層一組節(jié)點(diǎn),每組包含這個(gè)維度上的所有離散動(dòng)作。這個(gè)改變可看作對(duì)每個(gè)動(dòng)作維度d設(shè)置了各自的值函數(shù)Qd(s,a(d);θ),并且共用一套網(wǎng)絡(luò)參數(shù)。此時(shí)網(wǎng)絡(luò)輸出層節(jié)點(diǎn)數(shù)目是各個(gè)維度上離散動(dòng)作數(shù)之和,隨獨(dú)立動(dòng)作數(shù)目的增長(zhǎng)速度從指數(shù)增長(zhǎng)降為線性增長(zhǎng),例如n個(gè)引導(dǎo)標(biāo)志所需輸出層節(jié)點(diǎn)為2n。

        圖3 CA-DQN神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network structure of CA-DQN

        (3)

        對(duì)于一個(gè)樣本et=(st,at,rt,st+1)定義每個(gè)維度上的TD誤差

        (4)

        結(jié)合研究者提出用當(dāng)前Q網(wǎng)絡(luò)選擇t+1時(shí)間動(dòng)作,以避免過(guò)高估計(jì)的DDQN算法[31],TD誤差進(jìn)一步定義為

        (5)

        則從經(jīng)驗(yàn)池中采樣所得一組樣本B={e1,…,et},神經(jīng)網(wǎng)絡(luò)的損失函數(shù)定義為平方誤差損失的算術(shù)平均值

        (6)

        神經(jīng)網(wǎng)絡(luò)按式(6)定義的損失函數(shù)用誤差反向傳播算法進(jìn)行訓(xùn)練。此時(shí),對(duì)于每個(gè)樣本,動(dòng)作的每個(gè)維度都有一個(gè)輸出層節(jié)點(diǎn)被選擇并參與TD誤差的計(jì)算和網(wǎng)絡(luò)誤差的反向傳播,則共有D個(gè)輸出層節(jié)點(diǎn)可以得到更新。相比DQN中每個(gè)樣本只能更新一個(gè)輸出層節(jié)點(diǎn),CA-DQN方法提高了樣本的利用效率。

        2.3 組合動(dòng)作空間DQN的優(yōu)先經(jīng)驗(yàn)回放

        DQN以隨機(jī)方式從經(jīng)驗(yàn)池中采樣,不考慮樣本差異,樣本利用效率較低。采用優(yōu)先經(jīng)驗(yàn)回放方法[32],用式(2)定義的樣本TD誤差,將樣本采樣優(yōu)先級(jí)定義為pt=(|δt|+ε)α,其中ε和α為常數(shù)。TD誤差絕對(duì)值越大的樣本意味著所包含的有效信息越多,對(duì)其賦予更高采樣優(yōu)先級(jí),可提高樣本利用率和訓(xùn)練效率。

        (7)

        樣本優(yōu)先級(jí)定義為平均值可能使樣本重要性被其他動(dòng)作維度稀釋?zhuān)兄诒3钟?xùn)練過(guò)程的穩(wěn)定性。

        結(jié)合以上優(yōu)先經(jīng)驗(yàn)回放方法,CA-DQN的訓(xùn)練過(guò)程如下:

        算法1:智能體訓(xùn)練過(guò)程

        輸入:仿真環(huán)境 env

        輸出:神經(jīng)網(wǎng)絡(luò)參數(shù)θ*

        1隨機(jī)初始化神經(jīng)網(wǎng)絡(luò)參數(shù)θ,θ-

        2初始化經(jīng)驗(yàn)池 pool

        3whilesteps

        4state,reward,terminate ← env.RandomInit()//隨機(jī)初始化仿真環(huán)境

        5whilenot terminatethen

        6action ← AgentPolicy(state,θ)//按式(3)選擇動(dòng)作

        7state_new,reward,terminate ← env.Step(action)

        8td_error ← CalcTDError(state,action,reward,state_new,θ,θ-)//按式(5)計(jì)算TD誤差

        9priority ← CalcPriority(td_error)//按式(7)計(jì)算樣本優(yōu)先級(jí)

        10pool.Append(state,action,reward,state_new,priority)

        11state ← state_new

        12steps ← steps + 1

        13s,a,r,s' ← pool.RandomSample(batch_size)//按優(yōu)先級(jí)隨機(jī)采樣

        14td_error ← CalcTDError(s,a,r,s',θ,θ-)//按式(5)計(jì)算TD誤差

        15loss ← CalcLoss(td_error)//按式(6)計(jì)算損失函數(shù)

        16θ← BackPropagation(θ,loss)//更新網(wǎng)絡(luò)參數(shù)

        17每隔一定步數(shù)θ-←θ

        18end

        19每隔一定周期數(shù)計(jì)算平均周期回報(bào),若性能提升θ*←θ

        20end

        3 實(shí)驗(yàn)與分析

        3.1 實(shí)驗(yàn)設(shè)計(jì)與實(shí)現(xiàn)

        本文采用基于社會(huì)力模型的人群動(dòng)力學(xué)仿真系統(tǒng)[5]作為智能體交互環(huán)境,構(gòu)造了典型的多房間、雙出口室內(nèi)場(chǎng)景,以下稱(chēng)為“場(chǎng)景1”。多層建筑場(chǎng)景可通過(guò)拼接各層平面圖輸入疏散引導(dǎo)系統(tǒng),本文為直觀起見(jiàn),采用單層仿真場(chǎng)景。仿真系統(tǒng)計(jì)算每個(gè)個(gè)體的運(yùn)動(dòng)狀態(tài),并加入個(gè)體心理因素對(duì)運(yùn)動(dòng)造成的影響。仿真系統(tǒng)基于C++語(yǔ)言和Qt庫(kù)編寫(xiě)。

        如圖4所示,仿真場(chǎng)景大小為29.2 m×19.7 m,平面圖像素為499×337,場(chǎng)景內(nèi)包含左右2個(gè)出口和6個(gè)房間,上下2個(gè)通道連接房間和出口,每個(gè)通道設(shè)置5個(gè)動(dòng)態(tài)引導(dǎo)標(biāo)志,標(biāo)志可顯示相對(duì)兩個(gè)方向之一。人群數(shù)量為200人,初始位置以圓形范圍隨機(jī)分布,分布中心和半徑取值范圍為x∈(100,140),y∈(60,280),r∈(100,200)。場(chǎng)景圖像中,藍(lán)色直線表示墻壁,綠色矩形表示出口位置,綠色箭頭表示動(dòng)態(tài)引導(dǎo)標(biāo)志,每個(gè)標(biāo)志有相反兩個(gè)方向的顯示狀態(tài),藍(lán)色圓點(diǎn)表示逃生者個(gè)體,灰色部分為不可到達(dá)區(qū)域。個(gè)體最大運(yùn)動(dòng)速度為5 m/s。仿真?zhèn)€體在沒(méi)有看到疏散引導(dǎo)標(biāo)志時(shí),選擇距離最近的出口,按照靜態(tài)最短路線逃生,看到疏散引導(dǎo)標(biāo)志時(shí),按照引導(dǎo)標(biāo)志指示的方向逃生。仿真系統(tǒng)動(dòng)力學(xué)計(jì)算的每個(gè)時(shí)間步為40 ms,仿真時(shí)間上限為100 s。

        圖4 仿真場(chǎng)景1Fig.4 Simulation scene 1

        同時(shí),本文也采用原交互環(huán)境中基于實(shí)際建筑平面圖的仿真場(chǎng)景[5]進(jìn)行實(shí)驗(yàn),如圖5所示,以下稱(chēng)為“場(chǎng)景2”。場(chǎng)景圖像中符號(hào)含義與場(chǎng)景1相同。場(chǎng)景大小為47.0 m×28.8 m,圖像像素為805×494,人群數(shù)量為200人,分布中心和半徑取值范圍為x∈(100,700),y∈(60,440),r∈(300,500),場(chǎng)景內(nèi)共有2個(gè)出口和6個(gè)動(dòng)態(tài)引導(dǎo)標(biāo)志。不同仿真場(chǎng)景的強(qiáng)化學(xué)習(xí)智能體由于輸入輸出定義不同,疏散策略不同,需要分別進(jìn)行訓(xùn)練。

        圖5 仿真場(chǎng)景2Fig.5 Simulation scene 2

        CA-DQN方法基于Python語(yǔ)言、TensorFlow平臺(tái)和OpenAI/baseline庫(kù)實(shí)現(xiàn)。實(shí)現(xiàn)過(guò)程與超參數(shù)的選擇參考了baseline庫(kù)中用于Atari視頻游戲的DQN方法,并針對(duì)本文方法進(jìn)行適當(dāng)調(diào)整。強(qiáng)化學(xué)習(xí)智能體的每個(gè)時(shí)間步中,首先由仿真系統(tǒng)進(jìn)行5步計(jì)算,即仿真200 ms內(nèi)人群的運(yùn)動(dòng)狀態(tài),將獲得的最后4幀圖像下采樣為1/2大小的灰度圖,以場(chǎng)景1為例,組合成像素為249×168的4通道圖像,作為智能體的狀態(tài)st輸入值函數(shù)Q網(wǎng)絡(luò)。Q網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,由三層卷積神經(jīng)網(wǎng)絡(luò)和三層全連接神經(jīng)網(wǎng)絡(luò)組成。第一層由32組8×8卷積核組成,輸入為249×168×4的三維張量,第二層由64組4×4卷積核組成,第三層由64組3×3卷積核組成。卷積神經(jīng)網(wǎng)絡(luò)的激活函數(shù)為ReLU。三層全連接層神經(jīng)元數(shù)目分別為128、64、32,激活函數(shù)為ReLU。輸出層激活函數(shù)為恒等函數(shù),20個(gè)神經(jīng)元分為10組,每組2個(gè)中取輸出值較大的作為一個(gè)動(dòng)態(tài)引導(dǎo)標(biāo)志的顯示信號(hào),共同組成10維離散輸出向量作為智能體動(dòng)作at。at作用于仿真系統(tǒng),改變10個(gè)引導(dǎo)標(biāo)志顯示的方向,從而指引人群運(yùn)動(dòng)方向,此時(shí)智能體與仿真環(huán)境的交互完成一個(gè)循環(huán)。智能體每步的獎(jiǎng)勵(lì)固定為-1,即每秒獲得-5的獎(jiǎng)勵(lì),智能體訓(xùn)練目標(biāo)為減少總體疏散時(shí)間。

        訓(xùn)練超參數(shù)中,批量大小為64,學(xué)習(xí)率為10-5,總時(shí)間步為107,經(jīng)驗(yàn)池樣本容量為105,每2×104步將當(dāng)前Q網(wǎng)絡(luò)參數(shù)復(fù)制到目標(biāo)Q網(wǎng)絡(luò)。實(shí)驗(yàn)硬件平臺(tái)為AMD Threadripper 2990WX CPU、NVIDIA RTX 2080Ti GPU、128 GB內(nèi)存。

        3.2 實(shí)驗(yàn)結(jié)果與分析

        由于原DQN方法用于本文實(shí)驗(yàn)時(shí),以場(chǎng)景1為例,需設(shè)置210=1 024個(gè)輸出層節(jié)點(diǎn),相比CA-DQN的20個(gè)節(jié)點(diǎn),DQN網(wǎng)絡(luò)規(guī)模過(guò)大,在現(xiàn)有條件下難以實(shí)現(xiàn)。因此本文選擇基于靜態(tài)引導(dǎo)標(biāo)志的方法和基于拓?fù)鋱D建模和動(dòng)態(tài)Dijkstra最短路方法的疏散引導(dǎo)算法[5]作為對(duì)比。靜態(tài)引導(dǎo)標(biāo)志方法中,用自動(dòng)或人工的最短路方法計(jì)算,每個(gè)標(biāo)志指向距離最近的出口,每個(gè)場(chǎng)景僅計(jì)算一次,不考慮人群實(shí)時(shí)分布,模擬過(guò)程中標(biāo)志不發(fā)生變化。動(dòng)態(tài)Dijkstra最短路方法需要專(zhuān)家人員根據(jù)地圖內(nèi)通道結(jié)構(gòu)人工建立拓?fù)鋱D模型,并且設(shè)置多個(gè)虛擬攝像頭節(jié)點(diǎn),統(tǒng)計(jì)通道不同位置的人群密度,實(shí)時(shí)調(diào)整拓?fù)鋱D各邊權(quán)值,用Dijkstra算法進(jìn)行路徑規(guī)劃,實(shí)現(xiàn)人群的有效疏散。實(shí)驗(yàn)結(jié)果中,每1 s疏散時(shí)間對(duì)應(yīng)-5的周期獎(jiǎng)勵(lì)。

        由圖6的訓(xùn)練曲線看出,對(duì)于場(chǎng)景1,智能體在約3×104個(gè)訓(xùn)練周期后達(dá)到最優(yōu)策略,此時(shí)智能體與仿真環(huán)境交互次數(shù)約為6.4×106個(gè)時(shí)間步。圖7中,對(duì)于場(chǎng)景2,智能體在約4.5×104個(gè)訓(xùn)練周期后達(dá)到最優(yōu)策略。如表1所示,對(duì)不同疏散方法使用新的隨機(jī)人群分布參數(shù)進(jìn)行100個(gè)周期的疏散仿真,場(chǎng)景1中智能體訓(xùn)練所得最優(yōu)策略的平均周期獎(jiǎng)勵(lì)為-158.25,即平均疏散時(shí)間為31.65 s,優(yōu)于使用靜態(tài)引導(dǎo)標(biāo)志的41.35 s和動(dòng)態(tài)Dijkstra最短路方法的32.18 s。場(chǎng)景2中智能體訓(xùn)練所得最優(yōu)策略平均疏散時(shí)間為27.33 s,優(yōu)于靜態(tài)引導(dǎo)標(biāo)志和動(dòng)態(tài)最短路方法。說(shuō)明本文基于CA-DQN的智能疏散引導(dǎo)智能體可以有效引導(dǎo)人群疏散。

        圖6 場(chǎng)景1智能體訓(xùn)練曲線Fig.6 Training curve of agent in scene 1

        圖7 場(chǎng)景2智能體訓(xùn)練曲線Fig.7 Training curve of agent in scene 2

        表1 不同方法疏散時(shí)間Tab.1 Evacuation time under different methods s

        圖8展示了場(chǎng)景1中一個(gè)典型的疏散過(guò)程(圖中符號(hào)含義請(qǐng)參考3.1節(jié)):圖8(a)是人群的初始分布,人群主要分布于左側(cè)4個(gè)房間,若沒(méi)有動(dòng)態(tài)指引,人群按到出口距離最短的靜態(tài)標(biāo)志疏散策略,將造成左側(cè)出口擁堵,右側(cè)出口得不到有效利用。在圖8(b)到圖8(d)時(shí)刻,智能體感知到人群分布,將左上方房間人群引向左側(cè)出口,其余人群引向右側(cè)出口。圖8(e)時(shí)刻,左側(cè)出口擁堵已得到緩解,右側(cè)出口預(yù)期撤離人數(shù)較多,因此智能體將左下區(qū)域剩余人群引向左側(cè)出口。最終在圖8(f)時(shí)刻,人群基本同時(shí)從兩側(cè)出口完成疏散,表明人群疏散引導(dǎo)智能體實(shí)現(xiàn)了人群疏散效率的最大化。

        圖8 場(chǎng)景1一個(gè)周期的疏散過(guò)程Fig.8 Typical evacuation process in scene 1

        類(lèi)似地,圖9展示了場(chǎng)景2中典型的一個(gè)疏散過(guò)程。圖9(a)中,人群初始化分布主要集中在場(chǎng)景上方。圖9(b)時(shí)刻,智能體感知人群分布,將左上方房間以外的大部分區(qū)域人群向右下方出口誘導(dǎo)。圖9(c)到圖9(d)時(shí)刻,一部分人群有效地轉(zhuǎn)移至右側(cè)通道,避免了左上方出口進(jìn)一步擁堵。最終,在圖9(e)到圖9(f)時(shí)刻,人群基本同時(shí)從兩個(gè)出口完成疏散,說(shuō)明智能體的引導(dǎo)實(shí)現(xiàn)了人群疏散效率最大化。

        圖9 場(chǎng)景2一個(gè)周期的疏散過(guò)程Fig.9 Typical evacuation process in scene 2

        改變仿真場(chǎng)景初始化人數(shù),分別進(jìn)行100個(gè)周期的疏散仿真,不同方法的疏散效果對(duì)比見(jiàn)圖10。場(chǎng)景1中,在人數(shù)較少時(shí),各個(gè)通道都能保持通暢,靜態(tài)引導(dǎo)方法效果較好。人群數(shù)量增加時(shí),靜態(tài)引導(dǎo)方法受影響較大,CA-DQN和動(dòng)態(tài)最短路方法可以避免人群擁堵。人群數(shù)量增加到80人以上時(shí),兩種動(dòng)態(tài)方法疏散效果優(yōu)于靜態(tài)方法,其中本文CA-DQN方法實(shí)現(xiàn)了最優(yōu)疏散引導(dǎo)效率。場(chǎng)景2的實(shí)驗(yàn)也顯示出類(lèi)似結(jié)果,由圖11看出,本文方法在不同人群數(shù)量下均能取得較好效果。

        圖10 場(chǎng)景1中不同人數(shù)的周期獎(jiǎng)勵(lì)Fig.10 Period reward with varying number of persons in scene 1

        圖11 場(chǎng)景2中不同人數(shù)的周期獎(jiǎng)勵(lì)Fig.11 Period reward with varying number of persons in scene 2

        實(shí)驗(yàn)結(jié)果顯示,相比靜態(tài)標(biāo)志不能感知人群分布信息,本文基于CA-DQN的強(qiáng)化學(xué)習(xí)人群疏散引導(dǎo)方法能動(dòng)態(tài)地調(diào)整引導(dǎo)標(biāo)志的顯示信號(hào),有效提高人群疏散效率。與基于拓?fù)鋱D建模的動(dòng)態(tài)Dijkstra最短路方法相比,本文方法取得了更好的疏散引導(dǎo)效率,同時(shí)避免人工構(gòu)造拓?fù)鋱D的工作量和潛在的人工誤差。

        4 結(jié) 論

        本文分析了使用動(dòng)態(tài)引導(dǎo)標(biāo)志的人群疏散引導(dǎo)問(wèn)題,針對(duì)現(xiàn)有方法需要人工設(shè)計(jì)拓?fù)鋱D模型或網(wǎng)格模型,配合獨(dú)立的路徑規(guī)劃算法,導(dǎo)致人工工作量大、容易引入人為誤差等不足之處,提出了基于組合動(dòng)作空間深度強(qiáng)化學(xué)習(xí)的人群疏散引導(dǎo)方法。通過(guò)端對(duì)端的深度學(xué)習(xí),由智能體在訓(xùn)練過(guò)程中自行探索學(xué)習(xí)建筑結(jié)構(gòu)和路徑規(guī)劃方法,通過(guò)環(huán)境反饋?zhàn)詣?dòng)修正認(rèn)知誤差,從而找到最優(yōu)的疏散引導(dǎo)策略。

        針對(duì)深度強(qiáng)化學(xué)習(xí)中典型的DQN方法應(yīng)用于人群疏散問(wèn)題時(shí)因輸出的動(dòng)態(tài)引導(dǎo)標(biāo)志數(shù)量較多而出現(xiàn)的“維度災(zāi)難”問(wèn)題,本文提出CA-DQN網(wǎng)絡(luò)結(jié)構(gòu),將關(guān)于輸出動(dòng)作維度的網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜度從指數(shù)級(jí)增長(zhǎng)降低為線性增長(zhǎng),提高了強(qiáng)化學(xué)習(xí)方法在復(fù)雜場(chǎng)景和大規(guī)模人群疏散問(wèn)題中的可用性。在基于社會(huì)力模型的人群動(dòng)力學(xué)仿真系統(tǒng)中的實(shí)驗(yàn)表明,本文方法相對(duì)靜態(tài)引導(dǎo)標(biāo)志有效提升了人群疏散效率,減少疏散時(shí)間,達(dá)到與基于人工建模的動(dòng)態(tài)最短路方法相同水平。

        未來(lái)工作將進(jìn)一步提升強(qiáng)化學(xué)習(xí)智能體在復(fù)雜場(chǎng)景中的訓(xùn)練效率,對(duì)輸出信號(hào)變更頻率等加以更多限制,使其在真實(shí)場(chǎng)景中更易理解。

        猜你喜歡
        標(biāo)志人群動(dòng)態(tài)
        國(guó)內(nèi)動(dòng)態(tài)
        在逃犯
        國(guó)內(nèi)動(dòng)態(tài)
        多功能標(biāo)志桿的使用
        國(guó)內(nèi)動(dòng)態(tài)
        糖尿病早預(yù)防、早控制
        動(dòng)態(tài)
        認(rèn)標(biāo)志
        啟蒙(3-7歲)(2019年5期)2019-06-27 07:24:50
        首都的標(biāo)志是只熊
        我走進(jìn)人群
        百花洲(2018年1期)2018-02-07 16:34:52
        久久中文字幕亚洲综合| 91福利国产在线观看一区二区| 久久免费精品国产72精品剧情| 亚洲美女av二区在线观看| 成人免费在线亚洲视频| 中文在线8资源库| 日韩在线精品国产成人| 婷婷精品国产亚洲av| 亚洲av一区二区三区蜜桃| 鲁一鲁一鲁一鲁一曰综合网| 亚洲AV永久无码制服河南实里| 国产一级做a爱视频在线| 大香蕉国产av一区二区三区| 在线观看视频播放| 国产成人精品电影在线观看18| 亚洲av综合色区久久精品天堂| 国产亚洲精品90在线视频| 久久无码av一区二区三区| 在线免费黄网| 亚洲一区二区三区品视频| 中文字幕一区二区三区久久网| 精精国产xxxx视频在线播放 | 思思99热| 亚洲av高清一区二区| 久久99国产精品久久99| 超薄肉色丝袜一区二区| 蜜桃av观看亚洲一区二区 | 在线a人片免费观看高清| 中文字幕34一区二区| 狠狠躁天天躁中文字幕| 五月综合高清综合网| 精品av一区二区在线| 欧美男生射精高潮视频网站 | 邻居少妇张开腿让我爽视频| 免费av一区二区三区| 久久发布国产伦子伦精品| 美女极度色诱视频国产免费| 日本少妇一区二区三区四区| 亚洲日产精品一二三四区| 免费高清日本中文| 黄色潮片三级三级三级免费|