譚 嵋,劉士豪,周 婉,陳國(guó)文,胡學(xué)敏
(湖北大學(xué)計(jì)算機(jī)與信息工程學(xué)院,武漢 430062)
人員應(yīng)急疏散安全是公共安全的一個(gè)重要環(huán)節(jié),在人群密集的地方,如商場(chǎng)、醫(yī)院大廳、地鐵隧道等公共場(chǎng)所發(fā)生突發(fā)事件時(shí),極易造成嚴(yán)重的擁堵,甚至是踩踏和傷亡事件。因此,高效安全地疏散人群成為保障社會(huì)安全問(wèn)題的關(guān)鍵。
近年來(lái),人群疏散問(wèn)題得到了科研工作者的關(guān)注和重視?,F(xiàn)有的疏散模型主要有兩大類[1],一類是以人群整體為考察對(duì)象的宏觀模型,如流體力學(xué)模型[2],另一類是以行人個(gè)體為考察對(duì)象的微觀模型,如元胞自動(dòng)機(jī)模型[3]和社會(huì)力模型[4-5]。流體力學(xué)模型將行人視為連續(xù)的流體,不考慮行人之間的作用力,忽視個(gè)體差異,因而該模型不適用于突發(fā)情形下的人群疏散。盡管元胞自動(dòng)機(jī)因算法難度低而得到廣泛運(yùn)用,但其離散的狀態(tài)和時(shí)空不連續(xù)導(dǎo)致模擬結(jié)果不準(zhǔn)確,難以反映緊急情況下人群逃生時(shí)的真實(shí)狀況。社會(huì)力模型考慮了行人的主觀心理、行人之間的安全距離以及行人回避障礙物的行為等真實(shí)現(xiàn)象,有效地體現(xiàn)了行人在緊急情況下的運(yùn)動(dòng)狀況。
計(jì)算機(jī)軟硬件技術(shù)的快速發(fā)展使得研究人員能夠利用智能設(shè)備、計(jì)算機(jī)技術(shù)等研究人群疏散問(wèn)題。文獻(xiàn)[6]提出利用智能移動(dòng)終端內(nèi)的傳感器采集行人數(shù)據(jù),能較為準(zhǔn)確地疏散行人并引導(dǎo)至出口。文獻(xiàn)[7]提出了利用機(jī)器人的自身運(yùn)動(dòng)來(lái)影響行人運(yùn)動(dòng)狀態(tài)的方法,雖然人群疏散的效率得到有效提升,但是機(jī)器人單一的直線運(yùn)動(dòng)使其無(wú)法應(yīng)用于其他復(fù)雜的疏散場(chǎng)景,靈活性較低。因此,更多研究者將機(jī)器學(xué)習(xí)的方法[8]應(yīng)用到機(jī)器人運(yùn)動(dòng)規(guī)劃領(lǐng)域,其中一種重要的模型就是深度Q 網(wǎng)絡(luò)(Deep Q-Network,DQN)[9]。DQN 僅通過(guò)圖像輸入就能實(shí)現(xiàn)從感知到動(dòng)作的端到端學(xué)習(xí),并在基于視頻感知的控制任務(wù)領(lǐng)域[10]以及無(wú)人機(jī)[11]、多智能體[12]領(lǐng)域取得了較高的成就。而機(jī)器人疏散人群時(shí)需要借助人群疏散場(chǎng)景圖中的人群位置、機(jī)器人位置等空間特征進(jìn)一步分析從而采取相應(yīng)的疏散措施,因而將深度強(qiáng)化學(xué)習(xí)應(yīng)用于機(jī)器人疏散人群范疇是一個(gè)有效手段。文獻(xiàn)[13]利用DQN 使機(jī)器人根據(jù)特定的場(chǎng)景學(xué)習(xí)獲得疏散人群的運(yùn)動(dòng)策略,該方法對(duì)相似場(chǎng)景的移植性強(qiáng),但網(wǎng)絡(luò)模型較簡(jiǎn)單,難以提取復(fù)雜場(chǎng)景的空間特征。
長(zhǎng)短期記憶網(wǎng)絡(luò)[14](Long Short-Term Memory,LSTM)的提出較好地解決了時(shí)序數(shù)據(jù)表達(dá)的問(wèn)題,LSTM吸引了大量研究者的關(guān)注并得到優(yōu)化和發(fā)展,且在文本分類[15]和位置預(yù)測(cè)[16]領(lǐng)域也有很好的應(yīng)用。而人群疏散是一個(gè)不間斷的、前后時(shí)間有關(guān)聯(lián)性的過(guò)程,如果只考慮每個(gè)獨(dú)立幀的人群狀態(tài)而忽視前后幀之間的時(shí)間特征,則在一定程度上會(huì)影響機(jī)器人疏散人群的效率。
針對(duì)目前人群疏散方法中存在機(jī)器人單一的運(yùn)動(dòng)規(guī)則、機(jī)器人靈活性差、場(chǎng)景適用性有限的問(wèn)題,本文利用人機(jī)社會(huì)力模型,通過(guò)機(jī)器人的運(yùn)動(dòng)來(lái)“控制”周圍人群的運(yùn)動(dòng)狀態(tài),設(shè)計(jì)一種基于深度時(shí)空Q網(wǎng)絡(luò)(Deep Spatial-Temporal Q-Network,DSTQN)的機(jī)器人疏散人群的算法,通過(guò)加深CNN 的網(wǎng)絡(luò)層數(shù)提取復(fù)雜場(chǎng)景的空間特征,并在深度Q 網(wǎng)絡(luò)的基礎(chǔ)上融入LSTM,研究人群疏散場(chǎng)景的時(shí)間關(guān)聯(lián)性。
機(jī)器人疏散人群的前提是機(jī)器人能夠與人群進(jìn)行交互,利用機(jī)器人的運(yùn)動(dòng)來(lái)影響和“控制”人群的運(yùn)動(dòng)。本文采用的人機(jī)社會(huì)力模型是建立在文獻(xiàn)[4]提出的社會(huì)力模型基礎(chǔ)上,實(shí)現(xiàn)機(jī)器人與行人的交互。社會(huì)力模型的理論基礎(chǔ)是牛頓第二定律,通過(guò)將行人看作具有自驅(qū)動(dòng)力的粒子,并計(jì)算粒子的自驅(qū)動(dòng)力、粒子間的相互作用力以及粒子與障礙物的相互作用力之和來(lái)分析行人運(yùn)動(dòng)狀態(tài),綜合考慮行人的主觀心理和外界干擾因素而設(shè)計(jì)的行人運(yùn)動(dòng)力學(xué)模型,達(dá)到真實(shí)模擬行人在緊急情況下逃生狀況的目的。人機(jī)社會(huì)力模型利用機(jī)器人和行人的相互作用力,即人機(jī)作用力來(lái)影響行人運(yùn)動(dòng)的方向和速度[7],進(jìn)而達(dá)到人群疏散的目的,基本公式如式(1)所示:
式(1)定量地描述了行人i的受力情況,其中,mi是質(zhì)量,v(it)是當(dāng)前速度,fs是自驅(qū)動(dòng)力,fij是其與行人j的相互作用力,fiw是障礙物與行人i之間的相互作用力,人機(jī)作用力的計(jì)算如式(2)所示:
其中,Ar和Br分別代表人機(jī)作用力的強(qiáng)度和范圍,rir是機(jī)器人與人的幾何中心距離,Kr、κr是系數(shù),nir是機(jī)器人指向行人i的單位向量,tir是其正交單位向量,Δvi(rt)是機(jī)器人與行人i的速度差。
本文設(shè)計(jì)的基于深度時(shí)空Q 網(wǎng)絡(luò)的人群疏散算法流程如圖1 所示,將人群疏散的場(chǎng)景圖作為狀態(tài)S輸入DSTQN,通過(guò)CNN 提取復(fù)雜的人機(jī)交互場(chǎng)景圖像的空間特征xt,再送入LSTM 提取時(shí)間特征vt,經(jīng)過(guò)維度處理后輸出一維的帶有時(shí)空特征的特征序列,最后經(jīng)過(guò)Q 網(wǎng)絡(luò)單元計(jì)算Q值得到當(dāng)前疏散人群的動(dòng)作A,并根據(jù)與環(huán)境交互得到的獎(jiǎng)勵(lì)r來(lái)判斷此時(shí)動(dòng)作的優(yōu)劣。如此循環(huán)迭代,機(jī)器人再根據(jù)下一個(gè)狀態(tài)和獎(jiǎng)勵(lì)不斷學(xué)習(xí),優(yōu)化疏散人群的動(dòng)作并輸出得到更高的獎(jiǎng)勵(lì)。
圖1 基于深度時(shí)空Q 網(wǎng)絡(luò)的人群疏散算法流程Fig.1 Procedure of crowd evacuation algorithm based on deep spatio-temporal Q-network
DQN 是一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[17]和強(qiáng)化學(xué)習(xí)的Q 學(xué)習(xí)[18]經(jīng)典強(qiáng)化學(xué)習(xí)算法,用深度神經(jīng)網(wǎng)絡(luò)取代強(qiáng)化學(xué)習(xí)的Q 表,使機(jī)器人在新環(huán)境中探索學(xué)習(xí)。狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)構(gòu)成了DQN 的核心三要素,DQN 模型的建立依據(jù)Q 學(xué)習(xí)和馬爾科夫決策。本文采用的Q 網(wǎng)絡(luò)模型基于文獻(xiàn)[19],由兩層輸出節(jié)點(diǎn)數(shù)量分別為512 和4的全連接層構(gòu)成,模型將機(jī)器人與環(huán)境交互的狀態(tài)輸入到主Q 網(wǎng)絡(luò),機(jī)器人則根據(jù)Q值計(jì)算得到該值最大時(shí)的動(dòng)作。目標(biāo)Q 網(wǎng)絡(luò)的參數(shù)通過(guò)定期復(fù)制主Q 網(wǎng)絡(luò)的參數(shù)得到,并最小化當(dāng)前Q值和目標(biāo)Q值的均方誤差更新網(wǎng)絡(luò)參數(shù)以降低兩者之間的相關(guān)性。DQN 利用經(jīng)驗(yàn)回放機(jī)制將機(jī)器人與環(huán)境交互的轉(zhuǎn)移樣本存儲(chǔ)在記憶池,隨機(jī)抽取小批量的樣本通過(guò)隨機(jī)梯度下降算法反向更新網(wǎng)絡(luò)參數(shù)θ,不斷重復(fù)直至損失函數(shù)收斂,使機(jī)器人找到最優(yōu)的策略疏散人群。損失函數(shù)如式(3)所示,當(dāng)前動(dòng)作的Q值如式(4)所示,目標(biāo)Q值如式(5)所示。
其中,s為是機(jī)器人的當(dāng)前狀態(tài),s′則是下一個(gè)狀態(tài),a是當(dāng)前動(dòng)作,a′是下一個(gè)動(dòng)作,r是當(dāng)前動(dòng)作的獎(jiǎng)勵(lì)值,α是學(xué)習(xí)率,γ是折扣因子,θ為主網(wǎng)絡(luò)權(quán)值參數(shù),θ′為目標(biāo)網(wǎng)絡(luò)權(quán)值參數(shù)。
本文將LSTM 融入到DQN 中來(lái)提取人群疏散場(chǎng)景圖像前后幀之間的時(shí)間特征,并將包含時(shí)空特征的序列送入到Q 網(wǎng)絡(luò)中得到機(jī)器人的運(yùn)動(dòng)指令。因此,本文設(shè)計(jì)的DSTQN 模型由CNN 層網(wǎng)絡(luò)、LSTM 層網(wǎng)絡(luò)和Q 網(wǎng)絡(luò)組成,如圖1 所示。
因?yàn)镈QN 算法的輸入是原始的圖像,所以本文將人群疏散場(chǎng)景的仿真圖作為環(huán)境來(lái)提取狀態(tài)信息。與原始DQN 類似,本文DSTQN 算法運(yùn)用CNN擬合Q 函數(shù)以減少算法復(fù)雜度,提取人群疏散場(chǎng)景圖像的特征。在提取環(huán)境信息時(shí),太淺的卷積網(wǎng)絡(luò)只能提取簡(jiǎn)單的人群疏散場(chǎng)景的特征[13],無(wú)法提取復(fù)雜的人機(jī)交互的狀態(tài)特征;過(guò)于深的卷積網(wǎng)絡(luò)雖然能提取復(fù)雜的特征,但需要耗費(fèi)大量的計(jì)算資源,難以收斂且有過(guò)擬合的風(fēng)險(xiǎn)。AlexNet 是一種經(jīng)典的CNN 模型[19],在大規(guī)模視覺(jué)識(shí)別和圖像分類等領(lǐng)域取得了很好的成效。如圖2 所示,本文參照AlexNet,設(shè)計(jì)的CNN 包含5 個(gè)卷積層與1 個(gè)全連接層。5個(gè)卷積層的卷積核大小依次為11×11、5×5、3×3、3×3、3×3,通道數(shù)依次是48、128、192、192、128,最終全連接層輸出帶有1×1×512 個(gè)節(jié)點(diǎn)的映射集合。
圖2 CNN 層網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of CNN layer
原始DQN 只能表達(dá)靜態(tài)人群疏散場(chǎng)景圖像的空間特征,無(wú)法表達(dá)視頻前后幀之間的時(shí)間信息。而動(dòng)態(tài)人群疏散場(chǎng)景圖像既有空間特征,又有前后幀對(duì)應(yīng)位置的像素點(diǎn),即時(shí)間特征,因此關(guān)聯(lián)時(shí)間特征有利于機(jī)器人長(zhǎng)期疏散人群,從而提高人群疏散的效率。LSTM 是一種經(jīng)典的時(shí)序特征提取模型,可以對(duì)視頻進(jìn)行時(shí)序性建模達(dá)到機(jī)器人長(zhǎng)期記憶的目的,并在視頻識(shí)別動(dòng)作任務(wù)[20]中取得了較好的成果。因此,本文提出的DSTQN 算法通過(guò)將CNN 提取的空間特征送入LSTM 層來(lái)實(shí)現(xiàn)時(shí)間關(guān)聯(lián)。
本文LSTM 層結(jié)構(gòu)如圖3 所示,其中,虛線矩形框描述了LSTM 單元內(nèi)部結(jié)構(gòu),σ表示sigmoid 函數(shù),□表示tanh 函數(shù)。
圖3 LSTM 層結(jié)構(gòu)Fig.3 Structure of LSTM layer
LSTM 利用4 個(gè)“門”來(lái)決定信息在細(xì)胞狀態(tài)的去留,從細(xì)胞狀態(tài)中丟棄的信息由遺忘門確定,首先讀取上一個(gè)LSTM 單元的輸出ht-1和當(dāng)前LSTM 單元的輸入xt,然后通過(guò)sigmoid 激活函數(shù)丟棄的信息輸出到?t。?t取值范圍為[0,1],1 表示“完全保留”,0 表示“完全舍棄”。輸入門決定存放哪些新信息,通過(guò)sigmoid 函數(shù)輸出需要更新的信息it;輸出調(diào)制門利用tanh 激活函數(shù)輸出新的候選值向量mt;新信息it×mt加上舊狀態(tài)細(xì)胞ct-1×ft完成細(xì)胞更新。輸出門確定輸出值,利用sigmoid 函數(shù)輸出[0,1]區(qū)間的ot,并與通過(guò)tanh 函數(shù)處理的新的細(xì)胞狀態(tài)ct相乘,得到最終輸出ht。LSTM 各單元門的工作原理如式(6)~式(11)所示:
其中,Wx與b分別表示對(duì)應(yīng)門控單元的權(quán)值與偏差,“˙”表示點(diǎn)乘。
本文在提取人群疏散場(chǎng)景前后幀的時(shí)間特征時(shí),首先把處理后的人群場(chǎng)景圖像輸入CNN 提取空間特征xt,然后將距離當(dāng)前時(shí)刻最近的N(N=10)幀圖像的空間特征xt送入LSTM 網(wǎng)絡(luò)關(guān)聯(lián)時(shí)間信息,輸出帶有時(shí)間和空間信息的特征vt,最后將vt送入Q 網(wǎng)絡(luò)中學(xué)習(xí)和優(yōu)化機(jī)器人選擇運(yùn)動(dòng)指令的策略。
在人群疏散算法中,機(jī)器人依據(jù)當(dāng)前從CNN 和LSTM 提取的人群疏散場(chǎng)景狀態(tài)st中,選擇最好的疏散動(dòng)作at,利用獎(jiǎng)勵(lì)函數(shù)得到當(dāng)前獎(jiǎng)勵(lì)rt,再進(jìn)入下一個(gè)狀態(tài)st+1。機(jī)器人依據(jù)獎(jiǎng)勵(lì)辯別當(dāng)前獎(jiǎng)勵(lì)的優(yōu)劣,且更新目標(biāo)Q 網(wǎng)絡(luò)的參數(shù)。不斷重復(fù)以上過(guò)程,最終得到優(yōu)化的目標(biāo)Q 網(wǎng)絡(luò)。因此,狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)的設(shè)計(jì)是機(jī)器人疏散人群算法的重要內(nèi)容。
1)狀態(tài)空間S
狀態(tài)集合S是機(jī)器人感知到的環(huán)境信息,也是對(duì)環(huán)境信息的數(shù)學(xué)表達(dá)。由于原始圖像尺寸過(guò)大且包含了許多無(wú)效的信息,為了優(yōu)化計(jì)算,降低網(wǎng)絡(luò)的訓(xùn)練難度,本文設(shè)定輸入DSTQN 的狀態(tài)是機(jī)器人附近的區(qū)域。首先通過(guò)縮放和灰度化處理距離當(dāng)前時(shí)刻最近的4(經(jīng)驗(yàn)值)幀場(chǎng)景圖像使其尺寸為84×84×4,然后輸入到CNN 層中,狀態(tài)集合如式(12)所示:
其中,st是輸入的當(dāng)前時(shí)刻狀態(tài)圖像,t為當(dāng)前時(shí)刻。
2)動(dòng)作空間A
動(dòng)作空間A集合了機(jī)器人依據(jù)此時(shí)環(huán)境而選擇的動(dòng)作。機(jī)器人在疏散人群時(shí),如果選取兩個(gè)方向的運(yùn)動(dòng),則動(dòng)作局限性大且難以有效疏散人群;而選取八向運(yùn)動(dòng)則導(dǎo)致強(qiáng)化學(xué)習(xí)搜索空間過(guò)大,模型訓(xùn)練時(shí)難以收斂。為保證在一定的訓(xùn)練難度下有較好的疏散效果,本文設(shè)計(jì)的機(jī)器人可向上、下、左、右運(yùn)動(dòng),動(dòng)作集合如式(13)所示:
其中,A為機(jī)器人動(dòng)作空間集合,au、ad al、ar分別表示機(jī)器人上、下、左、右4 個(gè)方向運(yùn)動(dòng)指令。
3)獎(jiǎng)勵(lì)函數(shù)r
機(jī)器人通過(guò)獎(jiǎng)勵(lì)函數(shù)r判別當(dāng)前動(dòng)作的優(yōu)劣,同時(shí)獎(jiǎng)勵(lì)函數(shù)引導(dǎo)機(jī)器人學(xué)習(xí),強(qiáng)化學(xué)習(xí)的每一個(gè)動(dòng)作都有相應(yīng)的獎(jiǎng)勵(lì)。本文中機(jī)器人目的是更快地降低疏散場(chǎng)景中人群擁擠度,所以對(duì)機(jī)器人而言最直接的獎(jiǎng)勵(lì)是當(dāng)前時(shí)刻疏散的人數(shù)。如果機(jī)器人當(dāng)前動(dòng)作使得后續(xù)有較多的人數(shù)逃生而當(dāng)前很少甚至是沒(méi)有人逃生,亦不可認(rèn)定本次動(dòng)作無(wú)效。因此,本文將智能體采取一個(gè)動(dòng)作后的k(k=5 為經(jīng)驗(yàn)值)次迭代的疏散總?cè)藬?shù)作為環(huán)境反饋給機(jī)器人的獎(jiǎng)勵(lì),獎(jiǎng)勵(lì)函數(shù)如式(14)所示:
其中,t表示當(dāng)前時(shí)刻,Mi是時(shí)刻i的疏散人數(shù)值,rt是當(dāng)前時(shí)刻t的獎(jiǎng)勵(lì)值。
4)其他參數(shù)和模型訓(xùn)練策略
參數(shù)的合理設(shè)計(jì)與適當(dāng)調(diào)整對(duì)訓(xùn)練深度強(qiáng)化學(xué)習(xí)算法起著重要的作用?;贒STQN 的人群疏散算法的參數(shù)設(shè)置如表1 所示。
表1 DSTQN 算法參數(shù)Table 1 Parameters of DSTQN algorithm
在表1 中,學(xué)習(xí)率是更新策略時(shí)更新網(wǎng)絡(luò)權(quán)重的幅度大小,折扣因子體現(xiàn)時(shí)間對(duì)獎(jiǎng)勵(lì)的影響,記憶池用來(lái)存儲(chǔ)樣本數(shù)據(jù),訓(xùn)練批次大小等同于每次訓(xùn)練神經(jīng)網(wǎng)絡(luò)送入模型的樣本數(shù),周期性地更新目標(biāo)Q 網(wǎng)絡(luò)可以提高算法穩(wěn)定性。采用貪婪算法[21]訓(xùn)練策略,按照設(shè)定的探索因子的大小來(lái)確定動(dòng)作模式,不同的探索因子對(duì)應(yīng)不同階段選取動(dòng)作的概率。在訓(xùn)練初始階段,機(jī)器人在初始探索因子ε的概率下進(jìn)行探索,隨機(jī)選擇動(dòng)作,ε隨著訓(xùn)練次數(shù)增加而減小,最終機(jī)器人以穩(wěn)定的終止探索因子,ε′概率選擇當(dāng)前最優(yōu)的動(dòng)作。
本文使用Python 語(yǔ)言實(shí)現(xiàn)人群疏散仿真環(huán)境和人群疏散算法,DSTQN 算法基于Keras 平臺(tái)實(shí)現(xiàn)。硬件平臺(tái)CPU 為Intel i7-7700K,GPU 為NVIDIA GTX 1080Ti,內(nèi)存為32 GB。在實(shí)驗(yàn)場(chǎng)景方面,本文設(shè)計(jì)單出口室內(nèi)人群疏散與走廊兩群行人交錯(cuò)2 種場(chǎng)景進(jìn)行實(shí)驗(yàn)。
帶有一個(gè)疏散口的室內(nèi)場(chǎng)景是一個(gè)典型的人群疏散場(chǎng)景。圖4 為本文建立的大小為11 m×11 m 并帶有一個(gè)3 m 寬出口的室內(nèi)實(shí)驗(yàn)場(chǎng)景,其中,實(shí)心圓表示行人,空心圓表示新增行人,方形表示機(jī)器人。當(dāng)緊急事件發(fā)生時(shí),行人出于恐慌心理在自驅(qū)動(dòng)力的作用下快速向出口逃離。不同方向的行人逐漸聚集到出口附近,導(dǎo)致人群疏散效率降低。
圖4 單出口室內(nèi)人群疏散場(chǎng)景和機(jī)器運(yùn)動(dòng)范圍Fig.4 Single exit indoor crowd evacuation scene and machine movement range
為有效疏散人群,在室內(nèi)場(chǎng)景中加入一個(gè)機(jī)器人進(jìn)行仿真實(shí)驗(yàn)。圖4 左側(cè)6 m×6 m 的外側(cè)虛線框代表室內(nèi)場(chǎng)景中人群主要聚集的區(qū)域,觀察該區(qū)域并通過(guò)均勻采樣得到84 像素×84 像素的圖像后送入DSTQN 網(wǎng)絡(luò)來(lái)計(jì)算機(jī)器人的環(huán)境狀態(tài)。此外,將機(jī)器人的運(yùn)動(dòng)范圍劃定在出口附近處行人逃生的矩形區(qū)域,如圖4 左側(cè)3.6 m×5.4 m 內(nèi)側(cè)虛線框所示。綜合考慮噪聲和有限的計(jì)算資源,行人期望速度定為6 m/s[22],每秒迭代10 次;機(jī)器人運(yùn)動(dòng)速度是0.6 m/s,每秒迭代2 次,每次移動(dòng)0.3 m。圖4 右側(cè)12 m×18 m的矩形網(wǎng)格是機(jī)器人在場(chǎng)景中的運(yùn)動(dòng)位置。在每輪實(shí)驗(yàn)中,人群初始人數(shù)是100 人,疏散的時(shí)間是100 s,人群初始位置隨機(jī)分布在場(chǎng)景中。在圖4 中左側(cè)每秒產(chǎn)生3 個(gè)行人(用空心圓表示),他們的水平速度是6 m/s,縱向速度是0,目的是為了讓行人源源不斷地進(jìn)入場(chǎng)景,避免狀態(tài)空間太大。
本文的評(píng)判標(biāo)準(zhǔn)是單位時(shí)間(100 s)內(nèi)疏散的人數(shù),從而檢驗(yàn)本文算法的有效性。文獻(xiàn)[7,13]與本文算法都是基于人機(jī)社會(huì)力模型研究單出口的室內(nèi)場(chǎng)景的人群疏散工作。為檢驗(yàn)時(shí)空Q 網(wǎng)絡(luò)在人群疏散應(yīng)用的效果,本文將未加入LSTM 的原始DQN 與加入了LSTM 的DSTQN 進(jìn)行對(duì)比。
圖5 為不同算法在室內(nèi)場(chǎng)景的訓(xùn)練過(guò)程中疏散總?cè)藬?shù)變化曲線。在訓(xùn)練的前200 輪時(shí),DSTQN 處于的觀察前期,機(jī)器人隨機(jī)選擇疏散人群的動(dòng)作;在200 輪~400 輪時(shí)處于探索中期,機(jī)器人將從經(jīng)驗(yàn)池采集的樣本優(yōu)化機(jī)器人疏散人群的動(dòng)作序列;在400輪之后訓(xùn)練收斂時(shí),機(jī)器人根據(jù)學(xué)到的人群疏散策略來(lái)選擇最合適的疏散人群動(dòng)作,此時(shí)DSTQN 算法在每輪實(shí)驗(yàn)中疏散人群的數(shù)量最多。
圖5 單出口室內(nèi)場(chǎng)景訓(xùn)練過(guò)程中疏散人數(shù)曲線Fig.5 Curves of evacuee number in training process of indoor scene with a single exit
從圖5 可以看出,本文提出的DSTQN 算法疏散人群效果優(yōu)于DQN 和文獻(xiàn)[7]算法。3 種算法都是利用機(jī)器人自身運(yùn)動(dòng)狀態(tài)來(lái)“控制”人群的運(yùn)動(dòng)狀態(tài),在文獻(xiàn)[7]的算法中,機(jī)器人只是簡(jiǎn)單地在出口上下往復(fù)運(yùn)動(dòng),盡管一定程度上提高了人群疏散效率,但這種單一的疏散路徑不能根據(jù)場(chǎng)景內(nèi)擁擠程度調(diào)整疏散策略;DSTQN、DQN 算法中機(jī)器人則是在場(chǎng)景內(nèi)學(xué)習(xí)高效的疏散人群策略來(lái)引導(dǎo)人群逃生,相比文獻(xiàn)[7]的算法,這兩種算法大幅提升了人群的疏散效率。同DQN 算法相比,本文提出的DSTQN 算法重新設(shè)計(jì)了CNN 的結(jié)構(gòu)來(lái)提取人群疏散場(chǎng)景圖像復(fù)雜的空間特征,并且通過(guò)引入LSTM構(gòu)成深度時(shí)空Q 網(wǎng)絡(luò),關(guān)聯(lián)人群疏散場(chǎng)景前后幀之間的時(shí)間信息,故機(jī)器人能夠長(zhǎng)期記憶之前學(xué)習(xí)到的信息,進(jìn)一步提升了人群疏散的效率。
表2 為室內(nèi)單出口場(chǎng)景不同算法的人群疏散結(jié)果對(duì)比,其中DQN 和DSTQN 都是訓(xùn)練800 輪之后的測(cè)試結(jié)果。從表2 可知,與無(wú)機(jī)器人相比,文獻(xiàn)[7,13]、DQN、DSTQN 等算法在每輪實(shí)驗(yàn)中人群的疏散效率分別增加7.63、13.74、11.83、17.18 個(gè)百分點(diǎn)。本文DQN 與文獻(xiàn)[13]算法主要區(qū)別在于CNN 的網(wǎng)絡(luò)結(jié)構(gòu)。本文重新設(shè)計(jì)了CNN 的網(wǎng)絡(luò)結(jié)構(gòu),目的是提取更復(fù)雜的空間特征。從疏散的效果來(lái)看,本文設(shè)計(jì)的CNN 網(wǎng)絡(luò)結(jié)構(gòu)好于文獻(xiàn)[13]算法。若僅使用DQN,機(jī)器人在提取人群圖像的特征上只能獲得每一個(gè)單獨(dú)幀的人群位置、機(jī)器人的位置等空間信息,忽略了前后之間的時(shí)間信息。加入LSTM 的網(wǎng)絡(luò)有利于機(jī)器人根據(jù)前后幀之間的時(shí)間相關(guān)性,更快、更好地學(xué)習(xí)到某一時(shí)刻在何位置疏散人群效率高,同時(shí)機(jī)器人可以根據(jù)之前學(xué)習(xí)到的經(jīng)驗(yàn),如前后時(shí)刻人群場(chǎng)景中擁擠度的對(duì)比、前后時(shí)刻疏散人群效率對(duì)比等進(jìn)一步提高人群的疏散效率。因此,在現(xiàn)有的算法中,本文DSTQN 算法疏散人群的效果最好,效率最高。
表2 室內(nèi)單出口場(chǎng)景的不同算法人群疏散結(jié)果對(duì)比結(jié)果Table 2 Comparative results of different crowd evacuation algorithm in indoor scene with a single exit
走廊通道如地鐵隧道、商場(chǎng)通道等場(chǎng)景也人群疏散研究的典型場(chǎng)所。本文建立的走廊場(chǎng)景長(zhǎng)8 m、寬4 m,墻壁用上下實(shí)線代替,行人的進(jìn)出口用左右兩邊虛線表示,如圖6 所示。為到達(dá)各自的期望地點(diǎn),兩群行人對(duì)向而行,在走廊相遇的位置發(fā)生嚴(yán)重的擁堵。
圖6 走廊兩群行人交錯(cuò)場(chǎng)景和機(jī)器運(yùn)動(dòng)范圍Fig.6 Corridor two groups of pedestrians interlaced scenes and machine motion range
由于文獻(xiàn)[7]的算法沒(méi)有涉及該類型場(chǎng)景,因此在實(shí)驗(yàn)過(guò)程中只將本文算法與DQN 以及無(wú)機(jī)器人疏散的結(jié)果進(jìn)行對(duì)比。實(shí)驗(yàn)中走廊左右兩邊的初始人數(shù)各設(shè)置30 人,每輪訓(xùn)練中設(shè)定人群疏散的時(shí)間是100 s,在走廊左右兩側(cè)分別產(chǎn)生1 個(gè)行人,其水平速度是6 m/s,縱向速度為0。本文選擇走廊中部附近人群主要聚集的區(qū)域作為狀態(tài)觀測(cè)和機(jī)器人運(yùn)動(dòng)的范圍,見(jiàn)圖6 中5.1 m×3.3 m 矩形虛線框。
與室內(nèi)單出口人群疏散場(chǎng)景相比,走廊兩群行人交錯(cuò)的場(chǎng)景更為復(fù)雜。圖7 為走廊場(chǎng)景的訓(xùn)練過(guò)程中疏散人數(shù)變化曲線。
圖7 走廊場(chǎng)景訓(xùn)練過(guò)程中疏散人數(shù)變化曲線Fig.7 Change curve of the number of people evacuated during the corridor scene training process
從實(shí)驗(yàn)結(jié)果可以看出,DSTQN 的疏散效果優(yōu)于DQN。雖然在50 輪~100 輪時(shí)DQN 疏散的人數(shù)數(shù)量領(lǐng)先于其他算法,但在訓(xùn)練前100 輪訓(xùn)練時(shí),無(wú)論是DSTQN 還是DQN 都處于訓(xùn)練前期的觀察狀態(tài),此時(shí)機(jī)器人隨機(jī)選擇疏散人群的動(dòng)作。在訓(xùn)練中期以及訓(xùn)練后期,DSTQN 算法疏散效果一直處于最優(yōu)的地位,機(jī)器人利用回放池中的樣本學(xué)習(xí)到越來(lái)越好的疏散人群的動(dòng)作。模型收斂后,機(jī)器人依賴學(xué)習(xí)到的策略選擇最優(yōu)的疏散人群的動(dòng)作,因此,DSTQN 的人群疏散效率最高。
表3 為訓(xùn)練330 輪之后的實(shí)驗(yàn)結(jié)果,從表3 可以看出,相比無(wú)機(jī)器人,DQN 在每輪實(shí)驗(yàn)中人群的疏散效率增加了135.71%,而DSTQN 在每輪實(shí)驗(yàn)中人群疏散效率增加了182.14%。DSTQN 算法利用機(jī)器人自身的運(yùn)動(dòng)來(lái)“控制”行人的運(yùn)動(dòng),在不同的場(chǎng)景下也能極大程度地提升人群疏散的效率,由此說(shuō)明本文提出的DSTQN 方法具有良好的場(chǎng)景移植性,能夠遷移至不同的人群疏散場(chǎng)景,并且與現(xiàn)有的算法相比,DSTQN 的疏散效果最優(yōu)。
表3 走廊兩群行人交錯(cuò)場(chǎng)景的人群疏散結(jié)果統(tǒng)計(jì)Table 3 Statistical results of crowd evacuation experiments in the scene with two groups of crowds crossing a corridor
為觀察機(jī)器人疏散人群的過(guò)程,在訓(xùn)練收斂時(shí)(330 輪之后)進(jìn)行實(shí)驗(yàn),保存人群場(chǎng)景圖像,如圖8所示。
圖8 基于DSTQN 的人群疏散過(guò)程示意圖Fig.8 Schematic diagram of crowd evacuation process based on DSTQN
從圖8(a)可以看出,在t=2 s 時(shí),人群在走廊中部相遇并形成嚴(yán)重的擁堵,此時(shí)機(jī)器人利用學(xué)習(xí)到的策略做出疏散人群的動(dòng)作向上方運(yùn)動(dòng);在t=8 s時(shí),該位置的人群被“沖散”,如圖8(b)所示。在t=25 s 和t=32 s 時(shí)可看出,機(jī)器人會(huì)通過(guò)自身運(yùn)動(dòng)來(lái)影響行人運(yùn)動(dòng),降低人群的擁堵程度,進(jìn)而疏散行人,如圖8(c)、圖8(d)所示。
本文提出一種基于深度時(shí)空Q 網(wǎng)絡(luò)的機(jī)器人疏散人群算法,在原始DQN 中引入LSTM 網(wǎng)絡(luò)以關(guān)聯(lián)人機(jī)交互場(chǎng)景圖像的時(shí)間特征,通過(guò)改進(jìn)CNN 網(wǎng)絡(luò)提取更復(fù)雜的空間特征,并設(shè)計(jì)一種機(jī)器人疏散人群的學(xué)習(xí)策略。在單出口室內(nèi)場(chǎng)景和走廊兩群行人交錯(cuò)場(chǎng)景上的實(shí)驗(yàn)結(jié)果表明,該算法與DQN 算法相比,明顯提高了人群疏散效率。下一步將改善機(jī)器人動(dòng)作設(shè)計(jì),采用360°的連續(xù)動(dòng)作取代上下左右4 個(gè)離散動(dòng)作來(lái)解決機(jī)器人疏散人群的問(wèn)題。