亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度時空Q 網(wǎng)絡(luò)的機器人疏散人群算法

        2021-06-18 07:32:44劉士豪陳國文胡學(xué)敏
        計算機工程 2021年6期
        關(guān)鍵詞:行人人群機器人

        譚 嵋,劉士豪,周 婉,陳國文,胡學(xué)敏

        (湖北大學(xué)計算機與信息工程學(xué)院,武漢 430062)

        0 概述

        人員應(yīng)急疏散安全是公共安全的一個重要環(huán)節(jié),在人群密集的地方,如商場、醫(yī)院大廳、地鐵隧道等公共場所發(fā)生突發(fā)事件時,極易造成嚴(yán)重的擁堵,甚至是踩踏和傷亡事件。因此,高效安全地疏散人群成為保障社會安全問題的關(guān)鍵。

        近年來,人群疏散問題得到了科研工作者的關(guān)注和重視。現(xiàn)有的疏散模型主要有兩大類[1],一類是以人群整體為考察對象的宏觀模型,如流體力學(xué)模型[2],另一類是以行人個體為考察對象的微觀模型,如元胞自動機模型[3]和社會力模型[4-5]。流體力學(xué)模型將行人視為連續(xù)的流體,不考慮行人之間的作用力,忽視個體差異,因而該模型不適用于突發(fā)情形下的人群疏散。盡管元胞自動機因算法難度低而得到廣泛運用,但其離散的狀態(tài)和時空不連續(xù)導(dǎo)致模擬結(jié)果不準(zhǔn)確,難以反映緊急情況下人群逃生時的真實狀況。社會力模型考慮了行人的主觀心理、行人之間的安全距離以及行人回避障礙物的行為等真實現(xiàn)象,有效地體現(xiàn)了行人在緊急情況下的運動狀況。

        計算機軟硬件技術(shù)的快速發(fā)展使得研究人員能夠利用智能設(shè)備、計算機技術(shù)等研究人群疏散問題。文獻[6]提出利用智能移動終端內(nèi)的傳感器采集行人數(shù)據(jù),能較為準(zhǔn)確地疏散行人并引導(dǎo)至出口。文獻[7]提出了利用機器人的自身運動來影響行人運動狀態(tài)的方法,雖然人群疏散的效率得到有效提升,但是機器人單一的直線運動使其無法應(yīng)用于其他復(fù)雜的疏散場景,靈活性較低。因此,更多研究者將機器學(xué)習(xí)的方法[8]應(yīng)用到機器人運動規(guī)劃領(lǐng)域,其中一種重要的模型就是深度Q 網(wǎng)絡(luò)(Deep Q-Network,DQN)[9]。DQN 僅通過圖像輸入就能實現(xiàn)從感知到動作的端到端學(xué)習(xí),并在基于視頻感知的控制任務(wù)領(lǐng)域[10]以及無人機[11]、多智能體[12]領(lǐng)域取得了較高的成就。而機器人疏散人群時需要借助人群疏散場景圖中的人群位置、機器人位置等空間特征進一步分析從而采取相應(yīng)的疏散措施,因而將深度強化學(xué)習(xí)應(yīng)用于機器人疏散人群范疇是一個有效手段。文獻[13]利用DQN 使機器人根據(jù)特定的場景學(xué)習(xí)獲得疏散人群的運動策略,該方法對相似場景的移植性強,但網(wǎng)絡(luò)模型較簡單,難以提取復(fù)雜場景的空間特征。

        長短期記憶網(wǎng)絡(luò)[14](Long Short-Term Memory,LSTM)的提出較好地解決了時序數(shù)據(jù)表達的問題,LSTM吸引了大量研究者的關(guān)注并得到優(yōu)化和發(fā)展,且在文本分類[15]和位置預(yù)測[16]領(lǐng)域也有很好的應(yīng)用。而人群疏散是一個不間斷的、前后時間有關(guān)聯(lián)性的過程,如果只考慮每個獨立幀的人群狀態(tài)而忽視前后幀之間的時間特征,則在一定程度上會影響機器人疏散人群的效率。

        針對目前人群疏散方法中存在機器人單一的運動規(guī)則、機器人靈活性差、場景適用性有限的問題,本文利用人機社會力模型,通過機器人的運動來“控制”周圍人群的運動狀態(tài),設(shè)計一種基于深度時空Q網(wǎng)絡(luò)(Deep Spatial-Temporal Q-Network,DSTQN)的機器人疏散人群的算法,通過加深CNN 的網(wǎng)絡(luò)層數(shù)提取復(fù)雜場景的空間特征,并在深度Q 網(wǎng)絡(luò)的基礎(chǔ)上融入LSTM,研究人群疏散場景的時間關(guān)聯(lián)性。

        1 人機社會力模型

        機器人疏散人群的前提是機器人能夠與人群進行交互,利用機器人的運動來影響和“控制”人群的運動。本文采用的人機社會力模型是建立在文獻[4]提出的社會力模型基礎(chǔ)上,實現(xiàn)機器人與行人的交互。社會力模型的理論基礎(chǔ)是牛頓第二定律,通過將行人看作具有自驅(qū)動力的粒子,并計算粒子的自驅(qū)動力、粒子間的相互作用力以及粒子與障礙物的相互作用力之和來分析行人運動狀態(tài),綜合考慮行人的主觀心理和外界干擾因素而設(shè)計的行人運動力學(xué)模型,達到真實模擬行人在緊急情況下逃生狀況的目的。人機社會力模型利用機器人和行人的相互作用力,即人機作用力來影響行人運動的方向和速度[7],進而達到人群疏散的目的,基本公式如式(1)所示:

        式(1)定量地描述了行人i的受力情況,其中,mi是質(zhì)量,v(it)是當(dāng)前速度,fs是自驅(qū)動力,fij是其與行人j的相互作用力,fiw是障礙物與行人i之間的相互作用力,人機作用力的計算如式(2)所示:

        其中,Ar和Br分別代表人機作用力的強度和范圍,rir是機器人與人的幾何中心距離,Kr、κr是系數(shù),nir是機器人指向行人i的單位向量,tir是其正交單位向量,Δvi(rt)是機器人與行人i的速度差。

        2 基于深度時空Q 網(wǎng)絡(luò)的人群疏散算法

        本文設(shè)計的基于深度時空Q 網(wǎng)絡(luò)的人群疏散算法流程如圖1 所示,將人群疏散的場景圖作為狀態(tài)S輸入DSTQN,通過CNN 提取復(fù)雜的人機交互場景圖像的空間特征xt,再送入LSTM 提取時間特征vt,經(jīng)過維度處理后輸出一維的帶有時空特征的特征序列,最后經(jīng)過Q 網(wǎng)絡(luò)單元計算Q值得到當(dāng)前疏散人群的動作A,并根據(jù)與環(huán)境交互得到的獎勵r來判斷此時動作的優(yōu)劣。如此循環(huán)迭代,機器人再根據(jù)下一個狀態(tài)和獎勵不斷學(xué)習(xí),優(yōu)化疏散人群的動作并輸出得到更高的獎勵。

        圖1 基于深度時空Q 網(wǎng)絡(luò)的人群疏散算法流程Fig.1 Procedure of crowd evacuation algorithm based on deep spatio-temporal Q-network

        2.1 DQN 算法

        DQN 是一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[17]和強化學(xué)習(xí)的Q 學(xué)習(xí)[18]經(jīng)典強化學(xué)習(xí)算法,用深度神經(jīng)網(wǎng)絡(luò)取代強化學(xué)習(xí)的Q 表,使機器人在新環(huán)境中探索學(xué)習(xí)。狀態(tài)、動作和獎勵構(gòu)成了DQN 的核心三要素,DQN 模型的建立依據(jù)Q 學(xué)習(xí)和馬爾科夫決策。本文采用的Q 網(wǎng)絡(luò)模型基于文獻[19],由兩層輸出節(jié)點數(shù)量分別為512 和4的全連接層構(gòu)成,模型將機器人與環(huán)境交互的狀態(tài)輸入到主Q 網(wǎng)絡(luò),機器人則根據(jù)Q值計算得到該值最大時的動作。目標(biāo)Q 網(wǎng)絡(luò)的參數(shù)通過定期復(fù)制主Q 網(wǎng)絡(luò)的參數(shù)得到,并最小化當(dāng)前Q值和目標(biāo)Q值的均方誤差更新網(wǎng)絡(luò)參數(shù)以降低兩者之間的相關(guān)性。DQN 利用經(jīng)驗回放機制將機器人與環(huán)境交互的轉(zhuǎn)移樣本存儲在記憶池,隨機抽取小批量的樣本通過隨機梯度下降算法反向更新網(wǎng)絡(luò)參數(shù)θ,不斷重復(fù)直至損失函數(shù)收斂,使機器人找到最優(yōu)的策略疏散人群。損失函數(shù)如式(3)所示,當(dāng)前動作的Q值如式(4)所示,目標(biāo)Q值如式(5)所示。

        其中,s為是機器人的當(dāng)前狀態(tài),s′則是下一個狀態(tài),a是當(dāng)前動作,a′是下一個動作,r是當(dāng)前動作的獎勵值,α是學(xué)習(xí)率,γ是折扣因子,θ為主網(wǎng)絡(luò)權(quán)值參數(shù),θ′為目標(biāo)網(wǎng)絡(luò)權(quán)值參數(shù)。

        2.2 深度時空Q 網(wǎng)絡(luò)

        本文將LSTM 融入到DQN 中來提取人群疏散場景圖像前后幀之間的時間特征,并將包含時空特征的序列送入到Q 網(wǎng)絡(luò)中得到機器人的運動指令。因此,本文設(shè)計的DSTQN 模型由CNN 層網(wǎng)絡(luò)、LSTM 層網(wǎng)絡(luò)和Q 網(wǎng)絡(luò)組成,如圖1 所示。

        因為DQN 算法的輸入是原始的圖像,所以本文將人群疏散場景的仿真圖作為環(huán)境來提取狀態(tài)信息。與原始DQN 類似,本文DSTQN 算法運用CNN擬合Q 函數(shù)以減少算法復(fù)雜度,提取人群疏散場景圖像的特征。在提取環(huán)境信息時,太淺的卷積網(wǎng)絡(luò)只能提取簡單的人群疏散場景的特征[13],無法提取復(fù)雜的人機交互的狀態(tài)特征;過于深的卷積網(wǎng)絡(luò)雖然能提取復(fù)雜的特征,但需要耗費大量的計算資源,難以收斂且有過擬合的風(fēng)險。AlexNet 是一種經(jīng)典的CNN 模型[19],在大規(guī)模視覺識別和圖像分類等領(lǐng)域取得了很好的成效。如圖2 所示,本文參照AlexNet,設(shè)計的CNN 包含5 個卷積層與1 個全連接層。5個卷積層的卷積核大小依次為11×11、5×5、3×3、3×3、3×3,通道數(shù)依次是48、128、192、192、128,最終全連接層輸出帶有1×1×512 個節(jié)點的映射集合。

        圖2 CNN 層網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of CNN layer

        原始DQN 只能表達靜態(tài)人群疏散場景圖像的空間特征,無法表達視頻前后幀之間的時間信息。而動態(tài)人群疏散場景圖像既有空間特征,又有前后幀對應(yīng)位置的像素點,即時間特征,因此關(guān)聯(lián)時間特征有利于機器人長期疏散人群,從而提高人群疏散的效率。LSTM 是一種經(jīng)典的時序特征提取模型,可以對視頻進行時序性建模達到機器人長期記憶的目的,并在視頻識別動作任務(wù)[20]中取得了較好的成果。因此,本文提出的DSTQN 算法通過將CNN 提取的空間特征送入LSTM 層來實現(xiàn)時間關(guān)聯(lián)。

        本文LSTM 層結(jié)構(gòu)如圖3 所示,其中,虛線矩形框描述了LSTM 單元內(nèi)部結(jié)構(gòu),σ表示sigmoid 函數(shù),□表示tanh 函數(shù)。

        圖3 LSTM 層結(jié)構(gòu)Fig.3 Structure of LSTM layer

        LSTM 利用4 個“門”來決定信息在細(xì)胞狀態(tài)的去留,從細(xì)胞狀態(tài)中丟棄的信息由遺忘門確定,首先讀取上一個LSTM 單元的輸出ht-1和當(dāng)前LSTM 單元的輸入xt,然后通過sigmoid 激活函數(shù)丟棄的信息輸出到?t。?t取值范圍為[0,1],1 表示“完全保留”,0 表示“完全舍棄”。輸入門決定存放哪些新信息,通過sigmoid 函數(shù)輸出需要更新的信息it;輸出調(diào)制門利用tanh 激活函數(shù)輸出新的候選值向量mt;新信息it×mt加上舊狀態(tài)細(xì)胞ct-1×ft完成細(xì)胞更新。輸出門確定輸出值,利用sigmoid 函數(shù)輸出[0,1]區(qū)間的ot,并與通過tanh 函數(shù)處理的新的細(xì)胞狀態(tài)ct相乘,得到最終輸出ht。LSTM 各單元門的工作原理如式(6)~式(11)所示:

        其中,Wx與b分別表示對應(yīng)門控單元的權(quán)值與偏差,“˙”表示點乘。

        本文在提取人群疏散場景前后幀的時間特征時,首先把處理后的人群場景圖像輸入CNN 提取空間特征xt,然后將距離當(dāng)前時刻最近的N(N=10)幀圖像的空間特征xt送入LSTM 網(wǎng)絡(luò)關(guān)聯(lián)時間信息,輸出帶有時間和空間信息的特征vt,最后將vt送入Q 網(wǎng)絡(luò)中學(xué)習(xí)和優(yōu)化機器人選擇運動指令的策略。

        2.3 機器人疏散人群算法

        在人群疏散算法中,機器人依據(jù)當(dāng)前從CNN 和LSTM 提取的人群疏散場景狀態(tài)st中,選擇最好的疏散動作at,利用獎勵函數(shù)得到當(dāng)前獎勵rt,再進入下一個狀態(tài)st+1。機器人依據(jù)獎勵辯別當(dāng)前獎勵的優(yōu)劣,且更新目標(biāo)Q 網(wǎng)絡(luò)的參數(shù)。不斷重復(fù)以上過程,最終得到優(yōu)化的目標(biāo)Q 網(wǎng)絡(luò)。因此,狀態(tài)、動作和獎勵的設(shè)計是機器人疏散人群算法的重要內(nèi)容。

        1)狀態(tài)空間S

        狀態(tài)集合S是機器人感知到的環(huán)境信息,也是對環(huán)境信息的數(shù)學(xué)表達。由于原始圖像尺寸過大且包含了許多無效的信息,為了優(yōu)化計算,降低網(wǎng)絡(luò)的訓(xùn)練難度,本文設(shè)定輸入DSTQN 的狀態(tài)是機器人附近的區(qū)域。首先通過縮放和灰度化處理距離當(dāng)前時刻最近的4(經(jīng)驗值)幀場景圖像使其尺寸為84×84×4,然后輸入到CNN 層中,狀態(tài)集合如式(12)所示:

        其中,st是輸入的當(dāng)前時刻狀態(tài)圖像,t為當(dāng)前時刻。

        2)動作空間A

        動作空間A集合了機器人依據(jù)此時環(huán)境而選擇的動作。機器人在疏散人群時,如果選取兩個方向的運動,則動作局限性大且難以有效疏散人群;而選取八向運動則導(dǎo)致強化學(xué)習(xí)搜索空間過大,模型訓(xùn)練時難以收斂。為保證在一定的訓(xùn)練難度下有較好的疏散效果,本文設(shè)計的機器人可向上、下、左、右運動,動作集合如式(13)所示:

        其中,A為機器人動作空間集合,au、ad al、ar分別表示機器人上、下、左、右4 個方向運動指令。

        3)獎勵函數(shù)r

        機器人通過獎勵函數(shù)r判別當(dāng)前動作的優(yōu)劣,同時獎勵函數(shù)引導(dǎo)機器人學(xué)習(xí),強化學(xué)習(xí)的每一個動作都有相應(yīng)的獎勵。本文中機器人目的是更快地降低疏散場景中人群擁擠度,所以對機器人而言最直接的獎勵是當(dāng)前時刻疏散的人數(shù)。如果機器人當(dāng)前動作使得后續(xù)有較多的人數(shù)逃生而當(dāng)前很少甚至是沒有人逃生,亦不可認(rèn)定本次動作無效。因此,本文將智能體采取一個動作后的k(k=5 為經(jīng)驗值)次迭代的疏散總?cè)藬?shù)作為環(huán)境反饋給機器人的獎勵,獎勵函數(shù)如式(14)所示:

        其中,t表示當(dāng)前時刻,Mi是時刻i的疏散人數(shù)值,rt是當(dāng)前時刻t的獎勵值。

        4)其他參數(shù)和模型訓(xùn)練策略

        參數(shù)的合理設(shè)計與適當(dāng)調(diào)整對訓(xùn)練深度強化學(xué)習(xí)算法起著重要的作用?;贒STQN 的人群疏散算法的參數(shù)設(shè)置如表1 所示。

        表1 DSTQN 算法參數(shù)Table 1 Parameters of DSTQN algorithm

        在表1 中,學(xué)習(xí)率是更新策略時更新網(wǎng)絡(luò)權(quán)重的幅度大小,折扣因子體現(xiàn)時間對獎勵的影響,記憶池用來存儲樣本數(shù)據(jù),訓(xùn)練批次大小等同于每次訓(xùn)練神經(jīng)網(wǎng)絡(luò)送入模型的樣本數(shù),周期性地更新目標(biāo)Q 網(wǎng)絡(luò)可以提高算法穩(wěn)定性。采用貪婪算法[21]訓(xùn)練策略,按照設(shè)定的探索因子的大小來確定動作模式,不同的探索因子對應(yīng)不同階段選取動作的概率。在訓(xùn)練初始階段,機器人在初始探索因子ε的概率下進行探索,隨機選擇動作,ε隨著訓(xùn)練次數(shù)增加而減小,最終機器人以穩(wěn)定的終止探索因子,ε′概率選擇當(dāng)前最優(yōu)的動作。

        3 實驗結(jié)果與分析

        本文使用Python 語言實現(xiàn)人群疏散仿真環(huán)境和人群疏散算法,DSTQN 算法基于Keras 平臺實現(xiàn)。硬件平臺CPU 為Intel i7-7700K,GPU 為NVIDIA GTX 1080Ti,內(nèi)存為32 GB。在實驗場景方面,本文設(shè)計單出口室內(nèi)人群疏散與走廊兩群行人交錯2 種場景進行實驗。

        3.1 單出口室內(nèi)人群疏散場景

        帶有一個疏散口的室內(nèi)場景是一個典型的人群疏散場景。圖4 為本文建立的大小為11 m×11 m 并帶有一個3 m 寬出口的室內(nèi)實驗場景,其中,實心圓表示行人,空心圓表示新增行人,方形表示機器人。當(dāng)緊急事件發(fā)生時,行人出于恐慌心理在自驅(qū)動力的作用下快速向出口逃離。不同方向的行人逐漸聚集到出口附近,導(dǎo)致人群疏散效率降低。

        圖4 單出口室內(nèi)人群疏散場景和機器運動范圍Fig.4 Single exit indoor crowd evacuation scene and machine movement range

        為有效疏散人群,在室內(nèi)場景中加入一個機器人進行仿真實驗。圖4 左側(cè)6 m×6 m 的外側(cè)虛線框代表室內(nèi)場景中人群主要聚集的區(qū)域,觀察該區(qū)域并通過均勻采樣得到84 像素×84 像素的圖像后送入DSTQN 網(wǎng)絡(luò)來計算機器人的環(huán)境狀態(tài)。此外,將機器人的運動范圍劃定在出口附近處行人逃生的矩形區(qū)域,如圖4 左側(cè)3.6 m×5.4 m 內(nèi)側(cè)虛線框所示。綜合考慮噪聲和有限的計算資源,行人期望速度定為6 m/s[22],每秒迭代10 次;機器人運動速度是0.6 m/s,每秒迭代2 次,每次移動0.3 m。圖4 右側(cè)12 m×18 m的矩形網(wǎng)格是機器人在場景中的運動位置。在每輪實驗中,人群初始人數(shù)是100 人,疏散的時間是100 s,人群初始位置隨機分布在場景中。在圖4 中左側(cè)每秒產(chǎn)生3 個行人(用空心圓表示),他們的水平速度是6 m/s,縱向速度是0,目的是為了讓行人源源不斷地進入場景,避免狀態(tài)空間太大。

        本文的評判標(biāo)準(zhǔn)是單位時間(100 s)內(nèi)疏散的人數(shù),從而檢驗本文算法的有效性。文獻[7,13]與本文算法都是基于人機社會力模型研究單出口的室內(nèi)場景的人群疏散工作。為檢驗時空Q 網(wǎng)絡(luò)在人群疏散應(yīng)用的效果,本文將未加入LSTM 的原始DQN 與加入了LSTM 的DSTQN 進行對比。

        圖5 為不同算法在室內(nèi)場景的訓(xùn)練過程中疏散總?cè)藬?shù)變化曲線。在訓(xùn)練的前200 輪時,DSTQN 處于的觀察前期,機器人隨機選擇疏散人群的動作;在200 輪~400 輪時處于探索中期,機器人將從經(jīng)驗池采集的樣本優(yōu)化機器人疏散人群的動作序列;在400輪之后訓(xùn)練收斂時,機器人根據(jù)學(xué)到的人群疏散策略來選擇最合適的疏散人群動作,此時DSTQN 算法在每輪實驗中疏散人群的數(shù)量最多。

        圖5 單出口室內(nèi)場景訓(xùn)練過程中疏散人數(shù)曲線Fig.5 Curves of evacuee number in training process of indoor scene with a single exit

        從圖5 可以看出,本文提出的DSTQN 算法疏散人群效果優(yōu)于DQN 和文獻[7]算法。3 種算法都是利用機器人自身運動狀態(tài)來“控制”人群的運動狀態(tài),在文獻[7]的算法中,機器人只是簡單地在出口上下往復(fù)運動,盡管一定程度上提高了人群疏散效率,但這種單一的疏散路徑不能根據(jù)場景內(nèi)擁擠程度調(diào)整疏散策略;DSTQN、DQN 算法中機器人則是在場景內(nèi)學(xué)習(xí)高效的疏散人群策略來引導(dǎo)人群逃生,相比文獻[7]的算法,這兩種算法大幅提升了人群的疏散效率。同DQN 算法相比,本文提出的DSTQN 算法重新設(shè)計了CNN 的結(jié)構(gòu)來提取人群疏散場景圖像復(fù)雜的空間特征,并且通過引入LSTM構(gòu)成深度時空Q 網(wǎng)絡(luò),關(guān)聯(lián)人群疏散場景前后幀之間的時間信息,故機器人能夠長期記憶之前學(xué)習(xí)到的信息,進一步提升了人群疏散的效率。

        表2 為室內(nèi)單出口場景不同算法的人群疏散結(jié)果對比,其中DQN 和DSTQN 都是訓(xùn)練800 輪之后的測試結(jié)果。從表2 可知,與無機器人相比,文獻[7,13]、DQN、DSTQN 等算法在每輪實驗中人群的疏散效率分別增加7.63、13.74、11.83、17.18 個百分點。本文DQN 與文獻[13]算法主要區(qū)別在于CNN 的網(wǎng)絡(luò)結(jié)構(gòu)。本文重新設(shè)計了CNN 的網(wǎng)絡(luò)結(jié)構(gòu),目的是提取更復(fù)雜的空間特征。從疏散的效果來看,本文設(shè)計的CNN 網(wǎng)絡(luò)結(jié)構(gòu)好于文獻[13]算法。若僅使用DQN,機器人在提取人群圖像的特征上只能獲得每一個單獨幀的人群位置、機器人的位置等空間信息,忽略了前后之間的時間信息。加入LSTM 的網(wǎng)絡(luò)有利于機器人根據(jù)前后幀之間的時間相關(guān)性,更快、更好地學(xué)習(xí)到某一時刻在何位置疏散人群效率高,同時機器人可以根據(jù)之前學(xué)習(xí)到的經(jīng)驗,如前后時刻人群場景中擁擠度的對比、前后時刻疏散人群效率對比等進一步提高人群的疏散效率。因此,在現(xiàn)有的算法中,本文DSTQN 算法疏散人群的效果最好,效率最高。

        表2 室內(nèi)單出口場景的不同算法人群疏散結(jié)果對比結(jié)果Table 2 Comparative results of different crowd evacuation algorithm in indoor scene with a single exit

        3.2 走廊兩群行人交錯場景

        走廊通道如地鐵隧道、商場通道等場景也人群疏散研究的典型場所。本文建立的走廊場景長8 m、寬4 m,墻壁用上下實線代替,行人的進出口用左右兩邊虛線表示,如圖6 所示。為到達各自的期望地點,兩群行人對向而行,在走廊相遇的位置發(fā)生嚴(yán)重的擁堵。

        圖6 走廊兩群行人交錯場景和機器運動范圍Fig.6 Corridor two groups of pedestrians interlaced scenes and machine motion range

        由于文獻[7]的算法沒有涉及該類型場景,因此在實驗過程中只將本文算法與DQN 以及無機器人疏散的結(jié)果進行對比。實驗中走廊左右兩邊的初始人數(shù)各設(shè)置30 人,每輪訓(xùn)練中設(shè)定人群疏散的時間是100 s,在走廊左右兩側(cè)分別產(chǎn)生1 個行人,其水平速度是6 m/s,縱向速度為0。本文選擇走廊中部附近人群主要聚集的區(qū)域作為狀態(tài)觀測和機器人運動的范圍,見圖6 中5.1 m×3.3 m 矩形虛線框。

        與室內(nèi)單出口人群疏散場景相比,走廊兩群行人交錯的場景更為復(fù)雜。圖7 為走廊場景的訓(xùn)練過程中疏散人數(shù)變化曲線。

        圖7 走廊場景訓(xùn)練過程中疏散人數(shù)變化曲線Fig.7 Change curve of the number of people evacuated during the corridor scene training process

        從實驗結(jié)果可以看出,DSTQN 的疏散效果優(yōu)于DQN。雖然在50 輪~100 輪時DQN 疏散的人數(shù)數(shù)量領(lǐng)先于其他算法,但在訓(xùn)練前100 輪訓(xùn)練時,無論是DSTQN 還是DQN 都處于訓(xùn)練前期的觀察狀態(tài),此時機器人隨機選擇疏散人群的動作。在訓(xùn)練中期以及訓(xùn)練后期,DSTQN 算法疏散效果一直處于最優(yōu)的地位,機器人利用回放池中的樣本學(xué)習(xí)到越來越好的疏散人群的動作。模型收斂后,機器人依賴學(xué)習(xí)到的策略選擇最優(yōu)的疏散人群的動作,因此,DSTQN 的人群疏散效率最高。

        表3 為訓(xùn)練330 輪之后的實驗結(jié)果,從表3 可以看出,相比無機器人,DQN 在每輪實驗中人群的疏散效率增加了135.71%,而DSTQN 在每輪實驗中人群疏散效率增加了182.14%。DSTQN 算法利用機器人自身的運動來“控制”行人的運動,在不同的場景下也能極大程度地提升人群疏散的效率,由此說明本文提出的DSTQN 方法具有良好的場景移植性,能夠遷移至不同的人群疏散場景,并且與現(xiàn)有的算法相比,DSTQN 的疏散效果最優(yōu)。

        表3 走廊兩群行人交錯場景的人群疏散結(jié)果統(tǒng)計Table 3 Statistical results of crowd evacuation experiments in the scene with two groups of crowds crossing a corridor

        為觀察機器人疏散人群的過程,在訓(xùn)練收斂時(330 輪之后)進行實驗,保存人群場景圖像,如圖8所示。

        圖8 基于DSTQN 的人群疏散過程示意圖Fig.8 Schematic diagram of crowd evacuation process based on DSTQN

        從圖8(a)可以看出,在t=2 s 時,人群在走廊中部相遇并形成嚴(yán)重的擁堵,此時機器人利用學(xué)習(xí)到的策略做出疏散人群的動作向上方運動;在t=8 s時,該位置的人群被“沖散”,如圖8(b)所示。在t=25 s 和t=32 s 時可看出,機器人會通過自身運動來影響行人運動,降低人群的擁堵程度,進而疏散行人,如圖8(c)、圖8(d)所示。

        4 結(jié)束語

        本文提出一種基于深度時空Q 網(wǎng)絡(luò)的機器人疏散人群算法,在原始DQN 中引入LSTM 網(wǎng)絡(luò)以關(guān)聯(lián)人機交互場景圖像的時間特征,通過改進CNN 網(wǎng)絡(luò)提取更復(fù)雜的空間特征,并設(shè)計一種機器人疏散人群的學(xué)習(xí)策略。在單出口室內(nèi)場景和走廊兩群行人交錯場景上的實驗結(jié)果表明,該算法與DQN 算法相比,明顯提高了人群疏散效率。下一步將改善機器人動作設(shè)計,采用360°的連續(xù)動作取代上下左右4 個離散動作來解決機器人疏散人群的問題。

        猜你喜歡
        行人人群機器人
        在逃犯
        毒舌出沒,行人避讓
        意林(2021年5期)2021-04-18 12:21:17
        糖尿病早預(yù)防、早控制
        路不為尋找者而設(shè)
        揚子江(2019年1期)2019-03-08 02:52:34
        我走進人群
        百花洲(2018年1期)2018-02-07 16:34:52
        財富焦慮人群
        我是行人
        機器人來幫你
        認(rèn)識機器人
        機器人來啦
        亚洲一二三四区免费视频| 一区二区免费电影| 亚洲国产日韩综一区二区在性色 | 亚洲男人天堂2017| 亚洲精品国产主播一区二区| 午夜精品免费视频一区二区三区| 无码人妻丰满熟妇区五十路| 亚洲综合无码一区二区| 亚洲无码啊啊啊免费体验| 国产麻豆剧传媒精品国产av| 香蕉免费一区二区三区| 精品一区二区三区在线观看视频| 无码三级国产三级在线电影| 东京热加勒比久久精品| 人妻哺乳奶头奶水| 国产第一草草影院| 国产精品一区二区久久精品蜜臀| 中文字幕乱码在线人妻| 伊人久久久精品区aaa片| 国产片AV在线永久免费观看| 国产自拍在线视频观看| 人人澡人人妻人人爽人人蜜桃麻豆| 欧妇女乱妇女乱视频| 久久露脸国产精品WWW| 侵犯了美丽丰满人妻中文字幕| 亚洲精品成人网站在线播放| 日本一区二区三区高清千人斩 | 精品国产亚洲av成人一区| 国产av精品麻豆网址| 色一情一乱一乱一区99av| 国产成人8x视频网站入口| 中文字幕亚洲一区视频| 日本一区二区在线播放| 怡春院欧美一区二区三区免费 | 亚洲无线码一区二区三区| 国产精品成人va| 少妇人妻出水中文字幕乱码| 日日噜噜夜夜狠狠久久丁香五月| 中文字幕乱码免费视频| AV中文码一区二区三区| 精品国产一区二区三区av麻|