亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多智能體強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)群室內(nèi)輔助救援①

2022-05-10 02:28:34郭天昊岳文淵郭大波

計(jì)算機(jī)系統(tǒng)應(yīng)用 2022年2期

郭天昊,張鋼,岳文淵,王倩,郭大波

(山西大學(xué) 物理電子工程學(xué)院,太原 030006)

無(wú)人機(jī)具有易于部署,靈活性高以及制造成本低等優(yōu)勢(shì),常被用來(lái)部署在各種民用場(chǎng)景中,其中包括精準(zhǔn)農(nóng)業(yè),清理海洋廢棄物,包裹投遞,自然災(zāi)害后恢復(fù)網(wǎng)絡(luò)服務(wù)以及搜索與搜救[1–5].基于無(wú)人機(jī)的災(zāi)后搜救也由之前的單機(jī)式搜救逐漸發(fā)展到小型的多機(jī)群式搜救[6],大幅度提高了搜救效率.

在早期,無(wú)人機(jī)輔助搜救的目標(biāo)多是針對(duì)目標(biāo)位置已知的情況[7–9],無(wú)人機(jī)只需要規(guī)劃飛行路線抵達(dá)目標(biāo)所在位置即可.實(shí)際搜救過(guò)程中在搜索目標(biāo)之前對(duì)于任務(wù)區(qū)域的信息知之甚少,復(fù)雜的室內(nèi)環(huán)境對(duì)于無(wú)人機(jī)的避障能力提出了巨大的挑戰(zhàn).如何使無(wú)人機(jī)群對(duì)環(huán)境無(wú)任何先驗(yàn)知識(shí)的前提下進(jìn)行自主決策是個(gè)值得研究的問(wèn)題.為此,文獻(xiàn)[10]將基于模型的強(qiáng)化學(xué)習(xí)算法應(yīng)用到無(wú)人機(jī)的自主導(dǎo)航領(lǐng)域,極大提高了無(wú)人機(jī)自主決策能力.在無(wú)人機(jī)最佳路徑規(guī)劃方向,文獻(xiàn)[11]考慮了獎(jiǎng)勵(lì)與懲罰機(jī)制,使得無(wú)人機(jī)在不斷地嘗試飛行中選擇最佳路徑從而到達(dá)目標(biāo)位置.考慮到無(wú)人機(jī)在復(fù)雜環(huán)境中狀態(tài)值爆炸式的增多,為解決大容量的狀態(tài)值問(wèn)題,文獻(xiàn)[12]提出了基于神經(jīng)網(wǎng)絡(luò)的分布式DQN算法,以控制無(wú)人機(jī)在未知環(huán)境中進(jìn)行目標(biāo)搜索與目標(biāo)跟蹤.針對(duì)大規(guī)模的搜索環(huán)境,需要多臺(tái)無(wú)人機(jī)設(shè)備進(jìn)行協(xié)作完成搜索任務(wù),文獻(xiàn)[13]提出一種異構(gòu)多智能體算法,以控制多臺(tái)無(wú)人機(jī)在復(fù)雜的環(huán)境中以協(xié)作的方式最大程度上完成搜索任務(wù).

為組織合作的、智能的、適應(yīng)復(fù)雜環(huán)境下的無(wú)人機(jī)群,本文提出了一種基于多智能體強(qiáng)化學(xué)習(xí)的控制策略.首先將多無(wú)人機(jī)搜救任務(wù)進(jìn)行建模處理,將其轉(zhuǎn)化為具有完全回報(bào)函數(shù)的分散的部分可觀的馬爾可夫決策過(guò)程;其次提出了基于集中學(xué)習(xí)分散執(zhí)行的多智能體強(qiáng)化學(xué)習(xí)方法,利用了Double-DQN 算法對(duì)Dec-POMDP 進(jìn)行了求解;最后利用蒙特卡洛方法對(duì)本方案進(jìn)行通用性測(cè)試.結(jié)果表明本文方案在搜救成功率方面所具備的優(yōu)勢(shì),能夠在大型的救援環(huán)境中出色的完成搜救任務(wù).

1 問(wèn)題概述與系統(tǒng)模型

1.1 問(wèn)題概述

本文考慮了這樣一個(gè)場(chǎng)景,某大型圖書館發(fā)生火災(zāi),無(wú)人機(jī)群進(jìn)入圖書館以協(xié)作的方式迅速對(duì)館內(nèi)受害人員進(jìn)行搜索.具體地,無(wú)人機(jī)群的搜索任務(wù)環(huán)境如圖1所示.該圖模擬了復(fù)雜的室內(nèi)環(huán)境,為簡(jiǎn)化訓(xùn)練模型,假設(shè)無(wú)人機(jī)飛行過(guò)程中高度恒定為h(不包括起飛與降落操作),飛行速度恒定為V.受害者的手機(jī)可作為其位置信息傳感器隨時(shí)發(fā)出其位置信息,其通信模式為:無(wú)人機(jī)通過(guò)發(fā)射一種激活信號(hào),受害者持有的終端設(shè)備接受此信號(hào)后通過(guò)反向散射(back scatter)方式向無(wú)人機(jī)發(fā)送位置數(shù)據(jù)[14],由于每個(gè)手機(jī)設(shè)備反射功率的不同會(huì)導(dǎo)致無(wú)人機(jī)只有在一定范圍內(nèi)才能采集位置信息.

圖1 無(wú)人機(jī)室內(nèi)搜救模型

任務(wù)區(qū)域內(nèi)隨機(jī)布置了3 臺(tái)無(wú)人機(jī)與7 名位置隨機(jī)的受害者.無(wú)人機(jī)從停機(jī)坪(充電站位置)出發(fā)后,分別對(duì)受害者位置信息進(jìn)行采集,受限于電池容量的影響,無(wú)人機(jī)群須在電量耗盡之前返航到充電站位置進(jìn)行充電操作,對(duì)于沒(méi)能在電量耗盡之前安全返航進(jìn)行充電操作的所提方案將其作為懲罰加入獎(jiǎng)勵(lì)函數(shù)中.

為將地圖進(jìn)行合理的建模,本方案將地圖分割為N×N的網(wǎng)格模型,定義整個(gè)室內(nèi)區(qū)域?yàn)镸:M×M∈N2,將M區(qū)域分割為尺寸大小為n的32×32 網(wǎng)格.定義無(wú)人充電位置區(qū)域Z ∈{[xZi,yZi]T,i=1,···,N},將所有窗戶位置定義為禁飛區(qū)域 C ∈{[xCi,yCi],i=1,···,N},避免由于窗戶處于打開狀態(tài)而導(dǎo)致無(wú)人機(jī)從窗戶飛到室外無(wú)形中將搜索區(qū)域擴(kuò)展為無(wú)限大.將墻體與門所在位置定義為障礙物區(qū)域 N={[xNi,yNi],i=1,···,N},無(wú)人機(jī)在飛行過(guò)程中要絕對(duì)避免的區(qū)域.

1.2 信道模型

在本文中,所提方案考慮到現(xiàn)實(shí)場(chǎng)景,將無(wú)人機(jī)與受害者之間的通信鏈路建模為視距(line of sight,LOS)與非視距(none-line of sight,NLOS)的點(diǎn)對(duì)點(diǎn)信道模型[15],在該信道模型下本文定義在時(shí)間為n,第j位受害者能夠達(dá)到的信息速率為:

其中,Pj為發(fā)射功率,σ2為接受機(jī)處的高斯白噪聲的功率,αe與 ηe為信號(hào)在無(wú)人機(jī)與受害者之間的傳播路徑損耗指數(shù),其中e∈{LOS,NLOS},具體與環(huán)境有關(guān),主要來(lái)自視距損耗或者非視距損耗.dj(n)為無(wú)人機(jī)距離受害者的直線距離.

1.3 系統(tǒng)模型

本系統(tǒng)模型的主要研究目標(biāo)是使得無(wú)人機(jī)團(tuán)隊(duì)在一定約束條件下能夠最大化的從搜救區(qū)域中搜集受害者的位置信息.這些約束條件主要分為兩部分,一部分來(lái)自無(wú)人機(jī)設(shè)備自身的條件約束,例如電池容量.另一部分來(lái)自環(huán)境對(duì)無(wú)人機(jī)設(shè)備的約束.例如室內(nèi)門墻等障礙物、無(wú)人機(jī)與無(wú)人機(jī)之間避免碰撞以及無(wú)人機(jī)的起落位置(充電位置).

對(duì)無(wú)人機(jī)群進(jìn)行建模,定義第i臺(tái)無(wú)人機(jī)的位置為pi(t)=[xi(t),yi(t),zi(t)]T,為簡(jiǎn)化模型假設(shè)無(wú)人機(jī)的飛行高度為zi(t)∈{0,h}即無(wú)人機(jī)的高度位置只能為地面0 或者以h的高度恒定飛行.在本模型中無(wú)人機(jī)的動(dòng)作空間受限于其所處環(huán)境的位置,無(wú)人機(jī)只有在充電區(qū)域時(shí)才能執(zhí)行著陸充電動(dòng)作.動(dòng)作空間定義為:

第i臺(tái)無(wú)人機(jī)在t時(shí)刻的動(dòng)作為ai(t),其中,ai(t)∈A(pi(t)).

無(wú)人機(jī)t時(shí)刻的飛行狀態(tài)為λi(t)∈{0,1},0 表示無(wú)人機(jī)處于靜止?fàn)顟B(tài),1 表示無(wú)人機(jī)處于運(yùn)動(dòng)狀態(tài).值得注意的是當(dāng)無(wú)人機(jī)處于充電狀態(tài)時(shí),運(yùn)動(dòng)狀態(tài)變?yōu)榉沁\(yùn)動(dòng)狀態(tài).定義無(wú)人機(jī)的下一狀態(tài)為:

對(duì)于本模型中的無(wú)人機(jī)剩余電量,第i臺(tái)無(wú)人機(jī)在t時(shí)刻剩余電量為Ei(t).假設(shè)無(wú)人機(jī)運(yùn)動(dòng)時(shí)消耗的電量始終恒定,此時(shí)可以直接將剩余電量等價(jià)于此無(wú)人機(jī)的剩余飛行時(shí)間.由于耗電量主要由運(yùn)行狀態(tài)決定,為此無(wú)人機(jī)的下一時(shí)刻的剩余電量可離散化為:

對(duì)于無(wú)人機(jī)的動(dòng)作策略的優(yōu)化本質(zhì)上是對(duì)無(wú)人機(jī)的接收信息的吞吐量最大化,無(wú)人機(jī)群與受害者持有的設(shè)備之間通信時(shí)遵循標(biāo)準(zhǔn)的時(shí)分多址模型(TDMA),在任務(wù)時(shí)間T內(nèi),整個(gè)團(tuán)隊(duì)I臺(tái)無(wú)人機(jī)設(shè)備在聯(lián)合策略xiai(t)下的最大化吞吐量模型為:

其中,n∈[βt,β(t+1)?1]表示在任務(wù)時(shí)間T內(nèi)的通信時(shí)間,β為通信時(shí)隙,λi(t)為無(wú)人機(jī)的在t時(shí)刻的運(yùn)行狀態(tài),qi,j(n)∈{0,1}為TDMA 模式下的調(diào)度變量.

2 多智能體強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一個(gè)重要分支,其核心是智能體與特定環(huán)境的重復(fù)交互,學(xué)習(xí)如何在未知環(huán)境中執(zhí)行最優(yōu)策略[16].在當(dāng)前狀態(tài)S下,智能體執(zhí)行動(dòng)作A,環(huán)境接收到此動(dòng)作后反饋于智能體下一狀態(tài)St+1和回報(bào)值R,智能體依據(jù)環(huán)境反饋的回報(bào)值來(lái)優(yōu)化策略并且進(jìn)行再學(xué)習(xí),就這樣通過(guò)不斷地迭代最后生成最優(yōu)策略.

本文針對(duì)多無(wú)人機(jī)協(xié)作問(wèn)題定義了同質(zhì)的、非通信的、簡(jiǎn)單合作的無(wú)人機(jī)群.同質(zhì)性是指每臺(tái)無(wú)人機(jī)設(shè)備具有相同的構(gòu)造結(jié)構(gòu),相同的動(dòng)作空間以及任務(wù)領(lǐng)域;非通信是指無(wú)人機(jī)之間沒(méi)有直接的通信,即無(wú)人機(jī)不能協(xié)調(diào)它們的動(dòng)作以及進(jìn)行有關(guān)的通信,但都能感知與其他無(wú)人機(jī)之間位置信息,并可利用這種感知到的位置信息對(duì)無(wú)人機(jī)進(jìn)行監(jiān)管維護(hù);簡(jiǎn)單合作是指無(wú)人機(jī)團(tuán)隊(duì)共同收集的位置數(shù)據(jù)可添加到每一臺(tái)無(wú)人機(jī)的回報(bào)函數(shù)中,這就使得他們有一個(gè)共同的目標(biāo).在多智能體訓(xùn)練階段,每臺(tái)無(wú)人機(jī)與環(huán)境不斷地交互進(jìn)行自身的策略優(yōu)化,之后將它們的經(jīng)驗(yàn)數(shù)據(jù)集中起來(lái),通過(guò)組建神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)庫(kù)來(lái)訓(xùn)練控制系統(tǒng),最后將訓(xùn)練好的控制系統(tǒng)部署到每臺(tái)無(wú)人機(jī)設(shè)備上.

2.1 部分可觀的馬爾可夫決策過(guò)程

本節(jié)將無(wú)人機(jī)團(tuán)隊(duì)與環(huán)境交互的問(wèn)題轉(zhuǎn)換為部分可觀的馬爾可夫決策過(guò)程.一個(gè)Dec-MDP 通常是由一個(gè)七元組組成(S,Ax,P,R,?x,O,γ),其中S代表一組空間狀態(tài)值,Ax表示智能體的動(dòng)作空間,P:S×A→?(S)為狀態(tài)轉(zhuǎn)移概率矩陣,R:S×A×S→R為即時(shí)的獎(jiǎng)勵(lì)函數(shù),?x=?I為一組觀測(cè)結(jié)果,即無(wú)人機(jī)傳感器獲得的環(huán)境數(shù)據(jù).O為條件觀測(cè)概率.γ ∈[0,1]為貼現(xiàn)因子,表示長(zhǎng)期回報(bào)與短期回報(bào)的重要程度.

狀態(tài)(S):本模型狀態(tài)空間由3 部分組成.分別為環(huán)境信息、無(wú)人機(jī)狀態(tài)、受害者狀態(tài).定義狀態(tài)空間為S(t)=(M,{pi(t)},{Ei(t)},λi(t),{Lj},{Dj(t)}),其中,M表示環(huán)境中的一系列位置信息集合,包括室內(nèi)門窗以及墻體等障礙物的位置、無(wú)人機(jī)的起落位置以及危險(xiǎn)區(qū)域的位置信息.{pi(t)} 表示第i臺(tái)無(wú)人機(jī)的位置信息,{Ei(t)}表示第i臺(tái) 無(wú)人機(jī)的剩余電量,λi(t)表示第i臺(tái)無(wú)人機(jī)的運(yùn)行狀態(tài),{Lj} 表示第j位受害者的位置信息,{Dj(t)} 表示第j位受害者的位置信息量.

動(dòng)作(Ax):考慮到模型的復(fù)雜性,為避免無(wú)人機(jī)發(fā)生碰撞,引入符合本模型的動(dòng)作狀態(tài)空間,在之前的無(wú)人機(jī)動(dòng)作空間模型中引入一種安全控制機(jī)制,無(wú)人機(jī)通過(guò)判斷所處的環(huán)境位置來(lái)執(zhí)行相應(yīng)的動(dòng)作,當(dāng)無(wú)人機(jī)位于區(qū)域 R時(shí),該區(qū)域包括無(wú)人機(jī)的下個(gè)位置位于障礙物區(qū)域以及兩臺(tái)無(wú)人機(jī)同時(shí)出現(xiàn)在同一種位置且處于運(yùn)動(dòng)狀態(tài),此時(shí)安全機(jī)制執(zhí)行懸停動(dòng)作.本方案定義安全動(dòng)作空間如下:

在區(qū)域 R,有:

即時(shí)獎(jiǎng)勵(lì)(R):本模型總即時(shí)獎(jiǎng)勵(lì)Ri(t)由所有無(wú)人機(jī)任務(wù)時(shí)間內(nèi)搜救受害者數(shù)量的獎(jiǎng)勵(lì)、路徑規(guī)劃獎(jiǎng)勵(lì)、即時(shí)充電獎(jiǎng)勵(lì)3 部分組成,其中搜集所有受害者位置信息量獎(jiǎng)勵(lì)是每臺(tái)無(wú)人機(jī)共享獎(jiǎng)勵(lì)的唯一部分.

t時(shí)間內(nèi)收集的所有受害者的位置信息量作為集體獎(jiǎng)勵(lì),τ為收集乘數(shù)將數(shù)據(jù)收集參數(shù)化,方法如下:

路徑規(guī)劃獎(jiǎng)勵(lì)主要用于懲罰無(wú)人機(jī)在飛行過(guò)程中不執(zhí)行安全動(dòng)作空間,為誘導(dǎo)無(wú)人機(jī)優(yōu)化最短飛行路徑來(lái)搜集受害者的位置信息,定義方法如下:

其中,當(dāng)無(wú)人機(jī)的動(dòng)作空間不符合安全動(dòng)作空間時(shí),給出懲罰θ,δ為持續(xù)飛行的路徑懲罰,使無(wú)人機(jī)減少飛行時(shí)間優(yōu)化其搜救路徑.

即時(shí)充電獎(jiǎng)勵(lì)強(qiáng)迫無(wú)人機(jī)在電量耗盡之前返航進(jìn)行充電,對(duì)于沒(méi)有即時(shí)返航的無(wú)人機(jī)給予值為ω的處罰,為此定義即時(shí)充電的獎(jiǎng)勵(lì)計(jì)算如下:

綜上3 部分,總即時(shí)獎(jiǎng)勵(lì)為以上3 部分獎(jiǎng)勵(lì)之和,即:

觀測(cè)結(jié)果(?x):本模型無(wú)人機(jī)的觀測(cè)空間由室內(nèi)環(huán)境M、無(wú)人機(jī)的飛行狀態(tài)Oλi(t)、無(wú)人機(jī)的剩余電量OEi(t)、受害者位置信息量ODj(t)四部分組成.為簡(jiǎn)化模型,將無(wú)人機(jī)的位置與受害者位置進(jìn)行2D 投影,投影函數(shù)定義如下:

式(15)與式(16)分別將受害者與無(wú)人機(jī)的位置經(jīng)過(guò)投影函數(shù)f2D(x)后所得2D 位置信息為:

帶有位置信息Plocation與該位置所對(duì)應(yīng)的某一類值Qinformation映射到相對(duì)應(yīng)的圖層O,定義如下映射:

式(18),式(19),式(20)分別將無(wú)人機(jī)的位置信息與該位置對(duì)應(yīng)的運(yùn)動(dòng)狀態(tài)和剩余電量在映射函數(shù)fobservation下,得到其對(duì)應(yīng)得圖層O.

將上述所有的圖層作為無(wú)人機(jī)的觀測(cè)結(jié)果輸入到本文神經(jīng)網(wǎng)絡(luò)架構(gòu)中,式(21)為無(wú)人機(jī)的觀測(cè)結(jié)果:

2.2 DQN 算法:

本文的無(wú)人機(jī)群在大型室內(nèi)空間中執(zhí)行任務(wù),如將Q值表示為數(shù)值表格是不可取的,文獻(xiàn)[17]應(yīng)用了經(jīng)驗(yàn)回放等方面的技術(shù),將Q-Learning 與神經(jīng)網(wǎng)絡(luò)結(jié)合起來(lái),完美的解決了大狀態(tài)空間問(wèn)題.經(jīng)驗(yàn)池的主要功能是解決相關(guān)性與非靜態(tài)分布問(wèn)題,具體方法是通過(guò)將每個(gè)時(shí)刻智能體與環(huán)境交互的樣本 (st,at,rt,st+1)存儲(chǔ)于回放記憶單元,訓(xùn)練時(shí)在經(jīng)驗(yàn)池中隨機(jī)抽取一批數(shù)據(jù)進(jìn)行訓(xùn)練.

DQN 算法的主要目標(biāo)是保證估計(jì)值網(wǎng)絡(luò)輸出的值Q(s,a;θ)無(wú) 限接近于目標(biāo)值網(wǎng)絡(luò)輸出的目標(biāo)值TargetQ,其中,θ為網(wǎng)絡(luò)參數(shù),目標(biāo)值計(jì)算方法為:

基于上述的目標(biāo)值,定義DQN的損失函數(shù)公式,求L(θ) 關(guān)于θ的梯度,使用隨機(jī)梯度下降算法更新網(wǎng)絡(luò)參數(shù)θ:

具體地,DQN 算法的流程如圖2所示.

圖2 DQN 算法流程圖

3 無(wú)人機(jī)團(tuán)隊(duì)路徑規(guī)劃算法

3.1 Double DQN (DDQN)算法

本文利用DDQN 算法對(duì)無(wú)人機(jī)團(tuán)隊(duì)路徑規(guī)劃進(jìn)行訓(xùn)練,不同于DQN 算法,DDQN 算法克服了QLearning 算法固有的缺陷即過(guò)估計(jì)問(wèn)題,而在DQN 算法中此問(wèn)題也沒(méi)有得到有效解決,為解決過(guò)估計(jì)問(wèn)題Double DQN 算法將動(dòng)作的選擇和動(dòng)作的評(píng)估分別用不同的值函數(shù)來(lái)實(shí)現(xiàn)如圖3所示,具體如下:

圖3 DDQN 損失函數(shù)構(gòu)造流程

通過(guò)網(wǎng)絡(luò)(main-net)獲得最大值函數(shù)的動(dòng)作a,然后通過(guò)目標(biāo)網(wǎng)絡(luò)(target-net)獲得上述動(dòng)作a所對(duì)應(yīng)的TargetQ值:

基于目標(biāo)網(wǎng)絡(luò)TargetQ值,定義DDQN的損失函數(shù)為:

3.2 Double DQN 神經(jīng)網(wǎng)絡(luò)

如圖4所示,本文構(gòu)建了該神經(jīng)網(wǎng)絡(luò)架構(gòu).將上述處理的4 幅信息圖層堆疊起來(lái)組成狀態(tài)信息圖作為觀測(cè)值傳入卷積核為5×5的卷積層1和2,然后通過(guò)激活函數(shù)R eLU (線性整流函數(shù))將輸出傳入展平層,該層的目的是將多維的數(shù)據(jù)一維化.最后將平坦后的數(shù)據(jù)與無(wú)人機(jī)剩余飛行時(shí)間的標(biāo)量連接起來(lái)經(jīng)過(guò)3 個(gè)隱藏層后通過(guò)激活函數(shù) ReLU將數(shù)據(jù)傳入到一個(gè)動(dòng)作空間大小為6的全連接層,最后得到在給定觀測(cè)空間狀態(tài)下的每個(gè)動(dòng)作所對(duì)應(yīng)的Q值.

圖4 神經(jīng)網(wǎng)絡(luò)架構(gòu)

利用 Softmax激活函數(shù)對(duì)每個(gè)動(dòng)作的Q值處理轉(zhuǎn)換為相對(duì)概率P(ai|s),其中通過(guò)調(diào)節(jié)參數(shù) β來(lái)平衡無(wú)人機(jī)的探索與利用.

通過(guò)貪婪策略得到P(ai|s)中最大值的索引,其中,a∈A.

4 仿真分析

本節(jié)對(duì)所提方案進(jìn)行仿真與分析,且與傳統(tǒng)算進(jìn)行對(duì)照,最后驗(yàn)證了本文所提方案所具備的優(yōu)勢(shì).本文考慮了320 m×320 m的無(wú)人機(jī)搜索區(qū)域,無(wú)人機(jī)團(tuán)隊(duì)在所提方案的訓(xùn)練后在室內(nèi)搜救路徑規(guī)劃如圖5所示.

圖5 無(wú)人機(jī)團(tuán)隊(duì)搜救路徑

在該室內(nèi)區(qū)域隨機(jī)分布了9 位受害者,為達(dá)到較好搜救效果,本方案為其配備由3 臺(tái)無(wú)人機(jī)設(shè)備組成的搜救機(jī)群.無(wú)人機(jī)的起落位置,充電站都在圖5中藍(lán)色區(qū)域.將不同的受害者用不同顏色的小圓圈表示.所飛行的路徑軌跡由圖5中帶箭頭的線段表示,不同路徑顏色則代表此時(shí)的無(wú)人機(jī)正在搜集與本顏色所對(duì)應(yīng)受害者的位置信息.固定其飛行高度為10 m,飛行速度為1 m/s,考慮到飛行區(qū)域?yàn)槭覂?nèi)區(qū)域,設(shè)定路徑損耗參數(shù)αLOS=2.27,αNLOS=3.64.訓(xùn)練仿真參數(shù)由表1給出.

表1 仿真參數(shù)設(shè)置

相比于傳統(tǒng)方案,所提方案優(yōu)勢(shì)在于加入充電操作、引入多智能體、適用大狀態(tài)搜救場(chǎng)景3 方面,為驗(yàn)證3 方面所具備的優(yōu)勢(shì),分別使用所提方案與傳統(tǒng)的算法對(duì)本文場(chǎng)景進(jìn)行了無(wú)人機(jī)群的路徑規(guī)劃訓(xùn)練.經(jīng)過(guò)3 000 000 次的訓(xùn)練迭代,所提方案使得累計(jì)回報(bào)值得到顯著提升.

本文方案加入充電模塊,相比于未加入此模塊的傳統(tǒng)方案訓(xùn)練所得的累計(jì)回報(bào)對(duì)比如圖6所示.

圖6 兩種方案的訓(xùn)練回報(bào)對(duì)比

在圖6中,所提方案累計(jì)回報(bào)值增長(zhǎng)較快,最終達(dá)到收斂.可以明顯看出加入充電模塊的回報(bào)值明顯高于傳統(tǒng)方案.這種比較說(shuō)明了本文方案能夠快速的適應(yīng)搜救場(chǎng)景,且能高效的進(jìn)行輔助搜救,因此本文方案更加有效.

為說(shuō)明所提方案在大狀態(tài)環(huán)境的適用性,將本文室內(nèi)搜救場(chǎng)景下的受害者的數(shù)量以及部署的無(wú)人機(jī)集群規(guī)模進(jìn)行逐步增大,觀測(cè)其對(duì)于搜救率的影響.如圖7所示,隨著受害者人數(shù)的增加對(duì)同一規(guī)模集群其搜救率并沒(méi)有出現(xiàn)明顯的驟降,之所以出現(xiàn)下降趨勢(shì)是由于在整個(gè)搜救場(chǎng)景中受害者的位置被隨機(jī)的放置,受害者人數(shù)的增加導(dǎo)致無(wú)人機(jī)的碰撞概率增大最終導(dǎo)致無(wú)人機(jī)集群更加復(fù)雜的路徑規(guī)劃,因此使得搜救成功率有所下降.

圖7 所提方案對(duì)于大狀態(tài)環(huán)境下的搜救率

在圖7中,由2 臺(tái)無(wú)人機(jī)組成的集群搜救成功率明顯低于其他集群,主要原因是在大范圍與復(fù)雜的搜救場(chǎng)景中,2 臺(tái)無(wú)人集群缺乏搜索覆蓋能力,存在搜索盲區(qū)導(dǎo)致搜救率下降.如果采取由4 臺(tái)無(wú)人機(jī)組成的集群進(jìn)行搜救任務(wù),當(dāng)環(huán)境中存在4 位以下受害者時(shí)能達(dá)到最佳搜救效果,然而隨著受害者人數(shù)增加到5 位以上時(shí),搜救成功率明顯低于由3 臺(tái)無(wú)人機(jī)組成的搜救集群.這是因?yàn)榄h(huán)境中存在4 位以下受害者時(shí),由4 臺(tái)無(wú)人機(jī)組成的搜救集群具有較強(qiáng)的搜救覆蓋能力且不需要執(zhí)行復(fù)雜的路徑規(guī)劃,受害者人數(shù)增加到5 人以上時(shí),4 臺(tái)無(wú)人機(jī)集群雖具有較強(qiáng)的覆蓋能力,但在一定范圍的搜索環(huán)境下,無(wú)人機(jī)設(shè)備數(shù)量的增多以及受害者人數(shù)的上升勢(shì)必會(huì)導(dǎo)致復(fù)雜的路徑規(guī)劃,對(duì)于無(wú)人機(jī)之間的避免碰撞以及單程電池容量提出了巨大挑戰(zhàn).考慮到本文實(shí)際的模擬場(chǎng)景以及設(shè)備成本,最終選擇3 臺(tái)無(wú)人機(jī)作為搜救集群,并達(dá)到了最優(yōu)的搜救效果.

本文對(duì)隨機(jī)場(chǎng)景進(jìn)行了1 000 次蒙特卡洛迭代,所得性能指標(biāo)用于評(píng)估多智能體在搜救任務(wù)中的優(yōu)勢(shì),圖8可以明顯看出,在搜救場(chǎng)景中部署多臺(tái)無(wú)人機(jī)設(shè)備使得搜救成功率得到了顯著提高,傳統(tǒng)的單智能體方案在搜救區(qū)域增大時(shí)缺乏搜救覆蓋能力,如其經(jīng)常在某一個(gè)固定區(qū)域搜救然后直接返回著陸位置,造成其他區(qū)域位置的受害者無(wú)法得到救援,最終導(dǎo)致搜救能力下降.

圖8 多智能體與單智能體搜救率對(duì)比

5 總結(jié)

本文研究了無(wú)人機(jī)群協(xié)作進(jìn)行輔助搜救的問(wèn)題,搜救的區(qū)域是發(fā)生火災(zāi)的大型室內(nèi)場(chǎng)景.為提高無(wú)人機(jī)群的搜救能力本文引入了一種多智能體強(qiáng)化學(xué)習(xí)方案,該方案基于DDQN 算法來(lái)優(yōu)化無(wú)人機(jī)團(tuán)隊(duì)的飛行路徑,解決了無(wú)人機(jī)群在不確定環(huán)境下的搜救問(wèn)題,在搜救過(guò)程中無(wú)人機(jī)群受限于電池容量,所提方案又引入了充電模塊,從而最大程度的完成對(duì)受害者位置信息的搜集.除此之外,本文還詳細(xì)描述了將搜救的模型轉(zhuǎn)化為部分可觀的馬爾可夫決策的過(guò)程.對(duì)于未來(lái)的工作,無(wú)人機(jī)速度控制以及飛行高度的擴(kuò)展是重要的探索方向,這種擴(kuò)展可以使無(wú)人機(jī)團(tuán)隊(duì)適應(yīng)更為復(fù)雜的搜救場(chǎng)景.