亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于PER-PDDPG 的無人機(jī)路徑規(guī)劃研究

        2022-02-04 13:47:00黎思利王景志符小衛(wèi)
        無人系統(tǒng)技術(shù) 2022年6期
        關(guān)鍵詞:經(jīng)驗(yàn)環(huán)境

        喬 哲,黎思利,王景志,符小衛(wèi)

        (1. 西北工業(yè)大學(xué)電子信息學(xué)院,西安 710072;2. 航空工業(yè)沈陽飛機(jī)設(shè)計(jì)研究所體系部,沈陽 110035)

        1 引 言

        由于現(xiàn)代戰(zhàn)爭(zhēng)的作戰(zhàn)環(huán)境日益復(fù)雜,無人機(jī)作為一種新興飛行器,研究其相關(guān)技術(shù)對(duì)掌握作戰(zhàn)主動(dòng)權(quán)、提高作戰(zhàn)性能有著明顯的作用。其中,路徑規(guī)劃技術(shù)是無人機(jī)領(lǐng)域重要的研究方向之一。

        路徑規(guī)劃本質(zhì)上是一個(gè)最優(yōu)路徑搜索問題,需要找到一條從起點(diǎn)出發(fā)的、連續(xù)無碰撞的、能夠到達(dá)終點(diǎn)的路線。傳統(tǒng)路徑規(guī)劃算法如A*算法[1]、Dijkstra 算法[2]、協(xié)同粒子群算法[3]、遺傳算法[4]等更適合解決靜態(tài)路徑規(guī)劃問題。針對(duì)動(dòng)態(tài)環(huán)境,傳統(tǒng)控制方法與模糊控制方法需要涉及很多專家知識(shí),而基于神經(jīng)網(wǎng)絡(luò)的方法則需要外界提供大量樣本經(jīng)驗(yàn)。作為機(jī)器學(xué)習(xí)方法之一的強(qiáng)化學(xué)習(xí)能夠彌補(bǔ)上述算法的不足,其幾乎不需要專家知識(shí),且不需要外界提供的大量樣本。同時(shí),在動(dòng)態(tài)環(huán)境下,也具有優(yōu)秀的自適應(yīng)性能與學(xué)習(xí)能力。

        La 等[5]提出協(xié)作Q-learning 算法,將經(jīng)典一致性控制算法、人工勢(shì)場(chǎng)法與Q-learning 結(jié)合,使得機(jī)器人在連續(xù)空間中能夠躲避靜態(tài)障礙與捕食者,但文中強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的輸入是一致性控制算法的相關(guān)狀態(tài),而不是從環(huán)境中得到的真實(shí)狀態(tài)。香港中文大學(xué)的潘佳教授團(tuán)隊(duì)[6]提出了一種基于傳感器的避碰策略,將原始傳感器測(cè)量值直接映射到智能體的運(yùn)動(dòng)指令上。智能體可以根據(jù)環(huán)境信息對(duì)場(chǎng)景進(jìn)行建模、分類,從而采取不同的運(yùn)動(dòng)策略,但文中未考慮對(duì)動(dòng)態(tài)障礙物的避碰。王延祥等[7]將流體擾動(dòng)算法與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合,解決了現(xiàn)有的無人機(jī)路徑規(guī)劃方法難以兼顧路徑質(zhì)量和計(jì)算效率的問題,但此算法僅聚焦于單智能體,沒有考慮環(huán)境中有多個(gè)智能體存在的情況。Ryan 等提出了MADDPG 算法[8],為多無人機(jī)的航跡規(guī)劃問題提供了新的方向[9]。2019 年,Qie 等[10]通過采用MADDPG 算法實(shí)現(xiàn)了多無人機(jī)在二維平面的目標(biāo)分配與路徑規(guī)劃,但此時(shí)MADDPG 算法訓(xùn)練所需時(shí)間較長(zhǎng)。上述文獻(xiàn)均利用強(qiáng)化學(xué)習(xí)算法對(duì)單智能體和多智能體路徑規(guī)劃問題進(jìn)行研究,但并未對(duì)復(fù)雜環(huán)境中的路徑規(guī)劃考慮周全。

        通過上述分析,本文將基于深度強(qiáng)化學(xué)習(xí),使用優(yōu)先經(jīng)驗(yàn)回放機(jī)制改進(jìn)DDPG 網(wǎng)絡(luò)并設(shè)計(jì)單無人機(jī)基于優(yōu)先經(jīng)驗(yàn)回放的DDPG 算法(Deep Deterministic Policy Gradient based Prioritized Experience Replay,PER-DDPG),隨后引入經(jīng)驗(yàn)共享機(jī)制將PER-DDPG 并行拓展到多無人機(jī)中,設(shè)計(jì)基于優(yōu)先經(jīng)驗(yàn)回放的并行 DDPG 算法(Parallel Deep Deterministic Policy Gradient based on Prioritized Experience Replay,PERPDDPG),讓所有無人機(jī)使用共享的經(jīng)驗(yàn)池和網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),實(shí)現(xiàn)多無人機(jī)在未知復(fù)雜環(huán)境中的路徑規(guī)劃。

        2 問題描述與分析

        2.1 未知復(fù)雜環(huán)境下的多無人機(jī)路徑規(guī)劃問題

        本文描述的未知復(fù)雜環(huán)境是封閉的有邊界的空域范圍。在這個(gè)環(huán)境中,有靜態(tài)障礙,如山丘、建筑等;也有動(dòng)態(tài)障礙,如鳥禽等。無人機(jī)在未知復(fù)雜環(huán)境中的路徑規(guī)劃任務(wù)場(chǎng)景如圖1 所示。

        圖1 多無人機(jī)路徑規(guī)劃場(chǎng)景Fig. 1 Scenario of multiple UAVs path planning

        由于戰(zhàn)場(chǎng)環(huán)境的多樣性和不可預(yù)測(cè)性,無人機(jī)執(zhí)行實(shí)際任務(wù)時(shí)無法獲取所有環(huán)境信息,因此無人機(jī)在運(yùn)動(dòng)時(shí)除目標(biāo)點(diǎn)信息已知外,只能通過機(jī)載雷達(dá)檢測(cè)到其他物體相對(duì)于本機(jī)的位置信息,并不知道環(huán)境中其他物體的運(yùn)動(dòng)意圖和決策策略,其觀測(cè)獲得的信息僅是全局信息的一部分。

        2.2 無人機(jī)運(yùn)動(dòng)學(xué)模型

        由于多無人機(jī)任務(wù)決策問題本身就具有高維度、高復(fù)雜性的特點(diǎn),為簡(jiǎn)化研究問題,本文假設(shè)多無人機(jī)為同構(gòu)機(jī)型,具有相同的物理特性,并且在研究過程中不考慮無人機(jī)的形狀大小等物理特性,將無人機(jī)簡(jiǎn)化為質(zhì)點(diǎn)運(yùn)動(dòng)。無人機(jī)二維運(yùn)動(dòng)學(xué)模型如圖2 所示,無人機(jī)位置為(x,y),速度為v,航向角為ψ,雷達(dá)探測(cè)距離為R,雷達(dá)探測(cè)范圍為60°。

        圖2 無人機(jī)二維運(yùn)動(dòng)學(xué)模型Fig. 2 2D Kinematics model of UAV

        無人機(jī)質(zhì)點(diǎn)在二維空間的簡(jiǎn)化運(yùn)動(dòng)模型定義為

        模型簡(jiǎn)化后,控制向量簡(jiǎn)化為加速度a、角速度ω兩個(gè)動(dòng)作向量。無人機(jī)的運(yùn)動(dòng)控制變量約束為

        式中,amax是無人機(jī)的最大加速度,vmax是無人機(jī)的最大速度,ωmax是無人機(jī)的最大角速度,其計(jì)算方程為

        式中,TΔ 為仿真的時(shí)間步長(zhǎng),r為轉(zhuǎn)彎半徑,rmin為最小轉(zhuǎn)彎半徑,ψΔ 為TΔ 時(shí)間內(nèi)的航向角最大轉(zhuǎn)彎角,nmax為無人機(jī)的最大側(cè)向過載,g為重力加速度。因此,最大角速度為

        無人機(jī)初始狀態(tài)為

        2.3 匈牙利算法

        經(jīng)典匈牙利算法是Kuhn 利用匈牙利數(shù)學(xué)家Koning 針對(duì)矩陣中獨(dú)立零元素定理提出的用于解決指派問題的優(yōu)化方法。本文使用該方法從初始的多個(gè)目標(biāo)中為每個(gè)無人機(jī)分配其對(duì)應(yīng)的目標(biāo)點(diǎn)。

        該方法的理論基礎(chǔ)是:在代價(jià)矩陣的任意行或列加上或者減去一個(gè)常數(shù)不會(huì)改變最優(yōu)分配方案。其基本思想是通過每行或每列加減同一個(gè)常數(shù)來修改代價(jià)矩陣,直到代價(jià)矩陣不同行不同列至少有一個(gè)零元素。此時(shí),零元素就對(duì)應(yīng)了一個(gè)總效益最小的最優(yōu)分配方案。

        經(jīng)典匈牙利算法的基本步驟如下:

        步驟 1:建立資源分配問題的代價(jià)矩陣M0(m×n);

        步驟2:從效益矩陣M0每行中減去該行最小的元素,使得每行都有一個(gè)零元素,得到M1;

        步驟3:從M1每列中減去該列最小的元素,使得每列都有一個(gè)零元素,得到M2;

        步驟4:用最少的直線覆蓋M2(僅包含橫線和豎線,不包含斜線)中的零元素得到M3,如果最少直線的數(shù)量等于m,轉(zhuǎn)入步驟6,否則轉(zhuǎn)入步驟5;

        步驟5:矩陣M3中所有末被直線覆蓋的元素減去末被覆蓋元素中最小的元素,同時(shí)在直線相交點(diǎn)加上該最小元素得到M4,令M2=M4,轉(zhuǎn)步驟4;

        步驟6:從零元素最少的行或列開始指派,直到所有任務(wù)都指派完畢,得到最優(yōu)指派方案P。

        上述步驟是按照假定m=n進(jìn)行的,即認(rèn)為效益矩陣M0是一個(gè)方陣。但在實(shí)際問題中,任務(wù)數(shù)與人數(shù)不一定完全相等。針對(duì)任務(wù)數(shù)與人數(shù)不相等的情況,一般的處理方式是增加虛擬人或虛擬任務(wù),即對(duì)效益矩陣進(jìn)行加零補(bǔ)邊處理,然后再按照上述步驟進(jìn)行任務(wù)指派。

        在本文中,目標(biāo)點(diǎn)的數(shù)量等于無人機(jī)的數(shù)量,即m=n。在路徑規(guī)劃前,會(huì)使用經(jīng)典匈牙利算法先根據(jù)無人機(jī)在目標(biāo)點(diǎn)執(zhí)行任務(wù)的代價(jià)矩陣,對(duì)多個(gè)目標(biāo)點(diǎn)預(yù)先分配給不同的無人機(jī)。

        2.4 單無人機(jī)PER-DDPG 算法

        Lillicrap 等[11]在Actor-Critic 框架上,引入DQN 的經(jīng)驗(yàn)回放機(jī)制,對(duì)確定策略性梯度算法(Deterministic Policy Gradient,DPG)進(jìn)行改進(jìn),提出了深度確定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)。由于無人機(jī)控制量為連續(xù)值,因此選擇動(dòng)作空間為連續(xù)的DDPG 算法,設(shè)計(jì)單無人機(jī)路徑規(guī)劃算法。

        對(duì)于本文任務(wù)場(chǎng)景而言,由于動(dòng)作空間、狀態(tài)空間的連續(xù)性,任務(wù)場(chǎng)景構(gòu)成的樣本數(shù)量非常巨大,但是訓(xùn)練初期無人機(jī)成功避開障礙到達(dá)目標(biāo)點(diǎn)的數(shù)據(jù)很少,更多的是無人機(jī)與障礙物發(fā)生碰撞或毫無頭緒徘徊的數(shù)據(jù)。如果只使用隨機(jī)抽樣來選擇參加訓(xùn)練的數(shù)據(jù)樣本,會(huì)使無人機(jī)傾向于更多地學(xué)習(xí)如何避障,而關(guān)于飛往目標(biāo)點(diǎn)的學(xué)習(xí)則相對(duì)較慢。為了更加有效地利用數(shù)據(jù)樣本,本文引入優(yōu)先經(jīng)驗(yàn)回放機(jī)制對(duì)DDPG 算法進(jìn)行改進(jìn),設(shè)計(jì)單無人機(jī)基于優(yōu)先經(jīng)驗(yàn)回放的DDPG 算法(Deep Deterministic Policy Gradient based on Prioritized Experience Replay,PER-DDPG)。

        基于優(yōu)先級(jí)的經(jīng)驗(yàn)抽取方法最早由 Schaul等[12]提出,該方法提出的Prioritized Experience Replay 思想解決了如何從經(jīng)驗(yàn)池抽取高質(zhì)量經(jīng)驗(yàn)的問題。強(qiáng)化學(xué)習(xí)中,TD-error 表示當(dāng)前的Q值與目標(biāo)Q值的差距值。因此,可以將TD-error 定義為一個(gè)可以衡量樣本是否重要的指標(biāo)。D-error,即tδ的具體計(jì)算為

        式中,如果tδ較大,則說明這個(gè)樣本預(yù)測(cè)的準(zhǔn)確性有待提高,需要提高這個(gè)樣本的優(yōu)先級(jí),從而有更多的機(jī)會(huì)去學(xué)習(xí)它;如果tδ較小,則說明這個(gè)樣本的優(yōu)先級(jí)會(huì)被降低。

        設(shè)定經(jīng)驗(yàn)樣本的采樣概率為

        式中,jP是以TD-error 為標(biāo)準(zhǔn)的優(yōu)先級(jí)指標(biāo),α為優(yōu)先度調(diào)節(jié)參數(shù),確保每一個(gè)經(jīng)驗(yàn)都有機(jī)會(huì)被選擇、被至少放入網(wǎng)絡(luò)中參與一次訓(xùn)練。當(dāng)α=1時(shí),說明網(wǎng)絡(luò)使用原始TD-error 計(jì)算優(yōu)先級(jí);當(dāng)α= 0時(shí),使用隨機(jī)采樣的方式對(duì)樣本進(jìn)行抽樣,此時(shí)每個(gè)樣本的優(yōu)先級(jí)變?yōu)?/p>

        式中,rank(j)為第j個(gè)樣本在全體樣本中所在位次,按照每個(gè)樣本的由大到小排序。

        智能體傾向于更新高TD-error 的經(jīng)驗(yàn)樣本改變了原本的概率分布,模型引入了誤差,可能導(dǎo)致神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)無法收斂。因此在計(jì)算權(quán)重變化時(shí)使用重要性采樣來修正誤差

        式中,M為經(jīng)驗(yàn)回放池?cái)?shù)量,參數(shù)β為修正誤差的程度。將與環(huán)境交互的數(shù)據(jù)根據(jù)上述排序就能區(qū)分經(jīng)驗(yàn)樣本的重要程度,大幅提高經(jīng)驗(yàn)樣本的學(xué)習(xí)效率。

        因此,PER-DDPG 網(wǎng)絡(luò)結(jié)構(gòu)[13]如圖3 所示。

        圖3 PER-DDPG 網(wǎng)絡(luò)結(jié)構(gòu)Fig. 3 PER-DDPG structure

        2.5 多無人機(jī)PER-PDDPG 算法

        一般來說,多智能體深度強(qiáng)化學(xué)習(xí)根據(jù)智能體之間通聯(lián)方式的不同將多智能體深度強(qiáng)化學(xué)習(xí)分為如下4 類:無關(guān)聯(lián)型、通信學(xué)習(xí)型、協(xié)作學(xué)習(xí)型和建模學(xué)習(xí)型[14-15]。其中,無關(guān)聯(lián)型算法并不是提出了一個(gè)完全新的學(xué)習(xí)算法,它們主要是分析和評(píng)估單智能體算法在多智能體場(chǎng)景中的應(yīng)用情況,每個(gè)智能體獨(dú)自與環(huán)境交互、學(xué)習(xí),不與其他的智能體產(chǎn)生通信聯(lián)系[11]。盡管此算法忽略多智能體的場(chǎng)景特性會(huì)導(dǎo)致學(xué)習(xí)失敗,但該方法能夠靈活用于智能體數(shù)量多變的場(chǎng)景,實(shí)際應(yīng)用中也取得了較好的訓(xùn)練效果。

        因此,本文借鑒無關(guān)聯(lián)型多智能體強(qiáng)化學(xué)習(xí)思想,引入經(jīng)驗(yàn)共享機(jī)制,設(shè)計(jì)一種集中式訓(xùn)練、分布式執(zhí)行的算法來解決多無人機(jī)路徑規(guī)劃問題,稱之為基于優(yōu)先經(jīng)驗(yàn)回放的并行DDPG 算法(Parallel Deep Deterministic Policy Gradient based on Prioritized Experience Replay,PERPDDPG)。PER-PDDPG 算法將PER-DDPG 網(wǎng)絡(luò)并行擴(kuò)展到多無人機(jī)場(chǎng)景中,每架無人機(jī)把各自觀測(cè)到的狀態(tài)存入同一經(jīng)驗(yàn)池中進(jìn)行共享,使用同一個(gè)PER-DDPG 網(wǎng)絡(luò),即同一Actor 策略網(wǎng)絡(luò)與Critic 評(píng)價(jià)網(wǎng)絡(luò)進(jìn)行集中式學(xué)習(xí)、訓(xùn)練,再根據(jù)各無人機(jī)當(dāng)前狀態(tài)各自選擇動(dòng)作執(zhí)行。

        所有的無人機(jī)基于相同的策略網(wǎng)絡(luò),將自身的觀測(cè)數(shù)據(jù)、目標(biāo)點(diǎn)、與其最近的無人機(jī)的相關(guān)信息等組成的狀態(tài)s輸入到Actor 網(wǎng)絡(luò)中,得到控制指令a并執(zhí)行,到達(dá)新的狀態(tài)s',從環(huán)境中得到相應(yīng)的回報(bào)r,并將該條經(jīng)驗(yàn)(s,a,r,s')存入所有無人機(jī)共享的經(jīng)驗(yàn)池中。訓(xùn)練時(shí),從共享經(jīng)驗(yàn)池中按照優(yōu)先經(jīng)驗(yàn)回放機(jī)制優(yōu)先抽取一批數(shù)據(jù)樣本,結(jié)合共享的目標(biāo)網(wǎng)絡(luò)Critic 網(wǎng)絡(luò)來更新實(shí)時(shí)的策略和評(píng)價(jià)網(wǎng)絡(luò)。網(wǎng)絡(luò)參數(shù)更新方式同樣為軟更新。具體網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。

        圖4 PER-PDDPG 網(wǎng)絡(luò)結(jié)構(gòu)Fig. 4 PER-PDDPG structure

        相比于單無人機(jī)算法,PER-PDDPG 使用多無人機(jī)并行的方式加速探索,能更快更廣地探索狀態(tài)空間,豐富了經(jīng)驗(yàn)池的多樣性。

        3 基于PER-PDDPG 的無人機(jī)路徑規(guī)劃算法

        3.1 狀態(tài)空間

        設(shè)定無人機(jī)攜帶機(jī)載GPS 設(shè)備和陀螺儀,可以獲得自身的位置信息和速度信息,即ξ=[x,y,v,ψ];攜帶激光雷達(dá)傳感器能獲得周圍環(huán)境信息,在雷達(dá)探測(cè)范圍內(nèi)遇到障礙物時(shí),激光被阻擋,障礙物后方就探測(cè)不到,每條射線都會(huì)返回一個(gè)距離值。雷達(dá)半徑的參數(shù)設(shè)置以無人機(jī)機(jī)載激光雷達(dá)VUX-240 的探測(cè)距離為參考,具體參數(shù)設(shè)置如下:

        (1)雷達(dá)探測(cè)半徑為2 km;

        (2)雷達(dá)探測(cè)范圍為60°。

        若有障礙物阻擋,則返回被阻擋處與機(jī)載雷達(dá)的距離,否則將該值設(shè)置為雷達(dá)最大探測(cè)半徑值2 km。

        在多智能體系統(tǒng)中,智能體除了繞過障礙物外,還要避免與其他智能體發(fā)生碰撞。為了簡(jiǎn)化網(wǎng)絡(luò)結(jié)構(gòu),多無人機(jī)系統(tǒng)中的每架無人機(jī)將除本機(jī)以外的其他無人機(jī)視為環(huán)境中正在移動(dòng)的障礙物。

        本文選擇的狀態(tài)輸入包括3 部分。

        (1)無人機(jī)i機(jī)載雷達(dá)返回的觀測(cè)數(shù)據(jù):本文使用正前方60°范圍的雷達(dá)測(cè)量數(shù)據(jù),為了降低計(jì) 算 復(fù) 雜 度,將 此 范 圍 分 為 7 方 向 {di1,d i2,di3,di4,di5,di6,di7},即使用間隔10°的測(cè)量數(shù)據(jù)作為網(wǎng)絡(luò)輸入。得到無人機(jī)i坐標(biāo)系下的各角度障礙物分布情況后,對(duì)其進(jìn)行歸一化處理

        此外,傳感器的觀測(cè)數(shù)據(jù)中包含了與其最近一架無人機(jī)的信息(ρiu,θiu),ρiu表示無人機(jī)i探測(cè)到的與它最近的無人機(jī)的距離,表示無人機(jī)i航向與它最近的無人機(jī)所在方位的夾角。

        (2)無人機(jī)i自身當(dāng)前運(yùn)動(dòng)狀態(tài):(v i,ψi)∈A,其中vi和ψi分別表示無人機(jī)i當(dāng)前時(shí)刻的速度和航向角,前者歸一化至[ 0,1] ,后者歸一化至[ -1 ,1]。

        (3)目標(biāo)點(diǎn)信息:由于不存在全局的地圖信息,目標(biāo)點(diǎn)信息以無人機(jī)極坐標(biāo)系形式給出,ρit表示目標(biāo)點(diǎn)到無人機(jī)的距離,單位為km;θit表示無人機(jī)航向與目標(biāo)點(diǎn)所在方位的夾角,如圖5所示。其中,距離信息ρit將根據(jù)雷達(dá)探測(cè)范圍被歸一化,實(shí)際輸入到網(wǎng)絡(luò)中的是ρit/2。而角度信息則歸一化至[ -1 ,1],目標(biāo)點(diǎn)在無人機(jī)左側(cè)時(shí)夾角θ

        圖5 多無人機(jī)場(chǎng)景Fig. 5 Scenario of multiple UAVs

        it取正,在無人機(jī)右側(cè)則取為負(fù)。

        無人機(jī)狀態(tài)輸入是大小為13 的向量,如下

        3.2 動(dòng)作空間

        固定翼無人機(jī)的機(jī)動(dòng)決策是通過選擇合適的加速度和角速度然后執(zhí)行TΔ 時(shí)間,達(dá)到無人機(jī)的期望速度和期望航向角。如公式(1),無人機(jī)i的控制輸入為一個(gè)二維向量,即動(dòng)作空間

        式中,ia表示無人機(jī)i的加速度,iω表示無人機(jī)i的角速度,滿足約束公式(2)。

        其具體的速度大小范圍設(shè)定參照CW-10 型號(hào)的固定翼無人機(jī),設(shè)定為[10 m/s, 20 m/s]。

        無人機(jī)的決策過程:在環(huán)境運(yùn)行的每一個(gè)時(shí)間步長(zhǎng),算法輸入公式(16)定義的狀態(tài),輸出公式(17)的二維動(dòng)作向量。

        3.3 狀態(tài)轉(zhuǎn)移函數(shù)

        無人機(jī)根據(jù)當(dāng)前狀態(tài),決策出機(jī)動(dòng)動(dòng)作后,環(huán)境的狀態(tài)將會(huì)發(fā)生改變,變?yōu)橄乱粫r(shí)刻狀態(tài)。環(huán)境的狀態(tài)就是無人機(jī)與目標(biāo)點(diǎn)、障礙物之間的關(guān)系,包括位置和速度信息,因此狀態(tài)轉(zhuǎn)移函數(shù)就是無人機(jī)的運(yùn)動(dòng)狀態(tài)轉(zhuǎn)移方程,即

        3.4 獎(jiǎng)勵(lì)函數(shù)

        為了提高樣本效率,加快收斂學(xué)習(xí)速度,本文獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)采用稀疏獎(jiǎng)勵(lì)[16-17]和引導(dǎo)型回報(bào)函數(shù)相結(jié)合的方式。

        設(shè)計(jì)到達(dá)獎(jiǎng)勵(lì)rarrive,當(dāng)無人機(jī)與目標(biāo)點(diǎn)的距離小于閾值dgoal,即認(rèn)為到達(dá)目標(biāo)點(diǎn),給予一個(gè)正向獎(jiǎng)勵(lì)。設(shè)計(jì)碰撞懲罰rcollision,當(dāng)雷達(dá)探測(cè)反饋的最小距離小于安全閾值時(shí),則認(rèn)為無人機(jī)在環(huán)境中發(fā)生碰撞,給予碰撞行為負(fù)面懲罰。設(shè)計(jì)危險(xiǎn)懲罰rdanger,當(dāng)無人機(jī)靠近障礙物時(shí)給予懲罰

        對(duì)于每架無人機(jī)而言,環(huán)境中存在“移動(dòng)障礙物”,環(huán)境不是特別穩(wěn)定,所以訓(xùn)練的難度和不穩(wěn)定性會(huì)增強(qiáng)。為了實(shí)現(xiàn)全局的目標(biāo),每架無人機(jī)的獎(jiǎng)勵(lì)函數(shù)中應(yīng)加入與整體任務(wù)完成情況相關(guān)的獎(jiǎng)懲指標(biāo)。

        此外,即使每架無人機(jī)自身不動(dòng),在未得到最優(yōu)策略時(shí),別的無人機(jī)也有幾率迎面撞上來,或者出現(xiàn)雙方速度過快來不及反應(yīng)就發(fā)生碰撞的情況,因此多無人機(jī)系統(tǒng)的避障難度和要求相比于單無人機(jī)系統(tǒng)會(huì)更高。為了加強(qiáng)無人機(jī)避障能力的訓(xùn)練,本文設(shè)置每回合的重置機(jī)制如下:

        (1)單架無人機(jī)到達(dá)其指定目標(biāo)點(diǎn)后,環(huán)境不會(huì)被重置,因?yàn)槠渌麩o人機(jī)仍未完成任務(wù)。在所有無人機(jī)都完成任務(wù)之前,該架無人機(jī)將持續(xù)使用其完成任務(wù)時(shí)刻的狀態(tài)作為網(wǎng)絡(luò)輸入,以主動(dòng)增加順利到達(dá)目標(biāo)點(diǎn)的數(shù)據(jù)樣本供其他無人機(jī)學(xué)習(xí)。只有全部無人機(jī)均完成任務(wù),才能將本次回合視為一個(gè)成功回合。

        每回合結(jié)束情形如圖6 所示。

        圖6 多無人機(jī)場(chǎng)景訓(xùn)練回合結(jié)束情形Fig. 6 End of the training round in the multiple UAVs scene

        綜上所述,每架無人機(jī)以及無人機(jī)編隊(duì)總體的單步獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)為

        式中,ra是到達(dá)獎(jiǎng)勵(lì);rb和rc是引導(dǎo)無人機(jī)朝向目標(biāo)點(diǎn)飛行的引導(dǎo)獎(jiǎng)勵(lì),r b代表無人機(jī)從t-1 時(shí)刻到t時(shí)刻通過與目標(biāo)距離的變化獲得的獎(jiǎng)勵(lì),rc代表無人機(jī)從t-1 時(shí)刻到t時(shí)刻通過速度方向與目標(biāo)夾角的變化獲得的獎(jiǎng)勵(lì),1c和c2都是常數(shù),tiρ代表無人機(jī)i在t時(shí)刻與目標(biāo)的距離,θit代表無人機(jī)i在t時(shí)刻速度方向與目標(biāo)方向的夾角;rcollision是無人機(jī)發(fā)生碰撞時(shí)獲得的懲罰值;rdanger是對(duì)無人機(jī)過于靠近障礙物的懲罰;常數(shù)C是一個(gè)很小的負(fù)值,用于促使無人機(jī)能使用較少的步數(shù)盡快到達(dá)目標(biāo)點(diǎn);rtotal為無人機(jī)編隊(duì)的獎(jiǎng)勵(lì)值,為其下屬各無人機(jī)的獎(jiǎng)勵(lì)均值。

        式(15)中具體的參數(shù)取值如表1 所示。

        表1 仿真獎(jiǎng)勵(lì)參數(shù)設(shè)計(jì)Table 1 Design of simulation reward parameter

        每輪訓(xùn)練無人機(jī)編隊(duì)總體的獎(jiǎng)勵(lì)R設(shè)計(jì)如下:

        式中,r代表第i步無人機(jī)編隊(duì)的獎(jiǎng)勵(lì)值,n為該輪次下無人機(jī)編隊(duì)的總步數(shù)。

        3.5 PER-PDDPG 算法流程

        在多無人機(jī)場(chǎng)景下,為簡(jiǎn)化任務(wù),本文設(shè)置與無人機(jī)數(shù)量相同的目標(biāo)點(diǎn)。本章中使用匈牙利分配算法[18],按照第2.3 節(jié)中的算法步驟,根據(jù)不同無人機(jī)在不同目標(biāo)點(diǎn)執(zhí)行任務(wù)的代價(jià)矩陣,對(duì)多個(gè)目標(biāo)點(diǎn)進(jìn)行預(yù)先分配。基于PER-PDDPG的多無人機(jī)路徑規(guī)劃算法流程如表2 所示。

        表2 PER-PDDPG 算法Table 2 PER-PDDPG algorithm

        當(dāng)算法開始執(zhí)行時(shí),評(píng)價(jià)網(wǎng)絡(luò)Q(s,a|θQ)和策略網(wǎng)絡(luò)μ(s|θμ)的參數(shù)θQ和θμ將被隨機(jī)初始化。初始化完成后,參數(shù)將被同時(shí)拷貝到對(duì)應(yīng)的目標(biāo)網(wǎng)絡(luò)中,隨后初始化經(jīng)驗(yàn)池D。算法最多被執(zhí)行Max_Episode個(gè)回合,每個(gè)回合最多與環(huán)境有Max_Step步的互動(dòng)和學(xué)習(xí)。在每個(gè)回合開始時(shí),環(huán)境以及用于動(dòng)作探索的噪聲函數(shù)將被初始化。

        在每一步的互動(dòng)中,算法會(huì)首先通過策略網(wǎng)絡(luò)μ(s|θμ),根據(jù)每個(gè)無人機(jī)的觀測(cè)狀態(tài)量以及噪聲函數(shù)確定在這一時(shí)刻該無人機(jī)的動(dòng)作akt。在獲得了所有無人機(jī)的動(dòng)作后,確認(rèn)下一時(shí)刻的環(huán)境狀態(tài),獲取每個(gè)無人機(jī)在該環(huán)境下的狀態(tài)觀測(cè)量Sk(t+1 )以及執(zhí)行動(dòng)作akt的回報(bào)獎(jiǎng)勵(lì)值rkt。然后將交互樣本(sk t,a kt,rk t,sk(t+1))存放到經(jīng)驗(yàn)池D中,并設(shè)置其優(yōu)先級(jí)Pt= maxPi。

        完成上述過程后,如果經(jīng)驗(yàn)池中的樣本數(shù)量達(dá)到batch_size個(gè),則根據(jù)樣本權(quán)重從經(jīng)驗(yàn)池中隨機(jī)抽取batch_size個(gè)樣本,計(jì)算其對(duì)應(yīng)的重要性采樣權(quán)重和TD_error,并根據(jù)TD_error 更新樣本優(yōu)先級(jí)。然后利用抽取的樣本計(jì)算目標(biāo)Q值,通過最小化TD 偏差來更新評(píng)價(jià)網(wǎng)絡(luò),并根據(jù)小批量樣本計(jì)算得到的策略梯度更新策略網(wǎng)絡(luò)。如果當(dāng)前訓(xùn)練次數(shù)為10 的倍數(shù),則軟更新兩個(gè)目標(biāo)網(wǎng)絡(luò)中的參數(shù)。然后進(jìn)入與環(huán)境交互的下一步,重復(fù)互動(dòng)和學(xué)習(xí)的過程,直至該回合結(jié)束。

        重復(fù)上述每個(gè)回合的運(yùn)行過程,直至回合數(shù)達(dá)到Max_Episode,訓(xùn)練完成。

        4 仿真結(jié)果及分析

        4.1 實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置

        實(shí)驗(yàn)中設(shè)置優(yōu)先經(jīng)驗(yàn)回放參數(shù)α=0.6,β= 0.4,經(jīng)驗(yàn)回放池大小為30000,小批樣采樣數(shù)據(jù)個(gè)數(shù)為32;設(shè)置OU 探索噪聲參數(shù)θ=0.2,σ= 0.15,γdecay= 100;設(shè)置最大回合數(shù)為1000~5000,每回合時(shí)間步長(zhǎng)ΔT= 1s,每回合最大步數(shù)為3000,學(xué)習(xí)率為0.001,折扣因子為0.9,目標(biāo)網(wǎng)絡(luò)的更新率τ=0.01,使用Adam Op timizer優(yōu)化器更新神經(jīng)網(wǎng)絡(luò)參數(shù)。無人機(jī)的運(yùn)動(dòng)性能參數(shù)參考了固定翼無人機(jī)CW-10 的性能參數(shù),仿真環(huán)境初始參數(shù)如表3 所示。

        表3 多無人機(jī)仿真環(huán)境初始參數(shù)Table 3 Initial parameters of simulation

        4.2 訓(xùn)練過程

        訓(xùn)練場(chǎng)景采用圖6 設(shè)定,在障礙物數(shù)量為4的場(chǎng)景中分別訓(xùn)練2~6 架無人機(jī)。每回合開始時(shí),重置隨機(jī)的無人機(jī)位置、速度、航向角,重新隨機(jī)設(shè)置障礙物的位置、半徑,并且障礙物之間不發(fā)生重疊,重新隨機(jī)設(shè)置目標(biāo)點(diǎn)位置。每回合遵照Algorithm1 流程,當(dāng)經(jīng)驗(yàn)池充滿時(shí)開始訓(xùn)練,經(jīng)驗(yàn)池為充滿則采用加入OU 噪聲的策略機(jī)動(dòng)。同時(shí),為了觀測(cè)PER-PDDPG 算法的收斂性和學(xué)習(xí)有效性,采用平均獎(jiǎng)勵(lì)指標(biāo)對(duì)算法進(jìn)行評(píng)價(jià)。訓(xùn)練得到的獎(jiǎng)勵(lì)函數(shù)曲線如圖7 所示。

        圖7 PER-PDDPG 不同數(shù)量無人機(jī)得到的獎(jiǎng)勵(lì)曲線對(duì)比Fig. 7 Comparison of reward curves obtained by PERPDDPG with different numbers of UAVs

        由獎(jiǎng)勵(lì)曲線對(duì)比圖可見,在4 個(gè)障礙物場(chǎng)景下,隨著迭代次數(shù)的增加,無人機(jī)獲得總獎(jiǎng)勵(lì)的平均值逐漸上升然后趨于穩(wěn)定,網(wǎng)絡(luò)訓(xùn)練收斂時(shí)間約在1100 回合,這個(gè)值也是算法訓(xùn)練過程中想要最大化的評(píng)價(jià)指標(biāo),平均獎(jiǎng)勵(lì)值趨于穩(wěn)定表示算法的模型在訓(xùn)練過程中也趨于收斂。隨著無人機(jī)數(shù)目的增多,訓(xùn)練收斂至穩(wěn)定的所需時(shí)間均逐漸減小,驗(yàn)證了多架無人機(jī)通過共享經(jīng)驗(yàn)池和兩個(gè)訓(xùn)練網(wǎng)絡(luò)可以更快地探索到環(huán)境中更多的狀態(tài),縮短訓(xùn)練所需時(shí)間。比較特殊的是代表2 架無人機(jī)網(wǎng)絡(luò)的藍(lán)色曲線,它的平均獎(jiǎng)勵(lì)值上升的時(shí)間和速度比3、4、5 架無人機(jī)網(wǎng)絡(luò)都要快,且最后收斂到的平均值比其他無人機(jī)網(wǎng)絡(luò)更高,這說明2 架無人機(jī)訓(xùn)練時(shí)對(duì)單架無人機(jī)而言環(huán)境更為簡(jiǎn)單,它的決策所面臨的復(fù)雜度更低,使得收斂的平均獎(jiǎng)勵(lì)值相對(duì)更高。

        4.3 驗(yàn)證過程

        為了評(píng)估算法的訓(xùn)練效果,使用訓(xùn)練好的2架無人機(jī)的PER-PDDPG 網(wǎng)絡(luò)在障礙物數(shù)量為4、6 的環(huán)境中進(jìn)行仿真測(cè)試,接著在這個(gè)網(wǎng)絡(luò)中設(shè)置無人機(jī)數(shù)量為3、4、5、6 后再分別進(jìn)行10000次蒙特卡羅測(cè)試。測(cè)試的仿真參數(shù)與訓(xùn)練時(shí)的參數(shù)設(shè)置相同,測(cè)試的數(shù)據(jù)結(jié)果如表4 所示??梢钥闯?,該網(wǎng)絡(luò)使用2 架無人機(jī)進(jìn)行測(cè)試時(shí)任務(wù)完成率最高,隨著障礙物數(shù)量增多,成功率逐漸減小,但是成功率降低范圍在3%以內(nèi),綜合而言還是有較高成功率。

        表4 使用2 架無人機(jī)網(wǎng)絡(luò)在不同障礙物數(shù)量及不同無人機(jī)數(shù)量場(chǎng)景中測(cè)試任務(wù)成功率Table 4 Use 2 UAV networks to test the mission success rate in scenarios with different numbers of obstacles and different numbers of UAVs

        為了驗(yàn)證算法效果,采用4 架無人機(jī)訓(xùn)練的PER-PDDPG 網(wǎng)絡(luò)設(shè)置4 架無人機(jī)分別在障礙物數(shù)量為4、6 的場(chǎng)景中仿真,測(cè)試該網(wǎng)絡(luò)在指定場(chǎng)景中的任務(wù)完成情況。坐標(biāo)系建立以第一架無人機(jī)的出發(fā)點(diǎn)為原點(diǎn),水平向右為y軸正向,豎直向下為x軸正向。4 架無人機(jī)分別從(0,0)(1 km,0)、(0.5 km, 0.5 km)、(1 km,1 km)出發(fā),初始速度均為(15 m/s),初始航向角均為0.25π,機(jī)載雷達(dá)探測(cè)半徑為2 km,探測(cè)范圍為60°;4 個(gè)目標(biāo)點(diǎn)坐標(biāo)分別為(35 km, 35 km)、(37.5 km, 37.5 km)(40 km, 35 km)、(40 km, 30 km);其余相關(guān)參數(shù)范圍如表2 所示。

        4 障礙物場(chǎng)景下,在大小為[ 0,50 ] ×[ 0,50 ] km2的任務(wù)區(qū)內(nèi)設(shè)置障礙物,設(shè)置障礙物坐標(biāo)為(15 km, 30 km)、(20 km, 15 km)、(40 km, 20 km)、(30 km, 5 km),半徑分別為4 km、5 km、6 km、5 km,得到的各無人機(jī)航跡和本機(jī)信息如圖 8所示。

        圖8 4 架無人機(jī)在4 個(gè)障礙物場(chǎng)景中的航跡及測(cè)試結(jié)果Fig. 8 Track and test results of 4 UAVs in 4 obstacle environments

        6 障礙物場(chǎng)景下增加兩個(gè)坐標(biāo)分別為(35 km,30 km)、(5 km, 25 km),半徑分別為2 km、3 km的障礙物,得到的各無人機(jī)航跡和本機(jī)信息如圖9 所示。

        圖9 4 架無人機(jī)在6 個(gè)障礙物場(chǎng)景中的航跡及測(cè)試結(jié)果Fig. 9 Track and test results of 4 UAVs in 5 obstacle environments

        綜合圖9~10 可以看出,在探測(cè)到障礙物時(shí),無人機(jī)做出轉(zhuǎn)彎避讓決策,與最近一個(gè)障礙物距離均大于危險(xiǎn)距離,成功避開障礙物后,及時(shí)調(diào)整航向,使得無人機(jī)盡量以最小夾角接近目標(biāo)點(diǎn),規(guī)劃出相對(duì)短的安全路徑,減少飛行所需時(shí)間。并且訓(xùn)練得到的模型可以靈活調(diào)整系統(tǒng)中智能體的數(shù)量和環(huán)境中的障礙物數(shù)量,而不會(huì)對(duì)訓(xùn)練的收斂性有大的影響,體現(xiàn)了算法極強(qiáng)的泛化性和魯棒性。

        為了評(píng)估本文提出的算法相對(duì)與傳統(tǒng)的多智能體強(qiáng)化學(xué)習(xí)算法的效果,選擇用經(jīng)典的深度強(qiáng)化學(xué)習(xí)算法 DDPG 在多智能體上的延拓方法PDDPG 來與本文提出算法進(jìn)行對(duì)比,通過比較兩者的獎(jiǎng)勵(lì)曲線變化情況來說明優(yōu)劣程度。對(duì)比訓(xùn)練過程中,仿真場(chǎng)景初始參數(shù)設(shè)置如表3 所示,無人機(jī)數(shù)量設(shè)置為4。

        從圖10 可明顯看出,本文提出的PER-PDDPG算法的收斂速度快于PDDPG 算法。并且當(dāng)算法收斂時(shí),PER-PDDPG 算法所獲得的獎(jiǎng)勵(lì)明顯比PDDPG 算法更高。

        圖10 兩種算法的獎(jiǎng)勵(lì)曲線對(duì)比Fig. 10 Reward curves of the two algorithms

        5 結(jié) 論

        本文主要以無人機(jī)路徑規(guī)劃為研究背景,基于深度強(qiáng)化學(xué)習(xí)對(duì)單無人機(jī)路徑規(guī)劃與多無人機(jī)路徑規(guī)劃問題特點(diǎn)進(jìn)行了詳細(xì)分析、研究。針對(duì)無人機(jī)連續(xù)動(dòng)作空間特點(diǎn),引入優(yōu)先經(jīng)驗(yàn)回放機(jī)制設(shè)計(jì)單無人機(jī)PER-DDPG 網(wǎng)絡(luò),結(jié)合分布式獨(dú)立強(qiáng)化學(xué)習(xí)與集中式強(qiáng)化學(xué)習(xí)將單無人機(jī)路徑規(guī)劃算法網(wǎng)絡(luò)做并行化拓展,得到多無人機(jī)PERPDDPG 算法。最終仿真結(jié)果表明,PER-PDDPG算法可以加快對(duì)環(huán)境的采樣速度,縮短多無人機(jī)網(wǎng)絡(luò)訓(xùn)練所需時(shí)間,能夠規(guī)劃出相對(duì)更短的安全到達(dá)指點(diǎn)目標(biāo)點(diǎn)的路徑,并且可以自由增減無人機(jī)數(shù)量,適用于無人機(jī)數(shù)量較多或數(shù)量經(jīng)常變化的場(chǎng)景。

        猜你喜歡
        經(jīng)驗(yàn)環(huán)境
        2021年第20期“最值得推廣的經(jīng)驗(yàn)”評(píng)選
        黨課參考(2021年20期)2021-11-04 09:39:46
        長(zhǎng)期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
        一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
        孕期遠(yuǎn)離容易致畸的環(huán)境
        不能改變環(huán)境,那就改變心境
        經(jīng)驗(yàn)
        環(huán)境
        2018年第20期“最值得推廣的經(jīng)驗(yàn)”評(píng)選
        黨課參考(2018年20期)2018-11-09 08:52:36
        孕期遠(yuǎn)離容易致畸的環(huán)境
        小經(jīng)驗(yàn)試試看
        粉嫩小泬无遮挡久久久久久| 鸭子tv国产在线永久播放| 国产欧美一区二区精品仙草咪| 手机看片福利日韩| 伊人影院在线观看不卡| 亚洲精品久久视频网站| 九色综合九色综合色鬼| 无码熟熟妇丰满人妻啪啪| 国产亚洲欧美另类久久久| 成人国产av精品麻豆网址| 男女视频在线观看一区| 成人欧美一区二区三区1314| 日本一本久道| 美女福利一区二区三区在线观看| 天天色天天操天天日天天射| 国产精品国三级国产av| 无码丰满少妇2在线观看| 国产极品喷水视频| 国产一品二品三区在线观看| 私人vps一夜爽毛片免费| 永久免费不卡在线观看黄网站| 精品国产AⅤ一区二区三区V免费 | 国产三区三区三区看三区| 夜夜爽妓女8888888视频| 天堂sv在线最新版在线| 2022AV一区在线| 久久亚洲精品国产av| 亚洲国产天堂久久综合网| 有码精品一二区在线| 日本看片一区二区三区| 青青草国产在线视频自拍| 欧美黑吊大战白妞| 亚洲a级片在线观看| 日本午夜a级理论片在线播放| 国产爆乳美女娇喘呻吟| 日本免费人成视频播放| 久久久调教亚洲| 国产白浆一区二区在线| 久久久www免费人成精品| 国产美女在线精品亚洲二区| 久久久精品久久久国产|