亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多節(jié)點探測器軟著陸的路徑規(guī)劃方法

        2022-05-12 05:20:26趙清杰于重重張長春陳涌泉
        宇航學報 2022年3期
        關鍵詞:多任務小行星障礙物

        王 鑫,趙清杰,于重重,張長春,陳涌泉

        (1. 北京理工大學計算機學院,北京 100081; 2. 北京工商大學人工智能學院,北京 100048)

        0 引 言

        小行星探測是一項學科綜合、高技術集成的系統(tǒng)工程,體現(xiàn)了一個國家的綜合實力和競爭力。探測器的著陸是小行星探測任務中的一個關鍵階段,它直接影響整個探測任務的成敗。探測器在著陸時會受到空中失效航天器與碎片等動態(tài)障礙物的干擾以及小行星表面的巖石、陡坡、隕坑等靜態(tài)障礙物的干擾,影響自身著陸的安全性和姿態(tài)的穩(wěn)定性,因此規(guī)劃出一條最優(yōu)路徑是后續(xù)安全著陸的保證。此外,由于小行星與地球距離較遠,而且小行星環(huán)境具有未知性和特殊性,地面控制站無法對著陸實施全程監(jiān)控,所以探測器需要具有一定的自適應、自學習和自主決策能力。

        劉建軍等利用啟發(fā)式搜索算法和動態(tài)路徑最優(yōu)算法提出了一種基于可通過性的月面巡視探測器的路徑規(guī)劃算法。Liu等根據(jù)激光測距儀的信息對月壤地面的地形進行建模,提出了基于虛擬機體模型的自主避障策略。徐帷等采用Sarsa(λ)強化學習實現(xiàn)空間機械臂的自主路徑規(guī)劃。鄧泓等通過建立路徑規(guī)劃的環(huán)境模型、綜合適應度函數(shù),設計遺傳算子,提出了基于遺傳算法的攻擊衛(wèi)星安全穿越路徑尋優(yōu)方法。羅汝斌等提出了一種基于深度強化學習的自適應協(xié)同探測方法,用以解決行星車探測未知區(qū)域的問題。郭繼峰等提出了一種全局與局部規(guī)劃結合的行星車自主探測融合路徑規(guī)劃方法。周思雨等采用D3QNPER方法對行星車在著陸過程中進行路徑規(guī)劃,避免了傳統(tǒng)規(guī)劃算法對先驗地圖信息的依賴。當面對更加復雜、不確定的環(huán)境時,上述方法的穩(wěn)定性和可行性都面臨一定的挑戰(zhàn)。

        近年來,深度強化學習在很多方面得到了應用,如自動駕駛、機器人、推薦系統(tǒng)、智能電網(wǎng)等。引入深度強化學習,面對不同的著陸環(huán)境時,探測器通過與環(huán)境交互,接收從環(huán)境獲得的評價反饋,自主學習,得到不同環(huán)境狀態(tài)下的最優(yōu)策略,可以實現(xiàn)對環(huán)境的自適應能力。自注意力機制和多任務學習可以進一步提升系統(tǒng)對環(huán)境的搜索能力,二者在人工智能相關的多個領域已得到應用。

        目前的小行星探測器大多是單節(jié)點,著陸時容易出現(xiàn)翻轉(zhuǎn)、傾覆、失聯(lián)等現(xiàn)象。面向小行星探測任務的需要,柔性連接的多節(jié)點(多智能體)系統(tǒng)是針對探測器著陸不穩(wěn)定問題的一種解決方案。本文構建了一種采用柔性連接的三節(jié)點探測器并對其著陸情況進行建模研究,進而提出了一種融合時間上下文的自注意力機制的多任務深度強化學習方法,對探測器各節(jié)點的速度、加速度等進行協(xié)同規(guī)劃,使得探測器具有更優(yōu)的著陸自控性能。

        1 深空柔性探測器軟著陸建模

        傳統(tǒng)的單節(jié)點探測器依靠人類先驗知識來確定飛行策略,進而實現(xiàn)探測器著陸。但是,小行星的很多參數(shù)未知,單節(jié)點探測器在著陸過程中容易失控、傾覆或反彈逃逸,亦或無法實現(xiàn)確定的著陸策略而導致探測器不能實施精確著陸。針對上述問題,本文構建了一種采用柔性連接的三節(jié)點探測器,并對其著陸情況進行建模。

        深空探測器在著陸過程中,探測器以小行星為參照物來描述自身的狀態(tài),可以表示為一個四元組<,,,>,其中,表示探測器的運行速度,表示探測器相對于小行星的角速度,表示探測器相對于小行星的距離,表示探測器相對于小行星的角度。

        圖1 探測器每個節(jié)點運動情況圖Fig.1 Motion chart of each node of the probe

        2 帶自注意力機制的多任務深度強化學習

        2.1 深度強化學習

        深度強化學習是一種將深度學習的感知能力與強化學習的決策能力相結合的一種更接近人類思維的人工智能方法。深度確定策略梯度算法(Deep deterministic policy gradient, DDPG)是將深度學習和確定性策略梯度(Deterministic policy gradient, DPG)進行融合,采用卷積神經(jīng)網(wǎng)絡對actor網(wǎng)絡和critic網(wǎng)絡進行模擬,然后使用深度學習的方法訓練actor網(wǎng)絡和critic網(wǎng)絡。由于critic網(wǎng)絡參數(shù)在頻繁地進行梯度更新的同時又用于計算critic網(wǎng)絡和actor網(wǎng)絡的梯度,導致學習過程不穩(wěn)定,因此DDPG為actor網(wǎng)絡和critic網(wǎng)絡各創(chuàng)建兩個神經(jīng)網(wǎng)絡,一個是Online網(wǎng)絡,一個是Target網(wǎng)絡,結構如圖2所示。其中,Online網(wǎng)絡和Target網(wǎng)絡均由六個全連接層構成的多感知機(Mulitlayer perceptron, MLP)組成。

        圖2 DDPG網(wǎng)絡結構圖Fig.2 Network structure of DDPG

        2.2 多任務學習

        多任務學習是一種歸納遷移學習,目的是通過使用給定的多個任務中包含的知識來幫助提升各個任務的性能。近年來,多任務學習與監(jiān)督學習、半監(jiān)督學習、主動學習相結合,解決了多個領域的難題。

        探測器在著陸過程中,探測器各節(jié)點的位置、速度、角速度等都是動態(tài)變化的,同時深空中的障礙物也處于運動狀態(tài),這些因素都對探測器的穩(wěn)定成功著陸具有一定的影響。為保證探測器可以成功著陸,需要對探測器的各個節(jié)點進行協(xié)同規(guī)劃,以及協(xié)同避障。

        鑒于多任務學習的優(yōu)點,本文構建關于探測器節(jié)點和障礙物的多任務學習模型,通過將其他節(jié)點任務和障礙物任務作為當前正在學習的任務的監(jiān)督信號來提升自己的學習能力,進一步提高模型整體的性能。由于探測器計算資源有限,基于參數(shù)軟共享方式的結構需要每個任務具有自己的模型和參數(shù),計算開銷較大,而基于參數(shù)硬共享方式的結構,任務共享模型及參數(shù),所需的計算資源開銷較少。本文選擇參數(shù)硬共享方式來構建探測器的多任務學習模型,結構如圖3所示。

        圖3 智能體參數(shù)共享結構圖Fig.3 Parameter-sharing structure chart of agents

        2.3 融合時間上下文的自注意力機制

        近年來,在人工智能領域,注意力機制已經(jīng)成為神經(jīng)網(wǎng)絡的重要組成部分,并且在計算機視覺、自然語言處理和統(tǒng)計學習等領域被廣泛使用。網(wǎng)絡結構中的注意力模塊自動學習注意力權重,可以自動地捕獲編碼器隱藏狀態(tài)和解碼器隱藏狀態(tài)之間的相關性,即注意力模塊可以使模型動態(tài)地關注有利于當前任務的某些信息。

        自注意力機制是注意力機制的一種,其減少了對外部信息的依賴性,更加擅長捕捉數(shù)據(jù)或特征的內(nèi)部相關性。探測器在進行多任務學習時,通過采用自注意力機制有助于探測器節(jié)點更加關注有利于使自己獲得最大回報的信息進行學習。

        深空探測環(huán)境不確定,智能體在進行空間狀態(tài)搜索時,具有時間多樣性,為避免探測器陷入最近時間學習的較差局部狀態(tài),本文引入時間上下文信息,采用更多的歷史先驗知識指導探測器學習到最優(yōu)的狀態(tài)。

        本文按式(1)~(3)構建時間上下文自注意力機制,首先將式(1)自注意力機制的輸出與MLP的第個全連接層輸出的特征圖進行矩陣運算,得到加權特征圖,然后將該加權特征圖與MLP的第-1個全連接層輸出的特征圖進行矩陣相加,得到最終的特征圖。

        =softmax((-1(,)))

        (1)

        =*

        (2)

        =+-1

        (3)

        其中,表示第個智能體的觀測值;表示第個智能體的行為,∈{1,2,…,};表示智能體的個數(shù);表示激活函數(shù)ReLU;-1表示MLP的第-1層的特征圖;softmax表示歸一化指數(shù)函數(shù),將函數(shù)的每個輸出都映射到(0,1);表示元素取值為(0,1)的注意力權重矩陣;*表示矩陣對應位置元素相乘;表示MLP的第層的特征圖;∈{2,…,-1},表示MLP全連接層的個數(shù)。

        2.4 帶自注意力機制的多任務深度強化學習

        為解決柔性連接的三節(jié)點探測器著陸問題,本文提出了融合時間上下文自注意力機制的多任務深度強化學習方法AMTDRL(Fusion attention and multi-task in deep reinforcement learning, AMTDRL),探測器節(jié)點的觀測值和行為作為MLP的輸入,MLP通過時間上下文的自注意力機制來獲取使自身獲得最大收益的特征信息進行學習,之后每個節(jié)點學習自己的actor和critic網(wǎng)絡,模型結構如圖4所示。

        圖4 AMTDRL模型結構Fig.4 Model structure of AMTDRL

        (4)

        (5)

        (6)

        (7)

        其中,()表示關于的損失函數(shù);,,,′表示智能體在觀測值為、行為為、獎勵為、新觀測值為′時獲得獎勵誤差的期望值;表示智能體獎勵的真實值;′={,…,}表示智能體的策略函數(shù),其參數(shù)為′;表示第個智能體獲得的獎勵;表示折扣因子。

        (8)

        (9)

        (10)

        (11)

        3 仿真校驗

        3.1 仿真參數(shù)

        本文探測器設置三個節(jié)點,三個動態(tài)障礙物,初始速度為3 m/s,加速度為0.5 m/s,最大速度為8 m/s,一個靜態(tài)障礙物,MLP網(wǎng)絡的參數(shù)采用高斯初始化,DDPG的噪聲采用Ornstein-Uhlenbeck噪聲,初始參數(shù)均值為0,方差為0.2,為0.15,AMTDRL模型的超參數(shù)設置見表1。Online網(wǎng)絡和Target網(wǎng)絡每迭代20次軟更新一次。探測器參數(shù)初始參數(shù)見表2。根據(jù)探測器節(jié)點的運行情況獎勵函數(shù)的設置見表3。

        表1 AMTDRL模型超參數(shù)Table 1 Hyperparameters of AMTDRL

        表2 探測器參數(shù)Table 2 Parameters of deep space probe

        表3 獎勵函數(shù)Table 3 Function of reward

        3.2 仿真結果與分析

        本文以MADDPG模型為基準進行對比。為了證明算法的收斂性、適應性和魯棒性,AMTDRL算法和MADDPG算法在參數(shù)設置不變情況下,分別進行三次仿真實驗,每次仿真實驗迭代30000次。每次實驗算法都達到了收斂,并且對每次仿真實驗得到的平均獎勵進行累加,然后再取平均值,探測器最終獲得的平均獎勵如圖5所示。

        圖5 MADDPG與AMTDRL的平均獎勵對比Fig.5 Mean rewards of MADDPG and AMTDRL

        通過圖5可以看出,在迭代前15000次,探測器的平均獎勵在穩(wěn)步增長,在迭代后15000 次,平均獎勵平穩(wěn)下降,然后保持穩(wěn)定,說明探測器穩(wěn)定著陸。此外,將AMTDRL與MADDPG進行對比,可以看出,在每次迭代過程中,AMTDRL獲得的獎勵均高于MADDPG,30000次迭代過程中,AMTDRL總的平均獎勵比MADDPG高9.94,說明AMTDRL學習效果更好,探測器能夠更好地避障和著陸。

        AMTDRL模型的actor網(wǎng)絡和critic網(wǎng)絡同時采用attention機制與只有actor網(wǎng)絡采用attention機制進行對比,通過圖6可以看出,在迭代10000次左右時同時使用attention的效果更好,說明探測器仍在搜索最優(yōu)的狀態(tài),隨著迭代次數(shù)的增加,當探測器逐漸靠近最優(yōu)狀態(tài)時,attention機制對critic來說效果不明顯。

        圖6 只actor網(wǎng)絡采用attention (p_attention)與兩個網(wǎng)絡同時采用attention (pq_attention)的平均獎勵Fig.6 Mean rewards of only actor network with attention (p_attention)and both networks with attention (pq_attention)

        探測器在著陸過程中,空間中的障礙物也處于運動狀態(tài),導致探測器著陸的環(huán)境時刻處于變化之中,同時小行星表面也存在陡坡等靜態(tài)障礙物,面對這些不同的情況,深度強化學習通過及時地調(diào)整策略使探測器具有自主規(guī)劃能力,可以成功避障。

        實驗仿真環(huán)境為長寬高都為40 m的正方體,圓表示空間中失效的航天器與碎片等動態(tài)障礙物,三角形表示小行星表面的陡坡或巖石等靜態(tài)障礙物,十六角星表示探測器。探測器的起點坐標為(-7.5, 18, 17),終點坐標為(14.5, 2.5,-20),動態(tài)障礙物1的起始坐標為(-12.5, 16, 13),終點坐標為(-14, 13.5, 7),動態(tài)障礙物2的起始坐標為(-17.5, 3, -6),終點坐標為(-13, -2.5, -10.5),動態(tài)障礙物3的起始坐標為(-8, -9, -12),終點坐標為(0, -3, -16.5),靜態(tài)障礙物的坐標為(12.5, -2.5, -20)。探測器的運動路線如圖7所示,探測器在著陸過程中,無論是在空間中遇到動態(tài)障礙物,還是在附著時遇到小行星表面的靜態(tài)障礙物,都會根據(jù)AMTDRL學習的策略及時調(diào)整自身的狀態(tài),遠離障礙物,實現(xiàn)成功著陸。

        圖7 路徑規(guī)劃結果Fig.7 Path planning result

        由于更多的節(jié)點數(shù)會使系統(tǒng)的復雜性明顯提升,因此我們只對兩節(jié)點和三節(jié)點情況進行對比研究。以迭代10000 次為例,分析DDPG、MADDPG和AMTDRL三種方法的表現(xiàn),結果如圖8所示。

        圖8 DDPG、MADDPG及AMTDRL分別在兩節(jié)點和三節(jié)點情況的平均獎勵Fig.8 Mean rewards of DDPG, MADDPG and AMTDRL for 2 & 3 nodes

        從圖8(a)中可以看出,具有兩個節(jié)點的探測器在運行過程中獲得的獎勵在20~30之間;從圖8(b)中可以看出,隨著訓練次數(shù)的增加,具有兩個節(jié)點的探測器在運行過程中獲得的獎勵在30~40之間,三節(jié)點探測器的平均獎勵比兩節(jié)點的獎勵高出10左右,說明三節(jié)點探測器運行更加穩(wěn)定。另外可以看出,DDPG方法獲得的獎勵相對較低,說明探測器在運行過程中節(jié)點之間或者與障礙物之間容易發(fā)生碰撞;MADDPG方法波動較大,說明探測器運行狀態(tài)不穩(wěn)定;AMTDRL具有較高的獎勵,而且波動較小,說明探測器在運行過程中比較穩(wěn)定。

        4 結 論

        針對傳統(tǒng)的單節(jié)點探測器在著陸過程中因缺乏自主規(guī)劃能力而導致著陸失敗的問題,本文提出了一種融合自注意力機制的多任務多智能體深度強化學習方法,實現(xiàn)柔性連接的多節(jié)點探測器的成功軟著陸。我們以柔性連接的三節(jié)點探測器為例進行研究,以探測器主體為參照物來描述節(jié)點自身的狀態(tài),探測器節(jié)點與節(jié)點之間、節(jié)點與障礙物之間通過聯(lián)合學習,來提高各智能體的適應能力;在對探測器和障礙物進行特征提取時,采用注意力機制來提高對自己任務的關注,從而獲得最大的獎勵。通過與其他方法的對比,證明了本文提出的方法更有利于探測器穩(wěn)定地著陸。

        猜你喜歡
        多任務小行星障礙物
        NASA宣布成功撞擊小行星
        軍事文摘(2022年24期)2023-01-05 03:38:22
        我國發(fā)現(xiàn)2022年首顆近地小行星
        深度學習在艦船前方障礙物圖像識別中的應用
        高低翻越
        SelTrac?CBTC系統(tǒng)中非通信障礙物的設計和處理
        基于中心化自動加權多任務學習的早期輕度認知障礙診斷
        基于判別性局部聯(lián)合稀疏模型的多任務跟蹤
        自動化學報(2016年3期)2016-08-23 12:02:56
        小行星:往左走
        太空探索(2016年1期)2016-07-12 09:55:54
        基于多任務異步處理的電力系統(tǒng)序網(wǎng)絡拓撲分析
        電測與儀表(2016年5期)2016-04-22 01:13:46
        “隼鳥”2再探小行星
        太空探索(2014年11期)2014-07-12 15:17:00
        99精品视频69v精品视频| 欧美h久免费女| 日韩av一区二区无卡| 在线视频国产91自拍| 久久久久久人妻一区精品| 日韩激情小视频| 日本一区二区三区看片| 成人免费av色资源日日| 亚洲国产精品无码专区| 熟妇五十路六十路息与子| 麻豆国产VA免费精品高清在线| 中文字幕中文字幕777| 久热re这里精品视频在线6| 精品久久久久久久中文字幕| 中文字幕一区韩国三级| 谷原希美中文字幕在线| 精品久久人妻av中文字幕| 国产真人无遮挡作爱免费视频| 色琪琪一区二区三区亚洲区| 成熟妇女毛茸茸性视频| 成人午夜视频精品一区| 国产精品黄网站免费观看| 日韩精品极品视频在线免费| 国产精品久久久免费精品| 无码av无码天堂资源网| 91短视频在线观看免费| 在线观看中文字幕不卡二区| 狠狠摸狠狠澡| 大学生被内谢粉嫩无套| 亚洲免费观看一区二区三区| 伊人青青草综合在线视频免费播放| 精品久久久久久无码人妻热| 国产成人无码精品久久99| 日韩亚洲精选一区二区三区| 国产精品亚洲片在线观看不卡| 亚洲 欧美 激情 小说 另类| 最新福利姬在线视频国产观看 | 久久96日本精品久久久| 人人摸人人操| 99精品欧美一区二区三区美图| 国产黄色一级大片一区二区|