亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于分支深度強(qiáng)化學(xué)習(xí)的非合作目標(biāo)追逃博弈策略求解

        2020-11-06 06:44:48劉冰雁葉雄兵高勇王新波倪蕾
        航空學(xué)報(bào) 2020年10期
        關(guān)鍵詞:航天器神經(jīng)網(wǎng)絡(luò)深度

        劉冰雁,葉雄兵,高勇,王新波,倪蕾

        1.軍事科學(xué)院,北京 100091 2.解放軍32032部隊(duì),北京 100094 3.航天工程大學(xué),北京 101416

        航天器與非合作目標(biāo)的空間交會(huì),是最優(yōu)控制與動(dòng)態(tài)博弈的深度融合,可描述成一種追逃博弈問(wèn)題[1-3]。從航天器視角看待的追逃博弈(Pursuit and Evasion Hames,PEG)問(wèn)題[4],是在僅知自身狀態(tài)和非合作目標(biāo)當(dāng)前有限狀態(tài)、未知非合作目標(biāo)未來(lái)行為策略的條件下,采取最優(yōu)行為并最終完成交會(huì)任務(wù)的一個(gè)動(dòng)態(tài)博弈過(guò)程。

        追逃博弈問(wèn)題中的非合作目標(biāo),除了在一個(gè)連續(xù)且動(dòng)態(tài)變化的空間環(huán)境中活動(dòng)外,還具有典型的非合作性,即有信息層面不溝通、機(jī)動(dòng)行為不配合、先驗(yàn)知識(shí)不完備等特性。針對(duì)此類雙方連續(xù)動(dòng)態(tài)沖突、對(duì)抗博弈問(wèn)題,可通過(guò)微分方程,運(yùn)用微分對(duì)策[5-6]進(jìn)行數(shù)學(xué)描述。文獻(xiàn)[7]應(yīng)用微分對(duì)策理論描述了兩個(gè)航天器追逃中的策略問(wèn)題,并將對(duì)策研究轉(zhuǎn)化為高維時(shí)變非線性兩點(diǎn)邊值問(wèn)題進(jìn)行數(shù)值求解。文獻(xiàn)[3]將衛(wèi)星末端攔截交會(huì)看作追蹤與逃逸,并轉(zhuǎn)換為零和微分對(duì)策問(wèn)題,采用攔截脫靶量和燃料消耗作為二次最優(yōu)目標(biāo)函數(shù),推導(dǎo)出了衛(wèi)星軌道次優(yōu)控制策略。文獻(xiàn)[8]針對(duì)三維空間中的航天器追逃博弈問(wèn)題展開(kāi)研究,結(jié)合微分對(duì)策理論,得出了追蹤器的最優(yōu)控制策略描述式。文獻(xiàn)[1]利用定量微分對(duì)策方法分析連續(xù)推力作用下的空間交會(huì)追逃微分對(duì)策問(wèn)題,提出了用非線性規(guī)劃求解該微分對(duì)策問(wèn)題的方法。文獻(xiàn)[9]對(duì)航天器追逃博弈問(wèn)題運(yùn)用微分對(duì)策進(jìn)行描述,采用半直接配點(diǎn)法進(jìn)行求解,可得到收斂的數(shù)值解。

        關(guān)于追逃博弈問(wèn)題的微分對(duì)策求解,因其涉及微分方程復(fù)雜、約束條件呈非線性、狀態(tài)變量多,一直是一項(xiàng)比較困難而棘手的問(wèn)題[10-11]。隨著以深度強(qiáng)化學(xué)習(xí)[12]為代表的新一代人工智能方法快速發(fā)展,依其在自主學(xué)習(xí)、自我優(yōu)化方面的優(yōu)勢(shì),處理決策控制問(wèn)題不受任務(wù)模式限制,已在軍事、計(jì)算機(jī)、交通等領(lǐng)域廣泛運(yùn)用,并取得了顯著成效[13]。文獻(xiàn)[14]闡述了將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)為代表的機(jī)器學(xué)習(xí)技術(shù)引入博弈對(duì)抗建模,提出了基于深度強(qiáng)化學(xué)習(xí)的智能博弈對(duì)抗概念,進(jìn)一步探索了智能化控制決策。文獻(xiàn)[15]將水面復(fù)雜的障礙規(guī)避問(wèn)題轉(zhuǎn)換為零和博弈問(wèn)題,提出了一種基于模糊分類的深度強(qiáng)化學(xué)習(xí)方法,滿足動(dòng)態(tài)決策任務(wù)和在線控制過(guò)程的需求。文獻(xiàn)[16]針對(duì)障礙物動(dòng)態(tài)規(guī)避問(wèn)題,將深度強(qiáng)化學(xué)習(xí)與優(yōu)先重放模式相結(jié)合,能夠依據(jù)經(jīng)驗(yàn)對(duì)當(dāng)前狀態(tài)進(jìn)行行為預(yù)測(cè),從而降低運(yùn)算量、提升成功率。文獻(xiàn)[17]為提高準(zhǔn)被動(dòng)雙足機(jī)器人斜坡步行穩(wěn)定性,提出了一種基于深度強(qiáng)化學(xué)習(xí)的準(zhǔn)被動(dòng)雙足機(jī)器人步態(tài)控制方法,實(shí)現(xiàn)了較大斜坡范圍下的機(jī)器人穩(wěn)定步態(tài)控制。

        盡管這些研究使得深度強(qiáng)化學(xué)習(xí)算法在控制決策領(lǐng)域得以應(yīng)用,但在連續(xù)空間應(yīng)用中仍面臨與表格強(qiáng)化學(xué)習(xí)相類似的問(wèn)題,即需要顯式表示的操作數(shù)量隨著操作維數(shù)的增加呈指數(shù)增長(zhǎng)。鑒于深度強(qiáng)化學(xué)習(xí)在控制決策方面的潛力和目前在連續(xù)空間的應(yīng)用限制,針對(duì)與非合作目標(biāo)的空間交會(huì)問(wèn)題,本文提出了一種基于分支深度強(qiáng)化學(xué)習(xí)的追逃博弈算法,以獲得與空間非合作目標(biāo)的最優(yōu)交會(huì)策略。

        1 航天器與非合作目標(biāo)的動(dòng)力學(xué)模型

        在二體模型中,把中心天體作為參考點(diǎn),以P表示在軌航天器、E表示非合作目標(biāo),兩者空間位置關(guān)系如圖1所示。圖中,以同軌道平面內(nèi)的一參考星作為坐標(biāo)原點(diǎn)O,參考星與中心天體連線方向?yàn)閤軸,軌道平面內(nèi)沿軌道速度方向?yàn)閥軸,z軸垂直于轉(zhuǎn)移軌道平面與x軸、y軸構(gòu)成右手系。航天器與非合作目標(biāo)相對(duì)距離遠(yuǎn)小于非合作目標(biāo)軌道半徑,其動(dòng)力學(xué)模型可描述為

        圖1 航天器與非合作目標(biāo)對(duì)策的坐標(biāo)示意圖Fig.1 Coordinate frame sketch of spacecraft and non-cooperative target

        (1)

        在生存型微分對(duì)策[18]中,航天器與非合作目標(biāo)均采取最大推力,雙方實(shí)際行為控制量為推力方向角,即up=[θp,δp]、ue=[θe,δe]。

        將航天器與非合作目標(biāo)的交會(huì)問(wèn)題,描述為追逃博弈問(wèn)題,需具備以下3個(gè)要素:博弈參與者N={P,E},各參與者行為up、ue,以及參與者的目標(biāo)函數(shù)J。

        在追逃博弈的目標(biāo)函數(shù)中,考慮兩者之間的歐式距離

        (2)

        對(duì)于連續(xù)推力,燃料消耗與推力作用時(shí)間成正比,推力作用時(shí)間越長(zhǎng),燃料消耗越多。因此,將推力作用時(shí)間間隔作為追逃博弈目標(biāo)函數(shù)的一部分,構(gòu)建時(shí)間-距離綜合最優(yōu)控制的目標(biāo)函數(shù)

        (3)

        式中:k為比例權(quán)重,且k∈[0,1]。

        在追逃博弈過(guò)程中,航天器與非合作目標(biāo)分別根據(jù)當(dāng)前狀態(tài),通過(guò)獨(dú)立優(yōu)化目標(biāo)函數(shù)J來(lái)采取行為。其間,航天器將力求獲得使目標(biāo)函數(shù)J最小化的行為策略,而非合作目標(biāo)則期望獲得使目標(biāo)函數(shù)J最大化的行為策略。根據(jù)博弈論中的納什均衡[19-20]理論,雙方行為當(dāng)且僅當(dāng)滿足不等式(4)時(shí),行為策略達(dá)到納什均衡

        (4)

        為了使該追逃博弈問(wèn)題存在納什均衡解,假設(shè)滿足下列條件:“行為策略集up與ue是度量空間中的緊集,目標(biāo)函數(shù)J:up×ue→R在up×ue上連續(xù)”[21]。再根據(jù)比較原理[22]可知,若在一個(gè)追逃對(duì)策中存在不同的最優(yōu)策略,那么所有最優(yōu)策略對(duì)應(yīng)的對(duì)策值均相同[23]。

        由此,求解該追逃博弈問(wèn)題的目的,就是要尋求一組行為策略滿足納什均衡,即使得式(5)成立

        (5)

        航天器通過(guò)求解上述最優(yōu)化問(wèn)題,得到追逃博弈問(wèn)題的納什均衡行為,從而實(shí)現(xiàn)與非合作目標(biāo)的最優(yōu)交會(huì)。

        2 空間行為的模糊推理模型

        航天器與非合作目標(biāo)交會(huì)是在連續(xù)狀態(tài)空間進(jìn)行,然而傳統(tǒng)的深度強(qiáng)化學(xué)習(xí)算法可能會(huì)由于其難處理性、連續(xù)狀態(tài)空間和行為空間龐大而導(dǎo)致維數(shù)災(zāi)難問(wèn)題[24]。為避免這一問(wèn)題,根據(jù)“模糊推理是一種可以任何精度逼近任意非線性函數(shù)的萬(wàn)能逼近器”[25]這一結(jié)論,本文構(gòu)建了一種空間行為的模糊推理模型,以實(shí)現(xiàn)連續(xù)狀態(tài)經(jīng)由模糊推理再到連續(xù)行為輸出的映射轉(zhuǎn)換,從而有利于發(fā)揮深度強(qiáng)化學(xué)習(xí)的離散行為算法優(yōu)勢(shì)。

        零階Takagi-Sugeno-Kang(TSK)[26],作為最常用的模糊推理模型,在通過(guò)隸屬函數(shù)(MF)[27]表征連續(xù)狀態(tài)空間或行為空間后,利用IF-THEN模糊規(guī)則可以獲得模糊集到輸出線性函數(shù)之間的映射關(guān)系[28]:

        THENul=cl

        (6)

        圖2展示了當(dāng)輸入量n=2、隸屬函數(shù)y=3時(shí)的空間行為模糊推理模型。該模型為5層網(wǎng)狀結(jié)構(gòu),其中以小圓圈表示變量節(jié)點(diǎn),以小方框表示運(yùn)算節(jié)點(diǎn)。推廣到一般情況,假設(shè)有n個(gè)連續(xù)空間變量xi(i=1,2,…,n)作為輸入,在對(duì)每個(gè)變量xi運(yùn)用y個(gè)隸屬函數(shù)處理后,再經(jīng)過(guò)模糊化與去模糊過(guò)程便可獲得精確輸出u,其中各層功能如下所述。

        圖2 空間行為的模糊推理模型Fig.2 TSK fuzzy inference model

        (7)

        在網(wǎng)絡(luò)第3層,為實(shí)現(xiàn)加權(quán)平均去模糊化,對(duì)隸屬度進(jìn)行了歸一化處理

        (8)

        在網(wǎng)絡(luò)第4層,引入模糊集中心常數(shù)cl,對(duì)在每一個(gè)節(jié)點(diǎn)進(jìn)行點(diǎn)乘運(yùn)算

        (9)

        在網(wǎng)絡(luò)第5層,對(duì)節(jié)點(diǎn)進(jìn)行累計(jì)處理,便可將模糊量轉(zhuǎn)換成精確量[31]

        (10)

        (11)

        3 追逃博弈的分支深度強(qiáng)化學(xué)習(xí)

        深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning),雖是神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)的有效結(jié)合,但直接運(yùn)用于空間行為模糊推理模型,卻會(huì)面臨行為數(shù)量與映射規(guī)則的組合增長(zhǎng)問(wèn)題,這大大削弱了離散化處理后的行為控制決策能力。此外,值函數(shù)的樸素分布以及跨多個(gè)獨(dú)立函數(shù)逼近器的策略表示同樣會(huì)遇到許多困難,從而導(dǎo)致收斂問(wèn)題[32]。

        為此,本文提出了一種新的分支深度強(qiáng)化學(xué)習(xí)架構(gòu)。將狀態(tài)行為值函數(shù)的表示形式分布在多個(gè)網(wǎng)絡(luò)分支上,通過(guò)多組并行的神經(jīng)網(wǎng)絡(luò)以實(shí)現(xiàn)離散行為的獨(dú)立訓(xùn)練與快速處理;在共享一個(gè)行為決策模塊的同時(shí),將狀態(tài)行為值函數(shù)分解為狀態(tài)函數(shù)和優(yōu)勢(shì)函數(shù),以實(shí)現(xiàn)一種隱式集中協(xié)調(diào);給出航天器與非合作目標(biāo)的博弈交互過(guò)程,經(jīng)過(guò)適當(dāng)?shù)挠?xùn)練,可實(shí)現(xiàn)算法的穩(wěn)定性和良好策略的收斂性。

        3.1 多組并行的網(wǎng)絡(luò)分支

        依據(jù)空間行為模糊推理模型中L條規(guī)則,將狀態(tài)行為值函數(shù)的表示形式分布在多個(gè)網(wǎng)絡(luò)分支上,搭建L組并行的神經(jīng)網(wǎng)絡(luò)。多組并行的神經(jīng)網(wǎng)絡(luò),是在單個(gè)神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上增加了多組并行神經(jīng)網(wǎng)絡(luò)。與單組神經(jīng)網(wǎng)絡(luò)[33]類似,并行神經(jīng)網(wǎng)絡(luò)在與環(huán)境的不斷交互中自主訓(xùn)練、獨(dú)立決策。結(jié)合強(qiáng)化學(xué)習(xí)的博弈和反饋機(jī)制,將使得多組并行神經(jīng)網(wǎng)絡(luò)具有更強(qiáng)的自主性、靈活性和協(xié)調(diào)性,極大地提升了離散行為的獨(dú)立學(xué)習(xí)能力,整體增強(qiáng)了對(duì)環(huán)境的探索能力。

        分支深度強(qiáng)化學(xué)習(xí)架構(gòu)中的多組并行神經(jīng)網(wǎng)絡(luò)如圖3所示。其中,各組神經(jīng)網(wǎng)絡(luò)均由輸入層、隱藏層和輸出層組成,當(dāng)狀態(tài)信息分別輸入L組并行神經(jīng)網(wǎng)絡(luò)后,獨(dú)立通過(guò)激勵(lì)函數(shù)進(jìn)行前向傳輸以及進(jìn)行梯度下降反向訓(xùn)練,輸出可獲得離散行為的狀態(tài)行為函數(shù)(簡(jiǎn)稱為q函數(shù))。

        圖3 分支深度強(qiáng)化學(xué)習(xí)架構(gòu)示意圖Fig.3 Schematic diagram of branching deep reinforcement learning architecture

        3.2 共享行為決策模塊

        對(duì)于具有n個(gè)輸入量和y個(gè)隸屬函數(shù)的模糊推理模型,直接使用傳統(tǒng)強(qiáng)化學(xué)習(xí)算法,則需要同時(shí)考慮yn個(gè)可能的q函數(shù)。這使強(qiáng)化學(xué)習(xí)算法在多離散行為應(yīng)用中變得棘手,甚至難以有效探索[34]。

        本文在所構(gòu)建的共享行為決策模塊中,對(duì)傳統(tǒng)強(qiáng)化學(xué)習(xí)算法進(jìn)行了改進(jìn)。如圖4為基于改進(jìn)強(qiáng)化學(xué)習(xí)的共享行為決策示意圖,其主要思想是將多組并行神經(jīng)網(wǎng)絡(luò)計(jì)算輸出的q函數(shù)分解為狀態(tài)函數(shù)和優(yōu)勢(shì)函數(shù),以分別評(píng)估狀態(tài)值和各獨(dú)立分支的行為優(yōu)勢(shì),最后再通過(guò)一個(gè)特殊的聚合層,將狀態(tài)函數(shù)和分解后的優(yōu)勢(shì)函數(shù)組合起來(lái),輸出得到連續(xù)空間行為策略。詳細(xì)算法如下所述。

        圖4 基于改進(jìn)強(qiáng)化學(xué)習(xí)的共享行為決策示意圖Fig.4 Schematic diagram of shared behavior decision based on improved reinforcement learning

        在狀態(tài)輸入端對(duì)模糊規(guī)則稍作調(diào)整,在空間行為模糊推理模型進(jìn)行L(L=yn)條IF-THEN模糊規(guī)則映射時(shí),用al替換式(6)中的cl,即

        THENul=al

        (12)

        式中:al為離散行為集a={a1,a2,…,aL}中對(duì)應(yīng)于規(guī)則l的行為。

        在行為選擇階段,為了有效解決強(qiáng)化學(xué)習(xí)中的探索與利用問(wèn)題,即持續(xù)使用當(dāng)前最優(yōu)策略保持高回報(bào)的同時(shí),敢于嘗試一些新的行為以求更大地獎(jiǎng)勵(lì),則對(duì)行為al采取ε-greedy貪婪策略[15]。該策略定義以ε的概率在離散行為集中隨機(jī)選取,以1-ε的概率選擇一個(gè)最優(yōu)行為

        (13)

        式中:S為當(dāng)前航天器的位置狀態(tài);q(S,al)為對(duì)應(yīng)規(guī)則l和航天器行為al∈a下的q函數(shù)。q函數(shù)被定義為在ε-greedy策略下從狀態(tài)S開(kāi)始執(zhí)行行為a之后的期望價(jià)值Gt,并將ε-greedy策略下q函數(shù)的期望稱為狀態(tài)函數(shù)[35]

        qt(S,al)=E[Gt|St=S,at=a,ε-greedy]

        (14)

        vt(S)=Ea~ε-greedy[qt(S,al)]

        (15)

        狀態(tài)函數(shù)可以度量特定狀態(tài)下的行為狀態(tài),而q函數(shù)則度量在這種狀態(tài)下選擇特定行為的價(jià)值。基于此,將q函數(shù)與狀態(tài)函數(shù)的差值定義為優(yōu)勢(shì)函數(shù)

        ot(S,al)=qt(S,al)-vt(S)

        (16)

        理論上,優(yōu)勢(shì)函數(shù)是將狀態(tài)值從q函數(shù)中減去后的剩余,從而獲得每個(gè)行為重要性的相對(duì)度量,并且滿足Ea~ε-greedy[ot(S,al)]=0。然而由于q函數(shù)只是對(duì)狀態(tài)-行為的價(jià)值估計(jì),這導(dǎo)致無(wú)法明確狀態(tài)值和優(yōu)勢(shì)值的估計(jì)。為此,利用優(yōu)勢(shì)函數(shù)期望值為0這一特性,即當(dāng)獲取最優(yōu)行為a*時(shí)qt(S,a*)=vt(S),vt(S)將實(shí)現(xiàn)狀態(tài)函數(shù)的估計(jì),與此同時(shí)ot(S,al)亦將實(shí)現(xiàn)優(yōu)勢(shì)函數(shù)的估計(jì),進(jìn)而可將q函數(shù)分解為一個(gè)狀態(tài)函數(shù)vt(S)和一個(gè)優(yōu)勢(shì)函數(shù)ot(S,al)

        qt(S,al)=vt(S)+

        (17)

        在行為輸出端,可將與行為選取無(wú)關(guān)的狀態(tài)函數(shù)分離出來(lái),只需在對(duì)各優(yōu)勢(shì)函數(shù)進(jìn)行優(yōu)選操作后,再結(jié)合式(10)通過(guò)全連接層輸出。這一處理既緩解了q函數(shù)的運(yùn)算量,又有效避免了行為數(shù)量與映射規(guī)則的組合增長(zhǎng)問(wèn)題。

        (18)

        在自主學(xué)習(xí)階段,在獎(jiǎng)懲值的牽引下為實(shí)現(xiàn)反饋?zhàn)灾鲗W(xué)習(xí),定義時(shí)間差分(TD)誤差函數(shù)

        (19)

        式中:γ∈[0,1]為折扣因子;Rt+1為t+1時(shí)刻可獲得的獎(jiǎng)懲值,并定義Rt+1=2e-u2-1。

        q函數(shù)更新階段,通過(guò)自主迭代訓(xùn)練進(jìn)行更新

        (20)

        式中:η為強(qiáng)化學(xué)習(xí)速率。

        3.3 航天器與非合作目標(biāo)的博弈交互

        將與非合作目標(biāo)的空間交會(huì)問(wèn)題,經(jīng)微分策略描述成追逃博弈問(wèn)題后,運(yùn)用基于分支深度強(qiáng)化學(xué)習(xí)的追逃博弈算法,在模糊推理模型中,使得空間連續(xù)狀態(tài)經(jīng)由模糊推理以及追逃博弈算法,獲得連續(xù)行為輸出。在此以航天器視角為例,展現(xiàn)雙方動(dòng)態(tài)博弈交互過(guò)程:

        過(guò)程1根據(jù)航天器當(dāng)前狀態(tài)S定義模糊推理模型輸入量n,設(shè)定隸屬函數(shù)y。依據(jù)模糊規(guī)則數(shù),定義L(L=yn)組神經(jīng)網(wǎng)絡(luò),并對(duì)各網(wǎng)絡(luò)的q函數(shù)進(jìn)行隨機(jī)初始化。

        過(guò)程3分別在與第l={1,2,…,L}條規(guī)則所對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò)中,計(jì)算q函數(shù)q(S,al),根據(jù)式(13)選取離散行為al(l=1,2,…,L)。

        過(guò)程5計(jì)算航天器與非合作目標(biāo)的歐氏距離,判斷是否滿足交會(huì)條件。若滿足,令變量Done=1并轉(zhuǎn)到過(guò)程10;若不滿足,則轉(zhuǎn)到過(guò)程6。

        過(guò)程6令變量Done=0,非合作目標(biāo)根據(jù)逃逸策略采取對(duì)自己最有利的行為,并移至新位置狀態(tài)P+1。

        過(guò)程7依據(jù)行為u以及位置狀態(tài)變化情況,計(jì)算獎(jiǎng)懲值R。在各分支網(wǎng)絡(luò)中將當(dāng)前狀態(tài)S、離散行為al、獎(jiǎng)懲值R以及下一步狀態(tài)S+1,組合成[S,al,R,S+1]矩陣形式并存入記憶庫(kù)[35-36]。

        過(guò)程8共享行為決策模塊中進(jìn)行自主強(qiáng)化學(xué)習(xí),依據(jù)式(16)~式(20),以誤差函數(shù)pt為牽引,采取一定的學(xué)習(xí)率η,更新q函數(shù)。

        過(guò)程9判斷步數(shù)是否達(dá)到最大行動(dòng)步數(shù)M。若達(dá)到,轉(zhuǎn)至過(guò)程10;否則,步數(shù)加1并轉(zhuǎn)入過(guò)程2。

        過(guò)程10結(jié)束本輪追逃博弈交互過(guò)程。

        4 算例分析

        表1 航天器與非合作目標(biāo)的初始狀態(tài)Table 1 Initial state of spacecraft and non-cooperative target

        航天器P與非合作目標(biāo)E之間的空間角度差φ由俯仰角角度差Δδ與軌道平面內(nèi)推力角之差Δθ構(gòu)成,即φ=[Δδ,Δθ]

        (21)

        (22)

        式中:φ′為上一狀態(tài)的角度差;T是采樣時(shí)間。

        算例仿真在1.6 GHz、1.8 GHz雙核CPU、8GRAM計(jì)算硬件上,運(yùn)用PyCharm仿真編譯環(huán)境進(jìn)行。在分支深度強(qiáng)化學(xué)習(xí)架構(gòu)中,考慮離散行為決策無(wú)需過(guò)多的高維特征信息提取,因此采用的神經(jīng)網(wǎng)絡(luò)層數(shù)為3,隱藏層神經(jīng)元個(gè)數(shù)為10,激活函數(shù)為sigmoid,探索率ε=0.3,折扣因子γ=0.9,學(xué)習(xí)速率η=0.3,采樣時(shí)間T=1 s。

        經(jīng)仿真比對(duì),本文算法具有連續(xù)空間行為決策應(yīng)用的對(duì)比優(yōu)勢(shì)。同樣采取ε-greedy策略,分別運(yùn)用本文算法和傳統(tǒng)深度強(qiáng)化學(xué)習(xí)算法自主學(xué)習(xí)1 000次,運(yùn)用TensorFlow的TensorBoard模塊對(duì)學(xué)習(xí)過(guò)程進(jìn)行檢測(cè),每隔3次對(duì)獎(jiǎng)懲值進(jìn)行采樣。圖5為由TensorBoard生成的學(xué)習(xí)曲線,即獎(jiǎng)懲值隨學(xué)習(xí)次數(shù)的累積變化情況。由曲線分布可知,本文算法的獎(jiǎng)懲值增長(zhǎng)更明顯且更為平穩(wěn)。

        圖5 兩種算法的學(xué)習(xí)曲線Fig.5 Training curves of two algorithms

        算例仿真表明,本文所提算法能夠有效解決航天器與非合作目標(biāo)的追逃博弈問(wèn)題。例如,選取經(jīng)過(guò)自主學(xué)習(xí)0次、500次后的追逃博弈進(jìn)行比對(duì),其軌跡分別如圖6和圖7所示。圖6為當(dāng)算法不經(jīng)學(xué)習(xí)直接應(yīng)用于該追逃博弈問(wèn)題的軌跡變化情況。其中,航天器雖有目標(biāo)函數(shù)驅(qū)使,但由于其q函數(shù)隨機(jī)生成,且沒(méi)有任何先驗(yàn)知識(shí),導(dǎo)致行為舉棋不定、來(lái)回浮動(dòng),非合作目標(biāo)不受威脅沿原來(lái)軌道方向繼續(xù)行進(jìn)。最終,航天器與非合作目標(biāo)距離越來(lái)越遠(yuǎn),不能完成任務(wù)。如圖7所示,當(dāng)算法經(jīng)過(guò)500次自主學(xué)習(xí)后,航天器能夠朝著非合作目標(biāo)方向逼近,途中非合作目標(biāo)采取規(guī)避行為改變既定軌道,雙方不斷博弈在耗時(shí)2 328 s后,航天器實(shí)現(xiàn)與非合作目標(biāo)的空間交會(huì)。

        圖6 學(xué)習(xí)0次后的追逃博弈軌跡Fig.6 Trajectory of pursuit-evasion game after learning 0 time

        圖7 學(xué)習(xí)500次后的追逃博弈軌跡Fig.7 Trajectory of pursuit-evasion game after learning 500 times

        圖8為自主學(xué)習(xí)中q函數(shù)誤差隨訓(xùn)練次數(shù)的變化情況,隨著訓(xùn)練次數(shù)的不斷增多,q函數(shù)誤差越來(lái)越低,較快地收斂到最優(yōu)行為策略,從而實(shí)現(xiàn)了該追逃博弈的納什均衡。但由于采用貪婪策略,使得后期誤差還存在微弱的波動(dòng)。

        圖8 q函數(shù)誤差率隨訓(xùn)練次數(shù)的變化情況Fig.8 Variation rate of q function error with training times

        當(dāng)算法經(jīng)過(guò)1 000次自主學(xué)習(xí)后,航天器能夠更好地處理非合作目標(biāo)的逃逸行為,在與非合作目標(biāo)博弈一段時(shí)間后很快使得相互的行為趨于穩(wěn)定,雙方追逃行為概率分布如圖9所示。依此,在均衡策略的驅(qū)使下,航天器能夠選擇最佳軌跡,在最短耗時(shí)1 786 s后便與非合作目標(biāo)實(shí)現(xiàn)空間交會(huì),其行為控制量如圖10所示,運(yùn)動(dòng)軌跡如圖11所示。由圖易知,雙方在z方向的軌跡沒(méi)有發(fā)生明顯變化,符合航天器P與非合作目標(biāo)E在追逃過(guò)程中最佳的追逃策略應(yīng)發(fā)生在共面軌道的結(jié)論[9,37]。

        圖9 追逃行為概率分布Fig.9 Probability distribution of pursuit-evasion behavior

        圖10 學(xué)習(xí)1 000次后的行為控制量Fig.10 Amount of behavioral control after learning 1 000 times

        圖11 學(xué)習(xí)1 000次后的追逃博弈軌跡Fig.11 Trajectory of pursuit-evasion game after learning 1 000 times

        5 結(jié) 論

        1) 構(gòu)建了近地軌道航天器的追逃運(yùn)動(dòng)模型,給出了追逃博弈的納什均衡策略,將非合作目標(biāo)空間交會(huì)策略問(wèn)題轉(zhuǎn)述為微分對(duì)策問(wèn)題。

        2) 構(gòu)建了空間行為模糊推理模型,實(shí)現(xiàn)了連續(xù)狀態(tài)經(jīng)由模糊推理再到連續(xù)行為輸出的映射轉(zhuǎn)換,有效避免了傳統(tǒng)深度強(qiáng)化學(xué)習(xí)應(yīng)對(duì)連續(xù)空間存在的維數(shù)災(zāi)難問(wèn)題。

        3) 提出了一種新的分支深度強(qiáng)化學(xué)習(xí)架構(gòu),實(shí)現(xiàn)了行為策略的分支訓(xùn)練與共享決策,有效解決了行為數(shù)量與映射規(guī)則的組合增長(zhǎng)問(wèn)題。

        算例分析表明,論文算法具有連續(xù)空間行為決策應(yīng)用的對(duì)比優(yōu)勢(shì),能夠有效應(yīng)對(duì)連續(xù)空間追逃博弈問(wèn)題,為非合作目標(biāo)空間交會(huì)策略求解提供了新思路。同時(shí),對(duì)于解決其他領(lǐng)域的追逃博弈問(wèn)題具有較強(qiáng)的借鑒意義。

        猜你喜歡
        航天器神經(jīng)網(wǎng)絡(luò)深度
        2022 年第二季度航天器發(fā)射統(tǒng)計(jì)
        深度理解一元一次方程
        神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        2019 年第二季度航天器發(fā)射統(tǒng)計(jì)
        2018 年第三季度航天器發(fā)射統(tǒng)計(jì)
        深度觀察
        深度觀察
        2018年第二季度航天器發(fā)射統(tǒng)計(jì)
        深度觀察
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        精品国产三级a∨在线| 一本色道久久88综合| 白白色视频这里只有精品| 亚洲av中文无码乱人伦在线视色| 国产无遮挡无码视频免费软件| 久久九九有精品国产尤物 | 精品人妻一区二区三区蜜桃| 麻豆国产av在线观看| 老色鬼在线精品视频| 国产肉丝袜在线观看| 精品久久久久久午夜| 亚洲中文中文字幕乱码| 国产99视频精品免视看7 | 亚洲va欧美va| 天堂av一区一区一区| 久久伊人最新网址视频| 吃奶摸下激烈床震视频试看| 国产女精品| 白白色福利视频在线观看| 无码人妻丰满熟妇区免费| 国产成人无码一区二区在线观看| 国产最新一区二区三区天堂| 亚洲av中文字字幕乱码软件| 人妻体内射精一区二区三区| 日本不卡在线视频二区三区| 中文字幕亚洲无线码a| 日本精品一级二区三级| 乱子伦一区二区三区| 国产成人亚洲精品91专区手机| 亚洲国产精品国自产拍av在线| 蜜臀av一区二区三区免费观看| 丰满人妻熟妇乱又伦精品软件 | 亚洲av一二三四五区在线| 国产精品极品美女自在线观看免费 | 手机av在线播放网站| 亚洲va欧美va日韩va成人网 | 日本高清色惰www在线视频| 亚洲国产av综合一区| 鲁丝片一区二区三区免费| 亚洲欧美国产日韩字幕| 青青青草视频手机在线|