亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度神經(jīng)網(wǎng)絡(luò)的無限時(shí)域型航天器追逃策略求解*

        2020-01-09 03:48:00吳其昌張洪波
        航天控制 2019年6期
        關(guān)鍵詞:微分航天器梯度

        吳其昌 李 彬 李 君 張洪波

        1.國(guó)防科技大學(xué)空天科學(xué)學(xué)院,長(zhǎng)沙 410073 2.中國(guó)運(yùn)載火箭技術(shù)研究院,北京 100076

        航天器在軌追逃問題是一種典型的雙方最優(yōu)控制問題,微分對(duì)策理論[1]是求解此類問題的主流方法,國(guó)內(nèi)外學(xué)者對(duì)其進(jìn)行了深入的研究。一般而言,航天器的追逃運(yùn)動(dòng)模型通常維數(shù)較高,且方程通常為非線性形式,因此追逃問題的分析和求解都十分困難。Shen應(yīng)用動(dòng)力學(xué)分析方法研究了航天器追逃問題,提出追蹤航天器應(yīng)該首先機(jī)動(dòng)到目標(biāo)航天器所在的軌道面后,再追逐目標(biāo)航天器[2]。Jaga等在研究航天器追逃博弈的問題時(shí),通過使用狀態(tài)依賴?yán)杩ㄌ岱匠虒⒕€性二微分博弈論擴(kuò)展到有限時(shí)間非線性航天器追逃博弈中,導(dǎo)出了非線性控制律,結(jié)果表明在各場(chǎng)景下都優(yōu)于線性控制律[3]。Venigalla等使用可達(dá)集對(duì)航天器交會(huì)和追逃博弈進(jìn)行了研究,強(qiáng)調(diào)使用非最優(yōu)機(jī)動(dòng)來作為多航天器問題的控制方案,并驗(yàn)證了可達(dá)集的準(zhǔn)確性,找到了使用可達(dá)集來解決交會(huì)和追捕/逃避問題的必要條件[4]。Shen等將雙邊優(yōu)化問題視為最優(yōu)控制問題的擴(kuò)展,把間接優(yōu)化方法應(yīng)用于追逃博弈問題,找到了一種快速有效的方法[5]。

        人工神經(jīng)網(wǎng)絡(luò)通過模擬人腦的工作方式搭建變量之間的映射,使得人工神經(jīng)網(wǎng)絡(luò)具備了傳統(tǒng)方法不具備的非線性信息處理能力,從而具有生物神經(jīng)網(wǎng)絡(luò)的某些特性,如學(xué)習(xí)、識(shí)別、控制等功能[6]。當(dāng)前,將神經(jīng)網(wǎng)絡(luò)應(yīng)用于航天器的制導(dǎo)與控制已經(jīng)有了少量的研究。Sanchez等人系統(tǒng)說明了如何將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于連續(xù)定常的非線性系統(tǒng)(例如航天器的著陸問題)的問題[7-8]。Izzo使用深度神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)了航天器在地球和火星之間轉(zhuǎn)移的最優(yōu)軌道[9]。翎客航天使用狀態(tài)預(yù)測(cè)神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)對(duì)RLV-T3小型可回收火箭的穩(wěn)定控制[10]。

        本文主要研究無限時(shí)域型航天器追逃博弈問題,即追逃航天器的對(duì)抗不局限于某一固定時(shí)間范圍內(nèi),且在研究過程中假設(shè)對(duì)抗雙方瞬時(shí)狀態(tài)信息完全已知。首先采用微分對(duì)策方法對(duì)追逃博弈問題進(jìn)行求解,得到大量的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),然后利用神經(jīng)網(wǎng)絡(luò)能夠逼近任意非線性函數(shù)的特性,將當(dāng)前時(shí)刻追逃航天器的相對(duì)運(yùn)動(dòng)狀態(tài)和在追逃過程中航天器對(duì)相對(duì)距離、相對(duì)速度以及燃料消耗的關(guān)注程度(確定支付函數(shù))作為輸入,將追逃過程中兩航天器的機(jī)動(dòng)加速度作為輸出,利用深度神經(jīng)網(wǎng)絡(luò)對(duì)這些數(shù)據(jù)所包含的內(nèi)在關(guān)系進(jìn)行學(xué)習(xí),得到一種基于深度神經(jīng)網(wǎng)絡(luò)的航天器追逃博弈機(jī)動(dòng)策略在線生成方法。

        1 追逃博弈模型及求解

        由于追逃博弈的兩航天器相對(duì)距離較近,通常選擇兩航天器附近的一條圓軌道作為參考軌道,從而可以利用CW方程描述兩航天器相對(duì)于參考軌道的運(yùn)動(dòng)狀態(tài),如圖1所示。

        圖1 追逃兩航天器的相對(duì)運(yùn)動(dòng)狀態(tài)

        (1)

        式中

        (2)

        兩航天器的支付函數(shù)定義為

        (3)

        其中,Q為半正定對(duì)稱矩陣,RP和RE為正定對(duì)稱矩陣。

        追逃航天器最優(yōu)控制策略可表示為

        (4)

        2 深度神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)

        對(duì)于追逃博弈這類對(duì)抗性和實(shí)時(shí)性強(qiáng)的問題,采用數(shù)值方法進(jìn)行求解時(shí),由于問題復(fù)雜度高、算法收斂性差等問題導(dǎo)致計(jì)算耗時(shí)大,難以滿足實(shí)時(shí)規(guī)劃的要求。神經(jīng)網(wǎng)絡(luò)作為一種通用的狀態(tài)估計(jì)器,可以充分逼近任意復(fù)雜的非線性關(guān)系,因而利用離線訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)生成控制指令能夠大大提高計(jì)算效率,使得實(shí)時(shí)生成航天器追逃博弈雙邊閉環(huán)最優(yōu)控制成為可能。

        2.1 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇

        神經(jīng)網(wǎng)絡(luò)由一些具有非線性特征的神經(jīng)元組成,可劃分為輸入層、隱藏層和輸出層,其結(jié)構(gòu)設(shè)計(jì)主要包括隱藏層層數(shù)、各隱藏層神經(jīng)元個(gè)數(shù)以及神經(jīng)元激活函數(shù)的確定。為簡(jiǎn)化超參數(shù)的調(diào)整,本文令各隱藏層的神經(jīng)元個(gè)數(shù)一致,并從最簡(jiǎn)單的一層含10個(gè)神經(jīng)元的隱藏層開始,通過不斷嘗試隱藏層層數(shù)與各層神經(jīng)元個(gè)數(shù)的組合,比較其擬合結(jié)果及訓(xùn)練速度,最終確定隱藏層數(shù)為3,神經(jīng)元個(gè)數(shù)為60的組合。

        在隱藏層神經(jīng)元的激活函數(shù)選取中,首先采用了傳統(tǒng)的tanh函數(shù)和sigmoid函數(shù),但在神經(jīng)網(wǎng)絡(luò)層數(shù)較多時(shí),都容易出現(xiàn)梯度消失的現(xiàn)象,進(jìn)而導(dǎo)致訓(xùn)練時(shí)間大大變長(zhǎng)。因此,為有效提高訓(xùn)練速度,隱藏層的激活函數(shù)最終選用ReLU函數(shù)[12]。ReLU函數(shù)的形式如式(6)所示,上述3種激活函數(shù)的函數(shù)及其導(dǎo)數(shù)的圖像如圖2所示。

        (5)

        圖2 三種激活函數(shù)及其導(dǎo)數(shù)的函數(shù)圖

        由圖2可以看出,tanh函數(shù)和sigmoid函數(shù)在自變量過大或過小時(shí),其導(dǎo)數(shù)都趨于0,這就是其容易出現(xiàn)梯度消失現(xiàn)象的原因;而ReLU函數(shù)的非負(fù)區(qū)間的梯度為常數(shù),因此可以有效地避免梯度消失,有利于深層網(wǎng)絡(luò)的訓(xùn)練,同時(shí)ReLU函數(shù)還能使一部分神經(jīng)元的輸出為0,造成網(wǎng)絡(luò)的稀疏性,減少參數(shù)的相互依存關(guān)系,緩解過擬合問題的發(fā)生。此外ReLU函數(shù)也便于計(jì)算,可減小計(jì)算量,進(jìn)而提升網(wǎng)絡(luò)的訓(xùn)練速度。

        2.2 數(shù)據(jù)預(yù)處理

        神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過程的本質(zhì)就是學(xué)習(xí)數(shù)據(jù)的分布特性,一旦訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)的分布不同,網(wǎng)絡(luò)的泛化能力就大大降低。另外,一旦每批訓(xùn)練數(shù)據(jù)的分布各不相同,網(wǎng)絡(luò)就要在每次迭代都去學(xué)習(xí)適應(yīng)不同的分布,大大降低網(wǎng)絡(luò)的訓(xùn)練速度,因此通常需要先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。本文采用Z-score標(biāo)準(zhǔn)化對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,其公式如下:

        (6)

        式中x為原數(shù)據(jù),μ和σ分別為其均值和標(biāo)準(zhǔn)差,x′為處理后的數(shù)據(jù)。

        2.3 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練

        本文采用4層深度神經(jīng)網(wǎng)絡(luò)層數(shù),層數(shù)較深,訓(xùn)練時(shí)間比較長(zhǎng)。在網(wǎng)絡(luò)的訓(xùn)練過程中,采用小批量方法[13],通過并行化提高內(nèi)存的利用率和訓(xùn)練速度,使得梯度下降方向更加準(zhǔn)確。此外,優(yōu)化算法采用時(shí)下流行的Adam算法[14],該算法同時(shí)獲得了適應(yīng)性梯度算法(AdaGrad)[15]和均方根傳播(RMSProp)[16]的優(yōu)點(diǎn),即為每1個(gè)參數(shù)保留1個(gè)學(xué)習(xí)率以提升在稀疏梯度上的性能(AdaGrad的優(yōu)點(diǎn)),并基于權(quán)重梯度最近量級(jí)的均值為每1個(gè)參數(shù)適應(yīng)性地保留學(xué)習(xí)率,在非穩(wěn)態(tài)和在線問題上有很優(yōu)秀的性能(RMSProp的優(yōu)點(diǎn)),其更新公式如式(8)所示

        (7)

        (8)

        其中,β1和β2是常數(shù),用于控制指數(shù)衰減,mt是梯度的指數(shù)移動(dòng)均值,vt是平方梯度,其更新公式如下:

        (9)

        其中,gt為一階導(dǎo)。Adam更新公式中的α,β1,β2和ε為常數(shù),默認(rèn)設(shè)置為α=0.001,β1=0.9,β2=0.999,ε=10-8。

        表1 追逃兩航天器相對(duì)于參考軌道坐標(biāo)系的初始狀態(tài)取值范圍

        本文所研究的問題屬于回歸問題,因此訓(xùn)練過程中用于評(píng)價(jià)深度神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)性能的指標(biāo)(即損失函數(shù))選用網(wǎng)絡(luò)輸出值與期望值的均方誤差。均方誤差越接近于0,神經(jīng)網(wǎng)絡(luò)的性能越好。同時(shí),為避免出現(xiàn)過擬合的現(xiàn)象,在損失函數(shù)中引入L2正則化項(xiàng)[17],對(duì)神經(jīng)網(wǎng)絡(luò)的權(quán)重施加一定的約束,使其無法任意取值。損失函數(shù)如下所示:

        (10)

        3 仿真分析

        選擇高度為500km的近地圓軌道為參考軌道,兩航天器相對(duì)于參考軌道坐標(biāo)系的初始狀態(tài)的取值如表 1所示。式(4)給出的支付函數(shù)的權(quán)重矩陣的設(shè)置如下

        其中,m,n和l都為正實(shí)數(shù),且l>1。上述參數(shù)配置的物理意義是在追逃博弈過程中追逃兩航天器對(duì)相對(duì)距離、相對(duì)速度以及燃料消耗均加以關(guān)注,關(guān)注程度的大小由調(diào)整m,n和l的大小來進(jìn)行控制。同時(shí),因?yàn)樘右莺教炱鲬?yīng)比追蹤航天器更在意對(duì)抗中燃料的消耗,因此l>1。本文對(duì)m,n和l的大小設(shè)置如表2所示。

        根據(jù)上述參數(shù)設(shè)置,取20種不同的追蹤航天器初始運(yùn)動(dòng)狀態(tài),再分別選取20種不同的m,n和l的參數(shù)設(shè)置生成400條不同的軌跡,在這400條軌跡中每隔10s選取一個(gè)數(shù)據(jù)點(diǎn)生成訓(xùn)練數(shù)據(jù)集;同樣的,在5種不同的m,n和l的參數(shù)設(shè)置下,由5種不同的追蹤航天器初始運(yùn)動(dòng)狀態(tài)生成的25條不同的軌跡,生成測(cè)試數(shù)據(jù)集。

        搭建4層的深度神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練,所得的預(yù)測(cè)結(jié)果與真實(shí)值之間的誤差如表3所示。在400條軌跡中任取一條軌跡,得到深度神經(jīng)網(wǎng)絡(luò)擬合逃逸航天器機(jī)動(dòng)策略的圖像,如圖3所示,圖中prediction表示神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果,label表示神經(jīng)網(wǎng)絡(luò)的標(biāo)簽值,即網(wǎng)絡(luò)期望的輸出結(jié)果。訓(xùn)練完畢后,基于神經(jīng)網(wǎng)絡(luò)產(chǎn)生控制量是近實(shí)時(shí)的。

        表2 m,n和l的取值范圍

        由表3和圖3可以看出,深度神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果與標(biāo)簽值之間的絕對(duì)誤差很小,數(shù)量級(jí)為10-5。為更細(xì)致地看出預(yù)測(cè)結(jié)果和標(biāo)簽值的區(qū)別,對(duì)ax的擬合結(jié)果以對(duì)數(shù)標(biāo)度重新給出,如圖3(b)所示,可以看出,隨著追逃博弈不斷進(jìn)行,兩航天器之間的機(jī)動(dòng)加速度最終都會(huì)趨于0,同時(shí)導(dǎo)致深度神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果與標(biāo)簽值之間的相對(duì)誤差出現(xiàn)增大的趨勢(shì)。因此,本文未將相對(duì)誤差作為評(píng)價(jià)神經(jīng)網(wǎng)絡(luò)性能的一個(gè)指標(biāo)。

        表3 訓(xùn)練數(shù)據(jù)集中神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果與真實(shí)值之間的誤差

        圖3 單條軌跡中神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)值與標(biāo)簽值結(jié)果對(duì)比

        從上述測(cè)試數(shù)據(jù)集中選取一種追逃航天器的初始相對(duì)狀態(tài)和m,l和n的取值,分別使用前述的微分對(duì)策理論和深度神經(jīng)網(wǎng)絡(luò)來制定追逃航天器的機(jī)動(dòng)策略,而后追逃航天器根據(jù)相應(yīng)的策略展開對(duì)抗,對(duì)抗過程中兩航天器飛行軌跡如圖4所示,兩航天器相對(duì)運(yùn)動(dòng)狀態(tài)如圖5所示。

        圖4 追逃兩航天器飛行軌跡

        圖5 追逃航天器相對(duì)運(yùn)動(dòng)狀態(tài)隨時(shí)間變化曲線

        由圖4可以看出,微分對(duì)策理論和深度神經(jīng)網(wǎng)絡(luò)方法所求解出的飛行軌跡基本上是一樣,這說明了深度神經(jīng)網(wǎng)絡(luò)方法的有效性。

        由圖5可以看出,隨著追逃博弈過程的進(jìn)行,微分對(duì)策理論和深度神經(jīng)網(wǎng)絡(luò)方法所求解出的軌跡會(huì)逐漸呈現(xiàn)出差異,這是因?yàn)閮烧咚贫ǖ臋C(jī)動(dòng)策略差異雖然小,但卻始終存在,隨著追逃博弈的進(jìn)行,累積的偏差會(huì)逐漸變大。但是,在微分對(duì)策理論和深度神經(jīng)網(wǎng)絡(luò)方法所求解出的軌跡中,追逃兩航天器的相對(duì)運(yùn)動(dòng)狀態(tài)最終都會(huì)趨于0,并且2條軌跡的差異始終都較小,二者的變化規(guī)律基本一致,同樣證明了深度神經(jīng)網(wǎng)絡(luò)方法的有效性。

        4 結(jié)論

        針對(duì)無限時(shí)域型航天器追逃博弈問題,首先利用微分對(duì)策理論得到追逃航天器在不同的相對(duì)運(yùn)動(dòng)狀態(tài)和對(duì)相對(duì)位置、相對(duì)運(yùn)動(dòng)以及燃料不同的關(guān)注程度下所采取的機(jī)動(dòng)策略作為訓(xùn)練數(shù)據(jù),而后搭建深度神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行擬合,掌握其所隱含的內(nèi)在規(guī)律。從擬合的效果看,深度神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)值與真實(shí)值的偏差很小,數(shù)量級(jí)為10-5。最后在測(cè)試軌跡中對(duì)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行實(shí)際應(yīng)用,并與微分對(duì)策理論的結(jié)果作比較,結(jié)果表明雖然隨著追逃博弈的進(jìn)行,兩者所對(duì)應(yīng)的軌跡會(huì)逐漸出現(xiàn)偏差,但其所對(duì)應(yīng)的變化規(guī)律基本一致,飛行軌跡基本吻合,證明了深度神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的結(jié)果是有效的。

        猜你喜歡
        微分航天器梯度
        2022 年第二季度航天器發(fā)射統(tǒng)計(jì)
        一個(gè)改進(jìn)的WYL型三項(xiàng)共軛梯度法
        擬微分算子在Hp(ω)上的有界性
        一種自適應(yīng)Dai-Liao共軛梯度法
        上下解反向的脈沖微分包含解的存在性
        2019 年第二季度航天器發(fā)射統(tǒng)計(jì)
        2018 年第三季度航天器發(fā)射統(tǒng)計(jì)
        一類扭積形式的梯度近Ricci孤立子
        2018年第二季度航天器發(fā)射統(tǒng)計(jì)
        借助微分探求連續(xù)函數(shù)的極值點(diǎn)
        亚洲成熟丰满熟妇高潮xxxxx | 亚洲一区二区三区品视频| 国产成人精品久久二区二区91| 大陆国产乱人伦| 日本边添边摸边做边爱的网站| 亚洲V在线激情| av免费网站不卡观看| 久久免费看黄a级毛片| 少妇被猛男粗大的猛进出| 成年女人黄小视频| 狠狠色噜噜狠狠狠狠米奇777| 天天爽天天爽天天爽| 99国产综合精品-久久久久 | 男女视频在线观看一区| 初女破初的视频| 欧美视频九九一区二区 | 伦伦影院午夜理论片| 9lporm自拍视频区| 亚洲人成7777影视在线观看| 精品人妻中文字幕一区二区三区| 亚洲国产精品久久又爽av| 特级a欧美做爰片第一次| 99精品一区二区三区免费视频| 精品久久久久久99人妻| 亚洲乱妇熟女爽到高潮视频高清| 国产特级毛片aaaaaa视频| 国产精品开放小视频| 国内专区一区二区三区| 一边摸一边做爽的视频17国产 | 精品人妻一区二区蜜臀av| 青青草骚视频在线观看| 337p人体粉嫩胞高清视频| 亚洲国产毛片| 国产特黄1区2区3区4区| 嗯啊好爽高潮了在线观看| 午夜亚洲www湿好爽| 日韩免费高清视频网站| 国产精品一区二区久久久av| 中文字幕日韩人妻在线视频| 欧美大肥婆大肥bbbbb| av资源在线看免费观看|