亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于強(qiáng)化學(xué)習(xí)的禁飛區(qū)繞飛智能制導(dǎo)技術(shù)

        2023-07-29 03:04:42惠俊鵬汪韌郭繼峰
        航空學(xué)報 2023年11期
        關(guān)鍵詞:智能方法模型

        惠俊鵬,汪韌,郭繼峰

        1.哈爾濱工業(yè)大學(xué) 航天學(xué)院,哈爾濱 150006

        2.中國航天科技創(chuàng)新研究院,北京 100176

        高速飛行器因臨近空間的復(fù)雜不確定性,滑翔段制導(dǎo)技術(shù)的研究面臨諸多挑戰(zhàn)[1]。隨著臨近空間飛行任務(wù)的多樣化,飛行器不僅需要滿足一般的過程約束和終端約束等要求,還需要滿足規(guī)避禁飛區(qū)的要求。禁飛區(qū)指飛行器飛行過程中不允許通過的位置區(qū)域,例如地緣政治禁止通過的區(qū)域等。禁飛區(qū)繞飛制導(dǎo)技術(shù)的研究主要分為2 類:一是離線軌跡規(guī)劃;文獻(xiàn)[2-4]基于優(yōu)化理論,將飛行器禁飛區(qū)繞飛問題轉(zhuǎn)化為軌跡優(yōu)化問題,可實(shí)現(xiàn)全局軌跡的優(yōu)化求解以及最優(yōu)繞飛策略的生成。文獻(xiàn)[5]提出一種基于改進(jìn)稀疏A*算法的禁飛區(qū)繞飛軌跡規(guī)劃方法,該方法基于最小轉(zhuǎn)彎半徑約束進(jìn)行節(jié)點(diǎn)拓展,有效提高了搜索效率,能夠成功完成繞飛軌跡規(guī)劃。二是在線禁飛區(qū)繞飛制導(dǎo),趙江[6]、Liang[7]和Zhang[8]等提出了一種考慮禁飛區(qū)規(guī)避的預(yù)測校正制導(dǎo)方法,縱向制導(dǎo)采用落點(diǎn)誤差預(yù)測與指令校正相結(jié)合的方式更新傾側(cè)角的幅值,側(cè)向制導(dǎo)設(shè)計了一種傾側(cè)角反轉(zhuǎn)邏輯的切換機(jī)制,利用航向角誤差走廊和航向角導(dǎo)向區(qū)域控制飛行器的側(cè)向運(yùn)動。趙亮博等[9]開展了基于虛擬目標(biāo)導(dǎo)引的高速飛行器禁飛區(qū)規(guī)避制導(dǎo)方法研究,結(jié)合Dubins 曲線軌跡規(guī)劃方法與比例導(dǎo)引方法實(shí)時跟蹤虛擬目標(biāo),實(shí)現(xiàn)飛行器對禁飛區(qū)的規(guī)避制導(dǎo)。章吉力等[10-11]對禁飛區(qū)影響下的空天飛機(jī)可達(dá)區(qū)域計算方法進(jìn)行了研究,從極限繞飛軌跡與禁飛區(qū)的切點(diǎn)出發(fā),提出繞過禁飛區(qū)后的可達(dá)區(qū)域計算方法,并研究一種考慮禁飛區(qū)規(guī)避的分段預(yù)測校正制導(dǎo)方法。文獻(xiàn)[12-13]提出了一種基于虛擬多觸角探測的航路點(diǎn)規(guī)劃機(jī)動制導(dǎo)策略,通過飛行器最大轉(zhuǎn)彎軌跡計算速度-剩余地面距離-航向角約束,并采取雙模式多觸角探測反饋的方法進(jìn)行機(jī)動制導(dǎo)策略的設(shè)計,可有效地解決機(jī)動制導(dǎo)過程中的多約束問題。文獻(xiàn)[14]提出基于人工勢場的側(cè)向制導(dǎo)方法,適用于處理航路點(diǎn)約束和禁飛區(qū)約束問題。Yu 等[15]設(shè)計了一個復(fù)雜但嚴(yán)格的框架,獲得擬平衡滑翔條件下禁飛區(qū)繞飛的解析制導(dǎo)指令,并通過仿真驗(yàn)證了該方法可處理多個禁飛區(qū)的繞飛任務(wù)。

        近年來,隨著人工智能的快速發(fā)展,強(qiáng)化學(xué)習(xí)技術(shù)大量應(yīng)用于解決智能體的決策問題[16],具有代表性的強(qiáng)化學(xué)習(xí)算法有深度Q 網(wǎng)絡(luò)(Deep Q Network,DQN)[17]、深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)[18]、軟動作-評價(Soft Actor-Critic,SAC)[19]和近端策略優(yōu)化(Proximal Policy Optimization,PPO)[20]。強(qiáng)化學(xué)習(xí)技術(shù)在制導(dǎo)控制領(lǐng)域的應(yīng)用尚處于初步階段。文獻(xiàn)[21-27]研究了基于DDPG、DQN 和PPO 等算法的智能制導(dǎo)技術(shù),在縱向制導(dǎo)中計算傾側(cè)角幅值,抽象橫向制導(dǎo)傾側(cè)角反轉(zhuǎn)邏輯為馬爾可夫決策問題,使得飛行器初步具備了自主決策能力。在姿態(tài)控制方面,文獻(xiàn)[28-31]在傳統(tǒng)控制的基礎(chǔ)上,進(jìn)一步利用強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn)了從飛行器位置、速度和姿態(tài)角等信息到控制量的端到端飛行控制。

        傳統(tǒng)高速飛行器禁飛區(qū)繞飛方法存在2 方面的不足:一是優(yōu)化類方法存在迭代計算量大、收斂速度慢等問題,難以滿足在線應(yīng)用的實(shí)時性要求;二是預(yù)測校正制導(dǎo)方法在縱向制導(dǎo)中僅以中末交班點(diǎn)信息校正傾側(cè)角的幅值,未綜合考慮禁飛區(qū)的位置信息和中末交班點(diǎn)信息,在橫向制導(dǎo)中需要基于人工經(jīng)驗(yàn)設(shè)計飛行走廊參數(shù),對于突現(xiàn)的禁飛區(qū)適應(yīng)能力差,影響高速飛行器在不確定飛行環(huán)境中完成任務(wù)的成功率。

        針對高速飛行器禁飛區(qū)繞飛問題,通過智能技術(shù)的賦能,提升高速飛行器對不確定禁飛區(qū)繞飛的適應(yīng)能力。具體問題為:

        1)參數(shù)設(shè)置

        飛行器的再入初始點(diǎn)參數(shù)和禁飛區(qū)的位置參數(shù)在合理的范圍內(nèi)隨機(jī)設(shè)置,中末交班點(diǎn)的位置固定,目的是希望以隨機(jī)的再入初始點(diǎn)為起滑點(diǎn),成功繞飛隨機(jī)位置的禁飛區(qū),且能精確到達(dá)固定的中末交班點(diǎn)。

        2)飛行器的飛行軌跡可分為如下3段:

        第1 段,飛行器從再入初始點(diǎn)開始并不清楚前方是否有禁飛區(qū),在尚未發(fā)現(xiàn)禁飛區(qū)時,以中末交班點(diǎn)為滑翔段目標(biāo)點(diǎn),基于預(yù)測校正制導(dǎo)方法實(shí)時解算制導(dǎo)指令;第2 段,當(dāng)飛行器與禁飛區(qū)中心點(diǎn)的距離小于禁飛區(qū)半徑的2.5 倍時,飛行器探測到前方有禁飛區(qū),開始實(shí)施機(jī)動繞飛,該段采用智能制導(dǎo)方法,以飛行器相對禁飛區(qū)和中末交班點(diǎn)的狀態(tài)信息為輸入變量,利用訓(xùn)練的智能制導(dǎo)模型實(shí)時輸出繞飛時的制導(dǎo)指令;第3 段,當(dāng)飛行器與中末交班點(diǎn)的距離小于禁飛區(qū)中心點(diǎn)與中末交班點(diǎn)的距離時,認(rèn)為禁飛區(qū)繞飛結(jié)束,繞飛結(jié)束后繼續(xù)采用預(yù)測校正制導(dǎo)方法控制飛行器精確到達(dá)中末交班點(diǎn)。

        本文的立意主要體現(xiàn)在以下2 個方面:

        1)提出“預(yù)測校正制導(dǎo)—基于監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練傾側(cè)角制導(dǎo)模型—基于強(qiáng)化學(xué)習(xí)進(jìn)一步升級傾側(cè)角制導(dǎo)模型”逐級遞進(jìn)的禁飛區(qū)繞飛智能制導(dǎo)研究框架。首先,設(shè)置高速飛行器合適的初始點(diǎn)和禁飛區(qū)的參數(shù)范圍,基于傳統(tǒng)預(yù)測校正制導(dǎo)方法,生成大量的禁飛區(qū)繞飛樣本軌跡;其次,利用監(jiān)督學(xué)習(xí)方法和生成的樣本軌跡對傾側(cè)角制導(dǎo)模型進(jìn)行預(yù)訓(xùn)練,其目的是通過領(lǐng)域知識引導(dǎo)繞飛策略的搜索,使得基于監(jiān)督學(xué)習(xí)方法訓(xùn)練出的制導(dǎo)模型對禁飛區(qū)的繞飛效果最大程度逼近基于預(yù)測校正制導(dǎo)的繞飛效果。

        2)在監(jiān)督學(xué)習(xí)的基礎(chǔ)上,進(jìn)一步利用強(qiáng)化學(xué)習(xí)技術(shù)在智能決策方面的天然優(yōu)勢,擺脫傳統(tǒng)預(yù)測校正制導(dǎo)方法對傾側(cè)角解空間的約束,通過飛行器與環(huán)境大量交互“試錯”,并借鑒人類基于反饋來調(diào)整學(xué)習(xí)策略的思想,設(shè)置有效的獎勵(反饋)引導(dǎo),利用強(qiáng)化學(xué)習(xí)中PPO 算法進(jìn)一步升級禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型。一方面利用智能技術(shù)充分挖掘高升阻比飛行器強(qiáng)大的橫向機(jī)動能力,在不同傾側(cè)角下其橫向機(jī)動距離可以從幾百公里跨越到上千公里,利用智能制導(dǎo)模型將傾側(cè)角的幅值和符號一并輸出,具有更大的探索空間,期望產(chǎn)生更優(yōu)的繞飛策略;另一方面受飛行器的能量約束,在繞飛時需綜合考慮禁飛區(qū)約束和滑翔終端約束,確保繞飛后具備足夠的能量精確到達(dá)中末交班點(diǎn),從而滿足未來飛行器智能決策系統(tǒng)對不確定場景的適應(yīng)性需求。

        圍繞基于強(qiáng)化學(xué)習(xí)的禁飛區(qū)繞飛智能制導(dǎo)技術(shù)開展研究,第1 節(jié)建立了高速飛行器的動力學(xué)模型;第2 節(jié)研究了禁飛區(qū)繞飛智能制導(dǎo)模型的設(shè)計;第3 節(jié)深入研究基于監(jiān)督學(xué)習(xí)的禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型的訓(xùn)練;第4 節(jié)在第3 節(jié)研究的基礎(chǔ)上,進(jìn)一步深入研究基于強(qiáng)化學(xué)習(xí)的禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型的升級訓(xùn)練;第5 節(jié)給出仿真、對比與結(jié)果分析;第6 節(jié)為結(jié)論。

        1 高速飛行器動力學(xué)建模

        1.1 高速飛行器運(yùn)動模型

        高速飛行器三自由度動力學(xué)方程為

        式中:r為地心距;θ和?分別表示飛行器的經(jīng)緯度;V為飛行速度;γ和ψ分別表示飛行器的航跡角和航向角;σ表示傾側(cè)角;m為飛行器的質(zhì)量;g為重力加速度;L和D分別表示飛行器受到的升力和阻力[32]。

        1.2 再入制導(dǎo)約束

        高速飛行器在飛行過程中需滿足多種約束條件,主要包括:

        1)硬約束條件

        硬約束條件是指飛行器飛行過程中需要滿足的熱流率、過載和動壓等約束條件,其表達(dá)式為

        2)中末交班點(diǎn)約束條件

        中末交班點(diǎn)約束是指滑翔段和末制導(dǎo)段的交班點(diǎn)滿足高度、速度、經(jīng)緯度等約束,可表示為

        式中:tf、rf、Vf、θf和?f分別表示中末交班點(diǎn)的時刻、地心距、速度、經(jīng)度和緯度,tf不固定,rf、Vf、θf和?f是預(yù)先設(shè)置的。

        3)禁飛區(qū)約束條件

        一般采用無限高的圓柱模型來描述禁飛區(qū)約束,再入飛行軌跡不能與該圓柱相交。禁飛區(qū)約束可建模為

        式中:R0為地球半徑;θNFZ、?NFZ和rNFZ分別表示禁飛區(qū)中心的經(jīng)度、緯度和半徑。

        2 禁飛區(qū)繞飛智能制導(dǎo)模型的設(shè)計

        2.1 研究框架

        本文借鑒Alpha Go[33]的思想,將監(jiān)督學(xué)習(xí)技術(shù)和強(qiáng)化學(xué)習(xí)技術(shù)融合應(yīng)用于禁飛區(qū)繞飛制導(dǎo)中,主要包括3 個步驟,如圖1 所示。

        圖1 高速飛行器禁飛區(qū)繞飛智能制導(dǎo)研究框架Fig.1 Research framework of intelligent guidance of re‐entry vehicles for avoiding no-fly zone

        步驟1預(yù)測校正制導(dǎo)

        設(shè)置飛行器再入初始點(diǎn)和禁飛區(qū)的參數(shù)范圍,基于傳統(tǒng)預(yù)測校正制導(dǎo)方法,生成大量的繞飛樣本軌跡。

        步驟2監(jiān)督學(xué)習(xí)

        建立禁飛區(qū)繞飛傾側(cè)角智能制導(dǎo)模型,利用監(jiān)督學(xué)習(xí)中帶有動量的隨機(jī)梯度下降(Stochas‐tic Gradient Descent with Momentum,SGDM)算法[34]和步驟1 產(chǎn)生的繞飛樣本軌跡,訓(xùn)練傾側(cè)角智能制導(dǎo)模型。

        步驟3強(qiáng)化學(xué)習(xí)

        在步驟2 基于監(jiān)督學(xué)習(xí)訓(xùn)練出的禁飛區(qū)繞飛傾側(cè)角智能制導(dǎo)模型的基礎(chǔ)上,利用強(qiáng)化學(xué)習(xí)在智能決策方面的優(yōu)勢,在禁飛區(qū)約束、終端約束、過程約束下通過飛行器與環(huán)境進(jìn)行大量交互,并借鑒人類基于反饋來調(diào)整學(xué)習(xí)策略的思想,設(shè)置有效的獎勵(反饋),利用強(qiáng)化學(xué)習(xí)中PPO 算法[20]進(jìn)一步訓(xùn)練禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型,實(shí)現(xiàn)飛行器基于實(shí)時的狀態(tài)信息在線決策禁飛區(qū)繞飛所需的傾側(cè)角幅值和符號指令。該方法一方面充分挖掘高升阻比飛行器強(qiáng)大的橫向機(jī)動能力,另一方面受飛行器的能量約束,確保繞飛后具備足夠的能量精確到達(dá)中末交班點(diǎn)。

        2.2 禁飛區(qū)繞飛傾側(cè)角智能制導(dǎo)模型

        禁飛區(qū)繞飛示意圖如圖2 所示。其中,C是高速飛行器的當(dāng)前位置;T為中末交班點(diǎn)的位置;Z為禁飛區(qū)的中心;M為C點(diǎn)與禁飛區(qū)切線的交點(diǎn)。過C點(diǎn)作禁飛區(qū)的切線CM和CN,CM與北向的夾角為ψM。

        圖2 禁飛區(qū)繞飛示意圖Fig.2 Diagram of avoiding no-fly zone

        禁飛區(qū)繞飛傾側(cè)角智能制導(dǎo)模型如圖3 所示,其中制導(dǎo)模型的輸入為飛行器的狀態(tài)向量,定義狀態(tài)向量為

        圖3 基于LSTM 的禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型Fig.3 Bank angle guidance model avoiding no-fly zone based on LSTM

        式中:Δr=r?rf表示t時刻的地心距與中末交班點(diǎn)地心距的差;ΔV=V?Vf表示t時刻的速度與中末交班點(diǎn)速度的差;Ltogo表示t時刻飛行器距離中末交班點(diǎn)的剩余航程:

        s(t)的后2 個變量(ψMCV,ψTCZ)為飛行器相對禁飛區(qū)的狀態(tài)變量。由圖2 可以看出,在禁飛區(qū)繞飛時需要考慮:

        1)判斷從哪一側(cè)規(guī)避禁飛區(qū),ψTCZ=ψT?ψZ表示CT與北向的夾角ψT與CZ與北向的夾角ψZ的差。當(dāng)ψTCZ<0 時,從禁飛區(qū)左側(cè)繞飛;當(dāng)ψTCZ>0 時,從禁飛區(qū)右側(cè)繞飛。

        2)判斷速度V的方向是否指向禁飛區(qū),ψMCV=ψM?ψ表示CM與北向的夾角ψM與飛行器航向角ψ的差。當(dāng)飛行器速度方向指向禁飛區(qū)外側(cè)時,ψMCV>0;當(dāng)飛行器速度方向指向禁飛區(qū)時,ψMCV<0。

        禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型的隱層為長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)模型[35],隱層的節(jié)點(diǎn)數(shù)為64 個,隱層到輸出層是全連接,輸出為傾側(cè)角σ。

        從智能決策的角度來說,飛行器繞飛決策屬于典型的序貫決策問題,每一時刻決策傾側(cè)角時不僅取決于飛行器當(dāng)前時刻的狀態(tài),還與上一時刻的傾側(cè)角有關(guān)。因而在決策傾側(cè)角時需要考慮相鄰時刻間的狀態(tài)關(guān)系,而這也恰好是LSTM 所具有的獨(dú)特優(yōu)勢,是解決序貫決策的經(jīng)典模型,因而選擇基于LSTM 構(gòu)建禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型。

        2.3 傾側(cè)角幅值的約束

        基于LSTM 模型輸出禁飛區(qū)繞飛的傾側(cè)角需滿足再入過程的硬約束條件。文獻(xiàn)[32]將再入過程的硬約束條件轉(zhuǎn)化為對傾側(cè)角幅值的約束:

        式中:CL和CD分別為升力系數(shù)和阻力系數(shù);S為特征面積;分別為熱流率、過載和動壓約束下飛行器傾側(cè)角的上界。在基于LSTM 模型輸出禁飛區(qū)繞飛傾側(cè)角幅值的基礎(chǔ)上,進(jìn)一步利用式(7)對傾側(cè)角進(jìn)行限制,使其滿足硬約束條件。

        3 基于監(jiān)督學(xué)習(xí)的禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型的訓(xùn)練

        訓(xùn)練過程分為2 步:一是禁飛區(qū)繞飛訓(xùn)練樣本的生成;二是禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型的訓(xùn)練。

        3.1 訓(xùn)練樣本的生成

        選取美國通用航空飛行器CAV-H 為研究對象,基于預(yù)測校正制導(dǎo)方法產(chǎn)生禁飛區(qū)繞飛的樣本數(shù)據(jù)。參數(shù)設(shè)置如下[36]:

        1)飛行器參數(shù)

        質(zhì)量m=907.20 kg,特征面積S=0.483 9 m2,過程約束中最大允許熱流率,最大允許過載nmax=3g,最大允許動壓qmax=100 kPa。

        2)中末交班點(diǎn)參數(shù)

        高度hf=23 km,經(jīng)度θf=50°,緯度?f=0°,速度。

        3)攻角剖面

        4)飛行器再入初始點(diǎn)和禁飛區(qū)的狀態(tài)參數(shù)設(shè)置如表1 所示。

        表1 飛行器再入初始點(diǎn)和禁飛區(qū)的參數(shù)Table 1 Parameters of initial state and no?fly zone of flight vehicle

        在上述參數(shù)范圍內(nèi)隨機(jī)設(shè)置飛行器的再入初始點(diǎn)和禁飛區(qū)參數(shù),在預(yù)測校正制導(dǎo)下可以獲得大量的繞飛軌跡數(shù)據(jù)。在打靶試驗(yàn)后,總計生成2 048 條飛行軌跡,從禁飛區(qū)左側(cè)和從右側(cè)規(guī)避的飛行軌跡各1 024 條。符合中末交班點(diǎn)約束和禁飛區(qū)約束的飛行軌跡共1 309 條,其中從左側(cè)規(guī)避彈道623 條,從右側(cè)規(guī)避彈道686 條,如圖4 所示。從1 309 條飛行軌跡數(shù)據(jù)中,隨機(jī)抽取1 200 條飛行軌跡數(shù)據(jù)組成樣本集,其中840 條飛行軌跡用作監(jiān)督學(xué)習(xí)時的訓(xùn)練集,180 條飛行軌跡用作驗(yàn)證集,剩下的180條飛行軌跡用作測試集。

        圖4 通用航空飛行器H 從左右兩側(cè)規(guī)避禁飛區(qū)的繞飛軌跡Fig.4 Subsatellite track formed by common aero vehicle-H avoiding no-fly zone from left and right side

        需要說明的是,圖4 中的每條飛行軌跡分為3 段,其中第1、3 段在圖中用虛線表示,中間第2 段用實(shí)線表示。第1 段為尚未發(fā)現(xiàn)禁飛區(qū)時以中末交班點(diǎn)為目標(biāo)點(diǎn)的飛行軌跡;當(dāng)飛行器與禁飛區(qū)中心點(diǎn)的距離小于禁飛區(qū)半徑的2.5 倍時,認(rèn)為飛行器探測到前方的禁飛區(qū),開始繞飛,即用實(shí)線表示的第2 段繞飛軌跡;當(dāng)飛行器與中末交班點(diǎn)距離,小于禁飛區(qū)中心點(diǎn)與中末交班點(diǎn)距離時,認(rèn)為禁飛區(qū)繞飛結(jié)束,進(jìn)入虛線表示的第3 段飛行軌跡。在訓(xùn)練時截取第2 段禁飛區(qū)繞飛的樣本數(shù)據(jù)訓(xùn)練傾側(cè)角智能制導(dǎo)模型。

        3.2 傾側(cè)角智能制導(dǎo)模型的訓(xùn)練

        將840 條訓(xùn)練飛行軌跡數(shù)據(jù)輸入圖3 基于LSTM 的禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型中,基于監(jiān)督學(xué)習(xí)的思想,選取均方根誤差(Root Mean Square Error,RMSE)作為評價指標(biāo),其定義為

        式中:N表示軌跡的數(shù)目;R表示每一條軌跡的樣本點(diǎn)數(shù)。

        訓(xùn)練結(jié)果如圖5 所示,可以看出,均方根誤差隨著訓(xùn)練迭代次數(shù)的增加逐漸減小且趨于收斂。

        圖5 均方根誤差隨迭代次數(shù)的變化曲線Fig.5 RMSE-epoch variation curve

        4 基于強(qiáng)化學(xué)習(xí)的禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型的訓(xùn)練

        在第3 節(jié)基于監(jiān)督學(xué)習(xí)的禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型訓(xùn)練的基礎(chǔ)上,進(jìn)一步將強(qiáng)化學(xué)習(xí)技術(shù)應(yīng)用于禁飛區(qū)繞飛制導(dǎo)中,在禁飛區(qū)約束、中末交班點(diǎn)約束和硬約束條件下通過飛行器與環(huán)境進(jìn)行大量交互,在“試錯”的過程中設(shè)置有效的獎勵(反饋),并利用PPO 算法訓(xùn)練傾側(cè)角制導(dǎo)模型,進(jìn)一步提升對不確定禁飛區(qū)的適應(yīng)性。

        基于強(qiáng)化學(xué)習(xí)研究飛行器禁飛區(qū)繞飛制導(dǎo)律,需首先利用馬爾科夫決策過程對禁飛區(qū)繞飛制導(dǎo)問題進(jìn)行建模,主要包括3 部分:禁飛區(qū)繞飛時的狀態(tài)空間、繞飛決策的動作空間和繞飛獎勵的設(shè)計。

        1)禁飛區(qū)繞飛時的狀態(tài)空間

        飛行器的狀態(tài)空間如式(5)所示,即s(t)=[Δr,ΔV,ψ,Ltogo,ψMCV,ψTCZ]T。

        2)禁飛區(qū)繞飛時的動作空間

        飛行器的動作空間A為傾側(cè)角σ,包括傾側(cè)角的幅值和符號:

        3)禁飛區(qū)繞飛時的獎勵設(shè)計

        獎勵根據(jù)任務(wù)需求進(jìn)行設(shè)計,以引導(dǎo)飛行器在對禁飛區(qū)繞飛的同時,具備良好的能量和交班管理。獎勵的設(shè)計包括過程獎勵和終端獎勵。除了終端獎勵,設(shè)計過程獎勵的目的是避免出現(xiàn)稀疏獎勵問題,稀疏獎勵容易使訓(xùn)練難以收斂。

        4.1 過程獎勵

        過程獎勵分為2 部分:

        1)利用傳統(tǒng)的預(yù)測校正制導(dǎo)引導(dǎo)禁飛區(qū)繞飛時的策略搜索,即強(qiáng)化學(xué)習(xí)算法的“利用”(Ex‐ploit)性質(zhì);同時需增加飛行器與環(huán)境交互過程中的探索性,期望其能夠探索出比傳統(tǒng)制導(dǎo)方法更優(yōu)、適應(yīng)范圍更廣的智能制導(dǎo)方法,即強(qiáng)化學(xué)習(xí)算法的“探索”(Explore)性質(zhì)。該獎勵定義為

        式中:kcomd>0 為常數(shù);σtra為當(dāng)前狀態(tài)下預(yù)測校正制導(dǎo)給出的傾側(cè)角指令;σt為智能制導(dǎo)模型探索出的傾側(cè)角指令。通過設(shè)計有效的Δσ域,以提供飛行器傾側(cè)角指令合理的探索空間。

        2)在繞飛過程中需要引導(dǎo)飛行器持續(xù)飛向中末交班點(diǎn),該獎勵定義為

        式中:kgoto>0 為常數(shù);dexit為判定禁飛區(qū)繞飛結(jié)束時的條件距離;dt為當(dāng)前剩余航程,飛行器越接近繞飛結(jié)束點(diǎn),該項(xiàng)獎勵越大。

        4.2 終端獎勵

        終端獎勵分為2 部分:

        1)負(fù)責(zé)對不合理情況進(jìn)行當(dāng)前局終止,并給出終局獎勵ravoid。不合理情況的判斷條件為

        式中:cavoid為條件判斷符,用于判斷是否出現(xiàn)不合理情況,取布爾值0 或1,滿足條件取1,觸發(fā)結(jié)束當(dāng)前局條件;Et表示飛行器的能量,其表達(dá)式為,EJB為中末交班點(diǎn)能量,Et

        式中:aavoid>0 為常數(shù)。

        2)飛行器精確到達(dá)中末交班點(diǎn)的獎勵rJB,其定義為

        5 仿真與分析

        5.1 不同制導(dǎo)方法對比分析

        以CAV-H 為研究對象,參數(shù)設(shè)置見3.1 節(jié),比較3 種不同制導(dǎo)方法對禁飛區(qū)的繞飛效果:①預(yù)測校正制導(dǎo)方法;②第3 節(jié)基于監(jiān)督學(xué)習(xí)中SGDM 算法訓(xùn)練禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型的方法(圖中記為“LSTM 模型+SGDM 算法”);③第4 節(jié)中基于強(qiáng)化學(xué)習(xí)中PPO 算法訓(xùn)練禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型的方法(記為“LSTM 模型+PPO 算法”),對比結(jié)果如圖6~圖10 所示。

        圖6 橫向繞飛軌跡對比Fig.6 Comparison of horizontal trajectory for avoiding no-fly zone

        圖7 高度-速度對比Fig.7 Comparison of height-velocity

        圖8 傾側(cè)角-時間對比Fig.8 Comparison of bank angle-time

        圖9 航跡角-時間對比Fig.9 Comparison of flight path angle-time

        圖10 航向角-時間對比Fig.10 Comparison of heading angle-time

        由圖6~圖10 可以看出,“預(yù)測校正制導(dǎo)”與“LSTM 模型+SGDM 算法”2 種制導(dǎo)方式下的禁飛區(qū)繞飛的軌跡基本重合,這是由于利用監(jiān)督學(xué)習(xí)訓(xùn)練傾側(cè)角制導(dǎo)模型時,選取的禁飛區(qū)繞飛樣本軌跡是基于預(yù)測校正制導(dǎo)方法產(chǎn)生,該訓(xùn)練過程可理解為對預(yù)測校正制導(dǎo)的擬合過程。由圖6 可以看出,該方法雖然能成功繞飛禁飛區(qū),但由于對禁飛區(qū)規(guī)避機(jī)動過大而導(dǎo)致能量損失過多,在繞飛后無法精確到達(dá)中末交班點(diǎn)?!癓STM模型+PPO 算法”制導(dǎo)下的繞飛軌跡明顯不同于預(yù)測校正制導(dǎo)下的飛行軌跡,在過程獎勵和終端獎勵的引導(dǎo)下,探索出比傳統(tǒng)制導(dǎo)方法更優(yōu)的智能制導(dǎo)方法,不僅能夠?qū)崿F(xiàn)對禁飛區(qū)的成功繞飛,且在繞飛后精確到達(dá)中末交班點(diǎn)。

        5.2 Monte Carlo 仿真分析

        為驗(yàn)證“LSTM 模型+PPO 算法”制導(dǎo)方法的魯棒性和對參數(shù)偏差的適應(yīng)性,對飛行器再入初始狀態(tài)、氣動參數(shù)進(jìn)行拉偏仿真分析。

        在如表2 所示的再入初始狀態(tài)擾動和氣動偏差的條件下,基于“LSTM 模型+PPO 算法”制導(dǎo)方法進(jìn)行729 組的Monte Carlo 仿真,落點(diǎn)經(jīng)緯度的散布圖如圖11 所示,可以看出中末交班點(diǎn)的經(jīng)緯度均勻分布在θf=50°、?f=0°周圍,且最大落點(diǎn)偏差控制在±0.1°的范圍內(nèi)。

        表2 飛行器再入初始狀態(tài)和氣動參數(shù)偏差Table 2 Initial state error and aerodynamic parameter perturbation

        圖11 初始狀態(tài)和氣動參數(shù)擾動下落點(diǎn)經(jīng)緯度的散布圖Fig.11 Scatter of longitude and latitude of setting point under initial state error and aerodynamic param‐eter perturbation

        為進(jìn)一步對比傳統(tǒng)預(yù)測校正制導(dǎo)與“LSTM模型+PPO 算法”制導(dǎo)方法對禁飛區(qū)的繞飛效果,對比結(jié)果如圖12 所示,每個格子代表不同的起始點(diǎn)經(jīng)度、緯度、速度和高度,其中經(jīng)度變化范圍為[4.8°,5.2°],緯度變化范圍為[?0.2°,0.2°],步長為0.05°;高度變化范圍為[48,50] km;速度變化范圍為[5 550,5 600] km/s??梢钥闯?,在初始參數(shù)擾動情況下,“LSTM 模型+PPO 算法”制導(dǎo)方法相比于預(yù)測校正制導(dǎo)具有更高的繞飛成功率,其原因在于基于LSTM 的智能制導(dǎo)模型具有天然的泛化能力,因而對于參數(shù)的偏差具有更強(qiáng)的魯棒性。

        圖12 預(yù)測校正制導(dǎo)與“LSTM 模型+PPO 算法”制導(dǎo)方法對比Fig.12 Comparison of predictor-corrector guidance and “LSTM model+PPO algorithm” guidance method

        5.3 實(shí)時性分析

        進(jìn)一步分析“LSTM 模型+PPO 算法”制導(dǎo)方法在實(shí)時性方面的性能。在Monte Carlo 仿真中,基于“LSTM 模型+PPO 算法”制導(dǎo)方法完成一次禁飛區(qū)繞飛時傾側(cè)角指令解算的平均時長為3.61 s,其具體分布如圖13 所示,其中基于LSTM 模型生成傾側(cè)角的時長為2.26 s,龍格庫塔RK-4 積分時長為1.23 s。

        圖13 計算實(shí)時性對比分析Fig.13 Comparison of computing time analysis

        與之對比,在Monte Carlo 仿真中,基于預(yù)測校正制導(dǎo)方法完成一次禁飛區(qū)繞飛時傾側(cè)角指令解算的平均時長為18.49 s,其中縱向制導(dǎo)的平均時長為17.18 s,橫向制導(dǎo)過程占其中的1.23 s。這是因?yàn)樵诳v向制導(dǎo)中,對動力學(xué)方程進(jìn)行積分的預(yù)測過程和基于割線法求解傾側(cè)角的校正過程計算量較大,占用的時間較長。而基于LSTM 模型的禁飛區(qū)繞飛傾側(cè)角指令的解算沒有“預(yù)測”環(huán)節(jié)和“積分”環(huán)節(jié),大大減少了計算量,提高了計算速度。因而,在實(shí)時性方面,基于“LSTM 模型+PPO 算法”制導(dǎo)方法相比于傳統(tǒng)預(yù)測校正制導(dǎo)具有明顯的優(yōu)勢。

        6 結(jié)論

        針對傳統(tǒng)基于優(yōu)化類方法解決禁飛區(qū)繞飛存在計算量大、難以收斂的問題,基于預(yù)測校正的制導(dǎo)方法在縱向制導(dǎo)中僅以中末交班點(diǎn)信息校正傾側(cè)角的幅值,未綜合考慮禁飛區(qū)的位置信息和中末交班點(diǎn)信息,在橫向制導(dǎo)中需要基于人工經(jīng)驗(yàn)設(shè)計飛行走廊參數(shù),對于突現(xiàn)的禁飛區(qū)適應(yīng)能力差。利用強(qiáng)化學(xué)習(xí)技術(shù)在智能決策方面的天然優(yōu)勢,通過飛行器與環(huán)境大量交互“試錯”,并借鑒人類基于反饋來調(diào)整學(xué)習(xí)策略的思想,基于有效的獎勵(反饋)引導(dǎo)和強(qiáng)化學(xué)習(xí)中PPO 算法訓(xùn)練禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型。該智能制導(dǎo)模型將傾側(cè)角的幅值和符號一并輸出,能夠充分挖掘高升阻比飛行器強(qiáng)大的橫向機(jī)動能力,以產(chǎn)生更優(yōu)的繞飛策略。同時本文在繞飛時綜合考慮禁飛區(qū)約束和再入終端約束,確保繞飛后具備足夠的能量精確到達(dá)中末交班點(diǎn)。

        盡管基于強(qiáng)化學(xué)習(xí)的智能制導(dǎo)技術(shù)能夠充分挖掘飛行器的寬域飛行優(yōu)勢,且具備非線性映射能力和實(shí)時性方面的天然優(yōu)勢,但目前的智能制導(dǎo)技術(shù)存在難以回避的缺點(diǎn):一是基于強(qiáng)化學(xué)習(xí)的智能制導(dǎo)技術(shù)本質(zhì)上還是純數(shù)據(jù)驅(qū)動的模式,需要飛行器與環(huán)境交互產(chǎn)生大量樣本數(shù)據(jù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,但在航天領(lǐng)域,真實(shí)的飛行數(shù)據(jù)往往難以獲取,只能在仿真環(huán)境下獲取,存在仿真環(huán)境與實(shí)際飛行環(huán)境不一致的問題;二是目前的人工智能仍然處于計算智能階段,神經(jīng)網(wǎng)絡(luò)模型只能在訓(xùn)練樣本數(shù)據(jù)集覆蓋的范圍內(nèi)有效,依然不具備較強(qiáng)的泛化能力,實(shí)際飛行中若出現(xiàn)數(shù)據(jù)集范圍外的情況,神經(jīng)網(wǎng)絡(luò)的性能將難以保證。智能制導(dǎo)技術(shù)與傳統(tǒng)制導(dǎo)技術(shù)不是簡單的替代關(guān)系,傳統(tǒng)制導(dǎo)技術(shù)可以在關(guān)鍵點(diǎn)上吸納人工智能技術(shù)在記憶、推理、擬合等方面的優(yōu)勢,2 種技術(shù)的交叉融合是飛行器制導(dǎo)控制的熱門研究方向。

        猜你喜歡
        智能方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        亚洲欧美日韩中文字幕网址| 四虎国产精品永久在线 | 精品成人av一区二区三区| 国产精品麻豆综合在线| 亚洲AV色欲色欲WWW| 全亚洲最大的私人影剧院在线看 | 精品精品国产三级av在线| 国产午夜精品av一区二区麻豆 | 极品粉嫩小仙女高潮喷水网站| 男人进去女人爽免费视频| 国产男女猛烈无遮挡免费视频| 婷婷精品国产亚洲av| 成人久久黑人中出内射青草| 国产熟妇另类久久久久| 宅男噜噜噜| 久久精品网站免费观看| 免费国产在线精品一区二区三区免| 少妇仑乱a毛片| 久久久伊人影院| 国产专区国产av| 思思久久96热在精品不卡| 精品亚洲一区二区在线观看| 加勒比色老久久爱综合网| 国外亚洲成av人片在线观看| 依依成人影视国产精品| 蜜桃噜噜一区二区三区| 无码爆乳护士让我爽| 亚洲a∨无码一区二区| 精品久久久久久国产潘金莲| 四季极品偷拍一区二区三区视频| 国产午夜福利在线观看红一片| 久久aⅴ无码一区二区三区| 中文字幕中乱码一区无线精品| 国产毛片av最新视频| 午夜男女爽爽爽在线视频| 国产成人啪精品视频免费网| 国产91精品在线观看| 久久久国产精品无码免费专区| 国内精品久久久人妻中文字幕 | 97久久婷婷五月综合色d啪蜜芽| 日韩人妻无码一区二区三区久久99|