亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強(qiáng)化學(xué)習(xí)與高度速率反饋的再入制導(dǎo)方法

        2022-09-27 12:27:34武天才王宏倫劉一恒
        無(wú)人系統(tǒng)技術(shù) 2022年4期
        關(guān)鍵詞:傾側(cè)制導(dǎo)飛行器

        武天才,王宏倫,劉一恒,任 斌,余 躍

        (1.北京航空航天大學(xué)自動(dòng)化科學(xué)與電氣工程學(xué)院,北京 100191;2.北京航空航天大學(xué)高等理工學(xué)院,北京 100191;3.北京航空航天大學(xué)飛行器控制一體化技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100191;4.北京航天自動(dòng)控制研究所,北京 100854)

        1 引 言

        高超聲速飛行器由于其飛行速度快、飛行空域廣、機(jī)動(dòng)性能好、遠(yuǎn)程打擊精確等優(yōu)勢(shì),在軍事和民用領(lǐng)域備受關(guān)注[1-2]。然而,在再入飛行過(guò)程中,由于受到復(fù)雜環(huán)境、模型不確定性和嚴(yán)苛路徑約束等因素的制約,再入制導(dǎo)技術(shù)成為高超聲速飛行技術(shù)領(lǐng)域的核心和關(guān)鍵技術(shù)之一,也是當(dāng)前各國(guó)空天領(lǐng)域研究的重點(diǎn)與難點(diǎn)[3]。

        高超聲速飛行器的再入制導(dǎo)算法一般分為標(biāo)稱軌跡制導(dǎo)與預(yù)測(cè)校正制導(dǎo)兩種[4]。雖然標(biāo)稱軌跡制導(dǎo)方法具有計(jì)算量小、實(shí)時(shí)性高和對(duì)機(jī)載計(jì)算機(jī)性能要求較低等優(yōu)點(diǎn),但是其魯棒性較差,初始散布偏差和環(huán)境不確定性會(huì)對(duì)其制導(dǎo)性能產(chǎn)生嚴(yán)重影響。近年來(lái),隨著機(jī)載計(jì)算機(jī)性能的不斷提高,具有在線校正制導(dǎo)指令能力的預(yù)測(cè)校正制導(dǎo)方法逐漸成為主流[5]。文獻(xiàn)[6]基于基礎(chǔ)的預(yù)測(cè)校正制導(dǎo)方法,給出了適用于不同種類(lèi)高超聲速飛行器再入制導(dǎo)方案的統(tǒng)一設(shè)計(jì)框架。為解決熱流密度、動(dòng)壓和過(guò)載等路徑約束對(duì)飛行器的限制,文獻(xiàn)[7]提出了一種受限預(yù)測(cè)校正制導(dǎo)方法,該方法借助準(zhǔn)平衡滑翔條件(Quasi-Equilibrium Glide Condition,QEGC),巧妙地將再入路徑約束轉(zhuǎn)換為對(duì)傾側(cè)角幅值的約束。

        對(duì)于具有高升阻比的高超聲速飛行器而言,另一個(gè)需要關(guān)注的現(xiàn)象是:在再入滑翔過(guò)程中,飛行器高度會(huì)呈現(xiàn)一種周期性振蕩的現(xiàn)象。這種振蕩會(huì)使飛行器逾越路徑約束,甚至使準(zhǔn)平衡滑翔條件失效,嚴(yán)重影響系統(tǒng)的穩(wěn)定性。文獻(xiàn)[8]在預(yù)測(cè)校正制導(dǎo)方法的基礎(chǔ)上,設(shè)計(jì)了一種參數(shù)化的反饋控制律,可以根據(jù)飛行器高度變化速率進(jìn)行傾側(cè)角幅值修正來(lái)抑制振蕩現(xiàn)象。文獻(xiàn)[9]則是以高度變化率及空速為輸入,設(shè)計(jì)模糊控制器對(duì)傾側(cè)角幅值進(jìn)行調(diào)節(jié)來(lái)抑制振蕩。但是這兩種方法一定程度上依賴于參數(shù)或模糊規(guī)則設(shè)計(jì),需要人工不斷迭代校正才能提升效果。

        近年來(lái),以深度學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí)為代表的新一代人工智能方法廣泛應(yīng)用于各類(lèi)復(fù)雜系統(tǒng)以提高傳統(tǒng)方法的性能[10-11]。為解決無(wú)人機(jī)在復(fù)雜環(huán)境下的航路規(guī)劃問(wèn)題,文獻(xiàn)[12]將深度神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)流體擾動(dòng)方法結(jié)合,提升了算法的實(shí)時(shí)性和自適應(yīng)能力。文獻(xiàn)[13]將導(dǎo)彈目標(biāo)攔截中的制導(dǎo)控制一體化問(wèn)題轉(zhuǎn)化為強(qiáng)化學(xué)習(xí)優(yōu)化問(wèn)題,通過(guò)設(shè)計(jì)啟發(fā)式的獎(jiǎng)勵(lì)函數(shù)使導(dǎo)彈可以低能耗且快速穩(wěn)定地?cái)r截目標(biāo)。文獻(xiàn)[14]利用深度強(qiáng)化學(xué)習(xí)Q-learning 算法在線決策飛行器傾側(cè)角的符號(hào)指令,消除了傳統(tǒng)方法在側(cè)向制導(dǎo)邏輯設(shè)計(jì)時(shí)增加的一些不必要約束,并有望應(yīng)用于規(guī)避多禁飛區(qū)的軌跡規(guī)劃研究。文獻(xiàn)[15]利用深度強(qiáng)化學(xué)習(xí)算法在線決策飛行器傾側(cè)角指令。與傳統(tǒng)方法相比,該方法充分發(fā)揮飛行器的寬域飛行優(yōu)勢(shì),進(jìn)一步拓展了飛行剖面。

        基于上述分析,為解決具有高升阻比的高超聲速飛行器在再入制導(dǎo)中高度存在的周期性振蕩現(xiàn)象,本文在傳統(tǒng)預(yù)測(cè)校正制導(dǎo)方法的基礎(chǔ)上引入高度速率反饋,并以此為基礎(chǔ)構(gòu)建深度強(qiáng)化學(xué)習(xí)訓(xùn)練環(huán)境,采用深度確定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)訓(xùn)練動(dòng)作網(wǎng)絡(luò),以根據(jù)飛行器當(dāng)前狀態(tài)輸出合適的反饋增益,然后,將訓(xùn)練好的動(dòng)作網(wǎng)絡(luò)提取至上述傳統(tǒng)制導(dǎo)方法框架中,實(shí)現(xiàn)反饋增益的在線實(shí)時(shí)調(diào)整,接著,進(jìn)一步結(jié)合飛行器高度速率反饋進(jìn)行傾側(cè)角指令補(bǔ)償量的在線實(shí)時(shí)求取,來(lái)抑制高度的周期性振蕩,有效避免了傳統(tǒng)平穩(wěn)滑翔制導(dǎo)算法設(shè)計(jì)中需要依據(jù)人工經(jīng)驗(yàn)對(duì)算法參數(shù)進(jìn)行不斷迭代校正的這一冗余過(guò)程。

        2 再入制導(dǎo)問(wèn)題

        2.1 三自由度運(yùn)動(dòng)學(xué)模型

        為方便高超聲速飛行器再入制導(dǎo)問(wèn)題的研究,在考慮地球自轉(zhuǎn)的基礎(chǔ)上,建立無(wú)量綱化的高超聲速飛行器三自由度質(zhì)點(diǎn)模型[16]:

        式中,r表示無(wú)量綱化的飛行器地心距,V表示無(wú)量綱化的飛行器速度,λ和φ分別表示飛行器所處位置的經(jīng)度和緯度,θ和ψs分別表示飛行器的航跡傾角和航跡偏角,γs表示飛行器的傾側(cè)角,L=QSC L/mg0和D=QSC D/mg0分別表示飛行器的升力加速度和阻力加速度,Q表示飛行器動(dòng)壓,CL和CD分別表示升力和阻力系數(shù),一般為與飛行器攻角α相關(guān)的非線性函數(shù),m表示飛行器質(zhì)量,g0表示海平面重力加速度,CV,Cθ和Cψs分別表示由地球自轉(zhuǎn)造成的作用項(xiàng),定義如下:

        高超聲速飛行器時(shí)間、地心距、速度和地球自轉(zhuǎn)角速度對(duì)應(yīng)的無(wú)量綱化過(guò)程定義如下:

        式中,R0表示地球半徑,分別表示真實(shí)的時(shí)間、地心距、飛行速度和地球自轉(zhuǎn)角速度。

        2.2 再入過(guò)程約束

        高超聲速飛行器再入飛行過(guò)程考慮的約束包含:包括熱流密度約束Q、動(dòng)壓約束q和過(guò)載約束n在內(nèi)的“硬”約束條件和包括準(zhǔn)平衡滑翔條件在內(nèi)的“軟”約束條件,具體計(jì)算公式如下[8]:

        式中,KQ表示與飛行器結(jié)構(gòu)和材料相關(guān)的常值參數(shù);ρ表示大氣密度,本項(xiàng)目中采用指數(shù)大氣模型ρ=ρ0exp(-βh);β=1.3785e-4,qmax,nmax分別表示熱流密度約束、動(dòng)壓約束和過(guò)載約束的最大幅值。

        2.3 再入終端約束

        由于高超聲速飛行器再入終端時(shí)間不固定,引入如下能量形式的e作為自變量[5]:

        式中,能量e為單調(diào)遞增函數(shù),可作為飛行器是否抵達(dá)再入終端的判斷條件。

        再入終端約束主要包括高度約束、速度約束和位置(經(jīng)緯度)約束,用公式表示如下:

        式中,ef=1/r f-Vf2/2表示終端能量,不失一般性,高度約束在本文中通過(guò)終端地心距r(ef)約束來(lái)表示,rf,V f,λ f,φf(shuō)分別表示期望的終端地心距、速度和經(jīng)緯度。

        3 再入制導(dǎo)算法設(shè)計(jì)

        本文所提的基于深度強(qiáng)化學(xué)習(xí)和高度速率反饋的再入制導(dǎo)方法以傳統(tǒng)預(yù)測(cè)校正制導(dǎo)方法為基礎(chǔ),進(jìn)行初始縱向和側(cè)向制導(dǎo)指令的求??;接著,引入高度速率反饋進(jìn)行傾側(cè)角幅值補(bǔ)償量的求取,來(lái)抑制高度存在的周期性振蕩現(xiàn)象。針對(duì)反饋增益的設(shè)計(jì)問(wèn)題,本文采用深度強(qiáng)化學(xué)習(xí)方法進(jìn)行解決:首先,構(gòu)建以傳統(tǒng)預(yù)測(cè)校正制導(dǎo)和高度速率反饋為基礎(chǔ)的深度強(qiáng)化學(xué)習(xí)訓(xùn)練環(huán)境;然后,采用深度確定性策略梯度算法進(jìn)行離線訓(xùn)練;最后,提取出訓(xùn)練好的動(dòng)作網(wǎng)絡(luò),與上述基礎(chǔ)制導(dǎo)算法結(jié)合進(jìn)行在線使用,實(shí)現(xiàn)反饋增益的實(shí)時(shí)調(diào)整與傾側(cè)角幅值補(bǔ)償量的實(shí)時(shí)求取,所提制導(dǎo)算法結(jié)構(gòu)示意圖如圖1所示。

        圖1 再入制導(dǎo)算法結(jié)構(gòu)圖Fig.1 Schematic diagram of the reentry guidance algorithm

        3.1 縱向制導(dǎo)算法設(shè)計(jì)

        縱向制導(dǎo)算法設(shè)計(jì)包括攻角剖面和傾側(cè)角幅值剖面的設(shè)計(jì)。

        首先給出攻角剖面設(shè)計(jì)方法,考慮到飛行器初始下降段的熱防護(hù)要求,本文中攻角剖面采用升力式飛行器常用的分段標(biāo)稱攻角剖面,計(jì)算公式如下[9]:

        式中,αmax,αmin為再入攻角邊界值;V1,V2為飛行器攻角剖面臨界速度。因此,傾側(cè)角γs成為改變飛行器再入軌跡的唯一控制變量。

        根據(jù)設(shè)計(jì)好的攻角剖面,再入過(guò)程約束式(11)可以轉(zhuǎn)換為高度-速度(h-)剖面飛行再入走廊的邊界(如圖2所示)[15]:

        圖2 h -平面內(nèi)再入走廊示意圖Fig.2 Schematic diagram of reentry corridor inh - plane

        為進(jìn)一步方便在制導(dǎo)算法設(shè)計(jì)中考慮上述約束的限制,借助準(zhǔn)平衡滑翔條件,再入走廊的下邊界約束可進(jìn)一步轉(zhuǎn)換為傾側(cè)角幅值的約束:

        縱向制導(dǎo)算法設(shè)計(jì)的另一個(gè)目標(biāo)是進(jìn)行傾側(cè)角幅值剖面的設(shè)計(jì),為了提升制導(dǎo)性能,傾側(cè)角幅值剖面通常設(shè)計(jì)為如下與能量相關(guān)的線性分段函數(shù)[6]:

        式中,能量e定義與式(12)相同,γs,0為每個(gè)制導(dǎo)周期求得的傾側(cè)角幅值,γs,f是一個(gè)預(yù)先設(shè)計(jì)的常數(shù),例如,可令γs,f=γs,0。因此,只要確定了γs,0的取值,就可以得到整個(gè)傾側(cè)角幅值剖面。

        式中,λpt和φpt為預(yù)測(cè)的終端落點(diǎn)的經(jīng)緯度。

        當(dāng)前狀態(tài)到期望終端狀態(tài)的待飛航程為:

        待飛航程偏差可定義為:f(γs,0)=Spt-Sf。然后,采用割線法進(jìn)行迭代求取使待飛航程偏差f(γs,0)=0的解[5]:

        3.2 側(cè)向制導(dǎo)算法設(shè)計(jì)

        側(cè)向制導(dǎo)算法的目標(biāo)是確定傾側(cè)角指令的符號(hào),本文通過(guò)航向角誤差走廊來(lái)進(jìn)行傾側(cè)角翻轉(zhuǎn)邏輯的設(shè)計(jì)。

        首先,給出飛行器當(dāng)前位置到終端目標(biāo)點(diǎn)的視線方位角Φ的定義[5]:

        可以得到航向角誤差:Δψs=ψs-Φ。為滿足終端精度要求,采用如圖3所示的航向角誤差走廊。

        圖3 航向角誤差走廊示意圖Fig.3 Schematic diagram of heading angle error corridor

        傾側(cè)角翻轉(zhuǎn)邏輯設(shè)計(jì)為:當(dāng)航向角誤差 Δψs超出誤差走廊的上邊界 Δψs,max(e)時(shí),傾側(cè)角指令符號(hào)為負(fù);當(dāng)航向角誤差 Δψs超出走廊的下邊界 Δψs,min(e)時(shí),傾側(cè)角指令為正;當(dāng)航向角誤差Δψs位于誤差走廊內(nèi)時(shí),傾側(cè)角符號(hào)保持不變。傾側(cè)角翻轉(zhuǎn)邏輯可用公式表示為:

        3.3 基于深度強(qiáng)化學(xué)習(xí)與高度速率反饋的平穩(wěn)滑翔制導(dǎo)律設(shè)計(jì)

        本文平穩(wěn)滑翔制導(dǎo)律的設(shè)計(jì)思想是:在傳統(tǒng)預(yù)測(cè)校正制導(dǎo)算法基礎(chǔ)上引入高度速率反饋,并以此為基礎(chǔ)構(gòu)建深度強(qiáng)化學(xué)習(xí)訓(xùn)練環(huán)境,然后通過(guò)深度確定性策略梯度算法訓(xùn)練動(dòng)作網(wǎng)絡(luò),使該網(wǎng)絡(luò)可以根據(jù)飛行器當(dāng)前狀態(tài)輸出反饋增益。然后,將訓(xùn)練好的動(dòng)作網(wǎng)絡(luò)提取至上述制導(dǎo)算法框架中,實(shí)現(xiàn)反饋增益的在線實(shí)時(shí)調(diào)整,進(jìn)一步結(jié)合高度速率反饋計(jì)算得出傾側(cè)角指令補(bǔ)償量,來(lái)抑制飛行器高度振蕩。

        深度強(qiáng)化學(xué)習(xí)解決的是馬爾可夫決策問(wèn)題(Markov Decision Process,MDP)。MDP 包括狀態(tài)、動(dòng)作、策略和獎(jiǎng)勵(lì)等要素,其中策略一般由深度神經(jīng)網(wǎng)絡(luò)建模,由強(qiáng)化學(xué)習(xí)算法訓(xùn)練,所采用的狀態(tài)輸入、動(dòng)作輸出以及獎(jiǎng)勵(lì)函數(shù)需要進(jìn)行設(shè)計(jì)。

        3.3.1 深度強(qiáng)化學(xué)習(xí)狀態(tài)建模

        所采用的狀態(tài)需要能完整反映高超當(dāng)前的狀態(tài),本項(xiàng)目采用的深度強(qiáng)化學(xué)習(xí)狀態(tài)設(shè)計(jì)為

        式中,r,V,θ,ψs表示飛行器當(dāng)前狀態(tài),表示飛行器當(dāng)前攻角指令、傾側(cè)角指令幅值和傾側(cè)角指令符號(hào),Δ,λ,Δφ表示飛行器當(dāng)前位置與期望目標(biāo)位置之差,表示飛行器當(dāng)前高度速率與參考高度速率之差。

        對(duì)于具有高升阻比的高超聲速飛行器而言,在再入制導(dǎo)中高度存在周期性振蕩的現(xiàn)象,如圖4所示。通常,高超聲速飛行器再入大氣層后會(huì)在首次拉起過(guò)程中產(chǎn)生最明顯的軌跡振蕩,之后,振蕩幅值逐漸衰弱。參考高度速率求取采用文獻(xiàn)[8]提出的方法,在軌跡振蕩的多個(gè)波峰和波谷分別進(jìn)行插值計(jì)算得到高度速率的上邊界和下邊界,然后計(jì)算算數(shù)平均值即可得到。

        圖4 參考高度變化率示意圖Fig.4 Schematic diagram of reference value of height gradient

        3.3.2 深度強(qiáng)化學(xué)習(xí)動(dòng)作建模

        本文設(shè)計(jì)的深度強(qiáng)化學(xué)習(xí)動(dòng)作為

        式中,kDRL表示動(dòng)作網(wǎng)絡(luò)給出的反饋增益。

        3.3.3 深度強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

        本文設(shè)計(jì)的深度強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)為

        式中,rdis表示與飛行器和期望目標(biāo)位置距離相關(guān)的獎(jiǎng)勵(lì)函數(shù),表示與飛行器高度速率和參考高度速率偏差相關(guān)的獎(jiǎng)勵(lì)函數(shù),rV和rh表示飛行器終端高度、速度和期望終端高度、速度相關(guān)的獎(jiǎng)勵(lì)函數(shù),rdis,,rV和rh分別設(shè)計(jì)如下

        式中,dis=arccos(sinφsin(φf(shuō))+cosφcos(φf(shuō))cos(λf-λ))表示飛行器當(dāng)前位置與期望目標(biāo)位置的距離,Rf表示期望目標(biāo)區(qū)域半徑,“500”為強(qiáng)獎(jiǎng)勵(lì)項(xiàng),表示飛行器達(dá)到目標(biāo)區(qū)域后給一個(gè)極大的正獎(jiǎng)勵(lì);“-dis”為弱激勵(lì)項(xiàng),只有飛行器離終點(diǎn)的距離越來(lái)越近,負(fù)獎(jiǎng)勵(lì)才會(huì)越來(lái)越小,從而引導(dǎo)飛行器向終點(diǎn)飛行。

        式中,為飛行器高度速率與參考高度速率之差的獎(jiǎng)勵(lì)增益,本文取=200,表示當(dāng)飛行器高度速率接近參考高度速率時(shí),所給負(fù)獎(jiǎng)勵(lì)較?。划?dāng)飛行器高度速率遠(yuǎn)離參考高度速率時(shí),給較大的負(fù)獎(jiǎng)勵(lì),來(lái)驅(qū)使飛行器盡可能按照參考高度速率飛行,抑制飛行器高度振蕩現(xiàn)象。

        式中,kh為飛行器終端高度與期望終端高度之差的獎(jiǎng)勵(lì)增益,本文取kh=1,IsDone表示當(dāng)前訓(xùn)練回合的終止條件,由于傾側(cè)角補(bǔ)償量的引入,會(huì)影響飛行器終端高度的制導(dǎo)精度。因此,引入飛行器終端高度與期望終端高度之差的獎(jiǎng)勵(lì)項(xiàng),來(lái)增強(qiáng)飛行器終端高度的制導(dǎo)精度。

        式中,kV為飛行器終端速度與期望終端速度之差的獎(jiǎng)勵(lì)增益,本文取kV=1。同樣,由于傾側(cè)角補(bǔ)償量的引入,會(huì)影響飛行器終端速度的制導(dǎo)精度。因此,引入飛行器終端速度與期望終端速度之差的獎(jiǎng)勵(lì)項(xiàng),來(lái)增強(qiáng)飛行器終端速度的制導(dǎo)精度。

        當(dāng)前訓(xùn)練回合的終止條件IsDone設(shè)置為:

        式中,e>ef表示飛行器當(dāng)前能量大于期望終端能量,達(dá)到了終止條件;(h>hmax)∪ (h<hmin)和(V>Vmax)∪ (V<Vmin)表示飛行器當(dāng)前狀態(tài)超過(guò)合理范圍。

        3.3.4 基于DDPG 的深度強(qiáng)化學(xué)習(xí)算法

        本文DDPG[17]算法進(jìn)行深度強(qiáng)化學(xué)習(xí)動(dòng)作網(wǎng)絡(luò)訓(xùn)練,深度強(qiáng)化學(xué)習(xí)DDPG 算法結(jié)構(gòu)示意圖如圖5所示。深度強(qiáng)化學(xué)習(xí)DDPG 算法流程如下述偽代碼所示。

        圖5 深度強(qiáng)化學(xué)習(xí)DDPG 算法結(jié)構(gòu)示意圖Fig.5 Structure diagram of DDPG algorithm

        對(duì)上述過(guò)程進(jìn)行充分的迭代,可以得到訓(xùn)練好的動(dòng)作現(xiàn)實(shí)網(wǎng)絡(luò)。

        將動(dòng)作現(xiàn)實(shí)網(wǎng)絡(luò)輸出的反饋增益kDRL與飛行器當(dāng)前高度速率與參考高度速率之差相乘得到傾側(cè)角指令補(bǔ)償量γs,DRL,再將γs,DRL線性疊加到預(yù)測(cè)校正制導(dǎo)律的輸出上:

        4 仿真結(jié)果及分析

        本文以高超聲速飛行器CAV-H 為仿真對(duì)象來(lái)驗(yàn)證所提算法的有效性。飛行器初始狀態(tài)為:高度h0=80 km,速度=7100 m/s,經(jīng)度λ0=10°,緯度φ0=-20°,航跡傾角θ0=-1°,航跡偏角ψs,0=45°。飛行器終端約束為:高度hf=20 km,速度=1800 m/s,經(jīng)度λf=90°,緯度φf(shuō)=30°,終端位置誤差Rf≤10 km。飛行器過(guò)程約束為:熱流密度約束=1.5 MW/m2,動(dòng)壓約束qmax=200 kPa,過(guò)載約束nmax=4.5。

        4.1 深度強(qiáng)化學(xué)習(xí)訓(xùn)練結(jié)果

        根據(jù)第3 節(jié)設(shè)計(jì)的深度強(qiáng)化學(xué)習(xí)訓(xùn)練環(huán)境開(kāi)展所提制導(dǎo)方法的訓(xùn)練,訓(xùn)練選取的飛行器初始狀態(tài)散布偏差和參數(shù)攝動(dòng)情況如表1所示。

        表1 初始狀態(tài)散布偏差和參數(shù)攝動(dòng)Table 1 Initial state dispersion and parameter perturbation

        圖6給出了深度強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程的獎(jiǎng)勵(lì)函數(shù)平均值曲線,可以發(fā)現(xiàn)DDPG 算法可在訓(xùn)練過(guò)程的第100 個(gè)回合左右使獎(jiǎng)勵(lì)函數(shù)進(jìn)入收斂狀態(tài),驗(yàn)證了所提制導(dǎo)方法通過(guò)深度強(qiáng)化學(xué)習(xí)方法訓(xùn)練動(dòng)作網(wǎng)絡(luò)以實(shí)現(xiàn)反饋增益在線自適應(yīng)調(diào)整的可行性。

        圖6 DDPG 訓(xùn)練過(guò)程中的獎(jiǎng)勵(lì)函數(shù)曲線Fig.6 Reward function curve in DDPG training process

        4.2 對(duì)比仿真

        在標(biāo)稱條件下進(jìn)行對(duì)比仿真,來(lái)驗(yàn)證所提制導(dǎo)算法的有效性。采用傳統(tǒng)預(yù)測(cè)校正制導(dǎo)方法(為表述簡(jiǎn)潔,以下稱為“傳統(tǒng)方法”)和文獻(xiàn)[8]所提的基于傾側(cè)角反饋控制的預(yù)測(cè)校正再入制導(dǎo)方法(以下稱為“傳統(tǒng)反饋方法”)作為對(duì)比項(xiàng)進(jìn)行仿真對(duì)比,仿真結(jié)果如圖7~15 所示。

        由圖7給出的飛行器高度曲線可得,在傳統(tǒng)方法作用下,飛行器高度存在明顯的振蕩現(xiàn)象;在傳統(tǒng)反饋方法作用下,飛行器高度振蕩現(xiàn)象雖有些許改善,但是首次拉起時(shí)飛行器彈起高度較高,極有可能在再次下落時(shí)導(dǎo)致熱流密度超越限幅,影響飛行器的熱防護(hù)安全;相比之下,在所提方法的作用下,動(dòng)作網(wǎng)絡(luò)可以根據(jù)飛行器當(dāng)前狀態(tài)給出一個(gè)更優(yōu)的反饋增益系數(shù),進(jìn)而計(jì)算得到一個(gè)更加合適的傾側(cè)角補(bǔ)償量,使得飛行器在再入過(guò)程中可以平穩(wěn)飛行。

        圖7 對(duì)比仿真中的高度曲線Fig.7 Altitude curve in comparative simulation

        由圖8給出的飛行器經(jīng)緯度曲線可以發(fā)現(xiàn),在傳統(tǒng)方法、傳統(tǒng)反饋方法和所提方法作用下,飛行器終端位置誤差分別為:5.25 km,4.93 km,4.25 km,均符合制導(dǎo)精度要求,所提方法增加了對(duì)高度振蕩現(xiàn)象的抑制,但并未影響最終的制導(dǎo)精度,驗(yàn)證了所提方法的有效性。對(duì)圖7和圖9的終端誤差進(jìn)行統(tǒng)計(jì),三種方法的終端高度誤差的絕對(duì)值分別為:0.85 km,0.96 km,0.06 km、三種方法的終端速度誤差的絕對(duì)值分別為:3.95 m/s,2.18 m/s,0.15 m/s,可以發(fā)現(xiàn),所提方法在終端高度和終端速度方面均取得了最優(yōu)的制導(dǎo)精度,這是由于在深度強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)設(shè)置中加入了與終端高度和終端速度的獎(jiǎng)勵(lì)項(xiàng),動(dòng)作網(wǎng)絡(luò)在輸出反饋增益時(shí),選擇了使獎(jiǎng)勵(lì)更高的輸出。

        圖8 對(duì)比仿真中的經(jīng)緯度曲線Fig.8 Latitude and longitude curve in comparative simulation

        圖9 對(duì)比仿真中的速度曲線Fig.9 Velocity curve in comparative simulation

        圖10給出了三種方法的傾側(cè)角曲線,可以發(fā)現(xiàn)所提方法僅在傾側(cè)角的幅值上做出了修正,沒(méi)有增加制導(dǎo)指令反轉(zhuǎn)的次數(shù),體現(xiàn)了所提方法的可靠性。圖11給出了所提方法的傾側(cè)角補(bǔ)償量曲線,由圖可得,所提方法從飛行器首次拉起時(shí)開(kāi)始進(jìn)行傾側(cè)角補(bǔ)償,首先補(bǔ)償一個(gè)較大傾側(cè)角,分散飛行器升力作用,來(lái)避免飛行器彈起更高的高度;然后,根據(jù)飛行器當(dāng)前高度與期望高度速率關(guān)系進(jìn)行傾側(cè)角指令微調(diào),實(shí)現(xiàn)飛行器平穩(wěn)再入滑翔。

        圖10 對(duì)比仿真中的傾側(cè)角曲線Fig.10 Bank angle curve in comparative simulation

        圖11 對(duì)比仿真中的傾側(cè)角補(bǔ)償量曲線Fig.11 Compensated bank angle curve in comparative simulation

        圖12~14 給出了在三種方法作用下飛行器熱流密度、動(dòng)壓和過(guò)載曲線,由熱流密度曲線可以明顯發(fā)現(xiàn)在傳統(tǒng)方法和傳統(tǒng)反饋方法的作用下,由于未對(duì)飛行器高度振蕩現(xiàn)象進(jìn)行抑制或進(jìn)行有效抑制,在飛行器高度振蕩過(guò)程中,極有可能逾越熱流密度的約束,給飛行器結(jié)構(gòu)帶來(lái)?yè)p害;而在所提方法的作用下,高度振蕩現(xiàn)象被有效補(bǔ)償,熱流密度遠(yuǎn)小于限幅值,取得了更好的熱防護(hù)效果。由動(dòng)壓曲線可以明顯發(fā)現(xiàn),雖然在三種方法作用下,飛行器均滿足動(dòng)壓約束限幅,但所提方法的動(dòng)壓更加平穩(wěn),保證了飛行的穩(wěn)定性。由過(guò)載曲線可以明顯發(fā)現(xiàn),由于傳統(tǒng)方法和傳統(tǒng)反饋方法未能對(duì)飛行器高度振蕩進(jìn)行有效抑制,在飛行末段存在過(guò)載超過(guò)限幅的情況,體現(xiàn)出飛行器再入過(guò)程中需要對(duì)高度振蕩現(xiàn)象抑制的必要性,也再次驗(yàn)證所提方法的有效性。

        圖12 對(duì)比仿真中的熱流密度曲線Fig.12 Heating rate curve in comparative simulation

        圖13 對(duì)比仿真中的動(dòng)壓曲線Fig.13 Dynamic pressure curve in comparative simulation

        圖14 對(duì)比仿真中的過(guò)載曲線Fig.14 Overload curve in comparative simulation

        圖15給出了在每個(gè)制導(dǎo)周期所提方法的制導(dǎo)指令解算時(shí)間統(tǒng)計(jì)圖,可以發(fā)現(xiàn)制導(dǎo)指令的解算時(shí)間不超過(guò)0.25 s,制導(dǎo)指令解算時(shí)間平均值小于0.1s,滿足制導(dǎo)周期(T=1s)的實(shí)時(shí)性要求??梢园l(fā)現(xiàn),將訓(xùn)練好的動(dòng)作網(wǎng)絡(luò)引入制導(dǎo)算法框架中并不會(huì)嚴(yán)重影響制導(dǎo)指令的解算時(shí)間。這是因?yàn)樵谠诰€使用過(guò)程中,僅需要根據(jù)當(dāng)前狀態(tài)進(jìn)行動(dòng)作網(wǎng)絡(luò)前項(xiàng)傳播過(guò)程的計(jì)算,計(jì)算較為簡(jiǎn)單,不會(huì)占用大量計(jì)算資源和消耗大量的計(jì)算時(shí)間。

        4.3 蒙特卡洛仿真

        為進(jìn)一步驗(yàn)證所提算法的自適應(yīng)能力和魯棒性,在表1所述的初始狀態(tài)散布偏差和參數(shù)攝動(dòng)范圍內(nèi)進(jìn)行50 次蒙特卡洛仿真,仿真結(jié)果如圖16~20 所示。

        圖16~17 給出了蒙特卡洛仿真中的經(jīng)緯度曲線及終端精度統(tǒng)計(jì)圖??梢园l(fā)現(xiàn),在飛行器初始狀態(tài)存在散布偏差和氣動(dòng)參數(shù)存在攝動(dòng)時(shí),在所提制導(dǎo)算法作用下,飛行器終端位置誤差均保持在10 km 范圍內(nèi),驗(yàn)證了所提算法的有效性和魯棒性。

        圖16 蒙特卡洛仿真中的經(jīng)緯度曲線Fig.16 Latitude and longitude curve in Monte Carlo simulation

        圖17 蒙特卡洛仿真中的終端精度統(tǒng)計(jì)圖Fig.17 Terminal accuracy statistics in Monte Carlo simulation

        圖18~19 給出了蒙特卡洛仿真中的高度和速度曲線,終端高度和速度誤差的絕對(duì)值不超過(guò)2 km 和100 m/s。圖20~21 給出了蒙特卡洛仿真中的傾側(cè)角和傾側(cè)角補(bǔ)償量曲線,在所提制導(dǎo)方法作用下,動(dòng)作網(wǎng)絡(luò)可根據(jù)飛行器當(dāng)前狀態(tài)實(shí)時(shí)選取合適的反饋增益,計(jì)算傾側(cè)角反饋補(bǔ)償量,有效抑制高度存在的周期性振蕩現(xiàn)象,使整個(gè)飛行過(guò)程趨于平穩(wěn),驗(yàn)證了本文所提方法的自適應(yīng)能力。

        圖18 蒙特卡洛仿真中的高度曲線Fig.18 Altitude curve in Monte Carlo simulation

        圖19 蒙特卡洛仿真中的速度曲線Fig.19 Velocity curve in Monte Carlo simulation

        圖20 蒙特卡洛仿真中的傾側(cè)角曲線Fig.20 Bank angle curve in Monte Carlo simulation

        圖21 蒙特卡洛仿真中的傾側(cè)角補(bǔ)償量曲線Fig.21 Compensated bank angle curve in Monte Carlo simulation

        圖22~25 給出了蒙特卡洛仿真中的熱流密度、動(dòng)壓和過(guò)載曲線??梢园l(fā)現(xiàn),在所提制導(dǎo)算法作用下,熱流密度、動(dòng)壓和過(guò)載均保持在約束范圍內(nèi),保證了飛行過(guò)程的安全性。

        圖22 蒙特卡洛仿真中的熱流密度曲線Fig.22 Heating rate curve in Monte Carlo simulation

        圖23 蒙特卡洛仿真中的動(dòng)壓曲線Fig.23 Dynamic pressure curve in MonteCarlo simulation

        圖24 蒙特卡洛仿真中的過(guò)載曲線Fig.24 Overload curve in Monte Carlo simulation

        5 結(jié) 論

        本文針對(duì)具有高升阻比的高超聲速飛行器在再入制導(dǎo)中高度存在的周期性振蕩問(wèn)題,結(jié)合深度強(qiáng)化學(xué)習(xí)理論和飛行器高度速率反饋,提出了一種可以使飛行器平穩(wěn)滑翔的再入制導(dǎo)方法。通過(guò)研究分析及仿真驗(yàn)證可以發(fā)現(xiàn):

        (1)所提基于深度強(qiáng)化學(xué)習(xí)與高度速率反饋的再入制導(dǎo)方法可以有效抑制飛行器高度振蕩現(xiàn)象,使飛行器在再入飛行過(guò)程中平穩(wěn)飛行,同時(shí)滿足過(guò)程約束的要求;

        (2)由終端制導(dǎo)精度的統(tǒng)計(jì)結(jié)果可得,與傳統(tǒng)方法和傳統(tǒng)反饋方法相比,本文所提方法可以在有效抑制飛行器高度振蕩現(xiàn)象的同時(shí),進(jìn)一步提升終端制導(dǎo)精度;

        (3)通過(guò)合理設(shè)置深度強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)函數(shù),所提方法有效避免了傳統(tǒng)方法設(shè)計(jì)中需要依據(jù)人工經(jīng)驗(yàn)對(duì)算法參數(shù)進(jìn)行不斷迭代校正的這一冗余過(guò)程。

        猜你喜歡
        傾側(cè)制導(dǎo)飛行器
        高超聲速飛行器
        基于差分進(jìn)化算法的再入可達(dá)域快速計(jì)算
        復(fù)雜飛行器的容錯(cuò)控制
        電子制作(2018年2期)2018-04-18 07:13:25
        基于MPSC和CPN制導(dǎo)方法的協(xié)同制導(dǎo)律
        基于在線軌跡迭代的自適應(yīng)再入制導(dǎo)
        懸架側(cè)傾中心分析及其在底盤(pán)調(diào)校中的應(yīng)用
        帶有攻擊角約束的無(wú)抖振滑模制導(dǎo)律設(shè)計(jì)
        天然氣壓縮機(jī)氣閥改造
        船海工程(2015年5期)2016-01-18 10:40:40
        神秘的飛行器
        復(fù)合制導(dǎo)方式確保精確入軌
        太空探索(2014年1期)2014-07-10 13:41:49
        精品亚洲av乱码一区二区三区| 亚洲毛片网| 亚洲欧美日韩中文综合在线不卡| 国产在线视频一区二区三| 成年美女黄网站色大免费视频| 国产女人高潮视频在线观看| 亚洲精品有码在线观看| 亚洲av高清在线一区二区三区| 国产一区二区三区在线观看完整版 | 精品999日本久久久影院| 亚洲欧美日韩高清专区一区| 人妖熟女少妇人妖少妇| 中文有码人妻字幕在线 | 国产亚洲日韩在线三区| 中文字幕天天躁日日躁狠狠| 久亚洲一线产区二线产区三线麻豆 | 香蕉成人伊视频在线观看| 中国人妻被两个老外三p| 国内无遮码无码| 亚洲天堂av在线一区| 国产精品国产三级国产av剧情| 国产午夜精品久久久久免费视 | 亚洲av天堂在线视频| 欧美饥渴熟妇高潮喷水水| 国产人成亚洲第一网站在线播放| 亚洲偷自拍国综合第一页国模| 欧美日韩精品乱国产| 亚洲男人天堂| 亚洲精品国产精品av| 日韩精品极品免费视频观看| 五月综合缴情婷婷六月| 在线免费欧美| 亚洲国产成人va在线观看天堂| 成人欧美一区二区三区在线观看| 国产麻无矿码直接观看| 亚洲精品国产精品av| 国产精品久久久免费精品| 免费a级毛片永久免费| 亚洲人成影院在线高清| 在线观看视频免费播放| 精品久久香蕉国产线看观看亚洲|