張 遠(yuǎn),黃萬(wàn)偉,聶 瑩,路坤鋒
(1. 北京航天自動(dòng)控制研究所,北京 100854; 2. 宇航智能控制技術(shù)國(guó)家級(jí)重點(diǎn)實(shí)驗(yàn)室,北京 100854)
以高超聲速飛行器(Hypersonic flight vehicle, HFV)為代表的一類高速飛行器結(jié)合了航空航天的特點(diǎn),其具有航程遠(yuǎn)、速度快、機(jī)動(dòng)強(qiáng)、任務(wù)可調(diào)整等特點(diǎn),是實(shí)現(xiàn)低成本、可重復(fù)天地往返優(yōu)選技術(shù)途徑之一,逐漸受到世界各航天大國(guó)的廣泛關(guān)注[1-2]。但是,此類飛行器在總體設(shè)計(jì)中,同樣存在值得進(jìn)一步優(yōu)化與完善的問(wèn)題,如飛行包線大與幾何構(gòu)型單一的矛盾,幾何包絡(luò)大與發(fā)射系統(tǒng)受限的矛盾,大攻角飛行/氣動(dòng)熱/航程之間的矛盾。如果飛行器能夠在飛行過(guò)程中根據(jù)任務(wù)需要,在不同飛行狀態(tài)下自適應(yīng)改變自身構(gòu)型,則可在保證固有約束條件下獲得更優(yōu)的綜合性能,進(jìn)一步擴(kuò)展飛行器任務(wù)邊界,為實(shí)現(xiàn)全速域、跨空域飛行提供可行性[3-4]。以高速滑翔飛行器為例,在慣性爬升段合理變形減小阻力可減小速度損失;滑翔飛行段合理變形可有效提高升阻比,達(dá)到提升航程的目的[5-6]?;诖耍咚倏勺冃物w行器的概念應(yīng)運(yùn)而生。具體而言,HMFV是指一類能夠根據(jù)飛行器待執(zhí)行任務(wù)和飛行環(huán)境特點(diǎn)實(shí)時(shí)調(diào)整外形結(jié)構(gòu),以適應(yīng)更寬空域、更大速域飛行任務(wù)的高速飛行器。
按照變形部位及對(duì)周?chē)鷼怏w產(chǎn)生的不同影響,可分為內(nèi)流部件變形和外流部件變形兩類。前者主要指進(jìn)氣道、發(fā)動(dòng)機(jī)噴管等部位發(fā)生主動(dòng)變形,以獲得更強(qiáng)動(dòng)力或者更高的燃燒效率;后者主要指頭部、機(jī)翼、機(jī)身等三類變形,以獲得更優(yōu)的氣動(dòng)特性[7]。20世紀(jì)50年代以來(lái),變形飛行器的研究得到了諸多國(guó)家高度重視,相繼開(kāi)展了不同層面的深入研究,取得了許多有價(jià)值的研究成果,如翼面可彎曲、可變后掠的任務(wù)自適應(yīng)機(jī)翼項(xiàng)目,機(jī)翼可扭轉(zhuǎn)的主動(dòng)柔性機(jī)翼項(xiàng)目,以及機(jī)翼可折疊、可變后掠角的變形飛行器結(jié)構(gòu)等項(xiàng)目[8]。隨著材料科學(xué)的發(fā)展,高速類變形飛行器的研究開(kāi)始顯得具有現(xiàn)實(shí)意義。
對(duì)于HMFV而言,翼面變形對(duì)于氣動(dòng)性能有較大的影響,可帶來(lái)較大的氣動(dòng)性能上的提升,且易于工程實(shí)現(xiàn)與應(yīng)用,目前也多是采用翼面剛性變形方案[9]。那么“何時(shí)變形?何種狀態(tài)變形?變形量多大?”是我們需要解決的問(wèn)題之一。一種樸素的思想是飛行任務(wù)離線標(biāo)定,即在飛行前在任務(wù)系統(tǒng)中設(shè)定好變形方案,飛行器在不同階段展開(kāi)不同構(gòu)型,這種決策方案更為簡(jiǎn)單且易于工程應(yīng)用。然而,這種方案無(wú)法滿足綜合性能實(shí)時(shí)最優(yōu)的效果,且難以滿足任務(wù)變更的特殊狀況。隨著智能材料的發(fā)展、滑動(dòng)蒙皮的應(yīng)用,可連續(xù)變形飛行器的應(yīng)用已逐漸成為可能。因此,實(shí)時(shí)智能變形決策問(wèn)題是HMFV工程應(yīng)用亟需研究的重點(diǎn)問(wèn)題之一。針對(duì)上述問(wèn)題,以強(qiáng)化學(xué)習(xí)為代表的智能思想被應(yīng)用于飛行器的制導(dǎo)、控制與決策的研究中[10-12]。
強(qiáng)化學(xué)習(xí)的核心思想是通過(guò)感知環(huán)境的變化,智能體以“試錯(cuò)”的方式獲得獎(jiǎng)勵(lì)的最大值,從而進(jìn)一步改進(jìn)動(dòng)作策略以適應(yīng)環(huán)境[10]。典型的強(qiáng)化學(xué)習(xí)算法包括Q-Learning、SARSA、動(dòng)態(tài)規(guī)劃等方法,其是一類動(dòng)作空間離散的學(xué)習(xí)方法,擅長(zhǎng)處理有限個(gè)狀態(tài)和動(dòng)作空間的問(wèn)題。Deepmind團(tuán)隊(duì)進(jìn)一步將強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)相結(jié)合,形成了DQN網(wǎng)絡(luò),進(jìn)一步強(qiáng)化了高維問(wèn)題的解決能力,但是動(dòng)作空間本質(zhì)上仍為離散形式。文獻(xiàn)[13]以Q-Learning算法為基礎(chǔ),設(shè)計(jì)帶有升力系數(shù)、阻力系數(shù)和前緣力矩系數(shù)在內(nèi)的獎(jiǎng)勵(lì)函數(shù),以學(xué)習(xí)獲得不同狀態(tài)下機(jī)翼的最優(yōu)厚度及外傾角;文獻(xiàn)[14]用Q-Learning算法實(shí)現(xiàn)在爬升、巡航、俯沖三種典型飛行模式下對(duì)給定的幾類固定外形進(jìn)行決策,以期獲得不同任務(wù)下的最優(yōu)構(gòu)型,同時(shí)設(shè)計(jì)縱向通道控制律。但決策與控制相互獨(dú)立,變形決策未考慮對(duì)控制效果的影響。文獻(xiàn)[15]以一種簡(jiǎn)化的橢球變形飛行器為對(duì)象,基于給定的變形量隨變形執(zhí)行機(jī)構(gòu)驅(qū)動(dòng)電壓的變化公式,利用DDPG算法獲得適應(yīng)于整個(gè)飛行任務(wù)中的決策方案;文獻(xiàn)[16]針對(duì)后掠角和展長(zhǎng)同時(shí)可變的無(wú)人機(jī)進(jìn)行變形決策,同時(shí)將可變形機(jī)翼作為控制面,輔助完成滾動(dòng)和轉(zhuǎn)彎控制;文獻(xiàn)[17]基于DDPG對(duì)一類仿生飛行器進(jìn)行后掠角連續(xù)變形決策,且利用風(fēng)洞試驗(yàn)和實(shí)際飛行的模擬數(shù)據(jù)進(jìn)行對(duì)比驗(yàn)證。
綜上所述,當(dāng)前對(duì)于變外形飛行器的研究還較少,且研究對(duì)象多是低空、低速類無(wú)人機(jī),鮮有對(duì)HMFV的變形決策問(wèn)題進(jìn)行討論。此外,現(xiàn)有公開(kāi)文獻(xiàn)在變形決策方面的研究所考慮的優(yōu)化指標(biāo)較為簡(jiǎn)單,僅以升力系數(shù)、阻力系數(shù)或升阻比為單一目標(biāo)。而對(duì)于HMFV而言,在某一套控制增益下,其變形不僅帶來(lái)氣動(dòng)性能的優(yōu)化,且?guī)?lái)的較大的參數(shù)攝動(dòng)會(huì)對(duì)姿態(tài)系統(tǒng)的穩(wěn)定帶來(lái)不容忽略的影響,因此有必要研究考慮決策與控制的融合問(wèn)題。本文以HMFV滑翔段飛行過(guò)程為例,開(kāi)展滑翔過(guò)程中考慮包含升阻比,穩(wěn)定性及姿態(tài)跟蹤能力的綜合性能最優(yōu)下的變形決策研究。首先,基于飛行器動(dòng)力學(xué)模型,對(duì)HMFV的關(guān)鍵氣動(dòng)參數(shù)進(jìn)行分析,得出變后掠角對(duì)飛行器的定性影響規(guī)律;其次,設(shè)計(jì)考慮綜合指標(biāo)下的智能變形方案和DDPG算法訓(xùn)練框架;再者,設(shè)計(jì)基礎(chǔ)控制器,對(duì)帶有控制器的可變后掠HMFV變形決策智能體進(jìn)行訓(xùn)練,獲得具備一定泛化能力的決策智能體。最后進(jìn)行數(shù)學(xué)仿真,校驗(yàn)方法的有效性。
如圖1所示,本文以一種可連續(xù)變后掠角的HMFV飛行器為研究對(duì)象,后掠角Λ變化范圍是30°~90°。由于在飛行過(guò)程中,為保持較優(yōu)氣動(dòng)性能,后掠角會(huì)隨著不同狀態(tài)而改變,后掠角的變化將進(jìn)一步導(dǎo)致關(guān)鍵氣動(dòng)數(shù)據(jù)的大范圍變化,給控制系統(tǒng)帶來(lái)挑戰(zhàn)。因此,本文的研究是基于變外形飛行器受控狀態(tài)下的變形智能決策問(wèn)題。為簡(jiǎn)化建模過(guò)程,這里直接給出面向姿態(tài)控制的HMFV動(dòng)力學(xué)非線性模型如下:
圖1 可變后掠高速飛行器示意圖Fig.1 Schematic diagram of the variable swept-back HMFV
(1)
表1 氣動(dòng)插值表狀態(tài)范圍Table 1 The status range for aerodynamics parameters interpolation
(2)
升力Y、阻力D和側(cè)力C可表示如下:
(3)
三通道控制力矩Mx,My,Mz可表示如下:
(4)
式中:Q=ρV2/2為所處環(huán)境下的動(dòng)壓;s為飛行器參考面積;ρ為飛行器實(shí)際飛行高度下的大氣密度;c和b分別是縱向特征長(zhǎng)度和側(cè)向特征長(zhǎng)度。
本文以一類可變后掠HMFV飛行器滑翔段為例,選取了在飛行包線內(nèi)不同工作點(diǎn)的氣動(dòng)數(shù)據(jù),工作點(diǎn)的選取維度包括攻角、馬赫數(shù)、高度、后掠角。圖2~5給出了HMFV在基礎(chǔ)構(gòu)型下(Λ=90°),不同速度下的部分氣動(dòng)力、氣動(dòng)力矩系數(shù)以及升阻比的變化;圖6~7給出了HMFV在不同構(gòu)型下部分關(guān)鍵氣動(dòng)系數(shù)在馬赫數(shù)8下的變化趨勢(shì)。
由圖2可知,零舵偏時(shí),升力系數(shù)與攻角近似呈現(xiàn)線性關(guān)系,且Ma越大,升力系數(shù)越小,攻角越大體現(xiàn)越為明顯;類似的,如圖3所示,阻力系數(shù)在零舵偏下與攻角近似呈現(xiàn)指數(shù)關(guān)系,阻力系數(shù)隨著Ma增大而越??;圖4為固定構(gòu)型下的升阻比曲線,總體而言,升阻比在攻角為10°左右達(dá)到峰值;圖5是俯仰力矩系數(shù)隨著攻角的變化,在圖5所示的攻角范圍內(nèi),該飛行器表現(xiàn)為縱向靜不穩(wěn)特性。
圖2 基礎(chǔ)構(gòu)型下不同馬赫數(shù)下的升力系數(shù)變化Fig.2 Variation of lift coefficients at different Mach values for the basic configurations
圖3 基礎(chǔ)構(gòu)型下不同馬赫數(shù)下的阻力系數(shù)變化Fig.3 Variation of drag coefficients at different Mach values for the basic configurations
圖4 基礎(chǔ)構(gòu)型下不同馬赫數(shù)下的升阻比變化Fig.4 Variation of lift-to-drag ratio at different Mach values for the basic configurations
圖5 基礎(chǔ)構(gòu)型下不同馬赫數(shù)下的俯仰力矩系數(shù)變化Fig.5 Variation of pitching moment coefficient at different Mach values for the basic configuration
不同構(gòu)型下的氣動(dòng)特性如圖6~9所示,圖中Λ表示后掠角。由圖6可知,隨著后掠角增大,飛行器的升力系數(shù)隨著攻角的增大而減小。分析其原因是后掠角增大,翼的外露面積及翼展長(zhǎng)度均減小,進(jìn)一步帶來(lái)的升力面減小。同理,由圖7可知,隨著后掠角增大,因其零升阻力系數(shù)和誘導(dǎo)阻力系數(shù)均減小,導(dǎo)致阻力系數(shù)進(jìn)一步減小。
圖6 四種不同構(gòu)型下的升力系數(shù)變化(Ma 8)Fig.6 Variation of lift coefficient for four different configurations (Ma 8)
圖7 四種不同構(gòu)型下的阻力系數(shù)變化(Ma 8)Fig.7 Variation of drag coefficient for four different configurations (Ma 8)
圖8 四種不同構(gòu)型下的升阻比變化(Ma 8)Fig.8 Variation of lift-to-drag ratio for four different configurations (Ma 8)
圖9 四種不同構(gòu)型下的俯仰力矩系數(shù)變化(Ma 8)Fig.9 Variation of pitching moment coefficient for four different configurations (Ma 8)
這里僅給出對(duì)飛行器影響較大的氣動(dòng)數(shù)據(jù)變化趨勢(shì),對(duì)稱變形對(duì)于橫側(cè)向的影響較小,由于篇幅有限,這里不再贅述。由圖6~9可以得出以下幾點(diǎn)結(jié)論:
(1)相比于傳統(tǒng)固定構(gòu)型飛行器,變形飛行器的氣動(dòng)系數(shù)不僅與馬赫數(shù)、攻角等相關(guān),變外形對(duì)于氣動(dòng)的影響亦不可忽略。
(2)變形飛行器升阻比隨后掠角的增大變化規(guī)律較為復(fù)雜,在一定攻角范圍內(nèi)(α∈(5°~10°)),變構(gòu)型對(duì)升阻比的影響較大,超過(guò)某一范圍影響變小。
(4)對(duì)于滑翔段而言,不同的攻角、速度下產(chǎn)生最佳升阻比所需要的構(gòu)型也不同,理想情況下可根據(jù)飛行狀態(tài)調(diào)整后掠角,實(shí)現(xiàn)滑翔段下的全程最優(yōu)構(gòu)型,可達(dá)到增大射程的目的。
本文所研究的可連續(xù)變后掠的HMFV飛行器智能變形決策是連續(xù)的過(guò)程,而某一指標(biāo)下的最優(yōu)外形又取決于飛行環(huán)境和任務(wù),因此本文將具備環(huán)境感知能力的DDPG算法引入到變外形飛行器的智能決策中。本文的研究目標(biāo)包含三點(diǎn):1)滑翔段全程實(shí)時(shí)獲得最優(yōu)升阻比;2)變形的過(guò)程中考慮變形對(duì)飛行器穩(wěn)定性影響,考慮在變形和基礎(chǔ)控制器作用下使得姿態(tài)跟蹤誤差盡可能??;3)通過(guò)訓(xùn)練獲得HMFV的變形決策智能體具備一定的泛化能力。
本文提出的基于強(qiáng)化學(xué)習(xí)的智能決策方法關(guān)鍵點(diǎn)在于設(shè)計(jì)強(qiáng)化學(xué)習(xí)要素,包括環(huán)境模型表示、動(dòng)作空間表示、回報(bào)函數(shù)設(shè)計(jì)及動(dòng)作選擇策略。DDPG是一種基于Actor-Critic算法框架下的確定性策略方法,Actor模塊進(jìn)行動(dòng)作選擇,Critic模塊進(jìn)行價(jià)值函數(shù)評(píng)估[19]。為保證算法穩(wěn)定性,DDPG算法一共設(shè)置了兩套網(wǎng)絡(luò),即在線網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)。每套網(wǎng)絡(luò)中又分別包含兩個(gè)神經(jīng)網(wǎng)絡(luò),即策略網(wǎng)絡(luò)和值函數(shù)網(wǎng)絡(luò)。因此,DDPG算法中一共包含在線策略(Online-Actor)網(wǎng)絡(luò)、在線值函數(shù)(Online-Critic)網(wǎng)絡(luò)、目標(biāo)策略(Target-Actor)網(wǎng)絡(luò)和目標(biāo)值函數(shù)(Target-Critic)網(wǎng)絡(luò)四個(gè)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[20]。定義Online-Critic網(wǎng)絡(luò)參數(shù)為θQ,Online-Actor網(wǎng)絡(luò)參數(shù)為θμ,Target-Critic網(wǎng)絡(luò)參數(shù)為θQ′,Target-Actor網(wǎng)絡(luò)參數(shù)為θμ′,算法實(shí)現(xiàn)框架如圖10所示。
圖10 DDPG算法實(shí)現(xiàn)框架Fig.10 The implementation framework of DDPG algorithm
具體而言,DDPG算法執(zhí)行過(guò)程如下:
1)初始化網(wǎng)絡(luò)參數(shù)θQ和θμ,同時(shí)將值賦給目標(biāo)網(wǎng)絡(luò),即θQ→θQ′,θμ→θμ′,初始化經(jīng)驗(yàn)回放池,初始化觀測(cè)值;
2)根據(jù)初始狀態(tài)值生成變形策略a′,同時(shí)添加隨機(jī)噪聲vN,即a′=ai+vN,且vN~N(0,σ2);
3)執(zhí)行變形策略a′(變形量),獲得值函數(shù)(即獎(jiǎng)勵(lì))和下一時(shí)刻狀態(tài)向量Si+1;
4)樣本數(shù)據(jù)(Si,ai,ri,Si+1)存儲(chǔ)至經(jīng)驗(yàn)回放池,作為網(wǎng)絡(luò)訓(xùn)練集;
(4)為了廣納人才,擴(kuò)大“帶頭人”的選擇范圍,選出能真正改變一村經(jīng)濟(jì)面貌的“帶頭人”作為對(duì)農(nóng)村的人才支援,可以采取與“援藏”一樣的政策力度,讓來(lái)自農(nóng)村的外出務(wù)工人員、大學(xué)生、公務(wù)員都可回原藉參加選舉.大學(xué)生勝選者可保留學(xué)藉,任職結(jié)束后仍可選擇繼續(xù)學(xué)習(xí),任職經(jīng)歷視同社會(huì)實(shí)踐;公務(wù)員勝選者可保留原職,可連續(xù)計(jì)算工齡,任職結(jié)束后仍可回原單位工作.勝選者作為準(zhǔn)公職人員管理,根據(jù)任職業(yè)績(jī)考核計(jì)酬.任職能力與政績(jī)表現(xiàn)突出者可直接招錄為縣、鄉(xiāng)級(jí)公務(wù)員,以拓展農(nóng)村經(jīng)濟(jì)“帶頭人”的政治前途,激勵(lì)這些人為一方村民奉獻(xiàn)自己的聰明才智.鼓勵(lì)退休公職人員回鄉(xiāng)參加競(jìng)選,發(fā)揮余熱,勇當(dāng)發(fā)展農(nóng)村經(jīng)濟(jì)的帶頭人.
5)隨機(jī)抽取經(jīng)驗(yàn)池小樣本(mini-batch)數(shù)據(jù),對(duì)Actor和Critic網(wǎng)絡(luò)進(jìn)行訓(xùn)練,按如下流程更新網(wǎng)絡(luò)參數(shù);
② 策略梯度反向傳播更新給Online-Actor網(wǎng)絡(luò)參數(shù)θμ;按照如下方式梯度更新
③ 以Soft-update的方式更新Target-Actor網(wǎng)絡(luò)參數(shù)和Target-Critic網(wǎng)絡(luò)參數(shù),即
6)重復(fù)在步驟2~5,到達(dá)設(shè)定的回合數(shù)或平均獎(jiǎng)勵(lì)值則停止訓(xùn)練。
如前所述,DDPG算法實(shí)現(xiàn)需要狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)函數(shù)、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以及訓(xùn)練過(guò)程復(fù)雜參數(shù)的設(shè)計(jì)??紤]到工程應(yīng)用,首先需要考慮智能體能獲得的環(huán)境觀測(cè)值、可執(zhí)行動(dòng)作及特性以及與環(huán)境交互下的回報(bào)形式。針對(duì)HMFV的滑翔段決策問(wèn)題,可觀測(cè)的狀態(tài)空間為期望升阻比、當(dāng)前升阻比與期望最優(yōu)升阻比的差、姿態(tài)角指令、指令跟蹤誤差??紤]到單個(gè)周期下的狀態(tài)空間訓(xùn)練收斂速度慢,本文充分利用歷史數(shù)據(jù),使用包含當(dāng)前狀態(tài)在內(nèi)的五個(gè)歷史周期的數(shù)據(jù),將每個(gè)狀態(tài)空間擴(kuò)張到五維,可有效提升智能體訓(xùn)練過(guò)程的收斂效果,形如式(5):
(5)
式中:αc是攻角指令;λc為期望升阻比;eλ當(dāng)前升阻比與期望最優(yōu)升阻比的差;eα為指令跟蹤誤差;st是狀態(tài)空間。
1) 由動(dòng)力學(xué)特性分析可知,變形對(duì)于俯仰通道的影響較為明顯,橫側(cè)向通道影響較小,因此本文的決策過(guò)程中,僅考慮變形對(duì)攻角的影響。同時(shí)由于研究的是滑翔段,因此考慮升阻比最優(yōu)的決策目標(biāo)。經(jīng)分析,該飛行器在任意構(gòu)型下,給定的速度和攻角范圍內(nèi)最大升阻比都小于3,因此本文定義期望升阻比為3,將決策問(wèn)題轉(zhuǎn)化為跟蹤控制。此外,由于本文的智能決策是基于控制閉環(huán)狀態(tài)下的過(guò)程,狀態(tài)空間中的觀測(cè)值攻角跟蹤誤差存在與其他觀測(cè)值數(shù)量級(jí)不一致的問(wèn)題,因此在實(shí)際訓(xùn)練過(guò)程中需要對(duì)觀測(cè)值做歸一化處理。
智能體動(dòng)作輸出為飛行器變形指令,即飛行器的期望后掠角:
at=Λtc
(6)
考慮到變形機(jī)構(gòu)的動(dòng)力學(xué)特性,在訓(xùn)練中使用如下二階動(dòng)力學(xué)特性代替:
(7)
當(dāng)前回報(bào)與智能體當(dāng)前動(dòng)作策略輸出后得到的姿態(tài)偏差、期望的升阻比偏差有關(guān),同時(shí)增加單步常值獎(jiǎng)勵(lì),用于激勵(lì)智能體盡可能執(zhí)行完單個(gè)訓(xùn)練周期,有助于提升智能體訓(xùn)練的收斂速度。此外,選擇最優(yōu)升阻比跟蹤誤差eλ和攻角跟蹤誤差eα為稀疏獎(jiǎng)勵(lì)的判斷項(xiàng),當(dāng)大于設(shè)定值則給一個(gè)較大的懲罰。具體獎(jiǎng)勵(lì)函數(shù)表達(dá)式如式(8)。
(8)
式中:
表2 獎(jiǎng)勵(lì)函數(shù)參數(shù)設(shè)置Table 2 Parameters of reward function
2) 不同于其他文獻(xiàn)中的變形決策,本文進(jìn)一步考慮變形對(duì)姿態(tài)的影響,為了使得獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)的更為合理,將變形決策問(wèn)題統(tǒng)一轉(zhuǎn)化為跟蹤問(wèn)題,同時(shí)將觀測(cè)值歸一化,有利于智能體訓(xùn)練的收斂快速性。表2中的參數(shù)設(shè)置依賴于飛行器特性、決策問(wèn)題本身以及智能體訓(xùn)練者的經(jīng)驗(yàn),可根據(jù)問(wèn)題的側(cè)重點(diǎn)不同調(diào)整懲罰因子。
本文所用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)均為多隱層反向傳播前饋神經(jīng)網(wǎng)絡(luò)。對(duì)于Actor網(wǎng)絡(luò),其輸入層擁有25個(gè)神經(jīng)元對(duì)應(yīng)25維的環(huán)境輸入;中間3個(gè)全連接形式的隱含層均擁有64個(gè)神經(jīng)元,激活函數(shù)為ReLU;輸出層擁有1個(gè)神經(jīng)元對(duì)應(yīng)1維智能體的動(dòng)作,即變形決策量,激活函數(shù)為tanh型,添加偏置后可保證智能體的動(dòng)作量處于設(shè)定的范圍內(nèi),有助于訓(xùn)練的快速收斂。Critic網(wǎng)絡(luò)同樣擁有25維的環(huán)境輸入,即輸入層對(duì)應(yīng)25個(gè)神經(jīng)元,以及1維的動(dòng)作;狀態(tài)輸入經(jīng)過(guò)2組64神經(jīng)元的全連接層后與動(dòng)作輸入經(jīng)過(guò)1組64神經(jīng)元的全連接層的輸出進(jìn)行同維求和,最后再經(jīng)過(guò)一個(gè)64神經(jīng)元的全連接層后輸出,輸出為1維對(duì)應(yīng)輸入狀態(tài)和動(dòng)作下的狀態(tài)行為值,各層激活函數(shù)均為ReLU型。本文基于DDPG的智能變形決策算法訓(xùn)練過(guò)程中設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)如圖11所示。
圖11 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.11 Architecture diagram of the neural network
DDPG算法對(duì)于超參數(shù)較為敏感,一組合適的超參數(shù)可有助于訓(xùn)練的快速收斂。根據(jù)經(jīng)驗(yàn),本文智能體訓(xùn)練使用的超參數(shù)設(shè)置如表3所示。
表3 智能體訓(xùn)練超參數(shù)設(shè)置Table 3 Hyper-parameters for the training agent
回報(bào)曲線是反映智能體在訓(xùn)練過(guò)程中的收斂性能變化的重要體現(xiàn)。對(duì)于帶有五拍歷史數(shù)據(jù)的訓(xùn)練過(guò)程中,每5個(gè)訓(xùn)練回合的平均獎(jiǎng)勵(lì)隨回合數(shù)變化情況如圖12中帶有*標(biāo)記曲線所示。訓(xùn)練開(kāi)始時(shí),智能體探索初期會(huì)存在大偏差狀態(tài)使得累積回報(bào)較小,同時(shí)容易觸發(fā)提前終止條件,得到大的懲罰,因此初期的獎(jiǎng)勵(lì)函數(shù)在大范圍內(nèi)變化。在訓(xùn)練40次之后,智能體決策得到的綜合指標(biāo)性能顯著提升,收斂效果較好,在90次后滿足終止條件。而僅使用當(dāng)前拍狀態(tài)作為輸入時(shí),智能體訓(xùn)練則難以有效的收斂,甚至無(wú)法收斂,其獎(jiǎng)勵(lì)值如圖13所示。
圖12 帶有歷史數(shù)據(jù)的訓(xùn)練累積回報(bào)曲線Fig.12 Curves of cumulative reward with history dates
經(jīng)過(guò)動(dòng)力學(xué)特性分析,對(duì)于升阻比而言,其主要受馬赫數(shù)和攻角影響,因此我們可以得到不同速度、攻角下較優(yōu)的構(gòu)型(后掠角)。因此可通過(guò)插值的方式獲得基礎(chǔ)決策量作為參考,在此基礎(chǔ)上進(jìn)行“有專家指導(dǎo)”下的訓(xùn)練,相比于其他文獻(xiàn)可大大提升訓(xùn)練效率。
圖13 無(wú)歷史數(shù)據(jù)的訓(xùn)練累積回報(bào)曲線Fig.13 Curves of cumulative reward without history dates
由于本文研究是變形飛行器的綜合性能指標(biāo)下的智能決策問(wèn)題,決策因子包含姿態(tài)跟蹤誤差,為了體現(xiàn)決策的有效性,因此本文設(shè)計(jì)一類基于動(dòng)態(tài)逆的內(nèi)外環(huán)標(biāo)稱控制器。將變外形飛行器動(dòng)力學(xué)模型式(1)整理為面向控制的數(shù)學(xué)模型式(9)。
(9)
式中:Ω=[α,β,μ]T,ω=[ωx,ωy,ωz]T是內(nèi)外環(huán)的狀態(tài);U=[Mx,My,Mz]T是控制力矩;F1,G1,F2,G2分別是標(biāo)稱模型下關(guān)于狀態(tài)的非線性方程:
F1=
針對(duì)式(9),可基于時(shí)標(biāo)分離假設(shè),分別設(shè)計(jì)姿態(tài)環(huán)和角速度環(huán)標(biāo)稱控制律,如式(10)所示:
(10)
式中:Ωc是制導(dǎo)系統(tǒng)給出的姿態(tài)控制指令,ωc是角速度指令,屬于虛擬控制量,且二者微分量可由微分跟蹤器獲得;K1=diag(5,10,5)是姿態(tài)環(huán)的控制增益;Κ2=diag(15,50,15)是角速度環(huán)的控制增益。
基于標(biāo)稱控制律式(10)及DDPG的框架,本文設(shè)計(jì)的智能變形決策與控制一體化方案如圖14所示。由于本文針對(duì)飛行器的滑翔段為研究階段,核心目標(biāo)是通過(guò)變形提升阻比,進(jìn)一步提高滑翔距離,同時(shí)考慮變形過(guò)程對(duì)姿態(tài)的影響,盡可能減小變形過(guò)程對(duì)姿態(tài)的影響,甚至是通過(guò)變形提升單一控制增益下的控制精度。需要說(shuō)明的是,不同的任務(wù)需要設(shè)計(jì)不同的評(píng)價(jià)指標(biāo),如:爬升段設(shè)計(jì)升力最優(yōu),下壓段設(shè)計(jì)阻力最優(yōu)。由于實(shí)際飛行過(guò)程中需要考慮變形機(jī)構(gòu)的特性,因此在訓(xùn)練的過(guò)程中以二階動(dòng)力學(xué)模擬,更具工程應(yīng)用價(jià)值。
圖14 HMFV智能決策控制一體化框架Fig.14 Intelligent decision and control integration framework for HMFV
圖15 不同決策方式下的變形指令Fig.15 Deformation instructions under different decision methods
在訓(xùn)練過(guò)程中,我們僅使用了前20 s的狀態(tài),后20 s是訓(xùn)練過(guò)程中未遇到的狀態(tài),可以看出,所訓(xùn)練的智能體具有較好的泛化性能。圖15是通過(guò)反插值獲得的基礎(chǔ)決策量、考慮單一指標(biāo)和綜合指標(biāo)下訓(xùn)練后得到的智能體在閉環(huán)系統(tǒng)中的決策指令輸出。從圖中可以看出,基礎(chǔ)決策量可有效“指導(dǎo)”智能體決策輸出。同時(shí),在單一決策指標(biāo)下僅考慮升阻比,因此變形量變化更加急劇,而綜合決策指標(biāo)下的變形量更為緩和,更加符合工程應(yīng)用條件。從升阻比的變化看,如圖16所示,虛線為基礎(chǔ)構(gòu)型(Λ=90°)下獲得的升阻比,點(diǎn)畫(huà)線為智能體實(shí)時(shí)決策下的升阻比,實(shí)線是反插值方式獲得基礎(chǔ)決策量下升阻比,可以看出訓(xùn)練后的智能體在不同條件下均可實(shí)時(shí)獲得當(dāng)前狀態(tài)下的更優(yōu)的氣動(dòng)性能。
圖16 不同決策方式下的升阻比隨狀態(tài)變化曲線Fig.16 The lift-to-drag ratio variations with status under different decision methods
圖17~20是在標(biāo)稱控制律(10)的閉環(huán)作用下,使用單一決策指標(biāo)和考慮指令跟蹤誤差的綜合決策指標(biāo)兩種決策模式下的指令跟蹤情況,圖17是攻角跟蹤響應(yīng),圖19是側(cè)滑角響應(yīng),圖20是傾側(cè)角響應(yīng)。由圖18可知,在給定控制增益下,綜合指標(biāo)決策下的變形過(guò)程中跟蹤誤差均有所減小,特別是對(duì)于動(dòng)態(tài)跟蹤誤差表現(xiàn)的更為明顯,基于綜合決策指標(biāo)得到的變形決策指令帶來(lái)的動(dòng)態(tài)跟蹤誤差減小了近50%,這也表示所訓(xùn)練的智能體在決策過(guò)程中實(shí)現(xiàn)了綜合性能指標(biāo)最優(yōu)的目標(biāo)。
圖17 不同決策指標(biāo)下的攻角響應(yīng)Fig.17 The attack angel response under different decision indicators
圖18 不同決策指標(biāo)下的攻角誤差Fig.18 The tracking error of attack angle under different decision indicators
圖19 不同決策指標(biāo)下的側(cè)滑角響應(yīng)Fig.19 The response of sideslip angle under different decision indicators
圖20 不同決策指標(biāo)下的傾側(cè)角響應(yīng)Fig.20 The response of bank angel under different decision indicators
需要說(shuō)明的是,由于升阻比主要受到攻角的影響,且考慮到實(shí)際變形時(shí)不宜做傾側(cè)轉(zhuǎn)彎,因此本文給的傾側(cè)角指令為0。同時(shí),由動(dòng)力學(xué)特性分析可知,變后掠角的變形形式對(duì)偏航通道和滾轉(zhuǎn)通道的影響較小,為了加快智能體訓(xùn)練的收斂速度,僅考慮變形對(duì)攻角誤差的影響,但是從側(cè)滑角的響應(yīng)來(lái)看,受益于更加合理的變形決策指令,側(cè)滑角的誤差也有所改善,達(dá)到了預(yù)期的效果。
對(duì)于一類可連續(xù)變形的高速飛行器智能變形決策問(wèn)題,本文進(jìn)一步考慮變形決策與控制融合問(wèn)題,以滑翔段的變形決策為研究目標(biāo)。首先,基于動(dòng)力學(xué)特征選取合理的決策指標(biāo);其次,應(yīng)用強(qiáng)化學(xué)習(xí)方法,使HMFV在飛行過(guò)程中根據(jù)任務(wù)、狀態(tài)條件自主決策實(shí)時(shí)得到最優(yōu)構(gòu)型;再者,綜合考慮氣動(dòng)性能指標(biāo)與穩(wěn)定性指標(biāo)設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),將決策問(wèn)題轉(zhuǎn)換為跟蹤問(wèn)題;最后,通過(guò)仿真驗(yàn)證本文提出的基強(qiáng)化學(xué)習(xí)的HMFV智能變形策略可使其有很好的氣動(dòng)性能,同時(shí)可以增強(qiáng)變形過(guò)程中的飛行穩(wěn)定。
針對(duì)下一步的具體研究工作可以從以下兩點(diǎn)進(jìn)一步開(kāi)展:1)構(gòu)造典型任務(wù),實(shí)現(xiàn)全彈道、多任務(wù)下的實(shí)時(shí)智能變形決策;2)變形控制與姿態(tài)控制一體化研究,一方面獲得最佳構(gòu)型,一方面充分發(fā)揮智能控制的作用,生成智能補(bǔ)償控制律,實(shí)現(xiàn)變形過(guò)程中的更高精度控制。