程 林 蔣方華 李俊峰
(清華大學(xué)航天航空學(xué)院,北京100084)
中國航空航天經(jīng)過60余載的奮力發(fā)展,在幾代雙航人的努力拼搏下,通過打造長征、神州、嫦娥等系列工程,躋身于世界強(qiáng)國行列。然而,我國航空航天也面臨著總體布局大而不強(qiáng),部分技術(shù)與歐美強(qiáng)國存在巨大差距的現(xiàn)狀。飛行器控制系統(tǒng)是航空航天飛行器調(diào)度各分系統(tǒng)的“大腦”,直接決定了整個(gè)飛行任務(wù)的形式和質(zhì)量。提高飛行控制的自主性、魯棒性和智能化水平是飛行器動力學(xué)與控制技術(shù)研究的主題。
傳統(tǒng)上,受到機(jī)載計(jì)算機(jī)軟硬件技術(shù)限制,飛行器控制系統(tǒng)難以實(shí)現(xiàn)飛行剖面的實(shí)時(shí)規(guī)劃。工程上,多以離線標(biāo)稱軌跡設(shè)計(jì)和在線標(biāo)稱軌跡跟蹤相結(jié)合的跟蹤制導(dǎo)方式實(shí)現(xiàn)飛行任務(wù)。以經(jīng)典控制理論為基礎(chǔ)發(fā)展起來的PID(proportion-integralderivative)控制技術(shù)和以極點(diǎn)配置、滑模控制[1]、自適應(yīng)控制[2]、魯棒控制為代表的現(xiàn)代反饋技術(shù)能夠基于當(dāng)前狀態(tài)解析計(jì)算控制指令,具有算法簡單易實(shí)現(xiàn)、實(shí)時(shí)性好、穩(wěn)定可靠的優(yōu)勢,至今被絕大多數(shù)飛行任務(wù)所采用。然而,此類方法基于當(dāng)前狀態(tài)(非全局)生成指令,導(dǎo)致其對全局約束和性能指標(biāo)的考量不足。當(dāng)飛行任務(wù)包含復(fù)雜約束和最優(yōu)指標(biāo)時(shí),飛行控制系統(tǒng)往往需要離線設(shè)計(jì)好的標(biāo)稱軌跡作為飛行參考,PID 技術(shù)和現(xiàn)代反饋控制技術(shù)用于標(biāo)稱的軌跡跟蹤和姿態(tài)調(diào)整。由于標(biāo)稱軌跡離線設(shè)計(jì)所得,此類標(biāo)稱軌跡跟蹤制導(dǎo)方式的自主性和魯棒性較差,尤其是當(dāng)飛行環(huán)境存在較大的不確定性時(shí)。隨著任務(wù)需求的不斷發(fā)展,未來飛行任務(wù)的控制復(fù)雜性也日益提高。例如,高超聲速飛行器再入飛行軌跡實(shí)時(shí)規(guī)劃的需求、末制導(dǎo)中多個(gè)終端約束的嚴(yán)格限制、以太陽帆為代表的欠驅(qū)動控制模式、小行星著陸任務(wù)中的遠(yuǎn)程通訊限制等都對未來飛行控制系統(tǒng)全局自主決策能力和智能化水平提出更高的要求。從技術(shù)的發(fā)展趨勢來看,為滿足未來強(qiáng)不確定性、欠驅(qū)動、多約束、通訊限制等任務(wù)特點(diǎn),需要發(fā)展新型動力學(xué)與控制技術(shù),以實(shí)現(xiàn)控制任務(wù)自主性、魯棒性、多約束滿足和實(shí)時(shí)智能決策等性能的全面提升。
近年來,人工智能技術(shù)的飛速發(fā)展為飛行器自主智能飛行的實(shí)現(xiàn)提供了新的可能[3]。人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支領(lǐng)域,主要研究人類智能活動的規(guī)律,構(gòu)造具有一定智能的人工系統(tǒng),也就是研究如何應(yīng)用計(jì)算機(jī)的軟硬件來模擬人類某些智能行為的基本理論、方法和技術(shù)[4]。人工智能屬于應(yīng)用范疇,在算法層面主要依賴機(jī)器學(xué)習(xí)算法。機(jī)器學(xué)習(xí)又可分為監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)[4]。其中,深度神經(jīng)網(wǎng)絡(luò)飛躍式發(fā)展促進(jìn)了近年來機(jī)器學(xué)習(xí)研究的再次活躍,引領(lǐng)了第三次人工智能的浪潮。深度神經(jīng)網(wǎng)絡(luò)映射能力好、學(xué)習(xí)能力強(qiáng)、適應(yīng)性廣、純數(shù)據(jù)驅(qū)動的優(yōu)點(diǎn)使其在圖像識別、自然語言處理、健康醫(yī)療等任務(wù)中具有超過人類的表現(xiàn)[5]。深度學(xué)習(xí)主要實(shí)現(xiàn)數(shù)據(jù)的函數(shù)映射功能,可用來解決智能中的辨識問題。不同的是,強(qiáng)化學(xué)習(xí)針對Markov決策問題,通過與被控對象的不斷交互和迭代學(xué)習(xí),生成可供全局決策的最優(yōu)策略,可解決智能中的決策問題[6]。深度神經(jīng)網(wǎng)絡(luò)為強(qiáng)化學(xué)習(xí)的智能存儲提供了強(qiáng)大記憶載體。應(yīng)運(yùn)而生的深度強(qiáng)化學(xué)習(xí)技術(shù)適合于解決復(fù)雜且難以建模的應(yīng)用場景問題,其有效性在圍棋AlphaZero算法中得到驗(yàn)證[7]。深度強(qiáng)化學(xué)習(xí)技術(shù)已經(jīng)在工業(yè)自動化、數(shù)據(jù)科學(xué)、神經(jīng)網(wǎng)絡(luò)優(yōu)化、醫(yī)學(xué)等方面逐漸開展應(yīng)用[8]??偠灾斯ぶ悄芑诖鎯?、記憶、預(yù)訓(xùn)練的應(yīng)用模式為傳統(tǒng)學(xué)科難題的解決提供了新途徑。近年來,人工智能技術(shù)應(yīng)用于飛行器動力學(xué)與控制,用以提升飛行控制的自主性和智能化水平,尤其備受關(guān)注。
本文基于課題組前期研究成果和參閱國內(nèi)外知名學(xué)者的部分研究,以提升飛行器控制自主性和智能化水平為研究主題,總結(jié)和梳理了深度學(xué)習(xí)應(yīng)用于動力學(xué)、最優(yōu)控制和任務(wù)設(shè)計(jì)中的研究思路,并針對研究思路的總體實(shí)現(xiàn)方案、優(yōu)缺點(diǎn)和部分代表性成果進(jìn)行綜述,希望對相關(guān)研究同行提供一定的參考。深度學(xué)習(xí)應(yīng)用于航空航天的研究方興未艾,新的成果更是層出不窮,論文未能提及之處,敬請諒解。
為提高飛行器自主飛行控制質(zhì)量,可以從以下兩方面入手。第一,提高飛行在線智能決策能力;第二,建立更加精確的飛行器動力學(xué)模型。精確的動力學(xué)模型是實(shí)現(xiàn)飛行器運(yùn)動規(guī)律推演的基礎(chǔ),也是控制器智能決策的重要依據(jù)。傳統(tǒng)動力學(xué)以牛頓力學(xué)和分析力學(xué)為基礎(chǔ),結(jié)合一定力學(xué)經(jīng)驗(yàn)和工程要求,建立飛行器飛行動力學(xué)模型。然而,受到模型不匹配、測量手段不足、精確建模成本過高、模型遷移等諸多因素影響,實(shí)際工程中難以獲得飛行器精確動力學(xué)模型。例如,小行星著陸過程中,小行星參數(shù)不確定會導(dǎo)致引力場計(jì)算模型的不準(zhǔn)確;基于理論分析和風(fēng)洞試驗(yàn)獲取的臨近空間飛行器氣動模型也存在較大不準(zhǔn)確,以及風(fēng)干擾因素也難以建模;軟體機(jī)器人目前還沒有系統(tǒng)的動力學(xué)建模方法等。飛行器動力學(xué)模型的一般形式為
其中,模型分為確定性部分(deterministic)和不確定性(undeterministic)部分。確定性部分表示在相同的狀態(tài)下具有確定的動力學(xué)特性,具有可復(fù)現(xiàn)性,例如推力或者重力等影響因素。不確定性部分表示在相同狀態(tài)下動力學(xué)呈現(xiàn)不確定特征,例如飛行器的風(fēng)干擾等。表達(dá)式Fdk(x,u)表示動力學(xué)模型中確定且已知(known)部分,F(xiàn)du(x,u)表示動力學(xué)模型中確定但未知(unknown)部分,F(xiàn)ud(x,u)則表示不確定性部分。
目前深度學(xué)習(xí)在動力學(xué)建模的應(yīng)用主要包括:(1)提升計(jì)算效率;(2)構(gòu)造智能動力學(xué)模型;(3)動力學(xué)反問題的學(xué)習(xí)。
在某些控制問題中,動力學(xué)部分Fdk(x,u)盡管已知,但是計(jì)算量龐大。在這種情況下,機(jī)器學(xué)習(xí)算法可用于擬合動力學(xué)Fdk(x,u) 部分,在保證精度的前提下實(shí)現(xiàn)計(jì)算效率的提升。例如,F(xiàn)urfaro等[9]采用極限學(xué)習(xí)機(jī)(extreme learning machines)學(xué)習(xí)不規(guī)則小行星的引力場,在確保一定擬合精度的同時(shí)大幅提高了引力場計(jì)算效率。Song 等[10]采用深度神經(jīng)網(wǎng)絡(luò)擬合不規(guī)則引力場,并將其應(yīng)用于小行星著陸軌跡規(guī)劃中,取得了良好的效果。Cheng等[11-12]進(jìn)一步將神經(jīng)網(wǎng)絡(luò)引力場模型應(yīng)用于小行星著陸軌跡的快速同倫和智能著陸控制器學(xué)習(xí)中。此外,Wei等[13]采用Serendipity(偶然)插值技術(shù)來擬合小行星引力場的起伏,從而獲得高計(jì)算效率、高精度的小行星引力場模型。
為了進(jìn)一步提升飛行器動力學(xué)建模的精度,深度神經(jīng)網(wǎng)絡(luò)也可用來學(xué)習(xí)動力學(xué)的未知部分Fdu(x,u)。文獻(xiàn)[3]中提出一種智能動力學(xué)模型
其中,深度神經(jīng)網(wǎng)絡(luò)模塊Netdu(x)用來表征動力學(xué)中的Fdu(x,u)部分,?f表示擬合誤差。為了實(shí)現(xiàn)模型的自我學(xué)習(xí),文獻(xiàn)[3] 基于擴(kuò)張觀測技術(shù)提出了一種模型迭代學(xué)習(xí)算法,并給出了詳細(xì)的算法穩(wěn)定性證明。值得說明的是,文獻(xiàn)[3]為了保證后續(xù)間接法的求解需要,只考慮動力學(xué)Fdu(x,u)與控制變量u無關(guān)的情況。式(2)也被嘗試應(yīng)用于小行星繞飛過程中的引力場在線學(xué)習(xí)。小行星探測器前期繞飛中,通過一定的反演算法,推算出當(dāng)前位置下的引力場修正值。觀測的引力場修正值與地面雷達(dá)或者光學(xué)估算值(例如多面體算法[14])進(jìn)行數(shù)據(jù)融合,從而實(shí)現(xiàn)智能動力學(xué)模型的在線調(diào)整與學(xué)習(xí)?;谝龅膶W(xué)習(xí)效果,研究者還可以進(jìn)一步對探測器繞飛軌道進(jìn)行優(yōu)化。當(dāng)前,針對反演算法、數(shù)據(jù)融合算法、繞飛軌道的優(yōu)化還在技術(shù)攻關(guān)中。
與此同時(shí),相關(guān)學(xué)者也在設(shè)想更加一般性的智能動力學(xué)模型。例如,考慮Fdu(x,u)與控制變量u相關(guān),且也可應(yīng)用于間接法的動力學(xué)模型
其中,i=0,1,2;Fdu(x,u)的擬合為一元三次表達(dá)式,三個(gè)網(wǎng)絡(luò)Neti(x)分別表征一元三次表達(dá)式的三個(gè)擬合系數(shù)??紤]到動力學(xué)中可能存在不確定項(xiàng),也可考慮含正態(tài)分布隨機(jī)項(xiàng)的動力學(xué)模型
其中,函數(shù)N(μ,σ)表示正態(tài)分布函數(shù),μ=Netμ(x,u) 表示正態(tài)分布的期望,σ=Netσ(x,u)表示正態(tài)分布的方差。
作者認(rèn)為,精確動力學(xué)建模是實(shí)現(xiàn)飛行器智能飛行不可缺少的關(guān)鍵技術(shù)之一。目前,計(jì)算機(jī)領(lǐng)域崇尚Model-free 的學(xué)習(xí)策略,即在不需要對被控對象精確建模的前提下,通過智能體與被控對象的不斷交互和經(jīng)驗(yàn)積累,最終實(shí)現(xiàn)智能體最佳控制策略的學(xué)習(xí)。近年來,深度強(qiáng)化學(xué)習(xí)領(lǐng)域出現(xiàn)的代表性算法也多為Model-free算法,例如DDPG (deterministic policy gradient algorithms)[15],A3C (actorcritic)[8],區(qū)域信賴策略優(yōu)化(trust region policy optimization, TRPO)[16],PPO (proximal policy optimization)[17]等。盡管Model-free的學(xué)習(xí)策略在實(shí)踐中簡單易執(zhí)行且具有良好的收斂性,但是Modelfree 強(qiáng)化學(xué)習(xí)算法也存在明顯的缺點(diǎn),包括隨機(jī)動作探索引發(fā)的學(xué)習(xí)效率低下、約束無法嚴(yán)格保障、以及訓(xùn)練樣本的海量需求。在不解決以上難題的情況下,作者認(rèn)為Model-free 強(qiáng)化學(xué)習(xí)算法難以直接應(yīng)用于飛行控制器的設(shè)計(jì)任務(wù)中。
另一方面,基于模型的策略學(xué)習(xí)在飛行控制任務(wù)中具有以下優(yōu)勢。第一,基于牛頓力學(xué)或分析力學(xué)可獲取動力學(xué)模型的基本形式和解析表達(dá)式,這些先驗(yàn)信息的充分利用可有效降低問題的復(fù)雜性和學(xué)習(xí)樣本的需求量。例如,速度和位置的關(guān)系是明確的、解析的。第二,精確構(gòu)建被控對象的動力學(xué)模型,可有效降低智能控制器與實(shí)物的交互需求,從而降低學(xué)習(xí)成本。當(dāng)然,被控對象動力學(xué)模型越準(zhǔn)確,與實(shí)物交互的需求降低效果越明顯。這也間接說明了打造具有自學(xué)習(xí)能力的智能動力學(xué)模型的必要性。在最新ANYmal 四足復(fù)雜機(jī)器人智能控制系統(tǒng)構(gòu)造中,數(shù)字動力學(xué)模型就被用于訓(xùn)練控制策略,并取得非常好的實(shí)際控制效果[18]。近五年,Model-based 深度強(qiáng)化學(xué)習(xí)的研究也備受學(xué)者關(guān)注,其中構(gòu)建精確的表征模型也是其關(guān)鍵技術(shù)之一[13,19]。文獻(xiàn)[20]基于高斯處理技術(shù)打造貝葉斯神經(jīng)網(wǎng)絡(luò)模型(Bayesian neural network dynamics model)跟本文式(4)具有相同的研究思路。區(qū)別在于,式(4)包含傳統(tǒng)動力學(xué)模塊Fdk(x,u),是一種復(fù)合模型,具有繼承動力學(xué)理論分析結(jié)果的優(yōu)勢。
飛行器控制的主要目的是根據(jù)任務(wù)需求調(diào)整控制指令實(shí)現(xiàn)預(yù)定的控制規(guī)律。從具體實(shí)現(xiàn)途徑來看,主要有反饋控制(基于李雅普諾夫穩(wěn)定性定理)、最優(yōu)控制(基于極小值原理)和深度強(qiáng)化學(xué)習(xí)(基于貝爾曼最優(yōu)性原理)三種實(shí)現(xiàn)途徑。其中基于當(dāng)前狀態(tài)解析生成控制指令的反饋控制具有易于實(shí)現(xiàn)、實(shí)時(shí)性好、穩(wěn)定可靠的優(yōu)點(diǎn)。反饋控制又可細(xì)分為Error-based 方法(誤差反饋方法,包括PID 和增益調(diào)度PID等)和Model-based方法(模型反饋方法,包括動態(tài)逆、滑模、自適應(yīng)控制等)[21]。Error-based方法不依賴被控對象的精確模型,方法簡單易于實(shí)現(xiàn),是目前工程中應(yīng)用最為廣泛的控制手段。與此同時(shí),基于現(xiàn)代控制理論發(fā)展起來的Model-based控制方法能夠根據(jù)被控對象動力學(xué)特點(diǎn),精確控制被控對象狀態(tài)的微分變化過程,從而能夠充分發(fā)揮被動對象的動力學(xué)特性,實(shí)現(xiàn)更快、更穩(wěn)的控制效果。圖1 給出了Model-based 反饋控制方法的示意圖。Model-based 反饋控制的實(shí)現(xiàn)可分為兩個(gè)操作:第一,算法根據(jù)反饋回來的狀態(tài)和想要的控制目標(biāo)設(shè)計(jì)出想要的狀態(tài)微分變化,其中狀態(tài)微分變化的不同設(shè)計(jì)策略也是動態(tài)逆、滑模等方法的主要區(qū)別;第二,算法根據(jù)微分動力學(xué)模型和想要的狀態(tài)微分變化值反向計(jì)算需要的控制指令。然而,由于實(shí)際飛行控制中被控對象的動力學(xué)模型難以精確獲得,這極大限制了Model-based 方法在工程中的應(yīng)用。為了解決此類問題,Model-based 方法主要朝著兩個(gè)方向改進(jìn),一個(gè)是提高算法的自適應(yīng)性,即通過在線觀測理想模型和實(shí)際模型的偏差?F,并在反饋控制中實(shí)時(shí)補(bǔ)償;二是提高算法的魯棒性。
圖1 Model-based 方法示意圖
Model-based 反饋控制方法依賴精確動力學(xué)模型反向計(jì)算控制指令,而工程上又難以實(shí)現(xiàn)。深度學(xué)習(xí)有望解決這一難題。圖2給出了一套解決方案。方案主要包括三部分。第一,采用擴(kuò)張觀測器對未知狀態(tài)和狀態(tài)微分在線辨識,獲取精確狀態(tài)是對狀態(tài)進(jìn)行精確控制的前提;第二,基于極點(diǎn)配置方法配置穩(wěn)定可控的狀態(tài)微分變化規(guī)律,此部分主要繼承于傳統(tǒng)Model-based 方法;第三,神經(jīng)網(wǎng)絡(luò)根據(jù)狀態(tài)微分變化規(guī)律預(yù)測具體的控制指令??紤]到在沒有任何先驗(yàn)信息的情況下,神經(jīng)網(wǎng)絡(luò)一開始的輸出是隨機(jī)的、錯(cuò)誤的,因此可加入一個(gè)PI反饋控制器進(jìn)行神經(jīng)網(wǎng)絡(luò)的引導(dǎo)學(xué)習(xí)。具體過程為:被控對象的指令u由神經(jīng)網(wǎng)絡(luò)的預(yù)測指令unet和PI 控制器的?u復(fù)合而成。初始,由于神經(jīng)網(wǎng)絡(luò)的輸出不準(zhǔn)確,被控對象的實(shí)際狀態(tài)微分˙x和理想狀態(tài)微分˙xd存在差距。在這種情況下,PI控制器會根據(jù)差距產(chǎn)生補(bǔ)償指令?u,縮小神經(jīng)網(wǎng)絡(luò)指令unet的誤差。與此同時(shí),神經(jīng)網(wǎng)絡(luò)會根據(jù)補(bǔ)償指令?u的大小對自身參數(shù)進(jìn)行調(diào)整,使其輸出unet盡可能趨向于修正后的u。當(dāng)算法穩(wěn)定后,unet→u,?u →0。在這種情況下,盡管Fdu(x,u)不知,狀態(tài)微分以及unet→L?1(Fdk(x,u)+Fdu(x,u)) (L?1表示反求u,即動力學(xué)問題的逆)。詳細(xì)的方法設(shè)計(jì)和穩(wěn)定性證明會在后續(xù)的文章中給出。
圖2 智能控制器示意圖
飛行控制的技術(shù)實(shí)現(xiàn)途徑主要包括反饋控制、最優(yōu)控制和強(qiáng)化學(xué)習(xí)。反饋控制基于當(dāng)前狀態(tài)解析計(jì)算控制指令,具有良好的實(shí)時(shí)性和算法收斂性,但是算法沒有全局規(guī)劃能力,對過程約束、終端約束和優(yōu)化指標(biāo)難以考量。飛行控制問題本質(zhì)是最優(yōu)控制問題,常見的最優(yōu)控制數(shù)值求解方法包括間接法和直接法[22]。間接法利用Pontryagin 極小值原理推導(dǎo)出最優(yōu)控制的一階必要條件,進(jìn)而得到求解最優(yōu)軌跡的兩邊邊值問題[23]。從優(yōu)點(diǎn)來看,間接法求解的結(jié)果精度比較高,且解滿足一階最優(yōu)性。但是,在實(shí)際中,兩邊邊值問題求解難度比較大,尤其是當(dāng)控制量和狀態(tài)量均存在約束時(shí)。除此之外,它還具有推導(dǎo)過程繁瑣、通用性差、初始值難以估計(jì)、收斂域小等缺點(diǎn)。近年來,包括同倫技術(shù)[24]、協(xié)態(tài)歸一[25]、啟發(fā)式初始值搜索[25]等策略用來改進(jìn)間接法的性能,并取得良好的效果。得益于計(jì)算機(jī)性能的提升和數(shù)值仿真技術(shù)發(fā)展,自20 世紀(jì)70 年代以來,最優(yōu)控制數(shù)值求解的另一重要分支——直接法得到興起并被普遍采用[26]。直接法采用剖面參數(shù)化的方法將最優(yōu)控制問題轉(zhuǎn)化為參數(shù)優(yōu)化問題,并采用非線性規(guī)劃方法進(jìn)行求解。根據(jù)對控制量和狀態(tài)量是否參數(shù)化,直接法又可細(xì)分為只離散控制剖面的直接打靶法、同時(shí)離散控制剖面和狀態(tài)剖面的配點(diǎn)法,以及只離散狀態(tài)剖面的微分包含法[27]。直接打靶法是軌跡設(shè)計(jì)中常用的一種形式,大量方法(包括依賴梯度的最優(yōu)化算法和隨機(jī)啟發(fā)式算法)都曾結(jié)合直接打靶法用來解決最優(yōu)控制問題[28]。然而,由于直接打靶法中狀態(tài)剖面只能靠彈道積分得到,整個(gè)算法的實(shí)時(shí)性比較差。近年來,以偽譜法[29-30]和凸優(yōu)化[31-33]為代表的配點(diǎn)法憑借收斂速度和可靠性等優(yōu)勢而備受學(xué)者關(guān)注。然而,配點(diǎn)法面臨維度爆炸、收斂域小、求解時(shí)間和精度嚴(yán)重依賴于初始猜測值等難題??偠灾?,最優(yōu)控制數(shù)值求解方法是目前最優(yōu)控制問題的主流求解方法,求解穩(wěn)定性和速度上也在逐年完善。然而,由于仍然不能滿足飛行器在線控制的實(shí)時(shí)性要求,最優(yōu)控制數(shù)值求解方法目前主要應(yīng)用于離線的標(biāo)稱軌跡設(shè)計(jì)以及在線的標(biāo)稱軌跡緊急重構(gòu)。
強(qiáng)化學(xué)習(xí)作為當(dāng)今人工智能研究的一個(gè)重要研究方向,在解決連續(xù)動作空間的最優(yōu)控制問題上優(yōu)勢不斷凸顯,并在機(jī)器人控制、自動駕駛等方面展現(xiàn)出很好的應(yīng)用前景[34]。強(qiáng)化學(xué)習(xí)算法是機(jī)器學(xué)習(xí)算法的三大分支之一,它主要研究在交互環(huán)境下,智能體根據(jù)當(dāng)前狀態(tài)不斷嘗試動作并總結(jié)得失,最終實(shí)現(xiàn)累計(jì)效益最大化的控制策略(如圖3所示)。
圖3 強(qiáng)化學(xué)習(xí)交互過程
強(qiáng)化學(xué)習(xí)基于動態(tài)規(guī)劃方法的貝爾曼最優(yōu)性原理,它與傳統(tǒng)最優(yōu)控制數(shù)值求解方法(間接法和直接法)的區(qū)別主要體現(xiàn)在:
(1) 最優(yōu)控制數(shù)值求解方法:前期不需要訓(xùn)練,每次求解都試圖得到整個(gè)動作序列(離散問題)或者控制剖面(連續(xù)動作問題),由于求解維度很大,求解實(shí)時(shí)性普遍不足;
(2) 強(qiáng)化學(xué)習(xí)方法:強(qiáng)化學(xué)習(xí)基于最優(yōu)性原理將多級決策問題轉(zhuǎn)化為一系列單級決策問題,具體公式為:當(dāng)前狀態(tài)的好壞=當(dāng)前動作的獎勵+下一個(gè)狀態(tài)的好壞[6]。強(qiáng)化學(xué)習(xí)以離線反復(fù)學(xué)習(xí)為代價(jià),根據(jù)狀態(tài)和動作對應(yīng)的價(jià)值函數(shù)來優(yōu)化動作指令,經(jīng)過反復(fù)訓(xùn)練得到最優(yōu)控制策略;在在線應(yīng)用階段,訓(xùn)練得到的最優(yōu)控制策略無需求解最優(yōu)控制問題,能夠根據(jù)狀態(tài)查詢得到最優(yōu)指令,因此具有顯著的實(shí)時(shí)性優(yōu)勢。
深度強(qiáng)化學(xué)習(xí)是采用深度神經(jīng)網(wǎng)絡(luò)做函數(shù)擬合的一類新興強(qiáng)化學(xué)習(xí)算法,特別適合解決復(fù)雜大維度應(yīng)用場景問題,并已經(jīng)在圍棋AlphaZero 算法中得到技術(shù)驗(yàn)證[7]。在連續(xù)動作空間最優(yōu)控制問題上,2014年,Deepmind團(tuán)隊(duì)在總結(jié)DQN[35]和Actor-Critic 方法基礎(chǔ)上,提出了DDPG 方法[15],實(shí)驗(yàn)表明,DDPG 算法在連續(xù)動作空間任務(wù)中表現(xiàn)穩(wěn)定,且計(jì)算量遠(yuǎn)遠(yuǎn)低于同水平DQN。Schulman等[16]于2015 年提出了TRPO方法,此方法通過強(qiáng)制限制同一批次數(shù)據(jù)新舊兩種策略預(yù)測分布的KL差距,避免參數(shù)更新中策略發(fā)生太大改變,從而提高了算法的收斂性能。2016年,Deepmind團(tuán)隊(duì)提出了A3C異步強(qiáng)化學(xué)習(xí)架構(gòu),其在采用深度強(qiáng)化學(xué)習(xí)Actor-Critic 框架基礎(chǔ)上,利用多個(gè)智能體共同探索,并行計(jì)算策略梯度,維持一個(gè)總的更新量[8]。針對TRPO 標(biāo)準(zhǔn)解法計(jì)算量過大的問題,OpenAI 于2016 年提出了利用一階梯度的PPO算法,并用隨機(jī)梯度下降的方法更新參數(shù)[17]。Google 在此啟發(fā)下,基于PPO 算法提出了分布式的DPPO (distributed proximal policy optimization),并取得了優(yōu)異的結(jié)果[36]。鑒于PPO 算法依舊沿著策略梯度方向進(jìn)行參數(shù)更新,2017 年8 月,多倫多大學(xué)和紐約大學(xué)聯(lián)合提出ACKTR 算法,其通過引入計(jì)算參數(shù)的自然策略梯度來加速PPO算法的收斂速度[37]。
強(qiáng)化學(xué)習(xí)起源于離散多級最優(yōu)決策問題,將其推廣到連續(xù)飛行控制問題中,現(xiàn)有強(qiáng)化學(xué)習(xí)算法主要面臨著以下三個(gè)挑戰(zhàn):(1)策略學(xué)習(xí)效率問題:現(xiàn)有強(qiáng)化學(xué)習(xí)動作選擇大多采用隨機(jī)探索策略,雖然一定程度上保證了算法的探索能力,但是同樣導(dǎo)致算法計(jì)算效率低下和復(fù)雜問題難以收斂等不足。(2)收益函數(shù)設(shè)計(jì):現(xiàn)有強(qiáng)化學(xué)習(xí)的價(jià)值函數(shù)難以考量約束滿足情況,單純以懲罰函數(shù)的形式來評價(jià)策略的實(shí)現(xiàn)情況,很容易導(dǎo)致問題的病態(tài),此難題導(dǎo)致強(qiáng)化學(xué)習(xí)難以在約束較強(qiáng)的最優(yōu)控制問題上應(yīng)用;(3)學(xué)習(xí)成本問題:無模型依賴引發(fā)海量樣本訓(xùn)練需求。
從目前技術(shù)途徑來看,無論是最優(yōu)控制數(shù)值方法還是深度強(qiáng)化學(xué)習(xí)在飛行器實(shí)時(shí)自主控制中都存在著不足。作者認(rèn)為傳統(tǒng)學(xué)科與新興人工智能的關(guān)系并非取代關(guān)系,而應(yīng)該相輔相成。實(shí)現(xiàn)傳統(tǒng)飛行控制與人工智能技術(shù)的創(chuàng)新性結(jié)合,是實(shí)現(xiàn)智能控制發(fā)展的重要方向。目前深度學(xué)習(xí)與傳統(tǒng)控制方法相結(jié)合的研究可概括為以下三個(gè)方面:(1)深度學(xué)習(xí)擬合控制指令;(2)智能初值生成策略;(3)交互強(qiáng)化學(xué)習(xí)。
雖然最優(yōu)控制數(shù)值求解方法在在線飛行控制中實(shí)時(shí)性不足,但是其求解效率高、算法收斂性好。在動力學(xué)模型已知的情況下,可以通過收集最優(yōu)控制數(shù)值方法生成的飛行控制樣本,離線訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),并應(yīng)用于在線飛行控制中。這是人工智能應(yīng)用于飛行控制中最為直接的方案之一。針對著陸控制問題,Sanchez-Sanchez 等[38-39]基于間接法生成的求解數(shù)據(jù),采用監(jiān)督學(xué)習(xí)的方式訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),仿真表明,訓(xùn)練得到的智能控制器能夠?qū)崟r(shí)驅(qū)動被控對象完成比較精確的著陸。在月球著陸控制任務(wù)中,F(xiàn)urfaro 等[40]采用GPOPS 產(chǎn)生訓(xùn)練數(shù)據(jù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN) 和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN),訓(xùn)練得到的智能控制器能夠基于圖像數(shù)據(jù)自主決策控制指令。文獻(xiàn)[41-44]將類似方案應(yīng)用于小行星著陸、火星著陸以及小推力多圈軌跡轉(zhuǎn)移、四旋翼無人機(jī)機(jī)動中,都取得不錯(cuò)的仿真效果。Izzo等[45]討論了深度學(xué)習(xí)對控制指令、價(jià)值函數(shù)、協(xié)態(tài)(價(jià)值函數(shù)梯度)的三種擬合策略,并得出對控制指令和協(xié)態(tài)進(jìn)行擬合的策略表現(xiàn)更好的結(jié)論。在文獻(xiàn)[46] 中,訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)被用來實(shí)時(shí)決策飛行器姿態(tài)脈沖發(fā)動機(jī)的開關(guān),驗(yàn)證了此方案在離散控制決策問題上的可能性。
為實(shí)現(xiàn)智能控制器任意狀態(tài)的擬合,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練往往需要大量數(shù)據(jù)支持。如何快速產(chǎn)生大量數(shù)據(jù)需要一定的技巧。在間接法生成訓(xùn)練數(shù)據(jù)中,文獻(xiàn)[39]采用如下策略:首先,在上一個(gè)狀態(tài)周圍隨機(jī)產(chǎn)生下一個(gè)樣本狀態(tài);然后,以上一個(gè)狀態(tài)的協(xié)態(tài)值作為下一個(gè)狀態(tài)協(xié)態(tài)求解的初始猜測。周而復(fù)始逐步生成樣本集。在此基礎(chǔ)上,文獻(xiàn)[47]采用了一種遍歷狀態(tài)空間的樣本生成策略,在保證樣本快速生成的前提下,確保了樣本集對搜索空間的覆蓋性。同樣,同倫技術(shù)也可用來提升樣本的生成效率[41]。Izzo 等[45]基于極小值原理,提出了基于反向積分快速獲取樣本的思路。雖然該套方法在樣本覆蓋性、搜索空間邊界上還需要進(jìn)一步開展研究,但是通過單次軌跡反向積分即可獲取最優(yōu)軌跡的策略在算法效率上表現(xiàn)出無與倫比的優(yōu)勢。
神經(jīng)網(wǎng)絡(luò)應(yīng)用于飛行控制中最受詬病的一點(diǎn)是,神經(jīng)網(wǎng)絡(luò)是一個(gè)黑盒子,其控制效果難以解析分析。為了提升智能控制器的可靠性,文獻(xiàn)[48]在太陽帆軌跡轉(zhuǎn)移中,采用多個(gè)尺度的神經(jīng)網(wǎng)絡(luò)相互配合,從而保證神經(jīng)網(wǎng)絡(luò)能夠識別10?7量級的狀態(tài)誤差,最終實(shí)現(xiàn)飛行器高精度入軌。在月球著陸任務(wù)中,文獻(xiàn)[49]提出智能控制和反饋控制復(fù)合的控制策略,從而保證飛行器在大范圍機(jī)動中呈現(xiàn)最優(yōu)性而在最后著陸階段又兼具高可靠性。
總體來看,最優(yōu)控制數(shù)值方法產(chǎn)生訓(xùn)練樣本,深度學(xué)習(xí)離線訓(xùn)練智能控制器并應(yīng)用于在線控制的方案,既利用了最優(yōu)控制方法在求解質(zhì)量和效率上的優(yōu)勢,又解決了傳統(tǒng)最優(yōu)控制方法在線控制中實(shí)時(shí)性不足的難題。然而,該套方案依賴精確動力學(xué)建模,這極大限制了這一方案的通用性。動力學(xué)建模的不準(zhǔn)確或者動力學(xué)的遷移都將導(dǎo)致訓(xùn)練好的控制器作廢。為了解決此問題,該方案可以結(jié)合本文動力學(xué)部分中的智能動力學(xué)模型進(jìn)行復(fù)合應(yīng)用。
在以上深度學(xué)習(xí)擬合控制指令的策略中,傳統(tǒng)最優(yōu)控制方法產(chǎn)生訓(xùn)練樣本,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)樣本并被應(yīng)用于在線控制。整個(gè)策略中,最優(yōu)控制方法是“輔助”角色,而人工智能算法是“主要”角色。然而,當(dāng)動力學(xué)模型存在不確定時(shí),深度學(xué)習(xí)擬合控制指令的策略會失效。針對此問題,更加保守但可靠的思路是人工智能算法退居“輔助”角色。一種切實(shí)可行的方案是離線訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)為最優(yōu)控制數(shù)值方法提供求解初值,促進(jìn)其求解效率和速度。在離線狀態(tài)下,當(dāng)動力學(xué)模型(1)中存在未知項(xiàng)時(shí),可以基于動力學(xué)模型
產(chǎn)生樣本并訓(xùn)練網(wǎng)絡(luò)。在線狀態(tài)下,且未知動力學(xué)項(xiàng)已經(jīng)探明后,原問題(1)的解可由問題(5)的解延拓得到。文獻(xiàn)[47]針對小行星著陸問題給出了一套解決方案。在此論文中,通過模型簡化和線性轉(zhuǎn)換,小行星著陸問題可被簡化為一個(gè)二維空間轉(zhuǎn)移問題。間接法離線求解二維空間轉(zhuǎn)移問題,產(chǎn)生的控制樣本用來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。仿真表明,神經(jīng)網(wǎng)絡(luò)可為二維轉(zhuǎn)移問題提供100%收斂的初始解。在此基礎(chǔ)上,原小行星著陸問題可基于反向模型延拓技術(shù)而快速求解。此外,論文還設(shè)計(jì)了初值生成備用策略,進(jìn)一步提升求解的可靠性。
由于未知動力學(xué)部分可以在神經(jīng)網(wǎng)絡(luò)離線訓(xùn)練中臨時(shí)舍棄,等動力學(xué)探明之后再補(bǔ)充進(jìn)來,所以算法的適應(yīng)性比較好。例如文獻(xiàn)[47],由于忽略了小行星的自轉(zhuǎn)和引力場,因此訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)適用于在任何小行星任意地點(diǎn)的著陸任務(wù)。與此同時(shí),由于神經(jīng)網(wǎng)絡(luò)只是為最優(yōu)控制方法提供初值,單純起輔助作用,因此整套方案的可靠性也有所保障,這一點(diǎn)在工程中尤為重視。
Model-free 強(qiáng)化學(xué)習(xí)算法不依賴被控對象的數(shù)學(xué)模型,智能體通過不斷與被控對象的交互,總結(jié)動作的收益情況最終形成最優(yōu)控制策略。Model-free強(qiáng)化學(xué)習(xí)算法在通用性和易用性上具有誘人的應(yīng)用前景。然而,正如前文提到,Model-free 強(qiáng)化學(xué)習(xí)算法在飛行控制中應(yīng)用,存在收斂效率、約束管理和學(xué)習(xí)成本三個(gè)難題。在不解決以上難題的情況下,作者認(rèn)為Model-free 強(qiáng)化學(xué)習(xí)算法難以直接應(yīng)用于飛行控制器的設(shè)計(jì)任務(wù)中。要想降低飛行控制中強(qiáng)化學(xué)習(xí)算法的學(xué)習(xí)成本,一種可行的方案是構(gòu)建被控對象的數(shù)學(xué)模型(model),通過Model-free強(qiáng)化學(xué)習(xí)算法與數(shù)學(xué)模型的交互完成智能控制器的訓(xùn)練。例如,文獻(xiàn)[50] 將Model-free 強(qiáng)化學(xué)習(xí)算法應(yīng)用于火星著陸任務(wù)中。仿真試驗(yàn)表明,學(xué)習(xí)的智能控制器能夠在六自由度控制中自主決策控制指令,并具有一定的控制魯棒性。然而,終端等式約束和飛行最優(yōu)性指標(biāo)是以罰函數(shù)的形式添加到強(qiáng)化學(xué)習(xí)的Reward 函數(shù)設(shè)計(jì)中,導(dǎo)致訓(xùn)練好的控制器只能實(shí)現(xiàn)約束和最優(yōu)性的折衷。在已知動力學(xué)模型情況下,Model-based強(qiáng)化學(xué)習(xí)的研究也備受關(guān)注[19]。
鑒于最優(yōu)控制數(shù)值方法相比Model-free 強(qiáng)化學(xué)習(xí)算法在求解效率和約束滿足情況都有顯著的優(yōu)勢,文獻(xiàn)[48]提出一種Actor–Indirect method 交互式策略學(xué)習(xí)架構(gòu)。在此架構(gòu)中,間接法(indirect method)求解飛行控制問題,提供樣本訓(xùn)練神經(jīng)網(wǎng)絡(luò)Actor(神經(jīng)網(wǎng)絡(luò)既學(xué)習(xí)控制指令又學(xué)習(xí)協(xié)態(tài)),而神經(jīng)網(wǎng)絡(luò)Actor 反過來為間接法提供良好的協(xié)態(tài)初值從而促進(jìn)間接法的打靶效率。在交互式策略學(xué)習(xí)架構(gòu)中,隨著學(xué)習(xí)的深入,神經(jīng)網(wǎng)絡(luò)Actor 輔助間接法求解的作用不斷強(qiáng)化。仿真表明,在太陽帆軌跡轉(zhuǎn)移、小行星著陸任務(wù)中,神經(jīng)網(wǎng)絡(luò)Actor 后期可為間接法提供收斂率接近100%的良好初值。雖然此交互式學(xué)習(xí)策略能不能算作Model-based 強(qiáng)化學(xué)習(xí)算法尚待學(xué)術(shù)界商榷,但是最優(yōu)控制數(shù)值方法和神經(jīng)網(wǎng)絡(luò)之間的相互強(qiáng)化作用卻是明確的。
為了進(jìn)一步解決動力學(xué)模型中可能存在的未知部分,文獻(xiàn)[3]進(jìn)一步構(gòu)建智能動力學(xué)Identifier 模塊。借助于算法與實(shí)物的交互,不斷提升數(shù)字模型的準(zhǔn)確性。從而在減少與實(shí)物交互的情況下盡可能提升策略的學(xué)習(xí)效果。文獻(xiàn)[3]最終提出新型Identifier–Actor–Optimizer 交互式策略學(xué)習(xí)架構(gòu),如圖4所示。新型架構(gòu)在模型依賴、算法學(xué)習(xí)效率、應(yīng)用靈活性上都具有一定優(yōu)勢。
圖4 Identifier–Actor–Optimizer 架構(gòu)
人工智能算法在飛行任務(wù)設(shè)計(jì)方面同樣具有出色的應(yīng)用前景。傳統(tǒng)上,需要對整個(gè)飛行問題進(jìn)行確定性的求解,才能評估任務(wù)執(zhí)行的總體性能。雖然預(yù)估精度可以保證,但是整個(gè)過程往往耗時(shí)耗力。機(jī)器學(xué)習(xí)基于歷史經(jīng)驗(yàn)數(shù)據(jù),能夠近似擬合狀態(tài)和總體性能之間的非線性函數(shù)關(guān)系?;跈C(jī)器學(xué)習(xí)算法的總體性能快速預(yù)估對于整個(gè)任務(wù)優(yōu)化效率的提升具有顯著效果。機(jī)器學(xué)習(xí)算法尤其適用于對飛行性能預(yù)估精度有一定容忍、但是對預(yù)估快速性具有較高要求的任務(wù)設(shè)計(jì)場景。由于飛行任務(wù)優(yōu)化問題的各式各樣,深度學(xué)習(xí)在任務(wù)設(shè)計(jì)中的具體應(yīng)用形式也呈現(xiàn)多樣性。文獻(xiàn)[51-53]運(yùn)用深度神經(jīng)網(wǎng)絡(luò)擬合小推力軌跡轉(zhuǎn)移中的質(zhì)量消耗,實(shí)現(xiàn)了良好精度的燃料消耗快速預(yù)估。Song 等[54]利用深度神經(jīng)網(wǎng)絡(luò)擬合太陽帆轉(zhuǎn)移中的最小時(shí)間,為太陽帆的小行星探測序列快速規(guī)劃提供依據(jù)。在文獻(xiàn)[55]中,深度學(xué)習(xí)被用來支持飛機(jī)防碰撞預(yù)警系統(tǒng)的決策。基于歷史觀測數(shù)據(jù),深度學(xué)習(xí)可用來提升衛(wèi)星軌道的預(yù)測精度[56]。此外,深度學(xué)習(xí)還被用于小推力探測器軌道轉(zhuǎn)移可達(dá)性的預(yù)測任務(wù)中[53]。深度學(xué)習(xí)在飛行器射程的預(yù)測、小行星軌道的穩(wěn)定性分析、衛(wèi)星可達(dá)域的預(yù)測、衛(wèi)星的碎片預(yù)警等任務(wù)中也呈現(xiàn)出色的應(yīng)用潛力。
深度學(xué)習(xí)是目前人工智能領(lǐng)域最受關(guān)注的研究方向之一,也是飛行器智能飛行控制系統(tǒng)中最有可能用到的機(jī)器學(xué)習(xí)算法之一。深度學(xué)習(xí)用以解決飛行器飛行動力學(xué)與控制難題具有顯著的學(xué)術(shù)和應(yīng)用前景,同時(shí)也衍生出一系列需要進(jìn)一步解決的難題。基于前期研究經(jīng)歷,在此分享四點(diǎn)建議。
(1) 經(jīng)典動力學(xué)與控制技術(shù)、新興人工智能技術(shù)各自具有優(yōu)勢和不足,他們之間不應(yīng)是取代關(guān)系,而應(yīng)是通過雙方的交叉融合實(shí)現(xiàn)優(yōu)勢的互補(bǔ)。經(jīng)典動力學(xué)與控制技術(shù)發(fā)展到今天,存在一定的技術(shù)瓶頸。百尺竿頭更進(jìn)一步,動力學(xué)與控制技術(shù)應(yīng)當(dāng)充分認(rèn)識和吸收人工智能的優(yōu)勢,尤其是深度學(xué)習(xí)的存儲、記憶、預(yù)訓(xùn)練的應(yīng)用模式。與此同時(shí),圍繞飛行控制設(shè)計(jì)任務(wù),純?nèi)斯ぶ悄芩惴ê鲆暠豢貙ο笞陨韯恿W(xué)和控制規(guī)律、信奉純數(shù)據(jù)驅(qū)動的“懶漢”策略也注定是低效的、無用的。圍繞經(jīng)典動力學(xué)、控制技術(shù)與新興人工智能技術(shù)創(chuàng)新性結(jié)合的研究將是飛行器智能控制領(lǐng)域重要研究方向。
(2) 深度學(xué)習(xí)為傳統(tǒng)學(xué)科難題的解決提供新的工具,但它也僅僅是工具而已。從應(yīng)用上看,深度學(xué)習(xí)為傳統(tǒng)學(xué)科提供了存儲、記憶、預(yù)訓(xùn)練的新應(yīng)用模式,解決了傳統(tǒng)技術(shù)目前遇到的一些難題,尤其是實(shí)時(shí)性難題。然而從數(shù)學(xué)上來看,神經(jīng)網(wǎng)絡(luò)也僅僅是承擔(dān)了數(shù)據(jù)間的函數(shù)擬合功能。在飛行智能控制器的設(shè)計(jì)中,人工智能算法的實(shí)現(xiàn)往往并非最大的技術(shù)瓶頸,而真正的關(guān)鍵技術(shù)往往在于,如何通過一系列建模和簡化手段,將原飛行控制問題轉(zhuǎn)換成一個(gè)人工智能算法可以解決和善于解決的問題。實(shí)踐表明,轉(zhuǎn)換后的問題越明確、越簡單,就越有助于智能策略學(xué)習(xí)效率和收斂性的提升。
(3) 人工智能當(dāng)前仍處于計(jì)算智能階段,訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)只是在訓(xùn)練集范圍內(nèi)具有可靠的表現(xiàn),目前無范圍外的推演能力??紤]到飛行控制問題大多是非線性控制問題,因此訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)集范圍外的效果并不能保證。如何構(gòu)建問題及確定訓(xùn)練集的邊界,保證訓(xùn)練數(shù)據(jù)的覆蓋性也是未來研究的重要議題。
(4) 智能動力學(xué)模型是未來智能飛行控制實(shí)現(xiàn)的關(guān)鍵之一。目前人工智能與飛行控制的結(jié)合更多關(guān)注的是控制本身,而對動力學(xué)部分關(guān)注比較少。以Model-free 強(qiáng)化學(xué)習(xí)為代表的方法甚至試圖直接忽略被控對象的動力學(xué)特征,單純靠數(shù)據(jù)驅(qū)動來實(shí)現(xiàn)最優(yōu)控制策略的學(xué)習(xí)。不可否認(rèn),此類方法在某些特殊問題上是適用的,例如沒有交互成本的虛擬游戲、難以動力學(xué)建模的互聯(lián)網(wǎng)交互活動。但是在飛行控制中,考慮到學(xué)習(xí)效率和交互成本,動力學(xué)模型依然無可替代。與此同時(shí),比起不同控制器不同參數(shù)對控制規(guī)律的影響的復(fù)雜性,動力學(xué)模型是推演未來飛行規(guī)律的基礎(chǔ),更加易于人工智能算法學(xué)習(xí)的實(shí)現(xiàn)。
本文以提升飛行器飛行控制自主性和智能化水平為研究主題,在總結(jié)動力學(xué)與控制技術(shù)當(dāng)前存在難題的基礎(chǔ)上,梳理了深度學(xué)習(xí)應(yīng)用在飛行器動力學(xué)、控制和任務(wù)設(shè)計(jì)的研究思路,并針對研究思路的總體實(shí)現(xiàn)方案、優(yōu)缺點(diǎn)和部分代表性成果進(jìn)行了綜述。最后,論文給出了深度學(xué)習(xí)在飛行器動力學(xué)與控制中應(yīng)用的四點(diǎn)建議。