亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        弱模型依賴通用智能姿態(tài)控制技術(shù)

        2022-12-17 02:59:12邵會(huì)兵詹韜付京博
        上海航天 2022年4期
        關(guān)鍵詞:復(fù)合控制姿態(tài)控制氣動(dòng)

        邵會(huì)兵,詹韜,付京博

        弱模型依賴通用智能姿態(tài)控制技術(shù)

        邵會(huì)兵,詹韜,付京博

        (北京控制與電子技術(shù)研究所,北京 100038)

        超高速跨域飛行、敏捷機(jī)動(dòng)等是新一代飛行器發(fā)展方向,而長(zhǎng)時(shí)高速飛行產(chǎn)生的氣動(dòng)外形變化帶來(lái)的氣動(dòng)參數(shù)大范圍改變等問(wèn)題,都對(duì)控制系統(tǒng)設(shè)計(jì)提出了更高的要求。為提高飛行器對(duì)模型不確定性的適應(yīng)能力及控制方法對(duì)不同外形、復(fù)合執(zhí)行機(jī)構(gòu)的通用性,深入研究了弱模型依賴的通用智能姿態(tài)控制技術(shù),分層次地開展了基于深度學(xué)習(xí)(DL)的自適應(yīng)姿態(tài)控制、基于深度確定性策略梯度算法(DDPG)的通用姿態(tài)控制、弱模型依賴的多維復(fù)合控制等技術(shù)研究,顯著提高了控制系統(tǒng)的魯棒性和通用性,對(duì)人工智能技術(shù)在飛行器姿態(tài)控制中的應(yīng)用具有一定的指導(dǎo)意義。

        弱模型依賴;自適應(yīng)智能控制;多維復(fù)合控制;深度強(qiáng)化學(xué)習(xí)(DRL);擴(kuò)張狀態(tài)觀測(cè)器

        0 引言

        隨著飛行器的高速發(fā)展,其飛行環(huán)境及任務(wù)也日漸復(fù)雜。飛行器在大氣層內(nèi)高速機(jī)動(dòng)飛行時(shí),其速度范圍變化大、高度范圍覆蓋廣,因此氣動(dòng)參數(shù)也隨之大范圍快速變化,同時(shí),長(zhǎng)時(shí)間高速機(jī)動(dòng)飛行導(dǎo)致的氣動(dòng)外形變化,進(jìn)一步加劇了氣動(dòng)參數(shù)的不確定性,這些都要求控制系統(tǒng)具有更強(qiáng)的適應(yīng)能力。

        另一方面,飛行器氣動(dòng)外形從過(guò)去單一的軸對(duì)稱外形已逐步發(fā)展到軸對(duì)稱、面對(duì)稱氣動(dòng)外形共存的局面。為獲得更強(qiáng)的機(jī)動(dòng)能力,針對(duì)敏捷機(jī)動(dòng)飛行器的研究也正在如火如荼地進(jìn)行,這都對(duì)姿態(tài)控制系統(tǒng)提出了巨大的挑戰(zhàn)。

        此外,隨著飛行器設(shè)計(jì)的不斷進(jìn)步,其執(zhí)行機(jī)構(gòu)也日趨多樣。多種類執(zhí)行器為飛行器跨域飛行提供了更強(qiáng)大的控制能力,但也對(duì)姿態(tài)控制系統(tǒng)提出了多維復(fù)合控制要求。

        在環(huán)境復(fù)雜、氣動(dòng)參數(shù)大范圍不確定性變化的條件下,傳統(tǒng)控制器難以實(shí)現(xiàn)高精度姿態(tài)控制。為解決上述問(wèn)題,許多學(xué)者使用先進(jìn)控制理論來(lái)進(jìn)行飛行器的姿態(tài)控制設(shè)計(jì)。文獻(xiàn)[1-3]使用非奇異終端滑??刂品椒▉?lái)實(shí)現(xiàn)環(huán)境及模型強(qiáng)不確定性下的飛行器姿態(tài)控制,但滑模變結(jié)構(gòu)控制仍然依賴高精度的飛行器模型。文獻(xiàn)[4-5]使用自適應(yīng)動(dòng)態(tài)反演控制方法來(lái)實(shí)現(xiàn)飛行器的姿態(tài)控制,但反演控制方法的補(bǔ)償精度完全依賴氣動(dòng)數(shù)據(jù)準(zhǔn)確性,當(dāng)參數(shù)大范圍不確定變化時(shí),補(bǔ)償效果通常會(huì)下降。文獻(xiàn)[6]使用L1自適應(yīng)控制來(lái)應(yīng)對(duì)飛行器姿態(tài)控制中面臨的諸多不確定性。姿態(tài)控制系統(tǒng)采用復(fù)合控制能夠提升控制能力,增強(qiáng)對(duì)外界干擾的適應(yīng)能力[7]。針對(duì)姿態(tài)控制系統(tǒng)多維復(fù)合控制的需求,現(xiàn)有分配方法通常通過(guò)解耦分解[8]、構(gòu)建分配函數(shù)[9]、最小二乘[10]、線性規(guī)劃等優(yōu)化方法進(jìn)行控制分配。文獻(xiàn)[11]使用基于二次規(guī)劃的按需動(dòng)態(tài)分配方法,實(shí)現(xiàn)了飛行器的氣動(dòng)舵面及反作用控制系統(tǒng)的復(fù)合控制。這些基于先進(jìn)控制理論的控制方法均依賴于對(duì)被控對(duì)象的高精度建模,難以應(yīng)對(duì)現(xiàn)代高速飛行器的姿態(tài)控制需要。

        若要從根本上解決現(xiàn)有姿態(tài)控制方法與現(xiàn)實(shí)需求之間的矛盾,必須降低控制方法對(duì)模型的依賴程度,以提高對(duì)模型不確定性的適應(yīng)性,增強(qiáng)對(duì)不同氣動(dòng)外形的通用性。文獻(xiàn)[12]使用弱模型依賴方法實(shí)現(xiàn)了高性能船舶穩(wěn)定控制,但其將未建模部分視為誤差,通過(guò)觀測(cè)器進(jìn)行干擾補(bǔ)償?shù)姆椒◤浹a(bǔ),難以實(shí)現(xiàn)復(fù)雜未建模動(dòng)態(tài)下的穩(wěn)定控制。文獻(xiàn)[13-14]使用深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)實(shí)現(xiàn)不依賴模型的控制算法,但其直接基于深度神經(jīng)網(wǎng)絡(luò)輸出控制量,缺乏魯棒性分析,難以用于工程實(shí)踐和滿足通用化設(shè)計(jì)需求。本文在深入研究了弱模型依賴姿態(tài)控制技術(shù)的基礎(chǔ)上,遵循控制系統(tǒng)發(fā)展規(guī)律,提出了“基于深度學(xué)習(xí)(Deep Learning,DL)的自適應(yīng)姿態(tài)控制、基于深度確定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)的通用姿態(tài)控制、弱模型依賴的多維復(fù)合控制技術(shù)”3個(gè)智能程度逐層遞進(jìn)的姿態(tài)控制方案,力圖為飛行器姿態(tài)控制從傳統(tǒng)方法逐步走向智能化方法提供一定借鑒。

        本文圍繞高速飛行器在環(huán)境及模型高不確定性變化下的弱模型依賴通用智能姿態(tài)控制技術(shù)開展研究,第1章提出了基于DL的自適應(yīng)姿態(tài)控制設(shè)計(jì),基于DL實(shí)現(xiàn)對(duì)氣動(dòng)數(shù)據(jù)變化的預(yù)估及前饋補(bǔ)償;第2章深入研究基于DDPG的通用姿態(tài)控制技術(shù),基于DRL實(shí)現(xiàn)了傳統(tǒng)控制器面向高不確定性環(huán)境及模型的進(jìn)化;第3章研究弱模型依賴的多維復(fù)合控制技術(shù),實(shí)現(xiàn)針對(duì)多維執(zhí)行機(jī)構(gòu)的復(fù)合姿態(tài)控制;第4章得出結(jié)論,給出分析。

        1 基于DL的自適應(yīng)姿態(tài)控制技術(shù)

        有關(guān)基于DL的自適應(yīng)姿態(tài)控制技術(shù)的詳細(xì)內(nèi)容參見文獻(xiàn)[15]。該方法基于小擾動(dòng)線性化思想,采用“反饋線性化+自適應(yīng)PID”控制算法框架,算法結(jié)構(gòu)如圖1所示。

        該方法將氣動(dòng)數(shù)據(jù)作為訓(xùn)練樣本,采用DL技術(shù)離線訓(xùn)練獲得反饋線性化神經(jīng)網(wǎng)絡(luò)和氣動(dòng)偏導(dǎo)數(shù)神經(jīng)網(wǎng)絡(luò)。并在線根據(jù)網(wǎng)絡(luò)輸出自適應(yīng)調(diào)整控制規(guī)律,使得控制律僅與飛行狀態(tài)相關(guān),實(shí)現(xiàn)控制律與飛行軌跡的解耦,可滿足寬飛行包線、寬飛行空域、寬飛行高度的多樣化飛行軌跡控制需求。然而反饋線性化算法補(bǔ)償精度完全依賴氣動(dòng)數(shù)據(jù)準(zhǔn)確性,一旦由于外形變化等因素導(dǎo)致氣動(dòng)數(shù)據(jù)天地不一致,補(bǔ)償效果明顯變差,直接導(dǎo)致控制品質(zhì)下降,甚至失穩(wěn)。

        經(jīng)飛行器仿真測(cè)試[15],采用上述方法對(duì)氣動(dòng)偏差的適應(yīng)能力約為30%。

        2 基于DDPG的通用姿態(tài)控制技術(shù)

        2.1 算法思想

        基于DL的自適應(yīng)姿態(tài)控制方法實(shí)現(xiàn)了控制律與飛行軌跡的解耦,但神經(jīng)網(wǎng)絡(luò)是根據(jù)氣動(dòng)數(shù)據(jù)離線訓(xùn)練獲得,不同外形飛行器難以通用,且氣動(dòng)偏差的魯棒性難以提升;此外,該方法設(shè)計(jì)仍需設(shè)計(jì)師對(duì)控制器帶寬等參數(shù)進(jìn)行精細(xì)化設(shè)計(jì),對(duì)模型和任務(wù)的依賴程度仍較高。

        為進(jìn)一步降低控制算法對(duì)模型的依賴程度,一方面考慮取消反饋線性化網(wǎng)絡(luò),而將控制對(duì)象模型的所有非線性部分和外擾均看作系統(tǒng)的“未知擾動(dòng)”,并采用擴(kuò)張狀態(tài)觀測(cè)器進(jìn)行觀測(cè)并實(shí)時(shí)補(bǔ)償;另一方面,為解決控制器帶寬和觀測(cè)器帶寬自適應(yīng)最優(yōu)調(diào)節(jié)問(wèn)題,提出采用強(qiáng)化學(xué)習(xí)離線訓(xùn)練得到控制器和觀測(cè)器帶寬自主調(diào)節(jié)神經(jīng)網(wǎng)絡(luò),并在線應(yīng)用該網(wǎng)絡(luò)實(shí)時(shí)計(jì)算獲得最佳帶寬,實(shí)現(xiàn)期望的最佳控制性能。算法的控制系統(tǒng)框圖如圖2所示。

        2.2 基于DDPG的通用姿態(tài)控制方法

        基于DDPG的通用姿態(tài)控制算法將智能控制與傳統(tǒng)控制進(jìn)行有機(jī)結(jié)合,在自抗擾控制器的基礎(chǔ)上保留“干擾觀測(cè)-補(bǔ)償”框架,增加DRL算法,實(shí)現(xiàn)控制器帶寬和ESO帶寬在線實(shí)時(shí)調(diào)度,進(jìn)一步提高控制器的性能。自抗擾控制方法是韓京清先生于20世紀(jì)80年代末期創(chuàng)建的一種估計(jì)補(bǔ)償不確定因素的控制技術(shù)[16],其將作用于被控對(duì)象的所有不確定因素(建模誤差和外加干擾)都?xì)w結(jié)為“總的未知擾動(dòng)”,并利用控制對(duì)象的輸入輸出數(shù)據(jù)對(duì)它進(jìn)行估計(jì)并給予補(bǔ)償。

        自抗擾控制方法主要由以下3個(gè)部分組成:

        2)反饋控制律。根據(jù)系統(tǒng)的控制誤差確定反饋控制量。

        3)擴(kuò)張狀態(tài)觀測(cè)器。根據(jù)控制對(duì)象的輸入輸出信號(hào)對(duì)擴(kuò)張狀態(tài)(總擾動(dòng))進(jìn)行估計(jì)。

        將以上跟蹤微分器、反饋控制律、擴(kuò)張狀態(tài)觀測(cè)器組合在一起,構(gòu)成自抗擾控制器,如圖3所示。

        2.2.1跟蹤微分器設(shè)計(jì)

        跟蹤微分器用于對(duì)姿態(tài)角指令安排過(guò)渡過(guò)程,目的是在考慮控制系統(tǒng)實(shí)際跟蹤能力前提下,合理安排過(guò)渡過(guò)程以實(shí)現(xiàn)跟蹤能力范圍內(nèi)的無(wú)超調(diào)最速跟蹤。

        通過(guò)文獻(xiàn)[16]提出一種最速跟蹤微分器,其有很好的噪聲抑制能力,離散后的形式為

        2.2.2非線性反饋控制律設(shè)計(jì)

        采用誤差和誤差微分的適當(dāng)非線性組合設(shè)計(jì)反饋控制率,形式如下:

        2.2.3擴(kuò)張狀態(tài)觀測(cè)器設(shè)計(jì)

        對(duì)于自抗擾控制器來(lái)說(shuō),最核心是擴(kuò)張狀態(tài)觀測(cè)器,通過(guò)建立擴(kuò)張狀態(tài)觀測(cè)量的觀測(cè)方程,使系統(tǒng)具有擾動(dòng)估計(jì)和補(bǔ)償?shù)哪芰Γ?7]。

        以飛行器俯仰通道為例,姿態(tài)運(yùn)動(dòng)動(dòng)力學(xué)方程為

        擴(kuò)張狀態(tài)觀測(cè)器方程為

        2.2.4DDPG算法的設(shè)計(jì)與訓(xùn)練

        DDPG是在深度Q學(xué)習(xí)方法基礎(chǔ)上,采用了執(zhí)行器-評(píng)價(jià)器(Actor-Critic)架構(gòu)的DRL。其在訓(xùn)練中根據(jù)異策略(Off-Policy)數(shù)據(jù)及貝爾曼方程學(xué)習(xí)價(jià)值函數(shù),并同時(shí)使用價(jià)值函數(shù)來(lái)作為學(xué)習(xí)策略[18-19]。策略即為執(zhí)行器-評(píng)價(jià)器架構(gòu)中的執(zhí)行器,根據(jù)環(huán)境反饋的狀態(tài),輸出系統(tǒng)的連續(xù)動(dòng)作;價(jià)值函數(shù)即為執(zhí)行器-評(píng)價(jià)器架構(gòu)中的評(píng)價(jià)器,根據(jù)狀態(tài)及動(dòng)作,輸出策略由狀態(tài)的期望回報(bào)。訓(xùn)練過(guò)程即為迭代擬合價(jià)值函數(shù)及最大化價(jià)值函數(shù)的策略,直到收斂。

        DDPG算法的目標(biāo)即為最大化策略在當(dāng)前狀態(tài)下,未來(lái)折扣累積獎(jiǎng)勵(lì)的期望,即:

        價(jià)值網(wǎng)絡(luò)的損失函數(shù):

        式(11)中目標(biāo)函數(shù)表示為

        根據(jù)上述建立的馬爾科夫決策過(guò)程,利用DDPG方法進(jìn)行地面離線仿真訓(xùn)練,其訓(xùn)練算法框架如圖4所示。

        本文針對(duì)固定速度1 200 m/s及飛行高度45 km的高速飛行器姿態(tài)控制任務(wù)進(jìn)行訓(xùn)練,訓(xùn)練階段姿態(tài)角指令為一固定幅值的階躍信號(hào)。訓(xùn)練獲得了比較理想的控制效果,其各回合累積回報(bào)的變化曲線如圖5所示。

        最后一個(gè)回合中姿態(tài)角偏差及姿態(tài)角速度的變化情況如圖6所示。從圖6中可知,Agent學(xué)習(xí)到了有效的控制參數(shù)調(diào)節(jié)規(guī)律,飛行器可以快速跟蹤姿態(tài)角指令,且精度較高??梢姡∠饲梆佈a(bǔ)償模塊,并沒(méi)有影響姿態(tài)控制的性能,表明本文所提出的“基于DDPG的通用姿態(tài)控制方法”是有效可行的。

        2.3 基于DDPG的通用姿態(tài)控制算法驗(yàn)證

        應(yīng)用Agent學(xué)習(xí)到的控制參數(shù)調(diào)節(jié)律網(wǎng)絡(luò)進(jìn)行氣動(dòng)參數(shù)大范圍拉偏條件下仿真驗(yàn)證。連續(xù)進(jìn)行 5次調(diào)姿,姿態(tài)角指令除階躍信號(hào)外還包含正弦信號(hào),氣動(dòng)參數(shù)拉偏50%,速度取850 m/s(訓(xùn)練階段并未針對(duì)該速度進(jìn)行訓(xùn)練)。在這種條件下,相應(yīng)的姿態(tài)角跟蹤曲線如圖7所示。

        可見該方法設(shè)計(jì)過(guò)程簡(jiǎn)單,對(duì)氣動(dòng)參數(shù)和總體結(jié)構(gòu)參數(shù)變化適應(yīng)能力強(qiáng),算法通用性強(qiáng),在不同速度下能夠適應(yīng)多種形式的指令,且控制性能保持良好,即使在氣動(dòng)系數(shù)大范圍拉偏的情況下,仍能夠?qū)崿F(xiàn)姿態(tài)的高精度穩(wěn)定跟蹤,可以認(rèn)為該方法實(shí)現(xiàn)了姿態(tài)控制系統(tǒng)通用化設(shè)計(jì)。

        3 弱模型依賴的多維復(fù)合控制技術(shù)

        3.1 算法思想

        上述姿態(tài)控制算法將多約束、強(qiáng)不確定性的姿態(tài)跟蹤問(wèn)題轉(zhuǎn)化為自適應(yīng)動(dòng)態(tài)規(guī)劃問(wèn)題,并引入DRL算法離線迭代優(yōu)化,建立了較為通用的算法設(shè)計(jì)流程,顯著提升對(duì)氣動(dòng)參數(shù)大范圍偏差的適應(yīng)能力,但仍存在如下問(wèn)題:

        1)當(dāng)前高速飛行器具有推力矢量、直接力以及空氣舵等多維異類執(zhí)行機(jī)構(gòu),該算法針對(duì)特定單一執(zhí)行機(jī)構(gòu)設(shè)計(jì),難以適應(yīng)上述執(zhí)行機(jī)構(gòu)的獨(dú)立/復(fù)合控制[20];

        2)動(dòng)力系數(shù)在線辨識(shí)與干擾觀測(cè)分離設(shè)計(jì),降低對(duì)象特征感知效率和精度,極端情況下可能影響閉環(huán)系統(tǒng)穩(wěn)定性;

        3)可適應(yīng)的氣動(dòng)參數(shù)變化范圍有限,難以適應(yīng)未來(lái)飛行器敏捷機(jī)動(dòng)控制需求。

        針對(duì)上述問(wèn)題,本文提出“弱模型依賴的多維復(fù)合控制技術(shù)”。首先,考慮連續(xù)、離散姿態(tài)控制的統(tǒng)一,構(gòu)建面向通用控制的動(dòng)力學(xué)特征模型;其次,在此基礎(chǔ)上采用“平行估計(jì)器+魯棒自適應(yīng)控制器+參數(shù)調(diào)度律+智能分配律”的算法框架,并將估計(jì)器、控制器及分配律的設(shè)計(jì)參數(shù)選取抽象為優(yōu)化問(wèn)題,引入強(qiáng)化學(xué)習(xí)算法解決,實(shí)現(xiàn)了多維異類復(fù)合控制;最后,降低控制算法對(duì)精確模型的依賴,發(fā)揮擾動(dòng)條件下的最優(yōu)性能,同時(shí)控制動(dòng)態(tài)分配也能夠?qū)崿F(xiàn)執(zhí)行機(jī)構(gòu)典型非致命故障的容錯(cuò)控制。算法原理框圖如圖8所示。

        3.2 面向通用控制的動(dòng)力學(xué)特征模型

        3.2.1通用全局特征模型

        傳統(tǒng)面向控制模型常采用平衡點(diǎn)附近線性化的小擾動(dòng)模型,相較于飛行器本質(zhì)的動(dòng)力學(xué)模型,經(jīng)過(guò)了軌跡域、姿態(tài)域、時(shí)間域多個(gè)維度的約束和簡(jiǎn)化,無(wú)法滿足新一代高速飛行器寬域、大機(jī)動(dòng)敏捷操縱等需求。為解決上述矛盾,構(gòu)建飛行器通用全局特征模型為

        3.2.2多維異類控制量映射

        高速飛行器的多維異類控制分配問(wèn)題可描述為

        由此建立了多維異類控制量映射模型,為后續(xù)智能分配律設(shè)計(jì)奠定基礎(chǔ),原理框圖如圖9所示。

        3.3 通用姿態(tài)控制器設(shè)計(jì)

        3.3.1通用姿態(tài)控制框架

        考慮到根據(jù)標(biāo)稱預(yù)示模型設(shè)計(jì)的控制器通用性差,寬域機(jī)動(dòng)和敏捷機(jī)動(dòng)飛行時(shí)性能較差,本文采用“平行估計(jì)器+魯棒自適應(yīng)控制器+參數(shù)調(diào)度律+智能分配律”算法框架。

        1)平行估計(jì)器:根據(jù)動(dòng)力學(xué)輸入和輸出數(shù)據(jù)對(duì)模型中的未知參數(shù)和干擾進(jìn)行一體化估計(jì),并根據(jù)估計(jì)結(jié)果構(gòu)建導(dǎo)彈姿態(tài)動(dòng)力學(xué)平行系統(tǒng)。

        2)魯棒自適應(yīng)控制器:采用快-慢雙通道滑??刂破鳂?gòu)建基本控制律,結(jié)合模型估計(jì)器的估計(jì)信息,實(shí)現(xiàn)全局魯棒自適應(yīng)控制,求得“虛擬控制量”。

        3)參數(shù)調(diào)度律:負(fù)責(zé)對(duì)控制器和模型估計(jì)器的自身參數(shù)進(jìn)行智能最優(yōu)調(diào)節(jié),采用評(píng)價(jià)器-執(zhí)行器框架,離線訓(xùn)練網(wǎng)絡(luò)初值,在線增量式學(xué)習(xí)。

        4)控制分配律:根據(jù)控制約束、飛行器目前狀態(tài)及各種執(zhí)行機(jī)構(gòu)控制效率的分布,采用一定的分配策略,實(shí)現(xiàn)對(duì)不同執(zhí)行機(jī)構(gòu)控制輸出的分配,以期在高精度實(shí)現(xiàn)“虛擬控制量”條件下,使控制消耗最低。

        3.3.2魯棒自適應(yīng)控制器

        基于特征模型,按照被控變量對(duì)控制輸入量響應(yīng)快慢的特點(diǎn)進(jìn)行快慢時(shí)標(biāo)分離,構(gòu)成快回路和慢回路子系統(tǒng),并考慮統(tǒng)一連續(xù)控制和開關(guān)控制需求,分別針對(duì)快慢回路設(shè)計(jì)擬滑??刂坡蓪?shí)現(xiàn)全局魯棒控制,結(jié)構(gòu)如下:

        可見,上述控制律為全局非線性形式,同時(shí)利用特征參數(shù)/干擾一體化在線估計(jì)結(jié)果,能夠應(yīng)對(duì)寬域飛行導(dǎo)致的動(dòng)力學(xué)強(qiáng)不確定性。

        3.3.3智能控制分配

        由于存在多種操縱機(jī)構(gòu),且操縱機(jī)構(gòu)的作用力或力矩可能存在冗余,因此如何合理分配虛擬控制量到實(shí)際執(zhí)行機(jī)構(gòu)成為關(guān)鍵,將強(qiáng)化學(xué)習(xí)思路應(yīng)用于智能分配律設(shè)計(jì),構(gòu)建控制分配的馬爾科夫決策過(guò)程,其中獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)至關(guān)重要。

        由此將虛擬控制量的動(dòng)態(tài)分配問(wèn)題等效為優(yōu)化問(wèn)題,采用DRL算法解決。

        3.4 基于DRL的多維控制參數(shù)自進(jìn)化

        為更好地實(shí)現(xiàn)未知外界擾動(dòng)及復(fù)雜動(dòng)力學(xué)特性下飛行控制系統(tǒng)的控制性能,在已有的控制系統(tǒng)結(jié)構(gòu)下通過(guò)構(gòu)建平行系統(tǒng)實(shí)現(xiàn)對(duì)控制器、估計(jì)器以及控制分配參數(shù)的在線智能優(yōu)化。采用執(zhí)行-評(píng)價(jià)網(wǎng)絡(luò)結(jié)構(gòu)(A-C框架),離線訓(xùn)練好網(wǎng)絡(luò)初值,通過(guò)建立效用函數(shù)與策略函數(shù)描述控制性能指標(biāo),根據(jù)平行系統(tǒng)跟蹤誤差、穩(wěn)定性、控制能力(剩余執(zhí)行機(jī)構(gòu)控制量、剩余執(zhí)行機(jī)構(gòu)變化速率、控制效率)等進(jìn)行綜合評(píng)價(jià),結(jié)合期望最優(yōu)控制性能動(dòng)態(tài)修正控制參數(shù)和估計(jì)器參數(shù),并實(shí)現(xiàn)智能控制分配。算法原理框圖如圖10所示。

        4 結(jié)束語(yǔ)

        本文從傳統(tǒng)姿態(tài)控制律設(shè)計(jì)方法嚴(yán)重依賴精確控制對(duì)象模型問(wèn)題出發(fā),提出了基于DL的自適應(yīng)姿態(tài)控制、基于DDPG的通用姿態(tài)控制、弱模型依賴的多維復(fù)合控制3個(gè)智能化程度逐層遞進(jìn)的控制方案。該方案可顯著提升飛行控制系統(tǒng)對(duì)氣動(dòng)偏差、干擾的適應(yīng)性以及對(duì)不同外形飛行器的通用控制能力,實(shí)現(xiàn)了控制算法對(duì)控制對(duì)象模型的弱依賴,對(duì)人工智能技術(shù)在飛行器姿態(tài)控制中的應(yīng)用提供了一種切實(shí)可行的思路。

        [1] ZHANG L, WEI C Z, WU R, et al. Fixed-time extended state observer based non-singular fast terminal sliding mode control for a VTVL reusable launch vehicle[J]. Aerospace Science and Technology, 2018, 82: 70-79.

        [2] ZHANG R, LU D, SUN C. Adaptive nonsingular terminal sliding mode control design for near space hypersonic vehicles[J]. IEEE/CAA Journal of Automatica Sinica, 2014, 1(2): 155-161.

        [3] QIAO J, LI Z, XU J, et al. Composite nonsingular terminal sliding mode attitude controller for spacecraft with actuator dynamics under matched and mismatched disturbances[J]. IEEE Transactions on Industrial Informatics, 2020, 16(2): 1153-1162.

        [4] ANSARI U, BAJODAH A H. Launch vehicle ascent flight attitude control using direct adaptive generalized dynamic inversion [J]. Proceeding of the Institution of Mechanical Engineering, Part G: Journal of Aerospace Engineering, 2019, 233(11): 4141-4153.

        [5] 董朝陽(yáng),路遙,王青.高超聲速飛行器指令濾波反演控制[J].宇航學(xué)報(bào),2016,37(8):957-963.

        [6] 鐘京洋,宋筆鋒.基于魯棒伺服思想的尾坐式飛行器懸停姿態(tài)控制[J].控制與決策,2020,35(2):339-348.

        [7] 周如好,張衛(wèi)東,胡存明,等.運(yùn)載火箭推力矢量/非線性復(fù)合控制方法研究[J].上海航天(中英文),2016,33(增刊1):81-85.

        [8] YANG C, ZHONG S, LIU X, et al. Adaptive composite suboptimal control for linear singularly perturbed systems with unknown slow dynamics[J]. International Journal of Robust and Nonlinear Control, 2020, 30:2625-2643.

        [9] 郭建國(guó),吳林旭,周軍.非對(duì)稱變翼飛行器復(fù)合控制系統(tǒng)設(shè)計(jì)[J].宇航學(xué)報(bào),2018,39(1):52-59.

        [10] 劉勝,王宇超,傅薈璇.船舶航向保持變論域模糊-最小二乘支持向量機(jī)復(fù)合控制[J].控制理論與應(yīng)用,2011,28(4):485-490.

        [11] 董哲,劉凱,李旦偉.考慮動(dòng)態(tài)分配控制的空天飛行器再入姿態(tài)復(fù)合控制設(shè)計(jì)[J].宇航學(xué)報(bào),2021,42(6):749-756.

        [12] 劉旌揚(yáng).弱模型干擾補(bǔ)償控制方法及其在高性能船舶姿態(tài)穩(wěn)定控制中的研究應(yīng)用[D].上海:上海交通大學(xué),2011.

        [13] 裴培,何紹溟,王江,等.一種深度強(qiáng)化學(xué)習(xí)制導(dǎo)控制一體化算法[J].宇航學(xué)報(bào),2021,42(10):1293-1304.

        [14] 孔維仁,周德云,趙藝陽(yáng),等.基于深度強(qiáng)化學(xué)習(xí)與自學(xué)習(xí)的多無(wú)人機(jī)近距空戰(zhàn)機(jī)動(dòng)策略生成算法[J].控制理論與應(yīng)用,2022,39(2):352-362.

        [15] 邵會(huì)兵,崔乃剛,詹韜.基于神經(jīng)網(wǎng)絡(luò)的飛行器控制方法及仿真研究[J].計(jì)算機(jī)仿真,2018,35(10):94-98.

        [16] 韓京清.自抗擾控制技術(shù):估計(jì)補(bǔ)償不確定因素的控制技術(shù)[M].北京:國(guó)防工業(yè)出版社,2008.

        [17] 孫明瑋,馬順健,樸敏楠.高超聲速飛行器自抗擾控制方法[M].北京:科學(xué)出版社,2018.

        [18] RICHARD S S, ANDREW G. Reinforcement learning: an introduction[M]. Cambridge, USA: MIT Press, 2017.

        [19] SILVER D, LEVER G, HEESS N, et al. Deterministic policy gradient algorithms[C]//Proceedings of the 31st International Conference on Machine Learning. New York:ACM Press,2014: 387-395.

        [20] HE S, LIN D, WANG J. Compound control methodology for a robust missile autopilot design[J]. Journal of Aerospace Engineering, 2015, 28(6): 1-10.

        Generalized Intelligent Attitude Control with Weak Model Dependence

        SHAOHuibing, ZHANTao, FUJingbo

        (Beijing Institute of Control and Electronic Technology, Beijing 100038, China)

        Ultra-high speedcross-domain flight and agile maneuvering are the developing trends of next-generation aircrafts. However, the aerodynamic parameters variations caused by the aerodynamic shape change in long-time wide-speed-range hypersonic flight and the aerodynamic variations in deformable aerial-underwater flight pose significant challenges to the aircraft attitude control system. In this paper, a novel generalized intelligent attitude control method with weak model dependence is proposed to tackle the model uncertainty as well as the compound control problem of heterogeneous actuators in deformable aircrafts. The method is an attitude control scheme based on an adaptive control method, a generalized intelligent attitude control method, and a compound control method. The adaptive attitude control method is based on deep learning (DL), and is used to compensate the aerodynamic moment. The generalized intelligent attitude control method is based on the deep deterministic policy gradient (DDPG) algorithm, and is developed for the aerodynamic and model uncertainties. The compound control method is adopted for the heterogeneous actuators with weak model dependence. The proposed method is a practical intelligent control method, and has better robustness as well as universality compared with the existing ones.

        weak model dependence; adaptive intelligent control; heterogeneous compound control; deep reinforcement learning (DRL); extended state observer

        2022?04?27;

        2022?06?23

        邵會(huì)兵(1977—),男,博士,研究員,主要研究方向?yàn)閷?dǎo)航、制導(dǎo)與控制。

        詹韜(1983—),男,碩士,研究員,主要研究方向?yàn)閷?dǎo)航、制導(dǎo)與控制。

        TJ 765.2

        A

        10.19328/j.cnki.2096?8655.2022.04.007

        猜你喜歡
        復(fù)合控制姿態(tài)控制氣動(dòng)
        中寰氣動(dòng)執(zhí)行機(jī)構(gòu)
        前饋復(fù)合控制在提高遙測(cè)跟蹤性能中的應(yīng)用
        基于NACA0030的波紋狀翼型氣動(dòng)特性探索
        風(fēng)擾動(dòng)下空投型AUV的飛行姿態(tài)控制研究
        基于反饋線性化的RLV氣動(dòng)控制一體化設(shè)計(jì)
        多星發(fā)射上面級(jí)主動(dòng)抗擾姿態(tài)控制技術(shù)研究
        基于UC/OS-II四旋翼姿態(tài)控制系統(tǒng)設(shè)計(jì)
        基于重復(fù)和PI復(fù)合控制的三相NPC光伏并網(wǎng)逆變器研究
        KJH101-127型氣動(dòng)司控道岔的改造
        壓電微位移器的實(shí)驗(yàn)建模與復(fù)合控制
        可以免费看亚洲av的网站| 国产精品欧美韩国日本久久| 精品中文字幕日本久久久| 亚洲中文字幕精品视频| 国产午夜手机精彩视频| 吃奶还摸下面动态图gif| 国产在视频线精品视频二代| 亚洲av狠狠爱一区二区三区| 亚洲成a人片在线观看无码专区| 午夜三级a三级三点| 免费国产黄线在线播放| 男的和女的打扑克的视频| 亚洲一区在线观看中文字幕| 熟妇丰满多毛的大隂户| 91精品国产福利尤物免费| 日本一二三区在线视频观看| 国产亚洲aⅴ在线电影| 18女下面流水不遮图| a级福利毛片| 亚洲不卡高清av在线| 久久国产劲爆∧v内射-百度| 成人做爰视频www| 色哟哟av网站在线观看| 手机免费高清在线观看av| 熟女人妇 成熟妇女系列视频| 婷婷亚洲综合五月天小说| 蜜臀av一区二区三区人妻在线| 国产91久久麻豆黄片| 99视频30精品视频在线观看| 99久久免费国产精品2017| 蜜桃视频网站在线免费观看| 亚洲av精二区三区日韩| 国产福利酱国产一区二区| 国产91在线精品福利| 国产一区二区资源在线观看| 99在线精品视频在线观看| 少妇太爽了在线观看免费视频| 亚洲一区二区国产精品视频| 视频在线国产一区二区| 无码人妻一区二区三区在线视频 | 成人午夜免费福利|