亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強(qiáng)化學(xué)習(xí)的固定翼飛行器六自由度飛行智能控制

        2022-11-02 06:24:52黃江濤
        指揮與控制學(xué)報(bào) 2022年2期
        關(guān)鍵詞:指令智能

        章 勝 杜 昕 肖 娟 黃江濤

        1.中國空氣動(dòng)力研究與發(fā)展中心 四川綿陽 621000 2.空氣動(dòng)力學(xué)國家重點(diǎn)實(shí)驗(yàn)室 四川綿陽 621000

        無人機(jī)在軍事上具有顯著的優(yōu)勢.從20世紀(jì)70年代末以色列研制第一款現(xiàn)代意義的無人機(jī)先驅(qū)者開始,無人機(jī)已成功應(yīng)用于海灣戰(zhàn)爭、阿富汗戰(zhàn)爭與高加索納卡沖突等戰(zhàn)爭,在作戰(zhàn)行動(dòng)中發(fā)揮了重要的作用.美國一位著名的軍事評論家就曾指出“到目前為止,沒有比無人戰(zhàn)斗機(jī)更富有意義的未來軍事技術(shù)了”.可以預(yù)見,在未來戰(zhàn)爭中,無人機(jī)將會發(fā)揮越來越大的作用.

        無人機(jī)飛行控制是無人機(jī)系統(tǒng)的關(guān)鍵技術(shù),發(fā)展無人機(jī)先進(jìn)自主控制能力是各軍事強(qiáng)國不斷追求的目標(biāo).飛行器是典型的非線性系統(tǒng),目前包含無人機(jī)在內(nèi)的航空飛行器飛行控制通常采用線性增益調(diào)度控制器,其中,涉及到若干工作狀態(tài)點(diǎn)的選取與相應(yīng)線性控制器的設(shè)計(jì),參數(shù)整定工作繁瑣[1].除線性控制器外,現(xiàn)代控制技術(shù),包括動(dòng)態(tài)逆控制[2]、反步控制[3]、滑??刂芠4]等,在飛行器飛行控制的應(yīng)用中也得到了大量研究.總的說來,這些控制方法很好地實(shí)現(xiàn)了控制目的,取得了良好的控制效果.但是經(jīng)典控制和現(xiàn)代控制理論的主要特征是基于模型的控制,而實(shí)際中對系統(tǒng)尤其對復(fù)雜系統(tǒng)的建??偸谴嬖谝欢ㄕ`差,雖然基于模型的控制方法可以解決一定程度的不確定性,但是對于飛行器這種涉及到力、電、機(jī)械等環(huán)節(jié)的復(fù)雜對象,可能存在某些認(rèn)識不足的不確定性因素,這會影響控制效果甚至帶來災(zāi)難性后果.比如:飛行器在過失速大迎角下的氣動(dòng)特性存在非線性非定常效應(yīng),其中的空氣流動(dòng)機(jī)理目前尚未完全掌握[5],準(zhǔn)確的氣動(dòng)力建模存在諸多困難,飛行器在過失速狀態(tài)下可能進(jìn)入危險(xiǎn)的“尾旋”狀態(tài).此外,傳統(tǒng)的飛行控制方法通常將飛行器控制割裂為外環(huán)航跡控制與內(nèi)環(huán)姿態(tài)控制[6],并對系統(tǒng)的非線性耦合效應(yīng)進(jìn)行抑制,這也會在一定程度上影響飛行器的性能.

        人工智能的研究可以極大地解放生產(chǎn)力與發(fā)展生產(chǎn)力,給人類社會帶來歷史性的變革.學(xué)習(xí)是智能的本質(zhì)特征,強(qiáng)化學(xué)習(xí)適用于動(dòng)態(tài)決策控制問題,是最接近于生物學(xué)習(xí)機(jī)制的一種學(xué)習(xí)范式.基于強(qiáng)化學(xué)習(xí),智能體可以通過與環(huán)境進(jìn)行交互,學(xué)習(xí)探索回報(bào)極大化的行為策略[7].相對于經(jīng)典控制和現(xiàn)代控制方法,強(qiáng)化學(xué)習(xí)提供了能自適應(yīng)自優(yōu)化、獨(dú)立于模型、廣泛適用于各種對象的控制器設(shè)計(jì)框架,是實(shí)現(xiàn)智能控制的有效途徑.神經(jīng)網(wǎng)絡(luò)是模仿人類大腦結(jié)構(gòu)和功能的一種有效的建模工具[8].相對于淺層神經(jīng)網(wǎng)絡(luò),深度神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)到更加復(fù)雜的特征,具有更好的性能[9].結(jié)合深度神經(jīng)網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)即深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL),DQN(deep q network)算法是最早提出的有效DRL 方法之一,它在Atari 游戲上達(dá)到了人類玩家的水平,但是其只能解決動(dòng)作離散的問題[10].DDPG(deep deterministic policy gradient)算法是在DQN 基礎(chǔ)上進(jìn)一步發(fā)展的針對“連續(xù)動(dòng)作”問題的DRL 方法,有效實(shí)現(xiàn)了機(jī)器人的運(yùn)動(dòng)控制[11],是現(xiàn)今解決“連續(xù)狀態(tài)、連續(xù)動(dòng)作”類型問題的主流算法之一.

        不同于現(xiàn)有的飛行控制技術(shù)路線,深度強(qiáng)化學(xué)習(xí)方法可以習(xí)得被控對象的個(gè)體特性,充分利用航跡與姿態(tài)動(dòng)力學(xué)之間的耦合特性,實(shí)現(xiàn)端到端的一體化控制,具有發(fā)展更優(yōu)性能控制機(jī)的潛力.最近美國國防部高級研究計(jì)劃局(DARPA)主持的空戰(zhàn)演進(jìn)(air combat evolution,ACE)項(xiàng)目吸引了全球各國的目光,其中,通過深度強(qiáng)化學(xué)習(xí)得到的人工智能在競賽中完勝頂尖F-16 人類飛行員.ACE 項(xiàng)目旨在實(shí)現(xiàn)無人機(jī)近距空戰(zhàn)的智能決策,通過針對六自由度模型的學(xué)習(xí)以提升飛行器的作戰(zhàn)效能[12].由于只有在習(xí)得穩(wěn)定飛行能力的前提下,才可能實(shí)現(xiàn)六自由度的對抗,因此,智能飛行控制是空戰(zhàn)對抗智能決策的基礎(chǔ)[13].文獻(xiàn)[14]采用DDPG 方法,實(shí)現(xiàn)了四旋翼飛行器機(jī)動(dòng)懸停與前進(jìn)的六自由度智能控制.相較于旋翼飛行器,固定翼飛行器的動(dòng)力學(xué)模型更為復(fù)雜,其智能飛行控制機(jī)也更難獲得.文獻(xiàn)[15]基于DQN 算法的一種發(fā)展變體,實(shí)現(xiàn)了固定翼飛行器兩種機(jī)動(dòng)動(dòng)作的智能控制,有效利用了飛行器的氣動(dòng)性能與非線性質(zhì)心/繞質(zhì)心運(yùn)動(dòng)耦合特性.文獻(xiàn)[16]采用DDPG 算法研究了固定翼飛行器的六自由度飛行控制,實(shí)現(xiàn)了給定速度、高度指令下的巡航飛行,但是該智能控制機(jī)不具有可拓展性,只能實(shí)現(xiàn)標(biāo)稱指令,同時(shí)習(xí)得的飛行為帶側(cè)滑飛行.本文進(jìn)一步改進(jìn)了固定翼六自由度飛行智能控制學(xué)習(xí)算法,開展了采用偏航角誤差作為智能控制機(jī)輸入以消除飛行器側(cè)滑的研究,并嘗試發(fā)展具有一般通用性的端到端固定翼飛行智能控制機(jī).

        1 飛行器運(yùn)動(dòng)動(dòng)力學(xué)模型

        1.1 運(yùn)動(dòng)動(dòng)力學(xué)方程

        首先定義飛行器機(jī)體坐標(biāo)系b 與地面坐標(biāo)系g[17].體系b 與機(jī)體固連,原點(diǎn)ob位于飛行器質(zhì)心,obxb軸在飛行器對稱面內(nèi)并指向機(jī)頭,obyb軸垂直于飛行器對稱面指向機(jī)身右方,obzb軸在飛行器對稱面內(nèi)指向機(jī)身下方.地面系g 固定于地面,原點(diǎn)og位于地面某點(diǎn),ogxg軸在水平面內(nèi)指向某一方向,ogzg軸垂直于水平面并指向地心,ogyg軸通過右手定則確定.

        假設(shè)飛行器推力沿體系x 方向,飛行器的航跡運(yùn)動(dòng)動(dòng)力學(xué)方程為

        飛行器的姿態(tài)運(yùn)動(dòng)動(dòng)力學(xué)方程為

        另一方面,基于姿態(tài)四元數(shù)q,可以求得飛行器的歐拉姿態(tài)角為

        1.2 氣動(dòng)力(矩)模型

        飛行器的氣動(dòng)模型形式如下

        由于動(dòng)導(dǎo)數(shù)對氣動(dòng)力影響很小,故氣動(dòng)力系數(shù)中不考慮動(dòng)導(dǎo)數(shù)項(xiàng).但是動(dòng)導(dǎo)數(shù)引起的氣動(dòng)力矩系數(shù)可能與靜態(tài)氣動(dòng)力矩系數(shù)數(shù)值大小相差不多,因此,氣動(dòng)力矩系數(shù)中需要考慮動(dòng)導(dǎo)數(shù)項(xiàng),它們的形式分別為

        本文研究對象為全尺寸F/A-18 固定翼飛行器,其質(zhì)量為m=15 119 kg,慣量為Ixx=31 184 kg·m2、Iyy=205125kg·m2、Izz=230414kg·m2、Ixz=-4028.1kg·m2[18],文獻(xiàn)[19]詳細(xì)給出了該飛行器的氣動(dòng)模型.

        2 強(qiáng)化學(xué)習(xí)基本理論與DDPG 方法

        2.1 強(qiáng)化學(xué)習(xí)理論基礎(chǔ)

        強(qiáng)化學(xué)習(xí)的核心思想在于智能體與環(huán)境的試錯(cuò)交互:在每一時(shí)刻t,智能體從當(dāng)前狀態(tài)xt出發(fā),執(zhí)行動(dòng)作ut,從環(huán)境接收獎(jiǎng)勵(lì)信息rt,環(huán)境根據(jù)其狀態(tài)轉(zhuǎn)移函數(shù)P 得到下一時(shí)刻狀態(tài)xt+1,智能體從新的狀態(tài)出發(fā)再執(zhí)行新的動(dòng)作,如此循環(huán)實(shí)現(xiàn)與環(huán)境的交互以獲得最優(yōu)動(dòng)作策略π.在數(shù)學(xué)上該過程可以采用馬爾科夫決策過程(Markov decision process,MDP)進(jìn)行描述.

        MDP 由狀態(tài)集合、動(dòng)作集合、狀態(tài)轉(zhuǎn)移函數(shù)和回報(bào)函數(shù)組成,其定義可以表示為一個(gè)四元組(x,u,r,P),它滿足馬爾科夫性:即當(dāng)前狀態(tài)向下一狀態(tài)轉(zhuǎn)移的概率和獎(jiǎng)勵(lì)值僅與當(dāng)前狀態(tài)和動(dòng)作有關(guān),而與歷史狀態(tài)和歷史動(dòng)作無關(guān).在獎(jiǎng)勵(lì)函數(shù)r 的基礎(chǔ)上,MDP的回報(bào)函數(shù)可以定義為學(xué)習(xí)周期(episode)中獎(jiǎng)勵(lì)函數(shù)的折扣求和,即

        動(dòng)態(tài)規(guī)劃是求解MDP 的基本原理與方法,行為值函數(shù)(及狀態(tài)值函數(shù))滿足Bellman 方程:

        給定一個(gè)MDP,強(qiáng)化學(xué)習(xí)的目標(biāo)是尋求一個(gè)最優(yōu)策略(確定性或非確定性)使得總回報(bào)函數(shù)最大,即

        經(jīng)過多年的發(fā)展,強(qiáng)化學(xué)習(xí)在動(dòng)態(tài)規(guī)劃的基礎(chǔ)上逐步形成了基于值函數(shù)的學(xué)習(xí)方法和直接策略搜索學(xué)習(xí)方法,并進(jìn)一步發(fā)展了對上述兩種方法加以綜合的Actor-Critic 架構(gòu)的學(xué)習(xí)方法[8,20-21].

        2.2 DDPG 方法

        DDPG 深度強(qiáng)化學(xué)習(xí)算法是在DQN 算法基礎(chǔ)上為解決“連續(xù)動(dòng)作”類型問題而發(fā)展起來的,采用Actor-Critic 架構(gòu),其中,Critic 評價(jià)在狀態(tài)x 采用動(dòng)作u的行為值函數(shù),Critic 網(wǎng)絡(luò)的參數(shù)化表示為表示Critic 深度神經(jīng)網(wǎng)絡(luò)的參數(shù),Actor 逼近確定性的動(dòng)作策略,輸出為動(dòng)作u,Actor 網(wǎng)絡(luò)的參數(shù)化表示為表示Actor 深度神經(jīng)網(wǎng)絡(luò)的參數(shù).由于智能體學(xué)習(xí)的是使Critic 行為值函數(shù)最優(yōu)的策略,DDPG 方法屬于off-policy 方法的范疇.Critic 網(wǎng)絡(luò)參數(shù)的更新類似于DQN 中的做法,考慮性能指標(biāo)

        其中,yt表示行為值函數(shù)的估計(jì),為行為值函數(shù)的預(yù)測,表示二者的誤差.通過使式(20)減小,可以導(dǎo)出Critic 網(wǎng)絡(luò)參數(shù)的更新律為

        其中,α 為Critic 網(wǎng)絡(luò)的學(xué)習(xí)率.另一方面,為了讓Actor 網(wǎng)絡(luò)的輸出使得Critic 網(wǎng)絡(luò)的輸出取極大值,根據(jù)鏈?zhǔn)椒▌t,可以推導(dǎo)出行為值函數(shù)Q 對Actor 網(wǎng)絡(luò)參數(shù)的梯度為,進(jìn)而可得到Actor 網(wǎng)絡(luò)參數(shù)的更新律為

        其中,β 為Actor 網(wǎng)絡(luò)的學(xué)習(xí)率.

        繼承DQN 的做法,DDPG 算法還考慮了使參數(shù)緩慢更新的目標(biāo)網(wǎng)絡(luò),包括Target-Critic 網(wǎng)絡(luò)與Target-Actor 網(wǎng)絡(luò).目標(biāo)網(wǎng)絡(luò)與原始網(wǎng)絡(luò)結(jié)構(gòu)相同,相應(yīng)的參數(shù)分別為與.通過引入目標(biāo)網(wǎng)絡(luò),使得強(qiáng)化學(xué)習(xí)類似于監(jiān)督學(xué)習(xí),訓(xùn)練效果更加穩(wěn)定,有利于提高網(wǎng)絡(luò)參數(shù)收斂性.目標(biāo)網(wǎng)絡(luò)參數(shù)采用如下更新率

        其中,N 為mini-batch 的大小.行為值函數(shù)的估計(jì)為

        相應(yīng)的,參數(shù)更新方程(21)與(22)中梯度需要調(diào)整為在mini-batch 數(shù)據(jù)集上的求和.

        3 固定翼飛行智能控制機(jī)設(shè)計(jì)

        隨著深度學(xué)習(xí)技術(shù)的發(fā)展與硬件計(jì)算能力的增強(qiáng),深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練效率低、對計(jì)算資源消耗大的問題已不再是限制深度(強(qiáng)化)學(xué)習(xí)研究的瓶頸[23].因此,本文直接利用強(qiáng)化學(xué)習(xí)中與環(huán)境交互得到的獎(jiǎng)勵(lì)函數(shù)反饋開展訓(xùn)練,針對固定翼飛行器巡航飛行控制問題發(fā)展智能控制機(jī),通過對仿真飛行數(shù)據(jù)進(jìn)行學(xué)習(xí),使智能控制機(jī)能夠掌握并運(yùn)用固定翼飛行器航跡動(dòng)力學(xué)與姿態(tài)動(dòng)力學(xué)的耦合效應(yīng),實(shí)現(xiàn)端到端的一體化優(yōu)化控制.

        開展基于深度強(qiáng)化學(xué)習(xí)的固定翼飛行器神經(jīng)網(wǎng)絡(luò)控制機(jī)訓(xùn)練,飛行器巡航中給定的高度指令為hc,速度指令為.在文獻(xiàn)[16]中,智能控制機(jī)中Actor 網(wǎng)絡(luò)模型的輸入量為高度誤差、速度誤差、歐拉姿態(tài)角與角速度、高度誤差積分量、速度誤差積分量與,其中,,,積分輸入量的引入是參考PID 控制器中積分控制消除穩(wěn)態(tài)誤差的做法.由于飛行器穩(wěn)定飛行時(shí)的偏航姿態(tài)角與給定的速度指令存在對應(yīng)關(guān)系,即無側(cè)滑時(shí)候有

        因此,直接采用偏航姿態(tài)角作為輸入得到的智能控制機(jī)不具有向其他巡航控制任務(wù)的可拓展性.

        為解決這一問題,本文采用偏航姿態(tài)角誤差作為智能機(jī)輸入,同樣比照PID 控制器中的積分控制,將姿態(tài)角誤差積分也作為控制機(jī)的輸入,具體考慮兩種輸入下的智能機(jī)設(shè)計(jì).智能控制機(jī)I 中Actor 網(wǎng)絡(luò)模型有13 個(gè)狀態(tài)輸入,它們?yōu)椋焊叨日`差、速度誤差、姿態(tài)角與角速度、高度誤差積分量,速度誤差積分量與,其中,.智能控制機(jī)II 中的Actor 網(wǎng)絡(luò)在控制機(jī)I 的基礎(chǔ)上,進(jìn)一步引入消除偏航角誤差的積分量作為輸入.Actor控制機(jī)的動(dòng)作輸出有4 個(gè),分別為副翼、升降舵、方向舵與油門.智能控制機(jī)I 中Critic 網(wǎng)絡(luò)模型有17 個(gè)輸入,智能控制機(jī)II 中Critic 網(wǎng)絡(luò)模型有18 個(gè)輸入,除與相應(yīng)Actor 網(wǎng)絡(luò)相似的狀態(tài)輸入外,還包括4 個(gè)動(dòng)作輸入,輸出為行為值函數(shù)標(biāo)量值.強(qiáng)化學(xué)習(xí)中,定義學(xué)習(xí)周期為若干個(gè)控制周期,根據(jù)期望的控制目標(biāo),采用加權(quán)L1 范數(shù)定義第k 步的獎(jiǎng)勵(lì)函數(shù),智能控制機(jī)I 訓(xùn)練中的獎(jiǎng)勵(lì)函數(shù)為

        采用“全連接”前饋型多隱層深度神經(jīng)網(wǎng)絡(luò)進(jìn)行飛行器智能控制機(jī)建模.智能控制機(jī)I 中,Actor 網(wǎng)絡(luò)為5 層,輸入層包含13 個(gè)輸入單元,輸出層有4 個(gè)輸出單元,網(wǎng)絡(luò)模型包含3 個(gè)隱藏層,隱層單元數(shù)分別為32、64 與128,前4 層采用Relu 激活函數(shù),輸出層采用Tanh 激活函數(shù).Critic 網(wǎng)絡(luò)有4 層,除輸入層與輸出層外,2 個(gè)隱藏層的單元數(shù)分別為64 與128,前3 層的傳遞函數(shù)為Relu 函數(shù),輸出層為線性函數(shù).智能控制機(jī)II 中的網(wǎng)絡(luò)結(jié)構(gòu)與控制機(jī)I 比較,除輸入層的數(shù)目存在區(qū)別外,其余相同.

        為了保證前向傳播和反向傳播時(shí)每一層的方差一致,訓(xùn)練中采用基于Xavier 方式的均勻分布對Critic 網(wǎng)絡(luò)與Actor 網(wǎng)絡(luò)參數(shù)進(jìn)行初始化[24],mini-batch大小取為N=128,訓(xùn)練中一個(gè)周期長為5 000ΔT,其中,ΔT=0.1 s,此外若飛行器狀態(tài)超過一定的門閾值,則訓(xùn)練周期提前結(jié)束.獎(jiǎng)勵(lì)函數(shù)中的權(quán)重系數(shù)分別為:.采用Adam 優(yōu)化方法[24],在一個(gè)周期結(jié)束后對Critic網(wǎng)絡(luò)與Actor 網(wǎng)絡(luò)參數(shù)同時(shí)進(jìn)行更新,學(xué)習(xí)率分別取為與,之后進(jìn)行目標(biāo)網(wǎng)絡(luò)的軟更新,更新參數(shù)為.深度強(qiáng)化學(xué)習(xí)中,為平衡探索與利用機(jī)制,Actor 網(wǎng)絡(luò)輸出的控制動(dòng)作將疊加一定幅值的Ornstein-Uhlenbeck 隨機(jī)噪聲[11].

        基于Pytorch 開展固定翼飛行器智能控制機(jī)的訓(xùn)練,訓(xùn)練中給定的高度指令為hc=100 m,速度指令為vxc=65 m/s,vyc=40 m/s,每個(gè)周期中飛行器的初始狀態(tài)隨機(jī)生成.相對于四旋翼飛行器的飛行控制,固定翼飛行器的控制要復(fù)雜很多,需要同時(shí)考慮氣動(dòng)力與氣動(dòng)力矩的平衡,尤其針對全尺寸飛行器,其訓(xùn)練周期相對于小型飛行器更是大為增加.文中訓(xùn)練次數(shù)取為60 000 次,圖1和圖2給出了兩種智能機(jī)的訓(xùn)練結(jié)果,其中,圖1給出了終端誤差與訓(xùn)練次數(shù)的關(guān)系曲線;圖2給出了單個(gè)周期長度與訓(xùn)練次數(shù)的關(guān)系曲線.從圖中可以看到訓(xùn)練中控制機(jī)性能并不能單調(diào)的改善,然而隨著訓(xùn)練次數(shù)的增加,終端誤差雖呈現(xiàn)跳躍但是總體變小,同時(shí)飛行器達(dá)到最大飛行周期的次數(shù)不斷增加,由于智能控制機(jī)I 相對于II 的輸入更少,從圖2中可以看到其在學(xué)習(xí)中能更快更多地達(dá)到最大周期長度.

        圖1 智能控制機(jī)訓(xùn)練中終端誤差與訓(xùn)練次數(shù)關(guān)系曲線Fig.1 Terminal error against number of episodes in the reinforcement learning

        圖2 智能控制機(jī)訓(xùn)練中周期長度與訓(xùn)練次數(shù)關(guān)系曲線Fig.2 Length of episodes against number of episodes in the reinforcement learning

        由于強(qiáng)化學(xué)習(xí)中不能保證控制機(jī)性能的單調(diào)改善,可能出現(xiàn)訓(xùn)練次數(shù)增加,固定翼飛行器巡航飛行控制效果反而變差,甚至飛行器發(fā)生失穩(wěn)的現(xiàn)象.因此,本文通過在訓(xùn)練中比較一個(gè)學(xué)習(xí)周期結(jié)束后的終端誤差來選擇性能良好的神經(jīng)網(wǎng)絡(luò)控制機(jī),并基于此控制機(jī)開展飛行仿真.

        4 飛行仿真

        4.1 標(biāo)稱巡航指令仿真

        基于Python 語言平臺Spyder 開展固定翼飛行器智能控制的飛行仿真,此處的標(biāo)稱巡航指令指智能控制機(jī)訓(xùn)練時(shí)采用的指令,即hc=100 m,vxc=65 m/s,vyc=40 m/s,仿真時(shí)不再考慮訓(xùn)練中加入的噪聲干擾,飛行器從地面坐標(biāo)系原點(diǎn)位置出發(fā),初始速度為100 m/s,初始方位角為0 deg,仿真時(shí)間為1 000 s.表1給出了采用訓(xùn)練得到的智能控制機(jī)I 與II 在1 000 s穩(wěn)定巡航時(shí)的狀態(tài)結(jié)果,從表中可以看到,兩種控制機(jī)均精確地達(dá)到了給定的巡航指令,飛行器基本實(shí)現(xiàn)了無側(cè)滑的飛行,相較文獻(xiàn)[16]中結(jié)果(側(cè)滑角為-6.21 deg,滾轉(zhuǎn)角為-5.84 deg),采用智能控制機(jī)I 的飛行中側(cè)滑角與滾轉(zhuǎn)角都很小,而智能控制機(jī)II 則實(shí)現(xiàn)了零側(cè)滑的飛行.

        表1 標(biāo)稱指令下飛行器穩(wěn)定巡航時(shí)的狀態(tài)結(jié)果Table 1 The aircraft stable cruise states under standard commands

        圖3~圖9給出了采用智能控制機(jī)I 時(shí)的飛行狀態(tài)仿真結(jié)果,其中,圖3給出了飛行器的地面位置坐標(biāo)曲線,可以看到飛行器實(shí)現(xiàn)了定直飛行.圖4給出了飛行器的高度曲線,其中存在一定的超調(diào),但在100 s 后飛行器基本穩(wěn)定在指令高度,最終相對于指令高度的誤差為零.

        圖3 基于智能控制機(jī)I 的飛行器水平航跡仿真結(jié)果Fig.3 Aircraft horizontal trajectory under intelligent controller I

        圖4 基于智能控制機(jī)I 的飛行器高度仿真結(jié)果Fig.4 Aircraft height under intelligent controller I

        圖5 基于智能控制機(jī)I 的飛行器速度仿真結(jié)果Fig.5 Aircraft velocity under intelligent controller I

        圖6 基于智能控制機(jī)I 的飛行器姿態(tài)角仿真結(jié)果Fig.6 Aircraft attitude under intelligent controller I

        圖7 基于智能控制機(jī)I 的飛行器角速度仿真結(jié)果Fig.7 Aircraft angular velocity under intelligent controller I

        圖8 基于智能控制機(jī)I 的飛行器迎角、側(cè)滑角仿真結(jié)果Fig.8 The angle-of-attack and sideslip angle under intelligent controller I

        圖9 基于智能控制機(jī)I 的飛行器控制仿真結(jié)果Fig.9 The aero-surface and throttle control under intelligent controller I

        圖5給出了飛行器在地面坐標(biāo)系下的速度曲線,在100 s 后飛行器的速度已基本穩(wěn)定,它們精確地達(dá)到了指令值.圖6給出了飛行器的姿態(tài)角曲線,其中,偏航角相對于由速度指令導(dǎo)出的指令方位角存在約0.16 deg 的穩(wěn)態(tài)誤差.圖7給出了飛行器的角速度曲線,它們很快都趨于零值.

        圖8給出了采用智能控制機(jī)I 時(shí)飛行器的迎角與側(cè)滑角曲線,從圖中可以看到進(jìn)入穩(wěn)定飛行后,飛行器的側(cè)滑很小,幾乎為零值.圖9給出了飛行器的氣動(dòng)舵面與油門控制曲線,除初始階段變化較劇烈外,大約100 s 后它們都達(dá)到了平衡狀態(tài).

        采用智能控制機(jī)II 的飛行仿真結(jié)果與采用控制機(jī)I 的結(jié)果大致相同,但是其實(shí)現(xiàn)了完全無側(cè)滑的穩(wěn)定飛行,圖10給出了采用智能控制機(jī)II 時(shí)的氣流角曲線.從圖中可以看到,相對于控制機(jī)I 下的仿真曲線,它們在過渡過程的超調(diào)更為明顯,但最終實(shí)現(xiàn)了零側(cè)滑與零滾轉(zhuǎn).分析原因,這是由于引入了偏航角誤差積分控制,它在帶來對動(dòng)態(tài)品質(zhì)一定損害的同時(shí),也有效地消除了穩(wěn)態(tài)誤差.

        圖10 基于智能控制機(jī)II 的飛行器迎角、側(cè)滑角仿真結(jié)果Fig.10 The angle-of-attack and sideslip angle under intelligent controller II

        4.2 非標(biāo)稱巡航指令仿真

        為進(jìn)一步考察得到控制機(jī)向其他巡航飛行控制任務(wù)應(yīng)用的可擴(kuò)展性,本節(jié)中仿真采用的指令與訓(xùn)練中的指令存在區(qū)別,具體考慮下述3 種指令:

        指令1:

        hc=100 m,vxc=65 m/s,vyc=30 m/s.

        指令2:

        hc=150 m,vxc=80 m/s,vyc=0 m/s.

        指令3:

        hc=200 m,vxc=75 m/s,vyc=60 m/s.

        飛行仿真的初始條件同第4.1 節(jié),表2給出了3種非標(biāo)指令情形下,分別采用智能控制機(jī)I 與控制機(jī)II 達(dá)到穩(wěn)定巡航時(shí)的仿真結(jié)果,由于對于指令2,智能控制機(jī)II 的仿真結(jié)果是震蕩穩(wěn)定,對于指令3,智能控制機(jī)II 沒有實(shí)現(xiàn)穩(wěn)定飛行,故這兩種情形的結(jié)果未在表中給出.

        從針對非標(biāo)指令的仿真結(jié)果中看到,智能控制機(jī)I 相對于智能控制機(jī)II 具有更好的可拓展性.對該現(xiàn)象進(jìn)行分析,原因之一可能是智能控制機(jī)II 還沒有充分訓(xùn)練好,而另一個(gè)可能是控制機(jī)中采用俯仰角作為輸入,由于不同的巡航速度對應(yīng)的穩(wěn)態(tài)俯仰角不同,這會導(dǎo)致不同巡航飛行時(shí)俯仰角的不同取值將影響飛行器的平衡,智能控制機(jī)I 中可以通過滾轉(zhuǎn)側(cè)滑來抵消該影響,而智能控制機(jī)II 中則不具有這種彈性,從而損壞了控制機(jī)對不同任務(wù)應(yīng)用的可拓展性.

        圖11與圖12分別給出了3 種指令情形下基于智能控制機(jī)I 的滾轉(zhuǎn)角與側(cè)滑角仿真曲線,結(jié)合表2的結(jié)果,采用智能控制機(jī)I 的飛行雖仍然含有一定的側(cè)滑(及滾轉(zhuǎn)),但是側(cè)滑角很小,相對于文獻(xiàn)[16]采用偏航角作為神經(jīng)網(wǎng)絡(luò)控制機(jī)輸入的仿真結(jié)果改進(jìn)很多,說明了智能控制機(jī)I 總體上具有較好的性能.

        圖11 3 種指令情形下基于智能控制機(jī)I的飛行器滾轉(zhuǎn)角仿真結(jié)果Fig.11 The aircraft roll angle for the three cases under intelligent controller I

        圖12 3 種指令情形下基于智能控制機(jī)I的飛行器側(cè)滑角仿真結(jié)果Fig.12 The aircraft sideslip angle for the three cases under intelligent controller I

        表2 非標(biāo)稱指令下飛行器穩(wěn)定巡航時(shí)的狀態(tài)結(jié)果Table 2 The aircraft stable cruise states under nonstandard commands

        5 結(jié)論

        將神經(jīng)網(wǎng)絡(luò)用于控制器設(shè)計(jì)并不是新穎的做法,但在深度強(qiáng)化學(xué)習(xí)技術(shù)以前研究的神經(jīng)網(wǎng)絡(luò)控制器中,神經(jīng)網(wǎng)絡(luò)主要用于逼近系統(tǒng)模型,然后結(jié)合傳統(tǒng)控制器進(jìn)行控制以改善控制品質(zhì),或者針對具有特殊逆結(jié)構(gòu)的系統(tǒng)對象進(jìn)行控制,這兩種方式實(shí)質(zhì)上都是對系統(tǒng)模型的逼近.本文直接基于深度神經(jīng)網(wǎng)絡(luò)對控制機(jī)進(jìn)行建模,研究了基于強(qiáng)化學(xué)習(xí)的固定翼飛行器巡航飛行智能控制機(jī)設(shè)計(jì)問題,通過利用深度神經(jīng)網(wǎng)絡(luò)的泛化能力對理想控制器進(jìn)行逼近,發(fā)展了引入偏航角誤差作為輸入量的智能飛行控制機(jī),有效減小了飛行器飛行中的側(cè)滑,實(shí)現(xiàn)了巡航飛行的一體化控制.相較于四旋翼飛行器的飛行控制,固定翼飛行器的控制要復(fù)雜很多,需要同時(shí)考慮氣動(dòng)力與氣動(dòng)力矩的平衡,尤其全尺寸飛行器的訓(xùn)練周期相對于小型飛行器更是大大增加.本文研究表明在控制機(jī)的可拓展性與零側(cè)滑控制目標(biāo)間存在一定矛盾,此外由于獎(jiǎng)勵(lì)函數(shù)中沒有考慮對控制量的懲罰,飛行器動(dòng)態(tài)過渡過程的品質(zhì)還不太良好,未來將進(jìn)一步深化研究,發(fā)展具有良好控制品質(zhì)與魯棒性能的智能控制機(jī),探索具有遠(yuǎn)景應(yīng)用意義的智能飛行控制機(jī)開發(fā)流程,促進(jìn)后續(xù)決策級層次任務(wù)智能實(shí)現(xiàn)的研究.

        猜你喜歡
        指令智能
        聽我指令:大催眠術(shù)
        智能制造 反思與期望
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        ARINC661顯控指令快速驗(yàn)證方法
        LED照明產(chǎn)品歐盟ErP指令要求解讀
        電子測試(2018年18期)2018-11-14 02:30:34
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        智能制造·AI未來
        商周刊(2018年18期)2018-09-21 09:14:46
        殺毒軟件中指令虛擬機(jī)的脆弱性分析
        欧美日韩中文字幕久久伊人| 日韩av一区二区蜜桃| 精品极品视频在线观看| 日本熟妇人妻xxxx| 青青草原综合久久大伊人| 麻豆精产国品| 国产成人久久蜜一区二区| 五月激情在线观看视频| 国产精品成人观看视频国产奇米| 大地资源中文第3页| 无码人妻丰满熟妇区五十路百度 | 日日噜噜夜夜狠狠久久丁香五月 | 国产三级黄色大片在线免费看| 性人久久久久| 国产va免费精品高清在线观看| 国产亚洲精品久久久久婷婷瑜伽| 国产九色AV刺激露脸对白| 国产少妇露脸精品自拍网站| 亚洲国产精品中文字幕久久| 亚洲成a人无码| 无码精品a∨在线观看十八禁 | 亚洲中文字幕综合网站| 风韵少妇性饥渴推油按摩视频 | 波多野结衣免费一区视频| 色狠狠一区二区三区香蕉蜜桃| 美女福利一区二区三区在线观看 | 国产av一区二区三区天堂综合网| 亚洲第一无码xxxxxx| 全免费a级毛片免费看| 日本久久视频在线观看| 亚洲精品人成中文毛片| 日本中文字幕一区二区高清在线 | 人妻丰满av无码中文字幕| 丝袜美腿一区二区在线观看| 伊人久久大香线蕉av不变影院| 老鲁夜夜老鲁| 亚洲精品无播放器在线播放| 99热这里只有精品久久6| 久久中文字幕av一区二区不卡| 丝袜美腿在线观看一区| 成 人 免费 在线电影|