亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度確定性策略梯度算法用于無人飛行器控制

        2021-11-30 13:34:06黃旭柳嘉潤賈晨輝王昭磊張雋
        航空學報 2021年11期
        關鍵詞:智能策略

        黃旭,柳嘉潤,*,賈晨輝,王昭磊,張雋

        1. 北京航天自動控制研究所,北京 100854

        2. 宇航智能控制技術國家級重點實驗室,北京 100854

        智能無人飛行器是由無人機、導彈等無人平臺及其有關設備組成的有機整體,具有感知、學習、決策等智能特征[1]。小型無人飛行器由于其經(jīng)濟性、可重復使用等特點,常以原型機的形式來進行相關智能技術的測試和驗證,如美國國防部高級研究計劃局(DARPA)變外形飛行器項目中用來驗證變形翼的MFX-1飛行器[2]。

        對于小型無人飛行器,其飛行控制系統(tǒng)主要由制導控制外環(huán)以及姿態(tài)控制內(nèi)環(huán)組成,起到保持飛行器飛行穩(wěn)定和快速精確地到達飛行目標等關鍵性作用。此類飛行器一般建模存在偏差并且是典型的復雜非線性系統(tǒng),這些無疑都給其飛行控制系統(tǒng)的設計增加了難度。除此之外,飛行器在飛行過程中也會受到如切變風的外部不確定性干擾。為了有效解決此類問題,各國研究人員在基于模型的控制方法上進行了大量的研究工作:從經(jīng)典的PID控制,到自適應控制[3]、滑模變結構控制[4]、魯棒容錯控制[5]、動態(tài)逆控制[6]和模型預測控制[7]等。然而隨著被控對象復雜程度的增加、控制精度要求的提高、對對象和環(huán)境知識的減少,迫切需要提高控制系統(tǒng)的自適應學習能力以及魯棒性等[8]。

        隨著人工智能技術的發(fā)展,近20年一類數(shù)據(jù)驅(qū)動的即基于強化學習的飛行控制方法進入了控制科學領域研究學者的視野。強化學習可以使智能體不斷與環(huán)境進行交互,從數(shù)據(jù)中學習相應的飛行控制策略,而無需對模型進行如約束簡化等處理。20世紀末期華裔科學家吳恩達就在其智能直升機實驗室進行了很多強化學習相關的應用研究:文獻[9]利用策略梯度算法對無人直升機懸停進行了控制;文獻[10]對前者的方法進行了拓展優(yōu)化,加入了偏差動態(tài)規(guī)劃和線性二次校正器,使無人直升機可以完成高機動動作。且近幾年興起的深度強化學習則通過引入深度學習的表征能力以及對傳統(tǒng)強化學習算法的改進優(yōu)化使其性能進一步提升,其中有代表性的算法之一就是確定性策略梯度(Deterministic Policy Gradient,DPG)算法[11],本文所用的算法是其優(yōu)化版本即深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法[12]。除此之外與之相對的還有基于隨機策略的置信域策略優(yōu)化(Trust Region Policy Optimization,TRPO)算法[13]和近端策略優(yōu)化(Proximal Policy Optimization,PPO)算法[14]等。文獻[15]提出了一種新型的策略梯度學習方法實現(xiàn)了四旋翼以任意姿勢手拋起飛后的姿態(tài)回正;文獻[16]在仿真環(huán)境中用強化學習訓練四旋翼角速率內(nèi)環(huán)控制器,通過仿真驗證其部分控制性能優(yōu)于PID控制器;文獻[17]提出了一種基于策略梯度算法的輔助控制器,將強化學習訓練的控制器與設計的非線性控制器相結合,增強了智能體訓練的速度和實際飛行器飛行中的穩(wěn)定性;文獻[18]將添加約束的誤差積分信息引入到智能體能觀察到的環(huán)境狀態(tài)中,改善了訓練過程以及最終的控制穩(wěn)定性。以上文獻均以四旋翼為研究對象,通過改進強化學習算法和優(yōu)化環(huán)境信息等方式來實現(xiàn)智能體對飛行器的有效控制。本文參考了以上文獻的部分思想并進行改進優(yōu)化,針對實驗室自研的“麻雀-1”小型無人飛行器(簡稱“麻雀”飛行器)模型進行基于深度確定性策略梯度算法的飛行控制研究。從相關文獻以及工程經(jīng)驗中總結可得出,使用未預訓練的智能體在實際飛行過程中學習無法滿足飛行器實時性和工程化要求,所以此類方法一般需要建立離線訓練模擬器,讓智能體在模擬器中學習飛行控制策略后再進行實際飛行控制,該類飛行控制方法目前處于研究探索階段。

        不同于無人直升機和四旋翼,“麻雀”飛行器為非傳統(tǒng)構型的小型無人飛行器,縱平面中主要研究其高度速度控制。首先設計馬爾科夫決策過程(Markov Decision Process,MDP)時,以多數(shù)據(jù)幀代替誤差積分將歷史信息引入到環(huán)境狀態(tài)中;并且為了提高樣本的多樣性在飛行器達到目標狀態(tài)時還會給予智能體一定的稀疏獎勵。接著設計基于比例微分(Proportion Differential,PD)控制的高度速度輔助控制器,該控制器性能較差僅能在一定程度上維持飛行穩(wěn)定,將智能體與該控制器的綜合信號作為飛行器控制信號以優(yōu)化智能體訓練過程并且在在線飛行控制時兩者能有效互補。訓練后的智能體擁有良好的飛行控制性能,并有很強的泛化能力和魯棒性。本文主要進行了此智能飛行控制方法的研究探索工作,該方法具有一定的研究價值和工程參考價值。

        1 飛行器簡介及數(shù)學模型

        1.1 飛行器簡介

        “麻雀”飛行器為實驗室自研的低成本重復使用飛行器,圖1為其設計外形圖。該飛行器由圓頭錐形頭部、柱形機身、腹部矩形進氣道、1對梯形機翼、1片背鰭、3片“┴”形配置的尾舵、微型涵道風扇發(fā)動機組成。適用于低空低速飛行,主要用于相關飛行控制算法驗證。該飛行器長度約為0.4 m,直徑約為0.06 m,質(zhì)量約為0.7 kg。圖1中δ1、δ2以及δ3為3片尾舵的實際偏轉(zhuǎn)角,箭頭為定義的正方向,實際偏轉(zhuǎn)角由姿態(tài)控制器輸出的三通道等效舵偏角經(jīng)過舵分解得到。

        圖1 “麻雀”飛行器外形

        1.2 飛行器數(shù)學模型

        考慮“麻雀”飛行器縱平面運動模型。飛行器的體坐標系按北天東定義,假設場景為平面大地且無風,并不考慮飛行器橫側(cè)向運動。

        飛行器縱向運動方程為

        H=y

        (1)

        (2)

        (3)

        α=φ-θ

        (4)

        (5)

        式中:H為高度,即對應飛行器在發(fā)射坐標系Y方向上的位置y;Vx和Vy分別為X和Y方向上的速度;V為總速度;θ為速度傾角;φ為俯仰角;α為攻角。

        飛行器受到推力P、重力mg和空氣動力的作用,縱向動力學方程為

        (6)

        (7)

        (8)

        (9)

        (10)

        (11)

        式中:m為飛行器質(zhì)量;A為軸向氣動力;N為法向氣動力;ωz為飛行器繞體軸z1的轉(zhuǎn)動角速度;Mz為俯仰氣動力矩;Jz為俯仰轉(zhuǎn)動慣量。其中,氣動力和氣動力矩計算方法為

        A=CAqSref

        (12)

        N=CNqSref

        (13)

        (14)

        (15)

        式中:CA為軸向力系數(shù);CN為法向力系數(shù);CMz為俯仰力矩系數(shù);Cmq和Cαq分別為俯仰力矩系數(shù)關于俯仰角速度和攻角變化量的偏導數(shù);Sref為氣動參考面積;Lref為氣動參考長度;q為動壓。由于飛行高度較低,大氣密度ρ默認不變,其他相關氣動系數(shù)由高度H、速度V、攻角α和等效俯仰舵偏角δφ插值得出:

        C*=C*(H,V,α,δφ)

        (16)

        從整個縱平面高度和速度控制模型可以看出,“麻雀”飛行器在縱平面的控制輸入為發(fā)動機推力和其升降舵的等效俯仰舵偏角。該模型的狀態(tài)變量為X=[x,y,Vx,Vy,φ,ωz]T,即飛行器的位置、速度、姿態(tài)角和姿態(tài)角速度。由于飛行過程中高度、速度、攻角和等效俯仰舵偏角均在變化,從而相關的氣動力系數(shù)和氣動力矩系數(shù)也在變化,模型呈現(xiàn)非線性特性。本文的目標就是在不對該模型進行線性化等處理的情況下,利用深度強化學習通過飛行數(shù)據(jù)訓練智能體自主學習飛行控制策略。

        舵機特性和發(fā)動機特性在仿真中用一階慣性環(huán)節(jié)串聯(lián)限幅環(huán)節(jié)表征。其中δφ=[-10°,+10°]且P=[0, 5] N,系統(tǒng)當前時間步t的輸入為ut=[δφ t,Pt]T。

        (17)

        (18)

        2 具體方案

        2.1 深度確定性策略梯度算法

        強化學習這類算法根本上是以試錯的機制與環(huán)境進行交互,通過最大化累積回報的方式來訓練智能體學習最優(yōu)策略,它要解決的是序貫決策問題,它不關心輸入長什么樣,只關心當前輸入下應該采取什么動作才能實現(xiàn)最終的目標,即使得整個任務序列達到最優(yōu)的策略[19]。強化學習中問題常被描述為一個馬爾科夫決策過程,且MDP也是當前強化學習理論推導的基石。標準的MDP由一個五元組(S,A,P,R,γ)構成。

        DDPG是離策略(Off-policy)的基于Actor-Critic[20]架構的深度強化學習算法,一般以神經(jīng)網(wǎng)絡的形式來實現(xiàn)Actor函數(shù)和Critic函數(shù)。在該算法中,確定性策略μ(s|θμ)由Actor網(wǎng)絡表征,θμ為網(wǎng)絡參數(shù)。而狀態(tài)行為值函數(shù)Q(s,a|θQ)由Critic網(wǎng)絡表征,θQ為網(wǎng)絡參數(shù)。Actor網(wǎng)絡參數(shù)根據(jù)目標函數(shù)J(μ)的梯度進行更新[11]:

        (19)

        式中:E表示期望;ρμ為確定性策略的狀態(tài)分布;Qμ(s,a)為真實的狀態(tài)行為值函數(shù)。

        Critic網(wǎng)絡參數(shù)則根據(jù)基于值函數(shù)的強化學習算法(如Q學習[21]算法)中最小化時間差分誤差[22](Time Difference error,TD-error)的形式進行迭代更新:

        (20)

        (21)

        式中:αQ為Critic網(wǎng)絡的學習率。

        最終,Actor網(wǎng)絡參數(shù)就可按以下形式更新:

        (22)

        式中:αμ為Actor網(wǎng)絡的學習率。

        除此之外,DDPG還充分借鑒了深度Q網(wǎng)絡算法[23](Deep Q Network,DQN)中的經(jīng)驗回放和固定目標網(wǎng)絡的思想。經(jīng)驗回放需要在記憶回放單元中以(si,ai,ri+1,si+1)的形式存儲樣本,后進行采樣學習以模擬人類大腦的回憶學習過程。固定目標網(wǎng)絡的思想是需再增加一個目標Actor網(wǎng)絡μ′(s|θμ′)和目標Critic網(wǎng)絡Q′(s,a|θQ′)來減小樣本的相關性以優(yōu)化策略和狀態(tài)行為值更新結果。對式(19)~式(22)的網(wǎng)絡更新進行以下改進:

        yi=ri+1+γQ′(si+1,μ′(si+1|θμ′)|θQ′)

        (23)

        (24)

        (25)

        (26)

        (27)

        (28)

        式中:N為每次批量學習時采樣的樣本量。

        不同于DQN算法直接將策略網(wǎng)絡的參數(shù)賦值給目標網(wǎng)絡,DDPG采用的是更加平滑的類似慣性更新的思想進行目標網(wǎng)絡參數(shù)更新:

        (29)

        式中:τ為慣性更新率。

        2.2 問題描述及智能體訓練流程

        要訓練智能體對飛行器進行飛行控制,則首先需要明確智能體能觀察到的環(huán)境狀態(tài)、可執(zhí)行的動作以及與環(huán)境交互過程中獲得的回報形式,即MDP的設計。

        如果以單幀的高度速度誤差以及姿態(tài)角等信息作為智能體單次觀察到的狀態(tài),該狀態(tài)缺少環(huán)境的歷史信息并且外加學習過程中算法本身狀態(tài)行為值估計等原因,訓練出的智能體在實際飛行控制時易產(chǎn)生明顯的穩(wěn)態(tài)誤差以及穩(wěn)定性較差等問題。文獻[18]通過在狀態(tài)中引入帶限制的誤差積分有效改善了上述問題并使訓練結果得到優(yōu)化,但誤差積分本身不為飛行狀態(tài),傳感器不能直接測得,本文聯(lián)系深度強化學習應用于游戲時常采用的多幀圖像同時輸入卷積神經(jīng)網(wǎng)絡的思路[24],選擇控制周期為步長的5幀數(shù)據(jù)幀作為當前時刻的環(huán)境狀態(tài),狀態(tài)空間為30維,單幀數(shù)據(jù)由高度偏差、高度變化量、速度偏差、速度變化量、俯仰角以及俯仰角速度張成:

        (30)

        等效俯仰舵偏信號和發(fā)動機推力信號作為智能體動作。相對于四旋翼這類多通道控制輸入均為電機轉(zhuǎn)速的飛行器,“麻雀”飛行器縱平面的控制量性質(zhì)不一致,即智能體的動作輸出為等效俯仰舵偏角指令以及發(fā)動機推力指令,這也給智能體的訓練和回報函數(shù)的設計增加了難度:

        at=[δφ t,Pt]T

        (31)

        立即回報與智能體執(zhí)行動作后的狀態(tài)偏差值、動作幅度以及達到目標區(qū)間時獲得的稀疏獎勵等相關:

        rt=-(w1|ΔHt|+w2|ΔVt|+w3|δφ t-1|+

        (32)

        立即回報中將所有的偏差均作為懲罰項(高度偏差|ΔHt|和速度偏差|ΔVt|),當控制效果不佳時懲罰值將會很大,當智能體控制飛行器在穩(wěn)態(tài)點附近時懲罰值接近于0,以此形式設置立即回報體現(xiàn)了智能體策略目標是在整個飛行任務中控制飛行器在穩(wěn)態(tài)點處穩(wěn)定飛行。且飛行過程中還需要注意能量消耗(控制量項|δφ t-1|和|Pt-1|),能量消耗越大則立即回報越小。以上各懲罰因子分別取w1=0.5,w2=0.05,w3=0.005以及w4=0.001,即當前時刻高度和速度偏差值越大,立即回報越小。w1大于w2表明智能體的控制目標主要以高度控制為主,速度控制重要性弱于高度控制。w3和w4遠小于w1和w2表明對偏差的控制重要程度要強于能量消耗。

        本文所用的神經(jīng)網(wǎng)絡結構如圖2所示,均為多隱層反向傳播(Back Propagation,BP)前饋神經(jīng)網(wǎng)絡,后文中簡稱為BP神經(jīng)網(wǎng)絡,由于輸入維數(shù)較低則無需使用多層卷積神經(jīng)網(wǎng)絡。對于Actor網(wǎng)絡,其輸入層擁有30個神經(jīng)元對應30維的環(huán)境狀態(tài);中間3個全連接形式的隱含層均擁有64個神經(jīng)元,激活函數(shù)為ReLU;輸出層擁有2個神經(jīng)元對應2維的智能體動作,激活函數(shù)為tanh,這樣添加偏置后就能讓智能體的輸出限定在一定的范圍內(nèi)。

        圖2 神經(jīng)網(wǎng)絡結構

        對于Critic網(wǎng)絡,其輸入層擁有32個輸入神經(jīng)元對應30維的環(huán)境狀態(tài)以及2維的智能體動作;狀態(tài)輸入經(jīng)過2個64神經(jīng)元的全連接層后與動作輸入經(jīng)過1個64神經(jīng)元的全連接層的輸出進行同維求和,最后再經(jīng)過一個64神經(jīng)元的全連接層后輸出,輸出為1維對應輸入狀態(tài)和動作下的狀態(tài)行為值,激活函數(shù)均為ReLU。策略網(wǎng)絡和目標網(wǎng)絡的網(wǎng)絡結構對應一致。

        PD高度速度輔助控制器的結構如圖3所示。圖4(圖中Hc為參考高度)表明該控制器在定控制參數(shù)的條件下僅能一定程度上維持飛行穩(wěn)定,而無法單獨控制飛行器完成實際的飛行任務。

        圖3 PD 輔助控制器結構

        圖4 PD 輔助控制器獨立控制結果

        智能體離線訓練時,將策略Actor網(wǎng)絡的輸出信號和PD輔助控制器的信號綜合后作為控制信號進行飛行控制。由于確定性策略中動作選擇的固定性,需要在訓練時對策略Actor網(wǎng)絡的輸出添加噪聲,以增強強化學習中的探索過程。

        訓練開始時首先對策略Actor網(wǎng)絡以及策略Critic網(wǎng)絡的參數(shù)進行隨機初始化,再將參數(shù)賦值給對應的目標網(wǎng)絡。接著開始進行實驗(Episode),本文每次實驗設定固定的飛行任務及飛行時間,初始狀態(tài)會在一定范圍內(nèi)隨機變化,將智能體的控制周期作為時間步(Time step),注意MDP中的st和at一類的下標t代表時間步而不是指實際飛行時間。在每個時間步中,當前狀態(tài)st輸入策略Actor網(wǎng)絡從而輸出當前動作at,at與輔助控制器的信號綜合作為控制系統(tǒng)輸入ut,這樣通過四階龍格庫塔積分便可得到飛行器下一時間步的飛行狀態(tài),從而得到下一時間步狀態(tài)st+1,并可根據(jù)設計好的回報函數(shù)形式計算立即回報rt+1,將(st,at,rt+1,st+1)作為一個飛行樣本存儲在記憶回放單元中就可以通過DDPG算法進行飛行策略的學習即更新4個網(wǎng)絡對應的網(wǎng)絡參數(shù)。

        綜上,本文離線訓練算法如算法1所示。

        算法1 基于DDPG的飛行器控制離線訓練算法1.隨機初始化策略Actor網(wǎng)絡和策略Critic網(wǎng)絡參數(shù)θμ,θQ;將策略網(wǎng)絡參數(shù)初始化對應目標網(wǎng)絡θQ'←θQ,θμ'←θμ;初始化存儲量為M的記憶回放單元D;在飛行模擬器中加載飛行器模型以及輔助控制器2. for Episode=1 to MaxEpisode do3. 初始化本次實驗探索噪聲分布N(0,σ2)4. 設定范圍內(nèi)隨機初始化飛行器初始狀態(tài),得到s15. fort=1 to MaxStep do6. 通過st選擇動作at=μ(st|θμ)+nt, nt為探索噪聲7. at和輔助控制器信號綜合得到控制信號ut8. 積分得到下一時間步飛行器狀態(tài),得st+19. 通過式(32)計算立即回報rt+110.將樣本(st,at,rt+1,st+1)存儲在記憶回放單元D中11.∥網(wǎng)絡更新12.在記憶回放單元D中進行隨機采樣,取N個樣本13.按式(23)、式(25)~式(26)更新策略Critic網(wǎng)絡參數(shù)θQ14.按式(27)~式(28)更新策略Actor網(wǎng)絡參數(shù)θμ15.按式(29)更新2個目標網(wǎng)絡參數(shù)θQ',θμ'16.if下一時刻飛行狀態(tài)超出飛行邊界時then17. break18.endif19.end for20.end for

        2.3 在線控制流程

        在線控制與訓練過程不同,深度強化學習的功能是訓練智能體,在不考慮在線學習的前提下訓練算法在實際飛行控制中不再生效,最終被用作飛行控制器的智能體為深度強化學習的一部分,對于DDPG而言,即其目標Actor網(wǎng)絡。故最終進行在線控制時的系統(tǒng)結構如圖5所示,將5個數(shù)據(jù)幀的環(huán)境狀態(tài)輸入訓練好的目標Actor網(wǎng)絡,網(wǎng)絡輸出的智能體動作與PD輔助控制器的信號綜合以進行飛行器的在線控制。可以在在線控制仿真時注入與訓練時不同的不確定性以衡量智能體的控制能力。圖5中xt為PD控制需要的狀態(tài)變量,包括高度偏差、速度偏差以及它們的變化量。

        圖5 智能體在線控制流程

        3 訓練及仿真分析

        3.1 智能體訓練

        綜合第2節(jié)內(nèi)容,智能體的訓練過程中系統(tǒng)分為控制子系統(tǒng)和學習子系統(tǒng)??刂谱酉到y(tǒng)實際上就是由在線控制的幾個環(huán)節(jié)構成,在訓練過程中控制過程是一個連續(xù)過程,智能體接收環(huán)境狀態(tài)后根據(jù)當前的控制策略輸出控制量,被控對象即飛行器接收控制量改變運動狀態(tài)從而在搭建的環(huán)境中飛行,這就形成了一個閉環(huán)過程。相比于控制子系統(tǒng),學習子系統(tǒng)則是離散的,DDPG是離策略的深度強化學習算法,這就意味著智能體的學習過程不是同智能體的探索過程同時進行的,而是借助記憶回放單元中的數(shù)據(jù)以更新各網(wǎng)絡參數(shù)。本節(jié)進行智能體訓練過程分析。

        訓練中每次實驗飛行器初始狀態(tài)取值區(qū)間見表1,訓練的相關參數(shù)見表2。訓練中的飛行任務與2.2節(jié)PD輔助控制器獨立控制時的任務一致,控制周期為0.01 s,積分周期為0.002 s,單次實驗最大飛行時間為100 s。初始姿態(tài)角在高度為50 m、速度為30 m/s的定速平飛狀態(tài)配平值附近。

        表1 訓練中初始飛行狀態(tài)

        表2 訓練參數(shù)

        累積回報曲線可以一定程度上反映智能體在訓練過程中的性能變化。訓練過程中每10次實驗的平均累積回報Rave隨實驗次數(shù)變化情況如圖6 中紅色曲線所示。訓練開始時,部分實驗中飛行器會在大偏差狀態(tài)下飛行從而使累積回報達到很大的負值情況;同時也會存在沒有達到100 s的單次實驗時間就發(fā)生墜機和其他超界的情況(累積回報在-1 000左右的情況);智能體在140次實驗后其飛行控制能力開始有顯著提升并達到飛行控制要求,且時間差分誤差逐漸達到收斂要求。

        圖6 累積回報及時間差分誤差曲線

        由于智能體要同時履行制導和姿控兩項任務,狀態(tài)空間和動作空間維度較大,這些都提高了智能體的訓練難度。前期實驗中在沒有PD輔助控制器的條件下進行智能體訓練時,對于定高定速的簡單飛行任務智能體在2 000次實驗前均達不到穩(wěn)定控制的要求,可見此類輔助控制器可以在一定程度上改善智能體的訓練過程。

        針對訓練時的飛行任務,智能體在線控制結果如圖7所示,控制量及姿態(tài)角曲線如圖8所示。智能體有效學習了飛行器的控制策略,相比于PD輔助控制器單獨控制結果,其控制性能在快速性和準確性上都有很大提升。

        圖7 智能體在線控制結果

        圖8 控制量及姿態(tài)角曲線

        智能體能同時適應爬升和下降兩大類的飛行任務。應對爬升任務時,其快速性明顯優(yōu)于PD輔助控制器,達到目標高度后可以穩(wěn)定在定速平飛狀態(tài),穩(wěn)態(tài)誤差在0.1 m以內(nèi)。對于下降任務,存在極少量的超調(diào),穩(wěn)態(tài)誤差在0.06 m以內(nèi),具體控制結果見表3。為了進一步測試智能體的魯棒性和泛化能力,本文還進行了變?nèi)蝿?、參?shù)拉偏以及注入干擾等相關內(nèi)容的仿真。

        表3 智能體控制結果

        3.2 變?nèi)蝿湛刂?/h3>

        在智能體訓練中,飛行器的初始狀態(tài)被限制在45~55 m之間的平飛模式周圍?,F(xiàn)將初始狀態(tài)拓展到10~100 m的高度,且跟蹤高度均為50 m,仿真結果如圖9所示,智能體能適應所有設置的初始狀態(tài)。

        圖9 變初始高度的控制結果

        將飛行任務改變?yōu)橹悄荏w在訓練時未學習過的地面發(fā)射任務:發(fā)射高度為2 m,發(fā)射角為30°,彈射速度為25 m/s,目標為跟蹤20 m高度和速度Vc=32 m/s的定速平飛狀態(tài)。仿真結果如圖10所示,飛行器在彈出后3 s左右達到目標高度,高度穩(wěn)態(tài)誤差為0.04 m,速度穩(wěn)態(tài)誤差為0.08 m/s。綜上,智能體能一定程度上適應訓練時未學習過的飛行任務。

        圖10 地面發(fā)射任務控制結果

        3.3 參數(shù)拉偏

        飛行器建模時存在模型不確定性,現(xiàn)將飛行器的自身參數(shù)即質(zhì)量和轉(zhuǎn)動慣量拉偏5%,與此同時拉偏5%的大氣密度,并分別將氣動參數(shù)拉偏10%~50%,測試智能體的魯棒性。仿真結果如圖11所示,未考慮模型不確定性訓練出的智能體能有效完成30%以內(nèi)氣動參數(shù)拉偏的飛行任務,且在控制中能依舊保持一定的快速性以及準確性。

        圖11 智能體在模型不確定條件下的控制結果

        3.4 注入擾動和故障

        在飛行器高度50 m、速度30 m/s的定速平飛過程中,分別在10~11 s時注入+5°的風攻角擾動,在20~30 s時在俯仰角速度測量處注入最大值為1.0×10-4rad/s的隨機白噪聲,在30~40 s 時注入發(fā)動力推力下降20%的故障,控制結果見圖12。

        圖12 注入擾動和故障條件下的控制結果

        對于攻角擾動,飛行器在干擾結束后經(jīng)歷了1.5 s左右較劇烈的狀態(tài)調(diào)節(jié)后恢復到了定速平飛狀態(tài)。對于姿態(tài)角速度測量誤差,智能體能有效維持飛行器的飛行穩(wěn)定,高度穩(wěn)態(tài)誤差為0.06 m,速度穩(wěn)態(tài)誤差為0.02 m/s。對于發(fā)動機推力下降故障,推力控制信號從2.73 N增加至3.48 N,飛行器高度降為49.55 m,速度降為29.27 m/s,影響很小。

        4 結 論

        本文研究了一種基于深度確定性策略梯度算法的飛行控制方法:以多數(shù)據(jù)幀為環(huán)境狀態(tài),設計了含稀疏獎勵的獎勵函數(shù),并增加了PD輔助控制器,進行了智能體訓練以及其飛行控制性能測試。該方法有別于傳統(tǒng)分回路設計方法,有利于降低設計復雜度,是一種端到端的解決方案。智能體訓練以及仿真結果表明:

        1) 含稀疏獎勵的獎勵函數(shù)形式會增加對優(yōu)秀飛行數(shù)據(jù)的獎勵即能有效提高樣本多樣性,PD輔助控制器能在訓練初期穩(wěn)定飛行過程,以上2條關鍵技術點均能提高訓練中智能體的學習效率。

        2) 多數(shù)據(jù)幀作為環(huán)境狀態(tài)時可代替誤差積分將歷史信息作為知識供智能體學習,能有效改善智能體的控制性能,減小穩(wěn)態(tài)誤差。

        3) 智能體除了能完成訓練時的飛行控制任務外,還能一定程度上適應變?nèi)蝿湛刂啤?shù)拉偏和擾動故障等訓練時未學習的情況,體現(xiàn)了其泛化能力和魯棒性。

        當然,此類方法用于飛行控制也存在一些技術上的問題,需要繼續(xù)深入研究,本文最后給出問題及研究設想:

        1) 本文研究的DDPG算法包括目前大多數(shù)強化學習用于飛行控制的研究,其強化學習方法不基于模型(Model-free)。而實際上對于工程師而言飛行器的數(shù)學模型是明確的且建立比較準確以及含很多經(jīng)驗知識,未來可能以基于模型(Model-based)和基于半模型的形式將以上知識引入智能體的知識學習中。

        2) 雖然可以從理論上嚴格證明DDPG等算法的穩(wěn)定性和收斂性,從而保證系統(tǒng)的整體穩(wěn)定。但由于不基于模型,目前此類控制方法的控制性能主要通過大量的時域仿真進行分析,穩(wěn)定性證明難以給出。且神經(jīng)網(wǎng)絡的可解釋性也是世界性難題,需要繼續(xù)深入研究。

        3) 本文給出的縱平面非線性模型經(jīng)過了一定簡化,理論上通過具有掉高補償?shù)腜ID控制等方式也能較理想解決此問題。后續(xù)會基于更復雜的模型,通過在訓練階段注入模型不確定性和嚴重故障等手段,研究其容錯等相關性能。

        4) 實際在線控制時,一部分不確定性可以基于智能體的泛化能力和魯棒性得到有效適應。但一旦出現(xiàn)無法控制的情況,可能還需依賴遷移學習和小樣本在線學習等手段進行適應。

        猜你喜歡
        智能策略
        基于“選—練—評”一體化的二輪復習策略
        求初相φ的常見策略
        例談未知角三角函數(shù)值的求解策略
        我說你做講策略
        智能制造 反思與期望
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        智能制造·AI未來
        商周刊(2018年18期)2018-09-21 09:14:46
        久久九九精品国产不卡一区| 天堂中文资源在线地址| 国产360激情盗摄一区在线观看 | 国产精品成人黄色大片| 国产精品亚洲二区在线看| 无码人妻丰满熟妇啪啪网站| 亚洲欧美精品伊人久久| 亚洲一区二区情侣| 国产一区二区免费在线视频| 三年的高清电影免费看| 白嫩少妇激情无码| 中文字幕乱码中文乱码毛片| 久久精品一区二区三区蜜桃| 午夜无遮挡男女啪啪免费软件| 亚洲色偷偷色噜噜狠狠99| 午夜视频免费观看一区二区| 国产精品久色婷婷不卡| 最新国产福利在线观看精品| 一级免费毛片| 国产精品久久久精品三级18| 日本一级特黄aa大片| 亚洲av无码av制服另类专区| 国产91对白在线观看| 蜜桃传媒免费观看视频| 无码人妻一区二区三区在线 | 色老板在线免费观看视频日麻批| 亚洲国产精品久久久av| 亚洲精品无码久久久久| 国产精品原创永久在线观看| 午夜视频一区二区三区播放| 人妻夜夜爽天天爽三区麻豆av网站| 国产无码夜夜一区二区| 国产日产免费在线视频| 99久久免费视频色老| 国产亚洲精品aaaaaaa片| 国产96在线 | 免费| 亚洲av色av成人噜噜噜| 欧洲vat一区二区三区| 亚洲自拍另类欧美综合| 手机在线国产福利av| 国产va免费精品观看精品|