亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種非仿射高超聲速飛行器的智能控制方法*

        2021-11-24 02:15:18馬長波茹海忠馬廣程夏紅偉
        飛控與探測 2021年4期
        關鍵詞:智能方法模型

        王 冠,馬長波,茹海忠,馬廣程,夏紅偉

        (1.哈爾濱工業(yè)大學 航天學院·哈爾濱·150001;2.上海衛(wèi)星工程研究所·上海·201109)

        0 引 言

        高超聲速飛行器(Hypersonic Flight Vehicle, HFV)是一類速度不低于馬赫數(shù)5的臨近空間飛行器。與傳統(tǒng)飛行器相比,HFV在速度、飛行包線和突防能力等方面具備明顯的優(yōu)勢??刂葡到y(tǒng)作為HFV的重要子系統(tǒng),是使其完成既定任務和安全飛行的重要保障。然而,HFV在飛行過程中具有快時變、強非線性、強耦合性等特點,這使其控制系統(tǒng)的設計成為HFV在實現(xiàn)工程應用時所面臨的具有巨大挑戰(zhàn)性的核心問題之一。

        近年來,許多先進的控制技術已被應用于HFV控制,如自適應控制[1]、滑??刂芠2]、魯棒控制[3]、容錯控制[4]、模糊控制[5]、神經(jīng)網(wǎng)絡控制[6]等,并取得了較好的效果。上述控制研究大都基于仿射模型而設計控制器,模型中的氣動系數(shù)根據(jù)已知曲線擬合模型進行近似。然而,HFV實際受到的氣動力與攻角、控制舵偏角等因素呈非仿射關系,將其描述為仿射模型,會造成一定程度的控制精度損失。損失嚴重時,在某些情況下,將不能正確描述飛行器的氣動特性。因此,目前針對HFV非仿射模型的研究受到了越來越多的關注。BU[7]利用神經(jīng)網(wǎng)絡估計了未知的非仿射動態(tài),設計了基于反步法的控制器。WANG等[8]建立了縱向通道的半分解半仿射模型形式,在考慮了執(zhí)行機構(gòu)死區(qū)的前提下設計了預設性能控制器。HU等[9]通過反饋線性化方法設計了魯棒自適應模糊控制器,利用中值定理處理了氣動阻力表達式中的非仿射形式項,進而得到了仿射模型。SHEN等[10]針對非仿射縱向短周期姿態(tài)模型,設計了自適應滑模模糊控制器,并取得了較好的控制效果。

        隨著未來HFV任務需求的發(fā)展和控制復雜度的增大,上述以經(jīng)典控制理論為基礎發(fā)展起來的控制方法面臨一定的技術瓶頸[11]。近年來,深度學習、強化學習等機器學習手段逐漸地受到控制科學領域研究學者的關注,人工智能技術的飛速發(fā)展為飛行器自主智能飛行的實現(xiàn)提供了新的可能。早在20世紀末期,華裔科學家吳恩達[12]利用強化學習中智能體不斷與環(huán)境進行交互的特點,對智能直升機進行了相關應用的研究,利用策略梯度算法對無人直升機懸停進行了控制。近幾年興起的深度確定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG)[13]則是深度強化學習中具有代表性的算法之一。KOCH等[14]利用強化學習訓練了四旋翼角速率內(nèi)環(huán)控制器,并獲得了部分性能優(yōu)于PID控制器的效果。本文針對HFV的非仿射模型,進行了基于DDPG算法的飛行控制研究。不同于無人直升機和四旋翼,本文的研究對象HFV是一種非傳統(tǒng)的飛行器,其具有面臨的飛行環(huán)境復雜、模型非線性程度高、強耦合以及參數(shù)不確定等特點,上述特點增加了將機器學習方法直接應用于HFV控制中的難度。此外,從目前的技術途徑來看,無論是傳統(tǒng)的最優(yōu)控制,還是深度強化學習,在飛行器實時自主控制方面均存在不足。傳統(tǒng)控制方法與新興人工智能的關系不是替代關系,而是應該相輔相成。以反步控制為例,其具有算法簡單易實現(xiàn)、穩(wěn)定可靠的優(yōu)勢,這都是當前智能控制技術所欠缺的特點。因此,本文研究了基于反步控制框架的智能控制器,將傳統(tǒng)飛行控制與人工智能技術進行了創(chuàng)新結(jié)合,這是實現(xiàn)智能控制發(fā)展的一個重要方向,也是解決HFV智能飛行控制的一種可靠思路。

        基于以上分析,本文針對HFV非仿射模型研究了基于強化學習的反步控制方法。在本文其余部分,首先給出了HFV的數(shù)學模型,然后利用反步法的思想,依次設計了俯仰角速度虛擬控制指令和升降襟副翼控制律,并借助Lyapunov方法分析了閉環(huán)系統(tǒng)的穩(wěn)定性。在此基礎上,利用DDPG算法,設計了針對反步控制的智能參數(shù)整定和控制律補償方案。最后,通過仿真實驗對其控制效果進行了驗證。

        1 數(shù)學模型和問題描述

        1.1 HFV縱向通道非線性模型

        本文以文獻[15]給出的一類HFV為研究對象,研究了其縱向非線性模型的控制問題。其模型可描述為

        (1)

        式中,攻角α、俯仰角速率Q和航跡傾角γ是HFV短周期運動的三個狀態(tài)變量;Iyy是俯仰通道轉(zhuǎn)動慣量;MA和MT分別是由氣動力和推力產(chǎn)生的俯仰力矩;Δ是由環(huán)境干擾、模型不確定性等因素造成的額外擾動。MA和MT可表示為

        (2)

        1.2 問題描述

        本文的研究目標為:設計升降襟副翼控制律δa和δe,使得攻角α能夠跟蹤給定的參考指令αd。為實現(xiàn)此目標,本文以反步法為基礎,在考慮外部擾動的情況下,以俯仰角速度作為虛擬控制量,設計了虛擬控制律,進而完成了升降襟副翼控制律的設計。由于反步法對參數(shù)比較敏感,對其的調(diào)整在很大程度上依賴于控制人員的經(jīng)驗,通常需要經(jīng)過反復的試驗,才能達到較好的控制效果。此外,對于處于復雜飛行環(huán)境和執(zhí)行復雜飛行任務的HFV而言,較多的控制量將導致其參數(shù)整定工作耗時且繁瑣,往往會給控制器的設計帶來諸多不便。在反步控制的基礎上,利用強化學習進行智能參數(shù)整定和控制律補償,將使俯仰角速度能夠較好地跟蹤俯仰角速度虛擬控制指令,進而實現(xiàn)HFV的飛行控制。

        2 控制器設計

        本節(jié)主要介紹控制器設計的具體方案。首先,利用反步法分別設計了俯仰角速度虛擬控制律和升降襟副翼控制律;然后,給出了所采用的DDPG算法的原理;最后,將其與反步控制結(jié)合,提出了本文所研究的智能控制器。

        2.1 俯仰角速度虛擬控制律設計

        首先,定義x1=α-αd。根據(jù)式(1)可得

        (3)

        (4)

        式中,H和V為HFV的高度和速度,可由相應的傳感器測量得到。

        對于式(3),設計虛擬控制律Qd

        (5)

        式中,k1為控制增益。定義誤差變量x2=Q-Qd。結(jié)合式(5),可將式(3)寫為

        (6)

        (7)

        2.2 升降襟副翼控制律設計

        對于誤差變量x2的動態(tài),文獻[11]給出的CD的表達式包含控制量u的二次項。根據(jù)文獻[11]和式(2),這些分量會對攻角和俯仰角速度動態(tài)產(chǎn)生一定的影響,其影響隨馬赫數(shù)增加而愈發(fā)明顯,對其進行簡單忽略并不合理?;诖耍瑇2的動態(tài)可描述為

        (8)

        式中,未知函數(shù)f(·)是連續(xù)可導的非仿射控制函數(shù),為由氣動系數(shù)不準確和外部干擾所導致的擾動項。同時,選定u0(x)作為控制輸入的理想值

        (9)

        式中,k2>0為控制增益。

        假設|u-f(x1,x2,u,Δ)|

        (10)

        (11)

        式中,σ>0為收斂系數(shù)。

        (12)

        對于W=W1+W2的導數(shù)而言

        ≤0

        (13)

        因此,在假設未知函數(shù)有界時,可以通過以上控制設計進行實現(xiàn)。需要指出的是,在上述反步控制器中,控制參數(shù)的值將直接影響控制輸入的大小,進而影響到控制的效果。

        2.3 基于深度強化學習的HFV控制策略

        (14)

        DDPG算法借鑒了深度Q網(wǎng)絡算法的優(yōu)秀經(jīng)驗,將記憶回放單元以(si,ai,ri+1,si+1)的形式存儲為樣本,而后模擬人類大腦的回憶過程進行了采樣學習。對于動作價值網(wǎng)絡的訓練,是要最小化損失函數(shù)

        (15)

        其中,yi=ri+γfQ(si+1,μ(si+1)|θQ),N為樣本總數(shù)。不同于深度Q網(wǎng)絡算法直接將策略網(wǎng)絡的參數(shù)賦值給目標網(wǎng)絡,DDPG算法采用的是更加平滑的、類似慣性更新的思想,以進行目標網(wǎng)絡的參數(shù)更新。τ為慣性更新率

        (16)

        以上介紹了DDPG算法的基本原理。下面利用控制器補償?shù)乃枷耄Y(jié)合強化學習,設計了如下控制器

        u=u0+uL

        (17)

        其中,uL為補償指令。所設計的智能控制器的結(jié)構(gòu)如圖1所示。

        圖1 控制器結(jié)構(gòu)Fig.1 The structure of the controller

        至此,本小節(jié)基于反步法的控制律設計并結(jié)合DDPG算法原理提出了一種HFV智能控制器。其主要思想為:一方面,利用參數(shù)整定機制取代耗時的試錯方法,可以根據(jù)當前的飛行條件決定關鍵的控制參數(shù);另一方面,通過生成合理的補償指令,可實現(xiàn)對HFV的安全高效控制。

        3 仿真試驗及結(jié)果分析

        3.1 訓練流程

        為驗證上述方法的有效性,首先需要采用DDPG算法進行訓練。在本文中,狀態(tài)集選為st=(α,Q,V,H),動作集選為αt=(k1,k2,uL)。此外,獎勵函數(shù)可設為如下形式

        (18)

        其中,kα和kδ是獎勵函數(shù)中兩個目標的權重;αmax和δmax是攻角和舵偏角的上界值,其目的是將不同量級上的狀態(tài)進行歸一化處理。

        本文所考慮的訓練場景基于表1中HFV的狀態(tài)約束。在每輪訓練開始時,智能體根據(jù)系統(tǒng)隨機產(chǎn)生的初始狀態(tài),不斷地對外部環(huán)境進行試探,并進行對整個狀態(tài)空間的探索,以找到行動值更高的行動。

        表1 HFV的狀態(tài)約束

        Actor網(wǎng)絡和Critic網(wǎng)絡均采用了全連接結(jié)構(gòu)。其中,Actor網(wǎng)絡使用了三層神經(jīng)網(wǎng)絡,其輸入為系統(tǒng)的狀態(tài)集st,輸出k1、k2為反步法的控制參數(shù),uL為控制器的補償指令;Critic網(wǎng)絡使用了兩層神經(jīng)網(wǎng)絡,其輸入為系統(tǒng)的狀態(tài)和動作集,輸出為擬合行動值Q(s,a)。tanh函數(shù)g1(z)的輸出位于(-1,1)之間,這樣可保證控制輸入約束在一定范圍。因此,本文中Actor網(wǎng)絡的輸出層采用了tanh函數(shù)。除此之外,其余網(wǎng)絡均采用了可為神經(jīng)網(wǎng)絡提供更快處理速度的Relu函數(shù)g2(z)。在所選用的DDPG中,訓練的相關參數(shù)設置如表2所示。

        表2 訓練參數(shù)設置

        (19)

        在本文中,kα=0.8,kδ=0.2。設計算法的仿真時長為T=100s,步長dt=0.2s。因此,在一個回合訓練中有500個數(shù)據(jù)。通過訓練得到的獎勵如圖2所示。由圖2可以看出,累積獎勵在300回合左右基本收斂,展現(xiàn)了快速學習的過程。DDPG是采用深度神經(jīng)網(wǎng)絡進行函數(shù)擬合的一類新興的強化學習算法,適合解決復雜大維度應用場景問題,并已在圍棋AlphaZero算法中得到了技術驗證[16]。需要指出的是,智能控制的實際應用可能存在的缺點包括了由隨機動作探索引發(fā)的學習效率低下以及訓練樣本的海量需求。本文關于HFV智能控制的探索工作主要針對縱向通道的控制問題,這極大地簡化了訓練的復雜程度。

        圖2 總回報獎勵曲線Fig.2 Total reward curve

        3.2 仿真結(jié)果

        針對式(1)中的HFV動力學模型進行了仿真實驗。其中,式(2)所采用的氣動參數(shù)可參考文獻[16]。所選取的飛行任務是HFV在巡航狀態(tài)下,飛行速度設置為V=3060m/s,飛行高度設置為h=20000 m,飛行狀態(tài)初始條件為α(0)=2.66°,q(0)=0[(°)·s-1],跟蹤指定的攻角參考軌跡αd(t)=5+2e-0.3t-2.5e-0.05t(°)。

        首先,將訓練出的神經(jīng)網(wǎng)絡移植到所提出的控制器中,在當前任務中所產(chǎn)生的控制參數(shù)和補償指令如圖3所示。

        (a)控制參數(shù)

        (b)控制指令補償圖3 控制參數(shù)和補償指令Fig.3 Control parameters and compensation commands

        接下來,將式(10)對應的控制方法(記為對比方法1)和文獻[7]對應的控制方法(記為對比方法2)作為對照,進行仿真實驗。圖4分別給出了其攻角、俯仰角速度、升降襟副翼偏轉(zhuǎn)角的狀態(tài)曲線。由仿真結(jié)果可以看出,上述三種方法均可取得較好的攻角跟蹤控制效果。其中,對比方法2和本文方法的控制效果要優(yōu)于對比方法1。對比方法2在控制初始階段會產(chǎn)生較為明顯的抖振,并且兩種對比方法的控制效果均依賴于參數(shù)調(diào)整。本文方法能夠在較短的時間內(nèi)實現(xiàn)攻角跟蹤,這是由于相比于對比方法,本文方法經(jīng)強化學習而得到的控制參數(shù)是隨系統(tǒng)狀態(tài)可調(diào)整的,且對控制器具備較好的補償作用。

        (a)攻角

        (b)俯仰角速度

        (c)升降襟副翼偏轉(zhuǎn)角圖4 對比實驗Fig.4 Comparative simulations

        最后,為了驗證對參數(shù)不確定性的適應能力,考慮氣動參數(shù)在標稱值±20%內(nèi)變化,對該任務執(zhí)行了600次的蒙特卡洛仿真實驗,實驗結(jié)果如圖5所示。由圖5可以看出,本文方法具有較好的魯棒性。

        (a)攻角

        (b)俯仰角速度

        (c)升降襟副翼偏轉(zhuǎn)角圖5 蒙特卡洛仿真Fig.5 Monte-Carlo simulations

        4 結(jié) 論

        本文提出了一種非仿射HFV的智能控制律,HFV智能控制律具有結(jié)構(gòu)簡單、魯棒性強的特點。在反步法控制器的基礎上,借助DDPG方法,對控制器進行了參數(shù)在線調(diào)整和控制指令補償。該控制器能夠在額外擾動和未建模動態(tài)的情況下,保證攻角穩(wěn)健地跟蹤期望目標。最后,數(shù)值例子驗證了所提出方法的有效性。本文主要進行了對HFV智能控制方法的研究探索工作,所提出的方法具有一定的學術研究價值和工程參考價值。

        猜你喜歡
        智能方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        亚洲av无码男人的天堂在线| 一本久久精品久久综合| 精品含羞草免费视频观看| 久久久久无码精品国产app| 亚洲一区中文字幕在线电影网 | 使劲快高潮了国语对白在线| 亚洲色欲大片AAA无码| 青青草视频在线播放81| 久久精品熟女亚洲av麻| 丰满人妻被黑人猛烈进入| 国产91网| 亚洲大胆视频在线观看| 国产av在线观看久久| 日本理伦片午夜理伦片| 婷婷色综合成人成人网小说| 久久91精品国产91久久跳舞| 日本欧美大码a在线观看| 久久精品人人做人人爽| 手机色在线| 丁香婷婷六月综合缴清| 国产精品免费av片在线观看| 午夜家庭影院| 少妇被日到高潮的视频| 娇小女人被黑人插免费视频| 精品乱码久久久久久久| 无码之国产精品网址蜜芽| 国产精品久久国产精麻豆| 日产精品99久久久久久| 久久精品国内一区二区三区| 亚洲xx视频| 99久久精品一区二区国产| 中文字幕久久熟女蜜桃 | 色吊丝中文字幕| 在线a亚洲视频播放在线观看 | 国产精品三级在线专区1| 亚洲一区二区懂色av| 亚洲av无码专区亚洲av网站| 毛片免费在线播放| 冲田杏梨av天堂一区二区三区| 少妇被猛烈进入到喷白浆| 日韩亚洲av无码一区二区不卡|