亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自適應(yīng)動態(tài)規(guī)劃算法在飛行器追逃中的應(yīng)用

        2016-12-21 02:24:06劉念劉春生孫景亮
        飛行力學(xué) 2016年6期
        關(guān)鍵詞:微分導(dǎo)彈飛機(jī)

        劉念, 劉春生, 孫景亮

        (南京航空航天大學(xué) 自動化學(xué)院, 江蘇 南京 211106)

        ?

        自適應(yīng)動態(tài)規(guī)劃算法在飛行器追逃中的應(yīng)用

        劉念, 劉春生, 孫景亮

        (南京航空航天大學(xué) 自動化學(xué)院, 江蘇 南京 211106)

        針對飛行器追逃對抗的二人零和微分對策問題,提出基于數(shù)據(jù)的積分策略迭代自適應(yīng)動態(tài)規(guī)劃算法,以求解數(shù)學(xué)模型未知系統(tǒng)的控制律。該算法利用固定時段內(nèi)有效的狀態(tài)和輸入信息,建立數(shù)據(jù)模型,并對其進(jìn)行基于值函數(shù)和控制策略的算法迭代,在平面攔截系統(tǒng)完全未知的情況下得到追逃雙方的近似最優(yōu)策略。仿真結(jié)果表明,所得到的雙方控制策略能在有限界內(nèi)無限接近最優(yōu)解,驗(yàn)證了所提出算法的有效性。

        追逃問題; 零和微分對策; 策略迭代; 自適應(yīng)動態(tài)規(guī)劃

        0 引言

        隨著時代的進(jìn)步,航空航天技術(shù)逐步進(jìn)入一個嶄新的發(fā)展時期。提高空軍的作戰(zhàn)能力已經(jīng)成為世界眾多軍事強(qiáng)國追求的共同目標(biāo),空中軍事競爭也漸漸成為一個備受關(guān)注的方向,這涉及到無人機(jī)格斗[1]、衛(wèi)星攔截[2]、導(dǎo)彈制導(dǎo)[3]等多方面的問題。飛行器追逃問題被描述為具有利益沖突的雙方之間的對抗,可以在廣義上代表此類雙方對抗型最優(yōu)控制問題。

        近年來,追逃攔截制導(dǎo)律的研究吸引了國內(nèi)外學(xué)術(shù)界的廣泛關(guān)注。對于這類沖突對抗問題,微分對策理論被引入并用于解決雙方或多方最優(yōu)策略問題[4]。多數(shù)制導(dǎo)律求解的研究都基于系統(tǒng)精確的模型信息,而實(shí)際系統(tǒng)不可避免地會受到多種因素的影響,很大程度上造成其模型未知或部分未知,例如追逃攔截中目標(biāo)的機(jī)動時間常數(shù)未知問題[5]。而設(shè)計(jì)控制律所依賴的動力學(xué)模型信息,將直接影響制導(dǎo)性能,從而決定了能否成功攔截。對于模型未知系統(tǒng)的控制問題,已有不少學(xué)者發(fā)表了相關(guān)的文章。文獻(xiàn)[6]對一類穩(wěn)定未知系統(tǒng)基于工作點(diǎn)上的階躍響應(yīng)信息構(gòu)造參考模型,實(shí)現(xiàn)自適應(yīng)控制。文獻(xiàn)[7]對于一類模型未知系統(tǒng)采用模糊神經(jīng)網(wǎng)絡(luò)辨識其動力學(xué)特性,從而實(shí)現(xiàn)控制。不同于構(gòu)造參考模型或進(jìn)行模型辨識的研究方法,自適應(yīng)動態(tài)規(guī)劃(ADP)是一種基于數(shù)據(jù)的具有學(xué)習(xí)和優(yōu)化能力的智能控制方法[8],它的引入對模型未知系統(tǒng)的控制研究有了進(jìn)一步的深入。關(guān)于博弈類問題,文獻(xiàn)[9]考慮系統(tǒng)的部分動態(tài)未知情況,利用ADP求解微分對策鞍點(diǎn)解。文獻(xiàn)[10]基于ADP利用內(nèi)外迭代步驟對系統(tǒng)完全未知的微分對策求解。

        本文針對一類平面導(dǎo)彈攔截飛機(jī)問題,在未知系統(tǒng)模型情況下,利用狀態(tài)和輸入數(shù)據(jù)信息驅(qū)動迭代步驟,基于ADP算法求解追逃雙方的最優(yōu)控制策略。該算法的顯著優(yōu)點(diǎn)是不需要系統(tǒng)的模型信息,避免了系統(tǒng)模型的辨識。

        1 飛行器追逃問題描述

        飛行器追逃問題主要涉及兩方:追捕者和逃避者。盡管攔截問題是非線性的,但從初始視線(LOS)的原理去線性分析[11]也是合理的。圖1為導(dǎo)彈攔截飛機(jī)的平面示意圖。圖中,x軸沿初始視線方向;M和A分別為追擊者(導(dǎo)彈)和逃避者(飛機(jī));φ和(x,y)分別為雙方的彈道傾角和位置坐標(biāo);aM,aA分別為垂直于速度uM,uA的加速度。

        圖1 導(dǎo)彈攔截飛機(jī)平面示意圖Fig.1 Planar interception geometry betweenmissile and aircraft

        (1)

        這里,飛機(jī)相對于導(dǎo)彈的位置在y軸的投影為x1=y=yA-yM;x2為相對橫向速度;x3和x4分別為飛機(jī)和導(dǎo)彈的橫向加速度;τA,τM分別為飛機(jī)和導(dǎo)彈的機(jī)動時間常數(shù)。此外,導(dǎo)彈和飛機(jī)的橫向指令加速度分別設(shè)為控制向量u(t)和v(t)?;诰€性二次微分對策理論,式(1)可以寫為:

        考慮到環(huán)境的復(fù)雜性,以及雙方自身受到的各種影響,追逃攔截系統(tǒng)的準(zhǔn)確模型一般難以獲得。這里,假設(shè)對策系統(tǒng)模型完全未知,即認(rèn)為A∈Rn×n,B1∈Rn×m,B2∈Rn×q為未知常值矩陣,系統(tǒng)寫為:

        (2)

        定義系統(tǒng)性能指標(biāo)為:

        (3)

        式中:Q=QT≥0;R=RT>0;γ為衡量導(dǎo)彈和飛機(jī)相對機(jī)動能力的權(quán)重參數(shù)。導(dǎo)彈的目的是保證系統(tǒng)漸近穩(wěn)定的同時,通過控制向量u縮小性能指標(biāo)(3),而飛機(jī)的目的則與之相反。

        若存在控制策略u=u*和v=v*滿足J(x,u*,v)≤J(x,u*,v*)≤J(x,u,v*),則稱u*和v*為微分對策鞍點(diǎn),即追逃雙方的最優(yōu)對策。由最優(yōu)控制理論可知:

        (4)

        (5)

        式中:K*和G*分別為追逃雙方的最優(yōu)反饋增益矩陣;P*為對稱正定矩陣,由求解代數(shù)Riccati方程得到:

        (6)

        根據(jù)假設(shè)條件,即等式(6)中系統(tǒng)的動特性矩陣A,B1,B2完全未知,這給求解過程造成了極大的困難,利用傳統(tǒng)的求解方式是無法解決的。因此,本文采用基于數(shù)據(jù)的積分策略迭代自適應(yīng)動態(tài)規(guī)劃算法來求解此類問題。

        2 系統(tǒng)模型未知的最優(yōu)策略求解

        2.1 基于積分策略迭代ADP的算法

        迭代ADP算法是由初始穩(wěn)定的控制策略開始, 通過求解一系列李雅普諾夫等式, 不斷改進(jìn)控制策略使其達(dá)到最優(yōu)的過程。

        首先,假設(shè)初始穩(wěn)定的控制矩陣K0∈Rm×n,G0∈Rq×n,定義迭代過程中值函數(shù)V=xTPkx,以及對策雙方控制策略u=-Kkx和v=Gkx。將系統(tǒng)(2)重新寫為如下形式:

        (7)

        式中:Ak=A-B1Kk+B2Gk。對系統(tǒng)(7)的值函數(shù)求導(dǎo),并在區(qū)間[t,t+δt]內(nèi)積分得:

        x(t+δt)TPkx(t+δt)-x(t)TPkx(t)

        (8)

        可以看出,對比式(6),式(8)在完全未知對策系統(tǒng)動態(tài)A,B1,B2時,僅需要利用[t,t+δt]時間段內(nèi)的狀態(tài)和輸入數(shù)據(jù)信息,就可求解雙方近似最優(yōu)策略。算法具體步驟如下:

        步驟1:初始化。取u=-K0x+e1,v=G0x+e2作為初始輸入(e1,e2作為探測信號,保證系統(tǒng)存在持續(xù)激勵);

        步驟2:策略評價和提高。利用式(8) 求解Pk,Kk+1及Gk+1;

        步驟3:判斷。如果‖Pk-Pk-1‖≤ε(常數(shù)ε>0為預(yù)設(shè)臨界值),則u=-Kkx,v=Gkx作為對策雙方的近似最優(yōu)策略,否則返回步驟2。

        2.2 基于數(shù)據(jù)的算法實(shí)現(xiàn)

        定義以下兩個操作:

        由張量積形式,式(8)中各部分有以下形式,其中,vec(·)為將矩陣變換為列向量的線性變換:

        xTQkx=(x?x)vec(Qk)

        (xT?uT)(In?R)]vec(Kk+1)

        γ2(xT?vT)]vec(Gk+1)

        此外,對于正整數(shù)l,定義矩陣:

        ,

        同樣有Ixu及Ixv(0≤t0

        對于任意給定的穩(wěn)定增益矩陣Kk和Gk,式(8)有以下矩陣形式:

        (9)

        其中:

        Y=-Ixxvec"(Qk)

        基于最小二乘理論,若X列滿秩,式(9)有唯一解:

        (10)

        算法實(shí)現(xiàn)流程圖如圖2所示。

        圖2 算法流程圖Fig.2 Flowchart of algorithm

        3 仿真驗(yàn)證

        本節(jié)將對上述提出的算法用于導(dǎo)彈攔截飛機(jī)問題中雙方對策系統(tǒng)模型完全未知的情況進(jìn)行仿真驗(yàn)證。針對第1節(jié)中描述的導(dǎo)彈-飛機(jī)攔截模型,初始條件為:飛機(jī)相對于導(dǎo)彈的位置關(guān)于y軸的投影為2 000 m;相對橫向速度為200 m/s;飛機(jī)和導(dǎo)彈雙方橫向加速度分別為60 m/s2和-40 m/s2,Q和R分別為合適維數(shù)的單位矩陣;τT=τM=0.5;γ=3.5。

        仿真過程中,0~2 s 內(nèi)探索信號e1,e2分別選擇為[12]:

        式中:i=1,…,100;ω1i,ω2i為[-500,500]中的任意值。在[0,2]s內(nèi),間隔0.01 s進(jìn)行狀態(tài)采集和信息輸入,計(jì)算得到δxx,Ixx,Ixu,Ixv,在t=2 s開始算法迭代,經(jīng)過4次迭代后P4,K5,G5值分別為:

        P4=

        而利用包含全部動態(tài)信息的式(6)直接求解系統(tǒng)的代數(shù)Riccati方程,得到最優(yōu)值P*,K*,G*如下:

        P*=

        可見,算法在4次迭代后收斂到最優(yōu)解,Pk,Kk,Gk在迭代過程中與最優(yōu)值P*,K*,G*差的范數(shù)如圖3所示。

        圖3 Pk,Kk,Gk與最優(yōu)值P*,K*,G*的收斂度Fig.3 Convergence of Pk,Kk,Gk to the optimal values P*,K*,G*

        由圖可知,在迭代過程中,Pk,Kk,Gk的值不斷向最優(yōu)值收斂直至完全達(dá)到,且收斂速度較快,時效性較好。系統(tǒng)的各狀態(tài)隨時間響應(yīng)的曲線及雙方控制輸入曲線分別如圖4和圖5所示。

        圖4 追逃攔截系統(tǒng)狀態(tài)曲線Fig.4 Curves for states of interception system

        圖5 雙方控制輸入曲線Fig.5 Curves for the control inputs of both sides

        由圖4和圖5可知,系統(tǒng)于0~2 s內(nèi)計(jì)算并建立狀態(tài)及輸入數(shù)據(jù)模型,2 s后開始收斂,如果定義成功攔截的標(biāo)準(zhǔn)為1 m以內(nèi),則導(dǎo)彈在7.7 s左右成功地?cái)r截到飛機(jī)目標(biāo),并且系統(tǒng)狀態(tài)滿足最終一致漸近穩(wěn)定。0~2 s雙方的控制輸入為保證系統(tǒng)持續(xù)激勵的余弦信號和,2 s 后其開始收斂為0,過程中無較大抖動,且飛機(jī)的最大制導(dǎo)指令不大,避免了飛機(jī)的指令被限幅。仿真結(jié)果驗(yàn)證了在追逃攔截問題中系統(tǒng)模型完全未知時,所提出的算法是有效的。

        4 結(jié)束語

        本文從追逃問題出發(fā),建立了基于零和微分對策的線性攔截模型,采用基于數(shù)據(jù)的積分策略迭代自適應(yīng)動態(tài)規(guī)劃算法,求解對應(yīng)的代數(shù)Riccati方程;該算法的顯著優(yōu)點(diǎn)是放松了對系統(tǒng)模型已知的要求,不僅可以用于飛行器追逃,還可應(yīng)用于更廣泛的對抗型模型。由于本文算法基于線性追逃對抗模型,這與實(shí)際模型存在一定的誤差,故在進(jìn)一步的研究中,需要針對具體的非線性模型展開討論。

        [1] 祝小平,周洲.作戰(zhàn)無人機(jī)的發(fā)展與展望[J].飛行力學(xué), 2005,23(2):1-4.

        [2] 馬丹山,王明海,鮮勇,等.逆軌道攔截衛(wèi)星軌道設(shè)計(jì)與優(yōu)化[J].飛行力學(xué),2009,27(5):63-65.

        [3] 尹永鑫,楊明,吳鵬.空地導(dǎo)彈滑模制導(dǎo)方法研究[J].飛行力學(xué),2010,28(1):44-46.

        [4] Fu L,Wang X.The analysis of differential games theory and present status [C]//2010 International Conference on Intelligent Control and Information Processing.Dalian,2010:290-294.

        [5] 陳興林,花文華.機(jī)動時間常數(shù)未知目標(biāo)的攔截方法研究[J].航天控制,2011,29 (4):8-13.

        [6] 曾海燕.一類未知系統(tǒng)的低階模型參考自適應(yīng)控制[C]//2007中國控制與決策學(xué)術(shù)年會論文集.沈陽,2007:199-202.

        [7] 任海鵬,劉丁.一類模型未知系統(tǒng)的辨識和混沌化控制[J].控制理論與應(yīng)用,2003,20(5):737-740.

        [8] 張化光,張欣,羅艷紅,等.自適應(yīng)動態(tài)規(guī)劃綜述 [J].自動化學(xué)報(bào),2013,39 (4):303-311.

        [9] Vrabie D,Lewis F.Adaptive dynamic programming for online solution of a zero-sum differential game[J].Journal of Control Theory and Applications,2011,9(3):353-360.

        [10] Praveen P,Bhasin S.Online partially model-free solution of two-player zero sum differential games [C]//Preprints of the 10th IFAC International Symposium on Dynamics and Control of Process Systems.Mumbai,India,2013:696-701.

        [11] Zarchan P.Tactical and strategic missile guidance[M].Fifth Edition.USA:American Institute of Aeronautics and Astronautics,2007:889.

        [12] Jiang Y,Jing Z P.Robust approximate dynamic programming and global stabilization with nonlinear dynamic uncertainties[C]//In Proceeding of Joint IEEE Conference on Decision and Control and European Control Conference.Orlando,FL,USA,2011:115-120.

        (編輯:方春玲)

        Application of adaptive dynamic programming algorithm in the pursuit-evasion of aircraft

        LIU Nian, LIU Chun-sheng, SUN Jing-liang

        (College of Automation Engineering, NUAA, Nanjing 211106, China)

        To solve the problem of two-player zero-sum differential games in the pursuit-evasion of aircraft, a novel approach for obtaining the control laws of a system with unknown mathematic model is proposed using data-based integral policy iteration adaptive dynamic programming (ADP). The algorithm uses available datderailmenta of state and input on fixed time interval to build up the data models. By using them, iterations are conducted based on the value function and control strategies to get the proximate optimal strategies of both under the circumstance of a completely unknown planar interception system. Simulation results show that both control strategies are approximate to their optimal solutions infinitely in a limited range and confirm the effectiveness of the proposed method.

        pursuit-evasion; zero-sum differential game; policy iteration; adaptive dynamic programming

        2016-04-11;

        2016-09-05;

        時間:2016-09-22 14:55

        國家自然科學(xué)基金資助(61473147)

        劉念(1991-),女,江蘇鎮(zhèn)江人,碩士研究生,研究方向?yàn)槲⒎謱Σ咴陲w行控制中的應(yīng)用。

        V249.1

        A

        1002-0853(2016)06-0045-04

        猜你喜歡
        微分導(dǎo)彈飛機(jī)
        飛機(jī)失蹤
        擬微分算子在Hp(ω)上的有界性
        導(dǎo)彈燃料知多少
        軍事文摘(2020年14期)2020-12-17 06:27:16
        上下解反向的脈沖微分包含解的存在性
        “拼座飛機(jī)”迎風(fēng)飛揚(yáng)
        正在發(fā)射的岸艦導(dǎo)彈
        兵器知識(2019年1期)2019-01-23 02:20:44
        攔截那枚導(dǎo)彈
        乘坐飛機(jī)
        導(dǎo)彈轉(zhuǎn)運(yùn)
        神奇飛機(jī)變變變
        99re热视频这里只精品| 国产尤物自拍视频在线观看| 蜜桃视频在线免费观看一区二区| 中文字幕日韩精品永久在线| 亚洲精品成人无限看| 四川少妇大战4黑人| 亚洲高清在线不卡中文字幕网| 国产丝袜在线福利观看| 男女无遮挡高清性视频| 无码吃奶揉捏奶头高潮视频| 久久av无码精品一区二区三区| 亚洲高清国产拍精品熟女| 亚洲成人av在线第一页| 朝鲜女人大白屁股ass| 不卡高清av手机在线观看| 国产在线视频网站不卡| 精品日韩一级免费视频| 亚洲精品一区二区| 国产在线无码免费视频2021| 亚洲天堂av在线一区| av天堂午夜精品一区| 一本大道色婷婷在线| 国产精品美女一级在线观看| 丁香婷婷激情俺也去俺来也| 国产黄色av一区二区三区| 国产特级毛片aaaaaaa高清| 男人j进女人p免费视频| 女同另类专区精品女同| 中文字幕人乱码中文字幕| 人妻熟妇乱又伦精品视频app | 欧美日韩国产另类在线观看| 中文字幕午夜精品一区二区三区| 亚洲精品国产精品国自产| 久久AV老司机精品网站导航| 日本一区二区三区的免费视频观看 | 天堂69亚洲精品中文字幕| 午夜一区二区在线视频| 妺妺窝人体色www在线| 毛茸茸的中国女bbw| 韩国三级大全久久网站| 中文字幕女优av在线|