亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度Q網(wǎng)絡的飛行器增益調參技術研究

        2022-11-03 03:46:26白文艷張家銘黃萬偉
        航天控制 2022年5期
        關鍵詞:動作

        白文艷 張家銘 黃萬偉 張 遠,2

        1.北京航天自動控制研究所,北京 100854 2.宇航智能控制技術國家級重點實驗室,北京 100854

        0 引言

        高超聲速飛行器(Hypersonic Vehicle)一般是指飛行馬赫數(shù)大于5的飛行器。由于其飛行高度和馬赫數(shù)跨度大、飛行環(huán)境復雜,氣動和氣熱特性變化劇烈,使得飛行器存在非線性強和不確定性大的特點[1-2]。傳統(tǒng)控制參數(shù)設計如增益預置法,是在選定特征點處對飛行器非線性模型進行小擾動線性化,隨后根據(jù)調度變量進行插值,是一種成熟的控制方法,易于工程實現(xiàn),方法簡單,但是該方法需要大量的增益調節(jié),還要滿足變量慢變的假設,在非線性特性變化劇烈時性能較差。后來在增益預置法的基礎上,發(fā)展了線性變參數(shù)(LPV)方法,該方法降低了調參工作量,并可保證較好的穩(wěn)定性,具有工程實現(xiàn)性良好,設計相對簡單的優(yōu)點[3-6]。但是,隨著飛行包線范圍擴大,系統(tǒng)時變參數(shù)范圍隨之擴大,導致控制性能受到嚴重影響,難以滿足動態(tài)特性變化下的姿態(tài)控制。針對上述問題,研究在復雜環(huán)境下高超聲速飛行器的姿態(tài)控制參數(shù)自適應調節(jié)至關重要。

        智能控制尤其是以強化學習、神經(jīng)網(wǎng)絡為主的控制方法是目前研究的熱點之一。在航空航天控制領域,智能控制已逐漸成為未來發(fā)展方向[7-8]。強化學習(Reinforcement Learning)的特點是是智能體(Agent)與環(huán)境狀態(tài)交互,通過不斷試錯的方式學習得到最優(yōu)策略,使累計回報期望最大,這一過程稱為馬爾科夫決策過程(Markov Decision Process,MDP)[9]。國內(nèi)外諸多學者研究應用強化學習于飛行器控制系統(tǒng)。文獻[10]使用了強化學習算法設計了運載火箭姿態(tài)控制器參數(shù);文獻[11]針對再入飛行器姿態(tài)控制問題,應用單網(wǎng)絡積分型強化學習(SNIRL)算法設計了姿態(tài)控制器。

        本文提出采用基于深度 Q 網(wǎng)絡(Deep Q network, DQN)的強化學習算法實現(xiàn)飛行器動靜態(tài)增益自適應調節(jié)。利用強化學習與環(huán)境交互的優(yōu)點,充分利用飛行狀態(tài)等實時信息,在選定的特征點處,自動對控制增益調參,尋優(yōu)效率更高。

        1 問題描述

        本文所研究對象為高超聲速滑翔飛行器[12],采用乘波體造型,尾舵采用正常式氣動布局,頜下進氣采取超燃沖壓發(fā)動機。俯仰通道控制輸入為升降舵偏δφ,輸出為短周期模態(tài)下的攻角和俯仰角速率,其縱向運動模型為:

        (1)

        其中,V為飛行器的速度,θ為航跡角,ωz為俯仰角速率,α為攻角,H為飛行高度,x為飛行距離,m為飛行器的質量,g為重力加速度,Jz為飛行器繞彈體系z軸的轉動慣量,T為發(fā)動機推力;L、D分別為飛行器所受升力和阻力,Mz為俯仰力矩,且有:

        (2)

        式中,CL、CD、Cm分別為升力系數(shù)、阻力系數(shù)和俯仰力矩系數(shù),均為攻角、側滑角、馬赫數(shù)及俯仰舵偏的函數(shù)組合;ρ為該垂直高度下的大氣密度,S為飛行器的橫截面積,bA為飛行器平均氣動弦長,S和bA可以認為是常數(shù)。

        對高超聲速飛行器縱向模型進行小擾動線性化后得到:

        (3)

        式中,a1、a2、α3、b1、b2均為動力學系數(shù)。

        此時俯仰、偏航、滾轉三通道之間的耦合作用影響較小,可以忽略,并考慮攻角作為輸出量,不考慮各通道間的交連項,選取縱向短周期狀態(tài)空間模型如下:

        (4)

        圖1所示為俯仰通道姿態(tài)控制系統(tǒng)結構框圖:

        圖1 俯仰通道姿態(tài)控制結構

        其中,Wφ為校正網(wǎng)絡傳遞函數(shù),Wsf為空氣舵伺服動態(tài)特性,kα和kω分別為攻角反饋系數(shù)和角速度反饋系數(shù)。

        簡化后俯仰通道控制方程為:

        δφ=kαΔα+kωΔωz1

        (5)

        傳統(tǒng)增益設計為人工離線調參,工程師依據(jù)經(jīng)驗在選定的彈道特征點處進行線性化并設計動靜態(tài)增益,選取合適的調度變量形成插值表,缺點是線性化使模型產(chǎn)生誤差,插值表也會造成特征點間的狀態(tài)誤差,且人工調試費時費力。

        本文采取離散動作輸出的強化學習算法——深度Q網(wǎng)絡將飛行器作為智能體,與環(huán)境反饋并根據(jù)實時回報的機制調節(jié)增益。

        2 基于深度 Q 網(wǎng)絡算法的增益調參方法

        2.1 深度 Q 網(wǎng)絡算法原理

        深度 Q 網(wǎng)絡算法(Deep Q Network, DQN)是Q學習的升級,也是基于值函數(shù)的強化學習算法的典型代表,主要應用于無模型的離散動作控制的場景[13]。

        首先介紹經(jīng)典的Q學習算法,Q表是一張二維的表格,可以比較某個狀態(tài)下不同動作的價值,用Q值表示,通過訓練迭代更新,智能體選擇最大的Q值代表最優(yōu)策略。

        Q表使用貝爾曼方程并采用兩個輸入:狀態(tài)和動作,即可得到表中單元格的Q值:

        Qπ(s,a)=E[rt+1+γrt+2+γ2rt+3+…|
        st=s,at=a]

        (6)

        隨后,進行 Q值更新:

        Q(st,at)=(1-αQ)Q(st,at)+
        αQ[rt+1+γmaxQ(st+1,at+1)]

        (7)

        其中,αQ為學習率,決定目標函數(shù)在合適的時間收斂到局部最小值;γ為折扣率,介于0~1之間,越接近1代表智能體更看重未來獎勵;r為回報函數(shù),即為執(zhí)行動作后給予的獎勵;Q(st,at)為當前時刻Q值,Q(st+1,at+1)為下一時刻Q值。

        Q學習通過Q表的大小和形式?jīng)Q定了其只能應用于離散輸出的場景,而且狀態(tài)和動作空間不能過大,否則Q表面臨數(shù)據(jù)量過大的問題。

        DQN將 Q學習中 Q表更新的過程用神經(jīng)網(wǎng)絡擬合,解決了Q表維數(shù)限制。狀態(tài)和動作作為神經(jīng)網(wǎng)絡的輸入,Q值作為輸出,通過神經(jīng)網(wǎng)絡計算當前狀態(tài)和未來狀態(tài)的Q值,不僅學習當前狀態(tài)下的經(jīng)驗,也學習到了歷史經(jīng)驗。即用一個函數(shù)Q(s,a,w)來表示Q(s,a),即用深度神經(jīng)網(wǎng)絡進行擬合,其中w為函數(shù)的參數(shù)。

        Q(s,a)=Q(s,a,w)

        (8)

        DQN中存在2個結構完全相同但是參數(shù)卻不同的網(wǎng)絡:Q估計網(wǎng)絡和Q目標網(wǎng)絡, Q估計網(wǎng)絡使用的是最新的參數(shù),而Q目標網(wǎng)絡參數(shù)使用的卻是很久之前的,Q(s,a,k)表示當前網(wǎng)絡的輸出,用來評估當前狀態(tài)動作對的值函數(shù);Q(s,a,k-1)表示目標網(wǎng)絡的輸出,因此當agent對環(huán)境采取動作a時,可以根據(jù)上述公式計算出Q,并根據(jù)LossFunction更新當前網(wǎng)絡參數(shù),每經(jīng)過一定次數(shù)的迭代,就將當前網(wǎng)絡的參數(shù)復制給目標網(wǎng)絡。這樣就完成了一次學習過程。

        表1 給出了DQN算法的偽代碼

        2.2 馬爾科夫決策模型設計

        一個完整的馬爾科夫決策過程包含(S,A,P,r,γ),S為狀態(tài)集合,A為動作集合,P為狀態(tài)轉移概率,r為回報函數(shù),γ為折扣因子。

        2.2.1 環(huán)境狀態(tài)

        環(huán)境狀態(tài)S主要選取飛行狀態(tài)量如高度、馬赫、動壓,攻角偏差量,俯仰角速度偏差量等信息,為了充分利用可觀測的先驗歷史信息,提出多拍歷史信息量作輸入,更能體現(xiàn)出一段時間飛行器姿態(tài)控制的變化情況,從而映射到控制器參數(shù)的變化情況。選擇控制周期為步長的5倍,即連續(xù)5拍的信息量作為環(huán)境狀態(tài)集合∶

        (9)

        則環(huán)境狀態(tài)空間為40維。

        2.2.2 動作選擇

        姿態(tài)控制器的待調節(jié)參數(shù)向量為kp和kd2個調節(jié)參數(shù)。DQN算法為離散動作輸出的形式,以一定的調整變化值增減這2個參數(shù),調整步長為0.1。

        2.2.3 回報函數(shù)-

        強化學習通過試錯來探索最優(yōu)策略,獲取最大獎勵。

        回報函數(shù)體現(xiàn)了智能體在訓練過程中所選策略的效果,針對飛行器姿控系統(tǒng),設計回報函數(shù)與狀態(tài)偏差、控制量有關。

        (10)

        其中,x=[ΔαΔωz1],u=δφ,Q為對稱半正定矩陣,R為對稱正定矩陣。

        xTQx表征系統(tǒng)的控制效果,uTRu表征系統(tǒng)在控制過程中消耗的控制能量。

        2.3 控制器設計

        如圖2所示,將2.2設計的馬爾科夫模型加入到俯仰通道控制器中,根據(jù)DQN算法設計得到增益調參控制器。

        圖2 DQN境益調參流程圖

        綜上,具體設計步驟如下∶

        1)建立帶有預設多種復雜非線性因素的飛行器姿態(tài)控制模型與姿態(tài)控制器結構;

        選取N個平衡點。設飛行器姿態(tài)控制系統(tǒng)仿真試驗運行時間為T。

        2)針對每一次飛行器姿態(tài)控制仿真實驗結果,設計交互學習的馬爾科夫模型。

        環(huán)境狀態(tài)S"選取連續(xù)5拍狀態(tài)數(shù)據(jù)及變化率,更好地體現(xiàn)一段時間內(nèi)姿態(tài)控制參數(shù)隨環(huán)境狀態(tài)信息變化的情況。

        姿態(tài)控制器共2個待調節(jié)參數(shù),以0.1的步長調整2個參數(shù)的增減。

        回報函數(shù)設置狀態(tài)偏差為主要影響項,主要影響攻角偏差和俯仰角速率偏差。

        3)根據(jù)每一次飛行器姿態(tài)控制仿真實驗結果對應的交互學習環(huán)境狀態(tài)、參數(shù)調整動作、回報函數(shù)以及歷史學習經(jīng)驗 Q值更新學習經(jīng)驗 Q值;

        學習經(jīng)驗Q值記為Q(s,a,k),為環(huán)境狀態(tài)s、參數(shù)調整行動a、第k次的飛行器姿態(tài)控制仿真實驗時對應的學習經(jīng)驗Q值;在第k次的飛行器姿態(tài)控制仿真試驗結束時,已知第k-1次仿真試驗下所采取的參數(shù)調整動作為a(k-1),所對應的環(huán)境狀態(tài)為s(k-1),學習經(jīng)驗Q值為Q(s,a,k-1);根據(jù)步驟2,獲得第k次環(huán)境狀態(tài)s(k)與第k次學習獎勵r(k);更新學習經(jīng)驗Q值∶

        Q(s,a,k)=(1-αQ)Q(s,a,k-1)+
        αQ[r(k)+γmaxQ(st+1,at+1,k-1)]

        (11)

        4)利用每一次飛行器仿真實驗后更新的學習經(jīng)驗 Q值,選擇相應參數(shù)調節(jié)動作a,并獲得優(yōu)先行動集合∶

        Ωa(k)={argmaxQ(s,a,k)}

        (12)

        argmax(f(x))是使得f(x)取得最大值所對應的變量點x(或x的集合),即得到最大Q值所對應的參數(shù)調節(jié)下的控制增益。

        5)根據(jù)步驟4)選擇的參數(shù)調節(jié)動作,執(zhí)行飛行器姿態(tài)控制仿真實驗;若實驗結果達成結束條件,則輸出控制器參數(shù),否則,跳轉至步驟3,更新學習經(jīng)驗Q值。

        3 訓練及仿真結果分析

        根據(jù)第2章內(nèi)容進行智能體的訓練,采取3隱層的BP神經(jīng)網(wǎng)絡,激活函數(shù)為Relu,其他具體訓練參數(shù)配置如表2所示。

        表2 訓練參數(shù)配置

        式(10)的累積回報經(jīng)過1000次訓練迭代,回報函數(shù)值逐漸增大。隨著訓練的進行,控制增益逐漸收斂;圖3為隨著神經(jīng)網(wǎng)絡的更新,訓練集的擬合誤差??梢钥闯稣`差范圍收斂在0.04左右;圖4所示第k次更新神經(jīng)網(wǎng)絡的訓練誤差值,具有線性遞減趨勢,表示隨著神經(jīng)網(wǎng)絡的更新訓練誤差逐漸減小。

        取回報函數(shù)值最大的一組控制增益,將其注入俯仰通道姿態(tài)控制系統(tǒng),進行仿真驗證,得到攻角及俯仰角速率的時域和頻域特性曲線,其中式(4)中氣動參數(shù)a1=0.5709,a2=-0.9638,α3=0.062,b1=0.9552,b2=9.0689

        圖3 訓練集擬合誤差

        圖4 第k次更新訓練誤差

        圖5 攻角響應曲線

        圖6 俯仰角速率響應曲線

        圖5~6為采用強化學習訓練的模型攻角及俯仰角速率的響應變化曲線、bode圖??梢钥闯鰰r域頻域效果良好,經(jīng)過強化學習訓練后的增益使控制器在5s左右快速而平穩(wěn)達到期望值,符合指標要求。

        4 結論

        采用深度Q網(wǎng)絡的強化學習方法應用于飛行器俯仰通道姿態(tài)控制回路中,根據(jù)每一次飛行器姿態(tài)控制仿真實驗結果對應的交互學習環(huán)境狀態(tài)、參數(shù)調整動作、學習獎勵以及歷史學習經(jīng)驗Q值,更新學習經(jīng)驗Q值,選擇參數(shù)調節(jié)動作,實現(xiàn)飛行器姿態(tài)控制增益自動調節(jié)。針對傳統(tǒng)增益調度的缺點,強化學習算法能夠有效減小人工經(jīng)驗調參產(chǎn)生的偏差,獲得了良好的穩(wěn)態(tài)和動態(tài)性能,具有一定的工程意義。

        猜你喜歡
        動作
        動作不可少(下)
        動作不能少(上)
        巧借動作寫友愛
        下一個動作
        動作描寫要具體
        畫動作
        讓動作“活”起來
        動作描寫不可少
        非同一般的吃飯動作
        神奇的手
        亚洲av色图一区二区三区| 日本a在线播放| 亚洲天堂免费一二三四区| av网站免费在线浏览| 久久久久亚洲av无码专区喷水| 少妇寂寞难耐被黑人中出| 国产午夜视频免费观看| 97久久综合精品国产丝袜长腿| 国产大屁股喷水视频在线观看| 少妇无码一区二区三区免费| 久久综合亚洲色社区| av网站韩日在线观看免费| 中文有码亚洲制服av片| 男女爽爽无遮挡午夜视频| 免费一本色道久久一区| 亚洲女同人妻在线播放| 色综合久久网| 中文字幕一区二区人妻| 91精品国产综合久久青草| 国产亚洲精品在线播放| 久久久久久欧美精品se一二三四 | 国产黄a三级三级三级av在线看 | 精品熟妇av一区二区三区四区| 日韩一区二区三区久久精品| 国产又a又黄又潮娇喘视频| 婷婷九月丁香| av网站韩日在线观看免费| 亚洲av无码专区国产不卡顿| 欧美国产日本高清不卡| 亚洲亚洲亚洲亚洲亚洲天堂| 国产精品国产三级久久| 一区二区三区国产| 国产亚洲AV无码一区二区二三区 | 中文字幕肉感巨大的乳专区| 成人激情四射网| 97久久国产精品成人观看| 夜夜夜夜曰天天天天拍国产| 亚洲av色先锋资源电影网站| 日本一区二区视频免费观看| 国产肥熟女免费一区二区| 精品人妻少妇一区二区三区不卡|