亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)棲落機(jī)動控制策略設(shè)計

        2023-01-03 10:34:36仇靖雯
        導(dǎo)航定位與授時 2022年6期
        關(guān)鍵詞:固定翼機(jī)動軌跡

        黃 贊,何 真,仇靖雯

        (南京航空航天大學(xué)自動化學(xué)院, 南京 211106)

        0 引言

        降落是固定翼無人機(jī)飛行性能的關(guān)鍵階段,固定翼飛行器的降落通常需要一定的滑跑距離,才能保證安全著陸。鳥類的降落方式有著飛行器無法達(dá)到的優(yōu)勢。文獻(xiàn)[1]觀察到鴿子可以從空中直接降落到棲木上,降落過程中翅膀和身體存在40°~90°之間的較大俯仰角。研究者借鑒鳥類的降落方式,提出了無人機(jī)棲落機(jī)動的概念。無人機(jī)在棲落機(jī)動過程中,通過大迎角過失速的機(jī)動,產(chǎn)生很大的空氣阻力,實(shí)現(xiàn)快速減速,并最終以較低的速度準(zhǔn)確降落在預(yù)定落點(diǎn)[2]。棲落機(jī)動飛行的過程不再需要滑行跑道,能夠拓寬固定翼無人機(jī)的應(yīng)用場合。

        文獻(xiàn)[3-4]研究了無人機(jī)棲落機(jī)動的空氣動力學(xué)模型,文獻(xiàn)[5]研究了無人機(jī)棲落機(jī)動過程的軌跡優(yōu)化,并設(shè)計了變體無人機(jī)用于改善棲落機(jī)動的性能。文獻(xiàn)[6]研究了基于擾動觀測器的無人機(jī)棲落機(jī)動控制方法,并建立了由高度非線性的縱向動力學(xué)轉(zhuǎn)化而成的分段線性模型。目前,棲落機(jī)動控制方面的研究思路大多是給定參考軌跡,基于近似線性化的模型設(shè)計軌跡跟蹤控制器[7-8]。這類方法有一個共同的特點(diǎn),即所設(shè)計的控制器依賴于參考軌跡,只在參考軌跡附近有效。而棲落機(jī)動中的無人機(jī)是一個高度非線性快時變的系統(tǒng),同時棲落機(jī)動需要滿足許多約束(尤其是落點(diǎn)處的位置和速度約束),這使得不同條件下的參考軌跡偏差很大,且不容易計算獲得。針對這個問題,本文研究了一種無需給定參考軌跡的棲落機(jī)動控制策略設(shè)計方法。

        強(qiáng)化學(xué)習(xí)通過與環(huán)境之間的交互,更新控制策略。一些專家學(xué)者提出了基于強(qiáng)化學(xué)習(xí)的飛行控制方法,可以根據(jù)當(dāng)前的飛行狀態(tài)直接得到控制量,具有良好的適應(yīng)性。文獻(xiàn)[9]針對無人機(jī)自主飛行到熱上升氣流的問題,設(shè)計了基于強(qiáng)化學(xué)習(xí)的飛行器導(dǎo)航控制器。文獻(xiàn)[10]利用強(qiáng)化學(xué)習(xí)訓(xùn)練無人機(jī)在野外自主導(dǎo)航到熱上升氣流,學(xué)習(xí)并驗(yàn)證了局部垂直風(fēng)加速度和滾轉(zhuǎn)力矩對于導(dǎo)航的重要性。文獻(xiàn)[11]將深度強(qiáng)化學(xué)習(xí)應(yīng)用到無人機(jī)自動特技飛行領(lǐng)域,能夠顯著地縮短學(xué)習(xí)時間。但在現(xiàn)實(shí)環(huán)境中,希望無人機(jī)從學(xué)習(xí)開始就具有良好的在線性能,如果先利用良好的歷史數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,將會增加深度強(qiáng)化學(xué)習(xí)在真實(shí)環(huán)境中的應(yīng)用場景。文獻(xiàn)[12]利用專家數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,加快深度Q學(xué)習(xí)的學(xué)習(xí)過程。文獻(xiàn)[13]基于演示數(shù)據(jù)中的深層確定性策略梯度算法,解決了機(jī)器人將柔性對象插入剛性對象的搬運(yùn)問題。在學(xué)習(xí)的前期階段,加入少量的專家演示數(shù)據(jù)可以幫助智能體的探索和學(xué)習(xí)。

        針對具有高非線性、多約束特性的無人機(jī)棲落機(jī)動過程,本文基于深度強(qiáng)化學(xué)習(xí),提出了一種無需給定參考軌跡的棲落機(jī)動控制策略設(shè)計方法。本文第一章介紹了固定翼無人機(jī)棲落機(jī)動的縱向動力學(xué)建模;第二章設(shè)計了固定翼無人機(jī)棲落機(jī)動的強(qiáng)化學(xué)習(xí)模型;第三章設(shè)計了能從專家經(jīng)驗(yàn)數(shù)據(jù)中學(xué)習(xí)的基于深度強(qiáng)化學(xué)習(xí)中近端策略優(yōu)化(Proximal Policy Optimization,PPO)的棲落機(jī)動控制策略設(shè)計方法;第四章進(jìn)行了仿真實(shí)驗(yàn),驗(yàn)證了本文設(shè)計方法的有效性;第五章總結(jié)了本文的工作。

        1 無人機(jī)棲落機(jī)動動力學(xué)建模

        本文研究的對象為固定翼無人機(jī),為了簡化研究模型,僅針對固定翼無人機(jī)棲落機(jī)動的縱向動力學(xué)建模,假設(shè)橫向運(yùn)動對縱向運(yùn)動方程無影響,方程如下[5]

        (1)

        式中,V為固定翼無人機(jī)的飛行速度;μ為航跡傾斜角;α為迎角;q為俯仰角速度;x為無人機(jī)的水平位置;h為垂直高度;m為無人機(jī)的質(zhì)量;T為發(fā)動機(jī)推力;M為空氣動力矩;Iy為俯仰轉(zhuǎn)動慣量;L和D分別為無人機(jī)所受的升力和阻力。

        固定翼無人機(jī)縱向運(yùn)動的空氣動力方程如下

        (2)

        式中,ρ為空氣密度;S為固定翼無人機(jī)的空氣動力面積;CL、CD和CM分別為升力、阻力和力矩系數(shù),其中CL和CD可由平板模型方法[14-15]得到與α之間的表達(dá)式

        (3)

        假設(shè)固定翼無人機(jī)裝有全動水平尾翼,能夠幫助無人機(jī)在低速飛行的狀態(tài)下獲得較大的控制力矩,則空氣動力矩系數(shù)的表達(dá)式為

        1.4sinαsin2(α+δe)+0.1sinα)

        (4)

        式中,Se為升降舵的表面積;le為升降舵空氣動力重心到無人機(jī)質(zhì)心的距離;δe為升降舵偏轉(zhuǎn)角。

        2 棲落機(jī)動的強(qiáng)化學(xué)習(xí)模型

        2.1 基本模型與價值函數(shù)

        本文采用標(biāo)準(zhǔn)馬爾可夫決策過程(Markov Decision Process,MDP)形式對無人機(jī)的棲落機(jī)動控制過程進(jìn)行闡述。MDP由狀態(tài)S、動作A、收益R、概率分布P以及折扣因子γ構(gòu)成。

        在每一個時間步t,無人機(jī)與環(huán)境進(jìn)行交互,返回一個觀測值st∈S,觀測值包括無人機(jī)的速度V、航跡傾斜角μ、迎角α、俯仰角速率q、水平位移x以及縱向位移h,在這個觀測值的基礎(chǔ)上選擇并執(zhí)行動作at∈A,動作包括推力T以及升降舵偏轉(zhuǎn)角δe。下一時刻,作為執(zhí)行動作的結(jié)果,獲得一個數(shù)值化的收益rt+1∈R(獎勵函數(shù)的設(shè)計將在2.2節(jié)中給出),根據(jù)當(dāng)前無人機(jī)的狀態(tài)和所執(zhí)行的動作結(jié)合概率分布P(st+1|st,at),確定下一時刻無人機(jī)的狀態(tài)st+1。每一幕軌跡在無人機(jī)抵達(dá)目標(biāo)點(diǎn)并成功棲落或達(dá)到時間上限值時終止。

        在基于策略的強(qiáng)化學(xué)習(xí)方法中,無人機(jī)在每個狀態(tài)下所采取的動作都遵循策略π,優(yōu)化的目標(biāo)是在策略π下的收益累加和

        (5)

        式中,τ={(s0,a0,r1),(s1,a1,r2)…}是無人機(jī)在策略π下的運(yùn)動軌跡。

        采取帶參數(shù)θ的神經(jīng)網(wǎng)絡(luò)近似描述策略π,記為π(a|s,θ)。

        本文采用策略梯度法學(xué)習(xí)策略參數(shù)θ,其目標(biāo)是最大化目標(biāo)函數(shù)J(θ)

        J(θ)=Et[logπ(at|st,θ)At]

        (6)

        式中,At為優(yōu)勢函數(shù),是動作價值函數(shù)Q(s,a)和價值函數(shù)V(s)的差值

        At=Q(st,at)-V(st)

        (7)

        策略參數(shù)θ的更新近似于J(θ)的梯度上升

        (8)

        2.2 獎勵函數(shù)塑造

        在強(qiáng)化學(xué)習(xí)中,根據(jù)控制任務(wù)設(shè)計適當(dāng)?shù)莫剟詈瘮?shù)非常重要。獎勵函數(shù)選取是否恰當(dāng),對學(xué)習(xí)過程的收斂性以及可行性有著重大影響,它的選取與任務(wù)的目標(biāo)、控制對象所受的約束條件,以及所希望達(dá)到的性能指標(biāo)密切相關(guān)。根據(jù)無人機(jī)無跑道降落的需求,要求棲落機(jī)動的無人機(jī)在規(guī)定的時間內(nèi)到達(dá)預(yù)設(shè)棲落點(diǎn)完成棲落機(jī)動,并希望終點(diǎn)時刻的速度、俯仰角以及與目標(biāo)值的誤差越小越好。因此,無人機(jī)棲落機(jī)動強(qiáng)化學(xué)習(xí)算法的獎勵函數(shù)如下所示:

        (9)

        式中,xf為終點(diǎn)位置;xmax為允許的最大水平位移。無人機(jī)棲落機(jī)動的最終目的是降落到預(yù)設(shè)地點(diǎn),算法鼓勵無人機(jī)越接近預(yù)設(shè)棲落點(diǎn)越好。

        (10)

        式中,vf為終點(diǎn)速度;vmax為過程中允許的最大速度。無人機(jī)棲落機(jī)動在終點(diǎn)時刻時,速度越小越好,算法鼓勵無人機(jī)接近預(yù)設(shè)降落速度。

        (11)

        即無人機(jī)離終點(diǎn)位置的距離和終點(diǎn)時刻的速度變小,算法鼓勵無人機(jī)朝著棲落點(diǎn)接近。

        (12)

        ≤σx&&|ht-hf|≤σh

        (13)

        式中,σv、σx和σh分別是終點(diǎn)速度、終點(diǎn)位置和終點(diǎn)高度的允許誤差;hf為終點(diǎn)高度;符號&&表示邏輯運(yùn)算符與。

        (14)

        (15)

        3 棲落機(jī)動的控制策略優(yōu)化算法

        3.1 模仿強(qiáng)化學(xué)習(xí)框架

        本文利用模仿強(qiáng)化學(xué)習(xí)(Imitation Reinforcement Learning,IRL)對無人機(jī)的棲落機(jī)動進(jìn)行軌跡優(yōu)化。該學(xué)習(xí)通過從人類專家的演示數(shù)據(jù)中學(xué)習(xí),并促進(jìn)深度強(qiáng)化學(xué)習(xí)。對無人機(jī)棲落機(jī)動的軌跡優(yōu)化設(shè)計分為兩個階段,一個是模仿學(xué)習(xí)階段,另一個是使用PPO算法的強(qiáng)化學(xué)習(xí)階段。整體架構(gòu)如圖1所示。

        圖1 從模仿中進(jìn)行強(qiáng)化學(xué)習(xí)的框架圖Fig.1 Architecture of reinforcement learning from demonstration

        IRL基于PPO算法學(xué)習(xí)實(shí)現(xiàn),但傳統(tǒng)的PPO算法會在大的動作空間中進(jìn)行過多的失敗探索,往往會陷入局部最優(yōu)。IRL則通過為行動器網(wǎng)絡(luò)的動作空間搜索提供更好的探索方向,以解決陷入局部最優(yōu)的問題[16]。

        3.2 模仿學(xué)習(xí)

        在第一階段,本文使用模仿學(xué)習(xí)的方法對網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,并在訓(xùn)練結(jié)束后,將學(xué)習(xí)到的神經(jīng)網(wǎng)絡(luò)權(quán)重共享到下一階段的行動器網(wǎng)絡(luò)中。該階段首先使用廣義偽譜GPOPS(General Pseudospectral Optimization Software)工具包生成學(xué)習(xí)所需的軌跡,得到N個參考軌跡序列τ。利用生成的軌跡通過模仿學(xué)習(xí)來訓(xùn)練策略網(wǎng)絡(luò),以模仿專家數(shù)據(jù)。策略π的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。策略網(wǎng)絡(luò)中的輸入為無人機(jī)棲落機(jī)動的狀態(tài)量,即飛行時的速度、航跡傾斜角、迎角、俯仰角速率、水平位移以及縱向位移,輸出為升降舵偏轉(zhuǎn)角的變化量。

        通過模仿學(xué)習(xí)訓(xùn)練無人機(jī)棲落機(jī)動飛行策略時,需要大量的演示數(shù)據(jù),但過多相似的數(shù)據(jù)反而會影響訓(xùn)練的效率。參考優(yōu)先經(jīng)驗(yàn)回放,對訓(xùn)練的輸入樣本進(jìn)行非均勻抽樣,這樣既能讓收斂更快,也能讓收斂時的平均回報更高。先對所有的樣本根據(jù)重要度降序排列,每個樣本抽取的概率為

        pj∝1/rank(j)

        (16)

        其中,rank(j)為樣本的序號。

        由于演示的數(shù)據(jù)必然只會覆蓋狀態(tài)空間的一部分,也沒有采取所有可能的動作,因此有很多狀態(tài)動作從未被采取過,所以對模仿學(xué)習(xí)時的損失函數(shù)增加了一個監(jiān)督損失

        (17)

        式中,ae為演示數(shù)據(jù)中所采取的動作,當(dāng)a=ae時,l(ae,a)=0,否則為正。增加的監(jiān)督損失能夠誘導(dǎo)無人機(jī)智能體的行為靠近演示數(shù)據(jù)。

        3.3 策略梯度優(yōu)化

        在第二階段,本文使用PPO算法訓(xùn)練策略網(wǎng)絡(luò),以提高無人機(jī)棲落機(jī)動策略的泛化能力。該策略通過與仿真環(huán)境的互動獲得收益,并使用反饋回來的獎勵函數(shù)優(yōu)化策略網(wǎng)絡(luò)。在從第一階段得到的策略網(wǎng)絡(luò)的基礎(chǔ)上學(xué)習(xí),能夠提高該階段的強(qiáng)化學(xué)習(xí)樣本利用率以及學(xué)習(xí)效率,從而獲得更加通用的策略。由于無人機(jī)棲落飛行系統(tǒng)需要連續(xù)的預(yù)測動作,因此采用行動器-評判器的框架更新策略。用帶參數(shù)ω的神經(jīng)網(wǎng)絡(luò)近似價值函數(shù),記為V(s,ω)。則策略參數(shù)和價值函數(shù)參數(shù)的更新公式如下

        (18)

        (19)

        式中,δt為t時刻的回報和以價值函數(shù)作為基準(zhǔn)線的差值

        δt=rt+1+γV(st+1,ω)-V(st,ω)

        (20)

        采用PPO算法優(yōu)化此策略網(wǎng)絡(luò),可以實(shí)現(xiàn)多次的小批量更新,并且能夠更好地應(yīng)對復(fù)雜的環(huán)境情況。將經(jīng)過模仿學(xué)習(xí)預(yù)先訓(xùn)練好的θI加載到θ中,代替隨機(jī)初始化策略網(wǎng)絡(luò)參數(shù),有助于減少PPO在早期階段探索所耗費(fèi)的時間。

        為了更好地利用更新策略時所得到的軌跡數(shù)據(jù),可以使用重要性采樣構(gòu)建目標(biāo)函數(shù)[17]

        (21)

        式中,θold是更新之前的策略參數(shù)。

        為了防止前后更新的策略差異較大,PPO算法通過使用超參數(shù)裁剪目標(biāo)函數(shù)的形式來解決這類問題。

        Jclip(θ)=E[min(pt(θ)At,clip(pt(θ),

        1-ε,1+ε)At)]

        (22)

        At=δt+γλδt+1+…+(γλ)T-t+1δT-1

        (23)

        式中,λ為廣義優(yōu)勢估計的平滑系數(shù)。

        4 仿真結(jié)果與分析

        4.1 仿真實(shí)驗(yàn)參數(shù)

        為驗(yàn)證提出的軌跡規(guī)劃算法的有效性,本節(jié)進(jìn)行了仿真實(shí)驗(yàn)研究。仿真中所采用的無人機(jī)動力學(xué)方程如式(1),氣動參數(shù)如式(2)~式(4),無人機(jī)的物理參數(shù)如表1所示。初始時間為t0=0s,離散化采樣時間為Δt=0.01s,棲落機(jī)動軌跡優(yōu)化最大完成時間為tf=2s。

        表1 無人機(jī)的各項(xiàng)物理參數(shù)

        在仿真過程中,無人機(jī)的理想初始狀態(tài)為s0=[10,0,0.2544,0,0,0],初始控制量a0=[3.7698,-0.15]。為了檢驗(yàn)算法在初始狀態(tài)不確定的情況下的軌跡優(yōu)化效果,設(shè)定初始情況下的水平位置與理想狀態(tài)的偏差范圍在0.5m以內(nèi)。無人機(jī)在棲落機(jī)動飛行過程中以及終點(diǎn)位置的約束參數(shù)如表2所示,并且希望終點(diǎn)的速度、俯仰角、水平以及縱向位移的偏差越小越好。IRL算法的超參數(shù)設(shè)置如表3所示。

        表2 狀態(tài)以及控制量約束參數(shù)

        表3 算法超參數(shù)

        4.2 基于IRL的仿真實(shí)驗(yàn)

        IRL在訓(xùn)練無人機(jī)過程中的獎勵變化曲線如圖3所示。其中,藍(lán)色曲線為沒有經(jīng)過模仿學(xué)習(xí),直接用策略梯度優(yōu)化算法的獎勵變化曲線;紅色曲線為經(jīng)過模仿學(xué)習(xí)再用策略梯度優(yōu)化(即IRL)的獎勵變化曲線;黃色曲線則為不包含迎角獎勵模塊的IRL獎勵變化曲線。

        圖3 訓(xùn)練時的獎勵曲線Fig.3 Reward curves during training

        由圖3可知, RL的方法需要在早期對狀態(tài)動作空間進(jìn)行大量的探索,而IRL則利用專家演示數(shù)據(jù)對神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,并與行動器網(wǎng)絡(luò)共享網(wǎng)絡(luò)權(quán)重,大大加快了學(xué)習(xí)的進(jìn)程,并且IRL在訓(xùn)練到8萬幕時,平均的獎勵函數(shù)值就已達(dá)到了預(yù)期的目標(biāo)。在IRL方法的獎勵函數(shù)中加入迎角獎勵模塊,則能夠進(jìn)一步加快早期學(xué)習(xí)的過程,并能夠減少無人機(jī)在中期對不確定狀態(tài)的試探。

        在采用IRL對無人機(jī)的棲落飛行訓(xùn)練完后,進(jìn)行仿真測試,測試集為1000幕。在訓(xùn)練達(dá)到14萬幕時,仿真測試成功率達(dá)到可接受的范圍。在訓(xùn)練幕數(shù)達(dá)到20萬幕時,仿真測試的成功率能夠達(dá)到97.5%。圖4給出了100幕不同初始條件下成功和失敗案例的降落點(diǎn)分布圖。圖5則分別給出了不同初始條件下無人機(jī)在棲落機(jī)動飛行過程中的不同狀態(tài)量變化曲線,且無人機(jī)棲落機(jī)動飛行過程中的狀態(tài)量滿足設(shè)定的過程約束和終點(diǎn)約束。

        圖4 降落點(diǎn)分布圖Fig.4 The distribution of landing

        (a)水平位置變化曲線

        5 結(jié)論

        1)基于IRL的控制策略設(shè)計方法,只在模仿學(xué)習(xí)階段需要專家經(jīng)驗(yàn)軌跡(可以離線生成),在強(qiáng)化學(xué)習(xí)階段和在線運(yùn)行中都不需要參考軌跡。利用該方法得到的控制器不依賴于參考軌跡,可以根據(jù)當(dāng)前的飛行狀態(tài)直接得到控制量,具有良好的適應(yīng)性。

        2)棲落機(jī)動軌跡規(guī)劃的仿真結(jié)果表明,采用IRL設(shè)計的控制器不僅能夠?qū)崿F(xiàn)無人機(jī)的棲落機(jī)動,同時經(jīng)過離線學(xué)習(xí)后,能夠根據(jù)不同的狀態(tài)實(shí)時在線調(diào)整軌跡,保證軌跡滿足預(yù)先給定的要求。

        本文針對固定翼無人機(jī)棲落運(yùn)動的非線性問題,在深度強(qiáng)化學(xué)習(xí)的基礎(chǔ)上考慮了模仿控制策略。后續(xù)工作中,將會考慮根據(jù)自身?xiàng)l件做出決策的無人機(jī)個體性的學(xué)習(xí)方案。今后也將進(jìn)一步研究在各種外部風(fēng)擾動情況下無人機(jī)的棲落機(jī)動飛行,以增強(qiáng)面對各種復(fù)雜環(huán)境的適應(yīng)能力。

        猜你喜歡
        固定翼機(jī)動軌跡
        垂直起降固定翼無人機(jī)串聯(lián)混電系統(tǒng)優(yōu)化設(shè)計
        裝載機(jī)動臂的疲勞壽命計算
        軌跡
        軌跡
        12萬畝機(jī)動地不再“流浪”
        一種新型固定翼無人機(jī)的研制
        電子制作(2019年7期)2019-04-25 13:18:24
        機(jī)動三輪車的昨天、今天和明天
        軌跡
        進(jìn)化的軌跡(一)——進(jìn)化,無盡的適應(yīng)
        中國三峽(2017年2期)2017-06-09 08:15:29
        “V”系列固定翼無人機(jī)
        航空模型(2016年10期)2017-05-09 06:25:59
        蜜桃国产精品视频网站| 日本成熟妇人高潮aⅴ| 后入少妇免费在线观看| 一区二区三区国产精品乱码| 国产青榴视频在线观看| 最新69国产成人精品视频免费| 99精品一区二区三区无码吞精| 色综合一本| 青青草视频在线你懂的| 久久红精品一区二区三区| 国产又色又爽又刺激在线播放| 91免费在线| 国产一级黄色性生活片| 国产精选自拍视频网站| 一区二区三区在线 | 欧| 日本无吗一区二区视频| 国产婷婷色一区二区三区深爱网 | 国产精品毛片一区二区三区| 国产av久久久久精东av| 国产精品成年片在线观看| 国产精品日日摸夜夜添夜夜添| 女优av性天堂网男人天堂| 亚洲av成人片在线观看| 先锋影音av资源我色资源| 国产精品一区二区av白丝在线| 99久久国内精品成人免费| 欧美一区二区三区视频在线观看| 麻豆国产成人精品午夜视频| 一区二区三区熟妇人妻18| 婷婷久久国产综合精品| 精品麻豆国产色欲色欲色欲www | 影音先锋每日av色资源站| 精品久久久久久电影院| 日韩精品免费视频久久| 日日天干夜夜狠狠爱| 日韩久久一级毛片| 丝袜美腿诱惑一二三区| 精品无码av一区二区三区不卡| 理论片午午伦夜理片影院| 国产亚洲无码1024| 亚洲美女自拍偷拍视频|