亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)著陸軌跡跟蹤控制

        2020-02-12 02:22:58宋欣嶼王英勛蔡志浩趙江陳小龍宋棟梁
        航空科學(xué)技術(shù) 2020年1期
        關(guān)鍵詞:固定翼力矩軌跡

        宋欣嶼,王英勛蔡志浩趙江陳小龍,宋棟梁

        1.北京航空航天大學(xué)自動(dòng)化科學(xué)與電氣工程學(xué)院,北京 100191

        2.航空工業(yè)自控所飛行器控制一體化技術(shù)國防科技重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710065

        固定翼無人機(jī)沒有人員傷亡的風(fēng)險(xiǎn),還有著機(jī)動(dòng)性能強(qiáng)、飛行速度快、航程遠(yuǎn)、成本低、重量(質(zhì)量)輕等多種優(yōu)點(diǎn),在很多領(lǐng)域得到了廣泛的應(yīng)用。在民用上,固定翼無人機(jī)可被用于資源探測、森林防火、城市規(guī)劃、大氣監(jiān)測、邊境及海岸線巡邏等領(lǐng)域。在軍用上,可執(zhí)行空中偵察、戰(zhàn)情評(píng)估、電子干擾、對(duì)地攻擊、攔截巡航導(dǎo)彈,甚至空中格斗等多種任務(wù)[1]。隨著科技的發(fā)展,無人機(jī)的自主飛行技術(shù)日益成熟,但自主著陸仍然是一大難點(diǎn)。據(jù)統(tǒng)計(jì),起飛和著陸是無人機(jī)最容易發(fā)生事故的階段,而其中著陸最為嚴(yán)重[2]。在很大程度上,軌跡跟蹤控制如果不夠精確,無人機(jī)的飛行安全、任務(wù)的完成效果都會(huì)受到極大的影響。在飛行安全要求極高的著陸過程中,軌跡跟蹤控制顯得格外重要[3,4]。

        針對(duì)無人機(jī)的軌跡跟蹤控制問題,眾多學(xué)者提出了多種不同的控制方法,如最為經(jīng)典的PID控制方法、魯棒性較好的滑??刂品椒ā⒃诰€辨識(shí)改變控制器參數(shù)的自適應(yīng)控制方法等,這些方法雖然都通過了試驗(yàn)的驗(yàn)證,但都有著各自的不足。PID算法最早被用于實(shí)際應(yīng)用中,也最為經(jīng)典,但它需要人工整定參數(shù),需要經(jīng)過大量的嘗試不斷調(diào)整,十分繁瑣。滑??刂品椒m然響應(yīng)速度很快,魯棒性也較強(qiáng),但它存在抖動(dòng)的問題,需要配合其他方法一起使用。2016年人工智能機(jī)器人AlphaGo 戰(zhàn)勝了圍棋世界冠軍李世石,這場人機(jī)大戰(zhàn)使人工智能走進(jìn)了人們的視野。隨著人工智能的不斷發(fā)展,作為人工智能重要組成部分的強(qiáng)化學(xué)習(xí)算法的研究也日益深入,目前強(qiáng)化學(xué)習(xí)在諸多領(lǐng)域都取得了成功的應(yīng)用,如機(jī)器人控制領(lǐng)域[5,6]、多智能體編隊(duì)控制問題[7,8]等。

        最早將強(qiáng)化學(xué)習(xí)應(yīng)用到無人機(jī)控制領(lǐng)域中的是斯坦福大學(xué)的吳恩達(dá)教授[9],他選擇了Yamaha R-50無人直升機(jī)作為控制對(duì)象。這一直升機(jī)全長約3.6m,負(fù)載可高達(dá)20kg,機(jī)上載有一臺(tái)飛控計(jì)算機(jī)和多種傳感器[10]。吳恩達(dá)根據(jù)卡內(nèi)基梅隆大學(xué)的Bernard Mettler 團(tuán)隊(duì)的方法建立了Yamaha R-50 無人直升機(jī)的12 階模型[11,12],利用強(qiáng)化學(xué)習(xí)中隨機(jī)策略搜索算法的思想對(duì)直升機(jī)進(jìn)行訓(xùn)練,使其可以維持穩(wěn)定的懸停狀態(tài),試驗(yàn)結(jié)果顯示了強(qiáng)化學(xué)習(xí)懸??刂破骶哂泻芎玫目刂菩Ч4撕笏掷脧?qiáng)化學(xué)習(xí)使直升機(jī)能完成其他如原地轉(zhuǎn)彎、倒飛、360°翻轉(zhuǎn)等難度更高的動(dòng)作,均取得了良好的效果。他的學(xué)生Pieter Abbeel 利用強(qiáng)化學(xué)習(xí)中學(xué)徒學(xué)習(xí)的算法,從專業(yè)飛手的任務(wù)演示中獲取訓(xùn)練集進(jìn)行學(xué)習(xí),設(shè)計(jì)出了直升機(jī)的控制器,這一算法極大地提高了直升機(jī)控制的自主性,抗干擾能力也較強(qiáng)。

        強(qiáng)化學(xué)習(xí)方法雖然獲得了一些有效的應(yīng)用,但是大多數(shù)特征狀態(tài)需要人工設(shè)定,在面對(duì)高維數(shù)據(jù)所表示的復(fù)雜環(huán)境時(shí),難以找到合適的特征表達(dá)方法,容易陷入維數(shù)災(zāi)難問題。而深度學(xué)習(xí)網(wǎng)絡(luò)無須人類干預(yù),可以自動(dòng)進(jìn)行特征提取[13]。因而將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合,由強(qiáng)化學(xué)習(xí)定義任務(wù)的模型目標(biāo)及優(yōu)化的方向,深度學(xué)習(xí)給出表征問題以及解決問題的方式,就可以更好地解決高維連續(xù)空間的控制問題。

        針對(duì)固定翼無人機(jī)著陸軌跡跟蹤控制問題,本文基于大量的訓(xùn)練設(shè)計(jì)了深度強(qiáng)化學(xué)習(xí)軌跡跟蹤控制器,仿真試驗(yàn)結(jié)果表明,這一控制方法實(shí)現(xiàn)了對(duì)固定翼無人機(jī)著陸軌跡的一體化跟蹤控制且控制精度優(yōu)于PID控制方法。

        1 固定翼無人機(jī)建模

        本文選取了Ultra Stick 25E無人機(jī)(見圖1)作為參考對(duì)象。這是一架小型商用無線電遙控固定翼無人機(jī),該無人機(jī)具有傳統(tǒng)的水平和垂直尾翼,采用對(duì)稱翼型機(jī)翼,并具有副翼和襟翼操縱面。其所有操縱面均由Hitec 伺服系統(tǒng)驅(qū)動(dòng),推進(jìn)系統(tǒng)由一臺(tái)功率為600W 的E-Flite 電動(dòng)機(jī)和APC 12×6的螺旋槳組成[14]。

        無人機(jī)是一個(gè)十分復(fù)雜的多輸入多輸出的非線性系統(tǒng),若考慮飛行過程中所有的因素會(huì)給建模帶來極大的難度。由于本文的小型固定翼無人機(jī)在大氣層內(nèi)飛行,飛行速度和高度有限,因此可以做出合理地假設(shè)以簡化模型。作用在無人機(jī)上的重力、推力、空氣動(dòng)力和力矩是因?yàn)椴煌脑蚨a(chǎn)生的,合理地選擇坐標(biāo)系分析受力有助于簡化計(jì)算。本文選擇了地面坐標(biāo)系來分析無人機(jī)受到的重力作用,選擇機(jī)體坐標(biāo)系分析無人機(jī)受到的推力和力矩的影響,選擇氣流坐標(biāo)系來描述無人機(jī)受到的空氣動(dòng)力和力矩。

        在分析無人機(jī)所受力與力矩時(shí),主要分為了三個(gè)部分。

        (1)重力

        無人機(jī)受到的重力是一個(gè)慣性矢量,由于假設(shè)質(zhì)量和重力加速度不變,因此大小恒定,由于重力作用于無人機(jī)的質(zhì)心,因此不會(huì)產(chǎn)生力矩。

        (2)推力

        本文所研究的無人機(jī)的推力由電機(jī)驅(qū)動(dòng)螺旋槳轉(zhuǎn)動(dòng)獲得,由于電機(jī)數(shù)據(jù)無法從制造商處獲得,因此利用商業(yè)軟件MotorCalc[15]獲取數(shù)據(jù)對(duì)推進(jìn)系統(tǒng)進(jìn)行建模。選擇具有零空速的靜態(tài)飛行條件,模擬油門輸入從0 逐步增加到1,步長為0.1時(shí),無人機(jī)受到的推力。利用Matlab對(duì)這些數(shù)據(jù)進(jìn)行三次多項(xiàng)式插值處理,獲得無人機(jī)受到的推力T與油門輸入δT的關(guān)系。

        (3)空氣動(dòng)力

        本文研究的無人機(jī)的主要操縱面有升降舵、副翼和方向舵,操縱面主要通過影響空氣動(dòng)力來控制無人機(jī)的飛行狀態(tài)。設(shè)總空氣動(dòng)力沿氣流坐標(biāo)系各軸的分量分別為XA、YA、ZA,總空氣動(dòng)力矩沿機(jī)體坐標(biāo)系各軸的分量分別為、MA、NA。通常用D、L、Y分別表示阻力、升力和側(cè)力,于是有D=XA,L=-ZA,Y=YA。設(shè)ρ為空氣密度(取ρ=1.225kg/m3),V為空速,SW為機(jī)翼參考面積,b為機(jī)翼展長,c為機(jī)翼平均幾何弦長,q為動(dòng)壓分別為滾轉(zhuǎn)、俯仰、偏航角速度,δe、δr、δa分別為升降舵、方向舵、副翼偏轉(zhuǎn)角,則有:

        (1)氣流坐標(biāo)系的下空氣動(dòng)力

        升力:

        阻力:

        側(cè)力:

        (2)機(jī)體坐標(biāo)系下的空氣動(dòng)力矩

        滾轉(zhuǎn)力矩:

        俯仰力矩:

        偏航力矩:

        將這三部分整合到一起,結(jié)合無人機(jī)的運(yùn)動(dòng)學(xué)與動(dòng)力學(xué)方程,即可根據(jù)每一時(shí)刻無人機(jī)的狀態(tài)矢量x=(u,v,w,φ,θ,ψ,p,q,r,xg,yg,h)T和 控 制 輸 入 矢 量u=(δT,δe,δr,δa)T得知任何時(shí)刻無人機(jī)的運(yùn)動(dòng)狀態(tài),仿真模型示意圖如圖2所示。

        圖2 無人機(jī)仿真模型Fig.2 Simulation model of UAV

        2 著陸軌跡跟蹤控制方法

        2.1 無人機(jī)著陸軌跡設(shè)計(jì)

        由于固定翼無人機(jī)一般有著固定的航跡切換點(diǎn),在切換時(shí)對(duì)速度和姿態(tài)也有著一定的要求,所以進(jìn)近段的著陸軌跡無論是形式還是參數(shù)都較為固定,適合離線規(guī)劃[17]。本文在設(shè)計(jì)無人機(jī)的進(jìn)近段著陸軌跡時(shí),主要考慮了如圖3所示的4個(gè)階段,即定高、下滑、拉平及滑跑。

        圖3 著陸過程示意圖Fig.3 Diagram of landing process

        根據(jù)無人機(jī)的有關(guān)參數(shù),本文設(shè)計(jì)的著陸軌跡定高飛行的高度H1為15m,進(jìn)場速度Venter為15m/s,下滑段下滑角γ為5°,拉平段選擇指數(shù)拉平,其中拉平時(shí)間常數(shù)τ為2.6970s。無人機(jī)接地后進(jìn)入滑跑階段,這一階段只需要調(diào)整偏航角使無人機(jī)能對(duì)準(zhǔn)跑道中心即可,不需要進(jìn)行軌跡規(guī)劃,本文不對(duì)這一階段進(jìn)行控制和研究。根據(jù)上述內(nèi)容,為Ultra Stick 25E無人機(jī)設(shè)計(jì)的著陸軌跡如圖4所示。

        圖4 著陸軌跡Fig.4 Landing trajectory

        2.2 PID軌跡跟蹤控制器

        由于本文主要研究縱向著陸的軌跡跟蹤控制,所以假設(shè)固定翼無人機(jī)橫側(cè)向所受的力與力矩始終為0,滾轉(zhuǎn)角、偏航角、滾轉(zhuǎn)角速度、偏航角速度、橫側(cè)向的速度和位移也始終保持0,在設(shè)計(jì)PID 軌跡跟蹤控制器時(shí),也只考慮了縱向。

        軌跡控制(外環(huán))是建立在姿態(tài)控制(內(nèi)環(huán))基礎(chǔ)上的,在控制高度時(shí),首先要對(duì)俯仰角進(jìn)行控制,然后在此基礎(chǔ)上設(shè)計(jì)縱向下降速度的控制器,在最外環(huán)設(shè)計(jì)高度的跟蹤控制器,高度控制原理如圖5 所示。在控制縱程時(shí)也是同理,先設(shè)計(jì)了速度的控制器,在外環(huán)設(shè)計(jì)縱程跟蹤控制器(見圖6)。

        2.3 深度強(qiáng)化學(xué)習(xí)軌跡跟蹤控制方法

        在強(qiáng)化學(xué)習(xí)中,通常將可以通過學(xué)習(xí)來自動(dòng)獲取有價(jià)值的信息的機(jī)器稱作智能體,應(yīng)具備必要的計(jì)算能力。強(qiáng)化學(xué)習(xí)的基本原理如圖7 所示,智能體在完成某一項(xiàng)任務(wù)時(shí),首先要通過產(chǎn)生一個(gè)動(dòng)作at來與環(huán)境進(jìn)行交互,在動(dòng)作at和環(huán)境的共同作用下,智能體會(huì)產(chǎn)生新的狀態(tài)st+1,環(huán)境會(huì)給出一個(gè)同步的回報(bào)rt+1,智能體根據(jù)新的狀態(tài)st+1產(chǎn)生新的動(dòng)作at+1,繼續(xù)與環(huán)境交互。按照這種方式不斷循環(huán)下去,在智能體和環(huán)境不斷交互的過程中(見圖8)會(huì)產(chǎn)生大量的數(shù)據(jù),強(qiáng)化學(xué)習(xí)算法,利用這些數(shù)據(jù)修改自身產(chǎn)生動(dòng)作的策略,再與環(huán)境交互,進(jìn)而產(chǎn)生大量新的數(shù)據(jù),并利用新的數(shù)據(jù)進(jìn)一步學(xué)習(xí)以改善自身的動(dòng)作策略。經(jīng)過多次的迭代和學(xué)習(xí)后,智能體最后就可以學(xué)到能完成期望的任務(wù)所對(duì)應(yīng)的最優(yōu)的動(dòng)作策略。

        圖5 高度控制框圖Fig.5 Block diagram of height control

        圖6 縱程控制框圖Fig.6 Block diagram of longitudinal length control

        圖7 強(qiáng)化學(xué)習(xí)基本框架圖Fig.7 Basic framework of reinforcement learning

        圖8 智能體與環(huán)境的交互過程示意圖Fig.8 Schematic diagram of the interaction process between the agent and the environment

        根據(jù)動(dòng)作輸出連續(xù)還是離散,可以將強(qiáng)化學(xué)習(xí)算法分為值函數(shù)方法和策略梯度方法。采用值函數(shù)近似的方法,需要將輸出的動(dòng)作進(jìn)行離散化,但對(duì)固定翼無人機(jī)輸出的舵偏和油門指令進(jìn)行離散會(huì)產(chǎn)生很大的動(dòng)作空間,很難保證訓(xùn)練結(jié)果一定收斂。一方面會(huì)導(dǎo)致輸出的舵偏和油門指令不夠準(zhǔn)確,另一方面過于離散的控制指令也不符合無人機(jī)的機(jī)械特性。同時(shí),由于強(qiáng)化學(xué)習(xí)具有較強(qiáng)的決策能力,但對(duì)感知問題束手無策,而深度學(xué)習(xí)具有較強(qiáng)的感知能力,但是缺乏一定的決策能力。將深度學(xué)習(xí)的感知能力和強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合,令二者優(yōu)勢(shì)互補(bǔ),可以直接從高維原始數(shù)據(jù)學(xué)習(xí)控制策略。因此針對(duì)固定翼無人機(jī)的著陸軌跡跟蹤控制問題時(shí),本文設(shè)計(jì)了基于深度確定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG[18])的無人機(jī)著陸軌跡跟蹤控制器,既確保了無人機(jī)輸出的控制指令的連續(xù)性,也便于對(duì)高維連續(xù)數(shù)據(jù)的處理。

        DDPG 是一種基于Actor-Critic 框架的算法,可以用于解決連續(xù)動(dòng)作空間上的深度強(qiáng)化學(xué)習(xí)問題,基本框架如圖9所示。單獨(dú)采用Critic網(wǎng)絡(luò)低方差,但基于貪婪策略無法處理連續(xù)的動(dòng)作域,單獨(dú)使用Actor 網(wǎng)絡(luò)通過參數(shù)化可以處理連續(xù)動(dòng)作域,但方差很高。Actor-Critic 結(jié)合兩者優(yōu)點(diǎn),使用參數(shù)化的Actor 來根據(jù)當(dāng)前狀態(tài)產(chǎn)生動(dòng)作,并能處理連續(xù)動(dòng)作域,使用Critic 的低方差的值函數(shù)來評(píng)估Actor產(chǎn)生的動(dòng)作,產(chǎn)生一個(gè)更好的梯度估計(jì)值,改善局部優(yōu)化的問題。

        圖9 DDPG原理框圖Fig.9 Block diagram of DDPG algorithm

        DDPG 算 法 中 共 有 4 種 網(wǎng) 絡(luò) :(1)當(dāng) 前 Actor 網(wǎng) 絡(luò)μ(s;θμ);(2)當(dāng)前 Critic 網(wǎng)絡(luò)Q(s,a;θQ);(3)目標(biāo) Actor 網(wǎng)絡(luò)μ(s;θμ');(4)目標(biāo) Critic 網(wǎng)絡(luò)Q(s,a;θQ')。其中,Actor 網(wǎng)絡(luò)以狀態(tài)為輸入,動(dòng)作為輸出;Critic 網(wǎng)絡(luò)以狀態(tài)和動(dòng)作為輸入,Q值為輸出。在訓(xùn)練完一組最小批量的數(shù)據(jù)之后,更新當(dāng)前網(wǎng)絡(luò)的參數(shù),然后再通過軟更新算法更新目標(biāo)網(wǎng)絡(luò)的參數(shù)。目標(biāo)網(wǎng)絡(luò)參數(shù)變化小,算法更為穩(wěn)定,訓(xùn)練易于收斂。

        對(duì)無人機(jī)著陸軌跡跟蹤控制器進(jìn)行訓(xùn)練的過程如圖10所示,主要分為以下幾個(gè)步驟:(1)初始化Actor和Critic當(dāng)前網(wǎng)絡(luò)的參數(shù):θμ和θQ;(2)將當(dāng)前網(wǎng)絡(luò)的參數(shù)拷給對(duì)應(yīng)的目標(biāo)網(wǎng)絡(luò):θμ'←θμ,θQ'←θQ;(3)初始化經(jīng)驗(yàn)緩存。

        圖10 訓(xùn)練過程原理圖Fig.10 Schematic diagram of the training process

        對(duì)于每個(gè)回合:

        (1)初始化Uhlenbeck-Ornstein(UO)隨機(jī)過程;

        (2)獲得無人機(jī)初始狀態(tài)s1;

        (3)重復(fù)以下過程直至到達(dá)最大步長:

        (a)Actor 網(wǎng)絡(luò)根據(jù)當(dāng)前策略選擇一個(gè)動(dòng)作μ(st),引入U(xiǎn)O 隨機(jī)過程產(chǎn)生的噪聲Nt,下達(dá)指令at=μ(st|θμ)+Nt給無人機(jī)模型;

        (b)無人機(jī)執(zhí)行這一指令,返回獎(jiǎng)勵(lì)rt和新的狀態(tài)st+1;

        (c)將狀態(tài)轉(zhuǎn)移信息(st,at,rt,st+1)存入經(jīng)驗(yàn)緩存,作為訓(xùn)練當(dāng)前網(wǎng)絡(luò)的數(shù)據(jù)集;

        (d)從經(jīng)驗(yàn)緩存中,隨機(jī)采樣N個(gè)數(shù)據(jù),作為當(dāng)前Actor網(wǎng)絡(luò)和當(dāng)前Critic網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù),用(si,ai,ri,si+1)表示單個(gè)狀態(tài)轉(zhuǎn)移數(shù)據(jù);

        (e)通過最小化Critic網(wǎng)絡(luò)的損失函數(shù)

        更新目標(biāo)Critic網(wǎng)絡(luò)(采用Adam優(yōu)化器更新θQ)。

        (f)根據(jù)Actor網(wǎng)絡(luò)的策略梯度

        更新當(dāng)前Actor網(wǎng)絡(luò)(采用Adam優(yōu)化器更新θμ)。

        (g)更新目標(biāo)網(wǎng)絡(luò)

        式中:0 <τ< 1。

        在訓(xùn)練無人機(jī)的著陸軌跡跟蹤控制器時(shí),本文采用的狀態(tài)為s=[u,w,θ,q,Xg,h]。由于無人機(jī)在著陸階段主要控制的是高度的變化,橫向速度基本恒定,因此油門仍由PID控制器控制,而升降舵舵偏作為訓(xùn)練的動(dòng)作,即a=[δe]。利用訓(xùn)練好的智能體控制無人機(jī)進(jìn)行著陸軌跡跟蹤的示意圖如圖11所示。

        圖11 深度強(qiáng)化學(xué)習(xí)控制器原理框圖Fig.11 Block diagram of controller based on DRL

        3 仿真試驗(yàn)與分析

        3.1 PID軌跡跟蹤控制

        將設(shè)計(jì)的著陸軌跡中高度和縱程隨時(shí)間的變化數(shù)據(jù),作為無人機(jī)的高度指令輸入,初始條件為φ=0,θ=0,ψ=0,u= 15m/s,v= 0,w= 0,p= 0,q= 0,r= 0,xg= 0,yg= 0,h=15m,軌跡跟蹤仿真結(jié)果如圖12所示。

        在利用PID 控制器跟蹤著陸軌跡的過程中,高度的最大誤差為0.4361m。可見所設(shè)計(jì)的PID 軌跡跟蹤控制器在控制過程中各狀態(tài)量較為平穩(wěn),且能夠以較小的誤差對(duì)預(yù)先設(shè)計(jì)好的著陸軌跡進(jìn)行跟蹤,效果良好。

        3.2 深度強(qiáng)化學(xué)習(xí)軌跡跟蹤控制

        在訓(xùn)練時(shí),首先初始化網(wǎng)絡(luò)參數(shù)和經(jīng)驗(yàn)緩存,令無人機(jī)的初始狀態(tài)為s0=(15,0,0,0,0,15),也就是在離地15m 的空中以15m/s 的速度平飛。然后對(duì)Actor 網(wǎng)絡(luò)選擇動(dòng)作添加一個(gè)方差為5的隨機(jī)噪聲,方差隨訓(xùn)練次數(shù)增多逐漸減少。將產(chǎn)生的動(dòng)作輸入無人機(jī)模型,返回新的狀態(tài)和回報(bào)。這里的回報(bào)函數(shù)設(shè)置為:

        圖12 PID軌跡跟蹤仿真結(jié)果Fig.12 Results of trajectory tracking simulation using PID

        將數(shù)據(jù)存入經(jīng)驗(yàn)緩存中,從經(jīng)驗(yàn)緩存隨機(jī)采樣一組數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)的訓(xùn)練,訓(xùn)練時(shí)狀態(tài)和動(dòng)作都進(jìn)行了歸一化處理,并在縱程達(dá)到閾值或達(dá)到最大步長MAX_EP_STEPD時(shí)停止這一回合,計(jì)算當(dāng)前回合的總的代價(jià)。重復(fù)上述過程,直到達(dá)到設(shè)置的最大訓(xùn)練回合數(shù)MAX_EPISODES。以下為訓(xùn)練20000個(gè)回合中回報(bào)函數(shù)最大的網(wǎng)絡(luò)控制無人機(jī)著陸軌跡的仿真結(jié)果,圖13為在DDPG軌跡跟蹤控制器控制下的無人機(jī)著陸軌跡跟蹤結(jié)果。

        可以觀察到利用DDPG算法訓(xùn)練出的智能體可以控制無人機(jī)對(duì)預(yù)先設(shè)計(jì)好的著陸軌跡進(jìn)行跟蹤,在控制過程中各狀態(tài)量較為平穩(wěn),高度控制的最大誤差為0.2491m。

        3.3 仿真結(jié)果分析

        與傳統(tǒng)PID 控制器高度誤差最大達(dá)0.4361m 相比,DDPG 控制方法最大高度誤差僅0.2491m,控制精度優(yōu)于PID 控制方法。但由于DDPG 的Actor 網(wǎng)絡(luò)輸出與前一刻的動(dòng)作無關(guān),所以輸出的動(dòng)作連續(xù)性較差,導(dǎo)致中間的狀態(tài)量波動(dòng)較大。與PID 控制器的效果對(duì)比如圖14 所示。

        圖13 DDPG軌跡跟蹤仿真結(jié)果Fig.13 Results of trajectory tracking simulation based on DDPG

        圖14 DDPG與PID控制結(jié)果對(duì)比Fig.14 Comparison diagram of DDPG and PID control

        仿真試驗(yàn)結(jié)果表明,本文設(shè)計(jì)的基于深度強(qiáng)化學(xué)習(xí)方法的無人機(jī)著陸軌跡跟蹤控制器不僅免去了手動(dòng)調(diào)整參數(shù)的繁瑣過程,而且在控制精度上要優(yōu)于傳統(tǒng)PID控制方法,具有研究價(jià)值。

        4 結(jié)論

        針對(duì)固定翼無人機(jī)著陸軌跡跟蹤控制問題,本文對(duì)Ultra Stick 25E 小型固定翼無人機(jī)進(jìn)行了適當(dāng)?shù)暮喕c運(yùn)動(dòng)假設(shè),對(duì)該型無人機(jī)在不同坐標(biāo)系下進(jìn)行受力與力矩分析,結(jié)合無人機(jī)的運(yùn)動(dòng)學(xué)與動(dòng)力學(xué)方程,搭建了該無人機(jī)的仿真模型。同時(shí),根據(jù)所建模型的特性,為其離線設(shè)計(jì)了可以保證其安全著陸的著陸軌跡。本文采用深度強(qiáng)化學(xué)習(xí)的思想,設(shè)計(jì)了合理的獎(jiǎng)勵(lì)函數(shù)和控制方式,通過大量的訓(xùn)練得到了深度強(qiáng)化學(xué)習(xí)軌跡跟蹤控制器,實(shí)現(xiàn)了對(duì)固定翼無人機(jī)著陸軌跡的一體化跟蹤控制。為了檢測其控制效果,本文同時(shí)利用PID控制方法實(shí)現(xiàn)了對(duì)固定翼無人機(jī)著陸軌跡的跟蹤控制。仿真試驗(yàn)結(jié)果表明,深度強(qiáng)化學(xué)習(xí)著陸軌跡跟蹤控制方法具有比傳統(tǒng)PID軌跡跟蹤控制方法更高的精度。

        猜你喜歡
        固定翼力矩軌跡
        垂直起降固定翼無人機(jī)串聯(lián)混電系統(tǒng)優(yōu)化設(shè)計(jì)
        軌跡
        軌跡
        一種新型固定翼無人機(jī)的研制
        電子制作(2019年7期)2019-04-25 13:18:24
        軌跡
        進(jìn)化的軌跡(一)——進(jìn)化,無盡的適應(yīng)
        中國三峽(2017年2期)2017-06-09 08:15:29
        “V”系列固定翼無人機(jī)
        航空模型(2016年10期)2017-05-09 06:25:59
        發(fā)動(dòng)機(jī)阻力矩計(jì)算和起動(dòng)機(jī)介紹
        山東青年(2016年12期)2017-03-02 18:22:48
        小型力矩電機(jī)波動(dòng)力矩的測量
        彈性負(fù)載力矩下舵偏轉(zhuǎn)角度的測量方法
        猫咪免费人成网站在线观看| 偷拍一区二区盗摄视频| 免费不卡无码av在线观看| 国产精品久久久久久久免费看| 国产AV无码专区亚洲AV桃花庵| 女同久久精品国产99国产精| 成年人观看视频在线播放| 少妇丰满大乳被男人揉捏视频| 99视频全部免费精品全部四虎| 国产人妖一区二区av| 亚洲乱码中文字幕在线| 九九久久精品无码专区| 精品一精品国产一级毛片| 91亚洲夫妻视频网站| 国产成人无码一区二区三区| 日韩亚洲av无码一区二区不卡| 亚洲精品国产老熟女久久| 亚洲肥婆一区二区三区| 亚洲精品动漫免费二区| 国产亚洲日韩欧美一区二区三区| 99精品国产成人一区二区在线| 中文字幕在线看精品乱码| 天堂а√在线最新版中文在线| 久久精品免费一区二区喷潮| 亚洲一区二区三区在线更新| 女优av一区二区三区| 国产亚洲人成a在线v网站| 国产精品伦人视频免费看| 香港三级日本三韩级人妇久久| 国产99在线 | 亚洲| 四虎精品影视| 亚洲av中文字字幕乱码软件| 国产日产亚洲系列最新| 人妻无码人妻有码中文字幕| 99久久无色码中文字幕鲁信| 熟妇人妻无乱码中文字幕av| 自慰无码一区二区三区| 爆乳午夜福利视频精品| 中文字幕一区在线直播| 中文字幕久久精品一二三区| 日韩熟妇精品视频一区二区|