亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于強化學(xué)習(xí)自適應(yīng)PID 的無人直升機控制

        2023-05-05 10:54:50孫靜海馮航
        電子制作 2023年6期
        關(guān)鍵詞:模型

        孫靜海,馮航

        (中國直升機設(shè)計研究所,江西景德鎮(zhèn),333001)

        0 引言

        隨著通信、材料、微電子技術(shù)的發(fā)展,無人機在實用價值上大大提升,不僅可以在軍事任務(wù)中出色地完成偵查或者攻擊的任務(wù),在民用市場中也可以擔(dān)負起諸如航拍或者無人機物流方面的任務(wù)。而無人機的控制問題在實現(xiàn)直升機無人化的過程中起著至關(guān)重要的作用,因此眾多學(xué)者對直升機的控制問題做了大量研究并取得了不錯的成果[1-3]。比較成熟的控制算法有PID 控制,魯棒控制,Bang-Bang 控制等,也有許多新型的控制算法包括反步法,滑模結(jié)構(gòu)控制法[4],H∞控制法[5]神經(jīng)網(wǎng)絡(luò)自適應(yīng)控制法等一系列的控制方法,其都有各自的優(yōu)點和不足,但就應(yīng)用的廣泛性來說,因PID控制其簡單可靠,并且經(jīng)過了漫長的理論體系的完善,并在實際的應(yīng)用中積累了大量的運用實例與經(jīng)驗可以參考,所以傳統(tǒng)的PID 控制仍能滿足大多數(shù)的控制需求,但也存在一定的不足,比如不能平衡系統(tǒng)的穩(wěn)態(tài)性能和快速性,針對無人直升機這種多變量,欠驅(qū)動,非線性,強耦合參數(shù)變化或外部干擾時,可能需要重新人工整定參數(shù)才能保證系統(tǒng)的穩(wěn)定性,因此許多自整定方法被提出,有模糊自適應(yīng)PID,但這種方法存在參數(shù)優(yōu)化問題并需要許多先驗知識,有神經(jīng)網(wǎng)絡(luò)自適應(yīng)PID,但此種算法獲取監(jiān)督學(xué)習(xí)中的教師信號比較困難,有進化算法自適應(yīng)PID,但此種算法在實際工程中很難實時控制。

        因此本文提出了一種基于強化學(xué)習(xí)思想的自適應(yīng)控制,解決PID 算法在無人直升機控制上不能自整定的問題,且該算法不需要先驗知識,能對控制器參數(shù)實現(xiàn)在線優(yōu)化。

        1 無人直升機物理模型建立

        無人直升機物理模型的建立是直升機控制實現(xiàn)中所必不可少的基礎(chǔ)一步,只有一個合理的簡單地但包含所有信息的模型,才可以更真實地模擬無人機的運動過程,從而知道影響無人機運動狀態(tài)的改變需要哪些狀態(tài)的輸入。飛機的姿態(tài)角以及速度,飛行的坐標等,都與坐標系的設(shè)計密不可分,在分析無人機的動力學(xué)系統(tǒng)時我們需要用到機體坐標系和地面坐標系以及兩個坐標系之間的轉(zhuǎn)換,并在建模時忽略地球公轉(zhuǎn)和自轉(zhuǎn)對直升機的影響,且把直升機看作剛體,忽略飛機的質(zhì)量變化把直升機看作左右對稱的,采用小擾動線性化方法可得出直升機線性化方程如式(1)所示:

        2 強化學(xué)習(xí)

        強化學(xué)習(xí)[6]是機器學(xué)習(xí)另一重要分支,該算法是通過訓(xùn)練讓智能體,學(xué)習(xí)如何在環(huán)境中動作來得到最大的環(huán)境獎勵。用一句話來說就是解決智能體的決策問題。其原理如圖1 所示,即強化學(xué)習(xí)算法通過不斷訓(xùn)練可根據(jù)直升機所處的環(huán)境進行決策選擇不同的動作。

        圖1 強化學(xué)習(xí)原理圖

        本文用到的Actor-Critic 則是強化學(xué)習(xí)的一種,其中Actor 部分可通過策略梯度估計方法實現(xiàn),Critic 部分則采用TD 算法實現(xiàn),對于狀態(tài)s 執(zhí)行器根據(jù)策略選擇動作a,動作執(zhí)行后轉(zhuǎn)移到下一狀態(tài)s+1,并產(chǎn)生回報信號r,狀態(tài)和回報作為Critic 的輸入,輸出值函數(shù),并且產(chǎn)生一個TD誤差,TD 誤差信號用于神經(jīng)網(wǎng)絡(luò)更新學(xué)習(xí),不斷重復(fù)。

        3 離散化PID

        計算機是采樣控制,因此需要把PID 離散化以一系列的采樣時刻點kT代表連續(xù)時間t,以矩陣法數(shù)值積分近似代替積分,以一階后向差分近似代替微分,即:

        從而可以得到離散PID 表達式為:

        進而可得:

        4 控制器設(shè)計

        基于強化學(xué)習(xí)的自適應(yīng)PID 控制原理如圖2 所示根據(jù),將輸入信號與出入信號的差值e(t),經(jīng)過狀態(tài)轉(zhuǎn)換器轉(zhuǎn)換成神經(jīng)網(wǎng)絡(luò)需要的信號用于神經(jīng)網(wǎng)絡(luò)的輸入,經(jīng)神經(jīng)網(wǎng)絡(luò)隱含層輸出狀態(tài)轉(zhuǎn)換器將式寫成向量形式如式(6)所示:

        圖2 AC-PID 控制原理圖

        Actor-Critic 算法用到的RBF 網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示,對于PID 參數(shù)的取值好壞通常用偏差的相關(guān)函數(shù)來衡量,因此選用偏差作為第一層輸入,即向量x(t),激活函 Φj(t)數(shù)選用高斯核函數(shù)如式(7)所示。

        圖3 RBF 神經(jīng)網(wǎng)絡(luò)模型

        其中wjk為隱含層與輸出節(jié)點的權(quán)值。其中Actor 部分輸出的PID 控制參數(shù)kk需經(jīng)參數(shù)修正,即K=k+kη,式中kη是一個期望為零方差為的正態(tài)分布函數(shù)。Critic 部分用TD 算法學(xué)習(xí)Actor-Critic 的誤差δTD與值函數(shù)和回報函數(shù)有關(guān),回報函數(shù)r(t)如式(10)所示:

        式中ai,i=1,2為ri(t)的學(xué)習(xí)率,ri(t)的定義為:

        其中ε為誤差帶容許值,在本文中取ε=0.01。

        本文中取γ=0.9,式中參數(shù)更新,首先定義系統(tǒng)學(xué)習(xí)性能為內(nèi)部回報TD 誤差δTD的函數(shù)如式(14)所示。

        利用梯度下降進行權(quán)值更新即:

        式中a3為學(xué)習(xí)率是一個常數(shù)可對其進行調(diào)節(jié):

        把上式代入式(15)得:

        隱含層節(jié)點中心和寬度更新公式如下:

        5 仿真驗證

        本部分將以直升機模型為仿真對象,對直升機的俯仰角進行控制,其中各個參數(shù)分別設(shè)置如下。a1=0.8,a2=0.15,a3=18,a4=35,a5=0.02,a6=0.015,γ=0.9,ε=0.01設(shè) 定目標函數(shù)方波函數(shù)和正弦函數(shù),其跟蹤結(jié)果如圖4 和圖6所示,圖5 和圖7 分別為方波跟蹤誤差和正弦跟蹤誤差。

        圖4 方波函數(shù)跟蹤曲線

        圖5 角度跟蹤誤差

        圖6 正弦跟蹤曲線

        圖7 角度跟蹤誤差

        從圖中可以看出本文所設(shè)計的算法可以很好地跟蹤目標曲線,為了進一步驗證本文所提出的AC-PID 算法的優(yōu)劣,將本文算法同初始設(shè)定參數(shù)的PID 算法,模糊自適應(yīng)算法[7],和神經(jīng)網(wǎng)絡(luò)自適應(yīng)算法[8]作對比,將目標角度設(shè)定為6 度,仿真結(jié)果如圖8 所示,從圖中可以看出未進行參數(shù)整定的PID 控制器存在明顯的超調(diào),雖上升時間相對較短但超調(diào)嚴重,其余三種自適應(yīng)算法控制效果相近,為比較其優(yōu)劣本文選用了幾個指標進行對比結(jié)果如表1 所示。

        圖8 俯仰角跟蹤曲線對比圖

        表1 控制效果分析表

        從表1 可以看出本文所設(shè)計的算法相比于其他兩種算法具有上升時間快調(diào)整時間短的優(yōu)勢,但也存在穩(wěn)態(tài)誤差相對較大的缺點,同時由于直升機的強耦合作用,在滾轉(zhuǎn)角設(shè)定為0 時,直升機的橫滾角會有一定的變化量,如圖9 所示,從對滾轉(zhuǎn)角的控制效果可以看出本文所提出算法具有一定優(yōu)勢。

        圖9 滾轉(zhuǎn)角跟蹤曲線對比圖

        6 結(jié)論

        針對無人直升機多變量,欠驅(qū)動,強耦合和參數(shù)變化或外部干擾時傳統(tǒng)PID 不能在線調(diào)節(jié)參數(shù)的問題,本文提出了一種基于強化學(xué)習(xí)的自適應(yīng)PID 控制算法,該算法不需要先驗知識,能對控制器參數(shù)在線優(yōu),通過對比仿真可以看到本文的算法具有不錯的控制效果,具有上升時間快、調(diào)整時間短的優(yōu)勢,但也存在一定的不足,比如訓(xùn)練時間長,有時控制效果不理想的缺點,有待進一步優(yōu)化,此外根據(jù)強化學(xué)習(xí)的原理可知,該算法在有足夠數(shù)據(jù)支持和算力的情況下,可以擺脫模型直接應(yīng)用于直升機控制器設(shè)計,即以誤差為輸入通過訓(xùn)練,Actor 網(wǎng)絡(luò)直接輸出當(dāng)前姿態(tài)對應(yīng)的控制角度,具有不錯的應(yīng)用前景。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機模型
        提煉模型 突破難點
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        3D打印中的模型分割與打包
        国产精品久久久久9999小说| av免费在线播放一区二区| 亚洲熟女少妇精品综合| 国产午夜福利在线观看红一片| 亚洲国产综合人成综合网站 | 国产免费观看久久黄av麻豆| 久久久亚洲av成人网站| 亚洲av成本人无码网站| 日本精品久久性大片日本| 放荡成熟人妻中文字幕| …日韩人妻无码精品一专区| 欧美视频二区欧美影视| 免费人成视频网站在线| 亚洲伊人av天堂有码在线| 啦啦啦www在线观看免费视频| 有码精品一二区在线| 特级毛片a级毛片在线播放www| AV中文码一区二区三区| 日韩精品视频免费在线观看网站| 人妻尝试又大又粗久久| 国产精品露脸视频观看| 午夜人妻中文字幕福利| 美女午夜福利视频网址| 国产精品无码午夜福利| 精品国产福利久久久| 极品精品视频在线观看| 色欲人妻aaaaaaa无码| 国产白嫩美女在线观看| 国产美女三级视频网站| 国产亚洲精品品视频在线| a级毛片免费观看在线| 亚洲欧美日韩一区二区在线观看| 国产不卡在线播放一区二区三区| 免费人成在线观看网站| 91精品一区国产高清在线gif| 被驯服人妻中文字幕日本 | 亚洲自拍偷拍色图综合| 国产熟妇按摩3p高潮大叫| 日韩欧美国产亚洲中文| 国产大屁股熟女流白浆一区二区| 国产欧美一区二区精品久久久|