亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強(qiáng)化學(xué)習(xí)-PI 控制的機(jī)電作動(dòng)器控制策略

        2022-08-17 13:20:42張茂盛段杰肖息陳善洛歐陽(yáng)權(quán)王志勝
        應(yīng)用科技 2022年4期
        關(guān)鍵詞:動(dòng)作智能策略

        張茂盛,段杰,肖息,陳善洛,歐陽(yáng)權(quán),王志勝

        1.南京航空航天大學(xué) 自動(dòng)化學(xué)院,江蘇 南京 210016

        2.南京機(jī)電液壓工程研究中心 航空機(jī)電系統(tǒng)綜合航空科技重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 211106

        隨著永磁同步電機(jī)(permanent magnet synchronous motor,PMSM)的發(fā)展,以機(jī)電作動(dòng)器(electromechanical actuator,EMA)為位移輸出的機(jī)電伺服系統(tǒng)逐漸取代了液壓伺服系統(tǒng),成為多電飛機(jī)、運(yùn)載火箭等航空航天器上的關(guān)鍵執(zhí)行部件[1-5]。由于取消了傳統(tǒng)液壓作動(dòng)器內(nèi)部的液壓系統(tǒng),機(jī)電作動(dòng)器具有維護(hù)簡(jiǎn)單、執(zhí)行效率高以及環(huán)境適應(yīng)性強(qiáng)等優(yōu)點(diǎn)[6]。機(jī)電作動(dòng)器系統(tǒng)的主要任務(wù)是接收控制系統(tǒng)的指令信號(hào)并帶動(dòng)舵機(jī)跟隨指令信號(hào)運(yùn)動(dòng),其特點(diǎn)是負(fù)載特性變化大,系統(tǒng)的摩擦、間隙和飽和等非線性特性明顯,且系統(tǒng)難以精確建模[7-8]。

        國(guó)內(nèi)外對(duì)機(jī)電作動(dòng)器的控制問(wèn)題進(jìn)行了有益的研究,比如比例積分微分(proportion-integrationdifferentiation,PID)控制[5]、魯棒控制[8]、自抗擾控制[9]和神經(jīng)網(wǎng)絡(luò)控制[10]等控制算法都實(shí)現(xiàn)了良好的控制效果。其中,PID 控制是一種應(yīng)用廣泛的控制算法,具有較好的魯棒性和可實(shí)現(xiàn)性。由于實(shí)際工程實(shí)踐中微分項(xiàng)的引入會(huì)導(dǎo)致系統(tǒng)穩(wěn)定性降低,因此,機(jī)電作動(dòng)器系統(tǒng)一般采用PI 控制。但是PI 控制的性能依賴于參數(shù)整定,而參數(shù)整定很大程度取決于經(jīng)驗(yàn)調(diào)試。

        本文的主要研究?jī)?nèi)容是構(gòu)建包含摩擦、間隙和飽和等非線性的機(jī)電作動(dòng)器模型,在保留傳統(tǒng)機(jī)電作動(dòng)器PI 控制魯棒性與易實(shí)現(xiàn)性的情況下,通過(guò)強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)來(lái)改造傳統(tǒng)的PI 控制器,以實(shí)現(xiàn)更好的自適應(yīng)性,降低參數(shù)整定的難度。

        強(qiáng)化學(xué)習(xí)是人工智能領(lǐng)域的重要研究方向,它的出現(xiàn)極大推動(dòng)了智能控制的發(fā)展,用強(qiáng)化學(xué)習(xí)方法改造傳統(tǒng)控制方法也成為自動(dòng)控制領(lǐng)域的熱點(diǎn)[11-16]。將深度神經(jīng)網(wǎng)絡(luò)引入到強(qiáng)化學(xué)習(xí),形成了深度強(qiáng)化學(xué)習(xí)算法[17-18]。深度確定性策略梯度算法(deep deterministic policy gradient,DDPG)是一種無(wú)模型深度強(qiáng)化學(xué)習(xí)算法,該算法不依賴于系統(tǒng)的精確建模,而是通過(guò)不斷試錯(cuò)來(lái)學(xué)習(xí)出完成任務(wù)的策略[19-25]。

        由于本文研究的機(jī)電作動(dòng)器是高階、非線性、強(qiáng)耦合的系統(tǒng),若直接利用強(qiáng)化學(xué)習(xí)信號(hào)設(shè)計(jì)機(jī)電作動(dòng)器的控制力矩,很容易導(dǎo)致強(qiáng)化學(xué)習(xí)系統(tǒng)鎮(zhèn)定失敗[16]。因此,為了規(guī)范深度強(qiáng)化學(xué)習(xí)算法的策略范圍,提高智能體策略的可復(fù)現(xiàn)性,增強(qiáng)機(jī)電作動(dòng)器系統(tǒng)的穩(wěn)定性,本文將DDPG 算法與PI控制相結(jié)合,用于解決機(jī)電作動(dòng)器的控制問(wèn)題。

        1 機(jī)電作動(dòng)器模型

        機(jī)電作動(dòng)器是機(jī)電伺服系統(tǒng)的主要執(zhí)行機(jī)構(gòu),由驅(qū)動(dòng)器驅(qū)動(dòng)永磁同步電機(jī),通過(guò)離合器和絲杠軸帶動(dòng)滾珠螺母輸出直線位移,機(jī)電作動(dòng)器的典型負(fù)載為作動(dòng)筒。模型示意如圖1 所示,可分為電機(jī)部分和機(jī)械傳動(dòng)部分[5]。

        圖1 機(jī)電作動(dòng)器模型[6]

        1.1 永磁同步電機(jī)部分

        本文研究的機(jī)電作動(dòng)器中的永磁同步電機(jī)采用表貼式三相永磁同步電機(jī),建立電機(jī)定子的磁鏈方程組:

        式中:ψd和 ψq分別為磁鏈的直軸分量與交軸分量;Ld和Lq分別為定子電感的直軸分量與交軸分量,且滿足Ld=Lq;id和iq分別為電流的直軸分量與交軸分量;ψr為轉(zhuǎn)子磁鏈。在d-q 坐標(biāo)系下,電機(jī)定子電壓方程組與電磁轉(zhuǎn)矩分別為

        式中:Ud和Uq分別為定子電壓的直軸和交軸分量;Rs為電機(jī)定子電阻;ωr=npωm為電機(jī)電氣角速度,其中np為電機(jī)極對(duì)數(shù),ωm為電機(jī)機(jī)械角速度;Te為電機(jī)的電磁轉(zhuǎn)矩。

        1.2 機(jī)械傳動(dòng)部分

        機(jī)電作動(dòng)器的機(jī)械傳動(dòng)部分主要由離合器、絲杠軸和滾珠螺母組成。機(jī)械傳動(dòng)部分的運(yùn)動(dòng)方程與轉(zhuǎn)矩方程分別為

        式中:Te為電機(jī)輸 出電磁轉(zhuǎn)矩;θm為電 機(jī)輸出角度;KL為作動(dòng)部分等效扭轉(zhuǎn)剛度;JL為等效轉(zhuǎn)動(dòng)慣量;fL為阻力等效阻尼系數(shù);θL為絲杠旋轉(zhuǎn)角度;TL為作動(dòng)點(diǎn)等效負(fù)載轉(zhuǎn)矩;xL為作動(dòng)位移,滿足,其中k為滾珠螺母系數(shù)。

        2 深度強(qiáng)化學(xué)習(xí)-PI 控制算法

        考慮到PID 型控制器在工業(yè)控制與科學(xué)研究中的廣泛應(yīng)用,通過(guò)PID 控制與人工智能方法相結(jié)合,形成了PID 控制器的改進(jìn)形式,因此,經(jīng)典PID 控制器的性能可以通過(guò)使用強(qiáng)化學(xué)習(xí)方法來(lái)進(jìn)行改進(jìn)。本文提出一種深度確定性策略梯度-PI(DDPG-PI)控制算法,考慮通過(guò)DDPG 算法來(lái)改進(jìn)PI 控制器在機(jī)電作動(dòng)器系統(tǒng)中的性能,控制系統(tǒng)結(jié)構(gòu)框圖如圖2 所示。

        圖2 機(jī)電作動(dòng)器控制系統(tǒng)結(jié)構(gòu)

        機(jī)電作動(dòng)器的DDPG-PI 控制算法可描述為

        式中:位置誤差信號(hào)e=xref-xL,xref為參考位置,xL為實(shí)際位置;控制器參數(shù) (KP,KI)是由PI 控制器預(yù)調(diào)試得到的初始參數(shù);參數(shù)增量 (ΔKP,ΔKI)由DDPG 算法在線產(chǎn)生。本文通過(guò)使用DDPG 算法訓(xùn)練強(qiáng)化學(xué)習(xí)智能體,智能體將根據(jù)機(jī)電作動(dòng)系統(tǒng)當(dāng)前時(shí)刻的運(yùn)行狀態(tài),由智能體的策略函數(shù)在線產(chǎn)生PI 控制器的增益參數(shù) ΔKP、ΔKI。對(duì)于確定性策略,決策過(guò)程可描述為

        式中:μ(·)為強(qiáng)化學(xué)習(xí)智能體的確定性策略函數(shù),st為機(jī)電作動(dòng)器當(dāng)前時(shí)刻。

        2.1 強(qiáng)化學(xué)習(xí)與馬爾科夫決策過(guò)程

        強(qiáng)化學(xué)習(xí)算法的本質(zhì)是強(qiáng)化學(xué)習(xí)智能體與環(huán)境不斷進(jìn)行回合交互,然后基于馬爾科夫決策過(guò)程(Markov decision process,MDP)找到一個(gè)最優(yōu)策略函數(shù),使得智能體獲得的回報(bào)最大化,通常將強(qiáng)化學(xué)習(xí)轉(zhuǎn)換成MDP 問(wèn)題。機(jī)電作動(dòng)器系統(tǒng)的運(yùn)行狀態(tài)滿足馬爾科夫性質(zhì),考慮將強(qiáng)化學(xué)習(xí)框架定義為馬爾科夫決策過(guò)程,將智能體與環(huán)境交互的過(guò)程定義為強(qiáng)化學(xué)習(xí)過(guò)程[17]。

        圖3 描述了強(qiáng)化學(xué)習(xí)算法的基本流程。在智能體與機(jī)電作動(dòng)器環(huán)境進(jìn)行交互的每一回合中,在t時(shí)刻,智能體從環(huán)境中獲得狀態(tài)觀測(cè)值st,采取動(dòng)作at,強(qiáng)化學(xué)習(xí)智能體的動(dòng)作行為at由策略函數(shù) π(at|st)決 定,π 將狀態(tài)st映射成動(dòng)作空間 A中 相應(yīng)的動(dòng)作at,并獲得標(biāo)量的獎(jiǎng)勵(lì)信號(hào)rt,環(huán)境狀態(tài)更新,進(jìn)入到下一狀態(tài)st+1。該過(guò)程持續(xù)進(jìn)行直到智能體到達(dá)回合的最終狀態(tài),該交互回合結(jié)束。

        圖3 機(jī)電作動(dòng)器的強(qiáng)化學(xué)習(xí)控制流程

        Q 學(xué)習(xí)算法的單步預(yù)測(cè)方法可以由貝爾曼方程描述:

        式中 λ ∈(0,1]和 γ ∈(0,1]分別為學(xué)習(xí)率和折扣因子。

        2.2 深度確定性策略梯度

        機(jī)電作動(dòng)器控制具有連續(xù)的動(dòng)作空間,因此屬于連續(xù)控制問(wèn)題,而Q-learning、DQN 等算法無(wú)法處理連續(xù)控制問(wèn)題。這里我們采用DDPG 算法來(lái)解決連續(xù)控制問(wèn)題。在需要執(zhí)行連續(xù)動(dòng)作的控制問(wèn)題中,采用確定性目標(biāo)策略,智能體的行為由策略函數(shù) μ決 定,μ將狀態(tài)映射成相應(yīng)的動(dòng)作,即μ:S →A。此時(shí),將馬爾科夫決策過(guò)程建模為狀態(tài)空間 S,動(dòng)作空間 A。

        DDPG 算法滿足執(zhí)行者-評(píng)論者(Actor-Critic)結(jié)構(gòu),DDPG 中的執(zhí)行者網(wǎng)絡(luò)即策略網(wǎng)絡(luò),利用策略函數(shù) μ(s)根 據(jù)狀態(tài)st輸出動(dòng)作,評(píng)論者網(wǎng)絡(luò)利用動(dòng)作-狀態(tài)價(jià)值函數(shù)Q(s,a)對(duì)Actor 網(wǎng)絡(luò)輸出的動(dòng)作進(jìn)行價(jià)值評(píng)估。

        DDPG 算法由2 部分組成:1)權(quán)重為 θQ的評(píng)論者網(wǎng)絡(luò)Q(s,a|θQ),用于近似動(dòng)作-狀態(tài)價(jià)值函數(shù);2)權(quán)重為 θμ的執(zhí)行者網(wǎng)絡(luò) μ(s|θμ),用于近似當(dāng)前的策略函數(shù),將狀態(tài)映射為具體動(dòng)作。通過(guò)最小化損失函數(shù)L(θ)來(lái)訓(xùn)練評(píng)論者網(wǎng)絡(luò)的參數(shù):

        式中 τ為權(quán)重系數(shù),且 τ ?1。

        為了提高智能體的探索性,在原有的策略中加入探索噪聲 N,因此,將改進(jìn)后的策略網(wǎng)絡(luò)描述為

        式中噪聲 N滿足奧恩斯坦-烏倫貝克過(guò)程[21]。

        本文中,位移動(dòng)作的誤差以及誤差微分作為強(qiáng)化學(xué)習(xí)智能體的輸入,即st=(e,de/dt),執(zhí)行者輸出連續(xù)動(dòng)作at=(ΔKP,ΔKI)作為PI 控制器的參數(shù)增益。使用策略網(wǎng)絡(luò)來(lái)近似策略函數(shù),使用動(dòng)作-價(jià)值網(wǎng)絡(luò)來(lái)近似動(dòng)作價(jià)值函數(shù)。

        評(píng)論者網(wǎng)絡(luò)接收狀態(tài)st以及執(zhí)行者動(dòng)作at作為輸入,通過(guò)Q網(wǎng)絡(luò)Q(st,at|θQ)輸出Q值標(biāo)量。DDPG算法的獎(jiǎng)勵(lì)函數(shù)rt定義為高斯獎(jiǎng)勵(lì)函數(shù):

        式中 δ為高斯函數(shù)的形狀參數(shù),本文取 δ=0.447。

        3 仿真分析

        3.1 實(shí)例介紹

        本文利用Matlab/Simulink 仿真驗(yàn)證了DDPGPI 控制策略在機(jī)電作作動(dòng)器系統(tǒng)控制上的有效性,機(jī)電作動(dòng)器的參數(shù)見(jiàn)表1。向系統(tǒng)輸入單位階躍信號(hào),通過(guò)預(yù)調(diào)試PI 控制器的參數(shù)使機(jī)電作動(dòng)器達(dá)到穩(wěn)定運(yùn)行狀態(tài)。

        表1 機(jī)電作動(dòng)器仿真參數(shù)

        使用深度強(qiáng)化學(xué)習(xí)DDPG 算法,在預(yù)調(diào)試所得的PI 參數(shù)的基礎(chǔ)上進(jìn)行優(yōu)化,DDPG 算法的超參數(shù)設(shè)置見(jiàn)表2。

        表2 DDPG 算法的超參數(shù)設(shè)置

        3.2 仿真結(jié)果

        將初調(diào)試過(guò)的PI 控制器參數(shù)作為強(qiáng)化學(xué)習(xí)DDPG 智能體輸出參數(shù)的基準(zhǔn)值,在訓(xùn)練環(huán)境中進(jìn)行強(qiáng)化學(xué)習(xí)以得到更好的在線PI 參數(shù)值。強(qiáng)化學(xué)習(xí)的每一次迭代,機(jī)電作動(dòng)器基于DDPG 智能體當(dāng)前的策略產(chǎn)生一條軌跡,并計(jì)算當(dāng)次回報(bào)以及回報(bào)的平均值。

        圖4 展現(xiàn)了強(qiáng)化學(xué)習(xí)過(guò)程中每一訓(xùn)練回合中強(qiáng)化學(xué)習(xí)智能體所得到的回報(bào)的提升過(guò)程。圖中實(shí)線表示每一回合的回報(bào)值,虛線表示前20 回合的平均回報(bào)值。從圖4 中可以看出,當(dāng)訓(xùn)練的回合次數(shù)達(dá)到500 左右時(shí),訓(xùn)練基本達(dá)到穩(wěn)定狀態(tài)。

        圖4 強(qiáng)化學(xué)習(xí)智能體回報(bào)曲線

        圖5 給出了3 種控制算法下的機(jī)電作動(dòng)器單位階躍輸入表示的指令控制下的響應(yīng)曲線。PI 表示經(jīng)典PI 控制下的機(jī)電作動(dòng)器響應(yīng)曲線,F(xiàn)UZZYPI 表示模糊PI 控制下的響應(yīng)曲線,DDPG-PI 表示基于本文所提出的DDPG-PI 控制下的響應(yīng)曲線。

        圖5 機(jī)電作動(dòng)器位移曲線對(duì)比

        通過(guò)機(jī)電作動(dòng)器系統(tǒng)的穩(wěn)態(tài)誤差、調(diào)節(jié)時(shí)間指標(biāo)來(lái)分析3 種算法的控制性能。仿真對(duì)比結(jié)果見(jiàn)表3??梢钥闯?,系統(tǒng)的穩(wěn)態(tài)誤差越小、調(diào)節(jié)時(shí)間越短,則算法的控制性能越好。

        表3 3 種控制方法下的性能指標(biāo)對(duì)比

        從穩(wěn)態(tài)誤差和調(diào)節(jié)時(shí)間2 項(xiàng)指標(biāo)的對(duì)比可以看出,與PI 控制器、模糊PI 控制器相比,DDPGPI 控制器的穩(wěn)態(tài)誤差更小,響應(yīng)速度更快,因此,本文提出算法的有效性和優(yōu)越性得到了驗(yàn)證。

        4 結(jié)論

        1)本文針對(duì)機(jī)電作動(dòng)器控制問(wèn)題提出了一種基于深度強(qiáng)化學(xué)習(xí)-PI 的控制方法,將DDPG 算法用于優(yōu)化PI 控制器的參數(shù),以實(shí)現(xiàn)機(jī)電作動(dòng)器控制器參數(shù)的在線調(diào)節(jié)。

        2)通過(guò)仿真結(jié)果可以看出,與機(jī)電PI 控制、模糊PI 控制相比,本文提出的機(jī)電作動(dòng)器DDPGPI 控制方法的響應(yīng)速度更快,控制精度更高。

        3)本文探索了深度強(qiáng)化學(xué)習(xí)與經(jīng)典控制方法的結(jié)合,形成了機(jī)電作動(dòng)器的DDPG-PI 控制算法,并仿真驗(yàn)證了算法的可行性,該方法將推動(dòng)人工智能算法與的機(jī)電控制的結(jié)合與發(fā)展。

        本課題的未來(lái)研究方向?qū)⒅铝τ诳刂扑惴ǖ膶?shí)物驗(yàn)證,以及其他深度強(qiáng)化學(xué)習(xí)算法在機(jī)電作動(dòng)器上的應(yīng)用等。

        猜你喜歡
        動(dòng)作智能策略
        例談未知角三角函數(shù)值的求解策略
        我說(shuō)你做講策略
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        動(dòng)作描寫(xiě)要具體
        高中數(shù)學(xué)復(fù)習(xí)的具體策略
        畫(huà)動(dòng)作
        動(dòng)作描寫(xiě)不可少
        国产精品午夜爆乳美女视频| 在线观看视频亚洲一区二区三区| 美女扒开内裤让我捅的视频| 欧洲熟妇色| 精品亚洲成a人在线观看青青| 国产丝袜一区二区三区在线不卡| 亚洲麻豆av一区二区| 日本伦理精品一区二区三区| 国产农村乱辈无码| 69av视频在线观看| 好爽要高潮了在线观看| 国产精品国产三级国产av18| 久久久久亚洲av无码麻豆| 手机看片久久国产免费| 国产精品一区区三区六区t区| 中文字幕第一页人妻丝袜| 毛片无码国产| 中文字幕在线免费| 亚洲国产精品美女久久久| 亚洲国产精品一区二区久久恐怖片| 日本怡春院一区二区三区| 中日韩欧美在线观看| 亚洲视频在线中文字幕乱码| 亚洲天堂av三区四区不卡| 性欧美牲交xxxxx视频欧美| 久久精品伊人无码二区| 能看不卡视频网站在线| 亚洲av最新在线网址| 天天爽天天爽天天爽| 99在线国产视频| 日韩精品免费av一区二区三区| 日本天堂免费观看| 粗了大了 整进去好爽视频| 亚洲色无码中文字幕| 久久精品蜜桃亚洲av高清| 亚洲成在人线在线播放无码| 9999精品视频| 91久久国产精品综合| 男女性杂交内射女bbwxz| 国产无套护士在线观看| 无码流畅无码福利午夜|