亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于ADP的一類未知非線性系統(tǒng)事件觸發(fā)輸出反饋?zhàn)顑?yōu)控制

        2023-04-07 03:16:04潘忠成李昶志
        關(guān)鍵詞:系統(tǒng)設(shè)計(jì)

        李 琳 潘忠成 李昶志

        1(廣東交通職業(yè)技術(shù)學(xué)院信息學(xué)院 廣東 廣州 510000) 2(哈爾濱工程大學(xué)材料科學(xué)與化學(xué)工程學(xué)院 黑龍江 哈爾濱 150001) 3(陜西麥可羅生物科技有限公司 陜西 渭南 715500) 4(陜西省公共資源交易中心 陜西 西安 710000)

        0 引 言

        隨著控制性能要求的提高,非線性系統(tǒng)最優(yōu)控制受到了控制領(lǐng)域的廣泛關(guān)注[1-4]。在最優(yōu)控制設(shè)計(jì)過(guò)程中,系統(tǒng)哈密頓-雅可比-貝爾曼方程(Hamilton-Jacobi-Bellman equation,HJB)的求解方法成為控制器設(shè)計(jì)的關(guān)鍵,而動(dòng)態(tài)規(guī)劃(Dynamics Programming,DP[5])作為求解方法被廣泛應(yīng)用于最優(yōu)控制策略中。然而動(dòng)態(tài)規(guī)劃在時(shí)間上是向后執(zhí)行的,所以DP為離線求解方法。并且由于在高維最優(yōu)化問(wèn)題中存在“維度詛咒”問(wèn)題,DP難以在實(shí)際控制中應(yīng)用。為了避免上述問(wèn)題,Werbos[6]提出了基于強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)的自適應(yīng)動(dòng)態(tài)規(guī)劃(ADP)策略。它將強(qiáng)化學(xué)習(xí)方法、演員-批評(píng)家結(jié)構(gòu)(Actor-Critic Structure)[7]和神經(jīng)網(wǎng)絡(luò)結(jié)合來(lái)解決最優(yōu)控制問(wèn)題,其中評(píng)估網(wǎng)絡(luò)用于估計(jì)動(dòng)態(tài)規(guī)劃中的成本函數(shù),從而解決“維度詛咒”問(wèn)題。近些年來(lái),基于RL的ADP的控制策略和相關(guān)領(lǐng)域受到了學(xué)者的廣泛關(guān)注并且獲得了很多重要的成果。文獻(xiàn)[8]針對(duì)帶有未知?jiǎng)討B(tài)的非仿射非線性系統(tǒng)的控制問(wèn)題提出了一種新型ADP控制方法,此方法不需要識(shí)別系統(tǒng)的未知?jiǎng)討B(tài)。文獻(xiàn)[9]設(shè)計(jì)了基于觀測(cè)器的ADP控制器,解決了非仿射連續(xù)非線性系統(tǒng)的控制問(wèn)題,其中觀測(cè)器用于重構(gòu)系統(tǒng)不可測(cè)狀態(tài)量,評(píng)估網(wǎng)絡(luò)用于估計(jì)系統(tǒng)的性能指標(biāo)函數(shù)。文獻(xiàn)[10]將ADP方法應(yīng)用于具有未知?jiǎng)討B(tài)的多智能體編隊(duì)控制中。

        近些年來(lái),非線性系統(tǒng)的事件觸發(fā)控制方法吸引了廣泛的關(guān)注[11-12]。與常規(guī)的時(shí)間觸發(fā)控制方法相比,事件觸發(fā)控制(Event-Triggered Control,ETC)只有在當(dāng)前狀態(tài)量與期望值的誤差超過(guò)閾值時(shí)控制器才會(huì)更新,這樣大大減少了控制系統(tǒng)的計(jì)算負(fù)擔(dān)同時(shí)節(jié)約了被控對(duì)象和執(zhí)行器的通信資源[13]。在最優(yōu)控制的實(shí)際應(yīng)用中還需要考慮系統(tǒng)模型未知和系統(tǒng)的內(nèi)部狀態(tài)量無(wú)法測(cè)量的問(wèn)題。需要注意的是,在實(shí)際應(yīng)用中通常只有系統(tǒng)的輸出量和控制輸入量為可測(cè)度量,并且只對(duì)輸出量進(jìn)行測(cè)量也可以大大減少控制系統(tǒng)對(duì)測(cè)量裝備的需求。為了估計(jì)不可測(cè)量的狀態(tài)量,本文首先通過(guò)神經(jīng)網(wǎng)絡(luò)觀測(cè)器來(lái)重構(gòu)系統(tǒng)狀態(tài)量,然后通過(guò)觀測(cè)到的狀態(tài)量設(shè)計(jì)了基于ADP算法的事件觸發(fā)輸出反饋?zhàn)顑?yōu)控制策略,在實(shí)現(xiàn)最優(yōu)控制的同時(shí)節(jié)約計(jì)算能力和通信資源。通過(guò)Lyapunov理論獲得了神經(jīng)網(wǎng)絡(luò)觀測(cè)器的權(quán)值更新率和評(píng)價(jià)網(wǎng)絡(luò)的權(quán)值更新率。閉環(huán)系統(tǒng)的穩(wěn)定性同樣進(jìn)行了嚴(yán)格的證明。最后通過(guò)仿真實(shí)驗(yàn)驗(yàn)證了控制算法的有效性。

        1 系統(tǒng)描述

        考慮如下的未知非線性系統(tǒng):

        式中:x(t)∈Rn代表系統(tǒng)的狀態(tài)量;y(t)∈Rm代表系統(tǒng)的輸出量并且為可測(cè)度量;u(t)∈Rp代表系統(tǒng)的控制輸入;C∈Rm×n為常數(shù)矩陣;G(x(t),u(t))代表系統(tǒng)的未知?jiǎng)討B(tài)。需要注意的是,在實(shí)際應(yīng)用中系統(tǒng)的狀態(tài)量不一定完全可測(cè)量的且系統(tǒng)的狀態(tài)方程也不一定精確可知,所以式(1)符合實(shí)際的應(yīng)用場(chǎng)景。

        為了便于后續(xù)觀測(cè)器設(shè)計(jì),將式(1)寫成如下形式:

        式中:U(x(t),u(t))=G(x(t),u(t))-Ax;A為常數(shù)矩陣。

        假設(shè)1系統(tǒng)未知?jiǎng)討B(tài)U(x(t),u(t))為平滑函數(shù)并滿足:

        式中:δ為正常數(shù)。

        2 控制器設(shè)計(jì)

        本節(jié)主要分成兩個(gè)部分,首先設(shè)計(jì)了基于神經(jīng)網(wǎng)絡(luò)的狀態(tài)估計(jì)器用于估計(jì)系統(tǒng)的狀態(tài)量,然后設(shè)計(jì)基于自適應(yīng)評(píng)估的輸出反饋?zhàn)顑?yōu)控制策略。

        2.1 基于神經(jīng)網(wǎng)絡(luò)的狀態(tài)觀測(cè)器

        結(jié)合式(2)設(shè)計(jì)如下的狀態(tài)觀測(cè)器:

        DTP+PD=-M

        (5)

        式中:P=PT,M=MT。

        設(shè)計(jì)如下的神經(jīng)網(wǎng)絡(luò)逼近器用來(lái)逼近式(1)中的未知函數(shù)U:

        權(quán)重的更新律選擇如下:

        證明定義如下的Lyapunov函數(shù):

        對(duì)式(9)求導(dǎo)可得:

        結(jié)合式(2)、式(4)、式(6)、式(7)和式(8),式(10)可寫成:

        令b=a(D-1)TCTC,則式(11)簡(jiǎn)化為:

        考慮如下不等式成立:

        將式(13)代入式(12)可得:

        式中:λmin(M)表示矩陣M的最小特征值;sm表示激活函數(shù)的上界。

        則式(14)變?yōu)?

        2.2 基于自適應(yīng)評(píng)估的輸出反饋控制器

        為了后續(xù)事件觸發(fā)函數(shù)的設(shè)計(jì),定義如下的誤差方程:

        基于式(19)可以判斷事件觸發(fā)的時(shí)間。當(dāng)事件觸發(fā)時(shí)ek(tk)=0,當(dāng)事件沒(méi)有觸發(fā)時(shí),控制器的控制輸出保持不變,即:

        將式(19)代入式(20)有:

        針對(duì)式(1),設(shè)計(jì)如下的性能指標(biāo):

        (22)

        式中:Q=QT∈Rm×m、R=RT∈Rp×p為正定常數(shù)矩陣。

        如果控制輸入u在緊集Ω是可接受的[14],并且性能指標(biāo)函數(shù)V一階可導(dǎo),則:

        定義如下的哈密頓(Hamiltonian)方程:

        求解最優(yōu)性能指標(biāo)后可以獲得如下的最優(yōu)控制策略:

        作為求解最優(yōu)控制策略的式(26),可以得到理想的最優(yōu)控制解。將式(26)轉(zhuǎn)換成事件觸發(fā),則有

        將式(27)代入式(24)可得基于事件觸發(fā)的HJB方程為:

        本文采用如下的評(píng)價(jià)神經(jīng)網(wǎng)絡(luò)來(lái)逼近最優(yōu)性能指標(biāo)函數(shù):

        式中:θ2為評(píng)價(jià)神經(jīng)網(wǎng)絡(luò)的最優(yōu)權(quán)重;隱含層激活函數(shù)s2(x)選為雙曲正切函數(shù);σ(x)為神經(jīng)網(wǎng)絡(luò)的逼近誤差。有:

        由式(30)可得:

        結(jié)合式(32)和式(7),實(shí)際的控制率如下:

        將式(32)和式(33)代入式(24),哈密頓函數(shù)的估計(jì)可表示為:

        為了后續(xù)分析,做如下的假設(shè)。

        假設(shè)2U(x,u)為L(zhǎng)ipschitz連續(xù),并滿足:

        式中:L為正常數(shù)。

        假設(shè)3控制輸入u*滿足Lipschitz條件,則存在一個(gè)正常數(shù)A使得:

        定理2針對(duì)式(1),如果觀測(cè)器為式(3),并且觀測(cè)器和評(píng)價(jià)網(wǎng)絡(luò)的權(quán)重更新率分別為式(7)和式(36),并且滿足如下的事件觸發(fā)條件:

        證明定義如下的Lyapunov函數(shù):

        Va=V1+V*+V2

        (40)

        根據(jù)求解最優(yōu)控制策略的式(26)可得:

        式中:ΔUu*=?U(x,u*)/?u*。由于:

        (43)

        將式(42)和式(43)代入式(41)可得:

        2u*TN(U(x,u*)-U(x,u))-yTQy-u*TRu*

        (44)

        式中:N=((ΔUu*)TΔUu*)-1(ΔUu*)T。

        根據(jù)假設(shè)2,式(36)可以寫成:

        (46)

        結(jié)合假設(shè)3,式(46)可變成:

        對(duì)V2求導(dǎo)得到:

        將式(36)代入式(48)可得:

        (49)

        結(jié)合式(31)可得:

        3 仿真研究

        為了驗(yàn)證控制策略的有效性,利用如下的非線性系統(tǒng)作為仿真對(duì)象:

        式(7)表示結(jié)構(gòu)為3-3-2,初始權(quán)重為θ(0)=[1,0.5,0.2;-0.2,-0.5,-1],更新率計(jì)算的式(8)中參數(shù)為a=0.1、λ=10。式(23)的參數(shù)為Q=1、R=10。式(30)表示的結(jié)構(gòu)為3-4-1,初始權(quán)重W(0)=[4,2,-1,-2]T,更新率計(jì)算的式(36)中參數(shù)r=10。仿真結(jié)果為圖1-圖6。

        圖1 系統(tǒng)的實(shí)際狀態(tài)量x1和狀態(tài)量的估計(jì)

        圖2 系統(tǒng)的實(shí)際狀態(tài)量x2和狀態(tài)量的估計(jì)

        圖3 神經(jīng)網(wǎng)絡(luò)的估計(jì)權(quán)重θ1

        圖4 評(píng)估網(wǎng)絡(luò)的估計(jì)權(quán)重θ2

        圖5 事件觸發(fā)條件和閾值

        圖6 控制輸入

        根據(jù)圖1和圖2可以看出,本文提出的控制器能很好地完成控制目標(biāo),使系統(tǒng)狀態(tài)穩(wěn)定在平衡點(diǎn),并且表明神經(jīng)網(wǎng)絡(luò)狀態(tài)觀測(cè)器能很好地跟蹤和估計(jì)系統(tǒng)不可測(cè)狀態(tài)量,使?fàn)顟B(tài)估計(jì)誤差穩(wěn)定。圖3和圖4表明神經(jīng)網(wǎng)絡(luò)和評(píng)估網(wǎng)絡(luò)的權(quán)重最終收斂。圖5為系統(tǒng)的觸發(fā)情況,結(jié)合圖6可知,只有當(dāng)式(39)滿足時(shí),系統(tǒng)的控制輸出才進(jìn)行更新,因此有效減少控制輸出更新頻率從而大幅節(jié)約計(jì)算能力。

        4 結(jié) 語(yǔ)

        針對(duì)一類未知非線性系統(tǒng)提出基于神經(jīng)網(wǎng)絡(luò)的最優(yōu)控制策略。利用神經(jīng)網(wǎng)絡(luò)狀態(tài)觀測(cè)器對(duì)未知非線性系統(tǒng)的狀態(tài)量進(jìn)行估計(jì),從而解決實(shí)際應(yīng)用中系統(tǒng)的部分狀態(tài)量無(wú)法測(cè)量的難題。然后通過(guò)觀測(cè)器估計(jì)的狀態(tài)量設(shè)計(jì)基于ADP算法的輸出反饋?zhàn)顑?yōu)控制策略。本文通過(guò)Lyapunov方法獲得了神經(jīng)網(wǎng)絡(luò)和評(píng)估網(wǎng)絡(luò)的權(quán)值更新率并嚴(yán)格證明了閉環(huán)系統(tǒng)的穩(wěn)定性。最后通過(guò)仿真實(shí)驗(yàn)驗(yàn)證了該控制器設(shè)計(jì)方法的有效性。

        猜你喜歡
        系統(tǒng)設(shè)計(jì)
        Smartflower POP 一體式光伏系統(tǒng)
        WJ-700無(wú)人機(jī)系統(tǒng)
        ZC系列無(wú)人機(jī)遙感系統(tǒng)
        何為設(shè)計(jì)的守護(hù)之道?
        《豐收的喜悅展示設(shè)計(jì)》
        流行色(2020年1期)2020-04-28 11:16:38
        基于PowerPC+FPGA顯示系統(tǒng)
        半沸制皂系統(tǒng)(下)
        瞞天過(guò)?!律O(shè)計(jì)萌到家
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        設(shè)計(jì)秀
        海峽姐妹(2017年7期)2017-07-31 19:08:17
        国产人妖在线免费观看| 精品无码中文视频在线观看| 98bb国产精品视频| 精品久久久亚洲中文字幕| 亚洲成人一区二区av| 久久伊人精品一区二区三区| 区久久aaa片69亚洲| 亚洲国产高清美女在线观看| 国产一区二区资源在线观看| 免费观看a级片| 久久中文精品无码中文字幕| 国产精品久久久久免费看| 爱爱免费视频一区二区三区| 欧美乱大交xxxxx潮喷| 国产农村妇女高潮大叫| 亚洲夫妻性生活视频网站| 国内偷拍国内精品多白86| 久热国产vs视频在线观看| 中文字幕亚洲无线码在一区| 杨幂二区三区免费视频| 不卡一区二区黄色av| 性欧美牲交xxxxx视频欧美| 亚洲V在线激情| 国产精品国产三级国产专播| 免费无码又爽又刺激网站直播| 丰满人妻无奈张开双腿av| 国产一区二区三区免费精品| 婷婷色精品一区二区激情| 人妻aⅴ中文字幕| 欧美精品一级| 久久亚洲av熟女国产| 国产freesexvideos中国麻豆 | 色狠狠色狠狠综合一区| 中文字幕成人精品久久不卡| 不卡的高清av一区二区三区| 国产suv精品一区二区6| 亚洲高清有码在线观看| 欧美在线成人午夜网站| 国产av一区仑乱久久精品| 久久久精品中文字幕麻豆发布| 最好看的最新高清中文视频|