亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于強(qiáng)化學(xué)習(xí)的部分線性離散時(shí)間系統(tǒng)的最優(yōu)輸出調(diào)節(jié)

        2022-09-30 12:43:42龐文硯范家璐LEWISFrankLeroy
        自動(dòng)化學(xué)報(bào) 2022年9期
        關(guān)鍵詞:規(guī)劃實(shí)驗(yàn)方法

        龐文硯 范家璐 姜 藝 LEWIS Frank Leroy

        輸出調(diào)節(jié)問(wèn)題是一種對(duì)于線性和非線性動(dòng)態(tài)系統(tǒng),設(shè)計(jì)反饋控制器從而使系統(tǒng)實(shí)現(xiàn)漸近跟蹤和干擾抑制的問(wèn)題[1-5].輸出調(diào)節(jié)問(wèn)題的顯著特征則是參考輸入和干擾由已知的外系統(tǒng)自主微分或差分方產(chǎn)生的[5].目前,已有學(xué)者研究了連續(xù)時(shí)間系統(tǒng)的輸出調(diào)節(jié)問(wèn)題[6-8].文獻(xiàn)[5]對(duì)線性和非線性連續(xù)時(shí)間系統(tǒng)的輸出調(diào)節(jié)問(wèn)題給出了解決框架.文獻(xiàn)[6]研究了一類加入瞬態(tài)性能概念的輸出調(diào)節(jié)問(wèn)題,詳細(xì)研究了可解性條件和調(diào)節(jié)器結(jié)構(gòu)等問(wèn)題.而文獻(xiàn)[5-6]都需要在系統(tǒng)的動(dòng)態(tài)模型參數(shù)已知的情況下,解決其輸出調(diào)節(jié)問(wèn)題.

        強(qiáng)化學(xué)習(xí)作為一種機(jī)器學(xué)習(xí)方法,是以目標(biāo)為導(dǎo)向的學(xué)習(xí)工具,其中智能體或是決策者通過(guò)與環(huán)境交互為最優(yōu)化長(zhǎng)期獎(jiǎng)勵(lì)來(lái)學(xué)習(xí)控制策略[9-11],可主要解決控制領(lǐng)域中的最優(yōu)控制問(wèn)題,其中包括最優(yōu)調(diào)節(jié),最優(yōu)跟蹤以及最優(yōu)協(xié)同問(wèn)題.最優(yōu)控制問(wèn)題是一類通過(guò)使得代價(jià)函數(shù)或性能指標(biāo)達(dá)到最優(yōu)而為動(dòng)態(tài)系統(tǒng)尋找控制律的問(wèn)題.典型的最優(yōu)控制問(wèn)題是需要系統(tǒng)的模型參數(shù)完全已知,問(wèn)題的求解是離線的,其不能適應(yīng)動(dòng)態(tài)系統(tǒng)中模型參數(shù)的變化和不確定性,因此數(shù)據(jù)驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)方法也就應(yīng)運(yùn)而生,廣泛應(yīng)用于解決離散時(shí)間和連續(xù)時(shí)間不確定系統(tǒng)的最優(yōu)控制問(wèn)題.文獻(xiàn)[12]利用數(shù)據(jù)驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)方法利用沿著系統(tǒng)的數(shù)據(jù)解決了線性系統(tǒng)的最優(yōu)跟蹤問(wèn)題,又因?yàn)橄到y(tǒng)的狀態(tài)數(shù)據(jù)往往難以獲得,文獻(xiàn)[13]提出僅利用輸入輸出數(shù)據(jù),利用強(qiáng)化學(xué)習(xí)中的策略迭代和值迭代算法在線尋得最優(yōu)控制律從而實(shí)現(xiàn)最優(yōu)跟蹤.這2 篇文獻(xiàn)是針對(duì)于線性系統(tǒng),文獻(xiàn)[14]則針對(duì)于非線性系統(tǒng),采用基于Actor-Critic 結(jié)構(gòu)的強(qiáng)化學(xué)習(xí)方法數(shù)據(jù)驅(qū)動(dòng)在線學(xué)習(xí)跟蹤哈密頓-雅可比-貝爾曼方程(Hamilton-Jacobi-Bellman,HJB),從而解決最優(yōu)跟蹤問(wèn)題.由于H無(wú)窮問(wèn)題也可看作是一種最優(yōu)控制問(wèn)題,主要是分別找出最優(yōu)反饋控制律和最優(yōu)擾動(dòng)控制律的一類問(wèn)題,因此強(qiáng)化學(xué)習(xí)也應(yīng)用于該問(wèn)題的解決.針對(duì)于H無(wú)窮控制問(wèn)題,對(duì)于線性系統(tǒng)模型參數(shù)未知的文獻(xiàn)[15],該文采用強(qiáng)化學(xué)習(xí)離線策略控制方法進(jìn)行解決,并證明了探測(cè)噪聲會(huì)對(duì)在線策略迭代算法產(chǎn)生影響使獲得參數(shù)不準(zhǔn)確,而則不會(huì)對(duì)離線的策略迭代算法產(chǎn)生影響,同時(shí)證明了離線策略迭代算法的收斂性.文獻(xiàn)[16]則對(duì)于未知的非線性系統(tǒng),采用強(qiáng)化學(xué)習(xí)的離線策略方法學(xué)習(xí)跟蹤哈密頓-雅可比-艾薩克方程方程(Hamilton-Jacobi-Isaac,HJI)的解,在不知道系統(tǒng)模型參數(shù)的情況下解決了H無(wú)窮跟蹤控制問(wèn)題,并給出所提算法的收斂性.數(shù)據(jù)驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)方法還可應(yīng)用于無(wú)線網(wǎng)絡(luò)環(huán)境下的控制問(wèn)題,文獻(xiàn)[17]就針對(duì)于離散時(shí)間的網(wǎng)絡(luò)系統(tǒng)利用沿著系統(tǒng)軌跡的數(shù)據(jù)實(shí)現(xiàn)網(wǎng)絡(luò)控制系統(tǒng)的最優(yōu)跟蹤問(wèn)題.數(shù)據(jù)驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)方法近年來(lái)解決了線性與非線性系統(tǒng)、連續(xù)和離散系統(tǒng)、傳統(tǒng)狀態(tài)空間控制和網(wǎng)絡(luò)控制系統(tǒng)、利用沿系統(tǒng)軌跡數(shù)據(jù)和利用輸入輸出數(shù)據(jù)等的最優(yōu)控制問(wèn)題.

        前文提到傳統(tǒng)的輸出調(diào)節(jié)問(wèn)題都是基于系統(tǒng)的模型參數(shù)即模型已知的前提下求解輸出調(diào)節(jié)問(wèn)題.而文獻(xiàn)[7-8]則是在系統(tǒng)模型參數(shù)不確定的情況下利用數(shù)據(jù)驅(qū)動(dòng)的方法解決輸出調(diào)節(jié)問(wèn)題.在文獻(xiàn)[7-8]中,對(duì)于連續(xù)時(shí)間系統(tǒng)分別采用近似動(dòng)態(tài)規(guī)劃和魯棒近似動(dòng)態(tài)規(guī)劃的方法解決了線性系統(tǒng)和部分線性系統(tǒng)的最優(yōu)輸出調(diào)節(jié)問(wèn)題.由于強(qiáng)化學(xué)習(xí)是解決最優(yōu)控制問(wèn)題的有力工具,前述也有許多學(xué)者采用了強(qiáng)化學(xué)習(xí)方法解決最優(yōu)跟蹤問(wèn)題,現(xiàn)在另外考慮外部系統(tǒng)的干擾,把強(qiáng)化學(xué)習(xí)應(yīng)用到解決最優(yōu)輸出調(diào)節(jié)問(wèn)題中.文獻(xiàn)[18]將文獻(xiàn)[7]中利用數(shù)據(jù)驅(qū)動(dòng)方法求解線性連續(xù)時(shí)間系統(tǒng)的最優(yōu)輸出調(diào)節(jié)問(wèn)題拓展到線性離散時(shí)間系統(tǒng)中.本文則是針對(duì)部分線性的離散時(shí)間系統(tǒng),在具有模型參數(shù)未知的情況下,利用基于強(qiáng)化學(xué)習(xí)的離線策略更新方法數(shù)據(jù)驅(qū)動(dòng)求解最優(yōu)輸出調(diào)節(jié)問(wèn)題.

        本文將數(shù)據(jù)驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)方法與最優(yōu)輸出調(diào)節(jié)問(wèn)題相結(jié)合.主要貢獻(xiàn)如下: 針對(duì)于存在線性干擾和非線性不確定性的部分離散時(shí)間系統(tǒng)的最優(yōu)輸出調(diào)節(jié)問(wèn)題,提出基于強(qiáng)化學(xué)習(xí)的離線策略更新算法.該方法不需要知道系統(tǒng)的模型參數(shù),只利用測(cè)量數(shù)據(jù)在線求解即可實(shí)現(xiàn)對(duì)最優(yōu)輸出調(diào)節(jié)控制律的自適應(yīng)學(xué)習(xí),即可應(yīng)對(duì)系統(tǒng)模型參數(shù)的變化,且提出的方法不僅可以抑制線性的外部干擾并且對(duì)動(dòng)態(tài)非線性不確定性存在魯棒性保證漸近跟蹤.并運(yùn)用了小增益定理說(shuō)明了本文提出的方法可以保證閉環(huán)系統(tǒng)的穩(wěn)定性.

        本文結(jié)構(gòu)如下: 第1 節(jié)介紹離散時(shí)間部分線性系統(tǒng)的最優(yōu)輸出調(diào)節(jié)問(wèn)題.提出最優(yōu)輸出調(diào)節(jié)問(wèn)題中的兩個(gè)優(yōu)化問(wèn)題,分別為靜態(tài)優(yōu)化問(wèn)題和動(dòng)態(tài)優(yōu)化問(wèn)題;然后將該離散時(shí)間系統(tǒng)轉(zhuǎn)化為誤差系統(tǒng),通過(guò)證明誤差系統(tǒng)的全局漸近穩(wěn)定性以推出原系統(tǒng)的最優(yōu)輸出調(diào)節(jié)問(wèn)題的可解性.第2 節(jié)針對(duì)具有線性外部干擾和非線性不確定性的部分線性離散時(shí)間系統(tǒng),提出離線策略更新算法利用在線數(shù)據(jù)求解動(dòng)態(tài)規(guī)劃問(wèn)題,并基于動(dòng)態(tài)規(guī)劃問(wèn)題的解,用數(shù)據(jù)驅(qū)動(dòng)的方法解靜態(tài)規(guī)劃問(wèn)題以此解決其最優(yōu)輸出調(diào)節(jié)問(wèn)題.第3 節(jié)提供仿真結(jié)果驗(yàn)證本文方法的有效性,并進(jìn)行對(duì)比實(shí)驗(yàn),比較性能指標(biāo)突顯本文方法的優(yōu)越性.第4 節(jié)為結(jié)束語(yǔ).

        符號(hào)說(shuō)明及概念介紹.R+表 示非負(fù)實(shí)數(shù)集,Rn×m表示n×m維矩陣,Rn即 Rn×1,Z+表示非負(fù)整數(shù)集,?表示克羅內(nèi)克積,vec 為矩陣的拉直運(yùn)算,把矩陣按照列的順序一列接一列的組成一個(gè)長(zhǎng)向量,trace 表示矩陣的跡,Id 表示恒等函數(shù),?表示函數(shù)的復(fù)合運(yùn)算,f?g表示函數(shù)f和g的復(fù)合函數(shù),即f?g(x)=f(g(x)),λmax(λmin)表示矩陣的最大(最小) 特征值,|x|表示向量x的歐幾里得范數(shù),‖A‖表示矩陣A誘導(dǎo)歐幾里得范數(shù),xT表示向量x的轉(zhuǎn)置.‖u‖表示 s upk>0|u(k)|.

        K類函數(shù)[19].該類函數(shù)為一個(gè)嚴(yán)格遞增連續(xù)函數(shù)α: R+→R+且α(0)=0,其可以表示為α∈K.

        K∞類函數(shù)[19].一個(gè)函數(shù)為K類函數(shù),當(dāng)s →∞時(shí)α(s)→∞,那么該類函數(shù)是K∞類函數(shù),其可以表示為α∈K∞.

        KL類函數(shù)[19].一個(gè)連續(xù)函數(shù)β: R+×R+→R+.如果對(duì)于每個(gè)特定的t∈R+,β(·,t)均是一個(gè)K類函數(shù),并且對(duì)于每個(gè)特定的s>0,β(s,·)遞減并滿足 l imt→∞β(s,t)=0,那么就稱β為KL類函數(shù),并表示為β∈KL.

        1 控制問(wèn)題描述

        1.1 離散時(shí)間部分線性系統(tǒng)被控對(duì)象

        考慮一組離散時(shí)間部分線性系統(tǒng):

        1.2 輸出調(diào)節(jié)問(wèn)題中的兩個(gè)規(guī)劃問(wèn)題

        受文獻(xiàn)[7-8,18]啟示,對(duì)于最優(yōu)輸出調(diào)節(jié)問(wèn)題的求解,可拆分成兩個(gè)規(guī)劃問(wèn)題,分別為受約束的靜態(tài)規(guī)劃問(wèn)題和動(dòng)態(tài)規(guī)劃問(wèn)題.通過(guò)解靜態(tài)規(guī)劃問(wèn)題1可以確定輸出調(diào)節(jié)器方程的解X*,U*,解動(dòng)態(tài)規(guī)劃問(wèn)題2 可以確定最優(yōu)反饋控制增益K*,則可得到最優(yōu)控制器u*(k)=-K*(x(k)-X*v(k))+U*v(k).

        問(wèn)題1.靜態(tài)規(guī)劃問(wèn)題

        通過(guò)解下面的靜態(tài)規(guī)劃問(wèn)題確定線性調(diào)節(jié)器方程的唯一解(X,U)

        式中,Q=QT>0,R=RT>0.式(13)有約束的規(guī)劃問(wèn)題等價(jià)于下面的形式:

        下面先介紹當(dāng)系統(tǒng)模型參數(shù)已知的情況下,靜態(tài)規(guī)劃問(wèn)題的解,即是線性調(diào)節(jié)器方程的解,并將靜態(tài)規(guī)劃問(wèn)題1 重新改寫形式.此部分為第二部分?jǐn)?shù)據(jù)驅(qū)動(dòng)求解靜態(tài)規(guī)劃問(wèn)題做鋪墊.

        且 Λ21是非奇異矩陣.

        將式(18)進(jìn)行展開(kāi)計(jì)算,并把χ中的調(diào)節(jié)器方程的解 ve c(X) 和 ve c(U)分離出來(lái),可以得到式(19).

        定理1.通過(guò)解式(19),可得線性調(diào)節(jié)器方程的解(X,U):

        問(wèn)題2.動(dòng)態(tài)規(guī)劃問(wèn)題

        解決如下問(wèn)題來(lái)確定最優(yōu)反饋增益K*:

        時(shí)停止,否則j←j+1 返回2).ε是一個(gè)數(shù)值很小的正數(shù).

        注3.動(dòng)態(tài)規(guī)劃問(wèn)題的求解是針對(duì)于線性系統(tǒng),即不考慮系統(tǒng)存在非線性不確定性時(shí),求得的最優(yōu)反饋增益.第1.3 節(jié)對(duì)該最優(yōu)反饋控制器對(duì)非線性不確定性是否存在魯棒性,即是否可以全局漸近鎮(zhèn)定誤差系統(tǒng)(10)~ (12)進(jìn)行說(shuō)明.

        1.3 系統(tǒng)最優(yōu)輸出調(diào)節(jié)問(wèn)題的可解性

        本節(jié)將原系統(tǒng)最優(yōu)輸出調(diào)節(jié)問(wèn)題的可解性轉(zhuǎn)化為誤差系統(tǒng)的全局漸近穩(wěn)定性,通過(guò)提出兩個(gè)定理進(jìn)行說(shuō)明.定理1 說(shuō)明了最優(yōu)輸出調(diào)節(jié)控制器使得閉環(huán)誤差系統(tǒng)是全局漸近穩(wěn)定的,定理2 說(shuō)明了原系統(tǒng)的最優(yōu)輸出調(diào)節(jié)問(wèn)題是可解的.

        成立時(shí),關(guān)聯(lián)的誤差系統(tǒng)在原點(diǎn)處全局漸近穩(wěn)定.□

        注7.子系統(tǒng)中的輸入-輸出增益,是子系統(tǒng)中輸入-輸出增益.當(dāng)兩個(gè)子系統(tǒng)都是強(qiáng)無(wú)界能觀和輸入輸出穩(wěn)定的,且在輸入輸出穩(wěn)定小增益條件成立下,兩個(gè)子系統(tǒng)的輸出都趨于零,那么由xˉ 子系統(tǒng)的輸入狀態(tài)穩(wěn)定性質(zhì)和子系統(tǒng)的零偏差強(qiáng)無(wú)界能觀性質(zhì),可以知道兩個(gè)關(guān)聯(lián)系統(tǒng)的狀態(tài)也是趨于零的.

        原系統(tǒng)最優(yōu)輸出調(diào)節(jié)問(wèn)題的可解性得以證明后,下部分將對(duì)該最優(yōu)控制器進(jìn)行學(xué)習(xí).第2 節(jié)針對(duì)于具有未知系統(tǒng)模型參數(shù)的離散時(shí)間的部分線性系統(tǒng),用基于強(qiáng)化學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)方法,利用測(cè)量數(shù)據(jù)在線求解其最優(yōu)輸出調(diào)節(jié)問(wèn)題.

        2 數(shù)據(jù)驅(qū)動(dòng)在線求解最優(yōu)輸出調(diào)節(jié)問(wèn)題

        強(qiáng)化學(xué)習(xí)中學(xué)習(xí)的方式分為離線策略學(xué)習(xí)算法和在線策略學(xué)習(xí)算法兩種.離線策略更新算法中的行為策略和目標(biāo)策略不是同一策略,行為策略用于產(chǎn)生數(shù)據(jù),目標(biāo)策略則是被評(píng)估和提高的策略.而在線策略算法則是行為與目標(biāo)策略一致.本文提出一個(gè)僅利用在線數(shù)據(jù)基于強(qiáng)化學(xué)習(xí)的離線策略的數(shù)據(jù)驅(qū)動(dòng)方法,用于求解離散時(shí)間部分線性系統(tǒng)的最優(yōu)輸出調(diào)節(jié)問(wèn)題.由于本文系統(tǒng)的模型參數(shù)是未知的,首先求解動(dòng)態(tài)規(guī)劃問(wèn)題求得最優(yōu)反饋增益,然后基于動(dòng)態(tài)規(guī)劃問(wèn)題的解,本文提出一種數(shù)據(jù)驅(qū)動(dòng)方法,在無(wú)法獲取系統(tǒng)模型參數(shù)的情況下在線求解靜態(tài)規(guī)劃問(wèn)題的解.

        2.1 數(shù)據(jù)驅(qū)動(dòng)求解動(dòng)態(tài)優(yōu)化問(wèn)題

        寫出k+1 時(shí)刻的值函數(shù)減去k時(shí)刻的值函數(shù),將式(32)代入,可得:

        為將上式的數(shù)據(jù)與矩陣參數(shù)進(jìn)行分離,將式(34)各項(xiàng)用克羅內(nèi)克積和矩陣的拉直運(yùn)算進(jìn)行表示,即根據(jù)aTWb=(aT?bT)vec(W),可得上式對(duì)應(yīng)的各式可以等價(jià)的表示如下:

        因此,式(34)可以用式(35)的形式表示為:

        為了對(duì)參數(shù)矩陣進(jìn)行學(xué)習(xí),將式(36) 寫成式(41)的形式,則需定義待求的參數(shù)矩陣如式(37)和數(shù)據(jù)組(38)和(39)如下,式(38)收集的是式(36)中等式右邊的t組數(shù)據(jù)組成數(shù)據(jù)向量式(39)收集的是式(36)中等式左邊的t組數(shù)據(jù)組成數(shù)據(jù)矩陣

        2.2 數(shù)據(jù)驅(qū)動(dòng)求解靜態(tài)優(yōu)化問(wèn)題

        前面已經(jīng)介紹了當(dāng)模型參數(shù)已知時(shí),受約束的靜態(tài)規(guī)劃問(wèn)題應(yīng)如何求解,并將原靜態(tài)規(guī)劃問(wèn)題1的形式重新改寫.在此基礎(chǔ)上,下面提出數(shù)據(jù)驅(qū)動(dòng)的拉格朗日乘子法來(lái)求解式(20)這個(gè)受約束的靜態(tài)規(guī)劃問(wèn)題.該方法無(wú)需知道系統(tǒng)的模型參數(shù),僅使用測(cè)量的數(shù)據(jù).

        為避免需要知道系統(tǒng)準(zhǔn)確的模型參數(shù),根據(jù)動(dòng)態(tài)規(guī)劃問(wèn)題的解來(lái)求得靜態(tài)規(guī)劃問(wèn)題的解.通過(guò)解動(dòng)態(tài)規(guī)劃問(wèn)題可以求得定義如下:

        3 仿真實(shí)驗(yàn)

        本節(jié)首先建立一個(gè)仿真實(shí)驗(yàn),來(lái)說(shuō)明本文方法的有效性;然后進(jìn)行對(duì)比實(shí)驗(yàn),用本文方法與對(duì)比方法進(jìn)行仿真實(shí)驗(yàn),用評(píng)價(jià)指標(biāo)結(jié)果說(shuō)明本文方法的優(yōu)越性.

        3.1 仿真實(shí)驗(yàn)參數(shù)選擇

        考慮下面這個(gè)離散時(shí)間的部分線性系統(tǒng):

        3.2 仿真結(jié)果

        在仿真實(shí)驗(yàn)中,算法2 經(jīng)過(guò)迭代學(xué)習(xí)4 次收斂,得到Pj+1=[35.8976 0.7433;0.7433 4.0401] 和增益Kj+1=[-0.3475 0.9987].學(xué)到最優(yōu)增益后找調(diào)節(jié)器方程最優(yōu)解為X=[4.281×10-17-1;-1.139-2.997]和U=[0.6888 1.9995].從而得到L=[-0.4486-0.6461].

        仿真結(jié)果見(jiàn)圖1~ 5.圖1 給出了算法2 的系統(tǒng)輸出、參考輸入和跟蹤誤差,圖2 給出了控制輸入.由圖1 可知,魯棒最優(yōu)輸出調(diào)節(jié)控制器在由如圖3 系統(tǒng)干擾和存在非線性不確定的情況下,仍可使得y(k) 跟蹤參考輸入r(k).圖4 給出了在學(xué)習(xí)階段P和K收斂到最優(yōu)值的收斂情況,由圖4 可知,通過(guò)4 次的迭代學(xué)習(xí)就可以求出最優(yōu)的P和K.圖5給出了誤差系統(tǒng)的狀態(tài),圖5 說(shuō)明了誤差系統(tǒng)在原點(diǎn)處是全局漸近穩(wěn)定的,同時(shí)也表明閉環(huán)系統(tǒng)的穩(wěn)定性.在仿真結(jié)果中,跟蹤誤差從100 步之后明顯減小;從第120 步起,跟蹤誤差的最大數(shù)量級(jí)為10-9,控制輸入中存在的動(dòng)態(tài)非線性不確定性的大小從第10 步起的最大數(shù)量級(jí)為 1 0-9,說(shuō)明跟蹤效果好,且對(duì)于動(dòng)態(tài)的非線性不確定性有良好的魯棒性.仿真結(jié)果表明,本文算法在模型參數(shù)未知、存在干擾和輸入中存在非線性不確定情況下,只利用系統(tǒng)數(shù)據(jù),就可以實(shí)現(xiàn)具有魯棒性的最優(yōu)輸出調(diào)節(jié)控制.

        圖1 系統(tǒng)輸出與參考軌跡及跟蹤誤差Fig.1 Trajectories of system output and reference and tracking error

        圖2 控制輸入軌跡Fig.2 The control input trajectory

        圖3 系統(tǒng)干擾Fig.3 The disturbance of system

        圖4 學(xué)習(xí)階段 P 和 K 的收斂情況Fig.4 The convergence of P ,K during learning phase

        圖5 誤差系統(tǒng)狀態(tài)軌跡Fig.5 The error system state trajectory

        3.3 對(duì)比實(shí)驗(yàn)

        對(duì)比實(shí)驗(yàn)1 采用本文提出的魯棒最優(yōu)輸出調(diào)節(jié)的方法來(lái)跟蹤參考信號(hào),且滿足本文的假設(shè)條件.對(duì)比實(shí)驗(yàn)2 是文獻(xiàn)[12]的方法,在模型參數(shù)未知時(shí)采用Q-學(xué)習(xí)的方法解決線性最優(yōu)二次跟蹤問(wèn)題來(lái)跟蹤參考信號(hào).2 個(gè)對(duì)比實(shí)驗(yàn)的未知模型參數(shù)和參考信號(hào)相同,不同的是對(duì)比實(shí)驗(yàn)1 還在控制輸入中加入了非線性不確定性.對(duì)比實(shí)驗(yàn)仿真結(jié)果見(jiàn)圖6~ 7.

        圖6 對(duì)比實(shí)驗(yàn)1 仿真結(jié)果圖Fig.6 The result of comparison experiment 1

        對(duì)比實(shí)驗(yàn)1 模型為:

        圖7 對(duì)比實(shí)驗(yàn)2 仿真結(jié)果圖Fig.7 The result of comparison experiment 2

        本文用絕對(duì)誤差積分(Integral absolute error,IAE) 和均方根誤差(Root mean square error,RMSE)兩個(gè)指標(biāo)[18,26-29]來(lái)評(píng)價(jià)本仿真實(shí)驗(yàn)的控制效果,結(jié)果見(jiàn)表1.

        表1 對(duì)比實(shí)驗(yàn)評(píng)價(jià)指標(biāo)Table 1 Performance index of comparison experiment

        由圖6~ 7 可知,對(duì)比實(shí)驗(yàn)1 和2 都能較好地跟蹤設(shè)定值.對(duì)比實(shí)驗(yàn)1 相較于對(duì)比實(shí)驗(yàn)2 還增加了非線性不確定性,又從表1 可知,對(duì)比實(shí)驗(yàn)1 的跟蹤性能指標(biāo)較對(duì)比實(shí)驗(yàn)2 更好,這也說(shuō)明了本文提出算法的優(yōu)越性.

        4 結(jié)束語(yǔ)

        本文提出一個(gè)基于強(qiáng)化學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)算法,用于解具有未知模型參數(shù)的離散時(shí)間部分線性系統(tǒng)的最優(yōu)輸出調(diào)節(jié)問(wèn)題.首先將原系統(tǒng)的輸出調(diào)節(jié)問(wèn)題的可解性轉(zhuǎn)化為誤差系統(tǒng)的全局漸近穩(wěn)定問(wèn)題,給出了原問(wèn)題的可解性說(shuō)明;然后在未知系統(tǒng)模型參數(shù)的條件下,利用在線數(shù)據(jù)利用基于強(qiáng)化學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)的離線策略算法求解最優(yōu)反饋控制律,并給出該算法的收斂性說(shuō)明.該控制律可以完成系統(tǒng)的干擾抑制和漸近跟蹤且對(duì)于系統(tǒng)中存在的非線性不確定性存在魯棒性.仿真結(jié)果驗(yàn)證了本文方法的有效性,通過(guò)對(duì)比實(shí)驗(yàn)和性能指標(biāo)的比較,說(shuō)明了本文所提方法的優(yōu)越性.與跟蹤問(wèn)題相比,本文方法不僅可以實(shí)現(xiàn)跟蹤,當(dāng)系統(tǒng)本身存在干擾時(shí),同時(shí)可以抑制干擾達(dá)到閉環(huán)系統(tǒng)的穩(wěn)定性.本文方法與完全線性系統(tǒng)的輸出調(diào)節(jié)問(wèn)題相比,對(duì)輸入中存在的動(dòng)態(tài)非線性不確定性存在魯棒性.本文將數(shù)據(jù)驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)方法和小增益原理進(jìn)行結(jié)合,該方法可實(shí)現(xiàn)魯棒強(qiáng)化學(xué)習(xí),從而也為更多控制問(wèn)題的解決提供了思路.

        猜你喜歡
        規(guī)劃實(shí)驗(yàn)方法
        記一次有趣的實(shí)驗(yàn)
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        規(guī)劃引領(lǐng)把握未來(lái)
        快遞業(yè)十三五規(guī)劃發(fā)布
        商周刊(2017年5期)2017-08-22 03:35:26
        可能是方法不對(duì)
        多管齊下落實(shí)規(guī)劃
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        迎接“十三五”規(guī)劃
        国产精品vⅰdeoxxxx国产| 中文字幕一区二区网址| 亚洲国产天堂久久综合网| 国产三级精品三级| 亚洲精品久久久久久| 国产精品日日摸夜夜添夜夜添| 午夜桃色视频在线观看| 人妻少妇人人丰满视频网站| 男女后入式在线观看视频| 国产av自拍视频在线观看| 人人摸人人操| 一级片麻豆| 一区二区三区观看在线视频| 国产精品18久久久白浆| 久久久日韩精品一区二区三区| 99国产小视频| 国产免费99久久精品| 亚洲精品国产精品乱码视色| 97久久人人超碰超碰窝窝| 久久99国产亚洲高清| 亚洲成人av在线播放不卡| 97久人人做人人妻人人玩精品| 欧洲熟妇色xxxx欧美老妇多毛网站| 99精品视频69v精品视频免费| 强迫人妻hd中文字幕| 一女被多男玩喷潮视频| 成人性生交大片免费看r| 天堂网av在线| 丰满少妇被猛进去高潮| 激情影院内射美女| 国产清品夜色一区二区三区不卡| 国产精品女丝袜白丝袜美腿| 国产精品毛片va一区二区三区| 丰满人妻无奈张开双腿av| 国产一区二区精品网站看黄 | 在线涩涩免费观看国产精品| 亚洲七七久久综合桃花| 久久精品国语对白黄色| 豆国产96在线 | 亚洲| 久久亚洲精品ab无码播放| 亚洲中文字幕无线乱码va|