亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于無限時(shí)域無模型的在線Q學(xué)習(xí)算法

        2022-02-22 05:47:08代曉清
        電光與控制 2022年2期
        關(guān)鍵詞:模型系統(tǒng)設(shè)計(jì)

        代曉清, 趙 旭

        (1.成都師范學(xué)院計(jì)算機(jī)科學(xué)學(xué)院,成都 611000; 2.南京信息工程大學(xué)計(jì)算機(jī)與軟件學(xué)院,南京 210000)

        0 引言

        為了結(jié)合最優(yōu)控制與自適應(yīng)控制的優(yōu)點(diǎn),可以借鑒機(jī)器學(xué)習(xí)中強(qiáng)化學(xué)習(xí)的思想。強(qiáng)化學(xué)習(xí)[1-3]需要自適應(yīng)地處理動(dòng)態(tài)變化的環(huán)境,最優(yōu)控制理論中的近似動(dòng)態(tài)規(guī)劃[4-5]被證明是一個(gè)有效的、以自適應(yīng)方式解決強(qiáng)化學(xué)習(xí)問題的方法。

        基于近似動(dòng)態(tài)規(guī)劃的Q學(xué)習(xí)算法是根據(jù)馬爾可夫決策過程而設(shè)計(jì)的一種強(qiáng)化學(xué)習(xí)方法[5],可被視為一種收斂的最優(yōu)直接自適應(yīng)控制算法。Q學(xué)習(xí)算法的最大優(yōu)點(diǎn)是不需要環(huán)境模型,且對(duì)于任何有限馬爾可夫決策過程,最終都能找到一個(gè)最優(yōu)策略。

        現(xiàn)有文獻(xiàn)關(guān)于Q學(xué)習(xí)算法的研究大多基于有限時(shí)域的離散系統(tǒng)[5-7]。文獻(xiàn)[5]對(duì)強(qiáng)化學(xué)習(xí)理論及Q學(xué)習(xí)算法進(jìn)行了詳細(xì)的介紹,并將其應(yīng)用于有限時(shí)域的離散控制系統(tǒng);文獻(xiàn)[6]將強(qiáng)化學(xué)習(xí)應(yīng)用于離散的無人機(jī)航路自主規(guī)劃問題,對(duì)強(qiáng)化學(xué)習(xí)理論在多智能體路徑規(guī)劃中的應(yīng)用進(jìn)行了有益的探索;文獻(xiàn)[7]將Q學(xué)習(xí)算法與網(wǎng)絡(luò)邊緣云策略相結(jié)合,并將其應(yīng)用于高速移動(dòng)的智能網(wǎng)聯(lián)交通系統(tǒng)的研究,實(shí)現(xiàn)了在線決策的優(yōu)化,但系統(tǒng)本質(zhì)上仍為離散系統(tǒng)。

        隨著2015年DeepMind團(tuán)隊(duì)將強(qiáng)化學(xué)習(xí)理論引入連續(xù)動(dòng)態(tài)系統(tǒng)的研究[1-2],許多學(xué)者對(duì)此問題的應(yīng)用與拓展進(jìn)行了大量研究[3,8-10]。文獻(xiàn)[8-9]針對(duì)連續(xù)時(shí)間的博弈模型,分別研究了非線性系統(tǒng)的零和博弈及基于博弈理論的交通信號(hào)控制;文獻(xiàn)[3]針對(duì)部分信息已知的連續(xù)系統(tǒng),基于積分強(qiáng)化學(xué)習(xí)理論研究了線性二次型跟蹤問題。本文在文獻(xiàn)[1-2]的基礎(chǔ)上,將連續(xù)控制系統(tǒng)Q學(xué)習(xí)算法拓展到無限時(shí)域的最優(yōu)控制問題中,通過參數(shù)化的方法將連續(xù)時(shí)間無限時(shí)域最優(yōu)控制問題轉(zhuǎn)化為Q學(xué)習(xí)問題,基于李雅普諾夫穩(wěn)定性分析嚴(yán)格證明了閉環(huán)系統(tǒng)的狀態(tài)是有界的,且收斂于最優(yōu)解。此外,在系統(tǒng)動(dòng)態(tài)完全未知的情況下,采用積分強(qiáng)化學(xué)習(xí)方法設(shè)計(jì)一個(gè)Actor/Critic逼近器結(jié)構(gòu)以實(shí)現(xiàn)無限時(shí)域無模型的在線Q學(xué)習(xí)算法,相較于文獻(xiàn)[3]中的假設(shè),放寬了約束條件。

        1 無限時(shí)域最優(yōu)控制問題模型

        考慮如下的線性時(shí)不變連續(xù)系統(tǒng)

        (1)

        式中:x(t)∈Rn,為可測(cè)的狀態(tài)變量;u(t)∈Rm,為控制輸入;A∈Rn×n,B∈Rn×m,分別為系統(tǒng)矩陣和輸入矩陣,在此模型中假設(shè)其具有不確定性或?yàn)槲粗?,同時(shí)假定是(A,B)可控的。

        假設(shè)模型的時(shí)域是無限的,控制的目標(biāo)是設(shè)計(jì)控制器使得以下代價(jià)函數(shù)最小[11]

        (2)

        因此,控制目標(biāo)可以描述為尋找最優(yōu)的控制輸入u*,使得代價(jià)函數(shù)滿足條件J(x(0),u*)≤J(x(0),u),即,如式(1)所示的系統(tǒng),對(duì)于任意的輸入u應(yīng)滿足最小值條件

        (3)

        此時(shí),最優(yōu)的值函數(shù)V*可以定義為

        (4)

        且不依賴于系統(tǒng)動(dòng)態(tài)方程的信息。

        根據(jù)式(1)系統(tǒng)與式(4)價(jià)值函數(shù),可定義哈密頓函數(shù)為

        (5)

        令哈密頓函數(shù)關(guān)于控制輸入的一階偏導(dǎo)數(shù)為0,可求得最優(yōu)控制律為

        (6)

        由于此系統(tǒng)模型式(1)為線性的,可將最優(yōu)價(jià)值函數(shù)表示為關(guān)于狀態(tài)量的二次型的形式,即

        (7)

        式中,P∈Rn×n,為對(duì)稱正定矩陣,可通過求解如下的黎卡提方程得到

        ATP+PA-PBR-1BTP+M=0

        (8)

        最優(yōu)控制律式(5)可以表示為

        u*(x)=-R-1BTPx?x

        (9)

        根據(jù)最優(yōu)控制理論[12],求解式(8)、式(9)需要知道動(dòng)態(tài)系統(tǒng)完整的信息,即系統(tǒng)矩陣A和輸入矩陣B。假設(shè)系統(tǒng)動(dòng)態(tài)完全未知,下面基于無模型描述設(shè)計(jì)無限時(shí)域的在線Q學(xué)習(xí)算法。

        2 無模型無限時(shí)域在線Q學(xué)習(xí)算法

        2.1 無模型描述

        根據(jù)最優(yōu)的值函數(shù)式(7)和哈密頓函數(shù)式(6),Q函數(shù)Q(x,u):Rn+m→R可以寫成如下形式

        (10)

        式(10)可以寫成關(guān)于狀態(tài)量和控制輸入的二次型的形式,即

        (11)

        證明 首先將式(9)代入式(10),進(jìn)一步,因?yàn)镻是黎卡提方程的解,結(jié)合式(8)即可得到Q*(x,u*)=V*(x)。

        由于最優(yōu)Q函數(shù)關(guān)于輸入的偏導(dǎo)數(shù)為0,可以得到最優(yōu)控制輸入的無模型描述為

        (12)

        由于本文主要應(yīng)用Q學(xué)習(xí)算法對(duì)無限時(shí)域的最優(yōu)控制問題進(jìn)行設(shè)計(jì),因此,對(duì)于時(shí)域無限時(shí)的偏向穩(wěn)定性及折扣期望等問題不進(jìn)行討論,但并不因此影響所設(shè)計(jì)算法的有效性。下面基于本節(jié)的無模型描述進(jìn)行算法設(shè)計(jì)。

        2.2 Actor/Critic結(jié)構(gòu)

        在Actor/Critic算法中,Critic逼近器用于近似Q函數(shù)式(11),Actor逼近器用于近似最優(yōu)控制器式(12)。首先將式(11)寫成

        (13)

        (14)

        (15)

        根據(jù)積分強(qiáng)化學(xué)習(xí)[9]理論,值函數(shù)式(4)可以寫成貝爾曼方程

        (16)

        式中,T∈R+,為某一固定時(shí)間間隔。

        引理1給出了最優(yōu)值函數(shù)與最優(yōu)Q函數(shù)的等價(jià)性,基于此可以得到方程

        (17)

        進(jìn)一步定義誤差e∈R,通過設(shè)計(jì)合適的校正律使其最終趨于零。根據(jù)貝爾曼方程式(17),考慮實(shí)際Q函數(shù)的值,可以得到如下的誤差表達(dá)式

        (18)

        對(duì)于Actor逼近器,定義相應(yīng)的誤差ea∈R,其表達(dá)式可以寫成

        (19)

        (20)

        (21)

        2.3 學(xué)習(xí)算法設(shè)計(jì)

        (22)

        (23)

        式中,αc∈R+,為常值增益,其值大小影響收斂速度。

        (24)

        式中,αa∈R+,為常值增益,其值大小影響收斂速度。

        定義權(quán)重估計(jì)誤差

        (25)

        其動(dòng)態(tài)方程可以寫成

        (26)

        式中,

        (27)

        定理1對(duì)于如式(1)所示的系統(tǒng),給定Critic逼近器與最優(yōu)控制律分別如式(14)與(15)所示,Critic權(quán)重與Actor權(quán)重校正律分別如式(22)與(24)所示。如果校正增益αc與αa相比足夠大,且滿足

        (28)

        證明 首先定義Lyapunov函數(shù)

        (29)

        式(29)對(duì)時(shí)間求一階導(dǎo)數(shù)

        (30)

        將式(26)代入式(30)可得

        (31)

        (32)

        將黎卡提方程式(8)代入T1可得

        (33)

        對(duì)式(33)應(yīng)用楊氏不等式可得

        (34)

        由式(22)、式(23),T2滿足如下性質(zhì)

        (35)

        對(duì)于T3,借助于楊氏不等式可得

        (36)

        結(jié)合式(34)~(36)可以得到

        (37)

        結(jié)合條件式(28),定理1得證。

        3 仿真

        為了驗(yàn)證所設(shè)計(jì)的學(xué)習(xí)算法的有效性,考慮如下常用的渦輪增壓發(fā)動(dòng)機(jī)的6階線性系統(tǒng)模型[13]

        (38)

        系統(tǒng)的狀態(tài)曲線如圖1所示,Critic權(quán)重誤差與Actor權(quán)重誤差曲線分別如圖2與圖3所示。

        圖1 系統(tǒng)狀態(tài)曲線Fig.1 State curves of the system

        圖3 Actor權(quán)重誤差曲線 of Actor weight error

        4 結(jié)論

        針對(duì)無限時(shí)域最優(yōu)控制問題設(shè)計(jì)了一種無模型的在線Q學(xué)習(xí)算法,主要結(jié)論如下:

        1) 通過將Q函數(shù)寫成狀態(tài)和控制的參數(shù)化形式,連續(xù)線性系統(tǒng)的無限時(shí)域最優(yōu)控制可與無模型Q學(xué)習(xí)問題等價(jià)求解;

        2) 采用積分強(qiáng)化學(xué)習(xí)方法設(shè)計(jì)了一個(gè)Actor/Critic逼近器結(jié)構(gòu),在保證閉環(huán)漸近穩(wěn)定性和最優(yōu)解收斂的同時(shí),實(shí)現(xiàn)了在線估計(jì)Q函數(shù)的參數(shù)。

        猜你喜歡
        模型系統(tǒng)設(shè)計(jì)
        一半模型
        Smartflower POP 一體式光伏系統(tǒng)
        WJ-700無人機(jī)系統(tǒng)
        ZC系列無人機(jī)遙感系統(tǒng)
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        瞞天過?!律O(shè)計(jì)萌到家
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        設(shè)計(jì)秀
        海峽姐妹(2017年7期)2017-07-31 19:08:17
        有種設(shè)計(jì)叫而專
        Coco薇(2017年5期)2017-06-05 08:53:16
        日本国产一区二区在线观看| 免费人成毛片乱码| 欧美日韩一区二区三区视频在线观看| 亚洲天堂一区二区三区视频| 国产在线观看免费视频软件| 亚洲h在线播放在线观看h| 香蕉成人啪国产精品视频综合网| 女优av福利在线观看| 激情在线一区二区三区视频| 国产成人一区二区三区| 毛片网站视频| 国产日产免费在线视频| 女女同恋一区二区在线观看| 亚洲av无码国产精品色软件下戴| 可以免费在线看黄的网站| 日本大胆人体亚裔一区二区| 91丝袜美腿亚洲一区二区| 亚洲综合精品伊人久久| 国产成人一区二区三区免费观看| av有码在线一区二区三区| 狠狠色丁香婷婷综合潮喷| 久久久精品欧美一区二区免费| 成人综合亚洲欧美一区h| 69精品国产乱码久久久| 少妇愉情理伦片高潮日本| 欧美日韩成人在线| 亚洲天堂免费成人av| 天天躁夜夜躁狠狠躁婷婷| 亚洲一线二线三线写真| 亚洲熟女av超清一区二区三区| 国产诱惑人的视频在线观看| 中文字幕日韩三级片| 亚洲欧美日韩一区在线观看| 青青草视频国产在线观看| 视频在线观看一区二区三区| 亚洲色www成人永久网址| 九九99久久精品午夜剧场免费| 东风日产车是不是国产的| 亚洲熟女乱综合一区二区| 欧美成人www免费全部网站| 日本国产精品高清在线|