亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Q學(xué)習(xí)的有限時(shí)間隨機(jī)線性二次最優(yōu)控制

        2020-06-08 03:01:04羅敏娜崔黎黎
        關(guān)鍵詞:系統(tǒng)

        王 濤, 羅敏娜, 王 娜, 崔黎黎

        (1. 沈陽師范大學(xué) 計(jì)算機(jī)與數(shù)學(xué)基礎(chǔ)教學(xué)部, 沈陽 110034; 2. 沈陽師范大學(xué) 軟件學(xué)院, 沈陽 110034)

        0 引 言

        在控制領(lǐng)域中,求解隨機(jī)線性二次(SLQ)最優(yōu)控制問題是一個(gè)非?;钴S和有前景的課題,近些年來引起廣泛的關(guān)注[1-3]。與確定性情況相似,SLQ最優(yōu)控制問題依賴于隨機(jī)代數(shù)Riccati方程(SARE)[4-5]。在一些文獻(xiàn)中已經(jīng)給出求解SARE相應(yīng)的算法。例如,考慮到線性矩陣不等式的可解性等價(jià)于SARE的可解性,引進(jìn)基于半定規(guī)劃的計(jì)算方法求解權(quán)重矩陣不定的SLQ最優(yōu)控制問題[6]。根據(jù)一般化差分Riccati方程,Rami等人[7]得到權(quán)重矩陣不定的離散時(shí)間線性二次最優(yōu)控制集。利用拉格朗日乘子定理得到了線性終端狀態(tài)約束條件下不定的SLQ最優(yōu)線性狀態(tài)反饋解[8]。針對有限時(shí)間不定的平均場SLQ最優(yōu)控制問題,Ni等人[9]給出依賴帶有平穩(wěn)性條件和凸性條件的線性平均場正倒向隨機(jī)差分方程的開環(huán)最優(yōu)控制。采用基于路徑積分的自適應(yīng)評價(jià)算法求解仿射非線性隨機(jī)系統(tǒng)對應(yīng)的最優(yōu)控制策略[10]。在權(quán)重矩陣不定的情況下,Li等人[11]中討論了帶有泊松過程的隨機(jī)哈密頓系統(tǒng)解的存在性和唯一性條件。通過提出一種基于樣本數(shù)據(jù)的數(shù)字方法,充分利用正倒向隨機(jī)微分方程求解隨機(jī)最優(yōu)控制問題[12]。Zhang和Yan[13]基于倒向隨機(jī)微分方程給出混合最優(yōu)控制。

        從上面介紹的方法可以發(fā)現(xiàn),求解SLQ最優(yōu)控制問題需要系統(tǒng)參數(shù)的信息,但許多實(shí)際問題的數(shù)學(xué)模型很難建立,如何在模型參數(shù)部分未知的條件下求解有限時(shí)間SLQ最優(yōu)控制問題已成為隨機(jī)最優(yōu)控制領(lǐng)域的研究熱點(diǎn)。本文采用Q學(xué)習(xí)迭代算法求解有限時(shí)間SLQ最優(yōu)控制問題,該方法充分利用系統(tǒng)狀態(tài)信息,避免了系統(tǒng)參數(shù)部分未知的限制。

        1 問題描述

        考慮如下隨機(jī)線性離散時(shí)間系統(tǒng)

        (1)

        設(shè)系統(tǒng)(1)對應(yīng)的性能指標(biāo)函數(shù)為

        (2)

        若對于任意初始狀態(tài)x0,存在一個(gè)控制序列使性能指標(biāo)函數(shù)(2)達(dá)到最小值,則稱隨機(jī)線性二次最優(yōu)控制問題是可達(dá)的。本文將在線性反饋控制uk=Lkxk,Lk∈Rm×n中尋找最優(yōu)控制序列,稱常值實(shí)矩陣Lk為控制增益矩陣。下面通過系統(tǒng)變換將有限時(shí)間SLQ最優(yōu)控制問題轉(zhuǎn)化為相應(yīng)的確定性最優(yōu)控制問題。

        給定線性反饋控制uk=Lkxk,帶入式(1)得

        (3)

        相應(yīng)地,性能指標(biāo)函數(shù)(2)轉(zhuǎn)化為

        若對任意初始狀態(tài)x0,性能指標(biāo)函數(shù)滿足

        則稱隨機(jī)線性二次最優(yōu)控制問題是適應(yīng)的。下面給出隨機(jī)線性二次最優(yōu)控制問題適應(yīng)性條件。

        證明 證明過程參考引理1[14]。

        引理2 如果隨機(jī)線性二次最優(yōu)控制問題是可達(dá)的,則最優(yōu)控制增益矩陣序列為

        (4)

        證明 通過矩陣?yán)窭嗜粘俗铀惴ǐ@得最優(yōu)控制增益矩陣序列,首先構(gòu)造拉格朗日函數(shù):

        注釋1 由引理2知,最優(yōu)控制增益矩陣序列依賴于系統(tǒng)模型參數(shù)A,B,C,D。雖然參數(shù)A,B是已知的,但參數(shù)C,D是未知的,通過求解SARE獲得最優(yōu)控制增益矩陣序列是行不通的。

        2 Q學(xué)習(xí)算法的推導(dǎo)和收斂性證明

        2.1 Q函數(shù)的引入

        根據(jù)貝爾曼最優(yōu)性原理知,

        Q函數(shù)定義為

        (5)

        根據(jù)引理1,最優(yōu)性能指標(biāo)函數(shù)可以表示為

        將式(6)帶入式(5),Q函數(shù)又可以寫為

        這里定義H矩陣為

        則Q函數(shù)簡化為

        最優(yōu)控制增益矩陣表示為

        注釋2最優(yōu)控制增益矩陣序列僅依賴H矩陣,完全擺脫了系統(tǒng)模型參數(shù)未知的限制。下面通過Q學(xué)習(xí)迭代算法估計(jì)H矩陣序列。

        2.2 Q學(xué)習(xí)算法的推導(dǎo)

        給定系統(tǒng)初始狀態(tài)xk和初始控制u0(xk),設(shè)Q0(xk,uk)=0,則

        當(dāng)i≥1時(shí),Q學(xué)習(xí)迭代算法在

        (7)

        (8)

        之間迭代。

        下面給出Q學(xué)習(xí)迭代算法(7)、(8)的等價(jià)形:

        (10)

        2.3 Q學(xué)習(xí)迭代算法收斂性證明

        本文提出的Q學(xué)習(xí)迭代算法是建立在值迭代算法基礎(chǔ)之上,下面給出相應(yīng)的值迭代算法

        引理4Q學(xué)習(xí)迭代算法式(9)和式(10)等價(jià)于

        (13)

        證明 式(9)等號(hào)右端最后一項(xiàng)可以寫為

        將上式帶入式(9),考慮到系統(tǒng)狀態(tài)xk的任意性,則

        根據(jù)Q學(xué)習(xí)迭代算法知,

        (15)

        將式(15)帶入式(14),則

        (16)

        在式(15)基礎(chǔ)上,可以得到

        結(jié)合式(16),有

        (17)

        根據(jù)式(10)和式(16),可以得出

        (18)

        將式(18)帶入式(17),則式(17)可以轉(zhuǎn)化為式(13)。

        證明 根據(jù)式(11),知

        因?yàn)橄到y(tǒng)狀態(tài)xk的任意性,所以

        根據(jù)式(11)和函數(shù)極值的必要條件,則

        (20)

        將式(20)帶入式(19),則式(19)可以轉(zhuǎn)化為

        3 Q學(xué)習(xí)迭代算法的實(shí)現(xiàn)

        在實(shí)際問題中,由于系統(tǒng)狀態(tài)依賴于噪聲,所以系統(tǒng)狀態(tài)軌跡具有很強(qiáng)的隨機(jī)性。為了實(shí)現(xiàn)Q學(xué)習(xí)迭代算法,下面通過系統(tǒng)變換將隨機(jī)Q學(xué)習(xí)迭代算法轉(zhuǎn)化為確定性迭代算法。

        給定系統(tǒng)初始狀態(tài)x0和控制增益矩陣LN-1,LN-2,…,Lk,則

        在系統(tǒng)狀態(tài)轉(zhuǎn)移過程中,控制增益矩陣在不同的時(shí)間區(qū)間上不同,當(dāng)控制增益矩陣序列LN-1,LN-2,…,Lk+1確定后,控制增益矩陣Lk可由下式計(jì)算得到。

        根據(jù)式(21)和式(22),式(9)等號(hào)左邊又可寫為

        式(9)等號(hào)右邊又可以寫為

        4 仿真研究

        本節(jié)將通過一個(gè)仿真例子說明Q學(xué)習(xí)迭代算法的有效性。考慮二階隨機(jī)線性離散時(shí)間系統(tǒng)

        通過求解SARE獲得最優(yōu)控制增益矩陣序列需要系統(tǒng)參數(shù)A,B,C,D的全部信息,下面在系統(tǒng)模型參數(shù)部分未知的條件下采用Q學(xué)習(xí)迭代算法求解最優(yōu)控制增益矩陣序列。

        圖1 控制增益矩陣L1曲線Fig.1 Control gain matrixL1curves

        圖2 控制增益矩陣L0曲線Fig.2 Control gain matrixL0curves

        從以上仿真結(jié)果可以看出,在系統(tǒng)模型參數(shù)部分未知的情況下,通過Q學(xué)習(xí)迭代算法獲得的控制增益矩陣序列收斂到各自的最優(yōu)值,這就說明了Q學(xué)習(xí)迭代算法是有效的。

        5 結(jié) 論

        求解SLQ最優(yōu)控制問題通常需要系統(tǒng)參數(shù)全部信息,但在實(shí)際問題中,得到系統(tǒng)參數(shù)信息是一件很困難的事情。當(dāng)系統(tǒng)模型參數(shù)部分未知時(shí),如何獲得最優(yōu)控制變得十分有意義。因?yàn)橄到y(tǒng)參數(shù)的信息包含在系統(tǒng)狀態(tài)中,所以Q學(xué)習(xí)算法充分利用系統(tǒng)狀態(tài)信息求解最優(yōu)控制。最后通過仿真實(shí)例說明了Q學(xué)習(xí)算法的有效性。

        猜你喜歡
        系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        WJ-700無人機(jī)系統(tǒng)
        ZC系列無人機(jī)遙感系統(tǒng)
        北京測繪(2020年12期)2020-12-29 01:33:58
        基于PowerPC+FPGA顯示系統(tǒng)
        基于UG的發(fā)射箱自動(dòng)化虛擬裝配系統(tǒng)開發(fā)
        半沸制皂系統(tǒng)(下)
        FAO系統(tǒng)特有功能分析及互聯(lián)互通探討
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        一德系統(tǒng) 德行天下
        PLC在多段調(diào)速系統(tǒng)中的應(yīng)用
        2021国产精品国产精华| 亚洲熟女av在线观看| 亚洲精品1区2区在线观看| 亚洲欧美日韩国产精品一区二区 | 国产精品综合久久久久久久免费| 美女草逼视频免费播放| 免费久久久一本精品久久区 | 最近免费中文字幕| 91精品综合久久久久m3u8| 成人影院羞羞的视频免费观看 | 国产欧美成人一区二区a片| 狠狠躁夜夜躁人人爽天天天天97| 人妻少妇人人丰满视频网站| 日韩中文字幕在线丰满| 欧美噜噜久久久xxx| 国产人妻无码一区二区三区免费 | 女人被做到高潮免费视频| 中文字幕一区二区人妻痴汉电车| 高清在线有码日韩中文字幕| 绝顶潮喷绝叫在线观看| 精品88久久久久88久久久| av网址不卡免费在线观看| 国产亚洲人成在线观看| 大桥未久亚洲无av码在线| 国产精品青草久久久久婷婷| 亚洲av免费看一区二区三区| 国产日韩欧美一区二区东京热| 人妻少妇av无码一区二区| 日韩欧美精品有码在线观看 | 欧美激情a∨在线视频播放| 欧美激情精品久久999| 男女性行为免费视频网站| 在线看片免费人成视频电影| 青青青爽国产在线视频| 亚洲av中文字字幕乱码| 男吃奶玩乳尖高潮视频| 97久久天天综合色天天综合色hd| 麻豆国产AV网站| 女同同志熟女人妻二区| 亚洲国产另类精品| 国产av一区二区三区区别|