亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        動態(tài)規(guī)劃最優(yōu)控制在非線性系統(tǒng)中的應(yīng)用

        2016-03-25 16:50:28陳瑤張剛
        計算技術(shù)與自動化 2015年4期
        關(guān)鍵詞:動態(tài)規(guī)劃最優(yōu)控制神經(jīng)網(wǎng)絡(luò)

        陳瑤張剛

        摘要:應(yīng)用一種新的自適應(yīng)動態(tài)最優(yōu)化方法(ADP),在線實現(xiàn)對非線性連續(xù)系統(tǒng)的最優(yōu)控制。首先應(yīng)用漢密爾頓函數(shù)(HamiltonJacobiBellman, HJB)求解系統(tǒng)的最優(yōu)控制,并應(yīng)用神經(jīng)網(wǎng)絡(luò)BP算法對漢密爾頓函數(shù)中的性能指標(biāo)進行估計,進而得到非線性連續(xù)系統(tǒng)的最優(yōu)控制。同時引進一種新的自適應(yīng)算法,基于參數(shù)誤差,在線實現(xiàn)對系統(tǒng)進行動態(tài)最優(yōu)求解,而且通過李亞普諾夫方法對參數(shù)收斂情況也進行詳細的分析。最后,用仿真結(jié)果來驗證所提出的方法的可行性。

        關(guān)鍵詞:最優(yōu)控制;動態(tài)規(guī)劃;神經(jīng)網(wǎng)絡(luò);自適應(yīng)算法;漢密爾頓函數(shù)

        中圖分類號:TP273.1文獻標(biāo)識碼:A

        1 引言

        最優(yōu)控制是最近幾年國內(nèi)外新起的一個研究領(lǐng)域,最優(yōu)控制就是尋找最節(jié)能最經(jīng)濟的控制策略。50年代,美國數(shù)學(xué)家Bellman為了解決非線性最優(yōu)控制問題提出了動態(tài)規(guī)劃方法(Dynamic Programming)[1]。動態(tài)最優(yōu)化方法就是將最優(yōu)化問題分多級討論,尋求每一級的最優(yōu)策略,從而達到全局最優(yōu)。然而在實際問題中對于大量存在的非線性系統(tǒng),需要求解漢密爾頓函數(shù)(HJB),由于維數(shù)問題,求解函彌爾頓函數(shù)是個很難解決的問題。

        強化學(xué)習(xí)(Reinforcement learning)[2]是基于生物學(xué)習(xí)的新型理論。通過比強化學(xué)習(xí)和動態(tài)規(guī)劃,Werbos[3]提出了新的自適應(yīng)動態(tài)規(guī)劃方法,從而解決了離散系統(tǒng)的動態(tài)最優(yōu)求解的“維數(shù)災(zāi)難”問題[1, 4]。然而傳統(tǒng)的增強學(xué)習(xí)方法一般用來解決離散系統(tǒng),實際問題往往是連續(xù)的。

        文獻[5]將增強學(xué)習(xí)方法和動態(tài)規(guī)劃方法結(jié)合,提出了自適應(yīng)動態(tài)規(guī)劃方法(Adaptive dynamic Programming)。Werbos[6]基于增強學(xué)習(xí)方法,提出評價和執(zhí)行網(wǎng)對離散系統(tǒng)進行動態(tài)最優(yōu)求解。Lewis[7]提出了一種新的基于神經(jīng)網(wǎng)絡(luò)的自適應(yīng)動態(tài)最優(yōu)方法對離散非線性系統(tǒng)進行離線求解。

        本文基于一種新的自適應(yīng)動態(tài)規(guī)劃算法在線解決了非線性系統(tǒng)的最優(yōu)控制問題。首先應(yīng)用HJB對非線性系統(tǒng)進行最優(yōu)求解,進而基于神經(jīng)網(wǎng)絡(luò)方法對最優(yōu)控制中的性能指標(biāo)進行估計,即應(yīng)用評價結(jié)構(gòu)解決了動態(tài)最優(yōu)控制問題,同時省去了傳統(tǒng)最優(yōu)控制求解問題中的執(zhí)行機構(gòu),很大程度上縮短了計算機計算的時間。文中引用了一種新的自適應(yīng)算法[8, 9]在線求得基于神經(jīng)網(wǎng)絡(luò)的評價網(wǎng)的權(quán)重參數(shù)。最后本文對估計權(quán)重做了基于李亞普諾夫的收斂性分析,很大程度上提高了論文所提出理論的使用價值。

        5結(jié)論

        引進一種新的自適應(yīng)算法對非線性連續(xù)系統(tǒng)進行自適應(yīng)動態(tài)最優(yōu)求解。不同Werbos[6]提出的評價執(zhí)行結(jié)構(gòu),本文基于辨識評價結(jié)構(gòu),在線對連非線性系統(tǒng)進行最優(yōu)求解。用神經(jīng)網(wǎng)絡(luò)逼近性能指標(biāo),而且基于自適應(yīng)估計誤差,在線估計神經(jīng)網(wǎng)絡(luò)權(quán)重。比現(xiàn)有文獻所用梯度法和迭代法收斂速度更快,而且收斂效果更加良好。仿真結(jié)果更加有力的證明所提出方法的有效性。

        參考文獻

        [1]B. R. E, Dynamic programming, Princeton: Princeton University Press, 1957.

        [2]SUTTON R S,BARTO A G.Reinforcement learning: an introduction. Cambridge Univ Press, 1998.

        [3]WERBOS P J.Approximate dynamic programming for real-time control and neural modeling, Handbook of intelligent control: Neural[J].fuzzy, and adaptive approaches,1992, 15: 493-525.

        [4]DREYFUS S E,LAW A M.Art and theory of dynamic programming[M].New York: Academic Press, 1977,56.

        [5]MURRAY J J,COX C J,LENDARIS G G, et al. Adaptive dynamic programming, Systems, Man, and Cybernetics, Part C: Applications and Reviews[J]. IEEE Transactions on, 2002, 32(2): 140-153.

        [6]WERBOS P J.A menu of designs for reinforcement learning over time[J].Neural networks for control, 1990:67-95.

        [7]ABUKHALAF M,LEWIS F L.Nearly optimal control laws for nonlinear systems with saturating actuators using a neural network HJB approach[J].Automatica, 2005, 41(5): 779-791.

        [8]NA J,HERRMANN G,REN X., et al. Robust adaptive finitetime parameter estimation and control of nonlinear systems[J].IEEE International Symposium on in Intelligent Control (ISIC), 2011: 1014-1019.

        [9]Na. Jing, Ren. Xuemei, Zhang. Dongdong, Adaptive control for nonlinear purefeedback systems with highorder sliding mode observer[J]. IEEE transactions on neural networks and learning systems, 2013, 24(3): 370-382.

        [10]VAMVOUDAKIS K G,LEWIS F L.Online actorcritic algorithm to solve the continuoustime infinite horizon optimal control problem[J]. Automatica, 2010,46(5):878-888.

        [11]VRABIE D,LEWIS F.Neural network approach to continuoustime direct adaptive optimal control for partially unknown nonlinear systems[J]. Neural Networks, 2009,22(3): 237-246.

        [12]DIERKS T,THUMATI B T,JAGANNATHAN S.Optimal control of unknown affine nonlinear discretetime systems using offlinetrained neural networks with proof of convergence[J].Neural Networks, 2009,22(5):851-860.

        [13]LIU D,WEI Q.Finite approximation error based optimal control approach for discretetime nonlinear systems[J].IEEE Transactions on Cybernetics,2013,43(2):779-789.

        [14]BHASIN S,KAMALAPURKAR R,JOHNSON M, et al.A novel actorcriticidentifier architecture for approximate optimal control of uncertain nonlinear systems[J].Automatica,2013,49(1):82-92, .

        [15]NEVISTI V,PRIMBS J A.Constrained nonlinear optimal control: a converse HJB approach,1996.

        猜你喜歡
        動態(tài)規(guī)劃最優(yōu)控制神經(jīng)網(wǎng)絡(luò)
        條件平均場隨機微分方程的最優(yōu)控制問題
        神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        帶跳躍平均場倒向隨機微分方程的線性二次最優(yōu)控制
        基于CPSO-RBF神經(jīng)網(wǎng)絡(luò)噴氨量的最優(yōu)控制
        Timoshenko梁的邊界最優(yōu)控制
        ACM—ICPC競賽趣味學(xué)習(xí)系統(tǒng)設(shè)計
        大學(xué)生經(jīng)濟旅游優(yōu)化設(shè)計模型研究
        中國市場(2016年33期)2016-10-18 14:23:52
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機控制模型建立
        重型機械(2016年1期)2016-03-01 03:42:04
        動態(tài)規(guī)劃案例教學(xué)設(shè)計
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        无遮挡激情视频国产在线观看| 亚洲中字幕永久在线观看| 99熟妇人妻精品一区五一看片 | 亚洲狠狠久久五月婷婷| 亚洲国产精品久久精品| 免费99精品国产自在在线| 精品少妇大屁股白浆无码| 亚洲第一女人天堂av| 日本在线一区二区三区不卡| 国产精品你懂的在线播放| 欧美日韩亚洲国产千人斩| 中文字幕这里都是精品| 日本一区二区三区免费精品| 国产丝袜在线精品丝袜| 人妻丰满熟妇AV无码片| 中文字幕一区二区网址| 一个人看的www片免费高清视频| 亚洲欧洲偷自拍图片区| 天堂69亚洲精品中文字幕| 国产尤物自拍视频在线观看 | 狠狠干视频网站| 亚洲97成人精品久久久 | 91精品全国免费观看青青| 一区二区三区四区国产亚洲| 日韩国产人妻一区二区三区| 欧美激情内射喷水高潮| 爆乳午夜福利视频精品| 亚洲女人的天堂网av| 亚洲国产成人片在线观看| 亚洲人成人网毛片在线播放| 亚洲中文字幕在线精品2021| 国产一区二区三区日韩精品| 人妻在线日韩免费视频| 色婷婷久久免费网站| 第一九区另类中文字幕| 亚洲av日韩av在线观看| 无码人妻系列不卡免费视频| 白白色日韩免费在线观看| 免费人成在线观看网站| 东北无码熟妇人妻AV在线| 亚洲一区二区三区国产精品|