亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

動態(tài)規(guī)劃最優(yōu)控制在非線性系統(tǒng)中的應(yīng)用

2016-03-25 16:50:28陳瑤張剛

計算技術(shù)與自動化 2015年4期

關(guān)鍵詞：動態(tài)規(guī)劃最優(yōu)控制神經(jīng)網(wǎng)絡(luò)

陳瑤張剛

摘要：應(yīng)用一種新的自適應(yīng)動態(tài)最優(yōu)化方法（ADP），在線實現(xiàn)對非線性連續(xù)系統(tǒng)的最優(yōu)控制。首先應(yīng)用漢密爾頓函數(shù)（HamiltonJacobiBellman， HJB）求解系統(tǒng)的最優(yōu)控制，并應(yīng)用神經(jīng)網(wǎng)絡(luò)BP算法對漢密爾頓函數(shù)中的性能指標(biāo)進行估計，進而得到非線性連續(xù)系統(tǒng)的最優(yōu)控制。同時引進一種新的自適應(yīng)算法，基于參數(shù)誤差，在線實現(xiàn)對系統(tǒng)進行動態(tài)最優(yōu)求解，而且通過李亞普諾夫方法對參數(shù)收斂情況也進行詳細的分析。最后，用仿真結(jié)果來驗證所提出的方法的可行性。

關(guān)鍵詞：最優(yōu)控制；動態(tài)規(guī)劃；神經(jīng)網(wǎng)絡(luò)；自適應(yīng)算法；漢密爾頓函數(shù)

中圖分類號：TP273.1文獻標(biāo)識碼：A

1 引言

最優(yōu)控制是最近幾年國內(nèi)外新起的一個研究領(lǐng)域，最優(yōu)控制就是尋找最節(jié)能最經(jīng)濟的控制策略。50年代，美國數(shù)學(xué)家Bellman為了解決非線性最優(yōu)控制問題提出了動態(tài)規(guī)劃方法（Dynamic Programming）[1]。動態(tài)最優(yōu)化方法就是將最優(yōu)化問題分多級討論，尋求每一級的最優(yōu)策略，從而達到全局最優(yōu)。然而在實際問題中對于大量存在的非線性系統(tǒng)，需要求解漢密爾頓函數(shù)（HJB），由于維數(shù)問題，求解函彌爾頓函數(shù)是個很難解決的問題。

強化學(xué)習(xí)（Reinforcement learning）[2]是基于生物學(xué)習(xí)的新型理論。通過比強化學(xué)習(xí)和動態(tài)規(guī)劃，Werbos[3]提出了新的自適應(yīng)動態(tài)規(guī)劃方法，從而解決了離散系統(tǒng)的動態(tài)最優(yōu)求解的“維數(shù)災(zāi)難”問題[1， 4]。然而傳統(tǒng)的增強學(xué)習(xí)方法一般用來解決離散系統(tǒng)，實際問題往往是連續(xù)的。

文獻[5]將增強學(xué)習(xí)方法和動態(tài)規(guī)劃方法結(jié)合，提出了自適應(yīng)動態(tài)規(guī)劃方法（Adaptive dynamic Programming）。Werbos[6]基于增強學(xué)習(xí)方法，提出評價和執(zhí)行網(wǎng)對離散系統(tǒng)進行動態(tài)最優(yōu)求解。Lewis[7]提出了一種新的基于神經(jīng)網(wǎng)絡(luò)的自適應(yīng)動態(tài)最優(yōu)方法對離散非線性系統(tǒng)進行離線求解。

本文基于一種新的自適應(yīng)動態(tài)規(guī)劃算法在線解決了非線性系統(tǒng)的最優(yōu)控制問題。首先應(yīng)用HJB對非線性系統(tǒng)進行最優(yōu)求解，進而基于神經(jīng)網(wǎng)絡(luò)方法對最優(yōu)控制中的性能指標(biāo)進行估計，即應(yīng)用評價結(jié)構(gòu)解決了動態(tài)最優(yōu)控制問題，同時省去了傳統(tǒng)最優(yōu)控制求解問題中的執(zhí)行機構(gòu)，很大程度上縮短了計算機計算的時間。文中引用了一種新的自適應(yīng)算法[8， 9]在線求得基于神經(jīng)網(wǎng)絡(luò)的評價網(wǎng)的權(quán)重參數(shù)。最后本文對估計權(quán)重做了基于李亞普諾夫的收斂性分析，很大程度上提高了論文所提出理論的使用價值。

5結(jié)論

引進一種新的自適應(yīng)算法對非線性連續(xù)系統(tǒng)進行自適應(yīng)動態(tài)最優(yōu)求解。不同Werbos[6]提出的評價執(zhí)行結(jié)構(gòu)，本文基于辨識評價結(jié)構(gòu)，在線對連非線性系統(tǒng)進行最優(yōu)求解。用神經(jīng)網(wǎng)絡(luò)逼近性能指標(biāo)，而且基于自適應(yīng)估計誤差，在線估計神經(jīng)網(wǎng)絡(luò)權(quán)重。比現(xiàn)有文獻所用梯度法和迭代法收斂速度更快，而且收斂效果更加良好。仿真結(jié)果更加有力的證明所提出方法的有效性。

參考文獻

[1]B. R. E， Dynamic programming， Princeton： Princeton University Press， 1957.

[2]SUTTON R S，BARTO A G.Reinforcement learning： an introduction. Cambridge Univ Press， 1998.

[3]WERBOS P J.Approximate dynamic programming for real-time control and neural modeling， Handbook of intelligent control： Neural[J].fuzzy， and adaptive approaches，1992， 15： 493-525.

[4]DREYFUS S E，LAW A M.Art and theory of dynamic programming[M].New York： Academic Press， 1977，56.

[5]MURRAY J J，COX C J，LENDARIS G G， et al. Adaptive dynamic programming， Systems， Man， and Cybernetics， Part C： Applications and Reviews[J]. IEEE Transactions on， 2002， 32（2）： 140-153.

[6]WERBOS P J.A menu of designs for reinforcement learning over time[J].Neural networks for control， 1990：67-95.

[7]ABUKHALAF M，LEWIS F L.Nearly optimal control laws for nonlinear systems with saturating actuators using a neural network HJB approach[J].Automatica， 2005， 41（5）： 779-791.

[8]NA J，HERRMANN G，REN X.， et al. Robust adaptive finitetime parameter estimation and control of nonlinear systems[J].IEEE International Symposium on in Intelligent Control （ISIC）， 2011： 1014-1019.

[9]Na. Jing， Ren. Xuemei， Zhang. Dongdong， Adaptive control for nonlinear purefeedback systems with highorder sliding mode observer[J]. IEEE transactions on neural networks and learning systems， 2013， 24（3）： 370-382.

[10]VAMVOUDAKIS K G，LEWIS F L.Online actorcritic algorithm to solve the continuoustime infinite horizon optimal control problem[J]. Automatica， 2010，46（5）：878-888.

[11]VRABIE D，LEWIS F.Neural network approach to continuoustime direct adaptive optimal control for partially unknown nonlinear systems[J]. Neural Networks， 2009，22（3）： 237-246.

[12]DIERKS T，THUMATI B T，JAGANNATHAN S.Optimal control of unknown affine nonlinear discretetime systems using offlinetrained neural networks with proof of convergence[J].Neural Networks， 2009，22（5）：851-860.

[13]LIU D，WEI Q.Finite approximation error based optimal control approach for discretetime nonlinear systems[J].IEEE Transactions on Cybernetics，2013，43（2）：779-789.

[14]BHASIN S，KAMALAPURKAR R，JOHNSON M， et al.A novel actorcriticidentifier architecture for approximate optimal control of uncertain nonlinear systems[J].Automatica，2013，49（1）：82-92， .

[15]NEVISTI V，PRIMBS J A.Constrained nonlinear optimal control： a converse HJB approach，1996.