摘 要:討論一類隨機(jī)非線性系統(tǒng)的在線優(yōu)化問(wèn)題,系統(tǒng)中的非線性函數(shù)可以是未知的。在基于性能勢(shì)的優(yōu)化方程框架下,通過(guò)系統(tǒng)樣本路徑設(shè)計(jì)性能勢(shì)函數(shù)的在線學(xué)習(xí)算法,進(jìn)一步給出優(yōu)化控制算法。在此基礎(chǔ)上利用RBF神經(jīng)網(wǎng)絡(luò)的逼近特性,給出簡(jiǎn)化學(xué)習(xí)算法以減少計(jì)算量。最后給出的具體仿真結(jié)果和數(shù)據(jù)表明本文算法的有效性。
關(guān)鍵詞:隨機(jī)系統(tǒng);非線性;優(yōu)化;性能勢(shì)函數(shù);RBF網(wǎng)絡(luò)
中圖分類號(hào):TP273.1 文獻(xiàn)標(biāo)識(shí)碼:A
1 引言
一般而言,非線性隨機(jī)系統(tǒng)具有諸多難以求解的問(wèn)題,必須構(gòu)造特殊的算法來(lái)求解隨機(jī)系統(tǒng)的最優(yōu)控制問(wèn)題。對(duì)于確定性系統(tǒng)的最優(yōu)控制問(wèn)題,廣泛采用的方法就是龐特里亞金的最大值原理和貝爾曼的動(dòng)態(tài)規(guī)劃法。對(duì)于隨機(jī)系統(tǒng)的最優(yōu)控制問(wèn)題,運(yùn)用馬爾可夫理論,可以得到隨機(jī)最大值原理和隨機(jī)動(dòng)態(tài)規(guī)劃法,從而構(gòu)成了隨機(jī)系統(tǒng)最優(yōu)控制的現(xiàn)代理論基礎(chǔ)。用于求解隨機(jī)系統(tǒng)最優(yōu)控制律及參數(shù)的方法不外乎兩種;解析法和數(shù)值法。對(duì)于非線性系統(tǒng),解析法通常不能得到確切解;而數(shù)值法不要求代價(jià)函數(shù)具有解析結(jié)構(gòu),但是必須要求首先使用解析算法求出系統(tǒng)最優(yōu)控制律及最優(yōu)狀態(tài)估計(jì)的解析結(jié)構(gòu)。因此,在隨機(jī)系統(tǒng)最優(yōu)控制中最好將兩種方法結(jié)合起來(lái)使用。
在隨機(jī)系統(tǒng)最優(yōu)控制求解的過(guò)程中,最優(yōu)控制量如何能夠快速準(zhǔn)確的得到是實(shí)際工程中亟待解決的問(wèn)題,普通的動(dòng)態(tài)規(guī)劃方法不能夠進(jìn)行在線計(jì)算,所以有必要另外尋求解法來(lái)實(shí)現(xiàn)在線運(yùn)算。
本文中提出性能勢(shì)最先是用來(lái)研究離散事件動(dòng)態(tài)系統(tǒng)的,后來(lái)研究發(fā)現(xiàn)性能勢(shì)能夠?qū)_動(dòng)分析和馬爾可夫鏈建立起一個(gè)統(tǒng)一的模式。從而性能勢(shì)的方法能夠運(yùn)用到隨機(jī)系統(tǒng)的最優(yōu)控制上來(lái)。性能勢(shì)可以僅僅由系統(tǒng)的一條樣本路徑估計(jì)得到,不需要系統(tǒng)的概率轉(zhuǎn)移矩陣等信息,這為求解實(shí)際問(wèn)題帶來(lái)了極大的方便。這種基于性能勢(shì)的優(yōu)化算法能夠在線應(yīng)用。
“注:本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文”