王 濤, 羅敏娜, 王 娜, 崔黎黎
(1. 沈陽師范大學(xué) 計(jì)算機(jī)與數(shù)學(xué)基礎(chǔ)教學(xué)部, 沈陽 110034; 2. 沈陽師范大學(xué) 軟件學(xué)院, 沈陽 110034)
在控制領(lǐng)域中,求解隨機(jī)線性二次(SLQ)最優(yōu)控制問題是一個(gè)非?;钴S和有前景的課題,近些年來引起廣泛的關(guān)注[1-3]。與確定性情況相似,SLQ最優(yōu)控制問題依賴于隨機(jī)代數(shù)Riccati方程(SARE)[4-5]。在一些文獻(xiàn)中已經(jīng)給出求解SARE相應(yīng)的算法。例如,考慮到線性矩陣不等式的可解性等價(jià)于SARE的可解性,引進(jìn)基于半定規(guī)劃的計(jì)算方法求解權(quán)重矩陣不定的SLQ最優(yōu)控制問題[6]。根據(jù)一般化差分Riccati方程,Rami等人[7]得到權(quán)重矩陣不定的離散時(shí)間線性二次最優(yōu)控制集。利用拉格朗日乘子定理得到了線性終端狀態(tài)約束條件下不定的SLQ最優(yōu)線性狀態(tài)反饋解[8]。針對有限時(shí)間不定的平均場SLQ最優(yōu)控制問題,Ni等人[9]給出依賴帶有平穩(wěn)性條件和凸性條件的線性平均場正倒向隨機(jī)差分方程的開環(huán)最優(yōu)控制。采用基于路徑積分的自適應(yīng)評價(jià)算法求解仿射非線性隨機(jī)系統(tǒng)對應(yīng)的最優(yōu)控制策略[10]。在權(quán)重矩陣不定的情況下,Li等人[11]中討論了帶有泊松過程的隨機(jī)哈密頓系統(tǒng)解的存在性和唯一性條件。通過提出一種基于樣本數(shù)據(jù)的數(shù)字方法,充分利用正倒向隨機(jī)微分方程求解隨機(jī)最優(yōu)控制問題[12]。Zhang和Yan[13]基于倒向隨機(jī)微分方程給出混合最優(yōu)控制。
從上面介紹的方法可以發(fā)現(xiàn),求解SLQ最優(yōu)控制問題需要系統(tǒng)參數(shù)的信息,但許多實(shí)際問題的數(shù)學(xué)模型很難建立,如何在模型參數(shù)部分未知的條件下求解有限時(shí)間SLQ最優(yōu)控制問題已成為隨機(jī)最優(yōu)控制領(lǐng)域的研究熱點(diǎn)。本文采用Q學(xué)習(xí)迭代算法求解有限時(shí)間SLQ最優(yōu)控制問題,該方法充分利用系統(tǒng)狀態(tài)信息,避免了系統(tǒng)參數(shù)部分未知的限制。
考慮如下隨機(jī)線性離散時(shí)間系統(tǒng)
(1)
設(shè)系統(tǒng)(1)對應(yīng)的性能指標(biāo)函數(shù)為
(2)
若對于任意初始狀態(tài)x0,存在一個(gè)控制序列使性能指標(biāo)函數(shù)(2)達(dá)到最小值,則稱隨機(jī)線性二次最優(yōu)控制問題是可達(dá)的。本文將在線性反饋控制uk=Lkxk,Lk∈Rm×n中尋找最優(yōu)控制序列,稱常值實(shí)矩陣Lk為控制增益矩陣。下面通過系統(tǒng)變換將有限時(shí)間SLQ最優(yōu)控制問題轉(zhuǎn)化為相應(yīng)的確定性最優(yōu)控制問題。
給定線性反饋控制uk=Lkxk,帶入式(1)得
(3)
相應(yīng)地,性能指標(biāo)函數(shù)(2)轉(zhuǎn)化為
若對任意初始狀態(tài)x0,性能指標(biāo)函數(shù)滿足
則稱隨機(jī)線性二次最優(yōu)控制問題是適應(yīng)的。下面給出隨機(jī)線性二次最優(yōu)控制問題適應(yīng)性條件。
證明 證明過程參考引理1[14]。
引理2 如果隨機(jī)線性二次最優(yōu)控制問題是可達(dá)的,則最優(yōu)控制增益矩陣序列為
(4)
證明 通過矩陣?yán)窭嗜粘俗铀惴ǐ@得最優(yōu)控制增益矩陣序列,首先構(gòu)造拉格朗日函數(shù):
注釋1 由引理2知,最優(yōu)控制增益矩陣序列依賴于系統(tǒng)模型參數(shù)A,B,C,D。雖然參數(shù)A,B是已知的,但參數(shù)C,D是未知的,通過求解SARE獲得最優(yōu)控制增益矩陣序列是行不通的。
根據(jù)貝爾曼最優(yōu)性原理知,
Q函數(shù)定義為
(5)
根據(jù)引理1,最優(yōu)性能指標(biāo)函數(shù)可以表示為
將式(6)帶入式(5),Q函數(shù)又可以寫為
這里定義H矩陣為
則Q函數(shù)簡化為
最優(yōu)控制增益矩陣表示為
注釋2最優(yōu)控制增益矩陣序列僅依賴H矩陣,完全擺脫了系統(tǒng)模型參數(shù)未知的限制。下面通過Q學(xué)習(xí)迭代算法估計(jì)H矩陣序列。
給定系統(tǒng)初始狀態(tài)xk和初始控制u0(xk),設(shè)Q0(xk,uk)=0,則
當(dāng)i≥1時(shí),Q學(xué)習(xí)迭代算法在
(7)
和
(8)
之間迭代。
下面給出Q學(xué)習(xí)迭代算法(7)、(8)的等價(jià)形:
和
(10)
本文提出的Q學(xué)習(xí)迭代算法是建立在值迭代算法基礎(chǔ)之上,下面給出相應(yīng)的值迭代算法
引理4Q學(xué)習(xí)迭代算法式(9)和式(10)等價(jià)于
(13)
證明 式(9)等號(hào)右端最后一項(xiàng)可以寫為
將上式帶入式(9),考慮到系統(tǒng)狀態(tài)xk的任意性,則
根據(jù)Q學(xué)習(xí)迭代算法知,
(15)
將式(15)帶入式(14),則
(16)
在式(15)基礎(chǔ)上,可以得到
結(jié)合式(16),有
(17)
根據(jù)式(10)和式(16),可以得出
(18)
將式(18)帶入式(17),則式(17)可以轉(zhuǎn)化為式(13)。
證明 根據(jù)式(11),知
因?yàn)橄到y(tǒng)狀態(tài)xk的任意性,所以
根據(jù)式(11)和函數(shù)極值的必要條件,則
(20)
將式(20)帶入式(19),則式(19)可以轉(zhuǎn)化為
在實(shí)際問題中,由于系統(tǒng)狀態(tài)依賴于噪聲,所以系統(tǒng)狀態(tài)軌跡具有很強(qiáng)的隨機(jī)性。為了實(shí)現(xiàn)Q學(xué)習(xí)迭代算法,下面通過系統(tǒng)變換將隨機(jī)Q學(xué)習(xí)迭代算法轉(zhuǎn)化為確定性迭代算法。
給定系統(tǒng)初始狀態(tài)x0和控制增益矩陣LN-1,LN-2,…,Lk,則
在系統(tǒng)狀態(tài)轉(zhuǎn)移過程中,控制增益矩陣在不同的時(shí)間區(qū)間上不同,當(dāng)控制增益矩陣序列LN-1,LN-2,…,Lk+1確定后,控制增益矩陣Lk可由下式計(jì)算得到。
根據(jù)式(21)和式(22),式(9)等號(hào)左邊又可寫為
式(9)等號(hào)右邊又可以寫為
本節(jié)將通過一個(gè)仿真例子說明Q學(xué)習(xí)迭代算法的有效性。考慮二階隨機(jī)線性離散時(shí)間系統(tǒng)
通過求解SARE獲得最優(yōu)控制增益矩陣序列需要系統(tǒng)參數(shù)A,B,C,D的全部信息,下面在系統(tǒng)模型參數(shù)部分未知的條件下采用Q學(xué)習(xí)迭代算法求解最優(yōu)控制增益矩陣序列。
圖1 控制增益矩陣L1曲線Fig.1 Control gain matrixL1curves
圖2 控制增益矩陣L0曲線Fig.2 Control gain matrixL0curves
從以上仿真結(jié)果可以看出,在系統(tǒng)模型參數(shù)部分未知的情況下,通過Q學(xué)習(xí)迭代算法獲得的控制增益矩陣序列收斂到各自的最優(yōu)值,這就說明了Q學(xué)習(xí)迭代算法是有效的。
求解SLQ最優(yōu)控制問題通常需要系統(tǒng)參數(shù)全部信息,但在實(shí)際問題中,得到系統(tǒng)參數(shù)信息是一件很困難的事情。當(dāng)系統(tǒng)模型參數(shù)部分未知時(shí),如何獲得最優(yōu)控制變得十分有意義。因?yàn)橄到y(tǒng)參數(shù)的信息包含在系統(tǒng)狀態(tài)中,所以Q學(xué)習(xí)算法充分利用系統(tǒng)狀態(tài)信息求解最優(yōu)控制。最后通過仿真實(shí)例說明了Q學(xué)習(xí)算法的有效性。