周洪敏 羅賢兵 葉昌倫
(貴州大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,貴陽550025)
本文考慮如下隨機(jī)最優(yōu)控制問題:
其中,容許控制集Λ 是L2[0,T]的一個(gè)閉凸子集;f,h,φ,g分別是關(guān)于(y,u),y,y和(y,u)的連續(xù)可微函數(shù),且它們的導(dǎo)數(shù)一致有界. 在上述條件下,隨機(jī)最優(yōu)控制問題(1.1)-(1.2)有唯一解[1,2].
文獻(xiàn)[3-8]給出了許多求解確定性最優(yōu)控制問題的數(shù)值方法. 近年來,隨機(jī)最優(yōu)控制問題的數(shù)值方法得到了廣泛關(guān)注.較為常用的是基于動(dòng)態(tài)規(guī)劃原理的方法[9,10],該方法通常需要求解對(duì)應(yīng)的Hamilton-Jacobi-Bellman 方程[1,11]. 除此之外,基于隨機(jī)最大值原理(SMP)的數(shù)值方法[12,13,14]也是求解隨機(jī)最優(yōu)控制問題的一種經(jīng)典方法. 本文結(jié)合文獻(xiàn)[15]中的基于SMP 的梯度投影優(yōu)化方法進(jìn)行研究.
蒙特卡洛(MC) 方法[16]是處理隨機(jī)問題的一種非常重要的方法, 但收斂速度慢. 其改進(jìn)的方法有很多, 如多水平蒙特卡洛方法[17,18]和擬蒙特卡洛(QMC)方法[19,20,21]. 相對(duì)于MC 方法,QMC 方法有更快的收斂速度. 為能有效地利用QMC 方法, 將(1.2) 中的Brown 運(yùn)動(dòng)W(t) 按Karhunen-Lo`eve(K-L)方法展開為
其中ξj~N(0,1),λj和φj(t)分別是Brown 運(yùn)動(dòng)對(duì)應(yīng)的協(xié)方差算子的特征值和特征函數(shù). 為使隨機(jī)抽樣維數(shù)和時(shí)間離散點(diǎn)獨(dú)立,將無限維轉(zhuǎn)化為有限維,對(duì)(1.3)式截?cái)嗟降趕項(xiàng),即
本文針對(duì)隨機(jī)最優(yōu)控制問題(1.1)-(1.2),首先對(duì)Brown 運(yùn)動(dòng)按K-L 方法展開并進(jìn)行截?cái)郲26],然后使用QMC 方法中的Sobol 點(diǎn)序列抽樣,最后結(jié)合梯度投影優(yōu)化算法數(shù)值求解最優(yōu)控制問題,分析數(shù)值近似誤差,并通過數(shù)值實(shí)驗(yàn)驗(yàn)證方法的有效性.
本節(jié)首先根據(jù)SMP 給出最優(yōu)控制問題(1.1)-(1.2)的最優(yōu)化系統(tǒng),其次對(duì)該系統(tǒng)按K-L 方法展開并進(jìn)行截?cái)?然后對(duì)截?cái)嗪蟮南到y(tǒng)作Euler 離散,最后用QMC 方法近似梯度泛函J′(u)中的期望.
最優(yōu)控制問題(1.1)-(1.2)的Hamilton 函數(shù)為:
其中,耦合過程(p,q)是伴隨過程對(duì),且滿足隨機(jī)微分方程:
在合適的假設(shè)下,方程(2.1)有很好的適定性[15],且伴隨狀態(tài)p(t)滿足:
設(shè){W(t)}0≤t≤T是 定 義 在 概 率 空 間(Ω,F,{Ft}t∈[0,T],P) 上 的 一 維Brown 運(yùn) 動(dòng), 其 中{Ft}t∈[0,T]是由{W(t)}0≤t≤T生成的信息流.
利用(1.4),將系統(tǒng)(2.2)截?cái)嘟茷?
對(duì)于系統(tǒng)(2.4),結(jié)合梯度投影優(yōu)化方法[15],本文給出如下不動(dòng)點(diǎn)迭代算法:
所以誤差?N主要包括K-L 截?cái)嗾`差,Euler 離散誤差和QMC 積分誤差.
為了給出后續(xù)的誤差估計(jì)的證明,我們需要如下幾個(gè)假設(shè).
引理1 若假設(shè)1 和假設(shè)2 成立,且?p(t)有界,則有
對(duì)于任意的QMC 點(diǎn)集P={ζ1,ζ2,··· ,ζn}和平移Δ∈[0,1]s,令P+Δ={{ζi+Δ}:i=1,2,··· ,n}是平移的QMC 點(diǎn)集. 定義一個(gè)權(quán)重未錨定的Sobolev 空間?γ,s: 對(duì)于?F ∈?γ,s,其范數(shù)定義為[21]
?ym(·,ξ)也滿足(3.10)式,其中a?b表示a ≤Cb,C為正常數(shù).
證明 當(dāng)ν=0 時(shí),(3.10)顯然成立. 現(xiàn)考慮ν/=0 的情況.
首先對(duì)方程(1.2)兩邊同時(shí)用Leibniz 求積公式,得到
本節(jié)將對(duì)一個(gè)隨機(jī)最優(yōu)控制問題進(jìn)行數(shù)值模擬,通過數(shù)值實(shí)驗(yàn)驗(yàn)證其K-L 截?cái)嗾`差和QMC近似誤差與理論結(jié)果的一致性.
考慮如下隨機(jī)最優(yōu)控制問題[15]:
將問題(4.1)轉(zhuǎn)化為如下最優(yōu)化系統(tǒng):
取n=210個(gè)Sobol 點(diǎn),固定單個(gè)的隨機(jī)平移Δ,用QMC 積分近似期望. 狀態(tài)y和對(duì)偶狀態(tài)p的K-L 截?cái)嗾`差分別如圖1,圖2 所示.
圖1 狀態(tài)y 的K-L 截?cái)嗾`差
圖2 狀態(tài)p 的K-L 截?cái)嗾`差
圖3 MC 誤差
圖4 QMC 誤差
從圖5 可見數(shù)值解和精確解基本吻合,表明基于梯度投影優(yōu)化算法的QMC 方法有效.
圖5 最優(yōu)控制的精確解和數(shù)值解
數(shù)學(xué)理論與應(yīng)用2022年3期