,,(山東科技大學(xué) 數(shù)學(xué)與系統(tǒng)科學(xué)學(xué)院,山東 青島 266590)
近幾十年來(lái),馬爾科夫跳變系統(tǒng)獲得極大關(guān)注,并被應(yīng)用于各個(gè)領(lǐng)域,例如航天器設(shè)計(jì)、太陽(yáng)能站、衛(wèi)星動(dòng)態(tài)系統(tǒng)、證券投資組合最優(yōu)化以及通訊網(wǎng)絡(luò)等。文獻(xiàn)[1]中有很多關(guān)于離散時(shí)間馬爾科夫跳變系統(tǒng)的基礎(chǔ)知識(shí),文獻(xiàn)[2]則講解關(guān)于最優(yōu)控制的基本問(wèn)題和應(yīng)用。文獻(xiàn)[3]是隨機(jī)奇異系統(tǒng)的線性二次帕累托最優(yōu)控制問(wèn)題,文獻(xiàn)[4]研究隨機(jī)的離散時(shí)間線性二次最優(yōu)控制問(wèn)題,文獻(xiàn)[5]和[6]分別研究離散時(shí)間平均場(chǎng)線性二次最優(yōu)控制問(wèn)題對(duì)于有限和無(wú)限時(shí)間的情況。
最優(yōu)控制理論由經(jīng)典變分學(xué)發(fā)展起來(lái),其歷史可追溯到360年前。但是直到上世紀(jì)60年代,人們才真正對(duì)其產(chǎn)生興趣[7]。文獻(xiàn)[8]利用一種非協(xié)調(diào)有限元局部穩(wěn)定化方法解決Navier-Stokes方程的最優(yōu)化問(wèn)題。動(dòng)力學(xué)系統(tǒng)的數(shù)學(xué)模型為線性方程,所取的性能指標(biāo)為狀態(tài)變量與控制變量的二次型函數(shù),這種動(dòng)態(tài)系統(tǒng)的最優(yōu)化問(wèn)題稱為線性二次型(linear quadratic, LQ)問(wèn)題。由于LQ問(wèn)題的最優(yōu)解具有統(tǒng)一的解析表達(dá)式,且可得到一個(gè)線性的狀態(tài)反饋控制律,便于計(jì)算和實(shí)現(xiàn)閉環(huán)反饋控制,從而成為最優(yōu)控制理論及應(yīng)用中最成熟的部分[9]。文獻(xiàn)[10]研究一類含消費(fèi)、壽險(xiǎn)和投資的隨機(jī)最優(yōu)控制問(wèn)題。
馬爾科夫跳系統(tǒng)作為一類典型的混雜動(dòng)態(tài)系統(tǒng),由于其強(qiáng)大的建模能力在各個(gè)領(lǐng)域已經(jīng)得到廣泛的應(yīng)用[11]。文獻(xiàn)[12]研究帶有馬爾科夫跳變參數(shù)的連續(xù)時(shí)間線性二次問(wèn)題。文獻(xiàn)[13]討論連續(xù)時(shí)間馬爾科夫跳變系統(tǒng)的時(shí)變問(wèn)題,通過(guò)一個(gè)帶有馬爾科夫跳變的性能指標(biāo)來(lái)解決不定線性二次最優(yōu)控制問(wèn)題,并研究了代替平均差的標(biāo)準(zhǔn)。
本文研究一類離散時(shí)間平均場(chǎng)隨機(jī)線性二次最優(yōu)控制問(wèn)題。平均場(chǎng)能夠簡(jiǎn)化對(duì)復(fù)雜問(wèn)題的研究,把一個(gè)高次、多維的難以求解的問(wèn)題轉(zhuǎn)化為一個(gè)低維問(wèn)題。近來(lái),平均場(chǎng)類型的隨機(jī)最大值原理獲得廣泛關(guān)注,文獻(xiàn)[14]研究局部信息下平均場(chǎng)類型最優(yōu)控制問(wèn)題的隨機(jī)最大值原理。文獻(xiàn)[15]在傳統(tǒng)傳染病SIR模型的基礎(chǔ)上,利用平均場(chǎng)改進(jìn)為一個(gè)基于用戶影響力的信息傳播模型。文獻(xiàn)[16]通過(guò)變分法,推導(dǎo)出平均場(chǎng)類型的隨機(jī)最大值原理的最優(yōu)化系統(tǒng)是一個(gè)線性平均場(chǎng)前后隨機(jī)差分方程。
文獻(xiàn)[17]針對(duì)跳變系統(tǒng)參數(shù)矩陣不確定的情況,引進(jìn)一種新的分解技術(shù),將不同時(shí)刻下的系統(tǒng)綜合考慮,以矩陣塊的方式給出最優(yōu)控制的表達(dá)式。與文獻(xiàn)[17]相比較,本研究將系統(tǒng)和性能指標(biāo)的加權(quán)矩陣推廣到不定的情況,首先定義一個(gè)差分黎卡提方程,并得到最優(yōu)控制存在的充分條件是黎卡提方程可解,給出最優(yōu)控制的一般表達(dá)式以及不考慮平均場(chǎng)時(shí)的特殊形式,可視為對(duì)文獻(xiàn)[17]結(jié)果的一個(gè)推廣。
研究如下帶有乘性噪音的系統(tǒng):
(1)
其中:A,C∈Rn×n和B,D∈Rn×m都是對(duì)稱矩陣,x(k)和u(k)分別是狀態(tài)變量和控制變量。噪聲擾動(dòng)參數(shù)ω≡{ωk}以及狀態(tài)初始值η均定義在完備概率空間(Ω,F,P)上。狀態(tài)初始值η是0時(shí)刻的狀態(tài)值,即η=x(0)。噪聲擾動(dòng)參數(shù)ω是一個(gè)有限二階矩的鞅差分序列,并且E[ωk+1|Fk]=0,其中Fk是由集合{x(0),ωl,θl,l=0,1,…,k}所產(chǎn)生的σ-代數(shù),并且滿足:
(2)
考慮下面的性能標(biāo)準(zhǔn):
J(x(0),u(k),θ0)
(3)
pij=P(θk+1=j|θk=i),i,j∈M,k∈Γ。
(4)
E是期望算子,對(duì)于k=0,1,…,N,記:
定義1.1(MF-LQ) 對(duì)于任意的初始值η,如果存在u0(k)∈U使得:
(5)
其中,U是可容許控制集,則稱u0(k)是MF-LQ問(wèn)題的最優(yōu)控制。
本研究系統(tǒng)和性能指標(biāo)的加權(quán)矩陣可以是不定的,為方便后續(xù)使用,引入廣義逆矩陣的定義。
定義1.2[18]給定矩陣Q∈Rm×n,則存在一個(gè)唯一的矩陣Q+∈Rn×m,稱為Q的廣義逆矩陣,使得:
(6)
引理1.3[18]給定對(duì)稱矩陣L,M,N,則矩陣方程LXM=N有解X的充要條件是:
LL+NMM+=N,
并且解的一般表達(dá)式為X=L+NM++Y-L+LYMM+,其中Y是合適維數(shù)的任意矩陣。
為定義系統(tǒng)(1)的廣義黎卡提差分方程,先引入兩個(gè)等式
E[x′(N)PθN(N)x(N)]-E[x′(0)Pθ0(0)x(0)]
(7)
以及
(8)
通過(guò)噪聲擾動(dòng)參數(shù)的性質(zhì)以及簡(jiǎn)單的計(jì)算有:
E[x′(k+1)Pθk(k+1)x(k+1)|Fk]
=x′(k)[A′(k)E(Pθk(k+1))A(k)+C′(k)E(Pθk(k+1))C(k)]x(k)
+2x′(k) [A′(k)E(Pθk(k+1))B′(k) +C′(k)E(Pθk(k+1))C′(k)]u(k)
+u′(k)[B′(k)E(Pθk(k+1))B′(k)+D′(k)E(Pθk(k+1))D′(k)]x(k),
(9)
故有:
E[x′(N)PθN(N)x(N)]-E[x′(0)Pθ0(0)x(0)]
+2x′(k)[A′(k)E(Pθk+1(k+1))B(k)+C′(k)E(Pθk+1(k+1))D(k)]u(k)
+u′(k)[B′(k)E(Pθk+1(k+1))B(k)+D′(k)E(Pθk+1(k+1))D(k)]u(k)},
(10)
(11)
通過(guò)式(3)以及式(7)、(8)、(10)、(11),有:
J(x(0),u(k),θ0)
-Pθk(k)]x(k)+2x′(k) [A′(k)E(Pθk+1(k+1))B(k)+C′(k)E(Pθk+1(k+1))D(k)]u(k)
+u′(k) [Sθk(k)+B′(k)E(Pθk+1(k+1))B(k) +D′(k)E(Pθk+1(k+1))D(k)]u(k)
(12)
定義2.1給出下面的約束差分方程:
(13)
其中
(14)
和
(15)
其中
(16)
稱為乘性噪聲系統(tǒng)的廣義差分黎卡提方程。
定理2.2對(duì)于線性二次最優(yōu)化問(wèn)題(1)、(3)、(5),最優(yōu)控制:
(17)
(18)
證明:通過(guò)簡(jiǎn)單的完全平方計(jì)算以及定義2.1,(12)式可以轉(zhuǎn)化為:
J(x(0),u(k),θ0)
×E(Pθk + 1(k+ 1))C(k)](x(k)-Ex(k))+ 2(x(k)-Ex(k))[A′(k)
×E(Pθk + 1(k+ 1))B(k) +C′(k)E(Pθk + 1(k+ 1))D(k)](u(k)-Eu(k))
+ (u(k)-Eu(k))[Sθk(k) +B′(k)E(Pθk + 1(k+ 1))B(k) +D′(k)
+A′(k)E(Pθk + 1(k+ 1))A(k)]Ex(k) + (Ex(k))[C′(k)(E(Pθk + 1(k+ 1))
+E(x′(0)Pθ0(0)x(0))
(19)
令
(20)
求解方程組(20),得最優(yōu)控制的表達(dá)式為:
(21)
相應(yīng)的性能指標(biāo)的最小值:
(22)
證明結(jié)束。
注釋2.3特別地,當(dāng)系統(tǒng)(1)、(4)、(5)中加權(quán)矩陣正定時(shí),并且系統(tǒng)中不再考慮跳變參數(shù)時(shí),定理2.2變?yōu)槲墨I(xiàn)[23]定理3.1。
推論2.4當(dāng)性能指標(biāo)中不考慮平均場(chǎng),對(duì)應(yīng)的最優(yōu)控制為:
(23)
相應(yīng)性能指標(biāo)最小值:
(24)
證明:通過(guò)定義2.1 和簡(jiǎn)單的完全平方計(jì)算,(12)式可以轉(zhuǎn)換為:
J(x(0),u(k),θ0)
-Pθk(k)]x(k)+2x′(k) [A′(k)E[Pθk+1(k+1)]B(k)+C′(k)E[Pθk+1(k+1)]D(k)]u(k)
+u′(k) [Sθk(k)+B′(k)E[Pθk+1(k+1)]B(k)+D′(k)E[Pθk+1(k+1)]D(k)]u(k)}
+E[x′(0)Pθ0(0)x(0)]
+E[x′(0)Pθ0(0)x(0)],
(25)
則最優(yōu)控制為:
(26)
相應(yīng)性能指標(biāo)最小值:
(27)
證明結(jié)束。
這一部分研究一個(gè)數(shù)值例子。對(duì)于給定的系統(tǒng):
考慮下面的性能指標(biāo):
其中,馬爾科夫鏈θ的取值為1,2,轉(zhuǎn)移概率矩陣為:
其中
pij=p(θk+1=j|θk=i),i,j=1,2,k=0,1,2。
對(duì)于任意的k=0,1,2,當(dāng)θk=1時(shí),
對(duì)于任意的k=0,1,2,當(dāng)θk=2時(shí),
通過(guò)式(13)~(16),對(duì)于任意的k=0,1,2,當(dāng)θk=1時(shí),有:
最優(yōu)控制(17)式中的對(duì)應(yīng)系數(shù)如下:
當(dāng)對(duì)于任意的k=0,1,2,當(dāng)θk=2時(shí),有:
最優(yōu)控制(17)式中的對(duì)應(yīng)系數(shù)如下:
則最優(yōu)控制和性能指標(biāo)的表達(dá)式如下:
以及
和
令x(0)=(0,1)′,則
研究了乘性噪聲系統(tǒng)的不定平均場(chǎng)隨機(jī)線性二次最優(yōu)控制問(wèn)題,系統(tǒng)和性能指標(biāo)中的參數(shù)矩陣允許是不定的,首先定義一種廣義差分黎卡提差分方程,證明其可解性是最優(yōu)控制存在的充分條件。其次,推導(dǎo)出最優(yōu)控制的一般表達(dá)式。最后,給出沒(méi)有平均場(chǎng)時(shí)最優(yōu)控制的特殊形式。
參考文獻(xiàn):
[1]COSTA O L V,FRAGOSO M D,MARQUES R P.Discrete-time Markov jump linear systems[M].London:Springer-Verlar,2005:916-917.
[2]解學(xué)書.最優(yōu)控制理論與應(yīng)用[M].北京:清華大學(xué)出版社,1986.
[3]ZHANG W H,LIN Y N,XUE L G.Linear quadratic Pareto optimal control problem of stochastic singular systems[J].Journal of the Franklin Institute,2017,354(2):1220-1238.
[4]LIU X K,LI Y,ZHANG W H.Stochastic linear quadratic optimal control with constraint for discrete-time systems[J].Applied Mathematics and Computation,2014,228:264-270.
[5]ELLIOTT R,LI X,NI Y H.Discrete time mean-field stochastic linear-quadratic optimal control problem[J].Automatica,2013,49:3222-3233.
[6]NI Y H,ELLIOTT R,LI X.Discrete time mean-field stochastic linear-quadratic optimal control problem,II:Infinite horizon case[J].Automatica,2015,57:65-77.
[7]韋蘭用.最優(yōu)控制問(wèn)題研究綜述[D].長(zhǎng)春:吉林大學(xué),2006.
[8]覃艷梅,李輝,馮民富.Navier-Stokes方程最優(yōu)控制問(wèn)題的一種非協(xié)調(diào)有限元局部穩(wěn)定化方法[J].應(yīng)用數(shù)學(xué)和力學(xué),2016,37(8):842-855.
QIN Yanmei,LI Hui,FENG Mingfu.A local stabilization nonconforming finite element method for the optimal control of Navier-Stokes equations[J].Applied Mathematics and Mechanics,2016,37(8):842-855.
[9]馬宏基.不定隨機(jī)線性二次最優(yōu)控制若干問(wèn)題的研究[D].青島:山東科技大學(xué),2007.
[10]梁宗霞,趙笑陽(yáng).一類含消費(fèi)、壽險(xiǎn)和投資的隨機(jī)最優(yōu)控制問(wèn)題[J].中國(guó)科學(xué),2016,46(12):1863-1882.
LIANG Zongxia,ZHAO Xiaoyang.Optimal investment,consumption and life insurance under stochastic framework[J].Science China,2016,46(12):1863-1882.
[11]李繁飆.半馬爾科夫跳變系統(tǒng)的分析和綜合[D].哈爾濱:哈爾濱工業(yè)大學(xué),2015.
[12]ZHOU J.On stochastic Riccati equations for the stochastic LQR problem[J].Systems & Control Letters,2005,54(2):119-124.
[13]DRAGAN V,MOROZAN T.The linear quadratic optimization problems for a class of linear stochastic systems with multiplicative white noise and Markovian jumping[J].IEEE Transactions on Automatic Control,2004,49(5):665-675.
[14]WANG G C,ZHANG C H,ZHANG W H.Stochastic maximum principle for mean-field type optimal control under partial information[J].IEEE Transactions on Automatic Control,2014,59(2):522-528.
[15]肖云鵬,李松陽(yáng),劉宴兵.一種基于社交影響力和平均場(chǎng)理論的信息傳播動(dòng)力學(xué)模型[J].物理學(xué)報(bào),2017,66(3):1-13.
XIAO Yunpeng,LI Songyang,LIU Yanbing.An information diffusion dynamic model based on social influence and mean-filed theory[J].Acta Physica Sinica,2017,66(3):1-13.
[16]YONG J M.A linear quadratic optimal control problem for mean-field stochastic differential equations[J].SIAM Journal on Control Optimization,2013,51(4):2809-2838.
[17]NI Y H,LI X,ZHANG J F.Mean-field stochastic linear-quadratic optimal control with Markov jump parameters[J].Systems & Control Letters,2016,93:69-76.
[18]RAMI M A,CHEN X,ZHOU X Y.Discrete-time indefinite LQ control with state and control dependent noises[J].Journal of Global Optimization,2002,23:245-265.