朱懷念, 張成科, 曹 銘, 賓 寧
(廣東工業(yè)大學 1.經濟與貿易學院; 2.管理學院,廣東 廣州 510520)
廣義隨機仿射系統的線性二次控制
朱懷念1, 張成科1, 曹銘2, 賓寧2
(廣東工業(yè)大學 1.經濟與貿易學院; 2.管理學院,廣東 廣州 510520)
摘要:研究了一類連續(xù)時間廣義隨機仿射系統的線性二次(Linear Quadratic, LQ)控制問題.在定義了廣義隨機系統穩(wěn)定性的相關概念后,通過一個線性矩陣不等式(Linear Matrix Inequality, LMI)給出了系統穩(wěn)定性的條件.然后,利用Riccati方程法分別研究了有限時間廣義隨機仿射系統的LQ問題和無限時間廣義隨機系統的LQ問題,得到了有限時間最優(yōu)反饋控制的存在條件等價于一個推廣的微分Riccati方程和一個推廣的倒向微分方程存在解,而對應的無限時間最優(yōu)反饋控制的存在條件等價于一個推廣的代數Riccati方程存在解,同時給出了最優(yōu)反饋控制的顯式表達及最優(yōu)性能指標值.
關鍵詞:廣義隨機仿射系統; 線性二次控制; 線性矩陣不等式; Riccati方程
廣義系統[1]是一類更一般化且具有廣泛應用背景的動力系統,大量出現在許多實際的系統模型中,如電力系統、經濟系統、受限機器人、電子網絡和宇航系統等[2],所以對它的研究具有重要的理論意義和實用價值,迄今為止已取得了豐碩成果[3-4].同時,現實世界中的許多系統都不可避免地存在不確定性,這些不確定性影響到人類為尋找最優(yōu)結果而付出的努力,因而隨機系統的研究也引起了學術界越來越多的關注[5-10].
近年來,將兩者結合起來的廣義隨機系統成為了控制領域的一大研究熱點[11-15].文獻[11-12]分別討論了連續(xù)時間廣義混雜系統的穩(wěn)定性和鎮(zhèn)定性,文獻[13]基于廣義混雜系統的穩(wěn)定性結果,提出了廣義線性隨機混雜系統均方穩(wěn)定的判定定理,文獻[14]對文獻[13]的結果進行了改進,得到了連續(xù)時間和離散時間廣義線性It隨機系統穩(wěn)定性的充分條件,文獻[15]研究了連續(xù)時間廣義線性It隨機系統的穩(wěn)定性和LQ控制問題.
縱觀以上文獻發(fā)現,廣義隨機系統的穩(wěn)定性分析已經取得到較豐富的成果,但關于廣義隨機仿射系統LQ控制的研究還比較少.而隨機仿射系統的LQ控制問題有著強大的應用背景,一個典型的例子就是基于隨機LQ框架的連續(xù)時間均值-方差型投資組合選擇問題,通過構造一個輔助問題,可以將該問題轉化為求解一個隨機仿射系統的LQ控制問題,詳細分析見文獻[8].另一個典型的應用就是主-從隨機LQ微分博弈問題,詳細分析見下一節(jié)的研究動機部分.此外,當利用隨機線性系統的LQ控制去逼近求解隨機非線性系統的最優(yōu)控制策略時,隨機仿射系統的LQ控制也發(fā)揮著重要的作用.
本文在文獻[12]和[14]有關廣義隨機系統穩(wěn)定性分析的基礎上,研究廣義隨機仿射系統的LQ控制問題.一方面將文獻[6]中正常線性It隨機系統的LQ控制問題拓展到廣義隨機仿射系統的LQ控制中;另一方面將文獻[15]中廣義線性It隨機系統LQ控制的相關結果推廣至廣義隨機仿射系統中,同時也指出了文獻[15]中有待改進的地方并給出了解釋,因而本文的工作有著較好的理論意義和現實應用價值.
1預備知識
1.1研究動機
考慮有限時間廣義主-從(leader-follower)隨機LQ微分博弈問題,博弈系統的動態(tài)方程為
(1)
其中E是rank(E)=r≤n的n-階常數矩陣;A(·)、B1(·)、B2(·)、C(·)、D1(·)和D2(·)是具有適當維數的有界矩陣;x(·)∈n為狀態(tài)過程;u1(·)和u2(·)是兩個容許控制過程,表示博弈人1(記為從者,follower)和2(記為主者,leader)的控制策略,其允許策略集合分別記為U1[0,T]m1)和U2[0,T]m2);W(·)是定義在完備概率空間(Ω,F,{Ft}t≥0,P)上的一維標準布朗運動.博弈人的性能指標定義為
(2)
其中Qi(·)∈j.
在廣義主-從隨機LQ微分博弈問題中,博弈人i的目標是通過選取控制策略ui(·)∈Ui[0,T]使性能指標Ji(x0;ui(·),uj(·))最小化.進一步,為了得到該博弈問題的均衡解,可將該問題轉化為求解下述兩個隨機LQ問題來實現.
LQ問題1:給定博弈人2的控制策略u2(·)∈U2[0,T],對于固定的x0∈n,博弈人1選擇u1(·)∈U1[0,T],使得).LQ問題2:當博弈人1選擇了其最優(yōu)策略后,博弈人2選擇u2(·)∈U2[0,T],使得
其中f(·)=B2(·)u2(·),g(·)=D2(·)u2(·),這是一個典型的廣義隨機仿射系統的LQ問題.當從者得到其最優(yōu)控制策略后,將最優(yōu)控制策略代回博弈系統的動態(tài)方程(1),求解主者最優(yōu)控制策略的LQ問題2也是一個廣義隨機仿射系統的LQ問題.當E=I時正常系統的主-從隨機LQ微分博弈問題,詳細分析見文獻[16],而一般系統的主-從隨機微分博弈問題,見文獻[17]的詳細論述.
1.2記號和一些有用的引理
令(Ω,F,{Ft}t≥0,P)是一個完備概率空間,其上定義了一個標準布朗運動{W(t)}t≥0,{Ft}t≥0為{W(t)}t≥0生成的自然信息流.對固定的T>0,定義下面的空間:
此外,為了表述的方便,在全文中引入下面記號:
MT:矩陣或向量M的轉置;Tr(M):矩陣M的跡;det(M):矩陣M的行列式;deg(f):多項式f的次數;n×m:n×m階矩陣的全體;Sn:n×n階對稱矩陣的全體;:n×n階非負定對稱矩陣的全體;階正定對稱矩陣的全體;(0,T;X):Banach空間上定義在[0,T]上X-值連續(xù)函數的全體.
考慮下式描述的廣義隨機系統
(4)
為了保證系統(4)解的存在唯一性,引入下面的引理.
引理1[14]如果存在一對非奇異矩陣M∈n×n和N∈n×n,使得對三元組(E,A,F),下述至少一個條件成立時,則式(4)存在唯一解.
其中A1,F1∈r×r,F2∈r×(n-r),F3∈(n-r)×(n-r).
在控制理論中,系統的穩(wěn)定性是一個非常重要的概念,它是系統能否正常工作的最基本條件,因而在研究廣義隨機仿射系統LQ控制問題之前,我們先給出有關系統穩(wěn)定性的一些定義和引理.
定義1[14]對于系統(4)
(i) 如果存在常數s,使得det(sE-A)≠0,則稱系統(4)是正則的;
(ii) 如果deg(det(sE-A))=rank(E),則稱系統(4)是無脈沖的;
(iii) 如果對于任意的允許初態(tài)x0∈n,系統(4)的解x(t)滿足‖x(t)‖2=0,則稱系統(4)是漸近均方穩(wěn)定的;
(iv) 系統(4)是漸近均方容許的,如果它是正則、無脈沖且漸近均方穩(wěn)定的.
引理2[18]設一個n-維過程x(·)滿足隨機微分方程
dx(t)=f(t,x(t))dt+g(t,x(t))dW(t).
給定V(t,x(t))∈2([0,T]×n),則有
dV(t,x(t))=ΓV(t,x(t))dt+
下述引理給出了系統(4)穩(wěn)定的條件,同時修正了文獻[15]中的定理 3.1.
引理3如果存在一個非奇異對稱矩陣P,使得下述LMI成立
ATPE+ETPA+FTPF<0,
(5)
則系統(4)是漸近均方容許的.
證明 首先選取形如
V(x(t))=xT(t)ETPEx(t)
的Lyapunov函數V,然后采取文獻[19]中的分析方法,不難得到系統(4)滿足正則、無脈沖和漸近均方穩(wěn)定的條件,即系統(4)是漸近均方容許的.引理1證畢.
d(xT(t)ETP(t)x(t))=d(xT(t)ET)P(t)x(t)+xT(t)PT(t)d(Ex(t))+d(xT(t)ET)P(t)d(x(t)).此時取而代之的V應該是
V(x(t))=xT(t)ETPEx(t).
2有限時間隨機LQ問題
2.1問題描述
考慮如下的廣義受控系統:
(6)
其中E是rank(E)=r≤n的n-階常數矩陣;x0∈n是給定的初始狀態(tài);m)是一個容許控制過程,其允許策略空間記為Uad.
對每一個(x0,u(·))∈n×Uad,引入經典的二次型性能指標:
(7)
方程(6)的解x(·)稱為控制u(·)∈Uad的響應,(x(·),u(·))稱為一個容許對.最優(yōu)控制問題的目標是對任意給定的x0∈n,通過尋找容許控制u(·)∈Uad,最小化性能指標JT(x0;u(·)).
2.2主要結果
首先引入一個關于P(·)的推廣的微分Riccati方程
(8)
和一個關于φ(·)的推廣的倒向微分方程
(9)
下述定理給出了有限時間隨機LQ問題的主要結果.
u*(t,x)=-K-1(t)[L(t)x(t)+h(t)].
(10)其中L(t)=BT(t)P(t)E+DT(t)P(t)C(t),h(t)=BT(t)φ(t)+DT(t)P(t)g(t),最優(yōu)性能指標為
(11)
證明使用配方法證明,取
V(t,x(t))=xT(t)ETP(t)Ex(t)+2xT(t)ETφ(t),
對xT(t)ETP(t)Ex(t)和2xT(t)ETφ(t)分別使用It公式,得
(12)
(13)
將式(12)和式(13)相加,得
(14)
式(14)在[0,T]上積分,取數學期望,并結合式(7)得
(15)
K(t)=R(t)+DT(t)P(t)D(t)>0,
ETP(T)E=H,ETφ(T)=0,
則最優(yōu)反饋控制和最優(yōu)性能指標分別為
u*(t,x)=-K-1(t)[L(t)x(t)+h(t)].
將最優(yōu)反饋控制u*(t,x)代入式(6)中得
定理1得證.
注2若E=I,隨機LQ問題(6)~(7)退化為一般意義下的線性It系統的隨機LQ問題,該問題首次被Chen和Zhou[6]討論,因而定理1是文獻[6]中Theorem 3.1的拓展.
注3定理1是在假設式(6)-(7)中各系數不包含ω時得到的,當它們包含ω時,即A(·)=A(·,ω),…,定理1則不再成立.理由如下:當A(·)=A(·,ω),…時,我們對V(t,x(t))需作下述形式的假設:
V(t,x(t))=xT(t)ETP(t)Ex(t)+2xT(t)ETφ(t),
其中的ETP(t)E和ETφ(t)滿足下述隨機微分方程
dETP(t)E=Z(t)dt+Λ(t)dW(t),dETφ(t)=Θdt+ΨdW(t),t∈[0,T].
此時僅對xT(t)ETP(t)Ex(t)進行It微分,就可發(fā)現式(16)最后兩項中的dx(t)無法計算,
d(xT(t)ETP(t)Ex(t))=
d(xT(t)ET)P(t)Ex(t)+
xT(t)d(ETP(t)E)x(t)+
xT(t)ETP(t)d(Ex(t))+
d(xT(t))ETP(t)Ed(x(t))+
d(xT(t))d(ETP(t)E)x(t)+
xT(t)d(ETP(t)E)d(x(t)).
(16)
因而定理1不再成立.
3無限時間隨機LQ問題
3.1問題描述
無限時間情形下廣義系統的隨機LQ問題在文獻[15]的第4.2部分已經被討論過,考慮到該文中的部分結果有表述不準確的地方(詳見下文的分析),在本部分仍考慮文獻[15]描述的受控系統:
對系統(17),考慮下述形式的狀態(tài)反饋控制
(18)
將式(18)代回式(17),得到相應的閉環(huán)系統
(19)
定義2系統(17)稱為漸近均方穩(wěn)定的,如果存在一個形如式(17)的狀態(tài)反饋控制,使得閉環(huán)系統(19)是漸近均方穩(wěn)定的.
對每一個(x0,u(·))∈n×U(x0),相應的二次型性能指標為
(20)
其中Q∈Sn,R∈Sm為已知的常數矩陣.再次強調,我們對式(20)中的狀態(tài)權矩陣Q和控制權矩陣R未做任何限定,即R是不定的.
注意到系統(17)中的C≠0,D≠0,此時系統的擴散項中同時包含狀態(tài)和控制,即噪聲依賴于狀態(tài)和控制,這在數理金融學中是常見的,尤其是基于隨機LQ框架下的連續(xù)時間均值-方差型投資組合選擇問題,見Zhou和Li[8].而當C=D=0時,系統(17)退化為一個確定性線性系統.我們知道,對于確定性系統的LQ問題,為了保證所研究問題的適定性,需要限定性能指標中的控制權矩陣R正定,狀態(tài)權矩陣Q非負定,用數學語言描述即為:
(21)
利用配方法,取V(t,x(t))=xT(t)ETPx(t),其中P∈n×n,滿足ETP=PTE.V(t,x(t))對時間t求導得
2uT(t)BTPx(t).
上式先在[0,∞)上積分,然后加到式(21)的二次型指標中,經過運算得到下述受限的代數Riccati方程
(22)
注4在推導式(22)時,構造的V(t,x(t))與文獻[12]研究連續(xù)時間混雜系統穩(wěn)定性時構造的Lyapunov函數形式是一致的,且與文獻[15]的式(25)不同,在文獻[15]中,V(t,x(t))=xT(t)ETPEx(t),進而使得式(25)和最優(yōu)反饋控制均與奇異矩陣E有關,這也在一定程度上反映了隨機系統和確定性系統之間的差別.
本部分考慮的最優(yōu)控制問題是對任意給定的初始值x0∈n,通過尋找容許控制u(·)∈U(x0),最小化性能指標J∞(x0;u(·)).
在給出主要結果之前,給出無限時間LQ問題的一個標準假設[9]:
假設1系統(17)是均方能穩(wěn)的.
3.2主要結果
類似于上一節(jié)得到的有限時間隨機LQ問題的相關結果,我們得到無限時間隨機LQ問題的主要結果如下定理2所示.
定理2在假設1成立的條件下,若下述推廣的代數Riccati方程存在解P∈Sn,
(23)
則無限時間隨機LQ問題(17)-(20)的最優(yōu)反饋控制和最優(yōu)性能指標分別為
(24)
(25)
證明 假設存在P∈Sn滿足式(23),取V(t)=xT(t)ETPEx(t),對V(t)使用It公式得
dV(t)=d(xT(t)ET)PEx(t)+
xT(t)ETPd(Ex(t))+d(xT(t)ET)Pd(Ex(t))=
{uT(t)DTPDu(t)+xT(t)(-Q+LTK-1L)x(t)+
2uT(t)Lx(t)}dt+{…}dW(t),
(26)
其中L=BTPE+DTPC.
由假設1知Ε[V(∞)]=0,將式(26)在[0,∞)上積分,取數學期望,再結合式(20)得
(27)
由式(27)容易得到最優(yōu)反饋控制和最優(yōu)性能指標分別為
定理2得證.
注5定理2中的式(23)與文獻[15]中的式(26)是不同的,之所以這樣是因為在結合式(17)對V(t)使用It公式時,用的是[Cx(t)+Du(t)]TP×[Cx(t)+Du(t)],而文獻[15]使用的是[Cx(t)+Du(t)]TETPE[Cx(t)+Du(t)],因而得到的代數Riccati方程和最優(yōu)反饋控制均存在差別.
注6根據LMI理論,式(23)的解可通過求解一個等價的LMIs來得到
(28)
根據文獻[7]的定理 13,式(28)等價于求解下述半定規(guī)劃問題
(29)
而上述半定規(guī)劃問題在Matlab中已有現成的工具包可供使用,因而式(23)是容易求解的.
4結論
本文針對一類連續(xù)時間廣義隨機仿射系統討論了其線性二次控制問題,在引入廣義隨機系統的穩(wěn)定性概念后,通過一個LMI給出了廣義隨機系統的穩(wěn)定性條件.然后,借助Riccati方程法得到了有限時間廣義隨機仿射系統LQ問題最優(yōu)反饋控制的存在條件等價于一個推廣的微分Riccati方程和一個倒向微分方程存在解,而對應的無限時間廣義隨機系統LQ問題最優(yōu)反饋控制的存在條件等價于一個推廣的代數Riccati方程存在解,并給出了最優(yōu)反饋控制的顯式表達及最優(yōu)性能指標值.值得提出的是,本文一方面推廣了文獻[6]的相關結果,另一方面也通過幾個注解指出了文獻[15]研究中有待改善的地方并給出了解釋.在接下來的研究中,希望能夠利用本文得到的相關結果研究廣義主-從隨機LQ微分博弈問題,這也將充實隨機微分博弈的相關研究.
參考文獻:
[1] LEWIS F L. A survey of linear singular systems[J]. Circuits, Systems and Signal Processing, 1986, 5(1): 3-36.
[2] DAI L. Singular Control Systems[M]. New York: Springer-Verlag, 1989.
[3] HAIDAR A, BOUKAS E K. Exponential stability of singular systems with multiple time-varying delays[J]. Automatica, 2009, 45(2): 539-545.
[4] XU S, LAM J, ZOU Y, et al. Robust admissibility of time-varying singular systems with commensurate time delays[J]. Automatica, 2009, 45(11): 2714-2717.
[5] YONG J, ZHOU X Y. Stochastic Controls: Hamiltonian Systems and HJB Equations[M]. New York: Springer, 1999.
[6] CHEN S, ZHOU X Y. Stochastic linear quadratic regulators with indefinite control weight costs. II[J]. SIAM Journal on Control and Optimization, 2000, 39(4): 1065-1081.
[7] AIT RAMI M, ZHOU X Y. Linear matrix inequalities, Riccati equations, and indefinite stochastic linear quadratic controls[J]. IEEE Transactions on Automatic Control, 2000, 45(6): 1131-1143.
[8] ZHOU X Y, LI D. Continuous-time mean-variance portfolio selection: A stochastic LQ framework[J]. Applied Mathematics & Optimization, 2000, 42(1): 19-33.
[9] LI X, ZHOU X Y. Indefinite stochastic LQ controls with Markovian jumps in a finite time horizon[J]. Communications in Information and Systems, 2002, 2(3): 265-282.
[10] ZHANG W, CHEN B S, TANG H, et al. Some remarks on general nonlinear stochastic H∞control with state, control, and disturbance-dependent noise[J]. IEEE Transactions on Automatic Control, 2014, 59(1): 237-242.
[11] BOUKAS E K. Stabilization of stochastic singular nonlinear hybrid systems[J]. Nonlinear Analysis: Theory, Methods & Applications, 2006, 64(2): 217-228.
[12] XIA Y, BOUKAS E K, SHI P, et al. Stability and stabilization of continuous-time singular hybrid systems[J]. Automatica, 2009, 45(6): 1504-1509.
[13] HUANG L, MAO X. Stability of singular stochastic systems with Markovian switching[J]. IEEE Transactions on Automatic Control, 2011, 56(2): 424-429.
[14] ZHANG W, ZHAO Y, SHENG L. Some remarks on stability of stochastic singular systems with state-dependent noise[J]. Automatica, 2015, 51(1): 273-277.
[15] ZHANG Q, XING S. Stability analysis and optimal control of stochastic singular systems[J]. Optimization Letters, 2014, 8(6): 1905-1920.
[16] YONG J. A leader-follower stochastic linear quadratic differential game[J]. SIAM Journal on Control and Optimization, 2002, 41(4): 1015-1041.
[17] BENSOUSSAN A, CHEN S, SETHI S P. The maximum principle for global solutions of stochastic stackelberg differential games[J]. Ssrn Electronic Journal, 2012,53(4). DOI: 10.2139/ssrn.2413990.
[18] ?KSENDAL B. Stochastic differential equations: an introduction with applications[M]. 5th ed. New York: Springer-verlag, 1998.
[19] XU S, VAN DOOREN P, STEFAN R, et al. Robust stability and stabilization for singular systems with state delay and parameter uncertainty[J]. IEEE Transactions on Automatic Control, 2002, 47(7): 1122-1128.
Linear Quadratic Control of Continuous-time Singular Stochastic Affine Systems
Zhu Huai-nian1, Zhang Cheng-ke1, Cao Ming2, Bin Ning2
(1.School of Economics & Commence; 2.School of Management, Guangdong University of Technology, Guangzhou 510520, China)
Abstract:Linear quadratic control of a class of continuous-time singular stochastic affine systems is investigated. After establishing some concepts of the stability for stochastic singular systems, the condition of the stability is presented by means of a linear matrix inequality. Then, by utilizing Riccati equation approach, the existent conditions of optimal feedback control in finite horizon and infinite horizon are respectively obtained by means of a generalized differential Riccati equation or a generalized algebraic Riccati equation. And explicit expressions of the optimal feedback controls and optimal cost function are given.
Key words:singular stochastic affine systems; linear quadratic control; linear matrix inequality; Riccati equation
收稿日期:2015-09-17
基金項目:國家自然科學基金資助項目(71771061, 11501129, 71571053);廣東省自然科學基金資助項目(2015A030310218, 2014A030310366)
作者簡介:朱懷念(1985-),男,講師,博士,主要研究方向為動態(tài)博弈理論及其應用.
doi:10.3969/j.issn.1007-7162.2016.02.005
中圖分類號:F224.32
文獻標志碼:A
文章編號:1007-7162(2016)02-0024-07