張芬, 王源昌, 雷丹
(云南師范大學(xué) 數(shù)學(xué)學(xué)院,云南 昆明 650500)
微分博弈可以分為:自治微分博弈、非自治微分博弈、協(xié)調(diào)微分博弈、主從微分博弈等.微分博弈策略問題起源于20世紀(jì)50年代,由于軍事、政治、經(jīng)濟(jì)等方面的需要才逐漸的將現(xiàn)代控制理論中的一些概念和原理引入到博弈論中.也因此微分博弈的研究越來越受到廣泛的關(guān)注.
從微分博弈發(fā)展的角度來分析,不難發(fā)現(xiàn)運(yùn)籌學(xué)中的博弈論和現(xiàn)代控制理論的最優(yōu)控制理論對(duì)其發(fā)展有著極大的推進(jìn)作用.本文主要研究的是非自治微分博弈問題.對(duì)于在一個(gè)給定區(qū)間內(nèi)的線性系統(tǒng)以及二次性能支付函數(shù)(或非二次性能支付函數(shù)),前人已經(jīng)做了很多相關(guān)的研究[1-4].對(duì)于線性二次支付函數(shù)一般是結(jié)合黎卡提方程來給出最優(yōu)策略[5-6],而對(duì)于非二次線性支付函數(shù)一般是用擬黎卡提方程[7]來給出最優(yōu)策略.在用擬黎卡提方程求解的時(shí)候一般是結(jié)合閉環(huán)表示定理來給出其最優(yōu)策略的顯示表達(dá)式,而本文將通過利用雙方極值原理的方法給出最優(yōu)策略,然后和黎卡提方程相結(jié)合.其次本文的主要思路來自于文獻(xiàn)[8-12],尤運(yùn)程[10]研究的是自治情況下的二人微分博弈,而本文研究的是非自治情況下的二人微分博弈.關(guān)于自治和非自治的區(qū)別[2]在后面說明.
通過整理可以知道:線性二次最優(yōu)控制問題是可以解到底的最優(yōu)控制問題;線性非二次最優(yōu)控制問題同樣很重要,但是大多數(shù)情況下都只是考慮自治的情況,而本文將考慮非自治情況.給定狀態(tài)方程[1-2]:
(1)
非自治和自治的主要區(qū)別在于狀態(tài)方程(1)中A(·)、B(·)、C(·)是否依賴于時(shí)間變量t,如果依賴于則稱其是非自治的,反之稱其是自治的.其中,A(·):[t0,T)→Rn×n,B(·):[t0,T)→Rn×m,C:[t0,T)→Rn×k,y(·)∈C([t0,T];Rn)的解初始狀態(tài)y0∈Rn,初始時(shí)間t0∈[0,+∞),而u(t)和v(t)分別是取值于Rm和Rk的函數(shù).將X=L2(t0,T;Rn),Xc=C([t0,T];Rn),U=L2(t0,T;Rk)以及V=L2(t0,T;Rk)定義為所需要的函數(shù)空間.任何的{u,v}∈U×V稱為可以執(zhí)行的策略.
其性能指標(biāo)函數(shù)形式如下:
(2)
其中h(·):Rn→R,且h(y(T))定義為C2(Rn)函數(shù),R(t):[t0,T]→Rn×m,且R(t)定義為是m×m的正定矩陣,S:[t0,T]→Rn×k,且S(t)定義為是k×k的負(fù)定矩陣.
假設(shè)1.1[2]函數(shù)A(·),B(·)和C(·)滿足:
且控制區(qū)域U和V都是非空的.
對(duì)于式(1)的狀態(tài)方程和式(2)的性能指標(biāo)函數(shù),其中u∈U,是盡可能使性能指標(biāo)函數(shù)J取極小可能值;對(duì)于v∈V,是盡可能地使性能指標(biāo)函數(shù)J取極大可能值,亦即尋求最優(yōu)策略(u*,v*)使:
J(u*,v)≤J(u*,v*)≤J(u,v*)
(3)
如果滿足式(3)鞍點(diǎn)條件的(u*(t),v*(t))存在,則稱(u*(t),v*(t))為二人零和微分博弈問題的最優(yōu)對(duì)策,且稱(u*(t),v*(t))∈U×V是J的鞍點(diǎn)[4],對(duì)于所有的可行策略u(píng)∈U和v∈V.
根據(jù)最優(yōu)性能指標(biāo)函數(shù)的定義得:
(4)
所以如果滿足上式的最優(yōu)策略存在[5-6],則稱J*=J(y0,u*,v*)為微分博弈的最優(yōu)指標(biāo)[5,7-10].
在狀態(tài)方程(1)和性能指標(biāo)函數(shù)(2)的基礎(chǔ)上,考慮下面的一個(gè)微分博弈問題,即將其時(shí)間取值于區(qū)間[τ,T]上,并且τ∈[t0,T]中的任意值,用(DGP)τ來重新定義狀態(tài)方程:
(5)
且其性能指標(biāo)函數(shù)為:
(6)
其所要滿足的鞍點(diǎn)條件為:
Jτ(u*(t),v(t))≤Jτ(u*(t),v*(t))≤Jτ(u(t),v*(t))
(7)
現(xiàn)在問題轉(zhuǎn)化為尋找一對(duì)滿足不等式(7)的可行策略{u*,v*}.
假設(shè)2.1[10]對(duì)于任取的τ∈[t0,T],由(5),(6)和(7)定義的微分博弈問題存在一對(duì)鞍點(diǎn)策略.
從微分博弈問題的描述以及最優(yōu)策略的定義不難發(fā)現(xiàn),微分博弈問題和最優(yōu)控制問題之間是緊密相關(guān)的,因此兩者間的處理方式是類似的.所以考慮用解決最優(yōu)控制問題的雙方極值原理(極大極小值原理)[11]來求解線性非二次微分博弈的最優(yōu)策略(u*(t),v*(t))∈U×V.
引進(jìn)哈密爾頓函數(shù)H:
H(y,u,v,φ,t)=〈A(t)y(t)+B(t)u(t)+C(t)v(t),φ〉
(8)
利用雙極值原理,則可以得到如下形式的共軛方程和橫截面條件:
(9)
通過計(jì)算可得共軛方程的解如下:
(10)
因?yàn)镠分別關(guān)于u、v是二階連續(xù)可微的,所以分別對(duì)H關(guān)于u,v求偏微分并且令其等于零,則可以知道最優(yōu)控制策略{u(t)*,v(t)*}應(yīng)滿足下面的形式,即:
(11)
所以可以得到最優(yōu)策略對(duì){u(t)*,v(t)*}的形式如下:
(12)
根據(jù)哈密爾頓函數(shù)的表達(dá)式可知,由上面所給出的u*(t)使哈密爾頓函數(shù)盡可能的取最小值;而v*(t)使哈密爾頓函數(shù)盡可能的取最大值,即滿足下面的等式:
(13)
通過利用常數(shù)變易公式給出如下形式的狀態(tài)軌跡方程:
(14)
在此將所求得的策略代入性能指標(biāo)函數(shù),通過計(jì)算得到其滿足鞍點(diǎn)條件,最后將滿足鞍點(diǎn)條件的策略{u*(t),v*(t)}代入上面的狀態(tài)軌跡y(t)中,當(dāng)t∈[τ,T]便得到下式:
(15)
令(15)中的t=T便可以得到下式:
(16)
結(jié)合(15)式給出一個(gè)非線性代數(shù)方程,其形式如下:
(17)
現(xiàn)假設(shè)對(duì)于(17)式的左邊關(guān)于x求導(dǎo)所得到的I+G(T-τ)h''(x)是可逆的,從上式不難發(fā)現(xiàn)當(dāng)x=y(T;y0,τ)=y(T)時(shí)就是方程(17)的一個(gè)解,對(duì)于每一個(gè)τ∈[t0,T],定義一個(gè)映射Kτ:Rn→Rn:
Kτ(x)=x+G(T-τ)h'(y(T))
(18)
假設(shè)3.1[10]設(shè)h是Rn上的解析函數(shù),并且K是一直強(qiáng)制的關(guān)于τ,只要‖x‖→∞則‖Kτ(x)‖→∞.
引理3.2[10]在假設(shè)5和(17)下,對(duì)于每一個(gè)τ∈[t0,T],映射Kτ在Rn上是C1微分同胚映射.
引理3.3[12](隱函數(shù)的推廣)若:
①映射F(t,y,x)在以點(diǎn)(t0,y0,x(T))為內(nèi)點(diǎn)的區(qū)間內(nèi)是一階連續(xù)的可微映射;
②F(t0,y0,x)=0;
③映射F(t,y,x)關(guān)于t,y,x的偏導(dǎo)存在并且是線性同胚映射;
④映射Fx(t,y,x)≠0;
則在以點(diǎn)(t0,y0)為內(nèi)點(diǎn)的領(lǐng)域內(nèi)存在唯一的連續(xù)隱射f,使得f(T-t0,y0)=x(T)和F(t,y,f(T-t,y0))≡0,并且x=f(T-t,y)在以點(diǎn)(t0,y0)為內(nèi)點(diǎn)的領(lǐng)域內(nèi)存在連續(xù)偏導(dǎo)數(shù):ft(T-t,y),fy(T-t,y):
ft(T-t,y)=-[Fx(t,y,f(T-t,y))]-1Ft(t,y,f(T-t,y))
(19)
fy(T-t,y)=-[Fx(t,y,f(T-t,y))]-1Fy(t,y,f(T-t,y))
(20)
證明先證隱映射f的存在性和唯一性.在點(diǎn)(t0,y0)附近存在點(diǎn)(t,y)滿足下式:
F(t,y,x)=Fx(t0,y0,x(T))(x-x(T))+R(t,y,x)
(21)
其中R(t,y,x)-R(t,y,x')=ο‖x-x'‖,并且(t,y,x)和(t,y,x')都取值于(t0,y0,x(T))附近,現(xiàn)在去尋求在點(diǎn)(t0,y0,x(T))附近的F(t,y,x)=0,因此考慮下面的映射:
(22)
其中At和Ay分別是關(guān)于(t,y)在(t0,y0)附近的壓縮映射[12],且其映射到在以x(T)為中心的極小范圍內(nèi).存在唯一的一個(gè)固定點(diǎn)x(T-t,y)關(guān)于At(x)和Ay(x),并且關(guān)于x是連續(xù)的,所以x(T-t0,y0)=x(T)以及F(t,y,x)=0.因此x(T-t,y)是唯一的一個(gè)具有前面四條性質(zhì)的連續(xù)函數(shù),對(duì)于任何其他這樣的函數(shù)必須要有一個(gè)固定點(diǎn)(At+Ay)x,因此只要令x(T-t,y)=f(T-t,y)便證得隱映射f是存在且唯一的.
再證(19)、(20)式,首先由于f(T-t,y)滿足Lipschitz連續(xù).由假設(shè)條件①-④知F(t,y,x)是在點(diǎn)(t0,y0,x(T))附近是一階可微映射,再加上一個(gè)‖h‖足夠光滑,則F(t,y,g(T-t,y))=F(t+h,y,g(T-t+h,y))=0關(guān)于(t,y,x)在點(diǎn)(t0,y0,x(T))附近成立.因此關(guān)于(t,y,g(T-t,y))展開F(t+h,y,g(T-t+h,y))得到:
‖F(xiàn)t(t,y,f(T-t,y))+Fx(t,y,f(T-t,y))[f(T-t+h,y)-f(T-t,y)]‖
=ο(‖h‖+‖f(T-t+h,y)-f(T-t,y)‖)
(23)
由于Fx(t,y,g(T-t,y))是可逆的并且關(guān)于t連續(xù),所以:
‖[Fx(t,y,f(T-t,y)]-1Ft(t,y,f(T-t,y))h+[f(T-t+h,y)-f(T-t,y)]‖
=ο(‖h‖+‖f(T-t+h,y)-f(T-t,y)‖)
(24)
因此存在兩個(gè)獨(dú)立的變量,一個(gè)常數(shù)M和另一個(gè)h,使得‖f(T-t+h,y)-f(T-t,y)‖≤M‖h‖.現(xiàn)在由(23)、(24)式可知f(T-t,y)是可微的,所以對(duì)F(t,y,f(T-t,y))關(guān)于t求偏導(dǎo)可得:
Ft(t,y,f(T-t,y))+Fx(t,y,f(T-t,y))ft(T-t,y)=0
(25)
當(dāng)Fx(t,y,f(T-t,y))≠0時(shí),由(25)得到:
ft(T-t,y)=-[Fx(t,y,f(T-t,y))]-1Ft(t,y,f(T-t,y))
同理可以用上面的方法證得:
fy(T-t,y)=-[Fx(t,y,f(T-t,y))]-1Fy(t,y,f(T-t,y))
證畢.
將方程(17)式中存在的唯一解x寫成是一個(gè)關(guān)于(t,y)是一階可微的映射H(T-·,·):[t0,T]×Rn→Rn,即
x=H(T-τ,y),τ∈[t0,T],y∈Rn
(26)
由于在(5)式中的τ是任意的,因此將(17)式中τ用t代替.定義下面的映射:
(27)
根據(jù)隱映射的條件可知F(t,y,x)是一個(gè)確定的隱映射,現(xiàn)在通過利用式(19)和(20)可以求出Ht、Hy,其中DKτ(x)=I+G(T-τ)h″(x)也是可逆的.
(28)
(29)
下面給出擬黎卡提方程[1]:
Pt(t,y)+Py(t,y)A(t)y+A*(t)P(t,y)-Py(t,y)(B(t)R-1(t)B*(t)
+C(t)S-1(t)C*(t))P(t,y)=0
(30)
其中(t,y)∈[0,T]×Rn.
終端條件為:
P(T,y)=h'(y) ,y∈Rn
(31)
(32)
分別對(duì)式(32)關(guān)于t、y求偏導(dǎo),然后代入(30)式中,經(jīng)過計(jì)算得到由式(32)所給出的P(t,y)是擬黎卡提方程的解,再由于其證明過程引自文獻(xiàn)[10],所以可知由雙方極值原理給出的策略是唯一的最優(yōu)策略,并且滿足鞍點(diǎn)條件.
例4.1 考慮下面的微分博弈問題,其狀態(tài)方程為:
(33)
性能指標(biāo)函數(shù)為:
(34)
式中:m為非零常數(shù),r、s均為正常數(shù),且T是固定的.
現(xiàn)在利用雙極值原理來求解線性非二次微分博弈問題(33)、(34)式的最優(yōu)策略{u*(t),v*(t)}.
首先構(gòu)造哈密爾頓函數(shù)H:
(35)
由雙極值原理可得到共軛方程和橫截面條件為:
(36)
共軛方程的解為:
(37)
由(12)式可以得到最優(yōu)策略為:
(38)
將其代入性能指標(biāo)函數(shù)可知,其對(duì)應(yīng)的最優(yōu)性能指標(biāo)滿足鞍點(diǎn)條件,即:
J(u*(t),v(t))≤J(u*(t),v*(t))≤J(u(t),v*(t))
(39)
故由式(38)所給的策略即為最優(yōu)策略.
根據(jù)最優(yōu)控制理論給出了非自治的二人微分博弈的線性系統(tǒng)和性能指標(biāo).在線性非二次自治微分博弈問題的基礎(chǔ)上,來考慮線性非二次微分博弈并時(shí)變(即非自治)的情況,然后利用雙方極值原理給出非二次微分博弈問題的最優(yōu)策略,最后利用擬黎卡提方程來檢驗(yàn)所得策略是最優(yōu)策略且滿足鞍點(diǎn)條件.
在現(xiàn)有的非二次微分博弈基礎(chǔ)上,下一步可以考慮用擬黎卡提方程來求解線性二次微分博弈最優(yōu)策略和解決多人博弈的最優(yōu)策略.或者研究更復(fù)雜的情況,結(jié)合隨機(jī)因素來解決線性二次微分博弈或者線性非二次微分博弈.
參 考 文 獻(xiàn):
[1] 潘立平.無限維線性-非二次最優(yōu)控制問題[J].數(shù)學(xué)年刊,1997,18(A):93-108.
[2] 雍炯敏,樓紅衛(wèi).最優(yōu)控制理論簡明教程[M].北京:高等教育出版社,2006.
[3] 郭鵬,楊曉琴.博弈論與納什均衡[J].哈爾濱師范大學(xué):自然科學(xué)學(xué)報(bào),2006,22(4):25-28.
[4] 朱懷念,張成科,孫佩紅,等.鞍點(diǎn)均衡策略在動(dòng)態(tài)投入產(chǎn)出系統(tǒng)中的應(yīng)用研究[J].系統(tǒng)科學(xué)學(xué)報(bào),2013,21(2):94-96.
[5] 姜殿玉,劉廣智.二人零和連續(xù)對(duì)策上的判斷與最優(yōu)策略間的關(guān)系[J].運(yùn)籌學(xué)學(xué)報(bào),2004,8(2):17-23.
[6] 李樹榮,張強(qiáng),雷陽,等.自由時(shí)間最優(yōu)控制問題的一種控制向量參數(shù)化方法[J].控制與決策,2011,26(7):1009-1013.
[7] YOU Y C.Quadratic integral games and causal synthesis[J].American Mathematical Society,1999,352(6):2737-2764.
[8] ANTIPIN A.Two-person game with nash equilibrium in optimal control problems[J].Optimal Letters,2012,6(7):1349-1378.
[9]ANTIPIN A.Extra-proximal methods for solving two-person nonzero-sum games[J].Mathematic Programming,sERIAL B,2009,120(1):147-177.
[10]YOU R C.Syntheses of differential games and pseudo-Riccati equations[J].Abstract and Applied Analysis,2002,7(2):61-83.
[11]ARONSSON G.On certain minimax problems and Pontryagin's maximum principle[J].Calculus of Variations,2010,37(1):99-109.
[12]BERGER M S.Nonlinearity and function analysis lectures on nonlinearity problems in mathematical analysis[M].New York:Academic Press,1977.