莫曉云,周杰明,金 芳
(1. 湖南財(cái)政經(jīng)濟(jì)學(xué)院數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,中國 長沙 410205;2. 湖南師范大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,高性能計(jì)算與隨機(jī)信息處理教育部重點(diǎn)實(shí)驗(yàn)室,中國 長沙 410081;3.湖南城市學(xué)院數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,中國 益陽 413000)
歷史相依決策模型的建立及相應(yīng)過程的構(gòu)造
莫曉云1,2,周杰明2,金 芳3
(1. 湖南財(cái)政經(jīng)濟(jì)學(xué)院數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,中國 長沙 410205;2. 湖南師范大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,高性能計(jì)算與隨機(jī)信息處理教育部重點(diǎn)實(shí)驗(yàn)室,中國 長沙 410081;3.湖南城市學(xué)院數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,中國 益陽 413000)
歷史相依決策模型(HDDM)及歷史相依決策過程(HDDP)是決策模型及相應(yīng)的決策過程的一般情形. 馬氏決策模型(MDM)及馬氏決策過程(MDP)是HDDM及HDDP的特殊情形.本文嚴(yán)格地建立了歷史相依決策模型,并證明了相應(yīng)的歷史相依決策過程的存在性,證明是構(gòu)造性的. 作為HDDM及HDDP的特殊情形,建立了馬氏決策模型(MDM), 并構(gòu)造了相應(yīng)的馬氏決策過程(MDP).
歷史相依決策模型的建立; 歷史相依決策過程的存在性和構(gòu)造; 馬氏決策模型及馬氏決策過程; 馬氏過程
AbstractHistory Dependent Decision Model (HDDM) and History Dependent Decision Process (HDDP) are the most general cases of the decision model and their corresponding processes. The Markov Decision Model (MDM) and Markov Decision Process (MDP) are special cases of HDDM and HDDP. In this work, the history dependent decision model has been established, and the existence of corresponding history dependent decision process has been proved. The proof is constructive. As special cases of HDDM and HDDP, the Markov decision model has been established and the Markov decision process has been constructed.
Keywordshistory dependent decision model; Markov decision model; Markov decision process; Markov process
在描述馬氏決策模型(MDM)及相應(yīng)的馬氏決策過程(MDP)的決策控制系統(tǒng)中,系統(tǒng)將來的狀態(tài)只依賴于系統(tǒng)現(xiàn)在的狀態(tài)和現(xiàn)在采取的決策行動.如果系統(tǒng)將來的狀態(tài)依賴于系統(tǒng)的歷史狀態(tài)和歷史決策行動,這就是歷史相依決策模型(HDDM)及相應(yīng)的歷史相依決策過程(HDDP).由于HDDM和HDDP過于一般,較難深入研究.但對馬氏決策模型及相應(yīng)過程,已經(jīng)有深刻的研究,有豐富的成果[ 1-5 ].關(guān)于馬氏決策模型及相應(yīng)過程的諸多專著和論文中,總是簡單地提及歷史相依決策模型及相應(yīng)過程,然而卻沒有詳細(xì)和準(zhǔn)確地給出歷史相依決策模型的建立以及相應(yīng)過程的構(gòu)造. 因此,完成這個(gè)建立和構(gòu)造很有必要.我們對于諸多相類似的模型及其過程的構(gòu)造,已經(jīng)有很好的研究[6-10],本文將利用文獻(xiàn)[6-11]中的思想和方法.
設(shè)有某個(gè)受決策者控制的系統(tǒng),該系統(tǒng)的狀態(tài)依賴于時(shí)間、系統(tǒng)的歷史狀態(tài)和決策者的歷史決策行動. 時(shí)間可以是連續(xù)的,但離散時(shí)間更接近于實(shí)際的操作. 假定時(shí)間為n=0,1,2,…,N.N是正整數(shù),也稱期末時(shí). 設(shè)在某個(gè)時(shí)刻,系統(tǒng)處于某個(gè)狀態(tài)x,在該時(shí)刻決策者可以作出某個(gè)決策行動a,下一時(shí)刻,系統(tǒng)的狀態(tài)將從x轉(zhuǎn)移到某個(gè)狀態(tài)y. 如果在每個(gè)時(shí)刻n∈{0,1,2,…,N-1},決策者都做出一個(gè)決策行動,這N個(gè)行動全體就構(gòu)成一個(gè)決策策略. 策略和行動不同. 研究決策模型的目標(biāo)之一是選擇最好的策略,使得系統(tǒng)的某個(gè)指標(biāo)達(dá)到最優(yōu).例如,考慮某個(gè)投資者,他是決策者,系統(tǒng)的狀態(tài)就是他的財(cái)富,如果他希望期末時(shí)財(cái)富最多,如何投資就是他的策略.
記系統(tǒng)的狀態(tài)全體為集合E,稱為狀態(tài)空間. 記決策行動的全體為集合A,稱為行動空間. 記R=(-∞,+∞),R+=[0,+∞). 下面從數(shù)學(xué)上嚴(yán)格地給出歷史相依決策模型. 記
H0:=E,
Hn:=Hn-1×A×E,n=1,…,N,
稱它們?yōu)闅v史集;元素hn∈Hn具有形式hn=(x0,a0,x1,a1,…,xn-1,an-1,xn),xi∈E,ai∈A.
稱hn=(x0,a0,x1,a1,…,xn-1,an-1,xn)為系統(tǒng)至?xí)r刻n的歷史.
定義1(歷史相依決策模型) 給定6元組 (E,A,Dn,Qn,rn,gN),n=0,1,2,…,N-1.
如果它滿足下面的(i)至(vi), 稱它為歷史相依決策模型.
(i) (E,ε)是可測空間,非空集合E稱為狀態(tài)空間,其元素x∈E稱為一個(gè)狀態(tài).
(ii) (A,α)是可測空間,非空集合A稱為行動空間,其元素a∈A稱為一個(gè)行動.
(iii) 可測集Dn?Hn×A. 假定:存在一個(gè)可測映射fn:Hn→A,使得fn的圖{(hn,fn(hn))|hn∈Hn}?Dn. 記Dn在hn∈Hn的截口為Dn(hn)={a∈A|(hn,a)∈Dn}. 稱元素a∈Dn(hn)為n時(shí)刻歷史為hn時(shí)的一個(gè)可取行動,稱(hn,a)∈Dn為n時(shí)刻的一個(gè)歷史-行動組合.
(iv)Qn是從Dn到E的一個(gè)概率核:
Qn:=Qn(B|hn,a)≡Qn(B|x0,a0,x1,a1,…,xn-1,an-1,xn,a),(hn,a)∈Dn,B∈ε.
固定(hn,a)∈Dn時(shí),Qn(·|hn,a)是(E,ε)上的概率測度. 固定B∈ε時(shí),Qn(B|x0,a0,x1,a1,…,xn-1,an-1,xn,a)是(x0,a0,x1,a1,…,xn-1,an-1,xn,a)的可測函數(shù).
Qn(B|hn,a)表示n時(shí)刻歷史-行動組合為(hn,a)時(shí),n+1時(shí)刻系統(tǒng)的狀態(tài)處于集合B的概率.Qn描述系統(tǒng)的歷史-行動演變的概率規(guī)律.
(v) 函數(shù)rn:Dn→R,是可測函數(shù).rn(hn,a)表示n時(shí)刻歷史-行動組合為(hn,a)時(shí),獲得的(折現(xiàn))回報(bào).
(vi)函數(shù)gN:HN→R,是可測函數(shù).gN(hN)表示期末N時(shí)刻歷史為hN時(shí),獲得的(折現(xiàn))回報(bào).
(i)E,A,Dn,rn,gN同定義1.
(ii) (Θ,θ)是可測空間.
(iii)Tn:Dn×Θ→E,是可測映射,稱為轉(zhuǎn)移函數(shù)或系統(tǒng)函數(shù). 它表示:n時(shí)刻的歷史-行動組合為(hn,an),且n+1時(shí)刻的干擾為zn+1時(shí),n+1時(shí)刻系統(tǒng)的狀態(tài)將是xn+1=Tn(hn,an,zn+1).
定理1(等價(jià)定理) 歷史相依決策模型和帶干擾的歷史相依決策模型是等價(jià)的.
證設(shè)(E,A,Dn,Qn,rn,gN)是歷史相依決策模型. 令
則易驗(yàn)證,(E,A,Dn,Qn,rn,gN)是歷史相依決策模型.
定義3(歷史相依決策策略) 設(shè)(E,A,Dn,Qn,rn,gN)是歷史相依決策模型.
2.1 預(yù)備知識
定理2(Tulcea定理[4]) 給定一列可測空間(Ωi,Si),i=0,1,2,…. 記
Xn(ω):=ωn,ω=(ω0,ω1,ω2,…)∈Ω,n=0,1,2,….
I是示性函數(shù).
從上面的定理,容易得到下面的推論.
推論1給定可測空間(Ωi,Si),i=0,1,2,…,N. 記
Xn(ω):=ωn,ω=(ω0,ω1,…,ωN)∈ΩN,n=0,1,…,N.
(1)
實(shí)際上,只要在定理2中,對i=N,N+1,N+2,…,取
(Ωi+1,Si+1)=(ΩN,SN),P(ω0,…,ωi;dωi+1)=Pi+1(dωi+1),
Pi+1(dωi+1)是(Ωi+1,Si+1)上的任一概率測度即可.
2.2 歷史相依決策過程的存在性和構(gòu)造
下面是歷史相依決策過程的存在定理,而且是構(gòu)造性的.
EN+1:=E×E×…×E,εN+1:=ε×ε×…×ε,
Xn(ω):=xn,ω=(x0,x1,…,xN)∈EN+1,n=0,1,…,N.
(2)
(3)
稱隨機(jī)過程X={X0,X1,…,XN}為典范歷史相依決策過程.
證令
(Ωi,Si):=(E,ε),i=0,1,2,…,N.
(4)
(5)
Xn(ω):=xn,ω=(x0,x1,…,xN)∈EN+1,n=0,1,…,N.
(6)
P0(dx0):=δx(dx0).
(7)
P(x0,x1,…,xn;dxn+1):=Qn(dxn+1|x0,f0(x0),x1,f1(x1),…,xn,fn(xn)),n=1,2,…,N-1.
(8)
由條件概率乘法公式的積分形式,從上式容易推出,式(2)(3)成立. 定理證完.設(shè)
hn=(x0,a0,x1,a1,…,xn-1,an-1,xn)∈Hn.
記條件概率
從式(3),特別地有
Qn(B|x0,f0(x0),x1,f1(x1),…,xn,fn(xn)).
從上式看出,上式左方的數(shù)值與hn=(x0,a0,x1,a1,…,xn-1,an-1,xn)中的a0,a1,…,an-1無關(guān).
所謂馬氏決策模型及相應(yīng)過程,是指歷史相依決策模型及相應(yīng)過程中,對于歷史-行動組合(hn,a)∈Dn(hn=(x0,a0,x1,a1,…,xn-1,an-1,x)∈Hn)的相依,實(shí)質(zhì)上只是對于現(xiàn)在的狀態(tài)-行動組合(x,a)的相依,即馬氏相依. 因此,在歷史相依決策模型及相應(yīng)過程中,只要將Hn改成E,將歷史hn=(x0,a0,x1,a1,…,xn-1,an-1,x)改成x,就成為馬氏決策模型及相應(yīng)過程. 為明確計(jì),我們給出如下詳細(xì)定義.
定義5(馬氏決策模型) 給定6元組 (E,A,Dn,Qn,rn,gN),n=0,1,2,…,N-1.如果它滿足下面的(i)至(v), 稱它為馬氏決策模型.
(i)E和A同定義1中的(i)(ii).
(ii)可測集Dn?E×A. 假定:存在一個(gè)可測映射fn:E→A,使得fn的圖{(x,fn(x))|x∈E}?Dn.對x∈E,記Dn的截口為Dn(x)={a∈A|(x,a)∈Dn}.稱元素a∈Dn(x)為n時(shí)刻狀態(tài)為x時(shí)的一個(gè)可取行動,(x,a)稱為一個(gè)狀態(tài)-行動組合.
(iii)Qn:=Qn(B|x,a)是從Dn到E的一個(gè)概率核. 固定(x,a)∈Dn時(shí),Qn(·|x,a)是(E,ε)上的概率測度. 固定B∈ε時(shí),Qn(B|x,a)是(x,a)的可測函數(shù).Qn(B|x,a)表示n時(shí)刻狀態(tài)-行動組合為(x,a)時(shí),n+1時(shí)刻的狀態(tài)處于集合B的概率.
(iv)函數(shù)rn:Dn→R,是可測函數(shù).rn(x,a)表示:n時(shí)刻的狀態(tài)-行動組合為(x,a)時(shí),獲得的(折現(xiàn))回報(bào).
(v)函數(shù)gN:E→R,是可測函數(shù).gN(x)表示在N時(shí)刻(期末時(shí))狀態(tài)為x時(shí),獲得的(折現(xiàn))回報(bào).
如果rn(x,a):=βnr(x,a),gN(x):=βNg(x),β∈(0,1]是某個(gè)(折現(xiàn))因子,稱馬氏決策模型為平穩(wěn)的.
(i)E,A,Dn,rn,gN同定義5.
(ii) (Θ,θ)是可測空間.
(iii)Tn:Dn×Θ→E是可測映射,稱為轉(zhuǎn)移函數(shù)或系統(tǒng)函數(shù). 它表示:n時(shí)刻的狀態(tài)-行動組合為(x,a),且n+1時(shí)刻的干擾為zn+1時(shí),n+1時(shí)刻的狀態(tài)將是xn+1=Tn(x,a,zn+1).
定理4(等價(jià)定理)馬氏決策模型和帶干擾的馬氏決策模型是等價(jià)的.
定理4的證明類似定理1的證明,略.
定義7(馬氏決策規(guī)則和馬氏決策策略) 設(shè)(E,A,Dn,Qn,rn,gN)是馬氏決策模型.
(i) 固定n∈{0,1,…,N-1}. 一個(gè)可測映射fn:E→A,使得fn(x)∈Dn(x),?x∈E,稱fn為n時(shí)刻的一個(gè)馬氏決策規(guī)則.n時(shí)刻的馬氏決策規(guī)則fn全體記為Fn.
(ii) 設(shè)π=(f0,f1,…,fN-1),fn∈Fn,n=0,1,…,N-1. 稱π為一個(gè)N階段馬氏決策策略,其全體記為∏N.
下面的定理是定理3 的特殊情形.
定理5(典范馬氏決策過程的存在性和構(gòu)造) 給定馬氏決策模型 (E,A,Dn,Qn,rn,gN),n=0,1,2,…,N-1.x∈E,π=(f0,f1,…,fN-1)∈∏N. 令
Xn(ω)=xn,ω=(x0,x1,…,xN)∈EN+1,n=0,1,…,N.
(9)
(10)
稱X=(X0,X1,…,XN)為馬氏決策過程. 它是馬氏過程.
從式(10)的第1等式看出,馬氏決策過程X=(X0,X1,…,XN)是馬氏過程,它具有馬氏性. 從第2等式看出,它在n時(shí)刻的一步轉(zhuǎn)移概率記為Pn(x,B),x∈E,B∈ε,則Pn(x,B)=Qn(B|x,fn(x)).
4.1 歷史相依決策過程情形
gN(X0,f0(X0),…,XN-1,fN-1(XN-1),XN)].
為策略π時(shí)在[n,N]時(shí)段的期望總回報(bào). 稱
為在[n,N]時(shí)段的值函數(shù).
4.2 馬氏決策過程情形
可積性假設(shè)2(AN) 對n=0,…,N, 假定
設(shè)π∈∏N. 稱
為策略π時(shí)在[n,N]時(shí)段的期望總回報(bào). 稱
Vn(x):=supπ∈∏NVnπ(x),x∈E
為在[n,N]時(shí)段的值函數(shù).
定理6[1,4]對n=0,1,…,N-1, 如果hn=(x0,a0,x1,a1,…,xn-1,an-1,xn)∈Hn,則
即
定理6說明,對于歷史相依決策過程,如果僅僅只研究其值函數(shù),則只要研究馬氏決策過程.
致謝感謝“風(fēng)險(xiǎn)理論與隨機(jī)控制”討論班的老師們提出的研究問題和寶貴建議.
[1] BAUERLE N, RIEDER U. Markov decision processes with applications to finance [M]. Berlin: Springer-Verlag, 2011.
[2] GUO X P, HEMANDEZ-LEMA O. Continuous-time Markov decision processes [M]. Berlin: Springer-Verlag, 2009.
[3] GUO X P, HEMANDEZ-LEMA O, PRIETO-RUMEAU T. A survey of recent results on continuous-time Markov decision processes [J]. Top, 2006,14(2):177-246.
[4] HINDERER K. Foundations of non-stationary dynamic programming with discrete time parameter [M]. Berlin: Springer-Verlag, 1970.
[5] 嚴(yán)加安. 測度論講義(第二版)[M]. 北京:科學(xué)出版社,2004.
[6] 莫曉云. 用獨(dú)立乘積空間構(gòu)造相依隨機(jī)變量的組裝法 [J]. 湖南師范大學(xué)自然科學(xué)學(xué)報(bào), 2010,33(2):3-6.
[7] 莫曉云,歐 輝,周杰明. Markov相依風(fēng)險(xiǎn)模型的等價(jià)定理及概率構(gòu)造 [J]. 經(jīng)濟(jì)數(shù)學(xué), 2012,29(1):61-64.
[8] MO X Y,YANG X Q. Criterion of semi-Markov dependent risk model [J]. Acta Math Sin, 2014,30B(7):1237-1280.
[9] MO X Y,ZHOU J M, OU H,etal. Double Markov risk model [J]. Acta Math Sci, 2013,33B(2):330-340.
[10] 莫曉云,楊向群. Markov調(diào)制風(fēng)險(xiǎn)模型的軌道刻劃和概率構(gòu)造[J]. 應(yīng)用數(shù)學(xué)學(xué)報(bào), 2012,35(3):385-394.
[11] ZHOU J M, MO X Y, OU H,etal. Expected present value of total dividends in the compound binomial model with delayed claims and random income[J]. Acta Math Sci, 2013,33B(6):1639-1651.
(編輯 HWJ)
Establishment of History Dependent Decision Models and Construction of Corresponding Processes
MOXiao-yun1,2,ZHOUJie-ming2,JINFang3*
(1. College of Mathematics and Statistics, Hunan University of Finance and Economics, Changsha 410205, China; 2. College of Mathematics and Computer Science, Key Laboratory of High Performance Computing and Stochastic Information Processing, Ministry of Education of China, Hunan Normal University, Changsha, 410081, China; 3.College of Mathematics and Computing Science, Hunan City University, Yiyang, 413000, China)
O212.5
A
1000-2537(2017)05-0088-07
2016-12-05
國家自然科學(xué)基金資助項(xiàng)目(11671132,11601147,11626094);湖南省哲學(xué)社會科學(xué)研究資助項(xiàng)目(16YBA053 );湖南省教育廳重點(diǎn)科研資助項(xiàng)目(15A032); 湖南省教育廳科研資助項(xiàng)目(16C0953,16C0296);湖南省自然科學(xué)基金資助項(xiàng)目(2017JJ3206)
*通訊作者,E-mail:moxyun72@163.com
10.7612/j.issn.1000-2537.2017.05.014