張良橋
(1.中山大學(xué)嶺南學(xué)院,廣東廣州 510275; 2.順德職業(yè)技術(shù)學(xué)院,廣東順德 528333)*
協(xié)調(diào)博弈均衡的穩(wěn)定性研究
張良橋1,2
(1.中山大學(xué)嶺南學(xué)院,廣東廣州 510275; 2.順德職業(yè)技術(shù)學(xué)院,廣東順德 528333)*
針對不變突變率模型的缺陷,結(jié)合心理學(xué)、社會學(xué)等成果,通過在吸引域離開阻抗中引入意向因素而拓展了不變突變率模型,研究了意向因素影響下協(xié)調(diào)博弈均衡的穩(wěn)定性,探討了均衡結(jié)果與影響因素之間的數(shù)量關(guān)系,模型可為決策者駕馭經(jīng)濟演化系統(tǒng)提供理論依據(jù)。
協(xié)調(diào)博弈;意向因素;隨機穩(wěn)定狀態(tài)
與新古典經(jīng)濟學(xué)不同,進化博弈理論從有限理性參與人群體出發(fā),強調(diào)均衡結(jié)果的過程依賴性,認(rèn)為結(jié)果是過程的函數(shù),進化博弈為解決均衡選擇及均衡穩(wěn)定性提供了新的視角。到目前為止,在對均衡穩(wěn)定性的研究中最有代表性的模型是協(xié)調(diào)博弈模型,最基本的概念是進化穩(wěn)定策略及隨機穩(wěn)定狀態(tài),最核心的標(biāo)準(zhǔn)是風(fēng)險占優(yōu)與支付占優(yōu)。已有對協(xié)調(diào)博弈均衡穩(wěn)定性研究的文獻主要從實驗與理論兩方面來進行的:實驗研究是針對單個因素來設(shè)計情境并探討其對均衡結(jié)果的影響,研究表明,參與人行為選擇并不完全取決于基于博弈支付的理性計算,而是受到環(huán)境中諸多因素影響;理論研究則通過構(gòu)建精美的數(shù)學(xué)模型從數(shù)理上探討參與人行為選擇的內(nèi)在規(guī)律性,并用以解釋并預(yù)測參與人群體行為演化。本文擬在不變突變率模型基礎(chǔ)上,結(jié)合社會學(xué)、心理學(xué)及博弈理論的成果,通過引入意向因素來研究協(xié)調(diào)博弈均衡的穩(wěn)定性。
圖1 支付矩陣
KMR在達(dá)爾文動態(tài)基礎(chǔ)上引入不隨系統(tǒng)狀態(tài)變化的背景突變因素,令st表示時期t選擇策略A的參與者個體數(shù),這樣就在狀態(tài)空間S上定義了馬爾可夫鏈,顯然,該馬爾可夫鏈滿足遍歷性要求并存在唯一平穩(wěn)分布。在此基礎(chǔ)上,KMR采用了Freidlin,M.and Wentzell,A.D.提供的“方向樹法”(directed-tree)計算動態(tài)過程的平穩(wěn)分布,并得到“在確定性達(dá)爾文動態(tài)下,對任何群體規(guī)模N≥2,如果由博弈支付完全確定的突變邊界s*≠N/2滿足s* Young認(rèn)為由于參與人有高昂的信息搜尋成本,每一個體只能依據(jù)非常有限的博弈歷史來進行決策[4],因此,均衡的穩(wěn)定性是由參與人對其他人選擇相同行動的信念(即適應(yīng)性學(xué)習(xí)過程)決定的。他通過引入?yún)⑴c人對有限博弈歷史作出最優(yōu)反應(yīng)的適應(yīng)性動態(tài),采用與 KMR的類似方法研究了離散條件下協(xié)調(diào)博弈均衡的穩(wěn)定性,得到“適應(yīng)性馬爾可夫過程的隨機穩(wěn)定狀態(tài)一定包含在有最小隨機潛力的常返集中,并且充分持有的那些狀態(tài)與試驗概率及試驗分布無關(guān)?!奔幢尘巴蛔儽WC系統(tǒng)不會離開狀態(tài)空間的內(nèi)部,狀態(tài)空間的邊界起著鏡面反射作用,在適應(yīng)性動態(tài)下的馬爾夫過程滿足遍歷性要求而使得該過程存在不變分布。 Ellison則是基于標(biāo)準(zhǔn)進化模型即正則擾動而展開的[2]。他在定義常返集吸引域半徑及共軛半徑的基礎(chǔ)上進一步分析得到“如果常返集的并集Ω有R(Ω)>CR(Ω)②,那么,系統(tǒng)的進化穩(wěn)定集一定包含在Ω中,并且對任何y?Ω,系統(tǒng)花費在演化路徑上的時間為W(x,Y,ε)=O(ε-CR(Ω))。”該結(jié)論可表述為:如果某常返狀態(tài)吸引域半徑大于吸引域共軛半徑,即離開吸引域的阻抗大于進入吸引域的阻抗(即離開的難度大于進入的難度)時,系統(tǒng)的隨機穩(wěn)定狀態(tài)一定在此常返狀態(tài)集之中。協(xié)調(diào)博弈常返狀態(tài)集是由嚴(yán)格納什均衡組成,因此,具有最小隨機潛力的嚴(yán)格納什均衡狀態(tài)是隨機穩(wěn)定的。 KMR,Young與Ellison都是在保證系統(tǒng)存在常返狀態(tài)的情況下,求出每個常返狀態(tài)吸引域的寬度(僅是計算方法不一樣),再根據(jù)“有最寬吸引域的常返狀態(tài)就是隨機穩(wěn)定狀態(tài)”的結(jié)論來解決均衡的穩(wěn)定性問題,其基本思路是: (2)隨機因素引入與遍歷性。KMR假定狀態(tài)轉(zhuǎn)移矩陣各元素不為零而保證系統(tǒng)不會被粘住; Young通過假定隨機因素的累積作用而保證動態(tài)過程滿足遍歷性要求;Ellison假定樣本不完全或者有限記憶保證系統(tǒng)不會被粘住而收斂到嚴(yán)格納什均衡。有了常返狀態(tài)存在性與遍歷性條件就能保證系統(tǒng)存在平穩(wěn)分布,于是求隨機穩(wěn)定狀態(tài)就轉(zhuǎn)化為求動態(tài)過程的平穩(wěn)分布。 (3)形式不同,結(jié)論一樣。他們所得到的結(jié)論核心思想都是一樣的,即系統(tǒng)隨機穩(wěn)定狀態(tài)完全取決于由博弈支付所確定的吸引域?qū)挾取L貏e地在2×2協(xié)調(diào)博弈中,吸引域最寬的風(fēng)險占優(yōu)均衡是隨機穩(wěn)定狀態(tài)。 不變突變率假定與現(xiàn)實并不相符合。如果突變來自于試驗,那么,有理由相信支付占優(yōu)均衡會比其他均衡狀態(tài)的突變率更少;如果突變來自環(huán)境約束,那么,隨著參與人對環(huán)境熟悉程度的提高,其離開相應(yīng)狀態(tài)的概率就應(yīng)該更少;如果突變來自于參與人經(jīng)驗不足,那么,博弈重復(fù)次數(shù)越多,策略選擇中隨機因素的影響就會越少,即突變率會隨著系統(tǒng)演化時間的推移而減少。博弈論實驗也表明參與人行為選擇結(jié)果會隨著環(huán)境因素的變化而變化,要更好地描述系統(tǒng)演化就必須基于可變突變率來研究。 首次對不變突變率假定提出挑戰(zhàn)的是Bergin and Lipman,他們認(rèn)為系統(tǒng)在不同狀態(tài)的突變率應(yīng)該是不同的,要準(zhǔn)確地研究系統(tǒng)的穩(wěn)定性就必須深入到系統(tǒng)突變產(chǎn)生的過程中去[5]。Bergin and Lipman構(gòu)建了隨狀態(tài)變化且滿足遍歷性要求的突變模型,并得到“確定性動態(tài)與引入隨狀態(tài)變化突變率的隨機動態(tài)有相同極限分布”的結(jié)論。因此,在動態(tài)過程中引入突變是不會起到精煉納什均衡作用的。不過,他們的模型雖然得到了突變率影響均衡穩(wěn)定性的結(jié)論,但并沒有考察突變過程與均衡結(jié)果之間的具體關(guān)系,缺乏應(yīng)用性。 Jack Robles認(rèn)為突變率趨于零的速度對均衡穩(wěn)定性的影響是非常重要的[6],如果隨機動態(tài)滿足遍歷性要求,那么,突變率趨于零時系統(tǒng)就會達(dá)到長期均衡,其結(jié)論與常突變率模型的極限行為是一樣的。于是,他采用了非平穩(wěn)馬爾可夫鏈及歷史依賴的遍歷性概念,來研究突變率隨時間變化的情形并得到“突變率并不能決定系統(tǒng)的最終狀態(tài),隨機穩(wěn)定狀態(tài)依賴于系統(tǒng)初始條件”的結(jié)論。然而,他并沒得出隨機穩(wěn)定狀態(tài)與突變率收斂零的速度之間的具體關(guān)系。 盡管可變突變率模型可以更現(xiàn)實地考察參與人行為演化,但也存在固有缺陷:一是這些模型沒有區(qū)分不同影響因素;二是可變突變率模型沒能結(jié)合到現(xiàn)實中參與人行為,沒有結(jié)合社會學(xué)、心理學(xué)等的研究成果,僅僅從數(shù)理上給予描述,具有理論研究意義但難以解釋現(xiàn)實人的行為。 [48] Michael R. Pompeo, “America’s Indo-Pacific Economic Vision,” Indo-Pacific Business Forum, U.S. Chamber of Commerce, Washington D.C. July 30, 2018, https://www.state.gov/secretary/remarks/2018/07/284722.htm. 參與人之間兩兩隨機配對進行博弈,行動集為{A,B},博弈支付矩陣見圖1。作為基礎(chǔ),假定系統(tǒng)僅存在不變的背景突變因素,根據(jù)進化穩(wěn)定狀態(tài)的定義可以計算確定動態(tài)下系統(tǒng)的突變邊界 k*③的值,其中k*表示選擇策略A的個體數(shù)。由計算可知,突變邊界完全取決于博弈支付,并且在支付一定的情況下,博弈最終結(jié)果僅依賴于系統(tǒng)初始狀態(tài)。如果初始時選擇策略A的個體數(shù)少于 k*,那么,所有參與人最終都選擇策略B;反之,如果初始時選擇策略A個體數(shù)大于k*,那么,系統(tǒng)就會趨于所有人都選擇策略A。因此,在確定性動態(tài)下,演化系統(tǒng)的均衡結(jié)果依賴于系統(tǒng)初始狀態(tài),這就是經(jīng)濟學(xué)理論中所說的路徑依賴(見圖2)。 圖2 確定性動態(tài)下系統(tǒng)演化相圖 為了便于研究,把影響系統(tǒng)演化的因素分為背景突變因素與意向突變因素:(1)把使參與人行為發(fā)生非系統(tǒng)性偏離的因素稱之為背景突變因素。與生態(tài)演化現(xiàn)象相比,參與人決策系統(tǒng)會面臨更為復(fù)雜的確定性或隨機性因素影響。因此,在經(jīng)濟系統(tǒng)中引入不隨系統(tǒng)狀態(tài)變化而變化的背景突變率是必要的。(2)把使參與人行為發(fā)生系統(tǒng)性偏離的因素稱之為意向突變因素。經(jīng)濟系統(tǒng)中參與人的選擇是有設(shè)定目的的,并且目的性本身必須通過因果過程來解釋[7]。實驗研究也表明,參與人的有限理性、所處環(huán)境的復(fù)雜性及意識行為等都可能影響系統(tǒng)演化結(jié)果。為簡化處理,僅引入三類意向因素:一是參與者個體數(shù)。選擇某種策略的參與者個體數(shù)越多,參與人陷入信息陷阱而選擇同樣行動的可能性就越大,即個體離開當(dāng)前狀態(tài)的概率與所處狀態(tài)個體數(shù)反相關(guān)(如羊群行為)。二是博弈支付。參與人傾向于選擇支付較高的狀態(tài),個體離開當(dāng)前狀態(tài)的概率與所處狀態(tài)支付反相關(guān)(經(jīng)濟人假定)。三是偏好程度。參與人的偏好隨如廣告、輿論、宣傳等環(huán)境因素的變化而變化,狀態(tài)之間的轉(zhuǎn)移概率與參與人對所處狀態(tài)的偏好正相關(guān)。 分兩步引入隨機影響因素。第一步,引入不變的背景突變率ε,并由此得到突變邊界,即把非均衡路徑上的支付納入到模型中來;第二步,引入意向因素,得出不同常返狀態(tài)的離開阻抗。在分析方法上與傳統(tǒng)理論文獻一樣,假定進入常返狀態(tài)是由背景突變引起的,離開常返狀態(tài)取決于離開阻抗。圖1所示的協(xié)調(diào)博弈中嚴(yán)格納什均衡A與B就是動態(tài)系統(tǒng)的兩個常返狀態(tài),參與人對兩個常返狀態(tài)A、B的偏好程度分別用λA、λB(λi>0;i=A,B)表示。偏好參數(shù)λ可隨廣告、宣傳、輿論等外界環(huán)境變化而變化,λi(i=A,B)值越大,參與人離開當(dāng)前狀態(tài)的可能性就越少。 基于Ellison模型的研究思路,下面考察常返狀態(tài)A的離開阻抗。假定初始時所有參與人都處于狀態(tài)B,即系統(tǒng)穩(wěn)定于常返狀態(tài)B,那么,第一個選擇狀態(tài)A的參與轉(zhuǎn)而選擇狀態(tài)B的突變率為μa×1×λA,其中μ(0<μ<1)是非常少的正數(shù),第二個選擇狀態(tài)A的參與人轉(zhuǎn)而選擇B的突變率為μa×2×λA;第三個選擇狀態(tài)A的參與人轉(zhuǎn)而選擇狀態(tài)B的突變率為μa×3×λA,依此類推,第 k個選擇狀態(tài)A的參與人轉(zhuǎn)而選擇狀態(tài)B的突變率為μa×k×λA,a為參與人所處均衡狀態(tài)A的支付,k為選擇當(dāng)前均衡狀態(tài)A的個體數(shù), λA為參與人對狀態(tài)A的偏好程度。顯然,μ的指數(shù)越大,參與人離開當(dāng)前狀態(tài)的可能性就越少。按同樣的推理邏輯,可考慮狀態(tài)B的情形,第k個選擇狀態(tài)B的參與人轉(zhuǎn)而選擇狀態(tài)A的突變率可以記為μd×k×λB。由 Ellison吸引域半徑的定義可知,μ的指數(shù)與相應(yīng)狀態(tài)吸引域半徑及離開阻抗正相關(guān)。當(dāng)模型中μ的指數(shù)為 1時,就對應(yīng)于 KMR,Young及Ellison等不變突率理論模型。可以看出,按上述方法引進意向因素并不會改變有限狀態(tài)馬爾可夫過程正則性④的三個條件。首先,引入意向因素并沒有改變馬爾可夫鏈的齊次性;其次,背景突變率的存在保證了馬爾可夫鏈遍歷性要求;第三,意向因素引入只是使?fàn)顟B(tài)之間轉(zhuǎn)移概率發(fā)生了線性變化,這就相當(dāng)于對轉(zhuǎn)移概率進行重標(biāo)度。所以,引入意向因素后的馬爾可夫過程存在平穩(wěn)分布。 傳統(tǒng)動態(tài)模型引入隨機因素是為了使系統(tǒng)在常返狀態(tài)之間跳動,便于確定馬爾可夫鏈的平穩(wěn)分布,但沒能把影響參與人行為的復(fù)雜因素納入到模型當(dāng)中[8]。事實上,影響參與人行為選擇的因素是多種多樣的,系統(tǒng)隨機穩(wěn)定狀態(tài)并不完全由博弈支付所確定,與其他許多因素相關(guān)。拓展后模型不僅把博弈均衡支付、非均衡支付納入到模型當(dāng)中,還考慮到如廣告、輿論、宣傳等影響參與人均衡偏好程度的社會、心理因素,能夠更現(xiàn)實地考察群體行為演化規(guī)律。 傳統(tǒng)不變突變率模型引入隨機因素只是為了使得系統(tǒng)不會被粘住,無法給出狀態(tài)特別是中間狀態(tài)到意向狀態(tài)之間的轉(zhuǎn)移成本,上述拓展后模型可以很方便地計算系統(tǒng)所處中間狀態(tài)來到意向狀態(tài)的逆轉(zhuǎn)成本,為決策者選擇使系統(tǒng)向意向均衡演化的最低成本措施提供理論依據(jù),如圖3。 圖3 中間狀態(tài)轉(zhuǎn)移圖 圖3中,C點表示目前有k 由此可得“系統(tǒng)偏離高效率常返狀態(tài)的個體數(shù)h越大、所處常返狀態(tài)的支付越大、對所處狀態(tài)的偏好程度越高,那么,要使系統(tǒng)轉(zhuǎn)向另一常返狀態(tài)的逆轉(zhuǎn)成本就會越大?!比绻到y(tǒng)已經(jīng)向非意愿均衡演化,那么,隨著時間的推進,選擇非意愿均衡的個體數(shù)就會不斷增加,有利于該狀態(tài)的利益集團就會慢慢形成,從而使系統(tǒng)轉(zhuǎn)向意愿均衡所需轉(zhuǎn)移成本就會越來越大。因此,管理者在采取措施時,不但要考慮到系統(tǒng)所處的狀態(tài)與意向狀態(tài)之間的關(guān)系,而且要及時糾正不利于系統(tǒng)演化的各種決策,做到防患于未然,使系統(tǒng)以最小成本達(dá)到最有效率的狀態(tài)。 不變背景突變率模型的結(jié)論表明:除博弈支付外,其他任何影響因素都不會使參與人行為發(fā)生系統(tǒng)性偏離。現(xiàn)實中體制轉(zhuǎn)軌、文化形成、時尚變化等影響因素的變化都會引起參與人行為發(fā)生系統(tǒng)性偏離。因而,把使參與人行為發(fā)生系統(tǒng)性偏離的因素納入到模型中會更現(xiàn)實,可以更好地描述經(jīng)濟系統(tǒng)的演化規(guī)律。以上結(jié)合社會學(xué)的“慣習(xí)”、“羊群行為”等現(xiàn)象,通過引入影響離開阻抗的因素來改變系統(tǒng)常返狀態(tài)的吸引域?qū)挾?進而確定系統(tǒng)的隨機穩(wěn)定狀態(tài),拓展了不變突變率模型,得到“均衡結(jié)果不僅依賴于博弈支付,而且依賴于達(dá)到均衡過程中的影響因素,不同影響因素會使經(jīng)濟演化系統(tǒng)收斂到不同的均衡”的結(jié)論。拓展后模型引進了外生影響參數(shù),增加系統(tǒng)的可駕馭性,為制度設(shè)計、戰(zhàn)略管理等提供理論依據(jù)。 值得一提的是,由于作者水平有限,這些模型還沒能一般化,有待于進一步探索,另外,使參與人群體行為發(fā)生非系統(tǒng)偏離的意向因素還有許多,針對不同的模型如何引進還需更詳細(xì)的探討與研究。 注釋: ①為便于說明,以下字母A既表示狀態(tài)(A,A),又表示策略A;字母B既表示狀態(tài)(B,B),又表示策略B。 ②其中R(Ω)為并集Ω的吸引域的半徑,Ω為共軛半徑。 ③k*包涵了非均衡路徑上支付對均衡的影響。 ⑤事實上,傳統(tǒng)方法通過折現(xiàn)因子把時間納入到模型中,并比較現(xiàn)值與收益流來決定參與人的行為選擇。 ⑥從狀態(tài)x首次回到常返狀態(tài)Ω的期望等待時間與maxx∈zW(x, Ω,ε)=limε→0Ο(ε-CR(Ω))正相關(guān)。其中 CR(Ω)表示常返狀態(tài)Ω的共軛半徑,也就是說,從常返狀態(tài)Ω外的任何狀態(tài) x出發(fā),都可以找到對應(yīng)的 T,在 T時期回復(fù)到Ω的概率至少是ε-CR(Ω)階,花費在Ω之外的期望時期數(shù)至少大于 k2ε-CR(Ω)。直觀含義是,在兩常返狀態(tài)系統(tǒng)中,進入阻抗越大,花費在演化路徑上的時間就會越長。 [1]Kandori,M.,Mailath,G.J.,rob,R..Learning,Mutation, Long-run equilibria in games[J].Econometrica,1993,(61):29-56. [2]Ellison,G..Basins of Attraction,Long-run stochastic stability, and the speed of step-by-step evolution[J].Review of economic studies,2000,(67):17-45. [3]Freidlin,M.I,Wentzell.Random perturbations of dynamical systems[M].Berlin/New York:Springer-verlag,1984. [4]Young,H.P..The evolution of conventions[J],Econometrica,1993,(61):57-84. [5]Bergin,J.,Lipman,B..Evolution with state-dependent mutations[J],Econometrica,1996,(64):943-956. [6]Robles,J..Evolution with changing mutation Rates[J].Journal of economics theory,1998,(79):207-223. [7]Hodgson,G.M..Darwinism in economics:from analogy to ontology[J].Journal of Evolutionary Economics,2002,(12): 268-279. [8]張良橋.論博弈均衡與隨機穩(wěn)定狀態(tài)[J].財經(jīng)理論與實踐, 2007,28(4):87-91. On the Stochastic Stability of Equilibrium in Coordination G ame ZHANG Liang-qiao1,2 (1.L ingnan College,Zhongshan University,Guangzhou,Guangdong 510275,China; 2.Economic Department S hunde Polytechnic college,Shunde,Guangdong 528333,China) To overcome the shortcomings of constant mutation rate model,we extend traditional theoretical models by incorporating background mutation and deliberation mutation into resistance,which is suggested by literatures in psychology and sociology.Multiple equilibriums under the influence of stochastic deliberation factors are studied systematically as well.Afterwards, we investigate quantitively the relation between the equilibrium outcomes of coordination games and the corresponding affecting factors.Conclusions drawn from our model can offer theoretical foundations for decision makers to manage economic evolutionary systems. Coordination Game;Deliberation Factor;Stochastic Stability F019.1 文獻標(biāo)識碼: A 文章編號:1003-7217(2010)06-0083-05 2010-04-19 國家社科基金(09ZDB17&09ZDB18)、廣東省自然科學(xué)基金(05300601) 張良橋(1968—),男,湖南祁陽人,中山大學(xué)經(jīng)濟學(xué)博士生、順德職業(yè)技術(shù)學(xué)院副教授,研究方向:博弈論、進化博弈理論。 (責(zé)任編輯:子衿)三、可變突變率理論研究及其評述
四、基于背景突變因素與意向突變因素理論模型拓展
五、系統(tǒng)中間狀態(tài)到意向狀態(tài)的演化時間與演化成本
六、小結(jié)與后續(xù)研究展望