摘 要:從演化的視角對納什均衡所在的策略空間做了一個觀察,認為納什均衡所在的策略空間是不斷變化的,這種變化源于策略空間本身的變化而不是決策,并以“生產(chǎn)力”與“生產(chǎn)關(guān)系”的類比對此給出了一種解釋。通過“囚徒困境”中策略空間的演化進一步說明了演化的必然性,同時得到?jīng)Q策是基于所處的策略空間演化過程中的位置的結(jié)論,相應(yīng)的策略空間中的某個納什均衡并不能成為一種持續(xù)的決策所依賴的均衡。
關(guān)鍵詞:演化;納什均衡;囚徒困境;策略空間;決策
中圖分類號:F08 文獻標志碼:A 文章編號:1002-2589(2013)09-0127-03
一、納什均衡的定義
在博弈G=(S1,…,Sn:u1,…,un)中,如果由各個博弈方的各一個策略組成的某個策論組合(s1*,…,sn*)中,任一博弈方i的策論si*,都是對其余博弈方策略的組合(s1*,…s*i-1,s*i+1,…,sn*)的最佳對策,也即ui(s1*,…s*i-1,si*,s*i+1,…,sn*)≥ui(s1*,…s*i-1,sij*,s*i+1,…,sn*)對任意sij∈Si都成立,則稱(s1*,…,sn*)為G的一個納什均衡[1]57。很顯然該策論組合(s1*,…,sn*)為策論組合空間S的一個子集,那么首先需要討論的是S的性質(zhì)。
二、S——有限性還是無限性
上述納什均衡的定義并未明顯陳述S是有限還是無限,但納什本人關(guān)于納什均衡的定義中明確提到“有限個純策略”(anassociated finiteset)[2]287??死灼账挂蔡岬健敖?jīng)濟學(xué)家用納什均衡分析經(jīng)濟問題,其前提是相應(yīng)形勢下存在明確的博弈過程”[3]33。所以經(jīng)典的納什均衡認為可供選擇的策略是明確而且有限的。但是如果這個空間本身只是N維空間的一個有限空間,那么即使得到了“納什均衡”,也僅能認為該“納什均衡”只是這個有限空間的“納什均衡”而很可能不是“無限理性空間”[即N維空間]的納什均衡。
可是,如果說該S空間即為抽象的無限理性的,①那么,我們做決策是否還有意義,正如哈耶克所說“不知道的也是不能計劃的”[4]96誰能斷定不能預(yù)知的策略組合不是更好的?基于此,作者認為所謂的決策是基于現(xiàn)有存在的有限的策略空間而非未來不確定的無限的策略空間。而如果說決策是基于現(xiàn)有存在的有限的策略空間,甚至是明確清晰的策略空間,那么為什么我們所做的決策常常出現(xiàn)并不是基于這個有限的策略空間的最優(yōu)呢?西蒙的“有限理性”觀念似乎不能解釋這種矛盾,當然,在我們假設(shè)策略方案有限性的時候的確已經(jīng)包含了“有限理性”,所以作者的一種解釋是決策者的決策是基于現(xiàn)有存在的有限的策略空間,可與此同時,決策者有限理性地清楚自己的有限理性。從上面的討論能看到即使對于近乎確定的策略空間決策者也并不一定能做出基于該策略空間的最優(yōu)決策。而客觀上策略空間本身不是一成不變的,也就是說它本身在演化,這種演化以決策者的決策②為前提,而之所以實施決策卻源于策略空間的變化。到此得到一個近乎悖論的結(jié)論:演化的原因與結(jié)果均是策略空間本身的變化。
三、一種解釋
上節(jié)非但沒能完全回答S空間有限性無限性的問題,反而得到了一個近乎悖論的結(jié)論:演化的原因與結(jié)果均是策略空間本身的變化。事實上,這是不矛盾的。策略空間本質(zhì)上是一種“生產(chǎn)力”,而各方所做的選擇是相應(yīng)的“生產(chǎn)關(guān)系”,當“生產(chǎn)力”發(fā)展到一定程度,必然有相應(yīng)的“生產(chǎn)關(guān)系”去適應(yīng)這種“生產(chǎn)力”,而“生產(chǎn)力”發(fā)展了必然引起“生產(chǎn)關(guān)系”的改變。這與以生物進化學(xué)的觀點類比演化的做法是有差異的,他們認為演化以“適應(yīng)性”為核心,也即拉馬克強調(diào)的“變異的主動性”[5]86。而以生產(chǎn)力和生產(chǎn)關(guān)系的角度來講,我們看到的更多是“自發(fā)性”,也即演化的自然發(fā)生。形象一點,生物進化論的觀念:目的是“生產(chǎn)關(guān)系”,演化的原因是決策;而本文的觀念:目的是“生產(chǎn)力”,也即創(chuàng)造更適宜的策略空間,策略空間本身決定了演化的必然。自然地,我們還會發(fā)現(xiàn)另外一個重要的端倪——策對于路徑的依賴,也即某個演化的起點的重要,這將決定演化的最終方向和終點,這是宏觀層面;而另外更重要的也是我們可能忽略的是參與演化的個體的演化起點,這決定著演化的路徑。但我們要明白的是演化的終點不會是至少不會一直是我們設(shè)定的終點,正如弗格森所說演化的結(jié)果是“人類行為的結(jié)果卻不是人為設(shè)計的結(jié)果”[6]58。也即索羅斯所謂“均衡點之不可企及”[7]21。本文同樣認為均衡是相對的,而演化是絕對的,也就是說,均衡僅僅是演化動態(tài)過程的某一點(甚至是事實上未達到的某一點),作者將以納什均衡中經(jīng)典案例“囚徒困境”做具體的觀察與思考。
四、“囚徒困境”觀察與思考
囚徒困境表述如下:①警方逮捕甲、乙兩名嫌疑犯,但沒有足夠證據(jù)指控二人有罪。于是警方分開囚禁嫌疑犯,分別和二人見面,并向雙方提供以下相同的選擇,見表1.1:
若一人認罪并作證檢控對方(相關(guān)術(shù)語稱“背叛”對方),而對方保持沉默,此人將即時獲釋,沉默者將判監(jiān)10年。
若二人都保持沉默(相關(guān)術(shù)語稱互相“合作”),則二人同樣判監(jiān)半年。
若二人都互相檢舉(互相“背叛”),則二人同樣判監(jiān)2年。
討論該案例的文獻多將重點放在均衡的分析,本文側(cè)重策略空間的性質(zhì)——這個策略空間的歷史路徑。我們有理由相信:在最初階段,抓到嫌疑犯后警察提供的選擇是“你們(注意是你們)認罪還是不認罪,如果認罪只判刑2年,要是不認罪,5年!”②那么,在只有兩種選擇的策略空間中,罪犯當然“趕緊”認罪,因為那是兩者中最優(yōu)化的策略??墒牵瑑扇嗽诶卫锾焯焓芾晤^欺負的罪犯就開始尋思呀:牢里日子可真不好受,我們是不是被警察騙了,假如我們不承認,警察能判我們5年嗎?是的,我們不承認就不等于我們沒有罪嗎?沒有罪警察怎么能判我們的刑?在此時,新的方案凸顯了——不承認,將判無罪!那么這個并不是警方想看到的結(jié)果!于是警方陷入了僵局,警方想要的是雙方都認罪,而出現(xiàn)的是不認罪的對罪犯有利的方案,因為如果都不認罪的話他們確實無法給罪犯定罪,這個時候警方就提出了新的方案——你們認罪的話,我們不但不給你們判刑,而且還給你們數(shù)量1的獎勵,此時,便出現(xiàn)了新的“顯性”的策略空間:③都不認罪——都不判刑;都認罪——得到1的獎勵;如果說僅是這兩種方案,很顯然他們會承認;可是,由于有第一回合的博弈(已有的演化經(jīng)驗),其中一個很可能“回憶”起認罪被判2年的經(jīng)歷!也就是說,在這個時候,認罪有兩個可能的結(jié)果:(1)數(shù)量1的獎勵;(2)判兩年。也即不確定性出現(xiàn)了,于是就出現(xiàn)了最重要的也是首次的分化:一個認罪,一個未認罪;一個被判1年,一個被判3年——他們事前并未意識到的其中一種結(jié)果(自以為聰明的未認罪者認為他甚至看到了隱藏在警察提供的兩種方案后面的第三個方案:認罪的話要判2年?。?;正是基于群體內(nèi)的首次分化,分開審訊的想法便出現(xiàn)了,也就相應(yīng)出現(xiàn)了新的方案:若一人認罪,而對方不認罪,認罪者判1年,不認罪者判3年??梢韵氲剑涸谠摲桨赋鰜碇?,由于其中的不確定性,罪犯會均傾向于選擇認罪(或者一方認罪),但隨著相應(yīng)的策略空間的穩(wěn)定,罪犯們會選擇另一個明顯有利的策略——都不認罪!隨著罪犯選擇的穩(wěn)定,策略空間又會發(fā)生變化,警察會提供新的“顯性”策略空間:若一人認罪,而對方不認罪,認罪者無罪釋放,不認罪者判4年。值得注意的是,此時,都不認罪與都認罪均是該空間的納什均衡。在該方案出來之初,罪犯會均傾向于選擇認罪(或者一方認罪),也就是說從其中的一個均衡逐漸變到了另外一個均衡,但同樣的,隨著相應(yīng)的策略空間的穩(wěn)定,罪犯們會選擇另一個明顯有利的策略——都不認罪!……直到“顯性”的策略空間演化為文中囚徒困境的案例中警方提供的選擇空間。圖1.1為該演化過程的一個簡圖。
需要說明的是,上述演化過程只是其中一種可能的演化路徑中幾個可能見到的切面,而真實的演化過程是我們無法事先確定,也是更為復(fù)雜的。但是從上述演化中我們還是能得到一些啟發(fā)性的思考:其一,不論是真實的策略空間,還是“顯性”的策略空間,它們都是在不斷變化的,其二,真實的策略空間和“顯性”的策略空間往往是在對方趨于穩(wěn)定的狀態(tài)下變化的,且呈交替變化的狀態(tài);其三,真實的策略空間和我們“顯性”的策略空間大多數(shù)時間是不一致的,也有一致的時候,但是由于真實策略空間本身在不斷演化,即使二者一致,作為單個的決策者(他們往往經(jīng)歷過“顯性”空間和真實空間的不一致)做出的決策并不是整體最優(yōu)。換句話說,博弈并不僅僅是橫向策略空間的識別與認知,更是當前策略空間與歷史策略空間的博弈。所以決策是基于經(jīng)驗的,基于他所處的策略空間演化過程中的位置的。這種決策對于路徑的依賴為多個納什均衡中如何判斷到底哪個納什均衡是決策者傾向于選擇的納什均衡提供了思路。那就是決策者往往選擇與他所處的位置最靠近的那個均衡。其四,如果真實的策略空間相對固定[見圖中(3)—(6)],那么“顯性”策略空間也會相對固定(見圖中6—7),也就是說這個時候決策者是能做出整體最優(yōu)的決策的。然而這種均衡狀態(tài)依然不能持久,其原因是隨著“顯性”策略空間的趨于穩(wěn)定,真實的策略空間改變了。其五,經(jīng)典囚徒困境實驗的結(jié)果是囚徒均認罪這個納什均衡占多數(shù),初看與本文所持觀念有出入(見“其四”),但仔細探究會發(fā)現(xiàn),實驗的結(jié)果正是文中強調(diào)的演化過程的必然結(jié)果,之所以兩個罪犯都趨向認罪,其實質(zhì)并不是他們受到了納什均衡點的“吸引”,而是在策略空間長期演化的過程中,罪犯往往得知的是:兩人都不認罪,按真實的策略空間,他們都不會被判刑;可是等到他們真的都不認罪,警方在后期的調(diào)查中又找到新證據(jù)呢?那么他們會重判!且這種情況是較普遍的。也即他們知道無論如何也無法預(yù)知所謂“理性空間”(見注釋①),僅能基于他所處的策略空間演化過程中的位置做出判斷。其六,演化過程中,納什均衡本身的變化相對緩慢。
五、結(jié)論
本文首先從演化的角度對納什均衡所在的空間做了一個觀察,認為納什均衡所在的策略空間是不斷變化的,這種變化以決策者的決策為前提,而決策者實施決策源于策略空間的變化,也即策略空間的變化互為因果,然后以“生產(chǎn)力”與“生產(chǎn)關(guān)系”的類比對此給出了一種解釋。最后通過“囚徒困境”中策略空間的演化進一步說明了演化的必然性并對演化的規(guī)律做了初步的分析,同時得到?jīng)Q策是基于所處的策略空間演化過程中的位置的結(jié)論,相應(yīng)的策略空間中的某個納什均衡并不能成為一種持續(xù)的決策所依賴的均衡。
參考文獻:
[1]王則柯,李杰.博弈論教程[M].北京:中國人民大學(xué)出版社,2010.
[2]Nash J.Non-cooperative games[J].Annals of Mathematics,1951,
(54):286-295.
[3][美]戴維·M.克雷普斯.博弈論與經(jīng)濟模型[M].鄧方,譯.北京:商務(wù)印書館,2006.
[4]F.A.哈耶克.致命的自負[M].馮克利,胡晉華,譯.北京:中國社會科學(xué)出版社,2000.
[5]白瑞雪.生物學(xué)類比與演化經(jīng)濟學(xué)的發(fā)展階段[J].教學(xué)與研究,2011,(3):84-90.
[6]雷國雄.不確定性、創(chuàng)新不足與經(jīng)濟演化[M].北京:科學(xué)出版社,2012.
[7][美]索羅斯.金融煉金術(shù)[M].孫忠,侯純,譯.??冢汉D铣霭嫔?,1999.