(黃山學(xué)院數(shù)學(xué)與統(tǒng)計(jì)學(xué)院 安徽 黃山 245041)
警方逮捕兩名嫌疑犯A、B,可以用某電影中的黎叔與小葉代替,警察沒(méi)有證據(jù)指控二人。他們每一個(gè)人都被單獨(dú)囚禁,并單獨(dú)進(jìn)行審訊,即雙方無(wú)法互通信息。警方向這兩名嫌疑犯交代量刑原則:坦白從寬,抗拒從嚴(yán)。具體如下:
1、如果兩人都坦白,則每人各判刑5年;
2、如果一方坦白,一方不坦白,則坦白的一方將被釋放,不坦白的將被判10年;
3、如果兩人都不坦白,警方由于證據(jù)不足,只能對(duì)二人短期關(guān)押,各判1年。
如下圖的支付矩陣:
囚徒A(黎叔)囚徒B(小葉)坦白抵賴坦白(-5,-5)(0,-10)抵賴(-10,0)(-1,-1)
這兩個(gè)囚犯的博弈過(guò)程如下:先考慮黎叔的選擇。黎叔要決定自己的選擇,他必須要先考慮小葉的選擇,即黎叔是在考慮了小葉的選擇的前提下來(lái)決定自己的選擇。那么,黎叔一定是這樣考慮的:
如果小葉選擇坦白,我如果也選擇坦白,被判5年,如果我選擇抵賴,被判10年。于是我選擇坦白。(因?yàn)?<10)
如果小葉選擇抵賴,我如果選擇坦白,立馬釋放,如果我選擇抵賴,被判1年。于是我選擇坦白。(因?yàn)?<1)
得出結(jié)論:無(wú)論小葉選擇坦白還是抵賴,我都選擇坦白。
同理,在分析小葉的選擇時(shí),我們也會(huì)得到類似結(jié)論。但當(dāng)我們仔細(xì)分析,不難發(fā)現(xiàn),如果兩個(gè)人都選擇抵賴(即合作),則可以獲得最好的結(jié)局(即只判1年)。但是由于他們之間不能互通信息,所以每一方都擔(dān)心由于對(duì)方坦白而自己抵賴時(shí)自己所遭受到的重判(即對(duì)方釋放,自己抵賴被判10年)。在這種情況下,每個(gè)人都會(huì)從自己的利益考慮,最后的選擇都是坦白。
這就是博弈論中的重要的數(shù)學(xué)模型——完全信息靜態(tài)博弈模型。
完全信息靜態(tài)博弈是指各博弈方同時(shí)決策,且所有博弈方對(duì)各方得益都了解的博弈。屬于非合作博弈最基本的類型?;谝陨峡紤],黎叔和小葉都會(huì)選擇坦白,達(dá)到一個(gè)穩(wěn)定解,但是這個(gè)解卻不是整體的最優(yōu)解。
通過(guò)對(duì)囚徒困境的分析,我們得出這樣一個(gè)結(jié)論:無(wú)論小葉選擇坦白還是抵賴,黎叔都會(huì)選擇坦白。于是,我們說(shuō)坦白策略是他的占優(yōu)策略,類似的分析對(duì)于小葉也是適用的,所以坦白策略也是小葉的占優(yōu)策略。
因此,我們給出占優(yōu)策略的定義:無(wú)論其他參與者采取什么策略,某參與者的唯一的最優(yōu)策略就是他的占優(yōu)策略。在我們的分析例子中,(坦白,坦白)這一對(duì)策略組合下的博弈狀態(tài),就是一種均衡狀態(tài)。一般地說(shuō),由博弈中的參與者的占優(yōu)策略組合構(gòu)成的均衡就是占優(yōu)策略納什均衡。
我們可以在支付矩陣中用劃?rùn)M線的方法來(lái)尋找占優(yōu)策略納什均衡。具體做法如下:當(dāng)小葉選擇坦白時(shí),黎叔會(huì)選擇坦白,則在報(bào)酬-5下劃一橫線,當(dāng)小葉選擇抵賴時(shí),黎叔仍會(huì)選擇坦白,則在報(bào)酬0下劃一橫線。小葉選法同理。最后,矩陣圖中的唯一兩個(gè)數(shù)字都被劃上橫線的那一格報(bào)酬組合(-5,-5)所對(duì)應(yīng)的(坦白,坦白)的策略組合就是該博弈的占優(yōu)策略納什均衡。
黎叔和小葉都是理性人作出的選擇都是理性對(duì)自己收益最大的,最終整體的的結(jié)果卻沒(méi)有達(dá)到最優(yōu),這個(gè)問(wèn)題值得我們?nèi)ニ伎肌?/p>
自私自利的人類可能因?yàn)樽约旱穆斆鞫档桶ㄗ陨碓趦?nèi)的所有人的福利水平,個(gè)人的理性導(dǎo)致集體的非理性,非合作的自利行為導(dǎo)致兩敗俱傷。
以生活中實(shí)例對(duì)這一現(xiàn)象加以說(shuō)明和理解:
1、父母為什么熱衷于給孩子報(bào)暑期班,暑期班廣告鋪天蓋地,只此一句不要讓孩子輸在起跑線上,就讓家長(zhǎng)對(duì)商家的套路毫無(wú)抵抗,這里就蘊(yùn)含了囚徒困境原理,輔導(dǎo)班廣告正是通過(guò)囚徒困境將家長(zhǎng)捆綁在一起。
2、每年暑期高考之后各大名校爭(zhēng)搶狀元,納什均衡最大悲劇就在于北大和清華都意識(shí)到搶狀元毫無(wú)意義,即使他們都認(rèn)同不搶狀元才是最好的結(jié)果但是這樣的結(jié)果卻達(dá)不到,因?yàn)殡p方不得不采取對(duì)自己最有利的策略:搶狀元。
類似生活中的現(xiàn)象比比皆是:上網(wǎng)購(gòu)物、夫妻吵架、各大商家企業(yè)價(jià)格戰(zhàn)、軍備競(jìng)賽等。
若在囚徒困境模型中,增加雙方選擇坦白策略的成本:各判5年增加到各判15年,當(dāng)庭釋放增加到判5年,則支付矩陣如下:
黎叔小葉坦白抵賴坦白(-15,-15)(-5,-10)抵賴(-10,-5)(-1,-1)
如果小葉選擇坦白,黎叔如果也選擇坦白,被判15年,如果選擇抵賴,被判10年。于是黎叔選擇抵賴。(因?yàn)?0<15)
如果小葉選擇抵賴,黎叔如果選擇坦白,被判5年,如果選擇抵賴,被判1年。于是黎叔選擇抵賴。(因?yàn)?<5)
得出結(jié)論:無(wú)論小葉選擇坦白還是抵賴,黎叔都選擇抵賴。
同理,小葉也會(huì)得到相同的結(jié)論,這樣小葉和黎叔的最終選擇都變成了抵賴策略,達(dá)到了整體最優(yōu),避免了公地悲劇的發(fā)生。
若雙方可以相互溝通達(dá)成協(xié)議,直接選擇最優(yōu)策略,那么也會(huì)達(dá)到共贏。