基金項(xiàng)目:國(guó)家社會(huì)科學(xué)基金重點(diǎn)資助項(xiàng)目(10771021);華僑大學(xué)引進(jìn)人才科研啟動(dòng)項(xiàng)目(09Y0163)
[摘要] “囚徒困境”博弈反映出了人類社會(huì)中個(gè)人理性和集體理性的深層次矛盾。在囚徒困境博弈中,合作的是以自身利益為代價(jià)來提高別人利益的行為,它的存在可以提高整個(gè)社會(huì)的福利水平。通過基于Agent的復(fù)雜適應(yīng)系統(tǒng)的計(jì)算機(jī)仿真,可以刻畫出有學(xué)習(xí)能力和適應(yīng)性的微觀個(gè)體之間的互動(dòng),并進(jìn)而反映出系統(tǒng)中合作行為的產(chǎn)生和發(fā)展機(jī)制。
[關(guān)鍵詞] 博弈 系統(tǒng)仿真 復(fù)雜科學(xué)
一 “囚徒困境”博弈
“囚徒困境”博弈反映了個(gè)人理性和集體理性的深層次矛盾,同時(shí)也揭示了個(gè)人理性本身的內(nèi)在矛盾——從個(gè)人利益出發(fā)的行為,往往不僅不能真正實(shí)現(xiàn)集體利益的最大化,甚至也無法實(shí)現(xiàn)個(gè)人利益的最大化。
“囚徒困境”博弈對(duì)于人類行為的預(yù)測(cè)是灰暗的:在個(gè)人自由決策的市場(chǎng)經(jīng)濟(jì)中,個(gè)人利益的最大化往往會(huì)導(dǎo)致合作的崩潰。如果確實(shí)如此,人類將陷入彼此為敵的霍布斯叢林而不可自拔,更無法創(chuàng)造出如此輝煌燦爛的文明世界。
放眼周圍的世界,生產(chǎn)的專業(yè)化分工和對(duì)合作的高度依賴已成為現(xiàn)代社會(huì)的重要特征。關(guān)于合作行為的產(chǎn)生機(jī)制,許多學(xué)者都進(jìn)行了探討。其中主要的觀點(diǎn)有群體選(SoberWilson, 1998)、昂貴信號(hào)理論(Zahavi, 1997; Bliege Bird et al., 2001)、馴順性理論(Simon, 1999)、強(qiáng)互惠理論(Gintis, 2000; Fehr, 2002)等。然而以上絕大多數(shù)的研究都僅僅是純粹理論上的探討。而筆者認(rèn)為,合作行為不僅是個(gè)體之間的行為,還涉及到由個(gè)體組成的群體之間的關(guān)系,是一個(gè)多層次、非線性和不確定性的復(fù)雜動(dòng)態(tài)系統(tǒng)。對(duì)此類復(fù)雜系統(tǒng)的研究方法目前主要有非線性動(dòng)力學(xué)和計(jì)算機(jī)系統(tǒng)仿真,以下筆者將試圖使用系統(tǒng)仿真的方法來解決這個(gè)問題。
二“囚徒困境”的系統(tǒng)仿真
為了分析社會(huì)合作水平的演化,我們使用Java語言設(shè)計(jì)了一個(gè)多人“囚徒困境”博弈的仿真模型。在模型中我們?cè)O(shè)置了不同合作水平的策略(永遠(yuǎn)合作的策略、以10%的概率背叛的策略、以20%的概率背叛的策略……依此類推,最后是永遠(yuǎn)背叛的策略),目的在于分析不同合作水平的局中人在博弈中的收益水平。博弈的收益矩陣如表1所示:
在本文中,T=5,R=3,P=1,S=0
1.原始模型
博弈共分為100輪,在每輪中各種策略兩兩配對(duì)進(jìn)行“囚徒困境”博弈。仿真結(jié)果如表2所示:
表2:原始模型中不同合作水平的局中人的平均收益
我們很容易發(fā)現(xiàn),博弈中局中人的收益水平會(huì)隨著合作水平的提高而降低。
2.加入TFT策略后的模型
艾克斯羅德(Axelrod, 1985)在囚徒困境博弈錦標(biāo)賽中發(fā)現(xiàn),多人重復(fù)“囚徒困境”博弈中,TFT策略的收益水平是最高的。而以下我們將表明:TFT策略不但自身的收益水平較高,而且可以提高整個(gè)社會(huì)的收益水平。不僅如此,由于TFT策略可以與善良的策略合作,同時(shí)懲罰非善良的策略,從而有助于整個(gè)社會(huì)道德水平的提高。
我們?cè)谀P椭屑尤氩捎肨FT策略的局中人,結(jié)果表明:隨著采用TFT策略的局中人數(shù)量不斷上升,整個(gè)社會(huì)的平均收益水平會(huì)不斷提高,而且善良策略的收益水平會(huì)逐漸超越非善良策略的收益水平。
3.模型的動(dòng)態(tài)演化
最后我們?cè)谀P椭屑尤雱?dòng)態(tài)演化機(jī)制,即博弈分為n個(gè)階段,每個(gè)階段結(jié)束后,每種策略的局中人都以p的概率選擇比他的收益水平高一個(gè)檔次的策略。
對(duì)加入動(dòng)態(tài)演化機(jī)制后的原始模型(n=20, p=0.5)并進(jìn)行系統(tǒng)仿真。程序運(yùn)行的結(jié)果表明,經(jīng)過20個(gè)階段的博弈后,模型中只剩下了一種策略——“永遠(yuǎn)背叛”,此時(shí)整個(gè)社會(huì)的平均收益達(dá)到了1的最低水平。這就是霍布斯所描述的世界——“一切人對(duì)一切人的戰(zhàn)爭(zhēng)”。
現(xiàn)在我們?cè)谀P椭屑尤氩捎肨FT策略的局中人。結(jié)果表明,博弈中非善良的策略很快就被淘汰了,20個(gè)階段過后,博弈中只剩下了TFT策略。而且我們發(fā)現(xiàn),非善良策略被淘汰的速度隨著采用TFT策略局中人數(shù)量的增加而變得越來越快。
4.模型的結(jié)論
(1)如果沒有懲罰機(jī)制,社會(huì)中合作與非合作的個(gè)體被同等對(duì)待。由于合作行為的成本較高,在“逆向選擇”機(jī)制的作用下,合作的個(gè)體將越來越少。
這就是所謂的“道德悖論”——道德意味著以自身利益為代價(jià)來提高別人的利益。因此在一個(gè)社會(huì)中道德高尚的人往往處境艱難,而許多道德低劣的人卻可以身居高位。
(2)懲罰機(jī)制可以有效降低非合作個(gè)體的利益水平,促進(jìn)道德的建立,并提高整個(gè)社會(huì)的利益水平。
懲罰機(jī)制可以導(dǎo)致合作行為的產(chǎn)生,但在很多情況下,懲罰行為本身是需要成本的。為了保證合作行為在演化中的遺傳優(yōu)勢(shì),社會(huì)中必須有一些人愿意犧牲自己的部分利益來懲罰不合作者,這就是Bowles和Gintis(2003)提出的強(qiáng)互惠(strong reciprocity)者。Gintis等人(2003)認(rèn)為一個(gè)群體中只要有一小部分強(qiáng)互惠主義者,就足以使合作行為成為一個(gè)進(jìn)化穩(wěn)定均衡(ESS)。
三、模型結(jié)果的啟示
我們的模型表明,通過懲罰機(jī)制的引入,可以顯著提高群體的合作程度和福利水平。然而懲罰在很大程度上會(huì)降低懲罰者本身的利益,并導(dǎo)致“重新談判”等情況的出現(xiàn)(參見RubinsteinWolinsky , 1992),從而給懲罰機(jī)制的實(shí)施帶來困難。政府作為社會(huì)規(guī)則的制定者,應(yīng)當(dāng)通過正確的政策引導(dǎo)達(dá)到懲惡揚(yáng)善的作用,為重建社會(huì)道德履行自身的責(zé)任。
參考文獻(xiàn):
[1]約翰·霍蘭,隱秩序[M].上海:上??萍汲霭嫔?,2000.
[2]汪丁丁,羅衛(wèi)東,葉航.人類合作秩序的起源與演化[J].社會(huì)科學(xué)戰(zhàn)線,2005(4)
[3]羅伯特·阿克塞爾羅德.合作的進(jìn)化[M].吳堅(jiān)忠譯,上海:上海世紀(jì)出版集團(tuán),2007.
[4]黃少安,韋倩.合作行為與合作經(jīng)濟(jì)學(xué):一個(gè)理論分析框架[J].經(jīng)濟(jì)理論與經(jīng)濟(jì)管理,2011(2)。
[5]Bowles, Samuel and Herbert Gintis, The Moral Economy of Communities: Structured Populations and the Evolution of Pro-social Norms[J], Evolution and Human Behavior, 1998(19)