善與惡的計算：為什么要做好人

2020-04-10 06:49:51朱萬潤

社會科學(xué)研究 2020年2期

關(guān)鍵詞：囚徒困境

朱萬潤

〔摘要〕 “為什么要做好人？”在道德哲學(xué)中可轉(zhuǎn)化為“為什么要遵守道德規(guī)則？”本文將是否要遵守道德規(guī)則置于囚徒困境模型之下，籍此，可應(yīng)用博弈論尤其是進化博弈論的成熟研究深化對道德規(guī)則的理解。在既有的囚徒困境研究中，應(yīng)用計算機模擬的方法，科學(xué)家們發(fā)現(xiàn)了多種有效的、個人博弈策略。同時，由于集體競爭的存在，每個集體都有采用更成功策略的壓力，這可以解釋道德規(guī)則的來源。做好人、遵守道德規(guī)則是個人與集體共同追求其最大預(yù)期收益的結(jié)果。

〔關(guān)鍵詞〕道德規(guī)則，囚徒困境，進化博弈論，集體競爭

〔中圖分類號〕B82 〔文獻標(biāo)識碼〕A 〔文章編號〕1000-4769（2020）02-0150-08

社會生活中，我們時常會觀察到這樣多少帶有悖論性的現(xiàn)象：一方面，人們常常抱怨“好人沒好報”，另一方面，幾乎所有人在教育自己子女的時候都會教他們做一個“好孩子”，長大成為一個好人。這與社會生活中人們經(jīng)常問到的一個問題有關(guān)：對大多數(shù)人來說（不考慮基督教的圣徒、儒家的圣人、佛教中成佛的人），如果做好人沒有什么好處，那又為什么要做好人？如果做壞人更有利，我們?yōu)槭裁床蝗プ鰤娜?，并且教育我們的子女做好人?/p>

從道德哲學(xué)的角度看，這個問題大體上等同于“為什么要遵守道德規(guī)則？”西方道德哲學(xué)對此問題的回答主要有兩種，即后果論和義務(wù)論。①不論后果論還是義務(wù)論的回答，道德哲學(xué)對此問題的回答都是規(guī)范性的，即回答為什么人們“應(yīng)該”遵守道德義務(wù)。作為道德哲學(xué)的核心問題之一，對此問題的討論已經(jīng)比較充分。不過，道德哲學(xué)的回答有很多不足。比如，不同道德哲學(xué)理論呈現(xiàn)出“神仙打架”的狀況（或者，用韋伯的話說是價值觀領(lǐng)域的“諸神之戰(zhàn)”），對幾乎所有重大的道德問題都莫衷一是、爭論不休，讓普通人無所適從。再比如，道德哲學(xué)既不關(guān)心道德規(guī)則的內(nèi)容，也無法回答道德規(guī)則從哪里來的問題。此外，對普通人而言，道德哲學(xué)過于抽象、晦澀而遠離日常生活。本文試圖從進化博弈論的角度回答，為什么人們大多數(shù)情形下實際上會遵守道德規(guī)則，換句話說，為什么多數(shù)情況下人們實際上會做好人？本文研究路徑不是規(guī)范性的，而是著眼于事實與邏輯，從社會科學(xué)的視角試圖發(fā)現(xiàn)人們行為模式背后的機制。

一、什么是好人

為下文討論的方便以及避免不必要的誤解，此處要做些鋪墊：明晰要討論的問題、排除一些特殊情況，并對什么是好人給出粗略定義。

首先，本文將要探討的并非康德的“德福一致”問題。有德的人是否一定有福，是一個形而上學(xué)問題。并且，在多元主義的背景之下，對“德”與“?！钡亩x是多種多樣的。什么樣的人是有德的，什么樣的人是有福的，對于天主教徒、新教徒、穆斯林、佛教徒、無神論者來說，回答是不一樣的。本文的探討將聚焦于道德規(guī)則和人的行為，并不涉及“德福一致”這樣的形而上學(xué)問題。

其次，在對好人給出嘗試性定義之前，我們要對人及其理性做一些規(guī)定。博弈論對人的假定是經(jīng)濟學(xué)中常用的“理性人”，即人們會最大化自身的利益或偏好。不過，進化博弈論卻并不要求人們具有完美的理性，或者能夠計算出哪種選擇能夠最大化自己的利益或偏好。進化博弈論只要求初始策略的多樣性、基因或行為選擇的突變，成功的策略在自然選擇過程中會自然涌現(xiàn)（下文將有詳細討論）。盡管如此，一個自利的、雖然不具備完美理性，但當(dāng)面對兩種不同行為選擇時，依然會選擇能夠?qū)е赂笃没蚶鏉M足的選項，這樣的理性人依然是本文討論所有問題的基礎(chǔ)。

一直以來，理性人假定都面對很多批評，尤其是來自心理學(xué)家的批評。在此，我想對理性人假定做四點辯護。第一，到目前為止，理性人是人文與社會科學(xué)領(lǐng)域中唯一能夠被清晰定義的關(guān)于人的假定。實際上，理性人是一個量化概念，它從對偏好或利益滿足的量化比較和排序推出行為選擇的排序，即它假定人們總是會選擇帶來更大量化滿足的選項。對量的定義是簡單明晰、并且很容易做到的（3個蘋果>2個蘋果），但是對“質(zhì)”的定義就很困難（試想，什么是“道德”“文化”“政治”“社會”？）。相反，不管其他對人的假定多完美（“道德人”“文化人”“政治人”“社會人”），只要不可定義，就無法成為探討社會科學(xué)的可靠出發(fā)點。第二，與第一點相關(guān)，人們能夠?qū)硇匀说男袨檫x擇做出確定無疑的預(yù)期。這一點是極端重要的，甚至可以說正是這一點決定了理性人是一個有意義的假定。當(dāng)選項A帶來的偏好或利益滿足大于選項B帶來的滿足，我們可以確定無疑地預(yù)期理性人會選擇與A相對應(yīng)的行為。這就使得我們據(jù)此做出的預(yù)判是可證偽的，只有具備可證偽性，一個判斷才可能是科學(xué)的。與此相對照，我們能夠?qū)Α暗赖氯恕薄拔幕恕薄罢稳恕薄吧鐣恕钡男袨檫x擇做出何種預(yù)期呢？第三，理性人假定是我們建構(gòu)嚴格理論所必需的。任何理論皆始于假設(shè)。社會科學(xué)的研究對象是人和人的行為，因此要建構(gòu)嚴格的理論，首先就要對人及其行為給出適當(dāng)假設(shè)?；谝陨蟽蓚€優(yōu)點，理性人假定足以成為社會科學(xué)中構(gòu)建嚴格理論的阿基米德點。社會科學(xué)中最具嚴格性的是經(jīng)濟學(xué)，經(jīng)濟學(xué)便建基于理性人假定（雖然近年來也有非理性經(jīng)濟學(xué)的發(fā)展）。第四，理性人在社會生活中是大概率事件。盡管有以上優(yōu)點，如果理性人假定在社會生活中從來都與事實不符或者相符的概率很小，這一假定恐怕也早被理論家們拋棄了。在經(jīng)濟學(xué)應(yīng)用所指向的領(lǐng)域，比如，個人理財決策、企業(yè)決策、經(jīng)濟政策制定等等，理性人假定無疑都是適用的。此外，如果對偏好或利益做更寬泛的解讀，則理性人適用范圍會更廣。當(dāng)然，人們的理性并不完美，人難免有糊涂犯錯的時候，但這并不能否定人們在大多數(shù)情況下是理性的?？傊?，理性人假定并不完美，但卻是社會科學(xué)中唯一可定義的、可靠的出發(fā)點。不管人們?nèi)绾闻u理性人假定，可曾有人能夠提出一個足以替代它的選項嗎？基于以上四點，答案是否定的。

與對理性的討論相關(guān)，為避免特殊偏好扭曲博弈策略的收益，此處要排除特殊偏好。第一種要排除的是“極惡”的偏好，比如，以殺人為樂的連環(huán)殺手、施虐狂等等，他們從給他人帶來傷害的行為本身就可以得到滿足，并不是為了搶奪財產(chǎn)或與他人爭利。另一種要排除的是“極善”的偏好，比如，特蕾莎修女（1979年諾貝爾和平獎得主）的慈善偏好：她在幫助貧苦人們的行為本身得到滿足，名與利都是外在的甚至是無關(guān)的。博弈論中對收益的描述以及利益的估算適用于大多數(shù)人，但并不適用于這些持有特殊偏好的人。

最后，我們要出給一個粗略的、大多數(shù)人都能接受的對“好人”的定義。評價善與惡、對與錯的根本標(biāo)準(zhǔn)是道德哲學(xué)中最根本、也是最富爭議的問題，給出一個評價善惡的根本標(biāo)準(zhǔn)進而定義什么是“好人”并不是本文的興趣所在。這里將采用一種策略性的方法來回應(yīng)此問題。想象這樣一個大多數(shù)人都能承認的、惡行的集合：{惡行 | 殺人、放火、搶劫、詐騙、強奸、盜竊、撒謊、施加酷刑、言而無信、不忠……}。對這些惡行的禁止實際上構(gòu)成道德規(guī)則的主體。據(jù)此，我們可以得到一個道德規(guī)則的集合：{道德規(guī)則 | 不得殺人、不得放火、不得搶劫、不得詐騙、不得奸淫、不得偷盜、不得撒謊、不得施加酷刑、守信、忠誠……}。以這些道德規(guī)則為依據(jù)，我們可以給“好人”下一個初步的定義：好人就是遵守其所在共同體所公認的道德規(guī)則的人。當(dāng)然，不同的共同體其道德規(guī)則會有很多差異，不過上述給出的道德規(guī)則的集合可以大體上看作多數(shù)共同體都會恪守的最低的道德底線。不同共同體間道德規(guī)則的差異并不會對我們的探討構(gòu)成障礙，因為不論道德規(guī)則的內(nèi)容是什么，是否遵守道德規(guī)則都面臨囚徒困境。

有了上述準(zhǔn)備，此處可以將本文試圖回答的問題做更精確陳述：假定大多數(shù)人都是自利的理性人，既沒有做圣人的動機也沒有做惡棍的偏好，但是，如果殺人放火的生活方式更有利，他們就會去殺人放火，對于這樣的人們，為什么要遵守道德規(guī)則，要做好人？

二、道德規(guī)則與囚徒困境

如果將是否遵守道德規(guī)則視作只進行一次的博弈，那么它將是一個典型的囚徒困境。關(guān)鍵在于，對于理性人而言，上述提到的每一種惡行都對應(yīng)著短期利益的誘惑：殺人可能是為了復(fù)仇或奪取他人財產(chǎn)、官職，搶劫、詐騙、盜竊可以獲得財物，撒謊是為了達到特定目的，施加酷刑可以從對方身上獲得至關(guān)重要的信息等等。因而，在最簡單的只有甲、乙兩個玩家的博弈中，如果每個人的策略選擇僅限于遵守和不遵守道德規(guī)則，那么四種結(jié)果的排序如下：

1.最好的結(jié)果是對方遵守道德規(guī)則，而我不遵守，我的收益是T（Temptation）。

2.其次的結(jié)果是兩個人都遵守道德規(guī)則，每個人的收益是R（Reward）。

3.再次的結(jié)果是兩個人都不遵守道德規(guī)則，每個人的收益是P（Punishment）。

4.最壞的結(jié)果是我遵守道德規(guī)則，而對方不遵守，我的收益是S（Suckers Payoff）。

這樣我們有：T>R>P>S（這一排序基于序數(shù)功利的概念，即相關(guān)選項僅代表偏好排序的優(yōu)先次序而不代表功利值的絕對度量）。另外，我們假定都遵守道德規(guī)則的集體收益大于一個人遵守而另一個人不遵守的情況，這樣R+R>T+S，即R>（T+S）/2。如此，我們有如下的收益矩陣（矩陣中標(biāo)示的是甲的收益）：

這是一個典型的囚徒困境。當(dāng)然，以上情境是假定沒有國家和政府、沒有中央權(quán)威存在的情況下，即類似于霍布斯所說的自然狀態(tài)中，一個理性人會做何種選擇。在這一困境中，如果兩人都采取合作性的行為，即遵守道德規(guī)則，是集體最優(yōu)的也是最值得期望的結(jié)果。但是，對于理性人而言，不管對方做何種選擇，唯一能夠最大化自身收益的行為只能是不遵守道德規(guī)則。因而，兩個人都困于這樣一種窘境中：如果兩個人都遵守道德規(guī)則，兩個人的狀況都會更好，但是出于自利的、追求自身利益最大化的動機，兩個人都必然選擇不遵守，因而兩個人的境況都變得更差了。②

囚徒困境理論模型的建構(gòu)及解決是20世紀下半葉社會科學(xué)領(lǐng)域的重大進步之一。囚徒困境揭示了一般社會合作的普遍障礙：凡是涉及個體利益與集體利益之張力的情景往往會有情況困境結(jié)構(gòu)的存在。著名的例子，比如，哈丁的“公地悲劇”③、奧爾森的“集體行動的困境”，奧斯特羅姆因為在“公共池塘資源”管理方面（與“公地悲劇”相關(guān)）的貢獻而獲得2009年諾貝爾經(jīng)濟學(xué)獎。社會生活中囚徒困境的例子更是俯拾皆是：軍備競賽、核威懾、廣告投入競賽、商業(yè)競爭、美國兩黨制下預(yù)算赤字問題、抑制排放與全球變暖、關(guān)稅與貿(mào)易戰(zhàn)、競爭性貨幣貶值……同時，囚徒困境的發(fā)現(xiàn)也曾經(jīng)對哲學(xué)家造成極大震撼，例如，高希爾就認為人類的全部道德都是為了克服囚徒困境從而達成社會合作。④

借用博弈論的術(shù)語，在單次博弈中遵守道德規(guī)則（做好人）會被剝削（收益為S），這種情形是社會生活中“好人吃虧”的一大來源。根據(jù)囚徒困境模型，在單次博弈中，唯一的均衡就是兩個人都選擇不合作的行為，即不遵守道德規(guī)則。這種情景在生活中很常見，即所謂的“一錘子買賣”：如果兩個陌生人的交互只進行一次，每個人都有很強的動機不遵守通常的道德規(guī)則。比如，景區(qū)飯店招待的客人通常一輩子只來一次，因此，飯店并不期望招攬“回頭客”，它就有很強的動機“宰客”。另外一個典型的例子就是老人摔倒了，要不要扶的問題，這也是一個囚徒困境：如果兩個人都做好人，都遵守通常的道德規(guī)則，見到老人摔倒去扶、被扶的老人表示感謝不去敲詐扶他的人，大家的境況都會變好，但是，現(xiàn)實中的均衡有時是，見到老人摔倒不扶，被扶的時有敲詐好人。

如何克服這一困境呢？

三、進化博弈與策略選擇

如果是否遵守道德規(guī)則的問題是囚徒困境，現(xiàn)有的研究告訴我們?nèi)魏斡邢薮螖?shù)的博弈都不能逃脫這一困境。⑤在沒有外在權(quán)威的情況下，只有通過重復(fù)博弈才能逃脫這一困境。理論上，這是一種無限重復(fù)的博弈，但是現(xiàn)實中只要雙方都不能明確知道博弈將何時終止，就可以近似地看作是無限重復(fù)博弈。例如，小區(qū)附近的便利店，只要店主和顧客都沒有預(yù)期便利店在短期之內(nèi)關(guān)門，就可以將顧客與店主之間的博弈近似地看作是無限重復(fù)博弈。

那么，從個體角度，采用什么樣的策略才能使個人收益最大化？假設(shè)是否遵守道德規(guī)則的博弈進行N回合，每個回合參與者都有遵守和不遵守兩個選項，那么N回合中，每個參與者可能的策略組合都有2n個。如何從這2n個可能策略中，選擇收益最大化的策略？實際上，沒有人知道該選哪個策略。在這里，“選擇”是一種幻象：一方面，沒有人能夠窮盡2n個策略，對每一個策略做徹底的研究，另一方面，在博弈中，每個人的收益既取決于自身的策略選擇也取決于對方的策略選擇。因此，收益最大的策略并不能靠事先的計算被“選擇”出來。在進化機制中，通過人們不斷地試錯，收益更大的策略在優(yōu)勝劣汰的競爭中浮現(xiàn)才是更現(xiàn)實的路徑。那么，進化機制又是如何發(fā)揮作用的呢？

在N回合的是否遵守道德規(guī)則的囚徒困境中，我們用V（A|B）來指代策略A與B博弈時A的收益，用w代表參與博弈雙方再次進行博弈的概率。在2n種策略中，有一些極為簡單的情形，其收益是可以直接計算的。比如，雙方都選擇完全遵守道德規(guī)則，那么根據(jù)以上收益矩陣，則每個回合雙方都得到R的收益，將未來收益做一個折現(xiàn)，則有：

V（完全遵守|完全遵守）=R+wR+w2R+w3R…wnR=R/（1-w）

類似地，如果雙方都完全不遵守道德規(guī)則，則有：

V（完全不遵守|完全不遵守）=P+wP+w2P+w3P…wnP=P/（1-w）

如果w足夠大（比如，0.9），即雙方未來重復(fù)博弈的概率足夠大，則可以直觀地看出，雙方都完全遵守道德規(guī)則的收益要遠遠大于雙方都不遵守的情況。理論上，R/（1-w）是個人在長期重復(fù)博弈中所能期望的最大預(yù)期收益。雖然，V（完全不遵守|完全遵守）=T+wT+w2T+w3T…wnT=T/（1-w）>R/（1-w），但是，現(xiàn)實中沒有人能夠忍受長期的剝削而不改變策略。筆者在課堂上所做的實驗中，T/（1-w）的收益值從未出現(xiàn)過。

那么，不同策略所對應(yīng)的不同預(yù)期收益值意味著什么呢？在進化博弈論中，這些預(yù)期收益值可以做兩種解釋：（1）在生物界中，不同的預(yù)期收益代表著不同的適應(yīng)水平，而不同的適應(yīng)水平將決定個體所能繁衍后代的數(shù)量，（2）在人類社會中，不同策略的收益值代表相應(yīng)策略在人群中出現(xiàn)的頻率，因為人類可以復(fù)制他人的成功策略，預(yù)期收益越高的策略在人群中出現(xiàn)的頻率越高，預(yù)期收益低的策略會被人們拋棄。關(guān)鍵在于，囚徒困境博弈是非零和博弈，彼此合作的行為將產(chǎn)生增量，從而使參與雙方的境況都變好。例如，如果兩匹狼能夠彼此合作，它們將能夠捕獲比它們單獨捕獵更大更多的獵物，從而養(yǎng)活更多后代，因此它們的適應(yīng)水平都提高了。在人類社會中，因為人們可以相對容易地復(fù)制預(yù)期收益更高的策略，被淘汰的不是人類個體而是策略本身。

至此，我們已經(jīng)了解基本的原理，但我們還是不知道在2n種策略中哪些是更成功的。1980年代，隨著計算機的日益普及，科學(xué)家們開始使用計算機模擬的方式來尋找答案。其中，最引人注目的研究來自政治科學(xué)家羅伯特·阿克塞爾羅德。阿克塞爾羅德舉辦了兩次錦標(biāo)賽，讓計算機科學(xué)家、生物學(xué)家、心理學(xué)家、政治學(xué)家、經(jīng)濟學(xué)家、數(shù)學(xué)家以及計算機愛好者提交計算機程序，這些計算機程序會執(zhí)行不同的、參與重復(fù)博弈的囚徒困境的策略。在這兩次錦標(biāo)賽中，一個非常成功的策略脫穎而出，在所有策略中獲得了最高的平均分數(shù)。這個策略就是著名的“以牙還牙”策略（Tit For Tat，下文簡稱TFT）。令人驚訝的是，TFT是一個非常簡單的策略：第一個回合總是合作（遵守道德規(guī)則），接下來的每一個回合都簡單拷貝對方上一個回合的策略。TFT有很多優(yōu)點，比如，當(dāng)兩個參與者都執(zhí)行TFT的策略時，他們的預(yù)期收益是：

V（TFT|TFT）=R+wR+w2R+w3R…wnR=R/（1-w）

可以看到，當(dāng)雙方都執(zhí)行TFT策略時，他們達成了合作（都遵守道德規(guī)則）并且達到了最高的預(yù)期收益R/（1-w）?；诖?，當(dāng)TFT遇到友善的策略時，它能夠達到很高的預(yù)期收益。同時，當(dāng)TFT遇到“壞人”的時候，它并不會受到剝削：

V（TFT|完全不遵守）=S+wP+w2P+w3P…wnP=S+wP/（1-w）

當(dāng)w足夠大，這一預(yù)期收益近似等于P/（1-w），與V（完全不遵守|完全不遵守）=P/（1-w）相同，因此，即便在“壞人”中執(zhí)行TFT策略的個體也不會吃虧。⑥

阿克塞爾羅德基于TFT做出的最重要的結(jié)論在于：基于進化博弈論，即便沒有中央權(quán)威的干預(yù)，TFT也將促使合作在非合作的人口當(dāng)中出現(xiàn)并使其成為集體穩(wěn)定策略（Collective Stable Strategy）——這便是合作的進化?？梢韵胂筮@樣一個類似于霍布斯自然狀態(tài)的共同體（規(guī)模不能太大），在其中，所有人都是“壞人”：他們彼此攻擊、傷害，每個人的策略都是完全不遵守道德規(guī)則，所以他們的平均預(yù)期收益是P/（1-w）。只要給這個共同體中的人們足夠長的時間去試錯，這樣的情形遲早會出現(xiàn)：一小部分人最終發(fā)現(xiàn)了一個有效的策略，即TFT。在這個共同體中，當(dāng)TFT策略的執(zhí)行者遇到一個完全不遵守道德規(guī)則的人，他所得到的預(yù)期收益仍然近似于P/（1-w），近似等于共同體平均值，但當(dāng)他遇到另一個TFT策略的執(zhí)行者時，他的預(yù)期收益將是R/（1-w）遠遠大于共同體平均值。這樣，當(dāng)他遇到另外一個TFT策略執(zhí)行者的概率越高，他的預(yù)期收益就越大于共同體平均值。但不論如何，他的預(yù)期收益都要大于共同體平均值。這樣，當(dāng)其他人注意到TFT策略收益更高時，TFT策略將很快在人群中傳播開來，并被大部分人采用。這樣，基于逐利的動機，“壞人”的共同體很快會轉(zhuǎn)變?yōu)橐粋€“以牙還牙”的共同體。用進化博弈論的術(shù)語說，TFT的策略“入侵”了執(zhí)行完全不遵守道德規(guī)則這一策略的人口。并且，TFT策略具有集體穩(wěn)定性，它可以入侵完全不遵守道德規(guī)則的策略，但是完全不遵守的策略卻不能入侵TFT，因為在執(zhí)行TFT策略的人口中使用完全不遵守的策略其收益低于平均值。

1990年代，馬丁·諾瓦克同樣用計算機模擬的方法為我們揭示了一個更大的圖景，并發(fā)現(xiàn)了幾個比TFT更成功的策略。⑦在這個更大的圖景中，合作的策略與不合作的策略在整個人口中表現(xiàn)為一個大的循環(huán)。應(yīng)用于是否遵守道德規(guī)則的問題，則頗有幾分中國文化中天道循環(huán)的意味。想象一個小的共同體，一開始，在是否遵守道德規(guī)則的問題上，自利的理性人誰也不知道哪種策略更有效，所有人都在隨機試錯。很快，友好的策略因為受到惡劣策略的剝削而慢慢消亡，整個人口被完全不遵守道德規(guī)則的策略占據(jù)，此時整個人口的平均預(yù)期收益很低。經(jīng)過很多代的演化，基于策略的隨機突變，在某個時刻會出現(xiàn)數(shù)量足夠多的TFT玩家，此后TFT策略很快在這個小共同體中傳播并占據(jù)整個人口。TFT具有一定的穩(wěn)定性，它不能被完全不遵守道德規(guī)則的策略入侵。不過，不論在自然界還是人類社會，人和動物都會有偶爾犯錯的時候，如果兩個玩家的一方因為偶爾犯錯而沒有遵守道德規(guī)則，將導(dǎo)致TFT策略一長串的報復(fù)行為。這將降低TFT策略的預(yù)期收益。這樣，在TFT所占據(jù)的人口中，更友好的策略，比如“慷慨的以牙還牙”⑧“帕夫洛夫”⑨策略會入侵TFT人口。最終，這個小的共同體將進化到一個所有人都完全遵守道德規(guī)則的階段。這將是這個小共同體的“黃金時代”。但遺憾的是，所有人都遵守道德規(guī)則的策略不具有穩(wěn)定性，它很容易受到完全不遵守道德規(guī)則策略的剝削和入侵。因為此時完全遵守道德規(guī)則的平均預(yù)期收益為R/（1-w），但是完全不遵守的收益為：V（完全不遵守|完全遵守）=T/（1-w），它大于平均收益。在這個人人都遵守道德規(guī)則的黃金時代，突變而來的、完全不遵守道德規(guī)則的策略有豐富的獵物可供其剝削。這樣，這個“黃金時代”在經(jīng)歷僅僅4到5代的演化，就會返回最初的混沌狀態(tài)。因而，在沒有外在權(quán)威干預(yù)的情況下，是否遵守道德規(guī)則的博弈將呈現(xiàn)出周而復(fù)始的大循環(huán)。

當(dāng)然，對于今天的個人而言，沒有人經(jīng)歷過從同類相食到不可殺人的試錯過程，如果不是考古人類學(xué)的發(fā)現(xiàn)這個階段甚至已經(jīng)湮滅在人類歷史的長河之中。個人的道德觀念是從家庭、周邊社會環(huán)境和傳統(tǒng)中習(xí)得的——對大多數(shù)人而言，做好人還是壞人并不是一個審慎反思和有意識選擇的結(jié)果。同時，如果沒有這些道德規(guī)則，社會合作尤其是今天超大規(guī)模的社會合作就不可能維持。所以，任何共同體都有維護其道德規(guī)則的壓力，并對違反道德規(guī)則的行為給予相應(yīng)的懲罰。同時，道德規(guī)則演化的歷史過于久遠，那個同類相食的時代早已淡出人類的記憶。如此一來，道德規(guī)則與道德觀念很容易成為某種神秘的東西：人們被告知應(yīng)遵守一些基本的道德規(guī)則，但為什么要遵守的理由卻五花八門甚至相互矛盾。今天，有各種各樣的規(guī)范道德理論給出為什么我們“應(yīng)該”遵守道德規(guī)則的理由，一定程度上，這些理論都帶有虛構(gòu)的性質(zhì)，因為它們并不是建立在對道德規(guī)則背后機制的透徹了解之上。

好消息是，對于今天的個人而言，有諸多因素會讓好人更好過、受到更多獎勵以及得到更多機會。第一，當(dāng)今的生產(chǎn)生活方式使人們有更多機會參與到增量的生產(chǎn)與創(chuàng)造活動中，而非卷入對存量的爭奪。工業(yè)經(jīng)濟以及后工業(yè)時代的知識經(jīng)濟，經(jīng)濟產(chǎn)出每年都會以一定的速度增長（例如，GDP以每年2%左右的速度增長），一個工業(yè)國家的經(jīng)濟規(guī)模在幾十年內(nèi)翻倍是很正常的現(xiàn)象。這種增長在農(nóng)耕時代是很難想象的。農(nóng)耕時代每年的經(jīng)濟產(chǎn)出雖有波動，但大體上是一個恒量，其產(chǎn)出主要取決于耕地面積，而耕地面積不可能像工業(yè)產(chǎn)出那樣長期持續(xù)增長。第二，相關(guān)的，今天的人們都生活在超大規(guī)模的社會，進行著超大規(guī)模的社會合作，這種合作對于一個共同體道德水準(zhǔn)的要求會越來越高而非相反。因而，一個更善于與他人展開合作的個人會得到更多機會，一個“壞人”的名聲并不能招徠好運。正如英語中一句諺語所說，“好人最先完成”，好人會更適應(yīng)展開大規(guī)模合作的社會，因為我們都是“超級合作者”。第三，信息時代的信息傳播成本越來越低，這就使得以往單次博弈、做一錘子買賣的場合越來越少。例如，網(wǎng)店買家與賣家的交易因為有評價機制的存在使得單個買家與網(wǎng)店的單次博弈變成了所有買家與網(wǎng)店的重復(fù)博弈，因而單次欺騙行為與長期收益相比就變得不劃算。再比如，在某個遙遠地方以“碰瓷”為生的人，只要一次曝光，他很快就會被幾乎所有人認識，他的“一錘子買賣”就很難繼續(xù)做下去。

結(jié)論

綜上所述，基于進化博弈論的視角，我們可以得出如下幾點結(jié)論：

第一，做好人、遵守道德規(guī)則首先是一項集體的要求。這一要求優(yōu)先考慮的是集體的收益而非個人的收益，只有共同體的所有成員都遵守道德規(guī)則才能達到最優(yōu)的集體收益。所有人都做壞人、都不遵守道德規(guī)則乃是集體的不可承受之重，這樣的共同體在面對生存競爭時是無法生存下去的。惡人不可成邦：一個完全由十惡不赦的惡棍組成的共同體從原理上就不可能。

第二，我們不需要過于擔(dān)心“禮崩樂壞”“人心不古”之類所謂的道德退化。進化機制能夠保證道德規(guī)則在人類社會合作的演化中出現(xiàn)，它也能保證道德規(guī)則的存續(xù)——只要有社會合作就必然有道德。并且，隨著人類社會合作的水平和規(guī)模的提高，道德規(guī)則與觀念只會進化而不會退化。

第三，對個人而言，做好人的最重要理由在于社會合作。在個人的“熟人圈子”中，做一個好人的益處毋庸諱言。在更廣闊的社會生活中，有諸多機制促使一個人遵守道德規(guī)則、成為一個潛在的合作者。比如，名譽的機制，一個人即便對陌生人橫眉冷對也會被身邊的人觀察到，從而影響到對其“人品”的判斷，比如，社會生活的極度復(fù)雜與不確定性，讓人很難判斷與一個陌生人的交往是否會發(fā)展成長期合作，以一以貫之的方式行事反而省心省力，再比如，社會作為一個整體也會有很多手段和途徑懲罰違規(guī)者，這就是中國古語所說的“多行不義必自斃”?？傮w上，做一個好人能夠贏得更多參與社會合作的機會，即便除去少數(shù)情況下好人吃虧的情形，其長期總體收益也會更高。

① 姚大志：《我們何以負有服從規(guī)則的道德義務(wù)》，《哲學(xué)研究》2017年第10期，第92頁。

② Robert Axelrod，“The Evolution of Cooperation，”Science， 1981（vol.211），pp.1390-1396.

③ Garrett Hardin，“The Tragedy of the Commons，”Science， 1968， 162（3859），pp.1243-1248.

④ David Gauthier，Morals by Agreement， Oxford University Press on Demand， 1986， Preface.

⑤ R.D. Luce and H， Raiffa，Games and Decisions， New York： John Wiley & Sons， 1957，pp.94-102.

⑥ Robert Axelrod，“The Emergence of Cooperation among Egoists”，American Political Science Review， 1981（75.2），pp.306-318.

⑦ Lorens A. Imhof， Drew Fudenberg， Martin A. Nowak，“Evolutionary Cycles of Cooperation and Defection，”Proceedings of the National Academy of Sciences， 2005 （102.31），pp.10797-10800.

⑧ Martin Nowak， Karl Sigmund， “Tit For Tat in Heterogeneous Populations，”Nature，1992（355.6357），pp.250-253.

⑨ Martin Nowak， Karl Sigmund，“A Strategy of WinStay， LoseShift that Outperforms TitForTat in the Prisoners Dilemma Game，”Nature， 1993 （364.6432），pp.56-58.

⑩ Martin Nowak， et al. “Emergence of Cooperation and Evolutionary Stability in Finite Populations，”Nature， 2004 （428.6983），pp.646.

Elinor Ostrom， James Walker， and Roy Gardner， “Covenants with and without a Sword： Self-Governance is Possible，”American Political Science Review， 1992（86.2），pp.404-417.

因為老子所說的“國”并不是國家而是城市?？紤]到老子時代城市的規(guī)模，“小國”則更接近本文所說的小型共同體的規(guī)模。

Fernández-Jalvo， Yolanda， et al. “Evidence of Early Cannibalism，”ScienceAAASWeekly Paper Edition， 1996 （271.5247），pp.275.

Gat Azar，War in Human Civilization， New York： Oxford University Press Inc.， 2006，pp.13-16.

Richard Joyce，The Evolution of Morality， MIT press， 2007，p.42.

Martin Nowak， Roger Highfield，“Supercooperators： Altruism， Evolution， and Why We Need Each Other to Succeed，”Simon and Schuster， 2011， Chapter 14.

（責(zé)任編輯：顏沖）

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

善與惡的計算：為什么要做好人