倫理學(xué)視角下的囚徒困境
——博弈論在倫理學(xué)應(yīng)用一例

2017-05-03 01:57:26鄒崇理

重慶理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)) 2017年4期

關(guān)鍵詞：困境策略

趙靚，鄒崇理

(中國(guó)社會(huì)科學(xué)院 a.研究生院, 北京 102488; b.哲學(xué)所, 北京 100732)

倫理學(xué)視角下的囚徒困境
——博弈論在倫理學(xué)應(yīng)用一例

趙靚a，鄒崇理b

(中國(guó)社會(huì)科學(xué)院 a.研究生院, 北京 102488; b.哲學(xué)所, 北京 100732)

基于倫理學(xué)視角分析囚徒困境的博弈論模型及其拓展形式，利用博弈論的語言例示“集體利益”和“個(gè)人利益”的關(guān)系，否證“每個(gè)人追求個(gè)人利益最大化就可以實(shí)現(xiàn)集體利益最大化”這一論斷。并將其推廣到未知次數(shù)的重復(fù)囚徒困境的動(dòng)態(tài)博弈問題，得出“首善”和“寬容”是成功策略的兩個(gè)重要因素的結(jié)論。

納什均衡；囚徒困境；合伙人博弈；利他；倫理學(xué)；博弈論

一、引言：倫理學(xué)與博弈論

借助效用理論的公理、利用博弈論的方法給倫理學(xué)中的問題建模，這種倫理學(xué)研究路徑在20世紀(jì)50年代開始活躍起來[1]。本文涉及的領(lǐng)域是博弈論和倫理學(xué)的交叉領(lǐng)域，具體來講就是使用博弈論的方法研究倫理學(xué)中的問題，也就是說，倫理學(xué)中的倫理問題是研究對(duì)象，而博弈論是研究手段和方法。

我們首先來看一下傳統(tǒng)倫理學(xué)中的一些問題。倫理學(xué)也稱為“道德哲學(xué)”，倫理學(xué)要研究的問題也就是所謂的“道德問題”。本文所講的“道德”是如下定義的：

一個(gè)社會(huì)群體中所認(rèn)可的所有行為準(zhǔn)則就是這個(gè)群體的道德。

比如說，“在一個(gè)群體內(nèi)任何個(gè)體都不應(yīng)剝奪另一個(gè)個(gè)體的生命”是一條“道德準(zhǔn)則”，一個(gè)群體內(nèi)所有的道德準(zhǔn)則就是這個(gè)群體的道德。如前文給出的這個(gè)道德準(zhǔn)則就是對(duì)個(gè)體行為的一個(gè)“道德判斷”，確切地講，是一個(gè)可以判斷一類行為是否“應(yīng)該”的模態(tài)判斷。但是，這條看似很理想的道德判斷標(biāo)準(zhǔn)有個(gè)很嚴(yán)重的問題，就是應(yīng)該發(fā)生的行為不一定真實(shí)發(fā)生，而不應(yīng)該發(fā)生的行為也可能真實(shí)發(fā)生。一個(gè)行為發(fā)生之后，行為準(zhǔn)則只能判斷這個(gè)行為的“對(duì)錯(cuò)”，或者說這個(gè)行為符合或不符合道德。而我們?nèi)祟惿鐣?huì)顯然并不完全采用上面那條道德判斷標(biāo)準(zhǔn)，比如說，正當(dāng)防衛(wèi)中剝奪了對(duì)方的生命這種行為通常被認(rèn)為是符合道德的，甚至是符合法律的?！八佬獭钡膱?zhí)行過程實(shí)際上是在剝奪一個(gè)個(gè)體的生命，而這種行為通常被認(rèn)為是符合道德和法律的。

從上面簡(jiǎn)單的定義和事例分析看，倫理學(xué)已經(jīng)很有博弈論的味道了。倫理學(xué)研究的是某個(gè)群體中的個(gè)體之間的互動(dòng)行為，個(gè)體就對(duì)應(yīng)于博弈論中的“參與人”，而個(gè)體可能發(fā)生的行為就對(duì)應(yīng)于博弈論所說的“策略”。但是，博弈論關(guān)心的是在參與人確定、策略空間確定和支付函數(shù)確定的條件下追求自身利益最大化的參與者們將會(huì)采取哪種策略，或者說博弈論是對(duì)行為的預(yù)測(cè)，而倫理學(xué)是對(duì)行為“應(yīng)該”與否的判斷。博弈論在參與人都追求自身利益最大化這個(gè)假設(shè)下預(yù)測(cè)到的將會(huì)發(fā)生的行為往往不是道德判斷“應(yīng)該”的行為，所以道德判斷標(biāo)準(zhǔn)背后的根本標(biāo)準(zhǔn)肯定不是追求個(gè)體利益最大化，否則道德判斷將和博弈預(yù)測(cè)完全一致。但是，人們更容易忽視的是：在個(gè)體追求利益最大化這個(gè)假設(shè)下，參與人會(huì)做出看似“合作”“公平”“正義”，甚至“犧牲”這些在道德上認(rèn)為是“應(yīng)該”的行為。

比如說兩個(gè)追求自己利益最大化的小偷，準(zhǔn)備分贓偷來的1萬元，如果分錢的規(guī)則已經(jīng)確定，一個(gè)人把這1萬元鈔票分成兩疊，而另一個(gè)人可以從兩疊中選擇一疊。在這個(gè)規(guī)則下，最終結(jié)果一定是這1萬元被等分成了5 000元一疊的兩疊鈔票，每人都得到一樣多的贓款，即5 000元，這個(gè)結(jié)果絕對(duì)不會(huì)出現(xiàn)意外。如果分鈔票的人沒有平均分成兩疊，一疊錢多，另一疊錢少，而對(duì)方也是追求利益最大化的個(gè)體，對(duì)方一定會(huì)選擇錢多的那一份，那么自己只能選擇錢少的那一份。由于分錢的那個(gè)人也是追求利益最大化的個(gè)體，而且他知道對(duì)方也是追求利益最大化的個(gè)體，并且兩個(gè)人“都不傻”，所以分錢的人只能把錢平均分成兩份。在這個(gè)最簡(jiǎn)單的博弈中，出現(xiàn)了“盜亦有道”中所謂的“公平”。

實(shí)際上，在個(gè)體追求利益最大化這個(gè)假設(shè)下所預(yù)測(cè)的參與人的行為并不總是和“道德”標(biāo)準(zhǔn)所提倡的“應(yīng)該”行為相矛盾。但是，很多道德標(biāo)準(zhǔn)并不是從個(gè)體利益最大化來判斷的，而是從群體利益最大化來判斷的，所以這兩個(gè)標(biāo)準(zhǔn)往往會(huì)發(fā)生沖突。直白地講，每個(gè)個(gè)體的利益都想實(shí)現(xiàn)最大化，但是把這些最大化的個(gè)體利益求和卻往往不是整體利益最大化；并且，個(gè)體追求自身利益最大化更不可能實(shí)現(xiàn)個(gè)體之間的“公平”。但是，通過剛才的例子已經(jīng)看到：只要對(duì)博弈規(guī)則進(jìn)行設(shè)定，就可以在維持個(gè)體追求自身利益最大化這個(gè)前提下實(shí)現(xiàn)個(gè)體之間的“公平”這個(gè)道德所提倡的“應(yīng)該”行為[2]。

二、兩人博弈中合作關(guān)系的形成

(一)囚徒困境及其拓展形式

下面我們通過對(duì)比囚徒困境、性別博弈以及合伙人博弈來說明：如何在維持個(gè)體追求自身利益最大化這個(gè)前提下實(shí)現(xiàn)或者盡可能實(shí)現(xiàn)“公平”“合作”和群體利益最大化。

下面分析博弈論中典型的囚徒困境(圖1)[4]：

參與人2αβ參與人1αβ-1,-1-9,00,-9-6,-6

圖1 囚徒困境的博弈論模型

其中，α代表“沉默”策略，β代表“坦白”策略。這個(gè)博弈中只有一個(gè)唯一的納什均衡，也即(坦白，坦白)，而這個(gè)博弈結(jié)果對(duì)于兩個(gè)人的總收益而言是最低的，即-12，而一方坦白一方沉默的雙方總收益是-9。事實(shí)上，雙方都選擇“沉默”的總收益是-2，對(duì)于雙方總收益而言，這是最好的結(jié)果，但是這不是一個(gè)納什均衡，所以不能實(shí)現(xiàn)。需要注意的是，(沉默，沉默)這個(gè)結(jié)果不僅僅對(duì)于雙方總收益來講是最好的策略，而且對(duì)于各個(gè)參與人而言，所得的收益也比(坦白，坦白)要好，因?yàn)槎继拱酌總€(gè)人要被判6年徒刑，而都沉默的話，由于證據(jù)不充分，每個(gè)人只能判一年。兩個(gè)囚犯能否形成一個(gè)(沉默，沉默)的協(xié)議來避免囚徒困境中最糟糕的情況出現(xiàn)呢？要注意的是，這個(gè)協(xié)議并不是為了共同受益最大，而是為了各自能夠獲得比納什均衡更大的利益。事實(shí)上，按照博弈的規(guī)則，這個(gè)協(xié)議不能達(dá)成。換言之，(沉默，沉默)并不是一個(gè)納什均衡，因?yàn)楫?dāng)對(duì)方的策略是“沉默”的時(shí)候，對(duì)自己而言“沉默”就不是最佳策略，因?yàn)殡p方沉默，每個(gè)人仍然會(huì)被判刑一年，但是對(duì)方“沉默”，而自己“坦白”就是更好的策略，因?yàn)檫@樣自己就無罪釋放了。也就是說，策略組合(沉默，沉默)中雙方都會(huì)后悔自己的策略，因?yàn)槿绻懒藢?duì)方的策略是沉默，按照定義，追求利益最大化的參與人都會(huì)選擇坦白策略獲得最大收益。當(dāng)然一方“沉默”，另一方“坦白”的那兩個(gè)策略組合更不是納什均衡，因?yàn)楸惶拱椎某聊环娇隙ǜ蠡?。只?坦白，坦白)這個(gè)策略組合才是納什均衡，因?yàn)榧词闺p方后來知道了對(duì)方的策略，也都不會(huì)后悔，因?yàn)槊鎸?duì)對(duì)方“坦白”的策略，自己也只有選擇“坦白”這個(gè)策略才是最佳對(duì)策。

如果我們把這個(gè)博弈中的支付矩陣改變一下，(沉默，沉默)的結(jié)果都是證據(jù)不足，無罪釋放(圖2)。

參與人2αβ參與人1αβ0,0-9,00,-9-6,-6

圖2 囚徒困境的博弈論模型的拓展

此時(shí)，“沉默”對(duì)每個(gè)參與人而言并不是嚴(yán)格劣策略，(沉默，沉默)和(坦白，坦白)都是納什均衡。此時(shí)的博弈已經(jīng)不是“囚徒困境”，而是更接近兩個(gè)納什均衡的“性別戰(zhàn)爭(zhēng)”：參與人知道對(duì)方的策略之后，將會(huì)直接影響到自己的策略，具體來說，如果對(duì)方采用的是“坦白”策略，那么參與人自己就只能也選擇“坦白”策略；而如果對(duì)方采用的是“沉默”策略，那么參與人無論選擇“沉默”還是“坦白”，自己的收益都是一樣的，都是0。換言之，如果我知道對(duì)方保持沉默，沒有坦白，那么我坦白后也不會(huì)給我?guī)砣魏魏锰帲驗(yàn)樵趯?duì)方選擇“沉默”之后，此時(shí)參與人自己的收益都是一樣的，所以參與人知道對(duì)方選擇“沉默”之后沒有動(dòng)力去“坦白”，這是和上面囚徒困境完全不同的結(jié)論。也就是說，此時(shí)彼此沉默的協(xié)議可以達(dá)成，而且協(xié)議達(dá)成之后雙方都沒有動(dòng)力去破壞這個(gè)協(xié)議。由于(0,0)和(-6,-6)相比不但是雙方最好的收益，也是各自最好的收益。唯一可以使納什均衡從(沉默，沉默)變?yōu)?坦白，坦白)的方法就是要設(shè)法讓參與人知道對(duì)方選擇了“坦白”策略。

在性別博弈[3]中也有兩個(gè)納什均衡，但是這兩個(gè)納什均衡是不對(duì)稱的(圖3)。

參與人2αβ參與人1αβ2,10,00,01,2

圖3 性別博弈模型

其中，α代表“看球賽”策略，β代表“看電影”策略。總之，兩個(gè)人在一起約會(huì)是重點(diǎn)，看球賽還是看電影是次要的。在這個(gè)博弈中，(看球賽，看球賽)和(看電影，看電影)都是納什均衡，但是和上面的那個(gè)博弈比較，這里面有兩點(diǎn)不同：一是兩個(gè)均衡的總收益都是3，并不存在一個(gè)均衡的總收益比另一個(gè)均衡更好的情況；二是兩個(gè)納什均衡的參與人的收益不同，也就是說不管哪個(gè)均衡，都必須有人讓步吃虧。但是，上面無論是(沉默，沉默)還是(坦白，坦白)，雙方在任意納什均衡中的收益都是一樣的，而且(沉默，沉默)的總收益高于(坦白，坦白)，所以相比較而言，性別博弈中的協(xié)議更不容易達(dá)成。

(二)合伙人博弈

下面分析“合伙人博弈”的博弈模型[5]。這個(gè)模型實(shí)際上是“囚徒困境”的博弈模型的一種推廣。

參與人：1和2

策略空間：S=[0,4]

支付函數(shù)：

在這個(gè)博弈中，兩個(gè)參與人合伙開了一家公司，公司收入按照五五分成。每個(gè)人的付出被設(shè)定為一個(gè)連續(xù)閉區(qū)間[0,4]。這里的“付出”是抽象的概念，包括時(shí)間、體力、腦力等個(gè)人工作付出，不包括資本的付出。通過支付函數(shù)可以反向推出整個(gè)公司的收入是4(s1+s2+bs1s2)。其中，b是一個(gè)大于0小于1的常數(shù)，bs1s2代表兩個(gè)人共同協(xié)作產(chǎn)生的額外價(jià)值，如果兩個(gè)人協(xié)作之后創(chuàng)造的價(jià)值和兩個(gè)人各自創(chuàng)造的價(jià)值相等，那么兩個(gè)人就沒有合作的必要。下面求出兩個(gè)參與人彼此相對(duì)的BR(Best Response)，在u1(s1,s2)中對(duì)s1求導(dǎo)得到導(dǎo)函數(shù):

當(dāng)這個(gè)導(dǎo)函數(shù)等于0時(shí)，解得s1相對(duì)s2的最佳對(duì)策BR(s2)：

同理可得s2相對(duì)s1的最佳對(duì)策BR(s1)：

圖4 參與人彼此相對(duì)的BR的圖像

兩條線的交點(diǎn)就代表納什均衡NE，可以計(jì)算出這個(gè)納什均衡就是：

(1/(1-b), 1/(1-b))

s1=s2= 2/(1-2b)，

從合伙人博弈中我們看到，為了“集體”或“利益共同體”而勸說參與方付出盡可能大的努力很可能是失敗的，這是典型的“集體利益”和“個(gè)人利益”發(fā)生沖突的現(xiàn)象。當(dāng)每個(gè)參與人都追求各自利益最大化時(shí)，并不能導(dǎo)致集體利益最大化，所以鼓吹人人為己、人人都追求自身價(jià)值最大化就能帶來社會(huì)價(jià)值最大化的論調(diào)是站不住腳的。

三、連續(xù)囚徒困境博弈中合作關(guān)系的形成

(一)囚徒困境的悖論

前面講的是兩人博弈中合作關(guān)系是如何形成的，下面要分析的是多人博弈中，互助關(guān)系是如何形成的。多人之間的互助關(guān)系和兩人博弈的合作關(guān)系最大的不同，是多人之間的互助并不一定及時(shí)發(fā)生在兩個(gè)人之間，也就是說在多個(gè)博弈參與人構(gòu)成的群體中，其中某個(gè)體向另一個(gè)體做出的利他行為往往不能得到對(duì)方的及時(shí)回報(bào)，而有可能是群體中另外的個(gè)體向這個(gè)利他主義行為人做出回報(bào)，最終在形成互助關(guān)系的群體中，從整體平均的角度看每個(gè)博弈的參與人個(gè)體都得到了比自己?jiǎn)为?dú)生存更大的利益。

關(guān)于囚徒困境，需要指出的是這個(gè)博弈并不是零和博弈。也就是說，博弈中一方的獲益并不需要以另一方的損失為代價(jià)。實(shí)際生活中，囚徒困境是普遍存在的，甚至可以說是隨處可見的。中國(guó)動(dòng)畫片里面最具代表性的 “一個(gè)和尚挑水喝，兩個(gè)和尚抬水喝，三個(gè)和尚沒水喝”就很能說明問題。因?yàn)樗艋貋碇蟛荒芩阶源娣牛荒芊诺焦驳膬?chǔ)水池中，所以讓對(duì)方挑兩桶水，自己白喝是自己收益最大、對(duì)方收益最小。兩個(gè)人每人挑兩桶水是共同利益最大，但是有一個(gè)人挑兩桶水，另一個(gè)人的最佳策略就是歇著不挑水。而兩個(gè)人一起挑水反而只能用一根扁擔(dān)挑一桶水。這里，利益來源是大自然的水，并不是一方的利益來自另一方的損失，所以這不是零和博弈。如果沒有來第二個(gè)和尚，那么一個(gè)和尚一趟可以挑兩桶水，而來了另一個(gè)和尚之后反而兩個(gè)和尚一趟只能一起挑一桶水了。

反復(fù)被研究的囚徒困境之所以被稱為“困境”，是因?yàn)槿绻紤]共同收益，那么(沉默，沉默)是共同收益最大的情況，即收益為(-1)+(-1)=-2，而(坦白，坦白)這個(gè)博弈解確是使共同收益最小的情況，即收益為(-6)+(-6)=-12(見圖1)。這使得囚徒困境看上去是一個(gè)悖論。博弈的納什均衡解只保證了每個(gè)參與人看到解之后不會(huì)后悔自己的策略，也即在這個(gè)解中，在其他人的策略不變的情況下，自己也沒有更好的策略。但是，每個(gè)人追求自己利益最大化的結(jié)果卻使得博弈雙方共同利益最小化。

實(shí)際上，囚徒困境中共謀的兩個(gè)罪犯如果能夠合作，雙方都保持沉默的話，那么不但可以實(shí)現(xiàn)共同收益最大，并且單方面收益也好過雙方都坦白。要建立合作關(guān)系，打破囚徒困境這個(gè)悖論的一種方式是連續(xù)無限次的囚徒困境。如果兩個(gè)參與人重復(fù)同一個(gè)囚徒困境博弈有限次，那么仍然每次都會(huì)陷入(坦白，坦白)的結(jié)果。比如，假設(shè)前面的囚徒困境重復(fù)兩次，那么第二次囚徒困境就是最后一次囚徒困境，而最后一次囚徒困境必然的結(jié)果是雙方坦白。每個(gè)參與人都知道第二次也即最后一次的結(jié)果，那么第一次囚徒困境實(shí)際上也就成了最后一次，雙方也只能坦白。也就是說重復(fù)兩次的囚徒困境，每次都是同樣的共同收益最低、個(gè)人收益次低的雙方坦白的結(jié)果。

關(guān)于非零和博弈的囚徒困境，可以換成另一種故事背景。假設(shè)兩個(gè)博弈的參與人在賭場(chǎng)進(jìn)行賭博，而游戲規(guī)則非常簡(jiǎn)單，每個(gè)參與人手上有兩張卡片，上面分別寫著“合作”與“不合作”，每次兩個(gè)參與人背扣其中一張卡片，賭場(chǎng)坐莊的莊家同時(shí)翻開兩個(gè)人給出的卡片。如果兩個(gè)參與人給出的都是“合作”卡片，那么莊家支付每個(gè)人300元，如果一方是“合作”，另一方是“不合作”，那么打出“合作”卡片的參與人支付給莊家100元，而莊家支付給打出“不合作”卡片的參與人500元。如果雙方都是打出“不合作”卡片，那么每個(gè)參與人都支付給莊家10元錢(圖5)。

參與人2合作不合作參與人1合作不合作(300,300)(-100,500)(500,-100)(-10,-10)

圖5 賭博博弈模型

在這個(gè)博弈中看上去賭場(chǎng)的莊家要賠死了，而兩個(gè)參與人要賺翻了。但是仔細(xì)想一下就會(huì)發(fā)現(xiàn)，如果兩個(gè)參與人只進(jìn)行這個(gè)游戲一次就再也不見面了，那么沒有人會(huì)冒損失100元的風(fēng)險(xiǎn)打出“合作”的卡片；即使對(duì)方確實(shí)打出的是合作的卡片，那么己方打出“不合作”的卡片會(huì)賺500元，而不是也打出“合作”卡片只賺300元；所以最終博弈雙方都會(huì)打出“不合作”的卡片，每個(gè)人給莊家10元錢。

這個(gè)博弈實(shí)際上只是換了數(shù)字的囚徒困境，單次博弈或者有限次的博弈結(jié)果都是雙方不合作這個(gè)結(jié)果。明明可以雙方合作每人都賺賭場(chǎng)莊家300元，但結(jié)果一定是每個(gè)人每次博弈都賠給賭場(chǎng)莊家10元。那么，雙方在博弈之間彼此交流、互相保證的話能否建立起合作關(guān)系呢？答案是否定的，因?yàn)榧词菇涣髦斜舜讼嗷ケＷC，這個(gè)保證也是不可置信的。因?yàn)椴┺哪Ｐ椭袇⑴c人之間只進(jìn)行有限次的博弈，所以食言失信也不會(huì)影響追求利益最大化的參與人選擇“不合作”的策略。

那么，在囚徒困境中必須要放棄追求利益最大化這個(gè)前提假設(shè)才能建立合作關(guān)系嗎？未必。實(shí)際上如果兩個(gè)參與人之間要進(jìn)行無限次囚徒困境博弈，或者說進(jìn)行“未知次數(shù)”的囚徒困境博弈時(shí)，即使保留追求利益最大化這個(gè)前提，也仍然能夠建立起“長(zhǎng)期”的彼此合作關(guān)系。關(guān)于重復(fù)無限次或未知次數(shù)的囚徒困境，Axelrod 和 Hamilton在1981年的論文TheEvolutionofCooperation[6]中第一次給出了比較詳盡的論述和計(jì)算機(jī)模擬結(jié)果。下面對(duì)這篇論文中的一些結(jié)果進(jìn)行討論。

(二)未知次數(shù)連續(xù)囚徒困境博弈

下面的討論將涉及到“善”“惡”“寬容” “報(bào)復(fù)”“信任”等倫理和認(rèn)知中常見的概念，但是要強(qiáng)調(diào)的是，這些概念在不限次重復(fù)的囚徒困境博弈中可以給出不依賴心理認(rèn)知的客觀定義。比如上面提到的和賭場(chǎng)莊家一起進(jìn)行的游戲，當(dāng)有一方打出“合作”的卡片，就可以認(rèn)為在此輪博弈中“信任”了對(duì)方，而不去考慮行為人的真實(shí)內(nèi)心活動(dòng)。

并且，這里假設(shè)在連續(xù)的重復(fù)博弈中參與人都可以觀察到以前博弈的結(jié)果，也就是說，對(duì)方前幾次是否“合作”，另一方都看在眼里記在心里。實(shí)際上參與人只有兩個(gè)策略，即“合作”與“不合作”。如果不限定次數(shù)的話，那么博弈雙方的參與人將有無限多更復(fù)雜的策略：比如最簡(jiǎn)單的“永遠(yuǎn)不合作”和“永遠(yuǎn)合作”這兩個(gè)策略；比如說第一次“合作”，然后觀察對(duì)方的策略，對(duì)方“合作”那么下一次我也“合作”，對(duì)方”不合作”那么下一次我也“不合作”，這個(gè)策略可以叫“模仿策略”(Tic for Tat)?！澳７虏呗浴笔菬o限次囚徒困境博弈要重點(diǎn)討論的策略。實(shí)際上對(duì)應(yīng)于博弈的解，連續(xù)博弈也叫動(dòng)態(tài)博弈，而這里給出的“模仿策略”可以近似地看成這個(gè)動(dòng)態(tài)博弈的“解”，但是對(duì)于動(dòng)態(tài)博弈而言并不是要去尋找一個(gè)靜態(tài)的解，而是觀察這個(gè)博弈中是否有策略會(huì)趨于穩(wěn)定。當(dāng)然，還可以有更復(fù)雜的策略，比如一開始“合作”，然后按照某種概率“不合作”，或者一開始“不合作”，然后采用“模仿策略”一樣的策略?；蛘摺昂献鳌?，或者“不合作”，完全采用隨機(jī)策略。

我們看到無限次囚徒困境博弈中的策略也是無限多的，而且可以復(fù)雜可以簡(jiǎn)單。這里把所有對(duì)方?jīng)]有使用過“不合作”卡片而自己首先使用“不合作”卡片的一類策略叫做“始惡策略”。相應(yīng)地，當(dāng)對(duì)方?jīng)]有使用“不合作”卡片而自己也不首先使用“不合作”卡片的一類策略叫做“始善策略”。這樣無限多的策略就分成了“始善策略”和“始惡策略”兩大類。

在Axelrod第一次的計(jì)算機(jī)模擬實(shí)驗(yàn)中，包含隨機(jī)策略、模仿策略等共15個(gè)不同策略。這些策略兩兩之間(包括同一個(gè)策略自己和自己)進(jìn)行不限定次數(shù)的重復(fù)囚徒困境博弈。其中設(shè)定的數(shù)值見圖6的博弈矩陣。

參與人2合作不合作參與人1合作不合作(3,3)(0,5)(5,0)(1,1)

圖6 博弈矩陣

任何兩個(gè)策略之間連續(xù)進(jìn)行上述博弈200輪，并按照?qǐng)D6的博弈矩陣?yán)鄯e收益，從理論上講，博弈中兩個(gè)參與人之一有可能得到最高積分1 000，也有可能得到最低積分0，但是這需要一方永遠(yuǎn)合作，一方永遠(yuǎn)不合作，顯然這15個(gè)策略中沒有這種策略。而如果模仿策略自己和自己博弈，第一輪博弈雙方都是合作各取3分，隨后一直按照上一輪博弈對(duì)方的策略來進(jìn)行，也就是說隨后也只能都是合作，從而200輪博弈之后分別得到600積分。值得注意的是，這15個(gè)不同策略兩兩博弈200輪的積分都沒有超過模仿策略自己跟自己博弈的600分。實(shí)際上，可以把這個(gè)積分看成基準(zhǔn)來衡量策略的優(yōu)劣。

下面考慮一個(gè)“始惡的模仿策略”，也就是說這個(gè)策略除了第一輪采用“不合作”，之后和模仿策略完全一樣，只是完全按照上一輪對(duì)方的策略進(jìn)行，那么一個(gè)始善的模仿策略和一個(gè)始惡的模仿策略進(jìn)行博弈情況就有意思了。按照(始善模仿策略，始惡模仿策略)的形式，第一輪結(jié)果是(合作，不合作)，收益是(5,0)。第二輪結(jié)果是(不合作，合作)，收益是(0,5)。如此往復(fù)下去，進(jìn)行200輪之后，雙方各自的積分都是500。也就是說從沒有成功地進(jìn)行過一次雙方都合作的博弈。而我們前面看到始善的模仿策略，自己和自己博弈的時(shí)候是每次都成功地進(jìn)行雙方合作的博弈。而如果兩個(gè)始惡模仿策略自己進(jìn)行博弈的話，那么情況就更糟，因?yàn)榇藭r(shí)第一輪結(jié)果是(不合作，不合作)，收益是(1,1)，此后完全按照上一輪對(duì)方的策略進(jìn)行將一直都是(不合作，不合作)的結(jié)果，那么200輪博弈之后雙方各自的收益都是200。也就是說兩個(gè)始惡的模仿策略博弈將會(huì)只得到基準(zhǔn)600積分的三分之一。當(dāng)然，始惡的模仿策略還可以進(jìn)一步修改，因?yàn)榘l(fā)起了一次“不合作”這個(gè)始惡。但是，如果能夠允許對(duì)方“不合作”報(bào)復(fù)一次后，下一輪仍然進(jìn)行合作，那么和模仿策略博弈的時(shí)候仍然可以回到(合作，合作)的結(jié)果上來。雖然前面有兩次一方合作、一方不合作，但是這僅僅把各自的積分拉低了1個(gè)點(diǎn)。

實(shí)際上，這個(gè)實(shí)驗(yàn)中15個(gè)不同的策略，每個(gè)策略包括自己在內(nèi)的兩兩配對(duì)進(jìn)行博弈，最終前8名都是“始善”策略，而后7名都是“始惡”策略。而得分最高的就是始善的模仿策略(Tit for Tat)

模仿策略看上去像是“始善”策略外加“以其人之道，還治其人之身”策略。但是，模仿策略中有一個(gè)關(guān)鍵的要素，就是下一次博弈只跟上一次博弈有關(guān)，因而可以說模仿策略的記憶只有一次博弈。雖然睚眥必報(bào)，但是只是對(duì)上一次對(duì)方的不合作進(jìn)行“報(bào)復(fù)”，而更早之前對(duì)方的策略選擇并不會(huì)影響模仿策略下一次的策略選擇。也就是說，模仿策略是有限度的“寬容”和有限度的“報(bào)復(fù)”。在模仿策略基礎(chǔ)上，還可以給出更寬容的策略，比如說“對(duì)方”出現(xiàn)連續(xù)兩次“不合作”，然后報(bào)復(fù)一次“不合作”。這個(gè)寬容兩次的模仿策略雖然一開始沒有出現(xiàn)在Axelrod的計(jì)算機(jī)模擬試驗(yàn)中，但是增補(bǔ)進(jìn)去模擬后發(fā)現(xiàn)，這個(gè)更加寬容的策略甚至超過了模仿策略得到最高的積分。

四、結(jié)語

廣義的“囚徒困境”實(shí)際上就是博弈的解雖然是一個(gè)納什均衡，博弈各方?jīng)]有意愿改變自己的策略，但是這個(gè)納什均衡并不是“共同利益”最大化的結(jié)果，這就是所謂的困境。

本文提倡把倫理學(xué)看成理性行為理論的一個(gè)分支。實(shí)際上，倫理學(xué)要解決的問題是群體理性行為和這個(gè)群體中的個(gè)體理性行為之間的矛盾。但是，我們發(fā)現(xiàn)，通過干預(yù)博弈中的條件，比方說，合伙人博弈中一方付出比納什均衡更多的努力雖然不是個(gè)體理性的決策，但是可以有效提高群體利益，而且?guī)?dòng)對(duì)方參與人也投入更多努力。注意，如果參與人投入了超出納什均衡的努力，那么這是非個(gè)體理性行為，可能是這個(gè)參與人計(jì)算失誤，也可能是這個(gè)參與人出于“善意”，具體是哪個(gè)原因我們可以不管，只從最終收益的結(jié)果來評(píng)價(jià)。相應(yīng)地，如果一方付出比納什均衡更少的努力，也就是說在對(duì)方選擇納什均衡的最佳策略后自己并沒有選擇最佳策略，而是選擇了付出更少努力的策略，那么自己的收益也會(huì)小于納什均衡中的收益。這個(gè)結(jié)果可能是這一方參與人計(jì)算失誤，也有可能是這個(gè)參與人故意作惡報(bào)復(fù)對(duì)方，甚至自己遭受損失也要報(bào)復(fù)對(duì)方，但是這種心理活動(dòng)我們也可以不予考慮，僅從收益看是否“利他”還是“利己”。

從Axelrod的計(jì)算機(jī)模擬試驗(yàn)中的策略對(duì)比看，模仿策略之所以能夠勝出，一個(gè)條件是“始善”，這樣可以避免陷入循環(huán)的報(bào)復(fù)中。另一個(gè)條件是有限報(bào)復(fù)，只對(duì)上一輪“不合作”的對(duì)手報(bào)復(fù)一次，這樣可以避免利益長(zhǎng)期受損。而結(jié)果比較出乎意料，給我們的啟示是所有“始善”策略都勝過所有“始惡”策略。這說明在人際交往過程中，從長(zhǎng)期來看，“始惡”的代價(jià)是非常大的。

實(shí)際上，倫理學(xué)中的始善、始惡、報(bào)復(fù)、寬容，以及認(rèn)知領(lǐng)域的欺騙、信任等概念，可以拋開執(zhí)行這些概念的個(gè)體的心理因素，而將其單純看成是一種行為來進(jìn)行分析，這些概念可以用收益來定義。

[1] HARSANYI J C.Handbook of game theory with economic applications vol.1[M].North Holland:Elsevier Science Ltd,1992：671.

[2] BINMORE K.Game theory and the social contract vol.2 just playing[M].[S.l.]:Massachusetts Institute of Technology,1998:16-20.

[3] 羅伯特·吉本斯.博弈論基礎(chǔ)[M].高峰,譯.北京：中國(guó)社會(huì)科學(xué)出版社，2011:6-7.

[4] BINMORE K.Game theory and the social contract vol.1 playing fair[M].[S.l.]:Massachusetts Institute of Technology,1998:301.

[5] 讓-雅克·拉豐，大衛(wèi)·馬赫蒂摩.激勵(lì)理論[M].陳志俊，李艷，單萍萍，譯.北京：中國(guó)人民大學(xué)出版社，2002:145-187.

[6] AXELROD R,HAMILTONW D.The evolution of cooperation[J].Science,New Series,1981,211(4489):1390-1396.

(責(zé)任編輯張佑法)

Prisoner’s Dilemma in Ethics Perspective:Application of Game theory in Ethics

ZHAO Lianga, ZOU Chong-lib

(a.Graduate School, Chinese Academy of Social Sciences, Beijing 102488, China;b.Institute of Philosophy, Chinese Academy of Social Sciences, Beijing 100732, China)

The paper analyzes the mode of game theory and expansion form of the Prisoner’s dilemma from the perspective of the ethics; it illustrates the relationship between the “collective interests” and “private interests” by means of the language of the game theory and refutes the claim that every one pursues the maximization of the personal interests and this can maximize the collective interests. By generalizing it into unknown frequent dynamic problems of the repeated prisoner’s dilemma, it concludes that first kindness and tolerance are the two important factors for the successful strategies.

Nash Equilibrium; the Prisoner’s Dilemma; partnership game; altruistic; ethics; game theory

2017-02-22 基金項(xiàng)目：國(guó)家社會(huì)科學(xué)基金重大項(xiàng)目“基于多學(xué)科視域的認(rèn)知研究”(12&ZD119)

趙靚(1982—)，男，河北石家莊人，博士研究生，研究方向：現(xiàn)代邏輯；鄒崇理(1953—)，男，四川成都人，研究員，博士生導(dǎo)師，中國(guó)邏輯學(xué)會(huì)會(huì)長(zhǎng)，研究方向：自然語言邏輯。

趙靚，鄒崇理.倫理學(xué)視角下的囚徒困境——博弈論在倫理學(xué)應(yīng)用一例[J].重慶理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué))，2017(4):6-13.

format：ZHAO Liang, ZOU Chong-li.Prisoner’s Dilemma in Ethics Perspective: Application of Game theory in Ethics[J].Journal of Chongqing University of Technology(Social Science)，2017(4):6-13.

10.3969/j.issn.1674-8425(s).2017.04.002

中國(guó)邏輯學(xué)會(huì)會(huì)長(zhǎng) 鄒崇理研究員

B81

1674-8425(2017)04-0006-08

主持人語：

《倫理學(xué)視角下的囚徒困境——博弈論在倫理學(xué)應(yīng)用一例》一文采用數(shù)學(xué)方法給出了囚徒困境的博弈論模型及其拓展形式，從倫理學(xué)的視角分析了“集體利益”和“個(gè)人利益”的關(guān)系，對(duì)“每個(gè)人追求個(gè)人利益最大化就可以實(shí)現(xiàn)集體利益最大化”這一論斷給予了否定性的證明，最后得出“首善”和“寬容”是成功策略的兩個(gè)重要結(jié)論。該結(jié)論在倫理學(xué)和科學(xué)方法論等領(lǐng)域無疑會(huì)產(chǎn)生影響。

《超越經(jīng)典博弈思維形式之量子博弈的思維形式》一文從思維形式的定義出發(fā)，闡述經(jīng)典博弈思維形式的形成機(jī)制及其困境，剖析量子博弈思維形式的優(yōu)勢(shì)、有效性，并對(duì)博弈思維形式做出修改、完善和發(fā)展。論文值得一讀。

《概念隱喻理論視角下的經(jīng)驗(yàn)真理觀》一文討論邏輯真理的隱喻因素，涉及語句的解釋功能對(duì)于表述功能的輔助與修正。論文選題新穎，涉及“真理”這個(gè)邏輯學(xué)的核心概念，論文依據(jù)的文獻(xiàn)也比較前沿。論文值得關(guān)注。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

倫理學(xué)視角下的囚徒困境——博弈論在倫理學(xué)應(yīng)用一例

一、引言：倫理學(xué)與博弈論

二、兩人博弈中合作關(guān)系的形成

三、連續(xù)囚徒困境博弈中合作關(guān)系的形成

四、結(jié)語

倫理學(xué)視角下的囚徒困境
——博弈論在倫理學(xué)應(yīng)用一例

二、兩人博弈中合作關(guān)系的形成

三、連續(xù)囚徒困境博弈中合作關(guān)系的形成

四、結(jié)語