郭美云,黨學(xué)哲
(西南大學(xué)邏輯與智能研究中心,重慶市400715)
試析博弈困境的兩種解決方案?
——以旅行者困境為例
郭美云,黨學(xué)哲
(西南大學(xué)邏輯與智能研究中心,重慶市400715)
在博弈困境中,納什均衡所預(yù)測(cè)的博弈解與人們的直觀相矛盾,而且越來(lái)越多的博弈實(shí)驗(yàn)表明,這與現(xiàn)實(shí)博弈的結(jié)果也存在巨大反差。博弈困境的出現(xiàn)引起了人們對(duì)經(jīng)典博弈論理性預(yù)設(shè)的質(zhì)疑,從而提出不同的邏輯模型和解決方案。本文以旅行者困境為例,對(duì)Halpern&Pass提出的重復(fù)后悔度最小化模型和Capraro提出的基于聯(lián)盟與合作的概率推理模型兩種方案進(jìn)行分析比較,考察它們是如何成功地解釋和預(yù)測(cè)旅行者困境中選手實(shí)際博弈行為,并對(duì)這兩種方案的普適性問(wèn)題和應(yīng)用前景進(jìn)行了展望,同時(shí)對(duì)博弈論的基礎(chǔ)進(jìn)行了哲學(xué)反思。
博弈困境;旅行者困境;解決方案;重復(fù)后悔最小化模型;概率推理模型
納什均衡(Nash Equilibrium)概念的提出和存在性證明[1]奠定了博弈論這門學(xué)科的基礎(chǔ),為理解和預(yù)測(cè)人們?cè)诓呗曰?dòng)中的行為提供了強(qiáng)而有力的工具。但是,隨著博弈論的發(fā)展,人們普遍意識(shí)到,甚至通過(guò)實(shí)驗(yàn)研究也發(fā)現(xiàn),在有些博弈中,納什均衡所預(yù)測(cè)的博弈結(jié)果并不符合人們的直觀和各種實(shí)驗(yàn)研究的結(jié)果。人們把這些納什均衡與直觀或現(xiàn)實(shí)嚴(yán)重沖突的博弈稱為博弈困境,著名的例子有囚徒困境(Prisoner's Dilemma)、旅行者困境(Traveler's Dilemma)、蜈蚣博弈(Centipede Game)、納什討價(jià)還價(jià)問(wèn)題(Nash bargaining problem)、伯川德悖論(Bertrand competition)、公共物品供給博弈(Public Good Game)、最后通牒博弈(Ultimatum Game)和獨(dú)裁者博弈(Dictator Game)等。
旅行者困境是由著名經(jīng)濟(jì)學(xué)家Kaushik Basu于1994年[2]提出來(lái)的博弈中的一個(gè)新的困境。正如他本人所說(shuō):“旅行者困境是一個(gè)特殊的并且令人信服的悖論,在這里,無(wú)情的博弈論理性和直覺(jué)觀念無(wú)法保持一致?!盵2]391該困境融合了以往困境中具有代表性的一些主要特征,從而使博弈論中的根本問(wèn)題更為集中地得到展現(xiàn)。
旅行者困境的發(fā)現(xiàn)和提出,立刻引起了學(xué)術(shù)界的廣泛關(guān)注,國(guó)際上不少博弈論學(xué)家和邏輯學(xué)家從理論和實(shí)驗(yàn)兩個(gè)方面分別展開研究[3-7]。與此相反,國(guó)內(nèi)學(xué)者雖然對(duì)一般意義上的博弈困境及其產(chǎn)生原因已有所關(guān)注[8-9],但是對(duì)針對(duì)博弈困境的各種解決方案缺乏細(xì)致而深入的學(xué)理分析和研究。對(duì)解決方案的深入研究可以加深我們對(duì)人類社會(huì)中各種博弈困境的理解的同時(shí),有助于尋找新的理論和現(xiàn)實(shí)解決方案,還可以避免對(duì)博弈論泛泛而談的批評(píng)和指責(zé)。本文以旅行者困境為例,對(duì)Halpern&Pass提出的重復(fù)后悔度極小化模型[3]和Capraro提出的基于聯(lián)盟與合作的概率推理模型[4]兩種方案進(jìn)行分析比較,以窺它們是如何成功地解釋和預(yù)測(cè)旅行者困境中選手實(shí)際博弈行為的,并分析這兩種方案各自存在的問(wèn)題。
關(guān)于旅行者困境的描述有很多不同的變種,其中最主要的變化是提供賠償?shù)姆秶土P金的比重不同。以下給出賠償范圍為2~100、罰金為2的版本:
假設(shè)有兩名乘客從太平洋的某個(gè)島上度假后乘同一個(gè)航班返回自己的國(guó)家。不幸的是,他們的行李箱被航空公司弄丟了。兩個(gè)行李箱裝的都是他們?cè)趰u上購(gòu)買的同一種古董。航空公司答應(yīng)給予他們賠償,但因?yàn)楹茈y評(píng)估古董的實(shí)際具體價(jià)值,兩位乘客可以在2美元和100美元這個(gè)區(qū)間中任意選取一個(gè)數(shù)值要求賠償。但為了保證乘客提出合理的賠償價(jià)格,航空公司特地制定了賠償規(guī)則如下:如果他們要求賠償?shù)臄?shù)值一樣,那么航空公司就直接按這個(gè)數(shù)值提供賠償。如果他們要求賠償?shù)臄?shù)值不一樣,則按照要求少的那位乘客提出的價(jià)格標(biāo)準(zhǔn)進(jìn)行賠償,但要求少的那位乘客將獲得額外2美元的獎(jiǎng)勵(lì),而要求多的那位乘客則在要求少的那位乘客提出的價(jià)格基礎(chǔ)上減少2美元作為罰金。例如,兩位乘客提出的賠償分別為98美元和100美元,則他們獲得的賠償各自為100美元和96美元。
直觀地看,兩位乘客應(yīng)該都提出最高的賠償要求即100美元,因?yàn)檫@樣的話,他們都可以獲得100美元的賠償,或者至少雙方都應(yīng)該提出較高水平的索賠,因?yàn)檫@樣的話,即使獲得的賠償沒(méi)達(dá)到100美元,仍可以達(dá)到較高水平。
但是如果按照經(jīng)典博弈論的假設(shè),兩位乘客都是追求個(gè)人的收益最大化的理性人并且是能進(jìn)行任意有限步推理的高手,那么在給定其中一方提出100美元的賠償?shù)那闆r下,另一方會(huì)選擇放棄索賠100美元而只索賠99美元,因?yàn)槟菢拥脑?他就可以直接獲得101美元。但是另一位乘客也知道這一點(diǎn),則他會(huì)放棄索賠99美元而提出98美元的索賠,因?yàn)檫@樣的話,他將獲得100美元的賠償,而不是97美元。以此類推,按照這個(gè)邏輯,他們最終都只會(huì)選擇2美元的賠償要求,從而陷入每人只能得到2美元的困境。實(shí)際上這正是博弈論中運(yùn)用重復(fù)剔除被弱占優(yōu)策略算法(Iterated Removal of Weakly Dominated Strategy,簡(jiǎn)寫為IRWDS)和納什均衡所預(yù)測(cè)的結(jié)果。雖然整個(gè)推理過(guò)程無(wú)懈可擊,但結(jié)果卻與人們直觀嚴(yán)重沖突,并且與現(xiàn)實(shí)中人們的行為選擇也不相符合。
國(guó)際上有不少研究者針對(duì)不同版本的旅行者困境展開實(shí)驗(yàn)研究[5-7]。例如,在賠償范圍為2~100美元之間,罰金為2美元的情況下,Becker[6]等在博弈論學(xué)會(huì)的會(huì)員中間所做的調(diào)查表明,45名選手中只有3名選擇了納什均衡所預(yù)測(cè)的博弈結(jié)果(2,2),有38名選手選擇了90美元以上的索賠要求,而這38名中有31名甚至提交了96美元以上的索賠。實(shí)驗(yàn)還表明,45名選手中提交97美元索賠的選手最后獲得的收益最高,平均每人有85.09美元。而提交2美元索賠的兩名所獲得的收益是最低的,平均每人只有3.92美元。
有意思的是,實(shí)驗(yàn)研究還表明,人們實(shí)際的選擇范圍會(huì)隨罰金比重的變化而不同。Capra[5]等所做的重復(fù)博弈(Repeated Game)實(shí)驗(yàn)表明,在罰金很低的情況下,人們傾向于提出較高的索賠要求,并在重復(fù)博弈實(shí)驗(yàn)中保持這一較高的索賠要求。而在罰金較高的情況下,人們開始也提出較高的索賠,但經(jīng)過(guò)幾輪之后,最后會(huì)提出納什均衡所預(yù)測(cè)的2美元。這些實(shí)驗(yàn)數(shù)據(jù)均從不同程度上驗(yàn)證了人們的直觀預(yù)測(cè),確證了旅行者困境中人的行為選擇與納什均衡的嚴(yán)重偏離,更重要的是它們?yōu)樾吕碚撎峁┝四P蜋z驗(yàn)的重要標(biāo)準(zhǔn)。
經(jīng)典博弈論對(duì)旅行者困境中人們的行為預(yù)測(cè)是令人失望的,它所預(yù)測(cè)的結(jié)果不僅不符合直觀,更與實(shí)驗(yàn)數(shù)據(jù)嚴(yán)重偏離。這一理論與實(shí)踐之間的反差表明,旅行者困境不僅是局中人的困境,也是博弈理論的困境。為此,不少博弈論學(xué)家開始從不同的角度提出不同的邏輯模型,試圖對(duì)實(shí)驗(yàn)中看似非理性的行為尋找理性的解釋方案,從而對(duì)現(xiàn)實(shí)中人們的博弈行為作出更好的預(yù)測(cè)。
目前比較成功的解決方案有兩種:一種是后悔理性的角度,即一個(gè)理性選手總是讓自己的后悔最小化,如Halpern&Pass(2011)提出的重復(fù)后悔最小化(Iterated Regret Minimization)解決方案。另一種則從理性選手會(huì)試圖尋求結(jié)成聯(lián)盟以達(dá)成合作的角度,在期望效用理論(Expected U-tility Theory)的基礎(chǔ)上,Capraro提出的基于聯(lián)盟與合作的概率推理模型的解決方案。
(一)重復(fù)后悔最小化方案
后悔最小化是決策論中用來(lái)解釋選手如何進(jìn)行理性決策的一個(gè)重要概念。要把后悔這一概念引入到博弈論,必須考慮如何給出兩個(gè)不同的后悔概念,一個(gè)是在給定其他選手選擇的情況下,如何給出一個(gè)選手當(dāng)前選擇的后悔程度。另一個(gè)是不管其他選手作何種選擇,如何比較兩個(gè)不同策略自身的后悔程度。Halpern&Pass(2011)成功地解決了以上兩個(gè)問(wèn)題,從后悔的角度定義出一種與經(jīng)典理論不同的理性概念,從而給出了一個(gè)理性主義的解決方案。
后悔度最小化方案是對(duì)經(jīng)典博弈論中重復(fù)剔除被弱占優(yōu)策略算法的改進(jìn)。為具體說(shuō)明這一點(diǎn),表1給出旅行者困境的矩陣式表達(dá):
表1 旅行者困境的矩陣式表達(dá)
一個(gè)選手如果在給定其他選手選擇的情況下,自己?jiǎn)畏矫嫫x這個(gè)選擇并不能獲得更好的收益,那么當(dāng)前選擇就是最佳反應(yīng)(Best Response)。一個(gè)博弈結(jié)果是納什均衡,當(dāng)且僅當(dāng)各個(gè)選手的當(dāng)前選擇都是最佳反應(yīng)。
在表1中,畫線的向量表示其中一個(gè)乘客在給定另一個(gè)乘客選擇的前提下其當(dāng)前選擇是最佳反應(yīng)。不難看出,只有在(2,2)中,兩位乘客的當(dāng)前選擇都是最佳反應(yīng),因此是納什均衡。在納什均衡中各個(gè)選手都安于現(xiàn)狀,沒(méi)有動(dòng)力偏離當(dāng)前的選擇,因此是個(gè)均衡狀態(tài)。
納什均衡只是從靜態(tài)的角度對(duì)一個(gè)穩(wěn)定的博弈結(jié)果所應(yīng)該具有的性質(zhì)的描述。它并沒(méi)有對(duì)各個(gè)選手如何通過(guò)推理理性地到達(dá)這個(gè)均衡狀態(tài)的過(guò)程進(jìn)行說(shuō)明。因此后來(lái)博弈論又發(fā)展出求解納什均衡的重復(fù)剔除被弱(強(qiáng))占優(yōu)策略算法。
一個(gè)選擇或者行動(dòng)又可被稱作一個(gè)策略。一個(gè)當(dāng)前策略是被弱占優(yōu)的(Weakly Dominated),當(dāng)且僅當(dāng)該選手存在另一個(gè)策略,該策略一定和當(dāng)前策略至少一樣好,并且在一些情況下該策略還比當(dāng)前策略嚴(yán)格好。因此,一個(gè)理性的選手是不會(huì)選擇一個(gè)被弱占優(yōu)的策略的。
我們看到,在旅行者困境中,乘客A的100美元這個(gè)策略就是被弱占優(yōu)的,因?yàn)閺谋?可以看出,在乘客B做任意選擇情況下,乘客A選擇99美元的收益總是不少于選擇100美元的收益,并且在乘客B選擇99美元和100美元這兩種情況下,乘客A選擇99美元的收益嚴(yán)格高于選擇100美元的收益。因此,作為理性選手的乘客A不會(huì)選擇100美元的索賠要求。同理,乘客B也不會(huì)提出100美元的索賠要求。因此,如果兩位乘客都足夠理性并且知道對(duì)方也是理性的話,那么他們都會(huì)確信對(duì)方不會(huì)提出100美元的這個(gè)索賠要求。
因此,雙方都會(huì)把100美元這個(gè)被弱占優(yōu)策略剔除掉,從而進(jìn)入表2的子博弈中。
表2 旅行者困境第一個(gè)子博弈的矩陣式表達(dá)
同樣,不難發(fā)現(xiàn),在這個(gè)子博弈中99美元對(duì)雙方來(lái)說(shuō)也是一個(gè)被弱占優(yōu)策略。因此,乘客A、B都會(huì)剔除索賠99美元這一被弱占優(yōu)策略,從而進(jìn)入下一個(gè)子博弈當(dāng)中。以此類推,如果兩位乘客足夠理性并且知道對(duì)方也是理性的話,根據(jù)重復(fù)剔除被弱占優(yōu)策略算法,最后一個(gè)子博弈為表3:
表3 旅行者困境最后一個(gè)子博弈的矩陣式表達(dá)
不難看出,最后一個(gè)子博弈具有和囚徒困境相同的博弈結(jié)構(gòu)。在這個(gè)子博弈中,3美元是一個(gè)被強(qiáng)占優(yōu)策略(Strongly Dominated Strategy),因?yàn)闊o(wú)論一方作何選擇,另一方選擇2美元得到的收益都嚴(yán)格高于選擇3美元的收益。因此,理性選手不會(huì)選擇被強(qiáng)占優(yōu)策略,最后雙方博弈的結(jié)果為(2,2)。事實(shí)上,這也正是納什均衡理論所預(yù)測(cè)的結(jié)果。
與囚徒困境不同的是,在旅行者困境的納什均衡求解過(guò)程中,融合了博弈論中重復(fù)剔除被弱占優(yōu)策略和重復(fù)剔除被強(qiáng)占優(yōu)策略兩種經(jīng)典算法。因此,旅行者困境是比囚徒困境更為復(fù)雜和嚴(yán)重的困境。
在給定其他選手選擇的情況下,Halpern&Pass(2011)將當(dāng)前策略的后悔程度定義為選擇最佳反應(yīng)策略所獲得的收益與采取當(dāng)前策略下所獲得收益的差值。據(jù)此,我們可以將旅行者困境的博弈模型轉(zhuǎn)換為表4所示的后悔度模型:
表4 旅行者困境的后悔度模型
不難看出,一個(gè)選手策略的后悔度是隨著對(duì)方選擇的不同而發(fā)生變化的,那么如何評(píng)估一個(gè)策略本身的后悔指數(shù)呢?直觀來(lái)說(shuō),一個(gè)理性的選手應(yīng)該盡可能地避免最大后悔事件的發(fā)生。因此,可以將一個(gè)策略的后悔度定義為它在所有情況下的最大值。例如,選擇策略2的最大后悔度對(duì)于雙方來(lái)說(shuō)都是97(見(jiàn)表4)。因此,在考慮后悔理性的背景下,選手所面臨的形勢(shì)發(fā)生了根本的變化。選擇策略2成為后悔指數(shù)最高的一個(gè)策略,任何一個(gè)理性的選手都會(huì)首先將其剔除掉。因此,博弈雙方可以進(jìn)入一個(gè)沒(méi)有策略2的子博弈之中,從而不會(huì)陷入納什均衡所預(yù)測(cè)的博弈困境當(dāng)中。
在確定選手不同策略的后悔程度之后,根據(jù)Halpern&Pass(2011)確立的一個(gè)理性原則:一個(gè)理性的選手總是選擇使得他后悔程度最小的一個(gè)策略。因此,在這一理性原則是各個(gè)選手公共知識(shí)(Common Knowledge)的前提下,兩位乘客可以只將后悔程度最小的策略保留,這在表4中表現(xiàn)為只將后悔度為3的策略保留,從而進(jìn)入下一個(gè)子博弈當(dāng)中。
值得注意的是,經(jīng)過(guò)剔除后,在子博弈中各個(gè)選手的策略的后悔度會(huì)產(chǎn)生變化,博弈雙方需要重新計(jì)算各個(gè)策略的后悔度,再次保留后悔度最小的策略,一直重復(fù)這一過(guò)程直到不能剔除為止,最后達(dá)到的狀態(tài)就是后悔度最小化方案所預(yù)測(cè)的結(jié)果。
事實(shí)證明,這是一個(gè)非常高效率的算法,并且最后保留的策略是和罰金的相關(guān)性與經(jīng)驗(yàn)研究相符合。若設(shè)罰金為p,則在第一輪當(dāng)中,兩位乘客只會(huì)保留[100-2p,100]這一范圍的索賠要求。本例中罰金P=2,因此經(jīng)過(guò)第一輪剔除后兩位乘客只會(huì)保留[96,100]范圍的索賠要求,重復(fù)這一過(guò)程到不能剔除為止,最后雙方博弈的結(jié)果為97美元,這與Becker和Capra等人的實(shí)驗(yàn)數(shù)據(jù)是一致的。
(二)基于聯(lián)盟與合作的概率推理模型
基于聯(lián)盟與合作的概率推理方案從大量實(shí)驗(yàn)數(shù)據(jù)偏離納什均衡的現(xiàn)象中總結(jié)出人不是絕對(duì)自私的,而是具有聯(lián)盟和合作傾向這一重要特征。
為采用聯(lián)盟與合作的思想研究像旅行者困境那樣的非合作博弈中的合作式均衡,Capraro提出一個(gè)合作原則作為預(yù)設(shè)[4]6:
如果選手在博弈中結(jié)成一個(gè)聯(lián)盟的話,那么他們會(huì)據(jù)此來(lái)預(yù)測(cè)博弈的走向并且按照那個(gè)最好的預(yù)測(cè)進(jìn)行博弈。
在旅行者困境中,作為一個(gè)理性的選手,他們可以清醒地意識(shí)到,如果雙方都絕對(duì)自私的話,那么他們會(huì)意識(shí)到自己會(huì)逐步陷入到納什均衡所預(yù)測(cè)的困境當(dāng)中。因此,考慮結(jié)成各種聯(lián)盟以尋求潛在的合作是他們擺脫困境的出路之一。
在博弈論中,任何一部分選手都可以組成一個(gè)聯(lián)盟,但一個(gè)選手只能加入一個(gè)聯(lián)盟,并且所有聯(lián)盟合起來(lái)應(yīng)該剛好是全體選手。特殊地,每個(gè)選手本身也可以看作一個(gè)聯(lián)盟。當(dāng)然,所有選手也是一個(gè)聯(lián)盟。值得注意的是,這里所說(shuō)的聯(lián)盟都是一種虛擬的聯(lián)盟,聯(lián)盟內(nèi)部不允許交換任何信息或者達(dá)成任何轉(zhuǎn)移支付的協(xié)議。在旅行者困境中,因?yàn)橹挥袃蓚€(gè)選手,恰好無(wú)外乎這兩種聯(lián)盟,我們不妨把它們分別稱作自私聯(lián)盟和合作聯(lián)盟。如果形成合作聯(lián)盟的期望效用高于形成自私聯(lián)盟的期望效用,則顯然選手會(huì)傾向于形成合作聯(lián)盟。
根據(jù)合作原則,在旅行者困境中,選手們?nèi)绻凑兆运铰?lián)盟,則顯然他們可以預(yù)測(cè)并且按照這個(gè)預(yù)測(cè)進(jìn)入納什均衡(2,2)的博弈結(jié)果當(dāng)中。(2,2)是納什均衡,意味著沒(méi)有選手有動(dòng)力改變當(dāng)前選擇,因此自私聯(lián)盟是一個(gè)穩(wěn)定的聯(lián)盟。按照自私聯(lián)盟博弈的結(jié)果,最后雙方的收益都是2美元。換句話說(shuō),2美元是他們結(jié)成自私聯(lián)盟的期望效用。因此,我們可以把2看做是自私聯(lián)盟對(duì)于這兩位乘客的價(jià)值。
現(xiàn)在假設(shè)兩位乘客結(jié)成合作聯(lián)盟,即他們共同提出100美元的索賠要求,則他們?cè)诮Y(jié)成合作聯(lián)盟時(shí)的最大收益是100美元。但100美元并不能成為合作聯(lián)盟對(duì)于他們的價(jià)值。因?yàn)檫@是一個(gè)不穩(wěn)定的聯(lián)盟,其中任何一個(gè)選手如果提出99美元的賠償要求,則他可以得到101美元的收益。因此,我們可以說(shuō)他脫離聯(lián)盟的動(dòng)力是1個(gè)單位。但是作為一個(gè)理性的選手,他除了計(jì)算自己脫離聯(lián)盟的動(dòng)力外,還須評(píng)估脫離聯(lián)盟所產(chǎn)生的風(fēng)險(xiǎn)。其中最大的風(fēng)險(xiǎn)是如果對(duì)方依然堅(jiān)持自私原則或者他預(yù)測(cè)到自己會(huì)脫離聯(lián)盟的話,則對(duì)方可以提出98美元的索賠要求,在這種情況下自己只能得到96美元的索賠,從而比原來(lái)結(jié)成聯(lián)盟的情況下?lián)p失4美元。因此,我們可以說(shuō)他脫離聯(lián)盟的風(fēng)險(xiǎn)是4個(gè)單位。
從乘客A的角度看,如果他選擇堅(jiān)守合作聯(lián)盟,在他對(duì)乘客B脫離聯(lián)盟的動(dòng)力和風(fēng)險(xiǎn)進(jìn)行上述評(píng)估之后,他就可以據(jù)此對(duì)乘客B是否也會(huì)堅(jiān)守合作同盟這兩個(gè)事件發(fā)生的概率進(jìn)行評(píng)估。因此,根據(jù)概率理論,乘客A在自己堅(jiān)守聯(lián)盟的條件下,他可以推斷出乘客B脫離合作聯(lián)盟這一事件的概率是1/(1+4)=1/5,而乘客B堅(jiān)守合作聯(lián)盟這一事件的概率則是4/5。
在沒(méi)有人會(huì)脫離合作聯(lián)盟的情況下,乘客A的預(yù)期收益顯然為100美元。而乘客B脫離合作聯(lián)盟這一事件可以有兩種情況,即乘客B可以提出99和98美元的索賠要求,因?yàn)樵谶@兩種情況下,他都可以獲得不少于堅(jiān)守合作聯(lián)盟中100美元的收益。其中最壞的情況是乘客A選擇100美元索賠而乘客B選擇98美元索賠這種情況,這時(shí)乘客A的收益僅為96美元。因此在乘客B脫離合作聯(lián)盟這一情況下,乘客A的預(yù)期收益最壞且為96美元。
使用概率工具計(jì)算選手的期望效用并使其最大化是博弈論中用來(lái)預(yù)測(cè)選手理性行為的另一個(gè)非常有力的工具。根據(jù)乘客A對(duì)于乘客B堅(jiān)守合作聯(lián)盟和脫離合作聯(lián)盟這兩個(gè)事件發(fā)生的概率評(píng)估,乘客A不難計(jì)算出自己在堅(jiān)守聯(lián)盟條件下的期望效用,即100×(4/5)+96×(1/5)≈99。同理,乘客B計(jì)算出自己在堅(jiān)守聯(lián)盟條件下的期望效用也是99。因此,我們可以把99看做是合作聯(lián)盟對(duì)于這兩位乘客的價(jià)值。顯然,99遠(yuǎn)遠(yuǎn)大于3,這就是在旅行者困境中人們傾向于合作的原因所在。
目前為止,在基于聯(lián)盟的背景下,我們只是得出了在旅行者困境中形成合作聯(lián)盟的價(jià)值遠(yuǎn)遠(yuǎn)高于形成自私聯(lián)盟的價(jià)值,從而人們會(huì)傾向于合作這一結(jié)論。但這并不意味著,兩位乘客一定都會(huì)提出100美元的索賠要求,因?yàn)槲覀兦懊嫣岬?合作聯(lián)盟并不是一個(gè)穩(wěn)定的聯(lián)盟。但是,我們可以把合作聯(lián)盟中計(jì)算出來(lái)的期望效用看做是兩位乘客的公共信念(Common Belief)。根據(jù)形成合作聯(lián)盟所計(jì)算的期望效用,兩位乘客會(huì)合理地預(yù)期博弈只會(huì)發(fā)生在一個(gè)各方收益都不會(huì)低于合作聯(lián)盟價(jià)值的子博弈當(dāng)中,從而聚焦①焦點(diǎn)(Focal Points)理論是2005年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)獲得者Thomas C.Schelling提出的在博弈論中用來(lái)解釋選手在實(shí)際博弈中選擇均衡的一個(gè)重要方法。于如表5所示的一個(gè)子博弈之中。
表5 合作聯(lián)盟公共信念下誘導(dǎo)出的子博弈
在選手根據(jù)合作聯(lián)盟計(jì)算出期望效用誘導(dǎo)出來(lái)的子博弈中的納什均衡就被稱作是合作式均衡。在本文給出的旅行者困境的例子中,可以看出(97,97)正是合作式均衡。另外,隨著罰金的提高,雙方堅(jiān)守合作聯(lián)盟事件的概率變低,從而使堅(jiān)守合作聯(lián)盟條件下的期望效用變低,進(jìn)而導(dǎo)致合作式均衡越來(lái)越接近納什均衡??梢?jiàn),無(wú)論是對(duì)結(jié)果的預(yù)測(cè)還是罰金的相關(guān)性而言,合作式均衡方案的預(yù)測(cè)結(jié)果和Becker與Capra等人的實(shí)驗(yàn)數(shù)據(jù)也是一致的。
與其他方案將選手在博弈困境中偏離納什均衡歸因于犯錯(cuò)[11]和有限理性[12]不同,這兩種方案依然高舉理性主義的旗幟,在堅(jiān)持經(jīng)典博弈論理性人假設(shè)的同時(shí),還在此基礎(chǔ)上增加了諸如后悔與合作等更多的理性概念。因此,這兩種方案都是在堅(jiān)持理性主義路線的基礎(chǔ)上,在原來(lái)非合作博弈理論框架下,對(duì)經(jīng)典博弈理論的豐富和完善。
在重復(fù)后悔最小化方案中,選手通過(guò)分別計(jì)算給定對(duì)方選擇前提下當(dāng)下選擇的后悔度和策略本身的后悔度,從而將整個(gè)博弈中各個(gè)博弈結(jié)果收益之間的差異納入理性決策的考慮之中。而在基于聯(lián)盟與合作的概率推理方案中,選手則綜合考慮對(duì)方脫離聯(lián)盟的額外收益和風(fēng)險(xiǎn),通過(guò)比較合作聯(lián)盟與自私聯(lián)盟的價(jià)值,對(duì)對(duì)方關(guān)于合作聯(lián)盟的忠誠(chéng)度進(jìn)行全面評(píng)估,從而形成自己的合理預(yù)期,最后做出理性決策。因此,與傳統(tǒng)博弈論對(duì)選手收益只側(cè)重于質(zhì)的研究不同,這兩種方案都將選手收益在博弈中量的差別考慮進(jìn)來(lái),這在模型中是通過(guò)求差、取最大值和最小值等方式來(lái)實(shí)現(xiàn)的,從而將各個(gè)博弈結(jié)果中收益的差距在模型中體現(xiàn)出來(lái),更能全面反映博弈中選手理性決策的實(shí)際情況??梢哉f(shuō),這兩種方案是在經(jīng)典博弈論質(zhì)的方法的基礎(chǔ)上,質(zhì)的方法與量的方法相結(jié)合的兩個(gè)成功案例。
重復(fù)后悔最小化方案繼承了經(jīng)典博弈論中重復(fù)剔除被弱占優(yōu)策略算法的一些缺點(diǎn)。在重復(fù)后悔最小化方案的剔除過(guò)程中,我們是一次性選擇后悔度最小的策略。另外一種選擇是只剔除后悔度最大的策略,因?yàn)樵诓煌淖硬┺闹泻蠡诙葧?huì)發(fā)生改變,因此這會(huì)導(dǎo)致不同的博弈結(jié)果。也就是說(shuō),剔除順序的不同,該方案會(huì)預(yù)測(cè)出不同的博弈結(jié)果。這表明這種方案所預(yù)測(cè)的結(jié)果并不具有唯一性,從而使其精確性受到影響。
更為嚴(yán)重的是,這揭示出重復(fù)后悔最小化方案并不具有“無(wú)關(guān)選項(xiàng)獨(dú)立性”(Independence of Irrelevant Alternatives)這一重要性質(zhì),即一個(gè)博弈從后悔理性的角度看,如果加上一個(gè)完全應(yīng)該被剔除的選項(xiàng),反而會(huì)對(duì)博弈的結(jié)果產(chǎn)生影響,其根本原因在于在這種后悔度計(jì)算方式下,無(wú)關(guān)選項(xiàng)的加入會(huì)讓原本的策略的后悔度發(fā)生變化。Halpern等人雖然也意識(shí)到這一內(nèi)在缺陷,但他們將其歸因于人們?cè)趯?shí)際博弈中同樣會(huì)受到無(wú)關(guān)選項(xiàng)的心理干擾[3]18。這種求助于心理學(xué)的解釋當(dāng)然是不能讓人滿意的,因?yàn)檫@與該方案所秉承的理性主義風(fēng)格相沖突。
重復(fù)后悔最小化方案和基于聯(lián)盟與合作的概率推理方案都想將其解決方案應(yīng)用到更多的博弈困境當(dāng)中。但是,這兩種方案對(duì)于囚徒困境都是失效的。因?yàn)樵谇敉嚼Ь持?背叛對(duì)于雙方都是強(qiáng)占優(yōu)的策略,而強(qiáng)占優(yōu)策略的后悔度為零。因此,雙方選擇背叛正是重復(fù)后悔最小化方案所預(yù)測(cè)的博弈結(jié)果,從而不能解釋人們?cè)谇敉嚼Ь持袝?huì)有合作的現(xiàn)象。而根據(jù)基于聯(lián)盟與合作的概率推理方案,所計(jì)算出來(lái)的合作聯(lián)盟的價(jià)值并不具有參考意義,因?yàn)樗玫降淖硬┺暮驮┺氖且粯拥?。如果將子博弈中的納什均衡當(dāng)作合作式納什均衡,則同樣不能解釋囚徒困境中的合作現(xiàn)象。
相比較而言,基于聯(lián)盟與合作的概率推理方案普適性更強(qiáng)。例如,重復(fù)后悔最小化方案不能解釋協(xié)同博弈(Coordination Game)中人們?yōu)楹纹蛴谶x擇對(duì)雙方結(jié)果都最好的納什均衡,而基于聯(lián)盟與合作的概率推理方案卻能很輕松做到這一點(diǎn)。因?yàn)樵趨f(xié)同博弈中,合作聯(lián)盟的價(jià)值遠(yuǎn)高于自私聯(lián)盟的價(jià)值,而博弈雙方脫離合作聯(lián)盟的動(dòng)力為零。因此,基于聯(lián)盟與合作的概率推理方案更能解釋協(xié)同博弈中的合作現(xiàn)象。
基于聯(lián)盟與合作的概率推理方案也存在不足之處。從前面的分析中可以看到,該方案沒(méi)有將概率的思想貫徹到底。在求解均衡的前期,我們通過(guò)概率手段計(jì)算出合作聯(lián)盟對(duì)雙方的價(jià)值,從而使博弈進(jìn)入一個(gè)雙方收益都不低于合作聯(lián)盟價(jià)值的子博弈中,但在子博弈中又使用納什均衡來(lái)求解合作式均衡。更大的問(wèn)題是,在基于聯(lián)盟與合作的概率推理方案中,Capraro對(duì)所計(jì)算出來(lái)的合作聯(lián)盟的價(jià)值作多種解讀,他有時(shí)甚至直接將合作聯(lián)盟的價(jià)值看作該方法所預(yù)測(cè)的博弈結(jié)果[13]8。同時(shí)也為了處理囚徒困境一類的困境,Capraro后來(lái)提出在子博弈中計(jì)算混合策略納什均衡①在沒(méi)有純策略納什均衡的博弈中,可以將選手的選擇看做是純策略上的概率分布,因而是非決定性的?;旌喜呗约{什均衡的提出就是為這些博弈的穩(wěn)定狀態(tài)構(gòu)建模型。(Mixed Strategy Nash Equilibrium)[3]42。求解子博弈混合策略納什均衡的方法雖然在囚徒困境中有一定作用,因?yàn)樵谇敉嚼Ь持?每位選手只有合作與背叛兩個(gè)選項(xiàng),但在旅行者困境中的子博弈中,往往每位選手都有多種索賠策略,所以在旅行者困境中是難以計(jì)算的。這種不一致的做法表明基于聯(lián)盟與合作的概率推理方案不具有統(tǒng)一性,從而對(duì)其普適性產(chǎn)生影響。這也是過(guò)分依賴概率這種量的方法的一個(gè)內(nèi)在缺陷。
總的來(lái)看,概率方法是更具普適性的一種方法。因?yàn)榧{什均衡的存在性定理表明,任何一個(gè)有窮策略式博弈總是存在混合策略的納什均衡[1]。Halpern等人后來(lái)也不得不結(jié)合概率的方法,將混合策略考慮進(jìn)來(lái)[3]20,從而得以將其方法應(yīng)用到協(xié)同博弈當(dāng)中。
針對(duì)人們?cè)诓┺睦Ь持胁⒉皇侨缃?jīng)典納什均衡所預(yù)測(cè)的那樣,而是存在大量偏離納什均衡的選擇行為的現(xiàn)象。我們有必要對(duì)博弈論的哲學(xué)基礎(chǔ)進(jìn)行反思,一方面,這涉及博弈論這門學(xué)科的性質(zhì)和定位:博弈論是一門規(guī)范性(Normative)學(xué)科,還是一門描述性(Descriptive)學(xué)科?將這些博弈困境定義為困境的一個(gè)預(yù)設(shè)是博弈論至少應(yīng)該具有描述性學(xué)科的特點(diǎn),即它應(yīng)該能夠?qū)Σ┺闹械倪x手做出的選擇進(jìn)行解釋,從而對(duì)人們應(yīng)該如何理性選擇提供決策參考。另一方面,博弈困境的產(chǎn)生使得我們必須重新反思非合作博弈論中的理性人假設(shè),即每個(gè)選手都是只追求自身利益最大化的,并且能夠進(jìn)行任意有限步的推理。但選手不僅是一個(gè)理性人還是一個(gè)社會(huì)人,人們?cè)趯?shí)際博弈中的行為選擇還受選手類型、收益敏感度、期望、相互間的信任和社會(huì)規(guī)范等理性因素甚至犯錯(cuò)等非理性因素的影響。但是,一個(gè)理論往往出于簡(jiǎn)單或便于研究的需要,又不可能考慮所有這些因素的影響。這也是許多社會(huì)科學(xué)研究中面臨的理論困境。
進(jìn)入21世紀(jì)以來(lái),世界形勢(shì)和利益格局變得日益紛繁復(fù)雜,特別是像中國(guó)這樣的發(fā)展中國(guó)家又處于社會(huì)的劇烈轉(zhuǎn)型之中,各個(gè)國(guó)家、社會(huì)群體和利益階層的沖突和斗爭(zhēng)日益激烈,人們?cè)絹?lái)越意識(shí)到在國(guó)家戰(zhàn)爭(zhēng)、地區(qū)沖突和利益紛爭(zhēng)中,通過(guò)相互合作達(dá)到共贏往往是解決問(wèn)題的最佳選擇。對(duì)博弈中的合作進(jìn)行研究一直是博弈論研究中的難題。目前博弈論對(duì)合作博弈論的研究還非常有限,圍繞博弈困境的解決主要還是在非合作博弈的理論框架下進(jìn)行的。因此,如何在非合作博弈的理論框架下對(duì)選手博弈困境中實(shí)際存在的合作行為提供理論解釋和更為準(zhǔn)確的預(yù)測(cè)模型是博弈論中的一個(gè)巨大挑戰(zhàn)。在這個(gè)意義上說(shuō),重復(fù)后悔最小化方案和基于聯(lián)盟與合作的概率推理方案不僅是博弈論理論研究中取得的重要進(jìn)展,還為人們?cè)谏鐣?huì)行為中普遍存在的合作和共贏現(xiàn)象提供了理論支撐和理論指導(dǎo)。
[1]Nash J F.Equilibrium points in n-person games[J].Proceedings of the National Academy of Science of the United States,1950,36 (1):48-49.
[2]Basu K.The Traveler's Dilemma:Paradoxes of Rationality in Game Theory[J].American Economic Review,1994,84(2):391-395.
[3]Halpern J Y,Pass R.Iterated Regret Minimization:a new solution concept[J].Games and Economic Behavior,2012,74(1):184-207.
[4]Capraro V.A solution concept for games with altruism and cooperation[EB/OL].http://arxiv.org/pdf/1302.3988v2.pdf.2013.
[5]Capra M,Goeree J K,Gomez R,Holt C A.Anomalous Behavior in a Travelers Dilemma?[J].American Economic Review,1999 (89)3:678-690.
[6]Becker T,Carter M,Naeve J.Experts Playing the Travelers Dilemma[R].Discussion Paper 252,Institute for Economics,Hohenheim University,2005.
[7]Basu K,Becchetti L,Stanca L.Experiments with the Travelers Dilemma:welfare,strategic choice and implicit collusion[J].Social Choice and Welfare,2011,37(4):575-595.
[8]潘天群.博弈論中理性人假設(shè)的困境[J].經(jīng)濟(jì)學(xué)家,2003(4):99-104.
[9]袁藝,茅寧.從經(jīng)濟(jì)理性到有限理性:經(jīng)濟(jì)學(xué)研究理性假設(shè)的演變[J].經(jīng)濟(jì)學(xué)家,2007(2):21-26.
[11]Mc Kelvey R,Palfrey T.Quantal response equilibria for normal form games[J].Games and Economic Behavior.1995(10)1,6-38.[12]Stahl D,Wilson P.Experimental evidence on player's models of other players[J].Economic Behavior and Organization,1994(25) 3:309-327.
[13]Capraro V.A Model of Human Cooperation in Social Dilemmas[R].PLoS ONE 2013,8(8):e72427.doi:10.1371/journal.pone.0072427.
責(zé)任編輯 劉榮軍
B815
A
1673-9841(2015)02-0018-08
10.13718/j.cnki.xdsk.2015.02.003
2014-09-02
郭美云,哲學(xué)博士,西南大學(xué)邏輯與智能研究中心,副教授。
重慶市人文社會(huì)科學(xué)重點(diǎn)研究基地重點(diǎn)項(xiàng)目“博弈的邏輯與認(rèn)知基礎(chǔ)研究”(14SKB047),項(xiàng)目負(fù)責(zé)人:郭美云;國(guó)家社會(huì)科學(xué)基金重點(diǎn)項(xiàng)目“現(xiàn)代邏輯視野的認(rèn)知研究”(11AZD57),項(xiàng)目負(fù)責(zé)人:何向東;中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助項(xiàng)目“博弈中互動(dòng)認(rèn)知的邏輯研究”(SWU1309380),項(xiàng)目負(fù)責(zé)人:郭美云。