摘 要: 通常我們所考慮的“囚徒困境”博弈均為一次性的完全信息的靜態(tài)博弈。著名學(xué)者阿克塞爾羅德所舉辦并研究的“重復(fù)囚徒困境”競(jìng)賽,從一方面揭示了在囚徒困境這個(gè)博弈中采取怎么樣的策略可以使博弈雙方從對(duì)抗走向合作,但是也潛在的使一次性完全信息靜態(tài)的囚徒困境博弈從規(guī)則上發(fā)生了改變——主體間性在博弈參與人中日益顯得重要起來。參與博弈的理性人是否能夠像人工智能體Agent那樣具備主動(dòng)交互并改變自己策略的能力?如果可以,也許將在囚徒困境這種模型的博弈研究中做出一點(diǎn)貢獻(xiàn)。
關(guān)鍵詞: 囚徒困境 規(guī)則 主體間性 理性
一、關(guān)于理性人和囚徒困境的介紹
囚徒困境這個(gè)事例常常在有關(guān)博弈論的討論中出現(xiàn),它最主要貢獻(xiàn)是突出反映了個(gè)體理性與群體理性的沖突,并且在目前學(xué)界的討論下,這一沖突似乎尚未能得到完美的解決。造成這一沖突的原因,并不是由于該博弈的前提——理性人假設(shè)出現(xiàn)了問題,而是基于囚徒困境中或者博弈論中理性人的假定在不同條件(規(guī)則)下的作用。正是由于沒有分清這一前提在不同背景知識(shí)下的運(yùn)用,一方面保證了囚徒困境這個(gè)博弈能夠用邏輯的或者說是理性的方式解決(找到這個(gè)博弈的納什均衡點(diǎn)),另一方面也導(dǎo)致了事件的解決結(jié)果并不是那么的令人滿意(因?yàn)槲覀兠媾R的是不同的條件與知識(shí)背景)?!啊┺膮⑴c人是理性的’是博弈論的公設(shè),然而理性人的假定存在許多博弈困境。囚徒困境與公地悲劇反映的是個(gè)體理性與集體理性之間的沖突”(潘天群《博弈論中理性人的假設(shè)困境》,《經(jīng)濟(jì)學(xué)家》2003.4,)。
起初,博弈論專家假定博弈中的參與人是理性的——具有使自己效用最大化的推理能力,然而,奧曼等人發(fā)現(xiàn),這樣的假定是不夠的,我們必須假定,“一個(gè)博弈中的每個(gè)參與人都是理性的”是該博弈所有參與人組成的“群體”所知道的,即每個(gè)人都是理性的是群體中的“公共知識(shí)”(或翻譯成共同知識(shí))。(潘天群《群體推理的邏輯與群體理性》,《東南大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版)》,2007年7月第9卷第4期)。
有關(guān)囚徒困境我們可以這樣表述。
假設(shè)有A、B二人,因?yàn)橥当I被警察抓捕歸案。為了防止兩人串供,因此將兩人分開審問。這時(shí)A、B二人均面對(duì)了兩種選擇,一是招認(rèn),二是不招認(rèn)。例如,對(duì)于A來說,A面臨著招認(rèn)與不招認(rèn)的選擇。我們可以假設(shè),如果A招認(rèn),B可以選擇招認(rèn),也可以選擇不招認(rèn)。當(dāng)A招認(rèn)B不招認(rèn)時(shí),A當(dāng)場(chǎng)釋放B判刑8年;當(dāng)A招認(rèn)B也招認(rèn)時(shí),各判刑5年。如果A不招認(rèn),B也可以選擇招認(rèn)或者不招認(rèn)。當(dāng)A不招認(rèn)B招認(rèn)時(shí),B當(dāng)場(chǎng)釋放,A判刑8年;當(dāng)A不招認(rèn)B也不招認(rèn)時(shí),兩人各判刑1年。
同理,當(dāng)審問B的時(shí)候,只需要參考上面的過程就可以很容易地得到答案。
我們可以簡(jiǎn)單地列一個(gè)表,用來表示上述的過程:
以A為例,對(duì)該博弈進(jìn)行分析。
由于參與博弈的雙方均為理性人,且為公共知識(shí),那么A會(huì)有如下的思考:
當(dāng)B招認(rèn)時(shí),A可以選擇招認(rèn)或者不招認(rèn)。
當(dāng)B招認(rèn)而A不招認(rèn)的時(shí)候,B被當(dāng)場(chǎng)釋放,A被判刑8年;當(dāng)B招認(rèn)A也招認(rèn)時(shí),B與A各判刑5年。判刑5年遠(yuǎn)遠(yuǎn)好于判刑8年,因此,當(dāng)B招認(rèn)時(shí),基于理性人的假設(shè)要使自己的收益最大并且損失最小,A會(huì)毫不猶豫地選擇招認(rèn)。
當(dāng)B不招認(rèn)時(shí),A也可以選擇招認(rèn)或者不招認(rèn)。
當(dāng)B不招認(rèn)并且A也不招認(rèn)時(shí),兩人各判刑1年。當(dāng)B不招認(rèn)而A招認(rèn)時(shí),B被判刑8年,A被當(dāng)場(chǎng)釋放。A基于理性人假設(shè)作出了以上的推理,顯而易見的是,當(dāng)場(chǎng)釋放要好于判刑1年。為了使自己收益最大并且損失最小,A會(huì)毫不猶豫地選擇招認(rèn)。
因此,不管B是否招認(rèn),A都會(huì)毫不猶豫地選擇招認(rèn)。
同理,作為一個(gè)理性人,B也會(huì)按照A的思維模式那樣作出選擇,答案是——毫不猶豫地招認(rèn)。
兩人均招認(rèn)就是囚徒困境這個(gè)博弈的納什均衡點(diǎn)。很明顯也很抱歉,通過理性手段進(jìn)行推理,想使自己的收益最大而損失最小,但是結(jié)果卻不是那么的令人滿意。在我們看來,兩者均不招認(rèn)各判刑1年的損失要遠(yuǎn)遠(yuǎn)小于兩人各判刑5年,或者單就A或B一個(gè)人來說,當(dāng)場(chǎng)釋放的收益要明顯地大于個(gè)人的判刑5年,因此,在某些人看來,理性的參與人在這個(gè)博弈中并不能使自己的收益最大損失最小,相反的,個(gè)人理性在這個(gè)囚徒困境的博弈中成為了獲得最大利益的障礙,在這樣的情況下,就出現(xiàn)了“兩難”決策。
二、“囚徒困境”博弈的潛在規(guī)則,以及阿克塞爾羅德的實(shí)驗(yàn)及其規(guī)則變動(dòng)
應(yīng)該得出的一個(gè)認(rèn)識(shí)就是,上文所提到的那個(gè)“囚徒困境”博弈屬于一次性的完全信息靜態(tài)博弈,它本身所具備的規(guī)則與阿克塞爾羅德所做的實(shí)驗(yàn)有著顯著的區(qū)別——一次性的囚徒困境博弈與重復(fù)性的囚徒困境博弈的規(guī)則區(qū)別。為了便于分辨,我們依次將上文的兩個(gè)囚徒困境博弈分別簡(jiǎn)稱為Game1與Game2。
G1應(yīng)該具備以下的這些規(guī)則。
(1)對(duì)策者(謀求合作的雙方)沒有什么手段可以用來實(shí)施威脅或作出許諾。由于對(duì)策者不會(huì)許諾他們自己采取某種特定的策略,因此每個(gè)人都得考慮對(duì)方可能采取的所有策略。此外,每一個(gè)對(duì)策者都可以使用所有可能的策略。(2)沒有什么辦法能夠確定對(duì)方在某個(gè)特定的對(duì)局中將如何選擇,這就消除了使用元對(duì)策”分析的可能。“元對(duì)策”允許諸如“選擇與對(duì)方相同的策略”的選擇,同時(shí)也消除了通過觀察對(duì)方與第三者局而形成某種信譽(yù)的可能。因此對(duì)策者唯一可利用的信息(積累的知識(shí))是他們相互作用的歷史。(3)不能消滅對(duì)方,也不能放棄對(duì)局,因此對(duì)策者在每次對(duì)局時(shí)只能選擇合作或背叛。(4)不能改變對(duì)方的收益值。這個(gè)收益值已經(jīng)包括了每個(gè)對(duì)策者關(guān)于對(duì)方利益的考慮之中。(周海林《“合作”的條件與機(jī)理——從囚徒困境談?wù)効沙掷m(xù)發(fā)展的制度基礎(chǔ)》,《軟科學(xué)》2001年第15卷第3期)
我們可以試著列出一個(gè)表格,以更清晰地對(duì)幾個(gè)步驟中的規(guī)則的區(qū)別作出清晰的劃分。
博弈前(step1)→博弈中(step2)→博弈后(step3)
[?搖?搖?搖?搖?搖?搖一次博弈的完成?搖?搖?搖?搖]
對(duì)于G1的第一條規(guī)則,G2由于是重復(fù)多次的囚徒,將會(huì)出現(xiàn)一些不同的情況。阿克塞爾羅德所提出的例如寬容性和可激怒性就可以在step3之后體現(xiàn)出來??杉づ钥梢院?jiǎn)單地看成是規(guī)則1中所說的實(shí)施威脅。當(dāng)參與博弈的雙方A和B進(jìn)行一次博弈時(shí),A作出不合作的決定時(shí)(第一次博弈),B在step3得知了這個(gè)消息之后,也就是下一次博弈時(shí)(第二次博弈),可以選擇不合作,對(duì)A進(jìn)行威脅,表示自己是可激怒的。這里的威脅,是分屬于兩次博弈的,而這在一次性博弈中明顯無法做到。寬容性也同樣如此,當(dāng)A表示悔過(在第三次博弈選擇合作時(shí)),B可以立即在step3中得知,并在第四次博弈時(shí)原諒A,作出合作的選擇。當(dāng)然,如果僅從理性人的角度出發(fā),在有限次的囚徒困境博弈中,次次不合作才應(yīng)該是這個(gè)博弈的納什均衡,但是在阿克塞爾羅德的試驗(yàn)中,次次不合作這個(gè)策略的得分明顯低于某些策略,并且選擇這個(gè)策略的人并不是絕大多數(shù),理論和現(xiàn)實(shí)有著明顯的差異。
對(duì)于G1的第二條規(guī)則,同樣也是如此。一次性的囚徒困境G1作為某個(gè)特定的對(duì)局(特地被警察隔離開而無法串供),博弈雙方都無法確定對(duì)方將采取何種策略,從而致使使用“元策略”的可能性變?yōu)?。G2作為多次重復(fù)的囚徒困境,由于能夠清楚地知道對(duì)方在每一輪的選擇(指已經(jīng)選擇過的步驟),因此可以對(duì)接下的自我的選擇和他人的選擇做出推斷。甚至像“一報(bào)還一報(bào)”策略直接選擇與對(duì)方上一步策略相同的策略。還有的參與者對(duì)博弈對(duì)手的合作與不合作的次數(shù)進(jìn)行概率計(jì)算,并由此作出自己的選擇,如道寧策略,這在G1中是無法出現(xiàn)的。阿克塞爾羅德甚至做了兩次重復(fù)多次的囚徒困境實(shí)驗(yàn),這樣對(duì)于G2的參與者來說,他們的選擇不僅僅可以基于與自己的博弈對(duì)手相互作用的歷史,更可以基于博弈對(duì)手與參與這次試驗(yàn)的每一個(gè)人的相互作用的歷史。道德博弈中所說的個(gè)人信譽(yù)問題在這里凸顯出來。
總的看來,在step1中,作為囚徒困境的博弈參與者A可以了解到B以往的策略選擇以及信譽(yù)問題,并可在一定程度上影響到自身策略的選擇。例如貪婪的策略在面對(duì)比較仁慈的策略時(shí),總是比較占優(yōu)勢(shì)。并且在step2中,A與B可以看到對(duì)方是如何選擇,并進(jìn)一步影響到step3之后,選擇寬容還是懲罰——合作還是不合作。
從step1到step3就顯示出主體交互性在博弈中的重要作用,因?yàn)镚1中,G1(step1)到G1(step3),A與B做為博弈參與者并沒有真正的形成交互(雙方被隔離了),即主體間性。而在阿克塞爾羅德的試驗(yàn)中G2(step1)到G2(step3)中,博弈的雙方A和B不但互有信息交流,而且在一定程度上影響到自我決策的選擇。
三、主體間性對(duì)囚徒困境的影響
主體間性從定義上來說是主體與主體之間的統(tǒng)一性,但在不同的領(lǐng)域中,主體間性的意義是有差異的。
在主體間性概念的形成歷史過程中,事實(shí)上涉及了三個(gè)領(lǐng)域,從而也形成了三種涵義不同的主體間性概念,這就是:社會(huì)學(xué)的主體間性、認(rèn)識(shí)論的主體間性和本體論(存在論、解釋學(xué))的主體間性。這里就不一一詳細(xì)敘述。
博弈論是交互的決策論。2005年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)的獲得者奧曼曾經(jīng)給博弈論下過一個(gè)非常描述性的定義:博弈論是“交互的決策論”,其定義十分簡(jiǎn)潔凝練。展開來說,博弈論是研究發(fā)生直接相互作用的行為者采取的決策以及這種決策的均衡問題。換言之,一個(gè)經(jīng)濟(jì)主體(行為者)在決策時(shí)必須考慮到對(duì)方的反應(yīng),所以用“交互的決策論”來描述博弈論可謂言簡(jiǎn)意賅。(張踐明《“囚徒困境”·理性悖論·交互認(rèn)知論》,《湘潭大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版)》,2007年11月第34卷第6期)
而交互認(rèn)知是主體間性的具體化例證。在重復(fù)囚徒困境這個(gè)博弈中,就充分地體現(xiàn)出交互認(rèn)知的重要性。
如step1的中,博弈的雙方可以對(duì)彼此過去的決策選擇進(jìn)行詳盡的考察,基于生存博弈的道德博弈也可因此而建立起來。雙方的私有信息(在這里可以簡(jiǎn)單地看做自己和對(duì)方的博弈歷史選擇)是否可以交換,交換的方式與程度,均可在一定程度上影響到后來的決策。阿克塞爾羅德進(jìn)行第二次重復(fù)囚徒困境博弈的一部分原因也在此——建立在雙方知己知彼的基礎(chǔ)上的合作應(yīng)該如何產(chǎn)生,知己知彼是源于上一輪的博弈參與者參與博弈并決策的歷史。這樣就把雙方的私有信息公開化,變成了公共知識(shí)。
在step2中,G1博弈雙方從完全不知道對(duì)方做出什么決策發(fā)展到G2可以看到對(duì)方的決策,這又是一次交互的行為,由于是多次重復(fù)博弈,step2的交互致使博弈雙方A和B不僅僅看重眼前的利益,更會(huì)看中將來的利益,從而使合作有可能發(fā)生,當(dāng)然其中也包括從不合作決策與報(bào)復(fù)性決策等。
在G2(step3)中,A或者B完全可以借由這個(gè)環(huán)節(jié)來告訴對(duì)方自己對(duì)于對(duì)方的選擇是滿意還是不滿意,并在以后的多次博弈中體會(huì)到對(duì)方的感受,對(duì)方同樣可以表達(dá)出來并由此形成第三次交互。
還是拿一報(bào)還一報(bào)策略進(jìn)行說明。A使用策略未知,而B使用的是一報(bào)還一報(bào)策略。設(shè)在第200次博弈中(我們稱為N1、N2、N3……),A選擇不合作,B選擇合作,G2(N200(step3))中,B發(fā)現(xiàn)A不合作,并想表達(dá)自身的不滿,因此立即在G2(N201(step2))中選擇不合作以此來警告A。A在G2(N201(step3))中感受到了B的不滿,如果雙方進(jìn)行了重復(fù)多次的博弈,A通過G2(N202(step1))回顧雙方合作的歷史發(fā)現(xiàn),B對(duì)于犯錯(cuò)的人具有寬容性,于是立即在G2(N202(step2))中選擇合作表示自己悔過,B在接下來的步驟中感受到A的悔意,在下一次的博弈中選擇合作表示自己知道并安慰A……從而形成了重復(fù)性的三次交互、信息交換。當(dāng)然,以上的只是基于交互理論的假想,但是在阿克塞爾羅德的實(shí)驗(yàn)中,我們不應(yīng)該僅僅把雙方固有的策略選擇看作是電腦程序的自動(dòng)化,而應(yīng)該看作是在理性人基礎(chǔ)上的信息交互,從而修正自己的策略。
四、結(jié)語(yǔ)
可否像人工智能體Agert那樣在博弈中具備自主交互的學(xué)習(xí)參與博弈的理性能力,并由此改變自己的策略?
有關(guān)新型智能體Agent的設(shè)定,有這么幾條可以作為囚徒困境這個(gè)博弈的參考:
①能夠面向陌生狀態(tài)與不確定性,積極主動(dòng)地進(jìn)行認(rèn)知與行動(dòng)。②每個(gè)智能體都有自己不同的知識(shí)背景、心智品質(zhì)、能力與個(gè)性,甚至具備諸如友善性、真誠(chéng)性等人類特征。它的這些能力與特征都不是被設(shè)定為一成不變的,它可以隨著情況的變化而不斷地進(jìn)行能動(dòng)的自我更新。它不是在一個(gè)一步到位的、靜態(tài)的模式中模擬智能,而是在一系列過程性的、動(dòng)態(tài)連續(xù)的進(jìn)程中發(fā)展智能。
如果在多次重復(fù)的囚徒困境的理性人設(shè)定中附加如上的設(shè)定,是否可以使G2更加地清楚明白,更容易地走向合作?
當(dāng)然,以上的附加只是基于多次重復(fù)囚徒困境的假設(shè)。面對(duì)G1的一次性的完全信息靜態(tài)博弈,我們只能持以悲觀的態(tài)度。
賓默說,理性參與人的獨(dú)立選擇行為又會(huì)產(chǎn)生非帕累托效率的結(jié)果,這并不存在任何自相矛盾的地方。囚徒困境的規(guī)則不利于實(shí)現(xiàn)理性合作,就像把一個(gè)人雙手反綁之后要他表演手技一樣。因此,不要希望在囚徒困境規(guī)則約束下理性參與人會(huì)成功地達(dá)成合作。
參考文獻(xiàn):
[1]羅伯特·阿克塞爾羅德.合作的進(jìn)化.合作的復(fù)雜性——基于參與者競(jìng)爭(zhēng)與合作的模型.
[2]賓默.博弈論與社會(huì)契約.
[3]格若赫姆·羅鉑.博弈論導(dǎo)引及其應(yīng)用.
[4]張踐明.“囚徒困境”·理性悖論·交互認(rèn)識(shí)論.湘潭大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2007.11.
[5]項(xiàng)后軍,周昌樂.人工智能的前沿——智能體(Agent)理論及其哲理.自然辯證法研究,2001.10.
[6]周駿宇.艾克斯羅德重復(fù)博弈實(shí)驗(yàn)及其應(yīng)用.自然辯證法研究,2005.3.