亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

主體間性與囚徒困境

2009-04-29 00:00:00潘一平

文教資料 2009年14期

摘要：通常我們所考慮的“囚徒困境”博弈均為一次性的完全信息的靜態(tài)博弈。著名學(xué)者阿克塞爾羅德所舉辦并研究的“重復(fù)囚徒困境”競(jìng)賽，從一方面揭示了在囚徒困境這個(gè)博弈中采取怎么樣的策略可以使博弈雙方從對(duì)抗走向合作，但是也潛在的使一次性完全信息靜態(tài)的囚徒困境博弈從規(guī)則上發(fā)生了改變——主體間性在博弈參與人中日益顯得重要起來。參與博弈的理性人是否能夠像人工智能體Agent那樣具備主動(dòng)交互并改變自己策略的能力？如果可以，也許將在囚徒困境這種模型的博弈研究中做出一點(diǎn)貢獻(xiàn)。

關(guān)鍵詞：囚徒困境規(guī)則主體間性理性

一、關(guān)于理性人和囚徒困境的介紹

囚徒困境這個(gè)事例常常在有關(guān)博弈論的討論中出現(xiàn)，它最主要貢獻(xiàn)是突出反映了個(gè)體理性與群體理性的沖突，并且在目前學(xué)界的討論下，這一沖突似乎尚未能得到完美的解決。造成這一沖突的原因，并不是由于該博弈的前提——理性人假設(shè)出現(xiàn)了問題，而是基于囚徒困境中或者博弈論中理性人的假定在不同條件（規(guī)則）下的作用。正是由于沒有分清這一前提在不同背景知識(shí)下的運(yùn)用，一方面保證了囚徒困境這個(gè)博弈能夠用邏輯的或者說是理性的方式解決（找到這個(gè)博弈的納什均衡點(diǎn)），另一方面也導(dǎo)致了事件的解決結(jié)果并不是那么的令人滿意（因?yàn)槲覀兠媾R的是不同的條件與知識(shí)背景）?！啊┺膮⑴c人是理性的’是博弈論的公設(shè)，然而理性人的假定存在許多博弈困境。囚徒困境與公地悲劇反映的是個(gè)體理性與集體理性之間的沖突”（潘天群《博弈論中理性人的假設(shè)困境》，《經(jīng)濟(jì)學(xué)家》2003.4，）。

起初，博弈論專家假定博弈中的參與人是理性的——具有使自己效用最大化的推理能力，然而，奧曼等人發(fā)現(xiàn)，這樣的假定是不夠的，我們必須假定，“一個(gè)博弈中的每個(gè)參與人都是理性的”是該博弈所有參與人組成的“群體”所知道的，即每個(gè)人都是理性的是群體中的“公共知識(shí)”（或翻譯成共同知識(shí)）。（潘天群《群體推理的邏輯與群體理性》，《東南大學(xué)學(xué)報(bào)（哲學(xué)社會(huì)科學(xué)版）》，2007年7月第9卷第4期）。

有關(guān)囚徒困境我們可以這樣表述。

假設(shè)有A、B二人，因?yàn)橥当I被警察抓捕歸案。為了防止兩人串供，因此將兩人分開審問。這時(shí)A、B二人均面對(duì)了兩種選擇，一是招認(rèn)，二是不招認(rèn)。例如，對(duì)于A來說，A面臨著招認(rèn)與不招認(rèn)的選擇。我們可以假設(shè)，如果A招認(rèn)，B可以選擇招認(rèn)，也可以選擇不招認(rèn)。當(dāng)A招認(rèn)B不招認(rèn)時(shí)，A當(dāng)場(chǎng)釋放B判刑8年；當(dāng)A招認(rèn)B也招認(rèn)時(shí)，各判刑5年。如果A不招認(rèn)，B也可以選擇招認(rèn)或者不招認(rèn)。當(dāng)A不招認(rèn)B招認(rèn)時(shí)，B當(dāng)場(chǎng)釋放，A判刑8年；當(dāng)A不招認(rèn)B也不招認(rèn)時(shí)，兩人各判刑1年。

同理，當(dāng)審問B的時(shí)候，只需要參考上面的過程就可以很容易地得到答案。

我們可以簡(jiǎn)單地列一個(gè)表，用來表示上述的過程：

以A為例，對(duì)該博弈進(jìn)行分析。

由于參與博弈的雙方均為理性人，且為公共知識(shí)，那么A會(huì)有如下的思考：

當(dāng)B招認(rèn)時(shí)，A可以選擇招認(rèn)或者不招認(rèn)。

當(dāng)B招認(rèn)而A不招認(rèn)的時(shí)候，B被當(dāng)場(chǎng)釋放，A被判刑8年；當(dāng)B招認(rèn)A也招認(rèn)時(shí)，B與A各判刑5年。判刑5年遠(yuǎn)遠(yuǎn)好于判刑8年，因此，當(dāng)B招認(rèn)時(shí)，基于理性人的假設(shè)要使自己的收益最大并且損失最小，A會(huì)毫不猶豫地選擇招認(rèn)。

當(dāng)B不招認(rèn)時(shí)，A也可以選擇招認(rèn)或者不招認(rèn)。

當(dāng)B不招認(rèn)并且A也不招認(rèn)時(shí)，兩人各判刑1年。當(dāng)B不招認(rèn)而A招認(rèn)時(shí)，B被判刑8年，A被當(dāng)場(chǎng)釋放。A基于理性人假設(shè)作出了以上的推理，顯而易見的是，當(dāng)場(chǎng)釋放要好于判刑1年。為了使自己收益最大并且損失最小，A會(huì)毫不猶豫地選擇招認(rèn)。

因此，不管B是否招認(rèn)，A都會(huì)毫不猶豫地選擇招認(rèn)。

同理，作為一個(gè)理性人，B也會(huì)按照A的思維模式那樣作出選擇，答案是——毫不猶豫地招認(rèn)。

兩人均招認(rèn)就是囚徒困境這個(gè)博弈的納什均衡點(diǎn)。很明顯也很抱歉，通過理性手段進(jìn)行推理，想使自己的收益最大而損失最小，但是結(jié)果卻不是那么的令人滿意。在我們看來，兩者均不招認(rèn)各判刑1年的損失要遠(yuǎn)遠(yuǎn)小于兩人各判刑5年，或者單就A或B一個(gè)人來說，當(dāng)場(chǎng)釋放的收益要明顯地大于個(gè)人的判刑5年，因此，在某些人看來，理性的參與人在這個(gè)博弈中并不能使自己的收益最大損失最小，相反的，個(gè)人理性在這個(gè)囚徒困境的博弈中成為了獲得最大利益的障礙，在這樣的情況下，就出現(xiàn)了“兩難”決策。

二、“囚徒困境”博弈的潛在規(guī)則，以及阿克塞爾羅德的實(shí)驗(yàn)及其規(guī)則變動(dòng)

應(yīng)該得出的一個(gè)認(rèn)識(shí)就是，上文所提到的那個(gè)“囚徒困境”博弈屬于一次性的完全信息靜態(tài)博弈，它本身所具備的規(guī)則與阿克塞爾羅德所做的實(shí)驗(yàn)有著顯著的區(qū)別——一次性的囚徒困境博弈與重復(fù)性的囚徒困境博弈的規(guī)則區(qū)別。為了便于分辨，我們依次將上文的兩個(gè)囚徒困境博弈分別簡(jiǎn)稱為Game1與Game2。

G1應(yīng)該具備以下的這些規(guī)則。

（1）對(duì)策者（謀求合作的雙方）沒有什么手段可以用來實(shí)施威脅或作出許諾。由于對(duì)策者不會(huì)許諾他們自己采取某種特定的策略，因此每個(gè)人都得考慮對(duì)方可能采取的所有策略。此外，每一個(gè)對(duì)策者都可以使用所有可能的策略。（2）沒有什么辦法能夠確定對(duì)方在某個(gè)特定的對(duì)局中將如何選擇，這就消除了使用元對(duì)策”分析的可能。“元對(duì)策”允許諸如“選擇與對(duì)方相同的策略”的選擇，同時(shí)也消除了通過觀察對(duì)方與第三者局而形成某種信譽(yù)的可能。因此對(duì)策者唯一可利用的信息（積累的知識(shí)）是他們相互作用的歷史。（3）不能消滅對(duì)方，也不能放棄對(duì)局，因此對(duì)策者在每次對(duì)局時(shí)只能選擇合作或背叛。（4）不能改變對(duì)方的收益值。這個(gè)收益值已經(jīng)包括了每個(gè)對(duì)策者關(guān)于對(duì)方利益的考慮之中。（周海林《“合作”的條件與機(jī)理——從囚徒困境談?wù)効沙掷m(xù)發(fā)展的制度基礎(chǔ)》，《軟科學(xué)》2001年第15卷第3期）

我們可以試著列出一個(gè)表格，以更清晰地對(duì)幾個(gè)步驟中的規(guī)則的區(qū)別作出清晰的劃分。

博弈前（step1）→博弈中（step2）→博弈后（step3）

［?搖?搖?搖?搖?搖?搖一次博弈的完成?搖?搖?搖?搖］

對(duì)于G1的第一條規(guī)則，G2由于是重復(fù)多次的囚徒，將會(huì)出現(xiàn)一些不同的情況。阿克塞爾羅德所提出的例如寬容性和可激怒性就可以在step3之后體現(xiàn)出來?？杉づ钥梢院?jiǎn)單地看成是規(guī)則1中所說的實(shí)施威脅。當(dāng)參與博弈的雙方A和B進(jìn)行一次博弈時(shí)，A作出不合作的決定時(shí)（第一次博弈），B在step3得知了這個(gè)消息之后，也就是下一次博弈時(shí)（第二次博弈），可以選擇不合作，對(duì)A進(jìn)行威脅，表示自己是可激怒的。這里的威脅，是分屬于兩次博弈的，而這在一次性博弈中明顯無法做到。寬容性也同樣如此，當(dāng)A表示悔過（在第三次博弈選擇合作時(shí)），B可以立即在step3中得知，并在第四次博弈時(shí)原諒A，作出合作的選擇。當(dāng)然，如果僅從理性人的角度出發(fā)，在有限次的囚徒困境博弈中，次次不合作才應(yīng)該是這個(gè)博弈的納什均衡，但是在阿克塞爾羅德的試驗(yàn)中，次次不合作這個(gè)策略的得分明顯低于某些策略，并且選擇這個(gè)策略的人并不是絕大多數(shù)，理論和現(xiàn)實(shí)有著明顯的差異。

對(duì)于G1的第二條規(guī)則，同樣也是如此。一次性的囚徒困境G1作為某個(gè)特定的對(duì)局（特地被警察隔離開而無法串供），博弈雙方都無法確定對(duì)方將采取何種策略，從而致使使用“元策略”的可能性變?yōu)?。G2作為多次重復(fù)的囚徒困境，由于能夠清楚地知道對(duì)方在每一輪的選擇（指已經(jīng)選擇過的步驟），因此可以對(duì)接下的自我的選擇和他人的選擇做出推斷。甚至像“一報(bào)還一報(bào)”策略直接選擇與對(duì)方上一步策略相同的策略。還有的參與者對(duì)博弈對(duì)手的合作與不合作的次數(shù)進(jìn)行概率計(jì)算，并由此作出自己的選擇，如道寧策略，這在G1中是無法出現(xiàn)的。阿克塞爾羅德甚至做了兩次重復(fù)多次的囚徒困境實(shí)驗(yàn)，這樣對(duì)于G2的參與者來說，他們的選擇不僅僅可以基于與自己的博弈對(duì)手相互作用的歷史，更可以基于博弈對(duì)手與參與這次試驗(yàn)的每一個(gè)人的相互作用的歷史。道德博弈中所說的個(gè)人信譽(yù)問題在這里凸顯出來。

總的看來，在step1中，作為囚徒困境的博弈參與者A可以了解到B以往的策略選擇以及信譽(yù)問題，并可在一定程度上影響到自身策略的選擇。例如貪婪的策略在面對(duì)比較仁慈的策略時(shí)，總是比較占優(yōu)勢(shì)。并且在step2中，A與B可以看到對(duì)方是如何選擇，并進(jìn)一步影響到step3之后，選擇寬容還是懲罰——合作還是不合作。

從step1到step3就顯示出主體交互性在博弈中的重要作用，因?yàn)镚1中，G1（step1）到G1（step3），A與B做為博弈參與者并沒有真正的形成交互（雙方被隔離了），即主體間性。而在阿克塞爾羅德的試驗(yàn)中G2（step1）到G2（step3）中，博弈的雙方A和B不但互有信息交流，而且在一定程度上影響到自我決策的選擇。

三、主體間性對(duì)囚徒困境的影響

主體間性從定義上來說是主體與主體之間的統(tǒng)一性，但在不同的領(lǐng)域中，主體間性的意義是有差異的。

在主體間性概念的形成歷史過程中，事實(shí)上涉及了三個(gè)領(lǐng)域，從而也形成了三種涵義不同的主體間性概念，這就是：社會(huì)學(xué)的主體間性、認(rèn)識(shí)論的主體間性和本體論（存在論、解釋學(xué)）的主體間性。這里就不一一詳細(xì)敘述。

博弈論是交互的決策論。2005年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)的獲得者奧曼曾經(jīng)給博弈論下過一個(gè)非常描述性的定義：博弈論是“交互的決策論”，其定義十分簡(jiǎn)潔凝練。展開來說，博弈論是研究發(fā)生直接相互作用的行為者采取的決策以及這種決策的均衡問題。換言之，一個(gè)經(jīng)濟(jì)主體（行為者）在決策時(shí)必須考慮到對(duì)方的反應(yīng)，所以用“交互的決策論”來描述博弈論可謂言簡(jiǎn)意賅。（張踐明《“囚徒困境”·理性悖論·交互認(rèn)知論》，《湘潭大學(xué)學(xué)報(bào)（哲學(xué)社會(huì)科學(xué)版）》，2007年11月第34卷第6期）

而交互認(rèn)知是主體間性的具體化例證。在重復(fù)囚徒困境這個(gè)博弈中，就充分地體現(xiàn)出交互認(rèn)知的重要性。

如step1的中，博弈的雙方可以對(duì)彼此過去的決策選擇進(jìn)行詳盡的考察，基于生存博弈的道德博弈也可因此而建立起來。雙方的私有信息（在這里可以簡(jiǎn)單地看做自己和對(duì)方的博弈歷史選擇）是否可以交換，交換的方式與程度，均可在一定程度上影響到后來的決策。阿克塞爾羅德進(jìn)行第二次重復(fù)囚徒困境博弈的一部分原因也在此——建立在雙方知己知彼的基礎(chǔ)上的合作應(yīng)該如何產(chǎn)生，知己知彼是源于上一輪的博弈參與者參與博弈并決策的歷史。這樣就把雙方的私有信息公開化，變成了公共知識(shí)。

在step2中，G1博弈雙方從完全不知道對(duì)方做出什么決策發(fā)展到G2可以看到對(duì)方的決策，這又是一次交互的行為，由于是多次重復(fù)博弈，step2的交互致使博弈雙方A和B不僅僅看重眼前的利益，更會(huì)看中將來的利益，從而使合作有可能發(fā)生，當(dāng)然其中也包括從不合作決策與報(bào)復(fù)性決策等。

在G2（step3）中，A或者B完全可以借由這個(gè)環(huán)節(jié)來告訴對(duì)方自己對(duì)于對(duì)方的選擇是滿意還是不滿意，并在以后的多次博弈中體會(huì)到對(duì)方的感受，對(duì)方同樣可以表達(dá)出來并由此形成第三次交互。

還是拿一報(bào)還一報(bào)策略進(jìn)行說明。A使用策略未知，而B使用的是一報(bào)還一報(bào)策略。設(shè)在第200次博弈中（我們稱為N1、N2、N3……），A選擇不合作，B選擇合作，G2（N200（step3））中，B發(fā)現(xiàn)A不合作，并想表達(dá)自身的不滿，因此立即在G2（N201（step2））中選擇不合作以此來警告A。A在G2（N201（step3））中感受到了B的不滿，如果雙方進(jìn)行了重復(fù)多次的博弈，A通過G2（N202（step1））回顧雙方合作的歷史發(fā)現(xiàn)，B對(duì)于犯錯(cuò)的人具有寬容性，于是立即在G2（N202（step2））中選擇合作表示自己悔過，B在接下來的步驟中感受到A的悔意，在下一次的博弈中選擇合作表示自己知道并安慰A……從而形成了重復(fù)性的三次交互、信息交換。當(dāng)然，以上的只是基于交互理論的假想，但是在阿克塞爾羅德的實(shí)驗(yàn)中，我們不應(yīng)該僅僅把雙方固有的策略選擇看作是電腦程序的自動(dòng)化，而應(yīng)該看作是在理性人基礎(chǔ)上的信息交互，從而修正自己的策略。

四、結(jié)語(yǔ)

可否像人工智能體Agert那樣在博弈中具備自主交互的學(xué)習(xí)參與博弈的理性能力，并由此改變自己的策略？

有關(guān)新型智能體Agent的設(shè)定，有這么幾條可以作為囚徒困境這個(gè)博弈的參考：

①能夠面向陌生狀態(tài)與不確定性，積極主動(dòng)地進(jìn)行認(rèn)知與行動(dòng)。②每個(gè)智能體都有自己不同的知識(shí)背景、心智品質(zhì)、能力與個(gè)性，甚至具備諸如友善性、真誠(chéng)性等人類特征。它的這些能力與特征都不是被設(shè)定為一成不變的，它可以隨著情況的變化而不斷地進(jìn)行能動(dòng)的自我更新。它不是在一個(gè)一步到位的、靜態(tài)的模式中模擬智能，而是在一系列過程性的、動(dòng)態(tài)連續(xù)的進(jìn)程中發(fā)展智能。

如果在多次重復(fù)的囚徒困境的理性人設(shè)定中附加如上的設(shè)定，是否可以使G2更加地清楚明白，更容易地走向合作？

當(dāng)然，以上的附加只是基于多次重復(fù)囚徒困境的假設(shè)。面對(duì)G1的一次性的完全信息靜態(tài)博弈，我們只能持以悲觀的態(tài)度。

賓默說，理性參與人的獨(dú)立選擇行為又會(huì)產(chǎn)生非帕累托效率的結(jié)果，這并不存在任何自相矛盾的地方。囚徒困境的規(guī)則不利于實(shí)現(xiàn)理性合作，就像把一個(gè)人雙手反綁之后要他表演手技一樣。因此，不要希望在囚徒困境規(guī)則約束下理性參與人會(huì)成功地達(dá)成合作。

參考文獻(xiàn)：

［1］羅伯特·阿克塞爾羅德.合作的進(jìn)化.合作的復(fù)雜性——基于參與者競(jìng)爭(zhēng)與合作的模型.

［2］賓默.博弈論與社會(huì)契約.

［3］格若赫姆·羅鉑.博弈論導(dǎo)引及其應(yīng)用.

［4］張踐明.“囚徒困境”·理性悖論·交互認(rèn)識(shí)論.湘潭大學(xué)學(xué)報(bào)（哲學(xué)社會(huì)科學(xué)版），2007.11.

［5］項(xiàng)后軍，周昌樂.人工智能的前沿——智能體（Agent）理論及其哲理.自然辯證法研究，2001.10.

［6］周駿宇.艾克斯羅德重復(fù)博弈實(shí)驗(yàn)及其應(yīng)用.自然辯證法研究，2005.3.

文教資料2009年14期

文教資料的其它文章: 完善我國(guó)高校貧困生認(rèn)定機(jī)制的思考; 海門市初高中音樂教師現(xiàn)狀調(diào)查研究; 關(guān)于高校實(shí)驗(yàn)室建設(shè)與管理的一些思考; 案例教學(xué)法在《思想道德修養(yǎng)與法律基礎(chǔ)》課教學(xué)中的應(yīng)用; 以積極組織行為學(xué)為視角探析大學(xué)生的學(xué)習(xí)行為; 主觀真理的價(jià)值之維