怎樣理解博弈論①

2019-06-24 12:37:48沃爾夫?qū)?/span>施波恩

哲學(xué)分析 2019年3期

［德］沃爾夫?qū)な┎ǘ?文

陳偉/譯

一、對現(xiàn)狀的不滿

博弈論和決策論具有同質(zhì)性?；蛘邚乃鼈兙哂邢嗨频闹黝}內(nèi)容、基本概念和方法來說，人們至少可以有這樣的期待。并且，通過首先考察這些理論的標(biāo)準(zhǔn)解釋能證明這個期待是合理的：決策論研究的是孤立的單獨個體的理性行為；博弈論關(guān)涉的是多人相互依賴性決策的理性問題。因此，博弈論是一種更具有包容性的理論；而決策論是特殊情形，是一個人的博弈，或者用一種不太恰當(dāng)?shù)恼f法，是對自然的博弈。

然而，經(jīng)過更仔細(xì)的考察，博弈論的標(biāo)準(zhǔn)解釋及其與決策論的關(guān)系就顯得不盡如人意。當(dāng)然，決策論也被各種問題所籠罩；但相較而言，我認(rèn)為博弈論又被三個相互關(guān)聯(lián)的問題弄得大傷元氣：說嚴(yán)重點，它混淆了適用于它的理性概念，對其主體（局中人）的假定非常不清楚，并因此導(dǎo)致它所使用的決策規(guī)則含混不清。或者，用有些自相矛盾的話來說：（從博弈論來看）決策論是博弈論的特殊化；但是，（從決策論來看）如今表達的博弈論不再是決策論的一般化。不如說，由此可預(yù)料的是，博弈論應(yīng)被視作決策論的特殊化。

這就是我的不滿。我將在接下來的各節(jié)中具體闡述這一點，并解釋我認(rèn)為應(yīng)該采納的補救辦法。

讀者也許會懷疑這些異議將會使博弈論導(dǎo)向更為高深莫測的領(lǐng)域，諸如三人或更多人的博弈或具有特征函數(shù)形式的博弈，于是可能會自動地放棄這些異議。但是，相反的是，這些異議處理的是那些看似清晰并且基礎(chǔ)穩(wěn)定的兩人零和博弈。為求簡明，我將只處理標(biāo)準(zhǔn)形式的博弈。①澤爾騰所展示的標(biāo)準(zhǔn)形式問題與我的考慮無關(guān)，因而這也適用于他改進過的觀念。參見R.Selten，“Reexamination of the Perfectness Concept for Equilibrium Points in Extensive Games”， International Journal of Game Theory， Vol. 4， No.1， 1975， pp.25—55。

讀者也許還會懷疑這是為貝葉斯式博弈論所作的一個辯護，并且我也確實是從一個純粹的貝葉斯式立場進行的論證。然而，“貝葉斯式博弈論”的標(biāo)簽已經(jīng)和約翰·C.海薩尼（John C.Harsanyi）的工作有極為顯著的聯(lián)系。在我看來，后者在精神上依然是博弈論的而非決策論的，因此，基于類似的理由，它和標(biāo)準(zhǔn)解釋一樣是可批評的。這樣一來，這里就存在一種區(qū)別，我們不得不在最后一節(jié)來討論這一點。

總之，我不是宣稱這里提出的立場及其論證將會是全新的（盡管有些手法會是全新的）。只是那些在同樣精神指導(dǎo)下的對博弈論的早期攻擊，顯然不能使已被接受的理論不再成立，并使博弈論走上一條根基更為穩(wěn)固的道路。正是這種情況，導(dǎo)致我作出另外的一種嘗試。

二、怎樣理解博弈論

在證實這種不滿之前，不妨先勾勒一下這種不滿所依據(jù)的基本確信（basic conviction）。這個基本確信是一種正統(tǒng)的貝葉斯式確信。

根據(jù)這種確信，人們有目標(biāo)和愿望，他們希望這個世界如此這般；他們有信念（belief），相信這個世界會如此這般；并且，如果合理的話，他們會根據(jù)自己的信念來行動，以便最大程度地促進他們的愿望的實現(xiàn)。為追求確定性，決策論用量化決策模型來使之公式化。在這樣一種模型中，一個人的決策情境被公式化，這個人被假定為具有數(shù)字上的主觀效用和概率；于是，理性行動（rational action）就被定義為一種最大預(yù)期效用的行動。并且，作為一種規(guī)范性理論，決策論建議理性行動。而作為一種經(jīng)驗理論，決策論假定了理性行動；眾所周知，這就具有強烈的理想化色彩，最多只有近似的有效性。不過，這種模型宣稱在原則上適用于一切的人類行動。［這個宣稱并不像它看起來的那樣有力，因為它沒有擴展到所有的人類行為。我們必須看到，行動（action）是一個比行為（behaviour）更加狹窄的概念；并且，即使撇開其中的循環(huán)味道，我們也不能合理地說，行動只是決策論可適用的行為。①關(guān)于這個行動理論的主題，舉例來說，可參見P. M. Churchland， “The Logical Character of Action-Explanations”，Philosophical Review， Vol. 79， No. 2， 1970， pp.214—236。］

在這里，并非真的有必要走進決策論公式化的具體細(xì)節(jié)。但是，讓我們假設(shè)，為求精確，公式化運用了眾所周知的薩維奇（L. J. Savage）方式。在這種方式中，概率是對一組可能世界狀態(tài)的定義，效用是指可能的結(jié)果，每一個結(jié)果僅僅由一個世界狀態(tài)和一個行動來決定，然后標(biāo)準(zhǔn)形式的兩人博弈中所出現(xiàn)的常見效用矩陣就隨之產(chǎn)生。對我們的討論而言，這是最合適的公式化。②盡管它不是唯一的，甚至在我看來不是最好的。參見W. Spohn， Grundlagen der Entscheidungstheorie，Kronberg/ Ts.： Scriptor， 1978， Ch. 2。

順便說一句，努力使量化模型成為某種派生物，是更為審慎的情況，不太是常見的情況。薩維奇方式將理性行動定義為根據(jù)理性偏好選擇最優(yōu)先之物的行動。如果偏好能滿足一些相當(dāng)明顯的條件，諸如傳遞性等等，那么它就是理性的；然后，令人驚奇的是，這可以證明似乎是理性行動最大化了預(yù)期效用。但是，這個“似乎”如同說物體穿越空間是似乎它們有體積、似乎它們遵從牛頓第二定律等等一樣，是不合適的。不，根據(jù)牛頓力學(xué)，物體那樣移動的方式是因為它們有如此這般的體積，有如此這般的外力加諸其上，等等。并且，根據(jù)決策論，人們之所以那樣行動，是因為他們有如此這般強烈的愿望，他們有如此這般堅定的信念，等等?？梢钥隙ǖ氖?，這個問題后面潛藏著大量的微妙之處，科學(xué)哲學(xué)家對此依然有分歧。但是，毫無疑問的是，如同在物理學(xué)和其他任何領(lǐng)域中表達的“似乎”一樣，科學(xué)哲學(xué)家眼中的操作主義已經(jīng)過時了。③例如，參見 W. Stegmüller， Probleme und Resultate der Wissenschaftstheorie und Analytischen Philosophie， Band Ⅱ，Theorie und Erfahrung， Halbband， Heidelberg： Springer， 1970， Ch.Ⅲ -Ⅴ，以及 W. Stegmüller， Probleme und Resultate der Wissenschaftstheorie und Analytischen Philosophie， Band Ⅱ， Theorie und Erfahrung， Halbband， Berlin，Heidelberg： Springer， 1973， Ch. Ⅷ；或者 H. Putnam， Mind， Language， and Reality， Philosophical Papers， Vol. 2，Cambridge： University Press， 1975， Ch. 11， 12 and 22。因此，人們應(yīng)把量化決策模型作為基礎(chǔ)。（這也許會改變所有支持“似乎”理論的、具有獨創(chuàng)性的可度量化定理的地位，但絲毫沒有降低它們的價值。）

現(xiàn)在來看相互依賴性決策的博弈式情景，那么，上述決策情景的任何一般刻畫有什么被撤銷嗎？不，沒有任何東西。對我們而言，其他人及其行為僅僅與其他事物一樣都是外部世界的組成部分，盡管他們肯定相當(dāng)復(fù)雜，也常常非常珍貴。從形式上講，這意味著在任何局中人的決策模型中，其他局中人的可能行動僅僅是可能世界狀態(tài)的組成部分。我們可以進一步將這些可能行動（在薩維奇的技術(shù)意義上①參見 L. J. Savage， The Foundations of Statistics， New York： Wiley ﹠ Sons， 1954， sect. 5.5。）看作一個微觀世界的組成部分，并使這一模型縮小到這一微觀世界——實際上，這同將一個擴展形式的博弈歸約到其標(biāo)準(zhǔn)形式一樣。因而，簡化模型包含有這種標(biāo)準(zhǔn)形式的效用矩陣。并且，完善它的唯一正確的方式是為其可能世界狀態(tài)，即為其他局中人的行動，增加局中人的主觀概率。畢竟，要做的理性事情總是要使預(yù)期效用最大化；這才是理性行動。

事實上，更為常見的情況是，基本上不存在博弈式情景。在我們的眾多日常事務(wù)中，我們對待他人就像他們都是有規(guī)律的并且可靠的行為自動機一樣，對于他們，我們有著非常明確的預(yù)期而不用多想；他們就像是交通或天氣狀況那樣被包括在我們的決策問題之內(nèi)。（這個有點兒冷酷無情的說辭不過是無害的“專業(yè)性畸變”；幸運的是，我們確實能夠?qū)σ恍┤擞懈嗟呐d趣。）

但是，如果這一點被接受，那么還剩下什么是博弈論的獨特領(lǐng)域？當(dāng)我們將外部世界的其他人嚴(yán)肅地當(dāng)作個人來對待時，當(dāng)我們放棄僅僅觀察他們的行為并著手將他們理論化時，并且尤其當(dāng)我們發(fā)現(xiàn)決策論大約是關(guān)于他們的正確理論時，當(dāng)我們努力計算出他們可能的目標(biāo)和信念是什么時，假定他們理性地行動，那么博弈論就開始了。然而，需要注意的是，在這一論述中，博弈論并不包含決策論，而只不過是決策論的一種具體化。博弈論是關(guān)于具體決策者的決策論，也就是說，那些決策者把其他人算入他們的決策情景，并根據(jù)決策理論對之進行理論化。②同樣，對一個在策略上思考和行動的人而言，一種恰當(dāng)而統(tǒng)一的觀點是把關(guān)于他或她自己未來行動的理論決策進行理論化。參見 W. Spohn， Grundlagen der Entscheidungstheorie， Kronberg/ Ts.： Scriptor， 1978， Ch. 4。

所有這些可能聽起來都非常熟悉。這正是正統(tǒng)的貝葉斯定理關(guān)于博弈論的主張，基本上就是海薩尼在20多年前反復(fù)告訴我們的東西。但奇怪的是，所有人——那些標(biāo)準(zhǔn)的博弈理論家和像海薩尼這樣的貝葉斯主義者（參見最后一節(jié)）——似乎都違背了那個純粹的原理，都在把博弈論推向它的結(jié)果的過程中退縮了。

然而，這種過失是有其原因的。因為如果并非不可能的話，要在純粹的貝葉斯定理內(nèi)證明每個人所持有觀念的正當(dāng)性，即證明均衡點是兩人零和博弈或通常的非合作博弈的解決方法（參見第四節(jié)），看起來是困難的。這樣一來，我們必須仔細(xì)看一下在不背叛這個迄今為止的概略性原理的條件下用它能具體做些什么。但是，讓我先從這個貝葉斯主義視角來審視標(biāo)準(zhǔn)博弈論對兩人零和博弈的理論推理。

三、怎樣沒有理解博弈論

有鑒于此，我們應(yīng)該簡要概括一下現(xiàn)有的推理。我希望每個人都同意盧斯、雷法①R. D. Luce ﹠ H. Raiffa， Games and Decisions， New York： Wiley ﹠ Sons， 1957， Ch.4.和馮·諾依曼、摩根斯坦②J. von Neumann ﹠ O. Morgenstern， Theory of Games and Economic Behavior， Princeton： University Press， 1944，Ch. Ⅲ.不僅是代表人物，而且還對這個推理提供了最徹底、最令人信服的敘述，以便于我可以在他們的基礎(chǔ)上進行概述。這個概述包含四個部分。

（一）標(biāo)準(zhǔn)理論

第一部分（與所有標(biāo)準(zhǔn)形式的博弈相關(guān)）：賦予博弈以標(biāo)準(zhǔn)形式。非常含糊地說，博弈論的基本問題就是以某種方式為每個局中人找到對他而言哪個選擇是一個好選擇。然而，這是一個過于模糊的問題，它需要具體說明。因此，讓我們先假定，每個局中人是理性的，要么在寬泛的意義上（根據(jù)他的效用函數(shù)）盡可能地努力擺脫博弈，要么在更為嚴(yán)格的意義上，“在既有兩種選擇的情況下，他將總是選擇他所偏好的，也就是那個效用更大的選項”③R. D. Luce ﹠ H. Raiffa， Games and Decisions， New York： Wiley ﹠ Sons， 1957， p.55.。并且，讓我們接下來假定，每個局中人對標(biāo)準(zhǔn)形式的博弈都了如指掌，也就是說，他知道每個局中人的可能選擇（策略），也知道每個局中人所有可能策略組合結(jié)果的效用（通常而言，關(guān)于博弈的機會步驟，這些就是已經(jīng)預(yù)期到的效用）。

如果沒有第一個假定，博弈論就根本不可能運作。一般理論怎么可能是關(guān)于非理性行動的呢？并且，第二種假定也是必要的；否則博弈理論家所處理的問題就可能是錯誤的，也就是說，那個問題不同于博弈理論家在主觀上所認(rèn)識到的局中人的問題。然而，如果有這些假設(shè)，我們就有希望使我們的問題具體到足以是可解決的。因此，讓我們試著來解決它。

第二部分（與所有標(biāo)準(zhǔn)形式的非合作博弈相關(guān)）：一個首要的考慮可使我們有比較大的進展。這個考慮是，如果博弈論應(yīng)當(dāng)具有至少潛在的公共性——正如它無疑應(yīng)該是這樣的——那么它就能夠區(qū)分僅僅作為局中人理性選擇的均衡策略。（可以肯定的是，到目前為止，我只是在討論純粹策略；混合策略要到第四部分才會提出。）或者，更確切地說：博弈論是要為每個局中人找到哪個選擇對他而言是更為理性的選擇。如果能做到這點，那么每個局中人也能像博弈理論家一樣，知道哪些選擇對其他局中人而言是理性的選擇（因為根據(jù)上面的第二個假定，每個局中人是使用和博弈理論家一樣的方式看待博弈情景的）；并且，因為每個局中人被假定為是理性地行動，這個假定對任何局中人而言就一定不能成為一個理由，讓他背離對他而言依據(jù)這個理論是理性的東西；于是，只有均衡點才是理性的策略組合，并且，只有均衡策略即導(dǎo)向某個這樣點的策略才是理性的選擇。

眾所周知，這個考量能發(fā)生變化。有些博弈在純粹策略中沒有均衡點，而有些有很多，在這些情形中其成功依然是不完備的。但是，對于純粹策略中具有均衡點的兩人零和博弈來說，這是關(guān)鍵所在，因為在這種博弈中的均衡點被證明在本質(zhì)上是獨一無二的。①參見 R. D. Luce ﹠ H. Raiffa， Games and Decisions， New York： Wiley ﹠ Sons， 1957， sect. 4.5。這樣一來，在這個具體情形中，我們就已解決基本的博弈理論問題。

第三部分（僅與純粹策略中具有均衡點的兩人零和博弈相關(guān)）：在這種具體情形中，還存在另一個有說服力的考量，它具有相同的影響?？煞Q這兩個局中人為查理和露西。查理也許會根據(jù)直覺作如下推理：“露西這個理性的家伙，想盡可能地努力擺脫博弈。這與我的利益相抵觸。所以，我最好看看從我的每個選項中我最少能得到多少，然后努力使這個數(shù)量盡可能地大，也就是，正如我聽到有人表述的那樣，我最好最大化我的安全等級。如果這是合理的，那么理性的露西將做相同的事情，也就是說，最大化她的安全等級。哦，但是我的安全等級最大值是對她的安全等級最大值的最大抵觸，因此，我應(yīng)該更加堅持我的選擇 ?！?/p>

或者，用馮·諾依曼的話來說：考慮查理的弱函數(shù)博弈和強函數(shù)博弈。在弱函數(shù)博弈中，查理必須首先做出選擇，然后露西在已知他作了什么的情況下，再進行選擇。在強函數(shù)博弈中，正好倒過來。顯然，在弱函數(shù)博弈中，查理最多和在實際博弈中的處境一樣好；而在強函數(shù)博弈中，他至少和在實際博弈中的處境一樣好。并且，同樣顯然的是，在弱函數(shù)博弈中，對他而言唯一可做的理性事情就是最大化他的安全等級；而在強函數(shù)博弈中，唯一可做的理性事情就是選擇那個最能抗衡露西的安全等級最大值（假使她已經(jīng)很理性地作出這一選擇）的選項。但是，這兩種情形得出相同的策略組合，并且對查理而言是相同的效用。這樣一來，對于處在弱函數(shù)與強函數(shù)博弈“之間的”實際博弈而言，恰恰只有這一點是理性的。

總結(jié)一下：從第一部分中的假定開始，我們已經(jīng)給出了兩個完全獨立的推理。每個推理都單獨地在所考慮到的具體情形中展開，并且兩者被證實可以得到相同的結(jié)果。還會有什么更好的理由呢？

第四部分（與所有的兩人零和博弈相關(guān)）：現(xiàn)在，馮·諾依曼告訴我們，如果我們愿意允許一些小把戲，即允許每個局中人把他的純粹策略混合起來，那么我們就能夠把整個理論推廣到所有的兩人零和博弈。進一步的論證被虛構(gòu)出來，用來給那些對這種小把戲感到不自在的人以最后的推力，比如說，秘密論證、對重復(fù)博弈的考慮或者大量反復(fù)的論證。②參見 Ibid.， p.75。但是，我們不需要在這里對這個附加的支持作詳細(xì)的闡述，因為如果沒有主要的推理這就都是無用的。并且，這個可以獨自成立。事實上，任何局中人都能自由地選擇一種混合策略；這樣一來，混合策略就在各種被考慮的選項之中，關(guān)于它們的上述推理和關(guān)于純粹策略的推理一樣有力。因此，這就是混合策略、最大最小值和均衡點是如何發(fā)現(xiàn)彼此并能一直愉快相處的原因。

不幸的是，這一理論并不像它聽起來的那樣好。有必要作一番評論，批判的不是這個理論的結(jié)論，而是得到那些結(jié)論的方法。

（二）評論

對第一部分的評論：人們可能會認(rèn)為，第一部分的理性和知識假設(shè)過于限制博弈論的運用。但是，實際上，它們不過是要么不太有力要么不夠清楚。假設(shè)局中人是理性的真的就足夠了嗎？看起來，當(dāng)然還要假設(shè)每個局中人都相信其他局中人是理性的。這在這個理論的第二部分中尤為清楚，在那里，我們非常松散地區(qū)分了博弈理論家假設(shè)一個局中人對其他局中人作出的假設(shè)和博弈理論家本人對其他局中人作出的假設(shè)。但是，這樣一來，大概還應(yīng)該假定每個局中人都相信其他局中人也認(rèn)為他們的同伴是理性的。在這一點上，有人可能會傾向于一個激進的步驟，也就是，爬上迭代的相互理性假設(shè)的無窮階梯，就像有些人在意義理論中在一個類似情形下所做的那樣。①例如，參見 D. K. Lewi， Convention. A Philosophical Study， Cambridge， Mass.： University Press， 1969；以及S. R. Schiffer， Meaning， Oxford： University Press， 1972。也就是說，（在西菲爾的技術(shù)意義上②S. R. Schiffer， Meaning， p. 30f， or D. K. Lewi， Convention. A Philosophical Study， p. 56；也參見本文第四節(jié)。）博弈理論家可能會假設(shè)，在局中人之間，局中人的理性是相互的或者是常識。當(dāng)然，所有這些都同樣適用于第二個假設(shè)，即該理論第一部分中的知識假設(shè)。因此，博弈理論家應(yīng)該假設(shè)什么呢？人們覺得，關(guān)于局中人作多少假設(shè)確實是有不同影響的；但是，很難看出來這在被接受的理論中有怎樣的體現(xiàn)。

還存在另一個模糊性。在理性假設(shè)中所使用的“理性的”確切含義是什么？從盧斯和雷法援引而來的解釋沒有多大幫助，因為偏好或效用僅僅指的是策略組合；在標(biāo)準(zhǔn)博弈論中，不存在僅僅針對單個局中人的選擇的偏好次序甚或效用函數(shù)。因此，在“理性的”更有效用的意義上，一方會愿意截然地規(guī)定另一方。然而，按此推斷，這一問題是錯誤的。按此推斷，標(biāo)準(zhǔn)博弈論認(rèn)為，在保證后面會精確起來的前提下，在初始的假設(shè)和解釋中它更偏好或不能避免“理性的”含混。但在當(dāng)下，這只是說“理性的”是有意的模糊，這就沒有什么實質(zhì)進展。

這個問題的難點在于：標(biāo)準(zhǔn)博弈論確實在任何地方都沒有以一種嚴(yán)格的方式從初始假設(shè)開始推理；它們被排他性地使用在看似成立的論證之中。這里的態(tài)度似乎已經(jīng)是，最初直觀的根據(jù)被用來為一系列嚴(yán)格的理論化作準(zhǔn)備，人們就不需要掂量這個準(zhǔn)備中的每個詞。這樣一來，在直觀階段一些細(xì)微的區(qū)別就已經(jīng)模糊不清，沒有給艱難的理論化任何機會來消除這種不嚴(yán)謹(jǐn)。從貝葉斯定理的角度來看，這是邁向不可靠根基的第一個決定性滑坡。

對第二部分的評論：我們已經(jīng)提到過，為使局中人具有與博弈理論家一樣的方式來看待博弈情境，比第一部分中更強的關(guān)于局中人的假設(shè)就是必要的，于是第二部分有這一假設(shè)也是必要的。但是，還有另一個不足之處，這在純粹策略中具有一個均衡點的兩人零和博弈的情形中尤為明顯。在這種情形中，第二部分得出的結(jié)論是，每個局中人只能理性地選擇他的均衡策略。但是，這個結(jié)論下得太早；能夠得出的只是：如果博弈理論家成功地區(qū)分出一個理性的選擇，那么這一定是均衡策略。然而，并不保證以上的“如果”句是真的。也許博弈理論家的問題是他能夠僅僅部分地縮小理性選擇的范圍，而不是將其縮小到一個。更一般地說：第二部分所表明的是，博弈理論家并不能在均衡策略之外建立某個理性的選擇集合；但是，根據(jù)其他的理由仍然表明，一個選擇只有在均衡策略之中才能肯定地被確立是理性的。第三部分也許準(zhǔn)備了這樣的理由，因此，讓我們轉(zhuǎn)向第三部分。

對第三部分的評論：人們對最大最小化決策規(guī)則已經(jīng)有很多論述，并且我們知道了所有實質(zhì)上贊成或反對的觀點。我覺得，目前的討論狀態(tài)有一點兒順利。似乎通常可接受的是，最大最小化不能作為一個基本的決策規(guī)則被普遍應(yīng)用；它在許多情景中造成了荒謬的結(jié)果。不過，在某些類型的情景，尤其在兩人零和博弈中，而且對不確定性條件下的決策而言，在統(tǒng)計學(xué)的決策理論中，以及新近在羅爾斯的初始狀態(tài)①參見 J. Rawls， A Theory of Justice， Cambridge， Mass.： Harvard University Press， 1971， sect. 26。中，最大最小化都被認(rèn)為是一個可討論的、還不錯的甚至是可信的決策規(guī)則。

然而，從理論的角度來看，這種事態(tài)是完全不能讓人滿意的。從這個角度來看，沒有辦法很簡單地做到，為不同類型的情景找到直觀上可信的決策規(guī)則，以通過某種系統(tǒng)的論證來支持直觀判斷，并且就此終止。不，如果不同的決策規(guī)則確實被不同類型的情景所接受，那么人們就想知道一些主導(dǎo)的或統(tǒng)一的原則，以解釋或至少準(zhǔn)確地描述在哪些條件下哪些決策規(guī)則在哪些情景中是適當(dāng)?shù)模换蛘撸玫氖?，人們愿意有一些基本的決策規(guī)則，其他的規(guī)則可以從它們推導(dǎo)出來。但是，在試圖回答關(guān)于博弈論的這一要求時，我們很明顯直接陷入了在第一部分就發(fā)現(xiàn)的那種晦澀之中。

誠然，我在這里所做的一切是訴諸理論意識。但是，我想通過接下來的論證使這個訴諸更為迫切。

這需要利用薩維奇的微觀世界理論。關(guān)于這個主題的理論重要性，我認(rèn)為沒有被充分認(rèn)識到。這個主題與對世界的描述相關(guān)，相似的決策情景可能是基于不同的世界。在這里，一個世界——寬泛講而不需要真的深入技術(shù)細(xì)節(jié)——是所有項目（item）的集合，這些項目應(yīng)當(dāng)在決策情景的描述中被明確地考慮到。薩維奇的評論是，現(xiàn)在似乎沒有一種好的方式來指明哪個是正確世界，并以之作為給定決策情景描述的基礎(chǔ)。從表面來看，將每個實際相關(guān)的項目放入一個世界之中，似乎是合情合理的，但通常這會產(chǎn)生很多難以處理的宏觀世界。因此，不是要尋找正確的世界，而是我們應(yīng)該努力發(fā)現(xiàn)何時兩個依據(jù)不同世界的描述可以被說成是相同的。為此，薩維奇找到一個方法，可以將依據(jù)宏觀世界的描述還原為依據(jù)微觀世界的描述，并且可以保證這兩個世界相等。還原方法的實質(zhì)特征是，它如何能將效用歸因于包含在微觀世界描述中的可能結(jié)果。薩維奇采取以下方式：從宏觀世界描述的觀點來看，如果有確定概率pi，通過它，一個不甚詳細(xì)的微觀世界的結(jié)果，比如c，塑造出千變?nèi)f化的、更為詳細(xì)的宏觀世界結(jié)果ci，它具有確定效用ui；那么，微觀世界描述中的效用c應(yīng)當(dāng)是期望值∑piui。①關(guān)于所有的詳細(xì)說明，參見 L. J. Savage， The Foundations of Statistics， New York： Wiley ﹠ Sons， 1954， sect.5.5；以及 W. Spohn， Grundlagen der Entscheidungstheorie， Kronberg/ Ts.： Scriptor， 1978， sect. 2.3 and 3.6。

有人也許會想出另外一些還原方法（盡管我認(rèn)為這沒有必要）；但目前對我們重要的是，不管選擇什么樣的還原方法，一定要與所采用的決策規(guī)則相容。這意味著，當(dāng)決策規(guī)則被應(yīng)用于宏觀世界描述時，必須導(dǎo)致和決策規(guī)則被應(yīng)用于還原的微觀世界描述時相同的決策（實際上，是可選項中相同的偏好次序）。②由于薩維奇的決策規(guī)則是使預(yù)期效用最大化，他的還原方法和預(yù)期效用同樣起作用也就無足為奇了。參見 L. J. Savage， The Foundations of Statistics， 1954。事實上，單說還原方法與決策規(guī)則相容是有一點兒誤導(dǎo)的。不如說，還原方法是被選定的基本東西，然后決策規(guī)則作為純粹的特例隨之而來。決策規(guī)則除了影響將最大描述還原為最小描述之外沒有其他作用，最小描述明確考慮的僅僅是決策者的可選項，而不涉及其他任何東西。

接下來要考察的是，作為最大最小化決策規(guī)則的自然推廣，還原方法事實上是一種不切實際的方法。根據(jù)這種方法，微觀世界結(jié)果的效用會是它所形成的宏觀世界結(jié)果效用的最小值；并且，不需要證明這將導(dǎo)致各種荒謬的和直觀上不可接受的結(jié)果。實際上，沒有人甚至是最大最小化策略的追隨者都不曾嚴(yán)肅地考慮過這種還原方法。也就是說，最大最小化被認(rèn)為只對決策情景的微觀世界描述可合理應(yīng)用，這是已經(jīng)由形成預(yù)期效用的薩維奇的還原方法得到的結(jié)論?；蚋啙嵉卣f，最大最小化的東西總是（關(guān)于某個宏觀世界描述的）預(yù)期效用。這在博弈論中尤其明顯，其標(biāo)準(zhǔn)形式的效用就是派生自擴展形式的預(yù)期效用。

因此，最大最小化決策規(guī)則所出現(xiàn)的理論混亂要比它看起來的意義更為深遠。首先，這種混亂表現(xiàn)在各種決策規(guī)則似乎適合于不存在任何統(tǒng)一原則的各種決策情景。但現(xiàn)在，當(dāng)決策規(guī)則被看作還原方法的特例時，我們在單獨決策情景中就有了混亂，因為對最大最小化預(yù)期效用實際上在一個決策情景中應(yīng)用了兩個不同的還原方法。于是，就有一個迫切的問題：哪種還原方法精確適合于決策情景中的哪些項目？又是為什么？為什么首先采用預(yù)期效用還原然后再考慮最小效用還原？為什么不是反過來？等等。（這有不同影響，這兩種方法不是可交換的。）所有這些都非常難辦，我們應(yīng)盡最大努力避免這種混亂。

結(jié)語：馮·諾依曼的第三種說法，即“中間性”論證，比查理的直觀推理更具有嚴(yán)格性。但并非如此。在弱函數(shù)博弈中，查理知道露西將知道他要做的，在強函數(shù)博弈中他將知道露西要做的并且也知道露西知道這些，等等。在真實的博弈情境中他并不知道這些，也就是說，他比在弱函數(shù)博弈和強函數(shù)博弈中的處境都更不利（然而，這也意味著按照預(yù)期效用他也許會比在其他兩種博弈中的處境更有利）。在這方面，真實的博弈并非處于弱函數(shù)博弈和強函數(shù)博弈之間，并且似乎沒機會導(dǎo)致“中間性”論證的正確性（正如麥克倫南也論證的那樣①E. F. McClennen， “Some Formal Problems with the von Neumann and Morgenstern Theory of Two-Person Zero-Sum Games， Ⅰ： The Direct Proof”， Theory and Decision， Vol. 7， No.1—2， 1976， pp.1—28.）。

對第四部分的評論：這部分公認(rèn)的理論在我看來依然有最清晰的癥狀，有些地方一定有問題。莫名其妙的是，這些小小的錯誤都會使我們徹底迷失方向?；旌喜呗圆豢赡芎唵蔚鼐褪悄莻€理性的或最佳的選擇。我認(rèn)為，這無須再爭論；像切諾夫②H. Chernoff， “Rational Selection of Decision Functions”， Econometrica， Vol. 22， No. 4， 1954， pp.422—443.的那種牽強推理的無效性，只能由標(biāo)準(zhǔn)理論（的其他部分）已深深占據(jù)人心這一事實來解釋。讓我來只是重復(fù)一下那個推理的簡版：它從以下假設(shè)開始，局中人在他們的可選項中有某種偏好排序。盡管博弈論并沒有建立這種排序，正如上面所提到的那樣，但否定其可能性或者只在博弈情景中才講得通確實會是一個奇怪的斷言?，F(xiàn)在，兩個可比較選項的混合明顯不比它們兩個好。并且，如果排序不應(yīng)該是完全的或相關(guān)的，如果應(yīng)該有兩個不可比選項，那么它們的混合就與它們兩個中的每一個都不具有可比性。因此，一種混合在任何情況下都不比組成混合的成分更有效，也就沒有必要考慮把混合策略作為局中人的選項。

實際上，是否任何人都已經(jīng)真的主張把混合均衡策略作為那個理性選擇，這是不清楚的，因為存在下面這個固有的相反論證，這個論證是眾所周知的。如果一個局中人堅信他的對手使用他的混合均衡策略，那么所有的混合在他自己的均衡策略中的純粹策略（以及所有的它們的其他混合）就會有相同的最大預(yù)期效用。也就是說，如果其中一個局中人相信博弈論，另一個人就不需要這樣并被證明忽視混合策略；如果其中一個局中人不相信博弈論，那么無論如何博弈論馬上就會中止。海薩尼在他的文章③J. C. Harsanyi， “Games with Randomly Disturbed Payoffs： A New Rationale for Mixed-Strategy Equilibrium Points”， International Journal of Game Theory， Vol.2， No.1， 1973， pp.1—23.中也擔(dān)心混合策略中均衡點的這種不穩(wěn)定性（它表明，即使第二部分無可爭議，也不可能順利延續(xù)到第四部分），我們稍后回到那里。

在這里，通常附加的論證毫無用處。秘密論證，即隨機化有利于對付聰明的對手①例如，參見 R. D. Luce ﹠ H. Raiffa， Games and Decisions， New York： Wiley ﹠ Sons， 1957， p.75。，是不切實際的。因為正如（標(biāo)準(zhǔn)形式）博弈情景所通常描述的那樣，局中人在他們作出選擇之前不可能知道或發(fā)現(xiàn)其他對手的做法，除非他們有通心術(shù)或相似的特異功能。他們也許多少對其他人有明顯的信念，但根據(jù)通常的描述，在目前情況下未發(fā)現(xiàn)的選擇過程不可能成為證據(jù)的一部分。多少帶有爭論性地講：博弈論中的有趣之處并不是害怕知識的出現(xiàn)，而是害怕知識所缺乏的確定性。

無論是出于解釋性理由還是證明性理由，在教科書中常常可以找到另一條線索。這條線索是，想象一個被玩了很多次或無數(shù)次的博弈?？墒?，如果它被當(dāng)成人們在玩構(gòu)建自原初博弈的超級博弈，這條線索就無任何進步，只是因為我們在原初博弈中所有的理論麻煩會再次出現(xiàn)在超級博弈中。但即使我們假定在統(tǒng)計上無法使用的（在適當(dāng)之處中顯示的）原初博弈純粹策略的隨機序列在超級博弈中是（當(dāng)然是）一個合理的選擇，并且會有一個理論上無可爭議的正當(dāng)理由，我們?nèi)詻]有獲得成功。當(dāng)原初博弈只使用一次時，從那里到理性的東西之間并沒有嚴(yán)格的推理。②在這里，也許值得注意的是，根據(jù)長期考慮來解釋個案概率的嘗試也被證明是得不到結(jié)果的；參見I. Hacking， Logic of Statistical Inference， Cambridge： University Press， 1965， Ch.4。

秘密論證在這種反復(fù)博弈的語境中更能講得通，因為早期博弈中的隨機化可能在后期博弈中變得無法計算。但所有這些都忽視了這一點。這些考慮的可信性和實際價值是無可爭辯的。然而這一點就其本身而言，并沒有使它有助于基礎(chǔ)導(dǎo)向的理論化。并且，作為局中人可能選擇的混合策略就因上述理由而被放心地忽略掉。

四、怎樣理解博弈論（續(xù)）

我們可以通過嚴(yán)格堅守決策論的立場來避開所有這些麻煩。那我們將不得不為局中人詳細(xì)地說明完全決策模型，這就促使我們要清晰地陳述所有我們關(guān)于局中人的假設(shè)，尤其是認(rèn)知假設(shè)，并從它們出發(fā)，依據(jù)最大預(yù)期效用規(guī)則而不是貌似可信的推理來嚴(yán)格地得出理性的選擇。因此，理論的第一部分應(yīng)盡可能地精確。第二部分盡管以其弱化的方式在評論中提到，但它依然有效。第三部分的混亂將會立即澄清。并且，我們將不會有采用混合策略的任何想法。

那非常好，但積極的貝葉斯理論看起來又怎樣呢？它沒有陷入新的麻煩嗎？讓我們看看。我們首先應(yīng)該介紹一些術(shù)語。在這一節(jié)中，理性的（rational）就是恰恰指最大預(yù)期效用而不是其他任何東西；這很重要。一個人堅信p，就意味著其關(guān)于p的主觀概率是1。關(guān)于兩個人1和2，我們用遞歸方式定義：如果人i（i=1，2）堅信p，那么其對p有一階信念；如果人i堅信人j（j≠i）對p有n階信念，那么其對p有n+l階信念；當(dāng)且僅當(dāng)p為真并且兩個人對p的信念一直到n階，p是這兩個人之間的n階共同知識（盡管嚴(yán)格來講，需要的不是他們所具有的知識，而只是真的信念）。

現(xiàn)在讓我們轉(zhuǎn)向最簡單的情形，看看純粹策略中只有一個均衡點的標(biāo)準(zhǔn)形式的兩人零和博弈，在那里查理（橫向選擇者）和露西（縱向選擇者）是我們的兩個對手。公認(rèn)理論的第一部分和對它的評論都建議通過假設(shè)以下一點開始分析：查理和露西的理性和他們由博弈矩陣得來的效用都是還須在它們之間詳加說明的某階共同知識。如果是n階，我們可稱這個假設(shè)為RUMn。RUM是不是已經(jīng)解決了這些博弈？不幸的是，沒有。RUM所做的是，排除那些從一開始或以這種方式消除一些可選項后仍占嚴(yán)格支配地位的可選項。例如，下面的博弈是通過RUM5來解決（當(dāng)然，它應(yīng)用 RUM4，…，RUM1）：

因為RUM1，露西堅信查理永遠不會做a4；因為RUM2，查理堅信露西堅信這些并因此永遠不會做b4；同樣，a3被RUM3排除，b3被RUM4排除（這解決了查理的問題），最后a2被RUM5排除（這也解決了露西的問題）。

一般化：如果RUMs能有效排除局中人的一個選項之外的所有其他可選項，那么剩下的那個選項只能是他的均衡策略。不幸的是，RUM在其中有效的博弈是有具體特征的。例如，所有的RUM在以下類型的博弈中無能為力：

在這里，RUM1沒有排除任何東西，因此沒有RUM能解決問題。

貝葉斯立場存在潛在困難。根據(jù)標(biāo)準(zhǔn)理論，第一部分的有點兒模糊的假設(shè)似乎以非常可信的方式證明了對所有兩人零和博弈的均衡或極大極小策略的正當(dāng)性?，F(xiàn)在，在一種決策理論的精確化（exactification）之下，這些假設(shè)濃縮為RUMs；但RUMs不夠有力，只能否定極為特殊的個例。對非貝葉斯主義者而言這也解決了問題，即使貝葉斯主義者在這一點上有所動搖。但在我看來，由于上面提到的理由，任何對決策理論道路的背離都會成為理論上的災(zāi)難。因此，正如均衡策略看來并且廣泛被認(rèn)為合理的那樣，這個工作只能是通過一些似乎合理的假設(shè)加強RUM，均衡策略也許可從這些假設(shè)來證明是理性的。我認(rèn)為，我打算陳述的假設(shè)是與標(biāo)準(zhǔn)博弈論的精神最為接近的假設(shè)；事實上，它將是微不足道的改寫以至于你會失望：

根據(jù)RUM，我們的第二個事例的麻煩是，查理和露西關(guān)于他人行動的認(rèn)知狀態(tài)根本不受限制，他或她的每一個可選項相對于認(rèn)知狀態(tài)都是最優(yōu)的。因此，我們應(yīng)當(dāng)引進一些關(guān)于這些認(rèn)知狀態(tài)的限制。做到這一點的一個方法是，加強從RUMn到RUEn，即以下假設(shè)是他們之間的n階共同知識：不僅是查理和露西的理性及其效用，而且包括他們關(guān)于他人行動的認(rèn)知狀態(tài)。

更正式一些來講，這實際上是下面的定理，它們實際上適用于所有標(biāo)準(zhǔn)形式的兩人博弈。用A1表示查理的一組可選項，用A2表示露西的一組可選項，我們來考慮以下命題：

（1）查理是有理性的。

（1′）露西是有理性的。

（2）他的 A1×A2的效用函數(shù)是 U1。

（2′）她的 A1×A2的效用函數(shù)是 U2（不必然是 U1）。

（3）他的A2的主觀概率函數(shù)是P1。

（3′）她的 A1的主觀概率函數(shù)是 P2。

（4′）—（9′）是把（4）—（9）中查理和露西的角色互換。

（10）查理的混合策略s1=P2和露西的混合策略s2=P1都是均衡的。

（11）他選擇最反對s2=P1的純粹策略。

（11′）她選擇最反對 s1=P2的純粹策略。

那么，（從只是論及一個人的意義上講）我們有以下“個人內(nèi)心的”定理：（1）—（9）蘊涵（10）和（11）；以及“人際的”定理：（1）—（6）和（1′）—（6′）蘊涵（10）（ 11）和（11′）。

這個證明幾乎不應(yīng)該表述如下：讓BiA（ii=1，2）是所有純粹策略的集合，根據(jù)Ui，這些純粹策略最反對S（jj≠i）的。用M（Bi）表示Bi中所有策略混合的集合。那么當(dāng)然，M（Bi）中的每一個混合策略都最反對Sj?，F(xiàn)在，（3）—（6）蘊涵s2M（B2）。同理，從（6）—（9）或（3′）—（6′）得出 s1M（B1）。因此，s1和 s2是均衡的；最后，（1）和（1′）分別蘊含（11）和（11′）。

我得趕緊補充的是，我們剛剛把混合策略僅僅作為一種形式手段來使用（當(dāng)然，它們還是非常有用的）；在這里，P1僅僅被認(rèn)為是查理所具有的東西，S2不是露西所具有的，盡管它們可能在形式上等同。讓我也補充一下，這些“定理”也許可非常容易地推廣到所有標(biāo)準(zhǔn)形式的n人博弈。①實際上，我對我們的瑣碎“定理”有點兒慚愧。我希望提出一些更為有益的東西；而事實上，有很多也許更弱也許更貌似真實的假設(shè)試圖取代RUE。然而，我沒有發(fā)現(xiàn)和RUE同樣有效的假設(shè)。但畢竟，數(shù)學(xué)上的新奇不是我這里的目標(biāo)。

對于陳述這些定理，我的理由是，我認(rèn)為它們的形式應(yīng)當(dāng)是博弈論定理的范式。它們通過完全決策模型刻畫局中人，在完全決策模型中，他的愿望和信念都是按需要的詳細(xì)程度來刻畫；并且，他們堅持把最大預(yù)期效用作為唯一的決策規(guī)則。因此，它們是嚴(yán)格的貝葉斯定理，并且正因如此，它們符合由先前部分中的批判產(chǎn)生的全部要求。

我認(rèn)為，它們不應(yīng)該為它們的結(jié)論（11）和（11′）而受責(zé)備，盡管這個結(jié)論對純粹策略中沒有均衡點的博弈而言是不完全確定的。標(biāo)準(zhǔn)博弈論對于純粹策略同樣沒有詳細(xì)說明，并且已經(jīng)清楚的是，在貝葉斯式解釋之內(nèi)我們無法根據(jù)混合策略得出更具體的結(jié)果。因此，這么多非確定性是不可避免的，并且在這方面沒有理由失望。

但是，可能你會因它們的前提而責(zé)備它們，盡管你肯定認(rèn)為前提符合標(biāo)準(zhǔn)博弈論的精神。提及“個人內(nèi)心的”定理，前提（1）（2）（4）（5）（7）和（8）都是RUM2的部分，不管如何這是博弈論中所承認(rèn)的；（3）（6）和（9）也與假設(shè)其假設(shè)的公共性這個一般趨勢相一致，尤其，博弈論歸咎于局中人的是，它們說明了擔(dān)心對方太透明。

然而，有人反駁說，把（3）（6）和（9）作為前提——盡管理性的局中人是真的——根本不符合博弈論的精神，而不如說是博弈論的一種諷刺，因為通過表明S1和S2分別是查理和露西要做的理性事情，從而斷然假定博弈論所要建立或努力建立的東西（由于所假設(shè)的理性共同知識，從而蘊含（3）（6）和（9））?，F(xiàn)在我要重申的是，像（3）（6）和（9）這樣的事物在標(biāo)準(zhǔn)博弈論中根本不是嚴(yán)格地建立的，而我們再一次來到這里。這里的障礙在哪里？我認(rèn)為，即使人們同意到目前為止我所說的，依然肯定存在這樣一種感覺，即我沒有完全公正地對待標(biāo)準(zhǔn)博弈論。事實是，當(dāng)對標(biāo)準(zhǔn)理論的顯明目標(biāo)即建立理性行動進行表面判斷時，就清楚地表明標(biāo)準(zhǔn)理論意在更多我們還未把握到的東西，貝葉斯式重述就會導(dǎo)致一種淺薄。但讓我們目前遵從這一殘酷的事實；當(dāng)我們隨后從一個更抽象的水平來理解它時，我們就會看得更加清楚。

另一種指責(zé)可能是，（3）（ 6）和（9）是比其他假設(shè)更加難以置信的假設(shè)（盡管這與先前的指責(zé)即（3）（ 6）和（9）是假定而非證明的相反）。下面是三個相關(guān)的評論：

第一，所有（1）到（9）當(dāng)然都是理想化的。但是，根本沒有理由解釋為什么（3）（ 6）和（9）應(yīng)該是比其他假設(shè)都更加嚴(yán)重的理想化。因此，這不可能是這個指責(zé)所指向的觀點（一般而言的懸而未決的理想化本質(zhì)不是我們需要討論的主題）。

第二，通常很難說（5）還是（6），或（8）還是（9）是我們定理的更加關(guān)鍵的假設(shè)，因為在關(guān)于他人的信念或愿望是否更容易可知這個問題上，似乎不可能有任何一般的、實質(zhì)的斷言；我認(rèn)為，這個問題不需要爭論。

第三個要提的事情是，說與RUM相對立的RUE的盈余包含在局中人的認(rèn)知狀態(tài)的共同知識中是欠妥當(dāng)?shù)?，因為一些這樣的東西常常已經(jīng)包含在RUM中。也就是說，如果博弈有機會變化，那么局中人關(guān)于這些變化的認(rèn)知狀態(tài)就通過RUM而眾所周知，因為那時RUM需要預(yù)期效用被眾所周知。

盡管有這些辯護性評論，（6）和（9）依然看起來比（5）和（8）更有問題——至少在兩人博弈的通常例子中（這不可能通過說這些例子有偏見就可以不管）。這會被下面的考慮所支持。

首先，假設(shè)局中人相互知道關(guān)于機會變化的認(rèn)知狀況，這似乎在許多（盡管不是在所有）情景中都是無傷大雅的——例如像擲骰子的機會變化，而且，當(dāng)關(guān)于機會變化的主觀概率不是很容易被當(dāng)作反映那種機會變化的客觀概率的知識時，即使當(dāng)問題中的機會變化沒有客觀概率時，也是如此。例如，機會變化也許是史努比是否正在找紅男爵，然后我們可以想象查理作如下推理：“史努比昨天就開始尋找了，通常這要花費他幾天時間。因此，非?？赡埽热缯f90%的可能性，他仍然在尋找。現(xiàn)在，因為露西和我一起發(fā)現(xiàn)他昨天登上了他的雙翼飛機，我知道她知道史努比是從昨天開始的，她也知道我知道史努比是從昨天開始的。更重要的是，她對他的了解和我對他的了解幾乎一樣多，并且她知道我有多了解他；因此，她會準(zhǔn)確地猜到我關(guān)于史努比的概率，并且她本人會有相同的概率。”每當(dāng)這樣的考慮適宜時，就可以貌似合理地假定至少局中人關(guān)于機會變化的信念這樣的二階共同知識。①讓我順便指出，（1）（2）（4）（5）（7）和（8）是不如RUM2有力的查理RUM的一半，（1）到（9）是不如RUE2有力的查理RUE的一半。我認(rèn)為，這是可以令人滿意的，因為似乎我們攀登的RUM或RUE的等級越高，我們就更加奇怪地喪失自我。

同樣地，共同的效用知識常?？雌饋頉]問題。因此，想象一下查理和露西在玩相匹配的賭注；那么就有了查理為這個博弈建立（2）（5）和（8）的另外一個簡單的推理：“我下了不到四分之一，我想贏。所以，我的效用堅守不變。現(xiàn)在，露西非常了解人性，特別是我的人性。人人都追逐金錢，畢竟我也不例外。所以，她將知道我的偏好。但是，她也沒什么不同，她已經(jīng)充分證明了這一點。所以，她的效用應(yīng)該與我的相對立?！?/p>

與這兩個推理相反，讓我們看看對于（3）（6）和（9）是否存在相似的推理。查理也許會作如下闡述：“露西的各種可選項的概率是怎樣的？為了找到答案，我應(yīng)該審查我關(guān)于她的證據(jù)?！薄獣和Ｒ幌隆昂冒?，不管我的證據(jù)是什么，我已把它與她知道的收集在一起；沒什么特殊的或神秘的東西。因此，（a）她大概知道我有關(guān)于她的哪些證據(jù)。但是，（b）她也因此將正確地猜到我的概率；畢竟，我們思考的方式并無不同。同樣，她將可能想到我正確地猜到她對我的概率?！薄獣和Ｒ幌隆翱纯矗凑誖UM（確切地說是RUM3）發(fā)展下去，（c）我的概率一定是Pl，她的是P2（假設(shè)這是唯一的均衡點）。因此，（d）她也認(rèn)為我會有P1。那不是很聰明嗎？”

不，和先前兩個推理相比，它有點兒可疑。與史努比的情形相反，關(guān)于露西的證據(jù)依然不清楚。然而，真正糟糕的事情是，到（d）的推理有些弄巧成拙。因為，（a）是（b）的根據(jù)，但（b）導(dǎo)向（c）然后到（d）卻沒有提及任何證據(jù)；因此，（a）變得根本不具有操作性，而這就使（b）喪失了它的根據(jù)。

使查理的第三個推理站得住腳的明顯方式似乎是，明確陳述一些查理貌似具有的證據(jù)和直接引起他擁有愿望P1的證據(jù)；他到（d）的推理就行得通了。（需要注意的是，正如他的推理所表明的那樣，查理擁有P1不是因為P1是可與露西所知道的他的概率相一致的唯一概率函數(shù)。相反，他有P1是由于他擁有的證據(jù)，然后P1被附加——盡管不是偶然——證明是非常一致的。）

然而，就像第六節(jié)中的討論使我們恰好得出相同的結(jié)論一樣，我會稍后更詳細(xì)地解釋。因此，目前我們不得不承認(rèn)，我們對（3）（6）和（9）依然缺乏根據(jù)，這就像對（2）（5）和（8）那樣自然，并因此對允許（3）（6）和（9）作為額外前提的兩個指責(zé)仍然沒有得到充分的回答。

五、真正的議題：行動理性和認(rèn)知理性

迄今為止，我們已經(jīng)介紹并比較了標(biāo)準(zhǔn)理論和決策理論，我希望我已經(jīng)解釋清楚在我看來的貝葉斯理論的確切優(yōu)點之所在，以及為什么它們在那里存在。但是，我也正好發(fā)現(xiàn)貝葉斯理論的一些尚待處理的問題，為了使它們牢靠，似乎看起來我們不得不返回到公認(rèn)的理論。因此，讓我從一個更深一點兒的層次上再次闡釋整個理論，即通過考察作為不同觀點的基礎(chǔ)的理性觀念。首先讓我從標(biāo)準(zhǔn)理論入手。

事實上，在標(biāo)準(zhǔn)博弈論背后似乎并沒有一個非常明確的理性觀念。至少在20世紀(jì)五六十年代，另一個發(fā)展理性概念的方式在決策論和博弈論及相關(guān)領(lǐng)域中非常受歡迎。第一條規(guī)則，源自對任何宏偉畫卷的敏感式懷疑，是不以任何綜合性、而是以不考慮后果的理性觀念來對主題作出的預(yù)先判斷。更精確地說，正如羅爾斯稱作的那樣①J. Rawls， A Theory of Justice， Cambridge， Mass.： Harvard University Press， 1971， pp.48ff.，一種審慎的步進式推理（step-by-step reasoning）應(yīng)該導(dǎo)向一種直觀而系統(tǒng)的論證的反思性均衡。因此，有人從一些直觀上非常令人信服的假設(shè)出發(fā)，展示他們的演繹結(jié)果，詳細(xì)檢查這些結(jié)果是否在直觀上不合理，最終拋棄最弱的假設(shè)，努力增添新的假設(shè)，以相同的方式核實他們，區(qū)分基本的和派生的假設(shè)，等等。通過這種方式，諸如偏好傳遞性原則和確鑿性原則等大量的基本原則（以及一些次基本原則，像那些作出修改以適應(yīng)更具體情景的極大極小變化）就出現(xiàn)了，然后它們會非常自信地聲稱能刻畫理性。雖然這些原則從沒有認(rèn)為應(yīng)該詳細(xì)討論理性概念，但它們被證明是十分有力的。的確，對處于確定性和風(fēng)險性之下的決策而言，這種方式取得了完全成功；對處于不確定性之下的決策而言，盡管不是全體同意，但結(jié)果是可闡明的；并且，至少較為簡單的博弈情景得到了滿意的解決。

我希望這不是一個對實際過程過于扭曲的描述，在我看來，它的唯一缺點是看起來有點缺乏概念的清晰性；到底是什么推向一種反思性均衡，這并不完全透明。這在博弈論中尤感壓力，但至少我嘗試在后續(xù)中進行論證。

為了更清楚些，我認(rèn)為，我們必須對關(guān)于理性的兩三個相當(dāng)明顯的事實進行考察。首先，我們必須嚴(yán)格區(qū)分行動理性、信念理性以及可能的愿望理性，并分別討論它們。

讓我們首先考慮行動理性，它是決策論和博弈論的公開主題。這里重要的事情是，無論一個人的行動是不是理性的，它只能由那個人相關(guān)的主觀愿望和信念決定。這從日常經(jīng)驗看是顯而易見的；無論何時我們偶然遇到看起來不理性的行動，當(dāng)這個行動者或其他很熟悉他的人，向我們解釋他這樣行動的原因時，我們可能就會放棄我們的判斷。并且，這從反復(fù)指出這一事實的哲學(xué)作品看也是顯而易見的。②例如，參見C. G. Hempel， “Rational Action”， Proceedings and Addresses of the American Philosophical Association，Vol.35， Yellow Springs， Ohio： The Antioch Press， 1962， pp.5—23，或者P. M. Churchland， “The Logical Character of Action-Explanations”， Philosophical Review， Vol.79， No.2， 1970， pp.214—236，以及其他關(guān)于理性解釋和行動解釋的文獻?，F(xiàn)在，只有當(dāng)一個行動與本身就理性的信念和愿望理性地關(guān)聯(lián)起來時，我們才能稱這個行動是理性的。但是，這只不過是個術(shù)語問題。在兩個方面之間存在一定的關(guān)系，一方面是行動，另一方面是信念和愿望，而無論信念和愿望可能是什么。無論何時一個行動把這種關(guān)系帶給既定的信念和愿望，更可取的做法并且也是我的做法，就是把這個行動稱作是理性的。哪個行動在這個意義上恰好是理性的，通常是權(quán)衡每一給定的信念和愿望在原則上相關(guān)的結(jié)果。當(dāng)然，這很模糊；但把它弄清楚卻是一個明確的任務(wù)，并且，考察信念理性和愿望的理性是一項與眾不同的工作（這還不是我們的主題）。

對我們而言，這個考察有兩個結(jié)果。一個是，當(dāng)處理行動理性時，我們確實應(yīng)該考慮概率的主觀主義解釋。因為獨立于一個人的主觀信念時，對行動理性就沒有多少可以說的。從這個觀點看，不確定性條件下的決策和標(biāo)準(zhǔn)理論中所描述的博弈情境一樣，只不過似乎是證據(jù)不足的問題。但是，如果一個人的信念被明確地考慮，那我們就不得不使這些信念概念化；并且，微弱地說，概率衡量是一個這樣概念化的好方式。我認(rèn)為，這在哲學(xué)中并未提及，但奇怪的是，它似乎依然需要在博弈理論家和經(jīng)濟學(xué)家中強調(diào)。

事實上，在所有標(biāo)準(zhǔn)博弈論中都闡述過對主觀概率的反感。在機會變化的觀念和處理中這是顯而易見的，它說明一個事實，其他人的行動并不是作為局中人的概率來考慮的，在對待局中人的整個認(rèn)知構(gòu)成時就像對待非親生子女一樣可以找到一般表述。毫無疑問，標(biāo)準(zhǔn)博弈論通過精彩的替代克服缺少不受歡迎的主觀概率，但我認(rèn)為同樣清楚的是，這種轉(zhuǎn)變是標(biāo)準(zhǔn)理論中不連貫闡述的主要原因。并且，它使前面勾勒的達至理性的“反思性均衡”方法變得更為含混。

第二個結(jié)果是，如果我們愿意在數(shù)學(xué)模型中捕捉行動理性，我們就幾乎自動地導(dǎo)向決策論。因為反映衡量主觀信念和愿望的最自然的方法是以某種量化的方式將它們概念化；當(dāng)然，對這樣一種量化的概念化而言，實踐上無可匹敵的候選項就是概率測度和效用函數(shù)；因此，最大預(yù)期效用的貝葉斯規(guī)則是衡量過程及其產(chǎn)出的最為貌似合理并在數(shù)學(xué)上最為簡單的模型。當(dāng)然，這個考量獨自不可能建立起決策論；但是，由于堅實的“反思性均衡”基礎(chǔ)已經(jīng)盡一切力量支持這個數(shù)學(xué)模型，這就可能使之簡單些。

現(xiàn)在重要的是，這個模型給了我們一個關(guān)于行動的完全解釋，這個行動相對于給定的信念和愿望而言是理性的。這就是說，任何在可比較的概念化范圍之內(nèi)起作用的其他解釋，要么是由決策論的解釋引起，要么是與決策論的解釋相抵觸。（嚴(yán)格來講，這不是很對；根據(jù)決策論，也許存在紐帶；而在這些情形中，也僅僅在這些情形中，可能有另外的解釋不是由決策論引起但可與決策論相比較。）

所有這些的結(jié)果是：我們也許是在為公認(rèn)的主觀信念和愿望的概念化而爭吵。但是，如果我們不爭吵，那么當(dāng)運用小于完全的決策模型時，我們就無法完全公正地對待行動理性；當(dāng)運用完全決策模型時，我們就有了完整刻畫行動理性所需要的一切。因此，也從總的角度來看，像理性行動處于爭論之中的其他每個地方一樣，在博弈論中我們沒有好的選擇，只有保持一個嚴(yán)格的決策論過程。

現(xiàn)在最后一次提出這個猜測，博弈論對剛才討論到的弱意義上的行動理性不太感興趣，它感興趣的是建立在理性信念以及可能理性愿望基礎(chǔ)之上的強意義上的行動理性。然而，愿望理性是一個非常模糊的主題。根據(jù)理性愿望是否可能通過理性信念從其他愿望推斷出來，存在一個并非完全不清楚的愿望觀念，它相對于其他給定的愿望是理性的愿望。但是，是否也存在一些絕對地判斷愿望理性的方法——這是一個開放式問題，使人想起沉重的道德問題，是否有客觀價值這樣的東西。在這種情景下，聰明的話就不要去假定絕對的理性愿望，當(dāng)然這也是所有決策理論家和博弈理論家通過把偏好和效用函數(shù)作為主觀上的既定項所做的事情。因此，我們只討論認(rèn)知理性，這也是最終我們要談的。

六、真正的議題（續(xù)）

首先，我應(yīng)該簡要提及一個熟悉的觀點（為了接下來別再想它），即行動理性的決策論解釋已經(jīng)假定一個形式的認(rèn)知理性最小值，也就是說，主觀概率像數(shù)學(xué)概率那樣運作。但這總是被認(rèn)為是理所應(yīng)當(dāng)?shù)?；?dāng)然，我們現(xiàn)在要考慮一個超越這點的實質(zhì)屬性。

實際上，標(biāo)準(zhǔn)博弈論確實和認(rèn)知理性相關(guān)而不僅僅和行動理性相關(guān)，這一說法并不非常清楚。至少，在標(biāo)準(zhǔn)參考資料（像馮·諾依曼、摩根斯坦①J. von Neumann ﹠ O. Morgenstern， Theory of Games and Economic Behavior.或盧斯、雷法②R. D. Luce ﹠ H. Raiffa， Games and Decisions.）中我無法為此找到好的證據(jù)；也許還要不得不處理用以解釋理性的有點兒統(tǒng)一的“反思性均衡”方法。但是，來自第四節(jié)末尾的印象，即我們的貝葉斯理論并未完全公正地對待標(biāo)準(zhǔn)理論，也指出了這一憂慮。當(dāng)我們看到海薩尼所寫的從他的貝葉斯式方法到博弈論的東西時，議題就變得更加清楚。例如，他說：

在博弈情景中定義理性行為的基本困難是這樣一個事實：通常每個局中人的策略都將依賴于他對其他局中人的策略的預(yù)期。如果我們能假定他的預(yù)期是給定的，那么他的策略選擇問題就會變成一個普通的最大值問題：基于其他局中人將會根據(jù)他的既定預(yù)期來行動的假設(shè)，他可以簡單地選擇一個收益最大化的策略。但關(guān)鍵是，博弈論不可能把局中人關(guān)于彼此行為的預(yù)期看作是給定的；不如說，對博弈論而言，最重要的一個問題恰恰是決定哪些預(yù)期是聰明的局中人對于其他聰明局中人的行為能理性地存有的。這可以被稱作相互“理性預(yù)期”問題。③J. C. Harsanyi， “Bargaining and Conflict Situations in the Light of a New Approach to Game Theory”， The American Economic Review， Vol. 55， No. 1/2， 1965， pp.447—457.

為解決這一問題，海薩尼不僅提出“狹義上的理性行為假設(shè)”，而且提出“理性預(yù)期假設(shè)”④J. C. Harsanyi， “A General Theory of Rational Behavior in Game Situations”， Econometrica， Vol.34， No.3，1966， pp.613—634.；然后他非常明確地表明這些假設(shè)意味著：

影響局中人的交易行為的僅有變量是：

（1）與每個局中人的選擇結(jié)果相關(guān)的回報；以及

（2）每個局中人分派給被其他局中人接受或拒絕的不同結(jié)果的主觀概率。

在這些變量中，只有那些在（1）中被提及的是獨立的變量，而（2）中的變量本身都是由（1）中的變量來決定。①J. C. Harsanyi， “A General Theory of Rational Behavior in Game Situations”， Econometrica， Vol.34， No.3，1966， p.621.

這上一個斷言對海薩尼的方法以及對標(biāo)準(zhǔn)博弈論都是至關(guān)重要的。但是，我認(rèn)為它基本上就是錯的。（事實上，如果我不這么認(rèn)為，我可能就容忍了這篇文章。）然而，我不可能嚴(yán)格地論證這個問題，因為為此我必須表明，對認(rèn)知理性的每個原則而言，人們也許可以貌似有理地心存想法，認(rèn)為它不是從（1）導(dǎo)向（2），還因為，考慮到一些基本原則的例外情況，人們并不一致同意這些理應(yīng)心存的原則。認(rèn)知理性的闡釋比行動理性少得多。不用奇怪，它是在其完整的哲學(xué)概論中由來已久但仍然尖銳的歸納問題。但是，我將努力講通為什么我認(rèn)為海薩尼的斷言是錯的。讓我們從回顧一些關(guān)于認(rèn)知理性的事實開始。

首先，很明顯人們無法完全說信念是理性的或不是理性的。只有與一個人擁有的證據(jù)相關(guān)時，這個人的信念才能被說成是理性的。這種關(guān)系的一部分在演繹邏輯中被詳加闡明；無論從證據(jù)演繹地推出什么東西，它在理性上都應(yīng)當(dāng)是可信的。歸納邏輯和統(tǒng)計學(xué)也（兩者都是較有爭議的）試圖澄清這種關(guān)系。這里已經(jīng)變得明顯的是，某些認(rèn)知狀態(tài)的理性也依賴于先驗的認(rèn)知狀態(tài)，也就是說，應(yīng)從先驗認(rèn)知狀態(tài)理性的評價問題中區(qū)分出理性信念變化問題——先驗認(rèn)知狀態(tài)是如何理性地根據(jù)新證據(jù)改變的？——這是更加困難的問題。實際上，認(rèn)知理性依然非常復(fù)雜；比如，它肯定還依賴于表達信念的語言。但是，如此深奧復(fù)雜的問題對我們的討論而言是無關(guān)的。②我認(rèn)為，這暗示一個瑣細(xì)但相關(guān)的評論，即必須嚴(yán)格區(qū)分理性信念和真實信念。盡管可能大多數(shù)理性信念是真實的，但現(xiàn)今大多數(shù)真理不能只是被非理性地相信（因為我們的證據(jù)是如此不足），并且許多理性信念是錯誤的（因為我們的證據(jù)經(jīng)常具有誤導(dǎo)性）。這不是說理性信念和真實信念不會相互關(guān)聯(lián)，而是說這種關(guān)聯(lián)的本質(zhì)是一個深入而開放的哲學(xué)問題。參見C. S. Peirce， Collected Papers， Vol.Ⅰ — Ⅳ， edited by C.Hartshorne ﹠ P. Weiss， Cambridge， Mass.： Harvard University Press， 1960， Vol. Ⅴ， §§ 384—385 ﹠ 405—408，或者H. Putnam， Meaning and the Moral Sciences， London： Routledge ﹠ Kegan Paul， 1978， pp.121—140?，F(xiàn)在，博弈理論家假設(shè)他的局中人具有許多真實信念，例如，如果他認(rèn)為局中人知道機會變動的客觀概率，或者如果他假設(shè)一定的RUM（根據(jù)RUMn，所有通過RUMn輸入到露西的二階信念都為真）；關(guān)鍵在于，只要他這樣做，他就引入一個真正的全新假設(shè)，這個假設(shè)無法單靠局中人的認(rèn)知假設(shè)來解釋。似乎對我而言，標(biāo)準(zhǔn)理論在這一點上并不總是非常清晰；例如，當(dāng)僅僅假設(shè)關(guān)于理性的一階信念時（參見我們的標(biāo)準(zhǔn)理論第一部分），（錯誤的）觀念也許就會是，更高階的信念通過所假設(shè)的理性以某種方式塌陷。

現(xiàn)在回到海薩尼的斷言，讓我們再設(shè)想一下查理和露西已投入到某個標(biāo)準(zhǔn)形式的零和博弈之中，并假定某個RUM（這里的“R”依然只是代表行動理性）。讓我們假設(shè)這仍然解決不了博弈問題（也就是說，這個博弈像我們在第四節(jié)中的第二個例子）?，F(xiàn)在，我們附加假設(shè)查理在認(rèn)知上是理性的。這有什么幫助呢？我認(rèn)為，毫無幫助。我們在第四部分中已經(jīng)看到，通過演繹邏輯RUM并沒有蘊涵任何東西能夠縮小查理對露西的可能概率范圍。并且我知道，沒有貌似可信的歸納原則能在這方面做得更好。當(dāng)我們假設(shè)露西在認(rèn)知上是理性的時候，這同樣成立。但因此，它對查理相信露西在認(rèn)知上是理性的也沒有任何幫助。還有很多諸如此類的東西。這樣一來，即使我們附加假設(shè)認(rèn)知理性是查理和露西之間的某階共同知識，我們也不能由此得出他們具有博弈論使他們具有的主觀概率。并且，這與海薩尼的主張相抵觸：他以為我們能得出這一結(jié)論。也就是說，我們希望的效用和所有理性（以及所有這些的共同知識）將共同決定主觀概率。當(dāng)然，當(dāng)查理和露西承認(rèn)其他或更多的證據(jù)而不僅僅是RUM時，這個推理根本沒有排除認(rèn)知理性的假設(shè)可能非常有效。

但是，我們不是批評海薩尼的斷言，而是應(yīng)該最好看看他是如何支持它的。然而，在他的文章中①J. C. Harsanyi， “A General Theory of Rational Behavior in Game Situations”， pp.613—634.，從我所引用的他的斷言來看，我沒有發(fā)現(xiàn)這樣的支持。在文章中，他的理性假設(shè)的確非常明顯地蘊涵局中人的行動只依賴（1）和（2）；但他對他的更強的論斷沒有作出進一步的論述。不幸的是，用來解釋其所勾勒的計劃②Ibid.的其他文章同樣如此。③關(guān)于這些文章，參見下面兩篇文章的參考文獻：J. C. Harsanyi， “Bargaining and Conflict Situations in the Light of a New Approach to Game Theory”， The American Economic Review， Vol.55， No.1/2， 1965， pp.447—457； J. C. Harsanyi， “A General Theory of Rational Behavior in Game Situations”。

也許我們的興趣可以由他最近和萊因哈德·澤爾騰（Reinhard Selten）共同發(fā)展的理論來回答，這個理論對解決n人非合作博弈提出了一個全新的兩階段程序④參見J. C. Harsanyi， “The Tracing Procedure： A Bayesian Approach to Defining a Solution for n-Persons Noncooperative Games”， International Journal of Game Theory， Vol.4， No.2， 1975， pp.61—94，以及J. C. Harsanyi， “A Solution Concept for n-Persons Noncooperative Games”， International Journal of Game Theory， Vol. 5， No.4， 1976， pp.211—225.：

首先，一個先驗主觀概率分布pi被分派給每個局中人i的純粹策略，這意味著代表其他局中人對局中人i的可能策略選擇的最初預(yù)期。那么，被稱作追蹤程序的數(shù)學(xué)程序就被用來定義這些基于先驗分布pi之上的解決辦法。追蹤程序意味著為求解過程提供一種數(shù)學(xué)表達，通過理性局中人設(shè)法協(xié)調(diào)他們的策略計劃和他們的預(yù)期，并使他們趨于一個作為博弈解決方法的特定均衡點。⑤J. C. Harsanyi， “A Solution Concept for n-Persons Noncooperative Games”， International Journal of Game Theory， Vol.5， No.4， 1976， p.211.

這種——在它的具體細(xì)節(jié)上相當(dāng)復(fù)雜的——方法本該有一個較長的討論。但是，指出為什么它似乎也沒有減少我們的麻煩就足夠了。如果我們把這種方法應(yīng)用到兩人零和博弈中，那么只有它的第二步即追蹤程序是相關(guān)的（因為它促使每個先驗概率分布連到相同的均衡點，即到唯一存在的均衡點）?，F(xiàn)在，我們考慮只有一個局中人的情形；假設(shè)查理對露西的選擇集合擁有先驗分布，但不是一個均衡分布。為什么查理應(yīng)該改變這些先驗概率？根據(jù)一些新證據(jù)和幾乎不與理性信念變化的任何一般原則相關(guān)的追蹤程序，這種改變似乎并無必要。為什么不堅持也許更為熟悉的先驗概率呢？（盡管它們會表明查理不認(rèn)為露西知道它們——但他為什么應(yīng)該這樣想呢？）海薩尼對沉溺于追蹤程序給出的唯一理由就是這種先驗分布不是均衡分布，而根據(jù)我們的標(biāo)準(zhǔn)理論第二部分中重述的理由，只有均衡點才能是非合作博弈的理性解決方案。①參見J. C. Harsanyi， “The Tracing Procedure： A Bayesian Approach to Defining a Solution for n-Persons Noncooperative Games”， pp.61—94。因此，他認(rèn)為理所應(yīng)當(dāng)?shù)臇|西，對我們而言依然是需要澄清的東西。

讓我們依然來看看海薩尼②J. C. Harsanyi， “Games with Randomly Disturbed Payoffs： A New Rationale for Mixed-Strategy Equilibrium Points”， International Journal of Game Theory， Vol.2， No.1， 1973， pp.1—23.，在那里他非常接近我們的想法，即努力克服混合策略中均衡點的明顯不穩(wěn)定性，這種不穩(wěn)定性在我們對標(biāo)準(zhǔn)理論第四部分的評論中曾批判性地提到過。為此，他提出下面的模型：給出標(biāo)準(zhǔn)形式中的一個非合作n人博弈，即“原初博弈”，A1，…，An是n人的選擇集合，Vl，…，Vn是他們對A1×…×An的效用函數(shù)。海薩尼現(xiàn)在認(rèn)為，某個稍微不同的博弈即“干擾性博弈”可能更真實地描述了真正的博弈情景，在那里每個局中人i的真正效用并非固定地由Vi給出，而是圍繞Vi給出的值有一個小范圍的波動，這是由于“在其主觀和客觀條件中（例如在其情緒、品位、資源、社會情境等等之中）有微小的隨機波動”③Ibid.。支配這些波動的概率法則可能對不同的局中人是不同的，但每個局中人都被假定知道所有這些分布。然而，每個局中人在進行選擇時僅僅知道他自己的波動效用具體是怎樣的。因此，在標(biāo)準(zhǔn)形式的干擾性博弈中，局中人i的一個可能的純粹策略是一個函數(shù)，它能告訴他，對真正效用函數(shù)的每一個可能版本而言，從Ai中選擇哪一個行動。于是，局中人關(guān)于標(biāo)準(zhǔn)形式干擾性博弈的效用函數(shù)立即可從以上描述推斷出來。

現(xiàn)在，海薩尼能夠基本證明：干擾性博弈有至少一個均衡點；干擾性博弈的每個均衡點都在純粹策略中；如果局中人在干擾性博弈的均衡中選擇純粹策略，那么根據(jù)效用性的概率法則，這些選擇會降到近似處于均衡的原初博弈中的混合策略；并且，這個近似值越接近，圍繞Vi的波動幅度就越小。這就解決了穩(wěn)定性問題，因為在干擾性博弈中均衡因在純粹策略中而穩(wěn)定；并且因為在干擾性博弈中選擇一個純粹策略就意味著在原初博弈中選擇了一個隨機策略；更重要的是，這里出現(xiàn)的隨機性是因為效用的波動，不必由局中人有意執(zhí)行。

看起來，似乎這個模型能夠為我們的“定理”中的認(rèn)知假設(shè)（3）（6）和（9）提供長期尋找的正當(dāng)性證明。但是，它這樣做要以什么為代價呢？它有其他強的假設(shè)來替代。波動效用的觀念使人想起瑟斯頓（L. L. Thurstone）把心理學(xué)變量看作隨機變量的方法。①參見L. L. Thurstone， “The Prediction of Choice”， Psychometrika， Vol. 10， No. 4， 1945， pp.237—253。這種方法是對數(shù)學(xué)心理學(xué)的一個重大貢獻，但大體上，這種方法的一個公認(rèn)的嚴(yán)重困難是確定這些隨機變量的分布。②參見 D. Laming， Mathematical Psychology， London： Academic Press， 1973， Ch. 2。因此，在一定意義上，海薩尼要求我們的局中人最好成為瑟斯頓式的心理學(xué)家，而不是能干的科學(xué)家。但是，人們并不需要把效用的波動解釋為效用的客觀概率不確定性；人們可以把這些波動的概率法則解釋為表達局中人對彼此的主觀不確定性。然而，接下來非常神秘的是，為什么關(guān)于局中人i的效用的不確定性對所有其他局中人而言有著完全相同的形式?，F(xiàn)在，上面的異議并不適用于兩人博弈（因為只有一個其他局中人）。但是，即使再解釋也無濟于事，因為干擾性博弈的效用函數(shù)被假定為那里的每個局中人都知道；這就要求對原初博弈中其他局中人的效用而言，每個局中人都知道每個人的概率分布。因此，不管如何解釋，人們很難對海薩尼的模型③J. C. Harsanyi， “Games with Randomly Disturbed Payoffs： A New Rationale for Mixed-Strategy Equilibrium Points”， pp.1—23.的假設(shè)感到滿意。除此之外，我們還理所當(dāng)然地認(rèn)為，只有在純粹策略下具有均衡點的博弈中，均衡行為才是理性的。

我們不得不絕望于為（3）（6）和（9）尋找某種正當(dāng)性證明嗎？如果我們在我所稱的海薩尼斷言界定的領(lǐng)域內(nèi)尋找，即只是在即將到來的博弈情景中尋找，那我認(rèn)為我們確實不得不絕望。事實上，這一部分現(xiàn)在恰恰使我們導(dǎo)向第四節(jié)末尾的困境之中。并且，出口就隱藏在那里：我們沒必要將局中人的認(rèn)知理性起作用的證據(jù)限制在即將到來的博弈情境。畢竟，我們也要為假設(shè)（4）（5）（7）和（8）尋找某些支持或證據(jù)，它們也是認(rèn)知假設(shè)（通過假設(shè)查理相信某些東西）。這里非常清楚的是，一個局中人對于他的同伴是理性的并且具有如此這般的效用的信念無法在給定的博弈情境中獨自得到證明；不如說它只能通過長期而豐富的人類經(jīng)驗來獲得（細(xì)節(jié)并不清楚）。因此，這也許是對（3）（6）和（9）而言合適的證據(jù)領(lǐng)域；特別是一個局中人可能已經(jīng)處在博弈情境中很多很多次了，他由此可能已經(jīng)形成我們期望他所擁有的信念。實際上，布朗已經(jīng)通過虛構(gòu)的博弈提出這個想法④G. W. Brown， “Iterative Solution of Games by Fictitious Play”， in Activity Analysis of Production and Allocation，edited by T. C. Koopmans， New York： Wiley ﹠ Sons， 1951， pp.374—376.，它與接近兩人零和博弈的均衡點的迭代過程有關(guān)，這也被稱作布朗—羅賓遜過程。⑤因為羅賓遜已經(jīng)證明布朗的想法是可行的。參見J. Robinson， “An Iterative Method of Solving a Game”，Annals of Mathematics， Second Series， Vol.54， No.2， 1951， pp.296—301；亦參見 R. D. Luce ﹠ H. Raiffa，Games and Decisions， New York： Wiley ﹠ Sons， 1957， pp.422ff。讓我們把這個過程修改成一個關(guān)于查理和露西的簡單理論。

假設(shè)查理和露西開展某個標(biāo)準(zhǔn)形式零和博弈，他們的選擇集合和效用函數(shù)分別由A1和A2、U1=U和U2=—U給定。他們博弈不是一次，而是很多次，甚至可能是無限多次。但是，他們頭腦簡單，并不認(rèn)為這種情景是一個超級博弈，甚至想不到其他人是理性的并且有如此這般的效用。在每一次博弈中，他們僅僅使他們的預(yù)期效用最大化，而預(yù)期效用是由他們對他人行動的效用函數(shù)和當(dāng)下的主觀概率決定的。盡管如此，他們?nèi)栽谝罁?jù)過去的經(jīng)驗調(diào)整他們的概率，他們在認(rèn)知上是理性的。

然而，我們不想如此嚴(yán)格以至于假設(shè)雙方都符合所謂的直接規(guī)則①例如，參見 R. Carnap， The Continuum of Inductive Methods， Chicago： University Press， 1952， § 14。，即在n次博弈后他們在n+1次博弈中對其他人行動的概率與在前n次博弈中他人行動的相對頻率是相同的；通過假設(shè)這一點，我們恰恰能復(fù)制原初的布朗—羅賓遜過程。為把正在討論的過程和建立認(rèn)知理性原則聯(lián)系起來，我們想要更自由些。

首先，我們假設(shè)他們遵循條件化規(guī)則，就是說某人對事件C在某一時間點t′的概率Pt′（c）應(yīng)等于他在某一更早時間點t對C的條件概率Pt（C/E），其中E是他在t和t′之間收集到的經(jīng)驗。這是理性信念變化的最基本規(guī)則。②直接規(guī)則和條件化規(guī)則不相容，也就是說，通常沒有優(yōu)先概率來衡量是哪個條件化產(chǎn)生了直接規(guī)則所決定的后驗概率。實際上，這是拒斥直接規(guī)則最強有力的理論根據(jù)。參見R. Carnap， The Continuum of Inductive Methods， § 14。舉例來說，對查理而言，這意味著經(jīng)過n次博弈之后，在第n+1次博弈中他對露西的行動的概率是他關(guān)于這些被她在前n次中所作所為條件化的行動的先驗概率。

其次，為保留直接規(guī)則的優(yōu)點，我們假設(shè)他們滿足所謂的收斂公理或賴欣巴哈公理。舉例來說，這就是說對查理而言，他在第n+1次博弈中對露西的行動的概率和前n次博弈中這些行動的相對頻率之間的不同之處，無論它們是什么，都收斂到零（對于n→∞）。這樣一來，有人可能會說賴欣巴哈公理保證了最后經(jīng)驗會比先驗觀念更占優(yōu)勢；它因此通常被看作認(rèn)知理性的一個最低要求。③參見 W. Stegmüller， Probleme und Resultate der Wissenschaftstheorie und Analytischen Philosophie， Band Ⅳ， Personelle und Statistische Wahrscheinlichkeit， Berlin， Heidelberg： Springer， 1973， pp.502ff。有人可能發(fā)現(xiàn)這會引起異議：賴欣巴哈公理表達了主觀概率的極限性質(zhì)但沒有依此說出關(guān)于它們的實際形式。然而，這里有概率的“實際”性質(zhì)，眾所周知，最為著名的對稱性就隱含賴欣巴哈公理。參見R. Carnap ﹠ R. C. Jeffrey，（eds）， Studies in Inductive Logic and Probability， Vol.Ⅰ， Berkeley： University of California Press， 1971， parts 4 and 5。

現(xiàn)在，如果查理和露西有這么多認(rèn)知理性和行動理性，如果原初博弈恰好有一個均衡點包括查理的（混合的或純粹的）策略S1和露西的策略S2，那么我們有：對每個a∈A1，查理在所描述的博弈過程中選擇a的相對頻率收斂于a在S1中出現(xiàn)的概率。這同樣適用于露西。由此，查理也傾向于發(fā)展關(guān)于露西的適當(dāng)信念（3），反之對露西也是同樣。④所有這些都容易被證明；羅賓遜關(guān)于布朗—羅賓遜過程的證明只不過拓展了我們稍微自由化的版本。如果應(yīng)該有超過一個的均衡點，那么一個更加復(fù)雜但相當(dāng)令人滿意的命題就是真的。參見J. Robinson， “An Iterative Method of Solving a Game”， pp.296—301。然而，與布朗—羅賓遜過程相反的是，這里關(guān)于收斂比率沒什么可說，因為賴欣巴哈公理關(guān)于收斂比率沒有假設(shè)任何東西。因此，在給定的具體情形中，這個理論滿足了我們在前面討論中產(chǎn)生的所有要求。

再重復(fù)一遍，我關(guān)于這個（數(shù)學(xué)上簡單明了的）布朗—羅賓遜過程的自由化版本中的觀點，不是要提醒我們像布朗—羅賓遜觀點的直觀吸引力這樣的東西；那是多余的。相反，如果我們想要為（3）（ 6）和（9）這樣的認(rèn)知前提找到合理的理論根據(jù)，就必須要講一些這樣的理論；而如果這些前提是無懈可擊的，反過來，它們就必定包含在博弈論的理論化之中。之所以是這樣，因為只有這些關(guān)于博弈學(xué)習(xí)過程的理論才能夠提供一種把認(rèn)知上理性的局中人導(dǎo)向（3）（ 6）和（9）等信念證據(jù)的理論解釋——正如我論證過的那樣，這種證據(jù)不可能在給定的博弈情境中獨自發(fā)現(xiàn)。

有人可能反對說，有很多方式可以達到信念（3）（ 6）和（9）——最簡單的方式是一個顧問式博弈理論家（也許通過敘述第三節(jié)的標(biāo)準(zhǔn)理論）告訴局中人要做什么和信什么，并且局中人也相信他。當(dāng)然，這是可能并且經(jīng)常走的一條路。但這對博弈理論家沒有絲毫幫助：首先，他不想要將他的理論限制在受他啟發(fā)的人們上；其次，它肯定根本沒有任何關(guān)于他和局中人之間交際的交流理論，即沒有關(guān)于這種達到信念（3）（ 6）和（9）的方法的理論。

另一方面，必須承認(rèn)的是，博弈學(xué)習(xí)過程理論的前景還未成形。布朗—羅賓遜過程及其自由化是良好的典范，但它幾乎沒有擴展到兩人零和博弈之外的范圍。①參見J. Rosenmüller， “über Periodizit?tseigenschaften spieltheoretischer Lernprozesse”， Zeitschrift für Wahrscheinlichkeitstheorie， Vol.17， No.4， 1971， pp.259—308。不過，布朗—羅賓遜過程的假設(shè)卻相當(dāng)差；在那里我們的查理和露西甚至沒有被當(dāng)作真正的博弈論主體來看待，因為根據(jù)這些假設(shè)，他們每個人都必須把他人看作某種不規(guī)則的骰子，它以這面或那面朝上落地的傾向必須被發(fā)現(xiàn)。因此，自然的觀點是通過把查理和露西看作博弈論主體，即通過讓他們知道其他人的效用并讓他們對其他人的認(rèn)知狀態(tài)進行理論化，來豐富博弈學(xué)習(xí)過程的假設(shè)。無論這樣的假設(shè)是否會在更一般的博弈而非僅僅兩人零和博弈中使博弈學(xué)習(xí)過程得到想要的結(jié)果，這都是一個非常開放的問題。

總而言之，沒有更為具體的結(jié)果，但至少一般的寓意可從前面的討論中得出。嚴(yán)格區(qū)分行動理性和認(rèn)知理性。如果你關(guān)心的是行動理性，那么就為你的對象設(shè)計完全決策模型，并通過預(yù)期效用最大化規(guī)則來確定理性行動；如果僅僅這些不能使你滿意，如果你要尋找一些對寫入決策模型的認(rèn)知假設(shè)的解釋，那就盡可能根本地并且盡可能廣泛可接受地嚴(yán)格堅持認(rèn)知理性的一些規(guī)則。否則，就會有理論上和根基上混亂的危險。②衷心感謝萊因哈德·澤爾騰教授的鼓勵和合理的懷疑態(tài)度，感謝烏爾里克·哈斯和安德雷斯·科莫林的促成和安排，感謝克拉拉·塞內(nèi)卡對我的英文的核對，感謝《理論與決策》的全體成員，因為它向我表明這篇文章對一些人而言可能是值得一讀的。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

怎樣理解博弈論①

一、對現(xiàn)狀的不滿

二、怎樣理解博弈論

三、怎樣沒有理解博弈論

（一） 標(biāo)準(zhǔn)理論

（二） 評論

四、怎樣理解博弈論（續(xù)）