在非合作的前提下能使參與博弈各方實現(xiàn)共贏,這實在是對人類智慧的考驗。在這方面取得非凡成就的奧曼與謝林獲得諾貝爾經(jīng)濟(jì)學(xué)獎,正是對人類自身智慧進(jìn)步的肯定
博弈論試圖在人類各種利害沖突中通過某種機(jī)制而實現(xiàn)共贏。這種共贏機(jī)制可以是合作博弈,也可以是非合作的博弈。在非合作的前提下,參與博弈的雙方乃至多方實現(xiàn)共贏,這實在是對人類智慧的考驗。這種智慧實在太過稀缺。因此,諾貝爾經(jīng)濟(jì)學(xué)今年垂青于在這一領(lǐng)域貢獻(xiàn)非凡的兩位學(xué)者——羅伯特奧曼(Robert Aumann)與托馬斯謝林(Thomas Schelling),實在是對人類自身智慧進(jìn)步的肯定。
謝林:真實世界的博弈
奧曼與謝林分別是在兩條截然不同的道路上尋找化解沖突、實現(xiàn)和諧的機(jī)制的:數(shù)學(xué)家奧曼一生處于象牙塔里,而謝林則是在參與戰(zhàn)后馬歇爾重建歐洲計劃、白宮事務(wù)、蘭德公司軍備競賽研究課題等一系列實踐中,通過對真實世界的觀察,而形成其睿智思想與敏銳目光的。
謝林在美國經(jīng)濟(jì)學(xué)界屬于元老級的經(jīng)濟(jì)學(xué)家,盡管他一直聲稱自己是一個“不安分的經(jīng)濟(jì)學(xué)家”。與他同代的托賓、索羅早就獲得了諾貝爾獎,他的學(xué)生斯賓塞(Spence)也于2001年獲得諾獎。事實上,無論是托賓、索羅,還是薩繆爾遜,都對謝林表示心悅誠服。
托賓曾經(jīng)寫過,在哈佛與謝林同學(xué)的歲月里,“謝林總是比其他同學(xué)和教授在知識的廣度上要勝出幾個檔次,在見地上深出若干層次。”2001年諾獎得主斯賓塞更是表示,自己于上個世紀(jì)70年代初從事信號博弈與細(xì)分(Sorting)策略研究,是在午餐桌上通過與謝林的對話得到靈感的。謝林問過他,世界上何以“物以類聚、人與群分”?為什么在加州的海灘,喜歡沖浪的人與喜歡游泳的人是不同的人群?這一連串問題,實質(zhì)上點出了這個真實世界里人群細(xì)分背后的機(jī)制。因為,事實上,沒有細(xì)分,企業(yè)就無從進(jìn)行市場定價。
謝林從事經(jīng)濟(jì)學(xué)研究要早于奧曼。值得注意的是,盡管謝林是在1951年才獲哈佛大學(xué)經(jīng)濟(jì)學(xué)博士,卻早在1946年起就在《Econometrica》(經(jīng)濟(jì)計量)等頂尖雜志上發(fā)表論文了,這是當(dāng)時有二戰(zhàn)背景的研究生的特點之一——獨立研究能力超強(qiáng)。1956年以前,他的研究方法基本上是遵從主流的傳統(tǒng)道路的,研究重點在收入分配與國際經(jīng)濟(jì)學(xué)。但在這兩個領(lǐng)域,謝林也顯現(xiàn)出以后研究化解沖突機(jī)制的端倪。
比如他主張,為了化解沖突,就有必要使沖突中的獲勝方受點損失,有時甚至可以“把面包扔到河里去”,看似浪費,其實會最終大贏:給工人加工資,最后會提高企業(yè)利潤,增加一國國民收入水平。在國際經(jīng)濟(jì)學(xué)的研究中,謝林十分關(guān)心對外援助談判中的成本分擔(dān)問題。
謝林正式轉(zhuǎn)向現(xiàn)代博弈中的沖突化解機(jī)制的研究是在1956年。這一年,他在《美國經(jīng)濟(jì)評論》上發(fā)表《論談判》,開始把50年代剛剛發(fā)展起來的博弈論運(yùn)用到研究人類各類沖突及其化解的過程中去。之后,于1960年出版《沖突的策略》、1966年出版《軍備及其影響》,1978年出版《微觀動機(jī)與宏觀行為》等書,奠定了自己在經(jīng)濟(jì)學(xué)、政治學(xué)、社會學(xué)、心理學(xué)中運(yùn)用與推廣博弈論的學(xué)術(shù)地位。
形成于上個世紀(jì)40-50年代的博弈論的重要成果是納什均衡(納什本人已于1994年獲諾貝爾獎)。但是,納什均衡可能是好的,也可能是兩敗俱傷的。理論經(jīng)濟(jì)學(xué)對如何實現(xiàn)好的納什均衡機(jī)制的探討,主要是由奧曼推進(jìn)的,但謝林在實踐上卻早于經(jīng)濟(jì)學(xué)理論界,獨立開始對化解沖突的機(jī)制的追尋。
謝林的這種研究有兩個背景:一是美蘇的冷戰(zhàn)背景。謝林于1957-1958年進(jìn)入蘭德公司,專門從事美蘇的軍備競賽與冷戰(zhàn)策略。二是在60至80年代任哈佛大學(xué)肯尼迪政府學(xué)院院長期間,他與未來的白宮官員之間非純粹思辨式的教學(xué)實踐。他的這些學(xué)生要求教學(xué)必須是實戰(zhàn)式的,且證據(jù)確鑿。正是在這樣鮮明的實踐背景下,謝林獨到地提出了一系列在沖突中實現(xiàn)協(xié)調(diào)、尋求沖突雙方或各方利益極大化的理論見解與政策主張:
——談判本質(zhì)上是非零和的。任何基于沖突的談判,若談判失敗,則雙方都會受損;任何通過談判達(dá)到的協(xié)議對雙方來說都會比未達(dá)成協(xié)議要好一些。
——讓步是談判達(dá)成共贏必不可少的,任何一方的過于強(qiáng)勢都不是最優(yōu)策略。謝林討論過兩國軍事對抗的例子。若一國先動員軍隊進(jìn)入戰(zhàn)備,另一國不動員戰(zhàn)備,則先動員一方得益為a,不動員的國家得益為c;若兩國都動員軍隊,雙方劍拔弩張,則每國得益都為0;若兩國都休戰(zhàn),則雙方各得b。這里,a>b>c>0。顯然,如寫成“2×2” 矩陣,這里有三個納什均衡:(c,a),(a,c)與混合策略均衡。而在混合策略均衡中動員軍備的均衡概率P= 。謝林敏銳地指出,“c”是對方在我方先發(fā)制人時的得益,但這里,為了讓先發(fā)制人方降低動武的概率P,也需要提高對方的得益“c”。而“提高c”就是先發(fā)制人一方對對方的讓步!
——“二次打擊力”的保存才是化干戈為玉帛的機(jī)制。在軍備競爭時,只要每一方都可以生存得足夠的長,即每一方只要在遭受敵方第一次襲擊后有“還手”的能力,而且這種“二次打擊”能力足夠以致先進(jìn)攻方于死地,則這個仗就不會打起來。因此,一國的生存戰(zhàn)略的要義是隱蔽自己的武庫,而不是隱蔽自己的人口。
——有條件承諾強(qiáng)勢戰(zhàn)略要優(yōu)于無條件采取強(qiáng)勢戰(zhàn)略。在前述例子中,若一國宣稱自己在任何情況下都采取先發(fā)制人的策略,這樣戰(zhàn)爭、沖突就無法避免。相反,若一方只是承諾,當(dāng)對方采取“戰(zhàn)備”時我才戰(zhàn)備,則雙方就不至于無條件選擇戰(zhàn)備,這樣,就有可能實現(xiàn)雙方都克制的(b,b)狀態(tài)。謝林以此論證道,有時,溫和優(yōu)于強(qiáng)勢。
——實施報復(fù)的成本越低,則沖突越是不易形成。謝林主張漸進(jìn)式地,一步步走向與對方的公開沖突。這就是說,即使真的要進(jìn)行戰(zhàn)爭,也應(yīng)該讓戰(zhàn)爭逐次升級,因這樣每一步投入的成本都比較小。而且,由于沖突是逐漸升級的,所以國內(nèi)反對沖突升級的力量也較易于制止沖突的升級,這就會降低公開沖突發(fā)生的概率。
——人與人的隔閡、分離與孤立起源于人類偏好的二重性。人與人的沖突往往起源于個人與他人之間的缺乏溝通。但每個人的偏好都有兩面性,如同一枚硬幣有正面與背面,一個人選擇居住地、進(jìn)入公司,與鄰居與同事的偏好完全一致的概率是極低的,有時會突然發(fā)現(xiàn)自己被擲于一個與自己格格不入的環(huán)境里。這種個人偏好二重性顯現(xiàn)出來的文化隔離,在宏觀上會嚴(yán)重妨礙和諧實現(xiàn)。但是,謝林強(qiáng)調(diào),“如果我們真的追求和諧,則就可能實現(xiàn)和諧”。和諧不是自發(fā)形成的,而需要一種共識,成為個體行為的焦點,才可能真的達(dá)到和諧。
如是者還可以列出許多,謝林的上述理論無疑提出了實現(xiàn)沖突化解的機(jī)制。其在商業(yè)上與政治上有廣泛的應(yīng)用。
奧曼:從重復(fù)博弈到相關(guān)均衡
與謝林不同,奧曼是一位純粹理論經(jīng)濟(jì)學(xué)家。奧曼于1955年獲美國麻省理工學(xué)院數(shù)學(xué)博士,現(xiàn)任教于以色列希伯萊大學(xué)理性研究中心。奧曼獲數(shù)學(xué)博士時,正是博弈論方興未艾之際,他將這以后50年的時間都貢獻(xiàn)于尋找避免“囚徒困境”式的壞的納什均衡的機(jī)制,實際上是從理論上探索協(xié)調(diào)人類利益沖突,增進(jìn)社會福利的道路。由于奧曼的探索,現(xiàn)代博弈論才形成了下述進(jìn)展:
——重復(fù)博弈。奧曼在1959年的論文中指出,人與人的長期交往是避免短期沖突、走向協(xié)作的重要機(jī)制。他嚴(yán)密地證明了,在較長的視野內(nèi),人與人交往關(guān)系的重復(fù)再現(xiàn)本身,就可能走出兩敗俱傷的“囚徒困境”。其充分條件是設(shè)置嚴(yán)格的懲罰背信棄義行為的機(jī)制。重復(fù)博弈強(qiáng)調(diào)契約的長期性對于糾正人們短期行為的意義,這在日常生活里是具普遍性的。中國農(nóng)民對土地的經(jīng)營權(quán)一定15年不變,后又延長至30年,其意義就在于加強(qiáng)了長遠(yuǎn)利益對于眼前行為的約束與激勵。
——β-核概念。納什均衡只討論博弈中一個人偏離的可能以及防止這種個別人背離行為的條件。在重復(fù)博弈的框架下,就可以討論群體行為中防止一部分人偏離均衡的條件。當(dāng)社會中不存在任何一部分人獲得更高得益的可能時,這就形成了“β-核”。
——重復(fù)博弈中的信息披露策略選擇。博弈的參與人對信息的掌握通常是不對稱的,如博弈只發(fā)生一次,則無疑具有信息優(yōu)勢的人會獲得信息租;但如果博弈是重復(fù)進(jìn)行的,則今天利用信息尋租者必定會在尋租過程中泄露其所擁有的信息。時間久了,信息不對稱程度就會減輕,這又是重復(fù)博弈之所以會改進(jìn)資源配置狀態(tài),使人與人的關(guān)系走向和諧的原因。
——無窮次重復(fù)博弈框架下談判解的立即達(dá)成性質(zhì)。奧曼與夏普利在1976年證明了,兩人為分一塊餅而討價還價,這個過程初一看是可以無限期地談下去的,但是,只要沒有一個人有動機(jī)偏離對偏離者實施懲罰的機(jī)制,沒有一個人去偏離對偏離了“對偏離者實施打擊”的軌道的人實施懲罰的機(jī)制,并且這種懲罰鏈不中斷,則無限期討價還價的談判在今天就會達(dá)成均衡解而結(jié)束談判。因此,任何馬拉松式的談判一輪輪拖而未果的原因只在于,參與談判的雙方還未就懲罰背離行為的機(jī)制與每方對未來利益的折現(xiàn)因子達(dá)到共識。
——“共識”。人與人沖突的原因之一是相互猜疑。但是,一旦我知道你如何算計我,你知道“我知道你如何算計我”,我知道“你知道‘我知道…’”,這種“知道”的鏈延伸至參與博弈的全體成員,并且又延伸至博弈的無數(shù)個回合,則人們在一念之間就可能會停止相互猜疑與算計,立即達(dá)成和諧解。奧曼于1976年在其論文《對異議的同意》中正式提出了“共識”這一范疇,并證明,若博弈雙方對于某一事件的發(fā)生概率的評估存在共識,則該評估一定是相同的,而且這時主觀評估便在瞬間轉(zhuǎn)變?yōu)榭陀^概率。在金融市場上,這個洞見有著深刻的含義。其他經(jīng)濟(jì)學(xué)家們以此為基礎(chǔ)討論過金融危機(jī)與金融恐慌的傳導(dǎo)機(jī)制。
——“相關(guān)均衡”。人們之間爭斗以及由此造成的兩敗俱傷的根由之一是各人的行動策略都是相互獨立的。由于缺乏協(xié)調(diào),而失去了很多共贏機(jī)會。奧曼于1987年提出了“相關(guān)均衡”機(jī)制。所謂相關(guān)均衡是指,通過某種客觀的信號裝置以及當(dāng)事人對信號的反應(yīng),有可能使本來各自為政的個體行為之間相互發(fā)生關(guān)系,形成一種共贏的結(jié)果。交通口為什么要設(shè)置紅綠燈?為什么要下發(fā)中央文件?為什么要建設(shè)金融中介組織?為什么要有各種社會媒體與中介組織?這都可以從“相關(guān)均衡”的背景下得到解釋。
從重復(fù)博弈到相關(guān)均衡,這些抽象的概念無不對應(yīng)著如何從沖突中實現(xiàn)和諧的追求。這說明,最抽象的有時是最具體的,最模糊的有時是最清晰的,最簡單的有時是最豐富的,最抽象的有時是逼近現(xiàn)實的。這個世界充滿著沖突,人與人之間的關(guān)系,人與自然的關(guān)系都存在著這樣那樣的緊張感。但奧曼的理論告訴我們,“風(fēng)物長宜放眼量”,在較長期中,通過相互交往,人與人的和諧關(guān)系可能在漸進(jìn)、緩慢的過程中建立起來,從而改善我們身處的狀態(tài)。
作者為北京大學(xué)中國經(jīng)濟(jì)研究中心教授