許安拓
編者的話
2012年10月15日晚,瑞典皇家科學(xué)院將本年度諾貝爾經(jīng)濟(jì)學(xué)獎再次授予博弈論的理論研究和實踐運(yùn)用者羅伊德·沙普利與埃爾文·羅斯,使得這一理論學(xué)派第六次折桂諾獎。博弈論為何如此受青睞?在其演變進(jìn)程中,有何創(chuàng)新和發(fā)展?這個被學(xué)者稱為“研究互動決策”的理論,在現(xiàn)實中是如何運(yùn)作的?以博弈論的視角去觀察現(xiàn)實生活中的經(jīng)濟(jì)、政治、社會、軍事、外交等現(xiàn)象,會有什么不一樣的發(fā)現(xiàn)?它可以為決策者提供怎樣的應(yīng)對復(fù)雜問題和治理危機(jī)的方法?博弈論思想及其研究對于實踐中諸多“怎么看”和“怎么辦”問題的解決不無啟發(fā)。
博弈論的原理
博弈論又被稱為對策論,它本是現(xiàn)代數(shù)學(xué)的一個新分支,也是運(yùn)籌學(xué)的一個重要組成部分。按照2005年因?qū)Σ┺恼摰呢暙I(xiàn)而獲得諾貝爾經(jīng)濟(jì)學(xué)獎的Robert Aumann教授的說法,博弈論就是研究互動決策的理論。
一般而言,博弈論的基本要素有五個:決策人,就是在博弈中率先作出決策的一方,其往往依據(jù)自身的感受、經(jīng)驗和表面狀態(tài)優(yōu)先采取一種有方向性的行動,如博弈中先下棋或先出牌的一方;對抗者,在博弈對局中行動滯后的那個人,與決策人要作出基本反面的決定,并且他的動作是滯后的、默認(rèn)的、被動的;局中人,在一場競賽或博弈中,每一個有決策權(quán)的參與者成為一個局中人,只有兩個局中人的博弈稱為“兩人博弈”,而多于兩個局中人的博弈則稱為“多人博弈”。策略:一局博弈中,每個局中人都有選擇實際可行的完整的行動方案,如果在一個博弈中局中人有有限個策略,則稱為“有限博弈”,否則稱為“無限博弈”;勝負(fù)得失,一局博弈結(jié)局時的結(jié)果稱為得失。每個局中人在一局博弈結(jié)束時的勝負(fù)得失,不僅與該局中人自身所選擇的策略有關(guān),而且與全局中人所取定的一組策略有關(guān)。
博弈的類型基本分為四種:合作博弈,研究人們達(dá)成合作時如何分配合作得到的收益;非合作博弈,研究人們在利益相互影響的局勢中如何選擇決策使自己的收益最大,即策略選擇問題;完全信息或不完全信息博弈,參與者對所有參與者的策略空間及策略組合下的支付有充分了解稱為完全信息,反之,則稱為不完全信息博弈。靜態(tài)博弈和動態(tài)博弈,研究外在條件不變或變動時博弈得失。
博弈論思想發(fā)展及成果
最早的博弈論思想及專著可以追溯到我國古代的《孫子兵法》,它雖然沒有用數(shù)學(xué)的方法量化分析博弈各方的實力對比,但它已經(jīng)清楚、全面、多視角地闡述了博弈的基本原理、過程以及可能的結(jié)果,其典型案例就是春秋時代的“田忌賽馬”。直到1928年馮·諾依曼將其系統(tǒng)化、理論化,宣告了博弈論作為一門科學(xué)的正式誕生。1944年,馮·諾依曼和奧斯卡·摩根斯特恩共著的《博弈論與經(jīng)濟(jì)行為》又將兩人博弈推廣到多人博弈結(jié)構(gòu),并將博弈論系統(tǒng)應(yīng)用到經(jīng)濟(jì)領(lǐng)域。他們第一次提出的標(biāo)準(zhǔn)型、擴(kuò)展型和合作型博弈模型解的概念和分析方法,奠定了這門學(xué)科的理論基礎(chǔ)。
合作型博弈在20世紀(jì)50年代達(dá)到了巔峰期。然而,隨著時間推移,其局限性也日漸顯露出來:主要是因為其理論和近乎純數(shù)學(xué)的研究方法過于抽象,大大地限制了博弈論在現(xiàn)實中的應(yīng)用范圍,在相當(dāng)長的時間里,博弈論只是少數(shù)數(shù)學(xué)家圈內(nèi)的游戲,大眾對博弈論的研究也知之寥寥,其影響力當(dāng)然就十分有限了。
直到20世紀(jì)50年代初約翰·福布斯·納什利用不動點定理證明了均衡點的存在,為博弈論的一般化奠定了堅實的基礎(chǔ)。納什的開創(chuàng)性博士論文《n人博弈的均衡點》(1950)、《非合作博弈》(1951),給出了納什均衡的概念和均衡存在定理??梢哉f,正是由于“納什均衡”的出現(xiàn),才使得博弈論從合作博弈發(fā)展到了非合作博弈,并宣告了博弈論經(jīng)濟(jì)學(xué)應(yīng)用新時代的開端。
此后,博弈論在塞爾頓、哈桑尼等人的研究和推動下取得了進(jìn)一步發(fā)展。到20世紀(jì)70年代,博弈論被納入到主流經(jīng)濟(jì)學(xué)的教科書和研究著作之中。目前,博弈論在納什和沙普利的研究基礎(chǔ)上分別向兩個不同方向展開:非合作博弈和合作博弈。
非合作博弈強(qiáng)調(diào)個體理性,主要研究在信息不對稱條件下市場機(jī)制如何發(fā)揮其效率,納什均衡就是其中最重要的代表,納什均衡描繪出博弈中這樣的局面:對于每個參與者來說,只要其他人不改變策略,他就無法改善自己的狀況。納什證明了在每個參與者都只有有限項策略選擇、并允許混合策略的前提下,納什均衡一定存在。“納什均衡”從本質(zhì)上挑戰(zhàn)了傳統(tǒng)經(jīng)濟(jì)學(xué)的根基,他對亞當(dāng)·斯密的“看不見的手”的原理提出了質(zhì)疑:即按照斯密的理論,在市場經(jīng)濟(jì)中,每一經(jīng)濟(jì)人只要從利己的目的出發(fā),最終就可以在全社會達(dá)到利他的效果。但是從“納什均衡”中卻引出了“看不見的手”原理的一個悖論:即納什均衡不一定是帕累托最優(yōu),從利己目的出發(fā),結(jié)果是損人不利己,既不利己也不利人。這一發(fā)現(xiàn)使得納什均衡理論成為奠定現(xiàn)代主流博弈理論和經(jīng)濟(jì)理論的根本基礎(chǔ),正如克瑞普斯在《博弈論和經(jīng)濟(jì)建?!罚?990)一書的引言中所說:“在過去的一二十年內(nèi),經(jīng)濟(jì)學(xué)在方法論以及語言、概念等方面,經(jīng)歷了一場溫和的革命,非合作博弈理論已經(jīng)成為范式的中心……”這種非合作博弈所得出的數(shù)學(xué)解即為“納什均衡”,它主要解決了博弈各方如何合作才能“互不吃虧”的問題,但難以解決如何才能達(dá)到彼此共贏的局面。
合作博弈是在強(qiáng)調(diào)集體精神和團(tuán)體理性的基礎(chǔ)上,通過合作、聯(lián)盟或妥協(xié)的方法,使得博弈雙方的利益都有所增加,或者至少是一方的利益增加,而另一方的利益不受損害,因而整體利益有所增加。妥協(xié)(聯(lián)盟、合作)之所以能夠增進(jìn)妥協(xié)雙方以及整體利益的關(guān)鍵就在于合作博弈能夠產(chǎn)生一種合作剩余。這種剩余就是從這種妥協(xié)或聯(lián)盟關(guān)系和方式中產(chǎn)生出來的,且以此為限。至于合作剩余在博弈各方之間如何分配,則取決于博弈各方的力量對比和技巧運(yùn)用。因此,妥協(xié)必須經(jīng)過博弈各方的討價還價,達(dá)成共識,進(jìn)行合作。然而妥協(xié)博弈后的雙方利益又將如何獲得?或者說,如何在雙方繼續(xù)獲益或至少一方不受損失的條件下延續(xù)這種聯(lián)盟或妥協(xié)呢?長期以來,經(jīng)濟(jì)學(xué)家對求解這種多重理性常常陷入困惑之中并敬而遠(yuǎn)之。而沙普利的研究成果使得合作博弈在理論和現(xiàn)實運(yùn)用上取得了重大突破。正是基于此,它與零和博弈相比是一種正和博弈,合作剩余的分配既是妥協(xié)的結(jié)果,又是達(dá)成妥協(xié)的條件。這種思想在解決當(dāng)今國際、國內(nèi)現(xiàn)實中存在的許多政治、經(jīng)濟(jì)、社會矛盾上都有著極強(qiáng)的理論指導(dǎo)意義。
1952年,沙普利在解決諸多理性人的博弈決策中引入了一個“核”的概念,并將其發(fā)展為合作博弈的一般利益分配集合一種所有成員均無法提升自身效用的穩(wěn)定聯(lián)盟狀態(tài)。由于“核”這個概念不能給出聯(lián)盟內(nèi)成員效用分配的唯一預(yù)測,翌年,沙普利進(jìn)一步在合作博弈框架中加入了一些著眼于“公平”分配合作利益的公理。沙普利首先對“公平”、“合理”等概念給予了嚴(yán)格的公理化描述,然后尋求是否有滿足人們想要的那些公理的解。當(dāng)然,如果對一個解的性質(zhì)或公理要求太多,則這樣的解可能不存在;另一方面,如果這些性質(zhì)或公理要求得少,則又可能有許多解,即解存在但不唯一。
他證明在這些公理的約束下,存在唯一的效用分配方案,這就是沙普利值。沙普利值是根據(jù)各人給聯(lián)盟帶來的增值來分配,在直觀上是所有邊際貢獻(xiàn)的平均值。沙普利值計算方法簡單,而且能得到合作博弈的唯一解,使用較為廣泛。到目前為止這個解仍然是合作博弈領(lǐng)域內(nèi)最重要的結(jié)果之一。不僅如此,沙普利的工作具有方法論上的重要意義,他的公理化方法使我們可以研究討論合作博弈中其他各種各樣的解。
沙普利本人正是該技術(shù)最好的應(yīng)用者。他與舒比克發(fā)表了一篇著名的論文《委員會制度下的權(quán)利分配評價方法》,后來稱之為沙普利—舒比克權(quán)力指數(shù)。當(dāng)時他們將沙普利值引入投票機(jī)制,評價了委員會制度的權(quán)力分配體系。目前,這一指數(shù)已廣泛地應(yīng)用于公司金融領(lǐng)域,反映了股權(quán)對公司決策的影響力,能夠客觀地度量某股東或某些股東對股份制公司的控制力。
傳統(tǒng)經(jīng)濟(jì)學(xué)中,通過價格調(diào)整可以實現(xiàn)供需平衡。然而,在一些特殊市場中,價格不能用作配置資源的手段,資源只能以分配或配給方式加以配置。這就為合作博弈提供了廣闊的空間,當(dāng)今世界由于在解決各類資源共享問題上沖突不斷,合作博弈以其獨特的配置方法解決了一系列資源共享中的匹配難題而在經(jīng)濟(jì)學(xué)中的地位與日俱增。尤其是在解決具體微觀問題的配置方法上旨在尋找穩(wěn)定解,即保證每一個配對都是穩(wěn)定的,在匹配市場上沒有剩下彼此愿意與對方組對,但卻沒有被市場允許的一對人,同時,已組對的人對自己的隊友應(yīng)該是滿意的。這不僅形成了基于經(jīng)典博弈的研究范式體系,擴(kuò)展了傳統(tǒng)經(jīng)濟(jì)學(xué)研究問題的范圍,改變了傳統(tǒng)經(jīng)濟(jì)學(xué)的體系和結(jié)構(gòu),沖擊了傳統(tǒng)主流經(jīng)濟(jì)學(xué)的許多觀點,還拓展和加強(qiáng)了經(jīng)濟(jì)學(xué)與其他社會科學(xué)、自然科學(xué)的聯(lián)系。尤其在現(xiàn)實運(yùn)用中更是隨處可見。
博弈論的現(xiàn)實運(yùn)用
博弈論自1994年授予納什均衡理論以來,至今已有6次獲諾貝爾經(jīng)濟(jì)學(xué)獎。它深刻地改變了經(jīng)濟(jì)學(xué)項下各子學(xué)課的內(nèi)容和研究方法,同時在經(jīng)濟(jì)學(xué)領(lǐng)域外的政治學(xué)(國內(nèi)以及國際)、軍事戰(zhàn)略學(xué)、進(jìn)化生物學(xué)以及計算機(jī)科學(xué)等領(lǐng)域都已成為重要的研究和分析工具。不僅如此,它還與會計學(xué)、統(tǒng)計學(xué)、社會心理學(xué)以及諸如認(rèn)識論、倫理學(xué)等哲學(xué)分支有著重要的聯(lián)系,尤其在局部簡單的資源配置實踐上常常能達(dá)到甚佳的效果。例如,2012年的諾貝爾經(jīng)濟(jì)學(xué)得主之一—羅斯的“全國住院醫(yī)生配對程序”就是一個將沙普利的博弈理論應(yīng)用于醫(yī)學(xué)院畢業(yè)生分配到醫(yī)院的住院實習(xí)醫(yī)師系統(tǒng)的較好的現(xiàn)實案例。他確定了這個系統(tǒng)可以形成“穩(wěn)定匹配”;他還幫助重新設(shè)計了現(xiàn)存的器官捐贈者和接受者之間進(jìn)行配對的一些制度,極大地優(yōu)化了資源配置,盡可能拯救了更多的生命。這些案例對當(dāng)今我國解決一些現(xiàn)實的局部矛盾如初高中學(xué)生擇校難、制度腐敗、工資協(xié)商等問題都有積極的理論指導(dǎo)和借鑒意義。
十八大報告中,我黨提出的“五位一體”的治國理念涵蓋了生態(tài)文明建設(shè)。我們就可以運(yùn)用博弈論的基本原理來治理生態(tài)污染:當(dāng)前各地環(huán)境污染嚴(yán)重,政府監(jiān)管乏力,企業(yè)為了追求利益的最大化,寧愿以犧牲環(huán)境為代價,也不愿主動增加環(huán)保設(shè)備投資。如果按照傳統(tǒng)的經(jīng)濟(jì)學(xué)理論:所有企業(yè)都從利己的目的出發(fā),采取不顧環(huán)境的策略,就可進(jìn)入“納什均衡”狀態(tài)。如果一個企業(yè)從利他的目的出發(fā),投資治理污染,而其他企業(yè)仍然不顧環(huán)境污染,那么這個企業(yè)的生產(chǎn)成本就會增加,價格就要提高,它的產(chǎn)品就沒有競爭力,甚至企業(yè)還要破產(chǎn)。這就是一個“看不見的手的有效的完全競爭機(jī)制”失敗的例證。直到現(xiàn)在,這種遍地污染的局面仍然未見改善。因此,我們可以應(yīng)用博弈論的基本原理,強(qiáng)化政府監(jiān)管,加大污染管制,大幅提高污染企業(yè)的交易成本,唯此,這些企業(yè)才會采取低污染的策略組合。認(rèn)識到合作博弈的重要性,積極采取治理污染的措施,可獲得與高污染同樣的利潤,但環(huán)境將會變得更好。
我們也可以用博弈論來理解當(dāng)前國際關(guān)系中的一些爭端。2012年9月11日,日本政府不顧中方多次反對,與所謂的土地所有者簽訂“購島”合同,企圖用偷梁換柱的方式竊取釣魚島,隨即釣魚島爭端惡化成了危機(jī),博弈各方都相繼登場。從表面上看,釣魚島爭端可以簡單地視為中日之間的“兩人博弈”,但將其置于整個國際大背景下,即呈現(xiàn)出一種有限、動態(tài)的非合作博弈,其復(fù)雜程度絕非可以用一個模型或是某種算法所能解釋清楚的。說它是有限博弈,是指其局中人的策略有限,即無外乎戰(zhàn)、和、抗三種狀態(tài);說其動態(tài),因為各方的國內(nèi)國際政治、經(jīng)濟(jì)、社會生態(tài)都處在不斷變動之中,而這些變量的不同走勢都會直接影響到島爭的結(jié)局;說它非合作,是指各方在博弈中都希望獲取自身收益的最大,其策略選擇呈現(xiàn)出非合作性;最后是復(fù)雜的“多人博弈”,從最少的中日雙方,到中日美臺四方,再到更大范圍內(nèi)的俄羅斯、歐盟、南亞、中東等諸多的直接或間接利益相關(guān)者,他們也都會借此中日島爭涉入局中以博得自身利益的最大化或至少分得由此產(chǎn)生的“湯羹”。在如此復(fù)雜多變而且信息又不對稱的博弈中只能從博弈的基本理論和思想出發(fā),精算推理出一個大致的結(jié)果,絕不可能用靜態(tài)的模型或是數(shù)學(xué)的方法得出一個多贏的局面。
日本政府鑒于多次在釣魚島問題博弈上將中方以“和為貴”及“睦鄰富鄰安鄰”的和平外交政策為軟弱可欺,首先用“購島”的方法選擇了“單方對抗”,它希望通過“試應(yīng)手”(圍棋博弈術(shù)語)的方法讓中方選擇忍辱負(fù)重式地“單方合作”,那日本單方收益將大勝,中方大負(fù);沒想到日方誤判形勢,低估了中方捍衛(wèi)國家領(lǐng)土的決心,隨即中方也被迫選擇“對抗”的方式以抵減“受騙支付”的損失,中方的選擇要讓日方意識到在反復(fù)博弈中只有選擇“合作博弈”的方式才能最終讓雙方脫離困境。因此,日方必須清醒地認(rèn)識到,只有從大局出發(fā),承認(rèn)爭議、回到談判合作的道路上來才是雙贏的博弈結(jié)局。它也生動地說明了:在非零和博弈中,帕累托最優(yōu)和納什均衡是相沖突的。
但是我們也應(yīng)該看到,博弈論的實際運(yùn)用需要很多嚴(yán)格的條件限制,而對于復(fù)雜系統(tǒng)而言,其約束條件常常難以滿足,再加上人為的主觀因素和信息的不對稱性,如果機(jī)械地照搬模型,在現(xiàn)實中可能會適得其反。雖然我們不能將復(fù)雜現(xiàn)實情況的博弈完全基于數(shù)理模型之上,但其對微觀事物的決策動機(jī)、博弈參與者變量之間的相互作用及其演變過程的推理分析都有極強(qiáng)的現(xiàn)實運(yùn)用價值,在這方面與傳統(tǒng)經(jīng)濟(jì)學(xué)研究的方法論、思維范式以及決策統(tǒng)籌的現(xiàn)實運(yùn)用相比,突破了零和博弈的局限,尤其是在雙贏或多贏博弈結(jié)果的達(dá)成與分析上,更能迎合當(dāng)今國際、國內(nèi)經(jīng)濟(jì)和社會發(fā)展以及戰(zhàn)略對抗的潮流。
(作者為財政部財政科學(xué)研究所研究員、研究生部教授)