●郝赪
辯訴交易的經(jīng)濟學視角分析
——兼論囚徒困境博弈與辯訴交易博弈之差異
●郝赪
如果對一個博弈的類型判斷錯誤,則會得到完全不同的均衡預測。辯訴交易中的博弈與囚徒困境中的博弈完全不同,這種不同表現(xiàn)在兩博弈的參與人不同、博弈類型不同、均衡狀態(tài)不同和結果不同。因此,用囚徒困境博弈模型去分析辯訴交易是不可能得出正確結論的,對辯訴交易結果的預測也是不符合實際的。
辯訴交易 囚徒困境 博弈 均衡
辯訴交易,原稱“plea bargaining”或“p lea negotiation”或“p lea agreement”,中國司法界一般理解為檢察官和被告人之間進行的一種認罪的討價還價行為,即在法院開庭審理前作為控訴方的檢察官和代表被告人的辯護律師進行協(xié)商,以檢察官撤銷指控、降格指控或者要求法官從輕判處刑罰為條件,來換取被告人的有罪答辯,進而雙方達成均可接受的協(xié)議。其主要內容包括三方面:一是“罪名的交易”,即檢察官以比本因指控的涉嫌罪名要輕的另一罪名來換取被告人認罪;二是“罪數(shù)的交易”,當被告人犯有數(shù)罪時,為爭取其認罪,檢察官將本應指控的數(shù)個犯罪改為僅指控其中的一個或幾個罪行;三是“刑罰的交易”,即檢察官允諾建議法官對被告人適用較低幅度的刑罰,以換取被告人的認罪。
基于以上制度內涵,就涉及到被告人即嫌疑犯何去何從的問題。對此,有些學者開始從經(jīng)濟學角度尋求答案。經(jīng)濟學有一個基本前提,即人都是理性的,理性人都是追求自身利益最大化的,也就是人們通常所說的“經(jīng)濟人”。從“經(jīng)濟人”假設前提出發(fā),運用經(jīng)濟學一個比較時新的工具,即“博弈論”,對被告人的選擇及其結果給出預測和分析,這就是辯訴交易的經(jīng)濟學解釋。但筆者發(fā)現(xiàn),人們通常用博弈論中最簡單的“囚徒困境”做為模型。其實囚徒困境中的博弈與辯訴交易中的博弈是完全不同的。這種差異通過詳細分析兩種博弈模型很容易被發(fā)現(xiàn)。
囚徒困境(prisoners’dilemma)是博弈論里最著名的例子。它的創(chuàng)造本身部分地奠定了非合作博弈論的理論基礎,而且它還是實際生活中許多現(xiàn)象的一個抽象概括。“囚徒困境”是指:兩個嫌疑犯作案后被警察抓住,并被分別關在不同的房間接受審訊,警察知道兩人有罪,但缺乏足夠的證據(jù),除非兩人當中至少有一個人坦白。警察告訴每個人:如果兩人都不承認,每人都以輕微的犯罪判刑一年;如果兩人都坦白,各判刑8年;如果兩人中一人坦白另一人抵賴,坦白的可以被釋放,抵賴的判刑10年。這樣,每個嫌疑犯均面臨四種可能的后果,如表1所示:
表1 囚徒困境博弈的支付矩陣
表1被稱為博弈論中的戰(zhàn)略式表述。戰(zhàn)略(strategy)是參與人在給定信息集的情況下的行動規(guī)則,它規(guī)定參與人在什么時候選擇什么行動。①如:囚犯A在坦白的時候,囚犯B選擇什么行動,這也是兩嫌疑犯的支付矩陣。所謂支付(pay off),在博弈論中是指在一個特定的戰(zhàn)略組合下參與人得到的確定效用水平,或是參與人得到的期望效用水平。①簡言之,就是參與人得到的好處或回報。如:囚犯A在坦白時,囚犯B坦白會得到什么,抵賴會得到什么。在這個博弈論中,每個囚徒都有兩種可能選擇的戰(zhàn)略,即坦白或抵賴,但支付矩陣說明,每個人都有四種可能的后果。表中第一個數(shù)字是對囚犯A的支付,第二個數(shù)字是對囚犯B的支付。對每個人來講,都有四種可能的結果:如兩人都坦白,各自獲得支付為-8;兩人都抵賴,各自支付為-1;如A坦白,B抵賴,A的支付為0(被釋放),B的支付為-10;如B坦白,A抵賴,B的支付為0,A的支付為-10。
作為經(jīng)濟人來講,當然A和B的選擇都是坦白,因為對于兩人來說,無論他人選擇什么戰(zhàn)略,自己的最優(yōu)選擇是唯一的,即坦白。這就是所謂占優(yōu)戰(zhàn)略(dom inant strategy)。但是這里有一個深刻的問題,很顯然,如果兩個人都選擇抵賴,各自的支付為-1,比都選擇坦白,各自的支付為-8要好。這里存在著一個帕累托改進,這說明整體理性優(yōu)于個體理性。但這個帕累托改進辦不到,因為經(jīng)濟人追求的是個人理性,這就是個人理性與集體理性的沖突與矛盾。這個沖突顯然對整個社會有好處,而對該集體的成員而言是一件壞事。
通過囚徒A與B的這種博弈,警察得到了事實真相,從而可以有效地懲罰犯罪。
辯訴交易是檢察官與嫌疑犯之間的博弈。盡管嫌疑犯可能有多個也可能僅一個,但這一點不影響分析。因此,這里分析僅有一個嫌疑犯的情況。
辯訴交易的典型案例是:一位富翁在家中被害,財物被盜,警察在偵破此案過程中抓住一個嫌疑犯,并在其住處發(fā)現(xiàn)了被害人家中的財物,但嫌疑犯否認殺人,只承認盜竊,而警察也沒有充足的殺人證據(jù)。在審判該嫌疑犯時,控訴方有兩種選擇:繼續(xù)偵查,搜集有力的殺人證據(jù),但這比較困難;或者提出與嫌疑犯進行交易,以某種讓步促使其主動坦白自己的犯罪事實。為了和上述表1比較,這里也采用戰(zhàn)略式表述方式,列出訴方和辯方的支付矩陣,如表2所示:
表2 辯訴交易博弈的支付矩陣
根據(jù)表2,在上述案例中,訴方有兩種選擇:追查下去,這需要花費大量成本,其支付為-10;如果選擇交易,不需再花費成本,其支付為0。對于辯方(嫌疑犯)而言,當訴方追查時,坦白比抵賴要好,坦白可從輕發(fā)落,獲得支付為-15,否則證據(jù)充分時還依然抵賴,獲得支付為-20,即獲刑比坦白時要重;而當訴方選擇交易時,由于訴方并不掌握充分證據(jù),抵賴部分罪行要比完全坦白好。正如本案例,嫌疑犯如果承認殺人事實,可能獲刑10年,即支付為-10;如果僅承認盜竊,而警方又沒有充分證據(jù)時,則僅獲刑5年。
結果,通過檢察官和嫌疑犯的博弈,檢方并不一定能得到事實真相,也不一定能有效地懲罰犯罪。
一般而言,博弈論的基本要素包括參與人、行動、信息、戰(zhàn)略、支付(效用)、結果和均衡。其中,參與人、戰(zhàn)略和支付是描述一個博弈所需的最少要素。而參與人、行動和結果統(tǒng)稱為博弈規(guī)則。博弈分析的目的是使用博弈規(guī)則預測均衡或結果。顯然,囚徒困境博弈與辯訴交易博弈中有多個要素存在不同。
(一)參與人不同
參與人(player),指一個博弈中的決策主體。他的目的是通過選擇行動(或戰(zhàn)略)以最大化自己的支付(效用)水平。①在囚徒困境博弈中,參與人是兩個嫌疑犯,是兩囚徒之間的博弈,他們各自揣度對方的行動,并根據(jù)自己的期望效用決定自己的行動,其目的都是試圖減輕自己的刑罰。而在辯訴交易博弈中,參與人是控訴方和被告人,即訴方與辯方。訴方目的是得到事實真相,懲治犯罪,而辯方目的是怎樣隱瞞真相,為自己開脫罪責,逃避懲罰。非常明顯,兩博弈模型中雙方參與人的效用目標完全相反。
(二)博弈類型不同
一般的非合作博弈類型有四種:完全信息靜態(tài)博弈、完全信息動態(tài)博弈、不完全信息靜態(tài)博弈和不完全信息動態(tài)博弈。
囚徒困境博弈屬于完全信息靜態(tài)博弈。完全信息指每一個參與人對所有其他參與人的特征、戰(zhàn)略空間及支付函數(shù)有準確的信息。這是博弈類型劃分的角度之一。角度之二,就是參與人行動是否有先后順序,據(jù)此又可分為靜態(tài)博弈和動態(tài)博弈。靜態(tài)博弈是指參與人同時選擇行動,或雖非同時,但后行動者并不知道前行動者采取了什么具體行動?!巴瑫r行動”是一個信息概念,而非時間概念,只要每個參與人在選擇自己的行動時不知道其他參與人的選擇,即稱他們在同時行動。完全信息靜態(tài)博弈是一種最簡單的博弈,囚徒困境博弈又是此類博弈中最典型的一例。很明顯,囚犯A和B都知道對方的特征是理性的,戰(zhàn)略空間是有限的,坦白或抵賴及支付函數(shù)是確定的,因為警察已明確地告知他們在不同戰(zhàn)略選擇下的支付(效用)。兩者都不知對方采取了什么行動。
不同的是,辯訴交易中的博弈則屬于完全信息動態(tài)博弈。動態(tài)博弈指參與人的行動有先后順序,且后行動者能觀察到前行動者所選擇的行動。在辯訴交易中,是檢察官首先行動并選擇交易,這就給嫌疑犯一個信息,即檢方并不掌握自己的全部犯罪證據(jù)。如果檢方完全掌握犯罪證據(jù),則沒有必要選擇交易。盡管這里的所謂“完全信息”并非“完美信息”,但也足以讓嫌疑犯對檢方的證據(jù)情況有些許了解。
用擴展式表述方法分析兩者區(qū)別會更一目了然。圖1是囚徒困境博弈的擴展式表述:
圖1 囚徒困境博弈的擴展式表述
這是一個靜態(tài)博弈,B事先并不知道A的選擇,當然反之,A事先也不知道B的選擇,兩者同時行動,分別選擇最大化自己支付的戰(zhàn)略。
圖2 辯訴交易博弈的擴展式表述
圖3 辯訴交易博弈的一個子博弈
而辯訴交易博弈的擴展式表述則不同,如圖2所示:
其實,一旦檢方提出進行交易,圖2即變?yōu)閳D3,因為顯然訴方選擇了其一個戰(zhàn)略即交易。這是原博弈的一個子博弈。在這種情況下,辯方的選擇是顯而易見的。
由上述分析可知,囚徒困境中,參與人同時行動,屬于靜態(tài)博弈;而辯訴交易中,訴方先行動,而且其行動被辯方觀察到,辯方隨后行動,屬于動態(tài)博弈。
(三)兩博弈的均衡狀態(tài)不同
與上述非合作博弈的四種類型一一對應的均衡狀態(tài)分別為納什均衡、子博弈精煉納什均衡、貝葉斯納什均衡、精煉貝葉斯納什均衡。本文只涉及前兩種。
囚徒困境型博弈達到的均衡狀態(tài)是納什均衡。納什均衡是指這樣一個戰(zhàn)略組合,這種戰(zhàn)略組合由所有參與人的最優(yōu)戰(zhàn)略組成。換言之,給定別人的戰(zhàn)略情況下,沒有任何單個參與人有積極性選擇其他戰(zhàn)略,從而沒有任何人有積極性打破這種均衡。囚徒困境博弈僅存在一個納什均衡,那就是(坦白,坦白)。一般而言,由于每個參與人的支付(效用)是博弈中所有參與人的戰(zhàn)略的函數(shù),因此每個參與人的最優(yōu)戰(zhàn)略依賴于所有其他參與人的戰(zhàn)略選擇。但在一些特殊的博弈中,一個參與人的最優(yōu)戰(zhàn)略很可能并不依賴于其他參與人的戰(zhàn)略選擇。也就是說,無論其它參與人選擇什么戰(zhàn)略,他的最優(yōu)戰(zhàn)略是唯一的。這樣的最優(yōu)戰(zhàn)略被稱為占優(yōu)戰(zhàn)略或占優(yōu)策略。囚徒困境的例子就是這樣,在這個博弈中,每個囚犯都有兩種可選擇的戰(zhàn)略,坦白或抵賴。但是,很明顯,無論同伙選擇什么戰(zhàn)略,每個囚犯的最優(yōu)戰(zhàn)略都是“坦白”。再回頭看表1,如囚犯A選擇坦白時,囚犯B選擇坦白支付為-8,選擇抵賴支付為-10,顯然坦白比抵賴好。如囚犯A選擇抵賴,則囚犯B選擇坦白支付為0,選擇抵賴支付為-1。同樣,坦白比抵賴好。這樣,“坦白”是囚犯B的占優(yōu)戰(zhàn)略。類似地,“坦白”也是囚犯A的占優(yōu)戰(zhàn)略。所以(坦白,坦白)是囚徒困境博弈中唯一的占優(yōu)戰(zhàn)略均衡,②平狄克和魯賓菲爾德稱之為上策均衡。
再分析辯訴交易博弈。相對于囚徒困境博弈,這是一個序貫博弈,即一個參與人首先采取行動,然后,另一參與人再作出反應。③因其屬于完全信息動態(tài)博弈,所以與之相應的均衡狀態(tài)是子博弈精煉納什均衡。再回過頭看表2,當發(fā)現(xiàn)訴方選擇追查時,辯方選擇坦白(支付為-15),優(yōu)于抵賴(支付為-20)。而當訴方選擇交易時,辯方選擇抵賴(支付為-5),優(yōu)于坦白(支付為-10)。所以,該博弈存在兩個納什均衡,即(追查,坦白)和(交易,抵賴)。也就是說,辯方并不存在一個無論訴方采取任何行動都是最優(yōu)的戰(zhàn)略,即不存在占優(yōu)戰(zhàn)略,而是辯方依訴方的戰(zhàn)略選擇相機選擇自己的最優(yōu)行為,所以才出現(xiàn)兩個納什均衡。而且一旦訴方提出辯訴交易,就很明確地說明訴方選擇了一個戰(zhàn)略,即交易。原博弈就變成一個單結的子博弈,即圖3所示的子博弈。在這個子博弈上有一個納什均衡,即(交易,抵賴)。這個納什均衡被稱為子博弈精煉納什均衡。一個納什均衡成為精煉納什均衡,當且僅當參與人的戰(zhàn)略在每一個子博弈中構成納什均衡,即組成精煉納什均衡的戰(zhàn)略必須在每一個子博弈中是最優(yōu)的。如圖2,如果訴方想節(jié)省資源,提高訴訟效率,必然不會選擇追查下去,所以(追查,坦白)不是一個精煉納什均衡。剔除了這個均衡,(交易,抵賴)是唯一的子博弈精煉納什均衡。
(四)結果不同
在囚徒困境博弈中,只要兩囚徒是理性的,并且明確了對方的戰(zhàn)略選擇和支付后,自己“坦白”就是唯一最好的選擇。所以,(坦白,坦白)是一個占優(yōu)戰(zhàn)略均衡(上策均衡)。警察只要交待對兩人不同選擇的政策后,往往輕而易舉地得到事實真相。
而在辯訴交易中,如果也是共同犯罪,警方(或檢方)利用共同犯罪人之間的博弈,也容易得到事實真相,因為坦白是他們唯一的“上策”。其實這是訴方利用了共同犯罪人的“囚徒困境”博弈。但如果是單個人犯罪,訴方與嫌疑犯之間的博弈則完全不同。當訴方提出交易,就會立即傳達給嫌疑犯一個信號,即訴方并不掌握確實充分的證據(jù)。在理性的促使下,嫌疑犯總會報有僥幸心理,選擇抵賴,或是避重就輕,交代一些無關緊要的事實。哪怕警方(或檢方)威脅嫌疑犯,比如告訴嫌疑犯“我們已經(jīng)掌握了你的犯罪證據(jù),接下來要看你的態(tài)度,是否配合調查”等等,也無濟于事。因為這屬于博弈論中的“不可置信威脅”,嫌疑犯(或其律師)非常清楚這不是事實,否則,檢方?jīng)]必要提出交易,他們會根據(jù)自己所掌握的證據(jù)指控嫌疑犯。
所以,囚徒困境博弈的結果是兩嫌疑犯都坦白,而辯訴交易的結果往往是嫌疑犯抵賴,也就是說辯訴交易博弈難以實現(xiàn)訴方的期待效用。
通過以上分析可知,囚徒困境博弈與辯訴交易博弈完全不同。如對其類型判斷錯誤就會得出一系列的錯誤結論。博弈分析的目的是為了預測均衡結果。而對于辯訴交易博弈均衡結果的預測讓我們發(fā)現(xiàn),該司法制度并不是人們想象的一個切實可行的、完美的制度安排。它和囚徒困境的均衡結果完全不同。后者容易使警方達到自己的預期效用。而前者,即辯訴交易博弈則恰恰相反。其實,這是不用“經(jīng)濟人”假設和博弈工具分析也能得到的結論。所以,辯訴交易制度源發(fā)于美國,最早見于19世紀末,此后人們對此爭論了近一個世紀,直到1970年美國聯(lián)邦最高法院才首肯其合法地位,1974年才對其一般原則和程序有了法律規(guī)定。但盡管其擁有了合法外衣,至今對它的意義人們仍褒貶不一,難以達成共同見解??梢?,任何制度變遷都不是人們隨心所欲的結果,而是基于社會進步的內在吁求及科學論證的。我們在引入這一司法制度時應充分考慮其實際效果,分析其與我國的司法制度安排及法律人文環(huán)境是否匹配,否則對我國司法環(huán)境的改善不但無益反而有害。
注釋:
①張維迎.博弈論與信息經(jīng)濟學[M].上海:上海人民出版社,2004
②[美]平狄克、魯賓菲爾德.微觀經(jīng)濟學(第四版)[M].北京:中國人民大學出版社,2000
③[美]范里安.微觀經(jīng)濟學:現(xiàn)代觀點(第六版)[M].上海:上海人民出版社,2006
(作者單位:中央司法警官學院,河北保定 071000;作者簡介:郝赪,中央司法警官學院副教授,法學博士,研究方向:經(jīng)濟與法)
(責編:若佳)
F011
A
1004-4914(2014)05-100-03