岳休云
合作者(C)付出代價c,另一個個體獲得收益b;背叛者(D)不需要付出任何代價。在進化博弈理論的框架[1]下:一個只包含合作者的種群,由于發(fā)生突變出現(xiàn)背叛者,變成了一個合作者和背叛者共存的混合種群,此時合作者相對背叛者繁殖率較低,所以合作者逐漸消失,最后種群完全由背叛者構(gòu)成(圖1)。進化的本質(zhì)是突變和自然選擇,而自然選擇青睞背叛,所以自然選擇需要相應的機制引導合作。Nowak[2]提出互惠利他主義、親緣選擇和種群選擇可以有效地促進合作的進化。
自然選擇青睞背叛
親緣選擇機制的本質(zhì)在于,基因有關(guān)的兩個體優(yōu)先考慮與對方發(fā)生博弈。Hamilton[3]用r表示親緣選擇的參數(shù)(非隨機接觸的概率),并且得出r>c/b時,親緣選擇引導合作的進化。直接互惠表示:個體間的博弈進行了很多次。個體在每一次博弈時都有兩種選擇:合作(C)和背叛(D),重復接觸的個體有可能會根據(jù)對方上一回合的行為來決定下一回合的選擇(合作還是背叛)。直接互惠會產(chǎn)生很多策略,如TFT,ALLD,ALLC,WSLS,GTFT等策略。TFT(tit-for-tat)策略者第一次與其他個體博弈時會采取合作行為,如果對手上一次采取合作行為,那么TFT策略者這一次也會選擇合作行為,如果對手上一次選擇背叛行為,那么TFT策略者這一次也會選擇背叛行為,TFT策略會根據(jù)對手的行為決定自己的行為。使用ALLD(always-defect)的個體每一次博弈都選擇背叛行為。以重復的囚徒困境作為背景,Axelrod[4]研究直接互惠中的隨機策略,最終發(fā)現(xiàn)TFT策略在引導個體選擇合作行為上具有極強的優(yōu)勢。如果TFT策略被ALLD策略侵占并且取代,那么將無法找到任何一個策略可以戰(zhàn)勝ALLD策略。所以TFT策略的穩(wěn)定發(fā)展就是合作行為的穩(wěn)定發(fā)展。Ale[5]等考慮親緣選擇與個體間重復接觸的概率w建立相應模型,研究結(jié)果表明:親緣選擇機制和w的增加有利于合作的進化,但是親緣選擇下不同博弈的收支比b/c對合作進化的影響還不太清楚,下文就這個問題展開分析和討論。
考慮收益矩陣
(1)
其中,C與D分別表示合作和背叛,收益矩陣(1)表示:當C與C相遇時,C獲得的收益是a;當C與D相遇時,C獲得的收益是b,D獲得的收益是c;當D與D相遇時,D獲得的收益是d。
定義r(0 由于親緣選擇下個體之間博弈的收益要兼顧隨機接觸與非隨機接觸,所以合作者與合作者博弈的收益要從兩方面考慮,首先隨機接觸下,合作者以1-r的概率隨機遇到合作者,此時它的收益是(1-r)a,另外合作者在非隨機選擇下以r的概率遇到合作者,此時它的收益是ra,兼顧兩類接觸可見,合作者此時的收益為(1-r)a+ra。同理可得親緣選擇下背叛者與背叛者博弈的收益為(1-r)d+rd。合作者與背叛者博弈,合作者以1-r隨機遇到背叛者,此時它的收益是(1-r)b,另外合作者在非隨機選擇下以r的概率遇到合作者,它的收益是ra,兼顧兩類接觸,合作者此時的收益為(1-r)b+ra,同理此時背叛者的博弈收益為(1-r)c+rd?;谑找婢仃?1),兼顧兩類接觸可得 (2) (3) 兼顧個體的兩類接觸情況,得到親緣選擇下合作者與背叛者進行一次博弈時的收益矩陣為 (4) TFT策略者、ALLD策略者相互之間,自身與自身進行博弈[6]的行為圖如(5)所示。 (5) 假設博弈進行的次數(shù)為m,忽略個體出錯及突變的情況,由(5)式可見TFT策略者與TFT策略者進行博弈時,兩個體首次相遇都會選擇合作行為,之后由于TFT策略的屬性,它們彼此會采取對手上一次的博弈行為,兩個TFT策略者往后會一直選擇合作行為。由親緣選擇下合作者與背叛者進行一次博弈的收益矩陣(4)可知,兩個TFT策略者發(fā)生m次博弈獲得的收益是ma。ALLD策略者與ALLD策略者進行博弈,由于ALLD策略者的永恒背叛性,兩個ALLD策略者會一直選擇背叛行為,所以它們各自的收益都為m·d。TFT策略者與ALLD 策略者相互博弈,由TFT策略的屬性可知它會在第一次博弈時選擇合作行為,往后一直采用對手的行為,所以由親緣選擇下合作者與背叛者進行一次博弈的收益矩陣(4)可知此時TFT策略者的收益為1·[(1-r)b+ra]+(m-1)·d,ALLD策略者一直選擇背叛行為,它獲得的收益為1·[(1-r)c+rd]+(m-1)·d。個體間的博弈行為發(fā)生m次時,親緣選擇下TFT策略者與ALLD策略者的收益矩陣為 (6) 在三種博弈類型[7]-[9]—囚徒困境、雪堆博弈和鷹鴿博弈下建立相關(guān)模型,討論親緣選擇下b/c對合作進化的影響。 囚徒困境: 個體有合作和背叛兩種選擇,合作者遇到合作者,它們各自的收益都為b-c(b>c)。背叛者遇到背叛者,它們各自的收益都為0。合作者遇到背叛者,合作者的收益為-c,背叛者的收益為b,其收益矩陣如下 (7) 雪堆博弈: 大雪封路導致兩名司機同時被困在回家的路上。鏟雪表示合作行為,呆在車里休息屬于背叛行為,兩司機可以選擇去鏟雪或者待在車里休息。用b表示兩司機回家的收益,用-c表示鏟雪付出的代價。假如兩個司機都去鏟雪,那么兩人的工作量都將減少一半,這時兩人的收益都為b-c/2;假如兩司機都在車里休息,只有等到鏟雪的機器經(jīng)過時,雪被機器清理干凈后,他們才可以開車回家,這時他們的收益都為0;假如兩司機其中一個人去鏟雪,而另一個人在車里休息,那么鏟雪的司機獲益為b-c(b-c>0),休息的司機獲益為b。其收益矩陣如下 (8) 鷹鴿博弈: 假設存在兩種策略:鷹策略和鴿策略,鷹策略是一種攻擊性策略,鷹策略遇到鷹策略會讓斗爭加劇,之后一個鷹獲勝,這過程既有收益又有損失。兩個鴿策略者相遇,斗爭比較溫和,最后一鴿獲勝,這過程中只有收益不會有損失。鷹策略者遇到鴿策略者,鷹策略者會讓斗爭變得更加殘酷,此時鴿策略者會選擇撤退,最后鷹獲得全部收益,鴿由于撤退所以既沒有收益也沒有損失。假設斗爭最后勝者獲益為b,敗者付出的代價為c。若兩者都選擇鴿策略(合作),它們不會出現(xiàn)損失,最終其中一個會獲勝,其期望收益是b/2,若兩者都選擇鷹策略(背叛),此時它們成敗的概率都是1/2,所以它們最后的期望收益是(b-c)/2,鷹策略遇到鴿策略,由于鴿策略者會選擇撤退,鷹策略者不戰(zhàn)而勝,此時鷹策略者獲益為b,鴿策略者獲益為0。將鷹策略看成背叛行為,鴿策略看成合作行為。其收益矩陣為 (9) 由個體之間發(fā)生m次博弈時,親緣選擇下TFT策略和ALLD策略的收益矩陣為(6),將囚徒困境,雪堆博弈和鷹鴿博弈的收益矩陣分別代入(6)式可得,個體之間發(fā)生博弈的次數(shù)為m時,親緣選擇下三種不同博弈類型對應的TFT與ALLD的收益矩陣分別為(10)、(11)、(12)。 (10) (11) (12) 考慮兩策略A與B之間的收益矩陣 (13) 一個由A策略者構(gòu)成的無限大種群,假如有極少的B策略者入侵,A策略者與B策略者的收益矩陣為(13),若a>c,則A策略是進化穩(wěn)定策略[10](ESS),自然選擇會抵制B策略入侵A策略。假設個體間發(fā)生m次博弈,親緣選擇下三種博弈類型對應的TFT策略與ALLD策略的收益矩陣(10)、(11)、(12),由進化穩(wěn)定策略的定義可知 對于囚徒困境下的收益矩陣(10),若滿足 m(b-c)>(1-r)b 即滿足 (14) 時,TFT策略是ESS。 對于雪堆博弈下的收益矩陣(11),若滿足 即滿足 (15) 時,TFT策略是ESS。 對于鷹鴿博弈下的收益矩陣(12),若滿足 即 (16) TFT策略是ESS。 圖2 囚徒困境下,TFT是進化穩(wěn)定策略的變量關(guān)系圖 圖3 雪堆博弈下,TFT是進化穩(wěn)定策略的變量關(guān)系圖 圖4 鷹鴿博弈下,TFT是進化穩(wěn)定策略的變量關(guān)系圖 在三種不同的博弈類型下,得到親緣選擇機制下TFT是進化穩(wěn)定策略(ESS)的條件(14)、(15)、(16),由此給出囚徒困境、雪堆博弈和鷹鴿博弈下m與b/c的關(guān)系圖(圖2、3、4)。 由圖2、圖3及圖4可見,親緣系數(shù)r越大,所需博弈次數(shù)越少,TFT策略是ESS的條件(14)、(15)、(16)更容易滿足,所以親緣選擇機制在這三種博弈類型下都促進合作的進化。由圖2、圖3可見,m隨b/c的增加而減小,但是隨著b/c的達到某定值時,變化不再明顯,因此在囚徒困境與雪堆博弈的收益矩陣下,b/c在一定范圍內(nèi)逐漸增加促進合作的進化,當b/c達到某定值后對合作的進化沒有明顯的作用。由圖4可見,m隨b/c的增加而增加,所需博弈次數(shù)越來越多,TFT策略是ESS的條件(16)更加不容易滿足,因此在鷹鴿博弈的收益矩陣下,b/c的逐漸減少促進合作的進化。 上面的模型建立在博弈回合數(shù)為m的前提下,假設兩個體博弈結(jié)束,它們之間再次發(fā)生博弈的概率是w(0 (17) 基于三種不同博弈收益矩陣下TFT策略是ESS的條件(14)、(15)、(16)中的m此時用1/(1-w)替代,得到囚徒困境下 若滿足 (18) 則TFT是ESS。 雪堆博弈下 若 (19) 則TFT是ESS。 鷹鴿博弈下 若 (20) 則TFT是ESS。 考慮各個參數(shù)的取值范圍,固定親緣系數(shù)r=0.2得出三種博弈收益矩陣下TFT是ESS時b/c與w的關(guān)系圖如下: 圖5 r=0.2不同博弈下b/c與w的關(guān)系圖 由圖5可見,令親緣參數(shù)r=0.2。在囚徒困境與雪堆博弈下,b/c在定區(qū)間內(nèi)逐漸增加有利于合作的進化。在鷹鴿博弈下,b/c在定區(qū)間內(nèi)逐漸減少有利于合作的進化。 將親緣選擇機制引入到不同的博弈類型中,從個體之間發(fā)生博弈的次數(shù)確定以及不確定兩種情況進行討論,建立相應模型,通過TFT是進化穩(wěn)定策略(ESS)的條件分析可得:針對三種不同的博弈類型,親緣選擇都有利于合作的進化。 親緣選擇機制下,個體之間發(fā)生博弈的次數(shù)確定時,囚徒困境和雪堆博弈下b/c在一定范圍內(nèi)逐漸增加有利于合作的進化,當b/c增加到某一定值后對合作的進化并無明顯的作用;鷹鴿博弈下b/c的逐漸減少有利于合作的進化。 親緣選擇機制下,個體之間發(fā)生博弈的次數(shù)不確定時,囚徒困境和雪堆博弈下,b/c在一定范圍內(nèi)逐漸增加促進合作的進化;鷹鴿博弈下b/c在一定范圍內(nèi)逐漸減少促進合作的進化。3 親緣選擇下不同博弈的收支比b/c對合作進化的影響
3.1 假設個體間發(fā)生博弈的次數(shù)為m
3.2 博弈回合數(shù)不確定時
4 結(jié)論