汪小芳,柯見洪
(溫州大學(xué)數(shù)理與電子信息工程學(xué)院,浙江溫州 325035)
自私群體中合作行為的涌現(xiàn)受到許多領(lǐng)域?qū)W者的關(guān)注[1-3].囚徒困境博弈是研究自私個(gè)體間可能存在合作行為的一個(gè)經(jīng)典范例.在囚徒困境博弈中,個(gè)體可以選擇合作策略C或背叛策略D.若博弈雙方都選擇合作,則均獲得收益R;若博弈雙方都選擇背叛,則均獲得收益P;若一方選擇合作而一方選擇背叛,則合作者獲得收益S,背叛者獲得收益T.收益矩陣可表示為:
總所周知,參與博弈的任何一方的期望收益是由所有參與者的行為共同決定的.然而,Dyson和Press[11]的研究表明,在任何的兩人重復(fù)博弈中都存在這樣一種“零行列式策略”(ZD策略),這類策略強(qiáng)大到無論對(duì)方如何抗?fàn)幦绾巫兓?,總能夠憑借一己之力,單方面控制自己的收益剩余是對(duì)手的χ(χ>1)倍.Jie Liu等人[12]提出了一種廣義的ZD策略,這種廣義ZD策略,是基于一個(gè)引用基線參數(shù)σ(0≤σ≤1)來衡量收益的,個(gè)體可以獲得收益是他對(duì)手的χ倍(χ>1),不同的σ對(duì)應(yīng)慷慨程度不同的ZD策略,0=σ<<1對(duì)應(yīng)敲詐性比較強(qiáng)的ZD策略,σ≈1對(duì)應(yīng)比較順從慷慨的ZD策略,并且他們發(fā)現(xiàn)在方形點(diǎn)陣上均勻混合的有限演化競(jìng)爭(zhēng)系統(tǒng)中適當(dāng)慷慨的ZD策略更容易取得成功.
早期的演化博弈研究假設(shè)個(gè)體可以與群體中任意個(gè)體進(jìn)行博弈[13],然而,實(shí)際生活中個(gè)體只能接觸有限范圍內(nèi)的其他個(gè)體.因此,考慮復(fù)雜網(wǎng)絡(luò)上的演化博弈更具有現(xiàn)實(shí)意義.Nowak等學(xué)者[14-16]研究了網(wǎng)絡(luò)上的博弈行為,給出了演化圖論基本理論框架.隨著復(fù)雜網(wǎng)絡(luò)研究的興起,學(xué)者們研究了一系列復(fù)雜網(wǎng)絡(luò)上的演化博弈行為,得出了非常有意思的結(jié)果[17-20].
現(xiàn)實(shí)系統(tǒng)中完全同質(zhì)的群體幾乎沒有.由于年齡、財(cái)富、性別、知識(shí)與經(jīng)驗(yàn)等差異會(huì)對(duì)參與者的行為造成一定的影響,不同參與者面臨相同狀況,往往會(huì)采用不同的決策方案.受上述研究的啟發(fā),我們將不同基線參數(shù)σ的ZD策略個(gè)體視為不同類型的個(gè)體,研究了采用不同ZD策略的異質(zhì)性群體在二維規(guī)則網(wǎng)絡(luò)、NW小世界網(wǎng)絡(luò)和BA無標(biāo)度網(wǎng)絡(luò)上的囚徒困境博弈中的演化行為,重點(diǎn)討論了ZD策略中敲詐系數(shù)和網(wǎng)絡(luò)結(jié)構(gòu)對(duì)群體異質(zhì)性維持的影響.
本文研究復(fù)雜網(wǎng)絡(luò)上進(jìn)行的囚徒困境博弈.在網(wǎng)絡(luò)中,節(jié)點(diǎn)代表參與博弈的個(gè)體,節(jié)點(diǎn)間的連邊表示他們之間存在博弈關(guān)系.本文群體的異質(zhì)性體現(xiàn)在ZD策略個(gè)體衡量收益的基線差異上,即不同類型的ZD策略個(gè)體對(duì)應(yīng)不同的基線參數(shù)σ(0≤σ≤1).簡(jiǎn)單起見,假定系統(tǒng)中個(gè)體采用的可能基線參數(shù)為0,0.1,0.2,…,1.0,即系統(tǒng)含有11種類型的個(gè)體.初始時(shí),將每個(gè)個(gè)體以等概率設(shè)置為合作者或者背叛者,每個(gè)蒙特卡洛步(MCS),節(jié)點(diǎn)x與最近鄰節(jié)點(diǎn)進(jìn)行囚徒困境博弈.節(jié)點(diǎn)x的收益是與所有最近鄰節(jié)點(diǎn)博弈獲得的平均收益xP,收益矩陣可表示為公式(1)的形式,即有(CC,DD,CD,DC)4種情況.此處,為了簡(jiǎn)化模擬,囚徒困境的收益矩陣被重新標(biāo)度為T=5,R=3,S=0,P=1.
假定模擬過程中群體所處的空間結(jié)構(gòu)保持不變,僅是個(gè)體策略進(jìn)行演化.在每個(gè)蒙特卡洛步(MCS),個(gè)體x通過與所有鄰居博弈獲得其收益xP.在模擬中,隨機(jī)選取群體中一個(gè)個(gè)體x,依次與其可交易的所有鄰居按如上收益矩陣進(jìn)行1000輪博弈,可以得到每個(gè)個(gè)體的當(dāng)次累計(jì)收益.例如,在某一時(shí)刻,一個(gè)個(gè)體有4個(gè)鄰居,若被選個(gè)體和被選鄰居都持合作策略,則其當(dāng)輪收益為P=3,若被選個(gè)體和被選鄰居都持背叛策略,則其當(dāng)輪收益為P=1,若被選個(gè)體持合作策略而被選鄰居都持背叛策略,則其當(dāng)輪收益為P=0,若被選個(gè)體持背叛策略被選鄰居持合作策略,則其當(dāng)輪收益為P=5,每輪博弈結(jié)束后,每個(gè)個(gè)體根據(jù)某種更新規(guī)則進(jìn)行策略更新,并把更新后的策略作為自己下一輪博弈中采取的策略.第二輪以后,個(gè)體總是根據(jù)自己與對(duì)手在前一輪所采用的策略,然后按照下述概率[12]:
進(jìn)行策略更新.舉例說明,若σ=0類型的個(gè)體x在第一輪博弈時(shí)采用合作策略C且對(duì)手也采用策略C,則其下次選擇合作的概率是,依次類推.1000輪博弈結(jié)束后,選擇下一個(gè)鄰居進(jìn)行博弈,直到與所有鄰居博弈完,計(jì)算其與4個(gè)鄰居博弈的平均收益xP.其鄰居以同樣的方式獲得收益.當(dāng)個(gè)體x完成了所有的博弈之后,將隨機(jī)選擇一個(gè)鄰居y,與其比較收益(Px和Py)的高低.當(dāng)Py>Px時(shí),個(gè)體x的類型將轉(zhuǎn)變?yōu)猷従觵的類型;否則,個(gè)體x保持自身的類型不變.依此規(guī)則,系統(tǒng)不斷地演化,直至群體中類型的分布達(dá)到一個(gè)穩(wěn)定狀態(tài).對(duì)所有模擬,網(wǎng)絡(luò)規(guī)模N=10000.本文分別研究了二維規(guī)則網(wǎng)絡(luò),小世界網(wǎng)絡(luò)和無標(biāo)度網(wǎng)絡(luò)上的囚徒困境博弈.二維規(guī)則網(wǎng)絡(luò)取周期性邊界條件,小世界網(wǎng)絡(luò)根據(jù)Newman-Watts[21]模型生成,無標(biāo)度網(wǎng)絡(luò)則根據(jù)Barabási-Albert[22]模型生成.所有的模擬都設(shè)定
在本模型中,博弈者的敲詐系數(shù)χ是影響群體異質(zhì)性的重要參數(shù)之一.演化過程中,兩近鄰個(gè)體之間相互博弈1000輪.圖1所示的是博弈系統(tǒng)在達(dá)到演化穩(wěn)定狀態(tài)下,異質(zhì)性群體剩余數(shù)與敲詐系數(shù)χ之間的關(guān)系,橫坐標(biāo)表示敲詐系數(shù),縱坐標(biāo)表示異質(zhì)性群體的剩余人數(shù).σ較小時(shí),對(duì)應(yīng)的參與者是掠奪性比較強(qiáng)的ZD策略持有者,σ比較大時(shí),參與者則采用了比較寬容慷慨的ZD策略.
圖1 異質(zhì)性群體在二維規(guī)則網(wǎng)絡(luò)、NW小世界網(wǎng)絡(luò)和BA無標(biāo)度網(wǎng)絡(luò)上的演化結(jié)果Fig 1 The Evolution Result of Heterogeneous Groups on Two-dimension Regular Network,NW Small-world Network and BA Scale-free Network
從圖1(a)可以看出,在二維規(guī)則網(wǎng)絡(luò)上,當(dāng)敲詐系數(shù)χ較小時(shí),博弈系統(tǒng)中σ=1類型的個(gè)體數(shù)量為10000,即系統(tǒng)中只存在σ=1類型的個(gè)體,當(dāng)χ增大到20,除了σ=1的個(gè)體,σ=0的個(gè)體也開始存活下來.圖1(b)為異質(zhì)性群體在NW小世界網(wǎng)絡(luò)上的演化結(jié)果,可以看出當(dāng)敲詐系數(shù)χ小于40時(shí),系統(tǒng)中只存在σ=1類型的個(gè)體,敲詐系數(shù)χ大于40時(shí),各類型的個(gè)體都能存活下來且各類型的個(gè)體的數(shù)量相對(duì)均衡.從圖1(c)中可以看出,異質(zhì)性群體在BA無標(biāo)度網(wǎng)絡(luò)上的博弈結(jié)果,當(dāng)敲詐系數(shù)較小時(shí)系統(tǒng)中幾乎只剩下σ=1類型的個(gè)體,隨著χ的增大,系統(tǒng)中剩余個(gè)體的種類開始增多,各類型的個(gè)體都存在,掠奪性比較強(qiáng)的ZD策略取代慷慨的ZD策略成為新的優(yōu)勢(shì)策略.
上述結(jié)果表明,較小的χ不能有效地維持群體的異質(zhì)性.在一定的范圍內(nèi),χ較大時(shí),群體的異質(zhì)性更容易維持,當(dāng)χ達(dá)到一定值時(shí),χ的改變對(duì)群體的異質(zhì)性和持各策略的參與者的數(shù)量產(chǎn)生的影響較小.
網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)也是影響群體異質(zhì)性的一個(gè)重要因素.通常,實(shí)際系統(tǒng)中個(gè)體并非均勻混合,會(huì)表現(xiàn)出局域性,這就要求我們?nèi)タ紤]節(jié)點(diǎn)鄰域的拓?fù)浣Y(jié)構(gòu).在本模型中,個(gè)體分別在二維規(guī)則網(wǎng)絡(luò)、NW小世界網(wǎng)絡(luò)以及BA無標(biāo)度網(wǎng)絡(luò)上進(jìn)行囚徒困境博弈.每個(gè)時(shí)步,兩近鄰個(gè)體之間相互博弈1000輪.研究發(fā)現(xiàn),在不同的網(wǎng)絡(luò)中,系統(tǒng)中異質(zhì)性群體的演化行為不同,達(dá)到演化穩(wěn)定后系統(tǒng)中剩余的異質(zhì)性群體的種類和數(shù)量都不相同.從結(jié)果可以看出,相比于二維規(guī)則網(wǎng)絡(luò),在NW小世界網(wǎng)絡(luò)和BA無標(biāo)度網(wǎng)絡(luò)中異質(zhì)性更容易維持,群體的異質(zhì)性更加豐富(圖1).在全連通網(wǎng)絡(luò)的囚徒困境博弈中,合作者的收益始終比背叛者低,因此群體的所有個(gè)體最終都會(huì)成為背叛者.Nowak和May[23]發(fā)現(xiàn),在二維格子的囚徒困境博弈中,合作者通過形成團(tuán)簇結(jié)構(gòu)可以有效地抵御背叛者的入侵.在合作簇內(nèi)部,合作者通過相互協(xié)作獲得很高的收益,從而保護(hù)合作簇內(nèi)部的合作者不被外面的背叛者所取代.圖1(a)顯示,當(dāng)χ比較大時(shí),敲詐性比較強(qiáng)的ZD個(gè)體雖然能和慷慨的ZD個(gè)體共存于一個(gè)群體中,但其始終只能占一個(gè)較低的比例,原因是慷慨ZD個(gè)體比掠奪性較強(qiáng)的ZD個(gè)體的合作度高,更趨向于合作,從而獲得不低的總體收益.而敲詐性比較強(qiáng)的ZD個(gè)體與其他個(gè)體博弈時(shí)往往彼此都采用了背叛的策略,從而導(dǎo)致很差的收益,最終逐漸被慷慨ZD個(gè)體所取代.在此演化競(jìng)爭(zhēng)的系統(tǒng)中,適當(dāng)慷慨的ZD個(gè)體更容易取得成功,即當(dāng)掠奪性比較強(qiáng)的ZD個(gè)體兩兩相遇時(shí)比較容易相互背叛而產(chǎn)生一個(gè)較低的背叛收益,而寬容慷慨的ZD個(gè)體兩兩相遇時(shí)容易產(chǎn)生一個(gè)較高的合作收益.因此,當(dāng)χ較小時(shí),掠奪性較強(qiáng)的ZD個(gè)體從慷慨的ZD個(gè)體處掠奪的收益不高,σ小的ZD個(gè)體對(duì)一旦與σ大的ZD個(gè)體相鄰,前者中的一個(gè)甚至兩個(gè)會(huì)轉(zhuǎn)變?yōu)棣掖蟮腪D個(gè)體.當(dāng)然,當(dāng)χ越來越大時(shí),即使σ小的ZD個(gè)體對(duì)無法生存,單個(gè)小σ的ZD個(gè)體還是可以通過掠奪大σ的ZD個(gè)體獲取足夠的收益而得以生存的.所以掠奪性比較強(qiáng)的ZD個(gè)體只能以散點(diǎn)或碎片的形式散布在群體中,如圖2所示.
圖2的結(jié)果也證明了文獻(xiàn)[23]的結(jié)論:在二維規(guī)則網(wǎng)上,σ大的ZD個(gè)體組成合作者團(tuán)簇來抵御σ小的ZD個(gè)體.然而,對(duì)NW小世界網(wǎng)絡(luò)而言,隨機(jī)加邊帶來的可能后果是連通了“合作者團(tuán)簇”的中心與邊緣處,從而導(dǎo)致了合作者團(tuán)簇的無法形成.因此,NW小世界網(wǎng)絡(luò)上的演化結(jié)果表明,各種σ類型的個(gè)體都能共存,即異質(zhì)性得以維持,如圖1(b).無標(biāo)度網(wǎng)絡(luò)同樣不具有規(guī)則的空間點(diǎn)陣結(jié)構(gòu),因此小σ的合作者無法組成團(tuán)簇,各種σ類型的個(gè)體能夠共存.此外,模擬結(jié)果還表明,無標(biāo)度網(wǎng)絡(luò)上度大的節(jié)點(diǎn)(Hub點(diǎn))在演化博弈過程中往往被敲詐性較強(qiáng)的ZD個(gè)體(即σ較小)所占據(jù).當(dāng)敲詐系數(shù)χ較小時(shí),為了獲取足夠的收益維持其繼續(xù)占領(lǐng)Hub點(diǎn),小σ的個(gè)體必須允許周邊存在更多的σ值較大的個(gè)體,因此各種σ值的個(gè)體比例相差無幾;當(dāng)χ越來越大時(shí),只要有少數(shù)的σ值較大的鄰居存在,小σ的個(gè)體就能夠獲得足夠的收益維持其占領(lǐng)Hub點(diǎn),那么其他的鄰居將會(huì)被同化,因此σ=0的個(gè)體比例隨著χ增大而逐漸增加,如圖1(c).
圖2 正規(guī)則格子100×100中,演化穩(wěn)定狀態(tài)下,不同敲詐系數(shù)作用下異質(zhì)性群體分布情況(黃色和藍(lán)色分別代表σ =0,σ =1的ZD策略個(gè)體)Fig 2 The Distribution of Heterogeneous Groups with Different Extortion Coefficient under the State of Evolutionary Stability and on a 100×100 Square Lattice Network (Here Yellow and Blue Colors Represent Respectively ZD Strategy Units of σ =0, σ =1)
在囚徒困境博弈中,異質(zhì)性群體的演化博弈行為與ZD策略的敲詐系數(shù)及網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)有關(guān).在不同的敲詐系數(shù)下,異質(zhì)性群體的剩余種類和數(shù)量不同,較小的χ不能有效地維持群體的異質(zhì)性,在一定的范圍內(nèi)χ較大時(shí),群體的異質(zhì)性更容易維持.當(dāng)χ達(dá)到一定值時(shí),χ的改變對(duì)群體的異質(zhì)性和持各策略的參與者數(shù)量產(chǎn)生較小的影響.在二維規(guī)則網(wǎng)絡(luò)上,σ大的ZD個(gè)體組成合作者團(tuán)簇來抵御σ小的ZD個(gè)體,所以演化穩(wěn)定時(shí)只有少數(shù)σ=0類型和大部分的σ=1類型的個(gè)體.然而,對(duì)NW小世界網(wǎng)絡(luò)而言,隨機(jī)加邊連通了“合作者團(tuán)簇”的中心與邊緣處,使合作者團(tuán)簇?zé)o法形成,從而導(dǎo)致了各種σ類型的個(gè)體都能共存,即異質(zhì)性得以維持.無標(biāo)度網(wǎng)絡(luò)和小世界網(wǎng)絡(luò)一樣不具有規(guī)則的空間點(diǎn)陣結(jié)構(gòu),因此小σ的合作者無法組成團(tuán)簇,各種σ類型的個(gè)體能夠共存.此外,由于Hub點(diǎn)往往被敲詐性較強(qiáng)的ZD個(gè)體(即σ較小)所占據(jù),當(dāng)敲詐系數(shù)χ較小時(shí),各種σ值的個(gè)體比例相差無幾,而當(dāng)χ越來越大時(shí),σ值較小的個(gè)體比例會(huì)逐漸增加.總體來說,相比于規(guī)則網(wǎng)絡(luò),異質(zhì)性群體在小世界網(wǎng)絡(luò)和無標(biāo)度網(wǎng)絡(luò)上剩余群體的類型更加豐富,即異質(zhì)性更容易維持.
[1] Nowak M A, Sigmund K. Evolution of indirect reciprocity by image scoring [J]. Nature, 1998, 393(6685):573-577.
[2] Wedekind C, Milinski M. Cooperation through image scoring in humans [J]. Science, 2000, 288(5467):850-852.
[3] Zhen W, Szolnoki A, Perc M. If players are sparse social dilemmas are too:Importance of percolation for evolution of cooperation [J]. Sci Rep, 2012, 2(16):369.
[4] Traulsen A, Nowak M A, Pacheco J M. Stochastic dynamics of invasion and fixation [J]. Phys Rev E, 2006, 74(1):011909.
[5] Axelrod R. The emergence of cooperation among egoists [J]. Am Polit Sci Rev, 1981, 75(2):306-318.
[6] Collings J B, Wollkind D J, Moody M E. Outbreaks and oscillations in a temperature-dependent model for a mite predator-prey interaction [J]. Theor Popul Biol, 1990, 38(2):159-191.
[7] Nowak M. The evolution of stochastic strategies in the Prisoner’s Dilemma [J]. Acta Appl Math, 1990, 20(3):247-265.
[8] Iliopoulos D, Hintze A, Adami C. Critical dynamics in the evolution of stochastic strategies for the iterated prisoner’s dilemma [J]. Plos Comput Biol, 2010, 6(10):e1000948.
[9] Stewart A J, Plotkin J B. Extortion and cooperation in the Prisoner’s Dilemma [J]. Proc Natl Acad Sci U S A, 2012,109(26):10134-10135.
[10] Hilbe C, Nowak M A, Sigmund K. Evolution of extortion in Iterated Prisoner’s Dilemma games [J]. Proc Natl Acad Sci U S A, 2013, 110(17):6913-6918.
[11] Press W H, Dyson F J. Iterated Prisoner’s Dilemma contains strategies that dominate any evolutionary opponent [J].Proc Natl Acad Sci U S A, 2012, 109(26):10409-10413.
[12] Liu J, Li Y, Xu C, et al. Evolutionary behavior of generalized zero-determinant strategies in iterated prisoner’s dilemma [J]. Physica A , 2015, 430:81-92.
[13] Sigmund K, Nowak M A. Evolutionary game theory [M]. Massachusetts:MIT Press, 1997:847-858.
[14] Ohtsuki H, Nowak M A. Direct reciprocity on graphs [J]. J Theor Biol, 2007, 247(3):462-470.
[15] Nowak M A. Five rules for the evolution of cooperation [J]. Science, 2006, 314(5805):1560-1563.
[16] Taylor C, Nowak M A. Transforming the dilemma [J]. Evolution, 2007, 61(10):2281-2292.
[17] Abramson G, Kuperman M. Social games in a social network [J]. Phys Rev E, 2001, 63(1):030901.
[18] Szabó G, Vukov J. Cooperation for volunteering and partially random partnerships [J]. Phys Rev E, 2004, 69(3):036107.
[19] Hauert C, Szabó G. Game theory and physics [J]. Am J Phys, 2005, 73(5):405-414.
[20] Vukov J, Szabó G, Szolnoki A. Evolutionary Prisoner’s Dilemma game on Newman-Watts networks [J]. Phys Rev E,2008, 77(2):026109.
[21] Newman M E J, Watts D J. Renormalization group analysis of the small-world network model [J]. Phys Lett A, 1999,263(4/6):341-346.
[22] Barabási A, Albert R. Emergence of Scaling in Random Networks [J]. Science, 1999, 286(5439):509-512.
[23] Nowak M A, May R M. Evolutionary games and spatial chaos [J]. Nature, 1992, 359(6398):826-829.