王西龍 王繼成 羅成 田秀霞
摘 要:針對合作行為的涌現(xiàn)與維持問題,基于演化博弈理論和網(wǎng)絡(luò)理論,提出了一種促進合作的演化博弈模型。該模型同時將時間尺度、選擇傾向性引入到演化博弈中。在初始化階段,根據(jù)持有策略的時間尺度將個體分為兩種類型:一種個體在每個時間步都進行策略更新;另一種個體在每一輪博弈后,以某種概率來決定是否進行策略更新。在策略更新階段,模型用個體對周圍鄰居的貢獻來表征他的聲譽,并假設(shè)參與博弈的個體傾向于學(xué)習(xí)具有較好聲譽鄰居的策略。仿真實驗結(jié)果表明,所提出的時間尺度與選擇傾向性協(xié)同作用下的演化博弈模型中,合作行為能夠在群體中維持;惰性個體的存在不利于合作的涌現(xiàn),但是個體的非理性行為反而能夠促進合作。
關(guān)鍵詞:演化博弈;時間尺度;選擇傾向性;囚徒困境;復(fù)雜網(wǎng)絡(luò)
中圖分類號: TP391.9
文獻標志碼:A
Abstract: Considering emergence and maintenance of cooperative behavior, based on evolutionary game theory and network theory, an evolutionary game model which can promote cooperation was proposed. In the proposed model, time scale and selection preference were introduced simultaneously into evolutionary game. In initialization phase, players were segmented into two categories according to their time scales of the strategies. Players in one category updated their strategies in each round, while players in the other category determined wether to update their strategies according to certain probability after every round of game. In strategy updating phase, the reputation of a player was determined by his distribution to his neighbors, and all players perfered to learn the strategies of neighbors with good reputation. The simulation experimental results show that, in the proposed evolutionary game model under synergistic effect of time scale and selection preference, cooperative behavior can be maintained in the group, the players with inertia hinders the emergence of cooperation, but the irrational behavior of players can promote cooperation.
Key words: evolutionary game; time scale; selection preference; prisoners dilemma; complex network
0 引言
合作行為在自然界和人類社會中廣泛存在。合作會犧牲個人利益給對方帶來益處,背叛行為會不勞而獲。然而,在由自私個體組成的群體中,合作是怎樣涌現(xiàn)與維持的呢? 研究合作的本質(zhì),有助于認識從生命的起源到人類社會的組織等一系列重要的課題,為以后對網(wǎng)絡(luò)上的動力學(xué)過程進行定性調(diào)控乃至精確控制打下堅實的基礎(chǔ)。因此,合作動力學(xué)研究已經(jīng)成為復(fù)雜網(wǎng)絡(luò)的一個熱門研究方向。
演化博弈理論為研究合作的動力學(xué)提供了有力的理論基礎(chǔ)。學(xué)者們基于演化博弈理論對合作行為進行了大量的研究,促進了該學(xué)科的發(fā)展[1]。Nowak等[2-3]率先在方格網(wǎng)絡(luò)上進行重復(fù)囚徒困境研究,發(fā)現(xiàn)背叛行為會逐漸蔓延開來,網(wǎng)絡(luò)會進化成優(yōu)美的斑圖,合作者會抱團,結(jié)成緊密的合作簇來抵御背叛行為的入侵。
近年來,將某些社會現(xiàn)象引入到演化博弈模型中研究合作的涌現(xiàn)機理成為一個研究熱點。人類的決策行為具有惰性,不一定在每次博弈后及時更新策略。文獻[4]發(fā)現(xiàn),過快或過慢的策略更新時間尺度都不利于合作行為的涌現(xiàn),而是有一個適中值使得合作水平最高。文獻[5]發(fā)現(xiàn),當個體的策略更新時間尺度根據(jù)歷史信息改變的話會促進合作。文獻[6]研究了有孤立個體存在的演化模型中惰性行為對合作的影響,發(fā)現(xiàn)個體的惰性會阻礙合作的涌現(xiàn)。
考慮到個體間相互影響的差異性,文獻[7]在模型中引入了偏好選擇,個體被學(xué)習(xí)的次數(shù)越多則該個體的影響力越大,研究發(fā)現(xiàn)該機制能夠促進合作。文獻[8]發(fā)現(xiàn),當個體傾向于學(xué)習(xí)收益高的鄰居策略時候會促進合作;反之會降低合作水平,甚至合作湮滅。文獻[9]發(fā)現(xiàn),在系統(tǒng)演化的過程中,個體的聲譽明顯地降低了個體被剝削的風(fēng)險,從而使得合作在演化過程中占主導(dǎo)地位。文獻[10]在策略更新時同時考慮個體的聲譽和行為的多樣性,發(fā)現(xiàn)自調(diào)節(jié)的聲譽分類能夠明顯促進合作。文獻[11]提出的演化博弈模型中,聲譽好的人可以獲得獎勵,聲譽低的人會受到懲罰,研究發(fā)現(xiàn)該機制能夠促進合作。
考慮到人們獲取信息會有局限性,文獻[12]在適應(yīng)度評價中引入噪聲,研究發(fā)現(xiàn)該機制能夠促進合作,并且有一個適中的噪聲值,使得合作的水平最高。文獻[13]在有敲詐個體存在的結(jié)構(gòu)化系統(tǒng)中研究個體的理性程度對合作行為的影響,發(fā)現(xiàn):當個體是完全理性時,合作者難以抵御背叛行為的入侵;當個體非常不理性時,會導(dǎo)致合作湮滅;而當個體是有限理性時,能夠明顯促進合作。文獻[14]在模型中假設(shè)收益高的個體對收益低的鄰居產(chǎn)生同情心,引入了收益的重新分配機制,研究發(fā)現(xiàn)該機制能夠促進合作。
現(xiàn)有研究提出的演化博弈模型中,雖然很多研究引入了偏好選擇、聲譽等因素,但是都沒有考慮以個體對周圍鄰居的貢獻水平作為衡量聲譽的指標,沒有研究學(xué)習(xí)貢獻型鄰居對合作動力學(xué)的影響;而在現(xiàn)實社會中人們往往更傾向于學(xué)習(xí)對群體有貢獻的個體的行為,因此,研究偏好學(xué)習(xí)貢獻型鄰居策略對合作的影響具有重要的現(xiàn)實意義。雖然很多研究涉及了策略更新時間尺度、噪聲等對合作行為的影響,但是有關(guān)兩種或多種因素協(xié)同作用下合作行為的動力學(xué)特點的研究卻極少;而現(xiàn)實社會中人們的行為具有多樣性,個體的決策會受到多種行為特征的影響,因此,研究多種因素協(xié)同作用下的合作動力學(xué)特點非常有意義。
針對上述問題,基于演化博弈理論,本文提出了一種引入了策略更新時間尺度與選擇傾向性的演化博弈模型。該模型在方格網(wǎng)絡(luò)上進行重復(fù)囚徒困境博弈,研究當相互作用網(wǎng)絡(luò)與策略學(xué)習(xí)網(wǎng)絡(luò)存在時間尺度差異性、個體具有偏好選擇的情況下合作行為的動力學(xué)特征,并考察了噪聲對合作的影響。
1 本文模型與動力學(xué)
本文模型在L×L 的具有無流邊界的方格網(wǎng)絡(luò)上進行空間囚徒困境博弈。收益矩陣根據(jù)Nowak等[2]提出的弱囚徒困境進行取值,將囚徒困境的收益矩陣修改為:令P=S=0,R = 1,并且1 在模型初始化時候,將個體屬性分為兩種:第一種個體的相互作用網(wǎng)絡(luò)與策略學(xué)習(xí)網(wǎng)絡(luò)時間尺度相同,個體在每一輪博弈之后就進行策略更新,為了表示方便,將其命名為“普通”個體。第二種個體的相互作用網(wǎng)絡(luò)與策略學(xué)習(xí)網(wǎng)絡(luò)存在時間尺度差異,將其命名為“惰性”個體,這類個體在每輪博弈之后,并不一定立即進行策略更新,而是以一定的概率來決定是否進行策略更新。在博弈的初始狀態(tài),每個個體以50%的概率被隨機地賦予合作或背叛策略。在每一個時間步中,每個個體分別與他最近鄰的四個鄰居進行囚徒困境博弈,取得累積收益,然后進行策略更新。 在策略更新階段,為了表征現(xiàn)實社會中人們不一定很快改變原有策略的惰性,將個體分為“惰性個體”與“普通個體”兩種類型:將比例為 prop的個體設(shè)定成具有惰性的個體,他們在每次博弈之后以一定的概率來決定是否更新策略,這里用變量scale表示更新策略的概率。另一部分個體在每次博弈后都進行策略更新,這部分普通個體的比例為1-prop。這里prop與scale是兩個可以調(diào)節(jié)的參數(shù),prop表征了群體中具有惰性個體的規(guī)模;scale表征了個體持有當前策略的時間尺度,其倒數(shù)為個體持有當前策略的周期。因為不能主觀地假定惰性個體在人群中的分布具有某種規(guī)律,本文認為惰性個體應(yīng)完全無規(guī)律地分布在全體參與博弈的群體中。為了表征這種無規(guī)律,采用了泊松過程來隨機抽樣惰性個體。關(guān)于泊松過程及其對無規(guī)律分布的論述見文獻[15]。惰性個體更新策略的速度用變量scale表示。scale的值越大,則更新策略的速度越快:當scale越接近1,該惰性個體越接近普通個體;反之,若scale=0,則該個體永遠不更新策略。 在進行策略更新的時候,考慮到現(xiàn)實社會中人們會自發(fā)地學(xué)習(xí)榜樣的行為,為了模擬這種現(xiàn)象,本模型中個體傾向于模仿對群體有貢獻的鄰居的策略。如果鄰居的四個鄰居收益總和越高,那么他對群體的貢獻越大。具體來說,如圖1所示。 在選擇模仿對象時候,設(shè)A是一個參與者,他的四個鄰居為B1、B2、B3、B4,并設(shè)Bi的鄰居為Ci,1、Ci,2、Ci,3、Ci,4,則模型將Bi推薦給A的概率正比于exp{K1[P(Ci,1)+P(Ci,2)+P(Ci,3)+P(Ci,4)]},其中,K1是一個可以調(diào)節(jié)的參數(shù),P(Ci,j)表示參與者Ci,j的收益。當Bi被推薦給A后,如果A是非惰性個體,則采用費米動力學(xué)(式(2))的計算方法來確定A是否采用Bi的策略。如果A是惰性個體,則A以概率scale決定是否進行策略更新,如果不進行策略更新就保持原有的策略不變;如果決定進行策略更新,則采用費米動力學(xué)的計算方法來確定A是否采用Bi的策略。 3 結(jié)語 合作行為的涌現(xiàn)與維持機制是近年來的研究熱點。本文提出了一種模型,將策略更新時間尺度引入到偏好選擇的演化博弈模型中,研究了時間尺度與偏好選擇共同作用下合作行為的動力學(xué)特點。策略更新的時間尺度用惰性個體的比例、惰性程度的大小來表征;個體在學(xué)習(xí)鄰居策略時候偏好學(xué)習(xí)聲譽高的個體策略。實驗結(jié)果表明,該模型能夠維持系統(tǒng)中的合作行為;而惰性個體的存在,能夠在一定程度上阻礙合作行為的涌現(xiàn);噪聲的引入,即個體由完全理性轉(zhuǎn)變?yōu)橛邢蘩硇缘那闆r下,反而能夠促進合作。本文的研究工作有助于進一步了解合作的動力學(xué)特點。 參考文獻 (References) [1] 榮智海,吳枝喜,王文旭.共演博弈下網(wǎng)絡(luò)合作動力學(xué)研究進展[J].電子科技大學(xué)學(xué)報,2013,42(1):10-22.(RONG Z H, WU Z X, WANG W X. Research on the networked cooperative dynamics of coevolutionary games [J]. Journal of University of Electronic Science and Technology of China, 2013, 42(1): 10-22.) [2] NOWAK M A, MAY R M. Evolutionary games and spatial chaos [J]. Nature, 1992, 359(6398): 826-829. [3] NOWAK M A, MAY R M. The spatial dilemmas of evolution [J]. International Journal of Bifurcation and Chaos, 1993, 3(1): 35-78. [4] WU Z X, RONG Z H, HOLME P. Diversity of reproduction time scale promotes cooperation in spatial prisoners dilemma games [J]. Physical Review E: Statistical, Nonlinear, and Soft Matter Physics, 2009, 80(3 Pt 2): 036106. [5] RONG Z H, WU Z X, CHEN G R. Coevolution of strategy-selection time scale and cooperation in spatial prisoners dilemma game [J]. Europhysics Letters, 2013, 102(6): 68005. [6] JIA D Y, JIN J H, DU C P, et al. Effects of inertia on the evolution of cooperation in the voluntary prisoners dilemma game [J]. Physica A: Statistical Mechanics and its Applications, 2018, 509: 817-826. [7] WU Z X, XU X J, HUANG Z G, et al. Evolutionary prisoners dilemma game with dynamic preferential selection [J]. Physical Review E: Statistical, Nonlinear, and Soft Matter Physics, 2006, 74(2): 021107. [8] WANG Z, PERC M. Aspiring to the fittest and promotion of cooperation in the prisoners dilemma game [J]. Physical Review E: Statistical, Nonlinear, and Soft Matter Physics, 2010, 82(2 Pt 1): 021115. [9] XIA C Y, DING S, WANG C J, et al. Risk analysis and enhancement of cooperation yielded by the individual reputation in the spatial public goods game [J]. IEEE Systems Journal, 2017, 11(3): 1516-1525. [10] CHEN M H, WANG L, SUN S W, et al. Evolution of cooperation in the spatial public goods game with adaptive reputation assortment [J]. Physics Letters A, 2016, 380(1/2): 40-47. [11] GUO H, CHU C, SHEN C, et al. Reputation-based coevolution of link weights promotes cooperation in spatial prisoners dilemma game [J]. Chaos, Solitons & Fractals, 2018, 109: 265-268. [12] ZHANG G Q, HU T P, YU Z. An improved fitness evaluation mechanism with noise in prisoners dilemma game [J]. Applied Mathematics & Computation, 2016, 276: 31-36. [13] XU X, RONG Z, TSE C K. Bounded rationality optimizes the performance of networked systems in prisoners dilemma game [C] // ISCAS 2018: Proceedings of the 2018 IEEE International Symposium on Circuits and Systems. Piscataway, NJ: IEEE, 2018: 1-5. [14] LI Y M, ZHANG J, PERC M. Effects of compassion on the evolution of cooperation in spatial social dilemmas [J]. Applied Mathematics and Computation, 2018, 320: 437-443. [15] GERARDI A, TARDELLI P. Stochastic control methods: hedging in a market described by pure jump processes [J]. Acta Applicandae Mathematicae, 2010, 111(3): 233-255. [16] SZABG, TKE C. Evolutionary prisoners dilemma game on a square lattice [J]. Physical Review E: Statistical, Nonlinear, and Soft Matter Physics, 1998, 58(1): 69-73.