囚徒困境博弈模型作為演化博弈經(jīng)典模型成為近年來(lái)的研究熱點(diǎn),針對(duì)規(guī)則格子網(wǎng)絡(luò)中如何提高囚徒困境博弈的合作水平問(wèn)題,我們引入獎(jiǎng)勵(lì)因子來(lái)促進(jìn)參與者采取合作策略。為了研究獎(jiǎng)勵(lì)因子對(duì)網(wǎng)絡(luò)中所有個(gè)體采取合作或背叛策略的影響,并探究獎(jiǎng)勵(lì)因子針對(duì)不同獎(jiǎng)勵(lì)對(duì)象時(shí)對(duì)規(guī)則網(wǎng)絡(luò)中囚徒博弈合作水平的影響,我們引入3種獎(jiǎng)勵(lì)機(jī)制:只獎(jiǎng)勵(lì)合作者;只獎(jiǎng)勵(lì)背叛者;對(duì)整個(gè)網(wǎng)絡(luò)中的所有個(gè)體都獎(jiǎng)勵(lì)。我們?cè)贛atlab平臺(tái)上進(jìn)行仿真實(shí)驗(yàn),看到獎(jiǎng)勵(lì)因子會(huì)明顯提高網(wǎng)絡(luò)整體的合作水平,并找到其原因,是因?yàn)楠?jiǎng)勵(lì)因子對(duì)合作者的影響要高于對(duì)背叛者的影響,使得當(dāng)都有相同背叛獲利b值時(shí),網(wǎng)絡(luò)整體合作水平會(huì)隨著獎(jiǎng)勵(lì)因子的增加而升高,網(wǎng)絡(luò)中所有個(gè)體更趨向于合作而不是背叛。
自1950年Nash所做出的開創(chuàng)性工作以來(lái),博弈成為了一門系統(tǒng)理論,并被廣泛應(yīng)用到人類社會(huì),特別是經(jīng)濟(jì)行為當(dāng)中。作為一門交叉研究學(xué)科,在復(fù)雜網(wǎng)絡(luò)中的演化博弈成為現(xiàn)在的關(guān)注熱點(diǎn)之一。囚徒困境博弈模型作為演化博弈經(jīng)典模型之一,研究其在規(guī)則網(wǎng)絡(luò)中演化更是重中之重[1-5]。
現(xiàn)實(shí)中利己者間出現(xiàn)的自發(fā)合作行為及其維持機(jī)制得到了越來(lái)越多的關(guān)注[6-7],將演化博弈理論與復(fù)雜網(wǎng)絡(luò)的結(jié)合也成為了一個(gè)熱點(diǎn)[8-9]。在復(fù)雜網(wǎng)絡(luò)的演化博弈中,通常以網(wǎng)絡(luò)中的節(jié)點(diǎn)作為個(gè)體,使用規(guī)則格子網(wǎng)絡(luò)表示一般性人際關(guān)系網(wǎng)絡(luò),為了有效地促進(jìn)參與者采取合作策略,在囚徒困境博弈模型中引入獎(jiǎng)勵(lì)因子,在網(wǎng)絡(luò)中的個(gè)體進(jìn)行策略學(xué)習(xí)時(shí),我們改變其收益函數(shù),使得下一輪的收益出現(xiàn)變動(dòng),從而探究這種變動(dòng)對(duì)博弈模型合作水平的影響。本文將基于“獎(jiǎng)勵(lì)”機(jī)制,在引入獎(jiǎng)勵(lì)因子的概念,又探究獎(jiǎng)勵(lì)因子針對(duì)不同獎(jiǎng)勵(lì)對(duì)象對(duì)規(guī)則網(wǎng)絡(luò)中囚徒博弈合作水平的影響。
本文首先闡述囚徒困境博弈模型及規(guī)則網(wǎng)絡(luò)模型的構(gòu)建,并將具體闡述本研究所采用的模型及其收益矩陣、獎(jiǎng)勵(lì)因子;其次進(jìn)行實(shí)驗(yàn)仿真,并利用Matlab實(shí)現(xiàn)模型的構(gòu)建與仿真實(shí)驗(yàn);最后給出研究結(jié)論。
模型
囚徒困境博弈模型
在博弈中,每個(gè)個(gè)體都有幾種策略,個(gè)體會(huì)從這些策略中選出一種以使自己獲得最大的收益[10],并且每個(gè)人都是理性的。囚徒困境是兩個(gè)被捕的囚徒之間的一種特殊博弈,其說(shuō)明了為什么甚至在合作對(duì)雙方都有利時(shí),保持合作也是困難的。在囚徒困境博弈模型中,每個(gè)個(gè)體都有兩種策略選擇:合作C(Cooperation)、背叛D(Defection)。如A、B兩個(gè)個(gè)體進(jìn)行博弈時(shí),會(huì)出現(xiàn)四種情況:如果個(gè)體A采取背叛D策略,個(gè)體B采取合作C策略,那么個(gè)體A的收益為T,個(gè)體B的收益為S;如果A、B雙方都采取合作C策略,那么雙方均獲得利益為R;如果A、B雙方都采取背叛D策略,那么雙方均獲得收益為P。即收益矩陣E為:
且對(duì)于囚徒困境博弈,有如下規(guī)則:T>R>P>S,且2R>T+S。在囚徒困境博弈中,兩個(gè)個(gè)體需要同時(shí)決定他們各自的策略。
為了方便研究,簡(jiǎn)化收益矩陣中參數(shù)的數(shù)目,我們使用Weak-PD模型,即采用Nowak和May使用的收益矩陣E:
在本文中,我們考慮PD博弈模型為Weak-PD博弈模型,且令1
方格子網(wǎng)絡(luò)模型
本文采用100×100具有周期邊界條件的方格子網(wǎng)絡(luò),即存在10 000個(gè)個(gè)體,如圖1所示。其中,黃色圓圈表示網(wǎng)絡(luò)中的個(gè)體,數(shù)字為個(gè)體標(biāo)號(hào),黑色線表示網(wǎng)絡(luò)中個(gè)體與個(gè)體之間的連接關(guān)系,藍(lán)色虛線方框內(nèi)為100×100方格子網(wǎng)絡(luò),藍(lán)色虛線方框外側(cè)表示該網(wǎng)絡(luò)所具有的周期邊界條件。因?yàn)闉榉礁褡泳W(wǎng)絡(luò),則每個(gè)個(gè)體有四個(gè)鄰居。
引入獎(jiǎng)勵(lì)因子
分析收益矩陣,如果兩個(gè)個(gè)體進(jìn)行一次博弈,個(gè)體為了達(dá)到自己收益最大化,都會(huì)選擇背叛策略。但是為了提高整體的合作水平,需要采取某種“獎(jiǎng)勵(lì)”措施來(lái)促進(jìn)個(gè)體采取合作策略,從而有利于合作策略的涌現(xiàn)和維持。在這里我們引入文獻(xiàn)[11]中的獎(jiǎng)勵(lì)因子規(guī)則,對(duì)網(wǎng)絡(luò)中的個(gè)體進(jìn)行收益上的獎(jiǎng)勵(lì)。為了便于研究不同獎(jiǎng)勵(lì)機(jī)制對(duì)規(guī)則網(wǎng)絡(luò)中囚徒困境博弈合作水平的影響,我們維持一個(gè)穩(wěn)定的記憶長(zhǎng)度M。
Matlab仿真及結(jié)果分析
Matlab是將計(jì)算矩陣、分析數(shù)值、數(shù)據(jù)可視化以及非線性動(dòng)力學(xué)系統(tǒng)的建模和仿真等諸多強(qiáng)大功能集成在一起的強(qiáng)大軟件。本文利用Matlab軟件進(jìn)行仿真,過(guò)程為:在圖1所示的方格子網(wǎng)絡(luò)中進(jìn)行博弈;初始網(wǎng)絡(luò)中全部10 000個(gè)個(gè)體的初始策略,在這里我們采用隨機(jī)賦值初始條件法;設(shè)定MCS為1×104;由于初始條件為隨機(jī)初始條件,為了消除隨機(jī)誤差,我們做了100次系綜平均。
在本文中,我們將獎(jiǎng)勵(lì)機(jī)制分為3種:1)只獎(jiǎng)勵(lì)合作者;2)只獎(jiǎng)勵(lì)背叛者;3)對(duì)整個(gè)網(wǎng)絡(luò)中的所有個(gè)體都獎(jiǎng)勵(lì)。
如圖2所示,a為只獎(jiǎng)勵(lì)合作者、b為只獎(jiǎng)勵(lì)背叛者、c為同時(shí)獎(jiǎng)勵(lì)時(shí),獎(jiǎng)勵(lì)因子分別取
通過(guò)比較圖2中a、b、c三圖,我們可以發(fā)現(xiàn),選擇不同的獎(jiǎng)勵(lì)機(jī)制,對(duì)網(wǎng)絡(luò)中整體的合作水平的影響也不同。如果只獎(jiǎng)勵(lì)合作者,當(dāng)都有相同背叛獲利b值時(shí),網(wǎng)絡(luò)整體的合作水平會(huì)隨著獎(jiǎng)勵(lì)因子的增加而增加,網(wǎng)絡(luò)中的個(gè)體更趨向于合作;如果只獎(jiǎng)勵(lì)背叛者,當(dāng)都有相同背叛獲利b值時(shí),網(wǎng)絡(luò)整體合作水平會(huì)隨著獎(jiǎng)勵(lì)因子的增加而降低,網(wǎng)絡(luò)中的個(gè)體更趨向于背叛;如果對(duì)整個(gè)網(wǎng)絡(luò)中所有個(gè)體都獎(jiǎng)勵(lì),當(dāng)都有相同背叛獲利b值時(shí),網(wǎng)絡(luò)整體合作水平呈現(xiàn)出隨著獎(jiǎng)勵(lì)因子的增加而升高,即可以說(shuō)明獎(jiǎng)勵(lì)因子對(duì)合作者的影響要高于對(duì)背叛者的影響,使得網(wǎng)絡(luò)中所有個(gè)體更趨向于合作,這也是獎(jiǎng)勵(lì)因子可以提高網(wǎng)絡(luò)整體合作水平的原因。
總結(jié)與展望
本文建立一個(gè)基于獎(jiǎng)勵(lì)因子的囚徒困境博弈模型,在網(wǎng)絡(luò)中個(gè)體博弈過(guò)程中,根據(jù)個(gè)體所采取的策略不斷更新其收益,使得個(gè)體在更新策略時(shí)考慮獎(jiǎng)勵(lì)因子對(duì)個(gè)體學(xué)習(xí)過(guò)程的影響。我們看到獎(jiǎng)勵(lì)因子會(huì)明顯提高網(wǎng)絡(luò)整體的合作水平,并發(fā)現(xiàn)獎(jiǎng)勵(lì)因子對(duì)合作者的影響要高于對(duì)背叛者的影響,導(dǎo)致網(wǎng)絡(luò)整體合作水平會(huì)隨著獎(jiǎng)勵(lì)因子的增加而升高,網(wǎng)絡(luò)中所有個(gè)體更趨向于合作而不是背叛。該結(jié)論對(duì)獎(jiǎng)勵(lì)因子提高博弈合作水平的原因有了更全面的解讀。
參考文獻(xiàn)
[1]SANTO FORTUNATO. UNIVERSALITY OF THE THRESHOLD FOR COMPLETE CONSENSUS FOR THE OPINION DYNAMICS OF DEFFUANT et al.[J].International Journal of Modern Physics C,2004,15(9):1301-1307.
[2]王文旭.復(fù)雜網(wǎng)絡(luò)的演化動(dòng)力學(xué)及網(wǎng)絡(luò)上的動(dòng)力學(xué)過(guò)程研究[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2007.
[3]代瓊琳.復(fù)雜網(wǎng)絡(luò)上的演化博弈動(dòng)力學(xué)研究[D]北京:北京郵電大學(xué),2011.
[4]楊志虎.復(fù)雜網(wǎng)絡(luò)上的演化博弈與合作演化動(dòng)力學(xué)研究[D].西安:西安電子科技大學(xué),2014.
[5]李燕.空間囚徒困境博弈中合作解的演化[D].杭州:浙江大學(xué),2017.
[6]廖列法,孫瑋,劉朝陽(yáng).基于演化博弈研究移動(dòng)和噪聲對(duì)合作的影響[J].計(jì)算機(jī)應(yīng)用與軟件,2015(3):53-56.
[7]劉華,李瑩,趙建立,等.沉默策略對(duì)囚徒困境博弈合作水平的影響[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2016,46(20):240-247.
[8]宋亦泠,王秉中,朱洪,等.重復(fù)囚徒困境的學(xué)習(xí)和響應(yīng)模型[J].計(jì)算機(jī)工程與科學(xué),2007,29(10):115-119.
[9]劉貞,任玉瓏,唐松林.基于Mealy自動(dòng)機(jī)的重復(fù)囚徒困境博弈模型[J].管理科學(xué),2006,19(5):66-70.
[10]Doebeli M,Hauert C.Models of cooperation based on the Prisoners Dilemma and the Snowdrift game[J].Ecology Letters,2005,8(7):748-766.
[11]陳維春,尚麗輝.基于獎(jiǎng)勵(lì)因子的囚徒困境博弈模型研究[J].電子科技,2016,29(3):5-6.
(作者簡(jiǎn)介:唐宸,重慶市第八中學(xué)校。)endprint