亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多種獎(jiǎng)勵(lì)機(jī)制的囚徒困境博弈模型研究

2018-01-11 17:51:04唐宸

科學(xué)家 2017年24期

囚徒困境博弈模型作為演化博弈經(jīng)典模型成為近年來(lái)的研究熱點(diǎn)，針對(duì)規(guī)則格子網(wǎng)絡(luò)中如何提高囚徒困境博弈的合作水平問(wèn)題，我們引入獎(jiǎng)勵(lì)因子來(lái)促進(jìn)參與者采取合作策略。為了研究獎(jiǎng)勵(lì)因子對(duì)網(wǎng)絡(luò)中所有個(gè)體采取合作或背叛策略的影響，并探究獎(jiǎng)勵(lì)因子針對(duì)不同獎(jiǎng)勵(lì)對(duì)象時(shí)對(duì)規(guī)則網(wǎng)絡(luò)中囚徒博弈合作水平的影響，我們引入3種獎(jiǎng)勵(lì)機(jī)制：只獎(jiǎng)勵(lì)合作者；只獎(jiǎng)勵(lì)背叛者；對(duì)整個(gè)網(wǎng)絡(luò)中的所有個(gè)體都獎(jiǎng)勵(lì)。我們?cè)贛atlab平臺(tái)上進(jìn)行仿真實(shí)驗(yàn)，看到獎(jiǎng)勵(lì)因子會(huì)明顯提高網(wǎng)絡(luò)整體的合作水平，并找到其原因，是因?yàn)楠?jiǎng)勵(lì)因子對(duì)合作者的影響要高于對(duì)背叛者的影響，使得當(dāng)都有相同背叛獲利b值時(shí)，網(wǎng)絡(luò)整體合作水平會(huì)隨著獎(jiǎng)勵(lì)因子的增加而升高，網(wǎng)絡(luò)中所有個(gè)體更趨向于合作而不是背叛。

自1950年Nash所做出的開創(chuàng)性工作以來(lái)，博弈成為了一門系統(tǒng)理論，并被廣泛應(yīng)用到人類社會(huì)，特別是經(jīng)濟(jì)行為當(dāng)中。作為一門交叉研究學(xué)科，在復(fù)雜網(wǎng)絡(luò)中的演化博弈成為現(xiàn)在的關(guān)注熱點(diǎn)之一。囚徒困境博弈模型作為演化博弈經(jīng)典模型之一，研究其在規(guī)則網(wǎng)絡(luò)中演化更是重中之重[1-5]。

現(xiàn)實(shí)中利己者間出現(xiàn)的自發(fā)合作行為及其維持機(jī)制得到了越來(lái)越多的關(guān)注[6-7]，將演化博弈理論與復(fù)雜網(wǎng)絡(luò)的結(jié)合也成為了一個(gè)熱點(diǎn)[8-9]。在復(fù)雜網(wǎng)絡(luò)的演化博弈中，通常以網(wǎng)絡(luò)中的節(jié)點(diǎn)作為個(gè)體，使用規(guī)則格子網(wǎng)絡(luò)表示一般性人際關(guān)系網(wǎng)絡(luò)，為了有效地促進(jìn)參與者采取合作策略，在囚徒困境博弈模型中引入獎(jiǎng)勵(lì)因子，在網(wǎng)絡(luò)中的個(gè)體進(jìn)行策略學(xué)習(xí)時(shí)，我們改變其收益函數(shù)，使得下一輪的收益出現(xiàn)變動(dòng)，從而探究這種變動(dòng)對(duì)博弈模型合作水平的影響。本文將基于“獎(jiǎng)勵(lì)”機(jī)制，在引入獎(jiǎng)勵(lì)因子的概念，又探究獎(jiǎng)勵(lì)因子針對(duì)不同獎(jiǎng)勵(lì)對(duì)象對(duì)規(guī)則網(wǎng)絡(luò)中囚徒博弈合作水平的影響。

本文首先闡述囚徒困境博弈模型及規(guī)則網(wǎng)絡(luò)模型的構(gòu)建，并將具體闡述本研究所采用的模型及其收益矩陣、獎(jiǎng)勵(lì)因子；其次進(jìn)行實(shí)驗(yàn)仿真，并利用Matlab實(shí)現(xiàn)模型的構(gòu)建與仿真實(shí)驗(yàn)；最后給出研究結(jié)論。

模型

囚徒困境博弈模型

在博弈中，每個(gè)個(gè)體都有幾種策略，個(gè)體會(huì)從這些策略中選出一種以使自己獲得最大的收益[10]，并且每個(gè)人都是理性的。囚徒困境是兩個(gè)被捕的囚徒之間的一種特殊博弈，其說(shuō)明了為什么甚至在合作對(duì)雙方都有利時(shí)，保持合作也是困難的。在囚徒困境博弈模型中，每個(gè)個(gè)體都有兩種策略選擇：合作C（Cooperation）、背叛D（Defection）。如A、B兩個(gè)個(gè)體進(jìn)行博弈時(shí)，會(huì)出現(xiàn)四種情況：如果個(gè)體A采取背叛D策略，個(gè)體B采取合作C策略，那么個(gè)體A的收益為T，個(gè)體B的收益為S；如果A、B雙方都采取合作C策略，那么雙方均獲得利益為R；如果A、B雙方都采取背叛D策略，那么雙方均獲得收益為P。即收益矩陣E為：

且對(duì)于囚徒困境博弈，有如下規(guī)則：T>R>P>S，且2R>T+S。在囚徒困境博弈中，兩個(gè)個(gè)體需要同時(shí)決定他們各自的策略。

為了方便研究，簡(jiǎn)化收益矩陣中參數(shù)的數(shù)目，我們使用Weak-PD模型，即采用Nowak和May使用的收益矩陣E：

在本文中，我們考慮PD博弈模型為Weak-PD博弈模型，且令1

方格子網(wǎng)絡(luò)模型

本文采用100×100具有周期邊界條件的方格子網(wǎng)絡(luò)，即存在10 000個(gè)個(gè)體，如圖1所示。其中，黃色圓圈表示網(wǎng)絡(luò)中的個(gè)體，數(shù)字為個(gè)體標(biāo)號(hào)，黑色線表示網(wǎng)絡(luò)中個(gè)體與個(gè)體之間的連接關(guān)系，藍(lán)色虛線方框內(nèi)為100×100方格子網(wǎng)絡(luò)，藍(lán)色虛線方框外側(cè)表示該網(wǎng)絡(luò)所具有的周期邊界條件。因?yàn)闉榉礁褡泳W(wǎng)絡(luò)，則每個(gè)個(gè)體有四個(gè)鄰居。

引入獎(jiǎng)勵(lì)因子

分析收益矩陣，如果兩個(gè)個(gè)體進(jìn)行一次博弈，個(gè)體為了達(dá)到自己收益最大化，都會(huì)選擇背叛策略。但是為了提高整體的合作水平，需要采取某種“獎(jiǎng)勵(lì)”措施來(lái)促進(jìn)個(gè)體采取合作策略，從而有利于合作策略的涌現(xiàn)和維持。在這里我們引入文獻(xiàn)[11]中的獎(jiǎng)勵(lì)因子規(guī)則，對(duì)網(wǎng)絡(luò)中的個(gè)體進(jìn)行收益上的獎(jiǎng)勵(lì)。為了便于研究不同獎(jiǎng)勵(lì)機(jī)制對(duì)規(guī)則網(wǎng)絡(luò)中囚徒困境博弈合作水平的影響，我們維持一個(gè)穩(wěn)定的記憶長(zhǎng)度M。

Matlab仿真及結(jié)果分析

Matlab是將計(jì)算矩陣、分析數(shù)值、數(shù)據(jù)可視化以及非線性動(dòng)力學(xué)系統(tǒng)的建模和仿真等諸多強(qiáng)大功能集成在一起的強(qiáng)大軟件。本文利用Matlab軟件進(jìn)行仿真，過(guò)程為：在圖1所示的方格子網(wǎng)絡(luò)中進(jìn)行博弈；初始網(wǎng)絡(luò)中全部10 000個(gè)個(gè)體的初始策略，在這里我們采用隨機(jī)賦值初始條件法；設(shè)定MCS為1×104；由于初始條件為隨機(jī)初始條件，為了消除隨機(jī)誤差，我們做了100次系綜平均。

在本文中，我們將獎(jiǎng)勵(lì)機(jī)制分為3種：1）只獎(jiǎng)勵(lì)合作者；2）只獎(jiǎng)勵(lì)背叛者；3）對(duì)整個(gè)網(wǎng)絡(luò)中的所有個(gè)體都獎(jiǎng)勵(lì)。

如圖2所示，a為只獎(jiǎng)勵(lì)合作者、b為只獎(jiǎng)勵(lì)背叛者、c為同時(shí)獎(jiǎng)勵(lì)時(shí)，獎(jiǎng)勵(lì)因子分別取

通過(guò)比較圖2中a、b、c三圖，我們可以發(fā)現(xiàn)，選擇不同的獎(jiǎng)勵(lì)機(jī)制，對(duì)網(wǎng)絡(luò)中整體的合作水平的影響也不同。如果只獎(jiǎng)勵(lì)合作者，當(dāng)都有相同背叛獲利b值時(shí)，網(wǎng)絡(luò)整體的合作水平會(huì)隨著獎(jiǎng)勵(lì)因子的增加而增加，網(wǎng)絡(luò)中的個(gè)體更趨向于合作；如果只獎(jiǎng)勵(lì)背叛者，當(dāng)都有相同背叛獲利b值時(shí)，網(wǎng)絡(luò)整體合作水平會(huì)隨著獎(jiǎng)勵(lì)因子的增加而降低，網(wǎng)絡(luò)中的個(gè)體更趨向于背叛；如果對(duì)整個(gè)網(wǎng)絡(luò)中所有個(gè)體都獎(jiǎng)勵(lì)，當(dāng)都有相同背叛獲利b值時(shí)，網(wǎng)絡(luò)整體合作水平呈現(xiàn)出隨著獎(jiǎng)勵(lì)因子的增加而升高，即可以說(shuō)明獎(jiǎng)勵(lì)因子對(duì)合作者的影響要高于對(duì)背叛者的影響，使得網(wǎng)絡(luò)中所有個(gè)體更趨向于合作，這也是獎(jiǎng)勵(lì)因子可以提高網(wǎng)絡(luò)整體合作水平的原因。

總結(jié)與展望

本文建立一個(gè)基于獎(jiǎng)勵(lì)因子的囚徒困境博弈模型，在網(wǎng)絡(luò)中個(gè)體博弈過(guò)程中，根據(jù)個(gè)體所采取的策略不斷更新其收益，使得個(gè)體在更新策略時(shí)考慮獎(jiǎng)勵(lì)因子對(duì)個(gè)體學(xué)習(xí)過(guò)程的影響。我們看到獎(jiǎng)勵(lì)因子會(huì)明顯提高網(wǎng)絡(luò)整體的合作水平，并發(fā)現(xiàn)獎(jiǎng)勵(lì)因子對(duì)合作者的影響要高于對(duì)背叛者的影響，導(dǎo)致網(wǎng)絡(luò)整體合作水平會(huì)隨著獎(jiǎng)勵(lì)因子的增加而升高，網(wǎng)絡(luò)中所有個(gè)體更趨向于合作而不是背叛。該結(jié)論對(duì)獎(jiǎng)勵(lì)因子提高博弈合作水平的原因有了更全面的解讀。

參考文獻(xiàn)

[1]SANTO FORTUNATO. UNIVERSALITY OF THE THRESHOLD FOR COMPLETE CONSENSUS FOR THE OPINION DYNAMICS OF DEFFUANT et al.[J].International Journal of Modern Physics C，2004，15（9）：1301-1307.

[2]王文旭.復(fù)雜網(wǎng)絡(luò)的演化動(dòng)力學(xué)及網(wǎng)絡(luò)上的動(dòng)力學(xué)過(guò)程研究[D].合肥：中國(guó)科學(xué)技術(shù)大學(xué)，2007.

[3]代瓊琳.復(fù)雜網(wǎng)絡(luò)上的演化博弈動(dòng)力學(xué)研究[D]北京：北京郵電大學(xué)，2011.

[4]楊志虎.復(fù)雜網(wǎng)絡(luò)上的演化博弈與合作演化動(dòng)力學(xué)研究[D].西安：西安電子科技大學(xué)，2014.

[5]李燕.空間囚徒困境博弈中合作解的演化[D].杭州：浙江大學(xué)，2017.

[6]廖列法，孫瑋，劉朝陽(yáng).基于演化博弈研究移動(dòng)和噪聲對(duì)合作的影響[J].計(jì)算機(jī)應(yīng)用與軟件，2015（3）：53-56.

[7]劉華，李瑩，趙建立，等.沉默策略對(duì)囚徒困境博弈合作水平的影響[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí)，2016，46（20）：240-247.

[8]宋亦泠，王秉中，朱洪，等.重復(fù)囚徒困境的學(xué)習(xí)和響應(yīng)模型[J].計(jì)算機(jī)工程與科學(xué)，2007，29（10）：115-119.

[9]劉貞，任玉瓏，唐松林.基于Mealy自動(dòng)機(jī)的重復(fù)囚徒困境博弈模型[J].管理科學(xué)，2006，19（5）：66-70.

[10]Doebeli M，Hauert C.Models of cooperation based on the Prisoners Dilemma and the Snowdrift game[J].Ecology Letters，2005，8（7）：748-766.

[11]陳維春，尚麗輝.基于獎(jiǎng)勵(lì)因子的囚徒困境博弈模型研究[J].電子科技，2016，29（3）：5-6.

（作者簡(jiǎn)介：唐宸，重慶市第八中學(xué)校。）endprint