演化博弈與資源配置綜述

2022-01-10 07:38:28張艷玲莫廷鈺李松濤

工程科學(xué)學(xué)報(bào) 2022年3期

張艷玲，莫廷鈺，李松濤，張妍，李擎?

1) 北京科技大學(xué)自動(dòng)化學(xué)院，北京 100083 2) 工業(yè)過程知識(shí)自動(dòng)化教育部重點(diǎn)實(shí)驗(yàn)室，北京 100083

20世紀(jì)末，復(fù)雜網(wǎng)絡(luò)研究的興起在國(guó)內(nèi)外掀起一股新的研究復(fù)雜性科學(xué)的熱潮[1]，而復(fù)雜網(wǎng)絡(luò)本身也形成了一門新學(xué)科——網(wǎng)絡(luò)科學(xué). 復(fù)雜網(wǎng)絡(luò)能夠很好地刻畫實(shí)際生物、社會(huì)和工業(yè)系統(tǒng)中所表現(xiàn)的社團(tuán)結(jié)構(gòu)、小世界特性、無標(biāo)度特性等網(wǎng)絡(luò)拓?fù)? 集群行為普遍存在于各類真實(shí)系統(tǒng)中，如蟻群互助覓食、蜂群協(xié)同建巢、鴿群編隊(duì)飛行、魚群渦旋游動(dòng)和人類選舉投票等. 相應(yīng)地，復(fù)雜網(wǎng)絡(luò)上集群行為的相關(guān)研究成為多學(xué)科交叉的熱點(diǎn)問題[2-9]，主要聚焦以下三方面：(1)通過對(duì)動(dòng)物和人類進(jìn)行大量行為學(xué)實(shí)驗(yàn)，證實(shí)集群行為的存在性；(2)以集群行為的存在作為前提假設(shè)，研究據(jù)此所誘導(dǎo)的社會(huì)、經(jīng)濟(jì)和工程影響，或仿照集群行為設(shè)計(jì)控制律和智能算法；(3)將集群行為的存在看作是需要證明的結(jié)論，即對(duì)集群行為如何從個(gè)體的簡(jiǎn)單交互中涌現(xiàn)提供完整解釋.

行為學(xué)證實(shí)了集群行為的普遍存在性，而經(jīng)濟(jì)學(xué)、社會(huì)學(xué)和統(tǒng)計(jì)物理學(xué)發(fā)現(xiàn)了集群行為存在的重要性. 不僅要“知其然”，也要“知其所以然”.一個(gè)自然的問題是，集群行為從何而來，為什么能夠長(zhǎng)期穩(wěn)定存在？行為學(xué)實(shí)驗(yàn)有效支持了利用演化論解釋集群行為涌現(xiàn)的合理性. 以公平行為為例加以闡述[10-12]：聚焦公平偏好神經(jīng)學(xué)解釋的實(shí)驗(yàn)證明，人類的公平偏好具有生理基礎(chǔ)；針對(duì)兒童進(jìn)行公平行為測(cè)試的研究表明，未成年兒童的公平偏好會(huì)隨著年齡的增長(zhǎng)而上升，暗示人類的公平偏好在社會(huì)學(xué)習(xí)中不斷演化進(jìn)步；隨著社會(huì)的不斷進(jìn)化，人類不斷提升自身的公平偏好.

由行為學(xué)可見，復(fù)雜網(wǎng)絡(luò)上演化博弈可被用來研究集群行為的涌現(xiàn). 此類研究往往利用復(fù)雜網(wǎng)絡(luò)對(duì)個(gè)體間交互方式進(jìn)行數(shù)學(xué)建模[13-14]：邊連接博弈對(duì)象和模仿對(duì)象；而邊的權(quán)重描述個(gè)體間交互強(qiáng)度，量化個(gè)體被選為博弈對(duì)象或模仿對(duì)象的概率. 同時(shí)利用經(jīng)典博弈(例如最后通牒博弈)的演化動(dòng)力學(xué)對(duì)個(gè)體間決策范式進(jìn)行數(shù)學(xué)建模：策略更新過程刻畫自然選擇，即個(gè)體在與博弈對(duì)象進(jìn)行交互后獲取收益，收益越高的個(gè)體，它的策略越容易被模仿對(duì)象所采用；而在突變的作用下，個(gè)體探索地采取全新策略. 最后以整個(gè)系統(tǒng)為研究對(duì)象，分析群體策略的動(dòng)態(tài)演化過程，并獲取群體行為的統(tǒng)計(jì)學(xué)規(guī)律. 最常采用的研究方式是計(jì)算機(jī)仿真，即利于計(jì)算機(jī)程序?qū)?dòng)力學(xué)進(jìn)行模擬[15]. 另一種重要但十分具有挑戰(zhàn)性的研究方式是理論分析，即利用數(shù)學(xué)工具量化動(dòng)力學(xué)[16-19].

本文組織結(jié)構(gòu)如下：第1部分簡(jiǎn)要介紹基于演化博弈的合作演化機(jī)制研究現(xiàn)狀；第2部分闡述復(fù)雜網(wǎng)絡(luò)上演化博弈的理論分析方法；第3部分給出基于最后通牒博弈的公平偏好涌現(xiàn)機(jī)制的相關(guān)研究；第4部分總結(jié)本文的主要內(nèi)容，并歸納了復(fù)雜網(wǎng)絡(luò)上最后通牒博弈研究現(xiàn)階段的不足和未來的發(fā)展方向.

1 基于演化博弈的合作演化機(jī)制

演化博弈理論曾相當(dāng)成功地解釋了生物進(jìn)化過程中的某些現(xiàn)象，最為經(jīng)典的早期工作是1973年Smith和Price將其用來解釋動(dòng)物的斗爭(zhēng)行為，同時(shí)提出了演化穩(wěn)定策略[20]. 之后，經(jīng)濟(jì)學(xué)、社會(huì)學(xué)和統(tǒng)計(jì)物理學(xué)運(yùn)用演化博弈論分析影響集群行為形成的各類因素，獲取了豐富且具有啟發(fā)意義的研究成果[21-24]. 近期，眾多學(xué)者試圖將控制論和演化博弈理論結(jié)合，希望借助一定的控制手段令群體行為演化到期望狀態(tài)，從而實(shí)現(xiàn)更加有效的工程應(yīng)用[25-30].

被演化博弈論最為頻繁研究的集群行為是合作行為[31-33]. 2006年，Nowak總結(jié)性地提出了五種有利于合作演化的機(jī)制[34]（圖 1）：(1)親緣選擇[35-36]，通過具有親緣和遺傳關(guān)系的個(gè)體之間的關(guān)系來促進(jìn)合作，即個(gè)體更愿意與親緣關(guān)系較近的對(duì)手合作. (2)直接互惠[37-38]，在重復(fù)博弈中，個(gè)體當(dāng)前階段的合作誘發(fā)對(duì)手在后續(xù)階段的合作行為. (3)間接互惠[39-40]，此時(shí)聲望起關(guān)鍵作用，合作的個(gè)體具備較高的聲望，從而在接下來的博弈階段更容易獲得他人的幫助. (4)網(wǎng)絡(luò)互惠[41-42]，復(fù)雜網(wǎng)絡(luò)的連接關(guān)系令合作者“抱團(tuán)取暖”而存活，背叛者無法再利用合作者而消亡. (5)群組選擇[43]，自然選擇作用于群組而非個(gè)體，通過群組選擇來決定個(gè)體策略演化.

圖1 五大促進(jìn)合作涌現(xiàn)的機(jī)制[34]. （a）親緣選擇；（b）直接互惠；（c）間接互惠；（d）群組選擇；（e）網(wǎng)絡(luò)互惠Fig.1 Five mechanisms for the emergence of cooperation[34]: (a) kin selection; (b) direct reciprocity; (c) indirect reciprocity; (d) group selection; (e) network reciprocity

除了上面介紹的演化合作機(jī)制外，還有一些機(jī)制也能夠促進(jìn)合作，例如個(gè)體異質(zhì)性和環(huán)境反饋. 個(gè)體異質(zhì)性本質(zhì)上描述了不同主體間相互比較過程中，展現(xiàn)出來的身心特征上的彼此各不相同的現(xiàn)象，這主要是由于個(gè)體的成長(zhǎng)過程受遺傳和環(huán)境的交互影響. 例如，主體間的能力有高低之分，不同主體才能的形成有早有晚，且各有所長(zhǎng).個(gè)體異質(zhì)性在群體競(jìng)爭(zhēng)中普遍存在，演化博弈研究的異質(zhì)個(gè)體可歸為三類：其一是異質(zhì)網(wǎng)絡(luò)中，每個(gè)主體參與博弈總次數(shù)呈現(xiàn)天然異質(zhì)性，而這種異質(zhì)性從整體上利于合作的演化[44]. 其二是個(gè)體間行為模式存在異質(zhì)性，即個(gè)體與不同對(duì)手采取不同策略、不同交互概率和模仿概率，這種差異性可以在一定條件下促進(jìn)兩人博弈[45]或多人博弈中合作的演化[46]. 其三是公共品博弈的投資、產(chǎn)出和分配額因人而異. 當(dāng)產(chǎn)出的協(xié)同效應(yīng)和折扣效應(yīng)以概率共存時(shí)，高概率的協(xié)同效應(yīng)能夠促進(jìn)合作[47]；在分配額越大的博弈中投資越多，越有利于合作的演化[48]；在重復(fù)博弈中，投資的極端異質(zhì)性抑制合作，而當(dāng)個(gè)體間分配額存在差異時(shí)，適當(dāng)?shù)耐顿Y異質(zhì)性反而是促進(jìn)合作的必要條件[49].

策略演化動(dòng)力學(xué)與環(huán)境相互影響而形成的反饋在生物和社會(huì)系統(tǒng)中普遍存在. 例如，接種疫苗的不充分往往導(dǎo)致本可以預(yù)防的傳染病大規(guī)模爆發(fā)；之后，政府通過宣傳疫苗接種必要性等反饋措施改善疫苗的接種環(huán)境和群體的決策行為. 最近，環(huán)境反饋對(duì)于合作演化的影響激發(fā)了研究人員的濃厚興趣[50-52]，這里探討的環(huán)境反饋是在隨機(jī)博弈的研究框架下的定義的，隨機(jī)博弈通常包括若干個(gè)博弈主體、各主體的策略集合、收益矩陣及更新過程. 收益矩陣和更新過程令部分主體改變自身策略，從而影響環(huán)境狀態(tài)；環(huán)境狀態(tài)的變化導(dǎo)致不同的收益矩陣，環(huán)境通過收益矩陣的變化直接反過來影響策略演化動(dòng)力學(xué). Hilbe等將隨機(jī)博弈思想融入重復(fù)博弈，具體而言，每一輪的個(gè)體行為及博弈共同決定下一輪的博弈[53]. 此時(shí)，環(huán)境反饋和直接互惠可以極大促進(jìn)合作的演化，遠(yuǎn)高于只有環(huán)境反饋或直接互惠所誘導(dǎo)的合作水平. 類似地，Su等將隨機(jī)博弈思想融入規(guī)則網(wǎng)絡(luò)群體[54]，其中博弈轉(zhuǎn)移大大放松合作演化的條件，特別地，即使在每個(gè)備選博弈中合作無法演化，而在備選博弈間轉(zhuǎn)移卻能夠促進(jìn)合作的演化. Weitz等將群體中博弈的變化由一個(gè)類似的復(fù)制動(dòng)力學(xué)刻畫，發(fā)現(xiàn)群體在好環(huán)境、壞環(huán)境、合作、背叛間不斷往復(fù)震蕩[55]. 稍后的研究表明類似的震蕩環(huán)也出現(xiàn)在環(huán)境反饋下的非對(duì)稱兩人博弈和網(wǎng)絡(luò)群體[56-57].同時(shí)研究框架被推廣到公共品博弈[58],發(fā)現(xiàn)資源反饋可以有效促進(jìn)合作的演化.

2 復(fù)雜網(wǎng)絡(luò)上演化博弈的理論分析方法

自從Nowak和May開創(chuàng)性地研究了方格網(wǎng)絡(luò)群體中的囚徒困境[59]，復(fù)雜網(wǎng)絡(luò)上的演化博弈成為研究網(wǎng)絡(luò)群體中策略競(jìng)爭(zhēng)的有效工具. 常見的網(wǎng)絡(luò)包括規(guī)則網(wǎng)絡(luò)、小世界網(wǎng)絡(luò)、無標(biāo)度網(wǎng)絡(luò)和社團(tuán)結(jié)構(gòu)網(wǎng)絡(luò)，如圖2所示[59-60]. 目前，國(guó)內(nèi)外學(xué)者對(duì)復(fù)雜網(wǎng)絡(luò)上的兩策略競(jìng)爭(zhēng)進(jìn)行了系統(tǒng)的研究[61-62]，相關(guān)研究大多利用計(jì)算機(jī)仿真進(jìn)行[63-68]. 而理論分析是深刻理解網(wǎng)絡(luò)群體中策略競(jìng)爭(zhēng)的必要條件. 在中性選擇這種適應(yīng)度與收益無關(guān)的特殊情形下，策略在網(wǎng)絡(luò)的擴(kuò)散過程僅僅依賴隨機(jī)漂移（由狀態(tài)更新過程本身的隨機(jī)性所決定）. 相應(yīng)固定概率具有封閉形式計(jì)算公式，這里的固定概率指的是單個(gè)變異體傳播到整個(gè)群體的概率，具體數(shù)值往往與變異體出現(xiàn)的位置相關(guān). 然而，復(fù)雜網(wǎng)絡(luò)上一般演化博弈的理論研究較為稀少，且在弱選擇情形下進(jìn)行. 弱選擇意味適應(yīng)度對(duì)收益依賴程度較小，允許擾動(dòng)理論的使用，從而獲得解析成果. 同時(shí)探索弱選擇情形的演化博弈具有現(xiàn)實(shí)意義，因?yàn)槊總€(gè)主體在生活中參與大量博弈，而單一博弈對(duì)適應(yīng)度的影響往往很小. 況且在強(qiáng)選擇情形下，即適應(yīng)度依賴收益的程度較大，相應(yīng)固定概率已被證明沒有封閉形式計(jì)算公式，也不能被一個(gè)多項(xiàng)式時(shí)間算法所求解[69]. 下面，將分別闡述兩類主流的復(fù)雜網(wǎng)絡(luò)上演化博弈理論分析方法：針對(duì)離散策略，計(jì)算 σ -占優(yōu)條件；針對(duì)連續(xù)策略，分析適應(yīng)動(dòng)力學(xué).

針對(duì)離散策略，弱選擇情形下最一般理論結(jié)果莫過于 σ -占優(yōu)條件的推導(dǎo)[70]. 具體而言，兩策略競(jìng)爭(zhēng)中策略占優(yōu)條件線性依賴收益矩陣和結(jié)構(gòu)系數(shù)(Structure coefficient， σ )，其中參數(shù) σ 與收益矩陣無關(guān)，它可以量化交互網(wǎng)絡(luò)和更新過程對(duì)于策略選擇影響的大小. 這里的策略占優(yōu)指的是一種策略的穩(wěn)態(tài)頻率高于另一種策略，在小變異情形下，等價(jià)于一種策略的固定概率高于另一種策略. 相應(yīng)地，網(wǎng)絡(luò)群體中兩策略競(jìng)爭(zhēng)的理論研究轉(zhuǎn)化為結(jié)構(gòu)系數(shù) σ的計(jì)算. 群體的策略演化可由一個(gè)馬爾科夫決策過程刻畫，然而在一般復(fù)雜網(wǎng)絡(luò)群體中，群體狀態(tài)應(yīng)該包含所有主體的策略和位置，無法一一列舉出來，相應(yīng)的狀態(tài)轉(zhuǎn)移矩陣無法刻畫，群體的穩(wěn)態(tài)頻率無法由直接方法計(jì)算出來，因此計(jì)算 σ 往往極具挑戰(zhàn)性.

當(dāng)群體演化過程滿足假設(shè)I：全局更新（即所有主體共同競(jìng)爭(zhēng)產(chǎn)生后代），學(xué)者推導(dǎo)出 σ 的形式表達(dá)式[70]，即其中x2代表策略2主體在群體中的比例，Iij代表策略i主體和策略j主體交互數(shù)目，＜＞0代表中性選擇（所有主體具有相同收益）下的期望. 這個(gè)形式表達(dá)式給出了 σ 的簡(jiǎn)單算法：在所有主體具有相同適應(yīng)度的結(jié)構(gòu)群體演化過程中，記錄群體在每一時(shí)刻的x2I11和x2I12，將所有時(shí)刻的這兩個(gè)值進(jìn)行平均，再取比值即可獲得 σ ，該算法可由大數(shù)定律保障收斂性.

針對(duì)滿足假設(shè)I的具體模型—— 基于表現(xiàn)型和基于集合的結(jié)構(gòu)群體，Antal等在大群體的前提下給出了 σ 近似解析表達(dá)式[71]，其具體思路是，＜x2I11＞0和＜x2I12＞0轉(zhuǎn)化為中性選擇時(shí)，計(jì)算隨機(jī)選擇的多主體具有相同策略或相同位置的概率.而溯祖理論是適用中性選擇的經(jīng)典方法，核心思想是，在回顧多主體祖先的過程中，只要回顧時(shí)間足夠長(zhǎng)，總會(huì)找到他們最近的共同祖先. 計(jì)算合作占優(yōu)條件的關(guān)鍵思路是，從當(dāng)前的多主體回顧到他們最近共同祖先的過程中，確定每個(gè)主體是否發(fā)生變異或更改位置.

Antal等推導(dǎo)了全局遷移下 σ 的近似解析表達(dá)式[71]，Zhang等將溯祖理論和隨機(jī)游走結(jié)合起來計(jì)算任意遷移模式下結(jié)構(gòu)系數(shù) σ[72]. 此時(shí)，從當(dāng)前的多主體回溯到他們最近共同祖先的過程中，溯祖理論不再只是確定其是否變異或遷移，而是更準(zhǔn)確地捕捉到每個(gè)主體發(fā)生變異或遷移的祖先數(shù)目. 之后利用多個(gè)隨機(jī)游走追蹤從最近共同祖先到當(dāng)前期間每個(gè)主體祖先的策略變化軌跡和位置變化軌跡.

上述工作均是在假設(shè)I下進(jìn)行的. 為了放松假設(shè)I，即演化過程服從局部更新，不再要求全局更新，Ohtsuki等針對(duì)隨機(jī)規(guī)則網(wǎng)絡(luò)，利用對(duì)估計(jì)方法獲得兩人博弈中合作占優(yōu)的條件[73]. 相應(yīng)結(jié)果可在大群體的前提下給出 σ的近似解析表達(dá)式. 對(duì)估計(jì)方法是一種平均場(chǎng)估計(jì)方法，利用六個(gè)變量刻畫群體狀態(tài). 假設(shè)兩種策略A和B共存于群體，相應(yīng)的六個(gè)變量為：隨機(jī)選擇的個(gè)體采取策略A(B)的概率為xA(xB)；在選中一個(gè)A個(gè)體后，任意選擇他的一個(gè)鄰居采取A(B)的條件概率為xAA(xAB)；在選中一個(gè)B個(gè)體后，任意選擇他的一個(gè)鄰居采取A(B)的條件概率為xBA(xBB). 以上六個(gè)變量中的xA和xAA是自由變量，對(duì)估計(jì)方法的核心是根據(jù)策略更新過程對(duì)這兩個(gè)自由變量建立演化方程. 該方法和混合均勻群體的復(fù)制動(dòng)力學(xué)相比，多了一個(gè)刻畫自由變量xAA的動(dòng)力學(xué)方程，此動(dòng)力學(xué)方程可以理解為對(duì)個(gè)體局部交互信息的量化.

同樣為了放松假設(shè)I，Allen等針對(duì)特定規(guī)則網(wǎng)絡(luò)，利用血緣一致性方法推導(dǎo)合作占優(yōu)條件[74]. 相應(yīng)結(jié)果可在大群體的前提下給出 σ 近似解析表達(dá)式. 血緣一致性在生物學(xué)上描述兩個(gè)主體繼承共同祖先的基因. 如果兩個(gè)主體自從共同祖先的那一代到當(dāng)前，在整個(gè)演化過程中都沒有發(fā)生變異，稱這兩個(gè)主體具有血緣一致性關(guān)系. 而獲得合作占優(yōu)條件的核心在于，推導(dǎo)中性選擇時(shí)，位于n步溯祖隨機(jī)游走兩端的個(gè)體擁有血緣一致性的概率.

最近，Allen等利用圖上的溯祖隨機(jī)游走理論，將上述結(jié)果拓展到任意網(wǎng)絡(luò)群體[75]和任意更新過程[76]. 此時(shí)，獲取合作占優(yōu)條件的關(guān)鍵在于，推導(dǎo)中性選擇下從任意兩個(gè)位置開始的溯祖隨機(jī)游走首次相遇的時(shí)間. 同時(shí)由于 σ 不依賴收益矩陣，可將上述合作占優(yōu)條件與 σ -占優(yōu)條件對(duì)比，從而獲取任意網(wǎng)絡(luò)群體中 σ的計(jì)算方法. 這是復(fù)雜網(wǎng)絡(luò)上演化博弈理論分析方法的突破性進(jìn)展，為網(wǎng)絡(luò)群體中兩策略競(jìng)爭(zhēng)提供一個(gè)完整的理論分析框架.

上述理論方法適用研究離散策略的演化動(dòng)力學(xué)，同時(shí)Allen等的最新工作在弱選擇下可獲得一般復(fù)雜網(wǎng)絡(luò)群體中 σ 的解析表達(dá)式[75-76]. 但在強(qiáng)選擇條件下，至今仍然缺少分析一般復(fù)雜網(wǎng)絡(luò)群體演化動(dòng)力學(xué)的理論分析方法.

適應(yīng)動(dòng)力學(xué)是研究連續(xù)策略的經(jīng)典方法，從兩個(gè)時(shí)間尺度，描述小變異情形下連續(xù)策略的演化過程. 從長(zhǎng)期演化角度看，群體近似視為時(shí)時(shí)刻刻采用一種策略，群體策略的演化轉(zhuǎn)化為一系列策略迭代事件的發(fā)生. 從短期時(shí)間尺度看，兩種策略共存于群體，且其中之一迅速占據(jù)群體或在群體中消亡. Zhang等從微觀更新過程出發(fā)，推導(dǎo)有限群體演化博弈的適應(yīng)動(dòng)力學(xué)[77]. 具體思路是，利用主方程描述群體采用某種策略的概率隨時(shí)間變化的動(dòng)力學(xué). 據(jù)此發(fā)現(xiàn)，群體所采用策略的平均演化方向可由變異策略的固定概率所預(yù)測(cè). 同時(shí)利用固定概率關(guān)于變異策略的一階泰勒展開近似群體策略的平均演化路徑. 該方法的局限是一般網(wǎng)絡(luò)群體的固定概率難以獲得具體表達(dá)式.

3 基于演化博弈的資源配置

公平偏好是在資源配置過程中自發(fā)涌現(xiàn)出來的集群行為. 為了刻畫資源配置行為，博弈論構(gòu)建了簡(jiǎn)單易行、操作性強(qiáng)的最后通牒博弈：兩個(gè)參與者配置一筆資源，提議者向響應(yīng)者提出分配方案，如果響應(yīng)者接受該方案，二者按照該方案獲得相應(yīng)資源，否則，二者分文未得. 在忽略個(gè)體為資源產(chǎn)生所付出的成本及個(gè)體間需求的差異性前提下，以均等原則度量公平偏好：絕對(duì)公平指的是提議者均等分配資源且響應(yīng)者只接受均等分配方案，與絕對(duì)公平較為接近的行為展現(xiàn)較高的公平偏好. 該博弈的行為學(xué)實(shí)驗(yàn)證實(shí)了公平偏好的存在性：提議者通常提供給對(duì)方30%～50%的份額，而響應(yīng)者往往接受20%～35%的份額. 公平是各種系統(tǒng)穩(wěn)定運(yùn)行的關(guān)鍵. 對(duì)財(cái)富不公平的分配往往會(huì)造成社會(huì)不平等. 而社會(huì)不平等在皮尤研究中心的報(bào)告中被認(rèn)為是世界上最大的挑戰(zhàn)，擊敗宗教仇恨、污染和核武器等.

最后通牒博弈允許關(guān)注資源配置的兩個(gè)重要方面[78-80]：個(gè)體作為提議者給予對(duì)方的資源量，即提議量；個(gè)體作為響應(yīng)者可接受的最低提議量，即響應(yīng)量. 同時(shí)，它也是最受歡迎的實(shí)驗(yàn)研究對(duì)象之一. 自從復(fù)雜網(wǎng)絡(luò)上演化博弈受到廣泛關(guān)注，網(wǎng)絡(luò)結(jié)構(gòu)就成為促進(jìn)合作演化的最重要機(jī)制. 一個(gè)自然問題是，網(wǎng)絡(luò)結(jié)構(gòu)如何影響最后通牒博弈中公平的演化？早在 2 000年，Page等就發(fā)現(xiàn)環(huán)和方格網(wǎng)絡(luò)本身并不能促進(jìn)公平的演化：當(dāng)模仿過程的噪聲較高，即模仿的準(zhǔn)確率較低時(shí)，群體的平均提議量和響應(yīng)量最終穩(wěn)定在相對(duì)公平的范圍[81]. 類似的結(jié)論也在小世界及隨機(jī)網(wǎng)絡(luò)中發(fā)現(xiàn)[82-83]，且對(duì)各種初始條件和更新過程魯棒[84-87]. 事實(shí)上，噪聲是促進(jìn)公平涌現(xiàn)的機(jī)制之一. 即使在混合均勻群體中，一定程度的噪聲也會(huì)促進(jìn)公平的演化，所誘導(dǎo)的群體資源配置行為與實(shí)驗(yàn)所發(fā)現(xiàn)的分配行為相符合[88]. 這主要是由于噪聲引入一些并不適應(yīng)環(huán)境的策略，特別是當(dāng)高需求的響應(yīng)者進(jìn)入群體后，提議者相應(yīng)地提高自身的提議量. 除了噪聲，眾多學(xué)者還提出很多能夠促進(jìn)網(wǎng)絡(luò)群體中公平偏好涌現(xiàn)的機(jī)制.

目前，最后通牒博弈的行為學(xué)實(shí)驗(yàn)關(guān)注了博弈雙方的關(guān)系因素、博弈決策的情境因素、分配物的數(shù)量因素等對(duì)于決策結(jié)果的影響. 下面將要介紹的五類因素不僅在行為學(xué)實(shí)驗(yàn)而且在演化博弈框架下均被廣泛關(guān)注.

其一是角色分配. Killingback和Studer在方格網(wǎng)絡(luò)中研究角色分配由博弈雙方固有等級(jí)的相對(duì)高低來決定的模型[89]. 當(dāng)適應(yīng)度線性依賴收益時(shí)，群體平均提議量和響應(yīng)量穩(wěn)定在相對(duì)公平的范圍；而在適應(yīng)度與收益的依賴關(guān)系中融入遞減回報(bào)效應(yīng)時(shí)，二者明顯降低. Wu等的研究在無標(biāo)度網(wǎng)絡(luò)中對(duì)比了基于度的角色分配方式和自適應(yīng)角色更替方式[90]. 其中自適應(yīng)角色更替方式更能促進(jìn)公平偏好的涌現(xiàn)，此時(shí)一旦提議者的分配方案被接受，博弈雙方在下一輪博弈中以較大概率擔(dān)當(dāng)相同角色；否則二者以較大概率改變角色進(jìn)行博弈.

其二是聲望. Yang等在方格和隨機(jī)網(wǎng)絡(luò)中研究由聲望確定博弈對(duì)象和角色分配的模型[91]. 具體而言，個(gè)體收益作為聲望信息，鄰居以此選擇是否與其博弈，提議者成功分配資源的次數(shù)作為聲望信息，博弈對(duì)象據(jù)此確定其再次成為提議者的概率. 當(dāng)個(gè)體更愿意與高收益?zhèn)€體進(jìn)行博弈，且聲望較好的個(gè)體往往擔(dān)當(dāng)提議者時(shí)，公平偏好被顯著提高. 此時(shí)，個(gè)體為了獲取更多博弈機(jī)會(huì)和提議者的角色分配，不得不提高自身提議量，與此同時(shí)響應(yīng)者為了獲得較高收益而提高自身響應(yīng)量. 但提議量也沒有必要高于 5 0%，一旦超過 5 0%，個(gè)體更愿意擔(dān)當(dāng)響應(yīng)者.

其三是惡意[92]和非單調(diào)拒絕. 惡意指的是所采取的行為令對(duì)手獲得較少收益或遭受更多損失，具體表現(xiàn)為個(gè)體作為提議者提供給對(duì)方較低分配額，而作為響應(yīng)者拒絕較低提議量. 非單調(diào)拒絕指的是個(gè)體不僅拒絕較低的還拒絕較高的提議量. 這兩種行為的存在性已被行為學(xué)實(shí)驗(yàn)所證實(shí)，同時(shí)也激發(fā)了大量行為學(xué)實(shí)驗(yàn)調(diào)查它們對(duì)于公平演化的影響. 鑒于此，Zhang與Fu在任意網(wǎng)絡(luò)群體中，從理論上對(duì)融入這兩種行為的離散策略最后通牒博弈模型進(jìn)行了分析[93]. 以策略干預(yù)的研究思路，即在原本旗鼓相當(dāng)?shù)墓胶妥运降母?jìng)爭(zhēng)中，通過依次加入利他策略、惡意策略、非單調(diào)拒絕行為，發(fā)現(xiàn)利他抑制公平的演化，惡意和非單調(diào)拒絕促進(jìn)公平的演化.

其四是同理心[94-95]. 同理心指的是個(gè)體提議量等于其響應(yīng)量，意味個(gè)體期待對(duì)方給予自身的份額不低于自身給予他人的份額. 大量研究通常將同理心的存在作為前提假設(shè)，發(fā)現(xiàn)其在眾多網(wǎng)絡(luò)群體中能夠促進(jìn)公平的涌現(xiàn). Zhang等在社團(tuán)結(jié)構(gòu)群體中假設(shè)同理心可隨時(shí)間演化，研究同理心與噪聲如何共同影響公平的演化[96]. 適量的初始同理心和噪聲所誘導(dǎo)的群體資源配置行為與行為學(xué)實(shí)驗(yàn)所展現(xiàn)的分配行為相符合. 當(dāng)噪聲較低時(shí)，初始同理心越強(qiáng)，越有利于群體決策行為接近絕對(duì)公平；而當(dāng)噪聲較高時(shí)，初始同理心越強(qiáng)反而不利于公平的涌現(xiàn).

其五是配置資源總量[97-98]. 你可以輕易地拒絕100元的1%，但你會(huì)拒絕100億元的1%嗎？實(shí)驗(yàn)者為證實(shí)配置資源對(duì)于公平的影響進(jìn)行了大量實(shí)驗(yàn)，但仍缺乏一致性結(jié)論. Zhang等理論分析了最后通牒博弈中配置資源如何影響資源配置行為[99]. 推導(dǎo)了社團(tuán)結(jié)構(gòu)群體中平均提議量和響應(yīng)量，發(fā)現(xiàn)二者所占比例反比于配置資源，即隨著配置資源量的增加，群體所展現(xiàn)的決策行為越來越接近于子博弈完美納什均衡. 而群體平均提議量和響應(yīng)量本身的大小二次依賴于配置資源，其中配置資源越大，提議量越大，而適中的配置資源誘導(dǎo)最大的響應(yīng)量.

“角色分配”和“聲望”屬于博弈雙方的關(guān)系因素，“角色分配”指的是博弈中的身份，并非隨機(jī)指定，而是通過一定手段獲得提議者的身份，“聲望”指的是提議者做決策時(shí)會(huì)考慮提議方案影響自身的聲望；“惡意”和“同理心”屬于分配意圖方面的博弈決策情境因素，“惡意”指的是厭惡對(duì)方的情緒，“同理心“指的是以自己的標(biāo)準(zhǔn)要求別人；“配置資源總量”屬于分配物的數(shù)量因素. 除了上述因素外，Deng等提出每個(gè)主體同時(shí)位于兩個(gè)物理網(wǎng)絡(luò)的模型[100]，發(fā)現(xiàn)耦合的兩個(gè)網(wǎng)絡(luò)相比于單個(gè)網(wǎng)絡(luò)更加促進(jìn)公平偏好的演化穩(wěn)定，雙向通信要比單向通信更加高效. Zhao等發(fā)現(xiàn)內(nèi)群偏私能有效提升群體平均提議量和響應(yīng)量[101]，內(nèi)群偏私意味給予相似個(gè)體更多分配額，同時(shí)接受對(duì)方較低提議量.

4 總結(jié)及未來發(fā)展趨勢(shì)

復(fù)雜網(wǎng)絡(luò)上演化博弈理論不斷發(fā)展和完善，尤其在兩策略競(jìng)爭(zhēng)理論分析方法上獲得了里程碑式進(jìn)步. 本文首先介紹了在演化博弈框架下合作演化機(jī)制的相關(guān)研究，詳細(xì)給出了近年來被廣泛關(guān)注的個(gè)體異質(zhì)性和環(huán)境反饋對(duì)于合作演化的影響；其次闡述了五種復(fù)雜網(wǎng)絡(luò)上演化博弈的理論分析方法，包括適用于任意網(wǎng)絡(luò)結(jié)構(gòu)和更新規(guī)則的溯祖隨機(jī)游走理論；再次總結(jié)了在演化博弈框架下的資源配置問題，所采用的博弈模型是最后通牒博弈. 然而最后通牒博弈是典型的連續(xù)策略博弈，連續(xù)策略在復(fù)雜網(wǎng)絡(luò)中傳播所誘導(dǎo)的群體狀態(tài)維度比兩策略龐大很多，因此相應(yīng)理論分析更具挑戰(zhàn)性，相關(guān)研究還未形成較為成熟的理論分析框架. 結(jié)合目前研究現(xiàn)狀，我們發(fā)現(xiàn)：

利用最后通牒博弈研究公平偏好涌現(xiàn)問題大多采用計(jì)算機(jī)仿真，而理論分析是深刻理解網(wǎng)絡(luò)群體中策略競(jìng)爭(zhēng)的必要條件. 目前關(guān)于最后通牒博弈的理論分析往往只是針對(duì)特定網(wǎng)絡(luò)群體，故亟待尋找新工具、新方法來處理一般網(wǎng)絡(luò)群體的最后通牒博弈.

對(duì)于個(gè)體交互網(wǎng)絡(luò)，大多數(shù)文獻(xiàn)只是關(guān)注給定交互異質(zhì)性的網(wǎng)絡(luò)群體如何影響公平偏好的涌現(xiàn). 而不同社會(huì)網(wǎng)絡(luò)所對(duì)應(yīng)的交互異質(zhì)性往往不同，目前還沒有相應(yīng)成果系統(tǒng)對(duì)比異質(zhì)性不同所誘導(dǎo)的公平行為的差異性.

對(duì)于個(gè)體資源，往往假定所有個(gè)體都是相同的. 鑒于普遍存在的貧富分化現(xiàn)象和收入不均現(xiàn)象，個(gè)體資源通常因人而異，所有個(gè)體具有相同資源是一種理想化的假設(shè)，無法描述個(gè)體的差異性屬性，由此限制相應(yīng)理論結(jié)果的應(yīng)用范圍，例如無法展現(xiàn)窮人和富人在資源配置過程中決策行為的差異性.

目前最后通牒博弈的研究均是在恒定環(huán)境下進(jìn)行. 而策略演化動(dòng)力學(xué)與環(huán)境相互影響而形成的反饋在生物和社會(huì)系統(tǒng)中普遍存在，同時(shí)環(huán)境反饋已被證實(shí)可以促進(jìn)合作的演化. 則環(huán)境反饋如何影響公平行為的涌現(xiàn)是一個(gè)值得深入探討和研究的科學(xué)問題.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

演化博弈與資源配置綜述

1 基于演化博弈的合作演化機(jī)制

2 復(fù)雜網(wǎng)絡(luò)上演化博弈的理論分析方法

3 基于演化博弈的資源配置

4 總結(jié)及未來發(fā)展趨勢(shì)