張艷玲,莫廷鈺,李松濤,張 妍,李 擎?
1) 北京科技大學(xué)自動(dòng)化學(xué)院,北京 100083 2) 工業(yè)過程知識(shí)自動(dòng)化教育部重點(diǎn)實(shí)驗(yàn)室,北京 100083
20世紀(jì)末,復(fù)雜網(wǎng)絡(luò)研究的興起在國(guó)內(nèi)外掀起一股新的研究復(fù)雜性科學(xué)的熱潮[1],而復(fù)雜網(wǎng)絡(luò)本身也形成了一門新學(xué)科——網(wǎng)絡(luò)科學(xué). 復(fù)雜網(wǎng)絡(luò)能夠很好地刻畫實(shí)際生物、社會(huì)和工業(yè)系統(tǒng)中所表現(xiàn)的社團(tuán)結(jié)構(gòu)、小世界特性、無標(biāo)度特性等網(wǎng)絡(luò)拓?fù)? 集群行為普遍存在于各類真實(shí)系統(tǒng)中,如蟻群互助覓食、蜂群協(xié)同建巢、鴿群編隊(duì)飛行、魚群渦旋游動(dòng)和人類選舉投票等. 相應(yīng)地,復(fù)雜網(wǎng)絡(luò)上集群行為的相關(guān)研究成為多學(xué)科交叉的熱點(diǎn)問題[2-9],主要聚焦以下三方面:(1)通過對(duì)動(dòng)物和人類進(jìn)行大量行為學(xué)實(shí)驗(yàn),證實(shí)集群行為的存在性;(2)以集群行為的存在作為前提假設(shè),研究據(jù)此所誘導(dǎo)的社會(huì)、經(jīng)濟(jì)和工程影響,或仿照集群行為設(shè)計(jì)控制律和智能算法;(3)將集群行為的存在看作是需要證明的結(jié)論,即對(duì)集群行為如何從個(gè)體的簡(jiǎn)單交互中涌現(xiàn)提供完整解釋.
行為學(xué)證實(shí)了集群行為的普遍存在性,而經(jīng)濟(jì)學(xué)、社會(huì)學(xué)和統(tǒng)計(jì)物理學(xué)發(fā)現(xiàn)了集群行為存在的重要性. 不僅要“知其然”,也要“知其所以然”.一個(gè)自然的問題是,集群行為從何而來,為什么能夠長(zhǎng)期穩(wěn)定存在?行為學(xué)實(shí)驗(yàn)有效支持了利用演化論解釋集群行為涌現(xiàn)的合理性. 以公平行為為例加以闡述[10-12]:聚焦公平偏好神經(jīng)學(xué)解釋的實(shí)驗(yàn)證明,人類的公平偏好具有生理基礎(chǔ);針對(duì)兒童進(jìn)行公平行為測(cè)試的研究表明,未成年兒童的公平偏好會(huì)隨著年齡的增長(zhǎng)而上升,暗示人類的公平偏好在社會(huì)學(xué)習(xí)中不斷演化進(jìn)步;隨著社會(huì)的不斷進(jìn)化,人類不斷提升自身的公平偏好.
由行為學(xué)可見,復(fù)雜網(wǎng)絡(luò)上演化博弈可被用來研究集群行為的涌現(xiàn). 此類研究往往利用復(fù)雜網(wǎng)絡(luò)對(duì)個(gè)體間交互方式進(jìn)行數(shù)學(xué)建模[13-14]:邊連接博弈對(duì)象和模仿對(duì)象;而邊的權(quán)重描述個(gè)體間交互強(qiáng)度,量化個(gè)體被選為博弈對(duì)象或模仿對(duì)象的概率. 同時(shí)利用經(jīng)典博弈(例如最后通牒博弈)的演化動(dòng)力學(xué)對(duì)個(gè)體間決策范式進(jìn)行數(shù)學(xué)建模:策略更新過程刻畫自然選擇,即個(gè)體在與博弈對(duì)象進(jìn)行交互后獲取收益,收益越高的個(gè)體,它的策略越容易被模仿對(duì)象所采用;而在突變的作用下,個(gè)體探索地采取全新策略. 最后以整個(gè)系統(tǒng)為研究對(duì)象,分析群體策略的動(dòng)態(tài)演化過程,并獲取群體行為的統(tǒng)計(jì)學(xué)規(guī)律. 最常采用的研究方式是計(jì)算機(jī)仿真,即利于計(jì)算機(jī)程序?qū)?dòng)力學(xué)進(jìn)行模擬[15]. 另一種重要但十分具有挑戰(zhàn)性的研究方式是理論分析,即利用數(shù)學(xué)工具量化動(dòng)力學(xué)[16-19].
本文組織結(jié)構(gòu)如下:第1部分簡(jiǎn)要介紹基于演化博弈的合作演化機(jī)制研究現(xiàn)狀;第2部分闡述復(fù)雜網(wǎng)絡(luò)上演化博弈的理論分析方法;第3部分給出基于最后通牒博弈的公平偏好涌現(xiàn)機(jī)制的相關(guān)研究;第4部分總結(jié)本文的主要內(nèi)容,并歸納了復(fù)雜網(wǎng)絡(luò)上最后通牒博弈研究現(xiàn)階段的不足和未來的發(fā)展方向.
演化博弈理論曾相當(dāng)成功地解釋了生物進(jìn)化過程中的某些現(xiàn)象,最為經(jīng)典的早期工作是1973年Smith和Price將其用來解釋動(dòng)物的斗爭(zhēng)行為,同時(shí)提出了演化穩(wěn)定策略[20]. 之后,經(jīng)濟(jì)學(xué)、社會(huì)學(xué)和統(tǒng)計(jì)物理學(xué)運(yùn)用演化博弈論分析影響集群行為形成的各類因素,獲取了豐富且具有啟發(fā)意義的研究成果[21-24]. 近期,眾多學(xué)者試圖將控制論和演化博弈理論結(jié)合,希望借助一定的控制手段令群體行為演化到期望狀態(tài),從而實(shí)現(xiàn)更加有效的工程應(yīng)用[25-30].
被演化博弈論最為頻繁研究的集群行為是合作行為[31-33]. 2006年,Nowak總結(jié)性地提出了五種有利于合作演化的機(jī)制[34](圖 1):(1)親緣選擇[35-36],通過具有親緣和遺傳關(guān)系的個(gè)體之間的關(guān)系來促進(jìn)合作,即個(gè)體更愿意與親緣關(guān)系較近的對(duì)手合作. (2)直接互惠[37-38],在重復(fù)博弈中,個(gè)體當(dāng)前階段的合作誘發(fā)對(duì)手在后續(xù)階段的合作行為. (3)間接互惠[39-40],此時(shí)聲望起關(guān)鍵作用,合作的個(gè)體具備較高的聲望,從而在接下來的博弈階段更容易獲得他人的幫助. (4)網(wǎng)絡(luò)互惠[41-42],復(fù)雜網(wǎng)絡(luò)的連接關(guān)系令合作者“抱團(tuán)取暖”而存活,背叛者無法再利用合作者而消亡. (5)群組選擇[43],自然選擇作用于群組而非個(gè)體,通過群組選擇來決定個(gè)體策略演化.
圖1 五大促進(jìn)合作涌現(xiàn)的機(jī)制[34]. (a)親緣選擇;(b)直接互惠;(c)間接互惠;(d)群組選擇;(e)網(wǎng)絡(luò)互惠Fig.1 Five mechanisms for the emergence of cooperation[34]: (a) kin selection; (b) direct reciprocity; (c) indirect reciprocity; (d) group selection; (e) network reciprocity
除了上面介紹的演化合作機(jī)制外,還有一些機(jī)制也能夠促進(jìn)合作,例如個(gè)體異質(zhì)性和環(huán)境反饋. 個(gè)體異質(zhì)性本質(zhì)上描述了不同主體間相互比較過程中,展現(xiàn)出來的身心特征上的彼此各不相同的現(xiàn)象,這主要是由于個(gè)體的成長(zhǎng)過程受遺傳和環(huán)境的交互影響. 例如,主體間的能力有高低之分,不同主體才能的形成有早有晚,且各有所長(zhǎng).個(gè)體異質(zhì)性在群體競(jìng)爭(zhēng)中普遍存在,演化博弈研究的異質(zhì)個(gè)體可歸為三類:其一是異質(zhì)網(wǎng)絡(luò)中,每個(gè)主體參與博弈總次數(shù)呈現(xiàn)天然異質(zhì)性,而這種異質(zhì)性從整體上利于合作的演化[44]. 其二是個(gè)體間行為模式存在異質(zhì)性,即個(gè)體與不同對(duì)手采取不同策略、不同交互概率和模仿概率,這種差異性可以在一定條件下促進(jìn)兩人博弈[45]或多人博弈中合作的演化[46]. 其三是公共品博弈的投資、產(chǎn)出和分配額因人而異. 當(dāng)產(chǎn)出的協(xié)同效應(yīng)和折扣效應(yīng)以概率共存時(shí),高概率的協(xié)同效應(yīng)能夠促進(jìn)合作[47];在分配額越大的博弈中投資越多,越有利于合作的演化[48];在重復(fù)博弈中,投資的極端異質(zhì)性抑制合作,而當(dāng)個(gè)體間分配額存在差異時(shí),適當(dāng)?shù)耐顿Y異質(zhì)性反而是促進(jìn)合作的必要條件[49].
策略演化動(dòng)力學(xué)與環(huán)境相互影響而形成的反饋在生物和社會(huì)系統(tǒng)中普遍存在. 例如,接種疫苗的不充分往往導(dǎo)致本可以預(yù)防的傳染病大規(guī)模爆發(fā);之后,政府通過宣傳疫苗接種必要性等反饋措施改善疫苗的接種環(huán)境和群體的決策行為. 最近,環(huán)境反饋對(duì)于合作演化的影響激發(fā)了研究人員的濃厚興趣[50-52],這里探討的環(huán)境反饋是在隨機(jī)博弈的研究框架下的定義的,隨機(jī)博弈通常包括若干個(gè)博弈主體、各主體的策略集合、收益矩陣及更新過程. 收益矩陣和更新過程令部分主體改變自身策略,從而影響環(huán)境狀態(tài);環(huán)境狀態(tài)的變化導(dǎo)致不同的收益矩陣,環(huán)境通過收益矩陣的變化直接反過來影響策略演化動(dòng)力學(xué). Hilbe等將隨機(jī)博弈思想融入重復(fù)博弈,具體而言,每一輪的個(gè)體行為及博弈共同決定下一輪的博弈[53]. 此時(shí),環(huán)境反饋和直接互惠可以極大促進(jìn)合作的演化,遠(yuǎn)高于只有環(huán)境反饋或直接互惠所誘導(dǎo)的合作水平. 類似地,Su等將隨機(jī)博弈思想融入規(guī)則網(wǎng)絡(luò)群體[54],其中博弈轉(zhuǎn)移大大放松合作演化的條件,特別地,即使在每個(gè)備選博弈中合作無法演化,而在備選博弈間轉(zhuǎn)移卻能夠促進(jìn)合作的演化. Weitz等將群體中博弈的變化由一個(gè)類似的復(fù)制動(dòng)力學(xué)刻畫,發(fā)現(xiàn)群體在好環(huán)境、壞環(huán)境、合作、背叛間不斷往復(fù)震蕩[55]. 稍后的研究表明類似的震蕩環(huán)也出現(xiàn)在環(huán)境反饋下的非對(duì)稱兩人博弈和網(wǎng)絡(luò)群體[56-57].同時(shí)研究框架被推廣到公共品博弈[58],發(fā)現(xiàn)資源反饋可以有效促進(jìn)合作的演化.
自從Nowak和May開創(chuàng)性地研究了方格網(wǎng)絡(luò)群體中的囚徒困境[59],復(fù)雜網(wǎng)絡(luò)上的演化博弈成為研究網(wǎng)絡(luò)群體中策略競(jìng)爭(zhēng)的有效工具. 常見的網(wǎng)絡(luò)包括規(guī)則網(wǎng)絡(luò)、小世界網(wǎng)絡(luò)、無標(biāo)度網(wǎng)絡(luò)和社團(tuán)結(jié)構(gòu)網(wǎng)絡(luò),如圖2所示[59-60]. 目前,國(guó)內(nèi)外學(xué)者對(duì)復(fù)雜網(wǎng)絡(luò)上的兩策略競(jìng)爭(zhēng)進(jìn)行了系統(tǒng)的研究[61-62],相關(guān)研究大多利用計(jì)算機(jī)仿真進(jìn)行[63-68]. 而理論分析是深刻理解網(wǎng)絡(luò)群體中策略競(jìng)爭(zhēng)的必要條件. 在中性選擇這種適應(yīng)度與收益無關(guān)的特殊情形下,策略在網(wǎng)絡(luò)的擴(kuò)散過程僅僅依賴隨機(jī)漂移(由狀態(tài)更新過程本身的隨機(jī)性所決定). 相應(yīng)固定概率具有封閉形式計(jì)算公式,這里的固定概率指的是單個(gè)變異體傳播到整個(gè)群體的概率,具體數(shù)值往往與變異體出現(xiàn)的位置相關(guān). 然而,復(fù)雜網(wǎng)絡(luò)上一般演化博弈的理論研究較為稀少,且在弱選擇情形下進(jìn)行. 弱選擇意味適應(yīng)度對(duì)收益依賴程度較小,允許擾動(dòng)理論的使用,從而獲得解析成果. 同時(shí)探索弱選擇情形的演化博弈具有現(xiàn)實(shí)意義,因?yàn)槊總€(gè)主體在生活中參與大量博弈,而單一博弈對(duì)適應(yīng)度的影響往往很小. 況且在強(qiáng)選擇情形下,即適應(yīng)度依賴收益的程度較大,相應(yīng)固定概率已被證明沒有封閉形式計(jì)算公式,也不能被一個(gè)多項(xiàng)式時(shí)間算法所求解[69]. 下面,將分別闡述兩類主流的復(fù)雜網(wǎng)絡(luò)上演化博弈理論分析方法:針對(duì)離散策略,計(jì)算 σ -占優(yōu)條件;針對(duì)連續(xù)策略,分析適應(yīng)動(dòng)力學(xué).
針對(duì)離散策略,弱選擇情形下最一般理論結(jié)果莫過于 σ -占優(yōu)條件的推導(dǎo)[70]. 具體而言,兩策略競(jìng)爭(zhēng)中策略占優(yōu)條件線性依賴收益矩陣和結(jié)構(gòu)系數(shù)(Structure coefficient, σ ),其中參數(shù) σ 與收益矩陣無關(guān),它可以量化交互網(wǎng)絡(luò)和更新過程對(duì)于策略選擇影響的大小. 這里的策略占優(yōu)指的是一種策略的穩(wěn)態(tài)頻率高于另一種策略,在小變異情形下,等價(jià)于一種策略的固定概率高于另一種策略. 相應(yīng)地,網(wǎng)絡(luò)群體中兩策略競(jìng)爭(zhēng)的理論研究轉(zhuǎn)化為結(jié)構(gòu)系數(shù) σ的計(jì)算. 群體的策略演化可由一個(gè)馬爾科夫決策過程刻畫,然而在一般復(fù)雜網(wǎng)絡(luò)群體中,群體狀態(tài)應(yīng)該包含所有主體的策略和位置,無法一一列舉出來,相應(yīng)的狀態(tài)轉(zhuǎn)移矩陣無法刻畫,群體的穩(wěn)態(tài)頻率無法由直接方法計(jì)算出來,因此計(jì)算 σ 往往極具挑戰(zhàn)性.
當(dāng)群體演化過程滿足假設(shè)I:全局更新(即所有主體共同競(jìng)爭(zhēng)產(chǎn)生后代),學(xué)者推導(dǎo)出 σ 的形式表達(dá)式[70],即其中x2代表策略2主體在群體中的比例,Iij代表策略i主體和策略j主體交互數(shù)目, < >0代表中性選擇(所有主體具有相同收益)下的期望. 這個(gè)形式表達(dá)式給出了 σ 的簡(jiǎn)單算法:在所有主體具有相同適應(yīng)度的結(jié)構(gòu)群體演化過程中,記錄群體在每一時(shí)刻的x2I11和x2I12,將所有時(shí)刻的這兩個(gè)值進(jìn)行平均,再取比值即可獲得 σ ,該算法可由大數(shù)定律保障收斂性.
針對(duì)滿足假設(shè)I的具體模型—— 基于表現(xiàn)型和基于集合的結(jié)構(gòu)群體,Antal等在大群體的前提下給出了 σ 近似解析表達(dá)式[71],其具體思路是,<x2I11>0和 <x2I12>0轉(zhuǎn)化為中性選擇時(shí),計(jì)算隨機(jī)選擇的多主體具有相同策略或相同位置的概率.而溯祖理論是適用中性選擇的經(jīng)典方法,核心思想是,在回顧多主體祖先的過程中,只要回顧時(shí)間足夠長(zhǎng),總會(huì)找到他們最近的共同祖先. 計(jì)算合作占優(yōu)條件的關(guān)鍵思路是,從當(dāng)前的多主體回顧到他們最近共同祖先的過程中,確定每個(gè)主體是否發(fā)生變異或更改位置.
Antal等推導(dǎo)了全局遷移下 σ 的近似解析表達(dá)式[71],Zhang等將溯祖理論和隨機(jī)游走結(jié)合起來計(jì)算任意遷移模式下結(jié)構(gòu)系數(shù) σ[72]. 此時(shí),從當(dāng)前的多主體回溯到他們最近共同祖先的過程中,溯祖理論不再只是確定其是否變異或遷移,而是更準(zhǔn)確地捕捉到每個(gè)主體發(fā)生變異或遷移的祖先數(shù)目. 之后利用多個(gè)隨機(jī)游走追蹤從最近共同祖先到當(dāng)前期間每個(gè)主體祖先的策略變化軌跡和位置變化軌跡.
上述工作均是在假設(shè)I下進(jìn)行的. 為了放松假設(shè)I,即演化過程服從局部更新,不再要求全局更新,Ohtsuki等針對(duì)隨機(jī)規(guī)則網(wǎng)絡(luò),利用對(duì)估計(jì)方法獲得兩人博弈中合作占優(yōu)的條件[73]. 相應(yīng)結(jié)果可在大群體的前提下給出 σ的近似解析表達(dá)式. 對(duì)估計(jì)方法是一種平均場(chǎng)估計(jì)方法,利用六個(gè)變量刻畫群體狀態(tài). 假設(shè)兩種策略A和B共存于群體,相應(yīng)的六個(gè)變量為:隨機(jī)選擇的個(gè)體采取策略A(B)的概率為xA(xB);在選中一個(gè)A個(gè)體后,任意選擇他的一個(gè)鄰居采取A(B)的條件概率為xAA(xAB);在選中一個(gè)B個(gè)體后,任意選擇他的一個(gè)鄰居采取A(B)的條件概率為xBA(xBB). 以上六個(gè)變量中的xA和xAA是自由變量,對(duì)估計(jì)方法的核心是根據(jù)策略更新過程對(duì)這兩個(gè)自由變量建立演化方程. 該方法和混合均勻群體的復(fù)制動(dòng)力學(xué)相比,多了一個(gè)刻畫自由變量xAA的動(dòng)力學(xué)方程,此動(dòng)力學(xué)方程可以理解為對(duì)個(gè)體局部交互信息的量化.
同樣為了放松假設(shè)I,Allen等針對(duì)特定規(guī)則網(wǎng)絡(luò),利用血緣一致性方法推導(dǎo)合作占優(yōu)條件[74]. 相應(yīng)結(jié)果可在大群體的前提下給出 σ 近似解析表達(dá)式. 血緣一致性在生物學(xué)上描述兩個(gè)主體繼承共同祖先的基因. 如果兩個(gè)主體自從共同祖先的那一代到當(dāng)前,在整個(gè)演化過程中都沒有發(fā)生變異,稱這兩個(gè)主體具有血緣一致性關(guān)系. 而獲得合作占優(yōu)條件的核心在于,推導(dǎo)中性選擇時(shí),位于n步溯祖隨機(jī)游走兩端的個(gè)體擁有血緣一致性的概率.
最近,Allen等利用圖上的溯祖隨機(jī)游走理論,將上述結(jié)果拓展到任意網(wǎng)絡(luò)群體[75]和任意更新過程[76]. 此時(shí),獲取合作占優(yōu)條件的關(guān)鍵在于,推導(dǎo)中性選擇下從任意兩個(gè)位置開始的溯祖隨機(jī)游走首次相遇的時(shí)間. 同時(shí)由于 σ 不依賴收益矩陣,可將上述合作占優(yōu)條件與 σ -占優(yōu)條件對(duì)比,從而獲取任意網(wǎng)絡(luò)群體中 σ的計(jì)算方法. 這是復(fù)雜網(wǎng)絡(luò)上演化博弈理論分析方法的突破性進(jìn)展,為網(wǎng)絡(luò)群體中兩策略競(jìng)爭(zhēng)提供一個(gè)完整的理論分析框架.
上述理論方法適用研究離散策略的演化動(dòng)力學(xué),同時(shí)Allen等的最新工作在弱選擇下可獲得一般復(fù)雜網(wǎng)絡(luò)群體中 σ 的解析表達(dá)式[75-76]. 但在強(qiáng)選擇條件下,至今仍然缺少分析一般復(fù)雜網(wǎng)絡(luò)群體演化動(dòng)力學(xué)的理論分析方法.
適應(yīng)動(dòng)力學(xué)是研究連續(xù)策略的經(jīng)典方法,從兩個(gè)時(shí)間尺度,描述小變異情形下連續(xù)策略的演化過程. 從長(zhǎng)期演化角度看,群體近似視為時(shí)時(shí)刻刻采用一種策略,群體策略的演化轉(zhuǎn)化為一系列策略迭代事件的發(fā)生. 從短期時(shí)間尺度看,兩種策略共存于群體,且其中之一迅速占據(jù)群體或在群體中消亡. Zhang等從微觀更新過程出發(fā),推導(dǎo)有限群體演化博弈的適應(yīng)動(dòng)力學(xué)[77]. 具體思路是,利用主方程描述群體采用某種策略的概率隨時(shí)間變化的動(dòng)力學(xué). 據(jù)此發(fā)現(xiàn),群體所采用策略的平均演化方向可由變異策略的固定概率所預(yù)測(cè). 同時(shí)利用固定概率關(guān)于變異策略的一階泰勒展開近似群體策略的平均演化路徑. 該方法的局限是一般網(wǎng)絡(luò)群體的固定概率難以獲得具體表達(dá)式.
公平偏好是在資源配置過程中自發(fā)涌現(xiàn)出來的集群行為. 為了刻畫資源配置行為,博弈論構(gòu)建了簡(jiǎn)單易行、操作性強(qiáng)的最后通牒博弈:兩個(gè)參與者配置一筆資源,提議者向響應(yīng)者提出分配方案,如果響應(yīng)者接受該方案,二者按照該方案獲得相應(yīng)資源,否則,二者分文未得. 在忽略個(gè)體為資源產(chǎn)生所付出的成本及個(gè)體間需求的差異性前提下,以均等原則度量公平偏好:絕對(duì)公平指的是提議者均等分配資源且響應(yīng)者只接受均等分配方案,與絕對(duì)公平較為接近的行為展現(xiàn)較高的公平偏好. 該博弈的行為學(xué)實(shí)驗(yàn)證實(shí)了公平偏好的存在性:提議者通常提供給對(duì)方30%~50%的份額,而響應(yīng)者往往接受20%~35%的份額. 公平是各種系統(tǒng)穩(wěn)定運(yùn)行的關(guān)鍵. 對(duì)財(cái)富不公平的分配往往會(huì)造成社會(huì)不平等. 而社會(huì)不平等在皮尤研究中心的報(bào)告中被認(rèn)為是世界上最大的挑戰(zhàn),擊敗宗教仇恨、污染和核武器等.
最后通牒博弈允許關(guān)注資源配置的兩個(gè)重要方面[78-80]:個(gè)體作為提議者給予對(duì)方的資源量,即提議量;個(gè)體作為響應(yīng)者可接受的最低提議量,即響應(yīng)量. 同時(shí),它也是最受歡迎的實(shí)驗(yàn)研究對(duì)象之一. 自從復(fù)雜網(wǎng)絡(luò)上演化博弈受到廣泛關(guān)注,網(wǎng)絡(luò)結(jié)構(gòu)就成為促進(jìn)合作演化的最重要機(jī)制. 一個(gè)自然問題是,網(wǎng)絡(luò)結(jié)構(gòu)如何影響最后通牒博弈中公平的演化?早在 2 000年,Page等就發(fā)現(xiàn)環(huán)和方格網(wǎng)絡(luò)本身并不能促進(jìn)公平的演化:當(dāng)模仿過程的噪聲較高,即模仿的準(zhǔn)確率較低時(shí),群體的平均提議量和響應(yīng)量最終穩(wěn)定在相對(duì)公平的范圍[81]. 類似的結(jié)論也在小世界及隨機(jī)網(wǎng)絡(luò)中發(fā)現(xiàn)[82-83],且對(duì)各種初始條件和更新過程魯棒[84-87]. 事實(shí)上,噪聲是促進(jìn)公平涌現(xiàn)的機(jī)制之一. 即使在混合均勻群體中,一定程度的噪聲也會(huì)促進(jìn)公平的演化,所誘導(dǎo)的群體資源配置行為與實(shí)驗(yàn)所發(fā)現(xiàn)的分配行為相符合[88]. 這主要是由于噪聲引入一些并不適應(yīng)環(huán)境的策略,特別是當(dāng)高需求的響應(yīng)者進(jìn)入群體后,提議者相應(yīng)地提高自身的提議量. 除了噪聲,眾多學(xué)者還提出很多能夠促進(jìn)網(wǎng)絡(luò)群體中公平偏好涌現(xiàn)的機(jī)制.
目前,最后通牒博弈的行為學(xué)實(shí)驗(yàn)關(guān)注了博弈雙方的關(guān)系因素、博弈決策的情境因素、分配物的數(shù)量因素等對(duì)于決策結(jié)果的影響. 下面將要介紹的五類因素不僅在行為學(xué)實(shí)驗(yàn)而且在演化博弈框架下均被廣泛關(guān)注.
其一是角色分配. Killingback和Studer在方格網(wǎng)絡(luò)中研究角色分配由博弈雙方固有等級(jí)的相對(duì)高低來決定的模型[89]. 當(dāng)適應(yīng)度線性依賴收益時(shí),群體平均提議量和響應(yīng)量穩(wěn)定在相對(duì)公平的范圍;而在適應(yīng)度與收益的依賴關(guān)系中融入遞減回報(bào)效應(yīng)時(shí),二者明顯降低. Wu等的研究在無標(biāo)度網(wǎng)絡(luò)中對(duì)比了基于度的角色分配方式和自適應(yīng)角色更替方式[90]. 其中自適應(yīng)角色更替方式更能促進(jìn)公平偏好的涌現(xiàn),此時(shí)一旦提議者的分配方案被接受,博弈雙方在下一輪博弈中以較大概率擔(dān)當(dāng)相同角色;否則二者以較大概率改變角色進(jìn)行博弈.
其二是聲望. Yang等在方格和隨機(jī)網(wǎng)絡(luò)中研究由聲望確定博弈對(duì)象和角色分配的模型[91]. 具體而言,個(gè)體收益作為聲望信息,鄰居以此選擇是否與其博弈,提議者成功分配資源的次數(shù)作為聲望信息,博弈對(duì)象據(jù)此確定其再次成為提議者的概率. 當(dāng)個(gè)體更愿意與高收益?zhèn)€體進(jìn)行博弈,且聲望較好的個(gè)體往往擔(dān)當(dāng)提議者時(shí),公平偏好被顯著提高. 此時(shí),個(gè)體為了獲取更多博弈機(jī)會(huì)和提議者的角色分配,不得不提高自身提議量,與此同時(shí)響應(yīng)者為了獲得較高收益而提高自身響應(yīng)量. 但提議量也沒有必要高于 5 0%,一旦超過 5 0%,個(gè)體更愿意擔(dān)當(dāng)響應(yīng)者.
其三是惡意[92]和非單調(diào)拒絕. 惡意指的是所采取的行為令對(duì)手獲得較少收益或遭受更多損失,具體表現(xiàn)為個(gè)體作為提議者提供給對(duì)方較低分配額,而作為響應(yīng)者拒絕較低提議量. 非單調(diào)拒絕指的是個(gè)體不僅拒絕較低的還拒絕較高的提議量. 這兩種行為的存在性已被行為學(xué)實(shí)驗(yàn)所證實(shí),同時(shí)也激發(fā)了大量行為學(xué)實(shí)驗(yàn)調(diào)查它們對(duì)于公平演化的影響. 鑒于此,Zhang與Fu在任意網(wǎng)絡(luò)群體中,從理論上對(duì)融入這兩種行為的離散策略最后通牒博弈模型進(jìn)行了分析[93]. 以策略干預(yù)的研究思路,即在原本旗鼓相當(dāng)?shù)墓胶妥运降母?jìng)爭(zhēng)中,通過依次加入利他策略、惡意策略、非單調(diào)拒絕行為,發(fā)現(xiàn)利他抑制公平的演化,惡意和非單調(diào)拒絕促進(jìn)公平的演化.
其四是同理心[94-95]. 同理心指的是個(gè)體提議量等于其響應(yīng)量,意味個(gè)體期待對(duì)方給予自身的份額不低于自身給予他人的份額. 大量研究通常將同理心的存在作為前提假設(shè),發(fā)現(xiàn)其在眾多網(wǎng)絡(luò)群體中能夠促進(jìn)公平的涌現(xiàn). Zhang等在社團(tuán)結(jié)構(gòu)群體中假設(shè)同理心可隨時(shí)間演化,研究同理心與噪聲如何共同影響公平的演化[96]. 適量的初始同理心和噪聲所誘導(dǎo)的群體資源配置行為與行為學(xué)實(shí)驗(yàn)所展現(xiàn)的分配行為相符合. 當(dāng)噪聲較低時(shí),初始同理心越強(qiáng),越有利于群體決策行為接近絕對(duì)公平;而當(dāng)噪聲較高時(shí),初始同理心越強(qiáng)反而不利于公平的涌現(xiàn).
其五是配置資源總量[97-98]. 你可以輕易地拒絕100元的1%,但你會(huì)拒絕100億元的1%嗎?實(shí)驗(yàn)者為證實(shí)配置資源對(duì)于公平的影響進(jìn)行了大量實(shí)驗(yàn),但仍缺乏一致性結(jié)論. Zhang等理論分析了最后通牒博弈中配置資源如何影響資源配置行為[99]. 推導(dǎo)了社團(tuán)結(jié)構(gòu)群體中平均提議量和響應(yīng)量,發(fā)現(xiàn)二者所占比例反比于配置資源,即隨著配置資源量的增加,群體所展現(xiàn)的決策行為越來越接近于子博弈完美納什均衡. 而群體平均提議量和響應(yīng)量本身的大小二次依賴于配置資源,其中配置資源越大,提議量越大,而適中的配置資源誘導(dǎo)最大的響應(yīng)量.
“角色分配”和“聲望”屬于博弈雙方的關(guān)系因素,“角色分配”指的是博弈中的身份,并非隨機(jī)指定,而是通過一定手段獲得提議者的身份,“聲望”指的是提議者做決策時(shí)會(huì)考慮提議方案影響自身的聲望;“惡意”和“同理心”屬于分配意圖方面的博弈決策情境因素,“惡意”指的是厭惡對(duì)方的情緒,“同理心“指的是以自己的標(biāo)準(zhǔn)要求別人;“配置資源總量”屬于分配物的數(shù)量因素. 除了上述因素外,Deng等提出每個(gè)主體同時(shí)位于兩個(gè)物理網(wǎng)絡(luò)的模型[100],發(fā)現(xiàn)耦合的兩個(gè)網(wǎng)絡(luò)相比于單個(gè)網(wǎng)絡(luò)更加促進(jìn)公平偏好的演化穩(wěn)定,雙向通信要比單向通信更加高效. Zhao等發(fā)現(xiàn)內(nèi)群偏私能有效提升群體平均提議量和響應(yīng)量[101],內(nèi)群偏私意味給予相似個(gè)體更多分配額,同時(shí)接受對(duì)方較低提議量.
復(fù)雜網(wǎng)絡(luò)上演化博弈理論不斷發(fā)展和完善,尤其在兩策略競(jìng)爭(zhēng)理論分析方法上獲得了里程碑式進(jìn)步. 本文首先介紹了在演化博弈框架下合作演化機(jī)制的相關(guān)研究,詳細(xì)給出了近年來被廣泛關(guān)注的個(gè)體異質(zhì)性和環(huán)境反饋對(duì)于合作演化的影響;其次闡述了五種復(fù)雜網(wǎng)絡(luò)上演化博弈的理論分析方法,包括適用于任意網(wǎng)絡(luò)結(jié)構(gòu)和更新規(guī)則的溯祖隨機(jī)游走理論;再次總結(jié)了在演化博弈框架下的資源配置問題,所采用的博弈模型是最后通牒博弈. 然而最后通牒博弈是典型的連續(xù)策略博弈,連續(xù)策略在復(fù)雜網(wǎng)絡(luò)中傳播所誘導(dǎo)的群體狀態(tài)維度比兩策略龐大很多,因此相應(yīng)理論分析更具挑戰(zhàn)性,相關(guān)研究還未形成較為成熟的理論分析框架. 結(jié)合目前研究現(xiàn)狀,我們發(fā)現(xiàn):
利用最后通牒博弈研究公平偏好涌現(xiàn)問題大多采用計(jì)算機(jī)仿真,而理論分析是深刻理解網(wǎng)絡(luò)群體中策略競(jìng)爭(zhēng)的必要條件. 目前關(guān)于最后通牒博弈的理論分析往往只是針對(duì)特定網(wǎng)絡(luò)群體,故亟待尋找新工具、新方法來處理一般網(wǎng)絡(luò)群體的最后通牒博弈.
對(duì)于個(gè)體交互網(wǎng)絡(luò),大多數(shù)文獻(xiàn)只是關(guān)注給定交互異質(zhì)性的網(wǎng)絡(luò)群體如何影響公平偏好的涌現(xiàn). 而不同社會(huì)網(wǎng)絡(luò)所對(duì)應(yīng)的交互異質(zhì)性往往不同,目前還沒有相應(yīng)成果系統(tǒng)對(duì)比異質(zhì)性不同所誘導(dǎo)的公平行為的差異性.
對(duì)于個(gè)體資源,往往假定所有個(gè)體都是相同的. 鑒于普遍存在的貧富分化現(xiàn)象和收入不均現(xiàn)象,個(gè)體資源通常因人而異,所有個(gè)體具有相同資源是一種理想化的假設(shè),無法描述個(gè)體的差異性屬性,由此限制相應(yīng)理論結(jié)果的應(yīng)用范圍,例如無法展現(xiàn)窮人和富人在資源配置過程中決策行為的差異性.
目前最后通牒博弈的研究均是在恒定環(huán)境下進(jìn)行. 而策略演化動(dòng)力學(xué)與環(huán)境相互影響而形成的反饋在生物和社會(huì)系統(tǒng)中普遍存在,同時(shí)環(huán)境反饋已被證實(shí)可以促進(jìn)合作的演化. 則環(huán)境反饋如何影響公平行為的涌現(xiàn)是一個(gè)值得深入探討和研究的科學(xué)問題.