吳鳳燕,劉歌群,陶 峰,顧冬晴,劉曉坤,張 偉
(1.上海理工大學 光電信息與計算機工程學院,上海 200093;2.上海理工大學,上海 200093;3.上??臻g機器人工程技術(shù)研究中心,上海 201109;4.上海宇航系統(tǒng)工程研究所,上海 201109)
在自然界和人類社會中始終存在著合作行為,例如在電子生產(chǎn)行業(yè)中,一個合格的電子產(chǎn)品通常需要多個主體分工合作才能完成。這種電子企業(yè)間的聯(lián)合生產(chǎn)行為引起了很多研究者的關(guān)注,演化博弈理論由此開始蓬勃發(fā)展[1]。文獻[2]把二維格子網(wǎng)絡與囚徒困境博弈相結(jié)合,建立了網(wǎng)絡演化博弈的研究范式,并發(fā)現(xiàn)了網(wǎng)絡結(jié)構(gòu)上群體之間的互惠行為。越來越多的研究聚焦于網(wǎng)絡結(jié)構(gòu)的影響[3]和促進合作的有效機制[4-12]。在諸多機制中,不乏可有效促進合作的機制,例如志愿者機制[4]、網(wǎng)絡互惠機制[5]和遷移機制[6-7]等。其中,歷史記憶機制[13-15]成為近幾年研究的熱點。文獻[13]把過往一定記憶長度內(nèi)的最優(yōu)策略保存下來,根據(jù)合作策略的占比對新一輪的策略進行更新。文獻[14]通過對兩個記憶長度內(nèi)的收益進行加權(quán),研究了弱囚徒困境在不同網(wǎng)絡上的演化博弈,發(fā)現(xiàn)按照歷史記憶進行策略更新的人數(shù)比例與群體合作水平呈正相關(guān)。以上研究揭示了歷史記憶機制對于網(wǎng)絡演化博弈合作涌現(xiàn)的促進作用,具有重要的理論價值。但是這些結(jié)論針對弱囚徒困境和雪堆博弈給出,有一定的限制性,當博弈模型改變后是否依然適用仍需要進一步研究。
在電子生產(chǎn)行業(yè)中,電子企業(yè)間在聯(lián)合生產(chǎn)的同時還會出現(xiàn)偷工減料、以次充好或捏造數(shù)據(jù)等背叛行為。以次充好的產(chǎn)品、豆腐渣工程以及偽造的業(yè)績等等均是這種背叛現(xiàn)象的例證。因此,在聯(lián)合生產(chǎn)博弈中研究這種具有非完全合作性質(zhì)的背叛行為具有時代意義。文獻[16]提出了一種全新的博弈模型,即聯(lián)合生產(chǎn)博弈模型。本文基于該模型,引入記憶因子u并運用蒙特卡羅仿真方法,分析了合作頻率的提升與記憶權(quán)重取值的相關(guān)性以及網(wǎng)絡機制對合作涌現(xiàn)的影響。
文獻[16]中提出的聯(lián)合生產(chǎn)博弈模型描述了生產(chǎn)領(lǐng)域追求高回報率的非完全合作現(xiàn)象,該模型基于生產(chǎn)任務定義了必要成本c(0≤c≤1)盈利成本1-c(總成本歸一化為1),以及利潤系數(shù)k。每個博弈方各有兩種策略,合作(Cooperation,C)時按成本1進行生產(chǎn),背叛(Defection,D)時偷工減料按必要成本c進行生產(chǎn)。
當k≥1時,按收益來說,(C,C)組合是納什均衡。但是(D,C)組合中背叛方的回報率(利潤除以出資額)有可能更高,成為背叛的誘惑來源。因此按照回報率分析雙方得失,可使策略選擇具有博弈模型應有的“困境”特征。回報率矩陣如下
(1)
假設網(wǎng)絡有N個節(jié)點,節(jié)點之間以邊相連,構(gòu)成具有某種特征的網(wǎng)絡拓撲結(jié)構(gòu)。每個個體(節(jié)點)的初始策略隨機獲得
Sx=(1,0)T與Sx=(0,1)T
(2)
分別表示x的當前策略為“合作”與“背叛”。
在每一輪的博弈中(每個蒙特卡羅步),每個個體x與自己的所有一階鄰居逐一博弈,求平均之后得到本輪回報率
(3)
其中,Mr是回報率矩陣,見式(1);Nx是節(jié)點x的一階鄰居集合,nx是節(jié)點x的度,nx=|Nx|。之所以對nx次博弈的回報率求平均,是因為聯(lián)合生產(chǎn)博弈模型利用回報率而不是收益來衡量個體的得失。每一輪博弈中,同一節(jié)點的策略相同,出資也相同,整輪回報率是與所有鄰居博弈回報率的平均。
一輪博弈結(jié)束后,所有個體對自己的策略進行更新。在下一個蒙特卡羅步,個體利用新策略按照鄰居關(guān)系再次進行兩兩博弈。然后再更新、再博弈,如此不斷迭代循環(huán)。本文把采取合作策略的節(jié)點數(shù)量占整個網(wǎng)絡節(jié)點數(shù)量的比例定義為合作頻率Fc。隨著仿真的進行,合作頻率將不斷變化,可用于分析網(wǎng)絡結(jié)構(gòu)、博弈模型參數(shù)及更新規(guī)則參數(shù)對合作涌現(xiàn)的影響。
為了保證統(tǒng)計結(jié)果的可信性,每一組參數(shù)進行50次獨立仿真,仿真步長設為10 000步。合作頻率在保持穩(wěn)定的最后500蒙特卡羅步取均值,然后對50次仿真求平均。
本文把記憶長度設定為2,參照文獻[7],利用記憶因子u(0≤u≤1)對個體上一輪和本輪的回報率進行加權(quán)。定義個體的適應度Qx(t)如下
(4)
其中,t為蒙特卡羅步數(shù);Px(t)表示個體x在t時刻的整輪回報率;Qx(t)表示個體x在t時刻的適應度。記憶因子u反映適應度對上一輪回報率的權(quán)重,u越大表示對歷史記憶的依賴性越強。此處定義的適應度與文獻[7]不同,文獻[7]是對t和t-1時刻的一輪收益進行加權(quán),而本文是對t和t-1時刻的一輪回報率進行加權(quán)。與收益相比,回報率會削弱節(jié)點異質(zhì)性對合作涌現(xiàn)的影響。
個體的策略更新采用費米規(guī)則[18],每個節(jié)點x隨機選擇一個鄰居y,然后以適應度之差Qx(t)-Qy(t)為依據(jù)按照概率對該鄰居進行模仿
(5)
其中,W(Sy→Sx)為x模仿y的策略Sy的概率;κ表示環(huán)境的噪聲因素,描述個體的非理性程度。為將研究重點集中于博弈模型參數(shù)和記憶作用對合作涌現(xiàn)的影響,本文將κ設置為固定值0.1。
要求思想政治課教師結(jié)合教學內(nèi)容,每次課實施“時事開講5分鐘”。既增強教學內(nèi)容的新穎性,又能把理論知識和社會現(xiàn)實結(jié)合起來,同時增強思想政治課教師對黨和國家政策的了解和理解。
生成節(jié)點數(shù)N=1 000的BA網(wǎng)絡(n0=3,m=3)。先把固定成本設為c=0.5,考察記憶因子u為0.1~0.9時合作頻率Fc隨利潤系數(shù)k的變化規(guī)律,仿真結(jié)果見圖1(a)。
(a)
(b)
由圖1(a)可見,F(xiàn)c隨著k單調(diào)上升是聯(lián)合生產(chǎn)模型BA網(wǎng)絡演化博弈的一項基本規(guī)律[17]。在施加記憶作用之后,對于同樣的k值,記憶因子u越大合作頻率Fc越高。此外,隨著記憶因子u的引入并逐漸增大,網(wǎng)絡上出現(xiàn)固定比例合作者的k閾值逐漸變小。這兩個現(xiàn)象均表明,歷史記憶作用促進了BA網(wǎng)絡上的合作。
將固定成本增大為c=0.6,進行與圖1(a)同樣的仿真,得到Fc-k曲線如圖1(b)所示。當固定成本增大時,聯(lián)合生產(chǎn)博弈模型的背叛占優(yōu)屬性減弱,個體更傾向于選擇合作策略[17]。因此與圖1(a)相比,c=0.6時,同樣的利潤系數(shù)k和同樣的記憶因子u對應的合作頻率Fc更高,而且網(wǎng)絡上出現(xiàn)固定比例合作者的k閾值更小。此現(xiàn)象再次印證了歷史記憶對合作的促進作用,并同時表明該促進作用不受固定成本的影響。此外,圖1(b)還表明了足夠大的固定成本c和記憶因子u可能使得所有個體選擇合作。
在上文所生成的BA網(wǎng)絡上,將記憶因子設為u=0.5,考察固定成本c為0.4~0.9時合作頻率Fc隨利潤系數(shù)k的變化規(guī)律,仿真結(jié)果如圖2(a)所示。
(a)
(b)
由圖2(a)可見,F(xiàn)c-k單調(diào)曲線隨著固定成本c的增大而不斷抬高,出現(xiàn)穩(wěn)定比例合作者的k閾值不斷變小。此現(xiàn)象表明高比例的固定成本c會誘發(fā)高比例的群體合作,同時會降低出現(xiàn)穩(wěn)定比例合作者的利潤系數(shù)閾值。此趨勢與固定成本對博弈模型“合作/背叛占優(yōu)屬性”的影響規(guī)律一致,說明在記憶作用下該影響規(guī)律沒有改變。
將記憶因子增大到u=0.7,繼續(xù)考察固定成本c為0.4~0.9時的Fc-k規(guī)律,仿真結(jié)果見圖2(b)。圖2(b)保持了圖2(a)的基本規(guī)律,而與同一個c值對應的Fc-k曲線抬得更高,出現(xiàn)穩(wěn)定比例合作者及群體全部成為合作者對應的k閾值更小。此現(xiàn)象表明,對于0.4~0.9范圍內(nèi)的c值,記憶作用始終對群體合作有利,且記憶因子越大合作頻率越高、群體合作所需要的利潤系數(shù)閾值越低。
圖3給出了利潤系數(shù)k=2.2,固定成本分別為c=0.5和c=0.6時,不同記憶因子對應的合作頻率演化曲線。
(a)
由圖3可見,記憶因子較小(u=0.1)時,演化曲線與無記憶情況相似。合作頻率先從Fc=0.5的初始值開始,由于博弈模型的背叛占優(yōu)性質(zhì),合作頻率下降。隨著博弈迭代不斷進行,網(wǎng)絡互惠機制使得合作頻率停止下降并回升穩(wěn)定在與(c,k)值對應的合作頻率值上。記憶作用的存在使合作頻率穩(wěn)定值更高,且兩者呈正相關(guān),充分說明了記憶作用能夠促進群體合作。
(a)
由圖4(a)可見,隨著固定成本c的不斷增加,合作頻率大幅升高,甚至在c>0.7后,動態(tài)穩(wěn)定下的合作頻率達到了1。此現(xiàn)象表明高比例的固定成本會誘發(fā)高比例的群體合作,這與上文的結(jié)論保持一致。
將記憶因子增大到u=0.7,繼續(xù)考察固定成本c為0.3~0.9時的合作頻率演化過程,仿真結(jié)果如圖4(b)所示。圖4(b)保持了圖4(a)的基本規(guī)律,同一個c值對應的演化穩(wěn)定曲線抬得更高,出現(xiàn)穩(wěn)定比例合作者及群體全部成為合作者的時間更短。此現(xiàn)象表明,對于0.3~0.9范圍內(nèi)的c值,記憶作用始終對群體合作有利,且記憶因子越大合作頻率越高,群體出現(xiàn)穩(wěn)定比例合作者所需要的演化時間越少。
本文進一步考察了歷史記憶在其他網(wǎng)絡模型中對合作涌現(xiàn)的影響作用。生成N=200,p=0.02的ER隨機網(wǎng)絡和N=225二維格子網(wǎng)絡(Lattice Network,LA),把固定成本設為c=0.5,考察記憶因子u為0.1~0.9時合作頻率Fc隨利潤系數(shù)k的變化規(guī)律,仿真結(jié)果如圖5所示。
(a)
由圖5可見,在ER隨機網(wǎng)絡和格子網(wǎng)絡上,歷史記憶對合作涌現(xiàn)的影響作用與在BA網(wǎng)絡上相同,都能促進群體合作,提升合作頻率,降低出現(xiàn)穩(wěn)定比例合作者的利潤系數(shù)閾值,降低群體全部成為合作者的利潤系數(shù)閾值,且合作水平的提升與記憶因子取值正相關(guān)。此現(xiàn)象說明了歷史記憶對聯(lián)合生產(chǎn)演化博弈合作水平的促進作用,且對于不同的網(wǎng)絡模型具有普遍性。比較圖5的兩個子圖可知,在相同的參數(shù)下,ER隨機網(wǎng)絡上的聯(lián)合生產(chǎn)博弈合作水平更高、出現(xiàn)固定比例合作者及群體全部成為合作者對應的k閾值更小。
設置固定成本c=0.6,記憶參數(shù)u=0.7,對比在3種不同網(wǎng)絡拓撲結(jié)構(gòu)下,合作頻率Fc隨利潤系數(shù)k的變化規(guī)律,仿真結(jié)果如圖6所示。
圖6 3種網(wǎng)絡中合作頻率Fc與利潤系數(shù)k的關(guān)系
從圖6可以看出,當k<1.5時,ER隨機網(wǎng)絡中的合作頻率Fc高于LA和BA無標度網(wǎng)絡;而當k>1.5時,LA中的合作頻率Fc要高于ER隨機網(wǎng)絡和BA無標度網(wǎng)絡。此現(xiàn)象表明,利潤系數(shù)k較小時,由于模型的背叛占優(yōu)屬性,網(wǎng)絡拓撲結(jié)構(gòu)的隨機性越大,出現(xiàn)固定比例合作者的利潤系數(shù)閾值越小。隨著利潤系數(shù)k的不斷增大,越規(guī)則的網(wǎng)絡拓撲結(jié)構(gòu),受歷史記憶的影響越大,更容易產(chǎn)生合作團簇,防止背叛入侵,合作頻率也越高。此外,在利潤系數(shù)k=1.5處,3種網(wǎng)絡拓撲結(jié)構(gòu)下的合作頻率相等。此現(xiàn)象表明,固定成本和記憶因子在某些特定值時,可以找到某個利潤系數(shù)值使得3種網(wǎng)絡機制對合作涌現(xiàn)產(chǎn)生相同的影響。
本文基于聯(lián)合生產(chǎn)博弈模型,引入記憶因子對最近兩輪回報率進行加權(quán),作為策略更新的依據(jù),并采用費米動力學進行策略更新。通過蒙特卡羅仿真,研究了策略更新環(huán)節(jié)的歷史記憶對聯(lián)合生產(chǎn)演化博弈的影響。研究發(fā)現(xiàn),記憶長度設定為2的歷史記憶能夠有效促進合作、降低群體合作對利潤系數(shù)的門檻要求。通過合作的動態(tài)演化,證實了合作頻率的提升與記憶權(quán)重取值正相關(guān)。研究還發(fā)現(xiàn),歷史記憶對于聯(lián)合生產(chǎn)演化博弈合作水平的促進作用,在BA網(wǎng)絡、ER隨機網(wǎng)絡和格子網(wǎng)絡上具有普適性。本文的研究結(jié)果為電子生產(chǎn)行業(yè)的競爭與博弈現(xiàn)象提供了參考。