亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多元公共品演化博弈的無人作戰(zhàn)集群策略占優(yōu)條件

2021-08-24 01:27:58禹明剛張東戈馬子玉

系統(tǒng)工程與電子技術(shù) 2021年9期

關(guān)鍵詞：策略

禹明剛,何明,張東戈,馬子玉,康凱

(1.陸軍工程大學(xué)指揮控制工程學(xué)院,江蘇南京 210007;2.陸軍工程大學(xué)通信工程學(xué)院,江蘇南京 210007)

0 引言

隨著第3次人工智能浪潮的持續(xù)推進(jìn),由單體自主智能發(fā)展而來的群體演化智能,成為人工智能2.0的重要特征之一。尤其在軍事領(lǐng)域,無人集群(陸戰(zhàn)場(chǎng)無人車集群[1-3]、水面無人艇集群[4-6]、空域蜂群[7-10])作戰(zhàn)得到了前所未有的關(guān)注,美軍已將無人集群作戰(zhàn)列為一種能夠改變作戰(zhàn)規(guī)則的“顛覆性技術(shù)”。

目前,無人集群控制方式主要有集中控制和自主協(xié)同兩類。前者依賴于地面站指令和無人機(jī)預(yù)編程,后者要求集群針對(duì)環(huán)境態(tài)勢(shì)進(jìn)行自主智能決策。在戰(zhàn)場(chǎng)復(fù)雜電磁環(huán)境下,尤其當(dāng)集群進(jìn)入對(duì)方縱深之后,通信保障的展開面臨極高難度,通信失效概率急劇上升[11]。此時(shí),集中控制方式失效,無人集群必須依據(jù)對(duì)戰(zhàn)雙方情況、戰(zhàn)場(chǎng)環(huán)境等,作出針對(duì)性的臨機(jī)響應(yīng),依托集群內(nèi)部的自組織、自協(xié)同,接續(xù)遂行軍事任務(wù)。

在無人集群的自主協(xié)同進(jìn)程中,資源的全局優(yōu)化配置是必不可少的環(huán)節(jié),且深刻影響自主協(xié)同效能的發(fā)揮。然而,在資源配置中,智能單元的個(gè)體利益訴求和集群全局作戰(zhàn)需求,需要尋求一個(gè)平衡點(diǎn)。以集群火力打擊任務(wù)為例,由于智能性的存在,每個(gè)打擊單元均可獨(dú)立決策,為了保證自身的戰(zhàn)場(chǎng)生存能力,其將謹(jǐn)慎控制火力資源發(fā)射(投放)量。另一方面,在集群層面,單個(gè)打擊單元提供的火力支持強(qiáng)度越大,越有利于集群整體作戰(zhàn)效能的發(fā)揮。上述兩者在需求上的矛盾性將催生公共資源悲劇的發(fā)生[12]。如何設(shè)計(jì)合理的集群自協(xié)同機(jī)制,避免矛盾沖突,無論是在集群控制基礎(chǔ)領(lǐng)域還是現(xiàn)實(shí)演訓(xùn)/作戰(zhàn)中,都是一項(xiàng)必須解決的難題。

集群自協(xié)同的本質(zhì)在于解決個(gè)體間對(duì)立統(tǒng)一的關(guān)系,即求得收益的均衡。演化博弈理論[13-14]為解決集群自協(xié)同打開了一扇門。其中,公共物品演化博弈[15]為發(fā)掘集群的自組織機(jī)理、有效管控矛盾沖突奠定了一套理論框架。在該博弈過程中,研究如何提高合作者占比,并獲取嚴(yán)格的合作策略占優(yōu)條件,是解決公共資源悲劇,實(shí)現(xiàn)無人集群自主協(xié)同的重要前提。

哈佛大學(xué)Nowak教授團(tuán)隊(duì)[16-17]通過理論推導(dǎo)和模擬仿真,得到了基于模仿動(dòng)態(tài)的多方博弈在弱選擇強(qiáng)度下的策略占優(yōu)條件。Antal教授團(tuán)隊(duì)獲取了兩方博弈策略占優(yōu)條件[18],在此基礎(chǔ)上,對(duì)Nowak結(jié)論進(jìn)行拓展,得到了基于模仿動(dòng)態(tài)的多方博弈在任何選擇強(qiáng)度下的策略占優(yōu)條件[19-20]。不同于Nowak教授團(tuán)隊(duì),北京大學(xué)杜金銘團(tuán)隊(duì)將研究點(diǎn)從模仿動(dòng)態(tài)[16,21]轉(zhuǎn)向愿景驅(qū)動(dòng)[22]策略更新機(jī)制下的策略占優(yōu)條件研究。基于TARNITA[23]的研究工作,借助于統(tǒng)計(jì)學(xué)及計(jì)算機(jī)仿真發(fā)現(xiàn)弱選擇強(qiáng)度下平均豐度獨(dú)立于愿景水平值這一規(guī)律[24]。進(jìn)一步地,將理論成果拓展到多方博弈,獲取了基于愿景驅(qū)動(dòng)的多方博弈在弱選擇強(qiáng)度下的策略占優(yōu)條件[25-26]。

上述研究,為解決集群自組織自協(xié)同提供了很好的思路,打下了堅(jiān)實(shí)基礎(chǔ)。然而,在解決無人集群自主協(xié)同問題時(shí),仍有兩點(diǎn)需要引起注意:一是現(xiàn)有成果多面向一般性的演化博弈模型,尚未聚焦于公共物品博弈,而公共物品博弈恰恰是研究無人集群策略占優(yōu)條件、解決公共資源悲劇的基礎(chǔ)理論框架;二是尚未見軍事應(yīng)用研究成果,目前可見公共物品博弈在環(huán)境污染[27]、城市公共資源建設(shè)[28]、文化演進(jìn)[29]等方面的應(yīng)用,由于軍事領(lǐng)域的特殊性及無人集群作戰(zhàn)的新質(zhì)性,鮮有成果可循。

前期,以集群的自主協(xié)同設(shè)計(jì)為目標(biāo)牽引,通過理論推導(dǎo),得到了多元公共品演化博弈的平均豐度函數(shù),并仿真分析了相關(guān)參數(shù)對(duì)平均豐度的影響[30]。平均豐度是獲取策略占優(yōu)條件的根本依據(jù),因此本研究在前期研究基礎(chǔ)上,首先采用愿景驅(qū)動(dòng)規(guī)則,基于多元演化博弈框架對(duì)無人集群合作演化建模。接下來,以平均豐度函數(shù)為出發(fā)點(diǎn),理論推導(dǎo)多元演化博弈的合作策略占優(yōu)條件。然后,針對(duì)線性及門限兩類典型的公共物品博弈,給出策略占優(yōu)條件并進(jìn)行特性分析。最后,依據(jù)特性分析結(jié)果,給出避免公共資源悲劇,實(shí)現(xiàn)無人集群自主協(xié)同的建議。

1 軍事需求分析

無人集群自主協(xié)同示意如圖1所示。

圖1 無人集群自主協(xié)同示意圖Fig.1 Sketch map of autonomous cooperation of unmanned swarm

無人集群的自主協(xié)同,涉及3個(gè)關(guān)鍵問題:一是集群智能的涌現(xiàn),二是信息網(wǎng)絡(luò)的構(gòu)建,三是協(xié)同機(jī)制的設(shè)計(jì),三者共同構(gòu)建起了無人集群自主協(xié)同行為產(chǎn)生的基礎(chǔ)框架。三者之間的關(guān)系如圖2所示(由于信息網(wǎng)絡(luò)的構(gòu)建不在本文討論范圍,因此做了淡化處理)。

圖2 無人集群自主協(xié)同行為產(chǎn)生的基礎(chǔ)框架Fig.2 Basic framework of autonomous cooperative behavior in unmanned swarm

其中,從個(gè)體到群體的智能涌現(xiàn)是集群自主性協(xié)同行為產(chǎn)生的內(nèi)在源動(dòng)力;信息網(wǎng)絡(luò)是集群內(nèi)部信息交互發(fā)生的空間,是自主協(xié)同行為的空間載體;協(xié)同機(jī)制則是集群自主協(xié)同得以實(shí)現(xiàn)的最終途徑。下面分別就智能涌現(xiàn)和協(xié)同機(jī)制展開討論。

1.1 智能涌現(xiàn)

智能性(包括個(gè)體的單體智能和群體涌現(xiàn)智能)是分布式自主控制方式對(duì)集群的必然要求。事實(shí)上,讓無人集群按照預(yù)定方案執(zhí)行軍事任務(wù),這一思路本身存在先天不足。復(fù)雜環(huán)境下,戰(zhàn)場(chǎng)態(tài)勢(shì)瞬息萬變,若對(duì)單個(gè)無人平臺(tái)實(shí)施微觀管理,將導(dǎo)致通信等資源嚴(yán)重過載,即響應(yīng)性的控制大量無人平臺(tái)將超出人類目前的技術(shù)、認(rèn)知、決策能力,大概率導(dǎo)致作戰(zhàn)行動(dòng)失敗。因此,必須將更多的決策、行動(dòng)權(quán)限前移給集群自治系統(tǒng),使得無人平臺(tái)能夠獨(dú)立協(xié)調(diào)自身決策以產(chǎn)生支持集群目標(biāo)的行為。

同時(shí),智能化作戰(zhàn)制勝機(jī)理的內(nèi)核即為智能、自主。美國(guó)國(guó)防科學(xué)委員會(huì)指出智能和自主能力是美軍無人系統(tǒng)中的核心能力,并分析了智能和自主能力給無人機(jī)、無人地面系統(tǒng)、無人海上平臺(tái)和無人太空系統(tǒng)帶來的作戰(zhàn)效益[31]。未來無人集群作戰(zhàn)系統(tǒng)將具備更高的感知、分析、計(jì)劃、決策和執(zhí)行能力,并朝著戰(zhàn)場(chǎng)態(tài)勢(shì)自主感知、作戰(zhàn)任務(wù)自主規(guī)劃、作戰(zhàn)行動(dòng)自主實(shí)施,作戰(zhàn)協(xié)同自主聯(lián)動(dòng)、作戰(zhàn)效果自主評(píng)估的方向邁進(jìn)。

目前來看,無人作戰(zhàn)力量的發(fā)展路徑也正是起始于人機(jī)互動(dòng)的遙控式,經(jīng)歷人機(jī)結(jié)合的協(xié)作式,向人機(jī)共融的自主式方向發(fā)展[32-33]?？梢灶A(yù)見,無人集群的智能涌現(xiàn)也將經(jīng)歷有人為主、無人為輔的智能嵌入到有人為輔、無人自主的智能支撐再到仿生自主、集群攻防的智能主導(dǎo)演進(jìn)[34]。

1.2 協(xié)同機(jī)制

無人集群作戰(zhàn)由于其體系的區(qū)域分布性,智能自主特性以及去中心化特性,集群內(nèi)部必須基于信息網(wǎng)絡(luò),構(gòu)建起有序的協(xié)同與合作,以確保良好的戰(zhàn)場(chǎng)生存能力和任務(wù)完成能力。

具備智能性的單個(gè)無人平臺(tái)在與其他平臺(tái)的交互中,必然會(huì)計(jì)算評(píng)估其自身的能量、損耗、成本、行為代價(jià)等因素,以最大化其自身收益,此過程不可避免地伴隨著個(gè)體間的競(jìng)爭(zhēng),導(dǎo)致個(gè)體收益與集群總效用最優(yōu)上的偏離。因此,協(xié)同機(jī)制設(shè)計(jì)中的一類關(guān)鍵問題是如何保持個(gè)體收益與集群效用的一致。

良好的協(xié)同機(jī)制設(shè)計(jì)是破解個(gè)體收益與集群總效用間矛盾的關(guān)鍵。目前,在經(jīng)典的多智能體系統(tǒng)(multi-agent system,MAS)理論[35]、復(fù)雜適應(yīng)系統(tǒng)(complex adaptive systems,CAS)理論[36]和復(fù)雜網(wǎng)絡(luò)理論[37]框架下,組分(個(gè)體)與系統(tǒng)(集體)在各自優(yōu)化方向上的競(jìng)爭(zhēng)和沖突問題,有待進(jìn)一步深化研究。

不同于傳統(tǒng)的優(yōu)化問題,群體協(xié)同控制問題并非簡(jiǎn)單地可以通過選擇某種行為,以提高所有個(gè)體的適應(yīng)能力。更復(fù)雜的情況是,不同個(gè)體在交互過程中,由于其相互間直接的影響,各個(gè)個(gè)體利益的提高往往是相互沖突的。構(gòu)建在多個(gè)體對(duì)立統(tǒng)一基礎(chǔ)之上的博弈論恰恰為研究群體中多個(gè)體間的交互協(xié)同提供了一種有效的研究框架。

所有個(gè)體作為博弈的參與方,各種可選行為是博弈的策略集,前兩者與各策略的對(duì)應(yīng)收益一起構(gòu)成博弈局勢(shì)。個(gè)體通過評(píng)估周圍個(gè)體及環(huán)境因素的影響,選擇某種策略,并在重復(fù)博弈過程中,通過自適應(yīng)學(xué)習(xí)來最大化自身及群體收益[38-39]。最終,借助于經(jīng)典博弈的納什均衡或演化博弈的演化穩(wěn)定策略(evolutionary stable ,ESS)來揭示群體協(xié)同機(jī)理。

2 數(shù)學(xué)模型

首先,需要明確待解問題與理論框架間的關(guān)聯(lián)關(guān)系,如表1所示。

表1 概念映射關(guān)系Table 1 Relationship between concepts

2.1 多元演化博弈模型

本研究設(shè)定種群結(jié)構(gòu)為混合均勻,種群規(guī)模為N,每個(gè)個(gè)體均在有限策略集{A,B}中實(shí)施選擇和更新。隨著演化進(jìn)程的迭代滾動(dòng),A/B類型的個(gè)體在種群N中數(shù)量(即比例)將實(shí)時(shí)調(diào)整,并最終平穩(wěn)收斂到某一值附近,此時(shí)即為演化穩(wěn)定。

將多元演化博弈過程提煉為3個(gè)主要環(huán)節(jié),如圖3所示。

圖3 多元演化博弈過程Fig.3 Procedure of multiple evolutionary game

上述過程重復(fù)推進(jìn),直到演化穩(wěn)定狀態(tài)。依據(jù)超幾何分布的數(shù)學(xué)意義[40],A類型焦點(diǎn)個(gè)體X在某輪博弈中的期望收益為

(1)

(2)

具體推導(dǎo)過程可參見文獻(xiàn)[30],限于篇幅此處不再展開。

2.2 愿景驅(qū)動(dòng)動(dòng)態(tài)

演化博弈理論框架下,策略更新機(jī)制總體上可劃分為兩大分支:模仿動(dòng)態(tài)[21]和愿景驅(qū)動(dòng)動(dòng)態(tài)[41-43]?，F(xiàn)有成果表明,無論在囚徒困境博弈還是公共物品博弈中,愿景驅(qū)動(dòng)的動(dòng)態(tài)機(jī)制相比于傳統(tǒng)模仿動(dòng)態(tài),更能提高平均豐度值,進(jìn)而促進(jìn)合作[44-45]。在愿景驅(qū)動(dòng)規(guī)則下,焦點(diǎn)個(gè)體從A類型更新為B類型的概率為

(3)

式中：參數(shù)α反映了個(gè)體X的愿景高低;ω為調(diào)節(jié)系數(shù),其可調(diào)節(jié)項(xiàng)πA-α對(duì)PA→B的決定程度。若πA-α=0,即PA→B=1/2,那么i對(duì)于兩策略具有同等的傾向性;若πA-α>0(即i的收益超出愿景值),那么PA→B<1/2,此時(shí)i對(duì)于A策略具有更高的傾向性;若πA-α<0(即i的收益不及愿景值),那么PA→B>1/2,此時(shí)i對(duì)于B策略具有更高的傾向性。

同理,焦點(diǎn)個(gè)體從B類型更新為A類型的概率為

(4)

在任意一種策略更新機(jī)制下,每一輪演化博弈進(jìn)程里A類型個(gè)體的數(shù)量變動(dòng)存在3種情況:① 數(shù)量減少1個(gè),i→i-1;② 數(shù)量增加1個(gè),i→i+1;③ 數(shù)量保持不變,i→i。

根據(jù)式(3)和式(4)可得對(duì)應(yīng)的轉(zhuǎn)移概率:

(5)

(6)

(7)

3 策略占優(yōu)規(guī)則

本節(jié)首先給出平均豐度的定義,根據(jù)定義給出其數(shù)學(xué)表達(dá)式,進(jìn)而基于平均豐度函數(shù)的一階泰勒展開式,推導(dǎo)出合作策略占優(yōu)規(guī)則。

3.1 平均豐度

定義 1平均豐度

設(shè)集群中A型作戰(zhàn)單元數(shù)量為j,比例j/N為隨機(jī)變量,令ν(j)為j/N的概率分布,則定義j/N的期望值為集群中A型作戰(zhàn)單元的平均豐度。

由上述定義易知,合作策略A的平均豐度可表示為

(8)

平均豐度計(jì)算的關(guān)鍵是確定隨機(jī)變量的概率分布ν(j)。對(duì)于無吸收態(tài)的馬爾可夫鏈,ν(j)即為馬爾可夫鏈的平穩(wěn)分布φj(j∈[0,N]),而φj滿足細(xì)節(jié)平衡條件[46-48]:

(9)

對(duì)式(9)進(jìn)行歸納分析易得

(10)

(11)

(12)

將式(12)代入式(8)可得策略A的平均豐度展開式:

(13)

其中,

(14)

3.2 策略占優(yōu)條件

定義 2策略占優(yōu)

無人集群作戰(zhàn)中,當(dāng)集群內(nèi)部博弈達(dá)到演化穩(wěn)定狀態(tài)時(shí),若某策略的平均豐度值大于0.5,則稱該策略為占優(yōu)策略。

因此,合作策略占優(yōu)即為

(15)

對(duì)式(15)的φj做一階泰勒展開:

(16)

(17)

式中:

(18)

(19)

由于ω→0,因此:

(20)

(21)

(22)

(23)

(24)

(25)

將式(20)～式(25)代入式(16),得

(26)

將式(20)和式(21)代入式(26)得

(27)

由于：

(28)

策略占優(yōu)條件即等價(jià)于:

(29)

由數(shù)學(xué)推導(dǎo)易得

(30)

結(jié)合式(24)和式(25),可得

(31)

因此,合作策略占優(yōu)條件為

(32)

本節(jié)通過嚴(yán)格數(shù)學(xué)推導(dǎo),得出了多元演化博弈策略占優(yōu)條件,為下一節(jié)兩類公共物品博弈特性分析,提供了理論依據(jù)。

4 演化博弈分析

本節(jié)對(duì)線性和帶門限值的兩類公共品博弈進(jìn)行分析,獲取其策略收益,仿真策略占優(yōu)特性,并最終為集群自主協(xié)同機(jī)制設(shè)計(jì)給出合理化建議。

4.1 線性公共品博弈

在線性公共品博弈中,當(dāng)X選擇合作策略A,則群組可獲得的總資源量為kc+c,成本增值后的總獲益為r(kc+c),因此易得單體獲益為r(kc+c)/d,然而因?yàn)閄最初有c的投資,則X凈獲益可表征為r(kc+c)/d-c。另一種情況,X采取了B策略,對(duì)應(yīng)地,上述幾個(gè)參數(shù)分別變化為kc、rkc、rkc/d、rkc/d。ak與bk具體形式可表征為

(33)

(34)

收益矩陣如表2所示。

表2 線性公共品博弈收益矩陣Table 2 Pay-off matrix of liner public goods game

由于ak-bk=c(r/d-1),且一般假設(shè)1

(35)

因此,線性公共品博弈為非合作占優(yōu)博弈,即演化均衡時(shí),集群中合作策略為非占優(yōu)策略,非合作者將占據(jù)主導(dǎo)。為分析該博弈策略占優(yōu)特性,取α=1、N=100、c=1,仿真分析選擇強(qiáng)度ω、收益系數(shù)r、愿景水平α對(duì)合作策略平均豐度XA的影響,以期總結(jié)規(guī)律,為無人集群合作策略占優(yōu)管控提供參考。ω、r與XA的關(guān)系曲線如圖4所示。

圖4 線性公共品博弈中選擇強(qiáng)度、收益系數(shù)與XA的關(guān)系Fig.4 Relationship between selection intensity,reward coefficient and XA in linear public goods game

圖4(a)中,d分別取10和20,r=2。在選擇強(qiáng)度ω=0時(shí),平均豐度XA==0.5;在選擇強(qiáng)度較小時(shí)(如圖4(a)小面板所示),合作者的愿景難以滿足,因此大量合作者轉(zhuǎn)換策略,平均豐度出現(xiàn)下降趨勢(shì)。隨著選擇強(qiáng)度增加,平均豐度略有提升,將逐漸穩(wěn)定在0.45左右。圖4(b)中,d分別取10和20,r=d/2。相比于圖4(a),圖4(b)中收益系數(shù)r的增加(r由2分別增加到5和10),使得平均豐度產(chǎn)生遞減,且r增加幅度越大平均豐度降幅越大:XA(ω)|r=10XA(ω)|r=5,這是由于同時(shí)增加集群中合作單元和非合作單元的收益,將會(huì)使得“搭便車”現(xiàn)象更加嚴(yán)重,集群中大量作戰(zhàn)單元轉(zhuǎn)變?yōu)榉呛献髡摺?/p>

結(jié)論 1線性公共物品博弈中,在成本c、愿景水平α保持不變的情況下,合作者平均豐度將在弱選擇強(qiáng)度(ω→0)和較小收益系數(shù)處保持相對(duì)較高水平。對(duì)于弱選擇強(qiáng)度對(duì)合作的促進(jìn)作用,已在生物遺傳、分子進(jìn)化、文化演進(jìn)等領(lǐng)域得到現(xiàn)實(shí)驗(yàn)證[48-50],盡管目前還不清楚其作用機(jī)理。

因此,在線性公共品博弈模型下的無人集群作戰(zhàn)管控中,雖然合作為非占優(yōu)策略,然而可通過為作戰(zhàn)集群預(yù)設(shè)ω和r較低參數(shù)值,弱化兩者對(duì)策略更新的影響,以最大限度提升集群中合作者平均豐度,促進(jìn)集群合作的發(fā)生。

此外,還仿真了愿景水平α與XA的關(guān)系曲線,ω分別取0、5、10、15、20,c=1,r=1.1。關(guān)系曲線如圖5所示。

圖5 平均豐度與愿景水平間的關(guān)系曲線Fig.5 Relationship between average abundance and aspiration level

由圖5可見,隨愿景水平α的增加,XA呈增加趨勢(shì),這表明愿景水平的提高,使得非合作收益更難以達(dá)到其期望水平。由式(4)可知，策略更新概率PB→A增加,更多的非合作者轉(zhuǎn)變?yōu)楹献髡?。?dāng)α足夠高時(shí),在任何選擇強(qiáng)度下,limα→∞XA=1/2將成立。

結(jié)論 2線性公共物品博弈中,在成本c、收益系數(shù)r保持不變的情況下,合作者平均豐度將在較大愿景水平處保持相對(duì)較高水平。

因此,在線性公共品博弈模型下的無人集群作戰(zhàn)管控中,可通過為集群預(yù)設(shè)較高α參數(shù)值,增加集群由非合作轉(zhuǎn)變?yōu)楹献鞑呗缘母怕?以最大限度提升集群中合作者平均豐度,促進(jìn)集群合作的發(fā)生。

4.2 門限公共品博弈

在帶門限值的公共品博弈中,只有當(dāng)群組中合作策略持有者總數(shù)量不低于門限值m時(shí),個(gè)體才會(huì)獲得收益。當(dāng)k≥m,且X選擇合作策略A,則群組可獲得的總資源量為kc+c,成本增值后的總獲益為r(kc+c),因此易得單體獲益為r(kc+c)/d。另一種情況,X采取了B策略,對(duì)應(yīng)地,上述幾個(gè)參數(shù)分別變化為kc、rkc、rkc/d、rkc/d+c。因此，ak與bk具體形式為

(36)

(37)

收益矩陣如表3所示。

表3 門限公共品博弈收益矩陣Table 3 Incme matrix of public goods game with threshold

因此:

(38)

不同于線性公共品博弈,式(38)并無明顯的策略占優(yōu)特征。接下來,試圖通過計(jì)算與仿真,比較愿景驅(qū)動(dòng)與模仿動(dòng)態(tài)兩類策略占優(yōu)條件的嚴(yán)苛程度。

(39)

則式(39)等價(jià)于:

(40)

r>d-m

(41)

比較式(40)與式(41)可以得到以下結(jié)論。

為分析愿景驅(qū)動(dòng)下,門限公共品博弈策略占優(yōu)特性,取α=1、N=100、c=1、d=10,仿真分析不同的門限值m及收益系數(shù)r對(duì)合作策略占優(yōu)的影響。m、r與XA的關(guān)系曲線如圖6所示。

圖6 門限公共品博弈中門限值、收益系數(shù)與XA的關(guān)系Fig.6 Relationshiop between threshold value,reward coefficient and XA in public goods game with threshold

由圖6(a)可知,在r=2時(shí),當(dāng)門限值m由4提升到7,合作策略的平均豐度XA不僅相應(yīng)地完成了提升,而且實(shí)現(xiàn)了占優(yōu)策略的轉(zhuǎn)換(平均豐度由XA|m=4<0.5轉(zhuǎn)換為XA|m=7>0.5,占優(yōu)策略由B轉(zhuǎn)換為A)。圖6(a)右上角面板給出了幾組門限值m與收益系數(shù)r間的關(guān)系,隨門限值增加,合作策略占優(yōu)時(shí)所需的收益系數(shù)越來越小(即所需的回報(bào)越來越少)。相比于圖6(a),在圖6(b)中,m仍然取4與7,然而由于r由2增加為4,因此在相同的選擇強(qiáng)度和門限值下有XA|m=4,r=4>XA|m=4,r=2和XA|m=7,r=4>XA|m=7,r=2。

結(jié)論 3門限公共物品博弈中,在成本c、愿景水平α保持不變的情況下,較高的門限值能夠促進(jìn)合作,即使在較低的收益系數(shù)下;且在相同的門限值下,較高的收益系數(shù)更利于合作的產(chǎn)生。

因此,在門限公共品博弈模型下的無人集群作戰(zhàn)管控中,可通過同時(shí)提高門限值m及收益系數(shù)r,以發(fā)揮愿景驅(qū)動(dòng)在促進(jìn)集群合作中的優(yōu)勢(shì),實(shí)現(xiàn)集群中合作策略占優(yōu)目的。

在實(shí)際的無人集群管控中,依據(jù)第2節(jié)提出的無人集群演化博弈模型及愿景驅(qū)動(dòng)動(dòng)態(tài),為無人集群預(yù)設(shè)自主協(xié)同規(guī)則RC。另外,針對(duì)具體作戰(zhàn)場(chǎng)景,依據(jù)本研究所獲結(jié)論1至結(jié)論3,預(yù)設(shè)成本c、愿景水平α、收益系數(shù)r、門限值m等參數(shù)調(diào)整規(guī)則(r1-r3)。當(dāng)?shù)孛婵刂普就ㄐ胖袛嗪?無人集群可根據(jù)預(yù)設(shè)規(guī)則臨機(jī)作出有效響應(yīng),實(shí)現(xiàn)集群中合作策略的占優(yōu),以持續(xù)完成既定軍事任務(wù)。

例如,在實(shí)際作戰(zhàn)中,無人機(jī)的愿景水平α一般為定值,且彈藥、通信等作戰(zhàn)成本c難以進(jìn)一步壓縮。此時(shí),無人集群可在RC框架內(nèi)依據(jù)r3自動(dòng)為協(xié)同進(jìn)程設(shè)置較高的門限值m及收益系數(shù)r,以此提升集群穩(wěn)定時(shí)(對(duì)應(yīng)于演化穩(wěn)定的ESS狀態(tài))合作者的占比,促成集群中合作行為的涌現(xiàn)及合作策略占優(yōu)的實(shí)現(xiàn)。

5 結(jié) 論

無人集群的自主協(xié)同是目前軍事領(lǐng)域新質(zhì)作戰(zhàn)力量和顛覆性技術(shù)研究的焦點(diǎn)。自主協(xié)同中一個(gè)關(guān)鍵問題是,如何設(shè)計(jì)合理機(jī)制,提高作戰(zhàn)集群中合作者比例,以保證集群的整體作戰(zhàn)效能。本文首先建立了基于愿景驅(qū)動(dòng)的多元演化博弈模型,然后理論推導(dǎo)出模型的平均豐度函數(shù)及策略占優(yōu)條件,在此基礎(chǔ)上,對(duì)線性和帶門限值的兩類公共品博弈進(jìn)行數(shù)理推導(dǎo)并仿真分析選擇強(qiáng)度ω、收益系數(shù)r、愿景水平α和門限值m對(duì)策略占優(yōu)的影響,獲取兩類博弈模型的策略占優(yōu)特性,為無人集群作戰(zhàn)的機(jī)制設(shè)計(jì)提供輔助決策。

本研究中,假設(shè)了集群結(jié)構(gòu)的混合均勻性,未考慮結(jié)構(gòu)對(duì)策略占優(yōu)特性的影響,而在現(xiàn)實(shí)戰(zhàn)場(chǎng)環(huán)境中,作戰(zhàn)平臺(tái)通過物理/信息鏈接從而形成特定的網(wǎng)絡(luò)結(jié)構(gòu)。下一步課題組將引入復(fù)雜網(wǎng)絡(luò)思想,計(jì)算特定網(wǎng)絡(luò)結(jié)構(gòu)下的無人集群演化博弈及策略占優(yōu)特性。